CN108305622B

CN108305622B - 一种基于语音识别的音频摘要文本创建方法及其创建装置

Info

Publication number: CN108305622B
Application number: CN201810007804.2A
Authority: CN
Inventors: 王守峰; 李晓琳
Original assignee: Haier Uplus Intelligent Technology Beijing Co Ltd
Current assignee: Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date: 2018-01-04
Filing date: 2018-01-04
Publication date: 2021-06-11
Anticipated expiration: 2038-01-04
Also published as: CN108305622A

Abstract

本发明提供一种基于语音识别的音频摘要文本创建方法及其创建装置，其中创建方法包括以下步骤：S1：播放音频文件时，接收创建摘要命令；S2：确定接收创建摘要命令时音频文件的播放位置；S3：根据播放位置确定目标音频段的位置信息；S4：获取目标音频段中的音频内容；S5：识别音频内容获得文本信息。本发明能够在无需利用其他编辑软件的基础上，方便快捷地创建音频摘要，并进一步将音频摘要转化为文本文摘保存。一方面方便读者快速了解未听阅过的新书的概要，另一方面也方便读者实时保存自己关心的音频片段，便于日后准确回忆起已听阅书籍的内容，以利于有针对性地选择重听与否。

Description

一种基于语音识别的音频摘要文本创建方法及其创建装置

技术领域

本发明涉及语音信息处理技术领域，尤其涉及一种能够对实时播放的语音文件创建摘要的方法及其装置。

背景技术

随着智能手机的迅速发展，人们的阅读方式也发生着剧烈的改变，随着各类“听书”软件的出现，越来越多的人也从传统的看书转换为听书。听书的好处不一而足，例如保护视力，节约资源，随时随地不受外界影响等等。然而对于目前的听书播放器而言，也存在着一些弊端。例如，当用户对一本全新的书籍进行听阅时，若想在较短时间内确定该音频书籍是否适合自己，则需要对书籍进行快速浏览。而由于现有的播放器在播放书籍音频文件时，只能实现从头到尾的顺序完整播放，若想对音频文件进行选择式浏览，则只能通过更为复杂的音频编辑软件进行手动操作，不仅费时费力，而且需要一定的专业基础，不适合广大普通听众的日常使用。

发明内容

本发明旨在解决上面描述的问题，提供一种使用户能方便快速地对书籍等音频文件进行音频摘要文本创建的方法及其装置。

根据本发明的第一方面，本发明提供一种基于语音识别的音频摘要文本创建方法，包括以下步骤：

S1：播放音频文件时，接收创建摘要命令；

S2：确定接收到创建摘要命令时音频文件的播放位置；

S3：根据播放位置确定目标音频段的位置信息；

S4：获取目标音频段中的音频内容；

S5：识别音频内容获得文本信息。

根据本发明提供的音频摘要文本创建方法，其中，步骤S3中根据播放位置确定目标音频段的位置信息的方法包括以下内容中的任一种：

将播放位置作为目标音频段的起始位置，将起始位置之后的预设时长的位置作为目标音频段的结束位置；

将播放位置作为目标音频段的结束位置，将结束位置之前的预设时长的位置作为目标音频段的起始位置；

将播放位置和偏移时长位置的和作为目标音频段的起始位置，将起始位置之后的预设时长的位置作为目标音频段的结束位置；和

将播放位置和偏移时长位置的和作为目标音频段的结束位置，将结束位置之前的预设时长的位置作为目标音频段的起始位置。

根据本发明提供的音频摘要文本创建方法，其中，步骤S3中根据播放位置确定目标音频段的位置信息的方法包括：

接收到的创建摘要命令的类型为指示提取起始点的第一创建摘要命令时，将当前播放位置作为目标音频段的起始位置；

接收到的创建摘要命令的类型为指示提取结束点的第二创建摘要命令时，将当前播放位置作为目标音频段的结束位置。

根据本发明提供的音频摘要文本创建方法，其中，步骤S5之前还包括：重复执行步骤S1至步骤S4，直至音频文件播放完毕；具体包括：

S11：播放音频文件时接收到第N次创建摘要命令；

S21：确定接收到第N次创建摘要命令时音频文件的播放位置；

S31：根据播放位置确定目标音频段的位置信息；

S41：获取目标音频段中的第N个音频内容；其中N为大于1的自然数。

根据本发明提供的音频摘要文本创建方法，其中，步骤S5包括：将获取到的N个音频内容组合成新的音频内容；识别新的音频内容获得文本信息。

根据本发明提供的音频摘要文本创建方法，其中，步骤S5包括：将N个音频内容中的每一个识别为独立的文本信息，将N个独立的文本信息组合成新的文本信息。

根据本发明提供的音频摘要文本创建方法，其中，步骤S5中还包括步骤S51：对获得的N个音频摘要进行整合；具体包括：

S511：将N个音频摘要按时间顺序排列形成一摘要集合文件；

S512：删除摘要集合文件中重复的语音信息。

根据本发明提供的音频摘要文本创建方法，其中，步骤S512包括：

S5121：按照播放时间顺序计算摘要集合文件中每个语音元素的播放速率；每当检测到播放速率发生变化时，在发生变化的语音元素前插入一个分组标签；

S5122：将相邻两个分组标签之间的语音元素视为一个播放组；

S5123：将所有的播放组相互之间进行两两比较，当进行比较的两个播放组中语音元素的相似度大于一预设阈值时，删除两个播放组中的任一个。

根据本发明提供的音频摘要文本创建方法，其中，还包括步骤S6：选择固定字数的关键词作为文本信息的名称进行保存。

根据本发明的另一方面，提供一种基于语音识别的音频摘要文本创建装置，包括：

命令接收模块：用于在播放音频文件时，接收创建摘要命令；

播放位置确定模块：用于确定接收创建摘要命令时音频文件的播放位置；

音频段位置确定模块：与播放位置确定模块相连，用于根据播放位置确定目标音频段的位置信息；

获取模块：用于获取目标音频段中的音频内容；

识别模块：用于识别音频内容获得文本信息。

根据本发明的另一方面，提供一种用于音频摘要文本创建的计算机可读存储介质，存储介质上存储有计算机程序，其中，计算机程序被处理器执行时实现了上述音频摘要文本创建方法的步骤。

根据本发明的另一方面，提供一种用于音频摘要文本创建的计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时实现了上述音频摘要文本创建方法的步骤。

与现有技术相比，本发明能够在无需利用其他编辑软件的基础上，方便快捷地创建音频摘要，并进一步将音频摘要转化为文本文摘保存。一方面方便读者快速了解未听阅过的新书的概要，另一方面也方便读者实时保存自己关心的音频片段，便于日后准确回忆起已听阅书籍的内容，以利于有针对性地选择重听与否。

以下参照附图来阅读对于示例性实施例的以下描述，本发明的其他特性特征和优点将变得清晰。

附图说明

并入到说明书中并且构成说明书的一部分的附图示出了本发明的实施例，并且与描述一起用于解释本发明的原理。在这些附图中，类似的附图标记用于表示类似的要素。下面描述中的附图是本发明的一些实施例，而不是全部实施例。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他的附图。

图1示例性地示出了本发明的创建音频摘要文本的方法的流程；

图2示例性地示出了本发明中单次创建音频摘要文本的方法的主要过程；

图3示例性地示出了本发明中多次创建音频摘要文本并进行整合加工的方法的流程图；

图4示例性地示出了本发明中音频摘要文本创建装置的组成结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

本技术可以以插件形式集成入音频播放软件或系统中。用户可以实现预设期望，当系统正在播放音频时，用户遇到感兴趣的内容可以快速截取当前片段，并转换成文本保存到文件系统。本发明的创建音频摘要文本的方法的流程图请参见图1所示，主要包括以下步骤：

S1：播放音频文件时，接收创建摘要命令；

S2：确定接收到创建摘要命令时音频文件的播放位置；

S3：根据播放位置确定目标音频段的位置信息；

S4：获取目标音频段中的音频内容；

S5：识别音频内容获得文本信息。

以下通过具体实施例来进行说明。

第一实施例

本发明的第一实施例针对单次创建音频摘要的情况进行描述，请参考图2。所谓单次创建音频摘要，就是在一个音频文件的播放过程中只接收到一次创建摘要命令。

首先，针对正在播放的音频文件，用户可以通过一种快捷方式来发出创建摘要命令。这里的快捷方式包括利用一个快捷键或者多个快捷键组合的方式。创建摘要命令可以是设备的硬件组件发出的命令，例如手机上音量减小键和开关键同时按下时发出的信号，或者是长按某一按键时发出的信号。又例如是播放软件在播放音频时接收到的触屏信号，如双击屏幕的信号，在屏幕上画预设图形的信号等等。创建摘要命令还可以是音频播放软件的功能键，例如对音频播放软件进行改造后，增加了创建摘要命令的功能键，用户想发出创建摘要命令时，只需在音频播放软件的界面上点击此功能键即可。

系统或音频播放器收到创建摘要命令后，保存当前播放的文件及当前播放位置，例如可以通过播放时间来确定当前播放位置。

接下来，根据事先预设的音频摘要长度及当前播放位置截取音频片段，其中音频摘要长度可以根据音频播放时间设定，也可以根据音频元素(这里指音频文件中的每一个字符)的个数进行设定；截取音频片段时，可以根据实际情况选择向前截取或者向后截取。

最后根据现有的语音识别技术对截取的音频摘要进行识别以得到文本内容，该文本内容可以利用固定字数的文本内容(例如开头的10个字)作为文件名进行保存。

至此，成功完成单次音频摘要的创建过程。

第二实施例

本发明的第二实施例针对多次创建音频摘要的情况进行描述，请参考图2。本实施例中的多次创建音频摘要是针对第一实施例中的单次创建音频摘要相对而言的。因为在实际听阅音频文件的过程中，听众可能不仅仅对一段内容感兴趣，而是不断地听到不同的精彩部分。这个时候就需要用到多次创建音频摘要的方法，满足听众对于多段内容同时创建摘要的需求。具体内容包括以下步骤：

首先，仍然是播放音频文件时接收到第一次创建摘要命令；

其次，确定接收到第一次创建摘要命令时音频文件的播放位置；根据播放位置确定目标音频段的位置信息；

再次，获取目标音频段中的第一个音频内容。

当用户再次听到感兴趣的内容时，重复执行上述两个步骤，直至音频文件播放完毕；具体包括：

播放音频文件时接收到第N次创建摘要命令；

确定接收到第N次创建摘要命令时音频文件的播放位置；根据播放位置确定目标音频段的位置信息；

获取目标音频段中的第N个音频内容。

在上述过程中，用户共发出N次创建摘要命令，得到了N个音频摘要。

接下来需要对上述获得的N个音频摘要进行整合，具体包括，将N个音频摘要按时间顺序排列形成一摘要集合文件，删除摘要集合文件中重复的语音信息。

其中删除摘要集合文件中重复的语音信息的步骤包括：

按照播放时间顺序计算摘要集合文件中每个语音元素的播放速率；每当检测到播放速率发生变化时，在发生变化的语音元素前插入一个分组标签；

将相邻两个分组标签之间的语音元素视为一个播放组；在实际操作中，播放速率发生变化一般意味着一句话的断开或者结束，因此一个播放组可以理解为一句话或者一段话等等。

将所有的播放组相互之间进行两两比较，当进行比较的两个播放组中语音元素的相似度大于一预设阈值时，删除两个播放组中的任一个。这种删除的目的是为了精简音频摘要，尽量减少出现重复内容的概率。

将完成整合的音频摘要作为最终创建的音频摘要，利用语音识别技术识别为文本信息并进行保存，该步骤的操作过程同第一实施例。

第三实施例

本发明还提供一种基于语音识别的音频摘要文本创建装置，如图4，包括：

获取模块：用于获取目标音频段中的音频内容；

识别模块：用于识别音频内容获得文本信息。

其中，音频段位置确定模块确定目标音频段的位置信息的方法包括以下内容中的任一种：

或者，音频段位置确定模块通过以下方法确定目标音频段的位置信息：

根据本发明提出的音频摘要文本创建系统，其中，

命令接收模块播放音频文件时接收N次创建摘要命令；

播放位置确定模块确定接收N次创建摘要命令时音频文件的播放位置；

音频段位置确定模块根据播放位置确定N次目标音频段的位置信息；

获取模块获取目标音频段中的N个音频内容；其中N为大于1的自然数。

根据本发明提出的音频摘要文本创建系统，获取模块用于将获取到的N个音频内容组合成新的音频内容；识别模块用于识别新的音频内容获得文本信息。

根据本发明提出的音频摘要文本创建系统，其中，获取模块用于将N个音频内容中的每一个识别为独立的文本信息，识别模块用于将N个独立的文本信息组合成新的文本信息。

根据本发明提出的音频摘要文本创建系统，其中识别模块还用于对获得的N个音频摘要进行整合；具体包括：

排序子模块：用于将N个音频摘要按时间顺序排列形成一摘要集合文件；

删除子模块：用于删除摘要集合文件中重复的语音信息。

根据本发明提出的音频摘要文本创建系统，其特征在于，删除子模块删除摘要集合文件中重复的语音信息的步骤包括：

将相邻两个分组标签之间的语音元素视为一个播放组；

将所有的播放组相互之间进行两两比较，当进行比较的两个播放组中语音元素的相似度大于一预设阈值时，删除两个播放组中的任一个。

根据本发明提出的音频摘要文本创建系统，其中，还包括名称模块，用于选择固定字数的关键词作为文本信息的名称进行保存。

综上，本发明在不需利用高级编辑软件的基础上，只需增加一个小插件即可实现快速制作音频摘要的功能，方便用户保存自己关心的音频片段并将之转化为文本信息以更加易于查找阅读。

第四实施例

本发明提供一种用于音频摘要文本创建的计算机可读存储介质，存储介质上存储有计算机程序，计算机程序被处理器执行时实现了上述音频摘要文本创建方法的步骤。

第五实施例

本发明提供一种用于音频摘要文本创建的计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现了上述音频摘要文本创建方法的步骤。

上面描述的内容可以单独地或者以各种方式组合起来实施，而这些变型方式都在本发明的保护范围之内。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制。尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于语音识别的音频摘要文本创建方法，其特征在于，包括以下步骤：

S1：播放音频文件时，接收创建摘要命令；

S2：确定接收创建摘要命令时所述音频文件的播放位置；

S3：根据所述播放位置确定目标音频段的位置信息；

S4：获取所述目标音频段中的音频内容；

S5：识别所述音频内容获得文本信息；

所述步骤S5包括：将获取到的N个音频内容组合成新的音频内容；识别所述新的音频内容获得文本信息；

所述步骤S5中还包括步骤S51：对获得的N个音频摘要进行整合；具体包括：

S511：将所述N个音频摘要按时间顺序排列形成一摘要集合文件；

S512：删除所述摘要集合文件中重复的语音信息；

所述步骤S512包括：

S5121：按照播放时间顺序计算所述摘要集合文件中每个语音元素的播放速率；每当检测到所述播放速率发生变化时，在发生变化的语音元素前插入一个分组标签；

S5122：将相邻的两个分组标签之间的语音元素视为一个播放组；

S5123：将所有的播放组相互之间进行两两比较，当进行比较的两个播放组中语音元素的相似度大于一预设阈值时，删除所述两个播放组中的任一个。

2.根据权利要求1所述的音频摘要文本创建方法，其特征在于，步骤S3中根据所述播放位置确定所述目标音频段的位置信息的方法包括以下内容中的任一种：

将所述播放位置作为所述目标音频段的起始位置，将所述起始位置之后的预设时长的位置作为所述目标音频段的结束位置；

将所述播放位置作为所述目标音频段的结束位置，将所述结束位置之前的预设时长的位置作为所述目标音频段的起始位置；

将所述播放位置和偏移时长位置的和作为所述目标音频段的起始位置，将所述起始位置之后的预设时长的位置作为所述目标音频段的结束位置；和

将所述播放位置和偏移时长位置的和作为所述目标音频段的结束位置，将所述结束位置之前的预设时长的位置作为所述目标音频段的起始位置。

3.根据权利要求1所述的音频摘要文本创建方法，其特征在于，步骤S3中根据所述播放位置确定所述目标音频段的位置信息的方法包括：

接收到的创建摘要命令的类型为指示提取起始点的第一创建摘要命令时，将当前播放位置作为所述目标音频段的起始位置；

接收到的创建摘要命令的类型为指示提取结束点的第二创建摘要命令时，将当前播放位置作为所述目标音频段的结束位置。

4.根据权利要求1所述的音频摘要文本创建方法，其特征在于，所述步骤S5之前还包括：重复执行所述步骤S1至所述步骤S4，直至所述音频文件播放完毕；具体包括：

S11：播放音频文件时接收到第N次创建摘要命令；

S21：确定接收到第N次创建摘要命令时音频文件的播放位置；

S31：根据所述播放位置确定目标音频段的位置信息；

S41：获取所述目标音频段中的第N个音频内容；其中N为大于1的自然数。

5.根据权利要求1-4中任一项所述的音频摘要文本创建方法，其特征在于，还包括步骤S6：选择固定字数的关键词作为所述文本信息的名称进行保存。

6.一种基于语音识别的音频摘要文本创建装置，其特征在于，包括：

播放位置确定模块：用于确定接收创建摘要命令时所述音频文件的播放位置；

音频段位置确定模块：与所述播放位置确定模块相连，用于根据所述播放位置确定目标音频段的位置信息；

获取模块：用于获取所述目标音频段中的音频内容；

识别模块：用于识别所述音频内容获得文本信息；将获取到的N个音频内容组合成新的音频内容；识别所述新的音频内容获得文本信息；对获得的N个音频摘要进行整合；具体包括：

将所述N个音频摘要按时间顺序排列形成一摘要合集文件；删除所述摘要合集文件中重复的语音信息；按照播放时间顺序计算所述摘要集合文件中每个语音元素的播放速率；每当检测到所述播放速率发生变化时，在发生变化的语音元素前插入一个分组标签；

将相邻两个分组标签之间的语音元素视为一个播放组；

将所有的播放组相互之间进行两两比较，当进行比较的两个播放组中语音元素的相似度大于一预设阈值时，删除所述两个播放组中的任一个。

7.一种用于音频摘要文本创建的计算机可读存储介质，所述存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现了权利要求1-5中任一项所述方法的步骤。

8.一种用于音频摘要文本创建的计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现了权利要求1-5中任一项所述方法的步骤。