CN107562760B - 一种语音数据处理方法及装置 - Google Patents
一种语音数据处理方法及装置 Download PDFInfo
- Publication number
- CN107562760B CN107562760B CN201610513351.1A CN201610513351A CN107562760B CN 107562760 B CN107562760 B CN 107562760B CN 201610513351 A CN201610513351 A CN 201610513351A CN 107562760 B CN107562760 B CN 107562760B
- Authority
- CN
- China
- Prior art keywords
- paragraph
- text
- voice data
- voice
- chapters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种语音数据处理方法及装置,其中方法主要包括:将语音数据转换为语音文本;获取所述语音文本的篇章结构信息;对所述语音文本进行段落划分;提取每个段落的结构特征;根据每个段落的结构特征及预设的结构判断模型确定每个段落所属的篇章;标识出各语音数据片段所属的篇章,以实现所述语音数据的结构化。在本发明中,根据获知的篇章结构信息(例如会议的流程安排等)判断出每段内容属于哪个篇章(例如属于会议流程里的哪个环节),从而梳理出语音数据的结构。这样无需再从头到尾、盲目地聆听整个语音数据,而是可以在结构化的语音数据中直接根据各语音数据片段所属的篇章来缩小查找范围,快速定位到目标内容。
Description
技术领域
本发明涉及语音信息处理领域,尤其涉及一种语音数据处理方法及装置。
背景技术
当前随着智能硬件的快速发展及存储设备容量的不断提高,越来越多的人会将说话内容,例如会议发言、演讲、采访访谈、电话通话等,以语音数据的形式记录并保存起来。以开会为例,参会人员的发言中有诸多内容需要记录,且会议结束后通常还需要撰写会议纪要等内容,因此用户(如会议秘书)往往会录制会议语音数据,以供本人或别人查阅。
不过录制好的语音数据在查阅时却比较麻烦。以用户撰写会议纪要为例,可能有些发言未听清楚或未及时记录,所以需要人工回放并聆听语音数据,以找到目标语音内容。然而语音数据的长度一般较长,回放过程中往往不得不听到很多与目标语音内容不相关的内容,甚至要从头听到尾,导致查找时工作量很大,查找效率很低,用户很难在较短时间内找到所需要的内容。目前现有技术中尚缺少可以有效提高在语音数据中进行查找时的效率的方法,如何帮助用户快速准确地查找语音内容具有重要的意义。
发明内容
本发明提供一种语音数据处理方法及装置,以提高用户在语音数据中查找目标内容的效率。
根据本发明实施例的第一方面,提供一种语音数据处理方法,所述方法包括:
获取待处理的语音数据;
将所述语音数据转换为语音文本,所述语音文本包括文本内容及所述文本内容对应的时间信息;
获取所述语音文本的篇章结构信息,所述篇章结构信息用于指示所述语音文本可被划分成的篇章;
根据所述语音文本及对应语音数据,对所述语音文本进行段落划分,以将所述语音文本划分为一个或多个段落;
根据每个段落的文本内容以及文本内容对应的时间信息,提取每个段落的结构特征;
根据每个段落的结构特征及预设的结构判断模型确定每个段落所属的篇章;
根据每个段落所属的篇章以及段落与语音数据片段的对应关系,标识出各语音数据片段所属的篇章,以实现所述语音数据的结构化。
可选的,对所述语音文本进行段落划分,包括:
根据所述语音数据进行说话人变化点检测,以确定每个所述说话人变化点的位置;
根据所述说话人变化点的位置以及预设的段落长度阈值,对所述语音文本进行段落划分。
可选的,根据所述说话人变化点的位置以及预设的段落长度阈值,对所述语音文本进行段落划分,包括:
将两个所述说话人变化点之间的文本内容作为一个候选段落;
判断所述候选段落的长度是否超过所述段落长度阈值;
如果未超过所述段落长度阈值,则将所述候选段落确定为一个段落;
如果超过了所述段落长度阈值,则根据预设规则将所述候选段落拆分为两个或多个段落。
可选的,提取每个段落的结构特征,包括:
对当前段落进行文本顺滑及删除停止词的处理;
获取当前段落说话人在整个语音数据中的发言总次数、当前段落的文本顺滑比例、当前段落的停止词数,作为当前段落的结构特征。
可选的,所述结构特征还包括以下一种或多种:
当前段落的无声段平均时长、当前段落的无声段时长标准差、当前段落的有效语音文本段平均字数,其中有效语音文本段为有效语音段所对应的文本。
可选的,根据每个段落的结构特征及预设的结构判断模型确定每个段落所属的篇章,包括:
将每个段落的结构特征作为所述结构判断模型的输入,得到每个段落的所属篇章概率向量;
在各个所述概率向量所组成的概率矩阵中搜索最优路径,根据所述最优路径确定每个段落最终所属的篇章。
可选的,在各个所述概率向量所组成的概率矩阵中搜索最优路径之前,所述方法还包括:
使用下述方式对所述概率矩阵进行规整:
将每个段落的概率向量中概率最大值所对应的篇章,作为每个段落所属篇章的初步判断结果;
根据所述初步判断结果查找第一类异常段落和第二类异常段落,所述第一类异常段落为一个篇章中只包含一个段落的段落,所述第二类异常段落为前后相邻段落所属篇章相同但当前段落所属篇章与前后相邻段落所属篇章不同的段落;
对于第一类异常段落,计算并比较所述第一类异常段落的概率向量与其前后相邻段落的概率向量之间的距离,使用距离较小的段落的概率向量替换所述第一类异常段落原先的概率向量;
对于第二类异常段落,将所述第二类异常段落属于指定篇章的概率设置为最大值,所述指定篇章为前后相邻段落所属篇章。
可选的,标识出各语音数据片段所属的篇章,包括:
在所述语音数据的波形图上,使用不同颜色标识出不同篇章的波形。
可选的,标识出各语音数据片段所属的篇章,包括:
在所述语音数据的进度条上,添加各语音数据片段所属篇章的标识。
可选的,标识出各语音数据片段所属的篇章之后,所述方法还包括:
当接收到用户查看语音数据片段的指令时,显示被查看的语音数据片段所对应的文本内容。
根据本发明实施例的第二方面,提供一种语音数据处理装置,所述装置包括:
语音数据获取模块,用于获取待处理的语音数据;
文本转换模块,用于将所述语音数据转换为语音文本,所述语音文本包括文本内容及所述文本内容对应的时间信息;
结构获取模块,用于获取所述语音文本的篇章结构信息,所述篇章结构信息用于指示所述语音文本可被划分成的篇章;
文本划分模块,用于根据所述语音文本及对应语音数据,对所述语音文本进行段落划分,以将所述语音文本划分为一个或多个段落;
段落特征提取模块,用于根据每个段落的文本内容以及文本内容对应的时间信息,提取每个段落的结构特征;
段落归属判断模块,用于根据每个段落的结构特征及预设的结构判断模型确定每个段落所属的篇章;
语音数据结构化模块,用于根据每个段落所属的篇章以及段落与语音数据片段的对应关系,标识出各语音数据片段所属的篇章,以实现所述语音数据的结构化。
可选的,所述文本划分模块包括:
说话人变化点检测子模块,用于根据所述语音数据进行说话人变化点检测,以确定每个所述说话人变化点的位置;
文本划分子模块,用于根据所述说话人变化点的位置以及预设的段落长度阈值,对所述语音文本进行段落划分。
可选的,所述文本划分子模块用于:
将两个所述说话人变化点之间的文本内容作为一个候选段落;判断所述候选段落的长度是否超过所述段落长度阈值;如果未超过所述段落长度阈值,则将所述候选段落确定为一个段落;如果超过了所述段落长度阈值,则根据预设规则将所述候选段落拆分为两个或多个段落。
可选的,所述段落特征提取模块包括:
文本规整子模块,用于对当前段落进行文本顺滑及删除停止词的处理;
段落特征提取子模块,用于获取当前段落说话人在整个语音数据中的发言总次数、当前段落的文本顺滑比例、当前段落的停止词数,作为当前段落的结构特征。
可选的,所述结构特征还包括以下一种或多种:
当前段落的无声段平均时长、当前段落的无声段时长标准差、当前段落的有效语音文本段平均字数,其中有效语音文本段为有效语音段所对应的文本。
可选的,所述段落归属判断模块包括:
段落归属概率获取子模块,用于将每个段落的结构特征作为所述结构判断模型的输入,得到每个段落的所属篇章概率向量;
段落归属确定子模块,用于在各个所述概率向量所组成的概率矩阵中搜索最优路径,根据所述最优路径确定每个段落最终所属的篇章。
可选的,所述段落归属判断模块还包括:
概率矩阵规整子模块,用于使用下述方式对所述概率矩阵进行规整:
将每个段落的概率向量中概率最大值所对应的篇章,作为每个段落所属篇章的初步判断结果;根据所述初步判断结果查找第一类异常段落和第二类异常段落,所述第一类异常段落为一个篇章中只包含一个段落的段落,所述第二类异常段落为前后相邻段落所属篇章相同但当前段落所属篇章与前后相邻段落所属篇章不同的段落;对于第一类异常段落,计算并比较所述第一类异常段落的概率向量与其前后相邻段落的概率向量之间的距离,使用距离较小的段落的概率向量替换所述第一类异常段落原先的概率向量;对于第二类异常段落,将所述第二类异常段落属于指定篇章的概率设置为最大值,所述指定篇章为前后相邻段落所属篇章。
可选的,所述语音数据结构化模块用于:
在所述语音数据的波形图上,使用不同颜色标识出不同篇章的波形。
可选的,所述语音数据结构化模块用于:
在所述语音数据的进度条上,添加各语音数据片段所属篇章的标识。
可选的,所述装置还包括:
文本显示模块,用于当接收到用户查看语音数据片段的指令时,显示被查看的语音数据片段所对应的文本内容。
本发明提供的技术方案可以包括以下有益效果:
在本发明中,根据获知的篇章结构信息(例如会议的流程安排等)将所录制的语音数据的内容进行分段,判断出每段内容属于哪个篇章(例如属于会议流程里的哪个环节),从而梳理出语音数据的结构。这样,当用户想查找某部分内容时,无需再从头到尾、盲目地聆听整个语音数据,而是可以在结构化的语音数据中直接根据各语音数据片段所属的篇章来缩小查找范围,快速定位到目标内容,从而大大提高了查找效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据本发明一示例性实施例示出的一种语音数据处理方法的流程图;
图2是根据本发明一示例性实施例示出的结构判断模型输入输出示意图;
图3是根据本发明一示例性实施例示出的一种语音数据处理方法的流程图;
图4是根据本发明一示例性实施例示出的一种语音数据处理方法的流程图;
图5是根据本发明一示例性实施例示出的段落划分示意图;
图6是根据本发明一示例性实施例示出的段落划分示意图;
图7是根据本发明一示例性实施例示出的一种语音数据处理方法的流程图;
图8是根据本发明一示例性实施例示出的一种语音数据处理方法的流程图;
图9是根据本发明一示例性实施例示出的一种语音数据处理方法的流程图;
图10是根据本发明一示例性实施例示出的一种语音数据处理方法的流程图;
图11是根据本发明一示例性实施例示出的在进度条上添加标识的示意图;
图12是根据本发明一示例性实施例示出的一种语音数据处理装置的示意图;
图13是根据本发明一示例性实施例示出的一种语音数据处理装置的示意图;
图14是根据本发明一示例性实施例示出的一种语音数据处理装置的示意图;
图15是根据本发明一示例性实施例示出的一种语音数据处理装置的示意图;
图16是根据本发明一示例性实施例示出的一种语音数据处理装置的示意图;
图17是根据本发明一示例性实施例示出的一种语音数据处理装置的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据本发明一示例性实施例示出的一种语音数据处理方法的流程图。该方法例如可以用于手机等移动终端、PC(个人电脑)、服务器等多种设备。
参见图1所示,该方法可以包括如下步骤:
步骤S101,获取待处理的语音数据。
例如语音数据可以为会议录音。会议结束后,用户可以将会议录音输入到计算机中,从而使计算机获取到待处理的语音数据。
步骤S102,将所述语音数据转换为语音文本,所述语音文本包括文本内容及所述文本内容对应的时间信息。
为了对语音数据进行处理,需要先将语音数据转换(或者说是识别)为文本。对于如何将语音转换为文本,本实施例并不进行限制,本领域普通技术人员可以使用任何一种现有技术实现。
作为示例,转换过程可以包括:首先对待语音数据进行端点检测,得到语音数据中每个有效语音段的起始点和结束点。其中有效语音段是语音处理领域的基本概念,是指语音数据中包含语音的一个连续片段,一般语音数据由有效语音段和无效语音段组成,通过VAD(语音活动检测,Voice Activity Detection)即可得到。然后对有效语音段进行特征提取,如MFCC(Mel Frequency Cepstrum Coefficient)特征。再利用提取的特征数据及预先训练的声学模型和语言模型进行解码操作。最后根据解码结果得到语音数据对应的识别文本。对于一个有效语音段所对应的文本,在本文中称其为有效语音文本段。有效语音段是语音数据的一部分,而有效语音文本段则是语音文本的一部分。
在本实施例中,将语音数据转换为文本是为了借助对文本的处理来处理语音数据,所以还需要记录下文本与语音的一一对应关系,这个对应关系可以通过时间信息来体现,故本实施例中的文本并非纯文本,而是每句话甚至每个字都带有时间信息(或者说是时间戳)的文本。
步骤S103,获取所述语音文本的篇章结构信息,所述篇章结构信息用于指示所述语音文本可被划分成的篇章。
以语音数据为会议录音为例,会议的流程(或者说是日程)通常会划分为若干不同的部分\环节\阶段,例如会议流程可以分为“背景介绍→嘉宾介绍→嘉宾演讲→自由提问→结束语”等多个环节。在本实施例中,当会议录音转换成了文本之后,这些会议流程中的部分\环节\阶段便可统称为文本中的篇章。
篇章结构信息可以由用户预先确定。例如,用户可以根据会议内容预先确定会议流程;又例如,用户可以在录制会议录音的同时记录下会议流程,然后在处理语音数据时输入给计算机。
步骤S104,根据所述语音文本及对应的语音数据,对所述语音文本进行段落划分,以将所述语音文本划分为一个或多个段落。
段落的长度比有效语音文本段的长度要长,每个段落可包含一个或多个有效语音文本段。在本实施例中将要确定出哪些篇章包含哪些段落。
对于具体如何将语音文本分解成段落本实施例并不进行限制,本领域普通技术人员可以根据不同场景或需求自行设计划分方法,可以在此处使用的这些设计都没有背离本发明的精神和保护范围。
步骤S105,根据每个段落的文本内容以及文本内容对应的时间信息,提取每个段落的结构特征。
对于段落的结构特征具体有哪些,本实施例也并不进行限制,本领域普通技术人员可以根据不同场景或需求自行设计、定义。
作为示例,段落的结构特征可以包括停止词数、有效语音文本段平均字数,等等。
步骤S106,根据每个段落的结构特征及预设的结构判断模型确定每个段落所属的篇章。
作为示例,所述结构判断模型可以为模式识别中常用分类模型,如支持向量机模型、神经网络模型等。
结构判断模型的输入可以是段落的结构特征,输出可以是该段落属于各篇章的概率向量。作为示例可参见图2所示,图2为结构判断模型输入输出示意图,假设一语音数据可被划分为n个篇章,段落的结构特征包括a1、a2等共m个,则结构判断模型的输入便是这m个结构特征数值(当然在输入之前也可以进行归一化处理等),输出便是该段落属于各篇章的概率向量[p1 p2...pn],例如可以为[0.01 0.8...0.2]。其中,pn表示当前段落属于第n个篇章的概率。
对于一个段落,在得到了属于各篇章的概率向量后,便可进一步确定该段落应属于哪个篇章。对于确定方法本实施例并不进行限制,例如可以直接选择概率最大时对应的篇章作为该段落所属的篇章,等等。
结构判断模型可以预先通过训练等方式得到,对此本实施例并不进行限制,本领域普通技术人员可以根据不同场景或需求自行进行设计、训练。
步骤S107,根据每个段落所属的篇章以及段落与语音数据片段的对应关系,标识出各语音数据片段所属的篇章,以实现所述语音数据的结构化。
这样在本实施例中,根据获知的篇章结构信息(例如会议的流程安排等)将所录制的语音数据的内容进行分段,判断出每段内容属于哪个篇章(例如属于会议流程里的哪个环节),从而梳理出语音数据的结构。这样,当用户想查找某部分内容时,无需再从头到尾、盲目地聆听整个语音数据,而是可以在结构化的语音数据中直接根据各语音数据片段所属的篇章来缩小查找范围,快速定位到目标内容,从而大大提高了查找效率。
参见图3所示,在本实施例或本发明其他某些实施例中,对所述语音文本进行段落划分,也即步骤S104,具体可以包括:
步骤S301,根据所述语音数据进行说话人变化点检测,以确定每个所述说话人变化点的位置。
需要说明的是,本发明主要针对的是说话人单个依次说话的场景,即不会有两个或多个人同时说话。对于那些有两个或多个人同时说话的场景(例如激烈的讨论),本发明并不涉及。
说话人变化即说话人发生了变化,说话人变化点即前一个说话人说话结束、下一个说话人说话开始的位置。当然,有时下一个说话人可能并不马上说话,即前后两个说话人的说话中间隔了一个空白时间段,此时说话人变化点标在前一个说话人说话结束的位置还是下一个说话人说话开始的位置,本实施例并不进行限制。
具体检测时,可以使用说话人分离技术进行检测,具体检测方法与现有技术相同,在此不再详述。
步骤S302,根据所述说话人变化点的位置以及预设的段落长度阈值,对所述语音文本进行段落划分。
在本实施例中,基本思路是将一个人所说的连续的话即作为一个段落,当一个人所说的连续的话较长时(超过段落长度阈值),则可以将其拆分。
可进一步参见图4所示,在本实施例或本发明其他某些实施例中,根据所述说话人变化点的位置以及预设的段落长度阈值,对所述语音文本进行段落划分,也即步骤S302,具体可以包括:
步骤S401,将两个所述说话人变化点之间的文本内容作为一个候选段落。
步骤S402,判断所述候选段落的长度是否超过所述段落长度阈值。
步骤S403,如果未超过所述段落长度阈值,则将所述候选段落确定为一个段落。
步骤S404,如果超过了所述段落长度阈值,则根据预设规则将所述候选段落拆分为两个或多个段落。
作为示例可参见图5~图6所示。在图5中,虚线框501、502、503代表不同说话人所说的话,5011、5021、5031分别代表一个有效语音文本段,对于502来讲,因为其没有超过段落长度阈值,所以可以直接将502确定为一个段落(即图5中实线框)。而在图6中,601的长度超过了段落长度阈值,所以被拆分为两个段落(即图6中的两个实线框)。
对于拆分时的预设规则本实施例并不进行限制,例如可以采取均分策略,或者先按段落长度阈值进行段落划分最后再将剩余部分单独作为一个段落,等等。段落划分时,以有效语音文本段为最小单位。
另外,段落长度阈值可以根据应用需要确定,本实施例并不进行限制。例如,如果会议中大部分说话人的说话时长比较长,只有少数人的说话时长比较短,则可以将段落长度阈值设置长一些;而如果大部分说话人的说话时长比较短,只有少数人的说话时长比较长,则可以将段落长度阈值设置短一些。
参见图7所示,在本实施例或本发明其他某些实施例中,提取每个段落的结构特征,也即步骤S105,具体可以包括:
步骤S701,对当前段落进行文本顺滑及删除停止词的处理。
文本顺滑是指将较为口语化的句子进行调整。举例来讲,可以将无实际意义的重复词只保留一个,如“非常非常好”只保留一个“非常”;又例如,可以去掉无实际意义的语气词,如去掉“呃,这个问题”中的“呃”。
停止词是指在文本中出现频率较高、但无实际意义的词,如“啊”、“嗯”等词。具体操作时,可以预先构建停止词表,根据停止词表查找并删除文本中所出现的停止词。
步骤S702,获取当前段落说话人在整个语音数据中的发言总次数、当前段落的文本顺滑比例、当前段落的停止词数,作为当前段落的结构特征。
以会议为例,说话人在整个语音数据中的发言总次数便是指说话人在整个会议中发言的总次数。具体计算时,可以使用声纹识别技术查找有哪些段落所对应的语音片段的说话人与当前段落的说话人相同,从而确定该说话人发言总次数。
顺滑比例是指一个段落顺滑掉的词数与所有段落顺滑掉的总词数的比值。停止词数是指一个段落中出现的停止词的数量。
此外,在本实施例或本发明其他某些实施例中,所述结构特征还可以包括以下一种或多种:
当前段落的无声段平均时长、当前段落的无声段时长标准差、当前段落的有效语音文本段平均字数,等等,其中有效语音文本段为有效语音段所对应的文本。
无声段时长是指有效语音段之间的无声语音时长,也即从前一个有效语音段结束到后一个有效语音段开始的间隔时长。无声段平均时长即一个段落内所有无声段时长的平均值。无声段时长标准差即一个段落内所有无声段时长的标准差。容易理解的是,严格来讲无声段是与语音数据相关的概念,而在本发明中语音文本与语音数据存在时间上的一一对应关系,段落里的文字都带有时间信息,所以段落也就具有了无声段时长等时间概念,所述无声段时长即相邻两个有效语音段之间的时长。
有效语音文本段平均字数是指一个段落包含的有效语音文本段的平均字数,可以统计当前段落的字数和当前段落包含的有效语音文本段的段数,然后计算二者比值得到该段落的有效语音文本段平均字数。
参见图8所示,在本实施例或本发明其他某些实施例中,根据每个段落的结构特征及预设的结构判断模型确定每个段落所属的篇章,也即步骤S106,具体可以包括:
步骤S801,将每个段落的结构特征作为所述结构判断模型的输入,得到每个段落的所属篇章概率向量。
例如第1个段落所属篇章概率向量为[p11,p12,...,p1n],其中,p11表示该第1个段落属于第1个篇章的概率,n表示篇章总数。将所有段落的概率向量组合起来,便得到一个概率矩阵P,如下所示:
其中,每行表示同一段落属于各个篇章的概率,每列表示同一篇章包含各个段落的概率,m为段落总数。
步骤S802,在各个所述概率向量所组成的概率矩阵中搜索最优路径,根据所述最优路径确定每个段落最终所属的篇章。
例如具体处理时,可以采用动态规划的方法搜索该矩阵的最优路径,所述最优路径上的概率和最大,所述动态规划方法如前后向算法等。根据所述最优路径上的概率可确定每个段落最终应该所属的篇章。
在一些情况下,由于构建的结构判断模型可能不太准确(如训练数据较少),或提取的特征不准确等原因,可能会导致得到的概率向量不太准确,而为了使最后的判断结果更加准确,可以对这些可能不太准确的概率向量进行修正,所以在本实施例或本发明其他某些实施例中,在各个所述概率向量所组成的概率矩阵中搜索最优路径之前,所述方法还可以包括:
使用下述方式对所述概率矩阵进行规整,参见图9所示:
步骤S901,将每个段落的概率向量中概率最大值所对应的篇章,作为每个段落所属篇章的初步判断结果。
步骤S902,根据所述初步判断结果查找第一类异常段落和第二类异常段落,所述第一类异常段落为一个篇章中只包含一个段落的段落,所述第二类异常段落为前后相邻段落所属篇章相同但当前段落所属篇章与前后相邻段落所属篇章不同的段落。
异常段落是指可能被划分到错误篇章的段落,也即概率向量可能出错的段落,可以通过初步判断结果对两种异常段落进行筛查。
步骤S903,对于第一类异常段落,计算并比较所述第一类异常段落的概率向量与其前后相邻段落的概率向量之间的距离(如余弦距离),使用距离较小的段落的概率向量替换所述第一类异常段落原先的概率向量。
步骤S904,对于第二类异常段落,将所述第二类异常段落属于指定篇章的概率设置为最大值(如直接置为1),所述指定篇章为前后相邻段落所属篇章。
例如原概率向量为[0.7 0.2 0.1],判断出应将0.2设置为1,那么概率向量应修改为[0 1 0]。
参见图10所示,在本实施例或本发明其他某些实施例中,获取待处理的语音数据之前,也即步骤S101之前,所述方法还可以包括:
通过如下方式构建或更新所述结构判断模型:
步骤S1001,收集多个语音数据样本。
步骤S1002,将所述语音数据样本转换为语音文本样本,将所述语音文本样本划分为一个或多个段落样本,提取每个段落样本的结构特征。
该步骤的内容与上文中转换语音文本、划分段落及提取段落结构特征的方式相同,此处不再赘述。
步骤S1003,人工标出每个段落样本所属的篇章作为每个所述段落样本的篇章标签。
步骤S1004,将每个段落样本的结构特征及篇章标签作为训练样本,通过训练构建或更新所述结构判断模型。
作为示例,所述结构判断模型可以为模式识别中常用分类模型,如支持向量机模型、神经网络模型等。
在本实施例或本发明其他某些实施例中,标识出各语音数据片段所属的篇章,也即步骤S107,具体可以包括:
在所述语音数据的波形图上,使用不同颜色标识出不同篇章的波形。
或者,
在所述语音数据的进度条上,添加各语音数据片段所属篇章的标识。
对于进度条可参见图11所示,在图11中,1100为整个语音数据的进度条,用户通过拖动可以将语音播放进度定位到某个时刻,1101、1102为进度条上的标识,如标识1101代表“嘉宾演讲”,标识1101和标识1102之间的语音数据片段即为嘉宾演讲的录音。
此外,在本实施例或本发明其他某些实施例中,标识出各语音数据片段所属的篇章之后,所述方法还可以包括:
当接收到用户查看语音数据片段的指令时,显示被查看的语音数据片段所对应的文本内容。
这样用户便可以直接通过查看对应文本确定语音数据的内容,而不需要再聆听语音数据,从而进一步节省用户查找时间,提高了查找效率。
作为示例仍可参见图11所示,假设查看指令为双击操作,那么当用户双击标识1101和标识1102之间的进度条时,则可弹窗显示出该嘉宾演讲的文本内容。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图12是根据本发明一示例性实施例示出的一种语音数据处理装置的示意图。该装置例如可以用于手机等移动终端、PC(个人电脑)、服务器等多种设备。
参见图12所示,该装置可以包括:
语音数据获取模块1201,用于获取待处理的语音数据;
文本转换模块1202,用于将所述语音数据转换为语音文本,所述语音文本包括文本内容及所述文本内容对应的时间信息;
结构获取模块1203,用于获取所述语音文本的篇章结构信息,所述篇章结构信息用于指示所述语音文本可被划分成的篇章;
文本划分模块1204,用于根据所述语音文本及相应语音数据,对所述语音文本进行段落划分,以将所述语音文本划分为一个或多个段落;
段落特征提取模块1205,用于根据每个段落的文本内容以及文本内容对应的时间信息,提取每个段落的结构特征;
段落归属判断模块1206,用于根据每个段落的结构特征及预设的结构判断模型确定每个段落所属的篇章;
语音数据结构化模块1207,用于根据每个段落所属的篇章以及段落与语音数据片段的对应关系,标识出各语音数据片段所属的篇章,以实现所述语音数据的结构化。
参见图13所示,在本实施例或本发明其他某些实施例中,所述文本划分模块可以包括:
说话人变化点检测子模块1301,用于根据所述语音数据进行说话人变化点检测,以确定每个所述说话人变化点的位置;
文本划分子模块1302,用于根据所述说话人变化点的位置以及预设的段落长度阈值,对所述语音文本进行段落划分。
在本实施例或本发明其他某些实施例中,所述文本划分子模块具体可以用于:
将两个所述说话人变化点之间的文本内容作为一个候选段落;判断所述候选段落的长度是否超过所述段落长度阈值;如果未超过所述段落长度阈值,则将所述候选段落确定为一个段落;如果超过了所述段落长度阈值,则根据预设规则将所述候选段落拆分为两个或多个段落。
参见图14所示,在本实施例或本发明其他某些实施例中,所述段落特征提取模块可以包括:
文本规整子模块1401,用于对当前段落进行文本顺滑及删除停止词的处理;
段落特征提取子模块1402,用于获取当前段落说话人在整个语音数据中的发言总次数、当前段落的文本顺滑比例、当前段落的停止词数,作为当前段落的结构特征。
在本实施例或本发明其他某些实施例中,所述结构特征还可以包括以下一种或多种:
当前段落的无声段平均时长、当前段落的无声段时长标准差、当前段落的有效语音文本段平均字数,其中有效语音文本段为有效语音段所对应的文本。
参见图15所示,在本实施例或本发明其他某些实施例中,所述段落归属判断模块可以包括:
段落归属概率获取子模块1501,用于将每个段落的结构特征作为所述结构判断模型的输入,得到每个段落的所属篇章概率向量;
段落归属确定子模块1502,用于在各个所述概率向量所组成的概率矩阵中搜索最优路径,根据所述最优路径确定每个段落最终所属的篇章。
参见图16所示,在本实施例或本发明其他某些实施例中,所述段落归属判断模块还可以包括:
概率矩阵规整子模块1601,用于使用下述方式对所述概率矩阵进行规整:
将每个段落的概率向量中概率最大值所对应的篇章,作为每个段落所属篇章的初步判断结果;根据所述初步判断结果查找第一类异常段落和第二类异常段落,所述第一类异常段落为一个篇章中只包含一个段落的段落,所述第二类异常段落为前后相邻段落所属篇章相同但当前段落所属篇章与前后相邻段落所属篇章不同的段落;对于第一类异常段落,计算并比较所述第一类异常段落的概率向量与其前后相邻段落的概率向量之间的距离,使用距离较小的段落的概率向量替换所述第一类异常段落原先的概率向量;对于第二类异常段落,将所述第二类异常段落属于指定篇章的概率设置为最大值,所述指定篇章为前后相邻段落所属篇章。
在本实施例或本发明其他某些实施例中,所述语音数据结构化模块具体可以用于:
在所述语音数据的波形图上,使用不同颜色标识出不同篇章的波形。
在本实施例或本发明其他某些实施例中,所述语音数据结构化模块具体可以用于:
在所述语音数据的进度条上,添加各语音数据片段所属篇章的标识。
参见图17所示,在本实施例或本发明其他某些实施例中,所述装置还可以包括:
文本显示模块1701,用于当接收到用户查看语音数据片段的指令时,显示被查看的语音数据片段所对应的文本内容。
在本实施例中,根据获知的篇章结构信息(例如会议的流程安排等)将所录制的语音数据的内容进行分段,判断出每段内容属于哪个篇章(例如属于会议流程里的哪个环节),从而梳理出语音数据的结构。这样,当用户想查找某部分内容时,无需再从头到尾、盲目地聆听整个语音数据,而是可以在结构化的语音数据中直接根据各语音数据片段所属的篇章来缩小查找范围,快速定位到目标内容,从而大大提高了查找效率。
关于上述实施例中的装置,其中各个单元\模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (20)
1.一种语音数据处理方法,其特征在于,所述方法包括:
获取待处理的语音数据;
将所述语音数据转换为语音文本,所述语音文本包括文本内容及所述文本内容对应的时间信息;
获取所述语音文本的篇章结构信息,所述篇章结构信息用于指示所述语音文本可被划分成的篇章;
根据所述语音文本及对应语音数据,对所述语音文本进行段落划分,以将所述语音文本划分为一个或多个段落;
根据每个段落的文本内容以及文本内容对应的时间信息,提取每个段落的结构特征;
根据每个段落的结构特征及预设的结构判断模型确定每个段落所属的篇章;
根据每个段落所属的篇章以及段落与语音数据片段的对应关系,标识出各语音数据片段所属的篇章,以实现所述语音数据的结构化。
2.根据权利要求1所述的方法,其特征在于,对所述语音文本进行段落划分,包括:
根据所述语音数据进行说话人变化点检测,以确定每个所述说话人变化点的位置;
根据所述说话人变化点的位置以及预设的段落长度阈值,对所述语音文本进行段落划分。
3.根据权利要求2所述的方法,其特征在于,根据所述说话人变化点的位置以及预设的段落长度阈值,对所述语音文本进行段落划分,包括:
将两个所述说话人变化点之间的文本内容作为一个候选段落;
判断所述候选段落的长度是否超过所述段落长度阈值;
如果未超过所述段落长度阈值,则将所述候选段落确定为一个段落;
如果超过了所述段落长度阈值,则根据预设规则将所述候选段落拆分为两个或多个段落。
4.根据权利要求1所述的方法,其特征在于,提取每个段落的结构特征,包括:
对当前段落进行文本顺滑及删除停止词的处理;
获取当前段落说话人在整个语音数据中的发言总次数、当前段落的文本顺滑比例、当前段落的停止词数,作为当前段落的结构特征。
5.根据权利要求4所述的方法,其特征在于,所述结构特征还包括以下一种或多种:
当前段落的无声段平均时长、当前段落的无声段时长标准差、当前段落的有效语音文本段平均字数,其中有效语音文本段为有效语音段所对应的文本。
6.根据权利要求1所述的方法,其特征在于,根据每个段落的结构特征及预设的结构判断模型确定每个段落所属的篇章,包括:
将每个段落的结构特征作为所述结构判断模型的输入,得到每个段落的所属篇章概率向量;
在各个所述概率向量所组成的概率矩阵中搜索最优路径,根据所述最优路径确定每个段落最终所属的篇章。
7.根据权利要求6所述的方法,其特征在于,在各个所述概率向量所组成的概率矩阵中搜索最优路径之前,所述方法还包括:
使用下述方式对所述概率矩阵进行规整:
将每个段落的概率向量中概率最大值所对应的篇章,作为每个段落所属篇章的初步判断结果;
根据所述初步判断结果查找第一类异常段落和第二类异常段落,所述第一类异常段落为一个篇章中只包含一个段落的段落,所述第二类异常段落为前后相邻段落所属篇章相同但当前段落所属篇章与前后相邻段落所属篇章不同的段落;
对于第一类异常段落,计算并比较所述第一类异常段落的概率向量与其前后相邻段落的概率向量之间的距离,使用距离较小的段落的概率向量替换所述第一类异常段落原先的概率向量;
对于第二类异常段落,将所述第二类异常段落属于指定篇章的概率设置为最大值,所述指定篇章为前后相邻段落所属篇章。
8.根据权利要求1所述的方法,其特征在于,标识出各语音数据片段所属的篇章,包括:
在所述语音数据的波形图上,使用不同颜色标识出不同篇章的波形。
9.根据权利要求1所述的方法,其特征在于,标识出各语音数据片段所属的篇章,包括:
在所述语音数据的进度条上,添加各语音数据片段所属篇章的标识。
10.根据权利要求1所述的方法,其特征在于,标识出各语音数据片段所属的篇章之后,所述方法还包括:
当接收到用户查看语音数据片段的指令时,显示被查看的语音数据片段所对应的文本内容。
11.一种语音数据处理装置,其特征在于,所述装置包括:
语音数据获取模块,用于获取待处理的语音数据;
文本转换模块,用于将所述语音数据转换为语音文本,所述语音文本包括文本内容及所述文本内容对应的时间信息;
结构获取模块,用于获取所述语音文本的篇章结构信息,所述篇章结构信息用于指示所述语音文本可被划分成的篇章;
文本划分模块,用于根据所述语音文本及对应语音数据,对所述语音文本进行段落划分,以将所述语音文本划分为一个或多个段落;
段落特征提取模块,用于根据每个段落的文本内容以及文本内容对应的时间信息,提取每个段落的结构特征;
段落归属判断模块,用于根据每个段落的结构特征及预设的结构判断模型确定每个段落所属的篇章;
语音数据结构化模块,用于根据每个段落所属的篇章以及段落与语音数据片段的对应关系,标识出各语音数据片段所属的篇章,以实现所述语音数据的结构化。
12.根据权利要求11所述的装置,其特征在于,所述文本划分模块包括:
说话人变化点检测子模块,用于根据所述语音数据进行说话人变化点检测,以确定每个所述说话人变化点的位置;
文本划分子模块,用于根据所述说话人变化点的位置以及预设的段落长度阈值,对所述语音文本进行段落划分。
13.根据权利要求12所述的装置,其特征在于,所述文本划分子模块用于:
将两个所述说话人变化点之间的文本内容作为一个候选段落;判断所述候选段落的长度是否超过所述段落长度阈值;如果未超过所述段落长度阈值,则将所述候选段落确定为一个段落;如果超过了所述段落长度阈值,则根据预设规则将所述候选段落拆分为两个或多个段落。
14.根据权利要求11所述的装置,其特征在于,所述段落特征提取模块包括:
文本规整子模块,用于对当前段落进行文本顺滑及删除停止词的处理;
段落特征提取子模块,用于获取当前段落说话人在整个语音数据中的发言总次数、当前段落的文本顺滑比例、当前段落的停止词数,作为当前段落的结构特征。
15.根据权利要求14所述的装置,其特征在于,所述结构特征还包括以下一种或多种:
当前段落的无声段平均时长、当前段落的无声段时长标准差、当前段落的有效语音文本段平均字数,其中有效语音文本段为有效语音段所对应的文本。
16.根据权利要求11所述的装置,其特征在于,所述段落归属判断模块包括:
段落归属概率获取子模块,用于将每个段落的结构特征作为所述结构判断模型的输入,得到每个段落的所属篇章概率向量;
段落归属确定子模块,用于在各个所述概率向量所组成的概率矩阵中搜索最优路径,根据所述最优路径确定每个段落最终所属的篇章。
17.根据权利要求16所述的装置,其特征在于,所述段落归属判断模块还包括:
概率矩阵规整子模块,用于使用下述方式对所述概率矩阵进行规整:
将每个段落的概率向量中概率最大值所对应的篇章,作为每个段落所属篇章的初步判断结果;根据所述初步判断结果查找第一类异常段落和第二类异常段落,所述第一类异常段落为一个篇章中只包含一个段落的段落,所述第二类异常段落为前后相邻段落所属篇章相同但当前段落所属篇章与前后相邻段落所属篇章不同的段落;对于第一类异常段落,计算并比较所述第一类异常段落的概率向量与其前后相邻段落的概率向量之间的距离,使用距离较小的段落的概率向量替换所述第一类异常段落原先的概率向量;对于第二类异常段落,将所述第二类异常段落属于指定篇章的概率设置为最大值,所述指定篇章为前后相邻段落所属篇章。
18.根据权利要求11所述的装置,其特征在于,所述语音数据结构化模块用于:
在所述语音数据的波形图上,使用不同颜色标识出不同篇章的波形。
19.根据权利要求11所述的装置,其特征在于,所述语音数据结构化模块用于:
在所述语音数据的进度条上,添加各语音数据片段所属篇章的标识。
20.根据权利要求11所述的装置,其特征在于,所述装置还包括:
文本显示模块,用于当接收到用户查看语音数据片段的指令时,显示被查看的语音数据片段所对应的文本内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610513351.1A CN107562760B (zh) | 2016-06-30 | 2016-06-30 | 一种语音数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610513351.1A CN107562760B (zh) | 2016-06-30 | 2016-06-30 | 一种语音数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107562760A CN107562760A (zh) | 2018-01-09 |
CN107562760B true CN107562760B (zh) | 2020-11-17 |
Family
ID=60969975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610513351.1A Active CN107562760B (zh) | 2016-06-30 | 2016-06-30 | 一种语音数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107562760B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036422A (zh) * | 2018-08-10 | 2018-12-18 | 科大讯飞股份有限公司 | 一种语音数据的处理方法和装置 |
CN109273008A (zh) * | 2018-10-15 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 语音文件的处理方法、装置、计算机存储介质和终端 |
CN109065024B (zh) * | 2018-11-02 | 2023-07-25 | 科大讯飞股份有限公司 | 异常语音数据检测方法及装置 |
CN109600299B (zh) * | 2018-11-19 | 2021-06-25 | 维沃移动通信有限公司 | 一种消息发送方法及终端 |
CN109994126A (zh) * | 2019-03-11 | 2019-07-09 | 北京三快在线科技有限公司 | 音频消息分段方法、装置、存储介质和电子设备 |
CN110099332B (zh) * | 2019-05-21 | 2021-08-13 | 科大讯飞股份有限公司 | 一种音频环境展示方法及装置 |
WO2021097629A1 (zh) * | 2019-11-18 | 2021-05-27 | 深圳市欢太科技有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN111586494B (zh) * | 2020-04-30 | 2022-03-11 | 腾讯科技(深圳)有限公司 | 一种基于音视频分离的智能拆条方法 |
CN111798870A (zh) * | 2020-09-08 | 2020-10-20 | 共道网络科技有限公司 | 会话环节确定方法、装置及设备、存储介质 |
CN111798871B (zh) * | 2020-09-08 | 2020-12-29 | 共道网络科技有限公司 | 会话环节识别方法、装置及设备、存储介质 |
CN112399019A (zh) * | 2020-09-16 | 2021-02-23 | 中国农业银行股份有限公司河北省分行 | 智能外呼方法、终端设备及可读存储介质 |
CN112651231B (zh) * | 2020-12-08 | 2023-10-27 | 北京有竹居网络技术有限公司 | 口语信息处理方法、装置和电子设备 |
CN113076720B (zh) * | 2021-04-29 | 2022-01-28 | 新声科技(深圳)有限公司 | 长文本的分段方法及装置、存储介质、电子装置 |
CN113919324A (zh) * | 2021-09-23 | 2022-01-11 | 秒针信息技术有限公司 | 一种对话段落的文本分割方法、装置及计算设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102169493A (zh) * | 2011-04-02 | 2011-08-31 | 北京奥米时代生物技术有限公司 | 一种从文献中自动识别实验方案的方法 |
CN105047203A (zh) * | 2015-05-25 | 2015-11-11 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置及终端 |
CN105244022A (zh) * | 2015-09-28 | 2016-01-13 | 科大讯飞股份有限公司 | 音视频字幕生成方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4757599B2 (ja) * | 2005-10-13 | 2011-08-24 | 日本電気株式会社 | 音声認識システムと音声認識方法およびプログラム |
-
2016
- 2016-06-30 CN CN201610513351.1A patent/CN107562760B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102169493A (zh) * | 2011-04-02 | 2011-08-31 | 北京奥米时代生物技术有限公司 | 一种从文献中自动识别实验方案的方法 |
CN105047203A (zh) * | 2015-05-25 | 2015-11-11 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置及终端 |
CN105244022A (zh) * | 2015-09-28 | 2016-01-13 | 科大讯飞股份有限公司 | 音视频字幕生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107562760A (zh) | 2018-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107562760B (zh) | 一种语音数据处理方法及装置 | |
CN111128223B (zh) | 一种基于文本信息的辅助说话人分离方法及相关装置 | |
CN109065031B (zh) | 语音标注方法、装置及设备 | |
CN108962282B (zh) | 语音检测分析方法、装置、计算机设备及存储介质 | |
CN110136727B (zh) | 基于说话内容的说话者身份识别方法、装置及存储介质 | |
CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
CN107305541B (zh) | 语音识别文本分段方法及装置 | |
CN110517689B (zh) | 一种语音数据处理方法、装置及存储介质 | |
JP4600828B2 (ja) | 文書対応付け装置、および文書対応付け方法 | |
Djellab et al. | Algerian Modern Colloquial Arabic Speech Corpus (AMCASC): regional accents recognition within complex socio-linguistic environments | |
CN112530408A (zh) | 用于识别语音的方法、装置、电子设备和介质 | |
US9251808B2 (en) | Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof | |
CN111785275A (zh) | 语音识别方法及装置 | |
US20230089308A1 (en) | Speaker-Turn-Based Online Speaker Diarization with Constrained Spectral Clustering | |
WO2023088448A1 (zh) | 语音处理方法、设备及存储介质 | |
CN113035199A (zh) | 音频处理方法、装置、设备及可读存储介质 | |
CN111159334A (zh) | 用于房源跟进信息处理的方法及系统 | |
CN110797032A (zh) | 一种声纹数据库建立方法及声纹识别方法 | |
CN113744742A (zh) | 对话场景下的角色识别方法、装置和系统 | |
CN112201275B (zh) | 声纹分割方法、装置、设备及可读存储介质 | |
US20140297280A1 (en) | Speaker identification | |
CN113129895A (zh) | 一种语音检测处理系统 | |
CN115831125A (zh) | 语音识别方法、装置、设备、存储介质及产品 | |
CN109635151A (zh) | 建立音频检索索引的方法、装置及计算机设备 | |
CN115063155A (zh) | 一种数据标注方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |