CN110853622B

CN110853622B - 语音断句方法及系统

Info

Publication number: CN110853622B
Application number: CN201911006583.8A
Authority: CN
Inventors: 张远泽; 曾鸣; 郑炯彬; 钟武文
Original assignee: Shenzhen Benew Technology Co ltd
Current assignee: Shenzhen Benew Technology Co ltd
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2024-01-12
Anticipated expiration: 2039-10-22
Also published as: CN110853622A

Abstract

本发明涉及一种语音断句方法及系统，其包括以下步骤：获取语音开始录入到结束录入时间段内的波形信息；识别语音波形信息中的声音区间及安静区间，并标注每个安静区间产生的初始位置及结束位置，标注每个声音区间产生的初始位置及结束位置；将安静区间由初始位置到结束位置从语音波形信息中去除；将安静区间前的声音区间结束位置与该安静区间后的声音区间初始位置进行结合。本发明可提高去除录入语音中安静部分的去除效率。

Description

语音断句方法及系统

技术领域

本发明涉及语音处理的技术领域，尤其是涉及一种语音断句方法及系统。

背景技术

人们在阅读绘本的过程中，会采用边看绘本，并边听对应绘本的所录的语音，但是在听的过程中，绘本所录的语音部分会产生停顿，进而产生安静的时间段，影响人们听的流畅性，为保证语音输出的流畅度，需要对语音录入过程中，语音内产生停顿部分进行去除，现有的去除技术为录音的人将书本内的文字通过语音录入完毕后，需要通过另外的人重新听录入完毕后的语音，并在听的过程中将产生停顿的部分进行去除，只保留有声音的时间段。

上述中的现有技术方案存在以下缺陷：上述对录入完毕后的语音进行停顿部分进行去除时，采用的是人工重新听录音并去除的方式，整体去除停顿部分语音的效率较低。

发明内容

本发明的目的是提供一种语音断句方法，具有提高去除录入语音中停顿部分的去除效率。

本发明的上述发明目的是通过以下技术方案得以实现的：一种语音断句方法，包括以下步骤：

获取语音开始录入到结束录入时间段内的波形信息；

识别语音波形信息中的声音区间及安静区间，并标注每个安静区间产生的初始位置及结束位置，标注每个声音区间产生的初始位置及结束位置；

将安静区间由初始位置到结束位置从语音波形信息中去除；

将安静区间前的声音区间结束位置与该安静区间后的声音区间初始位置进行结合。

通过采用上述技术方案，语音经过录入后会产生对应的波形信息，人在读绘本进行语音录入时产生相应的声音区间，停顿时产生相应的安静区间，根据录入的语音中的波形信息，识别语音波形信息中的声音区间及安静区间，即识别录入的语音中语音录入的部分及停顿的部分，之后将安静区间从获取的波形信息中取出，最后将去除的安静区间前后的声音区间结合，进而实现在语音录入后自动对录入的语音中停顿部分的去除，有利于提高对录入的语音中，停顿部分的去除效率。

本发明进一步设置为：还包括：

获取去除后的安静区间的波形信息；

对去除的安静区间中的波形信息从初始位置向结束位置进行扫描；

识别在扫描过程中，所去除的安静区间中所存在的残留声音区间。

通过采用上述技术方案，在停顿过程中会产生一定的语音录入情况，进而在所去除的安静区间内会形成一定的声音区间，存在产生的声音区间在语音信息识别过程中遗漏的情况，通过对去除的安静区间内波形信息的识别扫描，以减少对声音区间的遗漏几率。

本发明进一步设置为：还包括：

标注残留声音区间的起始位置及终止位置；

截取从起始位置到终止位置的去除安静区间中的残留声音区间；

将截取的残留声音区间的波形信息与所获取的从开始录入到结束录入时间段内的声音区间的波形信息进行对比；

对所截取的残留声音区间进行去除或重新结合至声音区间内。

通过采用上述技术方案，对安静区间内所遗漏的声音区间存在为杂音录入的语音波形信息情况，将遗漏的残留声音区间进行截取并与所获取的声音区间的波形信息进行对比，以确定所截取的残留声音区间为杂音或者正常语音录入，对杂音进行去除，对正常的语音录入结合至声音区间内，以保证语音波形信息的完整性。

本发明进一步设置为：还包括：

确定去除的安静区间前后的声音区间提取时间长度；

获取去除安静区间前的声音区间基于确定时间长度的结束位置波形信息；

获取去除安静区间后的声音区间基于确定时间长度的初始位置波形信息；

结合基于确定时间长度的声音区间结束位置及声音区间初始位置的波形信息；

将基于确定时间长度结合的波形信息与去除的安静区间前后结合的声音区间基于该时间长度的波形信息进行对比。

通过采用上述技术方案，在结合去除安静区间后的声音区间时，先获取在规定时间长度内的安静区间前后声音区间的波形信息并进行结合，之后将结合的波形信息与最终结合后的同一规定时间长度的声音区间的波形信息进行对比，以确定安静区间的去除情况。

本发明进一步设置为：还包括：

获取经过去除安静区间及经过基于确定时间对比后的声音区间的最终语音波形信息；

识别最终的语音波形信息中的声音区间。

通过采用上述技术方案，对经过去除安静区间的语音波形信息再进行声音区间的识别，以保证声音区间的完整性。

本发明的另一个目的是提供一种语音断句系统，具有提高去除录入语音中停顿部分的去除效率。

本发明的上述发明目的是通过以下技术方案得以实现的：一种语音断句系统，包括语音转换模块、语音波形采集模块、波形识别模块、停顿去除模块及波形结合模块；

语音转换模块，用于对录入的语音进行波形的转换；

语音波形采集模块，耦接于所述语音转换模块并采集经过转换的后语音波形信息；

波形识别模块，耦接于所述语音波形采集模块并识别所转换的语音波形信息中的进行语音录入的声音区间及停顿的安静区间；

停顿去除模块，耦接于所述波形识别模块并去除停顿的安静区间；

波形结合模块，耦接于所述停顿去除模块并将去除安静区间后的位于安静区间量端的声音区间进行结合。

通过采用上述技术方案，录入的语音经过语音转换模块后转换成语音波形并通过语音波形采集模块进行采集以集中，波形识别模块对采集的语音波形信息进行识别，以区分声音区间及安静区间，再通过停顿去除模块将停顿的安静区间进行去除，最后将剩余的声音区间进行结合，进而实现在语音录入后自动对录入的语音中停顿部分的去除，有利于提高对录入的语音中，停顿部分的去除效率。

本发明进一步设置为：还包括：

安静区间扫描模块，耦接于所述停顿去除模块并对去除的安静区间进行扫描；

声音区间提取模块，耦接于所述安静区间扫描模块并于所扫描的安静区间内提取残留的声音区间；

声音区间对比模块，耦接于所述声音区间提取模块并将残留的声音区间与经过波形结合模块组合后的声音区间进行对比，以去除或重新结合残留的声音区间。

通过采用上述技术方案，在针对去除的安静区间，通过安静区间扫描模块进行扫描，并通过声音区间提取模块提取在去除过程中残留的声音区间，之后通过声音区间对比模块进行对比后，以确定残留的声音区间是属于杂音的录入还是正常的语音录入。

本发明进一步设置为：还包括：

结合波形扫描模块，用于对去除安静区间且结合后的语音波形信息中的声音区间进行扫描。

通过采用上述技术方案，对最终结合后的声音区间进行扫描，以进行检查工作，进而可保证结合后的语音波形信息中声音区间的完整性。

综上所述，本发明的有益技术效果为：

语音录入时产生相应的声音区间，停顿时产生相应的安静区间，识别语音波形信息中的声音区间及安静区间，再将安静区间从获取的波形信息中去除，之后将去除的安静区间前后的声音区间结合，进而实现在语音录入后自动对录入的语音中停顿部分的去除，有利于提高对录入的语音中，停顿部分的去除效率。

附图说明

图1是本发明中实施例一的流程图一。

图2是本发明中实施例一的流程图二。

图3是本发明中实施例一的流程图三。

图4是本发明中实施例二的结构示意图。

图中，1、语音转换模块；2、语音波形采集模块；3、波形识别模块；4、停顿去除模块；5、波形结合模块；6、安静区间扫描模块；7、声音区间提取模块；8、声音区间对比模块；9、结合波形扫描模块。

具体实施方式

以下结合附图对本发明作进一步详细说明。

实施例一：

参照图1，为本发明公开的一种语音断句方法，包括以下步骤：

步骤S1，获取语音开始录入到结束录入时间段内的波形信息；语音的录入可通过负责录入的人将绘本中的信息通过读的方式进行录音，并形成对应的录音数据进行存储，录音从开始到结束后，录音的数据以波形信息的形式进行存储，且形成的波形信息中包括录入绘图信息部分的声音区间及停止录入但保持录音状态的停顿部分的安静区间；本实施例中在进行声音区间及安静区间判断时，以10ms为一帧，将形成的波形信息分隔成相应的数量，之后进行波形能量强度的检测，在检测过程中，通过预设波形能量强度判断数据值，当一帧的波形能量强度小于对应的波形能量强度判断数据值时，则判断这一帧为安静帧，且连续时间内的安静帧组合为安静区间，反之当一帧的波形能量强度大于对应的波形能量强度判断数据值时，则判断这一帧为声音帧，且连续时间内的声音帧组合为声音区间。

步骤S2，识别语音波形信息中的声音区间及安静区间，并标注每个安静区间产生的初始位置及结束位置，标注每个声音区间产生的初始位置及结束位置；具体的，对每个声音区间进行标注时，每个声音区间的录入开始标注为初始位置，到录入至安静帧的产生，作为每个声音区间的结束位置；而对每个安静区间的标注，以每个声音区间结束位置作为初始位置，到重新产生声音帧作为结束位置。

步骤S3，将安静区间由初始位置到结束位置从语音波形信息中去除；在整个绘本的语音录入过程中，对确定产生的每个安静区间冲录入的波形信息中去除，仅保留录入文字部分的声音区间，以除去所录绘本信息中的停顿部分。

步骤S4，将同一安静区间前的声音区间结束位置与同一安静区间后的声音区间初始位置进行结合；以形成完整的仅保留录入绘图信息的波形信息。

步骤S5，获取经过去除安静区间及经过基于确定时间对比后的声音区间的最终语音波形信息，并识别最终的语音波形信息中的声音区间，以进一步检查最终的语音波形信息中的安静区间。

参照图2，步骤S3中，在去除的安静区间中，存在停顿过程中会产生一定的语音录入情况，也可能存在杂音录入的情况，需要对去除的安静区间进行检查，有语音录入需要提取，有杂音录入则忽略。

具体包括：

步骤S31，获取去除后的安静区间的波形信息。

步骤S32，对去除的安静区间中的波形信息从初始位置向结束位置进行扫描；停顿部分所录入的语音波形较小，从初始位置向结束位置进行扫描以对去除的安静区间检修全面排查。

步骤S33，识别在扫描过程中，所去除的安静区间中所存在的残留声音区间。

步骤S34，标注残留声音区间的起始位置及终止位置，以确定残留波形区所处的位置及长度，之后截取从起始位置到终止位置的去除安静区间中的残留声音区间进行信息保留。

步骤S35，将截取的残留声音区间的波形信息与所获取的从开始录入到结束录入时间段内的声音区间的波形信息进行对比；同一人在对绘本信息进行语音录入时，所产生的声音区间的幅度、间隔相同，在将残留声音区间进行对比时，优选对比所产生的声音区间的幅度、间隔。

步骤S36，对所截取的残留声音区间进行去除或通过步骤S4重新结合至声音区间内；残留声音区间经过对比后，所产生的声音区间的幅度、间隔相同时则为可重新结合的绘本信息录入波形，反之则为忽略的杂音波形。

参照图3，步骤S4中，为保证最终结合的声音区间的完整性及准确性。

具体包括：

步骤S41，确定去除的安静区间前后的声音区间提取时间长度；本实施例中可设定为5S时间录入所产生的声音区间。

步骤S42，获取去除安静区间前的声音区间基于确定时间长度的结束位置波形信息；本实施例中在所去除的安静区间前面的声音区间选取5S的语音录入所产生的波形间隔。

步骤S43，获取去除安静区间后的声音区间基于确定时间长度的初始位置波形信息；本实施例中在所去除的安静区间后面的声音区间选取5S的语音录入所产生的波形间隔。

步骤S44，结合基于确定时间长度的声音区间结束位置及声音区间初始位置的波形信息；将所去除的安静区间前面的所选取的5S声音区间与所去除的安静区间后面的所选取的5S声音区间进行结合。

步骤S45，将基于确定时间长度结合的波形信息与去除的安静区间前后结合的声音区间基于该时间长度的波形信息进行对比；两者波形重合则所去除的安静区间较为完整。

实施例二：

参照图4，为本发明公开的一种语音断句系统，包括语音转换模块1、语音波形采集模块2、波形识别模块3、停顿去除模块4及波形结合模块5。

语音转换模块1用于对录入的语音进行波形的转换，以将录入的文字信息及停顿信息转换为波形信息进行存储；语音波形采集模块2耦接于所述语音转换模块1并采集经过转换的后语音波形信息；波形识别模块3耦接于所述语音波形采集模块2并识别所转换的语音波形信息中的进行语音录入的声音区间及停顿的安静区间；停顿去除模块4耦接于所述波形识别模块3并去除停顿的安静区间；波形结合模块5耦接于所述停顿去除模块4并将去除安静区间后的位于安静区间量端的声音区间进行结合，以实现在语音录入后自动对录入的语音中停顿部分的去除，有利于提高对录入的语音中，停顿部分的去除效率。

进一步的，在去除的安静区间内存在遗漏的声音区间，本发明还包括安静区间扫描模块6、声音区间提取模块7及声音区间对比模块8；安静区间扫描模块6耦接于所述停顿去除模块4并对去除的安静区间进行扫描；声音区间提取模块7耦接于所述安静区间扫描模块6并于所扫描的安静区间内提取残留的声音区间；声音区间对比模块8耦接于所述声音区间提取模块7并将残留的声音区间与经过波形结合模块5组合后的声音区间进行对比，以去除或重新结合残留的声音区间；以将遗漏的声音区间中正常的语音录入重新结合至波形信息中，保证语音录入的绘本信息完整性。

进一步的，本发明还包括结合波形扫描模块9，用于对去除安静区间且结合后的语音波形信息中的声音区间进行扫描，以进一步查看语音波形信息中的安静区间。

本具体实施方式的实施例均为本发明的较佳实施例，并非依此限制本发明的保护范围，故：凡依本发明的结构、形状、原理所做的等效变化，均应涵盖于本发明的保护范围之内。

Claims

1.一种语音断句方法，其特征在于：包括以下步骤：

获取语音开始录入到结束录入时间段内的波形信息；

将安静区间由初始位置到结束位置从语音波形信息中去除；

将安静区间前的声音区间结束位置与该安静区间后的声音区间初始位置进行结合；

还包括：

确定去除的安静区间前后的声音区间提取时间长度；

将基于确定时间长度结合的波形信息与去除的安静区间前后结合的声音区间基于该时间长度的波形信息进行对比；

获取去除后的安静区间的波形信息；

识别在扫描过程中，所去除的安静区间中所存在的残留声音区间；

标注残留声音区间的起始位置及终止位置；

2.根据权利要求1所述的语音断句方法，其特征在于：还包括：

识别最终的语音波形信息中的声音区间。

3.一种语音断句系统，其特征在于：包括语音转换模块(1)、语音波形采集模块(2)、波形识别模块(3)、停顿去除模块(4)及波形结合模块(5)；

语音转换模块(1)，用于对录入的语音进行波形的转换；

语音波形采集模块(2)，耦接于所述语音转换模块(1)并采集经过转换的后语音波形信息；

波形识别模块(3)，耦接于所述语音波形采集模块(2)并识别所转换的语音波形信息中的进行语音录入的声音区间及停顿的安静区间；

停顿去除模块(4)，耦接于所述波形识别模块(3)并去除停顿的安静区间；

波形结合模块(5)，耦接于所述停顿去除模块(4)并将去除安静区间后的位于安静区间量端的声音区间进行结合：

安静区间扫描模块(6)，耦接于所述停顿去除模块(4)并对去除的安静区间进行扫描；

声音区间提取模块(7)，耦接于所述安静区间扫描模块(6)并于所扫描的安静区间内提取残留的声音区间；

声音区间对比模块(8)，耦接于所述声音区间提取模块(7)并将残留的声音区间与经过波形结合模块(5)组合后的声音区间进行对比，以去除或重新结合残留的声音区间。

4.根据权利要求3所述的语音断句系统，其特征在于：还包括：

结合波形扫描模块(9)，用于对去除安静区间且结合后的语音波形信息中的声音区间进行扫描。