CN112002347A

CN112002347A - 语音检测方法、装置和电子设备

Info

Publication number: CN112002347A
Application number: CN202010817028.XA
Authority: CN
Inventors: 刘建敏
Original assignee: Beijing Eswin Computing Technology Co Ltd; Haining Eswin IC Design Co Ltd
Current assignee: Beijing Eswin Computing Technology Co Ltd; Haining Eswin IC Design Co Ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-11-27
Also published as: WO2022033109A1

Abstract

本申请提供一种语音检测方法、装置和电子设备，属于语音检测技术领域。本申请提供的语音检测方法通过检测语音数据中的语音部分生成语音段，将语音段划分成多个语音子段，通过对所述多个语音子段中的说话人进行检测，根据检测结果初步确定每个语音子段中是否存在重叠音，之后再采用重叠音识别算法，对初步确定中难以确定是否存在重叠音的目标语音子段进行验证，验证是否存在重叠音；然后获取所述语音段中出现的所有重叠音部分的起止时间；通过上述方式，对语音段划分得到的每个语音子段中的说话人进行检测能够快速、精准的确定非重叠音部分，再对无法确定是否具有重叠音的部分即可能出现重叠音的部分进行验证，从而提高重叠音的检测效果。

Description

语音检测方法、装置和电子设备

技术领域

本申请涉及语音识别领域，尤其涉及一种语音检测方法、装置和电子设备。

背景技术

语音识别技术已经越来越广泛的在各个领域得到应用，如智能家居、语音输入、自动生成字幕等，目前对单人语音的识别，已经能够达到比较高的准确率。然而，在相对复杂的语音环境中，如在多人举行会议的录音过程中，经常会有两个参会人一起同时说话时，他们两的语音被重叠的录制在一起，形成了重叠音；特别是，当两个人或多人发生争吵时，会存在大量的重叠语音。用现有的语音识别算法/模型对这些录音数据进行语音识别(将录音转换成文字)时，重叠语音的存在会严重影响语音识别的准确率。

发明内容

本申请提出了一种语音检测方法、装置和电子设备，以解决复杂语音环境中的语音检测问题，提高重叠音检测准确率。

为了实现上述目的，本申请采用了如下方案：

一方面，本申请实施例提供了一种语音检测方法，包括：

获取待检测语音数据；

检测出所述待检测语音数据中的语音部分，生成语音段；

将所述语音段划分成多个语音子段；

对所述多个语音子段中的说话人进行检测，得到检测结果；

根据所述检测结果，初步确定每个语音子段中是否存在重叠音；

采用重叠音识别算法，对初步确定中难以确定是否存在重叠音的目标语音子段进行验证，验证是否存在重叠音；

获取所述语音段中出现的所有重叠音部分的起止时间。

可选的，所述对所述多个语音子段中的说话人进行检测，得到检测结果包括：

将所述多个语音子段分别两两成组，生成语音子段组；

获取每个语音子段组中的两个语音子段的相似度得分；

根据所述相似度得分，区分每个所述语音子段中的说话人。

可选的，所述根据所述检测结果，初步确定每个语音子段中是否存在重叠音包括：

当难以区分目标语音子段的说话人时，若所述目标语音子段的前相邻语音子段与后相邻语音子段的说话人相同，则确定目标语音子段中不存在重叠音。

可选的，所述根据所述检测结果，初步确定每个语音子段中是否存在重叠音还包括：

若所述目标语音子段的前相邻语音子段与后相邻语音子段的说话人不同，则认为难以确定是否存在重叠音。

若两个相邻语音子段的说话人不同，则确定前一个语音子段的后一半为重叠音，后一个语音子段的前一半为重叠音。

可选的，所述采用重叠音识别算法，对初步确定中难以确定是否存在重叠音的目标语音子段进行验证，验证是否存在重叠音包括：

根据所述难以确定是否存在重叠音的目标语音子段的能量连续性、语音连续性、静音间隔、突发噪声、脉冲信号和频谱变化幅度中的至少一项语音信号特征，确定所述目标语音子段中是否存在重叠音。

可选的，所述将所述语音段划分成多个语音子段包括；

按照2秒的窗长，0.5秒的窗移将所述语音段划分成多个语音子段。

一方面，本申请实施例提供了一种语音检测装置，.包括：

第一获取模块，用于获取待检测语音数据；

第一检测模块，用于检测所述待检测语音数据中的语音部分，生成语音段；

第一处理模块，用于将所述语音段划分成多个语音子段；

第二检测模块，用于对所述多个语音子段中的说话人进行检测，得到检测结果；

第二处理模块，用于根据所述检测结果，初步确定每个语音子段中是否存在重叠音；

第三处理模块，用于采用重叠音识别算法，对初步确定中难以确定是否存在重叠音的目标语音子段进行验证，验证是否存在重叠音；

第二获取模块，用于获取所述语音段中出现的所有重叠音部分的起止时间。

一方面，本申请实施例提供了一种网络设备，包括：

处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现本申请提供的语音检测方法的步骤。

一方面，本申请实施例提供了一种计算机可读存储介质，包括：

所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本申请提供的语音检测方法的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请通过检测语音数据中的语音部分生成语音段，将语音段划分成多个语音子段，通过对所述多个语音子段中的说话人进行检测，根据检测结果初步确定每个语音子段中是否存在重叠音，之后再采用重叠音识别算法，对初步确定中难以确定是否存在重叠音的目标语音子段进行验证，验证是否存在重叠音；然后获取所述语音段中出现的所有重叠音部分的起止时间；通过上述方式，对语音段划分得到的每个语音子段中的说话人进行检测能够快速、精准的确定非重叠音部分，再对无法确定是否具有重叠音的部分即可能出现重叠音的部分进行验证，从而提高重叠音的检测效果。

附图说明

图1为本申请一个示例性实施例提供的一种语音检测方法的流程图；

图2为本申请一个示例性实施例提供的一种语音检测方法中的语音子段划分示意图；

图3为本申请一个示例性实施例提供的一种语音检测装置结构示意图；

图4为本申请一个示例性实施例提供的一种语音检测装置结构示意图；

图5为本申请一个示例性实施例提供的一种语音检测装置结构示意图；

图6为本申请一个示例性实施例提供的一种网络设备结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例的附图，对本申请实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于所描述的本申请的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请的保护范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的语音检测方法进行详细地说明。

此外，下面所描述的本申请不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

参考图1示出了本申请实施例提供的一种语音检测方法的流程图示意，所述语音检测方法包括：

步骤101，获取待检测语音数据；

示例性的，步骤101中获取待检测语音数据可以是通过用于语音检测的装置、电子设备、终端或用于进行语音检测的软件等获取待检测的语音数据。

步骤102，检测出待检测语音数据中的语音部分，生成语音段；

在步骤102中，待检测的语音数据可以是一段录音或其他语音文件，对这段语音数据进行检测，可以通过如语音活动检测的方式，检测出所述语音数据中的语音段，标记处语音段的起始位置和结束位置，生成语音段，而其他段，如静音段、噪声段和音乐段等则不关注。

通过步骤102能够精准的排除非语音段对重叠音检测的干扰，快速定位语音数据中的语音段。

步骤103，将所述语音段划分成多个语音子段；

示例性的，可以按照一定的预设方法，将所述语音段划分成a、b、c、d、e、f、g等多个语音子段。

可选的，可以按照2秒的窗长，0.5秒的窗移将所述语音段划分成多个语音子段。

这种划分可以减少数据处理量，也更容易计算两个语音子段相似度，能够提高本申请提供的语音检测方法的准确率。

值得注意的是，不论按照什么样的预设方法进行划分，多个语音子段之间都是连续的，可以是部分重叠并连续的，即语音子段a、b、c、d、e、f、g、h等多个语音子段的起始位置都在语音段中进行标注后，语音段中不会有不属于这些语音子段的未被划分的段落。

步骤104，对所述多个语音子段中的说话人进行检测，得到检测结果；

示例性的，通过对步骤103中将所述语音段进行划分后得到的语音子段a、b、c、d、e、f、g、h等多个语音子段中的说话人进行检测，得到的检测结果如下表1所示：

具体的，如表1中所示的情况，能够识别出语音子段a、b、c、d、e、f、g、h中a、c、f、g、h段的说话人分别是甲、甲、乙、乙、丙，而b、d、e段则难以判断是哪个说话人。

值得注意的是，当前语音识别技术，在说话人识别方面已经能够达到较高的准确率，当前在语音识别领域，声纹识别的准确率已经高达95％；

因此通过结合深度学习神经网络和大数据对用于说话人检测模型进行训练，之后使用检测模型对多个语音子段的说话人进行检测，就能够得到准确率高而可靠的检测结果。

步骤105，根据检测结果，初步确定每个语音子段中是否存在重叠音；

通过确定每个语音子段的说话人，能够初步确定每个语音子段是否存在重叠音，如当确定a、b、c段的说话人为甲、甲、甲，则显而易见的可以确定a、b段只有一人说话，不存在重叠音，通过这种方式可以精准的排除非重叠音部分，从而初步确定每个语音子段是否存在重叠音。

步骤106，采用重叠音识别算法，对初步确定中难以确定是否存在重叠音的目标语音子段进行验证，验证是否存在重叠音；

对步骤105中初步判断中难以确定是否存在重叠音的部分，通过重叠音识别算法进行验证，进一步确定是否存在重叠音，结合步骤105和步骤106能够精准并且高效的对语音子段中的重叠音进行确认，不需要每个语音子段都通过重叠音识别算法进行判断，极大的节约了计算资源和识别效率。

步骤107，获取所述语音段中出现的所有重叠音部分的起止时间。

根据对全部语音子段中重叠音部分的识别，确定存在的重叠音部分，就可以得到所述语音段中出现重叠音的部分，并获取他们的起止时间，即得到了语音检测的最终结果。

本申请实施例提供的语音检测方法，通过检测语音数据中的语音部分生成语音段，将语音段划分成多个语音子段，通过对所述多个语音子段中的说话人进行检测，根据检测结果初步确定每个语音子段中是否存在重叠音，之后再采用重叠音识别算法，对初步确定中难以确定是否存在重叠音的目标语音子段进行验证，验证是否存在重叠音；然后获取所述语音段中出现的所有重叠音部分的起止时间；通过上述方式，对语音段划分得到的每个语音子段中的说话人进行检测能够实现快速、精准的确定非重叠音部分，再对无法确定是否具有重叠音的部分即可能出现重叠音的部分进行验证，从而提高重叠音的检测效果。

可选的，步骤104，对多个语音子段中的说话人进行检测，得到检测结果包括：

将多个语音子段分别两两成组，生成语音子段组；

获取每个语音子段组中的两个语音子段的相似度得分；

根据相似度得分，区分每个语音子段中的说话人。

示例性的，将语音子段a、b、c、d、e、f、g、h两两组合，生成语音子段组ab、ac、ad、ae、af、ag、ah、bc、bd、be、bf、bg、bh、cd、ce、cf、cg、ch、de、df、dg、dh、ef、eg、eh、fg、fh、gh，对每个语音子段组中的两个语音子段的相似度进行计算，得到相似度得分，示例性的，以如下的表2相似度得分矩阵的方式来示意这些语音子段组中2个语音子段之间的相似度得分：

通过语音子段组中两个语音子段之间的相似度得分，根据预设的阈值，可以对所有语音子段的说话人进行确定，其中，阈值可以进行语音检测中的实际情况进行调整，以得到更准确的检测结果。

根据相似度得分表，获得了检测结果，区分出了每个语音子段中的说话人，示例性的以表1为例：

确定结果可以分为两种，一种是可以确定说话人，一种情况则是难以确定说话人，如，通过相似度得分可以确定语音子段a、b、c、d、e、f、g、h中一共出现了甲乙丙三位说话人，其中a、c、f、g、h段能确定是哪一个说话人如表1所示，而b、d、e语音子段难以确定说话人。

将当前深度学习领域在声纹识别方面的神经网络结构与大数据结合，对说话人检测模型进行训练，能极大的提高说话人检测的准确率，使得对语音子段中说话人的区分结果更可靠。

可选的，步骤105，根据检测结果，初步确定每个语音子段中是否存在重叠音包括：

当难以区分目标语音子段的说话人时，若目标语音子段的前相邻语音子段与后相邻语音子段的说话人相同，则确定目标语音子段中不存在重叠音。

示例性的，参考表1所示，a、b、c三个语音子段中，能够确定a和c的说话人都是甲，不能确定b的说话人，此时认为语音子段b中不存在重叠音；

在进行语音子段划分的时候，通常为了使得检测结果更精准，往往语音子段之间是连续的，小跨度的，即相邻的语音子段之间在语音段中的位置除了有大量的重叠以外，也仅仅进行了少量的位置，这也是为了保证语音子段之间说话人区分的精准度，图2示出了，以2秒的窗长，0.5秒的窗移对语音段进行划分后得到的语音子段之间的关系，图2中将一个长度为5.5秒的语音段，以2秒窗长，0.5秒窗移划分成语音子段a、b、c、d、e、f、g、h。

可选的，步骤105，根据检测结果，初步确定每个语音子段中是否存在重叠音还包括：

若目标语音子段的前相邻语音子段与后相邻语音子段的说话人不同，则认为难以确定是否存在重叠音。

示例性的，参考表1所示，c、d、e、f四个语音子段中，处于中间的d、e语音子段的前相邻语音子段c的说话人为甲，后相邻语音子段f的说话人为乙，则认为难以确定语音子段d、e是否存在重叠音。

示例性的，参考表1所示，g、h语音子段，语音子段g的说话人为乙，语音子段h的说话人为丙，且语音子段g与语音子段h相邻，此时认为语音子段g的后一半为重叠音，语音子段h的前一半为重叠音。

根据上述方案，将根据检测结果，初步确定每个语音子段中是否存在重叠音的方法进行总结，有如下情况：

当能够直接确定目标语音子段的说话人时，有如下两种情况：

1、目标语音子段的前后相邻语音子段与目标语义子段说话人相同，则目标语音子段中不存在重叠音；

2、目标语音子段的说话人与相邻语音子段的说话人不同，则认为这个相邻的两个语音子段，前一个语音子段的后一半和后一个语音子段的前一半存在重叠音；

当难以确定语音子段的说话人时，有以下2种情况确定目标语音子段中是否存在重叠音：

1、目标语音子段的前相邻语音子段与后相邻语音子段的说话人相同，则认为目标语音子段中不存在重叠音；

2、目标语音子段的前相邻语音子段与后相邻语音子段的说话人不同，则认为目标语音子段中难以确定是否存在重叠音。

示例性的，结合表1对，用表2对语音子段重叠音初步确定结果进行示意说明：

可选的，步骤106，采用重叠音识别算法，对初步确定中难以确定是否存在重叠音的目标语音子段进行验证，验证是否存在重叠音包括：

根据难以确定是否存在重叠音的目标语音子段的能量连续性、语音连续性、静音间隔、突发噪声、脉冲信号和频谱变化幅度中的至少一项语音信号特征，确定目标语音子段中是否存在重叠音。

在步骤106中重叠音识别算法结合了传统语音信号处理技术，来对验证目标语音子段中是否存在重叠音，结合了本申请在步骤104中对说话人的检测结果，及步骤105中对语音子段中重叠音的初步判断，实现了将神经网络模型与传统语音信号处理技术的结合，能大幅度的提高重叠音检测的准确率。

请参考图3，本申请实施例提供了一种语音检测装置30，.包括：

第一获取模块31，用于获取待检测语音数据；

第一检测模块32，用于检测待检测语音数据中的语音部分，生成语音段；

第一处理模块33，用于将所述语音段划分成多个语音子段；

第二检测模块34，用于对多个语音子段中的说话人进行检测，得到检测结果；

第二处理模块35，用于根据检测结果，初步确定每个语音子段中是否存在重叠音；

第三处理模块36，用于采用重叠音识别算法，对初步确定中难以确定是否存在重叠音的目标语音子段进行验证，验证是否存在重叠音；

第二获取模块37，用于获取所述语音段中出现的所有重叠音部分的起止时间。

可选的，参考图4，第二检测模块34，还包括：

第一处理子模块341，用于将多个语音子段分别两两成组，生成语音子段组；

第二处理子模块342，用于获取每个语音子段组中的两个语音子段的相似度得分；

第三处理子模块343，根据相似度得分，区分每个语音子段中的说话人。

可选的，参考图5，第二处理模块35，还包括：

第四处理子模块351，用于当难以区分目标语音子段的说话人时，若所述目标语音子段的前相邻语音子段与后相邻语音子段的说话人相同，则确定目标语音子段中不存在重叠音。

可选的，参考图5，第二处理模块35，还包括：

第五处理子模块352，用于若所述目标语音子段的前相邻语音子段与后相邻语音子段的说话人不同，则认为难以确定是否存在重叠音。

可选的，参考图5，第二处理模块35，还包括：

第六处理子模块353，用于若两个相邻语音子段的说话人不同，则确定前一个语音子段的后一半为重叠音，后一个语音子段的前一半为重叠音。

可选的，第三处理模块36，还用于根据所述难以确定是否存在重叠音的目标语音子段的能量连续性、语音连续性、静音间隔、突发噪声、脉冲信号和频谱变化幅度中的至少一项语音信号特征，确定所述目标语音子段中是否存在重叠音。

可选的，第一处理模块33还用于按照2秒的窗长，0.5秒的窗移将所述语音段划分成多个语音子段。

请参考图6，本发明实施例还提供一种网络设备60，包括处理器61，存储器62，存储在存储器62上并可在所述处理器61上运行的计算机程序，该计算机程序被处理器61执行时实现上述语音检测方法的实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述语音检测方法的实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本申请创造的保护范围之中。

Claims

1.一种语音检测方法，其特征在于，包括：

获取待检测语音数据；

检测所述待检测语音数据中的语音部分，生成语音段；

将所述语音段划分成多个语音子段；

对所述多个语音子段中的说话人进行检测，得到检测结果；

获取所述语音段中出现的所有重叠音部分的起止时间。

2.根据权利要求1所述的语音检测方法，其特征在于，所述对所述多个语音子段中的说话人进行检测，得到检测结果包括：

将所述多个语音子段分别两两成组，生成语音子段组；

获取每个语音子段组中的两个语音子段的相似度得分；

根据所述相似度得分，区分每个所述语音子段中的说话人。

3.根据权利要求1所述的语音检测方法，其特征在于，所述根据所述检测结果，初步确定每个语音子段中是否存在重叠音包括：

4.根据权利要求3所述的语音检测方法，其特征在于，所述根据所述检测结果，初步确定每个语音子段中是否存在重叠音还包括：

5.根据权利要求4所述的语音检测方法，其特征在于，所述根据所述检测结果，初步确定每个语音子段中是否存在重叠音还包括：

6.根据权利要求1所述的语音检测方法，其特征在于，所述采用重叠音识别算法，对初步确定中难以确定是否存在重叠音的目标语音子段进行验证，验证是否存在重叠音包括：

7.根据权利要求1所述的语音检测方法，其特征在于，所述将所述语音段划分成多个语音子段包括；

8.一种语音检测装置，其特征在于，包括：

第一获取模块，用于获取待检测语音数据；

第一处理模块，用于将所述语音段划分成多个语音子段；

9.一种网络设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音检测方法的步骤。