CN109599125A

CN109599125A - 一种重叠音检测方法及相关装置

Info

Publication number: CN109599125A
Application number: CN201910104603.9A
Authority: CN
Inventors: 刘建敏; 胡新辉; 徐欣康
Original assignee: Hithink Royalflush Information Network Co Ltd
Current assignee: Hithink Royalflush Information Network Co Ltd
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2019-04-09

Abstract

本申请公开了一种重叠音检测方法，包括：采用重叠音检测模型对多个语音序列进行检测，得到检测结果；其中，重叠音检测模型的训练过程包括：对多个非重叠音序列进行语音叠加处理，得到多个重叠音序列；根据多个非重叠音序列对多个重叠音序列进行重叠音标注，得到重叠音标注训练数据；根据重叠音标注训练数据和多个非重叠音序列进行神经网络训练，得到重叠音检测模型。通过训练得到的深度神经网络模型进行重叠音检测提高了检测精度，并且可以生成训练数据进一步提高训练效果。本申请还公开了一种重叠音检测系统、重叠音检测设备以及计算机可读存储介质，具有以上有益效果。

Description

一种重叠音检测方法及相关装置

技术领域

本申请涉及语音识别技术领域，特别涉及一种重叠音检测方法、重叠音检测系统、重叠音检测设备以及计算机可读存储介质。

背景技术

随着信息技术的不断发展，语音识别技术越来越多的应用在各行各业中。当应用在电话销售领域中时，销售人员需要通过固定电话和客户进行通话，两个人的整体通话过程是被录音保存成一个单声道的语音文件。为了及时获取客户的动态以及了解销售的服务状态，在后台处理中会对上传的单声道语音进行语音识别和说话人分割聚类，以便获取到进行服务沟通时的信息。

但是，在记录的语音文件中经常会存在销售人员和客户同时说话的情况，导致在语音文件中记录了重叠音。语音文件中记录的这些重叠音会直接导致语音识别和说话人聚类的性能下降，为了提高语音识别和说话人分割聚类效果，以便提高识别精度和服务质量，就需要在语音序列中将重叠音检测出来。

现有技术中，通常使用高斯混合模型进行重叠音检测。但是高斯混合模型的模拟能力相当于1至2层的浅层神经网络，无法模拟复杂的高维特征如语音语调变化、方言的特殊发音等。导致检测准确率差，鲁棒性较弱，无法精确的进行重叠音检测，进而无法提升语音识别和说话人分割聚类的效果。

因此，如何提高重叠音检测的准确率是本领域技术人员关注的重点问题。

发明内容

本申请的目的是提供一种重叠音检测方法、重叠音检测系统、重叠音检测设备以及计算机可读存储介质，通过训练得到的深度神经网络模型进行重叠音检测提高了检测精度，并且可以生成训练数据进一步提高训练效果。

为解决上述技术问题，本申请提供一种重叠音检测方法，包括：

将待检测语音切分为多个语音序列；

采用重叠音检测模型对所述多个语音序列进行检测，得到检测结果；

根据所述检测结果对对应的语音序列进行重叠音标注，得到已标注重叠音序列；

其中，所述重叠音检测模型的训练过程包括：

对多个非重叠音序列进行语音叠加处理，得到多个重叠音序列；

根据所述多个非重叠音序列对所述多个重叠音序列进行重叠音标注，得到重叠音标注训练数据；

根据所述重叠音标注训练数据和所述多个非重叠音序列进行神经网络训练，得到所述重叠音检测模型。

可选的，对多个非重叠音序列进行语音叠加处理，得到多个重叠音序列，包括：

对所述多个非重叠音序列进行说话人聚类，得到多个说话人非重叠音序列集合；

从预设数量个说话人非重叠音序列集合中查找出语音长度在预设范围内的非重叠音序列；

将查找出的非重叠音序列进行重叠，得到所述多个重叠音序列。

可选的，将查找出的非重叠音序列进行重叠，得到所述多个重叠音序列，还包括：

将查找出的非重叠音序列进行语音属性调整，得到多个调整后非重叠音序列；

将所述多个调整后非重叠音序列进行重叠，得到所述多个重叠音序列。

可选的，所述语音属性调整包括变化幅度和/或增加噪音和/或调整语速。

可选的，根据所述多个非重叠音序列对所述多个重叠音序列进行重叠音标注，得到重叠音标注训练数据，包括：

对所述多个非重叠音序列进行语音帧检测；

当检测到两个及以上的非重叠音序列均为语音帧时，将对应的重叠音序列中对应位置的语音帧标注为重叠音帧，得到所述重叠音标注训练数据。

可选的，根据所述重叠音标注训练数据和所述多个非重叠音序列进行神经网络训练，得到所述重叠音检测模型，包括：

对所述重叠音标注训练数据和所述多个非重叠音序列进行语音特征提取，得到特征数据；

将所述特征数据输入到预设神经网络中进行神经网络训练，得到所述重叠音检测模型。

本申请还提供一种重叠音检测系统，包括：

语音切分模块，用于将待检测语音切分为多个语音序列；

模型检测模块，用于采用重叠音检测模型对所述多个语音序列进行检测，得到检测结果；

重叠音标注模块，用于根据所述检测结果对对应的语音序列进行重叠音标注，得到已标注重叠音序列；

所述系统，还包括：

语音叠加模块，用于对多个非重叠音序列进行语音叠加处理，得到多个重叠音序列；

训练数据标注模块，用于根据所述多个非重叠音序列对所述多个重叠音序列进行重叠音标注，得到重叠音标注训练数据；

神经网络训练模块，用于根据所述重叠音标注训练数据和所述多个非重叠音序列进行神经网络训练，得到重叠音检测模型。

可选的，所述语音叠加模块，包括：

说话人聚类单元，用于对所述多个非重叠音序列进行说话人聚类，得到多个说话人非重叠音序列集合；

序列筛选单元，用于从预设数量个说话人非重叠音序列集合中查找出语音长度在预设范围内的非重叠音序列；

序列叠加单元，用于将查找出的非重叠音序列进行重叠，得到所述多个重叠音序列。

本申请还提供一种重叠音检测设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上所述的重叠音检测方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的重叠音检测方法的步骤。

本申请所提供的一种重叠音检测方法，包括：将待检测语音切分为多个语音序列；采用重叠音检测模型对所述多个语音序列进行检测，得到检测结果；根据所述检测结果对对应的语音序列进行重叠音标注，得到已标注重叠音序列；其中，所述重叠音检测模型的训练过程包括：对多个非重叠音序列进行语音叠加处理，得到多个重叠音序列；根据所述多个非重叠音序列对所述多个重叠音序列进行重叠音标注，得到重叠音标注训练数据；根据所述重叠音标注训练数据和所述多个非重叠音序列进行神经网络训练，得到所述重叠音检测模型。

通过重叠音检测模型对语音序列进行检测，得到相应的检测结果，主要是通过生成得到的多个重叠音序列对神经网络进行训练得到对应的重叠音检测模型，一方面该神经网络模型识别深度较深，当训练充足时，具有较高的识别准确率，另一方面通过对非重叠音序列进行叠加处理就可以生成更多的重叠音序列，以便增加训练数据的数量，以提高模型训练的效果，进一步提高重叠音检测的准确率。

本申请还提供一种重叠音检测系统、重叠音检测设备以及计算机可读存储介质，具有以上有益效果，在此不作赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种重叠音检测方法的流程图；

图2为本申请实施例所提供的一种重叠音检测系统的结构示意图。

具体实施方式

本申请的核心是提供一种重叠音检测方法、重叠音检测系统、重叠音检测设备以及计算机可读存储介质，通过训练得到的深度神经网络模型进行重叠音检测提高了检测精度，并且可以生成训练数据进一步提高训练效果。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有技术中，通常使用高斯混合模型进行重叠音检测。但是高斯混合模型的模拟能力相当于1至2层的浅层神经网络，无法模拟复杂的高维特征如语音语调变化、方言的特殊发音等。导致检测准确率差，鲁棒性较弱，无法精确的进行重叠音检测，进而无法提升语音识别和说话人分割聚类的效果。可见，现有技术中一般采用较低层次的识别模型对重叠音序列进行识别，得到对应的识别结果，但是由于识别模型的层级较低使得识别准确率较低，并且在现有技术中进行模型训练通常还会遇见训练数据不足，而导致模型识别准确率不高的情况。

因此，本申请提供一种重叠音检测方法，通过重叠音检测模型对语音序列进行检测，得到相应的检测结果，主要是通过生成得到的多个重叠音序列对神经网络进行训练得到对应的重叠音检测模型，一方面该神经网络模型识别深度较深且训练充足时，具有较高的识别准确率，另一方面通过对非重叠音序列进行叠加处理就可以生成更多的重叠音序列，以便增加训练数据的数量，以提高模型训练的效果，进一步提高重叠音检测的准确率。

请参考图1，图1为本申请实施例所提供的一种重叠音检测方法的流程图。

本实施例中，该方法可以包括：

S101，对多个非重叠音序列进行语音叠加处理，得到多个重叠音序列；

S102，根据多个非重叠音序列对多个重叠音序列进行重叠音标注，得到重叠音标注训练数据；

S103，根据重叠音标注训练数据和多个非重叠音序列进行神经网络训练，得到重叠音检测模型；

本实施例中的S101至S103主要是说明对重叠音检测模型的训练过程。

本部分中，主要是通过S101将重叠音序列进行语音叠加处理，得到多个重叠音序列，也就是自身生成重叠音序列，以便提高训练数据的数据量，以使模型训练过程得到更好的训练效果。而现有技术中一般会使用现有的重叠音序列作为训练数据，但是由于重叠音序列本身需要从不同的语音进行识别而查找出来，当识别的准确率不高时很难保证训练数据的有效性，并且同样无法保证重叠音序列的数量足够多，以供模型训练的要求。

因此，S101通过叠加非重叠音序列得到重叠音序列不仅增多了训练数据的数量，还保证训练数据的有效性，即训练数据均是重叠音叠加得到的。

进一步的，S102对得到的多个重叠音序列进行重叠音标注，得到可以进行训练的训练数据。其中，进行标注的方式由于已获取到每个重叠音序列对应的非重叠音序列，那么通过这些非重叠音序列就可以对比判断出重叠音序列中哪些部分是重叠的，哪些部分是不重叠的。

在S102的基础上，S103就可以通过重叠音标注训练数据和多个非重叠音序列进行神经网络训练，得到重叠音检测模型。其中，S103所进行的神经网络训练方法可以采用现有技术提供的任意一种神经网络训练方法，具体的在此不做赘述。

其中，非重叠音序列就是只有一个人语音的语音序列，重叠音序列就是两个或两个以上说话人语音叠加的重叠音序列。

S104，将待检测语音切分为多个语音序列；

S105，采用重叠音检测模型对多个语音序列进行检测，得到检测结果；

S106，根据检测结果对对应的语音序列进行重叠音标注，得到已标注重叠音序列。

在S101至S103的基础上，S104至S106也就是在得到重叠音检测模型的基础上，对待检测语音进行重叠音检测，得到对应的重叠音检测的结果。

S101至S103和S104至S106之间的执行顺序并无先后，不做具体限定。可以是单独执行S104至S106，中间直接使用已经训练好的重叠音检测模型。也可以是先执行S101至S103得到重叠音检测模型，在执行S104至S106使用该重叠音检测模型进行重叠音检测。

本实施例中的S101，可以包括：

步骤1，对多个非重叠音序列进行说话人聚类，得到多个说话人非重叠音序列集合；

步骤2，从预设数量个说话人非重叠音序列集合中查找出语音长度在预设范围内的非重叠音序列；

步骤3，将查找出的非重叠音序列进行重叠，得到多个重叠音序列。

本可选方案中主要是先将多个非重叠序列聚类为不同的说话人非重叠音序列集合，再从不同的集合中找出长度相近的重叠音序列，并将这两个进行重叠得到重叠音序列。重复以上步骤多次即可得到不同的多个重叠音序列。

例如，将多个非重叠音序列按照说话人聚类为A说话人集合、B说话人集合以及C说话人集合，此时预设数量为2个，则从A说话人集合和B说话人集合中分别挑选出一个非重叠音序列，再将这两个非重叠音序列进行重叠得到重叠音序列。可见，通过这样的步骤可以得到一个重叠音序列，重复再执行步骤2和步骤3就可以得到多个重叠音序列。

本可选方案中的预设数量表示的是一个重叠音序列是通过多少个非重叠音序列进行叠加得到的。具体的数量大小可以根据重叠音序列的要求进行选择，例如，如果需要两个说话人语音叠加的重叠音序列，那么预设数量就是2，如果需要3个说话人语音叠加的重叠音序列，那么预设数量就是3。可见，各有不同，在此不做具体限定。

本实施例中的S101，还可以包括：

步骤1，将查找出的非重叠音序列进行语音属性调整，得到多个调整后非重叠音序列；

步骤2，将多个调整后非重叠音序列进行重叠，得到多个重叠音序列。

其中，语音属性调整包括变化幅度和/或增加噪音和/或调整语速。

本可选方法主要是通过语音属性调整，增加更多种类的重叠音序列，以便提高训练数据的丰富程度，进一步提高重叠音检测模型的准确率。

本实施例中的S102，可以包括：

步骤1，对多个非重叠音序列进行语音帧检测；

步骤2，当检测到两个及以上的非重叠音序列均为语音帧时，将对应的重叠音序列中对应位置的语音帧标注为重叠音帧，得到重叠音标注训练数据。

本可选方案主要是提供一种重叠音标注的方法。本可选方案中对某一重叠音序列对应的非重叠音序列进行语音帧检测，当同时出现语音帧时，就表示在重叠音序列中对应的位置出现了语音重叠。例如，A非重叠音序列通过语音帧检测得到3秒到5秒存在语音，B非重叠音序列通过语音帧检测得到在4秒和7秒之间存在语音，那么A非重叠音序列和B非重叠音序列同时出现语音的时间段就是4秒至5秒之间，则就可以标注重叠音序列中的第4秒到第5秒为重叠音。

本实施例中的S103，可以包括：

步骤1，对重叠音标注训练数据和多个非重叠音序列进行语音特征提取，得到特征数据；

步骤2，将特征数据输入到预设神经网络中进行神经网络训练，得到重叠音检测模型。

本可选方案主要是说明先对重叠音标注训练数据进行特征提取得到特征数据，再根据特征数据进行神经网络训练，得到重叠音检测模型。

综上，本实施例通过重叠音检测模型对语音序列进行检测，得到相应的检测结果，主要是通过生成得到的多个重叠音序列对神经网络进行训练得到对应的重叠音检测模型，一方面该神经网络模型识别深度较深当训练充足时，具有较高的识别准确率，另一方面通过对非重叠音序列进行叠加处理就可以生成更多的重叠音序列，以便增加训练数据的数量，以提高模型训练的效果，进一步提高重叠音检测的准确率。

在上一实施例的基础上，本申请实施例还提供一种更加具体的重叠音检测方法。

本实施例中，该方法可以包括：

(1)用程序生成重叠音序列的方法：

步骤1，在服务器端构建数据库甲，用于保存若干个人所有的语音数据(包括片段)；

步骤2，如果特定人a的语音数据过少时，用声纹识别系统对数据库甲进行处理，识别出和特定人a相似的若干个人b，c，d。用b，c，d的语音数据当作为特定人a的语音数据；

步骤3，按照语音长度的某种分布(如均匀分布)挑选出每个人的语音片段集合；

步骤4，从每两个人的语音片段集合挑选出语音长度相近的序列直接重叠得到重叠音序列；

步骤5，从每两个人的语音片段集合挑选出语音长度相近的序列，通过变化幅度、增加噪声、调整语速等方式调整每两个人的语音后再进行重叠得到重叠音序列；

步骤6，根据应用场景的需求变化，可以根据步骤4和/或步骤5生成三人或三人以上同时说话的重叠音序列；

步骤7，在服务器端(临时)构建数据库乙，用于保存上述方法生成的重叠音序列。

(2)标注重叠音的方法：

利用语音活动检测等方法对数据库甲和数据库乙的语音数据按帧进行标注。标注结果能区分重叠音和非重叠音。

可以有很多种标注方法。方法之一是将数据库甲中的所有语音都标注为非重叠音。对数据库乙中的重叠音序列a，通过上述步骤可以知道通过重叠得到a之前的语音序列，假设是语音序列b，c两个序列。对重叠之前的语音序列b，c用语音活动检测按帧检测，如果发现同一帧两个序列或两个以上序列都检测为语音时，将重叠音序列a对应位置的帧标注为重叠音帧，其他帧都标注为非重叠音帧。

(3)训练神经网络模型：

步骤1，对数据库甲和数据库乙的语音提取特征(如梅尔频率倒谱系数)后，将特征和标注结果一起输入到神经网络中训练得到神经网络模型；

步骤2，当重叠音检测在线上运行时，新的数据经过说话人分割聚类之后得到语音片段，并经过声纹识别之后，将确信属于特定人的语音数据持续的保存到数据库甲中。隔若干时间或者新增数据较多时，或者重叠音检测性能大幅下降时等等条件时，继续用上述方法重新生成重叠音序列，标注后训练新的重叠音神经网络模型来替换旧的重叠音神经网络模型。

本申请实施例提供了一种重叠音检测方法，可以通过重叠音检测模型对语音序列进行检测，得到相应的检测结果，主要是通过生成得到的多个重叠音序列对神经网络进行训练得到对应的重叠音检测模型，一方面该神经网络模型识别深度较深当训练充足时，具有较高的识别准确率，另一方面通过对非重叠音序列进行叠加处理就可以生成更多的重叠音序列，以便增加训练数据的数量，以提高模型训练的效果，进一步提高重叠音检测的准确率。

下面对本申请实施例提供的一种重叠音检测系统进行介绍，下文描述的一种重叠音检测系统与上文描述的一种重叠音检测方法可相互对应参照。

请参考图2，图2为本申请实施例所提供的一种重叠音检测系统的结构示意图。

本实施例中，该系统可以包括：

语音切分模块100，用于将待检测语音切分为多个语音序列；

模型检测模块200，用于采用重叠音检测模型对多个语音序列进行检测，得到检测结果；

重叠音标注模块300，用于根据检测结果对对应的语音序列进行重叠音标注，得到已标注重叠音序列；

系统，还包括：

语音叠加模块400，用于对多个非重叠音序列进行语音叠加处理，得到多个重叠音序列；

训练数据标注模块500，用于根据多个非重叠音序列对多个重叠音序列进行重叠音标注，得到重叠音标注训练数据；

神经网络训练模块600，用于根据重叠音标注训练数据和多个非重叠音序列进行神经网络训练，得到重叠音检测模型。

可选的，该语音叠加模块400，可以包括：

说话人聚类单元，用于对多个非重叠音序列进行说话人聚类，得到多个说话人非重叠音序列集合；

序列叠加单元，用于将查找出的非重叠音序列进行重叠，得到多个重叠音序列。

本申请实施例还提供一种重叠音检测设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如以上实施例所述的重叠音检测方法的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如以上实施例所述的重叠音检测方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种重叠音检测方法、重叠音检测系统、重叠音检测设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种重叠音检测方法，其特征在于，包括：

将待检测语音切分为多个语音序列；

其中，所述重叠音检测模型的训练过程包括：

2.根据权利要求1所述重叠音检测方法，其特征在于，对多个非重叠音序列进行语音叠加处理，得到多个重叠音序列，包括：

3.根据权利要求2所述重叠音检测方法，其特征在于，将查找出的非重叠音序列进行重叠，得到所述多个重叠音序列，还包括：

4.根据权利要求3所述重叠音检测方法，其特征在于，所述语音属性调整包括变化幅度和/或增加噪音和/或调整语速。

5.根据权利要求1所述重叠音检测方法，其特征在于，根据所述多个非重叠音序列对所述多个重叠音序列进行重叠音标注，得到重叠音标注训练数据，包括：

对所述多个非重叠音序列进行语音帧检测；

6.根据权利要求1所述重叠音检测方法，其特征在于，根据所述重叠音标注训练数据和所述多个非重叠音序列进行神经网络训练，得到所述重叠音检测模型，包括：

7.一种重叠音检测系统，其特征在于，包括：

语音切分模块，用于将待检测语音切分为多个语音序列；

所述系统，还包括：

8.根据权利要求7所述重叠音检测系统，其特征在于，所述语音叠加模块，包括：

9.一种重叠音检测设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述的重叠音检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的重叠音检测方法的步骤。