CN115579022B

CN115579022B - 叠音检测方法、装置、计算机设备和存储介质

Info

Publication number: CN115579022B
Application number: CN202211575846.9A
Authority: CN
Inventors: 黄文琦; 林全郴; 梁凌宇; 戴珍; 白昱阳; 赵翔宇; 郭尧
Original assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-06-30
Anticipated expiration: 2042-12-09
Also published as: CN115579022A

Abstract

本申请涉及一种叠音检测方法、装置、计算机设备、存储介质和计算机程序产品。通过将待检测音频的音频特征输入第一二分类模型，由第一二分类模型检测待检测音频中的人声音频特征，将人声音频特征输入第二二分类模型，由第二二分类模型检测人声音频特征中的叠音音频特征，并基于叠音音频特征确定叠音音频。其中叠音音频特征表示包含至少两种人声音频的音频特征，第一二分类模型和第二二分类模型分别基于人声音频样本和由至少两种人声音频样本合成得到的音频样本训练得到。相较于传统的通过单级模型进行检测的方式，本方案通过多个由合成叠音训练的二分类模型分别检测音频中的人声音频以及人声音频中的叠音音频，提高了叠音检测的准确度。

Description

叠音检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及音频处理技术领域，特别是涉及一种叠音检测方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着经济的发展和语音技术的不断进步，语音相关技术在我们生活中的应用也越来越广泛，比如智能客服语音质检分析。在云计算、物联网、大数据等技术的推动下，企业会更加关注呼叫中心运维中的成本控制、风险管控和效能升级；客户需求的多样化和个性化对呼叫中心的热线服务质量也提出了更高要求；语音质检分析就变得尤为重要，坐席违规抢插话是其中一个关键质检项，而当抢插话存在时会存在叠音现象，因此如何对音频中的叠音行为进行检测成为了亟需解决的问题。目前检测音频中的叠音的方式通常是通过单级模型进行识别。然而，通过单级模型进行叠音识别，由于音频中包含的信息过多，会导致识别的准确度下降。

因此，目前对音频中的叠音检测方法存在识别准确度不高的缺陷。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高识别准确度的叠音检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种叠音检测方法，所述方法包括：

获取待检测音频及其待检测音频特征；

将所述待检测音频特征输入第一二分类模型，由所述第一二分类模型检测所述待检测音频中的人声音频特征；所述第一二分类模型基于第一音频样本训练得到，所述第一音频样本包括人声音频样本；

将所述人声音频特征输入第二二分类模型，由所述第二二分类模型检测所述人声音频特征中的叠音音频特征；所述叠音音频特征表征包含至少两种人声音频的音频特征；所述第二二分类模型基于第二音频样本训练得到；所述第二音频样本基于至少两种人声音频样本合成得到；

根据所述叠音音频特征，确定所述待检测音频中的叠音音频。

在其中一个实施例中，所述获取待检测音频及其待检测音频特征，包括：

获取待检测音频；

提取所述待检测音频中的梅尔频率倒谱系数，得到所述待检测音频对应的待检测音频特征。

在其中一个实施例中，所述方法还包括：

获取人声音频样本作为第一音频样本，并根据至少两种人声音频样本生成第二音频样本，获取所述第一音频样本对应的人声音频特征样本和所述第二音频样本对应的第二音频特征样本；

获取待训练第一二分类模型和待训练第二二分类模型；

将所述第一音频特征样本输入所述待训练第一二分类模型，由所述待训练第一二分类模型检测所述第一音频特征样本中的待训练人声音频特征样本；

根据所述待训练人声音频特征样本与所述第一音频特征样本中的人声音频特征样本的比较结果，调整所述第一二分类模型的模型参数，直至满足训练条件时得到训练完成的第一二分类模型；

将所述第二音频特征样本输入所述待训练第二二分类模型，由所述待训练第二二分类模型检测所述音频特征样本中的待训练叠音音频特征样本；

根据所述待训练叠音音频特征样本与所述第二音频特征样本中的叠音音频特征样本的比较结果，调整所述第二二分类模型的模型参数，直至满足训练条件时得到训练完成的第二二分类模型。

在其中一个实施例中，所述根据至少两种人声音频样本生成第二音频样本，包括：

获取原始人声音频样本；所述原始人声音频样本中包含至少两个说话人对应的人声音频；

提取所述原始人声音频样本中每个说话人对应的人声音频，并向每个说话人对应的人声音频添加对应的标识；

将相同标识的人声音频进行合并，得到至少两个合并后的人声音频；

将第一合并后的人声音频中预设时长的人声音频与第二合并后的人声音频中预设时长的人声音频进行时域线性叠加，得到第二音频样本；所述第一合并后的人声音频的标识和所述第二合并后的人声音频的标识不同；所述第二音频样本中起始预设时长内和结尾预设时长内包含单个说话人对应的人声音频。

在其中一个实施例中，所述第一二分类模型包括第一输入层、第一隐含层和第一输出层；

所述将所述待检测音频特征输入第一二分类模型，由所述第一二分类模型检测所述待检测音频中的人声音频特征，包括：

将所述待检测音频特征输入所述第一输入层，由所述第一二分类模型基于所述第一输入层和第一隐含层检测所述待检测音频特征属于人声音频特征的第一概率和属于非人声音频的第二概率，并当所述第一概率大于所述第二概率时确定所述待检测音频特征为人声音频特征，通过所述第一输出层输出所述人声音频特征。

在其中一个实施例中，所述第二二分类模型包括第二输入层、第二隐含层和第二输出层；

所述将所述人声音频特征输入第二二分类模型，由所述第二二分类模型检测所述人声音频特征中的叠音音频特征，包括：

将所述人声音频特征输入所述第二输入层，由所述第二二分类模型基于所述第二输入层和第二隐含层检测所述人声音频特征属于叠音音频特征的第三概率和属于非叠音音频的第四概率，并当所述第三概率大于所述第四概率时确定所述人声音频特征为叠音音频特征，通过所述第二输出层输出所述叠音音频特征。

在其中一个实施例中，所述根据所述叠音音频特征，确定所述待检测音频中的叠音音频，包括：

根据维特比算法和平滑算法，确定叠音音频起止时间戳；所述叠音音频起止时间戳表征所述待检测音频中与所述叠音音频特征对应的叠音音频的起止时间；

根据所述叠音音频起止时间戳，确定所述待检测音频中的叠音音频。

第二方面，本申请提供了一种叠音检测装置，所述装置包括：

获取模块，用于获取待检测音频及其待检测音频特征；

第一检测模块，用于将所述待检测音频特征输入第一二分类模型，由所述第一二分类模型检测所述待检测音频中的人声音频特征；所述第一二分类模型基于第一音频样本训练得到，所述第一音频样本包括人声音频样本；

第二检测模块，用于将所述人声音频特征输入第二二分类模型，由所述第二二分类模型检测所述人声音频特征中的叠音音频特征；所述叠音音频特征表征包含至少两种人声音频的音频特征；所述第二二分类模型基于第二音频样本训练得到；所述第二音频样本基于至少两种人声音频样本合成得到；

确定模块，用于根据所述叠音音频特征，确定所述待检测音频中的叠音音频。

第三方面，本申请提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

第五方面，本申请提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的方法的步骤。

上述叠音检测方法、装置、计算机设备、存储介质和计算机程序产品，通过将待检测音频的音频特征输入第一二分类模型，由第一二分类模型检测待检测音频中的人声音频特征，将人声音频特征输入第二二分类模型，由第二二分类模型检测人声音频特征中的叠音音频特征，并基于叠音音频特征确定叠音音频。其中叠音音频特征表示包含至少两种人声音频的音频特征，第一二分类模型和第二二分类模型分别基于人声音频样本和由至少两种人声音频样本合成得到的音频样本训练得到。相较于传统的通过单级模型进行检测的方式，本方案通过多个由合成叠音训练的二分类模型分别检测音频中的人声音频以及人声音频中的叠音音频，提高了叠音检测的准确度。

附图说明

图1为一个实施例中叠音检测方法的流程示意图；

图2为一个实施例中二分类模型的结构示意图；

图3为另一个实施例中二分类模型的结构示意图；

图4为一个实施例中叠音数据扩充步骤的流程示意图；

图5为另一个实施例中叠音检测方法的流程示意图；

图6为一个实施例中叠音检测装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种叠音检测方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现，包括以下步骤：

步骤S202，获取待检测音频及其待检测音频特征。

其中，待检测音频可以是需要检测是否存在叠音情况的音频，例如电话信道客服语音等。叠音可以是指音频中存在两个或两个以上的说话人同时说话的音频，例如客服和用户同时在说话，造成违规插话等现象。为能对客服语音中存在的违规插话行为进行检测，终端可以对待检测音频中的叠音进行检测。终端可以获取待检测音频，例如从通话数据库中基于音频的标识获取，并且终端还可以获取待检测音频的音频特征。例如，在一个实施例中，获取待检测音频及其待检测音频特征，包括：获取待检测音频；提取待检测音频中的梅尔频率倒谱系数，得到待检测音频对应的待检测音频特征。本实施例中，终端在提取音频特征前可以首先获取待检测音频，终端可以提取上述待检测音频中的MFCC （Mel-FrequencyCepstral Coefficients,梅尔频率倒谱系数），作为待检测音频对应的待检测音频特征。其中，MFCC是一种基于人耳对等距音高变化的感官判断而定的非线性频率刻度，与人耳听觉相符，因此作为语音识别中的声学特征。

步骤S204，将待检测音频特征输入第一二分类模型，由第一二分类模型检测待检测音频中的人声音频特征；第一二分类模型基于第一音频样本训练得到，第一音频样本包括人声音频样本。

其中，第一二分类模型可以是用于识别人声语音和非人声语音的模型，第一二分类模型可以基于第一二分类算法进行检测。其中第一二分类算法可以是用于对上述待检测音频特征进行二分类的算法，例如检测待检测音频特征是属于人声音频的音频特征还是属于非人声音频的音频特征。由于上述待检测音频具有一定的持续时间，因此上述待检测音频特征可以包含多个时间点对应的音频特征，终端可以对每个时间点的待检测音频特征分别进行上述二分类。终端提取上述待检测音频特征后，可以将待检测音频特征输入上述第一二分类模型，并由上述第一二分类模型检测待检测音频中的人声音频特征。其中，上述非人声音频包括静音、彩铃、笑声、咳嗽声、背景人声、信道噪声等音频，待检测音频中的人声音频特征可以包含多个说话人的人声音频的音频特征，终端可以识别出上述待检测音频中各个说话人的人声音频特征；上述第一二分类模型可以基于第一音频样本训练得到，第一音频样本可以包括人声音频以及非人声音频。

步骤S206，将人声音频特征输入第二二分类模型，由第二二分类模型检测人声音频特征中的叠音音频特征；叠音音频特征表征包含至少两种人声音频的音频特征；第二二分类模型基于第二音频样本训练得到；第二音频样本基于至少两种人声音频样本合成得到。

其中，第二二分类模型可以是用于识别叠音音频和非叠音音频的模型，第二二分类模型可以基于第二二分类算法进行检测。其中第二二分类算法可以是用于对上述人声音频特征进行二分类的算法，例如检测人声音频特征是属于叠音音频的音频特征还是属于非叠音音频的音频特征。即第二二分类模型中的二分类是指叠音和非叠音的二分类。由于上述待检测音频具有一定的持续时间，因此上述人声音频特征可以包含多个时间点对应的音频特征，终端可以对每个时间点的人声音频特征分别进行上述二分类。终端提取上述待检测音频中人声音频对应的人声音频特征后，可以将人声音频特征输入上述第二二分类模型，并由上述第二二分类模型检测人声音频中的叠音音频特征。其中，人声音频特征可以包含多个说话人的人声音频的音频特征，终端可以识别出上述人声音频中存在多个说话人同时发声时对应的音频特征，作为叠音音频特征；上述第二二分类模型可以基于第二音频样本训练得到，第二音频样本可以基于至少两种说话人的人声音频进行合成叠加得到，即终端可以通过将至少两种说话人的人声音频进行叠加，实现对第二音频样本的数据扩充。

步骤S208，根据叠音音频特征，确定待检测音频中的叠音音频。

其中，上述叠音音频特征可以是上述人声音频中存在多个说话人同时说话的音频对应的音频特征。叠音音频具有一定的持续时间，终端可以基于叠音音频特征确定待检测音频中叠音音频对应的起止时间戳，从而确定待检测音频中叠音音频的位置。具体地，在一些实施例中，根据叠音音频特征，确定待检测音频中的叠音音频，包括：根据维特比算法和平滑算法，确定叠音音频起止时间戳；叠音音频起止时间戳表征待检测音频中与叠音音频特征对应的叠音音频的起止时间；根据叠音音频起止时间戳，确定待检测音频中的叠音音频。本实施例中，终端可以根据维特比算法和平滑算法，确定待检测音频中叠音音频的起止时间戳，其中叠音音频可以是上述叠音音频特征在待检测音频中对应的音频，叠音音频的起止时间戳表示待检测音频中与叠音音频特征对应的叠音音频的起止时间，包括叠音开始的起始时间戳和叠音结束的结束时间戳。其中，维特比算法是一种动态规划算法，用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列；平滑算法是用来解决零概率的问题，为了产生更加准确的概率来调整最大似然估计的一种技术，在计算语言模型的过程中，对于句子中的每一个字符或者词都需要一个非零的概率值，因为一旦有一个概率为0的结果，那整个计算公式的结构都为0，所以必须分配给所有可能出现的字符串一个非零的概率值来避免这种错误的发生，平滑的处理思想是提高低概率，降低高概率。终端确定叠音音频的起止时间戳后，可以基于该起止时间戳确定待检测音频中的叠音音频。例如，终端可以基于起止时间戳截取待检测音频中对应的时间戳位置的音频，作为叠音音频。

上述叠音检测方法中，通过将待检测音频的音频特征输入第一二分类模型，由第一二分类模型检测待检测音频中的人声音频特征，将人声音频特征输入第二二分类模型，由第二二分类模型检测人声音频特征中的叠音音频特征，并基于叠音音频特征确定叠音音频。其中叠音音频特征表示包含至少两种人声音频的音频特征，第一二分类模型和第二二分类模型分别基于人声音频样本和由至少两种人声音频样本合成得到的音频样本训练得到。相较于传统的通过单级模型进行检测的方式，本方案通过多个由合成叠音训练的二分类模型分别检测音频中的人声音频以及人声音频中的叠音音频，提高了叠音检测的准确度。

在一个实施例中，还包括：获取人声音频样本作为第一音频样本，并根据至少两种人声音频样本生成第二音频样本，获取第一音频样本对应的人声音频特征样本和第二音频样本对应的第二音频特征样本；获取待训练第一二分类模型和待训练第二二分类模型；将第一音频特征样本输入待训练第一二分类模型，由待训练第一二分类模型检测第一音频特征样本中的待训练人声音频特征样本；根据待训练人声音频特征样本与第一音频特征样本中的人声音频特征样本的比较结果，调整第一二分类模型的模型参数，直至满足训练条件时得到训练完成的第一二分类模型；将第二音频特征样本输入待训练第二二分类模型，由待训练第二二分类模型检测音频特征样本中的待训练叠音音频特征样本；根据待训练叠音音频特征样本与第二音频特征样本中的叠音音频特征样本的比较结果，调整第二二分类模型的模型参数，直至满足训练条件时得到训练完成的第二二分类模型。

本实施例中，终端可以对第一二分类模型和第二二分类模型进行训练。终端可以获取包含人声音频样本的音频作为第一音频样本，该音频中还可以包括非人声音频，终端还可以获取至少两种人声音频样本，并根据至少两种人声音频样本生成第二音频样本，其中，至少两种人声音频样本可以是至少两个不同说话人单独说话的人声音频样本。即每个人声音频样本中存在一个说话人的人声音频，终端可以通过合成叠加上述至少两种人声音频，实现对合成叠音音频样本的数据扩充。终端还可以分别提取上述第一音频样本和第二音频样本对应的第一音频特征和第二音频特征，作为第一音频特征样本和第二音频特征样本。终端可以将上述第一音频特征样本输入待训练第一二分类模型中，由待训练第一二分类模型检测第一音频特征样本中各个特征是否属于人声音频特征，从而得到待训练人声音频特征样本。其中，上述第一音频特征样本中还包括人声音频特征样本，并且终端可以将待训练人声音频特征样本与音频特征样本中的人声音频特征进行比较，基于该比较结果调整第一二分类模型的模型参数，直至满足训练条件时得到训练完成的第一二分类模型，例如当待训练人声音频特征样本与第一音频特征样本中的人声音频特征的相似度达到第一相似度阈值时，或训练轮次达到预设轮次时，表示满足训练条件。

上述第二音频特征样本中包括人声音频特征样本，终端对第二二分类模型进行训练时，可以将第二音频特征样本中的人声音频特征样本输入待训练第二二分类模型，由待训练第二二分类模型检测第二音频特征样本中的待训练叠音音频特征样本。终端可以获取第二音频特征样本中的叠音音频特征样本，并将待训练叠音音频特征样本与上述叠音音频特征样本进行比较，根据该比较结果调整第二二分类模型的模型参数，使得下一次训练时待训练叠音音频特征样本更接近叠音音频特征样本，直至满足训练条件时，例如待训练叠音音频特征样本与叠音音频特征样本的相似度达到预设相似度阈值，或训练轮次达到预设轮次时，得到训练完成的第二二分类模型。

具体地，上述第一二分类模型和第二二分类模型可以是一种多级建模方式，即终端首先通过第一二分类模型进行人声和非人声的二分类，其中人声中包括单人的人声和叠音的人声，非人声包括上述的各个无效语音；再通过第二二分类模型进行单人人声和叠音人声的二分类。上述第一二分类模型和第二二分类模型可以是DNN（Deep NeuralNetworks, 深度神经网络）模型，模型结构可以如图2所示，图2为一个实施例中二分类模型的结构示意图。其中，终端可以采样上述MFCC为声学特征，并先输入人声和非人声的二分类DNN模型中，即上述第一二分类模型，第一二分类模型可以输入某一原始音频帧为人声帧的概率和为非人声帧的概率，从而得到音频中每帧的概率输出。

终端将上述音频经过第一二分类模型后，可以得到人声音频的语音数据，终端可以将人声音频的人声音频特征输入第二个DNN模型，即上述第二二分类模型，用于进行单人人声和叠音人声的二分类，并检测叠音的起止时间点。其中，为符合实际场景，上述叠音音频的起始预设时间内和结尾预设时间内可以包含预设时长的单人人声，即上述叠音音频的起止时间点可以包含单人人声的时间点。另外，由于DNN无法对时间序列上的变化进行建模，终端还可以基于RNN（Recurrent Neural Network, 循环神经网络）等网络结构进行训练，如图3所示，图3为另一个实施例中二分类模型的结构示意图。如图3所示，在RNN中，神经元的输出可以在下一个时间段直接作用到自身，即第i层神经元在m时刻的输入，除了需要(i-1)层神经元在该时刻的输出，还需要其自身在(m-1)时刻的输出。

通过本实施例，终端可以通过多级建模的方式训练第一二分类模型和第二二分类模型，从而基于多个二分类模型检测音频中的叠音，提高了叠音检测的准确度。

在一个实施例中，根据至少两种人声音频样本生成第二音频样本，包括：获取原始人声音频样本；原始人声音频样本中包含至少两个说话人对应的人声音频；提取原始人声音频样本中每个说话人对应的人声音频，并向每个说话人对应的人声音频添加对应的标识；将相同标识的人声音频进行合并，得到至少两个合并后的人声音频；将第一合并后的人声音频中预设时长的人声音频与第二合并后的人声音频中预设时长的人声音频进行时域线性叠加，得到第二音频样本；第一合并后的人声音频的标识和第二合并后的人声音频的标识不同；第二音频样本中起始预设时长内和结尾预设时长内包含单个说话人对应的人声音频。

本实施例中，在对模型训练离不开标注数据，数据量的大小和数据精度对模型性能都有很大影响。叠音数据在完整数据中的占比一般都很低，经统计电话信道客服语音叠音占比只有5%~10%左右。另外标注的叠音数据中往往都会存在少量非叠音数据，即叠音数据标注精度不会精确到字甚至帧级别；叠音数据一般也会存在一定的角色规律，叠音段前后的数据角色往往都是叠音数据中的角色之一，所以在限条件标注数据基础上，利用语音识别及结合说话人角色等进行高精度的叠音仿真数据自动扩充就极为重要。因此终端可以获取原始人声音频样本，该原始人声音频样本中包含至少两个说话人对应的人声音频，即原始人声音频样本可以包含至少两个说话人的单人人声。终端可以提取原始人声音频样本中每个说话人对应的人声音频，该人声音频可以是每个说话人单独说话的人声，终端可以向每个说话人对应的人声音频添加对应的标识，例如不同说话人的标识不同，相同说话人的标识相同，从而终端可以得到多段带有标识的人声音频。终端可以将相同标识的人声音频进行合并，得到至少两个合并后的人声音频，每个合并后的人声音频表示同一个说话人在上述原始人声音频样本中的单人人声。则终端可以从上述至少两个合并后的人声音频中选出第一合并后的人声音频和第二合并后的人声音频，其中第一合并后的人声音频的标识和第二合并后的人声音频的标识不同。终端可以将第一合并后的人声音频中预设时长的人声音频与第二合并后的人声音频中预设时长的人声音频进行时域线性叠加，从而得到叠加后的第二音频样本。并且，上述第二音频样本中起始预设时长内和结尾预设时长内可以包含单个说话人对应的人声音频，还可以包括静音、彩铃、笑声、咳嗽声、背景人声、信道噪声等无效音频，用于对第一二分类模型进行训练。

具体地，对于叠音数据的欠缺问题，终端可以通过数据自动扩充方法来进行仿真，由于随机选取任何信道及说话人的数据进行叠加和实际叠音会存在一定差距，本发明采用同信道中不同说话人语音进行叠加来缩小该差异性，即上述原始人声音频样本中的各个说话人对应的人声音频属于同一信道。并且，实网叠音数据一般都会存在角色规律性，即叠音段前后数据的角色往往都是叠音数据中角色之一，所以在合成叠音时不仅只合成叠音数据，而是叠音段前后会包含一定长度的单人语音，叠音段前后单人语音角色随机相同或者不同，这些角色是叠音数据中角色，不仅更贴合实际叠音发生场景，并且也适用于循环神经网络或其他需要上下文的训练需求。如图4所示，图4为一个实施例中叠音数据扩充步骤的流程示意图。终端可以根据语音数据和对应的标注文件，统计带语音标识和说话人标识的分段语音起止时间点。其中语音标识表示说话人的人声音频在哪个语音中。终端可以按照统计到的分段语音起止时间点进行语音切分，并对切分后的单个说话人的语音片段通过语音是被引擎进行转写，例如通过ASR（Automatic Speech Recognition，自动语音识别技术）进行转写，统计符合一定阈值的非人声音频片段的起止时间点。对于单个说话人，终端还可以对其语音片段去除非人声音频，并将每个语音标识按照说话人进行语音合并，终端可以选取相同语音标识，但不同说话人标识的人声，多次随机选取其中一说话人语音的一定时间段的人声音频和另一说话人的人声音频进行时域线性叠加，并使叠音段前后保留一定长度单人语音，终端可以令前后单人语音角色随机选择相同或不同，得到叠音仿真数据，即上述第二音频样本。

通过本实施例，终端可以通过将相同信道内的不同说话人的单人人声音频进行叠加，得到第二音频样本，实现了对模型训练数据的扩充，进而提高了模型识别叠音的准确度。

在一个实施例中，将待检测音频特征输入第一二分类模型，由第一二分类模型检测待检测音频中的人声音频特征，包括：将待检测音频特征输入第一输入层，由第一二分类模型基于第一输入层和第一隐含层检测待检测音频特征属于人声音频特征的第一概率和属于非人声音频的第二概率，并当第一概率大于第二概率时确定待检测音频特征为人声音频特征，通过第一输出层输出人声音频特征。

本实施例中，上述第一二分类模型可以是一种DNN模型，第一二分类模型中可以包括第一输入层、第一隐含层和第一输出层。终端对待检测音频特征进行识别时，可以将上述待检测音频特征输入第一输入层，其中待检测音频特征可以包含多帧音频的音频特征，终端可以对每帧音频特征分别检测，由第一二分类模型基于第一输入层和第一隐含层检测待检测音频特征属于人声音频特征的第一概率和属于非人声音频特征的第二概率，当终端检测到第一概率大于第二概率时，终端可以确定待检测音频特征为人声音频特征，并通过第一输出层输出人声音频特征。否则终端可以确定待检测音频特征不为人声音频特征。

具体地，上述待检测音频特征先后通过模拟中的输入层、隐含层、输出层，与人声帧概率与非人声帧之间建立复杂的映射关系。并且终端还可以将每一帧语音特征联合其前后数帧的特征作为输入矢量，检测该帧的所属的类别，终端还可以结合维特比算法及平滑算法确定人声音频的起止时间点。

通过本实施例，终端可以基于第一二分类模型识别待检测音频中的人声音频，从而终端可以基于人声音频检测其中的叠音音频，提高了叠音检测的准确度。

在一个实施例中，将人声音频特征输入第二二分类模型，由第二二分类模型检测人声音频特征中的叠音音频特征，包括：将人声音频特征输入第二输入层，由第二二分类模型基于第二输入层和第二隐含层检测人声音频特征属于叠音音频特征的第三概率和属于非叠音音频的第四概率，并当第三概率大于第四概率时确定人声音频特征为叠音音频特征，通过第二输出层输出叠音音频特征。

本实施例中，上述第二二分类模型可以是一种DNN模型，包括第二输入层、第二隐含层和第二输出层。终端对人声音频特征进行识别时，可以将人声音频特征输入上述第二输入层，其中人声音频特征可以包含多帧音频的音频特征，终端可以对每帧音频特征分别检测，由第二二分类模型基于第二输入层和第二隐含层检测人声音频特征属于叠音音频特征的第三概率和属于非叠音音频的第四概率，当终端检测到第三概率大于第四概率时，终端可以确定人声音频特征为叠音音频特征，并通过第二输出层输出上述叠音音频特征。另外，终端还可以通过维特比算法和平滑算法确定上述叠音音频特征对应于待检测音频中的起止时间戳。

通过本实施例，终端可以基于第二二分类模型检测人声音频特征中的叠音音频特征，从而提高叠音检测的准确度。

在一个实施例中，如图5所示，图5为另一个实施例中叠音检测方法的流程示意图。本实施例中，终端可以通过多级模型实现叠音检测。终端可以提取原始语音中的MFCC特征，并通过检测人声和非人声的第一二分类模型对音频特征进行检测，获取其输出的人声音频，并且终端可以通过维特比算法和平滑算法确定人声音频的起止时间戳。终端还可以将人声音频的人声音频特征通过检测单人人声和叠音人声的第二二分类模型，获取该模型最后一层输出的叠音音频特征，并且终端可以通过维特比算法和平滑算法确定上述原始语音中叠音音频的起止时间戳。

通过上述实施例，终端通过多个由合成叠音训练的二分类模型分别检测音频中的人声音频以及人声音频中的叠音音频，提高了叠音检测的准确度。并且基于二分类DNN模型的多级建模方法比DNN模型多分类建模准确率更高；采用同信道的不同说话人语音进行叠加更接近实际叠音，且结合说话人角色切分合成的叠音前后包含上下文语音，除了用于DNN训练还可以用于RNN等结构。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的叠音检测方法的叠音检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个叠音检测装置实施例中的具体限定可以参见上文中对于叠音检测方法的限定，在此不再赘述。

在一个实施例中，如图6所示，提供了一种叠音检测装置，包括：获取模块500、第一检测模块502、第二检测模块504和确定模块506，其中：

获取模块500，用于获取待检测音频及其待检测音频特征。

第一检测模块502，用于将所述待检测音频特征输入第一二分类模型，由所述第一二分类模型检测所述待检测音频中的人声音频特征；第一二分类模型基于第一音频样本训练得到，第一音频样本包括人声音频样本。

第二检测模块504，用于将所述人声音频特征输入第二二分类模型，由所述第二二分类模型检测所述人声音频特征中的叠音音频特征；所述叠音音频特征表征包含至少两种人声音频的音频特征；第二二分类模型基于第二音频样本训练得到；第二音频样本基于至少两种人声音频样本合成得到。

确定模块506，用于根据所述叠音音频特征，确定所述待检测音频中的叠音音频。

在一个实施例中，上述获取模块500，具体用于获取待检测音频；提取所述待检测音频中的梅尔频率倒谱系数，得到所述待检测音频对应的待检测音频特征。

在一个实施例中，上述装置还包括：训练模块，用于获取人声音频样本作为第一音频样本，并根据至少两种人声音频样本生成第二音频样本，获取第一音频样本对应的人声音频特征样本和第二音频样本对应的第二音频特征样本；获取待训练第一二分类模型和待训练第二二分类模型；将第一音频特征样本输入待训练第一二分类模型，由待训练第一二分类模型检测第一音频特征样本中的待训练人声音频特征样本；根据待训练人声音频特征样本与第一音频特征样本中的人声音频特征样本的比较结果，调整第一二分类模型的模型参数，直至满足训练条件时得到训练完成的第一二分类模型；将第二音频特征样本输入待训练第二二分类模型，由待训练第二二分类模型检测音频特征样本中的待训练叠音音频特征样本；根据待训练叠音音频特征样本与第二音频特征样本中的叠音音频特征样本的比较结果，调整第二二分类模型的模型参数，直至满足训练条件时得到训练完成的第二二分类模型。

在一个实施例中，上述训练模块，具体用于获取原始人声音频样本；所述原始人声音频样本中包含至少两个说话人对应的人声音频；提取所述原始人声音频样本中每个说话人对应的人声音频，并向每个说话人对应的人声音频添加对应的标识；将相同标识的人声音频进行合并，得到至少两个合并后的人声音频；将第一合并后的人声音频中预设时长的人声音频与第二合并后的人声音频中预设时长的人声音频进行时域线性叠加，得到第二音频样本；所述第一合并后的人声音频的标识和所述第二合并后的人声音频的标识不同；所述第二音频样本中起始预设时长内和结尾预设时长内包含单个说话人对应的人声音频。

在一个实施例中，上述第一检测模块502，具体用于将所述待检测音频特征输入所述第一输入层，由所述第一二分类模型基于所述第一输入层和第一隐含层检测所述待检测音频特征属于人声音频特征的第一概率和属于非人声音频的第二概率，并当所述第一概率大于所述第二概率时确定所述待检测音频特征为人声音频特征，通过所述第一输出层输出所述人声音频特征。

在一个实施例中，上述第二检测模块504，具体用于将所述人声音频特征输入所述第二输入层，由所述第二二分类模型基于所述第二输入层和第二隐含层检测所述人声音频特征属于叠音音频特征的第三概率和属于非叠音音频的第四概率，并当所述第三概率大于所述第四概率时确定所述人声音频特征为叠音音频特征，通过所述第二输出层输出所述叠音音频特征。

在一个实施例中，上述确定模块506，具体用于根据维特比算法和平滑算法，确定叠音音频起止时间戳；所述叠音音频起止时间戳表征所述待检测音频中与所述叠音音频特征对应的叠音音频的起止时间；根据所述叠音音频起止时间戳，确定所述待检测音频中的叠音音频。

上述叠音检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种叠音检测方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述的叠音检测方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的叠音检测方法。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的叠音检测方法。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种叠音检测方法，其特征在于，所述方法包括：

获取待检测音频及其待检测音频特征；

2.根据权利要求1所述的方法，其特征在于，所述获取待检测音频及其待检测音频特征，包括：

获取待检测音频；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取人声音频样本作为第一音频样本，并根据至少两种人声音频样本生成第二音频样本，获取所述第一音频样本对应的第一音频特征样本和所述第二音频样本对应的第二音频特征样本；所述第一音频特征样本中包括人声音频特征样本；

获取待训练第一二分类模型和待训练第二二分类模型；

4.根据权利要求3所述的方法，其特征在于，所述根据至少两种人声音频样本生成第二音频样本，包括：

5.根据权利要求1所述的方法，其特征在于，所述第一二分类模型包括第一输入层、第一隐含层和第一输出层；

6.根据权利要求1所述的方法，其特征在于，所述第二二分类模型包括第二输入层、第二隐含层和第二输出层；

7.根据权利要求1所述的方法，其特征在于，所述根据所述叠音音频特征，确定所述待检测音频中的叠音音频，包括：

8.一种叠音检测装置，其特征在于，所述装置包括：

获取模块，用于获取待检测音频及其待检测音频特征；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。