CN106611604B

CN106611604B - 一种基于深度神经网络的自动语音叠音检测方法

Info

Publication number: CN106611604B
Application number: CN201510696366.1A
Authority: CN
Inventors: 颜永红; 陈梦喆; 潘接林; 刘建
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2015-10-23
Filing date: 2015-10-23
Publication date: 2020-04-14
Anticipated expiration: 2035-10-23
Also published as: CN106611604A

Abstract

本发明涉及一种基于深度神经网络的自动语音叠音检测方法，包括：训练用于叠音检测的深度神经网络模型；其中，该深度神经网络模型的输入层为语音的特征信息，输出层为针对叠音语音、单人语音、非语音三类状态的概率输出值；采用深度神经网络模型对自动语音做叠音检测。

Description

一种基于深度神经网络的自动语音叠音检测方法

技术领域

本发明涉及语音检测方法，特别涉及一种基于深度神经网络的自动语音叠音检测方法。

背景技术

自动语音叠音检测，就是通过自动的方法检测出语音中哪些位置发生了多人同时说话的现象，并将这些位置标注出来。叠音现象的出现会对语音信号处理技术的效果产生影响。在说话人分类领域中，叠音现象是产生说话人分类错误的主要原因之一。传统的说话人分类只能对切分后的语音段判断是否为某个说话人，当叠音段出现时，显然判断为任何一个说话人都是不正确的；在语音识别领域中，叠音区域由于存在他人语音交叠的情况，对需要识别的语音产生了干扰，相应的识别性能将会受到影响，这种影响甚至还会蔓延到叠音前后的区域，使得错误率明显上升。这些情况下需要用自动叠音检测判断出哪些段落是叠音数据，然后针对叠音再进行特殊处理。

对于自动语音叠音检测来说，性能的优化主要从两方面进行：特征层面和建模层面。在特征层面，从叠音的声学特性入手，通过加入有针对性的特征类型用于区分，例如在叠音现象明显的多人会议说话人分类任务中，分别通过加入空间信息和加入高层信息的方法优化输入特征的类型，从而提高叠音检测的性能。在建模层面，有学者提出了基于HMM语音端点检测框架，通过对单说话人语音、串扰、叠音和静音四类语音进行HMM建模，从而判断出哪些地方出现了叠音。在实际应用中，自动语音叠音检测常常用于客服质检系统中，自动发现哪些地方有出现客服打断用户说话或者抢话的现象，从而对客服质量进行评估。这种技术可辅助甚至代替客服质检人员处理用户投诉、监督客服质量，由于极大程度上节省了人力开销，逐渐受到市场的青睐。

近年来，深度神经网络(Deep Neural Network,DNN)技术在大词汇连续语音系统声学建模领域中得到了成功应用，相比传统的HMM混合高斯模型，识别性能得到明显改善。由于DNN是一种深层次的统计模型，相比传统浅层的模型而言，其学习能力更强。目前DNN在语音处理技术的相关研究领域应用都非常广泛语音识别、说话人识别、语音增强，然而在自动语音叠音检测领域上的相关研究工作还非常缺乏。

发明内容

本发明的目的在于克服现有技术中尚缺乏深度神经网络在自动语音叠音检测领域上的应用的缺陷，从而提供一种基于深度神经网络的自动语音叠音检测方法。

为了实现上述目的，本发明提供了一种基于深度神经网络的自动语音叠音检测方法，包括：

步骤1)、训练用于叠音检测的深度神经网络模型；其中，该深度神经网络模型的输入层为语音的特征信息，输出层为针对叠音语音、单人语音、非语音三类状态的概率输出值；

步骤2)、采用步骤1)训练得到的深度神经网络模型对自动语音做叠音检测。

上述技术方案中，还包括人工合成模拟叠音数据的步骤；该步骤所生成的模拟叠音数据作为训练数据的一部分，用于深度神经网络模型的训练。

上述技术方案中，所述人工合成模拟叠音数据的步骤具体包括：

步骤a)、对带标注的标准库的对话数据进行强制对齐，得到语音或非语音的片段信息标注；

步骤b)、对所有训练数据进行加噪处理；

步骤c)、根据片段信息标注，对所有语音片段进行随机两两选择，进行时域线性叠加。

上述技术方案中，所述步骤1)进一步包括：

步骤1-1)、采集一定量的语音数据作为训练数据，设立对应的帧级别状态目标值；其中，所述帧级别状态目标值包括：叠音语音、单人语音、非语音；

步骤1-2)、从训练数据中提取语音特征，对所提取的语音特征进行处理，生成深度神经网络模型的输入特征；其中，所提取的语音特征包括：13维MFPLP特征、一维基频特征和一维表征基频可信度的NCC特征；对所提取的语音特征进行处理包括：对所提取的语音特征做3阶差分；深度神经网络模型的输入特征包括经3阶差分后的语音特征以及静态特征；

步骤1-3)、利用步骤1-2)得到的深度神经网络模型的输入特征，训练用于叠音检测的深度神经网络模型。

上述技术方案中，在步骤1-3)中，采用“概率采样”的重采样方法从训练数据集中采集输入到深度神经网络模型中的数据；

所述“概率采样”的重采样方法的采样概率为：

其中，c_s为线性平滑系数，其大小在0-1之间；p(x)为某一类别在训练数据中的先验概率；N_c表示类别的数目。

上述技术方案中，所述步骤2)进一步包括：

步骤2-1)、向深度神经网络模型输入待检测的自动语音的语音特征，每输入一帧语音特征，都通过深度神经网络模型计算得到这帧语音属于叠音语音或单人语音或非语音的概率；

步骤2-2)、采用维特比算法通过每帧的各状态概率分布最终判断出叠音语音段的起止点；该步骤具体包括：

将深度神经网络模型的输出状态作为观测序列，将叠音语音、单人语音、非语音三种状态的排列作为隐含序列，深度神经网络模型的各个输出状态之间存在转移概率；从语音信号的起始点对语音进行逐帧的判断，对于当前这一帧，通过求得之前每一帧出现各个状态的概率，乘以帧间的转移概率，得到某一序列出现的总概率，最大概率对应的路径就是最有可能出现的隐含序列；确定所述最有可能出现的隐含序列每帧上的状态归属后，即可得到哪些帧属于叠音的信息，进而得到叠音语音段的起止点。

本发明的优点在于：

本发明在自动语音叠音检测中引入DNN，利用DNN较强的学习能力对叠音/非叠音数据进行建模，并结合维特比算法判断出切分后的语音段是否含有叠音，同时给出叠音发生的时间点。具有检测效果高、检测结果准确的优点。

附图说明

图1是本发明的自动语音叠音检测方法的流程图；

图2是用于自动语音叠音检测的深度神经网络模型的示意图。

具体实施方式

现结合附图对本发明作进一步的描述。

本发明的自动语音叠音检测方法引入了DNN模型，并结合维特比算法判断出切分后的语音段是否含有叠音以及叠音发生的时间点。

参考图1，该方法主要包括以下步骤：

步骤1)、训练用于叠音检测的深度神经网络模型(DNN模型)。

该步骤可包括：

步骤1-1)、采集一定量的语音数据作为训练数据，设立对应的帧级别状态目标值；

在叠音检测方法中，为语音帧所设立的帧级别状态目标值包括：叠音语音、单人语音、非语音，这三类目标值反映了语音帧可能的三种状态。

步骤1-2)、从训练数据中提取语音特征，对所提取的语音特征进行处理，构成DNN模型的输入特征；其中，

从训练数据中所提取的语音特征包括：语音识别中常用的13维MFPLP特征、一维基频特征和一维表征基频可信度的NCC特征；对这些从训练数据中所提取的语音特征做3阶差分，然后加上静态特征，总共构成60维的输入特征；

步骤1-3)、训练用于叠音检测的深度神经网络模型；

参考图2，本发明中用于叠音检测的深度神经网络模型仅针对叠音语音/单人语音/非语音三个状态进行建模，其输入层为提取的表征语音的特征信息，输出层则是针对这三类状态的概率输出，隐含层的层数及大小可以根据实际数据的情况进行选择。

在训练深度神经网络模型时，本发明采用一种称为“概率采样”的重采样方法从训练数据集中选取训练数据。深度神经网络模型的一种传统训练方式为将训练数据以随机顺序输入，这意味着每个更新迭代使用的一批数据由所有训练数据随机抽取组成，这种方式称为“完全随机采样”。这种情况下，对某一类别的采样概率即该类别在训练数据中的先验概率p(x)。深度神经网络模型的另一种常见的采样方法称作“均匀采样”方法，其每批训练数据由各类别训练数据平均组成，因此，其采样概率为

(假设共有N_c个类别)。本发明所采用的“概率采样”方法是对“完全随机采样”和“均匀采样”方法做线性平滑的结果，具体的采样概率如下所示：

其中，c_s为线性平滑系数，如果c_s＝0，则退化为“完全随机采样”，如果c_s＝1，则退回到“均匀采样”。

由于叠音数据较非叠音数据在训练数据中所占比例较少。在多类别的机器学习任务中，各建模单元的训练数据不均衡是影响算法性能的一个重要问题。这种情况下，训练得到的模型倾向于优化训练数据充足的类别，而忽略训练数据不足的类别。因此，本步骤中采用“概率采样”的重采样方法来选取训练数据有助于DNN对各个状态的训练得到趋于一致的建模精度，并最终改善检测性能。

步骤2)、采用深度神经网络模型对自动语音实现叠音检测。

该步骤可包括：

步骤2-1)、向深度神经网络模型输入待检测的自动语音的语音特征，每输入一帧语音特征，都可通过深度神经网络模型计算得到这帧语音属于叠音语音/单人语音/非语音的概率。

步骤2-2)、采用维特比算法通过每帧的各状态概率分布最终判断出叠音语音段的起止点。

维特比算法是一种动态规划算法，用于寻找最有可能产生观测事件序列的隐含状态序列。在叠音检测中，DNN的输出状态就相当于观测序列，叠音语音/单人语音/非语音的排列则对应的是隐含序列。DNN的各个输出状态之间存在转移概率。从信号的起始点对语音进行逐帧的判断，对于当前这一帧，通过求得之前每一帧出现各个状态的概率，乘以帧间的转移概率，得到某一序列出现的总概率，最大概率对应的路径就是最有可能出现的隐含序列，当确定了这个序列每帧上的状态归属，那么就可以得到哪些帧属于叠音的信息，进而可以得到叠音语音段的起止点。在维特比算法中，有两个参数需要预先设定：一是各个状态间的转移概率值，二是各个状态的先验概率值。这两个值的设定通常是在开发集上进行调优，然后固定下来用于其它数据的测试。

考虑到实际对话数据中真实的叠音数据非常少，获取起来耗时耗力；如仅用少量的叠音数据和大量的非叠音数据进行训练，DNN模型将会过度学习非叠音的特性，而忽略叠音数据的特性，从而大大影响叠音检测的性能。因此，作为一种优选实现方式，在另一个实施例中，本发明的自动语音叠音检测方法还包括有：人工合成模拟足量叠音数据的步骤。在步骤1-1)中，采集一定量的语音数据作为训练数据时，所述训练数据包括该步骤所得到的模拟数据。

该步骤可包括：

人工合成叠音训练数据的来源为汉语普通话电话聊天口语对话数据，如语言数据联盟LDC提供的汉语普通话通用标准数据集Call-Home、Call-Friend以及Call-HKUST。该语音数据基于人工标注的时间点进行了分段。对于分段后的训练集，进行强制对齐操作，可得到每帧数据属于语音或非语音的标注信息。

步骤b)、对所有训练数据进行加噪处理，使DNN能够更好地应付不同种类噪声下的叠音检测；

在本实施例中，为训练数据添加了8种不同的噪声，包含有马路噪声、餐厅噪声、音乐噪声、风声等常见噪声类型。对所有的训练数据分批随机加入这8种噪声，加入信噪比的范围控制在0-20db。

人工合成叠音时，在所有的语音片段中随机的选择出两句，将这两句进行时域线性叠加。当两句的长度不一致时，保留下来的语音长度以较短的时间长度为准。考虑到实际情况中，来自同一个人的语音不可能出现交叠，所以随机选择叠加语音时需要保证两句话来自不同的说话人。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度神经网络的自动语音叠音检测方法，包括：

步骤2)、采用步骤1)训练得到的深度神经网络模型对语音做自动叠音检测；

所述步骤1)进一步包括：

2.根据权利要求1所述的基于深度神经网络的自动语音叠音检测方法，其特征在于，还包括人工合成模拟叠音数据的步骤；该步骤所生成的模拟叠音数据作为训练数据的一部分，用于深度神经网络模型的训练。

3.根据权利要求2所述的基于深度神经网络的自动语音叠音检测方法，其特征在于，所述人工合成模拟叠音数据的步骤具体包括：

步骤b)、对所有训练数据进行加噪处理；

4.根据权利要求1所述的基于深度神经网络的自动语音叠音检测方法，其特征在于，在步骤1-3)中，采用“概率采样”的重采样方法从训练数据集中采集输入到深度神经网络模型中的数据；

所述“概率采样”的重采样方法的采样概率为：

5.根据权利要求1所述的基于深度神经网络的自动语音叠音检测方法，其特征在于，所述步骤2)进一步包括：

步骤2-1)、向深度神经网络模型输入待检测语音的语音特征，每输入一帧语音特征，都通过深度神经网络模型计算得到这帧语音属于叠音语音或单人语音或非语音的概率；