CN110009025A

CN110009025A - 一种用于语音测谎的半监督加性噪声自编码器

Info

Publication number: CN110009025A
Application number: CN201910239533.8A
Authority: CN
Inventors: 雷沛之; 傅洪亮; 陶华伟; 姜芃旭; 王少航; 方元博; 王珂; 张建华
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2019-07-12
Anticipated expiration: 2039-03-27
Also published as: CN110009025B

Abstract

现有的语音谎言检测算法受制于难以获得足量的带标签语音数据，而现实中大量易得的无标签数据却被忽视，针对这一问题，本发明提出了一种用于语音测谎的半监督加性噪声自编码器，它包含有两层的编码和解码网络，以及一个分类器。该模型首先根据语音谎言的特征改变了网络中的激活函数，其次为了防止过拟合，在每一个网络层都增加了dropout，最后在编码输出部分直接连接了分类器使网络简洁高效。数据输入模型后，先经过编码网络提取特征，之后不仅进入解码网络进行重构，还要进入分类器进行分类。无标签数据保证了模型的泛化性，有标签数据可以保证提取到的特征更适合分类，因此，我们的模型充分利用了有标签和无标签数据的价值。

Description

一种用于语音测谎的半监督加性噪声自编码器

技术领域

本发明属于语音信号处理技术领域，具体涉及到一种用于语音测谎的半监督加性噪声自编码器。

背景技术

测谎的重要性不言而喻，表明人们说谎时的声音会因紧张而导致它的音调，停顿，音长等发生变化，而且与以往的测谎方法相比，利用语音测谎可以摆脱时间空间的约束，使结果更客观，因此利用语音进行测谎具有重要的现实意义和巨大的实用价值。

目前研究者都是从语音的特征提取，特征处理和分类三个方面进行研究。例如美国哥伦比亚大学的研究团队使用语音的组合特征，以SVM为分类器取得了良好的效果，苏州大学的赵鹤鸣教授团队提取了语音的非动力学特征及韵律特征，以相关向量机进行谎言检测。随着无监督模型应用范围的扩大，语音测谎的研究者通常也先将语音特征进行无监督学习后再进行分类，印度的伦格塔工程学院的研究者利用谎言语音中的能量，过零率等语音特征，构建了多层神经网络后接SVM的分类模型，苏州大学的周燕尝试利用深度置信网络对语音的特征进行深度处理，并用SVM进行检测。然而，将无监督学习模型和有监督学习模型结合在一起会有很大的风险。因为无监督学习是为了保留数据中全部的重要信息以助于表示，但有监督分类学习只保留数据中有助于分类的信息，这样在进行模型训练的过程中，二者会有矛盾，导致模型泛化性变弱甚至影响分类性能。更为重要的是，获取大量的带标签数据显然是十分困难的，手工进行标记十分繁琐，需要消耗大量的人力物力，这就严重限制了这些方法的发展。与此同时，现实及网络中存在大量的廉价易得的无标签数据，因此本发明主要关注于如何将少量的有标签数据及大量的无标签数据综合利用起来，即对数据进行半监督学习以实现更优秀的语音测谎工作。

发明内容：

半监督自编码器在语音情感识别工作中表现良好，但是语音测谎和情感识别属于不同的分类任务，因此我们根据语音测谎的特点对原始的半监督自编码器进行了改进，使其能更适用于谎言语音和正常语音的辨别。模型由加性噪声自编码器和softmax分类器组成,其中编码和解码网络都由两个隐层串联而成，每个隐层中都包含权重，批归一化和激活函数，dropout等部分。

假设我们有一个语音集，其中有N个有标签数据{(x₁,y₁)，(x₂,y₂).....(x_N,y_N))}以及M个无标签数据{x_N+1，x_N+2....x_N+M}，其中y是数据对应的标签，共有K类。我们的目的是从这些数据中学习到分布P(y|x)，下面介绍数据输入模型后的完整计算流程。对于无监督学习部分，它由深度加性噪声自编码器组成，可以提取出数据的深层特征。它的编码部分通过多层前馈神经网络将输入数据非线性转换为新的表达形式，给定一个输入x，其过程如下所示：

解码部分是将经过编码后的数据重构为编码前的输入数据，其过程可以表示为：

其中，L代表网络的层数，w,b分别为层间权重和偏执向量，是需要优化的参数。输入数据经过上述步骤后，无监督学习部分的损失函数，即数据的重构误差可以表示为：

有监督学习部分：我们将自编码器额外增加了一个有监督分类任务，数据经过编码网络提取特征后，除了要进行解码，还要输入分类器进行分类，其过程可以表示为：

其中，p是分类器预测的结果，β是连接编码网络和分类器的层间权重，b为偏置向量，经过此过程后，数据的分类误差可以表示为：

y为语音对应的真实标签，1≤j≤K,K在前文已经介绍过，是数据的总类别数。

至此，模型的前向传播过程已经介绍完毕。数据经过网络并计算完误差后，我们利用梯度下降法来最小化误差并优化参数。对于无标签数据，由于没有对应的标签，所以只进行数据重构，即最小化误差函数C_u，训练时，先算出误差函数对于每个参数的梯度再根据梯度进行参数优化直至模型收敛，过程如下，对于输出层，残差为

对于重构输出层的上一层，该层的残差为输出层残差经权重反向传播之后的值，为

δ_o-1＝ε^L-1*(1-ε^L-1)*w^L-1*δ_L

所以该层参数所要更新的值，即该层参数的梯度以及更新后的参数为

dw＝ε^L-1*δ_L，db＝δ_L

w^L-1＝w^L-1-λ*dw，b^L-1＝b^L-1-λ*db(λ为设置的学习率)

其它层以此类推，根据模型顺序，残差反向传播时先经过解码网络后经过编码网络，最终将所有的参数更新完毕后完成第一次优化。

对于有标签数据，既要进行重构又要进行分类，所以需要最小化的误差函数为

C＝C_s+αC_u

α为平衡参数。我们同样使用梯度下降法来进行迭代，因为最小化的是联合误差函数，因此与之前步骤不同的是，当反向传播的残差将要进入编码网络时，需要额外增加分类输出层残差，分类输出层的残差为

之后，梯度计算及参数更新方法和前面所述相同。在训练过程中，需要同时将有标签数据和无标签数据输入模型，从而根据恢复特征和原始特征，分类标签和真实标签之间的误差来调整相应参数。大量的无标签数据保证了对原始特征学习的泛化能力，有标签数据可以使学习的表达特征更适合于分类。因此，我们的模型充分利用了有标签和无标签数据的价值。

激活函数在神经网络中的作用非常重要，它实现了数据的非线性变换，使整个网络具有更强大的拟合数据的能力，与之前的编码器不同，我们选择了Elu作为激活函数，如果使用传统的Relu或sigmoid激活函数，当输入为负值或较大的负值时，神经元的输出为0，相当于神经元处于假死状态，那么在优化模型时这些神经元与其他神经元之间的权重会变化缓慢甚至产生梯度弥散，这些负值中的信息就没有被有效利用起来，后果就是直接影响了分类精度。因此我们使用Elu激活函数，即使输入为负值时，神经元依旧会有输出而且函数在横轴小于0的部分变化平稳，具有软饱和性，这就保证了负值中的信息不会被浪费掉，此外，Elu的输出均值接近于0，这会使网络收敛速度更快。我们对CSC库进行特征提取并做标准化处理，之后统计显示，CSC库的语音提取出的特征中负值约占24％，因此，选择Elu作为激活函数比其他两种更为合适。进一步的，与语音情感识别的多分类不同，语音测谎只需要判断出该语音是真话还是谎言即可，这样在训练样本较小的情况下会产生过拟合，因此我们谨慎的在SS-DA的每层都加入一定比率的dropout使某些隐层神经单元以一定的概率暂停工作，达到防止过拟合的作用，这个改动对于正确率的提升也十分重要。此外，在网络中我们使用批归一化以达到加速训练的作用。

将数据经过编码网络后提取到的深层特征直接用于分类，并以此来训练分类器，也是我们具有创造性的改进，数据不经过额外的神经网络进行变换，从而保证了经过编码得到的深层特征既有助于数据重构又有助于分类，此外，特征和分类器的直接连接，也达到了简化网络结构，节约计算成本从而加速训练的目的。

附图说明：

图1为一种用于语音测谎的半监督加性噪声自编码器结构图，

图2为每个隐层包含的内容示意图。

具体实施方式：

为了验证我们所提出的模型的性能，我们在CSC谎言语音库上进行试验。CSC数据库是用于谎言语音检测的专业数据库，参与录制人员均为美国哥伦比亚大学的学生和教师，男性和女性各占一半。受试者被告知参加一个“寻找符合美国顶级企业家人才”的活动，通过与考官的交流，受试者需要使考官相信自己符合该选拔，最终生成约7.5h的语音样本。

步骤一：去掉音质较低的部分后，从该库剪切出5411条语音进行实验，每条语音时长2s左右，包含了2209条谎言语音，将剪切出的语音中的4328条语音作为训练集，剩下的1083条语音作为测试集。

步骤二：语音特征是进行谎言识别的关键，我们使用的语音特征是2009年国际语音情感识别挑战赛的标准特征集。其中有2*16个低层描述子，如ZCR,HNR,,MFCC(1-12)等，以及12个描述函数，有均值，最大最小值，均方误差等，总的特征维数为2*16*12＝384维，这个特征集包含了声学特征中使用最为广泛的特征和函数。我们使用开源工具包Opensmile从语音中提取这些特征，每条语音提取出的特征都为384维，共有5411条语音，因此数据总量为5411*384。

步骤三：首先我们将系数为0.3的高斯噪声加入语音，作为模型的输入数据。编码和解码网络部分都为两层，每层网络设置相同的神经单元数。对于学习率和神经单元数，我们从{0.1,0.01,0.001}，{60,120,180}中根据不同的实验进行选取。联合误差函数中的参数α选取为1，在模型训练过程中，使用小批量梯度下降法并最多进行1000次迭代来优化参数。我们选取正确率作为分类性能指标。这是语音测谎领域最常用的评价指标。对于每个模型，都进行10次试验并取这10次实验结果的平均值作为最终的结果。

步骤四：我们特别关注当标签数据个数不同时的实验结果。从语音语料库的训练集中随机选取数据作为带标签数据，训练集中剩余的数据作为无标签数据处理。在CSC语料库中，选取500、1000个数据作为带标签数据，选择的数据数量约占语料库中包含的总数据的10％和20％。训练时将无标签数据和有标签数据同时输入模型中，对于无标签数据，由于没有对应的标签，所以只进行数据重构。训练时，先算出误差函数对于每个参数的梯度，再根据梯度进行参数优化直至模型收敛。对于有标签数据，既要进行重构又要进行分类，大量的无标签数据保证了对原始特征学习的泛化能力，有标签数据可以使学习的表达特征更适合于分类。因此，我们的模型充分利用了有标签和无标签数据的价值。表1显示了我们的SS-ANE和其他在基于语音的谎言检测领域中经常使用的模型的准确率。

表1在CSC库上由不同数量的带标签数据得到的平均正确率

从实验结果可以看出，与其他模型相比，在有标签数据数量相同时我们的模型可以达到最先进的性能。值得一提的是，我们模型仅仅利用1000个带标签数据，准确率就达到了62.78％，这甚至高于其他模型使用所有训练数据时得到的准确率，这说明我们的模型确实可以减少对带标签数据的依赖。

Claims

1.一种用于语音测谎的半监督加性噪声自编码器，其特征在于,包括以下步骤：

(1)语音预处理：将录制好的语音按谎言和真话分类并标记上数字标签，去除音质较低的部分并剪切成每一条时长为2s左右的短语音，之后对其进行分帧及加窗，为下一步提取特征做准备；

(2)特征提取：对预处理完毕后的语音数据，提取出MFCC，过零率，基频等语音特征，并进行归一化以便分类；

(3)半监督加性噪声自编码器装置：该装置由多层加性噪声自编码器和一个softmax分类器组成；编码网络和解码网络各两层，每个隐层的神经单元数都为60，除了连接各隐层的权重外，根据谎言语音的特点，我们在每一隐层都增加了Elu激活函数，批归一化，dropout三个部分，并且在编码网络的末端连接了一个softmax分类器；假设我们有一个语音集，其中含有N个有标签数据{(x₁,y₁)，(x₂,y₂).....(x_N,y_N))}以及M个无标签数据{x_N+1，x_N+ ₂....x_N+M}，其中y是数据对应的标签，共有K类；我们的目的是从这些数据中学习到分布P(y|x)；将(2)中提取的特征输入装置后，数据将进行以下流程：

A.先经过编码部分，通过该部分将其非线性转换为新的表达形式，给定一个输入x，其过程如下所示：

B.解码部分是将经过编码后的数据重构为编码前的输入数据，其过程可以表示为：

其中，L代表网络的层数，w,b分别为层间权重和偏执向量，是需要优化的参数；输入数据经过上述步骤后，无监督学习部分的损失函数，即数据的重构误差可以表示为：

C.我们将自编码器额外增加了一个有监督分类任务，数据经过编码网络提取特征后，除了要进行解码，还要输入分类器进行分类，其过程可以表示为：

y为语音对应的真实标签，1≤j≤K,K在前文已经介绍过，是数据的总类别数；

D.数据经过网络并计算完上述误差后，我们利用梯度下降法来最小化误差并优化参数；对于无标签数据，由于没有对应的标签，所以只进行数据重构，即最小化误差函数C_u，训练时，先算出误差函数对于每个参数的梯度再根据梯度进行参数优化直至模型收敛，对于输出层，残差为

δ_o-1＝ε^L-1*(1-ε^L-1)*w^L-1*δ_L

dw＝ε^L-1*δ_L，db＝δ_L

w^L-1＝w^L-1-λ*dw，b^L-1＝b^L-1-λ*db(λ为设置的学习率)

其它层以此类推，根据模型顺序，残差反向传播时先经过解码网络后经过编码网络，最终将所有的参数更新完毕后完成第一次优化；

C＝C_s+αC_u

α为平衡参数；我们同样使用梯度下降法来进行迭代，因为最小化的是联合误差函数，因此与之前步骤不同的是，当反向传播的残差将要进入编码网络时，需要额外增加分类输出层残差，分类输出层的残差为

之后，梯度计算及参数更新方法和前面所述相同；在训练过程中，需要同时将有标签数据和无标签数据输入模型，从而根据前文所述误差来调整相应参数。