CN112562645B

CN112562645B - 一种基于自编码网络联合学习的语音测谎方法

Info

Publication number: CN112562645B
Application number: CN202011433508.2A
Authority: CN
Inventors: 刘曼; 庄志豪; 傅洪亮; 陶华伟
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2023-11-14
Anticipated expiration: 2040-12-09
Also published as: CN112562645A

Abstract

本发明公布了一种基于自编码网络联合学习的语音测谎方法，本发明包括以下步骤：首先，通过语音信号预处理提取语音特征；其次，将提取到的语音特征分别输入自编码网络与去噪自编码网络，保证两条网络同时训练，能够很好的抑制单条自编码网络的过拟合问题，增强了网络的鲁棒性，且有效提升了该方法的泛化能力；其次，将两个自编码网络经编码后的输出特征进行融合，并设置批归一化层、Dropout层以加快网络计算速度，进一步抑制过拟合；最后，输出数据分类识别。本发明所提出的一种基于自编码网络联合学习的语音测谎方法，网络结构简单，两条自编码网络同时学习，有效的增强了网络的鲁棒性且抑制了网络中的过拟合，非常具有实用意义。

Description

一种基于自编码网络联合学习的语音测谎方法

技术领域

本发明属于语音信号处理技术领域，具体涉及到一种基于自编码网络联合学习的语音测谎方法。

背景技术

说谎是在人类社会中普遍存在的一个现象，语音是人类交流的一个重要途径，往往语音中不仅包含了所传递的内容信息，还包括了丰富的情感信息。人在说谎时，不仅其语速、语气、音调等会发生变化，而且通常也会有情绪、心理(紧张或者掩盖紧张)等方面的变化。应用语音进行测谎，语音数据的获取更加方便与简单，且通过语音进行测谎得到的结果更加客观与有意义。

与传统的应用非语音指标进行测谎的方法相比，应用语音指标进行测谎的方法大多是基于监督学习的方法，这些方法通常需要大量带有标签数的语音数据。然而，在现实中通常很难获得大量带有标签的语音数据，或者获取到的带有标签的数据通常是不完整的。除此之外，目前对于语音测谎的研究发明，为了获得更高的谎言识别率，通常需要较多的网络层数和更复杂的网络结构，但是这种方法通常会使得网络的训练时间过长，甚至还会导致语音特征的信息丢失。

在现有的语音测谎方法中，除了需要使用大量大的带有标签的语音数据之外，通常还需要更多的网络参数参与学习过程，以提升识别真话与谎言的能力，然而这种方法通常需要耗费大量的时间，并且网络的鲁棒性不好。该发明所提出的一种基于自编码网络联合学习的语音测谎方法，不仅能够有效地解决大量带有标签语音数据难、复杂等问题，而且还在一定程度上简化了网络模型。共享网络参数的自编码器网络减少了网络中的参数，在很大程度上减少了网络训练过程的时间，提升了网络训练的效率。该发明使用所使用的两个自编码网络代替了单个网络进行训练，该方法通过对其中一条网络进行加噪处理，不仅很好地解决了网络在训练过程中出现的过拟合的问题，而且还将语音中更多的信息保留下来，实现了良好的语音测谎工作。

发明内容

基于自编码网络的的方法在图像分类以及情感识别与分类中有良好的性能，但是语音测谎与这些领域的分类任务不同，根据语音测谎的特点，将简单自编码网络进行改进，使其可以实现原始输入数据的重构以及对真话和谎言的检测。于是，一种基于自编码网络联合学习的语音测谎方法，具体步骤如下：

(1)语音信号预处理：在语音处理预处理阶段先给语音添加上真话与谎言的标签，然后再对语音进行分帧加窗等处理；

(2)语音特征提取：对(1)中经分帧加窗处理后的数据进行语音特征提取，该特征包括但不限于基频、短时平均能量、短时平均过零率、均方根能量、共振峰、MFCC等声学特征；

(3)搭建网络模型：首先该网络由两个自编码网络以及批归一化层、Dropout层和分类层，该过程的具体实现步骤如下：

A.首先，将(2)中提取的语音特征作为输入发送到一个自编码网络，同时，将经加噪处理后作为另一个自编码网络的输入，两个自编码网络同时进行学习，共同完成训练过程，这两个自编码网络均以原始的输入数据为目标进行学习，这一过程实现了对原始数据的重构，通过对最小化解码后的数据与输入数据之间误差函数，完成学习过程，其中，编码过程可以用以下公式来表示：

x₁＝x (1)

y₁＝f(wx₁+b) (2)

y₁ ^k＝elu(w^k-1·y₁ ^k-1+b^k-1)2≤k≤K (3)

x₂＝x+x_noise (4)

y₂＝f(wx₂+b) (5)

y₂ ^k＝elu(w^k-1·y₂ ^k-1+b^k-1)2≤k≤K (6)

其中x所代表的是一个自编码网络的输入，而y₁、y₂分别为编码网络的输出；

B.本发明中在数据进行编码之后，再以原始数据为目标进行数据的重构，该过程的实现过程可以表示为：

x₁'＝f(wy₁+b) (7)

(x₁')^k＝elu(w_D ^k-1·(x₁')^k-1+b_D ^k-1)2≤k≤K-1 (8)

x₂'＝f(wy₂+b) (9)

(x₂')^k＝elu(w_D ^k-1·(x₂')^k-1+b_D ^k-1)2≤k≤K-1 (10)

C.计算两个自编码网络的数据重构误差，损失函数分别为公式(11)、(12)，两个自编码网络无监督部分的总损失为公式(13)：

L_u＝L_u1+L_u2 (13)

(4)将两个自编码网络的编码输出进行深层融合，该过程保留语音中的更多信息；

(5)将融合后的特征输入到全连接层，作为分类器的输入，该过程通过设置Dropout层，一直网络的过拟合，然后将该输出结果进行分类识别，计算该有监督过程的损失计算选择交叉熵损失函数，实现过程如下：

(6)分类识别输出：将步骤(4)得到的融合后的特征送入全连接层，并采用有标签的数据通过softmax层进行识别分类，该过程可以表示为：

y_pre＝f(W·c+b) (15)

其中，c是两个分支通过编码后进行融合的数据集合，y_pre是融合后数据经分类器后的分类结果，W，b分别是编码网络与分类器间的权重和偏置；

(7)为优化该发明提出的方法，采用梯度下降法来最小化误差函数(重构误差与分类误差)，并根据误差函数进行网络参数的调整，以使该发明所提出的语音测谎方法性能达到最佳。

附图说明：

图1为自编码器结构图；

图2为一种基于自编码网络联合学习的语音测谎方法结构图。

具体实施方式：

下面结合具体实施方式对本发明做更进一步的说明。

本发明提出的是一种基于自编码网络联合学习的语音测谎方法，针对在语音测谎领域存在的难题提出了可行性的解决方法，步骤如下：

x₁＝x (1)

y₁＝f(wx₁+b) (2)

y₁ ^k＝elu(w^k-1·y₁ ^k-1+b^k-1)2≤k≤K (3)

x₂＝x+x_noise (4)

y₂＝f(wx₂+b) (5)

y₂ ^k＝elu(w^k-1·y₂ ^k-1+b^k-1)2≤k≤K (6)

其中x所代表的是一个自编码网络的输入，而y₁、y₂分别为编码网络的输出。

x₁'＝f(wy₁+b) (7)

(x₁')^k＝elu(w_D ^k-1·(x₁')^k-1+b_D ^k-1)2≤k≤K-1 (8)

x₂'＝f(wy₂+b) (9)

(x₂')^k＝elu(w_D ^k-1·(x₂')^k-1+b_D ^k-1)2≤k≤K-1 (10)

C.求两个半监督网络在数据重构这一路径下的损失函数，两个自编码网络无监督部分的损失函数分别为公式(11)、(12)，两个自编码网络无监督部分的总损失为公式(13)：

L_u＝L_u1+L_u2 (13)

(4)将两个自编码网络的编码输出进行一个深层的融合，该过程将语音中更多的信息保留下来；

y_pre＝f(W·c+b) (15)

(8)该发明不仅适用于自编码网络与去噪自编码网络的共同训练，同样使用于自编码网络与自编码网络、去噪自编码网络与去噪自编码网络，与之不同的是，网络的输入分别为x₁与x₁、x₂与x₂，同样是以原始数据为目标进行学习，最小化重构误差与分类误差，是语音测谎的性能达到最优。

为了验证所提出的一种基于自编码网络联合学习的语音测谎方法，本发明的验证在Killer谎言语料库上进行实验。该数据库包含了987条语音数据，其中谎言与真话分别是510条和477条数据，将数据集分为训练集和测试集划分为约4:1的比例。在实验的过程中，分别选择100、200条带有标签的语音数据进行训练。步骤三：首先，设置第二个自编码器分支的噪声为加性高斯白噪声，且系数为0.2，作为该模型结构的输入。然后，设置编码器隐层的数目为2048，均设置为两层，且每层都有相同的神经元个数。最后，设置网络学习率为0.000001，训练时每次喂入数据个数为16，测试时每次喂入数据个数为16。该模型准确率作为分类的性能指标，并经过循环迭代进行参数优化。进行多次试验并取平均值作为最终的结果，最后在killer库上分别用带有100个标签和200个标签的数据进行实验。结果表明，该发明所提出的方法，与单个网络相比识别率提升了1％-2％。利用少量标签可以实现良好的语音测谎效果。除此之外，本发明所提出的基于自编码网络联合学习的语音测谎方法不仅网络结构简单，网络在训练过程中，通过反向传播进行参数微调，很好地抑制网络的过拟合，很大程度上增强了网络的鲁棒性。

本发明的联合学习网络结构不仅可以由自编码网络与去噪自编码网络构建，还可以用自编码网络与自编码网络、去噪自编码网络与去噪自编码网络构建实现。

Claims

1.一种基于自编码网络联合学习的语音测谎方法，其特征在于，包括以下步骤：

(1)语音信号预处理：在语音处理预处理阶段先给语音添加上真话与谎言的标签，然后再对语音进行分帧加窗处理；

(2)语音特征提取：对(1)中经分帧加窗处理后的数据进行语音特征提取，该特征包括但不限于基频、短时平均能量、短时平均过零率、均方根能量、共振峰、MFCC的声学特征；

(3)搭建网络模型：首先该网络由两个自编码网络以及批归一化层、Dropout层和分类层组成，该过程的具体实现步骤如下：

A.首先，将(2)中提取的语音特征作为输入发送到一个自编码网络，同时，将(2)中提取的语音特征经加噪处理后作为另一个自编码网络的输入，两个自编码网络同时进行学习，共同完成训练过程，这两个自编码网络均以原始的输入数据为目标进行学习，这一过程实现了对原始数据的重构，通过对最小化解码后的数据与输入数据之间误差函数，完成学习过程，其中，编码过程用以下公式来表示：

x₁＝x (1)

y₁＝f(wx₁+b) (2)

y₁ ^k＝elu(w^k-1·y₁ ^k-1+b^k-1) 2≤k≤K (3)

x₂＝x+x_noise (4)

y₂＝f(wx₂+b) (5)

y₂ ^k＝elu(w^k-1·y₂ ^k-1+b^k-1) 2≤k≤K (6)

B.在数据进行编码之后，再以原始数据为目标进行数据的重构，该过程的实现过程可以表示为：

x₁'＝f(wy₁+b) (7)

(x₁')^k＝elu(w_D ^k-1·(x₁')^k-1+b_D ^k-1) 2≤k≤K-1 (8)

x₂'＝f(wy₂+b) (9)

(x₂')^k＝elu(w_D ^k-1·(x₂')^k-1+b_D ^k-1) 2≤k≤K-1 (10)

L_u＝L_u1+L_u2 (13)

(5)将融合后的特征输入到全连接层，作为分类器的输入，该过程通过设置Dropout层，抑制网络的过拟合，然后将该输出结果进行分类识别，计算该有监督过程的损失计算选择交叉熵损失函数，实现过程如下：

y_pre＝f(W·c+b) (15)

(7)为优化该语音测谎方法，采用梯度下降法来最小化误差函数，并根据误差函数进行网络参数的调整，以使该语音测谎方法性能达到最佳。