CN108520753B

CN108520753B - 基于卷积双向长短时记忆网络的语音测谎方法

Info

Publication number: CN108520753B
Application number: CN201810159072.9A
Authority: CN
Inventors: 谢跃; 梁瑞宇; 赵力; 包永强; 唐闺臣
Original assignee: Nanjing Institute of Technology
Current assignee: Beijing Jianrui Technology Co.,Ltd.
Priority date: 2018-02-26
Filing date: 2018-02-26
Publication date: 2020-07-24
Anticipated expiration: 2038-02-26
Also published as: CN108520753A

Abstract

本发明公开了一种基于卷积双向长短时记忆网络的语音测谎方法，包括将整段语音进行统一归一化处理；根据数据库标签对统一归一化处理的语音进行切分；对切分的语音加窗分帧处理；建立变长数据的计算方式；将卷积操作引入长短时记忆网络中；构建完整的语音测谎网络模型；训练语音测谎网络模型，并加窗分帧处理后的语音进行测谎评测。本发明通过将卷积操作引入长短时记忆网络中，构建完整的语音测谎网络模型，实现深度学习，从原始语音数据中提取适用于谎言检测的特征，以提高谎言检测的性能，具有良好的应用前景。

Description

基于卷积双向长短时记忆网络的语音测谎方法

技术领域

本发明涉及语音测谎技术领域，具体涉及一种基于卷积双向长短时记忆网络的语音测谎方法。

背景技术

我们知道，相比于正常状态下，人在说谎时会引起声压、语气、语速、停顿时间和发声器官微小变化，进而导致语音中某些特征参数的变化，因此，通过监测这些变化可以实现谎言分析与检测。虽然，谎言检测的研究由来已久，但是专注于以语音特征为线索的谎言检测研究的相关成果较少，因此，具有重要的理论研究价值。此外，语音特征测谎，具有测试过程简单隐蔽，可对不在场人员进行远程检测，设备造价低等优点，具有重要的应用价值。

1991年，Ekman等人通过采访影视片段观后感的方式采集真谎话语料，通过对语料的基频特征进行统计分析，发现说谎语音段与说真话语音段相比较，基频有明显提升。1996年，Hansen等人用梅尔频率倒谱系数(Mel-Frequency Cepstrum Coefficients，MFCC)，以及MFCC的一阶差分、二阶差分、自相关、互相关构造出一组特征，以神经网络的方法为分类器对特定说话人的声音分11个压力等级进行研究，结果表明，与平和状态相比，以上特征在压力状态下的变化反应了声道发音器官的微抖动。2003年，DePaulo等人对前期研究进行了汇总分析，对现有测谎研究工作中提出的158种特征进行分析研究。结果表明，其中有23种特征表现较为明显，包括16种语音及语言相关特征，如相较于说真话，人在说谎话时会出现说话时长变短、表述细节变少、重复变多、基频变高等现象。在语音测谎研究方面，美国哥伦比亚大学研究团队录制了专业的数据库，并将词汇特征与声学特征相结合，采用BayesNet分类器，获得了64.7％的识别率。

上述工作推动了语音测谎的研究，但是，也存在一些值得深入研究的问题，具体如下：

(1)现有的众多语音特征与谎言的映射关系尚不明确；

(2)从原始语音到语音特征的提取过程必然导致信息的损失，而损失的信息对最终的谎言检测效果是否有影响也是未知的；

(3)从分类算法看，早期的分类算法效果很大程度上依赖人为提取的语音特征，算法本身不具有特征学习能力。

如何克服上述的问题，是当前需要解决的。

发明内容

本发明的目的是克服现有的语音测谎存在的问题。本发明的基于卷积双向长短时记忆网络的语音测谎方法，通过将卷积操作引入长短时记忆网络中，构建完整的语音测谎网络模型，实现深度学习，从原始语音数据中提取适用于谎言检测的特征，以提高谎言检测的性能，具有良好的应用前景。

为了达到上述目的，本发明所采用的技术方案是：

一种基于卷积双向长短时记忆网络的语音测谎方法，包括以下步骤，

步骤(A)，将整段语音进行统一归一化处理；

步骤(B)，根据数据库标签对统一归一化处理的语音进行切分；

步骤(C)，对切分的语音加窗分帧处理；

步骤(D)，建立变长数据的计算方式；

步骤(E)，将卷积操作引入长短时记忆网络中；

步骤(F)，构建完整的语音测谎网络模型；

步骤(G)，训练语音测谎网络模型，并加窗分帧处理后的语音进行测谎评测。

前述的基于卷积双向长短时记忆网络的语音测谎方法，步骤(A)，将整段语音进行统一归一化处理，归一化后整段语音的范围是[-1，1]，归一化前后的整段语音在数值为零处所表达的物理意义不变，均是无声段。

前述的基于卷积双向长短时记忆网络的语音测谎方法，步骤(B)，根据数据库标签对统一归一化处理的语音进行切分，所述数据库为语音学家建立的用于研究语音谎言检测的专业数据库。

前述的基于卷积双向长短时记忆网络的语音测谎方法，步骤(C)，对切分的语音加窗分帧处理，增加的窗函数为hamming窗W(n，α)，其的计算公式如下，

W(n，α)＝(1-α)-αcos(2πn/(n-1))，0≤n≤N-1

其中，α取值0.46，N为n的取值范围，表示Hamming窗的长度。

前述的基于卷积双向长短时记忆网络的语音测谎方法，步骤(D)，建立变长数据的计算方式，先在不等长的语音数据结尾处补零至相同长度，在网络计算中，补零后语音数据的实际有效长度通过每帧数据的绝对值求和并判断是否为零来获得。

前述的基于卷积双向长短时记忆网络的语音测谎方法，步骤(E)，将卷积操作引入长短时记忆网络中，通过以下公式得到，

f_t＝σ(W_fh*h_t-1+W_fx*x_t+W_fcC_t-1+b_f)

i_t＝σ(W_ih*h_t-1+W_ix*x_t+W_icC_t-1+b_i)

其中，*表示卷积、

表示Hadamard乘积；W_fh、W_fx、W_fc分别为遗忘门f_t的隐层、输入与细胞状态的权值，b_f为遗忘门f_t的偏置；W_ih、W_ix、W_ic分别为信息更新值i_t中的隐层、输入与细胞状态的权值，b_i为信息更新值i_t的偏置；W_ch、W_cx分别为细胞状态更新值

的隐层与输入的权值，b_c为细胞状态更新值

的偏置；W_oh、W_ox、W_oc分别为输出值o_t中的隐层、输入与细胞状态的权值，b_o为输出值o_t的偏置；下标t为时间步，对应特征中的帧数；h_t即为当前t时间的隐层输出、σ是sigmoid函数，表示式为：σ(x)＝1/(1+e^-x)。

前述的基于卷积双向长短时记忆网络的语音测谎方法，步骤(F)：构建完整的语音测谎网络模型，采用截断梯度算法实现，具体计算公式如下：

f_t＝σ(W_fhh_t-1+W_fxx_t+W_fcC_t-1+b_f)

i_t＝σ(W_ihh_t-1+W_ixx_t+W_icC_t-1+b_i)

前述的基于卷积双向长短时记忆网络的语音测谎方法，步骤(G)，训练语音测谎网络模型，将预测后的语音数据作为语音测谎网络模型的输入，训练学习该语音测谎网络模型的参数，并通过三种公众模型评测标准准确率、召回率与混肴矩阵，从而实现测谎评测，所述召回率recall的计算公式如下：

其中，TP是该类别语音数据被正确识别的数量，TN为该类别语音数据被错误识别的数量。

本发明的有益效果是：本发明的基于卷积双向长短时记忆网络的语音测谎方法，通过将卷积操作引入长短时记忆网络中，构建完整的语音测谎网络模型，实现深度学习，从原始语音数据中提取适用于谎言检测的特征，以提高谎言检测的性能，具有良好的应用前景。

附图说明

图1是本发明的基于卷积双向长短时记忆网络的语音测谎方法的流程图；

图2是本发明的语音测谎网络模型的内部结构图；

图3是本发明的语音测谎网络模型的参数设置图；

图4是本发明实施例的测谎评测的效果图。

具体实施方式

下面将结合说明书附图，对本发明作进一步的说明。

本发明的基于卷积双向长短时记忆网络的语音测谎方法，包括以下步骤：

步骤(A)，对整段语音进行统一归一化处理；

该步骤的数据的归一化是在整个语音段上执行的，而不是在切割后的每个片段上执行的，归一化后的范围是[-1，1]，归一化前后语音数值为零处所表达的物理意义不变，均是无声段，这与步骤(D)中计算变长数据时，统一数据长度补零的意义一致；

所述数据库为语音学家建立的用于研究语音谎言检测的专业数据库，例如包含男女各16名被试者(母语为英语)参与研究的专业数据，均来自哥伦比亚大学，其音的采样率为16KHz，根据数据库标签切分后，获得5412条有效语音，其中，256条语音作为验证集，256条语音作为测试集，其余作为训练集，语音的数据最长L为478208，持续时间约为29.89秒；

步骤(C)，对切分的语音加窗分帧处理；

增加的窗函数为hamming窗W(n，α)，其的计算公式如下，

W(n，α)＝(1-α)-αcos(2πn/(n-1))，0≤n≤N-1

其中，α取值0.46，N为n的取值范围，表示Hamming窗的长度。

计算得到，分帧处理中帧长I为1024，帧间重叠率p为25％，获最大帧数H为623

步骤(D)，建立变长数据的计算方式；

首先在不等长的原始语音数据结尾处补零至相同长度，在网络计算中，只计算数据的实际有效长度，超出实际长度之后，网络的状态就不在更新，语音数据的实际有效长度通过每帧数据的绝对值求和判断是否为零来获得，具体算法如下：

其中audio为补零后的语音数据，t是时间步对应语音数据的帧数。sequence_length是计算实际有效长度的函数。

步骤(E)，将卷积操作引入长短时记忆网络中；

为了从原始时域语音信号中提取变换域特征，在长短时记忆网络中引入了卷积操作，具体如下：

f_t＝σ(W_fh*h_t-1+W_fx*x_t+W_fcC_t-1+b_f)

i_t＝σ(W_ih*h_t-1+W_ix*x_t+W_icC_t-1+b_i)

其中，*表示卷积、

的隐层与输入的权值，b_c为细胞状态更新值

步骤(F)，构建完整的语音测谎网络模型；

构建网络时为避免循环网络中的梯度爆炸，采用截断梯度算法，即在参数更新之前截断梯度g的范数||g||：

此外，网络在全连层还接受了低层卷积长短时记忆网络的输出，防止特征的过度抽象化，在卷积双向长短时记忆网络输出之后，连接多层双向长短时记忆网络，该网络内部结构如图2所示，相关数学符号计算公式如下：

f_t＝σ(W_fhh_t-1+W_fxx_t+W_fcC_t-1+b_f)

i_t＝σ(W_ihh_t-1+W_ixx_t+W_icC_t-1+b_i)

在谎言检测任务中，常常需要通过上下语境来判断某句话的真伪，因此用于谎言检测的模型应同时具有学习历史和未来信息的能力，双向长短时记忆网络通过将时序方向相反的两个循环神经网络连接到同一个输出，使得输出层可以同时获取历史和未来信息，所以该模式适用于谎言检测任务。该语音测谎网络模型的结构，如图3所示，网络参数设置，网络的第一层为卷积双向长短时记忆网络，通过该层试图获得与谎言检测任务相关的变换域信息。由于原始采样语音是一维数据，所以该层使用的卷积亦是一维，其卷积核的大小为1024*2*4，其中，1024是单个样本每次时间步输入的数据长度，即对整个输入数据进行卷积；2对应参与卷积运算的输入和上一时刻的隐层输出；4对应参与卷积的4中不同权值，即上述公式中的权值参数。网络的第二层与第三层为一般双向长短时记忆网络，用于计算变换域后的各种乘法计算，对应语音信号处理中频域变换后的种种乘法运算。其中第一个双向长短时记忆网络含有1024个隐层单元，第二个双向长短时记忆网络含有512个隐层单元，其他网络参数设置如表1所示，

表1网络参数

参数	值
		初始学习率	0.0004
训练批次大小	32
		梯度截断参数	80
层间单元连接率(dropout)	0.6
		卷积输出通道	2

步骤(G)，训练语音测谎网络模型，并加窗分帧处理后的语音进行测谎评测，将预测后的语音数据作为语音测谎网络模型的输入，训练学习该语音测谎网络模型的参数，并通过三种公众模型评测标准准确率、召回率与混肴矩阵，从而实现测谎评测，所述召回率recall的计算公式如下：

其中，TP是该类别语音数据被正确识别的数量，TN为该类别语音数据被错误识别的数量，

具体训练过程中，每训练5次，就在验证集上进行一个验证，并记录下验证集的识别率，召回率，最终将结果统计成如图4所示的在验证集中，整体识别率最终收敛至73.04％，其中谎言的召回率69.53％，诚实的召回率为76.56％。最终在测试集中获得了混肴矩阵，如表2所示，

表2测试集的混肴矩阵

类别	谎言	诚实
			谎言	87	41
诚实	27	101

在测试集中的整体识别率为73.43％。相比于当现有技术的的语音测谎研究，本发明极大的提高了整体识别率。

综上所述，本发明的基于卷积双向长短时记忆网络的语音测谎方法，通过将卷积操作引入长短时记忆网络中，构建完整的语音测谎网络模型，实现深度学习，从原始语音数据中提取适用于谎言检测的特征，以提高谎言检测的性能，具有良好的应用前景。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。