CN113851112A

CN113851112A - 一种基于多监督多特征融合的语音测谎方法

Info

Publication number: CN113851112A
Application number: CN202111117671.2A
Authority: CN
Inventors: 刘曼; 庄志豪; 耿磊; 陶华伟; 傅洪亮
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2021-12-28

Abstract

本发明公布了一种基于多监督多特征融合的语音测谎方法，本发明包括以下步骤：首先，构建了基于CNN网络、LSTM网络、AE网络网络的混合神经网络模型，实现不同特征的互补，从特征层面确保模型的性能；其次，利用AE获取无监督重构误差，利用模型预测生成伪标签，并获取伪标签预测误差，利用少量有标签数据获取有监督识别误差，综合利用3种不同误差构建联合误差函数，从而获得最优训练模型；最后，输出数据分类识别。本发明所提出的一种基于多监督多特征融合的语音测谎方法，能够有效降低模型对有标签数据的依赖，在相同有标签数据的情况下，识别性能显著优于现有诸多算法，非常具有实用意义。

Description

一种基于多监督多特征融合的语音测谎方法

技术领域

本发明属于语音信号处理技术领域，具体涉及到一种基于多监督多特征融合的语音测谎方法。

背景技术

说谎在人际交往中较为常见，是有意图传递错误信息的一个重要方式。从古至今，谎言检测都一个非常重要的一个研究方向，且该研究对刑事侦查、心理学研究等领域都有着重要的作用。传统的谎言检测技术主要是根据生理参数的变化进行判别，这种方法数据采集较困难，同时会引起受试者的抵触心理，从而影响检测结果。语音是人与人沟通交流最重要的途径之一，近些年，有学者提出了基于语音的测谎技术，该方法数据采集简单，隐蔽性较好，可以有效破解现有谎言检测技术的诸多问题，因此，该研究受到了广泛关注。

当前，针对语音谎言检测的研究主要集中在两个部分：谎言语料库的构建和语音特征的提取。对于数据库的构建，主要可以分为三类：游戏类型的谎言语料库、访谈类型的谎言语料库、模拟犯罪类型的谎言语料库。游戏类型的谎言语料库贴近生活，但受试者压力程度较低，谎言信息不显著；访谈类型的谎言语料库主要涉及面试、采访等场景，受试者相对研究，压力度略高于游戏类型数据库；模拟犯罪类型语料库主要涉及刑侦、间谍，问询者更加专业，包含诸多询问技巧与策略，受试者压力显著高于上述语料库，谎言特征相对显著，但数据不易获取。尽管学者们对谎言数据库的有了一定的研究，但与相关研究领域相比，公开的谎言数据库极少且数据量小，这给基于语音谎言检测的研究带来了巨大的难题。在特征提取方面，主要围绕韵律特征、谱相关特征、语音质量特征等进行研究。尽管上述研究取得了诸多巨大进步，但仍未有一种特征能够有效的表征语音中的谎言信息，因此，如何获取到更丰富的谎言特征仍需进一步努力。

基于上述分析，本文开展针对谎言特征提取及半监督识别模型的研究，旨在降低模型对有标签谎言语料库的依赖，同时提升模型识别性能。本研究首先搭建基于CNN、LSTM、AE的混合神经网络模型，利用CNN从语音的Mel谱中提取到与谎言相关的谱图时频信息；利用LSTM从语音谱图中逐帧提取语音谎言特征，补充卷积神经网络忽略的帧级情感特征；自编码网络实现人工设计声学谎言特征的迁移表征，可以为其他网络补充人工设计特征所包含的谎言信息；不同网络提取到的特征具有互补性，通过使用不同类型的特征，达到充分利用语音中包含的谎言信息的目的；其次，将不同网络提取到的深度特征融合，并利用AE获取无监督重构误差，利用模型预测生成伪标签，并获取伪标签预测误差，利用少量有标签数据获取有监督识别误差，根据三部分误差对模型进行反复训练以得到最佳模型。

发明内容

基于伪标签的半监督方法在图像分类中有良好的性能，但是语音测谎与这些领域的分类任务不同，根据语音测谎的特点，将基础网络进行改进，使其可以实现对无标记输入数据的高置信度伪标签的预测，并实现分类。于是，一种基于多监督多特征融合的语音测谎方法，具体步骤如下：

(1)语音信号预处理：在语音处理预处理阶段先给语音添加上真话与谎言的标签，然后再对语音进行分帧加窗等处理；

(2)语音特征提取：对(1)中经分帧加窗处理后的数据进行语音特征提取，提取预处理后语音的mels谱数据，并按帧输入LSTM网络中，提取帧级特征，其次将mels谱数据构建成3D图片，输入Alexnet网络，提取全局特征；再次采用人工设计特征提取人工设计特征，输入AE网络中；

(3)搭建网络模型：首先构建了基于CNN网络、LSTM网络、AE网络网络的混合神经网络模型，实现不同特征的互补，从特征层面确保模型的性能，然后利用网络中的无监督误差、半监督误差及监督误差对实现反向微调的过程：

A.首先，将(2)中提取的语音特征作为输入发送(3)中构建的混合神经网络，其中该输入特征中包含了大量的无标签数据和少量的有标签数据，并对无标记数据的AE特征进行加噪，于是得到加噪后的数据如公式并(1)所示，将其作为强增强数据同时输入网络，于是网络的输入数据可以用公式(2)表示：

X＝{x_l,x_{u_weak},x_{u_strong}} (2)

其中，

为加噪后输入AE的人工统计特征，

为随机噪声，x_l所代表的是少量的有标签数据，而x_{u_weak}、x_{u_strong}分别同一批数据的弱增强版本和强增强版本的无标签数据；

B.本发明中提取深层语音谎言特征之后，先利用少量的有标签数据训练模型，并对弱增强数据进行伪标签的生成，然后计算强增强数据的预测，并采用交叉熵损失对模型训练，最后结合AE的重构损失，对模型进行反复的训练，以生成置信度最高的伪标签用于模型反复训练，其中本发明的伪标签选择的约束条件使用以下公式表示：

max(P(y'|x；θ))＞τ (3)

其中P(y'|x；θ)表示网络对弱增强无标签数据的标签预测输出，当输出最大概率大于所设置的阈值τ时，将该预测标签作为伪标签用于网络训练；

(4)将构建的三种不同的网络提取的不同特征输出进行深层融合，该过程保留语音中更丰富的谎言信息；

(5)本发明所提方法的优化过程由三部分误差函数共同实现，其中，利用AE对数据进行重构的功能，构建了AE的输入特征与重构特征之间的误差，同时利用模型为无标记数据生成伪标签，并获取伪标签预测误差，另外根据少量的有标签数据获取模型的监督识别误差。根据三部分的误差对网络进行训练，重复以上过程得到最佳语音测谎识别方法；

(6)分类识别输出：将步骤(4)得到的融合后的特征送入全连接层，并采用有标签的数据通过softmax层进行识别分类，该过程可以表示为：

y_pre＝f(W·c+b) (7)

其中，c是三个网络模块输出特征的融合数据集合，y_pre是融合后数据经分类器后的分类结果，W，b分别是编码网络与分类器间的权重和偏置；

(7)为优化该发明提出的方法，采用梯度下降法来最小化误差函数(无监督重构误差、伪标签预测误差、有监督识别误差)，并根据误差函数进行网络参数的调整，此外，采用余弦退火衰减学习率对学习率进行调整，原理如公式(7)，以使该发明所提出的语音测谎方法性能达到最佳，全部损失用公式(8)表示；

L_all＝L_S+L_U+L_R (9)

附图说明

图1为一种基于多监督多特征融合的语音测谎方法结构图，图2为Alexnet结构图，图3为Bi-LSTM结构图，图4为AE结构图，图5为伪标签生成过程图。

具体实施方式

下面结合具体实施方式对本发明做更进一步的说明。

本发明提出的是一种基于多监督多特征的语音测谎方法，针对在语音测谎领域存在的难题提出了可行性的解决方法，步骤如下：

X＝{x_l,x_{u_weak},x_{u_strong}} (2)

其中，

为加噪后输入AE的人工统计特征，

max(P(y'|x；θ))＞τ (3)

y_pre＝f(W·c+b) (7)

L_all＝L_S+L_U+L_R (9)

为了验证所提出的一种基于多监督多特征融合的语音测谎方法，本发明的验证在Interview和CSC谎言语料库上进行实验。其中，Interview库共包含真话477条，谎言891条，合计1368条语音。在本发明中，将训练集与测试集按照约9:1的比例划分，并且在测试集中仅选择150、300条有标签语音进行训练。CSC谎言语料库包含有5411条语音(谎言为2209条，真话为3202条)。在本发明中，将训练集与测试集按照约9:1的比例划分，并且在测试集中仅选择500、1000条有标签语音进行训练。首先，3D-Mel谱图特征、帧级特征、384维静态特征分别输入到Alexnet、Bi-LSTM、AE用于深度特征的提取。特别地，Alexnet两层全连接层的输出节点分别为2048和2(类别数)；Bi-LSTM模块隐层神经节点数设置为512，层数为2；AE为最简单的三层自编码器，每层的节点数为(384,64),(64,384)，且对无标记的384维静态特征添加系数为0.3的随机噪声。其次，在伪标签的选择上，本文将最大概率阈值选择为0.80，假如预测概率超过该阈值，则保留该伪标签。最后，通过Adam优化器最小化误差函数对模型进行优化，学习率设置为0.0000005。本发明提出的方法性能将用准确率进行评估，在每次的训练过程中，迭代次数为512，批次大小为32。为保证模型的有效性，模型进行10次的训练，并将10次训练的平均值作为最终的识别率。仿真实验结果表明：所提方法能够有效降低模型对有标签数据的依赖，在相同有标签数据的情况下，识别性能显著优于现有诸多方法。

Claims

1.一种基于多监督多特征融合的语音测谎方法，其特征在于，包括以下步骤：

X＝{x_l,x_{u_weak},x_{u_strong}} (2)

其中，

为加噪后输入AE的人工统计特征，

max(P(y'|x；θ))＞τ (3)

(5)本发明所提方法的优化过程由三部分误差函数共同实现，其中，利用AE对数据进行重构的功能，构建了AE的输入特征与重构特征之间的误差，同时利用模型为无标记数据生成伪标签，并获取伪标签预测误差，另外根据少量的有标签数据获取模型的监督识别误差；根据三部分的误差对网络进行训练，重复以上过程得到最佳语音测谎识别方法；

y_pre＝f(W·c+b) (7)

L_all＝L_S+L_U+L_R (9)。