CN110246509A - 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构 - Google Patents

一种用于语音测谎的栈式去噪自编码器及深度神经网络结构 Download PDF

Info

Publication number
CN110246509A
CN110246509A CN201910518672.4A CN201910518672A CN110246509A CN 110246509 A CN110246509 A CN 110246509A CN 201910518672 A CN201910518672 A CN 201910518672A CN 110246509 A CN110246509 A CN 110246509A
Authority
CN
China
Prior art keywords
feature
network
voice
encoding encoder
lie
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910518672.4A
Other languages
English (en)
Other versions
CN110246509B (zh
Inventor
方元博
傅洪亮
雷沛之
姜芃旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN201910518672.4A priority Critical patent/CN110246509B/zh
Publication of CN110246509A publication Critical patent/CN110246509A/zh
Application granted granted Critical
Publication of CN110246509B publication Critical patent/CN110246509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

现有的语音谎言检测算法常采用的特征是组合特征,特征冗余较大,针对这一问题,本发明公布了一种面向语音谎言检测的栈式去噪自编码及深度神经网络(SDAE‑DNN)结构。它包含有两层的编码和解码网络以及后接DNN网络。该结构首先使用两层去噪自编码结构降低特征的冗余,其中为了防止过拟合,在栈式去噪自编码器的每一个网络层都增加了dropout,然后采用一层DNN网络进一步学习特征,最后使用softmax分类器对网络进行微调,得到了更加具有表征性的特征,从而提升网络对于谎言的识别效果。

Description

一种用于语音测谎的栈式去噪自编码器及深度神经网络结构
技术领域
本发明属于语音信号处理技术领域,具体涉及到一种用于语音测谎的栈式去噪自编码器及深度神经网络结构。
背景技术
长期以来,心理学家对人类的欺骗行为及其检测一直很感兴趣。社会心理学研究已经证实说谎是日常社会交往的一个共同特征,但人们并不善于对谎言进行鉴别。谎言的识别对于防止电话诈骗、辅助刑侦案件处理以及情报分析有着重要的意义,因此对于测谎的研究是目前的研究热点。
在语音谎言检测领域,特征提取及分类识别是其核心步骤。目前,语音识别常采用的特征是组合特征,特征是否有效很大程度上依赖于经验和运气,而且组合特征的维数较大,直接使用会使识别器的计算量大大增加,还可能会遇到维数灾难和过拟合等问题。面对这些问题,常采用特征降维方法对特征进行预处理,常用的降维方法有主成分分析(Principal Comonent,PCA)、线性判别式分析(Linear Discriminiant Analysis,LDA)、局部线性嵌入(Locally linear embedding,LLE)。但以上的特征预处理方法对识别率虽有一定的提高,但还远远达不到人类识别的精度。因此,如何提高特征表征性并提高识别率,仍然亟待研究。
因此本发明主要关注于提取了表征性更好的特征以实现更优秀的语音测谎工作。
发明内容:
由于DNN是高度非线性且非凸的,初始化点可能很大程度地影响最终网络的效果。输入到DNN的数据影响着最终的分类效果。针对单一DNN结构影响语音谎言识别率的问题,本文提出一种结合栈式去噪自编码器和深度神经网络的结构。原始特征经过栈式去噪自编码器后,最终得到的特征维度较小,更有表征性。在DNN之前经过训练好的SDAE的处理,可看作对DNN进行预训练。也就是把SDAE的最后一个去噪自编码器的编码权重矩阵当作DNN第一个隐藏层的权重矩阵,这样相当于把DNN权重调整到一个较好的初始点。并潜在的使用生成性预训练准则正则化DNN训练过程,从而加速训练过程,节约时间成本,优化DNN的识别效果。
“SDAE-DNN”结构中的栈式去噪自编码器是提前训练完成的。具体步骤可分为预训练和微调,前者为无监督贪婪逐层训练,该方式比随机初始化更加合理有效。提高了梯度传播的效率。后者根据标签及softmax分类器输出的结果对比进行有监督训练,进一步的,与语音情感识别的多分类不同,语音测谎只需要判断出该语音是真话还是谎言即可,这样在训练样本较小的情况下会产生过拟合,因此我们谨慎的在SDAE的每层都加入一定比率的dropout使某些隐层神经单元以一定的概率暂停工作,达到防止过拟合的作用,这个改动对于正确率的提升也十分重要。此外,在网络中我们使用批归一化以达到加速训练的作用。利用反向传播算法进行权重矩阵w和偏置向量b参数的更新,完成微调获得更加强健的SDAE结构。参数更新公式如下所示:
其中α为学习率,为误差函数。
该结构中的DNN的输入即为SDAE的输出结果。DNN网络的目标是近似一个目标映射f,记为y=f(x,θ),对于分类神经网络来说,通过学习参数θ,使映射拟合各类别的边界。输入数据经过网络后,执行一系列的操作后,找到输出类概率,与真实标签比较,计算误差值,然后通过反向传播算法来最小化误差,以此更新参数,提高网络分类的准确率。利用DNN进行训练的过程分为前向传播和误差反向传播两个过程。前向传播时,每一层都可以表示为权重与神经元组成的向量相乘,再加偏差量。为了对高度非线性问题进行有效建模,需要对各层添加非线性激活函数。首先,计算加权输入信号和偏置的总和记为a。
a=b+w1x1+w2x2
然后用非线性激活函数h将a转化为输出y。
y=h(a)
反向传播时,采用随机梯度下降算法更新权重和偏差。不断提高结构的识别效果。
附图说明:
图1为一种用于语音测谎的去噪自编码器原理图,图2为“SDAE-DNN”结构图。图3为“SDAE-DNN”训练测试流程图。
具体实施方式:
为了验证我们所提出的模型的性能,我们在CSC谎言语音库上进行试验。CSC谎言语料库是第一个由语言科学家设计和收集的谎言语料库。研究对象被招募到一个“交流实验”中,并被告知在欺骗中取得成功的能力代表了某些可取的个人品质,且研究试图找出符合美国25位“顶级企业家”。这些演讲以16千赫的速率采样,并根据标签分为5412个有效的演讲片段,包括2209个谎言,并最终得到约7h的谎言语音样本。本文从CSC库中剪切出5411条语音用于实验。
步骤一:去掉音质较低的部分后,从该库剪切出5411条语音进行实验,每条语音时长2s左右,包含了2209条谎言语音,将剪切出的语音中的4328条语音作为训练集,剩下的1083条语音作为测试集。
步骤二:语音特征是进行谎言识别的关键,我们使用的语音特征是2009年国际语音情感识别挑战赛的标准特征集。其中有2*16个低层描述子,如ZCR,HNR,,MFCC(1-12)等,以及12个描述函数,有均值,最大最小值,均方误差等,总的特征维数为2*16*12=384维,这个特征集包含了声学特征中使用最为广泛的特征和函数。我们使用开源工具包Opensmile从语音中提取这些特征,每条语音提取出的特征都为384维,共有5411条语音,因此数据总量为5411*384。
步骤三:首先我们将系数为0.3的高斯噪声加入语音,作为模型的输入数据。SDAE第一层网络神经单元数为120,第二层网络层数为30。预训练次数和学习率为300、0.001。通过与测试集标签对比,通过反向传播进行200次微调,其中反向传播学习率为0.001。我们选取正确率作为分类性能指标。这是语音测谎领域最常用的评价指标。对于每个模型,都进行10次试验并取这10次实验结果的平均值作为最终的结果。
步骤四:将经过训练好的SDAE重构的特征输入一层DNN进行网络识别。DNN隐层节点数为500,学习率为0.001,激活函数采用Sigmoid函数。
步骤五:为了进一步验证该算法的有效性。将所提算法与SVM以及“SDAE-SVM”分类器作对比,其中SVM的C值取1。每种算法都进行了10次实验并取平均值。各个分类器在不同谎言语料库的识别准确度如表1所示。
表1在CSC库上由不同分类器得到的平均正确率
分类器 CSC
SVM 59.8%
DNN 60.3%
SDAE-SVM 61.4%
SDAE-DNN 62.4%
由表1可看出本文设计的基于栈式去噪自编码器及深度神经网络结构相较于SVM、DNN以及“SDAE-SVM”算法在CSC语料库上的识别准确度分别提高了2.6%,2.1%和1.0%。栈式去噪自编码器结构可以从原始特征中学习到鲁棒性更好的特征,后接DNN进一步学习特征,相比直接使用DNN网络能够得到表征性更好的特征,并且加速训练过程。最后通过微调网络提高识别准确度,可以达到比现有常用算法更好的谎言识别效果。

Claims (1)

1.本发明公布了一种用于语音测谎的栈式去噪自编码及深度神经网络结构,其特征在于,包括以下步骤:
(1)语音预处理:将录制好的语音按谎言和真话分类并标记上数字标签,去除音质较低的部分并剪切成每一条时长为2s左右的短语音,之后对其进行分帧及加窗,为下一步提取特征做准备;
(2)特征提取:对预处理完毕后的语音数据,提取出MFCC,过零率,基频等语音特征,并进行归一化以便分类;
(3)栈式去噪自编码器装置:该装置由多层加性噪声自编码器和一个softmax分类器组成;编码网络和解码网络各两层,第一个隐层的神经单元数为120,第二个隐层的神经单元数为30,除了连接各隐层的权重外,根据谎言语音的特点,我们在每一隐层都增加了Elu激活函数,批归一化,dropout三个部分,并且在编码网络的末端连接了一个softmax分类器;假设输入的数据为x,首先对原始特征x添加干扰信息,如加入噪声或者类似dropout算法以一定概率擦除某些数据,得到特征为x′;
然后对特征进行编码:
h=σ(wx′+b)
接下来是解码:
z=σ(w′h+b′)
其中w、w′是权重矩阵,b、b′是偏置向量,σ是非线性激活函数;
去噪自编码器的目的是让误差函数η尽可能的小,以此得到表征性更好的特征;
栈式去噪自编码器就是多个去噪自编码器级联,以完成逐层特征提取的任务;
(4)深度神经网络装置:该装置由一层DNN网络组成,由装置(3)得到的特征输入到该装置中,通过softmax分类器对比测试集标签,进一步学习更深层次的特征。
CN201910518672.4A 2019-06-15 2019-06-15 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构 Active CN110246509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910518672.4A CN110246509B (zh) 2019-06-15 2019-06-15 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910518672.4A CN110246509B (zh) 2019-06-15 2019-06-15 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构

Publications (2)

Publication Number Publication Date
CN110246509A true CN110246509A (zh) 2019-09-17
CN110246509B CN110246509B (zh) 2021-07-13

Family

ID=67887458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910518672.4A Active CN110246509B (zh) 2019-06-15 2019-06-15 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构

Country Status (1)

Country Link
CN (1) CN110246509B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144303A (zh) * 2019-12-26 2020-05-12 华北电力大学(保定) 基于改进去噪自编码器的电力线信道传输特性识别方法
CN111508475A (zh) * 2020-04-16 2020-08-07 五邑大学 一种机器人唤醒的语音关键词识别方法、装置及存储介质
CN112562645A (zh) * 2020-12-09 2021-03-26 河南工业大学 一种基于自编码网络联合学习的语音测谎方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105427869A (zh) * 2015-11-02 2016-03-23 北京大学 一种基于深度学习的会话情感自动分析方法
US9371495B2 (en) * 2010-02-17 2016-06-21 Klaus Dahleke Kg Process for the production of naphthenic process oils by hydrogenation
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis
CN109247923A (zh) * 2018-11-15 2019-01-22 中国科学院自动化研究所 基于视频的非接触式脉搏实时估计方法及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9371495B2 (en) * 2010-02-17 2016-06-21 Klaus Dahleke Kg Process for the production of naphthenic process oils by hydrogenation
CN105427869A (zh) * 2015-11-02 2016-03-23 北京大学 一种基于深度学习的会话情感自动分析方法
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis
CN109247923A (zh) * 2018-11-15 2019-01-22 中国科学院自动化研究所 基于视频的非接触式脉搏实时估计方法及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JUN DENG ET AL: "Autoencoder-based Unsupervised Domain Adaptation for Speech Emotion Recognition", 《IEEE SIGNAL PROCESSING LETTERS》 *
JUN DENG ET AL: "Semisupervised Autoencoders for Speech Emotion Recognition", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
周燕: "基于语音稀疏表示的谎言检测研究", 《中国博士学位论文全文数据库 信息科技辑》 *
雷沛之等: "基于去噪自编码器的语音情感识别", 《计算机与网络》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144303A (zh) * 2019-12-26 2020-05-12 华北电力大学(保定) 基于改进去噪自编码器的电力线信道传输特性识别方法
CN111508475A (zh) * 2020-04-16 2020-08-07 五邑大学 一种机器人唤醒的语音关键词识别方法、装置及存储介质
CN111508475B (zh) * 2020-04-16 2022-08-09 五邑大学 一种机器人唤醒的语音关键词识别方法、装置及存储介质
CN112562645A (zh) * 2020-12-09 2021-03-26 河南工业大学 一种基于自编码网络联合学习的语音测谎方法
CN112562645B (zh) * 2020-12-09 2023-11-14 河南工业大学 一种基于自编码网络联合学习的语音测谎方法

Also Published As

Publication number Publication date
CN110246509B (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
Chen et al. Extracting speaker-specific information with a regularized siamese deep network
CN107293302A (zh) 一种用于语音测谎系统中的稀疏谱特征提取方法
Cakir et al. Multi-label vs. combined single-label sound event detection with deep neural networks
CN106952643A (zh) 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
CN110070895B (zh) 一种基于监督变分编码器因素分解的混合声音事件检测方法
CN110246509A (zh) 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构
CN106991312B (zh) 基于声纹识别的互联网反欺诈认证方法
CN112417132B (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
CN110009025A (zh) 一种用于语音测谎的半监督加性噪声自编码器
CN111859010A (zh) 一种基于深度互信息最大化的半监督音频事件识别方法
Khdier et al. Deep learning algorithms based voiceprint recognition system in noisy environment
CN112528920A (zh) 一种基于深度残差网络的宠物图像情绪识别方法
CN115240651A (zh) 一种基于特征融合的陆空通话说话人角色识别方法及装置
Boishakhi et al. Multi-modal hate speech detection using machine learning
CN115101076B (zh) 一种基于多尺度通道分离卷积特征提取的说话人聚类方法
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
Lei et al. Speaker Recognition Using Wavelet Cepstral Coefficient, I‐Vector, and Cosine Distance Scoring and Its Application for Forensics
CN112466284B (zh) 一种口罩语音鉴别方法
Shekofteh et al. MLP-based isolated phoneme classification using likelihood features extracted from reconstructed phase space
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法
CN116434759A (zh) 一种基于srs-cl网络的说话人识别方法
Rashno et al. Highly efficient dimension reduction for text-independent speaker verification based on relieff algorithm and support vector machines
CN114547264A (zh) 一种基于马氏距离和对比学习的新意图数据识别方法
Guoqiang et al. A noise classification algorithm based on SAMME and BP neural network
CN112463965A (zh) 一种对文本的语义理解的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Fang Yuanbo

Inventor after: Tao Huawei

Inventor after: Fu Hongliang

Inventor after: Lei Peizhi

Inventor after: Jiang Pixu

Inventor before: Fang Yuanbo

Inventor before: Fu Hongliang

Inventor before: Lei Peizhi

Inventor before: Jiang Pixu

GR01 Patent grant
GR01 Patent grant