CN113870869A - 一种基于样本不均衡的半监督语音测谎方法 - Google Patents

一种基于样本不均衡的半监督语音测谎方法 Download PDF

Info

Publication number
CN113870869A
CN113870869A CN202111125089.0A CN202111125089A CN113870869A CN 113870869 A CN113870869 A CN 113870869A CN 202111125089 A CN202111125089 A CN 202111125089A CN 113870869 A CN113870869 A CN 113870869A
Authority
CN
China
Prior art keywords
data
formula
voice
lie
enhancement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111125089.0A
Other languages
English (en)
Inventor
刘曼
庄志豪
白雪杰
于航
陶华伟
傅洪亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN202111125089.0A priority Critical patent/CN113870869A/zh
Publication of CN113870869A publication Critical patent/CN113870869A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公布了一种基于样本不均衡的半监督语音测谎方法,本发明包括以下步骤:首先,将大量包含未标记的语音数据与少量有标签语音数据输入网络,并对未标记数据进行不同程度的数据增强处理;然后,利用特征的互补性,提取语音信号中包含的谎言特征,并将不同网络提取到包含不同谎言信息的特征深层融合;其次,根据网络对低程度增强的未标记数据进行伪标签预测与筛选,并求解样本权重用于高程度增强数据的输出预测;最后,通过优化网络中的目标函数训练得到最佳网络。本发明所提出的一种基于样本不均衡的半监督语音谎言检测方法,能够为未标记数据生成有效的伪标签,并降低了因样本不均衡导致的模型性能变差的问题,非常具有实用意义。

Description

一种基于样本不均衡的半监督语音测谎方法
技术领域
本发明属于语音信号处理技术领域,具体涉及到一种基于样本不均衡的半监督语音测谎方法。
背景技术
说谎是一种常见的有意传递错误信息的交流方式,主要通过语音传达错误信息。谎言对于心理学、少儿教育、刑事侦查等领域的研究具有至关重要的作用,因此如何通过简单有效的方式进行谎言检测是研究的重点。早期针对测谎的研究主要是通过生理参数的变化判断,该方法虽然有一定的效果,但是相关信息的采集设备较为复杂,受试者容易产生抵触心理,导致测谎结果有误。后来,为降低这种影响,一些研究人员提出利用语音进行测谎。这种方法的优点是数据采集的过程不需要大型设备解除采集,通过录音设备就可完成,隐蔽性强,且样本容易获取,结果也相对客观。因此,基于语音谎言检测的研究受到了广泛的关注。
近些年,针对语音谎言检测的相关研究中,语音特征提取和数据库构建是最重要的两个研究方向。如何能够从语音中提取更能表征谎言信息的特征,是语音谎言检测系统具有高性能识别能力的关键。另外,谎言语料库是谎言检测系统设计的基本模块,即首先需要从语料库中提取语音特征用于模型训练。然而,目前谎言语料库数公开数据库少,据量小,标签获取困难以及谎言与真话样本不均衡的问题突出,这一问题给谎言检测研究带来了巨大的压力。因此,在样本不均衡和标签数据不充分的情况下,如何提取更具表征能力的谎言特征是研究的重点。
基于以上的分析,本发明开展针对谎言样本不均衡及半监督识别模型的研究,旨在降低样本不均衡对模型预测能力的影响,并降低模型对有标签谎言语料库的依赖,进而提升模型识别性能。本研究首先构建提取深度谎言特征的混合神经网络模型,以达到特征相互补充的目的;其次,对提取到的不同类型的特征经全连接层进行融合,并利用低程度增强的无标签数据的预测输出与概率阈值的关系,为为标记数据生成预测标签,并将该标签作为真实标签用于网络训练;最后,结合各部分损失,通过优化器对模型进行优化,以得到性能最佳的网络模型。
发明内容
基于样本不均衡的研究在图像分类中有良好的性能,但是语音测谎与这些领域的分类任务不同,根据语音测谎的特点,将基础网络进行改进,使其可以实现对无标记输入数据的高置信度伪标签的预测,并根据样本权重给每个样本进行加权操作,然后提升网络模型的预测能力。于是,一种基于样本不均衡的半监督语音测谎方法,具体步骤如下:
(1)提取语音谎言特征:对语音数据进行分帧加窗等预处理操作,并提取其中的Mel谱特征和人工统计特征;
(2)数据增强:采取对人工统计特征进行添加随机噪声方式实现数据增强的过程,将该特征与Mel特征组合为两种不同程度增强的无标签数据:低程度增强输入与高程度增强输入,有标签数据同样进行低程度的数据增强;
Figure BDA0003278590170000021
其中,
Figure BDA0003278590170000022
为加噪后输入AE的人工统计特征,同理
Figure BDA0003278590170000023
为加噪输入AE的人工统计特征,
Figure BDA0003278590170000024
为随机噪声,α为添加噪声的系数;
(3)构建网络模型:构建了用于提取Mel谱特征以及人工统计特征的基础网络,并将步骤(2)中的特征X按批次输入网络,X如公式(2)所示:
X={Xl,Xu_W,Xu_S} (2)
公式(2)中,Xl、Xu_W、Xu_S分别有标签输入特征、无标签低程度数据增强特征、无标签高程度数据增强特征,Xu_W、Xu_S为同一批无标记数据的增强数据,每一部分的特征均由Mel谱特征和人工统计特征组成;
(4)语音特征深度融合:将步骤(3)中提取到的特征以拼接的方式进行融合,融合后的特征如公式(3)所示:
F=[F1,F2,F3] (3)
F1、F2、F3分别为步骤(3)中提取的特征,F为融合后的深层特征;
(5)预测输出:步骤(4)中的融合特征,包含了更丰富的谎言信息,然后将该特征输入到softmax分类器,输出每个样本的类别概率,概率计算公式如公式(4);
Figure BDA0003278590170000025
(6)损失计算:对于步骤(5)中的预测输出,共分为四个部分:有标签的预测输出、无标签低程度增强数据的预测输出预测输出、无标签高程度增强数据的预测输出预测输出、所有数据的人工统计特征重构特征,损失函数计算过程如下:
A.有标签的预测与标签之间进行交叉熵损失计算,如公式(5)所示:
Figure BDA0003278590170000031
B.无标签低程度增强数据的预测根据概率与本发明所设置的阈值比较,将概率高于该阈值的输出作为伪标签,该过程的约束条件使用公式(6)所示:
max(P(y'|x;θ))>τ (6)
P(y'|x;θ)为输出概率,τ为阈值;
C.为解决样本的不均衡问题,本发明根据B中获取的伪标签求解每个样本在该批次的权重,然后利用该权重值,计算强增强数据的预测,该预测值可以由公式(7)表示,并采用交叉熵损失对模型训练,如公式(8)所示:
p′u_s=W·pu_s (7)
Figure BDA0003278590170000032
其中,公式(7)中p'u_s为样本权重与强增强概率的相乘结果;
D.人工统计特征经经过自编码器进行冗余信息压缩后再完成重构,这一过程的损失采用二值交叉熵计算,如公式(9)所示:
Figure BDA0003278590170000033
(7)网络模型优化:本发明最终的优化过程通过结合步骤(6)中的三部分损失实现,将三部分损失结合,如公式(10)所示,对网络实现反向微调,依次优化网络模型。
Figure BDA0003278590170000034
附图说明
图1为一种基于样本不均衡的半监督语音测谎方法结构图。
具体实施方式
下面结合具体实施方式对本发明做更进一步的说明。
本发明提出的是一种基于样本不均衡的半监督语音测谎方法,针对在语音测谎领域存在的难题提出了可行性的解决方法,步骤如下:
(1)提取语音谎言特征:对语音数据进行分帧加窗等预处理操作,并提取其中的Mel谱特征和人工统计特征;
(2)数据增强:采取对人工统计特征进行添加随机噪声方式实现数据增强的过程,将该特征与Mel特征组合为两种不同程度增强的无标签数据:低程度增强输入与高程度增强输入,有标签数据同样进行低程度的数据增强;
Figure BDA0003278590170000041
其中,
Figure BDA0003278590170000042
为加噪后输入AE的人工统计特征,同理
Figure BDA0003278590170000043
为加噪输入AE的人工统计特征,
Figure BDA0003278590170000044
为随机噪声,α为添加噪声的系数;
(3)构建网络模型:构建了用于提取Mel谱特征以及人工统计特征的基础网络,并将步骤(2)中的特征X按批次输入网络,X如公式(2)所示:
X={Xl,Xu_W,Xu_S} (2)
公式(2)中,Xl、Xu_W、Xu_S分别有标签输入特征、无标签低程度数据增强特征、无标签高程度数据增强特征,Xu_W、Xu_S为同一批无标记数据的增强数据,每一部分的特征均由Mel谱特征和人工统计特征组成;
(4)语音特征深度融合:将步骤(3)中提取到的特征以拼接的方式进行融合,融合后的特征如公式(3)所示:
F=[F1,F2,F3] (3)
F1、F2、F3分别为步骤(3)中提取的特征,F为融合后的深层特征;
(5)预测输出:步骤(4)中的融合特征,包含了更丰富的谎言信息,然后将该特征输入到softmax分类器,输出每个样本的类别概率,概率计算公式如公式(4);
Figure BDA0003278590170000045
(6)损失计算:对于步骤(5)中的预测输出,共分为四个部分:有标签的预测输出、无标签低程度增强数据的预测输出预测输出、无标签高程度增强数据的预测输出预测输出、所有数据的人工统计特征重构特征,损失函数计算过程如下:
A.有标签的预测与标签之间进行交叉熵损失计算,如公式(5)所示:
Figure BDA0003278590170000046
B.无标签低程度增强数据的预测根据概率与本发明所设置的阈值比较,将概率高于该阈值的输出作为伪标签,该过程的约束条件使用公式(6)所示:
max(P(y'|x;θ))>τ (6)
P(y'|x;θ)为输出概率,τ为阈值;
C.为解决样本的不均衡问题,本发明根据B中获取的伪标签求解每个样本在该批次的权重,然后利用该权重值,计算强增强数据的预测,该预测值可以由公式(7)表示,并采用交叉熵损失对模型训练,如公式(8)所示:
p′u_s=W·pu_s (7)
Figure BDA0003278590170000051
其中,公式(7)中p'u_s为样本权重与强增强概率的相乘结果;
D.人工统计特征经经过自编码器进行冗余信息压缩后再完成重构,这一过程的损失采用二值交叉熵计算,如公式(9)所示:
Figure BDA0003278590170000052
(7)网络模型优化:本发明最终的优化过程通过结合步骤(6)中的三部分损失实现,将三部分损失结合,如公式(10)所示,对网络实现反向微调,依次优化网络模型。
Figure BDA0003278590170000053
为了验证所提出的一种基于样本不均衡的半监督语音测谎方法,本发明的验证在自建的Interview库和公开库CSC谎言语料库上进行实验。其中,Interview库共包含1368条语音,真话477条,谎言891条,真话与谎言比例接近1:2。在本发明中,将训练集与测试集按照约9:1的比例划分,并且在测试集中仅选择150、300条有标签语音进行训练。CSC谎言语料库包含有5411条语音,真话为3202条,谎言为2209条,真话与谎言的比例约为3:2。在本发明中,将训练集与测试集按照约9:1的比例划分,并且在测试集中仅选择500、1000条有标签语音进行训练。首先,采用混合神经网络提取不同类型的语音谎言特征。其次,在伪标签的选择上,本文将最大概率阈值选择为0.90,当低程度增强的为标记数据的预测概率高于阈值时,则保留该伪标签。最后,通过Adam优化器最小化误差函数对模型进行优化,并对网络实现反向微调,以得到最佳网络。本发明提出的方法性能将用准确率进行评估,在每次的训练过程中,迭代次数为512,批次大小为32。为保证模型的有效性,模型进行10次的训练,并将10次训练的平均值作为最终的识别率。仿真实验结果表明:本发明所提方法能够有效降低样本不均衡带来导致模型预测能力降低的问题,并且充分利用了无标签数据,降低对有标签数据的依赖,在相同有标签数据的情况下,本发明达到了最先进的识别性能。
本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims (1)

1.一种基于样本不均衡的半监督语音测谎方法,其特征在于,包括以下步骤:
(1)提取语音谎言特征:对语音数据进行分帧加窗等预处理操作,并提取其中的Mel谱特征和人工统计特征;
(2)数据增强:采取对人工统计特征进行添加随机噪声方式实现数据增强的过程,将该特征与Mel特征组合为两种不同程度增强的无标签数据:低程度增强输入与高程度增强输入,有标签数据同样进行低程度的数据增强;
Figure FDA0003278590160000015
其中,
Figure FDA0003278590160000011
为加噪后输入AE的人工统计特征,同理
Figure FDA0003278590160000012
为加噪输入AE的人工统计特征,
Figure FDA0003278590160000013
为随机噪声,α为添加噪声的系数;
(3)构建网络模型:构建了用于提取Mel谱特征以及人工统计特征的基础网络,并将步骤(2)中的特征X按批次输入网络,X如公式(2)所示:
X={Xl,Xu_W,Xu_S} (2)
公式(2)中,Xl、Xu_W、Xu_S分别有标签输入特征、无标签低程度数据增强特征、无标签高程度数据增强特征,Xu_W、Xu_S为同一批无标记数据的增强数据,每一部分的特征均由Mel谱特征和人工统计特征组成;
(4)语音特征深度融合:将步骤(3)中提取到的特征以拼接的方式进行融合,融合后的特征如公式(3)所示:
F=[F1,F2,F3] (3)
F1、F2、F3分别为步骤(3)中提取的特征,F为融合后的深层特征;
(5)预测输出:步骤(4)中的融合特征,包含了更丰富的谎言信息,然后将该特征输入到softmax分类器,输出每个样本的类别概率,概率计算公式如公式(4);
Figure FDA0003278590160000014
(6)损失计算:对于步骤(5)中的预测输出,共分为四个部分:有标签的预测输出、无标签低程度增强数据的预测输出预测输出、无标签高程度增强数据的预测输出预测输出、所有数据的人工统计特征重构特征,损失函数计算过程如下:
A.有标签的预测与标签之间进行交叉熵损失计算,如公式(5)所示:
Figure FDA0003278590160000021
B.无标签低程度增强数据的预测根据概率与本发明所设置的阈值比较,将概率高于该阈值的输出作为伪标签,该过程的约束条件使用公式(6)所示:
max(P(y'|x;θ))>τ (6)
P(y'|x;θ)为输出概率,τ为阈值;
C.为解决样本的不均衡问题,本发明根据B中获取的伪标签求解每个样本在该批次的权重,然后利用该权重值,计算强增强数据的预测,该预测值可以由公式(7)表示,并采用交叉熵损失对模型训练,如公式(8)所示:
p′u_s=W·pu_s (7)
Figure FDA0003278590160000022
其中,公式(7)中p'u_s为样本权重与强增强概率的相乘结果;
D.人工统计特征经经过自编码器进行冗余信息压缩后再完成重构,这一过程的损失采用二值交叉熵计算,如公式(9)所示:
Figure FDA0003278590160000023
(7)网络模型优化:本发明最终的优化过程通过结合步骤(6)中的三部分损失实现,将三部分损失结合,如公式(10)所示,对网络实现反向微调,依次优化网络模型;
lall=lS+lU+lR (10)。
CN202111125089.0A 2021-09-25 2021-09-25 一种基于样本不均衡的半监督语音测谎方法 Pending CN113870869A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111125089.0A CN113870869A (zh) 2021-09-25 2021-09-25 一种基于样本不均衡的半监督语音测谎方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111125089.0A CN113870869A (zh) 2021-09-25 2021-09-25 一种基于样本不均衡的半监督语音测谎方法

Publications (1)

Publication Number Publication Date
CN113870869A true CN113870869A (zh) 2021-12-31

Family

ID=78994135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111125089.0A Pending CN113870869A (zh) 2021-09-25 2021-09-25 一种基于样本不均衡的半监督语音测谎方法

Country Status (1)

Country Link
CN (1) CN113870869A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114692976A (zh) * 2022-04-01 2022-07-01 重庆大学 基于半监督图嵌入框架的出行意图预测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114692976A (zh) * 2022-04-01 2022-07-01 重庆大学 基于半监督图嵌入框架的出行意图预测方法
CN114692976B (zh) * 2022-04-01 2024-05-07 重庆大学 基于半监督图嵌入框架的出行意图预测方法

Similar Documents

Publication Publication Date Title
CN109934261B (zh) 一种知识驱动参数传播模型及其少样本学习方法
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN108062753B (zh) 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN112820301B (zh) 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法
CN104700100A (zh) 面向高空间分辨率遥感大数据的特征提取方法
CN111368142A (zh) 一种基于生成对抗网络的视频密集事件描述方法
CN112766378A (zh) 一种专注细粒度识别的跨域小样本图像分类模型方法
CN111428481A (zh) 一种基于深度学习的实体关系抽取方法
CN113988079A (zh) 一种面向低数据的动态增强多跳文本阅读识别处理方法
CN111008570B (zh) 一种基于压缩-激励伪三维网络的视频理解方法
CN114818703A (zh) 基于BERT语言模型和TextCNN模型的多意图识别方法及系统
CN116821291A (zh) 基于知识图谱嵌入与语言模型交替学习的问答方法及系统
CN113851112A (zh) 一种基于多监督多特征融合的语音测谎方法
CN113870869A (zh) 一种基于样本不均衡的半监督语音测谎方法
CN116312484B (zh) 跨语言域不变声学特征提取方法和系统
CN116778233B (zh) 一种基于图神经网络的不完全深度多视图半监督分类方法
CN110705638A (zh) 一种利用深度网络学习模糊信息特征技术的信用评级预测分类方法
CN115577111A (zh) 基于自注意力机制的文本分类方法
CN115329821A (zh) 一种基于配对编码网络和对比学习的舰船噪声识别方法
CN113887504A (zh) 强泛化性的遥感图像目标识别方法
Sravani et al. Multimodal Sentimental Classification using Long-Short Term Memory
CN117493568B (zh) 一种端到端软件功能点提取与识别方法
CN115563974A (zh) 一种基于上下文感知自适应卷积网络的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211231