CN108520753B - 基于卷积双向长短时记忆网络的语音测谎方法 - Google Patents

基于卷积双向长短时记忆网络的语音测谎方法 Download PDF

Info

Publication number
CN108520753B
CN108520753B CN201810159072.9A CN201810159072A CN108520753B CN 108520753 B CN108520753 B CN 108520753B CN 201810159072 A CN201810159072 A CN 201810159072A CN 108520753 B CN108520753 B CN 108520753B
Authority
CN
China
Prior art keywords
voice
lie detection
lie
memory network
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810159072.9A
Other languages
English (en)
Other versions
CN108520753A (zh
Inventor
谢跃
梁瑞宇
赵力
包永强
唐闺臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN201810159072.9A priority Critical patent/CN108520753B/zh
Publication of CN108520753A publication Critical patent/CN108520753A/zh
Application granted granted Critical
Publication of CN108520753B publication Critical patent/CN108520753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于卷积双向长短时记忆网络的语音测谎方法,包括将整段语音进行统一归一化处理;根据数据库标签对统一归一化处理的语音进行切分;对切分的语音加窗分帧处理;建立变长数据的计算方式;将卷积操作引入长短时记忆网络中;构建完整的语音测谎网络模型;训练语音测谎网络模型,并加窗分帧处理后的语音进行测谎评测。本发明通过将卷积操作引入长短时记忆网络中,构建完整的语音测谎网络模型,实现深度学习,从原始语音数据中提取适用于谎言检测的特征,以提高谎言检测的性能,具有良好的应用前景。

Description

基于卷积双向长短时记忆网络的语音测谎方法
技术领域
本发明涉及语音测谎技术领域,具体涉及一种基于卷积双向长短时记忆网络的语音测谎方法。
背景技术
我们知道,相比于正常状态下,人在说谎时会引起声压、语气、语速、停顿时间和发声器官微小变化,进而导致语音中某些特征参数的变化,因此,通过监测这些变化可以实现谎言分析与检测。虽然,谎言检测的研究由来已久,但是专注于以语音特征为线索的谎言检测研究的相关成果较少,因此,具有重要的理论研究价值。此外,语音特征测谎,具有测试过程简单隐蔽,可对不在场人员进行远程检测,设备造价低等优点,具有重要的应用价值。
1991年,Ekman等人通过采访影视片段观后感的方式采集真谎话语料,通过对语料的基频特征进行统计分析,发现说谎语音段与说真话语音段相比较,基频有明显提升。1996年,Hansen等人用梅尔频率倒谱系数(Mel-Frequency Cepstrum Coefficients,MFCC),以及MFCC的一阶差分、二阶差分、自相关、互相关构造出一组特征,以神经网络的方法为分类器对特定说话人的声音分11个压力等级进行研究,结果表明,与平和状态相比,以上特征在压力状态下的变化反应了声道发音器官的微抖动。2003年,DePaulo等人对前期研究进行了汇总分析,对现有测谎研究工作中提出的158种特征进行分析研究。结果表明,其中有23种特征表现较为明显,包括16种语音及语言相关特征,如相较于说真话,人在说谎话时会出现说话时长变短、表述细节变少、重复变多、基频变高等现象。在语音测谎研究方面,美国哥伦比亚大学研究团队录制了专业的数据库,并将词汇特征与声学特征相结合,采用BayesNet分类器,获得了64.7%的识别率。
上述工作推动了语音测谎的研究,但是,也存在一些值得深入研究的问题,具体如下:
(1)现有的众多语音特征与谎言的映射关系尚不明确;
(2)从原始语音到语音特征的提取过程必然导致信息的损失,而损失的信息对最终的谎言检测效果是否有影响也是未知的;
(3)从分类算法看,早期的分类算法效果很大程度上依赖人为提取的语音特征,算法本身不具有特征学习能力。
如何克服上述的问题,是当前需要解决的。
发明内容
本发明的目的是克服现有的语音测谎存在的问题。本发明的基于卷积双向长短时记忆网络的语音测谎方法,通过将卷积操作引入长短时记忆网络中,构建完整的语音测谎网络模型,实现深度学习,从原始语音数据中提取适用于谎言检测的特征,以提高谎言检测的性能,具有良好的应用前景。
为了达到上述目的,本发明所采用的技术方案是:
一种基于卷积双向长短时记忆网络的语音测谎方法,包括以下步骤,
步骤(A),将整段语音进行统一归一化处理;
步骤(B),根据数据库标签对统一归一化处理的语音进行切分;
步骤(C),对切分的语音加窗分帧处理;
步骤(D),建立变长数据的计算方式;
步骤(E),将卷积操作引入长短时记忆网络中;
步骤(F),构建完整的语音测谎网络模型;
步骤(G),训练语音测谎网络模型,并加窗分帧处理后的语音进行测谎评测。
前述的基于卷积双向长短时记忆网络的语音测谎方法,步骤(A),将整段语音进行统一归一化处理,归一化后整段语音的范围是[-1,1],归一化前后的整段语音在数值为零处所表达的物理意义不变,均是无声段。
前述的基于卷积双向长短时记忆网络的语音测谎方法,步骤(B),根据数据库标签对统一归一化处理的语音进行切分,所述数据库为语音学家建立的用于研究语音谎言检测的专业数据库。
前述的基于卷积双向长短时记忆网络的语音测谎方法,步骤(C),对切分的语音加窗分帧处理,增加的窗函数为hamming窗W(n,α),其的计算公式如下,
W(n,α)=(1-α)-αcos(2πn/(n-1)),0≤n≤N-1
其中,α取值0.46,N为n的取值范围,表示Hamming窗的长度。
前述的基于卷积双向长短时记忆网络的语音测谎方法,步骤(D),建立变长数据的计算方式,先在不等长的语音数据结尾处补零至相同长度,在网络计算中,补零后语音数据的实际有效长度通过每帧数据的绝对值求和并判断是否为零来获得。
前述的基于卷积双向长短时记忆网络的语音测谎方法,步骤(E),将卷积操作引入长短时记忆网络中,通过以下公式得到,
ft=σ(Wfh*ht-1+Wfx*xt+WfcCt-1+bf)
it=σ(Wih*ht-1+Wix*xt+WicCt-1+bi)
Figure BDA0001582363240000041
Figure BDA0001582363240000042
Figure BDA0001582363240000045
Figure BDA0001582363240000046
其中,*表示卷积、
Figure BDA0001582363240000047
表示Hadamard乘积;Wfh、Wfx、Wfc分别为遗忘门ft的隐层、输入与细胞状态的权值,bf为遗忘门ft的偏置;Wih、Wix、Wic分别为信息更新值it中的隐层、输入与细胞状态的权值,bi为信息更新值it的偏置;Wch、Wcx分别为细胞状态更新值
Figure BDA0001582363240000044
的隐层与输入的权值,bc为细胞状态更新值
Figure BDA0001582363240000043
的偏置;Woh、Wox、Woc分别为输出值ot中的隐层、输入与细胞状态的权值,bo为输出值ot的偏置;下标t为时间步,对应特征中的帧数;ht即为当前t时间的隐层输出、σ是sigmoid函数,表示式为:σ(x)=1/(1+e-x)。
前述的基于卷积双向长短时记忆网络的语音测谎方法,步骤(F):构建完整的语音测谎网络模型,采用截断梯度算法实现,具体计算公式如下:
ft=σ(Wfhht-1+Wfxxt+WfcCt-1+bf)
it=σ(Wihht-1+Wixxt+WicCt-1+bi)
Figure BDA0001582363240000051
Figure BDA0001582363240000052
Figure BDA0001582363240000054
Figure BDA0001582363240000055
前述的基于卷积双向长短时记忆网络的语音测谎方法,步骤(G),训练语音测谎网络模型,将预测后的语音数据作为语音测谎网络模型的输入,训练学习该语音测谎网络模型的参数,并通过三种公众模型评测标准准确率、召回率与混肴矩阵,从而实现测谎评测,所述召回率recall的计算公式如下:
Figure BDA0001582363240000053
其中,TP是该类别语音数据被正确识别的数量,TN为该类别语音数据被错误识别的数量。
本发明的有益效果是:本发明的基于卷积双向长短时记忆网络的语音测谎方法,通过将卷积操作引入长短时记忆网络中,构建完整的语音测谎网络模型,实现深度学习,从原始语音数据中提取适用于谎言检测的特征,以提高谎言检测的性能,具有良好的应用前景。
附图说明
图1是本发明的基于卷积双向长短时记忆网络的语音测谎方法的流程图;
图2是本发明的语音测谎网络模型的内部结构图;
图3是本发明的语音测谎网络模型的参数设置图;
图4是本发明实施例的测谎评测的效果图。
具体实施方式
下面将结合说明书附图,对本发明作进一步的说明。
本发明的基于卷积双向长短时记忆网络的语音测谎方法,包括以下步骤:
步骤(A),对整段语音进行统一归一化处理;
该步骤的数据的归一化是在整个语音段上执行的,而不是在切割后的每个片段上执行的,归一化后的范围是[-1,1],归一化前后语音数值为零处所表达的物理意义不变,均是无声段,这与步骤(D)中计算变长数据时,统一数据长度补零的意义一致;
步骤(B),根据数据库标签对统一归一化处理的语音进行切分;
所述数据库为语音学家建立的用于研究语音谎言检测的专业数据库,例如包含男女各16名被试者(母语为英语)参与研究的专业数据,均来自哥伦比亚大学,其音的采样率为16KHz,根据数据库标签切分后,获得5412条有效语音,其中,256条语音作为验证集,256条语音作为测试集,其余作为训练集,语音的数据最长L为478208,持续时间约为29.89秒;
步骤(C),对切分的语音加窗分帧处理;
增加的窗函数为hamming窗W(n,α),其的计算公式如下,
W(n,α)=(1-α)-αcos(2πn/(n-1)),0≤n≤N-1
其中,α取值0.46,N为n的取值范围,表示Hamming窗的长度。
计算得到,分帧处理中帧长I为1024,帧间重叠率p为25%,获最大帧数H为623
Figure BDA0001582363240000061
步骤(D),建立变长数据的计算方式;
首先在不等长的原始语音数据结尾处补零至相同长度,在网络计算中,只计算数据的实际有效长度,超出实际长度之后,网络的状态就不在更新,语音数据的实际有效长度通过每帧数据的绝对值求和判断是否为零来获得,具体算法如下:
Figure BDA0001582363240000071
其中audio为补零后的语音数据,t是时间步对应语音数据的帧数。sequence_length是计算实际有效长度的函数。
步骤(E),将卷积操作引入长短时记忆网络中;
为了从原始时域语音信号中提取变换域特征,在长短时记忆网络中引入了卷积操作,具体如下:
ft=σ(Wfh*ht-1+Wfx*xt+WfcCt-1+bf)
it=σ(Wih*ht-1+Wix*xt+WicCt-1+bi)
Figure BDA0001582363240000072
Figure BDA0001582363240000073
Figure BDA0001582363240000074
Figure BDA0001582363240000075
其中,*表示卷积、
Figure BDA0001582363240000076
表示Hadamard乘积;Wfh、Wfx、Wfc分别为遗忘门ft的隐层、输入与细胞状态的权值,bf为遗忘门ft的偏置;Wih、Wix、Wic分别为信息更新值it中的隐层、输入与细胞状态的权值,bi为信息更新值it的偏置;Wch、Wcx分别为细胞状态更新值
Figure BDA0001582363240000081
的隐层与输入的权值,bc为细胞状态更新值
Figure BDA0001582363240000082
的偏置;Woh、Wox、Woc分别为输出值ot中的隐层、输入与细胞状态的权值,bo为输出值ot的偏置;下标t为时间步,对应特征中的帧数;ht即为当前t时间的隐层输出、σ是sigmoid函数,表示式为:σ(x)=1/(1+e-x)。
步骤(F),构建完整的语音测谎网络模型;
构建网络时为避免循环网络中的梯度爆炸,采用截断梯度算法,即在参数更新之前截断梯度g的范数||g||:
Figure BDA0001582363240000083
此外,网络在全连层还接受了低层卷积长短时记忆网络的输出,防止特征的过度抽象化,在卷积双向长短时记忆网络输出之后,连接多层双向长短时记忆网络,该网络内部结构如图2所示,相关数学符号计算公式如下:
ft=σ(Wfhht-1+Wfxxt+WfcCt-1+bf)
it=σ(Wihht-1+Wixxt+WicCt-1+bi)
Figure BDA0001582363240000084
Figure BDA0001582363240000085
Figure BDA0001582363240000086
Figure BDA0001582363240000087
在谎言检测任务中,常常需要通过上下语境来判断某句话的真伪,因此用于谎言检测的模型应同时具有学习历史和未来信息的能力,双向长短时记忆网络通过将时序方向相反的两个循环神经网络连接到同一个输出,使得输出层可以同时获取历史和未来信息,所以该模式适用于谎言检测任务。该语音测谎网络模型的结构,如图3所示,网络参数设置,网络的第一层为卷积双向长短时记忆网络,通过该层试图获得与谎言检测任务相关的变换域信息。由于原始采样语音是一维数据,所以该层使用的卷积亦是一维,其卷积核的大小为1024*2*4,其中,1024是单个样本每次时间步输入的数据长度,即对整个输入数据进行卷积;2对应参与卷积运算的输入和上一时刻的隐层输出;4对应参与卷积的4中不同权值,即上述公式中的权值参数。网络的第二层与第三层为一般双向长短时记忆网络,用于计算变换域后的各种乘法计算,对应语音信号处理中频域变换后的种种乘法运算。其中第一个双向长短时记忆网络含有1024个隐层单元,第二个双向长短时记忆网络含有512个隐层单元,其他网络参数设置如表1所示,
表1网络参数
参数
初始学习率 0.0004
训练批次大小 32
梯度截断参数 80
层间单元连接率(dropout) 0.6
卷积输出通道 2
步骤(G),训练语音测谎网络模型,并加窗分帧处理后的语音进行测谎评测,将预测后的语音数据作为语音测谎网络模型的输入,训练学习该语音测谎网络模型的参数,并通过三种公众模型评测标准准确率、召回率与混肴矩阵,从而实现测谎评测,所述召回率recall的计算公式如下:
Figure BDA0001582363240000091
其中,TP是该类别语音数据被正确识别的数量,TN为该类别语音数据被错误识别的数量,
具体训练过程中,每训练5次,就在验证集上进行一个验证,并记录下验证集的识别率,召回率,最终将结果统计成如图4所示的在验证集中,整体识别率最终收敛至73.04%,其中谎言的召回率69.53%,诚实的召回率为76.56%。最终在测试集中获得了混肴矩阵,如表2所示,
表2测试集的混肴矩阵
类别 谎言 诚实
谎言 87 41
诚实 27 101
在测试集中的整体识别率为73.43%。相比于当现有技术的的语音测谎研究,本发明极大的提高了整体识别率。
综上所述,本发明的基于卷积双向长短时记忆网络的语音测谎方法,通过将卷积操作引入长短时记忆网络中,构建完整的语音测谎网络模型,实现深度学习,从原始语音数据中提取适用于谎言检测的特征,以提高谎言检测的性能,具有良好的应用前景。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.基于卷积双向长短时记忆网络的语音测谎方法,其特征在于:包括以下步骤,
步骤(A),将整段语音进行统一归一化处理;
步骤(B),根据数据库标签对统一归一化处理的语音进行切分;
步骤(C),对切分的语音加窗分帧处理;
步骤(D),建立变长数据的计算方式;
步骤(E),将卷积操作引入长短时记忆网络中;
步骤(F),构建完整的语音测谎网络模型;
步骤(G),训练语音测谎网络模型,并对加窗分帧处理后的语音进行测谎评测;
所述步骤(D)具体包括:建立变长数据的计算方式,先在不等长的语音数据结尾处补零至相同长度,在网络计算中,补零后语音数据的实际有效长度通过每帧数据的绝对值求和并判断是否为零来获得。
2.根据权利要求1所述的基于卷积双向长短时记忆网络的语音测谎方法,其特征在于:步骤(A),将整段语音进行统一归一化处理,归一化后整段语音的范围是[-1,1],归一化前后的整段语音在数值为零处所表达的物理意义不变,均是无声段。
3.根据权利要求1所述的基于卷积双向长短时记忆网络的语音测谎方法,其特征在于:步骤(B),根据数据库标签对统一归一化处理的语音进行切分,所述数据库为语音学家建立的用于研究语音谎言检测的专业数据库。
4.根据权利要求1所述的基于卷积双向长短时记忆网络的语音测谎方法,其特征在于:步骤(C),对切分的语音加窗分帧处理,增加的窗函数为hamming窗W(n,α),其的计算公式如下,
W(n,α)=(1-α)-αcos(2πn/(n-1)),0≤n≤N-1
其中,α取值0.46,N为n的取值范围,表示Hamming窗的长度。
5.根据权利要求1所述的基于卷积双向长短时记忆网络的语音测谎方法,其特征在于:步骤(E),将卷积操作引入长短时记忆网络中,通过以下公式得到,
ft=σ(Wfh*ht-1+Wfx*xt+WfcCt-1+bf)
it=σ(Wih*ht-1+Wix*xt+WicCt-1+bi)
Figure FDA0002414412310000021
Figure FDA0002414412310000022
Figure FDA0002414412310000023
Figure FDA0002414412310000024
其中,*表示卷积、
Figure FDA0002414412310000027
表示Hadamard乘积;Wfh、Wfx、Wfc分别为遗忘门ft的隐层、输入与细胞状态的权值,bf为遗忘门ft的偏置;Wih、Wix、Wic分别为信息更新值it中的隐层、输入与细胞状态的权值,bi为信息更新值it的偏置;Wch、Wcx分别为细胞状态更新值
Figure FDA0002414412310000025
的隐层与输入的权值,bc为细胞状态更新值
Figure FDA0002414412310000026
的偏置;Woh、Wox、Woc分别为输出值ot中的隐层、输入与细胞状态的权值,bo为输出值ot的偏置;下标t为时间步,对应特征中的帧数;ht即为当前t时间的隐层输出、σ是sigmoid函数,表示式为:σ(x)=1/(1+e-x)。
6.根据权利要求1所述的基于卷积双向长短时记忆网络的语音测谎方法,其特征在于:步骤(F):构建完整的语音测谎网络模型,采用截断梯度算法实现,具体计算公式如下:
ft=σ(Wfhht-1+Wfxxt+WfcCt-1+bf)
it=σ(Wihht-1+Wixxt+WicCt-1+bi)
Figure FDA0002414412310000031
Figure FDA0002414412310000032
Figure FDA0002414412310000033
Figure FDA0002414412310000034
7.根据权利要求1所述的基于卷积双向长短时记忆网络的语音测谎方法,其特征在于:步骤(G),训练语音测谎网络模型,将预测后的语音数据作为语音测谎网络模型的输入,训练学习该语音测谎网络模型的参数,并通过三种公众模型评测标准准确率、召回率与混肴矩阵从而实现测谎评测,所述召回率recall的计算公式如下:
Figure FDA0002414412310000035
其中,TP是该类别语音数据被正确识别的数量,TN为该类别语音数据被错误识别的数量。
CN201810159072.9A 2018-02-26 2018-02-26 基于卷积双向长短时记忆网络的语音测谎方法 Active CN108520753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810159072.9A CN108520753B (zh) 2018-02-26 2018-02-26 基于卷积双向长短时记忆网络的语音测谎方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810159072.9A CN108520753B (zh) 2018-02-26 2018-02-26 基于卷积双向长短时记忆网络的语音测谎方法

Publications (2)

Publication Number Publication Date
CN108520753A CN108520753A (zh) 2018-09-11
CN108520753B true CN108520753B (zh) 2020-07-24

Family

ID=63433305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810159072.9A Active CN108520753B (zh) 2018-02-26 2018-02-26 基于卷积双向长短时记忆网络的语音测谎方法

Country Status (1)

Country Link
CN (1) CN108520753B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109243493B (zh) * 2018-10-30 2022-09-16 南京工程学院 基于改进长短时记忆网络的婴儿哭声情感识别方法
CN109862408B (zh) * 2018-12-29 2021-05-11 江苏爱仕达电子有限公司 一种用于智能电视语音遥控器的用户语音识别控制方法
CN109637545B (zh) * 2019-01-17 2023-05-30 哈尔滨工程大学 基于一维卷积非对称双向长短时记忆网络的声纹识别方法
CN110009025B (zh) * 2019-03-27 2023-03-24 河南工业大学 一种用于语音测谎的半监督加性噪声自编码器
CN110033778B (zh) * 2019-05-07 2021-07-23 苏州市职业大学 一种说谎状态实时识别修正系统
CN110164418B (zh) * 2019-07-10 2021-08-27 哈尔滨工业大学 基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法
CN110767218A (zh) * 2019-10-31 2020-02-07 南京励智心理大数据产业研究院有限公司 端到端语音识别方法、系统、装置及其存储介质
CN112562645B (zh) * 2020-12-09 2023-11-14 河南工业大学 一种基于自编码网络联合学习的语音测谎方法
CN112329748B (zh) 2021-01-04 2021-04-30 中国科学院自动化研究所 面向交互场景的自动谎言检测方法、装置、设备及介质
CN115115898B (zh) * 2022-08-31 2022-11-15 南京航空航天大学 一种基于无监督特征重构的小样本目标检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9330658B2 (en) * 2002-11-12 2016-05-03 David Bezar User intent analysis extent of speaker intent analysis system
CN106372058A (zh) * 2016-08-29 2017-02-01 中译语通科技(北京)有限公司 一种基于深度学习的短文本情感要素抽取方法及装置
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN106847302A (zh) * 2017-02-17 2017-06-13 大连理工大学 基于卷积神经网络的单通道混合语音时域分离方法
CN106901758A (zh) * 2017-02-23 2017-06-30 南京工程学院 一种基于卷积神经网络的言语置信度评测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9330658B2 (en) * 2002-11-12 2016-05-03 David Bezar User intent analysis extent of speaker intent analysis system
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN106372058A (zh) * 2016-08-29 2017-02-01 中译语通科技(北京)有限公司 一种基于深度学习的短文本情感要素抽取方法及装置
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN106847302A (zh) * 2017-02-17 2017-06-13 大连理工大学 基于卷积神经网络的单通道混合语音时域分离方法
CN106901758A (zh) * 2017-02-23 2017-06-30 南京工程学院 一种基于卷积神经网络的言语置信度评测方法

Also Published As

Publication number Publication date
CN108520753A (zh) 2018-09-11

Similar Documents

Publication Publication Date Title
CN108520753B (zh) 基于卷积双向长短时记忆网络的语音测谎方法
CN112669820B (zh) 基于语音识别的考试作弊识别方法、装置及计算机设备
CN111986679A (zh) 一种应对复杂声学环境的说话人确认方法、系统及存储介质
CN113450830A (zh) 具有多重注意机制的卷积循环神经网络的语音情感识别方法
Chatterjee et al. Auditory model-based design and optimization of feature vectors for automatic speech recognition
CN111798846A (zh) 语音命令词识别方法、装置、会议终端及会议终端系统
CN112802456A (zh) 一种语音评测打分方法、装置、电子设备及存储介质
Rahman et al. Dynamic time warping assisted svm classifier for bangla speech recognition
CN110176243A (zh) 语音增强方法、模型训练方法、装置和计算机设备
CN111243621A (zh) 一种用于合成语音检测的gru-svm深度学习模型的构造方法
CN116230017A (zh) 语音评估方法、装置、计算机设备和存储介质
CN113539243A (zh) 语音分类模型的训练方法、语音分类方法及相关装置
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Herrera-Camacho et al. Design and testing of a corpus for forensic speaker recognition using MFCC, GMM and MLE
Akinrinmade et al. Creation of a Nigerian voice corpus for indigenous speaker recognition
Mansour et al. A comparative study in emotional speaker recognition in noisy environment
CN114023343A (zh) 基于半监督特征学习的语音转换方法
CN113488069A (zh) 基于生成式对抗网络的语音高维特征快速提取方法和装置
Chen et al. Overlapped Speech Detection Based on Spectral and Spatial Feature Fusion.
Satla et al. Dialect Identification in Telugu Language Speech Utterance Using Modified Features with Deep Neural Network.
Singh et al. A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters
Patel et al. Development and implementation of algorithm for speaker recognition for gujarati language
Berjon et al. Frequency-centroid features for word recognition of non-native English speakers
Kaur et al. Speech based retrieval system for Punjabi language
Singh et al. A novel algorithm using MFCC and ERB gammatone filters in speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant