CN110009025A - 一种用于语音测谎的半监督加性噪声自编码器 - Google Patents
一种用于语音测谎的半监督加性噪声自编码器 Download PDFInfo
- Publication number
- CN110009025A CN110009025A CN201910239533.8A CN201910239533A CN110009025A CN 110009025 A CN110009025 A CN 110009025A CN 201910239533 A CN201910239533 A CN 201910239533A CN 110009025 A CN110009025 A CN 110009025A
- Authority
- CN
- China
- Prior art keywords
- data
- voice
- network
- label
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 16
- 239000000654 additive Substances 0.000 title claims abstract description 9
- 230000000996 additive effect Effects 0.000 title claims abstract description 9
- 230000004913 activation Effects 0.000 claims abstract description 8
- 239000000284 extract Substances 0.000 claims abstract description 6
- 239000010410 layer Substances 0.000 claims description 32
- 238000000034 method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 13
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 239000011229 interlayer Substances 0.000 claims description 4
- 230000001537 neural effect Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 235000008434 ginseng Nutrition 0.000 claims description 2
- 238000009432 framing Methods 0.000 claims 1
- 239000000203 mixture Substances 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 3
- 210000002569 neuron Anatomy 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008909 emotion recognition Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- FNMKZDDKPDBYJM-UHFFFAOYSA-N 3-(1,3-benzodioxol-5-yl)-7-(3-methylbut-2-enoxy)chromen-4-one Chemical compound C1=C2OCOC2=CC(C2=COC=3C(C2=O)=CC=C(C=3)OCC=C(C)C)=C1 FNMKZDDKPDBYJM-UHFFFAOYSA-N 0.000 description 1
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 241000167880 Hirundinidae Species 0.000 description 1
- 208000010513 Stupor Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
- G06N3/065—Analogue means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Neurology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
现有的语音谎言检测算法受制于难以获得足量的带标签语音数据,而现实中大量易得的无标签数据却被忽视,针对这一问题,本发明提出了一种用于语音测谎的半监督加性噪声自编码器,它包含有两层的编码和解码网络,以及一个分类器。该模型首先根据语音谎言的特征改变了网络中的激活函数,其次为了防止过拟合,在每一个网络层都增加了dropout,最后在编码输出部分直接连接了分类器使网络简洁高效。数据输入模型后,先经过编码网络提取特征,之后不仅进入解码网络进行重构,还要进入分类器进行分类。无标签数据保证了模型的泛化性,有标签数据可以保证提取到的特征更适合分类,因此,我们的模型充分利用了有标签和无标签数据的价值。
Description
技术领域
本发明属于语音信号处理技术领域,具体涉及到一种用于语音测谎的半监督加性噪声自编码器。
背景技术
测谎的重要性不言而喻,表明人们说谎时的声音会因紧张而导致它的音调,停顿,音长等发生变化,而且与以往的测谎方法相比,利用语音测谎可以摆脱时间空间的约束,使结果更客观,因此利用语音进行测谎具有重要的现实意义和巨大的实用价值。
目前研究者都是从语音的特征提取,特征处理和分类三个方面进行研究。例如美国哥伦比亚大学的研究团队使用语音的组合特征,以SVM为分类器取得了良好的效果,苏州大学的赵鹤鸣教授团队提取了语音的非动力学特征及韵律特征,以相关向量机进行谎言检测。随着无监督模型应用范围的扩大,语音测谎的研究者通常也先将语音特征进行无监督学习后再进行分类,印度的伦格塔工程学院的研究者利用谎言语音中的能量,过零率等语音特征,构建了多层神经网络后接SVM的分类模型,苏州大学的周燕尝试利用深度置信网络对语音的特征进行深度处理,并用SVM进行检测。然而,将无监督学习模型和有监督学习模型结合在一起会有很大的风险。因为无监督学习是为了保留数据中全部的重要信息以助于表示,但有监督分类学习只保留数据中有助于分类的信息,这样在进行模型训练的过程中,二者会有矛盾,导致模型泛化性变弱甚至影响分类性能。更为重要的是,获取大量的带标签数据显然是十分困难的,手工进行标记十分繁琐,需要消耗大量的人力物力,这就严重限制了这些方法的发展。与此同时,现实及网络中存在大量的廉价易得的无标签数据,因此本发明主要关注于如何将少量的有标签数据及大量的无标签数据综合利用起来,即对数据进行半监督学习以实现更优秀的语音测谎工作。
发明内容:
半监督自编码器在语音情感识别工作中表现良好,但是语音测谎和情感识别属于不同的分类任务,因此我们根据语音测谎的特点对原始的半监督自编码器进行了改进,使其能更适用于谎言语音和正常语音的辨别。模型由加性噪声自编码器和softmax分类器组成,其中编码和解码网络都由两个隐层串联而成,每个隐层中都包含权重,批归一化和激活函数,dropout等部分。
假设我们有一个语音集,其中有N个有标签数据{(x1,y1),(x2,y2).....(xN,yN))}以及M个无标签数据{xN+1,xN+2....xN+M},其中y是数据对应的标签,共有K类。我们的目的是从这些数据中学习到分布P(y|x),下面介绍数据输入模型后的完整计算流程。对于无监督学习部分,它由深度加性噪声自编码器组成,可以提取出数据的深层特征。它的编码部分通过多层前馈神经网络将输入数据非线性转换为新的表达形式,给定一个输入x,其过程如下所示:
解码部分是将经过编码后的数据重构为编码前的输入数据,其过程可以表示为:
其中,L代表网络的层数,w,b分别为层间权重和偏执向量,是需要优化的参数。输入数据经过上述步骤后,无监督学习部分的损失函数,即数据的重构误差可以表示为:
有监督学习部分:我们将自编码器额外增加了一个有监督分类任务,数据经过编码网络提取特征后,除了要进行解码,还要输入分类器进行分类,其过程可以表示为:
其中,p是分类器预测的结果,β是连接编码网络和分类器的层间权重,b为偏置向量,经过此过程后,数据的分类误差可以表示为:
y为语音对应的真实标签,1≤j≤K,K在前文已经介绍过,是数据的总类别数。
至此,模型的前向传播过程已经介绍完毕。数据经过网络并计算完误差后,我们利用梯度下降法来最小化误差并优化参数。对于无标签数据,由于没有对应的标签,所以只进行数据重构,即最小化误差函数Cu,训练时,先算出误差函数对于每个参数的梯度再根据梯度进行参数优化直至模型收敛,过程如下,对于输出层,残差为
对于重构输出层的上一层,该层的残差为输出层残差经权重反向传播之后的值,为
δo-1=εL-1*(1-εL-1)*wL-1*δL
所以该层参数所要更新的值,即该层参数的梯度以及更新后的参数为
dw=εL-1*δL,db=δL
wL-1=wL-1-λ*dw,bL-1=bL-1-λ*db(λ为设置的学习率)
其它层以此类推,根据模型顺序,残差反向传播时先经过解码网络后经过编码网络,最终将所有的参数更新完毕后完成第一次优化。
对于有标签数据,既要进行重构又要进行分类,所以需要最小化的误差函数为
C=Cs+αCu
α为平衡参数。我们同样使用梯度下降法来进行迭代,因为最小化的是联合误差函数,因此与之前步骤不同的是,当反向传播的残差将要进入编码网络时,需要额外增加分类输出层残差,分类输出层的残差为
之后,梯度计算及参数更新方法和前面所述相同。在训练过程中,需要同时将有标签数据和无标签数据输入模型,从而根据恢复特征和原始特征,分类标签和真实标签之间的误差来调整相应参数。大量的无标签数据保证了对原始特征学习的泛化能力,有标签数据可以使学习的表达特征更适合于分类。因此,我们的模型充分利用了有标签和无标签数据的价值。
激活函数在神经网络中的作用非常重要,它实现了数据的非线性变换,使整个网络具有更强大的拟合数据的能力,与之前的编码器不同,我们选择了Elu作为激活函数,如果使用传统的Relu或sigmoid激活函数,当输入为负值或较大的负值时,神经元的输出为0,相当于神经元处于假死状态,那么在优化模型时这些神经元与其他神经元之间的权重会变化缓慢甚至产生梯度弥散,这些负值中的信息就没有被有效利用起来,后果就是直接影响了分类精度。因此我们使用Elu激活函数,即使输入为负值时,神经元依旧会有输出而且函数在横轴小于0的部分变化平稳,具有软饱和性,这就保证了负值中的信息不会被浪费掉,此外,Elu的输出均值接近于0,这会使网络收敛速度更快。我们对CSC库进行特征提取并做标准化处理,之后统计显示,CSC库的语音提取出的特征中负值约占24%,因此,选择Elu作为激活函数比其他两种更为合适。进一步的,与语音情感识别的多分类不同,语音测谎只需要判断出该语音是真话还是谎言即可,这样在训练样本较小的情况下会产生过拟合,因此我们谨慎的在SS-DA的每层都加入一定比率的dropout使某些隐层神经单元以一定的概率暂停工作,达到防止过拟合的作用,这个改动对于正确率的提升也十分重要。此外,在网络中我们使用批归一化以达到加速训练的作用。
将数据经过编码网络后提取到的深层特征直接用于分类,并以此来训练分类器,也是我们具有创造性的改进,数据不经过额外的神经网络进行变换,从而保证了经过编码得到的深层特征既有助于数据重构又有助于分类,此外,特征和分类器的直接连接,也达到了简化网络结构,节约计算成本从而加速训练的目的。
附图说明:
图1为一种用于语音测谎的半监督加性噪声自编码器结构图,
图2为每个隐层包含的内容示意图。
具体实施方式:
为了验证我们所提出的模型的性能,我们在CSC谎言语音库上进行试验。CSC数据库是用于谎言语音检测的专业数据库,参与录制人员均为美国哥伦比亚大学的学生和教师,男性和女性各占一半。受试者被告知参加一个“寻找符合美国顶级企业家人才”的活动,通过与考官的交流,受试者需要使考官相信自己符合该选拔,最终生成约7.5h的语音样本。
步骤一:去掉音质较低的部分后,从该库剪切出5411条语音进行实验,每条语音时长2s左右,包含了2209条谎言语音,将剪切出的语音中的4328条语音作为训练集,剩下的1083条语音作为测试集。
步骤二:语音特征是进行谎言识别的关键,我们使用的语音特征是2009年国际语音情感识别挑战赛的标准特征集。其中有2*16个低层描述子,如ZCR,HNR,,MFCC(1-12)等,以及12个描述函数,有均值,最大最小值,均方误差等,总的特征维数为2*16*12=384维,这个特征集包含了声学特征中使用最为广泛的特征和函数。我们使用开源工具包Opensmile从语音中提取这些特征,每条语音提取出的特征都为384维,共有5411条语音,因此数据总量为5411*384。
步骤三:首先我们将系数为0.3的高斯噪声加入语音,作为模型的输入数据。编码和解码网络部分都为两层,每层网络设置相同的神经单元数。对于学习率和神经单元数,我们从{0.1,0.01,0.001},{60,120,180}中根据不同的实验进行选取。联合误差函数中的参数α选取为1,在模型训练过程中,使用小批量梯度下降法并最多进行1000次迭代来优化参数。我们选取正确率作为分类性能指标。这是语音测谎领域最常用的评价指标。对于每个模型,都进行10次试验并取这10次实验结果的平均值作为最终的结果。
步骤四:我们特别关注当标签数据个数不同时的实验结果。从语音语料库的训练集中随机选取数据作为带标签数据,训练集中剩余的数据作为无标签数据处理。在CSC语料库中,选取500、1000个数据作为带标签数据,选择的数据数量约占语料库中包含的总数据的10%和20%。训练时将无标签数据和有标签数据同时输入模型中,对于无标签数据,由于没有对应的标签,所以只进行数据重构。训练时,先算出误差函数对于每个参数的梯度,再根据梯度进行参数优化直至模型收敛。对于有标签数据,既要进行重构又要进行分类,大量的无标签数据保证了对原始特征学习的泛化能力,有标签数据可以使学习的表达特征更适合于分类。因此,我们的模型充分利用了有标签和无标签数据的价值。表1显示了我们的SS-ANE和其他在基于语音的谎言检测领域中经常使用的模型的准确率。
表1在CSC库上由不同数量的带标签数据得到的平均正确率
从实验结果可以看出,与其他模型相比,在有标签数据数量相同时我们的模型可以达到最先进的性能。值得一提的是,我们模型仅仅利用1000个带标签数据,准确率就达到了62.78%,这甚至高于其他模型使用所有训练数据时得到的准确率,这说明我们的模型确实可以减少对带标签数据的依赖。
Claims (1)
1.一种用于语音测谎的半监督加性噪声自编码器,其特征在于,包括以下步骤:
(1)语音预处理:将录制好的语音按谎言和真话分类并标记上数字标签,去除音质较低的部分并剪切成每一条时长为2s左右的短语音,之后对其进行分帧及加窗,为下一步提取特征做准备;
(2)特征提取:对预处理完毕后的语音数据,提取出MFCC,过零率,基频等语音特征,并进行归一化以便分类;
(3)半监督加性噪声自编码器装置:该装置由多层加性噪声自编码器和一个softmax分类器组成;编码网络和解码网络各两层,每个隐层的神经单元数都为60,除了连接各隐层的权重外,根据谎言语音的特点,我们在每一隐层都增加了Elu激活函数,批归一化,dropout三个部分,并且在编码网络的末端连接了一个softmax分类器;假设我们有一个语音集,其中含有N个有标签数据{(x1,y1),(x2,y2).....(xN,yN))}以及M个无标签数据{xN+1,xN+ 2....xN+M},其中y是数据对应的标签,共有K类;我们的目的是从这些数据中学习到分布P(y|x);将(2)中提取的特征输入装置后,数据将进行以下流程:
A.先经过编码部分,通过该部分将其非线性转换为新的表达形式,给定一个输入x,其过程如下所示:
B.解码部分是将经过编码后的数据重构为编码前的输入数据,其过程可以表示为:
其中,L代表网络的层数,w,b分别为层间权重和偏执向量,是需要优化的参数;输入数据经过上述步骤后,无监督学习部分的损失函数,即数据的重构误差可以表示为:
C.我们将自编码器额外增加了一个有监督分类任务,数据经过编码网络提取特征后,除了要进行解码,还要输入分类器进行分类,其过程可以表示为:
其中,p是分类器预测的结果,β是连接编码网络和分类器的层间权重,b为偏置向量,经过此过程后,数据的分类误差可以表示为:
y为语音对应的真实标签,1≤j≤K,K在前文已经介绍过,是数据的总类别数;
D.数据经过网络并计算完上述误差后,我们利用梯度下降法来最小化误差并优化参数;对于无标签数据,由于没有对应的标签,所以只进行数据重构,即最小化误差函数Cu,训练时,先算出误差函数对于每个参数的梯度再根据梯度进行参数优化直至模型收敛,对于输出层,残差为
对于重构输出层的上一层,该层的残差为输出层残差经权重反向传播之后的值,为
δo-1=εL-1*(1-εL-1)*wL-1*δL
所以该层参数所要更新的值,即该层参数的梯度以及更新后的参数为
dw=εL-1*δL,db=δL
wL-1=wL-1-λ*dw,bL-1=bL-1-λ*db(λ为设置的学习率)
其它层以此类推,根据模型顺序,残差反向传播时先经过解码网络后经过编码网络,最终将所有的参数更新完毕后完成第一次优化;
对于有标签数据,既要进行重构又要进行分类,所以需要最小化的误差函数为
C=Cs+αCu
α为平衡参数;我们同样使用梯度下降法来进行迭代,因为最小化的是联合误差函数,因此与之前步骤不同的是,当反向传播的残差将要进入编码网络时,需要额外增加分类输出层残差,分类输出层的残差为
之后,梯度计算及参数更新方法和前面所述相同;在训练过程中,需要同时将有标签数据和无标签数据输入模型,从而根据前文所述误差来调整相应参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910239533.8A CN110009025B (zh) | 2019-03-27 | 2019-03-27 | 一种用于语音测谎的半监督加性噪声自编码器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910239533.8A CN110009025B (zh) | 2019-03-27 | 2019-03-27 | 一种用于语音测谎的半监督加性噪声自编码器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110009025A true CN110009025A (zh) | 2019-07-12 |
CN110009025B CN110009025B (zh) | 2023-03-24 |
Family
ID=67168512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910239533.8A Active CN110009025B (zh) | 2019-03-27 | 2019-03-27 | 一种用于语音测谎的半监督加性噪声自编码器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110009025B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111489756A (zh) * | 2020-03-31 | 2020-08-04 | 中国工商银行股份有限公司 | 一种声纹识别方法及装置 |
CN112364993A (zh) * | 2021-01-13 | 2021-02-12 | 深圳市友杰智新科技有限公司 | 模型联合训练方法、装置、计算机设备和存储介质 |
CN112562645A (zh) * | 2020-12-09 | 2021-03-26 | 河南工业大学 | 一种基于自编码网络联合学习的语音测谎方法 |
CN112869754A (zh) * | 2021-01-08 | 2021-06-01 | 浙江大学 | 一种脑机融合的神经信号测谎方法 |
CN113470679A (zh) * | 2021-07-09 | 2021-10-01 | 平安科技(深圳)有限公司 | 基于无监督学习的语音唤醒方法、装置、电子设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015180368A1 (zh) * | 2014-05-27 | 2015-12-03 | 江苏大学 | 一种半监督语音特征可变因素分解方法 |
CN107293302A (zh) * | 2017-06-27 | 2017-10-24 | 苏州大学 | 一种用于语音测谎系统中的稀疏谱特征提取方法 |
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
CN108175426A (zh) * | 2017-12-11 | 2018-06-19 | 东南大学 | 一种基于深度递归型条件受限玻尔兹曼机的测谎方法 |
CN108520753A (zh) * | 2018-02-26 | 2018-09-11 | 南京工程学院 | 基于卷积双向长短时记忆网络的语音测谎方法 |
CN109165743A (zh) * | 2018-07-17 | 2019-01-08 | 东南大学 | 一种基于深度压缩自编码器的半监督网络表示学习算法 |
-
2019
- 2019-03-27 CN CN201910239533.8A patent/CN110009025B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015180368A1 (zh) * | 2014-05-27 | 2015-12-03 | 江苏大学 | 一种半监督语音特征可变因素分解方法 |
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
CN107293302A (zh) * | 2017-06-27 | 2017-10-24 | 苏州大学 | 一种用于语音测谎系统中的稀疏谱特征提取方法 |
CN108175426A (zh) * | 2017-12-11 | 2018-06-19 | 东南大学 | 一种基于深度递归型条件受限玻尔兹曼机的测谎方法 |
CN108520753A (zh) * | 2018-02-26 | 2018-09-11 | 南京工程学院 | 基于卷积双向长短时记忆网络的语音测谎方法 |
CN109165743A (zh) * | 2018-07-17 | 2019-01-08 | 东南大学 | 一种基于深度压缩自编码器的半监督网络表示学习算法 |
Non-Patent Citations (1)
Title |
---|
黄丽霞等: "基于深度自编码网络语音识别噪声鲁棒性研究", 《计算机工程与应用》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111489756A (zh) * | 2020-03-31 | 2020-08-04 | 中国工商银行股份有限公司 | 一种声纹识别方法及装置 |
CN111489756B (zh) * | 2020-03-31 | 2024-03-01 | 中国工商银行股份有限公司 | 一种声纹识别方法及装置 |
CN112562645A (zh) * | 2020-12-09 | 2021-03-26 | 河南工业大学 | 一种基于自编码网络联合学习的语音测谎方法 |
CN112562645B (zh) * | 2020-12-09 | 2023-11-14 | 河南工业大学 | 一种基于自编码网络联合学习的语音测谎方法 |
CN112869754A (zh) * | 2021-01-08 | 2021-06-01 | 浙江大学 | 一种脑机融合的神经信号测谎方法 |
CN112364993A (zh) * | 2021-01-13 | 2021-02-12 | 深圳市友杰智新科技有限公司 | 模型联合训练方法、装置、计算机设备和存储介质 |
CN112364993B (zh) * | 2021-01-13 | 2021-04-30 | 深圳市友杰智新科技有限公司 | 模型联合训练方法、装置、计算机设备和存储介质 |
CN113470679A (zh) * | 2021-07-09 | 2021-10-01 | 平安科技(深圳)有限公司 | 基于无监督学习的语音唤醒方法、装置、电子设备及介质 |
CN113470679B (zh) * | 2021-07-09 | 2024-01-12 | 平安科技(深圳)有限公司 | 基于无监督学习的语音唤醒方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110009025B (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110009025A (zh) | 一种用于语音测谎的半监督加性噪声自编码器 | |
CN110119765A (zh) | 一种基于Seq2seq框架的关键词提取方法 | |
CN108519890A (zh) | 一种基于自注意力机制的鲁棒性代码摘要生成方法 | |
CN111444726A (zh) | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
CN112231472B (zh) | 融入领域术语词典的司法舆情敏感信息识别方法 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN107092596A (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
CN113673254B (zh) | 基于相似度保持的知识蒸馏的立场检测方法 | |
CN111506732B (zh) | 一种文本多层次标签分类方法 | |
CN106682089A (zh) | 一种基于RNNs的短信自动安全审核的方法 | |
CN110287298A (zh) | 一种基于问句主题的自动问答答案选择方法 | |
CN111899766B (zh) | 基于深度特征与声学特征寻优融合的语音情感识别方法 | |
CN113761893A (zh) | 一种基于模式预训练的关系抽取方法 | |
CN108763211A (zh) | 融合蕴含知识的自动文摘方法及系统 | |
CN114970563B (zh) | 融合内容和形式多样性的中文问题生成方法和系统 | |
CN112270187A (zh) | 一种基于bert-lstm的谣言检测模型 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN110472245A (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
CN114898775B (zh) | 一种基于跨层交叉融合的语音情绪识别方法及系统 | |
CN114238649A (zh) | 一种常识概念增强的语言模型预训练方法 | |
CN113869055A (zh) | 基于深度学习的电网项目特征属性识别方法 | |
CN110246509A (zh) | 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构 | |
Williams | Zero Shot Intent Classification Using Long-Short Term Memory Networks. | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |