CN112562645B - 一种基于自编码网络联合学习的语音测谎方法 - Google Patents

一种基于自编码网络联合学习的语音测谎方法 Download PDF

Info

Publication number
CN112562645B
CN112562645B CN202011433508.2A CN202011433508A CN112562645B CN 112562645 B CN112562645 B CN 112562645B CN 202011433508 A CN202011433508 A CN 202011433508A CN 112562645 B CN112562645 B CN 112562645B
Authority
CN
China
Prior art keywords
self
voice
network
coding
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011433508.2A
Other languages
English (en)
Other versions
CN112562645A (zh
Inventor
刘曼
庄志豪
傅洪亮
陶华伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN202011433508.2A priority Critical patent/CN112562645B/zh
Publication of CN112562645A publication Critical patent/CN112562645A/zh
Application granted granted Critical
Publication of CN112562645B publication Critical patent/CN112562645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公布了一种基于自编码网络联合学习的语音测谎方法,本发明包括以下步骤:首先,通过语音信号预处理提取语音特征;其次,将提取到的语音特征分别输入自编码网络与去噪自编码网络,保证两条网络同时训练,能够很好的抑制单条自编码网络的过拟合问题,增强了网络的鲁棒性,且有效提升了该方法的泛化能力;其次,将两个自编码网络经编码后的输出特征进行融合,并设置批归一化层、Dropout层以加快网络计算速度,进一步抑制过拟合;最后,输出数据分类识别。本发明所提出的一种基于自编码网络联合学习的语音测谎方法,网络结构简单,两条自编码网络同时学习,有效的增强了网络的鲁棒性且抑制了网络中的过拟合,非常具有实用意义。

Description

一种基于自编码网络联合学习的语音测谎方法
技术领域
本发明属于语音信号处理技术领域,具体涉及到一种基于自编码网络联合学习的语音测谎方法。
背景技术
说谎是在人类社会中普遍存在的一个现象,语音是人类交流的一个重要途径,往往语音中不仅包含了所传递的内容信息,还包括了丰富的情感信息。人在说谎时,不仅其语速、语气、音调等会发生变化,而且通常也会有情绪、心理(紧张或者掩盖紧张)等方面的变化。应用语音进行测谎,语音数据的获取更加方便与简单,且通过语音进行测谎得到的结果更加客观与有意义。
与传统的应用非语音指标进行测谎的方法相比,应用语音指标进行测谎的方法大多是基于监督学习的方法,这些方法通常需要大量带有标签数的语音数据。然而,在现实中通常很难获得大量带有标签的语音数据,或者获取到的带有标签的数据通常是不完整的。除此之外,目前对于语音测谎的研究发明,为了获得更高的谎言识别率,通常需要较多的网络层数和更复杂的网络结构,但是这种方法通常会使得网络的训练时间过长,甚至还会导致语音特征的信息丢失。
在现有的语音测谎方法中,除了需要使用大量大的带有标签的语音数据之外,通常还需要更多的网络参数参与学习过程,以提升识别真话与谎言的能力,然而这种方法通常需要耗费大量的时间,并且网络的鲁棒性不好。该发明所提出的一种基于自编码网络联合学习的语音测谎方法,不仅能够有效地解决大量带有标签语音数据难、复杂等问题,而且还在一定程度上简化了网络模型。共享网络参数的自编码器网络减少了网络中的参数,在很大程度上减少了网络训练过程的时间,提升了网络训练的效率。该发明使用所使用的两个自编码网络代替了单个网络进行训练,该方法通过对其中一条网络进行加噪处理,不仅很好地解决了网络在训练过程中出现的过拟合的问题,而且还将语音中更多的信息保留下来,实现了良好的语音测谎工作。
发明内容
基于自编码网络的的方法在图像分类以及情感识别与分类中有良好的性能,但是语音测谎与这些领域的分类任务不同,根据语音测谎的特点,将简单自编码网络进行改进,使其可以实现原始输入数据的重构以及对真话和谎言的检测。于是,一种基于自编码网络联合学习的语音测谎方法,具体步骤如下:
(1)语音信号预处理:在语音处理预处理阶段先给语音添加上真话与谎言的标签,然后再对语音进行分帧加窗等处理;
(2)语音特征提取:对(1)中经分帧加窗处理后的数据进行语音特征提取,该特征包括但不限于基频、短时平均能量、短时平均过零率、均方根能量、共振峰、MFCC等声学特征;
(3)搭建网络模型:首先该网络由两个自编码网络以及批归一化层、Dropout层和分类层,该过程的具体实现步骤如下:
A.首先,将(2)中提取的语音特征作为输入发送到一个自编码网络,同时,将经加噪处理后作为另一个自编码网络的输入,两个自编码网络同时进行学习,共同完成训练过程,这两个自编码网络均以原始的输入数据为目标进行学习,这一过程实现了对原始数据的重构,通过对最小化解码后的数据与输入数据之间误差函数,完成学习过程,其中,编码过程可以用以下公式来表示:
x1=x (1)
y1=f(wx1+b) (2)
y1 k=elu(wk-1·y1 k-1+bk-1)2≤k≤K (3)
x2=x+xnoise (4)
y2=f(wx2+b) (5)
y2 k=elu(wk-1·y2 k-1+bk-1)2≤k≤K (6)
其中x所代表的是一个自编码网络的输入,而y1、y2分别为编码网络的输出;
B.本发明中在数据进行编码之后,再以原始数据为目标进行数据的重构,该过程的实现过程可以表示为:
x1'=f(wy1+b) (7)
(x1')k=elu(wD k-1·(x1')k-1+bD k-1)2≤k≤K-1 (8)
x2'=f(wy2+b) (9)
(x2')k=elu(wD k-1·(x2')k-1+bD k-1)2≤k≤K-1 (10)
C.计算两个自编码网络的数据重构误差,损失函数分别为公式(11)、(12),两个自编码网络无监督部分的总损失为公式(13):
Lu=Lu1+Lu2 (13)
(4)将两个自编码网络的编码输出进行深层融合,该过程保留语音中的更多信息;
(5)将融合后的特征输入到全连接层,作为分类器的输入,该过程通过设置Dropout层,一直网络的过拟合,然后将该输出结果进行分类识别,计算该有监督过程的损失计算选择交叉熵损失函数,实现过程如下:
(6)分类识别输出:将步骤(4)得到的融合后的特征送入全连接层,并采用有标签的数据通过softmax层进行识别分类,该过程可以表示为:
ypre=f(W·c+b) (15)
其中,c是两个分支通过编码后进行融合的数据集合,ypre是融合后数据经分类器后的分类结果,W,b分别是编码网络与分类器间的权重和偏置;
(7)为优化该发明提出的方法,采用梯度下降法来最小化误差函数(重构误差与分类误差),并根据误差函数进行网络参数的调整,以使该发明所提出的语音测谎方法性能达到最佳。
附图说明:
图1为自编码器结构图;
图2为一种基于自编码网络联合学习的语音测谎方法结构图。
具体实施方式:
下面结合具体实施方式对本发明做更进一步的说明。
本发明提出的是一种基于自编码网络联合学习的语音测谎方法,针对在语音测谎领域存在的难题提出了可行性的解决方法,步骤如下:
(1)语音信号预处理:在语音处理预处理阶段先给语音添加上真话与谎言的标签,然后再对语音进行分帧加窗等处理;
(2)语音特征提取:对(1)中经分帧加窗处理后的数据进行语音特征提取,该特征包括但不限于基频、短时平均能量、短时平均过零率、均方根能量、共振峰、MFCC等声学特征;
(3)搭建网络模型:首先该网络由两个自编码网络以及批归一化层、Dropout层和分类层,该过程的具体实现步骤如下:
A.首先,将(2)中提取的语音特征作为输入发送到一个自编码网络,同时,将经加噪处理后作为另一个自编码网络的输入,两个自编码网络同时进行学习,共同完成训练过程,这两个自编码网络均以原始的输入数据为目标进行学习,这一过程实现了对原始数据的重构,通过对最小化解码后的数据与输入数据之间误差函数,完成学习过程,其中,编码过程可以用以下公式来表示:
x1=x (1)
y1=f(wx1+b) (2)
y1 k=elu(wk-1·y1 k-1+bk-1)2≤k≤K (3)
x2=x+xnoise (4)
y2=f(wx2+b) (5)
y2 k=elu(wk-1·y2 k-1+bk-1)2≤k≤K (6)
其中x所代表的是一个自编码网络的输入,而y1、y2分别为编码网络的输出。
B.本发明中在数据进行编码之后,再以原始数据为目标进行数据的重构,该过程的实现过程可以表示为:
x1'=f(wy1+b) (7)
(x1')k=elu(wD k-1·(x1')k-1+bD k-1)2≤k≤K-1 (8)
x2'=f(wy2+b) (9)
(x2')k=elu(wD k-1·(x2')k-1+bD k-1)2≤k≤K-1 (10)
C.求两个半监督网络在数据重构这一路径下的损失函数,两个自编码网络无监督部分的损失函数分别为公式(11)、(12),两个自编码网络无监督部分的总损失为公式(13):
Lu=Lu1+Lu2 (13)
(4)将两个自编码网络的编码输出进行一个深层的融合,该过程将语音中更多的信息保留下来;
(5)将融合后的特征输入到全连接层,作为分类器的输入,该过程通过设置Dropout层,一直网络的过拟合,然后将该输出结果进行分类识别,计算该有监督过程的损失计算选择交叉熵损失函数,实现过程如下:
(6)分类识别输出:将步骤(4)得到的融合后的特征送入全连接层,并采用有标签的数据通过softmax层进行识别分类,该过程可以表示为:
ypre=f(W·c+b) (15)
其中,c是两个分支通过编码后进行融合的数据集合,ypre是融合后数据经分类器后的分类结果,W,b分别是编码网络与分类器间的权重和偏置;
(7)为优化该发明提出的方法,采用梯度下降法来最小化误差函数(重构误差与分类误差),并根据误差函数进行网络参数的调整,以使该发明所提出的语音测谎方法性能达到最佳。
(8)该发明不仅适用于自编码网络与去噪自编码网络的共同训练,同样使用于自编码网络与自编码网络、去噪自编码网络与去噪自编码网络,与之不同的是,网络的输入分别为x1与x1、x2与x2,同样是以原始数据为目标进行学习,最小化重构误差与分类误差,是语音测谎的性能达到最优。
为了验证所提出的一种基于自编码网络联合学习的语音测谎方法,本发明的验证在Killer谎言语料库上进行实验。该数据库包含了987条语音数据,其中谎言与真话分别是510条和477条数据,将数据集分为训练集和测试集划分为约4:1的比例。在实验的过程中,分别选择100、200条带有标签的语音数据进行训练。步骤三:首先,设置第二个自编码器分支的噪声为加性高斯白噪声,且系数为0.2,作为该模型结构的输入。然后,设置编码器隐层的数目为2048,均设置为两层,且每层都有相同的神经元个数。最后,设置网络学习率为0.000001,训练时每次喂入数据个数为16,测试时每次喂入数据个数为16。该模型准确率作为分类的性能指标,并经过循环迭代进行参数优化。进行多次试验并取平均值作为最终的结果,最后在killer库上分别用带有100个标签和200个标签的数据进行实验。结果表明,该发明所提出的方法,与单个网络相比识别率提升了1%-2%。利用少量标签可以实现良好的语音测谎效果。除此之外,本发明所提出的基于自编码网络联合学习的语音测谎方法不仅网络结构简单,网络在训练过程中,通过反向传播进行参数微调,很好地抑制网络的过拟合,很大程度上增强了网络的鲁棒性。
本发明的联合学习网络结构不仅可以由自编码网络与去噪自编码网络构建,还可以用自编码网络与自编码网络、去噪自编码网络与去噪自编码网络构建实现。

Claims (1)

1.一种基于自编码网络联合学习的语音测谎方法,其特征在于,包括以下步骤:
(1)语音信号预处理:在语音处理预处理阶段先给语音添加上真话与谎言的标签,然后再对语音进行分帧加窗处理;
(2)语音特征提取:对(1)中经分帧加窗处理后的数据进行语音特征提取,该特征包括但不限于基频、短时平均能量、短时平均过零率、均方根能量、共振峰、MFCC的声学特征;
(3)搭建网络模型:首先该网络由两个自编码网络以及批归一化层、Dropout层和分类层组成,该过程的具体实现步骤如下:
A.首先,将(2)中提取的语音特征作为输入发送到一个自编码网络,同时,将(2)中提取的语音特征经加噪处理后作为另一个自编码网络的输入,两个自编码网络同时进行学习,共同完成训练过程,这两个自编码网络均以原始的输入数据为目标进行学习,这一过程实现了对原始数据的重构,通过对最小化解码后的数据与输入数据之间误差函数,完成学习过程,其中,编码过程用以下公式来表示:
x1=x (1)
y1=f(wx1+b) (2)
y1 k=elu(wk-1·y1 k-1+bk-1) 2≤k≤K (3)
x2=x+xnoise (4)
y2=f(wx2+b) (5)
y2 k=elu(wk-1·y2 k-1+bk-1) 2≤k≤K (6)
其中x所代表的是一个自编码网络的输入,而y1、y2分别为编码网络的输出;
B.在数据进行编码之后,再以原始数据为目标进行数据的重构,该过程的实现过程可以表示为:
x1'=f(wy1+b) (7)
(x1')k=elu(wD k-1·(x1')k-1+bD k-1) 2≤k≤K-1 (8)
x2'=f(wy2+b) (9)
(x2')k=elu(wD k-1·(x2')k-1+bD k-1) 2≤k≤K-1 (10)
C.计算两个自编码网络的数据重构误差,损失函数分别为公式(11)、(12),两个自编码网络无监督部分的总损失为公式(13):
Lu=Lu1+Lu2 (13)
(4)将两个自编码网络的编码输出进行深层融合,该过程保留语音中的更多信息;
(5)将融合后的特征输入到全连接层,作为分类器的输入,该过程通过设置Dropout层,抑制网络的过拟合,然后将该输出结果进行分类识别,计算该有监督过程的损失计算选择交叉熵损失函数,实现过程如下:
(6)分类识别输出:将步骤(4)得到的融合后的特征送入全连接层,并采用有标签的数据通过softmax层进行识别分类,该过程可以表示为:
ypre=f(W·c+b) (15)
其中,c是两个分支通过编码后进行融合的数据集合,ypre是融合后数据经分类器后的分类结果,W,b分别是编码网络与分类器间的权重和偏置;
(7)为优化该语音测谎方法,采用梯度下降法来最小化误差函数,并根据误差函数进行网络参数的调整,以使该语音测谎方法性能达到最佳。
CN202011433508.2A 2020-12-09 2020-12-09 一种基于自编码网络联合学习的语音测谎方法 Active CN112562645B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011433508.2A CN112562645B (zh) 2020-12-09 2020-12-09 一种基于自编码网络联合学习的语音测谎方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011433508.2A CN112562645B (zh) 2020-12-09 2020-12-09 一种基于自编码网络联合学习的语音测谎方法

Publications (2)

Publication Number Publication Date
CN112562645A CN112562645A (zh) 2021-03-26
CN112562645B true CN112562645B (zh) 2023-11-14

Family

ID=75060150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011433508.2A Active CN112562645B (zh) 2020-12-09 2020-12-09 一种基于自编码网络联合学习的语音测谎方法

Country Status (1)

Country Link
CN (1) CN112562645B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520753A (zh) * 2018-02-26 2018-09-11 南京工程学院 基于卷积双向长短时记忆网络的语音测谎方法
CN110009025A (zh) * 2019-03-27 2019-07-12 河南工业大学 一种用于语音测谎的半监督加性噪声自编码器
CN110246509A (zh) * 2019-06-15 2019-09-17 河南工业大学 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构
CN110811647A (zh) * 2019-11-14 2020-02-21 清华大学 一种基于心冲击信号的多通道隐蔽性测谎方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520753A (zh) * 2018-02-26 2018-09-11 南京工程学院 基于卷积双向长短时记忆网络的语音测谎方法
CN110009025A (zh) * 2019-03-27 2019-07-12 河南工业大学 一种用于语音测谎的半监督加性噪声自编码器
CN110246509A (zh) * 2019-06-15 2019-09-17 河南工业大学 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构
CN110811647A (zh) * 2019-11-14 2020-02-21 清华大学 一种基于心冲击信号的多通道隐蔽性测谎方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于去噪自编码器和长短时记忆网络的语音测谎算法;傅洪亮 等;《计算机应用》;第40卷(第2期);正文589-594页 *
基于栈式去噪自编码器的语音测谎算法;雷沛之 等;《电子器件》;第42卷(第3期);正文793-796页 *

Also Published As

Publication number Publication date
CN112562645A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN110060690B (zh) 基于STARGAN和ResNet的多对多说话人转换方法
CN108777140A (zh) 一种非平行语料训练下基于vae的语音转换方法
CN110164476A (zh) 一种基于多输出特征融合的blstm的语音情感识别方法
CN109243494B (zh) 基于多重注意力机制长短时记忆网络的儿童情感识别方法
CN112581979B (zh) 一种基于语谱图的语音情绪识别方法
CN110853680A (zh) 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构
CN108922513A (zh) 语音区分方法、装置、计算机设备及存储介质
AU2020102038A4 (en) A speaker identification method based on deep learning
CN110009025B (zh) 一种用于语音测谎的半监督加性噪声自编码器
CN110459225A (zh) 一种基于cnn融合特征的说话人辨认系统
CN111429947A (zh) 一种基于多级残差卷积神经网络的语音情感识别方法
CN111899757A (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN111899766B (zh) 基于深度特征与声学特征寻优融合的语音情感识别方法
CN115394287A (zh) 混合语种语音识别方法、装置、系统及存储介质
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN117672268A (zh) 基于相对熵对齐融合的多模态语音情感识别方法
CN110246509A (zh) 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构
CN113851112A (zh) 一种基于多监督多特征融合的语音测谎方法
CN117746908A (zh) 基于时频特征分离式transformer交叉融合架构的语音情感识别方法
CN116434759B (zh) 一种基于srs-cl网络的说话人识别方法
CN112562645B (zh) 一种基于自编码网络联合学习的语音测谎方法
CN116434758A (zh) 声纹识别模型训练方法、装置、电子设备及存储介质
CN113282718B (zh) 一种基于自适应中心锚的语种识别方法及系统
CN110060692A (zh) 一种声纹识别系统及其识别方法
Li et al. Research on voiceprint recognition technology based on deep neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant