CN113851112A - 一种基于多监督多特征融合的语音测谎方法 - Google Patents
一种基于多监督多特征融合的语音测谎方法 Download PDFInfo
- Publication number
- CN113851112A CN113851112A CN202111117671.2A CN202111117671A CN113851112A CN 113851112 A CN113851112 A CN 113851112A CN 202111117671 A CN202111117671 A CN 202111117671A CN 113851112 A CN113851112 A CN 113851112A
- Authority
- CN
- China
- Prior art keywords
- data
- network
- voice
- model
- errors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 29
- 230000004927 fusion Effects 0.000 title claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 7
- 238000003062 neural network model Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 10
- 238000013461 design Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000000137 annealing Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000011160 research Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000011840 criminal investigation Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000003098 Ganglion Cysts Diseases 0.000 description 1
- 208000005400 Synovial Cyst Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公布了一种基于多监督多特征融合的语音测谎方法,本发明包括以下步骤:首先,构建了基于CNN网络、LSTM网络、AE网络网络的混合神经网络模型,实现不同特征的互补,从特征层面确保模型的性能;其次,利用AE获取无监督重构误差,利用模型预测生成伪标签,并获取伪标签预测误差,利用少量有标签数据获取有监督识别误差,综合利用3种不同误差构建联合误差函数,从而获得最优训练模型;最后,输出数据分类识别。本发明所提出的一种基于多监督多特征融合的语音测谎方法,能够有效降低模型对有标签数据的依赖,在相同有标签数据的情况下,识别性能显著优于现有诸多算法,非常具有实用意义。
Description
技术领域
本发明属于语音信号处理技术领域,具体涉及到一种基于多监督多特征融合的语音测谎方法。
背景技术
说谎在人际交往中较为常见,是有意图传递错误信息的一个重要方式。从古至今,谎言检测都一个非常重要的一个研究方向,且该研究对刑事侦查、心理学研究等领域都有着重要的作用。传统的谎言检测技术主要是根据生理参数的变化进行判别,这种方法数据采集较困难,同时会引起受试者的抵触心理,从而影响检测结果。语音是人与人沟通交流最重要的途径之一,近些年,有学者提出了基于语音的测谎技术,该方法数据采集简单,隐蔽性较好,可以有效破解现有谎言检测技术的诸多问题,因此,该研究受到了广泛关注。
当前,针对语音谎言检测的研究主要集中在两个部分:谎言语料库的构建和语音特征的提取。对于数据库的构建,主要可以分为三类:游戏类型的谎言语料库、访谈类型的谎言语料库、模拟犯罪类型的谎言语料库。游戏类型的谎言语料库贴近生活,但受试者压力程度较低,谎言信息不显著;访谈类型的谎言语料库主要涉及面试、采访等场景,受试者相对研究,压力度略高于游戏类型数据库;模拟犯罪类型语料库主要涉及刑侦、间谍,问询者更加专业,包含诸多询问技巧与策略,受试者压力显著高于上述语料库,谎言特征相对显著,但数据不易获取。尽管学者们对谎言数据库的有了一定的研究,但与相关研究领域相比,公开的谎言数据库极少且数据量小,这给基于语音谎言检测的研究带来了巨大的难题。在特征提取方面,主要围绕韵律特征、谱相关特征、语音质量特征等进行研究。尽管上述研究取得了诸多巨大进步,但仍未有一种特征能够有效的表征语音中的谎言信息,因此,如何获取到更丰富的谎言特征仍需进一步努力。
基于上述分析,本文开展针对谎言特征提取及半监督识别模型的研究,旨在降低模型对有标签谎言语料库的依赖,同时提升模型识别性能。本研究首先搭建基于CNN、LSTM、AE的混合神经网络模型,利用CNN从语音的Mel谱中提取到与谎言相关的谱图时频信息;利用LSTM从语音谱图中逐帧提取语音谎言特征,补充卷积神经网络忽略的帧级情感特征;自编码网络实现人工设计声学谎言特征的迁移表征,可以为其他网络补充人工设计特征所包含的谎言信息;不同网络提取到的特征具有互补性,通过使用不同类型的特征,达到充分利用语音中包含的谎言信息的目的;其次,将不同网络提取到的深度特征融合,并利用AE获取无监督重构误差,利用模型预测生成伪标签,并获取伪标签预测误差,利用少量有标签数据获取有监督识别误差,根据三部分误差对模型进行反复训练以得到最佳模型。
发明内容
基于伪标签的半监督方法在图像分类中有良好的性能,但是语音测谎与这些领域的分类任务不同,根据语音测谎的特点,将基础网络进行改进,使其可以实现对无标记输入数据的高置信度伪标签的预测,并实现分类。于是,一种基于多监督多特征融合的语音测谎方法,具体步骤如下:
(1)语音信号预处理:在语音处理预处理阶段先给语音添加上真话与谎言的标签,然后再对语音进行分帧加窗等处理;
(2)语音特征提取:对(1)中经分帧加窗处理后的数据进行语音特征提取,提取预处理后语音的mels谱数据,并按帧输入LSTM网络中,提取帧级特征,其次将mels谱数据构建成3D图片,输入Alexnet网络,提取全局特征;再次采用人工设计特征提取人工设计特征,输入AE网络中;
(3)搭建网络模型:首先构建了基于CNN网络、LSTM网络、AE网络网络的混合神经网络模型,实现不同特征的互补,从特征层面确保模型的性能,然后利用网络中的无监督误差、半监督误差及监督误差对实现反向微调的过程:
A.首先,将(2)中提取的语音特征作为输入发送(3)中构建的混合神经网络,其中该输入特征中包含了大量的无标签数据和少量的有标签数据,并对无标记数据的AE特征进行加噪,于是得到加噪后的数据如公式并(1)所示,将其作为强增强数据同时输入网络,于是网络的输入数据可以用公式(2)表示:
X={xl,xu_weak,xu_strong} (2)
B.本发明中提取深层语音谎言特征之后,先利用少量的有标签数据训练模型,并对弱增强数据进行伪标签的生成,然后计算强增强数据的预测,并采用交叉熵损失对模型训练,最后结合AE的重构损失,对模型进行反复的训练,以生成置信度最高的伪标签用于模型反复训练,其中本发明的伪标签选择的约束条件使用以下公式表示:
max(P(y'|x;θ))>τ (3)
其中P(y'|x;θ)表示网络对弱增强无标签数据的标签预测输出,当输出最大概率大于所设置的阈值τ时,将该预测标签作为伪标签用于网络训练;
(4)将构建的三种不同的网络提取的不同特征输出进行深层融合,该过程保留语音中更丰富的谎言信息;
(5)本发明所提方法的优化过程由三部分误差函数共同实现,其中,利用AE对数据进行重构的功能,构建了AE的输入特征与重构特征之间的误差,同时利用模型为无标记数据生成伪标签,并获取伪标签预测误差,另外根据少量的有标签数据获取模型的监督识别误差。根据三部分的误差对网络进行训练,重复以上过程得到最佳语音测谎识别方法;
(6)分类识别输出:将步骤(4)得到的融合后的特征送入全连接层,并采用有标签的数据通过softmax层进行识别分类,该过程可以表示为:
ypre=f(W·c+b) (7)
其中,c是三个网络模块输出特征的融合数据集合,ypre是融合后数据经分类器后的分类结果,W,b分别是编码网络与分类器间的权重和偏置;
(7)为优化该发明提出的方法,采用梯度下降法来最小化误差函数(无监督重构误差、伪标签预测误差、有监督识别误差),并根据误差函数进行网络参数的调整,此外,采用余弦退火衰减学习率对学习率进行调整,原理如公式(7),以使该发明所提出的语音测谎方法性能达到最佳,全部损失用公式(8)表示;
Lall=LS+LU+LR (9)
附图说明
图1为一种基于多监督多特征融合的语音测谎方法结构图,图2为Alexnet结构图,图3为Bi-LSTM结构图,图4为AE结构图,图5为伪标签生成过程图。
具体实施方式
下面结合具体实施方式对本发明做更进一步的说明。
本发明提出的是一种基于多监督多特征的语音测谎方法,针对在语音测谎领域存在的难题提出了可行性的解决方法,步骤如下:
基于伪标签的半监督方法在图像分类中有良好的性能,但是语音测谎与这些领域的分类任务不同,根据语音测谎的特点,将基础网络进行改进,使其可以实现对无标记输入数据的高置信度伪标签的预测,并实现分类。于是,一种基于多监督多特征融合的语音测谎方法,具体步骤如下:
(1)语音信号预处理:在语音处理预处理阶段先给语音添加上真话与谎言的标签,然后再对语音进行分帧加窗等处理;
(2)语音特征提取:对(1)中经分帧加窗处理后的数据进行语音特征提取,提取预处理后语音的mels谱数据,并按帧输入LSTM网络中,提取帧级特征,其次将mels谱数据构建成3D图片,输入Alexnet网络,提取全局特征;再次采用人工设计特征提取人工设计特征,输入AE网络中;
(3)搭建网络模型:首先构建了基于CNN网络、LSTM网络、AE网络网络的混合神经网络模型,实现不同特征的互补,从特征层面确保模型的性能,然后利用网络中的无监督误差、半监督误差及监督误差对实现反向微调的过程:
A.首先,将(2)中提取的语音特征作为输入发送(3)中构建的混合神经网络,其中该输入特征中包含了大量的无标签数据和少量的有标签数据,并对无标记数据的AE特征进行加噪,于是得到加噪后的数据如公式并(1)所示,将其作为强增强数据同时输入网络,于是网络的输入数据可以用公式(2)表示:
X={xl,xu_weak,xu_strong} (2)
B.本发明中提取深层语音谎言特征之后,先利用少量的有标签数据训练模型,并对弱增强数据进行伪标签的生成,然后计算强增强数据的预测,并采用交叉熵损失对模型训练,最后结合AE的重构损失,对模型进行反复的训练,以生成置信度最高的伪标签用于模型反复训练,其中本发明的伪标签选择的约束条件使用以下公式表示:
max(P(y'|x;θ))>τ (3)
其中P(y'|x;θ)表示网络对弱增强无标签数据的标签预测输出,当输出最大概率大于所设置的阈值τ时,将该预测标签作为伪标签用于网络训练;
(4)将构建的三种不同的网络提取的不同特征输出进行深层融合,该过程保留语音中更丰富的谎言信息;
(5)本发明所提方法的优化过程由三部分误差函数共同实现,其中,利用AE对数据进行重构的功能,构建了AE的输入特征与重构特征之间的误差,同时利用模型为无标记数据生成伪标签,并获取伪标签预测误差,另外根据少量的有标签数据获取模型的监督识别误差。根据三部分的误差对网络进行训练,重复以上过程得到最佳语音测谎识别方法;
(6)分类识别输出:将步骤(4)得到的融合后的特征送入全连接层,并采用有标签的数据通过softmax层进行识别分类,该过程可以表示为:
ypre=f(W·c+b) (7)
其中,c是三个网络模块输出特征的融合数据集合,ypre是融合后数据经分类器后的分类结果,W,b分别是编码网络与分类器间的权重和偏置;
(7)为优化该发明提出的方法,采用梯度下降法来最小化误差函数(无监督重构误差、伪标签预测误差、有监督识别误差),并根据误差函数进行网络参数的调整,此外,采用余弦退火衰减学习率对学习率进行调整,原理如公式(7),以使该发明所提出的语音测谎方法性能达到最佳,全部损失用公式(8)表示;
Lall=LS+LU+LR (9)
为了验证所提出的一种基于多监督多特征融合的语音测谎方法,本发明的验证在Interview和CSC谎言语料库上进行实验。其中,Interview库共包含真话477条,谎言891条,合计1368条语音。在本发明中,将训练集与测试集按照约9:1的比例划分,并且在测试集中仅选择150、300条有标签语音进行训练。CSC谎言语料库包含有5411条语音(谎言为2209条,真话为3202条)。在本发明中,将训练集与测试集按照约9:1的比例划分,并且在测试集中仅选择500、1000条有标签语音进行训练。首先,3D-Mel谱图特征、帧级特征、384维静态特征分别输入到Alexnet、Bi-LSTM、AE用于深度特征的提取。特别地,Alexnet两层全连接层的输出节点分别为2048和2(类别数);Bi-LSTM模块隐层神经节点数设置为512,层数为2;AE为最简单的三层自编码器,每层的节点数为(384,64),(64,384),且对无标记的384维静态特征添加系数为0.3的随机噪声。其次,在伪标签的选择上,本文将最大概率阈值选择为0.80,假如预测概率超过该阈值,则保留该伪标签。最后,通过Adam优化器最小化误差函数对模型进行优化,学习率设置为0.0000005。本发明提出的方法性能将用准确率进行评估,在每次的训练过程中,迭代次数为512,批次大小为32。为保证模型的有效性,模型进行10次的训练,并将10次训练的平均值作为最终的识别率。仿真实验结果表明:所提方法能够有效降低模型对有标签数据的依赖,在相同有标签数据的情况下,识别性能显著优于现有诸多方法。
Claims (1)
1.一种基于多监督多特征融合的语音测谎方法,其特征在于,包括以下步骤:
(1)语音信号预处理:在语音处理预处理阶段先给语音添加上真话与谎言的标签,然后再对语音进行分帧加窗等处理;
(2)语音特征提取:对(1)中经分帧加窗处理后的数据进行语音特征提取,提取预处理后语音的mels谱数据,并按帧输入LSTM网络中,提取帧级特征,其次将mels谱数据构建成3D图片,输入Alexnet网络,提取全局特征;再次采用人工设计特征提取人工设计特征,输入AE网络中;
(3)搭建网络模型:首先构建了基于CNN网络、LSTM网络、AE网络网络的混合神经网络模型,实现不同特征的互补,从特征层面确保模型的性能,然后利用网络中的无监督误差、半监督误差及监督误差对实现反向微调的过程:
A.首先,将(2)中提取的语音特征作为输入发送(3)中构建的混合神经网络,其中该输入特征中包含了大量的无标签数据和少量的有标签数据,并对无标记数据的AE特征进行加噪,于是得到加噪后的数据如公式并(1)所示,将其作为强增强数据同时输入网络,于是网络的输入数据可以用公式(2)表示:
X={xl,xu_weak,xu_strong} (2)
B.本发明中提取深层语音谎言特征之后,先利用少量的有标签数据训练模型,并对弱增强数据进行伪标签的生成,然后计算强增强数据的预测,并采用交叉熵损失对模型训练,最后结合AE的重构损失,对模型进行反复的训练,以生成置信度最高的伪标签用于模型反复训练,其中本发明的伪标签选择的约束条件使用以下公式表示:
max(P(y'|x;θ))>τ (3)
其中P(y'|x;θ)表示网络对弱增强无标签数据的标签预测输出,当输出最大概率大于所设置的阈值τ时,将该预测标签作为伪标签用于网络训练;
(4)将构建的三种不同的网络提取的不同特征输出进行深层融合,该过程保留语音中更丰富的谎言信息;
(5)本发明所提方法的优化过程由三部分误差函数共同实现,其中,利用AE对数据进行重构的功能,构建了AE的输入特征与重构特征之间的误差,同时利用模型为无标记数据生成伪标签,并获取伪标签预测误差,另外根据少量的有标签数据获取模型的监督识别误差;根据三部分的误差对网络进行训练,重复以上过程得到最佳语音测谎识别方法;
(6)分类识别输出:将步骤(4)得到的融合后的特征送入全连接层,并采用有标签的数据通过softmax层进行识别分类,该过程可以表示为:
ypre=f(W·c+b) (7)
其中,c是三个网络模块输出特征的融合数据集合,ypre是融合后数据经分类器后的分类结果,W,b分别是编码网络与分类器间的权重和偏置;
(7)为优化该发明提出的方法,采用梯度下降法来最小化误差函数(无监督重构误差、伪标签预测误差、有监督识别误差),并根据误差函数进行网络参数的调整,此外,采用余弦退火衰减学习率对学习率进行调整,原理如公式(7),以使该发明所提出的语音测谎方法性能达到最佳,全部损失用公式(8)表示;
Lall=LS+LU+LR (9)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111117671.2A CN113851112A (zh) | 2021-09-23 | 2021-09-23 | 一种基于多监督多特征融合的语音测谎方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111117671.2A CN113851112A (zh) | 2021-09-23 | 2021-09-23 | 一种基于多监督多特征融合的语音测谎方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113851112A true CN113851112A (zh) | 2021-12-28 |
Family
ID=78979527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111117671.2A Pending CN113851112A (zh) | 2021-09-23 | 2021-09-23 | 一种基于多监督多特征融合的语音测谎方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113851112A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116453507A (zh) * | 2023-02-21 | 2023-07-18 | 北京数美时代科技有限公司 | 基于置信度模型的语音识别优化方法、系统和存储介质 |
CN116994590A (zh) * | 2023-09-27 | 2023-11-03 | 中国信息通信研究院 | 一种深度伪造音频鉴别方法和系统 |
-
2021
- 2021-09-23 CN CN202111117671.2A patent/CN113851112A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116453507A (zh) * | 2023-02-21 | 2023-07-18 | 北京数美时代科技有限公司 | 基于置信度模型的语音识别优化方法、系统和存储介质 |
CN116453507B (zh) * | 2023-02-21 | 2023-09-08 | 北京数美时代科技有限公司 | 基于置信度模型的语音识别优化方法、系统和存储介质 |
CN116994590A (zh) * | 2023-09-27 | 2023-11-03 | 中国信息通信研究院 | 一种深度伪造音频鉴别方法和系统 |
CN116994590B (zh) * | 2023-09-27 | 2023-12-15 | 中国信息通信研究院 | 一种深度伪造音频鉴别方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110060690B (zh) | 基于STARGAN和ResNet的多对多说话人转换方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN112818861B (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN112216271B (zh) | 一种基于卷积块注意机制的视听双模态语音识别方法 | |
CN110111783A (zh) | 一种基于深度神经网络的多模态语音识别方法 | |
CN110321418A (zh) | 一种基于深度学习的领域、意图识别和槽填充方法 | |
CN113851112A (zh) | 一种基于多监督多特征融合的语音测谎方法 | |
CN112766355A (zh) | 一种标签噪声下的脑电信号情绪识别方法 | |
CN107039036A (zh) | 一种基于自动编码深度置信网络的高质量说话人识别方法 | |
CN109255381A (zh) | 一种基于二阶vlad稀疏自适应深度网络的图像分类方法 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN115238835B (zh) | 基于双空间自适应融合的脑电情感识别方法、介质及设备 | |
CN111368142A (zh) | 一种基于生成对抗网络的视频密集事件描述方法 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN114203177A (zh) | 一种基于深度学习与情绪识别的智能语音问答方法和系统 | |
CN111523367B (zh) | 基于人脸属性分析的智能化人脸表情识别方法与系统 | |
CN116230019A (zh) | 一种基于半监督语音情感识别框架的深度情感聚类方法 | |
CN116884067B (zh) | 一种基于改进的隐式语义数据增强的微表情识别方法 | |
CN116434759B (zh) | 一种基于srs-cl网络的说话人识别方法 | |
CN115472182A (zh) | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 | |
CN113870869A (zh) | 一种基于样本不均衡的半监督语音测谎方法 | |
CN114202056A (zh) | 一种基于多平台听觉感知特征深度迁移学习的小样本水中目标识别方法 | |
CN114283301A (zh) | 一种基于Transformer的自适应医学影像分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20211228 |