CN110147548B - 基于双向门控循环单元网络和新型网络初始化的情感识别方法 - Google Patents
基于双向门控循环单元网络和新型网络初始化的情感识别方法 Download PDFInfo
- Publication number
- CN110147548B CN110147548B CN201910298018.7A CN201910298018A CN110147548B CN 110147548 B CN110147548 B CN 110147548B CN 201910298018 A CN201910298018 A CN 201910298018A CN 110147548 B CN110147548 B CN 110147548B
- Authority
- CN
- China
- Prior art keywords
- network
- audio
- dimensional
- features
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
一种基于双向门控循环单元网络和新型网络初始化的情感识别方法,提取文本、视觉和音频三个模态的高维特征并按字级对齐,进行归一化处理,输入至双向门控循环单元网络进行训练,采用网络初始化方法对各个模态网络训练初期的双向门控循环单元网络和全连接网络的权重进行初始化,采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取,将两个池化后的特征向量进行拼接作为全连接网络的输入特征,将待识别的文本、视觉和音频输入训练后的各个模态的双向门控循环单元网络,得到各个模态的情感强度输出。本发明能克服长期依赖问题,提高双向门控循环单元网络在训练中的鲁棒性,提高基于情感时间上下文信息的情感识别准确率。
Description
技术领域
本发明涉及文本处理、音频处理、视觉处理、特征提取、深度学习、循环神经网络、情感识别等领域,尤其涉及一种情感识别方法。
背景技术
情感识别是自然语言处理领域的一个研究热点,情感识别的主要挑战是能够对发言者的情感进行连续的、实时的分析。从语言角度对情感进行建模的方法有很多,包括关注有意见的固定单词、N-gram语言模型、情感构成与基于依赖的分析,以及情绪的分布表征。基于音频和视觉情感识别与多模态情感分析密切相关。音频和视觉特征都被证明在情感识别中是有用的,并且联合使用面部表情和音频信息是近年来许多研究的焦点。
视频中发言者说的每句话都是在不同的时间,以特定的顺序说出来的。因此,视频可以被看作是一系列的话语。这就与任何其他序列分类问题一样,视频中的序列话语可能在很大程度上与上下文情境相关,从而影响发言者的情绪分布。人类对情感的识别很大程度上受到上下文情境信息的影响。在记录人的内心情感状态时,人的内心情感会随着时间的推移发生细微或强烈的变化,这些内心情感可以通过人的外在表现流露出来。具体可以表现为人在当前时刻的内心情感和过去时刻的内心情感以及未来时刻的内心情感具有相关性。面部表情是表达情感的重要渠道,通常被认为是一个人心理状态的投射。人们普遍认为面部表情的情感识别能力会随着上下文情境的联系而提高。综上所述,在研究情感识别时,需要充分考虑到上下文信息以提高情感识别的正确性和鲁棒性。
随着深度体系结构模型设计和学习算法的快速发展,深度学习方法已经广泛用于情感识别。循环神经网络在许多顺序数据处理任务中显示出相当大的成功,因而被应用在基于情感时间上下文信息的情感识别方法中。
发明内容
为了克服现有的基于情感时间上下文信息的情感识别方法训练过程中出现的长期依赖,容易在反向传播过程中出现梯度消散或梯度爆炸的问题,以及默认的网络模型参数不能在训练过程中学习到最佳的有用信息的问题,本发明提出基于双向门控循环单元(Bi-GRU)网络和新型网络初始化的情感识别方法,该方法能克服长期依赖问题,并调优深度ReLU网络模型的初始化参数,提高双向门控循环单元网络在训练中的鲁棒性,提高基于情感时间上下文信息的情感识别准确率。
本发明解决其技术问题所采用的技术方案是:
一种基于双向门控循环单元网络和新型网络初始化的情感识别方法,所述方法包括以下步骤:
步骤1,提取文本、视觉和音频三个模态的高维特征;
步骤2,将视觉和音频模态的高维特征与文本模态的高维特征按字级对齐,并对文本、视觉和音频三个模态的高维特征进行归一化处理;
步骤3,将字级对齐和归一化处理后的文本、视觉和音频三个模态的高维特征分别输入至双向门控循环单元网络进行训练,采用一种新型的网络初始化方法对各个模态网络训练初期的双向门控循环单元网络和全连接网络的权重进行初始化,采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取,将两个池化后的特征向量进行拼接作为全连接网络的输入特征;
步骤4,将待识别的文本、视觉和音频输入训练后的各个模态的双向门控循环单元网络,得到各个模态的情感强度输出。
进一步,所述步骤1中,提取文本、视觉和音频三个模态的高维特征,过程为:提取文本特征为其中Tl是意见发言视频中的单词数,lt表示300维Glove单词嵌入向量特征;使用FACET面部表情分析框架提取FACET视觉特征为其中,Tv是视频的总帧数,在第j帧提取的p个视觉特征为使用COVAREP声学分析框架提取COVAREP音频特征为其中,Ta是音频的分段帧数,在第j帧提取的q个声学特征为
更进一步,所述步骤2中,将视觉和音频模态的高维特征与文本模态的高维特征进行按字级对齐,并对文本、视觉和音频三个模态的高维特征进行归一化处理,过程为:文本模态提取的Glove特征的维度是(Tl,300),视频模态提取的FACET特征的维度是(Tv,p),音频模态提取的COVAREP特征的维度是(Ta,q),其中,Tl是意见发言视频中的单词数,Tv是视频的总帧数,p为视觉特征个数,Ta是音频的分段帧数,q为声学特征个数,将视频和音频模态的高维特征分别与文本模态的Glove特征按照每个意见发言分段Tl个单词进行对齐,记录第i个单词发言的开始时间和结束时间,分别从视觉和音频模态中提取该段时间中所有帧的高维特征,根据这段时间里每个模态的采样总数得到每个模态的平均特征作为对应模态的高维特征;此时文本、视觉和音频三个模态的高维特征已对齐,定义三个模态高维特征的个数都为对齐前文本模态的高维特征个数Tl,即文本高维特征维度为(Tl,300),视觉高维特征维度为(Tl,p),音频高维特征的维度是(Tl,q);对文本、视觉和音频三个模态的高维特征进行归一化处理,归一化处理为分别找到三个模态高维特征的最大值,三个模态的高维特征分别除以该模态下特征的最大值,将特征数据映射到0到1范围之内的小数。
更进一步,所述步骤3中,采用一种新型的网络初始化方法对各个模态网络训练初期的双向门控循环单元网络和全连接网络的权重进行初始化,过程为:对全连接网络的权重参数W初始化,使其符合正态分布,并将偏置项b设置为常数0,见式(1)所示:
b=0 (1)
其中,是期望为0,标准差为的正态分布,nin是输入的神经元个数;对双向门控循环单元网络中输入层至隐藏层的权重参数Wih初始化,使其符合正态分布,对隐藏层至隐藏层的权重参数Whh正交初始化,将输入层至隐藏层的偏差bih和隐藏层至隐藏层的偏差bhh设置为常数0,见式(2)所示:
Whh~Q
bih=0
bhh=0 (2)
更进一步,所述步骤3中,采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取,将两个池化后的特征向量进行拼接作为全连接网络的输入特征,过程为:经过双向门控循环单元网络对高维特征的上下文信息充分地学习后得到网络输出的状态信息为其中,和分别为双向门控循环单元网络在i(1≤i≤Tl)时刻的前向状态输出和后向状态输出,Tl为字级对齐后三个模态的高维特征个数,采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取,分别提取高维表征向量max(H)和avg(H),按以下公式计算:
将两个池化后的特征向量进行拼接,可以得到表征向量h+,按以下公式计算:
h+=[max(H),avg(H)] (4)
h+作为全连接网络的输入特征,全连接层执行特征加权操作,将学到的高维特征映射到样本标记空间,具体计算公式如下所示:
y=Wyh++by (5)
其中Wy是与h+相关的权重参数,by是与h+相关的偏差,y是单模态网络的情感强度输出。
本发明的有益效果为:克服长期依赖问题,并调优深度ReLU网络模型的初始化参数,提高双向门控循环单元网络在训练中的鲁棒性,提高基于情感时间上下文信息的情感识别准确率。
附图说明
图1为本发明的一种基于双向门控循环单元网络和新型网络初始化的情感识别方法流程图。
图2为文本特征输入双向门控循环单元网络的网络结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
参照图1和图2,一种基于双向门控循环单元网络和新型网络初始化的情感识别方法,包括以下步骤:
步骤1,提取文本、视觉和音频三个模态的高维特征;
提取文本特征为其中Tl是意见发言视频中的单词数,本实施例中,Tl=20,lt表示300维Glove单词嵌入向量特征;使用FACET面部表情分析框架提取FACET视觉特征为v={v1,v2,v3,...,vTv},其中,Tv是视频的总帧数,在第j帧提取的p个视觉特征为本实施例中,p=46;使用COVAREP声学分析框架提取COVAREP音频特征为其中,Ta是音频的分段帧数,在第j帧提取的q个声学特征为本实施例中,q=74。
步骤2,对三个模态高维特征字级对齐并归一化处理;
文本模态提取的Glove特征的维度是(20,300),视频模态提取的FACET特征的维度是(Tv,46),音频模态提取的COVAREP特征的维度是(Ta,74),其中,20是意见发言视频中的单词数,Tv是视频的总帧数,46为视觉特征个数,Ta是音频的分段帧数,74为声学特征个数,将视频和音频模态的高维特征分别与文本模态的Glove特征按照每个意见发言分段20个单词进行对齐,记录第i个单词发言的开始时间和结束时间,分别从视觉和音频模态中提取该段时间中所有帧的高维特征,根据这段时间里每个模态的采样总数得到每个模态的平均特征作为对应模态的高维特征;此时文本、视觉和音频三个模态的高维特征已对齐,定义三个模态高维特征的个数都为对齐前文本模态的高维特征个数20,即文本高维特征维度为(20,300),视觉高维特征维度为(20,46),音频高维特征的维度是(20,74);对文本、视觉和音频三个模态的高维特征进行归一化处理,归一化处理为分别找到三个模态高维特征的最大值,三个模态的高维特征分别除以该模态下特征的最大值,将特征数据映射到0到1范围之内的小数。
步骤3,双向门控循环单元网络学习;
将字级对齐和归一化处理后的文本、视觉和音频三个模态的高维特征分别作为双向门控循环单元网络的输入,以文本模态网络为例,文本特征输入到双向门控循环单元网络中,lt表示300维Glove单词嵌入向量特征,定义为双向门控循环单元网络前向计算时的计算公式,为双向门控循环单元网络后向计算时的计算公式,可得文本模态网络的计算公式如下所示:
采用一种新型的网络初始化方法对各个模态网络训练初期的双向门控循环单元网络和全连接网络的权重进行初始化,对全连接网络的权重参数W初始化,使其符合正态分布,并将偏置项b设置为常数0,见式(7)所示:
b=0 (7)
其中,是期望为0,标准差为的正态分布,nin是输入的神经元个数,本实施例中nin=300;对双向门控循环单元网络中输入层至隐藏层的权重参数Wih初始化,使其符合正态分布,对隐藏层至隐藏层的权重参数Whh正交初始化,将输入层至隐藏层的偏差bih和隐藏层至隐藏层的偏差bhh设置为常数0,见式(8)所示:
Whh~Q
bih=0
bhh=0 (8)
经过双向门控循环单元网络对高维特征的上下文信息充分地学习后得到网络输出的状态信息Tl=20,采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取。池化层使用重叠汇聚技术,通过池化来降低双向门控循环单元网络输出的状态信息特征向量维度,分别提取高维表征向量max(H)和avg(H),按以下公式计算:
其中,Tl=20,将两个池化后的特征向量进行拼接,可以得到表征向量h+,按以下公式计算:
h+=[max(H),avg(H)] (10)
h+作为全连接网络的输入特征。全连接层执行特征加权操作,将学到的高维特征映射到样本标记空间,具体计算公式如下所示:
y=Wyh++by (11)
其中Wy是与h+相关的权重参数,by是与h+相关的偏差,y是单模态网络的情感强度输出。
步骤4,将待识别的文本、视觉和音频输入训练后的各个模态的双向门控循环单元网络,得到各个模态的情感强度输出。
表1是采用CMU-MOSI数据集对文本、视觉和音频三个模态数据进行情感识别的结果,包括了二元情感分类、七元情感分类和情感强度回归。二元情感分类采用准确率和F1分数来衡量识别性能,七元情感分类采用准确率来衡量识别性能,情感强度回归采用平均绝对误差MAE和皮尔逊积矩相关系数γ来衡量识别性能。
表1
显而易见,在不偏离本发明的真实精神和范围的前提下,在此描述的本发明可以有许多变化。因此,所有对于本领域技术人员来说显而易见的改变,都应包括在本权利要求书所涵盖的范围之内。本发明所要求保护的范围仅由所述的权利要求书进行限定。
Claims (4)
1.一种基于双向门控循环单元网络和新型网络初始化的情感识别方法,其特征在于:所述方法包括以下步骤:
步骤1,提取文本、视觉和音频三个模态的高维特征;
步骤2,将视觉和音频模态的高维特征与文本模态的高维特征按字级对齐,并对文本、视觉和音频三个模态的高维特征进行归一化处理;
步骤3,将字级对齐和归一化处理后的文本、视觉和音频三个模态的高维特征分别输入至双向门控循环单元网络进行训练,采用一种新型的网络初始化方法对各个模态网络训练初期的双向门控循环单元网络和全连接网络的权重进行初始化,采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取,将两个池化后的特征向量进行拼接作为全连接网络的输入特征;
所述步骤3中,采用一种新型的网络初始化方法对各个模态网络训练初期的双向门控循环单元网络和全连接网络的权重进行初始化,过程为:对全连接网络的权重参数W初始化,使其符合正态分布,并将偏置项b设置为常数0,见式(1)所示:
b=0 (1)
其中,是期望为0,标准差为的正态分布,nin是输入的神经元个数;对双向门控循环单元网络中输入层至隐藏层的权重参数Wih初始化,使其符合正态分布,对隐藏层至隐藏层的权重参数Whh正交初始化,将输入层至隐藏层的偏差bih和隐藏层至隐藏层的偏差bhh设置为常数0,见式(2)所示:
Whh~Q
bih=0
bhh=0 (2)
步骤4,将待识别的文本、视觉和音频输入训练后的各个模态的双向门控循环单元网络,得到各个模态的情感强度输出。
3.如权利要求1或2所述的一种基于双向门控循环单元网络和新型网络初始化的情感识别方法,其特征在于:所述步骤2中,将视觉和音频模态的高维特征与文本模态的高维特征进行按字级对齐,并对文本、视觉和音频三个模态的高维特征进行归一化处理,过程为:文本模态提取的Glove特征的维度是(Tl,300),视频模态提取的FACET特征的维度是(Tv,p),音频模态提取的COVAREP特征的维度是(Ta,q),其中,Tl是意见发言视频中的单词数,Tv是视频的总帧数,p为视觉特征个数,Ta是音频的分段帧数,q为声学特征个数,将视频和音频模态的高维特征分别与文本模态的Glove特征按照每个意见发言分段Tl个单词进行对齐,记录第i个单词发言的开始时间和结束时间,分别从视觉和音频模态中提取该段时间中所有帧的高维特征,根据这段时间里每个模态的采样总数得到每个模态的平均特征作为对应模态的高维特征;此时文本、视觉和音频三个模态的高维特征已对齐,定义三个模态高维特征的个数都为对齐前文本模态的高维特征个数Tl,即文本高维特征维度为(Tl,300),视觉高维特征维度为(Tl,p),音频高维特征的维度是(Tl,q);对文本、视觉和音频三个模态的高维特征进行归一化处理,归一化处理为分别找到三个模态高维特征的最大值,三个模态的高维特征分别除以该模态下特征的最大值,将特征数据映射到0到1范围之内的小数。
4.如权利要求1或2所述的一种基于双向门控循环单元网络和新型网络初始化的情感识别方法,其特征在于:所述步骤3中,采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取,将两个池化后的特征向量进行拼接作为全连接网络的输入特征,过程为:经过双向门控循环单元网络对高维特征的上下文信息充分地学习后得到网络输出的状态信息为其中,和分别为双向门控循环单元网络在i(1≤i≤Tl)时刻的前向状态输出和后向状态输出,Tl为字级对齐后三个模态的高维特征个数,采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取,分别提取高维表征向量max(H)和avg(H),按以下公式计算:
将两个池化后的特征向量进行拼接,可以得到表征向量h+,按以下公式计算:
h+=[max(H),avg(H)] (4)
h+作为全连接网络的输入特征,全连接层执行特征加权操作,将学到的高维特征映射到样本标记空间,具体计算公式如下所示:
y=Wyh++by (5)
其中Wy是与h+相关的权重参数,by是与h+相关的偏差,y是单模态网络的情感强度输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910298018.7A CN110147548B (zh) | 2019-04-15 | 2019-04-15 | 基于双向门控循环单元网络和新型网络初始化的情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910298018.7A CN110147548B (zh) | 2019-04-15 | 2019-04-15 | 基于双向门控循环单元网络和新型网络初始化的情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110147548A CN110147548A (zh) | 2019-08-20 |
CN110147548B true CN110147548B (zh) | 2023-01-31 |
Family
ID=67588556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910298018.7A Active CN110147548B (zh) | 2019-04-15 | 2019-04-15 | 基于双向门控循环单元网络和新型网络初始化的情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110147548B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639661A (zh) * | 2019-08-29 | 2020-09-08 | 上海卓繁信息技术股份有限公司 | 文本相似度判别方法 |
WO2021134277A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
CN111275085B (zh) * | 2020-01-15 | 2022-09-13 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
CN111353302A (zh) * | 2020-03-03 | 2020-06-30 | 平安医疗健康管理股份有限公司 | 医学词义识别方法、装置、计算机设备和存储介质 |
CN111507421A (zh) * | 2020-04-22 | 2020-08-07 | 上海极链网络科技有限公司 | 一种基于视频的情感识别方法及装置 |
CN113593525A (zh) * | 2021-01-26 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 口音分类模型训练和口音分类方法、装置和存储介质 |
CN112560830B (zh) | 2021-02-26 | 2021-05-25 | 中国科学院自动化研究所 | 多模态维度情感识别方法 |
CN114881020A (zh) * | 2022-07-12 | 2022-08-09 | 成都晓多科技有限公司 | 基于交叉注意力和门机制的评论质量识别模型及方法 |
CN115100725B (zh) * | 2022-08-23 | 2022-11-22 | 浙江大华技术股份有限公司 | 目标识别方法、目标识别装置以及计算机存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919903A (zh) * | 2017-01-19 | 2017-07-04 | 中国科学院软件研究所 | 一种鲁棒的基于深度学习的连续情绪跟踪方法 |
CN108197109A (zh) * | 2017-12-29 | 2018-06-22 | 北京百分点信息科技有限公司 | 一种基于自然语言处理的多语言分析方法和装置 |
CN108596039A (zh) * | 2018-03-29 | 2018-09-28 | 南京邮电大学 | 一种基于3d卷积神经网络的双模态情感识别方法及系统 |
CN109508375A (zh) * | 2018-11-19 | 2019-03-22 | 重庆邮电大学 | 一种基于多模态融合的社交情感分类方法 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190042952A1 (en) * | 2017-08-03 | 2019-02-07 | Beijing University Of Technology | Multi-task Semi-Supervised Online Sequential Extreme Learning Method for Emotion Judgment of User |
-
2019
- 2019-04-15 CN CN201910298018.7A patent/CN110147548B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919903A (zh) * | 2017-01-19 | 2017-07-04 | 中国科学院软件研究所 | 一种鲁棒的基于深度学习的连续情绪跟踪方法 |
CN108197109A (zh) * | 2017-12-29 | 2018-06-22 | 北京百分点信息科技有限公司 | 一种基于自然语言处理的多语言分析方法和装置 |
CN108596039A (zh) * | 2018-03-29 | 2018-09-28 | 南京邮电大学 | 一种基于3d卷积神经网络的双模态情感识别方法及系统 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
CN109508375A (zh) * | 2018-11-19 | 2019-03-22 | 重庆邮电大学 | 一种基于多模态融合的社交情感分类方法 |
Non-Patent Citations (1)
Title |
---|
基于两种LSTM 结构的文本情感分析;张玉环等;《软件》;20180115;116-120 * |
Also Published As
Publication number | Publication date |
---|---|
CN110147548A (zh) | 2019-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147548B (zh) | 基于双向门控循环单元网络和新型网络初始化的情感识别方法 | |
CN110188343B (zh) | 基于融合注意力网络的多模态情感识别方法 | |
CN111275085B (zh) | 基于注意力融合的在线短视频多模态情感识别方法 | |
CN112784798B (zh) | 一种基于特征-时间注意力机制的多模态情感识别方法 | |
CN112000818B (zh) | 一种面向文本和图像的跨媒体检索方法及电子装置 | |
CN113822192B (zh) | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 | |
CN112905827A (zh) | 跨模态图文匹配的方法、装置及计算机可读存储介质 | |
CN114511906A (zh) | 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备 | |
CN113822125B (zh) | 唇语识别模型的处理方法、装置、计算机设备和存储介质 | |
CN115329779A (zh) | 一种多人对话情感识别方法 | |
Obin et al. | Similarity search of acted voices for automatic voice casting | |
CN110569869A (zh) | 一种用于多模态情绪检测的特征级融合方法 | |
CN111984780A (zh) | 多意图识别模型训练方法和多意图识别方法及相关装置 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN114550057A (zh) | 一种基于多模态表示学习的视频情绪识别方法 | |
CN116304973A (zh) | 一种基于多模态融合的课堂教学情感识别方法和系统 | |
Huang et al. | Speech emotion recognition using convolutional neural network with audio word-based embedding | |
CN116187349A (zh) | 一种基于场景图关系信息增强的视觉问答方法 | |
Pu et al. | Review on research progress of machine lip reading | |
Chen et al. | A bilevel framework for joint optimization of session compensation and classification for speaker identification | |
CN111462762B (zh) | 一种说话人向量正则化方法、装置、电子设备和存储介质 | |
CN116701996A (zh) | 基于多元损失函数的多模态情感分析方法、系统、设备及介质 | |
CN116860943A (zh) | 对话风格感知与主题引导的多轮对话方法及系统 | |
CN116775873A (zh) | 一种多模态对话情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |