CN110147548B - 基于双向门控循环单元网络和新型网络初始化的情感识别方法 - Google Patents

基于双向门控循环单元网络和新型网络初始化的情感识别方法 Download PDF

Info

Publication number
CN110147548B
CN110147548B CN201910298018.7A CN201910298018A CN110147548B CN 110147548 B CN110147548 B CN 110147548B CN 201910298018 A CN201910298018 A CN 201910298018A CN 110147548 B CN110147548 B CN 110147548B
Authority
CN
China
Prior art keywords
network
audio
dimensional
features
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910298018.7A
Other languages
English (en)
Other versions
CN110147548A (zh
Inventor
宦若虹
鲍晟霖
葛罗棋
谢超杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910298018.7A priority Critical patent/CN110147548B/zh
Publication of CN110147548A publication Critical patent/CN110147548A/zh
Application granted granted Critical
Publication of CN110147548B publication Critical patent/CN110147548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

一种基于双向门控循环单元网络和新型网络初始化的情感识别方法,提取文本、视觉和音频三个模态的高维特征并按字级对齐,进行归一化处理,输入至双向门控循环单元网络进行训练,采用网络初始化方法对各个模态网络训练初期的双向门控循环单元网络和全连接网络的权重进行初始化,采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取,将两个池化后的特征向量进行拼接作为全连接网络的输入特征,将待识别的文本、视觉和音频输入训练后的各个模态的双向门控循环单元网络,得到各个模态的情感强度输出。本发明能克服长期依赖问题,提高双向门控循环单元网络在训练中的鲁棒性,提高基于情感时间上下文信息的情感识别准确率。

Description

基于双向门控循环单元网络和新型网络初始化的情感识别 方法
技术领域
本发明涉及文本处理、音频处理、视觉处理、特征提取、深度学习、循环神经网络、情感识别等领域,尤其涉及一种情感识别方法。
背景技术
情感识别是自然语言处理领域的一个研究热点,情感识别的主要挑战是能够对发言者的情感进行连续的、实时的分析。从语言角度对情感进行建模的方法有很多,包括关注有意见的固定单词、N-gram语言模型、情感构成与基于依赖的分析,以及情绪的分布表征。基于音频和视觉情感识别与多模态情感分析密切相关。音频和视觉特征都被证明在情感识别中是有用的,并且联合使用面部表情和音频信息是近年来许多研究的焦点。
视频中发言者说的每句话都是在不同的时间,以特定的顺序说出来的。因此,视频可以被看作是一系列的话语。这就与任何其他序列分类问题一样,视频中的序列话语可能在很大程度上与上下文情境相关,从而影响发言者的情绪分布。人类对情感的识别很大程度上受到上下文情境信息的影响。在记录人的内心情感状态时,人的内心情感会随着时间的推移发生细微或强烈的变化,这些内心情感可以通过人的外在表现流露出来。具体可以表现为人在当前时刻的内心情感和过去时刻的内心情感以及未来时刻的内心情感具有相关性。面部表情是表达情感的重要渠道,通常被认为是一个人心理状态的投射。人们普遍认为面部表情的情感识别能力会随着上下文情境的联系而提高。综上所述,在研究情感识别时,需要充分考虑到上下文信息以提高情感识别的正确性和鲁棒性。
随着深度体系结构模型设计和学习算法的快速发展,深度学习方法已经广泛用于情感识别。循环神经网络在许多顺序数据处理任务中显示出相当大的成功,因而被应用在基于情感时间上下文信息的情感识别方法中。
发明内容
为了克服现有的基于情感时间上下文信息的情感识别方法训练过程中出现的长期依赖,容易在反向传播过程中出现梯度消散或梯度爆炸的问题,以及默认的网络模型参数不能在训练过程中学习到最佳的有用信息的问题,本发明提出基于双向门控循环单元(Bi-GRU)网络和新型网络初始化的情感识别方法,该方法能克服长期依赖问题,并调优深度ReLU网络模型的初始化参数,提高双向门控循环单元网络在训练中的鲁棒性,提高基于情感时间上下文信息的情感识别准确率。
本发明解决其技术问题所采用的技术方案是:
一种基于双向门控循环单元网络和新型网络初始化的情感识别方法,所述方法包括以下步骤:
步骤1,提取文本、视觉和音频三个模态的高维特征;
步骤2,将视觉和音频模态的高维特征与文本模态的高维特征按字级对齐,并对文本、视觉和音频三个模态的高维特征进行归一化处理;
步骤3,将字级对齐和归一化处理后的文本、视觉和音频三个模态的高维特征分别输入至双向门控循环单元网络进行训练,采用一种新型的网络初始化方法对各个模态网络训练初期的双向门控循环单元网络和全连接网络的权重进行初始化,采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取,将两个池化后的特征向量进行拼接作为全连接网络的输入特征;
步骤4,将待识别的文本、视觉和音频输入训练后的各个模态的双向门控循环单元网络,得到各个模态的情感强度输出。
进一步,所述步骤1中,提取文本、视觉和音频三个模态的高维特征,过程为:提取文本特征为
Figure BDA0002027263850000031
其中Tl是意见发言视频中的单词数,lt表示300维Glove单词嵌入向量特征;使用FACET面部表情分析框架提取FACET视觉特征为
Figure BDA0002027263850000032
其中,Tv是视频的总帧数,在第j帧提取的p个视觉特征为
Figure BDA0002027263850000033
使用COVAREP声学分析框架提取COVAREP音频特征为
Figure BDA0002027263850000034
其中,Ta是音频的分段帧数,在第j帧提取的q个声学特征为
Figure BDA0002027263850000035
更进一步,所述步骤2中,将视觉和音频模态的高维特征与文本模态的高维特征进行按字级对齐,并对文本、视觉和音频三个模态的高维特征进行归一化处理,过程为:文本模态提取的Glove特征的维度是(Tl,300),视频模态提取的FACET特征的维度是(Tv,p),音频模态提取的COVAREP特征的维度是(Ta,q),其中,Tl是意见发言视频中的单词数,Tv是视频的总帧数,p为视觉特征个数,Ta是音频的分段帧数,q为声学特征个数,将视频和音频模态的高维特征分别与文本模态的Glove特征按照每个意见发言分段Tl个单词进行对齐,记录第i个单词发言的开始时间和结束时间,分别从视觉和音频模态中提取该段时间中所有帧的高维特征,根据这段时间里每个模态的采样总数得到每个模态的平均特征作为对应模态的高维特征;此时文本、视觉和音频三个模态的高维特征已对齐,定义三个模态高维特征的个数都为对齐前文本模态的高维特征个数Tl,即文本高维特征维度为(Tl,300),视觉高维特征维度为(Tl,p),音频高维特征的维度是(Tl,q);对文本、视觉和音频三个模态的高维特征进行归一化处理,归一化处理为分别找到三个模态高维特征的最大值,三个模态的高维特征分别除以该模态下特征的最大值,将特征数据映射到0到1范围之内的小数。
更进一步,所述步骤3中,采用一种新型的网络初始化方法对各个模态网络训练初期的双向门控循环单元网络和全连接网络的权重进行初始化,过程为:对全连接网络的权重参数W初始化,使其符合正态分布,并将偏置项b设置为常数0,见式(1)所示:
Figure BDA0002027263850000041
b=0 (1)
其中,
Figure BDA0002027263850000042
是期望为0,标准差为
Figure BDA0002027263850000043
的正态分布,nin是输入的神经元个数;对双向门控循环单元网络中输入层至隐藏层的权重参数Wih初始化,使其符合正态分布,对隐藏层至隐藏层的权重参数Whh正交初始化,将输入层至隐藏层的偏差bih和隐藏层至隐藏层的偏差bhh设置为常数0,见式(2)所示:
Figure BDA0002027263850000051
Whh~Q
bih=0
bhh=0 (2)
其中,hiddensize是双向门控循环单元网络的隐藏状态的特征数,
Figure BDA0002027263850000052
是期望为0,标准差为
Figure BDA0002027263850000053
的正态分布,Q是单位正交矩阵,其特征值绝对值等于1。
更进一步,所述步骤3中,采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取,将两个池化后的特征向量进行拼接作为全连接网络的输入特征,过程为:经过双向门控循环单元网络对高维特征的上下文信息充分地学习后得到网络输出的状态信息为
Figure BDA0002027263850000054
其中,
Figure BDA0002027263850000055
Figure BDA0002027263850000056
分别为双向门控循环单元网络在i(1≤i≤Tl)时刻的前向状态输出和后向状态输出,Tl为字级对齐后三个模态的高维特征个数,采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取,分别提取高维表征向量max(H)和avg(H),按以下公式计算:
Figure BDA0002027263850000057
将两个池化后的特征向量进行拼接,可以得到表征向量h+,按以下公式计算:
h+=[max(H),avg(H)] (4)
h+作为全连接网络的输入特征,全连接层执行特征加权操作,将学到的高维特征映射到样本标记空间,具体计算公式如下所示:
y=Wyh++by (5)
其中Wy是与h+相关的权重参数,by是与h+相关的偏差,y是单模态网络的情感强度输出。
本发明的有益效果为:克服长期依赖问题,并调优深度ReLU网络模型的初始化参数,提高双向门控循环单元网络在训练中的鲁棒性,提高基于情感时间上下文信息的情感识别准确率。
附图说明
图1为本发明的一种基于双向门控循环单元网络和新型网络初始化的情感识别方法流程图。
图2为文本特征输入双向门控循环单元网络的网络结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
参照图1和图2,一种基于双向门控循环单元网络和新型网络初始化的情感识别方法,包括以下步骤:
步骤1,提取文本、视觉和音频三个模态的高维特征;
提取文本特征为
Figure BDA0002027263850000061
其中Tl是意见发言视频中的单词数,本实施例中,Tl=20,lt表示300维Glove单词嵌入向量特征;使用FACET面部表情分析框架提取FACET视觉特征为v={v1,v2,v3,...,vTv},其中,Tv是视频的总帧数,在第j帧提取的p个视觉特征为
Figure BDA0002027263850000071
本实施例中,p=46;使用COVAREP声学分析框架提取COVAREP音频特征为
Figure BDA0002027263850000072
其中,Ta是音频的分段帧数,在第j帧提取的q个声学特征为
Figure BDA0002027263850000073
本实施例中,q=74。
步骤2,对三个模态高维特征字级对齐并归一化处理;
文本模态提取的Glove特征的维度是(20,300),视频模态提取的FACET特征的维度是(Tv,46),音频模态提取的COVAREP特征的维度是(Ta,74),其中,20是意见发言视频中的单词数,Tv是视频的总帧数,46为视觉特征个数,Ta是音频的分段帧数,74为声学特征个数,将视频和音频模态的高维特征分别与文本模态的Glove特征按照每个意见发言分段20个单词进行对齐,记录第i个单词发言的开始时间和结束时间,分别从视觉和音频模态中提取该段时间中所有帧的高维特征,根据这段时间里每个模态的采样总数得到每个模态的平均特征作为对应模态的高维特征;此时文本、视觉和音频三个模态的高维特征已对齐,定义三个模态高维特征的个数都为对齐前文本模态的高维特征个数20,即文本高维特征维度为(20,300),视觉高维特征维度为(20,46),音频高维特征的维度是(20,74);对文本、视觉和音频三个模态的高维特征进行归一化处理,归一化处理为分别找到三个模态高维特征的最大值,三个模态的高维特征分别除以该模态下特征的最大值,将特征数据映射到0到1范围之内的小数。
步骤3,双向门控循环单元网络学习;
将字级对齐和归一化处理后的文本、视觉和音频三个模态的高维特征分别作为双向门控循环单元网络的输入,以文本模态网络为例,文本特征
Figure BDA0002027263850000081
输入到双向门控循环单元网络中,lt表示300维Glove单词嵌入向量特征,定义
Figure BDA0002027263850000082
为双向门控循环单元网络前向计算时的计算公式,
Figure BDA0002027263850000083
为双向门控循环单元网络后向计算时的计算公式,可得文本模态网络的计算公式如下所示:
Figure BDA0002027263850000084
其中
Figure BDA0002027263850000085
Figure BDA0002027263850000086
分别作为双向门控循环单元网络在t时刻的前向状态输出和后向状态输出,
Figure BDA0002027263850000087
为t-1时刻的前向状态输出,
Figure BDA0002027263850000088
为t+1时刻的后向状态输出,网络结构图如附图2所示。
采用一种新型的网络初始化方法对各个模态网络训练初期的双向门控循环单元网络和全连接网络的权重进行初始化,对全连接网络的权重参数W初始化,使其符合正态分布,并将偏置项b设置为常数0,见式(7)所示:
Figure BDA0002027263850000089
b=0 (7)
其中,
Figure BDA00020272638500000810
是期望为0,标准差为
Figure BDA00020272638500000811
的正态分布,nin是输入的神经元个数,本实施例中nin=300;对双向门控循环单元网络中输入层至隐藏层的权重参数Wih初始化,使其符合正态分布,对隐藏层至隐藏层的权重参数Whh正交初始化,将输入层至隐藏层的偏差bih和隐藏层至隐藏层的偏差bhh设置为常数0,见式(8)所示:
Figure BDA0002027263850000091
Whh~Q
bih=0
bhh=0 (8)
其中,hiddensize是双向门控循环单元网络的隐藏状态的特征数,
Figure BDA0002027263850000092
是期望为0,标准差为
Figure BDA0002027263850000093
的正态分布,Q是单位正交矩阵,其特征值绝对值等于1。
经过双向门控循环单元网络对高维特征的上下文信息充分地学习后得到网络输出的状态信息
Figure BDA0002027263850000094
Tl=20,采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取。池化层使用重叠汇聚技术,通过池化来降低双向门控循环单元网络输出的状态信息特征向量维度,分别提取高维表征向量max(H)和avg(H),按以下公式计算:
Figure BDA0002027263850000095
其中,Tl=20,将两个池化后的特征向量进行拼接,可以得到表征向量h+,按以下公式计算:
h+=[max(H),avg(H)] (10)
h+作为全连接网络的输入特征。全连接层执行特征加权操作,将学到的高维特征映射到样本标记空间,具体计算公式如下所示:
y=Wyh++by (11)
其中Wy是与h+相关的权重参数,by是与h+相关的偏差,y是单模态网络的情感强度输出。
步骤4,将待识别的文本、视觉和音频输入训练后的各个模态的双向门控循环单元网络,得到各个模态的情感强度输出。
表1是采用CMU-MOSI数据集对文本、视觉和音频三个模态数据进行情感识别的结果,包括了二元情感分类、七元情感分类和情感强度回归。二元情感分类采用准确率和F1分数来衡量识别性能,七元情感分类采用准确率来衡量识别性能,情感强度回归采用平均绝对误差MAE和皮尔逊积矩相关系数γ来衡量识别性能。
Figure BDA0002027263850000101
表1
显而易见,在不偏离本发明的真实精神和范围的前提下,在此描述的本发明可以有许多变化。因此,所有对于本领域技术人员来说显而易见的改变,都应包括在本权利要求书所涵盖的范围之内。本发明所要求保护的范围仅由所述的权利要求书进行限定。

Claims (4)

1.一种基于双向门控循环单元网络和新型网络初始化的情感识别方法,其特征在于:所述方法包括以下步骤:
步骤1,提取文本、视觉和音频三个模态的高维特征;
步骤2,将视觉和音频模态的高维特征与文本模态的高维特征按字级对齐,并对文本、视觉和音频三个模态的高维特征进行归一化处理;
步骤3,将字级对齐和归一化处理后的文本、视觉和音频三个模态的高维特征分别输入至双向门控循环单元网络进行训练,采用一种新型的网络初始化方法对各个模态网络训练初期的双向门控循环单元网络和全连接网络的权重进行初始化,采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取,将两个池化后的特征向量进行拼接作为全连接网络的输入特征;
所述步骤3中,采用一种新型的网络初始化方法对各个模态网络训练初期的双向门控循环单元网络和全连接网络的权重进行初始化,过程为:对全连接网络的权重参数W初始化,使其符合正态分布,并将偏置项b设置为常数0,见式(1)所示:
Figure FDA0003874113810000011
b=0 (1)
其中,
Figure FDA0003874113810000012
是期望为0,标准差为
Figure FDA0003874113810000013
的正态分布,nin是输入的神经元个数;对双向门控循环单元网络中输入层至隐藏层的权重参数Wih初始化,使其符合正态分布,对隐藏层至隐藏层的权重参数Whh正交初始化,将输入层至隐藏层的偏差bih和隐藏层至隐藏层的偏差bhh设置为常数0,见式(2)所示:
Figure FDA0003874113810000021
Whh~Q
bih=0
bhh=0 (2)
其中,hiddensize是双向门控循环单元网络的隐藏状态的特征数,
Figure FDA0003874113810000022
是期望为0,标准差为
Figure FDA0003874113810000023
的正态分布,Q是单位正交矩阵,其特征值绝对值等于1;
步骤4,将待识别的文本、视觉和音频输入训练后的各个模态的双向门控循环单元网络,得到各个模态的情感强度输出。
2.如权利要求1所述的一种基于双向门控循环单元网络和新型网络初始化的情感识别方法,其特征在于:所述步骤1中,提取文本、视觉和音频三个模态的高维特征,过程为:提取文本特征为
Figure FDA0003874113810000024
其中Tl是意见发言视频中的单词数,lt表示300维Glove单词嵌入向量特征;使用FACET面部表情分析框架提取FACET视觉特征为
Figure FDA0003874113810000025
其中,Tv是视频的总帧数,在第j帧提取的p个视觉特征为
Figure FDA0003874113810000026
使用COVAREP声学分析框架提取COVAREP音频特征为
Figure FDA0003874113810000027
其中,Ta是音频的分段帧数,在第j帧提取的q个声学特征为
Figure FDA0003874113810000028
3.如权利要求1或2所述的一种基于双向门控循环单元网络和新型网络初始化的情感识别方法,其特征在于:所述步骤2中,将视觉和音频模态的高维特征与文本模态的高维特征进行按字级对齐,并对文本、视觉和音频三个模态的高维特征进行归一化处理,过程为:文本模态提取的Glove特征的维度是(Tl,300),视频模态提取的FACET特征的维度是(Tv,p),音频模态提取的COVAREP特征的维度是(Ta,q),其中,Tl是意见发言视频中的单词数,Tv是视频的总帧数,p为视觉特征个数,Ta是音频的分段帧数,q为声学特征个数,将视频和音频模态的高维特征分别与文本模态的Glove特征按照每个意见发言分段Tl个单词进行对齐,记录第i个单词发言的开始时间和结束时间,分别从视觉和音频模态中提取该段时间中所有帧的高维特征,根据这段时间里每个模态的采样总数得到每个模态的平均特征作为对应模态的高维特征;此时文本、视觉和音频三个模态的高维特征已对齐,定义三个模态高维特征的个数都为对齐前文本模态的高维特征个数Tl,即文本高维特征维度为(Tl,300),视觉高维特征维度为(Tl,p),音频高维特征的维度是(Tl,q);对文本、视觉和音频三个模态的高维特征进行归一化处理,归一化处理为分别找到三个模态高维特征的最大值,三个模态的高维特征分别除以该模态下特征的最大值,将特征数据映射到0到1范围之内的小数。
4.如权利要求1或2所述的一种基于双向门控循环单元网络和新型网络初始化的情感识别方法,其特征在于:所述步骤3中,采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取,将两个池化后的特征向量进行拼接作为全连接网络的输入特征,过程为:经过双向门控循环单元网络对高维特征的上下文信息充分地学习后得到网络输出的状态信息为
Figure FDA0003874113810000041
其中,
Figure FDA0003874113810000042
Figure FDA0003874113810000043
分别为双向门控循环单元网络在i(1≤i≤Tl)时刻的前向状态输出和后向状态输出,Tl为字级对齐后三个模态的高维特征个数,采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取,分别提取高维表征向量max(H)和avg(H),按以下公式计算:
Figure FDA0003874113810000044
将两个池化后的特征向量进行拼接,可以得到表征向量h+,按以下公式计算:
h+=[max(H),avg(H)] (4)
h+作为全连接网络的输入特征,全连接层执行特征加权操作,将学到的高维特征映射到样本标记空间,具体计算公式如下所示:
y=Wyh++by (5)
其中Wy是与h+相关的权重参数,by是与h+相关的偏差,y是单模态网络的情感强度输出。
CN201910298018.7A 2019-04-15 2019-04-15 基于双向门控循环单元网络和新型网络初始化的情感识别方法 Active CN110147548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910298018.7A CN110147548B (zh) 2019-04-15 2019-04-15 基于双向门控循环单元网络和新型网络初始化的情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910298018.7A CN110147548B (zh) 2019-04-15 2019-04-15 基于双向门控循环单元网络和新型网络初始化的情感识别方法

Publications (2)

Publication Number Publication Date
CN110147548A CN110147548A (zh) 2019-08-20
CN110147548B true CN110147548B (zh) 2023-01-31

Family

ID=67588556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910298018.7A Active CN110147548B (zh) 2019-04-15 2019-04-15 基于双向门控循环单元网络和新型网络初始化的情感识别方法

Country Status (1)

Country Link
CN (1) CN110147548B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639661A (zh) * 2019-08-29 2020-09-08 上海卓繁信息技术股份有限公司 文本相似度判别方法
WO2021134277A1 (zh) * 2019-12-30 2021-07-08 深圳市优必选科技股份有限公司 情感识别方法、智能装置和计算机可读存储介质
CN111275085B (zh) * 2020-01-15 2022-09-13 重庆邮电大学 基于注意力融合的在线短视频多模态情感识别方法
CN111353302A (zh) * 2020-03-03 2020-06-30 平安医疗健康管理股份有限公司 医学词义识别方法、装置、计算机设备和存储介质
CN111507421A (zh) * 2020-04-22 2020-08-07 上海极链网络科技有限公司 一种基于视频的情感识别方法及装置
CN113593525A (zh) * 2021-01-26 2021-11-02 腾讯科技(深圳)有限公司 口音分类模型训练和口音分类方法、装置和存储介质
CN112560830B (zh) 2021-02-26 2021-05-25 中国科学院自动化研究所 多模态维度情感识别方法
CN114881020A (zh) * 2022-07-12 2022-08-09 成都晓多科技有限公司 基于交叉注意力和门机制的评论质量识别模型及方法
CN115100725B (zh) * 2022-08-23 2022-11-22 浙江大华技术股份有限公司 目标识别方法、目标识别装置以及计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919903A (zh) * 2017-01-19 2017-07-04 中国科学院软件研究所 一种鲁棒的基于深度学习的连续情绪跟踪方法
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置
CN108596039A (zh) * 2018-03-29 2018-09-28 南京邮电大学 一种基于3d卷积神经网络的双模态情感识别方法及系统
CN109508375A (zh) * 2018-11-19 2019-03-22 重庆邮电大学 一种基于多模态融合的社交情感分类方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190042952A1 (en) * 2017-08-03 2019-02-07 Beijing University Of Technology Multi-task Semi-Supervised Online Sequential Extreme Learning Method for Emotion Judgment of User

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919903A (zh) * 2017-01-19 2017-07-04 中国科学院软件研究所 一种鲁棒的基于深度学习的连续情绪跟踪方法
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置
CN108596039A (zh) * 2018-03-29 2018-09-28 南京邮电大学 一种基于3d卷积神经网络的双模态情感识别方法及系统
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN109508375A (zh) * 2018-11-19 2019-03-22 重庆邮电大学 一种基于多模态融合的社交情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于两种LSTM 结构的文本情感分析;张玉环等;《软件》;20180115;116-120 *

Also Published As

Publication number Publication date
CN110147548A (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
CN110147548B (zh) 基于双向门控循环单元网络和新型网络初始化的情感识别方法
CN110188343B (zh) 基于融合注意力网络的多模态情感识别方法
CN111275085B (zh) 基于注意力融合的在线短视频多模态情感识别方法
CN112784798B (zh) 一种基于特征-时间注意力机制的多模态情感识别方法
CN112000818B (zh) 一种面向文本和图像的跨媒体检索方法及电子装置
CN113822192B (zh) 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质
CN112905827A (zh) 跨模态图文匹配的方法、装置及计算机可读存储介质
CN114511906A (zh) 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备
CN113822125B (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
CN115329779A (zh) 一种多人对话情感识别方法
Obin et al. Similarity search of acted voices for automatic voice casting
CN110569869A (zh) 一种用于多模态情绪检测的特征级融合方法
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN114550057A (zh) 一种基于多模态表示学习的视频情绪识别方法
CN116304973A (zh) 一种基于多模态融合的课堂教学情感识别方法和系统
Huang et al. Speech emotion recognition using convolutional neural network with audio word-based embedding
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
Pu et al. Review on research progress of machine lip reading
Chen et al. A bilevel framework for joint optimization of session compensation and classification for speaker identification
CN111462762B (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质
CN116701996A (zh) 基于多元损失函数的多模态情感分析方法、系统、设备及介质
CN116860943A (zh) 对话风格感知与主题引导的多轮对话方法及系统
CN116775873A (zh) 一种多模态对话情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant