CN111275085B - 基于注意力融合的在线短视频多模态情感识别方法 - Google Patents

基于注意力融合的在线短视频多模态情感识别方法 Download PDF

Info

Publication number
CN111275085B
CN111275085B CN202010043993.6A CN202010043993A CN111275085B CN 111275085 B CN111275085 B CN 111275085B CN 202010043993 A CN202010043993 A CN 202010043993A CN 111275085 B CN111275085 B CN 111275085B
Authority
CN
China
Prior art keywords
feature
video
emotion recognition
features
gru
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010043993.6A
Other languages
English (en)
Other versions
CN111275085A (zh
Inventor
唐宏
赖雪梅
陈虹羽
李珊珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010043993.6A priority Critical patent/CN111275085B/zh
Publication of CN111275085A publication Critical patent/CN111275085A/zh
Application granted granted Critical
Publication of CN111275085B publication Critical patent/CN111275085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及自然语言处理、深度学习、多模态情感分析领域,特别涉及一种基于注意力融合的在线短视频多模态情感识别方法,该方法包括:获取短视频中的各个单模特征;采用双向GRU分别对上述特征进行预处理,得到模态内部信息;结合模态内部信息和模态之间的交互作用,得到各个高级模态特征;根据注意力机制确定各模态的贡献程度,得到总特征向量,并输入到softmax函数中,得到基于注意力融合的双向GRU多模态情感识别模型;训练该模型,将待识别的短视频输入到训练好的模型中,得到情感识别结果;本发明很好的融合了各单模态特征,有效挖掘视频中所表达的情感信息,从而提升了多模态情感识别的准确率及效率。

Description

基于注意力融合的在线短视频多模态情感识别方法
技术领域
本发明涉及自然语言处理、深度学习、多模态情感分析领域,特别涉及一种基于注意力融合的在线短视频多模态情感识别方法。
背景技术
随着互联网的广泛普及,手机网民规模不断扩大,越来越多的人通过互联网进行沟通交流,因此互联网上产生了大量的用户对于诸如人物、事件、产品等有价值的评论信息,这些评论信息表达了人们的情感色彩和情感倾向。但是随着通信技术的进步和新兴社交媒体(如抖音、秒拍、快手等)的迅速崛起,在线短视频受到了人们越来越多的关注,人们习惯通过拍短视频来表达自己的情感或观点。随着短视频数量的增加及人们言论自由的权利,有些人通过短视频发表积极的言论,而有些人却利用短视频散播消极的言论,当消极言论过多时,就意味着社会矛盾有爆发的可能,相关部门需提前采取行动解决可能存在的矛盾。但是网上发布的短视频数量众多,仅仅依靠人工辨别一段短视频是积极或消极的显然应付不过来,由于情感可以从人的面部表情、声音、韵律和身体姿态中提取出来,所以在这种情况下,有必要建立一个对在线短视频进行多模态情感识别的系统。随着深度学习算法的快速发展,利用人工智能技术和自然语言处理领域的相关技术来进行多模态情感识别可以很大程度改善和提高舆情监控的效率。
对于多模态情感识别,其挑战之一在于如何考虑短视频中所有话语之间的相互依赖关系。视频中的话语都是在不同时间以特定顺序说出来的,所以视频可以看作是一系列话语,视频的序列话语很大程度上与上下文相关,从而影响彼此的情感分布,以前的方法大都忽略了每个话语的上下文信息。多模态情感识别的第二个挑战在于如何更好地对模态内部信息和模态之间的交互作用进行建模,即如何更好地将各模态信息进行有效融合。目前多模态融合策略主要有特征层融合和决策层融合两种。特征层融合,也称早融合,即在信息输入时直接将多种模态信息进行拼接操作。虽然此方法简单易操作,但是却不能将从不同模态获得的冲突或冗余信息过滤掉,并且容易忽略模态间的动态关系。决策层融合,也称晚融合,即对每种模态信息单独做训练,考虑模态的内在信息,然后进行决策投票。虽然此种方法充分考虑了各模态特征的差异性,但是却难以学习到模态之间的相互联系。
发明内容
为解决以上现有技术问题,本发明提出了一种基于注意力融合的在线短视频多模态情感识别方法,该方法步骤包括:
S1:获取短视频中的各单模特征,即文本特征、语音特征以及图像特征;
S2:采用双向GRU网络分别对各单模特征进行预处理,得到各个单模初级特征,即初级文本特征、初级语音特征和初级图像特征;
S3:结合模态内部的各个单模初级特征和各模态之间的交互作用,得到高级文本特征、高级语音特征和高级图像特征;
S4:根据注意力机制确定各模态的贡献程度,得到总特征向量,将总特征向量输入到softmax函数中,得到基于注意力融合的双向GRU多模态情感识别模型;
S5:对基于注意力融合的双向GRU多模态情感识别模型进行优化训练,将待识别的短视频输入到训练好的模型中,得到该短视频的情感识别结果;
S6:根据得到的情感识别结果,控制该短视频是否进行上传。
优选的,获取短视频中的各单模特征的步骤包括:
S11:使用CNN提取视频中每个话语的文本特征,得到视频i中话语j的文本特征表示
Figure BDA0002368730990000021
S12:使用openSMILE提取视频中每个话语的语音特征,得到视频i中话语j的语音特征表示
Figure BDA0002368730990000022
S13:使用3D-CNN提取视频中每个话语的图像特征,得到视频i中话语j的图像特征表示
Figure BDA0002368730990000031
S14:获取视频i中的最大话语长度Li以及各单模特征的维度km,将模态m的每个话语采用一个特征向量
Figure BDA0002368730990000032
表示,并将所有话语的特征向量存放于集合
Figure BDA0002368730990000033
中;即
Figure BDA0002368730990000034
优选的,获取初级文本特征、初级语音特征和初级图像特征的步骤包括:将文本特征
Figure BDA0002368730990000035
语音特征
Figure BDA0002368730990000036
以及图像特征
Figure BDA0002368730990000037
分别输入到各自的双向GRU模型中,得到初级文本特征
Figure BDA0002368730990000038
初级语音特征
Figure BDA0002368730990000039
以及初级图像特征
Figure BDA00023687309900000310
进一步的,双向GRU模型由更新门zt和重置门rt组成,更新门zt决定是否要将隐藏状态更新为新的状态,重置门rt决定是否要将之前的状态忘记;
双向GRU网络输出数据的大小为dm维,每个话语的特征向量
Figure BDA00023687309900000311
输入双向GRU网络,双向GRU网络的计算公式为:
Figure BDA00023687309900000312
其中,
Figure BDA00023687309900000313
表示向量拼接操作,则模态m中所有话语经过双向GRU后的矩阵为:
Figure BDA00023687309900000314
优选的,获取各模态的高级特征的步骤包括:
S31:将初级文本特征
Figure BDA00023687309900000315
初级语音特征
Figure BDA00023687309900000316
和初级图像特征
Figure BDA00023687309900000317
同时输入到一个共享的双向GRU网络层,得到具有交互作用的文本特征
Figure BDA00023687309900000318
语音特征
Figure BDA00023687309900000319
和图像特征
Figure BDA00023687309900000320
S32:将模态内部的初级文本特征、初级语音特征和初级图像特征与交互作用的对应特征进行融合,得到高级文本特征
Figure BDA00023687309900000321
高级语音特征
Figure BDA00023687309900000322
以及高级图像特征
Figure BDA00023687309900000323
优选的,构建基于注意力融合的双向GRU多模态情感识别模型的步骤包括:
S41:根据注意力机制确定各模态的贡献程度,得到总特征向量Fi *
S42:将总特征向量输入softmax函数中,得到基于注意力融合的双向GRU多模态情感识别模型。
优选的,得到短视频的情感识别结果使用的方法包括:使用分类交叉熵函数与Adam优化器对上诉模型进行训练优化,将待识别的短视频输入该模型,得到其情感识别结果。
本发明采用双向GRU网络,充分考虑了短视频中各模态上下文相互依赖关系的影响,提高了情感分类性能;本发明将模态内部信息和模态之间的交互作用相结合,对多模态信息进行了有效的融合;本发明采用了注意力机制来确定各个模态的贡献程度,得到基于注意力融合的双向GRU多模态情感识别模型,能够实现在线短视频较好的情感识别效果。
附图说明
图1为本发明的总体流程图;
图2为本发明采用的GRU机制图;
图3为本发明的双向GRU模型结构图;
图4为本发明的基于注意力融合的双向GRU多模态情感识别模型。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于注意力融合的在线短视频多模态情感识别方法,如图1所示,该方法步骤包括:
S1:获取短视频中的各单模特征,即文本特征、语音特征以及图像特征;
S2:采用双向GRU网络分别对各单模特征进行预处理,得到各个单模初级特征,即初级文本特征、初级语音特征和初级图像特征;
S3:结合模态内部的各个单模初级特征和各模态之间的交互作用,得到高级文本特征、高级语音特征和高级图像特征;
S4:根据注意力机制确定各模态的贡献程度,得到总特征向量,将总特征向量输入到softmax函数中,得到基于注意力融合的双向GRU多模态情感识别模型;
S5:对基于注意力融合的双向GRU多模态情感识别模型进行优化训练,将待识别的短视频输入到训练好的模型中,得到该短视频的情感识别结果;
S6:根据得到的情感识别结果,控制该短视频是否进行上传。
其中,GRU表示门循环单元,softmax表示归一化指数函数。
在提取短视频的特征时,每段短视频可以看作一系列具有上下文关系的话语,共有N段短视频,其中任意视频i的最大话语长度为Li,对于视频i中的任意话语j,采用不同的特征提取方法分别提取各单模态特征,提取单模态特征的过程包括:
S11:使用CNN提取视频中每个话语的文本特征,得到视频i中话语j的文本特征表示
Figure BDA0002368730990000051
S12:使用openSMILE提取视频中每个话语的语音特征,得到视频i中话语j的语音特征表示
Figure BDA0002368730990000052
S13:使用3D-CNN提取视频中每个话语的图像特征,得到视频i中话语j的图像特征表示
Figure BDA0002368730990000053
S14:假设各单模态特征有km维,对于模态m的每个话语可由一个特征向量表示:
Figure BDA0002368730990000054
将一段视频中所有话语的特征向量存放于集合
Figure BDA0002368730990000055
中得到:
Figure BDA0002368730990000056
其中,CNN表示双层神经网络模型,openSMILE表示语音特征提取模型,3D-CNN表示三维神经网络模型,m∈{T,A,V},T代表文本、A代表语音、V代表图像,
Figure BDA0002368730990000061
表示集合
Figure BDA0002368730990000062
的维度是Li×km维。
CNN表示双层神经网络模型,该模型的卷积具有局部特征提取的功能。在本实施例中,将视频i中的每个话语表示为组成单词向量的连接,最后被表示为一个维度为[50,300]的词向量矩阵,将其作为CNN的输入层;其中CNN有2个卷积层,第一个卷积层有2个大小分别为3、4的卷积核,每个卷积核有50个特征图,第二个卷积层有1个大小为2的卷积核,该卷积核有100个特征图;卷积层之间是窗口大小为2*2的最大池化层;最后是大小为500维的全连接层,并使用非线性整流单元ReLU作为激活函数,将全连接层的激活值作为话语的文本特征表示。
openSMILE是一个高度封装的语音特征提取工具,不仅可以提取基础的语音特征,而且还可以提取重要的情感特征参数。在本实施例中,以30Hz帧速率和100ms的滑动窗口来提取音频特征;为了识别语音样本,使用z标准化技术对语音样本进行归一化处理,并对语音强度进行阈值处理。openSMILE提取的特征由若干低级描述因子(LLD)组成,如梅尔频率倒谱系数MFCC、语音强度、音高,以及它们的统计量,如均值、根二次均值等。
3D-CNN表示三维神经网络模型,相比普通的卷积神经网络多了一个时间维度,使提取到的情感特征含有丰富的时序信息。在本实施例中,对所有的视频文件进行读取,获取到每段视频的总帧数,然后对每段视频平均取十帧,作为整段视频的表示。3D-CNN不仅可以学习每一帧的相关特征,还可以学习给定连续帧数之间的变化,将整段视频的表示作为3D-CNN的输入层;使用三维卷积滤波器,与2D-CNN类似,该滤波器可以在视频中滑动并生成输出,此处滤波器大小为5*5*5;对卷积层输出使用窗口大小为3*3*3的最大池化层;最后是大小为300维的全连接层,使用线性整流单元ReLU作为激活函数,将全连接层的激活值作为视频i中每个话语的图像特征表示。
采用双向GRU确定各模态中上下文的相互依赖关系并得到各模态的初级特征表示,其步骤包括:
S21:将文本特征
Figure BDA0002368730990000071
输入到双向GRUT中,得到初级文本特征
Figure BDA0002368730990000072
S22:将语音特征
Figure BDA0002368730990000073
输入到双向GRUA中,得到初级语音特征
Figure BDA0002368730990000074
S23:将图像特征
Figure BDA0002368730990000075
输入到双向GRUV中,得到初级图像特征
Figure BDA0002368730990000076
其中,GRU模型由更新门zt和重置门rt构成,其机制如图2所示。更新门zt决定是否要将隐藏状态更新为新的状态,zt的值越大,表明前一时刻的状态信息代入越多;重置门rt决定是否要将之前的状态忘记,rt的值越小,表明前一时刻的状态信息被忘掉得越多。双向GRU具有参数少、训练快的优点,而且能够记住句子中上下文的长期依赖关系,在进行情感分类的时候可以通过双向GRU来考虑上下文的信息。
采用双向GRU捕捉各模态中所有话语的上下文的相互依赖关系,如图3所示,包括:
将矩阵
Figure BDA0002368730990000077
作为双向GRUm的输入,假设GRUm的输出大小为dm维,每个话语的特征向量
Figure BDA0002368730990000078
都使用以下公式通过GRUm单元:
Figure BDA0002368730990000079
Figure BDA00023687309900000710
Figure BDA00023687309900000711
Figure BDA00023687309900000712
其中,
Figure BDA00023687309900000713
是视频i中模态m的第t个话语的特征表示,
Figure BDA00023687309900000714
为话语t的候选隐藏状态,
Figure BDA00023687309900000715
为话语t的隐藏层状态,δ为Sigmoid激活函数,以上公式中各个符号代表的具体含义如表1所示:
表1符号含义汇总
Figure BDA00023687309900000716
输入的特征通过双向GRU的计算公式为:
Figure BDA0002368730990000081
话语
Figure BDA0002368730990000082
经过双向GRUm后的隐藏层输出表示为:
Figure BDA0002368730990000083
其中,
Figure BDA0002368730990000084
表示向量拼接操作,则模态m中所有话语经过双向GRUm后的矩阵表示为:
Figure BDA0002368730990000085
将双向GRUm的输出作为视频i中模态m的初级特征向量。
其中,m表示是模态类型,且m∈{T,A,V},T代表文本、A代表语音、V代表图像,Li表示视频i中的最大话语长度,t表示视频i中的第t个话语,
Figure BDA0002368730990000086
为视频i中模态m的第t个话语的特征表示,
Figure BDA0002368730990000087
表示话语
Figure BDA0002368730990000088
经过双向GRU网络后的隐藏层输出,
Figure BDA0002368730990000089
表示前向GRU计算,
Figure BDA00023687309900000810
表示后向GRU计算,
Figure BDA00023687309900000811
表示矩阵
Figure BDA00023687309900000812
的维度是Li×2dm维,
Figure BDA00023687309900000813
表示模态m的初级特征。
将模态内部信息和模态之间的交互作用进行建模并得到各模态的高级特征表示,包括:
S31:将初级文本特征
Figure BDA00023687309900000814
初级语音特征
Figure BDA00023687309900000815
和初级图像特征
Figure BDA00023687309900000816
同时输入到一个共享的双向GRU网络层,得到具有交互作用的文本特征
Figure BDA00023687309900000817
语音特征
Figure BDA00023687309900000818
和图像特征
Figure BDA00023687309900000819
S32:将模态内部的初级文本特征、初级语音特征和初级图像特征与交互作用的对应特征进行融合,得到高级文本特征
Figure BDA00023687309900000820
高级语音特征
Figure BDA00023687309900000821
以及高级图像特征
Figure BDA00023687309900000822
融合的公式包括:
Figure BDA00023687309900000823
Figure BDA0002368730990000091
Figure BDA0002368730990000092
其中,
Figure BDA0002368730990000093
表示向量拼接操作。
多模态情感分析的核心在于有效地对模态内部信息和模态之间的交互作用进行建模。在本实施例中,模态内部信息由各自的双向GRU输出丰富的各模态初级特征表示;模态之间的交互作用利用各模态初级特征表示对单模态和三模态的相互作用进行建模。
视频i中具有交互作用的各单模态特征包括:
将矩阵
Figure BDA0002368730990000094
输入双向GRU中,双向GRU输出D维数据,将文本、语音和图像三种模态信息输入一个共享的双向GRU网络,得到交互作用后的数据,其计算公式包括:
Figure BDA0002368730990000095
视频i中模态m的所有话语经过双向GRU后的矩阵表示为:
Figure BDA0002368730990000096
得到具有交互作用的文本特征
Figure BDA0002368730990000097
语音特征
Figure BDA0002368730990000098
和图像特征
Figure BDA0002368730990000099
其中,
Figure BDA00023687309900000910
表示
Figure BDA00023687309900000911
经过共享双向GRU网络层后得到的具有交互作用的信息,
Figure BDA00023687309900000912
表示话语
Figure BDA00023687309900000913
经过双向GRU网络后的隐藏层输出,
Figure BDA00023687309900000914
表示前向GRU计算,
Figure BDA00023687309900000915
表示后向GRU计算,
Figure BDA00023687309900000916
表示向量拼接操作,
Figure BDA00023687309900000917
表示视频i中模态m的所有话语经过双向GRU网络后的矩阵表示,
Figure BDA00023687309900000918
表示
Figure BDA00023687309900000919
的维度为2D维,Li表示视频i中的最大话语长度,t表示视频i中的第t个话语,
Figure BDA00023687309900000920
表示矩阵
Figure BDA00023687309900000921
的维度为Li×2D维。
人们在进行情感表达的时候,每个模态所占的比例不一样,并非所有的模态对情感分类都同样重要,有些人喜欢用浮夸的表情来表达自己的喜好,而有些人更倾向于用音调的高低来进行情感的表达,所以提取到的情感特征对最后的情感分类会产生直接的影响。注意力机制(Attention Mechanism)能将注意力集中在与分类对象相关的最重要部分。通过注意力机制可以给每一个模态输出一个注意力分数,比较重要的模态对最后情感分类的结果影响较大,所以分配的注意力权重大,这样就能体现不同模态特征对最后情感分类结果的影响程度。
如图4所示,构建基于注意力融合的双向GRU多模态情感识别模型的过程包括:
S41:根据注意力机制确定各模态的贡献程度,得到总特征向量Fi *
S42:将总特征向量输入softmax函数中,得到基于注意力融合的双向GRU多模态情感识别模型。
将模态m的高级特征
Figure BDA0002368730990000101
输入到注意力网络,且模态m所占的注意力权重为αm,通过加权累加得到最后用于分类的总特征向量
Figure BDA0002368730990000102
计算的表达示为:
Figure BDA0002368730990000103
Figure BDA0002368730990000104
Figure BDA0002368730990000105
其中,Pm
Figure BDA0002368730990000106
的隐藏单元状态,
Figure BDA0002368730990000107
是权重参数,
Figure BDA0002368730990000108
为偏置项,αm是经归一化后的权重向量,
Figure BDA0002368730990000109
为待学习的参数。
将总特征向量作为softmax函数的输入,包括:
将注意力机制输出的总特征向量
Figure BDA00023687309900001010
作为softmax函数的输入进行情感分类:
Figure BDA00023687309900001011
Figure BDA00023687309900001012
其中,Wsoft为softnax层的权重矩阵,bsoft为softnax层的偏置项,y表示所有的真实标签,c为情感种类值(这里c=class,为0或1,即分为消极或积极),
Figure BDA00023687309900001013
为预测类的概率,y[c]表示预测类的真实标签,class表示总的情感种类值。
使用分类交叉熵函数与Adam优化器对基于注意力融合的双向GRU多模态情感识别模型进行训练优化。
在训练过程中,将分类交叉熵函数作为训练的损失函数Loss,其损失函数的表达式为:
Figure BDA0002368730990000111
其中,N为样本的数量,i为样本的索引,c为类值,C表示总的情感种类值,yic表示第i个样本c类的真实标签,且
Figure BDA0002368730990000112
表示第i个样本预测为c类的概率,并使用Adam优化器来优化网络学习参数,采用Dropout来防止过拟合;其中,Adam表示适应性矩估计,Dropout表示深度神经网络层的一种选择层。在完成模型的训练之后,将所需要识别的短视频输入模型之中,即可对短视频中表达的情感进行识别,当识别到的消极情感过多时,取消该短视频的上传并提醒相关部门提前采取行动解决可能存在的矛盾,进而维护社会的安定。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于注意力融合的在线短视频多模态情感识别方法,其特征在于,包括:
S1:获取短视频中的各单模特征,即文本特征、语音特征以及图像特征;
S2:采用双向GRU网络分别对各单模特征进行预处理,得到各个单模初级特征,即初级文本特征、初级语音特征和初级图像特征;
S3:结合模态内部的各个单模初级特征和各模态之间的交互作用,得到高级文本特征、高级语音特征和高级图像特征;具体步骤包括:
S31:将初级文本特征
Figure FDA0003775868570000011
初级语音特征
Figure FDA0003775868570000012
和初级图像特征
Figure FDA0003775868570000013
同时输入到一个共享的双向GRU网络,得到具有交互作用的文本特征
Figure FDA0003775868570000014
语音特征
Figure FDA0003775868570000015
和图像特征
Figure FDA0003775868570000016
S32:将模态内部的初级文本特征、初级语音特征和初级图像特征与交互作用的对应特征进行融合,得到高级文本特征Fi T、高级语音特征Fi A以及高级图像特征Fi V
S4:根据注意力机制确定各模态的贡献程度,得到总特征向量,将总特征向量输入到softmax函数中,得到基于注意力融合的双向GRU多模态情感识别模型;
S5:对基于注意力融合的双向GRU多模态情感识别模型进行优化训练,将待识别的短视频输入到训练好的模型中,得到该短视频的情感识别结果;
S6:根据得到的情感识别结果,控制该短视频是否进行上传;
其中,GRU表示门循环单元,softmax表示归一化指数函数。
2.根据权利要求1所述的一种基于注意力融合的在线短视频多模态情感识别方法,其特征在于,所述获取短视频中的各单模特征的步骤包括:
S11:使用CNN提取视频中每个话语的文本特征,得到视频i中话语j的文本特征
Figure FDA0003775868570000017
S12:使用openSMILE提取视频中每个话语的语音特征,得到视频i中话语j的语音特征
Figure FDA0003775868570000021
S13:使用3D-CNN提取视频中每个话语的图像特征,得到视频i中话语j的图像特征
Figure FDA0003775868570000022
S14:获取视频i中的最大话语长度Li以及各单模特征的维度km,将模态m的每个话语采用一个特征向量
Figure FDA0003775868570000023
表示,并将所有话语的特征向量存放于集合
Figure FDA0003775868570000024
中;即
Figure FDA0003775868570000025
其中,CNN表示双层神经网络模型,openSMILE表示语音特征提取模型,3D-CNN表示三维神经网络模型,m∈{T,A,V},T代表文本、A代表语音、V代表图像,
Figure FDA0003775868570000026
表示集合
Figure FDA0003775868570000027
的维度是Li×km维。
3.根据权利要求1所述的一种基于注意力融合的在线短视频多模态情感识别方法,其特征在于,获取初级文本特征、初级语音特征和初级图像特征的过程包括:
将文本特征
Figure FDA0003775868570000028
语音特征
Figure FDA0003775868570000029
以及图像特征
Figure FDA00037758685700000210
分别输入到各自的双向GRU网络中,得到初级文本特征
Figure FDA00037758685700000211
初级语音特征
Figure FDA00037758685700000212
以及初级图像特征
Figure FDA00037758685700000213
4.根据权利要求3所述的一种基于注意力融合的在线短视频多模态情感识别方法,其特征在于,所述双向GRU网络由更新门zt和重置门rt组成,更新门zt决定是否要将隐藏状态更新为新的状态,重置门rt决定是否要将之前的状态忘记;
双向GRU网络输出数据的大小为dm维,每个话语的特征向量
Figure FDA00037758685700000214
输入双向GRU网络,双向GRU网络的计算公式为:
Figure FDA00037758685700000215
其中,
Figure FDA00037758685700000216
表示向量拼接操作,则模态m中所有话语经过双向GRU后的矩阵为:
Figure FDA00037758685700000217
其中,m表示是模态类型,且m∈{T,A,V},T代表文本、A代表语音、V代表图像,Li表示视频i中的最大话语长度,t表示视频i中的第t个话语,
Figure FDA0003775868570000031
为视频i中模态m的第t个话语的特征表示,
Figure FDA0003775868570000032
表示话语
Figure FDA0003775868570000033
经过双向GRU网络后的隐藏层输出,
Figure FDA0003775868570000034
表示前向GRU计算,
Figure FDA0003775868570000035
表示后向GRU计算,
Figure FDA0003775868570000036
表示矩阵
Figure FDA0003775868570000037
的维度是Li×2dm维,
Figure FDA0003775868570000038
表示模态m的初级特征。
5.根据权利要求1所述的一种基于注意力融合的在线短视频多模态情感识别方法,其特征在于,得到具有交互作用的各单模态特征包括:
将矩阵
Figure FDA0003775868570000039
输入双向GRU中,双向GRU输出D维数据,将文本、语音和图像三种模态信息输入一个共享的双向GRU网络,得到交互作用后的数据,其计算公式包括:
Figure FDA00037758685700000310
视频i中模态m的所有话语经过双向GRU后的矩阵表示为:
Figure FDA00037758685700000311
得到具有交互作用的文本特征
Figure FDA00037758685700000312
语音特征
Figure FDA00037758685700000313
和图像特征
Figure FDA00037758685700000314
其中,
Figure FDA00037758685700000315
表示
Figure FDA00037758685700000316
经过共享双向GRU网络层后得到的具有交互作用的信息,
Figure FDA00037758685700000317
表示话语
Figure FDA00037758685700000318
经过双向GRU网络后的隐藏层输出,
Figure FDA00037758685700000319
表示前向GRU计算,
Figure FDA00037758685700000320
表示后向GRU计算,
Figure FDA00037758685700000321
表示向量拼接操作,
Figure FDA00037758685700000322
表示视频i中模态m的所有话语经过双向GRU网络后的矩阵,
Figure FDA00037758685700000327
表示
Figure FDA00037758685700000324
的维度为2D维,Li表示视频i中的最大话语长度,t表示视频i中的第t个话语,
Figure FDA00037758685700000325
表示矩阵
Figure FDA00037758685700000326
的维度为Li×2D维。
6.根据权利要求1所述的一种基于注意力融合的在线短视频多模态情感识别方法,其特征在于,构建基于注意力融合的双向GRU多模态情感识别模型的步骤包括:
S41:根据注意力机制确定各模态的贡献程度,得到总特征向量Fi *
S42:将总特征向量输入softmax函数中,得到基于注意力融合的双向GRU 多模态情感识别模型。
7.根据权利要求6所述的一种基于注意力融合的在线短视频多模态情感识别方法,其特征在于,根据注意力机制确定各模态的贡献程度包括:
将模态m的高级特征Fi m输入到注意力网络,且模态m所占的注意力权重为αm,通过加权累加得到最后用于分类的总特征向量Fi *,其计算的表达示为:
Figure FDA0003775868570000041
Figure FDA0003775868570000042
Figure FDA0003775868570000043
其中,Pm为Fi m的隐藏单元状态,
Figure FDA0003775868570000044
是权重参数,
Figure FDA0003775868570000045
为偏置项,αm是经归一化后的权重向量,
Figure FDA0003775868570000046
为待学习的参数。
8.根据权利要求6所述的一种基于注意力融合的在线短视频多模态情感识别方法,其特征在于,所述将总特征向量输入softmax函数中的过程包括:
将注意力机制输出的总特征向量Fi *作为softmax函数的输入进行情感分类:
y=softmax(Wsoft·Fi *+bsoft)
Figure FDA0003775868570000047
其中,Wsoft为softnax层的权重矩阵,bsoft为softnax层的偏置项,y表示所有的真实标签,c为情感种类值,y为预测类的概率,y[c]表示预测类的真实标签,class表示总的情感种类值。
9.根据权利要求1所述的一种基于注意力融合的在线短视频多模态情感识别方法,其特征在于,得到短视频的情感识别结果使用的方法包括:使用分类交叉熵函数与Adam优化器对基于注意力融合的双向GRU多模态情感识别模型进行训练优化,将待识别的短视频输入该模型,得到其情感识别结果;Adam表示适应性矩估计。
CN202010043993.6A 2020-01-15 2020-01-15 基于注意力融合的在线短视频多模态情感识别方法 Active CN111275085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010043993.6A CN111275085B (zh) 2020-01-15 2020-01-15 基于注意力融合的在线短视频多模态情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010043993.6A CN111275085B (zh) 2020-01-15 2020-01-15 基于注意力融合的在线短视频多模态情感识别方法

Publications (2)

Publication Number Publication Date
CN111275085A CN111275085A (zh) 2020-06-12
CN111275085B true CN111275085B (zh) 2022-09-13

Family

ID=71003168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010043993.6A Active CN111275085B (zh) 2020-01-15 2020-01-15 基于注意力融合的在线短视频多模态情感识别方法

Country Status (1)

Country Link
CN (1) CN111275085B (zh)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767461B (zh) * 2020-06-24 2024-02-06 北京奇艺世纪科技有限公司 数据处理方法及装置
CN111832651B (zh) * 2020-07-14 2023-04-07 清华大学 视频多模态情感推理方法和装置
CN113269277B (zh) * 2020-07-27 2023-07-25 西北工业大学 基于Transformer编码器和多头多模态注意力的连续维度情感识别方法
CN112115601B (zh) * 2020-09-10 2022-05-17 西北工业大学 一种可靠的用户注意力监测估计表示模型
CN112053690B (zh) * 2020-09-22 2023-12-29 湖南大学 一种跨模态多特征融合的音视频语音识别方法及系统
CN112182423B (zh) * 2020-10-14 2022-09-27 重庆邮电大学 一种基于注意力机制的网络舆情事件演化趋势预测方法
CN112348075B (zh) * 2020-11-02 2022-09-20 大连理工大学 一种基于情景注意力神经网络的多模态情感识别方法
CN112418034A (zh) * 2020-11-12 2021-02-26 元梦人文智能国际有限公司 多模态情感识别方法、装置、电子设备和存储介质
CN114511895B (zh) * 2020-11-16 2024-02-02 四川大学 一种基于注意力机制多尺度网络的自然场景情绪识别方法
CN112508077B (zh) * 2020-12-02 2023-01-03 齐鲁工业大学 一种基于多模态特征融合的社交媒体情感分析方法及系统
CN112488014B (zh) * 2020-12-04 2022-06-10 重庆邮电大学 基于门控循环单元的视频预测方法
CN112488219A (zh) * 2020-12-07 2021-03-12 江苏科技大学 一种基于gru的情绪安慰方法、系统及移动终端
CN112418172A (zh) * 2020-12-11 2021-02-26 苏州元启创人工智能科技有限公司 基于多模信息智能处理单元的多模信息融合情感分析方法
CN112597841B (zh) * 2020-12-14 2023-04-18 之江实验室 一种基于门机制多模态融合的情感分析方法
CN112598067A (zh) * 2020-12-25 2021-04-02 中国联合网络通信集团有限公司 事件的情感分类方法、装置、电子设备及存储介质
CN112651982A (zh) * 2021-01-12 2021-04-13 杭州智睿云康医疗科技有限公司 基于影像与非影像信息的图像分割方法及系统
CN112765323B (zh) * 2021-01-24 2021-08-17 中国电子科技集团公司第十五研究所 基于多模态特征提取与融合的语音情感识别方法
CN112800254A (zh) * 2021-01-26 2021-05-14 浙江香侬慧语科技有限责任公司 多模态视频标题生成方法、装置、存储介质及存储设备
CN112784798B (zh) * 2021-02-01 2022-11-08 东南大学 一种基于特征-时间注意力机制的多模态情感识别方法
CN112560811B (zh) * 2021-02-19 2021-07-02 中国科学院自动化研究所 端到端的音视频抑郁症自动检测研究方法
CN112560830B (zh) * 2021-02-26 2021-05-25 中国科学院自动化研究所 多模态维度情感识别方法
CN113095357A (zh) * 2021-03-04 2021-07-09 山东大学 基于注意力机制与gmn的多模态情感识别方法及系统
CN113065577A (zh) * 2021-03-09 2021-07-02 北京工业大学 一种面向目标的多模态情感分类方法
CN113180666A (zh) * 2021-04-29 2021-07-30 扬州大学 基于双模态Attention-GRU的抑郁症分析模型
CN113312530B (zh) * 2021-06-09 2022-02-15 哈尔滨工业大学 一种以文本为核心的多模态情感分类方法
CN113435496B (zh) * 2021-06-24 2022-09-02 湖南大学 一种基于注意力机制的自适应融合的多模态情感分类方法
CN113643723B (zh) * 2021-06-29 2023-07-25 重庆邮电大学 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法
CN113408649A (zh) * 2021-07-09 2021-09-17 南京工业大学 基于视频图像面部表情和语音的多模态儿童情绪识别融合模型
CN113886572A (zh) * 2021-08-24 2022-01-04 北京达佳互联信息技术有限公司 资源分类方法、装置、电子设备及存储介质
CN113806609B (zh) * 2021-09-26 2022-07-12 郑州轻工业大学 一种基于mit和fsm的多模态情感分析方法
CN113988201B (zh) * 2021-11-03 2024-04-26 哈尔滨工程大学 一种基于神经网络的多模态情感分类方法
CN114153973A (zh) * 2021-12-07 2022-03-08 内蒙古工业大学 基于t-m bert预训练模型的蒙古语多模态情感分析方法
CN114387997B (zh) * 2022-01-21 2024-03-29 合肥工业大学 一种基于深度学习的语音情感识别方法
CN114387567B (zh) * 2022-03-23 2022-06-28 长视科技股份有限公司 一种视频数据的处理方法、装置、电子设备及存储介质
CN114418038A (zh) * 2022-03-29 2022-04-29 北京道达天际科技有限公司 基于多模态融合的天基情报分类方法、装置及电子设备
CN115329779B (zh) * 2022-08-10 2023-10-13 天津大学 一种多人对话情感识别方法
CN116070169A (zh) * 2023-01-28 2023-05-05 天翼云科技有限公司 模型训练方法、装置、电子设备及存储介质
CN116661803B (zh) * 2023-07-31 2023-11-17 腾讯科技(深圳)有限公司 多模态网页模板的处理方法、装置和计算机设备
CN117409780B (zh) * 2023-12-14 2024-02-27 浙江宇宙奇点科技有限公司 一种应用于ai数字人语音交互方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066583A (zh) * 2017-04-14 2017-08-18 华侨大学 一种基于紧凑双线性融合的图文跨模态情感分类方法
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN109829499A (zh) * 2019-01-31 2019-05-31 中国科学院信息工程研究所 基于同一特征空间的图文数据融合情感分类方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10417498B2 (en) * 2016-12-30 2019-09-17 Mitsubishi Electric Research Laboratories, Inc. Method and system for multi-modal fusion model
US20190341025A1 (en) * 2018-04-18 2019-11-07 Sony Interactive Entertainment Inc. Integrated understanding of user characteristics by multimodal processing
US11687770B2 (en) * 2018-05-18 2023-06-27 Synaptics Incorporated Recurrent multimodal attention system based on expert gated networks
CN110147548B (zh) * 2019-04-15 2023-01-31 浙江工业大学 基于双向门控循环单元网络和新型网络初始化的情感识别方法
CN110188343B (zh) * 2019-04-22 2023-01-31 浙江工业大学 基于融合注意力网络的多模态情感识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066583A (zh) * 2017-04-14 2017-08-18 华侨大学 一种基于紧凑双线性融合的图文跨模态情感分类方法
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN109829499A (zh) * 2019-01-31 2019-05-31 中国科学院信息工程研究所 基于同一特征空间的图文数据融合情感分类方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Context-aware Interactive Attention for Multi-modal Sentiment and Emotion Analysis;Dushyant Singh Chauhan 等;《Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing》;20191130;第5647-5657页 *
Contextual Inter-modal Attention for Multi-modal Sentiment Analysis;Deepanway Ghosal 等;《Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing》;20181130;第3454-3466页 *
Multi-task Gated Contextual Cross-Modal Attention Framework for Sentiment and Emotion Analysis;Suyash Sangwan 等;《International Conference on Neural Information Processing》;20191205;第662-669页 *
基于注意力机制的特征融合-双向门控循环单元多模态情感分析;赖雪梅 等;《计算机应用》;20210510;第41卷(第5期);第1268-1274页 *
融合注意力机制的多通道卷积与双向GRU模型的文本情感分析研究;袁和金 等;《中文信息学报》;20191031;第33卷(第10期);第109-118页 *

Also Published As

Publication number Publication date
CN111275085A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111275085B (zh) 基于注意力融合的在线短视频多模态情感识别方法
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
CN112348075B (zh) 一种基于情景注意力神经网络的多模态情感识别方法
Abdu et al. Multimodal video sentiment analysis using deep learning approaches, a survey
CN112199956B (zh) 一种基于深度表示学习的实体情感分析方法
CN110866542B (zh) 一种基于特征可控融合的深度表示学习方法
CN114694076A (zh) 基于多任务学习与层叠跨模态融合的多模态情感分析方法
CN115329779B (zh) 一种多人对话情感识别方法
CN111275401B (zh) 一种基于位置关系的智能面试方法及系统
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN112527966B (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
Zhang et al. Deep learning-based multimodal emotion recognition from audio, visual, and text modalities: A systematic review of recent advancements and future prospects
Ali et al. Facial emotion detection using neural network
Li et al. Learning fine-grained cross modality excitement for speech emotion recognition
WO2023226239A1 (zh) 对象情绪的分析方法、装置和电子设备
CN116975776A (zh) 一种基于张量和互信息的多模态数据融合方法和设备
CN116304973A (zh) 一种基于多模态融合的课堂教学情感识别方法和系统
CN113326868B (zh) 一种用于多模态情感分类的决策层融合方法
CN114020897A (zh) 一种对话情感识别方法及相关装置
Lee Deep structured learning: architectures and applications
Yuan [Retracted] A Classroom Emotion Recognition Model Based on a Convolutional Neural Network Speech Emotion Algorithm
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法
Kumar et al. Facial emotion recognition and detection using cnn
CN116384372A (zh) 基于自注意力的多层次融合方面类别情感分析方法
Du et al. Multimodal emotion recognition based on feature fusion and residual connection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant