CN113806609B - 一种基于mit和fsm的多模态情感分析方法 - Google Patents

一种基于mit和fsm的多模态情感分析方法 Download PDF

Info

Publication number
CN113806609B
CN113806609B CN202111128257.1A CN202111128257A CN113806609B CN 113806609 B CN113806609 B CN 113806609B CN 202111128257 A CN202111128257 A CN 202111128257A CN 113806609 B CN113806609 B CN 113806609B
Authority
CN
China
Prior art keywords
feature
vector
video
modal
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111128257.1A
Other languages
English (en)
Other versions
CN113806609A (zh
Inventor
李祖贺
郭青冰
王艳军
马江涛
王凤琴
张秋闻
黄伟
钱晓亮
张焕龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN202111128257.1A priority Critical patent/CN113806609B/zh
Publication of CN113806609A publication Critical patent/CN113806609A/zh
Application granted granted Critical
Publication of CN113806609B publication Critical patent/CN113806609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于MIT和FSM的多模态情感分析方法,用以解决现有多模态情感分析方法在融合多模态信息时的技术性问题;其步骤为:首先,分别对文本模态数据、语音模态数据和视频模态数据进行预处理,提取文本特征向量、语音特征向量和视频特征向量;其次,将三个特征向量依次进行组合后分别输入Multimodal Interactive Transformer中进行辅助学习,分别得到三个学习后的特征矩阵;最后,将三个学习后的特征矩阵输入Feature Soft Mapping中映射到统一的语义空间中进行融合,得到融合特征;并将融合特征输入分类层,获取情感预测结果。本发明所提出的多模态情感分析模型能够充分考虑多种模态信息之间的关联,有助于在数据融合后进行情感分类。

Description

一种基于MIT和FSM的多模态情感分析方法
技术领域
本发明涉及多模态情感分析技术领域,特别是指一种基于MIT和FSM的多模态情感分析方法。
背景技术
在创新2.0的时代背景下,多模态数据成为网络中的主流数据,不同情感粒度的多模态信息被情感主体并行地向外传播,这使得基于文本词性分析的传统情感分析方法难以适应而导致失败。多模态数据的融合已经成为制约多模态情感分析领域发展的瓶颈,必须设计一种在传统情感分析基础上加入多模态数据融合的新方法,保证多模态情感分析算法的鲁棒性。
目前多模态融合算法研究主要分为两类:基于特征融合方法和基于决策融合方法。基于特征融合方法将各模态的特征向量融合为一个多模态特征向量后再进行情感判断,这种方法能够抓取低级表征信息之间的关联。基于决策融合独立学习不同模态的信息进行局部情感分析,再将结果进行融合以获得最终的决策。这种融合方法能够针对各个模态语义空间的不同各自设计特征提取方法,以获取最优局部决策。上述方法存在两个明显问题:(1)多模态数据融合后仅能融合低级表征信息,无法捕获不同主体之间的情感互动;(2)不同模态之间存在语义空间屏障,无法令多模态信息之间进行语义交融。
因此,必须寻找一种既能捕获不同主体之间情感互动,又能打破语义空间屏障进行语义交融的融合方法,来保证多模态情感分析算法的性能。
发明内容
针对现有多模态情感分析方法在融合多模态信息时的技术性问题,本发明提出一种基于MIT和FSM的多模态情感分析方法,利用Multimodal Interactive Transformer能够捕捉模态之间的关联,Feature Soft Mapping机制能够将特征向量映射到统一的语义空间中,以打破语义空间屏障实现多模态信息的融合;结合两者所提出的多模态情感分析模型能够充分考虑多种模态信息之间的关联,有助于在数据融合后进行情感分类。
本发明的技术方案是这样实现的:
一种基于MIT和FSM的多模态情感分析方法,其步骤如下:
步骤一:分别对文本模态数据、语音模态数据和视频模态数据进行预处理,提取文本特征向量、语音特征向量和视频特征向量;
步骤二:从文本特征向量、语音特征向量和视频特征向量对应的模态中选择一个模态作为主要模态,其余两个模态作为辅助模态进行组合,得到三个组合,并将三个组合分别输入Multimodal Interactive Transformer中进行辅助学习,分别得到三个学习后的特征矩阵;
步骤三:将三个学习后的特征矩阵输入FeatureSoft Mapping中映射到统一的语义空间中进行融合,得到融合特征;
步骤四:将融合特征输入分类层,获取情感预测结果。
优选地,所述对文本模态数据进行预处理,提取文本特征向量的方法为:将文本模态数据进行分词处理,获取有效单词,并统计有效单词出现的频次作为共现矩阵X的元素x(i,j);使用GloVe模型将共现矩阵X嵌入到300维的文本特征向量中;其中,共现矩阵X的维度为z×z,z为独立词汇的个数,x(i,j)表示单词i和单词j出现在同一个窗口中的次数。
优选地,所述对语音模态数据进行预处理,提取语音特征向量的方法为:将语音模态数据以40ms为时间刻度,把连续的音频信号在时间刻度内的多个采样点集合为一个讯框,通过一个高通滤波器对音频信号进行预强化以补偿语音信号中的高频部分,利用傅里叶变化将音频信号从时域转化到频域;在每个梅尔刻度上提取对数能量以后再进行离散傅里叶反变换,获取80维的语音特征向量。
优选地,所述对视频模态数据进行预处理,提取视频特征向量的方法为:将视频模态数据的每一帧图像的大小都缩放到112×112,对于RGB三通道的视频数据来说,每一帧图像的大小为112×112×3;使用大小为3×3×3的卷积核提取每一帧图像的特征,且将卷积核移动的步幅设置为7;三个通道的卷积结果相加,得到每帧图像提取出的大小为256维的视频特征向量。
优选地,所述将文本特征向量、语音特征向量和视频特征向量作为一个整体分别输入Multimodal Interactive Transformer中进行辅助学习的方法为:
A.文本特征向量对应的模态为主要模态x,语音特征向量和视频特征向量对应的模态为辅助模态y和z;
S2.1、将主要模态x的Key向量和Value向量记为Kx与Vx,将辅助模态y和z的Query向量分别记为Qy与Qz
S2.2、计算Kx与Qy的标准内积来获取主要模态x与辅助模态y的相似度权重,并对主要模态x与辅助模态y的相似度权重使用Softmax函数进行归一化,再利用归一化后的相似度权重对Vx进行加权求和;具体计算公式为:
Figure BDA0003279524590000021
其中,d表示特征向量的维度;
S2.3、计算每一次操作后的head:
Figure BDA0003279524590000022
其中,headi'表示第i'个head的计算结果,
Figure BDA0003279524590000031
表示第i'个head计算时Qy的权重,
Figure BDA0003279524590000032
表示第i'个head计算时Kx的权重,
Figure BDA0003279524590000033
表示第i'个head计算时Vx的权重,i'=1,2,…,h,h为步骤S2.2的操作次数;
S2.4、将h次的结果进行拼接和线性变化即可得到主要模态x与辅助模态y经过Multi-Head Guided-Attention后的结果,表达式为:
MHGA(Qy,Kx,Vx)=Concat(head1,...,headh)WO
其中,Concat(·)为拼接操作,WO表示给拼接后的值赋予的权重;
S2.5、将Kx、Vx和Qz按照步骤S2.2至S2.4的操作方法,获得主要模态x与辅助模态z经过Multi-Head Guided-Attention后的结果;
S2.6、将主要模态x与辅助模态y经过Multi-Head Guided-Attention后的结果记为张量t1,将主要模态x与辅助模态z经过Multi-Head Guided-Attention后的结果记为张量t2
S2.7、使用笛卡尔积的跟随向量场定义二维张量融合网络,表示为:
Figure BDA0003279524590000034
其中,坐标(t1,t2)是由两个张量嵌入维度[t1 1]T和[t2 1]T定义的笛卡尔平面中的一个点,利用如下公式计算两个张量的融合结果:
Figure BDA0003279524590000035
其中,t表示融合后的张量;
S2.8、将融合后的张量t输入由全连接层和非线性激活函数组成的前向传播层进行一次残差变化和归一化变换,得到文本特征向量对应的学习后的特征矩阵Ftext
Ftext=LayerNorm(t+Sublayer(t));
其中,LayerNorm(·)为归一化变换函数,Sublayer(·)为残差变化函数;
B.语音特征向量对应的模态为主要模态x,文本特征向量和视频特征向量对应的模态为辅助模态y和z;按照步骤S2.1至S2.8的操作方式执行,得到语音特征向量对应的学习后的特征矩阵Faudio
C.视频特征向量对应的模态为主要模态x,文本特征向量和语音特征向量对应的模态为辅助模态y和z;按照步骤S2.1至S2.8的操作方式执行,得到视频特征向量对应的学习后的特征矩阵Fvideo
优选地,所述将三个学习后的特征向量输入Feature Soft Mapping中映射到统一的语义空间中进行融合的方法为:
S3.1、分别对特征矩阵Ftext、Faudio、Fvideo进行尺寸变换,得到三个新的特征矩阵,分别为M1、M2、M3,其中,M1、M2、M3的维度大小均为2k×k;
S3.2、利用大小为1×2k的向量vq分别与每个新的特征矩阵Mq相乘后再利用Softmax函数进行归一化处理,得到大小为1×k的向量aq
aq=softmax(vqMq);
其中,q∈{1,2,3};
S3.3、将所有向量aq进行加权求和,并将求和结果进行整合,得到大小为k的向量m:
Figure BDA0003279524590000041
其中,wq为权重;
S3.4、m为视频序列上单个节点上的计算结果,将整个视频序列的所有节点的结果进行堆叠得到融合特征:
Figure BDA0003279524590000042
其中,s为融合特征,mj'为第j'个节点的向量,j'=0,1,…,N,N为视频的节点数,Stacking(·)为拼接操作。
优选地,所述情感预测结果的表达式为:
y~p=ws(LayerNorm(s));
其中,y~p为预测分类结果,ws为分类层的权重,LayerNorm(·)表示归一化变换函数。
与现有技术相比,本发明产生的有益效果为:本发明从三个模态的原始数据中提取特征向量;将三个模态的特征向量分别复制三份,按作用不同记为Query(Q)向量、Key(K)向量、Value(V)向量;分别选择一个模态作为主要模态x,两个模态作为辅助模态y、z进行组合,将三个组合传入三个Multimodal Interactive Transformer框架中;将MultimodalInteractive Transformer框架输出的结果传入Feature Soft Mapping中进行融合;将融合后的结果传入分类层获取最终情感预测结果。本发明将Guided-Attention技术引入到Transformer编码框架中,给多模态融合方法的研究指出了一个新的研究思路;FeatureSoft Mapping机制将特征向量映射到统一的语义空间,能够在融合时有效获取多模态语义交融信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的整体模型示意图。
图2为本发明所述Multimodal Interactive Transformer框架示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于MIT和FSM的多模态情感分析方法,引入Guided-Attention思路改良传统Transformer编码框架,所得到的MultimodalInteractive Transformer框架不但能够融合低级表征信息,还能够捕获不同主体之间的情感互动,给多模态融合方法的研究指出了一个新的研究思路;提出Feature SoftMapping机制,Feature Soft Mapping机制将特征向量映射到统一的语义空间中,打破不同模态之间的语义空间屏障,能够在融合时有效令多模态信息之间进行语义交融;具体步骤如下:
步骤一:从完整视频中提取视频中的文字、声音和视频画面,获得了文本模态数据、语音模态数据和视频模态数据这三种数据;分别对文本模态数据、语音模态数据和视频模态数据进行预处理,提取文本特征向量、语音特征向量和视频特征向量;对于文本模态数据的处理过程分为两个部分:首先要对原始文本数据进行分析,构造一个针对词的共现矩阵;然后基于矩阵的分布表示,利用单词之间的关联对共现矩阵进行分解从而得到单词的表示向量。具体来讲,将文本模态数据进行分词处理,获取有效单词,并统计有效单词出现的频次作为共现矩阵X的元素x(i,j);使用GloVe模型将共现矩阵X嵌入到300维的文本特征向量中;其中,共现矩阵X的维度为z×z,z为独立词汇的个数,x(i,j)表示单词i和单词j出现在同一个窗口中的次数。
对于语音模态数据的处理是将语音模态数据以40ms为时间刻度,把连续的音频信号在时间刻度内的多个采样点集合为一个讯框,通过一个高通滤波器对音频信号进行预强化以补偿语音信号中的高频部分,利用傅里叶变化将音频信号从时域转化到频域来观察能量部分状况;接下来将每个讯框获得的频谱经过梅尔滤波器过滤掉人耳无法分辨的频率信息,在每个梅尔刻度上提取对数能量以后再进行离散傅里叶反变换,获取80维的语音特征向量。
对于视频模态数据逐帧进行处理,将视频模态数据的每一帧图像的大小都缩放到112×112,对于RGB三通道的视频数据来说,每一帧图像的大小为112×112×3;使用大小为3×3×3的卷积核提取每一帧图像的特征,且将卷积核移动的步幅设置为7((112-7)/7+1=16);三个通道的卷积结果相加,得到每帧图像提取出的大小为256维的视频特征向量(16*16=256)。
步骤二:从文本特征向量、语音特征向量和视频特征向量对应的模态中选择一个模态作为主要模态,其余两个模态作为辅助模态进行组合,得到三个组合,并将三个组合分别输入Multimodal Interactive Transformer中进行辅助学习,分别得到三个学习后的特征矩阵;
Multimodal Interactive Transformer中的实现步骤为:
A.文本特征向量对应的模态为主要模态x,语音特征向量和视频特征向量对应的模态为辅助模态y和z;
S2.1、将主要模态x的Key向量和Value向量记为Kx与Vx,将辅助模态y和z的Query向量分别记为Qy与Qz
S2.2、计算Kx与Qy的标准内积来获取主要模态x与辅助模态y的相似度权重,并对主要模态x与辅助模态y的相似度权重使用Softmax函数进行归一化,再利用归一化后的相似度权重对Vx进行加权求和;具体计算公式为:
Figure BDA0003279524590000061
其中,d表示特征向量的维度;
S2.3、上述操作一共进行h次,每次视为一个head,为了使内积不会过大,通常会将计算出的相似度权重除以K的维度,且每个head中线性变换的参数W都是不相同的;计算每一次操作后的head:
Figure BDA0003279524590000062
其中,headi'表示第i'个head的计算结果,
Figure BDA0003279524590000063
表示第i'个head计算时Qy的权重,
Figure BDA0003279524590000064
表示第i'个head计算时Kx的权重,
Figure BDA0003279524590000065
表示第i'个head计算时Vx的权重,i'=1,2,…,h,h为步骤S2.2的操作次数;
S2.4、将h次的结果进行拼接和线性变化即可得到主要模态x与辅助模态y经过Multi-Head Guided-Attention后的结果,表达式为:
MHGA(Qy,Kx,Vx)=Concat(head1,...,headh)WO
其中,Concat(·)为拼接操作,WO表示给拼接后的值赋予的权重;
S2.5、将Kx、Vx和Qz按照步骤S2.2至S2.4的操作方法,获得主要模态x与辅助模态z经过Multi-Head Guided-Attention后的结果;
S2.6、将主要模态x与辅助模态y经过Multi-Head Guided-Attention后的结果记为张量t1,将主要模态x与辅助模态z经过Multi-Head Guided-Attention后的结果记为张量t2;张量t1、t2均为一维张量。
S2.7、将主要模态x分别与辅助模态y、z经过Multi-Head Guided-Attention后的两个张量t1、t2传入二维张量融合网络(TFN)融合获取低级表征融合信息;使用笛卡尔积的跟随向量场定义二维张量融合网络,表示为:
Figure BDA0003279524590000071
其中,坐标(t1,t2)是由两个张量嵌入维度[t1 1]T和[t2 1]T定义的笛卡尔平面中的一个点,利用如下公式计算两个张量的融合结果:
Figure BDA0003279524590000072
其中,t表示融合后的张量,张量t为二维张量。
S2.8、将融合后的张量传入到由全连接层和非线性激活函数组成的前向传播层(FFN);将融合后的张量t输入由全连接层和非线性激活函数组成的前向传播层进行一次残差变化和归一化变换,得到文本特征向量对应的学习后的特征矩阵Ftext
Ftext=LayerNorm(t+Sublayer(t));
其中,LayerNorm(·)为归一化变换函数,Sublayer(·)为残差变化函数。
B.语音特征向量对应的模态为主要模态x,文本特征向量和视频特征向量对应的模态为辅助模态y和z;按照步骤S2.1至S2.8的操作方式执行,得到语音特征向量对应的学习后的特征矩阵Faudio
C.视频特征向量对应的模态为主要模态x,文本特征向量和语音特征向量对应的模态为辅助模态y和z;按照步骤S2.1至S2.8的操作方式执行,得到视频特征向量对应的学习后的特征矩阵Fvideo
三个数据模态通过三个结构一样的Multimodal Interactive Transformer来处理,输出三个二维张量(也就是矩阵)。
步骤三:将三个学习后的特征矩阵输入Feature Soft Mapping中映射到统一的语义空间中进行融合,得到融合特征;
Feature Soft Mapping机制实现的方法为:
S3.1、分别对特征矩阵Ftext、Faudio、Fvideo进行尺寸变换,得到三个新的特征矩阵,分别为M1、M2、M3,其中,M1、M2、M3的维度大小均为2k×k;
S3.2、利用大小为1×2k的向量vq分别与每个新的特征矩阵Mq相乘后再利用Softmax函数进行归一化处理,得到大小为1×k的向量aq
aq=softmax(vqMq);
其中,q∈{1,2,3};
S3.3、将所有向量aq进行加权求和,并将求和结果进行整合,得到大小为k的向量m:
Figure BDA0003279524590000081
其中,wq为权重;
S3.4、m为视频序列上单个节点上的计算结果,将整个视频序列的所有节点的结果进行堆叠得到融合特征:
Figure BDA0003279524590000082
其中,s为融合特征,mj'为第j'个节点的向量,j'=0,1,…,N,N为视频的节点数,Stacking(·)为拼接操作。
步骤四:将融合特征输入分类层,获取情感预测结果。所述情感预测结果的表达式为:
y~p=ws(LayerNorm(s));
其中,y~p为预测分类结果,ws为分类层的权重,LayerNorm(·)表示归一化变换函数。
本发明的实施步骤如下:从三个模态的原始数据中提取特征向量;将三个模态的特征向量分别复制三份,按作用不同记为Query(Q)向量、Key(K)向量、Value(V)向量;分别选择一个模态作为主要模态x,两个模态作为辅助模态y、z进行组合,将三个组合分别输入Multimodal Interactive Transformer框架中;将结果传入Feature Soft Mapping中进行融合;将融合后的结果传入分类层获取最终情感预测结果。
采用定量评价方式来评价本发明的有效性,本发明方法和各种代表性方法在CMU-MOSEI数据集上的准确率和F1分数比较结果如表1所示。准确率是指样本预测结果中情感分类正确的数量与全部样本数量的比值,其值越大说明预测效果越好。F1分数是精确率和召回率的调和平均数,其值越大说明预测效果越好。本发明方法与MV-LSTM、Graph-MFN、RAVEN、CIM-MTL相比,在情感2分类准确率和F1分数方面都取得了更好的表现。
表1本发明方法与其他方法在CMU-MOSEI数据集上的比较结果
Figure BDA0003279524590000083
Figure BDA0003279524590000091
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于MIT和FSM的多模态情感分析方法,其特征在于,其步骤如下:
步骤一:分别对文本模态数据、语音模态数据和视频模态数据进行预处理,提取文本特征向量、语音特征向量和视频特征向量;
步骤二:从文本特征向量、语音特征向量和视频特征向量对应的模态中选择一个模态作为主要模态,其余两个模态作为辅助模态进行组合,得到三个组合,并将三个组合分别输入Multimodal Interactive Transformer中进行辅助学习,分别得到三个学习后的特征矩阵;
辅助学习的方法为:
A.文本特征向量对应的模态为主要模态x,语音特征向量和视频特征向量对应的模态为辅助模态y和z;
S2.1、将主要模态x的Key向量和Value向量记为Kx与Vx,将辅助模态y和z的Query向量分别记为Qy与Qz
S2.2、计算Kx与Qy的标准内积来获取主要模态x与辅助模态y的相似度权重,并对主要模态x与辅助模态y的相似度权重使用Softmax函数进行归一化,再利用归一化后的相似度权重对Vx进行加权求和;具体计算公式为:
Figure FDA0003670965340000011
其中,d表示特征向量的维度;
S2.3、计算每一次操作后的head:
headi'=Guided-Attention(QyWi' Q,KxWi' k,VxWi' V);
其中,headi'表示第i'个head的计算结果,Wi' Q表示第i'个head计算时Qy的权重,Wi' k表示第i'个head计算时Kx的权重,Wi' V表示第i'个head计算时Vx的权重,i'=1,2,…,h,h为步骤S2.2的操作次数;
S2.4、将h次的结果进行拼接和线性变化即可得到主要模态x与辅助模态y经过Multi-Head Guided-Attention后的结果,表达式为:
MHGA(Qy,Kx,Vx)=Concat(head1,...,headh)WO
其中,Concat(·)为拼接操作,WO表示给拼接后的值赋予的权重;
S2.5、将Kx、Vx和Qz按照步骤S2.2至S2.4的操作方法,获得主要模态x与辅助模态z经过Multi-Head Guided-Attention后的结果;
S2.6、将主要模态x与辅助模态y经过Multi-Head Guided-Attention后的结果记为张量t1,将主要模态x与辅助模态z经过Multi-Head Guided-Attention后的结果记为张量t2
S2.7、使用笛卡尔积的跟随向量场定义二维张量融合网络,表示为:
Figure FDA0003670965340000021
其中,坐标(t1,t2)是由两个张量嵌入维度[t1 1]T和[t2 1]T定义的笛卡尔平面中的一个点,利用如下公式计算两个张量的融合结果:
Figure FDA0003670965340000022
其中,t表示融合后的张量;
S2.8、将融合后的张量t输入由全连接层和非线性激活函数组成的前向传播层进行一次残差变化和归一化变换,得到文本特征向量对应的学习后的特征矩阵Ftext
Ftext=LayerNorm(t+Sublayer(t));
其中,LayerNorm(·)为归一化变换函数,Sublayer(·)为残差变化函数;
B.语音特征向量对应的模态为主要模态x,文本特征向量和视频特征向量对应的模态为辅助模态y和z;按照步骤S2.1至S2.8的操作方式执行,得到语音特征向量对应的学习后的特征矩阵Faudio
C.视频特征向量对应的模态为主要模态x,文本特征向量和语音特征向量对应的模态为辅助模态y和z;按照步骤S2.1至S2.8的操作方式执行,得到视频特征向量对应的学习后的特征矩阵Fvideo
步骤三:将三个学习后的特征矩阵输入FeatureSoft Mapping中映射到统一的语义空间中进行融合,得到融合特征;融合方法为:
S3.1、分别对特征矩阵Ftext、Faudio、Fvideo进行尺寸变换,得到三个新的特征矩阵,分别为M1、M2、M3,其中,M1、M2、M3的维度大小均为2k×k;
S3.2、利用大小为1×2k的向量vq分别与每个新的特征矩阵Mq相乘后再利用Softmax函数进行归一化处理,得到大小为1×k的向量aq
aq=softmax(vqMq);
其中,q∈{1,2,3};
S3.3、将所有向量aq进行加权求和,并将求和结果进行整合,得到大小为k的向量m:
Figure FDA0003670965340000023
其中,wq为权重;
S3.4、m为视频序列上单个节点上的计算结果,将整个视频序列的所有节点的结果进行堆叠得到融合特征:
Figure FDA0003670965340000031
其中,s为融合特征,mj'为第j'个节点的向量,j'=0,1,…,N,N为视频的节点数,Stacking(·)为拼接操作;
步骤四:将融合特征输入分类层,获取情感预测结果。
2.根据权利要求1所述的基于MIT和FSM的多模态情感分析方法,其特征在于,所述对文本模态数据进行预处理,提取文本特征向量的方法为:将文本模态数据进行分词处理,获取有效单词,并统计有效单词出现的频次作为共现矩阵X的元素x(i,j);使用GloVe模型将共现矩阵X嵌入到300维的文本特征向量中;其中,共现矩阵X的维度为z×z,z为独立词汇的个数,x(i,j)表示单词i和单词j出现在同一个窗口中的次数。
3.根据权利要求1所述的基于MIT和FSM的多模态情感分析方法,其特征在于,所述对语音模态数据进行预处理,提取语音特征向量的方法为:将语音模态数据以40ms为时间刻度,把连续的音频信号在时间刻度内的多个采样点集合为一个讯框,通过一个高通滤波器对音频信号进行预强化以补偿语音信号中的高频部分,利用傅里叶变化将音频信号从时域转化到频域;在每个梅尔刻度上提取对数能量以后再进行离散傅里叶反变换,获取80维的语音特征向量。
4.根据权利要求1所述的基于MIT和FSM的多模态情感分析方法,其特征在于,所述对视频模态数据进行预处理,提取视频特征向量的方法为:将视频模态数据的每一帧图像的大小都缩放到112×112,对于RGB三通道的视频数据来说,每一帧图像的大小为112×112×3;使用大小为3×3×3的卷积核提取每一帧图像的特征,且将卷积核移动的步幅设置为7;三个通道的卷积结果相加,得到每帧图像提取出的大小为256维的视频特征向量。
5.根据权利要求1所述的基于MIT和FSM的多模态情感分析方法,其特征在于,所述情感预测结果的表达式为:
y~p=ws(LayerNorm(s));
其中,y~p为预测分类结果,ws为分类层的权重,LayerNorm(·)表示归一化变换函数。
CN202111128257.1A 2021-09-26 2021-09-26 一种基于mit和fsm的多模态情感分析方法 Active CN113806609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111128257.1A CN113806609B (zh) 2021-09-26 2021-09-26 一种基于mit和fsm的多模态情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111128257.1A CN113806609B (zh) 2021-09-26 2021-09-26 一种基于mit和fsm的多模态情感分析方法

Publications (2)

Publication Number Publication Date
CN113806609A CN113806609A (zh) 2021-12-17
CN113806609B true CN113806609B (zh) 2022-07-12

Family

ID=78896684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111128257.1A Active CN113806609B (zh) 2021-09-26 2021-09-26 一种基于mit和fsm的多模态情感分析方法

Country Status (1)

Country Link
CN (1) CN113806609B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230289590A1 (en) * 2022-03-14 2023-09-14 Samsung Electronics Co., Ltd. Method and system for learning to share weights across transformer backbones in vision and language tasks
CN115731593A (zh) * 2022-08-03 2023-03-03 郑州轻工业大学 一种人脸活体检测方法
CN115544227A (zh) * 2022-08-31 2022-12-30 浙江极氪智能科技有限公司 多模态数据的情感分析方法、装置、设备及存储介质
CN115983280B (zh) * 2023-01-31 2023-08-15 烟台大学 面向不确定模态缺失的多模态情感分析方法及系统
CN117611845B (zh) * 2024-01-24 2024-04-26 浪潮通信信息系统有限公司 多模态数据的关联识别方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472232A (zh) * 2018-10-31 2019-03-15 山东师范大学 基于多模态融合机制的视频语义表征方法、系统及介质
CN111564164A (zh) * 2020-04-01 2020-08-21 中国电力科学研究院有限公司 一种多模态情感识别方法及装置
CN111680541A (zh) * 2020-04-14 2020-09-18 华中科技大学 一种基于多维度注意力融合网络的多模态情绪分析方法
CN112489635A (zh) * 2020-12-03 2021-03-12 杭州电子科技大学 一种基于增强注意力机制的多模态情感识别方法
CN113420807A (zh) * 2021-06-22 2021-09-21 哈尔滨理工大学 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8793118B2 (en) * 2011-11-01 2014-07-29 PES School of Engineering Adaptive multimodal communication assist system
US9875445B2 (en) * 2014-02-25 2018-01-23 Sri International Dynamic hybrid models for multimodal analysis
CN106997236B (zh) * 2016-01-25 2018-07-13 亮风台(上海)信息科技有限公司 基于多模态输入进行交互的方法和设备
US11862145B2 (en) * 2019-04-20 2024-01-02 Behavioral Signal Technologies, Inc. Deep hierarchical fusion for machine intelligence applications
US20210151034A1 (en) * 2019-11-14 2021-05-20 Comcast Cable Communications, Llc Methods and systems for multimodal content analytics
US11386712B2 (en) * 2019-12-31 2022-07-12 Wipro Limited Method and system for multimodal analysis based emotion recognition
CN111275085B (zh) * 2020-01-15 2022-09-13 重庆邮电大学 基于注意力融合的在线短视频多模态情感识别方法
CN112559683A (zh) * 2020-12-11 2021-03-26 苏州元启创人工智能科技有限公司 基于多模态数据及多交互记忆网络的方面级情感分析方法
CN113255755B (zh) * 2021-05-18 2022-08-23 北京理工大学 一种基于异质融合网络的多模态情感分类方法
CN113408385B (zh) * 2021-06-10 2022-06-14 华南理工大学 一种音视频多模态情感分类方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472232A (zh) * 2018-10-31 2019-03-15 山东师范大学 基于多模态融合机制的视频语义表征方法、系统及介质
CN111564164A (zh) * 2020-04-01 2020-08-21 中国电力科学研究院有限公司 一种多模态情感识别方法及装置
CN111680541A (zh) * 2020-04-14 2020-09-18 华中科技大学 一种基于多维度注意力融合网络的多模态情绪分析方法
CN112489635A (zh) * 2020-12-03 2021-03-12 杭州电子科技大学 一种基于增强注意力机制的多模态情感识别方法
CN113420807A (zh) * 2021-06-22 2021-09-21 哈尔滨理工大学 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
A survey on sentiment analysis and opinion mining for social multimedia;Zuhe Li et al.;《Multimedia Tools and Applications》;20180803;第6939–6967页 *
DCT-net: A deep co-interactive transformer network for video temporal grounding;Wen Wang et al.;《Image and Vision Computing》;20210630;第1-10页 *
Image sentiment prediction based on textual descriptions with adjective noun pairs;Zuhe Li et al.;《Multimedia Tools and Applications》;20170109;第1115–1132页 *
基于多头注意力的双向LSTM情感分析模型研究;林原等;《山西大学学报(自然科学版)》;20200215(第01期);第1-7页 *
基于情感信息辅助的多模态情绪识别;吴良庆等;《北京大学学报(自然科学版)》;20190926(第01期);第75-81页 *
基于深度学习的多模态多任务端到端自动驾驶研究;田晟 等;《西华大学学报(自然科学版)》;20210630;第62-70页 *

Also Published As

Publication number Publication date
CN113806609A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN113806609B (zh) 一种基于mit和fsm的多模态情感分析方法
CN112489635B (zh) 一种基于增强注意力机制的多模态情感识别方法
WO2020248376A1 (zh) 情绪检测方法、装置、电子设备及存储介质
US20230022943A1 (en) Method and system for defending against adversarial sample in image classification, and data processing terminal
CN109410917B (zh) 基于改进型胶囊网络的语音数据分类方法
CN109933789B (zh) 一种基于神经网络的司法领域关系抽取方法及系统
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN112784801A (zh) 基于文本和图片的双模态胃部疾病分类方法及装置
CN112434732A (zh) 一种基于特征筛选的深度学习分类方法
CN111414461A (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN114201592A (zh) 面向医学图像诊断的视觉问答方法
CN111444367A (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN115878832B (zh) 基于精细对齐判别哈希的海洋遥感图像音频检索方法
CN112183107A (zh) 音频的处理方法和装置
CN114443899A (zh) 视频分类方法、装置、设备及介质
CN112712819A (zh) 视觉辅助跨模态音频信号分离方法
CN116028662B (zh) 基于无监督交互式对齐的海洋遥感图像音频检索方法
CN117371456B (zh) 一种基于特征融合的多模态讽刺检测方法及系统
Dong et al. Research on image classification based on capsnet
CN114492755A (zh) 基于知识蒸馏的目标检测模型压缩方法
Jiang et al. Speech emotion recognition method based on improved long short-term memory networks
CN116701996A (zh) 基于多元损失函数的多模态情感分析方法、系统、设备及介质
CN114842384B (zh) 一种面向6g的触觉模态信号重建方法
CN115346132A (zh) 多模态表示学习的遥感图像异常事件检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant