CN112818861B - 一种基于多模态上下文语义特征的情感分类方法及系统 - Google Patents

一种基于多模态上下文语义特征的情感分类方法及系统 Download PDF

Info

Publication number
CN112818861B
CN112818861B CN202110141728.6A CN202110141728A CN112818861B CN 112818861 B CN112818861 B CN 112818861B CN 202110141728 A CN202110141728 A CN 202110141728A CN 112818861 B CN112818861 B CN 112818861B
Authority
CN
China
Prior art keywords
emotion
semantic
expression
text
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110141728.6A
Other languages
English (en)
Other versions
CN112818861A (zh
Inventor
卢官明
奚晨
卢峻禾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110141728.6A priority Critical patent/CN112818861B/zh
Publication of CN112818861A publication Critical patent/CN112818861A/zh
Application granted granted Critical
Publication of CN112818861B publication Critical patent/CN112818861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多模态上下文语义特征的情感分类方法及系统。该方法包括:将短视频以话语为单位分割成相同数量的语义单元,生成对应的视频、语音和文本样本,并提取表情特征、语谱图和句子向量三种表征特征;将提取的三种表征特征分别输入到表情、语音、文本情感特征编码器,提取对应的情感语义特征;分别使用表情、语音、文本情感语义特征的上下文关系,构建相应的邻接矩阵;分别将表情、语音、文本情感语义特征以及相应的邻接矩阵输入对应的图卷积神经网络,提取对应的上下文情感语义特征,并融合得到多模态情感特征,用于情感的分类识别。本发明通过图卷积神经网络更好地利用情感语义特征的上下文关系,能有效地提高情感分类的准确率。

Description

一种基于多模态上下文语义特征的情感分类方法及系统
技术领域
本发明属于情感计算领域,具体涉及一种基于多模态上下文语义特征的情感分类方法及系统。
背景技术
在人们的日常交流中,情感是人与人之间相互理解的重要桥梁,情感的感知和理解能够帮助人们理解对方的各种行为和心理状态。面部表情、语音是人们表达情感的重要方式,针对这些单一模态的情感研究已经日益成熟,并在人们的生活中已经有了一定的应用。但随着研究的深入,研究人员发现,由于单一模态所表达的情感信息是不完整的,单模态情感分析存在一定的局限性。因此,越来越多的研究人员将目光转向基于多模态信息融合的情感分类研究,期望能够利用各个模态信息之间的互补性,来构建鲁棒的情感识别模型,以达到更高的情感分类准确率。
随着智能手机和互联网的普及,大量用户通过社交媒体(如微博、抖音、快手等)以文本、短视频等多种方式来发表自己的观点,海量社交媒体数据的形态不再局限于单一的文本模态,更多的是融合了文本、图像、短视频的多模态数据。社交媒体是各种产品和用户服务意见的巨大来源,当用户在网络上针对某件商品发表评论时,他会不经意地表现出对这种商品的满意程度,也就是评论过程中表达的情感。对于商家来说,希望尽可能快速地了解用户群体对商品的态度,以便及时调整营销策略或者改进商品质量,从而提高用户对商品的满意程度。在多种模态数据同时存在的情况下,多模态情感分析在网络营销、电子商务、舆情监控、商品推荐等方面有广阔的应用前景。
如何对多种模态的数据进行融合来提高情感分析的准确率,是目前多模态情感分析的主要问题。现有的方法试图在不同的阶段学习多个模态之间的隐藏关联,或者分别根据不同模态的信息做出情感预测之后再进行投票融合,在一定程度上解决了相关问题并提升了多模态情感分类性能,但大都忽略了每种模态信息中的上下文依赖关系,没有考虑视频中每个话语的上下文信息,仍然存在有待改进的地方。
发明内容
发明目的:针对现有的情感分类技术的缺点,本发明提出了一种基于多模态上下文语义特征的情感分类方法及系统,通过引入各个模态的情感语义特征的上下文依赖关系以及图卷积操作,提取多模态的上下文情感语义特征,从而有效提升多模态情感分类的准确率。
技术方案:本发明为实现上述发明目的采用以下技术方案:
一种基于多模态上下文语义特征的情感分类方法,包括以下步骤:
(1)将短视频以话语为单元分割成相同数量的语义单元,每个语义单元作为一个样本,并从语义单元中生成对应的视频样本、语音样本和文本样本,并对三类样本对应提取表情特征向量、语谱图和句子向量三种表征特征;
(2)将每个语义单元的表情特征向量、语谱图、句子向量分别输入到表情情感特征编码器、语音情感特征编码器、文本情感特征编码器,提取表情情感语义特征向量、语音情感语义特征向量、文本情感语义特征向量;
所述表情情感特征编码器,用于将多个时间步上的静态表情特征向量进行时序关联,输出动态表情特征向量;并通过注意力机制计算不同时间步上的表情特征向量的重要性权重,通过加权融合形成表情情感语义特征向量;
所述语音情感特征编码器,用于对语谱图进行卷积和池化操作,并将得到的特征图转换成若干组特征向量;以及通过注意力机制确定不同特征向量组的重要性权重,通过加权融合形成语音情感语义特征向量;
所述文本情感特征编码器,用于将句子向量转换为若干组特征向量,并通过注意力机制确定不同特征向量组的重要性权重,通过加权融合形成文本情感语义特征向量;
(3)分别使用源自同一个短视频的视频样本、语音样本、文本样本的上下文关系,构建相应的表情情感语义特征邻接矩阵、语音情感语义特征邻接矩阵、文本情感语义特征邻接矩阵;
(4)分别将表情情感语义特征及其邻接矩阵、语音情感语义特征及其邻接矩阵、文本情感语义特征及其邻接矩阵输入到对应的图卷积神经网络,提取表情上下文情感语义特征向量、语音上下文情感语义特征向量、文本上下文情感语义特征向量;
(5)将表情上下文情感语义特征向量、语音上下文情感语义特征向量和文本上下文情感语义特征向量进行融合,得到最终的多模态情感特征向量;
(6)将步骤(5)得到的多模态情感特征向量输入到分类器中进行情感分类,得到情感类别。
作为优选,所述步骤(2)中的表情情感特征编码器,包括顺序连接的1个长短时记忆网络LSTM层和1个注意力机制模块;
LSTM层,包含d个输出神经元,用于将T个时间步上的静态表情特征向量进行时序关联,输出d维的动态表情特征向量,其中,d取值为128或256,T取值为32或64;
注意力机制模块,用于确定LSTM层在不同时间步上输出的表情特征向量的重要性权重,通过加权融合形成表情情感语义特征向量,其中LSTM层在第t个时间步上输出的表情特征向量的权重系数
Figure BDA0002929116940000034
以及表情情感语义特征向量FV表示如下:
Figure BDA0002929116940000031
Figure BDA0002929116940000032
其中,t=1,2,…,T,上标V代表视频模态,
Figure BDA0002929116940000033
表示LSTM层在第t个时间步上输出的d维表情特征向量,exp(·)表示以自然常数e为底的指数函数,WV为可训练的d维线性变换参数向量。
作为优选,所述步骤(2)中的语音情感特征编码器,包括顺序连接的1个数据处理层、1个卷积模块、1个全连接层、1个线性变换层和1个注意力机制模块;
数据处理层,用于对输入的每个语音样本的语谱图进行归一化处理;
卷积模块,包含1个卷积层和1个池化层,卷积层选用k个大小为k1×k2的卷积核对归一化后的语谱图进行卷积运算,使用ReLU激活函数进行非线性处理,其中,k取值为6或12,k1在8、10中取值,k2在8、12中取值;池化层选用1×k3的池化核对卷积层的输出进行最大池化操作,其中,k3在3、4中取值;
全连接层,包含w个输出神经元,用于将卷积模块输出的特征图映射为特征向量,w取值为512或640;
线性变换层,用于将全连接层输出的特征向量转换成R组特征向量,每组特征向量的维数为
Figure BDA0002929116940000041
其中R取值为8或10;
注意力机制模块,用来确定线性变换层输出的不同特征向量组的重要性权重,通过加权融合形成语音情感语义特征向量,其中线性变换层输出的第r组特征向量的权重
Figure BDA0002929116940000042
以及语音情感语义特征向量FA表示为:
Figure BDA0002929116940000043
Figure BDA0002929116940000044
其中,r=1,2,…,R,上标A代表语音模态,
Figure BDA0002929116940000045
表示线性变换层输出的第r组特征向量,W A为可训练的
Figure BDA0002929116940000046
维线性变换参数向量。
作为优选,所述步骤(2)中的文本情感特征编码器,包括顺序连接的1个数据处理层和1个注意力机制模块;
数据处理层,用于将输入的u维句子向量转换为S组特征向量,每组特征向量的维数为
Figure BDA0002929116940000047
其中S取值为8或12;
注意力机制模块,用来确定数据处理层输出的不同特征向量组的重要性权重,通过加权融合形成文本情感语义特征向量,其中数据处理层输出的第s组特征向量的权重
Figure BDA0002929116940000048
以及文本情感语义特征向量FX表示为:
Figure BDA0002929116940000049
Figure BDA00029291169400000410
其中,s=1,2,…,S,上标X代表文本模态,
Figure BDA0002929116940000051
表示数据处理层输出的第s组特征向量,WX为可训练的
Figure BDA0002929116940000052
维线性变换参数向量。
作为优选,所述步骤(3)中构建表情/语音/文本情感语义特征邻接矩阵的步骤如下:
计算源自同一个短视频的第i个视频/语音/文本样本和第j个视频/语音/文本样本的情感语义特征向量之间的余弦相似度;
若第i个视频/语音/文本样本和第j个视频/语音/文本样本的情感语义特征向量之间的余弦相似度不低于设定的阈值,令表情/语音/文本情感语义特征邻接矩阵的第i行第j列元素为1,否则令表情/语音/文本情感语义特征邻接矩阵的第i行第j列元素为0,i,j∈{1,2,…,N},N为从短视频中分割出来的语义单元数量。
作为优选,所述步骤(4)中的用于提取表情上下文情感语义特征向量的图卷积神经网络,包括顺序连接的1个数据处理层、1个图卷积模块和1个全连接层;
数据处理层,用于将源自同一个短视频的视频样本的表情情感语义特征向量构成矩阵
Figure BDA0002929116940000053
由表情情感语义特征邻接矩阵AV计算得到度矩阵DV,即
Figure BDA0002929116940000054
其中,
Figure BDA0002929116940000055
为矩阵AV第i行第j列元素;
再计算拉普拉斯矩阵LV,即
Figure BDA0002929116940000056
其中,I表示N×N的单位矩阵,DV为N×N的对角矩阵;
图卷积模块,用于对数据处理层的输出进行图卷积操作,即
Figure BDA0002929116940000061
其中,
Figure BDA0002929116940000062
表示第l层图卷积层的输出,l=0,1,2,并且
Figure BDA0002929116940000063
为可训练的线性变换参数矩阵,σ(·)表示sigmoid非线性激活函数;
全连接层,用于将图卷积模块的输出全连接至本层的h个神经元,输出一个h维的表情上下文情感语义特征向量,h取值为128或256。
作为优选,所述步骤(4)中的用于提取语音上下文情感语义特征向量的图卷积神经网络,包括顺序连接的1个数据处理层、1个图卷积模块和1个全连接层;
数据处理层,用于将源自同一个短视频的语音样本的语音情感语义特征向量构成矩阵
Figure BDA0002929116940000064
为表情情感语义特征向量维数,由语音情感语义特征邻接矩阵AA计算得到度矩阵DA,即
Figure BDA0002929116940000065
其中,
Figure BDA0002929116940000066
为矩阵AA第i行第j列元素;
再计算拉普拉斯矩阵LA,即
Figure BDA0002929116940000067
其中,DA为N×N的对角矩阵;
图卷积模块,用于对数据处理层的输出进行图卷积操作,即
Figure BDA0002929116940000068
其中,
Figure BDA0002929116940000069
表示第l层图卷积层的输出,l=0,1,2,并且
Figure BDA00029291169400000610
为可训练的线性变换参数矩阵;
全连接层,用于将图卷积模块的输出全连接至本层的h个神经元,输出一个h维的语音上下文情感语义特征向量。
作为优选,所述步骤(4)中的用于提取文本上下文情感语义特征向量的图卷积神经网络,包括顺序连接的1个数据处理层、1个图卷积模块和1个全连接层;
数据处理层,用于将源自同一个短视频的文本样本的文本情感语义特征向量构成矩阵
Figure BDA0002929116940000071
由文本情感语义特征邻接矩阵AX计算得到度矩阵DX,即
Figure BDA0002929116940000072
其中,
Figure BDA0002929116940000073
为矩阵AX第i行第j列元素;
再计算拉普拉斯矩阵LX,即
Figure BDA0002929116940000074
其中,DX为N×N的对角矩阵;
图卷积模块,用于对数据处理层的输出进行图卷积操作,即
Figure BDA0002929116940000075
其中,
Figure BDA0002929116940000076
表示第l层图卷积层的输出,l=0,1,2,并且
Figure BDA0002929116940000077
为可训练的线性变换参数矩阵;
全连接层,用于将图卷积模块的输出全连接至本层的h个神经元,输出一个h维的文本上下文情感语义特征向量。
基于相同的发明构思,本发明公开的一种基于多模态上下文语义特征的情感分类系统,包括以下模块:
预处理和表征特征提取模块,用于将短视频以话语为单元分割成相同数量的语义单元,每个语义单元作为一个样本,并从语义单元中生成对应的视频样本、语音样本和文本样本,并对三类样本对应提取表情特征向量、语谱图和句子向量三种表征特征;
语义特征提取模块,用于将每个语义单元的表情特征向量、语谱图、句子向量分别输入到表情情感特征编码器、语音情感特征编码器、文本情感特征编码器,提取表情情感语义特征向量、语音情感语义特征向量、文本情感语义特征向量;所述表情情感特征编码器,用于将多个时间步上的静态表情特征向量进行时序关联,输出动态表情特征向量;并通过注意力机制计算不同时间步上的表情特征向量的重要性权重,通过加权融合形成表情情感语义特征向量;所述语音情感特征编码器,用于对语谱图进行卷积和池化操作,并将得到的特征图转换成若干组特征向量;以及通过注意力机制确定不同特征向量组的重要性权重,通过加权融合形成语音情感语义特征向量;所述文本情感特征编码器,用于将句子向量转换为若干组特征向量,并通过注意力机制确定不同特征向量组的重要性权重,通过加权融合形成文本情感语义特征向量;
邻接矩阵生成模块,用于分别使用源自同一个短视频的视频样本、语音样本、文本样本的上下文关系,构建相应的表情情感语义特征邻接矩阵、语音情感语义特征邻接矩阵、文本情感语义特征邻接矩阵;
上下文情感语义特征提取模块,用于分别将表情情感语义特征及其邻接矩阵、语音情感语义特征及其邻接矩阵、文本情感语义特征及其邻接矩阵输入到对应的图卷积神经网络,提取表情上下文情感语义特征向量、语音上下文情感语义特征向量、文本上下文情感语义特征向量;
特征融合模块,用于将表情上下文情感语义特征向量、语音上下文情感语义特征向量和文本上下文情感语义特征向量进行融合,得到最终的多模态情感特征向量。
以及,情感分类识别模块,使用分类器对多模态情感特征向量进行分类,得到情感类别。
基于相同的发明构思,本发明公开的一种基于多模态上下文语义特征的情感分类系统,包括至少一台计算设备,所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的一种基于多模态上下文语义特征的情感分类方法。
有益效果:与现有技术相比,本发明具有以下技术效果:
(1)通过将短视频进行语义分割,以各语义单元为样本从中提取视频、语音和文本三种模态的表征特征,采用了表情、语音、文本三种模态融合作为情感识别的判别依据,丰富了模态信息;
(2)在提取了表情、语音和文本三种模态的情感表征特征基础上,增加了情感特征的编码模块,编码模块中使用注意力机制来专注于情感表征特征中特定的情感特征,以充分获取表情、语音和文本的情感语义特征,使得模型能够理解情感语义;
(3)采用了图卷积神经网络来学习上下文之间的依赖关系,以情感语义特征为图结构的结点信息,使用余弦相似度对同一短视频划分的样本构建邻接矩阵作为图结构的边信息,同时搭建并训练图卷积神经网络,将图结构中的上下文信息引入到情感特征中,获取上下文情感语义特征,进一步增加了多模态上下文依赖的特征信息,能够有效地提高多模态情感识别准确率,提升多模态情感识别系统的泛化能力。
附图说明
图1是本发明实施例的方法的流程图。
图2是本发明实施例的系统结构示意图。
具体实施方式
下面结合说明书附图和具体实施例对本发明的技术方案做进一步详细的说明。
如图1所示,本发明实施例提供的一种基于多模态上下文语义特征的情感分类方法,主要包括如下步骤:
步骤(1)数据预处理以及表征特征提取:将短视频以话语为单元分割成相同数量的语义单元(通常可根据视频长度分割为12≤N≤60个语义单元),每个语义单元作为一个样本,并从语义单元中生成对应的视频样本、语音样本和文本样本,并对三类样本对应提取表情特征向量、语谱图和句子向量三种表征特征。
本实施例使用CMU-MOSI(CMU Multi-modal Opinion-level SentimentIntensity)数据集,该数据集采集自93个针对不同话题发表评论的短视频,以话语(utterance)为单元将每个短视频分割成若干个语义单元,共包含2199个语义单元,每个语义单元都有一个与之相应的情感类别标签,情感类别被标注为积极或消极。我们将每个语义单元作为一个视频样本,并分别使用ffmpy3和SpeechRecognition工具库从这些语义单元中生成对应的语音样本和文本样本。然后对视频样本、语音样本和文本样本分别进行预处理,预处理包括对视频样本进行帧采样、统一帧图像的大小,对语音样本进行预加重、分帧、加窗,对文本样本进行截长补短操作使得文本的长度相等,并在此基础上提取表情特征向量、语谱图和句子向量三种表征特征。在本实施例中,为了对每个短视频中相邻语义单元间的上下文关系进行建模,我们做如下的处理:若CMU-MOSI数据集中某个短视频分割出来的语义单元数量少于24个,则通过插入所有特征数据为0的“哑元”语义单元来填充;反之,若从输入的短视频中分割出来的语义单元数量大于24个,则只保留前面24个语义单元,删除多余的语义单元,使得每个短视频所包含的语义单元数量都等于24个。这样,经过处理后得到的数据集分别包含视频样本、语音样本和文本样本各2232个,作为本实施例的训练样本。具体的,表征特征提取包括如下三个方面:
(1.1)对视频样本进行预处理和特征提取
首先对视频样本以每隔2帧截取1帧的方式进行帧采样操作,截取32帧图像,如果截取的帧数不足32帧,则采取“复制拷贝”方式补足32帧;然后,将截取的每帧图像大小调整为224×224像素,并使用在ImageNet上预训练好的VGG-16基础网络进行特征提取,从VGG-16的最后一个全连接层输出512维的表情特征向量。
(1.2)对语音样本进行预处理和特征提取
首先对语音样本进行预加重、分帧、加窗等预处理,帧长取25ms,帧移设置为15ms;然后对预处理之后的各帧语音信号进行傅里叶变换(FFT),计算频谱能量,以时间为横轴、频率为纵轴、频谱能量为坐标值使用matplotlib工具库绘制语谱图,得到语音样本的语谱图。每个语音样本对应的语谱图的大小为256×256。
(1.3)对文本样本进行预处理和特征提取
首先对文本样本进行截长补短操作,对超过16个单词的文本样本进行截断,少于16个单词的样本添加特殊字符[defa],使得文本样本的长度统一为16个单词;然后使用Google开源的Bert预训练模型提取768维的句子向量。
步骤(2)情感语义特征向量的提取:将每个语义单元的表情特征向量、语谱图、句子向量分别输入到表情情感特征编码器、语音情感特征编码器、文本情感特征编码器,提取表情情感语义特征向量、语音情感语义特征向量、文本情感语义特征向量;具体包括如下三个方面:
(2.1)表情情感特征编码器及表情情感语义特征向量的提取
表情情感特征编码器,用于将多个时间步上的静态表情特征向量进行时序关联,输出动态表情特征向量;并通过注意力机制计算不同时间步上的表情特征向量的重要性权重,通过加权融合形成表情情感语义特征向量。本实施例中,表情情感特征编码器包括顺序连接的1个长短时记忆网络(Long Short-Term Memory,LSTM)层、1个注意力机制模块。
进一步地,LSTM层包含d个输出神经元,用于将T个时间步上的静态表情特征向量进行时序关联,输出d维的动态表情特征向量。其中,d取值为128或256,T取值为32或64。在本实施例中,d取值为128,T取值为32;
进一步地,注意力机制模块,用于确定LSTM层在不同时间步上输出的表情特征向量的重要性权重,通过加权融合形成表情情感语义特征向量,具体过程如下:首先由式(1)计算出LSTM层在第t个时间步上输出的表情特征向量的权重系数
Figure BDA0002929116940000111
然后由式(2)得到128维的表情情感语义特征向量FV,即
Figure BDA0002929116940000112
Figure BDA0002929116940000113
其中,t=1,2,…,32,V代表视频模态,
Figure BDA0002929116940000114
表示LSTM层在第t个时间步上输出的128维表情特征向量,exp(·)表示以自然常数e为底的指数函数,WV为可训练的128维线性变换参数向量。
为了训练表情情感特征编码器,需要在表情情感特征编码器之后连接一个softmax分类器,将注意力机制模块输出的表情情感语义特征向量FV连接到softmax分类器的C个输出节点,经过softmax函数之后输出一个概率分布向量
Figure BDA0002929116940000121
其中c∈[1,C],C为情感类别数。
进一步地,表情情感特征编码器由式(3)所示的交叉熵损失函数来训练模型参数。
Figure BDA0002929116940000122
其中,FV为128维的表情情感语义特征向量;
Figure BDA0002929116940000123
表示softmax分类模型预测情感类别的概率分布向量;
Figure BDA0002929116940000124
表示第m个视频样本的真实情感类别标签,当采用one-hot编码时,若第m个视频样本的真实情感类别标签为c,则
Figure BDA0002929116940000125
否则
Figure BDA0002929116940000126
表示softmax分类模型将第m个视频样本预测为类别c的概率;LossV表示表情情感特征编码器在训练过程中的损失函数;在本实施例中,情感被分为积极、消极2种类别,C=2,M=2232。
通过误差反向传播算法不断迭代训练表情情感特征编码器,直至模型参数达到最优。之后,就可将表情特征输入到训练好的表情情感特征编码器来提取表情情感语义特征向量FV
(2.2)语音情感特征编码器及语音情感语义特征向量的提取
语音情感特征编码器,用于对语谱图进行卷积和池化操作,并将得到的特征图转换成若干组特征向量;以及通过注意力机制确定不同特征向量组的重要性权重,通过加权融合形成语音情感语义特征向量。本实施例中语音情感特征编码器包括顺序连接的1个数据处理层、1个卷积模块、1个全连接层、1个线性变换层、1个注意力机制模块。
进一步地,数据处理层,用于对输入的每个语音样本的语谱图进行归一化处理。
进一步地,卷积模块,包含1个卷积层和1个池化层,卷积层选用k个大小为k1×k2的卷积核对归一化后的语谱图进行卷积运算,使用ReLU激活函数进行非线性处理,其中,k取值为6或12,k1在8、10中取值,k2在8、12中取值;池化层选用1×k3的池化核对卷积层的输出进行最大池化操作,其中,k3在3、4中取值。在本实施例中,k取值为6,k1取值为8,k2取值为12,k3取值为3。
进一步地,全连接层,包含w个输出神经元,用于将卷积模块输出的特征图映射为特征向量,w取值为512或640。在本实施例中,w取值为640。
进一步地,线性变换层,用于将全连接层输出的特征向量转换成R组特征向量,每组特征向量的维数为
Figure BDA0002929116940000131
其中R取值为8或10。在本实施例中,R取值为10,
Figure BDA0002929116940000132
进一步地,注意力机制模块,用来确定线性变换层输出的不同特征向量组的重要性权重,通过加权融合形成语音情感语义特征向量,具体过程如下:首先由式(4)计算出线性变换层输出的第r组特征向量的权重
Figure BDA0002929116940000133
其中,r=1,2,…,10;然后由式(5)得到64维的语音情感语义特征向量FA,即
Figure BDA0002929116940000134
Figure BDA0002929116940000135
其中,A代表语音模态,
Figure BDA0002929116940000136
表示线性变换层输出的第r组特征向量,W A为可训练的64维线性变换参数向量。
为了训练语音情感特征编码器,需要在语音情感特征编码器之后连接一个softmax分类器,将注意力机制模块输出的语音情感语义特征向量FA连接到softmax分类器的C个输出节点,经过softmax函数之后输出一个概率分布向量
Figure BDA0002929116940000139
其中c∈[1,C],C为情感类别数。
进一步地,语音情感特征编码器由式(6)所示的交叉熵损失函数来训练模型参数。
Figure BDA0002929116940000137
其中,FA为64维的语音情感语义特征向量;
Figure BDA0002929116940000138
表示softmax分类模型预测情感类别的概率分布向量;
Figure BDA0002929116940000141
表示第m个语音样本的真实情感类别标签,当采用one-hot编码时,若第m个语音样本的真实情感类别标签为c,则
Figure BDA0002929116940000142
否则
Figure BDA0002929116940000143
表示softmax分类模型将第m个语音样本预测为类别c的概率;LossA表示语音情感特征编码器在训练过程中的损失函数;在本实施例中,情感被分为积极、消极2种类别,C=2,M=2232。
通过误差反向传播算法不断迭代训练语音情感特征编码器,直至模型参数达到最优。之后,就可将语谱图输入到训练好的语音情感特征编码器来提取64维语音情感语义特征向量FA
(2.3)文本情感特征编码器及文本情感语义特征向量的提取
文本情感特征编码器,用于将句子向量转换为若干组特征向量,并通过注意力机制确定不同特征向量组的重要性权重,通过加权融合形成文本情感语义特征向量。本实施例中,文本情感特征编码器包括顺序连接的1个数据处理层、1个注意力机制模块。
进一步地,数据处理层,用于将输入的u维句子向量转换为S组特征向量,每组特征向量的维数为
Figure BDA0002929116940000144
其中S取值为8或12。在本实施例中,u768,S取值为8,
Figure BDA0002929116940000145
进一步地,注意力机制模块,用来确定数据处理层输出的不同特征向量组的重要性权重,通过加权融合形成文本情感语义特征向量,具体过程如下:首先由式(7)计算出数据处理层输出的第s组特征向量的权重
Figure BDA0002929116940000146
其中,s=1,2,…,8;然后由式(8)得到96维的文本情感语义特征向量FX,即
Figure BDA0002929116940000147
Figure BDA0002929116940000148
其中,X代表文本模态,
Figure BDA0002929116940000149
表示数据处理层输出的第s组特征向量,WX为可训练的96维线性变换参数向量。
为了训练文本情感特征编码器,需要在文本情感特征编码器之后连接一个softmax分类器,将注意力机制模块输出的文本情感语义特征向量FX连接到softmax分类器的C个输出节点,经过softmax函数之后输出一个概率分布向量
Figure BDA0002929116940000151
其中c∈[1,C],C为情感类别数。
进一步地,文本情感特征编码器由式(9)所示的交叉熵损失函数来训练模型参数。
Figure BDA0002929116940000152
其中,FX为96维的文本情感语义特征向量;
Figure BDA0002929116940000153
表示softmax分类模型预测情感类别的概率分布向量;
Figure BDA0002929116940000154
表示第m个文本样本的真实情感类别标签,当采用one-hot编码时,若第m个文本样本的真实情感类别标签为c,则
Figure BDA0002929116940000155
否则
Figure BDA0002929116940000156
表示softmax分类模型将第m个文本样本预测为类别c的概率;LossX表示文本情感特征编码器在训练过程中的损失函数;在本实施例中,情感被分为积极、消极2种类别,C=2,M=2232。
通过误差反向传播算法不断迭代训练文本情感特征编码器,直至模型参数达到最优。之后,就可将句子向量特征输入到训练好的文本情感特征编码器来提取文本情感语义特征向量FX
步骤(3)邻接矩阵的构建:分别使用源自同一个短视频的视频样本、语音样本、文本样本的上下文关系,构建相应的表情情感语义特征邻接矩阵、语音情感语义特征邻接矩阵、文本情感语义特征邻接矩阵。具体包括如下三个方面:
(3.1)表情情感语义特征邻接矩阵AV的构建,具体步骤如下:
(3.1.1)由式(10)计算源自同一个短视频的第i个视频样本和第j个视频样本的情感语义特征向量之间的余弦相似度
Figure BDA0002929116940000157
Figure BDA0002929116940000161
其中,vi和vj分别表示第i个视频样本和第j个视频样本的情感语义特征向量,||·||表示取模操作,i,j∈{1,2,…,N},N表示从短视频中分割出来的语义单元数量,在本实施例中,N24;
(3.1.2)当
Figure BDA0002929116940000162
时,令表情情感语义特征邻接矩阵AV的第i行第j列元素
Figure BDA00029291169400001613
Figure BDA0002929116940000163
时,令AV的第i行第j列元素
Figure BDA0002929116940000164
其中i,j∈{1,2,…,24}。
(3.2)语音情感语义特征邻接矩阵AA的构建,具体步骤如下:
(3.2.1)由式(11)计算源自同一个短视频的第i个语音样本和第j个语音样本的情感语义特征向量之间的余弦相似度
Figure BDA0002929116940000165
Figure BDA0002929116940000166
其中,αi和αj分别表示第i个语音样本和第j个语音样本的情感语义特征向量,||·||表示取模操作,i,j∈{1,2,…,N},N表示从短视频中分割出来的语义单元数量,在本实施例中,N24;
(3.2.2)当
Figure BDA0002929116940000167
时,令语音情感语义特征邻接矩阵AA的第i行第j列元素
Figure BDA0002929116940000168
Figure BDA0002929116940000169
时,令AA的第i行第j列元素
Figure BDA00029291169400001610
其中i,j∈{1,2,…,24}。
(3.3)文本情感语义特征邻接矩阵AX的构建,具体步骤如下:
(3.3.1)由式(12)计算源自同一个短视频的第i个文本样本和第j个文本样本的情感语义特征向量之间的余弦相似度
Figure BDA00029291169400001611
Figure BDA00029291169400001612
其中,xi和xj分别表示第i个文本样本和第j个文本样本的情感语义特征向量,||·||表示取模操作,i,j∈{1,2,…,N},N表示从短视频中分割出来的语义单元数量,在本实施例中,N24;
(3.3.2)当
Figure BDA0002929116940000171
时,令文本情感语义特征邻接矩阵AX的第i行第j列元素
Figure BDA0002929116940000172
Figure BDA0002929116940000173
时,令AX的第i行第j列元素
Figure BDA0002929116940000174
其中i,j∈{1,2,…,24}。
步骤(4)上下文情感语义特征向量的提取:分别将表情情感语义特征及其邻接矩阵、语音情感语义特征及其邻接矩阵、文本情感语义特征及其邻接矩阵输入到对应的图卷积神经网络,提取表情上下文情感语义特征向量、语音上下文情感语义特征向量、文本上下文情感语义特征向量。具体包括如下三个方面:
(4.1)表情上下文情感语义特征向量的提取。用于提取表情上下文情感语义特征向量的图卷积神经网络,包括顺序连接的1个数据处理层、1个图卷积模块、1个全连接层。
数据处理层,将源自同一个短视频的N个视频样本的d维表情情感语义特征向量构成矩阵
Figure BDA0002929116940000175
由表情情感语义特征邻接矩阵AV计算得到度矩阵DV,即
Figure BDA0002929116940000176
再由式(13)计算拉普拉斯矩阵LV,即
Figure BDA0002929116940000177
其中,I表示NN的单位矩阵,DV为NN的对角矩阵。在本实施例中,N24,d=128。
图卷积模块,由式(14)对数据处理层的输出进行图卷积操作,即
Figure BDA0002929116940000181
其中,
Figure BDA0002929116940000182
表示第l层图卷积层的输出,l=0,1,2,并且
Figure BDA0002929116940000183
为可训练的线性变换参数矩阵,σ(·)表示sigmoid非线性激活函数。ΦV通过图卷积模块后的输出为
Figure BDA0002929116940000184
而第i个视频样本的表情情感语义特征向量通过图卷积模块后的输出为
Figure BDA0002929116940000185
的第i个行向量
Figure BDA0002929116940000186
全连接层,将图卷积模块的输出全连接至本层的h个神经元,输出一个h维的表情上下文情感语义特征向量
Figure BDA0002929116940000187
在本实施例中,h取值为128。
为了训练用于提取表情上下文情感语义特征向量的图卷积神经网络,需要在该图卷积神经网络的全连接层之后连接一个softmax分类器,将全连接层输出的表情上下文情感语义特征向量
Figure BDA0002929116940000188
连接到softmax分类器的C个输出节点,经过softmax函数之后输出一个概率分布向量
Figure BDA0002929116940000189
其中c∈[1,C],C为情感类别数。
进一步地,用于提取表情上下文情感语义特征向量的图卷积神经网络由式(15)所示的交叉熵损失函数来训练模型参数。
Figure BDA00029291169400001810
其中,
Figure BDA00029291169400001811
为图卷积神经网络输出的128维表情上下文情感语义特征向量;
Figure BDA00029291169400001812
表示softmax分类模型预测情感类别的概率分布向量;
Figure BDA00029291169400001813
表示第m个视频样本的真实情感类别标签,当采用one-hot编码时,若第m个视频样本的真实情感类别标签为c,则
Figure BDA00029291169400001814
否则
Figure BDA00029291169400001815
表示softmax分类模型将第m个视频样本预测为类别c的概率;
Figure BDA00029291169400001816
表示用于提取表情上下文情感语义特征向量的图卷积神经网络在训练过程中的损失函数;在本实施例中,情感被分为积极、消极2种类别,C=2,M=2232。
通过误差反向传播算法不断迭代训练图卷积神经网络,直至模型参数达到最优。之后,就可利用训练好的图卷积神经网络来提取表情上下文情感语义特征向量
Figure BDA0002929116940000191
(4.2)语音上下文情感语义特征向量的提取。用于提取语音上下文情感语义特征的图卷积神经网络,包括顺序连接的1个数据处理层、1个图卷积模块、1个全连接层。
数据处理层,将源自同一个短视频的N个语音样本的
Figure BDA0002929116940000192
维语音情感语义特征向量构成矩阵
Figure BDA0002929116940000193
由语音情感语义特征邻接矩阵AA计算得到度矩阵DA,即
Figure BDA0002929116940000194
再由式(16)计算拉普拉斯矩阵LA,即
Figure BDA0002929116940000195
其中,I表示NN的单位矩阵,DA为NN的对角矩阵。在本实施例中,N24,
Figure BDA0002929116940000196
图卷积模块,由式(17)对数据处理层的输出进行图卷积操作,即
Figure BDA0002929116940000197
其中,
Figure BDA0002929116940000198
表示第l层图卷积层的输出,l=0,1,2,并且
Figure BDA0002929116940000199
为可训练的线性变换参数矩阵,σ(·)表示sigmoid非线性激活函数。ΦA通过图卷积模块后的输出为
Figure BDA00029291169400001910
而第i个语音样本的语音情感语义特征向量通过图卷积模块后的输出为
Figure BDA00029291169400001911
的第i个行向量
Figure BDA00029291169400001912
全连接层,将图卷积模块的输出全连接至本层的h个神经元,输出一个h维的语音上下文情感语义特征向量
Figure BDA00029291169400001913
在本实施例中,h取值为128。
为了训练用于提取语音上下文情感语义特征向量的图卷积神经网络,需要在该图卷积神经网络的全连接层之后连接一个softmax分类器,将全连接层输出的语音上下文情感语义特征向量
Figure BDA0002929116940000201
连接到softmax分类器的C个输出节点,经过softmax函数之后输出一个概率分布向量
Figure BDA0002929116940000202
其中c∈[1,C],C为情感类别数。
进一步地,用于提取语音上下文情感语义特征向量的图卷积神经网络由式(18)所示的交叉熵损失函数来训练模型参数。
Figure BDA0002929116940000203
其中,
Figure BDA0002929116940000204
为图卷积神经网络输出的128维语音上下文情感语义特征向量;
Figure BDA0002929116940000205
表示softmax分类模型预测情感类别的概率分布向量;
Figure BDA0002929116940000206
表示第m个语音样本的真实情感类别标签,当采用one-hot编码时,若第m个语音样本的真实情感类别标签为c,则
Figure BDA0002929116940000207
否则
Figure BDA0002929116940000208
表示softmax分类模型将第m个语音样本预测为类别c的概率;
Figure BDA0002929116940000209
表示用于提取语音上下文情感语义特征向量的图卷积神经网络在训练过程中的损失函数;在本实施例中,情感被分为积极、消极2种类别,C=2,M=2232。
通过误差反向传播算法不断迭代训练图卷积神经网络,直至模型参数达到最优。之后,就可利用训练好的图卷积神经网络来提取语音上下文情感语义特征向量
Figure BDA00029291169400002010
(4.3)文本上下文情感语义特征向量的提取。用于提取文本上下文情感语义特征的图卷积神经网络,包括顺序连接的1个数据处理层、1个图卷积模块、1个全连接层。
数据处理层,将源自同一个短视频的N个文本样本的
Figure BDA00029291169400002011
维文本情感语义特征向量构成矩阵
Figure BDA00029291169400002012
由文本情感语义特征邻接矩阵AX计算得到度矩阵DX,即
Figure BDA0002929116940000211
再由式(19)计算拉普拉斯矩阵LX,即
Figure BDA0002929116940000212
其中,I表示N×N的单位矩阵,DX为N×N的对角矩阵。
图卷积模块,由式(20)对数据处理层的输出进行图卷积操作,即
Figure BDA0002929116940000213
其中,
Figure BDA0002929116940000214
表示第l层图卷积层的输出,l=0,1,2,并且
Figure BDA0002929116940000215
为可训练的线性变换参数矩阵,σ(·)表示sigmoid非线性激活函数。ΦX通过图卷积模块后的输出为
Figure BDA0002929116940000216
而第i个文本样本的文本情感语义特征向量通过图卷积模块后的输出为
Figure BDA0002929116940000217
的第i个行向量
Figure BDA0002929116940000218
全连接层,将图卷积模块的输出全连接至本层的h个神经元,输出一个h维的文本上下文情感语义特征向量
Figure BDA0002929116940000219
在本实施例中,h取值为128。
为了训练用于提取文本上下文情感语义特征向量的图卷积神经网络,需要在该图卷积神经网络的全连接层之后连接一个softmax分类器,将全连接层输出的文本上下文情感语义特征向量
Figure BDA00029291169400002110
连接到softmax分类器的C个输出节点,经过softmax函数之后输出一个概率分布向量
Figure BDA00029291169400002111
其中c∈[1,C],C为情感类别数。
进一步地,用于提取文本上下文情感语义特征向量的图卷积神经网络由式(21)所示的交叉熵损失函数来训练模型参数。
Figure BDA00029291169400002112
其中,
Figure BDA0002929116940000221
为图卷积神经网络输出的128维文本上下文情感语义特征向量;
Figure BDA0002929116940000222
表示softmax分类模型预测情感类别的概率分布向量;
Figure BDA0002929116940000223
表示第m个文本样本的真实情感类别标签,当采用one-hot编码时,若第m个文本样本的真实情感类别标签为c,则
Figure BDA0002929116940000224
否则
Figure BDA0002929116940000225
表示softmax分类模型将第m个文本样本预测为类别c的概率;
Figure BDA0002929116940000226
表示用于提取文本上下文情感语义特征向量的图卷积神经网络在训练过程中的损失函数;在本实施例中,情感被分为积极、消极2种类别,C=2,M=2232。
通过误差反向传播算法不断迭代训练图卷积神经网络,直至模型参数达到最优。之后,就可利用训练好的图卷积神经网络来提取文本上下文情感语义特征向量
Figure BDA0002929116940000227
步骤(5)特征融合:将步骤(4)提取的表情上下文情感语义特征向量
Figure BDA0002929116940000228
语音上下文情感语义特征向量
Figure BDA0002929116940000229
和文本上下文情感语义特征向量
Figure BDA00029291169400002210
通过串接方式进行融合,得到最终的多模态情感特征向量
Figure BDA00029291169400002211
步骤(6)情感分类:将步骤(5)得到的多模态情感特征向量Fcontext连接到全连接层,通过sigmoid激活函数进行情感分类,并且采用式(22)所示的交叉熵损失函数训练全连接层的参数。
Figure BDA00029291169400002212
其中,Fcontext为多模态情感特征向量,Wc和bc分别为分类器的可训练权重和偏置向量,
Figure BDA00029291169400002214
表示模型预测情感类别的概率分布向量,ym,c表示第m个训练样本的真实情感类别标签,当采用one-hot编码时,若第m个训练样本的真实情感类别标签为c,则ym,c=1,否则ym,c=0;
Figure BDA00029291169400002213
表示分类模型将第m个训练样本预测为类别c的概率;Loss为分类模型在训练过程中的损失函数;在本实施例中,情感被分为积极、消极2种类别,C=2,M=2232。
基于相同的发明构思,本发明实施例公开的一种基于多模态上下文语义特征的情感分类系统,包括以下模块:
预处理和表征特征提取模块,用于将短视频以话语为单元分割成相同数量的语义单元,每个语义单元作为一个样本,并从语义单元中生成对应的视频样本、语音样本和文本样本,并对三类样本对应提取表情特征向量、语谱图和句子向量三种表征特征;
语义特征提取模块,用于将每个语义单元的表情特征向量、语谱图、句子向量分别输入到表情情感特征编码器、语音情感特征编码器、文本情感特征编码器,提取表情情感语义特征向量、语音情感语义特征向量、文本情感语义特征向量;所述表情情感特征编码器,用于将多个时间步上的静态表情特征向量进行时序关联,输出动态表情特征向量;并通过注意力机制计算不同时间步上的表情特征向量的重要性权重,通过加权融合形成表情情感语义特征向量;所述语音情感特征编码器,用于对语谱图进行卷积和池化操作,并将得到的特征图转换成若干组特征向量;以及通过注意力机制确定不同特征向量组的重要性权重,通过加权融合形成语音情感语义特征向量;所述文本情感特征编码器,用于将句子向量转换为若干组特征向量,并通过注意力机制确定不同特征向量组的重要性权重,通过加权融合形成文本情感语义特征向量;
邻接矩阵生成模块,用于分别使用源自同一个短视频的视频样本、语音样本、文本样本的上下文关系,构建相应的表情情感语义特征邻接矩阵、语音情感语义特征邻接矩阵、文本情感语义特征邻接矩阵;
上下文情感语义特征提取模块,用于分别将表情情感语义特征及其邻接矩阵、语音情感语义特征及其邻接矩阵、文本情感语义特征及其邻接矩阵输入到对应的图卷积神经网络,提取表情上下文情感语义特征向量、语音上下文情感语义特征向量、文本上下文情感语义特征向量;
特征融合模块,用于将表情上下文情感语义特征向量、语音上下文情感语义特征向量和文本上下文情感语义特征向量进行融合,得到最终的多模态情感特征向量。
以及,情感分类识别模块,使用分类器对多模态情感特征向量进行分类,得到情感类别。
各模块的具体实现参考上述方法实施例,不再赘述。本领域技术人员可以理解,可以对实施例中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个系统中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。
基于相同的发明构思,本发明实施例公开的一种基于多模态上下文语义特征的情感分类系统,包括至少一台计算设备,该计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的一种基于多模态上下文语义特征的情感分类方法。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种基于多模态上下文语义特征的情感分类方法,其特征在于,包括以下步骤:
(1)将短视频以话语为单元分割成相同数量的语义单元,每个语义单元作为一个样本,并从语义单元中生成对应的视频样本、语音样本和文本样本,并对三类样本对应提取表情特征向量、语谱图和句子向量三种表征特征;
(2)将每个语义单元的表情特征向量、语谱图、句子向量分别输入到表情情感特征编码器、语音情感特征编码器、文本情感特征编码器,提取表情情感语义特征向量、语音情感语义特征向量、文本情感语义特征向量;
所述表情情感特征编码器,用于将多个时间步上的静态表情特征向量进行时序关联,输出动态表情特征向量;并通过注意力机制计算不同时间步上的表情特征向量的重要性权重,通过加权融合形成表情情感语义特征向量;
所述语音情感特征编码器,用于对语谱图进行卷积和池化操作,并将得到的特征图转换成若干组特征向量;以及通过注意力机制确定不同特征向量组的重要性权重,通过加权融合形成语音情感语义特征向量;
所述文本情感特征编码器,用于将句子向量转换为若干组特征向量,并通过注意力机制确定不同特征向量组的重要性权重,通过加权融合形成文本情感语义特征向量;
(3)分别使用源自同一个短视频的视频样本、语音样本、文本样本的上下文关系,构建相应的表情情感语义特征邻接矩阵、语音情感语义特征邻接矩阵、文本情感语义特征邻接矩阵;
(4)分别将表情情感语义特征及其邻接矩阵、语音情感语义特征及其邻接矩阵、文本情感语义特征及其邻接矩阵输入到对应的图卷积神经网络,提取表情上下文情感语义特征向量、语音上下文情感语义特征向量、文本上下文情感语义特征向量;
(5)将表情上下文情感语义特征向量、语音上下文情感语义特征向量和文本上下文情感语义特征向量进行融合,得到最终的多模态情感特征向量;
(6)将步骤(5)得到的多模态情感特征向量输入到分类器中进行情感分类,得到情感类别。
2.根据权利要求1所述的一种基于多模态上下文语义特征的情感分类方法,其特征在于,所述步骤(2)中的表情情感特征编码器,包括顺序连接的1个长短时记忆网络LSTM层和1个注意力机制模块;
LSTM层,包含d个输出神经元,用于将T个时间步上的静态表情特征向量进行时序关联,输出d维的动态表情特征向量,其中,d取值为128或256,T取值为32或64;
注意力机制模块,用于确定LSTM层在不同时间步上输出的表情特征向量的重要性权重,通过加权融合形成表情情感语义特征向量,其中LSTM层在第t个时间步上输出的表情特征向量的权重系数
Figure FDA0002929116930000021
以及表情情感语义特征向量FV表示如下:
Figure FDA0002929116930000022
Figure FDA0002929116930000023
其中,t=1,2,…,T,上标V代表视频模态,ft V表示LSTM层在第t个时间步上输出的d维表情特征向量,exp(·)表示以自然常数e为底的指数函数,WV为可训练的d维线性变换参数向量。
3.根据权利要求1所述的一种基于多模态上下文语义特征的情感分类方法,其特征在于,所述步骤(2)中的语音情感特征编码器,包括顺序连接的1个数据处理层、1个卷积模块、1个全连接层、1个线性变换层和1个注意力机制模块;
数据处理层,用于对输入的每个语音样本的语谱图进行归一化处理;
卷积模块,包含1个卷积层和1个池化层,卷积层选用k个大小为k1×k2的卷积核对归一化后的语谱图进行卷积运算,使用ReLU激活函数进行非线性处理,其中,k取值为6或12,k1在8、10中取值,k2在8、12中取值;池化层选用1×k3的池化核对卷积层的输出进行最大池化操作,其中,k3在3、4中取值;
全连接层,包含w个输出神经元,用于将卷积模块输出的特征图映射为特征向量,w取值为512或640;
线性变换层,用于将全连接层输出的特征向量转换成R组特征向量,每组特征向量的维数为
Figure FDA0002929116930000031
其中R取值为8或10;
注意力机制模块,用来确定线性变换层输出的不同特征向量组的重要性权重,通过加权融合形成语音情感语义特征向量,其中线性变换层输出的第r组特征向量的权重
Figure FDA0002929116930000032
以及语音情感语义特征向量FA表示为:
Figure FDA0002929116930000033
Figure FDA0002929116930000034
其中,r=1,2,…,R,上标A代表语音模态,
Figure FDA0002929116930000035
表示线性变换层输出的第r组特征向量,WA为可训练的
Figure FDA00029291169300000311
维线性变换参数向量。
4.根据权利要求1所述的一种基于多模态上下文语义特征的情感分类方法,其特征在于,所述步骤(2)中的文本情感特征编码器,包括顺序连接的1个数据处理层和1个注意力机制模块;
数据处理层,用于将输入的u维句子向量转换为S组特征向量,每组特征向量的维数为
Figure FDA0002929116930000036
其中S取值为8或12;
注意力机制模块,用来确定数据处理层输出的不同特征向量组的重要性权重,通过加权融合形成文本情感语义特征向量,其中数据处理层输出的第s组特征向量的权重
Figure FDA0002929116930000037
以及文本情感语义特征向量FX表示为:
Figure FDA0002929116930000038
Figure FDA0002929116930000039
其中,s=1,2,…,S,上标X代表文本模态,
Figure FDA00029291169300000310
表示数据处理层输出的第s组特征向量,WX为可训练的
Figure FDA0002929116930000041
维线性变换参数向量。
5.根据权利要求1所述的一种基于多模态上下文语义特征的情感分类方法,其特征在于,所述步骤(3)中构建表情/语音/文本情感语义特征邻接矩阵的步骤如下:
计算源自同一个短视频的第i个视频/语音/文本样本和第j个视频/语音/文本样本的情感语义特征向量之间的余弦相似度;
若第i个视频/语音/文本样本和第j个视频/语音/文本样本的情感语义特征向量之间的余弦相似度不低于设定的阈值,令表情/语音/文本情感语义特征邻接矩阵的第i行第j列元素为1,否则令表情/语音/文本情感语义特征邻接矩阵的第i行第j列元素为0,i,j∈{1,2,…,N},N为从短视频中分割出来的语义单元数量。
6.根据权利要求1所述的一种基于多模态上下文语义特征的情感分类方法,其特征在于,所述步骤(4)中的用于提取表情上下文情感语义特征向量的图卷积神经网络,包括顺序连接的1个数据处理层、1个图卷积模块和1个全连接层;
数据处理层,用于将源自同一个短视频的视频样本的表情情感语义特征向量构成矩阵
Figure FDA0002929116930000042
N为从短视频中分割出来的语义单元数量,d为表情情感语义特征向量维数,由表情情感语义特征邻接矩阵AV计算得到度矩阵DV,即
Figure FDA0002929116930000043
其中,
Figure FDA0002929116930000044
为矩阵AV第i行第j列元素;
再计算拉普拉斯矩阵LV,即
Figure FDA0002929116930000045
其中,I表示N×N的单位矩阵,DV为N×N的对角矩阵;
图卷积模块,用于对数据处理层的输出进行图卷积操作,即
Figure FDA0002929116930000051
其中,
Figure FDA0002929116930000052
表示第l层图卷积层的输出,l=0,1,2,并且
Figure FDA0002929116930000053
Figure FDA0002929116930000054
为可训练的线性变换参数矩阵,σ(·)表示sigmoid非线性激活函数;
全连接层,用于将图卷积模块的输出全连接至本层的h个神经元,输出一个h维的表情上下文情感语义特征向量,h取值为128或256。
7.根据权利要求1所述的一种基于多模态上下文语义特征的情感分类方法,其特征在于,所述步骤(4)中的用于提取语音上下文情感语义特征向量的图卷积神经网络,包括顺序连接的1个数据处理层、1个图卷积模块和1个全连接层;
数据处理层,用于将源自同一个短视频的语音样本的语音情感语义特征向量构成矩阵
Figure FDA0002929116930000055
N为从短视频中分割出来的语义单元数量,
Figure FDA0002929116930000056
为表情情感语义特征向量维数,由语音情感语义特征邻接矩阵AA计算得到度矩阵DA,即
Figure FDA0002929116930000057
其中,
Figure FDA0002929116930000058
为矩阵AA第i行第j列元素;
再计算拉普拉斯矩阵LA,即
Figure FDA0002929116930000059
其中,I表示N×N的单位矩阵,DA为N×N的对角矩阵;
图卷积模块,用于对数据处理层的输出进行图卷积操作,即
Figure FDA00029291169300000510
其中,
Figure FDA00029291169300000511
表示第l层图卷积层的输出,l=0,1,2,并且
Figure FDA00029291169300000512
Figure FDA00029291169300000513
为可训练的线性变换参数矩阵,σ(·)表示sigmoid非线性激活函数;
全连接层,用于将图卷积模块的输出全连接至本层的h个神经元,输出一个h维的语音上下文情感语义特征向量,h取值为128或256。
8.根据权利要求1所述的一种基于多模态上下文语义特征的情感分类方法,其特征在于,所述步骤(4)中的用于提取文本上下文情感语义特征向量的图卷积神经网络,包括顺序连接的1个数据处理层、1个图卷积模块和1个全连接层;
数据处理层,用于将源自同一个短视频的文本样本的文本情感语义特征向量构成矩阵
Figure FDA0002929116930000061
N为从短视频中分割出来的语义单元数量,
Figure FDA0002929116930000062
为表情情感语义特征向量维数,由文本情感语义特征邻接矩阵AX计算得到度矩阵DX,即
Figure FDA0002929116930000063
其中,
Figure FDA0002929116930000064
为矩阵AX第i行第j列元素;
再计算拉普拉斯矩阵LX,即
Figure FDA0002929116930000065
其中,I表示N×N的单位矩阵,DX为N×N的对角矩阵;
图卷积模块,用于对数据处理层的输出进行图卷积操作,即
Figure FDA0002929116930000066
其中,
Figure FDA0002929116930000067
表示第l层图卷积层的输出,l=0,1,2,并且
Figure FDA0002929116930000068
Figure FDA0002929116930000069
为可训练的线性变换参数矩阵,σ(·)表示sigmoid非线性激活函数;
全连接层,用于将图卷积模块的输出全连接至本层的h个神经元,输出一个h维的文本上下文情感语义特征向量,h取值为128或256。
9.一种基于多模态上下文语义特征的情感分类系统,其特征在于,包括以下模块:
预处理和表征特征提取模块,用于将短视频以话语为单元分割成相同数量的语义单元,每个语义单元作为一个样本,并从语义单元中生成对应的视频样本、语音样本和文本样本,并对三类样本对应提取表情特征向量、语谱图和句子向量三种表征特征;
语义特征提取模块,用于将每个语义单元的表情特征向量、语谱图、句子向量分别输入到表情情感特征编码器、语音情感特征编码器、文本情感特征编码器,提取表情情感语义特征向量、语音情感语义特征向量、文本情感语义特征向量;所述表情情感特征编码器,用于将多个时间步上的静态表情特征向量进行时序关联,输出动态表情特征向量;并通过注意力机制计算不同时间步上的表情特征向量的重要性权重,通过加权融合形成表情情感语义特征向量;所述语音情感特征编码器,用于对语谱图进行卷积和池化操作,并将得到的特征图转换成若干组特征向量;以及通过注意力机制确定不同特征向量组的重要性权重,通过加权融合形成语音情感语义特征向量;所述文本情感特征编码器,用于将句子向量转换为若干组特征向量,并通过注意力机制确定不同特征向量组的重要性权重,通过加权融合形成文本情感语义特征向量;
邻接矩阵生成模块,用于分别使用源自同一个短视频的视频样本、语音样本、文本样本的上下文关系,构建相应的表情情感语义特征邻接矩阵、语音情感语义特征邻接矩阵、文本情感语义特征邻接矩阵;
上下文情感语义特征提取模块,用于分别将表情情感语义特征及其邻接矩阵、语音情感语义特征及其邻接矩阵、文本情感语义特征及其邻接矩阵输入到对应的图卷积神经网络,提取表情上下文情感语义特征向量、语音上下文情感语义特征向量、文本上下文情感语义特征向量;
特征融合模块,用于将表情上下文情感语义特征向量、语音上下文情感语义特征向量和文本上下文情感语义特征向量进行融合,得到最终的多模态情感特征向量;
以及,情感分类识别模块,使用分类器对多模态情感特征向量进行分类,得到情感类别。
10.一种基于多模态上下文语义特征的情感分类系统,其特征在于,包括至少一台计算设备,所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现根据权利要求1-8任一项所述的一种基于多模态上下文语义特征的情感分类方法。
CN202110141728.6A 2021-02-02 2021-02-02 一种基于多模态上下文语义特征的情感分类方法及系统 Active CN112818861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110141728.6A CN112818861B (zh) 2021-02-02 2021-02-02 一种基于多模态上下文语义特征的情感分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110141728.6A CN112818861B (zh) 2021-02-02 2021-02-02 一种基于多模态上下文语义特征的情感分类方法及系统

Publications (2)

Publication Number Publication Date
CN112818861A CN112818861A (zh) 2021-05-18
CN112818861B true CN112818861B (zh) 2022-07-26

Family

ID=75860530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110141728.6A Active CN112818861B (zh) 2021-02-02 2021-02-02 一种基于多模态上下文语义特征的情感分类方法及系统

Country Status (1)

Country Link
CN (1) CN112818861B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535972B (zh) * 2021-06-07 2022-08-23 吉林大学 一种融合上下文语义的知识图谱链路预测模型方法及装置
CN113257280A (zh) * 2021-06-07 2021-08-13 苏州大学 基于wav2vec的语音情感识别方法
CN113392781A (zh) * 2021-06-18 2021-09-14 山东浪潮科学研究院有限公司 一种基于图神经网络的视频情感语义分析方法
CN113326703B (zh) * 2021-08-03 2021-11-16 国网电子商务有限公司 基于异构空间下多模态对抗融合的情感识别方法及系统
CN113837102B (zh) * 2021-09-26 2024-05-10 广州华多网络科技有限公司 图文融合分类方法及其装置、设备、介质、产品
CN113889150B (zh) * 2021-10-15 2023-08-29 北京工业大学 语音情感识别方法及装置
CN113990353B (zh) * 2021-10-27 2024-05-07 北京百度网讯科技有限公司 识别情绪的方法、训练情绪识别模型的方法、装置及设备
CN114387997B (zh) * 2022-01-21 2024-03-29 合肥工业大学 一种基于深度学习的语音情感识别方法
CN116245102B (zh) * 2023-05-11 2023-07-04 广州数说故事信息科技有限公司 一种基于多头注意力和图神经网络的多模态情感识别方法
CN116561533B (zh) * 2023-07-05 2023-09-29 福建天晴数码有限公司 一种教育元宇宙中虚拟化身的情感演化方法及终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829499A (zh) * 2019-01-31 2019-05-31 中国科学院信息工程研究所 基于同一特征空间的图文数据融合情感分类方法和装置
CN111564164A (zh) * 2020-04-01 2020-08-21 中国电力科学研究院有限公司 一种多模态情感识别方法及装置
CN111753549A (zh) * 2020-05-22 2020-10-09 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829499A (zh) * 2019-01-31 2019-05-31 中国科学院信息工程研究所 基于同一特征空间的图文数据融合情感分类方法和装置
CN111564164A (zh) * 2020-04-01 2020-08-21 中国电力科学研究院有限公司 一种多模态情感识别方法及装置
CN111753549A (zh) * 2020-05-22 2020-10-09 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法

Also Published As

Publication number Publication date
CN112818861A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN112818861B (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN111554268B (zh) 基于语言模型的语言识别方法、文本分类方法和装置
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN110674339B (zh) 一种基于多模态融合的中文歌曲情感分类方法
Sharma et al. Era of deep neural networks: A review
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN111881262B (zh) 基于多通道神经网络的文本情感分析方法
CN109460737A (zh) 一种基于增强式残差神经网络的多模态语音情感识别方法
CN113255755A (zh) 一种基于异质融合网络的多模态情感分类方法
CN105139237A (zh) 信息推送的方法和装置
CN113723166A (zh) 内容识别方法、装置、计算机设备和存储介质
CN114461804B (zh) 一种基于关键信息与动态路由的文本分类方法、分类器及系统
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN114724224A (zh) 一种用于医疗护理机器人的多模态情感识别方法
CN116205222A (zh) 一种基于多通道注意力融合的方面级情感分析系统及方法
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
CN116541492A (zh) 一种数据处理方法及相关设备
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
Tanveer et al. Ensemble deep learning in speech signal tasks: A review
CN112541541B (zh) 基于多元素分层深度融合的轻量级多模态情感分析方法
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN116775873A (zh) 一种多模态对话情感识别方法
CN115577111A (zh) 基于自注意力机制的文本分类方法
CN113076424A (zh) 一种面向不平衡文本分类数据的数据增强方法及系统
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant