CN113449085A - 多模态情感分类方法、装置以及电子设备 - Google Patents

多模态情感分类方法、装置以及电子设备 Download PDF

Info

Publication number
CN113449085A
CN113449085A CN202111026202.XA CN202111026202A CN113449085A CN 113449085 A CN113449085 A CN 113449085A CN 202111026202 A CN202111026202 A CN 202111026202A CN 113449085 A CN113449085 A CN 113449085A
Authority
CN
China
Prior art keywords
representation
inputting
information
word vector
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111026202.XA
Other languages
English (en)
Other versions
CN113449085B (zh
Inventor
宋正新
薛云
古东宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202111026202.XA priority Critical patent/CN113449085B/zh
Publication of CN113449085A publication Critical patent/CN113449085A/zh
Application granted granted Critical
Publication of CN113449085B publication Critical patent/CN113449085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Library & Information Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种多模态情感分类方法、装置以及电子设备,该方法包括:获取社交媒体的评论数据,包括文本和图像,获得上下文语义表示,将目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示,将图像输入至残差网络和单层胶囊网络,获得图像的位置表示,将文本输入至LDA主题模型,获得主题嵌入表示,将上下文语义表示、隐藏层状态表示、图像的位置表示、以及主题嵌入表示输入至多头交互注意力机制,获得融合信息,输入至多模态融合层,获得多模态信息的特征表示,输入至softmax分类器获得情感分类结果,通过门控机制对各模态进行选择,引入主题信息对文本进行增强表示,从而提高了多模态情感分类的精度。

Description

多模态情感分类方法、装置以及电子设备
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种多模态情感分类方法、装置以及电子设备。
背景技术
情感分析,也称为意见挖掘,其目的是从大量非结构化文本中提取意见,并将情绪极性分为:积极的,中性的和消极的。随着社交媒体的发展,情感分析任务不再仅仅只针对单一的文本模态,通过不同形式(文本、听觉和视觉)的多模态数据来精确捕捉情感具有重要意义。
然而,目前的多模态情感分析方法通常都是分别学习不同模态的特征,对其融合进行情感分析,没有考虑到引入的模态信息是否有利于情感的分析。同时,由于社交媒体评论数据中的文本简短且缺少具体的对实体描述信息,从而导致多模态情感分类任务中情感分类精度低。
发明内容
基于此,本发明的目的在于,提供一种多模态情感分类方法、装置以及电子设备,其具有提高情感分类精度的优点。
根据本申请实施例的第一方面,提供一种多模态情感分类方法,包括如下步骤:
获取社交媒体的评论数据,所述评论数据包括文本和图像;
获取所述文本的上下文词向量、目标词向量和位置词向量,将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示;
将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示;
将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取,获得图像的位置表示;
将所述文本输入至LDA主题模型进行主题提取,获得所述文本的主题嵌入表示;
将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码,获得第一融合信息、第二融合信息和第三融合信息;
将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合,获得多模态信息的特征表示;
将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,获得情感分类结果。
根据本申请实施例的第二方面,提供一种多模态情感分类装置,包括:
数据获取模块,用于获取社交媒体的评论数据,所述评论数据包括文本和图像;
向量获取模块,用于获取所述文本的上下文词向量、目标词向量和位置词向量,将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示;
向量编码模块,用于将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示;
图像特征提取模块,用于将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取,获得图像的位置表示;
文本主题提取模块,用于将所述文本输入至LDA主题模型进行主题提取,获得所述文本的主题嵌入表示;
融合信息获得模块,用于将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码,获得第一融合信息、第二融合信息和第三融合信息;
特征表示获得模块,用于将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合,获得多模态信息的特征表示;
分类结果获得模块,用于将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,获得情感分类结果。
根据本申请实施例的第三方面,提供一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如上述任意一项所述的多模态情感分类方法。
本申请实施例通过获取社交媒体的评论数据,所述评论数据包括文本和图像,获取所述文本的上下文词向量、目标词向量和位置词向量,将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示,将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示,将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取,获得图像的位置表示,将所述文本输入至LDA主题模型进行主题提取,获得所述文本的主题嵌入表示,将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码,获得第一融合信息、第二融合信息和第三融合信息,将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合,获得多模态信息的特征表示,将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,获得情感分类结果。本发明通过多模态融合层的门控机制对各模态对情感传递的贡献进行选择,使用主题模型自动生成文本的主题信息以及通过手工的方法标注出图像和文本的主题信息,对文本进行增强表示,从而提高了多模态情感分类的精度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明多模态情感分类方法的流程示意图;
图2为本发明多模态情感分类方法中S20的流程示意图;
图3为本发明多模态情感分类方法中S30的流程示意图;
图4为本发明多模态情感分类方法中S40的流程示意图;
图5为本发明多模态情感分类方法中S50的程示意图;
图6为本发明多模态情感分类方法中S60的程示意图;
图7为本发明多模态情感分类方法中S70的程示意图;
图8为本发明多模态情感分类方法装置的结构框图;
图9为本发明多模态情感分类装置向量获取模块82的结构框图;
图10为本发明多模态情感分类装置向量编码模块83的结构框图;
图11为本发明多模态情感分类装置图像特征提取模块84的结构框图;
图12为本发明多模态情感分类装置文本主题提取模块85的结构框图;
图13为本发明多模态情感分类装置融合信息获得模块86的结构框图;
图14为本发明多模态情感分类装置特征表示获得模块87的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A 和/或 B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
请参阅图1,本发明实施例提供一种多模态命名实体识别方法,包括的步骤如下:
S10.获取社交媒体的评论数据,所述评论数据包括文本和图像。
社交媒体是互联网上基于用户关系的内容生产和交换平台,主要包括社交网站、微博、微信、脸书、推特、博客、论坛、播客等等。评论数据是社交媒体上的用户分享的意见、见解、经验和观点等等,以图片和文字等形式发布。在本申请实施例中,获取社交媒体推特上发布的用户帖子,所述用户帖子包含一段文本和与所述文本对应的一张图片。
S20.获取所述文本的上下文词向量、目标词向量和位置词向量,将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示。
对于文本数据,包括目标词和上下文词,所述目标词为文本数据中携带情感极性的单词,所述上下文词为文本数据中不是目标词的剩余单词。利用预训练的Glove词向量将每个单词映射到一个低维实值向量中,获得文本的单词向量,包括所述文本的上下文词向量和目标词向量,所述上下文词向量表示为
Figure 661331DEST_PATH_IMAGE001
,所述目标词向量表示为
Figure 17226DEST_PATH_IMAGE002
在对文本进行编码时,由于多头自注意力机制只关注输入内容之间的依赖关系,忽略了输入内容的位置信息,为此,本申请实施例使用每个上下文词与目标词之间的相对偏移量来获得每个上下文词的位置信息,进一步地,使用Glove词向量将所述位置信息编码为位置词向量,具体的,所述位置词向量表示为
Figure DEST_PATH_IMAGE003
S30.将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示。
双向门控循环单元,是为了解决长期记忆和反向传播中的梯度等问题提出的循环神经网络(Recurrent Neural Network, 简称RNN)的变体模型,引入了重置门和更新门,修改了RNN中隐藏状态的计算方式。
预设的主题词向量可以是人工根据文本和图片的内容确定的主题词,再对该主题词通过词嵌入表编码获得,具体的,所述预设的主题词向量表示为
Figure 261125DEST_PATH_IMAGE004
。本申请实施例通过引入预设的主题词向量,实可充分利用图片的信息,同时为后面LDA主题模型生成的主题起到了监督作用。
由于目标词和预设的主题词均为短文本序列,因此,采用参数量较少,更易于计算的双向门控循环单元来进行信息提取,获得隐藏层状态表示。
S40.将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取,获得图像的位置表示。
残差网络是一种卷积神经网络,能够进行图像分类和物体识别。残差网络的特点是容易优化,并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题。
胶囊网络是一种新的深度神经网络模型,主要应用在图像识别领域,能够很好的处理不同类型的视觉刺激并对诸如位置、形制、速度等信息进行编码。将所述图像输入至残差网络进行图像的特征提取,之后再输入至单层胶囊网络,获得图像的位置表示。
S50.将所述文本输入至LDA主题模型进行主题提取,获得所述文本的主题嵌入表示。
在主题模型中,主题表示一个概念、一个方面,表现为一系列相关的主题词,是这些主题词的条件概率。形象来说,主题就是一个桶,里面装了出现概率较高的主题词,这些主题词与这个主题有很强的相关性。
LDA(Latent Dirichlet Allocation)主题模型是一种文档生成模型,以一定的概率生成某个主题,即文档的主题概率分布,然后再在这个主题下以一定的概率生成某一个词,即主题的词概率分布。由于多模态社交媒体帖子的文本内容自然较短,有时甚至是不完整的,因此仅学习文本表示可能还不足以做出正确的情感预测。在本申请实施例中,使用LDA 主题模型对输入的文本进行主题提取,获得所述文本的主题嵌入表示。
S60.将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码,获得第一融合信息、第二融合信息和第三融合信息。
多头交互注意力机制分别引导所述上下文语义表示和所述隐藏层状态表示、所述隐藏层状态表示和所述图像的位置表示、以及所述上下文语义表示和所述主题嵌入表示之间发生交互作用,从而从多模态输入中提取关键信息。
S70.将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合,获得多模态信息的特征表示。
利用多头交互注意力机制去除了与目标无关的上下文,但在融合的过程中,没有考虑各模态对目标实体作用是否一致。因此,在多模态融合层使用门控机制来选择性地学习各模态对目标实体的影响,从而获得多模态信息的特征表示。
S80.将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,获得情感分类结果。
在本申请实施例中,将所述多模态信息的特征表示输入至softmax分类器,获得各个情感类别的预测概率值,根据所述预测概率值,从而判断多模态情感的极性,得到多模态情感分类结果。
应用本申请实施例,通过获取社交媒体的评论数据,所述评论数据包括文本和图像,获取所述文本的上下文词向量、目标词向量和位置词向量,将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示,将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示,将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取,获得图像的位置表示,将所述文本输入至LDA主题模型进行主题提取,获得所述文本的主题嵌入表示,将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码,获得第一融合信息、第二融合信息和第三融合信息,将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合,获得多模态信息的特征表示,将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,获得情感分类结果。本发明通过多模态融合层的门控机制对各模态对情感传递的贡献进行选择,使用主题模型自动生成文本的主题信息以及通过手工的方法标注出图像和文本的主题信息,对文本进行增强表示,从而提高了多模态情感分类的精度。
在一个可选的实施例中,请参阅图2,所述步骤S20,包括S21~S22,具体如下:
S21.获取所述文本中的上下文、目标词、以及所述上下文与所述目标词之间的相对位置,通过词嵌入表将所述上下文、所述目标词以及所述上下文与目标词之间的相对位置编码成对应的上下文词向量、目标词向量和位置词向量;
S22.将所述上下文词向量和所述位置词向量进行拼接之后,输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示;
其中,获得所述文本的上下文语义表示的公式为:
Figure DEST_PATH_IMAGE005
Figure 513115DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
是所述上下文词向量,
Figure 209675DEST_PATH_IMAGE008
是所述位置词向量,
Figure DEST_PATH_IMAGE009
表示所述上下词向量和所述位置词向量的拼接,
Figure 838103DEST_PATH_IMAGE010
是所述多头自注意力机制的第
Figure DEST_PATH_IMAGE011
个头的注意力,
Figure 1755DEST_PATH_IMAGE012
,h是所述多头自注意力机制的头数,
Figure DEST_PATH_IMAGE013
是标度因子,
Figure 424646DEST_PATH_IMAGE014
Figure 342924DEST_PATH_IMAGE014
激活函数,
Figure DEST_PATH_IMAGE015
Figure 509463DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
是所述多头自注意力机制的权重参数,
Figure 462376DEST_PATH_IMAGE018
表示拼接,
Figure DEST_PATH_IMAGE019
是所述文本的上下文语义表示。
在一个可选的实施例中,请参阅图3,所述步骤S30,包括S31~S32,具体如下:
S31.将所述目标词向量和所述预设的主题词向量进行拼接,获得拼接后的词向量;
S32.将所述拼接后的词向量输入至双向门控循环单元进行编码,获得所述隐藏层状态表示;
其中,获得所述隐藏层状态表示的公式为:
Figure 321747DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
表示第i个目标词向量,
Figure 789638DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
是所述预设的主题词向量,
Figure 759868DEST_PATH_IMAGE024
是所述拼接后的词向量,
Figure DEST_PATH_IMAGE025
是对所述词向量进行向前方向编码的隐藏层状态表示,
Figure 829936DEST_PATH_IMAGE026
是对所述词向量进行向后方向编码的隐藏层状态表示,
Figure DEST_PATH_IMAGE027
是所述隐藏层状态表示,
Figure 860209DEST_PATH_IMAGE028
是对所述词向量进行向前方向编码的门控循环单元,
Figure DEST_PATH_IMAGE029
是对所述词向量进行向后方向编码的门控循环单元。
在一个可选的实施例中,请参阅图4,所述步骤S40,包括S41~S42,具体如下:
S41.将所述图像输入至残差网络进行特征提取,获得图像特征向量;
S42.将所述图像特征向量输入至单层胶囊网络进行位置编码,获得图像的位置表示。
在图像识别任务中,残差网络具有良好的性能,为了充分利用图像信息,采用ResNet-152来提取不同视觉块的视觉特征,对于给定的一个输入图像I,将其大小调整为224×224像素的图像I',然后用预训练好的ResNet-152,得到图像特征向量,所述图像特征向量是一个大小为7*7*2048 的张量。
由于残差网络只能识别到图像中所包含的特征,但不会识别这些特征之间的相互关系,从而缺乏对图像中目标位置信息的处理。因此,利用单层胶囊网络获得目标的位置信息,将所述图像特征向量输入到单层胶囊网络中,得到图像的位置表示。
在一个可选的实施例中,请参阅图5,所述步骤S50,包括S51~S53,具体如下:
S51.将所述文本输入至LDA主题模型进行主题提取,获得主题词中每个主题词的概率分布;其中,所述主题中至少包括多个主题词;
S52.将所述主题中每个主题词的概率分布进行归一化处理,获得每个主题词的权重;
S53.将所述权重与所述每个主题词对应的词向量进行加权求和,获得所述文本的主题嵌入表示;
其中,获得每个主题词的权重的公式为:
Figure 18658DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE031
是所述每个主题词的概率分布,
Figure 589317DEST_PATH_IMAGE032
是所述每个主题词的权重,
Figure DEST_PATH_IMAGE033
是以e为底的函数,
Figure 516821DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
获得所述文本的主题嵌入表示的公式为:
Figure 717996DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
是第
Figure 363741DEST_PATH_IMAGE038
个主题中第
Figure DEST_PATH_IMAGE039
个主题词对应的词向量,
Figure 678703DEST_PATH_IMAGE040
是所述文本的主题嵌入表示。
在一个可选的实施例中,请参阅图6,所述步骤S60,包括S61~S63,具体如下:
S61.将所述上下文语义表示和所述隐藏层状态表示输入至所述第一多头交互注意力层,以所述隐藏层状态表示为查询向量,以所述上下文语义表示为键和值,获得第一融合信息;
S62.将所述隐藏层状态表示和所述图像的位置表示输入至所述第二多头交互注意力层,以所述隐藏层状态表示为查询向量,以所述图像的位置表示为键和值,获得第二融合信息;
S63.将所述上下文语义表示和所述主题嵌入表示输入至所述第三多头交互注意力层,以所述主题嵌入表示为查询向量,以所述上下文语义表示为键和值,获得第三融合信息;
其中,获得第一融合信息的公式为:
Figure DEST_PATH_IMAGE041
Figure 726293DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE043
是所述隐藏层状态表示,
Figure 832790DEST_PATH_IMAGE044
是所述上下文语义表示,
Figure DEST_PATH_IMAGE045
是所述第一多头交互注意力层的第
Figure 965831DEST_PATH_IMAGE046
个头的注意力,
Figure DEST_PATH_IMAGE047
Figure 81554DEST_PATH_IMAGE048
是所述第一多头交互注意力层的头数,
Figure DEST_PATH_IMAGE049
是标度因子,
Figure 983651DEST_PATH_IMAGE014
Figure 995469DEST_PATH_IMAGE014
激活函数,
Figure 819069DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE051
Figure 535221DEST_PATH_IMAGE052
是所述第一多头交互注意力层的权重参数,
Figure DEST_PATH_IMAGE053
是转置,
Figure 288895DEST_PATH_IMAGE054
表示拼接,
Figure DEST_PATH_IMAGE055
是所述第一融合信息;
获得第二融合信息的公式为:
Figure 2773DEST_PATH_IMAGE056
Figure DEST_PATH_IMAGE057
Figure 110406DEST_PATH_IMAGE058
是所述图像的位置表示,
Figure DEST_PATH_IMAGE059
是所述第二多头交互注意力层的第
Figure 302353DEST_PATH_IMAGE060
个头的注意力,
Figure DEST_PATH_IMAGE061
Figure 913463DEST_PATH_IMAGE062
是所述第二多头交互注意力层的头数,
Figure DEST_PATH_IMAGE063
是标度因子,
Figure 860559DEST_PATH_IMAGE064
Figure DEST_PATH_IMAGE065
Figure 189910DEST_PATH_IMAGE066
是所述第二多头交互注意力层的权重参数,
Figure DEST_PATH_IMAGE067
是所述第二融合信息;
获得第三融合信息的公式为:
Figure 454056DEST_PATH_IMAGE068
Figure DEST_PATH_IMAGE069
Figure 919673DEST_PATH_IMAGE070
是第I个所述主题嵌入表示,
Figure DEST_PATH_IMAGE071
是所述第三多头交互注意力层的第
Figure 240933DEST_PATH_IMAGE072
个头的注意力,
Figure DEST_PATH_IMAGE073
Figure 57579DEST_PATH_IMAGE074
是所述第三多头交互注意力层的头数,
Figure DEST_PATH_IMAGE075
是标度因子,
Figure 856908DEST_PATH_IMAGE076
Figure DEST_PATH_IMAGE077
Figure 442610DEST_PATH_IMAGE078
是所述第三多头交互注意力层的权重参数,
Figure DEST_PATH_IMAGE079
是所述第三融合信息。
在一个可选的实施例中,请参阅图7,所述步骤S70,包括S61~S63,具体如下:
S71.将所述第一融合信息和所述第二融合信息输入至多模态融合层进行特征融合,获得多模态融合特征表示;
S72.将所述第三融合信息与所述LDA主题模型生成的文本的主题概率分布中每个主题的生成概率相乘并求和,获得主题特征表示;
S73.将所述文本的上下文语义表示进行平均池化,获得平均上下文语义表示;
S74.将所述隐藏层状态表示进行平均池化,获得平均隐藏层状态表示;
S75.将所述平均隐藏层状态表示和所述图像特征向量输入至多头注意力机制进行编码,获得图像特征表示;
S76.将所述多模态融合特征表示、所述主题特征表示、所述平均上下文语义表示、以及所述图像特征表示组合,获得多模态信息的特征表示;
其中,获得多模态融合特征表示的公式为:
Figure 934771DEST_PATH_IMAGE080
Figure DEST_PATH_IMAGE081
Figure 973134DEST_PATH_IMAGE082
Figure 44995DEST_PATH_IMAGE055
是所述第一融合信息,
Figure 240133DEST_PATH_IMAGE067
是所述第二融合信息,
Figure DEST_PATH_IMAGE083
表示所述第一融合信息
Figure 637616DEST_PATH_IMAGE055
和所述第二融合信息
Figure 897696DEST_PATH_IMAGE067
的乘积,
Figure 710931DEST_PATH_IMAGE084
是所述第一融合信息和所述第二融合信息经过
Figure DEST_PATH_IMAGE085
激活函数的非线性变换结果,
Figure 67963DEST_PATH_IMAGE086
是所述第一融合信息和所述第二融合信息经过sigmoid激活函数的激活结果,
Figure DEST_PATH_IMAGE087
是sigmoid激活函数,
Figure 636348DEST_PATH_IMAGE088
是所述多模态融合特征表示,
Figure DEST_PATH_IMAGE089
Figure 914882DEST_PATH_IMAGE090
是权重参数,
Figure DEST_PATH_IMAGE091
Figure 594125DEST_PATH_IMAGE092
是偏置参数;
获得主题特征表示的公式为:
Figure DEST_PATH_IMAGE093
Figure 8926DEST_PATH_IMAGE094
是所述LDA主题模型生成的文本的主题概率分布中第I个主题的生成概率,
Figure DEST_PATH_IMAGE095
是所述第三融合信息,
Figure 16721DEST_PATH_IMAGE096
是所述主题特征表示;
获得平均上下文语义表示的公式为:
Figure DEST_PATH_IMAGE097
Figure 516972DEST_PATH_IMAGE098
是第
Figure DEST_PATH_IMAGE099
个所述上下文语义表示,
Figure 999906DEST_PATH_IMAGE100
Figure DEST_PATH_IMAGE101
是所述上下文语义表示的总数量,
Figure 331531DEST_PATH_IMAGE102
是所述平均上下文语义表示;
获得平均隐藏层状态表示的公式为
Figure DEST_PATH_IMAGE103
Figure 241718DEST_PATH_IMAGE104
是第
Figure DEST_PATH_IMAGE105
个所述隐藏层状态表示,
Figure 229265DEST_PATH_IMAGE106
是所述隐藏层状态表示的总数量,
Figure 984732DEST_PATH_IMAGE107
是所述平均隐藏层状态表示;
获得图像特征表示的公式为:
Figure DEST_PATH_IMAGE108
Figure 374125DEST_PATH_IMAGE109
Figure DEST_PATH_IMAGE110
是所述图像特征向量,
Figure 452284DEST_PATH_IMAGE111
是所述多头自注意力机制的第
Figure DEST_PATH_IMAGE112
个头的注意力,
Figure 927127DEST_PATH_IMAGE113
,n是所述多头注意力机制的头数,
Figure DEST_PATH_IMAGE114
是标度因子,
Figure 751864DEST_PATH_IMAGE014
Figure 464605DEST_PATH_IMAGE014
激活函数,
Figure 451015DEST_PATH_IMAGE115
Figure DEST_PATH_IMAGE116
Figure 209893DEST_PATH_IMAGE117
是所述多头注意力机制的权重参数,
Figure 307162DEST_PATH_IMAGE018
表示拼接,
Figure DEST_PATH_IMAGE118
是所述图像特征表示;
获得多模态信息的特征表示的公式为:
Figure 405568DEST_PATH_IMAGE119
Figure DEST_PATH_IMAGE120
是所述多模态信息的特征表示,[ , ]表示组合。
在多模态融合层中,使用门控机制,如果图像模态与文本模态对实体情感作用是互补的,则门控机制有利于图像模态对文本模态的补充说明,如果图片模态不含对实体的表征或文本模态表征自给自足,则门控机制将更倾向于文本特征。
在一个可选的实施例中,所述步骤S80,包括S81,具体如下:
S81.将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,计算概率分布,获得情感分类结果;
获得情感分类结果的公式为;
Figure 94038DEST_PATH_IMAGE121
Figure DEST_PATH_IMAGE122
是所述情感分类结果,
Figure 280824DEST_PATH_IMAGE123
是所述softmax分类器的权重参数,
Figure DEST_PATH_IMAGE124
是所述softmax分类器的偏置参数。
在获得多模态情感分类结果之后,可通过计算最小化损失函数的值来优化网络参数进行训练。在本申请实施例中,所述损失函数为带有正则项的分类交叉熵损失函数,所述交叉熵损失函数为:
Figure 447364DEST_PATH_IMAGE125
其中,
Figure DEST_PATH_IMAGE126
为句子中目标词的数量,
Figure 665855DEST_PATH_IMAGE127
为第
Figure 994069DEST_PATH_IMAGE127
个目标词的索引,
Figure DEST_PATH_IMAGE128
为情感类别的数量,
Figure 665221DEST_PATH_IMAGE129
为第
Figure 369872DEST_PATH_IMAGE129
种情感类别的索引,
Figure DEST_PATH_IMAGE130
为第
Figure 442870DEST_PATH_IMAGE127
个目标词第
Figure 941985DEST_PATH_IMAGE129
种情感类别的真实分布,
Figure 569275DEST_PATH_IMAGE131
为第
Figure 546458DEST_PATH_IMAGE127
个目标词第
Figure 208384DEST_PATH_IMAGE129
种情感类别的预测分布,
Figure 143979DEST_PATH_IMAGE132
是正则化项的超参数,
Figure 255636DEST_PATH_IMAGE134
是模型的参数集合,包括多模态情感分类模型中所有的参数,符号
Figure 36510DEST_PATH_IMAGE135
表示L2范数,
Figure 287363DEST_PATH_IMAGE136
表示所有参数的L2范数。
相应于上述方法实施例,请参阅8,本发明实施例提供一种多模态情感分类装置8,包括:
数据获取模块81,用于获取社交媒体的评论数据,所述评论数据包括文本和图像;
向量获取模块82,用于获取所述文本的上下文词向量、目标词向量和位置词向量,将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示;
向量编码模块83,用于将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示;
图像特征提取模块84,用于将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取,获得图像的位置表示;
文本主题提取模块85,用于将所述文本输入至LDA主题模型进行主题提取,获得所述文本的主题嵌入表示;
融合信息获得模块86,用于将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码,获得第一融合信息、第二融合信息和第三融合信息;
特征表示获得模块87,用于将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合,获得多模态信息的特征表示;
分类结果获得模块88,用于将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,获得情感分类结果。
可选的,请参阅图9,所述向量获取模块82,包括:
词获取单元821,用于获取所述文本中的上下文词、目标词、以及所述上下文与所述目标词之间的相对位置,通过词嵌入表将所述上下文词、所述目标词以及所述上下文词与目标词之间的相对位置编码成对应的上下文词向量、目标词向量和位置词向量;
向量编码单元822,用于将所述上下文词向量和所述位置词向量进行拼接之后,输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示。
可选的,请参阅图10,所述向量编码模块83,包括:
向量拼接单元831,用于将所述目标词向量和所述预设的主题词向量进行拼接,获得拼接后的词向量;
词向量编码单元832,用于将所述拼接后的词向量输入至双向门控循环单元进行编码,获得所述隐藏层状态表示。
可选的,请参阅图11,所述图像特征提取模块84,包括:
向量获得单元841,用于将所述图像输入至残差网络进行特征提取,获得图像特征向量;
位置表示获得单元842,用于将所述图像特征向量输入至单层胶囊网络进行位置编码,获得图像的位置表示。
可选的,请参阅图12,所述文本主题提取模块85,包括:
文本输入单元851,用于将所述文本输入至LDA主题模型进行主题提取,获得主题的词概率分布;
概率归一化单元852,用于将所述主题的词概率分布中每个词的生成概率进行归一化处理,获得每个词的权重;
主题嵌入表示获得单元853,用于将所述权重与所述每个词对应的词向量进行加权求和,获得所述文本的主题嵌入表示。
可选的,请参阅图13,所述融合信息获得模块86,包括:
第一交互单元861,用于将所述上下文语义表示和所述隐藏层状态表示输入至所述第一多头交互注意力层,以所述隐藏层状态表示为查询向量,以所述上下文语义表示为键和值,获得第一融合信息;
第二交互单元862,用于将所述隐藏层状态表示和所述图像的位置表示输入至所述第二多头交互注意力层,以所述隐藏层状态表示为查询向量,以所述图像的位置表示为键和值,获得第二融合信息;
第三交互单元863,用于将所述上下文语义表示和所述主题嵌入表示输入至所述第三多头交互注意力层,以所述主题嵌入表示为查询向量,以所述上下文语义表示为键和值,获得第三融合信息。
可选的,请参阅图14,所述特征表示获得模块87,包括:
融合信息输入单元871,用于将所述第一融合信息和所述第二融合信息输入至多模态融合层进行特征融合,获得多模态融合特征表示;
主题特征表示获得单元872,用于将所述第三融合信息与所述LDA主题模型生成的文本的主题概率分布中每个主题的生成概率相乘并求和,获得主题特征表示;
第一平均池化单元873,用于将所述文本的上下文语义表示进行平均池化,获得平均上下文语义表示;
第二平均池化单元874,用于将所述隐藏层状态表示进行平均池化,获得平均隐藏层状态表示;
图像特征表示获得单元875,用于将所述平均隐藏层状态表示和所述图像特征向量输入至多头注意力机制进行编码,获得图像特征表示;
表示组合单元876,用于将所述多模态融合特征表示、所述主题特征表示、所述平均上下文语义表示、以及所述图像特征表示组合,获得多模态信息的特征表示。
可选的,所述分类结果获得模块88,包括:
概率分布计算单元881,用于将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,计算概率分布,获得情感分类结果。
应用本申请实施例,通过获取社交媒体的评论数据,所述评论数据包括文本和图像,获取所述文本的上下文词向量、目标词向量和位置词向量,将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示,将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示,将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取,获得图像的位置表示,将所述文本输入至LDA主题模型进行主题提取,获得所述文本的主题嵌入表示,将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码,获得第一融合信息、第二融合信息和第三融合信息,将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合,获得多模态信息的特征表示,将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,获得情感分类结果。本发明通过多模态融合层的门控机制对各模态对情感传递的贡献进行选择,使用主题模型自动生成文本的主题信息以及通过手工的方法标注出图像和文本的主题信息,对文本进行增强表示,从而提高了多模态情感分类的精度。
本申请还提供一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述实施例的方法步骤。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,则本发明也意图包含这些改动和变形。

Claims (10)

1.一种多模态情感分类方法,其特征在于,包括如下步骤:
获取社交媒体的评论数据,所述评论数据包括文本和图像;
获取所述文本的上下文词向量、目标词向量和位置词向量,将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示;
将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示;
将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取,获得图像的位置表示;
将所述文本输入至LDA主题模型进行主题提取,获得所述文本的主题嵌入表示;
将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码,获得第一融合信息、第二融合信息和第三融合信息;
将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合,获得多模态信息的特征表示;
将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,获得情感分类结果。
2.根据权利要求1所述的多模态情感分类方法,其特征在于,所述获取所述文本的上下文词向量、目标词向量和位置词向量,将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示,包括:
获取所述文本中的上下文词、目标词、以及所述上下文词与所述目标词之间的相对位置,通过词嵌入表将所述上下文词、所述目标词以及所述上下文词与目标词之间的相对位置编码成对应的上下文词向量、目标词向量和位置词向量;
将所述上下文词向量和所述位置词向量进行拼接之后,输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示;
其中,获得所述文本的上下文语义表示的公式为:
Figure 395582DEST_PATH_IMAGE001
Figure 476671DEST_PATH_IMAGE002
Figure 154777DEST_PATH_IMAGE003
是所述上下文词向量,
Figure 979513DEST_PATH_IMAGE004
是所述位置词向量,
Figure 692254DEST_PATH_IMAGE005
表示所述上下词向量和所述位置词向量的拼接,
Figure 678665DEST_PATH_IMAGE006
是所述多头自注意力机制的第
Figure 109646DEST_PATH_IMAGE007
个头的注意力,
Figure 472495DEST_PATH_IMAGE008
,h是所述多头自注意力机制的头数,
Figure 39742DEST_PATH_IMAGE009
是标度因子,
Figure 197054DEST_PATH_IMAGE010
Figure 849752DEST_PATH_IMAGE010
激活函数,
Figure 747782DEST_PATH_IMAGE011
Figure 435116DEST_PATH_IMAGE012
Figure 763329DEST_PATH_IMAGE013
是所述多头自注意力机制的权重参数,
Figure 168902DEST_PATH_IMAGE014
表示拼接,
Figure 607974DEST_PATH_IMAGE015
是所述文本的上下文语义表示。
3.根据权利要求1所述的多模态情感分类方法,其特征在于,所述将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示,包括:
将所述目标词向量和所述预设的主题词向量进行拼接,获得拼接后的词向量;
将所述拼接后的词向量输入至双向门控循环单元进行编码,获得所述隐藏层状态表示;
其中,获得所述隐藏层状态表示的公式为:
Figure 149814DEST_PATH_IMAGE016
Figure 914508DEST_PATH_IMAGE017
表示第i个目标词向量,
Figure 541798DEST_PATH_IMAGE018
Figure 784560DEST_PATH_IMAGE019
是所述预设的主题词向量,
Figure 712065DEST_PATH_IMAGE020
是所述拼接后的词向量,
Figure 382081DEST_PATH_IMAGE021
是对所述词向量进行向前方向编码的隐藏层状态表示,
Figure 231088DEST_PATH_IMAGE022
是对所述词向量进行向后方向编码的隐藏层状态表示,
Figure 277542DEST_PATH_IMAGE023
是所述隐藏层状态表示,
Figure 59553DEST_PATH_IMAGE024
是对所述词向量进行向前方向编码的门控循环单元,
Figure 903400DEST_PATH_IMAGE025
是对所述词向量进行向后方向编码的门控循环单元。
4.根据权利要求1所述的多模态情感分类方法,其特征在于,所述将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取,获得图像的位置表示,包括:
将所述图像输入至残差网络进行特征提取,获得图像特征向量;
将所述图像特征向量输入至单层胶囊网络进行位置编码,获得图像的位置表示。
5.根据权利要求1所述的多模态情感分类方法,其特征在于,所述将所述文本输入至LDA主题模型进行主题提取,获得所述文本的主题嵌入表示,包括:
将所述文本输入至LDA主题模型进行主题提取,获得主题词中每个主题词的概率分布;其中,所述主题中至少包括多个主题词;
将所述主题中每个主题词的概率分布进行归一化处理,获得每个主题词的权重;
将所述权重与所述每个主题词对应的词向量进行加权求和,获得所述文本的主题嵌入表示;
其中,获得每个主题词的权重的公式为:
Figure 239703DEST_PATH_IMAGE026
Figure 89847DEST_PATH_IMAGE027
是所述每个主题词的概率分布,
Figure 460786DEST_PATH_IMAGE028
是所述每个主题词的权重,
Figure 472604DEST_PATH_IMAGE029
是以e为底的函数,
Figure 827362DEST_PATH_IMAGE030
Figure 950039DEST_PATH_IMAGE031
获得所述文本的主题嵌入表示的公式为:
Figure 441063DEST_PATH_IMAGE032
Figure 889362DEST_PATH_IMAGE033
是第
Figure 200258DEST_PATH_IMAGE034
个主题中第
Figure 126625DEST_PATH_IMAGE035
个主题词对应的词向量,
Figure 737735DEST_PATH_IMAGE036
是所述文本的主题嵌入表示。
6.根据权利要求1所述的多模态情感分类方法,其特征在于,所述多头交互注意力机制包括第一多头交互注意力层、第二多头交互注意力层和第三多头交互注意力层,所述将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码,获得第一融合信息、第二融合信息和第三融合信息,包括:
将所述上下文语义表示和所述隐藏层状态表示输入至所述第一多头交互注意力层,以所述隐藏层状态表示为查询向量,以所述上下文语义表示为键和值,获得第一融合信息;
将所述隐藏层状态表示和所述图像的位置表示输入至所述第二多头交互注意力层,以所述隐藏层状态表示为查询向量,以所述图像的位置表示为键和值,获得第二融合信息;
将所述上下文语义表示和所述主题嵌入表示输入至所述第三多头交互注意力层,以所述主题嵌入表示为查询向量,以所述上下文语义表示为键和值,获得第三融合信息;
其中,获得第一融合信息的公式为:
Figure 91356DEST_PATH_IMAGE037
Figure 889548DEST_PATH_IMAGE038
Figure 616677DEST_PATH_IMAGE039
是所述隐藏层状态表示,
Figure 816714DEST_PATH_IMAGE040
是所述上下文语义表示,
Figure 606815DEST_PATH_IMAGE041
是所述第一多头交互注意力层的第
Figure 892303DEST_PATH_IMAGE042
个头的注意力,
Figure 426053DEST_PATH_IMAGE043
Figure 480596DEST_PATH_IMAGE044
是所述第一多头交互注意力层的头数,
Figure 441599DEST_PATH_IMAGE045
是标度因子,
Figure 214383DEST_PATH_IMAGE010
Figure 20665DEST_PATH_IMAGE010
激活函数,
Figure 929715DEST_PATH_IMAGE046
Figure 327199DEST_PATH_IMAGE047
Figure 321699DEST_PATH_IMAGE048
是所述第一多头交互注意力层的权重参数,
Figure 197252DEST_PATH_IMAGE049
是转置,
Figure 960808DEST_PATH_IMAGE050
表示拼接,
Figure 263614DEST_PATH_IMAGE051
是所述第一融合信息;
获得第二融合信息的公式为:
Figure 13919DEST_PATH_IMAGE052
Figure 427583DEST_PATH_IMAGE053
Figure 311226DEST_PATH_IMAGE054
是所述图像的位置表示,
Figure 784932DEST_PATH_IMAGE055
是所述第二多头交互注意力层的第
Figure 754025DEST_PATH_IMAGE056
个头的注意力,
Figure 236959DEST_PATH_IMAGE057
Figure 975108DEST_PATH_IMAGE058
是所述第二多头交互注意力层的头数,
Figure 619716DEST_PATH_IMAGE059
是标度因子,
Figure 76105DEST_PATH_IMAGE060
Figure 97151DEST_PATH_IMAGE061
Figure 955385DEST_PATH_IMAGE062
是所述第二多头交互注意力层的权重参数,
Figure 505315DEST_PATH_IMAGE063
是所述第二融合信息;
获得第三融合信息的公式为:
Figure 449001DEST_PATH_IMAGE064
Figure 8158DEST_PATH_IMAGE065
Figure 819486DEST_PATH_IMAGE066
是第I个所述主题嵌入表示,
Figure 805897DEST_PATH_IMAGE067
是所述第三多头交互注意力层的第
Figure 971299DEST_PATH_IMAGE068
个头的注意力,
Figure 68568DEST_PATH_IMAGE069
Figure 901395DEST_PATH_IMAGE070
是所述第三多头交互注意力层的头数,
Figure 324286DEST_PATH_IMAGE071
是标度因子,
Figure 976984DEST_PATH_IMAGE072
Figure 877944DEST_PATH_IMAGE073
Figure 565277DEST_PATH_IMAGE074
是所述第三多头交互注意力层的权重参数,
Figure 893490DEST_PATH_IMAGE075
是所述第三融合信息。
7.根据权利要求4所述的多模态情感分类方法,其特征在于,所述将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合,获得多模态信息的特征表示,包括:
将所述第一融合信息和所述第二融合信息输入至多模态融合层进行特征融合,获得多模态融合特征表示;
将所述第三融合信息与所述LDA主题模型生成的文本的主题概率分布中每个主题的生成概率相乘并求和,获得主题特征表示;
将所述文本的上下文语义表示进行平均池化,获得平均上下文语义表示;
将所述隐藏层状态表示进行平均池化,获得平均隐藏层状态表示;
将所述平均隐藏层状态表示和所述图像特征向量输入至多头注意力机制进行编码,获得图像特征表示;
将所述多模态融合特征表示、所述主题特征表示、所述平均上下文语义表示、以及所述图像特征表示组合,获得多模态信息的特征表示;
其中,获得多模态融合特征表示的公式为:
Figure 830222DEST_PATH_IMAGE076
Figure 800452DEST_PATH_IMAGE077
Figure 141959DEST_PATH_IMAGE078
Figure 641074DEST_PATH_IMAGE051
是所述第一融合信息,
Figure 268364DEST_PATH_IMAGE063
是所述第二融合信息,
Figure 511127DEST_PATH_IMAGE079
表示所述第一融合信息
Figure 173052DEST_PATH_IMAGE051
和所述第二融合信息
Figure 843068DEST_PATH_IMAGE063
的乘积,
Figure 488813DEST_PATH_IMAGE080
是所述第一融合信息和所述第二融合信息经过
Figure 535266DEST_PATH_IMAGE081
激活函数的非线性变换结果,
Figure 51698DEST_PATH_IMAGE082
是所述第一融合信息和所述第二融合信息经过sigmoid激活函数的激活结果,
Figure 689353DEST_PATH_IMAGE083
是sigmoid激活函数,
Figure 291236DEST_PATH_IMAGE084
是所述多模态融合特征表示,
Figure 875801DEST_PATH_IMAGE085
Figure 509389DEST_PATH_IMAGE086
是权重参数,
Figure 521207DEST_PATH_IMAGE087
Figure 610386DEST_PATH_IMAGE088
是偏置参数;
获得主题特征表示的公式为:
Figure 998642DEST_PATH_IMAGE089
Figure 224087DEST_PATH_IMAGE090
是所述LDA主题模型生成的文本的主题概率分布中第I个主题的生成概率,
Figure 672386DEST_PATH_IMAGE091
是所述第三融合信息,
Figure 983281DEST_PATH_IMAGE092
是所述主题特征表示;
获得平均上下文语义表示的公式为:
Figure 909649DEST_PATH_IMAGE093
Figure 255180DEST_PATH_IMAGE094
是第
Figure 608801DEST_PATH_IMAGE095
个所述上下文语义表示,
Figure 672572DEST_PATH_IMAGE096
Figure 402630DEST_PATH_IMAGE097
是所述上下文语义表示的总数量,
Figure 602668DEST_PATH_IMAGE098
是所述平均上下文语义表示;
获得平均隐藏层状态表示的公式为
Figure 127190DEST_PATH_IMAGE099
Figure 415607DEST_PATH_IMAGE100
是第
Figure 683778DEST_PATH_IMAGE101
个所述隐藏层状态表示,
Figure 738321DEST_PATH_IMAGE102
是所述隐藏层状态表示的总数量,
Figure 699324DEST_PATH_IMAGE103
是所述平均隐藏层状态表示;
获得图像特征表示的公式为:
Figure 472108DEST_PATH_IMAGE104
Figure 543969DEST_PATH_IMAGE105
Figure 718599DEST_PATH_IMAGE106
是所述图像特征向量,
Figure 850503DEST_PATH_IMAGE107
是所述多头自注意力机制的第
Figure 845003DEST_PATH_IMAGE108
个头的注意力,
Figure 720556DEST_PATH_IMAGE109
,n是所述多头注意力机制的头数,
Figure 749691DEST_PATH_IMAGE110
是标度因子,
Figure 52497DEST_PATH_IMAGE010
Figure 534294DEST_PATH_IMAGE010
激活函数,
Figure 682378DEST_PATH_IMAGE111
Figure 566021DEST_PATH_IMAGE112
Figure 39727DEST_PATH_IMAGE113
是所述多头注意力机制的权重参数,
Figure 271470DEST_PATH_IMAGE014
表示拼接,
Figure 957666DEST_PATH_IMAGE114
是所述图像特征表示;
获得多模态信息的特征表示的公式为:
Figure 226973DEST_PATH_IMAGE115
Figure 871581DEST_PATH_IMAGE116
是所述多模态信息的特征表示,[ , ]表示组合。
8.根据权利要求1所述的多模态情感分类方法,其特征在于,所述将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,获得情感分类结果,包括:
将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,计算概率分布,获得情感分类结果;
获得情感分类结果的公式为;
Figure 327971DEST_PATH_IMAGE117
Figure 83437DEST_PATH_IMAGE118
是所述情感分类结果,
Figure 676092DEST_PATH_IMAGE119
是所述softmax分类器的权重参数,
Figure 491602DEST_PATH_IMAGE120
是所述softmax分类器的偏置参数。
9.一种基于主题信息和门控机制的多模态情感分类装置,其特征在于,包括:
数据获取模块,用于获取社交媒体的评论数据,所述评论数据包括文本和图像;
向量获取模块,用于获取所述文本的上下文词向量、目标词向量和位置词向量,将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示;
向量编码模块,用于将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示;
图像特征提取模块,用于将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取,获得图像的位置表示;
文本主题提取模块,用于将所述文本输入至LDA主题模型进行主题提取,获得所述文本的主题嵌入表示;
融合信息获得模块,用于将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码,获得第一融合信息、第二融合信息和第三融合信息;
特征表示获得模块,用于将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合,获得多模态信息的特征表示;
分类结果获得模块,用于将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,获得情感分类结果。
10.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1至8中任意一项所述的多模态情感分类方法。
CN202111026202.XA 2021-09-02 2021-09-02 多模态情感分类方法、装置以及电子设备 Active CN113449085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111026202.XA CN113449085B (zh) 2021-09-02 2021-09-02 多模态情感分类方法、装置以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111026202.XA CN113449085B (zh) 2021-09-02 2021-09-02 多模态情感分类方法、装置以及电子设备

Publications (2)

Publication Number Publication Date
CN113449085A true CN113449085A (zh) 2021-09-28
CN113449085B CN113449085B (zh) 2021-11-26

Family

ID=77819493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111026202.XA Active CN113449085B (zh) 2021-09-02 2021-09-02 多模态情感分类方法、装置以及电子设备

Country Status (1)

Country Link
CN (1) CN113449085B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419509A (zh) * 2022-01-24 2022-04-29 烟台大学 一种多模态情感分析方法、装置及电子设备
CN114528850A (zh) * 2022-02-16 2022-05-24 马上消费金融股份有限公司 标点预测模型的训练方法、标点添加方法及装置
CN114758360A (zh) * 2022-04-24 2022-07-15 北京医准智能科技有限公司 一种多模态图像分类模型训练方法、装置及电子设备
CN115886830A (zh) * 2022-12-09 2023-04-04 中科南京智能技术研究院 一种十二导联心电图的分类方法及系统
CN116089619A (zh) * 2023-04-06 2023-05-09 华南师范大学 情感分类方法、装置、设备以及存储介质
CN117726721A (zh) * 2024-02-08 2024-03-19 湖南君安科技有限公司 基于主题驱动与多模态融合的图像生成方法、设备及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008339A (zh) * 2019-03-22 2019-07-12 武汉大学 一种用于目标情感分类的深度记忆网络模型及其分类方法
CN110457480A (zh) * 2019-08-16 2019-11-15 国网天津市电力公司 基于交互式注意力机制的细粒度情感分类模型的构建方法
CN110826336A (zh) * 2019-09-18 2020-02-21 华南师范大学 一种情感分类方法、系统、存储介质及设备
CN110852368A (zh) * 2019-11-05 2020-02-28 南京邮电大学 全局与局部特征嵌入及图文融合的情感分析方法与系统
CN111460213A (zh) * 2020-03-20 2020-07-28 河海大学 一种基于多模态学习的音乐情感分类方法
KR20200119410A (ko) * 2019-03-28 2020-10-20 한국과학기술원 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법
CN112131383A (zh) * 2020-08-26 2020-12-25 华南师范大学 特定目标的情感极性分类方法
CN112651448A (zh) * 2020-12-29 2021-04-13 中山大学 一种面向社交平台表情包的多模态情感分析方法
CN112801219A (zh) * 2021-03-22 2021-05-14 华南师范大学 一种多模态情感分类方法、装置及设备
CN113268994A (zh) * 2021-07-16 2021-08-17 中国平安人寿保险股份有限公司 基于胶囊网络的意图识别方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008339A (zh) * 2019-03-22 2019-07-12 武汉大学 一种用于目标情感分类的深度记忆网络模型及其分类方法
KR20200119410A (ko) * 2019-03-28 2020-10-20 한국과학기술원 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법
CN110457480A (zh) * 2019-08-16 2019-11-15 国网天津市电力公司 基于交互式注意力机制的细粒度情感分类模型的构建方法
CN110826336A (zh) * 2019-09-18 2020-02-21 华南师范大学 一种情感分类方法、系统、存储介质及设备
CN110852368A (zh) * 2019-11-05 2020-02-28 南京邮电大学 全局与局部特征嵌入及图文融合的情感分析方法与系统
CN111460213A (zh) * 2020-03-20 2020-07-28 河海大学 一种基于多模态学习的音乐情感分类方法
CN112131383A (zh) * 2020-08-26 2020-12-25 华南师范大学 特定目标的情感极性分类方法
CN112651448A (zh) * 2020-12-29 2021-04-13 中山大学 一种面向社交平台表情包的多模态情感分析方法
CN112801219A (zh) * 2021-03-22 2021-05-14 华南师范大学 一种多模态情感分类方法、装置及设备
CN113268994A (zh) * 2021-07-16 2021-08-17 中国平安人寿保险股份有限公司 基于胶囊网络的意图识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIAQIAN WANG: "TARGETED ASPECT-BASED MULTIMODAL SENTIMENT ANALYSIS:AN ATTENTION CAPSULE EXTRACTION AND MULTI-HEAD FUSION NETWORK", 《ARXIV》 *
王家乾: "基于混合多头注意力和胶囊网络的特定目标情感分析", 《中文信息学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419509A (zh) * 2022-01-24 2022-04-29 烟台大学 一种多模态情感分析方法、装置及电子设备
CN114528850A (zh) * 2022-02-16 2022-05-24 马上消费金融股份有限公司 标点预测模型的训练方法、标点添加方法及装置
CN114528850B (zh) * 2022-02-16 2023-08-04 马上消费金融股份有限公司 标点预测模型的训练方法、标点添加方法及装置
CN114758360A (zh) * 2022-04-24 2022-07-15 北京医准智能科技有限公司 一种多模态图像分类模型训练方法、装置及电子设备
CN114758360B (zh) * 2022-04-24 2023-04-18 北京医准智能科技有限公司 一种多模态图像分类模型训练方法、装置及电子设备
CN115886830A (zh) * 2022-12-09 2023-04-04 中科南京智能技术研究院 一种十二导联心电图的分类方法及系统
CN116089619A (zh) * 2023-04-06 2023-05-09 华南师范大学 情感分类方法、装置、设备以及存储介质
CN116089619B (zh) * 2023-04-06 2023-06-06 华南师范大学 情感分类方法、装置、设备以及存储介质
CN117726721A (zh) * 2024-02-08 2024-03-19 湖南君安科技有限公司 基于主题驱动与多模态融合的图像生成方法、设备及介质
CN117726721B (zh) * 2024-02-08 2024-04-30 湖南君安科技有限公司 基于主题驱动与多模态融合的图像生成方法、设备及介质

Also Published As

Publication number Publication date
CN113449085B (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN113449085B (zh) 多模态情感分类方法、装置以及电子设备
CN111294646B (zh) 一种视频处理方法、装置、设备及存储介质
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
JP7193252B2 (ja) 画像の領域のキャプション付加
CN113435203B (zh) 多模态命名实体识别方法、装置以及电子设备
CN109344404B (zh) 情境感知的双重注意力自然语言推理方法
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN108665055B (zh) 一种图说生成方法及装置
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN111104512A (zh) 游戏评论的处理方法及相关设备
AU2019101138A4 (en) Voice interaction system for race games
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Puscasiu et al. Automated image captioning
CN114817564A (zh) 一种属性抽取方法、装置及存储介质
Zhu et al. Self-supervised learning for sentiment analysis via image-text matching
CN116910294A (zh) 一种基于情感分析的图像滤镜生成方法
CN117237479A (zh) 基于扩散模型的产品风格自动生成方法、装置及设备
CN116758558A (zh) 基于跨模态生成对抗网络的图文情感分类方法及系统
CN113779244B (zh) 文档情感分类方法、装置、存储介质以及电子设备
CN114580397A (zh) 一种谩骂评论的检测方法及系统
CN116758402B (zh) 图像人物关系识别方法、系统、设备及存储介质
CN117521674B (zh) 对抗信息的生成方法、装置、计算机设备和存储介质
CN117746441B (zh) 一种视觉语言理解方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant