CN113449085B - 多模态情感分类方法、装置以及电子设备 - Google Patents

多模态情感分类方法、装置以及电子设备 Download PDF

Info

Publication number
CN113449085B
CN113449085B CN202111026202.XA CN202111026202A CN113449085B CN 113449085 B CN113449085 B CN 113449085B CN 202111026202 A CN202111026202 A CN 202111026202A CN 113449085 B CN113449085 B CN 113449085B
Authority
CN
China
Prior art keywords
representation
information
inputting
obtaining
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111026202.XA
Other languages
English (en)
Other versions
CN113449085A (zh
Inventor
宋正新
薛云
古东宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202111026202.XA priority Critical patent/CN113449085B/zh
Publication of CN113449085A publication Critical patent/CN113449085A/zh
Application granted granted Critical
Publication of CN113449085B publication Critical patent/CN113449085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Library & Information Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种多模态情感分类方法、装置以及电子设备,该方法包括:获取社交媒体的评论数据,包括文本和图像,获得上下文语义表示,将目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示,将图像输入至残差网络和单层胶囊网络,获得图像的位置表示,将文本输入至LDA主题模型,获得主题嵌入表示,将上下文语义表示、隐藏层状态表示、图像的位置表示、以及主题嵌入表示输入至多头交互注意力机制,获得融合信息,输入至多模态融合层,获得多模态信息的特征表示,输入至softmax分类器获得情感分类结果,通过门控机制对各模态进行选择,引入主题信息对文本进行增强表示,从而提高了多模态情感分类的精度。

Description

多模态情感分类方法、装置以及电子设备
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种多模态情感分类方法、装置以及电子设备。
背景技术
情感分析,也称为意见挖掘,其目的是从大量非结构化文本中提取意见,并将情绪极性分为:积极的,中性的和消极的。随着社交媒体的发展,情感分析任务不再仅仅只针对单一的文本模态,通过不同形式(文本、听觉和视觉)的多模态数据来精确捕捉情感具有重要意义。
然而,目前的多模态情感分析方法通常都是分别学习不同模态的特征,对其融合进行情感分析,没有考虑到引入的模态信息是否有利于情感的分析。同时,由于社交媒体评论数据中的文本简短且缺少具体的对实体描述信息,从而导致多模态情感分类任务中情感分类精度低。
发明内容
基于此,本发明的目的在于,提供一种多模态情感分类方法、装置以及电子设备,其具有提高情感分类精度的优点。
根据本申请实施例的第一方面,提供一种多模态情感分类方法,包括如下步骤:
获取社交媒体的评论数据,所述评论数据包括文本和图像;
获取所述文本的上下文词向量、目标词向量和位置词向量,将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示;
将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示;
将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取,获得图像的位置表示;
将所述文本输入至LDA主题模型进行主题提取,获得所述文本的主题嵌入表示;
将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码,获得第一融合信息、第二融合信息和第三融合信息;
将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合,获得多模态信息的特征表示;
将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,获得情感分类结果。
根据本申请实施例的第二方面,提供一种多模态情感分类装置,包括:
数据获取模块,用于获取社交媒体的评论数据,所述评论数据包括文本和图像;
向量获取模块,用于获取所述文本的上下文词向量、目标词向量和位置词向量,将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示;
向量编码模块,用于将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示;
图像特征提取模块,用于将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取,获得图像的位置表示;
文本主题提取模块,用于将所述文本输入至LDA主题模型进行主题提取,获得所述文本的主题嵌入表示;
融合信息获得模块,用于将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码,获得第一融合信息、第二融合信息和第三融合信息;
特征表示获得模块,用于将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合,获得多模态信息的特征表示;
分类结果获得模块,用于将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,获得情感分类结果。
根据本申请实施例的第三方面,提供一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如上述任意一项所述的多模态情感分类方法。
本申请实施例通过获取社交媒体的评论数据,所述评论数据包括文本和图像,获取所述文本的上下文词向量、目标词向量和位置词向量,将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示,将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示,将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取,获得图像的位置表示,将所述文本输入至LDA主题模型进行主题提取,获得所述文本的主题嵌入表示,将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码,获得第一融合信息、第二融合信息和第三融合信息,将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合,获得多模态信息的特征表示,将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,获得情感分类结果。本发明通过多模态融合层的门控机制对各模态对情感传递的贡献进行选择,使用主题模型自动生成文本的主题信息以及通过手工的方法标注出图像和文本的主题信息,对文本进行增强表示,从而提高了多模态情感分类的精度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明多模态情感分类方法的流程示意图;
图2为本发明多模态情感分类方法中S20的流程示意图;
图3为本发明多模态情感分类方法中S30的流程示意图;
图4为本发明多模态情感分类方法中S40的流程示意图;
图5为本发明多模态情感分类方法中S50的程示意图;
图6为本发明多模态情感分类方法中S60的程示意图;
图7为本发明多模态情感分类方法中S70的程示意图;
图8为本发明多模态情感分类方法装置的结构框图;
图9为本发明多模态情感分类装置向量获取模块82的结构框图;
图10为本发明多模态情感分类装置向量编码模块83的结构框图;
图11为本发明多模态情感分类装置图像特征提取模块84的结构框图;
图12为本发明多模态情感分类装置文本主题提取模块85的结构框图;
图13为本发明多模态情感分类装置融合信息获得模块86的结构框图;
图14为本发明多模态情感分类装置特征表示获得模块87的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A 和/或 B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
请参阅图1,本发明实施例提供一种多模态命名实体识别方法,包括的步骤如下:
S10.获取社交媒体的评论数据,所述评论数据包括文本和图像。
社交媒体是互联网上基于用户关系的内容生产和交换平台,主要包括社交网站、微博、微信、脸书、推特、博客、论坛、播客等等。评论数据是社交媒体上的用户分享的意见、见解、经验和观点等等,以图片和文字等形式发布。在本申请实施例中,获取社交媒体推特上发布的用户帖子,所述用户帖子包含一段文本和与所述文本对应的一张图片。
S20.获取所述文本的上下文词向量、目标词向量和位置词向量,将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示。
对于文本数据,包括目标词和上下文词,所述目标词为文本数据中携带情感极性的单词,所述上下文词为文本数据中不是目标词的剩余单词。利用预训练的Glove词向量将每个单词映射到一个低维实值向量中,获得文本的单词向量,包括所述文本的上下文词向量和目标词向量,所述上下文词向量表示为
Figure 661331DEST_PATH_IMAGE001
,所述目标词向量表示为
Figure 17226DEST_PATH_IMAGE002
在对文本进行编码时,由于多头自注意力机制只关注输入内容之间的依赖关系,忽略了输入内容的位置信息,为此,本申请实施例使用每个上下文词与目标词之间的相对偏移量来获得每个上下文词的位置信息,进一步地,使用Glove词向量将所述位置信息编码为位置词向量,具体的,所述位置词向量表示为
Figure DEST_PATH_IMAGE003
S30.将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示。
双向门控循环单元,是为了解决长期记忆和反向传播中的梯度等问题提出的循环神经网络(Recurrent Neural Network, 简称RNN)的变体模型,引入了重置门和更新门,修改了RNN中隐藏状态的计算方式。
预设的主题词向量可以是人工根据文本和图片的内容确定的主题词,再对该主题词通过词嵌入表编码获得,具体的,所述预设的主题词向量表示为
Figure 261125DEST_PATH_IMAGE004
。本申请实施例通过引入预设的主题词向量,实可充分利用图片的信息,同时为后面LDA主题模型生成的主题起到了监督作用。
由于目标词和预设的主题词均为短文本序列,因此,采用参数量较少,更易于计算的双向门控循环单元来进行信息提取,获得隐藏层状态表示。
S40.将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取,获得图像的位置表示。
残差网络是一种卷积神经网络,能够进行图像分类和物体识别。残差网络的特点是容易优化,并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题。
胶囊网络是一种新的深度神经网络模型,主要应用在图像识别领域,能够很好的处理不同类型的视觉刺激并对诸如位置、形制、速度等信息进行编码。将所述图像输入至残差网络进行图像的特征提取,之后再输入至单层胶囊网络,获得图像的位置表示。
S50.将所述文本输入至LDA主题模型进行主题提取,获得所述文本的主题嵌入表示。
在主题模型中,主题表示一个概念、一个方面,表现为一系列相关的主题词,是这些主题词的条件概率。形象来说,主题就是一个桶,里面装了出现概率较高的主题词,这些主题词与这个主题有很强的相关性。
LDA(Latent Dirichlet Allocation)主题模型是一种文档生成模型,以一定的概率生成某个主题,即文档的主题概率分布,然后再在这个主题下以一定的概率生成某一个词,即主题的词概率分布。由于多模态社交媒体帖子的文本内容自然较短,有时甚至是不完整的,因此仅学习文本表示可能还不足以做出正确的情感预测。在本申请实施例中,使用LDA 主题模型对输入的文本进行主题提取,获得所述文本的主题嵌入表示。
S60.将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码,获得第一融合信息、第二融合信息和第三融合信息。
多头交互注意力机制分别引导所述上下文语义表示和所述隐藏层状态表示、所述隐藏层状态表示和所述图像的位置表示、以及所述上下文语义表示和所述主题嵌入表示之间发生交互作用,从而从多模态输入中提取关键信息。
S70.将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合,获得多模态信息的特征表示。
利用多头交互注意力机制去除了与目标无关的上下文,但在融合的过程中,没有考虑各模态对目标实体作用是否一致。因此,在多模态融合层使用门控机制来选择性地学习各模态对目标实体的影响,从而获得多模态信息的特征表示。
S80.将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,获得情感分类结果。
在本申请实施例中,将所述多模态信息的特征表示输入至softmax分类器,获得各个情感类别的预测概率值,根据所述预测概率值,从而判断多模态情感的极性,得到多模态情感分类结果。
应用本申请实施例,通过获取社交媒体的评论数据,所述评论数据包括文本和图像,获取所述文本的上下文词向量、目标词向量和位置词向量,将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示,将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示,将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取,获得图像的位置表示,将所述文本输入至LDA主题模型进行主题提取,获得所述文本的主题嵌入表示,将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码,获得第一融合信息、第二融合信息和第三融合信息,将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合,获得多模态信息的特征表示,将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,获得情感分类结果。本发明通过多模态融合层的门控机制对各模态对情感传递的贡献进行选择,使用主题模型自动生成文本的主题信息以及通过手工的方法标注出图像和文本的主题信息,对文本进行增强表示,从而提高了多模态情感分类的精度。
在一个可选的实施例中,请参阅图2,所述步骤S20,包括S21~S22,具体如下:
S21.获取所述文本中的上下文、目标词、以及所述上下文与所述目标词之间的相对位置,通过词嵌入表将所述上下文、所述目标词以及所述上下文与目标词之间的相对位置编码成对应的上下文词向量、目标词向量和位置词向量;
S22.将所述上下文词向量和所述位置词向量进行拼接之后,输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示;
其中,获得所述文本的上下文语义表示的公式为:
Figure DEST_PATH_IMAGE005
Figure 513115DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
是所述上下文词向量,
Figure 209675DEST_PATH_IMAGE008
是所述位置词向量,
Figure DEST_PATH_IMAGE009
表示所述上下词向量和所述位置词向量的拼接,
Figure 838103DEST_PATH_IMAGE010
是所述多头自注意力机制的第
Figure DEST_PATH_IMAGE011
个头的注意力,
Figure 1755DEST_PATH_IMAGE012
,h是所述多头自注意力机制的头数,
Figure DEST_PATH_IMAGE013
是标度因子,
Figure 424646DEST_PATH_IMAGE014
Figure 342924DEST_PATH_IMAGE014
激活函数,
Figure DEST_PATH_IMAGE015
Figure 509463DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
是所述多头自注意力机制的权重参数,
Figure 462376DEST_PATH_IMAGE018
表示拼接,
Figure DEST_PATH_IMAGE019
是所述文本的上下文语义表示。
在一个可选的实施例中,请参阅图3,所述步骤S30,包括S31~S32,具体如下:
S31.将所述目标词向量和所述预设的主题词向量进行拼接,获得拼接后的词向量;
S32.将所述拼接后的词向量输入至双向门控循环单元进行编码,获得所述隐藏层状态表示;
其中,获得所述隐藏层状态表示的公式为:
Figure 321747DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
表示第i个目标词向量,
Figure 789638DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
是所述预设的主题词向量,
Figure 759868DEST_PATH_IMAGE024
是所述拼接后的词向量,
Figure DEST_PATH_IMAGE025
是对所述词向量进行向前方向编码的隐藏层状态表示,
Figure 829936DEST_PATH_IMAGE026
是对所述词向量进行向后方向编码的隐藏层状态表示,
Figure DEST_PATH_IMAGE027
是所述隐藏层状态表示,
Figure 860209DEST_PATH_IMAGE028
是对所述词向量进行向前方向编码的门控循环单元,
Figure DEST_PATH_IMAGE029
是对所述词向量进行向后方向编码的门控循环单元。
在一个可选的实施例中,请参阅图4,所述步骤S40,包括S41~S42,具体如下:
S41.将所述图像输入至残差网络进行特征提取,获得图像特征向量;
S42.将所述图像特征向量输入至单层胶囊网络进行位置编码,获得图像的位置表示。
在图像识别任务中,残差网络具有良好的性能,为了充分利用图像信息,采用ResNet-152来提取不同视觉块的视觉特征,对于给定的一个输入图像I,将其大小调整为224×224像素的图像I',然后用预训练好的ResNet-152,得到图像特征向量,所述图像特征向量是一个大小为7*7*2048 的张量。
由于残差网络只能识别到图像中所包含的特征,但不会识别这些特征之间的相互关系,从而缺乏对图像中目标位置信息的处理。因此,利用单层胶囊网络获得目标的位置信息,将所述图像特征向量输入到单层胶囊网络中,得到图像的位置表示。
在一个可选的实施例中,请参阅图5,所述步骤S50,包括S51~S53,具体如下:
S51.将所述文本输入至LDA主题模型进行主题提取,获得主题词中每个主题词的概率分布;其中,所述主题中至少包括多个主题词;
S52.将所述主题中每个主题词的概率分布进行归一化处理,获得每个主题词的权重;
S53.将所述权重与所述每个主题词对应的词向量进行加权求和,获得所述文本的主题嵌入表示;
其中,获得每个主题词的权重的公式为:
Figure 18658DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE031
是所述每个主题词的概率分布,
Figure 589317DEST_PATH_IMAGE032
是所述每个主题词的权重,
Figure DEST_PATH_IMAGE033
是以e为底的函数,
Figure 516821DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
获得所述文本的主题嵌入表示的公式为:
Figure 717996DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
是第
Figure 363741DEST_PATH_IMAGE038
个主题中第
Figure DEST_PATH_IMAGE039
个主题词对应的词向量,
Figure 678703DEST_PATH_IMAGE040
是所述文本的主题嵌入表示。
在一个可选的实施例中,请参阅图6,所述步骤S60,包括S61~S63,具体如下:
S61.将所述上下文语义表示和所述隐藏层状态表示输入至所述第一多头交互注意力层,以所述隐藏层状态表示为查询向量,以所述上下文语义表示为键和值,获得第一融合信息;
S62.将所述隐藏层状态表示和所述图像的位置表示输入至所述第二多头交互注意力层,以所述隐藏层状态表示为查询向量,以所述图像的位置表示为键和值,获得第二融合信息;
S63.将所述上下文语义表示和所述主题嵌入表示输入至所述第三多头交互注意力层,以所述主题嵌入表示为查询向量,以所述上下文语义表示为键和值,获得第三融合信息;
其中,获得第一融合信息的公式为:
Figure DEST_PATH_IMAGE041
Figure 726293DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE043
是所述隐藏层状态表示,
Figure 832790DEST_PATH_IMAGE044
是所述上下文语义表示,
Figure DEST_PATH_IMAGE045
是所述第一多头交互注意力层的第
Figure 965831DEST_PATH_IMAGE046
个头的注意力,
Figure DEST_PATH_IMAGE047
Figure 81554DEST_PATH_IMAGE048
是所述第一多头交互注意力层的头数,
Figure DEST_PATH_IMAGE049
是标度因子,
Figure 983651DEST_PATH_IMAGE014
Figure 995469DEST_PATH_IMAGE014
激活函数,
Figure 819069DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE051
Figure 535221DEST_PATH_IMAGE052
是所述第一多头交互注意力层的权重参数,
Figure DEST_PATH_IMAGE053
是转置,
Figure 288895DEST_PATH_IMAGE054
表示拼接,
Figure DEST_PATH_IMAGE055
是所述第一融合信息;
获得第二融合信息的公式为:
Figure 2773DEST_PATH_IMAGE056
Figure DEST_PATH_IMAGE057
Figure 110406DEST_PATH_IMAGE058
是所述图像的位置表示,
Figure DEST_PATH_IMAGE059
是所述第二多头交互注意力层的第
Figure 302353DEST_PATH_IMAGE060
个头的注意力,
Figure DEST_PATH_IMAGE061
Figure 913463DEST_PATH_IMAGE062
是所述第二多头交互注意力层的头数,
Figure DEST_PATH_IMAGE063
是标度因子,
Figure 860559DEST_PATH_IMAGE064
Figure DEST_PATH_IMAGE065
Figure 189910DEST_PATH_IMAGE066
是所述第二多头交互注意力层的权重参数,
Figure DEST_PATH_IMAGE067
是所述第二融合信息;
获得第三融合信息的公式为:
Figure 454056DEST_PATH_IMAGE068
Figure DEST_PATH_IMAGE069
Figure 919673DEST_PATH_IMAGE070
是第I个所述主题嵌入表示,
Figure DEST_PATH_IMAGE071
是所述第三多头交互注意力层的第
Figure 240933DEST_PATH_IMAGE072
个头的注意力,
Figure DEST_PATH_IMAGE073
Figure 57579DEST_PATH_IMAGE074
是所述第三多头交互注意力层的头数,
Figure DEST_PATH_IMAGE075
是标度因子,
Figure 856908DEST_PATH_IMAGE076
Figure DEST_PATH_IMAGE077
Figure 442610DEST_PATH_IMAGE078
是所述第三多头交互注意力层的权重参数,
Figure DEST_PATH_IMAGE079
是所述第三融合信息。
在一个可选的实施例中,请参阅图7,所述步骤S70,包括S61~S63,具体如下:
S71.将所述第一融合信息和所述第二融合信息输入至多模态融合层进行特征融合,获得多模态融合特征表示;
S72.将所述第三融合信息与所述LDA主题模型生成的文本的主题概率分布中每个主题的生成概率相乘并求和,获得主题特征表示;
S73.将所述文本的上下文语义表示进行平均池化,获得平均上下文语义表示;
S74.将所述隐藏层状态表示进行平均池化,获得平均隐藏层状态表示;
S75.将所述平均隐藏层状态表示和所述图像特征向量输入至多头注意力机制进行编码,获得图像特征表示;
S76.将所述多模态融合特征表示、所述主题特征表示、所述平均上下文语义表示、以及所述图像特征表示组合,获得多模态信息的特征表示;
其中,获得多模态融合特征表示的公式为:
Figure 934771DEST_PATH_IMAGE080
Figure DEST_PATH_IMAGE081
Figure 973134DEST_PATH_IMAGE082
Figure 44995DEST_PATH_IMAGE055
是所述第一融合信息,
Figure 240133DEST_PATH_IMAGE067
是所述第二融合信息,
Figure DEST_PATH_IMAGE083
表示所述第一融合信息
Figure 637616DEST_PATH_IMAGE055
和所述第二融合信息
Figure 897696DEST_PATH_IMAGE067
的乘积,
Figure 710931DEST_PATH_IMAGE084
是所述第一融合信息和所述第二融合信息经过
Figure DEST_PATH_IMAGE085
激活函数的非线性变换结果,
Figure 67963DEST_PATH_IMAGE086
是所述第一融合信息和所述第二融合信息经过sigmoid激活函数的激活结果,
Figure DEST_PATH_IMAGE087
是sigmoid激活函数,
Figure 636348DEST_PATH_IMAGE088
是所述多模态融合特征表示,
Figure DEST_PATH_IMAGE089
Figure 914882DEST_PATH_IMAGE090
是权重参数,
Figure DEST_PATH_IMAGE091
Figure 594125DEST_PATH_IMAGE092
是偏置参数;
获得主题特征表示的公式为:
Figure DEST_PATH_IMAGE093
Figure 8926DEST_PATH_IMAGE094
是所述LDA主题模型生成的文本的主题概率分布中第I个主题的生成概率,
Figure DEST_PATH_IMAGE095
是所述第三融合信息,
Figure 16721DEST_PATH_IMAGE096
是所述主题特征表示;
获得平均上下文语义表示的公式为:
Figure DEST_PATH_IMAGE097
Figure 516972DEST_PATH_IMAGE098
是第
Figure DEST_PATH_IMAGE099
个所述上下文语义表示,
Figure 999906DEST_PATH_IMAGE100
Figure DEST_PATH_IMAGE101
是所述上下文语义表示的总数量,
Figure 331531DEST_PATH_IMAGE102
是所述平均上下文语义表示;
获得平均隐藏层状态表示的公式为
Figure DEST_PATH_IMAGE103
Figure 241718DEST_PATH_IMAGE104
是第
Figure DEST_PATH_IMAGE105
个所述隐藏层状态表示,
Figure 229265DEST_PATH_IMAGE106
是所述隐藏层状态表示的总数量,
Figure 984732DEST_PATH_IMAGE107
是所述平均隐藏层状态表示;
获得图像特征表示的公式为:
Figure DEST_PATH_IMAGE108
Figure 374125DEST_PATH_IMAGE109
Figure DEST_PATH_IMAGE110
是所述图像特征向量,
Figure 452284DEST_PATH_IMAGE111
是所述多头自注意力机制的第
Figure DEST_PATH_IMAGE112
个头的注意力,
Figure 927127DEST_PATH_IMAGE113
,n是所述多头注意力机制的头数,
Figure DEST_PATH_IMAGE114
是标度因子,
Figure 751864DEST_PATH_IMAGE014
Figure 464605DEST_PATH_IMAGE014
激活函数,
Figure 451015DEST_PATH_IMAGE115
Figure DEST_PATH_IMAGE116
Figure 209893DEST_PATH_IMAGE117
是所述多头注意力机制的权重参数,
Figure 307162DEST_PATH_IMAGE018
表示拼接,
Figure DEST_PATH_IMAGE118
是所述图像特征表示;
获得多模态信息的特征表示的公式为:
Figure 405568DEST_PATH_IMAGE119
Figure DEST_PATH_IMAGE120
是所述多模态信息的特征表示,[ , ]表示组合。
在多模态融合层中,使用门控机制,如果图像模态与文本模态对实体情感作用是互补的,则门控机制有利于图像模态对文本模态的补充说明,如果图片模态不含对实体的表征或文本模态表征自给自足,则门控机制将更倾向于文本特征。
在一个可选的实施例中,所述步骤S80,包括S81,具体如下:
S81.将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,计算概率分布,获得情感分类结果;
获得情感分类结果的公式为;
Figure 94038DEST_PATH_IMAGE121
Figure DEST_PATH_IMAGE122
是所述情感分类结果,
Figure 280824DEST_PATH_IMAGE123
是所述softmax分类器的权重参数,
Figure DEST_PATH_IMAGE124
是所述softmax分类器的偏置参数。
在获得多模态情感分类结果之后,可通过计算最小化损失函数的值来优化网络参数进行训练。在本申请实施例中,所述损失函数为带有正则项的分类交叉熵损失函数,所述交叉熵损失函数为:
Figure 447364DEST_PATH_IMAGE125
其中,
Figure DEST_PATH_IMAGE126
为句子中目标词的数量,
Figure 665855DEST_PATH_IMAGE127
为第
Figure 994069DEST_PATH_IMAGE127
个目标词的索引,
Figure DEST_PATH_IMAGE128
为情感类别的数量,
Figure 665221DEST_PATH_IMAGE129
为第
Figure 369872DEST_PATH_IMAGE129
种情感类别的索引,
Figure DEST_PATH_IMAGE130
为第
Figure 442870DEST_PATH_IMAGE127
个目标词第
Figure 941985DEST_PATH_IMAGE129
种情感类别的真实分布,
Figure 569275DEST_PATH_IMAGE131
为第
Figure 546458DEST_PATH_IMAGE127
个目标词第
Figure 208384DEST_PATH_IMAGE129
种情感类别的预测分布,
Figure 143979DEST_PATH_IMAGE132
是正则化项的超参数,
Figure 255636DEST_PATH_IMAGE134
是模型的参数集合,包括多模态情感分类模型中所有的参数,符号
Figure 36510DEST_PATH_IMAGE135
表示L2范数,
Figure 287363DEST_PATH_IMAGE136
表示所有参数的L2范数。
相应于上述方法实施例,请参阅8,本发明实施例提供一种多模态情感分类装置8,包括:
数据获取模块81,用于获取社交媒体的评论数据,所述评论数据包括文本和图像;
向量获取模块82,用于获取所述文本的上下文词向量、目标词向量和位置词向量,将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示;
向量编码模块83,用于将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示;
图像特征提取模块84,用于将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取,获得图像的位置表示;
文本主题提取模块85,用于将所述文本输入至LDA主题模型进行主题提取,获得所述文本的主题嵌入表示;
融合信息获得模块86,用于将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码,获得第一融合信息、第二融合信息和第三融合信息;
特征表示获得模块87,用于将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合,获得多模态信息的特征表示;
分类结果获得模块88,用于将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,获得情感分类结果。
可选的,请参阅图9,所述向量获取模块82,包括:
词获取单元821,用于获取所述文本中的上下文词、目标词、以及所述上下文与所述目标词之间的相对位置,通过词嵌入表将所述上下文词、所述目标词以及所述上下文词与目标词之间的相对位置编码成对应的上下文词向量、目标词向量和位置词向量;
向量编码单元822,用于将所述上下文词向量和所述位置词向量进行拼接之后,输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示。
可选的,请参阅图10,所述向量编码模块83,包括:
向量拼接单元831,用于将所述目标词向量和所述预设的主题词向量进行拼接,获得拼接后的词向量;
词向量编码单元832,用于将所述拼接后的词向量输入至双向门控循环单元进行编码,获得所述隐藏层状态表示。
可选的,请参阅图11,所述图像特征提取模块84,包括:
向量获得单元841,用于将所述图像输入至残差网络进行特征提取,获得图像特征向量;
位置表示获得单元842,用于将所述图像特征向量输入至单层胶囊网络进行位置编码,获得图像的位置表示。
可选的,请参阅图12,所述文本主题提取模块85,包括:
文本输入单元851,用于将所述文本输入至LDA主题模型进行主题提取,获得主题的词概率分布;
概率归一化单元852,用于将所述主题的词概率分布中每个词的生成概率进行归一化处理,获得每个词的权重;
主题嵌入表示获得单元853,用于将所述权重与所述每个词对应的词向量进行加权求和,获得所述文本的主题嵌入表示。
可选的,请参阅图13,所述融合信息获得模块86,包括:
第一交互单元861,用于将所述上下文语义表示和所述隐藏层状态表示输入至所述第一多头交互注意力层,以所述隐藏层状态表示为查询向量,以所述上下文语义表示为键和值,获得第一融合信息;
第二交互单元862,用于将所述隐藏层状态表示和所述图像的位置表示输入至所述第二多头交互注意力层,以所述隐藏层状态表示为查询向量,以所述图像的位置表示为键和值,获得第二融合信息;
第三交互单元863,用于将所述上下文语义表示和所述主题嵌入表示输入至所述第三多头交互注意力层,以所述主题嵌入表示为查询向量,以所述上下文语义表示为键和值,获得第三融合信息。
可选的,请参阅图14,所述特征表示获得模块87,包括:
融合信息输入单元871,用于将所述第一融合信息和所述第二融合信息输入至多模态融合层进行特征融合,获得多模态融合特征表示;
主题特征表示获得单元872,用于将所述第三融合信息与所述LDA主题模型生成的文本的主题概率分布中每个主题的生成概率相乘并求和,获得主题特征表示;
第一平均池化单元873,用于将所述文本的上下文语义表示进行平均池化,获得平均上下文语义表示;
第二平均池化单元874,用于将所述隐藏层状态表示进行平均池化,获得平均隐藏层状态表示;
图像特征表示获得单元875,用于将所述平均隐藏层状态表示和所述图像特征向量输入至多头注意力机制进行编码,获得图像特征表示;
表示组合单元876,用于将所述多模态融合特征表示、所述主题特征表示、所述平均上下文语义表示、以及所述图像特征表示组合,获得多模态信息的特征表示。
可选的,所述分类结果获得模块88,包括:
概率分布计算单元881,用于将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,计算概率分布,获得情感分类结果。
应用本申请实施例,通过获取社交媒体的评论数据,所述评论数据包括文本和图像,获取所述文本的上下文词向量、目标词向量和位置词向量,将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示,将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示,将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取,获得图像的位置表示,将所述文本输入至LDA主题模型进行主题提取,获得所述文本的主题嵌入表示,将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码,获得第一融合信息、第二融合信息和第三融合信息,将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合,获得多模态信息的特征表示,将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,获得情感分类结果。本发明通过多模态融合层的门控机制对各模态对情感传递的贡献进行选择,使用主题模型自动生成文本的主题信息以及通过手工的方法标注出图像和文本的主题信息,对文本进行增强表示,从而提高了多模态情感分类的精度。
本申请还提供一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述实施例的方法步骤。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,则本发明也意图包含这些改动和变形。

Claims (8)

1.一种多模态情感分类方法,其特征在于,包括如下步骤:
获取社交媒体的评论数据,所述评论数据包括文本和图像;
获取所述文本的上下文词向量、目标词向量和位置词向量,将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示;
将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示;
将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取,获得图像的位置表示;其中,将所述图像输入至残差网络进行特征提取,获得图像特征向量;将所述图像特征向量输入至单层胶囊网络进行位置编码,获得图像的位置表示;
将所述文本输入至LDA主题模型进行主题提取,获得所述文本的主题嵌入表示;
将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码,获得第一融合信息、第二融合信息和第三融合信息;
将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合,获得多模态信息的特征表示;其中,将所述第一融合信息和所述第二融合信息输入至多模态融合层进行特征融合,获得多模态融合特征表示;将所述第三融合信息与所述LDA主题模型生成的文本的主题概率分布中每个主题的生成概率相乘并求和,获得主题特征表示;将所述文本的上下文语义表示进行平均池化,获得平均上下文语义表示;将所述隐藏层状态表示进行平均池化,获得平均隐藏层状态表示;将所述平均隐藏层状态表示和所述图像特征向量输入至多头注意力机制进行编码,获得图像特征表示;将所述多模态融合特征表示、所述主题特征表示、所述平均上下文语义表示、以及所述图像特征表示组合,获得多模态信息的特征表示;其中,获得多模态融合特征表示的公式为:
Figure 930006DEST_PATH_IMAGE001
Figure 993777DEST_PATH_IMAGE002
Figure 723835DEST_PATH_IMAGE003
Figure 923873DEST_PATH_IMAGE004
是所述第一融合信息,
Figure 713974DEST_PATH_IMAGE005
是所述第二融合信息,
Figure 999462DEST_PATH_IMAGE006
表示所述第一融合信息
Figure 31747DEST_PATH_IMAGE004
和所述第二融合信息
Figure 86290DEST_PATH_IMAGE005
的乘积,
Figure 781714DEST_PATH_IMAGE007
是所述第一融合信息和所述第二融合信息经过
Figure 554498DEST_PATH_IMAGE008
激活函数的非线性变换结果,
Figure 891938DEST_PATH_IMAGE009
是所述第一融合信息和所述第二融合信息经过sigmoid激活函数的激活结果,
Figure 800988DEST_PATH_IMAGE010
是sigmoid激活函数,
Figure 932892DEST_PATH_IMAGE011
是所述多模态融合特征表示,
Figure 694437DEST_PATH_IMAGE012
Figure 569989DEST_PATH_IMAGE013
是权重参数,
Figure 599125DEST_PATH_IMAGE014
Figure 901931DEST_PATH_IMAGE015
是偏置参数;
获得主题特征表示的公式为:
Figure 649307DEST_PATH_IMAGE016
Figure 62971DEST_PATH_IMAGE017
是所述LDA主题模型生成的文本的主题概率分布中第I个主题的生成概率,
Figure 212192DEST_PATH_IMAGE018
是所述第三融合信息,
Figure 918855DEST_PATH_IMAGE019
是所述主题特征表示;
获得平均上下文语义表示的公式为:
Figure 887948DEST_PATH_IMAGE020
Figure 105303DEST_PATH_IMAGE021
是第
Figure 109031DEST_PATH_IMAGE022
个所述上下文语义表示,
Figure 753639DEST_PATH_IMAGE023
Figure 210028DEST_PATH_IMAGE024
是所述上下文语义表示的总数量,
Figure 231073DEST_PATH_IMAGE025
是所述平均上下文语义表示;
获得平均隐藏层状态表示的公式为
Figure 590773DEST_PATH_IMAGE026
Figure 671861DEST_PATH_IMAGE027
是第
Figure 349967DEST_PATH_IMAGE028
个所述隐藏层状态表示,
Figure 909125DEST_PATH_IMAGE029
是所述隐藏层状态表示的总数量,
Figure 887445DEST_PATH_IMAGE030
是所述平均隐藏层状态表示;
获得图像特征表示的公式为:
Figure 873855DEST_PATH_IMAGE031
Figure 304837DEST_PATH_IMAGE032
Figure 166220DEST_PATH_IMAGE033
是所述图像特征向量,
Figure 733468DEST_PATH_IMAGE034
是所述多头自注意力机制的第
Figure 156359DEST_PATH_IMAGE035
个头的注意力,
Figure 809057DEST_PATH_IMAGE036
,n是所述多头注意力机制的头数,
Figure 710017DEST_PATH_IMAGE037
是标度因子,
Figure 662929DEST_PATH_IMAGE038
Figure 991143DEST_PATH_IMAGE038
激活函数,
Figure 632602DEST_PATH_IMAGE039
Figure 337253DEST_PATH_IMAGE040
Figure 879092DEST_PATH_IMAGE041
是所述多头注意力机制的权重参数,
Figure 378207DEST_PATH_IMAGE042
表示拼接,
Figure 5497DEST_PATH_IMAGE043
是所述图像特征表示;
获得多模态信息的特征表示的公式为:
Figure 513839DEST_PATH_IMAGE044
Figure 175765DEST_PATH_IMAGE045
是所述多模态信息的特征表示,[ , ]表示组合;
将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,获得情感分类结果。
2.根据权利要求1所述的多模态情感分类方法,其特征在于,所述获取所述文本的上下文词向量、目标词向量和位置词向量,将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示,包括:
获取所述文本中的上下文词、目标词、以及所述上下文词与所述目标词之间的相对位置,通过词嵌入表将所述上下文词、所述目标词以及所述上下文词与目标词之间的相对位置编码成对应的上下文词向量、目标词向量和位置词向量;
将所述上下文词向量和所述位置词向量进行拼接之后,输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示;
其中,获得所述文本的上下文语义表示的公式为:
Figure 344315DEST_PATH_IMAGE046
Figure 458902DEST_PATH_IMAGE047
Figure 505355DEST_PATH_IMAGE048
是所述上下文词向量,
Figure 287367DEST_PATH_IMAGE049
是所述位置词向量,
Figure 128284DEST_PATH_IMAGE050
表示所述上下词向量和所述位置词向量的拼接,
Figure 464587DEST_PATH_IMAGE051
是所述多头自注意力机制的第
Figure 49152DEST_PATH_IMAGE052
个头的注意力,
Figure 187135DEST_PATH_IMAGE053
,h是所述多头自注意力机制的头数,
Figure 198953DEST_PATH_IMAGE054
是标度因子,
Figure 288132DEST_PATH_IMAGE038
Figure 410809DEST_PATH_IMAGE038
激活函数,
Figure 901833DEST_PATH_IMAGE055
Figure 350132DEST_PATH_IMAGE056
Figure 661027DEST_PATH_IMAGE057
是所述多头自注意力机制的权重参数,
Figure 109368DEST_PATH_IMAGE042
表示拼接,
Figure 454898DEST_PATH_IMAGE058
是所述文本的上下文语义表示。
3.根据权利要求1所述的多模态情感分类方法,其特征在于,所述将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示,包括:
将所述目标词向量和所述预设的主题词向量进行拼接,获得拼接后的词向量;
将所述拼接后的词向量输入至双向门控循环单元进行编码,获得所述隐藏层状态表示;
其中,获得所述隐藏层状态表示的公式为:
Figure 74098DEST_PATH_IMAGE059
Figure 872290DEST_PATH_IMAGE060
表示第i个目标词向量,
Figure 602349DEST_PATH_IMAGE061
Figure 67965DEST_PATH_IMAGE062
是所述预设的主题词向量,
Figure 592487DEST_PATH_IMAGE063
是所述拼接后的词向量,
Figure 645019DEST_PATH_IMAGE064
是对所述词向量进行向前方向编码的隐藏层状态表示,
Figure 178769DEST_PATH_IMAGE065
是对所述词向量进行向后方向编码的隐藏层状态表示,
Figure 233313DEST_PATH_IMAGE066
是所述隐藏层状态表示,
Figure 194315DEST_PATH_IMAGE067
是对所述词向量进行向前方向编码的门控循环单元,
Figure 967099DEST_PATH_IMAGE068
是对所述词向量进行向后方向编码的门控循环单元。
4.根据权利要求1所述的多模态情感分类方法,其特征在于,所述将所述文本输入至LDA主题模型进行主题提取,获得所述文本的主题嵌入表示,包括:
将所述文本输入至LDA主题模型进行主题提取,获得主题词中每个主题词的概率分布;其中,所述主题中至少包括多个主题词;
将所述主题中每个主题词的概率分布进行归一化处理,获得每个主题词的权重;
将所述权重与所述每个主题词对应的词向量进行加权求和,获得所述文本的主题嵌入表示;
其中,获得每个主题词的权重的公式为:
Figure 38960DEST_PATH_IMAGE069
Figure 948011DEST_PATH_IMAGE070
是所述每个主题词的概率分布,
Figure 844029DEST_PATH_IMAGE071
是所述每个主题词的权重,
Figure 838530DEST_PATH_IMAGE072
是以e为底的函数,
Figure 714082DEST_PATH_IMAGE073
Figure 743218DEST_PATH_IMAGE074
获得所述文本的主题嵌入表示的公式为:
Figure 46023DEST_PATH_IMAGE075
Figure 527820DEST_PATH_IMAGE076
是第
Figure 941484DEST_PATH_IMAGE077
个主题中第
Figure 592170DEST_PATH_IMAGE078
个主题词对应的词向量,
Figure 65877DEST_PATH_IMAGE079
是所述文本的主题嵌入表示。
5.根据权利要求1所述的多模态情感分类方法,其特征在于,所述多头交互注意力机制包括第一多头交互注意力层、第二多头交互注意力层和第三多头交互注意力层,所述将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码,获得第一融合信息、第二融合信息和第三融合信息,包括:
将所述上下文语义表示和所述隐藏层状态表示输入至所述第一多头交互注意力层,以所述隐藏层状态表示为查询向量,以所述上下文语义表示为键和值,获得第一融合信息;
将所述隐藏层状态表示和所述图像的位置表示输入至所述第二多头交互注意力层,以所述隐藏层状态表示为查询向量,以所述图像的位置表示为键和值,获得第二融合信息;
将所述上下文语义表示和所述主题嵌入表示输入至所述第三多头交互注意力层,以所述主题嵌入表示为查询向量,以所述上下文语义表示为键和值,获得第三融合信息;
其中,获得第一融合信息的公式为:
Figure 34970DEST_PATH_IMAGE080
Figure 517904DEST_PATH_IMAGE081
Figure 521632DEST_PATH_IMAGE082
是所述隐藏层状态表示,
Figure 431819DEST_PATH_IMAGE083
是所述上下文语义表示,
Figure 386744DEST_PATH_IMAGE084
是所述第一多头交互注意力层的第
Figure 142210DEST_PATH_IMAGE085
个头的注意力,
Figure 445DEST_PATH_IMAGE086
Figure 815954DEST_PATH_IMAGE087
是所述第一多头交互注意力层的头数,
Figure 759639DEST_PATH_IMAGE088
是标度因子,
Figure 584376DEST_PATH_IMAGE038
Figure 297117DEST_PATH_IMAGE038
激活函数,
Figure 784992DEST_PATH_IMAGE089
Figure 950394DEST_PATH_IMAGE090
Figure 47663DEST_PATH_IMAGE091
是所述第一多头交互注意力层的权重参数,
Figure 146069DEST_PATH_IMAGE092
是转置,
Figure 303381DEST_PATH_IMAGE093
表示拼接,
Figure 956079DEST_PATH_IMAGE004
是所述第一融合信息;
获得第二融合信息的公式为:
Figure 857039DEST_PATH_IMAGE094
Figure 42908DEST_PATH_IMAGE095
Figure 636700DEST_PATH_IMAGE096
是所述图像的位置表示,
Figure 776694DEST_PATH_IMAGE097
是所述第二多头交互注意力层的第
Figure 215766DEST_PATH_IMAGE098
个头的注意力,
Figure 23185DEST_PATH_IMAGE099
Figure 522299DEST_PATH_IMAGE100
是所述第二多头交互注意力层的头数,
Figure 149590DEST_PATH_IMAGE101
是标度因子,
Figure 893817DEST_PATH_IMAGE102
Figure 555743DEST_PATH_IMAGE103
Figure 225758DEST_PATH_IMAGE104
是所述第二多头交互注意力层的权重参数,
Figure 605924DEST_PATH_IMAGE005
是所述第二融合信息;
获得第三融合信息的公式为:
Figure 652378DEST_PATH_IMAGE105
Figure 903230DEST_PATH_IMAGE106
Figure 744147DEST_PATH_IMAGE107
是第I个所述主题嵌入表示,
Figure 110144DEST_PATH_IMAGE108
是所述第三多头交互注意力层的第
Figure 694710DEST_PATH_IMAGE109
个头的注意力,
Figure 65648DEST_PATH_IMAGE110
Figure 343046DEST_PATH_IMAGE111
是所述第三多头交互注意力层的头数,
Figure 432224DEST_PATH_IMAGE112
是标度因子,
Figure 554901DEST_PATH_IMAGE113
Figure 45925DEST_PATH_IMAGE114
Figure 995689DEST_PATH_IMAGE115
是所述第三多头交互注意力层的权重参数,
Figure 306585DEST_PATH_IMAGE116
是所述第三融合信息。
6.根据权利要求1所述的多模态情感分类方法,其特征在于,所述将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,获得情感分类结果,包括:
将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,计算概率分布,获得情感分类结果;
获得情感分类结果的公式为;
Figure 498532DEST_PATH_IMAGE117
Figure 109641DEST_PATH_IMAGE118
是所述情感分类结果,
Figure 463262DEST_PATH_IMAGE119
是所述softmax分类器的权重参数,
Figure 261454DEST_PATH_IMAGE120
是所述softmax分类器的偏置参数。
7.一种多模态情感分类装置,其特征在于,包括:
数据获取模块,用于获取社交媒体的评论数据,所述评论数据包括文本和图像;
向量获取模块,用于获取所述文本的上下文词向量、目标词向量和位置词向量,将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码,获得所述文本的上下文语义表示;
向量编码模块,用于将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码,获得隐藏层状态表示;
图像特征提取模块,用于将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取,获得图像的位置表示;其中,将所述图像输入至残差网络进行特征提取,获得图像特征向量;将所述图像特征向量输入至单层胶囊网络进行位置编码,获得图像的位置表示;
文本主题提取模块,用于将所述文本输入至LDA主题模型进行主题提取,获得所述文本的主题嵌入表示;
融合信息获得模块,用于将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码,获得第一融合信息、第二融合信息和第三融合信息;
特征表示获得模块,用于将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合,获得多模态信息的特征表示;其中,将所述第一融合信息和所述第二融合信息输入至多模态融合层进行特征融合,获得多模态融合特征表示;将所述第三融合信息与所述LDA主题模型生成的文本的主题概率分布中每个主题的生成概率相乘并求和,获得主题特征表示;将所述文本的上下文语义表示进行平均池化,获得平均上下文语义表示;将所述隐藏层状态表示进行平均池化,获得平均隐藏层状态表示;将所述平均隐藏层状态表示和所述图像特征向量输入至多头注意力机制进行编码,获得图像特征表示;将所述多模态融合特征表示、所述主题特征表示、所述平均上下文语义表示、以及所述图像特征表示组合,获得多模态信息的特征表示;其中,获得多模态融合特征表示的公式为:
Figure 755627DEST_PATH_IMAGE001
Figure 955664DEST_PATH_IMAGE002
Figure 480187DEST_PATH_IMAGE003
Figure 31254DEST_PATH_IMAGE004
是所述第一融合信息,
Figure 299424DEST_PATH_IMAGE005
是所述第二融合信息,
Figure 353968DEST_PATH_IMAGE006
表示所述第一融合信息
Figure 314970DEST_PATH_IMAGE004
和所述第二融合信息
Figure 87754DEST_PATH_IMAGE005
的乘积,
Figure 661080DEST_PATH_IMAGE121
是所述第一融合信息和所述第二融合信息经过
Figure 835710DEST_PATH_IMAGE008
激活函数的非线性变换结果,
Figure 967614DEST_PATH_IMAGE122
是所述第一融合信息和所述第二融合信息经过sigmoid激活函数的激活结果,
Figure 227694DEST_PATH_IMAGE010
是sigmoid激活函数,
Figure 837667DEST_PATH_IMAGE011
是所述多模态融合特征表示,
Figure 132382DEST_PATH_IMAGE012
Figure 464881DEST_PATH_IMAGE123
是权重参数,
Figure 212257DEST_PATH_IMAGE014
Figure 625921DEST_PATH_IMAGE015
是偏置参数;
获得主题特征表示的公式为:
Figure 509563DEST_PATH_IMAGE016
Figure 983270DEST_PATH_IMAGE017
是所述LDA主题模型生成的文本的主题概率分布中第I个主题的生成概率,
Figure 217942DEST_PATH_IMAGE018
是所述第三融合信息,
Figure 671182DEST_PATH_IMAGE019
是所述主题特征表示;
获得平均上下文语义表示的公式为:
Figure 674910DEST_PATH_IMAGE020
Figure 319518DEST_PATH_IMAGE021
是第
Figure 41487DEST_PATH_IMAGE022
个所述上下文语义表示,
Figure 796953DEST_PATH_IMAGE023
Figure 389609DEST_PATH_IMAGE024
是所述上下文语义表示的总数量,
Figure 205118DEST_PATH_IMAGE124
是所述平均上下文语义表示;
获得平均隐藏层状态表示的公式为
Figure 912917DEST_PATH_IMAGE026
Figure 472075DEST_PATH_IMAGE125
是第
Figure 184816DEST_PATH_IMAGE126
个所述隐藏层状态表示,
Figure 171226DEST_PATH_IMAGE127
是所述隐藏层状态表示的总数量,
Figure 867787DEST_PATH_IMAGE030
是所述平均隐藏层状态表示;
获得图像特征表示的公式为:
Figure 965056DEST_PATH_IMAGE031
Figure 797883DEST_PATH_IMAGE032
Figure 191080DEST_PATH_IMAGE128
是所述图像特征向量,
Figure 109358DEST_PATH_IMAGE034
是所述多头自注意力机制的第
Figure 10318DEST_PATH_IMAGE035
个头的注意力,
Figure 432072DEST_PATH_IMAGE129
,n是所述多头注意力机制的头数,
Figure 25864DEST_PATH_IMAGE037
是标度因子,
Figure 165858DEST_PATH_IMAGE130
Figure 870509DEST_PATH_IMAGE130
激活函数,
Figure 199901DEST_PATH_IMAGE131
Figure 699015DEST_PATH_IMAGE132
Figure 591885DEST_PATH_IMAGE133
是所述多头注意力机制的权重参数,
Figure 834647DEST_PATH_IMAGE042
表示拼接,
Figure 230994DEST_PATH_IMAGE043
是所述图像特征表示;
获得多模态信息的特征表示的公式为:
Figure 901009DEST_PATH_IMAGE134
Figure 281175DEST_PATH_IMAGE045
是所述多模态信息的特征表示,[ , ]表示组合;
分类结果获得模块,用于将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别,获得情感分类结果。
8.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1至6中任意一项所述的多模态情感分类方法。
CN202111026202.XA 2021-09-02 2021-09-02 多模态情感分类方法、装置以及电子设备 Active CN113449085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111026202.XA CN113449085B (zh) 2021-09-02 2021-09-02 多模态情感分类方法、装置以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111026202.XA CN113449085B (zh) 2021-09-02 2021-09-02 多模态情感分类方法、装置以及电子设备

Publications (2)

Publication Number Publication Date
CN113449085A CN113449085A (zh) 2021-09-28
CN113449085B true CN113449085B (zh) 2021-11-26

Family

ID=77819493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111026202.XA Active CN113449085B (zh) 2021-09-02 2021-09-02 多模态情感分类方法、装置以及电子设备

Country Status (1)

Country Link
CN (1) CN113449085B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419509B (zh) * 2022-01-24 2023-04-18 烟台大学 一种多模态情感分析方法、装置及电子设备
CN114528850B (zh) * 2022-02-16 2023-08-04 马上消费金融股份有限公司 标点预测模型的训练方法、标点添加方法及装置
CN114758360B (zh) * 2022-04-24 2023-04-18 北京医准智能科技有限公司 一种多模态图像分类模型训练方法、装置及电子设备
CN115886830A (zh) * 2022-12-09 2023-04-04 中科南京智能技术研究院 一种十二导联心电图的分类方法及系统
CN116089619B (zh) * 2023-04-06 2023-06-06 华南师范大学 情感分类方法、装置、设备以及存储介质
CN117726721B (zh) * 2024-02-08 2024-04-30 湖南君安科技有限公司 基于主题驱动与多模态融合的图像生成方法、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457480A (zh) * 2019-08-16 2019-11-15 国网天津市电力公司 基于交互式注意力机制的细粒度情感分类模型的构建方法
CN110826336A (zh) * 2019-09-18 2020-02-21 华南师范大学 一种情感分类方法、系统、存储介质及设备
CN110852368A (zh) * 2019-11-05 2020-02-28 南京邮电大学 全局与局部特征嵌入及图文融合的情感分析方法与系统
KR20200119410A (ko) * 2019-03-28 2020-10-20 한국과학기술원 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법
CN112651448A (zh) * 2020-12-29 2021-04-13 中山大学 一种面向社交平台表情包的多模态情感分析方法
CN112801219A (zh) * 2021-03-22 2021-05-14 华南师范大学 一种多模态情感分类方法、装置及设备
CN113268994A (zh) * 2021-07-16 2021-08-17 中国平安人寿保险股份有限公司 基于胶囊网络的意图识别方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008339A (zh) * 2019-03-22 2019-07-12 武汉大学 一种用于目标情感分类的深度记忆网络模型及其分类方法
CN111460213B (zh) * 2020-03-20 2023-07-18 河海大学 一种基于多模态学习的音乐情感分类方法
CN112131383B (zh) * 2020-08-26 2021-05-18 华南师范大学 特定目标的情感极性分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200119410A (ko) * 2019-03-28 2020-10-20 한국과학기술원 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법
CN110457480A (zh) * 2019-08-16 2019-11-15 国网天津市电力公司 基于交互式注意力机制的细粒度情感分类模型的构建方法
CN110826336A (zh) * 2019-09-18 2020-02-21 华南师范大学 一种情感分类方法、系统、存储介质及设备
CN110852368A (zh) * 2019-11-05 2020-02-28 南京邮电大学 全局与局部特征嵌入及图文融合的情感分析方法与系统
CN112651448A (zh) * 2020-12-29 2021-04-13 中山大学 一种面向社交平台表情包的多模态情感分析方法
CN112801219A (zh) * 2021-03-22 2021-05-14 华南师范大学 一种多模态情感分类方法、装置及设备
CN113268994A (zh) * 2021-07-16 2021-08-17 中国平安人寿保险股份有限公司 基于胶囊网络的意图识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TARGETED ASPECT-BASED MULTIMODAL SENTIMENT ANALYSIS:AN ATTENTION CAPSULE EXTRACTION AND MULTI-HEAD FUSION NETWORK;Jiaqian Wang;《arXiv》;20210313;第1-7页 *
基于混合多头注意力和胶囊网络的特定目标情感分析;王家乾;《中文信息学报》;20200531;第100-110页 *

Also Published As

Publication number Publication date
CN113449085A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN113449085B (zh) 多模态情感分类方法、装置以及电子设备
CN108804530B (zh) 对图像的区域加字幕
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN111294646B (zh) 一种视频处理方法、装置、设备及存储介质
CN113435203B (zh) 多模态命名实体识别方法、装置以及电子设备
CN109344404B (zh) 情境感知的双重注意力自然语言推理方法
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
AU2019101138A4 (en) Voice interaction system for race games
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Puscasiu et al. Automated image captioning
CN111046178A (zh) 一种文本序列生成方法及其系统
CN116579347A (zh) 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质
CN114817564A (zh) 一种属性抽取方法、装置及存储介质
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN113609326A (zh) 基于外部知识和目标间关系的图像描述生成方法
CN116910294A (zh) 一种基于情感分析的图像滤镜生成方法
CN117237479A (zh) 基于扩散模型的产品风格自动生成方法、装置及设备
CN116758558A (zh) 基于跨模态生成对抗网络的图文情感分类方法及系统
CN113779244B (zh) 文档情感分类方法、装置、存储介质以及电子设备
CN112749566A (zh) 一种面向英文写作辅助的语义匹配方法及装置
CN114580397A (zh) 一种谩骂评论的检测方法及系统
CN116758402B (zh) 图像人物关系识别方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant