CN113326703B - 基于异构空间下多模态对抗融合的情感识别方法及系统 - Google Patents

基于异构空间下多模态对抗融合的情感识别方法及系统 Download PDF

Info

Publication number
CN113326703B
CN113326703B CN202110884202.7A CN202110884202A CN113326703B CN 113326703 B CN113326703 B CN 113326703B CN 202110884202 A CN202110884202 A CN 202110884202A CN 113326703 B CN113326703 B CN 113326703B
Authority
CN
China
Prior art keywords
feature vector
space
module
words
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110884202.7A
Other languages
English (en)
Other versions
CN113326703A (zh
Inventor
孙喜民
周晶
李晓明
王帅
李鑫
刘丹
孙博
郑斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid E Commerce Co Ltd
State Grid E Commerce Technology Co Ltd
Original Assignee
State Grid E Commerce Co Ltd
State Grid E Commerce Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid E Commerce Co Ltd, State Grid E Commerce Technology Co Ltd filed Critical State Grid E Commerce Co Ltd
Priority to CN202110884202.7A priority Critical patent/CN113326703B/zh
Publication of CN113326703A publication Critical patent/CN113326703A/zh
Application granted granted Critical
Publication of CN113326703B publication Critical patent/CN113326703B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于异构空间下多模态对抗融合的情感识别方法及系统,该方法包括:S100:获取由文本信息和图像信息构成的多模态数据;S200:提取文本信息的单词特征向量,获得文本特征集;S300:提取图像信息的区域特征向量,获得图像特征集;S400:在异构空间下映射多模态数据;S500:基于对抗学习的自适应融合;S600:利用softmax层对融合结果进行情感类别预测。本发明实现了情感识别中多元异构数据的互补,可获得更加丰富且准确的情感识别结果。

Description

基于异构空间下多模态对抗融合的情感识别方法及系统
技术领域
本发明涉及情感识别技术领域,具体为基于异构空间下多模态对抗融合的情感识别方法及系统。
背景技术
大数据是多源异构的,在信息技术飞速发展的今天,多模态数据已成为近来数据资源的主要形式。自然现象具有的丰富特征,因此单一模态的信息往往难以提供对感兴趣的现象的完整知识。因此,如何融合每一模态的信息,就成为了多个领域所广泛存在的新挑战。多模态融合可以提供互补信息,提高整体决策的准确性。现有的多模态融合方法将不同模态的数据从各自独立的表示空间映射到一个第三方的公共空间中,这样不可避免地会丢失模态的语义信息,进而影响融合效果。并且当前的模型在融合阶段并没有充分考虑模态间的交互作用,无法在表示空间产生更好的聚类效果。
特别是在情感识别领域,目前大多基于文本信息识别情感,但当文本信息包含讽刺含义,可能导致情感识别不准;在多媒体网络中,表情图像被广泛使用,可以考虑结合表情图像来辅助文本信息识别情感。
发明内容
本发明的目的是提供基于异构空间下多模态对抗融合的情感识别方法及系统,该方法和系统构建异构空间将文本信息和图像信息进行对抗融合,再基于融合后的信息进行识别情感。
本实施例提供的基于异构空间下多模态对抗融合的情感识别方法,包括:
S100:获取由文本信息和图像信息构成的多模态数据;
S200:提取文本信息的单词特征向量,获得文本特征集;
S300:提取图像信息的区域特征向量,获得图像特征集;
S400:在异构空间下映射多模态数据,本步骤包括S410-S430:
S410:将单词特征向量映射到第一表示空间,将区域特征向量映射到第二表示空间;第一表示空间和第二表示空间分别为基于文本的表示空间和基于图像的表示空间;
S420:在第一表示空间分别计算各区域与所有单词间的相似度,基于相似度构造各区域的文本上下文特征向量
Figure 4086DEST_PATH_IMAGE001
S430:在第二表示空间分别计算各单词与所有区域间的相似度,基于相似度构造各单词的图像上下文特征向量
Figure 186805DEST_PATH_IMAGE002
S500:基于对抗学习的自适应融合,本步骤包括S510-S560:
在自动编码器端:
S510:
Figure 232122DEST_PATH_IMAGE001
Figure 33856DEST_PATH_IMAGE002
输入自动编码器进行融合,得到向量
Figure 113807DEST_PATH_IMAGE003
S520:对
Figure 201849DEST_PATH_IMAGE003
进行全连接处理,得到中间表示
Figure 609828DEST_PATH_IMAGE004
,并对
Figure 74307DEST_PATH_IMAGE004
编码得
Figure 274344DEST_PATH_IMAGE005
S530:以
Figure 408653DEST_PATH_IMAGE003
Figure 428562DEST_PATH_IMAGE005
之间的均方误差为自动编码器的目标函数;
在对抗融合网络端:
S540:选择
Figure 431153DEST_PATH_IMAGE001
Figure 220118DEST_PATH_IMAGE002
传入到对抗融合网络的生成器G进行编码,获得
Figure 790907DEST_PATH_IMAGE006
S550:
Figure 563691DEST_PATH_IMAGE004
标记为正样本,
Figure 104394DEST_PATH_IMAGE006
标记为负样本,输入鉴别器D,识别输入来源;
S560:使用对抗性损失为目标函数训练鉴别器D,使得鉴别器对于负样本
Figure 885881DEST_PATH_IMAGE006
判别为0,对于正样本
Figure 486626DEST_PATH_IMAGE004
判别为1,直至鉴别器随机输出0或1,此时
Figure 481127DEST_PATH_IMAGE001
Figure 966466DEST_PATH_IMAGE002
充分融合,输出中间表示
Figure 730023DEST_PATH_IMAGE004
即融合结果;
S600:利用softmax层对融合结果进行情感类别预测。
可选的,在一些实施例中,单词特征向量采用基于双向门控递归单元的文本编辑器提取。
可选的,在一些实施例中,区域特征向量采用基于深度残差网络的图像编码器提取。
可选的,在一些实施例中,步骤S420中,区域和单词间的相似度
Figure 767249DEST_PATH_IMAGE007
ij分别表示区域和单词的编号,S ij 表示区域i与单词j间的相似度,v i 表示区域i的特征向量,
Figure 983467DEST_PATH_IMAGE008
表示单词j的特征向量;所构造的文本上下文特征向量
Figure 6917DEST_PATH_IMAGE009
Figure 624981DEST_PATH_IMAGE001
表示区域i的文本上下文特征向量,exp( )表示e为底的指数函数,n表示文本特征集中单词总数。
可选的,在一些实施例中,步骤S430中,单词和区域间的相似度
Figure 98687DEST_PATH_IMAGE010
ij分别表示区域和单词的编号,
Figure 677567DEST_PATH_IMAGE011
表示单词j与区域i间的相似度,v i 表示区域i的特征向量,
Figure 363764DEST_PATH_IMAGE008
表示单词j的特征向量;所构造的图像上下文特征向量
Figure 101912DEST_PATH_IMAGE012
Figure 480941DEST_PATH_IMAGE002
表示单词j的图像上下文特征向量,exp( )表示e为底的指数函数,k表示图像特征集中区域总数。
可选的,在一些实施例中,对抗性损失
Figure 812697DEST_PATH_IMAGE013
表示为:
Figure 302584DEST_PATH_IMAGE015
其中,
Figure 629660DEST_PATH_IMAGE016
代表正样本服从的概率分布,
Figure 54956DEST_PATH_IMAGE017
代表负样本服从的概率分布,
Figure 733062DEST_PATH_IMAGE018
表示概率密度函数的期望。
相应的,本实施例提供的基于异构空间下多模态对抗融合的情感识别系统,包括:
第一模块,用来获取由文本信息和图像信息构成的多模态数据;
第二模块,用来提取文本信息的单词特征向量,获得文本特征集;
第三模块,用来提取图像信息的区域特征向量,获得图像特征集;
第四模块,用来在异构空间下映射多模态数据;
所述第四模块包括第一子模块、第二子模块、第三子模块;
第一子模块,用来将单词特征向量映射到第一表示空间,将区域特征向量映射到第二表示空间;第一表示空间和第二表示空间分别为基于文本的表示空间和基于图像的表示空间;
第二子模块,用来在第一表示空间分别计算各区域与所有单词间的相似度,基于相似度构造各区域的文本上下文特征向量
Figure 26640DEST_PATH_IMAGE001
第三子模块,用来在第二表示空间分别计算各单词与所有区域间的相似度,基于相似度构造各单词的图像上下文特征向量
Figure 614747DEST_PATH_IMAGE002
第五模块,用来基于对抗学习的自适应融合;
所述第五模块包括第四子模块、第五子模块;
第四子模块用在自动编码器端,用来
Figure 70000DEST_PATH_IMAGE001
Figure 235402DEST_PATH_IMAGE002
输入自动编码器进行融合,得到向量
Figure 67091DEST_PATH_IMAGE003
;对
Figure 509705DEST_PATH_IMAGE003
进行全连接处理,得到中间表示
Figure 135859DEST_PATH_IMAGE004
,并对
Figure 788557DEST_PATH_IMAGE004
编码得
Figure 561953DEST_PATH_IMAGE005
;以
Figure 718128DEST_PATH_IMAGE003
Figure 780762DEST_PATH_IMAGE005
之间的均方误差为自动编码器的目标函数;
第五子模块用在对抗融合网络端,用来选择
Figure 655177DEST_PATH_IMAGE001
Figure 969615DEST_PATH_IMAGE002
传入到对抗融合网络的生成器G进行编码,获得
Figure 511455DEST_PATH_IMAGE006
Figure 744990DEST_PATH_IMAGE004
标记为正样本,
Figure 982067DEST_PATH_IMAGE006
标记为负样本,输入鉴别器D,识别输入来源;使用对抗性损失为目标函数训练鉴别器D,使得鉴别器对于负样本
Figure 959251DEST_PATH_IMAGE006
判别为0,对于正样本
Figure 90018DEST_PATH_IMAGE004
判别为1,直至鉴别器随机输出0或1,此时
Figure 635400DEST_PATH_IMAGE001
Figure 484407DEST_PATH_IMAGE002
充分融合,输出中间表示
Figure 999702DEST_PATH_IMAGE004
即融合结果;
第六模块,用来利用softmax层对融合结果进行情感类别预测。
与现有技术相比,本发明具有如下优点和有益效果:
本发明将异构空间的模态样本映射,用来避免将不同表示的模态映射到共同子空间,充分保留不同模态的语义信息。通过文本单词和图像区域的细粒度注意力交互作用,为后续的融合奠定了更好的基础。同时,本发明设计的对抗性方式学习表示空间会对表示空间产生聚类效应,实现了多元异构数据的互补,融合语义更加丰富且准确。
附图说明
图1为实施例中的方法流程示意图;
图2为对抗融合网络细节示意图。
具体实施方式
下面将结合附图对本发明的具体实施方式做详细说明。显然,所描述的具体实施方式仅仅是本发明的一部分实施例,而不是全部的实施例。基于所描述的具体实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式,都属于本发明保护的范围。
目前多媒体社交平台中信息源丰富,包括但不限于文本信息、图像信息、音频信息等,仅基于其中某一项信息源进行情感识别,识别结果并不准确。本实施例提供的基于异构空间下多模态对抗融合的情感识别方法,则融合文本信息和图像信息来进行情感识别,以获得更加丰富且准确的识别结果。
图1所示为实施例中的方法流程示意图,下面将结合图1提供实施例的具体实施过程。
本发明构建两个表示空间:基于图像的表示空间和基于文本的表示空间,分别使用图像区域和单词作为上下文。为便于描述,后文将基于文本的表示空间和基于图像的表示空间分别记为第一表示空间和第二表示空间。
(一)异构空间的模态样本映射。
本实施例中,使用双向门控递归单元(Bi-GRU)作为文本编码器,来获得文本中每个单词的特征向量,使用深度残差网络(ResNet)作为图像编码器,来获得每个区域的特征向量。将文本的单词特征向量映射到第一表示空间中,第一表示空间通过注意力机制,来关注文本中每一个单词,以此获得每一个单词对应的权重。
具体来说,给定一具有k个区域特征向量v i 的图像特征集V,一具有n个单词特征向量t j 的文本特征集T。利用公式(1)所示的余弦相似矩阵,在第一表示空间计算挖掘所有可能的区域与各单词间的相似度S ij
Figure 250555DEST_PATH_IMAGE019
(1)
式(1)中,ij分别表示区域和单词的编号,
Figure 701259DEST_PATH_IMAGE020
表示第i个区域的特征向量,
Figure 37562DEST_PATH_IMAGE008
表示第j个单词的特征向量;
Figure 356548DEST_PATH_IMAGE021
Figure 602853DEST_PATH_IMAGE022
S ij 表示区域i与单词j间的相似度。
将区域i与文本所有单词进行相似度计算,为区域i构造文本上下文特征向量
Figure 349092DEST_PATH_IMAGE001
Figure 907112DEST_PATH_IMAGE023
(2)
式(1)中,exp( )表示e为底的指数函数。
将图像的区域特征向量映射到第二表示空间中,与公式(1)类似,它通过注意力机制来关注图像中的每一个区域,在第二表示空间,计算所有可能的单词与各区域间的相似度:
Figure 29789DEST_PATH_IMAGE024
(3)
将单词j与所有图像区域进行相似度计算,为单词j构造图像上下文特征向量
Figure 865021DEST_PATH_IMAGE002
Figure 47741DEST_PATH_IMAGE025
(4)
本步骤将文本的单词和图像的区域在两个表示空间的细粒度交互作用,为后续融合奠定基础。
(二)基于对抗学习的自适应融合。
融合网络N选择文本模态或图像模态作为目标模态,另一种模态即辅助模态,本实施例中,以文本模态为目标模态,以图像模态为辅助模态。融合网络N主要由一个自动编码器和一个生成对抗网络组成,见图2。
在自动编码器中:
(1)
Figure 358636DEST_PATH_IMAGE001
Figure 894791DEST_PATH_IMAGE002
为自动编码器的输入,使用concatenate函数对
Figure 709163DEST_PATH_IMAGE001
Figure 62784DEST_PATH_IMAGE002
融合,得到向量
Figure 595397DEST_PATH_IMAGE003
,其维度为2D。
(2)使用全连接层处理
Figure 197892DEST_PATH_IMAGE003
,将其维数减少到原来的1/2,即1D维,即得到中间表示
Figure 866770DEST_PATH_IMAGE004
(3)使用全连接神经网络对
Figure 391293DEST_PATH_IMAGE004
编码,得到
Figure 286568DEST_PATH_IMAGE005
(4)计算
Figure 289159DEST_PATH_IMAGE003
Figure 78123DEST_PATH_IMAGE005
之间的均方误差
Figure 914492DEST_PATH_IMAGE026
,均方误差即自动编码器的目标函数。通过减小均方误差使得
Figure 156117DEST_PATH_IMAGE001
Figure 962399DEST_PATH_IMAGE002
可以更好地融合。
在生成对抗网络中:
(1)将
Figure 871450DEST_PATH_IMAGE001
传入到对抗融合网络的生成器G中进行编码,获得
Figure 347561DEST_PATH_IMAGE027
,本具体实施方式中生成器G使用全连接神经网络。
(2)将
Figure 342062DEST_PATH_IMAGE004
标记为正样本,将
Figure 952035DEST_PATH_IMAGE006
标记为负样本,输入鉴别器D,识别输入来源。用交叉熵损失函数区分样本真伪,即鉴别器输出0,则表示假;输出1,则表示真。鉴别器采用分类器。
(3)采用常规方法初始化生成器参数,使用目标函数
Figure 590958DEST_PATH_IMAGE013
训练鉴别器D。使得鉴别器对于生成器输出的负样本
Figure 362605DEST_PATH_IMAGE006
判别为0,对于正样本
Figure 844402DEST_PATH_IMAGE004
判别为1。重复训练,最终鉴别器随机输出0或1,证明无法区分正样本和负样本,此时
Figure 992486DEST_PATH_IMAGE001
Figure 751495DEST_PATH_IMAGE002
为充分融合。
对抗性损失
Figure 959623DEST_PATH_IMAGE013
表示如下:
Figure 663136DEST_PATH_IMAGE015
(5)
式(5)中,
Figure 224699DEST_PATH_IMAGE016
代表正样本服从的概率分布,
Figure 228427DEST_PATH_IMAGE017
代表负样本服从的概率分布,
Figure 341876DEST_PATH_IMAGE018
表示概率密度函数的期望;
Figure 408053DEST_PATH_IMAGE028
Figure 897940DEST_PATH_IMAGE029
表示鉴别器
Figure 490595DEST_PATH_IMAGE030
的输出。
通过以上操作,即可输出多模态融合表示
Figure 40525DEST_PATH_IMAGE004
,下面通过softmax层对情感类别进行预测,输出情感分类结果y:
Figure 856647DEST_PATH_IMAGE031
(6)
其中,y是文本和图像模态融合后得到的多模态情感分类结果,W和b是 softmax层的权重与偏置,可通过训练得到稳定结果。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人 员可以理解的其他实施方式。

Claims (5)

1.基于异构空间下多模态对抗融合的情感识别方法,其特征是,包括:
S100:获取由文本信息和图像信息构成的多模态数据;
S200:提取文本信息的单词特征向量,获得文本特征集;
S300:提取图像信息的区域特征向量,获得图像特征集;
S400:在异构空间下映射多模态数据,本步骤包括S410-S430:
S410:将单词特征向量映射到第一表示空间,将区域特征向量映射到第二表示空间;第一表示空间和第二表示空间分别为基于文本的表示空间和基于图像的表示空间;
S420:在第一表示空间分别计算各区域与所有单词间的相似度,基于相似度构造各区域的文本上下文特征向量
Figure DEST_PATH_IMAGE002
S430:在第二表示空间分别计算各单词与所有区域间的相似度,基于相似度构造各单词的图像上下文特征向量
Figure DEST_PATH_IMAGE004
步骤S420中,区域和单词间的相似度
Figure DEST_PATH_IMAGE006
ij分别表示区域和单词的编号,
Figure DEST_PATH_IMAGE008
表示区域i与单词j间的相似度,
Figure DEST_PATH_IMAGE010
表示区域i的特征向量,
Figure DEST_PATH_IMAGE012
表示单词j的特征向量;所构造的文本上下文特征向量
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE002A
表示区域i的文本上下文特征向量,exp( )表示e为底的指数函数,n表示文本特征集中单词总数;
步骤S430中,单词和区域间的相似度
Figure DEST_PATH_IMAGE016
ij分别表示区域和单词的编号,
Figure DEST_PATH_IMAGE018
表示单词j与区域i间的相似度,
Figure DEST_PATH_IMAGE010A
表示区域i的特征向量,
Figure DEST_PATH_IMAGE012A
表示单词j的特征向量;所构造的图像上下文特征向量
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE004A
表示单词j的图像上下文特征向量,exp( )表示e为底的指数函数,k表示图像特征集中区域总数;
S500:基于对抗学习的自适应融合,本步骤包括S510-S560:
在自动编码器端:
S510:
Figure DEST_PATH_IMAGE002AA
Figure DEST_PATH_IMAGE004AA
输入自动编码器进行融合,得到向量
Figure DEST_PATH_IMAGE022
S520:对
Figure DEST_PATH_IMAGE022A
进行全连接处理,得到中间表示
Figure DEST_PATH_IMAGE024
,并对
Figure DEST_PATH_IMAGE024A
编码得
Figure DEST_PATH_IMAGE026
S530:以
Figure DEST_PATH_IMAGE022AA
Figure DEST_PATH_IMAGE026A
之间的均方误差为自动编码器的目标函数;
在对抗融合网络端:
S540:选择
Figure DEST_PATH_IMAGE002AAA
Figure DEST_PATH_IMAGE004AAA
传入到对抗融合网络的生成器G进行编码,获得
Figure DEST_PATH_IMAGE028
S550:
Figure DEST_PATH_IMAGE024AA
标记为正样本,
Figure DEST_PATH_IMAGE028A
标记为负样本,输入鉴别器D,识别输入来源;
S560:使用对抗性损失为目标函数训练鉴别器D,使得鉴别器对于负样本
Figure DEST_PATH_IMAGE028AA
判别为0,对于正样本
Figure DEST_PATH_IMAGE024AAA
判别为1,直至鉴别器随机输出0或1,此时
Figure DEST_PATH_IMAGE002AAAA
Figure DEST_PATH_IMAGE004AAAA
充分融合,输出中间表示
Figure DEST_PATH_IMAGE024AAAA
即融合结果;
S600:利用softmax层对融合结果进行情感类别预测。
2.如权利要求1所述的基于异构空间下多模态对抗融合的情感识别方法,其特征是:
所述单词特征向量采用基于双向门控递归单元的文本编辑器提取。
3.如权利要求1所述的基于异构空间下多模态对抗融合的情感识别方法,其特征是:
所述区域特征向量采用基于深度残差网络的图像编码器提取。
4.如权利要求1所述的基于异构空间下多模态对抗融合的情感识别方法,其特征是:
所述对抗性损失
Figure DEST_PATH_IMAGE030
表示为:
Figure DEST_PATH_IMAGE032
其中,
Figure DEST_PATH_IMAGE034
代表正样本服从的概率分布,
Figure DEST_PATH_IMAGE036
代表负样本服从的概率分布,
Figure DEST_PATH_IMAGE038
表示概率密度函数的期望,
Figure DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE042
表示鉴别器
Figure DEST_PATH_IMAGE044
的输出。
5.基于异构空间下多模态对抗融合的情感识别系统,其特征是,包括:
第一模块,用来获取由文本信息和图像信息构成的多模态数据;
第二模块,用来提取文本信息的单词特征向量,获得文本特征集;
第三模块,用来提取图像信息的区域特征向量,获得图像特征集;
第四模块,用来在异构空间下映射多模态数据;
所述第四模块包括第一子模块、第二子模块、第三子模块;
第一子模块,用来将单词特征向量映射到第一表示空间,将区域特征向量映射到第二表示空间;第一表示空间和第二表示空间分别为基于文本的表示空间和基于图像的表示空间;
第二子模块,用来在第一表示空间分别计算各区域与所有单词间的相似度,基于相似度构造各区域的文本上下文特征向量
Figure DEST_PATH_IMAGE002_5A
;区域和单词间的相似度
Figure DEST_PATH_IMAGE006A
ij分别表示区域和单词的编号,
Figure DEST_PATH_IMAGE008A
表示区域i与单词j间的相似度,
Figure DEST_PATH_IMAGE010AA
表示区域i的特征向量,
Figure DEST_PATH_IMAGE012AA
表示单词j的特征向量;所构造的文本上下文特征向量
Figure DEST_PATH_IMAGE014A
Figure DEST_PATH_IMAGE002_6A
表示区域i的文本上下文特征向量,exp( )表示e为底的指数函数,n表示文本特征集中单词总数;
第三子模块,用来在第二表示空间分别计算各单词与所有区域间的相似度,基于相似度构造各单词的图像上下文特征向量
Figure DEST_PATH_IMAGE004_5A
;单词和区域间的相似度
Figure DEST_PATH_IMAGE016A
ij分别表示区域和单词的编号,
Figure DEST_PATH_IMAGE018A
表示单词j与区域i间的相似度,
Figure DEST_PATH_IMAGE010AAA
表示区域i的特征向量,
Figure DEST_PATH_IMAGE012AAA
表示单词j的特征向量;所构造的图像上下文特征向量
Figure DEST_PATH_IMAGE020A
Figure DEST_PATH_IMAGE004_6A
表示单词j的图像上下文特征向量,exp( )表示e为底的指数函数,k表示图像特征集中区域总数;
第五模块,用来基于对抗学习的自适应融合;
所述第五模块包括第四子模块、第五子模块;
第四子模块用在自动编码器端,用来
Figure DEST_PATH_IMAGE002_7A
Figure DEST_PATH_IMAGE004_7A
输入自动编码器进行融合,得到向量
Figure DEST_PATH_IMAGE022AAA
;对
Figure DEST_PATH_IMAGE022AAAA
进行全连接处理,得到中间表示
Figure DEST_PATH_IMAGE024_5A
,并对
Figure DEST_PATH_IMAGE024_6A
编码得
Figure DEST_PATH_IMAGE026AA
;以
Figure DEST_PATH_IMAGE022_5A
Figure DEST_PATH_IMAGE026AAA
之间的均方误差为自动编码器的目标函数;
第五子模块用在对抗融合网络端,用来选择
Figure DEST_PATH_IMAGE002_8A
Figure DEST_PATH_IMAGE004_8A
传入到对抗融合网络的生成器G进行编码,获得
Figure DEST_PATH_IMAGE028AAA
Figure DEST_PATH_IMAGE024_7A
标记为正样本,
Figure DEST_PATH_IMAGE028AAAA
标记为负样本,输入鉴别器D,识别输入来源;使用对抗性损失为目标函数训练鉴别器D,使得鉴别器对于负样本
Figure DEST_PATH_IMAGE028_5A
判别为0,对于正样本
Figure DEST_PATH_IMAGE024_8A
判别为1,直至鉴别器随机输出0或1,此时
Figure DEST_PATH_IMAGE002_9A
Figure DEST_PATH_IMAGE004_9A
充分融合,输出中间表示
Figure DEST_PATH_IMAGE024_9A
即融合结果;
第六模块,用来利用softmax层对融合结果进行情感类别预测。
CN202110884202.7A 2021-08-03 2021-08-03 基于异构空间下多模态对抗融合的情感识别方法及系统 Active CN113326703B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110884202.7A CN113326703B (zh) 2021-08-03 2021-08-03 基于异构空间下多模态对抗融合的情感识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110884202.7A CN113326703B (zh) 2021-08-03 2021-08-03 基于异构空间下多模态对抗融合的情感识别方法及系统

Publications (2)

Publication Number Publication Date
CN113326703A CN113326703A (zh) 2021-08-31
CN113326703B true CN113326703B (zh) 2021-11-16

Family

ID=77426934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110884202.7A Active CN113326703B (zh) 2021-08-03 2021-08-03 基于异构空间下多模态对抗融合的情感识别方法及系统

Country Status (1)

Country Link
CN (1) CN113326703B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818861A (zh) * 2021-02-02 2021-05-18 南京邮电大学 一种基于多模态上下文语义特征的情感分类方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10417498B2 (en) * 2016-12-30 2019-09-17 Mitsubishi Electric Research Laboratories, Inc. Method and system for multi-modal fusion model
WO2019103484A1 (ko) * 2017-11-24 2019-05-31 주식회사 제네시스랩 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체
CN109145712B (zh) * 2018-06-28 2020-10-16 南京邮电大学 一种融合文本信息的gif短视频情感识别方法及系统
CN112101096B (zh) * 2020-08-02 2023-09-22 华南理工大学 一种基于语音和微表情的多模态融合的自杀情绪感知方法
CN113158875B (zh) * 2021-04-16 2022-07-01 重庆邮电大学 基于多模态交互融合网络的图文情感分析方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818861A (zh) * 2021-02-02 2021-05-18 南京邮电大学 一种基于多模态上下文语义特征的情感分类方法及系统

Also Published As

Publication number Publication date
CN113326703A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN110826337B (zh) 一种短文本语义训练模型获取方法及相似度匹配算法
CN114911914B (zh) 一种跨模态图文检索方法
CN110737801A (zh) 内容分类方法、装置、计算机设备和存储介质
CN112800292B (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
CN113255755A (zh) 一种基于异质融合网络的多模态情感分类方法
CN115033670A (zh) 多粒度特征融合的跨模态图文检索方法
CN113792177B (zh) 基于知识引导深度注意力网络的场景文字视觉问答方法
CN114419509B (zh) 一种多模态情感分析方法、装置及电子设备
CN115131638B (zh) 视觉文本预训练模型的训练方法、装置、介质和设备
CN114444516B (zh) 一种基于深度语义感知图卷积网络的粤语谣言检测方法
CN113297370A (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN114722202B (zh) 基于双向双层注意力lstm网络的多模态情感分类方法及系统
CN118334489B (zh) 一种基于对抗式双提示学习的视觉语言模型领域自适应方法、终端机及可读存储介质
CN114970517A (zh) 一种基于多模态交互的上下文感知的面向视觉问答的方法
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
CN111597341A (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN114339450A (zh) 视频评论生成方法、系统、设备及存储介质
CN118468883A (zh) 一种基于互信息与跨模态交互图的多模态在线评论情感分析方法
CN113326703B (zh) 基于异构空间下多模态对抗融合的情感识别方法及系统
CN111651577A (zh) 跨媒体数据关联分析模型训练、数据关联分析方法及系统
CN117708642A (zh) 一种多级融合图像和文本的多模态方面级情感分析方法
CN117349402A (zh) 一种基于机器阅读理解的情绪原因对识别方法及系统
CN116108856A (zh) 基于长短回路认知与显隐情感交互的情感识别方法及系统
CN113792167B (zh) 一种基于注意力机制和模态依赖的跨媒体交叉检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant