CN113326703B - 基于异构空间下多模态对抗融合的情感识别方法及系统 - Google Patents
基于异构空间下多模态对抗融合的情感识别方法及系统 Download PDFInfo
- Publication number
- CN113326703B CN113326703B CN202110884202.7A CN202110884202A CN113326703B CN 113326703 B CN113326703 B CN 113326703B CN 202110884202 A CN202110884202 A CN 202110884202A CN 113326703 B CN113326703 B CN 113326703B
- Authority
- CN
- China
- Prior art keywords
- feature vector
- space
- module
- words
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 44
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 63
- 238000013507 mapping Methods 0.000 claims abstract description 14
- 230000008451 emotion Effects 0.000 claims abstract description 10
- 230000003044 adaptive effect Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims 1
- 230000003042 antagnostic effect Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000011541 reaction mixture Substances 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于异构空间下多模态对抗融合的情感识别方法及系统,该方法包括:S100:获取由文本信息和图像信息构成的多模态数据;S200:提取文本信息的单词特征向量,获得文本特征集;S300:提取图像信息的区域特征向量,获得图像特征集;S400:在异构空间下映射多模态数据;S500:基于对抗学习的自适应融合;S600:利用softmax层对融合结果进行情感类别预测。本发明实现了情感识别中多元异构数据的互补,可获得更加丰富且准确的情感识别结果。
Description
技术领域
本发明涉及情感识别技术领域,具体为基于异构空间下多模态对抗融合的情感识别方法及系统。
背景技术
大数据是多源异构的,在信息技术飞速发展的今天,多模态数据已成为近来数据资源的主要形式。自然现象具有的丰富特征,因此单一模态的信息往往难以提供对感兴趣的现象的完整知识。因此,如何融合每一模态的信息,就成为了多个领域所广泛存在的新挑战。多模态融合可以提供互补信息,提高整体决策的准确性。现有的多模态融合方法将不同模态的数据从各自独立的表示空间映射到一个第三方的公共空间中,这样不可避免地会丢失模态的语义信息,进而影响融合效果。并且当前的模型在融合阶段并没有充分考虑模态间的交互作用,无法在表示空间产生更好的聚类效果。
特别是在情感识别领域,目前大多基于文本信息识别情感,但当文本信息包含讽刺含义,可能导致情感识别不准;在多媒体网络中,表情图像被广泛使用,可以考虑结合表情图像来辅助文本信息识别情感。
发明内容
本发明的目的是提供基于异构空间下多模态对抗融合的情感识别方法及系统,该方法和系统构建异构空间将文本信息和图像信息进行对抗融合,再基于融合后的信息进行识别情感。
本实施例提供的基于异构空间下多模态对抗融合的情感识别方法,包括:
S100:获取由文本信息和图像信息构成的多模态数据;
S200:提取文本信息的单词特征向量,获得文本特征集;
S300:提取图像信息的区域特征向量,获得图像特征集;
S400:在异构空间下映射多模态数据,本步骤包括S410-S430:
S410:将单词特征向量映射到第一表示空间,将区域特征向量映射到第二表示空间;第一表示空间和第二表示空间分别为基于文本的表示空间和基于图像的表示空间;
S500:基于对抗学习的自适应融合,本步骤包括S510-S560:
在自动编码器端:
在对抗融合网络端:
S600:利用softmax层对融合结果进行情感类别预测。
可选的,在一些实施例中,单词特征向量采用基于双向门控递归单元的文本编辑器提取。
可选的,在一些实施例中,区域特征向量采用基于深度残差网络的图像编码器提取。
可选的,在一些实施例中,步骤S420中,区域和单词间的相似度,i、j分别表示区域和单词的编号,S ij 表示区域i与单词j间的相似度,v i 表示区域i的特征向量,表示单词j的特征向量;所构造的文本上下文特征向量,表示区域i的文本上下文特征向量,exp( )表示e为底的指数函数,n表示文本特征集中单词总数。
可选的,在一些实施例中,步骤S430中,单词和区域间的相似度,i、j分别表示区域和单词的编号,表示单词j与区域i间的相似度,v i 表示区域i的特征向量,表示单词j的特征向量;所构造的图像上下文特征向量,表示单词j的图像上下文特征向量,exp( )表示e为底的指数函数,k表示图像特征集中区域总数。
相应的,本实施例提供的基于异构空间下多模态对抗融合的情感识别系统,包括:
第一模块,用来获取由文本信息和图像信息构成的多模态数据;
第二模块,用来提取文本信息的单词特征向量,获得文本特征集;
第三模块,用来提取图像信息的区域特征向量,获得图像特征集;
第四模块,用来在异构空间下映射多模态数据;
所述第四模块包括第一子模块、第二子模块、第三子模块;
第一子模块,用来将单词特征向量映射到第一表示空间,将区域特征向量映射到第二表示空间;第一表示空间和第二表示空间分别为基于文本的表示空间和基于图像的表示空间;
第五模块,用来基于对抗学习的自适应融合;
所述第五模块包括第四子模块、第五子模块;
第五子模块用在对抗融合网络端,用来选择或传入到对抗融合网络的生成器G进行编码,获得;标记为正样本,标记为负样本,输入鉴别器D,识别输入来源;使用对抗性损失为目标函数训练鉴别器D,使得鉴别器对于负样本判别为0,对于正样本判别为1,直至鉴别器随机输出0或1,此时和充分融合,输出中间表示即融合结果;
第六模块,用来利用softmax层对融合结果进行情感类别预测。
与现有技术相比,本发明具有如下优点和有益效果:
本发明将异构空间的模态样本映射,用来避免将不同表示的模态映射到共同子空间,充分保留不同模态的语义信息。通过文本单词和图像区域的细粒度注意力交互作用,为后续的融合奠定了更好的基础。同时,本发明设计的对抗性方式学习表示空间会对表示空间产生聚类效应,实现了多元异构数据的互补,融合语义更加丰富且准确。
附图说明
图1为实施例中的方法流程示意图;
图2为对抗融合网络细节示意图。
具体实施方式
下面将结合附图对本发明的具体实施方式做详细说明。显然,所描述的具体实施方式仅仅是本发明的一部分实施例,而不是全部的实施例。基于所描述的具体实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式,都属于本发明保护的范围。
目前多媒体社交平台中信息源丰富,包括但不限于文本信息、图像信息、音频信息等,仅基于其中某一项信息源进行情感识别,识别结果并不准确。本实施例提供的基于异构空间下多模态对抗融合的情感识别方法,则融合文本信息和图像信息来进行情感识别,以获得更加丰富且准确的识别结果。
图1所示为实施例中的方法流程示意图,下面将结合图1提供实施例的具体实施过程。
本发明构建两个表示空间:基于图像的表示空间和基于文本的表示空间,分别使用图像区域和单词作为上下文。为便于描述,后文将基于文本的表示空间和基于图像的表示空间分别记为第一表示空间和第二表示空间。
(一)异构空间的模态样本映射。
本实施例中,使用双向门控递归单元(Bi-GRU)作为文本编码器,来获得文本中每个单词的特征向量,使用深度残差网络(ResNet)作为图像编码器,来获得每个区域的特征向量。将文本的单词特征向量映射到第一表示空间中,第一表示空间通过注意力机制,来关注文本中每一个单词,以此获得每一个单词对应的权重。
具体来说,给定一具有k个区域特征向量v i 的图像特征集V,一具有n个单词特征向量t j 的文本特征集T。利用公式(1)所示的余弦相似矩阵,在第一表示空间计算挖掘所有可能的区域与各单词间的相似度S ij :
式(1)中,exp( )表示e为底的指数函数。
将图像的区域特征向量映射到第二表示空间中,与公式(1)类似,它通过注意力机制来关注图像中的每一个区域,在第二表示空间,计算所有可能的单词与各区域间的相似度:
本步骤将文本的单词和图像的区域在两个表示空间的细粒度交互作用,为后续融合奠定基础。
(二)基于对抗学习的自适应融合。
融合网络N选择文本模态或图像模态作为目标模态,另一种模态即辅助模态,本实施例中,以文本模态为目标模态,以图像模态为辅助模态。融合网络N主要由一个自动编码器和一个生成对抗网络组成,见图2。
在自动编码器中:
在生成对抗网络中:
(3)采用常规方法初始化生成器参数,使用目标函数训练鉴别器D。使得鉴别器对于生成器输出的负样本判别为0,对于正样本判别为1。重复训练,最终鉴别器随机输出0或1,证明无法区分正样本和负样本,此时和为充分融合。
其中,y是文本和图像模态融合后得到的多模态情感分类结果,W和b是 softmax层的权重与偏置,可通过训练得到稳定结果。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人 员可以理解的其他实施方式。
Claims (5)
1.基于异构空间下多模态对抗融合的情感识别方法,其特征是,包括:
S100:获取由文本信息和图像信息构成的多模态数据;
S200:提取文本信息的单词特征向量,获得文本特征集;
S300:提取图像信息的区域特征向量,获得图像特征集;
S400:在异构空间下映射多模态数据,本步骤包括S410-S430:
S410:将单词特征向量映射到第一表示空间,将区域特征向量映射到第二表示空间;第一表示空间和第二表示空间分别为基于文本的表示空间和基于图像的表示空间;
步骤S420中,区域和单词间的相似度,i、j分别表示区域和单词的编号,表示区域i与单词j间的相似度,表示区域i的特征向量,表示单词j的特征向量;所构造的文本上下文特征向量,表示区域i的文本上下文特征向量,exp( )表示e为底的指数函数,n表示文本特征集中单词总数;
步骤S430中,单词和区域间的相似度,i、j分别表示区域和单词的编号,表示单词j与区域i间的相似度,表示区域i的特征向量,表示单词j的特征向量;所构造的图像上下文特征向量,表示单词j的图像上下文特征向量,exp( )表示e为底的指数函数,k表示图像特征集中区域总数;
S500:基于对抗学习的自适应融合,本步骤包括S510-S560:
在自动编码器端:
在对抗融合网络端:
S600:利用softmax层对融合结果进行情感类别预测。
2.如权利要求1所述的基于异构空间下多模态对抗融合的情感识别方法,其特征是:
所述单词特征向量采用基于双向门控递归单元的文本编辑器提取。
3.如权利要求1所述的基于异构空间下多模态对抗融合的情感识别方法,其特征是:
所述区域特征向量采用基于深度残差网络的图像编码器提取。
5.基于异构空间下多模态对抗融合的情感识别系统,其特征是,包括:
第一模块,用来获取由文本信息和图像信息构成的多模态数据;
第二模块,用来提取文本信息的单词特征向量,获得文本特征集;
第三模块,用来提取图像信息的区域特征向量,获得图像特征集;
第四模块,用来在异构空间下映射多模态数据;
所述第四模块包括第一子模块、第二子模块、第三子模块;
第一子模块,用来将单词特征向量映射到第一表示空间,将区域特征向量映射到第二表示空间;第一表示空间和第二表示空间分别为基于文本的表示空间和基于图像的表示空间;
第二子模块,用来在第一表示空间分别计算各区域与所有单词间的相似度,基于相似度构造各区域的文本上下文特征向量;区域和单词间的相似度,i、j分别表示区域和单词的编号,表示区域i与单词j间的相似度,表示区域i的特征向量,表示单词j的特征向量;所构造的文本上下文特征向量,表示区域i的文本上下文特征向量,exp( )表示e为底的指数函数,n表示文本特征集中单词总数;
第三子模块,用来在第二表示空间分别计算各单词与所有区域间的相似度,基于相似度构造各单词的图像上下文特征向量;单词和区域间的相似度,i、j分别表示区域和单词的编号,表示单词j与区域i间的相似度,表示区域i的特征向量,表示单词j的特征向量;所构造的图像上下文特征向量,表示单词j的图像上下文特征向量,exp( )表示e为底的指数函数,k表示图像特征集中区域总数;
第五模块,用来基于对抗学习的自适应融合;
所述第五模块包括第四子模块、第五子模块;
第五子模块用在对抗融合网络端,用来选择或传入到对抗融合网络的生成器G进行编码,获得;标记为正样本,标记为负样本,输入鉴别器D,识别输入来源;使用对抗性损失为目标函数训练鉴别器D,使得鉴别器对于负样本判别为0,对于正样本判别为1,直至鉴别器随机输出0或1,此时和充分融合,输出中间表示即融合结果;
第六模块,用来利用softmax层对融合结果进行情感类别预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110884202.7A CN113326703B (zh) | 2021-08-03 | 2021-08-03 | 基于异构空间下多模态对抗融合的情感识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110884202.7A CN113326703B (zh) | 2021-08-03 | 2021-08-03 | 基于异构空间下多模态对抗融合的情感识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113326703A CN113326703A (zh) | 2021-08-31 |
CN113326703B true CN113326703B (zh) | 2021-11-16 |
Family
ID=77426934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110884202.7A Active CN113326703B (zh) | 2021-08-03 | 2021-08-03 | 基于异构空间下多模态对抗融合的情感识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113326703B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818861A (zh) * | 2021-02-02 | 2021-05-18 | 南京邮电大学 | 一种基于多模态上下文语义特征的情感分类方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10417498B2 (en) * | 2016-12-30 | 2019-09-17 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for multi-modal fusion model |
WO2019103484A1 (ko) * | 2017-11-24 | 2019-05-31 | 주식회사 제네시스랩 | 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체 |
CN109145712B (zh) * | 2018-06-28 | 2020-10-16 | 南京邮电大学 | 一种融合文本信息的gif短视频情感识别方法及系统 |
CN112101096B (zh) * | 2020-08-02 | 2023-09-22 | 华南理工大学 | 一种基于语音和微表情的多模态融合的自杀情绪感知方法 |
CN113158875B (zh) * | 2021-04-16 | 2022-07-01 | 重庆邮电大学 | 基于多模态交互融合网络的图文情感分析方法及系统 |
-
2021
- 2021-08-03 CN CN202110884202.7A patent/CN113326703B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818861A (zh) * | 2021-02-02 | 2021-05-18 | 南京邮电大学 | 一种基于多模态上下文语义特征的情感分类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113326703A (zh) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN110826337B (zh) | 一种短文本语义训练模型获取方法及相似度匹配算法 | |
CN114911914B (zh) | 一种跨模态图文检索方法 | |
CN110737801A (zh) | 内容分类方法、装置、计算机设备和存储介质 | |
CN112800292B (zh) | 一种基于模态特定和共享特征学习的跨模态检索方法 | |
CN113255755A (zh) | 一种基于异质融合网络的多模态情感分类方法 | |
CN115033670A (zh) | 多粒度特征融合的跨模态图文检索方法 | |
CN113792177B (zh) | 基于知识引导深度注意力网络的场景文字视觉问答方法 | |
CN114419509B (zh) | 一种多模态情感分析方法、装置及电子设备 | |
CN115131638B (zh) | 视觉文本预训练模型的训练方法、装置、介质和设备 | |
CN114444516B (zh) | 一种基于深度语义感知图卷积网络的粤语谣言检测方法 | |
CN113297370A (zh) | 基于多交互注意力的端到端多模态问答方法及系统 | |
CN114722202B (zh) | 基于双向双层注意力lstm网络的多模态情感分类方法及系统 | |
CN118334489B (zh) | 一种基于对抗式双提示学习的视觉语言模型领域自适应方法、终端机及可读存储介质 | |
CN114970517A (zh) | 一种基于多模态交互的上下文感知的面向视觉问答的方法 | |
CN113627550A (zh) | 一种基于多模态融合的图文情感分析方法 | |
CN111597341A (zh) | 一种文档级关系抽取方法、装置、设备及存储介质 | |
CN114339450A (zh) | 视频评论生成方法、系统、设备及存储介质 | |
CN118468883A (zh) | 一种基于互信息与跨模态交互图的多模态在线评论情感分析方法 | |
CN113326703B (zh) | 基于异构空间下多模态对抗融合的情感识别方法及系统 | |
CN111651577A (zh) | 跨媒体数据关联分析模型训练、数据关联分析方法及系统 | |
CN117708642A (zh) | 一种多级融合图像和文本的多模态方面级情感分析方法 | |
CN117349402A (zh) | 一种基于机器阅读理解的情绪原因对识别方法及系统 | |
CN116108856A (zh) | 基于长短回路认知与显隐情感交互的情感识别方法及系统 | |
CN113792167B (zh) | 一种基于注意力机制和模态依赖的跨媒体交叉检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |