CN115063709A - 基于跨模态注意与分层融合的多模态情感分析方法及系统 - Google Patents
基于跨模态注意与分层融合的多模态情感分析方法及系统 Download PDFInfo
- Publication number
- CN115063709A CN115063709A CN202210390047.8A CN202210390047A CN115063709A CN 115063709 A CN115063709 A CN 115063709A CN 202210390047 A CN202210390047 A CN 202210390047A CN 115063709 A CN115063709 A CN 115063709A
- Authority
- CN
- China
- Prior art keywords
- modal
- features
- attention
- cross
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 56
- 230000004927 fusion Effects 0.000 title claims abstract description 53
- 238000004458 analytical method Methods 0.000 title claims abstract description 45
- 230000000007 visual effect Effects 0.000 claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 29
- 230000003993 interaction Effects 0.000 claims abstract description 12
- 239000000284 extract Substances 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 230000007246 mechanism Effects 0.000 claims abstract description 5
- 238000012512 characterization method Methods 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 241001522296 Erithacus rubecula Species 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000002195 synergetic effect Effects 0.000 abstract description 4
- 239000011159 matrix material Substances 0.000 description 7
- 239000000126 substance Substances 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了基于跨模态注意与分层融合的多模态情感分析方法及系统,提取待分析视频中的文本特征、视觉特征和声学特征;将文本特征与声学特征、文本特征与视觉特征交叉注意,获得声学模态表征和视觉模态表征;门控循环分层融合网络对声学模态表征、视觉模态表征和文本特征两两交互提取信息,得到一维向量,用于情感分析预测;本发明基于分布匹配思想,使模态在时间交互阶段获得对整体情感取向具有协同作用的表征信息,对三个特征对组合进行模态间交互信息提取,并通过门控机制剔除冗余信息,以实现有效的多模态表征融合。
Description
技术领域
本发明属于领域,尤其涉及基于跨模态注意与分层融合的多模态情感分析方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
每天,我们身边会产生庞大而有意义的信息,这些信息大多数在网络中产生,而社交媒体又是网络中信息的集中地带,其中涵盖许多与我们生活密切相关的话题、观点、情感和情绪。多模态情感分析(MSA)一直是自然语言处理中活跃的分支领域,广泛应用于政府选举、智慧医疗和聊天机器人推荐等领域。相较于传统情感分析,MSA利用多种信号源(摘录的原始文本、声学以及视觉)对特定对象在特定时间段内表达的情感进行预测。MSA的两个挑战:1)如何对不同模式之间的互动进行建模,特别是互补性和补充性信息(supplementaryand complementary information);2)在视觉和听觉模式中的缺失值、错位等情况下的数据的融合。
最近几年,研究人员设计了复杂的融合模型;Zadeh等人设计了张量融合网络,利用笛卡尔积融合三种模态的特征向量;Tasi等人设计了多模态transformer,将所有模态一并进行处理,以得到预测的情感分数;虽然这些方法取得了不错的效果,但也存在一个不容忽视的问题:忽略了不同模态之间的差异性,导致在模态表征获取阶段损失关键预测信息;Hazarika等人设计了一种模态特定和模态不变的特征空间,将两种类型的表示结合几种损失,借助距离等评估模型效果;Yu等人使用多任务形式,在训练阶段引入模态标签自动生成模块,以辅助主任务通道,节省了人工标注时间,进而提高效率;虽然这些研究取得了令人振奋的结果,但他们缺乏在模态融合阶段的模态间信息交互,导致冗余信息被保留至最终预测阶段,影响模型性能和准确性。
发明内容
为克服上述现有技术的不足,本发明提供了基于跨模态注意与分层融合的多模态情感分析方法及系统,使模态在时间交互阶段获得对整体情感取向具有协同作用的表征信息,对三个表征进行模态间交互信息提取,并通过门控机制剔除冗余信息,以实现有效的多模态表征融合,从而改善融合结果,提高情感分析的准确性。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
本发明第一方面提供了基于跨模态注意与分层融合的多模态情感分析方法;
基于跨模态注意与分层融合的多模态情感分析方法,包括:
提取待分析视频中的文本特征、视觉特征和声学特征;
将文本特征与声学特征、文本特征与视觉特征交叉注意,获得声学模态表征和视觉模态表征;
门控循环分层融合网络对声学模态表征、视觉模态表征和文本特征两两交互提取信息,得到一维向量;
将一维向量作为情感得分,进行情感标签预测,得到分析结果。
进一步的,使用预先训练的12层BERT从待分析视频中提取文本特征;
选择BERT最后一层的第一个词向量作为最终提取的文本特征。
进一步的,所述声学特征和视觉特征,使用预先训练的工具包对待分析视频进行处理,获得初始的视觉特征和声学特征,具体步骤为:
通过一维时间卷积获取声学特征和视觉特征;
将时间信息通过位置嵌入到特征中。
进一步的,所述交叉注意,是将文本特征分别与声学特征和视觉特征进行跨模态交叉融合,提取感兴趣的特征。
进一步的,交叉注意的具体步骤为:
并行注意力计算,对声学、视觉特征的Query向量和文本特征的Key和Value向量进行逻辑回归;
获取头部,对并行注意力的输出进行加权平均;
拼接所有头部,进行多头自注意力连接,得到声学模态表征和视觉模态表征。
进一步的,声学模态表征、视觉模态表征和文本特征两两拼接,输入到双向门控循环网络中,不同模态信息充分交互,通过门控机制有效剔除表征中的冗余信息和不相关信息,得到三种表征。
进一步的,用两层的RELU激活函数对拼接后的三种表征进行处理,得到最终的一维向量,用于情感分析预测。
本发明第二方面提供了基于跨模态注意与分层融合的多模态情感分析系统。
基于跨模态注意与分层融合的多模态情感分析系统,包括:特征提取模块、交叉注意模块和门控循环分层融合网络模块;
特征提取模块,被配置为:提取待分析视频中的文本特征、视觉特征和声学特征;
交叉注意模块,被配置为:将文本特征与声学特征、文本特征与视觉特征交叉注意,获得声学模态表征和视觉模态表征;
门控循环分层融合网络模块,被配置为:门控循环分层融合网络对声学模态表征、视觉模态表征和文本特征两两交互提取信息,得到一维向量。
分析预测模块,将一维向量作为情感得分,进行情感标签预测,得到分析结果。
本发明第三方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的基于跨模态注意与分层融合的多模态情感分析方法中的步骤。
本发明第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的基于跨模态注意与分层融合的多模态情感分析方法中的步骤。
以上一个或多个技术方案存在以下有益效果:
本发明基于分布匹配思想,使模态在时间交互阶段获得对整体情感取向具有协同作用的表征信息,对3个双峰对组合进行模态间交互信息提取,并通过门控机制剔除冗余信息,以实现有效的多模态表征融合。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为第一个实施例的方法流程图;
图2为第一个实施例的分层门控循环网络;
图3为第二个实施例的系统结构图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明提出的总体思路:
基于视频中文本、视觉和声学三个模态进行情感分析,首先提取三个特征后,将文本分别与视觉和声学进行交叉注意,获取模态之间的差异性,然后对三个特征进行两两拼接融合,提取模态间交互信息,剔除冗余信息,得到的完善准确融合信息,输入到RELU激活函数,得到情感得分。
实施例一
本实施例公开了基于跨模态注意与分层融合的多模态情感分析方法;
如图1所示,基于跨模态注意与分层融合的多模态情感分析方法,包括:
S1:提取待分析视频中的文本特征、视觉特征和声学特征;
S2:将文本特征与声学特征、文本特征与视觉特征交叉注意,获得声学模态表征和视觉模态表征;
S3:门控循环分层融合网络对声学模态表征、视觉模态表征和文本特征两两交互提取信息,得到一维向量;
S4:将一维向量作为情感得分,进行情感标签预测,得到分析结果。
S1步骤中,先从待分析的视频中获取文本序列、视频序列和音频序列,然后分别输入到文本通道、视频通道和音频通道中提取特征:
文本通道,采用预先训练的BERT对其高维语义进行提取,选择最后一层的第一个词向量ft作为最终提取的特征,公式如下:
声学与视觉通道,使用预先训练的工具包对原始数据进行处理,学习足够感知与时间信息,获得初始的向量特征,具体步骤为:
1)一维时间卷积:将初始序列送入一维时间卷积,公式如下:
其中,Conv1D(·)是一维时间卷积函数,km是模态m使用的卷积核的大小,Um是m模态的输入序列,d是公共维度,Tm表示模态m的话语长度,m∈{a,v},a是声学模态,v是视觉模态。
S2步骤中,对提取的特征进行跨模态交叉注意,获取声学和视觉模态的潜在表征信息,对整体情感取向具有协同作用,具体步骤为:
1)并行注意力计算,对声学、视觉特征的Query向量和文本特征的Key和Value向量进行逻辑回归,公式如下:
其中Qa,Qv分别代表声学、视觉模态的Query向量,Kt、Vt分别代表文本模态的Key和Value向量,softmax(·)代表softmax函数,dh代表模态的维度,T表示转置。
2)获取头部,对并行注意力的输出进行加权平均;每个注意力的输出被称为头部head,第i个头部的计算公式为:
3)拼接所有头部,进行多头自注意力连接,得到声学模态表征和视觉模态表征,公式如下:
S3步骤,即通过门控循环分层融合网络得到完整准确的一维向量;以往的研究,在获取到有效的表征之后,大多数直接将模态表征进行拼接以用于最终预测,这其中会将冗余信息添加进来,影响最终的预测结果。为了让表征中的冗余信息被有效剔除,如图2所示,本发明设计了一个门控循环融合网络,对三种表征的两两组合进行处理,并送入门控循环分层融合网络中,以获取三个特征对之间的交互信息,具体步骤如下:
1)将得到的三种模态表征两两组合,公式如下:
2)送入双向门控循环网络中,得到三种交互表征,公式如下:
其中,Bi-GRU(·)代表双向门控循环单元网络,θgru表示门控循环单元网络的超参数。
fs=concat(ft-a,ft-v,fa-v) (16)
S4步骤中,将一维向量y′作为情感得分,进行情感标签预测,得到分析结果。
优选的,标签得分规则设定为:情感得分为(0-3]时,是积极情感;得分为[-3-0)时,是消极情感;当得分为0时,为中性情感。
实施例二
本实施例公开了基于跨模态注意与分层融合的多模态情感分析系统;
如图3所示,基于跨模态注意与分层融合的多模态情感分析系统,包括:特征提取模块、交叉注意模块,门控循环分层融合网络模块和分析预测模块;
特征提取模块,被配置为:提取待分析视频中的文本特征、视觉特征和声学特征;
交叉注意模块,被配置为:将文本特征与声学特征、文本特征与视觉特征交叉注意,获得声学模态表征和视觉模态表征;
门控循环分层融合网络模块,被配置为:门控循环分层融合网络对声学模态表征、视觉模态表征和文本特征两两交互提取信息,得到一维向量。
分析预测模块,被配置为:将一维向量作为情感得分,进行情感标签预测,得到分析结果。
实施例三
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例1所述的基于跨模态注意与分层融合的多模态情感分析方法中的步骤。
实施例四
本实施例的目的是提供一种电子设备。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1所述的基于跨模态注意与分层融合的多模态情感分析方法中的步骤。
以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.基于跨模态注意与分层融合的多模态情感分析方法,其特征在于,
提取待分析视频中的文本特征、视觉特征和声学特征;
将文本特征与声学特征、文本特征与视觉特征交叉注意,获得声学模态表征和视觉模态表征;
门控循环分层融合网络对声学模态表征、视觉模态表征和文本特征两两交互提取信息,得到一维向量;
将一维向量作为情感得分,进行情感标签预测,得到分析结果。
2.如权利要求1所述的基于跨模态注意与分层融合的多模态情感分析方法,其特征在于,使用预先训练的12层BERT从待分析视频中提取文本特征;
选择BERT最后一层的第一个词向量作为最终提取的文本特征。
3.如权利要求1所述的基于跨模态注意与分层融合的多模态情感分析方法,其特征在于,所述声学特征和视觉特征,使用预先训练的工具包对待分析视频进行处理,获得初始的视觉特征和声学特征,具体步骤为:
通过一维时间卷积获取声学特征和视觉特征;
将位置信息嵌入到特征中。
4.如权利要求1所述的基于跨模态注意与分层融合的多模态情感分析方法,其特征在于,所述交叉注意,是将文本特征分别与声学特征和视觉特征进行跨模态交叉融合,提取感兴趣的特征。
5.如权利要求1所述的基于跨模态注意与分层融合的多模态情感分析方法,其特征在于,交叉注意的具体步骤为:
并行注意力计算,对声学、视觉特征的Query向量和文本特征的Key和Value向量进行逻辑回归;
获取头部,对并行注意力的输出进行加权平均;
拼接所有头部,进行多头自注意力连接,得到声学模态表征和视觉模态表征。
6.如权利要求1所述的基于跨模态注意与分层融合的多模态情感分析方法,其特征在于,声学模态表征、视觉模态表征和文本特征两两拼接,输入到双向门控循环网络中,不同模态信息充分交互,通过门控机制有效剔除表征中的冗余信息和不相关信息,得到三种交互表征。
7.如权利要求1所述的基于跨模态注意与分层融合的多模态情感分析方法,其特征在于,用两层的RELU激活函数对拼接后的三种交互表征进行处理,得到最终的一维向量,用于情感分析预测。
8.基于跨模态注意与分层融合的多模态情感分析系统,其特征在于:包括:特征提取模块、交叉注意模块和门控循环分层融合网络模块;
特征提取模块,被配置为:提取待分析视频中的文本特征、视觉特征和声学特征;
交叉注意模块,被配置为:将文本特征与声学特征、文本特征与视觉特征交叉注意,获得声学模态表征和视觉模态表征;
门控循环分层融合网络模块,被配置为:门控循环分层融合网络对声学模态表征、视觉模态表征和文本特征两两交互提取信息,得到一维向量;
分析预测模块,将一维向量作为情感得分,进行情感标签预测,得到分析结果。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的基于跨模态注意与分层融合的多模态情感分析方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于跨模态注意与分层融合的多模态情感分析方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210390047.8A CN115063709A (zh) | 2022-04-14 | 2022-04-14 | 基于跨模态注意与分层融合的多模态情感分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210390047.8A CN115063709A (zh) | 2022-04-14 | 2022-04-14 | 基于跨模态注意与分层融合的多模态情感分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115063709A true CN115063709A (zh) | 2022-09-16 |
Family
ID=83196591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210390047.8A Pending CN115063709A (zh) | 2022-04-14 | 2022-04-14 | 基于跨模态注意与分层融合的多模态情感分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115063709A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115544279A (zh) * | 2022-10-11 | 2022-12-30 | 合肥工业大学 | 一种基于协同注意力的多模态情感分类方法及其应用 |
CN115983280A (zh) * | 2023-01-31 | 2023-04-18 | 烟台大学 | 面向不确定模态缺失的多模态情感分析方法及系统 |
CN116563751A (zh) * | 2023-04-19 | 2023-08-08 | 湖北工业大学 | 一种基于注意力机制的多模态情感分析方法及系统 |
-
2022
- 2022-04-14 CN CN202210390047.8A patent/CN115063709A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115544279A (zh) * | 2022-10-11 | 2022-12-30 | 合肥工业大学 | 一种基于协同注意力的多模态情感分类方法及其应用 |
CN115544279B (zh) * | 2022-10-11 | 2024-01-26 | 合肥工业大学 | 一种基于协同注意力的多模态情感分类方法及其应用 |
CN115983280A (zh) * | 2023-01-31 | 2023-04-18 | 烟台大学 | 面向不确定模态缺失的多模态情感分析方法及系统 |
CN115983280B (zh) * | 2023-01-31 | 2023-08-15 | 烟台大学 | 面向不确定模态缺失的多模态情感分析方法及系统 |
CN116563751A (zh) * | 2023-04-19 | 2023-08-08 | 湖北工业大学 | 一种基于注意力机制的多模态情感分析方法及系统 |
CN116563751B (zh) * | 2023-04-19 | 2024-02-06 | 湖北工业大学 | 一种基于注意力机制的多模态情感分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Luo et al. | A critical review of state‐of‐the‐art chatbot designs and applications | |
RU2747425C2 (ru) | Система ответа на вопросы из разных областей знаний в режиме реального времени | |
Wu et al. | Multimodal large language models: A survey | |
CN115063709A (zh) | 基于跨模态注意与分层融合的多模态情感分析方法及系统 | |
CN114398961A (zh) | 一种基于多模态深度特征融合的视觉问答方法及其模型 | |
Lin et al. | Chunk-level speech emotion recognition: A general framework of sequence-to-one dynamic temporal modeling | |
US20220092441A1 (en) | Training method and apparatus, dialogue processing method and system, and medium | |
US20230394247A1 (en) | Human-machine collaborative conversation interaction system and method | |
CN110795549B (zh) | 短文本对话方法、装置、设备及存储介质 | |
Guo et al. | Sparse co-attention visual question answering networks based on thresholds | |
CN111460132A (zh) | 一种基于图卷积神经网络的生成式会议摘要方法 | |
CN114417097A (zh) | 一种基于时间卷积与自注意力的情感预测方法及系统 | |
Huang et al. | Developing context-aware dialoguing services for a cloud-based robotic system | |
Mai et al. | A unimodal representation learning and recurrent decomposition fusion structure for utterance-level multimodal embedding learning | |
Chandiok et al. | CIT: Integrated cognitive computing and cognitive agent technologies based cognitive architecture for human-like functionality in artificial systems | |
Chauhan et al. | Analysis of Intelligent movie recommender system from facial expression | |
Aattouri et al. | Modeling of an artificial intelligence based enterprise callbot with natural language processing and machine learning algorithms | |
Lin et al. | Dynamically shifting multimodal representations via hybrid-modal attention for multimodal sentiment analysis | |
Muangnak et al. | The neural network conversation model enables the commonly asked student query agents | |
CN115408500A (zh) | 问答一致性的评估方法、装置、电子设备及介质 | |
M'Charrak | Deep learning for natural language processing (nlp) using variational autoencoders (vae) | |
CN114840697B (zh) | 一种云服务机器人的视觉问答方法及系统 | |
CN116089618B (zh) | 融合三元损失和标签嵌入的图注意力网络文本分类模型 | |
CN118035945B (zh) | 一种标签识别模型的处理方法和相关装置 | |
Zhao et al. | Beyond Words: An Intelligent Human‐Machine Dialogue System with Multimodal Generation and Emotional Comprehension |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |