CN115063709A - 基于跨模态注意与分层融合的多模态情感分析方法及系统 - Google Patents

基于跨模态注意与分层融合的多模态情感分析方法及系统 Download PDF

Info

Publication number
CN115063709A
CN115063709A CN202210390047.8A CN202210390047A CN115063709A CN 115063709 A CN115063709 A CN 115063709A CN 202210390047 A CN202210390047 A CN 202210390047A CN 115063709 A CN115063709 A CN 115063709A
Authority
CN
China
Prior art keywords
modal
features
attention
cross
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210390047.8A
Other languages
English (en)
Inventor
孙涛
权志邦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN202210390047.8A priority Critical patent/CN115063709A/zh
Publication of CN115063709A publication Critical patent/CN115063709A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了基于跨模态注意与分层融合的多模态情感分析方法及系统,提取待分析视频中的文本特征、视觉特征和声学特征;将文本特征与声学特征、文本特征与视觉特征交叉注意,获得声学模态表征和视觉模态表征;门控循环分层融合网络对声学模态表征、视觉模态表征和文本特征两两交互提取信息,得到一维向量,用于情感分析预测;本发明基于分布匹配思想,使模态在时间交互阶段获得对整体情感取向具有协同作用的表征信息,对三个特征对组合进行模态间交互信息提取,并通过门控机制剔除冗余信息,以实现有效的多模态表征融合。

Description

基于跨模态注意与分层融合的多模态情感分析方法及系统
技术领域
本发明属于领域,尤其涉及基于跨模态注意与分层融合的多模态情感分析方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
每天,我们身边会产生庞大而有意义的信息,这些信息大多数在网络中产生,而社交媒体又是网络中信息的集中地带,其中涵盖许多与我们生活密切相关的话题、观点、情感和情绪。多模态情感分析(MSA)一直是自然语言处理中活跃的分支领域,广泛应用于政府选举、智慧医疗和聊天机器人推荐等领域。相较于传统情感分析,MSA利用多种信号源(摘录的原始文本、声学以及视觉)对特定对象在特定时间段内表达的情感进行预测。MSA的两个挑战:1)如何对不同模式之间的互动进行建模,特别是互补性和补充性信息(supplementaryand complementary information);2)在视觉和听觉模式中的缺失值、错位等情况下的数据的融合。
最近几年,研究人员设计了复杂的融合模型;Zadeh等人设计了张量融合网络,利用笛卡尔积融合三种模态的特征向量;Tasi等人设计了多模态transformer,将所有模态一并进行处理,以得到预测的情感分数;虽然这些方法取得了不错的效果,但也存在一个不容忽视的问题:忽略了不同模态之间的差异性,导致在模态表征获取阶段损失关键预测信息;Hazarika等人设计了一种模态特定和模态不变的特征空间,将两种类型的表示结合几种损失,借助距离等评估模型效果;Yu等人使用多任务形式,在训练阶段引入模态标签自动生成模块,以辅助主任务通道,节省了人工标注时间,进而提高效率;虽然这些研究取得了令人振奋的结果,但他们缺乏在模态融合阶段的模态间信息交互,导致冗余信息被保留至最终预测阶段,影响模型性能和准确性。
发明内容
为克服上述现有技术的不足,本发明提供了基于跨模态注意与分层融合的多模态情感分析方法及系统,使模态在时间交互阶段获得对整体情感取向具有协同作用的表征信息,对三个表征进行模态间交互信息提取,并通过门控机制剔除冗余信息,以实现有效的多模态表征融合,从而改善融合结果,提高情感分析的准确性。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
本发明第一方面提供了基于跨模态注意与分层融合的多模态情感分析方法;
基于跨模态注意与分层融合的多模态情感分析方法,包括:
提取待分析视频中的文本特征、视觉特征和声学特征;
将文本特征与声学特征、文本特征与视觉特征交叉注意,获得声学模态表征和视觉模态表征;
门控循环分层融合网络对声学模态表征、视觉模态表征和文本特征两两交互提取信息,得到一维向量;
将一维向量作为情感得分,进行情感标签预测,得到分析结果。
进一步的,使用预先训练的12层BERT从待分析视频中提取文本特征;
选择BERT最后一层的第一个词向量作为最终提取的文本特征。
进一步的,所述声学特征和视觉特征,使用预先训练的工具包对待分析视频进行处理,获得初始的视觉特征和声学特征,具体步骤为:
通过一维时间卷积获取声学特征和视觉特征;
将时间信息通过位置嵌入到特征中。
进一步的,所述交叉注意,是将文本特征分别与声学特征和视觉特征进行跨模态交叉融合,提取感兴趣的特征。
进一步的,交叉注意的具体步骤为:
并行注意力计算,对声学、视觉特征的Query向量和文本特征的Key和Value向量进行逻辑回归;
获取头部,对并行注意力的输出进行加权平均;
拼接所有头部,进行多头自注意力连接,得到声学模态表征和视觉模态表征。
进一步的,声学模态表征、视觉模态表征和文本特征两两拼接,输入到双向门控循环网络中,不同模态信息充分交互,通过门控机制有效剔除表征中的冗余信息和不相关信息,得到三种表征。
进一步的,用两层的RELU激活函数对拼接后的三种表征进行处理,得到最终的一维向量,用于情感分析预测。
本发明第二方面提供了基于跨模态注意与分层融合的多模态情感分析系统。
基于跨模态注意与分层融合的多模态情感分析系统,包括:特征提取模块、交叉注意模块和门控循环分层融合网络模块;
特征提取模块,被配置为:提取待分析视频中的文本特征、视觉特征和声学特征;
交叉注意模块,被配置为:将文本特征与声学特征、文本特征与视觉特征交叉注意,获得声学模态表征和视觉模态表征;
门控循环分层融合网络模块,被配置为:门控循环分层融合网络对声学模态表征、视觉模态表征和文本特征两两交互提取信息,得到一维向量。
分析预测模块,将一维向量作为情感得分,进行情感标签预测,得到分析结果。
本发明第三方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的基于跨模态注意与分层融合的多模态情感分析方法中的步骤。
本发明第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的基于跨模态注意与分层融合的多模态情感分析方法中的步骤。
以上一个或多个技术方案存在以下有益效果:
本发明基于分布匹配思想,使模态在时间交互阶段获得对整体情感取向具有协同作用的表征信息,对3个双峰对组合进行模态间交互信息提取,并通过门控机制剔除冗余信息,以实现有效的多模态表征融合。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为第一个实施例的方法流程图;
图2为第一个实施例的分层门控循环网络;
图3为第二个实施例的系统结构图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明提出的总体思路:
基于视频中文本、视觉和声学三个模态进行情感分析,首先提取三个特征后,将文本分别与视觉和声学进行交叉注意,获取模态之间的差异性,然后对三个特征进行两两拼接融合,提取模态间交互信息,剔除冗余信息,得到的完善准确融合信息,输入到RELU激活函数,得到情感得分。
实施例一
本实施例公开了基于跨模态注意与分层融合的多模态情感分析方法;
如图1所示,基于跨模态注意与分层融合的多模态情感分析方法,包括:
S1:提取待分析视频中的文本特征、视觉特征和声学特征;
S2:将文本特征与声学特征、文本特征与视觉特征交叉注意,获得声学模态表征和视觉模态表征;
S3:门控循环分层融合网络对声学模态表征、视觉模态表征和文本特征两两交互提取信息,得到一维向量;
S4:将一维向量作为情感得分,进行情感标签预测,得到分析结果。
S1步骤中,先从待分析的视频中获取文本序列、视频序列和音频序列,然后分别输入到文本通道、视频通道和音频通道中提取特征:
文本通道,采用预先训练的BERT对其高维语义进行提取,选择最后一层的第一个词向量ft作为最终提取的特征,公式如下:
Figure BDA0003596459570000051
其中,Ut表示文本的初始序列,θt bert表示BERT预训练模型的超参数,
Figure BDA0003596459570000052
表示文本的特征空间,d是空间维度,t是文本。
声学与视觉通道,使用预先训练的工具包对原始数据进行处理,学习足够感知与时间信息,获得初始的向量特征,具体步骤为:
1)一维时间卷积:将初始序列送入一维时间卷积,公式如下:
Figure BDA0003596459570000061
其中,Conv1D(·)是一维时间卷积函数,km是模态m使用的卷积核的大小,Um是m模态的输入序列,d是公共维度,Tm表示模态m的话语长度,m∈{a,v},a是声学模态,v是视觉模态。
2)位置嵌入:为了使序列具备时间信息,将位置嵌入(PE)括充到
Figure BDA0003596459570000062
公式如下:
Figure BDA0003596459570000063
Figure BDA0003596459570000064
目的是计算每个位置索引的嵌入,其中,PE(·)代表位置嵌入函数,Tm表示模态m的话语长度,d是公共维度,m∈{a,v}。
S2步骤中,对提取的特征进行跨模态交叉注意,获取声学和视觉模态的潜在表征信息,对整体情感取向具有协同作用,具体步骤为:
1)并行注意力计算,对声学、视觉特征的Query向量和文本特征的Key和Value向量进行逻辑回归,公式如下:
Figure BDA0003596459570000065
Figure BDA0003596459570000066
其中Qa,Qv分别代表声学、视觉模态的Query向量,Kt、Vt分别代表文本模态的Key和Value向量,softmax(·)代表softmax函数,dh代表模态的维度,T表示转置。
2)获取头部,对并行注意力的输出进行加权平均;每个注意力的输出被称为头部head,第i个头部的计算公式为:
Figure BDA0003596459570000067
这里
Figure BDA0003596459570000071
是计算第i个m模态的head时Qm的权重矩阵;
Figure BDA0003596459570000072
是计算第i个m模态的head时Km的权重矩阵;
Figure BDA0003596459570000073
是计算第i个m模态的head时Vm的权重矩阵;用于将矩阵线性投影到特定空间中,其中m∈{a,v}。
3)拼接所有头部,进行多头自注意力连接,得到声学模态表征和视觉模态表征,公式如下:
Figure BDA0003596459570000074
Figure BDA0003596459570000075
是拼接m模态的head之后所乘的权重矩阵,n表示使用的自注意力head的个数,n=10,Concat(·)为拼接操作,m∈{a,v}。
通过以上三个步骤得到音频模态
Figure BDA0003596459570000076
和视频模态
Figure BDA0003596459570000077
的表征,总公式如下:
Figure BDA0003596459570000078
Figure BDA0003596459570000079
其中,
Figure BDA00035964595700000710
代表交叉注意力模块所需的主要超参数。
S3步骤,即通过门控循环分层融合网络得到完整准确的一维向量;以往的研究,在获取到有效的表征之后,大多数直接将模态表征进行拼接以用于最终预测,这其中会将冗余信息添加进来,影响最终的预测结果。为了让表征中的冗余信息被有效剔除,如图2所示,本发明设计了一个门控循环融合网络,对三种表征的两两组合进行处理,并送入门控循环分层融合网络中,以获取三个特征对之间的交互信息,具体步骤如下:
1)将得到的三种模态表征两两组合,公式如下:
Figure BDA00035964595700000711
Figure BDA00035964595700000712
Figure BDA00035964595700000713
其中,
Figure BDA0003596459570000081
ft分别是与文本跨模态交叉注意后的声学表征、与文本跨模态交叉注意后的视觉表征和文本表征。
2)送入双向门控循环网络中,得到三种交互表征,公式如下:
Figure BDA0003596459570000082
Figure BDA0003596459570000083
Figure BDA0003596459570000084
其中,Bi-GRU(·)代表双向门控循环单元网络,θgru表示门控循环单元网络的超参数。
3)在将三个交互表征拼接后,将他们投影到低维特征空间
Figure BDA0003596459570000085
中:
fs=concat(ft-a,ft-v,fa-v) (16)
Figure BDA0003596459570000086
其中,
Figure BDA0003596459570000087
是参数矩阵,ReLU是ReLU激活函数,
Figure BDA0003596459570000088
代表元素乘,
Figure BDA0003596459570000089
为偏置量。
最后,使用融合表示
Figure BDA00035964595700000810
对多模态情感进行预测:
Figure BDA00035964595700000811
其中,
Figure BDA00035964595700000812
是参数矩阵,ReLU是ReLU激活函数,
Figure BDA00035964595700000815
代表元素乘,
Figure BDA00035964595700000814
为偏置量。
S4步骤中,将一维向量y′作为情感得分,进行情感标签预测,得到分析结果。
优选的,标签得分规则设定为:情感得分为(0-3]时,是积极情感;得分为[-3-0)时,是消极情感;当得分为0时,为中性情感。
实施例二
本实施例公开了基于跨模态注意与分层融合的多模态情感分析系统;
如图3所示,基于跨模态注意与分层融合的多模态情感分析系统,包括:特征提取模块、交叉注意模块,门控循环分层融合网络模块和分析预测模块;
特征提取模块,被配置为:提取待分析视频中的文本特征、视觉特征和声学特征;
交叉注意模块,被配置为:将文本特征与声学特征、文本特征与视觉特征交叉注意,获得声学模态表征和视觉模态表征;
门控循环分层融合网络模块,被配置为:门控循环分层融合网络对声学模态表征、视觉模态表征和文本特征两两交互提取信息,得到一维向量。
分析预测模块,被配置为:将一维向量作为情感得分,进行情感标签预测,得到分析结果。
实施例三
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例1所述的基于跨模态注意与分层融合的多模态情感分析方法中的步骤。
实施例四
本实施例的目的是提供一种电子设备。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1所述的基于跨模态注意与分层融合的多模态情感分析方法中的步骤。
以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.基于跨模态注意与分层融合的多模态情感分析方法,其特征在于,
提取待分析视频中的文本特征、视觉特征和声学特征;
将文本特征与声学特征、文本特征与视觉特征交叉注意,获得声学模态表征和视觉模态表征;
门控循环分层融合网络对声学模态表征、视觉模态表征和文本特征两两交互提取信息,得到一维向量;
将一维向量作为情感得分,进行情感标签预测,得到分析结果。
2.如权利要求1所述的基于跨模态注意与分层融合的多模态情感分析方法,其特征在于,使用预先训练的12层BERT从待分析视频中提取文本特征;
选择BERT最后一层的第一个词向量作为最终提取的文本特征。
3.如权利要求1所述的基于跨模态注意与分层融合的多模态情感分析方法,其特征在于,所述声学特征和视觉特征,使用预先训练的工具包对待分析视频进行处理,获得初始的视觉特征和声学特征,具体步骤为:
通过一维时间卷积获取声学特征和视觉特征;
将位置信息嵌入到特征中。
4.如权利要求1所述的基于跨模态注意与分层融合的多模态情感分析方法,其特征在于,所述交叉注意,是将文本特征分别与声学特征和视觉特征进行跨模态交叉融合,提取感兴趣的特征。
5.如权利要求1所述的基于跨模态注意与分层融合的多模态情感分析方法,其特征在于,交叉注意的具体步骤为:
并行注意力计算,对声学、视觉特征的Query向量和文本特征的Key和Value向量进行逻辑回归;
获取头部,对并行注意力的输出进行加权平均;
拼接所有头部,进行多头自注意力连接,得到声学模态表征和视觉模态表征。
6.如权利要求1所述的基于跨模态注意与分层融合的多模态情感分析方法,其特征在于,声学模态表征、视觉模态表征和文本特征两两拼接,输入到双向门控循环网络中,不同模态信息充分交互,通过门控机制有效剔除表征中的冗余信息和不相关信息,得到三种交互表征。
7.如权利要求1所述的基于跨模态注意与分层融合的多模态情感分析方法,其特征在于,用两层的RELU激活函数对拼接后的三种交互表征进行处理,得到最终的一维向量,用于情感分析预测。
8.基于跨模态注意与分层融合的多模态情感分析系统,其特征在于:包括:特征提取模块、交叉注意模块和门控循环分层融合网络模块;
特征提取模块,被配置为:提取待分析视频中的文本特征、视觉特征和声学特征;
交叉注意模块,被配置为:将文本特征与声学特征、文本特征与视觉特征交叉注意,获得声学模态表征和视觉模态表征;
门控循环分层融合网络模块,被配置为:门控循环分层融合网络对声学模态表征、视觉模态表征和文本特征两两交互提取信息,得到一维向量;
分析预测模块,将一维向量作为情感得分,进行情感标签预测,得到分析结果。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的基于跨模态注意与分层融合的多模态情感分析方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于跨模态注意与分层融合的多模态情感分析方法中的步骤。
CN202210390047.8A 2022-04-14 2022-04-14 基于跨模态注意与分层融合的多模态情感分析方法及系统 Pending CN115063709A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210390047.8A CN115063709A (zh) 2022-04-14 2022-04-14 基于跨模态注意与分层融合的多模态情感分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210390047.8A CN115063709A (zh) 2022-04-14 2022-04-14 基于跨模态注意与分层融合的多模态情感分析方法及系统

Publications (1)

Publication Number Publication Date
CN115063709A true CN115063709A (zh) 2022-09-16

Family

ID=83196591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210390047.8A Pending CN115063709A (zh) 2022-04-14 2022-04-14 基于跨模态注意与分层融合的多模态情感分析方法及系统

Country Status (1)

Country Link
CN (1) CN115063709A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544279A (zh) * 2022-10-11 2022-12-30 合肥工业大学 一种基于协同注意力的多模态情感分类方法及其应用
CN115983280A (zh) * 2023-01-31 2023-04-18 烟台大学 面向不确定模态缺失的多模态情感分析方法及系统
CN116563751A (zh) * 2023-04-19 2023-08-08 湖北工业大学 一种基于注意力机制的多模态情感分析方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544279A (zh) * 2022-10-11 2022-12-30 合肥工业大学 一种基于协同注意力的多模态情感分类方法及其应用
CN115544279B (zh) * 2022-10-11 2024-01-26 合肥工业大学 一种基于协同注意力的多模态情感分类方法及其应用
CN115983280A (zh) * 2023-01-31 2023-04-18 烟台大学 面向不确定模态缺失的多模态情感分析方法及系统
CN115983280B (zh) * 2023-01-31 2023-08-15 烟台大学 面向不确定模态缺失的多模态情感分析方法及系统
CN116563751A (zh) * 2023-04-19 2023-08-08 湖北工业大学 一种基于注意力机制的多模态情感分析方法及系统
CN116563751B (zh) * 2023-04-19 2024-02-06 湖北工业大学 一种基于注意力机制的多模态情感分析方法及系统

Similar Documents

Publication Publication Date Title
Luo et al. A critical review of state‐of‐the‐art chatbot designs and applications
RU2747425C2 (ru) Система ответа на вопросы из разных областей знаний в режиме реального времени
Wu et al. Multimodal large language models: A survey
CN115063709A (zh) 基于跨模态注意与分层融合的多模态情感分析方法及系统
CN114398961A (zh) 一种基于多模态深度特征融合的视觉问答方法及其模型
Lin et al. Chunk-level speech emotion recognition: A general framework of sequence-to-one dynamic temporal modeling
US20220092441A1 (en) Training method and apparatus, dialogue processing method and system, and medium
US20230394247A1 (en) Human-machine collaborative conversation interaction system and method
CN110795549B (zh) 短文本对话方法、装置、设备及存储介质
Guo et al. Sparse co-attention visual question answering networks based on thresholds
CN111460132A (zh) 一种基于图卷积神经网络的生成式会议摘要方法
CN114417097A (zh) 一种基于时间卷积与自注意力的情感预测方法及系统
Huang et al. Developing context-aware dialoguing services for a cloud-based robotic system
Mai et al. A unimodal representation learning and recurrent decomposition fusion structure for utterance-level multimodal embedding learning
Chandiok et al. CIT: Integrated cognitive computing and cognitive agent technologies based cognitive architecture for human-like functionality in artificial systems
Chauhan et al. Analysis of Intelligent movie recommender system from facial expression
Aattouri et al. Modeling of an artificial intelligence based enterprise callbot with natural language processing and machine learning algorithms
Lin et al. Dynamically shifting multimodal representations via hybrid-modal attention for multimodal sentiment analysis
Muangnak et al. The neural network conversation model enables the commonly asked student query agents
CN115408500A (zh) 问答一致性的评估方法、装置、电子设备及介质
M'Charrak Deep learning for natural language processing (nlp) using variational autoencoders (vae)
CN114840697B (zh) 一种云服务机器人的视觉问答方法及系统
CN116089618B (zh) 融合三元损失和标签嵌入的图注意力网络文本分类模型
CN118035945B (zh) 一种标签识别模型的处理方法和相关装置
Zhao et al. Beyond Words: An Intelligent Human‐Machine Dialogue System with Multimodal Generation and Emotional Comprehension

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination