CN116563751B - 一种基于注意力机制的多模态情感分析方法及系统 - Google Patents

一种基于注意力机制的多模态情感分析方法及系统 Download PDF

Info

Publication number
CN116563751B
CN116563751B CN202310423904.4A CN202310423904A CN116563751B CN 116563751 B CN116563751 B CN 116563751B CN 202310423904 A CN202310423904 A CN 202310423904A CN 116563751 B CN116563751 B CN 116563751B
Authority
CN
China
Prior art keywords
text
layer
audio
vector
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310423904.4A
Other languages
English (en)
Other versions
CN116563751A (zh
Inventor
吴珺
郑欣丽
袁子健
王江鹏
吴俊伟
聂万宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN202310423904.4A priority Critical patent/CN116563751B/zh
Publication of CN116563751A publication Critical patent/CN116563751A/zh
Application granted granted Critical
Publication of CN116563751B publication Critical patent/CN116563751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于注意力机制的多模态情感分析方法及系统,属于深度学习技术领域,包括:对多模态情感分析数据集合进行预处理,得到多模态数据向量;将多模态数据向量输入基于注意力机制的双层双向GRU网络中进行特征提取,得到多模态特征向量;将多模态特征向量输入至低秩张量融合模型中进行特征融合,获得融合后多模态特征;确定融合后多模态特征的情感极性,输出情感分析结果。本发明采用双层双向GRU模型能有效学习视频数据中的文本和音频的时序特征,具有结构简单、学习速度快以及连接的注意力层能更很好的提取重要特征的特点,且采用低秩张量融合模型能降低多模态数据维度,提升运算速率和判断准确率。

Description

一种基于注意力机制的多模态情感分析方法及系统
技术领域
本发明涉及深度学习技术领域,尤其涉及一种基于注意力机制的多模态情感分析方法及系统。
背景技术
人类对周遭事物的感知和交互是丰富多样的,是基于视觉、听觉、嗅觉、味觉和触觉等多种模式共同构成的,同样的,计算机对单模态特征的学习和研究已经不再满足现代科学的追求。随着科技的发展,人工智能领域的研究已经获得了优异的成果,并成功应用在自然语言处理、图像识别、推荐系统、目标检测等多个领域。
结合人工智能在不同领域的单模态学习算法和技术,学者们开启了对多模态融合方法的研究,由两种或两种以上模态组成的数据称之为多模态数据,常见的数据模态有文本、图片、音频、视频、混合数据等,多模态数据融合负责将多个模态的信息进行有效的整合,汲取不同模态的优点,完成对信息的整合。与单模态识别技术相比,多模态融合技术安全性更高、实用性更广、可靠性更高,多模态融合在情感分析领域也有着重要应用,面对互联网平台分享的庞大数据,文本不再能很好的反映人类的情感,视频、语音、图像等数据辅助着人们表达自己的情绪,也为计算机提供了更丰富的数据类型。
发明内容
本发明提供一种基于注意力机制的多模态情感分析方法及系统,用以解决现有技术中针对多模态情感的分析处理存在片面性和单一性的缺陷。
第一方面,本发明提供一种基于注意力机制的多模态情感分析方法,包括:
从待分析视频数据中获取多模态情感分析数据集合,对所述多模态情感分析数据集合进行预处理,得到多模态数据向量;
将所述多模态数据向量输入基于注意力机制的双层双向GRU网络中进行特征提取,得到多模态特征向量;
将所述多模态特征向量输入至低秩张量融合模型中进行特征融合,获得融合后多模态特征;
确定所述融合后多模态特征的情感极性,输出情感分析结果。
第二方面,本发明还提供一种基于注意力机制的多模态情感分析系统,包括:
输入模块,用于从待分析视频数据中获取多模态情感分析数据集合,对所述多模态情感分析数据集合进行预处理,得到多模态数据向量;
特征提取模块,用于将所述多模态数据向量输入基于注意力机制的双层双向GRU网络中进行特征提取,得到多模态特征向量;
特征融合模块,用于将所述多模态特征向量输入至低秩张量融合模型中进行特征融合,获得融合后多模态特征;
输出模块,用于确定所述融合后多模态特征的情感极性,输出情感分析结果。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于注意力机制的多模态情感分析方法。
本发明提供的基于注意力机制的多模态情感分析方法及系统,通过采用双层双向GRU模型能有效学习视频数据中的文本和音频的时序特征,具有结构简单、学习速度快以及连接的注意力层能更很好的提取重要特征的特点,且采用低秩张量融合模型能降低多模态数据维度,提升运算速率和判断准确率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于注意力机制的多模态情感分析方法的流程示意图;
图2是本发明提供的基于注意力机制的双层双向GRU多模态情感分析方法的网络结构图;
图3是本发明提供的用于特征提取的基于注意力机制的双层双向GRU网络结构图;
图4是本发明提供的用于特征融合低秩张量融合模型结构图;
图5是本发明提供的基于注意力机制的多模态情感分析系统的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对目前对于多模态情感分析中存在的局限,本发明提出一种新的基于注意力机制的多模态情感分析方法,旨在用特征提取技术和多模态融合技术来学习人类的情感极性,从文本的内容、音频的轻重缓急以及图像中人类的面部表情等特征来学习情感表达的方式,实现更高效快捷的情感分析方法。
图1是本发明实施例提供的基于注意力机制的多模态情感分析方法的流程示意图之一,如图1所示,包括:
步骤100:从待分析视频数据中获取多模态情感分析数据集合,对所述多模态情感分析数据集合进行预处理,得到多模态数据向量;
步骤200:将所述多模态数据向量输入基于注意力机制的双层双向GRU网络中进行特征提取,得到多模态特征向量;
步骤300:将所述多模态特征向量输入至低秩张量融合模型中进行特征融合,获得融合后多模态特征;
步骤400:确定所述融合后多模态特征的情感极性,输出情感分析结果。
本发明实施例通过对待分析视频数据中的多模态情感分析数据集合进行预处理,该数据类型包括文本、音频和图像,将预处理后的数据输入至基于注意力机制的双向双层GRU网络中,进行特征提取得到多模态特征向量,将各类型的多模态特征向量分别输入低秩张量融合模型中进行特征融合,并对齐三个模态向量,得到三维笛卡尔积模型,再将其映射回低维输出向量,对融合后的多模态特征进行分析,得到情感极性的输出,包括正向情感和负向情感。
具体地,如图2所示的网络结构图中,第一步是输入模块,将多模态情感数据集中的文本Text、音频Audio和图像Vision进行预处理后,输入至第二步特征提取模块的双层双向门控循环单元(Gate Recurrent Unit,GRU)网络(BiGRU)中,再分别进入两层的注意力模块(Attention_1和Attention_2)中,特别地,文本的注意力模块后还连接一个全连接层和对应的激活函数(FC+Gelu),第三步进行特征融合,由特征融合模块中的低秩张量融合模型进行特征张量融合,得到融合后的多模态特征,第四步在输出模块中对融合后的多模态特征进行情感分类,得到情感分析输出结果。
本发明通过采用双层双向GRU模型能有效学习视频数据中的文本和音频的时序特征,具有结构简单、学习速度快以及连接的注意力层能更很好的提取重要特征的特点,且采用低秩张量融合模型能降低多模态数据维度,提升运算速率和判断准确率。
基于上述实施例,步骤100包括:
基于文本将所述待分析视频数据划分为多个段落,将所述文本中的每一段文字与所述多个段落的音频和图像分别进行对应,得到文本数据集、音频数据集和图像数据集;
对所述文本数据集进行截断或填补至预设文本长度,得到文本序列,采用预设词嵌入将所述文本序列编码为单词向量序列,得到预处理文本数据集;
对所述音频数据集进行增强和降噪,采用预设声学分析框架提取音频特征,得到预处理音频数据集;
对所述图像数据集进行增强和降噪,采用预设AI开源库提取视觉特征,得到预处理图像数据集;
利用预设对齐标注软件分别对所述预处理文本数据集、预处理音频数据集和预处理图像数据集进行单词粒度对齐,得到文本模态数据向量、音频模态数据向量和图像模态数据向量。
具体地,本发明实施例从待分析视频数据中获取多模态情感分析数据集合之后,对多模态情感分析数据集合进行预处理,具体包括:
首先以文本为基准将视频划分为段落,每一段文字对应该时段的音频和图像,得到由文本Text、音频Audio和图像Vision三种模态组成的多模态情感数据集。
然后对三种模态分别进行预处理操作,对文本数据进行截断或填补到50的长度,再使用300维的Glove进行词嵌入操作,将文本序列编码为单词向量序列;对音频数据进行增强和降噪,使用COVAREP声学分析框架提取音频特征;对图像数据进行增强和降噪,使用Facet1库为提取视觉特征。
最后使用P2FA进行单词对其,在单词粒度上对齐三种模态,得到文本模态的数据向量T=(t1,t2,…,tn),n为文本模态向量长度;图像模态的数据向量A=(a1,a2,…,am),m为音频模态向量长度,图像模态的数据向量V=(v1,v2,…,vl),l为图像模态向量长度。
基于上述实施例,步骤200包括:
将文本模态数据向量依次输入至双层双向GRU网络、注意力模块和全连接层,得到文本特征向量;
将音频模态数据向量依次输入至双层双向GRU网络和注意力模块,得到音频特征向量;
将图像模态数据向量依次输入至双层双向GRU网络和注意力模块,得到图像特征向量。
其中,所述将文本模态数据向量依次输入至双层双向GRU网络、注意力模块和全连接层,得到文本特征向量,包括:
通过堆叠GRU单元对所述文本模态数据向量进行更新和遗忘,得到文本正向隐藏层状态、文本负向隐藏层状态、文本正向输出和文本负向输出;
确定文本学习参数矩阵,将所述文本正向隐藏层状态、所述文本负向隐藏层状态、所述文本正向输出和所述文本负向输出输入至所述注意力模块的第一层注意力机制,通过激活函数得到第一层文本正向特征和第二层文本负向特征;
确定文本学习权重,将所述第一层文本正向特征和所述第二层文本负向特征输入至所述注意力模块的第二层注意力机制,得到第二层文本特征;
将所述第二层文本特征输入至所述全连接层和激活函数,得到所述文本特征向量。
其中,所述将音频模态数据向量依次输入至双层双向GRU网络和注意力模块,得到音频特征向量,包括:
通过堆叠GRU单元对所述音频模态数据向量进行更新和遗忘,得到音频正向隐藏层状态、音频负向隐藏层状态、音频正向输出和音频负向输出;
确定音频学习参数矩阵,将所述音频正向隐藏层状态、所述音频负向隐藏层状态、所述音频正向输出和所述音频负向输出输入至所述注意力模块的第一层注意力机制,通过激活函数得到第一层音频正向特征和第二层音频负向特征;
确定音频学习权重,将所述第一层音频正向特征和所述第二层音频负向特征输入至所述注意力模块的第二层注意力机制,得到所述音频特征向量。
其中,所述将图像模态数据向量依次输入至双层双向GRU网络和注意力模块,得到图像特征向量,包括:
通过堆叠GRU单元对所述图像模态数据向量进行更新和遗忘,得到图像正向隐藏层状态、图像负向隐藏层状态、图像正向输出和图像负向输出;
确定图像学习参数矩阵,将所述图像正向隐藏层状态、所述图像负向隐藏层状态、所述图像正向输出和所述图像负向输出输入至所述注意力模块的第一层注意力机制,通过激活函数得到第一层图像正向特征和第二层图像负向特征;
确定图像学习权重,将所述第一层图像正向特征和所述第二层图像负向特征输入至所述注意力模块的第二层注意力机制,得到所述图像特征向量。
具体地,将文本模态数据向量T=(t1,t2,…,tn),音频A=(a1,a2,…,am)和图像V=(v1,v2,…,vl)三种模态输入基于注意力机制的双向双层GRU网络中,进行特征抽取,如图3所示的用于特征提取的基于注意力机制的双层双向GRU网络结构图,上下两层均包含前向隐藏层和后向隐藏层,以T=(t1,t2,…,tn)为例,每个隐藏层中的单元cell对应处理T中的一个元素。
以文本模态数据向量为例,首先将文本向量T=(t1,t2,…,tn)输入双层双向GRU网络,在堆叠的GRU单元中进行更新和遗忘得到文本的正向隐藏层状态负向隐层状态ht -,以及文本经过GRU的输出GT=(Gt1,Gt2,…,Gtn),因为是双向GRU网络,输出GT可以分为正向输出GT +和负向输出GT -
类似的,音频向量经过双层双向GRU网络得到正向隐藏层状态ha +,负向隐层状态ha -,以及音频经过GRU的输出GA=(Ga1,Ga2,…,Gam),图像向量经过双层双向GRU网络得到正向隐藏层状态hv +,负向隐层状态hv -,以及图像经过GRU的输出GV=(Gv1,Gv2,…,Gvl)。
再将ht +、ht -、GT +、和输入注意力模块中,经过第一层注意力机制Attention_1进行单模态特征融合,得到:
其中,是文本特征向量经过Attention_1得到的正向特征,/>是文本特征向量是经过Attention_1得到的负向特征,WT是需要学习的参数矩阵,relu和tanh是激活函数。
和/>输入第二层注意力机制Attention_2,得到:
其中,FT是文本向量经过基于注意力机制的双层双向GRU模型得到的最终文本特征,θT是需要学习的权重;
类似的,音频特征GA=(Ga1,Ga2,…,Ga,)经过两层注意力机制,得到:
其中,是音频特征向量经过Attention_1得到的正向特征,/>是音频特征向量是经过Attention_1得到的负向特征,FA是音频向量经过基于注意力机制的双层双向GRU模型得到的最终音频特征,θA是需要学习的权重;
类似的,图像特征GV=(Gv1,Gv2,…,Gvl)经过两层注意力机制,得到
其中,是图像特征向量经过Attention_1得到的正向特征,/>是图像特征向量是经过Attention_1得到的负向特征,FV是图像向量经过基于注意力机制的双层双向GRU模型得到的最终图像特征,θV是需要学习的权重;
最终特征提取模块得到文本特征向量FT=(Ft1,Ft2,…,Ftn)、音频特征向量FA=(Fa1,Fa2,…,Fam)和图像特征向量FV=(Fv1,Fv2,…,Fvl)。
需要说明的是,在文本模态的注意力模块后单独添加一个全连接层FC,来降低文本特征的维度,其大小和FT维度相同,并使用gelu作为激活函数。
基于上述实施例,步骤300包括:
分别在文本特征向量、音频特征向量和图像特征向量之后增加特征值为1的向量,得到文本特征、音频特征和图像特征;
将所述文本特征、所述音频特征和所述图像特征输入至所述低秩张量融合模型,得到多模态融合三维张量;
基于所述特征值为1的向量作为交点,由所述多模态融合三维张量构建三维笛卡尔积模型;
确定学习权重张量和偏移量,采用线性层函数计算所述三维笛卡尔积模型、所述学习权重张量和所述偏移量,得到线性层输出向量;
确定最小有效分解秩,基于所述最小有效分解秩对所述线性层输出向量进行分解,得到所述融合后多模态特征,所述融合后多模态特征包括文本模态权重张量、音频模态权重张量和图像模态权重张量。
具体地,将文本特征向量FT=(Ft1,Ft2,…,Ftn),音频特征向量FA=(Fa1,Fa2,…,Fam),图像特征向量FV=(Fv1,Fv2,…,Fvl)输入低秩张量融合模型(Low-rank MultimodalFusion,LMF)中,进行特征融合,如图4所示。
在每个模态特征后附加一个特征值为1的向量,用来存储不同模态间的信息交互,得到文本特征ZT、音频特征ZA和图像特征ZV
对三个模态以附加特征1为交点,构建一个三维笛卡尔积模型,得到:
其中,Z表示三个模态融合得到的三维张量;
将张量Z映射回一个低维向量空间,得到特征融合模块的输出h:
h=g(Z;W,b)=W·Z+b
其中,g()是线性层函数,h是由Z通过线性层产生的向量,W是需学习的权重张量,b是偏移量。
向量h可以分解为:
其中,r是使得分解有效的最小的秩,WT是文本模态的权重张量,WA是音频模态的权重张量,WV是图像模态的权重张量,Z表示三个模态融合得到的三维张量,T表示文本特征,ZA表示音频特征,ZV表示图像特征。
基于上述实施例,步骤400包括:
在所述低秩张量融合模型依次连接三个全连接层和一个决策层,所述三个全连接层的大小依次降低;
将所述融合后多模态特征输入至所述三个全连接层,得到输出单值;
将所述输出单值输入所述决策层,映射至样本空间,若确定所述输出单值大于等于0,则输出情感极性为正值,否则为负值。
具体地,本发明实施例将得到的向量h输入至分类模块中,经过三个全连接层减低维度,最后得到一个单值输出ρ,将ρ输入决策层中,映射到一个样本空间,当ρ≥0时,情感极性为正,ρ<0时,情感极性为负。
本发明实施例采用L1 Loss损失函数和AdamW优化器作为网络的处理。
其中,MAE表示平方绝对误差,i表示样本标签的情感值大小,表示预测值大小,n表示总的样本数。
特别地,本发明实施例使用公开数据集CMU-MOSI,该数据集是来自YouTube电影评论的93个观点视频的集合,每个视频由多个观点片段组成,每个片段都标注了范围为[-3,3]的情绪,其中-3表示高度负面,3表示高度正面。
下面对本发明提供的基于注意力机制的多模态情感分析系统进行描述,下文描述的基于注意力机制的多模态情感分析系统与上文描述的基于注意力机制的多模态情感分析方法可相互对应参照。
图5是本发明实施例提供的基于注意力机制的多模态情感分析系统的结构示意图,如图5所示,包括:输入模块51、特征提取模块52、特征融合模块53和输出模块54,其中:
输入模块51用于从待分析视频数据中获取多模态情感分析数据集合,对所述多模态情感分析数据集合进行预处理,得到多模态数据向量;特征提取模块52用于将所述多模态数据向量输入基于注意力机制的双层双向GRU网络中进行特征提取,得到多模态特征向量;特征融合模块53用于将所述多模态特征向量输入至低秩张量融合模型中进行特征融合,获得融合后多模态特征;输出模块54用于确定所述融合后多模态特征的情感极性,输出情感分析结果。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行基于注意力机制的多模态情感分析方法,该方法包括:从待分析视频数据中获取多模态情感分析数据集合,对所述多模态情感分析数据集合进行预处理,得到多模态数据向量;将所述多模态数据向量输入基于注意力机制的双层双向GRU网络中进行特征提取,得到多模态特征向量;将所述多模态特征向量输入至低秩张量融合模型中进行特征融合,获得融合后多模态特征;确定所述融合后多模态特征的情感极性,输出情感分析结果。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于注意力机制的多模态情感分析方法,该方法包括:从待分析视频数据中获取多模态情感分析数据集合,对所述多模态情感分析数据集合进行预处理,得到多模态数据向量;将所述多模态数据向量输入基于注意力机制的双层双向GRU网络中进行特征提取,得到多模态特征向量;将所述多模态特征向量输入至低秩张量融合模型中进行特征融合,获得融合后多模态特征;确定所述融合后多模态特征的情感极性,输出情感分析结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于注意力机制的多模态情感分析方法,该方法包括:从待分析视频数据中获取多模态情感分析数据集合,对所述多模态情感分析数据集合进行预处理,得到多模态数据向量;将所述多模态数据向量输入基于注意力机制的双层双向GRU网络中进行特征提取,得到多模态特征向量;将所述多模态特征向量输入至低秩张量融合模型中进行特征融合,获得融合后多模态特征;确定所述融合后多模态特征的情感极性,输出情感分析结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于注意力机制的多模态情感分析方法,其特征在于,包括:
从待分析视频数据中获取多模态情感分析数据集合,对所述多模态情感分析数据集合进行预处理,得到多模态数据向量;
将所述多模态数据向量输入基于注意力机制的双层双向GRU网络中进行特征提取,得到多模态特征向量;
将所述多模态特征向量输入至低秩张量融合模型中进行特征融合,获得融合后多模态特征;
确定所述融合后多模态特征的情感极性,输出情感分析结果;
其中,所述将所述多模态数据向量输入基于注意力机制的双层双向GRU网络中进行特征提取,得到多模态特征向量,包括:
将文本模态数据向量依次输入至双层双向GRU网络、注意力模块和全连接层,得到文本特征向量;
将音频模态数据向量依次输入至双层双向GRU网络和注意力模块,得到音频特征向量;
将图像模态数据向量依次输入至双层双向GRU网络和注意力模块,得到图像特征向量;
其中,所述将文本模态数据向量依次输入至双层双向GRU网络、注意力模块和全连接层,得到文本特征向量,包括:
通过堆叠GRU单元对所述文本模态数据向量进行更新和遗忘,得到文本正向隐藏层状态、文本负向隐藏层状态、文本正向输出和文本负向输出;
确定文本学习参数矩阵,将所述文本正向隐藏层状态、所述文本负向隐藏层状态、所述文本正向输出和所述文本负向输出输入至所述注意力模块的第一层注意力机制,通过激活函数得到第一层文本正向特征和第二层文本负向特征;
确定文本学习权重,将所述第一层文本正向特征和所述第二层文本负向特征输入至所述注意力模块的第二层注意力机制,得到第二层文本特征;
将所述第二层文本特征输入至所述全连接层和激活函数,得到所述文本特征向量。
2.根据权利要求1所述的基于注意力机制的多模态情感分析方法,其特征在于,所述从待分析视频数据中获取多模态情感分析数据集合,对所述多模态情感分析数据集合进行预处理,得到多模态数据向量,包括:
基于文本将所述待分析视频数据划分为多个段落,将所述文本中的每一段文字与所述多个段落的音频和图像分别进行对应,得到文本数据集、音频数据集和图像数据集;
对所述文本数据集进行截断或填补至预设文本长度,得到文本序列,采用预设词嵌入将所述文本序列编码为单词向量序列,得到预处理文本数据集;
对所述音频数据集进行增强和降噪,采用预设声学分析框架提取音频特征,得到预处理音频数据集;
对所述图像数据集进行增强和降噪,采用预设AI开源库提取视觉特征,得到预处理图像数据集;
利用预设对齐标注软件分别对所述预处理文本数据集、预处理音频数据集和预处理图像数据集进行单词粒度对齐,得到文本模态数据向量、音频模态数据向量和图像模态数据向量。
3.根据权利要求1所述的基于注意力机制的多模态情感分析方法,其特征在于,所述将音频模态数据向量依次输入至双层双向GRU网络和注意力模块,得到音频特征向量,包括:
通过堆叠GRU单元对所述音频模态数据向量进行更新和遗忘,得到音频正向隐藏层状态、音频负向隐藏层状态、音频正向输出和音频负向输出;
确定音频学习参数矩阵,将所述音频正向隐藏层状态、所述音频负向隐藏层状态、所述音频正向输出和所述音频负向输出输入至所述注意力模块的第一层注意力机制,通过激活函数得到第一层音频正向特征和第二层音频负向特征;
确定音频学习权重,将所述第一层音频正向特征和所述第二层音频负向特征输入至所述注意力模块的第二层注意力机制,得到所述音频特征向量。
4.根据权利要求1所述的基于注意力机制的多模态情感分析方法,其特征在于,所述将图像模态数据向量依次输入至双层双向GRU网络和注意力模块,得到图像特征向量,包括:
通过堆叠GRU单元对所述图像模态数据向量进行更新和遗忘,得到图像正向隐藏层状态、图像负向隐藏层状态、图像正向输出和图像负向输出;
确定图像学习参数矩阵,将所述图像正向隐藏层状态、所述图像负向隐藏层状态、所述图像正向输出和所述图像负向输出输入至所述注意力模块的第一层注意力机制,通过激活函数得到第一层图像正向特征和第二层图像负向特征;
确定图像学习权重,将所述第一层图像正向特征和所述第二层图像负向特征输入至所述注意力模块的第二层注意力机制,得到所述图像特征向量。
5.根据权利要求1所述的基于注意力机制的多模态情感分析方法,其特征在于,所述将所述多模态特征向量输入至低秩张量融合模型中进行特征融合,获得融合后多模态特征,包括:
分别在文本特征向量、音频特征向量和图像特征向量之后增加特征值为1的向量,得到文本特征、音频特征和图像特征;
将所述文本特征、所述音频特征和所述图像特征输入至所述低秩张量融合模型,得到多模态融合三维张量;
基于所述特征值为1的向量作为交点,由所述多模态融合三维张量构建三维笛卡尔积模型;
确定学习权重张量和偏移量,采用线性层函数计算所述三维笛卡尔积模型、所述学习权重张量和所述偏移量,得到线性层输出向量;
确定最小有效分解秩,基于所述最小有效分解秩对所述线性层输出向量进行分解,得到所述融合后多模态特征,所述融合后多模态特征包括文本模态权重张量、音频模态权重张量和图像模态权重张量。
6.根据权利要求1所述的基于注意力机制的多模态情感分析方法,其特征在于,所述确定所述融合后多模态特征的情感极性,输出情感分析结果,包括:
在所述低秩张量融合模型依次连接三个全连接层和一个决策层,所述三个全连接层的大小依次降低;
将所述融合后多模态特征输入至所述三个全连接层,得到输出单值;
将所述输出单值输入所述决策层,映射至样本空间,若确定所述输出单值大于等于0,则输出情感极性为正值,否则为负值。
7.一种基于注意力机制的多模态情感分析系统,其特征在于,包括:
输入模块,用于从待分析视频数据中获取多模态情感分析数据集合,对所述多模态情感分析数据集合进行预处理,得到多模态数据向量;
特征提取模块,用于将所述多模态数据向量输入基于注意力机制的双层双向GRU网络中进行特征提取,得到多模态特征向量;
特征融合模块,用于将所述多模态特征向量输入至低秩张量融合模型中进行特征融合,获得融合后多模态特征;
输出模块,用于确定所述融合后多模态特征的情感极性,输出情感分析结果;
其中,所述特征提取模块具体用于:
将文本模态数据向量依次输入至双层双向GRU网络、注意力模块和全连接层,得到文本特征向量;
将音频模态数据向量依次输入至双层双向GRU网络和注意力模块,得到音频特征向量;
将图像模态数据向量依次输入至双层双向GRU网络和注意力模块,得到图像特征向量;
其中,所述将文本模态数据向量依次输入至双层双向GRU网络、注意力模块和全连接层,得到文本特征向量,包括:
通过堆叠GRU单元对所述文本模态数据向量进行更新和遗忘,得到文本正向隐藏层状态、文本负向隐藏层状态、文本正向输出和文本负向输出;
确定文本学习参数矩阵,将所述文本正向隐藏层状态、所述文本负向隐藏层状态、所述文本正向输出和所述文本负向输出输入至所述注意力模块的第一层注意力机制,通过激活函数得到第一层文本正向特征和第二层文本负向特征;
确定文本学习权重,将所述第一层文本正向特征和所述第二层文本负向特征输入至所述注意力模块的第二层注意力机制,得到第二层文本特征;
将所述第二层文本特征输入至所述全连接层和激活函数,得到所述文本特征向量。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于注意力机制的多模态情感分析方法。
CN202310423904.4A 2023-04-19 2023-04-19 一种基于注意力机制的多模态情感分析方法及系统 Active CN116563751B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310423904.4A CN116563751B (zh) 2023-04-19 2023-04-19 一种基于注意力机制的多模态情感分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310423904.4A CN116563751B (zh) 2023-04-19 2023-04-19 一种基于注意力机制的多模态情感分析方法及系统

Publications (2)

Publication Number Publication Date
CN116563751A CN116563751A (zh) 2023-08-08
CN116563751B true CN116563751B (zh) 2024-02-06

Family

ID=87495600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310423904.4A Active CN116563751B (zh) 2023-04-19 2023-04-19 一种基于注意力机制的多模态情感分析方法及系统

Country Status (1)

Country Link
CN (1) CN116563751B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117423168B (zh) * 2023-12-19 2024-04-02 湖南三湘银行股份有限公司 基于多模态特征融合的用户情绪识别方法及系统
CN117688936B (zh) * 2024-02-04 2024-04-19 江西农业大学 一种图文融合的低秩多模态融合情感分析方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188343A (zh) * 2019-04-22 2019-08-30 浙江工业大学 基于融合注意力网络的多模态情感识别方法
CN110334689A (zh) * 2019-07-16 2019-10-15 北京百度网讯科技有限公司 视频分类方法和装置
KR102096617B1 (ko) * 2018-12-12 2020-04-02 충남대학교산학협력단 이미지와 ppg 데이터를 이용한 멀티모달 딥러닝 기반의 운전자 졸음감지 시스템
CN111178389A (zh) * 2019-12-06 2020-05-19 杭州电子科技大学 基于多通道张量池化的多模态深度分层融合情感分析方法
US11244119B1 (en) * 2021-01-04 2022-02-08 Institute Of Automation, Chinese Academy Of Sciences Multi-modal lie detection method and apparatus, and device
CN114419509A (zh) * 2022-01-24 2022-04-29 烟台大学 一种多模态情感分析方法、装置及电子设备
CN114722202A (zh) * 2022-04-08 2022-07-08 湖北工业大学 基于双向双层注意力lstm网络的多模态情感分类方法及系统
CN114821088A (zh) * 2022-05-07 2022-07-29 湖北工业大学 基于优化bert模型的多模态深度特征抽取方法及系统
CN115034227A (zh) * 2022-06-28 2022-09-09 西安交通大学 一种基于多模态互注意融合的渐进式多任务情感分析方法
CN115063709A (zh) * 2022-04-14 2022-09-16 齐鲁工业大学 基于跨模态注意与分层融合的多模态情感分析方法及系统
CN115186683A (zh) * 2022-07-15 2022-10-14 哈尔滨工业大学 一种基于跨模态翻译的属性级多模态情感分类方法
CN115641543A (zh) * 2022-12-26 2023-01-24 北京科技大学 一种多模态抑郁情绪识别方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US11663249B2 (en) * 2018-01-30 2023-05-30 Intel Corporation Visual question answering using visual knowledge bases
CA3076638A1 (en) * 2019-03-22 2020-09-22 Royal Bank Of Canada Systems and methods for learning user representations for open vocabulary data sets
US11769018B2 (en) * 2020-11-24 2023-09-26 Openstream Inc. System and method for temporal attention behavioral analysis of multi-modal conversations in a question and answer system

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102096617B1 (ko) * 2018-12-12 2020-04-02 충남대학교산학협력단 이미지와 ppg 데이터를 이용한 멀티모달 딥러닝 기반의 운전자 졸음감지 시스템
CN110188343A (zh) * 2019-04-22 2019-08-30 浙江工业大学 基于融合注意力网络的多模态情感识别方法
CN110334689A (zh) * 2019-07-16 2019-10-15 北京百度网讯科技有限公司 视频分类方法和装置
CN111178389A (zh) * 2019-12-06 2020-05-19 杭州电子科技大学 基于多通道张量池化的多模态深度分层融合情感分析方法
US11244119B1 (en) * 2021-01-04 2022-02-08 Institute Of Automation, Chinese Academy Of Sciences Multi-modal lie detection method and apparatus, and device
CN114419509A (zh) * 2022-01-24 2022-04-29 烟台大学 一种多模态情感分析方法、装置及电子设备
CN114722202A (zh) * 2022-04-08 2022-07-08 湖北工业大学 基于双向双层注意力lstm网络的多模态情感分类方法及系统
CN115063709A (zh) * 2022-04-14 2022-09-16 齐鲁工业大学 基于跨模态注意与分层融合的多模态情感分析方法及系统
CN114821088A (zh) * 2022-05-07 2022-07-29 湖北工业大学 基于优化bert模型的多模态深度特征抽取方法及系统
CN115034227A (zh) * 2022-06-28 2022-09-09 西安交通大学 一种基于多模态互注意融合的渐进式多任务情感分析方法
CN115186683A (zh) * 2022-07-15 2022-10-14 哈尔滨工业大学 一种基于跨模态翻译的属性级多模态情感分类方法
CN115641543A (zh) * 2022-12-26 2023-01-24 北京科技大学 一种多模态抑郁情绪识别方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Efficient Low-rank Multimodal Fusion with Modality-Specific Factors;Zhun Liu等;《arXiv:1806.00064v1》;1-10页 *
Video multimodal emotion recognition based on Bi-GRU and attention fusion;Ruo-Hong Huan等;《Multimedia Tools and Applications》;8213–8240页 *
基于多任务学习的时序多模态情感分析模型;尹春勇等;《计算机应用》;1631 - 1639 *

Also Published As

Publication number Publication date
CN116563751A (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN113591902B (zh) 基于多模态预训练模型的跨模态理解与生成方法和装置
CN116563751B (zh) 一种基于注意力机制的多模态情感分析方法及系统
CN109344404B (zh) 情境感知的双重注意力自然语言推理方法
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
US20230082605A1 (en) Visual dialog method and apparatus, method and apparatus for training visual dialog model, electronic device, and computer-readable storage medium
CN108665055B (zh) 一种图说生成方法及装置
CN114973062A (zh) 基于Transformer的多模态情感分析方法
CN110795549A (zh) 短文本对话方法、装置、设备及存储介质
WO2023226239A1 (zh) 对象情绪的分析方法、装置和电子设备
CN114417097A (zh) 一种基于时间卷积与自注意力的情感预测方法及系统
CN114282055A (zh) 视频特征提取方法、装置、设备及计算机存储介质
CN113761868A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN113392265A (zh) 多媒体处理方法、装置及设备
CN115131638A (zh) 视觉文本预训练模型的训练方法、装置、介质和设备
CN115481283A (zh) 音视频特征提取方法、装置、电子设备及计算机可读存储介质
CN114398505A (zh) 目标词语的确定方法、模型的训练方法、装置及电子设备
CN113761280A (zh) 媒体数据处理方法、装置、电子设备及计算机存储介质
CN117574904A (zh) 基于对比学习和多模态语义交互的命名实体识别方法
CN110580294B (zh) 实体融合方法、装置、设备及存储介质
CN116522212A (zh) 基于图像文本融合的谎言检测方法、装置、设备及介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN116663523A (zh) 多角度增强网络的语义文本相似度计算方法
WO2023168818A1 (zh) 视频和文本相似度确定方法、装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant