CN113255755A - 一种基于异质融合网络的多模态情感分类方法 - Google Patents

一种基于异质融合网络的多模态情感分类方法 Download PDF

Info

Publication number
CN113255755A
CN113255755A CN202110538947.8A CN202110538947A CN113255755A CN 113255755 A CN113255755 A CN 113255755A CN 202110538947 A CN202110538947 A CN 202110538947A CN 113255755 A CN113255755 A CN 113255755A
Authority
CN
China
Prior art keywords
audio
picture
text
feature vector
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110538947.8A
Other languages
English (en)
Other versions
CN113255755B (zh
Inventor
张春霞
高佳萌
彭成
赵嘉旌
薛晓军
牛振东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110538947.8A priority Critical patent/CN113255755B/zh
Publication of CN113255755A publication Critical patent/CN113255755A/zh
Application granted granted Critical
Publication of CN113255755B publication Critical patent/CN113255755B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/259Fusion by voting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Hospice & Palliative Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于异质融合网络的多模态情感分类方法,属于意见挖掘和情感分析技术领域。包括:1)视频数据预处理;2)构建文本特征向量和识别文本情感类别;3)构建图片特征向量和识别图片情感类别;4)构建音频特征向量和识别音频情感类别;5)构建多模态全局特征向量与识别多模态全局情感类别;6)构建多模态局部特征向量与识别多模态局部情感类别;7)采用投票策略获得最终的情感分类结果。异质融合网络采用了模态内融合和模态间融合两种融合形式,宏观和微观两种融合角度,以及特征层融合和决策层融合两种融合策略。所述方法能深度挖掘多模态数据之间隐含的关联信息,实现多模态数据之间的相互补充和融合,从而提高多模态情感分类的准确率。

Description

一种基于异质融合网络的多模态情感分类方法
技术领域
本发明涉及一种基于异质融合网络的多模态情感分类方法,属于意见挖掘和情感分析技术领域。
背景技术
多模态情感分类是社会计算和大数据挖掘领域的重要研究课题。多模态情感分类是指根据网络用户评论的文本、图片和视频等多种模态数据识别网络用户的情感极性。情感极性包括消极和非消极两种类别。
多模态情感分类方法包括基于特征层融合的多模态情感分类方法和基于决策层融合的多模态情感分类方法。
基于特征层融合的多模态情感分类方法,首先构建各种模态数据的特征向量,然后融合单种模态数据的特征向量进行情感分类。例如,一种基于注意力机制的长短期记忆网络模型进行多模态情感分类。首先,提取文本、音频和视觉单种模态数据的特征;其次,利用注意力机制融合文本、音频和视频特征;最后,利用基于注意力机制的长短期记忆网络模型进行情感分类。再如,一种基于模态共同表示和模态特殊表示的多模态情感分类方法。首先,学习文本、音频和视觉三种模态数据的模态共同表示和模态特殊表示,其中模态共同表示用于学习各种模态数据的共同特征,将所有模态数据映射到一个子空间,减少各种模态表示之间的差距;模态特殊表示用于学习各种模态数据的独有特征。然后,融合模态共同表示和模态特殊表示,并利用Transformer进行多模态情感分类。
基于决策层融合的多模态情感分类方法,首先获取单种模态数据的分类结果,然后利用投票、加权求和等方法,获得多模态数据的情感分类结果。例如,针对图片和音频两种模态数据进行多模态情感分类。首先,提取图片特征和识别情感类别,并提取音频特征和识别情感类别;然后,采用加权求和的方法预测情感类别。再如,一种基于树形决策融合策略的多模态情感分类方法。首先,提取图片特征进行情感分类,并获得情感得分。然后,提取音频特征进行情感分类,并获得情感得分。最后,融合图片特征及其情感得分与音频特征及其情感得分,采用树形决策融合策略进行多模态情感分类。
现有的多模态情感分类方法主要存在如下问题:第一,目前多模态情感分类方法主要采用端到端的学习方式,直接对文本、图片等多模态数据进行编码,然后在特征层融合各种模态数据的特征向量,或在决策层融合各种模态数据的情感分类结果。这些方法难以挖掘各种模态数据内部的不同粒度特征。第二,多模态情感分类方法中多模态数据的融合方法单一,难以挖掘多模态数据隐含的关联特征,导致多模态情感分类的准确率不高。
发明内容
本发明的目的是为了解决现有多模态情感分类方法存在融合方法单一、难以挖掘多模态数据隐含的关联特征,导致多模态情感分类准确率不高的问题,提供一种基于异质融合网络的多模态情感分类方法,该方法从网络用户发布的视频中提取文本、图片、音频三种模态数据,利用基于深度学习的异质融合网络模型,分别识别文本、图片、音频以及整体视频的情感类别。
为了达到上述目的,本发明采取如下技术方案。
所述基于异质融合网络的多模态情感分类方法依托于异质融合网络模型;该异质融合网络模型包括三层融合层:
(1)第一融合层为单模态数据的特征融合层,包括文本特征构建模型、图片特征构建模型和音频特征构建模型;
(2)第二融合层为多模态数据的特征融合层,包括子层1多模态全局特征构建模型、子层2多模态局部特征构建模型;
(3)第三融合层是多模态数据的决策融合层;
总之,异质融合网络模型采用了单种模态的模态内融合和多种模态的模态间融合两种融合形式、宏观和微观两种融合角度以及特征层融合和决策层融合两种融合策略;
所述基于异质融合网络的多模态情感分类方法,包括以下步骤:
步骤1:视频数据预处理,输出文本、图片、音频三种模态的数据,即从视频中提取文本、图片、音频三种模态的数据;
其中,视频数据包括完整视频和视频片段,且完整视频的数量为多个,每个完整视频中又包括多个视频片段;
其中,文本为视频中人物所说的内容,包括完整视频的文本内容及每个视频片段的文本内容;图片为视频的画面,包括完整视频的图片内容及每个视频片段的图片内容;音频为视频的声音,包括完整视频的音频内容及每个视频片段的音频内容;
步骤2:构建文本特征向量和识别文本情感类别;
其中,文本特征向量包括片段级文本句向量、语境文本句向量、细粒度文本情感词向量、文本粗粒度特征向量及文本集成特征向量;
步骤2、具体包括如下子步骤:
步骤2.1:基于步骤1中视频中提取的文本,构建片段级文本句向量、语境文本句向量和文本细粒度特征向量;
步骤2.1A:构建片段级文本句向量,具体为:
将每个视频片段的文本内容采用文本预训练模型BERT,进行片段级文本句向量的构建;
步骤2.1B:构建语境文本句向量,具体为:利用文本预训练模型BERT将每个完整视频的文本内容转换成句向量,进行语境文本句向量的构建;
步骤2.1C:构建文本细粒度特征向量,即从每个视频片段的文本中提取情感词并转换为向量,具体为:
步骤2.1C1、从情感词典中提取情感强烈的情感词语及其情感分值;
其中,情感强烈的情感词语是指其情感分值不低于0.5的情感词语;
步骤2.1C2、对于文本T,搜索情感强烈词语词典中的词语是否在文本T中出现;
步骤2.1C3、设文本T包含情感强烈词语词典中的词语w1,w2,...,wn,词语w1,w2,...,wn的情感分值为sp1,sn1,sp2,sn2,..,spn,snn,则构建文本T的文本细粒度特征向量为(sp1,sn1,sp2,sn2,..,spn,snn);
其中,n为文本T中包含情感强烈词语的个数,spi表示词语wi的积极分值,sni表示词语wi的消极分值;
步骤2.2:利用语境文本句向量和片段级文本句向量计算文本语境注意力权重,基于该文本语境注意力权重构建文本粗粒度特征向量,具体过程如下:
步骤2.2.1拼接语境文本句向量和片段级文本句向量,输入到全连接神经网络1中,计算文本语境注意力权重;
步骤2.2.2将文本语境注意力权重与片段级文本句向量相乘,并输入到全连接神经网络2中,生成文本粗粒度特征向量;
步骤2.3:将文本粗粒度特征向量和文本细粒度特征向量进行融合,构建文本集成特征向量,具体包括如下子步骤:
步骤2.3.1将文本细粒度特征向量(sp1,sn1,sp2,sn2,..,spn,snn)输入到长短期记忆网络,获取每个时刻隐含层输出;
其中,长短期记忆网络中的长短期记忆,即Long Short Term Memory,简称LSTM;
步骤2.3.2将每个时刻隐含层输出拼接得到词向量,再将文本粗粒度特征向量与词向量拼接,输入到全连接神经网络3,生成文本集成特征向量;
步骤2.4:基于构建的文本集成特征向量,识别文本情感类别,具体为:将文本集成特征向量输入到全连接神经网络4,进行softmax操作,获得文本情感分类概率,取概率值最大的类别作为文本情感类别;
步骤3:构建图片特征向量和识别图片情感类别;
其中,图片特征向量包括片段级图片序列特征向量、语境图片序列特征向量、图片细粒度特征向量、图片粗粒度特征向量以及图片集成特征向量;
步骤3、具体包括如下子步骤:
步骤3.1:基于步骤1中视频中提取的图片,构建片段级图片序列特征向量、语境图片序列特征向量和图片细粒度特征向量,具体包括如下子步骤:
步骤3.1A:构建片段级图片序列特征向量,具体为:将每个视频片段的图片利用预训练3D卷积神经网络模型构建片段级图片序列特征向量;
其中,3D卷积神经网络模型,即3D-CNN;
步骤3.1B:构建语境图片序列特征向量,具体为:将每个完整视频的图片利用预训练3D卷积神经网络模型构建语境图片序列特征向量;
步骤3.1C:构建图片细粒度特征向量,具体为:利用Facet工具提取每个视频片段的图片中的人脸转换为向量,构建图片细粒度特征向量;
步骤3.2:利用语境图片序列特征向量和片段级图片序列特征向量计算图片语境注意力权重,基于该图片语境注意力权重构建图片粗粒度特征向量,具体过程如下:
步骤3.2.1:拼接语境图片序列特征向量和片段级图片序列特征向量,输入到全连接神经网络5中,计算图片语境注意力权重;
步骤3.2.2:将图片语境注意力权重与片段级图片序列特征向量相乘,并输入到全连接神经网络6中,生成图片粗粒度特征向量;
步骤3.3:将图片粗粒度特征向量和图片细粒度特征向量进行融合,构建图片集成特征向量,具体包括如下子步骤:
步骤3.3.1:将图片粗粒度特征向量与图片细粒度特征向量分别输入到两个图片粗粒度注意力计算网络和图片细粒度注意力计算网络,生成图片粗粒度注意力计算网络输出向量和图片细粒度注意力计算网络输出向量,再对生成的图片粗粒度注意力计算网络输出向量和图片细粒度注意力计算网络输出向量做softmax操作,得到图片粗粒度注意力权重和图片细粒度注意力权重;
步骤3.3.2:将图片粗粒度注意力权重与图片粗粒度特征向量相乘,图片细粒度注意力权重与图片细粒度特征向量相乘,乘积结果求和后输入到全连接神经网络7,生成图片集成特征向量;
步骤3.4:基于构建的图片集成特征向量,识别图片情感类别,具体为:将图片集成特征向量输入到全连接神经网络8,做softmax操作后取图片情感分类概率值最大的类别作为图片情感类别;
步骤4:构建音频特征向量和识别音频情感类别;
其中,音频特征向量包括片段级音频静态特征向量、语境音频静态特征向量、音频细粒度特征向量、音频粗粒度特征向量以及音频集成特征向量;
步骤4、具体包括如下子步骤:
步骤4.1基于步骤1中视频中提取的音频,构建片段级音频静态特征向量、语境音频静态特征向量和音频细粒度特征向量;
步骤4.1A:构建片段级音频静态特征向量,具体为:将每个视频片段的音频利用音频分析处理工具COVAREP构建音频静态特征向量;
静态特征包括频率对数系数、音调、浊音/清音分隔特征以及声门声源参数;
音频分析处理工具COVAREP来自文献《COVAREP-A Collaborative VoiceAnalysis Repository for Speech Technologies》(IEEE International Conference onAcoustics,Speech and Signal Processing,2014);
步骤4.1B:构建语境音频静态特征向量,具体为:将每个完整视频的音频利用音频分析处理工具COVAREP构建语境音频静态特征向量;
步骤4.1C:构建音频细粒度特征向量,具体为:
利用OpenSmile工具对视频片段的音频提取情感相关特征,构建音频细粒度特征向量,OpenSmile工具来源于文献《Opensmile》(Acm Sigmultimedia Records,2015);
步骤4.2:利用语境音频静态特征和片段级音频静态特征计算音频语境注意力权重,利用该音频语境注意力权重构建音频粗粒度特征向量,具体过程如下:
步骤4.2.1拼接语境音频静态特征向量和片段级音频静态特征向量,输入到全连接神经网络9中,计算音频语境注意力权重;
步骤4.2.2将音频语境注意力权重与片段级音频静态特征向量相乘,并输入到全连接神经网络10中,生成音频粗粒度特征向量;
步骤4.3:将音频粗粒度特征向量和音频细粒度特征向量进行融合,构建音频集成特征向量,具体包括如下子步骤:
步骤4.3.1将音频粗粒度特征向量与音频细粒度特征向量分别输入到音频粗粒度注意力计算网络和音频细粒度注意力计算网络,生成音频粗粒度注意力计算网络输出向量和音频细粒度注意力计算网络输出向量,进行softmax操作得到音频粗粒度注意力权重和音频细粒度注意力权重;
步骤4.3.2将音频粗粒度注意力权重与音频粗粒度特征向量相乘,音频细粒度注意力权重与音频细粒度特征向量相乘,乘积结果求和后输入到全连接神经网络11,生成音频集成特征向量;
步骤4.4基于构建的音频集成特征向量,识别音频的情感类别,具体为:将音频集成特征向量输入到全连接神经网络12,并做softmax操作,获得音频情感分类概率,取概率值最大的类别作为音频情感类别;
步骤5:构建多模态全局特征向量与识别多模态全局情感类别,具体包括如下子步骤:
步骤5.1:利用广义线性池化模型融合文本、图片、音频粗粒度特征向量,构建多模态全局特征向量,具体包括如下子步骤:
步骤5.1.1:构建文本映射向量、图片映射向量和音频映射向量,具体为:
将文本粗粒度特征向量、图片粗粒度特征向量、音频粗粒度特征向量分别输入到文本映射网络、图片映射网络和音频映射网络,通过线性映射,分别生成文本映射向量,图片映射向量和音频映射向量;
步骤5.1.2:对文本映射向量、图片映射向量和音频映射向量进行完全交叉式融合,得到映射融合向量,具体过程如下:
步骤5.1.2A:将文本、图片、音频映射向量同时点乘,再两两组合点乘,生成四个中间向量z1、z2、z3、z4
步骤5.1.2B:将四个中间向量z1、z2、z3、z4分别输入到z1、z2、z3、z4注意力计算网络中,生成z1、z2、z3、z4注意力计算网络输出向量,并做softmax操作,分别得到z1、z2、z3、z4注意力权重;
步骤5.1.2C:将四个中间向量z1、z2、z3、z4分别与z1、z2、z3、z4注意力权重点乘后求和,得到映射融合向量;
步骤5.1.3对映射融合向量进行求和池化,并输入到多层感知机中,生成多模态全局特征向量;
步骤5.2:基于构建的多模态全局特征向量,识别多模态全局情感类别,具体为:
将多模态全局特征向量输入到全连接神经网络13,并进行softmax操作,生成多模态全局情感分类概率,取概率值最大的类别作为多模态全局情感类别;
步骤6:构建多模态局部特征向量与识别多模态局部情感类别,具体包括如下子步骤:
步骤6.1:融合文本、图片、音频集成特征向量和多模态全局特征向量,构建多模态局部特征向量,具体为:
步骤6.1.1:将文本集成特征向量、图片集成特征向量、音频集成特征向量和多模态全局特征向量分别输入到文本、图片、音频、多模态全局注意力计算网络中,分别输出文本、图片、音频、多模态全局注意力计算网络输出向量,对其进行softmax操作,得到文本注意力权重、图片注意力权重、音频注意力权重和多模态全局注意力权重;
步骤6.1.2:将文本集成特征向量、图片集成特征向量、音频集成特征向量和多模态全局特征向量分别与文本注意力权重、图片注意力权重、音频注意力权重和多模态全局注意力权重点乘后求和,生成多模态局部特征向量;
步骤6.2:基于构建的多模态局部特征向量,识别多模态局部情感类别,具体为:
将多模态局部特征向量输入到全连接神经网络14,并进行softmax操作,生成多模态局部情感分类概率,取概率值最大的类别作为多模态局部情感类别;
步骤7:采用投票的方式,对步骤2获得的文本情感类别、步骤3获得的图片情感类别、步骤4获得的音频情感类别、步骤5获得的多模态全局情感类别、步骤6获得的多模态局部情感类别进行分类,获得最终情感类别。
有益效果
本发明针对多模态情感分类问题,提出了一种基于异质融合网络的多模态情感分类方法,与现有技术相比,具有如下有益效果:
1.所述方法与基于端到端的多模态情感分类方法相比,所述方法能深度挖掘多模态数据之间隐含的关联信息,实现多模态数据之间的相互补充和融合;
2.异质融合网络分别从宏观角度和微观角度进行多模态数据的融合。从宏观角度,通过多模态全局特征构建模型,融合文本粗粒度特征向量、图片粗粒度特征向量、音频粗粒度特征向量,构建多模态全局特征向量,从而实现对多模态数据的全局和宏观特征建模,从微观角度,通过多模态局部特征构建模型,在多模态全局特征向量的基础上,再融合文本集成特征向量、图片集成特征向量、音频集成特征向量,构建多模态局部特征向量,从而实现对多模态数据的局部和微观特征建模,通过从宏观角度构建的多模态全局特征向量,从微观角度构建的多模态局部特征向量,能够充分挖掘文本、图片和音频的全局式的粗粒度特征和局部式的细粒度特征,进而提高多模态数据情感分类的准确率;
3.本发明提出基于文本语境注意力权重构建文本粗粒度特征向量,基于图片语境注意力权重构建图片粗粒度特征向量,以及基于音频语境注意力权重构建音频粗粒度特征向量,引入各个模态的语境注意力权重,有助于学习文本、图片和音频的上下文语境信息,同时过滤掉与情感无关的特征(比如人物的长相、音色),捕捉与情感紧密相关的特征(比如人物的表情、说话的语气);
4.所述方法提出广义线性池化模型,对现有的双线性池化模型(MultimodalFactorized Bilnear Pooling,简称MFB)进行改进和推广,双线性池化模型MFB主要用于融合两种模态数据,所述方法提出的广义线性池化模型能够融合三种模态数据,且引入了完全交叉式融合,挖掘各个模态之间的映射和互补关系,同时利用注意力机制提取与情感极性相关的重要特征,广义线性池化模型能够实现多模态数据的充分融合,挖掘模态数据间的交互关系,从而提高多模态数据情感分类的准确率。
附图说明
图1为本发明一种基于异质融合网络的多模态情感分类方法及实施例的流程示意图。
具体实施方式
基于本发明方法的多模态情感分类系统以Jupyter notebook为开发工具,Python为开发语言。下面结合实施例对本发明一种基于异质融合网络的多模态情感分类方法的优选实施方式进行详细说明。
实施例1
本实施例叙述了采用本发明所述的一种基于异质融合网络的多模态情感分类方法的流程,如图1所示。输入数据来自于视频情感分类数据集CMU-MOSI,该数据集的情感类标签用{-3,-2,-1,0,1,2,3}中的元素表示,共有7种,其中-3,-2和-1表示消极,0,1,2和3表示非消极。输入数据包括完整视频和视频片段,均提取为文本、图片、音频三种模态数据。
其一,提出一种基于深度学习的异质融合网络模型,该异质融合网络模型采用不同形式、不同策略、从不同角度实现数据的融合,具体地,采用单种模态数据内融合和多种模态数据间融合的两种融合形式,利用特征层融合和决策层融合的两种融合策略,以及从宏观角度构建的多模态全局特征向量和从微观角度构建的多模态局部特征向量的两种融合角度;
其二,异质融合网络第一层为单模态数据的特征层融合:针对文本、图片、音频模态数据,分别构建片段特征向量、语境特征向量和细粒度特征向量;进一步基于语境注意力权重构建文本粗粒度特征向量、图片粗粒度特征向量和音频粗粒度特征向量,并分别融合文本、图片、音频的粗粒度特征向量与细粒度特征向量,构建文本集成特征向量、图片集成特征向量和音频集成特征向量,进行文本、图片和音频单种模态数据的情感分类(对应步骤2、3、4);
其三,异质融合网络第二层为多模态数据的特征层融合,第二层包括子层1多模态全局特征构建模型和子层2多模态局部特征构建模型;
子层1多模态全局特征构建模型从宏观角度进行多模态数据融合,并对双线性池化进行改进和推广,提出广义线性池化模型,引入完全交叉式融合,融合文本、图片、音频三种模态数据的粗粒度特征向量,构建多模态全局特征向量并进行情感分类(对应步骤5);
子层2多模态局部特征构建模型从微观角度进行多模态数据融合,融合文本、图片、音频的集成特征向量与多模态全局特征向量,构建多模态局部特征向量并进行情感分类(对应步骤6);
其四,异质融合网络第三层为多模态数据的决策层融合,将五个情感分类结果即文本情感类别、图片情感类别、音频类别、多模态类别以及多模态局部特征类别进行投票,获得最终情感类别,从而实现两种多模态融合机制即特征层融合和决策层融合的有机集成(对应步骤7)。
从图1可以看出,具体包括如下步骤:
步骤1:视频数据预处理,输出文本、图片、音频三种模态的数据;
下载CMU-MOSI数据集提供的视频片段和完整视频的文本、图片、音频数据,如图1所示,完整视频的文本内容为“So tonight I went and saw the movie Crazy stupidlove...I actually really love this movie...it was a really good movie reallygood soundtrack...”,视频片段的文本内容为“I actually really love this movie”;
步骤2:构建文本特征向量和识别文本情感类别,该步骤属于异质融合网络模型的第一融合层(单模态数据的特征融合层)中的文本特征构建模型;
其中,文本特征向量包括片段级文本句向量、语境文本句向量、细粒度文本情感词向量、文本粗粒度特征向量以及文本集成特征向量;
步骤2、具体包括如下子步骤:
步骤2.1:基于步骤1中视频中提取的文本,构建片段级文本句向量、语境文本句向量和文本细粒度特征向量;
步骤2.1A:构建片段级文本句向量,具体为:
将视频片段文本内容“I actually really love this movie.”利用文本预训练模型BERT,构建语境文本句向量Vsent_f,维度为1024;
步骤2.1B:构建语境文本句向量,具体为:
将完整视频的文本内容“So tonight I went and saw the movie Crazy stupidlove...I actually really love this movie...it was a really good movie reallygood soundtrack...”利用文本预训练模型BERT,构建语境文本句向量Vsent_c,维度为1024;
步骤2.1C:构建文本细粒度特征向量,即从每个视频片段的文本中提取情感词并转换为向量,具体为:
从情感词典SentiWordNet中提取情感较为强烈的情感词语及其情感分值,构建情感强烈词语词典。情感词典SentiWordNet来源于文献“《SentiWordNet 3.0:An EnhancedLexical Resource for Sentiment Analysis and Opinion Mining》(languageresources and evaluation,2010)”;
对于句子“I actually really love this movie”,中提取情感词“really”和“love”,情感词“really”的积极情感得分为0.625,消极情感得分为0,情感词“love”的积极情感得分为1,消极情感得分为0,构建文本细粒度特征向量Vtff=(0.625,0,1,0);
步骤2.2:利用语境文本句向量和片段级文本句向量计算文本语境注意力权重,基于该文本语境注意力权重构建文本粗粒度特征向量,具体过程如下:
步骤2.2.1拼接语境文本句向量Vsent_c和片段级文本句向量Vsent_f,输入到全连接神经网络1中,计算文本语境注意力权重at,如公式(1)所示:
at=Tanh(W1[Vsent_c,Vsent_f]+b1) (1)
其中,Tanh是激活函数,W1是全连接神经网络1的结点权重,b1是全连接神经网络1的阈值,文本语境注意力权重at的维度为512;
步骤2.2.2将文本语境注意力权重at与片段级文本句向量Vsent_f相乘,并输入到全连接神经网络2中,生成文本粗粒度特征向量Vtcf,如公式(2)所示:
Vtcf=Tanh(W2[atVsent_f]+b2) (2)
其中,W2是全连接神经网络2的权重,b2是全连接神经网络2的阈值,文本粗粒度特征向量Vtcf的维度为256;
步骤2.3:将文本粗粒度特征向量和文本细粒度特征向量进行融合,构建文本集成特征向量,该步骤针对文本,采用了单种模态的模态内融合形式,并采用了特征层融合策略。具体包括如下子步骤:
步骤2.3.1将文本细粒度特征向量Viff(0.625,0,1,0)输入到长短期记忆网络(Long short term memory,简称LSTM),获取每个时刻隐含层输出ht,如公式(3)所示:
ht=LSTM(spt,snt),t∈[1,n] (3)
其中,n表示情感词个数,t表示时刻,长短期记忆网络的隐含层结点数为4,最大步长为25;
步骤2.3.2将每个时刻隐含层输出ht拼接,获得词向量Vword,其维度为100,然后,将文本粗粒度特征向量Vtcf与词向量Vword拼接,输入到全连接神经网络3,生成文本集成特征向量Vtf,如公式(4)所示:
Vtf=Tanh(W3[Vtcf,Vword]+b3) (4)
其中,Tanh是激活函数,W3是全连接神经网络3的权重,b3是全连接神经网络3的阈值,文本集成特征向量Vtf的维度为256;
步骤2.4:基于构建的文本集成特征向量,识别文本的情感类别,具体为:将文本集成特征向量Vtf输入到全连接神经网络4,获得文本情感分类概率Ptf,如公式(5)所示:
Ptf=sotfmax(W4Vtf+b4) (5)
其中,softmax是激活函数,W4和b4分别为全连接神经网络4的权重和阈值,文本情感分类概率Ptf的维度为7,即七种情感得分{-3,-2,-1,0,1,2,3}的概率;
取概率值最大的得分作为预测得分,并根据预测得分划分消极、非消极类别,得到文本情感类别Ctf,该示例文本情感类别为非消极;
步骤3:构建图片特征向量和识别图片情感类别,该步骤属于异质融合网络模型的第一融合层(单模态数据的特征融合层)中的图片特征构建模型;
其中,图片特征向量包括片段级图片序列特征向量、语境图片序列特征向量、图片细粒度特征向量、图片粗粒度特征向量以及图片集成特征向量;
步骤3、具体包括如下子步骤:
步骤3.1:基于步骤1中视频中提取的图片,构建片段级图片序列特征向量、语境图片序列特征向量和图片细粒度特征向量;
步骤3.1A:构建片段级图片序列特征向量,具体为:将每个视频片段的图片利用3D卷积神经网络模型提取片段图片序列特征向量Vseq_f,维度为2048;
步骤3.1B:构建语境图片序列特征向量,具体为:使用3D卷积神经网络模型模型将每个完整视频的图片转换为语境图片序列特征向量Vseq_c,维度为2048;
步骤3.1C:构建图片细粒度特征向量,具体为:利用Facet工具提取每个视频片段的图片中的人脸,转换为向量,构建图片细粒度特征向量Viff,维度为74;
步骤3.2:利用语境图片序列特征向量和片段级图片序列特征向量计算图片语境注意力权重,基于该图片语境注意力权重构建图片粗粒度特征向量,具体过程如下:
步骤3.2.1:拼接语境图片序列特征向量Vseq_c和片段级图片序列特征向量Vseq_f,输入到全连接神经网络5中,计算图片语境注意力权重ai,如公式(6)所示:
ai=Tanh(W5[Vseq_c,Vseq_f]+b5) (6)
其中,Tanh是激活函数,W5是全连接神经网络5的权重,b5是全连接神经网络5的阈值,图片语境注意力权重ai的维度为1024;
步骤3.2.2:将图片语境注意力权重ai与片段级图片序列特征向量Vseq_f相乘,并输入到全连接神经网络6中,生成图片粗粒度特征向量Vicf,如公式(7)所示:
Vicf=Tanh(W6[aiVseq_f]+b6) (7)
其中,W6是全连接神经网络6的权重,b6是全连接神经网络6的阈值,图片粗粒度特征向量Vicf的维度为256;
步骤3.3:将图片粗粒度特征向量和图片细粒度特征向量进行融合,构建图片集成特征向量,该步骤针对图片,采用了单种模态的模态内融合形式,并采用了特征层融合策略。具体包括如下子步骤:
步骤3.3.1:将图片粗粒度特征向量Vicf与图片细粒度特征向量Viff分别输入到图片粗粒度注意力计算网络和图片细粒度注意力计算网络,生成图片粗粒度注意力计算网络输出向量hicf和图片细粒度注意力计算网络输出向量hiff,对其做softmax操作得到图片粗粒度注意力权重aicf和图片细粒度注意力权重aiff,如公式(8)-(9)所示:
hk=Tanh(WkVk+bk),k∈{icf,iff} (8)
Figure BDA0003071005830000141
其中,Wicf和bicf分别为图片粗粒度注意力计算网络的权重和阈值,Wiff和biff分别为图片细粒度注意力计算网络的权重和阈值,图片粗粒度注意力权重aicf和图片细粒度注意力权重aiff的维度均为256;
步骤3.3.2:将图片粗粒度注意力权重aicf与图片粗粒度特征向量Vicf相乘,图片细粒度注意力权重aiff与图片细粒度特征向量Viff相乘,乘积结果求和后输入到全连接神经网络7,生成图片集成特征向量Vif,如公式(10)所示:
Figure BDA0003071005830000142
其中,W7是全连接神经网络7的权重,b7是全连接神经网络7的阈值,图片集成特征向量Vif的维度为256;
步骤3.4:基于构建的图片集成特征向量,识别图片的情感类别,具体为:将图片集成特征向量Vif输入到全连接神经网络8,获得图片情感分类概率Pif,如公式(11)所示;
Pif=softmax(W8Vif+b8) (11)
其中,softmax是激活函数,W8和b8分别为全连接神经网络8的权重和阈值,图片情感分类概率Pif的维度为7,即七种情感得分{-3,-2,-1,0,1,2,3}的概率;
取概率值最大的得分作为预测得分,并根据预测得分划分消极、非消极类别,得到图片情感类别Cif,该示例图片情感类别为消极;
步骤4:构建音频特征向量和识别音频情感类别,该步骤属于异质融合网络模型的第一融合层(单模态数据的特征融合层)中的音频特征构建模型;
其中,音频特征向量包括片段级音频静态特征向量、语境音频静态特征向量、音频细粒度特征向量、音频粗粒度特征向量以及音频集成特征向量;
步骤4、具体包括如下子步骤:
步骤4.1基于步骤1中视频中提取的音频,构建片段级音频静态特征向量、语境音频静态特征向量和音频细粒度特征向量;
步骤4.1A:构建片段级音频静态特征向量,具体为:
将每个视频片段的音频利用音频分析处理工具COVAREP进行音频静态特征向量Vsta_f的构建,维度为74;
步骤4.1B:构建语境音频静态特征向量,具体为:将每个完整视频的音频利用音频分析处理工具COVAREP进行语境音频静态特征向量Vsta_c的构建,维度为74;
步骤4.1C:构建音频细粒度特征向量,具体为:
利用OpenSmile工具对视频片段的音频提取情感相关特征,进行音频细粒度特征向量Vaff的构建,维度为384;
步骤4.2:利用语境音频静态特征和片段级音频静态特征计算音频语境注意力权重,基于该音频语境注意力权重构建音频粗粒度特征向量,具体过程如下:
步骤4.2.1拼接语境音频静态特征向量Vsta_c和片段级音频静态特征向量Vsta_f,输入到全连接神经网络9中,计算音频语境注意力权重au,如公式(12)所示:
au=Tanh(W9[Vsta_c,Vsta_f]+b9) (12)
其中,Tanh是激活函数,W9是全连接神经网络9的权重,b9是全连接神经网络9的阈值,音频语境注意力权重au的维度为74;
步骤4.2.2将音频语境注意力权重au与片段级音频静态特征向量Vsta_f相乘,并输入到全连接神经网络10中,生成音频粗粒度特征向量Vacf,如公式(13)所示:
Vacf=Tanh(W10[auVsta_f]+b10) (13)
其中,W10是全连接神经网络10的权重,b10是全连接神经网络10的阈值,音频粗粒度特征向量Vacf的维度为256;
步骤4.3:将音频粗粒度特征向量和音频细粒度特征向量进行融合,构建音频集成特征向量,该步骤针对音频,采用了单种模态的模态内融合形式,并采用了特征层融合策略。具体包括如下子步骤:
步骤4.3.1将音频粗粒度特征向量Vacf与音频细粒度特征向量Vaff分别输入到音频粗粒度注意力计算网络和音频细粒度注意力计算网络,生成音频粗粒度注意力计算网络输出向量hacf和音频细粒度注意力计算网络输出向量haff,进行softmax操作得到音频粗粒度注意力权重aacf和音频细粒度注意力权重aaff,如公式(14)-(15)所示:
hk=Tanh(WkVk+bk),k∈{acf,aff} (14)
Figure BDA0003071005830000161
其中,Wacf和bacf是分别为音频粗粒度注意力计算网络的权重和阈值,Waff和baff为音频细粒度注意力计算网络的权重和阈值,音频粗粒度注意力权重aacf和音频细粒度注意力权重aaff的维度均为256;
步骤4.3.2将音频粗粒度注意力权重aacf与音频粗粒度特征向量Vacf相乘,音频细粒度注意力权重aaff与音频细粒度特征向量Vaff相乘,乘积结果求和后输入到全连接神经网络11,生成音频集成特征向量Vaf,如公式(16)所示:
Figure BDA0003071005830000162
其中,Tanh是激活函数,W11是全连接神经网络11的权重,b11是全连接神经网络11的阈值,音频集成特征向量Vaf的维度为256;
步骤4.4基于构建的音频集成特征向量,识别音频的情感类别,具体为:将音频集成特征向量Vaf输入到全连接神经网络12,获得音频情感分类概率Paf,如公式(17)所示:
Paf=softmax(W12Vaf+b12) (17)
其中,softmax是激活函数,W12是全连接神经网络12的权重,b12是全连接神经网络12的阈值;音频情感分类概率Paf的维度为7,即七种情感得分{-3,-2,-1,0,1,2,3}的概率;
取概率值最大的得分作为预测得分,并根据预测得分划分消极、非消极类别,得到音频情感类别Cif,该示例音频情感类别为非消极;
步骤5:构建多模态picf=Wi*Vicf+bi全局特征向量与识别多模态全局情感类别,该步骤属于异质融合网络模型的第二融合层(多模态数据的特征融合层)中的子层1,即多模态全局特征向量构建模型,该子层从宏观角度、采用多种模态的模态间融合形式、以及特征层融合策略实现数据的融合;
具体包括如下子步骤;
步骤5.1:利用广义线性池化模型融合文本、图片、音频粗粒度特征向量,构建多模态全局特征向量,广义线性池化模型对双线性池化模型进行了改进和推广,引入了完全交叉式融合,并利用了注意力机制,充分挖掘三种模态数据间的隐含交互关系,实现多模态数据融合,具体包括如下子步骤:
步骤5.1.1:构建文本映射向量、图片映射向量和音频映射向量,具体为:
将文本粗粒度特征向量Vtcf、图片粗粒度特征向量Vicf、音频粗粒度特征向量Vacf分别输入到文本映射网络、图片映射网络和音频映射网络,通过线性映射,分别生成向量文本映射向量ptcf,图片映射向量picf和音频映射向量pacf,如公式(18)、(19)和(20)所示;Ptcf=Wt*Vtcf+bt
ptcf=Wt*Vtcf+bt (18)
(19)
pacf=Wa*Vacf+ba (20)
其中,Wt和bt分别为文本映射网络的权重和阈值,Wi和bi分别为图片映射网络的权重和阈值,Wa和ba分别为音频映射网络的权重和阈值,文本映射向量ptcf,图片映射向量picf和音频映射向量pacf的维度均为4096;
步骤5.1.2:对文本映射向量、图片映射向量和音频映射向量进行完全交叉式融合,具体过程如下:
步骤5.1.2A:将文本映射向量ptcf,图片映射向量picf和音频映射向量pacf同时点乘,再两两组合点乘,生成四个中间向量z1、z2、z3、z4,如公式(21)、(22)、(23)和(24)所示:
z1=ptcf*picf*pacf (21)
z2=ptcf*pacf (22)
Figure BDA0003071005830000181
z3=picf*pacf (23)
z4=ptcf*picf (24)
步骤5.1.2B:将四个中间向量z1、z2、z3、z4分别输入到z1、z2、z3、z4注意力计算网络中,分别输出z1、z2、z3、z4注意力计算网络输出向量h1、h2、h3、h4,并对其进行softmax操作,分别得到z1、z2、z3、z4注意力权重a1、a2、a3、a4,如公式(25)和(26)所示:
hj=Tanh(Wkzj+bk),j∈[1,2,3,4],k∈[z1,z2,z3,z4] (25)
Figure BDA0003071005830000182
其中,Wz1和bz1为z1注意力计算网络的权重和阈值,Wz2和bz2为z2注意力计算网络的权重和阈值,Wz3和bz3为z3注意力计算网络的权重和阈值,Wz4和bz4为z4注意力计算网络的权重和阈值,z1、z2、z3、z4注意力权重a1、a2、a3、a4的维度均为4096;
步骤5.1.2C:将四个中间向量z1、z2、z3、z4分别与z1、z2、z3、z4注意力权重a1、a2、a3、a4进行点乘后求和,生成映射融合向量Vtmp,其维度为4096,如公式(27)所示;
(27)
步骤5.1.3对映射融合向量Vtmp进行求和池化,并输入到多层感知机中,生成多模态全局特征向量Vmgf,如公式(28)所示:
Vmgf=MLP(SumPooling(Vtmp)) (28)
其中,MLP(Multi-Layer Perceptron)表示多层感知机,SumPooling表示求和池化,多模态全局特征向量Vmgf的维度为256;
步骤5.2:基于构建的多模态全局特征向量,识别多模态全局情感类别,具体为:
将多模态全局特征向量Vmgf输入到全连接神经网络13,生成多模态全局情感分类概率Pmgf,如公式(29)所示:
Pmgf=softmax(W13Vmgf+b13) (29)
其中,softmax是激活函数,W13是全连接神经网络13的权重,b13是全连接神经网络13的阈值;多模态全局情感分类概率Pmgf的维度为7,即七种情感得分{-3,-2,-1,0,1,2,3}的概率;
取概率值最大的得分作为预测得分,并根据预测得分划分消极、非消极类别,得到多模态全局情感类别Cmgf,该示例多模态全局情感类别为非消极;
步骤6:构建多模态局部特征向量与识别多模态局部情感类别,该步骤属于异质融合网络模型的第二融合层(多模态数据的特征融合层)的子层2,即多模态局部特征向量构建模型,该子层从微观角度、采用多种模态的模态间融合形式、以及特征层融合策略实现数据的融合;
具体包括如下子步骤:
步骤6.1:融合文本、图片、音频集成特征向量和多模态全局特征向量,构建多模态局部特征向量,具体为:
步骤6.1.1:将文本集成特征向量Vtf、图片集成特征向量Vif、音频集成特征向量Vaf和多模态全局特征向量Vmgf分别输入到文本、图片、音频、多模态全局注意力计算网络中,分别输出文本、图片、音频、多模态全局注意力计算网络输出向量htf,hif,haf和hmgf,对其进行softmax操作,得到文本注意力权重atf、图片注意力权重aif、音频注意力权重aaf和多模态全局注意力权重amgf,其维度均为256,如公式(30)-(31)所示:
hk=Tanh(WkVk+bk),k∈{tf,if,af,mgf} (30)
Figure BDA0003071005830000191
其中,Wtf和btf分别为文本注意力计算网络的权重和阈值,Wif和bif分别为图片注意力计算网络的权重和阈值,Waf和baf分别为音频注意力计算网络的权重和阈值,Wmgf和bmgf分别为多模态全局注意力计算网络的权重和阈值;
步骤6.1.2:将文本集成特征向量Vtf、图片集成特征向量Vif、音频集成特征向量Vaf和多模态全局特征向量Vmgf分别与文本注意力权重atf、图片注意力权重aif、音频注意力权重aaf和多模态全局注意力权重amgf点乘后求和,输入到全连接神经网络14中,生成多模态局部特征向量Vmlf,如公式(32)所示:
Figure BDA0003071005830000201
其中,W14和b14分别为全连接神经网络14的权重和阈值,多模态局部特征向量Vmlf的维度为128;
步骤6.2:基于构建的多模态局部特征向量,识别多模态局部情感类别,具体为:
将多模态局部特征向量Vmlf输入到全连接神经网络15,生成多模态局部情感分类概率Pmlf,如公式(33)所示:
Pmlf=softmax(W15Vmlf+b15) (33)
其中softmax为激活函数,W15和b15分别为全连接神经网络15的权重和阈值;多模态局部情感分类概率Pmlf的维度为7,即七种情感得分{-3,-2,-1,0,1,2,3}的概率;
取概率值最大的得分作为预测得分,并根据预测得分划分消极、非消极类别,得到多模态局部情感类别Cmlf,该示例多模态局部情感类别为非消极;
步骤7:采用投票策略获得最终的情感分类结果,该步骤属于异质融合网络模型的第三融合层,即多模态数据的决策融合层,该层次采用多种模态的模态间融合形式、以及决策层融合策略实现数据的融合。具体为:
通过步骤2、步骤3、步骤4、步骤5和步骤6分别获得情感类别为非消极、消极、非消极、非消极、非消极。投票后,类别非消极票数最多,即最终情感类别为非消极。
为说明本发明的多模态情感分类效果,本实验是在同等条件下,以相同的训练集、验证集和测试集分别采用三种方法进行比较。
第一种方法是基于张量融合网络(Tensor Fusion Network)的方法,具体步骤包括首先对视频的文本、视觉、声音三种模态数据分别学习单种模态数据编码,然后将三种模态编码采用笛卡尔积的方式融合,并进行情感分类。第二种方法是基于循环变异编码网络(Recurrent Attended Variation Embedding Network)的方法,具体步骤包括首先提取文本中每个单词对应的音频片段和视觉片段,然后利用长短期记忆网络分别对音频信息和视觉信息进行编码,并输入到门控模态混合网络,最后由多模态移位模块生成多模态表示,进行情感分类。第三种方法是本发明的多模态情感分类方法。
采用的评测指标为:Acc-2和marco-F1。Acc-2是指二分类的准确率,类别包括消极、非消极。准确率Accuracy表示所有样本中分类正确的样本比例,计算方法如公式(40)所示,其中N表示样本总数,Nr表示正确分类的样本数。
Figure BDA0003071005830000211
宏F1(macro-F1)计算公式如公式(41)和(42)所示,其中c表示类别,C表示类别数,Pc表示类别c的准确率,Rc表示类别c的召回率,F1(c)表示类别c的F1得分,Macro-F1是指将所有类别的F1得分求平均值。
Figure BDA0003071005830000212
Figure BDA0003071005830000213
多模态情感分类的识别结果为:已有技术的基于张量融合网络的多模态情感分类方法的Acc-2值为73.9%,宏F1值为73.4%,已有技术的基于循环变异编码网络的多模态情感分类方法的Acc-2值为78.0%,宏F1值为76.6%,采用本方法的Acc-2值为82.36%,宏F1值为82.30%。通过实验表明了提出的基于异质融合网络的多模态情感分类方法的有效性。
以上所述为本发明的较佳实施例而已,本发明不应局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims (10)

1.一种基于异质融合网络的多模态情感分类方法,其特征在于:依托于异质融合网络模型;该异质融合网络模型包括三层融合层:
(1)第一融合层为单模态数据的特征融合层,包括文本特征构建模型、图片特征构建模型和音频特征构建模型;
(2)第二融合层为多模态数据的特征融合层,包括子层1多模态全局特征构建模型、子层2多模态局部特征构建模型;
(3)第三融合层是多模态数据的决策融合层;
所述基于异质融合网络的多模态情感分类方法,包括以下步骤:
步骤1:视频数据预处理,输出文本、图片、音频三种模态的数据,即从视频中提取文本、图片、音频三种模态的数据;
步骤2:构建文本特征向量和识别文本情感类别;
其中,文本特征向量包括片段级文本句向量、语境文本句向量、细粒度文本情感词向量、文本粗粒度特征向量及文本集成特征向量;
步骤2、具体包括如下子步骤:
步骤2.1:基于步骤1中视频中提取的文本,构建片段级文本句向量、语境文本句向量和文本细粒度特征向量;
步骤2.1A:构建片段级文本句向量,具体为:
将每个视频片段的文本内容采用文本预训练模型BERT,进行片段级文本句向量的构建;
步骤2.1B:构建语境文本句向量,具体为:利用文本预训练模型BERT将每个完整视频的文本内容转换成句向量,进行语境文本句向量的构建;
步骤2.1C:构建文本细粒度特征向量,即从每个视频片段的文本中提取情感词并转换为向量,具体为:
步骤2.1C1、从情感词典中提取情感强烈的情感词语及其情感分值;
步骤2.1C2、对于文本T,搜索情感强烈词语词典中的词语是否在文本T中出现;
步骤2.1C3、设文本T包含情感强烈词语词典中的词语w1,w2,...,wn,词语w1,w2,...,wn的情感分值为sp1,sn1,sp2,sn2,..,spn,snn,则构建文本T的文本细粒度特征向量为(sp1,sn1,sp2,sn2,..,spn,snn);
其中,n为文本T中包含情感强烈词语的个数,spi表示词语wi的积极分值,sni表示词语wi的消极分值;
步骤2.2:利用语境文本句向量和片段级文本句向量计算文本语境注意力权重,基于该文本语境注意力权重构建文本粗粒度特征向量,具体过程如下:
步骤2.2.1拼接语境文本句向量和片段级文本句向量,输入到全连接神经网络1中,计算文本语境注意力权重;
步骤2.2.2将文本语境注意力权重与片段级文本句向量相乘,并输入到全连接神经网络2中,生成文本粗粒度特征向量;
步骤2.3:将文本粗粒度特征向量和文本细粒度特征向量进行融合,构建文本集成特征向量,具体包括如下子步骤:
步骤2.3.1将文本细粒度特征向量(sp1,sn1,sp2,sn2,..,spn,snn)输入到长短期记忆网络,获取每个时刻隐含层输出;
步骤2.3.2将每个时刻隐含层输出拼接得到词向量,再将文本粗粒度特征向量与词向量拼接,输入到全连接神经网络3,生成文本集成特征向量;
步骤2.4:基于构建的文本集成特征向量,识别文本情感类别,具体为:将文本集成特征向量输入到全连接神经网络4,进行softmax操作,获得文本情感分类概率,取概率值最大的类别作为文本情感类别;
步骤3:构建图片特征向量和识别图片情感类别;
其中,图片特征向量包括片段级图片序列特征向量、语境图片序列特征向量、图片细粒度特征向量、图片粗粒度特征向量以及图片集成特征向量;
步骤3、具体包括如下子步骤:
步骤3.1:基于步骤1中视频中提取的图片,构建片段级图片序列特征向量、语境图片序列特征向量和图片细粒度特征向量,具体包括如下子步骤:
步骤3.1A:构建片段级图片序列特征向量,具体为:将每个视频片段的图片利用预训练3D卷积神经网络模型构建片段级图片序列特征向量;
其中,3D卷积神经网络模型,即3D-CNN;
步骤3.1B:构建语境图片序列特征向量,具体为:将每个完整视频的图片利用预训练3D卷积神经网络模型构建语境图片序列特征向量;
步骤3.1C:构建图片细粒度特征向量,具体为:利用Facet工具提取每个视频片段的图片中的人脸转换为向量,构建图片细粒度特征向量;
步骤3.2:利用语境图片序列特征向量和片段级图片序列特征向量计算图片语境注意力权重,基于该图片语境注意力权重构建图片粗粒度特征向量,具体过程如下:
步骤3.2.1:拼接语境图片序列特征向量和片段级图片序列特征向量,输入到全连接神经网络5中,计算图片语境注意力权重;
步骤3.2.2:将图片语境注意力权重与片段级图片序列特征向量相乘,并输入到全连接神经网络6中,生成图片粗粒度特征向量;
步骤3.3:将图片粗粒度特征向量和图片细粒度特征向量进行融合,构建图片集成特征向量,具体包括如下子步骤:
步骤3.3.1:将图片粗粒度特征向量与图片细粒度特征向量分别输入到两个图片粗粒度注意力计算网络和图片细粒度注意力计算网络,生成图片粗粒度注意力计算网络输出向量和图片细粒度注意力计算网络输出向量,再对生成的图片粗粒度注意力计算网络输出向量和图片细粒度注意力计算网络输出向量做softmax操作,得到图片粗粒度注意力权重和图片细粒度注意力权重;
步骤3.3.2:将图片粗粒度注意力权重与图片粗粒度特征向量相乘,图片细粒度注意力权重与图片细粒度特征向量相乘,乘积结果求和后输入到全连接神经网络7,生成图片集成特征向量;
步骤3.4:基于构建的图片集成特征向量,识别图片情感类别,具体为:将图片集成特征向量输入到全连接神经网络8,做softmax操作后取图片情感分类概率值最大的类别作为图片情感类别;
步骤4:构建音频特征向量和识别音频情感类别;
其中,音频特征向量包括片段级音频静态特征向量、语境音频静态特征向量、音频细粒度特征向量、音频粗粒度特征向量以及音频集成特征向量;
步骤4、具体包括如下子步骤:
步骤4.1基于步骤1中视频中提取的音频,构建片段级音频静态特征向量、语境音频静态特征向量和音频细粒度特征向量;
步骤4.1A:构建片段级音频静态特征向量,具体为:将每个视频片段的音频利用音频分析处理工具COVAREP构建音频静态特征向量;
步骤4.1B:构建语境音频静态特征向量,具体为:将每个完整视频的音频利用音频分析处理工具COVAREP构建语境音频静态特征向量;
步骤4.1C:构建音频细粒度特征向量;
步骤4.2:利用语境音频静态特征和片段级音频静态特征计算音频语境注意力权重,利用该音频语境注意力权重构建音频粗粒度特征向量,具体过程如下:
步骤4.2.1拼接语境音频静态特征向量和片段级音频静态特征向量,输入到全连接神经网络9中,计算音频语境注意力权重;
步骤4.2.2将音频语境注意力权重与片段级音频静态特征向量相乘,并输入到全连接神经网络10中,生成音频粗粒度特征向量;
步骤4.3:将音频粗粒度特征向量和音频细粒度特征向量进行融合,构建音频集成特征向量,具体包括如下子步骤:
步骤4.3.1将音频粗粒度特征向量与音频细粒度特征向量分别输入到音频粗粒度注意力计算网络和音频细粒度注意力计算网络,生成音频粗粒度注意力计算网络输出向量和音频细粒度注意力计算网络输出向量,进行softmax操作得到音频粗粒度注意力权重和音频细粒度注意力权重;
步骤4.3.2将音频粗粒度注意力权重与音频粗粒度特征向量相乘,音频细粒度注意力权重与音频细粒度特征向量相乘,乘积结果求和后输入到全连接神经网络11,生成音频集成特征向量;
步骤4.4基于构建的音频集成特征向量,识别音频的情感类别,具体为:将音频集成特征向量输入到全连接神经网络12,并做softmax操作,获得音频情感分类概率,取概率值最大的类别作为音频情感类别;
步骤5:构建多模态全局特征向量与识别多模态全局情感类别,具体包括如下子步骤:
步骤5.1:利用广义线性池化模型融合文本、图片、音频粗粒度特征向量,构建多模态全局特征向量,具体包括如下子步骤:
步骤5.1.1:构建文本映射向量、图片映射向量和音频映射向量,具体为:
将文本粗粒度特征向量、图片粗粒度特征向量、音频粗粒度特征向量分别输入到文本映射网络、图片映射网络和音频映射网络,通过线性映射,分别生成文本映射向量,图片映射向量和音频映射向量;
步骤5.1.2:对文本映射向量、图片映射向量和音频映射向量进行完全交叉式融合,得到映射融合向量;
步骤5.1.3对映射融合向量进行求和池化,并输入到多层感知机中,生成多模态全局特征向量;
步骤5.2:基于构建的多模态全局特征向量,识别多模态全局情感类别,具体为:将多模态全局特征向量输入到全连接神经网络13,并进行softmax操作,生成多模态全局情感分类概率,取概率值最大的类别作为多模态全局情感类别;
步骤6:构建多模态局部特征向量与识别多模态局部情感类别,具体包括如下子步骤:
步骤6.1:融合文本、图片、音频集成特征向量和多模态全局特征向量,构建多模态局部特征向量,具体为:
步骤6.1.1:将文本集成特征向量、图片集成特征向量、音频集成特征向量和多模态全局特征向量分别输入到文本、图片、音频、多模态全局注意力计算网络中,分别输出文本、图片、音频、多模态全局注意力计算网络输出向量,对其进行softmax操作,得到文本注意力权重、图片注意力权重、音频注意力权重和多模态全局注意力权重;
步骤6.1.2:将文本集成特征向量、图片集成特征向量、音频集成特征向量和多模态全局特征向量分别与文本注意力权重、图片注意力权重、音频注意力权重和多模态全局注意力权重点乘后求和,生成多模态局部特征向量;
步骤6.2:基于构建的多模态局部特征向量,识别多模态局部情感类别,具体为:将多模态局部特征向量输入到全连接神经网络14,并进行softmax操作,生成多模态局部情感分类概率,取概率值最大的类别作为多模态局部情感类别;
步骤7:采用投票的方式,对步骤2获得的文本情感类别、步骤3获得的图片情感类别、步骤4获得的音频情感类别、步骤5获得的多模态全局情感类别、步骤6获得的多模态局部情感类别进行分类,获得最终情感类别。
2.根据权利要求1所述的一种基于异质融合网络的多模态情感分类方法,其特征在于:依托的异质融合网络模型采用了单种模态的模态内融合和多种模态的模态间融合两种融合形式、宏观和微观两种融合角度以及特征层融合和决策层融合两种融合策略。
3.根据权利要求2所述的一种基于异质融合网络的多模态情感分类方法,其特征在于:步骤1中,视频数据包括完整视频和视频片段,且完整视频的数量为多个,每个完整视频中又包括多个视频片段。
4.根据权利要求3所述的一种基于异质融合网络的多模态情感分类方法,其特征在于:步骤1中,文本为视频中人物所说的内容,包括完整视频的文本内容及每个视频片段的文本内容;图片为视频的画面,包括完整视频的图片内容及每个视频片段的图片内容;音频为视频的声音,包括完整视频的音频内容及每个视频片段的音频内容。
5.根据权利要求4所述的一种基于异质融合网络的多模态情感分类方法,其特征在于:步骤2.1C1中,情感强烈的情感词语是指其情感分值不低于0.5的情感词语。
6.根据权利要求5所述的一种基于异质融合网络的多模态情感分类方法,其特征在于:步骤2.3.1中,长短期记忆网络中的长短期记忆,即Long Short Term Memory,简称LSTM。
7.根据权利要求6所述的一种基于异质融合网络的多模态情感分类方法,其特征在于:步骤4.1A的静态特征包括频率对数系数、音调、浊音/清音分隔特征以及声门声源参数。
8.根据权利要求7所述的一种基于异质融合网络的多模态情感分类方法,其特征在于:步骤4.1A的音频分析处理工具COVAREP来自文献《COVAREP-A Collaborative VoiceAnalysis Repository for Speech Technologies》(IEEE International Conference onAcoustics,Speech and Signal Processing,2014)。
9.根据权利要求8所述的一种基于异质融合网络的多模态情感分类方法,其特征在于:步骤4.1C,具体为:利用OpenSmile工具对视频片段的音频提取情感相关特征,构建音频细粒度特征向量,OpenSmile工具来源于文献《Opensmile》(Acm Sigmultimedia Records,2015)。
10.根据权利要求9所述的一种基于异质融合网络的多模态情感分类方法,其特征在于:步骤5.1.2,具体过程如下:
步骤5.1.2A:将文本、图片、音频映射向量同时点乘,再两两组合点乘,生成四个中间向量z1、z2、z3、z4
步骤5.1.2B:将四个中间向量z1、z2、z3、z4分别输入到z1、z2、z3、z4注意力计算网络中,生成z1、z2、z3、z4注意力计算网络输出向量,并做softmax操作,分别得到z1、z2、z3、z4注意力权重;
步骤5.1.2C:将四个中间向量z1、z2、z3、z4分别与z1、z2、z3、z4注意力权重点乘后求和,得到映射融合向量。
CN202110538947.8A 2021-05-18 2021-05-18 一种基于异质融合网络的多模态情感分类方法 Active CN113255755B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110538947.8A CN113255755B (zh) 2021-05-18 2021-05-18 一种基于异质融合网络的多模态情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110538947.8A CN113255755B (zh) 2021-05-18 2021-05-18 一种基于异质融合网络的多模态情感分类方法

Publications (2)

Publication Number Publication Date
CN113255755A true CN113255755A (zh) 2021-08-13
CN113255755B CN113255755B (zh) 2022-08-23

Family

ID=77182409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110538947.8A Active CN113255755B (zh) 2021-05-18 2021-05-18 一种基于异质融合网络的多模态情感分类方法

Country Status (1)

Country Link
CN (1) CN113255755B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627550A (zh) * 2021-08-17 2021-11-09 北京计算机技术及应用研究所 一种基于多模态融合的图文情感分析方法
CN113656560A (zh) * 2021-10-19 2021-11-16 腾讯科技(深圳)有限公司 情感类别的预测方法和装置、存储介质及电子设备
CN113806609A (zh) * 2021-09-26 2021-12-17 郑州轻工业大学 一种基于mit和fsm的多模态情感分析方法
CN113849667A (zh) * 2021-11-29 2021-12-28 北京明略昭辉科技有限公司 一种舆情监控方法、装置、电子设备及存储介质
CN113988201A (zh) * 2021-11-03 2022-01-28 哈尔滨工程大学 一种基于神经网络的多模态情感分类方法
CN114021524A (zh) * 2021-09-29 2022-02-08 苏州浪潮智能科技有限公司 一种情感识别方法、装置、设备及可读存储介质
CN114419509A (zh) * 2022-01-24 2022-04-29 烟台大学 一种多模态情感分析方法、装置及电子设备
CN115017900A (zh) * 2022-04-24 2022-09-06 北京理工大学 一种基于多模态多去偏见的对话情感识别方法
CN115730153A (zh) * 2022-08-30 2023-03-03 郑州轻工业大学 一种基于情感关联和情感标签生成的多模态情感分析方法
WO2023065619A1 (zh) * 2021-10-21 2023-04-27 北京邮电大学 多维度细粒度动态情感分析方法及系统
CN116132756A (zh) * 2023-01-06 2023-05-16 重庆大学 一种基于深度学习的端到端视频字幕生成方法
CN116434787A (zh) * 2023-06-14 2023-07-14 之江实验室 一种语音情感识别的方法、装置、存储介质及电子设备
CN117056863A (zh) * 2023-10-10 2023-11-14 湖南承希科技有限公司 一种基于多模态数据融合的大数据处理方法
CN117149944A (zh) * 2023-08-07 2023-12-01 北京理工大学珠海学院 一种基于宽时间范畴的多模态情境情感识别方法及系统
CN117235605A (zh) * 2023-11-10 2023-12-15 湖南马栏山视频先进技术研究院有限公司 一种基于多模态注意力融合的敏感信息分类方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508375A (zh) * 2018-11-19 2019-03-22 重庆邮电大学 一种基于多模态融合的社交情感分类方法
US20190341025A1 (en) * 2018-04-18 2019-11-07 Sony Interactive Entertainment Inc. Integrated understanding of user characteristics by multimodal processing
CN112489635A (zh) * 2020-12-03 2021-03-12 杭州电子科技大学 一种基于增强注意力机制的多模态情感识别方法
CN112559835A (zh) * 2021-02-23 2021-03-26 中国科学院自动化研究所 多模态情感识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190341025A1 (en) * 2018-04-18 2019-11-07 Sony Interactive Entertainment Inc. Integrated understanding of user characteristics by multimodal processing
CN109508375A (zh) * 2018-11-19 2019-03-22 重庆邮电大学 一种基于多模态融合的社交情感分类方法
CN112489635A (zh) * 2020-12-03 2021-03-12 杭州电子科技大学 一种基于增强注意力机制的多模态情感识别方法
CN112559835A (zh) * 2021-02-23 2021-03-26 中国科学院自动化研究所 多模态情感识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIANFEI YU等: "Adapting BERT for Target-Oriented Multimodal Sentiment Classification", 《PROCEEDINGS OF THE TWENTY-EIGHTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE (IJCAI-19)》 *
LEI ZHANG等: "Deep learning for sentiment analysis: A survey", 《2018 WILEY PERIODICALS》 *
XIA LI等: "Multimodal Sentiment Analysis with Multi-perspective Fusion Network Focusing on Sense Attentive Language", 《PROCEEDINGS OF THE 19TH CHINA NATIONAL CONFERENCE ON COMPUTATIONAL LINGUISTICS》 *
张春霞等: "基于细粒度学习情感本体的学习效果评估方法", 《计算机科学》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627550A (zh) * 2021-08-17 2021-11-09 北京计算机技术及应用研究所 一种基于多模态融合的图文情感分析方法
CN113806609A (zh) * 2021-09-26 2021-12-17 郑州轻工业大学 一种基于mit和fsm的多模态情感分析方法
CN114021524B (zh) * 2021-09-29 2024-02-27 苏州浪潮智能科技有限公司 一种情感识别方法、装置、设备及可读存储介质
CN114021524A (zh) * 2021-09-29 2022-02-08 苏州浪潮智能科技有限公司 一种情感识别方法、装置、设备及可读存储介质
CN113656560A (zh) * 2021-10-19 2021-11-16 腾讯科技(深圳)有限公司 情感类别的预测方法和装置、存储介质及电子设备
WO2023065619A1 (zh) * 2021-10-21 2023-04-27 北京邮电大学 多维度细粒度动态情感分析方法及系统
CN113988201A (zh) * 2021-11-03 2022-01-28 哈尔滨工程大学 一种基于神经网络的多模态情感分类方法
CN113988201B (zh) * 2021-11-03 2024-04-26 哈尔滨工程大学 一种基于神经网络的多模态情感分类方法
CN113849667A (zh) * 2021-11-29 2021-12-28 北京明略昭辉科技有限公司 一种舆情监控方法、装置、电子设备及存储介质
CN114419509A (zh) * 2022-01-24 2022-04-29 烟台大学 一种多模态情感分析方法、装置及电子设备
CN115017900A (zh) * 2022-04-24 2022-09-06 北京理工大学 一种基于多模态多去偏见的对话情感识别方法
CN115017900B (zh) * 2022-04-24 2024-05-10 北京理工大学 一种基于多模态多去偏见的对话情感识别方法
CN115730153A (zh) * 2022-08-30 2023-03-03 郑州轻工业大学 一种基于情感关联和情感标签生成的多模态情感分析方法
CN115730153B (zh) * 2022-08-30 2023-05-26 郑州轻工业大学 一种基于情感关联和情感标签生成的多模态情感分析方法
CN116132756A (zh) * 2023-01-06 2023-05-16 重庆大学 一种基于深度学习的端到端视频字幕生成方法
CN116132756B (zh) * 2023-01-06 2024-05-03 重庆大学 一种基于深度学习的端到端视频字幕生成方法
CN116434787A (zh) * 2023-06-14 2023-07-14 之江实验室 一种语音情感识别的方法、装置、存储介质及电子设备
CN116434787B (zh) * 2023-06-14 2023-09-08 之江实验室 一种语音情感识别的方法、装置、存储介质及电子设备
CN117149944B (zh) * 2023-08-07 2024-04-23 北京理工大学珠海学院 一种基于宽时间范畴的多模态情境情感识别方法及系统
CN117149944A (zh) * 2023-08-07 2023-12-01 北京理工大学珠海学院 一种基于宽时间范畴的多模态情境情感识别方法及系统
CN117056863B (zh) * 2023-10-10 2023-12-26 湖南承希科技有限公司 一种基于多模态数据融合的大数据处理方法
CN117056863A (zh) * 2023-10-10 2023-11-14 湖南承希科技有限公司 一种基于多模态数据融合的大数据处理方法
CN117235605B (zh) * 2023-11-10 2024-02-02 湖南马栏山视频先进技术研究院有限公司 一种基于多模态注意力融合的敏感信息分类方法及装置
CN117235605A (zh) * 2023-11-10 2023-12-15 湖南马栏山视频先进技术研究院有限公司 一种基于多模态注意力融合的敏感信息分类方法及装置

Also Published As

Publication number Publication date
CN113255755B (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
CN113255755B (zh) 一种基于异质融合网络的多模态情感分类方法
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
WO2021233112A1 (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
CN113420807A (zh) 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法
Xie et al. Attention-based dense LSTM for speech emotion recognition
CN111401077B (zh) 语言模型的处理方法、装置和计算机设备
CN113792113A (zh) 视觉语言模型获得及任务处理方法、装置、设备及介质
CN112818861B (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN113239169B (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN114973062A (zh) 基于Transformer的多模态情感分析方法
CN114743020A (zh) 一种结合标签语义嵌入和注意力融合的食物识别方法
CN116861995A (zh) 多模态预训练模型的训练及多模态数据处理方法和装置
CN116975776A (zh) 一种基于张量和互信息的多模态数据融合方法和设备
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
Hosseini et al. Multimodal modelling of human emotion using sound, image and text fusion
CN116644759B (zh) 语句中方面类别及其语义极性的提取方法和系统
CN117574904A (zh) 基于对比学习和多模态语义交互的命名实体识别方法
CN117668292A (zh) 一种跨模态敏感信息识别方法
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法
CN116955699A (zh) 一种视频跨模态搜索模型训练方法、搜索方法及装置
Ermatita et al. Sentiment Analysis of COVID-19 using Multimodal Fusion Neural Networks.
CN116467930A (zh) 一种基于Transformer的结构化数据通用建模方法
CN115858728A (zh) 一种基于多模态数据的情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant