CN117975342B - 半监督多模态情感分析方法、系统、存储介质及计算机 - Google Patents
半监督多模态情感分析方法、系统、存储介质及计算机 Download PDFInfo
- Publication number
- CN117975342B CN117975342B CN202410363113.1A CN202410363113A CN117975342B CN 117975342 B CN117975342 B CN 117975342B CN 202410363113 A CN202410363113 A CN 202410363113A CN 117975342 B CN117975342 B CN 117975342B
- Authority
- CN
- China
- Prior art keywords
- modal
- representing
- cross
- emotion
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 196
- 238000004458 analytical method Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 90
- 230000006870 function Effects 0.000 claims abstract description 68
- 238000012549 training Methods 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 40
- 230000008569 process Effects 0.000 claims description 36
- 238000013528 artificial neural network Methods 0.000 claims description 34
- 230000004913 activation Effects 0.000 claims description 23
- 238000013507 mapping Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 238000013461 design Methods 0.000 abstract description 4
- 238000002372 labelling Methods 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 101100268668 Caenorhabditis elegans acc-2 gene Proteins 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种半监督多模态情感分析方法、系统、存储介质及计算机,该方法包括以下步骤:获取样本数据的音频模态特征、视频模态特征及字幕模态特征;对各特征进行拼接融合得到跨模态特征及跨模态情感预测值;将跨模态特征进行拼接融合得到多模态特征,以得到第一多模态情感值;基于相似性约束损失函数,获取包含特异性与关联性的多模态特征表示,以得到预测情感值。通过采用多模态特征表示方法,有助于捕获蕴含异性与关联性的特征表示,无需复杂的网络设计,极大的降低了模型的训练成本,同时能够学习互联网或现实场景海量的无标注的多模态样本进一步提升情感分析性能;并通过半监督方法学习无监督多模态数据,进一步提升预测情感值的精度。
Description
技术领域
本发明涉及情感分析技术领域,特别涉及一种半监督多模态情感分析方法、系统、存储介质及计算机。
背景技术
多模态情感分析是实现人机交互的基础,机器人需要对用户情感做出准确的判断,才能与用户进行正确的交互。多模态情感特征表示是多模态情感分析的一项重要内容。良好的多模态特征表示不但要有效的表示独立模态所蕴含的信息,而且要有效的描述异构模态之间的关联。
现有技术当中,早期的研究人员采用不同的子神经网络,来提取音频、视频、字幕三种模态数据的单模态特征表示。对于音频模态和视频模态,主流的方法是通过工具提取高维的声学特征向量和面部特征向量,由于高维空间向量的稀疏性,不能表示音视频序列的联系,故使用循环神经网络将音视频高维序列向量映射成低维空间的稠密向量;对于字幕模态,主流的方法是通过预训练语言模型提取文本的特征。预训练语言模型在大规模语料上通过无监督方法进行预训练,能够捕获词语不同上下文信息。三种单模态特征表示,通过拼接融合,得到最终的多模态特征表示。
上述方法仅提取了蕴含模态特异性的低级特征表示,未能捕获异构模态之间的关联信息,这样无法充分利用多模态数据得到远优于单模态的特征信息。
发明内容
针对现有技术的不足,本发明的目的在于提供一种半监督多模态情感分析方法、系统、存储介质及计算机,旨在解决现有技术中,无法获得高质量的多模态特征表示的技术问题。
为了实现上述目的,第一方面,本申请提出了一种半监督多模态情感分析方法,包括以下步骤:
获取样本数据的音视频模态特征,对所述音视频模态特征进行特征提取,以得到音频模态特征、视频模态特征及字幕模态特征;
对所述音频模态特征、视频模态特征及字幕模态特征进行拼接融合得到跨模态特征,并经过神经网络线性层和sigmod激活函数,将所述跨模态特征映射为回归值,以得到样本的跨模态情感预测值,其中,所述跨模态特征包括与所述音频模态特征及所述视频模态特征对应的第一跨模态特征、与所述音频模态特征及所述字幕模态特征对应的第二跨模态特征,及与所述视频模态特征及所述字幕模态特征对应的第三跨模态特征;
将所述跨模态特征进行拼接融合得到多模态特征,并经过神经网络线性层和sigmod激活函数,将所述跨模态特征映射为回归值,以得到所述样本数据对应的第一多模态情感值;
基于相似性约束损失函数,逼近所述跨模态情感预测值及所述第一多模态情感值,以获取包含特异性与关联性的多模态特征表示,从而基于所述多模态特征表示得到预测情感值:
;
;
;
式中,表示所述相似性约束损失函数,/>表示第i个样本的第一多模态情感值,表示第i个样本的跨模态情感预测值,/>表示所述跨模态特征的权重,/>表示所述第一跨模态特征,/>表示所述第二跨模态特征,/>表示所述第三跨模态特征,/>表示有监督数据的样本数量。
根据上述技术方案的一方面,所述样本数据包括有监督数据样本及无监督数据样本,所述得到样本的多模态情感值的步骤具体包括:
将所述跨模态特征进行拼接融合得到多模态特征,并经过神经网络线性层和sigmod激活函数,将所述跨模态特征映射为回归值,以得到与所述有监督数据样本的第二多模态情感值;
基于以下有监督损失函数对所述有监督数据样本对应的第二多模态情感值进行优化,以得到所述第一多模态情感值:
;
式中,表示所述第二多模态情感值,/>表示所述有监督损失函数。
根据上述技术方案的一方面,所述样本数据包括有监督数据样本及无监督数据样本,得到样本对应的第一多模态情感值的步骤具体包括:
基于均值教师架构,构建教师模型及学生模型,将所述无监督数据样本分别输入所述教师模型及学生模型中,得到无监督跨模态特征与无监督多模态特征,从而得到无监督跨模态情感值及无监督多模态情感值;
量化所述无监督跨模态情感值及无监督多模态情感值之间的差异,并判断差异值是否小于预设阈值;
若所述差异值小于预设阈值,则基于与所述教师模型对应的无监督多模态情感值对应生成的伪标签,以基于所述伪标签指导所述学生模型基于无监督数据进行优化,以得到所述第一多模态情感值。
根据上述技术方案的一方面,所述伪标签对应的无监督损失函数如下:
;
;
式中,表示学生模型对第i个样本的预测结果,/>表示教师模型生成的伪标签,/>表示无监督数据,/>表示教师网络参数,/>表示学生网络参数,/>为第i个样本的所述差异值,/>为所述预设阈值,/>为所述伪标签对应的无监督损失函数。
根据上述技术方案的一方面,基于所述多模态特征表示得到预测情感值的步骤具体包括:
基于以下计算公式得到与所述多模态特征表示对应的预测情感值:
;
式中,表示第i个样本的预测情感值,/>表示第i个样本的多模态特征表示,表示学生模型的神经网络线性层。
根据上述技术方案的一方面,所述教师网络参数按以下函数进行更新:
;
;
式中,为衰减率,s为训练步骤。
根据上述技术方案的一方面,对所述音视频模态特征进行特征提取,以得到音频模态特征、视频模态特征及字幕模态特征的步骤具体包括:
基于循环神经网络捕获所述音视频模态特征中的时序信息,并基于以下计算式将音视频高维序列向量映射成低维空间的稠密向量,所述稠密向量包括与视频模态特征对应的第一稠密向量,及与音频模态特征对应的第二稠密向量:
;
式中,表示视频模态,/>表示音频模态,/>表示所述第一稠密向量,/>表示所述第二稠密向量,/>表示音频序列长度,/>表示视频序列长度,/>表示音频特征的维度,/>表示视频特征的维度;
通过用户语音转换的文本模态,并基于BERT预训练语言模型得到与字幕模态特征对应的文本特征:
;
式中,表示文本模态,/>表示文本特征的维度。
第二方面,本申请提出了一种半监督多模态情感分析系统,包括:
提取模块,用于获取样本数据的音视频模态特征,对所述音视频模态特征进行特征提取,以得到音频模态特征、视频模态特征及字幕模态特征;
跨模态模块,用于对所述音频模态特征、视频模态特征及字幕模态特征进行拼接融合得到跨模态特征,并经过神经网络线性层和sigmod激活函数,将所述跨模态特征映射为回归值,以得到样本的跨模态情感预测值,其中,所述跨模态特征包括与所述音频模态特征及所述视频模态特征对应的第一跨模态特征、与所述音频模态特征及所述字幕模态特征对应的第二跨模态特征,及与所述视频模态特征及所述字幕模态特征对应的第三跨模态特征;
多模态模块,用于将所述跨模态特征进行拼接融合得到多模态特征,并经过神经网络线性层和sigmod激活函数,将所述跨模态特征映射为回归值,以得到所述样本数据对应的第一多模态情感值;
优化模块,用于基于相似性约束损失函数,逼近所述跨模态情感预测值及所述第一多模态情感值,以获取包含特异性与关联性的多模态特征表示,从而基于所述多模态特征表示得到预测情感值:
;
;
;
式中,表示所述相似性约束损失函数,/>表示第i个样本的第一多模态情感值,表示第i个样本的跨模态情感预测值,/>表示所述跨模态特征的权重,/>表示所述第一跨模态特征,/>表示所述第二跨模态特征,/>表示所述第三跨模态特征,/>表示有监督数据的样本数量。
根据上述技术方案的一方面,所述多模态模块具体用于:
将所述跨模态特征进行拼接融合得到多模态特征,并经过神经网络线性层和sigmod激活函数,将所述跨模态特征映射为回归值,以得到与所述有监督数据样本的第二多模态情感值;
基于以下有监督损失函数对所述有监督数据样本对应的第二多模态情感值进行优化,以得到所述第一多模态情感值:
;
式中,表示所述第二多模态情感值,/>表示所述有监督损失函数。
根据上述技术方案的一方面,所述多模态模块还用于:
基于均值教师架构,构建教师模型及学生模型,将所述无监督数据样本分别输入所述教师模型及学生模型中,得到无监督跨模态特征与无监督多模态特征,从而得到无监督跨模态情感值及无监督多模态情感值;
量化所述无监督跨模态情感值及无监督多模态情感值之间的差异,并判断差异值是否小于预设阈值;
若所述差异值小于预设阈值,则基于与所述教师模型对应的无监督多模态情感值对应生成的伪标签,以基于所述伪标签指导所述学生模型基于无监督数据进行优化,以得到所述第一多模态情感值。
根据上述技术方案的一方面,所述优化模块具体用于:基于以下计算公式得到与所述多模态特征表示对应的预测情感值:
;
式中,表示第i个样本的预测情感值,/>表示第i个样本的多模态特征表示,表示学生模型的神经网络线性层。
根据上述技术方案的一方面,所述提取模块具体用于:
基于循环神经网络捕获所述音视频模态特征中的时序信息,并基于以下计算式将音视频高维序列向量映射成低维空间的稠密向量,所述稠密向量包括与视频模态特征对应的第一稠密向量,及与音频模态特征对应的第二稠密向量:
;
式中,表示视频模态,/>表示音频模态,/>表示所述第一稠密向量,/>表示所述第二稠密向量,/>表示音频序列长度,/>表示视频序列长度,/>表示音频特征的维度,/>表示视频特征的维度;
通过用户语音转换的文本模态,并基于BERT预训练语言模型得到与字幕模态特征对应的文本特征:
;
式中,表示文本模态,/>表示文本特征的维度。
与现有技术相比,本发明的有益效果在于:通过采用多模态特征表示方法,有助于捕获蕴含异性与关联性的特征表示,无需复杂的网络设计,极大的降低了模型的训练成本,保证智能服务机器人能够准确识别出用户的情感,作为后续交互的基础,提升服务质量,同时能够学习互联网或现实场景海量的无标注的多模态样本进一步提升情感分析性能;通过神经网络与激活函数预测情感值,并通过半监督方法学习无监督多模态数据,进一步提升预测情感值的精度。
附图说明
图1为本发明第一实施例中半监督多模态情感分析方法的流程图;
图2为本发明第一实施例中半监督模型与普通模型的实验比对示意图;
图3为本发明第二实施例中半监督多模态情感分析系统的结构框图;
图4是本申请第三实施例中计算机的硬件结构示意图;
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例一
请参阅图1,所示为本发明第一实施例中的半监督多模态情感分析方法的流程图,如图所示,该方法包括以下步骤:
步骤S100,获取样本数据的音视频模态特征,对所述音视频模态特征进行特征提取,以得到音频模态特征、视频模态特征及字幕模态特征。
具体来说,在本实施例中,上述步骤S100中,对所述音视频模态特征进行特征提取,以得到音频模态特征、视频模态特征及字幕模态特征的步骤具体包括:
步骤S110,基于循环神经网络捕获所述音视频模态特征中的时序信息,并基于以下计算式将音视频高维序列向量映射成低维空间的稠密向量,所述稠密向量包括与视频模态特征对应的第一稠密向量,及与音频模态特征对应的第二稠密向量:
;
式中,表示视频模态,/>表示音频模态,/>表示所述第一稠密向量,/>表示所述第二稠密向量,/>表示音频序列长度,/>表示视频序列长度,/>表示音频特征的维度,/>表示视频特征的维度。
步骤S120,通过用户语音转换的文本模态,并基于BERT预训练语言模型得到与字幕模态特征对应的文本特征:
;
式中,表示文本模态,/>表示文本特征的维度。
步骤S200,对所述音频模态特征、视频模态特征及字幕模态特征进行拼接融合得到跨模态特征,并经过神经网络线性层和sigmod激活函数,将所述跨模态特征映射为回归值,以得到样本的跨模态情感预测值,其中,所述跨模态特征包括与所述音频模态特征及所述视频模态特征对应的第一跨模态特征、与所述音频模态特征及所述字幕模态特征对应的第二跨模态特征,及与所述视频模态特征及所述字幕模态特征对应的第三跨模态特征。
具体来说,在本实施例中,三种模态特征经过神经网络线性层与激活函数映射后进行两两拼接融合,得到三种跨模态特征,通过线性层Linear与sigmod激活函数映射得到三种跨模态情感值/>:
;
;
这一步得到三种跨模态情感预测值,分别是av:音频模态+视频模态、ta:文本模态+音频模态、tv:文本模态+视频模态。
步骤S300,将所述跨模态特征进行拼接融合得到多模态特征,并经过神经网络线性层和sigmod激活函数,将所述跨模态特征映射为回归值,以得到所述样本数据对应的第一多模态情感值。上述多模态特征表示为:/>。
步骤S400,基于相似性约束损失函数,逼近所述跨模态情感预测值及所述第一多模态情感值,以获取包含特异性与关联性的多模态特征表示,从而基于所述多模态特征表示得到预测情感值:
;
;
;
式中,表示所述相似性约束损失函数,/>表示第i个样本的第一多模态情感值,表示第i个样本的跨模态情感预测值,/>表示所述跨模态特征的权重,/>表示所述第一跨模态特征,/>表示所述第二跨模态特征,/>表示所述第三跨模态特征,/>表示有监督数据的样本数量。
本方案为了捕获蕴含模态间关联性的特征表示,在低级特征的基础上构建特征抽取网络并设计模态交互损失函数使模型学习模态间的共性信息,并通过跨模态与多模态的情感相似性损失函数来学习模态间的一致性情感,得到蕴含丰富情感信息的多模态特征表示,从而提升模型的情感分析性能。
需要说明地,在本实施例中,本方案支持半监督场景,所述样本数据包括有监督数据样本及无监督数据样本,即包括针对有监督对应的有标记样本,和无监督对应的未标记样本。
在本实施例的一些应用场景中,
针对有监督数据,上述步骤S300中,得到所述样本数据对应的第一多模态情感值的步骤具体包括:
步骤S310,将所述跨模态特征进行拼接融合得到多模态特征,并经过神经网络线性层和sigmod激活函数,将所述跨模态特征映射为回归值,以得到与所述有监督数据样本的第二多模态情感值;
步骤S320,基于以下有监督损失函数对所述有监督数据样本对应的第二多模态情感值进行优化,以得到所述第一多模态情感值:
;
式中,表示所述第二多模态情感值,/>表示所述有监督损失函数。
便于理解地,传统的半监督多模态情感分析方法依赖大量带有标注的数据,在标注数据有限的情况下,模型往往会过拟合与训练集,导致性能显著下降,而获取标注数据需要成本,因此如何借助互联网上海量无监督数据打破有限标注数据带来的局限性是本问题的核心与难点。
为了实现更精准的多模态情感分析这一目标,需要利用互联网上海量的无监督数据打破有限的监督数据带来的局限性,解决该问题的难题主要有:1)如何筛选高质量的无监督数据,以减少低质量无监督数据带来的扰动。2)如何有效的利用高质量的无监督数据,提升模型的性能。针对上述问题,本发明采用伪标签,均值教师等半监督方法解决。
在本实施例的一些应用场景中,
针对无监督数据,上述步骤S300中,得到样本对应的第一多模态情感值的步骤具体包括:
步骤S330,基于均值教师架构,构建教师模型及学生模型,将所述无监督数据样本分别输入所述教师模型及学生模型中,得到无监督跨模态特征与无监督多模态特征,从而得到无监督跨模态情感值及无监督多模态情感值。
需要说明地,我们通过跨模态与多模态的情感相似性损失函数来学习模态间的一致性情感,得到蕴含丰富情感信息的多模态特征表示,从而提升模型的情感分析性能。但是上述方法依赖多模态情感标签,性能局限于训练集数量,为了进一步提升性能,我们利用无监督数据进行半监督学习。因此,我们引入均值教师架构用于结合一致性正则化方法与伪标签方法。
均值教师的核心思想是将模型分为教师模型与学生模型,教师模型指导学生模型,学生模型将学习到的知识通过参数更新传递给教师模型。具体算法如下:
我们复制原始模型,得到教师模型,符号表示为,并将原始模型定义为学生模型,符号表示为/>。我们将无监督样本数据分别输入到教师与学生模型中,得到跨模态与多模态情感特征表示:
;
其中,表示无监督多模态数据,/>表示特征抽取网络,表示教师网络与学生网络抽取的多模态与跨模态特征表示,通过线性层与sigmod激活函数映射得到跨模态情感值/>与多模态情感值/>。教师模型的预测的情感值将作为伪标签指导学生模型学习。
然而,当多模态样本的不同模态所表达的情感差异显著时,融合后得到的跨模态和多模态情感同样会表现出显著差异,模型难以捕获模态之间的关联信息。这导致教师模型在面对这些样本时容易出现错误预测,从而误导学生模型,导致性能下降。
步骤S340,量化所述无监督跨模态情感值及无监督多模态情感值之间的差异,并判断差异值是否小于预设阈值。具体来说,我们为了过滤掉了由教师模型生成的不可信的虚假伪标签,量化了跨模态和多模态情感之间的差异:
。
步骤S350,若所述差异值小于预设阈值,则基于与所述教师模型对应的无监督多模态情感值对应生成的伪标签,以基于所述伪标签指导所述学生模型基于无监督数据进行优化,以得到所述第一多模态情感值。
具体来说,通过设定阈值threshold,说明教师网络生成的伪标签是可信的,用于指导学生网络学习无监督数据。
更进一步地,所述伪标签对应的无监督损失函数如下:
;
;
式中,表示学生模型对第i个样本的预测结果,/>表示教师模型生成的伪标签,/>表示无监督数据,/>表示教师网络参数,/>表示学生网络参数,/>为第i个样本的所述差异值,/>为所述预设阈值,/>为所述伪标签对应的无监督损失函数。
优选地,在本实施例中,所述教师网络参数按以下函数进行更新:
;
;
式中,为衰减率,s为训练步骤。具体来说,教师网络的参数ϑ是学生网络参数θ的指数移动平均值,衰减率/>。为了让教师模型提供了更准确和鲁棒的预测,在每个训练步骤s,教师网络不是通过梯度下降优化,而是按照如下方式更新:
。
因此,针对有监督样本数据的损失函数优化可以表示为:
;
针对无监督样本数据的的损失函数优化可以表示为:
。
通过优化上述最终损失函数,使模型学习到良好的多模态特征表示。
更进一步地,在本实施例中,上述步骤S400中,基于所述多模态特征表示得到预测情感值的步骤具体包括:
基于以下计算公式得到与所述多模态特征表示对应的预测情感值:
;
式中,表示第i个样本的预测情感值,/>表示第i个样本的多模态特征表示,表示学生模型的神经网络线性层。
在本实施例的一些应用场景中,为了分析上述情感分析方法的分析性能,我们对数据集随机划分出5%作为有监督数据用于有监督训练,剩下作为无监督数据用于无监督训练,最终测试5%标注数据与95%无标注数据,这样的半监督场景下模型的多模态情感分析性能。
同时为了与本方案的模型进行比较,我们利用两个公开标准数据集进行实验,分别是英文多模态情感分析数据集MOSEI和中文多模态情感分析数据集CH-SIMSv2.0。
如图2所示,模型的评价指标包括分类指标与回归指标,分类指标使用是Acc2与F1分数,回归指标使用MAE,其中Acc2与F1分数越大精度越高,MAE越小精度越高。我们将数据集分为独立的训练集、验证集和测试集。由于MOSEI数据集不存在无标注数据,为了测试我们发明在半监督场景的性能,我们将训练集随机划分出部分数据作为有标注数据,剩下的训练集数据隐藏标注,作为无监督数据。具体来说对数据集划分出 5%的监督数据,剩下的为无监督数据,以此来验证我们模型能面对不同半监督场景。我们对不同的模块进行消融,其中表示去掉伪标签损失函数,/>表示去掉情感差异阈值,0urs表示结合利用情感差异阈值过滤伪标签来学习无监督数据。
参见图2,实验结果表明,本发明提出的半监督多模态情感分析方法与普通模型和半监督模型相比,在不同监督数据比例不同的情况下均能显著提升分类与回归性能,有较好的鲁棒性,在不同场景的数据集中均保持着稳定性能。
综上,本发明上述实施例当中的半监督多模态情感分析方法,采用的多模态特征表示方法,有助于捕获蕴含异性与关联性的特征表示,无需复杂的网络设计,极大的降低了模型的训练成本,保证智能服务机器人能够准确识别出用户的情感,作为后续交互的基础,提升服务质量,同时能够学习互联网或现实场景海量的无标注的多模态样本进一步提升情感分析性能。充分利用已有的实验数据,基于目前先进的深度学习方法和技术,结合已有多模态实验数据训练,获得高质量的多模态特征表示;通过神经网络与激活函数预测情感值;通过半监督方法学习无监督多模态数据,进一步提升预测情感值的精度;通过情感值判断用户当前情绪,再对其提供相应的服务。
实施例二
本申请的第二实施例还提供了一种半监督多模态情感分析系统,该系统用于实现所述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
如图3所示,该系统包括:提取模块100、跨模态模块200、多模态模块300及优化模块400;
上述提取模块100用于获取样本数据的音视频模态特征,对所述音视频模态特征进行特征提取,以得到音频模态特征、视频模态特征及字幕模态特征;
上述跨模态模块200用于对所述音频模态特征、视频模态特征及字幕模态特征进行拼接融合得到跨模态特征,并经过神经网络线性层和sigmod激活函数,将所述跨模态特征映射为回归值,以得到样本的跨模态情感预测值,其中,所述跨模态特征包括与所述音频模态特征及所述视频模态特征对应的第一跨模态特征、与所述音频模态特征及所述字幕模态特征对应的第二跨模态特征,及与所述视频模态特征及所述字幕模态特征对应的第三跨模态特征;
上述多模态模块300用于将所述跨模态特征进行拼接融合得到多模态特征,并经过神经网络线性层和sigmod激活函数,将所述跨模态特征映射为回归值,以得到所述样本数据对应的第一多模态情感值;
上述优化模块400用于基于相似性约束损失函数,逼近所述跨模态情感预测值及所述第一多模态情感值,以获取包含特异性与关联性的多模态特征表示,从而基于所述多模态特征表示得到预测情感值:
;
;
;
式中,表示所述相似性约束损失函数,/>表示第i个样本的第一多模态情感值,表示第i个样本的跨模态情感预测值,/>表示所述跨模态特征的权重,/>表示所述第一跨模态特征,/>表示所述第二跨模态特征,/>表示所述第三跨模态特征,/>表示有监督数据的样本数量。
优选地,在本实施例中,所述多模态模块300具体用于:
将所述跨模态特征进行拼接融合得到多模态特征,并经过神经网络线性层和sigmod激活函数,将所述跨模态特征映射为回归值,以得到与所述有监督数据样本的第二多模态情感值;
基于以下有监督损失函数对所述有监督数据样本对应的第二多模态情感值进行优化,以得到所述第一多模态情感值:
;
式中,表示所述第二多模态情感值,/>表示所述有监督损失函数。
优选地,在本实施例中,所述多模态模块300还用于:
基于均值教师架构,构建教师模型及学生模型,将所述无监督数据样本分别输入所述教师模型及学生模型中,得到无监督跨模态特征与无监督多模态特征,从而得到无监督跨模态情感值及无监督多模态情感值;
量化所述无监督跨模态情感值及无监督多模态情感值之间的差异,并判断差异值是否小于预设阈值;
若所述差异值小于预设阈值,则基于与所述教师模型对应的无监督多模态情感值对应生成的伪标签,以基于所述伪标签指导所述学生模型基于无监督数据进行优化,以得到所述第一多模态情感值。
根据上述技术方案的一方面,所述优化模块400具体用于:基于以下计算公式得到与所述多模态特征表示对应的预测情感值:
;
式中,表示第i个样本的预测情感值,/>表示第i个样本的多模态特征表示,表示学生模型的神经网络线性层。
优选地,在本实施例中,所述提取模块100具体用于:
基于循环神经网络捕获所述音视频模态特征中的时序信息,并基于以下计算式将音视频高维序列向量映射成低维空间的稠密向量,所述稠密向量包括与视频模态特征对应的第一稠密向量,及与音频模态特征对应的第二稠密向量:
;
式中,表示视频模态,/>表示音频模态,/>表示所述第一稠密向量,/>表示所述第二稠密向量,/>表示音频序列长度,/>表示视频序列长度,/>表示音频特征的维度,/>表示视频特征的维度;
通过用户语音转换的文本模态,并基于BERT预训练语言模型得到与字幕模态特征对应的文本特征:
;
式中,表示文本模态,/>表示文本特征的维度。
需要说明的是,所述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,所述各个模块可以位于同一处理器中;或者所述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
可以理解地,本实施例中的半监督多模态情感分析系统中提及的原理与本申请第一实施例中的半监督多模态情感分析方法相对应,未见描述的相关原理详见可对应参照第一实施例,在此不多赘述。
实施例三
本申请的第三实施例提供了一种计算机,该计算机可以包括处理器81以及存储有计算机程序命令的存储器82。存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序命令。
处理器81通过读取并执行存储器82中存储的计算机程序命令,以实现上述实施例中的任意一种半监督多模态情感分析方法。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或命令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
在其中一些实施例中,计算机还可包括通信接口83和总线80。其中,如图4所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将计算机的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
实施例四
结合上述实施例中的半监督多模态情感分析方法,本申请的第四实施例提供了一种可读存储介质。该可读存储介质上存储有计算机程序命令;该计算机程序命令被处理器执行时实现上述实施例中的任意一种半监督多模态情感分析方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对所述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (5)
1.一种半监督多模态情感分析方法,其特征在于,包括以下步骤:
获取样本数据的音视频模态特征,对所述音视频模态特征进行特征提取,以得到音频模态特征、视频模态特征及字幕模态特征;
对所述音频模态特征、视频模态特征及字幕模态特征进行拼接融合得到跨模态特征,并经过神经网络线性层和sigmod激活函数,将所述跨模态特征映射为回归值,以得到样本的跨模态情感预测值,其中,所述跨模态特征包括与所述音频模态特征及所述视频模态特征对应的第一跨模态特征、与所述音频模态特征及所述字幕模态特征对应的第二跨模态特征,及与所述视频模态特征及所述字幕模态特征对应的第三跨模态特征;
将所述跨模态特征进行拼接融合得到多模态特征,并经过神经网络线性层和sigmod激活函数,将所述跨模态特征映射为回归值,以得到所述样本数据对应的第一多模态情感值;
基于相似性约束损失函数,逼近所述跨模态情感预测值及所述第一多模态情感值,以获取包含特异性与关联性的多模态特征表示,从而基于所述多模态特征表示得到预测情感值:
;
;
;
式中,表示所述相似性约束损失函数,/>表示第i个样本的第一多模态情感值,/>表示第i个样本的跨模态情感预测值,/>表示所述跨模态特征的权重,/>表示所述第一跨模态特征,/>表示所述第二跨模态特征,/>表示所述第三跨模态特征,/>表示有监督数据的样本数量;
所述样本数据包括有监督数据样本及无监督数据样本,得到所述样本数据对应的第一多模态情感值的步骤具体包括:
将所述跨模态特征进行拼接融合得到多模态特征,并经过神经网络线性层和sigmod激活函数,将所述跨模态特征映射为回归值,以得到与所述有监督数据样本的第二多模态情感值;
基于以下有监督损失函数对所述有监督数据样本对应的第二多模态情感值进行优化,以得到所述第一多模态情感值:
;
式中,表示所述第二多模态情感值,/>表示所述有监督损失函数;
得到样本对应的第一多模态情感值的步骤具体包括:
基于均值教师架构,构建教师模型及学生模型,将所述无监督数据样本分别输入所述教师模型及学生模型中,得到无监督跨模态特征与无监督多模态特征,从而得到无监督跨模态情感值及无监督多模态情感值;
量化所述无监督跨模态情感值及无监督多模态情感值之间的差异,并判断差异值是否小于预设阈值;
若所述差异值小于预设阈值,则基于与所述教师模型对应的无监督多模态情感值对应生成的伪标签,以基于所述伪标签指导所述学生模型基于无监督数据进行优化,以得到所述第一多模态情感值;
所述伪标签对应的无监督损失函数如下:
;
;
式中,表示学生模型对第i个样本的预测结果,/>表示教师模型生成的伪标签,表示无监督数据,/>表示教师网络参数,/>表示学生网络参数,/>为第i个样本的所述差异值,/>为所述预设阈值,/>为所述伪标签对应的无监督损失函数;
基于所述多模态特征表示得到预测情感值的步骤具体包括:
基于以下计算公式得到与所述多模态特征表示对应的预测情感值:
;
式中,表示第i个样本的预测情感值,/>表示第i个样本的多模态特征表示,表示学生模型的神经网络线性层;
所述教师网络参数按以下函数进行更新:
;
;
式中,为衰减率,s为训练步骤。
2.根据权利要求1所述的半监督多模态情感分析方法,其特征在于,对所述音视频模态特征进行特征提取,以得到音频模态特征、视频模态特征及字幕模态特征的步骤具体包括:
基于循环神经网络捕获所述音视频模态特征中的时序信息,并基于以下计算式将音视频高维序列向量映射成低维空间的稠密向量,所述稠密向量包括与视频模态特征对应的第一稠密向量,及与音频模态特征对应的第二稠密向量:
;
式中,表示视频模态,/>表示音频模态,/>表示所述第一稠密向量,/>表示所述第二稠密向量,/>表示音频序列长度,/>表示视频序列长度,/>表示音频特征的维度,/>表示视频特征的维度;
通过用户语音转换的文本模态,并基于BERT预训练语言模型得到与字幕模态特征对应的文本特征:
;
式中,表示文本模态,/>表示文本特征的维度。
3.一种半监督多模态情感分析系统,其特征在于,包括:
提取模块,用于获取样本数据的音视频模态特征,对所述音视频模态特征进行特征提取,以得到音频模态特征、视频模态特征及字幕模态特征;
跨模态模块,用于对所述音频模态特征、视频模态特征及字幕模态特征进行拼接融合得到跨模态特征,并经过神经网络线性层和sigmod激活函数,将所述跨模态特征映射为回归值,以得到样本的跨模态情感预测值,其中,所述跨模态特征包括与所述音频模态特征及所述视频模态特征对应的第一跨模态特征、与所述音频模态特征及所述字幕模态特征对应的第二跨模态特征,及与所述视频模态特征及所述字幕模态特征对应的第三跨模态特征;
多模态模块,用于将所述跨模态特征进行拼接融合得到多模态特征,并经过神经网络线性层和sigmod激活函数,将所述跨模态特征映射为回归值,以得到所述样本数据对应的第一多模态情感值;
优化模块,用于基于相似性约束损失函数,逼近所述跨模态情感预测值及所述第一多模态情感值,以获取包含特异性与关联性的多模态特征表示,从而基于所述多模态特征表示得到预测情感值:
;
;
式中,表示所述相似性约束损失函数,/>表示第i个样本的第一多模态情感值,/>表示第i个样本的跨模态情感预测值,/>表示所述跨模态特征的权重,/>表示所述第一跨模态特征,/>表示所述第二跨模态特征,/>表示所述第三跨模态特征,/>表示有监督数据的样本数量;
所述样本数据包括有监督数据样本及无监督数据样本,所述多模态模块具体用于:
将所述跨模态特征进行拼接融合得到多模态特征,并经过神经网络线性层和sigmod激活函数,将所述跨模态特征映射为回归值,以得到与所述有监督数据样本的第二多模态情感值;
基于以下有监督损失函数对所述有监督数据样本对应的第二多模态情感值进行优化,以得到所述第一多模态情感值:
;
式中,表示所述第二多模态情感值,/>表示所述有监督损失函数;
所述多模态模块还用于:
基于均值教师架构,构建教师模型及学生模型,将所述无监督数据样本分别输入所述教师模型及学生模型中,得到无监督跨模态特征与无监督多模态特征,从而得到无监督跨模态情感值及无监督多模态情感值;
量化所述无监督跨模态情感值及无监督多模态情感值之间的差异,并判断差异值是否小于预设阈值;
若所述差异值小于预设阈值,则基于与所述教师模型对应的无监督多模态情感值对应生成的伪标签,以基于所述伪标签指导所述学生模型基于无监督数据进行优化,以得到所述第一多模态情感值;
所述伪标签对应的无监督损失函数如下:
;
;
式中,表示学生模型对第i个样本的预测结果,/>表示教师模型生成的伪标签,表示无监督数据,/>表示教师网络参数,/>表示学生网络参数,/>为第i个样本的所述差异值,/>为所述预设阈值,/>为所述伪标签对应的无监督损失函数;
所述优化模块具体用于:
基于以下计算公式得到与所述多模态特征表示对应的预测情感值:
;
式中,表示第i个样本的预测情感值,/>表示第i个样本的多模态特征表示,表示学生模型的神经网络线性层;
所述教师网络参数按以下函数进行更新:
;
;
式中,为衰减率,s为训练步骤。
4.一种存储介质,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1-2中任一项所述的半监督多模态情感分析方法。
5.一种计算机,其上存储有计算机程序,该程序被处理器执行时实现上述权利要求1-2中任一项所述的半监督多模态情感分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410363113.1A CN117975342B (zh) | 2024-03-28 | 2024-03-28 | 半监督多模态情感分析方法、系统、存储介质及计算机 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410363113.1A CN117975342B (zh) | 2024-03-28 | 2024-03-28 | 半监督多模态情感分析方法、系统、存储介质及计算机 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117975342A CN117975342A (zh) | 2024-05-03 |
CN117975342B true CN117975342B (zh) | 2024-06-11 |
Family
ID=90853763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410363113.1A Active CN117975342B (zh) | 2024-03-28 | 2024-03-28 | 半监督多模态情感分析方法、系统、存储介质及计算机 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117975342B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680541A (zh) * | 2020-04-14 | 2020-09-18 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
CN111985548A (zh) * | 2020-08-11 | 2020-11-24 | 华侨大学 | 一种标签引导的跨模态深度哈希方法 |
CN113239214A (zh) * | 2021-05-19 | 2021-08-10 | 中国科学院自动化研究所 | 基于有监督对比的跨模态检索方法、系统及设备 |
WO2022042002A1 (zh) * | 2020-08-31 | 2022-03-03 | 华为技术有限公司 | 一种半监督学习模型的训练方法、图像处理方法及设备 |
CN114694076A (zh) * | 2022-04-08 | 2022-07-01 | 浙江理工大学 | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 |
CN115239937A (zh) * | 2022-09-23 | 2022-10-25 | 西南交通大学 | 一种跨模态情感预测方法 |
CN115878757A (zh) * | 2022-12-09 | 2023-03-31 | 大连理工大学 | 一种基于概念分解的混合超图正则化半监督跨模态哈希方法 |
WO2023065619A1 (zh) * | 2021-10-21 | 2023-04-27 | 北京邮电大学 | 多维度细粒度动态情感分析方法及系统 |
CN116186236A (zh) * | 2023-02-21 | 2023-05-30 | 山东交通学院 | 一种基于单模态和多模态联合训练的情感分析方法及系统 |
US11842259B1 (en) * | 2022-07-12 | 2023-12-12 | University Of Chinese Academy Of Sciences | Intelligent information parsing method based on cross-modal data fusion |
CN117409348A (zh) * | 2023-10-17 | 2024-01-16 | 福州大学 | 基于对比学习和多头自注意机制的半监督多模态情感分析方法 |
CN117539999A (zh) * | 2023-11-26 | 2024-02-09 | 西北民族大学 | 一种基于跨模态联合编码的多模态情感分析方法 |
CN117556076A (zh) * | 2023-11-23 | 2024-02-13 | 北京航空航天大学 | 基于多模态表征学习的病理图像跨模态检索方法及系统 |
CN117609882A (zh) * | 2023-11-29 | 2024-02-27 | 山东交通学院 | 基于多模态前缀和跨模态注意力的情感分析方法及系统 |
-
2024
- 2024-03-28 CN CN202410363113.1A patent/CN117975342B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680541A (zh) * | 2020-04-14 | 2020-09-18 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
CN111985548A (zh) * | 2020-08-11 | 2020-11-24 | 华侨大学 | 一种标签引导的跨模态深度哈希方法 |
WO2022042002A1 (zh) * | 2020-08-31 | 2022-03-03 | 华为技术有限公司 | 一种半监督学习模型的训练方法、图像处理方法及设备 |
CN113239214A (zh) * | 2021-05-19 | 2021-08-10 | 中国科学院自动化研究所 | 基于有监督对比的跨模态检索方法、系统及设备 |
WO2023065619A1 (zh) * | 2021-10-21 | 2023-04-27 | 北京邮电大学 | 多维度细粒度动态情感分析方法及系统 |
CN114694076A (zh) * | 2022-04-08 | 2022-07-01 | 浙江理工大学 | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 |
US11842259B1 (en) * | 2022-07-12 | 2023-12-12 | University Of Chinese Academy Of Sciences | Intelligent information parsing method based on cross-modal data fusion |
CN115239937A (zh) * | 2022-09-23 | 2022-10-25 | 西南交通大学 | 一种跨模态情感预测方法 |
CN115878757A (zh) * | 2022-12-09 | 2023-03-31 | 大连理工大学 | 一种基于概念分解的混合超图正则化半监督跨模态哈希方法 |
CN116186236A (zh) * | 2023-02-21 | 2023-05-30 | 山东交通学院 | 一种基于单模态和多模态联合训练的情感分析方法及系统 |
CN117409348A (zh) * | 2023-10-17 | 2024-01-16 | 福州大学 | 基于对比学习和多头自注意机制的半监督多模态情感分析方法 |
CN117556076A (zh) * | 2023-11-23 | 2024-02-13 | 北京航空航天大学 | 基于多模态表征学习的病理图像跨模态检索方法及系统 |
CN117539999A (zh) * | 2023-11-26 | 2024-02-09 | 西北民族大学 | 一种基于跨模态联合编码的多模态情感分析方法 |
CN117609882A (zh) * | 2023-11-29 | 2024-02-27 | 山东交通学院 | 基于多模态前缀和跨模态注意力的情感分析方法及系统 |
Non-Patent Citations (3)
Title |
---|
基于哈希方法的跨模态检索研究进展;樊花;陈华辉;;数据通信;20180628(第03期);全文 * |
基于多模态数据融合的大学生在线学习情感分析模型;郁文景;淮南师范学院学报;20240131;全文 * |
结合模态表征学习的多模态情感分析;刘若尘;计算机系统应用;20240319;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117975342A (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112465008B (zh) | 一种基于自监督课程学习的语音和视觉关联性增强方法 | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
KR102576344B1 (ko) | 비디오를 처리하기 위한 방법, 장치, 전자기기, 매체 및 컴퓨터 프로그램 | |
CN111949802B (zh) | 医学领域知识图谱的构建方法、装置、设备及存储介质 | |
CN109815355A (zh) | 图像搜索方法及装置、存储介质、电子设备 | |
CN112364810A (zh) | 视频分类方法及装置、计算机可读存储介质与电子设备 | |
CN112188306B (zh) | 一种标签生成方法、装置、设备及存储介质 | |
CN115050077A (zh) | 情绪识别方法、装置、设备及存储介质 | |
CN115712740B (zh) | 多模态蕴含增强图像文本检索的方法和系统 | |
CN113762303B (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN114332679A (zh) | 视频处理方法、装置、设备、存储介质和计算机程序产品 | |
CN116259075A (zh) | 基于提示微调预训练大模型的行人属性识别方法 | |
CN116166827B (zh) | 语义标签抽取模型的训练和语义标签的抽取方法及其装置 | |
CN118113855B (zh) | 一种舰船试验训练场景问答方法、系统、设备和介质 | |
CN110263218A (zh) | 视频描述文本生成方法、装置、设备和介质 | |
CN115861995A (zh) | 一种视觉问答方法、装置及电子设备和存储介质 | |
CN115147641A (zh) | 一种基于知识蒸馏和多模态融合的视频分类方法 | |
CN117975342B (zh) | 半监督多模态情感分析方法、系统、存储介质及计算机 | |
CN117407507A (zh) | 基于大语言模型的事件处理方法、装置、设备及介质 | |
CN116522212A (zh) | 基于图像文本融合的谎言检测方法、装置、设备及介质 | |
CN115878896A (zh) | 基于语义的真假性特征的多模态虚假新闻检测方法及装置 | |
CN113569684A (zh) | 短视频场景分类方法、系统、电子设备及存储介质 | |
CN114360530A (zh) | 语音测试方法、装置、计算机设备和存储介质 | |
CN113822045A (zh) | 一种基于多模态数据的影评质量的识别方法及相关装置 | |
CN117611845B (zh) | 多模态数据的关联识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |