CN113704552A - 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备 - Google Patents

一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备 Download PDF

Info

Publication number
CN113704552A
CN113704552A CN202111012714.0A CN202111012714A CN113704552A CN 113704552 A CN113704552 A CN 113704552A CN 202111012714 A CN202111012714 A CN 202111012714A CN 113704552 A CN113704552 A CN 113704552A
Authority
CN
China
Prior art keywords
word vector
emotional
sequence
audio
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111012714.0A
Other languages
English (en)
Inventor
韩纪庆
钱凡
郑铁然
郑贵滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202111012714.0A priority Critical patent/CN113704552A/zh
Publication of CN113704552A publication Critical patent/CN113704552A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备,它属于机器的多模态感知技术领域。本发明解决了现有情感分析技术需要人工对各模态序列进行对齐标注的问题。本发明对现有大规模预训练语言模型的多模态情感分析方法进行改进,使本发明方法不需要人工的对齐标注,因而适合目前大规模数据量、未对齐的多模态序列场景的情形,极大地提高了其实用性。而且,将本发明提出的方法在公开的最常使用的多模态情感分析的2个数据集上进行验证,结果表明其分类性能较基线系统有很大提高。本发明可以应用于情感分析。

Description

一种基于跨模态自动对齐和预训练语言模型的情感分析方 法、系统及设备
技术领域
本发明属于机器的多模态感知技术领域,具体涉及一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备。
背景技术
多模态情感分析是指通过对来自视频文件中的语音、文本、面部表情进行分析处理,以识别出视频中人物的情感倾向。多模态情感分析在人机交互、健康医疗、商品推荐等方面有着广泛的应用前景。由于每个模态固有的采样率差异,以及各个模态中语义基元的长度不同,导致各个模态序列间通常并不能按时间顺序一一对齐。
现有的采用大规模文本预训练模型的情感分析技术,都是基于人工的对齐标注。然而,人工的对齐标注需要大量的人力和时间成本,这使得现有的技术难以应用于目前大规模数据量的情形,也影响了现有技术的实用性。
发明内容
本发明的目的是为解决现有情感分析技术需要人工对各模态序列进行对齐标注的问题,而提出了一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备。
本发明为解决上述技术问题所采取的技术方案是:
一种基于跨模态自动对齐和预训练语言模型的情感分析方法,所述方法具体包括以下步骤:
步骤1、提取输入视频中的音频模态情感特征;
利用
Figure BDA0003238902680000011
表示第i帧音频的情感特征,
Figure BDA0003238902680000012
将提取的各帧音频的情感特征表示为音频情感特征序列
Figure BDA0003238902680000013
Ta代表音频序列长度,
Figure BDA0003238902680000014
代表实数域;
提取输入视频中的视觉模态情感特征;
利用
Figure BDA0003238902680000015
表示第j帧图像的情感特征,
Figure BDA0003238902680000016
将提取的各帧图像的情感特征表示为视觉情感特征序列
Figure BDA0003238902680000017
Tv为图像帧数;
步骤2、采用预训练好的BERT模型提取输入视频的词向量序列,将提取出的词向量序列和音频情感特征序列、视觉情感特征序列进行自动对齐;
步骤3、对词向量序列进行修正
利用自适应门函数和步骤2的自动对齐结果对词向量序列进行修正,获得修正后的词向量序列;
步骤4、情感预测
将修正后的词向量序列作为预训练好的BERT模型的第二层的输入,修正后的词向量序列依次经过预训练好的BERT模型的后续结构,得到输入视频的情感倾向。
一种基于跨模态自动对齐和预训练语言模型的情感分析系统,所述系统用于执行一种基于跨模态自动对齐和预训练语言模型的情感分析方法。
一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现一种基于跨模态自动对齐和预训练语言模型的情感分析方法。
本发明的有益效果是:本发明对现有大规模预训练语言模型的多模态情感分析方法进行改进,使本发明方法不需要人工的对齐标注,因而适合目前大规模数据量、未对齐的多模态序列场景的情形,极大地提高了其实用性。
而且,将本发明提出的方法在公开的最常使用的多模态情感分析的2个数据集上进行验证,结果表明其分类性能较基线系统有很大提高。
附图说明
图1为词向量偏移的示意图;
非语言行为会对词的语义产生影响,导致词向量在语义空间中的位置发生改变,新词向量等于旧词向量加上一个由非语言信息得到的位移向量;
图2为本发明的基于自动对齐和大规模预训练语言模型的情感分析方法的流程图;
其中,×12表示左边的模块堆叠12次;
图3为图2中编码器层详细配置的示意图;
图4为跨模态自动对齐方法的示意图。
具体实施方式
具体实施方式一、结合图2和图3说明本实施方式。本实施方式所述的一种基于跨模态自动对齐和预训练语言模型的情感分析方法,假设在数据集中,输入视频包含语言、音频和视觉3种模态,即本发明的“多模态”,所述方法具体包括以下步骤:
步骤1、提取输入视频中的音频模态情感特征;
利用
Figure BDA0003238902680000021
表示第i帧音频的情感特征,
Figure BDA0003238902680000022
将提取的各帧音频的情感特征表示为音频情感特征序列
Figure BDA0003238902680000023
Ta代表音频序列长度,
Figure BDA0003238902680000024
代表实数域;
提取输入视频中的视觉模态情感特征;
利用
Figure BDA0003238902680000031
表示第j帧图像的情感特征,
Figure BDA0003238902680000032
将提取的各帧图像的情感特征表示为视觉情感特征序列
Figure BDA0003238902680000033
Tv为图像帧数;
步骤2、采用预训练好的BERT模型提取输入视频的高阶词向量序列,将提取出的词向量序列和音频情感特征序列、视觉情感特征序列进行自动对齐;
步骤3、对词向量序列进行修正
利用自适应门函数和步骤2的自动对齐结果对词向量序列进行修正,获得修正后的词向量序列;
步骤4、情感预测
将修正后的词向量序列作为预训练好的BERT模型的第二层的输入,修正后的词向量序列依次经过预训练好的BERT模型的后续结构,得到输入视频的情感倾向。
在获得修正后的词向量wk′之后,为获得整个视频的情感倾向,将修正的词向量wk′输入到后续的预训练模型中,通过分类器,即得到视频的情感倾向。
Figure BDA0003238902680000034
其中,y表示输入视频的情感类别。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述音频模态情感特征采用COVAREP工具包提取。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述视觉模态情感特征采用Facet库提取。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述音频的情感特征是由梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)、音高参数(Pitch)、声门参数、峰斜率参数和最大分散商参数形成的向量。
本发明提取的每帧音频的情感特征均是74维特征。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述图像的情感特征是由面部运动单元参数、面部特征点参数、头部姿势参数和视线追踪参数形成的向量。
本发明提取的每帧图像的情感特征均是35维特征。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:结合图4说明本实施方式。本实施方式与具体实施方式一至五之一不同的是,所述步骤2的具体过程为:
将预训练好的BERT模型的第一层输出作为输入视频的词向量序列
Figure BDA0003238902680000041
其中,wk代表序列中的第k个词向量,Tl代表词向量序列的长度;
Figure BDA0003238902680000042
其中,
Figure BDA0003238902680000043
表示第k个词在词典中的索引,
Figure BDA0003238902680000044
代表自然数,
Figure BDA0003238902680000045
是得到的高阶词向量,d是词向量维度;
将音频情感特征序列
Figure BDA0003238902680000046
映射到词向量序列所在的语义空间,得到映射后的特征序列
Figure BDA0003238902680000047
Figure BDA0003238902680000048
其中,fa(·)为音频情感特征序列
Figure BDA0003238902680000049
对应的映射函数,
Figure BDA00032389026800000410
Figure BDA00032389026800000411
对应的映射后情感特征;
分别计算词向量wk与各帧音频对应的映射后情感特征
Figure BDA00032389026800000412
的语义相似度,再对计算出的语义相似度进行归一化处理,将获得的归一化处理结果作为对应帧音频情感特征的权重;
根据权重对提取的各帧音频的情感特征进行加权求和,得到与词向量wk对应的音频情感特征
Figure BDA00032389026800000413
Figure BDA00032389026800000414
其中,
Figure BDA00032389026800000415
代表第1帧音频的情感特征的权重,即词向量wk与第1帧音频对应的映射后情感特征
Figure BDA00032389026800000416
的语义相似度对应的归一化处理结果;
横跨整个时间幅度,进而得到与词向量序列
Figure BDA00032389026800000417
对齐的音频情感特征序列
Figure BDA00032389026800000418
将视觉情感特征序列
Figure BDA00032389026800000419
映射到词向量序列所在的语义空间,得到映射后的特征序列
Figure BDA00032389026800000420
Figure BDA00032389026800000421
其中,fv(·)为特征序列
Figure BDA00032389026800000422
对应的映射函数,
Figure BDA00032389026800000423
Figure BDA00032389026800000424
对应的映射后情感特征;
分别计算词向量wk与各帧图像对应的映射后情感特征
Figure BDA00032389026800000425
的语义相似度,再对计算出的语义相似度进行归一化处理,将获得的归一化处理结果作为对应帧图像情感特征的权重;
根据权重对提取的各帧图像的情感特征进行加权求和,得到与词向量wk对应的视觉情感特征
Figure BDA0003238902680000051
Figure BDA0003238902680000052
其中,
Figure BDA0003238902680000053
代表第1帧图像的情感特征的权重,即词向量wk与第1帧图像对应的映射后情感特征
Figure BDA0003238902680000054
的语义相似度对应的归一化处理结果;
横跨整个时间幅度,进而得到与词向量序列
Figure BDA0003238902680000055
对齐的视觉情感特征序列
Figure BDA0003238902680000056
Figure BDA0003238902680000057
作为词向量序列和音频情感特征序列、视觉情感特征序列自动对齐的结果。
本实施方式能捕捉到跨模态元素之间的长时依赖,针对未对齐的多模态序列,有助于获得更全面、准确的对齐表示。
其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七:本实施方式与具体实施方式一至六之一不同的是,所述对计算出的语义相似度进行归一化处理,是通过softmax函数进行的。
其它步骤及参数与具体实施方式一至六之一相同。
具体实施方式八:结合图1说明本实施方式。本实施方式与具体实施方式一至七之一不同的是,所述步骤3的具体过程为:
Figure BDA0003238902680000058
Figure BDA0003238902680000059
通过自适应门函数,得到词向量wk对应的位移向量hk
Figure BDA00032389026800000510
其中,h(·)为自适应门函数;
根据位移向量hk对词向量wk进行修正,获得修正后的词向量wk′:
w′k=wk+αhk (7)
其中,α为超参数,α≤1;
同理,对词向量序列中的每个词向量进行处理,分别获得词向量序列中每个词向量对应的修正后词向量。
每个词的基本语义由其所在语义空间中的位置决定,在没有其它模态的情况下,所有的词向量都位于语言流形上。但事实上,非语言行为会对词的语义产生影响,导致词向量在语义空间中的位置发生改变,得到的新的位置向量是原来的位置向量和由非语言信息得到的位移向量之间的加和。对这样的过程进行建模能获得融合了非语言信息的、更精细的词表示,进而有助于最终的情感预测。
其它步骤及参数与具体实施方式一至七之一相同。
具体实施方式九:本实施方式为一种基于跨模态自动对齐和预训练语言模型的情感分析系统,所述系统用于执行一种基于跨模态自动对齐和预训练语言模型的情感分析方法。
具体实施方式十:本实施方式为一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现一种基于跨模态自动对齐和预训练语言模型的情感分析方法。
为验证本发明所提出方法的有效性,在目前公开的最常使用的2个数据集CMU-MOSI和CMU-MOSEI上进行验证。如表1所示,本发明所提出的方法在2个数据集所有度量准则下均优于基线系统的结果。因此,实验结果充分验证了本发明方法的有效性。
表1本发明方法与基线系统在公开数据集上的分类性能比较
Figure BDA0003238902680000061
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (10)

1.一种基于跨模态自动对齐和预训练语言模型的情感分析方法,其特征在于,所述方法具体包括以下步骤:
步骤1、提取输入视频中的音频模态情感特征;
利用
Figure FDA0003238902670000011
表示第i帧音频的情感特征,
Figure FDA0003238902670000012
将提取的各帧音频的情感特征表示为音频情感特征序列
Figure FDA0003238902670000013
Ta代表音频序列长度,
Figure FDA0003238902670000014
代表实数域;
提取输入视频中的视觉模态情感特征;
利用
Figure FDA0003238902670000015
表示第j帧图像的情感特征,
Figure FDA0003238902670000016
将提取的各帧图像的情感特征表示为视觉情感特征序列
Figure FDA0003238902670000017
Tv为图像帧数;
步骤2、采用预训练好的BERT模型提取输入视频的词向量序列,将提取出的词向量序列和音频情感特征序列、视觉情感特征序列进行自动对齐;
步骤3、对词向量序列进行修正
利用自适应门函数和步骤2的自动对齐结果对词向量序列进行修正,获得修正后的词向量序列;
步骤4、情感预测
将修正后的词向量序列作为预训练好的BERT模型的第二层的输入,修正后的词向量序列依次经过预训练好的BERT模型的后续结构,得到输入视频的情感倾向。
2.根据权利要求1所述的一种基于跨模态自动对齐和预训练语言模型的情感分析方法,其特征在于,所述音频模态情感特征采用COVAREP工具包提取。
3.根据权利要求2所述的一种基于跨模态自动对齐和预训练语言模型的情感分析方法,其特征在于,所述视觉模态情感特征采用Facet库提取。
4.根据权利要求3所述的一种基于跨模态自动对齐和预训练语言模型的情感分析方法,其特征在于,所述音频的情感特征是由梅尔频率倒谱系数、音高参数、声门参数、峰斜率参数和最大分散商参数形成的向量。
5.根据权利要求4所述的一种基于跨模态自动对齐和预训练语言模型的情感分析方法,其特征在于,所述图像的情感特征是由面部运动单元参数、面部特征点参数、头部姿势参数和视线追踪参数形成的向量。
6.根据权利要求5所述的一种基于跨模态自动对齐和预训练语言模型的情感分析方法,其特征在于,所述步骤2的具体过程为:
将预训练好的BERT模型的第一层输出作为输入视频的词向量序列
Figure FDA0003238902670000018
其中,wk代表序列中的第k个词向量,Tl代表词向量序列的长度;
将音频情感特征序列
Figure FDA0003238902670000021
映射到词向量序列所在的语义空间,得到映射后的特征序列
Figure FDA0003238902670000022
Figure FDA0003238902670000023
其中,fa(·)为音频情感特征序列
Figure FDA0003238902670000024
对应的映射函数,
Figure FDA0003238902670000025
Figure FDA00032389026700000226
对应的映射后情感特征;
分别计算词向量wk与各帧音频对应的映射后情感特征
Figure FDA0003238902670000027
的语义相似度,再对计算出的语义相似度进行归一化处理,将获得的归一化处理结果作为对应帧音频情感特征的权重;
根据权重对提取的各帧音频的情感特征进行加权求和,得到与词向量wk对应的音频情感特征
Figure FDA0003238902670000028
Figure FDA0003238902670000029
其中,
Figure FDA00032389026700000210
代表第1帧音频的情感特征的权重;
进而得到与词向量序列
Figure FDA00032389026700000211
对齐的音频情感特征序列
Figure FDA00032389026700000212
将视觉情感特征序列
Figure FDA00032389026700000213
映射到词向量序列所在的语义空间,得到映射后的特征序列
Figure FDA00032389026700000214
Figure FDA00032389026700000215
其中,fv(·)为特征序列
Figure FDA00032389026700000216
对应的映射函数,
Figure FDA00032389026700000217
Figure FDA00032389026700000218
对应的映射后情感特征;
分别计算词向量wk与各帧图像对应的映射后情感特征
Figure FDA00032389026700000219
的语义相似度,再对计算出的语义相似度进行归一化处理,将获得的归一化处理结果作为对应帧图像情感特征的权重;
根据权重对提取的各帧图像的情感特征进行加权求和,得到与词向量wk对应的视觉情感特征
Figure FDA00032389026700000220
Figure FDA00032389026700000221
其中,
Figure FDA00032389026700000222
代表第1帧图像的情感特征的权重;
进而得到与词向量序列
Figure FDA00032389026700000223
对齐的视觉情感特征序列
Figure FDA00032389026700000224
Figure FDA00032389026700000225
作为词向量序列和音频情感特征序列、视觉情感特征序列自动对齐的结果。
7.根据权利要求6所述的一种基于跨模态自动对齐和预训练语言模型的情感分析方法,其特征在于,所述对计算出的语义相似度进行归一化处理,是通过softmax函数进行的。
8.根据权利要求7所述的一种基于跨模态自动对齐和预训练语言模型的情感分析方法,其特征在于,所述步骤3的具体过程为:
Figure FDA0003238902670000031
Figure FDA0003238902670000032
通过自适应门函数,得到词向量wk对应的位移向量hk
Figure FDA0003238902670000033
其中,h(·)为自适应门函数;
根据位移向量hk对词向量wk进行修正,获得修正后的词向量wk′:
w′k=wk+αhk (7)
其中,α为超参数;
同理,对词向量序列中的每个词向量进行处理,分别获得词向量序列中每个词向量对应的修正后词向量。
9.一种基于跨模态自动对齐和预训练语言模型的情感分析系统,其特征在于,所述系统用于执行权利要求1至8之一所述的一种基于跨模态自动对齐和预训练语言模型的情感分析方法。
10.一种设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至8之一所述的一种基于跨模态自动对齐和预训练语言模型的情感分析方法。
CN202111012714.0A 2021-08-31 2021-08-31 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备 Pending CN113704552A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111012714.0A CN113704552A (zh) 2021-08-31 2021-08-31 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111012714.0A CN113704552A (zh) 2021-08-31 2021-08-31 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备

Publications (1)

Publication Number Publication Date
CN113704552A true CN113704552A (zh) 2021-11-26

Family

ID=78658015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111012714.0A Pending CN113704552A (zh) 2021-08-31 2021-08-31 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备

Country Status (1)

Country Link
CN (1) CN113704552A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969458A (zh) * 2022-06-28 2022-08-30 昆明理工大学 基于文本指导的层级自适应融合的多模态情感分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN112508077A (zh) * 2020-12-02 2021-03-16 齐鲁工业大学 一种基于多模态特征融合的社交媒体情感分析方法及系统
CN112598067A (zh) * 2020-12-25 2021-04-02 中国联合网络通信集团有限公司 事件的情感分类方法、装置、电子设备及存储介质
WO2021134277A1 (zh) * 2019-12-30 2021-07-08 深圳市优必选科技股份有限公司 情感识别方法、智能装置和计算机可读存储介质
CN113297383A (zh) * 2021-06-22 2021-08-24 苏州大学 基于知识蒸馏的语音情感分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
WO2021134277A1 (zh) * 2019-12-30 2021-07-08 深圳市优必选科技股份有限公司 情感识别方法、智能装置和计算机可读存储介质
CN112508077A (zh) * 2020-12-02 2021-03-16 齐鲁工业大学 一种基于多模态特征融合的社交媒体情感分析方法及系统
CN112598067A (zh) * 2020-12-25 2021-04-02 中国联合网络通信集团有限公司 事件的情感分类方法、装置、电子设备及存储介质
CN113297383A (zh) * 2021-06-22 2021-08-24 苏州大学 基于知识蒸馏的语音情感分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SANGHYUN LEE 等: "Multimodal Emotion Recognition Fusion Analysis Adapting BERT With Heterogeneous Feature Unification", IEEE ACCESS, vol. 9, 28 June 2021 (2021-06-28), pages 94557 - 94572, XP011865411, DOI: 10.1109/ACCESS.2021.3092735 *
吴良庆: "面向多模态信息的情绪分类方法研究", 中国优秀硕士学位论文全文数据库, no. 02, 15 February 2021 (2021-02-15), pages 1 - 72 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969458A (zh) * 2022-06-28 2022-08-30 昆明理工大学 基于文本指导的层级自适应融合的多模态情感分析方法
CN114969458B (zh) * 2022-06-28 2024-04-26 昆明理工大学 基于文本指导的层级自适应融合的多模态情感分析方法

Similar Documents

Publication Publication Date Title
CN109522818B (zh) 一种表情识别的方法、装置、终端设备及存储介质
CN114694076A (zh) 基于多任务学习与层叠跨模态融合的多模态情感分析方法
CN112905827A (zh) 跨模态图文匹配的方法、装置及计算机可读存储介质
CN111931795B (zh) 基于子空间稀疏特征融合的多模态情感识别方法及系统
CN114511906A (zh) 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
WO2023050708A1 (zh) 一种情感识别方法、装置、设备及可读存储介质
Zhou et al. An image-based visual speech animation system
Jachimski et al. A comparative study of English viseme recognition methods and algorithms
CN112151030A (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN113255557B (zh) 一种基于深度学习的视频人群情绪分析方法及系统
CN112418166A (zh) 一种基于多模态信息的情感分布学习方法
Xia et al. Audiovisual speech recognition: A review and forecast
CN114140885A (zh) 一种情感分析模型的生成方法、装置、电子设备以及存储介质
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
Wang et al. Wavenet with cross-attention for audiovisual speech recognition
Ivanko et al. An experimental analysis of different approaches to audio–visual speech recognition and lip-reading
CN113704552A (zh) 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备
Websdale et al. Speaker-independent speech animation using perceptual loss functions and synthetic data
WO2023226239A1 (zh) 对象情绪的分析方法、装置和电子设备
CN113689527A (zh) 一种人脸转换模型的训练方法、人脸图像转换方法
CN116701996A (zh) 基于多元损失函数的多模态情感分析方法、系统、设备及介质
CN116244474A (zh) 一种基于多模态情感特征融合的学习者学习状态获取方法
Chao et al. Enforcing Semantic Consistency for Cross Corpus Valence Regression from Speech Using Adversarial Discrepancy Learning.
Hsu et al. Attentively-coupled long short-term memory for audio-visual emotion recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination