CN113704552A - 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备 - Google Patents
一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备 Download PDFInfo
- Publication number
- CN113704552A CN113704552A CN202111012714.0A CN202111012714A CN113704552A CN 113704552 A CN113704552 A CN 113704552A CN 202111012714 A CN202111012714 A CN 202111012714A CN 113704552 A CN113704552 A CN 113704552A
- Authority
- CN
- China
- Prior art keywords
- word vector
- emotional
- sequence
- audio
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 53
- 238000004458 analytical method Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims description 85
- 230000002996 emotional effect Effects 0.000 claims description 65
- 230000000007 visual effect Effects 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 7
- 238000006073 displacement reaction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 230000001815 facial effect Effects 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000008447 perception Effects 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备,它属于机器的多模态感知技术领域。本发明解决了现有情感分析技术需要人工对各模态序列进行对齐标注的问题。本发明对现有大规模预训练语言模型的多模态情感分析方法进行改进,使本发明方法不需要人工的对齐标注,因而适合目前大规模数据量、未对齐的多模态序列场景的情形,极大地提高了其实用性。而且,将本发明提出的方法在公开的最常使用的多模态情感分析的2个数据集上进行验证,结果表明其分类性能较基线系统有很大提高。本发明可以应用于情感分析。
Description
技术领域
本发明属于机器的多模态感知技术领域,具体涉及一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备。
背景技术
多模态情感分析是指通过对来自视频文件中的语音、文本、面部表情进行分析处理,以识别出视频中人物的情感倾向。多模态情感分析在人机交互、健康医疗、商品推荐等方面有着广泛的应用前景。由于每个模态固有的采样率差异,以及各个模态中语义基元的长度不同,导致各个模态序列间通常并不能按时间顺序一一对齐。
现有的采用大规模文本预训练模型的情感分析技术,都是基于人工的对齐标注。然而,人工的对齐标注需要大量的人力和时间成本,这使得现有的技术难以应用于目前大规模数据量的情形,也影响了现有技术的实用性。
发明内容
本发明的目的是为解决现有情感分析技术需要人工对各模态序列进行对齐标注的问题,而提出了一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备。
本发明为解决上述技术问题所采取的技术方案是:
一种基于跨模态自动对齐和预训练语言模型的情感分析方法,所述方法具体包括以下步骤:
步骤1、提取输入视频中的音频模态情感特征;
提取输入视频中的视觉模态情感特征;
步骤2、采用预训练好的BERT模型提取输入视频的词向量序列,将提取出的词向量序列和音频情感特征序列、视觉情感特征序列进行自动对齐;
步骤3、对词向量序列进行修正
利用自适应门函数和步骤2的自动对齐结果对词向量序列进行修正,获得修正后的词向量序列;
步骤4、情感预测
将修正后的词向量序列作为预训练好的BERT模型的第二层的输入,修正后的词向量序列依次经过预训练好的BERT模型的后续结构,得到输入视频的情感倾向。
一种基于跨模态自动对齐和预训练语言模型的情感分析系统,所述系统用于执行一种基于跨模态自动对齐和预训练语言模型的情感分析方法。
一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现一种基于跨模态自动对齐和预训练语言模型的情感分析方法。
本发明的有益效果是:本发明对现有大规模预训练语言模型的多模态情感分析方法进行改进,使本发明方法不需要人工的对齐标注,因而适合目前大规模数据量、未对齐的多模态序列场景的情形,极大地提高了其实用性。
而且,将本发明提出的方法在公开的最常使用的多模态情感分析的2个数据集上进行验证,结果表明其分类性能较基线系统有很大提高。
附图说明
图1为词向量偏移的示意图;
非语言行为会对词的语义产生影响,导致词向量在语义空间中的位置发生改变,新词向量等于旧词向量加上一个由非语言信息得到的位移向量;
图2为本发明的基于自动对齐和大规模预训练语言模型的情感分析方法的流程图;
其中,×12表示左边的模块堆叠12次;
图3为图2中编码器层详细配置的示意图;
图4为跨模态自动对齐方法的示意图。
具体实施方式
具体实施方式一、结合图2和图3说明本实施方式。本实施方式所述的一种基于跨模态自动对齐和预训练语言模型的情感分析方法,假设在数据集中,输入视频包含语言、音频和视觉3种模态,即本发明的“多模态”,所述方法具体包括以下步骤:
步骤1、提取输入视频中的音频模态情感特征;
提取输入视频中的视觉模态情感特征;
步骤2、采用预训练好的BERT模型提取输入视频的高阶词向量序列,将提取出的词向量序列和音频情感特征序列、视觉情感特征序列进行自动对齐;
步骤3、对词向量序列进行修正
利用自适应门函数和步骤2的自动对齐结果对词向量序列进行修正,获得修正后的词向量序列;
步骤4、情感预测
将修正后的词向量序列作为预训练好的BERT模型的第二层的输入,修正后的词向量序列依次经过预训练好的BERT模型的后续结构,得到输入视频的情感倾向。
在获得修正后的词向量wk′之后,为获得整个视频的情感倾向,将修正的词向量wk′输入到后续的预训练模型中,通过分类器,即得到视频的情感倾向。
其中,y表示输入视频的情感类别。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述音频模态情感特征采用COVAREP工具包提取。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述视觉模态情感特征采用Facet库提取。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述音频的情感特征是由梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)、音高参数(Pitch)、声门参数、峰斜率参数和最大分散商参数形成的向量。
本发明提取的每帧音频的情感特征均是74维特征。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述图像的情感特征是由面部运动单元参数、面部特征点参数、头部姿势参数和视线追踪参数形成的向量。
本发明提取的每帧图像的情感特征均是35维特征。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:结合图4说明本实施方式。本实施方式与具体实施方式一至五之一不同的是,所述步骤2的具体过程为:
本实施方式能捕捉到跨模态元素之间的长时依赖,针对未对齐的多模态序列,有助于获得更全面、准确的对齐表示。
其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七:本实施方式与具体实施方式一至六之一不同的是,所述对计算出的语义相似度进行归一化处理,是通过softmax函数进行的。
其它步骤及参数与具体实施方式一至六之一相同。
具体实施方式八:结合图1说明本实施方式。本实施方式与具体实施方式一至七之一不同的是,所述步骤3的具体过程为:
其中,h(·)为自适应门函数;
根据位移向量hk对词向量wk进行修正,获得修正后的词向量wk′:
w′k=wk+αhk (7)
其中,α为超参数,α≤1;
同理,对词向量序列中的每个词向量进行处理,分别获得词向量序列中每个词向量对应的修正后词向量。
每个词的基本语义由其所在语义空间中的位置决定,在没有其它模态的情况下,所有的词向量都位于语言流形上。但事实上,非语言行为会对词的语义产生影响,导致词向量在语义空间中的位置发生改变,得到的新的位置向量是原来的位置向量和由非语言信息得到的位移向量之间的加和。对这样的过程进行建模能获得融合了非语言信息的、更精细的词表示,进而有助于最终的情感预测。
其它步骤及参数与具体实施方式一至七之一相同。
具体实施方式九:本实施方式为一种基于跨模态自动对齐和预训练语言模型的情感分析系统,所述系统用于执行一种基于跨模态自动对齐和预训练语言模型的情感分析方法。
具体实施方式十:本实施方式为一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现一种基于跨模态自动对齐和预训练语言模型的情感分析方法。
为验证本发明所提出方法的有效性,在目前公开的最常使用的2个数据集CMU-MOSI和CMU-MOSEI上进行验证。如表1所示,本发明所提出的方法在2个数据集所有度量准则下均优于基线系统的结果。因此,实验结果充分验证了本发明方法的有效性。
表1本发明方法与基线系统在公开数据集上的分类性能比较
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (10)
1.一种基于跨模态自动对齐和预训练语言模型的情感分析方法,其特征在于,所述方法具体包括以下步骤:
步骤1、提取输入视频中的音频模态情感特征;
提取输入视频中的视觉模态情感特征;
步骤2、采用预训练好的BERT模型提取输入视频的词向量序列,将提取出的词向量序列和音频情感特征序列、视觉情感特征序列进行自动对齐;
步骤3、对词向量序列进行修正
利用自适应门函数和步骤2的自动对齐结果对词向量序列进行修正,获得修正后的词向量序列;
步骤4、情感预测
将修正后的词向量序列作为预训练好的BERT模型的第二层的输入,修正后的词向量序列依次经过预训练好的BERT模型的后续结构,得到输入视频的情感倾向。
2.根据权利要求1所述的一种基于跨模态自动对齐和预训练语言模型的情感分析方法,其特征在于,所述音频模态情感特征采用COVAREP工具包提取。
3.根据权利要求2所述的一种基于跨模态自动对齐和预训练语言模型的情感分析方法,其特征在于,所述视觉模态情感特征采用Facet库提取。
4.根据权利要求3所述的一种基于跨模态自动对齐和预训练语言模型的情感分析方法,其特征在于,所述音频的情感特征是由梅尔频率倒谱系数、音高参数、声门参数、峰斜率参数和最大分散商参数形成的向量。
5.根据权利要求4所述的一种基于跨模态自动对齐和预训练语言模型的情感分析方法,其特征在于,所述图像的情感特征是由面部运动单元参数、面部特征点参数、头部姿势参数和视线追踪参数形成的向量。
6.根据权利要求5所述的一种基于跨模态自动对齐和预训练语言模型的情感分析方法,其特征在于,所述步骤2的具体过程为:
7.根据权利要求6所述的一种基于跨模态自动对齐和预训练语言模型的情感分析方法,其特征在于,所述对计算出的语义相似度进行归一化处理,是通过softmax函数进行的。
9.一种基于跨模态自动对齐和预训练语言模型的情感分析系统,其特征在于,所述系统用于执行权利要求1至8之一所述的一种基于跨模态自动对齐和预训练语言模型的情感分析方法。
10.一种设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至8之一所述的一种基于跨模态自动对齐和预训练语言模型的情感分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111012714.0A CN113704552A (zh) | 2021-08-31 | 2021-08-31 | 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111012714.0A CN113704552A (zh) | 2021-08-31 | 2021-08-31 | 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113704552A true CN113704552A (zh) | 2021-11-26 |
Family
ID=78658015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111012714.0A Pending CN113704552A (zh) | 2021-08-31 | 2021-08-31 | 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704552A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969458A (zh) * | 2022-06-28 | 2022-08-30 | 昆明理工大学 | 基于文本指导的层级自适应融合的多模态情感分析方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
CN112508077A (zh) * | 2020-12-02 | 2021-03-16 | 齐鲁工业大学 | 一种基于多模态特征融合的社交媒体情感分析方法及系统 |
CN112598067A (zh) * | 2020-12-25 | 2021-04-02 | 中国联合网络通信集团有限公司 | 事件的情感分类方法、装置、电子设备及存储介质 |
WO2021134277A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
CN113297383A (zh) * | 2021-06-22 | 2021-08-24 | 苏州大学 | 基于知识蒸馏的语音情感分类方法 |
-
2021
- 2021-08-31 CN CN202111012714.0A patent/CN113704552A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
WO2021134277A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
CN112508077A (zh) * | 2020-12-02 | 2021-03-16 | 齐鲁工业大学 | 一种基于多模态特征融合的社交媒体情感分析方法及系统 |
CN112598067A (zh) * | 2020-12-25 | 2021-04-02 | 中国联合网络通信集团有限公司 | 事件的情感分类方法、装置、电子设备及存储介质 |
CN113297383A (zh) * | 2021-06-22 | 2021-08-24 | 苏州大学 | 基于知识蒸馏的语音情感分类方法 |
Non-Patent Citations (2)
Title |
---|
SANGHYUN LEE 等: "Multimodal Emotion Recognition Fusion Analysis Adapting BERT With Heterogeneous Feature Unification", IEEE ACCESS, vol. 9, 28 June 2021 (2021-06-28), pages 94557 - 94572, XP011865411, DOI: 10.1109/ACCESS.2021.3092735 * |
吴良庆: "面向多模态信息的情绪分类方法研究", 中国优秀硕士学位论文全文数据库, no. 02, 15 February 2021 (2021-02-15), pages 1 - 72 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969458A (zh) * | 2022-06-28 | 2022-08-30 | 昆明理工大学 | 基于文本指导的层级自适应融合的多模态情感分析方法 |
CN114969458B (zh) * | 2022-06-28 | 2024-04-26 | 昆明理工大学 | 基于文本指导的层级自适应融合的多模态情感分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522818B (zh) | 一种表情识别的方法、装置、终端设备及存储介质 | |
CN114694076A (zh) | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 | |
CN112905827A (zh) | 跨模态图文匹配的方法、装置及计算机可读存储介质 | |
CN111931795B (zh) | 基于子空间稀疏特征融合的多模态情感识别方法及系统 | |
CN114511906A (zh) | 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备 | |
CN114549850B (zh) | 一种解决模态缺失问题的多模态图像美学质量评价方法 | |
WO2023050708A1 (zh) | 一种情感识别方法、装置、设备及可读存储介质 | |
Zhou et al. | An image-based visual speech animation system | |
Jachimski et al. | A comparative study of English viseme recognition methods and algorithms | |
CN112151030A (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
CN113255557B (zh) | 一种基于深度学习的视频人群情绪分析方法及系统 | |
CN112418166A (zh) | 一种基于多模态信息的情感分布学习方法 | |
Xia et al. | Audiovisual speech recognition: A review and forecast | |
CN114140885A (zh) | 一种情感分析模型的生成方法、装置、电子设备以及存储介质 | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
Wang et al. | Wavenet with cross-attention for audiovisual speech recognition | |
Ivanko et al. | An experimental analysis of different approaches to audio–visual speech recognition and lip-reading | |
CN113704552A (zh) | 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备 | |
Websdale et al. | Speaker-independent speech animation using perceptual loss functions and synthetic data | |
WO2023226239A1 (zh) | 对象情绪的分析方法、装置和电子设备 | |
CN113689527A (zh) | 一种人脸转换模型的训练方法、人脸图像转换方法 | |
CN116701996A (zh) | 基于多元损失函数的多模态情感分析方法、系统、设备及介质 | |
CN116244474A (zh) | 一种基于多模态情感特征融合的学习者学习状态获取方法 | |
Chao et al. | Enforcing Semantic Consistency for Cross Corpus Valence Regression from Speech Using Adversarial Discrepancy Learning. | |
Hsu et al. | Attentively-coupled long short-term memory for audio-visual emotion recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |