CN115690553B - 一种基于多模态对话内容联合建模的情感分析方法及系统 - Google Patents
一种基于多模态对话内容联合建模的情感分析方法及系统 Download PDFInfo
- Publication number
- CN115690553B CN115690553B CN202310000559.3A CN202310000559A CN115690553B CN 115690553 B CN115690553 B CN 115690553B CN 202310000559 A CN202310000559 A CN 202310000559A CN 115690553 B CN115690553 B CN 115690553B
- Authority
- CN
- China
- Prior art keywords
- embedding
- emotion analysis
- mode
- analysis method
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于多模态对话内容联合建模的情感分析方法及系统,涉及机器智能技术。由于传统的情感分析方法不能较为完整地从多模态对话中捕捉到各模态之间的依赖以及对话中上下文和说话人之间的依赖关系进行情感分析,为此提出这种基于多模态对话内容联合建模的说话人连续情感分析方法,该方法以基于对话的多模态预训练模型为基础,经过情感分类模块,在相应数据集上进行微调训练,得到可以在语音、视频、文本模态上使用的情感分析方法。为此同时提出预训练模型的方法,比起传统的预训练方法,该方法具有说话人嵌入以及对话轮数嵌入模块,使得整个预训练模型学习到更加适应对话场景任务的语言模型。
Description
技术领域
本发明涉及机器智能领域,尤其涉及一种基于多模态对话内容联合建模的情感分析方法及系统。
背景技术
情感分析或情绪识别是当前计算机领域的重要研究领域,一般指使用计算机对人类在特定时刻表达出的情绪进行识别,这种技术不仅在人机互动中有着广泛应用,在其他方向比如破案刑侦以及心理诊疗方面也有着很大的潜力。对话中的情感识别作为情感计算领域一个新的研究方向,近年来越来越受到关注。在实际应用中,可以用于在社交网站上分析情感把握舆情,对客服对话等进行抽样分析,保障服务质量,作为心理治疗领域的辅助工具,对用户的心理状况,心理压力等进行分析等。
对话情感分析方法需要建模上下文敏感和说话人敏感的依赖关系,现今有许多方法融合多模态并建模对话中的关系,但如DialogueRNN、DialogueGCN模型的每个部分只负责提取自己的特征,靠前的模块不一定能为后方的模块提取到合适的特征,EmoBERTa等模型虽然用BERT统一建模了整个过程,但只是对文本进行了利用,没有更好地运用到多模态特征。现今,缺少一个统一三个模态,并能同时在一个模型中提取说话人关系,多模态关系,以及上下文和对话轮数依赖关系的模型,为此有必要发明一种基于多模态对话内容联合建模的说话人连续情感分析方法。
发明内容
本发明目的在于提供一种基于多模态对话内容联合建模的情感分析方法及系统,以解决上述现有技术存在的问题。
本发明中所述一种基于多模态对话内容联合建模的情感分析方法包括以下步骤:
S1、对多模态对话数据集进行模型预训练;
S2、分别对一段对话的语音、文本及视频进行语音嵌入、词嵌入及图像嵌入;再分别经过说话人嵌入及对话轮数嵌入后分别输入音频编码器、文本编码器和视觉编码器;得到每个模态对应的向量特征序列;
S3、将三个单模态的向量特征序列输入一个跨模态编码器;
S4、从跨模态编码器提取最后一层隐藏层后依次经过全连接层、激活函数、dropout层以及全连接层后得到情感分析结果。
所述步骤S1包括以下步骤:
S101、在输入时对三个模态分别使用[MASK]进行掩膜处理,再预测对应[MASK]的部分;
S102、在进行说话人嵌入时,随机对一些说话人使用[MASK]进行掩膜处理,再预测对应[MASK]的说话人嵌入;
S103、对于文本-视频-音频的样本对,随机对其中的1到2个模态用其他样本对的样本进行替换;使用[CLS]作为输出,经过全连接层和激活函数来预测最终的匹配类型,最终的输出分数。
所述步骤S2包括以下步骤:
S201、输入一段对话的语音、文本、视频,通过相应的单模态编码器,得到对应模态的嵌入,对于文本模态,使用预训练的BERT类模型预训练的分词器对文本进行分词处理再得到对应的词嵌入;对于语音模态,使用wav2vec预训练模型提取对应的音频特征;对于视频模态,则使用了预训练的Faster R-CNN来提取视觉嵌入;
S202、以对话进行说话人信息嵌入,以及对话轮数嵌入,得到三个单模态编码器的输出。
所述步骤S3包括以下步骤:
S301、三个单模态编码器得到的三个模态的向量特征序列,通过沿着序列方向连接,得到模态融合后的向量特征序列;
S302、将该向量特征序列输入跨模态编码器中,对该序列进行编码。
所述步骤S4包括以下步骤:
S401、提取跨模态编码器最后一层隐藏层输出序列H,依次经过神经网络;
S402、对整个神经网络进行训练,根据每个样本对中标注好的最后一个样本的真实情感标签以及神经网络输出的情感预测值,设置如下损失函数:
本发明中所述一种基于多模态对话内容联合建模的情感分析系统,利用所述方法进行情感分析。
本发明中所述一种基于多模态对话内容联合建模的情感分析方法及系统,其优点在于,基于对话的多模态预训练模型为基础,经过情感分类模块,在相应数据集上进行微调训练,得到可以在语音、视频、文本模态上使用的情感分析方法。为此同时提出预训练模型的方法,比起传统的预训练方法,该方法具有说话人嵌入以及对话轮数嵌入模块,使得整个预训练模型学习到更加适应对话场景任务的语言模型。
附图说明
图1是本发明中所述一种基于多模态对话内容联合建模的情感分析方法流程示意图。
图2是本发明中所述预训练的流程示意图。
具体实施方式
本发明中所述一种基于多模态对话内容联合建模的情感分析系统应用以下方法进行情感预测。本发明中所述一种基于多模态对话内容联合建模的情感分析方法如图1和图2所示,包括以下步骤:
S1、基于多模态对话数据集进行模型预训练。
S2、输入一段对话的语音、文本、视频模态的原始信息,得到相应的语音嵌入、词嵌入及图像嵌入。结合对话轮数嵌入,说话人嵌入等信息,得到输入的Token序列。
S4、从跨模态编码器提取最后一层隐藏层,依次经过全连接层,激活函数,dropout层以及全连接层得到最后的情感分析结果。
进一步地,所述步骤S1包括以下步骤:
S101、在输入时对三个模态分别使用[MASK]进行掩膜处理,再预测对应[MASK]的部分。以文本模态为例,对随机15%的文本使用[MASK]进行掩膜处理,模型的目标即通过最小化以下负对数似然函数,使用该[MASK]周围的词,视频以及音频来预测被掩膜的文本:,其中θ是可训练的参数集合,三个模态的样本来自同一个样本对D。
S102、在进行说话人嵌入时,随机对一些说话人使用[MASK]进行掩膜处理,再预测对应[MASK]的说话人嵌入。
S103、对于文本-视频-音频的样本对,随机对其中的1到2个模态用其他样本对的样本进行替换。该模型需要判断哪些输入是匹配的,即需要判断如图2所示五种情况:情况(1)所有三个输入都匹配;情况(2)图像和音频匹配;情况(3)只有文本和图像匹配;情况(4)只有文本和音频匹配;以及情况(5)没有匹配的样本。为此我们使用[CLS]作为输出,经过全连接层和激活函数来预测最终的匹配类型,最终的输出分数为。这个任务的损失函数定义为:
进一步地,所述步骤S2包括以下步骤:
S201、输入一段对话的语音、文本、视频,通过相应的单模态编码器,得到对应模态的嵌入:对于文本模态,使用预训练的BERT类模型预训练的分词器对文本进行分词处理再得到对应的词嵌入。对于语音模态,使用第二版wav2vec预训练模型提取对应的音频特征。对于视频模态,则使用了预训练的FasterR-CNN来提取了视觉嵌入。
S202、为了对整个对话建模并且提取对话中的说话人以及说话次序的依赖关系,模型以对话进行了说话人信息嵌入,以及对话轮数嵌入等,得到三个单模态编码器的输出。
进一步地,所述步骤S3包括以下步骤:
S301、三个单模态编码器得到的三个模态的向量特征序列,通过沿着序列方向连接,得到模态融合后的向量特征序列。
S302、将该向量特征序列输入基于Transformer的跨模态编码器中,对该序列进行编码。
进一步地,所述步骤S4包括以下步骤:
S401、提取跨模态编码器最后一层隐藏层输出序列H,依次经过如下的神经网络:
S402、为了得到最终的情感分析神经网络,需要对整个神经网络进行训练,根据每个样本对中标注好的最后一个样本的真实情感标签以及神经网络输出的情感预测值,设置了如下的损失函数:
对于本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
Claims (6)
1.一种基于多模态对话内容联合建模的情感分析方法,其特征在于,包括以下步骤:
S1、对多模态对话数据集进行模型预训练;
S2、分别对一段对话的语音、文本及视频进行语音嵌入、词嵌入及图像嵌入;再分别经过说话人嵌入及对话轮数嵌入后分别输入音频编码器、文本编码器和视觉编码器;得到每个模态对应的向量特征序列;
S3、将三个单模态的向量特征序列输入一个跨模态编码器;
S4、从跨模态编码器提取最后一层隐藏层后依次经过全连接层、激活函数、dropout层以及全连接层后得到情感分析结果。
2.根据权利要求1所述一种基于多模态对话内容联合建模的情感分析方法,其特征在于,所述步骤S1包括以下步骤:
S101、在输入时对三个模态分别使用[MASK]进行掩膜处理,再预测对应[MASK]的部分;
S102、在进行说话人嵌入时,随机对一些说话人使用[MASK]进行掩膜处理,再预测对应[MASK]的说话人嵌入;
S103、对于文本-视频-音频的样本对,随机对其中的1到2个模态用其他样本对的样本进行替换;使用[CLS]作为输出,经过全连接层和激活函数来预测最终的匹配类型,最终的输出分数。
3.根据权利要求1所述一种基于多模态对话内容联合建模的情感分析方法,其特征在于,所述步骤S2包括以下步骤:
S201、输入一段对话的语音、文本、视频,通过相应的单模态编码器,得到对应模态的嵌入,对于文本模态,使用预训练的BERT类模型预训练的分词器对文本进行分词处理再得到对应的词嵌入;对于语音模态,使用wav2vec预训练模型提取对应的音频特征;对于视频模态,则使用了预训练的Faster R-CNN来提取视觉嵌入;
S202、以对话进行说话人信息嵌入,以及对话轮数嵌入,得到三个单模态编码器的输出。
4.根据权利要求1所述一种基于多模态对话内容联合建模的情感分析方法,其特征在于,所述步骤S3包括以下步骤:
S301、三个单模态编码器得到的三个模态的向量特征序列,通过沿着序列方向连接,得到模态融合后的向量特征序列;
S302、将该向量特征序列输入跨模态编码器中,对该序列进行编码。
6.一种基于多模态对话内容联合建模的情感分析系统,其特征在于,利用如权利要求1-5任一所述方法进行情感分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310000559.3A CN115690553B (zh) | 2023-01-03 | 2023-01-03 | 一种基于多模态对话内容联合建模的情感分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310000559.3A CN115690553B (zh) | 2023-01-03 | 2023-01-03 | 一种基于多模态对话内容联合建模的情感分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115690553A CN115690553A (zh) | 2023-02-03 |
CN115690553B true CN115690553B (zh) | 2023-04-11 |
Family
ID=85057296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310000559.3A Active CN115690553B (zh) | 2023-01-03 | 2023-01-03 | 一种基于多模态对话内容联合建模的情感分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115690553B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115984842A (zh) * | 2023-02-13 | 2023-04-18 | 广州数说故事信息科技有限公司 | 一种基于多模态的视频开放标签提取方法 |
CN116108856B (zh) * | 2023-02-14 | 2023-07-18 | 华南理工大学 | 基于长短回路认知与显隐情感交互的情感识别方法及系统 |
CN116595181B (zh) * | 2023-07-07 | 2023-10-03 | 湖南师范大学 | 一种结合情感分析的个性化对话方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822192A (zh) * | 2021-09-18 | 2021-12-21 | 山东大学 | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348075B (zh) * | 2020-11-02 | 2022-09-20 | 大连理工大学 | 一种基于情景注意力神经网络的多模态情感识别方法 |
KR102251781B1 (ko) * | 2020-12-30 | 2021-05-14 | (주)라이언로켓 | 인공신경망을 이용한 입모양 합성 장치 및 방법 |
JP2022144514A (ja) * | 2021-03-19 | 2022-10-03 | 株式会社リコー | 学習装置、学習システム、非言語情報学習方法およびプログラム |
WO2022261593A1 (en) * | 2021-06-11 | 2022-12-15 | Hume AI Inc. | Empathic artificial intelligence systems |
US20220405484A1 (en) * | 2021-06-21 | 2022-12-22 | Openstream Inc. | Methods for Reinforcement Document Transformer for Multimodal Conversations and Devices Thereof |
CN114283430A (zh) * | 2021-12-03 | 2022-04-05 | 苏州大创科技有限公司 | 跨模态图文匹配训练方法及装置、存储介质、电子设备 |
CN114417892B (zh) * | 2022-01-27 | 2022-08-02 | 北京中科深智科技有限公司 | 一种用于电商直播场景的小样本多轮对话的生成模型 |
CN115510224A (zh) * | 2022-07-14 | 2022-12-23 | 南京邮电大学 | 一种基于视觉、音频与文本融合的跨模态bert情感分析方法 |
CN115017358B (zh) * | 2022-08-09 | 2022-11-04 | 南京理工大学 | 一种多模态交互的跨模态检索方法及系统 |
CN115329779B (zh) * | 2022-08-10 | 2023-10-13 | 天津大学 | 一种多人对话情感识别方法 |
-
2023
- 2023-01-03 CN CN202310000559.3A patent/CN115690553B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822192A (zh) * | 2021-09-18 | 2021-12-21 | 山东大学 | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115690553A (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112348075B (zh) | 一种基于情景注意力神经网络的多模态情感识别方法 | |
CN115690553B (zh) | 一种基于多模态对话内容联合建模的情感分析方法及系统 | |
CN110728997B (zh) | 一种基于情景感知的多模态抑郁症检测系统 | |
CN113255755B (zh) | 一种基于异质融合网络的多模态情感分类方法 | |
CN111753549A (zh) | 一种基于注意力机制的多模态情感特征学习、识别方法 | |
Seo et al. | Wav2kws: Transfer learning from speech representations for keyword spotting | |
CN109448703B (zh) | 结合深度神经网络和主题模型的音频场景识别方法及系统 | |
CN114973062A (zh) | 基于Transformer的多模态情感分析方法 | |
CN112818861A (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
KR102315830B1 (ko) | 반지도 학습 기반 단어 단위 감정 임베딩과 lstm 모델을 이용한 대화 내에서 발화의 감정 분류 방법 | |
CN111625649A (zh) | 文本处理方法、装置、电子设备及介质 | |
Zhao et al. | End-to-end-based Tibetan multitask speech recognition | |
CN114091466A (zh) | 一种基于Transformer和多任务学习的多模态情感分析方法及系统 | |
Lee et al. | Word-level emotion embedding based on semi-supervised learning for emotional classification in dialogue | |
Gandhi et al. | Multimodal sentiment analysis: review, application domains and future directions | |
Teye et al. | Evaluation of conversational agents: understanding culture, context and environment in emotion detection | |
CN114494969A (zh) | 基于多模语音信息互补与门控制的情绪识别方法 | |
Yun et al. | End-to-end emotional speech recognition using acoustic model adaptation based on knowledge distillation | |
Ai et al. | A Two-Stage Multimodal Emotion Recognition Model Based on Graph Contrastive Learning | |
Jiang et al. | Audio public opinion analysis model based on heterogeneous neural network | |
Bao et al. | Multi-dimensional Convolutional Neural Network for Speech Emotion Recognition | |
Noh et al. | Emotion-aware speaker identification with transfer learning | |
Kwaśny et al. | Explaining predictions of the x-vector speaker age and gender classifier | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及系统 | |
Sajid et al. | Multimodal Emotion Recognition using Deep Convolution and Recurrent Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |