CN114463688A - 一种跨模态上下文编码的对话情感识别方法及系统 - Google Patents
一种跨模态上下文编码的对话情感识别方法及系统 Download PDFInfo
- Publication number
- CN114463688A CN114463688A CN202210377011.6A CN202210377011A CN114463688A CN 114463688 A CN114463688 A CN 114463688A CN 202210377011 A CN202210377011 A CN 202210377011A CN 114463688 A CN114463688 A CN 114463688A
- Authority
- CN
- China
- Prior art keywords
- modal
- vector sequence
- sequence
- voice
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 32
- 239000013598 vector Substances 0.000 claims abstract description 127
- 238000012512 characterization method Methods 0.000 claims abstract description 88
- 230000000007 visual effect Effects 0.000 claims abstract description 40
- 230000004927 fusion Effects 0.000 claims abstract description 29
- 230000008451 emotion Effects 0.000 claims abstract description 27
- 239000010410 layer Substances 0.000 claims description 22
- 239000012634 fragment Substances 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 15
- 239000002356 single layer Substances 0.000 claims description 14
- 230000000306 recurrent effect Effects 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000010348 incorporation Methods 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000013518 transcription Methods 0.000 claims description 3
- 230000035897 transcription Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000969 carrier Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种跨模态上下文编码的对话情感识别方法及系统,该方法包括:步骤S1,将多轮对话中每条语句对应的视频模态、音频模态及文本模态信息分别进行编码,得到各语句对应的视觉模态、语音模态及文本模态表征向量序列;步骤S2,将多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码,得到对话中各语句的单模态上下文编码表征;步骤S3,将对话中各语句的单模态上下文编码表征进行两两组合编码,得到对话中各语句跨模态融合的上下文编码;步骤S4,将跨模态融合的上下文编码表征进行自适应的信息汇总,并对语句的情感类别进行判断。本发明能够有效提升对话情感的识别精度。
Description
技术领域
本发明属于人工智能领域,涉及一种跨模态上下文编码的对话情感识别方法及系统。
背景技术
对话机器人作为人工智能领域的重要研究方向,赋予机器人拟人化的情感计算能力近来引起了学术界和产业界的广泛关注。通常说话人的情感表达是通过多种外在载体融合表现的,如视觉、语音及语言文字等,因此基于多模态信息的对话情感识别成为领域内的研究热点之一,其难点在于:1)不同模态信息存在缺失、相悖等情形;2)异构多模态信息的有效融合;3)跨模态信息融合与多轮对话交互上下文建模有机融合。
现有主流方法大多采用不同模态特征向量简单拼接的方式进行跨模态信息的融合,其存在两方面问题:1)无法应对多模态信息融合推理时存在的模态缺失、模态相悖等问题;2)多模态融合与多轮对话交互上下文建模是两个独立的过程,难以在对话交互场景下实现多模态信息的深度融合与理解。
因此,如何有效解决多轮对话场景中不同模态信息融合的上下文编码问题,对用户情感状态进行建模,进而提高说话人情感识别的精确度,是一项亟待解决的问题。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种跨模态上下文编码的对话情感识别方法及系统,能够有效处理多轮对话中不同模态信息的融合问题,通过对对话语句进行模态内及跨模态的上下文编码,有效提升对话情感的识别精度,其具体技术方案如下:
一种跨模态上下文编码的对话情感识别方法,包括以下步骤:
步骤S1,将多轮对话中每条语句对应的视频模态、音频模态及文本模态信息分别进行编码,得到各语句对应的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列;
步骤S2,将多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码,得到对话中各语句的单模态上下文编码表征;
步骤S3,将对话中各语句的单模态上下文编码表征进行两两组合编码,得到对话中各语句跨模态融合的上下文编码;
步骤S4,将跨模态融合的上下文编码表征进行自适应的信息汇总,并对语句的情感类别进行判断。
进一步的,所述步骤S1具体包括以下步骤:
进一步的,步骤S12具体为:
进一步的,步骤S13具体为:
进一步的,步骤S14具体为:
进一步的,所述步骤S2具体包括以下步骤:
步骤S22,将步骤S21中得到的说话人embedding嵌入向量序列与步骤S12、步骤S13、步骤S14中得到的各个单模态表征向量序列、、进行拼接,分别得到融入说话人身份信息的视觉模态表征、音频模态表征及文本模态表征,表达式为:
步骤S23,将步骤S22中得到的多轮对话语句的单模态表征向量序列、、分别输入到对应的单层LSTM循环神经网络中进行编码,设定隐层维度,得到各对话语句对应的单模态上下文表征向量,从而得到各对话语句对应的单模态上下文表征序列,表达式为:
进一步的,所述步骤S3具体包括以下步骤:
进一步的,所述步骤S4具体包括以下步骤:
步骤S41,将跨模态融合的上下文编码表征、、作为向量序列输入到单层Multi-Head Attention多头注意力网络中,该网络的编码输出经过池化层后,输入到单层的全连接网络,得到语句片段的m维特征向量,其中m表示情感类别数;
一种跨模态上下文编码的对话情感识别系统,包括:多轮对话预处理模块、模态内上下文编码模块、跨模态上下文编码模块、情感识别模块,所述多轮对话预处理模块,用于对原始多轮对话视频进行语句切分,并抽取各语句对应的视觉、语音及文本单模态表征,得到视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列;
所述模态内上下文编码模块,用于对多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码,即将不同模态表征与说话人embedding嵌入向量拼接,然后利用LSTM循环神经网络进行上下文编码,得到对话中各语句的单模态上下文编码表征;
所述跨模态上下文编码模块,用于将对话中各语句的单模态上下文编码表征进行两两组合编码,即利用Transformer网络进行不同模态两两组合的上下文融合编码,得到对话中各语句跨模态融合的上下文编码表征;
所述情感识别模块,用于对跨模态融合的上下文编码表征进行汇总融合,并预测对话语句的情感类别。
进一步的,所述视觉模态表征向量序列的获取具体采用以下方式:通过对视频图像帧进行人脸检测,并利用预训练模型EfficientNet-B1抽取说话人人脸图片表征向量得到;所述语音模态表征向量序列的获取具体采用以下方式:通过提取语音帧的fbank滤波器组语音特征,采用LSTM循环神经网络得到;所述文本模态表征向量序列的获取具体采用以下方式:通过预训练模型BERT提取文本语义特征得到。
本发明的优点如下:
1、本发明的对话情感识别方法,在提取说话人视觉信息时,通过利用人脸检测工具,将说话人脸部区域图像抠出,在有效提取与情感相关的人脸表情特征的同时,以去除无关视觉特征的干扰。
2、本发明的对话情感识别方法,在进行单模态特征上下文编码时,通过拼接说话人embedding嵌入向量,有效的在多轮对话上下文编码过程中,引入了说话人身份信息。
3、本发明的对话情感识别方法,通过基于Transformer网络的(Query,Key,Value)查询注意力机制,具体通过将不同模态进行两两组合,并将其分别设为Query矩阵、Key矩阵、Value矩阵来实现跨模态融合与对话上下文编码的有机融合。
附图说明
图1为本发明的对话情感识别方法的流程示意图;
图2为本发明的对话情感识别的网络结构示意图;
图3为本发明的对话情感识别系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图,对本发明作进一步详细说明。
如图1和图2所示,一种跨模态上下文编码的对话情感识别方法,包括以下步骤:
步骤S1,单模态表征抽取:将多轮对话中每条语句对应的视频模态、音频模态及文本模态信息分别进行编码,得到各语句对应的视觉模态表征向量、语音模态表征向量及文本模态表征向量。具体地,包括如下步骤:
步骤S11,将原始多轮对话的视频切分成n个语句片段,并标注其对应的说话人ID序列;针对每个语句片段,提取其对应的视频图像帧序列、语音波形信号及语音进行文本转写后的文本语句,i=1,2,…n,n为整数。
针对步骤S11中提取的对话语句原始音频模态信息,即语句片段对应的语音波形信号,抽取其128维的fbank(Filterbank,滤波器组特征)语音特征,其中帧长设50ms,帧间交叠时长设为12.5ms,得到语音特征向量序列,表达式为:
针对步骤S11中提取的对话语句原始文本信息,即片段对应的文本语句,将其输入到中文预训练语言模型BERT中,取字符“[CLS]”的最后一层编码表征向量作为语句片段的文本模态表征向量,维度为768,得到文本模态表征向量序列,表达式为:
步骤S2,模态内上下文编码:对多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码,得到对话中各语句的单模态上下文编码表征。具体地,包括如下步骤:
步骤S22,将步骤S21中得到的说话人embedding嵌入向量序列与步骤S12、步骤S13、步骤S14中得到的各个单模态表征向量序列、、进行拼接,分别得到融入说话人身份信息的视觉模态表征、音频模态表征及文本模态表征,表达式为:
步骤S23,将步骤S22中得到的多轮对话语句的单模态表征向量序列、、分别输入到对应的单层LSTM循环神经网络中进行编码,隐层维度设为768,得到各对话语句对应的单模态上下文表征向量,从而得到各对话语句对应的单模态上下文表征序列,表达式为:
步骤S3,跨模态交互上下文编码:将对话中各语句的单模态上下文编码表征进行两两组合编码,得到对话中各语句跨模态融合的上下文编码。具体地,包括如下步骤:
步骤S31,针对步骤S23中得到的多轮对话单模态上下文表征向量序列、、进行跨模态两两组合,并输入到单层的Transformer编码网络中,得到编码输出、,该网络Head数目设为8,隐层维度设为768,表达式为:
步骤S4,将跨模态融合的上下文编码表征进行自适应的信息汇总,并对语句的情感类别进行判断。具体地,包括如下步骤:
步骤S41,将步骤S32中得到的跨模态融合的上下文编码表征、、作为向量序列输入到单层Multi-Head Attention多头注意力网络中,该网络Head数设为1,前向隐层维度设为768,该网络的编码输出经过池化层后,输入到单层的全连接网络,得到语句片段的m维特征向量,其中m表示情感类别数;
步骤S42,将步骤S41得到的特征向量作为softmax算子的自变量,计算softmax的最终值,作为语句属于每一类情感的概率值,最后取类别概率值最大的作为最终情感类别,其中Softmax的计算公式如下:
与前述一种跨模态上下文编码的对话情感识别方法的实施例相对应,本发明还提供了一种跨模态上下文编码的对话情感识别系统的实施例。
如图3所示,本发明实施例提供的一种跨模态上下文编码的对话情感识别系统,包括:多轮对话预处理模块、模态内上下文编码模块、跨模态上下文编码模块、情感识别模块,用于实现上述实施例中的一种跨模态上下文编码的对话情感识别方法。
具体的,所述多轮对话预处理模块,用于对原始多轮对话视频进行语句切分,并抽取各语句对应的视觉、语音及文本单模态表征,得到视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列。具体为:针对视觉模态信息,对视频图像帧进行人脸检测,并利用预训练模型EfficientNet-B1抽取说话人人脸图片表征向量,得到视觉模态表征向量序列;针对语音模态信息,提取语音帧的fbank滤波器组语音特征,通过LSTM循环神经网络得到语音模态表征向量序列;针对文本模态信息,利用预训练模型BERT提取文本语义特征,得到文本模态表征向量序列。
所述模态内上下文编码模块,用于对多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码,即将不同模态表征与说话人embedding嵌入向量拼接,然后利用LSTM循环神经网络进行上下文编码,得到对话中各语句的单模态上下文编码表征。
所述跨模态上下文编码模块,用于将对话中各语句的单模态上下文编码表征进行两两组合编码,即利用Transformer网络进行不同模态两两组合的上下文融合编码,得到对话中各语句跨模态融合的上下文编码表征。
所述情感识别模块,用于对跨模态融合的上下文编码表征进行汇总融合,并预测对话语句的情感类别。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种跨模态上下文编码的对话情感识别方法,其特征在于,包括以下步骤:
步骤S1,将多轮对话中每条语句对应的视频模态、音频模态及文本模态信息分别进行编码,得到各语句对应的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列;
步骤S2,将多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码,得到对话中各语句的单模态上下文编码表征;
步骤S3,将对话中各语句的单模态上下文编码表征进行两两组合编码,得到对话中各语句跨模态融合的上下文编码;
步骤S4,将跨模态融合的上下文编码表征进行自适应的信息汇总,并对语句的情感类别进行判断。
2.如权利要求1所述的一种跨模态上下文编码的对话情感识别方法,其特征在于,所述步骤S1具体包括以下步骤:
6.如权利要求2所述的一种跨模态上下文编码的对话情感识别方法,其特征在于,所述步骤S2具体包括以下步骤:
步骤S22,将步骤S21中得到的说话人嵌入向量序列与步骤S12、步骤S13、步骤S14中得到的各个单模态表征向量序列、、进行拼接,分别得到融入说话人身份信息的视觉模态表征、音频模态表征及文本模态表征,表达式为:
步骤S23,将步骤S22中得到的多轮对话语句的单模态表征向量序列、、分别输入到对应的单层LSTM循环神经网络中进行编码,设定隐层维度,得到各对话语句对应的单模态上下文表征向量,从而得到各对话语句对应的单模态上下文表征序列,表达式为:
9.一种跨模态上下文编码的对话情感识别系统,包括:多轮对话预处理模块、模态内上下文编码模块、跨模态上下文编码模块、情感识别模块,其特征在于,所述多轮对话预处理模块,用于对原始多轮对话视频进行语句切分,并抽取各语句对应的视觉、语音及文本单模态表征,得到视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列;
所述模态内上下文编码模块,用于对多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码,即将不同模态表征与说话人嵌入向量拼接,然后利用LSTM循环神经网络进行上下文编码,得到对话中各语句的单模态上下文编码表征;
所述跨模态上下文编码模块,用于将对话中各语句的单模态上下文编码表征进行两两组合编码,即利用Transformer网络进行不同模态两两组合的上下文融合编码,得到对话中各语句跨模态融合的上下文编码表征;
所述情感识别模块,用于对跨模态融合的上下文编码表征进行汇总融合,并预测对话语句的情感类别。
10.如权利要求9所述的一种跨模态上下文编码的对话情感识别系统,其特征在于,所述视觉模态表征向量序列的获取具体采用以下方式:通过对视频图像帧进行人脸检测,并利用预训练模型EfficientNet-B1抽取说话人人脸图片表征向量得到;所述语音模态表征向量序列的获取具体采用以下方式:通过提取语音帧的fbank滤波器组语音特征,采用LSTM循环神经网络得到;所述文本模态表征向量序列的获取具体采用以下方式:通过预训练模型BERT提取文本语义特征得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210377011.6A CN114463688A (zh) | 2022-04-12 | 2022-04-12 | 一种跨模态上下文编码的对话情感识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210377011.6A CN114463688A (zh) | 2022-04-12 | 2022-04-12 | 一种跨模态上下文编码的对话情感识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114463688A true CN114463688A (zh) | 2022-05-10 |
Family
ID=81417545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210377011.6A Pending CN114463688A (zh) | 2022-04-12 | 2022-04-12 | 一种跨模态上下文编码的对话情感识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114463688A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969458A (zh) * | 2022-06-28 | 2022-08-30 | 昆明理工大学 | 基于文本指导的层级自适应融合的多模态情感分析方法 |
CN115496077A (zh) * | 2022-11-18 | 2022-12-20 | 之江实验室 | 一种基于模态观察和评分的多模态情感分析方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308731A (zh) * | 2018-08-24 | 2019-02-05 | 浙江大学 | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 |
CN111091044A (zh) * | 2019-10-25 | 2020-05-01 | 武汉大学 | 一种面向网约车的车内危险场景识别方法 |
CN111626116A (zh) * | 2020-04-21 | 2020-09-04 | 泉州装备制造研究所 | 基于融合多注意力机制和Graph的视频语义分析方法 |
CN112559835A (zh) * | 2021-02-23 | 2021-03-26 | 中国科学院自动化研究所 | 多模态情感识别方法 |
WO2021072875A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 智能对话的生成方法、装置、计算机设备及计算机存储介质 |
CN112862005A (zh) * | 2021-03-19 | 2021-05-28 | 北京百度网讯科技有限公司 | 视频的分类方法、装置、电子设备和存储介质 |
CN113420807A (zh) * | 2021-06-22 | 2021-09-21 | 哈尔滨理工大学 | 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法 |
CN113571097A (zh) * | 2021-09-28 | 2021-10-29 | 之江实验室 | 一种说话人自适应的多视角对话情感识别方法及系统 |
CN113609289A (zh) * | 2021-07-06 | 2021-11-05 | 河南工业大学 | 一种基于多模态对话文本的情感识别方法 |
-
2022
- 2022-04-12 CN CN202210377011.6A patent/CN114463688A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308731A (zh) * | 2018-08-24 | 2019-02-05 | 浙江大学 | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 |
WO2021072875A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 智能对话的生成方法、装置、计算机设备及计算机存储介质 |
CN111091044A (zh) * | 2019-10-25 | 2020-05-01 | 武汉大学 | 一种面向网约车的车内危险场景识别方法 |
CN111626116A (zh) * | 2020-04-21 | 2020-09-04 | 泉州装备制造研究所 | 基于融合多注意力机制和Graph的视频语义分析方法 |
CN112559835A (zh) * | 2021-02-23 | 2021-03-26 | 中国科学院自动化研究所 | 多模态情感识别方法 |
CN112862005A (zh) * | 2021-03-19 | 2021-05-28 | 北京百度网讯科技有限公司 | 视频的分类方法、装置、电子设备和存储介质 |
CN113420807A (zh) * | 2021-06-22 | 2021-09-21 | 哈尔滨理工大学 | 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法 |
CN113609289A (zh) * | 2021-07-06 | 2021-11-05 | 河南工业大学 | 一种基于多模态对话文本的情感识别方法 |
CN113571097A (zh) * | 2021-09-28 | 2021-10-29 | 之江实验室 | 一种说话人自适应的多视角对话情感识别方法及系统 |
Non-Patent Citations (4)
Title |
---|
MINGXING TAN,QUIC V.LE: "EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks", 《ARXIV:1905.11946V5》 * |
刘启元: "基于多模态信息融合的情感分析方法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
朱晨光: "《机器阅读理解 算法与实践》", 31 March 2020, 机械工业出版社 * |
李太豪 裴冠雄: "情感计算:让机器拥有"情商"", 《张江科技评论》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969458A (zh) * | 2022-06-28 | 2022-08-30 | 昆明理工大学 | 基于文本指导的层级自适应融合的多模态情感分析方法 |
CN114969458B (zh) * | 2022-06-28 | 2024-04-26 | 昆明理工大学 | 基于文本指导的层级自适应融合的多模态情感分析方法 |
CN115496077A (zh) * | 2022-11-18 | 2022-12-20 | 之江实验室 | 一种基于模态观察和评分的多模态情感分析方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113205817B (zh) | 语音语义识别方法、系统、设备及介质 | |
CN105760852A (zh) | 一种融合脸部表情和语音的驾驶员情感实时识别方法 | |
CN111862977A (zh) | 一种语音对话处理方法和系统 | |
CN114463688A (zh) | 一种跨模态上下文编码的对话情感识别方法及系统 | |
CN112037773B (zh) | 一种n最优口语语义识别方法、装置及电子设备 | |
CN114998670B (zh) | 多模态信息预训练方法及系统 | |
CN115964467A (zh) | 一种融合视觉情境的富语义对话生成方法 | |
CN112597841B (zh) | 一种基于门机制多模态融合的情感分析方法 | |
CN115577161A (zh) | 融合情感资源的多模态情感分析模型 | |
CN112101044B (zh) | 一种意图识别方法、装置及电子设备 | |
Zhang et al. | Multi-head attention fusion networks for multi-modal speech emotion recognition | |
CN113344036A (zh) | 一种基于动态词嵌入的多模态Transformer的图像描述方法 | |
CN112233680A (zh) | 说话人角色识别方法、装置、电子设备及存储介质 | |
CN111984780A (zh) | 多意图识别模型训练方法和多意图识别方法及相关装置 | |
CN113705315A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN113761377A (zh) | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 | |
CN116304973A (zh) | 一种基于多模态融合的课堂教学情感识别方法和系统 | |
Hrúz et al. | Automatic fingersign-to-speech translation system | |
CN115964638A (zh) | 多模态社交数据情感分类方法、系统、终端、设备及应用 | |
CN115730203A (zh) | 一种基于全局感知跨模态特征融合网络的语音情感识别方法 | |
CN114446324A (zh) | 一种基于声学和文本特征的多模态情感识别方法 | |
CN116860943A (zh) | 对话风格感知与主题引导的多轮对话方法及系统 | |
CN116611459A (zh) | 翻译模型的训练方法、装置、电子设备及存储介质 | |
CN116721449A (zh) | 视频识别模型的训练方法、视频识别方法、装置以及设备 | |
CN111160512A (zh) | 基于生成式对抗网络构建双判别器对话生成模型的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220510 |