CN112559835A - 多模态情感识别方法 - Google Patents
多模态情感识别方法 Download PDFInfo
- Publication number
- CN112559835A CN112559835A CN202110200140.3A CN202110200140A CN112559835A CN 112559835 A CN112559835 A CN 112559835A CN 202110200140 A CN202110200140 A CN 202110200140A CN 112559835 A CN112559835 A CN 112559835A
- Authority
- CN
- China
- Prior art keywords
- features
- audio
- text
- video
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 107
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 27
- 230000003993 interaction Effects 0.000 claims abstract description 112
- 230000004927 fusion Effects 0.000 claims abstract description 40
- 238000011176 pooling Methods 0.000 claims abstract description 26
- 230000008451 emotion Effects 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000002452 interceptive effect Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 230000008921 facial expression Effects 0.000 claims description 7
- 230000001815 facial effect Effects 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 abstract description 12
- 238000012163 sequencing technique Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及多模态情感识别方法,包括:分别提取帧级别的音频特征、帧级别的视频特征和词级别的文本特征;将提取出的特征分别输入到特征编码器进行建模,得到编码后的音频编码、视频编码和文本编码特征;将编码后的特征先分别经过各自的自注意力模块对模态内的交互关系进行建模,将其进行两两排序组合输入至跨模态注意力模块对两两模态间的交互关系进行建模;对上述自注意力模块和跨模态注意力模块的输出进行时序池化得到各模态内的全局交互特征,两两模态间的全局交互特征;利用注意力机制分别将这上述模态内和模态间的全局交互特征进行加权融合得到整个待测样本模态内和模态间的特征表示,将二者进行拼接经过全连接网络得到最终的情感分类结果。
Description
技术领域
本申请涉及数据处理领域,尤其涉及多模态情感识别方法。
背景技术
传统的情感识别往往局限于单一模态,比如语音情感识别,表情识别和文本情感分析等。随着计算机科学技术的发展,基于音视频和文本的多模态情感识别方法应运而生,未来在智能家居、教育以及金融等领域将会有着广泛的应用。现有的多模态情感识别方法通常采用特征层融合或者决策层融合对多个模态的信息进行整合。这些方法都有着各自的优缺点。特征层融合虽然能对模态间的交互进行建模但需要事先在时序上对齐不同模态的特征,决策层融合则与之相反,它不需要模态对齐信息,付出的代价是缺乏对模态间交互信息的有效挖掘,因此在融合多模态信息时如何有效地结合二者的优点就显得十分重要。此外,除了多模态融合外,在模型架构方面,目前的多模态情感识别方法主要采用循环神经网络用于捕获时序上下文信息,相较于注意力机制来说,对于长序列上下文建模显得捉襟见肘。
授权公告号CN 107945790 B公开了一种情感识别方法和情感识别系统,其中,该方法包括:获取当前语音信号;提取当前语音信号的语音特征,语音特征包括:声学特征和文本特征;根据语音特征和预设深度模型,识别当前语音信号对应的情感类型,情感类型包括:正面、中性和负面,本发明的技术方案能够通过语音信号识别出对应的情感类型,以对服务人员进行监督提高服务水平。
申请公布号CN 108805089 A公开一种基于多模态的情绪识别方法,包括数据采集设备、输出设备、情绪分析软件系统,情绪分析软件系统通过对数据采集设备得到的数据进行综合分析推理,最终把结果输出至输出设备上;具体步骤为:基于面部图像表情情绪识别步骤、基于语音信号情绪识别步骤、基于文本语义情感分析步骤、基于人体姿态情绪识别步骤、基于生理信号情绪识别步骤,以及基于多轮对话语义理解步骤和基于时序多模态情绪语义融合关联判断步骤。本发明突破性的打通了五大单模态的情绪识别,创新性的利用深度神经网络将多个单模态的信息由神经网络编码、深度的关联和理解后进行综合判断,大幅度的提高了准确率,适用于绝大多数一般问询互动类应用场景。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种多模态情感识别方法,包括:
S1:输入待测样本的音频文件、视频文件及对应的文本文件,分别对所述音频文件、视频文件和文本文件进行特征提取,得到帧级别的音频特征、帧级别的视频特征和词级别的文本特征;
S2:将所述帧级别的音频特征、帧级别的视频特征和词级别的文本特征分别输入到音频特征编码器、视频特征编码器和文本特征编码器进行局部上下文建模,得到音频编码特征、视频编码特征和文本编码特征;
S3:一方面将所述音频编码特征、视频编码特征和文本编码特征分别经过各自的自注意力模块对模态内的交互关系进行建模,得到,模态内特征,所述模态内特征包括:模态内音频特征、模态内视频特征和模态内文本特征;
S4:另一方面将所述音频编码特征、视频编码特征和文本编码特征进行两两排序组合输入至跨模态注意力模块对两两模态间的交互关系进行建模,得到,模态间特征,所述模态间特征包括:音频-视频交互特征、音频-文本交互特征和视频-文本交互特征;
S5:对所述模态内特征和所述模态间特征分别进行时序池化得到全局模态内特征,全局模态间特征;所述全局模态内特征包括:全局模态内音频特征、全局模态内视频特征和全局模态内文本特征;所述全局模态间特征包括:全局音频-视频交互特征、全局音频-文本交互特征和全局视频-文本交互特征;
S6:将所述全局模态内特征和所述全局模态间特征进行加权融合得到整个待测样本的模态内特征表示和模态间特征表示,然后将所述模态内特征表示和模态间特征表示进行拼接,然后经过全连接网络得到最终的情感分类结果。
优选地,所述分别对所述音频文件、视频文件和文本文件进行特征提取的具体方法包括:
对所述音频文件进行切分得到帧级别的短时音频片段;将所述短时音频片段分别输入至预先训练好的音频特征提取网络,得到所述帧级别的音频特征;
利用人脸检测工具从所述视频文件提取帧级别的人脸图像;将所述帧级别的人脸图像分别输入至预先训练好的人脸表情特征提取网络,得到所述帧级别的视频特征;
利用分词工具对所述文本文件进行分词;将所述分词后的文本文件输入至预先训练好的文本特征提取网络,得到所述词级别的文本特征。
优选地,将所述帧级别的音频特征输入到音频特征编码器进行局部上下文建模,得到音频编码特征的具体方法为:
对所述帧级别的音频特征依次经过两层的一维卷积网络、一维池化网络和一层的双向长短时记忆网络进行局部音频上下文建模,得到音频编码特征;
将所述帧级别的视频特征输入到视频特征编码器进行局部上下文建模,得到视频编码特征的具体方法为:
对所述帧级别的视频特征依次经过两层的一维卷积网络、一维池化网络和一层的双向长短时记忆网络进行局部视频上下文建模,得到视频编码特征;
将所述词级别的文本特征输入到文本特征编码器进行局部上下文建模,得到文本编码特征的具体方法为:
对所述词级别的文本特征经过一层的双向长短时记忆网络进行局部文本上下文建模,得到文本编码特征。
优选地,将所述音频编码特征经过音频自注意力模块,对模态内的交互关系进行建模,得到模态内音频特征的具体方法为:
将音频编码特征和正余弦波编码的音频固定位置特征相加,得到,音频编码位置特征;将所述音频编码位置特征依次输入至音频自注意力层和音频前馈层中,对模态内交互关系进行建模得到模态内音频特征。
优选地,将所述视频编码特征经过视频自注意力模块,对模态内的交互关系进行建模,得到模态内视频特征的具体方法为:
将视频编码特征和正余弦波编码的视频固定位置特征相加,得到,视频编码位置特征;将所述视频编码位置特征依次输入至视频自注意力层和视频前馈层中,对模态内交互关系进行建模得到模态内视频特征。
优选地,将所述文本编码特征经过文本自注意力模块,对模态内的交互关系进行建模,得到模态内文本特征的具体方法为:
将文本编码特征和正余弦波编码的文本固定位置特征相加,得到,文本编码位置特征;将所述文本编码位置特征依次输入至文本自注意力层和文本前馈层中,对模态内交互关系进行建模得到模态内文本特征。
优选地,将所述音频编码特征、视频编码特征进行排序组合输入至音频-视频跨模态注意力模块对音频-视频模态间的交互关系进行建模,得到音频-视频交互特征的具体方法为:
将音频编码特征和正余弦波编码的音频固定位置特征相加,得到,音频编码位置特征;将视频编码特征和正余弦波编码的视频固定位置特征相加,得到,视频编码位置特征;
将所述音频编码位置特征和视频编码位置特征依次输入至音频-视频跨模态注意力层和音频-视频跨模态前馈层中,对音频-视频模态间的交互关系进行建模,得到音频-视频交互特征。
优选地,将所述音频编码特征、文本编码特征进行排序组合输入至音频-文本跨模态注意力模块对音频-文本模态间的交互关系进行建模,得到音频-文本交互特征的具体方法为:
将音频编码特征和正余弦波编码的音频固定位置特征相加,得到,音频编码位置特征;将文本编码特征和正余弦波编码的视频固定位置特征相加,得到,文本编码位置特征;
将所述音频编码位置特征和文本编码位置特征依次输入至音频-文本跨模态注意力层和音频-文本跨模态前馈层中,对音频-文本模态间的交互关系进行建模,得到音频-文本交互特征。
优选地,将所述视频编码特征、文本编码特征进行排序组合输入至视频-文本跨模态注意力模块对视频-文本模态间的交互关系进行建模,得到视频-文本交互特征的具体方法为:
将视频编码特征和正余弦波编码的音频固定位置特征相加,得到,视频编码位置特征;将文本编码特征和正余弦波编码的视频固定位置特征相加,得到,文本编码位置特征;
将所述视频编码位置特征和文本编码位置特征依次输入至视频-文本跨模态注意力层和视频-文本跨模态前馈层中,对视频-文本模态间的交互关系进行建模,得到视频-文本交互特征。
优选地,将所述全局模态内特征进行加权融合的模态内加权融合系数的具体计算公式如下:
其中,
将所述全局模态间特征进行加权融合的模态间加权融合系数的具体计算公式如下:
其中,
第二方面,本申请提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现第一方面或第一方面的任意可能的实现方式中的多模态情感识别方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该方法,通过自注意力机制和跨模态注意力机制显式地刻画了不同模态内和两两模态间的深层交互关系,达到了充分整合多模态信息的目的;相较于传统的特征层融合方法,避免了其需要事先对不同模态信息进行对齐的问题,相较于决策层方法来说,有效地对模态间的交互关系进行建模。此外,自注意力和跨模态注意力机制可以捕获全局上下文依赖关系,较好地解决了传统的循环神经网络在长序列时序建模方面能力有限的问题,进一步提高了多模态情感识别的准确率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的多模态情感识别方法流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例1:
如图1所示,为本申请实施例提供的多模态情感识别方法,包括:
S1:输入待测样本的音频文件、视频文件及对应的文本文件,分别对所述音频文件、视频文件和文本文件进行特征提取,得到帧级别的音频特征、帧级别的视频特征和词级别的文本特征。
在一些实施例中,所述分别对所述音频文件、视频文件和文本文件进行特征提取的具体方法包括:
对所述音频文件进行切分得到帧级别的短时音频片段;将所述短时音频片段分别输入至预先训练好的音频特征提取网络,得到所述帧级别的音频特征;
利用人脸检测工具从所述视频文件提取帧级别的人脸图像;将所述帧级别的人脸图像分别输入至预先训练好的人脸表情特征提取网络,得到所述帧级别的视频特征;
利用分词工具对所述文本文件进行分词;将所述分词后的文本文件输入至预先训练好的文本特征提取网络,得到所述词级别的文本特征。
S2:将所述帧级别的音频特征、帧级别的视频特征和词级别的文本特征分别输入到音频特征编码器、视频特征编码器和文本特征编码器进行局部上下文建模,得到音频编码特征、视频编码特征和文本编码特征。
在一些实施例中,将所述帧级别的音频特征输入到音频特征编码器进行局部上下文建模,得到音频编码特征的具体方法为:
对所述帧级别的音频特征依次经过两层的一维卷积网络、一维池化网络和一层的双向长短时记忆网络进行局部音频上下文建模,得到音频编码特征;
将所述帧级别的视频特征输入到视频特征编码器进行局部上下文建模,得到视频编码特征的具体方法为:
对所述帧级别的视频特征依次经过两层的一维卷积网络、一维池化网络和一层的双向长短时记忆网络进行局部视频上下文建模,得到视频编码特征;
将所述词级别的文本特征输入到文本特征编码器进行局部上下文建模,得到文本编码特征的具体方法为:
对所述词级别的文本特征经过一层的双向长短时记忆网络进行局部文本上下文建模,得到文本编码特征。
S3:一方面将所述音频编码特征、视频编码特征和文本编码特征分别经过各自的自注意力模块对模态内的交互关系进行建模,得到,模态内特征,所述模态内特征包括:模态内音频特征、模态内视频特征和模态内文本特征。
在一些实施例中,将所述音频编码特征经过音频自注意力模块,对模态内的交互关系进行建模,得到模态内音频特征的具体方法为:
将音频编码特征和正余弦波编码的音频固定位置特征相加,得到,音频编码位置特征;将所述音频编码位置特征依次输入至音频自注意力层和音频前馈层中,对模态内交互关系进行建模得到模态内音频特征;
将所述视频编码特征经过视频自注意力模块,对模态内的交互关系进行建模,得到模态内视频特征的具体方法为:
将视频编码特征和正余弦波编码的视频固定位置特征相加,得到,视频编码位置特征;将所述视频编码位置特征依次输入至视频自注意力层和视频前馈层中,对模态内交互关系进行建模得到模态内视频特征;
将所述文本编码特征经过文本自注意力模块,对模态内的交互关系进行建模,得到模态内文本特征的具体方法为:
将文本编码特征和正余弦波编码的文本固定位置特征相加,得到,文本编码位置特征;将所述文本编码位置特征依次输入至文本自注意力层和文本前馈层中,对模态内交互关系进行建模得到模态内文本特征。
S4:另一方面将所述音频编码特征、视频编码特征和文本编码特征进行两两排序组合输入至跨模态注意力模块对两两模态间的交互关系进行建模,得到,模态间特征,所述模态间特征包括:音频-视频交互特征、音频-文本交互特征和视频-文本交互特征。
在一些实施例中,将所述音频编码特征、视频编码特征进行排序组合输入至音频-视频跨模态注意力模块对音频-视频模态间的交互关系进行建模,得到音频-视频交互特征的具体方法为:
将音频编码特征和正余弦波编码的音频固定位置特征相加,得到,音频编码位置特征;将视频编码特征和正余弦波编码的视频固定位置特征相加,得到,视频编码位置特征;
将所述音频编码位置特征和视频编码位置特征依次输入至音频-视频跨模态注意力层和音频-视频跨模态前馈层中,对音频-视频模态间的交互关系进行建模,得到音频-视频交互特征;
将所述音频编码特征、文本编码特征进行排序组合输入至音频-文本跨模态注意力模块对音频-文本模态间的交互关系进行建模,得到音频-文本交互特征的具体方法为:
将音频编码特征和正余弦波编码的音频固定位置特征相加,得到,音频编码位置特征;将文本编码特征和正余弦波编码的视频固定位置特征相加,得到,文本编码位置特征;
将所述音频编码位置特征和文本编码位置特征依次输入至音频-文本跨模态注意力层和音频-文本跨模态前馈层中,对音频-文本模态间的交互关系进行建模,得到音频-文本交互特征;
将所述视频编码特征、文本编码特征进行排序组合输入至视频-文本跨模态注意力模块对视频-文本模态间的交互关系进行建模,得到视频-文本交互特征的具体方法为:
将视频编码特征和正余弦波编码的音频固定位置特征相加,得到,视频编码位置特征;将文本编码特征和正余弦波编码的视频固定位置特征相加,得到,文本编码位置特征;
将所述视频编码位置特征和文本编码位置特征依次输入至视频-文本跨模态注意力层和视频-文本跨模态前馈层中,对视频-文本模态间的交互关系进行建模,得到视频-文本交互特征。
S5:对所述模态内特征和所述模态间特征分别进行时序池化得到全局模态内特征,全局模态间特征;所述全局模态内特征包括:全局模态内音频特征、全局模态内视频特征和全局模态内文本特征;所述全局模态间特征包括:全局音频-视频交互特征、全局音频-文本交互特征和全局视频-文本交互特征。
S6:将所述全局模态内特征和所述全局模态间特征进行加权融合得到整个待测样本的模态内特征表示和模态间特征表示,然后将所述模态内特征表示和模态间特征表示进行拼接,然后经过全连接网络得到最终的情感分类结果。
在一些实施例中,将所述全局模态内特征进行加权融合的模态内加权融合系数的具体计算公式如下:
其中,
将所述全局模态间特征进行加权融合的模态间加权融合系数的具体计算公式如下:
其中,
实施例2:
本申请还公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述实施例所述的方法的步骤。
实施例3:
多模态情感识别方法包括以下步骤:
S1-1:输入待测音频、待测视频以及待测文本,所述待测视音频、待测视频以及待测文本为三种不同模态。
本实施例中,待测音频、待测视频是同一个片段中的视频和音频,待测文本和待测音频、待测视频相对应,音频、视频和文本分别为这段视频中的三种模态。
本实施例中,本实施例中需要对这三种模态的数据进行分析,以检测输入片段中的人物所处的情感状态。
根据上述方案,进一步,可以输入一个片段,该片段中有一个人物说话,这一个人物说话的连续画面就是待测视频,该片段中出现的音频就是待测音频,该片段中的视频和音频中对应的文本就是待测文本,例如该片段中一个人说了一句话,这个人说话的画面就是待测视频,这个人说话的语音就是待测音频,这个人说的话的文字内容就是待测文本。
本实施例中,对待测音频、待测视频以及待测文本进行特征提取是将待测音频、待测视频以及待测文本输入到预先训练好的神经网络中进行隐层特征提取,帧级别的音频特征指的是经过短时切分的每一帧音频的特征,帧级别的视频特征指的是视频中每一帧图像的特征,词级别的文本特征指的是文本中每个词语对应的特征。
S1-2-1-1:将待测样本的音频以1s帧长和0.1s帧移进行滑动切分得到多帧的短时音频片段。
本实施例中,音频特征提取网络可以采用常见的特征提取网络,例如VGGish,本实施例不做限制。
S1-2-2-1:利用人脸检测工具从所述待测样本的视频中提取每一帧的人脸图像;
本实施例中,人脸表情特征提取网络可以采用常见的特征提取网络,例如在人脸表情数据库上预训练的ResNet,本实施例不做限制。
S1-2-3-1:利用分词工具对所述待测语音的文本进行分词;
本实施例中,分词工具采用常用的分词工具,本实施例不做限制。
本实施例中,文本特征提取网络可以采用常见的特征提取网络,例如BERT,本实施例不做限制。
本实施例中,将提取出的三模态特征分别输入到音频特征编码器、视频特征编码器和文本特征编码器进行局部上下文建模,得到音频编码特征、视频编码特征和文本编码特征的具体步骤为:
本实施例中,一维卷积网络和一维池化网络的卷积核尺寸和步长均为3。
本实施例中,一维卷积网络和一维池化网络的卷积核尺寸和步长均为3。
本实施例中,时序池化可以采用常用的池化方法,如最大值池化或者平均值池化,本实施例不做限制。
将所述全局模态内特征和所述全局模态间特征进行加权融合得到整个待测样本的模态内特征表示和模态间特征表示,然后将所述模态内特征表示和模态间特征表示进行拼接,然后经过全连接网络得到最终的情感分类结果。
本实施例中,最后利用注意力机制分别将这上述全局模态内特征、和,和全局模态间特征、和,进行加权融合得到整个待测样本模态内特征表示和模态间特征表示,然后将二者进行拼接经过全连接网络得到最终的情感分类结果的具体步骤是:
S6-1-1:计算加权融合的权重系数,具体如下:
S6-2-1:计算加权融合的权重系数,具体如下:
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的基于自注意力和跨模态注意力机制的多模态情感识别方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.多模态情感识别方法,其特征在于,包括:
S1:输入待测样本的音频文件、视频文件及对应的文本文件,分别对所述音频文件、视频文件和文本文件进行特征提取,得到帧级别的音频特征、帧级别的视频特征和词级别的文本特征;
S2:将所述帧级别的音频特征、帧级别的视频特征和词级别的文本特征分别输入到音频特征编码器、视频特征编码器和文本特征编码器进行局部上下文建模,得到音频编码特征、视频编码特征和文本编码特征;
S3:一方面将所述音频编码特征、视频编码特征和文本编码特征分别经过各自的自注意力模块对模态内的交互关系进行建模,得到,模态内特征,所述模态内特征包括:模态内音频特征、模态内视频特征和模态内文本特征;
S4:另一方面将所述音频编码特征、视频编码特征和文本编码特征进行两两排序组合输入至跨模态注意力模块对两两模态间的交互关系进行建模,得到,模态间特征,所述模态间特征包括:音频-视频交互特征、音频-文本交互特征和视频-文本交互特征;
S5:对所述模态内特征和所述模态间特征分别进行时序池化得到全局模态内特征,全局模态间特征;所述全局模态内特征包括:全局模态内音频特征、全局模态内视频特征和全局模态内文本特征;所述全局模态间特征包括:全局音频-视频交互特征、全局音频-文本交互特征和全局视频-文本交互特征;
S6:将所述全局模态内特征和所述全局模态间特征进行加权融合得到整个待测样本的模态内特征表示和模态间特征表示,然后将所述模态内特征表示和模态间特征表示进行拼接,然后经过全连接网络得到最终的情感分类结果。
2.根据权利要求1所述的多模态情感识别方法,其特征在于,所述分别对所述音频文件、视频文件和文本文件进行特征提取的具体方法包括:
对所述音频文件进行切分得到帧级别的短时音频片段;将所述短时音频片段分别输入至预先训练好的音频特征提取网络,得到所述帧级别的音频特征;
利用人脸检测工具从所述视频文件提取帧级别的人脸图像;将所述帧级别的人脸图像分别输入至预先训练好的人脸表情特征提取网络,得到所述帧级别的视频特征;
利用分词工具对所述文本文件进行分词;将所述分词后的文本文件输入至预先训练好的文本特征提取网络,得到所述词级别的文本特征。
3.根据权利要求1所述的多模态情感识别方法,其特征在于,将所述帧级别的音频特征输入到音频特征编码器进行局部上下文建模,得到音频编码特征的具体方法为:
对所述帧级别的音频特征依次经过两层的一维卷积网络、一维池化网络和一层的双向长短时记忆网络进行局部音频上下文建模,得到音频编码特征;
将所述帧级别的视频特征输入到视频特征编码器进行局部上下文建模,得到视频编码特征的具体方法为:
对所述帧级别的视频特征依次经过两层的一维卷积网络、一维池化网络和一层的双向长短时记忆网络进行局部视频上下文建模,得到视频编码特征;
将所述词级别的文本特征输入到文本特征编码器进行局部上下文建模,得到文本编码特征的具体方法为:
对所述词级别的文本特征经过一层的双向长短时记忆网络进行局部文本上下文建模,得到文本编码特征。
4.根据权利要求1所述的多模态情感识别方法,其特征在于,将所述音频编码特征经过音频自注意力模块,对模态内的交互关系进行建模,得到模态内音频特征的具体方法为:
将音频编码特征和正余弦波编码的音频固定位置特征相加,得到,音频编码位置特征;将所述音频编码位置特征依次输入至音频自注意力层和音频前馈层中,对模态内交互关系进行建模得到模态内音频特征。
5.根据权利要求4所述的多模态情感识别方法,其特征在于,将所述视频编码特征经过视频自注意力模块,对模态内的交互关系进行建模,得到模态内视频特征的具体方法为:
将视频编码特征和正余弦波编码的视频固定位置特征相加,得到,视频编码位置特征;将所述视频编码位置特征依次输入至视频自注意力层和视频前馈层中,对模态内交互关系进行建模得到模态内视频特征。
6.根据权利要求5所述的多模态情感识别方法,其特征在于,将所述文本编码特征经过文本自注意力模块,对模态内的交互关系进行建模,得到模态内文本特征的具体方法为:
将文本编码特征和正余弦波编码的文本固定位置特征相加,得到,文本编码位置特征;将所述文本编码位置特征依次输入至文本自注意力层和文本前馈层中,对模态内交互关系进行建模得到模态内文本特征。
7.根据权利要求1所述的多模态情感识别方法,其特征在于,将所述音频编码特征、视频编码特征进行排序组合输入至音频-视频跨模态注意力模块对音频-视频模态间的交互关系进行建模,得到音频-视频交互特征的具体方法为:
将音频编码特征和正余弦波编码的音频固定位置特征相加,得到,音频编码位置特征;将视频编码特征和正余弦波编码的视频固定位置特征相加,得到,视频编码位置特征;
将所述音频编码位置特征和视频编码位置特征依次输入至音频-视频跨模态注意力层和音频-视频跨模态前馈层中,对音频-视频模态间的交互关系进行建模,得到音频-视频交互特征。
8.根据权利要求7所述的多模态情感识别方法,其特征在于,将所述音频编码特征、文本编码特征进行排序组合输入至音频-文本跨模态注意力模块对音频-文本模态间的交互关系进行建模,得到音频-文本交互特征的具体方法为:
将音频编码特征和正余弦波编码的音频固定位置特征相加,得到,音频编码位置特征;将文本编码特征和正余弦波编码的视频固定位置特征相加,得到,文本编码位置特征;
将所述音频编码位置特征和文本编码位置特征依次输入至音频-文本跨模态注意力层和音频-文本跨模态前馈层中,对音频-文本模态间的交互关系进行建模,得到音频-文本交互特征。
9.根据权利要求8所述的多模态情感识别方法,其特征在于,将所述视频编码特征、文本编码特征进行排序组合输入至视频-文本跨模态注意力模块对视频-文本模态间的交互关系进行建模,得到视频-文本交互特征的具体方法为:
将视频编码特征和正余弦波编码的音频固定位置特征相加,得到,视频编码位置特征;将文本编码特征和正余弦波编码的视频固定位置特征相加,得到,文本编码位置特征;
将所述视频编码位置特征和文本编码位置特征依次输入至视频-文本跨模态注意力层和视频-文本跨模态前馈层中,对视频-文本模态间的交互关系进行建模,得到视频-文本交互特征。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至10任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110200140.3A CN112559835B (zh) | 2021-02-23 | 2021-02-23 | 多模态情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110200140.3A CN112559835B (zh) | 2021-02-23 | 2021-02-23 | 多模态情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112559835A true CN112559835A (zh) | 2021-03-26 |
CN112559835B CN112559835B (zh) | 2021-09-14 |
Family
ID=75034584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110200140.3A Active CN112559835B (zh) | 2021-02-23 | 2021-02-23 | 多模态情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112559835B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065460A (zh) * | 2021-03-31 | 2021-07-02 | 吉林农业大学 | 基于多任务级联的猪脸面部表情识别框架的建立方法 |
CN113239159A (zh) * | 2021-04-26 | 2021-08-10 | 成都考拉悠然科技有限公司 | 基于关系推理网络的视频和文本的跨模态检索方法 |
CN113255755A (zh) * | 2021-05-18 | 2021-08-13 | 北京理工大学 | 一种基于异质融合网络的多模态情感分类方法 |
CN113380271A (zh) * | 2021-08-12 | 2021-09-10 | 明品云(北京)数据科技有限公司 | 情绪识别方法、系统、设备及介质 |
CN113505652A (zh) * | 2021-06-15 | 2021-10-15 | 腾讯科技(深圳)有限公司 | 活体检测方法、装置、电子设备和存储介质 |
CN113822192A (zh) * | 2021-09-18 | 2021-12-21 | 山东大学 | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 |
CN113837259A (zh) * | 2021-09-17 | 2021-12-24 | 中山大学附属第六医院 | 一种模态交互的图注意融合的教育视频问答方法及系统 |
CN114021524A (zh) * | 2021-09-29 | 2022-02-08 | 苏州浪潮智能科技有限公司 | 一种情感识别方法、装置、设备及可读存储介质 |
CN114463688A (zh) * | 2022-04-12 | 2022-05-10 | 之江实验室 | 一种跨模态上下文编码的对话情感识别方法及系统 |
CN115019237A (zh) * | 2022-06-30 | 2022-09-06 | 中国电信股份有限公司 | 多模态情感分析方法、装置、电子设备及存储介质 |
CN115544279A (zh) * | 2022-10-11 | 2022-12-30 | 合肥工业大学 | 一种基于协同注意力的多模态情感分类方法及其应用 |
CN116778967A (zh) * | 2023-08-28 | 2023-09-19 | 清华大学 | 基于预训练模型的多模态情感识别方法及装置 |
CN117540023A (zh) * | 2024-01-08 | 2024-02-09 | 南京信息工程大学 | 基于模态融合图卷积网络的图像联合文本情感分析方法 |
CN117609553A (zh) * | 2024-01-23 | 2024-02-27 | 江南大学 | 基于局部特征增强和模态交互的视频检索方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753549A (zh) * | 2020-05-22 | 2020-10-09 | 江苏大学 | 一种基于注意力机制的多模态情感特征学习、识别方法 |
-
2021
- 2021-02-23 CN CN202110200140.3A patent/CN112559835B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753549A (zh) * | 2020-05-22 | 2020-10-09 | 江苏大学 | 一种基于注意力机制的多模态情感特征学习、识别方法 |
Non-Patent Citations (8)
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065460A (zh) * | 2021-03-31 | 2021-07-02 | 吉林农业大学 | 基于多任务级联的猪脸面部表情识别框架的建立方法 |
CN113239159A (zh) * | 2021-04-26 | 2021-08-10 | 成都考拉悠然科技有限公司 | 基于关系推理网络的视频和文本的跨模态检索方法 |
CN113239159B (zh) * | 2021-04-26 | 2023-06-20 | 成都考拉悠然科技有限公司 | 基于关系推理网络的视频和文本的跨模态检索方法 |
CN113255755B (zh) * | 2021-05-18 | 2022-08-23 | 北京理工大学 | 一种基于异质融合网络的多模态情感分类方法 |
CN113255755A (zh) * | 2021-05-18 | 2021-08-13 | 北京理工大学 | 一种基于异质融合网络的多模态情感分类方法 |
CN113505652A (zh) * | 2021-06-15 | 2021-10-15 | 腾讯科技(深圳)有限公司 | 活体检测方法、装置、电子设备和存储介质 |
WO2022262606A1 (zh) * | 2021-06-15 | 2022-12-22 | 腾讯科技(深圳)有限公司 | 活体检测方法、装置、电子设备和存储介质 |
CN113380271A (zh) * | 2021-08-12 | 2021-09-10 | 明品云(北京)数据科技有限公司 | 情绪识别方法、系统、设备及介质 |
CN113837259A (zh) * | 2021-09-17 | 2021-12-24 | 中山大学附属第六医院 | 一种模态交互的图注意融合的教育视频问答方法及系统 |
CN113837259B (zh) * | 2021-09-17 | 2023-05-30 | 中山大学附属第六医院 | 一种模态交互的图注意融合的教育视频问答方法及系统 |
CN113822192A (zh) * | 2021-09-18 | 2021-12-21 | 山东大学 | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 |
CN113822192B (zh) * | 2021-09-18 | 2023-06-30 | 山东大学 | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 |
CN114021524A (zh) * | 2021-09-29 | 2022-02-08 | 苏州浪潮智能科技有限公司 | 一种情感识别方法、装置、设备及可读存储介质 |
WO2023050708A1 (zh) * | 2021-09-29 | 2023-04-06 | 苏州浪潮智能科技有限公司 | 一种情感识别方法、装置、设备及可读存储介质 |
CN114021524B (zh) * | 2021-09-29 | 2024-02-27 | 苏州浪潮智能科技有限公司 | 一种情感识别方法、装置、设备及可读存储介质 |
CN114463688A (zh) * | 2022-04-12 | 2022-05-10 | 之江实验室 | 一种跨模态上下文编码的对话情感识别方法及系统 |
CN115019237A (zh) * | 2022-06-30 | 2022-09-06 | 中国电信股份有限公司 | 多模态情感分析方法、装置、电子设备及存储介质 |
CN115019237B (zh) * | 2022-06-30 | 2023-12-08 | 中国电信股份有限公司 | 多模态情感分析方法、装置、电子设备及存储介质 |
CN115544279A (zh) * | 2022-10-11 | 2022-12-30 | 合肥工业大学 | 一种基于协同注意力的多模态情感分类方法及其应用 |
CN115544279B (zh) * | 2022-10-11 | 2024-01-26 | 合肥工业大学 | 一种基于协同注意力的多模态情感分类方法及其应用 |
CN116778967B (zh) * | 2023-08-28 | 2023-11-28 | 清华大学 | 基于预训练模型的多模态情感识别方法及装置 |
CN116778967A (zh) * | 2023-08-28 | 2023-09-19 | 清华大学 | 基于预训练模型的多模态情感识别方法及装置 |
CN117540023A (zh) * | 2024-01-08 | 2024-02-09 | 南京信息工程大学 | 基于模态融合图卷积网络的图像联合文本情感分析方法 |
CN117609553A (zh) * | 2024-01-23 | 2024-02-27 | 江南大学 | 基于局部特征增强和模态交互的视频检索方法及系统 |
CN117609553B (zh) * | 2024-01-23 | 2024-03-22 | 江南大学 | 基于局部特征增强和模态交互的视频检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112559835B (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112559835B (zh) | 多模态情感识别方法 | |
CN112560830B (zh) | 多模态维度情感识别方法 | |
CN113255755B (zh) | 一种基于异质融合网络的多模态情感分类方法 | |
Cho et al. | Describing multimedia content using attention-based encoder-decoder networks | |
CN112329746B (zh) | 多模态谎言检测方法、装置、设备 | |
CN106878632A (zh) | 一种视频数据的处理方法和装置 | |
CN112151030A (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
CN112597841B (zh) | 一种基于门机制多模态融合的情感分析方法 | |
WO2023050708A1 (zh) | 一种情感识别方法、装置、设备及可读存储介质 | |
CN114267347A (zh) | 一种基于智能语音交互的多模态拒识方法和系统 | |
Tran et al. | A pre-trained audio-visual transformer for emotion recognition | |
CN114359775A (zh) | 关键帧检测方法、装置、设备及存储介质、程序产品 | |
CN116701568A (zh) | 一种基于3d卷积神经网络的短视频情感分类方法及系统 | |
CN114140885A (zh) | 一种情感分析模型的生成方法、装置、电子设备以及存储介质 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
Xia et al. | Video-guided curriculum learning for spoken video grounding | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及系统 | |
CN114494969A (zh) | 基于多模语音信息互补与门控制的情绪识别方法 | |
CN116522212B (zh) | 基于图像文本融合的谎言检测方法、装置、设备及介质 | |
CN117668758A (zh) | 对话意图识别方法和装置、电子设备及存储介质 | |
CN117633674A (zh) | 一种基于因果门控注意力机制的多模态情感分析方法 | |
CN113571063A (zh) | 语音信号的识别方法、装置、电子设备及存储介质 | |
CN117711421A (zh) | 一种基于协调简单注意力机制的两阶段语音分离方法 | |
CN116975602A (zh) | 一种基于多模态信息双重融合的ar互动情感识别方法和系统 | |
Barbieri et al. | Towards a multimodal time-based empathy prediction system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |