CN113822192B - 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 - Google Patents
一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 Download PDFInfo
- Publication number
- CN113822192B CN113822192B CN202111098471.7A CN202111098471A CN113822192B CN 113822192 B CN113822192 B CN 113822192B CN 202111098471 A CN202111098471 A CN 202111098471A CN 113822192 B CN113822192 B CN 113822192B
- Authority
- CN
- China
- Prior art keywords
- data
- emotion
- feature
- transducer
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质,包括:(1)数据预处理:对文本数据、语音数据、微表情数据、肢体动作数据分别进行预处理,使其符合不同模态对应模型的输入要求;(2)特征提取:对四个模态的数据所蕴含的情感信息分别进行提取,获取对应的特征向量;(3)特征融合:采用跨模态Transformer将特征向量进行特征融合:(4)训练模型,得到最优的情感识别模型。本发明克服不同模态间的长时依赖性,有效地捕捉不同模态之间的互补信息及它们之间的相互影响,使得到的联合特征向量能更加全面的表示在押人员的正确的情感状态,提高情感识别的准确率。
Description
技术领域
本发明涉及一种基于Transformer进行多模态特征融合的在押人员情感识别方法、设备及存储介质,属于情感计算的技术领域。
背景技术
从上世纪开始,随着越来越多的人工智能机器人产品的出现,机器与人之间实现了有意义的互动,让机器能够响应用户的需求。然而,大多数产品只回答特定的问题,并没有适当地响应用户的需求。自动情感识别技术可以帮助计算机系统响应用户的需求,使机器真正“温暖”,增强用户体验。情感识别在监狱等特殊场所起到十分重要的作用,对在押人员这类特殊人群进行情感识别,可以有效的监控他们的情感状态,对于保障监狱环境安全,提升改造质量具有重要意义。尽管情感识别研究已经有几十年的历史,但一直难以实现实际应用。主要原因是研究中使用的模型不够先进,不能充分利用数据中的情感特征。
由于在押人员的身份特殊性,使其具有很强的防范心理,进而会隐藏自己情感的表达,基于单模数据的情感识别可能产生较大的误差,难以准确判断在押人员的真实情绪。单模态情感识别具有识别率低、鲁棒性差的特点。在建立一个鲁棒性高、高识别率的在押人员情感识别模型时,不仅需要解决如何正确提取被在押人员的情感特征,而且需要解决不同模态下在押人员的情感特征信息互补的问题,合理解决不同模态之间的相关性和差异性等一系列特征提取和融合问题。
发明内容
针对现有技术的不足,本发明提供了一种基于Transformer进行多模态特征融合的在押人员情感识别方法。
发明概述:
一种基于Transformer进行多模态特征融合的在押人员情感识别方法,利用了文本、语音、微表情和肢体动作四个模态的数据来进行最后的情感计算。首先,对四个模态的数据分别进行特征提取。对文本的特征提取采用GloVe预训练词向量嵌入,对语音的特征提取采用COVAREP开源工具进行提取,对微表情的特征提取采用dlib工具包和imotionFACET工具进行面部表情特征提取,对于肢体动作,采用Openpose工具进行骨骼关键点提取。然后,将四个模态的特征通过基于Transformer的多模态融合模型进行特征融合,可以得到精确度高,表达能力好的联合特征向量,相较于其他融合方式,Transformer架构可以实现不同模态间的信息交互提高识别效果。最后,再将特征拼接,输入到全连接网络进行情感识别。
本发明详细解释了提取各个模态特征时用到的神经网络的作用,在特征融合的过程中充分实现了不同模态之间的信息的交互,同时,避免了传统多模态融合方法中需要繁琐的对齐操作的问题,从而提高了网络的性能。本发明在特征融合方面引入Transformer架构,使网络得到优化,得到的联合特征向量更加有效,更加有利于提取到更好的情感特征,提高最后的识别效果。
本发明应用于在押人员的真实情感识别,主要是在监狱在押人员与家属/亲友进行远程视频会见,或者在押人员与其他在押人员以及狱警的的自然交流过程中,通过对在押人员多模态数据的进行采集和分析,从而实现判别在押人员真实情感状态的变化。本发明采用基于Transformer架构的多模态融合的方式,从多个维度去分析在押人员的情感状态,更具综合性和有效性,从而提高了情感识别的效果。
本发明还提供了一种计算机设备及存储介质。
术语解释:
1、GloVe预训练词向量字典,使用GloVe工具,送入维基百科中文语料数据训练得到的预训练词向量字典。
2、GloVe预训练词向量嵌入,全称是Global Vectors for Word Representation,中文意思是全局词向量,它是一个基于全局词频统计的词表征工具。它可以把一个单词表示成一个由实数组成的向量,向量可以捕捉单词之间的一些语义特性
3、COVAREP,是一个高度封装的语音特征提取工具。它不仅可以提取一些基础的语音特征,比如帧能、基频、短时抖动参数等,同样可以提取非常重要的语音情感特征参数,像梅尔频率倒谱系数(Mel Frequency Cepstral Coefficents,MFCC)。
4、Reshape,请解释;一种矩阵操作,用于调整矩阵的维度和形状。
5、Facet和dlib工具,请解释;Facet是imotions公司开发的面部表情分析工具,Dlib是一个使用现代C++技术编写的跨平台的一个机器学习的开源库,包含了机器学习的很多算法。6、PE(positionalencoding),位置嵌入,位置嵌入是指将单词的位置信息编码成特征向量,位置嵌入是向模型中引入单词位置关系的至关重要的一环。
6、Transformer,Google在2017提出一种使用自注意力机制来做机器翻译的模型,取得了很好的效果,并且训练速度很快。
7、OpenPose,人体姿态识别工具,基于卷积神经网络和监督学习并以caffe为框架开发的开源库。可以实现人体关键点检测。
8、上半身姿态的18个关键骨骼点,主要检测人体的关节、五官等,通过关键点描述人体骨骼信息,如图3所示。
9、中心骨骼点,对提取到的骨骼点坐标求取均值,获得中心点即为中心骨骼点。
本发明的技术方案为:
一种基于Transformer进行多模态特征融合的在押人员情感识别方法,包括步骤如下:
(1)特征提取:对文本、语音、微表情和肢体动作四个模态的数据包括文本数据、语音数据、微表情数据、肢体动作数据分别进行预处理:对四个模态的数据所包含的情感信息分别进行提取,获取对应的特征向量,使其符合不同模态对应的基于Transformer架构的多模态融合模型的输入要求;
文本数据是指在押人员与家属/亲友进行远程视频会见过程中对话的文字;语音数据是指在押人员与家属/亲友进行远程视频会见过程中对话的音频;微表情数据是指在押人员与家属/亲友进行远程视频会见过程中在押人员的面部微表情数据,面部微表情数据是指包含面部表情的视频;肢体动作数据是指监狱在押人员与家属/亲友进行远程视频会见过程中在押人员的肢体动作数据是指包含肢体躯干的视频信息;
(2)特征融合:采用基于Transformer架构的多模态融合模型将步骤(1)提取到的文本、语音、微表情和肢体动作四个模态的特征向量进行特征融合;
(3)训练基于Transformer架构的多模态融合模型:将步骤(1)预处理后的文本、语音、微表情和肢体动作四个模态的数据随机分成n组,每次取n-1组的数据作为训练集,依次执行步骤(1)至步骤(3),训练基于Transformer架构的多模态融合模型,剩下1组数据作为验证集,验证基于Transformer架构的多模态融合模型的效果,如此循环,做多次交叉验证,得到最优的基于Transformer架构的多模态融合模型作为情感识别模型;
(4)获取待情感识别的在押人员的文本数据、语音数据、微表情数据、肢体动作数据,依次通过步骤(1)、步骤(2)处理后,输入至步骤(3)训练好的情感识别模型进行情感识别。
根据本发明优选的,所述步骤(1)中,
对于文本数据,预处理过程包括:将文本数据进行分词,根据分词的结果和与GloVe预训练词向量字典中查询对应关系,在数据转换过程中,对每一条文本进行分词,根据GloVe预训练词向量字典中词对应的关系,将文本转化为一串序号组成的数学序列,即为可输入基于Transformer进行多模态特征融合的整体模型中的数学数据即文本模态的特征向量;
对于语音数据,预处理过程包括:
首先,从原始的视频数据中经过分离转录获取WAV格式的语音数据;
然后,读取格式信息、波形数据和声音数据,同时,通过COVAREP工具包,对每一条语音数据取基础语音特征,包括帧能、基频、短时抖动参数发音持续时间、振幅以及非常重要的语音情感特征参数,非常重要的语音情感特征参数是指梅尔频率倒谱系数,将提取的特征数据进行reshape、转置操作,得到语音模态的特征向量,其数据结构满足基于Transformer进行多模态特征融合的整体模型输入的原始音频特征数据的要求;
对于微表情数据,利用Facet和dlib工具提取面部表情特征,包括面部动作单元信息和面部姿态信息和面部关键点信息,面部动作单元信息包括嘴角提拉、眨眼、皱眉、鼻子皱纹、面颊提升动作;面部姿态信息包括头部左右旋转、抬头低头,面部关键点信息是指面部五官关键点坐标,即微表情模态的特征向量;
对于肢体动作数据,预处理过程包括:
a、采用Openpose工具进行骨骼关键点提取,得到上半身姿态的18个骨骼关键点坐标(xi,yi),并计算偏移量Xoffset和Yoffset,Xoffset=xi-xneck,Yoffset=yi-yneck,其中(xneck,yneck)为中心骨骼点的坐标;
根据本发明优选的,步骤(2)中,基于Transformer架构的多模态融合模型包括一层一维时间卷积层、跨模态Transformer模块、若干层自注意力Transformer序列模型、全连接层;所述跨模态Transformer模块包括若干层交叉注意力模块;特征融合的具体实现过程包括:
首先,将步骤(1)提取到的文本、语音、微表情和肢体动作四个模态的特征向量输入到一层一维时间卷积层,经过卷积操作的序列融合了相邻元素的信息,实现了局部的信息交互;
然后,将位置信息PE嵌入到处理过的特征向量中;
再次,将上述经过位置信息PE嵌入的不同模态的特征向量两两送入不同的跨模态Transformer模块;
最后,将共享相同目标模态的跨模态Transformer模块的输出拼接起来,通过全连接层进行预测。
根据本发明优选的,所述步骤(2),包括步骤如下:
A、将步骤(1)提取到的文本、语音、微表情和肢体动作四个模态的特征向量输入到一层一维时间卷积层,如式(Ⅳ)所示:
式(Ⅳ)中,k{L,V,A,P}为针对不同模态,包括文本L、微表情V、语音A、肢体动作P不同的卷积核的大小,d为公共维数;是经过一维时间卷积层卷积后的特征向量,X{L,V,A,P}是未经过一维时间卷积层卷积操作的特征向量;
B、将位置信息PE嵌入到步骤A处理过的特征向量中;
C、将上述经过位置嵌入的不同模态的特征向量两两送入不同的交叉注意力模块,使一个模态从另一个模态接收信息;如式(V)、式(Ⅵ)、式(Ⅶ)所示:
fθ为第i个交叉注意力模块中前馈子层的参数,CMV→L表示经过交叉注意力模块实现的模态V向模态L的映射,LN表示层归一化;
D、将共享相同目标模态的跨模态Transformer模块的输出拼接起来,通过全连接层进行预测,具体包括:
首先,将共享相同目标模态的交叉注意力模块的输出拼接起来;
然后,通过一个自注意力Transformer序列模型来收集时间信息来进行预测;
最后,提取自注意力Transformer序列模型的最后元素,通过全连接层进行预测,将所述自注意力Transformer序列模型输出的最终的联合特征送到分类器进行情感识别;
分类器包括三层全连接层,将最终的联合特征向量进行降维、归一化操作,使其转化为一个二维向量,根据二维向量中对应位置数值的大小进行最终的情感分类,其中取值最高的情感类别即为输出的情感分类结果。
进一步优选的,步骤B中,将位置信息PE嵌入到步骤A处理过的特征向量中,具体是指:
位置信息PE用来表示PE特征向量中每个元素的位置,奇数位置PE(pos,2i)由余弦函数获得,偶数位置PE(pos,2i+1)由正弦函数获得,公式分别如式(Ⅷ)、式(Ⅸ)所示:
根据本发明优选的,所述步骤(3)中,训练模型,采用交叉熵损失函数进行基于Transformer进行多模态特征融合的整体模型的训练,如式(Ⅹ)所示:
式(Ⅹ)中,p(x)是样本类别的标准分布,q(x)是样本类别的预测分布。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于Transformer进行多模态特征融合的在押人员情感识别方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于Transformer进行多模态特征融合的在押人员情感识别方法的步骤。
本发明的有益效果为:
1.本发明提出利用Transformer进行多模态特征融合,对在押人员在视频会见或日常交流中的情感状态进行分析、识别,根据情感表达带有伪装性等监狱在押人员的所特有的一些情况,通过多个模态特征的跨模态融合,打破了单模态数据的局限性,降低噪音信息的负面影响,使提取到的情感特征更加丰富、有效和准确,提高了在押人员的情感识别效果。
2.本发明所述基于特征层融合的多模态融合过程中,采用Transformer架构,在融合过程中,充分考虑不同模态间的长时依赖性,使每一个模态的特征都能更好的发挥作用,并且不需要繁琐的对齐操作,能够直接将未对齐的数据送入上游模型,大大减少了工作量。
3.本发明在多模态融合方式方面选用了特征层融合,有效地捕捉不同模态之间的互补信息及它们之间的相互影响,使得到的联合特征向量能更加全面的表示在押人员的正确的情感状态,提高情感识别的准确率。
附图说明
图1为交叉注意力模块的结构示意图;
图2为采用跨模态Transformer进行特征融合的流程示意图;
图3为上半身姿态的18个关键骨骼点的示意图。
具体实施方式
下面结合实施例和说明书附图对本发明做进一步说明,但不限于此。
实施例1
一种基于Transformer进行多模态特征融合的在押人员情感识别方法,包括步骤如下:
(1)特征提取:对文本、语音、微表情和肢体动作四个模态的数据包括文本数据、语音数据、微表情数据、肢体动作数据分别进行预处理:对四个模态的数据所包含的情感信息分别进行提取,获取对应的特征向量,使其符合不同模态对应的基于Transformer架构的多模态融合模型的输入要求;
文本数据是指在押人员与家属/亲友进行远程视频会见过程中对话的文字;语音数据是指在押人员与家属/亲友进行远程视频会见过程中对话的音频;微表情数据是指在押人员与家属/亲友进行远程视频会见过程中在押人员的面部微表情数据,面部微表情数据是指包含面部表情的视频;肢体动作数据是指监狱在押人员与家属/亲友进行远程视频会见过程中在押人员的肢体动作数据是指包含肢体躯干的视频信息;
(2)特征融合:采用基于Transformer架构的多模态融合模型将步骤(1)提取到的文本、语音、微表情和肢体动作四个模态的特征向量进行特征融合;
(3)训练基于Transformer架构的多模态融合模型:将步骤(1)预处理后的文本、语音、微表情和肢体动作四个模态的数据随机分成n组,每次取n-1组的数据作为训练集,依次执行步骤(1)至步骤(3),训练基于Transformer架构的多模态融合模型,剩下1组数据作为验证集,验证基于Transformer架构的多模态融合模型的效果,如此循环,做多次交叉验证,得到最优的基于Transformer架构的多模态融合模型作为情感识别模型;
(4)获取待情感识别的在押人员的文本数据、语音数据、微表情数据、肢体动作数据,依次通过步骤(1)、步骤(2)处理后,输入至步骤(3)训练好的情感识别模型进行情感识别。
实施例2
根据实施例1所述的一种基于Transformer进行多模态特征融合的在押人员情感识别方法,其区别在于:
步骤(1)中,对于文本数据,预处理过程包括:将文本数据进行分词,根据分词的结果和与GloVe预训练词向量字典中查询对应关系,在数据转换过程中,对每一条文本进行分词,根据GloVe预训练词向量字典中词对应的关系,将文本转化为一串序号组成的数学序列,即为可输入基于Transformer进行多模态特征融合的整体模型中的数学数据即文本模态的特征向量;GloVe预训练词向量嵌入最大优势是网络结构简单,在模型网络结构简单的情况下,通过引入已经训练好的词向量有很不错的效果,使本发明的模型在有较好的效果的同时加快收敛的速度。
对于语音数据,预处理过程包括:
首先,从原始的视频数据中经过分离转录获取WAV格式的语音数据;
然后,读取格式信息(如声道数、量化位数(byte单位)、采样频率、采样点数等)、波形数据和声音数据,同时,通过COVAREP工具包,对每一条语音数据取一些基础语音特征,包括帧能、基频、短时抖动参数发音持续时间、振幅以及非常重要的语音情感特征参数,非常重要的语音情感特征参数是指梅尔频率倒谱系数,将提取的特征数据进行reshape、转置操作,得到语音模态的特征向量,其数据结构满足基于Transformer进行多模态特征融合的整体模型输入的原始音频特征数据的要求;
对于微表情数据,利用Facet和dlib工具提取面部表情特征,包括面部动作单元信息和面部姿态信息和面部关键点信息,面部动作单元信息包括嘴角提拉、眨眼、皱眉、鼻子皱纹、面颊提升动作;面部姿态信息包括头部左右旋转、抬头低头,面部关键点信息是指面部五官关键点坐标,即微表情模态的特征向量;
对于肢体动作数据,预处理过程包括:
a、采用Openpose工具进行骨骼关键点提取,得到上半身姿态的18个骨骼关键点坐标(xi,yi),并计算偏移量Xoffset和Yoffset,Xoffset=xi-xneck,Yoffset=yi-yneck,其中(xneck,yneck)为中心骨骼点的坐标;
步骤(2)中,如图2所示,基于Transformer架构的多模态融合模型包括一层一维时间卷积层、跨模态Transformer模块、若干层自注意力Transformer序列模型、全连接层;所述跨模态Transformer模块包括若干层交叉注意力模块;特征融合的具体实现过程包括:
首先,将步骤(1)提取到的文本、语音、微表情和肢体动作四个模态的特征向量输入到一层一维时间卷积层,经过卷积操作的序列融合了相邻元素的信息,实现了局部的信息交互;
然后,将位置信息PE嵌入到处理过的特征向量中;
再次,将上述经过位置信息PE嵌入的不同模态的特征向量两两送入不同的跨模态Transformer模块;
最后,将共享相同目标模态的跨模态Transformer模块的输出拼接起来,通过全连接层进行预测。
步骤(2),包括步骤如下:
A、将步骤(1)提取到的文本、语音、微表情和肢体动作四个模态的特征向量输入到一层一维时间卷积层,卷积核的作用,保证输入序列的每个元素对其邻域元素有足够的感知,如式(Ⅳ)所示:
式(Ⅳ)中,H{L,V,A,P}为针对不同模态,包括文本L、微表情V、语音A、肢体动作P不同的卷积核的大小,d为公共维数;是经过一维时间卷积层卷积后的特征向量,X{L,V,A,P}是未经过一维时间卷积层卷积操作的特征向量;
经过卷积操作的序列融合了相邻元素的信息,实现了局部的信息交互。此外,由于卷积将不同维度的特征投射到同一维d上,使得后续交叉模态注意模块中可以对特征向量进行点积操作。
B、将位置信息PE嵌入到步骤A处理过的特征向量中;由于transformer模型没有循环神经网络的迭代操作,所以我们必须提供每个元素的位置信息给transformer,才能识别出时序向量中的顺序关系。具体是指:
位置信息PE用来表示PE特征向量中每个元素的位置,奇数位置PE(pos,2i)由余弦函数获得,偶数位置PE(abs,2i+1)由正弦函数获得,公式分别如式(Ⅷ)、式(Ⅸ)所示:
C、将上述经过位置嵌入的不同模态的特征向量两两送入不同的交叉注意力模块,使一个模态从另一个模态接收信息;例如,我们将表情(V)信息传递给语言(L),用“V→L”表示。我们确定所有的维数(d{α,β,k,v})的每个跨通道注意块,如d。如式(V)、式(Ⅵ)、式(Ⅶ)所示:
fθ为第i个交叉注意力模块中前馈子层的参数,CMV→L表示经过交叉注意力模块实现的模态V向模态L的映射,LN表示层归一化;
在这个过程中,每个模态通过交叉注意力模块获得其他模态的信息来不断更新其序列。在交叉注意力模块的每一层,都与目标模态进行交互从而将有意义的元素关联到不同的模态。
D、将共享相同目标模态的跨模态Transformer模块的输出拼接起来,通过全连接层进行预测,具体包括:
首先,将共享相同目标模态的交叉注意力模块的输出拼接起来;
然后,通过一个自注意力Transformer序列模型来收集时间信息来进行预测;
最后,提取自注意力Transformer序列模型的最后元素,通过全连接层进行预测,将所述自注意力Transformer序列模型输出的最终的联合特征送到分类器进行情感识别;
分类器包括三层全连接层,将最终的联合特征向量进行降维、归一化操作,使其转化为一个二维向量,根据二维向量中对应位置数值的大小进行最终的情感分类,其中取值最高的情感类别即为输出的情感分类结果。
步骤(3)中,训练模型,采用交叉熵损失函数进行基于Transformer进行多模态特征融合的整体模型的训练,如式(Ⅹ)所示:
式(Ⅹ)中,p(x)是样本类别的标准分布,q(x)是样本类别的预测分布。
实施例3
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现实施例1或2所述的基于Transformer进行多模态特征融合的在押人员情感识别方法的步骤。
实施例4
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现实施例1或2所述的基于Transformer进行多模态特征融合的在押人员情感识别方法的步骤。
Claims (7)
1.一种基于Transformer进行多模态特征融合的在押人员情感识别方法,其特征在于,包括步骤如下:
(1)特征提取:对文本、语音、微表情和肢体动作四个模态的数据包括文本数据、语音数据、微表情数据、肢体动作数据分别进行预处理:对四个模态的数据所包含的情感信息分别进行提取,获取对应的特征向量,使其符合不同模态对应的基于Transformer架构的多模态融合模型的输入要求;
文本数据是指在押人员与家属/亲友进行远程视频会见过程中对话的文字;语音数据是指在押人员与家属/亲友进行远程视频会见过程中对话的音频;微表情数据是指在押人员与家属/亲友进行远程视频会见过程中在押人员的面部微表情数据,面部微表情数据是指包含面部表情的视频;肢体动作数据是指监狱在押人员与家属/亲友进行远程视频会见过程中在押人员的肢体动作数据是指包含肢体躯干的视频信息;
(2)特征融合:采用基于Transformer架构的多模态融合模型将步骤(1)提取到的文本、语音、微表情和肢体动作四个模态的特征向量进行特征融合;
(3)训练基于Transformer架构的多模态融合模型:将步骤(1)预处理后的文本、语音、微表情和肢体动作四个模态的数据随机分成n组,每次取n-1组的数据作为训练集,依次执行步骤(1)至步骤(3),训练基于Transformer架构的多模态融合模型,剩下1组数据作为验证集,验证基于Transformer架构的多模态融合模型的效果,如此循环,做多次交叉验证,得到最优的基于Transformer架构的多模态融合模型作为情感识别模型;
(4)获取待情感识别的在押人员的文本数据、语音数据、微表情数据、肢体动作数据,依次通过步骤(1)、步骤(2)处理后,输入至步骤(3)训练好的情感识别模型进行情感识别;
所述步骤(2),包括步骤如下:
A、将步骤(1)提取到的文本、语音、微表情和肢体动作四个模态的特征向量输入到一层一维时间卷积层,如式(Ⅳ)所示:
式(Ⅳ)中,k{L,V,A,P}为针对不同模态,包括文本L、微表情V、语音A、肢体动作P不同的卷积核的大小,d为公共维数;是经过一维时间卷积层卷积后的特征向量,X{L,V,A,P}是未经过一维时间卷积层卷积操作的特征向量;
B、将位置信息PE嵌入到步骤A处理过的特征向量中;
C、将上述经过位置嵌入的不同模态的特征向量两两送入不同的交叉注意力模块,使一个模态从另一个模态接收信息;如式(Ⅴ)、式(Ⅵ)、式(Ⅶ)所示:
fθ为第i个交叉注意力模块中前馈子层的参数,CMV→L表示经过交叉注意力模块实现的模态V向模态L的映射,LN表示层归一化;
D、将共享相同目标模态的跨模态Transformer模块的输出拼接起来,通过全连接层进行预测,具体包括:
首先,将共享相同目标模态的交叉注意力模块的输出拼接起来;
然后,通过一个自注意力Transformer序列模型来收集时间信息来进行预测;
最后,提取自注意力Transformer序列模型的最后元素,通过全连接层进行预测,将所述自注意力Transformer序列模型输出的最终的联合特征送到分类器进行情感识别;
分类器包括三层全连接层,将最终的联合特征向量进行降维、归一化操作,使其转化为一个二维向量,根据二维向量中对应位置数值的大小进行最终的情感分类,其中取值最高的情感类别即为输出的情感分类结果。
2.根据权利要求1所述的一种基于Transformer进行多模态特征融合的在押人员情感识别方法,其特征在于,所述步骤(1)中,
对于文本数据,预处理过程包括:将文本数据进行分词,根据分词的结果和与GloVe预训练词向量字典中查询对应关系,在数据转换过程中,对每一条文本进行分词,根据GloVe预训练词向量字典中词对应的关系,将文本转化为一串序号组成的数学序列,即为可输入基于Transformer进行多模态特征融合的整体模型中的数学数据即文本模态的特征向量;
对于语音数据,预处理过程包括:
首先,从原始的视频数据中经过分离转录获取WAV格式的语音数据;
然后,读取格式信息、波形数据和声音数据,同时,通过COVAREP工具包,对每一条语音数据取基础语音特征,包括帧能、基频、短时抖动参数发音持续时间、振幅以及非常重要的语音情感特征参数,非常重要的语音情感特征参数是指梅尔频率倒谱系数,将提取的特征数据进行reshape、转置操作,得到语音模态的特征向量,其数据结构满足基于Transformer进行多模态特征融合的整体模型输入的原始音频特征数据的要求;
对于微表情数据,利用Facet和dlib工具提取面部表情特征,包括面部动作单元信息和面部姿态信息和面部关键点信息,面部动作单元信息包括嘴角提拉、眨眼、皱眉、鼻子皱纹、面颊提升动作;面部姿态信息包括头部左右旋转、抬头低头,面部关键点信息是指面部五官关键点坐标,即微表情模态的特征向量;
对于肢体动作数据,预处理过程包括:
a、采用Openpose工具进行骨骼关键点提取,得到上半身姿态的18个骨骼关键点坐标(xi,yi),并计算偏移量Xoffset和Yoffset,Xoffset=xi-xneck,Yoffset=yi-yneck,其中(xneck,yneck)为中心骨骼点的坐标;
3.根据权利要求1所述的一种基于Transformer进行多模态特征融合的在押人员情感识别方法,其特征在于,步骤(2)中,基于Transformer架构的多模态融合模型包括一层一维时间卷积层、跨模态Transformer模块、若干层自注意力Transformer序列模型、全连接层;所述跨模态Transformer模块包括若干层交叉注意力模块;特征融合的具体实现过程包括:
首先,将步骤(1)提取到的文本、语音、微表情和肢体动作四个模态的特征向量输入到一层一维时间卷积层,经过卷积操作的序列融合了相邻元素的信息,实现了局部的信息交互;
然后,将位置信息PE嵌入到处理过的特征向量中;
再次,将上述经过位置信息PE嵌入的不同模态的特征向量两两送入不同的跨模态Transformer模块;
最后,将共享相同目标模态的跨模态Transformer模块的输出拼接起来,通过全连接层进行预测。
6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-5任一所述的基于Transformer进行多模态特征融合的在押人员情感识别方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任一所述的基于Transformer进行多模态特征融合的在押人员情感识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111098471.7A CN113822192B (zh) | 2021-09-18 | 2021-09-18 | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111098471.7A CN113822192B (zh) | 2021-09-18 | 2021-09-18 | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113822192A CN113822192A (zh) | 2021-12-21 |
CN113822192B true CN113822192B (zh) | 2023-06-30 |
Family
ID=78914865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111098471.7A Active CN113822192B (zh) | 2021-09-18 | 2021-09-18 | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113822192B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114417097B (zh) * | 2022-01-25 | 2024-08-09 | 齐鲁工业大学 | 一种基于时间卷积与自注意力的情感预测方法及系统 |
CN114299551A (zh) * | 2022-03-07 | 2022-04-08 | 深圳市海清视讯科技有限公司 | 模型训练方法、动物行为识别方法、装置、设备 |
CN114973120B (zh) * | 2022-04-14 | 2024-03-12 | 山东大学 | 一种基于多维传感数据与监控视频多模异构融合的行为识别方法及系统 |
CN115171335A (zh) * | 2022-06-17 | 2022-10-11 | 南京邮电大学 | 一种融合图像和语音的独居老人室内安全保护方法及装置 |
CN116035564B (zh) * | 2022-12-06 | 2024-08-02 | 北京顺源辰辰科技发展有限公司 | 一种噎食与误吸智能检测方法、装置及电子设备 |
CN115690553B (zh) * | 2023-01-03 | 2023-04-11 | 华南理工大学 | 一种基于多模态对话内容联合建模的情感分析方法及系统 |
CN115809438B (zh) * | 2023-01-18 | 2023-06-16 | 中国科学技术大学 | 多模态情感分析方法、系统、设备及存储介质 |
CN115861494B (zh) * | 2023-02-20 | 2023-06-13 | 青岛大学 | 一种跨模态变换器模型式自动舞蹈生成方法 |
CN116304984A (zh) * | 2023-03-14 | 2023-06-23 | 烟台大学 | 基于对比学习的多模态意图识别方法及系统 |
CN117725547B (zh) * | 2023-11-17 | 2024-08-20 | 华南师范大学 | 基于跨模态特征融合网络的情感与认知演变模式识别方法 |
CN117312992B (zh) * | 2023-11-30 | 2024-03-12 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 多视角人脸特征与音频特征融合的情绪识别方法及系统 |
CN117690190B (zh) * | 2024-01-31 | 2024-08-13 | 吉林大学 | 基于超图文本对比的水下动作识别方法、系统及存储介质 |
CN118366653A (zh) * | 2024-04-08 | 2024-07-19 | 杭州华亭科技有限公司 | 一种基于增量学习的多模态服刑人员心理状态评估系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751208A (zh) * | 2018-10-29 | 2020-02-04 | 山东大学 | 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 |
CN112559835A (zh) * | 2021-02-23 | 2021-03-26 | 中国科学院自动化研究所 | 多模态情感识别方法 |
CN112633364A (zh) * | 2020-12-21 | 2021-04-09 | 上海海事大学 | 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法 |
CN112818892A (zh) * | 2021-02-10 | 2021-05-18 | 杭州医典智能科技有限公司 | 基于时间卷积神经网络的多模态抑郁症检测方法及系统 |
WO2021104099A1 (zh) * | 2019-11-29 | 2021-06-03 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测方法和系统 |
-
2021
- 2021-09-18 CN CN202111098471.7A patent/CN113822192B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751208A (zh) * | 2018-10-29 | 2020-02-04 | 山东大学 | 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 |
WO2021104099A1 (zh) * | 2019-11-29 | 2021-06-03 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测方法和系统 |
CN112633364A (zh) * | 2020-12-21 | 2021-04-09 | 上海海事大学 | 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法 |
CN112818892A (zh) * | 2021-02-10 | 2021-05-18 | 杭州医典智能科技有限公司 | 基于时间卷积神经网络的多模态抑郁症检测方法及系统 |
CN112559835A (zh) * | 2021-02-23 | 2021-03-26 | 中国科学院自动化研究所 | 多模态情感识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113822192A (zh) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113822192B (zh) | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 | |
CN110751208B (zh) | 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 | |
Muppidi et al. | Speech emotion recognition using quaternion convolutional neural networks | |
CN112151030A (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
CN106096642B (zh) | 基于鉴别局部保持投影的多模态情感特征融合方法 | |
Ocquaye et al. | Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition | |
CN114724224A (zh) | 一种用于医疗护理机器人的多模态情感识别方法 | |
CN117765981A (zh) | 一种基于语音文本跨模态融合的情感识别方法及系统 | |
CN116244474A (zh) | 一种基于多模态情感特征融合的学习者学习状态获取方法 | |
Mu et al. | Speech emotion recognition using convolutional-recurrent neural networks with attention model | |
CN117251057A (zh) | 一种基于aigc构建ai数智人的方法及系统 | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及系统 | |
CN114898779A (zh) | 融合多模态的语音情感识别方法及系统 | |
Akinpelu et al. | Lightweight deep learning framework for speech emotion recognition | |
Nemani et al. | Speaker independent VSR: A systematic review and futuristic applications | |
Amami et al. | A robust voice pathology detection system based on the combined bilstm–cnn architecture | |
Patamia et al. | Multimodal Speech Emotion Recognition Using Modality-Specific Self-Supervised Frameworks | |
Chang | Deepfake Speech Recognition and Detection | |
Robi et al. | Active Speaker Detection using Audio, Visual and Depth Modalities: A Survey | |
Zhang et al. | Multiple attention convolutional-recurrent neural networks for speech emotion recognition | |
Rajyalakshmi et al. | Deep Learning Model for Emotion Prediction from Speech, Facial Expression and Videos | |
Uthayashangar | Speech Emotion Recognition Using Machine Learning | |
CN117725547B (zh) | 基于跨模态特征融合网络的情感与认知演变模式识别方法 | |
Cano Montes et al. | Audio-visual emotion recognition system for variable length spatio-temporal samples using deep transfer-learning | |
Sharifzadeh Jafari et al. | A Novel Multi-Task and Ensembled Optimized Parallel Convolutional Autoencoder and Transformer for Speech Emotion Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |