一种基于自权重差分编码器进行多模态特征融合的服刑人员
情感识别方法
技术领域
本发明涉及一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,属于情感计算的技术领域。
背景技术
从20世纪末期开始,情感在认知过程中的地位越来越重要。当代的认知科学家们把情感与知觉、学习、记忆、言语等经典认知过程相提并论,关于情感本身及情感与其他认知过程间相互作用的研究成为当代认知科学的研究热点,情感识别也成为一个新兴研究领域。
情感识别在日常生活中的应用,是在目标人物情感自然流露的情况下,计算机对目标人物的情感进行计算。在多个领域都起着不可替代的作用,例如,在信息家电和智能仪器中,增加自动感知人们的情绪状态的功能,可以提供更好的服务;在信息检索应用中,通过情感分析的概念解析功能,可以提高智能信息检索的精度和效率;在远程教育平台中,情感识别技术的应用能增加教学效果;利用多模式的情感交互技术,可以构筑更贴近人们生活的智能空间或虚拟场景等等。
由于服刑人员行为线索隐匿性强,防范心理严重,依靠单一模态数据进行情感识别,就可能会产生很大的噪音,很难准确地判断服刑人员的真实情感,而且单模态情感识别存在识别率低,鲁棒性差的特点。在建立一个鲁棒性强和识别率高的服刑人员情感识别模型时,我们不仅仅要解决如何正确提取服刑人员的情感特征,降低噪音对情感识别效果的影响,捕捉服刑人员在不同模态中表现出来的互补信息,合理利用不同模态之间的相关性和差异性等一系列特征提取和融合方面的问题,还要考虑因为网络层数增多带来的模型退化问题。
发明内容
针对现有技术的不足,本发明提供了一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法。
发明概述:
一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,利用了文本、语音和微表情三个模态的数据来进行最后的情感计算。首先,对三个模态的数据分别进行特征提取。对文本的特征提取采用TextCNN,对语音的特征提取采用开源工具箱OpenSMILE和卷积神经网络(CNN),对微表情的特征提取采用富集长期递归卷积网络模型(ELRCN)。然后,将三个模态的特征通过自权重差分编码器进行特征融合,可以得到精确度高,表达能力好的联合特征向量,相较于其他融合方式,自权重差分编码器使后续的多模态情感识别能够更好的进行,提高识别效果。最后,再将联合特征输入到分类器进行情感识别。
本专利详细解释了提取各个模态特征时用到的神经网络的作用,在特征融合的过程中充分利用不同模态之间的互补信息的同时,消除了网络因为层数的增加而带来的退化问题,从而提高了网络的性能。本发明在特征融合方面引入自权重差分编码器,使网络更容易优化,得到的联合特征向量更加有效,并且同时使整个网络结构的表达能力更好,更加有利于提取到更好的情感特征,提高最后的识别效果。
本发明应用于服刑人员的真实情感识别,主要是在监狱服刑人员与家属/亲友进行远程视频会见,或者服刑人员与他人的自然交流过程中,通过对服刑人员多模态数据的进行采集和分析,研判罪犯的真实心理变化状态。本发明采用多模态融合的方式,从多个维度去分析服刑人员的情感状态,从而提高了情感识别的准确率,多模态情感识别则可以兼顾多个模态所蕴含的情感特征,可以获得更全面的、准确的情感特征。
术语解释:
1、TextCNN,将卷积神经网络CNN应用到文本分类任务,利用多个不同size的kernel来提取句子中的关键信息,从而能够更好地捕捉局部相关性。
2、OpenSMILE,是一个高度封装的语音特征提取工具。它不仅可以提取一些基础的语音特征,比如帧能、基频、短时抖动参数等,同样可以提取非常重要的语音情感特征参数,像梅尔频率倒谱系数(Mel Frequency Cepstral Coefficents,MFCC)。
3、富集长期递归卷积网络(Enriched Long-term Recurrent ConvolutionalNetwork,ELRCN),包含两种不同的网络变体:一种为通过输入通道叠加来丰富空间维度,另一种为通过深度特征叠加来丰富时间维度。
4、自权重差分编码器(Self-Weighted Differential Encoder,SWDE),是一个包含多个模块的特征提取器,可以在合理利用不同模态之间相关性和差异性的同时,有效解决模型退化问题。
本发明的技术方案为:
一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,包括步骤如下:
(1)数据预处理:对文本、语音和微表情三个模态的数据包括文本数据、语音数据、微表情数据分别进行预处理,使其符合不同模态对应模型的输入要求;
文本数据是指监狱服刑人员与家属/亲友进行远程视频会见过程中对话的文字数据;语音数据是指监狱服刑人员与家属/亲友进行远程视频会见过程中对话的音频数据;微表情数据是指监狱服刑人员与家属/亲友进行远程视频会见过程中服刑人员的面部微表情数据。
(2)特征提取:对步骤(1)预处理后的文本、语音和微表情三个模态的数据所蕴含的情感信息分别进行提取,获取对应的特征向量;
(3)特征融合:采用自权重差分编码器将步骤(2)提取到的文本、语音和微表情三个模态的特征向量进行特征融合:所述自权重差分编码器包括自权重模块和五个差分模块;将经过自权重模块输出的各个模态的特征向量进行级联,得到初步的联合特征向量作为输入,输入到五个差分模块中;自权重模块更趋向于兼顾各个模态特征向量之间的互补性和差异性,能更好的表达多个模态所隐含的信息;五个差分模块都是主要用于解决网络层数过多引发的模型退化问题。
A、将步骤(2)提取到的文本、语音和微表情三个模态的特征向量输入到所述自权重模块中,通过特征偏移矩阵的作用,对文本、语音和微表情三个模态的特征向量进行初步融合,得到一个包含所有模态信息的初步的联合特征向量;
在自权重模块中的权重矩阵和整体模型协同训练,如此操作可以使联合特征向量更加符合整个数据的分布,可以有效提升整体的识别结果。
B、将所述自权重模块输出的初步的联合特征向量作为差分模块的输入,通过差分模块的作用,更深层次的进行特征提取,除去初步的联合特征向量中冗余的部分特征,提炼出不同模态之间互异的特征,得到最终的联合特征;最终得到的联合特征向量更加准确,更加具有针对性和有效性。这样在自权重编码器中,经过自权重模块和五个差分模块,得到的联合特征向量作为自权重编码器的输出;
差分模块的思想是去掉相同的主体部分,从而突出微小的变化,类似于差分放大器,使引入差分后的映射对输出的变化更敏感,可以有效的解决网络退化问题,在增加相当的网络深度后,有利于提取到更好的情感特征,提高最后的识别效果。
将得到的初步的联合特征向量依次经过五个差分模块的作用,更深层次的进行特征提取,每一个差分模块中都包含相同输出通道的卷积核维度为3×3的卷积层,通过五个差分模块中的卷积作用,得到最终的联合特征。
C、将所述自权重差分编码器输出的最终的联合特征送到分类器进行情感识别。
分类器包含三层全连接层,将最终的联合特征向量进行降维、归一化等操作,使其转化为一个二维向量,根据二维向量中对应位置数值的大小进行最终的情感分类。
(4)训练模型:将步骤(1)预处理后的文本、语音和微表情三个模态的数据随机分成n组,每次取n-1组的数据作为训练集,依次执行步骤(1)至步骤(3),训练基于自权重差分编码器进行多模态特征融合的整体模型,剩下1组数据作为验证集,验证基于自权重差分编码器进行多模态特征融合的整体模型的效果,如此循环,做多次交叉验证,得到最优的基于自权重差分编码器进行多模态特征融合的整体模型作为情感识别模型。
根据本发明优选的,所述步骤(1)中,
对于文本数据,预处理过程包括:将文本数据进行分词,根据分词的结果和与词语对应的词向量,将文本数据转化为TextCNN模型能够接收并计算的数据结构。
在数据转换过程中,对所有文本数据包含每一个词都进行编号,生成一个词典,词典中的内容为每个词对应一个序号,然后对每一条文本进行分词,根据词典中词对应的序号将文本转化为一串序号组成的数学序列,再通过序号对应初始化的词向量列表,将序列转化为等待输入TextCNN模型的表示一条文本信息的数学数据。
对于语音数据,预处理过程包括:获取WAV格式的语音数据;同时,通过wave和wavefile软件包,将每一条语音数据转化为卷积神经网络能够接收并计算的数据结构。
原始语音数据经过wavefile软件包读取和预处理,首先,读取格式信息(如声道数、量化位数(byte单位)、采样频率、采样点数等)、波形数据和声音数据,读取声音数据时,需要指定一个读取的长度(通常以取样点为单位);其次,将波形数据转换成数组,需要根据声道数和量化单位,将读取的二进制数据转换为一个可以计算的数组,将读取的数据进行reshape、转置等操作,使其数据结构满足卷积神经网络的输入要求。
对于微表情数据,预处理过程包括:
a、采用TV-L1方法对微表情数据进行光流近似计算,光流用矢量符号
表示,对物体的运动进行编码,指示图像像素的运动或流动的方向和强度,光流用矢量符号
的定义如公式(I)所示:
式(I)中,dx和dy分别表示光流的水平分量和垂直分量,即沿水平方向(x维度)和垂直方向(y维度)的像素变化估计x和y维度,dt表示时间变化,p表示水平光流图像,q表示垂直光流图像;
通过连接水平/垂直光流图像p,q和光流幅度m=∣v∣,得到三维光流图像。
b、通过计算光流的导数获得光学应变(optical strain),光学应变用于正确表征两个连续帧之间存在的可变形物体的微小移动量,由位移矢量u=[u,v]T,描述有限应变张量定义如公式(II)所示:
式(II)中,∈为有限应变张量,(∈xx,∈yy)为法向应变分量,沿x和y方向的变化;(∈xy,∈yx)为切向应变分量,由两个轴的形变引起角度变化;u,v分别是指两个连续帧之间水平方向和垂直方向的微小移动量;
每个像素的光学应变大小|∈|使用法向应变分量和切向应变分量的平方和来计算,如公式(III)所示:
光流表达了图像的变化,由于它包含了目标运动的信息,因此,可被观察者用来确定目标的运动情况。将光流场包含的各像素点的瞬时运动速度矢量信息
来作为微表情变化的数据表示,同时通过reshape操作,使其数据结构符合富集长期递归卷积网络模型的输入要求。
根据本发明优选的,所述步骤(2)中,
对于文本数据,特征提取过程包括:通过TextCNN模型对文本数据的特征进行提取;
TextCNN模型利用多个不同size的kernel来提取句子中的关键信息,从而能够更好地捕捉局部相关性。TextCNN最大优势是网络结构简单,在模型网络结构简单的情况下,通过引入已经训练好的词向量有很不错的效果,使我们的模型在有较好的效果的同时加快收敛的速度。
对于语音数据,特征提取过程包括:
c、在Linux操作平台运行OpenSMILE,将WAV格式的语音文件作为输入,选取cmobase2010.conf作为标准特征数据集,提取语音情感特征,得到68个低级描述因子;再通过统计运算,将68个低级描述因子转化成1582维的语音情感特征,作为语音数据的部分特征向量;
OpenSMILE不仅可以提取一些基础的语音特征,还可以提取非常重要的语音情感特征参数。
d、将步骤(1)中预处理的语音数据输入卷积神经网络(Convolutional NeuralNetwork,CNN),提取每一个语音数据中包含的语音特征,作为语音数据的另一部分特征向量;
提取另一部分特征向量,语音特征提取都是基于时谱分析后的语音谱完成的,而语音时频谱是具有结构特点的。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类,利用卷积的不变性来克服语音信号本身的多样性,从而有效提取到每一个语音文件中富含的语音特征。
e、将语音数据的部分特征向量与语音数据的另一部分特征向量进行级联,得到语音数据的总的特征向量。
对于微表情数据,特征提取过程包括:
采用富集长期递归卷积网络模型对预处理之后得到的微表情数据进行特征提取:所述富集长期递归卷积网络模型包含CNN模块和LSTM模块,首先,CNN模块通过卷积神经网络提取深度空间特征,将每个微表情帧编码成特征向量,然后,将CNN模块输出的特征向量通过一个LSTM模块(包含长短期记忆网络,英文名为Long Short-Term Memory,简称LSTM),在时域上学习,得到微表情数据的特征向量。
根据本发明优选的,所述步骤A,包括步骤如下:
将步骤(2)提取到的文本、语音和微表情三个模态的特征向量输入到所述自权重模块中,在自权重模块中,初始化一个特征偏移矩阵,此特征偏移矩阵与模型协同训练,得到每个模态的特征所对应的最优特征偏移参数,然后将三个模态的特征向量通过特征偏移矩阵进行融合,即将每个模态的特征向量与其对应的特征偏移参数进行乘法运算后,再进行级联得到初步的联合特征向量。
所述自权重模块包括一个编码器和一个译码器,通过编码器生成三个模态特征向量对应的特征偏移矩阵,输入到译码器中,与对应模态的特征向量进行相乘,随后级联,得到初步的联合特征向量;
f、将步骤(2)提取到的文本、语音和微表情三个模态的特征向量输入到所述自权重模块中,使用random随机函数随机初始化一个特征偏移矩阵,
g、特征偏移矩阵与基于自权重差分编码器进行多模态特征融合的整体模型一起训练,通过反向传播算法得到每个模态的特征向量所对应的最优特征偏移参数;在自权重模块中,计算当前输入模态的特征向量对输出的联合特征向量的影响程度,影响程度通过特征偏移参数表示,特征偏移参数越高,对应点对联合特征向量的影响程度越大。
h、自权重模块通过特征偏移矩阵与对应模态的特征向量进行卷积操作,特征偏移矩阵包括步骤g得到的每个模态的特征向量所对应的所有的最优特征偏移参数,再进行级联,完成各个模态的特征融合,包括:
自权重模块中的编码器对依次输入的三个模态的特征向量进行编码,得到最后一个时间步的状态C,和每个时间步的输出h
i,其中,i=1,2,3,最后一个时间步的状态C又作为译码器的初始状态z
0,对每个时间步的输出h
i与z
0进行余弦相似度的计算,得到对应的特征偏移向量
如公式(IV)所示:
求出每个时间步的输出h
i与z
0的特征偏移向量
后,使用softmax函数对其做归一化处理,得到各个时间步对于z
0的偏移参数
如公式(V)所示:
通过对h
i与
进行加权求和得到第一个模态的特征向量对应的特征偏移矩阵C
0,如公式(VI)所示:
C0作为译码器的下一时间步的输入,如此循环,即把每个时间步的重要信息传到译码器中,得到初步的联合特征向量,如公式(VII)所示:
其中,i=1,2,3,j=0,1,2(VII)
式(VII)中,hi为每个时间步的输出向量,Cj为第j+1个模态的特征向量对应的特征偏移矩阵,用于译码器中每个时间步的输入,与对应模态的特征向量相乘,随后进行级联,得到初步的的联合特征向量。
根据本发明优选的,所述差分模块中,拟合函数H(x)如式(VIII)所示:
H(x)=F(x)+x(VIII)
式(VIII)中,x表示差分模块的输入,F(x)为恒等映射函数;
将拟合恒等映射函数F(x)转化为学习一个差分函数,如公式(IX)所示。
F(x)=H(x)-x(IX)。
只要F(x)无限趋近于零,就构成了一个恒等映射,相比较而言,最小化差分肯定更加容易,使特征映射对输出的变化更加敏感,不会产生额外的参数,也不会增加计算复杂度,经过五个差分模块后,得到的联合特征向量更加有效,由于使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题,同时使我们的整个网络结构的表达能力更好。
在经过自权重模块的初步融合,得到代表所有模态的初步联合特征向量之后,将初步联合特征向量送到五个差分模块中进一步提炼,得到最终的联合特征向量。
根据本发明优选的,所述步骤(4)中,训练模型,采用交叉熵损失函数进行模型训练,如式(X)所示:
式(X)中,p(x)是样本类别的标准分布,q(x)是样本类别的预测分布。
本发明的有益效果为:
1.本发明提出利用自权重差分编码器进行多模态特征融合,对服刑人员在视频会见或谈话系统中的情感状态进行分析、识别,根据情感表达带有伪装性等监狱服刑人员的所特有的一些情况,通过多个模态特征的交叉互补,有效地降低了单模态数据的局限性和错误信息的负面影响,使提取到的情感特征更加丰富、有效和准确,提高了服刑人员的情感识别效果。
2.本发明所述基于特征层融合的多模态融合过程中,采用自权重差分编码器,在自权重模块充分考虑服刑人员不同模态的情感特征的相关性和差异性的同时,差分模块解决了模型退化问题,使每一个模态的特征都能更好的发挥作用,降低服刑人员人为噪音对识别效果的影响,使学习得到的融合特征向量更加精确,表达能力更好,从而更好的进行后续的多模态情感识别,提高识别效果。
3.本发明在多模态融合方式方面选用了特征层融合,有效地捕捉不同模态之间的互补信息及它们之间的相互影响,使得到的联合特征向量能更加全面的表示服刑人员的正确的情感状态,提高情感识别的准确率。
附图说明
图1为自权重差分编码器中差分模块的示意图;
图2为采用自权重差分编码器进行特征融合的流程示意图。
具体实施方式
下面结合实施例和说明书附图对本发明做进一步说明,但不限于此。
实施例1
一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,如图2所示,包括步骤如下:
(1)数据预处理:对文本、语音和微表情三个模态的数据包括文本数据、语音数据、微表情数据分别进行预处理,使其符合不同模态对应模型的输入要求;
文本数据是指监狱服刑人员与家属/亲友进行远程视频会见过程中对话的文字数据;语音数据是指监狱服刑人员与家属/亲友进行远程视频会见过程中对话的音频数据;微表情数据是指监狱服刑人员与家属/亲友进行远程视频会见过程中服刑人员的面部微表情数据。
(2)特征提取:对步骤(1)预处理后的文本、语音和微表情三个模态的数据所蕴含的情感信息分别进行提取,获取对应的特征向量;
(3)特征融合:采用自权重差分编码器将步骤(2)提取到的文本、语音和微表情三个模态的特征向量进行特征融合:所述自权重差分编码器包括自权重模块和五个差分模块;将经过自权重模块输出的各个模态的特征向量进行级联,得到初步的联合特征向量作为输入,输入到五个差分模块中;自权重模块更趋向于兼顾各个模态特征向量之间的互补性和差异性,能更好的表达多个模态所隐含的信息;五个差分模块都是主要用于解决网络层数过多引发的模型退化问题。
A、将步骤(2)提取到的文本、语音和微表情三个模态的特征向量输入到所述自权重模块中,通过特征偏移矩阵的作用,对文本、语音和微表情三个模态的特征向量进行初步融合,得到一个包含所有模态信息的初步的联合特征向量;
在自权重模块中的权重矩阵和整体模型协同训练,如此操作可以使联合特征向量更加符合整个数据的分布,可以有效提升整体的识别结果。
B、将所述自权重模块输出的初步的联合特征向量作为差分模块的输入,通过差分模块的作用,更深层次的进行特征提取,除去初步的联合特征向量中冗余的部分特征,提炼出不同模态之间互异的特征,得到最终的联合特征;最终得到的联合特征向量更加准确,更加具有针对性和有效性。这样在自权重编码器中,经过自权重模块和五个差分模块,得到的联合特征向量作为自权重编码器的输出;
差分模块的思想是去掉相同的主体部分,从而突出微小的变化,类似于差分放大器,使引入差分后的映射对输出的变化更敏感,可以有效的解决网络退化问题,在增加相当的网络深度后,有利于提取到更好的情感特征,提高最后的识别效果。
将得到的初步的联合特征向量依次经过五个差分模块的作用,更深层次的进行特征提取,每一个差分模块中都包含相同输出通道的卷积核维度为3×3的卷积层,通过五个差分模块中的卷积作用,得到最终的联合特征。
C、将所述自权重差分编码器输出的最终的联合特征送到分类器进行情感识别。
分类器包含三层全连接层,将最终的联合特征向量进行降维、归一化等操作,使其转化为一个二维向量,根据二维向量中对应位置数值的大小进行最终的情感分类。
(4)训练模型:将步骤(1)预处理后的文本、语音和微表情三个模态的数据随机分成n组,每次取n-1组的数据作为训练集,依次执行步骤(1)至步骤(3),训练基于自权重差分编码器进行多模态特征融合的整体模型,剩下1组数据作为验证集,验证基于自权重差分编码器进行多模态特征融合的整体模型的效果,如此循环,做多次交叉验证,得到最优的基于自权重差分编码器进行多模态特征融合的整体模型作为情感识别模型。
步骤(4)中,训练模型,采用交叉熵损失函数进行模型训练,如式(X)所示:
式(X)中,p(x)是样本类别的标准分布,q(x)是样本类别的预测分布。
本实施例应用于监狱服刑人员与家属进行远程视频会见或者服刑人员与干警进行谈话的时候,对服刑人员的与情感相关的数据的进行采集和分析,研判罪犯的真实心理变化状态。通过监狱远程视频会见或谈话系统中获取视频数据,将视频中服刑人员所说的话语通过语音转化文本的软件得到文本数据,使之在时序上对应语音数据和视频数据。
由于将使用监狱服刑人员远程视频会见和谈话系统中采集到的的视频数据,而这些数据是杂乱无章的,也没有情感标签,因此需要对视频数据的情感标签进行人工标注。采用不放回的随机抽样的方式选取适量视频数据,通过浏览视频中的内容,观察分析视频中服刑人员的微表情,语音等能表达情感的特征,进行情感标签的人工标注。
将得到具有情感标签的三个模态的原始数据通过上述技术方案,进行数据预处理、特征提取、特征融合、模型训练四个过程,得到一个有效的情感识别模型。
实施例2
根据实施例1所述的一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,其区别在于:所述步骤(1)中,
对于文本数据,预处理过程包括:将文本数据进行分词,根据分词的结果和与词语对应的词向量,将文本数据转化为TextCNN模型能够接收并计算的数据结构。
在数据转换过程中,对所有文本数据包含每一个词都进行编号,生成一个词典,词典中的内容为每个词对应一个序号,然后对每一条文本进行分词,根据词典中词对应的序号将文本转化为一串序号组成的数学序列,再通过序号对应初始化的词向量列表,将序列转化为等待输入TextCNN模型的表示一条文本信息的数学数据。
对于语音数据,预处理过程包括:获取WAV格式的语音数据;同时,通过wave和wavefile软件包,将每一条语音数据转化为卷积神经网络能够接收并计算的数据结构。
原始语音数据经过wavefile软件包读取和预处理,首先,读取格式信息(如声道数、量化位数(byte单位)、采样频率、采样点数等)、波形数据和声音数据,读取声音数据时,需要指定一个读取的长度(通常以取样点为单位);其次,将波形数据转换成数组,需要根据声道数和量化单位,将读取的二进制数据转换为一个可以计算的数组,将读取的数据进行reshape、转置等操作,使其数据结构满足卷积神经网络的输入要求。
对于微表情数据,预处理过程包括:
a、采用TV-L1方法对微表情数据进行光流近似计算,光流用矢量符号
表示,对物体的运动进行编码,指示图像像素的运动或流动的方向和强度,光流用矢量符号
的定义如公式(I)所示:
式(I)中,dx和dy分别表示光流的水平分量和垂直分量,即沿水平方向(x维度)和垂直方向(y维度)的像素变化估计x和y维度,dt表示时间变化,p表示水平光流图像,q表示垂直光流图像;
通过连接水平/垂直光流图像p,q和光流幅度m=∣v∣,得到三维光流图像。
b、通过计算光流的导数获得光学应变(optical strain),光学应变用于正确表征两个连续帧之间存在的可变形物体的微小移动量,由位移矢量u=[u,v]T,描述有限应变张量定义如公式(II)所示:
式(II)中,∈为有限应变张量,(∈xx,∈yy)为法向应变分量,沿x和y方向的变化;(∈xy,∈yx)为切向应变分量,由两个轴的形变引起角度变化;u,v分别是指两个连续帧之间水平方向和垂直方向的微小移动量;
每个像素的光学应变大小|∈|使用法向应变分量和切向应变分量的平方和来计算,如公式(III)所示:
光流表达了图像的变化,由于它包含了目标运动的信息,因此,可被观察者用来确定目标的运动情况。将光流场包含的各像素点的瞬时运动速度矢量信息
来作为微表情变化的数据表示,同时通过reshape操作,使其数据结构符合富集长期递归卷积网络模型的输入要求。
实施例3
根据实施例1所述的一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,其区别在于:所述步骤(2)中,
对于文本数据,特征提取过程包括:通过TextCNN模型对文本数据的特征进行提取;
TextCNN模型利用多个不同size的kernel来提取句子中的关键信息,从而能够更好地捕捉局部相关性。TextCNN最大优势是网络结构简单,在模型网络结构简单的情况下,通过引入已经训练好的词向量有很不错的效果,使我们的模型在有较好的效果的同时加快收敛的速度。
对于语音数据,特征提取过程包括:
c、在Linux操作平台运行OpenSMILE,将WAV格式的语音文件作为输入,选取cmobase2010.conf作为标准特征数据集,提取语音情感特征,得到68个低级描述因子;再通过统计运算,将68个低级描述因子转化成1582维的语音情感特征,作为语音数据的部分特征向量;
OpenSMILE不仅可以提取一些基础的语音特征,还可以提取非常重要的语音情感特征参数。
d、将步骤(1)中预处理的语音数据输入卷积神经网络(Convolutional NeuralNetwork,CNN),提取每一个语音数据中包含的语音特征,作为语音数据的另一部分特征向量;
提取另一部分特征向量,语音特征提取都是基于时谱分析后的语音谱完成的,而语音时频谱是具有结构特点的。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类,利用卷积的不变性来克服语音信号本身的多样性,从而有效提取到每一个语音文件中富含的语音特征。
e、通过OpenSMILE工具箱和卷积神经网络将语音数据的部分特征向量与语音数据的另一部分特征向量进行级联,得到语音数据的总的特征向量。
对于微表情数据,特征提取过程包括:
采用富集长期递归卷积网络模型对预处理之后得到的微表情数据进行特征提取:所述富集长期递归卷积网络模型包含CNN模块和LSTM模块,首先,CNN模块通过卷积神经网络提取深度空间特征,将每个微表情帧编码成特征向量,然后,将CNN模块输出的特征向量通过一个LSTM模块(包含长短期记忆网络,英文名为Long Short-Term Memory,简称LSTM),在时域上学习,得到微表情数据的特征向量。
实施例4
根据实施例1所述的一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,其区别在于:所述步骤A,包括步骤如下:
将步骤(2)提取到的文本、语音和微表情三个模态的特征向量输入到所述自权重模块中,在自权重模块中,初始化一个特征偏移矩阵,此特征偏移矩阵与模型协同训练,得到每个模态的特征所对应的最优特征偏移参数,然后将三个模态的特征向量通过特征偏移矩阵进行融合,即将每个模态的特征向量与其对应的特征偏移参数进行乘法运算后,再进行级联得到初步的联合特征向量。
自权重模块包括一个编码器和一个译码器,通过编码器生成三个模态特征向量对应的特征偏移矩阵,输入到译码器中,与对应模态的特征向量进行相乘,随后级联,得到初步的联合特征向量;
f、将步骤(2)提取到的文本、语音和微表情三个模态的特征向量输入到所述自权重模块中,使用random随机函数随机初始化一个特征偏移矩阵,
g、特征偏移矩阵与基于自权重差分编码器进行多模态特征融合的整体模型一起训练,通过反向传播算法得到每个模态的特征向量所对应的最优特征偏移参数;在自权重模块中,计算当前输入模态的特征向量对输出的联合特征向量的影响程度,影响程度通过特征偏移参数表示,特征偏移参数越高,对应点对联合特征向量的影响程度越大。
h、自权重模块通过特征偏移矩阵与对应模态的特征向量进行卷积操作,特征偏移矩阵包括步骤g得到的每个模态的特征向量所对应的所有的最优特征偏移参数,再进行级联,完成各个模态的特征融合,包括:
自权重模块中的编码器对依次输入的三个模态的特征向量进行编码,得到最后一个时间步的状态C,和每个时间步的输出h
i,其中,i=1,2,3,最后一个时间步的状态C又作为译码器的初始状态z
0,对每个时间步的输出h
i与z
0进行余弦相似度的计算,得到对应的特征偏移向量
如公式(IV)所示:
求出每个时间步的输出h
i与z
0的特征偏移向量
后,使用softmax函数对其做归一化处理,得到各个时间步对于z
0的偏移参数
如公式(V)所示:
通过对h
i与
进行加权求和得到第一个模态的特征向量对应的特征偏移矩阵C
0,如公式(VI)所示:
C0作为译码器的下一时间步的输入,如此循环,即把每个时间步的重要信息传到译码器中,得到初步的联合特征向量,如公式(VII)所示:
式(VII)中,hi为每个时间步的输出向量,Cj为第j+1个模态的特征向量对应的特征偏移矩阵,用于译码器中每个时间步的输入,与对应模态的特征向量相乘,随后进行级联,得到初步的的联合特征向量。
实施例5
根据实施例1所述的一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,其区别在于:所述差分模块中,拟合函数H(x)如式(VIII)所示:
H(x)=F(x)+x(VIII)
式(VIII)中,x表示差分模块的输入,F(x)为恒等映射函数;
将拟合恒等映射函数F(x)转化为学习一个差分函数,如公式(Ⅸ)所示。
F(x)=H(x)-x(Ⅸ)。
针对差分模块,如图1所示,x表示输入,F(x)表示差分模块在第二层激活函数之前的输出,如果深层网络的后面那些层是恒等映射,那么模型就退化为一个浅层网络。那当前要解决的就是学习恒等映射函数了。但是直接让一些层去拟合一个潜在的恒等映射函数比较困难,如公式(VIII)H(x)=x所示,这可能就是深层网络难以训练的原因。
但是,如果把网络设计为图1所示结构,令拟合函数如公式(IX)所示。
H(x)=F(x)+x(IX)
将拟合恒等映射函数转化为学习一个差分函数,如公式(X)所示。
F(x)=H(x)-x(X)
只要F(x)无限趋近于零,就构成了一个恒等映射,相比较而言,最小化差分肯定更加容易,使特征映射对输出的变化更加敏感,不会产生额外的参数,也不会增加计算复杂度,经过五个差分模块后,得到的联合特征向量更加有效,由于使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题,同时使我们的整个网络结构的表达能力更好。
在经过自权重模块的初步融合,得到代表所有模态的初步联合特征向量之后,将初步联合特征向量送到五个差分模块中进一步提炼,得到最终的联合特征向量。
为验证本发明方法的有效性,本发明在multimodal opinion-level sentimentintensity(MOSI)开源数据集上基于不同种类和数量的模态分别进行了实验,实验结果如下表所示:
表1
表1中A表示语音模态,E表示微表情模态,T表示文本模态,A+E表示语音和微表情模态融合,A+T表示语音和文本模态融合,E+T表示微表情和文本模态融合,A+E+T表示三种模态融合,A+E+T+SWDE表示使用自权重差分编码器的三模态融合,Accuracy表示准确率。
由表1中数据显示,多个模态相互融合的结果比单个模态的效果有了很大的提升,由此证明多个模态之间的数据相互作用有最后结果的提升的重要性;同时本发明提出的基于多模态特征融合的服刑人员情感识别模型的结果比简单进行模态融合又有了较大的提升,表明了本发明提出的服刑人员情感识别方法的有效性。