CN110751208B - 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 - Google Patents

一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 Download PDF

Info

Publication number
CN110751208B
CN110751208B CN201910995435.7A CN201910995435A CN110751208B CN 110751208 B CN110751208 B CN 110751208B CN 201910995435 A CN201910995435 A CN 201910995435A CN 110751208 B CN110751208 B CN 110751208B
Authority
CN
China
Prior art keywords
feature
data
self
vector
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910995435.7A
Other languages
English (en)
Other versions
CN110751208A (zh
Inventor
李玉军
张文真
贲晛烨
刘治
朱孔凡
胡伟凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Publication of CN110751208A publication Critical patent/CN110751208A/zh
Application granted granted Critical
Publication of CN110751208B publication Critical patent/CN110751208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,包括步骤如下:(1)数据预处理:对文本数据、语音数据、微表情数据分别进行预处理,使其符合不同模态对应模型的输入要求;(2)特征提取:对预处理后的文本、语音和微表情三个模态的数据所蕴含的情感信息分别进行提取,获取对应的特征向量;(3)特征融合:采用自权重差分编码器将特征向量进行特征融合:(4)训练模型,得到最优的情感识别模型。本发明利用自权重差分编码器进行多模态特征融合,通过多个模态特征的交叉互补,有效降低了单模态数据的局限性和错误信息的负面影响,使提取到的情感特征更加丰富、有效和准确,提高了服刑人员的情感识别效果。

Description

一种基于自权重差分编码器进行多模态特征融合的服刑人员 情感识别方法
技术领域
本发明涉及一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,属于情感计算的技术领域。
背景技术
从20世纪末期开始,情感在认知过程中的地位越来越重要。当代的认知科学家们把情感与知觉、学习、记忆、言语等经典认知过程相提并论,关于情感本身及情感与其他认知过程间相互作用的研究成为当代认知科学的研究热点,情感识别也成为一个新兴研究领域。
情感识别在日常生活中的应用,是在目标人物情感自然流露的情况下,计算机对目标人物的情感进行计算。在多个领域都起着不可替代的作用,例如,在信息家电和智能仪器中,增加自动感知人们的情绪状态的功能,可以提供更好的服务;在信息检索应用中,通过情感分析的概念解析功能,可以提高智能信息检索的精度和效率;在远程教育平台中,情感识别技术的应用能增加教学效果;利用多模式的情感交互技术,可以构筑更贴近人们生活的智能空间或虚拟场景等等。
由于服刑人员行为线索隐匿性强,防范心理严重,依靠单一模态数据进行情感识别,就可能会产生很大的噪音,很难准确地判断服刑人员的真实情感,而且单模态情感识别存在识别率低,鲁棒性差的特点。在建立一个鲁棒性强和识别率高的服刑人员情感识别模型时,我们不仅仅要解决如何正确提取服刑人员的情感特征,降低噪音对情感识别效果的影响,捕捉服刑人员在不同模态中表现出来的互补信息,合理利用不同模态之间的相关性和差异性等一系列特征提取和融合方面的问题,还要考虑因为网络层数增多带来的模型退化问题。
发明内容
针对现有技术的不足,本发明提供了一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法。
发明概述:
一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,利用了文本、语音和微表情三个模态的数据来进行最后的情感计算。首先,对三个模态的数据分别进行特征提取。对文本的特征提取采用TextCNN,对语音的特征提取采用开源工具箱OpenSMILE和卷积神经网络(CNN),对微表情的特征提取采用富集长期递归卷积网络模型(ELRCN)。然后,将三个模态的特征通过自权重差分编码器进行特征融合,可以得到精确度高,表达能力好的联合特征向量,相较于其他融合方式,自权重差分编码器使后续的多模态情感识别能够更好的进行,提高识别效果。最后,再将联合特征输入到分类器进行情感识别。
本专利详细解释了提取各个模态特征时用到的神经网络的作用,在特征融合的过程中充分利用不同模态之间的互补信息的同时,消除了网络因为层数的增加而带来的退化问题,从而提高了网络的性能。本发明在特征融合方面引入自权重差分编码器,使网络更容易优化,得到的联合特征向量更加有效,并且同时使整个网络结构的表达能力更好,更加有利于提取到更好的情感特征,提高最后的识别效果。
本发明应用于服刑人员的真实情感识别,主要是在监狱服刑人员与家属/亲友进行远程视频会见,或者服刑人员与他人的自然交流过程中,通过对服刑人员多模态数据的进行采集和分析,研判罪犯的真实心理变化状态。本发明采用多模态融合的方式,从多个维度去分析服刑人员的情感状态,从而提高了情感识别的准确率,多模态情感识别则可以兼顾多个模态所蕴含的情感特征,可以获得更全面的、准确的情感特征。
术语解释:
1、TextCNN,将卷积神经网络CNN应用到文本分类任务,利用多个不同size的kernel来提取句子中的关键信息,从而能够更好地捕捉局部相关性。
2、OpenSMILE,是一个高度封装的语音特征提取工具。它不仅可以提取一些基础的语音特征,比如帧能、基频、短时抖动参数等,同样可以提取非常重要的语音情感特征参数,像梅尔频率倒谱系数(Mel Frequency Cepstral Coefficents,MFCC)。
3、富集长期递归卷积网络(Enriched Long-term Recurrent ConvolutionalNetwork,ELRCN),包含两种不同的网络变体:一种为通过输入通道叠加来丰富空间维度,另一种为通过深度特征叠加来丰富时间维度。
4、自权重差分编码器(Self-Weighted Differential Encoder,SWDE),是一个包含多个模块的特征提取器,可以在合理利用不同模态之间相关性和差异性的同时,有效解决模型退化问题。
本发明的技术方案为:
一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,包括步骤如下:
(1)数据预处理:对文本、语音和微表情三个模态的数据包括文本数据、语音数据、微表情数据分别进行预处理,使其符合不同模态对应模型的输入要求;
文本数据是指监狱服刑人员与家属/亲友进行远程视频会见过程中对话的文字数据;语音数据是指监狱服刑人员与家属/亲友进行远程视频会见过程中对话的音频数据;微表情数据是指监狱服刑人员与家属/亲友进行远程视频会见过程中服刑人员的面部微表情数据。
(2)特征提取:对步骤(1)预处理后的文本、语音和微表情三个模态的数据所蕴含的情感信息分别进行提取,获取对应的特征向量;
(3)特征融合:采用自权重差分编码器将步骤(2)提取到的文本、语音和微表情三个模态的特征向量进行特征融合:所述自权重差分编码器包括自权重模块和五个差分模块;将经过自权重模块输出的各个模态的特征向量进行级联,得到初步的联合特征向量作为输入,输入到五个差分模块中;自权重模块更趋向于兼顾各个模态特征向量之间的互补性和差异性,能更好的表达多个模态所隐含的信息;五个差分模块都是主要用于解决网络层数过多引发的模型退化问题。
A、将步骤(2)提取到的文本、语音和微表情三个模态的特征向量输入到所述自权重模块中,通过特征偏移矩阵的作用,对文本、语音和微表情三个模态的特征向量进行初步融合,得到一个包含所有模态信息的初步的联合特征向量;
在自权重模块中的权重矩阵和整体模型协同训练,如此操作可以使联合特征向量更加符合整个数据的分布,可以有效提升整体的识别结果。
B、将所述自权重模块输出的初步的联合特征向量作为差分模块的输入,通过差分模块的作用,更深层次的进行特征提取,除去初步的联合特征向量中冗余的部分特征,提炼出不同模态之间互异的特征,得到最终的联合特征;最终得到的联合特征向量更加准确,更加具有针对性和有效性。这样在自权重编码器中,经过自权重模块和五个差分模块,得到的联合特征向量作为自权重编码器的输出;
差分模块的思想是去掉相同的主体部分,从而突出微小的变化,类似于差分放大器,使引入差分后的映射对输出的变化更敏感,可以有效的解决网络退化问题,在增加相当的网络深度后,有利于提取到更好的情感特征,提高最后的识别效果。
将得到的初步的联合特征向量依次经过五个差分模块的作用,更深层次的进行特征提取,每一个差分模块中都包含相同输出通道的卷积核维度为3×3的卷积层,通过五个差分模块中的卷积作用,得到最终的联合特征。
C、将所述自权重差分编码器输出的最终的联合特征送到分类器进行情感识别。
分类器包含三层全连接层,将最终的联合特征向量进行降维、归一化等操作,使其转化为一个二维向量,根据二维向量中对应位置数值的大小进行最终的情感分类。
(4)训练模型:将步骤(1)预处理后的文本、语音和微表情三个模态的数据随机分成n组,每次取n-1组的数据作为训练集,依次执行步骤(1)至步骤(3),训练基于自权重差分编码器进行多模态特征融合的整体模型,剩下1组数据作为验证集,验证基于自权重差分编码器进行多模态特征融合的整体模型的效果,如此循环,做多次交叉验证,得到最优的基于自权重差分编码器进行多模态特征融合的整体模型作为情感识别模型。
根据本发明优选的,所述步骤(1)中,
对于文本数据,预处理过程包括:将文本数据进行分词,根据分词的结果和与词语对应的词向量,将文本数据转化为TextCNN模型能够接收并计算的数据结构。
在数据转换过程中,对所有文本数据包含每一个词都进行编号,生成一个词典,词典中的内容为每个词对应一个序号,然后对每一条文本进行分词,根据词典中词对应的序号将文本转化为一串序号组成的数学序列,再通过序号对应初始化的词向量列表,将序列转化为等待输入TextCNN模型的表示一条文本信息的数学数据。
对于语音数据,预处理过程包括:获取WAV格式的语音数据;同时,通过wave和wavefile软件包,将每一条语音数据转化为卷积神经网络能够接收并计算的数据结构。
原始语音数据经过wavefile软件包读取和预处理,首先,读取格式信息(如声道数、量化位数(byte单位)、采样频率、采样点数等)、波形数据和声音数据,读取声音数据时,需要指定一个读取的长度(通常以取样点为单位);其次,将波形数据转换成数组,需要根据声道数和量化单位,将读取的二进制数据转换为一个可以计算的数组,将读取的数据进行reshape、转置等操作,使其数据结构满足卷积神经网络的输入要求。
对于微表情数据,预处理过程包括:
a、采用TV-L1方法对微表情数据进行光流近似计算,光流用矢量符号
Figure BDA0002239576850000042
表示,对物体的运动进行编码,指示图像像素的运动或流动的方向和强度,光流用矢量符号
Figure BDA0002239576850000043
的定义如公式(I)所示:
Figure BDA0002239576850000041
式(I)中,dx和dy分别表示光流的水平分量和垂直分量,即沿水平方向(x维度)和垂直方向(y维度)的像素变化估计x和y维度,dt表示时间变化,p表示水平光流图像,q表示垂直光流图像;
通过连接水平/垂直光流图像p,q和光流幅度m=∣v∣,得到三维光流图像。
b、通过计算光流的导数获得光学应变(optical strain),光学应变用于正确表征两个连续帧之间存在的可变形物体的微小移动量,由位移矢量u=[u,v]T,描述有限应变张量定义如公式(II)所示:
Figure BDA0002239576850000051
式(II)中,∈为有限应变张量,(∈xx,∈yy)为法向应变分量,沿x和y方向的变化;(∈xy,∈yx)为切向应变分量,由两个轴的形变引起角度变化;u,v分别是指两个连续帧之间水平方向和垂直方向的微小移动量;
每个像素的光学应变大小|∈|使用法向应变分量和切向应变分量的平方和来计算,如公式(III)所示:
Figure BDA0002239576850000052
光流表达了图像的变化,由于它包含了目标运动的信息,因此,可被观察者用来确定目标的运动情况。将光流场包含的各像素点的瞬时运动速度矢量信息
Figure BDA0002239576850000053
来作为微表情变化的数据表示,同时通过reshape操作,使其数据结构符合富集长期递归卷积网络模型的输入要求。
根据本发明优选的,所述步骤(2)中,
对于文本数据,特征提取过程包括:通过TextCNN模型对文本数据的特征进行提取;
TextCNN模型利用多个不同size的kernel来提取句子中的关键信息,从而能够更好地捕捉局部相关性。TextCNN最大优势是网络结构简单,在模型网络结构简单的情况下,通过引入已经训练好的词向量有很不错的效果,使我们的模型在有较好的效果的同时加快收敛的速度。
对于语音数据,特征提取过程包括:
c、在Linux操作平台运行OpenSMILE,将WAV格式的语音文件作为输入,选取cmobase2010.conf作为标准特征数据集,提取语音情感特征,得到68个低级描述因子;再通过统计运算,将68个低级描述因子转化成1582维的语音情感特征,作为语音数据的部分特征向量;
OpenSMILE不仅可以提取一些基础的语音特征,还可以提取非常重要的语音情感特征参数。
d、将步骤(1)中预处理的语音数据输入卷积神经网络(Convolutional NeuralNetwork,CNN),提取每一个语音数据中包含的语音特征,作为语音数据的另一部分特征向量;
提取另一部分特征向量,语音特征提取都是基于时谱分析后的语音谱完成的,而语音时频谱是具有结构特点的。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类,利用卷积的不变性来克服语音信号本身的多样性,从而有效提取到每一个语音文件中富含的语音特征。
e、将语音数据的部分特征向量与语音数据的另一部分特征向量进行级联,得到语音数据的总的特征向量。
对于微表情数据,特征提取过程包括:
采用富集长期递归卷积网络模型对预处理之后得到的微表情数据进行特征提取:所述富集长期递归卷积网络模型包含CNN模块和LSTM模块,首先,CNN模块通过卷积神经网络提取深度空间特征,将每个微表情帧编码成特征向量,然后,将CNN模块输出的特征向量通过一个LSTM模块(包含长短期记忆网络,英文名为Long Short-Term Memory,简称LSTM),在时域上学习,得到微表情数据的特征向量。
根据本发明优选的,所述步骤A,包括步骤如下:
将步骤(2)提取到的文本、语音和微表情三个模态的特征向量输入到所述自权重模块中,在自权重模块中,初始化一个特征偏移矩阵,此特征偏移矩阵与模型协同训练,得到每个模态的特征所对应的最优特征偏移参数,然后将三个模态的特征向量通过特征偏移矩阵进行融合,即将每个模态的特征向量与其对应的特征偏移参数进行乘法运算后,再进行级联得到初步的联合特征向量。
所述自权重模块包括一个编码器和一个译码器,通过编码器生成三个模态特征向量对应的特征偏移矩阵,输入到译码器中,与对应模态的特征向量进行相乘,随后级联,得到初步的联合特征向量;
f、将步骤(2)提取到的文本、语音和微表情三个模态的特征向量输入到所述自权重模块中,使用random随机函数随机初始化一个特征偏移矩阵,
g、特征偏移矩阵与基于自权重差分编码器进行多模态特征融合的整体模型一起训练,通过反向传播算法得到每个模态的特征向量所对应的最优特征偏移参数;在自权重模块中,计算当前输入模态的特征向量对输出的联合特征向量的影响程度,影响程度通过特征偏移参数表示,特征偏移参数越高,对应点对联合特征向量的影响程度越大。
h、自权重模块通过特征偏移矩阵与对应模态的特征向量进行卷积操作,特征偏移矩阵包括步骤g得到的每个模态的特征向量所对应的所有的最优特征偏移参数,再进行级联,完成各个模态的特征融合,包括:
自权重模块中的编码器对依次输入的三个模态的特征向量进行编码,得到最后一个时间步的状态C,和每个时间步的输出hi,其中,i=1,2,3,最后一个时间步的状态C又作为译码器的初始状态z0,对每个时间步的输出hi与z0进行余弦相似度的计算,得到对应的特征偏移向量
Figure BDA0002239576850000061
如公式(IV)所示:
Figure BDA0002239576850000071
求出每个时间步的输出hi与z0的特征偏移向量
Figure BDA0002239576850000072
后,使用softmax函数对其做归一化处理,得到各个时间步对于z0的偏移参数
Figure BDA0002239576850000073
如公式(V)所示:
Figure BDA0002239576850000074
通过对hi
Figure BDA0002239576850000075
进行加权求和得到第一个模态的特征向量对应的特征偏移矩阵C0,如公式(VI)所示:
Figure BDA0002239576850000076
C0作为译码器的下一时间步的输入,如此循环,即把每个时间步的重要信息传到译码器中,得到初步的联合特征向量,如公式(VII)所示:
Figure BDA0002239576850000077
其中,i=1,2,3,j=0,1,2(VII)
式(VII)中,hi为每个时间步的输出向量,Cj为第j+1个模态的特征向量对应的特征偏移矩阵,用于译码器中每个时间步的输入,与对应模态的特征向量相乘,随后进行级联,得到初步的的联合特征向量。
根据本发明优选的,所述差分模块中,拟合函数H(x)如式(VIII)所示:
H(x)=F(x)+x(VIII)
式(VIII)中,x表示差分模块的输入,F(x)为恒等映射函数;
将拟合恒等映射函数F(x)转化为学习一个差分函数,如公式(IX)所示。
F(x)=H(x)-x(IX)。
只要F(x)无限趋近于零,就构成了一个恒等映射,相比较而言,最小化差分肯定更加容易,使特征映射对输出的变化更加敏感,不会产生额外的参数,也不会增加计算复杂度,经过五个差分模块后,得到的联合特征向量更加有效,由于使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题,同时使我们的整个网络结构的表达能力更好。
在经过自权重模块的初步融合,得到代表所有模态的初步联合特征向量之后,将初步联合特征向量送到五个差分模块中进一步提炼,得到最终的联合特征向量。
根据本发明优选的,所述步骤(4)中,训练模型,采用交叉熵损失函数进行模型训练,如式(X)所示:
Figure BDA0002239576850000081
式(X)中,p(x)是样本类别的标准分布,q(x)是样本类别的预测分布。
本发明的有益效果为:
1.本发明提出利用自权重差分编码器进行多模态特征融合,对服刑人员在视频会见或谈话系统中的情感状态进行分析、识别,根据情感表达带有伪装性等监狱服刑人员的所特有的一些情况,通过多个模态特征的交叉互补,有效地降低了单模态数据的局限性和错误信息的负面影响,使提取到的情感特征更加丰富、有效和准确,提高了服刑人员的情感识别效果。
2.本发明所述基于特征层融合的多模态融合过程中,采用自权重差分编码器,在自权重模块充分考虑服刑人员不同模态的情感特征的相关性和差异性的同时,差分模块解决了模型退化问题,使每一个模态的特征都能更好的发挥作用,降低服刑人员人为噪音对识别效果的影响,使学习得到的融合特征向量更加精确,表达能力更好,从而更好的进行后续的多模态情感识别,提高识别效果。
3.本发明在多模态融合方式方面选用了特征层融合,有效地捕捉不同模态之间的互补信息及它们之间的相互影响,使得到的联合特征向量能更加全面的表示服刑人员的正确的情感状态,提高情感识别的准确率。
附图说明
图1为自权重差分编码器中差分模块的示意图;
图2为采用自权重差分编码器进行特征融合的流程示意图。
具体实施方式
下面结合实施例和说明书附图对本发明做进一步说明,但不限于此。
实施例1
一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,如图2所示,包括步骤如下:
(1)数据预处理:对文本、语音和微表情三个模态的数据包括文本数据、语音数据、微表情数据分别进行预处理,使其符合不同模态对应模型的输入要求;
文本数据是指监狱服刑人员与家属/亲友进行远程视频会见过程中对话的文字数据;语音数据是指监狱服刑人员与家属/亲友进行远程视频会见过程中对话的音频数据;微表情数据是指监狱服刑人员与家属/亲友进行远程视频会见过程中服刑人员的面部微表情数据。
(2)特征提取:对步骤(1)预处理后的文本、语音和微表情三个模态的数据所蕴含的情感信息分别进行提取,获取对应的特征向量;
(3)特征融合:采用自权重差分编码器将步骤(2)提取到的文本、语音和微表情三个模态的特征向量进行特征融合:所述自权重差分编码器包括自权重模块和五个差分模块;将经过自权重模块输出的各个模态的特征向量进行级联,得到初步的联合特征向量作为输入,输入到五个差分模块中;自权重模块更趋向于兼顾各个模态特征向量之间的互补性和差异性,能更好的表达多个模态所隐含的信息;五个差分模块都是主要用于解决网络层数过多引发的模型退化问题。
A、将步骤(2)提取到的文本、语音和微表情三个模态的特征向量输入到所述自权重模块中,通过特征偏移矩阵的作用,对文本、语音和微表情三个模态的特征向量进行初步融合,得到一个包含所有模态信息的初步的联合特征向量;
在自权重模块中的权重矩阵和整体模型协同训练,如此操作可以使联合特征向量更加符合整个数据的分布,可以有效提升整体的识别结果。
B、将所述自权重模块输出的初步的联合特征向量作为差分模块的输入,通过差分模块的作用,更深层次的进行特征提取,除去初步的联合特征向量中冗余的部分特征,提炼出不同模态之间互异的特征,得到最终的联合特征;最终得到的联合特征向量更加准确,更加具有针对性和有效性。这样在自权重编码器中,经过自权重模块和五个差分模块,得到的联合特征向量作为自权重编码器的输出;
差分模块的思想是去掉相同的主体部分,从而突出微小的变化,类似于差分放大器,使引入差分后的映射对输出的变化更敏感,可以有效的解决网络退化问题,在增加相当的网络深度后,有利于提取到更好的情感特征,提高最后的识别效果。
将得到的初步的联合特征向量依次经过五个差分模块的作用,更深层次的进行特征提取,每一个差分模块中都包含相同输出通道的卷积核维度为3×3的卷积层,通过五个差分模块中的卷积作用,得到最终的联合特征。
C、将所述自权重差分编码器输出的最终的联合特征送到分类器进行情感识别。
分类器包含三层全连接层,将最终的联合特征向量进行降维、归一化等操作,使其转化为一个二维向量,根据二维向量中对应位置数值的大小进行最终的情感分类。
(4)训练模型:将步骤(1)预处理后的文本、语音和微表情三个模态的数据随机分成n组,每次取n-1组的数据作为训练集,依次执行步骤(1)至步骤(3),训练基于自权重差分编码器进行多模态特征融合的整体模型,剩下1组数据作为验证集,验证基于自权重差分编码器进行多模态特征融合的整体模型的效果,如此循环,做多次交叉验证,得到最优的基于自权重差分编码器进行多模态特征融合的整体模型作为情感识别模型。
步骤(4)中,训练模型,采用交叉熵损失函数进行模型训练,如式(X)所示:
Figure BDA0002239576850000101
式(X)中,p(x)是样本类别的标准分布,q(x)是样本类别的预测分布。
本实施例应用于监狱服刑人员与家属进行远程视频会见或者服刑人员与干警进行谈话的时候,对服刑人员的与情感相关的数据的进行采集和分析,研判罪犯的真实心理变化状态。通过监狱远程视频会见或谈话系统中获取视频数据,将视频中服刑人员所说的话语通过语音转化文本的软件得到文本数据,使之在时序上对应语音数据和视频数据。
由于将使用监狱服刑人员远程视频会见和谈话系统中采集到的的视频数据,而这些数据是杂乱无章的,也没有情感标签,因此需要对视频数据的情感标签进行人工标注。采用不放回的随机抽样的方式选取适量视频数据,通过浏览视频中的内容,观察分析视频中服刑人员的微表情,语音等能表达情感的特征,进行情感标签的人工标注。
将得到具有情感标签的三个模态的原始数据通过上述技术方案,进行数据预处理、特征提取、特征融合、模型训练四个过程,得到一个有效的情感识别模型。
实施例2
根据实施例1所述的一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,其区别在于:所述步骤(1)中,
对于文本数据,预处理过程包括:将文本数据进行分词,根据分词的结果和与词语对应的词向量,将文本数据转化为TextCNN模型能够接收并计算的数据结构。
在数据转换过程中,对所有文本数据包含每一个词都进行编号,生成一个词典,词典中的内容为每个词对应一个序号,然后对每一条文本进行分词,根据词典中词对应的序号将文本转化为一串序号组成的数学序列,再通过序号对应初始化的词向量列表,将序列转化为等待输入TextCNN模型的表示一条文本信息的数学数据。
对于语音数据,预处理过程包括:获取WAV格式的语音数据;同时,通过wave和wavefile软件包,将每一条语音数据转化为卷积神经网络能够接收并计算的数据结构。
原始语音数据经过wavefile软件包读取和预处理,首先,读取格式信息(如声道数、量化位数(byte单位)、采样频率、采样点数等)、波形数据和声音数据,读取声音数据时,需要指定一个读取的长度(通常以取样点为单位);其次,将波形数据转换成数组,需要根据声道数和量化单位,将读取的二进制数据转换为一个可以计算的数组,将读取的数据进行reshape、转置等操作,使其数据结构满足卷积神经网络的输入要求。
对于微表情数据,预处理过程包括:
a、采用TV-L1方法对微表情数据进行光流近似计算,光流用矢量符号
Figure BDA0002239576850000115
表示,对物体的运动进行编码,指示图像像素的运动或流动的方向和强度,光流用矢量符号
Figure BDA0002239576850000116
的定义如公式(I)所示:
Figure BDA0002239576850000111
式(I)中,dx和dy分别表示光流的水平分量和垂直分量,即沿水平方向(x维度)和垂直方向(y维度)的像素变化估计x和y维度,dt表示时间变化,p表示水平光流图像,q表示垂直光流图像;
通过连接水平/垂直光流图像p,q和光流幅度m=∣v∣,得到三维光流图像。
b、通过计算光流的导数获得光学应变(optical strain),光学应变用于正确表征两个连续帧之间存在的可变形物体的微小移动量,由位移矢量u=[u,v]T,描述有限应变张量定义如公式(II)所示:
Figure BDA0002239576850000112
式(II)中,∈为有限应变张量,(∈xx,∈yy)为法向应变分量,沿x和y方向的变化;(∈xy,∈yx)为切向应变分量,由两个轴的形变引起角度变化;u,v分别是指两个连续帧之间水平方向和垂直方向的微小移动量;
每个像素的光学应变大小|∈|使用法向应变分量和切向应变分量的平方和来计算,如公式(III)所示:
Figure BDA0002239576850000113
光流表达了图像的变化,由于它包含了目标运动的信息,因此,可被观察者用来确定目标的运动情况。将光流场包含的各像素点的瞬时运动速度矢量信息
Figure BDA0002239576850000114
来作为微表情变化的数据表示,同时通过reshape操作,使其数据结构符合富集长期递归卷积网络模型的输入要求。
实施例3
根据实施例1所述的一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,其区别在于:所述步骤(2)中,
对于文本数据,特征提取过程包括:通过TextCNN模型对文本数据的特征进行提取;
TextCNN模型利用多个不同size的kernel来提取句子中的关键信息,从而能够更好地捕捉局部相关性。TextCNN最大优势是网络结构简单,在模型网络结构简单的情况下,通过引入已经训练好的词向量有很不错的效果,使我们的模型在有较好的效果的同时加快收敛的速度。
对于语音数据,特征提取过程包括:
c、在Linux操作平台运行OpenSMILE,将WAV格式的语音文件作为输入,选取cmobase2010.conf作为标准特征数据集,提取语音情感特征,得到68个低级描述因子;再通过统计运算,将68个低级描述因子转化成1582维的语音情感特征,作为语音数据的部分特征向量;
OpenSMILE不仅可以提取一些基础的语音特征,还可以提取非常重要的语音情感特征参数。
d、将步骤(1)中预处理的语音数据输入卷积神经网络(Convolutional NeuralNetwork,CNN),提取每一个语音数据中包含的语音特征,作为语音数据的另一部分特征向量;
提取另一部分特征向量,语音特征提取都是基于时谱分析后的语音谱完成的,而语音时频谱是具有结构特点的。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类,利用卷积的不变性来克服语音信号本身的多样性,从而有效提取到每一个语音文件中富含的语音特征。
e、通过OpenSMILE工具箱和卷积神经网络将语音数据的部分特征向量与语音数据的另一部分特征向量进行级联,得到语音数据的总的特征向量。
对于微表情数据,特征提取过程包括:
采用富集长期递归卷积网络模型对预处理之后得到的微表情数据进行特征提取:所述富集长期递归卷积网络模型包含CNN模块和LSTM模块,首先,CNN模块通过卷积神经网络提取深度空间特征,将每个微表情帧编码成特征向量,然后,将CNN模块输出的特征向量通过一个LSTM模块(包含长短期记忆网络,英文名为Long Short-Term Memory,简称LSTM),在时域上学习,得到微表情数据的特征向量。
实施例4
根据实施例1所述的一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,其区别在于:所述步骤A,包括步骤如下:
将步骤(2)提取到的文本、语音和微表情三个模态的特征向量输入到所述自权重模块中,在自权重模块中,初始化一个特征偏移矩阵,此特征偏移矩阵与模型协同训练,得到每个模态的特征所对应的最优特征偏移参数,然后将三个模态的特征向量通过特征偏移矩阵进行融合,即将每个模态的特征向量与其对应的特征偏移参数进行乘法运算后,再进行级联得到初步的联合特征向量。
自权重模块包括一个编码器和一个译码器,通过编码器生成三个模态特征向量对应的特征偏移矩阵,输入到译码器中,与对应模态的特征向量进行相乘,随后级联,得到初步的联合特征向量;
f、将步骤(2)提取到的文本、语音和微表情三个模态的特征向量输入到所述自权重模块中,使用random随机函数随机初始化一个特征偏移矩阵,
g、特征偏移矩阵与基于自权重差分编码器进行多模态特征融合的整体模型一起训练,通过反向传播算法得到每个模态的特征向量所对应的最优特征偏移参数;在自权重模块中,计算当前输入模态的特征向量对输出的联合特征向量的影响程度,影响程度通过特征偏移参数表示,特征偏移参数越高,对应点对联合特征向量的影响程度越大。
h、自权重模块通过特征偏移矩阵与对应模态的特征向量进行卷积操作,特征偏移矩阵包括步骤g得到的每个模态的特征向量所对应的所有的最优特征偏移参数,再进行级联,完成各个模态的特征融合,包括:
自权重模块中的编码器对依次输入的三个模态的特征向量进行编码,得到最后一个时间步的状态C,和每个时间步的输出hi,其中,i=1,2,3,最后一个时间步的状态C又作为译码器的初始状态z0,对每个时间步的输出hi与z0进行余弦相似度的计算,得到对应的特征偏移向量
Figure BDA0002239576850000138
如公式(IV)所示:
Figure BDA0002239576850000131
求出每个时间步的输出hi与z0的特征偏移向量
Figure BDA0002239576850000132
后,使用softmax函数对其做归一化处理,得到各个时间步对于z0的偏移参数
Figure BDA0002239576850000133
如公式(V)所示:
Figure BDA0002239576850000134
通过对hi
Figure BDA0002239576850000135
进行加权求和得到第一个模态的特征向量对应的特征偏移矩阵C0,如公式(VI)所示:
Figure BDA0002239576850000136
C0作为译码器的下一时间步的输入,如此循环,即把每个时间步的重要信息传到译码器中,得到初步的联合特征向量,如公式(VII)所示:
Figure BDA0002239576850000137
其中,i=1,2,3,j=0,1,2(VII)
式(VII)中,hi为每个时间步的输出向量,Cj为第j+1个模态的特征向量对应的特征偏移矩阵,用于译码器中每个时间步的输入,与对应模态的特征向量相乘,随后进行级联,得到初步的的联合特征向量。
实施例5
根据实施例1所述的一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,其区别在于:所述差分模块中,拟合函数H(x)如式(VIII)所示:
H(x)=F(x)+x(VIII)
式(VIII)中,x表示差分模块的输入,F(x)为恒等映射函数;
将拟合恒等映射函数F(x)转化为学习一个差分函数,如公式(Ⅸ)所示。
F(x)=H(x)-x(Ⅸ)。
针对差分模块,如图1所示,x表示输入,F(x)表示差分模块在第二层激活函数之前的输出,如果深层网络的后面那些层是恒等映射,那么模型就退化为一个浅层网络。那当前要解决的就是学习恒等映射函数了。但是直接让一些层去拟合一个潜在的恒等映射函数比较困难,如公式(VIII)H(x)=x所示,这可能就是深层网络难以训练的原因。
但是,如果把网络设计为图1所示结构,令拟合函数如公式(IX)所示。
H(x)=F(x)+x(IX)
将拟合恒等映射函数转化为学习一个差分函数,如公式(X)所示。
F(x)=H(x)-x(X)
只要F(x)无限趋近于零,就构成了一个恒等映射,相比较而言,最小化差分肯定更加容易,使特征映射对输出的变化更加敏感,不会产生额外的参数,也不会增加计算复杂度,经过五个差分模块后,得到的联合特征向量更加有效,由于使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题,同时使我们的整个网络结构的表达能力更好。
在经过自权重模块的初步融合,得到代表所有模态的初步联合特征向量之后,将初步联合特征向量送到五个差分模块中进一步提炼,得到最终的联合特征向量。
为验证本发明方法的有效性,本发明在multimodal opinion-level sentimentintensity(MOSI)开源数据集上基于不同种类和数量的模态分别进行了实验,实验结果如下表所示:
表1
Figure BDA0002239576850000141
Figure BDA0002239576850000151
表1中A表示语音模态,E表示微表情模态,T表示文本模态,A+E表示语音和微表情模态融合,A+T表示语音和文本模态融合,E+T表示微表情和文本模态融合,A+E+T表示三种模态融合,A+E+T+SWDE表示使用自权重差分编码器的三模态融合,Accuracy表示准确率。
由表1中数据显示,多个模态相互融合的结果比单个模态的效果有了很大的提升,由此证明多个模态之间的数据相互作用有最后结果的提升的重要性;同时本发明提出的基于多模态特征融合的服刑人员情感识别模型的结果比简单进行模态融合又有了较大的提升,表明了本发明提出的服刑人员情感识别方法的有效性。

Claims (6)

1.一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,其特征在于,包括步骤如下:
(1)数据预处理:对文本、语音和微表情三个模态的数据包括文本数据、语音数据、微表情数据分别进行预处理,使其符合不同模态对应模型的输入要求;
(2)特征提取:对步骤(1)预处理后的文本、语音和微表情三个模态的数据所蕴含的情感信息分别进行提取,获取对应的特征向量;
(3)特征融合:采用自权重差分编码器将步骤(2)提取到的文本、语音和微表情三个模态的特征向量进行特征融合:所述自权重差分编码器包括自权重模块和五个差分模块;将经过自权重模块输出的各个模态的特征向量进行级联,得到初步的联合特征向量作为输入,输入到五个差分模块中;
A、将步骤(2)提取到的文本、语音和微表情三个模态的特征向量输入到所述自权重模块中,通过特征偏移矩阵的作用,对文本、语音和微表情三个模态的特征向量进行初步融合,得到一个包含所有模态信息的初步的联合特征向量;
所述步骤A,所述自权重模块包括一个编码器和一个译码器,通过编码器生成三个模态特征向量对应的特征偏移矩阵,输入到译码器中,与对应模态的特征向量进行相乘,随后级联,得到初步的联合特征向量;包括步骤如下:
f、将步骤(2)提取到的文本、语音和微表情三个模态的特征向量输入到所述自权重模块中,使用random随机函数随机初始化一个特征偏移矩阵,
g、特征偏移矩阵与基于自权重差分编码器进行多模态特征融合的整体模型一起训练,通过反向传播算法得到每个模态的特征向量所对应的最优特征偏移参数;
h、自权重模块通过特征偏移矩阵与对应模态的特征向量进行卷积操作,特征偏移矩阵包括步骤g得到的每个模态的特征向量所对应的所有的最优特征偏移参数,再进行级联,完成各个模态的特征融合,包括:
自权重模块中的编码器对依次输入的三个模态的特征向量进行编码,得到最后一个时间步的状态C,和每个时间步的输出hi,i=1,2,3,最后一个时间步的状态C又作为译码器的初始状态z0,对每个时间步的输出hi与z0进行余弦相似度的计算,得到对应的特征偏移向量
Figure FDA0002467508770000011
如公式(IV)所示:
Figure FDA0002467508770000012
求出每个时间步的输出hi与z0的特征偏移向量
Figure FDA0002467508770000021
后,使用softmax函数对其做归一化处理,得到各个时间步对于z0的偏移参数
Figure FDA0002467508770000022
如公式(V)所示:
Figure FDA0002467508770000023
通过对hi
Figure FDA0002467508770000024
进行加权求和得到第一个模态的特征向量对应的特征偏移矩阵C0,如公式(VI)所示:
Figure FDA0002467508770000025
C0作为译码器的下一时间步的输入,如此循环,即把每个时间步的重要信息传到译码器中,得到初步的联合特征向量,如公式(VII)所示:
Figure FDA0002467508770000026
其中,i=1,2,3,j=0,1,2(VII)
式(VII)中,hi为每个时间步的输出向量,Cj为第j+1个模态的特征向量对应的特征偏移矩阵,用于译码器中每个时间步的输入,与对应模态的特征向量相乘,随后进行级联,得到初步的的联合特征向量;
B、将所述自权重模块输出的初步的联合特征向量作为差分模块的输入,通过差分模块的作用,更深层次的进行特征提取,除去初步的联合特征向量中冗余的部分特征,提炼出不同模态之间互异的特征,得到最终的联合特征;
C、将所述自权重差分编码器输出的最终的联合特征送到分类器进行情感识别;
(4)训练模型:将步骤(1)预处理后的文本、语音和微表情三个模态的数据随机分成n组,每次取n-1组的数据作为训练集,依次执行步骤(1)至步骤(3),训练基于自权重差分编码器进行多模态特征融合的整体模型,剩下1组数据作为验证集,验证基于自权重差分编码器进行多模态特征融合的整体模型的效果,如此循环,做多次交叉验证,得到最优的基于自权重差分编码器进行多模态特征融合的整体模型作为情感识别模型。
2.根据权利要求1所述的一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,其特征在于,所述差分模块中,拟合函数H(x)如式(VIII)所示:
H(x)=F(x)+x(VIII)
式(VIII)中,x表示差分模块的输入,F(x)为恒等映射函数;
将拟合恒等映射函数F(x)转化为学习一个差分函数,如公式(Ⅸ)所示;
F(x)=H(x)-x(Ⅸ)。
3.根据权利要求1所述的一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,其特征在于,所述步骤(1)中,对于微表情数据,预处理过程包括:
a、采用TV-L1方法对微表情数据进行光流近似计算,光流用矢量符号
Figure FDA0002467508770000031
表示,对物体的运动进行编码,指示图像像素的运动或流动的方向和强度,光流用矢量符号
Figure FDA0002467508770000032
的定义如公式(I)所示:
Figure FDA0002467508770000033
式(I)中,dx和dy分别表示光流的水平分量和垂直分量,即沿水平方向和垂直方向的像素变化估计x和y维度,dt表示时间变化,p表示水平光流图像,q表示垂直光流图像;
b、通过计算光流的导数获得光学应变,光学应变用于正确表征两个连续帧之间存在的可变形物体的微小移动量,由位移矢量u=[u,v]T,描述有限应变张量定义如公式(II)所示:
Figure FDA0002467508770000034
式(II)中,∈为有限应变张量,(∈xx,∈yy)为法向应变分量,沿x和y方向的变化;(∈xy,∈yx)为切向应变分量,由两个轴的形变引起角度变化;u,v分别是指两个连续帧之间水平方向和垂直方向的微小移动量;
每个像素的光学应变大小|∈|使用法向应变分量和切向应变分量的平方和来计算,如公式(III)所示:
Figure FDA0002467508770000035
将光流场包含的各像素点的瞬时运动速度矢量信息
Figure FDA0002467508770000036
来作为微表情变化的数据表示,同时通过reshape操作,使其数据结构符合富集长期递归卷积网络模型的输入要求。
4.根据权利要求1所述的一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,其特征在于,所述步骤(1)中,
对于文本数据,预处理过程包括:将文本数据进行分词,根据分词的结果和与词语对应的词向量,将文本数据转化为TextCNN模型能够接收并计算的数据结构;
对于语音数据,预处理过程包括:获取WAV格式的语音数据;同时,通过wave和wavefile软件包,将每一条语音数据转化为卷积神经网络能够接收并计算的数据结构。
5.根据权利要求1所述的一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,其特征在于,所述步骤(2)中,
对于文本数据,特征提取过程包括:通过TextCNN模型对文本数据的特征进行提取;
对于语音数据,特征提取过程包括:
c、在Linux操作平台运行OpenSMILE,将WAV格式的语音文件作为输入,选取cmobase2010.conf作为标准特征数据集,提取语音情感特征,得到68个低级描述因子;再通过统计运算,将68个低级描述因子转化成1582维的语音情感特征,作为语音数据的部分特征向量;
d、将步骤(1)中预处理的语音数据输入卷积神经网络,提取每一个语音数据中包含的语音特征,作为语音数据的另一部分特征向量;
e、将语音数据的部分特征向量与语音数据的另一部分特征向量进行级联,得到语音数据的总的特征向量;
对于微表情数据,特征提取过程包括:
采用富集长期递归卷积网络模型对预处理之后得到的微表情数据进行特征提取:所述富集长期递归卷积网络模型包含CNN模块和LSTM模块,CNN模块通过卷积神经网络提取深度空间特征,将每个微表情帧编码成特征向量,将CNN模块输出的特征向量通过一个LSTM模块,在时域上学习,得到微表情数据的特征向量。
6.根据权利要求1-5任一所述的一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法,其特征在于,所述步骤(4)中,训练模型,采用交叉熵损失函数进行模型训练,如式(X)所示:
Figure FDA0002467508770000041
式(X)中,p(x)是样本类别的标准分布,q(x)是样本类别的预测分布。
CN201910995435.7A 2018-10-29 2019-10-18 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 Active CN110751208B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811268487 2018-10-29
CN2018112684876 2018-10-29

Publications (2)

Publication Number Publication Date
CN110751208A CN110751208A (zh) 2020-02-04
CN110751208B true CN110751208B (zh) 2020-06-30

Family

ID=66005374

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201811441300.8A Pending CN109614895A (zh) 2018-10-29 2018-11-29 一种基于attention特征融合的多模态情感识别的方法
CN201910995435.7A Active CN110751208B (zh) 2018-10-29 2019-10-18 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201811441300.8A Pending CN109614895A (zh) 2018-10-29 2018-11-29 一种基于attention特征融合的多模态情感识别的方法

Country Status (1)

Country Link
CN (2) CN109614895A (zh)

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020596B (zh) * 2019-02-21 2021-04-30 北京大学 一种基于特征融合和级联学习的视频内容定位方法
CN110147548B (zh) * 2019-04-15 2023-01-31 浙江工业大学 基于双向门控循环单元网络和新型网络初始化的情感识别方法
CN110046279B (zh) * 2019-04-18 2022-02-25 网易传媒科技(北京)有限公司 视频文件特征的预测方法、介质、装置和计算设备
CN110188343B (zh) * 2019-04-22 2023-01-31 浙江工业大学 基于融合注意力网络的多模态情感识别方法
CN110083716A (zh) * 2019-05-07 2019-08-02 青海大学 基于藏文的多模态情感计算方法及系统
CN110097894B (zh) * 2019-05-21 2021-06-11 焦点科技股份有限公司 一种端到端的语音情感识别的方法和系统
CN110164476B (zh) * 2019-05-24 2021-07-27 广西师范大学 一种基于多输出特征融合的blstm的语音情感识别方法
CN110287389A (zh) * 2019-05-31 2019-09-27 南京理工大学 基于文本、语音和视频融合的多模态情感分类方法
CN110390311A (zh) * 2019-07-27 2019-10-29 苏州过来人科技有限公司 一种基于注意力和子任务预训练的视频分析算法
CN110399934A (zh) * 2019-07-31 2019-11-01 北京达佳互联信息技术有限公司 一种视频分类方法、装置及电子设备
CN110442723B (zh) * 2019-08-14 2020-05-15 山东大学 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法
CN110390956A (zh) * 2019-08-15 2019-10-29 龙马智芯(珠海横琴)科技有限公司 情感识别网络模型、方法及电子设备
CN110675860A (zh) * 2019-09-24 2020-01-10 山东大学 基于改进注意力机制并结合语义的语音信息识别方法及系统
CN110674348B (zh) * 2019-09-27 2023-02-03 北京字节跳动网络技术有限公司 视频分类方法、装置及电子设备
CN111242155A (zh) * 2019-10-08 2020-06-05 台州学院 一种基于多模深度学习的双模态情感识别方法
CN110706771B (zh) * 2019-10-10 2023-06-30 复旦大学附属中山医院 多模态患教内容的生成方法、装置、服务器及存储介质
CN110826466B (zh) * 2019-10-31 2023-10-03 陕西励爱互联网科技有限公司 基于lstm音像融合的情感识别方法、装置及存储介质
CN110942502B (zh) * 2019-11-29 2021-10-15 中山大学 语音唇形拟合方法、系统及存储介质
CN111164601B (zh) * 2019-12-30 2023-07-18 深圳市优必选科技股份有限公司 情感识别方法、智能装置和计算机可读存储介质
CN113128284A (zh) * 2019-12-31 2021-07-16 上海汽车集团股份有限公司 一种多模态情感识别方法和装置
CN111275085B (zh) * 2020-01-15 2022-09-13 重庆邮电大学 基于注意力融合的在线短视频多模态情感识别方法
WO2021147084A1 (en) * 2020-01-23 2021-07-29 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for emotion recognition in user-generated video(ugv)
CN111339913A (zh) * 2020-02-24 2020-06-26 湖南快乐阳光互动娱乐传媒有限公司 一种视频中的人物情绪识别方法及装置
TWI751504B (zh) * 2020-02-27 2022-01-01 中華電信股份有限公司 人機協作對話系統與方法
CN111382555B (zh) * 2020-03-19 2023-08-29 杭州网易智企科技有限公司 数据处理方法、介质、装置和计算设备
CN113496156B (zh) * 2020-03-20 2023-12-19 阿里巴巴集团控股有限公司 一种情感预测方法及其设备
CN111477328B (zh) * 2020-03-31 2021-02-02 北京智能工场科技有限公司 一种非接触式的心理状态预测方法
CN111523575B (zh) * 2020-04-13 2023-12-12 中南大学 基于短视频多模态特征的短视频推荐方法
CN111523574B (zh) * 2020-04-13 2022-09-06 云南大学 一种基于多模态数据的图像情感识别方法及系统
CN111680541B (zh) * 2020-04-14 2022-06-21 华中科技大学 一种基于多维度注意力融合网络的多模态情绪分析方法
CN111563551B (zh) * 2020-04-30 2022-08-30 支付宝(杭州)信息技术有限公司 一种多模态信息融合方法、装置及电子设备
CN111753549B (zh) * 2020-05-22 2023-07-21 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法
CN111738314B (zh) * 2020-06-09 2021-11-02 南通大学 基于浅层融合的多模态图像能见度检测模型的深度学习方法
CN113837390A (zh) * 2020-06-23 2021-12-24 华为技术有限公司 一种模态信息补全方法、装置及设备
CN111767740A (zh) * 2020-06-23 2020-10-13 北京字节跳动网络技术有限公司 音效添加方法和装置、存储介质和电子设备
CN111767461B (zh) * 2020-06-24 2024-02-06 北京奇艺世纪科技有限公司 数据处理方法及装置
CN111786979B (zh) * 2020-06-24 2022-07-22 杭州电子科技大学 一种基于多模态学习的电力攻击识别方法
CN111798849A (zh) * 2020-07-06 2020-10-20 广东工业大学 一种机器人指令识别方法、装置及电子设备和存储介质
CN111814128B (zh) * 2020-09-01 2020-12-11 北京远鉴信息技术有限公司 基于融合特征的身份认证方法、装置、设备及存储介质
CN112131981B (zh) * 2020-09-10 2021-06-22 山东大学 一种基于骨架数据行为识别的司机疲劳检测方法
CN112348075B (zh) * 2020-11-02 2022-09-20 大连理工大学 一种基于情景注意力神经网络的多模态情感识别方法
CN112101045B (zh) * 2020-11-02 2021-12-14 北京淇瑀信息科技有限公司 一种多模态语义完整性识别方法、装置及电子设备
CN112487949B (zh) * 2020-11-27 2023-05-16 华中师范大学 一种基于多模态数据融合的学习者行为识别方法
CN112508413A (zh) * 2020-12-08 2021-03-16 天津大学 基于多模态学习和lstm风险研判方法
CN112597841B (zh) * 2020-12-14 2023-04-18 之江实验室 一种基于门机制多模态融合的情感分析方法
CN112667071A (zh) * 2020-12-18 2021-04-16 宜通世纪物联网研究院(广州)有限公司 基于随机变分信息的手势识别方法、装置、设备及介质
CN112700796B (zh) * 2020-12-21 2022-09-23 北京工业大学 一种基于交互式注意力模型的语音情感识别方法
CN112906624B (zh) * 2021-03-12 2022-09-13 合肥工业大学 一种基于音视频多模态时序预测的视频数据特征提取方法
CN113111954B (zh) * 2021-04-20 2022-10-11 网易(杭州)网络有限公司 一种用户类别判定方法、装置、存储介质及服务器
CN112926557B (zh) * 2021-05-11 2021-09-10 北京的卢深视科技有限公司 一种训练多模态人脸识别模型的方法以及多模态人脸识别方法
CN113408385B (zh) * 2021-06-10 2022-06-14 华南理工大学 一种音视频多模态情感分类方法及系统
CN113407428B (zh) * 2021-06-22 2023-07-18 贵州理工学院 人工智能系统的可靠性评估方法、装置和计算机设备
CN113392918A (zh) * 2021-06-24 2021-09-14 哈尔滨理工大学 一种基于多源信息融合的抑郁障碍相关因素识别方法
CN113616184B (zh) * 2021-06-30 2023-10-24 北京师范大学 基于多模态磁共振图像的脑网络建模与个体预测方法
CN113571050A (zh) * 2021-07-28 2021-10-29 复旦大学 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法
CN113469153B (zh) * 2021-09-03 2022-01-11 中国科学院自动化研究所 基于微表情、肢体动作和语音的多模态情感识别方法
CN113808622B (zh) * 2021-09-17 2023-04-07 青岛大学 基于中文语音和文本的情感识别系统及方法
CN113822192B (zh) * 2021-09-18 2023-06-30 山东大学 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质
CN113674767A (zh) * 2021-10-09 2021-11-19 复旦大学 一种基于多模态融合的抑郁状态识别方法
CN113776834B (zh) * 2021-10-11 2022-09-02 山东大学 基于离散余弦循环谱相干的滚动轴承故障诊断方法及系统
TWI829065B (zh) * 2022-01-06 2024-01-11 沐恩生醫光電股份有限公司 資料融合系統及其操作方法
CN114424940A (zh) * 2022-01-27 2022-05-03 山东师范大学 基于多模态时空特征融合的情绪识别方法及系统
CN114519880B (zh) * 2022-02-09 2024-04-05 复旦大学 基于跨模态自监督学习的主动说话人识别方法
CN114420169B (zh) * 2022-03-31 2022-06-21 北京沃丰时代数据科技有限公司 情绪识别方法、装置及机器人
CN115019237B (zh) * 2022-06-30 2023-12-08 中国电信股份有限公司 多模态情感分析方法、装置、电子设备及存储介质
CN115909317A (zh) * 2022-07-15 2023-04-04 广东工业大学 一种三维模型-文本联合表达的学习方法及系统
CN115658933B (zh) * 2022-12-28 2023-04-07 四川大学华西医院 心理状态知识库构建方法、装置、计算机设备及存储介质
CN117935340A (zh) * 2024-03-21 2024-04-26 山东大学 基于知识蒸馏的面部表情识别方法、系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200804A (zh) * 2014-09-19 2014-12-10 合肥工业大学 一种面向人机交互的多类信息耦合的情感识别方法
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN107169409A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种情感识别方法及装置
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8209182B2 (en) * 2005-11-30 2012-06-26 University Of Southern California Emotion recognition system
CN108596039B (zh) * 2018-03-29 2020-05-05 南京邮电大学 一种基于3d卷积神经网络的双模态情感识别方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200804A (zh) * 2014-09-19 2014-12-10 合肥工业大学 一种面向人机交互的多类信息耦合的情感识别方法
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN107169409A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种情感识别方法及装置
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Deep and shallow features fusion based on deep convolutional neural network for speech emotion recognition;Linhui Sun等;《International Journal of Speech Technology》;20180829;第931-940页 *
光流模值估计的微表情捕捉;姜波等;《浙江大学学报(工学版)》;20170331;第51卷(第3期);第577-589页 *
基于SAE和LSTM RNN的多模态生理信号融合和情感识别研究;李幼军等;《通信学报》;20171231;第1-12页 *
基于卷积神经网络的语音情感识别方法;邵兵等;《计算机科学》;20160630;第87-90页 *
基于深度神经网络的微表情识别;唐爽;《电子技术与软件工程》;20171231;第93-95页 *
深度学习模型的高效训练算法研究;陈凯;《中国博士学位论文全文数据库 信息科技辑》;20160815(第08期);I140-28 *

Also Published As

Publication number Publication date
CN109614895A (zh) 2019-04-12
CN110751208A (zh) 2020-02-04

Similar Documents

Publication Publication Date Title
CN110751208B (zh) 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
Tao et al. End-to-end audiovisual speech recognition system with multitask learning
CN113822192B (zh) 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质
CN112818861B (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN108648746A (zh) 一种基于多模态特征融合的开放域视频自然语言描述生成方法
Chen et al. Efficient spatial temporal convolutional features for audiovisual continuous affect recognition
Fenghour et al. Deep learning-based automated lip-reading: A survey
CN115329779B (zh) 一种多人对话情感识别方法
CN113723166A (zh) 内容识别方法、装置、计算机设备和存储介质
Wazalwar et al. Interpretation of sign language into English using NLP techniques
CN113205817A (zh) 语音语义识别方法、系统、设备及介质
CN112784696A (zh) 基于图像识别的唇语识别方法、装置、设备及存储介质
CN113392265A (zh) 多媒体处理方法、装置及设备
WO2023048746A1 (en) Speaker-turn-based online speaker diarization with constrained spectral clustering
Xia et al. Audiovisual speech recognition: A review and forecast
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
Kadyrov et al. Speaker recognition from spectrogram images
Wang et al. Wavenet with cross-attention for audiovisual speech recognition
El‐Bialy et al. Developing phoneme‐based lip‐reading sentences system for silent speech recognition
CN113705315B (zh) 视频处理方法、装置、设备及存储介质
Pu et al. Review on research progress of machine lip reading
Xue et al. LCSNet: End-to-end lipreading with channel-aware feature selection
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN112949284B (zh) 一种基于Transformer模型的文本语义相似度预测方法
CN113239903A (zh) 一种跨模态唇读的对抗性双重对比自监督学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Li Yujun

Inventor after: Zhang Wenzhen

Inventor after: Ben Xianye

Inventor after: Liu Zhi

Inventor after: Zhu Kongfan

Inventor after: Hu Weifeng

Inventor before: Li Yujun

Inventor before: Zhang Wenzhen

Inventor before: Ben Xianye

Inventor before: Liu Zhi

Inventor before: Zhu Kongfan

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant