CN109447129B - 一种多模式情绪识别方法、装置及计算机可读存储介质 - Google Patents

一种多模式情绪识别方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN109447129B
CN109447129B CN201811151831.3A CN201811151831A CN109447129B CN 109447129 B CN109447129 B CN 109447129B CN 201811151831 A CN201811151831 A CN 201811151831A CN 109447129 B CN109447129 B CN 109447129B
Authority
CN
China
Prior art keywords
context
mode
aware
features
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811151831.3A
Other languages
English (en)
Other versions
CN109447129A (zh
Inventor
贾雪丽
王全
王健宗
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811151831.3A priority Critical patent/CN109447129B/zh
Publication of CN109447129A publication Critical patent/CN109447129A/zh
Application granted granted Critical
Publication of CN109447129B publication Critical patent/CN109447129B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本方案涉及人工智能,提供了一种多模式情绪识别方法、装置及计算机可读存储介质,多模式情绪识别方法包括:分别获得视频中的音频模式、视频模式和文本模式的话语的单峰特征,用RNN建立上下文模型,从音频模式、视频模式和文本模式的单峰特征中分别提取情境感知单峰特征;用全连接层连接音频模式、视频模式和文本模式的情境感知单峰特征,产生融合的双峰特征向量,用RNN建立上下文模型,从双峰特征向量中提取情境感知双峰特征;用全连接层将这些情境感知双峰特征组合成三模式特征向量,用RNN建立上下文模型,进一步提取情境感知三模式特征。本发明能更加准确的提高的提取出可用于情感分类的特征向量。

Description

一种多模式情绪识别方法、装置及计算机可读存储介质
技术领域
本发明涉及人工智能技术领域,具体地说,涉及一种多模式情绪识别方法、装置及计算机可读存储介质。
背景技术
由于社交平台与视频媒体等形式的数据增加,人们在这些平台上交流意见。通过从这些视频评论中提取用户的意见,建议和投诉他们的产品,这对于大公司来说是一个很好的机会。这些信息还开启了新视野,通过根据其他用户的经验和意见对我们购买的产品,我们使用的服务,访问的地点或我们观看的电影作出明智的决策,提高我们的生活质量。因此对于多模式数据的情绪识别技术要求应运而生。这个过程中一个最主要的问题是关于多模式的特征融合。因此,多模态情绪分析中的大多数近期成果简单地将不同模态的特征向量连接起来。但是,这种过分简单的方法存在的问题是,它不能过滤掉从不同模式获得的冲突或冗余信息,也就无法避免不同的模式可能会带来冲突的信息。
发明内容
为解决现有技术存在的不足,本发明提供一种图像数据异步传输方法、装置及计算机可读存储介质,采用单峰特征融合为双峰特征,然后从双峰特征再融合为三峰特征的方法,并且,采用RNN(循环神经网络)来提高特征向量的质量,从而能够过滤掉从不同模式获得的冲突或冗余信息,获得的特征向量对于情感分类任务更准确。
提供一种多模式情绪识别方法,应用于电子装置,该方法包括:分别获得视频中的音频模式、视频模式和文本模式的话语的单峰特征,使用RNN建立上下文模型,从音频模式、视频模式和文本模式的单峰特征中分别提取情境感知单峰特征,所述情境感知单峰特征包含与情感分类相关属性的抽象特征;使用全连接层连接音频模式、视频模式和文本模式的情境感知单峰特征,从而产生融合的双峰特征向量,使用RNN建立上下文模型,从所述双峰特征向量中提取情境感知双峰特征;使用全连接层将这些情境感知双峰特征组合成三模式特征向量,并使用RNN建立上下文模型,进一步提取情境感知三模式特征。
还提供一种电子装置,所述电子装置包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的多模式情绪识别程序,所述多模式情绪识别程序被所述处理器执行时实现如下步骤:分别获得视频中的音频模式、视频模式和文本模式的话语的单峰特征,使用RNN建立上下文模型,从音频模式、视频模式和文本模式的单峰特征中分别提取情境感知单峰特征,所述情境感知单峰特征包含与情感分类相关属性的抽象特征;使用全连接层连接音频模式、视频模式和文本模式的情境感知单峰特征的组成的每个双峰组合,从而产生融合的双峰特征向量,使用RNN建立上下文模型,从所述双峰特征向量中提取情境感知双峰特征;使用全连接层将这些情境感知双峰特征组合成三模式特征向量,并使用RNN建立上下文模型,进一步提取情境感知三模式特征。
还提供一种计算机可读存储介质,所述计算机可读存储介质中包括多模式情绪识别程序,所述多模式情绪识别程序被处理器执行时,实现如上所述的多模式情绪识别方法的步骤。
本发明先将情境感知单峰特征融合成情境感知双峰特征,然后从情境感知双峰特征再融合为情境感知三模式特征,并且,在提取情境感知单峰特征、情境感知双峰特征、情境感知三模式特征的过程中均采用GRU(门控循环单元)建立上下文模型,利用上下文信息来提高特征向量提取的质量,使用softmax分类器进行分类训练,利用损失函数控制分类训练,能够更加准确的提高的提取出可用于情感分类的特征向量。
附图说明
通过结合下面附图对其实施例进行描述,本发明的上述特征和技术优点将会变得更加清楚和容易理解。
图1是表示本发明实施例的多模式情绪识别方法的流程图;
图2是表示本发明实施例的电子装置的硬件架构示意图;
图3是表示本发明实施例的多模式情绪识别程序的模块构成图。
具体实施方式
下面将参考附图来描述本发明所述的多模式情绪识别方法、装置及存储介质的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
一种多模式情绪识别方法,如图1所示,包括以下步骤:
步骤S10,分别获得视频中的音频模式、视频模式和文本模式的话语的单峰特征,使用RNN建立上下文模型,从音频模式、视频模式和文本模式的单峰特征中分别提取情境感知单峰特征,所述情境感知单峰特征包含与情感分类相关属性的抽象特征;
步骤S30,使用全连接层连接音频模式、视频模式和文本模式的情境感知单峰特征,从而产生融合的双峰特征向量,使用RNN建立上下文模型,从所述双峰特征向量中提取情境感知双峰特征;
步骤S50,使用全连接层将这些情境感知双峰特征组合成三模式特征向量,并使用RNN建立上下文模型,进一步提取情境感知三模式特征。
优选地,在步骤S10、步骤S30、步骤S50中均可以采用RNN中的GRU(门控循环单元)来建立上下文模型,视频中的话语在语义上是相互依赖的。也就是说,上下文建模可以通过考虑预先考虑的话语来确定话语的完整含义,这称为话语的背景。采用GRU来模拟视频中话语之间的语义依赖,能够有助于提取情境感知的特征向量。
对于一段视频R来说,其中包含有分别属于音频模式声学特征、属于视频模式的视觉特征和属于文本模式的文本特征。下面定义如下:
单峰特征如下:
Figure BDA0001818112240000031
声学特征;
Figure BDA0001818112240000032
视觉特征;
Figure BDA0001818112240000041
文本特征。
N代表该段视频R中话语的最大数量,即该段视频根据话语数量切割为N个片段,每个片段为一个话语,例如,我今天哭了,可以划分出“我”、“今天”、“哭了”这些话语。
dA表示每个片段中提取的所有声学特征;
dV表示每个片段中提取的所有视觉特征;
dT表示每个片段中提取的所有文本特征。
对于每种模式,将该模式对应的单峰话语特征fm(其中m∈{A,V,T})输入到GRU的模型中,其公式如下:
zm=σ(fmtUmz+sm(t-1)Wmz)
rm=σ(fmtUmr+sm(t-1)Wmr)
hmt=tanh(fmtUmh+(sm(t-1)*rm)Wmh)
Fmt=tanh(hmtUmx+umx)
smt=(1-zm)*Fmt+zm*sm(t-1)
其中,m∈{A,V,T},A代表声学、V代表视觉、T代表文字,m代表单峰话语特征所属的模式;
zm是更新门,控制加入多少候选隐藏层hmt的信息;
rm是重置门,用来计算候选隐藏层hmt,控制保留多少前一时刻隐藏层sm(t-1)的信息;
hmt是候选隐藏层;
U、W为权值矩阵;
fmt是t时刻的输入数据;
sm(t-1)是t-1时刻隐藏层神经元的激活值;
σ表示sigmoid激活函数;
tanh是激活函数;
smt是t时刻隐藏层神经元的激活值;
Fmt是隐藏层输出数据。
其中,zm是更新门,是t时刻的输入fmt、上一时刻隐藏层sm(t-1)分别和权重矩阵U、W相乘,再将这两部分结果相加后放入sigmoid激活函数中,将结果压缩在0~1之间。更新门能够决定上一层隐藏层状态中有多少信息传递到当前隐藏层中,或者说前一时刻和当前时刻的信息有多少需要继续传递的。当zm越接近0,则说明上一层隐藏状态的某个信息在该隐藏层被遗忘,接近1则说明某个信息在该隐藏层继续保留。
rm是和更新门的运算操作类似,只是权重矩阵不同。重置门是决定上一时刻隐藏状态的信息中有多少是需要被遗忘的。当该值接近于0,则说明上一时刻某个信息在当前记忆内容中被遗忘,接近于1则说明在当前记忆内容中继续保留。
hmt除了和更新门、重置门一样与权重矩阵U、W相乘之外,还计算重置门结果rm和sm(t-1)进行Hadamard(哈达马矩阵)乘积,即对应元素相乘。因为rm是由0到1的向量组成的,因此,进行Hadamard乘积可以使用重置门决定在当前记忆内容中要遗忘多少上一时刻隐藏状态的内容,乘积的值接近于0说明该信息被遗忘,接近于1则保留该信息。最后再将这两部分信息相加放入tanh激活函数中,将结果缩放到-1到1中。
最后计算smt向量,该向量将保留当前单元的信息并传递到下一个单元中。使用更新门决定上一个时刻的sm(t-1)中多少信息在此时刻隐藏单元smt需要保留,并且,通过1-zm表示那些需要遗忘的信息,用此时刻的记忆内容中相应的内容进行更新。这样更新门就决定了分别需要在当前时刻的记忆内容和上一时刻隐藏层的信息收集哪些内容。
进一步地,应用GRU提取情境感知单峰特征、情境感知双峰特征、情境感知三模式特征后,均利用分类器softmax进行分类训练,以提高GRU建立的上下文模型提取抽象特征的能力。分类器用于对大量的视频片段中的情绪(例如哀伤、高兴、兴奋、痛哭)进行识别并分类,类别例如可以是包括开心、难过等,从而进行训练。
softmax分类器的公式如下:
P=softmax(WsoftmaxFmt+bsoftmax)
Figure BDA0001818112240000051
其中,Wsoftmax是分类器的权重;
bsoftmax是分类器的偏置;
Fmt是情境感知单峰特征;
Figure BDA0001818112240000061
是softmax的函数输出;
argmax取满足P[j]为最大值的j值;
j为分类的类别。
softmax函数对应情境感知单峰特征进行分类,把各特征分类到不同的类别中,采用不同的权值Wsoftmax、bsoftmax计算各情境感知单峰特征分类到各类别中的概率P。例如把“愤怒”特征分类到“高兴”、“难过”等类别中,分别计算“愤怒”分类到“高兴”、“难过”等类别中的概率,而argmax函数则是选取使得P[j]值最大时对应的类别j,即将分类时被分到的概率最高的类别挑选出来。对应各个特征都分别挑选出被分到概率最高的类别j,从而精确的获取分类的类别。
进一步地,损失函数的公式如下:
Figure BDA0001818112240000062
Figure BDA0001818112240000063
其中,
N是样本数;
i是当前样本;
j是当前类别;
C是分类的类别数量;
J为所有样本i的交叉熵的平均值;
yij是要拟合的目标变量。
Pi[j]是softmax的输出向量P的第j个值,表示的是这个样本i属于第j个类别的概率。j的范围是0到类别数C-1,yij是一个1*C的向量,其中只有1个值是1,即样本i对应预期类别值j的那个值是1,其他都是0。所有样本i其对应预期类别值的概率的总和除以N(即所有样本i的交叉熵的平均值)。通过计算损失函数,控制模型Wsoftmax、偏置bsoftmax,经过不断的训练,获得最优的权值Wsoftmax、偏置bsoftmax
通过以上GRU建立上下文模型,产生的隐藏输出数据Fmt作为每个模态(音频,视频和文本)的情境感知单峰特征。因此,定义Fm=GRUm(fm),其中
Figure BDA0001818112240000071
因此,上下文感知获取的情境感知单峰特征可以被定义为:
FA=GRUA(fA)
FV=GRUV(fV)
FT=GRUT(fT)
以上是以获取情境感知单峰特征为例进行说明。实际上,在利用GRU建立上下文模型提取情境感知单峰特征、情境感知双峰特征、情境感知三模式特征的过程中,均可以采用以上Softmax分类器和损失函数来提高特征提取的准确度。
在双模式融合中,视频音频、音频文本、视频文本的双模融合功能定义为
Figure BDA0001818112240000072
Figure BDA0001818112240000073
Figure BDA0001818112240000074
其中,fVA是声学和视觉特征组合的情境感知双峰特征;
fAT是声学和文本特征组合的情境感知双峰特征;
fVT是视觉和文本特征组合的情境感知双峰特征;
Figure BDA0001818112240000075
为t时刻的声学和视觉特征组合的情境感知双峰特征;
Figure BDA0001818112240000076
为t时刻的声学和文本特征组合的情境感知双峰特征;
Figure BDA0001818112240000077
为t时刻的视觉和文本特征组合的情境感知双峰特征。
双模式融合后再使用GRU建模获取情境感知双峰特征,其公式如下:
Figure BDA0001818112240000078
Figure BDA0001818112240000079
Figure BDA00018181122400000710
其中,
Figure BDA00018181122400000711
为包含有上下文信息的声学和视觉特征组合的情境感知双峰特征;
Figure BDA0001818112240000081
是包含有上下文信息的声学和文本特征组合的情境感知双峰特征;
Figure BDA0001818112240000082
是包含有上下文信息的视觉和文本特征组合的情境感知双峰特征。
在三模式融合中,采用tanh激活函数将各情境感知双峰特征进行全连接,全连接层的每一个输出都可以看成前一层的每一个结点乘以一个权重系数W,加上一个偏置值b,其公式如下:
Figure BDA0001818112240000083
其中,
Figure BDA0001818112240000084
为权重;
Figure BDA0001818112240000085
为偏置;
zlt为全连接层的输出,是将各情境感知双峰特征的数据映射到-1到1上。
三模式融合的定义如下:
fVAT=(fVAT1,fVAT2,...,fVATN)
其中,fVAT是声学、视觉和文本特征融合的三模式特征;
在三模式融合之后,我们通过GRUAVT传递融合的情境感知三模式特征,以将语境信息纳入其中,从而产生
FVAT=(FVAT1,FVAT2,...,FVATN)=GRUVAT(fVAT)
其中,FVAT是包含有上下文信息的情境感知三模式特征。
优选地,如果各个片段对应的话语的长度不同,如果情境感知单峰特征是不同的维度,可以使用由相应长度的空矢量表示的虚拟话语填充较短的视频,将他们映射为相同维度D,其公式如下:
gA=tanh(FAWA+bA)
gV=tanh(FVWV+bV)
gT=tanh(FTWT+bT)
其中,WA、bA、WV、bV、WT、bT为权重;
gA是维度为D的声学特征;
gV是维度为D的视觉特征;
gT是维度为D的文本特征。
图2所示是本发明电子装置1的硬件架构示意图。所述电子装置1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述电子装置1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在本实施例中,电子装置1可包括,但不仅限于,可通过系统总线相互通信连接的存储器13、处理器14、显示器15。需要指出的是,图2仅示出了具有部分组件的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,主存储器13包括内存及至少一种类型的可读存储介质。内存为电子装置1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子装置1的内部存储单元,例如该电子装置1的硬盘;在另一些实施例中,该非易失性存储介质也可以是电子装置1的外部存储设备,例如电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card),安全数字(Secure Digital)卡,闪存卡(Flash Card)等。本实施例中,存储器13的可读存储介质通常用于存储安装于电子装置1的操作系统和各类应用软件,例如本实施例中的多模式情绪识别程序代码等。此外,存储器13还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器14用于运行所述存储器13中存储的程序代码或者处理数据。
另外,电子装置1还包括网络接口,所述网络接口可包括无线网络接口或有线网络接口,该网络接口通常用于在所述电子装置1与其他电子设备之间建立通信连接。
多模式情绪识别程序存储在存储器13中,包括至少一个存储在存储器13中的计算机可读指令,该至少一个计算机可读指令可被处理器执行,以实现本申请各实施例的方法;以及,该至少一个计算机可读指令依据其各部分所实现的功能不同,可被划为不同的逻辑模块。
在一个实施例中,上述多模式情绪识别程序被所述处理器14执行时实现如下步骤:
步骤S10,分别获得视频中的音频模式、视频模式和文本模式的话语的单峰特征,使用RNN建立上下文模型,从音频模式、视频模式和文本模式的单峰特征中分别提取情境感知单峰特征,所述情境感知单峰特征包含与情感分类相关属性的抽象特征;
步骤S30,使用全连接层连接音频模式、视频模式和文本模式的情境感知单峰特征,从而产生融合的双峰特征向量,使用RNN建立上下文模型,从所述双峰特征向量中提取情境感知双峰特征;
步骤S50,使用全连接层将这些情境感知双峰特征组合成三模式特征向量,并使用RNN建立上下文模型,进一步提取情境感知三模式特征。
图3所示为多模式情绪识别程序50的程序模块图。在本实施例中,多模式情绪识别程序50被分割为多个模块,该多个模块被存储于存储器13中,并由处理器14执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。
所述多模式情绪识别程序50可以被分割为:情境感知单峰特征提取模块501、情境感知双峰特征提取模块502、情境感知三模式特征提取模块503、分类模块504、损失计算模块505。
其中,情境感知单峰特征提取模块501用于分别从视频模式、文本模式、音频模式中提取出情境感知单峰特征,对于一段视频R来说,其中包含有分别属于音频模式声学特征、属于视频模式的视觉特征和属于文本模式的
文本特征。下面定义如下:
单峰特征如下:
Figure BDA0001818112240000101
声学特征;
Figure BDA0001818112240000111
视觉特征;
Figure BDA0001818112240000112
文本特征。
N代表该段视频R中话语的最大数量,即该段视频根据话语数量切割为N个片段,每个片段为一个话语,例如,我今天哭了,可以划分出“我”、“今天”、“哭了”这些话语。
dA表示每个片段中提取的所有声学特征;
dV表示每个片段中提取的所有视觉特征;
dT表示每个片段中提取的所有文本特征。
对于每种模式,将该模式对应的单峰话语特征fm(其中m∈{A,V,T})输入到GRU的模型中,其公式如下:
zm=σ(fmtUmz+sm(t-1)Wmz)
rm=σ(fmtUmr+Sm(t-1)Wmr)
hmt=tanh(fmtUmh+(sm(t-1)*rm)Wmh)
Fmt=tanh(hmtUmx+umx)
smt=(1-zm)*Fmt+zm*sm(t-1)
其中,m∈{A,V,T},A代表声学、V代表视觉、T代表文字,m代表单峰话语特征所属的模式;
zm是更新门,控制加入多少候选隐藏层hmt的信息;
rm是重置门,用来计算候选隐藏层hmt,控制保留多少前一时刻隐藏层sm(t-1)的信息;
hmt是候选隐藏层;
U、W为权值矩阵;
fmt是t时刻的输入数据;
sm(t-1)是t-1时刻隐藏层神经元的激活值;
σ表示sigmoid激活函数;
tanh是激活函数;
smt是t时刻隐藏层神经元的激活值;
Fmt是隐藏层输出数据。
其中,zm是更新门,是t时刻的输入fmt、上一时刻隐藏层sm(t-1)分别和权重矩阵U、W相乘,再将这两部分结果相加后放入sigmoid激活函数中,将结果压缩在0~1之间。更新门能够决定上一层隐藏层状态中有多少信息传递到当前隐藏层中,或者说前一时刻和当前时刻的信息有多少需要继续传递的。当zm越接近0,则说明上一层隐藏状态的某个信息在该隐藏层被遗忘,接近1则说明某个信息在该隐藏层继续保留。
rm是和更新门的运算操作类似,只是权重矩阵不同。重置门是决定上一时刻隐藏状态的信息中有多少是需要被遗忘的。当该值接近于0,则说明上一时刻某个信息在当前记忆内容中被遗忘,接近于1则说明在当前记忆内容中继续保留。
hmt除了和更新门、重置门一样与权重矩阵U、W相乘之外,还计算重置门结果rm和sm(t-1)进行Hadamard(哈达马矩阵)乘积,即对应元素相乘。因为rm是由0到1的向量组成的,因此,进行Hadamard乘积可以使用重置门决定在当前记忆内容中要遗忘多少上一时刻隐藏状态的内容,乘积的值接近于0说明该信息被遗忘,接近于1则保留该信息。最后再将这两部分信息相加放入tanh激活函数中,将结果缩放到-1到1中。
最后计算smt向量,该向量将保留当前单元的信息并传递到下一个单元中。使用更新门决定上一个时刻的sm(t-1)中多少信息在此时刻隐藏单元smt需要保留,并且,通过1-zm表示那些需要遗忘的信息,用此时刻的记忆内容中相应的内容进行更新。这样更新门就决定了分别需要在当前时刻的记忆内容和上一时刻隐藏层的信息收集哪些内容。
进一步地,应用GRU提取情境感知单峰特征、情境感知双峰特征、情境感知三模式特征后,分类模块504均利用分类器softmax进行分类训练,以提高GRU建立的上下文模型提取抽象特征的能力。分类器用于对大量的视频片段中的情绪(例如哀伤、高兴、兴奋、痛哭)进行识别并分类,类别例如可以是包括开心、难过等,从而进行训练。
分类器用于对大量的视频片段中的情绪(例如哀伤、高兴、兴奋、痛哭)进行识别并分类,类别例如可以是包括开心、难过等,从而进行训练。
softmax分类器的公式如下:
P=softmax(WsoftmaxFmt+bsoftmax)
Figure BDA0001818112240000121
其中,Wsoftmax是分类器的权重;
bsoftmax是分类器的偏置;
Fmt是情境感知单峰特征;
Figure BDA0001818112240000131
是softmax的函数输出;
argmax取满足P[j]为最大值的j值;
j为分类的类别。
softmax函数对应情境感知单峰特征进行分类,把各特征分类到不同的类别中,采用不同的权值Wsoftmax、bsoftmax计算各情境感知单峰特征分类到各类别中的概率P。例如把“愤怒”特征分类到“高兴”、“难过”等类别中,分别计算“愤怒”分类到“高兴”、“难过”等类别中的概率,而argmax函数则是选取使得P[j]值最大时对应的类别j,即将分类时被分到的概率最高的类别挑选出来。对应各个特征都分别挑选出被分到概率最高的类别j,从而精确的获取分类的类别。
进一步地,损失计算模块505利用损失函数计算分类的准确程度,损失函数的公式如下:
Figure BDA0001818112240000132
Figure BDA0001818112240000133
其中,
N是样本数;
i是当前样本;
j是当前类别;
C是分类的类别数量;
J为所有样本i的交叉熵的平均值;
yij是要拟合的目标变量。
Pi[j]是softmax的输出向量P的第j个值,表示的是这个样本i属于第j个类别的概率。j的范围是0到类别数C-1,yij是一个1*C的向量,其中只有1个值是1,即样本i对应预期类别值j的那个值是1,其他都是0。所有样本i其对应预期类别值的概率的总和除以N(即所有样本i的交叉熵的平均值)。通过计算损失函数,控制模型Wsoftmax、偏置bsoftmax,经过不断的训练,获得最优的权值Wsoftmax、偏置bsoftmax
通过以上GRU建立上下文模型,产生的隐藏输出数据Fmt作为每个模态(音频,视频和文本)的情境感知单峰特征。因此,定义Fm=GRUm(fm),其中
Figure BDA0001818112240000141
因此,上下文感知获取的情境感知单峰特征可以被定义为:
FA=GRUA(fA)
FV=GRUV(fV)
FT=GRUT(fT)
以上是以获取情境感知单峰特征为例进行说明。实际上,在情境感知双峰特征提取模块502提取了情境感知双峰特征后,也同样可以采用以上Softmax分类器和损失函数来提高特征提取的准确度。在情境感知三模式特征提取模块503提取了情境感知三模式特征后,也同样可以采用以上Softmax分类器和损失函数来提高特征提取的准确度。
在双模式融合中,视频音频、音频文本、视频文本的双模融合功能定义为
Figure BDA0001818112240000142
Figure BDA0001818112240000143
Figure BDA0001818112240000144
其中,fVA是声学和视觉特征组合的情境感知双峰特征;
fAT是声学和文本特征组合的情境感知双峰特征;
fVT是视觉和文本特征组合的情境感知双峰特征;
Figure BDA0001818112240000145
为t时刻的声学和视觉特征组合的情境感知双峰特征;
Figure BDA0001818112240000146
为t时刻的声学和文本特征组合的情境感知双峰特征;
Figure BDA0001818112240000147
为t时刻的视觉和文本特征组合的情境感知双峰特征。
双模式融合后再使用GRU建模获取情境感知双峰特征,其公式如下:
Figure BDA0001818112240000148
Figure BDA0001818112240000149
Figure BDA00018181122400001410
其中,
Figure BDA00018181122400001411
为包含有上下文信息的声学和视觉特征组合的情境感知双峰特征;
Figure BDA0001818112240000151
是包含有上下文信息的声学和文本特征组合的情境感知双峰特征;
Figure BDA0001818112240000152
是包含有上下文信息的视觉和文本特征组合的情境感知双峰特征。
在三模式融合中,采用tanh激活函数将各情境感知双峰特征进行全连接,全连接层的每一个输出都可以看成前一层的每一个结点乘以一个权重系数W,加上一个偏置值b,其公式如下:
Figure BDA0001818112240000153
其中,
Figure BDA0001818112240000154
为权重;
Figure BDA0001818112240000155
为偏置;
zlt为全连接层的输出,是将各情境感知双峰特征的数据映射到-1到1上。
三模式融合的定义如下:
fVAT=(fVAT1,fVAT2,…,fVATN)
其中,fVAT是声学、视觉和文本特征融合的三模式特征;
在三模式融合之后,我们通过GRUAVT传递融合的情境感知三模式特征,以将语境信息纳入其中,从而产生
FVAT=(FVAT1,FVAT2,...,FVATN)=GRUVAT(fVAT)
其中,FVAT是包含有上下文信息的情境感知三模式特征。
优选地,如果各个片段对应的话语的长度不同,如果情境感知单峰特征是不同的维度,可以使用由相应长度的空矢量表示的虚拟话语填充较短的视频,将他们映射为相同维度D,其公式如下:
gA=tanh(FAWA+bA)
gV=tanh(FVWV+bV)
gT=tanh(FTWT+bT)
其中,WA、bA、WV、bV、WT、bT为权重;
gA是维度为D的声学特征;
gV是维度为D的视觉特征;
gT是维度为D的文本特征。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种多模式情绪识别方法,应用于电子装置,其特征在于,该方法包括:
分别获得视频中的音频模式、视频模式和文本模式的话语的单峰特征,使用GRU建立上下文模型,从音频模式、视频模式和文本模式的单峰特征中分别提取情境感知单峰特征,所述情境感知单峰特征包含与情感分类相关属性的抽象特征;
使用全连接层两两连接音频模式、视频模式和文本模式的情境感知单峰特征,从而产生融合的双峰特征向量,使用GRU建立上下文模型,从所述双峰特征向量中提取情境感知双峰特征;
使用全连接层将这些情境感知双峰特征组合成三模式特征向量,并使用GRU建立上下文模型,进一步提取情境感知三模式特征,其中,单峰特征如下:
Figure FDA0004102913060000011
声学特征;
Figure FDA0004102913060000012
视觉特征;
Figure FDA0004102913060000013
文本特征,
N代表该段视频R中话语的最大数量;
dA表示每个片段中提取的所有声学特征;
dV表示每个片段中提取的所有视觉特征;
dT表示每个片段中提取的所有文本特征,
对于每种模式,将该模式对应的单峰话语特征fm输入到GRU的模型中,其中m∈{A,V,T},将所述GRU模型的隐藏层输出数据Fmt作为提取的情境感知单峰特征,
其中,双峰特征向量定义为
Figure FDA0004102913060000014
Figure FDA0004102913060000015
Figure FDA0004102913060000016
Figure FDA0004102913060000021
为t时刻的声学和视觉特征组合的双峰特征;
Figure FDA0004102913060000022
为t时刻的声学和文本特征组合的双峰特征;
Figure FDA0004102913060000023
为t时刻的视觉和文本特征组合的双峰特征,
D表示双峰特征向量中的元素数,
将双峰特征向量输入到GRU的模型中,将所述GRU模型的隐藏层输出数据Fmt作为提取的情境感知双峰特征,其中,三模式特征向量的定义如下:
fVAT=(fVAT1,fVAT2,...,fVATN)
其中,fVAT是声学、视觉和文本特征融合的三模式特征,
将三模式特征向量输入到GRU的模型中,将所述GRU模型的隐藏层输出数据Fmt作为提取的情境感知三模式特征,其中,采用GRU来建立上下文模型,
其公式如下:
zm=σ(fmtUmz+sm(t-1)Wmz)
rm=σ(fmtUmr+sm(t-1)Wmr)
hmt=tanh(fmtUmh+(sm(t-1)*rm)Wmh)
Fmt=tanh(hmtUmx+umx)
smt=(1-zm)*Fmt+zm*sm(t-1)
其中,m∈{A,V,T},A代表声学、V代表视觉、T代表文字,m代表单峰话语特征所属的模式;
zm是更新门,控制加入多少候选隐藏层hmt的信息;
rm是重置门,用来计算候选隐藏层hmt,控制保留多少前一时刻隐藏层sm(t-1)的信息;
hmt是候选隐藏层;
Umz、Wmz、Umr、Wmr、Umh、Wmh、Umx均为权值矩阵;
umx为偏置;
fmt是t时刻的输入数据;
sm(t-1)是t-1时刻隐藏层神经元的激活值;
o表示sigmoid激活函数;
tanh是激活函数;
smt是t时刻隐藏层神经元的激活值;
Fmt是隐藏层输出数据。
2.根据权利要求1所述的多模式情绪识别方法,其特征在于,
应用GRU提取情境感知单峰特征、提取情境感知双峰特征、情境感知三模式特征后,均利用分类器softmax进行分类训练,softmax分类器的公式如下:
P=softmax(WsoftmaxFmt+bsoftmax)
Figure FDA0004102913060000031
其中,Wsoftmax是分类器的权重;
bsoftmax是分类器的偏置;
Fmt是情境感知单峰特征;
Figure FDA0004102913060000032
是softmax的函数输出;
argmax取满足P[j]为最大值的j值;
j为分类的类别。
3.根据权利要求2所述的多模式情绪识别方法,其特征在于,损失函数的公式如下:
Figure FDA0004102913060000033
Figure FDA0004102913060000034
其中,
N是样本数;
i是当前样本;
j是当前类别;
C是分类的类别数量;
J为所有样本i的交叉熵的平均值;
yij是要拟合的目标变量。
4.根据权利要求1所述的多模式情绪识别方法,其特征在于,
如果情境感知单峰特征是不同的维度,使用由相应长度的空矢量表示的虚拟话语填充,将他们映射为相同的维度D,其公式如下:
gA=tanh(FAWA+bA)
gV=tanh(FVWV+bV)
gT=tanh(FTWT+bT)
其中,WA、bA、WV、bV、WT、bT为权重;
FA是音频模式的情境感知单峰特征;
FV是视频模式的情境感知单峰特征;
FT是文本模式的情境感知单峰特征;
gA是维度为D的声学特征;
gV是维度为D的视觉特征;
gT是维度为D的文本特征。
5.根据权利要求1所述的多模式情绪识别方法,其特征在于,
全连接层将情境感知双峰特征连接为情境感知三模式特征的公式如下:
Figure FDA0004102913060000041
其中,
Figure FDA0004102913060000042
是视频模式、音频模式的情境感知双峰特征;
Figure FDA0004102913060000043
是音频模式、文本模式的情境感知双峰特征;
Figure FDA0004102913060000044
是视频模式、文本模式的情境感知双峰特征;
Figure FDA0004102913060000045
是权重矩阵;
Figure FDA0004102913060000046
是偏置系数。
6.一种电子装置,其特征在于,所述电子装置包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的多模式情绪识别程序,所述多模式情绪识别程序被所述处理器执行时实现如下步骤:
分别获得视频中的音频模式、视频模式和文本模式的话语的单峰特征,使用GRU建立上下文模型,从音频模式、视频模式和文本模式的单峰特征中分别提取情境感知单峰特征,所述情境感知单峰特征包含与情感分类相关属性的抽象特征;
使用全连接层两两连接音频模式、视频模式和文本模式的情境感知单峰特征的组成的每个双峰组合,从而产生融合的双峰特征向量,使用GRU建立上下文模型,从所述双峰特征向量中提取情境感知双峰特征;
使用全连接层将这些情境感知双峰特征组合成三模式特征向量,并使用GRU建立上下文模型,进一步提取情境感知三模式特征,
其中,单峰特征如下:
Figure FDA0004102913060000051
声学特征;
Figure FDA0004102913060000052
视觉特征;
Figure FDA0004102913060000053
文本特征,
N代表该段视频R中话语的最大数量;
dA表示每个片段中提取的所有声学特征;
dV表示每个片段中提取的所有视觉特征;
dT表示每个片段中提取的所有文本特征,
对于每种模式,将该模式对应的单峰话语特征fm输入到GRU的模型中,其中m∈{A,V,T},将所述GRU模型的隐藏层输出数据Fmt作为提取的情境感知单峰特征,
其中,双峰特征向量定义为
Figure FDA0004102913060000054
Figure FDA0004102913060000055
Figure FDA0004102913060000056
Figure FDA0004102913060000057
为t时刻的声学和视觉特征组合的双峰特征;
Figure FDA0004102913060000058
为t时刻的声学和文本特征组合的双峰特征;
Figure FDA0004102913060000061
为t时刻的视觉和文本特征组合的双峰特征,
D表示双峰特征向量中的元素数,
将双峰特征向量输入到GRU的模型中,将所述GRU模型的隐藏层输出数据Fmt作为提取的情境感知双峰特征,其中,三模式特征向量的定义如下:
fVAT=(fVAT1,fVAT2,...,fVATN)
其中,fVAT是声学、视觉和文本特征融合的三模式特征,
将三模式特征向量输入到GRU的模型中,将所述GRU模型的隐藏层输出数据Fmt作为提取的情境感知三模式特征,
采用GRU来建立上下文模型,其公式如下:
zm=σ(fmtUmz+sm(t-1)Wmz)
rm=σ(fmtUmr+sm(t-1)Wmr)
hmt=tanh(fmtUmh+(sm(t-1)*rm)Wmh)
Fmt=tanh(hmtUmx+umx)
smt=(1-zm)*Fmt+zm*sm(t-1)
其中,m∈{A,V,T},A代表声学、V代表视觉、T代表文字;
zm是更新门,控制加入多少候选隐藏层hmt的信息;
rm是重置门,用来计算候选隐藏层hmt,控制保留多少前一时刻隐藏层sm(t-1)的信息;
hmt是候选隐藏层;
Umz、Wmz、Umr、Wmr、Umh、Wmh、Umx均为权值矩阵;
umx为偏置;
fmt是t时刻的输入数据;
sm(t-1)是t-1时刻隐藏层神经元的激活值;
σ表示sigmoid激活函数;
tanh是激活函数;
smt是t时刻隐藏层神经元的激活值;
Fmt是隐藏层输出数据。
7.根据权利要求6所述的电子装置,其特征在于,
应用GRU提取情境感知单峰特征、提取情境感知双峰特征、情境感知三模式特征后,均利用分类器softmax进行分类训练,softmax分类器的公式如下:
P=softmax(WsoftmaxFmt+bsoftmax)
Figure FDA0004102913060000071
其中,Wsoftmax是分类器的权重;
bsoftmax是分类器的偏置;
Fmt是隐藏层输出数据;
Figure FDA0004102913060000072
是softmax的函数输出;
argmax取满足P[j]为最大值的j值;
j为分类的类别。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括多模式情绪识别程序,所述多模式情绪识别程序被处理器执行时,实现如权利要求1至5中任一项所述的多模式情绪识别方法的步骤。
CN201811151831.3A 2018-09-29 2018-09-29 一种多模式情绪识别方法、装置及计算机可读存储介质 Active CN109447129B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811151831.3A CN109447129B (zh) 2018-09-29 2018-09-29 一种多模式情绪识别方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811151831.3A CN109447129B (zh) 2018-09-29 2018-09-29 一种多模式情绪识别方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109447129A CN109447129A (zh) 2019-03-08
CN109447129B true CN109447129B (zh) 2023-04-18

Family

ID=65545889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811151831.3A Active CN109447129B (zh) 2018-09-29 2018-09-29 一种多模式情绪识别方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109447129B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418254A (zh) * 2019-08-20 2021-02-26 北京易真学思教育科技有限公司 情感识别方法、装置、设备及存储介质
CN110991427B (zh) * 2019-12-25 2023-07-14 北京百度网讯科技有限公司 用于视频的情绪识别方法、装置和计算机设备
CN112329746B (zh) * 2021-01-04 2021-04-16 中国科学院自动化研究所 多模态谎言检测方法、装置、设备
CN113806586B (zh) * 2021-11-18 2022-03-15 腾讯科技(深圳)有限公司 数据处理方法、计算机设备以及可读存储介质
CN117636426A (zh) * 2023-11-20 2024-03-01 北京理工大学珠海学院 一种基于注意力机制的面部和情景情感识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228977A (zh) * 2016-08-02 2016-12-14 合肥工业大学 基于深度学习的多模态融合的歌曲情感识别方法
CN106847309A (zh) * 2017-01-09 2017-06-13 华南理工大学 一种语音情感识别方法
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107609572A (zh) * 2017-08-15 2018-01-19 中国科学院自动化研究所 基于神经网络和迁移学习的多模态情感识别方法、系统
CN108595601A (zh) * 2018-04-20 2018-09-28 福州大学 一种融入Attention机制的长文本情感分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228977A (zh) * 2016-08-02 2016-12-14 合肥工业大学 基于深度学习的多模态融合的歌曲情感识别方法
CN106847309A (zh) * 2017-01-09 2017-06-13 华南理工大学 一种语音情感识别方法
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107609572A (zh) * 2017-08-15 2018-01-19 中国科学院自动化研究所 基于神经网络和迁移学习的多模态情感识别方法、系统
CN108595601A (zh) * 2018-04-20 2018-09-28 福州大学 一种融入Attention机制的长文本情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Ye Jiayin 等.Multimodal emotion recognition based on deep neural network.Journal of Southeast University(English Edition).2017,第33卷(第4期),全文. *

Also Published As

Publication number Publication date
CN109447129A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN109447129B (zh) 一种多模式情绪识别方法、装置及计算机可读存储介质
JP7193252B2 (ja) 画像の領域のキャプション付加
EP3467723B1 (en) Machine learning based network model construction method and apparatus
CN110785767B (zh) 紧凑的无语言面部表情嵌入和新颖三元组的训练方案
CN107807914A (zh) 情感倾向的识别方法、对象分类方法及数据处理系统
US11334791B2 (en) Learning to search deep network architectures
CN113994341A (zh) 面部行为分析
CN112101042B (zh) 文本情绪识别方法、装置、终端设备和存储介质
KR102584900B1 (ko) 얼굴 이미지 검색을 통한 가상 인물 생성 시스템 및 방법
CN114021524B (zh) 一种情感识别方法、装置、设备及可读存储介质
CN110705489B (zh) 目标识别网络的训练方法、装置、计算机设备和存储介质
Xiao et al. Multi-sensor data fusion for sign language recognition based on dynamic Bayesian network and convolutional neural network
CN113656587B (zh) 文本分类方法、装置、电子设备及存储介质
CN111310068A (zh) 基于动态图的社交网络节点分类方法
CN109614611B (zh) 一种融合生成非对抗网络与卷积神经网络的情感分析方法
CN114741507B (zh) 基于Transformer的图卷积网络的引文网络分类模型建立及分类
CN112364236A (zh) 目标对象推荐系统、方法、装置、数据处理方法及装置
CN113626610A (zh) 知识图谱嵌入方法、装置、计算机设备和存储介质
CN114861859A (zh) 神经网络模型的训练方法、数据处理方法及装置
CN115879508A (zh) 一种数据处理方法及相关装置
CN114970526A (zh) 一种文本意图理解的连续学习方法和系统
CN114428860A (zh) 院前急救病例文本的识别方法、装置、终端及存储介质
CN114676692A (zh) 一种评论语句特定目标关键词情感分析方法及系统
EP4030347A1 (en) Neural network building method and device, and image processing method and device
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant