CN109447129B

CN109447129B - 一种多模式情绪识别方法、装置及计算机可读存储介质

Info

Publication number: CN109447129B
Application number: CN201811151831.3A
Authority: CN
Inventors: 贾雪丽; 王全; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2023-04-18
Anticipated expiration: 2038-09-29
Also published as: CN109447129A

Abstract

本方案涉及人工智能，提供了一种多模式情绪识别方法、装置及计算机可读存储介质，多模式情绪识别方法包括：分别获得视频中的音频模式、视频模式和文本模式的话语的单峰特征，用RNN建立上下文模型，从音频模式、视频模式和文本模式的单峰特征中分别提取情境感知单峰特征；用全连接层连接音频模式、视频模式和文本模式的情境感知单峰特征，产生融合的双峰特征向量，用RNN建立上下文模型，从双峰特征向量中提取情境感知双峰特征；用全连接层将这些情境感知双峰特征组合成三模式特征向量，用RNN建立上下文模型，进一步提取情境感知三模式特征。本发明能更加准确的提高的提取出可用于情感分类的特征向量。

Description

一种多模式情绪识别方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，具体地说，涉及一种多模式情绪识别方法、装置及计算机可读存储介质。

背景技术

由于社交平台与视频媒体等形式的数据增加，人们在这些平台上交流意见。通过从这些视频评论中提取用户的意见，建议和投诉他们的产品，这对于大公司来说是一个很好的机会。这些信息还开启了新视野，通过根据其他用户的经验和意见对我们购买的产品，我们使用的服务，访问的地点或我们观看的电影作出明智的决策，提高我们的生活质量。因此对于多模式数据的情绪识别技术要求应运而生。这个过程中一个最主要的问题是关于多模式的特征融合。因此，多模态情绪分析中的大多数近期成果简单地将不同模态的特征向量连接起来。但是，这种过分简单的方法存在的问题是，它不能过滤掉从不同模式获得的冲突或冗余信息，也就无法避免不同的模式可能会带来冲突的信息。

发明内容

为解决现有技术存在的不足，本发明提供一种图像数据异步传输方法、装置及计算机可读存储介质，采用单峰特征融合为双峰特征，然后从双峰特征再融合为三峰特征的方法，并且，采用RNN(循环神经网络)来提高特征向量的质量，从而能够过滤掉从不同模式获得的冲突或冗余信息，获得的特征向量对于情感分类任务更准确。

提供一种多模式情绪识别方法，应用于电子装置，该方法包括：分别获得视频中的音频模式、视频模式和文本模式的话语的单峰特征，使用RNN建立上下文模型，从音频模式、视频模式和文本模式的单峰特征中分别提取情境感知单峰特征，所述情境感知单峰特征包含与情感分类相关属性的抽象特征；使用全连接层连接音频模式、视频模式和文本模式的情境感知单峰特征，从而产生融合的双峰特征向量，使用RNN建立上下文模型，从所述双峰特征向量中提取情境感知双峰特征；使用全连接层将这些情境感知双峰特征组合成三模式特征向量，并使用RNN建立上下文模型，进一步提取情境感知三模式特征。

还提供一种电子装置，所述电子装置包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的多模式情绪识别程序，所述多模式情绪识别程序被所述处理器执行时实现如下步骤：分别获得视频中的音频模式、视频模式和文本模式的话语的单峰特征，使用RNN建立上下文模型，从音频模式、视频模式和文本模式的单峰特征中分别提取情境感知单峰特征，所述情境感知单峰特征包含与情感分类相关属性的抽象特征；使用全连接层连接音频模式、视频模式和文本模式的情境感知单峰特征的组成的每个双峰组合，从而产生融合的双峰特征向量，使用RNN建立上下文模型，从所述双峰特征向量中提取情境感知双峰特征；使用全连接层将这些情境感知双峰特征组合成三模式特征向量，并使用RNN建立上下文模型，进一步提取情境感知三模式特征。

还提供一种计算机可读存储介质，所述计算机可读存储介质中包括多模式情绪识别程序，所述多模式情绪识别程序被处理器执行时，实现如上所述的多模式情绪识别方法的步骤。

本发明先将情境感知单峰特征融合成情境感知双峰特征，然后从情境感知双峰特征再融合为情境感知三模式特征，并且，在提取情境感知单峰特征、情境感知双峰特征、情境感知三模式特征的过程中均采用GRU(门控循环单元)建立上下文模型，利用上下文信息来提高特征向量提取的质量，使用softmax分类器进行分类训练，利用损失函数控制分类训练，能够更加准确的提高的提取出可用于情感分类的特征向量。

附图说明

通过结合下面附图对其实施例进行描述，本发明的上述特征和技术优点将会变得更加清楚和容易理解。

图1是表示本发明实施例的多模式情绪识别方法的流程图；

图2是表示本发明实施例的电子装置的硬件架构示意图；

图3是表示本发明实施例的多模式情绪识别程序的模块构成图。

具体实施方式

下面将参考附图来描述本发明所述的多模式情绪识别方法、装置及存储介质的实施例。本领域的普通技术人员可以认识到，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式或其组合对所描述的实施例进行修正。因此，附图和描述在本质上是说明性的，而不是用于限制权利要求的保护范围。此外，在本说明书中，附图未按比例画出，并且相同的附图标记表示相同的部分。

一种多模式情绪识别方法，如图1所示，包括以下步骤：

步骤S10，分别获得视频中的音频模式、视频模式和文本模式的话语的单峰特征，使用RNN建立上下文模型，从音频模式、视频模式和文本模式的单峰特征中分别提取情境感知单峰特征，所述情境感知单峰特征包含与情感分类相关属性的抽象特征；

步骤S30，使用全连接层连接音频模式、视频模式和文本模式的情境感知单峰特征，从而产生融合的双峰特征向量，使用RNN建立上下文模型，从所述双峰特征向量中提取情境感知双峰特征；

步骤S50，使用全连接层将这些情境感知双峰特征组合成三模式特征向量，并使用RNN建立上下文模型，进一步提取情境感知三模式特征。

优选地，在步骤S10、步骤S30、步骤S50中均可以采用RNN中的GRU(门控循环单元)来建立上下文模型，视频中的话语在语义上是相互依赖的。也就是说，上下文建模可以通过考虑预先考虑的话语来确定话语的完整含义，这称为话语的背景。采用GRU来模拟视频中话语之间的语义依赖，能够有助于提取情境感知的特征向量。

对于一段视频R来说，其中包含有分别属于音频模式声学特征、属于视频模式的视觉特征和属于文本模式的文本特征。下面定义如下：

单峰特征如下：

声学特征；

视觉特征；

文本特征。

N代表该段视频R中话语的最大数量，即该段视频根据话语数量切割为N个片段，每个片段为一个话语，例如，我今天哭了，可以划分出“我”、“今天”、“哭了”这些话语。

d_A表示每个片段中提取的所有声学特征；

d_V表示每个片段中提取的所有视觉特征；

d_T表示每个片段中提取的所有文本特征。

对于每种模式，将该模式对应的单峰话语特征f_m(其中m∈{A，V，T})输入到GRU的模型中，其公式如下：

z_m＝σ(f_mtU^mz+s_m(t-1)W^mz)

r_m＝σ(f_mtU^mr+s_m(t-1)W^mr)

h_mt＝tanh(f_mtU^mh+(s_m(t-1)*r_m)W^mh)

F_mt＝tanh(h_mtU^mx+u^mx)

s_mt＝(1-z_m)*F_mt+z_m*s_m(t-1)

其中，m∈{A，V，T}，A代表声学、V代表视觉、T代表文字，m代表单峰话语特征所属的模式；

z_m是更新门，控制加入多少候选隐藏层h_mt的信息；

r_m是重置门，用来计算候选隐藏层h_mt，控制保留多少前一时刻隐藏层s_m(t-1)的信息；

h_mt是候选隐藏层；

U、W为权值矩阵；

f_mt是t时刻的输入数据；

s_m(t-1)是t-1时刻隐藏层神经元的激活值；

σ表示sigmoid激活函数；

tanh是激活函数；

s_mt是t时刻隐藏层神经元的激活值；

F_mt是隐藏层输出数据。

其中，z_m是更新门，是t时刻的输入f_mt、上一时刻隐藏层s_m(t-1)分别和权重矩阵U、W相乘，再将这两部分结果相加后放入sigmoid激活函数中，将结果压缩在0～1之间。更新门能够决定上一层隐藏层状态中有多少信息传递到当前隐藏层中，或者说前一时刻和当前时刻的信息有多少需要继续传递的。当z_m越接近0，则说明上一层隐藏状态的某个信息在该隐藏层被遗忘，接近1则说明某个信息在该隐藏层继续保留。

r_m是和更新门的运算操作类似，只是权重矩阵不同。重置门是决定上一时刻隐藏状态的信息中有多少是需要被遗忘的。当该值接近于0，则说明上一时刻某个信息在当前记忆内容中被遗忘，接近于1则说明在当前记忆内容中继续保留。

h_mt除了和更新门、重置门一样与权重矩阵U、W相乘之外，还计算重置门结果r_m和s_m(t-1)进行Hadamard(哈达马矩阵)乘积，即对应元素相乘。因为r_m是由0到1的向量组成的，因此，进行Hadamard乘积可以使用重置门决定在当前记忆内容中要遗忘多少上一时刻隐藏状态的内容，乘积的值接近于0说明该信息被遗忘，接近于1则保留该信息。最后再将这两部分信息相加放入tanh激活函数中，将结果缩放到-1到1中。

最后计算s_mt向量，该向量将保留当前单元的信息并传递到下一个单元中。使用更新门决定上一个时刻的s_m(t-1)中多少信息在此时刻隐藏单元s_mt需要保留，并且，通过1-z_m表示那些需要遗忘的信息，用此时刻的记忆内容中相应的内容进行更新。这样更新门就决定了分别需要在当前时刻的记忆内容和上一时刻隐藏层的信息收集哪些内容。

进一步地，应用GRU提取情境感知单峰特征、情境感知双峰特征、情境感知三模式特征后，均利用分类器softmax进行分类训练，以提高GRU建立的上下文模型提取抽象特征的能力。分类器用于对大量的视频片段中的情绪(例如哀伤、高兴、兴奋、痛哭)进行识别并分类，类别例如可以是包括开心、难过等，从而进行训练。

softmax分类器的公式如下：

P=softmax(W_softmaxF_mt+b_softmax)

其中，W_softmax是分类器的权重；

b_softmax是分类器的偏置；

F_mt是情境感知单峰特征；

是softmax的函数输出；

argmax取满足P[j]为最大值的j值；

j为分类的类别。

softmax函数对应情境感知单峰特征进行分类，把各特征分类到不同的类别中，采用不同的权值W_softmax、b_softmax计算各情境感知单峰特征分类到各类别中的概率P。例如把“愤怒”特征分类到“高兴”、“难过”等类别中，分别计算“愤怒”分类到“高兴”、“难过”等类别中的概率，而argmax函数则是选取使得P[j]值最大时对应的类别j，即将分类时被分到的概率最高的类别挑选出来。对应各个特征都分别挑选出被分到概率最高的类别j，从而精确的获取分类的类别。

进一步地，损失函数的公式如下：

其中，

N是样本数；

i是当前样本；

j是当前类别；

C是分类的类别数量；

J为所有样本i的交叉熵的平均值；

y_ij是要拟合的目标变量。

P_i[j]是softmax的输出向量P的第j个值，表示的是这个样本i属于第j个类别的概率。j的范围是0到类别数C-1，y_ij是一个1*C的向量，其中只有1个值是1，即样本i对应预期类别值j的那个值是1，其他都是0。所有样本i其对应预期类别值的概率的总和除以N(即所有样本i的交叉熵的平均值)。通过计算损失函数，控制模型W_softmax、偏置b_softmax，经过不断的训练，获得最优的权值W_softmax、偏置b_softmax。

通过以上GRU建立上下文模型，产生的隐藏输出数据F_mt作为每个模态(音频，视频和文本)的情境感知单峰特征。因此，定义F_m＝GRU_m(f_m)，其中

因此，上下文感知获取的情境感知单峰特征可以被定义为：

F_A＝GRU_A(f_A)

F_V＝GRU_V(f_V)

F_T＝GRU_T(f_T)

以上是以获取情境感知单峰特征为例进行说明。实际上，在利用GRU建立上下文模型提取情境感知单峰特征、情境感知双峰特征、情境感知三模式特征的过程中，均可以采用以上Softmax分类器和损失函数来提高特征提取的准确度。

在双模式融合中，视频音频、音频文本、视频文本的双模融合功能定义为

其中，f_VA是声学和视觉特征组合的情境感知双峰特征；

f_AT是声学和文本特征组合的情境感知双峰特征；

f_VT是视觉和文本特征组合的情境感知双峰特征；

为t时刻的声学和视觉特征组合的情境感知双峰特征；

为t时刻的声学和文本特征组合的情境感知双峰特征；

为t时刻的视觉和文本特征组合的情境感知双峰特征。

双模式融合后再使用GRU建模获取情境感知双峰特征，其公式如下：

其中，

为包含有上下文信息的声学和视觉特征组合的情境感知双峰特征；

是包含有上下文信息的声学和文本特征组合的情境感知双峰特征；

是包含有上下文信息的视觉和文本特征组合的情境感知双峰特征。

在三模式融合中，采用tanh激活函数将各情境感知双峰特征进行全连接，全连接层的每一个输出都可以看成前一层的每一个结点乘以一个权重系数W，加上一个偏置值b，其公式如下：

其中，

为权重；

为偏置；

z_lt为全连接层的输出，是将各情境感知双峰特征的数据映射到-1到1上。

三模式融合的定义如下：

f_VAT＝(f_VAT1，f_VAT2，...，f_VATN)

其中，f_VAT是声学、视觉和文本特征融合的三模式特征；

在三模式融合之后，我们通过GRU_AVT传递融合的情境感知三模式特征，以将语境信息纳入其中，从而产生

F_VAT＝(F_VAT1，F_VAT2，...，F_VATN)＝GRU_VAT(f_VAT)

其中，F_VAT是包含有上下文信息的情境感知三模式特征。

优选地，如果各个片段对应的话语的长度不同，如果情境感知单峰特征是不同的维度，可以使用由相应长度的空矢量表示的虚拟话语填充较短的视频，将他们映射为相同维度D，其公式如下：

g_A=tanh(F_AW_A+b_A)

g_V=tanh(F_VW_V+b_V)

g_T＝tanh(F_TW_T+b_T)

其中，W_A、b_A、W_V、b_V、W_T、b_T为权重；

g_A是维度为D的声学特征；

g_V是维度为D的视觉特征；

g_T是维度为D的文本特征。

图2所示是本发明电子装置1的硬件架构示意图。所述电子装置1是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。所述电子装置1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云，其中云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

在本实施例中，电子装置1可包括，但不仅限于，可通过系统总线相互通信连接的存储器13、处理器14、显示器15。需要指出的是，图2仅示出了具有部分组件的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，主存储器13包括内存及至少一种类型的可读存储介质。内存为电子装置1的运行提供缓存；可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中，可读存储介质可以是电子装置1的内部存储单元，例如该电子装置1的硬盘；在另一些实施例中，该非易失性存储介质也可以是电子装置1的外部存储设备，例如电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card)，安全数字(Secure Digital)卡，闪存卡(Flash Card)等。本实施例中，存储器13的可读存储介质通常用于存储安装于电子装置1的操作系统和各类应用软件，例如本实施例中的多模式情绪识别程序代码等。此外，存储器13还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器14用于运行所述存储器13中存储的程序代码或者处理数据。

另外，电子装置1还包括网络接口，所述网络接口可包括无线网络接口或有线网络接口，该网络接口通常用于在所述电子装置1与其他电子设备之间建立通信连接。

多模式情绪识别程序存储在存储器13中，包括至少一个存储在存储器13中的计算机可读指令，该至少一个计算机可读指令可被处理器执行，以实现本申请各实施例的方法；以及，该至少一个计算机可读指令依据其各部分所实现的功能不同，可被划为不同的逻辑模块。

在一个实施例中，上述多模式情绪识别程序被所述处理器14执行时实现如下步骤：

图3所示为多模式情绪识别程序50的程序模块图。在本实施例中，多模式情绪识别程序50被分割为多个模块，该多个模块被存储于存储器13中，并由处理器14执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。

所述多模式情绪识别程序50可以被分割为：情境感知单峰特征提取模块501、情境感知双峰特征提取模块502、情境感知三模式特征提取模块503、分类模块504、损失计算模块505。

其中，情境感知单峰特征提取模块501用于分别从视频模式、文本模式、音频模式中提取出情境感知单峰特征，对于一段视频R来说，其中包含有分别属于音频模式声学特征、属于视频模式的视觉特征和属于文本模式的

文本特征。下面定义如下：

单峰特征如下：

声学特征；

视觉特征；

文本特征。

d_A表示每个片段中提取的所有声学特征；

d_V表示每个片段中提取的所有视觉特征；

d_T表示每个片段中提取的所有文本特征。

z_m＝σ(f_mtU^mz+s_m(t-1)W^mz)

r_m＝σ(f_mtU^mr+S_m(t-1)W^mr)

h_mt＝tanh(f_mtU^mh+(s_m(t-1)*r_m)W^mh)

F_mt＝tanh(h_mtU^mx+u^mx)

s_mt＝(1-z_m)*F_mt+z_m*s_m(t-1)

z_m是更新门，控制加入多少候选隐藏层h_mt的信息；

h_mt是候选隐藏层；

U、W为权值矩阵；

f_mt是t时刻的输入数据；

s_m(t-1)是t-1时刻隐藏层神经元的激活值；

σ表示sigmoid激活函数；

tanh是激活函数；

s_mt是t时刻隐藏层神经元的激活值；

F_mt是隐藏层输出数据。

进一步地，应用GRU提取情境感知单峰特征、情境感知双峰特征、情境感知三模式特征后，分类模块504均利用分类器softmax进行分类训练，以提高GRU建立的上下文模型提取抽象特征的能力。分类器用于对大量的视频片段中的情绪(例如哀伤、高兴、兴奋、痛哭)进行识别并分类，类别例如可以是包括开心、难过等，从而进行训练。

分类器用于对大量的视频片段中的情绪(例如哀伤、高兴、兴奋、痛哭)进行识别并分类，类别例如可以是包括开心、难过等，从而进行训练。

softmax分类器的公式如下：

P=softmax(W_softmaxF_mt+b_softmax)

其中，W_softmax是分类器的权重；

b_softmax是分类器的偏置；

F_mt是情境感知单峰特征；

是softmax的函数输出；

argmax取满足P[j]为最大值的j值；

j为分类的类别。

进一步地，损失计算模块505利用损失函数计算分类的准确程度，损失函数的公式如下：

其中，

N是样本数；

i是当前样本；

j是当前类别；

C是分类的类别数量；

J为所有样本i的交叉熵的平均值；

y_ij是要拟合的目标变量。

因此，上下文感知获取的情境感知单峰特征可以被定义为：

F_A＝GRU_A(f_A)

F_V＝GRU_V(f_V)

F_T＝GRU_T(f_T)

以上是以获取情境感知单峰特征为例进行说明。实际上，在情境感知双峰特征提取模块502提取了情境感知双峰特征后，也同样可以采用以上Softmax分类器和损失函数来提高特征提取的准确度。在情境感知三模式特征提取模块503提取了情境感知三模式特征后，也同样可以采用以上Softmax分类器和损失函数来提高特征提取的准确度。

其中，f_VA是声学和视觉特征组合的情境感知双峰特征；

f_AT是声学和文本特征组合的情境感知双峰特征；

f_VT是视觉和文本特征组合的情境感知双峰特征；

为t时刻的声学和视觉特征组合的情境感知双峰特征；

为t时刻的声学和文本特征组合的情境感知双峰特征；

为t时刻的视觉和文本特征组合的情境感知双峰特征。

其中，

其中，

为权重；

为偏置；

三模式融合的定义如下：

f_VAT＝(f_VAT1，f_VAT2，…，f_VATN)

其中，f_VAT是声学、视觉和文本特征融合的三模式特征；

F_VAT＝(F_VAT1，F_VAT2，...，F_VATN)＝GRU_VAT(f_VAT)

其中，F_VAT是包含有上下文信息的情境感知三模式特征。

g_A＝tanh(F_AW_A+b_A)

g_V＝tanh(F_VW_V+b_V)

g_T＝tanh(F_TW_T+b_T)

其中，W_A、b_A、W_V、b_V、W_T、b_T为权重；

g_A是维度为D的声学特征；

g_V是维度为D的视觉特征；

g_T是维度为D的文本特征。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多模式情绪识别方法，应用于电子装置，其特征在于，该方法包括：

分别获得视频中的音频模式、视频模式和文本模式的话语的单峰特征，使用GRU建立上下文模型，从音频模式、视频模式和文本模式的单峰特征中分别提取情境感知单峰特征，所述情境感知单峰特征包含与情感分类相关属性的抽象特征；

使用全连接层两两连接音频模式、视频模式和文本模式的情境感知单峰特征，从而产生融合的双峰特征向量，使用GRU建立上下文模型，从所述双峰特征向量中提取情境感知双峰特征；

使用全连接层将这些情境感知双峰特征组合成三模式特征向量，并使用GRU建立上下文模型，进一步提取情境感知三模式特征，其中，单峰特征如下：

声学特征；

视觉特征；

文本特征，

N代表该段视频R中话语的最大数量；

d_A表示每个片段中提取的所有声学特征；

d_V表示每个片段中提取的所有视觉特征；

d_T表示每个片段中提取的所有文本特征，

对于每种模式，将该模式对应的单峰话语特征f_m输入到GRU的模型中，其中m∈{A，V，T}，将所述GRU模型的隐藏层输出数据F_mt作为提取的情境感知单峰特征，

其中，双峰特征向量定义为

为t时刻的声学和视觉特征组合的双峰特征；

为t时刻的声学和文本特征组合的双峰特征；

为t时刻的视觉和文本特征组合的双峰特征，

D表示双峰特征向量中的元素数，

将双峰特征向量输入到GRU的模型中，将所述GRU模型的隐藏层输出数据F_mt作为提取的情境感知双峰特征，其中，三模式特征向量的定义如下：

f_VAT＝(f_VAT1，f_VAT2，...，f_VATN)

其中，f_VAT是声学、视觉和文本特征融合的三模式特征，

将三模式特征向量输入到GRU的模型中，将所述GRU模型的隐藏层输出数据F_mt作为提取的情境感知三模式特征，其中，采用GRU来建立上下文模型，

其公式如下：

z_m＝σ(f_mtU^mz+s_m(t-1)W^mz)

r_m＝σ(f_mtU^mr+s_m(t-1)W^mr)

h_mt＝tanh(f_mtU^mh+(s_m(t-1)*r_m)W^mh)

F_mt＝tanh(h_mtU^mx+u^mx)

s_mt＝(1-z_m)*F_mt+z_m*s_m(t-1)

z_m是更新门，控制加入多少候选隐藏层h_mt的信息；

h_mt是候选隐藏层；

U^mz、W^mz、U^mr、W^mr、U^mh、W^mh、U^mx均为权值矩阵；

u^mx为偏置；

f_mt是t时刻的输入数据；

s_m(t-1)是t-1时刻隐藏层神经元的激活值；

o表示sigmoid激活函数；

tanh是激活函数；

s_mt是t时刻隐藏层神经元的激活值；

F_mt是隐藏层输出数据。

2.根据权利要求1所述的多模式情绪识别方法，其特征在于，

应用GRU提取情境感知单峰特征、提取情境感知双峰特征、情境感知三模式特征后，均利用分类器softmax进行分类训练，softmax分类器的公式如下：

P＝softmax(W_softmaxF_mt+b_softmax)

其中，W_softmax是分类器的权重；

b_softmax是分类器的偏置；

F_mt是情境感知单峰特征；

是softmax的函数输出；

argmax取满足P[j]为最大值的j值；

j为分类的类别。

3.根据权利要求2所述的多模式情绪识别方法，其特征在于，损失函数的公式如下：

其中，

N是样本数；

i是当前样本；

j是当前类别；

C是分类的类别数量；

J为所有样本i的交叉熵的平均值；

y_ij是要拟合的目标变量。

4.根据权利要求1所述的多模式情绪识别方法，其特征在于，

如果情境感知单峰特征是不同的维度，使用由相应长度的空矢量表示的虚拟话语填充，将他们映射为相同的维度D，其公式如下：

g_A＝tanh(F_AW_A+b_A)

g_V＝tanh(F_VW_V+b_V)

g_T＝tanh(F_TW_T+b_T)

其中，W_A、b_A、W_V、b_V、W_T、b_T为权重；

F_A是音频模式的情境感知单峰特征；

F_V是视频模式的情境感知单峰特征；

F_T是文本模式的情境感知单峰特征；

g_A是维度为D的声学特征；

g_V是维度为D的视觉特征；

g_T是维度为D的文本特征。

5.根据权利要求1所述的多模式情绪识别方法，其特征在于，

全连接层将情境感知双峰特征连接为情境感知三模式特征的公式如下：

其中，

是视频模式、音频模式的情境感知双峰特征；

是音频模式、文本模式的情境感知双峰特征；

是视频模式、文本模式的情境感知双峰特征；

是权重矩阵；

是偏置系数。

6.一种电子装置，其特征在于，所述电子装置包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的多模式情绪识别程序，所述多模式情绪识别程序被所述处理器执行时实现如下步骤：

使用全连接层两两连接音频模式、视频模式和文本模式的情境感知单峰特征的组成的每个双峰组合，从而产生融合的双峰特征向量，使用GRU建立上下文模型，从所述双峰特征向量中提取情境感知双峰特征；

使用全连接层将这些情境感知双峰特征组合成三模式特征向量，并使用GRU建立上下文模型，进一步提取情境感知三模式特征，

其中，单峰特征如下：

声学特征；

视觉特征；

文本特征，

N代表该段视频R中话语的最大数量；

d_A表示每个片段中提取的所有声学特征；

d_V表示每个片段中提取的所有视觉特征；

d_T表示每个片段中提取的所有文本特征，

其中，双峰特征向量定义为

为t时刻的声学和视觉特征组合的双峰特征；

为t时刻的声学和文本特征组合的双峰特征；

为t时刻的视觉和文本特征组合的双峰特征，

D表示双峰特征向量中的元素数，

f_VAT＝(f_VAT1，f_VAT2，...，f_VATN)

其中，f_VAT是声学、视觉和文本特征融合的三模式特征，

将三模式特征向量输入到GRU的模型中，将所述GRU模型的隐藏层输出数据F_mt作为提取的情境感知三模式特征，

采用GRU来建立上下文模型，其公式如下：

z_m＝σ(f_mtU^mz+s_m(t-1)W^mz)

r_m＝σ(f_mtU^mr+s_m(t-1)W^mr)

h_mt＝tanh(f_mtU^mh+(s_m(t-1)*r_m)W^mh)

F_mt＝tanh(h_mtU^mx+u^mx)

s_mt＝(1-z_m)*F_mt+z_m*s_m(t-1)

其中，m∈{A，V，T}，A代表声学、V代表视觉、T代表文字；

z_m是更新门，控制加入多少候选隐藏层h_mt的信息；

h_mt是候选隐藏层；

U^mz、W^mz、U^mr、W^mr、U^mh、W^mh、U^mx均为权值矩阵；

u^mx为偏置；

f_mt是t时刻的输入数据；

s_m(t-1)是t-1时刻隐藏层神经元的激活值；

σ表示sigmoid激活函数；

tanh是激活函数；

s_mt是t时刻隐藏层神经元的激活值；

F_mt是隐藏层输出数据。

7.根据权利要求6所述的电子装置，其特征在于，

P＝softmax(W_softmaxF_mt+b_softmax)

其中，W_softmax是分类器的权重；

b_softmax是分类器的偏置；

F_mt是隐藏层输出数据；

是softmax的函数输出；

argmax取满足P[j]为最大值的j值；

j为分类的类别。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括多模式情绪识别程序，所述多模式情绪识别程序被处理器执行时，实现如权利要求1至5中任一项所述的多模式情绪识别方法的步骤。