CN107609572B

CN107609572B - 基于神经网络和迁移学习的多模态情感识别方法、系统

Info

Publication number: CN107609572B
Application number: CN201710698379.1A
Authority: CN
Inventors: 陶建华; 黄健; 李雅
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2017-08-15
Filing date: 2017-08-15
Publication date: 2021-04-02
Anticipated expiration: 2037-08-15
Also published as: CN107609572A

Abstract

本发明涉及多模态情感计算领域，提出了一种基于神经网络和迁移学习的多模态情感识别方法、系统，旨在解决情感数据难以获取且标注困难，使得相应识别模型不能够充分训练，造成多模态情感识别准确率不能满足需求的问题，该方法基于大规模数据训练深度神经网络并通过迁移学习获取音频特征提取器、视频特征提取器，进而对多模态情感数据进行音频特征、视频特征的提取，从而识别各语音情感类别的概率、各视频情感类别的概率，并通概率值判断最终情感类别。该方法可以有效的融合音视频两个模态，提高了多模态情感识别的准确率。

Description

基于神经网络和迁移学习的多模态情感识别方法、系统

技术领域

本发明属于多模态情感计算领域，具体地涉及一种基于神经网络和迁移学习的多模态情感识别方法、系统。

背景技术

情感计算就是试图赋予机器类人的观察、理解和生成各种情感的能力，其研究目的是探索和理解情感在生物体重所扮演的角色，并提出相应的模型和方法来建立起机器的情感能力，增强其自治性、适应能力和社交能力。情感计算是有表现力的人机交互和人工智能领域重点关注的研究方向，涉及到智能科学、数学、神经学、生理科学等多个领域。

情感识别主要包括特征提取和分类器分类两个步骤。情感特征目前没有统一的标准，只是将相关的特征组合在一起。语音情感特征(即音频特征)通常使用韵律、频谱和音质特征，视频情感特征(即视频特征)则是借用图像识别中的LBP、HOG、SIFT等，并且还会依据不同的场景不同的数据库差异巨大，因此阻碍了情感识别的发展。对于分类器部分，传统的分类器隐马尔可夫链(HMM)、随机森林和支持向量机(SVM)都得到了很好的应用，特别是SVM在小数据集上能取得较好的效果。随着深度神经网络在语音识别和图像识别领域取得的巨大成功，深度神经网路在情感计算领域也得到了应用和发展，并取得了不错的效果。但是，由于情感数据难以获取且标注困难，因此情感数据库的规模往往受到限制，这就导致了在训练深度神经网络的时候网络训练不够充分，无法实现在具有大数据优势的语音识别和图像识别领域的优良性能。

人类通过语音和图像等多模态可以表达情感状态，并且各个模态之间互补。因此，情感识别可以充分利用多模态信息来增加其正确率。但是如何有效地进行多模态融合也是具有挑战性的问题。目前主要有两种方式，一种是特征层融合，就是提取各个模态的特征，然后组合成特征向量送入到分类器进行分类，但是会存在各个模态的采样率不匹配和高维度特征的问题；二是决策层融合，就是分别提取各个模态的特征分别送入到分类器中进行识别，最后对各个模态识别的结果进行融合得到最终的结果，但是这是假设各个模态独立，无法对多模态进行充分地利用。因此，情感识别需要探索更为有效的融合方式。

发明内容

为了解决现有技术中的上述问题，即为了解决情感数据难以获取且标注困难，使得相应识别模型不能够充分训练，造成多模态情感识别准确率不能满足需求的问题，本发明的一方面，提出了一种基于神经网络和迁移学习的多模态情感识别方法，包括以下步骤：

步骤S1，基于录入的多模态情感数据，分别利用音频特征提取器、视频特征提取器对应提取音频特征、视频特征；

步骤S2，分别基于所述音频特征、所述视频特征，识别各语音情感类别的概率、各视频情感类别的概率；

步骤S3，进行语音情感类别概率差值与视频情感类别概率差值的比较，若所述语音情感类别概率差值大于等于所述视频情感类别概率差值，则选择语音情感类别中概率值最大的类别为最终情感类别，否则选择视频情感类别中概率值最大的类别为最终情感类别；

其中，

所述音频特征提取器，基于大规模的语音识别数据训练的深度神经网络，通过迁移学习获取；

所述视频特征提取器，基于大规模的人脸数据训练的深度神经网络，通过迁移学习获取；

所述语音情感类别概率差值为所述各语音情感类别的概率中最大两个概率值的差值；

所述视频情感类别概率差值为所述各视频情感类别的概率中最大两个概率值的差值。

优选地，步骤S2中所述各语音情感类别的概率、和/或所述各视频情感类别的概率的识别，所利用的识别模型为深度递归神经网络，其计算公式为：

y_t＝f_out(W_hyh_t+b_y)

h_t＝f_act(W_mhm_t+W_hhh_t-1+b_h)

其中，m_t为音频特征向量或者视频特征向量，h_t为隐含层向量，y_t为输出向量，f_act为隐含层的激励函数，f_out为输出层的激励函数，W_mh为输入层与隐含层的系数，W_hh为隐含层与隐含层间的系数，W_hy是隐含层与输出层间的系数，b_y为输出层偏差，b_h为隐含层偏差。

优选地，步骤S3中所述最终情感类别，其识别公式为：

其中，

为语音情感识别模块识别结果中最高的概率值，且分类结果为i；

为语音情感识别模块识别结果中第二的概率值，且分类结果为j；

视频情感识别模块识别结果中最高的概率值，且分类结果为m；

为视频情感识别模块识别结果中第二的概率值，且分类结果为n；l为最终情感类别。

优选地，所述视频特征提取器，其获取过程中所采用的深度神经网络为深度递归神经网络。

本发明的另一方面，提出了一种基于神经网络和迁移学习的多模态情感识别系统，包括语音特征提取模块、视频特征提取模块、语音情感识别模块、视频情感识别模块、音视频融合模块；

所述语音特征提取模块，配置为通过音频特征提取器提取输入语音的音频特征；

所述视频特征提取模块，配置为通过视频特征提取器提取输入视频的视频特征；

所述语音情感识别模块，配置为利用所述语音特征提取模块输出的音频特征识别各语音情感类别的概率；

所述视频情感识别模块，配置为利用所述视频特征提取模块输出的视频特征识别各视频情感类别的概率；

所述音视频融合模块，配置为进行语音情感类别概率差值与视频情感类别概率差值的比较，若所述语音情感类别概率差值大于等于所述视频情感类别概率差值，则选择语音情感类别中概率值最大的类别为最终情感类别，否则选择视频情感类别中概率值最大的类别为最终情感类别；

其中，

优选地，该系统还包括语音迁移学习模块、视频迁移学习模块；

所述语音迁移学习模块，配置为基于大规模的语音识别数据训练的深度神经网络，通过迁移学习获取所述音频特征提取器；

所述视频迁移学习模块，配置为基于大规模的人脸数据训练的深度神经网络，通过迁移学习获取所述视频特征提取器。

优选地，所述各语音情感类别的概率、和/或所述各视频情感类别的概率的识别，所利用的识别模型为深度递归神经网络，其计算公式为：

y_t＝f_out(W_hyh_t+b_y)

h_t＝f_act(W_mhm_t+W_hhh_t-1+b_h)

优选地，所述最终情感类别，其识别公式为：

其中，

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于神经网络和迁移学习的多模态情感识别方法。

本发明的第四方面，提出了一种处理装置，包括

处理器，适于执行各条程序；以及

存储设备，适于存储多条程序；

所述程序适于由处理器加载并执行以实现：

上述的基于神经网络和迁移学习的多模态情感识别方法。

从上述技术方案可以看出，本发明具有以下有益效果：

(1)本发明中，通过利用大规模的语音识别数据训练深度神经网络，迁移学习当作音频特征提取器提取鲁棒的高层音频情感特征，相比于传统的语音情感特征有助于语音情感识别模块的训练；

(2)本发明中，通过利用大规模的人脸数据训练深度卷积神经网络，迁移学习当作视频特征提取器提取鲁棒的高层视频情感特征，相比于传统的视频情感特征有助于视频情感识别模块的训练；

(3)本发明中，在语音情感识别模块和视频情感识别模块中采用深度递归神经网络，对情感的时序特征进行建模，有效利用其动态过程中的上下文信息进行情感状态识别；

(4)本发明中，在音视频融合模块，比较语音情感识别模块识别结果的前两个概率值之差与视频情感识别模块识别结果的前两个概率值之差，取较大的概率差值对应的识别结果，有效的融合音视频两个模态，提高了多模态情感识别的准确率。

附图说明

图1是本发明实施例基于神经网络和迁移学习的多模态情感识别方法的流程示意图；

图2是本发明实施例基于神经网络和迁移学习的多模态情感识别系统的框架示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明基于神经网络和迁移学习的多模态情感识别方法中，利用迁移学习通过语音识别大数据训练深度神经网络并迁移学习得到语音特征提取器，利用迁移学习通过人脸大数据训练深度卷积神经网络并迁移学习得到视频特征提取器，提取到的音频特征和视频特征分别送入到语音情感识别和视频情感识别，最终对得到的两个模态的结果进行音视频融合，有效地提高了多模态情感识别的准确率。

本发明的一种实施例的基于神经网络和迁移学习的多模态情感识别方法，如图1所示，包括以下步骤：

步骤S3，进行语音情感类别概率差值与视频情感类别概率差值的比较，若所述语音情感类别概率差值大于等于所述视频情感类别概率差值，则选择语音情感类别中概率值最大的类别为最终情感类别，否则选择视频情感类别中概率值最大的类别为最终情感类别。

本实施例中的音频特征提取器，基于大规模的语音识别数据训练的深度神经网络，通过迁移学习获取。具体描述如下：首先定义一个深度神经网络，用大规模的语音识别数据训练此深度神经网络，将训练好的深度神经网络当作音频特征提取器，在使用时，可以将语音wav文件输入到此训练好的深度神经网络得到音频情感特征。这个思路应用到了迁移学习的思路。

本实施例中的视频特征提取器，基于大规模的人脸数据训练的深度神经网络，通过迁移学习获取。具体描述如下：首先定义一个深度递归神经网络，用大规模的人脸数据训练此深度递归神经网络，将训练好的深度递归神经网络当作视频特征提取器，在使用时，可以将从视频中得到的图片输入到此训练好的深度递归神经网络得到视频情感特征。这个思路应用到了迁移学习的思路。因为在语音识别和人脸识别任务不同，所以选用不同的深度神经网络。

本实施例中的语音情感类别概率差值为所述各语音情感类别的概率中最大两个概率值的差值。

本实施例中的视频情感类别概率差值为所述各视频情感类别的概率中最大两个概率值的差值。

本实施例中的步骤S2中，各语音情感类别的概率、所述各视频情感类别的概率的识别，所利用的识别模型均可以采用深度递归神经网络，其计算如公式(1)、(2)所示：

y_t＝f_out(W_hyh_t+b_y) (1)

h_t＝f_act(W_mhm_t+W_hhh_t-1+b_h) (2)

本实施例的步骤S3中，最终情感类别的识别通过公式(3)来进行判断：

其中，

为视频情感识别模块识别结果中第二的概率值，且分类结果为n；l为最终情感类别。融合时，比较语音情感识别模块识别结果的前两个概率值之差与视频情感识别模块识别结果的前两个概率值之差，取较大的概率差值对应的识别结果，有效的融合音视频两个模态，提高了多模态情感识别的准确率。

本实施例中，视频特征提取器的获取过程中所采用的深度神经网络为深度递归神经网络。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

本发明的基于神经网络和迁移学习的多模态情感识别系统，其主要的构成为语音特征提取模块、视频特征提取模块、语音情感识别模块、视频情感识别模块、音视频融合模块，还可以包括语音迁移学习模块、视频迁移学习模块。为了更好的对本发明的基于神经网络和迁移学习的多模态情感识别系统进行描述，通过包含完整构架的系统进行展开描述，如图2所示，包括语音迁移学习模块1、视频迁移学习模块2、语音特征提取模块3、视频特征提取模块4、语音情感识别模块5、视频情感识别模块6、音视频融合模块7。

所述语音迁移学习模块1与语音特征提取模块3相连接，为语音特征提取模块3提供音频特征提取器；所述视频迁移学习模块2与视频特征提取模块4相连接，为视频特征提取模块4提供视频特征提取器；所述语音特征提取模块3设置有输入语音的端口，其输出与语音情感识别模块5相连接；所述视频特征提取模块4设置有输入视频的端口，其输出与视频情感识别模块6相连接；语音情感识别模块5与视频情感识别模块6的输出端分别与音视频融合模块7的输入端相连接，将识别结果输送至音视频融合模块7进行处理，并通过其输出端输出结果作为所识别的最终情感类别。情感种类共有七类，分别为生气(angry)，恶心(disgust)，恐惧(fear)，高兴(happy)，悲伤(sad)，惊喜(surprise)和中性(neutral),最终情感类别为其中之一。

语音迁移学习模块1，配置为基于大规模的语音识别数据训练的深度神经网络，通过迁移学习获取所述音频特征提取器。具体描述为：采用深度神经网络模型，并且利用大规模的语音识别数据来进行训练，将训练好的网络当作音频特征提取器，并提供给语音特征提取模块3。

语音特征提取模块3配置为通过音频特征提取器提取输入语音的音频特征。具体描述为：将语音文件分帧送入语音特征提取模块3，通过语音特征提取模块3中的音频特征提取器提取鲁棒的高层音频特征(语音情感特征)。

视频迁移学习模块2，配置为基于大规模的人脸数据训练的深度神经网络，通过迁移学习获取所述视频特征提取器。具体描述为：采用深度递归神经网络模型，并且利用大规模的人脸数据库来进行训练，将训练好的网络当作视频情感特征提取器，并提供给视频特征提取模块4。

视频特征提取模块4配置为通过视频特征提取器提取输入视频的视频特征。具体描述为：提取视频中的人脸图片送入视频特征提取模块4，通过视频特征提取模块4中的视频情感特征提取器提取鲁棒的高层视频特征(即视频情感特征)。

语音情感识别模块5，配置为利用所述语音特征提取模块3输出的音频特征识别各语音情感类别的概率；视频情感识别模块6，配置为利用所述视频特征提取模块4输出的视频特征识别各视频情感类别的概率；各语音情感类别的概率、所述各视频情感类别的概率的识别，所利用的识别模型均可以采用深度递归神经网络，其计算如公式(1)、(2)所示。

音视频融合模块7，配置为进行语音情感类别概率差值与视频情感类别概率差值的比较，若所述语音情感类别概率差值大于等于所述视频情感类别概率差值，则选择语音情感类别中概率值最大的类别为最终情感类别，否则选择视频情感类别中概率值最大的类别为最终情感类别；最终情感类别的识别通过公式(3)来进行判断。

视频特征提取器的获取过程中所采用的深度神经网络为深度递归神经网络。

本发明一种实施例的存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于神经网络和迁移学习的多模态情感识别方法。

本发明一种实施例的处理装置，包括处理器、存储设备；处理器，适于执行各条程序；存储设备，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于神经网络和迁移学习的多模态情感识别方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、单元及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。