CN107609572B - 基于神经网络和迁移学习的多模态情感识别方法、系统 - Google Patents

基于神经网络和迁移学习的多模态情感识别方法、系统 Download PDF

Info

Publication number
CN107609572B
CN107609572B CN201710698379.1A CN201710698379A CN107609572B CN 107609572 B CN107609572 B CN 107609572B CN 201710698379 A CN201710698379 A CN 201710698379A CN 107609572 B CN107609572 B CN 107609572B
Authority
CN
China
Prior art keywords
emotion
video
voice
probability
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710698379.1A
Other languages
English (en)
Other versions
CN107609572A (zh
Inventor
陶建华
黄健
李雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201710698379.1A priority Critical patent/CN107609572B/zh
Publication of CN107609572A publication Critical patent/CN107609572A/zh
Application granted granted Critical
Publication of CN107609572B publication Critical patent/CN107609572B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及多模态情感计算领域,提出了一种基于神经网络和迁移学习的多模态情感识别方法、系统,旨在解决情感数据难以获取且标注困难,使得相应识别模型不能够充分训练,造成多模态情感识别准确率不能满足需求的问题,该方法基于大规模数据训练深度神经网络并通过迁移学习获取音频特征提取器、视频特征提取器,进而对多模态情感数据进行音频特征、视频特征的提取,从而识别各语音情感类别的概率、各视频情感类别的概率,并通概率值判断最终情感类别。该方法可以有效的融合音视频两个模态,提高了多模态情感识别的准确率。

Description

基于神经网络和迁移学习的多模态情感识别方法、系统
技术领域
本发明属于多模态情感计算领域,具体地涉及一种基于神经网络和迁移学习的多模态情感识别方法、系统。
背景技术
情感计算就是试图赋予机器类人的观察、理解和生成各种情感的能力,其研究目的是探索和理解情感在生物体重所扮演的角色,并提出相应的模型和方法来建立起机器的情感能力,增强其自治性、适应能力和社交能力。情感计算是有表现力的人机交互和人工智能领域重点关注的研究方向,涉及到智能科学、数学、神经学、生理科学等多个领域。
情感识别主要包括特征提取和分类器分类两个步骤。情感特征目前没有统一的标准,只是将相关的特征组合在一起。语音情感特征(即音频特征)通常使用韵律、频谱和音质特征,视频情感特征(即视频特征)则是借用图像识别中的LBP、HOG、SIFT等,并且还会依据不同的场景不同的数据库差异巨大,因此阻碍了情感识别的发展。对于分类器部分,传统的分类器隐马尔可夫链(HMM)、随机森林和支持向量机(SVM)都得到了很好的应用,特别是SVM在小数据集上能取得较好的效果。随着深度神经网络在语音识别和图像识别领域取得的巨大成功,深度神经网路在情感计算领域也得到了应用和发展,并取得了不错的效果。但是,由于情感数据难以获取且标注困难,因此情感数据库的规模往往受到限制,这就导致了在训练深度神经网络的时候网络训练不够充分,无法实现在具有大数据优势的语音识别和图像识别领域的优良性能。
人类通过语音和图像等多模态可以表达情感状态,并且各个模态之间互补。因此,情感识别可以充分利用多模态信息来增加其正确率。但是如何有效地进行多模态融合也是具有挑战性的问题。目前主要有两种方式,一种是特征层融合,就是提取各个模态的特征,然后组合成特征向量送入到分类器进行分类,但是会存在各个模态的采样率不匹配和高维度特征的问题;二是决策层融合,就是分别提取各个模态的特征分别送入到分类器中进行识别,最后对各个模态识别的结果进行融合得到最终的结果,但是这是假设各个模态独立,无法对多模态进行充分地利用。因此,情感识别需要探索更为有效的融合方式。
发明内容
为了解决现有技术中的上述问题,即为了解决情感数据难以获取且标注困难,使得相应识别模型不能够充分训练,造成多模态情感识别准确率不能满足需求的问题,本发明的一方面,提出了一种基于神经网络和迁移学习的多模态情感识别方法,包括以下步骤:
步骤S1,基于录入的多模态情感数据,分别利用音频特征提取器、视频特征提取器对应提取音频特征、视频特征;
步骤S2,分别基于所述音频特征、所述视频特征,识别各语音情感类别的概率、各视频情感类别的概率;
步骤S3,进行语音情感类别概率差值与视频情感类别概率差值的比较,若所述语音情感类别概率差值大于等于所述视频情感类别概率差值,则选择语音情感类别中概率值最大的类别为最终情感类别,否则选择视频情感类别中概率值最大的类别为最终情感类别;
其中,
所述音频特征提取器,基于大规模的语音识别数据训练的深度神经网络,通过迁移学习获取;
所述视频特征提取器,基于大规模的人脸数据训练的深度神经网络,通过迁移学习获取;
所述语音情感类别概率差值为所述各语音情感类别的概率中最大两个概率值的差值;
所述视频情感类别概率差值为所述各视频情感类别的概率中最大两个概率值的差值。
优选地,步骤S2中所述各语音情感类别的概率、和/或所述各视频情感类别的概率的识别,所利用的识别模型为深度递归神经网络,其计算公式为:
yt=fout(Whyht+by)
ht=fact(Wmhmt+Whhht-1+bh)
其中,mt为音频特征向量或者视频特征向量,ht为隐含层向量,yt为输出向量,fact为隐含层的激励函数,fout为输出层的激励函数,Wmh为输入层与隐含层的系数,Whh为隐含层与隐含层间的系数,Why是隐含层与输出层间的系数,by为输出层偏差,bh为隐含层偏差。
优选地,步骤S3中所述最终情感类别,其识别公式为:
Figure BDA0001379732300000031
其中,
Figure BDA0001379732300000032
为语音情感识别模块识别结果中最高的概率值,且分类结果为i;
Figure BDA0001379732300000033
为语音情感识别模块识别结果中第二的概率值,且分类结果为j;
Figure BDA0001379732300000034
视频情感识别模块识别结果中最高的概率值,且分类结果为m;
Figure BDA0001379732300000035
为视频情感识别模块识别结果中第二的概率值,且分类结果为n;l为最终情感类别。
优选地,所述视频特征提取器,其获取过程中所采用的深度神经网络为深度递归神经网络。
本发明的另一方面,提出了一种基于神经网络和迁移学习的多模态情感识别系统,包括语音特征提取模块、视频特征提取模块、语音情感识别模块、视频情感识别模块、音视频融合模块;
所述语音特征提取模块,配置为通过音频特征提取器提取输入语音的音频特征;
所述视频特征提取模块,配置为通过视频特征提取器提取输入视频的视频特征;
所述语音情感识别模块,配置为利用所述语音特征提取模块输出的音频特征识别各语音情感类别的概率;
所述视频情感识别模块,配置为利用所述视频特征提取模块输出的视频特征识别各视频情感类别的概率;
所述音视频融合模块,配置为进行语音情感类别概率差值与视频情感类别概率差值的比较,若所述语音情感类别概率差值大于等于所述视频情感类别概率差值,则选择语音情感类别中概率值最大的类别为最终情感类别,否则选择视频情感类别中概率值最大的类别为最终情感类别;
其中,
所述音频特征提取器,基于大规模的语音识别数据训练的深度神经网络,通过迁移学习获取;
所述视频特征提取器,基于大规模的人脸数据训练的深度神经网络,通过迁移学习获取;
所述语音情感类别概率差值为所述各语音情感类别的概率中最大两个概率值的差值;
所述视频情感类别概率差值为所述各视频情感类别的概率中最大两个概率值的差值。
优选地,该系统还包括语音迁移学习模块、视频迁移学习模块;
所述语音迁移学习模块,配置为基于大规模的语音识别数据训练的深度神经网络,通过迁移学习获取所述音频特征提取器;
所述视频迁移学习模块,配置为基于大规模的人脸数据训练的深度神经网络,通过迁移学习获取所述视频特征提取器。
优选地,所述各语音情感类别的概率、和/或所述各视频情感类别的概率的识别,所利用的识别模型为深度递归神经网络,其计算公式为:
yt=fout(Whyht+by)
ht=fact(Wmhmt+Whhht-1+bh)
其中,mt为音频特征向量或者视频特征向量,ht为隐含层向量,yt为输出向量,fact为隐含层的激励函数,fout为输出层的激励函数,Wmh为输入层与隐含层的系数,Whh为隐含层与隐含层间的系数,Why是隐含层与输出层间的系数,by为输出层偏差,bh为隐含层偏差。
优选地,所述最终情感类别,其识别公式为:
Figure BDA0001379732300000051
其中,
Figure BDA0001379732300000052
为语音情感识别模块识别结果中最高的概率值,且分类结果为i;
Figure BDA0001379732300000053
为语音情感识别模块识别结果中第二的概率值,且分类结果为j;
Figure BDA0001379732300000054
视频情感识别模块识别结果中最高的概率值,且分类结果为m;
Figure BDA0001379732300000055
为视频情感识别模块识别结果中第二的概率值,且分类结果为n;l为最终情感类别。
优选地,所述视频特征提取器,其获取过程中所采用的深度神经网络为深度递归神经网络。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于神经网络和迁移学习的多模态情感识别方法。
本发明的第四方面,提出了一种处理装置,包括
处理器,适于执行各条程序;以及
存储设备,适于存储多条程序;
所述程序适于由处理器加载并执行以实现:
上述的基于神经网络和迁移学习的多模态情感识别方法。
从上述技术方案可以看出,本发明具有以下有益效果:
(1)本发明中,通过利用大规模的语音识别数据训练深度神经网络,迁移学习当作音频特征提取器提取鲁棒的高层音频情感特征,相比于传统的语音情感特征有助于语音情感识别模块的训练;
(2)本发明中,通过利用大规模的人脸数据训练深度卷积神经网络,迁移学习当作视频特征提取器提取鲁棒的高层视频情感特征,相比于传统的视频情感特征有助于视频情感识别模块的训练;
(3)本发明中,在语音情感识别模块和视频情感识别模块中采用深度递归神经网络,对情感的时序特征进行建模,有效利用其动态过程中的上下文信息进行情感状态识别;
(4)本发明中,在音视频融合模块,比较语音情感识别模块识别结果的前两个概率值之差与视频情感识别模块识别结果的前两个概率值之差,取较大的概率差值对应的识别结果,有效的融合音视频两个模态,提高了多模态情感识别的准确率。
附图说明
图1是本发明实施例基于神经网络和迁移学习的多模态情感识别方法的流程示意图;
图2是本发明实施例基于神经网络和迁移学习的多模态情感识别系统的框架示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明基于神经网络和迁移学习的多模态情感识别方法中,利用迁移学习通过语音识别大数据训练深度神经网络并迁移学习得到语音特征提取器,利用迁移学习通过人脸大数据训练深度卷积神经网络并迁移学习得到视频特征提取器,提取到的音频特征和视频特征分别送入到语音情感识别和视频情感识别,最终对得到的两个模态的结果进行音视频融合,有效地提高了多模态情感识别的准确率。
本发明的一种实施例的基于神经网络和迁移学习的多模态情感识别方法,如图1所示,包括以下步骤:
步骤S1,基于录入的多模态情感数据,分别利用音频特征提取器、视频特征提取器对应提取音频特征、视频特征;
步骤S2,分别基于所述音频特征、所述视频特征,识别各语音情感类别的概率、各视频情感类别的概率;
步骤S3,进行语音情感类别概率差值与视频情感类别概率差值的比较,若所述语音情感类别概率差值大于等于所述视频情感类别概率差值,则选择语音情感类别中概率值最大的类别为最终情感类别,否则选择视频情感类别中概率值最大的类别为最终情感类别。
本实施例中的音频特征提取器,基于大规模的语音识别数据训练的深度神经网络,通过迁移学习获取。具体描述如下:首先定义一个深度神经网络,用大规模的语音识别数据训练此深度神经网络,将训练好的深度神经网络当作音频特征提取器,在使用时,可以将语音wav文件输入到此训练好的深度神经网络得到音频情感特征。这个思路应用到了迁移学习的思路。
本实施例中的视频特征提取器,基于大规模的人脸数据训练的深度神经网络,通过迁移学习获取。具体描述如下:首先定义一个深度递归神经网络,用大规模的人脸数据训练此深度递归神经网络,将训练好的深度递归神经网络当作视频特征提取器,在使用时,可以将从视频中得到的图片输入到此训练好的深度递归神经网络得到视频情感特征。这个思路应用到了迁移学习的思路。因为在语音识别和人脸识别任务不同,所以选用不同的深度神经网络。
本实施例中的语音情感类别概率差值为所述各语音情感类别的概率中最大两个概率值的差值。
本实施例中的视频情感类别概率差值为所述各视频情感类别的概率中最大两个概率值的差值。
本实施例中的步骤S2中,各语音情感类别的概率、所述各视频情感类别的概率的识别,所利用的识别模型均可以采用深度递归神经网络,其计算如公式(1)、(2)所示:
yt=fout(Whyht+by) (1)
ht=fact(Wmhmt+Whhht-1+bh) (2)
其中,mt为音频特征向量或者视频特征向量,ht为隐含层向量,yt为输出向量,fact为隐含层的激励函数,fout为输出层的激励函数,Wmh为输入层与隐含层的系数,Whh为隐含层与隐含层间的系数,Why是隐含层与输出层间的系数,by为输出层偏差,bh为隐含层偏差。
本实施例的步骤S3中,最终情感类别的识别通过公式(3)来进行判断:
Figure BDA0001379732300000091
其中,
Figure BDA0001379732300000092
为语音情感识别模块识别结果中最高的概率值,且分类结果为i;
Figure BDA0001379732300000093
为语音情感识别模块识别结果中第二的概率值,且分类结果为j;
Figure BDA0001379732300000094
视频情感识别模块识别结果中最高的概率值,且分类结果为m;
Figure BDA0001379732300000095
为视频情感识别模块识别结果中第二的概率值,且分类结果为n;l为最终情感类别。融合时,比较语音情感识别模块识别结果的前两个概率值之差与视频情感识别模块识别结果的前两个概率值之差,取较大的概率差值对应的识别结果,有效的融合音视频两个模态,提高了多模态情感识别的准确率。
本实施例中,视频特征提取器的获取过程中所采用的深度神经网络为深度递归神经网络。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
本发明的基于神经网络和迁移学习的多模态情感识别系统,其主要的构成为语音特征提取模块、视频特征提取模块、语音情感识别模块、视频情感识别模块、音视频融合模块,还可以包括语音迁移学习模块、视频迁移学习模块。为了更好的对本发明的基于神经网络和迁移学习的多模态情感识别系统进行描述,通过包含完整构架的系统进行展开描述,如图2所示,包括语音迁移学习模块1、视频迁移学习模块2、语音特征提取模块3、视频特征提取模块4、语音情感识别模块5、视频情感识别模块6、音视频融合模块7。
所述语音迁移学习模块1与语音特征提取模块3相连接,为语音特征提取模块3提供音频特征提取器;所述视频迁移学习模块2与视频特征提取模块4相连接,为视频特征提取模块4提供视频特征提取器;所述语音特征提取模块3设置有输入语音的端口,其输出与语音情感识别模块5相连接;所述视频特征提取模块4设置有输入视频的端口,其输出与视频情感识别模块6相连接;语音情感识别模块5与视频情感识别模块6的输出端分别与音视频融合模块7的输入端相连接,将识别结果输送至音视频融合模块7进行处理,并通过其输出端输出结果作为所识别的最终情感类别。情感种类共有七类,分别为生气(angry),恶心(disgust),恐惧(fear),高兴(happy),悲伤(sad),惊喜(surprise)和中性(neutral),最终情感类别为其中之一。
语音迁移学习模块1,配置为基于大规模的语音识别数据训练的深度神经网络,通过迁移学习获取所述音频特征提取器。具体描述为:采用深度神经网络模型,并且利用大规模的语音识别数据来进行训练,将训练好的网络当作音频特征提取器,并提供给语音特征提取模块3。
语音特征提取模块3配置为通过音频特征提取器提取输入语音的音频特征。具体描述为:将语音文件分帧送入语音特征提取模块3,通过语音特征提取模块3中的音频特征提取器提取鲁棒的高层音频特征(语音情感特征)。
视频迁移学习模块2,配置为基于大规模的人脸数据训练的深度神经网络,通过迁移学习获取所述视频特征提取器。具体描述为:采用深度递归神经网络模型,并且利用大规模的人脸数据库来进行训练,将训练好的网络当作视频情感特征提取器,并提供给视频特征提取模块4。
视频特征提取模块4配置为通过视频特征提取器提取输入视频的视频特征。具体描述为:提取视频中的人脸图片送入视频特征提取模块4,通过视频特征提取模块4中的视频情感特征提取器提取鲁棒的高层视频特征(即视频情感特征)。
语音情感识别模块5,配置为利用所述语音特征提取模块3输出的音频特征识别各语音情感类别的概率;视频情感识别模块6,配置为利用所述视频特征提取模块4输出的视频特征识别各视频情感类别的概率;各语音情感类别的概率、所述各视频情感类别的概率的识别,所利用的识别模型均可以采用深度递归神经网络,其计算如公式(1)、(2)所示。
音视频融合模块7,配置为进行语音情感类别概率差值与视频情感类别概率差值的比较,若所述语音情感类别概率差值大于等于所述视频情感类别概率差值,则选择语音情感类别中概率值最大的类别为最终情感类别,否则选择视频情感类别中概率值最大的类别为最终情感类别;最终情感类别的识别通过公式(3)来进行判断。
视频特征提取器的获取过程中所采用的深度神经网络为深度递归神经网络。
本发明一种实施例的存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于神经网络和迁移学习的多模态情感识别方法。
本发明一种实施例的处理装置,包括处理器、存储设备;处理器,适于执行各条程序;存储设备,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于神经网络和迁移学习的多模态情感识别方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (4)

1.一种基于神经网络和迁移学习的多模态情感识别方法,其特征在于,包括以下步骤:
步骤S1,基于录入的多模态情感数据,分别利用音频特征提取器、视频特征提取器对应提取音频特征、视频特征;
步骤S2,分别基于所述音频特征、所述视频特征,识别各语音情感类别的概率、各视频情感类别的概率;
步骤S3,进行语音情感类别概率差值与视频情感类别概率差值的比较,若所述语音情感类别概率差值大于等于所述视频情感类别概率差值,则选择语音情感类别中概率值最大的类别为最终情感类别,否则选择视频情感类别中概率值最大的类别为最终情感类别;
其中,
所述音频特征提取器,基于大规模的语音识别数据训练的深度神经网络,通过迁移学习获取;
所述视频特征提取器,基于大规模的人脸数据训练的深度神经网络,通过迁移学习获取;
所述语音情感类别概率差值为所述各语音情感类别的概率中最大两个概率值的差值;
所述视频情感类别概率差值为所述各视频情感类别的概率中最大两个概率值的差值;
其中,音频特征提取器和视频特征提取器选用的深度神经网络均为深度递归神经网络;
其中,步骤S2中所述各语音情感类别的概率、和/或所述各视频情感类别的概率的识别,所利用的识别模型为深度递归神经网络,其计算公式为:
yt=fout(Whyht+by)
ht=fact(Wmhmt+Whhht-1+bh)
其中,mt为音频特征向量或者视频特征向量,ht为隐含层向量,yt为输出向量,fact为隐含层的激励函数,fout为输出层的激励函数,Wmh为输入层与隐含层的系数,Whh为隐含层与隐含层间的系数,Why是隐含层与输出层间的系数,by为输出层偏差,bh为隐含层偏差;
其中,步骤S3中所述最终情感类别,其识别公式为:
Figure FDF0000011529930000021
其中,
Figure FDF0000011529930000022
为语音情感识别模块识别结果中最高的概率值,且分类结果为i;
Figure FDF0000011529930000023
为语音情感识别模块识别结果中第二的概率值,且分类结果为j;
Figure FDF0000011529930000024
视频情感识别模块识别结果中最高的概率值,且分类结果为m;
Figure FDF0000011529930000025
为视频情感识别模块识别结果中第二的概率值,且分类结果为n;l为最终情感类别。
2.一种基于神经网络和迁移学习的多模态情感识别系统,其特征在于,包括语音特征提取模块、视频特征提取模块、语音情感识别模块、视频情感识别模块、音视频融合模块;
所述语音特征提取模块,配置为通过音频特征提取器提取输入语音的音频特征;
所述视频特征提取模块,配置为通过视频特征提取器提取输入视频的视频特征;
所述语音情感识别模块,配置为利用所述语音特征提取模块输出的音频特征识别各语音情感类别的概率;
所述视频情感识别模块,配置为利用所述视频特征提取模块输出的视频特征识别各视频情感类别的概率;
所述音视频融合模块,配置为进行语音情感类别概率差值与视频情感类别概率差值的比较,若所述语音情感类别概率差值大于等于所述视频情感类别概率差值,则选择语音情感类别中概率值最大的类别为最终情感类别,否则选择视频情感类别中概率值最大的类别为最终情感类别;
其中,
所述音频特征提取器,基于大规模的语音识别数据训练的深度神经网络,通过迁移学习获取;
所述视频特征提取器,基于大规模的人脸数据训练的深度神经网络,通过迁移学习获取;
所述语音情感类别概率差值为所述各语音情感类别的概率中最大两个概率值的差值;
所述视频情感类别概率差值为所述各视频情感类别的概率中最大两个概率值的差值;
其中,音频特征提取器和视频特征提取器选用的深度神经网络均为深度递归神经网络;
其中,所述各语音情感类别的概率、和/或所述各视频情感类别的概率的识别,所利用的识别模型为深度递归神经网络,其计算公式为:
yt=fout(Whyht+by)
ht=fact(Wmhmt+Whhht-1+bh)
其中,mt为音频特征向量或者视频特征向量,ht为隐含层向量,yt为输出向量,fact为隐含层的激励函数,fout为输出层的激励函数,Wmh为输入层与隐含层的系数,Whh为隐含层与隐含层间的系数,Why是隐含层与输出层间的系数,by为输出层偏差,bh为隐含层偏差;
其中,所述最终情感类别,其识别公式为:
Figure FDF0000011529930000031
其中,
Figure FDF0000011529930000041
为语音情感识别模块识别结果中最高的概率值,且分类结果为i;
Figure FDF0000011529930000042
为语音情感识别模块识别结果中第二的概率值,且分类结果为j;
Figure FDF0000011529930000043
视频情感识别模块识别结果中最高的概率值,且分类结果为m;
Figure FDF0000011529930000044
为视频情感识别模块识别结果中第二的概率值,且分类结果为n;l为最终情感类别;
其中,该系统还包括语音迁移学习模块、视频迁移学习模块;
所述语音迁移学习模块,用于基于大规模的语音识别数据训练的深度神经网络,通过迁移学习获取所述音频特征提取器;
所述视频迁移学习模块,用于基于大规模的人脸数据训练的深度神经网络,通过迁移学习获取所述视频特征提取器。
3.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1中所述的基于神经网络和迁移学习的多模态情感识别方法。
4.一种处理装置,包括
处理器,适于执行各条程序;以及
存储设备,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1中所述的基于神经网络和迁移学习的多模态情感识别方法。
CN201710698379.1A 2017-08-15 2017-08-15 基于神经网络和迁移学习的多模态情感识别方法、系统 Active CN107609572B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710698379.1A CN107609572B (zh) 2017-08-15 2017-08-15 基于神经网络和迁移学习的多模态情感识别方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710698379.1A CN107609572B (zh) 2017-08-15 2017-08-15 基于神经网络和迁移学习的多模态情感识别方法、系统

Publications (2)

Publication Number Publication Date
CN107609572A CN107609572A (zh) 2018-01-19
CN107609572B true CN107609572B (zh) 2021-04-02

Family

ID=61064979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710698379.1A Active CN107609572B (zh) 2017-08-15 2017-08-15 基于神经网络和迁移学习的多模态情感识别方法、系统

Country Status (1)

Country Link
CN (1) CN107609572B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309327B (zh) * 2018-02-28 2024-10-01 北京搜狗科技发展有限公司 音频生成方法、装置以及用于音频的生成装置
CN108734208B (zh) * 2018-05-15 2020-12-25 重庆大学 基于多模态深度迁移学习机制的多源异构数据融合系统
CN109147826B (zh) * 2018-08-22 2022-12-27 平安科技(深圳)有限公司 音乐情感识别方法、装置、计算机设备及计算机存储介质
CN109242014B (zh) * 2018-08-29 2021-10-22 沈阳康泰电子科技股份有限公司 一种基于多源微特征的深度神经网络心理语义标注方法
CN109389037B (zh) * 2018-08-30 2021-05-11 中国地质大学(武汉) 一种基于深度森林和迁移学习的情感分类方法
CN109447129B (zh) * 2018-09-29 2023-04-18 平安科技(深圳)有限公司 一种多模式情绪识别方法、装置及计算机可读存储介质
CN109615077A (zh) * 2018-10-17 2019-04-12 合肥工业大学 基于对话的情感状态建模和情感迁移方法及装置
CN110188343B (zh) * 2019-04-22 2023-01-31 浙江工业大学 基于融合注意力网络的多模态情感识别方法
CN110401847B (zh) * 2019-07-17 2021-08-06 咪咕文化科技有限公司 云dvr视频的压缩存储方法、电子设备及系统
CN110675859B (zh) * 2019-09-05 2021-11-23 华南理工大学 结合语音与文本的多情感识别方法、系统、介质及设备
CN111292765B (zh) * 2019-11-21 2023-07-28 台州学院 一种融合多个深度学习模型的双模态情感识别方法
CN110801227B (zh) * 2019-12-09 2021-07-20 中国科学院计算技术研究所 基于可穿戴设备的立体色块障碍测试的方法和系统
WO2021134277A1 (zh) * 2019-12-30 2021-07-08 深圳市优必选科技股份有限公司 情感识别方法、智能装置和计算机可读存储介质
CN112347910B (zh) * 2020-11-05 2022-05-31 中国电子科技集团公司第二十九研究所 一种基于多模态深度学习的信号指纹识别方法
CN112418172A (zh) * 2020-12-11 2021-02-26 苏州元启创人工智能科技有限公司 基于多模信息智能处理单元的多模信息融合情感分析方法
CN112633263B (zh) * 2021-03-09 2021-06-08 中国科学院自动化研究所 海量音视频情感识别系统
CN113033450B (zh) * 2021-04-02 2022-06-24 山东大学 多模态连续情感识别方法、服务推理方法及系统
CN113326868B (zh) * 2021-05-06 2022-07-15 南京邮电大学 一种用于多模态情感分类的决策层融合方法
CN113903362B (zh) * 2021-08-26 2023-07-21 电子科技大学 一种基于神经网络的语音情感识别方法
CN114724222B (zh) * 2022-04-14 2024-04-19 康旭科技有限公司 一种基于多模态的ai数字人情感分析方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887721A (zh) * 2010-07-19 2010-11-17 东南大学 一种基于心电信号与语音信号的双模态情感识别方法
CN102930298A (zh) * 2012-09-02 2013-02-13 北京理工大学 基于多层增强hmm的语音-视觉融合的情感识别方法
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN105976809A (zh) * 2016-05-25 2016-09-28 中国地质大学(武汉) 基于语音和面部表情的双模态情感融合的识别方法及系统
CN106019973A (zh) * 2016-07-30 2016-10-12 杨超坤 一种具有情感识别功能的智能家居
CN106250855A (zh) * 2016-08-02 2016-12-21 南京邮电大学 一种基于多核学习的多模态情感识别方法
CN106919251A (zh) * 2017-01-09 2017-07-04 重庆邮电大学 一种基于多模态情感识别的虚拟学习环境自然交互方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887721A (zh) * 2010-07-19 2010-11-17 东南大学 一种基于心电信号与语音信号的双模态情感识别方法
CN102930298A (zh) * 2012-09-02 2013-02-13 北京理工大学 基于多层增强hmm的语音-视觉融合的情感识别方法
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN105976809A (zh) * 2016-05-25 2016-09-28 中国地质大学(武汉) 基于语音和面部表情的双模态情感融合的识别方法及系统
CN106019973A (zh) * 2016-07-30 2016-10-12 杨超坤 一种具有情感识别功能的智能家居
CN106250855A (zh) * 2016-08-02 2016-12-21 南京邮电大学 一种基于多核学习的多模态情感识别方法
CN106919251A (zh) * 2017-01-09 2017-07-04 重庆邮电大学 一种基于多模态情感识别的虚拟学习环境自然交互方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Transfer Learning of Deep Neural Network for Speech Emotion Recognition;Ying Huang et al.;《SpringerLink》;20161231;第1-4节 *
基于语音和人脸的情感识别研究;张石清;《中国博士学位论文全文数据库 信息科技辑》;20130515(第05期);第七章 *

Also Published As

Publication number Publication date
CN107609572A (zh) 2018-01-19

Similar Documents

Publication Publication Date Title
CN107609572B (zh) 基于神经网络和迁移学习的多模态情感识别方法、系统
CN109409222B (zh) 一种基于移动端的多视角人脸表情识别方法
CN110188343B (zh) 基于融合注意力网络的多模态情感识别方法
CN108596039B (zh) 一种基于3d卷积神经网络的双模态情感识别方法及系统
CN110046656B (zh) 基于深度学习的多模态场景识别方法
CN105122279B (zh) 在识别系统中保守地适配深度神经网络
CN111161715B (zh) 一种基于序列分类的特定声音事件检索与定位的方法
CN110427867A (zh) 基于残差注意力机制的面部表情识别方法及系统
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN109165563B (zh) 行人再识别方法和装置、电子设备、存储介质、程序产品
CN112100337B (zh) 交互对话中的情绪识别方法及装置
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN113361636B (zh) 一种图像分类方法、系统、介质及电子设备
CN110047517A (zh) 语音情感识别方法、问答方法及计算机设备
KR20210052036A (ko) 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법
CN116758451A (zh) 基于多尺度和全局交叉注意力的视听情感识别方法及系统
CN108805260A (zh) 一种图说生成方法及装置
CN111462762B (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN111653270A (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN114898775A (zh) 一种基于跨层交叉融合的语音情绪识别方法及系统
CN116935889B (zh) 一种音频类别的确定方法、装置、电子设备及存储介质
CN117852523A (zh) 一种学习鉴别性语义和多视角上下文的跨域小样本关系抽取方法和装置
CN115311595B (zh) 视频特征提取方法、装置及电子设备
CN116312644A (zh) 语音情感分类方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant