CN110717410A

CN110717410A - 语音情感和面部表情双模态识别系统

Info

Publication number: CN110717410A
Application number: CN201910897628.9A
Authority: CN
Inventors: 不公告发明人
Original assignee: Hunan Check Credit Intelligent Technology Co Ltd
Current assignee: Hunan Check Credit Intelligent Technology Co Ltd
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2020-01-21

Abstract

本发明公开了一种语音情感和面部表情双模态识别系统，包括情感数据的输入及其预处理模块、情感特征提取模块以及特征融合情感识别模块；情感数据的输入及其预处理模块，用于选择和建立所使用的情感数据库，根据不同数据库的数据特征以及不同模态数据的特性选择预处理方法；情感特征提取模块，用于表情特征提取和语音特征提取，表情特征包括LBP特征；本发明在保留整体信息完整性情况下，考虑了不同模态特征，不同特征种类间的差异性，增强了特征层融合的性能，在建立大数据和神经网络模型等基础上，通过数据采集和标注建立训练数据库，能快速分析和筛查精神病患者病情。

Description

语音情感和面部表情双模态识别系统

技术领域

本发明涉及心理分析技术领域，更为具体地，涉及一种语音情感和面部表情双模态识别系统。

背景技术

目前精神病属于常见的一种困扰我们人类心理情感体验的疾病，尤其是在我国经济发展速度快，人们生活节奏快的时代，工作一族忙于日常的业务，在个人婚姻问题、小孩抚养与教育问题、老人赡养问题上，不同的环境都有不同的社会问题导致不同精神疾病危害。由于当前人们生活压力大，这就导致了不同年龄阶段的人群，都有不同的实际问题，滋养了精神类疾病的发生。比如，小孩有自闭症、上班因为社会环境不同有抑郁症、精神分裂症(1癫痫所致精神障碍、2精神分裂症、3偏执型精神分裂症、4紧张性精神分裂症、5青春型精神分裂症、6未分化型精神分裂症、7精神分裂症后抑郁)等，老年人有滞呆症，通过我们精神病专家的医学研究表明，不同类精神疾病在常见表情的损益上的表现是不同的。

目前技术不足表现在：

1根据简明精神病评定量表确定对应的心理健康水平，该量表统计分析存在被试者在答题选择时受个人的主观意愿影响，不积极配合调查表做统计分析；

2智能控制终端通过PLC获取心理测试仪的心理测试参数；

3患者诊断根据基于心理状态水平确定当前受检项目通过血液提取，检验分析是否包括阳性项目，分析时间长，效率差等问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种语音情感和面部表情双模态识别系统，在保留整体信息完整性情况下，考虑了不同模态特征，不同特征种类间的差异性，增强了特征层融合的性能，在建立大数据和神经网络模型等基础上，通过数据采集和标注建立训练数据库，能快速分析和筛查精神病患者病情。

本发明的目的是通过以下技术方案来实现的：

一种语音情感和面部表情双模态识别系统，包括：

情感数据的输入及其预处理模块、情感特征提取模块以及特征融合情感识别模块；

所述情感数据的输入及其预处理模块，用于选择和建立所使用的情感数据库，根据不同数据库的数据特征以及不同模态数据的特性选择预处理方法；

所述情感特征提取模块，用于表情特征提取和语音特征提取，所述表情特征包括LBP特征；所述语音特征包括基频特征、短时能量特征、梅尔频率倒谱系数、短时抖动参数、过零率中的一种或多种；

所述特征融合情感识别模块，用于根据特征种类不同进行分类映射，双模态情感特征分为表情特征、语音特征以及表情和语音特征串联而得的串行特征，对每部分特征种类采用不同的核函数进行映射，再通过学习求得每特征种类对应不同的各个核函数前的权重系数；核函数前的权重系数在学习过程中获得，实现多模态情感特征的识别。

进一步的，所述情感数据库包括EmotiW情感数据库。

进一步的，表情图片的预处理包括尺度归一化处理和灰度均衡化处理；尺度归一化中包含人脸检测，归一化人脸裁剪区域，用于将所有的表情样本图片尺度大小进行统一，便于之后的表情特征提取；灰度均衡化，用于将转为灰度图后的表情图片进行直方图均衡化，图像中的各灰度值重新进行均匀分布，用于增强图像的对比度，改善图像的质量。

进一步的，语音的预处理包括加窗分帧，用于保证语音帧与帧之间能够平滑过渡。

进一步的，采用SimpleMKL进行特征融合，对所提取的不同模态特征，分别赋予多个不同的核函数，在学习过程中求得各个核函数前的权重系数。

本发明的有益效果是：

(1)本发明在保留整体信息完整性情况下，考虑了不同模态特征，不同特征种类间的差异性，增强了特征层融合的性能，在建立大数据和神经网络模型等基础上，通过数据采集和标注建立训练数据库，能快速分析和筛查精神病患者病情。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的结构示意图；

图2为本发明的算法流程示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。本说明书中公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

下面将详细描述本发明的具体实施例，应当注意，这里描述的实施例只用于举例说明，并不用于限制本发明。在以下描述中，为了提供对本发明的透彻理解，阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本发明。在其他实例中，为了避免混淆本发明，未具体描述公知的电路，软件或方法。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在对实施例进行描述之前，需要对一些必要的术语进行解释。例如：

若本申请中出现使用“第一”、“第二”等术语来描述各种元件，但是这些元件不应当由这些术语所限制。这些术语仅用来区分一个元件和另一个元件。因此，下文所讨论的“第一”元件也可以被称为“第二”元件而不偏离本发明的教导。应当理解的是，若提及一元件“连接”或者“联接”到另一元件时，其可以直接地连接或直接地联接到另一元件或者也可以存在中间元件。相反地，当提及一元件“直接地连接”或“直接地联接”到另一元件时，则不存在中间元件。

在本申请中出现的各种术语仅仅用于描述具体的实施方式的目的而无意作为对本发明的限定，除非上下文另外清楚地指出，否则单数形式意图也包括复数形式。

当在本说明书中使用术语“包括”和/或“包括有”时，这些术语指明了所述特征、整体、步骤、操作、元件和/或部件的存在，但是也不排除一个以上其他特征、整体、步骤、操作、元件、部件和/或其群组的存在和/或附加。

如图1，2所示，一种语音情感和面部表情双模态识别系统，包括：

进一步的，所述情感数据库包括EmotiW情感数据库。

实施例一

在本实施例中，语音情感和面部表情双模态情感识别系统主要包括情感数据的输入及其预处理、情感特征的提取以及情感识别、特征融合的四部分。

首先，情感数据的输入需要选择和建立好所使用的情感数据库(我们选择为Emotion Recognition In The WildChallenge(EmotiW)系列情感识别挑战赛使用的数据集)，该数据集有七种常见表情的数据标注。

首先，第一步情感数据的输入需要选择和建立好所使用的情感数据库(我们选择为Emotion Recognition In The WildChallenge(EmotiW)系列情感识别挑战赛使用的数据集)，该数据集有七种常见表情的数据标注。

第二步，根据不同数据库的数据特征以及不同模态数据的特性选择合适的预处理方法；表情图片的预处理分为两部分，尺度归一化和灰度均衡化。度归一化中包含人脸检测，归一化人脸裁剪区域；灰度均衡化即为直方图均衡，将转为灰度图后的表情图片进行直方图均衡化。

(1)尺度归一化

尺度归一化的目的是将所有的表情样本图片尺度大小进行统一，便于之后的表情特征提取。本文中所使用的表情样本，大小统一为720*576。因此，这里所谓的尺度归一化包含人脸检测，检测出表情样本中的人脸区域，将其裁剪出来并统一成相同大小。本文中为方便接下来的图像处理过程，首先将表情样本的大小统一为180*144，之后进行人脸检测，使用Matlab的Computer Vision Toolbox，调用其中的CascadeObjectDetector()方法，将表情图片中的人脸区域框出并统一裁剪成大小为80*80。

(2)灰度均衡化

灰度均衡化目的是使图像中的各灰度值重新进行均匀分布，从而可以增强图像的对比度，改善图像的质量。图像直方图就是一种灰度均衡的方法，把原始图像的灰度直方图从比较集中的某个灰度区间变成在全部灰度范围内的均匀分布，相对于前面的灰度图，人脸五官区域的对比度明显增加。

语音情感特征的提取同样也有预处理和和特征提取两个部分。语音的预处理分为：语音信号的预处理一般是加窗分帧，是为了保证语音帧与帧之间能够平滑过渡，由于语音信号是会随着时间的变化而变化，是一个非稳态的过程。但是语音在很短的时间内(5-50ms)的特征基本保持不变，所以可以将一段连续的语音信号进行分段处理，即分帧。

第二步，分析每一帧的语音特征参数，其表达公式如下：

s_w(n)＝s(n)·w(n)加窗后的语音信号sw(n)是由原语音信号s(n)和窗口函数w(n)相乘而得到的。常用的窗函数包括矩形窗、汉明窗等等，它们的表达式如下：

矩形窗表达式：

汉明窗表达式：

第三步，在面部表情和语音的预处理完成后下一步就是特征的提取。

特征提取，包含表情特征提取和语音特征提取，特征提取的方法多种多样，不同方法使用在不同数据上的效果不一。

我们采用面部表情识别采用LBP特征，用于描述分析图像的局部纹理特征，反映的是某一个像素点与其周围像素点之间的关系。原始的LBP定义在一个3*3的领域内，以领域中心位置的像素点为阈值，与其周围8个相邻的像素点的灰度值进行比较，如果周围的那个像素点的灰度值大于中心像素点，则标记为1；如果小于中心像素点，则标记为0。之后，将得到的8个0或1的数值按照顺时针的次序排列形成一个二进制数，将这个二进制数转化为十进制，便作为该中心像素点的LBP值。

其中，(xc,yc)表示中心像素点的坐标；pi表示周围像素点的像素值；ci表示中心像素点的像素值；S(x)表示的是符号函数，具体定义如下：

语音特征及提取

采用openSMILE工具提取一些常用的语音特征：

基频：基频(Pitch)是指人发声时声带振动的基本频率，本质上反映了人们的声调，通常用F0表示。声调的高低能直接反映人情绪的起伏变化，当一个人处于平静状态时，说话的声调保持平稳，即语音的基频相对稳定；当一个人伤心难过时，语速缓慢，语音基频变低；反之，当一个人高兴或愤怒时，语速加快，语音基频变高。

短时能量：短时能量又可以称为帧能量(Frame Energy)。很显然地，声音比较洪亮时，往往是人们情绪激动的时候，语音所包含的能量较大；声音比较低沉时，往往是人们情绪低落的时候，语音包含的能量较小。短时能量定义为一语音帧采样点的加权平方和。

其中w(n)为窗函数，N为帧长。我们求取语音信号每帧的短时能量，分析它们随时间的变化情况。

梅尔频率倒谱系数：梅尔频率倒谱系数(Mel Frequency CepstralCoefficents)，简称MFCC，是目前语音情感识别中尤为重要的语音特征参数。人耳的灵敏度因接收的语音信号频率不同而不同，研究表明，在高频段，人耳的灵敏度与接收的信号频率之间呈现对数关系；然而在低频段，人耳的灵敏度与接收的信号频率之间却呈现线性关系。它与普通所说的频率关系如下：

Mel(f)＝2595log₁₀(1+f/700)

计算MFCC的一般步骤图1所示：

最终得到的MFCC计算公式如下：

ml表示的是滤波器输出的对数，L是滤波器的个数。

短时抖动参数：

常用的短时抖动参数为基频微扰(Jitter)和振幅微扰(Shimmer)，分别表示的是基频和振幅的微小变化，它们分别通过计算基频和振幅的斜率变化而得到，定义式如下：

基频微扰：

振幅微扰：

上述两式中，Ti表示第i个峰间期，Ei表示第i个峰间能量，N代表峰间期数量。

过零率：过零率即短时过零率(Zero-crossing Rate)指的是一语音帧语音信号取零电平的次数，可以用来区分有声和无声，还能用于清音和浊音的端点检测。另外，人们说话时，词与词之间产生停顿，此时处于零电平状态，因此，过零率某种程度上也反映了一个人语速的快慢。短时过零率的定义式如下式：

上式中，Xn表示加窗后的第n帧语音信号，Zn表示第n帧语音信号的过零率，sgn()为符号函数，其表达式如下式：

语音特征的提取：

openSMILE工具箱，提取相关的语音韵律特征和谱特征及其统计参数。openSMILE是由C++编写的，是一个高度模块化的特征提取工具，可在多个操作平台运行使用，既可以用于实时数据的在线处理，也可以进行大批量数据的离线处理。其最基础的功能是语音特征的提取，标准特征集The openSMILE‘emobase2010’reference包含有1582维语音特征，所提取的音频特征包含基频、帧能量、过零率、短时抖动参数、MFCC等等。然后通过常用的统计量，例如均值、方差、标准差、倾斜度、峰值、回归系数等将低级描述子转化为一定维数的特征矢量，从而构成语音情感识别所需要的全局统计特征。

提取特征时，选取语音样本所在的文件夹，保证语音样本格式为.wav，在openSMILE configuration file下选取所要提取的特征集，点击Start便可进行特征提取。特征提取之后，特征结果的输出格式为.arff和.csv两种格式。

基于SimpleMKL的特征融合的情感识别

语音和表情的特征性质不同，所以它们所适合的核函数的种类和参数也不会相同，或者说，采用不同种类不同参数的核函数，在单模态情感识别中分类识别的效果不尽相同，适合语音特征的核函数不一定能在表情识别中取得很好的效果。因此，采用SimpleMKL进行特征融合，给所提取的不同模态特征分别赋予多个不同的核函数，在学习过程中求得各个核函数前的权重系数。

基于SimpleMKL的特征融合是针对特征种类，根据特征种类不同进行分类映射，双模态情感特征可以分为表情特征、语音特征以及表情和语音特征串联而得的串行特征等部分，对每部分特征种类采用不同的核函数进行映射，再通过学习求得每特征种类对应不同的各个核函数前的权重系数，这种方法在保留了整体信息完整性情况下，考虑到了不同模态特征，不同特征种类间的差异性，增强了特征层融合的性能。同样以一个样本的特征空间F为例，主要算法流程如图2所示。

对于特征空间F，其中包含表情特征Fface和语音特征Fspeech以及串行特征Fall，,

分别采用一组不同参数不同种类的核函数对Fface，Fspeech和Fall进行多核学习映射，f k、s k和a k分别表示表情特征、语音特征和串行特征所使用的核函数，f d、s d和a d分别表示表情、语音和串行特征使用核函数对应的权重系数。根据式多核定义表达式，合成核可具体表示如下：

M是使用的核函数的总个数，m1、m2和m3分别是在表情特征、语音特征和串行特征上使用的核函数个数。

采用基于多核学习的特征层融合的方法，采用多个核函数的线性组合，对每类特征采取一定数量的核函数进行映射，各个核函数前均有权重系数，并且核函数前的权重系数在学习过程中自动获得，最终实现多模态情感特征的识别。

在本实施例中的其余技术特征，本领域技术人员均可以根据实际情况进行灵活选用和以满足不同的具体实际需求。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实现本发明。在其他实例中，为了避免混淆本发明，未具体描述公知的算法，方法或系统等，均在本发明的权利要求书请求保护的技术方案限定技术保护范围之内。

对于前述的方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和单元并不一定是本申请所必须的。

本领域技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法实现所描述的功能，但是这种实现不应超出本发明的范围。

所揭露的系统、模块和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例，仅仅是示意性的，例如，所述单元的划分，可以仅仅是一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以说通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述分立部件说明的单元可以是或者也可以不收物理上分开的，作为单元显示的部件可以是或者可以不收物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例的方案的目的。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、ROM、RAM等。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种语音情感和面部表情双模态识别系统，其特征在于，包括：

2.根据权利要求1所述的语音情感和面部表情双模态识别系统，其特征在于，所述情感数据库包括EmotiW情感数据库。

3.根据权利要求1所述的语音情感和面部表情双模态识别系统，其特征在于，表情图片的预处理包括尺度归一化处理和灰度均衡化处理；尺度归一化中包含人脸检测，归一化人脸裁剪区域，用于将所有的表情样本图片尺度大小进行统一，便于之后的表情特征提取；灰度均衡化，用于将转为灰度图后的表情图片进行直方图均衡化，图像中的各灰度值重新进行均匀分布，用于增强图像的对比度，改善图像的质量。

4.根据权利要求1所述的语音情感和面部表情双模态识别系统，其特征在于，语音的预处理包括加窗分帧，用于保证语音帧与帧之间能够平滑过渡。

5.根据权利要求1所述的语音情感和面部表情双模态识别系统，其特征在于，采用SimpleMKL进行特征融合，对所提取的不同模态特征，分别赋予多个不同的核函数，在学习过程中求得各个核函数前的权重系数。