CN113408503A

CN113408503A - 一种情绪识别方法、装置、计算机可读存储介质及设备

Info

Publication number: CN113408503A
Application number: CN202110952147.0A
Authority: CN
Inventors: 姚娟娟; 钟南山
Original assignee: Mingpinyun Beijing Data Technology Co Ltd
Current assignee: Shanghai Mingping Medical Data Technology Co ltd
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2021-09-17
Anticipated expiration: 2041-08-19
Also published as: CN113408503B

Abstract

本发明公开了一种情绪识别方法、装置、计算机可读存储介质及设备，所述方法包括：获取目标对象的语音特征、表情特征和生物特征；通过预先训练完成的第一情绪识别模型对所述语音特征进行情绪识别，得到第一情绪识别结果；通过预先训练完成的第二情绪识别模型对所述表情特征进行情绪识别，得到第二情绪识别结果；通过预先训练完成的第三情绪识别模型对所述生物特征进行情绪识别，得到第三情绪识别结果；利用预先构建的融合模型将所述第一情绪识别结果、第一情绪识别结果、第三情绪识别结果进行融合，得到融合值；根据所述融合值识别出所述目标对象的情绪。本发明通过融合语音特征、表情特征、生物特征，征弥补了单一特征的不足。

Description

一种情绪识别方法、装置、计算机可读存储介质及设备

技术领域

本发明涉及人工智能领域，具体涉及一种情绪识别方法、装置、计算机可读存储介质及设备。

背景技术

随着计算机技术和人工智能技术及其相关学科的迅猛发展，整个社会的自动化程度不断提高，人们对类似于人和人交流方式的人机交互的需求日益强烈。人脸表情是最直接、最有效的情绪识别模式。它有很多人机交互方面的应用。计算机和机器人如查能够像人类那样具有理解和表达情感的能力，将从根本上改变人与计算机之间的关系，使计算机能够更好地为人类服务。情绪识别是情感理解的基础，是计算机理解人们情感的前提，也是人们探索和理解智能的有效途径。

现有技术中包括诸多情绪提取方法，多通过采集面部或语音信息识别用户情绪。然而，采用单种特征进行情绪识别，其准确度较低。因此，现有技术存在诸多缺陷，需要改进。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种情绪识别方法、装置、计算机可读存储介质及设备，用于解决现有技术存在的问题。

为实现上述目的及其他相关目的，本发明提供一种情绪识别方法，包括：

获取目标对象的语音特征、表情特征和生物特征；

通过预先训练完成的第一情绪识别模型对所述语音特征进行情绪识别，得到第一情绪识别结果；

通过预先训练完成的第二情绪识别模型对所述表情特征进行情绪识别，得到第二情绪识别结果；

通过预先训练完成的第三情绪识别模型对所述生物特征进行情绪识别，得到第三情绪识别结果；

利用预先构建的融合模型将所述第一情绪识别结果、第一情绪识别结果、第三情绪识别结果进行融合，得到融合值；

根据所述融合值识别出所述目标对象的情绪。

可选地，所述语音特征包括动作特征和韵律学特征。

可选地，还包括：对所述韵律学特征进行增强。

可选地，所述对所述韵律学特征进行增强，包括：

基于所述目标对象的韵律学特征，以第n帧韵律学特征和以第n帧韵律学特征为中心的相邻多帧韵律学特征构成输入韵律学特征序列；

对所述输入韵律学特征序列进行编码，得到编码特征序列；

对所述编码特征序列进行解码，得到所述输入韵律学特征序列对应的增强韵律学特征序列。

可选地，在对所述输入韵律学特征序列进行编码时，通过在所述相邻多帧韵律学特征上施加多头自注意力运算。

可选地，在通过预先训练完成的第一情绪识别模型对所述语音特征进行情绪识别前，还包括：对所述动作特征和所述韵律学特征进行特征融合，得到融合特征。

可选地，获取所述目标对象的表情特征包括：

获取人脸图片；

通过第一神经网络从所述人脸图片中提取出单人表情特征；

通过第二神经网络对所述单人表情特征进行多尺度提取，得到不同尺度下所述单人表情特征的注意力特征；

将不同尺度下所述单人表情特征的注意力特征进行融合，得到表情特征。

为实现上述目的及其他相关目的，本发明提供一种情绪识别装置，包括：

特征获取模块，用于获取目标对象的语音特征、表情特征和生物特征；

第一初始情绪识别模块，用于通过预先训练完成的第一情绪识别模型对所述语音特征进行情绪识别，得到第一情绪识别结果；

第二初始情绪识别模块，用于通过预先训练完成的第二情绪识别模型对所述表情特征进行情绪识别，得到第二情绪识别结果；

第三初始情绪识别模块，用于通过预先训练完成的第三情绪识别模型对所述生物特征进行情绪识别，得到第三情绪识别结果；

融合模块，用于利用预先构建的融合模型将所述第一情绪识别结果、第一情绪识别结果、第三情绪识别结果进行融合，得到融合值；

情绪识别模块，用于根据所述融合值识别出所述目标对象的情绪。

为实现上述目的及其他相关目的，本发明提供一种情绪识别设备，包括处理器，所述处理器和存储器耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时实现所述的方法。

为实现上述目的及其他相关目的，本发明提供一种计算机可读存储介质，包括程序，当其在计算机上运行时，使得计算机执行所述的方法。

如上所述，本发明提供的一种情绪识别方法、装置、计算机可读存储介质及设备，具有以下有益效果：

本发明的一种情绪识别方法，包括：获取目标对象的语音特征、表情特征和生物特征；通过预先训练完成的第一情绪识别模型对所述语音特征进行情绪识别，得到第一情绪识别结果；通过预先训练完成的第二情绪识别模型对所述表情特征进行情绪识别，得到第二情绪识别结果；通过预先训练完成的第三情绪识别模型对所述生物特征进行情绪识别，得到第三情绪识别结果；利用预先构建的融合模型将所述第一情绪识别结果、第一情绪识别结果、第三情绪识别结果进行融合，得到融合值；根据所述融合值识别出所述目标对象的情绪。本发明通过融合语音特征、表情特征、生物特征，征弥补了单一特征的不足。

附图说明

图1为本发明一实施例中的一种情绪识别方法的流程图；

图2为本发明一实施例中的对韵律学特征进行增强的方法流程图；

图3为本发明一实施例中的编码器的结构示意图；

图4为本发明一实施例中的获取所述目标对象的表情特征的方法的流程图；

图5为本发明一实施例中的一种情绪识别装置的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图1所示，本申请实施例提供一种情绪识别方法，包括：

S11获取目标对象的语音特征、表情特征和生物特征；

S12通过预先训练完成的第一情绪识别模型对所述语音特征进行情绪识别，得到第一情绪识别结果；

S13通过预先训练完成的第二情绪识别模型对所述表情特征进行情绪识别，得到第二情绪识别结果；

S14通过预先训练完成的第三情绪识别模型对所述生物特征进行情绪识别，得到第三情绪识别结果；

S15利用预先构建的融合模型将所述第一情绪识别结果、第一情绪识别结果、第三情绪识别结果进行融合，得到融合值；

S16根据所述融合值识别出所述目标对象的情绪。

本发明通过融合语音特征、表情特征、生物特征，征弥补了单一特征的不足。

在一实施例中，所述语音特征包括动作特征和韵律学特征。其中，动作特征可以从运动信号中提取，包括速度和位移。位移特征指相对于初始位置的最大位移，速度指发音器官在每一时刻位移变化量，将最大速度、最小速度、平均速度和速度的方差作为特征。运动信号可以通过三维电磁发音仪采集，该仪器可以捕获高精度的运动信号并且不损害人体，是采集发音器官微小动作的专用设备。运动信号包括唇部的运动信号、舌部的运动信号和颌部的运动信号，其中包括唇部的运动信号包括：上唇的运动信各异、下唇的运动信号、左嘴角的运动信号、右嘴角的运动信号；舌部的运动信号包括舌尖的运动信号、舌中的运动信号、舌后的运动信号；

韵律学特征包括基频、语音能量、语速、短时平均过零。

基频，声带每开合一次的时间被定义为基音周期，它的倒数则为基音频率，简称基频。基频由声带本身的长度、厚度、张力等因素决定。随着说话人不同情绪的变化，声带结构会随着变化，同时语音的基频也会出现不同程度的变化。

语音能量，语音信号能量特征可以代表说话人声音的强度和音量的高低。信号强度会随着情绪的变化呈现出不同的变化规律，此时常用短时能量、短时平均幅度来表征能量强度。

语速，不同的情绪，说话者使用不同的语速。例如愤怒或紧张状态时，说话语速会显著加快或者变慢；而在伤心难过等状态下，说话语速则会相应放缓。语速的快慢可以在一定程度上表征说话者的情绪信息。

短时平均过零率，语音信号每一段时间内信号经过零点的次数被定义为短时平均过零率。对于离散信号来说，这项指标可以定义为相邻采样点出现相反的代数符号的次数。

研究认为情绪的决定因素是交感神经，而交感神经的活动水平可以通过心率变异性进行估计，心率变异性又可以通过分析脉搏波信号获得。因此，由脉搏波信号分析得到的心率变异性参数具有识别情绪的潜能。因此，在一实施例中，所述生物特征可以包括脉搏特征。

在本申请中，通过预先训练完成的第三情绪识别模型对所述生物特征进行情绪识别，得到第三情绪识别结果；其中，脉搏特征包括时间特征、波形特征和频域特征。

在提取到所述脉搏特征后，需要对脉搏波特征进行降维；脉搏波特征降维分为两步，第一步使用主成分分析(PCA)进行降维，取特征值最大的前15个主成分作为新的特征。第二步使用再进行线性判别分析(LDA)再次进行降维，最终得到维度为7的脉搏波特征向量。

利用所述脉搏特征向量以及与脉搏特征向量对应的情绪对人工神经网络进行训练，训练结果作为第三情绪识别模型。

本申请是通过预先训练完成的第一情绪识别模型对所述语音特征进行情绪识别，得到第一情绪识别结果。由于人类在听觉感知的过程中存在掩蔽效应，能量较弱的信号会被能量较高的信号所掩蔽。因此，需要对所述韵律学特征进行增强。

具体地，如图2所示，所述对所述韵律学特征进行增强，包括：

S21基于所述目标对象的韵律学特征，以第n帧韵律学特征和以第n帧韵律学特征为中心的相邻多帧韵律学特征构成输入韵律学特征序列；

S22对所述输入韵律学特征序列进行编码，得到编码特征序列；其中，经过编码器的编码后，输入韵律学特征序列变化为高层特征序列。

S23对所述编码特征序列进行解码，得到所述输入韵律学特征序列对应的增强韵律学特征序列。解码器根据高层特征序列Z也就是编码特征序列得到当前待增强帧的增强韵律学特征序列

。

在一实施例中，在对所述输入韵律学特征序列进行编码时，通过在所述相邻多帧韵律学特征上施加多头自注意力运算，以提升语音增强性能：

编码器的主要作用是将输入韵律学特征序列重新编码，使得干净语音信息和噪声信息有明显区分。编码器的网络结构由独立的网络层组成，称其为transformer层。每个网络层由两个子层组成：第一层为多头自注意力层，第二层为以帧为单位的全连接前馈神经网络。两个子层采用残差连接，并且施加层标准化。编码器结构如图3所示。

自注意力是指计算注意力所需要的查询和键值对来自同一个地方。对于韵律学特征进行增强而言，能量高的语音信号会掩盖能量低的语音信号，通过对输入韵律学特征序列施加自注意力，可以使得输入韵律学特征序列中的特征以干净语音信息或者噪声信息为主导，从而区分干净语音和噪声。计算注意力的函数使用以下模型：

其中Q，K，V分别表示计算注意力相关查询、键和值，d _k表示键的维数。

多头注意力基于注意力机制，利用多次查询并行地从输入信息中提取到多组不同信息进行拼接，能够从不同的子空间中获取到相关信息。多头注意力先将查询矩阵、键矩阵和值矩阵映射到多个不同的子空间中，分别计算各个子空间中的注意力，最后将各子空间的输出拼接在一起：

其中，

，

，

，

为线性映射的参数矩阵；h为子空间的个数，Cconcat为向量拼接操作。

解码器将利用编码器生成的高层特征序列Z最终生成增强韵律学特征序列。

在本实施例中，在解码阶段对编码器生成的编码特征序列Z施加多头自注意力运算，将当前帧的输出作为增强韵律学特征序列。解码器的网络结构和编码器的网络结构相同。

在一实施例中，在通过预先训练完成的第一情绪识别模型对所述语音特征进行情绪识别前，还包括：对所述动作特征和所述韵律学特征进行特征融合，得到融合特征。

由于语音特征的动作特征和韵律学特征两种类型的特征表达的物理意义不同，将他们进行归一化处理构成融合特征，得到融合特征。

在一实施例中，在通过预先训练完成的第一情绪识别模型对所述语音特征进行情绪识别，得到第一情绪识别结果前，利用核主成分分析法对所述融合特征进行降维。

由于所述融合特征可能包含冗余信息，因此可以使用核主成分分析法（kernelprincipal component analysis，KP-CA）对其进行降维。KP-CA是在PCA的基础上提出，相比PCA，KPCA在处理非线性数据方面效果更好。它的基本原理是通过非线性函数将原始数据映射到高维空间，从而对高维空间的数据进行相应的线性分类。

本实施例采用径向基高斯核方法进行降维，核函数公式如下

为常数，在降维过程中需要对

进行调节。在降维过程中，将训练样本的n维特征表示成n个列向量的特征矩阵

，通过非线性映射

将其映射到高维空间中，

在高维空间进行降维变换，

求解

之后得出非线性降维后的特征矩阵X。

在一实施例中，如图4所示，获取所述目标对象的表情特征包括：

S41获取人脸图片；

S42通过第一神经网络从所述人脸图片中提取出单人表情特征；

具体地，第一神经网络可以选择VGGNetl6卷积神经网络。VGGNetl6网络的第一层采用了Inception结构，在图像输入的时候使用多个尺度的卷积核对其进行不同尺度的特征提取，并将不同大小卷积核提取的多种特征进行特征融合，在3×3和5×5的卷积核支路使用了bottleneck结构，对着两条支路进行降维。bottleneck瓶颈层原理是先使用卷积核尺度为1X1的卷积层对输入的图像进行降维操作，然后在输出的1×l卷积层中将通道数复原，这样可以大大减少计算量，同时，使用两个3×3的卷积来代替5×5的卷积，这一步同样也是在保证感受野的同时减少计算量。

S43通过第二神经网络对所述单人表情特征进行多尺度提取，得到不同尺度下所述单人表情特征的注意力特征；

一般来讲，人脸表情在越小的尺度下越不容易识别清楚，所以本发明技术方案主要选择对单人表情特征进行下采样获得更多小尺度的单人表情特征从而提高网络对物体小尺度下的分类识别能力，当然在另一些情况中，本发明技术方案也可以通过对单人表情特征进行上采样，以提高大尺度情况下的物体大尺度下分辨能力。

第二神经网络为SENet网络，SENet网络包括有3条并行的注意力分支，其中一条注意力分支用于处理第一尺度的单人表情特征，另一条注意力分支用于处理第二尺度的单人表情特征，还有一条注意力分支用于处理第三尺度的单人表情特征。第二神经网络对不同尺度的单人表情特征进行并行卷积运算后，还需要将不同尺度的尺度注意力特征进行融合。本发明中的注意力模块输出是反映空间注意力的，与特征图通道数一一对应的长度为C的向量，这个向量再用于与输入特征图每个通道相乘，多个维度的相乘结果拼接到一起得到了最后的输出特征。

S44将不同尺度下所述单人表情特征的注意力特征进行融合，得到表情特征。

在一实施例中，利用预先构建的融合模型将所述第一情绪识别结果、第一情绪识别结果、第三情绪识别结果进行融合，得到融合值；

所述融合模型为：

其中，f(x)表示融合值，x表示语音特征、表情特征和生物特征中的特征矢量， f ₁ (x)表示第一情绪识别结果的矢量，f ₂(x)表示第二情绪识别结果的矢量，f ₃(x)表示第三情绪识别结果的矢量，

表示权重参数，

。

经过上述步骤，可以得到融合值，确定融合值所属的融合值区间，每一个融合值区间对应一种情绪，从而确定出目标对象的情绪。例如，融合值为3，得到的融合值属于区间为2-4，该融合值区间对应的情绪为消极情绪。在一实施例中，情绪可以为消极情绪、积极情绪和中立情绪。

在一实施例中，在确定好目标对象的情绪类别时，可以执行对应的此导指令，对目标对象进行情绪疏导，包括：在所述情绪类别属于积极情绪时，对目标对象进行鼓励，在所述情绪类别属于消极情绪时，对目标对象进行引导，使目标对象的情绪由消极情绪向积极情绪发展。

如图5所示，本申请实施例提供一种情绪识别装置，包括：

特征获取模块51，用于获取目标对象的语音特征、表情特征和生物特征；

第一初始情绪识别模块52，用于通过预先训练完成的第一情绪识别模型对所述语音特征进行情绪识别，得到第一情绪识别结果；

第二初始情绪识别模块53，用于通过预先训练完成的第二情绪识别模型对所述表情特征进行情绪识别，得到第二情绪识别结果；

第三初始情绪识别模块54，用于通过预先训练完成的第三情绪识别模型对所述生物特征进行情绪识别，得到第三情绪识别结果；

融合模块55，用于利用预先构建的融合模型将所述第一情绪识别结果、第一情绪识别结果、第三情绪识别结果进行融合，得到融合值；

情绪识别模块56，用于根据所述融合值识别出所述目标对象的情绪。

上述实施例中提供的系统可执行本发明任意实施例所提供的方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、设备和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，通过以上的实施方式的掐述，本领域的技术人员可以清楚地了解到本申请的部分或全部可借助软件并结合必需的通用硬件平台来实现。所述功能如果以软件功能单元的形式实现并作为独立地产品销售或使用时，还可以存储在一个计算机可读取存储介质中基于这样的理解，本发明实施例提供一种计算机可读存储介质，包括程序，当其在计算机上运行时，使得计算机执行如图1所示的方法。

本发明实施例提供一种图像分类设备，包括处理器，所述处理器和存储器耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时实现如图1所示的方法。

基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可包括其上存储有机器可执行指令的一个或多个机器可读介质，这些指令在由诸如计算机、计算机网络或其他电子设备等一个或多个机器执行时可使得该一个或多个机器根据本申请的实施例来执行操作。机器可读介质可包括，但不限于，软盘、光盘、CD-ROM(只读光盘)、磁光盘、ROM(只读存储器),RAM(随机存取存储器),EPROM(可擦除可编程只读存储器),EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存或适于存储机器可执行指令的其他类型的介质/机器可读介质。其中，所述存储介质可位于本地服务器也可位于第三方服务器中，如位于第三方云服务平台中。在此对具体云服务平台不做限制，如阿里云、腾讯云等。本申请可用于众多通用或专用的计算系统环境或配置中。例如：被配置为分布式系统中一个节点的个人计算机、专用服务器计算机、大型计算机等。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种情绪识别方法，其特征在于，包括：

获取目标对象的语音特征、表情特征和生物特征；

根据所述融合值识别出所述目标对象的情绪。

2.根据权利要求1所述的情绪识别方法，其特征在于，所述语音特征包括动作特征和韵律学特征。

3.根据权利要求2所述的情绪识别方法，其特征在于，还包括：对所述韵律学特征进行增强。

4.根据权利要求3所述的情绪识别方法，其特征在于，所述对所述韵律学特征进行增强，包括：

对所述输入韵律学特征序列进行编码，得到编码特征序列；

5.根据权利要求4所述的情绪识别方法，其特征在于，在对所述输入韵律学特征序列进行编码时，通过在所述相邻多帧韵律学特征上施加多头自注意力运算。

6.根据权利要求2所述的情绪识别方法，其特征在于，在通过预先训练完成的第一情绪识别模型对所述语音特征进行情绪识别前，还包括：对所述动作特征和所述韵律学特征进行特征融合，得到融合特征。

7.根据权利要求1所述的情绪识别方法，其特征在于，获取所述目标对象的表情特征包括：

获取人脸图片；

通过第一神经网络从所述人脸图片中提取出单人表情特征；

8.一种情绪识别装置，其特征在于，包括：

9.一种情绪识别设备，其特征在于，包括处理器，所述处理器和存储器耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，包括程序，当其在计算机上运行时，使得计算机执行如权利要求1至7中任一项所述的方法。