CN105739688A

CN105739688A - 一种基于情感体系的人机交互方法、装置和交互系统

Info

Publication number: CN105739688A
Application number: CN201610040503.0A
Authority: CN
Inventors: 刘佳亮
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2016-01-21
Filing date: 2016-01-21
Publication date: 2016-07-06

Abstract

本发明公开了一种基于情感体系的人机交互方法、装置和交互系统。该方法包括以下步骤：采集语音情感参数、表情情感参数和肢体情感参数；根据所述语音情感参数计算获得待定语音情感，从预设语音情感中选择与待定语音情感最接近的作为语音情感分量；根据所述表情情感参数计算获得待定表情情感，从预设表情情感中选择与待定表情情感最接近的作为表情情感分量；根据所述肢体情感参数计算获得待定肢体情感，从预设肢体情感中选择与待定肢体情感最接近的作为肢体情感分量；对所述语音情感分量、表情情感分量和肢体情感分量进行融合确定情感识别结果；针对所述情感识别结果输出多模态的反馈信息，以使得人机交互过程更加顺畅、自然。

Description

一种基于情感体系的人机交互方法、装置和交互系统

技术领域

本发明涉及智能服务技术领域，具体地说，涉及一种基于情感体系的人机交互方法、装置和交互系统。

背景技术

智能问答机器人属于人工智能和自然语言处理的交叉领域，可以通过自然语言的方式与用户交流，并通过表情、动作等方式展示机器人的情感。情感是人对客观事物是否满足自己的需要而产生的体验态度，是人机对话过程中传递的重要信息。人机交互过程中，情感识别是交互系统的重要部分。情感状态影响着信息表达的方式和信息传递的效果。

情感表达的模态包括言语、文字、面部表情和肢体动作等等。其中，面部表情通过采集人脸图像获得，语言情感从带有情感的语音信号中提取，肢体动作较直接地表达了人们的情感。有研究认为，在人机交互过程中面部表情的作用最大，其对情感表达的贡献超过五成；语言表达情感的作用次之，贡献大概不到四成。

现有的情感识别技术通常是单一模态的表情情感识别或者语音情感识别，不能对多种模态识别到的情感进行融合处理。因此，问答机器人不能同时识别用户输入的语音、表情和肢体动作，不能准确辨识用户情感。

因此，亟需一种能够在问答过程中同时识别多种模态情感特征，并进行反馈的人机交互方法和装置。

发明内容

本发明的目的之一在于解决现有的人机问答系统不能同时识别用户输入的语音、表情和肢体动作中的情感特征的技术缺陷。

本发明的实施例首先提供

一种基于情感体系的人机交互方法，包括以下步骤：

采集语音情感参数、表情情感参数和肢体情感参数；

根据所述语音情感参数计算获得待定语音情感，从预设语音情感中选择与待定语音情感最接近的作为语音情感分量；

根据所述表情情感参数计算获得待定表情情感，从预设表情情感中选择与待定表情情感最接近的作为表情情感分量；

根据所述肢体情感参数计算获得待定肢体情感，从预设肢体情感中选择与待定肢体情感最接近的作为肢体情感分量；

对所述语音情感分量、表情情感分量和肢体情感分量进行融合确定情感识别结果；

针对所述情感识别结果输出多模态的反馈信息。

优选地，在从预设语音情感中选择与待定语音情感最接近的作为语音情感分量的步骤中包括：

采用PCA方法对语音样本进行建模获得投影矩阵，以该投影矩阵为基础，从预设语音情感中选择与待定语音情感最接近的作为语音情感分量。

优选地，在从预设表情情感中选择与待定表情情感最接近的作为表情情感分量的步骤中包括：

将预设表情情感映射到特征脸空间，在特征脸空间中计算待定表情情感与预设表情情感之间的距离，选择距离最小的预设表情情感作为表情情感分量。

优选地，在所述对所述语音情感分量、表情情感分量和肢体情感分量进行融合确定情感识别结果的步骤中包括：

对所述语音情感分量、表情情感分量和肢体情感分量分别赋予权重，依据权重对所述语音情感分量、表情情感分量和肢体情感分量进行加权处理确定所述情感识别结果。

优选地，在针对所述情感识别结果输出多模态的反馈信息的步骤中包括：

根据所述情感识别结果在语音反馈信息、表情反馈信息和肢体反馈信息中选择至少一种进行输出。

一种基于情感体系的人机交互装置，包括：

参数采集单元，其配置为采集语音情感参数、表情情感参数和肢体情感参数；

语音情感识别单元，其配置为根据所述语音情感参数计算获得待定语音情感，从预设语音情感中选择与待定语音情感最接近的作为语音情感分量；

表情情感识别单元，其配置为根据所述表情情感参数计算获得待定表情情感，从预设表情情感中选择与待定表情情感最接近的作为表情情感分量；

肢体情感识别单元，其配置为根据所述肢体情感参数计算获得待定肢体情感，从预设肢体情感中选择与待定肢体情感最接近的作为肢体情感分量；

融合单元，其配置为对所述语音情感分量、表情情感分量和肢体情感分量进行融合确定情感识别结果；

反馈单元，其配置为针对所述情感识别结果输出多模态的反馈信息。

优选地，所述语音情感处理单元具体用于：

优选地，所述表情情感处理单元具体用于：

优选地，所述融合单元具体用于：

优选地，所述反馈单元具体用于：

根据所述情感识别结果在语音反馈信息、表情反馈信息和肢体反馈信息中选择至少一种进行组合输出所述多模态的反馈信息。

一种人机交互系统，包括：

语音传感装置，其用于采集语音信号；

视觉传感装置，其用于采集表情信号和肢体信号；

以及，包括上述人机交互装置，其用于识别语音信号、表情信号和肢体信号表达的情感，并输出所述多模态的反馈信息；

输出驱动装置，其用于根据所述多模态的反馈信息驱动表情单元、语音单元以及/或者动作单元进行动作。

本发明的实施例提供的人机交互系统能够同时识别用户在人机交互过程中输入的语音信号、表情信号和肢体动作信号，从而准确学习到用户所表达的情感，选择合适的输出模态进行组合并输出，以使得人机交互过程更加顺畅、自然。

本发明的实施例能够提高交互信息理解的成功率，增大信息交互的数据量，进而能够适用于更多不同的环境和场合。本发明的实施例提供的人机交互系统即使在用户的某种输入信号缺失的特殊场景中，仍然准确识别到用户表达的情感并及时做出反馈，因此具有更广泛的适应性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例一的人机交互方法的步骤流程图；

图2为本发明实施例一的语音情感识别的原理性示意图；

图3为本发明实施例一的基于PCA的概率法识别语音情感的原理图；

图4为本发明实施例一的基于PCA的加权距离法识别语音情感的原理图；

图5为本发明实施例一的采用PCA法识别表情情感的步骤流程图；

图6为本发明实施例二的人机交互装置的结构示意图；

图7为本发明实施例三的人机交互系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明作进一步地详细说明。

以下结合说明书附图对本发明的实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。并且在不相冲突的情况下，本发明的实施例中的特征可以相互结合。

本发明的实施例提供一种基于语音识别、表情识别和肢体动作识别的多方式人机交互方法和系统。能够通过多模态的情感识别机制来建立完善的情感体系，以使得智能机器人快速、准确地学习到用户表达的情感，然后综合语音、表情和肢体等多种方式与用户进行自然、直观和有效的交互。

实施例一

本实施例提供一种人机交互方法，其步骤流程如图1所示。以下结合图1对本实施例的情感识别方法进行详细说明。

首先在步骤S101中，采集语音情感参数、表情情感参数和肢体情感参数。

随后，执行步骤S102，根据所述语音情感参数计算获得待定语音情感，从预设语音情感中选择与待定语音情感最接近的作为语音情感分量；执行步骤S103，根据所述表情情感参数计算获得待定表情情感，从预设表情情感中选择与待定表情情感最接近的作为表情情感分量；执行步骤S104，根据所述肢体情感参数计算获得待定肢体情感，从预设肢体情感中选择与待定肢体情感最接近的作为肢体情感分量。

之后，在步骤S105中对所述语音情感分量、表情情感分量和肢体情感分量进行融合确定情感识别结果。

最后，在步骤S106中针对所述情感识别结果输出多模态的反馈信息。

其中，步骤S102、步骤S103和步骤S104可以按照不同顺序先后执行，也可以并行处理，并不以此限定本申请的范围。

以下提供语音情感识别方法的一个示例。语音情感识别就是判断说话人的喜怒哀乐等情感，通过分析语音中情感的变化规律，从语音信号中提取能够代表语音情感的特征参数，根据特征参数利用分类器将说话人的情感确定出来。

图2所示为语音情感分量识别的原理性示意图，主要包括语音信息预处理，特征参数提取和模式匹配三个部分。其识别过程为：首先对语音信息进行预处理，包括预加重、分帧、添加汉明窗和端点检测处理，从而对语音信号分解为若干个包含有效语音部分的语音片段；再对语音片段提取特征参数；最后将不同情感的特征参数进行训练形成不同的模板库，将待识别的语音情感特征参数与模板库进行模式匹配，从而识别到语音情感分量进行输出。

在此主要对本实施例步骤S101中提取的语音情感参数进行说明。说话人的不同情感可以通过语音情感参数进行表征，语音情感参数的差异主要体现在语音韵律特征的变化。本实施例主要选择以下十个语音情感参数：发音时间、语速、基因频率均值、基因频率范围、基因频率变化率、振幅均值、振幅范围、共振峰均值、共振峰范围和共振峰变化率。

语音情感识别分类就是对语音情感参数进行分类和模式识别。本实施例主要提供两种分类方法，分别是基于主元素分析(PrincipalComponentAnalysis，PCA)的概率法和最小距离法。

在此，提供步骤S102中基于PCA的概率法识别语音情感的一个优选示例，其原理图如图3所示。假设训练语音信号的样本个数为m个，其特征参数的维数为s维，则求解过程如下：

(1)利用训练样本分别计算不同的情感种类j对应的主元k具有的方差σ_jk和均值μ_jk，并进行最大可分性处理。

L_{k} = C_{J}^{2} * \sqrt{Σ_{i = 1}^{J} Σ_{j = i + 1}^{J} {| μ_{i k} - μ_{j k} |}^{2}} - - - (1)

M_{k} = \frac{1}{J} | Σ_{i = 1}^{J} σ_{i k} | - - - (2)

H_{k} = \frac{L_{k}}{M_{k}} - - - (3)

上式中，J为情感类型的个数，μ_ik表示第i类情感的第k个主元的平均值，σ_ik表示第i类情感的第k个主元的标准差，L_k表示第k个主元在情感类型中的分离性，M_k表示第k个主元在情感类型中的集中性，H_k表示第k个主元在情感类型之间的辨别性。H_k越大表明所选主元的情感辨别能力越强。

在识别时，选取p个经排列后H_k较大的主元做为识别主元。

(2)构建信号的特征向量矩阵X^s×m(m列s维分别表示样本个数与特征参数维数)，利用表达式(4)和(5)分别计算m个初始样本在第i个分量上的均值μ_i及特征向量矩阵X^s×m的协方差矩阵S_r。

μ_{i} = Σ_{j = 1}^{m} X_{i j} / m - - - (4)

S_{r} = Σ_{k = 1}^{m} (x_{k} - μ) {(x_{k} - μ)}^{T} - - - (5)

(3)计算协方差矩阵S_r的s个特征值和特征向量，并选取其中j个最大特征值对应的特征向量作为投影矩阵X_sjd。

(4)对各主元的基向量用投影矩阵X_sjd进行投影和求和，从而得到待识别语音在各个有效主元的得分值Z_k。

Z_{k} = < \overset{&RightArrow;}{A_{k}} \cdot X_{s j d} > - - - (6)

在不同情感中，各有效主元的综合概率的大小按下式计算。

P_{j} = Π_{k = 1}^{p} {\frac{1}{\sqrt{2 π} σ_{j k}} \exp | - \frac{{| Z_{k} - μ_{j k} |}^{2}}{2 σ_{j k}^{2}} |} - - - (7)

选择概率最大有效主元表征的情感作为识别出的语音情感分量。

另外，还提供步骤S102中基于PCA的最小距离法识别语音情感的一个优选示例，其原理图如图4所示。在采用PCA对语音样本进行建模，得到投影矩阵X_sjd之后，把预设的五种情感(高兴、愤怒、悲伤、害怕和中性)的语音模板投影到X_sjd上，得到预设语音模板的特征向量X₁,......,X₅。将待识别语音投影到X_sjd上，得到待识别语音的特征向量X_a。

考虑到前述十个语音情感参数对情感的影响作用并不相同，根据十个语音情感特征参数对情感的贡献率分别为其赋予不同情感状态下的权重w_j，计算第i种预设语音模板的特征向量与待识别语音的特征向量的加权欧式距离：

D_{i} = \sqrt{Σ_{j}^{10} w_{j} {(x_{a j} - x_{i j})}^{2}} - - - (8)

其中，x_aj表示待识别语音的特征向量X_a的第j个分量，x_ij表示第i种预设语音模板的特征向量的第j个分量，w_j表示第j种语音情感特征参数的权重。

根据表达式(8)计算得到的最小欧式距离所属的情感类别就是语音情感的识别结果。

以下提供表情情感识别方法的一个示例。人脸表情识别就是人机交互系统对用户人脸的表情信息进行特征提取并分类的过程，人机交互系统获知用户的表情信息，进而推断用户的心理状态。

如图5所示，人脸表情识别的过程主要包括四个部分：表情图像的获取、表情图像预处理、表情特征提取和表情分类识别。表情图像预处理采用信号处理的方式完成去噪、像素位置或者光照变量的归一化，还包括表情图像及其组成部分的分割、定位和跟踪。由于表情识别对图像中头部位置的平移、尺度变化和旋转是非常敏感的，为了消除这些不必要的变换的影响，需要对人脸表情图像在情感分类之前进行归一化处理。

在一个优选的示例中，表情图像预处理主要包括几何特征归一化和光学特征归一化处理。先利用光线补偿抑制光线影响，消除色彩偏差，再进行灰度化处理。此外，还利用高斯加权平滑算法过滤图像中的正态分布的噪声。

在表情特征提取和表情分类识别的过程中，本实施例采用主成分分析方法PCA进行表情特征提取，在表情特征提取之后采用欧式距离作为模板特征之间的相似性度量，用最近邻分类器进行分类。

首先对采用主成分分析的表情特征提取的过程进行说明。通过对大量训练样本进行主成分分析得到表征表情子空间的一组正交的特征基，构建一个多维坐标系，在后续的人脸表情识别过程中该特征基被称为特征脸。所提取的表情特征是预处理之后的人脸表情图像在表情子空间中的投影系数向量。

随后，在步骤S103的一个优选示例中，把预设的五种情感(高兴、愤怒、悲伤、害怕和中性)的表情模板投影到特征脸空间中，得到情感模板在该空间的投影系数，作为情感模板的表情特征。

最后，对于一副待识别的人脸表情图像，将其投影到特征脸空间中，与情感模板进行匹配得到表情情感的分类识别结果。

优选的，考虑到人脸的几何特征能够反映人脸结构的几何变化，在本实施例中选择提取人脸的几何特征。将人脸图像视为一个整体单元进行表征，并选取一组面部特征点来分析确定预设表情模板的初始坐标位置。

优选的，在人脸表情分类识别过程中，采用最小距离法确定与待识别的人脸表情图像最为接近的预设情感模板图像。例如，五种预设情感类别对应的特征向量用R₁,......,R₅表示，X是待识别的人脸图像的特征向量。|X-R_i|是X与第i种预设情感类别对应的特征向量R_i之间的距离。如果|X-R_i|最小，则把X识别为第i种预设情感类别。

以下提供肢体情感识别的一个优选示例。肢体动作识别是人机交互过程中最自然、最有效的信息交换方式之一，从肢体动作中可以获得较为丰富直观的肢体语言信息。肢体动作的识别有助于人机交互的无缝沟通，增加了自由互动的多种方式。

本实施例提供的肢体情感识别方法可以识别到用户的上肢动作和下肢动作所表达的情感。

上肢动作识别是对用户上肢在一个时间段内运动过程的识别。上肢动作具有丰富的表达内容，表达信息更加明确，能够有效表达出用户的意图和情感。上肢动作的识别涉及到空间位姿的变化以及时序问题，本实施例能够统一上肢动作在空间和时间上的差异性，实现上肢动作的快速识别。

在一个优选的示例中，将采集到的单目图像和深度图像进行融合，并构建人体上肢骨骼模型，获取上肢动作关键节点处的空间坐标，并对上肢动作进行参数归一化以消除用户个体对上肢动作表达的差异性。最后根据提取到的上肢动作参数识别上肢动作表达的情感。

在一个优选的示例中，基于步态识别技术获取用户脚部的位置信息，建立用户的行走步态模型，从连续视频帧中用户脚部位置信息的变换中获得用户行走的速度、步长和步态速率等步态特征。最后根据步态特征确定下肢动作表达的情感。

最后对上肢动作表达的情感和下肢动作表达的情感进行融合，识别到肢体动作综合表达的情感。

在步骤S105的一个优选示例中采用决策层融合方法，为语音情感、表情情感和肢体情感分别单独建模，再根据三种情感对识别结果的贡献大小，为三种情感赋予不同的权重。采用加权求和的方式融合三种情感。

在一个优选的示例中，先分别识别出语音情感、表情情感和肢体情感的情感分类，评价每种情感分类的置信度；再基于置信度设置权重数值，进行多通道的情感融合，获得最终的情感识别结果。

在步骤S106的一个优选示例中，将多模态识别到的最终情感结果加入人机对话过程中，针对用户不同的情感，智能机器人在语音反馈信息、表情反馈信息和肢体反馈信息中选择至少一种进行组合输出。优选的，选择TTS语音(TexttoSpeech，从文本到语音)，设定语速，设定机器人的四肢动作和面部表情，以使得人机交互过程更加顺畅、自然。

有上述分析可以看出，本申请的实施例在某种输入信号缺失的特殊场景中，仍然准确识别到用户表达的情感并及时做出反馈，具备更广泛的应用场景。例如，在医院看护病人的监护机器人，如果患者没有发出语音，也没有做出肢体动作，而仅仅是由于病情加重产生痛苦的表情，机器人也能准确识别到并及时做出反应。再比如，在家庭陪伴老人的陪伴机器人，如果老人晕倒后没有发出语音也没有特殊表情，机器人从老人倒地的肢体动作也能迅速做出反应。

实施例二

本实施例提供一种人机交互装置600，其结构如图6所示。该装置包括参数采集单元610、语音情感识别单元620、表情情感识别单元630、肢体情感识别单元640、融合单元650和反馈单元660。

其中，参数采集单元610用于采集语音情感参数、表情情感参数和肢体情感参数。

语音情感识别单元620用于根据所述语音情感参数计算获得待定语音情感，从预设语音情感中选择与待定语音情感最接近的作为语音情感分量。

表情情感识别单元630用于根据所述表情情感参数计算获得待定表情情感，从预设表情情感中选择与待定表情情感最接近的作为表情情感分量。

肢体情感识别单元640用于根据所述肢体情感参数计算获得待定肢体情感，从预设肢体情感中选择与待定肢体情感最接近的作为肢体情感分量。

融合单元650用于对所述语音情感分量、表情情感分量和肢体情感分量进行融合确定情感识别结果。

反馈单元660用于针对所述情感识别结果输出多模态的反馈信息。

实施例三

本实施例提供一种人机交互系统。如图7所示，该系统包括语音传感装置710、视觉传感装置720、人机交互装置600、输出驱动装置730、表情单元740、语音单元750和动作单元760。

其中，语音传感装置710为诸如麦克风等音频传感器，用于采集语音信息并输入到人机交互装置600。视觉传感装置720为诸如摄像机等，用于采集表情信息和肢体信息并输入到人机交互装置600。

人机交互装置600的结构如实施例二所述，不再赘述。输出驱动装置730根据人机交互装置600输出的多模态的反馈信息驱动表情单元740、语音单元750以及/或者动作单元760进行动作。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于情感体系的人机交互方法，其特征在于，包括以下步骤：

采集语音情感参数、表情情感参数和肢体情感参数；

针对所述情感识别结果输出多模态的反馈信息。

2.如权利要求1所述的人机交互方法，其特征在于，在从预设语音情感中选择与待定语音情感最接近的作为语音情感分量的步骤中包括：

3.如权利要求1所述的人机交互方法，其特征在于，在从预设表情情感中选择与待定表情情感最接近的作为表情情感分量的步骤中包括：

4.如权利要求1所述的人机交互方法，其特征在于，在所述对所述语音情感分量、表情情感分量和肢体情感分量进行融合确定情感识别结果的步骤中包括：

5.如权利要求1所述的人机交互方法，其特征在于，在针对所述情感识别结果输出多模态的反馈信息的步骤中包括：

6.一种基于情感体系的人机交互装置，其特征在于，包括：

7.如权利要求6所述的人机交互装置，其特征在于，所述语音情感处理单元用于：

8.如权利要求6所述的人机交互装置，其特征在于，所述表情情感处理单元用于：

9.如权利要求6所述的人机交互装置，其特征在于，所述融合单元用于：

10.如权利要求6所述的人机交互装置，其特征在于，所述反馈单元用于：

11.一种人机交互系统，其特征在于，包括：

语音传感装置，其用于采集语音信号；

视觉传感装置，其用于采集表情信号和肢体信号；

如权利要求6-10中任一项所述的人机交互装置，其用于识别语音信号、表情信号和肢体信号表达的情感，并输出所述多模态的反馈信息；