CN105046238A

CN105046238A - 一种面部表情机器人多通道信息情感表达映射方法

Info

Publication number: CN105046238A
Application number: CN201510504043.8A
Authority: CN
Inventors: 张国亮; 王展妮; 赵竹珺; 许童童; 王田
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2015-08-17
Filing date: 2015-08-17
Publication date: 2015-11-11

Abstract

本发明涉及一种面部表情机器人多通道信息情感表达映射方法，预建表情库及输入语音参考模型、输出语音参考模型、语音输出库；采集待识别的人脸图像并通过与表情库对比识别情感表情，采集语音输入并通过与输入语音参考模型对比识别声音表情，将情感表情与声音表情进行融合，获得复合表情指令，面部表情机器人并根据复合表情指令通过与输出语音参考模型对比，从语音输出库中选择相应的语音流数据进行输出；复合表情指令对应设置宏动作指令，面部表情机器人根据宏动作指令进行面部表情表达，实现表情机器人多通信信息情感表达。将视觉表情分析、语音信号处理、表情机器人的动作协调集成融合，反应了视觉表情与语音情感，使该方法具有较高的智能性。

Description

一种面部表情机器人多通道信息情感表达映射方法

技术领域

本发明涉及情感表达机器人领域，更具体地说，涉及一种面部表情机器人多通道信息情感表达映射方法。

背景技术

面部表情机器人对于实现人机自然交互，减少人类与机器人之间的情感距离，具有积极的促进意义。国内外学者对此研究方向展开大量的研究工作：具有代表性的表情机器人有美国麻省理工学院人工智能实验室的Kismet、东京理工大学开发的SAYA机器人、美国汉森机器人技术公司的K-bot和“爱因斯坦”、英国赫特福德大学设计的Nao、日本大阪大学研究的ReplieeQ1、ReplieeQ2和GeminoidTMF、国内哈工大研究的H&F系列机器人等。

与传统的固定工位、固定工序和固定操作场景的工业机器人不同，面部表情机器人对于交互性、智能性和自主性的要求更高，其研究涉及机械设计、自动控制、计算机智能、心理学及认知科学等多领域知识，具有典型的多学科交叉特征。这使得一些研究机构及公司虽然能够设计出一些具有一定情感表达的面部表情机器人，但由于涉及情感表达的技术非常繁多复杂，多数的研究仍处于实验室探索阶段，目前主要存在以下两点不足：

1、表情机器人多通道情感表达欠缺。表情机器人的情感表达涉及交叉学科，如何综合运用多领域知识成为情感表达的一个关键问题。目前文献中大多孤立地应用某一领域知识，如将人脸识别技术与表情机器人结合应用。由于只考虑了人机交互的某一方面，缺乏知识的综合运用，使得机器人不具备多通道情感的表达的能力。

2、缺乏面向表情机器人的通用性情感表达建模方法。人类的脸部不仅运动器官众多，而且器官运动幅度的细微瞬间变化都可能表达不同的情感。因此，在国内的表情机器人研究领域，多数的研究工作仍重点围绕头部的机构设计方面，对于如何将视觉表情分析、语音识别等智能技术应用于表情机器人明显不足，尤其缺乏统一的通用性情感表达建模标准。

发明内容

本发明的目的在于克服现有技术的不足，提供一种利用语音、视觉等多通道信息在人与机器人之间进行人机交互的面部表情机器人多通道信息情感表达映射方法。

本发明的技术方案如下：

一种面部表情机器人多通道信息情感表达映射方法，预建表情库及输入语音参考模型、输出语音参考模型、语音输出库；采集待识别的人脸图像并通过与表情库对比识别情感表情，采集语音输入并通过与输入语音参考模型对比识别声音表情，将情感表情与声音表情进行融合，获得复合表情指令，面部表情机器人并根据复合表情指令通过与输出语音参考模型对比，从语音输出库中选择相应的语音流数据进行输出；复合表情指令对应设置宏动作指令，面部表情机器人根据宏动作指令进行面部表情表达，实现表情机器人多通信信息情感表达。

作为优选，将表情库中的表情归类成为若干不同类别的表情组，对各个表情组中的表情图像提取特征向量，作为训练样本；以特征向量构成得到表情特征空间，基于表情特征空间对待识别的人脸图像进行识别。

作为优选，对各个表情组中的表情图像进行Gabor特征提取，使用多个方向多个尺度的Gabor滤波器组成的滤波器组，对各个表情组中的表情图像进行特征向量提取。

作为优选，对各个表情组的训练样本进行PCA降维，得到表情特征空间，并将训练样本投影到表情特征空间，得到各个表情组的投影系数组集合，计算各个表情组的平均向量。

作为优选，将待识别的人脸图像投影到表情特征空间，得到当前投影系数，将当前投影系统与各个表情组的平均向量进行对比，得到与表情组数量对应的多个差值向量，当前待识别的人脸图像识别为差值向量最小对应的表情组的类别，识别出情感表情。

作为优选，进行对各个表情组中的表情图像提取特征向量前，对表情图像进行预处理，分别为灰度归一化、尺寸归一化和直方图均衡化。

作为优选，进行对各个表情组中的表情图像提取特征向量前，确定表情图像中人脸的位置，并裁剪获得只包含表情区域的图像。

作为优选，将语音输入与输入语音参考模型进行DTW分析，根据语音输入和语调强度，做出不同语气强度量化指标，识别出声音表情。

作为优选，将情感表情与声音表情进行线性融合，获得的复合表情指令的数量为声音表情的数量与情感表情数量的加权求和。

作为优选，将识别出的情感表情与宏动作指令建立映射关系，宏动作指令通过机械参数反映情感表情，将宏动作指令对应的情感表情预先在面部表情机器人上做离线测试，记录面部机构相应的机械参数。

本发明的有益效果如下：

本发明所述的方法是多学科知识的综合运用，有序理顺各种方法之间的关系，建立了一种能够面向表情机器人的通用化情感表达映射方法。将视觉表情分析、语音信号处理、表情机器人的动作协调集成融合，以视觉信息作为表情分析的内核，辅助语音语调强度分析的融合方法，充分利用各种方法各自优点，既反应了视觉表情分析的结果，也体现了语音情感的状态，使该方法具有较高的智能性。

本发明中，Gabor小波特征结合类内多次PCA的表情识别方法不仅排除了训练样本中不同表情对于特征空间描述的问题，而且方法简便易行，便于应用推广。宏指令的表情动作映射方法避免了单独控制电机，进行表情动作协调、同步等繁琐问题。

附图说明

图1是本发明所述的方法的映射模型。

具体实施方式

以下结合附图及实施例对本发明进行进一步的详细说明。

本发明所述的面部表情机器人多通道信息情感表达映射方法涉及多通道表情机器人情感表达映射模型如图1所示，共包含视觉信息通道、语音信息通道以及面部表情机器人机构本体表达通道三个部分。

本发明以视觉处理作为情感分析的内核，并将其与语音输出及机构动作映射融合，从而达到多通道表情机器人情感表达的目的。本发明所述的方法先预建表情库及输入语音参考模型、输出语音参考模型、语音输出库；采集待识别的人脸图像并通过与表情库对比识别情感表情，采集语音输入并通过与输入语音参考模型对比识别声音表情，将情感表情与声音表情进行融合，获得复合表情指令，面部表情机器人并根据复合表情指令通过与输出语音参考模型对比，从语音输出库中选择相应的语音流数据进行输出；复合表情指令对应设置宏动作指令，面部表情机器人根据宏动作指令进行面部表情表达，实现表情机器人多通信信息情感表达。

一、视觉信息处理部分：

(1)控制器的选择及设置。

选择PC机或笔记本电脑作为信息采集、传感及动作映射的控制单元，对于本系统而言，笔记本电脑更为方便，因为笔记本自带摄像头及麦克风，可以直接用于视频图像和音频信息的采集，避免了PC机需要额外配置相关驱动的问题。

(2)建立表情库。

针对不同的应用需求，选择用于表情分析的识别训练样本库。有两种方案可供选择，一种是选择已有的表情库，如考虑到本发明针对中国人脸部特征，可选择由日本ART媒体信息科学实验室提供的JAFFE库，该库提供了10名日本年轻女性的7种基本表情，较适于女性操作者表情分析识别。另一种可以根据特定需求，选择指定的操作者在同一操作场景下，利用笔记本自带摄像头采集常见的七种表情，并将其保存至笔记本硬件系统中，作为特定用途的自建表情库。本实施例采用前一种方案。

表情库选定后按照表情类别分类存储在指定的目录下，从表情库中已知表情类别的表情图像中提取特征向量。本发明中，将表情库中的表情归类成为若干不同类别的表情组，对各个表情组中的表情图像提取特征向量，作为训练样本；以特征向量构成得到表情特征空间，基于表情特征空间对待识别的人脸图像进行识别。

(3)图像的前期预处理。

进行对各个表情组中的表情图像提取特征向量前，对表情图像进行预处理，避免图片的质量、背景、光照等外在干扰因素影响之后的识别操作。分别为灰度归一化、尺寸归一化和直方图均衡化。首先，考虑到后续的人脸识别采用harr特征级联分类方法需要灰度图像，而一般摄像头采集的图像是具有彩色的图像，故预处理的第一步是将彩色图像用固定阈值法转换为灰度图像。其次，摄像头实时采集的图像的尺寸与训练样本库中的图像尺寸可能不同，因此需要采用双线性内插法实现图片大小的归一化，使得图像分辨率均为30*30pixel。最后，为避免光照对于后续实时识别的影响，采用直方图均衡化的方法把采集图像的灰度直方图从比较集中的某个灰度区间拉伸至整个灰度范围，从而增强图像的对比度。

(4)人脸图像的识别定位。

进行对各个表情组中的表情图像提取特征向量前，确定表情图像中人脸的位置，并裁剪获得只包含表情区域的图像。本发明采用目前较为成熟的基于harr特征的级联分类人脸识别方法。将预处理图像的harr特征送入由样本训练的级联分类器，获得人脸在表情图像中的位置信息，裁剪后得到尽可能只包含表情的图像区域。

(5)特征提取。

对各个表情组中的表情图像进行Gabor特征提取，使用多个方向多个尺度的Gabor滤波器组成的滤波器组，对各个表情组中的表情图像进行特征向量提取。表情特征提取与选择是表情识别的关键技术，指从像素数据提取到人脸的局部特征情况，并对提取到的特征进行降维，保留重要的特征，提取出的向量被用来进行后续的识别。

本实施例中，对定位后的表情图像进行Gabor特征提取，使用多个方向多个尺度的Gabor滤波器组成的滤波器组来提取人脸表情图像的Gabor特征。如，选取5个尺度，即v＝0,1,2,3,4，每种尺度的小波可进一步衍生8个方向的小波，即μ＝0,1,2,3,4,5,6,7。这样定义了由5×8个Gabor小波组成的小波族用于提取表情特征。

(6)特征选择和表情识别。

本发明中，对各个表情组的训练样本进行PCA(PrincipalComponentsAnalysis，主成分分析)降维，得到表情特征空间，并将训练样本投影到表情特征空间，得到各个表情组的投影系数组集合，计算各个表情组的平均向量。

使用类内PCA对上一步得到的图像特征(即为训练样本)进行处理。传统的PCA方法是指所有不同类别的训练样本只进行一次处理，得到所有训练样本的最主要的特征。由于传统的PCA算法要求训练样本符合高斯分布，即如果训练样本中的复杂因素(即不同的表情)会造成协方差矩阵不能很好地描述特征空间。

而本发明由于首先人工的对所有训练样本进行分类，将所有表情图像分为害怕、惊讶、伤心、生气、喜悦、厌恶、中性七类，使得每一个类中的表情是一样的，排除了一些复杂因素，更接近高斯分布。

分好类之后对每一类的训练样本进行PCA降维及识别操作，将待识别的人脸图像投影到表情特征空间，得到当前投影系数，将当前投影系统与各个表情组的平均向量进行对比，得到与表情组数量对应的多个差值向量，当前待识别的人脸图像识别为差值向量最小对应的表情组的类别，识别出情感表情。

计算各类训练样本的协方差矩阵为R，以及出矩阵R的特征值及相应的特征向量，选取最大的前k个特征值对应的特征向量，并将其正交归一化，构成“特征脸(eigenface)”，得到表情特征空间。将表情图像映射到由表情特征空间上，点间距离的远近和相关性的大小就反映了相应表情样本所属类型有无差异。

将每类表情的全部训练样本投影到该类的表情特征空间，得到投影系数组集合(有C类表情，就一个有C个系数组集合)，并计算每组集合的平均向量μ。

将待识别的人脸图像投影到每个类的表情特征空间中，得到当前投影系数，比较当前投影系数与七组平均投影系数的距离，获得7个距离特征值，哪个距离最短，则当前图像隶属于距离最短的表情类别。

二、语音信息处理部分：

(1)语音信息处理分为输入和输出两部分，考虑到操作者与机器人交互时可能没有说话，因此语音输入只是作为表情视觉分析的辅助单元。在语音输入过程中，将语音输入与输入语音参考模型进行DTW分析，根据语音输入和语调强度，做出不同语气强度量化指标，识别出声音表情。本实施例中，对说话者状态做出兴奋-愉悦-消极三种语气强度量化指标。

(2)在多任务协调模块中，将语气强度量化指标(声音表情)与视觉分析获得的基本情感(情感表情)做线性融合，将情感表情与声音表情进行线性融合，获得的复合表情指令的数量为声音表情的数量与情感表情数量的加权求和。本实施例可获得21种复合语音输出指令。

(3)根据复合语音输出指令，依据预定义的输出语音参考模型，从语音输出库中选择相应的语音流数据，这样，向用户反馈的语音输出既反应了视觉上的情感表情分析的结果，也体现了听觉上的声音表情的状态。

三、面部机构情感表达映射方法

(1)依据多任务协调结果，将识别到的情感表情与控制面部表情机器人的微控制器做串口通讯，使其做出相同的面部表情。其关键点是将分类识别出的情感表情与宏动作指令建立映射关系，即，不单独控制某个面部器官个体，而把每个个性表情作为一个整体来处理，如宏动作指令1对应非常高兴，则嘴部大幅张开、嘴角上翘，眉眼之间协调呈新月状、眼睑收窄等。

(2)宏动作指令通过机械参数反映情感表情，将宏动作指令对应的情感表情预先在面部表情机器人上做离线测试，记录面部机构相应的机械参数，如记录相应电机变化角度，然后在宏指令中包含一组变化角度即可，避免了单独控制电机，进行表情运动协调同步等繁琐问题。

上述实施例仅是用来说明本发明，而并非用作对本发明的限定。只要是依据本发明的技术实质，对上述实施例进行变化、变型等都将落在本发明的权利要求的范围内。

Claims

1.一种面部表情机器人多通道信息情感表达映射方法，其特征在于，预建表情库及输入语音参考模型、输出语音参考模型、语音输出库；采集待识别的人脸图像并通过与表情库对比识别情感表情，采集语音输入并通过与输入语音参考模型对比识别声音表情，将情感表情与声音表情进行融合，获得复合表情指令，面部表情机器人并根据复合表情指令通过与输出语音参考模型对比，从语音输出库中选择相应的语音流数据进行输出；复合表情指令对应设置宏动作指令，面部表情机器人根据宏动作指令进行面部表情表达，实现表情机器人多通信信息情感表达。

2.根据权利要求1所述的面部表情机器人多通道信息情感表达映射方法，其特征在于，将表情库中的表情归类成为若干不同类别的表情组，对各个表情组中的表情图像提取特征向量，作为训练样本；以特征向量构成得到表情特征空间，基于表情特征空间对待识别的人脸图像进行识别。

3.根据权利要求2所述的面部表情机器人多通道信息情感表达映射方法，其特征在于，对各个表情组中的表情图像进行Gabor特征提取，使用多个方向多个尺度的Gabor滤波器组成的滤波器组，对各个表情组中的表情图像进行特征向量提取。

4.根据权利要求3所述的面部表情机器人多通道信息情感表达映射方法，其特征在于，对各个表情组的训练样本进行PCA降维，得到表情特征空间，并将训练样本投影到表情特征空间，得到各个表情组的投影系数组集合，计算各个表情组的平均向量。

5.根据权利要求4所述的面部表情机器人多通道信息情感表达映射方法，其特征在于，将待识别的人脸图像投影到表情特征空间，得到当前投影系数，将当前投影系统与各个表情组的平均向量进行对比，得到与表情组数量对应的多个差值向量，当前待识别的人脸图像识别为差值向量最小对应的表情组的类别，识别出情感表情。

6.根据权利要求2所述的面部表情机器人多通道信息情感表达映射方法，其特征在于，进行对各个表情组中的表情图像提取特征向量前，对表情图像进行预处理，分别为灰度归一化、尺寸归一化和直方图均衡化。

7.根据权利要求2所述的面部表情机器人多通道信息情感表达映射方法，其特征在于，进行对各个表情组中的表情图像提取特征向量前，确定表情图像中人脸的位置，并裁剪获得只包含表情区域的图像。

8.根据权利要求1所述的面部表情机器人多通道信息情感表达映射方法，其特征在于，将语音输入与输入语音参考模型进行DTW分析，根据语音输入和语调强度，做出不同语气强度量化指标，识别出声音表情。

9.根据权利要求1所述的面部表情机器人多通道信息情感表达映射方法，其特征在于，将情感表情与声音表情进行线性融合，获得的复合表情指令的数量为声音表情的数量与情感表情数量的加权求和。

10.根据权利要求1所述的面部表情机器人多通道信息情感表达映射方法，其特征在于，将识别出的情感表情与宏动作指令建立映射关系，宏动作指令通过机械参数反映情感表情，将宏动作指令对应的情感表情预先在面部表情机器人上做离线测试，记录面部机构相应的机械参数。