CN114918935B

CN114918935B - 基于网络推理与电机驱动的表情识别与模拟系统

Info

Publication number: CN114918935B
Application number: CN202210541691.0A
Authority: CN
Inventors: 刘娜; 张伟; 李迎帆; 李清都; 王佳琦; 朱永同
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2024-04-02
Anticipated expiration: 2042-05-17
Also published as: CN114918935A

Abstract

本发明提出基于网络推理与电机驱动的表情识别与模拟系统，包括视觉模块、控制模块、推理模块和驱动模块，视觉模块采集人脸信息，并将人脸信息传输给控制模块，控制模块控制推理模块对人脸信息进行识别，获得对应的微表情特征，控制模块根据微表情特征控制驱动模块进行模拟表情的变换；推理模块为基于U‑Net网络的深度学习模型；驱动模块包括设于机器人头部的至少8个控制组。在本申请中,通过表情识别与模拟系统使机器人赋予人的动态特征，让机器人跟人交流更加自然，交流体验更好。基于U‑Net网络的构建深度学习模型，并不依赖于传统的传感器，图像处理等方法，在利用构建的深度学习模型进行人脸表情模仿的情况下，能极大的减少了对硬件系统的依赖。

Description

基于网络推理与电机驱动的表情识别与模拟系统

技术领域

本发明涉及智能仿生机器人基础研究领域，尤其涉及一种基于网络推理与电机驱动的表情识别与模拟系统。

背景技术

随着人口老龄化趋势的加剧和工业机器人技术的日趋成熟与完善，机器人开始逐步走入医疗、保健、家庭、体育和服务性行业，对机器人的要求也从简单重复的机械动作提升为研制具有高度智能型、自主性以及与其他智能体交互的仿人机器人。表情机器人就是典型的仿人机器人，它具有和人类相似的头部特征，可以模仿人类的表情，为人和机器人的深入研究提供了一个平台。

不同于传统的机器人，人们希望表情机器人具有真实的情感，能同人类进行自然的交流。这就要求表情机器人具有识别并理解人类情感，并对自身情感进行表达的能力。人类之间进行交流时，情感的表达主要通过语言，声音和面部表情这三种方式，而大多数的情感信息都由面部表情传达。因此，对人类面部表情的识别，是机器人理解人类感情的重要防守。在识别并理解了人类的感情后，机器人也需要通过控制表情对自身的情感进行表达。人脸表情识别的研究，可以赋予机器人识别情感的能力，对表情机器人头部运动的研究，可以赋予机器人表达情感的能力。具有上述两种能力的机器人，即可像人类一样同他人进行交流，才能在情感层面上实现真正的仿人。

现有技术中对于人脸微表情的识别，都是基于‘设计的局部规则区域’提取人脸局部特征。或者直接使用‘人脸的全局特征’进行识别人脸微表情，没有考虑到人脸微表情之间由于肌肉的运动会产生‘强相关’或者‘负相关’关系，同时，也没有考虑每个人脸微表情的激活区域是不规则的区域、并且可能是非连续区域等情况。此外，现有的人脸模型部署在硬件上时，由于受硬件算力限制，存在实时性等问题。

发明内容

本发明的目的是为了提供一种基于网络推理与电机驱动的表情识别与模拟系统，能基于U-Net的深度学习模型对人脸各部位的局部特征进行提取识别。

为了实现上述目的，本发明提出一种基于网络推理与电机驱动的表情识别与模拟系统，包括视觉模块、控制模块、推理模块和驱动模块，所述视觉模块采集人脸信息，并将所述人脸信息传输给所述控制模块，所述控制模块控制所述推理模块对所述人脸信息进行识别，获得对应的微表情特征，所述控制模块根据所述微表情特征控制所述驱动模块进行模拟表情的变换；

所述推理模块为基于U-Net网络的深度学习模型；

所述驱动模块包括设于机器人头部的至少8个控制组，各所述控制组分别控制所述机器人头部的左眉、右眉、左眼、右眼、左嘴角、右嘴角、嘴巴和脖颈。

进一步地，所述视觉模块包括相机，所述控制模块为中央cpu单元。

进一步地，所述机器人头部的左眉、右眉、左嘴角、右嘴角和嘴巴处的所述控制组均由一个舵机控制进行模拟表情的变换，所述机器人头部的左眼和右眼处的所述控制组均由两个舵机控制进行模拟表情的变换，所述机器人头部的脖颈处的所述控制组由三个舵机控制进行模拟表情的变换。

进一步地，所述深度学习模型对所述人脸信息的识别的执行流程依次为：获取人脸全局特征、获取微表情局部特征、获取微表情区域特征和识别人脸微表情特征。

进一步地，所述深度学习模型的构建方法，包括以下步骤：

A1：建立人脸表情的标准数据库；

A2：构建深度卷积神经网络模型；

A3：利用所述标准数据库在所述网络模型内进行识别训练，生成的人脸表情识别模型即为所述深度学习模型。

进一步地，所述标准数据库至少包括皱眉、睁眼、闭眼、张嘴、闭嘴、翘嘴角、瘪嘴角、点头、歪头和摇头的表情数据。

进一步地，所述控制模块通过所述深度学习模型对所述人脸信息进行识别，并通过所述驱动模块进行模拟表情的变换，包括以下步骤：

B1：所述深度学习模型将所述人脸信息的图像进行调节处理；

B2：处理后的图像通过所述U-Net网络提取图像特征，生成多尺度的特征图像，即获得不同尺寸的所述特征图像；

B3：所述特征图像通过Keypoint match进行人脸关键点的匹配；

B4：所述特征图像通过Offset calculation进行偏移量计算，并根据所述标准数据库的人脸信息，对所述人脸关键点的信息进行对齐矫正，获得识别后的表情信息；

B5：所述控制模块根据识别后的所述表情信息，向所述驱动模块发出对应的驱动信号，驱动各所述控制组对应进行模拟表情的变换，完成表情模仿。

进一步地，将识别训练后的所述人脸表情识别模型进行压缩处理，再通过TensorRT加速对所述人脸表情识别模型进行推理加速，获得可使用的所述深度学习模型。

进一步地，将所述深度学习模型部署在边缘设备上，再将所述边缘设备安装至巡检机器人上，所述巡检机器人快速对所述深度学习模型完成垃圾溢满的检测处理。

进一步地，所述人脸表情识别模型进行识别训练的步骤如下：

Step1：初始化分类器网络Backbone、多尺度特征提取网络Neck、网络参数w和网络参数b；

Step2：将所述人脸信息的图像输入所述分类器网络Backbone，再传递给所述多尺度特征提取网络Neck进行图像特征的提取，提取所述图像中的人脸表情信息，获得特征图像；

Step3：图像经所述多尺度特征提取网络Neck处理后，将通过下采样与多尺度融合的所述特征图像的数据传入Prediction Head；

Step4：所述Prediction Head对输入的所述特征图像进行通道与空间的计算，获得anchor的位置和置信率作为人脸关键点的信息；

Step5：Offset calculation对所述特征图像进行偏移量计算，并根据所述人脸关键点的信息与所述标准数据库的比对，进行对齐矫正操作；

Step6：将所述Prediction Head和Offset calculation的计算结果进行后期处理，通过NMS非极大值抑制，从得到的预测框中选取置信率最大的作为识别结果，从而获得人脸预测表情结果；

Step7：所述Prediction Head和Offset calculation通过反向传递loss值,利用梯度下降法，计算网络参数w和网络参数b，并利用加权损失值更新网络权重；

Step8：依次重复Step2、Step3、Step4、Step5、Step6和Step7，直至所述loss趋于平稳，不再下降，则生成的所述人脸表情识别模型收敛。

与现有技术相比，本发明的有益效果主要体现在：通过表情识别与模拟系统使机器人赋予人的动态特征，让机器人跟人交流更加自然，交流体验更好。基于U-Net网络的构建深度学习模型，并不依赖于传统的传感器，图像处理等方法，在利用构建的深度学习模型进行人脸表情模仿的情况下，能极大的减少了对硬件系统的依赖。同时，通过引入的模型压缩、模型加速等方法，为表情机器人的表情识别与模拟系统提供最优选地模型，有效地降低硬件部署的成本。

附图说明

图1为本发明中基于网络推理与电机驱动的表情识别与模拟系统的控制结构示意图；

图2为本发明中驱动模块各控制组的驱动结构示意图；

图3为本发明中深度学习模型进行识别的执行流程；

图4为本发明中对人脸表情进行表情识别并模拟的执行流程；

图5为本发明中深度学习模型构建的检测流程。

具体实施方式

下面将结合示意图对本发明的基于网络推理与电机驱动的表情识别与模拟系统进行更详细的描述，其中表示了本发明的优选实施例，应该理解本领域技术人员可以修改在此描述的本发明，而仍然实现本发明的有利效果。因此，下列描述应当被理解为对于本领域技术人员的广泛知道，而并不作为对本发明的限制。

在本发明的描述中，需要说明的是，对于方位词，如有术语“中心”，“横向”、“纵向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示方位和位置关系为基于附图所示的方位或位置关系，仅是为了便于叙述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定方位构造和操作，不能理解为限制本发明的具体保护范围。

在本发明中，除另有明确规定和限定，如有术语“组装”、“相连”、“连接”术语应作广义去理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；也可以是机械连接；可以是直接相连，也可以是通过中间媒介相连，可以是两个元件内部相连通。对于本领域普通技术人员而言，可以根据具体情况理解上述的术语在本发明中的具体含义。

在下列段落中参照附图以举例方式更具体地描述本发明。根据下面说明，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

如图1所示，本发明提出一种基于网络推理与电机驱动的表情识别与模拟系统，包括视觉模块、控制模块、推理模块和驱动模块，视觉模块包括相机，控制模块为中央cpu单元，推理模块为基于U-Net网络的深度学习模型，驱动模块包括设于机器人头部的至少8个控制组。视觉模块采集人脸信息，并将人脸信息传输给控制模块，控制模块控制推理模块对人脸信息进行识别，获得对应的微表情特征，控制模块根据微表情特征控制驱动模块进行模拟表情的变换，根据不同的表情特征，驱动模块控制不同的控制组仅有相应的操作动作。

具体地，如图2所示，各控制组分别控制机器人头部的左眉、右眉、左眼、右眼、左嘴角、右嘴角、嘴巴和脖颈。其中，机器人头部的左眉、右眉、左嘴角、右嘴角和嘴巴处的控制组均由一个舵机控制进行模拟表情的变换，机器人头部的左眼和右眼处的控制组均由两个舵机控制进行模拟表情的变换，机器人头部的脖颈处的控制组由三个舵机控制进行模拟表情的变换。即舵机1控制左眉，舵机2控制右眉，舵机3、4控制左眼，舵机5、6控制右眼，舵机7控制左嘴角，舵机8控制右嘴角，舵机9控制嘴巴，舵机10、11、12控制脖颈，以控制机器人头部进行挑眉、眨眼、嘴角上扬、嘴角下撇、嘴巴开闭、歪头、点头、摇头等一系列表情动作。

进一步地，如图3所示，深度学习模型对人脸信息的识别的执行流程依次为：获取人脸全局特征、获取微表情局部特征、获取微表情区域特征和识别人脸微表情特征。

进一步地，如图4所示，控制模块通过深度学习模型对人脸信息进行识别，并通过驱动模块进行模拟表情的变换，包括以下步骤：

B1：深度学习模型将人脸信息的图像进行调节处理，缩放调整图像的大小为640×640，以符合网络的输入要求；

B2：处理后的图像通过U-Net网络提取图像特征，生成多尺度的特征图像，即获得不同尺寸的特征图像；

B3：特征图像通过Keypoint match进行人脸关键点的匹配；

B4：特征图像通过Offset calculation进行偏移量计算，并根据标准数据库的人脸信息，对人脸关键点的信息进行对齐矫正，获得识别后的表情信息；

B5：控制模块根据识别后的表情信息，向驱动模块发出对应的驱动信号，驱动各控制组对应进行模拟表情的变换，完成表情模仿。例如识别到皱眉表情，控制模块通过驱动模块控制舵机1、2转动相应角度，是机器人模仿人类皱眉动作。

进一步地，深度学习模型的构建方法，包括以下步骤：

A1：建立人脸表情的标准数据库，标准数据库至少包括皱眉、睁眼、闭眼、张嘴、闭嘴、翘嘴角、瘪嘴角、点头、歪头和摇头的表情数据；

A2：构建深度卷积神经网络模型；

A3：利用标准数据库在网络模型内进行识别训练，生成的人脸表情识别模型即为深度学习模型。

进一步地，在步骤A3中，人脸表情识别模型进行识别训练的步骤如下：

Step2：将人脸信息的图像输入分类器网络Backbone，再传递给多尺度特征提取网络Neck进行图像特征的提取，提取图像中的人脸表情信息，获得特征图像；

Step3：图像经多尺度特征提取网络Neck处理后，将通过下采样与多尺度融合的特征图像的数据传入Prediction Head；

Step4：Prediction Head对输入的特征图像进行通道与空间的计算，获得anchor的位置和置信率作为人脸关键点的信息；

Step5：Offset calculation对特征图像进行偏移量计算，并根据人脸关键点的信息与标准数据库的比对，进行对齐矫正操作；

Step6：将Prediction Head和Offset calculation的计算结果进行后期处理，通过NMS非极大值抑制，从得到的预测框中选取置信率最大的作为识别结果，从而获得人脸预测表情结果；

Step7：Prediction Head和Offset calculation通过反向传递loss值,利用梯度下降法，计算网络参数w和网络参数b，并利用加权损失值更新网络权重；

Step8：依次重复Step2、Step3、Step4、Step5、Step6和Step7，直至loss趋于平稳，不再下降，则生成的人脸表情识别模型收敛。

人脸表情识别模型进行识别训练算法的伪代码如下：

Input:Training Data D,batch size n,max iteration T.

Output:Classifier netword parameter w.

1:Initial netword parameter w and b

2:for t＝0to T-1do

3:{x,y}→backbone_net(D,n,w,b)+neck_net(D,n,w,b)

4:{x,y}→attention_net(D,n,w,b)+head_net(D,n,w,b)

5:Updata w.

6:Updata b.

7:end for

进一步地，如图5所示，为了避免人脸模型部署在硬件上时，由于硬件算力的限制所产生的实时性等问题。识别训练后的人脸表情识别模型，通过剪枝以进行压缩处理，去除掉不重要的层和参数，让模型尽可能轻量化。再通过TensorRT加速对人脸表情识别模型进行推理加速，TensorRT加速通过将浮点型运算转化为整型运算，大大减少参数的运算量，使得模型的推理速度大幅提升，从而获得的深度学习模型部署在边缘设备上，并在边缘设备安装至巡检机器人上后，巡检机器人能够快速完成对深度学习模型的垃圾溢满的检测处理。

本申请通过剪枝、量化等手段得到轻量化的模型，并使用TensorRT加速模型推理以满足检测速度的要求，避免人脸表情识别模型产生的实时性等问题。

综上，在本实施例中，提出的基于网络推理与电机驱动的表情识别与模拟系统，通过表情识别与模拟系统使机器人赋予人的动态特征，让机器人跟人交流更加自然，交流体验更好。基于U-Net网络的构建深度学习模型，并不依赖于传统的传感器，图像处理等方法，在利用构建的深度学习模型进行人脸表情模仿的情况下，能极大的减少了对硬件系统的依赖。同时，通过引入的模型压缩、模型加速等方法，为表情机器人的表情识别与模拟系统提供最优选地模型，有效地降低硬件部署的成本。

此外，由于表情机器人与人有高度的相似性，在很多场景下可以代替人类，也促进了人与机器人的深入交流，例如外派、办公、医疗等，尤其在疾病传染的大范围环境下，仿人机器人可以通过表情识别与模拟系统代替人类完成众多非必要密切接触的工作，对促进社会环境稳定和保障人员安全具有十分大的帮助作用。

上述仅为本发明的优选实施例而已，并不对本发明起到任何限制作用。任何所属技术领域的技术人员，在不脱离本发明的技术方案的范围内，对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动，均属未脱离本发明的技术方案的内容，仍属于本发明的保护范围之内。

Claims

1.一种基于网络推理与电机驱动的表情识别与模拟系统，其特征在于，包括视觉模块、控制模块、推理模块和驱动模块，所述视觉模块采集人脸信息，并将所述人脸信息传输给所述控制模块，所述控制模块控制所述推理模块对所述人脸信息进行识别，获得对应的微表情特征，所述控制模块根据所述微表情特征控制所述驱动模块进行模拟表情的变换；

所述推理模块为基于U-Net网络的深度学习模型；

所述深度学习模型的构建方法，包括以下步骤：

A1：建立人脸表情的标准数据库；所述标准数据库至少包括皱眉、睁眼、闭眼、张嘴、闭嘴、翘嘴角、瘪嘴角、点头、歪头和摇头的表情数据；

A2：构建深度卷积神经网络模型；

A3：利用所述标准数据库在所述网络模型内进行识别训练，生成的人脸表情识别模型即为所述深度学习模型；

所述驱动模块包括设于机器人头部的至少8个控制组，各所述控制组分别控制所述机器人头部的左眉、右眉、左眼、右眼、左嘴角、右嘴角、嘴巴和脖颈；

所述控制模块通过所述深度学习模型对所述人脸信息进行识别，并通过所述驱动模块进行模拟表情的变换，包括以下步骤：

B3：所述特征图像通过Keypoint match进行人脸关键点的匹配；

2.根据权利要求1所述的基于网络推理与电机驱动的表情识别与模拟系统，其特征在于，所述视觉模块包括相机，所述控制模块为中央cpu单元。

3.根据权利要求1所述的基于网络推理与电机驱动的表情识别与模拟系统，其特征在于，所述机器人头部的左眉、右眉、左嘴角、右嘴角和嘴巴处的所述控制组均由一个舵机控制进行模拟表情的变换，所述机器人头部的左眼和右眼处的所述控制组均由两个舵机控制进行模拟表情的变换，所述机器人头部的脖颈处的所述控制组由三个舵机控制进行模拟表情的变换。

4.根据权利要求1所述的基于网络推理与电机驱动的表情识别与模拟系统，其特征在于，所述深度学习模型对所述人脸信息的识别的执行流程依次为：获取人脸全局特征、获取微表情局部特征、获取微表情区域特征和识别人脸微表情特征。

5.根据权利要求1所述的基于网络推理与电机驱动的表情识别与模拟系统，其特征在于，将识别训练后的所述人脸表情识别模型进行压缩处理，再通过TensorRT加速对所述人脸表情识别模型进行推理加速，获得可使用的所述深度学习模型，并将所述深度学习模型部署在边缘设备上。

6.根据权利要求5所述的基于网络推理与电机驱动的表情识别与模拟系统，其特征在于，所述人脸表情识别模型进行识别训练的步骤如下：

Step8：依次重复Step2、Step3、Step4、Step5、Step6和Step7，直至所述loss值趋于平稳，不再下降，则生成的所述人脸表情识别模型收敛。