CN113705440A

CN113705440A - 一种面向教育机器人视觉理解的头部姿态估计方法及系统

Info

Publication number: CN113705440A
Application number: CN202110994920.XA
Authority: CN
Inventors: 刘海; 张昭理; 时振武; 童宇航; 吴远芳; 李林峰; 赵万里; 张胜强
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-11-26
Anticipated expiration: 2041-08-27
Also published as: CN113705440B

Abstract

本发明公开了一种面向教育机器人视觉理解的头部姿态估计方法及系统。该方法包括步骤：分别获取不同时刻的教育机器人采集的学习者的头部姿态的3D点云数据和红外图像数据；分别对不同时刻的所述3D点云数据和所述红外图像数据进行预处理；分别将预处理后的不同时刻的所述3D点云数据和所述红外图像数据输入到训练好的头部姿态识别模型，获取不同时刻的头部姿态识别结果；根据不同时刻的头部姿态识别结果的变化，确定学习者的动作指令，根据所述动作指令生成所述教育机器人的控制指令。本发明可以使教育机器人准确理解学习者的意图，促进精准化教学和个性化学习。

Description

一种面向教育机器人视觉理解的头部姿态估计方法及系统

技术领域

本发明属于模式识别与信息处理技术领域，更具体地，涉及一种面向教育机器人视觉理解的头部姿态估计方法及系统。

背景技术

学习者头部姿态估计是课堂教学环境下人与机器人交互中的一种重要手段。它是机器人视觉中的一个关键问题，是基于图像的行为识别的基础技术。头部姿态估计可广泛用于辅助驾驶、虚拟现实、人机交互、残疾人辅助等。由于低年龄儿童语言系统尚未发育完全，对于情感的表达更多是用于肢体，尤其是点头、摇头、注视等。伴随着近年来教育机器人的发展，头部姿态估计用于教育机器人场景的越来越多。头部姿态估计的难点在于：①头部是一个类似刚体，除面部外没有更多的细节辅助信息；②不同性别、年龄、民族的头部信息差异大；③不同远近尺度的信息变化大；④易受到学习环境光照变化的影响等。

传统的头部姿态估计方法大多是基于2D图像的卷积神经网络模型。该模型方法的基本流程为：①通过2D训练图片进入2D卷积处理，通过不断训练来更新卷积内的参数；②通过卷积层后，进入最大池化层和全局归一化层；③得出3个欧拉角，计算预测值与真实值的损失，进行反向传播；

但是，该类传统方法的局限性体现在两方面。首先，训练的图像都是2D图像，缺少三维空间信息，不能准确捕获离教育机器人较远的学习者的图像信息。其次，传统头部姿态估计方法的另一个局限就是学习环境的光照变化，光照过强或过弱，都会导致头部细节的丢失，有时还会产生阴影。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种面向教育机器人视觉理解的头部姿态估计方法及系统，可以使教育机器人准确理解学习者的意图，促进精准化教学和个性化学习。

为实现上述目的，按照本发明的第一方面，提供了一种面向教育机器人视觉理解的头部姿态估计方法，包括步骤：

分别获取不同时刻的教育机器人采集的学习者的头部姿态的3D点云数据和红外图像数据；

分别对不同时刻的所述3D点云数据和所述红外图像数据进行预处理；

分别将预处理后的不同时刻的所述3D点云数据和所述红外图像数据输入到训练好的头部姿态识别模型，获取不同时刻的头部姿态识别结果；

根据不同时刻的头部姿态识别结果的变化，确定学习者的动作指令，根据所述动作指令生成所述教育机器人的控制指令。

优选的，所述头部姿态识别模型包括第一分支、第二分支、concat拼接层和基于全连接层的回归网络，所述第一分支包括3D图卷积神经网络和全连接层，所述第二分支包括Resnet网络和全连接层；

所述第一分支用于从输入的所述3D点云数据中提取第一特征向量；

所述第二分支用于从输入的所述红外图像数据中提取第二特征向量；

所述concat拼接层用于对所述第一特征向量和所述第二特征向量进行拼接；

所述分类网络用于根据拼接后的特征向量输出头部姿态识别结果。

优选的，所述3D图卷积神经网络包括第一注意力机制、第一层3D图卷积、第二注意力机制、第二层3D图卷积和第三注意力机制；

所述第一注意力机制用于接收所述3D点云数据，产生全局注意信息并输入给所述第一层3D图卷积；

所述第一层3D图卷积用于提取特征信息并输出给所述第二注意力机制；

所述第二注意力机制用于产生精细化注意信息并输出给所述第二层3D图卷积；

所述第二层3D图卷积用于进一步提取特征信息并输出给所述第三注意力机制。

优选的，其特征在于，所述第一注意力机制、所述第二注意力机制、所述第三注意力机制均为8头部注意力机制，所述第二注意力机制和所述第三注意力机制分别将参数乘以各自权重系数加到所述第一注意力机制上，来调整全局的注意信息，所述第一层3D图卷积、所述第二层3D图卷积的参数共享。

优选的，所述分类网络包括3个连续的全连接层，这3个全连接层相互间也有连接。

优选的，所述头部姿态识别模型的训练包括步骤：

构建训练样本集和测试样本集；

利用训练样本集对所述头部姿态识别模型进行训练，将训练样本的预测头部姿态欧拉角与真实头部姿态欧拉角通过MSE损失函数来计算损失，使用Nadam优化器进行梯度优化，初始学习率设置为0.01，在几个epoch训练轮次之后通过余弦退火算法来降低学习率，使网络学习得更稳定，直到损失值不再下降为止；

利用测试样本集对所述头部姿态识别模型进行微调学习，学习率设置为5e-6。

优选的，所述确定学习者的动作指令，根据所述动作指令生成所述教育机器人的控制指令，包括步骤：

若识别到当前时刻的头部姿态与上一时刻的头部姿态变化超过预设角度阈值，则视为学习者发出动作指令，进一步判断该动作指令是否为预设动作指令之一，若是则生成所述教育机器人的控制指令。

按照本发明的第二方面，提供了一种面向教育机器人视觉理解的头部姿态估计系统，包括：

获取模块，用于分别获取不同时刻的教育机器人采集的学习者的头部姿态的3D点云数据和红外图像数据；

预处理模块，用于分别对不同时刻的所述3D点云数据和所述红外图像数据进行预处理；

识别模块，用于分别将预处理后的不同时刻的所述3D点云数据和所述红外图像数据输入到训练好的头部姿态识别模型，获取不同时刻的头部姿态识别结果；

控制模块，用于根据不同时刻的头部姿态识别结果的变化，确定学习者的动作指令，根据所述动作指令生成所述教育机器人的控制指令。

总体而言，本发明与现有技术相比，具有有益效果：

(1)因此，本发明引入3D扫描仪作为传感器，获取结构光数据，通过采集深度信息，有效应对尺度变化的影响。结构光对人体头部进行重建模，可以获取更多头部细节信息，增加姿态估计的准确性。

(2)在教育机器人平台上构建的红外相机传感器，可不受可见光的光照变化影响，保留更多细节。

(3)在实际的家庭教育场景中，各种影响因素非常复杂，光照影响、人机相对位置、其余干扰遮挡、多个学生主体选择等，两种模态的信息经过三层密集连接融合，相互辅助，极大的提高的姿态的识别准确率，可以对教育机器人做出更准确的行为指令。

附图说明

图1是本发明实施例的面向教育机器人视觉理解的头部姿态估计方法的流程图；

图2是本发明实施例的教育机器人结构及应用示意图；

图3是本发明实施例的头部姿态识别模型的网络示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明实施例的是一种面向教育机器人视觉理解的头部姿态估计方法，包括步骤：

步骤1：分别获取不同时刻的教育机器人采集的学习者的头部姿态的3D点云数据和红外图像数据。

具体地，如图2所示，可以通过固定在教育机器人身上的3D扫描仪和红外摄像机来捕获两种模态的人体头部姿态信息。

可以预设视觉捕获间隔时间，每隔预设时间触发3D扫描仪和红外摄像机采集3D点云数据和红外图像数据。

步骤2：分别对不同时刻的3D点云数据和红外图像数据进行预处理。

对两种模态的数据进行预处理，并对其进行扭曲、加入噪点、降低分辨率等方法进行数据增强。

数据增强对于神经网络的训练有至关重要的作用。在模型训练阶段，本发明针对头部姿势估计问题，采用的数据增强方法是:通过旋转、平移、尺度变换等方式，对红外图片进行样本增强；通过增加干扰点来增3D点云数据信息。以此增强模型的鲁棒性，同时，这些操作也为模型训练提供了大量伪造样本。

步骤3：分别将预处理后的不同时刻的3D点云数据和红外图像数据输入到训练好的头部姿态识别模型(SIFnet)，获取不同时刻的头部姿态识别结果。

根据同一时刻的3D点云数据和红外图像数据确定该时刻的头部姿态。将上一时刻的3D点云数据和红外图像数据输入到训练好的头部姿态识别模型，就可以得到上一时刻的头部姿态识别结果。再将当前时刻的3D点云数据和红外图像数据输入到训练好的头部姿态识别模型，就可以得到当前时刻的头部姿态识别结果。

如图3所示，优选的，头部姿态识别模型包括第一分支、第二分支、concat拼接层和基于全连接层的分类网络，第一分支包括3D图卷积神经网络和全连接层，第二分支包括Resnet网络和全连接层；

第一分支用于从输入的3D点云数据中提取第一特征向量；

第二分支用于从输入的红外图像数据中提取第二特征向量；

concat拼接层用于对第一特征向量和第二特征向量进行拼接；

回归网络用于根据拼接后的特征向量输出头部姿态识别结果。

优选的，3D图卷积神经网络包括第一注意力机制(注意力机制C)、第一层3D图卷积、第二注意力机制(注意力机制A)、第二层3D图卷积和第三注意力机制(注意力机制B)；

第一注意力机制用于接收3D点云数据，产生全局注意信息并输入给第一层3D图卷积；

第一层3D图卷积用于提取特征信息并输出给第二注意力机制；

第二注意力机制用于产生精细化注意信息并输出给第二层3D图卷积；

第二层3D图卷积用于进一步提取特征信息并输出给第三注意力机制。

第一注意力机制、第二注意力机制、第三注意力机制均为8头部注意力机制，第二注意力机制和第三注意力机制分别将参数乘以各自权重系数加到第一注意力机制上，来调整全局的注意信息，第一层3D图卷积、第二层3D图卷积的参数共享。

优选的，分类网络包括3个连续的全连接层，这3个全连接层相互间也有连接。

优选的，头部姿态识别模型的训练包括步骤：

构建训练样本集和测试样本集；

利用训练样本集对头部姿态识别模型进行训练，将训练样本的预测头部姿态欧拉角与真实头部姿态欧拉角通过MSE损失函数来计算损失，使用Nadam优化器进行梯度优化，初始学习率设置为0.01，在几个epoch训练轮次之后通过余弦退火算法来降低学习率，使网络学习得更稳定，直到损失值不再下降为止；

利用测试样本集对头部姿态识别模型进行微调学习，学习率设置为5e-6。

在一个实施例中，将3D点云数据进入3D图卷积神经网络，依次进入注意力机制C，第一层3D图卷积，注意力机制A，第二层3D图卷积，注意力机制B。所有注意力机制均为8头，注意力机制A和B会分别将参数乘以0.3和0.5加到注意力机制C上，两层3D图卷积的参数共享，之后再经过一层全连接层，输出为1×1024的tensor。通过KNN算法，对3D点云数据进行聚类，得到粗粒度的五官位置，以此作为初始权重附加给图神经网络。图神经网络的各个节点包括但不限于眉毛、眼睛、鼻子、嘴、耳朵。通过Resnet预训练网络对红外光图片进行特征提取，该模型有50层结构，输入为3×224×224的tensor，经过50层卷积块后，输出尺寸为2048×7×7的tensor，之后再经过一层全连接层，输出为1×1024的tensor。将两个tensor通过Pytorch框架中的concat函数进行拼接，输出为1×2048的tensor。然后，进行3个全连接层，经过第一层后，参数会加到第二层和第三层；经过第二层后，参数会加到第三层，实现三层的密集连接，最终输入3个欧拉角。具体训练步骤如下：

步骤(1)：对3D点云信息进行3D图卷积处理，进入2次3D图卷积和3次注意力机制网络，作为神经网络的第一条分支；

步骤(2)：将红外光图像送入Resnet50预训练网络，输出尺寸为7×7像素大小的特征图，作为神经网络的第二条分支；

步骤(3)：将第一条网络分支和第二条网络分支进入2个不同的全连接层处理，变成1×n和1×m两个tensor；

步骤(4)：将2个tensor用concat函数进行拼接；

步骤(5)：将步骤4输出的tensor进入3个连续的全连接层，这3个全连接层之间也有相互连接；

步骤(6)：通过最后的全连接层，输入头部姿态的三个欧拉角。

结构光信息提取的原理如下：

固定在教育机器人身上的3D扫描仪将扫描头部来获取头部的3D点云数据，然后进入两层3D图卷积层和三层注意力机制进行处理。注意力机制A和B通过注意不同的头部姿态细节，然后按权重α＝0.5和β＝0.3的配比附加到全局注意力机制C上，以获取更加精准的头部姿态注意力信息。其表示为：

A_c＝A_c+αA_a+βA_b (公式1)

3D图卷积层的初始化：通过KNN聚类算法，获取粗粒度的眉毛、眼睛、鼻子、嘴、耳朵的各部分中心点，赋予较高权重，其余节点赋予较低权重。

将R_n ^M表示为图节点p_n的接受场，M是其大小。N表示基于距离的p_n的M个最近邻。

N(p_n,M)＝||p_m-p_n|| (公式3)

支持核心k_s和它周围所有的临近节点p_m的相似余弦表示为：

其中f(p_m)为p_m的D维特征向量，ω(k_s)为k_s的D维特征向量，sim为相似余弦符号。

点p_n的接受场R_n ^M和第S个卷积核K的卷积操作表示为：

红外光信息提取的原理如下：

通过固定在教育机器人身上的红外光摄像机来捕获人体头部的红外信息。而后，进入预训练过的Resnet50网络，提取出该模态下头部姿态的主要信息。

模态拼接的原理如下：

将两种模态数据进行粗粒度特征提取后，分别进入两个不同的全连接层。然后，采取concat函数将两种tensor进行拼接。

密集连接的原理如下：

将拼接好的tensor进入密集连接层处理。密集连接层由三个连续的全连接层组成，三个全连接层之间也两两相互连接。最终输出当前头部姿态的3个欧拉角。

其中，O_j ^τ是全连接层的第j个神经元，w和b是全连接层的第j个神经元与上一层隐含层的连接参数；SELU是激活单元，其计算公式如下:

其中α和λ均为阈值系数。

步骤4：根据不同时刻的头部姿态识别结果的变化，确定学习者的动作指令，根据动作指令生成教育机器人的控制指令。

预测对比：每15帧给出一个头部姿态识别输出值，将当前网络的输出值和上一时刻的输出值做减法，得出当前时刻的姿态变化。

指令反馈：当学生某个角度的姿态变化大于5度时，视为产生姿态变化。教育机器人根据该系统得出的用户交互指令，按预先设定做出反馈。例如：学生面部正对教育机器人3秒以上，视为唤醒机器人；学生左右摇头，视为否认选项；教育机器人播放有节奏的音乐，学生随音乐点头，判断学生节奏感等等。

本发明实施例的一种面向教育机器人视觉理解的头部姿态估计系统，包括：

预处理模块，用于分别对不同时刻的3D点云数据和红外图像数据进行预处理；

识别模块，用于分别将预处理后的不同时刻的3D点云数据和红外图像数据输入到训练好的头部姿态识别模型，获取不同时刻的头部姿态识别结果；

控制模块，用于根据不同时刻的头部姿态识别结果的变化，确定学习者的动作指令，根据动作指令生成教育机器人的控制指令。

优选的，头部姿态识别模型包括第一分支、第二分支、concat拼接层和基于全连接层的回归网络，第一分支包括3D图卷积神经网络和全连接层，第二分支包括Resnet网络和全连接层；

第一分支用于从输入的3D点云数据中提取第一特征向量；

第二分支用于从输入的红外图像数据中提取第二特征向量；

concat拼接层用于对第一特征向量和第二特征向量进行拼接；

优选的，3D图卷积神经网络包括第一注意力机制、第一层3D图卷积、第二注意力机制、第二层3D图卷积和第三注意力机制；

第二注意力机制用于产生精细化注意信息并输出给第二层3D图卷积；第二层3D图卷积用于进一步提取特征信息并输出给第三注意力机制系统的实现原理、技术效果与上述方法类似，此处不再赘述。

必须说明的是，上述任一实施例中，方法并不必然按照序号顺序依次执行，只要从执行逻辑中不能推定必然按某一顺序执行，则意味着可以以其他任何可能的顺序执行。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向教育机器人视觉理解的头部姿态估计方法，其特征在于，包括步骤：

2.如权利要求1所述的一种面向教育机器人视觉理解的头部姿态估计方法，其特征在于，所述头部姿态识别模型包括第一分支、第二分支、concat拼接层和基于全连接层的回归网络，所述第一分支包括3D图卷积神经网络和全连接层，所述第二分支包括Resnet网络和全连接层；

3.如权利要求2所述的一种面向教育机器人视觉理解的头部姿态估计方法，其特征在于，所述3D图卷积神经网络包括第一注意力机制、第一层3D图卷积、第二注意力机制、第二层3D图卷积和第三注意力机制；

4.如权利要求3所述的一种面向教育机器人视觉理解的头部姿态估计方法，其特征在于，所述第一注意力机制、所述第二注意力机制、所述第三注意力机制均为8头部注意力机制，所述第二注意力机制和所述第三注意力机制分别将参数乘以各自权重系数加到所述第一注意力机制上，来调整全局的注意信息，所述第一层3D图卷积、所述第二层3D图卷积的参数共享。

5.如权利要求3所述的一种面向教育机器人视觉理解的头部姿态估计方法，其特征在于，所述分类网络包括3个连续的全连接层，这3个全连接层相互间也有连接。

6.如权利要求1所述的一种面向教育机器人视觉理解的头部姿态估计方法，其特征在于，所述头部姿态识别模型的训练包括步骤：

构建训练样本集和测试样本集；

7.如权利要求1所述的一种面向教育机器人视觉理解的头部姿态估计方法，其特征在于，所述确定学习者的动作指令，根据所述动作指令生成所述教育机器人的控制指令，包括步骤：

8.一种面向教育机器人视觉理解的头部姿态估计系统，其特征在于，包括：

9.如权利要求8所述的一种面向教育机器人视觉理解的头部姿态估计系统，其特征在于，所述头部姿态识别模型包括第一分支、第二分支、concat拼接层和基于全连接层的分类网络，所述第一分支包括3D图卷积神经网络和全连接层，所述第二分支包括Resnet网络和全连接层；

所述回归网络用于根据拼接后的特征向量输出头部姿态识别结果。

10.如权利要求9所述的一种面向教育机器人视觉理解的头部姿态估计系统，其特征在于，所述3D图卷积神经网络包括第一注意力机制、第一层3D图卷积、第二注意力机制、第二层3D图卷积和第三注意力机制；