CN111078008A

CN111078008A - 一种早教机器人的控制方法

Info

Publication number: CN111078008A
Application number: CN201911226739.3A
Authority: CN
Inventors: 林明秀; 张沛; 孙显安; 吴晨哲; 赵泉凯
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-04-28
Anticipated expiration: 2039-12-04
Also published as: CN111078008B

Abstract

本发明提供一种早教机器人的控制方法，涉及人工智能技术领域。本发明先确认是否执行物体识别，若是，则获取目标图像，预处理后得到标准图像，根据卷积神经网络建立物体识别模型，标准图像输入物体识别网络中得到识别结果，采用模拟鼠标点击动作的方法调用机器人的动作控制台指挥机器人作出相应动作、声音以及3D展示；若否，则获取手势图像，建立手势识别模型，将手势图像输入到手势识别模型得到识别结果，采用模拟鼠标点击动作的方法调用机器人的动作控制台指挥机器人作出相应动作。本方法采用了基于cnn卷积网络和合cpms手势识别网络，能够快速识别图片或者手势控制下位机作出与该识别结果相对应的动作。

Description

一种早教机器人的控制方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种早教机器人的控制方法。

背景技术

面对国内方兴未艾的幼教产业，再加上很多父母也缺乏自行教育的条件，一大批早教机器人产业应运而生。其主要卖点包括：人机交互功能、海量的学习资源、亲子陪伴功能等。从价格来看目前市面上的早教机器人价格差异大，质量参差不齐，功能丰富的早教机器人价格相对昂贵。此外，目前市场上的早教机器人同质化问题严重，纵观市场上早教机的造型,多以动物外型为主,其中兔子、熊、鸭子、猫等动物造型的产品最多。这种相似的造型使得产品缺乏特点,也限制了它们的功能，更在使用过程中降低了孩子对其的注意力与乐趣。

这些机器人虽然花样繁多，形状各异，但是就机器人的主要功能来看，它们都只局限于语音识别与交流，不具备视觉处理的能力。而在儿童启蒙阶段，孩子们好奇心强，想探索更多的东西，但由于孩子的语言表达能力受限，他们与机器人的互动也受到了限制。从而导致人机互动的体验感降低，儿童对于机器人的兴趣减少，所以这是目前早教机器人的一大弊端。市场上具有“眼睛”的机器人售价过高，而且只有一些简单的图像输入、显示等功能，对高级具有视觉识别功能、良好人机互动的小型人型智能机器人需求很广泛。如今，简单的人机交互形式已经无法满足人们对于科技的追求，现在的人机交互进入了一个多通道，多媒体的智能交互阶段。利用人的多种感觉通道和动作通道，以并行、非精确的方式与计算机环境进行交互，无疑是未来人机交互的重要发展方向，现有中低端市场的早教机器人交互手段少，智能型不强。现有的CPMs(convolutional pose machines，人体姿态识别网络)识别模型其识别精度较高且应用广泛，CPMs是一种人体姿态识别网络，可以预测输入的人体姿态图像中各个关节点位置并得到标定后图像(响应图)；但是CPMs识别模型的运行时间较长，多个stage大核卷积层大大增加了计算量，使响应图不能实时输出，尤其是在普通配置的电脑上需要很长时间输出响应图。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种早教机器人的控制方法，本方法采用了基于cnn卷积网络的主流识别算法，并结合cpms手势识别网络，能够快速识别图片或者手势控制下位机作出与该识别结果相对应的动作。

为解决上述技术问题，本发明所采取的技术方案是：

本发明提供一种早教机器人的控制方法，采用的早教机器人包括机器人本体、摄像头、蓝牙音箱、3D投影仪、计算机，所述摄像头置于机器人本体上，并与计算机相连接，计算机与蓝牙音箱和3D投影仪相连接；所述控制方法包括如下步骤：

步骤1：利用机器人的选择功能界面，选择要执行的功能，所述功能包括物体识别和势识别，若选择物体识别，则执行步骤2，若选择手势识别，则执行步骤6；

步骤2：采用摄像头获取目标图像，并将初始图像传输至计算机内，经过opencv背景分割算法对初始图像进行预处理，得到标准图像；

步骤3：根据卷积神经网络建立物体识别模型；

步骤4：将标准图像输入至物体识别网络中得到与其对应的识别结果；

步骤5：采用模拟鼠标点击动作的方法调用机器人的动作控制台，指挥机器人执行与识别到的信息相对应的动作以及声音，同时调用3D投影仪进行3D展示；

步骤6：采用摄像头获取手势图像；

步骤7：建立手势识别模型；

步骤7.1：基于CPMs网络和卡尔曼滤波算法建立手势跟踪提取网络，得到手势响应图；

步骤7.1.1：生成高斯函数模板centermap，利用摄像头获取原始训练图片，基于CPMs建立3个stage的CPMs模型，将高斯函数模板centermap和原始训练图片输入到CPMs模型的初始混合卷积层中，得到初始响应图；

步骤7.1.2：将原始图片、初始响应图和centermap输入到CPMs模型的stage1中，stage1中的串联卷积层对初始响应图进行卷积操作得到阶段性卷积结果，将原始图片、阶段性卷积结果以及centermap进行融合，得到中间响应图；

步骤7.1.3：将stage1所得的中间响应图、初始响应图和centermap输入到CPMs模型的stage2中，并得到stage2的次中间响应图；将stage2得到的次中间响应图、初始响应图和centermap输入到CPMs模型的stage3中，得到最终响应图；

步骤7.1.4：利用opencv2中的卡尔曼滤波器对最终响应图进行修正，得到最终优化后的手势响应图：

步骤7.2：根据卷积神经网络建立卷积神经手势识别模型；

步骤7.2.1：根据手势跟踪提取网络建立包括六种手势的数据集，其中每种手势包括y张响应图；

步骤7.2.2：设置卷积神经网络的卷积层、池化层、全连接层；将数据集内数据作为卷积神经网络的训练数据，得到卷积神经手势识别模型；

步骤8：将步骤6中获得的手势图像输入到手势跟踪提取网络中得到手势响应图，将手势响应图输入至卷积神经手势识别模型中得到识别结果；

步骤9：采用模拟鼠标点击动作的方法调用机器人的动作控制台，指挥机器人执行与识别到的信息相对应的动作。

所述步骤2中的预处理为利用首先调整图片大小，并进行灰度化处理，转换成灰度图之后，再利用opencv2自带的knn背景分割算法进行背景分割操作，检测物体轮廓并在原始帧上的检测框中绘制检测结果，检测框中的图像即为预处理后的标准图像。

所述步骤7.1.4的具体步骤如下：

步骤7.1.4.1：将最终响应图中的各个节点坐标作为优化对象；

X(k)＝AX(k-1)+BU(k)+W(k)

Z(k)＝HX(k)+V(k)

其中，X(k)代表k时刻系统状态，即k时刻最终响应图中的节点坐标；Z(k)代表k时刻各节点坐标的测量值；A代表状态转移矩阵，B代表控制输入矩阵；U(k)代表k时刻对系统的控制量；H代表系统测量矩阵，；W(k)代表系统过程噪声，为高斯白噪声，协方差为Q，V(k)代表测量噪声，协方差为R；

步骤7.1.4.2：预测；计算基于k-1时刻状态对k时刻位置坐标的预测值X(k|k-1)，根据k-1时刻的协方差计算k时刻协方差的预测值P(k|k-1)；

X(k|k-1)＝AX(k-1|k-1)+BU(k)

P(k|k-1)＝AP(k-1|k-1)A^T+Q

其中，X(k|k-1)代表基于k-1时刻状态对k时刻状态的预测值X(k-1|k-1)代表k-1时刻状态的最优结果，P(k-1|k-1)代表k-1时刻协方差的最优结果；(·)^T代表·的转置；

步骤7.1.4.3：计算k时刻的卡尔曼增益值Kg(k)；

Kg(k)＝P(k|k-1)H^T/(HP(k|k-1)H^T+R)

步骤7.1.4.4：计算k时刻坐标最优值X(k|k)与最优值对应的协方差P(k|k)；

X(k|k)＝X(k|k-1)+Kg(k)(Z(k)-HX(k|k-1))

P(k|k)＝(1-Kg(k)H)P(k|k-1)

步骤7.1.4.5：判断是否得到最终响应图中的所有节点坐标k时刻的坐标最优值X(k|k)，若是，则执行步骤步骤7.1.4.5，若否，则选择最终响应图中下一节点坐标返回步骤7.1.4.1：

步骤7.1.4.5：将所有节点的k时刻坐标最优值组成最终优化后的手势响应图。

所述模拟鼠标点击动作的方法为根据机器人动作控制台句柄调用出控制台界面，并固定控制台界面大小及位置；对于动作集句柄进行提取，将鼠标指针初始化到动作集框；对动作集一栏的各个动作所占宽度进行测量，计算鼠标点击每个动作需要移动到的位置，根据各个动作处在动作集中的绝对位置对动作进行从小到大的排序，并标号；每个标号都对应着相应的物体或者手势，当识别到对应物体时，鼠标将会自动移动到相应动作上，点击并执行动作，动作执行完毕后，将自动进行下一次识别。

采用上述技术方案所产生的有益效果在于：本发明提供的一种早教机器人的控制方法，本方法提供了一种新型的对于机器人的控制手段，即通过图像或者手势控制机器人的动作，增强了早教机器人的趣味性与智能性。图像识别精确度高速度快，使机器人，投影仪和音响等下位机可以快速准确响应。实现了实时快速的手势提取与识别，可以通过手势快速指挥机器人做出与手势相对应的动作。且整个系统鲁棒性强，稳定性高。

附图说明

图1为本发明实施例提供的方法流程图；

图2为本发明实施例提供的建立手势识别模型的方法流程图；

图3为本发明实施例提供的精确度与损失函数示意图，其中a代表精确度示意图，b代表损失函数示意图；

图4为本发明实施例提供的通过手势跟踪提取网络输出的手势响应图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本控制方法基于视觉信息的人机交互新型手段，结合计算机视觉中的图像识别技术和机器人控制理论，设计出一套基于图像识别技术的上位机控制系统，本实施例中将其应用到一款非智能动作执行机器人“lele”上，实现了两个功能：其一，利用摄像头快速识别目标物体，得出识别结果后机器人可以做出相应动作回应，并利用投影仪得到相应的3d展示。丰富了现有早教机器人的交互能力。现有的视觉识别技术有很多种，例如yolo，ssd等新型视觉识别算法，也有基于卷积神经网络的视觉识别算法，新型视觉算法适用于多个物体的复杂识别，而对于本控制系统，由于只涉及到单个目标的识别，所以本系统选用了基于cnn卷积网络的主流识别算法，并结合cpms手势识别网络，实现了通过图片或者手势快速控制下位机的控制系统。

如图1所示，本实施例的方法如下所述。

本发明提供一种早教机器人的控制方法，采用的早教机器人包括机器人本体、摄像头、蓝牙音箱、3D投影仪、计算机，所述摄像头置于机器人本体上，并与计算机相连接，计算机与蓝牙音箱和3D投影仪相连接；包括如下步骤：

所述预处理为利用首先调整图片大小，并进行灰度化处理，转换成灰度图之后，再利用opencv2自带的knn背景分割算法进行背景分割操作，检测物体轮廓并在原始帧上的检测框中绘制检测结果，检测框中的图像即为预处理后的标准图像。

步骤3：根据卷积神经网络建立物体识别模型；

首先从网上图片进行爬虫获取图像数据集，并按照7：3的比例将图像数据集内数分为数据集与测试集；然后利用Google net网络，根据迁移学习的方法，修改Google net网络输出层，利用之前固化好的参数，重新训练以上需要识别的物体的卷积网络；

本实施例中冻结inceptionv3模型在imagenet上训练好的参数，在其输出层后加上bottleneck层，作为新的输入，在最后加上一层全连接层，得到新的网络模型。

本实施例中在训练新模型时，在bottleneck层数据加入了12生肖以及三种水果的数据样本，平均每种物体有600张数据图片，按照7比3的比例将图片分为数据集与测试集，经过训练后，得到了可靠度较高的模型。1000次迭代后，模型识别准确率与损失结果如图3所示，最终测试集的识别准确率为0.973，而损失值为0.268。

步骤6：采用摄像头获取手势图像；

步骤7：建立手势识别模型；如图2所示；

步骤7.1：基于CPMs(convolutional pose machines，人体姿态识别网络)和卡尔曼滤波算法建立手势跟踪提取网络，前端网络的主要作用是首先实时的对手势的跟踪提取，并快速输出手势对应的黑白响应图，得到手势响应图；

cpms网络有6个stage，网络深度大，计算复杂，无法达到迅速输出图片的要求，且本系统设计中，对于手势识别的要求仅为单人单手，对于识别的精度要求不需要太高，为提高运算速度，对stage的数目进行削减，变成3个stage，同时为了弥补stage减少带来的精度损失，用卡尔曼滤波进行目标跟踪，得到了较好的效果。通过改进后的CPMs网络，调用摄像头获取手势信息，可以快速输出相关手势的关节响应图，如图4所示。

步骤7.1.1：生成高斯函数模板centermap(起到将响应约束到中心的作用)，利用摄像头获取原始训练图片，基于CPMs建立3个stage的CPMs模型，将高斯函数模板centermap和原始训练图片输入到CPMs模型的初始混合卷积层(sub_stages)中，得到初始响应图；

所述sub_stages包括14个卷积层和3个池化层与一个全连接层；

步骤7.1.2：将原始图片、初始响应图和centermap输入到CPMs模型的stage1(阶段1)中，stagel中的串联卷积层对初始响应图进行卷积操作得到阶段性卷积结果，将原始图片、阶段性卷积结果以及centermap进行融合，得到中间响应图；

所述stage1由2个卷积层串联组成；

步骤7.1.3：将stage1所得的中间响应图、初始响应图和centermap输入到CPMs模型的stage2(阶段2)中，并得到stage2的次中间响应图；将stage2得到的次中间响应图、初始响应图和centermap输入到CPMs模型的stage3(阶段3)中，得到最终响应图；

所述stage2由7个卷积串联组成；

所述stage3由7个卷积串联组成；

步骤7.1.4：利用opencv2中的卡尔曼滤波器(KalmanFilter)对最终响应图进行修正：

步骤7.1.4.1：将最终响应图中的各个节点坐标作为优化对象；

X(k)＝AX(k-1)+BU(k)+W(k)

Z(k)＝HX(k)+V(k)

其中，X(k)代表k时刻系统状态，即k时刻最终响应图中的节点坐标；Z(k)代表k时刻各节点坐标的测量值；A代表状态转移矩阵，设置为A＝[[1，0，1，0]，[0，1，0，1]，[0，0，1，0]，[0，0，0，1]]，B代表控制输入矩阵，设置为0；U(k)代表k时刻对系统的控制量，设置为0；H代表系统测量矩阵，设置为H＝[[1，0，0，0]，[0，1，0，0]]；W(k)代表系统过程噪声，为高斯白噪声，协方差为Q，设置为Q＝[[1，0，0，0]，[0，1，0，0]，[0，0，1，0]，[0，0，0，1]]，对应opencv里的kalman滤波器的processNoiseCov矩阵；V(k)代表测量噪声，也为高斯白噪声，协方差为R；对应opencv里的kalman滤波器的measurementNoiseCov矩阵，本系统中未使用，设置为0；

X(k|k-1)＝AX(k-1|k-1)+BU(k)

P(k|k-1)＝AP(k-1|k-1)A^T+Q

其中，X(k|k-1)代表基于k-1时刻状态对k时刻状态的预测值，对应opencv里kalman滤波器的predict()输出；X(k-1|k-1)代表k-1时刻状态的最优结果，对应opencv里kalman滤波器的上一次状态的statePost矩阵；P(k-1|k-1)代表k-1时刻协方差的最优结果，对应opencv里kalman滤波器的上一次状态的errorCovPost矩阵；(·)^T代表·的转置；

步骤7.1.4.3：计算k时刻的卡尔曼增益值Kg(k)，为估计量的方差占总方差(估计量方差和测量方差)的比重，对应opencv里kalman滤波器的gain矩阵；

Kg(k)＝P(k|k-1)H^T/(HP(k|k-1)H^T+R)

步骤7.1.4.4：计算k时刻坐标最优值X(k|k)(对应opencv里kalman滤波器的k时刻状态的statePost矩阵)与最优值对应的协方差P(k|k)(对应opencv里kalman滤波器的errorCovPost矩阵)；

X(k|k)＝X(k|k-1)+Kg(k)(Z(k)-HX(k|k-1))

P(k|k)＝(1-Kg(k)H)P(k|k-1)

步骤7.1.4.5：判断是否得到最终响应图中的所有节点坐标的k时刻坐标最优值X(k|k)，若是，则执行步骤步骤7.1.4.5，若否，则选择最终响应图中下一节点坐标返回步骤7.1.4.1：

步骤7.1.4.5：将所有节点的k时刻坐标最优值组成最终优化后的手势响应图；

步骤7.2：根据卷积神经网络建立卷积神经手势识别模型；

步骤7.2.1：根据手势跟踪提取网络建立包括六种手势的数据集，其中每种手势包括y张响应图；所述六种手势为用手势代表的从0-5的数字，为0(拳头代表0)，1，2，3，4，5六种手势。

本实施例中卷积神经网络由4个卷积层，4个池化层以及3个全连接层组成，可以通过较少的训练次数达到很高的准确度，经过训练后得到的卷积神经手势识别模型的识别准确率为0.945；可以对于手势进行实时快速准确的识别。

本实施例中展示完动作以及声音之后会自动跳转到步骤2中所选择的模式下进行等待，等待下一次识别；

本实施例中利用动作机器人已有的功能即可以设计动作并将各个舵机的角度储存在文本文件，之后通过已有的动作调用程序可以执行已经储存的动作。在识别得对应的物体信息或者手势信息后，控制系统将调用机器人动作控制台，指挥机器人执行相应动作。

进一步的，利用数据库设计的思想，将各个物体对应的3d视频资源制作成了本地数据，并且标定对应标签，播放视频程序作为函数嵌套在识别程序中，在得到识别结果之后，将会自动调用对应物体的视频并播放。同时，置于投影仪上的iPad作为投影仪的光源，通过同屏软件‘XDisplay’，视频将同步在iPad上播放，投影仪由此可以展示相关3d视频信息。该模块通过精巧的设计，利用简单的设备实现了实时投影功能，调用速度快。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种早教机器人的控制方法，其特征在于：采用的早教机器人包括机器人本体、摄像头、蓝牙音箱、3D投影仪、计算机，所述摄像头置于机器人本体上，并与计算机相连接，计算机与蓝牙音箱和3D投影仪相连接；所述控制方法包括如下步骤：

步骤3：根据卷积神经网络建立物体识别模型；

步骤6：采用摄像头获取手势图像；

步骤7：建立手势识别模型；

步骤7.2：根据卷积神经网络建立卷积神经手势识别模型；

2.根据权利要求1所述的一种早教机器人的控制方法，其特征在于：所述步骤2中的预处理为利用首先调整图片大小，并进行灰度化处理，转换成灰度图之后，再利用opencv2自带的knn背景分割算法进行背景分割操作，检测物体轮廓并在原始帧上的检测框中绘制检测结果，检测框中的图像即为预处理后的标准图像。

3.根据权利要求1所述的一种早教机器人的控制方法，其特征在于：所述步骤7.1.4的具体步骤如下：

步骤7.1.4.1：将最终响应图中的各个节点坐标作为优化对象；

X(k)＝AX(k-1)+BU(k)+W(k)

Z(k)＝HX(k)+V(k)

X(k|k-1)＝AX(k-1|k-1)+BU(k)

P(k|k-1)＝AP(k-1|k-1)A^T+Q

步骤7.1.4.3：计算k时刻的卡尔曼增益值Kg(k)；

Kg(k)＝P(k|k-1)H^T/(HP(k|k-1)H^T+R)

X(k|k)＝X(k|k-1)+Kg(k)(Z(k)-HX(k|k-1))

P(k|k)＝(1-Kg(k)H)P(k|k-1)

4.根据权利要求1所述的一种早教机器人的控制方法，其特征在于：所述模拟鼠标点击动作的方法为根据机器人动作控制台句柄调用出控制台界面，并固定控制台界面大小及位置；对于动作集句柄进行提取，将鼠标指针初始化到动作集框；对动作集一栏的各个动作所占宽度进行测量，计算鼠标点击每个动作需要移动到的位置，根据各个动作处在动作集中的绝对位置对动作进行从小到大的排序，并标号；每个标号都对应着相应的物体或者手势，当识别到对应物体时，鼠标将会自动移动到相应动作上，点击并执行动作，动作执行完毕后，将自动进行下一次识别。