CN107179683B

CN107179683B - 一种基于神经网络的交互机器人智能运动检测与控制方法

Info

Publication number: CN107179683B
Application number: CN201710211360.XA
Authority: CN
Inventors: 赵燕伟; 朱炎亮; 屠海龙; 赵晓; 王万良; 鞠振宇
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-04-01
Filing date: 2017-04-01
Publication date: 2020-04-24
Anticipated expiration: 2037-04-01
Also published as: CN107179683A

Abstract

一种基于神经网络的交互机器人智能运动检测与控制方法，使用传统特征工程和分类器作为人眼部位初步定位，神经网络作为行为高效识别，引入有限状态机实现状态快速转换。阶段一提取Haar‑like特征并结合Adaboost级联分类器完成交互机器人人脸识别，脸部人眼识别，同时采用卷积神经网络进行人眼二次检测与筛选。阶段二，计算双眼光流图，使用CNN提取空域特征，LSTM提取时域特征，完成人眼行为识别。阶段三使用有限状态机FSM完成状态装换。该系统检测精度高，状态转换快速。

Description

一种基于神经网络的交互机器人智能运动检测与控制方法

技术领域

本发明涉及一种教育交互机器人人员行为检测与运动控制方法，具体利用交互机器人摄像头实时捕捉人员眼睛状态(向左，向右，恢复等状态)，通过人脸检测，脸部眼睛检测，眼睛位置二次确认，CNN+LSTM眼睛光流图时空特征抽取与行为分类，最终使用有限状态机进行运动转换与控制。交互机器人根据运动状态执行相应的动作(左摆臂，右摆臂，摇手等)。该方法包含计算机视觉(行为识别)、人工智能(策略控制)等领域。

背景技术

交互机器人属于机器人一个分支，在工业，教育，科研等领域扮演着至关重要的作用。通过结合人工智能和机器人最前沿高新技术，完成传统工业生产，公共服务，高校科研，医疗呵护行业的人工服务替换，是推动社会生产，科研进步的重要工具。交互机器人涉及到的研究领域包括智能机器人系统，多智能体系统，实时模式识别与行为系统，智能体结构设计，实时规划和推理，传感器技术。其中计算机视觉主要旨在解决机器人视觉感知与检测任务，人工智能主要旨在解决感知数据融合与决策。

现有技术在使用眼睛行为控制交互机器人运动具有二个难点：难点一，如何在最短时间内检测摄像头捕捉到交互人员图片的眼睛部位，同时眼睛检测的正确性和鲁棒性直接影响系统后续行为检测流程以及最终运动状态执行结果，错误检测或者检测不到将导致行为分析失败；难点二，如何在眼睛部位检测到之后，根据时间信息分析眼睛动作确定交互人行为，并且快速进行状态装换与运动执行。上述问题，目前尚未得到解决。

发明内容

本发明要克服上述现有技术的缺点，提供一种一种基于神经网络的交互机器人智能运动检测与控制。

本发明利用计算机视觉，神经网络，人工智能方法解决问题，最终完成系统的设计与实现。使用检测快速，计算复杂度较低的Haar-like特征与Adaboost分类器作为人脸、人眼检测工具。使用卷积神经网络CNN作为人眼二次筛选与空间特征提取工具，使用长短期记忆神经网络LSTM作为时间特征提取工具，具备非常高的准确性与鲁棒性。使用有限状态机FSM作为运动状态控制算法，具备快速反应能力。

为了实现高准确性和实时性，具体方案如下(如图1)：训练阶段采集大量交互人员行为样本(动作短视频)，手动标注出人脸，人眼部位，提取Haar-like特征训练Adaboost，计算人眼光流图训练CNN与LSTM；检测阶段，机器人利用摄像头采集图像帧，分别进行人脸检测，脸部眼睛检测，眼睛二次筛选，行为识别，运动状态控制。

本发明的一种基于神经网络的交互机器人智能运动检测与控制方法，步骤如下：

步骤1.预处理。如图2，利用交互机器人摄像头采集交互人眼睛动作的短视频，每个视频时长2秒，眼睛动作包含向左运动，向右运动，恢复到直视前方的3类动作。为了保证系统鲁棒性，尽可能在不同背景下，多采集不同交互人样本。

步骤2.阶段一训练。如图2，对上述采集到的短视频动作样本，每隔5帧采集一张视频帧图片，并且手动标注人脸，人眼位置标定框，生成不同动作下的人脸和人眼照片。对人脸照片和人眼照片分别提取Haar-like特征，并且训练Adaboost级联分类器，用作人脸和脸部人眼检测工具。同时利用人眼照片训练卷积神经网络，用作人眼二次筛选工具。为保证检测速度，使用小型神经网络。

步骤3.阶段二训练。如图2，利用阶段一训练完毕的模型，首先对所有动作短视频做人眼检测，生成时间走向的人眼图片序列；其次对序列计算光流，得到每个短视频动作时间维度上的光流图序列，同时为每个短视频分配一个行为标签(向左，向右，恢复)；最后利用光流图训练CNN+LSTM行为检测网络。得到阶段二模型。

步骤4.行为检测。如图3，该阶段使用交互机器人前置摄像头逐帧获取图像，使用训练完毕检测模型，对图像中交互人进行人脸识别，脸部人眼识别，CNN二次筛选，得到图片中交互人双眼图片；根据当前双眼状态和前一时刻双眼状态计算当前时刻的双眼光流图，利用训练完毕的阶段二模型，进行双眼行为识别，得到行为标签。

步骤5.状态控制。如图3，根据上一时刻的运动状态(行为标签)，以及当前时刻的运动状态(行为标签)，使用设置完毕的有限状态机FSM进行状态快速转换，实现运动状态控制(保持或者转换)。

本发明中训练和预测阶段所用到的技术：Haar-like，Adaboost，CNN，LSTM，均能使用OpenCV与Tensorflow实现，因此该方法实现完全可行。

本发明的优点是：最大化利用交互机器人硬件设备资源，使用传统特征与分类器快速地对人眼进行检测，计算量小；使用神经网络完成对人眼行为精确分析，准确率高；最终有限状态机算法完成状态转换，实时性强，灵敏度高。

附图说明

图1是本发明方法所用的系统总体框架

图2是本发明的训练阶段流程图

图3是本发明的检测阶段流程图

图4是本发明的方法流程图

具体实施方式

下面结合附图1-4,对本发明作进一步描述。

本发明的一种基于神经网络的交互机器人智能运动检测与控制方法，包括如下步骤：

步骤1.预处理。如图2，利用交互机器人摄像头采集交互人眼睛动作的短视频，每个视频时长2秒，眼睛动作包含向左运动，向右运动，恢复到直视前方等3类动作。为了保证系统鲁棒性，尽可能在不同背景下，多采集不同交互人样本。

步骤5.状态控制。如图3，4。根据上一时刻的运动状态(行为标签)，以及当前时刻的运动状态(行为标签)，使用设置完毕的有限状态机FSM进行状态快速转换，实现运动状态控制(保持或者转换)

经过如上步骤，根据本发明，可以完成神经网络的交互机器人智能运动检测与控制系统实现。该系统结合传统算法与深度学习，识别快速，同时具备很高的准确性和系统灵敏性。

Claims

1.一种基于神经网络的交互机器人智能运动检测与控制方法，具有以下步骤：

步骤1.预处理；利用交互机器人摄像头采集交互人眼睛动作的短视频，每个视频时长2秒，眼睛动作包含向左运动，向右运动，恢复到直视前方的3类动作；为了保证系统鲁棒性，尽可能在不同背景下，多采集不同交互人样本；

步骤2.阶段一训练；对采集到的短视频动作样本，每隔5帧采集一张视频帧图片，并且手动标注人脸，人眼位置标定框，生成不同动作下的人脸和人眼照片；对人脸照片和人眼照片分别提取Haar-like特征，并且训练Adaboost级联分类器，用作人脸和脸部人眼检测工具；同时利用人眼照片训练卷积神经网络，用作人眼二次筛选工具；为保证检测速度，使用小型神经网络；

步骤3.阶段二训练；利用阶段一训练完毕的模型，首先对所有动作短视频做人眼检测，生成时间走向的人眼图片序列；其次对序列计算光流，得到每个短视频动作时间维度上的光流图序列，同时为每个短视频分配一个标签，标签是向左，向右，恢复；最后利用光流图训练CNN+LSTM行为检测网络；得到阶段二模型；

步骤4.行为检测；该阶段使用交互机器人前置摄像头逐帧获取图像，使用训练完毕检测模型，对图像中交互人进行人脸识别，脸部人眼识别，CNN二次筛选，得到图片中交互人双眼图片；根据当前双眼状态和前一时刻双眼状态计算当前时刻的双眼光流图，利用训练完毕的阶段二模型，进行双眼行为识别，得到行为标签；

步骤5.状态控制；根据上一时刻的运动状态，以及当前时刻的运动状态，使用设置完毕的有限状态机FSM进行状态快速转换，实现运动状态控制。

2.如权利要求1所述的一种基于神经网络的交互机器人智能运动检测与控制方法，其特征在于：步骤2所述的阶段一训练，利用传统Haar-like与Adaboost分类器完成人眼快速检测，使用轻量级卷积神经网络完成人眼精确筛选；步骤3所述的阶段二，使用卷积神经网络CNN与长短期记忆神经网络LSTM完成人眼行为识别，识别精度高；最后使用有限状态机FSM完成运动控制与决策。