CN106648078A

CN106648078A - 应用于智能机器人的多模态交互方法及系统

Info

Publication number: CN106648078A
Application number: CN201611100907.0A
Authority: CN
Inventors: 丁超
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2016-12-05
Filing date: 2016-12-05
Publication date: 2017-05-10
Anticipated expiration: 2036-12-05
Also published as: CN106648078B

Abstract

本发明公开了一种应用于智能机器人的多模态交互方法及系统，该方法包括：图像获取步骤，获取包含执行手势动作的手部的深度图像和灰度图像；姿态分类解析步骤，对深度图像和灰度图像进行处理，解析出手势动作所表示的姿态和具备的属性；以及多模态输出步骤，根据解析结果，执行与手势动作对应的多模态输出指令。本发明能够实现采用手势识别的方式与用户进行多模态交互，提高了用户体验。

Description

应用于智能机器人的多模态交互方法及系统

技术领域

本发明涉及智能机器人领域，尤其涉及一种应用于智能机器人的多模态交互方法及系统，

背景技术

随着智能机器人产品的逐渐普及，更多的智能机器人走进家庭，成为孩子的玩伴和大人的管家。

在现有技术中，智能机器人在与用户进行多模态交互的过程中，一般是通过语音识别技术来识别用户的语音指令，再根据指令内容执行相应的多模态输出。这种交互方式较为单调，而且对于某些情况特殊的用户，语音方式较为不便，从而无法满足用户日益增长的体验需求。

因此，亟需提供一种新型的多模态交互方法，能够提高用户体验，满足用户需求。

发明内容

本发明所要解决的技术问题之一是需要提供一种能够采用手势识别的技术与用户进行多模态交互的方法及系统。

为了解决上述技术问题，本申请的实施例首先提供了一种应用于智能机器人的多模态交互方法，包括：图像获取步骤，获取包含执行手势动作的手部的深度图像和灰度图像；姿态分类解析步骤，对深度图像和灰度图像进行处理，解析出手势动作所表示的姿态和具备的属性；以及多模态输出步骤，根据解析结果，执行与手势动作对应的多模态输出指令。

优选地，在姿态分类解析步骤中，对深度图像和灰度图像进行图像处理，根据预设的手势姿态分类库确定手势动作的姿态；判断该手势动作是否具备静态属性，在该手势动作对应的姿态不属于静止手势范围内，则进一步判断该手势动作是否具有滑动属性。

优选地，在判断手势动作是否具有滑动属性的步骤中，记录当前手部在背景图像中所处的位置和当前图像获取时刻，并将该位置记为起点；若在有效时间段内，捕捉到另一包含执行相同手势动作的手部的图像，且手部在同一背景图像的位置与所述起点之间具有有效距离，则确定该手势动作具有滑动属性。

优选地，在姿态分类解析步骤中，对经过预处理后的深度图像进行直方图统计，找出图像中的手部轮廓，并根据手部轮廓获取矩形框；在经过所述矩形框提取出的灰度图像内构建多个比例尺度的滑动窗口，获取图像不同区域的特征值；根据获取的特征值，从预设的手势姿态分类库中确定手势动作的姿态。

另一方面，本发明实施例还提供了一种应用于智能机器人的多模态交互系统，包括：图像获取单元，其用于获取包含执行手势动作的手部的深度图像和灰度图像；姿态分类解析单元，其用于对深度图像和灰度图像进行处理，解析出手势动作所表示的姿态和具备的属性；以及多模态输出单元，其用于根据解析结果，执行与手势动作对应的多模态输出指令。

优选地，所述姿态分类解析单元进一步包括，姿态确定子单元，其用于对深度图像和灰度图像进行图像处理，根据预设的手势姿态分类库确定手势动作的姿态；属性确定子单元，其用于判断该手势动作是否具备静态属性，在该手势动作对应的姿态不属于静止手势范围内，则进一步判断该手势动作是否具有滑动属性。

优选地，所述属性确定子单元进一步用于：记录当前手部在背景图像中所处的位置和当前图像获取时刻，并将该位置记为起点；若在有效时间段内，捕捉到另一包含执行相同手势动作的手部的图像，且手部在同一背景图像的位置与所述起点之间具有有效距离，则确定该手势动作具有滑动属性。

优选地，所述姿态确定子单元进一步用于：对经过预处理后的深度图像进行直方图统计，找出图像中的手部轮廓，并根据手部轮廓获取矩形框；在经过所述矩形框提取出的灰度图像内构建多个比例尺度的滑动窗口，获取图像不同区域的特征值；根据获取的特征值，从预设的手势姿态分类库中确定手势动作的姿态。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

本发明实施例的方法或系统通过获取包含执行手势动作的手部的深度图像和灰度图像，对深度图像和灰度图像进行处理，解析出手势动作所表示的姿态和具备的属性，并且根据解析结果，执行与手势动作对应的多模态输出指令，能够实现采用手势识别的方式与用户进行多模态交互，提高了用户体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解，并且构成说明书的一部分。其中，表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案，但并不构成对本申请技术方案的限制。

图1是根据本发明实施例的应用于智能机器人的多模态交互方法的流程示意图。

图2是根据本发明实施例的对手势动作进行姿态和属性的解析的流程示意图。

图3是根据本发明实施例的采集手势动作数据和模型训练的流程示意图。

图4是根据本发明实施例的应用于智能机器人的多模态交互系统4的结构框图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的应用于智能机器人的多模态交互方法的流程示意图。下面参考图1来说明该方法的各个步骤。

首先，在步骤S110中，获取包含执行手势动作的手部的深度图像和灰度图像。

具体地，智能机器人通过自身的深度摄像头获取包含执行手势动作的手部的图像，从而接收来自用户的手势表达信号。相比一些现有技术，本例不需要获取RGB图像，取而代之的是直接获取深度图像和灰度图像，这样能够缩短数据的传输时间且能够加速处理算法。然而，不使用RGB图像就无法通过肤色来提取手部，因此，在本步骤中使用双目摄像头来辅助判断手部位置，再利用手部的灰度图像来判断手的具体位置和姿态。

需要说明的是，双目摄像头是一种能够产生并输出深度图像的传感器形式的摄像头，由两个普通灰度相机组成，通过检测两个相机同一物体或者同一目标归属的像素点的成像面的位差来判断该物体的距离。深度图像是通过某种传感器来检测前方每个像素点或者许多细分区域距离传感器的距离的图像，而灰度图像是相较于RGB图像，只具有黑白色、且每个像素的值范围在0～255之间的图像。

其次，在步骤S120中，对深度图像和灰度图像进行处理，解析出手势动作所表示的姿态和具备的属性。

通过双目摄像头采集到的图像一般都具有噪声，噪声影响图像处理的输入、采集、处理的各个环节以及输出结果的全过程，特别是在图像的采集和输入阶段对噪声的抑制是十分关键的问题，若输入伴有较大的噪声，则必然影响处理全过程及输出的结果。因此，需要对采集到的深度图像和灰度图像进行高斯和中值滤波等滤波处理。

图2是根据本发明实施例的对手势动作进行姿态和属性解析的流程示意图。如图2所示，首先对经过预处理后的深度图像进行直方图统计，找出图像中的手部轮廓，并根据手部轮廓获取矩形框。具体地，对滤波后的深度图像在256个像素单位上进行分布统计，在从高像素到低像素的方向寻找第一个大于设定阈值的高峰，在深度图像中仅留下高峰左右3个像素阈(共7个像素阈)的像素，即确定为手部区域。找出所有轮廓，留下最大轮廓，测算外接矩形生成图层蒙版，提取出灰度图像中在该矩形内的部分像素。然后，在经过矩形框提取出的灰度图像内构建多个比例尺度的滑动窗口，获取图像不同区域的特征值。具体来说，在通过矩形框提取出的灰度图内构建多个比例尺度的滑动窗口，比例尺度例如可以为0.95^n，n＝1,2,3……，通过各个比例尺度不同的滑动窗口获取不同区域的方向梯度直方图(Histogram of Oriented Gradient,HOG)特征。HOG特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子，它是通过计算和统计图像局部区域的梯度方向直方图来构成的特征。接着，根据获取的特征值，从预设的手势姿态分类库中确定手势动作的姿态。具体地，将获取的HOG特征值输入至预先进行模型训练得到的分类器中，分类器通过筛选输出可能分类和对应投票(信任度)，找出所有投票值最大的分类，并将该投票值与某设定阈值进行比较，若该投票值大于该阈值则认定为分类准确，输出手势动作对应的姿态分类，若小于该阈值则认定为无目标。

需要说明的是，该分类器(手势姿态分类库)事先需要通过如图3所示的流程图来获取。如图3所示，在步骤S310中，先要采集各种类别的手势数据，例如手掌向前指向、竖大拇指、握拳等手势的数据。本步骤中根据要识别的手势，采集相关训练样本，提取出仅包含手部的图像。

然后在步骤S320中，从这些提取的手部图像的手势数据中提取出HOG特征，采取的方式可以与步骤S120中获取HOG特征的相类似，此处不再赘述。随后，在步骤S130中，对这些HOG特征进行SVM分类器训练获得模型。最终，在步骤S140中，对这些分类模型进行存储得到适用于本发明实施例的分类器。

在确定了手势动作对应的姿态后，判断该手势动作所具备的属性。首先判断该手势动作是否具备静态属性，即该手势动作对应的姿态是否属于预先设定的静止手势范围内，若是则确定该手势动作具备静态属性。

在该手势动作对应的姿态不属于静止手势范围内，则进一步判断该手势动作是否具有滑动属性。需要说明的是，滑动手势应该具有起点和终点，也可以称为触发点，因此可以依据在有效时间段内手在不同触发点来判断此时手是否完成一次滑动手势，若上次的触发在起点，此次触发在终点，则认定有一个有效滑动手势形成。例如，手势为从左往右挥动，通过在有效时间段内实时采集包含手势动作在内的图像，对每一图像进行上面步骤S120的处理，对比在该有效时间段内两个手势动作在同一背景图像中的位置，若存在差异，则确定为滑动手势。

再次参考图2，在判断手势动作是否具有滑动属性的步骤中，记录当前手部在背景图像中所处的位置和当前图像获取时刻，并将该位置记为起点，若在有效时间段内，捕捉到另一包含执行相同手势动作的手部的图像，且手部在同一背景图像的位置与起点之间具有有效距离，则确定该手势动作具有滑动属性。

接下来，在步骤S130中，根据解析结果，执行与手势动作对应的多模态输出指令。

具体地，根据解析结果查找与该结果对应的多模态输出指令。例如，若手势动作为从左至右挥动手部，该手势动作对应的多模态输出指令是让机器人播放下一首曲目，则向机器人输出“播放下一首歌曲”的指令以使机器人播放下一首。若手势动作为手掌向前指向，该手势动作对应的是让机器人暂停播放当前曲目，则向机器人输出“暂停播放”的多模态输出指令以使机器人停止播放音乐。除此之外，多模态输出指令还可以是与机器人硬件相关的执行指令，例如驱动机器人臂部的电机动作，完成机器人挥臂的多模态输出。

另外，本发明实施例还公开了一种多模态交互系统。图4是根据本发明实施例的应用于智能机器人的多模态交互系统4的结构框图。

如图4所示，该多模态交互系统4包括图像获取单元410、姿态分类解析单元420和多模态输出单元430。

图像获取单元410，其用于获取包含执行手势动作的手部的深度图像和灰度图像。

姿态分类解析单元420，其与图像获取单元410连接，用于对深度图像和灰度图像进行处理，解析出手势动作所表示的姿态和具备的属性。姿态分类解析单元420进一步包括姿态确定子单元421和属性确定子单元422。

姿态确定子单元421，其用于对深度图像和灰度图像进行图像处理，根据预设的手势姿态分类库确定手势动作的姿态。姿态确定子单元421在确定手势动作的姿态时进一步对经过预处理后的深度图像进行直方图统计，找出图像中的手部轮廓，并根据手部轮廓获取矩形框；在经过矩形框提取出的灰度图像内构建多个比例尺度的滑动窗口，获取图像不同区域的特征值；根据获取的特征值，从预设的手势姿态分类库中确定手势动作的姿态。

属性确定子单元422，其用于判断该手势动作是否具备静态属性，在该手势动作对应的姿态不属于静止手势范围内，则进一步判断该手势动作是否具有滑动属性。

属性确定子单元422进一步在判断手势动作是否具有滑动属性时，记录当前手部在背景图像中所处的位置和当前图像获取时刻，并将该位置记为起点；若在有效时间段内，捕捉到另一包含执行相同手势动作的手部的图像，且手部在同一背景图像的位置与所述起点之间具有有效距离，则确定该手势动作具有滑动属性。

多模态输出单元430，其与姿态分类解析单元420连接，用于根据解析结果，执行与手势动作对应的多模态输出指令。

具体地，多模态输出单元430根据解析结果查找与该结果对应的多模态输出指令。例如，若手势动作为从左至右挥动手部，该手势动作对应的多模态输出指令是让机器人播放下一首曲目，则向机器人输出“播放下一首歌曲”的指令以使机器人播放下一首。若手势动作为手掌向前指向，该手势动作对应的是让机器人暂停播放当前曲目，则向机器人输出“暂停播放”的多模态输出指令以使机器人停止播放音乐。除此之外，多模态输出指令还可以是与机器人硬件相关的执行指令，例如驱动机器人臂部的电机动作，完成机器人挥臂的多模态输出。

本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，包括以上实施例的部分或全部步骤，所述的存储介质，如：ROM/RAM、磁碟、光盘等。

Claims

1.一种应用于智能机器人的多模态交互方法，包括：

图像获取步骤，获取包含执行手势动作的手部的深度图像和灰度图像；

姿态分类解析步骤，对深度图像和灰度图像进行处理，解析出手势动作所表示的姿态和具备的属性；以及

多模态输出步骤，根据解析结果，执行与手势动作对应的多模态输出指令。

2.根据权利要求1所述的多模态交互方法，其特征在于，在姿态分类解析步骤中，

对深度图像和灰度图像进行图像处理，根据预设的手势姿态分类库确定手势动作的姿态；

判断该手势动作是否具备静态属性，在该手势动作对应的姿态不属于静止手势范围内，则进一步判断该手势动作是否具有滑动属性。

3.根据权利要求2所述的多模态交互方法，其特征在于，在判断手势动作是否具有滑动属性的步骤中，

记录当前手部在背景图像中所处的位置和当前图像获取时刻，并将该位置记为起点；

若在有效时间段内，捕捉到另一包含执行相同手势动作的手部的图像，且手部在同一背景图像的位置与所述起点之间具有有效距离，则确定该手势动作具有滑动属性。

4.根据权利要求1～3中任一项所述的多模态交互方法，其特征在于，在姿态分类解析步骤中，

对经过预处理后的深度图像进行直方图统计，找出图像中的手部轮廓，并根据手部轮廓获取矩形框；

在经过所述矩形框提取出的灰度图像内构建多个比例尺度的滑动窗口，获取图像不同区域的特征值；

根据获取的特征值，从预设的手势姿态分类库中确定手势动作的姿态。

5.一种应用于智能机器人的多模态交互系统，包括：

图像获取单元，其用于获取包含执行手势动作的手部的深度图像和灰度图像；

姿态分类解析单元，其用于对深度图像和灰度图像进行处理，解析出手势动作所表示的姿态和具备的属性；以及

多模态输出单元，其用于根据解析结果，执行与手势动作对应的多模态输出指令。

6.根据权利要求5所述的多模态交互系统，其特征在于，所述姿态分类解析单元进一步包括，

姿态确定子单元，其用于对深度图像和灰度图像进行图像处理，根据预设的手势姿态分类库确定手势动作的姿态；

属性确定子单元，其用于判断该手势动作是否具备静态属性，在该手势动作对应的姿态不属于静止手势范围内，则进一步判断该手势动作是否具有滑动属性。

7.根据权利要求6所述的多模态交互系统，其特征在于，所述属性确定子单元进一步用于：

8.根据权利要求5～7中任一项所述的多模态交互系统，其特征在于，所述姿态确定子单元进一步用于：