CN105468145B

CN105468145B - 一种基于手势和语音识别的机器人人机交互方法和装置

Info

Publication number: CN105468145B
Application number: CN201510795938.1A
Authority: CN
Inventors: 丁希仑; 齐静
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2015-11-18
Filing date: 2015-11-18
Publication date: 2019-05-28
Anticipated expiration: 2035-11-18
Also published as: CN105468145A

Abstract

本发明公开了一种基于手势和语音识别的机器人人机交互方法和装置，属于人机交互和机器人技术领域。所述装置包括传感器模块、手势识别模块、语音识别模块、信息融合模块、信息确认模块、机器人控制模块和应急求救模块。所述方法为，由信息融合模块对手势识别结果和语音识别结果进行融合，得到的最终融合结果发送给信息确认模块或者机器人控制模块，用于实现应急求救和机器人的动作执行。本发明将手势和语音两个通道结合起来，克服单一通道的不足，更好控制机器人。本发明可用于远程控制机器人，让机器人代替人类在空间站、危险品处理以及公共安全等领域作业，也可进行人与机器人的面对面直接交互，用于医疗、家庭服务等领域。

Description

一种基于手势和语音识别的机器人人机交互方法和装置

技术领域

本发明属于人机交互和机器人技术领域，具体涉及一种基于手势识别和语音识别的机器人人机交互方法及装置。

背景技术

我国正迈入老龄化社会，老年人需要照顾，而青壮年需要工作来维持生计，无暇照顾老人。机器人可以充当部分劳动力，如助老幼病残孕等。在此过程中，良好的人机交互起重要作用。

人机交互根据不同的研究领域，通常有三种不同描述(参见参考文献[1]：ArvinAgah,Human interactions with intelligent systems:research taxonomy,Computersand Electrical Engineering,27,2001,pp71-107)。从广义来说，人机交互指人类与机器间的交互(human-machine interactions，简称HMI)；从计算机领域来说，人机交互指人类与计算机系统间的交互(human-computer interaction，简称HCI)；从机器人领域来说，人机交互指人类与机器人间的交互(human-robot interaction，简称HRI)。人机交互依据研究对象的不同，可分为这三种不同描述。三者互相关联，计算机和机器人都是一种特殊机器，所以，可认为HMI包含HCI和HRI；机器人的核心通常是特定的计算机系统，HRI可以使用HCI的方法，也可以独立于HCI。

参见参考文献[2]：龚杰民，王献青，人机交互技术的进展与发展趋向.西安电子科技大学学报，1998,25(6):782-786；参考文献[3]：柳克俊，关于人机交互，人机和谐环境的思考.计算机应用,2005,25(10):2226-2227.人机交互经历了初级人机交互阶段、单通道人机交互阶段，现在正向两种或两种以上通道结合的方向发展初级人机交互通常使用简单的遥控器等特定设备实现人机对话，一般为单向，很少有机器人对人的反馈，通常需要人配合机器人才能完成特定任务；单通道人机交互使用单一方式交互技术，如语音、手势、触觉、眼部动作等(参见参考文献[4]：Potamianos,G.,Neti,C.,Luett J.,et al.,Audio-VisualAutomatic Speech Recognition:An Overview.Issues in Visual and Audio-VisualSpeech Processing,2004,356-396.参考文献[5]：Pavlovic,V.I.,Sharma,R.,Huang,T.S.,Visual Interpretation of Hand Gestures for Human-Computer Interaction:AReview.IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(7):677-695.参考文献[6]：Benali-Khoudja,M.,Hafez,M.,Alexandre,J.M.,et al.,Tactile Interfaces:A State-of-the-Art Survey,Citeseer,2004.参考文献[7]：Grauman,K.,Betke,M.,Lombardi,J.,et al.,Communication Via Eye Blinks andEyebrow Raises:Video-Based Human-Computer Interfaces.Universal Access in theInformation Society,2003,2(4):359-373.)，这种方式有利于自然人机交互的发展，但各个通道都有自己的优势和缺点，有一定的局限性。为了取长补短，更好利用各通道信息，两种或两种以上通道相结合成为人机交互发展的趋势。

如，语音和手势作为日常交互的常用通道，但语音识别，如IBM公司的IBM ViaVoice,微软的Microsoft Speech SDK,卡内基梅隆大学的CMU PocketSphinx等，识别率在一定程度上受说话者方言、语音、语调、周围环境等的影响；基于视觉的手势识别无需专门训练用户，也不需佩戴专用设备，具有直观、信息量大、自然友好的特点，符合自然的人机交互的要求，是多方式人机交互的核心技术之一，但容易受光照、复杂背景、部分遮挡等的影响。静态手势是常用的一种信息表达方式，且有多种表达形式，但在手势分割和识别过程中需分辨率较高的照片，当人手离摄像头较远时，采集到的人手区域照片的分辨率影响识别效果。

六足腿/臂复合式移动机器人可用于空间站、核电站、剧毒生化车间作业、危险品处理以及公共安全防暴等领域，也可用于家庭、医疗服务等领域。六足腿/臂复合式移动机器人不仅可用于远程控制，还可用于与机器人面对面直接交互，如，六足腿/臂复合式移动机器人进行救援时，不仅可以远程控制机器人救援，还可在灾后现场，与机器人面对面直接交互，良好的人机交互有助于机器人更好协助用户完成救援任务。

六足腿/臂复合式移动机器人还可用于医疗、家庭服务等领域，如，帮助老幼病残孕；陪儿童玩耍；帮老人、病人、残障人士、孕妇拿药，捡掉在地上的东西；当老人、病人、残障人士、孕妇摔倒，或身体健康的普通人在发生紧急情况时，如被抢劫，用手势或语音求救，系统便会以短信、彩信等方式及时通知家人，以便及时采取恰当措施。

发明内容

本发明的目的在于提供一种基于手势和语音识别的机器人人机交互方法和装置，将手势和语音两个通道结合起来，克服单一通道的不足，更好控制机器人。本发明可用于远程控制机器人，让机器人代替人类在空间站、核电站、剧毒生化车间作业、危险品处理、核电站、剧毒生化车间作业等领域作业，也可进行人与机器人的面对面直接交互，用于医疗、家庭服务等领域。

本发明提供的装置上安装环境检测传感器，可监测环境，在发生火灾、CH₄含量超标或CO含量超标情况下，系统以语音信息、短信、彩信等方式及时通知预定义的特定人。其中，彩信是摄像头在异常情况发生时拍摄的现场照片。

本发明所指的人机交互是人(用户)与机器人间的交互(HRI)。

本发明首先提供一种基于手势和语音识别的机器人人机交互方法，所述方法包括如下步骤：

第一步，判断是否有交互对象，如果有交互对象，则开启交互模式，转第二步；如果没有交互对象，机器人开启检测模式；

第二步，信息输入：手势识别模块和语音识别模块实时进行信息采集，如果采集到信息，则执行第三步，否则执行第五步；

第三步，手势识别模块通过RGB-D摄像头采集深度图像信息和RGB图像信息，进行预定义手势的识别，并将手势识别结果发送至信息融合模块；与此同时，语音识别模块通过RGB-D摄像头内置麦克采集音频信息，通过语音识别软件转换为特定文本信息作为语音识别结果，并将语音识别结果发送至信息融合模块；信息融合模块将语音识别结果和手势识别结果从语义层进行信息融合，得到最终融合结果；

第四步，执行与反馈，根据信息融合模块的最终融合结果发出相应指令；

如果最终融合结果是控制信息，则发出相应控制指令给机器人控制模块，控制机器人运动；如果最终融合结果是应急信息，则发应急信息给信息确认模块，信息确认模块通过语音形式广播给用户，询问用户是否要执行，得到肯定答复或在设定时间内没有应答，则信息确认模块发送应急信息给应急求救模块，转第六步。

第五步，若手势识别模块和语音识别模块在设定时间内没有信息输入，并且这种状况持续一定时间后，信息融合模块发送应急信息给信息确认模块，让信息确认模块根据当前任务进行提示性语音询问，转第一步；

第六步，应急求救：

应急求救模块接收到信息确认模块发送过来的应急信息，或传感器模块采集到的温度、CH₄含量或CO含量超过一定值时，应急求救模块向预登记的特定人发送语音、短信和彩信求救。

本发明还提供一种基于手势和语音识别的机器人人机交互装置，包括传感器模块、手势识别模块、语音识别模块、信息融合模块、信息确认模块、机器人控制模块和应急求救模块；传感器模块包括RGB-D摄像头、温湿度传感器、CH₄检测传感器和CO检测传感器，所述的RGB-D摄像头采集的RGB图像信息和深度图像信息发送给手势识别模块或应急求救模块；所述的RGB-D摄像头具有内置的麦克，麦克采集的语音信息发送给语音识别模块；所述的信息确认模块通过喇叭广播的形式向用户广播应急信息，以便得到用户确认；所述的温湿度传感器、CH₄检测传感器和CO检测传感器分别用于采集温湿度、空气中CH₄和CO气体浓度，并将采集的数据发送给应急求救模块；手势识别模块根据RGB-D摄像头采集的RGB图像信息和深度图像信息进行手势识别，得到手势识别结果发送给信息融合模块；语音识别模块将麦克采集的语音信息进行语音识别，得到特定文字信息，作为语音识别结果，并将识别结果发送给信息融合模块；信息融合模块是将手势识别结果和语音识别结果在语义层进行信息融合，生成一个最终融合结果，当最终融合结果是控制信息时，信息融合模块则将控制信息发送给机器人控制模块，控制机器人完成特定任务；当最终融合结果是应急信息时，信息融合模块则发送应急信息给信息确认模块，信息确认模块通过喇叭广播的形式询问用户是否要执行，得到肯定答复或在设定时间内没有应答，信息确认模块向应急求救模块发送应急信息；应急求救模块接收到信息确认模块传来的应急消息后，或传感器模块采集到的温度、CH₄含量或CO含量超过一定值时，则应急求救模块向登记的特定人发送语音、短信和彩信求救。

本发明的优点在于：

(1)本发明所述基于手势和语音识别的机器人人机交互方法，使用手势和语音两通道从语义层进行信息融合，克服单一交互通道的不足，提高人机交互效果。

(2)本发明所述基于手势和语音识别的机器人人机交互方法，可远程控制机器人在危险区域作业，也可用于与机器人近距离交互。

(3)本发明所述基于手势和语音识别的机器人人机交互方法，具有检测模式和交互模式，交互模式又分为手势模式、语音模式和联合模式。其中，检测模式可自动监测环境。当发生火灾、煤气泄漏、天然气泄漏等情况时，自动向预定义的特定人发送短信、语音信息或彩信。交互模式不仅可与机器人交互，还可在发生紧急情况时，用于向特定人求救。在与机器人交互过程中，用户可根据不同场合选择不同交互模式，并且在语音模式中可使用特定指令，将语音模式转换为手势模式或联合模式。如用户要跟其他人谈话，想终止语音控制模式，切换为单通道模式，可使用语音命令“手势模式”，此时，只能用手势控制机器人。

(4)本发明所述基于手势和语音识别的机器人人机交互方法，具有一定通用性。本发明所述方法不仅可用于遥操作机器人，还可用于近距离交互的机器人。本发明所述方法具有一定可移植性，用户可根据特定机器人的特定功能，在手势识别模块和语音识别模块做适当预定义，便可使用语音和手势完成特定任务。

(5)本发明所述基于手势和语音识别的机器人人机交互方法，在手势识别模块和语音识别模块预定义了特定的手势和语音为求救信号，用户在一些突发情况，如，入室抢劫、摔倒后爬不起来，只能呼救等情况，可通过特定语音或手势求救。

附图说明

图1为基于手势和语音识别的机器人人机交互装置的结构框架图；

图2为传感器模块结构框架图；

图3为基于手势和语音识别的机器人人机交互方法流程图。

具体实施方式

下面结合附图和实施例对本发明进行详细说明。

本发明提供一种基于手势和语音识别的机器人人机交互装置，如图1所示，所述人机交互装置基于Linux Ubuntu 12.04上安装的Robot Operating System(ROS)的groovy版本，本发明的人机交互装置包括：传感器模块、手势识别模块、语音识别模块、信息融合模块、信息确认模块、机器人控制模块和应急求救模块。在本发明中，将手势识别模块、语音识别模块、信息融合模块、信息确认模块、机器人控制模块和应急求救模块抽象为不同结点，即ROS中的不同node，则模块间的通信可看作不同结点间通信，故模块间以ROS中topic形式通信，通信的内容即为topic中的message。

传感器模块包括RGB-D摄像头、温湿度传感器、CH₄检测传感器和CO检测传感器，如图2所示。RGB-D摄像头不仅能采集到普通的RGB照片，还能同时采集到深度图像。深度图像中每个像素点的值都代表了该像素点所对应的物体和摄像头之间的距离，深度图像可以看作是一种单通道的灰度图，只不过每一个像素点的灰度值表示的是这个像素点对应的物体距离摄像头的远近。所述的RGB-D摄像头为华硕Xtion Pro Live。所述的RGB-D摄像头采集的RGB图像信息和深度图像信息发送给手势识别模块或应急求救模块；所述的RGB-D摄像头具有内置的麦克，麦克采集的语音信息发送给语音识别模块；所述的信息确认模块通过喇叭广播的形式向用户广播应急信息，以便得到用户确认。所述的温湿度传感器、CH₄检测传感器和CO检测传感器分别用于采集温湿度、空气中CH₄和CO气体浓度，并将采集的数据发送给应急求救模块。

手势识别模块，首先预定义手势的种类和含义，然后根据RGB-D摄像头采集的RGB图像信息和深度图像信息进行手势识别，得到手势识别结果发送给信息融合模块。手势识别模块进行手势识别时，可以调用OpenNI库进行识别，也可以使用自己特定的手势识别算法。所述的预定义手势可以根据需要进行具体的限定，下面举例给出几个预定义手势。

在手势识别模块做如下预定义：

对于六足腿/臂复合式移动机器人，基于图像的单只手的手势做以下定义：一根手指，代表让机器人抬起一条腿；两根手指，代表让机器人抬起两条腿；三根手指，代表让机器人抬起三条腿，如果让机器人行走，则意味着让机器人以“3+3”步态行走；四根手指，代表让机器人进行轮腿切换，初始状态默认为“腿行”方式；五根手指，代表用户要求机器人发出求救信息；数字6的手势(即只是伸开大拇指和小指)，代表让机器人六条腿着地；OK手势，代表“好”“是”等确认操作，是对信息确认模块的肯定回答；握拳，代表“不是”等否定含义，是对信息确认模块的否定回答。

对基于视频的手势做以下定义：手向上运动，代表让机器人向前走；手向下运动，代表让机器人向后走；手向左运动，代表让机器人左转弯；手向右运动，代表让机器人右转弯；手向前推，代表让机器人停止运动；手顺时针画圆，代表让机器人原地顺时针旋转；手逆时针画圆，代表让机器人原地逆时针旋转。

语音识别模块，将麦克采集的语音信息进行语音识别，得到特定文字信息，作为语音识别结果，并将识别结果发送给信息融合模块。所述的语音识别可以采用卡内基梅隆大学的CMU PocketSphinx软件实现。

在语音识别模块做如下预定义：

用户在语音识别模块中预定义语音命令如下所示：语音命令“语音模式”，表示机器人进入语音控制模式；语音命令“手势模式”，表示机器人进入手势控制模式；语音命令“联合模式”，表示机器人进入手势和语音联合控制模式；语音命令“救命”，表示让机器人发送求救信息；语音命令“前进”，控制机器人往前走；语音命令“后退”，控制机器人往后走；语音命令“左转”，控制机器人左转弯；语音命令“右转”，控制机器人右转弯；语音命令“停止”，控制机器人停止运动；语音命令“加速”，控制机器人提升速度；语音命令“减速”，控制机器人降低速度；语音指令“是”，表示对信息确认模块中信息确认的肯定回答；语音指令“不是”，表示对信息确认模块中信息确认的否定回答。

信息融合模块是将手势识别结果和语音识别结果在语义层进行信息融合，生成一个最终融合结果发送给机器人控制模块或信息确认模块。具体来说，当最终融合结果是控制信息时，信息融合模块则将控制信息发送给机器人控制模块，控制机器人完成特定任务；当最终融合结果是应急信息时，信息融合模块则发送应急信息给信息确认模块，信息确认模块通过喇叭广播的形式询问用户是否要执行，得到肯定答复或在设定时间T(如3分钟)内没有应答，信息确认模块向应急求救模块发送应急信息。

信息融合模块，如果只有手势信息输入，将手势识别结果作为最终融合结果；如果只有语音信息输入，将语音识别结果作为最终融合结果；如果既有语音信息，又有手势信息输入，且手势识别结果和语音识别结果不冲突，则信息融合模块将手势和语音的最终融合结果选择性的发给机器人控制模块或信息确认模块：当最终融合结果是控制信息时，将最终融合结果发给机器人控制模块，控制机器人运动；当最终融合结果是应急信息时，发送应急信息给信息确认模块进行信息确认，避免误操作。当手势识别结果和语音识别结果冲突时，将两种结果直接发送给信息确认模块，再由信息确认模块向用户确认执行何种操作。

信息融合模块进行信息融合分三个层次的融合：数据层、特征层和决策层。这三个层次的不同在于融合的数据类型不同：数据层是直接对采集的原始数据进行融合；特征层是采集的原始数据经特征提取后，再进行综合分析和处理；决策层从具体决策的需求出发，直接针对决策目标，充分利用提取的特征信息，是三级融合的最终结果，直接影响决策水平。

本发明中的信息融合模块采用决策层信息融合。此种信息融合方式在这三种融合方式中应用最普遍，是基于语义层的信息整合，所述的决策层信息融合方式首先对单通道交互模式从语义层理解，继而将两种或两种以上通道信息融合起来。它一般适用于松耦合。与特征层信息融合相比，决策层信息融合的优势在于：可靠性和抗干扰能力较强，处理过程中的计算开销较小。缺点是不能从底层数据中找各通道的相关性。

机器人控制模块将从信息融合模块得到的控制信息转换为机器人的实际运动，实现机器人的特定动作。

信息确认模块将最终融合结果以语音的形式(喇叭广播)反馈给用户，如果得到用户肯定答复，则执行提示任务；如果得到用户否定答复，则不执行提示任务；若在预设时间t(如2分钟)内用户无应答，则信息确认模块通过语音(喇叭广播)提示用户输入手势或语音信息，若用户仍无应答，则不执行提示任务。信息确认模块中的语音提示采用语音合成技术(Text-to-Speech)将要输出的文本信息合成语音信息，再通过喇叭将声音反馈给用户。

应急求救模块，应急求救模块接收到信息确认模块传来的应急消息后，或传感器模块采集到的温度、CH₄含量或CO含量超过一定值时，则应急求救模块向预登记的特定人发送语音、短信和彩信求救。其中，语音信息是采用语音合成技术(Text-to-Speech)将要输出的文本信息合成的语音信息。彩信是指应急求救模块接收到应急信息时，通过传感器模块中的RGB-D摄像头拍摄的现场照片。

应急求救模块从信息确认模块得到应急信息的情况为：用户在某些特殊情况，如，被入室抢劫、摔倒后起不来，不能打电话求救等情况发生时，可通过语音或预定义手势发出求救信息，信息融合模块融合后的最终结果，经信息确认模块确认后，发出应急信息给应急求救模块，应急求救模块接收到应急信息后开始启动，发送语音信息、短信、彩信给预定义的特定人求救。

本发明还提供一种基于手势和语音识别的机器人人机交互方法，该方法分为交互模式和检测模式，而交互模式又分为：手势模式、语音模式和联合模式。其中，检测模式用来检测环境中温湿度、CH₄气体含量或CO气体含量。当环境中温湿度、CH₄气体含量或CO气体含量超过一定值时，检测模式下，本发明所述装置会给特定人发送报警信息，报警信息包括语音信息、短信、照片(环境中温湿度、CH₄含量或CO含量超过一定值时，摄像头拍摄的现场照片)。交互模式是用户通过手势或语音与机器人交互的模式。在此模式下，如果用户仅通过手势与机器人交互，此模式称为手势模式，适用于用户控制机器人时，需要与其他人交谈的情况或环境噪声较大等，不适合用语音识别的场合；如果用户仅通过语音与机器人交互，此模式称为语音模式，适用于手势大部分或完全被遮挡等手势识别交互方式受限制的场合；如果用户通过语音和手势两种通道与机器人交互，此模式称为联合模式，此模式综合使用手势和语音两种通道，这两种通道在某些情况下可以互补，在一定程度上增加了人与机器人交互的适用范围。

本发明所述人机交互方法如图3所示流程，具体包括以下步骤：

第一步，判断是否有交互对象，如果有交互对象，则开启交互模式。当机器人接收到打招呼的语音，如“你好”，“下午好”等，或当机器人识别出某一动作，如“挥手”时，则判断机器人附近有交互对象，开启交互模式。如果没有交互对象，机器人处于检测模式。

第二步，信息输入。手势识别模块和语音识别模块实时进行信息采集，如果采集到信息，则执行第三步，否则执行第五步；

第三步，手势识别模块通过RGB-D摄像头采集深度图像信息和RGB信息，经图像分割、特征提取、训练识别等步骤，进行预定义手势的识别，并将识别结果发送至信息融合模块。与此同时，语音识别模块将RGB-D摄像头内置麦克采集音频信息，通过语音识别软件(卡内基梅隆大学的CMU PocketSphinx)转换为特定文本信息(Speech to Text)，并将语音识别结果发送至信息融合模块。信息融合模块将语音识别结果和手势识别结果从语义层进行信息融合，得到最终融合结果。

信息融合模块接收到手势识别模块和语音识别模块发送来的识别结果后，进行语义层信息融合，并根据最终融合结果发送至机器人控制模块或信息确认模块。当机器人控制模块接收到信息融合模块发出的控制信息后，控制机器人运动，完成特定任务。当信息确认模块接收到信息融合模块发出的应急求救信息后，信息确认模块就是否发送求救信息向用户确认。

本发明所述人机交互方法在交互模式下有三种模式：手势模式、语音模式和联合模式，则信息融合模块相应也有三种模式：手势模式、语音模式和联合模式。

a、信息融合模块在手势模式下，将手势识别结果作为最终融合结果，并根据信息融合最终结果的种类发消息给机器人控制模块或信息确认模块，即，如果最终融合结果是控制信息，则将消息发送给机器人控制模块，控制机器人完成特定任务；如果最终融合结果是应急信息，则将应急信息发送给信息确认模块，向用户确认是否发送应急信息。即，用户如果做了预定义的求救手势，信息融合模块接收到手势识别模块发送来的应急求救信息，为避免误操作，发消息给信息确认模块进行信息确认，信息确认模块以喇叭广播的形式播放当前任务，并提示用户选择是否执行任务。当用户使用特定手势，如“OK”手势，确认执行当前任务时，信息确认模块发送消息给应急求救模块，应急求救模块接收到信息确认模块发送过来的应急信息后，就发送语音、短信和彩信给预定义的特定人。其中，彩信是应急求救模块收到信息确认模块发过来的应急消息时，通过传感器模块中的RGB-D摄像头拍摄的现场照片。

b、信息融合模块在语音模式下，将语音识别结果作为最终融合结果，并根据信息融合最终结果的种类发消息给机器人控制模块或信息确认模块，即，如果最终融合结果是控制信息，则将消息发送给机器人控制模块，控制机器人完成特定任务；如果最终融合结果是应急信息，则将消息发送给信息确认模块，向用户确认是否发送应急信息。即，用户如果使用预定义的求救语音指令，信息融合模块接收到语音识别模块发送来的应急求救信息，为避免误操作，发消息给信息确认模块进行信息确认，信息确认模块以喇叭广播的形式播放当前任务，并提示用户选择是否执行任务。当用户使用特定语音指令，如“是”等指令，确认执行当前任务时，信息确认模块发送消息给应急求救模块，应急求救模块接收到信息确认模块发送过来的信息后，就发送语音、短信和彩信给预定义的特定人。其中，彩信是应急求救模块收到信息确认模块发过来的消息时，通过传感器模块中的RGB-D摄像头拍摄的现场照片。

c、信息融合模块在联合模式下，将手势和语音识别的结果作为最终融合结果，并根据信息融合最终结果的种类发消息给机器人控制模块或信息确认模块。手势和语音通道信息的获取时间可能不一致，因此，信息融合模块获取某一通道信息后，会等待其他通道信息的输入，并设定超时限制t(如10s)。等各通道信息都输入完成后，再进行信息融合，做出相应决策，触发相应控制指令，控制机器人的运动或向信息确认模块发送信息。

如果信息融合模块任务决策出现差别时，如，语音信息和手势信息相冲突的时候，信息融合模块会发消息给信息确认模块，信息确认模块以喇叭广播的形式依次播放任务名称，供用户选择，并提示用户明确任务。当信息确认模块收到用户的肯定反馈时，开始执行任务。这里的肯定反馈可用语音表达，也可用手势表示。语音：如“是”等词汇；手势：如，“OK”手势。

第四步，执行与反馈，根据信息融合模块的最终融合结果发出相应指令。信息融合后的最终融合结果分为两类：一类是控制信息，一类是应急信息。如果是控制信息，则发出相应控制指令，控制机器人运动。如果是应急信息，则发消息给信息确认模块，信息确认模块通过语音形式(喇叭广播)广播给用户，询问用户是否要执行，得到肯定答复或在设定时间T(如3分钟)内没有应答，则启动应急模式，转第六步。所述的肯定答复可以用语音或手势的形式表达：语音如“是”等；手势如“OK”等手势。

第五步，在交互模式中，若第二步在设定时间T(如3分钟)内没有应答，即，手势识别模块检测不到手势信息，语音识别模块也检测不到语音信息，并且这种状况持续一定时间T(如3分钟)后，信息融合模块发送应急信息给信息确认模块，让信息确认模块根据当前任务进行提示性语音询问，确认机器人附近没有交互对象，则信息确认模块通过语音(喇叭广播)询问用户，若在特定时间T(如3分钟)内，第二步仍检测不到语音信息和手势信息，则视为机器人附近无交互对象，关闭交互模式，开启检测模式，转第一步。

所述的检测模式，用来检测环境状况，只要机器人通电，机器人便一直处于检测模式。在此模式中，应急求救模块通过传感器模块中的温湿度传感器、CH₄检测传感器和CO检测传感器检测温度、CH₄含量或CO含量，当温度、CH₄含量或CO含量超过一定值时，应急求救模块检测到超标数据后向特定人发送语音信息、短信和彩信求救。其中，彩信是指应急信息发出时，通过传感器模块中的RGB-D摄像头拍摄的现场照片。

第六步，应急求救。应急求救模块接收到信息确认模块发送过来的信息，或传感器模块采集到的温度、CH₄含量或CO含量超过一定值时，应急求救模块向预登记的特定人发送语音、短信和彩信求救。其中，语音信息是采用语音合成技术(Text-to-Speech)将要输出的文本信息合成的语音信息。彩信是指应急求救模块接收到应急信息时，通过传感器模块中的RGB-D摄像头拍摄的现场照片。

图3是本发明实施实例的六足腿/臂复合式移动机器人人机交互方法流程图，结合一个实施例对本发明做详细描述：

实施例一：

以下是本发明在交互模式下，用户与六足腿/臂复合式移动机器人基于手势和语音识别人机交互方法的实现过程：

(1)判断机器人附近是否有交互对象。当机器人通过麦克检测到有语音信息，如“你好”“上午好”等，或通过摄像头检测到特定手势信息，如挥手等，则认为机器人附近有交互对象，开启交互模式，并以喇叭广播的形式播放语音信息，如“你好，请问有什么吩咐？”。

(2)在交互模式下，用户可用预定义的手势或语音与机器人交互。以下就交互模式下的手势模式、语音模式和联合模式给出实施实例。

a、手势模式，用户仅能使用预定义的手势控制机器人的实施实例如下所示：

当用户伸出一根手指时，机器人举起带有夹子的那条腿，同时，以喇叭广播的形式播放语音，如“请问要进行夹持操作吗？”，当用户做出OK手势，或用语音进行确认回答，如“是”等，则执行机器人控制模块，控制机器人完成特定任务。

当用户伸出两根手指时，机器人抬起两条腿，开始四足支撑，两足作业，并在机器人控制模块的控制下，控制机器人完成特定任务。

当用户伸出三根手指时，机器人抬起三条腿，当用户手向上运动，机器人以“3+3”步态向前运动，当用户手向左运动，机器人以“3+3”步态向左转弯，当用户手向右运动，机器人以“3+3”步态向右运动，当用户手向后运动时，机器人以“3+3”步态向后运动，当用户伸出四根手指，机器人进行轮腿切换，由“腿行”方式切换为“轮行”方式，当用户手向上运动时，机器人以“轮行”方式向前运动，当用户手向左运动时，机器人以“轮行”方式向左转弯，当用户手向右运动时，机器人以“轮行”方式向右转弯，当用户手向下运动时，机器人以“轮行”方式向后运动，当用户手向前推时，机器人停止运动。

当用户做出数字6的手势(即只是伸开大拇指和小指)，机器人六条腿着地，当用户伸出4根手指，机器人由“腿行”方式切换为“轮行”方式，当用户手向上运动，机器人以“轮行”方式向前运动，当用户手向左运动，机器人以“轮行”方式向左转弯，当用户手向右运动，机器人以“轮行”方式向右运动，当用户手向后运动时，机器人以“轮行”方式向后运动，当用户手向前推时，机器人停止运动，当用户伸出4根手指，机器人由“轮行”方式切换为“腿行”方式。

当用户手顺时针画圆，机器人原地顺时针旋转，当用户手逆时针画圆，机器人原地逆时针旋转。当用户手向前推，机器人停止运动。

当用户伸出五根手指，机器人以喇叭广播的形式询问用户是否要求救，如果机器人接收到表示确认的手势信息(如，OK的手势)或在设定时间T(如3分钟)内没有应答，机器人则将表示求救的语音信息、短信和摄像头拍摄的现场照片，发送给预登记的特定人。其中，摄像头拍摄的现场照片，是机器人在接收到求救信息时，通过传感器模块中的RGB-D摄像头拍摄的现场照片。

如果在特定时间T(如3分钟)内没有手势和语音信息输入，机器人以喇叭广播的形式提示用户输入手势或语音信息，如果在特定时间T(如3分钟)内仍没有手势和语音信息输入，机器人认为交互对象已离开，关闭交互模式，开启检测模式，转(1)。

b、语音模式，用户仅能使用预定义的语音控制机器人的实施实例如下所示：

当用户说“语音模式”，机器人识别出这四个字后，以喇叭广播的形式播放语音，如，“您现在进入语音模式”，当用户说“前进”，机器人识别出这两个字后，开始向前运动，当用户说“加速”，机器人识别后开始加速到一定速度，当用户说“左转”，机器人识别后向左转，当用户说“减速”，机器人识别后减到一定速度，当用户说“右转”，机器人识别后向右转，当用户说“停止”，机器人识别出停止运动。

当用户在交互过程中，想与其他人谈话，终止语音方式控制机器人，即，用户想仅用手势控制机器人，用户可说“手势模式”，机器人识别出这四个字后，以喇叭广播的形式播放语音，如，“您现在进入手势模式，此模式只能用手势控制机器人。”，在此模式中，用户只能用手势控制机器人，具体实例见a。

当用户说“救命”，机器人识别出这两个字后，信息确认模块以喇叭广播的形式询问用户是否发送应急信息，如果得到用户的肯定答复，如，用户说“是”等词汇，或在设定时间T(如3分钟)内没有应答，机器人则将表示求救的语音信息、短信和摄像头拍摄的现场照片，发送给预登记的特定人。其中，摄像头拍摄的现场照片，是机器人在接收到求救信息时，通过传感器模块中的RGB-D摄像头拍摄的现场照片。

c、联合模式，用户使用手势和语音联合控制机器人的实施实例如下所示：

当用户说“联合模式”，机器人识别后以喇叭广播的形式播放语音，如，“您现在进入手势和语音联合控制模式”，在该模式下，用户只要说某一语音控制指令或做某一手势，机器人会完成相应指令，即，用户可使用任一语音或手势控制机器人完成特定动作，且语音和手势可交叉使用，具体实现与a、b相同，只是对于机器人的询问语句，用户可以用手势，也可以用语音回答。

当手势与语音指令冲突时，机器人以喇叭广播的形式依次播放手势和语音任务名称，每播放完一个任务都询问用户是否执行，如果得到用户的肯定答复，则执行该任务，肯定答复可用手势也可用语音形式表达，手势如OK的手势，语音如“是”等。每次播放任务完成后，如果在特定时间T(如3分钟)得不到用户回答，则机器人不执行此任务，如果还有其他任务需要用户确认，则以喇叭广播的形式依次播放所有任务，并且，每播放完后都询问用户是否要执行此任务，依次循环，直至所有任务都以喇叭广播的形式播放完，且都询问完用户是否要执行，如果在特定时间T(如3分钟)内没有手势和语音信息输入，机器人以喇叭广播的形式提示用户输入手势或语音信息，如果在特定时间T(如3分钟)内仍没有手势和语音信息输入，机器人认为交互对象已离开，关闭交互模式，开启检测模式，转(1)。

Claims

1.一种基于手势和语音识别的机器人人机交互装置，其特征在于：包括传感器模块、手势识别模块、语音识别模块、信息融合模块、信息确认模块、机器人控制模块和应急求救模块；将手势识别模块、语音识别模块、信息融合模块、信息确认模块、机器人控制模块和应急求救模块抽象为不同结点，即ROS中的不同node，则模块间的通信看作不同结点间通信，故模块间以ROS中topic形式通信，通信的内容即为topic中的message；传感器模块包括RGB-D摄像头、温湿度传感器、CH₄检测传感器和CO检测传感器，所述的RGB-D摄像头采集的RGB图像信息和深度图像信息发送给手势识别模块或应急求救模块；所述的RGB-D摄像头具有内置的麦克，麦克采集的语音信息发送给语音识别模块；所述的信息确认模块通过喇叭广播的形式向用户广播应急信息，以便得到用户确认；所述的温湿度传感器、CH₄检测传感器和CO检测传感器分别用于采集温湿度、空气中CH₄和CO气体浓度，并将采集的数据发送给应急求救模块；手势识别模块根据RGB-D摄像头采集的RGB图像信息和深度图像信息进行手势识别，得到手势识别结果发送给信息融合模块；语音识别模块将麦克采集的语音信息进行语音识别，得到特定文字信息，作为语音识别结果，并将识别结果发送给信息融合模块；信息融合模块是将手势识别结果和语音识别结果在语义层进行信息融合，生成一个最终融合结果，当最终融合结果是控制信息时，信息融合模块则将控制信息发送给机器人控制模块，控制机器人完成特定任务；当最终融合结果是应急信息时，信息融合模块则发送应急信息给信息确认模块，信息确认模块通过喇叭广播的形式询问用户是否要执行，得到肯定答复或在设定时间内没有应答，信息确认模块向应急求救模块发送应急信息；应急求救模块接收到信息确认模块传来的应急消息后，或传感器模块采集到的温度、CH₄含量或CO含量超过一定值时，则应急求救模块向登记的特定人发送语音、短信和彩信求救；

所述的信息融合模块采用决策层信息融合方法；

所述的信息融合模块，如果只有手势信息输入，将手势识别结果作为最终融合结果；如果只有语音信息输入，将语音识别结果作为最终融合结果；如果既有语音信息，又有手势信息输入，且手势识别结果和语音识别结果不冲突，则信息融合模块将手势和语音的最终融合结果选择性的发给机器人控制模块或信息确认模块；当手势识别结果和语音识别结果冲突时，将两种结果直接发送给信息确认模块，再由信息确认模块向用户确认执行何种操作；

所述的信息融合模块进行信息融合分三个层次的融合：数据层、特征层和决策层，这三个层次的不同在于融合的数据类型不同：数据层是直接对采集的原始数据进行融合；特征层是采集的原始数据经特征提取后，再进行综合分析和处理；决策层从具体决策的需求出发，直接针对决策目标，充分利用提取的特征信息，是三级融合的最终结果，直接影响决策水平；

在手势识别模块做如下预定义：

对于六足腿/臂复合式移动机器人，基于图像的单只手的手势做以下定义：一根手指，代表让机器人抬起一条腿；两根手指，代表让机器人抬起两条腿；三根手指，代表让机器人抬起三条腿，如果让机器人行走，则意味着让机器人以“3+3”步态行走；四根手指，代表让机器人进行轮腿切换，初始状态默认为“腿行”方式；五根手指，代表用户要求机器人发出求救信息；数字6的手势即只是伸开大拇指和小指，代表让机器人六条腿着地；OK手势，代表“好”“是”确认操作，是对信息确认模块的肯定回答；握拳，代表“不是”等否定含义，是对信息确认模块的否定回答；

2.一种基于手势和语音识别的机器人人机交互方法，其特征在于：根据权利要求1所述的一种基于手势和语音识别的机器人人机交互装置，所述的方法具体包括以下步骤，

第一步，判断是否有交互对象，如果有交互对象，则开启交互模式，转第二步；如果没有交互对象，机器人开启检测模式；所述的检测模式，用来检测环境状况；在检测模式中，应急求救模块通过传感器模块中的温湿度传感器、CH₄检测传感器和CO检测传感器检测温度、CH₄含量或CO含量，当温度、CH₄含量或CO含量超过一定值时，应急求救模块检测到超标数据后向特定人发送语音信息、短信和彩信求救；

如果最终融合结果是控制信息，则发出相应控制指令给机器人控制模块，控制机器人运动；如果最终融合结果是应急信息，则发应急信息给信息确认模块，信息确认模块通过语音形式广播给用户，询问用户是否要执行，得到肯定答复或在设定时间内没有应答，则信息确认模块发送应急信息给应急求救模块，转第六步；

第六步，应急求救；

应急求救模块接收到信息确认模块发送过来的应急信息，或传感器模块采集到的温度、CH₄含量或CO含量超过一定值时，应急求救模块向预登记的特定人发送语音、短信或彩信求救。