CN103885585B - 一种基于单人手势和语音信息的机器人人工导航方法 - Google Patents

一种基于单人手势和语音信息的机器人人工导航方法 Download PDF

Info

Publication number
CN103885585B
CN103885585B CN201410057451.9A CN201410057451A CN103885585B CN 103885585 B CN103885585 B CN 103885585B CN 201410057451 A CN201410057451 A CN 201410057451A CN 103885585 B CN103885585 B CN 103885585B
Authority
CN
China
Prior art keywords
vector
gesture
voice
information integrity
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410057451.9A
Other languages
English (en)
Other versions
CN103885585A (zh
Inventor
黄桂德
蒋旻
雷泽
杜沛力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Beiteer robot Co Ltd
Wuhan University of Science and Engineering WUSE
Original Assignee
SHENZHEN BEITEER ELECTROMECHANICAL Co Ltd
Wuhan University of Science and Engineering WUSE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN BEITEER ELECTROMECHANICAL Co Ltd, Wuhan University of Science and Engineering WUSE filed Critical SHENZHEN BEITEER ELECTROMECHANICAL Co Ltd
Priority to CN201410057451.9A priority Critical patent/CN103885585B/zh
Publication of CN103885585A publication Critical patent/CN103885585A/zh
Application granted granted Critical
Publication of CN103885585B publication Critical patent/CN103885585B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Manipulator (AREA)
  • Toys (AREA)

Abstract

本发明公开了一种基于单人手势和语音信息的机器人人工导航方法,通过体感设备Kinect采集当前环境中人体骨架关节点信息和语音信息,计算出骨架信息完整度和语音信息清晰度;如果骨架信息完整度大于等于骨架信息完整度阈值,则采用手势识别来进行机器人人工导航;如果骨架信息完整度小于骨架信息完整度阈值,且语音信息清晰度大于等于语音信息清晰度阈值,则采用语音识别来进行机器人人工导航;如果骨架信息完整度小于骨架信息完整度阈值,且语音信息清晰度也小于语音信息清晰度阈值,则不输出导航指令。本发明将手势和语音结合起来应用于机器人控制系统中,因此具有实用性强、准确性高、实时性好的优点。

Description

一种基于单人手势和语音信息的机器人人工导航方法
技术领域
本发明涉及一种属于机器人领域,具体是一种基于单人手势和语音信息的机器人人工导航方法。
背景技术
随着科技的发展,人机交互逐渐从以计算机为中心转移到以人为中心。手势和语音作为人的日常交流方式,自然,直观,清晰。因此手势和语音成为了人机交互的主流,广泛应用于远程控制、虚拟现实、医疗诊断等领域。
近年来,各种各样手势识别和语音识别算法层出不穷,比较流行的用于手势识别算法是DTW和HMM。但是DTW算法识别率较低,而HMM算法鲁棒性较差。语音识别的算法需要用训练软件来提高识别精度。单独用手势识别算法时,算法识别率会受到光照、复杂背景和骨架信息完整度的影响;单独使用语音识别时,会受到语音清晰度的影响。
分析目前的识别方法中,单纯使用手势识别的方法性能容易受到光照、复杂背景和骨架信息完整度的影响;单纯使用语音识别的方法是容易受到语音清晰度的影响,因此需要提供一种新的方法来解决上述问题。
发明内容
本发明的目的在于提供一种实用性强、准确性高、实时性好的基于单人手势和语音信息的机器人人工导航方法。本发明所述的机器人人工导航是指控制机器人的人员不需携带任何和机器人进行通讯的设备,直接依靠手势或语音指挥机器人的行进方向。
为实现上述目的,本发明提供如下技术方案:
一种基于单人手势和语音信息的机器人人工导航方法,该方法的具体步骤为:
(1)通过体感设备Kinect采集当前环境中人体骨架关节点信息和语音信息,计算出骨架信息完整度和语音信息清晰度;
(1.1)如果骨架信息完整度大于等于骨架信息完整度阈值,则转到步骤(2);
(1.2)如果骨架信息完整度小于骨架信息完整度阈值,且语音信息清晰度大于等于语音信息清晰度阈值,则转到步骤(3);
(1.3)如果骨架信息完整度小于骨架信息完整度阈值,且语音信息清晰度也小于语音信息清晰度阈值,则判断程序是否结束,如果是,则程序结束,如果否,则程序回到步骤(1);
(2)手势识别:
(2.1)定义九种不同的手势指令,九种手势指令分别为向右、向后、向左、向前、右前、右后、左后、左前和停止,且每种手势指令对应着一种向量,得到九个不同的向量ni,i=[1,9];其中:向右对应向量n1,向后对应向量n2,向左对应向量n3,向前对应向量n4,右前对应向量n5,右后对应向量n6,左后对应向量n7,左前对应向量n8,停止对应向量n9
(2.2)选取右臂的右肘Per和右腕Pwr作为手势识别的两个关节点;将以右肘Per为起点,且以右腕Pwr为终点的向量new作为特征向量来识别各种手势指令;
(2.3)计算向量new与步骤(2.1)中向量ni的夹角θ,并找出最小夹角θmin
(2.4)比较θmin与手势置信度阈值Tθ的值,当θmin≥Tθ时,手势识别失败,进入步骤(3);否则识别成功,输出θmin对应的手势向量所对应的手势指令,接下来判断程序是否结束,如果是,则程序结束,如果否,则程序回到步骤(1);
(3)语音识别:
(3.1)建立语音识别引擎对象,将控制机器人运动的九个指令加到该对象的语法中,Grammar={“forward”,“back”,“left”,“right”,“northeast”,“southeast”,“southwest”,“southnorth”,“stop”};
(3.2)从体感设备Kinect的传感器获取原始音频数据流,通过降噪、自动增益控制和回声消除提高音频质量;
(3.3)语音识别引擎对象接受步骤(3.2)处理过的音频数据流,并与其语音库进行匹配,解析出文本结果;
(3.4)计算解析出的文本结果与语法中每个词的语音置信度的值C,并取出最大语音置信度的值Cmax
(3.5)令语音置信度阈值为TS,当Cmax≥TS时,识别成功,算法输出Cmax对应的语音指令;否则识别失败,不输出行走指令;
(3.6)判断程序是否结束,如果是,则程序结束,如果否,则程序回到步骤(1)。
作为本发明进一步的方案:步骤(1)当前环境中只有一个目标人发出手势或者语音指令。
与现有技术相比,本发明的有益效果是:本发明由于是用体感设备Kinect设备获取骨架信息和语音信息,骨架信息是通过深度图像获得的,所以可以克服光照变化、复杂背景的影响;而语音信息只受外部环境噪杂度的影响。本发明集合了这两部分识别算法的优点,也克服了单独使用这两种算法的不足。比如说,当人不在体感设备Kinect视域内时,可以用语音控制机器人的运动。当现场环境很吵时,体感设备Kinect的麦克风阵列可能接收不到有用的音频信号,语音控制将大打折扣,此时采用手势来控制机器人运动,这样就很好的避免了单一算法的局限性,很好的解决了骨架信息不完整或语音信息不完整的问题。因此,本发明具有实用性强、准确性高、实时性好的优点。
附图说明
图1是人体骨骼中的20个关节点图;
图2是体感设备Kinect的骨架空间坐标系;
图3是本发明算法的整个识别系统框图;
图4是Kinect坐标系的XOZ平面中手势指令与向量的对应关系;
图5是Kinect坐标系的XOY平面中手势指令与向量的对应关系;
图6是手势置信度阈值Tθ与识别成功次数的关系图;
图7是语音置信度阈值TS与识别成功次数的关系图;
图8是骨架信息示例;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图3,一种基于单人手势和语音信息的机器人人工导航方法,该方法的具体步骤为:
(1)当前环境中只有一个目标人发出手势或者语音指令时,通过体感设备Kinect采集当前环境中人体骨架关节点信息(如图8所示)和语音信息,计算出骨架信息完整度和语音信息清晰度;
(1.1)如果骨架信息完整度大于等于骨架信息完整度阈值,则转到步骤(2);
(1.2)如果骨架信息完整度小于骨架信息完整度阈值,且语音信息清晰度大于等于语音信息清晰度阈值,则转到步骤(3);
(1.3)如果骨架信息完整度小于骨架信息完整度阈值,且语音信息清晰度也小于语音信息清晰度阈值,则判断程序是否结束,如果是,则程序结束,如果否,则程序回到步骤(1);
(2)手势识别:
(2.1)定义九种不同的手势指令,九种手势指令分别为向右、向后、向左、向前、右前、右后、左后、左前和停止,且每种手势指令对应着一种向量,得到九个不同的向量ni,i=[1,9];如图4和图5所示,其中:向右对应向量n1,向后对应向量n2,向左对应向量n3,向前对应向量n4,右前对应向量n5,右后对应向量n6,左后对应向量n7,左前对应向量n8,停止对应向量n9
(2.2)选取右臂的右肘Per和右腕Pwr作为手势识别的两个关节点(如图1所示);将以右肘Per为起点,且以右腕Pwr为终点的向量new作为特征向量来识别各种手势指令(如图2所示);
(2.3)计算向量new与步骤(2.1)中九个向量ni的夹角θ,并找出最小夹角θmin;最小夹角θmin对应的向量n1
(2.4)比较θmin与手势置信度阈值Tθ的值,当θmin≥Tθ时,手势识别失败,进入步骤(3);否则识别成功,输出θmin对应的手势向量所对应的手势指令,接下来判断程序是否结束,如果是,则程序结束,如果否,则程序回到步骤(1);所述手势置信度阈值Tθ根据敏感度实验确定,实验在普通人工手势的数据集合上进行;Tθ从2取到22,每一个Tθ测试100个识别样本,最后得到Tθ与识别成功率关系图,如图6所示,横轴代表Tθ值,纵轴代表识别成功次数;由图6可知,置信度阈值Tθ为18时识别率最高,达到100%;所以设定Tθ=18;
(3)语音识别:
(3.1)建立语音识别引擎对象,将控制机器人运动的九个指令加到该对象的语法中,Grammar={“forward”,“back”,“left”,“right”,“northeast”,“southeast”,“southwest”,“southnorth”,“stop”};
(3.2)从体感设备Kinect的传感器获取原始音频数据流,通过降噪、自动增益控制和回声消除提高音频质量;
(3.3)语音识别引擎对象接受步骤(3.2)处理过的音频数据流,并与其语音库进行匹配,解析出文本结果;
(3.4)计算解析出的文本结果与语法中每个词的语音置信度的值C,并取出最大语音置信度的值Cmax
(3.5)令语音置信度阈值为TS,当Cmax≥TS时,识别成功,算法输出Cmax对应的语音指令;否则识别失败,不输出行走指令;所述语音置信度阈值为TS,根据敏感度实验确定,实验在语音质量良好的数据集合上进行;TS从0.1取到0.9,每一个TS测试100个识别样本,最后得到TS与识别成功率关系图,如图7所示,横轴代表TS值,纵轴代表识别成功次数;由图7可知,置信度阈值TS为0.8时识别率最高,达到98%;所以设定TS=0.8。
(3.6)判断程序是否结束,如果是,则程序结束,如果否,则程序回到步骤(1)。
本发明将手势和语音结合起来应用于机器人控制系统中,手势部分应用深度图像获取骨架信息,可以克服光照和复杂背景的干扰。同时算法计算的是向量之间的夹角,所以与向量的长短无关,即与人的骨骼长短无关。可以适合不同体格的人控制机器人运动。语音识别部分不同于一般的识别算法,它不需要训练集来提高他的识别精度,只需要设定语法环境和相关的置信度就可以了,不同的人不同的声音都可以进行识别。本发明集合了这两部分识别算法的优点,也克服了单独使用这两种算法的不足。相比于其他单一算法降低了计算复杂度,提高了算法的鲁棒性,使机器人人工导航中人机交互更简单,清晰,自然。在机器人领域具有重大意义。因此,本发明具有实用性强、准确性高、实时性好的优点。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (2)

1.一种基于单人手势和语音信息的机器人人工导航方法,其特征在于,该方法的具体步骤为:
(1)通过体感设备Kinect采集当前环境中人体骨架关节点信息和语音信息,计算出骨架信息完整度和语音信息清晰度;
(1.1)如果骨架信息完整度大于等于骨架信息完整度阈值,则转到步骤(2);
(1.2)如果骨架信息完整度小于骨架信息完整度阈值,且语音信息清晰度大于等于语音信息清晰度阈值,则转到步骤(3);
(1.3)如果骨架信息完整度小于骨架信息完整度阈值,且语音信息清晰度也小于语音信息清晰度阈值,则判断程序是否结束,如果是,则程序结束,如果否,则程序回到步骤(1);
(2)手势识别:
(2.1)定义九种不同的手势指令,九种手势指令分别为向右、向后、向左、向前、右前、右后、左后、左前和停止,且每种手势指令对应着一种向量,得到九个不同的向量ni,i=[1,9];其中:向右对应向量n1,向后对应向量n2,向左对应向量n3,向前对应向量n4,右前对应向量n5,右后对应向量n6,左后对应向量n7,左前对应向量n8,停止对应向量n9
(2.2)选取右臂的右肘Per和右腕Pwr作为手势识别的两个关节点;将以右肘Per为起点,且以右腕Pwr为终点的向量new作为特征向量来识别各种手势指令;
(2.3)计算向量new与步骤(2.1)中向量ni的夹角θ,并找出最小夹角θmin
(2.4)比较θmin与手势置信度阈值Tθ的值,当θmin≥Tθ时,手势识别失败,进入步骤(3);否则识别成功,输出θmin对应的手势向量所对应的手势指令,接下来判断程序是否结束,如果是,则程序结束,如果否,则程序回到步骤(1);
(3)语音识别:
(3.1)建立语音识别引擎对象,将控制机器人运动的九个指令加到该对象的语法中,Grammar={“forward”,“back”,“left”,“right”,“northeast”,“southeast”,“southwest”,“southnorth”,“stop”};
(3.2)从体感设备Kinect的传感器获取原始音频数据流,通过降噪、自动增益控制和回声消除提高音频质量;
(3.3)语音识别引擎对象接受步骤(3.2)处理过的音频数据流,并与其语音库进行匹配,解析出文本结果;
(3.4)计算解析出的文本结果与语法中每个词的语音置信度的值C,并取出最大语音置信度的值Cmax
(3.5)令语音置信度阈值为TS,当Cmax≥TS时,识别成功,算法输出Cmax对应的语音指令;否则识别失败,不输出行走指令;
(3.6)判断程序是否结束,如果是,则程序结束,如果否,则程序回到步骤(1)。
2.根据权利要求1所述的基于单人手势和语音信息的机器人人工导航方法,其特征在于,步骤(1)当前环境中只有一个目标人发出手势或者语音指令。
CN201410057451.9A 2014-02-20 2014-02-20 一种基于单人手势和语音信息的机器人人工导航方法 Active CN103885585B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410057451.9A CN103885585B (zh) 2014-02-20 2014-02-20 一种基于单人手势和语音信息的机器人人工导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410057451.9A CN103885585B (zh) 2014-02-20 2014-02-20 一种基于单人手势和语音信息的机器人人工导航方法

Publications (2)

Publication Number Publication Date
CN103885585A CN103885585A (zh) 2014-06-25
CN103885585B true CN103885585B (zh) 2017-01-25

Family

ID=50954519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410057451.9A Active CN103885585B (zh) 2014-02-20 2014-02-20 一种基于单人手势和语音信息的机器人人工导航方法

Country Status (1)

Country Link
CN (1) CN103885585B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104375504B (zh) * 2014-09-12 2018-01-16 中山大学 一种陪跑机器人及其跟踪控制策略与运动控制方法
CN104856729B (zh) * 2015-05-25 2018-07-31 无锡海斯凯尔医学技术有限公司 弹性检测设备的操作控制方法和弹性检测设备
CN104965592A (zh) * 2015-07-08 2015-10-07 苏州思必驰信息科技有限公司 基于语音和手势识别的多模态非触摸人机交互方法及系统
CN105468145B (zh) * 2015-11-18 2019-05-28 北京航空航天大学 一种基于手势和语音识别的机器人人机交互方法和装置
CN105632493A (zh) * 2016-02-05 2016-06-01 深圳前海勇艺达机器人有限公司 一种通过语音控制和唤醒机器人的方法
CN106125925B (zh) * 2016-06-20 2019-05-14 华南理工大学 基于手势和语音控制的智能抓捕方法
CN108023862A (zh) * 2016-11-03 2018-05-11 上海大学 一种基于Zigbee远程控制的无人车集群系统及控制方法
US11727819B2 (en) 2017-06-15 2023-08-15 Grasp Io Innovations Pvt Ltd. Interactive system for teaching sequencing and programming
CN107544271B (zh) * 2017-09-18 2020-08-14 广东美的制冷设备有限公司 终端控制方法、装置及计算机可读存储介质
CN108058163A (zh) * 2018-02-12 2018-05-22 东北大学 一种具有知识共享与自主学习的云机器人系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298443A (zh) * 2011-06-24 2011-12-28 华南理工大学 结合视频通道的智能家居语音控制系统及其控制方法
CN103519788A (zh) * 2013-10-18 2014-01-22 南京师范大学 基于Kinect体感交互的注意力情景化测评系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298443A (zh) * 2011-06-24 2011-12-28 华南理工大学 结合视频通道的智能家居语音控制系统及其控制方法
CN103519788A (zh) * 2013-10-18 2014-01-22 南京师范大学 基于Kinect体感交互的注意力情景化测评系统

Also Published As

Publication number Publication date
CN103885585A (zh) 2014-06-25

Similar Documents

Publication Publication Date Title
CN103885585B (zh) 一种基于单人手势和语音信息的机器人人工导航方法
JP7434137B2 (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
WO2018032930A1 (zh) 一种智能设备的语音交互控制方法和装置
EP3923273B1 (en) Voice recognition method and device, storage medium, and air conditioner
US8280732B2 (en) System and method for multidimensional gesture analysis
CN102298443B (zh) 结合视频通道的智能家居语音控制系统及其控制方法
JP5529844B2 (ja) ジェスチャ多次元分析のためのシステムおよび方法
JP5967838B2 (ja) 人間型ロボットのジェスチャと音声の同期
CN106863320B (zh) 一种用于智能机器人的语音交互数据获取方法及装置
CN202110564U (zh) 结合视频通道的智能家居语音控制系统
CN107437415A (zh) 一种智能语音交互方法及系统
CN106057203A (zh) 一种精准语音控制方法及装置
CN104036774A (zh) 藏语方言识别方法及系统
CN105919591A (zh) 一种基于表面肌电信号的手语识别发声系统及方法
CN105912128A (zh) 面向智能机器人的多模态交互数据处理方法及装置
CN106325142A (zh) 一种机器人系统及其控制方法
CN107390176A (zh) 一种声源定位导航装置
CN107390175A (zh) 一种以机器人为载体的声源定位导航装置
CN107045308A (zh) 智能互动服务机器人
CN109784499B (zh) 一种学习机器人及控制方法
CN110232918B (zh) 一种无人机地面控制站语音控制系统及控制方法
CN110737422B (zh) 一种声音信号采集方法及装置
CN107908289B (zh) 一种基于头部的机器人的人脸识别交互系统
CN109243457A (zh) 基于语音的控制方法、装置、设备及存储介质
CN213545220U (zh) 一种基于虚拟现实的无人机巡检设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 518000 Guangdong city of Shenzhen province Nanshan District Science Park Song Ping Shan Qi Min Road No. 1 on the eighth floor of Betel

Co-patentee after: Wuhan University of Science and Technology

Patentee after: Shenzhen Beiteer robot Co Ltd

Address before: 518000 Guangdong city of Shenzhen province Nanshan District Science Park Song Ping Shan Qi Min Road No. 1 on the eighth floor of Betel

Co-patentee before: Wuhan University of Science and Technology

Patentee before: Shenzhen Beiteer Electromechanical Co., Ltd.