CN105867595A - 联合语音信息与手势信息的人机交互方式以及实施装置 - Google Patents
联合语音信息与手势信息的人机交互方式以及实施装置 Download PDFInfo
- Publication number
- CN105867595A CN105867595A CN201510028738.3A CN201510028738A CN105867595A CN 105867595 A CN105867595 A CN 105867595A CN 201510028738 A CN201510028738 A CN 201510028738A CN 105867595 A CN105867595 A CN 105867595A
- Authority
- CN
- China
- Prior art keywords
- information
- machine interaction
- gesture
- man
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了联合语音信息与手势信息的人机交互方式以及实施装置,该人机交互方式在一次交互过程中同时组合使用语音信息与手势信息,表达一个复杂的控制命令,实现人机交互;该装置包括:一摄像头,一声音传感器,以及一套图像、声音处理系统。结合从手势信息中提取的特定场景描述,本发明能够准确的通过语音进行复杂的人机交互控制,极大的提高人机交互的沟通效率,提升用户体验。该新型的结合语音与手势信息的人机交互方式相对其他方式来说,准确度高,复杂度低,并且可以方便的应用于各类具有声音和图像传感器的设备中。
Description
技术领域
本发明涉及人机交互领域,具体涉及一种联合语音信息与手势信息进行输入识别的人机交互方式及其实现方法。
背景技术
随着嵌入式通用处理器、物联网(loT)等技术的发展,人们对随处可见的智能设备的操控体验的要求越来越高。然而传统的可靠的人机交互方式要求人与被控制直接接触,通过触屏、按键等实体进行交互。这种人机交互方式技术上成熟、可靠,具有很高的准确率。但是随着技术的进步,人们开始要求更为高效,更为直接的人机交互方式。
作为最直接的人机交互方式——语音,由于技术原因无法在大多数应用场合下实现较高的准确率。这其中的障碍包括:环境背景噪声干扰,非特定人说话差异,说话距离及声音大小,复杂的中文语义处理。在语音方式的人机交互过程中,环境背景噪声干扰、说话距离和方位引起的声音大小不一致的问题,可以通过模拟、数字信号处理的方式动态调解,获得特性一致的语音数据供语音识别模块进行分析。而对于复杂的中文语义处理,目前则没有一个较为理想的处理方法,这已经成为了未来基于语音的人机交互研究的攻关方向。
另外一种逐渐成为研究热点的人机交互方式是基于图像识别的手势、肢体动作控制。通过摄像头捕获控制者的动作,经过边缘检测、特征提取、特征匹配,最终从预定义的一组动作描述中选择最为匹配的一项。
提高单纯的基于语音的人机交互方式,以及基于手势的人机交互方式的可靠性和准确性,受限于目前对大脑信息处理模型的认知、以及计算机处理能力,在短期内很难有一个质的飞跃。
发明内容
(一)要解决的技术问题
有鉴于此,本发明的主要目的在于设计一种联合语音信息与手势信息的人机交互方式及其实现方法,该方法综合了语音控制、手势控制两种独立人机交互过程的优点,巧妙的规避了各自的局限性,从而大大提高了交互效率和使用者体验。
(二)技术方案
为达到上述目的,本发明提供的技术方案是这样的:
联合语音信息与手势信息的人机交互方式,其特征在于,使用者需要向被控制设备(113)同时发送肢体动作信息(101)和语音命令(103)。肢体动作通过摄像头(102)采集,语音命令(103)通过声音传感器(104)采集,一同送入信息处理系统(111)。所述信息处理系统(111)包括图像处理模块(105)、声音信号处理模块(106)、手势识别模块(107)、语音识别模块(108)、信息合并模块(109)和人机交互判断模块(110),产生控制命令(112)交由被控制设备(113)执行。
优选地,每一次控制命令的产生,来自于肢体动作信息(101)和语音命令(103)。
优选地,语音命令(103)经过声音传感器(104)采集,由声音信号处理模块(106)进行信号调理,通过语音识别模块(108)变换成控制字符串,等待信息合并模块(109)进行分析处理。
优选地,肢体动作信息(101)经过摄像头(102)采集,由图像处理模块(105)处理得到肢体动作的特征描述,在手势识别模块(107)进行匹配,得出手势命令等待信息合并模块(109)进行分析处理。
优选地,人机交互判断(110)模块,同时使用来自语音识别模块(108)的控制字符串和来自手势识别模块(107)的手势命令,计算出最终的控制命令(112)。
优选地,所述手势识别模块(107)的手势命令,包括以下多种描述:
1)、绝对方位和相对位置指示,包括但不限于“东”、“西”、“南”、“北”、“这边”、“那边”、“上面”、“下面”、“左边”、“右边”、“前面”、“后面”等。
2)、大小、数量、形状指示,包括但不限于长度指示、面积指示、体积指示、0-9、圆形、方形等。
3)、物体描述
一种联合语音信息与手势信息的人机交互方式的目标系统,其特征在于,该目标系统至少包括一个摄像头、一个声音采集传感器、一个信息处理系统;所述一个摄像头和一个声音采集传感器通过一定的连接方式与信息处理系统相连,可并发读取摄像头图像信息和声音采集传感器的声音信息。
优选地,所述目标系统中摄像头可由一个或多个图像传感器构成,这些图像传感器可以构建2D平面/3D空间肢体运动信息,输入到信息处理系统获得复杂的手势命令。
优选地,所述目标系统中声音采集可由多个声音传感器构成,这些空间不同位置上分布的声音传感器可以构建精确、高性噪比的语音信号,提高信息处理系统识别的准确率。
(三)有益效果
从上述技术方案可以看出,本发明具有以下有益效果:
1、利用本发明,可以设计高准确度、实用的人机交互方式,而不需要为了确保准确度而放弃实用语音控制或者基于图像识别的手势控制。
2、利用本发明,能够进行高效的人机交互控制,通过语音描述具体命令,通过手势描述抽象方法,进而简化语音控制系统中语义识别的软件设计复杂度,避免了手势控制系统中随手势命令增多而增加的手势图像识别的软件设计复杂度。该方法相对其他方法简单易用。
附图说明
图1是本发明提供的联合语音信息与手势信息的人机交互方式的流程图;
图2是本发明提供的联合语音信息与手势信息的人机交互方式的目标系统的结构示意图;
图3是本发明提供的语音信息和手势信息的示例图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明提出的这种联合语音信息与手势信息的人机交互方式,综合了语音控制、手势控制两种独立人机交互过程的优点,巧妙的规避了各自的局限性,通过语音描述具体命令,通过手势描述抽象方法,从而合成一个完整的人机交互命令。
图1是本发明提供的联合语音信息与手势信息的人机交互方式的流程图。该人机交互方式处理系统包括手势图像采集102,语音信号采集104,图像及语音处理判决系统111,及被控制设备113组成。其中,图像及语音处理判决系统111,包括前端图像处理模块105,手势识别模块107,语音信号处理模块106,语音识别模块108,信息合并模块109和人机交互判断模块110。
该人机交互处理系统的输入,来自手势图像采集器(摄像头)102捕捉的肢体动作信息101和语音信号采集器(麦克风)104捕捉的语音命令103。
声音传感器104采集的语音信号,必须经过声音信号处理模块106处理,包括模拟信号处理、模拟-数字变换、数字信号处理,达到一定的信噪比要求后,送入语音识别模块108。
手势图像采集器(摄像头)102采集的图像信息,必须经过图像处理模块105处理,包括图像增强、边缘检测、特征提取,然后经手势识别模块107进行匹配,得出手势命令。
人机交互判断110模块,同时使用来自语音识别模块108的控制字符串和来自手势识别模块107的手势命令,计算出最终的控制命令112。
所述手势识别模块107的手势命令,包括以下多种描述:
1)、绝对方位和相对位置指示,包括但不限于“东”、“西”、“南”、“北”、“这边”、“那边”、“上面”、“下面”、“左边”、“右边”、“前面”、“后面”等。
2)、大小、数量、形状指示,包括但不限于长度指示、面积指示、体积指示、0-9、圆形、方形等。
3)、物体描述
图2是本发明提供的联合语音信息与手势信息的人机交互方式的目标系统的结构示意图。多个声音、图像采集传感器构成了3个独立的人机交互单元(S0-SN)。
S0人机交互单元201由一个摄像头和一个声音传感器组成;S1人机交互单元由两个摄像头和一个声音传感器组成3D立体手势、语音信号采集系统;SN人机交互单元由一个摄像头和2个声音传感器组成立体语音、手势图像采集系统。
这些人机交互信息采集单元(S0-SN)共用同一个信息处理系统204。每一组采集单元的语音信息与手势信息被信息处理系统联合使用,并映射成为单一控制命令,驱动被控制设备205做出反馈。
根据本发明,对于给定的联合语音信息与手势信息的人机交互方式的目标系统,语音信息和手势信息的示例图如图3所示。
语音命令301“开灯”,联合手势信息302食指向上竖起,由信息处理系统判断,得出最终人机交互控制命令303,即打开位于天花板的灯光开关。
语音命令304“这么大的苹果”,联合手势信息305大拇指和其他手指圈成实际苹果大小手势,由信息处理系统判断,得出最终人机交互控制命令306,即根据手指所围成弧形区域计算满足此形状的苹果大小。
语音命令307“我开始倒计时”,联合手势信息308,依次从竖起三根手指,竖起两根手指,竖起一根手指,直至没有手指竖起,由信息处理系统判断,得出最终人机交互控制命令309,即倒计时依次为3,2,1,0,并在0时触发所设定动作。
上文中,已经描述了联合语音信息与手势信息的人机交互方式,目标系统的实现形式,以及语音信息和手势信息的事例。尽管本发明是参照特定实施例来描述的,但很明显,本领域熟练人员,在不偏移权利要求书所限定的发明范围和精神的情况下,还可以对该人机交互方式及实现形式作各种修改和变更。因此,说明书和附图是描述性的,而不是限定性的。
Claims (9)
1.联合语音信息与手势信息的人机交互方式,其特征在于,使用者需要向被控制设备(113)同时发送肢体动作信息(101)和语音命令(103);肢体动作通过摄像头(102)采集,语音命令(103)通过声音传感器(104)采集,一同送入信息处理系统(111);所述信息处理系统(111)包括图像处理模块(105)、声音信号处理模块(106)、手势识别模块(107)、语音识别模块(108)、信息合并模块(109)和人机交互判断模块(110),产生控制命令(112)交由被控制设备(113)执行。
2.根据权利要求1所述的联合语音信息与手势信息的人机交互方式,其特征在于,每一次控制命令的产生,来自于肢体动作信息(101)和语音命令(103)。
3.根据权利要求1所述的联合语音信息与手势信息的人机交互方式,其特征在于,语音命令(103)经过声音传感器(104)采集,由声音信号处理模块(106)进行信号调理,通过语音识别模块(108)变换成控制字符串,等待信息合并模块(109)进行分析处理。
4.根据权利要求1所述的联合语音信息与手势信息的人机交互方式,其特征在于,肢体动作信息(101)经过摄像头(102)采集,由图像处理模块(105)处理得到肢体动作的特征描述,在手势识别模块(107)进行匹配,得出手势命令等待信息合并模块(109)进行分析处理。
5.根据权利要求1所述的联合语音信息与手势信息的人机交互方式,其特征在于,人机交互判断(110)模块,同时使用来自语音识别模块(108)的控制字符串和来自手势识别模块(107)的手势命令,计算出最终的控制命令(112)。
6.根据权利要求5所述的联合语音信息与手势信息的人机交互方式,其特征在于,所述手势识别模块(107)的手势命令,包括以下多种描述:1)、绝对方位和相对位置指示,包括但不限于“东”、“西”、“南”、“北”、“这边”、“那边”、“上面”、“下面”、“左边”、“右边”、“前面”、“后面”等;2)、大小、数量、形状指示,包括但不限于长度指示、面积指示、体积指示、0-9、圆形、方形等;3)、物体描述。
7.一种联合语音信息与手势信息的人机交互方式的目标系统,其特征在于,该目标系统至少包括一个摄像头、一个声音采集传感器、一个信息处理系统;所述一个摄像头和一个声音采集传感器通过一定的连接方式与信息处理系统相连,可并发读取摄像头图像信息和声音采集传感器的声音信息。
8.根据权利要求7所述的联合语音信息与手势信息的人机交互方式的目标系统,其特征在于,所述目标系统中摄像头可由一个或多个图像传感器构成,这些图像传感器可以构建2D平面/3D空间肢体运动信息,输入到信息处理系统获得复杂的手势命令。
9.根据权利要求7所述的联合语音信息与手势信息的人机交互方式的目标系统,其特征在于,所述目标系统中声音采集可由多个声音传感器构成,这些空间不同位置上分布的声音传感器可以构建精确、高性噪比的语音信号,提高信息处理系统识别的准确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510028738.3A CN105867595A (zh) | 2015-01-21 | 2015-01-21 | 联合语音信息与手势信息的人机交互方式以及实施装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510028738.3A CN105867595A (zh) | 2015-01-21 | 2015-01-21 | 联合语音信息与手势信息的人机交互方式以及实施装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105867595A true CN105867595A (zh) | 2016-08-17 |
Family
ID=56623301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510028738.3A Pending CN105867595A (zh) | 2015-01-21 | 2015-01-21 | 联合语音信息与手势信息的人机交互方式以及实施装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105867595A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108469772A (zh) * | 2018-05-18 | 2018-08-31 | 阿里巴巴集团控股有限公司 | 一种智能设备的控制方法和装置 |
CN108762512A (zh) * | 2018-08-17 | 2018-11-06 | 浙江核聚智能技术有限公司 | 人机交互装置、方法及系统 |
CN109522835A (zh) * | 2018-11-13 | 2019-03-26 | 北京光年无限科技有限公司 | 基于智能机器人的儿童读物阅读与交互方法及系统 |
CN109992095A (zh) * | 2017-12-29 | 2019-07-09 | 青岛有屋科技有限公司 | 一种智能厨房的语音和手势结合的控制方法及控制装置 |
CN112817556A (zh) * | 2021-02-04 | 2021-05-18 | 青岛海信传媒网络技术有限公司 | 显示设备上语音方案的切换方法、显示设备及控制装置 |
CN113467604A (zh) * | 2020-05-28 | 2021-10-01 | 海信集团有限公司 | 一种数据交互方法以及相关设备 |
CN117608410A (zh) * | 2024-01-17 | 2024-02-27 | 山东五纬数字科技有限公司 | 一种3d虚拟数字人的交互系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102339129A (zh) * | 2011-09-19 | 2012-02-01 | 北京航空航天大学 | 一种基于语音和手势的多通道人机交互方法 |
CN102646016A (zh) * | 2012-02-13 | 2012-08-22 | 北京百纳信息技术有限公司 | 显示手势语音交互统一界面的用户终端及其显示方法 |
CN102824092A (zh) * | 2012-08-31 | 2012-12-19 | 华南理工大学 | 一种窗帘的智能手势和语音控制系统及其控制方法 |
CN102932212A (zh) * | 2012-10-12 | 2013-02-13 | 华南理工大学 | 一种基于多通道交互方式的智能家居控制系统 |
CN104049721A (zh) * | 2013-03-11 | 2014-09-17 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
-
2015
- 2015-01-21 CN CN201510028738.3A patent/CN105867595A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102339129A (zh) * | 2011-09-19 | 2012-02-01 | 北京航空航天大学 | 一种基于语音和手势的多通道人机交互方法 |
CN102646016A (zh) * | 2012-02-13 | 2012-08-22 | 北京百纳信息技术有限公司 | 显示手势语音交互统一界面的用户终端及其显示方法 |
CN102824092A (zh) * | 2012-08-31 | 2012-12-19 | 华南理工大学 | 一种窗帘的智能手势和语音控制系统及其控制方法 |
CN102932212A (zh) * | 2012-10-12 | 2013-02-13 | 华南理工大学 | 一种基于多通道交互方式的智能家居控制系统 |
CN104049721A (zh) * | 2013-03-11 | 2014-09-17 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992095A (zh) * | 2017-12-29 | 2019-07-09 | 青岛有屋科技有限公司 | 一种智能厨房的语音和手势结合的控制方法及控制装置 |
CN108469772A (zh) * | 2018-05-18 | 2018-08-31 | 阿里巴巴集团控股有限公司 | 一种智能设备的控制方法和装置 |
CN108469772B (zh) * | 2018-05-18 | 2021-07-20 | 创新先进技术有限公司 | 一种智能设备的控制方法和装置 |
CN113791557A (zh) * | 2018-05-18 | 2021-12-14 | 创新先进技术有限公司 | 一种智能设备的控制方法和装置 |
CN108762512A (zh) * | 2018-08-17 | 2018-11-06 | 浙江核聚智能技术有限公司 | 人机交互装置、方法及系统 |
CN109522835A (zh) * | 2018-11-13 | 2019-03-26 | 北京光年无限科技有限公司 | 基于智能机器人的儿童读物阅读与交互方法及系统 |
CN113467604A (zh) * | 2020-05-28 | 2021-10-01 | 海信集团有限公司 | 一种数据交互方法以及相关设备 |
CN112817556A (zh) * | 2021-02-04 | 2021-05-18 | 青岛海信传媒网络技术有限公司 | 显示设备上语音方案的切换方法、显示设备及控制装置 |
CN117608410A (zh) * | 2024-01-17 | 2024-02-27 | 山东五纬数字科技有限公司 | 一种3d虚拟数字人的交互系统及方法 |
CN117608410B (zh) * | 2024-01-17 | 2024-05-31 | 山东五纬数字科技有限公司 | 一种3d虚拟数字人的交互系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105867595A (zh) | 联合语音信息与手势信息的人机交互方式以及实施装置 | |
CN104410883B (zh) | 一种移动可穿戴非接触式交互系统与方法 | |
US10664060B2 (en) | Multimodal input-based interaction method and device | |
US20180186452A1 (en) | Unmanned Aerial Vehicle Interactive Apparatus and Method Based on Deep Learning Posture Estimation | |
TWI411935B (zh) | 利用影像擷取裝置辨識使用者姿勢以產生控制訊號之系統以及方法 | |
EP2509070B1 (en) | Apparatus and method for determining relevance of input speech | |
CN104049721B (zh) | 信息处理方法及电子设备 | |
CN108453742B (zh) | 基于Kinect的机器人人机交互系统及方法 | |
EP2877909B1 (en) | Multimodal interaction with near-to-eye display | |
CN104731307B (zh) | 一种体感动作识别方法及人机交互装置 | |
CN102932212A (zh) | 一种基于多通道交互方式的智能家居控制系统 | |
WO2013139181A1 (zh) | 一种用户交互系统和方法 | |
WO2018230160A1 (ja) | 情報処理システム、情報処理方法、およびプログラム | |
TW201123031A (en) | Robot and method for recognizing human faces and gestures thereof | |
CN106502390B (zh) | 一种基于动态3d手写数字识别的虚拟人交互系统及方法 | |
JP6460862B2 (ja) | ジェスチャ認識装置、システム及びそのプログラム | |
CN107066081B (zh) | 一种虚拟现实系统的交互控制方法和装置及虚拟现实设备 | |
KR20120072244A (ko) | 디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법 | |
JP3844874B2 (ja) | マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法 | |
CN105701196A (zh) | 面向智能机器人的音频处理方法和智能机器人 | |
CN106598211A (zh) | 一种基于多摄像头的可穿戴式头盔的手势交互系统及识别方法 | |
CN112711331A (zh) | 机器人交互方法、装置、存储设备和电子设备 | |
Kao et al. | Design and implementation of interaction system between humanoid robot and human hand gesture | |
CN112104964B (zh) | 一种跟随式扩声机器人的控制方法及控制系统 | |
EP4276591A1 (en) | Interaction method, electronic device, and interaction system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160817 |