CN109814722A - 一种多模态人机交互系统及交互方法 - Google Patents
一种多模态人机交互系统及交互方法 Download PDFInfo
- Publication number
- CN109814722A CN109814722A CN201910135736.2A CN201910135736A CN109814722A CN 109814722 A CN109814722 A CN 109814722A CN 201910135736 A CN201910135736 A CN 201910135736A CN 109814722 A CN109814722 A CN 109814722A
- Authority
- CN
- China
- Prior art keywords
- instruction
- fusion
- module
- phonetic order
- processing module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Abstract
本发明揭示了一种多模态人机交互系统,包括非接触式指令采集单元和指令响应单元,其中,非接触式指令采集单元包括手势指令采集模块、眼动指令采集模块、及语音指令采集模块,指令响应单元包括接口处理模块、指令融合模块及融合信息处理模块。交互过程中,进行非接触式指令采集,手势、眼动、语音指令由指令融合模块生成融合指令,融合信息处理模块接收融合指令或语音指令,转换为协议指令经接口处理模块输出。本发明具备三种非接触指令的指令融合功能,人机互动自然化,且指令输出可靠稳定。热区的建立能提供可靠的抗指令干扰性、及预测性,更人性化,使融合指令更精确。高度集成化,整体交互为非接触式作业,适于机载,满足繁多人机交互需求。
Description
技术领域
本发明涉及一种交互系统,尤其涉及一种多模态人机交互系统及交互方法,属于人机交互的技术领域。
背景技术
目前,人机交互是通过接触式指令输入的方式实现的,通过指令按钮或触屏指令进行的人机互动,指令输入过程会分散操作人员的部分精力。而为了增加互动便利性,会在人机交互系统中植入语音指令功能,从而实现语音指令与接触式指令的配合作业。语音与接触式配合能提高交互便利性,但是依然无法实现自然化作业。
专利号为CN104714645A的专利,也提出了一种多模态人机交互系统及方法,该专利主要利用多级人工神经网络及互斥信息,将人体发送的指令信息进行区分及甄别,通过语义辨识做出响应,主要涉及的指令形式包括体感,语音和手势,实际实施中该方法会将并行的指令形式转换为串行,并未实现真正意义上的自然化操作。
专利号为CN103809733A的专利,提出一种基于人视线及手指指向的交互方式,该方法采用图像的方式,获取视线及手部动作,并依据相应的手势及眼部指示时间,来确定操作目标,通过特定手势来启动或停止手势识别,并完成目标操作响应,结构简单易于实现,该种操作方式并未实现自然流畅的人机交互方式,只是简单的两种操作模式的组合,并未实现真正意义上的自然交互。
本案即致力于人机自然交互的研究及技术方案确立。
发明内容
本发明的目的是解决上述现有技术的不足,创新地提出一种多模态人机交互系统及交互方法。
为了达到上述目的,本发明所采用的技术方案为:
一种多模态人机交互系统,包括:
非接触式指令采集单元,用于采集非接触式指令,
所述非接触式指令采集单元包括用于获取手势指令的手势指令采集模块、用于获取眼动指令的眼动指令采集模块、及用于获取语音指令的语音指令采集模块;
指令响应单元,用于接收非接触式指令采集单元的指令信息,并进行指令信息处理后输出至机响应端,
所述指令响应单元包括接口处理模块、指令融合模块及融合信息处理模块,所述接口处理模块分别与非接触式指令采集单元、指令融合模块及融合信息处理模块相通讯连接,所述融合信息处理模块分别与接口处理模块、语音指令采集模块相通讯连接,
其中,所述指令融合模块用于将所述非接触式指令采集单元中至少两个采集模块的采集指令进行融合生成融合指令,
所述融合信息处理模块用于接收指令融合模块的融合指令或语音指令采集模块的语音指令,并将融合指令或语音指令转为协议指令,
所述接口处理模块用于接收非接触式指令采集单元并传输至指令融合模块中、及用于将融合信息处理模块的协议指令输出。
本发明的另一个目的,提出了一种多模态人机交互系统的交互方法,包括如下步骤:
S1非接触式指令采集,
S11眼动指令采集模块采集眼动指令,
S12手势指令采集模块采集手势指令,
S13语音指令采集模块采集语音指令;
S2指令融合,
手势指令、眼动指令、语音指令经接口处理模块传输至指令融合模块内进行指令融合生成融合指令,
S3融合指令输出,
融合信息处理模块接收到融合指令或语音指令,转换为协议指令经接口处理模块输出。
优选地,步骤S11中,根据头部姿态及眼部动作计算出视觉落点,并生成眼动的热点;
步骤S12中,识别出手势指令,该手势指令包括非接触式鼠标指令或非接触式触屏指令;
步骤S13中,语音指令包括定式语音指令、语意识别指令。
优选地,步骤S2中,融合指令包括热点与手势指令的融合,热点与语音指令的融合,热点、手势指令、语音指令的融合,手势指令与语音指令的融合。
优选地,步骤S2中,指令融合模块内生成步骤S11中热点集合的热区,
步骤S13中,具备针对热区的特定语音指令,
在所述热区内仅响应热点与手势指令和/或特定语音的指令融合。
优选地,步骤S2中,指令融合模块内生成步骤S12中手势使用频度热区。
本发明的有益效果主要体现在:
1.具备三种非接触指令的指令融合功能,人机互动自然化,且指令输出可靠稳定。
2.热区的建立能提供可靠的抗指令干扰性、及预测性,更人性化,使融合指令更精确。
3.高度集成化,整体交互为非接触式作业,适于机载,满足繁多人机交互需求。
附图说明
图1是本发明一种多模态人机交互系统的结构示意图。
图2是本发明中热点集合的热区示意图。
图3是本发明中手势使用频度热区的示意图。
具体实施方式
本发明提供一种多模态人机交互系统及交互方法。以下结合附图对本发明技术方案进行详细描述,以使其更易于理解和掌握。
一种多模态人机交互系统,如图1所示,包括非接触式指令采集单元和指令响应单元。
其中,非接触式指令采集单元,用于采集非接触式指令。
具体地,非接触式指令采集单元包括用于获取手势指令的手势指令采集模块、用于获取眼动指令的眼动指令采集模块、及用于获取语音指令的语音指令采集模块。
而指令响应单元用于接收非接触式指令采集单元的指令信息,并进行指令信息处理后输出至机响应端。
细化地,指令响应单元包括接口处理模块、指令融合模块及融合信息处理模块,接口处理模块分别与非接触式指令采集单元、指令融合模块及融合信息处理模块相通讯连接,融合信息处理模块分别与接口处理模块、语音指令采集模块相通讯连接。
其中,指令融合模块用于将所述非接触式指令采集单元中至少两个采集模块的采集指令进行融合生成融合指令。
融合信息处理模块用于接收指令融合模块的融合指令或语音指令采集模块的语音指令,并将融合指令或语音指令转为协议指令。
接口处理模块用于接收非接触式指令采集单元并传输至指令融合模块中、及用于将融合信息处理模块的协议指令输出。
基于该多模态人机交互系统的交互方法实现过程及原理:
非接触式指令采集,眼动指令采集模块采集眼动指令,手势指令采集模块采集手势指令,语音指令采集模块采集语音指令。
指令融合,手势指令、眼动指令、语音指令经接口处理模块传输至指令融合模块内进行指令融合生成融合指令。
融合指令输出,融合信息处理模块接收到融合指令或语音指令,转换为协议指令经接口处理模块输出。
即通过指令融合模块能实现三种非接触式指令的融合,生成确定的融合指令。
对眼动指令采集进行细化描述,根据头部姿态及眼部动作计算出视觉落点,并生成眼动的热点,该热点为区域窗口选择。
识别手势指令,该手势指令包括非接触式鼠标指令或非接触式触屏指令。通过手势获取装置来响应实际目标操作响应,手势获取装置可依据设定要求实现鼠标或触摸屏的设备功能。若为鼠标功能,操作方式可支持移动,拖动,单击,双击操作;若为触摸屏功能,则信息融合模块会建议一个虚拟的触摸屏界面,当操作手势触及该虚拟触摸界面时,开始发送触摸屏相应的功能,支持,点击,缩放,拖动,拾取,针对特定设备,配合语音指令,可选择实现亮度调节和对比度调节。
语音指令包括定式语音指令、语意识别指令。主要包括打开、关闭、设置等,可结合眼动手势共同执行,也可单独响应语音指令。
融合指令包括热点与手势指令的融合,热点、手势指令、语音指令的融合,手势指令与语音指令的融合。
更具象地说明,例如热点触发选择窗口、而手势指令用于选择窗口内的作业,在该同步作业中,语音指令可辅助窗口作业或进行独立的窗外指令作业。再例如语音指令触发选择窗口,热点触发选择窗口内的功能触发等。
在一个特定应用中,热点与手势形成单通道指令、而语音指令作为独立通道指令。
指令融合模块内生成如图2所示的热点集合的热区,具备针对热区的特定语音指令,在热区内仅响应热点与手势指令和/或特定语音的指令融合。
具体地,通过眼动获取信息,采集通过头动信息捕捉,眼动信息捕捉,获取实际注视点的信息,并通过实际注视点的叠加信息,建立人机交互热区,热区中的所有操作只响应手势操作,和特定语音指令操作。热区外的区域可响应三种操作方式的组合,并对所有语音指令做出响应。
指令融合模块内生成如图3所示的手势使用频度热区,手势使用频度热区表包含手势操作坐标、手势使用次数等。
具体实施例中,考虑到本案适用于空间受限的场景,因此,将眼动指令采集模块与语音指令采集模块结合,置于近眼部位,用于眼动指令和语音指令采集;手势指令获取装置只关注单手动作指令的获取,因此可置于惯用手附近,三部分指令获取装置可有线或无线连接至接口处理模块。
作为操作设备使用过程中,使用人员只需关注正常的人机交互界面,通常操作为通过注视点,配合手势实现操作目标的,当连续操作达到一定时间时,融合处理模块会将眼部注视区域在操作界面上形成一个使用热区,对于手势操作,优先响应热区内的操作,对于涉及界面改变的语音指令,优先改变热区外的操作要素布局状态。例如针对普通Windows桌面的操作,当操作热区形成后,手部的拖动动作优先对热区内的操作窗口实现拖拽和选中;此时若有语音指令,例如有“打开某某程序”的指令被接收到,则新打开的窗口将位于热区外,即不影响当前热区已形成的界面布局状态。
通过以上描述可以发现,本发明一种多模态人机交互系统及交互方法,具备三种非接触指令的指令融合功能,人机互动自然化,且指令输出可靠稳定。热区的建立能提供可靠的抗指令干扰性、及预测性,更人性化,使融合指令更精确。高度集成化,整体交互为非接触式作业,适于机载,满足繁多人机交互需求。
以上对本发明的技术方案进行了充分描述,需要说明的是,本发明的具体实施方式并不受上述描述的限制,本领域的普通技术人员依据本发明的精神实质在结构、方法或功能等方面采用等同变换或者等效变换而形成的所有技术方案,均落在本发明的保护范围之内。
Claims (6)
1.一种多模态人机交互系统,其特征在于包括:
非接触式指令采集单元,用于采集非接触式指令,
所述非接触式指令采集单元包括用于获取手势指令的手势指令采集模块、用于获取眼动指令的眼动指令采集模块、及用于获取语音指令的语音指令采集模块;
指令响应单元,用于接收非接触式指令采集单元的指令信息,并进行指令信息处理后输出至机响应端,
所述指令响应单元包括接口处理模块、指令融合模块及融合信息处理模块,所述接口处理模块分别与非接触式指令采集单元、指令融合模块及融合信息处理模块相通讯连接,所述融合信息处理模块分别与接口处理模块、语音指令采集模块相通讯连接,
其中,所述指令融合模块用于将所述非接触式指令采集单元中至少两个采集模块的采集指令进行融合生成融合指令,
所述融合信息处理模块用于接收指令融合模块的融合指令或语音指令采集模块的语音指令,并将融合指令或语音指令转为协议指令,
所述接口处理模块用于接收非接触式指令采集单元并传输至指令融合模块中、及用于将融合信息处理模块的协议指令输出。
2.基于权利要求1所述一种多模态人机交互系统的交互方法,其特征在于包括如下步骤:
S1非接触式指令采集,
S11眼动指令采集模块采集眼动指令,
S12手势指令采集模块采集手势指令,
S13语音指令采集模块采集语音指令;
S2指令融合,
手势指令、眼动指令、语音指令经接口处理模块传输至指令融合模块内进行指令融合生成融合指令,
S3融合指令输出,
融合信息处理模块接收到融合指令或语音指令,转换为协议指令经接口处理模块输出。
3.根据权利要求2所述一种多模态人机交互系统的交互方法,其特征在于:
步骤S11中,根据头部姿态及眼部动作计算出视觉落点,并生成眼动的热点;
步骤S12中,识别出手势指令,该手势指令包括非接触式鼠标指令或非接触式触屏指令;
步骤S13中,语音指令包括定式语音指令、语意识别指令。
4.根据权利要求3所述一种多模态人机交互系统的交互方法,其特征在于:
步骤S2中,融合指令包括热点与手势指令的融合,热点与语音指令的融合,热点、手势指令、语音指令的融合,手势指令与语音指令的融合。
5.根据权利要求4所述一种多模态人机交互系统的交互方法,其特征在于:
步骤S2中,指令融合模块内生成步骤S11中热点集合的热区,
步骤S13中,具备针对热区的特定语音指令,
在所述热区内仅响应热点与手势指令和/或特定语音的指令融合。
6.根据权利要求4所述一种多模态人机交互系统的交互方法,其特征在于:
步骤S2中,指令融合模块内生成步骤S12中手势使用频度热区。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910135736.2A CN109814722A (zh) | 2019-02-25 | 2019-02-25 | 一种多模态人机交互系统及交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910135736.2A CN109814722A (zh) | 2019-02-25 | 2019-02-25 | 一种多模态人机交互系统及交互方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109814722A true CN109814722A (zh) | 2019-05-28 |
Family
ID=66607306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910135736.2A Withdrawn CN109814722A (zh) | 2019-02-25 | 2019-02-25 | 一种多模态人机交互系统及交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109814722A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112462940A (zh) * | 2020-11-25 | 2021-03-09 | 苏州科技大学 | 智能家居多模态人机自然交互系统及其方法 |
CN113031765A (zh) * | 2021-03-13 | 2021-06-25 | 杭州翔毅科技有限公司 | 一种基于人工智能的计算机多功能交互系统 |
CN115237255A (zh) * | 2022-07-29 | 2022-10-25 | 天津大学 | 一种基于眼动和语音的自然图像共指目标定位系统及方法 |
WO2023082952A1 (zh) * | 2021-11-10 | 2023-05-19 | 华为技术有限公司 | 一种与电子设备进行交互的方法及电子设备 |
-
2019
- 2019-02-25 CN CN201910135736.2A patent/CN109814722A/zh not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112462940A (zh) * | 2020-11-25 | 2021-03-09 | 苏州科技大学 | 智能家居多模态人机自然交互系统及其方法 |
WO2022110564A1 (zh) * | 2020-11-25 | 2022-06-02 | 苏州科技大学 | 智能家居多模态人机自然交互系统及其方法 |
CN113031765A (zh) * | 2021-03-13 | 2021-06-25 | 杭州翔毅科技有限公司 | 一种基于人工智能的计算机多功能交互系统 |
WO2023082952A1 (zh) * | 2021-11-10 | 2023-05-19 | 华为技术有限公司 | 一种与电子设备进行交互的方法及电子设备 |
CN115237255A (zh) * | 2022-07-29 | 2022-10-25 | 天津大学 | 一种基于眼动和语音的自然图像共指目标定位系统及方法 |
CN115237255B (zh) * | 2022-07-29 | 2023-10-31 | 天津大学 | 一种基于眼动和语音的自然图像共指目标定位系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109814722A (zh) | 一种多模态人机交互系统及交互方法 | |
CN107506037B (zh) | 一种基于增强现实的控制设备的方法和装置 | |
CN106440192B (zh) | 一种家电控制方法、装置、系统及智能空调 | |
US20180048482A1 (en) | Control system and control processing method and apparatus | |
CN108983636B (zh) | 人机智能共生平台系统 | |
CN103336581A (zh) | 基于人体眼动特征设计的人机交互方法及系统 | |
CN102932212A (zh) | 一种基于多通道交互方式的智能家居控制系统 | |
CN105204351B (zh) | 空调机组的控制方法及装置 | |
CN108681399B (zh) | 一种设备控制方法、装置、控制设备及存储介质 | |
CN103605466A (zh) | 一种基于面部识别操控终端的方法 | |
CN104090659A (zh) | 基于人眼图像和视线追踪的操作指针指示控制设备 | |
CN102103409A (zh) | 基于运动轨迹识别的人机交互方法及装置 | |
CN108268181A (zh) | 一种非接触式手势识别的控制方法及装置 | |
KR100918094B1 (ko) | 이동식 영상 카메라를 구비한 제스처 인식 시스템 | |
CN107390863A (zh) | 设备的控制方法及装置、电子设备、存储介质 | |
CN106369755A (zh) | 一种终端的空调控制方法、装置及智能终端 | |
CN102179814A (zh) | 以用户手部命令控制机器人的方法 | |
CN106878559A (zh) | 一种屏幕状态调整方法和装置 | |
CN106468917B (zh) | 一种可触摸现场实时视频图像的远程呈现交互方法和系统 | |
CN103336582A (zh) | 一种运动信息控制人机交互方法 | |
WO2017177444A1 (zh) | 一种云机器人系统、机器人及机器人云平台 | |
CN103268150A (zh) | 一种基于表情识别的智能机器人管控系统及管控方法 | |
CN104881122A (zh) | 一种体感交互系统激活方法、体感交互方法及系统 | |
CN104915003A (zh) | 一种体感控制参数调整的方法、体感交互系统及电子设备 | |
CN104793732A (zh) | 一种智能眼镜的操作方法及智能眼镜 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190528 |
|
WW01 | Invention patent application withdrawn after publication |