CN113821108B - 基于多模态交互技术的机器人远程控制系统及控制方法 - Google Patents
基于多模态交互技术的机器人远程控制系统及控制方法 Download PDFInfo
- Publication number
- CN113821108B CN113821108B CN202111394448.2A CN202111394448A CN113821108B CN 113821108 B CN113821108 B CN 113821108B CN 202111394448 A CN202111394448 A CN 202111394448A CN 113821108 B CN113821108 B CN 113821108B
- Authority
- CN
- China
- Prior art keywords
- image
- pupil
- points
- point
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000005516 engineering process Methods 0.000 title claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 33
- 230000000007 visual effect Effects 0.000 claims abstract description 10
- 210000001747 pupil Anatomy 0.000 claims description 62
- 238000004422 calculation algorithm Methods 0.000 claims description 53
- 210000001508 eye Anatomy 0.000 claims description 50
- 239000011159 matrix material Substances 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 39
- 239000000126 substance Substances 0.000 claims description 24
- 230000004424 eye movement Effects 0.000 claims description 23
- 239000002131 composite material Substances 0.000 claims description 22
- 210000005252 bulbus oculi Anatomy 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 17
- 241000282414 Homo sapiens Species 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000009897 systematic effect Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 abstract description 15
- 238000004590 computer program Methods 0.000 description 10
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000012636 effector Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Manipulator (AREA)
Abstract
本发明涉及一种基于多模态交互技术的机器人远程控制系统及控制方法,包括用于控制从端机器人系统的主端多模态交互控制系统,所述主端多模态交互控制系统包括主端微处理器,图像处理单元,红外摄像单元,图像显示单元,视觉伺服控制单元,无线网络通信单元,语音交互单元,模式选择按钮,主端微处理器分别与图像处理单元,红外摄像单元,图像显示单元,视觉伺服控制单元,无线网络通信单元,语音交互单元,模式选择按钮连接,本方案中,将眼动追踪技术、语音交互技术与机器人视觉伺服控制技术相结合,以解决现有基于人机交互的机器人控制方式中很难快速识别目标区域,精确选择目标物体的问题。
Description
技术领域
本发明涉及机器人领域,人机交互相关技术领域,尤其涉及一种基于多模态交互技术的机器人远程控制系统与控制方法。
背景技术
侦察机器人可以执行战场抵近侦察监视、潜行突袭、定点清剿、核生化处理及反恐排爆等多种作战任务。传统的侦察系统一般是由摄像头和两自由度的云台组成,其控制方式一般通过摇杆的俯仰角和偏航角的角度信息实现对云台的俯仰控制。对于搭载多自由度侦察系统的侦察机器人,其侦察系统一般是由多自由度机械臂与侦察摄像头组成,其中侦察摄像头固定连接在多自由度机械臂执行器的末端。传统的机器人的远程控制系统通常采用带有摇杆和按键的控制箱或控制盒来实现。对于搭载多自由度机械臂的机器人,控制箱的按键非常繁杂,操控者需要记忆每个按键与机器人控制操作的对应关系,控制方式非常不直观。机器人控制系统都摆脱不了对摇杆的依赖,而摇杆又需要控制箱及相关的硬件设备的支持,因此传统的侦察机器人的控制器的体积都普遍较大,由此带来的问题是不方便携带和运输。
人的眼动信息和语音信息是可以被人类利用的较为有用的两种信息,对于特种兵来说,眼睛信息和语音信息是非常有利的与机器人进行交互的两种方式。目前基于人机交互的侦察机器人的可穿戴设备极不方便,很难精确快速地确定待跟踪的目标物。对于全副武装的士兵来说,如何综合利用眼动信息和语音信息等多模态交互技术提高侦察机器人的人机交互遥操作控制系统的快速性,精确性,便携性和操控直观性是非常迫切的需求。
发明内容
针对上述问题,本发明提出了一种基于多模态交互技术的机器人远程控制系统及控制方法,实现对多自由度机器人的远程控制。本方案中,将眼动追踪技术、语音交互技术与机器人视觉伺服控制技术相结合,以解决现有基于人机交互的机器人控制方式中很难快速识别目标区域,精确选择目标物体的问题。主端多模态交互控制系统的头部可穿戴设备,便于携带,脱卸方便,操作直观易行,眼动控制非常灵活,提高了操控的直观性,一定程度上解放了机器人操控者的双手。
本发明提供如下技术方案:一种基于多模态交互技术的机器人远程控制系统,包括用于控制从端机器人系统的主端多模态交互控制系统,所述主端多模态交互控制系统包括主端微处理器,图像处理单元,红外摄像单元,图像显示单元,视觉伺服控制单元,无线网络通信单元,语音交互单元,模式选择按钮,主端微处理器分别与图像处理单元,红外摄像单元,图像显示单元,视觉伺服控制单元,无线网络通信单元,语音交互单元,模式选择按钮连接。
所述的图像处理单元用于提取人的眼动信息,并计算出人的瞳孔中心的位置,确定瞳孔中心运动范围,建立起瞳孔运动范围与图像显示单元的图像显示区域的映射关系;红外摄像单元用来拍摄人的眼动特征信息,并把所拍摄的图像传输给图像处理单元进行眼动特征的提取与处理;图像显示单元用于显示经图像处理单元处理后的场景中的图像信息;视觉伺服控制单元用于根据图像特征误差获得机器人的机械臂各关节期望关节变量;无线网络通信单元用于从端机器人系统与主端多模态交互控制系统进行通信;语音交互单元用于发送和接收语音指令;模式选择按钮用于选择设备工作状态;主端微处理器用来处理各个单元及模式选择按钮发送来的指令与信息,并把处理后的结果按需发送回各个单元及模式选择按钮。
所述主端多模态交互控制系统设置在可穿戴式设备上,可以方便地穿戴在操作员身上,用于发送控制指令和接收从端机器人采集的信息,穿戴设备穿戴在操作者眼部,包括眼镜腿和外壳,在外壳上设置模式选择按钮,外壳朝向面部的一侧设置语音交互单元,外壳对应眼睛的部位设置图像显示单元和红外摄像单元。
一种基于多模态交互技术的机器人远程控制方法,包括如下步骤,
S1:通过模式选择按钮把模式选择按钮拨动到“运行”档位,建立主端多模态交互控制系统和从端机器人系统的无线网络通道,系统开始正式工作,并给予操作者语音提示;
S2:主端多模态交互控制系统的开始获取机器人拍摄的图像,并通过图像显示单元进行显示;
S3:当听到主端多模态交互控制系统接收到开始选取跟踪目标的语音提示时,红外摄像单元开始不断获取操作员的眼球信息;
S6:计算目标区域的最左横坐标、最右横坐标、最上纵坐标和最下纵坐标,确定包裹目标区域的最小矩形;
S13:采集操作员语音指令并判断是否开启武器装置,若是,则发起攻击,执行步骤S14;若否,则进一步采集操作员语音指令并判断是否取消目标;若是,则返回S3;若否,则返回S7;
S14:采集操作员语音指令判断是否结束,若是,则任务结束;若否,则返回步骤S3。
进入S1的运行模式之前,即对机器人进行控制前,需要对主端多模态交互控制系统进行校准,校准步骤如下:步骤1:拨动模式选择按钮到“校准”档位,开启校准程序,准备校准操作;步骤2:开启红外摄像单元,当听到语音交互单元发出的语音提示后,人眼不断移动,红外摄像单元开始不断获取人的眼动信息,并通过一种瞳孔中心定位算法实时检测瞳孔中心的图像坐标;步骤3:听到人机交互单元发出的语音提示后,开始让眼球根据语音提示移动,进而确定瞳孔中心运动范围;步骤4:瞳孔中心运动范围确定后,建立瞳孔中心运动范围与图像显示单元的图像显示区域的映射关系。
校准过程的步骤2具体步骤为:
步骤21:对采集到的眼部图像进行预处理,首先,采用平均值法对眼部图像进行灰度化处理。然后,采用NL-Means算法对灰度化处理后的可能带有噪声干扰的眼部图像进行去噪处理;
步骤22:采用多大津算法对灰度化后的眼部图像进行二值化的处理,经多大津算法分割后便可得到比较精确的分割结果;
步骤23:对分割过后的眼部图像进行预过滤处理,由于组成瞳孔轮廓的像素点在一定范围内,利用这个已知条件可以对眼部图像的所有瞳孔轮廓进行筛选,当某个瞳孔轮廓的像素点在给定范围内时,则选为备用;当某个瞳孔轮廓的像素点不在给定范围内时,则过滤掉该轮廓;
步骤24:如果没有选为备用的瞳孔轮廓,则返回步骤21;如果有且仅有一个选为备用的瞳孔轮廓,则利用瞳孔中心定位算法对该瞳孔轮廓进行拟合,求解拟合过后的瞳孔轮廓的各个参数,计算瞳孔轮廓的中心;如果选为备用的瞳孔轮廓的数量超过一个,则执行下一步;
步骤25:利用瞳孔中心定位算法分别对每一个瞳孔轮廓拟合,将拟合得到的每个瞳孔轮廓的中心与对应瞳孔轮廓上各点进行标准差的计算,将计算得到的最小标准差的那个瞳孔轮廓作为最终的瞳孔轮廓,最终的瞳孔轮廓的中心作为瞳孔轮廓的中心。
校准过程的步骤3中,确定瞳孔中心运动范围的具体步骤包括:
步骤31:当听到语音交互单元的语音提示发出开始眼动范围检测超过预定秒数后,主端多模态交互控制系统开始不断发出眼动范围检测指令;
步骤32:当听到语音交互单元的语音提示发出请注视图像左上方的指令后,操作员眼球开始往最左上方移动,当注视停留在最左上方时间超过预定秒数后,则系统把人眼所能看到的最左上方的像素点视为注视点,并把对应的瞳孔中心图像坐标记为 ;
步骤33:当听到语音交互单元的语音提示发出请注视图像左下方的指令后,操作员眼球开始往最左下方移动,当注视停留在最左下方时间超过预定秒数后,则系统把人眼所能看到的最左下方的像素点视为注视点,并把对应的瞳孔中心图像坐标记为 ;
步骤34:当听到语音交互单元的语音提示发出请注视图像右下方的指令后,操作员眼球开始往最右下方移动,当注视停留在最右下方时间超过预定秒数后,则系统把人眼所能看到的最右下方的像素点视为注视点,并把对应的瞳孔中心图像坐标记为 ;
步骤35:当听到语音交互单元的语音提示发出请注视图像右上方的指令后,操作员眼球开始往最右上方移动,当注视停留在最右上方时间超过预定秒数后,则系统把人眼所能看到的最右上方的像素点视为注视点,并把对应的瞳孔中心图像坐标记为 ;
步骤44:根据事先确定好的12个选取的坐标点与对应的12个坐标点的操作员的瞳孔中心图像坐标建立误差函数:
建立如下需要满足的条件:
控制方法的S5中的目标检测算法,具体为:
S501:选择RGB彩色空间作为该算法的颜色空间;
S503:统计关于 点的 近邻域的颜色特征;像素点 的 近邻域定义为,,其中,为图像中的两个近邻像素点;根据同一区域像素点之间的相似性大于不同区域像素点之间的相似性这个规则选取种子点,建立基于注视点 的邻域相似性指标quota,定义为:
S506:得到生长完成的图像之后,分割和识别出基于该注视点邻域的目标物体的区域。
在S6中确定包裹目标区域的最小矩形的方法,具体为:
S605:得到四个目标物体区域的最左,下,右,上的像素点之后,计算并记录该目标最左、右像素点之差,即 ,作为该目标物体区域的最小长度,记为;计算并记录该目标最上、下像素点之差 ,作为该目标物体区域的最小宽度,记为 ;记包含该目标物体区域的最小范围为 ;
在S7中跟踪目标过程中,实时计算该矩形边框的中心点坐标的方法,具体为:
S902:略去上式右端高阶项,对于固定时间增量,使得目标函数最小化的条件为:
也即:
最终可得:
综上,
在S9中复合图像雅各比矩阵的求取涉及到一种眼在手机器人无标定视觉伺服控制的复合图像雅可比矩阵的Broyden在线更新方法,该方法只在初始时刻计算复合图像雅克比矩阵,其后在每一步迭代过程中更新雅可比矩阵,具体为:
S912:因为在期望点附近,复合图像雅各比矩阵已经近似趋于不变了。所以可用上式计算系统在前一时刻的系统误差,即:
S913:省略掉高阶项,可得:
进一步合并整理得:
其中,
S914:将式:
等式的两边分别减去:
得:
即:
转置以后,整理得:
通过上述描述可以看出本方案中相比现有技术,有益效果为:
(1)本方案设置了一种基于可穿戴式的遥操作控制设备,通过红外摄像单元获取操作员的眼动信号,并通过瞳孔中心定位算法实时检测瞳孔中心的图像坐标;确定瞳孔中心运动范围,建立起瞳孔中心运动范围与图像显示单元的图像显示区域的映射关系。利用操作员的眼动信号,便可以快速精确的确定操作员的眼部的注视点。解决了现有人机交互对于侦察机器人很难快速精确的确定目标区域,选取目标物体的问题。另外,该设备便于携带,可操作性强,使得操作员的操作更加直观方便,通过可穿戴设备可以实现对从端机器人的远程控制,一定程度上解放了操作员的双手,减轻了操作员双手的负担。
(2)本方案给出了机器人各关节变量的迭代公式,给出了复合图像雅各比矩阵的在线估计的方法,基于计算力矩的滑模控制算法给出了各关节所需要的力矩大小。本方案所涉及的基于眼动追踪可穿戴设备的机器人远程控制系统与控制方法,具备较好的控制性能,具有较强的鲁棒性。
(3)本方案的基于多模态交互技术的机器人远程控制系统及控制方法,将眼动追踪技术,语音交互技术,图像处理技术与机器人视觉伺服控制技术,相结合对机器人进行控制将多模态交互技术应用在机器人领域,具有一定的应用前景。
附图说明
图1是本公开所述的基于多模态交互技术的机器人远程控制系统的组成示意图。
图2是本公开实施例1的主端多模态交互控制系统的右视图。
图3是本公开实施例1的主端多模态交互控制系统的结构框图。
图4是本公开实施例1的从端机器人系统结构框图。
图5是本公开实施例2的主端多模态交互控制系统的校准方法的控制流程图。
图6是本公开实施例3的控制方法的控制流程图。
图中, N1为红外摄像单元,N2为图像显示单元,N3为语音交互单元,N4为模式选择按钮,N5为机器人主控制器,N6为滑模控制器,N7为关节驱动器,N8为机器人本体,N9为单目视觉传感器,N10为无线网络通信单元,N11为武器装置。
具体实施方式
下面将结合本发明具体实施方式中的附图,对本发明具体实施方式中的技术方案进行清楚、完整地描述,显然,所描述的具体实施方式仅仅是本发明一种具体实施方式,而不是全部的具体实施方式。基于本发明中的具体实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式,都属于本发明保护的范围。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合;
通过附图可以看出,本发明基于多模态交互技术的机器人远程控制系统,包括主端多模态交互控制系统和从端机器人系统组成,主端多模态交互控制系统和从端机器人系统通过无线网络通信,所述的主端多模态交互控制系统涉及到一种基于可穿戴式的遥操作控制设备,可以方便地穿戴在操作员身上,用于发送控制指令和接收从端机器人采集的信息。这种可穿戴式的设备可以对红外摄像单元以及来自从端机器人系统末端单目视觉传感器拍摄的图像进行图像处理,它还能够把图像实时地显示在图像显示单元,此外,它可以发送和接受主从端各个单元的指令和信息并对这些指令和信息做相应的处理。
主端多模态交互控制系统主要包括:主端微处理器,图像处理单元,N1、红外摄像单元,N2、图像显示单元,视觉伺服单元,无线网络通信单元,N3、语音交互单元,N4、模式选择滑动按钮。所述的主端多模态交互控制系统的主端微处理器分别与图像处理单元,N1、红外摄像单元,N2、图像显示单元,视觉伺服单元,无线网络通信单元,N3、语音交互单元,N4、模式选择按钮连接,用来处理各个单元及模式选择按钮发送来的指令与信息,并把处理后的结果按需发送回各个单元及模式选择按钮。所述的图像处理单元用于提取人的眼动信息,并对提取到的眼动特征信息做相应的分析处理,以便计算出人的瞳孔中心的位置,确定瞳孔中心运动范围,建立起瞳孔运动范围与图像显示单元的图像显示区域的映射关系。所述的红外摄像单元N1用来拍摄人的眼动特征信息,并把所拍摄的图像传输给图像处理单元进行眼动特征的提取与处理。所述的图像显示单元N2用于显示经图像处理单元处理后图像信息。所述的视觉伺服单元用来对雅各比矩阵进行在线的估计与更新,雅各比矩阵的每一次迭代更新,关节角也会随之沿着误差均方差最小的方向迭代更新,进而求出最新的机械臂各关节的期望关节变量。所述的无线网络通信单元用来与从端机器人系统建立主从端的无线网络通信,以便主端多模态交互控制系统与从端机器人系统间指令与信息的发送与接收。所述的语音交互单元N3主要由麦克风,扬声器,语音交互控制器组成,用于发送和接收语音指令,通过发送和接收语音指令,可以提示操作员和系统该如何动作。所述的模式选择按钮N4分为三个档位:一档为关闭按钮,当设备不用的时候处于关闭状态;二档为校准按钮,当把模式选择按钮拨到该位置时,表示开启了设备的校准模式;三档为运行按钮,当把模式选择按钮拨到该位置时,表示设备开始正式工作。
从端机器人系统主要包括:N5、机器人主控制器,N6、滑模控制器,N7、关节驱动器,N8、机器人本体,N9、单目视觉传感器,N10、无线通信通信单元,N11、武器装置。所述的从端机器人系统的机器人主控制器N5分别与滑模控制器N6,关节驱动器N7,机器人本体N8,单目视觉传感器N9,无线通信单元N10,武器装置N11连接。所述的机器人主控制器N5是整个从端机器人系统的核心,它负责在从端的各个单元以及主端多模态交互控制系统间进行指令与信息的发送与接收。所述的滑模控制器N6接收来自主端多模态交互控制系统视觉伺服单元N5传输来的各关节的期望关节变量,通过基于计算力矩法的滑模控制算法计算出与期望关节变量对应的各关节的力矩大小。所述的关节驱动器N7接收到来自滑模控制器N6的各关节的力矩大小,驱动机器人本体N8朝着目标物体移动。所述的机器人本体N8为多自由度机械臂,可以为但不限定于六自由度机械臂。所述的单目视觉传感器N9安装在机器人本体N8的末端执行器上,用来获取场景空间中的图像信息,并把图像信息通过无线网络通道传输给主端多模态交互控制系统。所述的无线网络通信单元N10负责与主端多模态交互控制系统的无线网络通信单元进行网络通信,以便主从端系统间的指令与信息的发送与接收。所述的武器装置N11负责在听到攻击目标物体的语音指令后,对目标物体进行精准击打。
基于上述设备的机器人远程控制方法,在使用前,需要做校准; 如图5所示,本具体实施方式中,机器人远程控制系统主端多模态交互控制系统的校准方法,具体包含如下步骤:
步骤1:拨动模式选择按钮到“校准”档位,开启校准程序,准备校准操作;
步骤2:开启红外摄像单元,当听到人机交互单元发出的语音提示后,人眼不断移动,红外摄像单元开始不断获取人的眼动信息,并通过一种瞳孔中心定位算法实时检测瞳孔中心的图像坐标;
步骤3:听到人机交互单元发出的语音提示后,开始让眼球根据语音提示移动,进而确定瞳孔中心运动范围;
步骤4:瞳孔中心运动范围确定后,建立瞳孔中心运动范围与图像显示单元的图像显示区域的映射关系,即视线点坐标提取算法。
具体的,所述步骤2中的一种基于瞳孔中心定位的算法,具体为:
步骤21:对采集到的眼部图像进行预处理。首先,采用平均值法对眼部图像进行灰度化处理。然后,采用NL-Means算法对灰度化处理后的可能带有噪声干扰的眼部图像进行去噪处理;
步骤22:采用多大津算法对灰度化后的眼部图像进行二值化的处理,经多大津算法分割后便可得到比较精确的分割结果;
步骤23:对分割过后的眼部图像进行预过滤处理。由于组成瞳孔轮廓的像素点在一定范围内,利用这个已知条件可以对眼部图像的所有瞳孔轮廓进行筛选。当某个瞳孔轮廓的像素点在给定范围内时,则选为备用;当某个瞳孔轮廓的像素点不在给定范围内时,则过滤掉该轮廓。
步骤24:如果没有选为备用的瞳孔轮廓,则返回步骤21;如果有且仅有一个选为备用的瞳孔轮廓,则利用瞳孔中心定位算法对该瞳孔轮廓进行拟合,求解拟合过后的瞳孔轮廓的各个参数,计算瞳孔轮廓的中心;如果选为备用的瞳孔轮廓的数量超过一个,则执行下一步;
步骤25:利用瞳孔中心定位算法分别对每一个瞳孔轮廓拟合,将拟合得到的每个瞳孔轮廓的中心与对应瞳孔轮廓上各点进行标准差的计算,将计算得到的最小标准差的那个瞳孔轮廓作为最终的瞳孔轮廓,最终的瞳孔轮廓的中心作为瞳孔轮廓的中心。
具体的,所述步骤3中确定瞳孔中心运动范围的方法,具体为:
步骤31:当听到主端语音交互单元的语音提示发出开始眼动范围检测超过预定秒数后,系统开始不断发出眼动范围检测指令;
步骤32:当听到主端语音交互单元的语音提示发出请注视图像左上方的指令后,操作员眼球开始往最左上方移动,当注视停留在最左上方时间超过预定秒数后,则系统把人眼所能看到的最左上方的像素点视为注视点,并把对应的瞳孔中心图像坐标记为;
步骤33:当听到主端语音交互单元的语音提示发出请注视图像左下方的指令后,操作员眼球开始往最左下方移动,当注视停留在最左下方时间超过预定秒数后,则系统把人眼所能看到的最左下方的像素点视为注视点,并把对应的瞳孔中心图像坐标记为;
步骤34:当听到主端语音交互单元的语音提示发出请注视图像右下方的指令后,操作员眼球开始往最右下方移动,当注视停留在最右下方时间超过预定秒数后,则系统把人眼所能看到的最右下方的像素点视为注视点,并把对应的瞳孔中心图像坐标记为;
步骤35:当听到主端语音交互单元的语音提示发出请注视图像右上方的指令后,操作员眼球开始往最右上方移动,当注视停留在最右上方时间超过预定秒数后,则系统把人眼所能看到的最右上方的像素点视为注视点,并把对应的瞳孔中心图像坐标记为;
步骤44:根据事先确定好的12个选取的坐标点与对应的12个坐标点的操作员的瞳孔中心图像坐标建立误差函数:
建立如下需要满足的条件:
校准后,对机器人进行控制的方法如下,如图6所示,包括如下步骤:
S1:把模式选择按钮拨动到“运行”档位,建立主从端的无线网络通道,系统开始正式工作,并通过语音给予操作者提示;
S2:主端眼动追踪控制系统开始获取由从端机器人末端执行器的单目视觉传感器拍摄的图像输出显示在图像显示单元;
S3:当听到开始主端人机交互单元发出选取跟踪目标的语音提示时,红外摄像单元开始不断获取操作员的眼球信息;
S6:计算目标区域的最左横坐标、最右横坐标、最上纵坐标和最下纵坐标,确定包裹目标区域的最小矩形;
S13:采集操作员语音指令并判断是否开启武器装置,若是,则发起攻击,执行步骤S14;若否,则进一步采集操作员语音指令并判断是否取消目标;若是,则返回S3;若否,则返回S7;
S14:采集操作员语音指令判断是否结束,若是,则任务结束;若否,则返回步骤S3。
具体的,所述步骤S5中的目标检测算法,具体为:
S501:首先,选择RGB彩色空间作为该算法的颜色空间;
S503:统计关于点的近邻域的颜色特征。像素点 的 近邻域定义为,,其中, 为图像中的两个近邻像素点。根据同一区域像素点之间的相似性大于不同区域像素点之间的相似性这个规则选取种子点,建立基于注视点 的邻域相似性指标quota,定义为:
S506:得到生长完成的图像之后,分割和识别出基于该注视点邻域的目标物体的区域。
具体的,所述步骤S6中确定包裹目标区域的最小矩形的方法,具体为:
S605:得到四个目标物体区域的最左,下,右,上的像素点之后,计算并记录该目标最左、右像素点之差,即 ,作为该目标物体区域的最小长度,记为 ;计算并记录该目标最上、下像素点之差 ,作为该目标物体区域的最小宽度,记为 ;记包含该目标物体区域的最小范围为 。
具体的,所述步骤S7中跟踪目标过程中,实时计算该矩形边框的中心点坐标的方法,具体为:
S902:略去上式右端高阶项。对于固定采样周期,使得目标函数最小化的条件为:
也即:
最终可得:
综上,
具体的,所述步骤S9中复合图像雅各比矩阵的求取涉及到一种眼在手机器人无标定视觉伺服控制的复合图像雅可比矩阵的Broyden在线更新方法,Broyden方法是拟牛顿法中求解雅克比矩阵的一种方法,该方法只在初始时刻计算复合图像雅克比矩阵,其后在每一步迭代过程中更新雅可比矩阵,具体为:
S912:因为在期望点附近,复合图像雅各比矩阵已经近似趋于不变了。所以可用上式计算系统在前一时刻的系统误差,即:
S913:省略掉高阶项,可得:
进一步合并整理得:
其中,
S914:将式:
等式的两边分别减去:
得:
即:
转置以后,整理得:
本具体实施方式还公开了一种电子设备,这种电子设备包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成所述的基于眼动追踪可穿戴设备的机器人远程控制方法中的步骤。
本具体实施方式还公开了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成所述的基于眼动追踪可穿戴设备的机器人远程控制方法中的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已经示出和描述了本发明的具体实施方式,对于本领域的普通技术人员而言,可以理解在不脱离发明的原理和精神的情况下可以对这些具体实施方式进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (9)
1.一种基于多模态交互技术的机器人远程控制方法,其特征在于,
S1:通过模式选择按钮把模式选择按钮拨动到“运行”档位,建立主端多模态交互控制系统和从端机器人系统的无线网络通道,系统开始正式工作,并给予操作者语音提示;
S2:主端多模态交互控制系统开始获取机器人拍摄的图像,并通过图像显示单元进行显示;
S3:当听到主端多模态交互控制系统接收到开始选取跟踪目标的语音提示时,红外摄像单元开始不断获取操作员的眼球信息;
S6:计算目标区域的最左横坐标、最右横坐标、最上纵坐标和最下纵坐标,确定包裹目标区域的最小矩形;
S13:采集操作员语音指令并判断是否开启武器装置,若是,则发起攻击,执行步骤S14;若否,则进一步采集操作员语音指令并判断是否取消目标;若是,则返回S3;若否,则返回S7;
S14:采集操作员语音指令判断是否结束,若是,则任务结束;若否,则返回步骤S3。
2.根据权利要求1所述的基于多模态交互技术的机器人远程控制方法,其特征在于,
进入S1的运行模式之前,需要对主端多模态交互控制系统进行校准,校准步骤如下:
步骤1:拨动模式选择按钮到“校准”档位,开启校准程序,准备校准操作;
步骤2:开启红外摄像单元,当听到语音交互单元发出的语音提示后,人眼不断移动,红外摄像单元开始不断获取人的眼动信息,并通过一种瞳孔中心定位算法实时检测瞳孔中心的图像坐标;
步骤3:听到人机交互单元发出的语音提示后,开始让眼球根据语音提示移动,进而确定瞳孔中心运动范围;
步骤4:瞳孔中心运动范围确定后,建立瞳孔中心运动范围与图像显示单元的图像显示区域的映射关系。
3.根据权利要求2所述的基于多模态交互技术的机器人远程控制方法,其特征在于,
所述步骤2中瞳孔中心定位算法的具体步骤为:
步骤21:对采集到的眼部图像进行预处理,首先,采用平均值法对眼部图像进行灰度化处理;然后,采用NL-Means算法对灰度化处理后的可能带有噪声干扰的眼部图像进行去噪处理;
步骤22:采用多大津算法对灰度化后的眼部图像进行二值化的处理,经多大津算法分割后便可得到比较精确的分割结果;
步骤23:对分割过后的眼部图像进行预过滤处理,由于组成瞳孔轮廓的像素点在一定范围内,利用这个已知条件可以对眼部图像的所有瞳孔轮廓进行筛选,当某个瞳孔轮廓的像素点在给定范围内时,则选为备用;当某个瞳孔轮廓的像素点不在给定范围内时,则过滤掉该轮廓;
步骤24:如果没有选为备用的瞳孔轮廓,则返回步骤21;如果有且仅有一个选为备用的瞳孔轮廓,则利用瞳孔中心定位算法对该瞳孔轮廓进行拟合,求解拟合过后的瞳孔轮廓的各个参数,计算瞳孔轮廓的中心;如果选为备用的瞳孔轮廓的数量超过一个,则执行下一步;
步骤25:利用瞳孔中心定位算法分别对每一个瞳孔轮廓拟合,将拟合得到的每个瞳孔轮廓的中心与对应瞳孔轮廓上各点进行标准差的计算,将计算得到的最小标准差的那个瞳孔轮廓作为最终的瞳孔轮廓,最终的瞳孔轮廓的中心作为瞳孔轮廓的中心。
4.根据权利要求2所述的基于多模态交互技术的机器人远程控制方法,其特征在于,
步骤3中,确定瞳孔中心运动范围的具体步骤包括:
步骤31:当听到语音交互单元的语音提示发出开始眼动范围检测超过预定秒数后,主端多模态交互控制系统开始不断发出眼动范围检测指令;
步骤32:当听到语音交互单元的语音提示发出请注视图像左上方的指令后,操作员眼球开始往最左上方移动,当注视停留在最左上方时间超过预定秒数后,则系统把人眼所能看到的最左上方的像素点视为注视点,并把对应的瞳孔中心图像坐标记为;
步骤33:当听到语音交互单元的语音提示发出请注视图像左下方的指令后,操作员眼球开始往最左下方移动,当注视停留在最左下方时间超过预定秒数后,则系统把人眼所能看到的最左下方的像素点视为注视点,并把对应的瞳孔中心图像坐标记为;
步骤34:当听到语音交互单元的语音提示发出请注视图像右下方的指令后,操作员眼球开始往最右下方移动,当注视停留在最右下方时间超过预定秒数后,则系统把人眼所能看到的最右下方的像素点视为注视点,并把对应的瞳孔中心图像坐标记为;
步骤35:当听到语音交互单元的语音提示发出请注视图像右上方的指令后,操作员眼球开始往最右上方移动,当注视停留在最右上方时间超过预定秒数后,则系统把人眼所能看到的最右上方的像素点视为注视点,并把对应的瞳孔中心图像坐标记为;
5.根据权利要求4所述的基于多模态交互技术的机器人远程控制方法,其特征在于,
步骤44:根据事先确定好的12个选取的坐标点与对应的12个坐标点的操作员的瞳孔中心图像坐标建立误差函数:
建立如下需要满足的条件:
6.根据权利要求1所述的基于多模态交互技术的机器人远程控制方法,其特征在于,
所述S5中的目标检测算法,具体为:
S501:选择RGB彩色空间作为该算法的颜色空间;
S503:统计关于点的近邻域的颜色特征;像素点的近邻域定义为,,其中,为图像中的两个近邻像素点;根据同一区域像素点之间的相似性大于不同区域像素点之间的相似性这个规则选取种子点,建立基于注视点的邻域相似性指标quota,定义为:
S506:得到生长完成的图像之后,分割和识别出基于该注视点邻域的目标物体的区域。
7.根据权利要求1所述的基于多模态交互技术的机器人远程控制方法,其特征在于,
在S6中确定包裹目标区域的最小矩形的方法,具体为:
S605:得到四个目标物体区域的最左,下,右,上的像素点之后,计算并记录该目标最左、右像素点之差,即,作为该目标物体区域的最小长度,记为;计算并记录该目标最上、下像素点之差,作为该目标物体区域的最小宽度,记为;记包含该目标物体区域的最小范围为;
在S7中跟踪目标过程中,实时计算该矩形边框的中心点坐标的方法,具体为:
8.根据权利要求1所述的基于多模态交互技术的机器人远程控制方法,其特征在于,
S902:略去上式右端高阶项,对于固定采样周期,使得目标函数最小化的条件为:
综上,
9.根据权利要求8所述的基于多模态交互技术的机器人远程控制方法,其特征在于,
在S9中复合图像雅各比矩阵的求取涉及到一种眼在手机器人无标定视觉伺服控制的复合图像雅可比矩阵的Broyden在线更新方法,该方法只在初始时刻计算复合图像雅克比矩阵,其后在每一步迭代过程中更新雅可比矩阵,具体为:
S912:因为在期望点附近,复合图像雅各比矩阵已经近似趋于不变了,所以可用上式计算系统在前一时刻的系统误差,即:
S913:省略掉高阶项,可得:
进一步合并整理得:
其中,
S914:将式:
等式的两边分别减去:
得:
即:
转置以后,整理得:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111394448.2A CN113821108B (zh) | 2021-11-23 | 2021-11-23 | 基于多模态交互技术的机器人远程控制系统及控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111394448.2A CN113821108B (zh) | 2021-11-23 | 2021-11-23 | 基于多模态交互技术的机器人远程控制系统及控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113821108A CN113821108A (zh) | 2021-12-21 |
CN113821108B true CN113821108B (zh) | 2022-02-08 |
Family
ID=78919745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111394448.2A Active CN113821108B (zh) | 2021-11-23 | 2021-11-23 | 基于多模态交互技术的机器人远程控制系统及控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113821108B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078000B (zh) * | 2019-11-18 | 2023-04-28 | 中北大学 | 一种根据眼行为特征进行眼机交互的方法、装置及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102749991A (zh) * | 2012-04-12 | 2012-10-24 | 广东百泰科技有限公司 | 一种适用于人机交互的非接触式自由空间视线跟踪方法 |
CN111012301A (zh) * | 2019-12-19 | 2020-04-17 | 北京理工大学 | 一种头戴式目视精确瞄准系统 |
CN111290575A (zh) * | 2020-01-21 | 2020-06-16 | 中国人民解放军空军工程大学 | 一种防空反导武器的多通道交互控制系统 |
CN112069986A (zh) * | 2020-09-04 | 2020-12-11 | 江苏慧明智能科技有限公司 | 高龄老人眼动机器视觉跟踪方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838378B (zh) * | 2014-03-13 | 2017-05-31 | 广东石油化工学院 | 一种基于瞳孔识别定位的头戴式眼睛操控系统 |
CN106373146B (zh) * | 2016-10-27 | 2019-02-15 | 南京航空航天大学 | 一种基于模糊学习的目标跟踪方法 |
CN108297098A (zh) * | 2018-01-23 | 2018-07-20 | 上海大学 | 人工智能驱动的机器人控制系统及方法 |
CN109955250A (zh) * | 2019-01-21 | 2019-07-02 | 中国船舶重工集团公司第七一六研究所 | 应用于工业机器人的追踪与实时避障反应规划算法 |
CN109933272A (zh) * | 2019-01-31 | 2019-06-25 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 多模态深度融合机载座舱人机交互方法 |
CN111767785A (zh) * | 2020-05-11 | 2020-10-13 | 南京奥拓电子科技有限公司 | 人机交互控制方法及装置、智能机器人及存储介质 |
CN112405530B (zh) * | 2020-11-06 | 2022-01-11 | 齐鲁工业大学 | 基于可穿戴视觉的机器人视觉跟踪控制系统及控制方法 |
-
2021
- 2021-11-23 CN CN202111394448.2A patent/CN113821108B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102749991A (zh) * | 2012-04-12 | 2012-10-24 | 广东百泰科技有限公司 | 一种适用于人机交互的非接触式自由空间视线跟踪方法 |
CN111012301A (zh) * | 2019-12-19 | 2020-04-17 | 北京理工大学 | 一种头戴式目视精确瞄准系统 |
CN111290575A (zh) * | 2020-01-21 | 2020-06-16 | 中国人民解放军空军工程大学 | 一种防空反导武器的多通道交互控制系统 |
CN112069986A (zh) * | 2020-09-04 | 2020-12-11 | 江苏慧明智能科技有限公司 | 高龄老人眼动机器视觉跟踪方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113821108A (zh) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255813B (zh) | 一种面向人机协作的手持物体位姿实时检测方法 | |
US11392146B2 (en) | Method for detecting target object, detection apparatus and robot | |
CN109308693B (zh) | 由一台ptz相机构建的目标检测和位姿测量单双目视觉系统 | |
US10380763B2 (en) | Hybrid corner and edge-based tracking | |
WO2020125499A1 (zh) | 一种操作提示方法及眼镜 | |
CN109685037B (zh) | 一种实时动作识别方法、装置及电子设备 | |
CN107813310A (zh) | 一种基于双目视觉多手势机器人控制方法 | |
CN106780542A (zh) | 一种基于嵌入卡尔曼滤波器的Camshift的机器鱼跟踪方法 | |
WO2023071964A1 (zh) | 数据处理方法, 装置, 电子设备及计算机可读存储介质 | |
CN111897349A (zh) | 一种基于双目视觉的水下机器人自主避障方法 | |
CN112083800B (zh) | 基于自适应手指关节规则滤波的手势识别方法及系统 | |
CN113850865A (zh) | 一种基于双目视觉的人体姿态定位方法、系统和存储介质 | |
CN106055104A (zh) | 用于为跟踪器提供快照实况调查系统的方法及装置 | |
CN110658916A (zh) | 目标跟踪方法和系统 | |
EP3047454A1 (en) | 3d reconstruction | |
CN113821108B (zh) | 基于多模态交互技术的机器人远程控制系统及控制方法 | |
CN109255329A (zh) | 确定头部姿态的方法、装置、存储介质和终端设备 | |
CN109785373A (zh) | 一种基于散斑的六自由度位姿估计系统及方法 | |
CN106618479B (zh) | 瞳孔追踪系统及其方法 | |
CN105335959B (zh) | 成像装置快速对焦方法及其设备 | |
CN113822251B (zh) | 基于双目视觉的地面侦察机器人手势控制系统及控制方法 | |
CN115410233A (zh) | 一种基于卡尔曼滤波和深度学习的手势姿态估计方法 | |
CN109872343B (zh) | 弱纹理物体姿态跟踪方法、系统及装置 | |
CN113408443A (zh) | 基于多视角图像的手势姿态预测方法及系统 | |
CN108469729A (zh) | 一种基于rgb-d信息的人体目标识别与跟随方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |