CN113821108B

CN113821108B - 基于多模态交互技术的机器人远程控制系统及控制方法

Info

Publication number: CN113821108B
Application number: CN202111394448.2A
Authority: CN
Inventors: 纪鹏; 李成龙; 马凤英; 张慧; 张芳芳; 王斌鹏
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-02-08
Anticipated expiration: 2041-11-23
Also published as: CN113821108A

Abstract

本发明涉及一种基于多模态交互技术的机器人远程控制系统及控制方法，包括用于控制从端机器人系统的主端多模态交互控制系统，所述主端多模态交互控制系统包括主端微处理器，图像处理单元，红外摄像单元，图像显示单元，视觉伺服控制单元，无线网络通信单元，语音交互单元，模式选择按钮，主端微处理器分别与图像处理单元，红外摄像单元，图像显示单元，视觉伺服控制单元，无线网络通信单元，语音交互单元，模式选择按钮连接，本方案中，将眼动追踪技术、语音交互技术与机器人视觉伺服控制技术相结合，以解决现有基于人机交互的机器人控制方式中很难快速识别目标区域，精确选择目标物体的问题。

Description

基于多模态交互技术的机器人远程控制系统及控制方法

技术领域

本发明涉及机器人领域，人机交互相关技术领域，尤其涉及一种基于多模态交互技术的机器人远程控制系统与控制方法。

背景技术

侦察机器人可以执行战场抵近侦察监视、潜行突袭、定点清剿、核生化处理及反恐排爆等多种作战任务。传统的侦察系统一般是由摄像头和两自由度的云台组成，其控制方式一般通过摇杆的俯仰角和偏航角的角度信息实现对云台的俯仰控制。对于搭载多自由度侦察系统的侦察机器人，其侦察系统一般是由多自由度机械臂与侦察摄像头组成，其中侦察摄像头固定连接在多自由度机械臂执行器的末端。传统的机器人的远程控制系统通常采用带有摇杆和按键的控制箱或控制盒来实现。对于搭载多自由度机械臂的机器人，控制箱的按键非常繁杂，操控者需要记忆每个按键与机器人控制操作的对应关系，控制方式非常不直观。机器人控制系统都摆脱不了对摇杆的依赖，而摇杆又需要控制箱及相关的硬件设备的支持，因此传统的侦察机器人的控制器的体积都普遍较大，由此带来的问题是不方便携带和运输。

人的眼动信息和语音信息是可以被人类利用的较为有用的两种信息，对于特种兵来说，眼睛信息和语音信息是非常有利的与机器人进行交互的两种方式。目前基于人机交互的侦察机器人的可穿戴设备极不方便，很难精确快速地确定待跟踪的目标物。对于全副武装的士兵来说，如何综合利用眼动信息和语音信息等多模态交互技术提高侦察机器人的人机交互遥操作控制系统的快速性，精确性，便携性和操控直观性是非常迫切的需求。

发明内容

针对上述问题，本发明提出了一种基于多模态交互技术的机器人远程控制系统及控制方法，实现对多自由度机器人的远程控制。本方案中，将眼动追踪技术、语音交互技术与机器人视觉伺服控制技术相结合，以解决现有基于人机交互的机器人控制方式中很难快速识别目标区域，精确选择目标物体的问题。主端多模态交互控制系统的头部可穿戴设备，便于携带，脱卸方便，操作直观易行，眼动控制非常灵活，提高了操控的直观性，一定程度上解放了机器人操控者的双手。

本发明提供如下技术方案：一种基于多模态交互技术的机器人远程控制系统，包括用于控制从端机器人系统的主端多模态交互控制系统，所述主端多模态交互控制系统包括主端微处理器，图像处理单元，红外摄像单元，图像显示单元，视觉伺服控制单元，无线网络通信单元，语音交互单元，模式选择按钮，主端微处理器分别与图像处理单元，红外摄像单元，图像显示单元，视觉伺服控制单元，无线网络通信单元，语音交互单元，模式选择按钮连接。

所述的图像处理单元用于提取人的眼动信息，并计算出人的瞳孔中心的位置，确定瞳孔中心运动范围，建立起瞳孔运动范围与图像显示单元的图像显示区域的映射关系；红外摄像单元用来拍摄人的眼动特征信息，并把所拍摄的图像传输给图像处理单元进行眼动特征的提取与处理；图像显示单元用于显示经图像处理单元处理后的场景中的图像信息；视觉伺服控制单元用于根据图像特征误差获得机器人的机械臂各关节期望关节变量；无线网络通信单元用于从端机器人系统与主端多模态交互控制系统进行通信；语音交互单元用于发送和接收语音指令；模式选择按钮用于选择设备工作状态；主端微处理器用来处理各个单元及模式选择按钮发送来的指令与信息，并把处理后的结果按需发送回各个单元及模式选择按钮。

所述主端多模态交互控制系统设置在可穿戴式设备上，可以方便地穿戴在操作员身上，用于发送控制指令和接收从端机器人采集的信息，穿戴设备穿戴在操作者眼部，包括眼镜腿和外壳，在外壳上设置模式选择按钮，外壳朝向面部的一侧设置语音交互单元，外壳对应眼睛的部位设置图像显示单元和红外摄像单元。

一种基于多模态交互技术的机器人远程控制方法，包括如下步骤，

S1：通过模式选择按钮把模式选择按钮拨动到“运行”档位，建立主端多模态交互控制系统和从端机器人系统的无线网络通道，系统开始正式工作，并给予操作者语音提示；

S2：主端多模态交互控制系统的开始获取机器人拍摄的图像，并通过图像显示单元进行显示；

S3：当听到主端多模态交互控制系统接收到开始选取跟踪目标的语音提示时，红外摄像单元开始不断获取操作员的眼球信息；

S4：采集操作员的语音指令，判断是否把注视点

作为待跟踪目标点，若是，则执行下一步；若否，则返回步骤S3；

S5：开启目标检测算法对此注视点

进行图像处理，统计该幅图像的所有像素点信息，建立局部颜色直方图

，建立和计算基于该注视点的邻域相似性指标quota，从而识别和分割出与该注视点邻域相似的目标区域；

S6：计算目标区域的最左横坐标、最右横坐标、最上纵坐标和最下纵坐标，确定包裹目标区域的最小矩形；

S7：开启目标跟踪算法，并将S6中的最小矩形作为初始跟踪区域输入给目标跟踪算法，在跟踪目标过程中，实时计算该矩形边框的中心点坐标，记作特征点

；

S8：将得到的图像特征点

与图像中心坐标

作比较，得到两者之间的一个误差，形成反馈信号,定义为图像特征误差

；

S9：视觉伺服控制单元接收到图像特征误差

之后，以误差均方差

为目标函数，对于固定采样周期，使得目标函数最小化，可得：

其中，

，

为复合图像雅各比矩阵，即

，其中，

为图像雅各比矩阵，

为机械臂雅各比矩阵；

S10：目标函数最小化后，得到使得以误差均方差最小化为目标函数的机器人下一时刻的期望关节变量

：

；

S11：将机器人下一时刻的期望关节变量

通过无线网络发送给从端机器人模块的滑模控制器,通过基于计算力矩法的滑模控制算法，计算各个关节需要的力矩

；

S12：将步骤S10得到的各关节力矩

传输到从端机器人模块的关节驱动器，驱动机器人朝着目标物体运动；

S13：采集操作员语音指令并判断是否开启武器装置，若是，则发起攻击，执行步骤S14；若否，则进一步采集操作员语音指令并判断是否取消目标；若是，则返回S3；若否，则返回S7;

S14：采集操作员语音指令判断是否结束，若是，则任务结束；若否，则返回步骤S3。

进入S1的运行模式之前，即对机器人进行控制前，需要对主端多模态交互控制系统进行校准，校准步骤如下：步骤1：拨动模式选择按钮到“校准”档位，开启校准程序，准备校准操作；步骤2：开启红外摄像单元，当听到语音交互单元发出的语音提示后，人眼不断移动，红外摄像单元开始不断获取人的眼动信息，并通过一种瞳孔中心定位算法实时检测瞳孔中心的图像坐标；步骤3：听到人机交互单元发出的语音提示后，开始让眼球根据语音提示移动，进而确定瞳孔中心运动范围；步骤4：瞳孔中心运动范围确定后，建立瞳孔中心运动范围与图像显示单元的图像显示区域的映射关系。

校准过程的步骤2具体步骤为：

步骤21：对采集到的眼部图像进行预处理，首先，采用平均值法对眼部图像进行灰度化处理。然后，采用NL-Means算法对灰度化处理后的可能带有噪声干扰的眼部图像进行去噪处理；

步骤22：采用多大津算法对灰度化后的眼部图像进行二值化的处理，经多大津算法分割后便可得到比较精确的分割结果；

步骤23：对分割过后的眼部图像进行预过滤处理，由于组成瞳孔轮廓的像素点在一定范围内，利用这个已知条件可以对眼部图像的所有瞳孔轮廓进行筛选，当某个瞳孔轮廓的像素点在给定范围内时，则选为备用；当某个瞳孔轮廓的像素点不在给定范围内时，则过滤掉该轮廓；

步骤24：如果没有选为备用的瞳孔轮廓，则返回步骤21；如果有且仅有一个选为备用的瞳孔轮廓，则利用瞳孔中心定位算法对该瞳孔轮廓进行拟合，求解拟合过后的瞳孔轮廓的各个参数，计算瞳孔轮廓的中心；如果选为备用的瞳孔轮廓的数量超过一个，则执行下一步；

步骤25：利用瞳孔中心定位算法分别对每一个瞳孔轮廓拟合，将拟合得到的每个瞳孔轮廓的中心与对应瞳孔轮廓上各点进行标准差的计算，将计算得到的最小标准差的那个瞳孔轮廓作为最终的瞳孔轮廓，最终的瞳孔轮廓的中心作为瞳孔轮廓的中心。

校准过程的步骤3中，确定瞳孔中心运动范围的具体步骤包括：

步骤31：当听到语音交互单元的语音提示发出开始眼动范围检测超过预定秒数后，主端多模态交互控制系统开始不断发出眼动范围检测指令；

步骤32：当听到语音交互单元的语音提示发出请注视图像左上方的指令后，操作员眼球开始往最左上方移动，当注视停留在最左上方时间超过预定秒数后，则系统把人眼所能看到的最左上方的像素点视为注视点，并把对应的瞳孔中心图像坐标记为

；

步骤33：当听到语音交互单元的语音提示发出请注视图像左下方的指令后，操作员眼球开始往最左下方移动，当注视停留在最左下方时间超过预定秒数后，则系统把人眼所能看到的最左下方的像素点视为注视点，并把对应的瞳孔中心图像坐标记为

；

步骤34：当听到语音交互单元的语音提示发出请注视图像右下方的指令后，操作员眼球开始往最右下方移动，当注视停留在最右下方时间超过预定秒数后，则系统把人眼所能看到的最右下方的像素点视为注视点，并把对应的瞳孔中心图像坐标记为

；

步骤35：当听到语音交互单元的语音提示发出请注视图像右上方的指令后，操作员眼球开始往最右上方移动，当注视停留在最右上方时间超过预定秒数后，则系统把人眼所能看到的最右上方的像素点视为注视点，并把对应的瞳孔中心图像坐标记为

；

步骤36：统计计算瞳孔中心朝四个方向运动后的图像坐标，计算人眼所能观察到的图像的范围，记为

，其中

表示长度，

表示宽度。

校准过程的步骤4中建立瞳孔中心运动范围

与图像显示单元的图像显示区域

的映射关系，即视线点坐标提取算法的方法，具体为：

步骤41：在瞳孔中心运动范围

内及边界上均匀确定100个像素点的坐标

，其中

1,2,3...100；

步骤42：在图像显示单元的图像显示区域

内及边界上均匀确定100个对应的像素点坐标

,其中

1,2,3...100；

步骤43：利用线性拟合算法对这100对坐标数据进行线性拟合，确定瞳孔中心运动范围

与图像显示单元的图像显示区域

对应坐标的函数关系式：

其中

，

根据不同的用户以及系统初始化阶段进行设定；

步骤44：根据事先确定好的12个选取的坐标点与对应的12个坐标点的操作员的瞳孔中心图像坐标建立误差函数：

，其中，

，

建立如下需要满足的条件：

；

步骤45：利用步骤44的条件，求解方程中各项的系数的最优值，得到各项系数的最优值后，便得到瞳孔中心运动范围

与图像显示单元的图像显示区域

对应坐标的函数关系，记为视线点坐标提取算法。

控制方法的S5中的目标检测算法，具体为：

S501：选择RGB彩色空间作为该算法的颜色空间；

S502：建立基于注视点

处的局部颜色直方图

，该直方图表示的是基于彩色图像RGB空间的三个颜色分量；

S503：统计关于

点的

近邻域的颜色特征；像素点

的

近邻域定义为，

，其中，

为图像中的两个近邻像素点；根据同一区域像素点之间的相似性大于不同区域像素点之间的相似性这个规则选取种子点，建立基于注视点

的邻域相似性指标quota，定义为：

其中，

表示集合

中所有元素的数目，

其中，

为像素点

的局部颜色直方图，

为像素点

与像素点

之间的欧氏距离，

为设定的像素点颜色特征变化的阈值，

为大于0的某一正数；

S504：当quota≥0.5时，认为像素点

附近颜色变化缓慢，属于目标物体内部，当quota<0.5时，认为像素点

周围颜色变化迅速，属于目标物体与背景之间的过渡区域；

S505：把quota≥0.5的像素点作为种子点，得到的所有种子点在

近邻域内都具有生长的能力，把所有的像素点的相似性度量值小于

的点归为一类，而不同目标的种子点会被两目标边缘点隔离，不会分为一类；

S506：得到生长完成的图像之后，分割和识别出基于该注视点邻域的目标物体的区域。

在S6中确定包裹目标区域的最小矩形的方法，具体为：

S601：提取并计算目标物体区域的最左边区域的像素点，记为

；

S602：提取并计算目标物体区域的最下边区域的像素点，记为

；

S603：提取并计算目标物体区域的最右边区域的像素点，记为

；

S604：提取并计算目标物体区域的最上边区域的像素点，记为

；

S605：得到四个目标物体区域的最左，下，右，上的像素点之后，计算并记录该目标最左、右像素点之差，即

，作为该目标物体区域的最小长度，记为

；计算并记录该目标最上、下像素点之差

，作为该目标物体区域的最小宽度，记为

；记包含该目标物体区域的最小范围为

；

在S7中跟踪目标过程中，实时计算该矩形边框的中心点坐标的方法，具体为：

S701：计算该最小矩形边框的左上角的像素点，记为

；

S702：计算该最小矩形边框的左下角的像素点，记为

；

S703：计算该最小矩形边框的右下角的像素点，记为

；

S704：计算该最小矩形边框的右上角的像素点，记为

；

S705：计算该最小矩形边框的中心点坐标

，作为该目标物体的图像特征点

，即

；

其中，

，

。

在S9中的以误差均方差

为目标函数的最小化方法，具体为：

S901：定义误差均方差

目标函数，将目标函数展开为关于微小增量

的泰勒级数:

其中，

为关节角增量，

为时间增量；

S902：略去上式右端高阶项，对于固定时间增量，使得目标函数最小化的条件为:

也即：

最终可得：

令

，其中

为复合雅各比矩阵，即

，其中，

为图像雅各比矩阵，

为机械臂雅各比矩阵。

可得

中各项为：

；

S903：当关节角增量为

时，目标函数将沿期望方向变化，也即:

其中

时刻期望关节角增量；

综上，

令

，可得：

；

S904：忽略掉

项后，我们得到基于高斯牛顿法的加入比例因子的控制律：

其中，

可以用

表示，称为复合图像雅可比矩阵的Moore-Penrose伪逆，且有

,

为加入的比例因子。

在S9中复合图像雅各比矩阵的求取涉及到一种眼在手机器人无标定视觉伺服控制的复合图像雅可比矩阵的Broyden在线更新方法，该方法只在初始时刻计算复合图像雅克比矩阵，其后在每一步迭代过程中更新雅可比矩阵，具体为：

S911：对于眼在手机器人无标定视觉伺服控制系统，设该系统在

时，达到期望位置附近，将误差

在

展开为泰勒级数:

；

S912：因为在期望点附近，复合图像雅各比矩阵已经近似趋于不变了。所以可用上式计算系统在前一时刻的系统误差，即：

S913：省略掉高阶项，可得：

进一步合并整理得：

其中，

；

S914：将式：

等式的两边分别减去：

得：

即：

转置以后，整理得：

；

S915：对于图像特征差

给定初始关节角

,初始复合雅可比矩阵

,给出基于动态Broyden法雅各比矩阵在线更新算法：

。

通过上述描述可以看出本方案中相比现有技术，有益效果为：

（1）本方案设置了一种基于可穿戴式的遥操作控制设备，通过红外摄像单元获取操作员的眼动信号，并通过瞳孔中心定位算法实时检测瞳孔中心的图像坐标；确定瞳孔中心运动范围，建立起瞳孔中心运动范围与图像显示单元的图像显示区域的映射关系。利用操作员的眼动信号,便可以快速精确的确定操作员的眼部的注视点。解决了现有人机交互对于侦察机器人很难快速精确的确定目标区域，选取目标物体的问题。另外，该设备便于携带，可操作性强，使得操作员的操作更加直观方便，通过可穿戴设备可以实现对从端机器人的远程控制，一定程度上解放了操作员的双手，减轻了操作员双手的负担。

（2）本方案给出了机器人各关节变量的迭代公式，给出了复合图像雅各比矩阵的在线估计的方法，基于计算力矩的滑模控制算法给出了各关节所需要的力矩大小。本方案所涉及的基于眼动追踪可穿戴设备的机器人远程控制系统与控制方法，具备较好的控制性能,具有较强的鲁棒性。

（3）本方案的基于多模态交互技术的机器人远程控制系统及控制方法，将眼动追踪技术，语音交互技术，图像处理技术与机器人视觉伺服控制技术，相结合对机器人进行控制将多模态交互技术应用在机器人领域，具有一定的应用前景。

附图说明

图1是本公开所述的基于多模态交互技术的机器人远程控制系统的组成示意图。

图2是本公开实施例1的主端多模态交互控制系统的右视图。

图3是本公开实施例1的主端多模态交互控制系统的结构框图。

图4是本公开实施例1的从端机器人系统结构框图。

图5是本公开实施例2的主端多模态交互控制系统的校准方法的控制流程图。

图6是本公开实施例3的控制方法的控制流程图。

图中， N1为红外摄像单元，N2为图像显示单元，N3为语音交互单元，N4为模式选择按钮，N5为机器人主控制器，N6为滑模控制器，N7为关节驱动器，N8为机器人本体，N9为单目视觉传感器，N10为无线网络通信单元，N11为武器装置。

具体实施方式

下面将结合本发明具体实施方式中的附图，对本发明具体实施方式中的技术方案进行清楚、完整地描述，显然，所描述的具体实施方式仅仅是本发明一种具体实施方式，而不是全部的具体实施方式。基于本发明中的具体实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合；

通过附图可以看出，本发明基于多模态交互技术的机器人远程控制系统，包括主端多模态交互控制系统和从端机器人系统组成，主端多模态交互控制系统和从端机器人系统通过无线网络通信，所述的主端多模态交互控制系统涉及到一种基于可穿戴式的遥操作控制设备，可以方便地穿戴在操作员身上，用于发送控制指令和接收从端机器人采集的信息。这种可穿戴式的设备可以对红外摄像单元以及来自从端机器人系统末端单目视觉传感器拍摄的图像进行图像处理，它还能够把图像实时地显示在图像显示单元，此外，它可以发送和接受主从端各个单元的指令和信息并对这些指令和信息做相应的处理。

主端多模态交互控制系统主要包括：主端微处理器，图像处理单元，N1、红外摄像单元，N2、图像显示单元，视觉伺服单元，无线网络通信单元，N3、语音交互单元，N4、模式选择滑动按钮。所述的主端多模态交互控制系统的主端微处理器分别与图像处理单元，N1、红外摄像单元，N2、图像显示单元，视觉伺服单元，无线网络通信单元，N3、语音交互单元，N4、模式选择按钮连接，用来处理各个单元及模式选择按钮发送来的指令与信息，并把处理后的结果按需发送回各个单元及模式选择按钮。所述的图像处理单元用于提取人的眼动信息，并对提取到的眼动特征信息做相应的分析处理，以便计算出人的瞳孔中心的位置，确定瞳孔中心运动范围，建立起瞳孔运动范围与图像显示单元的图像显示区域的映射关系。所述的红外摄像单元N1用来拍摄人的眼动特征信息，并把所拍摄的图像传输给图像处理单元进行眼动特征的提取与处理。所述的图像显示单元N2用于显示经图像处理单元处理后图像信息。所述的视觉伺服单元用来对雅各比矩阵进行在线的估计与更新，雅各比矩阵的每一次迭代更新，关节角也会随之沿着误差均方差最小的方向迭代更新，进而求出最新的机械臂各关节的期望关节变量。所述的无线网络通信单元用来与从端机器人系统建立主从端的无线网络通信，以便主端多模态交互控制系统与从端机器人系统间指令与信息的发送与接收。所述的语音交互单元N3主要由麦克风，扬声器，语音交互控制器组成，用于发送和接收语音指令，通过发送和接收语音指令，可以提示操作员和系统该如何动作。所述的模式选择按钮N4分为三个档位：一档为关闭按钮，当设备不用的时候处于关闭状态；二档为校准按钮，当把模式选择按钮拨到该位置时，表示开启了设备的校准模式；三档为运行按钮，当把模式选择按钮拨到该位置时，表示设备开始正式工作。

从端机器人系统主要包括：N5、机器人主控制器，N6、滑模控制器，N7、关节驱动器，N8、机器人本体，N9、单目视觉传感器，N10、无线通信通信单元，N11、武器装置。所述的从端机器人系统的机器人主控制器N5分别与滑模控制器N6，关节驱动器N7，机器人本体N8，单目视觉传感器N9，无线通信单元N10，武器装置N11连接。所述的机器人主控制器N5是整个从端机器人系统的核心，它负责在从端的各个单元以及主端多模态交互控制系统间进行指令与信息的发送与接收。所述的滑模控制器N6接收来自主端多模态交互控制系统视觉伺服单元N5传输来的各关节的期望关节变量，通过基于计算力矩法的滑模控制算法计算出与期望关节变量对应的各关节的力矩大小。所述的关节驱动器N7接收到来自滑模控制器N6的各关节的力矩大小，驱动机器人本体N8朝着目标物体移动。所述的机器人本体N8为多自由度机械臂，可以为但不限定于六自由度机械臂。所述的单目视觉传感器N9安装在机器人本体N8的末端执行器上，用来获取场景空间中的图像信息，并把图像信息通过无线网络通道传输给主端多模态交互控制系统。所述的无线网络通信单元N10负责与主端多模态交互控制系统的无线网络通信单元进行网络通信，以便主从端系统间的指令与信息的发送与接收。所述的武器装置N11负责在听到攻击目标物体的语音指令后，对目标物体进行精准击打。

基于上述设备的机器人远程控制方法,在使用前,需要做校准; 如图5所示，本具体实施方式中,机器人远程控制系统主端多模态交互控制系统的校准方法，具体包含如下步骤：

步骤1：拨动模式选择按钮到“校准”档位，开启校准程序，准备校准操作；

步骤2：开启红外摄像单元，当听到人机交互单元发出的语音提示后，人眼不断移动，红外摄像单元开始不断获取人的眼动信息，并通过一种瞳孔中心定位算法实时检测瞳孔中心的图像坐标；

步骤3：听到人机交互单元发出的语音提示后，开始让眼球根据语音提示移动，进而确定瞳孔中心运动范围；

步骤4：瞳孔中心运动范围确定后，建立瞳孔中心运动范围与图像显示单元的图像显示区域的映射关系，即视线点坐标提取算法。

具体的，所述步骤2中的一种基于瞳孔中心定位的算法，具体为：

步骤21：对采集到的眼部图像进行预处理。首先，采用平均值法对眼部图像进行灰度化处理。然后，采用NL-Means算法对灰度化处理后的可能带有噪声干扰的眼部图像进行去噪处理；

步骤23：对分割过后的眼部图像进行预过滤处理。由于组成瞳孔轮廓的像素点在一定范围内，利用这个已知条件可以对眼部图像的所有瞳孔轮廓进行筛选。当某个瞳孔轮廓的像素点在给定范围内时，则选为备用；当某个瞳孔轮廓的像素点不在给定范围内时，则过滤掉该轮廓。

具体的，所述步骤3中确定瞳孔中心运动范围的方法，具体为：

步骤31：当听到主端语音交互单元的语音提示发出开始眼动范围检测超过预定秒数后，系统开始不断发出眼动范围检测指令；

步骤32：当听到主端语音交互单元的语音提示发出请注视图像左上方的指令后，操作员眼球开始往最左上方移动，当注视停留在最左上方时间超过预定秒数后，则系统把人眼所能看到的最左上方的像素点视为注视点，并把对应的瞳孔中心图像坐标记为

；

步骤33：当听到主端语音交互单元的语音提示发出请注视图像左下方的指令后，操作员眼球开始往最左下方移动，当注视停留在最左下方时间超过预定秒数后，则系统把人眼所能看到的最左下方的像素点视为注视点，并把对应的瞳孔中心图像坐标记为

；

步骤34：当听到主端语音交互单元的语音提示发出请注视图像右下方的指令后，操作员眼球开始往最右下方移动，当注视停留在最右下方时间超过预定秒数后，则系统把人眼所能看到的最右下方的像素点视为注视点，并把对应的瞳孔中心图像坐标记为

；

步骤35：当听到主端语音交互单元的语音提示发出请注视图像右上方的指令后，操作员眼球开始往最右上方移动，当注视停留在最右上方时间超过预定秒数后，则系统把人眼所能看到的最右上方的像素点视为注视点，并把对应的瞳孔中心图像坐标记为

；

，其中

表示长度，

表示宽度。

具体的，所述步骤4中建立瞳孔中心运动范围

与图像显示单元的图像显示区域

的映射关系，即视线点坐标提取算法的方法，具体为：

瞳孔中心运动范围

与图像显示单元的图像显示区域

具有数学上的函数映射关系，找到这个函数映射关系便能够快速精确的确定人眼当前所注视的目标点。

步骤41：在瞳孔中心运动范围

内及边界上均匀确定100个像素点的坐标

，其中

1,2,3...100；

步骤42：在图像显示单元的图像显示区域

内及边界上均匀确定100个对应的像素点坐标

,其中

1,2,3...100；

与图像显示单元的图像显示区域

对应坐标的函数关系式：

其中，

，

根据不同的用户以及系统初始化阶段进行设定；

，其中，

。

建立如下需要满足的条件：

；

与图像显示单元的图像显示区域

对应坐标的函数关系，记为视线点坐标提取算法。

校准后，对机器人进行控制的方法如下，如图6所示，包括如下步骤：

S1：把模式选择按钮拨动到“运行”档位，建立主从端的无线网络通道，系统开始正式工作，并通过语音给予操作者提示；

S2：主端眼动追踪控制系统开始获取由从端机器人末端执行器的单目视觉传感器拍摄的图像输出显示在图像显示单元；

S3：当听到开始主端人机交互单元发出选取跟踪目标的语音提示时，红外摄像单元开始不断获取操作员的眼球信息；

S4：采集操作员的语音指令，判断是否把注视点

S5：开启目标检测算法对此注视点

进行图像处理，统计该幅图像的所有

像素点信息，建立局部颜色直方图

；

S8：将得到的图像特征点

与图像中心坐标

；

S9：视觉伺服控制单元接收到图像特征误差

之后，以误差均方差

为目标函数，对于固定时间增量，使得目标函数最小化，可得：

其中，

，

为复合图像雅各比矩阵，即

。其中，

为图像雅各比矩阵，

为机械臂雅各比矩阵；

：

；

S11：将机器人下一时刻的期望关节变量

；

S12：将步骤S10得到的各关节力矩

具体的，所述步骤S5中的目标检测算法，具体为：

S501：首先，选择RGB彩色空间作为该算法的颜色空间；

S502：然后，建立基于注视点

处的局部颜色直方图

，该直方图表示的是基于彩色图像RGB空间的三个颜色分量；

S503：统计关于

点的

近邻域的颜色特征。像素点

的

近邻域定义为，

，其中，

为图像中的两个近邻像素点。根据同一区域像素点之间的相似性大于不同区域像素点之间的相似性这个规则选取种子点，建立基于注视点

的邻域相似性指标quota，定义为：

其中，

表示集合

中所有元素的数目，

其中，

为像素点

的局部颜色直方图，

为像素点

与像素点

之间的欧氏距离，

为设定的像素点颜色特征变化的阈值，

为大于0的某一正数；

S504：当quota≥0.5时，认为像素点

附近颜色变化缓慢，属于目标物体内部。当quota<0.5时，认为像素点

周围颜色变化迅速，属于目标物体与背景之间的过渡区域；

S505：把quota≥0.5的像素点作为种子点，得到的所有种子点在

具体的，所述步骤S6中确定包裹目标区域的最小矩形的方法，具体为：

S601：提取并计算目标物体区域的最左边区域的像素点，记为

；

S602：提取并计算目标物体区域的最下边区域的像素点，记为

；

S603：提取并计算目标物体区域的最右边区域的像素点，记为

；

S604：提取并计算目标物体区域的最上边区域的像素点，记为

；

，作为该目标物体区域的最小长度，记为

；计算并记录该目标最上、下像素点之差

，作为该目标物体区域的最小宽度，记为

；记包含该目标物体区域的最小范围为

。

具体的，所述步骤S7中跟踪目标过程中，实时计算该矩形边框的中心点坐标的方法，具体为：

S701：计算该最小矩形边框的左上角的像素点，记为

；

S702：计算该最小矩形边框的左下角的像素点，记为

；

S703：计算该最小矩形边框的右下角的像素点，记为

；

S704：计算该最小矩形边框的右上角的像素点，记为

；

S705：计算该最小矩形边框的中心点坐标

，作为该目标物体的图像特征点

，即

。

其中，

，

。

具体的，所述步骤S9中的以误差均方差

为目标函数的最小化方法，具体为：

S901：定义误差均方差

目标函数，将目标函数展开为关于微小增量

的泰勒级数:

其中，

为关节角增量，

为时间增量；

S902：略去上式右端高阶项。对于固定采样周期，使得目标函数最小化的条件为:

也即：

最终可得：

令

，其中

为复合雅各比矩阵，即

，其中，

为图像雅各比矩阵，

为机械臂雅各比矩阵。

可得

中各项为：

；

S903：当关节角增量为

时，目标函数将沿期望方向变化，也即:

其中

时刻期望关节角增量。

综上，

令

，可得：

；

S904：忽略掉

项后，我们得到基于高斯牛顿法的加入比例因子的控制律：

其中，

可以用

表示，称为复合图像雅可比矩阵的Moore-Penrose伪逆，且有

,

为加入的比例因子。

具体的，所述步骤S9中复合图像雅各比矩阵的求取涉及到一种眼在手机器人无标定视觉伺服控制的复合图像雅可比矩阵的Broyden在线更新方法，Broyden方法是拟牛顿法中求解雅克比矩阵的一种方法，该方法只在初始时刻计算复合图像雅克比矩阵，其后在每一步迭代过程中更新雅可比矩阵，具体为：

时，达到期望位置附近，将误差

在

展开为泰勒级数:

；

S913：省略掉高阶项，可得：

进一步合并整理得：

其中，

；

S914：将式：

等式的两边分别减去：

得：

即：

转置以后，整理得：

；

S915：对于图像特征差

给定初始关节角

,初始复合雅可比矩阵

,给出基于动态Broyden法雅各比矩阵在线更新算法：

。

本具体实施方式还公开了一种电子设备，这种电子设备包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成所述的基于眼动追踪可穿戴设备的机器人远程控制方法中的步骤。

本具体实施方式还公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成所述的基于眼动追踪可穿戴设备的机器人远程控制方法中的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已经示出和描述了本发明的具体实施方式，对于本领域的普通技术人员而言，可以理解在不脱离发明的原理和精神的情况下可以对这些具体实施方式进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于多模态交互技术的机器人远程控制方法，其特征在于，

S2：主端多模态交互控制系统开始获取机器人拍摄的图像，并通过图像显示单元进行显示；

S4：采集操作员的语音指令，判断是否把注视点

S5：开启目标检测算法对此注视点

；

S8：将得到的图像特征点

与图像中心坐标

；

S9：视觉伺服控制单元接收到图像特征误差

之后，以误差均方差

其中，

，

为复合图像雅各比矩阵，即

，其中，

为图像雅各比矩阵，

为机械臂雅各比矩阵；

：

；

S11：将机器人下一时刻的期望关节变量

；

S12：将步骤S10得到的各关节力矩

2.根据权利要求1所述的基于多模态交互技术的机器人远程控制方法，其特征在于，

进入S1的运行模式之前，需要对主端多模态交互控制系统进行校准，校准步骤如下：

步骤2：开启红外摄像单元，当听到语音交互单元发出的语音提示后，人眼不断移动，红外摄像单元开始不断获取人的眼动信息，并通过一种瞳孔中心定位算法实时检测瞳孔中心的图像坐标；

步骤4：瞳孔中心运动范围确定后，建立瞳孔中心运动范围与图像显示单元的图像显示区域的映射关系。

3.根据权利要求2所述的基于多模态交互技术的机器人远程控制方法，其特征在于，

所述步骤2中瞳孔中心定位算法的具体步骤为：

步骤21：对采集到的眼部图像进行预处理，首先，采用平均值法对眼部图像进行灰度化处理;然后，采用NL-Means算法对灰度化处理后的可能带有噪声干扰的眼部图像进行去噪处理；

4.根据权利要求2所述的基于多模态交互技术的机器人远程控制方法，其特征在于，

步骤3中，确定瞳孔中心运动范围的具体步骤包括：

；

；

；

；

，其中

表示长度，

表示宽度。

5.根据权利要求4所述的基于多模态交互技术的机器人远程控制方法，其特征在于，

步骤4中建立瞳孔中心运动范围

与图像显示单元的图像显示区域

的映射关系，即视线点坐标提取算法的方法，具体为：

步骤41：在瞳孔中心运动范围

内及边界上均匀确定100个像素点的坐标

，其中

1,2,3...100；

步骤42：在图像显示单元的图像显示区域

内及边界上均匀确定100个对应的像素点坐标

,其中

1,2,3...100；

与图像显示单元的图像显示区域

对应坐标的函数关系式：

其中，

，

根据不同的用户以及系统初始化阶段进行设定；

，其中，

，

建立如下需要满足的条件：

；

与图像显示单元的图像显示区域

对应坐标的函数关系，记为视线点坐标提取算法。

6.根据权利要求1所述的基于多模态交互技术的机器人远程控制方法，其特征在于，

所述S5中的目标检测算法，具体为：

S501：选择RGB彩色空间作为该算法的颜色空间；

S502：建立基于注视点

处的局部颜色直方图

，该直方图表示的是基于彩色图像RGB空间的三个颜色分量；

S503：统计关于

点的

近邻域的颜色特征；像素点

的

近邻域定义为，

，其中，

的邻域相似性指标quota，定义为：

其中，

表示集合

中所有元素的数目，

其中，

为像素点

的局部颜色直方图，

为像素点

与像素点

之间的欧氏距离，

为设定的像素点颜色特征变化的阈值，

为大于0的某一正数；

S504：当quota≥0.5时，认为像素点

周围颜色变化迅速，属于目标物体与背景之间的过渡区域；

S505：把quota≥0.5的像素点作为种子点，得到的所有种子点在

7.根据权利要求1所述的基于多模态交互技术的机器人远程控制方法，其特征在于，

在S6中确定包裹目标区域的最小矩形的方法，具体为：

S601：提取并计算目标物体区域的最左边区域的像素点，记为

；

S602：提取并计算目标物体区域的最下边区域的像素点，记为

；

S603：提取并计算目标物体区域的最右边区域的像素点，记为

；

S604：提取并计算目标物体区域的最上边区域的像素点，记为

；

，作为该目标物体区域的最小长度，记为

；计算并记录该目标最上、下像素点之差

，作为该目标物体区域的最小宽度，记为

；记包含该目标物体区域的最小范围为

；

S701：计算该最小矩形边框的左上角的像素点，记为

；

S702：计算该最小矩形边框的左下角的像素点，记为

；

S703：计算该最小矩形边框的右下角的像素点，记为

；

S704：计算该最小矩形边框的右上角的像素点，记为

；

S705：计算该最小矩形边框的中心点坐标

，作为该目标物体的图像特征点

，即

；

其中，

，

。

8.根据权利要求1所述的基于多模态交互技术的机器人远程控制方法，其特征在于，

在S9中的以误差均方差

为目标函数的最小化方法，具体为：

S901：定义误差均方差

目标函数，将目标函数展开为关于微小增量

的泰勒级数:

其中，

为关节角增量，

为时间增量；

S902：略去上式右端高阶项，对于固定采样周期，使得目标函数最小化的条件为:

令

，其中

为复合雅各比矩阵，即

，其中，

为图像雅各比矩阵，

为机械臂雅各比矩阵；

可得

中各项为：

；

S903：当关节角增量为

时，目标函数将沿期望方向变化，也即:

其中

时刻期望关节角增量；

综上，

令

，可得：

；

S904：忽略掉

项后，得到基于高斯牛顿法的加入比例因子的控制律：

其中，

可以用

表示，称为复合图像雅可比矩阵的Moore-Penrose伪逆，且有

,

为加入的比例因子。

9.根据权利要求8所述的基于多模态交互技术的机器人远程控制方法，其特征在于，

时，达到期望位置附近，将误差

在

展开为泰勒级数:

；

S912：因为在期望点附近，复合图像雅各比矩阵已经近似趋于不变了，所以可用上式计算系统在前一时刻的系统误差，即：

S913：省略掉高阶项，可得：

进一步合并整理得：

其中，

；

S914：将式：

等式的两边分别减去：

得：

即：

转置以后，整理得：

；

S915：对于图像特征差

给定初始关节角

,初始复合雅可比矩阵

,给出基于动态Broyden法雅各比矩阵在线更新算法：

。