CN106125925A

CN106125925A - 基于手势和语音控制的智能抓捕方法

Info

Publication number: CN106125925A
Application number: CN201610459956.7A
Authority: CN
Inventors: 杜广龙; 林思洁; 姜思君; 邵亨康; 陈燕娇; 黄凯鹏; 叶玉琦; 雷颖仪; 张平
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2016-06-20
Filing date: 2016-06-20
Publication date: 2016-11-16
Anticipated expiration: 2036-06-20
Also published as: CN106125925B

Abstract

本发明提供了一种基于手势及语音控制的机器人智能抓捕算法，包括步骤（1）手势快速定位；（2）基于自然语言理解的辅助定位定姿；（3）分割定位目标物；（4）路劲规划。本发明使用了基于智能感知的自然人机交互技术，当人手指向目标物并下达包含物体信息的语音抓捕命令时，机器人能在该语音信息的辅助下通过手指指向来快速定位目标物，并且自动规划出一条路径来抓捕物体，接着，在机器人靠近目标物时，还可通过语音命令来精细调整目标物的定位。这样，借助语音与手势的结合使得机器人的控制更加灵活方便并且能工作在更为复杂的环境中。

Description

基于手势和语音控制的智能抓捕方法

技术领域

本发明属于机器人运动领域，特别涉及一种基于手势和语音控制的智能抓捕方法。

背景技术

近几年，机器人被越来越多的应用到了生活、生产中去。尤其在工业生产中，在许多人类不适合出现在的场合，本发明使用机器人代替人类进行作业，以保护人类免受伤害。为完成任务，机器需要在人的远程手动操控下，或是在预设程序的操纵下完成任务。但遥操作使用的数据传输总线等等常常会妨碍与之一齐工作的工作人员作业，生产中的工作效率也会因这些细节而有所下降。机器在预设程序的操纵下进行工作时，也会有一些细微的环境因素的变化，会导致机器工作效率下降，甚至是对材料、对机器造成毁灭性的伤害。同时，通过预先设定的程序，人使用指令进行操作时，也会造成机器的工作效率大幅度下降，有时会导致机器的某关节旋转角度大于阈值。同时，依照预先设定的值进行路径规划，会导致机器撞上一些移动的物体，损伤机器或是损害在机器附近的物体、人。

这篇发明提出的是一种机器基于视觉、听觉智能作业，通过实时获取外界物体全局位置信息，进行实时的、智能的路径规划和抓取指定物品的方法。机器先通过人手手指指向大致的确定目标物体的位置，同时可通过人的语言描述获取目标物体的位置信息、目标物体的颜色信息来对目标物体进行辅助定位操作。接着，通过对已获取的静止物体与运动物体的位置信息进行分析，机器智能的进行路径规划，在它的运动范围内，智能的调整机械臂的维度，以抓取物体，在此过程中，操作者还可使用语音指令操作机器，精确调整目标物的定位，以确定正确的目标物体。控制机器的人只需要使用自然语言与动作对机器下达指令，被控制的机器便会进行对信息的获取，并自发的分析实时获取到的信息，进行定位、抓捕、将自然语言分割为许多个短小的指令，使机器进行作业，并智能的规避路径上的动态的、静止的障碍，实时分析计算进行路径规划，在尽可能减少不必要的碰撞的情况下，完成作业。

发明内容

这个发明提出了一种允许操作者通过手指指向以及语音来控制机器人抓捕物体的方法。这种方法使用了基于智能感知的自然人机交互技术，当人手指向目标物并下达包含物体信息的语音抓捕命令时，机器人能在该语音信息的辅助下通过手指指向来快速定位目标物，并且自动规划出一条路径来抓捕物体，接着，在机器人靠近目标物时，还可通过语音命令(如向左或向右移动多少厘米)来精细调整目标物的定位。这样，借助语音与手势的结合使得机器人的控制更加灵活方便并且能工作在更为复杂的环境中。

本发明包括如下步骤：

S1：手势快速定位

S2：基于自然语言理解的辅助定位定姿

S3：分割定位目标物

S4：路劲规划

所述S1步骤包括以下步骤：

为了使得操作者对机器人的控制更加灵活简便，及缩短机器人的定位时间，本方法采用了基于手势的快速定位，利用手指指向，机器人能初步定位目标物，接着可通过语音控制来精细调整目标物的位置。在此，本发明先获取手势信息以供后续定位使用。

3)手势获取

通过Kinect工具可获得人手的RGB图像及深度图像，由此可实现人手的定位和跟踪，同时，Kinect可检测到人体的25个关节点的三维坐标信息，由于本发明只需要检测手指的指向，因此只需要4个关节点的坐标信息，即右手心、右手指尖、左手心及左手指尖。

2)精确手指指向

当人手不是静止时，可通过角速度来估计人手指向，但在估计方向时，误差会积累，因此为了减少误差，这里使用改进的粒子滤波(IPF)算法来实现数据融合的优化。在时间t_k时，后验密度的近似值如下所示：

p (x_{k} | z_{1 : k}, u_{0, k - 1}) \approx Σ_{i = 1}^{N} w_{j, k} δ (x_{k} - x_{i, k})

其中x_i,k是在时间t_k时第i个状态的粒子，N是状态数量，w_j,k是第j个粒子的归一化权重，δ(·)是迪拉克δ函数。每个粒子的权重可通过相邻两个节点之间的长度来计算，而对于每个人来说，相邻骨架点之间的长度是恒定的，可通过如下计算得出：

其中，M_S是骨架相邻点集，P_φ是关节点φ的位置，是关节点的位置，是关节点φ和之间的距离，JD是节点在第S个方向上迭代积累的位置差异，所以第i个粒子的权重可通过如下计算得到：

ω_{s}^{i} &Proportional; p (J D | x_{P F, s}^{i})

使用集合卡尔曼滤波可近似求得状态变量的后验密度函数，通过给定的初始化的集合能计算出预测的集合如下所示：

x_{i, k}^{f} = f (x_{i, k - 1}) + w_{i, k - 1}, w_{i, k - 1} ~ N (0, Q_{k - 1})

其中，f(x_i,k-1)是t_k-1时粒子第i个状态的后验密度函数，w_k是模型的误差，Q_k-1是模型误差的协方差，通过上述式子，能获得卡尔曼增益，接着由此可计算出分析粒子。

为了提高重采样后粒子的多样性，在此本发明使用了马尔可夫链蒙特卡罗(MCMC)方法。在Metropolis Hasting算法中，只有当u≤a时重采样粒子才会移动到该粒子处。经MCMC步骤之后，由于新的粒子有更接近后验概率密度函数(pdf)的分布，所以他们会更加多样化。

所述S2包括如下步骤：

在本方法中，若操作者下达的语音抓捕命令中包含目标物的相关信息(如颜色信息)，则机器人可利用此信息来过滤无关物，只留下可能的目标物，由此作为手势定位的范围，可大大提高目标物识别的准确度，当目标物与其他物体位置相近时，可利用颜色差别来正确识别出目标物。另外，在机器人抓取物体的过程中，可利用语音控制来精细调整目标物的定位，如控制其向左或右移动，向前或后移动一定距离，这样便能保证机器人准确抓取到目标物。为实现此过程，在此设计了相应的指令控制体系及自然语言理解算法。

1)控制指令设计

机器人对语音的识别使用三层人机交互系统来实现。由于Kinect能获取语音信息并对其识别，所以只需重点研究交互层中的意图理解模块，即将自然语言指令转换成相应的机器人控制指令，为此需进行控制指令体系设计。可引入5个属性变量(V_obj,V_op,V_hand,V_dir,V_val)来设计控制指令，其中V_obj是操作对象，V_op是对目标物的操作，当不需要用到手势时，V_hand会被置零，而V_dir,V_val是操作携带的一些调整值，V_dir表方向，V_val则可以是调整的距离值或是操作对象的颜色信息。通过这五个变量可设计出多条指令。

4)自然语言指令理解

在此方法中，将自然语言指令理解分为测试过程和训练过程两部分。在训练过程中需从训练语料库中提取出文本特征并借此获得最大熵分类模型，该模型可作为测试过程中分类器的决策策略。在测试过程中，则利用该最大熵模型对测试语料库中文本表示成的文本特征向量进行分类，最后便可得到相应的控制指令并输出给机器人。其中，提取文本特征的过程是先统计训练语料库中所有出现的词，如果某语料文本中有k个词，则可将其表示成k维的特征向量，接着使用TF‐IDF对特征向量进行加权，其中TF是局部变量，IDF是全局变量。最大熵模型的建立过程如下：

假设文本特征向量x的意图标签是y，则最大熵建模就是对条件概率P(y|x)进行建模以得到分布最均匀的模型。该方法利用条件熵H(p)来衡量P(y|x)分布的均匀性，其计算公式如下：

H (p) = - \underset{x, y}{Σ} \tilde{p} (x) p (y | x) \log p (y | x)

其中是x在训练语料库中的经验分布。接下来需确定约束条件，记一个训练数据库中文本特征向量集合为{x_i,i∈(1,N)}，意图标签集合为{y_j,j∈(1,M)}，为防止数据稀疏，在此引入二值函数f(x,y)，并求得f(x,y)关于经验条件概率分布P(x,y)的期望值及相对于模型条件概率分布P(y|x)的期望值p(f)，令这二者相等，可得最大熵模型的约束条件

p (f) = \tilde{p} (f)

所以最大熵模型的求解可归纳为如下所示：

max H(p)

约束条件

根据拉格朗日乘子算法，可求得在Kulback‐Leibler距离上最接近P(x,y)的概率分布：

p_{*} = \frac{1}{Z (x)} \exp [Σ_{i = 1}^{n} λ_{i} f_{i} (x, y)]

其中p_*是最大熵概率分布，Z(x)为归一化因子，n是特征函数的个数，f_i(x,y)是第i个特征函数，λ_i为其权值，可通过训练数据库上的学习得到，本应用使用GIS算法求解，从而解得概率分布p_*，这样最大熵模型的建立就完成了。

所述S3包括如下步骤：

在借助手势及语音实现目标物的定位之前，得先获取物体的相关数据并借此分割出个物体，Kinect能够获得其面前所有物体的三维彩色点云信息，不过所获得的信息中有大量无用的，可先通过手势指向去除大量无关信息，以减少数据处理量，同时，本方法采用基于体素栅格化下的采样算法来简化计算。

3)物体分割

Kinect获取的点云信息包含了三维信息和颜色信息，结合这两种信息，此方法采用一种基于欧式距离和颜色的区域生长算法来分割点云数据，该算法中关键的两部分是邻近点搜索及颜色的相似度判断。

对于邻近点搜索，本应用采用k‐d树结构来完成。假设M是点云数据集，P(x_p,y_p,z_p)是种子点，λ_d是给定的阈值，那么邻近点搜索就是通过k‐d树的递归遍历，寻找到M的最大子集T，T中的任意一点T_i(x_i,y_i,z_i)都需满足Δd(P,T_i)＜λ_d。

对于颜色相似度的比较，此应用采用基于CIE‐Lab颜色空间来完成，将RGB彩色点云[x,y,x,r,g,b]转换成CIE‐Lab彩色点云[x,y,z,L,a,b]，这样就可通过欧式距离来定义颜色间的相似度。对CIE‐Lab颜色空间中的两点C₁(L₁,a₁,b₁)，C₂(L₂,a₂,b₂)，它们的颜色偏差可定义如下：

{ΔE}_{L a b} (C_{1}, C_{2}) = \sqrt{{(L_{1} - L_{2})}^{2} + {(a_{1} - a_{2})}^{2} + {(b_{1} - b_{2})}^{2}}

对给定的颜色分割阈值λ_c，当ΔE_Lab＜λ_c时，则可认为这两点颜色属性相同，可归为同一类。

4)目标物定位

利用语音和手势相结合的方法来实现目标物的定位，能大大提高定位的准确度及缩短定位时间，操作者的语音信息中可能包含目标物的颜色信息，经过步骤S2后，颜色信息可用指令控制体系中一个属性变量V_val来表示，将其转换成CIE‐Lab颜色空间下的值，假设该值为C_tar，而经分割完毕后的物体颜色为C_obj，对给定的阈值λ，若ΔE_Lab(C_tar,C_obj)＜λ，那么将该物体作为可能的目标物之一，这样本发明便可得到可能目标物的集合N，N中存储物体中心点的位置信息，在此用被分割后的物体点云数据的重心来表示。

接下来将通过手势来定位目标物，经过S1步骤，本发明可获得手势的相关信息，假设人手手心位置为A，指尖位置为B，人手的指向为向量对任一经过颜色比较后得到的可能目标物(若操作者的语音信息不包含目标物颜色信息，则是对环境中的任一物体)，计算人手手心到物体中心O_i的向量则可用向量与间的夹角θ_i来表示物体中心偏离手指指向的程度，本发明将其中θ_i最小的物体作为目标物，借助余弦函数来衡量θ_i值的大小，其计算如下：

\begin{matrix} {cosθ}_{i} = \frac{\overset{&OverBar;}{A B} \cdot \overset{&OverBar;}{{AO}_{i}}}{| \overset{&OverBar;}{A B} | \cdot | \overset{&OverBar;}{{AO}_{i}} |} & θ_{i} &Element; [0, π] \end{matrix}

因为余弦函数在[0,π]是单调递减，所以cosθ_i最大即θ_i最小。若是有多个物体同时满足cosθ_i最大，则选取其中物体中心离手心最近的物体作为目标物。

最后，在机器人靠近目标物时，本发明还可通过语音控制来微调目标物的定位，语音信息中可包含目标位置调整的方向及距离，在指令体系中表示为V_dir,V_val两个属性变量，将此自然语言信息转化成相应的控制指令后，机器人便能及时做出调整。这样，通过语音与手势的相互结合来定位目标，使得机器人在复杂的环境中工作时能够更加精确的识别出目标物。

所述S4包括如下步骤：

智能的全局路径规划可以帮助机器减少与周围静止物体、运动物体的碰撞几率，减小机器损耗，保障在机器旁工作的人的安全。实时获取数据处理数据，能使机器对运动物体的路径预判更为精确，帮助机器更为安全的完成作业。如果将此技术用于工业生产中，能够提高工作人员的工作的安全性、降低可能给机器或人带来的损害，同时使人与机器更有效率的完成作业。

3)预处理阶段

利用均匀采样方法构建路径图的节点，采集所指示的点周的与描述颜色相似的点，用伪范数空间识别每个节点的最邻近点，建立路线图；首先，计算出2个连续的节点之间的段是否会发生碰撞，并将部分连接段作为路线图的一部分；接着沿机器的离散节点边缘，检查配置的路线图是否可能发生自碰撞、发生与其他物体的碰撞。最后用以下公式定义直接工作空间：

d_{\infty}^{w} (p, q) = \underset{a &Element; A}{m a x} | | a (p) - a (q) | |

A是机器人表面上的所有参考点集；a(p)是参考点的位置，表示在a工作区内的机器人在配置p中的概率，任何参考点可能会在2个检查配置之间移位；

4)路径规划阶段

经过预处理，本发明得到了组成障碍的点集。本发明算出机器抓取物体能经过的路径，并将每一条与障碍点重合的路径从机器前进的路径上排除，在剩余的路径中，机器智能的选取一条对时间、空间需求较低且安全性较好的路径来完成任务。

同时，机器不停获取外界环境信息，分析外界的静止的物体和运动的物体。机器进行实时的处理，从全局角度获取一切物体信息，获取静止物体的全局位置信息和运动物体的实时的移动方向和移动速度的信息，进行分析。机器计算两点之间距离，计算这个方向运动是否能使自己安全的不发生碰撞的通过。若不能安全通过，则将该条路径从机器所有可能选择的运动路径里去除，若能则保留。最后机器选择耗时最少、绕路最短的路线运动，通过此方法完成作业。

通过进行这样的全局实时路径规划，机器智能的分析周围运动物体的路径信息，并从全局的角度进行实时规划，实现全局避障、实时避障。

本发明相对于现有技术具有如下优点及效果：

本发明提出一种通过手势及语音来控制机器人抓捕物体的方法，通过利用手势进行目标物的快速定位，再借助语音进行辅助定位及精细调整，使得机器人能快速且准确的识别出目标物，同时也使得操作者对机器人的控制更加灵活方便，具有实时性。相对于其他抓捕技术来说，本发明能应用于更为复杂的环境中。

附图说明

图1为实例中基于手势和语音控制的智能抓捕方法的流程图。

具体实施方式

下面结合实施例对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

本发明基于手势及语音控制机器人进行智能抓捕方法包括如下步骤：

S1：手势快速定位

S2：基于自然语言理解的辅助定位定姿

S3：分割定位目标物

S4：路劲规划

所述S1步骤包括以下步骤：

为了使得操作者对机器人的控制更加灵活简便，及缩短机器人的定位时间，本方法采用了基于手势的快速定位，利用手指指向，机器人能初步定位目标物，接着可通过语音控制来精细调整目标物的位置，如图1所示，操作者通过手势及语音来控制机器人。在此，本发明先获取手势信息以供后续定位使用。

5)手势获取

通过Kinect工具可获得人手的RGB图像及深度图像，由此可实现人手的定位和跟踪，同时，Kinect可检测到人体的25个关节点的三维坐标信息，由于本发明只需要检测手指的指向，因此只需要4个关节点的坐标信息，即右手心、右手指尖、左手心及左手指尖，我们将其设为(P_r1,P_r2,P_l1,P_l2)，如图1所示，Kinect输出(P_r1,P_r2,P_l1,P_l2)到IPF算法，，然后可得到精确后的手势信息(P_r1,P_r2,P_l1,P_l2)以用于手势快速定位。

2)精确手指指向

p (x_{k} | z_{1 : k}, u_{0, k - 1}) \approx Σ_{i = 1}^{N} w_{j, k} δ (x_{k} - x_{i, k})

其中，M_S是骨架相邻点集，P_φ是关节点φ的位置，是关节点的位置，在本方法中为P_r1,P_r2或P_l1,P_l2，是关节点φ和之间的距离，在此我们需求得L_r1,r2,L_l1,l2,JD是节点在第S个方向上迭代积累的位置差异，所以第i个粒子的权重可通过如下计算得到：

ω_{s}^{i} &Proportional; p (J D | x_{P F, s}^{i})

使用集合卡尔曼滤波可近似求得状态变量后验密度函数，通过给定的初始化的集合能计算出预测的集合如下所示：

x_{i, k}^{f} = f (x_{i, k - 1}) + w_{i, k - 1}, w_{i, k - 1} ~ N (0, Q_{k - 1})

所述S2包括如下步骤：

1)控制指令设计

机器人对语音的识别使用三层人机交互系统来实现。由于Kinect能获取语音信息并对其识别，所以只需重点研究交互层中的意图理解模块，即将自然语言指令转换成相应的机器人控制指令，为此需进行控制指令体系设计。可引入5个属性变量(V_obj,V_op,V_hand,V_dir,V_val)来设计控制指令，其中V_obj是操作对象，V_op是对目标物的操作，当不需要用到手势时，V_hand会被置零，而V_dir,V_val是操作携带的一些调整值，V_dir表方向，V_val则可以是调整的距离值或是操作对象的颜色信息。通过这五个变量可设计出多条指令，如图1所示，Kinect获得的语音信息经自然语言理解算法后转换成由五个属性变量组成的控制指令，用以辅助定位。

6)自然语言指令理解

H (p) = - \underset{x, y}{Σ} \tilde{p} (x) p (y | x) \log p (y | x)

p (f) = \tilde{p} (f)

所以最大熵模型的求解可归纳为如下所示：

max H(p)

\begin{matrix} s . t . & \tilde{p} (f_{i}) = p (f_{i}), i = 1, 2, ... n \end{matrix}

p_{*} = \frac{1}{Z (x)} \exp [Σ_{i = 1}^{n} λ_{i} f_{i} (x, y)]

所述S3包括如下步骤：

通过手势快速定位及借助语音辅助定位，我们可以实现目标物的定位，如图1所示，而在实现目标物的定位之前，得先获取物体的相关数据并借此分割出各个物体，Kinect能够获得其面前所有物体的三维彩色点云信息，不过所获得的信息中有大量无用的，可先通过手势指向去除大量无关信息，以减少数据处理量，同时，本方法采用基于体素栅格化下的采样算法来简化计算。

5)物体分割

{ΔE}_{L a b} (C_{1}, C_{2}) = \sqrt{{(L_{1} - L_{2})}^{2} + {(a_{1} - a_{2})}^{2} + {(b_{1} - b_{2})}^{2}}

6)目标物定位

利用语音和手势相结合的方法来实现目标物的定位，能大大提高定位的准确度及缩短定位时间，操作者的语音信息中可能包含目标物的颜色信息，经过步骤S2后，颜色信息可用指令控制体系中一个属性变量V_val来表示，如当我们下令抓捕红色物体时，V_val会存储目标物的RGB颜色值(255，0，0)，将其转换成CIE‐Lab颜色空间下的值，假设该值为C_tar，而经分割完毕后的物体颜色为C_obj，对给定的阈值λ，若ΔE_Lab(C_tar,C_obj)＜λ，那么将该物体作为可能的目标物之一，这样本发明便可得到可能目标物的集合N，N中存储物体中心点的位置信息，在此用被分割后的物体点云数据的重心来表示。

接下来将通过手势来定位目标物，经过S1步骤，本方法可获得手势的相关信息，假设人手手心位置为A，指尖位置为B，人手的指向为向量对任一经过颜色比较后得到的可能目标物(若操作者的语音信息不包含目标物颜色信息，则是对环境中的任一物体)，计算人手手心到物体中心O_i的向量则可用向量与间的夹角θ_i来表示物体中心偏离手指指向的程度，本发明将其中θ_i最小的物体作为目标物，借助余弦函数来衡量θ_i值的大小，其计算如下：

\begin{matrix} {cosθ}_{i} = \frac{\overset{&OverBar;}{A B} \cdot \overset{&OverBar;}{{AO}_{i}}}{| \overset{&OverBar;}{A B} | \cdot | \overset{&OverBar;}{{AO}_{i}} |} & θ_{i} &Element; [0, π] \end{matrix}

最后，在机器人靠近目标物时，本方法还可通过语音控制来微调目标物的定位，语音信息中可包含目标位置调整的方向及距离，在指令体系中表示为V_dir,V_val两个属性变量，将此自然语言信息转化成相应的控制指令后，机器人便能及时做出调整。这样，通过语音与手势的相互结合来定位目标，使得机器人在复杂的环境中工作时能够更加精确的识别出目标物。

所述S4包括如下步骤：

在识别定位目标物之后，我们便可以规划出一条路径来实施抓捕了，如图1所示。智能的全局路径规划可以帮助机器减少与周围静止物体、运动物体的碰撞几率，减小机器损耗，保障在机器旁工作的人的安全。实时获取数据处理数据，能使机器对运动物体的路径预判更为精确，帮助机器更为安全的完成作业。如果将此技术用于工业生产中，能够提高工作人员的工作的安全性、降低可能给机器或人带来的损害，同时使人与机器更有效率的完成作业。

5)预处理阶段

d_{\infty}^{w} (p, q) = \underset{a &Element; A}{m a x} | | a (p) - a (q) | |

6)路径规划阶段

上述实例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所做的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于手势和语音控制的智能抓捕方法，其特征在于包括如下步骤：

S1：手势快速定位，采用基于手势的快速定位，利用手指指向，机器人能初步定位目标物；

S2：基于自然语言理解的辅助定位定姿，若操作者下达的语音抓捕命令中包含目标物的相关信息，则机器人利用此信息来过滤无关物，只留下可能的目标物，由此作为手势定位的范围，当目标物与其他物体位置相近时，利用颜色差别来正确识别出目标物；另外，在机器人抓取物体的过程中，可利用语音控制来精细调整目标物的定位；

S3：分割定位目标物，在借助手势及语音实现目标物的定位之前，得先获取物体的相关数据并借此分割出各个物体，Kinect能够获得其面前所有物体的三维彩色点云信息，不过所获得的信息中有大量无用的，可先通过手势指向去除大量无关信息，以减少数据处理量；

S4：路劲规划，通过全局实时路径规划，机器智能的分析周围运动物体的路径信息，并从全局的角度进行实时规划，实现全局避障、实时避障。

2.根据权利要求1所述的基于手势和语音控制的智能抓捕方法，其特征在于步骤S1包括：

1)手势获取

通过Kinect工具获得人手的RGB图像及深度图像，由此实现人手的定位和跟踪，同时，Kinect可检测到人体的25个关节点的三维坐标信息，本步骤需要检测手指的指向，只需要4个关节点的坐标信息，即右手心、右手指尖、左手心及左手指尖；

2)精确手指指向

当人手不是静止时，可通过角速度来估计人手指向，但在估计方向时，误差会积累，使用改进的粒子滤波(IPF)算法来实现数据融合的优化；在时间t_k时，后验密度的近似值如下所示：

p (x_{k} | z_{1 : k}, u_{0, k - 1}) \approx Σ_{i = 1}^{N} w_{j, k} δ (x_{k} - x_{i, k})

其中x_i,k是在时间t_k时第i个状态的粒子，N是状态数量，w_j,k是第j个粒子的归一化权重，δ(·)是迪拉克δ函数；每个粒子的权重可通过相邻两个节点之间的长度来计算，而对于每个人来说，相邻骨架点之间的长度是恒定的，可通过如下计算得出：

其中，M_S是骨架相邻点集，P_φ是关节点φ的位置，是关节点的位置，是关节点φ和之间的距离，JD是节点在第S个方向上位置差异的迭代积累，所以第i个粒子的权重可通过如下计算得到：

ω_{s}^{i} &Proportional; p (J D | x_{P F, s}^{i})

使用集合卡尔曼滤波可近似求得状态变量的后验概率密度函数，通过给定的初始化的集合能计算出预测的集合如下所示：

x_{i, k}^{f} = f (x_{i, k - 1}) + w_{i, k - 1}, w_{i, k - 1} ~ N (0, Q_{k - 1})

为了提高重采样后粒子的多样性，采用马尔可夫链蒙特卡罗(MCMC)方法；在Metropolis Hasting算法中，只有当u≤a时重采样粒子才会移动到该粒子处；经MCMC步骤之后，新的粒子更接近后验概率密度函数(pdf)的分布。

3.根据权利要求1所述的基于手势和语音控制的智能抓捕方法，其特征在于所述步骤S2包括：

1)控制指令设计

机器人对语音的识别使用三层人机交互系统来实现，由于Kinect能获取语音信息并对其识别，只需将自然语言指令转换成相应的机器人控制指令，为此需进行控制指令体系设计，引入5个属性变量(V_obj,V_op,V_hand,V_dir,V_val)来设计控制指令，其中V_obj是操作对象，V_op是对目标物的操作，当不需要用到手势时，V_hand会被置零，而V_dir,V_val是操作携带的调整值，V_dir表方向，V_val则是调整的距离值或是操作对象的颜色信息；通过这五个变量能设计出多条指令；

2)自然语言指令理解

将自然语言指令理解分为测试过程和训练过程两部分；在训练过程中需从训练语料库中提取出文本特征并借此获得最大熵分类模型，该模型作为测试过程中分类器的决策策略；在测试过程中，则利用该最大熵模型对测试语料库中文本表示成的文本特征向量进行分类，最后便可得到相应的控制指令并输出给机器人；其中，提取文本特征的过程是先统计训练语料库中所有出现的词，如果某语料文本中有k个词，则可将其表示成k维的特征向量，接着使用TF‐IDF对特征向量进行加权，其中TF是局部变量，IDF是全局变量；最大熵模型的建立过程如下：

假设文本特征向量x的意图标签是y，则最大熵建模就是对条件概率P(y|x)进行建模以得到分布最均匀的模型；利用条件熵H(p)来衡量P(y|x)分布的均匀性，其计算公式如下：

H (p) = - \underset{x, y}{Σ} \tilde{p} (x) p (y | x) \log p (y | x),

其中是x在训练语料库中的经验分布；接下来需确定约束条件，记一个训练数据库中文本特征向量集合为{x_i,i∈(1,N)}，意图标签集合为{y_j,j∈(1,M)}，为防止数据稀疏，在此引入二值函数f(x,y)，并求得f(x,y)关于经验条件概率分布P(x,y)的期望值及相对于模型条件概率分布P(y|x)的期望值p(f)，令这二者相等，可得最大熵模型的约束条件

p (f) = \tilde{p} (f)

所以最大熵模型的求解可归纳为如下所示：

max H(p)

约束条件

p_{*} = \frac{1}{Z (x)} \exp [Σ_{i = 1}^{n} λ_{i} f_{i} (x, y)]

其中p_*是最大熵概率分布，Z(x)为归一化因子，n是特征函数的个数，f_i(x,y)是第i个特征函数，λ_i为其权值，可通过训练数据库上的学习得到，使用GIS算法求解，从而解得概率分布p_*，完成最大熵模型的建立。

4.根据权利要求1所述的基于手势和语音控制的智能抓捕方法，其特征在于步骤S3包括：

1)物体分割

Kinect获取的点云信息包含了三维信息和颜色信息，结合这两种信息，采用一种基于欧式距离和颜色的区域生长算法来分割点云数据，该算法中关键的两部分是邻近点搜索及颜色的相似度判断；

对于邻近点搜索，采用k‐d树结构来完成；假设M是点云数据集，P(x_p,y_p,z_p)是种子点，λ_d是给定的阈值，那么邻近点搜索就是通过k‐d树的递归遍历，寻找到M的最大子集T，T中的任意一点T_i(x_i,y_i,z_i)都需满足Δd(P,T_i)＜λ_d；

对于颜色相似度的比较，采用基于CIE‐Lab颜色空间来完成，将RGB彩色点云[x,y,x,r,g,b]转换成CIE‐Lab彩色点云[x,y,z,L,a,b]，这样就可通过欧式距离来定义颜色间的相似度；对CIE‐Lab颜色空间中的两点C₁(L₁,a₁,b₁)，C₂(L₂,a₂,b₂)，它们的颜色偏差可定义如下：

{ΔE}_{L a b} (C_{1}, C_{2}) = \sqrt{{(L_{1} - L_{2})}^{2} + {(a_{1} - a_{2})}^{2} + {(b_{1} - b_{2})}^{2}}

对给定的颜色分割阈值λ_c，当ΔE_Lab＜λ_c时，则可认为这两点颜色属性相同，可归为同一类；

2)目标物定位

利用语音和手势相结合的方法来实现目标物的定位，能大大提高定位的准确度及缩短定位时间，操作者的语音信息中可能包含目标物的颜色信息，经过步骤S2后，颜色信息能用指令控制体系中一个属性变量V_val来表示，将其转换成CIE‐Lab颜色空间下的值，假设该值为C_tar，而经分割完毕后的物体颜色为C_obj，对给定的阈值λ，若ΔE_Lab(C_tar,C_obj)＜λ，那么将该物体作为可能的目标物之一，得到可能目标物的集合N，N中存储物体中心点的位置信息，在此用被分割后的物体点云数据的重心来表示；

接下来将通过手势来定位目标物，经过步骤S1，已获得手势的相关信息，假设人手手心位置为A，指尖位置为B，人手的指向为向量对任一经过颜色比较后得到的可能目标物，若操作者的语音信息不包含目标物颜色信息，则是对环境中的任一物体，计算人手手心到物体中心O_i的向量则可用向量与间的夹角θ_i来表示物体中心偏离手指指向的程度，将其中θ_i最小的物体作为目标物，借助余弦函数来衡量θ_i值的大小，其计算如下：

\begin{matrix} {cosθ}_{i} = \frac{\overset{&OverBar;}{A B} \cdot \overset{&OverBar;}{{AO}_{i}}}{| \overset{&OverBar;}{A B} | \cdot | \overset{&OverBar;}{{AO}_{i}} |} & θ_{i} &Element; [0, π] \end{matrix}

因为余弦函数在[0,π]是单调递减，所以cosθ_i最大即θ_i最小；若是有多个物体同时满足cosθ_i最大，则选取其中物体中心离手心最近的物体作为目标物；

最后，在机器人靠近目标物时，人通过语音控制来微调目标物的定位，语音信息中可包含目标位置调整的方向及距离，在指令体系中表示为V_dir,V_val两个属性变量，将此自然语言信息转化成相应的控制指令后，机器人便能及时做出调整；这样，通过语音与手势的相互结合来定位目标，使得机器人在复杂的环境中工作时能够更加精确的识别出目标物。

5.根据权利要求1所述的基于手势和语音控制的智能抓捕方法，其特征在于步骤S4包括：

1)预处理阶段

d_{\infty}^{w} (p, q) = \underset{a &Element; A}{m a x} | | a (p) - a (q) | |

2)路径规划阶段

经过预处理阶段，得到了组成障碍的点集；算出机器抓取物体能经过的路径，并将每一条与障碍点重合的路径从机器前进的路径上排除，在剩余的路径中，机器智能的选取一条对时间、空间需求较低且安全性较好的路径来完成任务；

同时，机器不停获取外界环境信息，分析外界的静止的物体和运动的物体；机器进行实时的处理，从全局角度获取一切物体信息，获取静止物体的全局位置信息和运动物体的实时的移动方向和移动速度的信息，进行分析；机器计算两点之间距离，计算这个方向运动是否能使自己安全的不发生碰撞的通过；若不能安全通过，则将该条路径从机器所有可能选择的运动路径里去除，若能则保留；最后机器选择耗时最少、绕路最短的路线运动，通过此方法完成作业；