CN103135756A

CN103135756A - 生成控制指令的方法和系统

Info

Publication number: CN103135756A
Application number: CN2011104538791A
Authority: CN
Inventors: 师丹玮; 贺欢
Original assignee: SHENZHEN TOL TECHNOLOGY Co Ltd
Current assignee: Shenzhen Taishan Sports Technology Co.,Ltd.
Priority date: 2011-12-02
Filing date: 2011-12-29
Publication date: 2013-06-05
Anticipated expiration: 2031-12-29
Also published as: CN103135758B; CN103135759B; CN103135755B; CN103135882A; CN103135754A; CN103135755A; CN103135453B; CN103139508A; CN103135883B; CN103136986B; CN103127717A; CN103135453A; CN103135759A; CN103135754B; CN103135881B; CN103135883A; CN103136986A; CN103127717B; CN103135882B; CN103135881A

Abstract

本发明提供了一种生成控制指令的方法和系统，所述方法包括以下步骤：采集包含标记区域的图像；识别标记区域的姿态；生成所述姿态对应的控制指令。本发明通过采集的图像来获取标记区域的姿态，从而获取到对应的控制指令，使得交互设备不需要设置按键和供电装置就能实现生成控制指令。

Description

生成控制指令的方法和系统

【技术领域】

本发明涉及人机交互技术领域，尤其涉及一种生成控制指令的方法和系统。

【背景技术】

人机交互系统通常由交互设备和被控装置组成，通过交互设备生成控制指令，通过有线或无线的方式将控制指令发送到被控装置。传统的交互设备通常都具有按键，例如鼠标，按下按键则产生相应的控制指令，常见的无线鼠标中还设有无线发射装置。然而，传统的生成控制指令的方法中，在交互设备上必须设置按键和供电装置才能生成控制指令，因此交互设备无法做到完全的无源(电源)。

【发明内容】

基于此，有必要提供一种在交互设备上无需设置按键和供电装置也能生成控制指令的生成控制指令的方法。

一种生成控制指令的方法，包括以下步骤：

采集包含标记区域的图像；

识别标记区域的姿态；

生成所述姿态对应的控制指令。

优选的，所述图像为二维图像，所述识别标记区域的姿态的步骤包括：

获取所述图像中与预设颜色模型匹配的像素，对所述获取的像素进行连通域检测，提取检测得到的连通域中的所述标记区域；

获取所述标记区域中的像素坐标，根据所述像素坐标产生所述标记区域的姿态。

优选的，所述图像为三维图像，所述识别标记区域的姿态的步骤包括：

对所述图像进行分割，提取所述图像中的连通域，计算所述连通域的属性值，将所述连通域的属性值与预设的标记区域属性值进行对比，所述标记区域为符合所述预设的标记区域属性值的连通域；

优选的，在所述识别标记区域的姿态的步骤之前，还包括：判断所述图像为二维图像还是为三维图像的步骤；

若所述图像为二维图像，则所述识别标记区域的姿态的步骤包括：

获取所述标记区域中的像素坐标，根据所述像素坐标产生所述标记区域的姿态；

若所述图像为三维图像，则所述识别标记区域产生的姿态的步骤包括：

进一步优选的，所述二维图像为二维红外图像。

进一步优选的，所述标记区域包括第一连续区域和第二连续区域；所述根据所述像素坐标产生所述标记区域的姿态的步骤包括：

根据所述像素坐标计算第一连续区域的重心和第二连续区域的重心，根据所述第一连续区域的重心的像素坐标和所述第二连续区域的重心的像素坐标产生所述连续区域的姿态。

优选的，所述生成所述姿态对应的控制指令的步骤包括：

获取当前帧图像中的所述标记区域的姿态；

根据预设的姿态与控制指令之间的映射关系生成与所述姿态对应的控制指令。

优选的，所述图像为图像序列；所述生成所述姿态对应的控制指令的步骤包括：

获取当前帧图像中的所述标记区域的姿态与上一帧图像中的所述标记区域的姿态之间的相对姿态；

根据预设的相对姿态与控制指令之间的映射关系生成与所述相对姿态对应的控制指令。

此外，还有必要提供一种在交互设备上无需设置按键和供电装置也能生成控制指令的生成控制指令的系统。

一种生成控制指令的系统，包括：

图像采集模块，用于采集包含标记区域的图像；

姿态识别模块，用于识别标记区域的姿态；

指令生成模块，用于生成所述姿态对应的控制指令。

优选的，所述图像为二维图像，所述姿态识别模块包括：

第一图像处理模块，用于获取所述图像中与预设颜色模型匹配的像素，并对所述获取的像素进行连通域检测，提取检测得到的连通域中的所述标记区域；

第一姿态产生模块，用于获取所述标记区域中的像素坐标，根据所述像素坐标产生所述标记区域的姿态。

优选的，所述图像为三维图像，所述姿态识别模块包括：

第二图像处理模块，用于对所述图像进行分割，提取所述图像中的连通域，并计算所述连通域的属性值，将所述连通域的属性值与预设的标记区域属性值进行对比，所述标记区域为符合所述预设的标记区域属性值的连通域；

第二姿态产生模块，用于获取所述标记区域中的像素坐标，根据所述像素坐标产生所述标记区域的姿态。

优选的，所述姿态识别模块还包括判断模块，用于判断所述图像为二维图像还是为三维图像。

进一步优选的，所述二维图像为二维红外图像。

进一步优选的，所述标记区域包括第一连续区域和第二连续区域；所述第一姿态产生模块还用于根据所述像素坐标计算第一连续区域的重心和第二连续区域的重心，根据所述第一连续区域的重心的像素坐标和所述第二连续区域的重心的像素坐标产生所述连续区域的姿态。

优选的，所述指令生成模块包括：

第一姿态获取模块，用于从所述姿态识别模块中获取当前帧图像中的所述标记区域的姿态；

第一指令查找模块，用于根据预设的姿态与控制指令之间的映射关系生成与所述姿态对应的控制指令。

进一步优选的，所述图像为图像序列；所述第一姿态获取模块还用于从所述姿态识别模块中获取当前帧图像中的所述标记区域的姿态与上一帧图像中的所述标记区域的姿态之间的相对姿态；所述第一指令查找模块还用于根据预设的相对姿态与控制指令之间的映射关系生成与所述相对姿态对应的控制指令。

优选的，所述图像为图像序列；所述指令生成模块包括：

第二姿态获取模块，用于从所述姿态识别模块中获取当前帧图像中的所述标记区域的姿态与上一帧图像中的所述标记区域的姿态之间的相对姿态；

第二指令查找模块，用于根据预设的相对姿态与控制指令之间的映射关系生成与所述相对姿态对应的控制指令。

上述生成控制指令的方法和系统，根据采集到的包含标记区域的图像识别出标记区域所产生的姿态，并生成姿态对应的控制指令。由于可根据标记区域的姿态即可得到相应的控制指令，因此只要标记区域产生姿态就能生成控制指令，而交互设备本身是不需要设置按键和供电装置的，即交互设备上无需设置按键和供电装置也能生成控制指令。

【附图说明】

图1为本发明中生成控制指令的方法的流程示意图；

图2为一个实施例中步骤S20的流程示意图；

图3为一个实施例中交互设备的结构示意图；

图4为一个实施例中构建坐标系的示意图；

图5为另一个实施例中的交互设备的结构示意图；

图6为另一个实施例中的交互设备的结构示意图；

图7为另一个实施例中步骤S20的流程示意图；

图8为另一个实施例中构建坐标系的示意图；

图9为一个实施例中步骤S30的流程示意图；

图10为另一个实施例中步骤S30的流程示意图；

图11为本发明中生成控制指令的系统的结构示意图；

图12为一个实施例中姿态识别模块的结构示意图；

图13为另一个实施例中姿态识别模块的结构示意图；

图14为一个实施例中指令生成模块的结构示意图；

图15为另一个实施例中指令生成模块的结构示意图。

【具体实施方式】

在一个实施例中，如图1所示，一种生成控制指令的方法，包括以下步骤：

步骤S10，采集包含标记区域的图像。

本实施例中，标记区域是采集的图像中的一个区域，该区域可由交互设备形成。

具体的，在一个实施例中，交互设备可以是手持装置，可将手持装置的一部分或全部设定为指定的颜色或形状，采集手持装置的图像，图像中的手持装置中的该指定颜色或形状的部分形成标记区域。另外，交互设备还可以是带标记的手持装置，即在手持装置上附带指定颜色或形状的标记(如反光材料)，采集手持装置的图像，图像中的手持装置上所附带的指定颜色或形状的标记形成标记区域。

在另一个实施例中，交互设备还可以是人体部位(例如人脸、手掌、手臂等)，采集人体部位的图像，图像中的人体部位形成标记区域。另外，交互设备还可以是带标记的人体部位，即在人体部位上附带指定颜色或形状的标记(如反光材料)，采集人体部位的图像时，图像中的该指定颜色或形状的标记形成标记区域。

步骤S20，识别标记区域的姿态。

具体的，对采集到的图像进行处理，提取图像中的标记区域，然后根据标记区域中的像素在构建的图像坐标系中的像素坐标产生标记区域的姿态。所谓姿态，是指标记区域在图像中所形成的姿势状态。进一步的，在二维图像中，姿态为二维图像中的标记区域与预设位置之间的角度，即姿态角；在三维图像中，姿态为二维图像中的标记区域与预设位置之间的多个姿态角所组成的矢量，即姿态向量。本发明中说的“标记区域产生的姿态”，“标记区域的姿态”、“姿态”都是指所述姿态，也就是不同实施例的姿态角与姿态向量。

步骤S30，生成姿态对应的控制指令。

本实施例中，预先设定标记区域的姿态与控制指令之间的映射关系，并将该映射关系存储在数据库中。在识别出标记区域的姿态后，可根据识别出的姿态从数据库中查找与姿态对应的控制指令。进一步的，还可将查找到的控制指令发送到被控装置。

其中，被控装置可以是计算机、电视或其他装置。控制指令可以是传统的交互设备中的特殊指令，如鼠标中的左键或右键点击指令；也可以是应用程序的特殊指令，如多媒体的开始播放或暂停播放指令。

由于可生成与识别出的姿态相对应的控制指令，只要交互设备产生姿态就能生成控制指令，而交互设备本身是不需要设置按键和供电装置的，即在交互设备上无需设置按键和供电装置也能生成控制指令。

如图2所示，在一个实施例中，所采集到的包含标记区域的图像为二维图像，上述步骤S20的具体过程包括：

步骤S202，提取图像中与预设颜色模型匹配的像素，对获取的像素进行连通域检测，提取检测得到的连通域中的标记区域。

具体的，可通过摄像机采集包含标记区域的图像，得到的图像为二维可见光图像。优选的，还可在摄像机的镜头前加入红外滤光片，用于滤去除红外波段的其他波段光线，则采集的图像为二维红外图像。由于可见光图像中，场景中的物体会对标记区域的识别形成干扰，而红外图像因滤除掉了可见光信息，干扰较少，因此二维红外图像更有利于提取标记区域。

本实施例中，预先建立颜色模型。例如标记区域的色彩为红色，则预先建立红色模型，该模型中像素的RGB值分量可在200到255之间，G、B分量可接近于零；获取采集的图像中满足该红色模型的RGB值的像素即为红色像素。另外，当采集的图像中由人体部位形成标记区域时，则可获取采集的图像中与预设肤色模型匹配的像素。对获取的像素进行连通域检测，得到多个连通域，连通域是若个连续的像素组成的集合。

本实施例中，由于标记区域的大小和形状应大致是固定不变的，在对获取的像素进行连通域检测时，可计算得到获取的像素中的所有连通域的周长和/或面积。具体的，连通域的周长可为连通域边界像素的个数，连通域的面积可为连通域中的全部像素的个数。进一步的，可将获取的连通域的周长和/或面积与预设标记区域的周长和/或面积进行对比，获取满足预设标记区域的周长和/或面积的连通域即为标记区域。优选的，还可将周长的平方与面积的比值作为判断准则，连通域的该比值满足预设标记区域的该比值，则该连通域为标记区域。

步骤S204，获取标记区域中的像素坐标，根据所述像素坐标产生标记区域姿态。

具体的，在一个实施例中，如图3所示，交互设备包括手持部分和附着于手持部分的标记，其中，标记可为长条形状的反光材料，优选的，可以为椭圆或矩形形状。在其他实施例中，交互设备还可为人体部位，如脸、手掌、手臂等，则采集到的图像中的标记区域即为人体部位的区域。

本实施例中，标记区域为一个连续区域，则根据像素坐标产生标记区域的姿态的过程为：计算得到像素坐标的协方差矩阵，获取协方差矩阵最大特征值对应的特征向量，根据特征向量产生标记区域的姿态，该标记区域的姿态为一个姿态角。

具体的，如图4所示，构建二维图像坐标系，对于该坐标系上的两个点A(u1，v1)和B(u2，v2)，其形成的姿态角则为斜率的反正切，即arctan((v2-v1)/(u2-u1))。具体的，本实施例中，计算提取的标记区域中的像素坐标的协方差矩阵，获取协方差矩阵最大特征值对应的特征向量，该特征向量的方向即为标记区域长轴所在直线的方向。如图4所示，标记区域长轴所在直线方向为A、B两点所在直线的方向，设特征向量为[dir_u，dir_v]^T，其中，dir_u描述标记区域长轴的方向在u轴上的投影，其绝对值正比于从A指向B的向量在u坐标轴方向上的投影(即u2-u1)；dir_v描述标记区域长轴的方向在v轴上的投影，其绝对值正比于从A指向B的向量在v坐标轴方向上的投影(即v2-v1)。若dir_u或dir_v小于0，则修正为[-dir_u，-dir_v]^T，则标记区域的姿态角为：arctan(dir_v/dir_u)。

在另一个实施例中，标记区域包括第一连续区域和第二连续区域，则根据所述像素坐标产生标记区域的姿态的具体过程为：根据像素坐标计算第一连续区域的重心和第二连续区域的重心，根据第一连续区域的重心的像素坐标和第二连续区域的重心的像素坐标产生标记区域的姿态。具体的，在一个实施例中，交互设备包括手持部分和附着在手持部分的两个标记。如图5所示，标记为两个，分别附着在手持部分前端，标记的形状可以为椭圆形或矩形。优选的，标记可以为位于手持部位前端的两个圆点。如图6所示，可将标记设置在手持部分的两端。在其他实施例中，还可将标记设置在人体部位上，例如设置在人脸、手掌或手臂上。应当说明的是，所设置的两个标记可以大小、形状、颜色等特征上不一致。

本实施例中，提取的标记区域包括两个连续区域，分别为第一连续区域和第二连续区域。进一步的，根据像素坐标计算这两个连续区域的重心。具体的，计算连续区域中的全部像素坐标的平均值，所得到的像素坐标即为连续区域的重心。如图4所示，计算得到的两个连续区域的重心分别为A(u1，v1)和B(u2，v2)，则标记区域的姿态角为斜率的反正切，即arctan((v2-v1)/(u2-u1))。

在另一个实施例中，所采集的图像可以为三维图像。具体的，可利用传统的立体视觉系统(由两台空间位置已知的摄像机及相关数据处理设备组成)、结构光系统(右一台摄像机、一台光源以及相关数据处理设备组成)或TOF(timeof flight，飞行时间)深度相机采集三维图像(即三维深度图像)。

本实施例中，如图7所示，步骤S20的具体过程包括：

步骤S210，对图像进行分割，提取所述图像中的连通域，计算连通域的属性值，将连通域的属性值与预设的标记区域属性值进行对比，所述标记区域为符合所述预设的标记区域属性值的连通域。

具体的，当三维深度图像中两个相邻的像素深度相差小于预先设定的阈值时，例如5厘米，则认为两个像素连通，对整个图像进行连通域检测，可得到包含标记连通域的一系列连通域。

本实施例中，连通域的属性值包括连通域的尺寸和形状。具体的，计算连通域的尺寸/形状，与交互设备上的标记的尺寸/形状进行对比，得到符合标记的尺寸/形状的连通域即为标记区域的连通域(标记区域)。以矩形标记为例，即交互设备上的标记在采集的图像中为矩形，预先设定好标记的长度和宽度，计算连通域对应的物理区域的长度和宽度，该长度和宽度与标记的长度和宽度越接近，则连通域与标记区域越相似。

进一步的，计算连通域对应的物理区域的长度和宽度的过程如下：计算连通域像素的三维坐标的协方差矩阵，采用如下公式计算连通域对应的物理区域的长度和宽度：

，其中，k为预先设定的系数，例如设为4，当λ为协方差矩阵最大特征值时，则l为连通域的长度，当λ为协方差矩阵第二大的特征值时，则l为连通域的宽度。

进一步的，还可预先设定矩形标记的长宽比，例如长宽比为2，则连通域对应的物理区域的长宽比越接近于预设设定的矩形标记的长宽比，则连通域与标记区域越相似，具体的，采用如下公式计算连通域对应的物理区域的长宽比：

其中，r为连通域的长宽比，λ₀为协方差矩阵的最大特征值，λ₁为协方差矩阵的第二大特征值。

步骤S220，获取标记区域中的像素坐标，根据该像素坐标产生标记区域的姿态。

具体的，本实施例中，标记区域的姿态为姿态向量。如图8所示，构建三维图像坐标系，该坐标系为右手坐标系。在该坐标系中，设空间向量OP，P在平面XOY的投影为p，则用极坐标表示向量OP的姿态向量为[α，θ]^T，α为角XOp，即X轴到Op角，取值范围为0到360度，θ为角pOP，即OP与XOY平面的夹角，取值范围为-90度到90度。设该坐标系中的空间射线上的两点为A(x1，y1，z1)和B(x2，y2，z2)，则这两点的姿态向量[α，θ]^T可用如下公式唯一确定：

\cos (α) = \frac{x 2 - x 1}{\sqrt{{(x 2 - x 1)}^{2} + {(y 2 - y 1)}^{2}}}

\sin (α) = \frac{y 2 - y 1}{\sqrt{{(x 2 - x 1)}^{2} + {(y 2 - y 1)}^{2}}} - - - (1)

θ = \arctan (\frac{z 2 - z 1}{\sqrt{{(x 2 - x 1)}^{2} + {(y 2 - y 1)}^{1}}}) - - - (2)

本实施例中，提取标记区域后，计算得到标记区域中的像素坐标的协方差矩阵，获取协方差矩阵最大特征值对应的特征向量，并将该特征向量转换为姿态向量。具体的，设得到的姿态向量为[dir_x，dir_y，dir_z]^T，其中，dir_x表示两点在x轴方向上的距离，dir_y表示两点在y轴方向上的距离，dir_z表示两点在z轴方向上的距离。可认为该姿态向量描述的射线上有两个点，即(0，0，0)和(dir_x，dir_y，dir_z)，即射线从原点触发，指向(dir_x，dir_y，dir_z)，则姿态角需满足上述公式(1)和(2)，令上述公式(1)和(2)中的x1＝0，y1＝0，z1＝0，x2＝dir_x，y2＝dir_y，z2＝dir_z，即可得到姿态向量[α，θ]^T。

在一个实施例中，标记区域为一个连续区域，则根据像素坐标产生标记区域的姿态的过程为：计算得到像素坐标的协方差矩阵，获取协方差矩阵最大特征值对应的特征向量，根据特征向量产生标记区域的姿态。如上所述，该标记区域的姿态为一个姿态向量。

在另一个实施例中，标记区域包括第一连续区域和第二连续区域，则根据所述像素坐标产生标记区域的姿态的具体过程为：根据像素坐标计算第一连续区域的重心和第二连续区域的重心，根据第一连续区域的重心的像素坐标和第二连续区域的重心的像素坐标计算标记区域的姿态。如图8所示，本实施例中，标记区域中的像素坐标为三维坐标，具体的，可根据计算得到的两个连续区域的重心的像素坐标产生标记区域的姿态，该姿态为一个姿态向量。

在一个实施例中，在识别标记区域的姿态的步骤之前还可包括：判断采集的图像为二维图像还是三维图像的步骤。具体的，若采集的图像为二维图像，则执行上述步骤S202至步骤S204，若采集的图像为三维图像，则执行上述步骤S210至S220。

如图9所示，在一个实施例中，上述步骤S30的具体过程包括：

步骤S302，获取当前帧图像中的所述标记区域的姿态。

如上所述，步骤S302中获取的姿态可以是当前帧的二维图像中的标记区域的姿态(即姿态角)，也可以是当前帧的三维深图像中的标记区域的姿态(即姿态向量)。本实施例中，预先设定了姿态与控制指令之间的映射关系。该姿态也可称为绝对姿态。

步骤S304，根据预设的姿态与控制指令之间的映射关系生成与所述姿态对应的控制指令。

例如，控制指令为鼠标左键指令和右键指令。以二维图像为例，姿态角的取值范围为-180度到180度。可预先设定当前帧图像中的姿态角在(a，b)的范围内，则触发左键指令，当前帧图像中的姿态角在(c，d)的范围内，则触发右键指令。其中，a、b、c、d都为预先设定的角度，满足a＜b，c＜d，且集合[a，b]和集合[c，d]的交集为空。。

另外，在三维图像中，所识别出的姿态包含两个姿态角，可以使用其中的一个姿态角来获取控制指令，也可以使用两个姿态角来获取控制指令。使用其中一个姿态角的方法原理与二维图像类似，在此则不再赘述。使用两个姿态角时，可设置若两个姿态角均在预先设定的指令触发范围内时，才触发控制指令。

如图10所示，在另一个实施例中，采集的包含标记区域的图像为图像序列，上述步骤S30的具体过程包括：

步骤S310，获取当前帧图像中的所述标记区域的姿态与上一帧图像中的所述标记区域的姿态之间的相对姿态。

本实施例中，可实时采集由多个包含标记区域的图像组成的图像序列。如上所述，步骤S310中获取的姿态可以是当前帧图像和上一帧图像中的标记区域的姿态角，也可以是当前帧图像和上一帧图像中的标记区域的姿态向量。当前帧图像中的姿态与上一帧图像中的姿态之间的相对姿态为两者的差值。

步骤S320，根据预设的相对姿态与控制指令之间的映射关系生成与所述相对姿态对应的控制指令。

例如，以二维图像为例，相对姿态为相对姿态角，可预先设定当前帧图像的姿态角比上一帧的姿态角增加大于30度，即相对姿态角大于30度时，则触发鼠标的左键指令，当前帧图像的姿态角比上一帧的姿态角减少大于40度时，即相对姿态角小于-40度时，则触发鼠标的右键指令。三维图像的原理与其类似，在此则不再赘述。

在三维图像中，所识别出的姿态包含两个姿态角，可以使用其中的一个姿态角来获取控制指令，也可以使用两个姿态角来获取控制指令。使用其中一个姿态角的方法原理与二维图像类似，在此则不再赘述。使用两个姿态角时，可设置若两个姿态角变化均满足预设条件时，例如第一个姿态角变化大于预先设定的第一阈值，第二个姿态角变化大于预先设定的第二阈值，则触发控制指令。

在一个实施例中，如图11所示，一种生成控制指令的系统，包括图像采集模块10、姿态识别模块20和指令生成模块30，其中：

图像采集模块10用于采集包含标记区域的图像。

本实施例中，标记区域是采集的图像中的一个区域，该区域可由交互设备形成。具体的，在一个实施例中，交互设备可以是手持装置，可将手持装置的一部分或全部设定为指定的颜色或形状，采集手持装置的图像，图像中的手持装置中的该指定颜色或形状的部分形成标记区域。另外，交互设备还可以是带标记的手持装置，即在手持装置上附带指定颜色或形状的标记(如反光材料)，采集手持装置的图像，图像中的手持装置上所附带的指定颜色或形状的标记形成标记区域。

姿态识别模块20用于识别标记区域的姿态。

具体的，对采集到的图像进行处理，提取图像中的标记区域，然后根据标记区域中的像素在构建的图像坐标系中的像素坐标获取标记区域的姿态。所谓姿态，是指标记区域在图像中所形成的姿势状态。进一步的，在二维图像中，姿态为二维图像中的标记区域与预设位置之间的角度，即姿态角；在三维图像中，姿态为二维图像中的标记区域与预设位置之间的多个姿态角所组成的矢量，即姿态向量。本发明中说的“标记区域产生的姿态”，“标记区域的姿态”都是指所述姿态，也就是不同实施例的姿态角与姿态向量。

指令生成模块30用于生成姿态对应的控制指令。

本实施例中，预先设定标记区域的姿态与控制指令之间的映射关系，并将该映射关系存储在数据库(图中未示出)中。在识别出标记区域的姿态后，指令生成模块30可用于根据姿态识别模块20识别出的姿态从数据库中查找与姿态对应的控制指令。进一步的，还可将查找到控制指令发送到被控装置。

其中，被控装置可以是计算机、电视或其他装置。控制指令可以是传统的交互设备中的特殊指令，如鼠标中的左键或右键点击指令；也可以是应用程序的特殊命令，如多媒体的开始播放或暂停播放指令。

由于指令生成模块30可生成与识别出的姿态相对应的控制指令，只要交互设备产生姿态就能生成控制指令，而交互设备本身是不需要设置按键和供电装置的，即在交互设备上无需设置按键和供电装置也能生成控制指令。

如图12所示，在一个实施例中，图像采集模块10采集到的图像为二维图像，姿态识别模块20包括第一图像处理模块202和第一姿态产生模块204，其中：

第一图像处理模块202用于提取图像中与预设颜色模型匹配的像素，对获取的像素进行连通域检测，提取检测得到的连通域中的标记区域。

具体的，图像采集模块10可为摄像机，其采集得到的图像可为二维可见光图像。优选的，还可在摄像机的镜头前加入红外滤光片，用于滤去除红外波段的其他波段光线，则图像采集模块10采集的图像为二维红外图像。由于可见光图像中，场景中的物体会对标记区域的识别形成干扰，而红外图像因滤除掉了可见光信息，干扰较少，因此二维红外图像更有利于提取标记区域。

具体的，第一图像处理模块202用于预先建立颜色模型。例如标记区域的色彩为红色，则预先建立红色模型，该模型中像素的RGB值分量可在200到255之间，G、B分量可接近于零；第一图像处理模块202则用于获取帧图像中满足该红色模型的RGB值的像素即为红色像素。另外，当采集的图像中由人体部位形成标记区域时，第一图像处理模块202则用于获取图像中与预设肤色模型匹配的像素。第一图像处理模块202还用于对获取的像素进行连通域检测，得到多个连通域，连通域是若个连续的像素组成的集合。

本实施例中，由于标记区域的大小和形状应大致是固定不变的，第一图像处理模块202在对获取的像素进行连通域检测时，可计算得到获取的像素中的所有连通域的周长和/或面积。具体的，连通域的周长可为连通域边界像素的个数，连通域的面积可为连通域中的全部像素的个数。进一步的，第一图像处理模块202可用于将获取的连通域的周长和/或面积与预设标记区域的周长和/或面积进行对比，获取满足预设标记区域的周长和/或面积的连通域即为标记区域。优选的，第一图像处理模块202还可用于将周长的平方与面积的比值作为判断准则，连通域的该比值满足预设标记区域的该比值，则该连通域为标记区域。

第一姿态产生模块204用于获取标记区域中的像素坐标，根据该像素坐标产生标记区域的姿态。

本实施例中，标记区域产生的姿态为姿态角。在一个实施例中，标记区域为一个连续区域，则第一姿态产生模块204用于计算得到像素坐标的协方差矩阵，获取协方差矩阵最大特征值对应的特征向量，根据特征向量产生标记区域的姿态，该标记区域的姿态为一个姿态角。

在另一个实施例中，标记区域包括第一连续区域和第二连续区域，则第一姿态产生模块204用于根据像素坐标计算第一连续区域的重心和第二连续区域的重心，根据第一连续区域的重心的像素坐标和第二连续区域的重心的像素坐标计算标记区域的姿态。具体的，计算连续区域中的全部像素坐标的平均值，所得到的像素坐标即为连续区域的重心。

在另一个实施例中，图像采集模块10采集到的图像为三维图像。具体的，图像采集模块10可采用传统的立体视觉系统(由两台控制位置已知的摄像机及相关软件组成)、结构光系统(右一台摄像机、一台光源以及相关软件组成)或TOF(time of flight，飞行时间)深度相机实现采集三维图像(即三维深度图像)。

本实施例中，如图13所示，姿态识别模块20包括第二图像处理模块210和第二姿态产生模块220，其中：

第二图像处理模块210用于对所述图像进行分割，提取图像中的连通域，并计算连通域的属性值，将连通域的属性值与预设的标记区域属性值进行对比，所述标记区域为符合所述预设的标记区域属性值的连通域。

具体的，第二图像处理模块210用于当三维图像中两个相邻的像素深度相差小于预先设定的阈值时，例如5厘米，则认为两个像素连通，对整个图像进行连通域检测，可得到包含标记连通域的一系列连通域。。

本实施例中，连通域的属性值包括连通域的尺寸和形状。具体的，第二图像处理模块210用于计算连通域的尺寸/形状，与交互设备上的标记的尺寸/形状进行对比，得到符合标记的尺寸/形状的连通域即为标记区域的连通域(标记区域)。以矩形标记为例，即交互设备上的标记在采集的图像中为矩形，预先设定好标记的长度和宽度，第二图像处理模块210则用于计算连通域对应的物理区域的长度和宽度，该长度和宽度与标记的长度和宽度越接近，则连通域与标记区域越相似。

进一步的，第二图像处理模块210用于计算连通域对应的物理区域的长度和宽度的过程如下：计算连通域像素的三维坐标的协方差矩阵，采用如下公式计算连通域对应的物理区域的长度和宽度：

进一步的，第二图像处理模块210还可用于预先设定矩形标记的长宽比，例如长宽比为2，则连通域对应的物理区域的长宽比越接近于预设设定的矩形标记的长宽比，则连通域与标记区域越相似，具体的，属性匹配模块234用于采用如下公式计算连通域对应的物理区域的长宽比：

第二姿态产生模块220用于获取标记区域中的像素坐标，根据所述像素坐标产生标记区域的姿态。

本实施例中，标记区域的姿态为姿态向量。在一个实施例中，标记区域为一个连续区域，则第二姿态产生模块220用于计算得到像素坐标的协方差矩阵，获取协方差矩阵最大特征值对应的特征向量，根据特征向量产生标记区域的姿态。如上所述，该标记区域的姿态为一个姿态向量。

在另一个实施例中，标记区域包括第一连续区域和第二连续区域，则第二姿态产生模块220用于根据像素坐标计算第一连续区域的重心和第二连续区域的重心，根据第一连续区域的重心的像素坐标和第二连续区域的重心的像素坐标产生标记区域的姿态。本实施例中，标记区域中的像素坐标为三维坐标，具体的，可根据计算得到的两个连续区域的重心的像素坐标产生标记区域的姿态，该姿态为一个姿态向量。

在一个实施例中，姿态识别模块20还包括判断模块(图中未示出)，用于判断采集的图像为二维图像还是三维图像。具体的，本实施例中，当判断模块判断到采集的图像为二维图像时，则通知第一图像处理模块202提取二维图像中的标记区域，进而通过第一姿态产生模块204产生该标记区域的姿态。当判断模块判断到采集的图像为二维图像时，则通知第二图像处理模块210提取三维图像中的标记区域，进而通过第二姿态产生模块220产生该标记区域的姿态。可以理解的，本实施例中，姿态识别模块20同时包括判断模块(图中未示出)、第一图像处理模块202、第一姿态产生模块204、第二图像处理模块210和第二姿态产生模块220。本实施例既可通过二维图像识别标记区域的姿态，又可通过二维图像识别标记区域的姿态。

如图14所示，在一个实施例中，指令生成模块30包括第一姿态获取模块302和第一指令查找模块304，其中：

第一姿态获取模块302用于从姿态识别模块20中获取当前帧图像中的所述标记区域的姿态。

具体的，该姿态可以是当前帧的二维图像中的标记区域的姿态角，也可以是当前帧的三维深度图像中的标记区域的姿态向量。本实施例中，预先设定了姿态与控制指令之间的映射关系。该姿态也可称为绝对姿态。

第一指令查找模块304用于根据预设的姿态与控制指令之间的映射关系生成与所述姿态对应的控制指令。

本实施例中，所采集的包含标记区域的图像可以是图像序列。第一姿态获取模块302还用于从姿态识别模块20中获取当前帧图像中的标记区域的姿态与上一帧图像中的标记区域的姿态之间的相对姿态。第一指令查找模块304还用于根据预设的相对姿态与控制指令之间的映射关系生成与相对姿态对应的控制指令。

在另一个实施例中，所采集的包含标记区域的图像可以是图像序列。如图15所示，指令生成模块30包括第二姿态获取模块310和第二指令查找模块320，其中：

第二姿态获取模块用于从姿态识别模块20中获取当前帧图像中的标记区域的姿态与上一帧图像中的标记区域的姿态之间的相对姿态。

第二指令查找模块320用于根据预设的相对姿态与控制指令之间的映射关系生成与相对姿态对应的控制指令。

上述生成控制指令的方法和系统，通过识别标记区域的姿态，根据预设的姿态与控制指令之间的映射关系生成与标记区域的姿态对应的控制指令，从而可实现根据标记区域的不同姿态来生成不同的控制指令。本发明除了可以采用手持的交互设备，还可以将人体部位作为交互设备，通过识别人体姿态或设置在人体部位上的标记的姿态来生成控制指令。本发明不需要在交互设备上设置按键和供电装置，实现了交互设备的完全无源。

此外，本发明将传统的交互设备进行了简单化，能够降低成本，由于本发明中的交互设备可以是无源的手持装置或人体部位，减少了电池的重量，因此易于使用；用户可以通过对手持装置或人体部位进行简单的操控就能产生各种控制指令，因此提高了用户操作的便利性，大大满足了用户的体验需求。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种生成控制指令的方法，包括以下步骤：

采集包含标记区域的图像；

识别标记区域的姿态；

生成所述姿态对应的控制指令。

2.根据权利要求1所述的生成控制指令的方法，其特征在于，所述图像为二维图像，所述识别标记区域的姿态的步骤包括：

3.根据权利要求1所述的生成控制指令的方法，其特征在于，所述图像为三维图像，所述识别标记区域的姿态的步骤包括：

4.根据权利要求1所述的生成控制指令的方法，其特征在于，在所述识别标记区域的姿态的步骤之前，还包括：判断所述图像为二维图像还是为三维图像的步骤；

5.根据权利要求2或4所述的生成控制指令的方法，其特征在于，所述二维图像为二维红外图像。

6.根据权利要求1至4中任意一项所述的生成控制指令的方法，其特征在于，所述标记区域包括第一连续区域和第二连续区域；所述根据所述像素坐标产生所述标记区域的姿态的步骤包括：

7.根据权利要求1至4中任意一项所述的生成控制指令的方法，其特征在于，所述生成所述姿态对应的控制指令的步骤包括：

获取当前帧图像中的所述标记区域的姿态；

8.根据权利要求7所述的生成控制指令的方法，其特征在于，所述图像为图像序列；所述生成所述姿态对应的控制指令的步骤包括：

9.根据权利要求6所述的生成控制指令的方法，其特征在于，所述生成所述姿态对应的控制指令的步骤包括：

获取当前帧图像中的所述标记区域产生的姿态；

10.根据权利要求1或2或3或4或9所述的生成控制指令的方法，其特征在于，所述图像为图像序列；所述生成所述姿态对应的控制指令的步骤包括：

11.根据权利要求6所述的生成控制指令的方法，其特征在于，所述图像为图像序列；所述生成所述姿态对应的控制指令的步骤包括：

12.一种生成控制指令的系统，其特征在于，包括：

图像采集模块，用于采集包含标记区域的图像；

姿态识别模块，用于识别标记区域的姿态；

指令生成模块，用于生成所述姿态对应的控制指令。

13.根据权利要求12所述的生成控制指令的系统，其特征在于，所述图像为二维图像，所述姿态识别模块包括：

14.根据权利要求12所述的生成控制指令的系统，其特征在于，所述图像为三维图像，所述姿态识别模块包括：

15.根据权利要求12所述的生成控制指令的系统，其特征在于，所述姿态识别模块还包括判断模块，用于判断所述图像为二维图像还是为三维图像。

16.根据权利要求15或17所述的生成控制指令的系统，其特征在于，所述二维图像为二维红外图像。

17.根据权利要求12至15中任意一项所述的生成控制指令的方法，其特征在于，所述标记区域包括第一连续区域和第二连续区域；所述第一姿态产生模块还用于根据所述像素坐标计算第一连续区域的重心和第二连续区域的重心，根据所述第一连续区域的重心的像素坐标和所述第二连续区域的重心的像素坐标产生所述连续区域的姿态。

18.根据权利要求12至15中任意一项所述的生成控制指令的系统，其特征在于，所述指令生成模块包括：

19.根据权利要求18所述的生成控制指令的系统，其特征在于，所述图像为图像序列；所述第一姿态获取模块还用于从所述姿态识别模块中获取当前帧图像中的所述标记区域的姿态与上一帧图像中的所述标记区域的姿态之间的相对姿态；所述第一指令查找模块还用于根据预设的相对姿态与控制指令之间的映射关系生成与所述相对姿态对应的控制指令。

20.根据权利要求17所述的生成控制指令的系统，其特征在于，所述指令生成模块包括：

21.根据权利要求12或13或14或15或20所述的生成控制指令的系统，其特征在于，所述图像为图像序列；所述指令生成模块包括：

22.根据权利要求17所述的生成控制指令的系统，其特征在于，所述图像为图像序列；所述指令生成模块包括：