CN102819751A

CN102819751A - 一种基于动作识别的人机互动方法及装置

Info

Publication number: CN102819751A
Application number: CN2012102990327A
Authority: CN
Inventors: 周晨
Original assignee: CHANGSHA NETOVISION NETWORK TECHNOLOGY Co Ltd
Current assignee: CHANGSHA NETOVISION NETWORK TECHNOLOGY Co Ltd
Priority date: 2012-08-21
Filing date: 2012-08-21
Publication date: 2012-12-12

Abstract

本发明公开了一种基于动作识别的人机互动方法及装置以实现从视觉角度进行人机互动的目的，由于本发明利用视频设备获取互动对象的视频图像，对互动对象的视频图像进行运动估计，获得所述互动对象的运动向量，实现对互动对象的跟踪，又根据预先设置的匹配条件，利用所述互动对象的运动向量，在动作样本库中查询出最匹配的动作样本类，查询出所述最匹配的动作样本类在预先设置的规则中对应的指令，执行所述指令，使得机器从类似于人眼的视觉角度出发，以互动对象的动作作为输入，执行相应的指令，提高了人机互动的智能化程度。

Description

一种基于动作识别的人机互动方法及装置

技术领域

本发明涉及人机互动领域，特别涉及一种基于动作识别的人机互动方法及装置。

背景技术

人机互动是一种系统与用户之间互动的过程，系统可以是各种各样的机器，也可以是计算机化的装置或软件。目前常见的人机互动，一般是通过人机交互界面进行互动，人机交互界面通常是指用户可见的部分，用户通过人机交互界面提供的指令输入设备与系统交流，并进行操作，例如收音机的播放按键，飞机上的仪表板、或发电厂的控制室。

根据现有人机互动的方式所开发的智能玩具能支持简单人机互动，包括通过按钮来选择和播放预存的故事或音乐，通过感应器来感应用户的触摸或摇动，通过语音识别来识别语音指令。但是，对于智能玩具的应用来说，目前的人机互动方式过于单一，没有将视觉这一人类获取外界信息最主要的渠道应用到智能玩具的人机互动中。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于动作识别的人机互动方法及装置以实现从视觉角度进行人机互动的目的。

本发明提供了一种基于动作识别的人机互动方法，该方法包括：

利用视频设备获取互动对象的视频图像；

对所述互动对象的视频图像进行运动估计，获得所述互动对象的运动向量；

根据预先设置的匹配条件，利用所述互动对象的运动向量，在动作样本库中查询出最匹配的动作样本类，在所述动作样本库中所述动作样本类具体通过对动作样本的运动向量分类获得；

查询出所述最匹配的动作样本类在预先设置的规则中对应的指令；

执行所述指令。

优选地，该方法还包括：

在利用视频设备获取互动对象的视频图像前和/或执行所述指令后，利用音频发出相关语音提示。

优选地，该方法还包括：

根据所述互动对象的运动向量获得所述互动对象的位置；

根据所述互动对象的位置，按照所述互动对象的各个区域的比例，获得所述互动对象的一个或多个区域的位置；

根据所述互动对象的一个或多个区域的位置和所述互动对象的运动向量，获得所述互动对象的一个或多个区域的运动向量；

在所述动作样本库中所述动作样本类还通过对动作样本的位置分类获得；

所述预先设置的匹配条件具体为所述互动对象的一个或多个区域的运动向量与所述动作样本类的运动向量最匹配，且所述互动对象的一个或多个区域的位置与所述动作样本类的位置最匹配。

优选地，所述在动作样本库中查询出最匹配的动作样本类，具体通过采用支持向量机算法的样本分类器进行查询，返回最匹配的动作样本类，所述样本分类器具体通过采用支持向量机算法对动作样本的运动向量分类学习获得。

优选地，在所述动作样本库中的动作样本类具体通过对动作样本的运动向量采用树状结构分类获得；

所述树状结构按照动作样本类的语义逻辑分层；

所述树状结构的每个叶子节点对应一个或多个动作样本的运动向量；

所述树状结构的每个非叶子节点根据其包括的叶子节点对应到一个或多个动作样本的运动向量；

所述树状结构的每个节点对应一个动作样本类；

所述树状结构的每个节点对应一个采用支持向量机算法的样本分类器，所述样本分类器具体通过采用支持向量机算法对该节点对应的动作样本的运动向量分类学习获得；

所述动作样本类由唯一动作分类代号标识。

本发明还提供一种基于动作识别的人机互动装置，该装置包括：

视频图像采集单元：用于利用视频设备获取互动对象的视频图像，将所述互动对象的视频图像发送至运动估计单元；

运动估计单元：用于对所述互动对象的视频图像进行运动估计，获得所述互动对象的运动向量，将所述互动对象的运动向量发送至识别单元；

识别单元：用于根据预先设置的匹配条件，利用所述互动对象的运动向量，在动作样本库中查询出最匹配的动作样本类，在所述动作样本库中所述动作样本类具体通过对动作样本的运动向量分类获得，将所述最匹配的动作样本类发送至指令查询单元；

指令查询单元：用于查询出所述最匹配的动作样本类在预先设置的规则中对应的指令，将所述指令发送至执行单元；

指令执行单元：执行所述指令。

可见本发明具有如下有益效果：

由于本发明利用视频设备获取互动对象的视频图像，对互动对象的视频图像进行运动估计，获得所述互动对象的运动向量，又根据预先设置的匹配条件，利用所述互动对象的运动向量，在动作样本库中查询出最匹配的动作样本类，查询出所述最匹配的动作样本类在预先设置的规则中对应的指令，执行所述指令，使得机器从类似于人眼的视觉角度出发，以互动对象的动作作为输入，执行相应的指令，提高了人机互动的智能化程度；而且本发明还包括语音提示互动过程，增加互动效果；本发明还以互动对象的一个或多个区域的动作作为输入，执行相应的指令，提高了人机互动的灵活性；另外，本发明还采用树状结构分类动作样本的运动向量，将动作样本类与树状结构的节点相对应，且一个节点与一个采用支持向量机算法的动作样本分类器相对应，使得本发明的动作样本类的查询只对树状结构的每一层中最匹配的动作样本类对应的节点进行下一级查询，节省了查询时间，提高了基于动作识别的人机互动的效率。

附图说明

图1是本发明一种基于动作识别的人机互动方法步骤图例；

图2是本发明动作样本库的树状结构图例；

图3是本发明在动作样本库中查询出最匹配的动作样本类的步骤图例；

图4是本发明一种基于动作识别的人机互动装置组成图例。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明实施例作进一步详细的说明。

参见图1，本发明提供了一种基于动作识别的人机互动方法，包括以下步骤：

S101、利用视频设备获取互动对象的视频图像；

S102、对所述互动对象的视频图像进行运动估计，获得所述互动对象的运动向量；

S103、根据预先设置的匹配条件，利用所述互动对象的运动向量，在动作样本库中查询出最匹配的动作样本类，在所述动作样本库中所述动作样本类具体通过对动作样本的运动向量分类获得；

S104、查询出所述最匹配的动作样本类在预先设置的规则中对应的指令；

S105、执行所述指令。

可见，通过以上步骤实现了机器从类似于人眼的视觉角度出发，以互动对象的动作作为输入，执行相应的指令，提高了人机互动的智能化程度。

现有的运动估计方法其运动向量估计的准确度和速度受视频图像的噪声、光照条件变化、动态环境等等的影响，而本发明所提出的运动估计，采用将视频图像从低分辨率到高分辨率逐级分析的方法来降低噪声影响，提高运动估计的准确度和运算速度，具体包括以下步骤：

将视频图像处理为从低分辨率到高分辨率的不同级别的视频图像；

具体地，例如：将同一视频图像处理成从低分辨率到高分辨率三个级别分辨率的视频图像：第一级分辨率的视频图像、第二级分辨率的视频图像和第三级分辨率的视频图像；

按照从低分辨率到高分辨率的顺序，将不同级别的视频图像，逐个进行以下步骤的处理：

判断当前级别的视频图像是否为最高分辨率的视频图像，

如果是，则在当前级别的视频图像上进行运动估计，获得互动对象最终的运动向量；

如果不是，则对当前级别的视频图像进行以下处理：

在当前级别的视频图像上进行运动估计，获得互动对象的运动向量；

根据互动对象的运动向量，确定互动对象在当前级别的视频图像上的位置；

将所述互动对象的运动向量和在当前级别的视频图像上的位置，作为下一级视频图像进行运动估计的初始数据。

从以上步骤可见，由于在低分辨率的视频图像上，背景干扰不明显，互动对象的运动较为明显，先由低分辨率的视频图像开始进行运动估计，可以一定程度上排除视频图像的噪声等干扰，将当前级别视频图像运动估计的结果作为下一级视频图像运动估计的初始数据，从而逐步精确互动对象的运动向量；其次，由于低分辨率的视频图像像素低，其运动估计的运算量比高分辨率的视频图像运动估计的运算量小，利用低分辨率视频图像运动估计的结果作为下一级视频图像运动估计的初始数据，减少了运动估计的运算量，提高了运动估计的运算速度，从而快速获得准确的运动估计结果和跟踪。

本发明还包括：在利用视频设备获取互动对象的视频图像前和/或执行所述指令后，利用音频发出相关语音提示；

例如，在获取互动对象的视频图像前，可语音提示互动对象执行动作以准确获取互动对象的视频图像；在执行所述指令后，可语音提示互动对象指令执行结果以增加互动效果、或者提示互动对象进入下一互动环节；语音提示内容具体可以存储在存储介质中，可设置为多种语言，具体由依据本发明方法实现的具体场景提供选择语言的相关设置。

需要说明的是，依据步骤S103中的所述预先设置的匹配条件，利用所述互动对象的运动向量作为人机互动的输入可以有多种实施方式，下面进行详细阐述：

(一)在本发明的一个实施例中，所述预先设置的匹配条件具体为所述互动对象的运动向量与所述动作样本类的运动向量最匹配；

在该方式中，所述互动对象的整体作为跟踪对象，以所述互动对象整体的动作作为人机互动的输入。

(二)在本发明的又一实施例中，所述预先设置的匹配条件具体为所述互动对象的运动向量与所述动作样本类的运动向量最匹配，且所述互动对象的位置与所述动作样本类的位置最匹配；

在该实施方式中，不仅以互动对象的动作，即互动对象的运动向量作为人机互动的输入，还以互动对象执行动作后处于的状态，即互动对象的位置作为人机互动的输入，例如，举右手是一个动作，而举起右手不仅是动作，而且在举右手之后右手应处于一个举起的位置，可作为两种输入。

作为该实施方式的前提，本发明还包括：

根据所述互动对象的运动向量，获得所述互动对象的位置。

在所述动作样本库中所述动作样本类还通过对动作样本的位置分类获得。

(三)在本发明的再一实施例中，所述预先设置的匹配条件具体为所述互动对象的一个或多个区域的运动向量与所述动作样本类的运动向量最匹配；

作为该实施方式的前提，本发明还包括：

按照所述互动对象的各个区域的比例，获得所述互动对象的一个或多个区域的位置；

例如：基于大量的人体实际样本数据聚类分析，找出人体和躯干的分割比例，在确定人体位置后，根据人体的头部和躯干的比例，对人体图像区域进行上下分割，下面部分为肢体图像区域，上面部分为头部图像区域，根据肢体图像区域、头部图像区域的位置，分别获得肢体的运动向量、头部的运动向量。

在获得所述互动对象的一个或多个区域的运动向量之后，进而可以实现以所述互动对象的一个或多个区域的运动向量作为人机互动的输入，例如，所述互动对象是人体，人体的某一个或多个肢体动作、或者某一个或多个面部表情均可作为本发明人机互动的输入。

(四)结合以上实施例方法，在本发明的另一个实施例中，所述预先设置的匹配条件具体为所述互动对象的一个或多个区域的运动向量与所述动作样本类的运动向量最匹配，且所述互动对象的一个或多个区域的位置与所述动作样本类的位置最匹配。

下面对步骤S103中的查询、动作样本库、和动作样本类之间的关系做详细阐述：

在本发明的一个实施例中，所述在动作样本中查询出最匹配的动作样本类，具体通过采用支持向量机算法的样本分类器进行查询，返回最匹配的动作样本类，所述样本分类器具体通过采用支持向量机算法对动作样本的运动向量分类学习获得；

支持向量机算法是一种基于统计学的分类技术，应用于模糊识别领域，可通过对大量动作样本的运动向量的数据进行分类学习，利用支持向量机算法训练出样本分类器。

在该实施例中，所述动作样本库以树状结构组织分类动作样本的运动向量，参见图2：具体地，满足以下条件：

条件1：所述动作样本库中的动作样本类具体通过对动作样本的运动向量采用树状结构分类获得；

按照该条件，所述动作样本类具体表达动作样本的运动向量的类型，具体按照动作样本的运动向量的语义含义以树状结构分类、命名，例如，参见图2，人体动作为一个动作样本类、肢体动作为一个动作样本类、脸部动作为一个动作样本类、眼部动作为一个动作样本类等等。

条件2：所述树状结构按照动作样本类的语义逻辑分层；

例如，参见图2，人体动作分为脸部动作和肢体动作；脸部动作分为眼部动作、嘴部动作、和头部动作；眼部动作分为左眼动作和右眼动作；肢体动作分为上半身肢体动作和下半身肢体动作；上半身肢体动作分为左手动作和右手动作；

条件3：所述树状结构的每个叶子节点对应一个或多个动作样本的运动向量；

例如，参见图2，叶子节点：左眼动作，该叶子节点对应多个关于左眼的动作样本的运动向量；

条件4：所述树状结构的每个非叶子节点根据其包括的叶子节点对应到一个或多个动作样本的运动向量；

例如，参见图2，非叶子节点：眼部动作，该非叶子节点根据其包括的左眼动作和右眼动作两个叶子节点对应到多个关于左眼和右眼的动作样本的运动向量；

条件5：所述树状结构的每个节点对应一个动作样本类；

条件6：所述树状结构的每个节点对应一个采用支持向量机算法的样本分类器，所述样本分类器具体通过采用支持向量机算法对该节点所对应的动作样本的运动向量分类学习获得；

例如，参见图2，节点：右眼动作，该节点对应一个采用支持向量机算法的动作样本分类器，该动作样本分类器具体通过对右眼动作这个节点所对应的动作样本的运动向量分类学习获得；节点：左眼动作，该节点对应一个采用支持向量机算法的动作样本分类器，该动作样本分类器具体通过对左眼这个节点所对应的动作样本的运动向量分类学习获得；

条件7：所述动作样本类由唯一动作分类代号标识。

利用该唯一动作分类代号标识，动作样本分类器查询返回的结果为动作样本类的唯一动作分类代号标识。

满足以上条件的动作样本库，样本分类器，具体通过以下步骤实现在动作样本库中查询出最匹配的动作样本类，参见图3：

S301、将所述树状结构的根结点作为当前处理节点；

S302、重复以下步骤，直到所述当前处理节点没有子节点，返回所述当前处理节点对应的动作样本类的唯一动作分类代号标识：

利用所述当前处理节点对应的动作样本分类器进行查询，查询出所述当前处理节点的子节点中最匹配的动作样本类，将该最匹配的动作样本类对应的节点作为当前处理节点。

另外，针对采用支持向量机算法的动作样本分类器可能具有一定误差的情况，如：在查询过程中，当前处理节点的子节点中最匹配的动作样本类的匹配度为51％，而次匹配的动作样本类的匹配度为49％，而实际上，次匹配的动作样本类有可能是真正最匹配的动作样本类，因此本发明采取以下方法降低误差：

在上述步骤302中，所述利用当前处理节点对应的动作样本分类器进行查询，查询出所述当前处理节点的子节点中最匹配的动作样本类之后，还包括：

查询出所述当前处理节点的子节点中次匹配的动作样本类；

判断所述最匹配的动作样本类与所述次匹配的动作样本类的匹配度的差值是否小于标准值；

如果是，则将所述最匹配的动作样本类对应的节点作为第一当前处理节点，所述次匹配的动作样本类对应的节点作为第二当前处理节点；

判断所述第一当前处理节点是否有子节点，如果有，则利用所述第一当前处理节点对应的动作样本分类器进行查询，查询出所述第一当前处理节点的子节点中最匹配的动作样本类，将该第一当前处理节点的子节点中最匹配的动作样本类作为第一最匹配动作样本类，如果没有，则将所述第一当前处理节点对应的动作样本类作为第一最匹配动作样本类；

判断所述第二当前处理节点是否有子节点，如果有，则利用所述第二当前处理节点对应的动作样本分类器进行查询，查询出所述第二当前处理节点的子节点中最匹配的动作样本类，将该第二当前处理节点的子节点中最匹配的动作样本类作为第二最匹配动作样本类，如果没有，则将所述第二当前处理节点对应的动作样本类作为第二最匹配动作样本类；

比较所述第一最匹配动作样本类与第二最匹配动作样本类的匹配度，选择匹配度最高的动作样本类作为最匹配的动作样本类，将该最匹配的动作样本类对应的节点作为当前处理节点。

可见，利用以上条件实现的动作样本库、样本分类器在树状结构的每一层，只对最匹配的动作样本类对应的节点进行下一级查询，节省了查询时间；而且在最匹配与次匹配的动作样本类的匹配度差值不大的情况下，通过比较两者子节点中最匹配的动作样本类的匹配度，选择匹配度最高的作为最匹配的动作样本类，提高了本发明基于动作识别的人机互动的效率、精度。

下面对步骤S104：查询出所述最匹配的动作样本类在预先设置的规则中对应的指令做详细阐述：

在本发明中，所述预先设置的规则，可以根据具体实施的需要进行设置，例如一个具体的实施场景：依据本发明实现的一种智能玩具，该智能玩具有一套游戏流程：语音提示用户做指定动作，判断用户做了指定动作，发出鼓掌赞扬的语音提示，判断用户没做出指定动作，发出动作不正确的语音提示；依据本发明的方法，该具体实施场景的预先设置的规则是：

指定动作的动作样本类对应指令：发出鼓掌赞扬的语音提示；

非指定动作的动作样本类对应指令：发出动作不正确的语音提示；

或者

指定动作的动作样本类对应指令：向智能玩具控制系统发出执行鼓掌动作的命令；

非指定动作的动作样本类对应指令：向智能玩具控制系统发出执行摇头动作的命令。

当然，在本发明具体实施到不同场景中，预先设置的规则按照实际需要可进行相应修改、润饰，都在本发明保护范围之内。

本发明还提供一种基于动作识别的人机互动装置，参见图4，该装置包括：

视频图像采集单元401：用于利用视频设备获取互动对象的视频图像，将所述互动对象的视频图像发送至运动估计单元；

运动估计单元402：用于对所述互动对象的视频图像进行运动估计，获得所述互动对象的运动向量，将所述互动对象的运动向量发送至识别单元；

识别单元403：用于根据预先设置的匹配条件，利用所述互动对象的运动向量，在动作样本库中查询出最匹配的动作样本类，在所述动作样本库中所述动作样本类具体通过对动作样本的运动向量分类获得，将所述最匹配的动作样本类发送至指令查询单元；

指令查询单元404：用于查询出所述最匹配的动作样本类在预先设置的规则中对应的指令，将所述指令发送至执行单元；

指令执行单元405：执行所述指令。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于动作识别的人机互动方法，其特征在于，包括：

利用视频设备获取互动对象的视频图像；

执行所述指令。

2.根据权利要求1所述的方法，其特征在于，所述运动估计具体包括以下步骤：

判断当前级别的视频图像是否为最高分辨率的视频图像，

如果不是，则对当前级别的视频图像进行以下处理：

3.根据权利要求1所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，所述预先设置的匹配条件具体为所述互动对象的运动向量与所述动作样本类的运动向量最匹配。

5.根据权利要求1所述的方法，其特征在于，还包括：

根据所述互动对象的运动向量获得所述互动对象的位置。

6.根据权利要求5所述的方法，其特征在于，在所述动作样本库中所述动作样本类还通过对动作样本的位置分类获得；

所述预先设置的匹配条件具体为所述互动对象的运动向量与所述动作样本类的运动向量最匹配，且所述互动对象的位置与所述动作样本类的位置最匹配。

7.根据权利要求5所述的方法，其特征在于，还包括：

根据所述互动对象的一个或多个区域的位置和所述互动对象的运动向量，获得所述互动对象的一个或多个区域的运动向量。

8.根据权利要求7所述的方法，其特征在于，

所述预先设置的匹配条件具体为所述互动对象的一个或多个区域的运动向量与所述动作样本类的运动向量最匹配。

9.根据权利要求7所述的方法，其特征在于，在所述动作样本库中所述动作样本类还通过对动作样本的位置分类获得；

10.根据权利要求1所述的方法，其特征在于，所述在动作样本库中查询出最匹配的动作样本类，具体通过采用支持向量机算法的样本分类器进行查询，返回最匹配的动作样本类，所述样本分类器具体通过采用支持向量机算法对动作样本的运动向量分类学习获得。

11.根据权利要求10所述的方法，其特征在于，

在所述动作样本库中的动作样本类具体通过对动作样本的运动向量采用树状结构分类获得；

所述树状结构按照动作样本类的语义逻辑分层；

所述树状结构的每个节点对应一个动作样本类；

所述动作样本类由唯一动作分类代号标识。

12.根据权利要求11所述的方法，其特征在于，在动作样本库中查询出最匹配的动作样本类具体包括以下步骤：

将所述树状结构的根结点作为当前处理节点；

重复以下步骤，直到所述当前处理节点没有子节点，返回所述当前处理节点对应的动作样本类：

13.一种基于动作识别的人机互动装置，其特征在于，包括：

指令执行单元：执行所述指令。