CN102436301B

CN102436301B - 一种基于参考区域和时域信息的人机交互方法及系统

Info

Publication number: CN102436301B
Application number: CN201110239672.4A
Authority: CN
Inventors: 谭文伟
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2011-08-20
Filing date: 2011-08-20
Publication date: 2015-04-15
Anticipated expiration: 2031-08-20
Also published as: CN102436301A

Abstract

本发明公开了一种基于参考区域和时域信息的人机交互方法及系统。该方法获取参考区域RGB彩色图像，获取相邻帧差图像，统计二维空间运动特征，统计时域运动特征，将计算出的运动特征向量与预定动作类型模版特征库中的动作类型模版进行特征比对，计算运动特征向量与动作类型模版的相似度。根据计算相似度获得的结果对参考区域内的人体运动进行判断，最后输出动作事件标准数据，供外层应用程序调用，简化了处理过程，提高了处理速度。本发明包含的自适应区域选择算法，减少了对人机交互动作设计的约束，提高了人体动作灵活性，包容更多更方便的人机交互动作的类型。

Description

一种基于参考区域和时域信息的人机交互方法及系统

技术领域

本发明涉及多媒体图像处理技术领域，尤其涉及的是一种基于参考区域和时域信息的人机交互方法及系统。

背景技术

人机交互（Human-Computer Interaction, 简写HCI）：是实现人与计算系统进行交交互。随着计算机技术的迅猛发展，人与计算机的交互活动逐渐成为人们日常生活的一个重要组成部分。鼠标、键盘等传统的人机交互设备在使用的自然性和友好性等方面都存在一定的局限性，因此研究符合人际交流习惯的人机交互技术成为了当前的发展趋势。

以往的人机交互方式需要附加特定的传感器，比如手柄，遥控器，数据手套。这种方式给用户操作带来了许多不方便。还有的人机交互方式通过人手手形检测和跟踪来完成，由于人手的活动自由度很大，形状变化大，因此在复杂的自然场景下检测率不高。这样的方法使得交互需要更多的时间负担，难以满足许多实时人机交互应用的需求。

因此，现有技术还有待于改进和发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于参考区域和时域信息的人机交互方法及系统，提供了一种基于计算机视觉的可包容更多人体动作灵活性以及实时的人机交互方法，通过基于参考区域的选择方法和时域信息处理就跳过了人手手形检测和跟踪，从而简化了处理过程，提高人机交互效率。

本发明解决技术问题所采用的技术方案如下：

一种基于参考区域和时域信息的人机交互方法，其中，包括步骤：

A、通过摄像头采集人体图像，以人脸为参照物体，采用参考区域自适应选择算法将参考区域自适应地选择在人脸区域侧的某个区域，并获取参考区域RGB彩色图像；

B、获取步骤A中参考区域RGB彩色图像的相邻帧差图像；

C、根据步骤B获取的相邻帧差图像计算二维空间参考区域内人体的运动特征，通过计算参考区域RGB彩色图像在某时域内的运动特征，并计算出时域运动特征向量；

D、将步骤C中计算出的运动特征向量与预定动作类型模版特征库中的动作类型模版进行特征比对，计算运动特征向量与动作类型模版的相似度；

E、根据步骤D计算相似度获得的结果对参考区域内的人体运动进行判断，最后输出动作事件标准数据，供外层应用程序调用；

所述步骤A具体包括如下步骤：

A1、计算通过摄像头采集到的人体图像的积分图，提取该人体图像的类矩形特征，根据预定的分类器特征库，运行cascade级联的方法在该人体图像中搜索人脸区域；

A2、以人脸为参照物体，采用参考区域自适应选择算法将参考区域自适应地选择在人脸区域侧的某个区域，计算参考区域RGB彩色图像的位置及大小: ，其中、P是包含参考区域RGB彩色图像中心点横坐标、纵坐标、宽度和高度的向量，T是映射函数，自变量分别表示输入人脸区域的中心位置横坐标、纵坐标、宽度和高度。

所述基于参考区域和时域信息的人机交互方法，其中，所述步骤A1中的预定的分类器特征库包括如下步骤：

A11、计算所述人体图像的积分图，提取所述人体图像的类矩形特征；

A12、根据Adaboost算法筛选有效的特征，构成弱分类器；

A13、通过组合多个弱分类器，构成强分类器；

A14、级联多个强分类器，形成人脸检测的分类器特征库。

所述基于参考区域和时域信息的人机交互方法，其中，所述步骤B具体包括如下步骤：

B1、将所述参考区域RGB彩色图像通过如下公式：

进行灰度化处理；其中x 、y 为所述参考区域RGB彩色图像中任意像素点的横坐标和纵坐标，f(x,y)表示灰度图像，其值在0~255之间；

B2、通过公式：，其中、分别为相邻前后帧像素点的灰度值, 为设定的变化阈值，来计算相邻帧差图像中任意像素的运动变化值，该运动变化值为1的像素表示有运动点，为0的像素表示没有运动点。

所述基于参考区域和时域信息的人机交互方法，其中，所述步骤C中的统计二维空间运动特征具体包括：

C11、根据步骤B2中相邻帧差图像所述运动变化值计算运动点个数，计算公式为，其中W、H分别表示相邻帧差图像的宽和高；

C12、根据步骤C11中相邻帧差图像的运动点个数来计算运动质心位置，计算公式为,；

C13、设定时域窗N，记录连续N帧参考区域RGB彩色图像的信息；

C14、根据步骤C12，计算参考区域RGB彩色图像的运动特征值，计算公式为，该v值表示了参考区域RGB彩色图像内人体动作在某个时刻的运动状态；然后计算时域运动特征向量：，定义i=1~N，i为自然数，则表示第i帧运动特征值。

所述基于参考区域和时域信息的人机交互方法，其中，所述步骤D包括：

D1、预定义K个动作类型模版T_i，其中i=1~K，i为自然数；

D2、利用绝对值距离来计算步骤C14得到的运动特征向量V与动作类型模版的相似度；

D3、如果，且<TH，TH为预设阈值，则该动作类型归属为第k类;如果不满足则不属于任何类。

一种基于参考区域和时域信息的人机交互系统，其中，包括：

参考区域图像获取模块，用于通过摄像头采集人体图像，以人脸为参照物体，采用参考区域自适应选择算法将参考区域自适应地选择在人脸周围的某个区域，以获取参考区域RGB彩色图像；

相邻帧差获取模块，用于获取所述参考区域RGB彩色图像的相邻帧差图像；

统计与计算模块，用于根据获取的相邻帧差图像计算二维空间参考区域内人体的运动特征，通过计算参考区域RGB彩色图像在某时域内的运动特征，并计算出时域运动特征向量；

特征对比模块，用于将所计算出的运动特征向量与预定动作类型模版特征库中的动作类型模版进行特征比对，计算运动特征向量与动作类型模版的相似度；

输出模块，用于根据计算相似度获得的结果对参考区域内的人体运动进行判断，最后输出动作事件标准数据，供外层应用程序调用；

所述参考区域图像获取模块包括：

人脸搜索单元，用于计算通过摄像头采集到的人体图像的积分图，提取该人体图像的类矩形特征，根据预定的分类器特征库，运行cascade级联的方法在该人体图像中搜索人脸区域；

参考区域计算单元，用于以人脸为参照物体，采用参考区域自适应选择算法将参考区域自适应地选择在人脸周围的某个区域，计算参考区域RGB彩色图像的位置及大小: ，其中、P是包含参考区域RGB彩色图像中心点横坐标，纵坐标，宽度，高度的向量，T是映射函数，自变量分别表示输入人脸区域的中心位置横坐标，纵坐标，宽度和高度。

所述基于参考区域和时域信息的人机交互系统，其中，所述相邻帧差获取模块包括：

灰度处理单元，用于将所述参考区域RGB彩色图像通过如下公式：

相邻帧差图像获取单元，用于通过公式：，其中、为相邻前后帧像素点的灰度值, 为设定的变化阈值，来计算相邻帧差图像中任意像素的运动变化值，该运动变化值为1的像素表示有运动点，为0的像素表示没有运动点。

本发明所提供的基于参考区域和时域信息的人机交互方法及系统，针对普通的RGB图像或者深度图像做出的一种运动检测方法以及运动识别方法，通过基于参考区域的选择方法和时域信息处理就跳过了人手手形检测和跟踪，从而简化了处理过程，提高人机交互效率。

本发明提供的基于参考区域和时域信息的人机交互方法及系统。该方法，摒弃了以往发明中所需要的人手手型检测和定位跟踪，简化了处理过程，提高了处理速度。本发明包含的自适应区域选择算法，减少了对人机交互动作设计的约束，提高了人体动作灵活性，包容更多更方便的人机交互动作的类型。

本实施例的基于参考区域和时域信息的人机交互方法，由于摒弃了人手手形检测与跟踪，这样节约了处理时间同时，也减少了因人手检测不到时而导致的误判。减少时间消耗，自适应参考区域选择方法的引入，只需要处理参考区域而不需要处理整幅帧图像，所以也节省下了许多图像处理的时间。由于该参考区域是根据人脸的相对位置而自动设定的，所以当人体位置改变后，参考区域自动跟随。当人的肢体运动时，很自然的落在这个参考区域内。这样人机交互很自然方便的进行，不需要将人体约束在特定的位置。这样包容更多人体动作自由灵活性,增进用户交互的方便性，提高人机交互效率。

附图说明

图1是本发明基于参考区域和时域信息的人机交互方法流程图。

图2是本发明基于参考区域和时域信息的人机交互方法中步骤S100摄像头采集人体图像的结构示意图。

图3是本发明基于参考区域和时域信息的人机交互方法中步骤S100参考区域选择过程示意图。

图4是本发明基于参考区域和时域信息的人机交互方法中参考区域确认过程图。

图5是本发明基于参考区域和时域信息的人机交互方法步骤S300中向右平移的时域运动特征计算示例。

图6是本发明基于参考区域和时域信息的人机交互方法步骤S100中的多个参考区域选择过程示意图。

图7是本发明基于参考区域和时域信息的人机交互系统的原理框图。

具体实施方式

本发明基于参考区域和时域信息的人机交互方法及系统提供了一种基于计算机视觉的可包容更多人体动作灵活性以及实时的人机交互方法及系统，为使本发明目的、技术方案更加清楚、明确，以下参照附图并结合实施例对本发明作详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供了一种基于参考区域和时域信息的人机交互方法，如图1所示，主要包括步骤：

步骤S100：通过摄像头采集人体图像，以人脸为参照物体，采用参考区域自适应选择算法将参考区域自适应地选择在人脸区域侧的某个区域，并获取参考区域RGB彩色图像。如图2所示，通过摄像头采集人体图像是通过普通摄像头10来进行人体图像的采集，普通摄像头10包括PC上的USB摄像头，手持设备的摄像头，智能电视上的摄像头。普通摄像头已被普遍使用，能够随意采集包含人体运动的自然场景，使用成本较低。

根据人体运动学原理和大量的现场实验得出结论，人机交互的80%的上肢动作是很自然地在人体的肩膀附近区域完成的，这些动作包括挥手，向左平移，向右平移，向上平移，向下平移，按压等，因此，参考区域的选择主要可放在这个区域。步骤S100具体实现方法如下：

S110、检测人脸，采用Adaboost人脸检测算法，通过基于类矩形特征的Adaboost人脸检测算法判断普通摄像头摄取的图像中是否有人脸存在。首先计算通过摄像头采集到的人体图像积分图，提取该人体图像的类矩形特征，根据已训练好的分类器特征库，运行cascade级联的方法在该人体图像中搜索人脸区域。

其中分类器特征库训练方法包括：A11、计算通过摄像头采集到的人体图像的积分图，提取该人体图像的类矩形特征；A12、根据Adaboost算法筛选有效的特征，构成弱分类器；A13、通过组合多个弱分类器，构成强分类器；A14级联多个强分类器，形成人脸检测的分类器特征库。如图3所示，实线框所示区域50就是自动检测到的人脸区域。

S120、以人脸为参照物体，采用参考区域自适应选择算法将参考区域自适应地选择在人脸区域侧的某个区域，如图3所示，虚线框30所示即为参考区域，确定参考区域30后，即可计算参考区域RGB彩色图像的位置及大小: ，其中，P是包含参考区域30 的RGB彩色图像中心点横坐标、纵坐标、宽度和高度的向量，T是映射函数，自变量分别表示人脸区域50的中心位置横坐标、纵坐标、宽度和高度。

本发明实施例中的“参考区域”是以人脸区域为参照，按以上参考区域自适应算法获得的区域。参考区域同时也处于摄像头有效视角范围之内。例如将映射函数T设定为线性变换函数，则,。其中a、b、l、m为预设值，a表示参考区域相对于人脸区域中心位置的横向偏移量，b表示参考区域相对于人脸区域中心位置的纵向偏移量，m为参考区域相对于人脸区域宽度的倍乘因子，l为参考区域相对于人脸区域高度的倍乘因子。

如图4所示，实线框50为人脸区域，令表示参考区域30相对于人脸区域50中心位置的横向偏移量a=30cm，表示参考区域30相对于人脸区域50中心位置的纵向偏移量b=20cm , 表示参考区域30相对于人脸区域50宽度的倍乘因子m=2，表示参考区域相对于人脸区域50高度的倍乘因子l=2，将参考区域30（虚线矩形框所示）自适应地选择在人脸区域50附近的某个区域（比如左肩附近，上肢外侧，上半身区域，头顶区域等等）。参考区域的引入是区别于以往做图像处理时所采用的整幅图像帧的处理，而参考区域与整幅图像相比要小很多，这样数据处理量相对减少很多。

有了参考区域，只要锁定参考区域进行观察，就能完成绝大部分常见人体动作的识别。如此，图像处理的数据量会大幅度减少，从而节约了处理时间。

图6示出了更多的参考区域例子，实线框50为人脸区域，虚线框31为第一参考区域，虚线框32为第二参考区域，虚线框33为第三参考区域。

第一参考区域31相对于人脸区域50中心位置的横向偏移量a=30cm，相对于人脸区域50中心位置的纵向偏移量b=30cm，相对于人脸区域50宽度的倍乘因子m=2, 相对于人脸区域50高度的倍乘因子l=6。

第二参考区域32相对于人脸区域50中心位置的横向偏移量a=10cm，相对于人脸区域50中心位置的纵向偏移量b=20cm，相对于人脸区域50宽度的倍乘因子m=6，相对于人脸区域50高度的倍乘因子l=1.5。

第三参考区域33相对于人脸区域50中心位置的横向偏移量a=30cm，相对于人脸区域50中心位置的纵向偏移量b=30cm，相对于人脸区域50宽度的倍乘因子m=2，相对于人脸区域50高度的倍乘因子l=6。上述各个参考区域设定的例子可视具体情况根据人脸位置来相对设置，不是仅限于上述参数。

获得参考区域RGB彩色图像后，即进入步骤S200。

步骤S200：获取步骤S100中参考区域RGB彩色图像的相邻帧差图像；

步骤S200具体包括：S210、对步骤S100获得的参考区域RGB彩色图像进行灰度化处理，灰度化处理表达式为：

其中x 、y 为所述参考区域RGB图像中任意像素点的横坐标和纵坐标。f(x,y)表示灰度图像也叫亮度图，其值在0~255之间。

S220：通过公式，其中、分别为相邻前后帧像素点的灰度值, 为设定的变化阈值，来计算相邻帧差图像中任意像素的运动变化值，该值为1的像素表示有运动点，为0的像素表示没有运动点。

获得参考区域RGB彩色图像的相邻帧差图像后，进入步骤S300。

步骤S300：根据步骤S200中获取的相邻帧差图像计算二维空间参考区域内人体的运动特征，通过计算参考区域RGB彩色图像在某时域内的运动特征，计算出时域运动特征向量。

统计二维空间运动特征时具体采用如下步骤：

S311、根据步骤S220中相邻帧差图像所述运动变化值计算运动点个数：计算公式为，其中W、H分别表示相邻帧差图像的宽和高。

S312、根据步骤S311中相邻帧差图像的运动点个数来计算运动质心位置，计算公式为,。

S313、设定时域窗N，记录连续N帧参考区域RGB彩色图像的信息。

S314、根据步骤S312，计算参考区域RGB彩色图像的运动特征值，计算公式为，该v值表示了参考区域RGB彩色图像内人体动作在某个时刻的运动状态；然后计算时域运动特征向量：，定义i=1~N，i为自然数，则表示第i帧运动特征值。

图5所示是一幅是参考区域图像的时域参考图（以人手连续向右运动7帧图片为例），该图中连续7帧分别为第一帧参考区域t1、第二帧参考区域t2、第三帧参考区域t3、第四帧参考区域t4、第五帧参考区域t5、第六帧参考区域t6、第七帧参考区域t7，计算出该连续N=7帧对应的运动特征，即V=(0,0,1,1,1,0,0)，该特征向量表示出了人体动作的连续状态。

计算出时域运动特征向量后，进入步骤S400。

步骤S400：将步骤S300中计算出的运动特征向量与预定动作类型模版特征库中的动作类型模版进行特征比对，计算运动特征向量与动作类型模版的相似度。

步骤S400具体采用如下步骤：

S410、预定义K个动作类型模版，i为自然数（比如向上平移，向下平移，向左平移，向右平移，挥手，按压）, 例如大量的实验结果证明，合理设定N=7；

那么且(表示第i帧的运动质心，为设定阈值)表示图像坐标中的向右平移。

且表示向左平移，表示挥手运动。

S420、利用绝对值距离来计算步骤S314得到的运动特征向量V与动作类型模版的相似度，这里相似度选择用绝对值距离来计算。

如果，且<TH，TH为预设阈值，则该动作类型归属为第k类；如果不满足则不属于任何类；即将计算出的运动特征向量与预定动作类型模版特征库中的动作类型模版进行特征比对，判断是否满足条件，如果否则返回步骤S100获取参考区域RGB彩色图像。如果满足条件，则进入步骤S500输入出相应的动作类型。

图3中所示箭头就表示了该动作类型为向右边平移。

步骤S500：根据步骤S400中计算相似度获得的结果对参考区域内的人体运动进行判断，最后输出动作事件标准数据，供外层应用程序的调用，以输出动作类型。

本发明基于参考区域和时域信息的人机交互方法，可以用于机器人自动控制，互联网浏览与导航操作，游戏互动等应用需求。比如互联网用户通过互联网电视机上网浏览，首先人体处于装配有摄像头的电视机前面，在摄像头的有效视角范围内，将会自动搜索到人脸区域，然后通过预先设定的a、b、m与l值自适应找到参考区域并锁定，记录参考区域连续帧的运动信息，确定某时域内参考区域图像的前后变化，当参考区域中人体的运动被识别时，即根据计算出的运动特征与预定动作类型模板特征库中的动作类型进行比对，确定输出的动作类型，如图5所示，动作为向右平移时，触发向右翻页的事件。

本发明基于参考区域和时域信息的人机交互方法摒弃了人手手形检测与跟踪，节约处理时间的同时，也减少了因人手检测不到时而导致的误判。减少时间消耗，自适应参考区域选择方法的引入，只需要处理参考区域而不需要处理整帧图像，所以也节省下了许多图像处理的时间。而人脸检测技术相对成熟稳定，实时快速，已广泛应用于工业产品中。由于该参考区域是根据人脸的相对位置而自动设定的，所以当人体位置改变后，参考区域能自动跟随。当人的肢体运动时，很自然的落在这个参考区域内。这样人机交互很自然方便的进行，不需要将人体约束在特定的位置。这样包容更多人体动作自由灵活性，增进用户交互的方便性，提高人机交互效率。

基于上述人机交互方法的实施例，本发明还提供了一种基于参考区域和时域信息的人机交互系统，如图7所示，其包括：

参考区域图像获取模块710，用于通过摄像头采集人体图像，以人脸为参照物体，采用参考区域自适应选择算法将参考区域自适应地选择在人脸周围的某个区域，以获取参考区域RGB彩色图像；具体如上述步骤S100所述。

相邻帧差获取模块720，用于获取所述参考区域RGB彩色图像的相邻帧差图像；具体如上所述步骤S200所述。

统计与计算模块730，用于根据获取的相邻帧差图像计算二维空间参考区域内人体的运动特征，通过计算参考区域RGB彩色图像在某时域内的运动特征，并计算出时域运动特征向量；具体如上述步骤S300所示。

特征对比模块740，用于将所计算出的运动特征向量与预定动作类型模版特征库中的动作类型模版进行特征比对，计算运动特征向量与动作类型模版的相似度；具体如上述步骤S400所示。

输出模块750，用于根据计算相似度获得的结果对参考区域内的人体运动进行判断，最后输出动作事件标准数据，供外层应用程序调用。具体如上述步骤S500所示。

其中，所述参考区域图像获取模块包括：

人脸搜索单元，用于计算通过摄像头采集到的人体图像的积分图，提取该人体图像的类矩形特征，根据预定的分类器特征库，运行cascade级联的方法在该人体图像中搜索人脸区域；具体如上述S110所示。

参考区域计算单元，用于以人脸为参照物体，采用参考区域自适应选择算法将参考区域自适应地选择在人脸周围的某个区域，计算参考区域RGB彩色图像的位置及大小: ，其中、P是包含参考区域RGB彩色图像中心点横坐标，纵坐标，宽度，高度的向量，T是映射函数，自变量分别表示输入人脸区域的中心位置横坐标，纵坐标，宽度和高度，具体如上述S120所示。

而所述相邻帧差获取模块包括：

进行灰度化处理；其中x 、y 为所述参考区域RGB彩色图像中任意像素点的横坐标和纵坐标，f(x,y)表示灰度图像，其值在0~255之间；具体如上述S210所示。

相邻帧差图像获取单元，用于通过公式：，其中、为相邻前后帧像素点的灰度值, 为设定的变化阈值，来计算相邻帧差图像中任意像素的运动变化值，该值为1的像素表示有运动点，为0的像素表示没有运动点。具体如上述S220所示。

本发明所提供的一种基于参考区域和时域信息的人机交互方法及系统，针对普通RGB图像或者深度图像做出运动检测及运动识别，通过基于参考区域的选择方法和时域信息处理跳过了人手手形检测和跟踪，从而简化了处理过程，提高了人机交互效率。该方法摒弃了现有技术中需要的人手手型检测和定位跟踪，简化了处理过程，提高了处理速度。本发明包含的自适应区域选择算法，减少了对人机交互动作设计的约束，提高了人体动作灵活性，包容更多更方便的人机交互动作的类型。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于参考区域和时域信息的人机交互方法，其特征在于，包括步骤：

B、获取步骤A中参考区域RGB彩色图像的相邻帧差图像；

C、根据步骤B获取的相邻帧差图像计算二维空间参考区域内人体的运动特征，通过计算参考区域RGB彩色图像在某时域内的运动特征，计算出时域运动特征向量；

所述步骤A具体包括如下步骤：

2.根据权利要求1所述基于参考区域和时域信息的人机交互方法，其特征在于，所述步骤A1中的预定的分类器特征库包括如下步骤：

A12、根据Adaboost算法筛选有效的特征，构成弱分类器；

A13、通过组合多个弱分类器，构成强分类器；

A14、级联多个强分类器，形成人脸检测的分类器特征库。

3.根据权利要求1所述基于参考区域和时域信息的人机交互方法，其特征在于，所述步骤B具体包括如下步骤：

B1、将所述参考区域RGB彩色图像通过如下公式：

4.根据权利要求3所述基于参考区域和时域信息的人机交互方法，其特征在于，所述步骤C中的统计二维空间运动特征具体包括：

5.根据权利要求4所述基于参考区域和时域信息的人机交互方法，其特征在于，所述步骤D包括：

D1、预定义K个动作类型模版T_i，其中i=1~K，i为自然数；

6.一种基于参考区域和时域信息的人机交互系统，其特征在于，包括：

所述参考区域图像获取模块包括：

参考区域计算单元，用于以人脸为参照物体，采用参考区域自适应选择算法将参考区域自适应地选择在人脸周围的某个区域，计算参考区域RGB彩色图像的位置及大小:，其中、P是包含参考区域RGB彩色图像中心点横坐标，纵坐标，宽度，高度的向量，T是映射函数，自变量分别表示输入人脸区域的中心位置横坐标，纵坐标，宽度和高度。

7.根据权利要求6所述基于参考区域和时域信息的人机交互系统，其特征在于，所述相邻帧差获取模块包括：