CN106920251A

CN106920251A - 人手检测跟踪方法及装置

Info

Publication number: CN106920251A
Application number: CN201610461515.0A
Authority: CN
Inventors: 杜志军; 王楠
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-06-23
Filing date: 2016-06-23
Publication date: 2017-07-04
Also published as: EP3477593A4; EP3477593A1; ES2865403T3; TWI703507B; PL3477593T3; EP3477593B1; WO2017219875A1; US10885639B2; US20190188865A1; TW201800975A; JP2019519049A; KR102227083B1; US10885638B2; US20200134838A1; JP6767516B2; KR20190020783A

Abstract

本申请提供了一种人手检测跟踪方法及装置，包括：逐帧图像进行人手检测；当在某一帧图像中检测到人手时，对检测到的人手进行位置跟踪，得到跟踪结果；验证所述跟踪结果是否有效，以对人手进行下一帧跟踪，或者根据所述跟踪结果对人手进行当前帧的局部检测。本申请通过在跟踪时加入验证环节，可以对跟踪结果进行实时修正，保证了快速准确的进行人手检测。

Description

人手检测跟踪方法及装置

技术领域

本发明涉及视觉目标检测跟踪及人机交互技术领域，具体涉及一种人手检测跟踪方法及装置。

背景技术

人手可以作为一种人机交互的工具，应用时需要对人手进行实时检测和跟踪，获取视频中每一帧中人手的位置。具体可以采取每帧都做检测的策略，这个策略的问题是检测比较耗时，不能达到实时检测的目的。而且偶尔出现的误检问题，会导致人手位置的跳动，影响后续的互动效果。

为了解决上述问题，现有技术中引入跟踪的机制，通过跟踪达到实时的效果。然而，跟踪经常会出现跟丢的问题，为了解决跟踪丢失问题，现有技术中常用的方法是引入肤色信息，利用肤色虽然可以避免一些错误的跟踪，但如果背景颜色与肤色相差不多时，仍然会导致跟踪错误的问题。

发明内容

本申请实施例提供一种人手检测跟踪方法，包括：

逐帧图像进行人手检测；

当在某一帧图像中检测到人手时，对检测到的人手进行位置跟踪，得到跟踪结果；

验证所述跟踪结果是否有效，以对人手进行下一帧跟踪，或者根据所述跟踪结果对人手进行当前帧的局部检测。

本申请实施例还提供一种人手检测跟踪装置，包括：

人手检测单元，用于逐帧图像进行人手检测；

位置跟踪单元，用于当在某一帧图像中检测到人手时，对检测到的人手进行位置跟踪，得到跟踪结果；

跟踪结果处理单元，用于验证所述跟踪结果是否有效，以对人手进行下一帧跟踪，或者根据所述跟踪结果对人手进行当前帧的局部检测。

本申请实施例中，通过在跟踪时加入验证环节，可以对跟踪结果进行实时修正，保证了快速准确的进行人手检测。

当然实施本申请的任一产品或者方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的人手检测跟踪方法的一种实施例的方法流程图；

图2为本申请实施例进行人手检测的不同尺度下示意图；

图3为本申请实施例验证跟踪结果的方法流程图；

图4为本申请实施例验证跟踪结果是否有效的示意图；

图5为本申请实施例验根据跟踪结果对人手进行当前帧的局部检测方法流程图；

图6为本申请一实施例中块的合并示意图；

图7为本申请另一实施例中块的合并示意图；

图8为本申请实施例的人手检测跟踪装置的结构示意图；

图9为本申请一实施例的跟踪结果处理单元的结构示意图；

图10为本申请另一实施例的跟踪结果处理单元的结构示意图；

图11为本申请又一实施例的跟踪结果处理单元的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本申请所述的人手检测跟踪方法及装置进行详细的说明。图1是本申请提出的人手检测跟踪方法的一种实施例的方法流程图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块结构。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本申请实施例提供的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法或模块结构连接进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

基于现有技术中对检测到的人手进行跟踪时经常会出现跟丢的问题，本申请通过引入了跟踪验证机制，可以对跟踪结果进行实时修正，保证了快速准确的进行人手检测。具体如图1所示，本申请的人手检测跟踪方法可以包括：

S101：逐帧图像进行人手检测；

S102：当在某一帧图像中检测到人手时，对检测到的人手进行位置跟踪，得到跟踪结果；

S103：验证所述跟踪结果是否有效，以对人手进行下一帧跟踪，或者根据所述跟踪结果对人手进行当前帧的局部检测。

由图1所示的流程可知，本申请首先进行人手检测，在检测到人手时进行位置跟踪，并对跟踪结果进行有效性验证，可以对无效跟踪结果进行修正处理，以防止误判，可以快速准确的进行人手检测，减少计算量。

S101中，一般需要从第一帧图像开始进行人手检测，具体检测方法可以为，遍历每帧图像当全图，利用HOG+SVM方法在进行人手检测，HOG+SVM方法为现有技术中常用的人体检测方法，不再赘述。另外，本申请中，需要在不同尺度下进行人手检测，以与帧图像中的人手进行良好匹配，准确快速的检测到人手，不同尺度请参见图2所示。

人手检测成功(即在某一帧图像中检测到人手)后，就可以对检测到人手进行位置跟踪，一实施例中，可以利用模板匹配策略对检测到的人手进行位置跟踪，得到跟踪结果。

上述该跟踪结果为初步的跟踪结果，根据该初步的跟踪结果还不能确定跟踪是否有效，就需要对跟踪结果进行验证。

跟踪结果一般对应帧图像中定位块(bolock)，验证跟踪结果是否有效即为根据判断该block是否为人手，如图3所示，验证跟踪结果是否有效的方法包括如下步骤：

S301：将所述定位块调整为人手训练时确定的尺寸。分类器在分类前需要训练，由于训练时分类器是固定大小的，进行分类前需要将视频中的人手块调整为人手训练时确定的尺寸。

S302：将尺寸调整后的所述定位块送入分类器，判断该定位块是否为人手，如果该定位块为人手，则所述跟踪结果有效，否则所述跟踪结果无效。

图4为本申请实施例验证跟踪结果是否有效的示意图，如图4所示，首先需要将视频中的人手框(定位块S1)调整(resize)为人手训练时确定的尺寸，得到块S2，然后将块S2送入分类器中，分类器可以输出判断结果，根据该判断结果可以判断块S2是不是人手，如果块S2为人手，则所述跟踪结果有效，否则所述跟踪结果无效。上述分类器可以为SVM、ANN、BOOST等，本申请不以此为限。

对于跟踪结果为有效的情况，可以继续下一帧的跟踪，即重复进行图1的S102及S103，无需进行S101进行人手检测，相比现有技术中对每一帧图像进行人手检测，减小了工作量。

而对于跟踪结果为有效的情况，可能是由于跟踪结果与图像中人手的位置及大小有所偏差，如果直接转到S101继续进行人手检测，可能会造成误判。为了解决该问题，如图5所示，可以根据跟踪结果对人手进行当前帧的局部检测，具体包括：

S501：确定上述block的中心，以设定步长及设定块尺度定义多个邻域块。

S502：将所述多个邻域块分别调整为人手训练时确定的尺寸。分类器在分类前需要训练，由于分类器训练时是固定大小的，进行分类前需要将视频中的人手块调整为人手训练时确定的尺寸。

S503：将调整尺寸后的所述多个邻域块分别送入分类器，判断所述多个邻域块中为人手的邻域块的数量。

具体地，可以定义当前跟踪结果的block中心为(x，y)，block的框高为(w，h)。根据上述描述，该block被判不是人手，可能的原因是跟踪结果与真实的位置有些偏差，或者人手因为拍摄距离远近导致了人手成像时的缩放。因此，本申请采用了如下策略来解决这个问题，为了清楚的说明，下述策略中将上述设定步长设为2，邻域块数设为8，设定块尺度设为(0.8w，0.8h)，(w，h)，(1.2w，1.2h)三个尺度，并非用于限定。

首先，在(x，y)的以步长为2的8邻域进行人手检测，即等待判定的8个邻域块中心分别为：(x-2，y-2)，(x，y-2)，(x+2，y-2)，(x，y-2)，(x，y+2)，(x+2，y-2)，(x+2，y)，(x+2，y+2)。在设定了(0.8w，0.8h)，(w，h)，(1.2w，1.2h)三个尺度后，邻域块的个数相当于3*8＝24个，块的不同尺度是为了涵盖缩放的影响。

完成上述操作后，可以对24邻域块分别进行人手判断，首先将每个邻域块分别调整为人手训练时确定的尺寸，然后将调整尺寸后的邻域块分别送入分类器，判断每个邻域块是否为人手，最后统计为人手的邻域块的数量。该策略需要进行3*8次的resize和分类器判定操作，相对现有技术的每帧进行检测操作，极大减少了计算量。

基于统计的为人手的邻域块的数量，可以进行进一步的动作，具体如下：

如果24个邻域块中为人手的邻域块的数量大于或等于2，可以将所有为人手的邻域块合并后作为最终跟踪结果输出，然后进行下一帧跟踪，即重复进行图1的S102及S103，无需进行S101进行人手检测。

假设24个邻域块中为人手的邻域块的数量等于2，如图6所示，两个虚线框(块601和块602)为检测到的块，块601的结果为(left1,top1,right1,bottom1)，其中(left1,top1)标识了块601的左上顶点坐标，(right1,bottom1)标识了块601的右下顶点坐标。块602的结果为(left2,top2,right2,bottom2)，其中(left2,top2)标识了块602的左上顶点坐标，(right2,bottom2)标识了块602的右下顶点坐标。块601及块602合并得到块603，块603的结果为((left1+left2)/2,(top1+top2)/2,(right1+right2)/2,(bottom1+bottom2)/2)，该合并后的结果(块603)作为最终跟踪结果输出。

对于24个邻域块中为人手的邻域块的数量大于或等于2的情况，相当于在一个有限的区域做了人手检测操作，输出的是检测的结果。

如果24个邻域块中为人手的邻域块仅有一个，将为人手的邻域块与S102中得到的定位块合并后作为最终跟踪结果输出，然后进行下一帧跟踪，即重复进行图1的S102及S103，无需进行S101进行人手检测。

假设通过分类器判断24个邻域块中仅有一个邻域块为人手，如图7所示，块701为检测到的块，块701的结果为(left3,top3,right3,bottom3)，其中(left3,top3)标识了块701的左上顶点坐标，(right1,bottom1)标识了块701的右下顶点坐标。块702为S102中得到的块，块702的结果为(left4,top4,right4,bottom4)，其中(left4,top4)标识了块702的左上顶点坐标，(right4,bottom4)标识了块701的右下顶点坐标。块701及块702合并得到块703，块703的结果为((left3+left4)/2,(top3+top4)/2,(right3+right4)/2,(bottom3+bottom4)/2)，该合并后的结果(块703)作为最终跟踪结果输出。

对于上述24个邻域块中仅有一个邻域块为人手的情况，可以理解为，跟踪和检测都是有效的，只是跟踪结果与真实位置有一点点偏差，因此做合并就可以了。

如果24个邻域块中不存在为人手的邻域块，可能原因是人手不存在了，或者人手的形态与训练时定义的形态存在较大差异，重新逐帧图像进行人手检测。

本申请实施例的人手检测跟踪方法，通过对跟踪结果进行有效性验证，可以对无效跟踪结果进行修正处理，以防止误判，可以快速准确的进行人手检测。通过根据跟踪结果对人手进行当前帧的局部检测，可以极大的减少计算量。

基于与上述人手检测跟踪方法相同的发明构思，本申请提供一种人手检测跟踪装置，如下面实施例所述。由于该人手检测跟踪装置解决问题的原理与人手检测跟踪方法相似，因此该人手检测跟踪装置的实施可以参见虚假交易信息识别方法的实施，重复之处不再赘述。

图8为本申请实施例的人手检测跟踪装置的结构示意图，如图8所示，该人手检测跟踪装置包括：人手检测单元801，位置跟踪单元802及跟踪结果处理单元803。

人手检测单元801用于逐帧图像进行人手检测；

位置跟踪单元802用于当在某一帧图像中检测到人手时，对检测到的人手进行位置跟踪，得到跟踪结果；

跟踪结果处理单元803用于验证所述跟踪结果是否有效，以对人手进行下一帧跟踪，或者根据所述跟踪结果对人手进行当前帧的局部检测。

一实施例中，人手检测单元801具体用于：遍历帧图像全图，利用HOG+SVM方法在不同尺度下进行人手检测。另外，本申请中，需要在不同尺度下进行人手检测，以与帧图像中的人手进行良好匹配，准确快速的检测到人手。

一实施例中，位置跟踪单元802具体用于：利用模板匹配策略对检测到的人手进行位置跟踪，得到跟踪结果。

一实施例中，如图9所示，跟踪结果处理单元包括：尺寸调整模块901及人手判断模块902。

尺寸调整模块901用于将所述定位块调整为人手训练时确定的尺寸；分类器在分类前需要训练，由于训练时分类器是固定大小的，进行分类前需要将视频中的人手块调整为人手训练时确定的尺寸。

人手判断模块902用于将尺寸调整后的所述定位块送入分类器，判断该定位块是否为人手，如果该定位块为人手，则所述跟踪结果有效，否则所述跟踪结果无效。

一实施例中，如果人手判断模块902判断得到跟踪结果有效，位置跟踪单元802对人手进行下一帧跟踪。

一实施例中，如图10所示，跟踪结果处理单元803还包括：信息确定模块1001，用于确定所述定位块的中心，以设定步长及设定块尺度定义多个邻域块。尺寸调整模块901将多个邻域块分别调整为人手训练时确定的尺寸，人手判断模块902将调整尺寸后的所述多个邻域块分别送入分类器，判断所述多个邻域块中为人手的邻域块的数量。

一实施例中，如图11所示，跟踪结果处理单元803还包括：合并模块1101，用于当多个邻域块中为人手的邻域块的数量大于或等于2时，将所有为人手的邻域块合并后作为最终跟踪结果输出，然后进行下一帧跟踪。

一实施例中，如果多个邻域块中为人手的邻域块的数量为1，合并模块1101还用于将为人手的邻域块与所述定位块合并后作为最终跟踪结果输出，然后进行下一帧跟踪。

一实施例中，如果多个邻域块中不存在为人手的邻域块，需要通过人手检测单元801重新逐帧图像进行人手检测。

本申请实施例的人手检测跟踪装置，通过对跟踪结果进行有效性验证，可以对无效跟踪结果进行修正处理，以防止误判，可以快速准确的进行人手检测。通过根据跟踪结果对人手进行当前帧的局部检测，可以极大的减少计算量。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种人手检测跟踪方法，其特征在于，包括：

逐帧图像进行人手检测；

2.根据权利要求1所述的人手检测跟踪方法，其特征在于，逐帧图像进行人手检测，包括：遍历帧图像全图，利用HOG+SVM方法在不同尺度下进行人手检测。

3.根据权利要求1所述的人手检测跟踪方法，其特征在于，对检测到的人手进行位置跟踪，得到跟踪结果，包括：

利用模板匹配策略对检测到的人手进行位置跟踪，得到跟踪结果。

4.根据权利要求1所述的人手检测跟踪方法，其特征在于，所述跟踪结果为帧图像中用于标识人手位置的定位块的坐标，验证所述跟踪结果是否有效，包括：

将所定位块调整为人手训练时确定的尺寸；

将尺寸调整后的所述定位块送入分类器，判断该定位块是否为人手，如果该定位块为人手，则所述跟踪结果有效，否则所述跟踪结果无效。

5.根据权利要求4所述的人手检测跟踪方法，其特征在于，如果所述跟踪结果有效，对人手进行下一帧跟踪。

6.根据权利要求4所述的人手检测跟踪方法，其特征在于，如果所述跟踪结果无效，根据所述跟踪结果对人手进行当前帧的局部检测，包括：

确定所述定位块的中心，以设定步长及设定块尺度定义多个邻域块；

将所述多个邻域块分别调整为人手训练时确定的尺寸；

将调整尺寸后的所述多个邻域块分别送入分类器，判断所述多个邻域块中为人手的邻域块的数量。

7.根据权利要求6所述的人手检测跟踪方法，其特征在于，如果多个邻域块中为人手的邻域块的数量大于或等于2，将所有为人手的邻域块合并后作为最终跟踪结果输出，然后进行下一帧跟踪。

8.根据权利要求6所述的人手检测跟踪方法，其特征在于，如果多个邻域块中为人手的邻域块的数量为1，将为人手的邻域块与所述定位块合并后作为最终跟踪结果输出，然后进行下一帧跟踪。

9.根据权利要求6所述的人手检测跟踪方法，其特征在于，如果多个邻域块中不存在为人手的邻域块，重新逐帧图像进行人手检测。

10.一种人手检测跟踪装置，其特征在于，包括：

人手检测单元，用于逐帧图像进行人手检测；

11.根据权利要求10所述的人手检测跟踪装置，其特征在于，所述人手检测单元具体用于：遍历帧图像全图，利用HOG+SVM方法在不同尺度下进行人手检测。

12.根据权利要求10所述的人手检测跟踪装置，其特征在于，所述位置跟踪单元具体用于：

13.根据权利要求10所述的人手检测跟踪装置，其特征在于，所述跟踪结果为帧图像中用于标识人手位置的定位块的坐标，所述跟踪结果处理单元包括：

尺寸调整模块，用于将所述定位块调整为人手训练时确定的尺寸；

人手判断模块，用于将尺寸调整后的所述定位块送入分类器，判断该定位块是否为人手，如果该定位块为人手，则所述跟踪结果有效，否则所述跟踪结果无效。

14.根据权利要求13所述的人手检测跟踪装置，其特征在于，如果所述跟踪结果有效，所述位置跟踪单元对人手进行下一帧跟踪。

15.根据权利要求13所述的人手检测跟踪装置，其特征在于，所述跟踪结果处理单元还包括：信息确定模块，用于确定所述定位块的中心，以设定步长及设定块尺度定义多个邻域块；

所述尺寸调整模块将所述多个邻域块分别调整为人手训练时确定的尺寸；

所述人手判断模块用于将调整尺寸后的所述多个邻域块分别送入分类器，判断所述多个邻域块中为人手的邻域块的数量。

16.根据权利要求15所述的人手检测跟踪装置，其特征在于，所述跟踪结果处理单元还包括：合并模块，用于当多个邻域块中为人手的邻域块的数量大于或等于2时，将所有为人手的邻域块合并后作为最终跟踪结果输出，然后进行下一帧跟踪。

17.根据权利要求16所述的人手检测跟踪装置，其特征在于，如果多个邻域块中为人手的邻域块的数量为1，所述合并模块还用于将为人手的邻域块与所述定位块合并后作为最终跟踪结果输出，然后进行下一帧跟踪。

18.根据权利要求15所述的人手检测跟踪装置，其特征在于，如果多个邻域块中不存在为人手的邻域块，所述人手检测单元重新逐帧图像进行人手检测。