CN111797704A

CN111797704A - 一种基于相关物体感知的动作识别方法

Info

Publication number: CN111797704A
Application number: CN202010531050.8A
Authority: CN
Inventors: 梁爽; 马文韬; 储港; 谢驰
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-10-20
Anticipated expiration: 2040-06-11
Also published as: CN111797704B

Abstract

本发明涉及一种基于相关物体感知的动作识别方法，用于融合动作相关物体特征识别人物动作，其特征在于，包括以下步骤：1)通过卷积神经网络提取待识别图像的特征图；2)获取待识别图像中的物体，并计算各物体与动作的相关性大小；3)根据相关性大小筛选最相关物体，提取得到最相关物体特征；4)获取待识别图像中的人物，提取人体特征；5)融合人体特征与最相关物体特征，计算各动作的发生概率，完成图像中人物动作的识别，与现有技术相比，本发明具有识别精度高等优点。

Description

一种基于相关物体感知的动作识别方法

技术领域

本发明涉及动作识别领域，尤其是涉及一种基于相关物体感知的动作识别方法。

背景技术

动作识别是计算机视觉领域内的一个长期且热门的研究方向，其相关技术在文化娱乐、信息检索、安全监控和医疗卫生等领域广泛应用。相较于图像分类等其它计算机视觉任务，由于人在进行动作时姿态多变，类内差异性大，类间差异性小，再结合视角、光照等多种因素的变化，使得动作识别任务充满挑战性。

为了解决这个极具挑战性的任务，动作相关的物体作为关键信息之一被研究者们广泛利用。为了获取物体信息，现有方法都是使用单独的目标检测网络独立检测出物体，再用另一个分类网络进行动作分类。

然而，现有方案中经常被忽视的一个问题：训练能够检测物体的目标检测网络需要密集的物体标注。尽管目标检测领域近些年来高速发展，但目前能高效准确识别出物体的方法，如，Faster RCNN、YOLO、SSD等，仍然都依赖于数据集中事先标注的大量物体进行训练。即使是目前最常用的大规模数据集——COCO数据集也只提供了80个类别的物体信息。物体标注信息限制了检测器能够检测出的物体类别和数量，而标注物体信息又相当耗时费力，更不用说，我们几乎不可能标注出实际应用场景中所有可能存在的物体。另外，即使有零次学习(zero-shot learning)技术，但是在目标检测领域刚刚起步，尚不能应用到动作识别任务中。现有方法采用预训练的目标检测器，使得其难以检测出不在训练数据中的动作相关物体，从而影响动作识别精度。

此外，即使提供了物体标注信息，让目标检测器直接预测出可能在各个位置出现的物体仍然不是一件简单的事，也会影响动作识别的精度。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于相关物体感知的动作识别方法，在无需物体标注的情况下，找出并提取动作相关的物体特征，提高动作识别的精度。

本发明的目的可以通过以下技术方案来实现：

一种基于相关物体感知的动作识别方法，用于融合动作相关物体特征识别人物动作，包括以下步骤：

1)通过卷积神经网络提取待识别图像的特征图；

2)获取待识别图像中的物体，并计算各物体与动作的相关性大小；

3)根据相关性大小筛选最相关物体，提取得到最相关物体特征；

4)获取待识别图像中的人物，提取人体特征；

5)融合人体特征与最相关物体特征，计算各动作的发生概率，完成图像中人物动作的识别。

进一步地，所述的步骤2)具体包括：

201)以输入特征图上每一个像素位置为中心，分别设置K个不同尺度的锚点框，作为物体候选框枚举出待识别图像中的物体；

202)计算各物体候选框对应的动作相关性分数；

203)利用sigmoid函数将各物体候选框对应的动作相关性分数映射到0到1之间，得到标准动作相关性分数。

进一步优选地，所述的计算各物体候选框对应的动作相关性分数具体包括：

使用一个3×3的卷积扩大特征图上每一个像素对应的感受野，再使用K个1×1的卷积在特征图的每一个像素位置上计算和物体候选框一一对应的动作相关性分数。

进一步地，所述的步骤3)具体包括：

301)根据动作相关性分数，由高至低排列各物体候选框，构成候选框列表；

302)获取候选框列表中重合比例大于设定重合阈值的物体候选框，组成重合候选框组；

303)从各重合候选框组中分别筛选出动作相关性分数最高的物体候选框，作为最相关物体，得到包含N个最相关物体候选框的最相关候选框列表；

304)对步骤1)输出的特征图应用RoI池化得到N个物体候选框对应的特征向量，并将特征向量乘以对应物体候选框的标准动作相关性分数，得到N个最相关物体特征。

进一步优选地，所述的步骤303)还包括：

若从各重合候选框组中筛选出的物体候选框数量大于100，则只选取动作相关性分数最高的前100个物体候选框，作为N个最相关物体。

进一步优选地，所述的设定重合阈值为0.7，所述的重合比例的计算公式为：

其中，A∩B表示第一物体框和第二物体框间相交区域面积，A∪B表示第一物体框和第二物体框的实际总面积。

进一步地，所述的步骤5)具体包括：

501)对人体特征使用卷积层提取特征，并使用一层全连接层做分类器，得到各人体特征对应各动作类别的人体分类得分；

502)对最相关物体特征使用卷积层提取特征，并使用一层全连接层做分类器，得到各最相关物体特征对应各动作类别的物体分类得分；

503)选取每一动作类别中得分最高的物体，将对应物体分类得分与人体分类得分相加，得到最终分类得分：

其中，

表示第m个人进行第a个类别的动作的最终分类得分，M为人体特征的数量，A为动作类别的数量；

504)对最终分类得分应用softmax函数，得到待识别人体进行每一类动作的概率，完成动作识别。

进一步优选地，该方法在训练时的损失函数Loss的表达式为：

其中，

表示第m个人进行第a个类别的动作的最终得分，

表示数据集提供的第m个人是否真的在进行第a个类别的动作的标签，为真该值为1，反之为0。

进一步优选地，所述的K个不同尺度的锚点框包括16个覆盖的物体面积从16²到512²的锚点框，其具体包括：

大小为16×16正方形像素区域的基础锚点框，以及与基础锚点框面积大小比例分别为2倍、4倍、8倍、16倍和32倍，长宽比例分别为0.5倍、1倍、2倍的共计15个不同尺度的锚点框。

进一步地，所述的步骤1)具体包括：

101)在待识别图像的四条边用0填充10个像素宽的区域，并对填充完的图像按原图像大小进行随机裁剪，并以0.5的概率对图像进行水平翻转；

102)将随机翻转后的图像在RGB三个通道上分别减去ImageNet数据集上计算出的均值，并除以标准差，进行标准化处理；

103)使用ImageNet上预训练的ResNet网络的前四个卷积层，提取处理后图像的特征图。

与现有技术相比，本发明具有以下优点：

1)本发明通过计算物体相关性大小得到最相关物体特征，并将人体特征与最相关物体特征融合，进行动作识别，无需额外的目标检测网络去提取物体特征，降低了方法的复杂度，并可以端到端训练，直接整合进动作识别框架中联合训练，避免了使用目标检测带来的弊端，提高了动作识别的总体效率；

2)本发明采用多尺度锚点配合相关性分数做到在无需物体标注情况下就能找出动作相关物体，更适用于实际应用场景中的动作识别，解决现有技术中需要使用大量的物体标注信息训练检测器，费时费力且无法适应真实场景中种类繁多的动作相关物体的问题；

3)本发明通过相关性分数感知动作相关物体特征，而不使用额外目标检测网络提取动作相关物体特征，能够适应真实场景中种类繁多的动作相关物体，提高相关物体选取的精度和准确性，从而提高动作识别精度，经过在目前最大的动作识别图像数据集、HICO数据集和另外两个被广泛使用的公开标准数据集(Stanford 40数据集和VOC 2012数据集)上的实验，也可证明本发明的识别精度优于现有所有采用目标检测网络的方法。

附图说明

图1为本发明提供的方法流程图；

图2为本发明提供的方法整体框架示意图；

图3为本发明提供的相关物体感知核心流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

如图1所示，本发明提供一种基于相关物体感知的动作识别方法，本发明最主要的目的就是在无需物体标注的情况下，找出并提取动作相关的物体特征，帮助识别各类动作。主要包含以下四个步骤：

S1：使用在ImageNet数据集上预训练的卷积神经网络，提取待识别图像的整体特征图；

S2：使用锚点框枚举出图像中所有可能存在的物体，并根据特征图计算和枚举出物体一一对应的动作相关性分数；

S3：根据动作相关性分数及其对应物体的大小和位置筛选出N个最相关物体并提取物体特征；

S4：提取人体特征，并融合N个最相关物体特征，计算最终各个类别的得分和动作发生概率，完成图像中人物动作的识别。

上述方法步骤的具体内容可参见图2，图中展示了本发明的方法整体流程示意图。接下来，本说明书同样分成这几部分对本方法加以详细说明。

一、步骤S1的具体方法为：

(1)在待识别图像的四边用0填充10个像素宽的区域，对填充完的图像按原图像大小进行随机裁剪，并以0.5的概率对图像进行水平翻转；

(2)将随机翻转后的图像在RGB三个通道上分别减去ImageNet数据集上计算出的均值(124，116，104)，并除以标准差(76，57，57)，进行标准化处理；

(3)使用ImageNet数据集上预训练的ResNet网络的前四个卷积层，对处理后图像提取出特征图。

二、如图3所示，步骤S2的具体方法为：

(1)以输入特征图上每一个像素位置为中心，设置K个不同尺度的锚点框，以枚举图片中物体，对于一张维度为H×W×1024的特征图而言，共会产生H×W×K个锚点框作为候选的物体框。

其中，K个不同尺度锚点框具体设置为：基础的锚点框大小为16×16的正方形像素区域，在此基础上，增加(2，4，8，16，32)的5种面积大小比例和(0.5，1，2)的3种长宽比例间组合的共计15个不同尺度的锚点框，最终产生K＝16个覆盖的物体面积从16²到512²不等的锚点框，从而可以枚举出图像中位置、形状和大小不一的各类物体；

(2)使用一个3×3的卷积去扩大特征图上每一个像素对应的感受野，再应用K个1×1卷积在特征图的每一个像素位置上计算和物体候选框一一对应的动作相关性分数；

(3)使用sigmoid函数将共计H×W×K个动作相关性分数映射到0到1之间，一个得分对应于一个候选框，分数越接近于1，表示框内物体信息与当前动作的相关性越高。

三、如图3所示，步骤S3的具体方法为：

(1)将所有共计H×W×K个物体候选框按其对应的动作相关性分数，从高至低排列成一个候选框列表；

(2)从分数最高的物体候选框开始，计算该物体候选框与其余所有得分比它低的物体候选框之间的重合面积比例，若重合比例大于0.7，则将得分较低的物体框从候选框列表中删除，以此类推，筛选得到包括N个物体候选框的优选候选框列表；

两个物体候选框(设为物体候选框A和物体候选框B)之间的重合面积比例的具体计算公式为：

其中，A∩B表示物体候选框A和物体候选框B间相交区域面积，A∪B表示物体候选框A和物体候选框B的实际总面积，即物体候选框A和物体候选框B各自面积之和减去相交区域面积。

(3)若筛选后优选候选框列表中候选框数量大于100，则只选取动作相关性分数最高的前100个物体框，即取N为100；

(4)根据筛选后得到的N个物体候选框，对步骤S1输出的特征图应用RoI Align池化层得到N个物体的特征向量，然后将特征向量乘以对应物体的已被映射到0到1之间的动作相关性分数，作为之后进一步使用的物体特征。

四、步骤S4的具体方法为：

(1)依据数据集提供的或者来自于人体检测器的M个不同人的包围盒，同样对步骤1)输出的特征图使用RoI池化，得到M个人体特征；

(2)对M个人体特征使用ResNet的第五个卷积块进一步提取特征，并在全局平均池化后使用一层全连接层做分类器，得到M个人分类得分；

(3)同样对N个物体特征使用ResNet的第五个卷积块进一步提取特征，并在全局平均池化后使用一层全连接层做分类器，得到N个物体分类得分；

(4)在共计A个动作类别中，选取每一类得分最高的物体，将其分类得分与人体分类得分相加，得到最终分类得分：

(5)对最终分类得分应用softmax函数，得到待识别人体进行每一类动作的概率值，完成动作识别。

本发明的动作识别方法在训练阶段，采用的损失函数的表达式为：

其中，

表示第m个人进行第a个类别的动作的最终得分，

表示数据集提供的第m个人是否真的在进行第a个类别的动作的标签，为真时

反之则为0。

为了支持以及验证本发明提出的动作识别方法性能，在目前最大的动作识别图像数据集，HICO数据集，和另外两个被广泛使用的公开标准数据集，Stanford 40数据集和VOC2012数据集上，采用平均精度(mAP，mean Average Precision)作为评价指标，将本方法同其它利用物体特征的最新最前沿的动作识别方法进行了比较。HICO(Humans Interactingwith Common Objects)数据集作为目前最大的动作识别图像数据集，其在数据收集方面以物体为中心，且所有物体类别都来自于COCO数据集，因此使用在COCO数据集预训练的目标检测器的方案具有相当的优势，该数据集最终收集了600种动作的47774张图片。Stanford40Actions数据集关注于人日常生活中的40种不同动作，共有9532张图像，在该数据集中有少数动作相关的物体在COCO数据集中没有标注信息。PASCAL VOC 2012标记了6278个人的10种动作，其中共有7个牵扯到与物体交互，且交互的物体也都存在于COCO数据集中。

表1为HICO数据集上，本发明与其他现有动作识别算法精度的比较。

表1 HICO数据集的测试集上识别准确率(％)对比

从表1中可看出，相较于需要使用额外的目标检测网络的方法，本实施例在无需额外网络的帮助情况下，依然高于现有最优方法1.5个百分点。

表2为Stanford40数据集上，本发明与其他现有动作识别算法精度的比较。

表2 Stanford 40数据集的测试集上识别准确率(％)对比

从表2中可看出，在Stanford 40上，相比于现有采用目标检测方案去利用物体特征的方法，本发明的基于相关物体感知方法取得了1.4个百分点的提升。

表3为VOC 2012数据集上，本发明与其他现有动作识别算法精度的比较。

表3 VOC 2012数据集的验证集上识别准确率(％)对比

从表3中可看出，在VOC 2012数据集上，依然可以观察到与前两个数据集相同的现象，并且本方法取得的领先优势更为明显，结果显著高于现有方法2.6个百分点。这三个数据集上的实施例共同说明了，本发明提出的一种基于相关物体感知的动作识别方法能够稳定地替代现有基于目标检测的方案，并且在不同数据集上取得了出色的动作识别精度。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。