CN111199199A

CN111199199A - 一种基于自适应上下文区域选取的动作识别方法

Info

Publication number: CN111199199A
Application number: CN201911378334.1A
Authority: CN
Inventors: 梁爽; 马文韬
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-26
Anticipated expiration: 2039-12-27
Also published as: CN111199199B

Abstract

本发明涉及一种基于自适应上下文区域选取的动作识别方法，用于识别图像中的人物动作，包括以下步骤：S1)利用ResNet模型的前四个卷积块，提取待识别图像整体的特征图和待识别图像中待识别动作人物的人物边界框n；S2)根据特征图和人物边界框n的相关信息，自适应选取待识别图像中每个人物的上下文区域边界框；S3)对人物边界框n和上下文区域边界框进行特征提取，并计算得到人物对应各动作类别的得分和上下文区域对应各动作类别的得分；S4)根据人物和上下文区域对应动作类别的得分，判断图像中人物的动作类别，完成人物动作的识别，与现有技术相比，本发明具有识别精度高且识别速度快等优点。

Description

一种基于自适应上下文区域选取的动作识别方法

技术领域

本发明涉及计算机视觉、动作识别技术领域，尤其是涉及一种基于自适应上下文区域选取的动作识别方法。

背景技术

数十年来，动作识别一直是计算机视觉领域的一个重要研究分支，其研究范围涵盖图像、视频数据等诸多方面，相关技术也在人机交互、信息检索、安全监控等领域广泛应用。

传统的动作识别多采用基于手工特征的方法。近年来，得益于深度学习的快速发展，采用基于深层神经网络学习和提取特征的动作识别方法也层出不穷。依据其提取和利用的特征，这些方法可以分为三类：基于整体特征的方法、基于局部特征的方法和基于上下文特征的方法。对于基于整体特征的方法，从人的边界框(bounding box)区域提取的特征与全局的图像特征一起用于识别动作。对于基于局部特征的方法，通常是将从人物各个关节位置的特征连接(concatenate)起来一并送入分类器，对动作进行分类。基于上下文特征的方法则是依赖于方法所提取到的动作上下文来进行动作识别，如图片里的物体、背景信息、其它的人物等。

最近几年，基于上下文特征的动作识别方法在VOC 2012、Stanford 40等公开的动作识别基准数据集上取得了优异的结果。例如，Gkioxari等人提出的R*CNN模型，其方法中融合人所在位置的特征和上下文特征对动作进行分类，其中上下文特征来源于SelectiveSearch预先进行生成的区域。Fang等人则采用Faster RCNN预先检测出图片中物体的边界框，对这些区域提取特征，作为上下文特征帮助识别图片中人的动作。

然而，这些基于上下文特征的方法在选择上下文的时候没有进行限制，通常是直接使用其它方法生成出的区域。这些区域中可能掺杂着动作无关的信息，如位于同一张图片里的自行车就会对识别图片中正在跑步的人的动作产生不利影响，进而影响到整个动作识别方法的性能，降低动作识别的准确率。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种识别精度高且识别速度快的基于自适应上下文区域选取的动作识别方法。

本发明的目的可以通过以下技术方案来实现：

一种基于自适应上下文区域选取的动作识别方法，用于识别图像中的人物动作，包括以下步骤：

S1)利用ResNet模型的前四个卷积块，提取待识别图像整体的特征图和待识别图像中待识别动作人物的人物边界框n；

S2)根据特征图和人物边界框n的相关信息，自适应选取待识别图像中每个人物的上下文区域边界框；

S3)对人物边界框n和上下文区域边界框进行特征提取，并计算得到人物对应各动作类别的得分和上下文区域对应各动作类别的得分；

S4)根据人物和上下文区域对应动作类别的得分，判断图像中人物的动作类别，完成人物动作的识别。

进一步地，所述的步骤S2)具体包括：

S201)以特征图的每一个点为中心，在每一个点上分别预设9个大小不同的锚点框；

S202)通过两个卷积层，分别计算得到所有锚点框对应的预测参数，所述的预测参数包括锚点框与人物空间位置相关性的预测值s和锚点框的坐标变换参数；

S203)锚点框根据坐标变换参数进行坐标变换，得到变换后的锚点框；

S204)以预测值s和各锚点框相交区域面积为依据，去除重复锚点框，得到候选上下文集合B，具体方法可以为：若两个锚点框的相交区域面积超过其面积之和的一半，则只保留两个锚点框中预测值s较大一方；

S205)根据候选上下文集合B中各锚点框m与人物边界框n之间的相交区域比例overlap(m,n)，对锚点框进行筛选，得到筛选后的上下文集合R(m′)，其中m′为上下文集合R(m′)中的锚点框；

S206)选取筛选后的上下文集合R(c)中预测值s最大的前N个锚点框，作为最终自适应选取的上下文区域边界框。

更进一步地，所述的步骤S203)中，进行坐标变换的公式为：

x^t＝w*t_x+x

y^t＝h*t_y+y,

其中，x为锚点框的中心点横坐标，y为锚点框的中心点纵坐标，w为锚点框的宽，h为锚点框的高，t_x为锚点框中心点横坐标的变换参数，t_y为锚点框中心点纵坐标的变换参数，t_w为锚点框宽的变换参数，t_h为锚点框高的变换参数，x^t为变换后锚点框的中心点横坐标，y^t为变换后锚点框的中心点纵坐标，w^t为变换后锚点框的长，h^t为变换后锚点框的宽。

更进一步地，所述的相交区域比例overlap(m,n)的计算公式为：

其中，area(m)为候选上下文集合B中锚点框m的面积，area(n)为人物边界框n的面积；

所述的上下文集合R(m′)的表达式为：

R(m′)＝{m∈B:overlap(m,n)∈[0.2,0.9]}。

更进一步地，所述的锚点框的尺寸大小包括16×16、16×32、32×16、32×32、32×64、64×32、64×64、64×128和128×64。

进一步地，所述的步骤S3)具体包括：

S301)分别对人物边界框n和自适应选取的上下文区域边界框的特征进行池化，得到人物特征和上下文区域特征；

S302)将人物特征和上下文区域特征，输入ResNet模型的第五个卷积块，进行特征提取；

S303)对经过ResNet模型的第五个卷积块提取的特征使用全连接层计算，得到人物对应各动作类别的得分和上下文区域对应各动作类别的得分。

进一步地，所述的步骤S4)具体包括：

S401)根据得分融合公式，将人物和上下文区域对应动作类别的得分融合，得到各动作类别的融合得分；

S402)使用softmax函数计算所有动作类别融合得分，得到图像中人物各动作类别的概率值；

S403)选取概率值最高的动作类别，作为最终识别的人物动作。

更进一步地，所述的得分融合公式为：

其中，R_N(m′)为N个上下文区域边界框的集合，c为集合R_N(m′)中的某一上下文区域，

为上下文c在动作类别a上的得分，

为人物在动作类别a上的得分，

为人物在动作类别a上的融合得分。

9.根据权利要求7所述的一种基于自适应上下文区域选取的动作识别方法，其特征在于，该方法在训练时的损失函数Loss的表达式为：

其中，L_CE(s)为预测值s的交叉熵损失函数，L₁(t_x,t_y,t_w,t_h)为锚点框坐标变换参数(t_x,t_y,t_w,t_h)的L1损失函数，

为人物在动作类别a上的融合得分的交叉熵损失函数。

进一步地，所述的步骤S1)具体包括：

S101)将待识别图像的最短边缩放到600个像素点，并按照该缩放比例对整张图进行等比例缩放；

S102)将输入图像0到255之间的像素值变换成0到1之间的浮点数，并根据预设的图像均值和方差对图像进行标准化；

S103)将处理完的图像输入ResNet模型的前四个卷积块，提取待识别图像整体的特征图和待识别图像中待识别动作人物的人物边界框n。

与现有技术相比，本发明具有以下优点：

1)现有基于上下文的动作识别方法依赖一个额外的方法生成并选取固定的上下文吗，本发明作为一种基于自适应上下文选取的动作识别方法，无需额外方法就可生成候选上下文区域，提高了动作识别的效率；

2)通过依靠人物的空间信息选取动作相关的上下文，并在特征提取和分类后最终与人物得分融合，本发明可以减少动作识别系统减少被无关信息误导的风险，实现了对上下文信息的有效利用，提高了动作识别的准确率；

3)经过在两个被广泛使用的公开标准数据集，VOC 2012数据集和Stanford 40数据集上的试验，与现有动作识别方法采用平均精度(AP)作为评价指标比较可得，本发明方法的识别精度和识别速度均优于现有方法。

附图说明

图1为本发明整个框架的工作流程示意图；

图2为本发明提供的方法流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

如图2所示，本发明提供一种基于自适应上下文区域选取的动作识别方法，本发明最主要的目的就是利用人物的空间位置信息去自适应地从网络生成的候选区域中选择上下文，帮助识别人物动作。主要包含以下四个步骤：

步骤A：对于给定的单张图像，利用ResNet深度学习模型的前四个卷积块提取整张图像的特征图；

步骤B：将整张图像的特征图和待识别动作的人物边界框n信息输入自适应上下文选取算法中，为每个人物生成并选取出前N个考虑到与人物空间关系的区域边界框，作为上下文区域；

步骤C：根据人物边界框n和选取出的上下文区域的边界框，对整张图像的特征进行进一步提取和处理，分别得到人物和上下文对应的各动作类别的得分；

步骤D：将人和上下文的各个动作类别的得分进行融合后，最终得到给定图像中待识别动作的人物的动作信息，完成人物动作识别。

上述方法步骤的具体内容可参见图1，图中展示了本发明的工作流程示意图。接下来，本说明书同样分成这几部分对本方法加以详细说明。

一、步骤A的具体方法为：首先，将输入图像，按照将其最短边长缩放到600个像素点长度的比例，对整张图进行等比例缩放；其次，将输入图像的0到255之间的像素值变换成0到1之间的浮点数，再使用预先于ImageNet数据集上计算出来的均值(0.485，0.456，0.406)和标准差(0.229，0.224，0.225)在图像的RGB三个通道上进行标准化操作；最后将处理完的图像输入ResNet深度学习模型的前四个卷积块，提取得到整张图像的特征图。

二、步骤B的具体方法为：

(1)选取整张图像特征图上的一个点，以其为中心，预设大小分别为16×16、16×32、32×16、32×32、32×64、64×32、64×64、64×128、128×64的9个锚点框，并得到锚点框的中心点坐标(x,y)和长宽(w,h)，重复上述操作遍历整张图像特征图上的所有点，使每个点上都预设有9个锚点框，并得到所有锚点框的中心点坐标(x,y)和长宽(w,h)，最终形成锚点框坐标(x,y,w,h)；

(2)对于整张图像的特征图上每一个点，使用两个卷积层计算出对应于9个锚点框的9组预测值(s,t_x,t_y,t_w,t_h)，其中s为此锚点框和人物空间位置相关性的预测值，后四个为锚点框坐标(x,y,w,h)对应的变换参数(t_x,t_y,t_w,t_h)；

(3)对锚点框坐标应用变换参数进行调整变换，其锚点框变换公式为：

x^t＝w*t_x+x

y^t＝h*t_y+y

其中，x为锚点框的中心点横坐标，y为锚点框的中心点纵坐标，w为锚点框的宽，h为锚点框的高，t_x为锚点框中心点横坐的变换参数，t_y为锚点框中心点纵坐标的变换参数，t_w为锚点框宽的变换参数，t_h为锚点框高的变换参数，x^t为变换后锚点框的中心点横坐标，y^t为变换后锚点框的中心点纵坐标，w^t为变换后锚点框的长，h^t为变换后锚点框的宽；

(4)在对锚点框坐标应用变换参数进行调整后，再以锚点框和人物空间位置相关性的预测值s为基础去除重复严重的锚点框，具体方法可以为：若两个锚点框的相交区域面积超过其面积之和的一半，则只保留两个锚点框中预测值s较大一方，以此得到候选上下文集合B；

(5)计算集合B中每个锚点框m和给出的待识别动作的人物边界框n之间的相交区域比例，记为overlap(m,n)，其计算公式为：

其中area(·)表示给出边界框的面积，交集符号表示求两边界框相交部分的面积，并集符号表示两边界框区域相并后的面积；

(6)对集合B中的锚点框进行进一步筛选得到候选上下文区域集合R(m′)，筛选的公式如下：

R(m′)＝{m∈B:overlap(m,n)∈[0.2,0.9]}

从最后得到的集合R(m′)中，选择出前N个预测值s最大的框作为最终步骤B选择的上下文区域。

三、步骤C的具体方法为：

对人物的边界框和选择出的上下文区域位置的特征进行池化，得到人物和上下文的特征，并输入ResNet深度学习模型的第五个卷积块，进行进一步的提取特征，最后对得到的特征使用全连接层，分别计算出人物和上下文对应各动作类别的得分。

四、步骤C的具体方法为：

首先将人物对应各动作的得分和上下文对应各动作的得分进行融合，以某一动作类别a为例，其最终得分融合公式为：

为上下文c在动作类别a上的得分，

为人物在动作类别a上的得分，

为人物在动作类别a上的融合得分。

最后，使用softmax函数对融合后所有类别得分进行计算，得到最终给定图片中人物进行各个类别动作的概率值，选取概率值最高的动作类别，作为最终识别的人物动作。

本发明动作识别方法在训练阶段，对锚点框和人物空间位置相关性的预测值s、锚点框坐标的变换参数(t_x,t_y,t_w,t_h)和人物在动作类别a上的最终得分

三部分分别使用三个损失函数，并进行联合训练，最终损失函数的表达式为：

其中L_CE(·)表示交叉熵损失函数，L₁(·)表示L₁损失函数。

为了支持以及验证本发明提出的动作识别方法性能，在两个被广泛使用的公开标准数据集上，采用平均精度(AP)作为评价指标，将本方法同其它最新最前沿的动作识别方法进行了比较。PASCAL VOC 2012提供了一个用于动作分类的数据集，共有10种动作类别(跳跃、打电话、使用乐器、阅读、骑自行车、骑马、跑步、拍照、使用电脑、走路)，4588张图像。Stanford 40Actions数据集共计包含有9532张图像，有40个动作类别，每类图像数量在180～300张之间，这些动作类别从人的日常生活中选取，主要针对人物交互的动作，如，打伞、划船、刷牙等。

表1为VOC2012数据集上，本发明与其他现有动作识别算法精度的比较。

表1 VOC2012数据集的测试集上识别准确率(％)对比

从表1中可看出，本方法平均精度高于R*CNN和Attention方法2％，同时单张图片的平均识别时间也少于前两方法三倍以上。这里所有的识别时间都是在单张K80显卡上用同样实验设置实际测得的。

表2为Stanford 40数据集上，本发明与其他现有动作识别算法精度的比较。

表2 Stanford 40数据集的测试集上识别准确率(％)对比

从表2中可看出，在Stanford 40数据集上，本方法也依然拥有优异的识别准确度，显著高于R*CNN等方法2％以上。这两个数据集上的实施例共同说明了，本方法是一种识别精度高且识别速度块的动作识别方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。