CN111199199A - 一种基于自适应上下文区域选取的动作识别方法 - Google Patents

一种基于自适应上下文区域选取的动作识别方法 Download PDF

Info

Publication number
CN111199199A
CN111199199A CN201911378334.1A CN201911378334A CN111199199A CN 111199199 A CN111199199 A CN 111199199A CN 201911378334 A CN201911378334 A CN 201911378334A CN 111199199 A CN111199199 A CN 111199199A
Authority
CN
China
Prior art keywords
anchor
context
action
frame
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911378334.1A
Other languages
English (en)
Other versions
CN111199199B (zh
Inventor
梁爽
马文韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201911378334.1A priority Critical patent/CN111199199B/zh
Publication of CN111199199A publication Critical patent/CN111199199A/zh
Application granted granted Critical
Publication of CN111199199B publication Critical patent/CN111199199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明涉及一种基于自适应上下文区域选取的动作识别方法,用于识别图像中的人物动作,包括以下步骤:S1)利用ResNet模型的前四个卷积块,提取待识别图像整体的特征图和待识别图像中待识别动作人物的人物边界框n;S2)根据特征图和人物边界框n的相关信息,自适应选取待识别图像中每个人物的上下文区域边界框;S3)对人物边界框n和上下文区域边界框进行特征提取,并计算得到人物对应各动作类别的得分和上下文区域对应各动作类别的得分;S4)根据人物和上下文区域对应动作类别的得分,判断图像中人物的动作类别,完成人物动作的识别,与现有技术相比,本发明具有识别精度高且识别速度快等优点。

Description

一种基于自适应上下文区域选取的动作识别方法
技术领域
本发明涉及计算机视觉、动作识别技术领域,尤其是涉及一种基于自适应上下文区域选取的动作识别方法。
背景技术
数十年来,动作识别一直是计算机视觉领域的一个重要研究分支,其研究范围涵盖图像、视频数据等诸多方面,相关技术也在人机交互、信息检索、安全监控等领域广泛应用。
传统的动作识别多采用基于手工特征的方法。近年来,得益于深度学习的快速发展,采用基于深层神经网络学习和提取特征的动作识别方法也层出不穷。依据其提取和利用的特征,这些方法可以分为三类:基于整体特征的方法、基于局部特征的方法和基于上下文特征的方法。对于基于整体特征的方法,从人的边界框(bounding box)区域提取的特征与全局的图像特征一起用于识别动作。对于基于局部特征的方法,通常是将从人物各个关节位置的特征连接(concatenate)起来一并送入分类器,对动作进行分类。基于上下文特征的方法则是依赖于方法所提取到的动作上下文来进行动作识别,如图片里的物体、背景信息、其它的人物等。
最近几年,基于上下文特征的动作识别方法在VOC 2012、Stanford 40等公开的动作识别基准数据集上取得了优异的结果。例如,Gkioxari等人提出的R*CNN模型,其方法中融合人所在位置的特征和上下文特征对动作进行分类,其中上下文特征来源于SelectiveSearch预先进行生成的区域。Fang等人则采用Faster RCNN预先检测出图片中物体的边界框,对这些区域提取特征,作为上下文特征帮助识别图片中人的动作。
然而,这些基于上下文特征的方法在选择上下文的时候没有进行限制,通常是直接使用其它方法生成出的区域。这些区域中可能掺杂着动作无关的信息,如位于同一张图片里的自行车就会对识别图片中正在跑步的人的动作产生不利影响,进而影响到整个动作识别方法的性能,降低动作识别的准确率。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种识别精度高且识别速度快的基于自适应上下文区域选取的动作识别方法。
本发明的目的可以通过以下技术方案来实现:
一种基于自适应上下文区域选取的动作识别方法,用于识别图像中的人物动作,包括以下步骤:
S1)利用ResNet模型的前四个卷积块,提取待识别图像整体的特征图和待识别图像中待识别动作人物的人物边界框n;
S2)根据特征图和人物边界框n的相关信息,自适应选取待识别图像中每个人物的上下文区域边界框;
S3)对人物边界框n和上下文区域边界框进行特征提取,并计算得到人物对应各动作类别的得分和上下文区域对应各动作类别的得分;
S4)根据人物和上下文区域对应动作类别的得分,判断图像中人物的动作类别,完成人物动作的识别。
进一步地,所述的步骤S2)具体包括:
S201)以特征图的每一个点为中心,在每一个点上分别预设9个大小不同的锚点框;
S202)通过两个卷积层,分别计算得到所有锚点框对应的预测参数,所述的预测参数包括锚点框与人物空间位置相关性的预测值s和锚点框的坐标变换参数;
S203)锚点框根据坐标变换参数进行坐标变换,得到变换后的锚点框;
S204)以预测值s和各锚点框相交区域面积为依据,去除重复锚点框,得到候选上下文集合B,具体方法可以为:若两个锚点框的相交区域面积超过其面积之和的一半,则只保留两个锚点框中预测值s较大一方;
S205)根据候选上下文集合B中各锚点框m与人物边界框n之间的相交区域比例overlap(m,n),对锚点框进行筛选,得到筛选后的上下文集合R(m′),其中m′为上下文集合R(m′)中的锚点框;
S206)选取筛选后的上下文集合R(c)中预测值s最大的前N个锚点框,作为最终自适应选取的上下文区域边界框。
更进一步地,所述的步骤S203)中,进行坐标变换的公式为:
xt=w*tx+x
yt=h*ty+y,
Figure BDA0002341610640000031
Figure BDA0002341610640000032
其中,x为锚点框的中心点横坐标,y为锚点框的中心点纵坐标,w为锚点框的宽,h为锚点框的高,tx为锚点框中心点横坐标的变换参数,ty为锚点框中心点纵坐标的变换参数,tw为锚点框宽的变换参数,th为锚点框高的变换参数,xt为变换后锚点框的中心点横坐标,yt为变换后锚点框的中心点纵坐标,wt为变换后锚点框的长,ht为变换后锚点框的宽。
更进一步地,所述的相交区域比例overlap(m,n)的计算公式为:
Figure BDA0002341610640000033
其中,area(m)为候选上下文集合B中锚点框m的面积,area(n)为人物边界框n的面积;
所述的上下文集合R(m′)的表达式为:
R(m′)={m∈B:overlap(m,n)∈[0.2,0.9]}。
更进一步地,所述的锚点框的尺寸大小包括16×16、16×32、32×16、32×32、32×64、64×32、64×64、64×128和128×64。
进一步地,所述的步骤S3)具体包括:
S301)分别对人物边界框n和自适应选取的上下文区域边界框的特征进行池化,得到人物特征和上下文区域特征;
S302)将人物特征和上下文区域特征,输入ResNet模型的第五个卷积块,进行特征提取;
S303)对经过ResNet模型的第五个卷积块提取的特征使用全连接层计算,得到人物对应各动作类别的得分和上下文区域对应各动作类别的得分。
进一步地,所述的步骤S4)具体包括:
S401)根据得分融合公式,将人物和上下文区域对应动作类别的得分融合,得到各动作类别的融合得分;
S402)使用softmax函数计算所有动作类别融合得分,得到图像中人物各动作类别的概率值;
S403)选取概率值最高的动作类别,作为最终识别的人物动作。
更进一步地,所述的得分融合公式为:
Figure BDA0002341610640000041
其中,RN(m′)为N个上下文区域边界框的集合,c为集合RN(m′)中的某一上下文区域,
Figure BDA0002341610640000042
为上下文c在动作类别a上的得分,
Figure BDA0002341610640000043
为人物在动作类别a上的得分,
Figure BDA0002341610640000044
为人物在动作类别a上的融合得分。
9.根据权利要求7所述的一种基于自适应上下文区域选取的动作识别方法,其特征在于,该方法在训练时的损失函数Loss的表达式为:
Figure BDA0002341610640000045
其中,LCE(s)为预测值s的交叉熵损失函数,L1(tx,ty,tw,th)为锚点框坐标变换参数(tx,ty,tw,th)的L1损失函数,
Figure BDA0002341610640000046
为人物在动作类别a上的融合得分的交叉熵损失函数。
进一步地,所述的步骤S1)具体包括:
S101)将待识别图像的最短边缩放到600个像素点,并按照该缩放比例对整张图进行等比例缩放;
S102)将输入图像0到255之间的像素值变换成0到1之间的浮点数,并根据预设的图像均值和方差对图像进行标准化;
S103)将处理完的图像输入ResNet模型的前四个卷积块,提取待识别图像整体的特征图和待识别图像中待识别动作人物的人物边界框n。
与现有技术相比,本发明具有以下优点:
1)现有基于上下文的动作识别方法依赖一个额外的方法生成并选取固定的上下文吗,本发明作为一种基于自适应上下文选取的动作识别方法,无需额外方法就可生成候选上下文区域,提高了动作识别的效率;
2)通过依靠人物的空间信息选取动作相关的上下文,并在特征提取和分类后最终与人物得分融合,本发明可以减少动作识别系统减少被无关信息误导的风险,实现了对上下文信息的有效利用,提高了动作识别的准确率;
3)经过在两个被广泛使用的公开标准数据集,VOC 2012数据集和Stanford 40数据集上的试验,与现有动作识别方法采用平均精度(AP)作为评价指标比较可得,本发明方法的识别精度和识别速度均优于现有方法。
附图说明
图1为本发明整个框架的工作流程示意图;
图2为本发明提供的方法流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
实施例
如图2所示,本发明提供一种基于自适应上下文区域选取的动作识别方法,本发明最主要的目的就是利用人物的空间位置信息去自适应地从网络生成的候选区域中选择上下文,帮助识别人物动作。主要包含以下四个步骤:
步骤A:对于给定的单张图像,利用ResNet深度学习模型的前四个卷积块提取整张图像的特征图;
步骤B:将整张图像的特征图和待识别动作的人物边界框n信息输入自适应上下文选取算法中,为每个人物生成并选取出前N个考虑到与人物空间关系的区域边界框,作为上下文区域;
步骤C:根据人物边界框n和选取出的上下文区域的边界框,对整张图像的特征进行进一步提取和处理,分别得到人物和上下文对应的各动作类别的得分;
步骤D:将人和上下文的各个动作类别的得分进行融合后,最终得到给定图像中待识别动作的人物的动作信息,完成人物动作识别。
上述方法步骤的具体内容可参见图1,图中展示了本发明的工作流程示意图。接下来,本说明书同样分成这几部分对本方法加以详细说明。
一、步骤A的具体方法为:首先,将输入图像,按照将其最短边长缩放到600个像素点长度的比例,对整张图进行等比例缩放;其次,将输入图像的0到255之间的像素值变换成0到1之间的浮点数,再使用预先于ImageNet数据集上计算出来的均值(0.485,0.456,0.406)和标准差(0.229,0.224,0.225)在图像的RGB三个通道上进行标准化操作;最后将处理完的图像输入ResNet深度学习模型的前四个卷积块,提取得到整张图像的特征图。
二、步骤B的具体方法为:
(1)选取整张图像特征图上的一个点,以其为中心,预设大小分别为16×16、16×32、32×16、32×32、32×64、64×32、64×64、64×128、128×64的9个锚点框,并得到锚点框的中心点坐标(x,y)和长宽(w,h),重复上述操作遍历整张图像特征图上的所有点,使每个点上都预设有9个锚点框,并得到所有锚点框的中心点坐标(x,y)和长宽(w,h),最终形成锚点框坐标(x,y,w,h);
(2)对于整张图像的特征图上每一个点,使用两个卷积层计算出对应于9个锚点框的9组预测值(s,tx,ty,tw,th),其中s为此锚点框和人物空间位置相关性的预测值,后四个为锚点框坐标(x,y,w,h)对应的变换参数(tx,ty,tw,th);
(3)对锚点框坐标应用变换参数进行调整变换,其锚点框变换公式为:
xt=w*tx+x
yt=h*ty+y
Figure BDA0002341610640000061
Figure BDA0002341610640000062
其中,x为锚点框的中心点横坐标,y为锚点框的中心点纵坐标,w为锚点框的宽,h为锚点框的高,tx为锚点框中心点横坐的变换参数,ty为锚点框中心点纵坐标的变换参数,tw为锚点框宽的变换参数,th为锚点框高的变换参数,xt为变换后锚点框的中心点横坐标,yt为变换后锚点框的中心点纵坐标,wt为变换后锚点框的长,ht为变换后锚点框的宽;
(4)在对锚点框坐标应用变换参数进行调整后,再以锚点框和人物空间位置相关性的预测值s为基础去除重复严重的锚点框,具体方法可以为:若两个锚点框的相交区域面积超过其面积之和的一半,则只保留两个锚点框中预测值s较大一方,以此得到候选上下文集合B;
(5)计算集合B中每个锚点框m和给出的待识别动作的人物边界框n之间的相交区域比例,记为overlap(m,n),其计算公式为:
Figure BDA0002341610640000063
其中area(·)表示给出边界框的面积,交集符号表示求两边界框相交部分的面积,并集符号表示两边界框区域相并后的面积;
(6)对集合B中的锚点框进行进一步筛选得到候选上下文区域集合R(m′),筛选的公式如下:
R(m′)={m∈B:overlap(m,n)∈[0.2,0.9]}
从最后得到的集合R(m′)中,选择出前N个预测值s最大的框作为最终步骤B选择的上下文区域。
三、步骤C的具体方法为:
对人物的边界框和选择出的上下文区域位置的特征进行池化,得到人物和上下文的特征,并输入ResNet深度学习模型的第五个卷积块,进行进一步的提取特征,最后对得到的特征使用全连接层,分别计算出人物和上下文对应各动作类别的得分。
四、步骤C的具体方法为:
首先将人物对应各动作的得分和上下文对应各动作的得分进行融合,以某一动作类别a为例,其最终得分融合公式为:
Figure BDA0002341610640000071
其中,RN(m′)为N个上下文区域边界框的集合,c为集合RN(m′)中的某一上下文区域,
Figure BDA0002341610640000072
为上下文c在动作类别a上的得分,
Figure BDA0002341610640000073
为人物在动作类别a上的得分,
Figure BDA0002341610640000074
为人物在动作类别a上的融合得分。
最后,使用softmax函数对融合后所有类别得分进行计算,得到最终给定图片中人物进行各个类别动作的概率值,选取概率值最高的动作类别,作为最终识别的人物动作。
本发明动作识别方法在训练阶段,对锚点框和人物空间位置相关性的预测值s、锚点框坐标的变换参数(tx,ty,tw,th)和人物在动作类别a上的最终得分
Figure BDA0002341610640000075
三部分分别使用三个损失函数,并进行联合训练,最终损失函数的表达式为:
Figure BDA0002341610640000076
其中LCE(·)表示交叉熵损失函数,L1(·)表示L1损失函数。
为了支持以及验证本发明提出的动作识别方法性能,在两个被广泛使用的公开标准数据集上,采用平均精度(AP)作为评价指标,将本方法同其它最新最前沿的动作识别方法进行了比较。PASCAL VOC 2012提供了一个用于动作分类的数据集,共有10种动作类别(跳跃、打电话、使用乐器、阅读、骑自行车、骑马、跑步、拍照、使用电脑、走路),4588张图像。Stanford 40Actions数据集共计包含有9532张图像,有40个动作类别,每类图像数量在180~300张之间,这些动作类别从人的日常生活中选取,主要针对人物交互的动作,如,打伞、划船、刷牙等。
表1为VOC2012数据集上,本发明与其他现有动作识别算法精度的比较。
表1 VOC2012数据集的测试集上识别准确率(%)对比
Figure BDA0002341610640000081
从表1中可看出,本方法平均精度高于R*CNN和Attention方法2%,同时单张图片的平均识别时间也少于前两方法三倍以上。这里所有的识别时间都是在单张K80显卡上用同样实验设置实际测得的。
表2为Stanford 40数据集上,本发明与其他现有动作识别算法精度的比较。
表2 Stanford 40数据集的测试集上识别准确率(%)对比
Figure BDA0002341610640000082
从表2中可看出,在Stanford 40数据集上,本方法也依然拥有优异的识别准确度,显著高于R*CNN等方法2%以上。这两个数据集上的实施例共同说明了,本方法是一种识别精度高且识别速度块的动作识别方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于自适应上下文区域选取的动作识别方法,用于识别图像中的人物动作,其特征在于,包括以下步骤:
S1)利用ResNet模型的前四个卷积块,提取待识别图像整体的特征图和待识别图像中待识别动作人物的人物边界框n;
S2)根据特征图和人物边界框n的相关信息,自适应选取待识别图像中每个人物的上下文区域边界框;
S3)对人物边界框n和上下文区域边界框进行特征提取,并计算得到人物对应各动作类别的得分和上下文区域对应各动作类别的得分;
S4)根据人物和上下文区域对应动作类别的得分,判断图像中人物的动作类别,完成人物动作的识别。
2.根据权利要求1所述的一种基于自适应上下文区域选取的动作识别方法,其特征在于,所述的步骤S2)具体包括:
S201)以特征图的每一个点为中心,在每一个点上分别预设9个大小不同的锚点框;
S202)通过两个卷积层,分别计算得到所有锚点框对应的预测参数,所述的预测参数包括锚点框与人物空间位置相关性的预测值s和锚点框的坐标变换参数;
S203)锚点框根据坐标变换参数进行坐标变换,得到变换后的锚点框;
S204)以预测值s和各锚点框相交区域面积为依据,去除重复锚点框,得到候选上下文集合B;
S205)根据候选上下文集合B中各锚点框m与人物边界框n之间的相交区域比例overlap(m,n),对锚点框进行筛选,得到筛选后的上下文集合R(m′),其中m′为上下文集合R(m′)中的锚点框;
S206)选取筛选后的上下文集合R(c)中预测值s最大的前N个锚点框,作为最终自适应选取的上下文区域边界框。
3.根据权利要求2所述的一种基于自适应上下文区域选取的动作识别方法,其特征在于,所述的步骤S203)中,进行坐标变换的公式为:
xt=w*tx+x
yt=h*ty+y,
Figure FDA0002341610630000022
Figure FDA0002341610630000023
其中,x为锚点框的中心点横坐标,y为锚点框的中心点纵坐标,w为锚点框的宽,h为锚点框的高,tx为锚点框中心点横坐标的变换参数,ty为锚点框中心点纵坐标的变换参数,tw为锚点框宽的变换参数,th为锚点框高的变换参数,xt为变换后锚点框的中心点横坐标,yt为变换后锚点框的中心点纵坐标,wt为变换后锚点框的长,ht为变换后锚点框的宽。
4.根据权利要求3所述的一种基于自适应上下文区域选取的动作识别方法,其特征在于,所述的相交区域比例overlap(m,n)的计算公式为:
Figure FDA0002341610630000021
其中,area(m)为候选上下文集合B中锚点框m的面积,area(n)为人物边界框n的面积;
所述的上下文集合R(m′)的表达式为:
R(m')={m∈B:overlap(m,n)∈[0.2,0.9]}。
5.根据权利要求2所述的一种基于自适应上下文区域选取的动作识别方法,其特征在于,所述的锚点框的尺寸大小包括16×16、16×32、32×16、32×32、32×64、64×32、64×64、64×128和128×64。
6.根据权利要求4所述的一种基于自适应上下文区域选取的动作识别方法,其特征在于,所述的步骤S3)具体包括:
S301)分别对人物边界框n和自适应选取的上下文区域边界框的特征进行池化,得到人物特征和上下文区域特征;
S302)将人物特征和上下文区域特征,输入ResNet模型的第五个卷积块,进行特征提取;
S303)对经过ResNet模型的第五个卷积块提取的特征使用全连接层计算,得到人物对应各动作类别的得分和上下文区域对应各动作类别的得分。
7.根据权利要求6所述的一种基于自适应上下文区域选取的动作识别方法,其特征在于,所述的步骤S4)具体包括:
S401)根据得分融合公式,将人物和上下文区域对应动作类别的得分融合,得到各动作类别的融合得分;
S402)使用softmax函数计算所有动作类别融合得分,得到图像中人物各动作类别的概率值;
S403)选取概率值最高的动作类别,作为最终识别的人物动作。
8.根据权利要求7所述的一种基于自适应上下文区域选取的动作识别方法,其特征在于,所述的得分融合公式为:
Figure FDA0002341610630000031
其中,RN(m′)为N个上下文区域边界框的集合,c为集合RN(m′)中的某一上下文区域,
Figure FDA0002341610630000033
为上下文c在动作类别a上的得分,
Figure FDA0002341610630000035
为人物在动作类别a上的得分,
Figure FDA0002341610630000034
为人物在动作类别a上的融合得分。
9.根据权利要求7所述的一种基于自适应上下文区域选取的动作识别方法,其特征在于,该方法在训练时的损失函数Loss的表达式为:
Figure FDA0002341610630000032
其中,LCE(s)为预测值s的交叉熵损失函数,L1(tx,ty,tw,th)为锚点框坐标变换参数(tx,ty,tw,th)的L1损失函数,
Figure FDA0002341610630000036
为人物在动作类别a上的融合得分的交叉熵损失函数。
10.根据权利要求1所述的一种基于自适应上下文区域选取的动作识别方法,其特征在于,所述的步骤S1)具体包括:
S101)将待识别图像的最短边缩放到600个像素点,并按照该缩放比例对整张图进行等比例缩放;
S102)将输入图像0到255之间的像素值变换成0到1之间的浮点数,并根据预设的图像均值和方差对图像进行标准化;
S103)将处理完的图像输入ResNet模型的前四个卷积块,提取待识别图像整体的特征图和待识别图像中待识别动作人物的人物边界框n。
CN201911378334.1A 2019-12-27 2019-12-27 一种基于自适应上下文区域选取的动作识别方法 Active CN111199199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911378334.1A CN111199199B (zh) 2019-12-27 2019-12-27 一种基于自适应上下文区域选取的动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911378334.1A CN111199199B (zh) 2019-12-27 2019-12-27 一种基于自适应上下文区域选取的动作识别方法

Publications (2)

Publication Number Publication Date
CN111199199A true CN111199199A (zh) 2020-05-26
CN111199199B CN111199199B (zh) 2023-05-05

Family

ID=70746899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911378334.1A Active CN111199199B (zh) 2019-12-27 2019-12-27 一种基于自适应上下文区域选取的动作识别方法

Country Status (1)

Country Link
CN (1) CN111199199B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797704A (zh) * 2020-06-11 2020-10-20 同济大学 一种基于相关物体感知的动作识别方法
CN111797705A (zh) * 2020-06-11 2020-10-20 同济大学 一种基于人物关系建模的动作识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778835A (zh) * 2016-11-29 2017-05-31 武汉大学 融合场景信息和深度特征的遥感图像机场目标识别方法
US20180068198A1 (en) * 2016-09-06 2018-03-08 Carnegie Mellon University Methods and Software for Detecting Objects in an Image Using Contextual Multiscale Fast Region-Based Convolutional Neural Network
US20180121762A1 (en) * 2016-11-01 2018-05-03 Snap Inc. Neural network for object detection in images
CN109829398A (zh) * 2019-01-16 2019-05-31 北京航空航天大学 一种基于三维卷积网络的视频中的目标检测方法
CN110276765A (zh) * 2019-06-21 2019-09-24 北京交通大学 基于多任务学习深度神经网络的图像全景分割方法
CN110348312A (zh) * 2019-06-14 2019-10-18 武汉大学 一种区域视频人体动作行为实时识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180068198A1 (en) * 2016-09-06 2018-03-08 Carnegie Mellon University Methods and Software for Detecting Objects in an Image Using Contextual Multiscale Fast Region-Based Convolutional Neural Network
US20180121762A1 (en) * 2016-11-01 2018-05-03 Snap Inc. Neural network for object detection in images
CN106778835A (zh) * 2016-11-29 2017-05-31 武汉大学 融合场景信息和深度特征的遥感图像机场目标识别方法
CN109829398A (zh) * 2019-01-16 2019-05-31 北京航空航天大学 一种基于三维卷积网络的视频中的目标检测方法
CN110348312A (zh) * 2019-06-14 2019-10-18 武汉大学 一种区域视频人体动作行为实时识别方法
CN110276765A (zh) * 2019-06-21 2019-09-24 北京交通大学 基于多任务学习深度神经网络的图像全景分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIANGYUN ZHAO: "Pseudo Mask Augmented Object Detection" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797704A (zh) * 2020-06-11 2020-10-20 同济大学 一种基于相关物体感知的动作识别方法
CN111797705A (zh) * 2020-06-11 2020-10-20 同济大学 一种基于人物关系建模的动作识别方法
CN111797704B (zh) * 2020-06-11 2023-05-02 同济大学 一种基于相关物体感知的动作识别方法

Also Published As

Publication number Publication date
CN111199199B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN110147743B (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
CN106845421B (zh) 基于多区域特征与度量学习的人脸特征识别方法及系统
WO2021073418A1 (zh) 人脸识别方法、装置、设备及存储介质
CN110751195B (zh) 一种基于改进YOLOv3的细粒度图像分类方法
CN113642634A (zh) 一种基于混合注意力的阴影检测方法
CN112434608B (zh) 一种基于双流结合网络的人体行为识别方法及系统
CN113378641B (zh) 基于深度神经网络和注意力机制的手势识别方法
CN111950389B (zh) 一种基于轻量级网络的深度二值特征人脸表情识别方法
CN109034136A (zh) 图像处理方法、装置、摄像设备及存储介质
CN111199199B (zh) 一种基于自适应上下文区域选取的动作识别方法
CN112149533A (zh) 一种基于改进ssd模型的目标检测方法
CN106407978B (zh) 一种结合似物度的无约束视频中显著物体检测方法
CN111833353B (zh) 一种基于图像分割的高光谱目标检测方法
JP2018206252A (ja) 画像処理システム、評価モデル構築方法、画像処理方法及びプログラム
CN113505670A (zh) 基于多尺度cam和超像素的遥感图像弱监督建筑提取方法
CN111797705A (zh) 一种基于人物关系建模的动作识别方法
CN110598708B (zh) 一种街景文本目标识别检测方法
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN111832497B (zh) 一种基于几何特征的文本检测后处理方法
CN111275694B (zh) 一种注意力机制引导的递进式划分人体解析系统及方法
CN111797704B (zh) 一种基于相关物体感知的动作识别方法
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN110889418A (zh) 一种气体轮廓识别方法
CN114494893B (zh) 基于语义重用上下文特征金字塔的遥感图像特征提取方法
CN113033593B (zh) 基于深度学习的文本检测训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant