CN110135243B - 一种基于两级注意力机制的行人检测方法及系统 - Google Patents

一种基于两级注意力机制的行人检测方法及系统 Download PDF

Info

Publication number
CN110135243B
CN110135243B CN201910260572.6A CN201910260572A CN110135243B CN 110135243 B CN110135243 B CN 110135243B CN 201910260572 A CN201910260572 A CN 201910260572A CN 110135243 B CN110135243 B CN 110135243B
Authority
CN
China
Prior art keywords
module
attention
detection
pedestrian
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910260572.6A
Other languages
English (en)
Other versions
CN110135243A (zh
Inventor
张重阳
罗艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201910260572.6A priority Critical patent/CN110135243B/zh
Publication of CN110135243A publication Critical patent/CN110135243A/zh
Application granted granted Critical
Publication of CN110135243B publication Critical patent/CN110135243B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/02Affine transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于两级注意力机制的行人检测方法,将原始图像送入RPN模块得到目标候选框;将每一个候选框自上而下分为三个子区域;将子区域经过pool模块的特征分别送入一个第一级注意力模块,得到每一个子区域内相对精准的部位特征;将每一个候选框的部位特征与全局特征堆叠,送入一个第二级注意力模块,进行全局特征与部位特征的自适应加权;将两级注意力模块串联,得到端到端的检测网络模型。本发明有效去除复杂的背景干扰,适用于现实应用环境中多变的情况,增强检测鲁棒性,降低误检和漏检概率,尤其对于可用信息相对较少的被遮挡行人与冗余噪声干扰严重的小尺度行人,有效提高视频图像中行人目标的检测能力。

Description

一种基于两级注意力机制的行人检测方法及系统
技术领域
本发明涉及的是一种图像中目标检测领域的方法,具体是一种基于两级注意力机制的行人检测方法及系统。
背景技术
大数据时代的到来,推动着计算机技术的不断更新和发展,行人检测技术作为计算机视觉领域的研究热点在智能视频监控、智能交通等领域表现出了重要的应用价值。现有的行人检测算法,因为尚存如下困难和挑战,检测结果还有待提升:由于拍摄距离原因,图片较大但目标行人尺寸较小,通过深度学习卷积神经网络降缩之后目标区域的特征很少,难以进行有效的检测识别;由于拍摄角度的固定性,行人的身体会出现部分遮挡问题,在检测过程中有用的信息相对减少,从而导致漏检的发生。
目前,较为成熟的行人检测算法基本可以分为两类:(1)基于背景建模。该方法主要用于视频中检测运动目标:即将输入的静态图像进行场景分割,利用混合高斯模型(GMM)或运动检测等方法,分割出其前景与背景,再在前景中提取特定运动目标。这类方法需要连续的图像序列来实现建模,不适合于单幅图像中的目标检测。(2)基于统计学习。即将所有已知属于行人目标的图像收集起来形成训练集,基于一个人工设计的算法(如HOG、Harr等)对训练集图像提取特征。提取的特征一般为目标的灰度、纹理、梯度直方图、边缘等信息。继而根据大量的训练样本的特征库来构建行人检测分类器。分类器一般可用SVM,Adaboost及神经网络等模型。
综合而言近年来基于统计学习的目标检测算法表现较优,基于统计学习的目标检测算法可以分为传统人工特征目标检测算法以及深度特征机器学习目标检测算法。
传统人工特征目标检测算法主要是指其利用人工设计的特征,来进行目标检测的建模。近年来表现优秀的人工设计的特征算法主要包括:2010年Pedro F.Felzenszwalb等提出的DPM(Deformable Part Model)算法(Object detection with discriminativelytrained part-based models)。Piotr Dollár等2009年提出的ICF(Integral ChannelFeatures)、2014年提出的ACF算法(Fast Feature Pyramids for Object Detection)。2014年Shanshan Zhang等提出的Informed Harr方法(Informed Haar-like FeaturesImprove Pedestrian Detection),致力于提取更加具有表征信息的Harr特征来进行训练。这些人工设计的特征虽然取得了一定的效果,但因为人工特征表征能力不足,仍存在检测精度不高问题。由于深度卷积神经网络模型所具有的更强大的特征学习与表达能力,在行人检测方面得到越来越广泛和成功的应用。基础的行人检测算子是R-CNN(Region-Convolutional Neural Network)模型。2014年,Girshick等人提出RCNN用于通用目标的检测,之后又是提出了Fast RCNN和Faster RCNN,提高了基于深度学习目标检测算法的精度和速度.2016年提出的Yolo和SSD等算法,则通过Anchor等思想实现单一阶段的快速目标检测。这些基于深度学习技术的目标检测,大都是使用从整个候选框提取的特征进行分类回归,仍然存在深度特征提取不充分的问题,尤其是针对行人中的遮挡目标以及小尺寸目标,一方面由于遮挡目标身体部分部位的不可见性,视觉特征有限;另一方面是因为深度卷积神经网络层层的尺寸降缩,特征尺寸更小;这两方面的因素导致行人目标的检测精度不高、漏检率需要进一步降低。
2018年,Shanshan Zhang等提出的part attention方法(Occluded PedestrianDetection Through Guided Attention in CNNs),致力于提取更加具有表征信息的身体部位特征来进行训练。但是仍然存在一些问题,一方面是这种方法依然使用的是整个目标候选框的特征,没有充分提取身体部位特征,此外,过于注重身体部位特征或过于注重整个候选框的特征,导致网络在全局与局部之间的失衡,所以检测器没有很好的泛化性能;另一方面,利用一个部位检测器来提取身体部位特征,会引入额外标注的身体部位信息,造成成本的增加。
目前没有发现同本发明类似技术的说明或报道,也尚未收集到国内外类似的资料。
发明内容
针对现有技术中基于深度模型的行人检测方法存在的上述不足,本发明的目的是提出一种基于两级注意力机制的行人检测方法及系统。
根据本发明的一个方面,提供了一种基于两级注意力机制的行人检测方法,包括:
S1,基于Faster RCNN以及FPN(Feature Pyramid Network)网络构造一个端到端行人检测网络,所述检测网络包括基础网络Faster RCNN中的RPN模块、pool模块和分类回归模块,还包括第一级注意力模块和第二级注意力模块,其中第一级注意力模块的输入特征是基于RPN(Region Proposal Network)模块产生的目标候选框;
S2,利用第一级注意力模块得到精准的部位特征:
原始输入图像Image送入RPN模块提取目标候选框;将每一个目标候选框自上而下分为三个子区域P1,P2,P3,分别对应直立行人头部,上身以及下身;将每个子区域经过pool(RoI Pooling)模块的特征,各自送入一个对应的第一级注意力模块A1;通过该第一级注意力模块的仿射变换功能,可以提取出该子区域中相对精准的部位特征
Figure GDA0002895846780000031
Figure GDA0002895846780000032
S3,利用第二级注意力模块平衡整体与部位特征:
将每个目标候选框B通过第一级注意力模块得到的每一个子区域内的部位特征
Figure GDA0002895846780000033
与目标候选框B整体特征堆叠,作为第二级注意力模块的输入特征;利用第二级注意力模块的自适应加权功能,依据输入特征自适应挑选不同成分的特征,得到各成分对应的加权值o′g,o′h,o′u,o′l(分别对应整体,头部,上身,下身);将加权后的特征o′g·B,
Figure GDA0002895846780000034
分别送入分类回归模块进行分类与回归,实现检测定位,得到检测结果B0,即为图像中需要检出的行人目标。
优选地,所述S2中,对每一个目标候选框子区域的划分方法包括:
首先确定每一个目标候选框的左上角与右下角的坐标(x1,y1),(x2,y2)以及每一个目标候选框的尺寸H×W,其中H,W分别为该候选框的高和宽,再从每一个目标候选框中划分出三个子区域,即:
对于行人头部对应的子区域,用坐标可以表示为:
H=|y2-y1|
W=|x2-x1|
P1=[(x1,y1),(x2,y1+α·H)]
对于行人上身对应的子区域,用坐标可以表示为:
Figure GDA0002895846780000041
对于行人下身对应的子区域,用坐标可以表示为:
P3=[(x1,y2-α·H),(x2,y2)];
其中,α表示用于控制每一个子区域高度的参数。
更为优选地,参数α用来控制每一个子区域的高度;在整体检测流程中,参数α被设定为0.4,表示每一个子区域的高度占整个目标候选框高度的40%。
优选地,所述S2中,提取精准的部位特征的方法为:
将子区域经过pool(RoI Pooling)模块的特征P1,P2,P3分别送入第一级注意力模块的仿射变换模块,得到该子区域对应的仿射变换矩阵
Figure GDA0002895846780000042
Figure GDA0002895846780000043
通过该仿射变换矩阵,将子区域上每个像素点对应的坐标(x,y)映射到仿射散点图S*上的对应坐标(x*,y*),即:
Figure GDA0002895846780000044
其中,τ(·)表示空间仿射变换函数,M表示仿射变换矩阵,
Figure GDA0002895846780000045
表示仿射变换矩阵的参数,通过
Figure GDA0002895846780000046
不同数值的组合,可以实现不同的仿射变换功能,如:平移、旋转、反射等;
将该仿射散点图S*送入单位圆核函数,输出注意力权重图A;将注意力图与相应子区域的特征逐通道相乘,即可得该子区域相对精准的部位特征,具体为:
Figure GDA0002895846780000047
κ(p,q)=frelu(1-||p-q||2)
Figure GDA0002895846780000048
其中,A(i,j)表示注意力权重图A上坐标为(i,j)的点对应的注意力权重值,p,q分别表示坐标点,frelu(·)表示线性整流函数,κ(·)表示单位圆核函数,Pi表示输入的子区域特征,
Figure GDA0002895846780000049
表示第一级注意力模块输出精准的部位特征。
更为优选地,所述仿射变换模块主要由三层全连接层组成,对于不同语义信息的子区域(如:头部、上身、下身),其仿射变换模块的三层全连接层权重共享。
优选地,所述S3中,进行自适应加权的方法为:
对于整体与部分堆叠的特征
Figure GDA0002895846780000051
其中
Figure GDA0002895846780000052
利用全局平均池化(Global Average Pooling)将其变换为
Figure GDA0002895846780000053
其中,C表示特征图通道数;将池化特征送入全连接层得到自适应加权参数o′g,o′h,o′u,o′l;通过注意力正则化方法将加权参数的和限制为o′g+o′h+o′u+o′l≈1;将正则化加权参数与对应成分分别相乘,得到最后用于分类与回归模块的加权特征;其中,对应成分是指:o′g对应的全局特征B,o′h对应的头部特征
Figure GDA0002895846780000058
o′u对应的上身特征
Figure GDA0002895846780000054
o′l对应的下身特征
Figure GDA0002895846780000055
更为优选地,所述全局平均池化函数(Global Average Pooling)fg(·)为:
Figure GDA0002895846780000056
其中,X为给定的特征,HX、WX分别为给定特征X的高度与宽度,X(x,y)为特征X在给定坐标点(x,y)处的像素值。
更为优选地,注意力正则化的方法为:利用注意力正则化损失函数far(·),对自适应加权参数进行限制,其中L2nd表示为第二级注意力模块的损失函数,N为RPN模块提取出的目标候选框的个数,o为第二级注意力模块的自适应加权参数,g、h、u、l分别对应整体、头部、上身、下身。
Figure GDA0002895846780000057
优选地,所述方法还包括S4,利用各个模块(第一级注意力模块、第二级注意力模块和分类回归模块)的损失之和构造一个能够端到端训练的检测网络模型,并利用该损失之和对整个检测网络模型进行训练。
更为优选地,所述S4中,各个模块的损失之和包括:RPN模块的损失、第二级注意力模块的注意力正则化损失以及最终的分类回归模块的损失进行加权求和,作为整个检测网络的总损失,得到一个端到端的检测网络模型。
根据本发明的第二个方面,提供了一种基于两级注意力机制的行人检测系统,基于Faster RCNN以及FPN网络构造,包括:基础网络Faster RCNN中的RPN模块、pool模块和分类回归模块,还包括第一级注意力模块和第二级注意力模块;其中:
所述RPN模块,用于对原始输入图像提取目标候选框;
所述pool模块,用于提取目标候选框中每一个子区域的特征,并送入第一级注意力模块;
所述第一级注意力模块通过仿射变换方法提取每一个子区域精准的部位特征,并送入第二级注意力模块;
所述第二级注意力模块用于平衡目标候选框的整体特征与部位特征,得到加权后的特征并送入分类回归模块;
所述分类回归模块,用于对加权后的特征进行分类与回归,得到的检测结果即为图像中需要检出的行人目标。
优选地,所述检测系统还包括检测网络模型模块,所述检测网络模型模块利用第一级注意力模块、第二级注意力模块和分类回归模块的损失之和构造一个能够端到端训练的检测网络模型,并利用检测网络模型得到的目标进行训练。
与现有技术相比,本发明具有如下有益效果:
本发明提供的基于两级注意力机制的行人检测方法及系统,既可实现行人身体部位特征的成分挖掘利用,有效降低现有检测方法因特征不足、细节特征丢失带来的遮挡目标、小目标漏检等问题,也可以有效避免由于单一特征导致的整体与局部特征失衡问题,从而提高检测器在复杂场景下的鲁棒性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中整体行人检测框架流程图;
图2为本发明一实施例中两级注意力机制流程图;
图3为本发明一实施例中第一级注意力模块仿射变换流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
本发明针对行人检测任务等应用,在以下实施例中,设计了一种基于两级注意力机制的行人检测方法,可以参照以下步骤进行:
第一步,构造一个基础检测网络。
本步骤中,基于Faster RCNN以及FPN网络构造一个端到端行人检测网络;将RPN模块产生的每个目标候选框分为三个子区域,送入第一级注意力模块,得到精准的部位特征;将整体特征(B)与部位特征(P1,P2,P3)堆叠,作为第二级注意力模块的输入特征,进行不同组成成分的自适应加权;将第二级注意力模块的加权特征送入分类与回归模块,得到最终的行人目标检测结果。参照图1所示。
第二步,利用第一级注意力模块得到精准的部位特征。
RPN模块得到的目标候选框经过子区域划分后,送入第一级注意力模块,通过仿射变换(包括旋转、错切、反射、平移、缩放等)提取每一个子区域中相对精准的部位区域。参照图3所示。
第三步,利用第二级注意力模块平衡整体与部位特征。
本步骤中,将第一级注意力模块得到的每一个子区域内的部位特征
Figure GDA0002895846780000071
Figure GDA0002895846780000072
与整体特征B堆叠,作为第二级注意力模块的输入特征;利用第二级注意力模块的自适应加权功能,网络依据输入样本自适应挑选不同成分的特征,得到各成分对应的加权值o′g,o′h,o′u,o′l(分别对应整体,头部,上身,下身);将加权后的特征o′g·B,
Figure GDA0002895846780000073
送入检测器的分类与回归模块,进行目标检测定位,得到检测结果,即为图像中需要检出的行人目标。
在上述三个步骤基础上,还可以包括第四步,即:利用各个模块损失之和构造端到端检测网络。
本步骤中,将RPN模块损失、第一级注意力模块的注意力正则化损失以及最终的分类回归模块损失进行加权求和,作为整个检测网络的总损失;并利用该损失之和对整个检测网络模型进行训练,得到完整的行人检测网络模型。
具体的,在一实施例中:
S1,基于Faster RCNN以及FPN网络构造一个端到端行人检测网络;端到端行人检测网络包括基础网络Faster RCNN中的RPN模块、pool模块、分类回归模块,还包括新增的第一级注意力模块和第二级注意力模块。
S2,利用第一级注意力模块检测相对精准的部位特征:原始图像送入端到端检测器的卷积神经网络(Convolutional Neural Network,CNN)模块的深卷积层对输入图像进行多层卷积等运算,提取得到图片的深度特征;基于深度特征,利用Faster RCNN网络中的RPN(Region Proposal Network)模块得到目标候选框;将每一个目标候选框划分为三个子区域,记为P1,P2,P3,分别对应直立行人头部,上身,下身;将子区域的特征送入网络第一级注意力模块,通过该模块的仿射变换功能(包括旋转、错切、反射、平移、缩放等)自适应聚焦每一个子区域的部位特征,从而过滤冗余背景信息,得到身体部位区域的精准定位,记为
Figure GDA0002895846780000081
Figure GDA0002895846780000082
S3,利用第二级注意力模块平衡整体与部位特征:将Faster RCNN网络中第一级注意力模块输出的部位特征,与RPN得到的目标候选框的池化特征堆叠起来,得到一个多成分融合特征;将此特征作为输入送入第二级注意力模块,利用全局平均池化(Global AveragePooling)与全连接层,得到每个组成成分的自适应加权参数。这里的每个组成成分,是指整个目标候选框以及三个子区域对应的部位特征;将加权后的特征作为目标候选框的完整特征送入检测器进行分类与回归,实现目标检测定位,得到检测结果B0,即为图像中需要检出的行人目标。
在S2中:输入图像进行多层卷积等运算得到图片的特征图。首先将图片通过一个卷积神经网络模块的深卷积层(Deep CNN,DCNN),比如VGG16或者ResNet,对输入图像进行多层卷积等运算得到图片的特征图。
利用Faster RCNN网络中的RPN模块来产生第一级注意力模块的目标候选框,并用分类、位置回归计算相应的分类和目标框位置,检测得到第一级注意力模块输入目标的位置框,即为检出框B。参照图2以及图3所示,将检出框B划分为三个子区域P1,P2,P3,送入仿射变换模块,得到该子区域对应的仿射变换矩阵
Figure GDA0002895846780000083
通过该仿射变换矩阵,将子区域上每个像素点对应的坐标(x,y)映射到仿射散点图S*上的对应坐标(x*,y*),即:
Figure GDA0002895846780000091
将仿射散点图S*通过单位圆核函数,得到每一个子区域对应的注意力加权图A;将注意力加权图与每一个子区域的池化特征逐通道相乘,即得到每一个子区域精准的部位特征
Figure GDA0002895846780000092
即:
Figure GDA0002895846780000093
κ(p,q)=frelu(1-||p-q||2)
Figure GDA0002895846780000094
其中,A(i,j)表示注意力权重图A上坐标为(i,j)的点对应的注意力权重值,p,q分别表示坐标点,frelu(·)表示线性整流函数,κ(·)表示单位圆核函数,Pi表示输入的子区域特征,
Figure GDA0002895846780000095
表示第一级注意力模块输出精准的部位特征。
参照图2所示,在S3中:将第一级注意力模块输出的子区域部位特征与RPN模块提取出的目标候选框的整体池化特征堆叠,形成
Figure GDA0002895846780000096
其中
Figure GDA0002895846780000097
Figure GDA0002895846780000098
作为第二级注意力模块的输入特征;利用全局平均池化(Global Average Pooling)将其变换为
Figure GDA0002895846780000099
即:
Figure GDA00028958467800000910
其中X为给定的特征,HX、WX分别为给定特征X的高度与宽度,X(x,y)为特征X在给定坐标点(x,y)处的像素值。
将全局平均池化后的特征送入全连接层得到自适应加权参数og,oh,ou,ol,将此加权参数通过sigmoid函数,即:
Figure GDA00028958467800000911
可得自适应加权参数o′g,o′h,o′u,o′l;通过注意力正则化机制将加权参数的和限制为o′g+o′h+o′u+o′l≈1;将正则化加权参数与对应成分分别相乘,得到最后用于分类与回归的加权特征;这里的对应成分分别相乘指的是形如o′g·B,
Figure GDA00028958467800000912
Figure GDA00028958467800000913
的相乘方法。将此加权特征进行堆叠,送入检测器的分类与回归模块,进行行人目标检测定位,得到检测结果,即为图像中需要检出的行人目标。
在本发明部分实例中,采用的是各个模块损失之和,包括:RPN模块,注意力正则化损失,检测器分类与回归模块损失,作为整体网络框架的损失,用于行人检测器的端到端训练,得到一个端到端的检测网络模型。
现有的行人检测方法对于某些尺寸较大或者遮挡不是很严重的行人目标可以很好地识别,但是由于现实应用场景比较复杂,尺寸较大的目标,以及毫无遮挡或较少遮挡的只占很小的一部分,对于距离较远的小尺寸目标,物体遮挡\自遮挡目标,检测结果并不是很好。复杂场景下的行人检测有以下特点:
特点一、小尺寸行人占比大。由于拍摄距离较远,或者行人本身的尺寸变化较大(如:成人与儿童),这类目标往往占比较大。用目前的深度学习等方法直接对这类小目标检测,由于目标外观、轮廓、梯度等视觉特征模糊不清,很容易与背景、尤其是具有垂直结构的相似性假正例目标的混淆,难以对其进行准确区分,造成误检漏检率的增高。
特点二、遮挡行人占比大。在应用场景中,图像中的行人目标被局部遮挡的情景是难以避免的。由于行人的全局特征遭到破环,导致多数现有算法失灵。此外,由于遮挡模式的多样性,导致过于依赖部位检测器的遮挡算法性能不佳。
基于现实中存在的行人检测困难,本发明上述实施例的图像中对于行人进行基于两级注意力机制的检测方法,提出了先利用CNN网络中的深层特征提取提取目标候选框,将目标候选框划分为三个子区域,利用仿射变换模块提取三个子区域的部位特征。在第一级注意力模块输出的精准部位特征的基础上,堆叠RPN模块产生的整体特征,进行第二级整体-部位特征的自适应加权,使得网络自适应关注全局/局部特征,在保证小尺度样本,遮挡样本具有优越性能的同时,该行人检测器在常规行人样本上也具有卓越性能。本发明上述实施例提出的两级注意力机制的行人检测方法,从上述问题出发,通过两级注意力模块串联,三个子区域并联检测且特征共享等设计,能较好地解决目标在小尺度、遮挡场景时的精准、高效检测。
本发明上述实施例中提出的方法包括构建利用待检测图片送入CNN网络产生不同层次的特征,利用深层特征和RPN模块初步提取目标候选框;再通过子区域划分模块,将每一个目标候选框划分为表征行人头部,上身,下身的子区域,送入第一级注意力模块,提取每一个子区域中的行人身体部位特征,将提取出的精准部位特征与RPN模块产生的整体特征进行堆叠,送入第二级注意力模块,通过第二级注意力模块中的全局平均池化(以及全连接层自适应加权整体/部位特征,得到鲁棒性更强的行人特征,送入最终的分类与模块进行行人目标检测与精细定位;整个网络通过将各个模块的损失进行加权求和,作为整个网络的损失函数,实现端到端的网络训练。整个检测过程包括四个环节:
一、待检测图片送入CNN网络进行多层卷积运算产生不同层次的特征。将图片送入ResNet与FPN网络,对输入图像进行多层卷积等运算得到图片的特征图。
二、利用深层特征和Faster RCNN网络中的RPN模块产生的目标候选框划分部位子区域,通过Pool(RoI Pooling)模块得到第一级注意力模块的输入特征。利用第一级模块的仿射变换功能(包括旋转、错切、反射、平移、缩放等)自适应聚焦每一个子区域的部位特征。具体操作如图3所示。在训练时,本实例将经过缩放的图片(原图:640×480,缩放后:1280×960)送入CNN网络,提取图片的深度特征;利用Faster RCNN网络中的RPN(Region ProposalNetwork)模块得到目标候选框;将每一个目标候选框划分为三个子区域,记为P1,P2,P3,分别对应直立行人头部,上身,下身,其中每一个子区域的高度与对应目标候选框高度的比值为0.4,即每一个子区域的高度占整个目标候选框高度的五分之二。对于相邻子区域存在重叠区域,对于每一个目标候选框的三个子区域,头部与上身存在重叠区域,上身与下身存在重叠区域,并且两个重叠区域的高度与对应目标候选框高度的比值为0.1,即每一个重叠区域的高度占整个目标候选框高度的十分之一。这种子区域的划分方法对于第一级注意力模块提取精准的部位特征非常重要。
三、将第一级注意力模块输出的三个子区域的部位特征
Figure GDA0002895846780000111
与RPN提取出的目标候选框的池化特征B堆叠起来,形成
Figure GDA0002895846780000112
其中
Figure GDA0002895846780000113
Figure GDA0002895846780000114
作为第二级注意力模块的输入特征;利用全局平均池化(Global Average Pooling)将其变换为
Figure GDA0002895846780000115
将池化特征送入全连接层得到自适应加权参数o′g,o′h,o′u,o′l;通过注意力正则化机制将加权参数的和限制为o′g+o′h+o′u+o′l≈1;将正则化加权参数与对应成分分别相乘,得到最后用于分类与回归模块的加权特征;这里的对应成分分别相乘指的是形如o′g·B,
Figure GDA0002895846780000116
的相乘方法。将此加权特征进行堆叠,送入检测器的分类与回归模块,进行行人目标检测定位,得到检测结果,即为图像中需要检出的行人目标。图2为具体的第一级注意力模块与第二级注意力模块的流程图。
将各个模块的损失进行加权求和进行反向传播,是一种端到端的训练方式。其中,各个模块的损失包括:RPN模块,注意力正则化损失,检测器分类与回归模块损失。
Figure GDA0002895846780000121
loss=Lrpn_cls+Lrpn_reg+Lcls+Lreg+λL2nd
其中,loss指总的损失,Lrpn_cls指RPN模块的分类损失,Lrpn_reg指RPN模块的回归损失,Lcls指检测器分类损失,Lreg指检测器回归损失,L2nd指注意力正则化损失,其中参数λ用于平衡注意力正则化损失与其余损失,在上述实施例中λ=1。
在本发明实施例中,大目标是指行人目标的像素高度大于50pixel;小目标是指行人目标的像素高度小于等于50pixel。部分遮挡行人是指行人可见身体部分高度与完整行人目标高度的比值在(0.65,1)之间,严重遮挡行人是指行人可见身体部分高度与完整行人目标高度的比值在(0.20,0.65)之间。
本发明另一实施例中,通过构造一个端到端的两级注意力检测系统,先精准定位目标候选框的身体部位特征,充分提取小目标/遮挡行人有用特征,有效去除复杂的背景干扰,再自适应加权整体/局部特征,从而有效保证整体行人检测器无论在小目标/遮挡目标,还是在常规行人检测上都取得优越性能,提升图像中行人检测的精度。参照图1所示,一种基于两级注意力机制的行人检测系统的实施例,该系统基于Faster RCNN以及FPN网络构造,包括:RPN模块、第一级注意力模块、第二级注意力模块、pool模块以及分类回归模块;其中:RPN模块对原始输入图像提取目标候选框;pool模块提取目标候选框中每一个子区域的特征,并送入第一级注意力模块;第一级注意力模块通过仿射变换方法提取每一个子区域精准的部位特征,并送入第二级注意力模块;第二级注意力模块平衡目标候选框的整体特征与部位特征,得到加权后的特征并送入分类回归模块;分类回归模块对加权后的特征进行分类与回归,得到的检测结果即为图像中需要检出的行人目标。
在另一较优实施例中,检测系统还可以包括检测网络模型模块,检测网络模型模块利用第一级注意力模块、第二级注意力模块和分类回归模块的损失之和构造一个能够端到端训练的检测网络模型,并利用检测网络模型得到的目标进行训练。
本发明上述实施例设计的基于两级注意力机制的行人检测方法和系统,将原始图像Image送入检测器的RPN(Region Proposal Network)模块得到目标候选框B;将每一个候选框自上而下分为三个子区域P1,P2,P3,分别对应直立行人头部,上身以及下身;将子区域经过检测器的pool(RoI Pooling)模块的特征分别送入一个第一级注意力模块A1,得到每一个子区域内相对精准的部位特征
Figure GDA0002895846780000131
Figure GDA0002895846780000132
将每一个候选框的部位特征与全局特征堆叠,送入一个第二级注意力模块A2,进行全局特征与部位特征的自适应加权;将两级注意力模块串联,得到端到端的检测网络模型。通过构造一个两级注意力机制,先提取部位特征,再对整体行人特征与部位特征进行自适应加权,有效去除复杂的背景干扰,适用于现实应用环境中多变的情况,增强检测鲁棒性,降低误检和漏检概率,尤其对于可用信息相对较少的被遮挡行人与冗余噪声干扰严重的小尺度行人,本发明可以有效提高视频图像中行人目标的检测能力。
需要说明的是,本发明提供的所述方法中的步骤,可以利用所述系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程,即,所述系统中的实施例可理解为实现所述方法的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个模块、装置、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (9)

1.一种基于两级注意力机制的行人检测方法,其特征在于,包括:
S1,基于Faster RCNN以及FPN网络构造一个端到端行人检测网络,所述检测网络包括基础网络Faster RCNN中的RPN模块、pool模块和分类回归模块,还包括第一级注意力模块和第二级注意力模块,其中第一级注意力模块的输入特征是基于RPN模块产生的目标候选框;
S2,利用第一级注意力模块得到精准的部位特征:
原始输入图像Image送入RPN模块提取目标候选框B;将每一个目标候选框B自上而下分为三个子区域P1、P2和P3,分别对应直立行人头部、上身以及下身;将每个子区域经过pool模块的特征,各自送入一个对应的第一级注意力模块A1;通过第一级注意力模块的仿射变换功能,提取出三个子区域中精准的部位特征
Figure FDA0002895846770000011
Figure FDA0002895846770000012
S3,利用第二级注意力模块平衡整体与部位特征:
将每个目标候选框B通过第一级注意力模块得到的每一个子区域部位特征
Figure FDA0002895846770000013
Figure FDA0002895846770000014
分别与目标候选框B整体特征堆叠,作为第二级注意力模块A2的输入特征;利用第二级注意力模块的自适应加权功能,依据输入特征的不同,自适应地计算得到不同大小的权重o′g、o′h、o′u和o′l,其中o′、o′h、o′u和o′l分别对应整体、头部、上身以及下身;将加权后的特征o′g·B、
Figure FDA0002895846770000015
Figure FDA0002895846770000016
分别送入分类回归模块分类与回归,得到检测结果B0,即为图像中需要检出的行人目标。
2.根据权利要求1中所述的基于两级注意力机制的行人检测方法,其特征在于,所述S2中,每一个目标候选框子区域的划分方法包括:
确定每一个目标候选框的尺寸为H×W,其中H、W分别为目标候选框的高和宽;每一个目标候选框的左上角点与右下角点的坐标分别为(x1,y1)、(x2,y2);根据以上表示,得到三个子区域,即:
W=|x2-x1|
H=|y2-y1|
P1=[(x1,y1),(x2,y1+α·H)]
Figure FDA0002895846770000021
P3=[(x1,y2-α·H),(x2,y2)]
其中,α表示用于控制目标候选框每一个子区域高度的参数。
3.根据权利要求2所述的基于两级注意力机制的行人检测方法,其特征在于,在整体检测过程中,参数α被设定为0.4,表示每一个子区域的高度占整个目标候选框高度的40%。
4.根据权利要求1中所述的基于两级注意力机制的行人检测方法,其特征在于,所述S2中,提取子区域精准的部位特征的方法为:
将子区域经过pool(RoI Pooling)模块的特征P1、P2、P3分别送入第一级注意力模块的仿射变换模块,得到子区域对应的仿射变换矩阵
Figure FDA0002895846770000022
Figure FDA0002895846770000023
通过仿射变换矩阵,将子区域上每个像素点对应的坐标(x,y)映射到仿射散点图S*上的对应坐标(x*,y*),即:
Figure FDA0002895846770000024
其中,τ(·)表示空间仿射变换函数,M表示仿射变换矩阵,
Figure FDA0002895846770000025
表示仿射变换矩阵的参数,通过
Figure FDA0002895846770000026
不同数值的组合,实现不同的仿射变换功能;
将仿射散点图S*送入单位圆核函数,输出注意力权重图A;将注意力权重图A与相应子区域的特征逐通道相乘,即得该子区域精准的部位特征,具体为:
Figure FDA0002895846770000027
κ(p,q)=frelu(1-||p-q||2)
Figure FDA0002895846770000028
其中,A(i,j)表示注意力权重图A上坐标为(i,j)的点对应的注意力权重值,p,q分别表示坐标点,frelu(·)表示线性整流函数,κ(·)表示单位圆核函数,Pi表示输入的子区域特征,
Figure FDA0002895846770000029
表示第一级注意力模块输出精准的部位特征。
5.根据权利要求4所述的基于两级注意力机制的行人检测方法,其特征在于,所述仿射变换模块主要由三层全连接层组成,对于不同语义信息的子区域,其仿射变换模块的三层全连接层权重共享。
6.根据权利要求1中所述的基于两级注意力机制的行人检测方法,其特征在于,所述S3中,进行自适应加权的方法为:
对于整体与部分堆叠的特征
Figure FDA0002895846770000031
其中
Figure FDA0002895846770000032
利用全局平均池化函数(Global Average Pooling)fg(·)将其变换为
Figure FDA0002895846770000033
其中,C表示特征图通道数;将池化特征送入第二级注意力模块的全连接层得到自适应加权参数o′g、o′h、o′u和o′l;通过注意力正则化方法将加权参数的和限制为o′g+o′h+o′u+o′l≈1;将正则化加权参数与对应成分分别相乘,得到最后用于分类与回归模块的加权特征;其中,对应成分是指:o′g对应的全局特征B,o′h对应的头部特征
Figure FDA0002895846770000034
o′u对应的上身特征
Figure FDA0002895846770000035
o′l对应的下身特征
Figure FDA0002895846770000036
其中,全局平均池化函数(Global Average Pooling)fg(·)是指:
Figure FDA0002895846770000037
其中,X为给定的特征,HX、WX分别为给定特征X的高度与宽度,X(x,y)为特征X在给定坐标点(x,y)处的像素值;
和/或
所述注意力正则化的方法为:利用注意力正则化损失函数far(·),对自适应加权参数进行限制,其中L2nd表示为第二级注意力模块的损失函数,N为RPN模块提取出的目标候选框的个数,o为第二级注意力模块的自适应加权参数,g、h、u、l分别对应整体、头部、上身、下身:
Figure FDA0002895846770000038
7.根据权利要求1至6中任一项所述的基于两级注意力机制的行人检测方法,其特征在于,还包括S4,利用第一级注意力模块、第二级注意力模块和分类回归模块的损失之和构造一个能够端到端训练的检测网络模型,并利用该损失之和对整个检测网络模型进行训练;
其中:
各个模块的损失之和包括:RPN模块的损失、第二级注意力模块的注意力正则化损失以及最终的分类回归模块的损失进行加权求和,作为整个检测网络的总损失,得到一个端到端的检测网络模型。
8.一种基于两级注意力机制的行人检测系统,其特征在于,基于Faster RCNN以及FPN网络构造,包括:基础网络Faster RCNN中的RPN模块、pool模块和分类回归模块,还包括第一级注意力模块和第二级注意力模块;其中:
所述RPN模块,用于对原始输入图像提取目标候选框;
所述pool模块,用于提取目标候选框中每一个子区域的特征,并送入第一级注意力模块;
所述第一级注意力模块通过仿射变换方法提取每一个子区域精准的部位特征,并送入第二级注意力模块;
所述第二级注意力模块用于平衡目标候选框的整体特征与部位特征,得到加权后的特征并送入分类回归模块;
所述分类回归模块,用于对加权后的特征进行分类与回归,得到的检测结果即为图像中需要检出的行人目标。
9.根据权利要求8所述的基于两级注意力机制的行人检测系统,其特征在于,还包括检测网络模型模块,所述检测网络模型模块利用第一级注意力模块、第二级注意力模块和分类回归模块的损失之和构造一个能够端到端训练的检测网络模型,并利用该损失之和对整个检测网络模型进行训练。
CN201910260572.6A 2019-04-02 2019-04-02 一种基于两级注意力机制的行人检测方法及系统 Active CN110135243B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910260572.6A CN110135243B (zh) 2019-04-02 2019-04-02 一种基于两级注意力机制的行人检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910260572.6A CN110135243B (zh) 2019-04-02 2019-04-02 一种基于两级注意力机制的行人检测方法及系统

Publications (2)

Publication Number Publication Date
CN110135243A CN110135243A (zh) 2019-08-16
CN110135243B true CN110135243B (zh) 2021-03-19

Family

ID=67568993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910260572.6A Active CN110135243B (zh) 2019-04-02 2019-04-02 一种基于两级注意力机制的行人检测方法及系统

Country Status (1)

Country Link
CN (1) CN110135243B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705366A (zh) * 2019-09-07 2020-01-17 创新奇智(广州)科技有限公司 基于楼梯场景的实时人头检测方法
CN111325205B (zh) * 2020-03-02 2023-10-10 北京三快在线科技有限公司 文档图像方向识别方法、装置及模型的训练方法、装置
CN111507398A (zh) * 2020-04-16 2020-08-07 浙江华云信息科技有限公司 基于目标检测的变电站金属仪器锈蚀识别方法
CN111666839A (zh) * 2020-05-25 2020-09-15 东华大学 一种基于改进Faster RCNN的道路行人检测系统
CN111680619A (zh) * 2020-06-05 2020-09-18 大连大学 基于卷积神经网络和双注意力机制的行人检测方法
CN111950586B (zh) * 2020-07-01 2024-01-19 银江技术股份有限公司 一种引入双向注意力的目标检测方法
CN112163580B (zh) * 2020-10-12 2022-05-03 中国石油大学(华东) 一种基于注意力机制的小目标检测算法
CN112149643B (zh) * 2020-11-09 2022-02-22 西北工业大学 基于多级注意力机制的面向无人机平台的车辆重识别方法
CN112613472B (zh) * 2020-12-31 2022-04-26 上海交通大学 一种基于深度搜索匹配的行人检测方法及系统
CN113065470A (zh) * 2021-04-02 2021-07-02 金陵科技学院 基于多特征融合及注意力权重避障的消毒机器人设计方法
CN112990144B (zh) * 2021-04-30 2021-08-17 德鲁动力科技(成都)有限公司 一种用于行人重识别的数据增强方法及系统
CN113243886B (zh) * 2021-06-11 2021-11-09 四川翼飞视科技有限公司 一种基于深度学习的视力检测系统、方法和存储介质
CN113642572B (zh) * 2021-07-15 2023-10-27 上海交通大学 一种基于多级注意力的图像目标检测方法、系统与装置
CN113673332A (zh) * 2021-07-15 2021-11-19 浙江大华技术股份有限公司 对象识别方法、装置以及计算机可读存储介质
CN113610037A (zh) * 2021-08-17 2021-11-05 北京计算机技术及应用研究所 一种基于头部和可见区域线索的遮挡行人检测方法
CN115049884B (zh) * 2022-08-15 2022-10-25 菲特(天津)检测技术有限公司 基于Faster RCNN网络的广义少样本目标检测方法及系统
CN116797490B (zh) * 2023-07-12 2024-02-09 青岛理工大学 一种轻量级浑浊水体图像增强方法
CN117095811B (zh) * 2023-08-04 2024-04-19 牛津大学(苏州)科技有限公司 基于电子医疗病例数据的预测方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160317A (zh) * 2015-08-31 2015-12-16 电子科技大学 一种基于区域分块行人性别识别方法
CN107301378A (zh) * 2017-05-26 2017-10-27 上海交通大学 图像中多分类器集成的行人检测方法和系统
CN107463892A (zh) * 2017-07-27 2017-12-12 北京大学深圳研究生院 一种结合上下文信息和多级特征的图像中行人检测方法
CN108256481A (zh) * 2018-01-18 2018-07-06 中科视拓(北京)科技有限公司 一种利用身体上下文的行人头部检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US10380741B2 (en) * 2016-12-07 2019-08-13 Samsung Electronics Co., Ltd System and method for a deep learning machine for object detection
CN109284669A (zh) * 2018-08-01 2019-01-29 辽宁工业大学 基于Mask RCNN的行人检测方法
CN109543606B (zh) * 2018-11-22 2022-09-27 中山大学 一种加入注意力机制的人脸识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160317A (zh) * 2015-08-31 2015-12-16 电子科技大学 一种基于区域分块行人性别识别方法
CN107301378A (zh) * 2017-05-26 2017-10-27 上海交通大学 图像中多分类器集成的行人检测方法和系统
CN107463892A (zh) * 2017-07-27 2017-12-12 北京大学深圳研究生院 一种结合上下文信息和多级特征的图像中行人检测方法
CN108256481A (zh) * 2018-01-18 2018-07-06 中科视拓(北京)科技有限公司 一种利用身体上下文的行人头部检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
RPN+ Fast Boosted Tree: Combining Deep Neural Network with Traditional Classifier for Pedestrian Detection;Jiaxiang Zhao et al.;《2018 4th International Conference on Computer and Technology Applications》;20180628;第141-150页 *
SPID Surveillance Pedestrian Image Dataset and Performance Evaluation for Predestrian detection;Dan Wang et al.;《Asian Conference on Computer Vision》;20170316;第463-477页 *
基于Faster_RCNN的行人检测方法;张汇 等;《传感器与微系统》;20190313;第38卷(第2期);第147-149,153页 *
基于Hi3531平台的快速行人检测优化与实现;孙乐飞;《电视技术》;20170524;第40卷(第8期);第122-125页 *

Also Published As

Publication number Publication date
CN110135243A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN110135243B (zh) 一种基于两级注意力机制的行人检测方法及系统
Yang et al. Real-time face detection based on YOLO
CN110009679B (zh) 一种基于多尺度特征卷积神经网络的目标定位方法
Kim et al. Detecting construction equipment using a region-based fully convolutional network and transfer learning
El Amin et al. Zoom out CNNs features for optical remote sensing change detection
CN110147743A (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
CN111626128A (zh) 一种基于改进YOLOv3的果园环境下行人检测方法
CN107909081A (zh) 一种深度学习中图像数据集的快速获取和快速标定方法
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN108427960A (zh) 基于改进Online Boosting和卡尔曼滤波器改进的TLD跟踪方法
CN111797841A (zh) 一种基于深度残差网络的视觉显著性检测方法
Wang et al. AutoScaler: Scale-attention networks for visual correspondence
CN113706584A (zh) 基于计算机视觉的街景流量信息采集方法
Ma et al. An anchor-free object detector with novel corner matching method
Zhou et al. A study on attention-based LSTM for abnormal behavior recognition with variable pooling
CN115482523A (zh) 轻量级多尺度注意力机制的小物体目标检测方法及系统
CN108320281A (zh) 一种基于多特征扩散的图像显著性检测方法及终端
Cao Pose estimation of swimmers from digital images using deep learning
CN117252908A (zh) 一种基于注意力的抗遮挡多目标跟踪方法
CN110826575A (zh) 一种基于机器学习的水下目标识别方法
Sun et al. Flame Image Detection Algorithm Based onComputer Vision.
CN112613472B (zh) 一种基于深度搜索匹配的行人检测方法及系统
CN102156879A (zh) 基于加权陆地运动距离的人体目标匹配方法
CN111160255B (zh) 一种基于三维卷积网络的捕鱼行为识别方法及系统
CN112070075B (zh) 一种基于协同回归的人体检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant