CN111126379A - 一种目标检测方法与装置 - Google Patents
一种目标检测方法与装置 Download PDFInfo
- Publication number
- CN111126379A CN111126379A CN201911157879.XA CN201911157879A CN111126379A CN 111126379 A CN111126379 A CN 111126379A CN 201911157879 A CN201911157879 A CN 201911157879A CN 111126379 A CN111126379 A CN 111126379A
- Authority
- CN
- China
- Prior art keywords
- target
- generate
- local
- key point
- input image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 79
- 238000010586 diagram Methods 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000004590 computer program Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种目标检测方法与装置,包括:获取输入图像并送入候选区域生成网络,以生成多个感兴趣区域;将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图;使用输入图像的全局特征图元积热力图,以生成局部深度特征图;融合全局特征图和局部深度特征图并使用检测器从中检测目标。本发明能够适用于不同尺度的目标检测,提升目标检测技术在复杂场景下对被遮挡目标的检测精度和鲁棒性,同时通过充分利用目标局部关键点信息解决了遮挡情况下的目标定位。
Description
技术领域
本发明涉及计算机识别领域,更具体地,特别是指一种目标检测方法与装置。
背景技术
目标检测技术是指通过图像处理及模式识别等算法从给定的图像数据中检测出目标,给予目标坐标位置和置信度。目标检测是计算机视觉中一个重要的研究热点,是行为分析,姿态估计,目标属性分析,智能监控,自动驾驶等实际应用中的核心技术之一。同时也具有许多实际应用,例如自动驾驶、智能监控和机器人等。因此目标检测技术具有极高的科研价值和商业价值,近年来,它在计算机视觉领域引起了极大的关注。
对于给定图像,为了得到图片中所有目标的位置,检测器需要使用基于手工特征的方法或基于深度特征学习的方法来提取特征。基于手工特征的方法主要考虑了目标的先验信息,对输入图像进行一系列简单的变化,得到目标特征。如采用方向梯度直方图算法挖掘目标的外形信息和运动信息,或者对图像进行不同的变化,并利用积分通道将其融合,从而形成丰富的特征集。可形变部件模型的检测算法针对人体部件建立一定形式的空间约束,根据模型与部件模型的共同作用检测人体目标。虽然上述传统检测方法在简单场景中能够达到应用水平,但是在复杂的自然场景下,基于手工特征的目标检测方法的鲁棒性低。
相比之下,深度特征学习的方法能够通过大量的数据自主学习出具有高鲁棒性的特征,从而显著性的提升检测精准度。现有技术使用预选框生成网络生成预选框,并采用感兴趣区域池化法统一不同大小的感兴趣区域的特征维度,并通过一系列的全链接层提取深度特征,然后用其训练级联森林,从而提高了检测器对小尺度目标的检测性能。现有技术还使用不同感受野的卷积层生成不同尺度的预选框,感受野小的卷积层用于小尺度预选框的生成而感受野大的卷积层用于大尺度预选框的生成,然后对所有预选框微调和再分类得到最后检测结果。现有技术还将人体部件之间的空间关联信息引入到深度部件检测器中,从而提升了遮挡情况下的行人检测性能。大多数最先进的目标检测方法在理想的情况下,即目标没有被遮挡或被轻微遮挡的情况下,具有较好的检测性能。然而当目标被严重遮挡时,这些方法会受到严重影响。例如在行人检测中,由于大多数身体部位是不可见的,因此检测器很容易被遮挡物误导,从而无法有效的识别行人。由于目标在现实世界的应用中可能被不同的物体遮挡,因此处理遮挡问题对于鲁棒的目标检测至关重要。
针对现有技术中单一尺度的检测器难以应对不同尺度的目标、在自然场景下其他物体可能对目标造成不同程度的遮挡、大部分监控场景里的小目标特征不明显且分辨率低等问题,目前尚无有效的解决方案。
发明内容
有鉴于此,本发明实施例的目的在于提出一种目标检测方法与装置,能够适用于不同尺度的目标检测,提升目标检测技术在复杂场景下对被遮挡目标的检测精度和鲁棒性,同时通过充分利用目标局部关键点信息解决了遮挡情况下的目标定位。
基于上述目的,本发明实施例的第一方面提供了一种目标检测方法,包括执行以下步骤:
获取输入图像并送入候选区域生成网络,以生成多个感兴趣区域;
将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图;
使用输入图像的全局特征图元积热力图,以生成局部深度特征图;
融合全局特征图和局部深度特征图并使用检测器从中检测目标。
在一些实施方式中,将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图包括:
将多个感兴趣区域从输入图像中提取并调整为具有相同大小;
在目标关键点网络中池化多个感兴趣区域并采样;
针对多个采样使用局部特征抽取算法获取特征信息,生成多个目标关键点解析图;
将多个目标关键点解析图格式化以生成热力图。
在一些实施方式中,使用输入图像的全局特征图元积热力图,以生成局部深度特征图包括:
对热力图执行关键点深度特征变换,以从热力图中提取适于执行元积的关键点深度特征;
使用全局特征图的全局检测特征元积关键点深度特征,获得局部关键点深度特征;
根据局部关键点深度特征还原出局部深度特征图。
在一些实施方式中,检测器包括移除了全连接层和分类层、并且设置了额外的新卷积层的深度卷积神经网络。
在一些实施方式中,新卷积层包括具有高分辨率和小感受野以检测小目标的第一新卷积层和具有低分辨率和大感受野以检测大目标的第二新卷积层。
本发明实施例的第二方面提供了一种目标检测装置,包括:
处理器;和
存储器,存储有处理器可运行的程序代码,程序代码在被运行时执行以下步骤:
获取输入图像并送入候选区域生成网络,以生成多个感兴趣区域;将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图;使用输入图像的全局特征图元积热力图,以生成局部深度特征图;融合全局特征图和局部深度特征图并使用检测器从中检测目标。
在一些实施方式中,将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图包括:
将多个感兴趣区域从输入图像中提取并调整为具有相同大小;
在目标关键点网络中池化多个感兴趣区域并采样;
针对多个采样使用局部特征抽取算法获取特征信息,生成多个目标关键点解析图;
将多个目标关键点解析图格式化以生成热力图。
在一些实施方式中,使用输入图像的全局特征图元积热力图,以生成局部深度特征图包括:
对热力图执行关键点深度特征变换,以从热力图中提取适于执行元积的关键点深度特征;
使用全局特征图的全局检测特征元积关键点深度特征,获得局部关键点深度特征;
根据局部关键点深度特征还原出局部深度特征图。
在一些实施方式中,检测器包括移除了全连接层和分类层、并且设置了额外的新卷积层的深度卷积神经网络。
在一些实施方式中,新卷积层包括具有高分辨率和小感受野以检测小目标的第一新卷积层和具有低分辨率和大感受野以检测大目标的第二新卷积层。
本发明具有以下有益技术效果:本发明实施例提供的目标检测方法与装置,通过获取输入图像并送入候选区域生成网络,以生成多个感兴趣区域;将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图;使用输入图像的全局特征图元积热力图,以生成局部深度特征图;融合全局特征图和局部深度特征图并使用检测器从中检测目标的技术方案,能够适用于不同尺度的目标检测,提升目标检测技术在复杂场景下对被遮挡目标的检测精度和鲁棒性,同时通过充分利用目标局部关键点信息解决了遮挡情况下的目标定位。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的目标检测方法的流程示意图;
图2为本发明提供的目标检测方法的整体架构示意图;
图3为本发明提供的目标检测方法的目标关键点网络具体架构图;
图4为本发明提供的目标检测方法的检测器具体架构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了一种能够适用于不同尺度的目标检测方法的一个实施例。图1示出的是本发明提供的目标检测方法的流程示意图。
所述目标检测方法,如图1所示,包括执行以下步骤:
步骤S101:获取输入图像并送入候选区域生成网络,以生成多个感兴趣区域;
步骤S103:将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图;
步骤S105:使用输入图像的全局特征图元积热力图,以生成局部深度特征图;
步骤S107:融合全局特征图和局部深度特征图并使用检测器从中检测目标。
本发明公开了基于目标局部关键特征融合的方法,以提升现有目标检测技术在复杂场景下对被遮挡目标的检测精度和鲁棒性。本发明提出结合拥有不同感受野的特征层,从而获得更多局部信息和背景信息,使得检测器对不同尺度的目标检测更加鲁棒,同时通过充分利用目标关键点信息解决在遮挡情况下对目标的定位。所述目标检测方案包含用于提取目标整体特征的候选区域生成网络、用于抽取局部特征的目标关键点检测网络、用于融合两种尺度特征的特征融合。
本发明提出使用候选区域生成网络生成感兴趣区域,然后使用遮挡感知深度网络对其进行分类(目标/背景)。为了有效识别被遮挡的目标,本发明提出随机生成遮挡样本并提供遮挡物的具体位置,使得遮挡感知深度网络能够有效的区分目标和遮挡物。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。所述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
在一些实施方式中,将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图包括:
将多个感兴趣区域从输入图像中提取并调整为具有相同大小;
在目标关键点网络中池化多个感兴趣区域并采样;
针对多个采样使用局部特征抽取算法获取特征信息,生成多个目标关键点解析图;
将多个目标关键点解析图格式化以生成热力图。
在一些实施方式中,使用输入图像的全局特征图元积热力图,以生成局部深度特征图包括:
对热力图执行关键点深度特征变换,以从热力图中提取适于执行元积的关键点深度特征;
使用全局特征图的全局检测特征元积关键点深度特征,获得局部关键点深度特征;
根据局部关键点深度特征还原出局部深度特征图。
在一些实施方式中,检测器包括移除了全连接层和分类层、并且设置了额外的新卷积层的深度卷积神经网络。
在一些实施方式中,新卷积层包括具有高分辨率和小感受野以检测小目标的第一新卷积层和具有低分辨率和大感受野以检测大目标的第二新卷积层。
根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
下面根据如图2所示的具体实施例来进一步阐述本发明的具体实施方式。参考图2,本发明实施例的流程如下:
1)将输入图像送到候选区域生成网络中。
2)候选区域生成网络生成一系列感兴趣区域,其中包括目标和背景。
3)将感兴趣区域从原始图像裁剪下来调整至相同大小图片,并将候选区域送入目标关键点网络生成热力图。
4)将目标关键点热力图和高分辨率的特征图进行元积,从而显著化目标各部位的特征。这可以解决在遮挡情况下对目标的定位。
5)检测特征通过合并相邻且拥有不同感受野大小的特征图,从而获得目标更丰富的局部和背景信息,进一步加强检测器对不同尺度目标的鲁棒性。
行人检测器主要架构是基于深度卷积神经网络。我们将适用于分类的深度卷积神经网络VGG16进行调整使其能够用于检测任务。具体地,我们去除了所有全连接层以及分类层,并在卷积神经网络后面增加了一系列的卷积层。这些新卷积层拥有更广阔的感受野,从而能更有效的检测大尺度行人。VGG16神经网络是由一系列的卷积层和池化层组成,使得其特征层的感受野随着网络深度逐渐变大而分辨率逐渐下降。本发明使用不同感受野与分辨率的特征层去检测不同尺度的行人,其中,高分辨率且感受野小的浅层特征图用于检测小目标,而低分辨率但感受野大的深层特征图用于检测大目标。区别于传统深度卷积网络,对于人体关键点解析,我们采用hourglass架构生成头部,左右臂肘,左右膝盖等关键点热度图。
本发明所涉及的目标关键点检测网络旨在显著化目标局部特,实现对被遮挡的目标检测的鲁棒性。考虑到目标检测实时性的需求,本发明去除了预选框生成网络,并在检测层的每一个位置手工设定不同大小的预设框B,通过检测器检测到的这些预设框进行微调和分类即可得到最终的检测结果,这样可以有效提升检测效率。而我们的关键点网络就是建立在预设框基础之上,对检测器检测到的这些预设框一方面送入检测网络作为目标整体特征Fg,一方面送入关键点网络H生成关键点的热度图M。
M=H(B)
关键点网络H在经过一系列的池化下采样后,卷积层被上采样回原图大小。在上采样过程中采用局部特征抽取算法挖掘多层次的特征信息来得到目标关键点解析图。为了得到关键点深度特征并协助检测网络,我们将目标解析图下采样至检测特征大小,并使其通道数和检测特征一样,如图3所示。
本发明对所得到的整体及局部关键特征进行融合。由于一系列的池化和压缩检测层的特征容易丢失关于小目标的信息或将其他物体误判为小尺度的目标或被遮挡的目标的局部,从而导致漏检和误检。为了增强检测层特征对于小目标和局部部位的鲁棒性,我们利用局部关键点特征辅助目标整体特征的检测层特征来表达被检目标信息:
Fl=Dk(M)⊙Fg
F=concat(Fl,Fg)
其中Fl为局部关键点深度特征,Dk(M)中的M是行人部位解析图,Dk是关键点深度特征变换操作,其采样s倍以及通道数为c以满足元积的操作,Fg是全局目标检测层的特征,⊙为元积操作。通过将检测特征点乘关键点深度特征,以过滤掉大部分背景,显著化了人体部位的区域。通过局部融合关键点特征与行人整体特征有效提高检测特征的表达能力。
从上述实施例可以看出,本发明实施例提供的目标检测方法,通过获取输入图像送入候选区域生成网络,生成多个感兴趣区域;将多个感兴趣区域格式化后送入目标关键点网络,生成热力图;使用输入图像的全局特征图元积热力图,生成局部深度特征图;融合全局特征图和局部深度特征图以使用检测器检测目标的技术方案,能够适用于不同尺度的目标检测,提升目标检测技术在复杂场景下对被遮挡目标的检测精度和鲁棒性,同时通过充分利用目标局部关键点信息解决了遮挡情况下的目标定位。
需要特别指出的是,上述目标检测方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于目标检测方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种能够提高系统安全性的针对来自远程桌面登录的暴力破解的防护装置的一个实施例。
目标检测装置包括:
处理器;和
存储器,存储有处理器可运行的程序代码,程序代码在被运行时执行以下步骤:
获取输入图像并送入候选区域生成网络,以生成多个感兴趣区域;将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图;使用输入图像的全局特征图元积热力图,以生成局部深度特征图;融合全局特征图和局部深度特征图并使用检测器从中检测目标。
在一些实施方式中,将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图包括:
将多个感兴趣区域从输入图像中提取并调整为具有相同大小;
在目标关键点网络中池化多个感兴趣区域并采样;
针对多个采样使用局部特征抽取算法获取特征信息,生成多个目标关键点解析图;
将多个目标关键点解析图格式化以生成热力图。
在一些实施方式中,使用输入图像的全局特征图元积热力图,以生成局部深度特征图包括:
对热力图执行关键点深度特征变换,以从热力图中提取适于执行元积的关键点深度特征;
使用全局特征图的全局检测特征元积关键点深度特征,获得局部关键点深度特征;
根据局部关键点深度特征还原出局部深度特征图。
在一些实施方式中,检测器包括移除了全连接层和分类层、并且设置了额外的新卷积层的深度卷积神经网络。
在一些实施方式中,新卷积层包括具有高分辨率和小感受野以检测小目标的第一新卷积层和具有低分辨率和大感受野以检测大目标的第二新卷积层。
从上述实施例可以看出,本发明实施例提供的目标检测装置,通过获取输入图像并送入候选区域生成网络,以生成多个感兴趣区域;将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图;使用输入图像的全局特征图元积热力图,以生成局部深度特征图;融合全局特征图和局部深度特征图并使用检测器从中检测目标的技术方案,能够适用于不同尺度的目标检测,提升目标检测技术在复杂场景下对被遮挡目标的检测精度和鲁棒性,同时通过充分利用目标局部关键点信息解决了遮挡情况下的目标定位。
需要特别指出的是,上述目标检测装置的实施例采用了所述目标检测方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到所述目标检测方法的其他实施例中。当然,由于所述目标检测方法实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于所述目标检测装置也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (10)
1.一种目标检测方法,其特征在于,包括执行以下步骤:
获取输入图像并送入候选区域生成网络,以生成多个感兴趣区域;
将所述多个感兴趣区域格式化后送入目标关键点网络,以生成热力图;
使用所述输入图像的全局特征图元积所述热力图,以生成局部深度特征图;
融合所述全局特征图和所述局部深度特征图并使用检测器从中检测目标。
2.根据权利要求1所述的方法,其特征在于,将所述多个感兴趣区域格式化后送入所述目标关键点网络,以生成所述热力图包括:
将所述多个感兴趣区域从所述输入图像中提取并调整为具有相同大小;
在所述目标关键点网络中池化所述多个感兴趣区域并采样;
针对多个所述采样使用局部特征抽取算法获取特征信息,生成多个目标关键点解析图;
将多个所述目标关键点解析图格式化以生成热力图。
3.根据权利要求1所述的方法,其特征在于,使用所述输入图像的所述全局特征图元积所述热力图,以生成所述局部深度特征图包括:
对所述热力图执行关键点深度特征变换,以从所述热力图中提取适于执行元积的关键点深度特征;
使用所述全局特征图的全局检测特征元积所述关键点深度特征,获得局部关键点深度特征;
根据所述局部关键点深度特征还原出所述局部深度特征图。
4.根据权利要求1所述的方法,其特征在于,所述检测器包括移除了全连接层和分类层、并且设置了额外的新卷积层的深度卷积神经网络。
5.根据权利要求4所述的方法,其特征在于,所述新卷积层包括具有高分辨率和小感受野以检测小目标的第一新卷积层和具有低分辨率和大感受野以检测大目标的第二新卷积层。
6.一种目标检测装置,其特征在于,包括:
处理器;和
存储器,存储有处理器可运行的程序代码,所述程序代码在被运行时执行以下步骤:
获取输入图像并送入候选区域生成网络,以生成多个感兴趣区域;
将所述多个感兴趣区域格式化后送入目标关键点网络,以生成热力图;
使用所述输入图像的全局特征图元积所述热力图,以生成局部深度特征图;
融合所述全局特征图和所述局部深度特征图并使用检测器从中检测目标。
7.根据权利要求6所述的装置,其特征在于,将所述多个感兴趣区域格式化后送入所述目标关键点网络,以生成所述热力图包括:
将所述多个感兴趣区域从所述输入图像中提取并调整为具有相同大小;
在所述目标关键点网络中池化所述多个感兴趣区域并采样;
针对多个所述采样使用局部特征抽取算法获取特征信息,生成多个目标关键点解析图;
将多个所述目标关键点解析图格式化以生成热力图。
8.根据权利要求6所述的装置,其特征在于,使用所述输入图像的所述全局特征图元积所述热力图,以生成所述局部深度特征图包括:
对所述热力图执行关键点深度特征变换,以从所述热力图中提取适于执行元积的关键点深度特征;
使用所述全局特征图的全局检测特征元积所述关键点深度特征,获得局部关键点深度特征;
根据所述局部关键点深度特征还原出所述局部深度特征图。
9.根据权利要求6所述的装置,其特征在于,所述检测器包括移除了全连接层和分类层、并且设置了额外的新卷积层的深度卷积神经网络。
10.根据权利要求9所述的装置,其特征在于,所述新卷积层包括具有高分辨率和小感受野以检测小目标的第一新卷积层和具有低分辨率和大感受野以检测大目标的第二新卷积层。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911157879.XA CN111126379B (zh) | 2019-11-22 | 2019-11-22 | 一种目标检测方法与装置 |
PCT/CN2020/103701 WO2021098261A1 (zh) | 2019-11-22 | 2020-07-23 | 一种目标检测方法与装置 |
US17/778,662 US20230045519A1 (en) | 2019-11-22 | 2020-07-23 | Target Detection Method and Apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911157879.XA CN111126379B (zh) | 2019-11-22 | 2019-11-22 | 一种目标检测方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111126379A true CN111126379A (zh) | 2020-05-08 |
CN111126379B CN111126379B (zh) | 2022-05-17 |
Family
ID=70496335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911157879.XA Active CN111126379B (zh) | 2019-11-22 | 2019-11-22 | 一种目标检测方法与装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230045519A1 (zh) |
CN (1) | CN111126379B (zh) |
WO (1) | WO2021098261A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783626A (zh) * | 2020-06-29 | 2020-10-16 | 北京字节跳动网络技术有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN112101183A (zh) * | 2020-09-10 | 2020-12-18 | 深圳市商汤科技有限公司 | 车辆识别方法及装置、电子设备及存储介质 |
CN112560999A (zh) * | 2021-02-18 | 2021-03-26 | 成都睿沿科技有限公司 | 一种目标检测模型训练方法、装置、电子设备及存储介质 |
CN112651407A (zh) * | 2020-12-31 | 2021-04-13 | 中国人民解放军战略支援部队信息工程大学 | 一种基于区分性反卷积的cnn可视化方法 |
CN112784743A (zh) * | 2021-01-21 | 2021-05-11 | 北京百度网讯科技有限公司 | 关键点的识别方法、装置及存储介质 |
WO2021098261A1 (zh) * | 2019-11-22 | 2021-05-27 | 苏州浪潮智能科技有限公司 | 一种目标检测方法与装置 |
CN113642515A (zh) * | 2021-08-30 | 2021-11-12 | 北京航空航天大学 | 基于姿态关联的行人识别方法与装置、电子设备和介质 |
CN115331263A (zh) * | 2022-09-19 | 2022-11-11 | 北京航空航天大学 | 鲁棒的姿态估计方法及其在朝向判断的应用及相关方法 |
TWI813522B (zh) * | 2022-12-20 | 2023-08-21 | 悟智股份有限公司 | 分類模型建立方法 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022074731A (ja) * | 2020-11-05 | 2022-05-18 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
CN113628183A (zh) * | 2021-08-06 | 2021-11-09 | 青岛海信医疗设备股份有限公司 | 一种超声检测对象的容积确定方法及超声设备 |
CN114170568B (zh) * | 2021-12-03 | 2024-05-31 | 成都鼎安华智慧物联网股份有限公司 | 基于深度学习的人员密度检测方法及检测系统 |
CN114022684B (zh) * | 2022-01-05 | 2022-04-05 | 中科视语(北京)科技有限公司 | 人体姿态估计方法及装置 |
CN114067370B (zh) * | 2022-01-17 | 2022-06-21 | 北京新氧科技有限公司 | 一种脖子遮挡检测方法、装置、电子设备及存储介质 |
CN114926420B (zh) * | 2022-05-10 | 2023-05-30 | 电子科技大学 | 一种基于跨级特征增强的目标馕的识别及计数方法 |
CN116934704A (zh) * | 2023-07-18 | 2023-10-24 | 车金喜汽配股份有限公司 | 汽车零部件智能加工调节方法及其系统 |
CN116883829B (zh) * | 2023-09-05 | 2023-11-21 | 山东科技大学 | 多源信息融合驱动的水下场景智能感知方法 |
CN117576489B (zh) * | 2024-01-17 | 2024-04-09 | 华侨大学 | 智能机器人鲁棒实时目标感知方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107346409A (zh) * | 2016-05-05 | 2017-11-14 | 华为技术有限公司 | 行人再识别方法和装置 |
CN108960143A (zh) * | 2018-07-04 | 2018-12-07 | 北京航空航天大学 | 一种高分辨率可见光遥感图像中的舰船检测深度学习方法 |
CN109284670A (zh) * | 2018-08-01 | 2019-01-29 | 清华大学 | 一种基于多尺度注意力机制的行人检测方法及装置 |
CN109508681A (zh) * | 2018-11-20 | 2019-03-22 | 北京京东尚科信息技术有限公司 | 生成人体关键点检测模型的方法和装置 |
CN109977952A (zh) * | 2019-03-27 | 2019-07-05 | 深动科技(北京)有限公司 | 基于局部最大值的候选目标检测方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9940520B2 (en) * | 2015-05-01 | 2018-04-10 | Applied Research LLC. | Automatic target recognition system with online machine learning capability |
CN106599830B (zh) * | 2016-12-09 | 2020-03-17 | 中国科学院自动化研究所 | 人脸关键点定位方法及装置 |
CN106650662B (zh) * | 2016-12-21 | 2021-03-23 | 北京旷视科技有限公司 | 目标对象遮挡检测方法及装置 |
CN107766791A (zh) * | 2017-09-06 | 2018-03-06 | 北京大学 | 一种基于全局特征和粗粒度局部特征的行人再识别方法及装置 |
US11074711B1 (en) * | 2018-06-15 | 2021-07-27 | Bertec Corporation | System for estimating a pose of one or more persons in a scene |
CN110349148A (zh) * | 2019-07-11 | 2019-10-18 | 电子科技大学 | 一种基于弱监督学习的图像目标检测方法 |
CN111126379B (zh) * | 2019-11-22 | 2022-05-17 | 苏州浪潮智能科技有限公司 | 一种目标检测方法与装置 |
-
2019
- 2019-11-22 CN CN201911157879.XA patent/CN111126379B/zh active Active
-
2020
- 2020-07-23 WO PCT/CN2020/103701 patent/WO2021098261A1/zh active Application Filing
- 2020-07-23 US US17/778,662 patent/US20230045519A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107346409A (zh) * | 2016-05-05 | 2017-11-14 | 华为技术有限公司 | 行人再识别方法和装置 |
CN108960143A (zh) * | 2018-07-04 | 2018-12-07 | 北京航空航天大学 | 一种高分辨率可见光遥感图像中的舰船检测深度学习方法 |
CN109284670A (zh) * | 2018-08-01 | 2019-01-29 | 清华大学 | 一种基于多尺度注意力机制的行人检测方法及装置 |
CN109508681A (zh) * | 2018-11-20 | 2019-03-22 | 北京京东尚科信息技术有限公司 | 生成人体关键点检测模型的方法和装置 |
CN109977952A (zh) * | 2019-03-27 | 2019-07-05 | 深动科技(北京)有限公司 | 基于局部最大值的候选目标检测方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021098261A1 (zh) * | 2019-11-22 | 2021-05-27 | 苏州浪潮智能科技有限公司 | 一种目标检测方法与装置 |
CN111783626A (zh) * | 2020-06-29 | 2020-10-16 | 北京字节跳动网络技术有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN111783626B (zh) * | 2020-06-29 | 2024-03-26 | 北京字节跳动网络技术有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN112101183A (zh) * | 2020-09-10 | 2020-12-18 | 深圳市商汤科技有限公司 | 车辆识别方法及装置、电子设备及存储介质 |
CN112651407A (zh) * | 2020-12-31 | 2021-04-13 | 中国人民解放军战略支援部队信息工程大学 | 一种基于区分性反卷积的cnn可视化方法 |
CN112651407B (zh) * | 2020-12-31 | 2023-10-20 | 中国人民解放军战略支援部队信息工程大学 | 一种基于区分性反卷积的cnn可视化方法 |
CN112784743B (zh) * | 2021-01-21 | 2023-08-04 | 北京百度网讯科技有限公司 | 关键点的识别方法、装置及存储介质 |
CN112784743A (zh) * | 2021-01-21 | 2021-05-11 | 北京百度网讯科技有限公司 | 关键点的识别方法、装置及存储介质 |
CN112560999B (zh) * | 2021-02-18 | 2021-06-04 | 成都睿沿科技有限公司 | 一种目标检测模型训练方法、装置、电子设备及存储介质 |
CN112560999A (zh) * | 2021-02-18 | 2021-03-26 | 成都睿沿科技有限公司 | 一种目标检测模型训练方法、装置、电子设备及存储介质 |
CN113642515A (zh) * | 2021-08-30 | 2021-11-12 | 北京航空航天大学 | 基于姿态关联的行人识别方法与装置、电子设备和介质 |
CN113642515B (zh) * | 2021-08-30 | 2023-11-24 | 北京航空航天大学 | 基于姿态关联的行人识别方法与装置、电子设备和介质 |
CN115331263A (zh) * | 2022-09-19 | 2022-11-11 | 北京航空航天大学 | 鲁棒的姿态估计方法及其在朝向判断的应用及相关方法 |
CN115331263B (zh) * | 2022-09-19 | 2023-11-07 | 北京航空航天大学 | 鲁棒的姿态估计方法及其在朝向判断的应用及相关方法 |
TWI813522B (zh) * | 2022-12-20 | 2023-08-21 | 悟智股份有限公司 | 分類模型建立方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111126379B (zh) | 2022-05-17 |
WO2021098261A1 (zh) | 2021-05-27 |
US20230045519A1 (en) | 2023-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126379B (zh) | 一种目标检测方法与装置 | |
Wei et al. | Group-wise deep co-saliency detection | |
Murtaza et al. | Multi‐view human action recognition using 2D motion templates based on MHIs and their HOG description | |
CN108416780B (zh) | 一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法 | |
Jo | Cumulative dual foreground differences for illegally parked vehicles detection | |
CN109859246B (zh) | 一种结合相关滤波与视觉显著性的低空慢速无人机跟踪方法 | |
Chen et al. | TriViews: A general framework to use 3D depth data effectively for action recognition | |
Han et al. | A method based on multi-convolution layers joint and generative adversarial networks for vehicle detection | |
CN112580480A (zh) | 一种高光谱遥感影像分类方法及装置 | |
CN113378675A (zh) | 一种同时检测和特征提取的人脸识别方法 | |
CN114639042A (zh) | 基于改进CenterNet骨干网络的视频目标检测算法 | |
CN111104924B (zh) | 一种识别低分辨率商品图像的处理算法 | |
Patil et al. | Multi-frame recurrent adversarial network for moving object segmentation | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测系统 | |
Nie et al. | Multiple person tracking by spatiotemporal tracklet association | |
Noman et al. | ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection | |
CN106022310B (zh) | 基于htg-hog和stg特征的人体行为识别方法 | |
CN117409476A (zh) | 一种基于事件相机的步态识别的方法 | |
Gad et al. | Crowd density estimation using multiple features categories and multiple regression models | |
CN113128461B (zh) | 基于人体关键点挖掘全尺度特征的行人重识别性能提升方法 | |
AU2021102692A4 (en) | A multidirectional feature fusion network-based system for efficient object detection | |
Han et al. | Multi-target tracking based on high-order appearance feature fusion | |
Cao et al. | Vehicle detection in remote sensing images using deep neural networks and multi-task learning | |
CN113869151A (zh) | 一种基于特征融合的跨视角步态识别方法及系统 | |
CN114067390A (zh) | 基于视频图像的老年人跌倒检测方法、系统、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |