CN111126379B - 一种目标检测方法与装置 - Google Patents

一种目标检测方法与装置 Download PDF

Info

Publication number
CN111126379B
CN111126379B CN201911157879.XA CN201911157879A CN111126379B CN 111126379 B CN111126379 B CN 111126379B CN 201911157879 A CN201911157879 A CN 201911157879A CN 111126379 B CN111126379 B CN 111126379B
Authority
CN
China
Prior art keywords
target
local
key point
feature
generate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911157879.XA
Other languages
English (en)
Other versions
CN111126379A (zh
Inventor
李峰
程晓娟
刘红丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201911157879.XA priority Critical patent/CN111126379B/zh
Publication of CN111126379A publication Critical patent/CN111126379A/zh
Priority to US17/778,662 priority patent/US20230045519A1/en
Priority to PCT/CN2020/103701 priority patent/WO2021098261A1/zh
Application granted granted Critical
Publication of CN111126379B publication Critical patent/CN111126379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种目标检测方法与装置,包括:获取输入图像并送入候选区域生成网络,以生成多个感兴趣区域;将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图;使用输入图像的全局特征图元积热力图,以生成局部深度特征图;融合全局特征图和局部深度特征图并使用检测器从中检测目标。本发明能够适用于不同尺度的目标检测,提升目标检测技术在复杂场景下对被遮挡目标的检测精度和鲁棒性,同时通过充分利用目标局部关键点信息解决了遮挡情况下的目标定位。

Description

一种目标检测方法与装置
技术领域
本发明涉及计算机识别领域,更具体地,特别是指一种目标检测方法与装置。
背景技术
目标检测技术是指通过图像处理及模式识别等算法从给定的图像数据中检测出目标,给予目标坐标位置和置信度。目标检测是计算机视觉中一个重要的研究热点,是行为分析,姿态估计,目标属性分析,智能监控,自动驾驶等实际应用中的核心技术之一。同时也具有许多实际应用,例如自动驾驶、智能监控和机器人等。因此目标检测技术具有极高的科研价值和商业价值,近年来,它在计算机视觉领域引起了极大的关注。
对于给定图像,为了得到图片中所有目标的位置,检测器需要使用基于手工特征的方法或基于深度特征学习的方法来提取特征。基于手工特征的方法主要考虑了目标的先验信息,对输入图像进行一系列简单的变化,得到目标特征。如采用方向梯度直方图算法挖掘目标的外形信息和运动信息,或者对图像进行不同的变化,并利用积分通道将其融合,从而形成丰富的特征集。可形变部件模型的检测算法针对人体部件建立一定形式的空间约束,根据模型与部件模型的共同作用检测人体目标。虽然上述传统检测方法在简单场景中能够达到应用水平,但是在复杂的自然场景下,基于手工特征的目标检测方法的鲁棒性低。
相比之下,深度特征学习的方法能够通过大量的数据自主学习出具有高鲁棒性的特征,从而显著性的提升检测精准度。现有技术使用预选框生成网络生成预选框,并采用感兴趣区域池化法统一不同大小的感兴趣区域的特征维度,并通过一系列的全链接层提取深度特征,然后用其训练级联森林,从而提高了检测器对小尺度目标的检测性能。现有技术还使用不同感受野的卷积层生成不同尺度的预选框,感受野小的卷积层用于小尺度预选框的生成而感受野大的卷积层用于大尺度预选框的生成,然后对所有预选框微调和再分类得到最后检测结果。现有技术还将人体部件之间的空间关联信息引入到深度部件检测器中,从而提升了遮挡情况下的行人检测性能。大多数最先进的目标检测方法在理想的情况下,即目标没有被遮挡或被轻微遮挡的情况下,具有较好的检测性能。然而当目标被严重遮挡时,这些方法会受到严重影响。例如在行人检测中,由于大多数身体部位是不可见的,因此检测器很容易被遮挡物误导,从而无法有效的识别行人。由于目标在现实世界的应用中可能被不同的物体遮挡,因此处理遮挡问题对于鲁棒的目标检测至关重要。
针对现有技术中单一尺度的检测器难以应对不同尺度的目标、在自然场景下其他物体可能对目标造成不同程度的遮挡、大部分监控场景里的小目标特征不明显且分辨率低等问题,目前尚无有效的解决方案。
发明内容
有鉴于此,本发明实施例的目的在于提出一种目标检测方法与装置,能够适用于不同尺度的目标检测,提升目标检测技术在复杂场景下对被遮挡目标的检测精度和鲁棒性,同时通过充分利用目标局部关键点信息解决了遮挡情况下的目标定位。
基于上述目的,本发明实施例的第一方面提供了一种目标检测方法,包括执行以下步骤:
获取输入图像并送入候选区域生成网络,以生成多个感兴趣区域;
将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图;
使用输入图像的全局特征图元积热力图,以生成局部深度特征图;
融合全局特征图和局部深度特征图并使用检测器从中检测目标。
在一些实施方式中,将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图包括:
将多个感兴趣区域从输入图像中提取并调整为具有相同大小;
在目标关键点网络中池化多个感兴趣区域并采样;
针对多个采样使用局部特征抽取算法获取特征信息,生成多个目标关键点解析图;
将多个目标关键点解析图格式化以生成热力图。
在一些实施方式中,使用输入图像的全局特征图元积热力图,以生成局部深度特征图包括:
对热力图执行关键点深度特征变换,以从热力图中提取适于执行元积的关键点深度特征;
使用全局特征图的全局检测特征元积关键点深度特征,获得局部关键点深度特征;
根据局部关键点深度特征还原出局部深度特征图。
在一些实施方式中,检测器包括移除了全连接层和分类层、并且设置了额外的新卷积层的深度卷积神经网络。
在一些实施方式中,新卷积层包括具有高分辨率和小感受野以检测小目标的第一新卷积层和具有低分辨率和大感受野以检测大目标的第二新卷积层。
本发明实施例的第二方面提供了一种目标检测装置,包括:
处理器;和
存储器,存储有处理器可运行的程序代码,程序代码在被运行时执行以下步骤:
获取输入图像并送入候选区域生成网络,以生成多个感兴趣区域;将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图;使用输入图像的全局特征图元积热力图,以生成局部深度特征图;融合全局特征图和局部深度特征图并使用检测器从中检测目标。
在一些实施方式中,将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图包括:
将多个感兴趣区域从输入图像中提取并调整为具有相同大小;
在目标关键点网络中池化多个感兴趣区域并采样;
针对多个采样使用局部特征抽取算法获取特征信息,生成多个目标关键点解析图;
将多个目标关键点解析图格式化以生成热力图。
在一些实施方式中,使用输入图像的全局特征图元积热力图,以生成局部深度特征图包括:
对热力图执行关键点深度特征变换,以从热力图中提取适于执行元积的关键点深度特征;
使用全局特征图的全局检测特征元积关键点深度特征,获得局部关键点深度特征;
根据局部关键点深度特征还原出局部深度特征图。
在一些实施方式中,检测器包括移除了全连接层和分类层、并且设置了额外的新卷积层的深度卷积神经网络。
在一些实施方式中,新卷积层包括具有高分辨率和小感受野以检测小目标的第一新卷积层和具有低分辨率和大感受野以检测大目标的第二新卷积层。
本发明具有以下有益技术效果:本发明实施例提供的目标检测方法与装置,通过获取输入图像并送入候选区域生成网络,以生成多个感兴趣区域;将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图;使用输入图像的全局特征图元积热力图,以生成局部深度特征图;融合全局特征图和局部深度特征图并使用检测器从中检测目标的技术方案,能够适用于不同尺度的目标检测,提升目标检测技术在复杂场景下对被遮挡目标的检测精度和鲁棒性,同时通过充分利用目标局部关键点信息解决了遮挡情况下的目标定位。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的目标检测方法的流程示意图;
图2为本发明提供的目标检测方法的整体架构示意图;
图3为本发明提供的目标检测方法的目标关键点网络具体架构图;
图4为本发明提供的目标检测方法的检测器具体架构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了一种能够适用于不同尺度的目标检测方法的一个实施例。图1示出的是本发明提供的目标检测方法的流程示意图。
所述目标检测方法,如图1所示,包括执行以下步骤:
步骤S101:获取输入图像并送入候选区域生成网络,以生成多个感兴趣区域;
步骤S103:将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图;
步骤S105:使用输入图像的全局特征图元积热力图,以生成局部深度特征图;
步骤S107:融合全局特征图和局部深度特征图并使用检测器从中检测目标。
本发明公开了基于目标局部关键特征融合的方法,以提升现有目标检测技术在复杂场景下对被遮挡目标的检测精度和鲁棒性。本发明提出结合拥有不同感受野的特征层,从而获得更多局部信息和背景信息,使得检测器对不同尺度的目标检测更加鲁棒,同时通过充分利用目标关键点信息解决在遮挡情况下对目标的定位。所述目标检测方案包含用于提取目标整体特征的候选区域生成网络、用于抽取局部特征的目标关键点检测网络、用于融合两种尺度特征的特征融合。
本发明提出使用候选区域生成网络生成感兴趣区域,然后使用遮挡感知深度网络对其进行分类(目标/背景)。为了有效识别被遮挡的目标,本发明提出随机生成遮挡样本并提供遮挡物的具体位置,使得遮挡感知深度网络能够有效的区分目标和遮挡物。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。所述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
在一些实施方式中,将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图包括:
将多个感兴趣区域从输入图像中提取并调整为具有相同大小;
在目标关键点网络中池化多个感兴趣区域并采样;
针对多个采样使用局部特征抽取算法获取特征信息,生成多个目标关键点解析图;
将多个目标关键点解析图格式化以生成热力图。
在一些实施方式中,使用输入图像的全局特征图元积热力图,以生成局部深度特征图包括:
对热力图执行关键点深度特征变换,以从热力图中提取适于执行元积的关键点深度特征;
使用全局特征图的全局检测特征元积关键点深度特征,获得局部关键点深度特征;
根据局部关键点深度特征还原出局部深度特征图。
在一些实施方式中,检测器包括移除了全连接层和分类层、并且设置了额外的新卷积层的深度卷积神经网络。
在一些实施方式中,新卷积层包括具有高分辨率和小感受野以检测小目标的第一新卷积层和具有低分辨率和大感受野以检测大目标的第二新卷积层。
根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
下面根据如图2所示的具体实施例来进一步阐述本发明的具体实施方式。参考图2,本发明实施例的流程如下:
1)将输入图像送到候选区域生成网络中。
2)候选区域生成网络生成一系列感兴趣区域,其中包括目标和背景。
3)将感兴趣区域从原始图像裁剪下来调整至相同大小图片,并将候选区域送入目标关键点网络生成热力图。
4)将目标关键点热力图和高分辨率的特征图进行元积,从而显著化目标各部位的特征。这可以解决在遮挡情况下对目标的定位。
5)检测特征通过合并相邻且拥有不同感受野大小的特征图,从而获得目标更丰富的局部和背景信息,进一步加强检测器对不同尺度目标的鲁棒性。
行人检测器主要架构是基于深度卷积神经网络。我们将适用于分类的深度卷积神经网络VGG16进行调整使其能够用于检测任务。具体地,我们去除了所有全连接层以及分类层,并在卷积神经网络后面增加了一系列的卷积层。这些新卷积层拥有更广阔的感受野,从而能更有效的检测大尺度行人。VGG16神经网络是由一系列的卷积层和池化层组成,使得其特征层的感受野随着网络深度逐渐变大而分辨率逐渐下降。本发明使用不同感受野与分辨率的特征层去检测不同尺度的行人,其中,高分辨率且感受野小的浅层特征图用于检测小目标,而低分辨率但感受野大的深层特征图用于检测大目标。区别于传统深度卷积网络,对于人体关键点解析,我们采用hourglass架构生成头部,左右臂肘,左右膝盖等关键点热度图。
本发明所涉及的目标关键点检测网络旨在显著化目标局部特,实现对被遮挡的目标检测的鲁棒性。考虑到目标检测实时性的需求,本发明去除了预选框生成网络,并在检测层的每一个位置手工设定不同大小的预设框B,通过检测器检测到的这些预设框进行微调和分类即可得到最终的检测结果,这样可以有效提升检测效率。而我们的关键点网络就是建立在预设框基础之上,对检测器检测到的这些预设框一方面送入检测网络作为目标整体特征Fg,一方面送入关键点网络H生成关键点的热度图M。
M=H(B)
关键点网络H在经过一系列的池化下采样后,卷积层被上采样回原图大小。在上采样过程中采用局部特征抽取算法挖掘多层次的特征信息来得到目标关键点解析图。为了得到关键点深度特征并协助检测网络,我们将目标解析图下采样至检测特征大小,并使其通道数和检测特征一样,如图3所示。
本发明对所得到的整体及局部关键特征进行融合。由于一系列的池化和压缩检测层的特征容易丢失关于小目标的信息或将其他物体误判为小尺度的目标或被遮挡的目标的局部,从而导致漏检和误检。为了增强检测层特征对于小目标和局部部位的鲁棒性,我们利用局部关键点特征辅助目标整体特征的检测层特征来表达被检目标信息:
Fl=Dk(M)⊙Fg
F=concat(Fl,Fg)
其中Fl为局部关键点深度特征,Dk(M)中的M是行人部位解析图,Dk是关键点深度特征变换操作,其采样s倍以及通道数为c以满足元积的操作,Fg是全局目标检测层的特征,⊙为元积操作。通过将检测特征点乘关键点深度特征,以过滤掉大部分背景,显著化了人体部位的区域。通过局部融合关键点特征与行人整体特征有效提高检测特征的表达能力。
从上述实施例可以看出,本发明实施例提供的目标检测方法,通过获取输入图像送入候选区域生成网络,生成多个感兴趣区域;将多个感兴趣区域格式化后送入目标关键点网络,生成热力图;使用输入图像的全局特征图元积热力图,生成局部深度特征图;融合全局特征图和局部深度特征图以使用检测器检测目标的技术方案,能够适用于不同尺度的目标检测,提升目标检测技术在复杂场景下对被遮挡目标的检测精度和鲁棒性,同时通过充分利用目标局部关键点信息解决了遮挡情况下的目标定位。
需要特别指出的是,上述目标检测方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于目标检测方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种能够提高系统安全性的针对来自远程桌面登录的暴力破解的防护装置的一个实施例。
目标检测装置包括:
处理器;和
存储器,存储有处理器可运行的程序代码,程序代码在被运行时执行以下步骤:
获取输入图像并送入候选区域生成网络,以生成多个感兴趣区域;将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图;使用输入图像的全局特征图元积热力图,以生成局部深度特征图;融合全局特征图和局部深度特征图并使用检测器从中检测目标。
在一些实施方式中,将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图包括:
将多个感兴趣区域从输入图像中提取并调整为具有相同大小;
在目标关键点网络中池化多个感兴趣区域并采样;
针对多个采样使用局部特征抽取算法获取特征信息,生成多个目标关键点解析图;
将多个目标关键点解析图格式化以生成热力图。
在一些实施方式中,使用输入图像的全局特征图元积热力图,以生成局部深度特征图包括:
对热力图执行关键点深度特征变换,以从热力图中提取适于执行元积的关键点深度特征;
使用全局特征图的全局检测特征元积关键点深度特征,获得局部关键点深度特征;
根据局部关键点深度特征还原出局部深度特征图。
在一些实施方式中,检测器包括移除了全连接层和分类层、并且设置了额外的新卷积层的深度卷积神经网络。
在一些实施方式中,新卷积层包括具有高分辨率和小感受野以检测小目标的第一新卷积层和具有低分辨率和大感受野以检测大目标的第二新卷积层。
从上述实施例可以看出,本发明实施例提供的目标检测装置,通过获取输入图像并送入候选区域生成网络,以生成多个感兴趣区域;将多个感兴趣区域格式化后送入目标关键点网络,以生成热力图;使用输入图像的全局特征图元积热力图,以生成局部深度特征图;融合全局特征图和局部深度特征图并使用检测器从中检测目标的技术方案,能够适用于不同尺度的目标检测,提升目标检测技术在复杂场景下对被遮挡目标的检测精度和鲁棒性,同时通过充分利用目标局部关键点信息解决了遮挡情况下的目标定位。
需要特别指出的是,上述目标检测装置的实施例采用了所述目标检测方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到所述目标检测方法的其他实施例中。当然,由于所述目标检测方法实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于所述目标检测装置也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (9)

1.一种目标检测方法,其特征在于,包括执行以下步骤:
获取输入图像并送入候选区域生成网络,以生成多个感兴趣区域;
将所述多个感兴趣区域格式化后送入目标关键点网络,以生成热力图;
使用所述输入图像的全局特征图元积所述热力图,以生成局部深度特征图包括:
对所述热力图执行关键点深度特征变换,以从所述热力图中提取适于执行元积的关键点深度特征;
使用所述全局特征图的全局检测特征元积所述关键点深度特征,获得局部关键点深度特征;
根据所述局部关键点深度特征还原出所述局部深度特征图;
其中,所述根据所述局部关键点深度特征还原出所述局部深度特征图包括:利用局部关键点特征辅助目标整体特征的检测层特征来表达被检目标信息:
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004
其中
Figure DEST_PATH_IMAGE006
为局部关键点深度特征,
Figure DEST_PATH_IMAGE008
中的M是行人部位解析图,
Figure DEST_PATH_IMAGE010
是关键点深度特征变换操作,其采样s倍以及通道数为c以满足元积的操作,
Figure DEST_PATH_IMAGE012
是全局目标检测层的特征,⨀为元积操作;
融合所述全局特征图和所述局部深度特征图并使用检测器从中检测目标。
2.根据权利要求1所述的方法,其特征在于,将所述多个感兴趣区域格式化后送入所述目标关键点网络,以生成所述热力图包括:
将所述多个感兴趣区域从所述输入图像中提取并调整为具有相同大小;
在所述目标关键点网络中池化所述多个感兴趣区域并采样;
针对多个所述采样使用局部特征抽取算法获取特征信息,生成多个目标关键点解析图;
将多个所述目标关键点解析图格式化以生成热力图。
3.根据权利要求1所述的方法,其特征在于,所述检测器包括移除了全连接层和分类层、并且设置了额外的新卷积层的深度卷积神经网络。
4.根据权利要求3所述的方法,其特征在于,所述新卷积层包括具有高分辨率和小感受野以检测小目标的第一新卷积层和具有低分辨率和大感受野以检测大目标的第二新卷积层。
5.一种目标检测装置,其特征在于,包括:
处理器;和
存储器,存储有处理器可运行的程序代码,所述程序代码在被运行时执行以下步骤:
获取输入图像并送入候选区域生成网络,以生成多个感兴趣区域;
将所述多个感兴趣区域格式化后送入目标关键点网络,以生成热力图;
使用所述输入图像的全局特征图元积所述热力图,以生成局部深度特征图包括:
对所述热力图执行关键点深度特征变换,以从所述热力图中提取适于执行元积的关键点深度特征;
使用所述全局特征图的全局检测特征元积所述关键点深度特征,获得局部关键点深度特征;
根据所述局部关键点深度特征还原出所述局部深度特征图;
其中,所述根据所述局部关键点深度特征还原出所述局部深度特征图包括:利用局部关键点特征辅助目标整体特征的检测层特征来表达被检目标信息:
Figure DEST_PATH_IMAGE002A
Figure DEST_PATH_IMAGE004A
其中
Figure DEST_PATH_IMAGE013
为局部关键点深度特征,
Figure DEST_PATH_IMAGE014
中的M是行人部位解析图,
Figure DEST_PATH_IMAGE010A
是关键点深度特征变换操作,其采样s倍以及通道数为c以满足元积的操作,
Figure DEST_PATH_IMAGE012A
是全局目标检测层的特征,⨀为元积操作;
融合所述全局特征图和所述局部深度特征图并使用检测器从中检测目标。
6.根据权利要求5所述的装置,其特征在于,将所述多个感兴趣区域格式化后送入所述目标关键点网络,以生成所述热力图包括:
将所述多个感兴趣区域从所述输入图像中提取并调整为具有相同大小;
在所述目标关键点网络中池化所述多个感兴趣区域并采样;
针对多个所述采样使用局部特征抽取算法获取特征信息,生成多个目标关键点解析图;
将多个所述目标关键点解析图格式化以生成热力图。
7.根据权利要求5所述的装置,其特征在于,使用所述输入图像的所述全局特征图元积所述热力图,以生成所述局部深度特征图包括:
对所述热力图执行关键点深度特征变换,以从所述热力图中提取适于执行元积的关键点深度特征;
使用所述全局特征图的全局检测特征元积所述关键点深度特征,获得局部关键点深度特征;
根据所述局部关键点深度特征还原出所述局部深度特征图。
8.根据权利要求5所述的装置,其特征在于,所述检测器包括移除了全连接层和分类层、并且设置了额外的新卷积层的深度卷积神经网络。
9.根据权利要求8所述的装置,其特征在于,所述新卷积层包括具有高分辨率和小感受野以检测小目标的第一新卷积层和具有低分辨率和大感受野以检测大目标的第二新卷积层。
CN201911157879.XA 2019-11-22 2019-11-22 一种目标检测方法与装置 Active CN111126379B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911157879.XA CN111126379B (zh) 2019-11-22 2019-11-22 一种目标检测方法与装置
US17/778,662 US20230045519A1 (en) 2019-11-22 2020-07-23 Target Detection Method and Apparatus
PCT/CN2020/103701 WO2021098261A1 (zh) 2019-11-22 2020-07-23 一种目标检测方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911157879.XA CN111126379B (zh) 2019-11-22 2019-11-22 一种目标检测方法与装置

Publications (2)

Publication Number Publication Date
CN111126379A CN111126379A (zh) 2020-05-08
CN111126379B true CN111126379B (zh) 2022-05-17

Family

ID=70496335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911157879.XA Active CN111126379B (zh) 2019-11-22 2019-11-22 一种目标检测方法与装置

Country Status (3)

Country Link
US (1) US20230045519A1 (zh)
CN (1) CN111126379B (zh)
WO (1) WO2021098261A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126379B (zh) * 2019-11-22 2022-05-17 苏州浪潮智能科技有限公司 一种目标检测方法与装置
CN111783626B (zh) * 2020-06-29 2024-03-26 北京字节跳动网络技术有限公司 图像识别方法、装置、电子设备及存储介质
CN113780165A (zh) * 2020-09-10 2021-12-10 深圳市商汤科技有限公司 车辆识别方法及装置、电子设备及存储介质
JP2022074731A (ja) * 2020-11-05 2022-05-18 株式会社東芝 情報処理装置、情報処理方法およびプログラム
CN112651407B (zh) * 2020-12-31 2023-10-20 中国人民解放军战略支援部队信息工程大学 一种基于区分性反卷积的cnn可视化方法
CN112784743B (zh) * 2021-01-21 2023-08-04 北京百度网讯科技有限公司 关键点的识别方法、装置及存储介质
CN112560999B (zh) * 2021-02-18 2021-06-04 成都睿沿科技有限公司 一种目标检测模型训练方法、装置、电子设备及存储介质
CN113628183A (zh) * 2021-08-06 2021-11-09 青岛海信医疗设备股份有限公司 一种超声检测对象的容积确定方法及超声设备
CN113642515B (zh) * 2021-08-30 2023-11-24 北京航空航天大学 基于姿态关联的行人识别方法与装置、电子设备和介质
CN114170568B (zh) * 2021-12-03 2024-05-31 成都鼎安华智慧物联网股份有限公司 基于深度学习的人员密度检测方法及检测系统
CN114022684B (zh) * 2022-01-05 2022-04-05 中科视语(北京)科技有限公司 人体姿态估计方法及装置
CN114067370B (zh) * 2022-01-17 2022-06-21 北京新氧科技有限公司 一种脖子遮挡检测方法、装置、电子设备及存储介质
CN114926420B (zh) * 2022-05-10 2023-05-30 电子科技大学 一种基于跨级特征增强的目标馕的识别及计数方法
CN115331263B (zh) * 2022-09-19 2023-11-07 北京航空航天大学 鲁棒的姿态估计方法及其在朝向判断的应用及相关方法
TWI813522B (zh) * 2022-12-20 2023-08-21 悟智股份有限公司 分類模型建立方法
CN116934704A (zh) * 2023-07-18 2023-10-24 车金喜汽配股份有限公司 汽车零部件智能加工调节方法及其系统
CN116883829B (zh) * 2023-09-05 2023-11-21 山东科技大学 多源信息融合驱动的水下场景智能感知方法
CN117576489B (zh) * 2024-01-17 2024-04-09 华侨大学 智能机器人鲁棒实时目标感知方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346409A (zh) * 2016-05-05 2017-11-14 华为技术有限公司 行人再识别方法和装置
CN108960143A (zh) * 2018-07-04 2018-12-07 北京航空航天大学 一种高分辨率可见光遥感图像中的舰船检测深度学习方法
CN109284670A (zh) * 2018-08-01 2019-01-29 清华大学 一种基于多尺度注意力机制的行人检测方法及装置
CN109508681A (zh) * 2018-11-20 2019-03-22 北京京东尚科信息技术有限公司 生成人体关键点检测模型的方法和装置
CN109977952A (zh) * 2019-03-27 2019-07-05 深动科技(北京)有限公司 基于局部最大值的候选目标检测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9940520B2 (en) * 2015-05-01 2018-04-10 Applied Research LLC. Automatic target recognition system with online machine learning capability
CN106599830B (zh) * 2016-12-09 2020-03-17 中国科学院自动化研究所 人脸关键点定位方法及装置
CN106650662B (zh) * 2016-12-21 2021-03-23 北京旷视科技有限公司 目标对象遮挡检测方法及装置
CN107766791A (zh) * 2017-09-06 2018-03-06 北京大学 一种基于全局特征和粗粒度局部特征的行人再识别方法及装置
US11074711B1 (en) * 2018-06-15 2021-07-27 Bertec Corporation System for estimating a pose of one or more persons in a scene
CN110349148A (zh) * 2019-07-11 2019-10-18 电子科技大学 一种基于弱监督学习的图像目标检测方法
CN111126379B (zh) * 2019-11-22 2022-05-17 苏州浪潮智能科技有限公司 一种目标检测方法与装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346409A (zh) * 2016-05-05 2017-11-14 华为技术有限公司 行人再识别方法和装置
CN108960143A (zh) * 2018-07-04 2018-12-07 北京航空航天大学 一种高分辨率可见光遥感图像中的舰船检测深度学习方法
CN109284670A (zh) * 2018-08-01 2019-01-29 清华大学 一种基于多尺度注意力机制的行人检测方法及装置
CN109508681A (zh) * 2018-11-20 2019-03-22 北京京东尚科信息技术有限公司 生成人体关键点检测模型的方法和装置
CN109977952A (zh) * 2019-03-27 2019-07-05 深动科技(北京)有限公司 基于局部最大值的候选目标检测方法

Also Published As

Publication number Publication date
CN111126379A (zh) 2020-05-08
US20230045519A1 (en) 2023-02-09
WO2021098261A1 (zh) 2021-05-27

Similar Documents

Publication Publication Date Title
CN111126379B (zh) 一种目标检测方法与装置
Bappy et al. Hybrid lstm and encoder–decoder architecture for detection of image forgeries
Wei et al. Group-wise deep co-saliency detection
Murtaza et al. Multi‐view human action recognition using 2D motion templates based on MHIs and their HOG description
Jo Cumulative dual foreground differences for illegally parked vehicles detection
Chen et al. TriViews: A general framework to use 3D depth data effectively for action recognition
CN109859246B (zh) 一种结合相关滤波与视觉显著性的低空慢速无人机跟踪方法
Chaudhary et al. Depth‐based end‐to‐end deep network for human action recognition
An et al. Online RGB-D tracking via detection-learning-segmentation
CN112580480A (zh) 一种高光谱遥感影像分类方法及装置
Han et al. A method based on multi-convolution layers joint and generative adversarial networks for vehicle detection
CN111104924B (zh) 一种识别低分辨率商品图像的处理算法
Patil et al. Multi-frame recurrent adversarial network for moving object segmentation
Zhong et al. Improved localization accuracy by locnet for faster r-cnn based text detection
Nie et al. Multiple person tracking by spatiotemporal tracklet association
Noman et al. ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection
CN111079585B (zh) 图像增强结合伪孪生卷积神经网络的行人再识别方法
Liu et al. Genetic Programming-Evolved Spatio-Temporal Descriptor for Human Action Recognition.
CN113128461B (zh) 基于人体关键点挖掘全尺度特征的行人重识别性能提升方法
Han et al. Multi-target tracking based on high-order appearance feature fusion
AU2021102692A4 (en) A multidirectional feature fusion network-based system for efficient object detection
Cao et al. Vehicle detection in remote sensing images using deep neural networks and multi-task learning
Araujo et al. Affine Invariant approach for disease detection on chili plant
CN113869151A (zh) 一种基于特征融合的跨视角步态识别方法及系统
CN112861868A (zh) 一种图像分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant