CN110363162B - 一种聚焦关键区域的深度学习目标检测方法 - Google Patents

一种聚焦关键区域的深度学习目标检测方法 Download PDF

Info

Publication number
CN110363162B
CN110363162B CN201910648037.8A CN201910648037A CN110363162B CN 110363162 B CN110363162 B CN 110363162B CN 201910648037 A CN201910648037 A CN 201910648037A CN 110363162 B CN110363162 B CN 110363162B
Authority
CN
China
Prior art keywords
area
proposed
key
network
bounding box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910648037.8A
Other languages
English (en)
Other versions
CN110363162A (zh
Inventor
李建强
刘雅琦
赵青
白骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910648037.8A priority Critical patent/CN110363162B/zh
Publication of CN110363162A publication Critical patent/CN110363162A/zh
Application granted granted Critical
Publication of CN110363162B publication Critical patent/CN110363162B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

一种聚焦关键区域的深度学习目标检测方法,属于深度学习领域。该方法是在一种典型的深度检测网络基础上,提出了一种通过聚焦关键区域来自动检测图像中目标的方法。在很多情况下,所需检测的目标往往都处于特定的区域内,这些与目标息息相关的区域即是关键区域。由于关键区域是少量、局部且与目标存在因果关系,因此可以将目标的检测范围限定在这样的区域内。具体的是在Faster R‑CNN框架中,修改区域提议网络的损失函数,即根据提议区域与关键区域的位置关系对提议区域设置不同的惩罚权重,促使提议区域更接近于关键区域,从而提高了目标检测的准确度。

Description

一种聚焦关键区域的深度学习目标检测方法
技术领域:
本发明涉及深度学习领域,涉及图像中目标检测技术。
背景技术
随着深度神经网络的出现,计算机视觉在图像分类,目标检测,图像分割等方面的能利得到了显著的提高。其中,目标检测在图像分析中拥有着广大的应用空间。
目前主要有两类目标检测框架:一种是像Faster-RCNN和R-FCN这样的双发框架,另一种是像YOLO和SSD这样的单发框架。而Faster-RCNN这样的双发框架-先选取若干提议区域,然后对提议区域进行分类-提议区域的选取准确率直接影响了目标检测结果的准确率。在很多情况下,所需检测的目标往往都处于特定的区域内,这些与目标息息相关的区域即是关键区域。由于关键区域是少量、局部且与目标存在因果关系,因此可以将目标的检测范围限定在这样的区域内,从而提高检测的准确度。
发明内容:
本发明的目的是提供一种在图像中准确检测目标的方法。
为解决上述技术问题,本发明提供了一种聚焦关键区域的深度学习目标检测方法,包括如下步骤:
步骤S1,在模型训练阶段,首先用卷积神经网络对图像进行特征提取,得到低层特征图;
步骤S2,使用区域提议网络对低层特征图进行提议区域选取,得到类别为非背景的提议区域;
步骤S3,用轮廓检测技术得到关键区域轮廓,计算提议区域到关键区域的距离;
步骤S4,根据距离计算出惩罚权重并代入区域提议网络的交叉熵分类损失函数,加大对偏离关键区域的提议区域的惩罚力度;
步骤S5,使用非极大值抑制移除重复预测的提议区域;
步骤S6,把提议区域和低层特征图输入到兴趣区域池化层,得到各个提议区域形状相同的特征;
步骤S7,把各个提议区域形状相同的特征图输入到全连接层,得到每个提议区域的类别和边界框;
步骤S8,在模型测试阶段,使用上述步骤训练好的网络来进行目标的检测。
进一步,步骤S1中在模型训练阶段,首先用卷积神经网络对图像进行特征提取,得到低层特征图包括:
采用VGG16的网络结构来提取输入图片的特征,输出的形状记为 1×c1×h1×w1,c1、h1、w1分别为特征图的通道数、高、宽;
进一步,步骤S2中使用区域提议网络对低层特征图进行提议区域选取,得到类别为非背景的提议区域包括:
使用填充为1的3×3卷积层对低层特征图进行通道数变换,并将输出通道数记为c2。这样,低层特征图中的每个单元均得到一个长度为c2的新特征。以特征图每个单元为中心,设置多个不同大小和宽高比的锚框。用3×3卷积层在锚框的基础上进行区域提议。
进一步,步骤S3中用轮廓检测技术得到关键区域轮廓,计算提议区域到关键区域的距离包括:
对于输入图像I,使用图像轮廓检测技术对其进行关键区域轮廓检测,得到轮廓集
Figure GDA0003356410460000021
其中nCI为关键区域的个数,
Figure GDA0003356410460000022
为轮廓的点集,xj和yj分别为点集中每个点在原图中的x轴、y轴坐标,nCIP为点集里点的数量。
对于区域提议网络提出的提议区域边界框
Figure GDA0003356410460000031
其中nBbox为提议区域的数量,
Figure GDA0003356410460000032
分别为提议区域边界框的左上角和右下角坐标,对于其中每个提议区域边界框Bboxi首先计算其中心坐标距离各关键区域的最小距离
Figure GDA0003356410460000033
令原图I的长和宽为Hl和WI,接下来将
Figure GDA0003356410460000034
进行归一化得到归一化最小距离
Figure GDA0003356410460000035
Figure GDA0003356410460000036
进一步,步骤S4中根据距离计算出惩罚权重并代入区域提议网络的交叉熵分类损失函数,加大对偏离关键区域的提议区域的惩罚力度:
计算区域提议阶段预测为非背景的边界框的惩罚权重,对于距离关键区域较远的提议区域分配较高的惩罚权重,离关键区域近的提议区域分配较小的惩罚权重,这里我们使用高斯加权的方式使得权重的变化更加平缓,每个边界框的惩罚权重为:
Figure GDA0003356410460000037
其中e为自然常数,σ为所有边界框到关键区域的归一化最小距离的标准差。
最后,将各边界框的惩罚权重带入区域提议网络的损失函数中:
Figure GDA0003356410460000038
其中Ncls为小批量批次的样本数量,
Figure GDA0003356410460000039
为类别损失函数,
Figure GDA00033564104600000310
分别为第i个提议区域的预测为非背景的概率和真实标签,0代表背景,1代表非背景,Nreg为锚框的位置数量,
Figure GDA00033564104600000311
为锚框位置坐标预测的平滑L1回归损失,ti
Figure GDA0003356410460000044
分别为边界框的预测坐标和真实坐标,λ为平衡分类损失和位置损失的系数。其中分类损失
Figure GDA0003356410460000041
为:
Figure GDA0003356410460000042
其中,round(pi)指pi的四舍五入值,即当前提议区域预测结果为非背景时,对其添加惩罚权重,预测为背景的提议区域不分配权重。
通过加大对不合理的、远离关键区域的提议区域的惩罚力度,使得网络的预测更倾向于关键区域,达到提升准确率的效果。
进一步,步骤S5中使用非极大值抑制移除重复预测的提议区域包括:
使用非极大值抑制,从预测类别为非背景的预测边界框中移除相似的结果。最终输出的预测边界框即兴趣区域池化层所需要的提议区域。
进一步,步骤S6中把提议区域和低层特征图输入到兴趣区域池化层,得到各个提议区域形状相同的特征包括:
网络生成了多个提议区域。这些形状各异的提议区域在低层特征图上分别标出形状各异的兴趣区域。这些兴趣区域需要抽取出形状相同的特征(提议区域个数记为n,高和宽均分别记为h2和w2,输出通道数记为c2)以便于连结后输出。输出形状为n×c2×h2×w2的特征图。
进一步,步骤S7中把各个提议区域形状相同的特征图输入到全连接层,得到每个提议区域的类别和边界框包括:
提议区域个数记为n,高和宽均分别记为h2和w2,输出通道数记为c2;通过全连接层将输出形状变换为n×d,其中d=c2×h2×w2
预测类别时,将全连接层的输出的形状再变换为n×q(q为类别个数),并使用softmax函数回归。
预测边界框时,将全连接层的输出的形状变换为n×4。也就是说,我们为每个提议区域同时预测类别和边界框。
进一步,步骤S8中在模型测试阶段,使用上述步骤训练好的网络来进行目标的检测。包括:
使用聚焦关键区域的损失函数训练目标检测网络之后,在测试阶段,使用该网络来对目标的类别和位置进行检测。
本发明的有益效果是,根据目标与关键区域的相关性,通过加大对不合理的、远离关键区域的提议区域的惩罚力度,使得网络的预测结果聚焦在关键区域内,即只在关键区域这些局部范围内进行目标识别,而不是在全图检测,提高了检测准确率。
附图说明:
下面结合附图和实施例对本发明进一步说明。
图1是本发明一种聚焦关键区域的深度学习目标检测方法的方法流程图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
实施例1
如图1所示,本实施例1提供了一种聚焦关键区域的深度学习目标检测方法,包括如下步骤:
步骤S1,在模型训练阶段,首先用卷积神经网络对图像进行特征提取,得到低层特征图;
步骤S2,使用区域提议网络对低层特征图进行提议区域选取,得到类别为非背景的提议区域;
步骤S3,用轮廓检测技术得到关键区域轮廓,计算提议区域到关键区域的距离;
步骤S4,根据距离计算出惩罚权重并代入区域提议网络的交叉熵分类损失函数,加大对偏离关键区域的提议区域的惩罚力度;
步骤S5,使用非极大值抑制移除重复预测的提议区域;
步骤S6,把提议区域和低层特征图输入到兴趣区域池化层,得到各个提议区域形状相同的特征;
步骤S7,把各个提议区域形状相同的特征图输入到全连接层,得到每个提议区域的类别和边界框;
步骤S8,在模型测试阶段,使用上述步骤训练好的网络来对目标的类别和位置进行检测。
随着建筑工地里工人的人身安全问题越来越被重视,检测进入工地的人是否佩戴上了安全帽变得很有必要。近年来人脸识别算法越来越成熟,但它并不能检测出人是否佩戴了安全帽,而普通的以安全帽为目标的检测又不能判断安全帽是否被佩戴在人的头上。若是将人脸检测和安全帽检测靠某些人为设定的规则搭配在一起,来判断安全帽有没有被戴在人头上,在投入到复杂多变的现实场景中时,就不具有好的鲁棒性。
基于以上问题,本发明提供了一种聚焦关键区域的深度学习目标检测方法来检测建筑工人进入工地时是否佩戴了安全帽。本方法所检测的目标不再是安全帽,而是戴有安全帽的人类头部。关键区域则是现有的人脸识别算法提供的人脸轮廓,根据提议区域到关键区域的距离计算相应的惩罚权重代入新的损失函数,得到关键区域内的提议区域。实际应用时,利用传感器判断检测位置是否有人员,如果有则拍摄照片并利用检测器对图片进行检测,如果检测到目标,则表示符合安全标准,允许通过;否则拒绝通过。
针对上述问题,本实施例1中步骤S1在模型训练阶段,首先用卷积神经网络对图像进行特征提取,得到低层特征。从原始图像开始,输入是一堆原始像素值。深度学习模型中,图像可以逐级表示为特定位置和角度的边缘、由边缘组合得出的花纹、由多种花纹进一步汇合得到的特定部位的模式等。最终,模型能够较容易根据更高级的表示完成给定的任务,如识别图像中的物体。VGG16作为深度学习中的一种,将自动找出每一级表示数据的合适方式。
具体的,假设输入图像的高和宽分别为HI和WI,传入经过预训练的 VGG16后,从最后一层conv5_1输出的形状记为1×c1×h1×w1,c1、h1、 w1分别为特征图的通道数、高、宽。
进一步,步骤S2中使用区域提议网络对低层特征图进行提议区域选取,得到类别为非背景的提议区域:
使用填充为1的3×3卷积层变换卷积神经网络的输出,并将输出通道数记为c2。这样,卷积神经网络为图像抽取的特征图中的每个单元均得到一个长度为c2的新特征。以特征图每个单元为中心,生成多个不同大小和宽高比的锚框并标注它们。用锚框中心单元长度为c2的特征分别预测该锚框的二元类别 (含目标还是背景)和边界框。
进一步,步骤S3中用轮廓检测技术得到关键区域轮廓,计算提议区域到关键区域的距离包括:
对于原图I,本实施例中使用的轮廓检测技术为现有的人脸识别算法,用它获取人脸边界框即关键区域,得到关键区域的边界框
Figure GDA0003356410460000071
其中nAbox为人脸边界框的数量,
Figure GDA0003356410460000072
分别为第i个关键区域边界框的左上角和右下角的x轴、y 轴坐标。
对于区域提议网络提出的边界框
Figure GDA0003356410460000073
其中nBbox为边界框的数量,
Figure GDA0003356410460000074
分别为第i个边界框的左上角和右下角的x轴、y轴坐标,对于其中每个边界框Bboxi首先计算其中心坐标距离各关键区域的中心坐标最小距离
Figure GDA0003356410460000081
Figure GDA0003356410460000082
其中j=1,..,nAbox
Figure GDA0003356410460000083
Figure GDA0003356410460000084
令原图I的长和宽为HI和WI,接下来将
Figure GDA0003356410460000085
进行归一化得到归一化最小距离
Figure GDA0003356410460000086
Figure GDA0003356410460000087
进一步,步骤S4中根据距离计算出惩罚权重并代入区域提议网络的交叉熵分类损失函数,加大对偏离关键区域的提议区域的惩罚力度包括:
计算区域提议阶段预测为非背景的边界框的惩罚权重,对于距离关键区域较远的提议区域分配较高的惩罚权重,离关键区域区域近的提议区域分配较小的惩罚权重,这里我们使用高斯加权的方式使得权重的变化更加平滑,每个边界框的惩罚权重为:
Figure GDA0003356410460000088
其中e为自然常数,σ为所有边界框到关键区域的归一化最小距离的标准差。
最后,将各边界框的惩罚权重带入区域提议网络的损失函数中:
Figure GDA0003356410460000089
其中Ncls为小批量批次的样本数量,
Figure GDA0003356410460000091
为类别损失函数,
Figure GDA0003356410460000092
分别为第i个提议区域的预测为非背景的概率和真实标签,0代表背景,1代表非背景,Nreg为锚框的位置数量,
Figure GDA0003356410460000093
为锚框位置坐标预测的平滑L1回归损失,
Figure GDA0003356410460000094
分别为边界框的预测坐标和真实坐标,λ为平衡分类损失和位置损失的系数。其中分类损失
Figure GDA0003356410460000095
为:
Figure GDA0003356410460000096
其中,round(pi)指pi的四舍五入值,即当前提议区域预测结果为非背景时,对其添加惩罚权重,预测为背景的提议区域不分配权重。
通过加大对不合理的、远离关键区域的提议区域的惩罚力度,使得网络的预测更倾向于关键区域,达到提升准确率的效果。
进一步,步骤S5中使用非极大值抑制移除重复预测的提议区域包括:
使用非极大值抑制,从预测类别为非背景的预测边界框中移除相似的结果。最终输出的预测边界框即兴趣区域池化层所需要的提议区域。
进一步,步骤S6中把提议区域和低层特征图输入到兴趣区域池化层,得到各个提议区域形状相同的特征包括:
网络生成了多个提议区域。这些形状各异的提议区域在低层特征图上分别标出形状各异的兴趣区域。这些兴趣区域需要抽取出形状相同的特征(提议区域个数记为n,高和宽均分别记为h2和w2)以便于连结后输出。输出形状为n×c2×h2×w2的特征图。
进一步,步骤S7中把各个提议区域形状相同的特征图输入到全连接层,得到每个提议区域的类别和边界框包括:
通过全连接层将输出形状变换为n×d,其中d=c2×h2×w2
预测类别时,将全连接层的输出的形状再变换为n×q(q为类别个数,这里q=2),并使用softmax函数回归。
预测边界框时,将全连接层的输出的形状变换为n×4。也就是说,我们为每个提议区域同时预测类别(戴有安全帽的人类头部或者背景)和边界框。
进一步,步骤S8中在模型测试阶段,使用上述步骤训练好的网络来进行目标的检测。包括:
使用聚焦关键区域的损失函数训练目标检测网络之后,在测试阶段,使用该网络来对目标的类别和位置进行检测。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (8)

1.一种聚焦关键区域的深度学习目标检测方法,其特征在于,包括如下步骤:
步骤S1,在模型训练阶段,首先用卷积神经网络对图像进行特征提取,得到低层特征图;
步骤S2,使用区域提议网络对低层特征图进行提议区域选取,得到类别为非背景的提议区域;
步骤S3,用轮廓检测技术得到关键区域轮廓,计算提议区域到关键区域的距离;
步骤S4,根据距离计算出惩罚权重并代入区域提议网络的交叉熵分类损失函数,加大对偏离关键区域的提议区域的惩罚力度;
步骤S5,使用非极大值抑制移除重复预测的提议区域;
步骤S6,把提议区域和低层特征图输入到兴趣区域池化层,得到各个提议区域形状相同的特征;
步骤S7,把各个提议区域形状相同的特征图输入到全连接层,得到每个提议区域的类别和边界框;
步骤S8,在模型测试阶段,使用上述步骤训练好的网络来对目标的类别和位置进行检测;
所述步骤S4中根据距离计算出惩罚权重并代入区域提议网络的交叉熵分类损失函数,加大对偏离关键区域的提议区域的惩罚力度:
计算区域提议阶段预测为非背景的边界框的惩罚权重,对于距离关键区域较远的提议区域分配较高的惩罚权重,离关键区域近的提议区域分配较小的惩罚权重,使用高斯加权的方式使得权重的变化更加平缓,每个边界框的惩罚权重为:
Figure FDA0003356410450000011
其中e为自然常数,σ为所有边界框到关键区域的归一化最小距离的标准差;归一化最小距离为
Figure FDA0003356410450000012
最后,将各边界框的惩罚权重带入区域提议网络的交叉熵分类损失函数中:
Figure FDA0003356410450000021
其中Ncls为小批量批次的样本数量,
Figure FDA0003356410450000022
为类别损失函数,pi,
Figure FDA0003356410450000023
分别为第i个提议区域的预测为非背景的概率和真实标签,0代表背景,1代表非背景,Nreg为锚框的位置数量,
Figure FDA0003356410450000024
为锚框位置坐标预测的平滑L1回归损失,ti,
Figure FDA0003356410450000025
分别为边界框的预测坐标和真实坐标,λ为平衡分类损失和位置损失的系数;其中分类损失
Figure FDA0003356410450000026
为:
Figure FDA0003356410450000027
其中,round(pi)指pi的四舍五入值,即当前提议区域预测结果为非背景时,对其添加惩罚权重,预测为背景的提议区域不分配权重。
2.根据权利要求1所述的一种聚焦关键区域的深度学习目标检测方法,其特征在于,
所述步骤S1中在模型训练阶段,首先用卷积神经网络对图像进行特征提取,得到低层特征图包括:
采用VGG16网络来提取输入图片的特征,输出的形状记为1×c1×h1×w1,c1、h1、w1分别为特征图的通道数、高、宽。
3.根据权利要求1所述的一种聚焦关键区域的深度学习目标检测方法,其特征在于,
所述步骤S2中使用区域提议网络对低层特征图进行提议区域选取,得到类别为非背景的提议区域包括:
使用填充为1的3×3卷积层对低层特征图进行通道数变换,并将输出通道数记为c2;这样,低层特征图中的每个单元均得到一个长度为c2的新特征;以特征图每个单元为中心,设置多个不同大小和宽高比的锚框;用3×3卷积层在锚框的基础上进行区域提议。
4.根据权利要求1所述的一种聚焦关键区域的深度学习目标检测方法,其特征在于,所述步骤S3中用轮廓检测技术得到关键区域轮廓,计算提议区域到关键区域的距离包括:
对于输入图像I,使用图像轮廓检测技术对其进行关键区域轮廓检测,得到轮廓集
Figure FDA0003356410450000031
其中nCI为关键区域的个数,
Figure FDA0003356410450000032
为轮廓的点集,xj和yj分别为点集中每个点在原图中的x轴、y轴坐标,nCIP为点集里点的数量;
对于区域提议网络提出的提议区域边界框
Figure FDA0003356410450000033
其中nBbox为提议区域的数量,
Figure FDA0003356410450000034
Figure FDA0003356410450000035
分别为提议区域边界框的左上角和右下角坐标,对于其中每个提议区域边界框Bboxi首先计算其中心坐标距离各关键区域的最小距离
Figure FDA0003356410450000036
令原图I的长和宽为HI和WI,接下来将
Figure FDA0003356410450000037
进行归一化得到归一化最小距离
Figure FDA0003356410450000038
Figure FDA0003356410450000039
5.根据权利要求1所述的一种聚焦关键区域的深度学习目标检测方法,其特征在于,所述步骤S5中使用非极大值抑制移除重复预测的提议区域包括:
使用非极大值抑制,从预测类别为非背景的预测边界框中移除相似的结果;最终输出的预测边界框即兴趣区域池化层所需要的提议区域。
6.根据权利要求5所述的一种聚焦关键区域的深度学习目标检测方法,其特征在于,
所述步骤S6中把提议区域和低层特征图输入到兴趣区域池化层,得到各个提议区域形状相同的特征包括:
网络生成了多个提议区域;这些形状各异的提议区域在低层特征图上分别标出形状各异的兴趣区域;这些兴趣区域需要抽取出形状相同的特征以便于连结后输出;提议区域个数记为n,高和宽均分别记为h2和w2,输出通道数记为c2;输出形状为n×c2×h2×w2的特征图。
7.根据权利要求1所述的一种聚焦关键区域的深度学习目标检测方法,其特征在于,所述步骤S7中把各个提议区域形状相同的特征图输入到全连接层,得到每个提议区域的类别和边界框包括:
提议区域个数记为n,高和宽均分别记为h2和w2,输出通道数记为c2;通过全连接层将输出形状变换为n×d,其中d=c2×h2×w2
预测类别时,将全连接层的输出的形状再变换为n×q,并使用softmax函数回归;q为类别个数;
预测边界框时,将全连接层的输出的形状变换为n×4;也就是说,为每个提议区域同时预测类别和边界框。
8.根据权利要求7所述的一种聚焦关键区域的深度学习目标检测方法,其特征在于,所述步骤S8包括:
使用聚焦关键区域的损失函数训练目标检测网络之后,在测试阶段,使用该网络来对目标的类别和位置进行检测。
CN201910648037.8A 2019-07-18 2019-07-18 一种聚焦关键区域的深度学习目标检测方法 Active CN110363162B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910648037.8A CN110363162B (zh) 2019-07-18 2019-07-18 一种聚焦关键区域的深度学习目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910648037.8A CN110363162B (zh) 2019-07-18 2019-07-18 一种聚焦关键区域的深度学习目标检测方法

Publications (2)

Publication Number Publication Date
CN110363162A CN110363162A (zh) 2019-10-22
CN110363162B true CN110363162B (zh) 2022-03-08

Family

ID=68220226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910648037.8A Active CN110363162B (zh) 2019-07-18 2019-07-18 一种聚焦关键区域的深度学习目标检测方法

Country Status (1)

Country Link
CN (1) CN110363162B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753805B (zh) * 2020-07-08 2024-06-07 深延科技(北京)有限公司 安全帽佩戴检测方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013149038A1 (en) * 2012-03-28 2013-10-03 University Of Houston System Methods and software for screening and diagnosing skin lesions and plant diseases
CN107451602A (zh) * 2017-07-06 2017-12-08 浙江工业大学 一种基于深度学习的果蔬检测方法
US10133951B1 (en) * 2016-10-27 2018-11-20 A9.Com, Inc. Fusion of bounding regions
CN109658387A (zh) * 2018-11-27 2019-04-19 北京交通大学 电力列车的受电弓碳滑板缺陷的检测方法
CN109961049A (zh) * 2019-03-27 2019-07-02 东南大学 一种复杂场景下香烟品牌识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013149038A1 (en) * 2012-03-28 2013-10-03 University Of Houston System Methods and software for screening and diagnosing skin lesions and plant diseases
US10133951B1 (en) * 2016-10-27 2018-11-20 A9.Com, Inc. Fusion of bounding regions
CN107451602A (zh) * 2017-07-06 2017-12-08 浙江工业大学 一种基于深度学习的果蔬检测方法
CN109658387A (zh) * 2018-11-27 2019-04-19 北京交通大学 电力列车的受电弓碳滑板缺陷的检测方法
CN109961049A (zh) * 2019-03-27 2019-07-02 东南大学 一种复杂场景下香烟品牌识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Merging recovery feature network to faster RCNN for low-resolution images detection;Ruyi Zhang等;《2017 IEEE Global Conference on Signal and Information Processing (GlobalSIP)》;20180308;1230-1234 *
基于深度卷积神经网络的智能车辆目标检测方法研究;赵锟;《中国优秀硕士学位论文全文数据库信息科技辑》;20180415;I138-3250 *

Also Published As

Publication number Publication date
CN110363162A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
CN110348319B (zh) 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
CN112381075B (zh) 一种机房特定场景下进行人脸识别的方法及系统
CN110738101A (zh) 行为识别方法、装置及计算机可读存储介质
CN112861635B (zh) 一种基于深度学习的火灾及烟雾实时检测方法
CN101971190A (zh) 实时身体分割系统
CN108197587A (zh) 一种通过人脸深度预测进行多模态人脸识别的方法
He et al. Real-time human face detection in color image
CN103164687B (zh) 一种色情图像侦测的方法和系统
CN109360179B (zh) 一种图像融合方法、装置及可读存储介质
CN112784810A (zh) 手势识别方法、装置、计算机设备和存储介质
CN106372624A (zh) 人脸识别方法及系统
CN110674680B (zh) 活体识别的方法、装置、存储介质
CN113033315A (zh) 一种稀土开采高分影像识别与定位方法
CN111091057A (zh) 一种信息处理方法、装置及计算机可读存储介质
Liu et al. Extended faster R-CNN for long distance human detection: Finding pedestrians in UAV images
CN109117723B (zh) 基于颜色模式分析与语义分割的盲道检测方法
CN107944437B (zh) 一种基于神经网络和积分图像的人脸定位方法
CN113673534B (zh) 一种基于Faster RCNN的RGB-D图像果实检测方法
CN110363162B (zh) 一种聚焦关键区域的深度学习目标检测方法
CN107045630A (zh) 一种基于rgbd的行人检测和身份识别方法及系统
CN111199199B (zh) 一种基于自适应上下文区域选取的动作识别方法
CN117351409A (zh) 混凝土坝面作业风险智能识别方法
KR100543706B1 (ko) 비젼기반 사람 검출방법 및 장치
CN110889418A (zh) 一种气体轮廓识别方法
CN113449663B (zh) 基于多态拟合的协同智能安防方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant