CN107545263A - 一种物体检测方法及装置 - Google Patents

一种物体检测方法及装置 Download PDF

Info

Publication number
CN107545263A
CN107545263A CN201710652233.3A CN201710652233A CN107545263A CN 107545263 A CN107545263 A CN 107545263A CN 201710652233 A CN201710652233 A CN 201710652233A CN 107545263 A CN107545263 A CN 107545263A
Authority
CN
China
Prior art keywords
picture
feature map
loss function
output
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710652233.3A
Other languages
English (en)
Other versions
CN107545263B (zh
Inventor
王生进
李栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201710652233.3A priority Critical patent/CN107545263B/zh
Publication of CN107545263A publication Critical patent/CN107545263A/zh
Application granted granted Critical
Publication of CN107545263B publication Critical patent/CN107545263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明实施例提供一种物体检测方法及装置,所述方法包括:接收样本图片,训练所述样本图片并标注所述样本图片中各个感兴趣物体的轴对齐矩形边框位置,获得所述样本图片的图片特征图;通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作,获得与所述样本图片的尺寸大小一致的输出特征图;通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络,获得目标训练网络;输入所述输出特征图到所述目标训练网络,获得初始检测结果,对所述初始检测结果进行非极大值抑制,获得所述样本图片中各个感兴趣物体的检测结果。本发明实施例实现了对图片中物体的检测识别率的提高,并尽可能地检测到图片中具有不同尺寸的目标,特别是小尺寸目标。

Description

一种物体检测方法及装置
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种物体检测方法及装置。
背景技术
物体检测是计算机视觉领域的核心任务之一,是图像理解和认知的关键技术,其根本目的是依靠计算机算法从静态或动态图像中识别感兴趣的物体。物体检测不仅具有重要的理论研究价值,是物体跟踪、身份与属性识别、图像语义描述等其他计算机视觉任务的研究基础,而且具有重要的实际应用价值和广阔的应用前景。例如,基于车载摄像机的车辆检测技术在智能辅助驾驶与无人驾驶领域有着重要应用,通过检测行车周围环境中的其他车辆目标,动态分析其与当前车辆的车距,能够消解潜在的车车冲突和可能发生的事故,从而提高车辆行驶安全性和交通通行效率,为保障人民生命安全和道路交通安全提供技术支撑。在安防视频监控领域,车辆检测技术也有着重要的应用前景,是后续车辆追踪、车牌识别、车辆属性识别(型号、颜色等)等任务的基础。同时,车辆检测还能够应用于智能交通流量统计系统,通过自动检测视频流中的车辆目标并计数,能够自动统计重要道路、关卡等场合的车流量,提升交通系统效率。因此,车辆检测技术具有重要的研究价值和广泛的应用前景。
目前主流的物体检测技术采用深度学习的框架,利用事先收集的大量目标样本训练神经网络,输出图片中目标的类型和位置。基于深度学习的物体检测方法相比利用传统特征和分类器的方法识别性能更高,能够应用于复杂场景中的目标检测。然而,许多实际应用场合对检测识别率要求较高,需要尽可能地检测到图片中具有不同尺寸的目标,特别是小尺寸目标。
因此,如何提高检测识别率,尽可能检测到图片中不同尺寸的目标,特别是小尺寸目标,是需要亟待解决的问题。
发明内容
针对现有技术中的缺陷,本发明实施例提供一种物体检测方法及装置。
第一方面,本发明实施例提供一种物体检测方法,所述方法包括:
接收样本图片,训练所述样本图片并标注所述样本图片中各个感兴趣物体的轴对齐矩形边框位置,获得所述样本图片的图片特征图;
通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作,获得与所述样本图片的尺寸大小一致的输出特征图;
通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络,获得目标训练网络;
输入所述输出特征图到所述目标训练网络,获得初始检测结果,对所述初始检测结果进行非极大值抑制处理,获得所述样本图片中各个感兴趣物体的检测结果。
可选的,所述图像复原L2损失函数具体包括:
其中,b表示输入的所述样本图片的图片特征图;
f(b)表示对所述图片特征图进行所述预设的卷积操作与所述预设的反卷积操作后获得的所述输出特征图。
可选的,所述窗口分类Softmax损失函数具体包括:
其中,z是softmaxwithloss损失层输入的图片特征图;
f(z)是softmax损失函数输出的图片特征图的分类结果;
y是输入的所述图片特征图z对应的类别,y=0,1,...,N;
N是所述感兴趣的物体类别;
k为Softmax损失函数输出的图片特征图的当前维度索引号;
j为Softmax损失函数输出的图片特征图的索引号。
可选的,所述窗口校正平滑L1损失函数具体包括:
其中,t表示预测的所述输出特征图的边框位置;
v表示人工标注的所述图片特征图的真实位置;
x,y,w,h分别表示所述输出特征图的边框的中心横纵坐标和边框的宽高;
l(ti-vi)为预测的所述输出特征图的边框位置与人工标注的所述图片特征图的真实位置的差值,即误差;
l(a)为l(ti-vi)的物理表达式,l(ti-vi)根据l(a)表达式的值获得;
a表示的是ti-vi
i表示的是预测的所述输出特征图的边框序号。
第二方面,本发明实施例提供一种物体检测装置,所述装置包括:
样本训练模块,用于接收样本图片,训练所述样本图片并标注所述样本图片中各个感兴趣物体的轴对齐矩形边框位置,获得所述样本图片的图片特征图;
卷积和反卷积模块,用于通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作,获得与所述样本图片的尺寸大小一致的输出特征图;
网络训练模块,用于通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络,获得目标训练网络;
处理模块,用于输入所述输出特征图到所述目标训练网络,获得初始检测结果,对所述初始检测结果进行非极大值抑制处理,获得所述样本图片中各个感兴趣物体的检测结果。
可选的,所述网络训练模块中所述图像复原L2损失函数具体包括:
其中,b表示输入的所述样本图片的图片特征图;
f(b)表示对所述图片特征图进行所述预设的卷积操作与所述预设的反卷积操作后获得的所述输出特征图。
可选的,所述网络训练模块中所述窗口分类Softmax损失函数具体包括:
其中,z是softmaxwithloss损失层输入的图片特征图;
f(z)是softmax损失函数输出的图片特征图的分类结果;
y是输入的所述图片特征图z对应的类别,y=0,1,...,N;
N是所述感兴趣的物体类别;
k为Softmax损失函数输出的图片特征图的当前维度索引号;
j为Softmax损失函数输出的图片特征图的索引号;。
可选的,所述网络训练模块中所述窗口校正平滑L1损失函数具体包括:
其中t表示预测的所述输出特征图的边框位置;
v表示人工标注的所述图片特征图的真实位置;
x,y,w,h分别表示所述输出特征图的边框的中心横纵坐标和边框的宽高;
l(ti-vi)为预测的所述输出特征图的边框位置与人工标注的所述图片特征图的真实位置的差值,即误差;
l(a)为l(ti-vi)的物理表达式,l(ti-vi)根据l(a)表达式的值获得;
a表示的是ti-vi
i表示的是预测的所述输出特征图的边框序号。
第三方面,本发明实施例提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述对应的任一方法。
第四方面,本发明实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述对应的任一方法。
本发明实施例提供的物体检测方法及装置,基于对称网络结构的多尺度物体检测方法,通过结合卷积和反卷积技术,搭建多尺度物体检测网络,通过将具有相同尺寸大小的卷积层和反卷积层特征融合,通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络获得目标训练网络,并将经过卷积和反卷积后的特征图输入目标训练网络获得物体检测结果,实现了对图片中物体的检测识别率的提高,并尽可能地检测到图片中具有不同尺寸的目标,特别是小尺寸目标。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的物体检测方法的流程示意图;
图2为本发明实施例中训练网络的输入输出示意图;
图3为本发明实施例提供的物体检测装置的结构示意图;
图4为本发明一个实施例提供的电子设备的逻辑框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种物体检测方法,图1为本发明实施例提供的物体检测方法的流程示意图,如图1所示,所述方法包括:
步骤S101、接收样本图片,训练所述样本图片并标注所述样本图片中各个感兴趣物体的轴对齐矩形边框位置,获得所述样本图片的图片特征图;
其中,所述图片特征图(或者叫地标图)是指利用参数化特征(如点和线)的全局位置来表示环境。机器人的外部环境被一些列参数化的特征,即二维坐标点表示。这些静态的地标点被观测器(装有传感器的机器人)利用多目标跟踪的方法跟踪,从而估计机器人的运动。
步骤S102、通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作,获得与所述样本图片的尺寸大小一致的输出特征图;
其中,所述卷积操作是指,通过卷积神经网络对图片特征图进行限缩,卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。它包括卷积层(alternating convolutional layer)和池层(pooling layer)。
一般地,CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。
CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习,所以在使用CNN时,避免了显示的特征抽取,而隐式地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。
所述反卷积操作是指通过测量输出和已知输入重构未知输入的过程
步骤S103、通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络,获得目标训练网络;
其中,所述损失函数通常而言是由损失项(loss term)和正则项(regularizationterm)组成,损失项对回归问题,常用的有:平方损失(for linear regression),绝对值损失;对分类问题,常用的有:hinge loss(for soft margin SVM),log loss(for logisticregression)。正则项常用的有L1-regularization和L2-regularization。
一般来说,我们在进行机器学习任务时,使用的每一个算法都有一个目标函数,算法便是对这个目标函数进行优化,特别是在分类或者回归任务中,便是使用损失函数(LossFunction)作为其目标函数,又称为代价函数(Cost Function)。损失函数是用来评价模型的预测值Y=f(X)与真实值Y的不一致程度,它是一个非负实值函数。通常使用L(Y,f(x))来表示,损失函数越小,模型的性能就越好。
步骤S104、输入所述输出特征图到所述目标训练网络,获得初始检测结果,对所述初始检测结果进行非极大值抑制处理,获得所述样本图片中各个感兴趣物体的检测结果。
其中,所述非极大值抑制顾名思义就是抑制不是极大值的元素,搜索局部的极大值。在物体检测非极大值抑制应用十分广泛,主要目的是为了消除多余的框,找到最佳的物体检测的位置。
本发明实施例提供的物体检测方法,基于对称网络结构的多尺度物体检测方法,通过结合卷积和反卷积技术,搭建多尺度物体检测网络,通过将具有相同尺寸大小的卷积层和反卷积层特征融合,通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络获得目标训练网络,并将经过卷积和反卷积后的特征图输入目标训练网络获得物体检测结果,实现了对图片中物体的检测识别率的提高,并尽可能地检测到图片中具有不同尺寸的目标,特别是小尺寸目标。
在上述实施例的基础上,所述图像复原L2损失函数具体包括:
其中,b表示输入的所述样本图片的图片特征图;
f(b)表示对所述图片特征图进行所述预设的卷积操作与所述预设的反卷积操作后获得的所述输出特征图。
在上述实施例的基础上,所述窗口分类Softmax损失函数具体包括:
其中,z是softmaxwithloss损失层输入的图片特征图;
f(z)是softmax损失函数输出的图片特征图的分类结果;
y是输入的所述图片特征图z对应的类别,y=0,1,...,N;
N是所述感兴趣的物体类别;
k为Softmax损失函数输出的图片特征图的当前维度索引号;
j为Softmax损失函数输出的图片特征图的索引号;。
在上述实施例的基础上,所述窗口校正平滑L1损失函数具体包括:
其中t表示预测的所述输出特征图的边框位置;
v表示人工标注的所述图片特征图的真实位置;
x,y,w,h分别表示所述输出特征图的边框的中心横纵坐标和边框的宽高;
l(ti-vi)为预测的所述输出特征图的边框位置与人工标注的所述图片特征图的真实位置的差值,即误差;
l(a)为l(ti-vi)的物理表达式,l(ti-vi)根据l(a)表达式的值获得;
a表示的是ti-vi
i表示的是预测的所述输出特征图的边框序号。
本发明实施例的具体实施方式为:
将接收到的样本图片进行网络训练,训练时,网络输入为整幅样本图片,训练样本图片需标注轴对齐的物体矩形边框位置,获得样本图片的图片特征图。卷积操作阶段,将获得的样本图片的图片特征图通过5层卷积操作Convi,i=1,2,3,4,5逐渐将特征图缩小,记特征层尺寸依次为Si,i=1,2,3,4,5。卷积操作将特征层的尺寸变小,Si>Sj若i<j。每一层卷积之后增加ReLU非线性输出单元以及池化操作。反卷积操作阶段,在第5层卷积层之后,依次增加4层反卷积操作Deconvi,i=1,2,3,4,记特征层尺寸依次为Di,i=1,2,3,4,保证反卷积层与卷积层特征图尺寸一致,即Si=D5-i,i=1,2,3,4。网络最终特征输出尺寸与输入的样本图片一致,采用图像复原L2损失函数计算图像复原误差,图像复原L2损失函数如下所示:
其中,b表示输入的所述样本图片的图片特征图;
f(b)表示对所述图片特征图进行所述预设的卷积操作与所述预设的反卷积操作后获得的所述输出特征图。
为了检测不同尺寸大小的目标,将具有相同尺寸大小的卷积层Convi和反卷积层Deconv5-i特征分别进行级联融合,取i=3,4。在融合后的特征图以及第5层卷积特征图之后通过ROI池化和全连接变换操作获得N+1维输出向量,N表示感兴趣的物体类别。利用窗口分类Softmax损失函数进行窗口分类,利用窗口校正平滑L1损失函数进行窗口位置校正。
窗口分类Softmax损失函数如下:
其中,z是softmaxwithloss损失层输入的图片特征图;
f(z)是softmax损失函数输出的图片特征图的分类结果;
y是输入的所述图片特征图z对应的类别,y=0,1,...,N;
N是所述感兴趣的物体类别;
k为Softmax损失函数输出的图片特征图的当前维度索引号;
j为Softmax损失函数输出的图片特征图的索引号。
窗口校正平滑L1损失函数如下:
其中,t表示预测的所述输出特征图的边框位置;
v表示人工标注的所述图片特征图的真实位置;
x,y,w,h分别表示所述输出特征图的边框的中心横纵坐标和边框的宽高;
l(ti-vi)为预测的所述输出特征图的边框位置与人工标注的所述图片特征图的真实位置的差值,即误差;
l(a)为l(ti-vi)的物理表达式,l(ti-vi)根据l(a)表达式的值获得;
a表示的是ti-vi
i表示的是预测的所述输出特征图的边框序号。
本发明实施例采用多任务学习方式同时优化三种目标:图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数,总体损失函数为三者函数线性相加并通过总体损失函数训练网络得到目标训练网络,将通过卷积和反卷积操作得到的输出特征图输入到训练好的目标训练网络,如图2所示,获得样本图片的初始检测结果,在对初始检测结果进行非极大值抑制处理,排除重复检测框,获得样本图片的最终物体检测结果。
本发明实施例提供的物体检测方法,基于对称网络结构的多尺度物体检测方法,通过结合卷积和反卷积技术,搭建多尺度物体检测网络,通过将具有相同尺寸大小的卷积层和反卷积层特征融合,通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络获得目标训练网络,并将经过卷积和反卷积后的特征图输入目标训练网络获得物体检测结果,实现了对图片中物体的检测识别率的提高,并尽可能地检测到图片中具有不同尺寸的目标,特别是小尺寸目标。
本发明实施例提供一种物体检测装置,图3为本发明实施例提供的物体检测装置的结构示意图,如图3所示,所述装置包括:样本训练模块301、卷积和反卷积模块302、网络训练模块303和处理模块304;其中,
样本训练模块301用于接收样本图片,训练所述样本图片并标注所述样本图片中各个感兴趣物体的轴对齐矩形边框位置,获得所述样本图片的图片特征图;卷积和反卷积模块302用于通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作,获得与所述样本图片的尺寸大小一致的输出特征图;网络训练模块303用于通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络,获得目标训练网络;处理模块304用于输入所述输出特征图到所述目标训练网络,获得初始检测结果,对所述初始检测结果进行非极大值抑制处理,获得所述样本图片中各个感兴趣物体的检测结果。
本发明实施例提供的物体检测装置,通过卷积和反卷积模块结合卷积和反卷积技术,搭建多尺度物体检测网络,通过将具有相同尺寸大小的卷积层和反卷积层特征融合,通过网络训练模块将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络获得目标训练网络,并将经过卷积和反卷积后的特征图输入目标训练网络获得物体检测结果,实现了对图片中物体的检测识别率的提高,并尽可能地检测到图片中具有不同尺寸的目标,特别是小尺寸目标。
在上述实施例的基础上,所述网络训练模块中所述图像复原L2损失函数具体包括:
其中,b表示输入的所述样本图片的图片特征图;
f(b)表示对所述图片特征图进行所述预设的卷积操作与所述预设的反卷积操作后获得的所述输出特征图。
在上述实施例的基础上,所述网络训练模块中所述窗口分类Softmax损失函数具体包括:
其中,z是softmaxwithloss损失层输入的图片特征图;
f(z)是softmax损失函数输出的图片特征图的分类结果;
y是输入的所述图片特征图z对应的类别,y=0,1,...,N;
N是所述感兴趣的物体类别;
k为Softmax损失函数输出的图片特征图的当前维度索引号;
j为Softmax损失函数输出的图片特征图的索引号;。
在上述实施例的基础上,所述网络训练模块中所述窗口校正平滑L1损失函数具体包括:
其中t表示预测的所述输出特征图的边框位置;
v表示人工标注的所述图片特征图的真实位置;
x,y,w,h分别表示所述输出特征图的边框的中心横纵坐标和边框的宽高;
l(ti-vi)为预测的所述输出特征图的边框位置与人工标注的所述图片特征图的真实位置的差值,即误差;
l(a)为l(ti-vi)的物理表达式,l(ti-vi)根据l(a)表达式的值获得;
a表示的是ti-vi
i表示的是预测的所述输出特征图的边框序号。
本发明提供的物体检测装置是用来实现上述物体检测方法的,所述物体检测方法已经详细描述其具体实施方式,故在此不再赘述。
本发明实施例提供的物体检测装置,通过卷积和反卷积模块结合卷积和反卷积技术,搭建多尺度物体检测网络,通过将具有相同尺寸大小的卷积层和反卷积层特征融合,通过网络训练模块将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络获得目标训练网络,并将经过卷积和反卷积后的特征图输入目标训练网络获得物体检测结果,实现了对图片中物体的检测识别率的提高,并尽可能地检测到图片中具有不同尺寸的目标,特别是小尺寸目标。
图4为本发明一个实施例提供的电子设备的逻辑框图,如图4所示,所述电子设备,包括:处理器(processor)401、存储器(memory)402和总线403;
其中,所述处理器401和存储器402通过所述总线403完成相互间的通信;所述处理器401用于调用所述存储器402中的程序指令,以执行上述各方法实施例所提供的方法。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。
最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims (10)

1.一种物体检测方法,其特征在于,所述方法包括:
接收样本图片,训练所述样本图片并标注所述样本图片中各个感兴趣物体的轴对齐矩形边框位置,获得所述样本图片的图片特征图;
通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作,获得与所述样本图片的尺寸大小一致的输出特征图;
通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络,获得目标训练网络;
输入所述输出特征图到所述目标训练网络,获得初始检测结果,对所述初始检测结果进行非极大值抑制处理,获得所述样本图片中各个感兴趣物体的检测结果。
2.根据权利要求1所述的方法,其特征在于,所述图像复原L2损失函数具体包括:
<mrow> <msub> <mi>L</mi> <mi>r</mi> </msub> <mrow> <mo>(</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mo>|</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>b</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow>
其中,b表示输入的所述样本图片的图片特征图;
f(b)表示对所述图片特征图进行所述预设的卷积操作与所述预设的反卷积操作后获得的所述输出特征图。
3.根据权利要求1所述的方法,其特征在于,所述窗口分类Softmax损失函数具体包括:
<mrow> <msub> <mi>L</mi> <mrow> <mi>c</mi> <mi>l</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mi>log</mi> <mi> </mi> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>y</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <msup> <mi>e</mi> <msub> <mi>z</mi> <mi>k</mi> </msub> </msup> <mrow> <msub> <mi>&amp;Sigma;</mi> <mi>j</mi> </msub> <msup> <mi>e</mi> <msub> <mi>z</mi> <mi>j</mi> </msub> </msup> </mrow> </mfrac> </mrow>
其中,z是softmaxwithloss损失层输入的图片特征图;
f(z)是softmax损失函数输出的图片特征图的分类结果;
y是输入的所述图片特征图z对应的类别,y=0,1,...,N;
N是所述感兴趣的物体类别;
k为Softmax损失函数输出的图片特征图的当前维度索引号;
j为Softmax损失函数输出的图片特征图的索引号。
4.根据权利要求1所述的方法,其特征在于,所述窗口校正平滑L1损失函数具体包括:
<mrow> <msub> <mi>L</mi> <mrow> <mi>l</mi> <mi>o</mi> <mi>c</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <mi>v</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>&amp;Element;</mo> <mo>{</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>w</mi> <mo>,</mo> <mi>h</mi> <mo>}</mo> </mrow> </munder> <mi>l</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>
<mrow> <mi>l</mi> <mrow> <mo>(</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>0.5</mn> <msup> <mi>a</mi> <mn>2</mn> </msup> <mo>,</mo> <mo>|</mo> <mi>a</mi> <mo>|</mo> <mo>&lt;</mo> <mn>1</mn> </mtd> </mtr> <mtr> <mtd> <mo>|</mo> <mi>a</mi> <mo>|</mo> <mo>-</mo> <mn>0.5</mn> <mo>,</mo> <mo>|</mo> <mi>a</mi> <mo>|</mo> <mo>&amp;GreaterEqual;</mo> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中,t表示预测的所述输出特征图的边框位置;
v表示人工标注的所述图片特征图的真实位置;
x,y,w,h分别表示所述输出特征图的边框的中心横纵坐标和边框的宽高;
l(ti-vi)为预测的所述输出特征图的边框位置与人工标注的所述图片特征图的真实位置的差值,即误差;
l(a)为l(ti-vi)的物理表达式,l(ti-vi)根据l(a)表达式的值获得;
a表示的是ti-vi
i表示的是预测的所述输出特征图的边框序号。
5.一种物体检测装置,其特征在于,所述装置包括:
样本训练模块,用于接收样本图片,训练所述样本图片并标注所述样本图片中各个感兴趣物体的轴对齐矩形边框位置,获得所述样本图片的图片特征图;
卷积和反卷积模块,用于通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作,获得与所述样本图片的尺寸大小一致的输出特征图;
网络训练模块,用于通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络,获得目标训练网络;
处理模块,用于输入所述输出特征图到所述目标训练网络,获得初始检测结果,对所述初始检测结果进行非极大值抑制处理,获得所述样本图片中各个感兴趣物体的检测结果。
6.根据权利要求5所述的装置,其特征在于,所述网络训练模块中所述图像复原L2损失函数具体包括:
<mrow> <msub> <mi>L</mi> <mi>r</mi> </msub> <mrow> <mo>(</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mo>|</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>b</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow>
其中,b表示输入的所述样本图片的图片特征图;
f(b)表示对所述图片特征图进行所述预设的卷积操作与所述预设的反卷积操作后获得的所述输出特征图。
7.根据权利要求5所述的方法,其特征在于,所述网络训练模块中所述窗口分类Softmax损失函数具体包括:
<mrow> <msub> <mi>L</mi> <mrow> <mi>c</mi> <mi>l</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mi>log</mi> <mi> </mi> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>y</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <msup> <mi>e</mi> <msub> <mi>z</mi> <mi>k</mi> </msub> </msup> <mrow> <msub> <mi>&amp;Sigma;</mi> <mi>j</mi> </msub> <msup> <mi>e</mi> <msub> <mi>z</mi> <mi>j</mi> </msub> </msup> </mrow> </mfrac> </mrow>
其中,z是softmaxwithloss损失层输入的图片特征图;
f(z)是softmax损失函数输出的图片特征图的分类结果;
y是输入的所述图片特征图z对应的类别,y=0,1,...,N;
N是所述感兴趣的物体类别;
k为Softmax损失函数输出的图片特征图的当前维度索引号;
j为Softmax损失函数输出的图片特征图的索引号。
8.根据权利要求5所述的方法,其特征在于,所述网络训练模块中所述窗口校正平滑L1损失函数具体包括:
<mrow> <msub> <mi>L</mi> <mrow> <mi>l</mi> <mi>o</mi> <mi>c</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <mi>v</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>&amp;Element;</mo> <mo>{</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>w</mi> <mo>,</mo> <mi>h</mi> <mo>}</mo> </mrow> </munder> <mi>l</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>
<mrow> <mi>l</mi> <mrow> <mo>(</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>0.5</mn> <msup> <mi>a</mi> <mn>2</mn> </msup> <mo>,</mo> <mo>|</mo> <mi>a</mi> <mo>|</mo> <mo>&lt;</mo> <mn>1</mn> </mtd> </mtr> <mtr> <mtd> <mo>|</mo> <mi>a</mi> <mo>|</mo> <mo>-</mo> <mn>0.5</mn> <mo>,</mo> <mo>|</mo> <mi>a</mi> <mo>|</mo> <mo>&amp;GreaterEqual;</mo> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中,t表示预测的所述输出特征图的边框位置;
v表示人工标注的所述图片特征图的真实位置;
x,y,w,h分别表示所述输出特征图的边框的中心横纵坐标和边框的宽高;
l(ti-vi)为预测的所述输出特征图的边框位置与人工标注的所述图片特征图的真实位置的差值,即误差;
l(a)为l(ti-vi)的物理表达式,l(ti-vi)根据l(a)表达式的值获得;
a表示的是ti-vi
i表示的是预测的所述输出特征图的边框序号。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行如权利要求1至4任一所述的方法。
CN201710652233.3A 2017-08-02 2017-08-02 一种物体检测方法及装置 Active CN107545263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710652233.3A CN107545263B (zh) 2017-08-02 2017-08-02 一种物体检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710652233.3A CN107545263B (zh) 2017-08-02 2017-08-02 一种物体检测方法及装置

Publications (2)

Publication Number Publication Date
CN107545263A true CN107545263A (zh) 2018-01-05
CN107545263B CN107545263B (zh) 2020-12-15

Family

ID=60971397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710652233.3A Active CN107545263B (zh) 2017-08-02 2017-08-02 一种物体检测方法及装置

Country Status (1)

Country Link
CN (1) CN107545263B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549927A (zh) * 2018-03-16 2018-09-18 深圳市商汤科技有限公司 物体检测网络的训练方法和特征监督图生成方法
CN108764202A (zh) * 2018-06-06 2018-11-06 平安科技(深圳)有限公司 机场异物识别方法、装置、计算机设备及存储介质
CN108830280A (zh) * 2018-05-14 2018-11-16 华南理工大学 一种基于区域提名的小目标检测方法
CN109086656A (zh) * 2018-06-06 2018-12-25 平安科技(深圳)有限公司 机场异物检测方法、装置、计算机设备及存储介质
CN109977845A (zh) * 2019-03-21 2019-07-05 百度在线网络技术(北京)有限公司 一种可行驶区域检测方法及车载终端
CN110197152A (zh) * 2019-05-28 2019-09-03 南京邮电大学 一种用于自动驾驶系统的道路目标识别方法
CN110533119A (zh) * 2019-09-04 2019-12-03 北京迈格威科技有限公司 标识识别方法及其模型的训练方法、装置及电子系统
CN110556178A (zh) * 2018-05-30 2019-12-10 西门子医疗有限公司 用于医学疗法规划的决策支持系统
CN111145097A (zh) * 2019-12-31 2020-05-12 华为技术有限公司 图像处理方法、装置和图像处理系统
CN111414825A (zh) * 2020-03-13 2020-07-14 玉林师范学院 一种安全帽佩戴检测方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008073366A2 (en) * 2006-12-08 2008-06-19 Sobayli, Llc Target object recognition in images and video
CN104866900A (zh) * 2015-01-29 2015-08-26 北京工业大学 一种反卷积神经网络训练方法
CN105975941A (zh) * 2016-05-31 2016-09-28 电子科技大学 一种基于深度学习的多方向车型检测识别系统
CN106203395A (zh) * 2016-07-26 2016-12-07 厦门大学 基于多任务深度学习的人脸属性识别方法
CN106447658A (zh) * 2016-09-26 2017-02-22 西北工业大学 基于全局和局部卷积网络的显著性目标检测方法
CN106504233A (zh) * 2016-10-18 2017-03-15 国网山东省电力公司电力科学研究院 基于Faster R‑CNN的无人机巡检图像电力小部件识别方法及系统
US20170109625A1 (en) * 2015-10-14 2017-04-20 Microsoft Technology Licensing, Llc System for training networks for semantic segmentation
CN106709568A (zh) * 2016-12-16 2017-05-24 北京工业大学 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法
CN106920243A (zh) * 2017-03-09 2017-07-04 桂林电子科技大学 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN106980895A (zh) * 2017-02-22 2017-07-25 中国科学院自动化研究所 基于旋转区域的卷积神经网络预测方法
CN106991408A (zh) * 2017-04-14 2017-07-28 电子科技大学 一种候选框生成网络的生成方法及人脸检测方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008073366A2 (en) * 2006-12-08 2008-06-19 Sobayli, Llc Target object recognition in images and video
CN104866900A (zh) * 2015-01-29 2015-08-26 北京工业大学 一种反卷积神经网络训练方法
US20170109625A1 (en) * 2015-10-14 2017-04-20 Microsoft Technology Licensing, Llc System for training networks for semantic segmentation
CN105975941A (zh) * 2016-05-31 2016-09-28 电子科技大学 一种基于深度学习的多方向车型检测识别系统
CN106203395A (zh) * 2016-07-26 2016-12-07 厦门大学 基于多任务深度学习的人脸属性识别方法
CN106447658A (zh) * 2016-09-26 2017-02-22 西北工业大学 基于全局和局部卷积网络的显著性目标检测方法
CN106504233A (zh) * 2016-10-18 2017-03-15 国网山东省电力公司电力科学研究院 基于Faster R‑CNN的无人机巡检图像电力小部件识别方法及系统
CN106709568A (zh) * 2016-12-16 2017-05-24 北京工业大学 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法
CN106980895A (zh) * 2017-02-22 2017-07-25 中国科学院自动化研究所 基于旋转区域的卷积神经网络预测方法
CN106920243A (zh) * 2017-03-09 2017-07-04 桂林电子科技大学 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN106991408A (zh) * 2017-04-14 2017-07-28 电子科技大学 一种候选框生成网络的生成方法及人脸检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DONG LI 等: "Object Detection in Image with Complex Background", 《3RD INTERNATIONAL CONFERENCE ON MULTIMEDIA TECHNOLOGY(ICMT 2013)》 *
DONG LI 等: "Unsupervised Visual Representation Learning by Graph-Based Consistent Constraints", 《ECCV 2016: COMPUTER VISION》 *
尹勰 等: "基于深度卷积神经网络的图像目标检测", 《工业控制计算机》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549927A (zh) * 2018-03-16 2018-09-18 深圳市商汤科技有限公司 物体检测网络的训练方法和特征监督图生成方法
CN108830280A (zh) * 2018-05-14 2018-11-16 华南理工大学 一种基于区域提名的小目标检测方法
US11961604B2 (en) 2018-05-30 2024-04-16 Siemens Healthineers Ag Decision support system for medical therapy planning
CN110556178A (zh) * 2018-05-30 2019-12-10 西门子医疗有限公司 用于医学疗法规划的决策支持系统
CN108764202A (zh) * 2018-06-06 2018-11-06 平安科技(深圳)有限公司 机场异物识别方法、装置、计算机设备及存储介质
CN109086656A (zh) * 2018-06-06 2018-12-25 平安科技(深圳)有限公司 机场异物检测方法、装置、计算机设备及存储介质
CN108764202B (zh) * 2018-06-06 2023-04-18 平安科技(深圳)有限公司 机场异物识别方法、装置、计算机设备及存储介质
CN109086656B (zh) * 2018-06-06 2023-04-18 平安科技(深圳)有限公司 机场异物检测方法、装置、计算机设备及存储介质
CN109977845A (zh) * 2019-03-21 2019-07-05 百度在线网络技术(北京)有限公司 一种可行驶区域检测方法及车载终端
CN109977845B (zh) * 2019-03-21 2021-08-17 百度在线网络技术(北京)有限公司 一种可行驶区域检测方法及车载终端
CN110197152A (zh) * 2019-05-28 2019-09-03 南京邮电大学 一种用于自动驾驶系统的道路目标识别方法
CN110197152B (zh) * 2019-05-28 2022-08-26 南京邮电大学 一种用于自动驾驶系统的道路目标识别方法
CN110533119B (zh) * 2019-09-04 2022-12-27 北京迈格威科技有限公司 标识识别方法及其模型的训练方法、装置及电子系统
CN110533119A (zh) * 2019-09-04 2019-12-03 北京迈格威科技有限公司 标识识别方法及其模型的训练方法、装置及电子系统
CN111145097A (zh) * 2019-12-31 2020-05-12 华为技术有限公司 图像处理方法、装置和图像处理系统
CN111145097B (zh) * 2019-12-31 2023-09-01 华为技术有限公司 图像处理方法、装置和图像处理系统
CN111414825A (zh) * 2020-03-13 2020-07-14 玉林师范学院 一种安全帽佩戴检测方法
CN111414825B (zh) * 2020-03-13 2023-09-08 玉林师范学院 一种安全帽佩戴检测方法

Also Published As

Publication number Publication date
CN107545263B (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN107545263B (zh) 一种物体检测方法及装置
CN106845487B (zh) 一种端到端的车牌识别方法
Zang et al. Vehicle license plate recognition using visual attention model and deep learning
Zheng et al. HLU 2-Net: a residual U-structure embedded U-Net with hybrid loss for tire defect inspection
CN104517103A (zh) 一种基于深度神经网络的交通标志分类方法
Geng et al. Combining CNN and MRF for road detection
CN111340855A (zh) 一种基于轨迹预测的道路移动目标检测方法
CN111860439A (zh) 一种无人机巡检图像缺陷检测方法、系统及设备
CN110287798B (zh) 基于特征模块化和上下文融合的矢量网络行人检测方法
CN116188999B (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
CN111259710B (zh) 采用停车位框线、端点的停车位结构检测模型训练方法
US20230154157A1 (en) Saliency-based input resampling for efficient object detection
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
Muthalagu et al. Vehicle lane markings segmentation and keypoint determination using deep convolutional neural networks
Khellal et al. Pedestrian classification and detection in far infrared images
CN110909656B (zh) 一种雷达与摄像机融合的行人检测方法和系统
CN115631344A (zh) 一种基于特征自适应聚合的目标检测方法
Yin Object Detection Based on Deep Learning: A Brief Review
Baghel et al. Analysis of Ex-YOLO algorithm with other real-time algorithms for emergency vehicle detection
Singh et al. CNN based approach for traffic sign recognition system
CN109284752A (zh) 一种车辆的快速检测方法
CN116934820A (zh) 基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及系统
Qiu et al. A moving vehicle tracking algorithm based on deep learning
Liu et al. IL-YOLOv5: A Ship Detection Method Based on Incremental Learning
CN115345932A (zh) 一种基于语义信息的激光slam回环检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant