CN113673498A - 目标检测方法、装置、设备和计算机可读存储介质 - Google Patents
目标检测方法、装置、设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN113673498A CN113673498A CN202110857083.6A CN202110857083A CN113673498A CN 113673498 A CN113673498 A CN 113673498A CN 202110857083 A CN202110857083 A CN 202110857083A CN 113673498 A CN113673498 A CN 113673498A
- Authority
- CN
- China
- Prior art keywords
- network
- training
- loss
- information
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 89
- 238000012549 training Methods 0.000 claims abstract description 227
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000011176 pooling Methods 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 11
- 230000008014 freezing Effects 0.000 claims description 2
- 238000007710 freezing Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 16
- 230000006870 function Effects 0.000 description 11
- 238000007689 inspection Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000013140 knowledge distillation Methods 0.000 description 4
- 238000004873 anchoring Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004821 distillation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种目标检测方法、装置、设备和计算机可读存储介质。其中,该方法采用联合训练后的第一网络,对待检测图像进行目标识别,其中,联合训练后的第一网络至少基于第一损失和第二损失训练,其中第一损失为第一网络获得的第一预测信息的预测损失,第二损失表征第一网络获得的第一预测信息与第二网络获得的第二预测信息之间的差异信息,使得联合训练的第一网络能够获得第二网络提供的信息作为辅助而使得其检测效果接近于第二网络。通过本申请,解决了相关技术的目标检测方法对细长物体的检测准确度低的问题,提高了对细长物体的目标检测的检测效果,降低了漏检和误检率。
Description
技术领域
本申请涉及图像处理领域,尤其涉及一种目标检测方法、装置、设备和计算机可读存储介质。
背景技术
相关技术中常用神经网络进行目标检测算法,其中针对目标的分类和边框回归是分别进行的。由于神经网络中基于预先锚定多种长宽比的检测框对待处理对象的图像进行边框回归获得的包围框,与目标分类所用的特征图尺寸不同,导致利用神经网络对与目标分类所用的正方形的特征图的长宽比差异较大的细长物体进行检测时,检测的准确度低。
发明内容
本申请提供了一种目标检测方法、装置、设备和计算机可读存储介质,以解决相关技术的目标检测方法对细长物体的检测准确度低的问题。
一种目标检测方法,包括:
获取包含待处理对象的待检测图像;
采用联合训练后的第一网络,对所述待检测图像进行目标识别,得到所述待处理对象是否是目标对象的识别信息,所述目标对象包括外接矩形框满足预设矩形条件的对象;
其中,所述联合训练后的第一网络至少基于第一损失和第二损失训练,所述第一损失基于第一预测信息和训练图像的标注信息的差异信息确定,所述第二损失基于第一预测信息和第二预测信息的差异信息确定,所述第一预测信息由基础训练后的第一网络对训练图像进行目标识别获得,所述第二预测信息由基础训练后的第二网络基于目标对象特征进行目标识别获得,所述目标对象特征是训练图像的特征信息中与待处理对象的位置区域对应的特征信息。
在其中一些实施例中,所述预设矩形条件包括:外接矩形框的长宽比大于预设值,所述预设值为不小于3且不大于10的数值。
在其中一些实施例中,所述联合训练后的第一网络通过下列方式训练:
对初始的第一网络进行基础训练,得到基础训练后的第一网络;
基于所述基础训练后的第一网络提取训练图像的特征信息,并基于提取到特征信息中与待处理对象的检测框对应的特征信息对初始的第二网络进行基础训练,得到基础训练后的第二网络;
至少基于第一损失和第二损失,对所述基础训练后的第一网络进行训练,得到所述联合训练后的第一网络。
在其中一些实施例中,至少基于第一损失和第二损失,对所述基础训练后的第一网络进行训练,得到所述联合训练后的第一网络包括:
至少基于第一损失和第二损失,仅对所述基础训练后的第一网络进行参数调整,而冻结所述基础训练后的第一网络的参数,得到所述联合训练后的第一网络;或者
至少基于第一损失和第二损失,对所述基础训练后的第一网络和所述基础训练后的第二网络进行参数调整,得到所述联合训练后的第一网络。
在其中一些实施例中,所述第一网络基于所述第一损失、所述第二损失和第三损失训练,其中,所述第三损失基于第二预测信息和训练图像的标注信息的差异信息确定。
在其中一些实施例中,对所述基础训练后的第一网络进行训练时,训练结束的条件包括以下至少之一:
第一损失、第二损失和第三损失分别小于各自对应的阈值;
由第一损失、第二损失和第三损失得到的联合损失小于对应的阈值。
在其中一些实施例中,所述第二网络用于基于所述目标对象特征进行池化操作后,得到池化的特征信息,并基于所述池化的特征信息对训练图像中的待处理对象进行目标识别。
在其中一些实施例中,基于所述目标对象特征进行池化操作后,得到池化的特征信息,并基于所述池化的特征信息对训练图像中的待处理对象进行目标识别包括:
基于所述第一预测信息,确定待处理对象的位置区域,以及获取所述基础训练后的第一网络提取到的训练图像的特征图;
基于待处理对象的位置区域在所述训练图像中的位置,在训练图像的特征图中提取所述目标对象特征对应的特征图;
将所述目标对象特征对应的特征图网格化,将每个网格对应的特征图进行四等分后,基于双线性插值获得四等分得到的小网格的中心点的特征值,并基于各小网格的中心点的特征值进行最大池化操作,得到所述池化的特征信息。
一种目标检测装置,包括:
图像获取单元,用于获取包含待处理对象的待检测图像;
目标识别单元,用于采用联合训练后的第一网络,对所述待检测图像进行目标识别,得到所述待处理对象是否是目标对象的识别信息,所述目标对象包括外接矩形框满足预设矩形条件的对象;
其中,所述联合训练后的第一网络至少基于第一损失和第二损失训练,所述第一损失基于第一预测信息和训练图像的标注信息的差异信息确定,所述第二损失基于第一预测信息和第二预测信息的差异信息确定,所述第一预测信息由基础训练后的第一网络对训练图像进行目标识别获得,所述第二预测信息由基础训练后的第二网络基于目标对象特征进行目标识别获得,所述目标对象特征是训练图像的特征信息中与待处理对象的位置区域对应的特征信息。
一种目标检测设备,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现上述的方法。
一种计算机可读存储介质,其上存储有程序数据,所述程序数据被处理器执行时实现上述的方法。
通过本申请实施例提供的目标检测方法、装置、设备和计算机可读存储介质,采用联合训练后的第一网络,对待检测图像进行目标识别,得到待处理对象是否是目标对象的识别信息,其中,联合训练后的第一网络至少基于第一损失和第二损失训练,第一损失基于第一预测信息和训练图像的标注信息的差异信息确定,第二损失基于第一预测信息和第二预测信息的差异信息确定,第一预测信息由基础训练后的第一网络对训练图像进行目标识别获得,第二预测信息由基础训练后的第二网络基于目标对象特征进行目标识别获得,目标对象特征是训练图像的特征信息中与待处理对象的位置区域对应的特征信息,解决了相关技术的目标检测方法对细长物体的检测准确度低的问题,提高了对细长物体的目标检测的检测效果,降低了漏检和误检率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
图1为本申请实施例提供的一种目标检测方法的流程图。
图2为本申请实施例提供的一种第一网络的基础训练框架的结构示意图。
图3为本申请实施例提供的一种网络的处理信息的逻辑示意图。
图4为本申请实施例提供的一种第一网络和第二网络的联合训练框架的结构示意图。
图5为本申请实施例提供的一种利用ROIAlign算法获取特征图的逻辑示意图.
图6为本申请实施例提供的通过安检设备输出的检测结果示意图。
图7为本申请实施例的一种目标检测装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
随着深度学习技术的飞速发展,基于深度学习的X光安检图像违禁品检测技术也愈发成熟,目前在轨道交通等人口流动密集区域,为保证安全性,常会用到安检仪对流动人员的箱包进行检测,例如,利用安检仪通过小剂量的X射线照射备检物品,利用计算机分析透过的射线,根据透过射线的变化分析被穿透的物品性质。
X射线束穿过输送带上的被检物品,X射线被被检物品吸收,最后轰击安装在通道内的半导体探测器。探测器把X射线转变为信号,这些很弱的信号被放大,并送到信号处理机箱做进一步处理,这些信号处理后就通过显示屏显示出来。无论包有几层,X射线都能穿透,一层层地将包内的物品显示出来。
由于通过安检仪所呈现出的图像为被检测物品的轮廓图像,为了能够提高检测的准确性和效率,会引入相应的图像检测技术,利用建立的目标网络对待检测图像进行检测,并输出检测结果,安检人员可通过输出的检测结果判断被检测物品中是否存在违禁物品。
其中,该违禁物品可根据用户的需求定义,例如,该违禁物品可以包括枪械、刀具、液体、打火机等。
为解决目标检测方法对细长物体的检测准确度低的问题,本申请实施例提供了一种目标检测方法、装置、设备和计算机可读存储介质,可基于联合训练后的第一网络对所述待检测图像进行目标识别,得到所述待处理对象是否是目标对象的识别信息。由于第一网络的训练结合了由基础训练后的第二网络基于目标对象特征进行目标识别获得的第二预测信息,其中该目标对象特征为训练图像的特征信息中与待处理对象的位置区域对应的特征信息,从而使得联合训练后的第一网络获得对细长物体更准确的检测效果。
如图1所示,本实施例提供了一种目标检测方法,该方法包括如下步骤:
步骤S101,获取包含待处理对象的待检测图像;
步骤S102,采用联合训练后的第一网络,对待检测图像进行目标识别,得到待处理对象是否是目标对象的识别信息,目标对象包括外接矩形框满足预设矩形条件的对象。
其中,联合训练后的第一网络至少基于第一损失和第二损失训练,第一损失基于第一预测信息和训练图像的标注信息的差异信息确定,第二损失基于第一预测信息和第二预测信息的差异信息确定,第一预测信息由基础训练后的第一网络对训练图像进行目标识别获得,第二预测信息由基础训练后的第二网络基于目标对象特征进行目标识别获得,目标对象特征是训练图像的特征信息中与待处理对象的位置区域对应的特征信息。
一方面,第二网络的第二预测信息是由基础训练后的第二网络基于目标对象特征进行目标识别获得,该目标对象特征是训练图像的特征信息中与待处理对象的位置区域对应的特征信息,从而避免了分类特征图与锚定框不匹配导致的对目标对象检测的置信度不高的问题,即第二网络的第二预测信息的检测效果要优于未经联合训练的第一网络的检测效果。
另一方面,联合训练后的第一网络至少基于第一损失和第二损失训练,其中第一损失为第一网络获得的第一预测信息的预测损失,第二损失表征第一网络获得的第一预测信息与第二网络获得的第二预测信息之间的差异信息,使得联合训练的第一网络能够获得第二网络提供的信息作为辅助而使得其检测效果接近于第二网络。因此,联合训练后的第一网络的检测效果得到了提升。
再一方面,虽然在训练时使用了两个网络,但是在最终部署时,由于联合训练后的第一网络已经拥有了接近于第二网络的检测效果,因此仅需要部署联合训练后的第一网络,因而还能够降低目标检测过程对计算资源的占用。
在本实施例中,目标对象包括外接矩形框满足预设矩形条件的对象。其中,预设矩形条件可以为:外接矩形框的长宽比大于预设值,该预设值的取值使得外接矩形框为细长形状的矩形框,例如该预设值的取值范围可以为大于3且小于10的数值,如3.5、4、5.8、10等。
具体来说,对于违禁品检测而言,上述的目标对象可以为刀具、棍棒、步枪、棱刺等细长的违禁物品。
在本实施例中,联合训练后的第一网络通过下列方式训练:对初始的第一网络进行基础训练,得到基础训练后的第一网络;基于基础训练后的第一网络提取训练图像的特征信息,并基于提取到特征信息中与待处理对象的检测框对应的特征信息对初始的第二网络进行基础训练,得到基础训练后的第二网络;至少基于第一损失和第二损失,对基础训练后的第一网络进行训练,得到联合训练后的第一网络。
目前,在对安检仪输出的X摄像图(待检测图像)中的目标对象(违禁品)大多采用单阶段多边界框检测方法(Single Shot MultiBox Detector,简称为SSD),利用SSD检测方法构成的检测网络虽然用了多个尺度进行预测,但浅层特征图的语义信息较浅,对于小目标的检测效果不佳。
随后出现YOLO-V3(You Only Look Once v3)检测算法,YOLO-V3也采用了多尺度特征图进行目标检测。YOLO-V3通过多尺度融合构建的特征图金字塔网络,将深层特征图的语义信息传递到浅层特征图,因此对于小目标对象尤其是倾斜角度的小刀检测效果有一定提高。
在本实施例中的第一网络可以为利用SSD或YOLO-V3网络构建的网络。下面将以YOLO-V3网络构建的第一网络对本实施例的第一网络的训练进行示例性描述。
由于在对第一网络和第二网络的训练时需要大规模的标注训练集,因此在获取训练集时,可收集多种包含目标对象(例如刀具)与其他生活用品混合经过安检机得到X射线伪彩色图像。并在得到的X射线伪彩色图像中通过标注工具对目标对象进行标注,以通过YOLO-V3网络进行基础训练,获得基础训练后的第一网络。
在本实施例中,为了提高第一网络的泛化能力,将包含目标对象的矩形框左上、右下顶点坐标转化为矩形的中心点坐标和宽高;同时为了便于不同尺度的图像的训练,将坐标和宽高归一化,转换如下式所示:
其中(xmin,ymin)表示矩形框的左上角顶点坐标,(xmax,ymax)表示矩形框的右下角顶点坐标,(width,height)分别表示原图像的宽高。(x,y)则表示归一化后的矩形框中心点坐标,(w,h)则表示归一化后的矩形框的宽高。
为了验证模型的训练效果,可以标注后的图像集的大部分(例如70%)划分为训练集,一小部分(例如10%)划分为验证集,另一小部分(例如20%)划分为测试集。
步骤1:对初始的第一网络进行基础训练,得到基础训练后的第一网络。
如图2所示,在获得训练集后,可以将图像统一缩放到YOLO-V3网络输入所要求的分辨率,例如416×416的分辨率,然后利用YOLO-V3网络的DarkNet框架训练第一网络。在训练第一网络的过程中,将获得由DarkNet框架提取得到的金字塔特征图。该金字塔特征图包括多个不同尺度的特征图,每个尺度的特征图的尺寸不相同。
在基础训练第一网络的过程中,第一网络会输出第一预测信息,该第一预测信息包括分类结果和分类结果对应的位置区域,位置区域通常为矩形框区域。在本实施例中,位置区域通过矩形框中心点坐标和宽高表示。
由于YOLO-V3这种单阶段的检测网络,在最后的特征图上直接通过3×3卷积来预测最终待处理对象的坐标以及置信度。而待处理对象的坐标回归和分类是并行的两条分支,因此分类时的特征图并不是待处理对象所在区域,而是一个包含待处理对象中心的正方形区域。参考图3,这种特征图与锚定框不匹配的问题会引起细长物体的置信度不高甚至漏检。
为了解决这个问题,在步骤1之后,执行步骤2:基于基础训练后的第一网络提取训练图像的特征信息,并基于提取到特征信息中与待处理对象的检测框对应的特征信息对初始的第二网络进行基础训练,得到基础训练后的第二网络。
参见图4,图4示出了第一网络和第二网络组成的两阶段网络结构。相较于图2而言,图4中新增的部分为第二网络的结构。
本实施例中,第二网络的作用是基于目标对象特征进行池化操作后,得到池化的特征信息,并基于池化的特征信息对训练图像中的待处理对象进行目标识别。通过上述方式,其中目标对象特征是基于第一网络获取的分类结果的位置区域确定的。本实施例根据分类结果的位置区域在金字塔特征图中将每个尺度的不同尺寸的特征图中与分类结果的位置区域对应的区域池化为固定尺寸的特征图,从而不仅解决了特征图与锚定框不匹配的问题,还能够将不同尺寸的特征图池化为固定尺寸,以便于特征图的拼接,以及基于拼接后的特征图进行后续的分类和包围框的回归。
上述的池化操作例如可以采用如下步骤实现:基于第一预测信息,确定待处理对象的位置区域,以及获取基础训练后的第一网络提取到的训练图像的特征图;基于待处理对象的位置区域在训练图像中的位置,在训练图像的特征图中提取目标对象特征对应的特征图;将目标对象特征对应的特征图网格化,将每个网格对应的特征图进行四等分后,基于双线性插值获得四等分得到的小网格的中心点的特征值,并基于各小网格的中心点的特征值进行最大池化操作,得到池化的特征信息。
具体而言,在本实施例中,第二网络可以通过ROI Align从金字塔特征图中划分出YOLO-V3输出的待处理对象的位置区域所对应的ROI区域并计算得到固定尺寸的特征图,之后通过几个卷积层得到该ROI区域的分类结果。
ROI Align的计算过程如图5所示,包括如下步骤:在得到金字塔特征图的每个尺度的特征图中所对应的ROI区域后,将ROI区域平均切分成指定的分块区域,例如7×7,对于每一个分块,平分成四份,每一份取其中心点,通过双线性插值的方法得到该点的特征值,最后对四个中心点进行最大池化得到每一个小区域的特征值,进而每个尺度的特征图都可以得到一个固定尺寸的特征图,将每个尺度的特征图对应的固定尺寸的特征图拼接在一起,即为第二网络用于分类的特征图。
通过上述实施例可以看出,在利用训练集训练第一网络时,利用第一网络输出的结果来获取金字塔特征图,而该金字塔特征图又用于第二网络的训练,相对于由第二网络完全重新提取训练图像的特征图而言,可以大量减少模型推理时间。
另外,在本实施例中,由于经过步骤1的基础训练,第一网络(YOLOv3网络)已经趋于收敛,而第二网络还需要从零开始训练,为避免训练过程中出现波动,在训练第二网络时可以冻结YOLOv3网络的权重,而只训练第二网络。
本实施例中,分类损失函数选择交叉熵函数,如下式所示:
其中,x表示样本,y表示实际的标签,a表示步骤S202输出的分类结果,n表示训练集的样本总数量。
步骤3:至少基于第一损失和第二损失,对基础训练后的第一网络进行训练,得到联合训练后的第一网络。
在基础训练后的第一网络和基础训练后的第二网络都趋于收敛后,将第一网络和第二网络同时部署就能够提高对细长物体的检测效果。但是,部署两个网络将会占用较多的计算资源。为此,在本实施例中还利用知识蒸馏法来提高第一网络的识别能力。
其中,至少基于第一损失和第二损失,对基础训练后的第一网络进行训练时,可以仅对基础训练后的第一网络进行参数调整,而冻结基础训练后的第一网络的参数。通过这种方式,可以使得联合训练后的第一网络的识别能力接近于基础训练后的第二网络的识别能力。
在另一些实施例中,至少基于第一损失和第二损失,对基础训练后的第一网络进行训练时,还可以对基础训练后的第一网络和基础训练后的第二网络都进行参数调整,从而不仅能够使得联合训练后的第一网络的识别能力能够接近于基础训练后的第二网络的识别能力,第二网络也能够进一步采用第一网络的预测结果辅助其提升识别能力,进而有可能使得联合训练后的第一网络的识别能力能够接近于联合训练后的第二网络。
其中,在进行联合训练时,第一网络和/或第二网络均可以基于第一损失、第二损失和第三损失训练,其中,第三损失基于第二预测信息和训练图像的标注信息的差异信息确定。
具体来说,在本实施例中,第二网络的基础训练结束后,联合训练第一网络和第二网络,同时通过知识蒸馏的方式让第一网络学习精度更高的第二网络的分类结果,以提高第一网络对于细长刀具的检测效果。这种单一模型内部的知识蒸馏方法,避免了传统蒸馏学习中对教师大模型的依赖,也避免了训练时加载两个模型的显存负担,大大提高了蒸馏学习的训练效率。
在本实施例中,通过余弦相似度损失函数计算第一网络输出的第一预测信息和第二网络输出的第二预测信息的差异以实现第一网络的蒸馏学习,该损失函数如下式所示:
其中,n为训练集的样本数量,i为样本索引,cosine为余弦相似度计算函数,Fi twostage为分类结果(即步骤2输出的分类结果),Fi onestage为第一网络输出的结果。
其中n为样本数量,i为样本索引,cosine为余弦相似度计算函数,Fi twostage为二阶段分类结果,Fi onestage为一阶段分类结果。
因此最终第一网络和第二网络联合训练的损失函数如下式所示:
loss=LBonestage+LConestage+LCtwostage+LD
其中,LBonestage和LConestage为第一网络的边框回归和分类损失函数(因获取LBonestage和LConestage通过现有算法可实现,故此处不再叙述),LCtwostage为上述交叉熵损失函数,LD为余弦相似度损失函数。
在本实施例中,对基础训练后的第一网络进行训练时,训练结束的条件包括以下至少之一:第一损失、第二损失和第三损失分别小于各自对应的阈值;由第一损失、第二损失和第三损失得到的联合损失小于对应的阈值。
通过上述步骤1至步骤3,提高了YOLO-V3对X光图像中的细长物体的目标检测效果,在不依赖于第二网络时,也能有相近的检测效果。在本实施例中还可以通过Tensor RT工具加速模型推理速度,将联合训练后的YOLO-V3网络部署在嵌入式芯片中。
基于本实施例训练的第一网络的目标检测方法包括如下步骤:
步骤1:包裹经过安检机后生成X射线伪彩色图像,此时通过图像采集卡获取X射线图像,并传输到联合训练后的检测模型中,检测模型包括联合训练后的第一网络。
步骤2:检测模型获取到X射线图像,对图像预处理得到416×416像素的待检测图像后,通过联合训练后的第一网络得到相应的目标对象的矩形框坐标和相应的置信度。
步骤3:将上述步骤2中的检测结果与步骤1中的图像结合,将目标对象的预测矩形框以及得分画在原图上,以辅助安检员识别经过安检机包裹中是否存在违禁品。如图6中示出了目标对象的分类结果为knife,置信度为0.76,并使用预测矩形框对目标对象进行了标注。
本实施例还提供了一种目标检测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
参考图7,该目标检测装置包括:图像获取单元71和与图像获取单元71耦合的目标识别单元72。
图像获取单元71,用于获取包含待处理对象的待检测图像。
目标识别单元72,用于采用联合训练后的第一网络,对待检测图像进行目标识别,得到待处理对象是否是目标对象的识别信息,目标对象包括外接矩形框满足预设矩形条件的对象。
其中,联合训练后的第一网络至少基于第一损失和第二损失训练,第一损失基于第一预测信息和训练图像的标注信息的差异信息确定,第二损失基于第一预测信息和第二预测信息的差异信息确定,第一预测信息由基础训练后的第一网络对训练图像进行目标识别获得,第二预测信息由基础训练后的第二网络基于目标对象特征进行目标识别获得,目标对象特征是训练图像的特征信息中与待处理对象的位置区域对应的特征信息。
在其中一些实施例中,预设矩形条件包括:外接矩形框的长宽比大于预设值,预设值为不小于3且不大于10的数值。
在其中一些实施例中,目标检测装置还可以包括一个训练模块,该训练模块用于训练第一网络和/或第二网络。例如,训练模块用于训练联合训练后的第一网络。训练模块包括:
第一基础训练单元,用于对初始的第一网络进行基础训练,得到基础训练后的第一网络。
第二基础训练单元,用于基于基础训练后的第一网络提取训练图像的特征信息,并基于提取到特征信息中与待处理对象的检测框对应的特征信息对初始的第二网络进行基础训练,得到基础训练后的第二网络。
联合训练单元,用于至少基于第一损失和第二损失,对基础训练后的第一网络进行训练,得到联合训练后的第一网络。
在其中一些实施例中,联合训练单元用于至少基于第一损失和第二损失,仅对基础训练后的第一网络进行参数调整,而冻结基础训练后的第一网络的参数,得到联合训练后的第一网络;或者至少基于第一损失和第二损失,对基础训练后的第一网络和基础训练后的第二网络进行参数调整,得到联合训练后的第一网络。
在其中一些实施例中,第一网络基于第一损失、第二损失和第三损失训练,其中,第三损失基于第二预测信息和训练图像的标注信息的差异信息确定。
在其中一些实施例中,联合训练单元对基础训练后的第一网络进行训练时,训练结束的条件包括以下至少之一:第一损失、第二损失和第三损失分别小于各自对应的阈值;由第一损失、第二损失和第三损失得到的联合损失小于对应的阈值。
在其中一些实施例中,第二网络用于基于目标对象特征进行池化操作后,得到池化的特征信息,并基于池化的特征信息对训练图像中的待处理对象进行目标识别。
在其中一些实施例中,基于目标对象特征进行池化操作后,得到池化的特征信息,并基于池化的特征信息对训练图像中的待处理对象进行目标识别包括:基于第一预测信息,确定待处理对象的位置区域,以及获取基础训练后的第一网络提取到的训练图像的特征图;基于待处理对象的位置区域在训练图像中的位置,在训练图像的特征图中提取目标对象特征对应的特征图;将目标对象特征对应的特征图网格化,将每个网格对应的特征图进行四等分后,基于双线性插值获得四等分得到的小网格的中心点的特征值,并基于各小网格的中心点的特征值进行最大池化操作,得到池化的特征信息。
基于上述方法,本申请实施例还提供了一种目标检测设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述实施例的目标检测方法。
基于上述方法,本申请实施例还提供了一种计算机可读存储介质,其上存储有程序数据,程序数据被处理器执行时实现上述的目标检测方法。
综上,通过本申请实施例,采用第一网络和第二网络联合训练,其中,第一网络检测速度快,第二网络检测精度更高。本实施例通过在第一网络的基础上构建第二网络,并通过知识蒸馏方式缩小第一网络和第二网络的差异,得到了不亚于第二网络精度的联合训练后的第一网络,在不增加耗时的条件下提高了细长物体的检测效果。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
以上仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。
Claims (11)
1.一种目标检测方法,其特征在于包括:
获取包含待处理对象的待检测图像;
采用联合训练后的第一网络,对所述待检测图像进行目标识别,得到所述待处理对象是否是目标对象的识别信息,所述目标对象包括外接矩形框满足预设矩形条件的对象;
其中,所述联合训练后的第一网络至少基于第一损失和第二损失训练,所述第一损失基于第一预测信息和训练图像的标注信息的差异信息确定,所述第二损失基于第一预测信息和第二预测信息的差异信息确定,所述第一预测信息由基础训练后的第一网络对训练图像进行目标识别获得,所述第二预测信息由基础训练后的第二网络基于目标对象特征进行目标识别获得,所述目标对象特征是训练图像的特征信息中与待处理对象的位置区域对应的特征信息。
2.根据权利要求1所述的目标检测方法,其特征在于,所述预设矩形条件包括:外接矩形框的长宽比大于预设值,所述预设值为不小于3且不大于10的数值。
3.根据权利要求1所述的目标检测方法,其特征在于,所述联合训练后的第一网络通过下列方式训练:
对初始的第一网络进行基础训练,得到基础训练后的第一网络;
基于所述基础训练后的第一网络提取训练图像的特征信息,并基于提取到特征信息中与待处理对象的检测框对应的特征信息对初始的第二网络进行基础训练,得到基础训练后的第二网络;
至少基于第一损失和第二损失,对所述基础训练后的第一网络进行训练,得到所述联合训练后的第一网络。
4.根据权利要求1所述的目标检测方法,其特征在于,至少基于第一损失和第二损失,对所述基础训练后的第一网络进行训练,得到所述联合训练后的第一网络包括:
至少基于第一损失和第二损失,仅对所述基础训练后的第一网络进行参数调整,而冻结所述基础训练后的第一网络的参数,得到所述联合训练后的第一网络;或者
至少基于第一损失和第二损失,对所述基础训练后的第一网络和所述基础训练后的第二网络进行参数调整,得到所述联合训练后的第一网络。
5.根据权利要求1所述的目标检测方法,其特征在于,所述第一网络基于所述第一损失、所述第二损失和第三损失训练,其中,所述第三损失基于第二预测信息和训练图像的标注信息的差异信息确定。
6.根据权利要求5所述的目标检测方法,其特征在于,对所述基础训练后的第一网络进行训练时,训练结束的条件包括以下至少之一:
第一损失、第二损失和第三损失分别小于各自对应的阈值;
由第一损失、第二损失和第三损失得到的联合损失小于对应的阈值。
7.根据权利要求1所述的目标检测方法,其特征在于,所述第二网络用于基于所述目标对象特征进行池化操作后,得到池化的特征信息,并基于所述池化的特征信息对训练图像中的待处理对象进行目标识别。
8.根据权利要求7所述的目标检测方法,其特征在于,基于所述目标对象特征进行池化操作后,得到池化的特征信息,并基于所述池化的特征信息对训练图像中的待处理对象进行目标识别包括:
基于所述第一预测信息,确定待处理对象的位置区域,以及获取所述基础训练后的第一网络提取到的训练图像的特征图;
基于待处理对象的位置区域在所述训练图像中的位置,在训练图像的特征图中提取所述目标对象特征对应的特征图;
将所述目标对象特征对应的特征图网格化,将每个网格对应的特征图进行四等分后,基于双线性插值获得四等分得到的小网格的中心点的特征值,并基于各小网格的中心点的特征值进行最大池化操作,得到所述池化的特征信息。
9.一种目标检测装置,其特征在于,包括:
图像获取单元,用于获取包含待处理对象的待检测图像;
目标识别单元,用于采用联合训练后的第一网络,对所述待检测图像进行目标识别,得到所述待处理对象是否是目标对象的识别信息,所述目标对象包括外接矩形框满足预设矩形条件的对象;
其中,所述联合训练后的第一网络至少基于第一损失和第二损失训练,所述第一损失基于第一预测信息和训练图像的标注信息的差异信息确定,所述第二损失基于第一预测信息和第二预测信息的差异信息确定,所述第一预测信息由基础训练后的第一网络对训练图像进行目标识别获得,所述第二预测信息由基础训练后的第二网络基于目标对象特征进行目标识别获得,所述目标对象特征是训练图像的特征信息中与待处理对象的位置区域对应的特征信息。
10.一种目标检测设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至8中任一项所述的方法。
11.一种计算机可读存储介质,其上存储有程序数据,其特征在于,所述程序数据被处理器执行时实现权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110857083.6A CN113673498A (zh) | 2021-07-28 | 2021-07-28 | 目标检测方法、装置、设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110857083.6A CN113673498A (zh) | 2021-07-28 | 2021-07-28 | 目标检测方法、装置、设备和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113673498A true CN113673498A (zh) | 2021-11-19 |
Family
ID=78540439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110857083.6A Pending CN113673498A (zh) | 2021-07-28 | 2021-07-28 | 目标检测方法、装置、设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673498A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113888538A (zh) * | 2021-12-06 | 2022-01-04 | 成都考拉悠然科技有限公司 | 一种基于内存分块模型的工业异常检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182394A (zh) * | 2017-12-22 | 2018-06-19 | 浙江大华技术股份有限公司 | 卷积神经网络的训练方法、人脸识别方法及装置 |
CN109117831A (zh) * | 2018-09-30 | 2019-01-01 | 北京字节跳动网络技术有限公司 | 物体检测网络的训练方法和装置 |
CN112241764A (zh) * | 2020-10-23 | 2021-01-19 | 北京百度网讯科技有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN112560999A (zh) * | 2021-02-18 | 2021-03-26 | 成都睿沿科技有限公司 | 一种目标检测模型训练方法、装置、电子设备及存储介质 |
WO2021102655A1 (zh) * | 2019-11-25 | 2021-06-03 | 深圳市欢太科技有限公司 | 网络模型训练方法、图像属性识别方法、装置及电子设备 |
CN113159215A (zh) * | 2021-05-10 | 2021-07-23 | 河南理工大学 | 一种基于Faster Rcnn的小目标检测识别方法 |
-
2021
- 2021-07-28 CN CN202110857083.6A patent/CN113673498A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182394A (zh) * | 2017-12-22 | 2018-06-19 | 浙江大华技术股份有限公司 | 卷积神经网络的训练方法、人脸识别方法及装置 |
CN109117831A (zh) * | 2018-09-30 | 2019-01-01 | 北京字节跳动网络技术有限公司 | 物体检测网络的训练方法和装置 |
WO2021102655A1 (zh) * | 2019-11-25 | 2021-06-03 | 深圳市欢太科技有限公司 | 网络模型训练方法、图像属性识别方法、装置及电子设备 |
CN112241764A (zh) * | 2020-10-23 | 2021-01-19 | 北京百度网讯科技有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN112560999A (zh) * | 2021-02-18 | 2021-03-26 | 成都睿沿科技有限公司 | 一种目标检测模型训练方法、装置、电子设备及存储介质 |
CN113159215A (zh) * | 2021-05-10 | 2021-07-23 | 河南理工大学 | 一种基于Faster Rcnn的小目标检测识别方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113888538A (zh) * | 2021-12-06 | 2022-01-04 | 成都考拉悠然科技有限公司 | 一种基于内存分块模型的工业异常检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180342077A1 (en) | Teacher data generation apparatus and method, and object detection system | |
CN109284704A (zh) | 基于cnn的复杂背景sar车辆目标检测方法 | |
CN105740910A (zh) | 一种车辆物件检测方法及装置 | |
Huo et al. | Towards low vegetation identification: A new method for tree crown segmentation from LiDAR data based on a symmetrical structure detection algorithm (SSD) | |
US11386553B2 (en) | Medical image data | |
CN107491734A (zh) | 基于多核融合与空间Wishart LapSVM的半监督极化SAR图像分类方法 | |
CN106919895A (zh) | 用于运动目标的跟踪方法和系统 | |
CN103824302A (zh) | 基于方向波域图像融合的sar图像变化检测方法 | |
Gené-Mola et al. | Looking behind occlusions: A study on amodal segmentation for robust on-tree apple fruit size estimation | |
KR102188649B1 (ko) | 영상 처리 장치 및 방법 | |
CN113298007B (zh) | 一种小样本sar图像目标识别方法 | |
CN116824335A (zh) | 一种基于YOLOv5改进算法的火灾预警方法及系统 | |
CN111553184A (zh) | 一种基于电子围网的小目标检测方法、装置及电子设备 | |
Ferrer-Ferrer et al. | Simultaneous fruit detection and size estimation using multitask deep neural networks | |
CN113673498A (zh) | 目标检测方法、装置、设备和计算机可读存储介质 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
Yin et al. | Road Damage Detection and Classification based on Multi-level Feature Pyramids. | |
KR102158967B1 (ko) | 영상 분석 장치, 영상 분석 방법 및 기록 매체 | |
Ma et al. | Efficient small object detection with an improved region proposal networks | |
CN114792300B (zh) | 一种基于多尺度注意力x光断针检测方法 | |
CN116844055A (zh) | 轻量级sar舰船检测方法及系统 | |
Hi et al. | A deep learning approach for lantana camara weed detection and localization in the natural environment | |
CN116310795A (zh) | 一种sar飞机检测方法、系统、装置及存储介质 | |
CN114648660A (zh) | 训练方法及装置、目标检测方法及装置、电子设备 | |
CN112465821A (zh) | 一种基于边界关键点感知的多尺度害虫图像检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |