CN112001247A - 多目标检测方法、设备及存储装置 - Google Patents
多目标检测方法、设备及存储装置 Download PDFInfo
- Publication number
- CN112001247A CN112001247A CN202010699127.2A CN202010699127A CN112001247A CN 112001247 A CN112001247 A CN 112001247A CN 202010699127 A CN202010699127 A CN 202010699127A CN 112001247 A CN112001247 A CN 112001247A
- Authority
- CN
- China
- Prior art keywords
- target detection
- target
- picture
- network
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 181
- 238000002372 labelling Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims description 33
- 230000004927 fusion Effects 0.000 claims description 16
- 230000009466 transformation Effects 0.000 claims description 13
- 238000013138 pruning Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 23
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 238000011897 real-time detection Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 238000003556 assay Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/457—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多目标检测方法、设备及存储装置,该方法包括:获取样本图片集,将所述样本图片集输入目标检测网络,以使得所述目标检测网络输出目标检测结果,计算所述目标对象标注信息中所述真实边界框与所述预测边界框的第一覆盖圆;基于当前所述目标检测网络输出的所述目标检测结果、所述目标对象标注信息、所述第一覆盖圆构造第一损失函数;依据所述第一损失函数对所述目标检测网络进行训练,当训练次数满足预设迭代次数以获得训练完成的所述目标检测网络;将待检测图片输入所述训练完成的所述目标检测网络,输出带目标检测结果的检测图片。通过上述方式,本发明能够达到对待检测图片中目标集群出现、目标遮挡、尺度变化时的检测目的。
Description
技术领域
本申请涉及目标检测领域,特别涉及一种多目标检测方法、设备及存储装置。
背景技术
目标检测是对图像中特定目标信息的一种感知功能,将目标检测技术搭建在无人机平台上在现实生活中拥有着极其广泛的应用。通过搭载在无人机上的摄像头采集视频数据并对数据进行图像处理,获取视频序列中特定目标的类别和坐标信息,再通过无线传输模块将信息传输到远程控制端,从而为后续的行动提供可靠信息和有利保障。因此,应用于无人机场景的多目标检测技术拥有着极其重大而深远的战略意义。
现有技术中,通常采用YOLO v3算法进行目标检测,YOLO v3是一种端到端的目标检测算法,该算法准确率高,能应对不同尺度的目标。由于无人机上无法搭载过高的计算平台,故该算法直接移植到移动端达不到实时的目标检测,并且在小目标集群出现时鲁棒性较差。另外该算法未能解决图像中目标被遮挡所带来的影响。
因此,有必要提供一种多目标检测方法、设备及存储装置以解决上述技术问题。
发明内容
本申请提供一种多目标检测方法、设备及存储装置,能够达到对待检测图片中目标集群出现、目标遮挡、目标尺度变化较大的目标准确检测目的,还可以达到在平台计算能力有限情况完成拍摄目标实时检测的目的。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种多目标检测方法,包括以下步骤:
获取样本图片集,所述样本图片集包括至少一张样本图片及其对应的目标对象标注信息,所述目标对象标注信息包括所述样本图片上的目标对象及其对应的框选所述目标对象的真实边界框;
将所述样本图片集输入目标检测网络,以使得所述目标检测网络依据所述样本图片输出目标检测结果,所述目标检测结果包括所述目标检测网络检测到的所述样本图片上的目标对象及所述目标对象的预测边界框;
计算所述目标对象标注信息中所述真实边界框与所述目标检测结果中所述预测边界框的第一覆盖圆;
基于当前所述目标检测网络输出的所述目标检测结果、所述目标对象标注信息、所述第一覆盖圆构造第一损失函数;
依据所述第一损失函数对所述目标检测网络进行训练,当训练次数满足预设迭代次数以获得训练完成的所述目标检测网络;
将待检测图片输入所述训练完成的所述目标检测网络,输出带目标检测结果的检测图片。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种多目标检测设备,该设备包括处理器、与所述处理器耦接的存储器,其中,所述存储器存储有用于实现上述多目标检测方法的程序指令;所述处理器用于执行所述存储器存储的所述程序指令以对多目标进行检测。
为解决上述技术问题,本申请采用的再一个技术方案是:提供一种存储装置,存储有能够实现上述多目标检测方法的程序文件。
本申请的有益效果是:
本发明的一种多目标检测方法、设备及存储装置通过依据所述第一覆盖圆获取第一损失函数,解决了所述真实边界框及其对应的所述预测边界框无交集时,IOU为0导致的无法回归的问题,并且基于所述第一覆盖圆的第一损失函数还可以更好地完成目标对象中心点坐标的回归,提高所述预测边界框精度的同时,实现了小目标和遮挡情况下的检测。
进一步地,依据所述真实边界框及其对应的所述预测边界框计算第一损失函数收敛速度更快,并且能够提升目标检测框的准确度。
进一步地,依据对所述第一图片中的所述第一目标对象进行第一变换后获得第二图片,实现了样本图片集的扩增,避免了训练过程中的过拟合。
进一步地,所述目标检测网络为全卷积网络能在尺度上更好的适应远距离小目标检测,并且将第一卷积层输出、第二卷积层输出的卷积特征进行融合,提升了小目标的检测能力,同时增强了对遮挡目标的鲁棒性。
进一步地,对所述目标检测网络进行网络剪枝能在不影响算法精度的同时,大幅提升算法效率,基于网络剪枝,检测网络大小压缩,检测速度大大提升,能满足了无人机平台的实时性要求,在保持检测精度的同时,实现了基于无人机的多目标实时检测。
附图说明
图1是本发明第一实施例的多目标检测方法的流程示意图;
图2是本发明第一实施例的多目标检测方法的目标检测网络模型示意图;
图3是本发明第一实施例的多目标检测方法的效果对比图;
图4是本发明一种实施例的多目标检测装置的结构示意图;
图5是本发明一种实施例的多目标检测设备的结构示意图;
图6是本发明一种实施例的存储装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1是本发明第一实施例的多目标检测方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括步骤:
步骤S101:获取样本图片集。
需要说明的是,所述样本图片集包括至少一张样本图片及其对应的目标对象标注信息,所述样本图片可以为来自与各种监控图片库、网络图片的第一图片,所述第一图片经过实例分割软件进行实例分割后,会生成第一标注信息,所述第一标注信息包括所述第一图片上的第一目标对象及其对应的第一真实边界框。
本实施例中,在步骤S101中,所述样本图片集中的所述样本图片对应的目标对象标注信息可以为所述第一标注信息。对于用于网络训练的样本图片,样本越多,获得的网络训练效果越好,所以在本实施例中,为扩充所述样本图片集,步骤S101还可以包括:
S101a:对所述第一图片上的第一目标对象进行第一变换后构造第二图片;
具体的,可以先使用图像处理技术,如掩膜(mask)技术,从所述第一图片中将所述第一目标对象从所述第一图片中裁剪下来,为使所述第一目标对象的轮廓更加精准,所述第一真实边界框更加准确,还可以对裁剪下来的所述第一目标对象的轮廓进行如抠图(image matting)处理,对于抠除了所述第一目标对象剩下背景的所述第一图片存在的空白区域,可以采用图像填充算法如inpainting算法进行填充。经过上述的操作后,所述第一目标对象从所述第一图片中剥离出来,再通过所述第一变换可以获得第二图片,本实施例中,所述第一变换可以是通过仿射变换矩阵将所述第一目标对象换算到新的位置,实现所述第一目标对象的平移、旋转、缩放、剪切和反射,从而达到样本数量增多的目的。
进一步地,仿射变换矩阵如下式所示:
上式通过四个变量(Δx,Δy,s,θ)来控制所述第一目标对象的新位置信息,Δx和Δy分别表示所述第一目标对象中心点的水平和垂直方向偏移量,s表示所述第一目标对象的缩放比例,θ表示所述第一目标对象旋转角度。通过随机参数控制这四个变量在所述第一目标对象原中心点位置(0,0,1,0)附近随机变化,从而实现样本图片集的增强。
需要说明的是,所述第一图片中可以没有所述第一目标对象,则其对应的所述第一标注信息为空,所述第一图片中还可以有一个或者多个所述第一目标对象,则其对应的所述第一标注信息为一个或者多个,在步骤S101a中,对于存在多个所述第一目标对象的所述第一图片,可以裁剪所述第一图片上所有所述第一目标对象获取所述第二图片,也可以裁剪部分所述第一目标对象获取所述第二图片,因此可以通过一张所述第一图片获取多张所述第二图片。
S101b:依据所述第一变换获得所述第二图片的第二标注信息;
进一步地,所述第一目标对象经过所述第一变换后,其对应的第一真实边界框也相应进行同样的变换,获得与所述第二图片中的目标对象对应的第二真实边界框,所述第二图片、及所述第二图片中的目标对象及其对应的所述第二真实边界框为第二标注信息。
S101c:依据所述第一图片及其所述第一标注信息、所述第二图片及其所述第二标注信息获取所述样本图片集。
所述样本图片集中的所述样本图片可以来自于上述步骤中获得的所有的所述第一图片及所述第二图片,所述样本图片的所述目标对象标注信息即为所述第一图片对应的所述第一标注信息、所述第二图片对应的所述第二标注信息。
步骤S102:将所述样本图片集输入目标检测网络,以使得所述目标检测网络依据所述样本图片输出目标检测结果。
需要说明的是,所述目标检测网络用于依据输入的样本图片,输出具有目标检测结果的样本检测图片,所述目标检测结果包括所述目标检测网络检测到的所述样本图片上的目标对象及所述目标对象的预测边界框,本实施例中,所述目标检测网络对所述样本图片中目标对象的特征提取采用的是YOLO v3 darknet53网络,该网络由一系列的1*1和3*3的卷积层组成,每个卷积层后会跟有BN层和激活函数LeakyReLU层。
请一并参阅图2,图2是本发明第一实施例的多目标检测方法的目标检测网络模型示意图,如图2所示,所述样本图片经过多次卷积计算后,提取的特征尺寸逐渐减小,本实施例中,经过第一层卷积计算获得特征尺寸为416*416的卷积特征,经过第二层卷积计算则特征尺寸缩小一半,最终输出特征尺寸为13*13的卷积特征。
步骤S103:计算所述目标对象标注信息中所述真实边界框与所述目标检测结果中所述预测边界框的第一覆盖圆。
需要说明的是,所述多目标检测方法可以运行在服务器、电脑或其他具有计算处理功能的终端上,本实施例中,对于所述样本图片集在输入所述目标检测网络前,其对应的所述目标对象标注信息可以先存储在所述终端的存储器中,所述样本图片经过所述目标检测网络的检测输出的所述目标检测结果也可以存储在所述终端的存储器中,在需要进行读取、计算等操作时直接从存储器中获取。为判断所述目标检测网络输出的所述预测边界框的准确程度,通常采用一种基于OIOU(Optimized Intersection over Union)的边界框回归的损失函数,通过损失函数判断所述真实边界框与所述预测边界框的相似程度,本实施例中,所述真实边界框与所述预测边界框均为矩形框,将所述预测边界框Bp和所述真实边界框Bg采用左下角坐标(x1,y1)和右上角的坐标(x2,y2)表示:
可以分别计算出Bp和Bg的交集面积I和并集面积U,从而计算出IOU:
为解决了所述真实边界框与所述预测边界框无交集时,IOU为0导致的无法回归的问题,本实施例中,还需要依据所述真实边界框及其对应的所述预测边界框获取同时覆盖所述真实边界框、所述预测边界框的第一覆盖圆。
具体的,步骤S103中计算所述目标对象标注信息中所述真实边界框与所述目标检测结果中所述预测边界框的第一覆盖圆,包括:
步骤S103a:获取所述真实边界框和所述预测边界框的顶点集合,从所述顶点集合中选取至少3个第一顶点;
本实施例中,所述真实边界框与所述预测边界框均为矩形框,故所述真实边界框与所述预测边界框均为分别具有4个顶点,将所述真实边界框与所述预测边界框的8个顶点加入顶点集合(M1,M2,…,M8),从所述顶点集合中随机选择3个顶点(Mm,Mn,Mp)作为第一顶点。
步骤S103b:依据所述第一顶点获取第一包含圆;
进一步地,依据第一顶点(Mm,Mn,Mp)获取所述第一包含圆,所述第一包含圆的圆周经过所述第一顶点。
步骤S103c:获取所述顶点集合中距离所述第一包含圆圆心最远的第二顶点;
从所述顶点集合中找到距离所述第一包含圆圆心最远的第二顶点Mq。
步骤S103d:若所述第二顶点在所述第一包含圆范围内,则所述第一包含圆为所述第一覆盖圆;若所述第二顶点不在所述第一包含圆范围,则在所述第一顶点和所述第二顶点中选取至少3个顶点作为所述第一顶点并重新获取第一包含圆。
判断所述第二顶点Mq是否在所述第一包含圆内,若所述第二顶点在所述第一包含圆范围内,则所述第一包含圆为所述第一覆盖圆。若所述第二顶点不在所述第一包含圆范围,否则从(Mm,Mn,Mp,Mq)中随机选择3个顶点作为步骤S103a步骤中获取的第一顶点,再次执行步骤S103b、步骤S103c及步骤S103d,直到找到覆盖了全部顶点集合中的顶点的所述第一覆盖圆。
步骤S104:基于当前所述目标检测网络输出的所述目标检测结果、所述目标对象标注信息、所述第一覆盖圆构造第一损失函数。
在上述步骤中,获取到所述第一覆盖圆后计算所述第一覆盖圆的面积Ac,于是构造所述第一损失函数为:
步骤S105:依据所述第一损失函数对所述目标检测网络进行训练,当训练次数满足预设迭代次数以获得训练完成的所述目标检测网络。
需要说明的是,所述第一损失函数表示所述真实边界框与所述预测边界框相近程度,所述第一损失函数值越小说明所述真实边界框与所述预测边界框越相近,目标检测越准确。
在对所述目标检测网络的训练过程中,需要不断的计算样本图片中的所述真实边界框与所述实例检测结构中的所述预测边界框的第一损失函数,直到训练次数满足预设迭代次数以获得训练完成的所述目标检测网络,本实施例中所述预设迭代次数可以人为设置,在另一实施例中,所述预设迭代次数可以为所述第一损失函数的预设阈值,所述第一损失函数满足所述预设阈值则可以获得训练完成的所述目标检测网络。
具体的,步骤S105中,对所述目标检测网络进行训练,包括:
步骤S105a:获取所述样本图片经过所述目标检测网络卷积计算后的第一卷积层输出、第二卷积层输出;
具体的,所述第一卷积层输出可以为深层卷积层输出,所述第二卷积层输出可以为浅层卷积层输出,本实施例中,所述第一卷积层输出选取为特性尺寸13*13的卷积层输出,所述第二卷积层输出选取为特性尺寸大于13*13的卷积层输出,可选上述416*416的卷积层输出或208*208的卷积层输出。
步骤S105b:依据所述第一卷积层输出获取特征尺寸为第一尺寸的第一卷积特征、特征尺寸为第二尺寸的第二卷积特征、特征尺寸为第三尺寸第三卷积特征。
进一步地,依据所述第一卷积层输出获取所述第一尺寸的所述第一卷积特征,所述第一卷积特征经过一次上采样获得所述第二尺寸的第一采样卷积特征,将所述第一采样卷积特征与所述目标检测网络输出的具有所述第二尺寸的卷积层输出进行拼接即获得所述第二卷积特征,所述第二卷积特征经过一次上采样获得所述第三尺寸的第二采样卷积特征,将所述第二采样卷积特征与所述目标检测网络输出的具有所述第三尺寸的卷积层输出进行拼接即获得所述第三卷积特征。本实施例中,所述第一尺寸为13*13,故所述第一卷积特征即为所述第一卷积层输出,所述第一卷积特征经过一次上采样获得所述第二尺寸为26*26的所述第一采样卷积特征,将所述第一采样卷积特征与所述目标检测网络输出的具有所述第二尺寸的卷积层输出即第61层输出进行拼接即获得所述第二卷积特征,所述第二卷积特征经过一次上采样获得所述第三尺寸为52*52的所述第二采样卷积特征,将所述第二采样卷积特征与所述目标检测网络输出的具有所述第三尺寸的卷积层输出即第36层输出进行拼接即获得所述第三卷积特征。
步骤S105c:依据所述第二卷积层输出获取特征尺寸为所述第一尺寸的第四卷积特征、特征尺寸为所述第二尺寸的第五卷积特征、特征尺寸为所述第三尺寸的第六卷积特征;
步骤S105c中所述第二卷积层输出通过步长为2的卷积和拼接可以获得特征尺寸分别为第一尺寸、第二尺寸、第三尺寸的第四卷积特征、第五卷积特征、第六卷积特征,具体的计算过程与步骤S105b类似,此处不再赘述。
步骤S105d:将所述第一卷积特征与所述第四卷积特征进行拼接获取第一融合特征,将所述第二卷积特征与所述第五卷积特征进行拼接获取第二融合特征,将所述第三卷积特征与所述第六卷积特征进行拼接获取第三融合特征。
将所述第一卷积特征与所述第四卷积特征进行拼接获取第一融合特征,将所述第二卷积特征与所述第五卷积特征进行拼接获取第二融合特征,将所述第三卷积特征与所述第六卷积特征进行拼接获取第三融合特征即将浅层卷积特征与深层卷积特征进行拼接,实现浅层特征和深层特征的融合,从而可以达到提升检测性能的目的。依据所述第一融合特征、所述第二融合特征、第三融合特征获取所述目标检测结果,计算所述第一损失函数,通过调整网络参数使所述第一损失函数满足预设阈值,从而完成对所述目标检测网络的训练。
步骤S106:将待检测图片输入所述训练完成的所述目标检测网络,输出带目标检测结果的检测图片。
对训练完成后的所述目标检测网络输入拍摄的待检测图片,所述目标检测网络输出具有目标检测结果的检测图片,本实施例中,所述检测图片上通过显示预测边界框将识别检测出的目标对象进行标注。
本发明的一种多目标检测方法通过依据所述第一覆盖圆获取第一损失函数,解决了所述真实边界框及其对应的所述预测边界框无交集时,IOU为0导致的无法回归的问题,并且基于所述第一覆盖圆的第一损失函数还可以更好地完成目标对象中心点坐标的回归,提高所述预测边界框精度的同时,实现了小目标和遮挡情况下的检测。
进一步地,依据所述真实边界框及其对应的所述预测边界框计算第一损失函数收敛速度更快,并且能够提升目标检测框的准确度。
进一步地,依据对所述第一图片中的所述第一目标对象进行第一变换后获得第二图片,实现了样本图片集的扩增,避免了训练过程中的过拟合。
进一步地,所述目标检测网络为全卷积网络能在尺度上更好的适应远距离小目标检测,并且将第一卷积层输出、第二卷积层输出的卷积特征进行融合,提升了小目标的检测能力,同时增强了对遮挡目标的鲁棒性。
为使本方法能在运算能力有限的无人机平台上使用并实时输出识别检测结果,在另一实施例中,步骤S105还包括:对所述目标检测网络进行网络剪枝。
具体的,由于无人机平台的计算能力有限,训练出的网络直接运行在无人机平台上无法满足实时性的要求,故而网络在训练过程中需要进行剪枝操作,故在所述第一损失函数的计算中加入剪枝后的损失计算,本实施例中,将所述目标检测网络中卷积层的所述BN层中的缩放因子γ用来作为对应通道重要性的评判标准,对缩放因子γ求L1范数,以达到稀疏的目的:
L1(γ)=||γ||1
然后将其作为正则项添加到所述第一损失函数中,所述第一损失函数如下式所示:
上式(x,y)表示输入的所述样本图片和所述真实边界框,W表示训练权重,第二项的作用是约束γ,本实施例中,λ取值为1e-5。
在完成一轮训练完成后,将得到的γ值由大到小进行排序,γ值越小,其对应的通道重要性越低。本实施例中,将γ值最小的20%对应的通道剪除,剪枝完成的网络模型再进行下一轮的训练,直到训练完成。
本发明的一种多目标检测方法对所述目标检测网络进行网络剪枝能在不影响算法精度的同时,大幅提升算法效率,基于网络剪枝,检测网络大小压缩,检测速度大大提升,将所述多目标检测方法应用在计算能力有限的无人机平台时,能满足无人机平台的实时性要求,在保持检测精度的同时,实现了基于无人机的多目标实时检测。
如图3所示,图3是本发明第一实施例的多目标检测方法的效果对比图,红色框表示检测的目标对象为行人,黄色框表示检测的目标对象为机动车。图3(a)和(b)是现有技术的检测结果,图3(c)和(d)是本方法的检测结果。可以看到,本方法的检测算法在面临小目标集群和遮挡情况时,不易发生漏检的情况,检测精度更高。此外,本方法应用于无人机平台能够确保无人机对于小目标检测的实时、鲁棒地检测。
本发明的一种多目标检测方法通过依据所述第一覆盖圆获取第一损失函数,解决了所述真实边界框及其对应的所述预测边界框无交集时,IOU为0导致的无法回归的问题,并且基于所述第一覆盖圆的第一损失函数还可以更好地完成目标对象中心点坐标的回归,提高所述预测边界框精度的同时,实现了小目标和遮挡情况下的检测。
进一步地,依据所述真实边界框及其对应的所述预测边界框计算第一损失函数收敛速度更快,并且能够提升目标检测框的准确度。
进一步地,依据对所述第一图片中的所述第一目标对象进行第一变换后获得第二图片,实现了样本图片集的扩增,避免了训练过程中的过拟合。
进一步地,所述目标检测网络为全卷积网络能在尺度上更好的适应远距离小目标检测,并且将第一卷积层输出、第二卷积层输出的卷积特征进行融合,提升了小目标的检测能力,同时增强了对遮挡目标的鲁棒性。
进一步地,对所述目标检测网络进行网络剪枝能在不影响算法精度的同时,大幅提升算法效率,基于网络剪枝,检测网络大小压缩,检测速度大大提升,能满足了无人机平台的实时性要求,在保持检测精度的同时,实现了基于无人机的多目标实时检测。
图4是本发明一种实施例的多目标检测装置的结构示意图。如图4所示,该装置包括软件获取模块41、训练模块42、检测模块43。
获取模块41用于获取样本图片集,所述样本图片集包括至少一张样本图片及其对应的目标对象标注信息,所述目标对象标注信息包括所述样本图片上的目标对象及其对应的框选所述目标对象的真实边界框;
训练模块42用于将所述样本图片集输入目标检测网络,以使得所述目标检测网络依据所述样本图片输出目标检测结果,所述目标检测结果包括所述目标检测网络检测到的所述样本图片上的目标对象及标注所述目标对象的预测边界框;
可选地,训练模块42还可以用于计算所述目标对象标注信息中所述真实边界框与所述目标检测结果中所述预测边界框的第一覆盖圆;基于当前所述目标检测网络输出的所述目标检测结果、所述目标对象标注信息、所述第一覆盖圆构造第一损失函数;
可选地,训练模块42还可以用于对所述目标检测网络进行训练使所述第一损失函数满足预设阈值以获得训练完成的所述目标检测网络。
检测模块43用于将待检测图片输入所述训练完成的所述目标检测网络,输出带目标检测结果的检测图片。
本申请提供一种多目标检测装置,能够达到对待检测图片中目标集群出现、目标遮挡、目标尺度变化较大的目标检测目的,还可以达到在平台计算能力有限情况完成拍摄目标实时检测的目的。
请参阅图5,图5是本发明一种实施例的多目标检测设备的结构示意图。如图5所示,该升级设备60包括处理器61及和处理器61耦接的存储器62。
存储器62存储有用于实现上述任一实施例所述多目标检测方法的程序指令。
处理器61用于执行存储器62存储的程序指令以对所述多目标进行检测。
其中,处理器61还可以称为CPU(Central Processing Unit,中央处理单元)。处理器61可能是一种集成电路芯片,具有信号的处理能力。处理器61还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图6,图6为本发明实施例的存储装置的结构示意图。本发明实施例的存储装置存储有能够实现上述所有方法的程序文件71,其中,该程序文件71可以以软件产品的形式存储在上述存储装置中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储装置包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种多目标检测方法,其特征在于,包括以下步骤:
获取样本图片集,所述样本图片集包括至少一张样本图片及其对应的目标对象标注信息,所述目标对象标注信息包括所述样本图片上的目标对象及其对应的框选所述目标对象的真实边界框;
将所述样本图片集输入目标检测网络,以使得所述目标检测网络依据所述样本图片输出目标检测结果,所述目标检测结果包括所述目标检测网络识别到的所述样本图片上的目标对象及所述目标对象的预测边界框;
计算所述目标对象标注信息中所述真实边界框与所述目标检测结果中所述预测边界框的第一覆盖圆;
基于当前所述目标检测网络输出的所述目标检测结果、所述目标对象标注信息、所述第一覆盖圆构造第一损失函数;
依据所述第一损失函数对所述目标检测网络进行训练,当训练次数满足预设迭代次数以获得训练完成的所述目标检测网络;
将待检测图片输入所述训练完成的所述目标检测网络,输出所述待检测图片的目标检测结果。
2.根据权利要求1所述多目标检测方法,其特征在于,所述计算所述目标对象标注信息中所述真实边界框与所述目标检测结果中所述预测边界框的第一覆盖圆,包括:
获取所述真实边界框和所述预测边界框的顶点集合,从所述顶点集合中选取至少3个第一顶点;
依据所述第一顶点获取第一包含圆;
获取所述顶点集合中距离所述第一包含圆圆心最远的第二顶点;
若所述第二顶点在所述第一包含圆范围内,则所述第一包含圆为所述第一覆盖圆;
若所述第二顶点不在所述第一包含圆范围,则在所述第一顶点和所述第二顶点中选取至少3个顶点作为所述第一顶点并重新获取第一包含圆。
3.根据权利要求2所述多目标检测方法,其特征在于,所述基于当前所述目标检测网络输出的所述目标检测结果、所述目标对象标注信息、所述第一覆盖圆构造第一损失函数,包括:
获取所述真实边界框和所述预测边界框的交集面积、并集面积,并获取所述第一覆盖圆的面积;
依据所述交集面积、所述并集面积、所述第一覆盖圆的面积获取所述第一损失函数。
4.根据权利要求1所述多目标检测方法,其特征在于,所述目标检测网络对所述目标对象的特征提取基于卷积神经网络,包括至少一层卷积层。
5.根据权利要求4所述多目标检测方法,其特征在于,所述对所述目标检测网络进行训练,包括:
获取所述样本图片经过所述目标检测网络卷积计算后的第一卷积层输出、第二卷积层输出;
依据所述第一卷积层输出获取特征尺寸为第一尺寸的第一卷积特征、特征尺寸为第二尺寸的第二卷积特征、特征尺寸为第三尺寸第三卷积特征;
依据所述第二卷积层输出获取特征尺寸为所述第一尺寸的第四卷积特征、特征尺寸为所述第二尺寸的第五卷积特征、特征尺寸为所述第三尺寸的第六卷积特征;
将所述第一卷积特征与所述第四卷积特征进行拼接获取第一融合特征,将所述第二卷积特征与所述第五卷积特征进行拼接获取第二融合特征,将所述第三卷积特征与所述第六卷积特征进行拼接获取第三融合特征;
依据所述第一融合特征、所述第二融合特征、第三融合特征获取所述目标检测结果。
6.根据权利要求1所述多目标检测方法,其特征在于,所述获取样本图片集,包括:
获取至少一张第一图片,对所述第一图片进行实例分割获得第一标注信息,所述第一标注信息包括所述第一图片上的第一目标对象及其对应的第一真实边界框;
对所述第一目标对象进行第一变换后构造第二图片;
依据所述第一变换获得所述第二图片的第二标注信息;
依据所述第一图片及其所述第一标注信息、所述第二图片及其所述第二标注信息获取所述样本图片集。
7.根据权利要求1所述多目标检测方法,其特征在于,所述依据所述第一损失函数对所述目标检测网络进行训练,当训练次数满足预设迭代次数以获得训练完成的所述目标检测网络目标检测网络,还包括:
对所述目标检测网络进行网络剪枝。
8.根据权利要求7所述多目标检测方法,其特征在于,所述多目标检测方法用于无人机实时拍摄的多目标检测。
9.一种多目标检测设备,其特征在于,所述多目标检测设备包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现如权利要求1-8中任一项多目标检测方法的程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以对图像中多目标进行检测。
10.一种存储装置,其特征在于,存储有能够实现如权利要求1-8中任一项所述多目标检测方法的程序文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010699127.2A CN112001247A (zh) | 2020-07-17 | 2020-07-17 | 多目标检测方法、设备及存储装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010699127.2A CN112001247A (zh) | 2020-07-17 | 2020-07-17 | 多目标检测方法、设备及存储装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112001247A true CN112001247A (zh) | 2020-11-27 |
Family
ID=73468075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010699127.2A Pending CN112001247A (zh) | 2020-07-17 | 2020-07-17 | 多目标检测方法、设备及存储装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112001247A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488044A (zh) * | 2020-12-15 | 2021-03-12 | 中国银行股份有限公司 | 图片处理方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492697A (zh) * | 2018-11-15 | 2019-03-19 | 厦门美图之家科技有限公司 | 图片检测网络训练方法及图片检测网络训练装置 |
CN110298298A (zh) * | 2019-06-26 | 2019-10-01 | 北京市商汤科技开发有限公司 | 目标检测及目标检测网络的训练方法、装置及设备 |
CN110503095A (zh) * | 2019-08-27 | 2019-11-26 | 中国人民公安大学 | 目标检测模型的定位质量评价方法、定位方法及设备 |
CN110647852A (zh) * | 2019-09-27 | 2020-01-03 | 集美大学 | 一种车流量统计方法、终端设备及存储介质 |
US20200167594A1 (en) * | 2018-09-18 | 2020-05-28 | Alibaba Group Holding Limited | Method and apparatus for vehicle damage identification |
CN111241947A (zh) * | 2019-12-31 | 2020-06-05 | 深圳奇迹智慧网络有限公司 | 目标检测模型的训练方法、装置、存储介质和计算机设备 |
-
2020
- 2020-07-17 CN CN202010699127.2A patent/CN112001247A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200167594A1 (en) * | 2018-09-18 | 2020-05-28 | Alibaba Group Holding Limited | Method and apparatus for vehicle damage identification |
CN109492697A (zh) * | 2018-11-15 | 2019-03-19 | 厦门美图之家科技有限公司 | 图片检测网络训练方法及图片检测网络训练装置 |
CN110298298A (zh) * | 2019-06-26 | 2019-10-01 | 北京市商汤科技开发有限公司 | 目标检测及目标检测网络的训练方法、装置及设备 |
CN110503095A (zh) * | 2019-08-27 | 2019-11-26 | 中国人民公安大学 | 目标检测模型的定位质量评价方法、定位方法及设备 |
CN110647852A (zh) * | 2019-09-27 | 2020-01-03 | 集美大学 | 一种车流量统计方法、终端设备及存储介质 |
CN111241947A (zh) * | 2019-12-31 | 2020-06-05 | 深圳奇迹智慧网络有限公司 | 目标检测模型的训练方法、装置、存储介质和计算机设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488044A (zh) * | 2020-12-15 | 2021-03-12 | 中国银行股份有限公司 | 图片处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | Simultaneous traffic sign detection and boundary estimation using convolutional neural network | |
CN108764048B (zh) | 人脸关键点检测方法及装置 | |
CN109544677B (zh) | 基于深度图像关键帧的室内场景主结构重建方法及系统 | |
CN111665842B (zh) | 一种基于语义信息融合的室内slam建图方法及系统 | |
EP3417425B1 (en) | Leveraging multi cues for fine-grained object classification | |
CN109035304B (zh) | 目标跟踪方法、介质、计算设备和装置 | |
CN113168717B (zh) | 一种点云匹配方法及装置、导航方法及设备、定位方法、激光雷达 | |
US20210274358A1 (en) | Method, apparatus and computer program for performing three dimensional radio model construction | |
WO2021217924A1 (zh) | 交通卡口车辆类型的识别方法、装置、设备及存储介质 | |
CN114359851A (zh) | 无人驾驶目标检测方法、装置、设备及介质 | |
CN112016638B (zh) | 一种钢筋簇的识别方法、装置、设备及存储介质 | |
CN111191582B (zh) | 三维目标检测方法、检测装置、终端设备及计算机可读存储介质 | |
CN110310305B (zh) | 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置 | |
CN112489099A (zh) | 点云配准方法、装置、存储介质及电子设备 | |
CN115719436A (zh) | 模型训练方法、目标检测方法、装置、设备以及存储介质 | |
CN113705669A (zh) | 一种数据匹配方法、装置、电子设备以及存储介质 | |
CN114792416A (zh) | 一种目标检测方法及装置 | |
CN112733641A (zh) | 物体尺寸测量方法、装置、设备及存储介质 | |
CN112819001A (zh) | 基于深度学习的复杂场景卷烟烟包识别方法和装置 | |
CN115147333A (zh) | 一种目标检测方法及装置 | |
CN112396701A (zh) | 卫星图像的处理方法、装置、电子设备和计算机存储介质 | |
CN114283326A (zh) | 一种结合局部感知和高阶特征重构的水下目标重识别方法 | |
CN114972492A (zh) | 一种基于鸟瞰图的位姿确定方法、设备和计算机存储介质 | |
CN113989604A (zh) | 基于端到端深度学习的轮胎dot信息识别方法 | |
Huang et al. | Overview of LiDAR point cloud target detection methods based on deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |