CN113378864B - 一种锚框参数的确定方法、装置、设备及可读存储介质 - Google Patents

一种锚框参数的确定方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN113378864B
CN113378864B CN202110933981.5A CN202110933981A CN113378864B CN 113378864 B CN113378864 B CN 113378864B CN 202110933981 A CN202110933981 A CN 202110933981A CN 113378864 B CN113378864 B CN 113378864B
Authority
CN
China
Prior art keywords
anchor frame
feature map
target
anchor
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110933981.5A
Other languages
English (en)
Other versions
CN113378864A (zh
Inventor
李一清
何林阳
王威
宋志龙
周凯
程愉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Zhuoyun Intelligent Technology Co ltd
Original Assignee
Zhejiang Zhuoyun Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Zhuoyun Intelligent Technology Co ltd filed Critical Zhejiang Zhuoyun Intelligent Technology Co ltd
Priority to CN202110933981.5A priority Critical patent/CN113378864B/zh
Publication of CN113378864A publication Critical patent/CN113378864A/zh
Application granted granted Critical
Publication of CN113378864B publication Critical patent/CN113378864B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种锚框参数的确定方法、装置、设备及可读存储介质,该方法包括:获取图像,对图像进行预处理,图像包括多个目标标注框;根据输出特征图的跨度、预处理后图像的尺寸和预设的锚框参数生成各特征图的锚框;根据多个目标标注框从多个锚框中选择出作为正样本的多个目标锚框,得到目标锚框与目标标注框的多个匹配对;根据目标锚框与目标标注框的多个匹配对计算损失;根据预设规则对锚框参数进行更新,然后重复上述步骤,使得损失变小直至收敛,得到目标锚框参数。本发明实施例无需对图像进行提取特征,无需对模型中锚框与标注框匹配流程后的网络层进行训练,可以大大减少训练的时间,寻找到满足需求的最优锚框参数。

Description

一种锚框参数的确定方法、装置、设备及可读存储介质
技术领域
本申请涉及图像检测技术领域,尤其涉及一种锚框参数的设置方法、装置、设备及可读存储介质。
背景技术
常见的目标检测模型均用到了锚框,比如单阶段模型RetinaNet,ATSS等,比如两阶段模型FasterRCNN及衍生模型等。锚框的作用是在图片上定义一批密集的有规则的先验框,然后用这些先验框去预测附近的目标物体。锚框的参数,例如尺寸和高宽比,是可以调整的,目的是为了适应不同的数据集,更好地匹配被检测的目标。比如某一落地场景中,被检测物体普遍很小,那么就要将锚框尺寸设置小一点。但是这也给技术人员带来了调参的压力,锚框参数设置的不合理通常会造成检测模型性能的下降。
目前,锚框参数的确定方法是根据经验,选取N组锚框参数,然后分别用这些锚框参数去训练模型,然后根据模型在测试集上的表现来选择最好的锚框参数。但这种方法,需要对目标检测模型中的各个网络层进行训练,训练所需时间长,特别是当训练数据集比较大的时候,模型训练会相当地耗时;而且这种方法也只能保证在选取的N组锚框参数中选取最好的,不能保证是否有更优的锚框参数存在。
发明内容
有鉴于此,本发明实施例通过提供一种锚框参数的确定方法、装置、设备及可读存储介质,用以解决现有锚框参数确定方法存在耗时长、不能保证是否有更优的锚框参数存在的问题。
为了解决上述问题,第一方面,本发明实施例提供了一种锚框参数的确定方法,包括:获取图像,对图像进行预处理,图像包括多个目标标注框;根据输出特征图的跨度、预处理后图像的第一尺寸和预设的锚框参数生成各特征图的锚框;根据多个目标标注框从多个锚框中选择出作为正样本的多个目标锚框,得到目标锚框与目标标注框的多个匹配对;根据目标锚框与目标标注框的多个匹配对计算损失;根据预设规则对锚框参数进行更新,并返回获取图像,对图像进行预处理,图像包括多个目标标注框的步骤,直至损失收敛,得到目标锚框参数。
可选地,根据输出特征图的跨度、预处理后图像的第一尺寸和预设的锚框参数生成各特征图的锚框的步骤包括:根据输出特征图的跨度和预处理后图像的第一尺寸计算各特征图的第二尺寸;根据输出特征图的跨度、各特征图的第二尺寸和预设的锚框参数生成各特征图的锚框。
可选地,根据输出特征图的跨度、各特征图的第二尺寸及预设的锚框参数生成各特征图的锚框的步骤包括:根据输出特征图的跨度及预设的锚框参数生成各特征图对应的基础锚框;根据各特征图的第二尺寸及基础锚框生成各特征图的锚框。
可选地,根据输出特征图的跨度及预设的锚框参数生成各特征图对应的基础锚框的步骤包括:根据输出特征图的跨度及预设的锚框参数计算各特征图对应的基础锚框参数;根据各基础锚框参数生成各特征图的基础锚框。
可选地,根据目标锚框与目标标注框的多个匹配对计算损失的步骤包括:计算目标锚框与目标标注框的每个匹配对的GIoU损失;根据每个匹配对的GIoU损失计算GIoU损失均值及GIoU损失标准差;将GIoU损失均值与GIoU损失均值的第一权重的第一乘积、GIoU损失标准差与GIoU损失标准差的第二权重的第二乘积进行累加,得到损失。
第二方面,本发明实施例提供了一种锚框参数的确定装置,包括:获取单元,用于获取图像,对图像进行预处理,图像包括多个目标标注框;生成单元,用于根据输出特征图的跨度、预处理后图像的第一尺寸和预设的锚框参数生成各特征图的锚框;选择单元,用于根据多个目标标注框从多个锚框中选择出作为正样本的多个目标锚框,得到目标锚框与目标标注框的多个匹配对;计算单元,用于根据目标锚框与目标标注框的多个匹配对计算损失;更新单元,用于根据预设规则对锚框参数进行更新,并返回获取图像,对图像进行预处理,图像包括多个目标标注框的步骤,直至损失收敛,得到目标锚框参数。
可选地,生成单元包括:计算子单元,用于根据输出特征图的跨度和预处理后图像的第一尺寸计算各特征图的第二尺寸;生成子单元,用于根据输出特征图的跨度、各特征图的第二尺寸和预设的锚框参数生成各特征图的锚框。
可选地,生成子单元,包括:第一生成子单元,用于根据输出特征图的跨度及预设的锚框参数生成各特征图对应的基础锚框;第二生成子单元,用于根据各特征图的第二尺寸及基础锚框生成各特征图的锚框。
第三方面,本发明实施例提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器执行如第一方面或第一方面任意实施方式中的锚框参数的确定方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行如第一方面或第一方面任意实施方式中的锚框参数的确定方法。
本发明提供的锚框参数的确定方法、装置、设备及可读存储介质,通过获取图像,对图像进行预处理,图像包括多个目标标注框;根据输出特征图的跨度、预处理后图像的第一尺寸和预设的锚框参数生成各特征图的锚框;根据多个目标标注框从多个锚框中选择出作为正样本的多个目标锚框,得到目标锚框与目标标注框的多个匹配对;根据目标锚框与目标标注框的多个匹配对计算损失;根据预设规则对锚框参数进行更新,并返回获取图像,对图像进行预处理,图像包括多个目标标注框的步骤,直至损失收敛,得到目标锚框参数;从而只要将训练流程进行到锚框与目标标注框进行匹配的那一步,然后根据目标锚框与匹配的目标标注框计算损失,便可通过训练寻找到目标锚框参数。
相比与现有的训练方法,本发明无需通过主干网络对图像进行特征提取,无需对目标检测模型中锚框与目标标注框匹配流程后的网络层进行训练,可以大大减少训练的时间,且通过训练使损失收敛,可以保证寻找到的目标锚框参数为满足需求的最优锚框参数,且在计算损失之前,使用了模型训练的真实流程,真实的模型了训练过程,可以使得目标锚框参数最贴合实际数据。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本发明实施例中一种锚框参数的确定方法的流程示意图;
图2为本发明实施例中FasterRCNN的检测流程示意图;
图3为本发明实施例中锚框生成过程以及RPN利用锚框进行目标位置预测的流程示意图;
图4为本发明实施例中利用训练得到锚框尺度和锚框高宽比的流程示意图;
图5为本发明实施例中一种锚框参数的确定装置的结构示意图;
图6为本发明实施例中一种电子设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先,对本发明涉及到的一些概念进行描述和定义:
矩形框:二维空间中的矩形框,其中高和宽分别和y轴和x轴平行。
GT框:包含目标物体的最小外接矩形框,这些框通常由人为事先标注好,属于监督信息。
交并比(IoU,全称Intersection over Union):衡量二维空间中两个矩形框的重合度,假设A和B为两个矩形框,则他们之间的IoU定义为:
Figure DEST_PATH_IMAGE001
其中,A∩B为A和B的交集,|A∩B|为该交集区域的面积,A∪B 为A和B的并集,|A∪B|为该并集区域的面积。
广义交并比(GIoU,全称Generalized Intersection over Union):另外一种衡量二维空间中两个矩形框的重合度的度量,定义为:
Figure 226463DEST_PATH_IMAGE002
其中,C为A和B的最小外接矩形框,
Figure DEST_PATH_IMAGE003
指的是属于C但是不属于A∪B的面积。
GIoU损失(GIoULoss):基于GIoU定义的损失。假设A为预测框,G为GT框,则A和G之间的GIoULoss定义为:
Figure 636585DEST_PATH_IMAGE004
传统主干网络(backbone):是目标检测模型中的一个结构,用于图像特征提取,通常由卷积分类网络去掉最后的分类全连接层构成,输出是多尺度特征图。
特征金字塔(FPN,全称Feature Pyramid Network):是目标检测模型常用的一个网络结构,主要作用是将主干网络的多尺度特征层进行融合并把通道数统一,输出是通道数相同的多尺度特征图。
主干网络(backbone + FPN):有的人把传统主干网络叫做主干网络,有的人把传统主干网络和FPN的结合叫做主干网络,这里我们选取后者。
候选区域生成网络(RPN,全称Region Proposal Network):是目标检测模型常用的一个网络结构,主要作用是相对粗略地生成可能包含有目标的先验矩形框,交给下游进行进一步地优化。
锚框:常用于检测的先验矩形框。
锚框尺度:是一个实数,其平方为该锚框应该有的面积。
锚框比例(或锚框高宽比):锚框高和宽的比值。
本发明实施例提供了一种锚框参数的确定方法,如图1所示,包括:
S101.获取图像,对图像进行预处理,图像包括多个目标标注框;
具体地,目标标注框为GT框,是事先标注好的,属于训练时的监督信息。获取图像时,可以得到图像的第一尺寸,包括高度H、宽度W,还可以获取到图像上所有的目标标注框。获取到图像后,可以对图像进行常规的预处理。预处理包括去噪处理、数据增强处理等。图像经过预处理后,转变成多维矩阵。
S102.根据输出特征图的跨度、预处理后图像的第一尺寸和预设的锚框参数生成各特征图的锚框;
具体地,在通过训练得到目标锚框参数之前,需要初始化锚框参数,将锚框参数设置成网络参数,使得其可以被训练。锚框参数包括锚框尺度和锚框高宽比。可以根据经验对训练初始的锚框参数进行设置,比如第一锚框尺度:scales=[6, 8],第一锚框高宽比:ratios=[0.5, 1.0, 2.0]。scales和ratios是本网络中唯一的两个参数。然后根据预设的输出特征图的跨度、预处理后图像的第一尺寸及初始的锚框参数生成各特征图的锚框。
S103.根据多个目标标注框从多个锚框中选择出作为正样本的多个目标锚框,得到目标锚框与目标标注框的多个匹配对;
具体地,可以运用目标检测模型中锚框生成网络的正负样本选择策略对所有的锚 框进行正负样本标记,然后找到所有被标记为正样本的目标锚框(
Figure DEST_PATH_IMAGE005
Figure 170335DEST_PATH_IMAGE006
,…)和对应匹配的 目标标注框(
Figure DEST_PATH_IMAGE007
Figure 773615DEST_PATH_IMAGE008
,…),得到目标锚框与目标标注框的多个匹配对。
具体实施时,可以采用下述步骤得到目标锚框与目标标注框的多个匹配对:
1.计算各所述锚框与各所述标注框的交并比;
2.首先:对于每一个锚框,选择与其交并比最大的目标标注框(若有多个则随机选其一)与其匹配,若该匹配对的交并比大于预设的第一阈值则把该锚框标记为正样本或正锚框,并得到了目标锚框与目标标注框的一个匹配对。
3.其次:对于每一个目标标注框,确定与其交并比最大的所有锚框(若有多个则选取所有),并将其中的交并比大于预设的第二阈值的锚框标记为正样本或正锚框,这个过程可能会重新定义步骤2中的某一些锚框,得到目标锚框与目标标注框的至少一个匹配对。
通过将所有锚框和所有目标标注框两两计算交并比,通过交并比选出作为正样本的目标锚框和对应匹配的目标标注框,可以使得尽可能地多匹配目标标注框,由于目标标注框是监督信息,因此,尽可能地多匹配目标标注框,可以提高目标锚框参数的准确性。
S104.根据目标锚框与目标标注框的多个匹配对计算损失;
具体地,可以分别计算每一对目标锚框与目标标注框的GIoU损失,然后根据GIoU损失计算损失。
S105.根据预设规则对锚框参数进行更新,并返回获取图像,对图像进行预处理,图像包括多个目标标注框的步骤,直至损失收敛,得到目标锚框参数。
具体地,在计算损失之后,可以进行常规的网络训练,使用反向传播法等常规网络训练技巧对锚框参数进行更新,然后从图像数据库中不断读取新的图像并重复步骤S101-S105,使得步骤S104中定义的损失变小,直至收敛。当损失收敛的时候,我们便得到了满足需求的最优的scales和ratios。然后再用这两个参数去设置目标检测模型中的锚框参数,便能提高锚框与目标物体的匹配度,从而提高模型的性能。
本发明实施例提供的锚框参数的确定方法,通过获取图像,对图像进行预处理,图像包括多个目标标注框;根据输出特征图的跨度、预处理后图像的第一尺寸和预设的锚框参数生成各特征图的锚框;根据多个目标标注框从多个锚框中选择出作为正样本的多个目标锚框,得到目标锚框与目标标注框的多个匹配对;根据目标锚框与目标标注框的多个匹配对计算损失;根据预设规则对锚框参数进行更新,并返回获取图像,对图像进行预处理,图像包括多个目标标注框的步骤,直至损失收敛,得到目标锚框参数;从而只要将训练流程进行到锚框与目标标注框进行匹配的那一步,然后根据目标锚框与匹配的目标标注框计算损失,便可通过训练寻找到目标锚框参数。
相比与现有的训练方法,本发明实施例无需通过主干网络对图像进行特征提取,无需对目标检测模型中锚框与目标标注框匹配流程后的网络层进行训练,可以大大减少训练的时间,且通过训练使损失收敛,可以保证寻找到的目标锚框参数为满足需求的最优锚框参数,且在计算损失之前,使用了模型训练的真实流程,真实的模型了训练过程,可以使得目标锚框参数最贴合实际数据。
在一个可选的实施例中,步骤S102,根据输出特征图的跨度、预处理后图像的第一尺寸和预设的锚框参数生成各特征图的锚框,具体包括:根据输出特征图的跨度和预处理后图像的第一尺寸计算各特征图的第二尺寸;根据输出特征图的跨度、各特征图的第二尺寸和预设的锚框参数生成各特征图的锚框。
具体地,输出特征图的跨度可以分别预设为(4,8,16,32,64),那么对应的特征图的高和宽分别是((H/4,W/4),(H/8,W/8),(H/16,W/16),(H/32,W/32),(H/64,W/64)),H为预处理后图像的高度,W为预处理后图像的宽度。
然后通过锚框参数及输出特征图的跨度生成各特征图的基础锚框。然后可以基于各特征图的第二尺寸和基础锚框生成各特征图的锚框。这个过程和常规的基础锚框生成特征图的锚框的过程一致,在此不再赘述。
在本发明实施方式中,通过计算各特征图的第二尺寸,根据输出特征图的跨度、各特征图的第二尺寸和预设的锚框参数生成各特征图的锚框,可以使得生成的锚框与特征图的尺寸相匹配。通过预设的锚框参数及输出特征图的跨度生成各特征图对应的基础锚框,根据各特征图的第二尺寸及基础锚框生成各特征图的锚框,可以简单、快速地生成各特征图的锚框。
在一个可选的实施例中,根据输出特征图的跨度及预设的锚框参数生成各特征图对应的基础锚框,包括:根据输出特征图的跨度及预设的锚框参数计算各特征图对应的基础锚框参数;根据各基础锚框参数生成各特征图的基础锚框。
具体地,基础锚框参数包括基础锚框的尺度、基础锚框的高宽比。比如FasterRCNN中FPN的输出特征图有5层,输出特征图的跨度分别为(4,8,16,32,64),则第二层特征图的基础锚框的尺度为scales*8=[48,64]。基础锚框的高宽比为预设的锚框参数中的ratios。然后生成该特征图下的基础锚框。根据各基础锚框参数生成各特征图的基础锚框的过程和常规的scales和ratios生成基础锚框的过程一致,在此不再赘述。
在一个可选的实施例中,步骤S104,根据目标锚框与目标标注框的多个匹配对计算损失,包括:计算目标锚框与目标标注框的每个匹配对的GIoU损失;根据每个匹配对的GIoU损失计算GIoU损失均值及GIoU损失标准差;将GIoU损失均值与GIoU损失均值的第一权重的第一乘积、GIoU损失标准差与GIoU损失标准差的第二权重的第二乘积进行累加,得到损失。
具体地,可以通过广义交并比计算公式计算目标锚框与目标标注框的每个匹配对 的广义交并比;然后通过GIoU损失计算公式计算GIoU损失。然后根据公式
Figure DEST_PATH_IMAGE009
,计算损失。
其中loss为损失,n为正样本数量,(
Figure 197DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
,…)为GIoU损失,MEAN为计算均值的函 数,STD为计算标准差的函数,
Figure 163194DEST_PATH_IMAGE012
为GIoU损失均值的第一权重,
Figure DEST_PATH_IMAGE013
为GIoU损失标准差的第二权 重,
Figure 500634DEST_PATH_IMAGE012
Figure 612947DEST_PATH_IMAGE013
的值可以根据实际情况进行调整,一般设置为1和2能取得不错的效果。
在本发明实施例中,将正样本的GIoU损失的方差也作为损失的一部分,可以减小目标锚框与目标标注框匹配的波动性。
为了对本发明的实施例做进一步的解释,本发明实施例以FasterRCNN模型为例,阐述本发明如何在FasterRCNN这个框架上通过训练来搜索出最优的锚框参数。
FasterRCNN的检测流程如图2所示,其中用到锚框的部分为RPN网络。RPN的主要功能是相对粗略地生成可能包含有目标的先验矩形框,然后再交给下游进行更细的分类和框回归。
锚框生成过程以及RPN利用锚框进行目标位置预测的流程如图3所示。利用训练得到锚框尺度和锚框高宽比的流程如图4所示。本发明实施例首先将锚框尺度和锚框高宽比定义为可以训练的网络参数,然后在GT框和锚框匹配好后,计算目标锚框与目GT框之间的GIoU损失。为了减小匹配的波动,本发明实施例同时将正样本的GIoU损失的方差也作为损失的一部分,定义一个基于GIoU损失的最终损失,最后训练锚框尺度和锚框高宽比使得该损失达到最小。
以下为初始化网络的步骤:
1.首先,根据经验初始化锚框尺度和锚框高宽比,比如尺度scales=[6, 8],高宽比ratios=[0.5, 1.0, 2.0]。然后将尺度和高宽比设置成网络参数,使得他们可以被训练。scales和ratios是本网络中唯一的两个参数。
2.根据输出特征图的跨度生成基础锚框。其中该特征图上的基础锚框的尺度等于步骤1中的scales乘以该特征图的跨度。比如FasterRCNN中FPN的特征图有5层,5层的跨度分别为(4,8,16,32,64),所以第二层特征图的尺度为scales*8=[48,64]。高宽比则直接使用步骤1中的ratios。然后生成该特征图的基础锚框,这个过程跟常规的scales和ratios生成基础锚框的过程一致。
以下为训练网络的步骤:
a.训练图片经过预处理和数据增强被转换成多维矩阵,训练图片的高度为H、训练图片的宽度为W。同时该训练图片上所有的目标物体都具有目标标注框,即GT框。
b.根据FPN输出特征图的跨度计算输出特征图的高和宽,比如FasterRCNN中FPN的输出跨度是(4,8,16,32,64),那么对应的特征图的高和宽分别是((H/4,W/4),(H/8,W/8),(H/16,W/16),(H/32,W/32),(H/64,W/64))。
c.生成多尺度锚框,即针对每个特征图,根据特征图的大小和该特征图的基础锚框,生成该特征图的锚框,这个过程跟常规的基础锚框生成特征图锚框的过程一致。
d.运用RPN的正负样本选择策略对所有锚框进行标记,然后找到所有被标记为正 样本的锚框(
Figure 276009DEST_PATH_IMAGE005
Figure 332827DEST_PATH_IMAGE006
,…)和对应匹配的GT框(
Figure 880483DEST_PATH_IMAGE007
Figure 706356DEST_PATH_IMAGE008
,…),分别计算GIoU损失(
Figure 946845DEST_PATH_IMAGE010
Figure 490959DEST_PATH_IMAGE011
,…)。假 设正样本的数量为
Figure 842306DEST_PATH_IMAGE014
,最后的损失则定义为:
Figure 522686DEST_PATH_IMAGE009
其中MEAN为计算均值的函数,STD为计算标准差的函数,α为GIoU损失均值的第一权重,β为GIoU损失标准差的第二权重,α和β的值可以根据实际情况进行调整,一般设置为1和2能取得不错的效果。
e.进行常规的网络训练,使用反向传播法等常规网络训练技巧对步骤1中的scales和ratios进行更新,使得步骤d中定义的loss变小直至收敛。
当loss收敛的时候,我们便得到了满足需求的最优的scales和ratios。然后再用这两个参数去设置FasterRCNN中的锚框参数,便能提高锚框与目标物体的匹配度,从而提高目标检测模型的性能。
相比于FasterRCNN流程,本发明的训练过程去掉了主干网络、RPN网络,RCNN网络等,只保留了数据预处理,锚框生成、锚框与GT框匹配的流程,所以训练过程十分快速。
本发明实施例还提供了一种锚框参数的确定装置,如图5所示,包括:
获取单元21,用于获取图像,对图像进行预处理,图像包括多个目标标注框;具体的实施过程详见上述方法实施例步骤S101的描述,在此不再赘述。
生成单元22,用于根据输出特征图的跨度、预处理后图像的第一尺寸和预设的锚框参数生成各特征图的锚框;具体的实施过程详见上述方法实施例步骤S102的描述,在此不再赘述。
选择单元23,用于根据多个目标标注框从多个锚框中选择出作为正样本的多个目标锚框,得到目标锚框与目标标注框的多个匹配对;具体的实施过程详见上述方法实施例步骤S103的描述,在此不再赘述。
计算单元24,用于根据目标锚框与目标标注框的多个匹配对计算损失;具体的实施过程详见上述方法实施例步骤S104的描述,在此不再赘述。
更新单元25,用于根据预设规则对锚框参数进行更新,并返回获取图像,对图像进行预处理,图像包括多个目标标注框的步骤,直至损失收敛,得到目标锚框参数。具体的实施过程详见上述方法实施例步骤S105的描述,在此不再赘述。
本发明实施例提供的锚框参数的确定装置,通过获取图像,对图像进行预处理,图像包括多个目标标注框;根据输出特征图的跨度、预处理后图像的第一尺寸和预设的锚框参数生成各特征图的锚框;根据多个目标标注框从多个锚框中选择出作为正样本的多个目标锚框,得到目标锚框与目标标注框的多个匹配对;根据目标锚框与目标标注框的多个匹配对计算损失;根据预设规则对锚框参数进行更新,并返回获取图像,对图像进行预处理,图像包括多个目标标注框的步骤,直至损失收敛,得到目标锚框参数;从而只要将训练流程进行到锚框与目标标注框进行匹配的那一步,然后根据目标锚框与匹配的目标标注框计算损失,便可通过训练寻找到目标锚框参数,相比与现有的训练方法,无需通过主干网络对图像进行特征提取,无需对目标检测模型中锚框与目标标注框匹配流程后的网络层进行训练,可以大大减少训练的时间,且通过训练使损失收敛,可以保证寻找到的目标锚框参数为满足需求的最优锚框参数,且在计算损失之前,使用了模型训练的真实流程,真实的模型了训练过程,可以使得目标锚框参数最贴合实际数据。
在一个可选的实施例中,生成单元包括:计算子单元,用于根据输出特征图的跨度和预处理后图像的第一尺寸计算各特征图的第二尺寸;生成子单元,用于根据输出特征图的跨度、各特征图的第二尺寸和预设的锚框参数生成各特征图的锚框。
在本发明实施方式中,通过计算各特征图的第二尺寸,根据输出特征图的跨度、各特征图的第二尺寸和预设的锚框参数生成各特征图的锚框,可以使得生成的锚框与特征图的尺寸相匹配。
在一个可选的实施例中,生成子单元,包括:第一生成子单元,用于根据输出特征图的跨度及预设的锚框参数生成各特征图对应的基础锚框;第二生成子单元,用于根据各特征图的第二尺寸及基础锚框生成各特征图的锚框。
在本发明实施例中,通过预设的锚框参数及输出特征图的跨度生成各特征图对应的基础锚框,根据各特征图的第二尺寸及基础锚框生成各特征图的锚框,可以简单、快速地生成各特征图的锚框。
基于与前述实施例中一种锚框参数的确定方法同样的发明构思,本发明实施例还提供一种电子设备,如图6所示,包括:处理器31和存储器32,其中处理器31和存储器32可以通过总线或者其他方式连接,图6中以通过总线连接为例进行说明。
处理器31可以为中央处理器。处理器31还可以为其他通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器32作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的锚框参数的确定方法对应的程序指令/模块。处理器31通过运行存储在存储器32中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的锚框参数的确定方法。
存储器32可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器31所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器32可选包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至处理器31。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的一个或者多个模块存储在存储器32中,当被处理器31执行时,执行如图1所示实施例中的锚框参数的确定方法。
上述电子设备具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;所述存储介质还可以包括上述种类的存储器的组合。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信息处理设备的处理器以产生一个机器,使得通过计算机或其他可编程信息处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程信息处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程信息处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种锚框参数的确定方法,其特征在于,包括:
获取图像,对图像进行预处理,所述图像包括多个目标标注框;
根据输出特征图的跨度、预处理后图像的第一尺寸和预设的锚框参数生成各特征图的锚框;所述根据输出特征图的跨度、各所述特征图的第二尺寸及预设的锚框参数生成各所述特征图的锚框的步骤包括:根据输出特征图的跨度及预设的锚框参数生成各所述特征图对应的基础锚框;根据各所述特征图的第二尺寸及所述基础锚框生成各所述特征图的锚框;锚框参数为锚框尺度和锚框高宽比;输出特征图的跨度为输入图像与特征图的尺寸之间的比值;
根据多个所述目标标注框从多个所述锚框中选择出作为正样本的多个目标锚框,得到所述目标锚框与所述目标标注框的多个匹配对;
根据所述目标锚框与所述目标标注框的多个匹配对计算损失;
根据预设规则对所述锚框参数进行更新,并返回获取图像,对图像进行预处理,所述图像包括多个目标标注框的步骤,直至所述损失收敛,得到目标锚框参数。
2.根据权利要求1所述的锚框参数的确定方法,其特征在于,所述根据输出特征图的跨度、预处理后图像的第一尺寸和预设的锚框参数生成各特征图的锚框的步骤包括:
根据输出特征图的跨度和预处理后图像的第一尺寸计算各特征图的第二尺寸;
根据输出特征图的跨度、各所述特征图的第二尺寸和预设的锚框参数生成各所述特征图的锚框。
3.根据权利要求1所述的锚框参数的确定方法,其特征在于,所述根据输出特征图的跨度及预设的锚框参数生成各所述特征图对应的基础锚框的步骤包括:
根据输出特征图的跨度及预设的锚框参数计算各所述特征图对应的基础锚框参数;
根据各所述基础锚框参数生成各所述特征图的基础锚框。
4.根据权利要求1所述的锚框参数的确定方法,其特征在于,所述根据所述目标锚框与所述目标标注框的多个匹配对计算损失的步骤包括:
计算所述目标锚框与所述目标标注框的每个匹配对的GIoU损失;
根据每个匹配对的GIoU损失计算GIoU损失均值及GIoU损失标准差;
将所述GIoU损失均值与所述GIoU损失均值的第一权重的第一乘积、所述GIoU损失标准差与所述GIoU损失标准差的第二权重的第二乘积进行累加,得到所述损失。
5.一种锚框参数的确定装置,其特征在于,包括:
获取单元,用于获取图像,对图像进行预处理,所述图像包括多个目标标注框;
生成单元,用于根据输出特征图的跨度、预处理后图像的第一尺寸和预设的锚框参数生成各特征图的锚框;所述生成子单元,包括:第一生成子单元,用于根据输出特征图的跨度及预设的锚框参数生成各所述特征图对应的基础锚框;第二生成子单元,用于根据各所述特征图的第二尺寸及所述基础锚框生成各所述特征图的锚框;锚框参数为锚框尺度和锚框高宽比;输出特征图的跨度为输入图像与特征图的尺寸之间的比值;
选择单元,用于根据多个所述目标标注框从多个所述锚框中选择出作为正样本的多个目标锚框,得到所述目标锚框与所述目标标注框的多个匹配对;
计算单元,用于根据所述目标锚框与所述目标标注框的多个匹配对计算损失;
更新单元,用于根据预设规则对锚框参数进行更新,并返回获取图像,对图像进行预处理,所述图像包括多个目标标注框的步骤,直至所述损失收敛,得到目标锚框参数。
6.根据权利要求5所述的锚框参数的确定装置,其特征在于,所述生成单元包括:
计算子单元,用于根据输出特征图的跨度和预处理后图像的第一尺寸计算各特征图的第二尺寸;
生成子单元,用于根据输出特征图的跨度、各所述特征图的第二尺寸和预设的锚框参数生成各所述特征图的锚框。
7.一种电子设备,其特征在于,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-4任意一项所述的锚框参数的确定方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行如权利要求1-4任意一项所述的锚框参数的确定方法。
CN202110933981.5A 2021-08-16 2021-08-16 一种锚框参数的确定方法、装置、设备及可读存储介质 Active CN113378864B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110933981.5A CN113378864B (zh) 2021-08-16 2021-08-16 一种锚框参数的确定方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110933981.5A CN113378864B (zh) 2021-08-16 2021-08-16 一种锚框参数的确定方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113378864A CN113378864A (zh) 2021-09-10
CN113378864B true CN113378864B (zh) 2021-11-12

Family

ID=77577162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110933981.5A Active CN113378864B (zh) 2021-08-16 2021-08-16 一种锚框参数的确定方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113378864B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457036B (zh) * 2022-11-10 2023-04-25 中国平安财产保险股份有限公司 检测模型训练方法、智能点数方法和相关设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399884A (zh) * 2019-07-10 2019-11-01 浙江理工大学 一种特征融合自适应锚框模型车辆检测方法
CN110443212A (zh) * 2019-08-12 2019-11-12 睿魔智能科技(深圳)有限公司 用于目标检测的正样本获取方法、装置、设备及存储介质
US10592732B1 (en) * 2017-12-14 2020-03-17 Perceive Corporation Probabilistic loss function for training network with triplets
CN112446376A (zh) * 2019-09-05 2021-03-05 中国科学院沈阳自动化研究所 一种工业图像智能分割压缩方法
CN112614121A (zh) * 2020-12-29 2021-04-06 国网青海省电力公司海南供电公司 一种多尺度小目标设备缺陷识别监测方法
CN112906502A (zh) * 2021-01-29 2021-06-04 北京百度网讯科技有限公司 目标检测模型的训练方法、装置、设备以及存储介质
CN113111879A (zh) * 2021-04-30 2021-07-13 上海睿钰生物科技有限公司 一种细胞检测的方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291637A (zh) * 2020-01-19 2020-06-16 中国科学院上海微系统与信息技术研究所 一种基于卷积神经网络的人脸检测方法、装置及设备
CN112085735B (zh) * 2020-09-28 2022-10-25 西安交通大学 一种基于自适应锚框的铝材质图像缺陷检测方法
CN112163541A (zh) * 2020-10-09 2021-01-01 上海云绅智能科技有限公司 一种3d目标检测方法、装置、电子设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10592732B1 (en) * 2017-12-14 2020-03-17 Perceive Corporation Probabilistic loss function for training network with triplets
CN110399884A (zh) * 2019-07-10 2019-11-01 浙江理工大学 一种特征融合自适应锚框模型车辆检测方法
CN110443212A (zh) * 2019-08-12 2019-11-12 睿魔智能科技(深圳)有限公司 用于目标检测的正样本获取方法、装置、设备及存储介质
CN112446376A (zh) * 2019-09-05 2021-03-05 中国科学院沈阳自动化研究所 一种工业图像智能分割压缩方法
CN112614121A (zh) * 2020-12-29 2021-04-06 国网青海省电力公司海南供电公司 一种多尺度小目标设备缺陷识别监测方法
CN112906502A (zh) * 2021-01-29 2021-06-04 北京百度网讯科技有限公司 目标检测模型的训练方法、装置、设备以及存储介质
CN113111879A (zh) * 2021-04-30 2021-07-13 上海睿钰生物科技有限公司 一种细胞检测的方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AABO: Adaptive Anchor Box Optimization for Object Detection via Bayesian Sub-sampling;Wenshuo Ma等;《arXiv》;20200718;第1-19页 *
Multi-task Enhanced Dam Crack Image Detection Based on Faster R-CNN;Jianghong Tang等;《2019 IEEE 4th International Conference on Image, Vision and Computing》;20200206;第336-340页 *
基于改进Faster R-CNN 的瓶装饮料商品;陈欢欢等;《集成技术》;20210531;第1-11页 *

Also Published As

Publication number Publication date
CN113378864A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN108038474B (zh) 人脸检测方法、卷积神经网络参数的训练方法、装置及介质
CN109583483B (zh) 一种基于卷积神经网络的目标检测方法和系统
CN110717527B (zh) 结合空洞空间金字塔结构的目标检测模型确定方法
CN109960742B (zh) 局部信息的搜索方法及装置
CN109840477B (zh) 基于特征变换的受遮挡人脸识别方法及装置
CN111161349B (zh) 物体姿态估计方法、装置与设备
US20180068461A1 (en) Posture estimating apparatus, posture estimating method and storing medium
EP3905194A1 (en) Pose estimation method and apparatus
CN112200056B (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN109934196A (zh) 人脸姿态参数评估方法、装置、电子设备及可读存储介质
WO2022089143A1 (zh) 模拟图像生成的方法、电子设备及存储介质
CN110909623B (zh) 三维目标检测方法及三维目标检测器
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN115631112B (zh) 一种基于深度学习的建筑轮廓矫正方法及装置
CN107948586A (zh) 基于视频拼接的跨区域运动目标检测方法和装置
CN113705669A (zh) 一种数据匹配方法、装置、电子设备以及存储介质
CN113378864B (zh) 一种锚框参数的确定方法、装置、设备及可读存储介质
CN111161348B (zh) 一种基于单目相机的物体位姿估计方法、装置及设备
CN113762049B (zh) 内容识别方法、装置、存储介质和终端设备
CN117095300B (zh) 建筑图像处理方法、装置、计算机设备和存储介质
CN112270748B (zh) 基于图像的三维重建方法及装置
CN113838069A (zh) 基于平面度约束的点云分割方法和系统
JP2018180646A (ja) 物体候補領域推定装置、物体候補領域推定方法、及び物体候補領域推定プログラム
CN109816709B (zh) 基于单目摄像头的深度估计方法、装置及设备
CN115661444A (zh) 图像处理方法、装置、设备、存储介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant