CN113239982A - 检测模型的训练方法、目标检测方法、装置和电子系统 - Google Patents

检测模型的训练方法、目标检测方法、装置和电子系统 Download PDF

Info

Publication number
CN113239982A
CN113239982A CN202110445431.9A CN202110445431A CN113239982A CN 113239982 A CN113239982 A CN 113239982A CN 202110445431 A CN202110445431 A CN 202110445431A CN 113239982 A CN113239982 A CN 113239982A
Authority
CN
China
Prior art keywords
training
network
box
image
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110445431.9A
Other languages
English (en)
Inventor
陈坤鹏
姚聪
王鹏
周争光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuangshi Technology Co Ltd
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Kuangshi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuangshi Technology Co Ltd filed Critical Beijing Kuangshi Technology Co Ltd
Priority to CN202110445431.9A priority Critical patent/CN113239982A/zh
Publication of CN113239982A publication Critical patent/CN113239982A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种检测模型的训练方法、目标检测方法、装置和电子系统,涉及目标检测技术领域,该检测模型的训练方法包括:在至少一个训练迭代周期内,从图像样本集中获取当前周期对应的图像样本,并通过骨干网络获取每个图像样本的特征图,之后基于图像样本的特征图和图像样本上的原始标签生成新样本标签;基于分配新样本标签后的图像样本训练分类网络、回归网络和多类别预测网络,并以三个网络分别对应的损失函数为训练约束条件控制训练迭代次数,直至停止训练后建立用于目标检测的检测模型。通过本发明,可以缓解检测模型对图像中的目标标注信息相对比较有限的问题,提升检测模型的训练精度。

Description

检测模型的训练方法、目标检测方法、装置和电子系统
技术领域
本发明涉及目标检测技术领域,尤其是涉及一种检测模型的训练方法、目标检测方法、装置和电子系统。
背景技术
单阶段检测模型或双阶段检测模型往往有两个分支,分别是回归分支和分类分支;回归分支用于预测图像中目标的位置,分类分支用于预测图像中目标的类别。
但是检测模型的训练需要对大量图像做标注,通常标注信息包含目标物体的类别和位置信息(也即真值信息ground truth),往往需要大量的人力和时间成本,因此导致图像中的目标标注信息相对比较有限,一定程度上影响了检测模型的训练精度。
发明内容
有鉴于此,本发明的目的在于提供一种检测模型的训练方法、目标检测方法、装置和电子系统,以缓解检测模型对图像中的目标标注信息相对比较有限的问题,提升检测模型的训练精度。
第一方面,本发明实施例提供了一种检测模型的训练方法,所述方法应用于电子设备,所述检测模型包括骨干网络,以及与所述骨干网络连接的分类网络、回归网络和多类别预测网络;所述方法包括:在至少一个训练迭代周期内,均从图像样本集中获取当前周期对应的图像样本子集,将所述图像样本子集中的图像样本,逐一输入所述骨干网络,得到每个所述图像样本的特征图;基于所述图像样本的特征图和所述图像样本上的原始标签生成新样本标签;所述新样本标签包括所述图像样本上真值框对应类别的第一正样本标签和包含各个所述真值框对应类别的分类置信度的预测样本标签;基于分配所述新样本标签后的所述图像样本训练所述分类网络、回归网络和多类别预测网络,并以所述分类网络、回归网络和多类别预测网络分别对应的损失函数为训练约束条件控制训练迭代次数,直至停止训练;将停止训练时的所述骨干网络、所述分类网络和所述回归网络组成用于目标检测的检测模型。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,基于所述图像样本的特征图和所述图像样本上的原始标签生成新样本标签的步骤,包括:对于所述图像样本的特征图,以所述特征图上的像素点为坐标中心生成锚框组;基于所述锚框组中的锚框与所述图像样本上标注的真值框的交并比IoU,以及所述真值框的原始标签为所述锚框分配新样本标签。
结合第一方面或第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述预测样本标签包括所述真值框对应类别的分类置信度的第二正样本标签,以及负样本标签。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述基于所述锚框组中的锚框与所述图像样本上标注的真值框的交并比IoU,以及所述真值框的原始标签为所述锚框分配新样本标签的步骤,包括:计算所述锚框组中的锚框与所述图像样本上标注的真值框的IoU;如果所述锚框组中的第一类锚框与所述图像样本上的第一真值框的IoU大于第一阈值,为所述第一类锚框分配第一正样本标签,且所述第一正样本标签对应的目标类别为所述第一真值框对应的原始标签中的类别。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述基于所述锚框组中的锚框与所述图像样本上标注的真值框的交并比IoU,以及所述真值框的原始标签为所述锚框分配新样本标签的步骤,还包括:如果所述锚框组中的第二类锚框与所述图像样本上的各个真值框的IoU均小于第二阈值,为所述第二类锚框分配负样本标签;如果所述锚框组中的第三类锚框与所述图像样本上的第三真值框的IoU介于所述第一阈值和所述第二阈值之间,为所述第三类锚框分配第二正样本标签,且所述第二正样本标签对应有所述第三真值框对应类别的分类置信度;其中,所述第一阈值大于所述第二阈值。
结合第一方面的第四种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述方法还包括:如果所述锚框组中的第三类锚框与所述图像样本上的第三真值框的IoU介于所述第一阈值和所述第二阈值之间,根据所述第三类锚框与所述第三真值框的IoU生成所述第三真值框对应类别的分类置信度;根据所述第三类锚框与除所述第三真值框之外的其它真值框的IoU,生成所述其它真值框对应类别的其它置信度;其中,所述分类置信度与所述其它置信度之和等于1;在所述第二正样本标签中添加所述其它真值框对应类别的其它置信度。
结合第一方面的任一上述实施方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述以所述分类网络、回归网络和多类别预测网络分别对应的损失函数为训练约束条件控制训练迭代次数的步骤,包括:当完成所述当前周期的训练时,根据所述当前周期得到的预测结果计算所述分类网络的第一损失函数值、所述回归网络的第二损失函数值和所述多类别预测网络的第三损失函数值;按照预设的权重对所述第一损失函数值、所述第二损失函数值和所述第三损失函数值进行加权求和,得到总损失值;如果所述总损失值满足预设收敛条件,停止训练。
结合第一方面的第六种可能的实施方式,本发明实施例提供了第一方面的第七种可能的实施方式,其中,所述根据所述当前周期得到的预测结果计算所述多类别预测网络的第三损失函数值的步骤,包括:通过以下公式计算第三损失函数值:
Figure BDA0003036095530000041
其中,Lm表示第三损失函数值,Ni表示分配有所述预测样本标签中的第二正样本标签的第三类锚框的总数,yj表示所述第三类锚框中第j个锚框对应类别的分类置信度,softmax(aj)表示所述第j个锚框对应的预测结果中对应类别的分类得分。
结合第一方面的第七种可能的实施方式,本发明实施例提供了第一方面的第八种可能的实施方式,其中,所述按照预设的权重对所述第一损失函数值、所述第二损失函数值和所述第三损失函数值进行加权求和,得到总损失值的步骤,包括:按照下述公式对所述第一损失函数值、所述第二损失函数值和所述第三损失函数值进行加权求和:L=wLm+Lcls+Lreg其中,L表示总损失值,w为预设权重,Lm表示第三损失函数值,Lcls表示第一损失函数值,Lreg表示第二损失函数值;w取值为(0,0.2)区间内的值。
结合第一方面的第八种可能的实施方式,本发明实施例提供了第一方面的第九种可能的实施方式,其中,所述w为0.1。
第二方面,本发明实施例还提供一种目标检测方法,所述方法应用于运行有检测模型的电子设备,所述检测模型为经前述实施例中任一项所述的检测模型的训练方法训练得到的模型;所述方法包括:将待检测图像输入所述检测模型;通过所述检测模型对所述待检测图像进行对象检测和定位,得到所述待检测图像对应的检测结果。
第三方面,本发明实施例还提供一种检测模型的训练装置,所述装置应用于电子设备,所述检测模型包括骨干网络,以及与所述骨干网络连接的分类网络、回归网络和多类别预测网络;所述装置包括:特征图获取模块,用于在至少一个训练迭代周期内,从图像样本集中获取当前周期对应的图像样本子集,将所述图像样本子集中的图像样本,逐一输入所述骨干网络,得到每个所述图像样本的特征图;标签分配模块,用于基于所述图像样本的特征图和所述图像样本上的原始标签生成新样本标签;所述新样本标签包括所述图像样本上真值框对应的类别的第一正样本标签和所述真值框对应类别的分类置信度的预测样本标签;训练模块,用于基于分配所述新样本标签后的所述图像样本训练所述分类网络、回归网络和多类别预测网络,并以所述分类网络、回归网络和多类别预测网络分别对应的损失函数为训练约束条件控制训练迭代次数,直至停止训练,得到训练好的检测模型。
第四方面,本发明实施例还提供一种目标检测装置,所述装置应用于运行有检测模型的电子设备,所述检测模型为经前述实施例中任一项所述的检测模型的训练方法训练得到的模型;所述装置包括:图像输入模块,用于将待检测图像输入所述检测模型;检测结果获取模块,用于通过所述检测模型对所述待检测图像进行对象检测和定位,得到所述待检测图像对应的检测结果。
第五方面,本发明实施例还提供一种电子系统,所述电子系统包括:处理设备和存储装置;所述存储装置上存储有计算机程序,所述计算机程序在被所述处理设备运行时执行如前述实施例中任一项所述的检测模型的训练方法或前述实施例所述的目标检测方法。
第六方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理设备运行时执行如前述实施例任一项所述的检测模型的训练方法或前述实施例所述的目标检测方法的步骤。
本发明实施例带来了以下有益效果:
本发明实施例提供了一种检测模型的训练方法、目标检测方法、装置和电子系统,在至少一个训练迭代周期内,从图像样本集中获取当前周期对应的图像样本子集,并通过骨干网络获取该图像样本子集中的图像样本的特征图,之后基于图像样本的特征图和该图像样本上的原始标签生成新样本标签,该新样本标签包含图像样本上真值框对应类别的第一正样本标签以及该真值框对应类别的分类置信度的预测样本标签;基于分配新样本标签后的图像样本训练分类网络、回归网络和多类别预测网络,并以三个网络分别对应的损失函数为训练约束条件控制训练迭代次数,直至停止训练;将停止训练时的骨干网络、分类网络和回归网络组成用于目标检测的检测模型。上述检测模型的训练方法中,在检测模型包括分类网络和回归网络的基础上额外增加多类别预测网络,以及在新样本标签包括各个真值框对应类别的分类置信度的预测样本标签的方式增加了样本标签的总数量,基于分配新样本标签后的图像样本训练分类网络、回归网络和多类别预测网络,以三个网络分别对应的损失函数为训练约束条件控制训练迭代次数,缓解了检测模型对图像中的目标标注信息相对比较有限的问题,有效提高了检测模型的检测精度。
本发明的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本发明的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种电子系统的结构示意图;
图2为本发明实施例二提供的一种检测模型的结构示意图;
图3为本发明实施例二提供的一种检测模型的训练方法的流程示意图;
图4为本发明实施例三提供的一种检测模型的训练方法的流程示意图;
图5为本发明实施例四提供的一种检测模型的示意图;
图6为本发明实施例四提供的一种检测模型的训练方法的流程示意图;
图7为本发明实施例五提供的一种目标检测方法的流程示意图;
图8为本发明实施例六提供的一种检测模型的训练装置的结构示意图;
图9为本发明实施例七提供的一种目标检测装置的结构示意图;
图10为本发明实施例八提供的一种目标检测装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前检测模型在模型训练阶段所用图像中的目标标注信息相对比较有限,一定程度上影响了检测模型的训练精度,基于此,本发明实施例提供的一种检测模型的训练方法、目标检测方法、装置以及系统,可以缓解检测模型对图像中的目标标注信息相对比较有限的问题,提升检测模型的训练精度。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种检测模型的训练方法进行详细介绍。
实施例一
首先,参照图1所示的电子系统100的结构示意图。该电子系统可以用于实现本发明实施例的检测模型的训练方法、目标检测方法和装置。
如图1所示的一种电子系统的结构示意图,电子系统100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个图像采集设备110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子系统100的组件和结构只是示例性的,而非限制性的,根据需要,电子系统也可以具有其他组件和结构。
处理设备102可以为服务器、智能终端,或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对电子系统100中的其它组件的数据进行处理,还可以控制电子系统100中的其它组件以执行检测模型的训练和目标检测的功能。
存储装置104可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理设备102可以运行程序指令,以实现下文的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如应用程序使用和/或产生的各种数据等。
输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
图像采集设备110可以获取待检测图像,并且将采集到的图像存储在存储装置104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的检测模型的训练方法、目标检测方法、装置和电子系统中的各器件可以集成设置,也可以分散设置,诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体,而将图像采集设备110设置于可以采集到图像的指定位置。当上述电子系统中的各器件集成设置时,该电子系统可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
实施例二
作为一种可能的实现方式,参见图2,本实施例提供了一种目标检测模型,检测模型包括:骨干网络,以及与骨干网络连接的分类网络、回归网络和多类别预测网络。
骨干网络用于提取图像样本的语义特征并输出图像样本的特征图,骨干网络可以包括ResNet、AlexNet或VGG等,具体可根据实际需要自行选择。回归网络用于定位目标在特征图中的位置坐标。具体地,对特征图中的不同位置进行单独的图像框选,这样就得到了若干个包含指定目标的检测框以及该检测框在特征图上的位置坐标,以检测框为矩形框为例,该位置坐标通常可以用矩形框左上角和右下角的坐标来表示。分类网络用于确定特征图中包含目标的检测框所属分类类别(如行人、车辆、背景等)。多类别预测网络用于同时预测检测框分别属于不同分类类别的分类置信度。
在上述检测模型包括骨干网络、分类网络、回归网络和多类别预测网络的基础上,本实施例提供了一种检测模型的训练方法,参见图3所示的一种检测模型的训练方法的流程示意图,该方法可以应用于上述电子系统,主要包括以下步骤S302至步骤S310:
步骤S302,在至少一个训练迭代周期内,从图像样本集中获取当前周期对应的图像样本子集,将图像样本子集中的图像样本,逐一输入骨干网络,得到每个图像样本的特征图。
上述图像样本集中的图像样本均为已标注有真值框的样本,每个真值框对应有目标类别以及坐标信息,在模型训练阶段,为了提升模型训练效果,各个训练迭代周期对应的图像样本子集可以不同,这些图像样本子集可以从图像样本集中随机抽选,每个图像样本子集包含的图像样本的个数可以根据需要预先设定,本发明实施例对此不进行限定。
步骤S304,基于图像样本的特征图和图像样本上的原始标签生成新样本标签;新样本标签包括图像样本上真值框对应类别的第一正样本标签和真值框对应类别的分类置信度的预测样本标签。
上述锚框指的是在特征图中使用滑动窗口的操作方式进行待识别目标(如行人、车辆等)的检测,滑动窗口的中心位置均对应于该特征图上的一个像素点,即为锚点(anchor),通过一个在特征图上滑动的窗口为每个锚点位置生成预先设置好长宽比与面积的锚框(anchor-box)。同一像素点对应的所有锚框便组成了一个锚框组。
因图像样本集中的图像样本标注有包含指定目标的真值框,因此可以通过计算锚框组中的锚框与图像样本上标注的真值框的交并比(Intersection over Union,简称IoU),为锚框分配样本标签。
本实施例中,为了更好地利用图像样本上的标注信息,增加样本标签的数量,在样本标签包括真值框对应类别的第一正样本标签的基础上,额外生成了真值框对应类别的分类置信度的预测样本标签,其中,带有预测样本标签的锚框可以是IoU介于第一正样本标签对应的第一IoU阈值及负样本标签对应的第二IoU阈值之间的锚框。
步骤S306,基于分配新样本标签后的图像样本训练分类网络、回归网络和多类别预测网络,并以分类网络、回归网络和多类别预测网络分别对应的损失函数为训练约束条件控制训练迭代次数,直至停止训练。
本实施例中,分类网络、回归网络和多类别预测网络均分别对应具有各自的损失函数,因此,模型训练的训练约束条件将参考分类网络、回归网络和多类别预测网络分别对应的损失函数,控制模型训练的迭代次数,以训练出性能更好的检测模型。
步骤S308,将停止训练时的骨干网络、分类网络和回归网络组成用于目标检测的检测模型。
本发明实施例中,训练好的检测模型仅包含上述骨干网络,以及被训练完成的分类网络和回归网络,即检测模型最终由停止训练时的骨干网络、分类网络和回归网络组成,而上述多类别预测网络仅在检测模型训练阶段使用,以提升模型的训练效果。
上述检测模型的训练方法中,在检测模型的模型训练阶段,在至少一个训练迭代周期内,从图像样本集中获取当前周期对应的图像样本子集,并通过骨干网络获取该图像样本子集中的每个图像样本的特征图,之后基于图像样本的特征图和该图像样本上的原始标签生成新样本标签,该新样本标签包含图像样本上真值框对应类别的第一正样本标签以及该真值框对应类别的分类置信度的预测样本标签;基于分配新样本标签后的图像样本训练分类网络、回归网络和多类别预测网络,并以三个网络分别对应的损失函数为训练约束条件控制训练迭代次数,直至停止训练;将停止训练时的骨干网络、分类网络和回归网络组成用于目标检测的检测模型。上述检测模型的训练方法中,在检测模型包括分类网络和回归网络的基础上额外增加多类别预测网络,以及在新样本标签包括各个真值框对应类别的分类置信度的预测样本标签的方式增加了样本标签的总数量,基于分配新样本标签后的图像样本训练分类网络、回归网络和多类别预测网络,以三个网络分别对应的损失函数为训练约束条件控制训练迭代次数,缓解了检测模型对图像中的目标标注信息相对比较有限的问题,有效提高了检测模型的检测精度。
实施例三
在上述实施例二的基础上,为了进一步提高新样本标签的可靠性,本实施例对上述步骤S304中新样本标签的生成方式(即:基于图像样本的特征图和图像样本上的原始标签生成新样本标签)进行了优化,具体可采用以下操作步骤:
步骤1,对于图像样本的特征图,均以该特征图上的像素点为坐标中心生成锚框组。
步骤2,基于上述锚框组中的锚框与上述图像样本上标注的真值框的IoU,以及真值框的原始标签为锚框分配新样本标签。
在上述实施例二的基础上或者基于上述步骤1至步骤2的基础上,为了保证样本标签数量充足以确保检测模型训练的可靠性,本实施例的预测样本标签可以具体包括真值框对应类别的分类置信度的第二正样本标签,以及负样本标签。
为了进一步提高样本标签的分配效率,本实施例对上述步骤2中样本标签的分配方式(即:基于锚框组中的锚框与图像样本上标注的真值框的交并比IoU,以及真值框的原始标签为锚框分配新样本标签)进行了优化,具体可采用以下操作步骤:
步骤21,计算锚框组中的锚框与图像样本上标注的真值框的IoU;为该IoU设置第一阈值和第二阈值,其中,第一阈值大于第二阈值。
步骤22,如果该锚框组中的第一类锚框与该图像样本上的第一真值框的IoU大于第一阈值,为第一类锚框分配第一正样本标签,且第一正样本标签对应的目标类别为第一真值框对应的原始标签中的类别。
通过上述步骤21至步骤22可以提高第一正样本标签的分配效率,基于此,为了同时提高上述预测样本标签的分配效率,上述步骤2中样本标签的分配方式还可以包括以下步骤23至步骤24:
步骤23,如果该锚框组中的第二类锚框与该图像样本上的各个真值框的IoU均小于第二阈值,为第二类锚框分配负样本标签。
步骤24,如果该锚框组中的第三类锚框与该图像样本上的第三真值框的IoU介于第一阈值和第二阈值之间,为第三类锚框分配第二正样本标签,且第二正样本标签对应有第三真值框对应类别的分类置信度。
参见图4所示的一种检测模型的训练方法的流程示意图,该方法预先为IoU设置了第一阈值和第二阈值,其中,第一阈值大于第二阈值。例如,第一阈值为0.5,第二阈值为0.4;或者第一阈值为0.55,第二阈值为0.35等,参见图4,该方法主要包括以下步骤:
步骤S402,在至少一个训练迭代周期内,从图像样本集中获取当前周期对应的图像样本子集,将图像样本子集中的图像样本,逐一输入骨干网络,得到每个图像样本的特征图。
步骤S404,对于每个图像样本的特征图,均以特征图上的像素点为坐标中心生成锚框组;计算锚框组中的锚框与图像样本上标注的真值框的IoU。
对于每个锚框,均执行下述步骤S406至步骤S414。
步骤S406,判断该锚框组中的锚框与该图像样本上标注的真值框的IoU是否大于第一阈值;如果是(即该锚框组中的锚框与该图像样本上标注的真值框的IoU大于第一阈值),则执行下述步骤S408;如果否(即该锚框组中的锚框与该图像样本上标注的真值框的IoU不大于第一阈值),则执行下述步骤S410。
步骤S408,将该锚框组中的锚框确定为第一类锚框,将该第一类锚框对应的真值框确定为第一真值框;为该第一类锚框分配第一正样本标签,且第一正样本标签对应的目标类别为该第一真值框对应的原始标签中的类别。
步骤S410,判断该锚框与该图像样本上标注的各个真值框的IoU是否均小于第二阈值;如果是(该锚框与该图像样本上标注的各个真值框的IoU均小于第二阈值),则执行下述步骤S412;如果否(即该锚框与该图像样本上标注的真值框的IoU有介于第一阈值和第二阈值之间的),则执行下述步骤S414。
步骤S412,将该锚框确定为第二类锚框,为第二类锚框分配负样本标签。
步骤S414,将该锚框确定为第三类锚框,将该第三类锚框对应的真值框确定为第三真值框(该第三真值框与该第三类锚框的IoU介于第一阈值和第二阈值之间),为该第三类锚框分配第二正样本标签,且第二正样本标签对应有该第三真值框对应类别的分类置信度。
这里需要说明的是,在计算完锚框与真值框的IoU之后,如果该锚框与某个真值框的IoU介于上述第一阈值和第二阈值之间,则说明该锚框有一定的参考价值,不应该被直接忽略,可以基于该锚框与各个真值框的IoU大小确定该锚框对应各个目标类别的分类置信度,以目标类别为K类为例,其中,第m个锚框对应的第i类的真值框的面积交集参量
Figure BDA0003036095530000141
其中,area表示面积函数,W表示第m个锚框,Bi表示第i类的真值框,W∩{Bi}表示第三类锚框与第i类的真值框相交的面积量,Lm为一个向量组,该向量组由第m个锚框对应的每个目标类别的真值框的面积交集参量组成,则第i类的真值框的目标类别对应的分类置信度为Lm[i]/sum(Lm),sum(Lm)表示第m个锚框对应所有目标类别的面积交集参量之和。
上述分类置信度以目标类别的总数K为例进行的说明,如果加上背景也算一个类别的话,则上述目标类别总数为K+1,背景对应的面积交集参量
Figure BDA0003036095530000151
其中∪i∈K{Bi}为K个真值框的并集。后续K+1个分类置信度的计算过程同上所述。
在上述步骤S408、步骤S412、步骤S414均完成后,锚框组中的锚框均完成了标签分配过程,参见表1所示,以锚框1、锚框2和锚框3为例。
表1
目标类别 锚框1 锚框2 锚框3
人体 1 0 1(0.6)
车辆 0 0 1(0.4)
上述表1中,锚框1对应的标签为人体的正样本标签,锚框2对应的标签为负样本标签,锚框3对应的标签为人体置信度为0.6,车辆置信度为0.4的正样本标签。由表1可以看出,锚框3可以保留anchor box区域对多类前景的识别能力,进而增加了正样本的数量,缓解上述提到的正负样本不均衡的问题。
当然,上述锚框的标签中未给出锚框的坐标信息,每个锚框的坐标信息可以基于该锚框对应的真值框确定,呈现形式可以为表1之外的其它形式,本发明实施例对此不进行限定。
步骤S416,基于分配样本标签后的锚框训练分类网络、回归网络和多类别预测网络,并以分类网络、回归网络和多类别预测网络分别对应的损失函数为训练约束条件控制训练迭代次数,直至停止训练。
步骤S418,将停止训练时的骨干网络、分类网络和回归网络组成用于目标检测的检测模型。
上述检测模型的训练方法中,对于每一个训练迭代周期,均从图像样本集中获取当前周期对应的图像样本子集,并通过骨干网络获取该图像样本子集中的每个图像样本的特征图,之后以每个图像样本的特征图上的像素点为坐标中心生成锚框组,通过计算锚框与真值框的IoU,基于锚框与真值框的IoU与第一阈值和第二阈值的大小关系,分配样本标签,即为第一类锚框分配第一正样本标签及第一正样本标签对应的目标类别,为第二类锚框分配负样本标签,为第三类锚框分配第二正样本标签及第二正样本标签对应各个目标类别的分类置信度,基于分配样本标签后的锚框训练分类网络、回归网络和多类别预测网络,并以分类网络、回归网络和多类别预测网络分别对应的损失函数为训练约束条件控制训练迭代次数,直至停止训练,得到检测模型。这种通过第一阈值和第二阈值确定锚框所属类别的方式能够准确可靠地分配样本标签,提升了标签分配效率,并增加了正样本标签的总数量,基于分配样本标签后的锚框训练分类网络、回归网络和多类别预测网络,以三个网络分别对应的损失函数为训练约束条件控制训练迭代次数,缓解了检测模型对图像中的目标标注信息相对比较有限的问题,有效提高了检测模型的检测精度。
在上述为实施例三的基础上,为了进一步提高第二正样本标签的可靠性,对上述第二正样本标签的生成方式进行了优化,使第二正样本标签对应有第三真值框对应类别的分类置信度和除第三真值框之外的其它真值框对应类别的其它置信度,具体为:
如果该锚框组中的第三类锚框与该图像样本上的第三真值框的IoU介于第一阈值和第二阈值之间,根据第三类锚框与第三真值框的IoU生成第三真值框对应类别的分类置信度;根据第三类锚框与除第三真值框之外的其它真值框的IoU,生成其它真值框对应类别的其它置信度;其中,分类置信度与其它置信度之和等于1;在第二正样本标签中添加其它真值框对应类别的其它置信度。
在上述实施例二或实施例三的基础上,为了进一步提高模型训练效率,对上述以分类网络、回归网络和多类别预测网络分别对应的损失函数为训练约束条件控制训练迭代次数的方式进行了优化,具体为:
(1)当完成当前周期的训练时,根据当前周期得到的预测结果计算分类网络的第一损失函数值、回归网络的第二损失函数值和多类别预测网络的第三损失函数值。
对于分类网络的第一损失函数值,可调用Focal loss函数进行计算,具体可通过以下公式实现:
PL(Pl,y)=-(1-Pl)ylog(Pl)
Figure BDA0003036095530000171
其中,γ是超参数,默认取值为2,y是ground truth(y=1表示前景,y=0表示背景),Pl是对应样本类别的预测得分。
对于回归网络的第二损失函数值,可调用smooth L1 loss函数进行计算,具体可通过以下公式实现:
Figure BDA0003036095530000172
其中,x是预测值和真实标注值之间的差。
对于多类别预测网络的第三损失函数值,具体可通过以下公式进行计算:
Figure BDA0003036095530000173
其中,Lm表示第三损失函数值,Ni表示分配有预测样本标签中的第二正样本标签的第三类锚框的总数,yj表示第三类锚框中第j个锚框对应类别的分类置信度,softmax(aj)表示第j个锚框对应的预测结果中对应类别的分类得分。
上述损失函数的具体函数仅仅是举例说明,具体实现时可以根据实际需要选择损失函数,本发明对此不进行限定。
(2)按照预设的权重对第一损失函数值、第二损失函数值和第三损失函数值进行加权求和,得到总损失值。
具体地,可按照下述公式对第一损失函数值、第二损失函数值和第三损失函数值进行加权求和:
L=wLm+Lcls+Lreg
其中,L表示总损失值,w为预设权重,Lm表示第三损失函数值,Lcls表示第一损失函数值,Lreg表示第二损失函数值;w取值为(0,0.2)区间内的值,优选w为0.1。以w=0.1,以ResNet50为backbone,retinaNet为基线方法,做了简单的对比实验,对比加入额外分支辅助训练和原baseline的对比效果。实验配置以coco train2017为训练集,coco 2017val为验证集,训练19个epoch,以mAP为测试指标(0到1之间,越高表面模型精度越高)。
方法 Epoch15 Epoch16 Epoch17 Epoch18 Epoch19
Baseline 0.344 0.347 0.347 0.347 0.347
MCB w=0.5 0.337 0.339 0.340 0.340 0.340
MCB w=0.3 0.346 0.347 0.348 0.348 0.349
MCB w=0.1 0.347 0.350 0.350 0.351 0.351
MCB w=0.05 0.344 0.348 0.348 0.347 0.347
实验表明,在以较小的权重(w=0.1)参与计算损失时,额外的MCB分支可以有效提高模型的性能。
(3)如果总损失值满足预设收敛条件,停止训练。
实施例四
作为一种可能的实现方式,参见图5,本实施例提供了一种目标检测模型,检测模型包括:骨干网络,以及与骨干网络连接的分类网络、回归网络和多类别预测网络。下面以待识别目标为行人和车辆、骨干网络为ResNet模型为例,对上述目标检测模型的训练方法进行具体描述。参见图6所示的一种检测模型的训练方法的示意图,该方法主要包括以下步骤:
步骤S602,在至少一个训练迭代周期内,从图像样本集中获取当前周期对应的图像样本子集,将图像样本子集中的图像样本,逐一输入ResNet模型,ResNet模型提取图像样本的语义特征并输出得到每个图像样本的特征图。
为便于描述,参照图5,将得到的每个特征图的大小均记为W*H*C,其中,W代表特征图的宽度,H代表特征图的高度,C代表特征图的深度。
步骤S604,以特征图的每个像素点为中心,按照预设尺寸在特征图上生成锚框,每个像素点将会对应多个不同尺寸的锚框,将每个锚框和图像样本中各个类别对应的真值框进行IoU计算,得到每个锚框与每个类别的真值框的IoU值。
步骤S606,为IoU值大于0.5的锚框分配对应类别的正样本标签,为IoU值小于0.4的锚框分配负样本标签。其中,正样本标签的标注值记为1,负样本标签的标注值记为0。
步骤S608,将与各个类别对应的真值框均介于0.4到0.5之间的锚框挑选出来,计算这部分锚框同时属于所有不同类别的分类概率值(也即上述分类置信度)。其中,所有不同类别的分类概率值相加等于1。
例如,可调用softmax函数计算分类概率值,也可采用其他方式计算分类概率,可根据实际需要自行选择。所有不同类别的分类概率值相加所得结果等于1,例如,该锚框属于行人、车辆、动物和背景的分类概率值分别为0.8、0.15、0.03、0.02。
步骤S610,为与各个类别对应的真值框计算得到IoU值介于0.4到0.5之间的锚框分配分类概率标签,该分类概率标签具体为正样本标签和对应的分类概率值。
为便于描述,将已经分配有正样本标签(1)的锚框记为锚框A,将已经分配有负样本标签(0)的锚框记为锚框B,将已经分配有分类概率标签的锚框记为锚框C。
步骤S612,将带有正样本标签(1)的锚框A、带有负样本标签(0)的锚框B以及上述锚框C都作为分类网络和回归网络和多类别预测网络的训练样本,对分类网络、回归网络和多类别预测网络进行训练,得到每个模型输出的损失值。
上述分类网络用于确定特征图中包含目标的检测框所属分类类别(即行人、车辆和背景)。例如,参照图5,分类网络最终的输出为H*W*KA,K表示参与训练的类别数,A表示每个位置总共的锚框数量。
所述回归网络用于定位目标在特征图中的位置坐标。具体地,回归网络能够对特征图中的不同位置进行单独的图像框选,这样就得到了若干个行人检测框、车辆检测框、背景检测框以及不同检测框在特征图上的位置坐标,以检测框为矩形框为例,该位置坐标通常可以用矩形框左上角和右下角的坐标来表示。例如,参照图5,当参与训练的类别数为4时,最终的输出为H*W*4A,A表示每个位置总共的锚框数量。
上述多类别预测网络用于同时预测检测框分别属于不同分类类别的分类置信度。其中,多类别预测网络在结构上与分类网络保持一致,最终的输出为H*W*KA,K表示参与训练的类别数,A表示每个位置总共的锚框数量。
步骤S614,按照预设的权重对分类网络、回归网络和多类别预测网络分别输出的损失函数值进行加权求和,得到总损失值。
总损失值的具体计算方式同上所述,这里不再赘述。
步骤S616,基于总损失值调整三个模型的参数,直至总损失值收敛至预设值,停止训练;将停止训练时的骨干网络、分类网络和回归网络组成用于目标检测的检测模型。
上述检测模型的训练方法中,在至少一个训练迭代周期内,从图像样本集中获取当前周期对应的图像样本子集,将图像样本子集中的图像样本,并通过ResNet模型获取该图像样本子集中的每个图像样本的特征图;以特征图的每个像素点为中心,按照预设尺寸在特征图上生成锚框,每个像素点将会对应多个不同尺寸的锚框,将每个锚框和图像样本中各个类别对应的真值框进行IoU计算,为IoU值大于0.5的锚框分配对应类别的正样本标签,为IoU值小于0.4的锚框分配负样本标签,为与各个类别对应的真值框均介于0.4到0.5之间的锚框分配分类概率标签;使用带有正、负样本标签的锚框训练分类网络和回归网络,使用带有分类概率标签的锚框训练多类别预测网络;按照预设的权重对分类网络、回归网络和多类别预测网络分别输出的损失函数值进行加权求和,得到总损失值;基于总损失值调整三个模型的参数,直至总损失值收敛至预设值,停止训练,得到检测模型。上述检测模型的训练方法中,在检测模型包括分类网络和回归网络的基础上额外增加多类别预测网络,以及对基于锚框与真值框的IoU为锚框分配样本标签的操作方式进行了调整,在样本标签包括对应类别的正样本标签和负样本标签的基础上,额外生成了包含正样本标签和对应的分类概率值的分类概率标签,增加了正样本的总数量,基于分配样本标签后的锚框训练分类网络、回归网络和多类别预测网络,以三个网络分别对应的损失函数为训练约束条件控制训练迭代次数,缓解了检测模型对图像中的目标标注信息相对比较有限的问题,有效提高了检测模型的检测精度。
实施例五
参见图7,本实施例提供了一种目标检测方法,该方法可以应用于运行有检测模型的电子设备,该检测模型为经上述实施例二至四任意一项所述的检测模型的训练方法训练得到的模型,该方法主要包括以下步骤S702至步骤S704:
步骤S702,将待检测图像输入检测模型;
步骤S704,通过检测模型对待检测图像进行对象检测和定位,得到待检测图像对应的检测结果。
上述目标检测方法中,由于检测模型是由上述实施例二至四任意一项所述的检测模型的训练方法训练得到,因此该目标检测方法具有与检测模型的训练方法相同的技术效果,即缓解了检测模型对图像中的目标标注信息相对比较有限的问题,有效提高了检测模型的检测精度。
实施例六
对于实施例二中所提供的检测模型的训练方法,本发明实施例提供了一种检测模型的训练装置,参见图8所示的一种检测模型的训练装置的结构示意图,该装置包括以下模块:
特征图获取模块82,用于在至少一个训练迭代周期内,从图像样本集中获取当前周期对应的图像样本子集,将图像样本子集中的图像样本,逐一输入骨干网络,得到每个图像样本的特征图;
标签分配模块84,用于基于所述图像样本的特征图和所述图像样本上的原始标签生成新样本标签;所述新样本标签包括所述图像样本上真值框对应的类别的第一正样本标签和所述真值框对应类别的分类置信度的预测样本标签;
训练模块86,用于基于分配新样本标签后的图像样本训练分类网络、回归网络和多类别预测网络,并以分类网络、回归网络和多类别预测网络分别对应的损失函数为训练约束条件控制训练迭代次数,直至停止训练,得到训练好的检测模型。
本发明实施例提供的检测模型的训练装置,在至少一个训练迭代周期内,从图像样本集中获取当前周期对应的图像样本子集,并通过骨干网络获取该图像样本子集中的每个图像样本的特征图,之后基于图像样本的特征图和该图像样本上的原始标签生成新样本标签,该新样本标签包含图像样本上真值框对应类别的第一正样本标签以及该真值框对应类别的分类置信度的预测样本标签;基于分配新样本标签后的图像样本训练分类网络、回归网络和多类别预测网络,并以三个网络分别对应的损失函数为训练约束条件控制训练迭代次数,直至停止训练;将停止训练时的骨干网络、分类网络和回归网络组成用于目标检测的检测模型。上述检测模型的训练装置中,在检测模型包括分类网络和回归网络的基础上额外增加多类别预测网络,以及在新样本标签包括各个真值框对应类别的分类置信度的预测样本标签的方式增加了样本标签的总数量,基于分配新样本标签后的图像样本训练分类网络、回归网络和多类别预测网络,以三个网络分别对应的损失函数为训练约束条件控制训练迭代次数,缓解了检测模型对图像中的目标标注信息相对比较有限的问题,有效提高了检测模型的检测精度。
上述标签分配模块84还用于:对于所述图像样本的特征图,以所述特征图上的像素点为坐标中心生成锚框组;基于所述锚框组中的锚框与所述图像样本上标注的真值框的IoU,以及所述真值框的原始标签为所述锚框分配新样本标签。
上述标签分配模块84还用于:计算所述锚框组中的锚框与所述图像样本上标注的真值框的IoU;如果所述锚框组中的第一类锚框与所述图像样本上的第一真值框的IoU大于第一阈值,为所述第一类锚框分配第一正样本标签,且所述第一正样本标签对应的目标类别为所述第一真值框对应的类别。
上述标签分配模块84还用于:如果所述锚框组中的第二类锚框与所述图像样本上的各个真值框的IoU均小于第二阈值,为所述第二类锚框分配负样本标签;如果所述锚框组中的第三类锚框与所述图像样本上的第三真值框的IoU介于所述第一阈值和所述第二阈值之间,为所述第三类锚框分配第二正样本标签,且所述第二正样本标签对应有所述第三真值框对应类别的分类置信度;其中,所述第一阈值大于所述第二阈值。
上述标签分配模块84还用于:如果所述锚框组中的第三类锚框与所述图像样本上的第三真值框的IoU介于所述第一阈值和所述第二阈值之间,根据所述第三类锚框与所述第三真值框的IoU生成所述第三真值框对应类别的分类置信度;根据所述第三类锚框与除所述第三真值框之外的其它真值框的IoU,生成所述其它真值框对应类别的其它置信度;其中,所述分类置信度与所述其它置信度之和等于1;在所述第二正样本标签中添加所述其它真值框对应类别的其它置信度。
上述训练模块86还用于:当完成所述当前周期的训练时,根据所述当前周期得到的预测结果计算所述分类网络的第一损失函数值、所述回归网络的第二损失函数值和所述多类别预测网络的第三损失函数值;按照预设的权重对所述第一损失函数值、所述第二损失函数值和所述第三损失函数值进行加权求和,得到总损失值;如果所述总损失值满足预设收敛条件,停止训练。
上述训练模块86还用于:通过以下公式计算第三损失函数值:
Figure BDA0003036095530000241
其中,Lm表示第三损失函数值,Ni表示分配有所述预测样本标签中的第二正样本标签的第三类锚框的总数,yj表示所述第三类锚框中第j个锚框对应类别的分类置信度,softmax(aj)表示所述第j个锚框对应的预测结果中对应类别的分类得分。
上述训练模块86还用于:按照下述公式对所述第一损失函数值、所述第二损失函数值和所述第三损失函数值进行加权求和:
L=wLm+Lcls+Lreg
其中,L表示总损失值,w为预设权重,Lm表示第三损失函数值,Lcls表示第一损失函数值,Lreg表示第二损失函数值;w取值为(0,0.2)区间内的值。
实施例七
对于实施例五中所提供的目标检测方法,本发明实施例提供了一种目标检测装置,该装置可以应用于运行有检测模型的电子设备,该检测模型为经上述实施例二至四任意一项所述的检测模型的训练方法训练得到的模型,参见图9所示的一种目标检测装置的结构示意图,该装置包括以下模块:
图像输入模块92,用于将待检测图像输入所述检测模型;
检测结果获取模块94,用于通过所述检测模型对所述待检测图像进行对象检测和定位,得到所述待检测图像对应的检测结果。
上述目标检测装置中,由于检测模型是由上述实施例二至四任意一项所述的检测模型的训练方法训练得到,因此该目标检测装置具有与检测模型的训练方法相同的技术效果,即缓解了检测模型对图像中的目标标注信息相对比较有限的问题,有效提高了检测模型的检测精度。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例八
参见图10,本发明实施例还提供一种目标检测装置200,包括:处理器40,存储器41,总线42和通信接口43,处理器40、通信接口43和存储器41通过总线42连接;处理器40用于执行存储器41中存储的可执行模块,例如计算机程序。
其中,存储器41可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非易失存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线42可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器41用于存储程序,处理器40在接收到执行指令后,执行程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器40中,或者由处理器40实现。
处理器40可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41,处理器40读取存储器41中的信息,结合其硬件完成上述方法的步骤。另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,上述检测模型可以是单阶段的检测模型,也可以是双阶段的检测模型。上述术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明实施例所提供的一种检测模型的训练方法、目标检测方法、装置和电子系统的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (15)

1.一种检测模型的训练方法,其特征在于,所述方法应用于电子设备,所述检测模型包括骨干网络,以及与所述骨干网络连接的分类网络、回归网络和多类别预测网络;所述方法包括:
在至少一个训练迭代周期内,从图像样本集中获取当前周期对应的图像样本子集,将所述图像样本子集中的图像样本输入所述骨干网络,得到所述图像样本的特征图;
基于所述图像样本的特征图和所述图像样本上的原始标签生成新样本标签;所述新样本标签包括所述图像样本上真值框对应类别的第一正样本标签和所述真值框对应类别的分类置信度的预测样本标签;
基于分配所述新样本标签后的所述图像样本训练所述分类网络、回归网络和多类别预测网络,并以所述分类网络、回归网络和多类别预测网络分别对应的损失函数为训练约束条件控制训练迭代次数,直至停止训练;
将停止训练时的所述骨干网络、所述分类网络和所述回归网络组成用于目标检测的检测模型。
2.根据权利要求1所述的方法,其特征在于,基于所述图像样本的特征图和所述图像样本上的原始标签生成新样本标签的步骤,包括:
对于所述图像样本的特征图,以所述特征图上的像素点为坐标中心生成锚框组;
基于所述锚框组中的锚框与所述图像样本上标注的真值框的交并比IoU,以及所述真值框的原始标签为所述锚框分配新样本标签。
3.根据权利要求1或2所述的方法,其特征在于,所述预测样本标签包括所述真值框对应类别的分类置信度的第二正样本标签,以及负样本标签。
4.根据权利要求2所述的方法,其特征在于,所述基于所述锚框组中的锚框与所述图像样本上标注的真值框的交并比IoU,以及所述真值框的原始标签为所述锚框分配新样本标签的步骤,包括:
计算所述锚框组中的锚框与所述图像样本上标注的真值框的IoU;
如果所述锚框组中的第一类锚框与所述图像样本上的第一真值框的IoU大于第一阈值,为所述第一类锚框分配第一正样本标签,且所述第一正样本标签对应的目标类别为所述第一真值框对应的原始标签中的类别。
5.根据权利要求4所述的方法,其特征在于,所述基于所述锚框组中的锚框与所述图像样本上标注的真值框的交并比IoU,以及所述真值框的原始标签为所述锚框分配新样本标签的步骤,还包括:
如果所述锚框组中的第二类锚框与所述图像样本上的各个真值框的IoU均小于第二阈值,为所述第二类锚框分配负样本标签;
如果所述锚框组中的第三类锚框与所述图像样本上的第三真值框的IoU介于所述第一阈值和所述第二阈值之间,为所述第三类锚框分配第二正样本标签,且所述第二正样本标签对应有所述第三真值框对应类别的分类置信度;
其中,所述第一阈值大于所述第二阈值。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
如果所述锚框组中的第三类锚框与所述图像样本上的第三真值框的IoU介于所述第一阈值和所述第二阈值之间,根据所述第三类锚框与所述第三真值框的IoU生成所述第三真值框对应类别的分类置信度;
根据所述第三类锚框与除所述第三真值框之外的其它真值框的IoU,生成所述其它真值框对应类别的其它置信度;其中,所述分类置信度与所述其它置信度之和等于1;
在所述第二正样本标签中添加所述其它真值框对应类别的其它置信度。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述以所述分类网络、回归网络和多类别预测网络分别对应的损失函数为训练约束条件控制训练迭代次数的步骤,包括:
当完成所述当前周期的训练时,根据所述当前周期得到的预测结果计算所述分类网络的第一损失函数值、所述回归网络的第二损失函数值和所述多类别预测网络的第三损失函数值;
按照预设的权重对所述第一损失函数值、所述第二损失函数值和所述第三损失函数值进行加权求和,得到总损失值;
如果所述总损失值满足预设收敛条件,停止训练。
8.根据权利要求7所述的方法,其特征在于,所述根据所述当前周期得到的预测结果计算所述多类别预测网络的第三损失函数值的步骤,包括:
通过以下公式计算第三损失函数值:
Figure FDA0003036095520000031
其中,Lm表示第三损失函数值,Nt表示分配有所述预测样本标签中的第二正样本标签的第三类锚框的总数,yj表示所述第三类锚框中第j个锚框对应类别的分类置信度,softmax(aj)表示所述第j个锚框对应的预测结果中对应类别的分类得分。
9.根据权利要求8所述的方法,其特征在于,所述按照预设的权重对所述第一损失函数值、所述第二损失函数值和所述第三损失函数值进行加权求和,得到总损失值的步骤,包括:
按照下述公式对所述第一损失函数值、所述第二损失函数值和所述第三损失函数值进行加权求和:
L=wLm+Lcls+Lreg
其中,L表示总损失值,w为预设权重,Lm表示第三损失函数值,Lcls表示第一损失函数值,Lreg表示第二损失函数值;w取值为(0,0.2)区间内的值。
10.根据权利要求9所述的方法,其特征在于,所述w为0.1。
11.一种目标检测方法,其特征在于,所述方法应用于运行有检测模型的电子设备,所述检测模型为经权利要求1-10任意一项所述方法训练得到的模型;所述方法包括:
将待检测图像输入所述检测模型;
通过所述检测模型对所述待检测图像进行对象检测和定位,得到所述待检测图像对应的检测结果。
12.一种检测模型的训练装置,其特征在于,所述装置应用于电子设备,所述检测模型包括骨干网络,以及与所述骨干网络连接的分类网络、回归网络和多类别预测网络;所述装置包括:
特征图获取模块,用于在至少一个训练迭代周期内,从图像样本集中获取当前周期对应的图像样本子集,将所述图像样本子集中的图像样本,输入所述骨干网络,得到所述图像样本的特征图;
标签分配模块,用于基于所述图像样本的特征图和所述图像样本上的原始标签生成新样本标签;所述新样本标签包括所述图像样本上真值框对应的类别的第一正样本标签和所述真值框对应类别的分类置信度的预测样本标签;
训练模块,用于基于分配所述新样本标签后的所述图像样本训练所述分类网络、回归网络和多类别预测网络,并以所述分类网络、回归网络和多类别预测网络分别对应的损失函数为训练约束条件控制训练迭代次数,直至停止训练,得到训练好的检测模型。
13.一种目标检测装置,其特征在于,所述装置应用于运行有检测模型的电子设备,所述检测模型为经权利要求1-10任意一项所述方法训练得到的模型;所述装置包括:
图像输入模块,用于将待检测图像输入所述检测模型;
检测结果获取模块,用于通过所述检测模型对所述待检测图像进行对象检测和定位,得到所述待检测图像对应的检测结果。
14.一种电子系统,其特征在于,所述电子系统包括:处理设备和存储装置;
所述存储装置上存储有计算机程序,所述计算机程序在被所述处理设备运行时执行如权利要求1至10任一项所述的检测模型的训练方法或权利要求11所述的目标检测方法。
15.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理设备运行时执行如权利要求1至10任一项所述的检测模型的训练方法或权利要求11所述的目标检测方法的步骤。
CN202110445431.9A 2021-04-23 2021-04-23 检测模型的训练方法、目标检测方法、装置和电子系统 Pending CN113239982A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110445431.9A CN113239982A (zh) 2021-04-23 2021-04-23 检测模型的训练方法、目标检测方法、装置和电子系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110445431.9A CN113239982A (zh) 2021-04-23 2021-04-23 检测模型的训练方法、目标检测方法、装置和电子系统

Publications (1)

Publication Number Publication Date
CN113239982A true CN113239982A (zh) 2021-08-10

Family

ID=77129095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110445431.9A Pending CN113239982A (zh) 2021-04-23 2021-04-23 检测模型的训练方法、目标检测方法、装置和电子系统

Country Status (1)

Country Link
CN (1) CN113239982A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807472A (zh) * 2021-11-19 2021-12-17 智道网联科技(北京)有限公司 分级目标检测方法及装置
CN114529542A (zh) * 2022-03-31 2022-05-24 湖南品信生物工程有限公司 一种基于宫颈癌细胞目标检测的标签分配方法及装置
CN114743023A (zh) * 2022-06-14 2022-07-12 安徽大学 一种基于RetinaNet模型的麦蜘蛛图像检测方法
CN115063631A (zh) * 2022-06-20 2022-09-16 平安科技(深圳)有限公司 基于人工智能的车损检测方法及相关设备
CN115100419A (zh) * 2022-07-20 2022-09-23 中国科学院自动化研究所 目标检测方法、装置、电子设备及存储介质
CN115409818A (zh) * 2022-09-05 2022-11-29 江苏济远医疗科技有限公司 一种应用于内窥镜图像目标检测模型的增强训练方法
CN115482417A (zh) * 2022-09-29 2022-12-16 珠海视熙科技有限公司 多目标检测模型及其训练方法、装置、介质及设备
CN116228715A (zh) * 2023-02-28 2023-06-06 抖音视界有限公司 息肉检测模型的训练方法、息肉检测方法及相关装置
CN116310656A (zh) * 2023-05-11 2023-06-23 福瑞泰克智能系统有限公司 训练样本确定方法、装置和计算机设备
CN116452912A (zh) * 2023-03-28 2023-07-18 浙江大学 训练方法、目标检测方法、介质及电子设备
CN116545779A (zh) * 2023-07-06 2023-08-04 鹏城实验室 网络安全命名实体识别方法、装置、设备和存储介质
WO2023160666A1 (zh) * 2022-02-25 2023-08-31 京东方科技集团股份有限公司 一种目标检测方法、目标检测模型训练方法及装置
CN117037895A (zh) * 2023-10-09 2023-11-10 苏州元脑智能科技有限公司 模型训练方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190205643A1 (en) * 2017-12-29 2019-07-04 RetailNext, Inc. Simultaneous Object Localization And Attribute Classification Using Multitask Deep Neural Networks
CN110969200A (zh) * 2019-11-27 2020-04-07 中国科学院自动化研究所 基于一致性负样本的图像目标检测模型训练方法及装置
CN111914944A (zh) * 2020-08-18 2020-11-10 中国科学院自动化研究所 基于动态样本选择和损失一致性的物体检测方法和系统
CN111931929A (zh) * 2020-07-29 2020-11-13 深圳地平线机器人科技有限公司 一种多任务模型的训练方法、装置及存储介质
CN112418268A (zh) * 2020-10-22 2021-02-26 北京迈格威科技有限公司 目标检测方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190205643A1 (en) * 2017-12-29 2019-07-04 RetailNext, Inc. Simultaneous Object Localization And Attribute Classification Using Multitask Deep Neural Networks
CN110969200A (zh) * 2019-11-27 2020-04-07 中国科学院自动化研究所 基于一致性负样本的图像目标检测模型训练方法及装置
CN111931929A (zh) * 2020-07-29 2020-11-13 深圳地平线机器人科技有限公司 一种多任务模型的训练方法、装置及存储介质
CN111914944A (zh) * 2020-08-18 2020-11-10 中国科学院自动化研究所 基于动态样本选择和损失一致性的物体检测方法和系统
CN112418268A (zh) * 2020-10-22 2021-02-26 北京迈格威科技有限公司 目标检测方法、装置及电子设备

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807472A (zh) * 2021-11-19 2021-12-17 智道网联科技(北京)有限公司 分级目标检测方法及装置
WO2023160666A1 (zh) * 2022-02-25 2023-08-31 京东方科技集团股份有限公司 一种目标检测方法、目标检测模型训练方法及装置
CN114529542A (zh) * 2022-03-31 2022-05-24 湖南品信生物工程有限公司 一种基于宫颈癌细胞目标检测的标签分配方法及装置
CN114743023A (zh) * 2022-06-14 2022-07-12 安徽大学 一种基于RetinaNet模型的麦蜘蛛图像检测方法
CN115063631A (zh) * 2022-06-20 2022-09-16 平安科技(深圳)有限公司 基于人工智能的车损检测方法及相关设备
CN115063631B (zh) * 2022-06-20 2024-07-05 平安科技(深圳)有限公司 基于人工智能的车损检测方法及相关设备
CN115100419A (zh) * 2022-07-20 2022-09-23 中国科学院自动化研究所 目标检测方法、装置、电子设备及存储介质
CN115409818A (zh) * 2022-09-05 2022-11-29 江苏济远医疗科技有限公司 一种应用于内窥镜图像目标检测模型的增强训练方法
CN115409818B (zh) * 2022-09-05 2023-10-27 江苏济远医疗科技有限公司 一种应用于内窥镜图像目标检测模型的增强训练方法
CN115482417A (zh) * 2022-09-29 2022-12-16 珠海视熙科技有限公司 多目标检测模型及其训练方法、装置、介质及设备
CN115482417B (zh) * 2022-09-29 2023-08-08 珠海视熙科技有限公司 多目标检测模型及其训练方法、装置、介质及设备
CN116228715A (zh) * 2023-02-28 2023-06-06 抖音视界有限公司 息肉检测模型的训练方法、息肉检测方法及相关装置
CN116228715B (zh) * 2023-02-28 2023-09-22 抖音视界有限公司 息肉检测模型的训练方法、息肉检测方法及相关装置
CN116452912A (zh) * 2023-03-28 2023-07-18 浙江大学 训练方法、目标检测方法、介质及电子设备
CN116452912B (zh) * 2023-03-28 2024-04-05 浙江大学 训练方法、目标检测方法、介质及电子设备
CN116310656A (zh) * 2023-05-11 2023-06-23 福瑞泰克智能系统有限公司 训练样本确定方法、装置和计算机设备
CN116310656B (zh) * 2023-05-11 2023-08-15 福瑞泰克智能系统有限公司 训练样本确定方法、装置和计算机设备
CN116545779A (zh) * 2023-07-06 2023-08-04 鹏城实验室 网络安全命名实体识别方法、装置、设备和存储介质
CN116545779B (zh) * 2023-07-06 2023-10-03 鹏城实验室 网络安全命名实体识别方法、装置、设备和存储介质
CN117037895B (zh) * 2023-10-09 2024-02-20 苏州元脑智能科技有限公司 模型训练方法、装置、电子设备及存储介质
CN117037895A (zh) * 2023-10-09 2023-11-10 苏州元脑智能科技有限公司 模型训练方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN113239982A (zh) 检测模型的训练方法、目标检测方法、装置和电子系统
CN109978893B (zh) 图像语义分割网络的训练方法、装置、设备及存储介质
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
CN112418268A (zh) 目标检测方法、装置及电子设备
CN111931931B (zh) 一种针对病理全场图像的深度神经网络训练方法、装置
CN112418278A (zh) 一种多类物体检测方法、终端设备及存储介质
CN111695609A (zh) 目标物损伤程度判定方法、装置、电子设备及存储介质
CN114049512A (zh) 模型蒸馏方法、目标检测方法、装置及电子设备
CN112132130B (zh) 一种面向全场景的实时性车牌检测方法及系统
CN112232506A (zh) 网络模型训练方法、图像目标识别方法、装置和电子设备
CN111461145A (zh) 一种基于卷积神经网络进行目标检测的方法
CN111353580A (zh) 目标检测网络的训练方法、电子设备及存储介质
CN114419378B (zh) 图像分类的方法、装置、电子设备及介质
CN112364974A (zh) 一种基于激活函数改进的YOLOv3算法
CN116543261A (zh) 用于图像识别的模型训练方法、图像识别方法设备及介质
CN114842285A (zh) 路侧泊位号码识别方法以及装置
CN112241736A (zh) 一种文本检测的方法及装置
CN112784494B (zh) 假阳性识别模型的训练方法、目标识别方法及装置
CN114445716B (zh) 关键点检测方法、装置、计算机设备、介质及程序产品
CN111401359A (zh) 目标识别方法、装置、电子设备和存储介质
CN116486153A (zh) 图像分类方法、装置、设备及存储介质
CN116245915A (zh) 一种基于视频的目标跟踪方法
CN114463685A (zh) 行为识别方法、装置、电子设备及存储介质
CN112634141A (zh) 一种车牌矫正方法、装置、设备及介质
JP2017041869A (ja) 画像処理装置、画像処理方法、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210810