CN111753960B - 模型训练及图像处理方法、装置、电子设备、存储介质 - Google Patents

模型训练及图像处理方法、装置、电子设备、存储介质 Download PDF

Info

Publication number
CN111753960B
CN111753960B CN202010592388.4A CN202010592388A CN111753960B CN 111753960 B CN111753960 B CN 111753960B CN 202010592388 A CN202010592388 A CN 202010592388A CN 111753960 B CN111753960 B CN 111753960B
Authority
CN
China
Prior art keywords
image
anchors
feature
sampling
different
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010592388.4A
Other languages
English (en)
Other versions
CN111753960A (zh
Inventor
杨喜鹏
蒋旻悦
谭啸
孙昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010592388.4A priority Critical patent/CN111753960B/zh
Publication of CN111753960A publication Critical patent/CN111753960A/zh
Application granted granted Critical
Publication of CN111753960B publication Critical patent/CN111753960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了模型训练及图像处理方法、装置、电子设备、存储介质,涉及图像处理、深度学习领域。具体实现方案为:将图像输入至神经网络进行特征提取,得到针对图像的至少一个采样比例的至少一个特征图;确定所述至少一个特征图中不同采样比例的特征图所对应的锚;其中,不同采样比例的特征图对应的锚的相对位置不同,并且不同采样比例的特征图对应的锚大小不同;基于图像及其不同特征图中的锚、以及图像中标注的目标框的位置和类别,确定目标模型;其中所述目标模型为训练后的模型。

Description

模型训练及图像处理方法、装置、电子设备、存储介质
技术领域
本申请涉及信息处理领域,尤其涉及图像处理、深度学习领域。
背景技术
在相关技术中,提高目标检测效果和性能的方法主要有:两阶段的目标检测方法;加深backbone(骨干)网络和图片的输入大小;困难样本挖掘等相关算法和技术(OHEM、FocalLoss等),增强损失(loss)等等。
但是,上述方案,无法对模型训练的过程中提供更有针对性的更优化的参数,也无法加减少模型训练的计算量以及无法减少使用模型进行预测的计算量。
发明内容
本公开提供了一种模型训练方法、图像处理方法、装置、电子设备及存储介质。
根据本公开的一方面,提供了一种模型训练方法,包括:
将图像输入至神经网络进行特征提取,得到针对图像的至少一个采样比例的至少一个特征图;
确定所述至少一个特征图中不同采样比例的特征图所对应的锚;其中,不同采样比例所的特征图对应的锚的相对位置不同,并且不同采样比例的特征图对应的锚大小不同;
基于图像及其不同特征图中的锚、以及图像中标注的目标框的位置和类别,确定目标模型;其中所述目标模型为训练后的模型。
根据本公开的一方面,提供了一种图像处理方法,所述方法包括:
将待预测图像输入至神经网络进行特征提取,得到针对待预测图像的至少一个采样比例的至少一个特征图;
确定所述至少一个特征图中不同采样比例的特征图所对应的锚;其中,不同采样比例所的特征图对应的锚的相对位置不同,并且不同采样比例的特征图对应的锚大小不同;
基于待预测图像及其不同特征图中的锚、以及目标模型,得到待预测图像中包含目标对象的目标框的位置和所述目标对象的类别。
根据本公开的一方面,提供了一种模型训练装置,包括:
特征提取模块,用于将图像输入至神经网络进行特征提取,得到针对图像的至少一个采样比例的至少一个特征图;
设置模块,用于确定所述至少一个特征图中不同采样比例的特征图所对应的锚;其中,不同采样比例所的特征图对应的锚的相对位置不同,并且不同采样比例的特征图对应的锚大小不同;
模型训练模块,用于基于图像及其不同特征图中的锚、以及图像中标注的目标框的位置和类别,确定目标模型;其中所述目标模型为训练后的模型。
根据本公开的一方面,提供了一种图像处理装置,包括:
图像预处理模块,用于将待预测图像输入至神经网络进行特征提取,得到针对待预测图像的至少一个采样比例的至少一个特征图;确定所述至少一个特征图中不同采样比例的特征图所对应的锚;其中,不同采样比例所的特征图对应的锚的相对位置不同,并且不同采样比例的特征图对应的锚大小不同;
目标预测模块,用于基于待预测图像及其不同特征图中的锚、以及目标模型,得到待预测图像中包含目标对象的目标框的位置和所述目标对象的类别。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。
根据本申请的技术,可以针对目标模型进行训练的过程中,改进了模型中的锚匹配范围,能够在不同的特征图的不同位置处设置不同大小的锚,避免了特征图中全部设置了各种尺寸的锚,从而在保证目标模型的性能的前提下,能够减少锚的无效匹配次数,提升锚的匹配效率,从而能够减少模型训练的计算量。
进一步地,采用上述训练得到的目标模型进行预测的处理中也能够减少预测处理的计算量。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例的模型训练方法流程示意图;
图2是根据本申请实施例的一种特征图提取的处理场景示意图;
图3是根据本申请实施例的图像处理方法流程示意图;
图4是根据本申请实施例的模型训练装置组成结构示意图;
图5是根据本申请实施例的图像处理装置组成结构示意图;
图6是用来实现本申请实施例的信息处理方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本发明实施例提供了一种信息处理方法,如图1所示,包括:
S101:将图像输入至神经网络进行特征提取,得到针对图像的至少一个采样比例的至少一个特征图;
S102:确定所述至少一个特征图中不同采样比例的特征图所对应的锚;其中,不同采样比例所的特征图对应的锚的相对位置不同,并且不同采样比例的特征图对应的锚大小不同;
S103:基于图像及其不同特征图中的锚、以及图像中标注的目标框的位置和类别,确定目标模型;其中所述目标模型为训练后的模型。
本实施例提供的方案可以应用于电子设备中,比如,可以为服务器或终端设备中,这里不做限定。
所述图像可以为训练图像集中的全部图像或至少部分图像。也就是说,在训练目标模型的处理中,可以将训练图像集中的图像全部采用前述方法进行训练。
另外,需要指出的是,所述训练图像集中用来进行上述方法的训练的图像为标注有目标框的图像,或者,可以理解为,用于执行上述方法的图像为设置有GT(ground truth)的图像。其中,GT可以认为是预先标注的图像中包含的至少一个物体(或至少一个目标对象)的目标框。进一步地,用于执行上述方法的图像还设置有GT包含的目标对象的类型。
举例来说,在训练用于检测图像中的车辆的目标模型的场景中,训练图像集中的至少部分图像中可以包含有多个GT,每一个GT可以包含一个图像中车辆以及其对应的类型(比如为轿车、卡车等等)。
上述S101中,所述将图像输入至神经网络进行特征提取,得到针对图像的至少一个采样比例的至少一个特征图,包括:
将图像输入至神经网络进行特征提取,得到至少一个采样比例的至少一个原始特征图;
对所述至少一个采样比例的至少一个原始特征图进行融合,得到针对图像的至少一个采样比例的至少一个特征图。
其中,所述神经网络可以为backbone,具体来说,将图像输入至神经网络进行特征提取,得到至少一个采样比例的至少一个原始特征图,可以为:将图像输入至Backbone进行特征提取,得到至少一个采样比例的至少一个原始特征图。
Backbone特征提取,可以采用比如resnet、resnext等网络。
这里,还可以根据业务应用场景选择对应的backbone。
举例来说,backbone可以有轻量级的结构如resnet18,resnet34,中型如resnet50,resneXt50,重型结构如resent101,resneXt152等等。相应的,如果业务应用场景为对实时性要求较高的场景,比如实时监控,那么可以采用轻量级的结构如resnet18,resnet34。如果业务应用场景为对实时性要求不高,但是对精确性要求较高的场景,比如后期基于监控的图像进行分析的场景中,那么可以采用重型结构如resent101,resneXt152等等。处于两者之间的场景,比如对实时性有要求但是不高,对精确性有要求但也不高的场景中,可以采用中型的结果如resnet50,resneXt50。
当然上述仅为示例,实际处理中可以基于预设的场景以及backbone之间的对应关系来确定最终所要使用的神经网络,只是本实施例中不再进行赘述。
进一步来说,上述进行特征图融合的处理,可以包括有:
基于FPN(feature pyramid network,特征金字塔网络)结构同时结合浅层语义和深层语义信息进行融合处理。
其中,浅层语义信息可以为采样比例大的特征图,深层语义信息可以为采样比例小的特征图。比如,在网络将采样比例为输入图像的8分之1,16分之1,32分之1的地方,分别接入FPN结构做不同层次间的信息融合。
上述S102中,所述确定所述至少一个特征图中不同采样比例的特征图所对应的锚,包括:
基于预设规则,确定所述不同采样比例的特征图所对应的锚;
其中,所述预设规则包括:
在采样比例大的特征图中锚的相对位置比锚在采样比例小的特征图中的相对位置靠近特征图的第一边;
以及,
在采样比例大的特征图中锚的尺度小于在采样比例小的特征图中锚的尺度。
其中,所述特征图的第一边,可以根据实际情况设置,比如,可以为特征图的上边。
也就是说,在FPN结构中,根据透视关系(即预设规则)对每个尺度(或采样比例)下特征图的锚设置。
预设规则设置的原理可以为:图像上方关注小目标,设置小尺度锚;同理,图像下方设置大尺度锚。
举例来说,如图2所示,假设当前FPN结构中包含有3层feature map(特征图),分别对应输入尺度(或采用比例)8分之1,16分之1,32分之1的特征图,也就是图中所示的三个“预测”所对应的特征图的位置处。8分之1的特征图主要预测小尺度的目标,即图像上方的目标;16分之1的特征图主要预测中等尺度的目标,即图像中间的目标;32分之1的特征图主要预测大尺度的目标,即图像下方的目标。
进一步,本申请实施例中锚是一种预定义检测框,可以为anchor,或可以是anchorbox,不同采样比例的特征图对应的锚的尺度是不同的。
相应的,预设规则,可以理解为:在采样比例最大的特征图中锚的相对位置为包含特征图的上边的区域内;
在采用比例最小的特征图中锚的相对位置为包含特征图的下边的区域内;
剩余的特征图,基于采用比例由大到小的顺序,采样比例越大的特征图锚的相对位置约接近特征图的上边,采样比例越小的特征图的锚的相对位置接近特征图的下边;
以及,
在采样比例最大的特征图中采用最小尺度的锚;
在采用比例最小的特征图中采用最大尺度的锚;
剩余的特征图,基于采用比例由大到小的顺序,采样比例越大的特征图锚的尺度越小,反之则越大。
每个特征图上的锚的尺度可以通过训练图像集中选定区域的图像聚类得到,比如8分之1的特征图上主要关注小目标(即,图像上方的目标),所有训练集中图像选取图像上方(比如,图像的上1/2部分)的框进行聚类;假设每个尺度上有3种锚,那么聚类的类中心为3个。同理,其他的特征图上的锚的尺度的确定方式也一样,不再赘述。
上述S102之后,以及S103之前,也就是所述确定所述至少一个特征图中不同采样比例的特征图所对应的锚之后,所述方法还包括:
基于每个特征图的锚以及标注的目标框进行匹配,确定正样本以及负样本。
其中,正样本可以理解为锚与标注的目标框(也就是GT)之间的IOU(交并比)大于第一预设值的锚;负样本可以理解为锚与GT之间的IOU小于第二预设值的锚;其中,第一预设值大于第二预设值。
具体的,所述基于每个特征图的锚以及标注的目标框进行匹配,确定正样本,包括:
在每一个特征图中,计算锚与标注的目标框之间的交并比,选取交并比最大的K个锚;K为大于等于1的整数;
从所述K个锚中排除标注的目标框的中心点不在锚中的L个锚;其中,L为小于等于K个整数;
将剩余的K-L个锚作为正样本。
另外,所述方法还包括:在剩余的K-L个锚中,若存在同一个锚匹配到不同的标注的目标框,则选取与锚的交并比最大的一个标注的目标框作为锚需要预测的目标框。
也就是说,选定锚的区域后,对特征图中的锚和GT的匹配选择,选择最佳匹配IOU的前K个锚,并排除同一个锚匹配上多个GT情况。
具体的,确定每个特征图上的锚后,接下来是GT和锚的匹配方法,确定正负样本,包括有:首先根据IOU的大小选出K个IOU最大的锚;排除GT的中心点不在锚的情况中对应的L个锚;最后,如果同一个锚匹配到不同的GT,选择IOU最大的GT作为要预测的目标。
S103中,基于图像及其不同特征图中的锚、以及图像中标注的目标框的位置和类别,确定目标模型,包括:基于图像及其不同特征图中的正样本以及负样本,以及图像中标注的目标框的位置和类别,确定目标模型。
上述方案中,可以针对目标模型进行训练的过程中,改进了模型中的锚的匹配范围,能够在不同的特征图的不同位置处设置不同大小的锚,避免了特征图中全部设置了各种尺寸的锚,从而在保证目标模型的性能的前提下,能够减少锚的无效匹配次数,提升锚的匹配效率,从而能够减少模型训练的计算量。
进一步地,采用上述训练得到的目标模型进行预测的处理中也能够减少预测处理的计算量
本申请的另一实施例提供一种信息处理方法,如图3所示,包括:
S201:将待预测图像输入至神经网络进行特征提取,得到针对待预测图像的至少一个采样比例的至少一个特征图;
S202:确定所述至少一个特征图中不同采样比例的特征图所对应的锚;其中,不同采样比例所的特征图对应的锚的相对位置不同,并且不同采样比例的特征图对应的锚大小不同;
S203:基于待预测图像及其不同特征图中的锚、以及目标模型,得到待预测图像中包含目标对象的目标框的位置和所述目标对象的类别。
本实施例与前述实施例不同在于,本实施例关注与如何基于训练好的目标模型进行待预测图像的处理,在本实施例的处理中,基于目标模型得到待预测图像中包含的至少一个目标对象,以及每一个目标对象对应的目标框及其类别。
上述S201中,所述将待预测图像输入至神经网络进行特征提取,得到针对待预测图像的至少一个采样比例的至少一个特征图,包括:
将待预测图像输入至神经网络进行特征提取,得到至少一个采样比例的至少一个原始特征图;
对所述至少一个采样比例的至少一个原始特征图进行融合,得到针对待预测图像的至少一个采样比例的至少一个特征图。
具体的针对待预测图像的特征提取以及特征融合的处理,与前述S101中的类似,这里不再进行赘述。
S202中确定不同特征图的锚的设置方式,与S102类似,也不再赘述。
S203中,所述方法还可以包括:若针对待预测图像中的同一个目标对象存在多个目标框,则基于类别间最大值抑制(NMS)进行目标框去重处理,得到针对同一个目标对象的一个目标框。
即针对预测得到的结果即目标对象的目标框的后处理,基于类别间(也就是物体类别,比如小汽车、加长汽车等等)的NMS,来过滤同一个目标对象上对应多个框的误检的情况。
具体来说,可以包括:将目标模型输出的目标框的位置和置信度,记为:B;
选出具有最大类别置信度的框,记为bm;
根据bm和B-bm计算IOU,选出IOU>预设阈值的所有目标框,记为bx;
然后,可以从IOU>预设阈值的所有目标框中选择其中置信度最大框可以得到作为与目标对象对应的最终的目标框。
其中,预设阈值可以根据实际情况设置,比如可以为0。
进一步地,还可以包括:如果两个目标框的IOU大于设定的阈值,比如大于0.7,则选出的目标框重新计算坐标位置。
其中,重新计算坐标位置可以采用以下公式:
其中,bm为置信度最大的框,bi为与bm的IOU超过指定阈值的框,δ为人为设定的参数,为bm框所对应的x轴坐标,xbi为bi框所对应的x轴坐标。同理计算另外的y、w和h。
一种示例中,包括:
基于Resnet系列(resnet34,resnet50,resent101等)的Backbone特征提取,所有的数据通过选定的backbone网络提取图像级的特征,得到特征图;
应用FPN网络结构,同时结合浅层语义和深层语义信息,对特征图进行信息融合;
FPN结构中,每个尺度下特征图的锚设置,根据透视关系,图像上方关注小目标,设置小尺度锚;同理,图像下方设置大尺度锚;
选定区域后,锚和GT的匹配选择,选择最佳匹配IOU的前K个锚,并排除多个锚匹配上同一个GT情况。
以及在基于训练后的目标模型对待预测图像进行预测得到目标对象的目标框之后,可以根据类别间的NMS过滤同一个目标上多个框的误检。
采用本发明实例的方法,可以通过采用3D透视关系的先验,适配不同位置的锚,并合理匹配GT和锚的分布,提升监控场景下的目标建模的性能;并且在使用目标模型进行预测的处理中,由于减少了锚的设置,并且不同的锚预测的位置不同,因此可以提升目标模型的预测效果。
如图4所示,本申请实施例还提供一种模型训练装置,包括:
特征提取模块41,用于将图像输入至神经网络进行特征提取,得到针对图像的至少一个采样比例的至少一个特征图;
设置模块42,用于确定所述至少一个特征图中不同采样比例的特征图所对应的锚;其中,不同采样比例所的特征图对应的锚的相对位置不同,并且不同采样比例的特征图对应的锚大小不同;
模型训练模块43,用于基于图像及其不同特征图中的锚、以及图像中标注的目标框的位置和类别,确定目标模型;其中所述目标模型为训练后的模型。
其中,所述特征提取模块41,用于将图像输入至神经网络进行特征提取,得到至少一个采样比例的至少一个原始特征图;对所述至少一个采样比例的至少一个原始特征图进行融合,得到针对图像的至少一个采样比例的至少一个特征图。
所述设置模块42,用于基于预设规则,确定所述不同采样比例的特征图所对应的锚;
其中,所述预设规则包括:
在采样比例大的特征图中锚的相对位置比锚在采样比例小的特征图中的相对位置靠近特征图的第一边;
以及,
在采样比例大的特征图中锚的尺度小于在采样比例小的特征图中锚的尺度。
所述模型训练模块43,用于基于每个特征图的锚以及标注的目标框进行匹配,确定正样本以及负样本。
所述模型训练模块43,用于在每一个特征图中,计算锚与标注的目标框之间的交并比,选取交并比最大的K个锚;K为大于等于1的整数;从所述K个锚中排除标注的目标框的中心点不在锚中的L个锚;其中,L为小于等于K个整数;将剩余的K-L个锚作为正样本。
所述模型训练模块43,用于在剩余的K-L个锚中,若存在同一个锚匹配到不同的标注的目标框,则选取与锚的交并比最大的一个标注的目标框作为锚需要预测的目标框。
所述模型训练模块43,用于基于图像及其不同特征图中的正样本以及负样本,以及图像中标注的目标框的位置和类别,确定目标模型。
本申请实施例还提供了一种图像处理装置,如图5所示,包括:
图像预处理模块51,用于将待预测图像输入至神经网络进行特征提取,得到针对待预测图像的至少一个采样比例的至少一个特征图;确定所述至少一个特征图中不同采样比例的特征图所对应的锚;其中,不同采样比例所的特征图对应的锚的相对位置不同,并且不同采样比例的特征图对应的锚大小不同;
目标预测模块52,用于基于待预测图像及其不同特征图中的锚、以及目标模型,得到待预测图像中包含目标对象的目标框的位置和所述目标对象的类别。
其中,所述图像预处理模块51,用于将待预测图像输入至神经网络进行特征提取,得到至少一个采样比例的至少一个原始特征图;对所述至少一个采样比例的至少一个原始特征图进行融合,得到针对待预测图像的至少一个采样比例的至少一个特征图。
所述图像预处理模块51,用于基于预设规则,确定所述不同采样比例的特征图所对应的锚;
其中,所述预设规则包括:
在采样比例大的特征图中锚的相对位置比锚在采样比例小的特征图中的锚的相对位置靠近特征图的第一边;
以及,
在采样比例大的特征图中锚的尺度小于在采样比例小的特征图中锚的尺度。
所述目标预测模块52,用于若针对待预测图像中的同一个目标对象存在多个目标框,则基于NMS进行目标框去重处理,得到针对同一个目标对象的一个目标框。
需要指出的是,上述模型训练装置以及图像处理装置,可以分别设置与不同的电子设备中,或者也可以设置在相同的电子设备中,若设置在相同的电子设备中,前述图4以及图5的模块可以均包含在同一个电子设备中,并且,前述图4以及图5中,模型训练模块得到的目标模型可以直接由目标预测模块保存。另外,若设置在不同的电子设备中,那么可以由模型训练装置所在的电子设备将训练得到的目标模型发送至图像处理装置所在的电子设备,并保存在其中的目标预测模块中。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
如图6所示,是根据本申请实施例的模型训练以及图像处理方法的电子设备的框图。该电子设备可以为前述部署设备或代理设备。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器801为例。
存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的信息处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的信息处理方法。
存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的信息处理方法对应的程序指令/模块(例如,附图4或图5中的各个模块,比如,可以包含有特征提取模块、设置模块以及模型训练模块,和/或,包含有图像预处理模块以及目标预测模块)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的模型训练和/或图像处理方法。
存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
模型训练和/或图像处理的电子设备还可以包括:输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置803可接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,可以针对目标模型进行训练的过程中,改进了模型中的锚匹配范围,能够在不同的特征图的不同位置处设置不同大小的锚,避免了特征图中全部设置了各种尺寸的锚,从而在保证目标模型的性能的前提下,能够减少锚的无效匹配次数,提升锚的匹配效率,从而能够减少模型训练的计算量。
进一步地,采用上述训练得到的目标模型进行预测的处理中也能够减少预测处理的计算量。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (20)

1.一种模型训练方法,包括:
将图像输入至神经网络进行特征提取,得到针对图像的至少一个采样比例的至少一个特征图;
确定所述至少一个特征图中不同采样比例的特征图所对应的锚;其中,不同采样比例的特征图对应的锚的相对位置不同,并且不同采样比例的特征图对应的锚大小不同;
基于图像及其不同特征图中的锚、以及图像中标注的目标框的位置和类别,确定目标模型;其中所述目标模型为训练后的模型;
其中,所述确定所述至少一个特征图中不同采样比例的特征图所对应的锚,包括:
基于预设规则,确定所述不同采样比例的特征图所对应的锚;
其中,所述预设规则包括:
在采样比例大的特征图中锚的相对位置比锚在采样比例小的特征图中的相对位置靠近特征图的第一边,所述特征图的第一边包括特征图的上边;
以及,
在采样比例大的特征图中锚的尺度小于在采样比例小的特征图中锚的尺度。
2.根据权利要求1所述的方法,其中,所述将图像输入至神经网络进行特征提取,得到针对图像的至少一个采样比例的至少一个特征图,包括:
将图像输入至神经网络进行特征提取,得到至少一个采样比例的至少一个原始特征图;
对所述至少一个采样比例的至少一个原始特征图进行融合,得到针对图像的至少一个采样比例的至少一个特征图。
3.根据权利要求1所述的方法,其中,所述确定所述至少一个特征图中不同采样比例的特征图所对应的锚之后,所述方法还包括:
基于每个特征图的锚以及标注的目标框进行匹配,确定正样本以及负样本。
4.根据权利要求3所述的方法,其中,所述基于每个特征图的锚以及标注的目标框进行匹配,确定正样本,包括:
在每一个特征图中,计算锚与标注的目标框之间的交并比,选取交并比最大的K个锚;K为大于等于1的整数;
从所述K个锚中排除标注的目标框的中心点不在锚中的L个锚;其中,L为小于等于K个整数;
将剩余的K-L个锚作为正样本。
5.根据权利要求4所述的方法,所述方法还包括:
在剩余的K-L个锚中,若存在同一个锚匹配到不同的标注的目标框,则选取与锚的交并比最大的一个标注的目标框作为锚需要预测的目标框。
6.根据权利要求5所述的方法,其中,基于图像及其不同特征图中的锚、以及图像中标注的目标框的位置和类别,确定目标模型,包括:
基于图像及其不同特征图中的正样本以及负样本,以及图像中标注的目标框的位置和类别,确定目标模型。
7.一种图像处理方法,所述方法包括:
将待预测图像输入至神经网络进行特征提取,得到针对待预测图像的至少一个采样比例的至少一个特征图;
确定所述至少一个特征图中不同采样比例的特征图所对应的锚;其中,不同采样比例所的特征图对应的锚的相对位置不同,并且不同采样比例的特征图对应的锚大小不同;
基于待预测图像及其不同特征图中的锚、以及目标模型,得到待预测图像中包含目标对象的目标框的位置和所述目标对象的类别;
其中,所述确定所述至少一个特征图中不同采样比例的特征图所对应的锚,包括:
基于预设规则,确定所述不同采样比例的特征图所对应的锚;
其中,所述预设规则包括:
在采样比例大的特征图中锚的相对位置比锚在采样比例小的特征图中的相对位置靠近特征图的第一边,所述特征图的第一边包括特征图的上边;
以及,
在采样比例大的特征图中锚的尺度小于在采样比例小的特征图中锚的尺度。
8.根据权利要求7所述的方法,其中,所述将待预测图像输入至神经网络进行特征提取,得到针对待预测图像的至少一个采样比例的至少一个特征图,包括:
将待预测图像输入至神经网络进行特征提取,得到至少一个采样比例的至少一个原始特征图;
对所述至少一个采样比例的至少一个原始特征图进行融合,得到针对待预测图像的至少一个采样比例的至少一个特征图。
9.根据权利要求7所述的方法,其中,所述方法还包括:
若针对待预测图像中的同一个目标对象存在多个目标框,则基于类别间最大值抑制进行目标框去重处理,得到针对同一个目标对象的一个目标框。
10.一种模型训练装置,包括:
特征提取模块,用于将图像输入至神经网络进行特征提取,得到针对图像的至少一个采样比例的至少一个特征图;
设置模块,用于确定所述至少一个特征图中不同采样比例的特征图所对应的锚;其中,不同采样比例所的特征图对应的锚的相对位置不同,并且不同采样比例的特征图对应的锚大小不同;
模型训练模块,用于基于图像及其不同特征图中的锚、以及图像中标注的目标框的位置和类别,确定目标模型;其中所述目标模型为训练后的模型;
其中,所述设置模块,用于基于预设规则,确定所述不同采样比例的特征图所对应的锚;
其中,所述预设规则包括:
在采样比例大的特征图中锚的相对位置比锚在采样比例小的特征图中的相对位置靠近特征图的第一边,所述特征图的第一边包括特征图的上边;
以及,
在采样比例大的特征图中锚的尺度小于在采样比例小的特征图中锚的尺度。
11.根据权利要求10所述的装置,其中,所述特征提取模块,用于将图像输入至神经网络进行特征提取,得到至少一个采样比例的至少一个原始特征图;对所述至少一个采样比例的至少一个原始特征图进行融合,得到针对图像的至少一个采样比例的至少一个特征图。
12.根据权利要求10所述的装置,其中,所述模型训练模块,用于基于每个特征图的锚以及标注的目标框进行匹配,确定正样本以及负样本。
13.根据权利要求12所述的装置,其中,所述模型训练模块,用于在每一个特征图中,计算锚与标注的目标框之间的交并比,选取交并比最大的K个锚;K为大于等于1的整数;从所述K个锚中排除标注的目标框的中心点不在锚中的L个锚;其中,L为小于等于K个整数;将剩余的K-L个锚作为正样本。
14.根据权利要求13所述的装置,其中,所述模型训练模块,用于在剩余的K-L个锚中,若存在同一个锚匹配到不同的标注的目标框,则选取与锚的交并比最大的一个标注的目标框作为锚需要预测的目标框。
15.根据权利要求14所述的装置,其中,所述模型训练模块,用于基于图像及其不同特征图中的正样本以及负样本,以及图像中标注的目标框的位置和类别,确定目标模型。
16.一种图像处理装置,包括:
图像预处理模块,用于将待预测图像输入至神经网络进行特征提取,得到针对待预测图像的至少一个采样比例的至少一个特征图;确定所述至少一个特征图中不同采样比例的特征图所对应的锚;其中,不同采样比例所的特征图对应的锚的相对位置不同,并且不同采样比例的特征图对应的锚大小不同;
目标预测模块,用于基于待预测图像及其不同特征图中的anchor、以及目标模型,得到待预测图像中包含目标对象的目标框的位置和所述目标对象的类别;
其中,所述图像预处理模块,用于基于预设规则,确定所述不同采样比例的特征图所对应的锚anchor;
其中,所述预设规则包括:
在采样比例大的特征图中锚的相对位置比锚在采样比例小的特征图中的相对位置靠近特征图的第一边,所述特征图的第一边包括特征图的上边;
以及,
在采样比例大的特征图中锚的尺度小于在采样比例小的特征图中锚的尺度。
17.根据权利要求16所述的装置,其中,所述图像预处理模块,用于将待预测图像输入至神经网络进行特征提取,得到至少一个采样比例的至少一个原始特征图;对所述至少一个采样比例的至少一个原始特征图进行融合,得到针对待预测图像的至少一个采样比例的至少一个特征图。
18.根据权利要求16所述的装置,其中,所述目标预测模块,用于若针对待预测图像中的同一个目标对象存在多个目标框,则基于类别间最大值抑制进行目标框去重处理,得到针对同一个目标对象的一个目标框。
19. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。
CN202010592388.4A 2020-06-25 2020-06-25 模型训练及图像处理方法、装置、电子设备、存储介质 Active CN111753960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010592388.4A CN111753960B (zh) 2020-06-25 2020-06-25 模型训练及图像处理方法、装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010592388.4A CN111753960B (zh) 2020-06-25 2020-06-25 模型训练及图像处理方法、装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN111753960A CN111753960A (zh) 2020-10-09
CN111753960B true CN111753960B (zh) 2023-08-08

Family

ID=72677249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010592388.4A Active CN111753960B (zh) 2020-06-25 2020-06-25 模型训练及图像处理方法、装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN111753960B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560825B (zh) * 2021-02-23 2021-05-18 北京澎思科技有限公司 人脸检测方法、装置、电子设备以及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084285A (zh) * 2019-04-08 2019-08-02 安徽艾睿思智能科技有限公司 基于深度学习的鱼类细粒度分类方法
CN110222780A (zh) * 2019-06-12 2019-09-10 北京百度网讯科技有限公司 物体检测方法、装置、设备和存储介质
CN110414464A (zh) * 2019-08-05 2019-11-05 北京深醒科技有限公司 一种小尺度密集行人检测方法
CN110472588A (zh) * 2019-08-19 2019-11-19 上海眼控科技股份有限公司 锚点框确定方法、装置、计算机设备和存储介质
WO2019238063A1 (zh) * 2018-06-15 2019-12-19 众安信息技术服务有限公司 文本检测分析方法、装置及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11087130B2 (en) * 2017-12-29 2021-08-10 RetailNext, Inc. Simultaneous object localization and attribute classification using multitask deep neural networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019238063A1 (zh) * 2018-06-15 2019-12-19 众安信息技术服务有限公司 文本检测分析方法、装置及设备
CN110084285A (zh) * 2019-04-08 2019-08-02 安徽艾睿思智能科技有限公司 基于深度学习的鱼类细粒度分类方法
CN110222780A (zh) * 2019-06-12 2019-09-10 北京百度网讯科技有限公司 物体检测方法、装置、设备和存储介质
CN110414464A (zh) * 2019-08-05 2019-11-05 北京深醒科技有限公司 一种小尺度密集行人检测方法
CN110472588A (zh) * 2019-08-19 2019-11-19 上海眼控科技股份有限公司 锚点框确定方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Ze Yang .Learning to Navigate for Fine-grained Classification .《arXiv》.2018,全文. *

Also Published As

Publication number Publication date
CN111753960A (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
CN111753961B (zh) 模型训练方法和装置、预测方法和装置
EP3926526A2 (en) Optical character recognition method and apparatus, electronic device and storage medium
CN111968229B (zh) 高精度地图制图方法及装置
CN112528976B (zh) 文本检测模型的生成方法和文本检测方法
CN111739005B (zh) 图像检测方法、装置、电子设备及存储介质
CN111967297B (zh) 图像的语义分割方法、装置、电子设备及介质
CN111539347B (zh) 用于检测目标的方法和装置
CN111797745B (zh) 一种物体检测模型的训练及预测方法、装置、设备及介质
CN110675635B (zh) 相机外参的获取方法、装置、电子设备及存储介质
CN110717933B (zh) 针对运动物体漏检的后处理方法、装置、设备和介质
CN113591573A (zh) 多任务学习深度网络模型的训练及目标检测方法、装置
CN112862006B (zh) 图像深度信息获取模型的训练方法、装置及电子设备
JP7242994B2 (ja) ビデオイベント識別方法、装置、電子デバイス及び記憶媒体
CN111738263A (zh) 目标检测方法、装置、电子设备及存储介质
CN114332509B (zh) 图像处理方法、模型训练方法、电子设备及自动驾驶车辆
CN112749701B (zh) 车牌污损分类模型的生成方法和车牌污损分类方法
CN111753960B (zh) 模型训练及图像处理方法、装置、电子设备、存储介质
CN112560772B (zh) 人脸的识别方法、装置、设备及存储介质
CN111966767B (zh) 轨迹热力图生成方法、装置、电子设备和存储介质
CN111932530B (zh) 三维对象检测方法、装置、设备和可读存储介质
CN113627298A (zh) 目标检测模型的训练方法及检测目标对象的方法、装置
CN112508027B (zh) 用于实例分割的头部模型、实例分割模型、图像分割方法及装置
CN113569911A (zh) 车辆识别方法、装置、电子设备及存储介质
CN113569912A (zh) 车辆识别方法、装置、电子设备及存储介质
CN112861811B (zh) 目标识别方法、装置、设备、存储介质及雷达

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant