CN114898183A - 一种目标检测模型的训练方法、目标检测方法及装置 - Google Patents

一种目标检测模型的训练方法、目标检测方法及装置 Download PDF

Info

Publication number
CN114898183A
CN114898183A CN202210583646.1A CN202210583646A CN114898183A CN 114898183 A CN114898183 A CN 114898183A CN 202210583646 A CN202210583646 A CN 202210583646A CN 114898183 A CN114898183 A CN 114898183A
Authority
CN
China
Prior art keywords
detection
detection frame
picture
target
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210583646.1A
Other languages
English (en)
Inventor
戴宇荣
范琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202210583646.1A priority Critical patent/CN114898183A/zh
Publication of CN114898183A publication Critical patent/CN114898183A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本公开关于一种目标检测模型的训练方法、目标检测方法及装置,涉及计算机技术领域。该方法包括:确定已检测图片包括的多个检测框中每一个检测框的初始特征以及该每一个检测框的初始特征对应的至少一个权重特征;基于该每一个检测框的初始特征以及该至少一个权重特征,生成该每一个检测框的目标特征;基于该每一个检测框的目标特征,对第一目标检测模型训练,以生成第二目标检测模型。本公开中,电子设备可以实现从分类图片到检测图片上的类别的迁移,无需对目标检测模型的训练样本进行大量的人工标注,可以准确地生成能够表征该每一个检测框的类别的真实数据分布的目标特征,并且能够提升目标检测模型的训练效率。

Description

一种目标检测模型的训练方法、目标检测方法及装置
技术领域
本公开涉及计算机技术领域,尤其涉及一种目标检测模型的训练方法、目标检测方法及装置。
背景技术
目前,在目标检测等领域,电子设备可以将某一目标检测图片输入到已经训练完成的神经网络模型中,进而该神经网络模型可以预测出该目标检测图片中包括的多个目标(或物体)以及该多个目标各自的类别。
但是,上述神经网络模型的训练过程中,可能需要大量高质量的目标检测训练样本,具体为需要大量的人力物力去标注每个目标检测训练样本中包括的各个目标的类别等,如此可能会影响神经网络模型的训练效率,进而降低神经网络模型的预测效率。
发明内容
本公开提供一种目标检测模型的训练方法、目标检测方法及装置,解决了相关技术中需要大量的人力物力去标注每个目标检测训练样本中包括的各个目标的类别,可能会影响神经网络模型的训练效率,进而降低神经网络模型的预测效率的技术问题。
本公开实施例的技术方案如下:
根据本公开实施例的第一方面,提供一种目标检测模型的训练方法。该方法可以包括:确定已检测图片包括的多个检测框中每一个检测框的初始特征以及该每一个检测框的初始特征对应的至少一个权重特征,其中,一个检测框的初始特征对应的至少一个权重特征中每一个权重特征与该检测框的初始特征之间的相似度大于或等于相似度阈值,该每一个检测框的初始特征对应的至少一个权重特征为第一分类器中包括的权重的特征,一个权重对应该第一分类器中的一个类别;基于该多个检测框中每一个检测框的初始特征以及该每一个检测框的初始特征对应的至少一个权重特征,生成该每一个检测框的目标特征;基于该每一个检测框的目标特征,对第一目标检测模型训练,以生成第二目标检测模型。
可选地,上述第一目标检测模型中包括第一子网络模型和第二子网络模型,上述确定已检测图片包括的多个检测框中每一个检测框的初始特征具体包括:获取该已检测图片;将该已检测图片输入该第一子网络模型,进行特征识别,得到该已检测图片的初始特征;将该已检测图片的初始特征输入该第二子网络模型,得到该多个检测框中每一个检测框的位置以及该每一个检测框的大小;基于该每一个检测框的位置以及该每一个检测框的大小,从该已检测图片的初始特征中提取该每一个检测框的初始特征。
可选地,上述第一分类器为第一图片分类模型中包括的分类器,该第一图片分类模型中包括第三子网络模型,该第三子网络模型中的参数与该第一子网络模型中的参数相同,上述目标检测模型的训练方法还包括:获取多个分类图片;将该多个分类图片输入该第三子网络模型,得到该多个分类图片中每个分类图片的初始特征;将该每个分类图片的初始特征输入该第一分类器,得到该每个分类图片在该第一分类器中的预测分类结果。
可选地,上述目标检测模型的训练方法还包括:确定第一损失和第二损失,该第一损失用于表征多个分类图片中每个分类图片的真实分类结果与该每个分类图片在该第一分类器中的预测分类结果之间的不一致程度,该第二损失用于表征该多个检测框中每一个检测框的空间不一致程度,其中,一个检测框的空间不一致程度包括该检测框的真实位置与该检测框在该第一目标检测模型中的预测位置之间的不一致程度,以及该检测框的真实大小与该检测框在该第一目标检测模型中的预测大小之间的不一致程度;上述基于该每一个检测框的目标特征,对第一目标检测模型训练,以生成第二目标检测模型具体包括:将该每一个检测框的目标特征输入第二分类器,得到该每一个检测框在该第二分类器中的预测分类结果,该第二分类器为该第一目标检测模型中包括的分类器;确定第三损失和第四损失,该第三损失用于表征该每一个检测框的真实分类结果与该每一个检测框在该第二分类器中的预测分类结果之间的不一致程度,该第四损失用于表征该每一个检测框中是否包括物体的真实结果与该每一个检测框在该第二分类器中被预测为是否包括物体的结果之间的不一致程度;根据该第一损失、该第二损失、该第三损失以及该第四损失,确定目标损失;基于该目标损失,更新该第一目标检测模型中的参数,以生成该第二目标检测模型。
可选地,上述目标检测模型的训练方法还包括:将第一检测框的目标特征确定为预设均值,该第一检测框为该多个检测框中的一个;基于该预设均值和预设标准差,生成该第一检测框的多个拓展特征;基于该多个检测框中每一个检测框的多个拓展特征,对该第一目标检测模型进行训练。
根据本公开实施例的第二方面,提供一种目标检测方法。该方法可以包括:获取待检测图片;将该待检测图片输入第二目标检测模型,得到该待检测图片包括的至少一个检测框各自的类别,该第二目标检测模型是基于上述第一方面中任一种可选地目标检测模型的训练方法训练得到的。
可选地,上述第二目标检测模型中包括第一子网络模型、第二子网络模型以及第二分类器,上述将该待检测图片输入第二目标检测模型,得到该待检测图片包括的至少一个检测框各自的类别具体包括:将该待检测图片输入该第一子网络模型,进行特征识别,得到该待检测图片的初始特征;将该待检测图片的初始特征输入该第二子网络模型,得到该至少一个检测框各自的位置以及该至少一个检测框各自的大小;基于该至少一个检测框各自的位置以及该至少一个检测框各自的大小,从该待检测图片的初始特征中提取该至少一个检测框各自的初始特征;将该至少一个检测框各自的初始特征输入该第二分类器,得到该至少一个检测框各自的类别。
根据本公开实施例的第三方面,提供一种目标检测模型的训练装置。该装置可以包括:确定模块和处理模块;该确定模块,被配置为确定已检测图片包括的多个检测框中每一个检测框的初始特征以及该每一个检测框的初始特征对应的至少一个权重特征,其中,一个检测框的初始特征对应的至少一个权重特征中每一个权重特征与该检测框的初始特征之间的相似度大于或等于相似度阈值,该每一个检测框的初始特征对应的至少一个权重特征为第一分类器中包括的权重的特征,一个权重对应该第一分类器中的一个类别;该处理模块,被配置为基于该多个检测框中每一个检测框的初始特征以及该每一个检测框的初始特征对应的至少一个权重特征,生成该每一个检测框的目标特征;该处理模块,还被配置为基于该每一个检测框的目标特征,对第一目标检测模型训练,以生成第二目标检测模型。
可选地,上述第一目标检测模型中包括第一子网络模型和第二子网络模型,上述目标检测模型的训练装置还包括获取模块;该获取模块,被配置为获取该已检测图片;该处理模块,具体被配置为将该已检测图片输入该第一子网络模型,进行特征识别,得到该已检测图片的初始特征;该处理模块,具体还被配置为将该已检测图片的初始特征输入该第二子网络模型,得到该多个检测框中每一个检测框的位置以及该每一个检测框的大小;该处理模块,具体还被配置为基于该每一个检测框的位置以及该每一个检测框的大小,从该已检测图片的初始特征中提取该每一个检测框的初始特征。
可选地,上述第一分类器为第一图片分类模型中包括的分类器,该第一图片分类模型中包括第三子网络模型,该第三子网络模型中的参数与该第一子网络模型中的参数相同;该获取模块,还被配置为获取多个分类图片;该处理模块,还被配置为将该多个分类图片输入该第三子网络模型,得到该多个分类图片中每个分类图片的初始特征;该处理模块,还被配置为将该每个分类图片的初始特征输入该第一分类器,得到该每个分类图片在该第一分类器中的预测分类结果。
可选地,该确定模块,还被配置为确定第一损失和第二损失,该第一损失用于表征多个分类图片中每个分类图片的真实分类结果与该每个分类图片在该第一分类器中的预测分类结果之间的不一致程度,该第二损失用于表征该多个检测框中每一个检测框的空间不一致程度,其中,一个检测框的空间不一致程度包括该检测框的真实位置与该检测框在该第一目标检测模型中的预测位置之间的不一致程度,以及该检测框的真实大小与该检测框在该第一目标检测模型中的预测大小之间的不一致程度;该处理模块,具体被配置为将该每一个检测框的目标特征输入第二分类器,得到该每一个检测框在该第二分类器中的预测分类结果,该第二分类器为该第一目标检测模型中包括的分类器;该确定模块,具体被配置为确定第三损失和第四损失,该第三损失用于表征该每一个检测框的真实分类结果与该每一个检测框在该第二分类器中的预测分类结果之间的不一致程度,该第四损失用于表征该每一个检测框中是否包括物体的真实结果与该每一个检测框在该第二分类器中被预测为是否包括物体的结果之间的不一致程度;该确定模块,具体还被配置为根据该第一损失、该第二损失、该第三损失以及该第四损失,确定目标损失;该处理模块,具体还被配置为基于该目标损失,更新该第一目标检测模型中的参数,以生成该第二目标检测模型。
可选地,该确定模块,还被配置为将第一检测框的目标特征确定为预设均值,该第一检测框为该多个检测框中的一个;该处理模块,还被配置为基于该预设均值和预设标准差,生成该第一检测框的多个拓展特征;该处理模块,还被配置为基于该多个检测框中每一个检测框的多个拓展特征,对该第一目标检测模型进行训练。
根据本公开实施例的第四方面,提供一种目标检测装置。该装置可以包括:获取模块和处理模块;该获取模块,被配置为获取待检测图片;该处理模块,被配置为将待检测图片输入第二目标检测模型,得到该待检测图片包括的至少一个检测框各自的类别,该第二目标检测模型是基于上述第一方面中任一种可选地目标检测模型的训练方法训练得到的。
可选地,该第二目标检测模型中包括第一子网络模型、第二子网络模型以及第二分类器;该处理模块,具体被配置为将该待检测图片输入该第一子网络模型,进行特征识别,得到该待检测图片的初始特征;该处理模块,具体还被配置为将该待检测图片的初始特征输入该第二子网络模型,得到该至少一个检测框各自的位置以及该至少一个检测框各自的大小;该处理模块,具体还被配置为基于该至少一个检测框各自的位置以及该至少一个检测框各自的大小,从该待检测图片的初始特征中提取该至少一个检测框各自的初始特征;该处理模块,具体还被配置为将该至少一个检测框各自的初始特征输入该第二分类器,得到该至少一个检测框各自的类别。
根据本公开实施例的第五方面,提供一种电子设备,可以包括:处理器和被配置为存储处理器可执行指令的存储器;其中,处理器被配置为执行所述指令,以实现上述第一方面中任一种可选地目标检测模型的训练方法,或者实现上述第二方面中任一种可选地目标检测方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当该计算机可读存储介质中的指令由电子设备的处理器执行时,使得该电子设备能够执行上述第一方面中任一种可选地目标检测模型的训练方法,或者执行上述第二方面中任一种可选地目标检测方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,该计算机程序产品包括计算机指令,当该计算机指令在电子设备的处理器上运行时,使得该电子设备执行如第一方面中任一种可选地目标检测模型的训练方法,或者执行如第二方面中任一种可选地目标检测方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
基于上述任一方面,本公开中,电子设备可以确定已检测图片包括的多个检测框中每一个检测框的初始特征以及该每一个检测框对应的至少一个权重特征,并且基于该每一个检测框的初始特征以及该每一个检测框对应的至少一个权重特征,生成该每一个检测框的目标特征。由于该每一个检测框对应的至少一个权重特征为第一分类器中包括的权重的特征,一个权重对应该第一分类器中的一个类别,而一个检测框对应的至少一个权重特征与该检测框之间的相似度大于或等于相似度阈值,因此,电子设备可以从该第一分类器包括的多个类别中,确定与该检测框的类别(具体为该检测框中包括的物体的类别)较为相似的至少一个类别(即该检测框的初始特征对应的至少一个权重特征各自对应的类别)。然后电子设备可以将该检测框的类别对应的特征(即该检测框的初始特征)与该至少一个类别对应的特征(即该检测框的初始特征对应的至少一个权重特征)相结合,可以实现从分类图片到检测图片上的类别的迁移,无需对目标检测模型的训练样本进行大量的人工标注,可以准确地生成能够表征该每一个检测框的类别(具体为该每一个检测框中包括的物体的类别)的真实数据分布的目标特征。然后,该电子设备可以基于该每一个检测框的目标特征对第一目标检测模型训练,以生成第二目标检测模型,能够提升目标检测模型的训练效率。进而,电子设备可以基于该第二目标检测模型快速、准确地预测出每一个待检测图片中包括的多个物体的类别,即能够提升目标检测模型的预测效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1示出了本公开实施例提供的一种目标检测模型的训练方法的流程示意图;
图2示出了本公开实施例提供的又一种目标检测模型的训练方法的流程示意图;
图3示出了本公开实施例提供的又一种目标检测模型的训练方法的流程示意图;
图4示出了本公开实施例提供的又一种目标检测模型的训练方法的流程示意图;
图5示出了本公开实施例提供的又一种目标检测模型的训练方法的流程示意图;
图6示出了本公开实施例提供的一种目标检测方法的流程示意图;
图7示出了本公开实施例提供的又一种目标检测方法的流程示意图;
图8示出了本公开实施例提供的一种目标检测模型的训练装置的结构示意图;
图9示出了本公开实施例提供的又一种目标检测模型的训练装置的结构示意图;
图10示出了本公开实施例提供的一种目标检测装置的结构示意图;
图11示出了本公开实施例提供的又一种目标检测装置的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
还应当理解的是,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素和/或组件的存在或添加。
需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息、用户行为信息等)和数据(包括但不限于已检测图片、分类图片以及待检测图片等),均为经用户授权或者经过各方充分授权的信息和数据。
相关技术中,在进行神经网络模型的训练的过程中,可能需要大量高质量的目标检测训练样本,具体为需要大量的人力物力去标注每个目标检测训练样本中包括的各个目标的类别等,可能会影响神经网络模型的训练效率,进而降低神经网络模型的预测效率。
基于此,本公开实施例提供一种目标检测模型的训练方法,电子设备可以将已检测图片包括的多个检测框中某一个检测框的类别对应的特征(即该检测框的初始特征)与第一分类器中包括的至少一个类别对应的特征(即该检测框的初始特征对应的至少一个权重特征)相结合,可以实现从分类图片到检测图片上的类别的迁移,无需对目标检测模型的训练样本进行大量的人工标注,可以准确地生成能够表征每一个检测框的类别(具体为该每一个检测框中包括的物体的类别)的真实数据分布的目标特征。并且电子设备可以基于该每一个检测框的目标特征对第一目标检测模型训练,以生成第二目标检测模型,能够提升目标检测模型的训练效率。进而,电子设备可以基于该第二目标检测模型快速、准确地预测出每一个待检测图片中包括的多个物体的类别,即能够提升目标检测模型的预测效率。
本公开实施例提供的目标检测模型的训练方法、目标检测方法及装置,应用于目标检测场景(具体为需要确定出某一个待检测图片包括的每一个物体(或目标)的类别的场景)中。当电子设备确定出已检测图片包括的多个检测框中每一个检测框的初始特征以及该每一个检测框的初始特征对应的至少一个权重特征时,可以依据本公开实施例提供的方法,对第一目标检测模型(可以理解为初始状态下的目标检测模型)训练以生成第二目标检测模型(可以理解为已经训练完成的目标检测模型)。进而,当该电子设备获取到待检测图片时,可以将该待检测图片输入该第二目标检测模型,以得到该待检测图片包括的至少一个检测框各自的类别(也可以理解为该至少一个检测框中各自包括的物体或目标的类别)。
以下结合附图对本公开实施例提供的目标检测模型的训练方法以及目标检测方法进行示例性说明:
示例性的,执行本公开实施例提供的目标检测模型的训练方法以及目标检测方法的电子设备可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personal digital assistant,PDA)、增强现实(augmented reality,AR)\虚拟现实(virtual reality,VR)设备等可以安装并使用内容社区应用的设备,本公开对该电子设备的具体形态不作特殊限制。其可以与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互。
如图1所示,本公开实施例提供的目标检测模型的训练方法可以包括S101-S103。
S101、电子设备确定已检测图片包括的多个检测框中每一个检测框的初始特征以及每一个检测框的初始特征对应的至少一个权重特征。
其中,一个检测框的初始特征对应的至少一个权重特征中每一个权重特征与该检测框的初始特征之间的相似度大于或等于相似度阈值,该每一个检测框的初始特征对应的权重特征为第一分类器中包括的权重的特征,一个权重对应该第一分类器中的一个类别。
应理解,上述多个检测框中的一个检测框用于表征该已检测图片中的一个区域,该检测框(或该区域)中可能包括一个物体(或目标),也可能不包括物体。当该检测框中包括某一个物体时,该物体的类别即为该检测框的类别;当该检测框中不包括物体时,说明该检测框表征的是该已检测图片中的某一背景区域。
可选地,本公开实施例中的检测框可以为提议框(proposal)。
可以理解的是,上述第一分类器为第一图片分类模型中包括的分类器,该第一图片分类模型为某一初始状态下的图片分类模型,该图片分类模型用于对某一分类图片进行分类,具体为确定(或预测)该分类图片对应的类别。
需要说明的是,本公开实施例中的检测图片和分类图片为不同的图片,并且分别作用于不同的网络模型中。
具体的,检测图片一般比较大,该检测图片表征出的场景比较复杂,该检测图片中可以包括多个物体(或目标),对于该多个物体中的每一个物体而言,均可以为其配置一个检测框,进而将该每一个物体独立起来。电子设备将该检测图片输入某一目标检测模型,即可以得到该每一个检测框的类别,对于包括有物体的检测框而言,该检测框的类别结尾该检测框中包括的物体的类别。
而分类图片一般比较小,该分类图片表征出的场景也比较简单,该分类图片中一般只包括一个物体。电子设备将该分类图片输入到某一图片分类模型,即可以得到该分类图片的类别,该分类图片的类别即为该分类图片中包括的物体的类别。
本公开实施例中,某一个图片分类模型(例如上述第一图片分类模型)中可以包括一个分类器(即第一分类器),该第一分类器可以为多元分类器,即可以将多个分类图片划分为至少三种的类别。
应理解,该第一分类器中包括多个类别,一个类别对应一个权重,电子设备可以获取该多个类别中每一个类别对应的权重的特征,然后确定该每一个类别对应的权重的特征与上述多个检测框中某一个检测框的初始特征之间的相似度。当该检测框的初始特征与某一个类别对应的权重的特征之间的相似度大于或等于相似度阈值时,说明该检测框的类别(具体为该检测框中包括的物体的类别)与该类别较为相似,此时电子设备可以将该类别对应的权重的特征,确定为该检测框的初始特征对应的至少一个权重特征中的一个。即对于上述一个检测框的初始特征对应的至少一个权重特征中每一个权重特征而言,该每一个权重特征对应的类别与该检测框的类别较为相似。
在公开实施例的一种实现方式中,在上述电子设备确定该多个类别中每一个类别对应的权重的特征与某一个检测框的初始特征之间的相似度之后,还可以把相似度最大的X(X≥1)个类别对应的权重的特征,确定为该检测框的初始特征对应的至少一个权重特征。
可选地,电子设备可以余弦距离的形式表征上述每一个类别对应的权重的特征与多个检测框中某一个检测框的初始特征之间的相似度。具体的,当该检测框的初始特征与某一个类别对应的权重的特征之间的余弦距离小于或等于距离阈值时,电子设备可以将该类别对应的权重的特征确定为该检测框的初始特征对应的至少一个权重特征中的一个。或者,该电子设备还可以确定该多个类别中每一个类别对应的权重的特征与该检测框的初始特征之间的余弦距离,然后将余弦距离最小的X个类别对应的权重的特征,确定为该检测框的初始特征对应的至少一个权重特征。
可选地,上述第一分类器可以为20000类分类器。
S102、电子设备基于多个检测框中每一个检测框的初始特征以及每一个检测框的初始特征对应的至少一个权重特征,生成每一个检测框的目标特征。
结合上述实施例的描述,应理解,对于该多个检测框中的某一个检测框而言,该检测框的初始特征对应的至少一个权重特征,为与该检测框的类别(具体为该检测框中包括的物体的类别)较为相似的类别对应的权重的特征。
本公开实施例中,电子设备基于该每一个检测框的初始特征以及该每一个检测框的初始特征对应的至少一个权重特征,生成该每一个检测框的目标特征,即可以将该每一个检测框的类别的特征与至少一个类别(具体为图片分类模型中与该每一个检测框的类别较为相似的类别)的特征进行特征融合。由于图片分类模型中包括大量的类别,如此电子设备可以实现从分类图片到检测图片上的类别的迁移,无需对目标检测模型的训练样本进行大量的人工标注,可以准确地生成能够表征该每一个检测框的类别(具体为该每一个检测框中包括的物体的类别)的真实数据分布的目标特征。
在一种可选的实现方式中,对于上述多个检测框中的某一个检测框而言,电子设备可以将该检测框的初始特征与该检测框的初始特征对应的至少一个权重特征进行均值融合,即确定该检测框的初始特征与该检测框的初始特征对应的至少一个权重特征的平均值,然后电子设备将该平均值确定为该检测框的目标特征。
S103、电子设备基于每一个检测框的目标特征,对第一目标检测模型进行训练,以生成第二目标检测模型。
应理解,该第一目标检测模型为处于初始状态下的目标检测模型,该第二目标检测模型为已经训练完成的目标检测模型。
具体的,电子设备可以将该每一个检测框的目标特征输入该第一目标检测模型,得到该每一个检测框在该第一目标检测模型中的预测分类结果。然后,该电子设备可以结合该每一个检测框的真实分类结果等,确定该第一目标检测模型中的损失,并且基于该损失更新该第一目标检测模型中的参数,以生成该第二目标检测模型。
上述实施例提供的技术方案至少能够带来以下有益效果:由S101-S103可知,电子设备可以确定已检测图片包括的多个检测框中每一个检测框的初始特征以及该每一个检测框对应的至少一个权重特征,并且基于该每一个检测框的初始特征以及该每一个检测框对应的至少一个权重特征,生成该每一个检测框的目标特征。由于该每一个检测框对应的至少一个权重特征为第一分类器中包括的权重的特征,一个权重对应该第一分类器中的一个类别,而一个检测框对应的至少一个权重特征与该检测框之间的相似度大于或等于相似度阈值,因此,电子设备可以从该第一分类器包括的多个类别中,确定与该检测框的类别(具体为该检测框中包括的物体的类别)较为相似的至少一个类别(即该检测框的初始特征对应的至少一个权重特征各自对应的类别)。然后电子设备可以将该检测框的类别对应的特征(即该检测框的初始特征)与该至少一个类别对应的特征(即该检测框的初始特征对应的至少一个权重特征)相结合,可以实现从分类图片到检测图片上的类别的迁移,无需对目标检测模型的训练样本进行大量的人工标注,可以准确地生成能够表征该每一个检测框的类别(具体为该每一个检测框中包括的物体的类别)的真实数据分布的目标特征。然后,该电子设备可以基于该每一个检测框的目标特征对第一目标检测模型训练,以生成第二目标检测模型,能够提升目标检测模型的训练效率。进而,电子设备可以基于该第二目标检测模型快速、准确地预测出每一个待检测图片中包括的多个物体的类别,即能够提升目标检测模型的预测效率。
结合图1,如图2所示,在本公开实施例的一种实现方式中,上述第一目标检测模型中包括第一子网络模型和第二子网络模型,上述电子设备确定已检测图片包括的多个检测框中每一个检测框的初始特征,具体可以包括S1011-S1014。
S1011、电子设备获取已检测图片。
应理解,该已检测图片为上述第一目标检测模型的训练样本集中包括的训练样本,该已检测图片的数量可以为一个,也可以为多个。
S1012、电子设备将已检测图片输入第一子网络模型,进行特征识别,得到已检测图片的初始特征。
可选地,该第一子网络模型可以为一个卷积神经网络(convolutional neuralnetworks,CNN),该CNN具体可以为ResNet50、ResNet101、ResNet200、ResNeXt101、ResNeSt101、ResNet18、MobileNet或者SqueezeNet等。
可选地,在电子设备将该已检测图片输入该第一子网络模型之前,还可以对该已检测图片进行裁剪处理。例如,裁剪处理后的已检测图片的短边长度可以为600像素,长边长度可以小于或等于1000像素。
S1013、电子设备将已检测图片的初始特征输入第二子网络模型,得到多个检测框中每一个检测框的位置以及每一个检测框的大小。
在本公开实施例的一种实现方式中,对于该多个检测框中的某一个检测框而言,可以以该检测框的中心点的坐标表征该检测框的位置。并且,可以以该检测框的长和宽表征该检测框的大小。
可选地,该第二子网络模型可以为区域提议网络(region proposal network,RPN)。
S1014、电子设备基于每一个检测框的位置以及每一个检测框的大小,从已检测图片的初始特征中提取每一个检测框的初始特征。
应理解,该已检测图片的初始特征中包括该已检测图片中包括的全部内容的初始特征。本公开实施例中,电子设备在得到多个检测框中每一个检测框的位置以及该每一个检测框的大小之后,可以基于某一个检测框的位置以及该检测框的大小确定该检测框在该已检测图片中的位置和大小,然后从该已检测图片的初始特征中提取该检测框在该已检测图片中的位置和大小对应的初始特征,即可以提取出该检测框的初始特征。
上述实施例提供的技术方案至少能够带来以下有益效果:由S1011-S1014可知,电子设备在获取到已检测图片之后,可以将已检测图片输入到第一目标检测模型中包括的第一子网络模型中,得到已检测图片的初始特征;并且将已检测图片的初始特征输入第一目标检测模型中包括的第二子网络模型,可以得到已检测图片包括的多个检测框中每一个检测框的位置以及该每一个检测框的大小;然后电子设备可以基于该每一个检测框的位置以及该每一个检测框的大小,从已检测图片的初始特征中提取该每一个检测框的初始特征。本公开实施例中,电子设备在可以基于已检测图片包括的某一个检测框的位置以及该检测框的大小确定该检测框在该已检测图片中的位置和大小,然后从该已检测图片的初始特征中提取该检测框在该已检测图片中的位置和大小对应的初始特征,即可以提取出该检测框的初始特征。能够准确、有效地提取出已检测图片中包括的每一个检测框的初始特征。
结合图2,如图3所示,在本公开实施例的一种实现方式中,上述第一分类器为上述第一图像分类模型中包括的分类器,该第一图片分类模型中包括第三子网络模型,该第三子网络模型中的参数与上述第一子网络模型中的参数相同,本公开实施例提供的目标检测模型的训练方法还可以包括S104-S106。
S104、电子设备获取多个分类图片。
应理解,该多个分类图片为该第一图片分类模型的训练样本集中包括的训练样本。
S105、电子设备将多个分类图片输入第三子网络模型,得到多个分类图片中每个分类图片的初始特征。
可以理解的是,该第三子网络模型中的参数与该第一子网络模型中的参数相同,说明该第三子网络模型与该第一子网络模型为相同的网络模型。该第三子网络模型与该第一子网络模型也可以理解为孪生网络。
可选地,该第三子网络模型也可以为一个CNN。
在一种可选的实现方式中,电子设备可以将上述已检测图片与该多个分类图片输入同一个网络模型,即上述第一图片分类模型中可以包括该第一子网络模型。电子设备在获取都该多个分类图片之后,可以将该多个分类图片输入该第一子网络模型,以得到该多个分类图片中每个分类图片的初始特征。
可选地,在电子设备将该多个分类图片输入该第三子网络模型之前,也可以对该多个分类图片进行裁剪处理。例如,电子设备可以将该多个分类图片中的每个分类图片裁剪为224像素*224像素大小的图片。
需要说明的是,电子设备对上述已检测图片以及该多个分类图片进行裁剪处理,以保证同一批次内的训练样本可以同时进行训练。
可选地,为了提升模型训练的速度和准确度,电子设备可以使用ImageNet数据集对上述第一子网络模型以及第三子网络模型进行预训练。
S106、电子设备将每个分类图片的初始特征输入第一分类器,得到每个分类图片在第一分类器中的预测分类结果。
结合上述实施例的描述,应理解,上述多个分类图片中每个分类图片中可以包括一个物体,该分类图片的类别即为该分类图片中包括的物体的类别。本公开实施例中,电子设备得到的该每个分类图片在该第一分类器中的预测分类结果,即为该每个分类图片中包括的物体在该第一分类器中的预测分类结果。
上述实施例提供的技术方案至少能够带来以下有益效果:由S104-S106可知,电子设备可以获取多个分类图片,并且将该多个分类图片输入第三子网络模型(该第三子网络模型中的参数与第一目标检测模型中包括的第一子网络模型的参数相同),得到该多个分类图片中每个分类图片的初始特征;然后该电子设备将该每个分类图片的初始特征输入第一分类器(即第一图片分类模型中包括的分类器),得到该每个分类图片在该第一分类器的预测分类结果。本公开实施例中,电子设备可以通过孪生网络(即第一子网络模型和第三子网络模型)将多个分类图片和已检测图片进行联合训练,能够快速地确定出该多个分类图片和该已检测图片各自对应的预测分类结果。进而,电子设备可以基于该多个分类图片和该已检测图片各自对应的预测分类结果,确定第一图片分类模型以及第一目标检测模型中存在的损失,以更新该第一图片分类模型中以及第一目标检测模型中的参数,提升模型训练的效率。
结合图1,如图4所示,本公开实施例提供的目标检测模型的训练方法还包括S107。
S107、电子设备确定第一损失和第二损失。
其中,该第一损失用于表征多个分类图片中每个分类图片的真实分类结果与该每个分类图片在上述第一分类器中的预测分类结果之间的不一致程度,第二损失用于表征上述多个检测框中每一个检测框的空间不一致程度,其中,一个检测框的空间不一致程度包括该检测框的真实位置与该检测框在该第一目标检测模型中的预测位置之间的不一致程度,以及该检测框的真实大小与该检测框在第一目标检测模型中的预测大小之间的不一致程度。
应理解,电子设备在获取到该多个分类图片时,也可以获取到该多个分类图片的真实分类结果(也可以理解为该多个分类图片的真实标签),一个分类图片的真实分类结果用于表征该分类图片中包括的物体的真实类别。同理,电子设备在获取到上述已检测图片时,也可以获取到该已检测图片包括的多个检测框中每一个检测框的真实位置以及该每一个检测框的真实大小,具体为可以在该已检测图片中体现(或标注)出该每一个检测框的真实位置以及该每一个检测框的真实大小。
结合上述实施例的描述,应理解,电子设备将该多个分类图片输入上述第三网络子模型,得到该多个分类图片中每个分类图片的初始特征,然后将该每个分类图片的初始特征输入该第一分类器,即可以得到该每个分类图片在该第一分类器中的预测分类结果,该每个分类图片在该第一分类器中的预测分类结果也可以理解为该每个分类图片在上述第一图片分类模型中的预测分类结果。
在一种可选的实现方式中,对于该多个分类图片中的某一个分类图片而言,电子设备可以将该分类图片的真实分类结果定义为1,并且确定该分类图片在该第一分类器中被预测为该真实分类结果的分数(例如0.5),则电子设备可以确定该分类图片对应的损失为该真实分类结果与该分数之间的差值(即1-0.5=0.5),进而电子设备可以将该多个分类图片中每个分类图片对应的损失之和,确定为上述第一损失。
在另一种可选的实现方式中,电子设备还可以采用交叉熵函数的方式确定上述第一损失。例如,电子设备可以确定上述分类图片对应的损失为-log0.5。
可以理解的是,该第一目标检测模型中包括上述第二子网络模型,对于该多个检测框中的某一个检测框而言,该检测框在该第一目标检测模型中的预测位置为上述电子设备将已检测图片的初始特征输入该第二子网络模型之后,得到的该检测框的位置。同理,该检测框在该第一目标检测模型中的预测大小为该电子设备将该已检测图片的初始特征输入该第二子网络模型之后,得到的该检测框的大小。
在本公开实施例的一种实现方式中,可以以坐标的形式表征上述某一个检测框在该第一目标检测模型中的预测位置以及该检测框的真实位置,并且以长和宽的形式表征该检测框在该第一目标检测模型中的预测大小以及该检测框的真实大小。电子设备可以确定该检测框对应的空间损失满足下述公式:
L1=|x1-x2|+|y1-y2|+|w1-w2|+|h1-h2|
其中,L1表示该检测框对应的空间损失,x1表示该检测框在该第一目标检测模型中的预测位置的横坐标,y1表示该预测位置的纵坐标,w1表示该检测框在该第一目标检测模型中的预测大小中的长度,h1表示该预测大小中的宽度,x2表示该检测框的真实位置的横坐标,y2表示该真实位置的纵坐标,w2表示该检测框的真实大小中的长度,h2表示该真实大小中的宽度。
可选地,上述第一损失的权重可以为0.001,上述第二损失的权重可以为1。
继续如图4所示,上述电子设备基于每一个检测框的目标特征,对第一目标检测模型训练,以生成第二目标检测模型,具体可以包括S1031-S1034。
S1031、电子设备将每一个检测框的目标特征输入第二分类器,得到每一个检测框在第二分类器中的预测分类结果。
其中,该第二分类器为上述第一目标检测模型中包括的分类器。
本公开实施例中,该第二分类器中包括的类别的数量可以小于上述第一分类器中包括的类别的数量,例如该第二分类器可以为80类分类器。
S1032、电子设备确定第三损失和第四损失。
其中,该第三损失用于表征上述每一个检测框的真实分类结果与该每一个检测框在该第二分类器中的预测分类结果之间的不一致程度,该第四损失用于表征该每一个检测框中是否包括物体的真实结果与该每一个检测框在该第二分类器中被预测为是否包括物体的结果之间的不一致程度。
结合上述实施例的描述,应理解,电子设备在获取到上述已检测图片时,也可以获取该已检测图片包括的多个检测框中每一个检测框的真实分类结果,即该每一个检测框中包括的物体(或目标)的真实类别。
需要说明的是,电子设备确定该第三损失的解释说明与电子设备确定上述第一损失中的描述是相同或类似的,此处不再赘述。
可以理解的是,电子设备在获取到上述已检测图片时,也可以获取到该每一个检测框中是否包括物体的真实结果,具体的,当某一个检测框中的真实分类结果为某一个物体(或目标)时,电子设备可以确定该检测框中包括物体。相反地,即当该检测框中的真实分类结果是背景(即不是物体)时,电子设备可以确定该检测框中不包括物体。
对于上述多个检测框中某一个检测框而言,该检测框在第二分类器中被预测为包括物体的结果为该检测框在该第二分类器中被预测为各个类别的概率之和,该检测框在该第二分类器中被预测为不包括物体的结果为该检测框在该第二分类器中被预测为背景的概率。
S1033、电子设备根据第一损失、第二损失、第三损失以及第四损失,确定目标损失。
在一种可选的实现方式中,电子设备可以将该第一损失、该第二损失、该第三损失以及该第四损失的和,确定为该目标损失。
S1034、电子设备基于目标损失,更新第一目标检测模型中的参数,以生成第二目标检测模型。
应理解,电子设备更新该第一目标检测模型中的参数,具体为更新上述第二分类器中的参数、第一子网络模型中的参数以及第二子网络模型中的参数。
在一种可选的实现方式中,电子设备可以基于目标损失,使用随机梯度下降法(stochastic gradient descent,SGD)确定预设梯度,然后基于该预设梯度更新该第一目标检测模型中的参数,得到该第二目标检测模型。
可选地,在该第一目标检测模型的训练过程中,学习率可以设置为0.002,该第二目标检测模型的整个训练过程可以共训练30000轮,其中,在第24000轮是可以将学习率下降10倍,即学习率更新为0.0002。
在本发明实施例的一种实现方式中,电子设备还可以基于该目标损失,更新上述第一图片分类模型中的参数,以生成第二图片分类模型,该第二图片分类模型可以理解为已经训练完成的图片分类模型。其中,电子设备更新该第一图片分类模型中的参数,具体为更新上述第一分类器中的参数以及第三子网络模型中的参数。
上述实施例提供的技术方案至少能够带来以下有益效果:由S107,S1031-S1034可知,电子设备可以确定第一损失、第二损失、第三损失以及第四损失,该第一损失用于表征多个分类图片中每个分类图片的真实分类结果与该每个分类图片在第一分类器中的预测分类结果之间的不一致程度,该第二损失用于表征已检测图片包括的多个检测框中每一个检测框的空间不一致程度(包括一个检测框的真实位置与该检测框在第一目标检测模型中的预测位置的不一致程度,以及该检测框的真实大小与该检测框在该目标检测模型中的预测大小之间的不一致程度),该第三损失用于表征该每一个检测框的真实分类结果与该每一个检测框在第二分类器中的预测分类结果之间的不一致程度,该第四损失用于表征该每一个检测框中是否包括物体的真实结果与该每一个检测框在该第二分类器中被预测为是否包括物体的结果之间的不一致程度。然后该电子设备可以根据该第一损失、该第二损失、该第三损失以及该第四损失确定目标损失,并且基于该目标损失,更新第一目标检测模型中的参数,以生成第二目标检测模型。本公开实施例中,电子设备可以确定出第一目标检测模型以及第一图片分类模型在训练过程中存在的每一项损失,并且基于该每一项损失更新该第一目标检测模型以及该第一图片分类模型中的参数,能够准确、有效地对目标检测模型进行训练,以生成预测准确度较高的目标检测模型。
结合图1,如图5所示,本公开实施例提供的目标检测模型的训练方法还可以包括S108-S110。
S108、电子设备将第一检测框的目标特征确定为预设均值。
其中,该第一检测框为上述多个检测框的一个。
结合上述实施例的描述,应理解,电子设备可以基于该多个检测框中每一个检测框的初始特征以及该每一个检测框的初始特征对应的至少一个权重,生成该每一个检测框的目标特征。然后,对于该多个检测框中的某一个检测框(例如该第一检测框)而言,电子设备可以将该第一检测框的目标特征确定为上述预设均值。
S109、电子设备基于预设均值和预设标准差,生成第一检测框的多个拓展特征。
在一种可选的实现方式中,电子设备可以基于该预设均值和该预设标准差,并且采用高斯函数生成该第一检测框的多个扩展特征。
具体的,电子设备可以确定该第一检测框的多个扩展特征满足下述公式:
Ig=Gaussian(It,σ)
其中,Ig表示该第一检测框的多个扩展特征,It表示该预设均值,σ表示该预设标准差,Gaussian表示高斯函数。
示例性的,电子设备可以将该预设标准差设置为1。
S110、电子设备基于多个检测框中每一个检测框的多个扩展特征,对第一目标检测模型进行训练。
应理解,电子设备可以基于上述预设均值和预设标准差,生成更多能够表征该多个检测框中每一个检测框的类别的特征(即该每一个检测框的多个扩展特征),能够提升待训练特征(即用于对第一目标检测模型进行训练的特征)的丰富性。进而,电子设备基于该每个检测框的多个扩展特征对该第一目标检测模型进行训练时,可以训练出预测准确度较高的目标检测模型。
需要说明的是,电子设备基于该多个检测框中每一个检测框的多个扩展特征,对该第一目标检测模型进行训练的解释说明,与上述电子设备基于该每一个检测框的目标特征,对该第一目标检测模型进行训练中的描述是相同或类似的,此处不再赘述。
上述实施例提供的技术方案至少能够带来以下有益效果:由S108-S110可知,电子设备可以将多个检测框中的某一个检测框(例如第一检测框)的目标特征确定为预设均值,并且基于该预设均值和预设标准差,生成该第一检测框的多个扩展特征。由于该多个检测框中每一个检测框的多个扩展特征能够提升模型训练时的丰富性,如此,电子设备在基于该每一个检测框的多个拓展特征,对第一目标检测模型进行训练时,可以训练出预测准确度较高的目标检测模型。
如图6所示,本公开实施例提供的目标检测方法可以包括S201-S202。
S201、电子设备获取待检测图片。
应理解,该待检测图片为一个没有真实分类结果的检测图片。
S202、电子设备将待检测图片输入第二目标检测模型,得到待检测图片包括的至少一个检测框各自的类别。
其中,该第二目标检测模型是基于上述本公开实施例中提供的目标检测模型的训练方法训练得到的。
具体的,该第二目标检测模型是基于已检测图片包括的多个检测框中每一个检测框的目标特征对第一目标检测模型训练生成的,该每一个检测框的目标特征是基于该每一个检测框的初始特征以及该每一个检测框的初始特征对应的至少一个权重特征生成的,其中,一个检测框的初始特征对应的至少一个权重特征中每一个权重特征与该检测框的初始特征之间的相似度大于或等于相似度阈值,该每一个检测框的初始特征对应的至少一个权重特征为第一分类器中包括的权重的特征,一个权重对应该第一分类器中的一个类别,该第一类别为第一图片分类模型中包括的分类器。
结合上述实施例的描述,应理解,该第一目标检测模型为初始状态下的目标检测模型,该第二目标检测模型为已经训练完成的目标检测模型,该第一图片分类模型为初始状态下的图片分类模型,该待检测图片包括的至少一个检测框各自的类别为该至少一个检测框各自包括的物体(或目标)的类别。
可以理解的是,上述第二图片分类模型为已经训练完成的图片分类模型。电子设备可以获取某一待识别分类图片,并且将该待识别分类图片输入该第二图片分类模型,以得到该待识别分类图片(具体为该待识别分类图片中包括的物体)的类别。
需要说明的是,电子设备生成该多个检测框中每一个检测框的目标特征的具体过程,以及电子设备基于该每一个检测框的目标特征对该第一目标检测模型训练,以生成该第二目标检测模型的具体过程可以参见上述实施例的描述,此处不再赘述。
上述实施例提供的技术方案至少能够带来以下有益效果:由S201-S202可知,电子设备可以获取待检测图片,并且将待检测图片输入第二目标检测模型,得到待检测图片包括的至少一个检测框各自的类别。本公开实施例中,由于一个检测框的初始特征与检测框的初始特征对应的至少一个权重特征之间的相似度大于或等于相似度阈值,说明电子设备可以从第一分类器中包括的多个类别中确定与该检测框的类别较为相似的至少一个类别(即该检测框的初始特征对应的至少一个权重特征各自对应的类别)。该检测框的目标特征可以实现从分类图片到检测图片上的类别的迁移,无需对目标检测模型的训练样本进行大量的人工标注,能够准确地表征出每一个检测框的类别,即该第二目标检测模型为预测速度高,并且预测准确度高的目标检测模型。如此,电子设备可以基于该第二目标检测模型准确地确定出该待检测图片包括的至少一个检测框各自的类别,能够提升目标检测的效率。
结合图6,如图7所示,上述第二目标检测模型中包括第一子网络模型,第二子网络模型以及第二分类器,上述电子设备将待检测图片输入第二目标检测模型,得到待检测图片包括的至少一个检测框各自的类别,具体可以包括S2021-S2024。
S2021、电子设备将待检测图片输入第一子网络模型,进行特征识别,得到待检测图片的初始特征。
S2022、电子设备将待检测图片的初始特征输入第二子网络模型,得到至少一个检测框各自的位置以及至少一个检测框各自的大小。
S2023、电子设备基于至少一个检测框各自的位置以及至少一个检测框各自的大小,从待检测图片的初始特征中提取至少一个检测框各自的初始特征。
S2024、电子设备将至少一个检测框各自的初始特征输入第二分类器,得到至少一个检测框各自的类别。
需要说明的是,上述S2021-S2024中的解释说明可以参见上述实施例中的描述,此处不再赘述。
上述实施例提供的技术方案至少能够带来以下有益效果:由S2021-S2024可知,电子设备可以将待检测图片输入到第二目标检测模型中包括的第一子网络模型中,得到该待检测图片的初始特征;并且将该待检测图片的初始特征输入该第二目标检测模型中包括的第二子网络模型,可以得到该待检测图片包括的至少一个检测框各自的位置以及该至少一个检测框各自的大小;然后该电子设备可以基于该至少一个检测框各自的位置以及该至少一个检测框各自的大小从该待检测图片的初始特征中提取该至少一个检测框各自的初始特征,以及将该至少一个检测框各自的初始特征输入该第二目标检测模型中包括的第二分类器中,以得到该至少一个检测框各自的类别。本公开实施例中,电子设备能够准确、有效地确定出待检测图片中包括的至少一个检测框各自的类别,即可以准确、有效地确定出该至少一个检测框各自包括的物体的类别。
可以理解的,在实际实施时,本公开实施例所述的电子设备可以包含有用于实现前述对应目标检测模型的训练方法以及目标检测方法的一个或多个硬件结构和/或软件模块,这些执行硬件结构和/或软件模块可以构成一个电子设备。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的算法步骤,本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
基于这样的理解,本公开实施例还对应提供一种目标检测模型的训练装置,图8示出了本公开实施例提供的目标检测模型的训练装置的结构示意图。如图8所示,该目标检测模型的训练装置10可以包括:确定模块101和处理模块102。
确定模块101,被配置为确定已检测图片包括的多个检测框中每一个检测框的初始特征以及该每一个检测框的初始特征对应的至少一个权重特征,其中,一个检测框的初始特征对应的至少一个权重特征中每一个权重特征与该检测框的初始特征之间的相似度大于或等于相似度阈值,该每一个检测框的初始特征对应的至少一个权重特征为第一分类器中包括的权重的特征,一个权重对应该第一分类器中的一个类别。
处理模块102,被配置为基于该多个检测框中每一个检测框的初始特征以及该每一个检测框的初始特征对应的至少一个权重特征,生成该每一个检测框的目标特征。
处理模块102,还被配置为基于该每一个检测框的目标特征,对第一目标检测模型训练,以生成第二目标检测模型。
可选地,上述第一目标检测模型中包括第一子网络模型和第二子网络模型,上述目标检测模型的训练装置10还包括获取模块103。
获取模块103,被配置为获取该已检测图片。
处理模块102,具体被配置为将该已检测图片输入该第一子网络模型,进行特征识别,得到该已检测图片的初始特征。
处理模块102,具体还被配置为将该已检测图片的初始特征输入该第二子网络模型,得到该多个检测框中每一个检测框的位置以及该每一个检测框的大小。
处理模块102,具体还被配置为基于该每一个检测框的位置以及该每一个检测框的大小,从该已检测图片的初始特征中提取该每一个检测框的初始特征。
可选地,上述第一分类器为第一图片分类模型中包括的分类器,该第一图片分类模型中包括第三子网络模型,该第三子网络模型中的参数与该第一子网络模型中的参数相同。
获取模块103,还被配置为获取多个分类图片。
处理模块102,还被配置为将该多个分类图片输入该第三子网络模型,得到该多个分类图片中每个分类图片的初始特征;
处理模块102,还被配置为将该每个分类图片的初始特征输入该第一分类器,得到该每个分类图片在该第一分类器中的预测分类结果。
可选地,确定模块101,还被配置为确定第一损失和第二损失,该第一损失用于表征多个分类图片中每个分类图片的真实分类结果与该每个分类图片在该第一分类器中的预测分类结果之间的不一致程度,该第二损失用于表征该多个检测框中每一个检测框的空间不一致程度,其中,一个检测框的空间不一致程度包括该检测框的真实位置与该检测框在该第一目标检测模型中的预测位置之间的不一致程度,以及该检测框的真实大小与该检测框在该第一目标检测模型中的预测大小之间的不一致程度。
处理模块102,具体被配置为将该每一个检测框的目标特征输入第二分类器,得到该每一个检测框在该第二分类器中的预测分类结果,该第二分类器为该第一目标检测模型中包括的分类器。
确定模块101,具体被配置为确定第三损失和第四损失,该第三损失用于表征该每一个检测框的真实分类结果与该每一个检测框在该第二分类器中的预测分类结果之间的不一致程度,该第四损失用于表征该每一个检测框中是否包括物体的真实结果与该每一个检测框在该第二分类器中被预测为是否包括物体的结果之间的不一致程度。
确定模块101,具体还被配置为根据该第一损失、该第二损失、该第三损失以及该第四损失,确定目标损失。
处理模块102,具体还被配置为基于该目标损失,更新该第一目标检测模型中的参数,以生成该第二目标检测模型。
可选地,确定模块101,还被配置为将第一检测框的目标特征确定为预设均值,该第一检测框为该多个检测框中的一个。
处理模块102,还被配置为基于该预设均值和预设标准差,生成该第一检测框的多个拓展特征。
处理模块102,还被配置为基于该多个检测框中每一个检测框的多个拓展特征,对该第一目标检测模型进行训练。
如上所述,本公开实施例可以根据上述方法示例对目标检测模型的训练装置进行功能模块的划分。其中,上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。另外,还需要说明的是,本公开实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。
关于上述实施例中的目标检测模型的训练装置,其中各个模块执行操作的具体方式、以及具备的有益效果,均已经在前述方法实施例中进行了详细描述,此处不再赘述。
图9是本公开提供的另一种目标检测模型的训练装置的结构示意图。如图9,该目标检测模型的训练装置20可以包括至少一个处理器201以及用于存储处理器可执行指令的存储器203。其中,处理器201被配置为执行存储器203中的指令,以实现上述实施例中的目标检测模型的训练方法。
另外,目标检测模型的训练装置20还可以包括通信总线202以及至少一个通信接口204。
处理器201可以是一个处理器(central processing units,CPU),微处理单元,ASIC,或一个或多个用于控制本公开方案程序执行的集成电路。
通信总线202可包括一通路,在上述组件之间传送信息。
通信接口204,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN)等。
存储器203可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。
其中,存储器203用于存储执行本公开方案的指令,并由处理器201来控制执行。处理器201用于执行存储器203中存储的指令,从而实现本公开方法中的功能。
在具体实现中,作为一种实施例,处理器201可以包括一个或多个CPU,例如图9中的CPU0和CPU1。
在具体实现中,作为一种实施例,目标检测模型的训练装置20可以包括多个处理器,例如图9中的处理器201和处理器207。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在具体实现中,作为一种实施例,目标检测模型的训练装置20还可以包括输出设备205和输入设备206。输出设备205和处理器201通信,可以以多种方式来显示信息。例如,输出设备205可以是液晶显示器(liquid crystal display,LCD),发光二级管(lightemitting diode,LED)显示设备,阴极射线管(cathode ray tube,CRT)显示设备,或投影仪(projector)等。输入设备206和处理器201通信,可以以多种方式接受用户的输入。例如,输入设备206可以是鼠标、键盘、触摸屏设备或传感设备等。
图10为本公开提供的一种目标检测装置的结构示例图。如图10所示,该目标检测装置30可以包括:根据本公开实施例的第四方面,提供一种目标检测装置。该目标检测装置30可以包括:获取模块301和处理模块302。
获取模块301,被配置为获取待检测图片。
处理模块302,被配置为将该待检测图片输入第二目标检测模型,得到该待检测图片包括的至少一个检测框各自的类别,该第二目标检测模型是基于上述本公开实施例中提供的目标检测模型的训练方法训练得到的。
可选地,第二目标检测模型中包括第一子网络模型、第二子网络模型以及第二分类器。
处理模块302,具体被配置为将该待检测图片输入该第一子网络模型,进行特征识别,得到该待检测图片的初始特征。
处理模块302,具体还被配置为将该待检测图片的初始特征输入该第二子网络模型,得到该至少一个检测框各自的位置以及该至少一个检测框各自的大小。
处理模块302,具体还被配置为基于该至少一个检测框各自的位置以及该至少一个检测框各自的大小,从该待检测图片的初始特征中提取该至少一个检测框各自的初始特征。
处理模块302,具体还被配置为将该至少一个检测框各自的初始特征输入该第二分类器,得到该至少一个检测框各自的类别。
图11是本公开提供的另一种目标检测装置的结构示意图,该目标检测装置可以是上述电子设备。如图11,该目标检测装置40可以包括至少一个处理器401以及用于存储处理器可执行指令的存储器403。其中,处理器401被配置为执行存储器403中的指令,以实现上述实施例中的目标检测方法。
另外,目标检测装置40还可以包括通信总线402以及至少一个通信接口404。
处理器401可以是一个CPU,微处理单元,ASIC,或一个或多个用于控制本公开方案程序执行的集成电路。
通信总线402可包括一通路,在上述组件之间传送信息。
通信接口404,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,RAN,WLAN等。
存储器403可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。
其中,存储器403用于存储执行本公开方案的指令,并由处理器401来控制执行。处理器401用于执行存储器403中存储的指令,从而实现本公开方法中的功能。
在具体实现中,作为一种实施例,处理器401可以包括一个或多个CPU,例如图11中的CPU0和CPU1。
在具体实现中,作为一种实施例,目标检测装置40可以包括多个处理器,例如图11中的处理器401和处理器407。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在具体实现中,作为一种实施例,目标检测装置40还可以包括输出设备405和输入设备406。输出设备405和处理器401通信,可以以多种方式来显示信息。例如,输出设备405可以是LCD,LED显示设备,CRT显示设备,或投影仪(projector)等。输入设备406和处理器401通信,可以以多种方式接受用户的输入。例如,输入设备406可以是鼠标、键盘、触摸屏设备或传感设备等。
本领域技术人员可以理解,图9中示出的结构并不构成对目标检测模型的训练装置20的限定,并且图11中示出的结构并不构成对目标检测装置40的限定。其可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
另外,本公开还提供一种计算机可读存储介质,包括指令,当指令由电子设备执行时,使得电子设备执行如上述实施例所提供的目标检测模型的训练方法,或者执行如上述实施例所提供的目标检测方法。
另外,本公开还提供一种计算机程序产品,包括指令,当指令由电子设备执行时,使得电子设备执行如上述实施例所提供的目标检测模型的训练方法,或者执行如上述实施例所提供的目标检测方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (10)

1.一种目标检测模型的训练方法,其特征在于,包括:
确定已检测图片包括的多个检测框中每一个检测框的初始特征以及所述每一个检测框的初始特征对应的至少一个权重特征,其中,一个检测框的初始特征对应的至少一个权重特征中每一个权重特征与所述检测框的初始特征之间的相似度大于或等于相似度阈值,所述每一个检测框的初始特征对应的至少一个权重特征为第一分类器中包括的权重的特征,一个权重对应所述第一分类器中的一个类别;
基于所述多个检测框中每一个检测框的初始特征以及所述每一个检测框的初始特征对应的至少一个权重特征,生成所述每一个检测框的目标特征;
基于所述每一个检测框的目标特征,对第一目标检测模型训练,以生成第二目标检测模型。
2.根据权利要求1所述的目标检测模型的训练方法,其特征在于,所述第一目标检测模型中包括第一子网络模型和第二子网络模型,所述确定已检测图片包括的多个检测框中每一个检测框的初始特征,包括:
获取所述已检测图片;
将所述已检测图片输入所述第一子网络模型,进行特征识别,得到所述已检测图片的初始特征;
将所述已检测图片的初始特征输入所述第二子网络模型,得到所述多个检测框中每一个检测框的位置以及所述每一个检测框的大小;
基于所述每一个检测框的位置以及所述每一个检测框的大小,从所述已检测图片的初始特征中提取所述每一个检测框的初始特征。
3.根据权利要求2所述的目标检测模型的训练方法,其特征在于,所述第一分类器为第一图片分类模型中包括的分类器,所述第一图片分类模型中包括第三子网络模型,所述第三子网络模型中的参数与所述第一子网络模型中的参数相同,所述方法还包括:
获取多个分类图片;
将所述多个分类图片输入所述第三子网络模型,得到所述多个分类图片中每个分类图片的初始特征;
将所述每个分类图片的初始特征输入所述第一分类器,得到所述每个分类图片在所述第一分类器中的预测分类结果。
4.根据权利要求3所述的目标检测模型的训练方法,其特征在于,所述方法还包括:
确定第一损失和第二损失,所述第一损失用于表征多个分类图片中每个分类图片的真实分类结果与所述每个分类图片在所述第一分类器中的预测分类结果之间的不一致程度,所述第二损失用于表征所述多个检测框中每一个检测框的空间不一致程度,其中,一个检测框的空间不一致程度包括所述检测框的真实位置与所述检测框在所述第一目标检测模型中的预测位置之间的不一致程度,以及所述检测框的真实大小与所述检测框在所述第一目标检测模型中的预测大小之间的不一致程度;
所述基于所述每一个检测框的目标特征,对第一目标检测模型训练,以生成第二目标检测模型,包括:
将所述每一个检测框的目标特征输入第二分类器,得到所述每一个检测框在所述第二分类器中的预测分类结果,所述第二分类器为所述第一目标检测模型中包括的分类器;
确定第三损失和第四损失,所述第三损失用于表征所述每一个检测框的真实分类结果与所述每一个检测框在所述第二分类器中的预测分类结果之间的不一致程度,所述第四损失用于表征所述每一个检测框中是否包括物体的真实结果与所述每一个检测框在所述第二分类器中被预测为是否包括物体的结果之间的不一致程度;
根据所述第一损失、所述第二损失、所述第三损失以及所述第四损失,确定目标损失;
基于所述目标损失,更新所述第一目标检测模型中的参数,以生成所述第二目标检测模型。
5.一种目标检测方法,其特征在于,包括:
获取待检测图片;
将所述待检测图片输入第二目标检测模型,得到所述待检测图片包括的至少一个检测框各自的类别,所述第二目标检测模型是基于权利要求1-4中任一项所述的目标检测模型的训练方法训练得到的。
6.一种目标检测模型的训练装置,其特征在于,包括:确定模块和处理模块;
所述确定模块,被配置为确定已检测图片包括的多个检测框中每一个检测框的初始特征以及所述每一个检测框的初始特征对应的至少一个权重特征,其中,一个检测框的初始特征对应的至少一个权重特征中每一个权重特征与所述检测框的初始特征之间的相似度大于或等于相似度阈值,所述每一个检测框的初始特征对应的至少一个权重特征为第一分类器中包括的权重的特征,一个权重对应所述第一分类器中的一个类别;
所述处理模块,被配置为基于所述多个检测框中每一个检测框的初始特征以及所述每一个检测框的初始特征对应的至少一个权重特征,生成所述每一个检测框的目标特征;
所述处理模块,还被配置为基于所述每一个检测框的目标特征,对第一目标检测模型训练,以生成第二目标检测模型。
7.一种目标检测装置,其特征在于,包括:获取模块和处理模块;
所述获取模块,被配置为获取待检测图片;
所述处理模块,被配置为将所述待检测图片输入第二目标检测模型,得到所述待检测图片包括的至少一个检测框各自的类别,所述第二目标检测模型是基于权利要求1-4中任一项所述的目标检测模型的训练方法训练得到的。
8.一种电子设备,其特征在于,所述电子设备包括:
处理器;
被配置为存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1-4中任一项所述的目标检测模型的训练方法,或者实现如权利要求5所述的目标检测方法。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1-4中任一项所述的目标检测模型的训练方法,或者执行如权利要求5所述的目标检测方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,当所述计算机指令在电子设备的处理器上运行时,使得所述电子设备执行如权利要求1-4中任一项所述的目标检测模型的训练方法,或者执行如权利要求5所述的目标检测方法。
CN202210583646.1A 2022-05-25 2022-05-25 一种目标检测模型的训练方法、目标检测方法及装置 Pending CN114898183A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210583646.1A CN114898183A (zh) 2022-05-25 2022-05-25 一种目标检测模型的训练方法、目标检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210583646.1A CN114898183A (zh) 2022-05-25 2022-05-25 一种目标检测模型的训练方法、目标检测方法及装置

Publications (1)

Publication Number Publication Date
CN114898183A true CN114898183A (zh) 2022-08-12

Family

ID=82726208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210583646.1A Pending CN114898183A (zh) 2022-05-25 2022-05-25 一种目标检测模型的训练方法、目标检测方法及装置

Country Status (1)

Country Link
CN (1) CN114898183A (zh)

Similar Documents

Publication Publication Date Title
US20210081796A1 (en) Neural architecture search for dense image prediction tasks
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
CN111813532B (zh) 一种基于多任务机器学习模型的图像管理方法及装置
EP3872652B1 (en) Method and apparatus for processing video, electronic device, medium and product
CN115063875B (zh) 模型训练方法、图像处理方法、装置和电子设备
US20230080230A1 (en) Method for generating federated learning model
US20220351398A1 (en) Depth detection method, method for training depth estimation branch network, electronic device, and storage medium
CN114494784A (zh) 深度学习模型的训练方法、图像处理方法和对象识别方法
EP4123595A2 (en) Method and apparatus of rectifying text image, training method and apparatus, electronic device, and medium
WO2024083121A1 (zh) 一种数据处理方法及其装置
CN111191825A (zh) 用户违约预测方法、装置及电子设备
CN112650885A (zh) 视频分类方法、装置、设备和介质
CN114882321A (zh) 深度学习模型的训练方法、目标对象检测方法和装置
US20230245429A1 (en) Method and apparatus for training lane line detection model, electronic device and storage medium
CN117726884B (zh) 对象类别识别模型的训练方法、对象类别识别方法及装置
CN110019952B (zh) 视频描述方法、系统及装置
WO2023020160A1 (zh) 一种推荐方法、训练方法、装置、设备及推荐系统
CN115795355A (zh) 一种分类模型训练方法、装置及设备
CN115375901A (zh) 图像目标检测和实例分割方法、系统、计算设备及介质
CN114493683A (zh) 广告素材推荐方法、模型训练方法、装置及电子设备
CN114898183A (zh) 一种目标检测模型的训练方法、目标检测方法及装置
CN110909797B (zh) 图像检测方法以及装置、设备、存储介质
CN114611609A (zh) 一种图网络模型节点分类方法、装置、设备及存储介质
CN114220163A (zh) 人体姿态估计方法、装置、电子设备及存储介质
US20220392204A1 (en) Method of training model, electronic device, and readable storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination