CN116935107A - 基于互联网搜索的检测类别自扩展目标检测方法及装置 - Google Patents

基于互联网搜索的检测类别自扩展目标检测方法及装置 Download PDF

Info

Publication number
CN116935107A
CN116935107A CN202310855205.7A CN202310855205A CN116935107A CN 116935107 A CN116935107 A CN 116935107A CN 202310855205 A CN202310855205 A CN 202310855205A CN 116935107 A CN116935107 A CN 116935107A
Authority
CN
China
Prior art keywords
detection
target
picture
detection model
sample picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310855205.7A
Other languages
English (en)
Inventor
张兆翔
常清
刘佳恒
彭君然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202310855205.7A priority Critical patent/CN116935107A/zh
Publication of CN116935107A publication Critical patent/CN116935107A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于互联网搜索的检测类别自扩展目标检测方法及装置,所述方法包括:将待检测图片输入至目标检测模型,得到目标检测模型输出的目标检测结果;其中,目标检测模型的训练步骤包括:基于待扩展检测类别,搜索待扩展检测类别对应的样本图片;基于样本图片以及待扩展检测类别,对初始检测模型进行训练,得到第一检测模型;将样本图片输入至第一检测模型,得到第一检测模型输出的样本图片对应的第一伪标签;基于样本图片、第一伪标签以及携带有标签的已知类别图片一同对第一检测模型进行训练,得到目标检测模型。本发明能够使得目标检测模型无需额外人工标注即可实现扩展检测类别。

Description

基于互联网搜索的检测类别自扩展目标检测方法及装置
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于互联网搜索的检测类别自扩展目标检测方法及装置。
背景技术
目标检测是计算机视觉领域的核心问题之一,其任务就是找出图像中所有感兴趣的目标,确定它们的类别和位置,其广泛应用于在安防监控、智能视频分析、自动驾驶等领域。
目前,多通过搜集样本图片并对样本图片进行人工标注后,基于样本图片以及对应的标注训练得到目标检测模型,以基于目标检测模型进行目标检测。然而,若要保证目标检测模型的检测精度,则需要获取大量的样本图片,进而也需要对大量样本图片进行人工标注,成本较高。
发明内容
本发明提供一种基于互联网搜索的检测类别自扩展目标检测方法及装置,用以解决现有技术中目标检测成本较高的缺陷。
本发明提供一种基于互联网搜索的检测类别自扩展目标检测方法,包括:
获取待检测图片;
将所述待检测图片输入至目标检测模型,得到所述目标检测模型输出的目标检测结果;
其中,所述目标检测模型基于如下步骤训练得到:
基于待扩展检测类别,搜索所述待扩展检测类别对应的样本图片;
基于所述样本图片以及所述待扩展检测类别,对初始检测模型进行训练,得到第一检测模型;
将所述样本图片输入至所述第一检测模型,得到所述第一检测模型输出的所述样本图片对应的第一伪标签;
基于所述样本图片、所述第一伪标签以及携带有标签的已知类别图片,对所述第一检测模型进行训练,得到所述目标检测模型。
根据本发明提供的一种基于互联网搜索的检测类别自扩展目标检测方法,所述基于所述样本图片以及所述待扩展检测类别,对初始检测模型进行训练,得到第一检测模型,包括:
基于所述样本图片以及所述待扩展检测类别,进行弱监督定位模型的训练;
基于训练后的弱监督定位模型,在所述样本图片上生成物体包围框,得到目标样本图片;
基于所述目标样本图片以及所述待扩展检测类别,对所述初始检测模型进行训练,得到所述第一检测模型。
根据本发明提供的一种基于互联网搜索的检测类别自扩展目标检测方法,所述基于训练后的弱监督定位模型,在所述样本图片上生成物体包围框,得到目标样本图片,包括:
基于训练后的弱监督定位模型,在所述样本图片上生成物体包围框,得到初始目标样本图片;
对所述初始目标样本图片进行样本增强,得到所述目标样本图片。
根据本发明提供的一种基于互联网搜索的检测类别自扩展目标检测方法,所述基于所述样本图片、所述第一伪标签以及携带有标签的已知类别图片,对所述第一检测模型进行训练,得到所述目标检测模型,包括:
基于所述样本图片、所述第一伪标签以及携带有标签的已知类别图片,对所述第一检测模型进行训练,得到第二检测模型;
将复杂图片输入至所述第二检测模型,得到所述第二检测模型输出的所述复杂图片对应的第二伪标签;
基于所述复杂图片以及所述第二伪标签,对所述第一检测模型进行训练,得到所述目标检测模型;
其中,所述样本图片中包括单个检测目标,所述复杂图片中包括至少两个检测目标。
根据本发明提供的一种基于互联网搜索的检测类别自扩展目标检测方法,所述基于待扩展检测类别,搜索所述待扩展检测类别对应的样本图片,包括:
基于所述待扩展检测类别,确定搜索关键词;
基于所述搜索关键词,搜索所述样本图片。
根据本发明提供的一种基于互联网搜索的检测类别自扩展目标检测方法,所述基于所述样本图片以及所述待扩展检测类别,对初始检测模型进行训练,得到第一检测模型,之前还包括:
基于所述待扩展检测类别,确定所述待扩展检测类别对应的描述文本;
基于所述描述文本,对所述样本图片进行清洗。
根据本发明提供的一种基于互联网搜索的检测类别自扩展目标检测方法,所述初始检测模型基于二阶段目标检测框架构建得到。
本发明还提供一种基于互联网搜索的检测类别自扩展目标检测装置,包括:
获取单元,用于获取待检测图片;
检测单元,用于将所述待检测图片输入至目标检测模型,得到所述目标检测模型输出的目标检测结果;
其中,所述目标检测模型基于如下步骤训练得到:
基于待扩展检测类别,搜索所述待扩展检测类别对应的样本图片;
基于所述样本图片以及所述待扩展检测类别,对初始检测模型进行训练,得到第一检测模型;
将所述样本图片输入至所述第一检测模型,得到所述第一检测模型输出的所述样本图片对应的第一伪标签;
基于所述样本图片、所述第一伪标签以及携带有标签的已知类别图片,对所述第一检测模型进行训练,得到所述目标检测模型。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述基于互联网搜索的检测类别自扩展目标检测方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于互联网搜索的检测类别自扩展目标检测方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于互联网搜索的检测类别自扩展目标检测方法。
本发明提供的基于互联网搜索的检测类别自扩展目标检测方法及装置,由于样本图片是基于待扩展检测类别搜索得到的,因此样本图片中的检测目标所属类别为待扩展检测类别,进而可以将样本图片作为训练样本,将待扩展检测类别作为样本图片的标签,对初始检测模型进行训练,得到第一检测模型。在得到第一检测模型后,由第一检测模型对样本图片进行目标检测,得到第一伪标签,即第一伪标签不需要依赖人工标注,节约了标注成本,进而可以基于样本图片、第一伪标签以及携带有标签的已知类别图片一同对第一检测模型进行训练,得到目标检测模型,也就是本发明能够使得目标检测模型无需额外人工标注即可实现扩展检测类别。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于互联网搜索的检测类别自扩展目标检测方法的流程示意图;
图2是本发明提供的目标检测模型训练方法的流程示意图;
图3是本发明提供的基于互联网搜索的检测类别自扩展目标检测装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,多通过搜集样本图片并对样本图片进行人工标注后,基于样本图片以及对应的标注训练得到目标检测模型,以基于目标检测模型进行目标检测。然而,若要保证目标检测模型的检测精度,则需要获取大量的样本图片,进而也需要对大量样本图片进行人工标注,成本较高。
本发明考虑到互联网中充斥着大量的图片文本对,比如用户上传的图片及其对应的文字描述或者其他人回复,这些数据中虽然存在噪声,但是从统计意义上具有比较准确的分类信息。对此,本发明提出的基于互联网搜索的检测类别自扩展目标检测方法以一种合理的方式挖掘海量文本对中的蕴含信息实现0人工的检测数据集的构建。
对此,本发明提供一种基于互联网搜索的检测类别自扩展目标检测方法。图1是本发明提供的基于互联网搜索的检测类别自扩展目标检测方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤110、获取待检测图片.
此处,待检测图片即需要进行目标检测的图片。待检测图片可以是手机、相机等图像采集设备采集得到的图片,也可以是通过爬虫技术从互联网上爬取得到的图片,还可以是用户输入的图片,本发明实施例对此不作具体限定。
其中,待检测图片中可以包括单个检测目标,也可以包括多个检测目标。检测目标可以包括动物、人物、建筑物等。
步骤120、将待检测图片输入至目标检测模型,得到目标检测模型输出的目标检测结果。
此处,目标检测模型是已经训练完成的模型,也就是目标检测模型可以用于对待检测图片进行目标检测,即将待检测图片输入至目标检测模型,得到目标检测结果。
其中,目标检测模型基于如下步骤训练得到:
基于待扩展检测类别,搜索待扩展检测类别对应的样本图片;
基于样本图片以及待扩展检测类别,对初始检测模型进行训练,得到第一检测模型;
将样本图片输入至第一检测模型,得到第一检测模型输出的样本图片对应的第一伪标签;
基于样本图片、第一伪标签以及携带有标签的已知类别图片,对第一检测模型进行训练,得到目标检测模型。
具体地,待扩展检测类别即扩展检测目标的所属类别,如待扩展检测类别可以包括water gun、baboon等。通常,互联网上有大量不同待扩展检测类别对应的图片,且互联网上的图片多数是图片文本对形式,即图片携带有对应的关键词信息。
可选地,可以将待扩展检测类别作为搜索关键词,并基于搜索关键词中在互联网上进行搜索,获取待扩展检测类别对应的样本图片。例如,待扩展检测类别为water gun,则可以以“water gun”作为搜索关键词,也可以以“(a/an,one,single)+water gun”作为搜索关键词,从互联网上搜索对应的样本图片。
需要说明的是,由于样本图片是基于待扩展检测类别搜索得到的,因此样本图片中的检测目标所属类别为待扩展检测类别。在此基础上,可以将样本图片作为训练样本,将待扩展检测类别作为样本图片的标签,对初始检测模型进行训练,得到第一检测模型。其中,初始检测模型可以理解为基于目标检测算法构建的参数随机化模型。
将样本图片输入至第一检测模型,由第一检测模型对样本图片进行目标检测,得到第一检测模型预测的样本图片中检测目标的所属类别,即第一伪标签。也就是说,本发明实施例不需要依赖人工对样本图片进行标注,即可通过第一检测模型得到样本图片对应的第一伪标签。
接着,在得到第一伪标签后,基于样本图片、第一伪标签以及携带有标签的已知类别图片,对第一检测模型进行训练,得到目标检测模型;其中,已知类别图片可以理解为是已有类别的图片。
由此可见,本发明实施例提供的基于互联网搜索的检测类别自扩展目标检测方法,由于样本图片是基于待扩展检测类别搜索得到的,因此样本图片中的检测目标所属类别为待扩展检测类别,进而可以将样本图片作为训练样本,将待扩展检测类别作为样本图片的标签,对初始检测模型进行训练,得到第一检测模型。在得到第一检测模型后,由第一检测模型对样本图片进行目标检测,得到第一伪标签,即第一伪标签不需要依赖人工标注,节约了标注成本,进而可以基于样本图片、第一伪标签以及携带有标签的已知类别图片一同对第一检测模型进行训练,得到目标检测模型,也就是说本发明实施例能够使得目标检测模型无需额外人工标注即可实现扩展检测类别。
基于上述实施例,基于样本图片以及待扩展检测类别,对初始检测模型进行训练,得到第一检测模型,包括:
基于样本图片以及待扩展检测类别,进行弱监督定位模型的训练;
基于训练后的弱监督定位模型,在样本图片上生成物体包围框,得到目标样本图片;
基于目标样本图片以及待扩展检测类别,对初始检测模型进行训练,得到第一检测模型。
具体地,弱监督定位模型是利用待扩展检测类别作为监督信号进行物体定位模型的训练,以摆脱训练过程对像素级标注的需求。因此,基于样本图片以及待扩展检测类别进行弱监督定位模型的训练后,训练后的弱监督定位模型可以对样本图片中的检测目标进行定位,即在样本图片上生成物体包围框,从而可以将生成物体包围框的样本图片作为目标样本图片,使得目标样本图片包含有检测目标的边界框信息。
在得到目标样本图片后,基于目标样本图片以及待扩展检测类别,对初始检测模型进行训练,既可以使得初始检测模型从目标样本图片中学习检测目标的边界框信息,也可以学习检测目标的所属类别信息,进而得到性能较优的第一检测模型。
基于上述任一实施例,基于训练后的弱监督定位模型,在样本图片上生成物体包围框,得到目标样本图片,包括:
基于训练后的弱监督定位模型,在样本图片上生成物体包围框,得到初始目标样本图片;
对初始目标样本图片进行样本增强,得到目标样本图片。
具体地,考虑到样本图片的数量可能有限,进而导致得到的初始目标样本图片数量有限,而在进行模型训练时需要大量目标样本图片以保证模型的性能,因此本发明实施例在获取初始目标样本图片的基础上,对初始目标样本图片进行样本增强,从而可以获取数量较多的目标样本图片,以保证模型的性能。其中,样本增强是指通过对原始数据进行一定的变换或处理,从而增加数据量、提高数据质量和多样性的一种技术手段。在深度学习领域中,样本增强通常用于训练数据集的扩充,以避免过拟合和提高模型的泛化能力,常见的样本增强方法包括图像旋转、翻转、裁剪、缩放、平移等。
基于上述任一实施例,基于样本图片、第一伪标签以及携带有标签的已知类别图片,对第一检测模型进行训练,得到目标检测模型,包括:
基于样本图片、第一伪标签以及携带有标签的已知类别图片,对第一检测模型进行训练,得到第二检测模型;
将复杂图片输入至第二检测模型,得到第二检测模型输出的复杂图片对应的第二伪标签;
基于复杂图片以及第二伪标签,对第一检测模型进行训练,得到目标检测模型;
其中,样本图片中包括单个检测目标,复杂图片中包括至少两个检测目标。
具体地,样本图片中包括单个检测目标,进而基于样本图片以及待扩展检测类别训练得到的第一检测模型在对包含单个检测目标的图片进行目标检测时具备较优性能,但在对包含多个检测目标的图片进行目标检测时性能欠佳。
对此,本发明实施例将包括至少两个检测目标的复杂图片输入至第二检测模型,由第二检测模型输出对应的第二伪标签,进而基于复杂图片以及第二伪标签对第一检测模型进行训练,从而可以使得得到的目标检测模型既能准确对包含单个检测目标的图片进行目标检测,也能对包含多个检测目标的图片进行目标检测。
由此可见,本发明实施例通过由易到难的学习模式,即先训练能够准确对包含单个检测目标的图片进行目标检测的第二检测模型,再在第二检测模型的基础上,训练得到能够对包含多个检测目标的图片进行目标检测的目标检测模型,从而使得目标检测模型能够准确对单个或多个检测目标进行目标检测。
基于上述任一实施例,基于待扩展检测类别,搜索待扩展检测类别对应的样本图片,包括:
基于待扩展检测类别,确定搜索关键词;
基于搜索关键词,搜索样本图片。
具体地,待扩展检测类别即扩展检测目标的所属类别,如待扩展检测类别可以包括water gun、baboon等。基于待扩展检测类别,可以确定搜索关键词,待扩展检测类别为water gun,则可以以“water gun”作为搜索关键词,也可以以“(a/an,one,single)+watergun”作为搜索关键词,从互联网上搜索对应的样本图片。
基于上述任一实施例,基于样本图片以及待扩展检测类别,对初始检测模型进行训练,得到第一检测模型,之前还包括:
基于待扩展检测类别,确定待扩展检测类别对应的描述文本;
基于描述文本,对样本图片进行清洗。
考虑到搜索关键词可能存在“一词多义”的情况,也就是同一搜索关键词可能对应不同的含义。例如,对于搜索关键词“mouse”,其既可以理解为“老鼠”,也可以理解为“鼠标”,因此若待检测类别为“鼠标”,在基于“mouse”在互联网上进行搜索时,得到的样本图片中既可能包含“老鼠”,也可能包含“鼠标”,即得到的样本图片中混合有包含“老鼠”的噪声图片。
对此,本发明实施例基于待扩展检测类别,确定对应的描述文本,该描述文本可以理解为用于描述待扩展检测类别属性的文本。例如,若待检测类别为“water gun”,则对应的描述文本可以为“a toy gun that shoots water”。
可选地,可以将描述文本以及对应的样本图片输入至预训练模型,由预训练模型判断描述文本中所描述的语义信息是否与样本图片匹配,若是,则表明样本图片为待检测类别对应的图片,若否,则表明样本图片为噪声图片,进而可以实现从样本图片中滤除噪声图片。其中,预训练模型可以为CLIP模型。
基于上述任一实施例,初始检测模型基于二阶段目标检测框架构建得到。其中,二阶段目标检测框架是指将目标检测过程分为两个阶段,第一阶段使用候选框来定位物体,第二阶段使用分类器对候选框进行分类,二阶段目标检测框架可以包括R-CNN、Faster R-CNN、YOLO等。
基于上述任一实施例,本发明还提供一种基于互联网搜索的检测类别自扩展目标检测模型的训练方法,该方法包括:
步骤S0、确定待扩展检测类别“water gun”;
步骤S1、针对待扩展检测类别,确定搜索关键词为“(a/an,one,single)+watergun”,并基于搜索关键词在搜索引擎中搜索并获取多张样本图片;
步骤S2、针对待扩展检测类别,确定对应的描述文本“a toy gun that shootswater”,并将描述文本以及样本图片输入至预训练模型CLIP中,以对步骤S1中获取的样本图片进行清洗,滤除样本图片中的噪声图片;
步骤S3、使用步骤S2中清洗后的样本图片,进行弱监督定位模型的训练。
步骤S4、利用步骤S3中训练得到的弱监督定位模型在步骤S2中获取的清洗后的样本图片上进行物体包围框的生成,从而获得目标样本图片;
步骤S5、基于二阶段目标检测框架FasterRCNN构建得到初始检测模型;
步骤S6、使用步骤S4中获取的目标样本图片进行随机的多尺度的缩放和翻转;
步骤S7、将步骤S6中获取的目标样本图片分成多个批次送入初始检测模型中;
步骤S8、如图2所示,将步骤S6得到的目标样本图片送入初始检测模型的分类分支和边界框回归分支,进行前向传播,并计算损失函数,我们把这两个损失函数分别记为Lrcnn和Lrpn
步骤S9、计算全局损失Lall=Lrcnn+Lrpn,其中Lrpn为目标检测模型中区域提案网络部分的损失;采用反向传播算法和随机梯度下降法来减小全局损失函数以训练该模型,经过多次迭代训练得到第一检测模型(Stage-I);
步骤S10、对步骤S9训练好的第一检测模型在步骤S4获得的目标样本图片上生成第一伪标签。
步骤S11、如图2所示,根据步骤S10中获取的第一伪标签以及目标样本图片对步骤S9训练后的第一检测模型按照步骤S8和步骤S9进行多轮迭代训练得到进一步检测性能更好的第二检测模型(Stage-II);
步骤S12、基于步骤S11训练之后的第二检测模型,生成复杂图片对应的第二伪标签;其中复杂图片中包括多个检测目标;
步骤S13、如图2所示,根据步骤S12中获取的第二伪标签对步骤S9训练后的第一检测模型按照步骤S8和步骤S9进行多轮迭代训练得到最终的目标检测模型(Stage-III);
由此可见,本发明实施例利用搜索引擎对互联网中的图像文本对的清洗过滤能力,获取包含单个检测目标并按类别打好标签的样本图片,并基于样本图片训练弱监督定位模型,以利用训练好的弱监督定位模型在样本图片上生成物体包围框,从而构建了目标样本图片。通过构建的目标样本图片进行目标检测模型的训练,即在训练达到饱和之后(得到第一检测模型),进一步利用self-training在目标样本图片上生成新的物体包围框进行训练。在训练进一步达到饱和时(得到第二检测模型),在复杂图片中进行self-training,从而实现从易到难,迭代式,渐进逐步地提升模型的性能。即本发明实施例通过从简单场景(样本图片)出发,合理设计学习难度,从易到难渐进提升数据集的难度,逐步提升目标检测模型在扩展类别上的性能,从而实现在实际检测场景(复杂图片)下的出色检测性能。此外,由于互联网信息及时更新性与覆盖性,从而可以快速且低成本从互联网获取待扩展类别对应的样本图片。
下面对本发明提供的基于互联网搜索的检测类别自扩展目标检测装置进行描述,下文描述的基于互联网搜索的检测类别自扩展目标检测装置与上文描述的基于互联网搜索的检测类别自扩展目标检测方法可相互对应参照。
基于上述任一实施例,本发明还提供一种基于互联网搜索的检测类别自扩展目标检测装置,如图3所示,该装置包括:
获取单元310,用于获取待检测图片;
检测单元320,用于将所述待检测图片输入至目标检测模型,得到所述目标检测模型输出的目标检测结果;
其中,所述目标检测模型基于如下步骤训练得到:
基于待扩展检测类别,搜索所述待扩展检测类别对应的样本图片;
基于所述样本图片以及所述待扩展检测类别,对初始检测模型进行训练,得到第一检测模型;
将所述样本图片输入至所述第一检测模型,得到所述第一检测模型输出的所述样本图片对应的第一伪标签;
基于所述样本图片、所述第一伪标签以及携带有标签的已知类别图片,对所述第一检测模型进行训练,得到所述目标检测模型。
图4是本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、存储器(memory)420、通信接口(Communications Interface)430和通信总线440,其中,处理器410,存储器420,通信接口430通过通信总线440完成相互间的通信。处理器410可以调用存储器420中的逻辑指令,以执行基于互联网搜索的检测类别自扩展目标检测方法,该方法包括:获取待检测图片;将所述待检测图片输入至目标检测模型,得到所述目标检测模型输出的目标检测结果;其中,所述目标检测模型基于如下步骤训练得到:基于待扩展检测类别,搜索所述待扩展检测类别对应的样本图片;基于所述样本图片以及所述待扩展检测类别,对初始检测模型进行训练,得到第一检测模型;将所述样本图片输入至所述第一检测模型,得到所述第一检测模型输出的所述样本图片对应的第一伪标签;基于所述样本图片、所述第一伪标签以及携带有标签的已知类别图片,对所述第一检测模型进行训练,得到所述目标检测模型。
此外,上述的存储器420中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于互联网搜索的检测类别自扩展目标检测方法,该方法包括:获取待检测图片;将所述待检测图片输入至目标检测模型,得到所述目标检测模型输出的目标检测结果;其中,所述目标检测模型基于如下步骤训练得到:基于待扩展检测类别,搜索所述待扩展检测类别对应的样本图片;基于所述样本图片以及所述待扩展检测类别,对初始检测模型进行训练,得到第一检测模型;将所述样本图片输入至所述第一检测模型,得到所述第一检测模型输出的所述样本图片对应的第一伪标签;基于所述样本图片、所述第一伪标签以及携带有标签的已知类别图片,对所述第一检测模型进行训练,得到所述目标检测模型。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于互联网搜索的检测类别自扩展目标检测方法,该方法包括:获取待检测图片;将所述待检测图片输入至目标检测模型,得到所述目标检测模型输出的目标检测结果;其中,所述目标检测模型基于如下步骤训练得到:基于待扩展检测类别,搜索所述待扩展检测类别对应的样本图片;基于所述样本图片以及所述待扩展检测类别,对初始检测模型进行训练,得到第一检测模型;将所述样本图片输入至所述第一检测模型,得到所述第一检测模型输出的所述样本图片对应的第一伪标签;基于所述样本图片、所述第一伪标签以及携带有标签的已知类别图片,对所述第一检测模型进行训练,得到所述目标检测模型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于互联网搜索的检测类别自扩展目标检测方法,其特征在于,包括:
获取待检测图片;
将所述待检测图片输入至目标检测模型,得到所述目标检测模型输出的目标检测结果;
其中,所述目标检测模型基于如下步骤训练得到:
基于待扩展检测类别,搜索所述待扩展检测类别对应的样本图片;
基于所述样本图片以及所述待扩展检测类别,对初始检测模型进行训练,得到第一检测模型;
将所述样本图片输入至所述第一检测模型,得到所述第一检测模型输出的所述样本图片对应的第一伪标签;
基于所述样本图片、所述第一伪标签以及携带有标签的已知类别图片,对所述第一检测模型进行训练,得到所述目标检测模型。
2.根据权利要求1所述的基于互联网搜索的检测类别自扩展目标检测方法,其特征在于,所述基于所述样本图片以及所述待扩展检测类别,对初始检测模型进行训练,得到第一检测模型,包括:
基于所述样本图片以及所述待扩展检测类别,进行弱监督定位模型的训练;
基于训练后的弱监督定位模型,在所述样本图片上生成物体包围框,得到目标样本图片;
基于所述目标样本图片以及所述待扩展检测类别,对所述初始检测模型进行训练,得到所述第一检测模型。
3.根据权利要求2所述的基于互联网搜索的检测类别自扩展目标检测方法,其特征在于,所述基于训练后的弱监督定位模型,在所述样本图片上生成物体包围框,得到目标样本图片,包括:
基于训练后的弱监督定位模型,在所述样本图片上生成物体包围框,得到初始目标样本图片;
对所述初始目标样本图片进行样本增强,得到所述目标样本图片。
4.根据权利要求1至3任一项所述的基于互联网搜索的检测类别自扩展目标检测方法,其特征在于,所述基于所述样本图片、所述第一伪标签以及携带有标签的已知类别图片,对所述第一检测模型进行训练,得到所述目标检测模型,包括:
基于所述样本图片、所述第一伪标签以及携带有标签的已知类别图片,对所述第一检测模型进行训练,得到第二检测模型;
将复杂图片输入至所述第二检测模型,得到所述第二检测模型输出的所述复杂图片对应的第二伪标签;
基于所述复杂图片以及所述第二伪标签,对所述第一检测模型进行训练,得到所述目标检测模型;
其中,所述样本图片中包括单个检测目标,所述复杂图片中包括至少两个检测目标。
5.根据权利要求1至3任一项所述的基于互联网搜索的检测类别自扩展目标检测方法,其特征在于,所述基于待扩展检测类别,搜索所述待扩展检测类别对应的样本图片,包括:
基于所述待扩展检测类别,确定搜索关键词;
基于所述搜索关键词,搜索所述样本图片。
6.根据权利要求1至3任一项所述的基于互联网搜索的检测类别自扩展目标检测方法,其特征在于,所述基于所述样本图片以及所述待扩展检测类别,对初始检测模型进行训练,得到第一检测模型,之前还包括:
基于所述待扩展检测类别,确定所述待扩展检测类别对应的描述文本;
基于所述描述文本,对所述样本图片进行清洗。
7.根据权利要求1至3任一项所述的基于互联网搜索的检测类别自扩展目标检测方法,其特征在于,所述初始检测模型基于二阶段目标检测框架构建得到。
8.一种基于互联网搜索的检测类别自扩展目标检测装置,其特征在于,包括:
获取单元,用于获取待检测图片;
检测单元,用于将所述待检测图片输入至目标检测模型,得到所述目标检测模型输出的目标检测结果;
其中,所述目标检测模型基于如下步骤训练得到:
基于待扩展检测类别,搜索所述待扩展检测类别对应的样本图片;
基于所述样本图片以及所述待扩展检测类别,对初始检测模型进行训练,得到第一检测模型;
将所述样本图片输入至所述第一检测模型,得到所述第一检测模型输出的所述样本图片对应的第一伪标签;
基于所述样本图片、所述第一伪标签以及携带有标签的已知类别图片,对所述第一检测模型进行训练,得到所述目标检测模型。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于互联网搜索的检测类别自扩展目标检测方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于互联网搜索的检测类别自扩展目标检测方法。
CN202310855205.7A 2023-07-12 2023-07-12 基于互联网搜索的检测类别自扩展目标检测方法及装置 Pending CN116935107A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310855205.7A CN116935107A (zh) 2023-07-12 2023-07-12 基于互联网搜索的检测类别自扩展目标检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310855205.7A CN116935107A (zh) 2023-07-12 2023-07-12 基于互联网搜索的检测类别自扩展目标检测方法及装置

Publications (1)

Publication Number Publication Date
CN116935107A true CN116935107A (zh) 2023-10-24

Family

ID=88385603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310855205.7A Pending CN116935107A (zh) 2023-07-12 2023-07-12 基于互联网搜索的检测类别自扩展目标检测方法及装置

Country Status (1)

Country Link
CN (1) CN116935107A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113920370A (zh) * 2021-10-25 2022-01-11 上海商汤智能科技有限公司 模型训练方法、目标检测方法、装置、设备及存储介质
CN115019133A (zh) * 2022-06-16 2022-09-06 华中科技大学 基于自训练和标签抗噪的图像中弱目标的检测方法及系统
US20220301298A1 (en) * 2021-03-17 2022-09-22 Google Llc Multi-task self-training for learning general representations
CN115330998A (zh) * 2022-07-04 2022-11-11 浙江大学 一种目标检测模型训练方法、装置、目标检测方法及装置
WO2023275603A1 (en) * 2021-06-28 2023-01-05 Sensetime International Pte. Ltd. Methods, apparatuses, devices and storage media for training object detection network and for detecting object
CN115797732A (zh) * 2023-02-15 2023-03-14 杭州实在智能科技有限公司 用于开放类别场景下的图像检索模型训练方法及系统
CN116089652A (zh) * 2023-04-07 2023-05-09 中国科学院自动化研究所 视觉检索模型的无监督训练方法、装置和电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220301298A1 (en) * 2021-03-17 2022-09-22 Google Llc Multi-task self-training for learning general representations
WO2023275603A1 (en) * 2021-06-28 2023-01-05 Sensetime International Pte. Ltd. Methods, apparatuses, devices and storage media for training object detection network and for detecting object
CN113920370A (zh) * 2021-10-25 2022-01-11 上海商汤智能科技有限公司 模型训练方法、目标检测方法、装置、设备及存储介质
CN115019133A (zh) * 2022-06-16 2022-09-06 华中科技大学 基于自训练和标签抗噪的图像中弱目标的检测方法及系统
CN115330998A (zh) * 2022-07-04 2022-11-11 浙江大学 一种目标检测模型训练方法、装置、目标检测方法及装置
CN115797732A (zh) * 2023-02-15 2023-03-14 杭州实在智能科技有限公司 用于开放类别场景下的图像检索模型训练方法及系统
CN116089652A (zh) * 2023-04-07 2023-05-09 中国科学院自动化研究所 视觉检索模型的无监督训练方法、装置和电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ALIREZA ZAREIAN ET AL.: "Open-Vocabulary Object Detection Using Captions", 《ARXIV》, pages 1 - 12 *
CHENGJIAN FENG ET AL.: "PromptDet: Towards Open-vocabulary Detection using Uncurated Images", 《ARXIV》, pages 1 - 21 *
XIAOSHI WU ET AL.: "CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching", 《ARXIV》, pages 1 - 11 *
YIWU ZHONG ET AL.: "RegionCLIP: Region-based Language-Image Pretraining", 《ARXIV》, pages 1 - 12 *

Similar Documents

Publication Publication Date Title
CN109741332B (zh) 一种人机协同的图像分割与标注方法
AU2019264603B2 (en) Method and system for information extraction from document images using conversational interface and database querying
Zhou et al. Salient region detection using diffusion process on a two-layer sparse graph
CN111161311A (zh) 一种基于深度学习的视觉多目标跟踪方法及装置
CN110874594A (zh) 基于语义分割网络的人体外表损伤检测方法及相关设备
US20170109615A1 (en) Systems and Methods for Automatically Classifying Businesses from Images
CN106570497A (zh) 一种场景图像的文本检测方法和装置
CN110083729B (zh) 一种图像搜索的方法及系统
CN102902821A (zh) 基于网络热点话题的图像高级语义标注、检索方法及装置
CN113936275A (zh) 一种基于区域特征对齐的无监督域适应语义分割方法
CN111931859B (zh) 一种多标签图像识别方法和装置
Wahab et al. Design and implementation of real-time object detection system based on single-shoot detector and OpenCV
CN104715253A (zh) 一种获取试题解析信息的方法及服务器
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN109948140B (zh) 一种词向量嵌入方法及装置
CN113343012B (zh) 一种新闻配图方法、装置、设备及存储介质
US9906588B2 (en) Server and method for extracting content for commodity
CN111126262A (zh) 基于图神经网络的视频精彩片段检测方法及装置
CN112734803A (zh) 基于文字描述的单目标跟踪方法、装置、设备及存储介质
CN114037055A (zh) 数据处理系统、方法、装置、设备及存储介质
CN112926300A (zh) 图像搜索方法、图像搜索装置及终端设备
CN117746203A (zh) 一种基于多模态模型的属性标注方法及装置
CN111008295A (zh) 书页检索方法、装置、电子设备和存储介质
CN115062783B (zh) 实体对齐方法及相关装置、电子设备、存储介质
CN111078724A (zh) 学习系统中的测试题检索方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination