CN115082757A - 伪标签生成方法、目标检测模型训练方法及装置 - Google Patents

伪标签生成方法、目标检测模型训练方法及装置 Download PDF

Info

Publication number
CN115082757A
CN115082757A CN202210827746.4A CN202210827746A CN115082757A CN 115082757 A CN115082757 A CN 115082757A CN 202210827746 A CN202210827746 A CN 202210827746A CN 115082757 A CN115082757 A CN 115082757A
Authority
CN
China
Prior art keywords
detection
detection frame
model
frame
independent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210827746.4A
Other languages
English (en)
Inventor
于越
孙昊
谭啸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210827746.4A priority Critical patent/CN115082757A/zh
Publication of CN115082757A publication Critical patent/CN115082757A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本公开提供了一种伪标签生成方法、目标检测模型训练方法及装置,涉及人工智能技术领域,尤其涉及图像处理、计算机视觉和深度学习等技术领域。实现方案为:一种伪标签生成方法,包括通过对不带标签的图像数据进行第一目标检测获得至少一个第一检测框,以及通过对不带标签的图像数据进行第二目标检测获得至少一个第二检测框;确定包括至少一个第一检测框和至少一个第二检测框的检测框中的独立检测框,其中,独立检测框与包括至少一个第一检测框和至少一个第二检测框的检测框中除独立检测框之外的其余检测框不具有对应关系;以及将独立检测框确定为不带标签的图像数据的伪标签。

Description

伪标签生成方法、目标检测模型训练方法及装置
技术领域
本公开涉及人工智能技术领域,尤其涉及图像处理、计算机视觉和深度学习等技术领域,具体涉及一种伪标签生成的方法及目标检测模型训练的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
背景技术
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
在计算机视觉技术中,目标检测有着广泛的使用场景。诸如图像分割、物体追踪、关键点检测等通常都依赖于目标检测。目标检测一般通过经训练的目标检测模型来实现。在目标检测模型的训练中,需要对训练用的图像数据进行标注,也即生成标签。标注过程一般通过人工实现,例如人工地将待检测目标以检测框的方式标注出来。然而,实际应用中可能因为人力成本高等因素导致缺乏这种经标注的训练数据,因此对模型的训练造成了一定限制。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
本公开提供了一种伪标签生成的方法及目标检测模型训练的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
根据本公开的一方面,提供了一种伪标签生成方法,包括:通过对不带标签的图像数据进行第一目标检测获得至少一个第一检测框,以及通过对所述不带标签的图像数据进行第二目标检测获得至少一个第二检测框;确定包括所述至少一个第一检测框和所述至少一个第二检测框的检测框中的独立检测框,其中,独立检测框与包括所述至少一个第一检测框和所述至少一个第二检测框的所述检测框中除所述独立检测框之外的其余检测框不具有对应关系;以及将独立检测框确定为所述不带标签的图像数据的伪标签。
根据本公开的另一方面,提供了一种目标检测模型训练方法,包括:获取带有伪标签的图像训练数据,其中,伪标签根据如上所述的伪标签生成方法生成,其中,经由预训练的第一教师模型执行第一目标检测,以及经由预训练的第二教师模型执行第二目标检测;基于带有伪标签的图像训练数据以及带有人工标签的图像训练数据,训练对应于第一教师模型的第一学生模型以获得第一学生模型的第一学生模型更新参数,以及训练对应于第二教师模型的第二学生模型以获得第二学生模型的第二学生模型更新参数;以及基于第一学生模型更新参数以及第一教师模型的第一当前模型参数来更新第一教师模型,以及基于第二学生模型更新参数和第二教师模型的第二当前模型参数来更新第二教师模型。
根据本公开的另一方面,提供了一种伪标签生成装置,包括:目标检测模块,被配置为通过对不带标签的图像数据进行第一目标检测获得至少一个第一检测框,以及通过对不带标签的图像数据进行第二目标检测获得至少一个第二检测框;第一确定模块,被配置为确定包括所述至少一个第一检测框和所述至少一个第二检测框的检测框中的独立检测框,其中,独立检测框与包括所述至少一个第一检测框和所述至少一个第二检测框的所述检测框中除所述独立检测框之外的其余检测框不具有对应关系;以及第一处理模块,被配置为将独立检测框确定为所述不带标签的图像数据的伪标签。
根据本公开的另一方面,提供了一种目标检测模型训练装置,包括:训练数据获取模块,被配置为获取带有伪标签的图像训练数据,其中,伪标签根据如上所述的伪标签生成装置生成,其中,经由预训练的第一教师模型执行第一目标检测,以及经由预训练的第二教师模型执行第二目标检测;学生模型训练模块,被配置为基于带有伪标签的图像训练数据以及带有人工标签的图像训练数据,训练对应于第一教师模型的第一学生模型以获得第一学生模型的第一学生模型更新参数,以及训练对应于第二教师模型的第二学生模型以获得第二学生模型的第二学生模型更新参数;教师模型更新模块,被配置为基于第一学生模型更新参数以及第一教师模型的第一当前模型参数来更新第一教师模型,以及基于第二学生模型更新参数和第二教师模型的第二当前模型参数来更新第二教师模型。
根据本公开的另一方面,提供了一种电子设备,包括至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有能够被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够执行如上所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现如上所述的方法。
根据本公开的一个或多个实施例,可以准确地生成未经标注的图像数据的伪标签,进而提升目标检测模型的训练效果。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1示出了根据本公开实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;
图2示出了根据本公开实施例的目标检测的检测框的示意图;
图3示出了根据本公开实施例的伪标签生成方法的流程图;
图4A至4C示出了根据本公开实施例的独立检测框的示例的示意图;
图5示出了根据本公开实施例的独立检测框确定步骤的流程图;
图6示出了根据本公开实施例的独立检测框确定步骤的示例情形的示意图;
图7示出了根据本公开实施例的目标检测模型训练方法的流程图;
图8示出了根据本公开实施例的目标检测模型训练方法的示意图;
图9示出了根据本公开一个实施例的伪标签生成装置的结构框图;
图10示出了根据本公开另一个实施例的伪标签生成装置的结构框图;
图11示出了根据本公开实施例的目标检测模型训练装置的结构框图;
图12示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个要素与另一要素区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
在目标检测的相关技术中,为了解决实际应用中缺乏经标注的训练数据的问题,近年来已经提出使用基于半监督的训练方法,其中针对未经标注的训练数据生成伪标签,以利用这些未经标注的训练数据来进行模型训练。
在传统的基于半监督的训练方法中,一般可涉及一对教师模型与学生模型的组合。例如,可以先通过教师模型对未经标注的训练数据进行预测,并将预测结果作为这些未经标注的训练数据的伪标签。然后,可以使用与教师模型具有相同结构的另一模型作为学生模型,以负责模型的训练和更新。这里,可以将经标注的训练数据、未经标注的训练数据、以及所生成的伪标签一起输入至学生模型中以训练该学生模型,然后利用训练所得的参数来更新对应的教师模型,由此实现训练过程。
然而,在传统的基于半监督的训练方法中可能存在错误累积的问题。由于教师模型与学生模型的结构相同,且教师模型的参数是通过学生模型的训练所得到的,这使得一旦教师模型在生成伪标签的过程中出现错误(诸如在目标检测中漏掉某些检测目标,即漏检),将很难纠正这种错误。由此可能导致训练出的模型的目标检测效果不佳。
针对上述技术问题,本公开提出了一种伪标签生成方法以及一种目标检测模型训练方法。
在详细描述本公开的实施例之前,首先结合图1介绍可以在其中实施本文描述的各种方法的示例性系统。
图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性系统100的示意图。参考图1,该系统100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。客户端设备101、102、103、104、105和106可以被配置为执行一个或多个应用程序。
在本公开的实施例中,服务器120可以运行使得能够执行实现伪标签生成方法以及目标检测模型训练方法的一个或多个服务或软件应用。
在某些实施例中,服务器120还可以提供其他服务或软件应用,这些服务或软件应用可以包括非虚拟环境和虚拟环境。在某些实施例中,这些服务可以作为基于web的服务或云服务提供,例如在软件即服务(SaaS)模型下提供给客户端设备101、102、103、104、105和/或106的用户。
在图1所示的配置中,服务器120可以包括实现由服务器120执行的功能的一个或多个组件。这些组件可以包括可由一个或多个处理器执行的软件组件、硬件组件或其组合。操作客户端设备101、102、103、104、105和/或106的用户可以依次利用一个或多个客户端应用程序来与服务器120进行交互以利用这些组件提供的服务。应当理解,各种不同的系统配置是可能的,其可以与系统100不同。因此,图1是用于实施本文所描述的各种方法的系统的一个示例,并且不旨在进行限制。
用户可以使用客户端设备101、102、103、104、105和/或106来提供训练用的图像数据,即训练数据。客户端设备可以提供使客户端设备的用户能够与客户端设备进行交互的接口。客户端设备还可以经由该接口向用户输出信息。尽管图1仅描绘了六种客户端设备,但是本领域技术人员将能够理解,本公开可以支持任何数量的客户端设备。
客户端设备101、102、103、104、105和/或106可以包括各种类型的计算机设备,例如便携式手持设备、通用计算机(诸如个人计算机和膝上型计算机)、工作站计算机、可穿戴设备、智能屏设备、自助服务终端设备、服务机器人、游戏系统、瘦客户端、各种消息收发设备、传感器或其他感测设备等。这些计算机设备可以运行各种类型和版本的软件应用程序和操作系统,例如MICROSOFT Windows、APPLE iOS、类UNIX操作系统、Linux或类Linux操作系统(例如GOOGLE Chrome OS);或包括各种移动操作系统,例如MICROSOFT WindowsMobile OS、iOS、Windows Phone、Android。便携式手持设备可以包括蜂窝电话、智能电话、平板电脑、个人数字助理(PDA)等。可穿戴设备可以包括头戴式显示器(诸如智能眼镜)和其他设备。游戏系统可以包括各种手持式游戏设备、支持互联网的游戏设备等。客户端设备能够执行各种不同的应用程序,例如各种与Internet相关的应用程序、通信应用程序(例如电子邮件应用程序)、短消息服务(SMS)应用程序,并且可以使用各种通信协议。
网络110可以是本领域技术人员熟知的任何类型的网络,其可以使用多种可用协议中的任何一种(包括但不限于TCP/IP、SNA、IPX等)来支持数据通信。仅作为示例,一个或多个网络110可以是局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟专用网络(VPN)、内部网、外部网、区块链网络、公共交换电话网(PSTN)、红外网络、无线网络(例如蓝牙、WIFI)和/或这些和/或其他网络的任意组合。
服务器120可以包括一个或多个通用计算机、专用服务器计算机(例如PC(个人计算机)服务器、UNIX服务器、中端服务器)、刀片式服务器、大型计算机、服务器群集或任何其他适当的布置和/或组合。服务器120可以包括运行虚拟操作系统的一个或多个虚拟机,或者涉及虚拟化的其他计算架构(例如可以被虚拟化以维护服务器的虚拟存储设备的逻辑存储设备的一个或多个灵活池)。在各种实施例中,服务器120可以运行提供下文所描述的功能的一个或多个服务或软件应用。
服务器120中的计算单元可以运行包括上述任何操作系统以及任何商业上可用的服务器操作系统的一个或多个操作系统。服务器120还可以运行各种附加服务器应用程序和/或中间层应用程序中的任何一个,包括HTTP服务器、FTP服务器、CGI服务器、JAVA服务器、数据库服务器等。
在一些实施方式中,服务器120可以包括一个或多个应用程序,以分析和合并从客户端设备101、102、103、104、105和/或106的用户接收的数据馈送和/或事件更新。服务器120还可以包括一个或多个应用程序,以经由客户端设备101、102、103、104、105和/或106的一个或多个显示设备来显示数据馈送和/或实时事件。
在一些实施方式中,服务器120可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器120也可以是云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。云服务器是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPS,Virtual Private Server)服务中存在的管理难度大、业务扩展性弱的缺陷。
系统100还可以包括一个或多个数据库130。在某些实施例中,这些数据库可以用于存储数据和其他信息。例如,数据库130中的一个或多个可用于存储诸如音频文件和视频文件的信息。数据库130可以驻留在各种位置。例如,由服务器120使用的数据库可以在服务器120本地,或者可以远离服务器120且可以经由基于网络或专用的连接与服务器120通信。数据库130可以是不同的类型。在某些实施例中,由服务器120使用的数据库例如可以是关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。
在某些实施例中,数据库130中的一个或多个还可以由应用程序使用来存储应用程序数据。由应用程序使用的数据库可以是不同类型的数据库,例如键值存储库,对象存储库或由文件系统支持的常规存储库。
图1的系统100可以以各种方式配置和操作,以使得能够应用根据本公开所描述的各种方法和装置。
图2示出了根据本公开实施例的目标检测的检测框的示意图。
如图2所示,示意性地示出了图像200以及在图像200上显示的检测框210、220和230。检测框通常也可称为边界框,其以诸如矩形框的方式将目标包含在其中。
在示例中,图像200可以是用于训练目标检测模型的训练数据。根据一个示例,检测框210、220和230可以表示通过人工方式标注出的人工标签,在此情况下,图像200可以表示带有人工标签210、220和230的训练数据。根据另一个示例,检测框210、220和230可以表示通过本公开实施例的方法生成的伪标签,在此情况下,图像200可以表示带有伪标签210、220和230的训练数据。
在示例中,还可以在检测框210、220和230附近显示目标类别指示区域215、225和235。目标类别指示区域215、225和235可以分别用于指示检测框210、220和230的目标类别和置信度。目标类别可以是指检测框所包含的目标属于何种类别。置信度可以是指目标检测正确的概率。例如,目标类别指示区域215可以指示检测框210的目标类别为“人”且目标检测正确的概率为“0.85”。类似地,目标类别指示区域225和235可以指示检测框220和230的目标类别均为“狗”且目标检测正确的概率分别为“0.72”、“0.55”。
在示例中,检测框210、220和230的四个顶点的位置坐标是可获得的。在图2中以检测框230为例示出了四个顶点A、B、C和D的位置坐标,如所示的(x1,y1)、(x2,y1)、(x1,y2)和(x2,y2)。
本领域技术人员可以理解,出于便于说明的目的,图2仅是一个示例。在实际应用中,根据目标检测模型的预设检测目标,检测框的目标类别可以是各种各样的,例如道路上的机动车、自行车、行人等。
图3示出了根据本公开实施例的伪标签生成方法300的流程图。
在本公开中,术语“伪标签”可以是相对于以人工方式标注出的“人工标签”而言的。在示例中,如结合图2所示的检测框210、220和230可以表示通过本公开实施例的伪标签生成方法300所生成的伪标签,在此情况下,如结合图2所示的图像200可以表示带有伪标签210、220和230的图像数据。
如图3所示,根据本公开实施例的伪标签生成方法300可以包括步骤S302、S304和S306。
在步骤S302,通过对不带标签的图像数据进行第一目标检测获得至少一个第一检测框,以及通过对该不带标签的图像数据进行第二目标检测获得至少一个第二检测框。
在示例中,第一目标检测可以经由第一目标检测模型执行,而第二目标检测可以经由第二目标检测模型执行。第一目标检测模型和第二目标检测模型可以具有不同的模型结构,例如不同的主干(backbone)结构。
在示例中,第一目标检测模型可以是基于半监督的训练方法中的第一教师模型,该第一教师模型可以具有通过对应的第一学生模型所获取的初始模型参数。第二目标检测模型可以是不同于第一教师模型的第二教师模型,该第二教师模型可以具有通过对应的第二学生模型所获取的初始模型参数。因此,可以分别经由第一教师模型和第二教师模型对不带标签的图像数据进行预测,即执行目标检测,以生成至少一个第一检测框和至少一个第二检测框。
在示例中,步骤S302可以进一步包括通过对不带标签的图像数据进行第三目标检测获得至少一个第三检测框。即,可以在步骤S302中执行两个以上的不同的目标检测。
与传统的生成伪标签的方法不同,根据本公开实施例的伪标签生成方法300通过执行至少两个不同的目标检测来减少或避免出现目标漏检的情况。
在步骤S304,确定包括所述至少一个第一检测框和所述至少一个第二检测框的检测框中的独立检测框,该独立检测框与包括所述至少一个第一检测框和所述至少一个第二检测框的所述检测框中除所述独立检测框之外的其余检测框不具有对应关系。
在本公开中,一个检测框与另一个检测框不具有对应关系可以是指这两个检测框并未包含同一个目标。反之,一个检测框与另一个检测框具有对应关系可以是指这两个检测框包含了同一个目标。
换言之,独立检测框可以是指所述至少一个第一检测框之中与任何一个第二检测框都不具有对应关系的一个或多个第一检测框。替代地,独立检测框也可以是指所述至少一个第二检测框之中与任何一个第一检测框都不具有对应关系的一个或多个第二检测框。
由于两个第一检测框之间或两个第二检测框之间本身不可能具有对应关系,因此当所述至少一个第一检测框之中存在独立检测框时,该独立检测框与所述至少一个第一检测框和所述至少一个第二检测框中除了该独立检测框之外的其余检测框都不具有对应关系。替代地,当所述至少一个第二检测框之中存在独立检测框时,该独立检测框与所述至少一个第一检测框和所述至少一个第二检测框中除了该独立检测框之外的其余检测框都不具有对应关系。
在示例中,两个检测框是否具有对应关系可以通过这两个检测框的重合程度来判断。例如,可以通过IOU(Intersection-over-Union,交并比)来表征重合程度。IOU可以基于两个检测框各自的位置坐标来计算。如结合图2所示的,在例如通过目标检测获得检测框时,检测框的四个顶点的位置坐标(如图2所示的四个顶点A、B、C、D的位置坐标)也可以获得。因此,可以通过位置坐标来计算IOU。考虑到IOU的计算方法是本领域已知的,在此不再过多赘述其细节。一般而言,可以认为两个检测框的IOU值大于0.5时重合程度较高,即很有可能框出同一个目标;而IOU值小于或等于0.5时重合程度较低,即不太可能框出同一个目标。
在示例中,两个检测框是否具有对应关系可以进一步通过两个检测框所指示的目标类别来判断。由于在实际应用中可能出现因为两个目标在位置上太过靠近而导致两个检测框的IOU值大于0.5(例如人坐在椅子上,由于人和椅子本身非常靠近,导致针对人的检测框和针对椅子的检测框的IOU值大于0.5),这使得仅通过IOU值来判断对应关系有可能出现错误。因此,可以额外地借助于两个检测框所指示的目标类别来进一步判断。即,如果两个检测框所指示的目标类别不同,即便二者的IOU值大于0.5,也意味着两个检测框并未包含同一个目标。
用于确定独立检测框的步骤S304可以被理解为通过交叉验证的方式来确定第一目标检测和第二目标检测中漏检的情况。举例而言,如果所述至少一个第一检测框之中存在独立检测框,则意味着经由第二目标检测所获得的所述至少一个第二检测框之中不存在与该独立检测框对应的检测框,也即第二目标检测存在漏检的情况。反之,如果所述至少一个第二检测框之中存在独立检测框,则意味着经由第一目标检测所获得的所述至少一个第一检测框之中不存在与该独立检测框对应的检测框,也即第一目标检测存在漏检的情况。亦或,如果所述至少一个第一检测框之中存在独立检测框,且所述至少一个第二检测框之中也存在独立检测框,则表明第一目标检测和第二目标检测均存在漏检的情况。
在步骤S306,将独立检测框确定为所述不带标签的图像数据的伪标签。
通过该步骤,可以将漏检的情况召回,由此可以为所述不带标签的图像数据生成更加准确的伪标签。
在根据本公开实施例的伪标签生成方法300中,通过针对同一图像数据执行至少两个不同的目标检测,可以便利于找出潜在可能被漏检的目标;同时,通过确定经由所述至少两个不同的目标检测所获得的检测框之中的独立检测框,可以找到被漏检的目标并进行召回,从而有利于生成更加准确的伪标签,进而提供质量更高的训练数据以提升训练效果。
图4A至4C示出了根据本公开实施例的独立检测框的示例的示意图。
如图4A所示,通过对图像410进行第一目标检测获得了四个检测框411-1、411-2、411-3和411-4。检测框411-1包含目标A,检测框411-2包含目标B,检测框411-3包含目标C,且检测框411-4包含目标D。即,经由第一目标检测而检测到图像410中的四个目标A、B、C和D。
另外,通过对图像410进行第二目标检测获得了三个检测框412-1、412-3和412-4。检测框412-1包含目标A,检测框412-3包含目标C,且检测框412-4包含目标D。即,经由第二目标检测而检测到图像410中的三个目标A、C和D。
因此,可以确定总共七个检测框中的检测框411-2为独立检测框,该检测框411-2与其余检测框不具有对应关系。换言之,经由第一目标检测而检测到目标B,但经由第二目标检测未检测到目标B,因此目标B为漏检的目标。
在此情况下,可以将作为独立检测框的检测框411-2确定为图像410的标签以实现对漏检目标的召回。
图4B示出了与图4A类似的示例。通过对图像420进行第一目标检测获得了三个检测框421-1、421-3和421-4。检测框421-1包含目标A,检测框421-3包含目标C,且检测框421-4包含目标D。即,经由第一目标检测而检测到图像420中的三个目标A、C和D。
另外,通过对图像420进行第二目标检测获得了四个检测框422-1、422-2、422-3和422-4。检测框422-1包含目标A,检测框422-2包含目标B,检测框422-3包含目标C,且检测框422-4包含目标D。即,经由第二目标检测而检测到图像420中的四个目标A、B、C和D。
因此,可以确定总共七个检测框中的检测框422-2为独立检测框,该检测框422-2与其余检测框不具有对应关系。换言之,经由第二目标检测而检测到目标B,但经由第一目标检测未检测到目标B,因此目标B为漏检的目标。
在此情况下,可以将作为独立检测框的检测框422-2确定为图像420的标签以实现对漏检目标的召回。
图4A和图4B分别示出了第一目标检测和第二目标检测中任一者存在漏检的情况。图4C示出了第一目标检测和第二目标检测均存在漏检的情况。
如图4C所示,通过对图像430进行第一目标检测获得了四个检测框431-1、431-2、431-3和431-4。检测框431-1包含目标A,检测框431-2包含目标B,检测框431-3包含目标C,且检测框431-4包含目标D。即,经由第一目标检测而检测到图像430中的四个目标A、B、C和D。
另外,通过对图像430进行第二目标检测获得了四个检测框432-1、432-3、432-4和432-5。检测框432-1包含目标A,检测框432-3包含目标C,检测框432-4包含目标D,且检测框432-5包含目标E。即,经由第二目标检测而检测到图像430中的四个目标A、C、D和E。
因此,可以确定总共八个检测框中的检测框431-2和432-5均为独立检测框。检测框431-2与其余检测框不具有对应关系,且检测框432-5与其余检测框也不具有对应关系。换言之,经由第一目标检测而检测到目标B,但经由第二目标检测未检测到目标B,因此目标B为漏检的目标。同时,经由第二目标检测而检测到目标E,但经由第一目标检测未检测到目标E,因此目标E也为漏检的目标。即,第一目标检测和第二目标检测均存在漏检的情况。
在此情况下,可以将作为独立检测框的检测框431-2和432-5确定为图像430的标签以实现对漏检目标的召回。
本领域技术人员可以理解,出于便于说明的目的,图4A至4C仅为示例。检测框的数量以及所确定的独立检测框的数量可以取决于实际情况而有所不同,并不局限于图4A至4C所示出的。
图5示出了根据本公开实施例的独立检测框确定步骤500的流程图。
这里,独立检测框确定步骤500可以对应于如结合图3所述的步骤S304,其中,确定至少一个第一检测框和至少一个第二检测框中的独立检测框,该独立检测框与其余检测框不具有对应关系。这样的独立检测框可以如同图4A至4C所示的独立检测框411-2、422-2、431-2和432-5那样。
如图5所示,独立检测框确定步骤500可以包括步骤S502和S504。在步骤S502,可以计算所述至少一个第一检测框中的每个第一检测框与所述至少一个第二检测框中的每个第二检测框的重合程度。在步骤S504,可以基于重合程度确定独立检测框。
由于所述至少一个第一检测框和所述至少一个第二检测框分别是通过第一目标检测和第二目标检测所获得的,对于判断检测的正确性而言,可以不必直接地确定每个检测框是否检测到正确的目标,而是可以间接地通过第一检测框与第二检测框之间的两两比较或交叉验证来确定检测的正确性。
通过这种方式,可以简便且准确地找到检测框之中是否存在漏检的情况,也即,确定与任何其余检测框都不具有对应关系的独立检测框。
在示例中,步骤S502可以通过遍历所述至少一个第一检测框和所述至少一个第二检测框来进行。即,可以遍历所述至少一个第一检测框中的每个第一检测框和所述至少一个第二检测框中的每个第二检测框,以确定是否存在与任何其余检测框都不具有对应关系的独立检测框。
例如,假设存在10个第一检测框以及10个第二检测框。可以将10个第一检测框中的第一个与10个第二检测框中的每个分别计算重合程度(即,此时计算10次)。依次类推,在将10个第一检测框中的每个与10个第二检测框中的每个都计算重合程度之后(即,此时计算100次),可以实现所述至少一个第一检测框与所述至少一个第二检测框之间的两两比较或交叉验证,因此可以确定是否存在与任何其余检测框都不具有对应关系的独立检测框。
在示例中,计算重合程度可以包括计算IOU。如前所述,IOU可以是用于表征重合程度的参数。一般而言,可以认为两个检测框的IOU值大于0.5时重合程度较高,而IOU值小于或等于0.5时重合程度较低。因此,根据一个示例,可以将IOU的阈值设置为0.5以用于判断重合程度的高低。
如图5所示,步骤S504可以包括第一情形S504-1至第四情形S504-4中任一种。
根据一些实施例,第一情形S504-1可以包括:响应于所述至少一个第一检测框中的一个第一检测框与所述至少一个第二检测框中的每个第二检测框的重合程度均小于或等于预定阈值,将该第一检测框确定为独立检测框。
由此,可以简便且准确地找到被漏检的目标。
在示例中,第一情形S504-1可以对应于如结合图4A所示的示例。通过将四个第一检测框411-1、411-2、411-3和411-4中的每个分别与三个第二检测框412-1、412-3和412-4中的每个计算IOU,可以确定第一检测框411-2与三个第二检测框412-1、412-3和412-4中的每个的重合程度均小于例如为0.5的预定阈值。因此,可以将第一检测框411-2确定为独立检测框。
根据一些实施例,第二情形S504-2可以包括:响应于所述至少一个第二检测框中的一个第二检测框与所述至少一个第一检测框中的每个第一检测框的重合程度均小于或等于预定阈值,将该第二检测框确定为独立检测框。
由此,可以简便且准确地找到被漏检的目标。
在示例中,第二情形S504-2可以对应于如结合图4B所示的示例。通过将三个第一检测框421-1、421-3和421-4中的每个分别与四个第二检测框422-1、422-2、422-3和422-4中的每个计算IOU,可以确定第二检测框422-2与三个第一检测框421-1、421-3和421-4中的每个的重合程度均小于例如为0.5的预定阈值。因此,可以将第二检测框422-2确定为独立检测框。
根据一些实施例,第三情形S504-3可以是第一情形S504-1和第二情形S504-2同时发生的情况。
在示例中,第三情形S504-2可以对应于如结合图4C所示的示例。通过将四个第一检测框431-1、431-2、431-3和431-4中的每个分别与四个第二检测框432-1、432-3、432-4和432-5中的每个计算IOU,可以确定第一检测框431-2与四个第二检测框432-1、432-3、432-4和432-5中的每个的重合程度均小于例如为0.5的预定阈值。同时,可以确定第二检测框432-5与四个第一检测框431-1、431-2、431-3和431-4中的每个的重合程度均小于例如为0.5的预定阈值。因此,可以将第一检测框431-2和第二检测框432-5确定为独立检测框。
根据一些实施例,第四情形S504-4可以包括:响应于所述至少一个第一检测框中的一个第一检测框与所述至少一个第二检测框中的一个第二检测框的重合程度大于预定阈值、且该第一检测框所指示的目标类别与该第二检测框所指示的目标类别不同,将该第一检测框和该第二检测框均确定为独立检测框。
第四情形S504-4可以涉及如下这种特殊情形:当两个不同目标在位置上太过靠近时,对应的两个检测框的IOU值也可能会大于预定阈值。如果此时仅通过重合程度来判断这两个检测框是否具有关系,将出现判断错误。因此,可以进一步通过这两个检测框所指示的目标类别来判断。
通过这种方式,在图像中的目标较多和/或目标在位置上较为靠近时,可以更加准确地确定潜在可能被漏检的情况。
下面将结合图6描述第四情形S504-4的一个示例。
图6示出了根据本公开实施例的独立检测框确定步骤的示例情形的示意图。
如图6所示,通过对图像600进行第一目标检测获得第一检测框610,以及通过对图像600进行第二目标检测获得第二检测框620。假设在图像600中,人和椅子均为预期的检测目标,第一检测框610所指示的目标类别为“人”,第二检测框620所指示的目标类别为“椅子”。
在获得第一检测框610以及第二检测框620时,可以确定这些检测框之中是否存在独立检测框。为此,可以计算第一检测框610与第二检测框620的重合程度,例如计算IOU。
由于人和椅子的位置非常靠近,计算出的第一检测框610与第二检测框620的IOU可能大于例如0.5。这时,因为第一检测框610所指示的目标类别与第二检测框620所指示的目标类别不同,可以确定第一检测框610与第二检测框620均为独立检测框。
换言之,在两个检测框的IOU值大于预定阈值的情况下,也可能出现这两个检测框并未包含同一个目标的情况。因此,可以进一步通过这两个检测框所指示的目标类别来进行准确判断。
以上结合图4A至4C、图5和图6详细描述了根据本公开实施例的独立检测框确定步骤的示例。独立检测框可以表示被漏检的目标,而对于检测正确的目标,即具有对应关系的成对检测框,也可以通过对其位置信息(进一步地,对其目标类别的置信度)进行融合来生成更为准确的伪标签。
根据一些实施例,本公开实施例的伪标签生成方法还可以包括如下步骤。
首先,可以确定除独立检测框之外的其余检测框中具有对应关系的成对检测框。成对检测框中的两个检测框的重合程度大于预定阈值、且两个检测框所指示的目标类别相同。
然后,可以将该成对检测框的位置坐标进行归一化,以获得经归一化的检测框。例如,归一化可以包括平均操作。除了直接对检测框的位置坐标进行平均之外,还可以根据置信度做加权平均,由此获得更为准确的结果。
之后,可以将经归一化的检测框和独立检测框确定为不带标签的图像数据的伪标签。
这里,结合如图4A所示的示例来描述上述过程。通过计算检测框之间的IOU,可以确定第一检测框411-2为独立检测框。相应地,可以确定其余检测框中具有对应关系的成对检测框分别为:检测框411-1和412-1、检测框411-3和412-3、检测框411-4和412-4。这是因为这些成对检测框中的两个检测框的重合程度大于预定阈值(例如0.5)、且两个检测框所指示的目标类别相同。
因此,可以将检测框411-1和412-1的位置坐标进行归一化。类似地,可以将检测框411-3和412-3的位置坐标进行归一化,并且将检测框411-4和412-4的位置坐标进行归一化。由此,可以得到三个经归一化的检测框。相应地,可以将这三个经归一化的检测框连同作为独立检测框的检测框411-2一起作为图像的伪标签。
通过这种方式,在通过目标检测生成伪标签的过程中,可以通过进一步对检测正确的检测框进行融合来生成更为准确的伪标签。
在下文中,将结合图7和图8描述利用根据本公开实施例的方法生成的伪标签来进行目标检测模型训练的方法。
图7示出了根据本公开实施例的目标检测模型训练方法700的流程图。
根据本公开的实施例,目标检测模型训练方法700是基于半监督的训练方法,即利用教师模型与学生模型的组合来实现模型的训练。与传统的半监督方法不同的是,根据本公开实施例的方法通过使用多个教师模型与学生模型的组合来提升教师模型对训练数据预测的准确性,由此来提升整体训练效果。
如图7所示,目标检测模型训练方法700可以包括步骤S702、S704和S706。
在步骤S702,获取带有伪标签的图像训练数据。
这里,伪标签根据本公开实施例的伪标签生成方法(例如,结合图3所述的伪标签生成方法300)来生成。如前所述,伪标签生成方法包括通过对不带标签的图像数据进行第一目标检测获得至少一个第一检测框,以及通过对所述不带标签的图像数据进行第二目标检测获得至少一个第二检测框。这里,第一目标检测经由预训练的第一教师模型执行,以及第二目标检测经由预训练的第二教师模型执行。
在示例中,第一教师模型可以是期望经由训练而最终获得的模型,而第二教师模型可以在训练过程中与第一教师模型进行配合,以用于生成更准确的伪标签。举例而言,第一教师模型和第二教师模型可以具有不同的模型主干结构。第一教师模型例如可以是所期望的具有快速目标检测速度的小模型,而第二教师模型可以是具有复杂结构的大模型,以帮助与第一教师模型一起用于生成更准确的伪标签。
由于在步骤S702中采用了根据本公开实施例的伪标签生成方法,可以确保减少或避免出现目标漏检的情况,因而可以提升伪标签的质量以更加充分地利用未经标注的训练数据,由此来提升整体的训练效果。
在步骤S704,基于带有伪标签的第一图像训练数据以及带有人工标签的第二图像训练数据,训练对应于第一教师模型的第一学生模型以获得第一学生模型的第一学生模型更新参数,以及训练对应于第二教师模型的第二学生模型以获得第二学生模型的第二学生模型更新参数。
在步骤S706,基于第一学生模型更新参数以及第一教师模型的第一当前模型参数来更新第一教师模型,以及基于第二学生模型更新参数和第二教师模型的第二当前模型参数来更新第二教师模型。
在示例中,可以按照EMA(Exponential Moving Average,指数移动平均)策略来执行步骤S706的更新过程。通过EMA策略执行更新可以实现更为缓和的更新效果,减少参数剧烈变化的可能性。
例如,以执行多轮训练为例,可以根据如下公式1来更新第一、第二教师模型:
θt_new=(1-α)*θt_old+α*θs (公式1)
其中,θt_old表示上一轮训练后教师模型的模型参数,也即本轮训练中教师模型的当前模型参数(即,步骤S706中第一教师模型的第一当前模型参数、第二教师模型的第二当前模型参数);θs表示本轮训练后学生模型的更新后的模型参数(即,步骤S704中第一学生模型的第一学生模型更新参数、第二学生模型的第二学生模型更新参数);θt_new表示本轮训练后教师模型的更新后的模型参数(即,在步骤S706中的更新操作之后所获得的模型参数);α表示可预设的权重参数,例如取值可以在0.01~0.05之间。
在示例中,可以在训练已达到预设轮数或已达到预定指标时完成训练。
根据一些实施例,在步骤S702中,预训练的第一教师模型可以具有第一初始模型参数,且预训练的第二教师模型可以具有第二初始模型参数。第一初始模型参数可以是通过基于带有人工标签的第二图像训练数据对第一学生模型进行训练而获得的,且第二初始模型参数可以是通过基于所述带有人工标签的第二图像训练数据对第二学生模型进行训练而获得的。
在示例中,可以在第一轮训练之前执行第一学生模型和第二学生模型的预训练,以获得第一学生模型的第一初始模型参数以及第二学生模型的第二初始模型参数。可以将第一学生模型的第一初始模型参数直接赋值给第一教师模型,并且可以将第二学生模型的第二初始模型参数直接赋值给第二教师模型。
通过这种方式,可以为第一教师模型和第二教师模型赋予初始模型参数,从而使得可以通过第一教师模型和第二教师模型来获得未经标注的训练数据的初始伪标签。
在根据本公开实施例的目标检测模型训练方法中,由于采用了能够减少或避免漏检的伪标签生成方法,因此可以提升训练数据的质量,继而提升整体的训练效果。随着每一轮训练的迭代,第一教师模型和第二教师模型的模型参数将被不断优化,由此使得通过第一教师模型和第二教师模型生成的伪标签也被不断优化,从而使得整体训练过程在良性循环中不断加强,最终能够提升整体训练效果。
图8示出了根据本公开实施例的目标检测模型训练方法的示意图。
用于进行训练的全部训练数据可以由经标注的训练数据820(即,带有人工标签)和未经标注的训练数据830构成。
对于未经标注的训练数据830,如图8所示,可以借助于第一教师模型801和第二教师模型811,根据本公开实施例的伪标签生成方法(如结合图3所述的伪标签生成方法300)来生成伪标签。即,可以经由第一教师模型801执行该方法中的第一目标检测,以及可以经由第二教师模型811执行该方法中的第二目标检测。由此,可以生成伪标签并将伪标签提供给未经标注的训练数据830。
在示例中,第一教师模型801的初始模型参数可以是通过经标注的训练数据820对第一学生模型802进行训练而获得的。第二教师模型811的初始模型参数可以是通过经标注的训练数据820对第二学生模型812进行训练而获得的。
如图8所示,可以将带有伪标签的未经标注的训练数据830与经标注的训练数据820一起作为全部训练数据,分别输入至第一学生模型802和第二学生模型812以进行训练。由此,第一学生模型802可以经由训练而具有第一更新参数,且第二学生模型812可以经由训练而具有第二更新参数。
如图8所示,可以利用第一更新参数来更新第一教师模型801,以及可以利用第二更新参数来更新第二教师模型811。具体地,可以基于第一更新参数和第一教师模型801的当前模型参数来更新第一教师模型801,以及可以基于第二更新参数和第二教师模型811的当前模型参数来更新第二教师模型811。在示例中,可以基于诸如EMA的更新策略来执行该更新过程。
由此,随着每一轮训练的迭代,第一教师模型801和第二教师模型811的模型参数将被不断优化,由此使得通过第一教师模型和第二教师模型生成的伪标签也被不断优化,从而使得整体训练过程在良性循环中不断加强,最终能够提升整体训练效果。
根据本公开的另一方面,还提供了一种伪标签生成装置。
图9示出了根据本公开一个实施例的伪标签生成装置900的结构框图。
如图9所示,伪标签生成装置900包括目标检测模块902、第一确定模块904和第一处理模块906。
目标检测模块902被配置为通过对不带标签的图像数据进行第一目标检测获得至少一个第一检测框,以及通过对所述不带标签的图像数据进行第二目标检测获得至少一个第二检测框。
第一确定模块904被配置为确定包括所述至少一个第一检测框和所述至少一个第二检测框的检测框中的独立检测框,该独立检测框与包括所述至少一个第一检测框和所述至少一个第二检测框的所述检测框中除所述独立检测框之外的其余检测框不具有对应关系。
第一处理模块906被配置为将独立检测框确定为不带标签的图像数据的伪标签。
伪标签生成装置900的目标检测模块902、第一确定模块904和第一处理模块906所执行的操作可以与如结合图3所述的伪标签生成方法300的步骤S302、S304和S306相对应,因此这里不再重复其各个方面的细节。
根据一些实施例,伪标签生成装置900和第一确定模块904还可以包括进一步的子模块,这将结合图10进行详细描述。
图10示出了根据本公开另一个实施例的伪标签生成装置1000的结构框图。
如图10所示,伪标签生成装置1000包括目标检测模块1020、第一确定模块1040和第一处理模块1060。
根据一些实施例,目标检测模块1020、第一确定模块1040和第一处理模块1060可以与如结合图9所述的目标检测模块902、第一确定模块904和第一处理模块906相对应。
根据一些实施例,第一确定模块1040可以包括:计算模块1042,被配置为计算所述至少一个第一检测框中的每个第一检测框与所述至少一个第二检测框中的每个第二检测框的重合程度;以及判断模块1044,被配置为基于重合程度确定独立检测框。
根据一些实施例,判断模块1044可以包括:第一子判断单元1044-1,被配置为响应于所述至少一个第一检测框中的一个第一检测框与所述至少一个第二检测框中的每个第二检测框的重合程度均小于或等于预定阈值,将该第一检测框确定为独立检测框。
根据一些实施例,判断模块1044可以包括:第二子判断单元1044-2,被配置为响应于所述至少一个第二检测框中的一个第二检测框与所述至少一个第一检测框中的每个第一检测框的重合程度均小于或等于预定阈值,将该第二检测框确定为独立检测框。
根据一些实施例,判断模块1044可以包括:第三子判断单元1044-3,被配置为响应于所述至少一个第一检测框中的一个第一检测框与所述至少一个第二检测框中的一个第二检测框的重合程度大于预定阈值、且该第一检测框所指示的目标类别与该第二检测框所指示的目标类别不同,将该第一检测框和该第二检测框确定为独立检测框。
根据一些实施例,伪标签生成装置1000还可以包括:第二确定模块1070,被配置为确定其余检测框中具有对应关系的成对检测框,其中,成对检测框中的两个检测框的重合程度大于预定阈值、且所述两个检测框所指示的目标类别相同;归一化模块1080,被配置为将成对检测框的位置坐标进行归一化,以获得经归一化的检测框;以及第二处理模块1090,被配置为将经归一化的检测框和独立检测框确定为不带标签的图像数据的伪标签。
根据本公开的另一方面,还提供了一种目标检测模型训练装置。
图11示出了根据本公开实施例的目标检测模型训练装置1100的结构框图。
如图11所示,目标检测模型训练装置1100包括训练数据获取模块1120、学生模型训练模块1140和教师模型更新模块1160。
训练数据获取模块1120被配置为获取带有伪标签的第一图像训练数据,其中,伪标签根据本公开实施例的伪标签生成装置(例如,如结合图9所述的伪标签生成装置900、如图10所述的伪标签生成装置1000)生成,其中,经由预训练的第一教师模型执行第一目标检测,以及经由预训练的第二教师模型执行第二目标检测。
学生模型训练模块1140被配置为基于带有伪标签的第一图像训练数据以及带有人工标签的第二图像训练数据,训练对应于第一教师模型的第一学生模型以获得第一学生模型的第一学生模型更新参数,以及训练对应于第二教师模型的第二学生模型以获得第二学生模型的第二学生模型更新参数。
教师模型更新模块1160被配置为基于第一学生模型更新参数以及第一教师模型的第一当前模型参数来更新第一教师模型,以及基于第二学生模型更新参数和第二教师模型的第二当前模型参数来更新第二教师模型。
根据一些实施例,预训练的第一教师模型都可以具有第一初始模型参数,且预训练的第二教师模型可以具有第二初始模型参数。第一初始模型参数可以是通过基于带有人工标签的第二图像训练数据对第一学生模型进行训练而获得的,且第二初始模型参数可以是通过基于带有人工标签的第二图像训练数据对第二学生模型进行训练而获得的。
目标检测模型训练装置1100的训练数据获取模块1120、学生模型训练模块1140和教师模型更新模块1160所执行的操作可以与如结合图7所述的目标检测模型训练方法700的步骤S702、S704和S706相对应,因此这里不再重复其各个方面的细节。
根据本公开的另一方面,还提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,存储器存储有能够被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本公开实施例所述的方法。
根据本公开的另一方面,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行如本公开实施例所述的方法。
根据本公开的另一方面,还提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现如本公开实施例所述的方法。
参考图12,现将描述可以作为本公开的服务器或客户端的电子设备1200的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图12所示,电子设备1200包括计算单元1201,其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序,来执行各种适当的动作和处理。在RAM 1203中,还可存储电子设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。
电子设备1200中的多个部件连接至I/O接口1205,包括:输入单元1206、输出单元1207、存储单元1208以及通信单元1209。输入单元1206可以是能向电子设备1200输入信息的任何类型的设备,输入单元1206可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入,并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元1207可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1208可以包括但不限于磁盘、光盘。通信单元1209允许电子设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、802.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理,例如标签生成方法和目标检测模型训练方法。例如,在一些实施例中,标签生成方法和目标检测模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1208。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到电子设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时,可以执行上文描述的标签生成方法和目标检测模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1201可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行标签生成方法和目标检测模型训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
本公开的技术方案中,所涉及的图像的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims (19)

1.一种伪标签生成方法,包括:
通过对不带标签的图像数据进行第一目标检测获得至少一个第一检测框,以及通过对所述不带标签的图像数据进行第二目标检测获得至少一个第二检测框;
确定包括所述至少一个第一检测框和所述至少一个第二检测框的检测框中的独立检测框,其中,所述独立检测框与包括所述至少一个第一检测框和所述至少一个第二检测框的所述检测框中除所述独立检测框之外的其余检测框不具有对应关系;以及
将所述独立检测框确定为所述不带标签的图像数据的伪标签。
2.根据权利要求1所述的方法,其中,所述确定包括所述至少一个第一检测框和所述至少一个第二检测框的检测框中的独立检测框包括:
计算所述至少一个第一检测框中的每个第一检测框与所述至少一个第二检测框中的每个第二检测框的重合程度;以及
基于所述重合程度确定所述独立检测框。
3.根据权利要求2所述的方法,其中,基于所述重合程度确定所述独立检测框包括:
响应于所述至少一个第一检测框中的一个第一检测框与所述至少一个第二检测框中的每个第二检测框的重合程度均小于或等于所述预定阈值,将该第一检测框确定为所述独立检测框。
4.根据权利要求2或3所述的方法,其中,基于所述重合程度确定所述独立检测框包括:
响应于所述至少一个第二检测框中的一个第二检测框与所述至少一个第一检测框中的每个第一检测框的重合程度均小于或等于所述预定阈值,将该第二检测框确定为所述独立检测框。
5.根据权利要求2所述的方法,其中,基于所述重合程度确定所述独立检测框包括:
响应于所述至少一个第一检测框中的一个第一检测框与所述至少一个第二检测框中的一个第二检测框的重合程度大于所述预定阈值、且该第一检测框所指示的目标类别与该第二检测框所指示的目标类别不同,将该第一检测框和该第二检测框均确定为所述独立检测框。
6.根据权利要求2至5中任一项所述的方法,还包括:
确定所述其余检测框中具有所述对应关系的成对检测框,其中,所述成对检测框中的两个检测框的重合程度大于所述预定阈值、且所述两个检测框所指示的目标类别相同;
将所述成对检测框的位置坐标进行归一化,以获得经归一化的检测框;以及
将所述经归一化的检测框和所述独立检测框确定为所述不带标签的图像数据的伪标签。
7.一种目标检测模型训练方法,包括:
获取带有伪标签的第一图像训练数据,其中,所述伪标签根据权利要求1至6中任一项所述的伪标签生成方法生成,其中,经由预训练的第一教师模型执行第一目标检测,以及经由预训练的第二教师模型执行第二目标检测;
基于所述带有伪标签的第一图像训练数据以及带有人工标签的第二图像训练数据,训练对应于所述第一教师模型的第一学生模型以获得所述第一学生模型的第一学生模型更新参数,以及训练对应于所述第二教师模型的第二学生模型以获得所述第二学生模型的第二学生模型更新参数;以及
基于所述第一学生模型更新参数以及所述第一教师模型的第一当前模型参数来更新所述第一教师模型,以及基于所述第二学生模型更新参数和所述第二教师模型的第二当前模型参数来更新所述第二教师模型。
8.根据权利要求7所述的方法,其中,所述预训练的第一教师模型具有第一初始模型参数,且所述预训练的第二教师模型具有第二初始模型参数,其中,所述第一初始模型参数是通过基于所述带有人工标签的第二图像训练数据对所述第一学生模型进行训练而获得的,且所述第二初始模型参数是通过基于所述带有人工标签的第二图像训练数据对所述第二学生模型进行训练而获得的。
9.一种伪标签生成装置,包括:
目标检测模块,被配置为通过对不带标签的图像数据进行第一目标检测获得至少一个第一检测框,以及通过对所述不带标签的图像数据进行第二目标检测获得至少一个第二检测框;
第一确定模块,被配置为确定包括所述至少一个第一检测框和所述至少一个第二检测框的检测框中的独立检测框,其中,所述独立检测框与包括所述至少一个第一检测框和所述至少一个第二检测框的所述检测框中除所述独立检测框之外的其余检测框不具有对应关系;以及
第一处理模块,被配置为将所述独立检测框确定为所述不带标签的图像数据的伪标签。
10.根据权利要求9所述的装置,其中,所述第一确定模块包括:
计算模块,被配置为计算所述至少一个第一检测框中的每个第一检测框与所述至少一个第二检测框中的每个第二检测框的重合程度;以及
判断模块,被配置为基于所述重合程度确定所述独立检测框。
11.根据权利要求10所述的装置,其中,所述判断模块包括:
第一子判断单元,被配置为响应于所述至少一个第一检测框中的一个第一检测框与所述至少一个第二检测框中的每个第二检测框的重合程度均小于或等于所述预定阈值,将该第一检测框确定为所述独立检测框。
12.根据权利要求10或11所述的装置,其中,所述判断模块包括:
第二子判断单元,被配置为响应于所述至少一个第二检测框中的一个第二检测框与所述至少一个第一检测框中的每个第一检测框的重合程度均小于或等于所述预定阈值,将该第二检测框确定为所述独立检测框。
13.根据权利要求9所述的装置,其中,所述判断模块包括:
第三子判断单元,被配置为响应于所述至少一个第一检测框中的一个第一检测框与所述至少一个第二检测框中的一个第二检测框的重合程度大于所述预定阈值、且该第一检测框所指示的目标类别与该第二检测框所指示的目标类别不同,将该第一检测框和该第二检测框均确定为所述独立检测框。
14.根据权利要求10至13中任一项所述的装置,还包括:
第二确定模块,被配置为确定所述其余检测框中具有所述对应关系的成对检测框,其中,所述成对检测框中的两个检测框的重合程度大于所述预定阈值、且所述两个检测框所指示的目标类别相同;
归一化模块,被配置为将所述成对检测框的位置坐标进行归一化,以获得经归一化的检测框;以及
第二处理模块,被配置为将所述经归一化的检测框和所述独立检测框确定为所述不带标签的图像数据的伪标签。
15.一种目标检测模型训练装置,包括:
训练数据获取模块,被配置为获取带有伪标签的第一图像训练数据,其中,所述伪标签根据权利要求9至14中任一项所述的伪标签生成装置生成,其中,经由预训练的第一教师模型执行第一目标检测,以及经由预训练的第二教师模型执行第二目标检测;
学生模型训练模块,被配置为基于所述带有伪标签的第一图像训练数据以及带有人工标签的第二图像训练数据,训练对应于所述第一教师模型的第一学生模型以获得所述第一学生模型的第一学生模型更新参数,以及训练对应于所述第二教师模型的第二学生模型以获得所述第二学生模型的第二学生模型更新参数;
教师模型更新模块,被配置为基于所述第一学生模型更新参数以及所述第一教师模型的第一当前模型参数来更新所述第一教师模型,以及基于所述第二学生模型更新参数和所述第二教师模型的第二当前模型参数来更新所述第二教师模型。
16.根据权利要求15所述的装置,其中,所述预训练的第一教师模型具有第一初始模型参数,且所述预训练的第二教师模型具有第二初始模型参数,其中,所述第一初始模型参数是通过基于所述带有人工标签的第二图像训练数据对所述第一学生模型进行训练而获得的,且所述第二初始模型参数是通过基于所述带有人工标签的第二图像训练数据对所述第二学生模型进行训练而获得的。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有能够被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行根据权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
CN202210827746.4A 2022-07-13 2022-07-13 伪标签生成方法、目标检测模型训练方法及装置 Pending CN115082757A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210827746.4A CN115082757A (zh) 2022-07-13 2022-07-13 伪标签生成方法、目标检测模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210827746.4A CN115082757A (zh) 2022-07-13 2022-07-13 伪标签生成方法、目标检测模型训练方法及装置

Publications (1)

Publication Number Publication Date
CN115082757A true CN115082757A (zh) 2022-09-20

Family

ID=83258983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210827746.4A Pending CN115082757A (zh) 2022-07-13 2022-07-13 伪标签生成方法、目标检测模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN115082757A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666979A (zh) * 2020-05-13 2020-09-15 北京科技大学 一种可用于标签生成的水下场景目标检测集成方法及系统
CN113554627A (zh) * 2021-07-27 2021-10-26 广西师范大学 一种基于计算机视觉半监督伪标签学习的小麦头检测方法
CN113920307A (zh) * 2021-09-29 2022-01-11 北京百度网讯科技有限公司 模型的训练方法、装置、设备、存储介质及图像检测方法
CN113947571A (zh) * 2021-09-30 2022-01-18 北京百度网讯科技有限公司 车辆损伤检测模型的训练方法及车辆损伤识别方法
CN114399686A (zh) * 2021-11-26 2022-04-26 中国科学院计算机网络信息中心 一种基于弱监督学习的遥感图像地物识别与分类方法和装置
CN114581350A (zh) * 2022-02-23 2022-06-03 清华大学 一种适用于单目3d目标检测任务的半监督学习方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666979A (zh) * 2020-05-13 2020-09-15 北京科技大学 一种可用于标签生成的水下场景目标检测集成方法及系统
CN113554627A (zh) * 2021-07-27 2021-10-26 广西师范大学 一种基于计算机视觉半监督伪标签学习的小麦头检测方法
CN113920307A (zh) * 2021-09-29 2022-01-11 北京百度网讯科技有限公司 模型的训练方法、装置、设备、存储介质及图像检测方法
CN113947571A (zh) * 2021-09-30 2022-01-18 北京百度网讯科技有限公司 车辆损伤检测模型的训练方法及车辆损伤识别方法
CN114399686A (zh) * 2021-11-26 2022-04-26 中国科学院计算机网络信息中心 一种基于弱监督学习的遥感图像地物识别与分类方法和装置
CN114581350A (zh) * 2022-02-23 2022-06-03 清华大学 一种适用于单目3d目标检测任务的半监督学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YE TIAN ET AL.: "《Consistency regularization teacher-student semisupervised learning method for target recognition in SAR images》", 《THE VISUAL COMPUTER》 *
宋邵乐: "《基于知识迁移的图像场景与目标信息提取方法》", 《中国博士学位论文全文数据库信息科技辑》 *

Similar Documents

Publication Publication Date Title
US20230005284A1 (en) Method for training image-text matching model, computing device, and storage medium
CN114494935B (zh) 视频信息的处理方法、装置、电子设备和介质
CN113256583A (zh) 图像质量检测方法及装置、计算机设备和介质
CN114445667A (zh) 图像检测方法和用于训练图像检测模型的方法
CN114495103B (zh) 文本识别方法、装置、电子设备和介质
CN114821581A (zh) 图像识别方法和用于训练图像识别模型的方法
CN114723949A (zh) 三维场景分割方法和用于训练分割模型的方法
CN113723305A (zh) 图像和视频检测方法、装置、电子设备和介质
CN116894317A (zh) 数据处理方法、装置、电子设备和介质
CN115797660A (zh) 图像检测方法、装置、电子设备和存储介质
CN115578501A (zh) 图像处理方法、装置、电子设备和存储介质
CN114842476A (zh) 水印检测方法及装置、模型训练方法及装置
CN114998963A (zh) 图像检测方法和用于训练图像检测模型的方法
CN115082757A (zh) 伪标签生成方法、目标检测模型训练方法及装置
CN114547252A (zh) 文本识别方法、装置、电子设备和介质
CN115359309A (zh) 目标检测模型的训练方法及装置、设备和介质
CN114429678A (zh) 模型训练方法及装置、电子设备和介质
CN112579587A (zh) 数据清洗方法及装置、设备和存储介质
CN114860836B (zh) 失效兴趣点的挖掘方法及装置、设备和介质
CN115512131B (zh) 图像检测方法和图像检测模型的训练方法
CN114821233B (zh) 目标检测模型的训练方法及装置、设备和介质
CN116070711B (zh) 数据处理方法、装置、电子设备和存储介质
CN114677691B (zh) 文本识别方法、装置、电子设备及存储介质
CN115019048B (zh) 三维场景分割方法、模型训练方法、装置和电子设备
CN115293264A (zh) 数据处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination