CN116523823A - 用于半监督对象检测的鲁棒伪标签生成的系统和方法 - Google Patents

用于半监督对象检测的鲁棒伪标签生成的系统和方法 Download PDF

Info

Publication number
CN116523823A
CN116523823A CN202310053153.1A CN202310053153A CN116523823A CN 116523823 A CN116523823 A CN 116523823A CN 202310053153 A CN202310053153 A CN 202310053153A CN 116523823 A CN116523823 A CN 116523823A
Authority
CN
China
Prior art keywords
data set
neural network
dataset
pseudo
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310053153.1A
Other languages
English (en)
Inventor
胡暑
刘峻豪
J·K·杜塔
N·拉马克里施南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN116523823A publication Critical patent/CN116523823A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

一种用于生成鲁棒伪标签数据集的系统和方法,其中可以接收标记的源数据集(例如,视频)并将其用于训练教师神经网络。然后,可以从教师网络输出伪标记数据集,并将其连同未标记数据集一起提供给相似性感知加权框融合(SWBF)算法。然后,可以通过SWBF算法从学生神经网络生成鲁棒伪标签数据集,并将其用于训练学生神经网络。还可以使用标记的源数据集进一步调谐学生神经网络。最后,教师神经网络可以使用学生神经网络替换。设想该系统和方法可以迭代重复。

Description

用于半监督对象检测的鲁棒伪标签生成的系统和方法
技术领域
本公开涉及一种系统和方法,用于将未标记的视频数据与标记的图像数据相组合,以创建鲁棒的对象检测器,从而减少错误检测和遗漏检测,并有助于减少对注释的需求。
背景技术
还设想具有半监督学习(SSL)的深度神经网络(DNN)可能可操作以改进对象检测问题。尽管如此,由传统的基于SSL的对象检测模型根据未标记的数据生成的伪标签可能不总是可靠的,并且因此它们不能总是被直接应用于检测器训练过程以改进其。例如,由于所选择的对象检测器的性能瓶颈,在伪标签中可能出现遗漏检测和错误检测问题。此外,可能需要驻留在未标记序列数据中的运动信息来帮助提高伪标签生成的质量。
发明内容
公开了一种用于生成鲁棒伪标签数据集的系统和方法。该系统和方法可以使用接收到的标记源数据集来训练教师神经网络。可以生成伪标记数据集作为来自教师神经网络的输出。伪标记数据集和未标记数据集可以被提供给相似性感知加权框融合算法。鲁棒伪标签数据集可以从相似性感知加权框融合算法生成,该算法使用伪标记数据集和未标记数据集进行操作。可以使用鲁棒伪标签数据集来训练学生神经网络。此外,教师神经网络可以用学生神经网络替换。
该系统和方法还可以使用标记的源数据集调谐学生神经网络。标记的源数据集可以包括至少一个图像和至少一个人类注释。人类注释可以包括限定至少一个图像内的对象的置信度分数的边界框。教师神经网络也可以被配置为预测标记的源数据集的帧内的像素的运动矢量。并且,可以使用用于对象检测的损失函数来训练教师神经网络。
还设想损失函数包括分类损失和回归损失,用于预测边界框内的置信度分数。可以使用预测函数来重新训练教师神经网络。相似性感知加权框融合算法可以进一步被配置为运动预测算法,其可操作来将鲁棒伪标签数据集的质量提高到第一预定义阈值。相似性感知加权框融合算法可以进一步被配置为抗噪声伪标签融合算法,其可操作来将鲁棒伪标签数据集的质量提高到第二预定义阈值。
该系统和方法还可以使用SDC-Net算法预测未标记数据集内多个帧内的像素的运动矢量。此外,可以使用多个帧来训练SDC-Net算法,其中在没有人工标签的情况下训练SDC-Net算法。设想相似性感知加权框融合算法可以包括相似性算法,该相似性算法可操作来降低在伪标记数据集内被错误检测到的对象的置信度分数。相似性算法还可以包括伪标记数据集的至少一帧内的边界框的类别分数、位置分数和置信度分数。相似性算法可以进一步采用基于特征的策略,当确定对象在定义的类别内时,该策略提供预确定的分数。相似性感知加权框融合算法还可能可操作以减少被确定为冗余的边界框,并减少假阳性结果的置信度分数。最后,相似性感知加权框融合算法可能可操作以对伪标记数据集内检测到的对象的之前帧、当前帧和未来帧的定位值和置信度分数进行平均。
附图说明
图1描绘了可以由公开的实施例使用的示例性计算系统。
图2是图示半监督对象检测中的鲁棒伪标签生成方法的示例性框图。
图3是相似性感知加权框融合算法的示例性框图。
图4图示了控制至少部分自主机器人的计算系统。
图5是其中可以使用计算机系统来控制自动化个人助理的实施例。
图6A是类型-A假阳性双向伪标签传播方法的示例。
图6B是来自双向伪标签传播方法的类型-B假阳性的示例。
图7是双向伪标签传播方法的示例性伪代码。
图8是双向伪标签传播方法的示例。
具体实施方式
本文中描述了本公开的实施例。然而,应当理解,所公开的实施例仅仅是示例,并且其它实施例可以采取各种和替代形式。各图不一定按比例绘制;一些特征可以被放大或缩小以示出特定组件的细节。因此,本文中公开的特定结构和功能细节不应被解释为限制性的,而仅仅是作为教导本领域技术人员各种地采用实施例的代表性基础。如本领域普通技术人员将理解的,参考任一附图图示和描述的各种特征可以与一个或多个其它附图中图示的特征相组合,以产生没有明确图示或描述的实施例。所图示的特征的组合提供了典型应用的代表性实施例。然而,对于特定的应用或实现,可能期望与本公开的教导一致的特征的各种组合和修改。
设想图像中的对象检测对若干领域中的计算机视觉任务的重要性增加,包括例如,自主驾驶、视频监控和智能家居应用。可以理解,对象检测器用于检测图像中的特定对象,并且还可以在对象周围绘制边界框,即定位对象。深度神经网络已经被示出是一种可操作来产生可靠的对象检测的框架。然而,应当理解,深度神经网络一般可能需要大量的标记训练数据。为了辅助标记过程,一种方法可以包括将未标记的图像与标记的图像相组合,以提高对象检测性能,从而减少对注释的需要。但是对于一些应用(例如,收集视频数据的自主驾驶)来说,可能存在对象运动形式的附加信息,可以进一步利用这些信息来提高对象检测性能并进一步减少标记需求。因此,设想一种系统和方法可以用于将未标记的视频数据与标记的图像相组合,以创建鲁棒的对象检测器,其不仅减少错误检测和遗漏检测,而且还有助于进一步减少注释工作。
例如,伪标签可以用于改进对象检测。然而,未标记的视频数据集内的运动信息可能通常被忽略。设想一种方法可以扩展用于对象检测内的基于静态图像的半监督方法。然而,这样的方法可能导致在生成的伪标签中大量的遗漏和错误检测。本公开设想可以使用不同的模型(即,PseudoProp)来生成鲁棒的伪标签,从而以半监督的方式改进视频对象检测。设想PseudoProp系统和方法可以包括新颖的双向伪标签传播和基于图像语义的融合技术二者。双向伪标签传播可以用于通过利用运动预测来补偿遗漏检测。而基于图像语义的融合技术则可以用于通过组合伪标签来抑制推断噪声。
还设想具有半监督学习(SSL)的深度神经网络(DNN)也已经改进了两个图像对象检测问题。尽管如此,由传统的基于SSL的对象检测模型根据未标记的数据生成的伪标签可能不总是可靠的,并且因此它们不能总是被直接应用于检测器训练过程以改进其。例如,由于所选择的对象检测器的性能瓶颈,在伪标签中可能出现遗漏检测和错误检测问题。此外,可能需要驻留在未标记序列数据中的运动信息来帮助提高伪标签生成的质量。然而,当为实时检测场景(如自主驾驶或视频监控系统)设计基于SSL的对象检测器时,这样的数据可能被忽略。因此,本公开设想了用于生成鲁棒伪标签以提高基于SSL的对象检测器性能的系统和方法。
可能需要设想的系统和方法,因为现有的基于SSL的对象检测工作一般聚焦于静态图像情况,其中可能没有透彻考虑图像之间的关系。还应当理解,对象检测可以利用基于SSL的方法来生成伪标签,因为原始的标记数据可以由稀疏的视频帧组成。在这样的实例中,可以将来自视频中的每一帧视为静态图像,并且然后可以将基于静态图像的SSL模型应用于对象检测。然而,在这样的检测模型中,帧之间的运动信息可能被忽略。然后,当预测未标记数据的伪标签时,可以利用被忽略的信息来解决遗漏和错误检测问题。虽然对象跟踪的焦点是检测然后标识相似或相同的对象,但是本系统和方法可以聚焦于改进对象检测任务,而不需要对象重新标识。
再次,这可以通过为基于SSL的对象检测中的鲁棒伪标签生成制定第一框架来完成。如上面所指示的,所公开的框架由于其利用运动来传播伪标签的可操作性而可以被称为“PseudoProp”。所公开的PseudoProp框架可以包括基于新颖的双向伪标签传播(BPLP)的相似性感知加权框融合(SWBF)方法。设想该框架可能可操作来解决遗漏检测问题,并且还降低错误检测的对象的置信度分数。
例如,为解决特定帧上的遗漏检测,设想可以对先前和未来帧采用伪标签上的向前和向后运动预测。这些伪标签然后可以被应用(即,转移)到另一个特定帧中。然而,BPLP方法将生成许多冗余的边界框。此外,将必然引入额外的假阳性。首先,当对象在当前帧被完全遮挡时,未被遮挡的伪标签将从先前和未来帧传播到当前帧。此外,如果一个帧中已经存在错误检测,则它将被转移到视频序列中的其它帧。这样的假阳性可能损害生成的伪标签的质量。
因此,应用BPLP方法的关键挑战是降低假阳性的置信度分数和移除冗余边界框。设想一种方法可以包括基于错误转移的边界框的提取特征之间的相似性来降低它们的置信度分数。或者另一种方法可以是适应为边界框减少而设计的加权框融合(WBF)算法。设想这种替代方法可以降低原始帧中存在的假阳性的置信度分数。
再次,本公开因此设想了一种框架(即,PseudoProp),其可以在使用运动传播的基于SSL的对象检测中实现鲁棒的伪标签生成。此外,所提出的SWBF系统和方法可以基于新颖的BPLP方法,该方法可操作来解决遗漏检测问题,并显著降低所生成的伪标签中的假阳性的置信度分数。
图1描绘了可以用于实现所提出的框架的示例性系统100。系统100可以包括至少一个计算设备102。计算系统102可以包括至少一个处理器104,其可操作地连接到存储器单元108。处理器104可以是实现中央处理单元(CPU)106的功能性的一个或多个集成电路。应当理解,CPU 106也可以是实现通用处理单元或专用处理单元(例如,图形处理单元、ASIC、FPGA或神经处理单元(NPU))的功能性的一个或多个集成电路。
CPU 106可以是实现指令集的商业上可获得的处理单元,所述指令集诸如x86、ARM、Power或MIPS指令集族中的一个。在操作期间,CPU 106可以执行从存储器单元108检索的存储的程序指令。存储的程序指令可以包括控制CPU 106的操作以执行本文中描述的操作的软件。在一些示例中,处理器104可以是片上系统(SoC),其将CPU 106、存储器单元108、网络接口和输入/输出接口的功能性集成到单个集成设备中。计算系统102可以实现用于管理操作的各个方面的操作系统。
存储器单元108可以包括用于存储指令和数据的易失性存储器和非易失性存储器。非易失性存储器可以包括固态存储器,诸如NAND闪速存储器、磁性和光学存储介质,或者当计算系统102被停用或失去电力时保留数据的任何其它合适的数据存储设备。易失性存储器可以包括存储程序指令和数据的静态和动态随机存取存储器(RAM)。例如,存储器单元108可以存储机器学习模型110或算法、机器学习模型110的训练数据集112和/或原始源数据115。
计算系统102可以包括网络接口设备122,其被配置为提供与外部系统和设备的通信。例如,网络接口设备122可以包括如由电气和电子工程师协会(IEEE)802.11标准族定义的有线和/或无线以太网接口。网络接口设备122可以包括用于与蜂窝网络(例如,3G、4G、5G)通信的蜂窝通信接口。网络接口设备122可以进一步被配置为向外部网络124或云提供通信接口。
外部网络124可以称为万维网或互联网。外部网络124可以在计算设备之间建立标准通信协议。外部网络124可以允许信息和数据在计算设备和网络之间容易地交换。一个或多个服务器130可以与外部网络124通信。
计算系统102可以包括输入/输出(I/O)接口120,其可以被配置为提供数字和/或模拟输入和输出。I/O接口120可以包括用于与外部设备通信的附加串行接口(例如,通用串行总线(USB)接口)。
计算系统102可以包括人机接口(HMI)设备118,其可以包括使得系统100能够接收控制输入的任何设备。输入设备的示例可以包括人机接口输入,诸如键盘、鼠标、触摸屏、语音输入设备和其它类似设备。计算系统102可以包括显示设备132。计算系统102可以包括用于向显示设备132输出图形和文本信息的硬件和软件。显示设备132可以包括电子显示屏、投影仪、打印机或其它合适的设备,用于向用户或操作者显示信息。计算系统102可以进一步被配置为允许经由网络接口设备122与远程HMI和远程显示设备进行交互。
可以使用一个或多个计算系统实现系统100。虽然该示例描绘了实现所有所描述的特征的单个计算系统102,但是意图是各种特征和功能可以由彼此通信的多个计算单元来分离和实现。所选择的系统架构可能取决于多种因素。
系统100可以实现机器学习算法110,其被配置为分析原始源数据115。原始源数据115可以包括原始或未处理的传感器数据,其可以代表机器学习系统的输入数据集。原始源数据115可以包括视频、视频片段、图像和原始或部分处理的传感器数据(例如,从可以包括数字相机或激光雷达的相机114接收的图像数据)。在一些示例中,机器学习算法110可以是被设计成执行预确定功能的神经网络算法。例如,神经网络算法可以被配置在汽车应用中,以从数字相机提供的图像和/或来自激光雷达传感器的深度图标识对象(例如,行人)。
系统100可以存储机器学习算法110的训练数据集112。训练数据集112可以表示用于训练机器学习算法110的先前构建的数据集。机器学习算法110可以使用训练数据集112来学习与神经网络算法相关联的加权因子。训练数据集112可以包括源数据集,该源数据集具有机器学习算法110试图经由学习过程复制的对应成果或结果。在一个示例中,训练数据集112可以包括来自其中可以标识对象(例如,行人)的各种场景的源图像和深度图。
可以使用训练数据集112作为输入,在学习模式下操作机器学习算法110。机器学习算法110可以使用来自训练数据集112的数据执行多次迭代。随着每次迭代,机器学习算法110可以基于获得的结果更新内部加权因子。例如,机器学习算法110可以将输出结果与包括在训练数据集112中的结果进行比较。由于训练数据集112包括预期结果,因此机器学习算法110可以确定何时性能是可接受的。在机器学习算法110达到预确定的性能水平之后,可以使用不在训练数据集112中的数据来执行机器学习算法110。经训练的机器学习算法110可以应用于新的数据集,以生成带注释的数据。
机器学习算法110还可以被配置为标识原始源数据115中的特征。原始源数据115可以包括期望注释结果的多个实例或输入数据集。例如,机器学习算法110可以被配置为标识图像中行人的存在,并注释这些事件。机器学习算法110可以被编程为处理原始源数据115以标识特征的存在。机器学习算法110可以被配置为将原始源数据115中的特征标识为预确定特征。原始源数据115可以从各种源导出。例如,原始源数据115可以是由机器学习系统收集的实际输入数据。原始源数据115可以是机器生成的,用于测试系统。作为示例,原始源数据115可以包括来自相机的原始数字图像。
在该示例中,机器学习算法110可以处理原始源数据115并生成输出。机器学习算法110可以为每个生成的输出生成置信度水平或因子。例如,超过预确定高置信度阈值的置信度值可以指示机器学习算法110确信所标识的特征对应于特定特征。小于低置信度阈值的置信度值可以指示机器学习算法110对特定特征存在具有某种不确定性。
系统100也是可以用于关于本公开的对象检测的计算环境的例示。例如,系统100可以用于对象检测应用,诸如自主驾驶,以出于安全目的检测人类、车辆和其它对象。或者系统100可以用于视频监控系统(例如,相机114)以实时检测室内对象。还设想系统100可以采用深度学习算法来检测和识别对象(例如,从相机114获取的图像)。深度学习算法由于其分析数据特征的能力和模型泛化能力而可能是优选的。
系统100还可以被配置为实现半监督学习算法(SSL),用于包括对象检测和语义分割的视觉应用。关于对象检测,SSL算法可以包括用于未标记数据的伪标签(即,边界框),该未标记数据可以使用预先训练的模型重复生成。设想该模型可以通过对伪标记和人类注释数据的混合进行训练来更新。还设想基于SSL的对象方法可以应用于静态图像。最后,本公开设想视频的对象检测,其利用基于SSL的算法,以通过考虑同一视频内的帧之间的关系来在未标记数据上生成伪标签。因此,所公开的系统和方法生成具有较少假阳性和假阴性的伪标签。
参考图2,图示了所公开的框架(即,PseudoProp)的示例性框图200。框图200所图示的框架可以使用计算系统102来实现。设想框图200也可以说明可以基于半监督学习算法的师生框架。设想师生框架可以进一步是使用SSL应用的知识提炼算法。虽然师生框架可以用于对象检测,但是也设想所公开的系统和方法也可以基于运动传播生成鲁棒的伪标签。
在框202处,系统100可以使用标记的训练数据集开始教师网络的训练部分。设想标记的数据集可以是存储在存储器108中的机器学习模型110,或者可以由系统100经由外部网络124接收。标记的训练数据集也可以使用下面的等式(1)来说明:
其中n可以是标记数据的数量;可以是视频中的一帧;并且Yi可以是/>的对应人类注释(即,边界框集合)。设想视频可以是存储在存储器108中的机器学习模型110。替代地,视频可以从外部网络124接收,或者从相机/激光雷达114实时接收。
框204图示了未标记数据集,其可以存储在存储器108中或者由系统——例如经由外部网络124接收。下面的等式(2)也可以代表由框204图示的未标记数据集DU
其中m可以是未标记数据的数量。还设想可以从没有提供手动注释的多个视频序列提取未标记数据集DU。换句话说,未标记数据集可以是视频序列,其是存储在存储器108中的机器学习模型110的一部分。替代地,视频序列可以从外部网络124接收,或者从相机/激光雷达114实时接收。
使用用于对象检测的传统损失函数人类注释数据集DL也可以被用来训练教师网络206(其可以表示为θ1),其中/>可以由用于边界框预测的分类损失和回归损失组成。设想下面的等式(3)可以说明在训练过程期间可以获得的最优教师网络206。
其中可以是在训练的每次迭代期间获得的最优教师网络204(具有预测函数f)。如图2所图示的,第一次迭代可能是“迭代0”。然而,设想师生网络可以是一个迭代过程。最优教师网络204(即,/>)的输出然后可以用于生成(或更新)框208,框208可以是框202内所有未标记数据(DU)的伪标签数据集。
框210可以是相似性感知加权框融合(SWBF)算法,该算法被设计成接收来自框204的未标记数据集和来自框208的伪标记数据集。设想SWBF算法可以是运动预测模型和/或抗噪声伪标签融合模型,其可操作来提高生成或输出到框212的鲁棒伪标签数据集的质量。虽然下面提供了关于框210的SWBF算法的附加细节,但是等式(4)说明了使用SWBF算法生成高质量伪标签的过程。
其中Yi可以是来自教师模型(框206)的未标记数据Xi的伪标签(边界框)集合,并且可以是在对Yi使用SWBF方法之后的高质量伪标签集合。伪标记数据集然后可以用于使用损失函数/>来训练学生网络214,如下面的等式(5)所示:
设想由于由框212提供的伪标记数据可能是有噪声的,因此经训练的学生网络214可能不可操作以达到高于预定义阈值的性能水平。因此,在对验证或测试数据集进行评估之前,学生网络214可能需要使用标记数据集(DL)进行附加的调谐(如“微调”线所示),如下面的等式(6)所示:
如图2中的虚线所示,学生网络214(即,)然后可以用来替换教师网络206(即,)。如上所述,一旦教师网络206已经被经训练的学生网络214的之前迭代所替换,就可以重复图表200所示出的整个过程。
为了从未标记视频帧估计运动,所公开的框架还可以采用SDC-Net算法以用于预测在时间t每帧Xt的每个像素(u,v)上的运动矢量(du,dv)。设想可以实现SDC-Net算法来基于过去的帧观察以及估计的光流来预测视频帧Xt+1。SDC-Net算法可以被设计成胜过传统的基于光流的运动预测方法,因为SDC-Net可能可操作以处理给定视频帧内的去遮挡问题。此外,可以使用连续帧来训练SDC-Net算法,而不需要提供手动标签。最后,设想可以使用视频帧重建而不是帧预测(即,应用双向帧来重建当前帧)来改进SDC-Net算法。预测帧及其对应的预测伪标签/>这两者都可以使用下面所示出的等式(7)和(8)来制定:
其中Xt-τ:t可以是从时间t-τ到t的帧。还认为Vt-τ+1:t可以是从时间t-τ+1到t的对应光流。值B可以是双线性采样操作,可操作以将运动平移帧内插到最终预测帧中。值T可以是用于从运动预测导出伪标签的基底运算。最后,值可以是卷积神经网络(CNN)(或其它网络,诸如深度神经网络(DNN)),可操作来预测Xt上每个像素的运动矢量(du,dv)。例如,教师网络206或学生网络214可以采用的CNN的非限制性示例可以包括一个或多个卷积层;一个或多个池化层;全连接层;和softmax层。
如图2所图示,标记的输入数据集202可以作为输入提供给教师网络206,在教师网络206中,鲁棒的伪标记数据集212可以提供给学生网络。标记数据集202可以作为训练数据集或从一个或多个传感器(例如,相机114)接收。数据集也可以在提供给CNN之前进行轻微处理。卷积层可能可操作以从提供给教师网络206或学生网络214的数据集提取特征。一般理解的是卷积层220-240可能可操作以在将结果传递给CNN的另一层之前应用过滤操作(例如,核)。例如,对于给定的数据集(例如,彩色图像),卷积层可以执行过滤例程来执行诸如图像标识、图像的边缘检测和图像锐化之类的操作。
还设想CNN可以包括一个或多个池化层,这些池化层从相应卷积层接收卷积数据。池化层可以包括一个或多个池化层单元,其将池化函数应用于使用池化函数在不同带计算的一个或多个卷积层输出。例如,池化层可以将池化函数应用于从卷积层接收的核输出。由池化层实现的池化函数可以是平均值或最大值函数,或者是将多个值聚合成单个值的任何其它函数。
全连接层还可能可操作以学习从卷积层和池化层250接收的输出数据中的高级特征的非线性组合。最后,由教师网络206或学生网络214实现的CNN可以包括softmax层,其使用softmax函数组合全连接层的输出。设想神经网络可以被配置用于在汽车应用内操作,以从数字相机提供的图像和/或来自激光雷达传感器的深度图标识对象(例如,行人)。
所公开的系统和方法可以包括预训练的光流估计模型以生成V,并且视频帧重建方法用于设想预训练的光流估计模型可以使用FlowNet2算法来设计。上面讨论的SDC-Net算法也可以用给定数据集(例如,城市风景数据集)中的未标记视频序列进行预训练。该算法可以选择τ-1,并且为了估计运动(与预测未来帧相反),该算法可以通过利用来自模型的中间结果来检索值(du,dv)从而预测未来的边界框。此外,一旦收集了每个像素上的所有运动矢量,就可以使用运算符T来预测Yt中的(u,v),以表现为/>中的(u+du,v+dv),上面的等式(8)中所示。
关于图3,相似性感知加权框融合(SWBF)算法的一个实施例的示例性框图300,其在图1中一般被示出为框210。框302图示了双向伪标签传播(BPLP)算法,该算法可操作来根据运动预测生成候选伪标签。具体地,框302图示了BPLP算法的操作,这在下面更详细地描述。如所图示的,可以从框204所示出的未标记数据集接收(即,输入)多个未标记数据集视频帧306-318。同样,可以从框208所示出的伪标记数据集接收多个伪标记数据集视频帧322-330。BPLP算法可以使用帧306-318和帧322-330可操作地执行求和和相似性计算,以生成未经融合的鲁棒的伪标记帧320。然后,框304图示了鲁棒的融合算法,该算法可操作来生成输出到图1中的框212的最终伪标签数据集。
由于从教师模型206生成的框208中的预测(即,推断)伪标签可能包含假阴性,因此上面关于等式(7)和(8)讨论的运动预测方法可以用于传播如框302详细示出的伪标签预测。然而,使用等式(7)和(8)的运动预测方法可能仅可操作来预测一个方向上的帧和标签以及还有一个步长。为了使预测的伪标签在时间t+1更鲁棒,可以可操作地使用内插算法(即,双向伪标签传播)来生成伪标签提议。换句话说,原始标签预测(正向传播)及其反向版本(反向传播)可以用于预测伪标签。还设想使用如下面的等式(9)-(12)所示出的传播长度
J={sgn(i)·1,...,sgn(i)·(|i|-1),sgn(i)·(|i|)} 等式(12)
其中且i∈K。设想在等式(9)的右手侧,第一项yt+1可以是来自教师模型206的预测的未标记帧Xt+1的伪标签集。第二项/>可以是在使用运动传播之后包含来自过去和未来帧的伪标签的集合,该运动传播可以使用上面的等式(12)导出。表达式/>可以是来自Yt-1-i的伪标签集。还设想通过对Yt+1和/>应用联合运算来计算Xt+1的值在集合K中,“+”指示正向传播,以及“-”表示反向传播。图8是图示可以如何计算/>的示例。
具有不同k设置的BPLP算法可以创建许多候选伪标签,如框320所图示的。然而,设想也可能引入额外的(两种类型)假阳性(FP)。如图6A所示,可以引入类型-A FP,其中该算法可操作来在时间t(框602)和t+2(框604)检测到人,但是在时间t+1不能检测到人(框606)。人可能没有被检测到的原因是因为他们被框606中的树遮挡。然而,通过BPLP方法,两个边界框将在时间t+1出现,如框608所示。框610示出了具有在图像t+1内被检测到的人的置信度分数的最终边界框,但是置信度分数可能没有框402和406那么高,因为该人已经被遮挡。
关于类型-B FP,如图6B中所示,在时间t+1(框624),一个对象(例如,框620和622中所示的广告牌)可能被错误地检测为具有高置信度分数的不同对象(例如,汽车)。此外,候选伪标签(边界框)的数量随着k值的增加而增加(如框626所示)。因此,对于目标帧Xt+1,在Yt+1中可能出现许多冗余的边界框。
因此,基于上面的观察,设想为了降低FP的置信度分数,可以实现如下面的等式(13)所示出的相似性计算方法(如框302内所示)。
其中可以是Yt+1-i中第z个边界框的类别、位置和置信度分数。值|yt+1-i|也可以表示yt+1-i中边界框的数量。类似地,/>可以如下面的等式(14)所示定义:
还设想可以等于/>因为在传播期间边界框类不可以被修改。值/>可以通过应用上面等式(10)所示的T从/>获得。也理解/>但是这可能引起图6A所图示的类型-A假阳性。因此,设想可以实现基于/>和/>的相似性分数“sim”到边界框置信度分数,这也可以从/>和/>转变。本框架可以通过根据位置/>和/>裁剪帧Xt+1-i和Xt-1处的图像来计算相似性。
然后设想预训练的神经网络可以用于从裁剪的图像提取高级特征代表。最终,可以通过比较这两个高级特征代表来获得相似性。基于特征的方法可以用于相似性计算,以便如果对象在伪标签传播之前和之后具有相同的类别,则向该对象提供相同的分数。如果不是,则该计算可以以其它方式提供低分数,以便降低类型-A FP。可以使用下面的等式(15)来确定得分。
其中C(·)可以是可能基于框位置从裁剪的图像提取高级特征代表的函数。上面的相似性方法算法可以允许减少类型-A假阳性的置信度分数,如图6A所示。
尽管相似性计算可以降低某些类型-A FP的置信度分数,但是对于处理类型-B FP和减少冗余边界框可能是不可操作的。因此,可以实现WBF算法来减少冗余边界框,并进一步减少类型-B FP框的置信度分数。WBF算法可以被设计成对来自同一对象的所有源(先前、当前帧和未来帧)的预测的定位和置信度分数进行平均。
在使用融合之前,可以根据边界框类别被分成d部分。设想d可能是/>中类别的总数。还设想/>可以被定义为第c类的子集。对于每个子集,即/>可以包括以下融合过程:
首先,边界框可以从划分成不同的聚类。对于每个聚类,每两个边界框的交并比(IoU)应该大于用户定义的阈值。设想用户定义的阈值可以近似为0.5。
第二,对于每个聚类r中的框,可以使用下面的等式(17)和(18)来计算平均置信度分数Cr和位置的加权平均值。
其中B可以是聚类r中框的总数。此外,和/>可以是置信度分数和聚类r中第l个框的位置。
第三、第一和第二过程可以用于减少冗余边界框。然而,设想这些过程可能不可操作以解决图6B所示出的类型-B假阳性。为了降低错误检测框的置信度分数,可以使用下面的等式(19)来重新缩放Cr
其中|K|可以是上面讨论的集合K的大小。如果少量的源可以提供对象上的伪标签,则检测最可能是错误检测,如图6B所图示的。
最终,可以仅包含来自每个聚类的平均边界框信息(c,Pr,Cr)。因此,设想最终的/>可以包含来自每个类别的更新的/>图7图示了这种融合方法的伪代码的示例性版本。
图4-5图示了可以用于实现图2和3公开的框架的各种应用。例如,图4图示了一个实施例,其中计算系统440可以用于控制至少部分自主的机器人,例如至少部分自主的车辆400。计算系统440可以如图1中描述的系统100。传感器430可以包括一个或多个视频/相机传感器和/或一个或多个雷达传感器和/或一个或多个超声波传感器和/或一个或多个激光雷达传感器和/或一个或多个位置传感器(如例如GPS)。一些或所有这些传感器是优选的,但不一定集成在车辆400中。
替代地,传感器430可以包括用于确定致动器系统状态的信息系统。传感器430可以收集要由计算系统440使用的传感器数据或其它信息。这样的信息系统的一个示例是天气信息系统,其确定环境中天气的当前或未来状态。例如,使用输入信号x,分类器可以例如检测至少部分自主的机器人附近的对象。输出信号y可以包括表征对象位于至少部分自主的机器人附近的信息。然后可以根据该信息确定控制命令A,例如以避免与所述检测到的对象碰撞。
可以集成在车辆400中的致动器410可以由车辆400的制动器、推进系统、引擎、传动系统或转向装置给出。可以确定致动器控制命令,使得致动器(或多个致动器)410被控制,使得车辆400避免与所述检测到的对象碰撞。检测到的对象也可以根据分类器认为它们最可能是什么来分类,例如行人或树木,并且可以取决于分类来确定致动器控制命令。
图5中所示出的是其中计算机系统540用于控制自动化个人助理550的实施例。传感器530可以是光学传感器,例如用于接收用户549的姿势的视频图像。替代地,传感器530也可以是音频传感器,例如用于接收用户549的语音命令。
控制系统540然后确定用于控制自动化个人助理550的致动器控制命令A。根据传感器530的传感器信号S确定致动器控制命令A。传感器信号S被传输到控制系统540。例如,分类器可以被配置为例如实行手势识别算法来标识用户549做出的手势。控制系统540然后可以确定致动器控制命令A,用于传输到自动化个人助理550。然后,它将所述致动器控制命令A传输到自动化个人助理550。
例如,可以根据分类器识别的经标识用户手势确定致动器控制命令A。然后,它可以包括使自动化个人助理550从数据库检索信息并以适用于用户549接收的形式输出该检索到的信息的信息。
在另外的实施例中,可以设想控制系统540控制根据标识的用户手势控制的家用电器(未示出),而不是自动化个人助理550。家用电器可以是洗衣机、炉子、烤箱、微波炉或洗碗机。
本文中公开的过程、方法或算法可以可交付到处理设备、控制器或计算机/由处理设备、控制器或计算机实现,处理设备、控制器或计算机可以包括任何现有的可编程电子控制单元或专用电子控制单元。类似地,过程、方法或算法可以以许多形式存储为可由控制器或计算机执行的数据和指令,包括但不限于永久存储在诸如ROM设备之类的不可写存储介质上的信息和可更改地存储在诸如软盘、磁带、CD、RAM设备和其它磁性和光学介质之类的可写存储介质上的信息。过程、方法或算法也可以在软件可执行对象中实现。替代地,可以使用合适的硬件组件——诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、状态机、控制器或其它硬件组件或设备,或者硬件、软件和固件组件的组合——来整体或部分地体现这些过程、方法或算法。
虽然上面描述了示例性实施例,但是这些实施例不意图描述权利要求涵盖的所有可能形式。说明书中使用的词语是描述性的词语,而不是限制性的,并且应当理解,在不脱离本公开的精神和范围的情况下,可以进行各种改变。如先前所描述的,各种实施例的特征可以被组合以形成可能没有被明确描述或说明的本发明的进一步实施例。虽然各种实施例可能已经被描述为关于一个或多个期望的特性提供优势或优于其它实施例或现有技术实现,但是本领域的普通技术人员认识到,一个或多个特征或特性可以被折衷以实现期望的总体系统属性,这取决于特定的应用和实现。这些属性可以包括但不限于成本、强度、耐用性、生命周期成本、适销性、外观、包装、大小、适用性、重量、可制造性、组装容易度等。照此,关于一个或多个特性,在任何实施例被描述为不如其它实施例或现有技术实现合期望的程度上,这些实施例不在本公开的范围之外,并且对于特定应用可能是合期望的。

Claims (20)

1.一种用于生成鲁棒伪标签数据集的方法,包括:
接收标记的源数据集;
使用标记的源数据集训练教师神经网络;
生成伪标记数据集作为来自教师神经网络的输出;
将伪标记数据集和未标记数据集提供给相似性感知加权框融合算法;
从使用伪标记数据集和未标记数据集操作的相似性感知加权框融合算法生成鲁棒伪标签数据集;
使用鲁棒伪标签数据集训练学生神经网络;和
用学生神经网络替换教师神经网络。
2.根据权利要求1所述的方法,进一步包括:使用标记的源数据集调谐学生神经网络。
3.根据权利要求1所述的方法,其中所述标记的源数据集包括至少一个图像和至少一个人类注释。
4.根据权利要求3所述的方法,其中所述至少一个人类注释包括限定所述至少一个图像内的对象的置信度分数的边界框。
5.根据权利要求4所述的方法,其中所述教师神经网络被配置为预测标记的源数据集的帧内的像素的运动矢量。
6.根据权利要求4所述的方法,其中使用用于对象检测的损失函数来训练教师神经网络。
7.根据权利要求6所述的方法,其中所述损失函数包括用于预测边界框内置信度分数的分类损失和回归损失。
8.根据权利要求1所述的方法,进一步包括:使用预测函数重新训练教师神经网络。
9.根据权利要求1所述的方法,其中所述相似性感知加权框融合算法被配置为运动预测算法,所述运动预测算法可操作来将鲁棒伪标签数据集的质量提高到第一预定义阈值。
10.根据权利要求9所述的方法,其中所述相似性感知加权框融合算法被配置为抗噪声伪标签融合算法,所述抗噪声伪标签融合算法可操作来将鲁棒伪标签数据集的质量提高到第二预定义阈值。
11.根据权利要求1所述的方法,进一步包括:使用SDC-Net算法预测未标记数据集内多个帧内的像素的运动矢量。
12.根据权利要求11所述的方法,进一步包括:使用所述多个帧来训练SDC-Net算法,其中所述SDC-Net算法在没有人工标签的情况下被训练。
13.根据权利要求12所述的方法,其中所述相似性感知加权框融合算法包括相似性算法,所述相似性算法可操作来降低在伪标记数据集内被错误检测到的对象的置信度分数。
14.根据权利要求13所述的方法,其中所述相似性算法包括伪标记数据集的至少一帧内的边界框的类别分数、位置分数和置信度分数。
15.根据权利要求14所述的方法,其中所述相似性算法采用基于特征的策略,当确定对象在定义的类别内时,所述策略提供预确定的分数。
16.根据权利要求15所述的方法,其中所述相似性感知加权框融合算法可操作来减少被确定为冗余的边界框,并减少假阳性结果的置信度分数。
17.根据权利要求16所述的方法,其中所述相似性感知加权框融合算法可操作来对在伪标记数据集内检测到的对象的之前帧、当前帧和未来帧的定位值和置信度分数进行平均。
18.一种用于生成鲁棒伪标签数据集的方法,包括:
接收包括多个帧的标记数据集;
使用标记数据集训练教师卷积神经网络;
生成伪标记数据集作为来自教师卷积神经网络的输出;
将伪标记数据集和未标记数据集提供给相似性感知加权框融合算法;
从使用伪标记数据集和未标记数据集操作的相似性感知加权框融合算法生成鲁棒伪标签数据集;
使用鲁棒伪标签数据集训练学生卷积神经网络;和
用学生卷积神经网络替换教师卷积神经网络。
19.根据权利要求18所述的方法,进一步包括:使用标记数据集调谐学生卷积神经网络。
20.一种用于生成鲁棒伪标签数据集的系统,包括:
处理器,被配置为:
接收标记的源数据集;
使用标记的源数据集训练教师神经网络;
生成伪标记数据集作为来自教师神经网络的输出;
将伪标记数据集和未标记数据集提供给相似性感知加权框融合算法;
从使用伪标记数据集和未标记数据集操作的相似性感知加权框融合算法生成鲁棒伪标签数据集;
使用鲁棒伪标签数据集训练学生神经网络;和
用学生神经网络替换教师神经网络。
CN202310053153.1A 2022-01-31 2023-01-31 用于半监督对象检测的鲁棒伪标签生成的系统和方法 Pending CN116523823A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/589379 2022-01-31
US17/589,379 US20230244924A1 (en) 2022-01-31 2022-01-31 System and method for robust pseudo-label generation for semi-supervised object detection

Publications (1)

Publication Number Publication Date
CN116523823A true CN116523823A (zh) 2023-08-01

Family

ID=87160819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310053153.1A Pending CN116523823A (zh) 2022-01-31 2023-01-31 用于半监督对象检测的鲁棒伪标签生成的系统和方法

Country Status (3)

Country Link
US (1) US20230244924A1 (zh)
CN (1) CN116523823A (zh)
DE (1) DE102023102316A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117421497B (zh) * 2023-11-02 2024-04-26 北京蜂鸟映像电子商务有限公司 作品对象的处理方法、装置、可读存储介质及电子设备
CN117576489B (zh) * 2024-01-17 2024-04-09 华侨大学 智能机器人鲁棒实时目标感知方法、装置、设备及介质
CN117853876B (zh) * 2024-03-08 2024-06-11 合肥晶合集成电路股份有限公司 一种晶圆缺陷检测模型的训练方法以及系统
CN118503435B (zh) * 2024-07-22 2024-10-11 浙江大学 基于知识融合的多未知领域文本分类方法、设备、介质

Also Published As

Publication number Publication date
US20230244924A1 (en) 2023-08-03
DE102023102316A1 (de) 2023-08-03

Similar Documents

Publication Publication Date Title
US11620527B2 (en) Domain adaption learning system
CN116523823A (zh) 用于半监督对象检测的鲁棒伪标签生成的系统和方法
Akan et al. Stretchbev: Stretching future instance prediction spatially and temporally
US11810311B2 (en) Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching
US11551084B2 (en) System and method of robust active learning method using noisy labels and domain adaptation
CN113962399A (zh) 用于机器学习中学习扰动集的方法和系统
US20210224646A1 (en) Method for generating labeled data, in particular for training a neural network, by improving initial labels
EP3992909A1 (en) Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching
Naveed et al. Deep introspective SLAM: Deep reinforcement learning based approach to avoid tracking failure in visual SLAM
JP2023010697A (ja) 異常検出及びセグメンテーションのための対比予測符号化
CN116258865A (zh) 使用机器学习的图像量化
CN115600145A (zh) 利用局部神经变换的异常区域检测
CN118279638A (zh) 用于利用教师和学生框架训练机器学习模型的系统和方法
JP2024045070A (ja) ロングテール分類用のマルチ教師グループ蒸留のためのシステム及び方法
JP2021197184A (ja) 分類器を訓練及びテストするためのデバイス及び方法
US11544946B2 (en) System and method for enhancing neural sentence classification
JP2024035192A (ja) ノイズ除去された拡散モデルを用いた入力摂動を汎用精製するためのシステム及び方法
CN116894799A (zh) 用于域泛化的数据增强
US20240109557A1 (en) Systems and methods for distribution-aware goal prediction for modular autonomous vehicle control
US20230102866A1 (en) Neural deep equilibrium solver
US12079995B2 (en) System and method for a hybrid unsupervised semantic segmentation
US20230244835A1 (en) 6d object pose estimation with 2d and 3d pointwise features
US20230100765A1 (en) Systems and methods for estimating input certainty for a neural network using generative modeling
US20230100132A1 (en) System and method for estimating perturbation norm for the spectrum of robustness
CN115482428A (zh) 针对对抗性攻击为预训练模型预置鲁棒器的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination