CN113780331A

CN113780331A - 由计算机实施的训练方法、分类方法及系统和计算机可读记录介质

Info

Publication number: CN113780331A
Application number: CN202110556748.XA
Authority: CN
Inventors: W·阿贝鲁斯; G·奥斯莫祖里; W·范甘斯贝克; S·范登亨德; M·普洛斯曼斯; S·格奥尔古里斯; L·梵谷
Original assignee: Universite Catholique de Louvain UCL; Toyota Motor Corp
Current assignee: Universite Catholique de Louvain UCL; Toyota Motor Corp
Priority date: 2020-05-22
Filing date: 2021-05-21
Publication date: 2021-12-10
Also published as: US20210365735A1; EP3913544A1

Abstract

本发明涉及由计算机实施的训练方法、分类方法及系统和计算机可读记录介质。一种用于训练分类器(Φη)的由计算机实施的方法包括：S10)训练前置模型(ΦΘ)以学习前置任务，从而使源样本经由前置模型(ΦΘ)的输出与相应的变换后样本经由前置模型(ΦΘ)的输出之间的距离最小，变换后样本是通过对源样本应用转换(T)而获得的样本；S20)确定嵌入空间中的数据集(SD)的样本(Xi)的邻域(NXi)；S30)使用第二训练准则来训练分类器(Φη)，以预测样本(Xi)属于各聚类(Cj)的相应估计概率Φη^j(Xi)，j＝1……C，该第二训练准则倾向于：‑使样本及其邻域(NXi)的邻值(Xj)属于同一聚类的可能性最大化；和‑迫使所述样本分布在多个聚类上。

Description

由计算机实施的训练方法、分类方法及系统和计算机可读记录介质

技术领域

本公开涉及训练方法，以学习用于对图像或更一般地样本进行分类的参数模型，而无需使用基准真相(地面实况，ground-truth)注释。

背景技术

人工神经网络能够从大规模数据集中提取信息。增加训练数据的数量通常可以提高其性能和鲁棒性。

作为这种发展的结果，训练神经网络所需的训练数据集在过去几年中呈指数增长。因此，越来越需要以无监督的方式完全或至少部分地训练神经网络，以减少对基准真相注释的需求。这需要特别关注用于对样本(输入数据)在一定数量的类别间进行分类的分类神经网络。

已经提出了两种方法来执行无监督学习。

表示学习方法使用自我监督的学习，使用预先设计的任务(称为前置任务)仅从图像生成特征表示。然后，基于另一任务，执行用于微调网络参数的第二步。不幸地，该第二步需要带注释的数据集(即基准真相数据)。作为替代，如果这种带注释的数据集不可用于执行第二步，则可以将像K-means一样的离线聚类技术应用于学习的特征表示。但是，这可能导致聚类退化，并且不保证所获得的聚类在语义上有意义。

第二类方法包括端到端学习路径，该学习路径使特征学习与聚类相结合。但是，这些方法中的许多方法对初始化条件敏感和/或倾向于收敛到退化解。

参考文献

[1]Gidaris,S.,Singh,P.,Komodakis,N.:Unsupervised representationlearning by predicting image rotations.In:ICLR(2018)

[2]Wu,Z.,Xiong,Y.,Yu,S.X.,Lin,D.:Unsupervised feature learning vianon-parametric instance discrimination,in CVPR 2018.

[3]Chang,J.,Wang,L.,Meng,G.,Xiang,S.,Pan,C.:Deep adaptive imageclustering,in ICCV(2017).

[4]Gidaris,S.,Singh,P.,Komodakis,N.:Unsupervised representationlearning by predicting image rotations.In:ICLR(2018).

[5]Ji,X.,Henriques,J.F.,Vedaldi,A.:Invariant information clusteringfor unsupervised image classification and segmentation.In:ICCV(2019).

[6]Misra,I.,van der Maaten,L.:Self-supervised learning of pretext-invariant representations.arXiv preprint arXiv:1912.01991(2019).

[7]Michael Gutmann,Aapo

Noise-contrastive estimation:Anew estimation principle for unnormalized statistical models.Proceedings oftheThirteenth International Conference on Artificial Intelligence andStatistics,PMLR 9:297-304,2010.

[8]DeVries Terrance,and Graham W.Taylor.:"Improved regularization ofconvolutional neural networks with cutout."arXiv preprint arXiv:1708.04552(2017).

[9]Ekin D.Cubuk,Barret Zoph,Jonathon Shlens,Quoc V.Le.:“RandAugment:Practical automated data augmentation with a reduced search space”,arXiv:1909.13719.

发明内容

鉴于现有方法的缺陷，本公开的第一目的是提出一种训练方法，以学习用于以完全或至少很大程度上无监督的模式对样本进行分类的参数模型，其不依赖于初始化条件，并且在分类任务中表现出高性能。

因此，提出了一种用于训练分类器的由计算机实施的训练方法。

在此，变换后样本是通过对源样本进行变换(标记为T)而得到的样本，其中，源样本是源数据集的数据。

该训练方法包括：

S10)使用第一训练准则，基于源数据集(SD)来训练前置模型(ΦΘ)以学习前置任务，该第一训练准则倾向于对于源数据集的各源样本使源样本经由前置模型(ΦΘ)的输出与相应的变换后样本经由前置模型(ΦΘ)的输出之间的距离最小；

S20)对于源数据集(SD)的样本中的至少一个样本(Xi)，确定所述至少一个样本(Xi)的邻域(NXi)；

其中，对于所述至少一个样本，所述至少一个样本(Xi)的邻域(NXi)包括该样本(Xi)的K个最近邻值，K为整数，K≥1，该样本(Xi)的所述K个最近邻值是数据集之中最小距离介于ΦΘ(Xi)和ΦΘ(Xj)之间的K个样本Xj；

S30)使用第二训练准则来训练分类器(Φη)，以预测样本(Xi)属于各聚类(Cj)的相应估计概率Φη^j(Xi)，j＝1……C，所述第二训练准则：

-倾向于使样本和属于该样本的邻域(NXi)的该样本(Xi)的邻值(Xj)都属于同一聚类的可能性最大化；并且

-倾向于迫使样本分布在多个聚类上。

在以上描述中，源样本Xi的变换后样本(也称为扩增)是通过对源样本施加变换T而获得的样本T(Xi)；该变换修改源样本，而不破坏(或不过度破坏)其语义内容。例如，当源样本是图像时，可以通过对源样本进行旋转、抖动、裁剪等来获得数据科学家通常为了增加其数据集的大小而使用的扩增方法。

由于第一训练准则包括基于源样本经由前置模型(ΦΘ)的输出和相应的变换后样本经由前置模型(ΦΘ)的输出的项，因此应当理解，在步骤S10中使用的数据集不仅包括源数据集的源样本，还包括通过对这些源样本之一进行变换而获得的变换后样本。

分类器是由计算机执行的程序实现的参数模型或功能。分类器特别地可以通过人工神经网络来实现。词语“计算机”在这里包括任何形式的数据处理系统，包括位于一个或多个位置的一个或多个处理单元，其配置成一起处理数据以提供输出。例如，它可以是个人计算机、智能手机、位于不同位置的服务器集群、具有一定的数据处理能力的任何设备(例如“智能烤箱”)的处理单元等。

样本是任何信息数据。它例如可以是图像，但也可以是非常广泛的任何类型的信息数据，例如音频或视频记录、文本段落、3D点云等。它还可以组合了多种数据。

样本可以是由相机输出的“初始图像”。它也可以是基于这种初始图像的任何图像，并且可以通过对初始图像进行预处理来获得。样本例如可以是初始图像的子图像。

在本说明书中，初始图像的子图像是通过对初始图像进行裁剪而获得的图像，因此，与初始图像相比，其包括更少的行和/或更少的列。

分类器确定的概率的数量(C)是由分类器输出的概率向量的坐标数。该数量C可以看作聚类Cj的数目C，其中，j的范围是1到C。因此，坐标Φη^j(Xi)(j＝1……C)构成了由分类器产生的预测，该预测包含样本Xi属于各聚类Cj的相应估计概率。因此，分类器的功能是对各聚类中的样本进行分类，即执行聚类功能。

在以上定义中，第二训练准则“倾向于使样本和属于该样本的邻域(NXi)的该样本(Xi)的邻值(Xj)属于同一聚类的可能性最大化”的表述意味着第二训练准则配置成使得当在步骤S30中对分类器Φη进行训练时，分类器的权重η设置成使得样本及其邻域(NXi)的邻值(Xj)属于同一聚类的可能性最大化。

对于一样本，该样本的最高预测是预测向量Φη(Xi)的最高坐标，称为Φη^max(Xi)。其到达索引标记为i_max的某个坐标j。最高预测具有同一索引的样本构成一个聚类。

因此，使样本Xi及其邻域NXi的一个邻值Xj属于同一聚类的可能性最大化意味着使Xi的最高概率Φη^max(Xi)的索引与Xj的最高概率Φη^max(Xj)的索引相同的可能性最大化。

所提出的方法主要包括两个训练步骤。在第一步骤S10中，训练前置模型以通过完全自我监督的方式学习语义上有意义的特征。实际上通过训练前置模型以执行前置任务来学习这些特征。前置任务通常不需要带注释的数据来训练神经网络，并且已经在文献中进行了广泛探讨。前置任务的示例可以在参考文献[2]或[6]中找到，其中，训练前置模型以执行实例判别。

为了保证前置模型不对样本的小细节过分重视，在步骤S10中，第一训练准则倾向于对于源数据集的各源样本使源样本经由前置模型的输出与相应的变换后样本经由前置模型的输出之间的距离最小。

为此，在本公开的范围内可以使用多种变换T。变换优选地选择成不改变样本的语义内容。例如，如果样本是图像，则变换可以是旋转、仿射或透视变换、着色、图像修复等。

一旦已经在步骤S10中训练了前置模型，则可以在步骤S20中计算数据集的所有样本的邻域。

然后，在第二训练步骤S30中，基于这些邻域来训练分类器Φη。

有利地，整个方法都基于学习。特别是在训练步骤S10之后，可以不使用K-means方法来实现。

在样本是图像的一些实施例中，在训练步骤S10期间，训练准则设置成使得图像在区域水平上加权。通过这样做，可以为图像的某些区域分配更多的重要性。

例如，如果已经观察到图像的最相关区域通常位于图像的特定部分中，就可以这样做。例如，在自动驾驶应用中，为了检测道路上留下的异常物体，由车辆的前置相机获取的图像中最令人关注的区域是代表了车辆的附近区域的下半部分图像，而不是通常代表车辆的更远环境的上半部分图像。因此，第一训练准则可以偏向于为下半部分图像赋予比上半部分图像更多的重要性。

在一些实施例中，对于所考虑的样本，第一训练准则包括这样一项，当对于所考虑的样本(Xi)的预测ΦΘ(Xi)与对于相应的变换后样本(T(Xi))的预测ΦΘ(T(Xi))之差增大时，该项增大。

当在步骤S10中训练前置模型(ΦΘ)时，对于训练数据集的至少一个样本(Xi)，第一训练准则倾向于使样本(Xi)与变换后样本(T(Xi))之间的距离最小，该距离标记为：

d(ΦΘ(Xi),ΦΘ(T(Xi)))

其中，T是变换。

因此，训练迫使前置模型相对于变换不变。该性质对于保证在步骤S20中前置模型能够有效地确定/识别在语义上接近的邻域很重要。否则，存在前置模型固定为低级特征或甚至前置任务本身，并且收敛于导致在步骤S20处确定不能正确地使语义上接近的样本成组的邻域的解的风险。

在一些实施例中，第二训练准则包括总和：

其中，

f是递增的连续函数，例如对数；

<,>是点积；

D是在步骤S30中训练分类器所使用的数据集；以及

|D|是所述数据集中的样本数量。

通过考虑这种训练准则，训练算法迫使分类器对于样本Φη(Xi)及其邻域Φη(Xj)输出基本相同的预测，其中，Xj是Xi的邻域的成员。因此，该训练准则倾向于学习分类器，以对同一聚类中的邻域的样本进行分类。

另外，为了防止在步骤S30中执行的训练收敛到退化解，在一些实施例中，第二训练准则包括总和：

其中，

c是由所述分类器输出的所述预测Φη(Xi)的坐标的索引，C是包含全部c个索引的集合；

g是测量所述预测在各聚类上的分布与所述预测的期望分布之间的距离的函数；

例如，函数g可以定义为Kullback-Leibler散度或熵。

D是在步骤S30中训练所述分类器所使用的数据集；以及

|D|是所述数据集中的样本数量。

在以上表达式中，当函数g定义为熵时，可以通过以下公式定义：

g(Φη^′c)＝Φη′^clogΦη′_c

上面对于第二训练准则提出的求和倾向于迫使分类器将其预测分布在所有聚类上(对其输出的所有索引)，而不是分布在单个聚类上。

由于在步骤S30中执行的训练分类器，对分类器Φη获得了一组权重η，这使得分类器能够正确地执行其分类功能。

此外，已经发现，可以通过执行附加的微调操作来进一步提高分类器的性能。

在已经在步骤S30中训练分类器之后，可以识别所谓的“高置信度样本”(标记为X^HCi)。这些高置信度样本是分类器输出的预测(对于一个坐标)具有高于预定阈值的非常高的值(通常接近1)的样本。这些高置信度样本可以用于进一步训练分类器，以提高其分类性能。

为了利用该性质，可以迭代地执行一次或多次附加训练步骤S40。

在这种情况下，在一些实施例中，训练方法还包括执行至少一次以下步骤S40，以对分类器进行微调：

S40)基于第三训练准则(Λ)训练分类器(Φη)，第三训练准则配置成对于最高概率(Φη^max(Xi))高于预定阈值(Thr)的高置信度样本(X^hci)中的每个所考虑的样本(Xi)，使所考虑的样本属于由对于所考虑的样本(Xi)的预测(Φη^max(Xi))的最大坐标(Φη^max(Xi))表示的聚类(Cj)的概率(Φη^j(Xi))最大化。

当已经执行了训练步骤S40时，可以对于各样本Xi重新计算预测(或置信度水平)Φη(Xi)。

有利地，在通过执行一个或多个步骤S40训练了分类器Φη之后，其预测的置信度水平整体增加。也就是说，分类器学着越来越好地对样本进行分类——或者至少具有越来越高的确定性。

在每个训练步骤S40之后，基于权重η的新值，更新高置信度样本集合。因此，在下一次迭代中，以不同的损失函数并且通常对于数量增加的样本(因为符合高置信度样本的样本数量倾向于增加)执行步骤S40。

上述微调步骤S40可以称为自标记步骤，因为在其损失函数中，基于对分类器本身的预测来计算预测所考虑的惩罚。损失函数相当于考虑将每个高置信度样本(由分类器本身确定)标记为属于具有所考虑的样本的最高概率(Φη^max(Xi))的索引j的聚类Cj。

在上述实施例的一些变型中，该训练方法还包括执行至少一次微调步骤S40；当确定高置信度样本的数量不再增加时，停止执行微调步骤(S40)。也就是说，当该数量达到稳定时(这意味着尽管执行了训练步骤S40，分类器Φη也不再提高其将样本分类成聚类的性能)，可以停止该算法。

当重复微调步骤S40时，聚类(由高置信度样本指示)变得越来越重要且更加相关。因此，这些自标记步骤S40允许分类器Φη逐渐自身校正，因为其逐渐变得更加确定，从而将更多的样本添加到聚类中。微调步骤甚至逐渐纠正最初可能出现在数据集中的错误，从而对可能最初被错误地分组到与样本相同的聚类中的样本邻值进行重新分类。

扩增功能：

如上所述，在步骤S10中，将样本或变换后样本的扩增用于训练。为此，将这种扩增添加到步骤S10所使用的训练数据集中。也可以将这种扩增添加到步骤S30和/或步骤S40训练分类器所使用的训练数据集中。

如上所述，基于源样本获得变换后样本。因此，例如，步骤S10所使用的数据集可以(可能仅)由称为“源数据集”的初始数据集的样本以及作为这些源样本的扩增的一部分或全部源样本的变换后样本组成。

可以使用不同的方法来扩增数据集，以提高训练步骤S10、S30和/或S40的效率。例如，当样本是图像时，在这些训练步骤的一个或多个中，训练数据集可以包括通过将以下功能之一应用于源图像而获得的扩增：水平翻转、轻微旋转、光线变化、黑白化(将彩色图像转换为灰度图像)、抖动等。

在一些实施例中，重复多次步骤S30。

例如，可以在步骤S30的不同迭代期间改变数据集，特别是通过向数据集添加扩增来改变。

此外，在一些实施例中，在步骤S30和/或S40期间，可以将称为“强扩增”的附加样本添加到数据集。

称为“强扩增”的样本是通过对样本应用比常规扩增的变换更深度地修改样本内容的变换而获得的变换后样本。例如，当样本是图像时，可以使用以下变换中的一种或多种来获得强扩增：自动对比度、均衡、旋转、日晒、颜色、对比度、亮度、清晰度、剪切、平移、色调分离。关于强扩增的更多信息可以在参考文献[9]中找到。在执行该变换或这些变换之后，为了获得变换后样本，通常应用剪裁功能。参考文献[8]描述了剪裁功能。

例如，在一些实施例中，将高置信度样本X^HCi的强扩增SA(Xi)添加到步骤S40所使用的数据集；并且

第三训练准则配置成使所述强扩增SA(Xi)与高置信度样本X^HCi属于同一聚类的可能性最大化。

换句话说，在步骤S40中，第三训练准则配置成在训练期间，分类器将学习(尽可能多地)将所考虑的高置信度样本X^HCi及其强扩增分类到同一聚类中(即对于所考虑的高置信度样本X^HCi的分类器预测Φη(X^HCi)的最高坐标的等级将与对于所考虑的高置信度样本X^HCi的强扩增的分类器预测Φη(SA(X^HCi))的最高坐标的等级相同。

这样，可以避免过度拟合。

有利地，根据本公开的训练方法使得可以在完全无监督的模式下有效地训练分类器。经过对像CIFAR10、STL10甚至Imagenet那样的数据集的测试，它在无监督学习方面的表现优于许多当前技术方法。

该方法可以辅以一些半监督训练，以考虑有关样本的先验知识。可以通过不同的方式考虑该先验知识：在步骤S20中的邻域定义中，和/或在步骤S30和/或S40中的分类器的训练阶段期间。

因此，在一些实施例中，该方法在步骤S20、S30和S40中的一个或多个中包括考虑多个样本(称为相似样本)构成聚类的先验知识(该先验知识的获得与步骤S10、S20和S30无关)；从而在步骤S20中，当定义邻域时，将所述相似样本认为是邻值，和/或在步骤S30或S40中，必须训练分类器以将相似样本分类到同一聚类中。

在一些实施例中，在步骤S20中，对于已经确定相似样本应当属于同一聚类的至少两个或更多个相似样本的集合，为每个相似样本确定邻域，所述邻域至少包括相似样本中的另一个(些)。在这种情况下，对于每个相似样本，例如可以特别地准备样本的邻域，以包括所有被认为属于同一聚类的其他相似样本。

然后可以将一个或多个相似样本的集合包括在步骤S30中用于训练分类器的数据集中，并且在步骤S30中，可以使用如上所述确定的相似样本的邻域。

此外，在一些实施例中，在步骤S30中，对于数据集的两个或更多个已经确定应当属于同一聚类的相似样本的至少一个集合，第二训练准则配置成倾向于使所考虑的相似样本集合中的所述相似样本属于同一聚类的可能性最大化。

类似地，在一些实施例中，在步骤S40中，对于数据集的两个或更多个已经确定应当属于同一聚类的相似样本的至少一个集合，第三训练准则配置成倾向于使所考虑的相似样本集合中的所述相似样本属于同一聚类的可能性最大化。

因此，当如上所述在步骤S20、S30或S40中考虑聚类的先验知识时，我们已知该聚类的每个相似样本属于同一聚类的先验知识，在所考虑的训练步骤S30和/或S40的情况下，训练准则被特别地修改或准备成包括一项，该项倾向于使任何所考虑的相似样本集合中的相似样本属于同一聚类的可能性最大化。

例如，对于某些不是(或尚未成为)高置信度样本的样本，这可以手动将这些样本分配到适当的聚类。即使在这种情况下，由于通过自动确定高置信度样本的适当注释，所提出的方法大大减少了需要注释的样本数量，因此在经济上具有吸引力。

分类系统和方法

作为本公开的一部分，提出了一种分类方法。

该方法包括步骤D)，该步骤D)使用通过一种上述训练方法训练的分类器来对样本进行分类。

该分类方法可以在许多不同的背景下使用。

在某些应用中，样本是基于一个或多个相机获取的一个或多个图像的数据；将分类器训练成对这种样本进行分类。一个或多个相机例如是车辆的一个或多个相机。基于一个或多个图像的数据当然可以是图像，但也可以是通过将多个图像拼接在一起而获得的合成图像，或者是通过对一个或多个图像进行预处理(例如裁剪图像)而获得的处理后图像等。

在一些实施例中，在样本(Xi)包括一个或多个获取的图像的情况下，分类方法还包括步骤B：

B)基于样本生成至少一个样本子图像；和

在步骤D中，通过对所述至少一个样本子图像进行分类来对样本进行分类。

在这些实施例中，至少生成子图像以执行分类步骤D。在一些实施例中，样本是基于一个或多个相机获取的一个或多个图像的数据，该分类方法包括以下步骤：

A.基于一个或多个相机或非相机传感器的输出来获取数据；和

C.检测所获取的数据是否包括异常数据；另外，仅当在步骤C中已经检测到所获取的数据包括异常数据的情况下，才执行步骤D。

在这里，非相机传感器指不是相机的传感器；例如激光雷达或雷达。

可以使用多种方法在提供所获取的数据时检测异常信息。例如，在激光雷达不断拍摄车辆前方道路的情况下，异常信息可以是显示道路上出现异常物体的信息(例如，明显高于道路法面的3D点)，通常是遗弃在道路上或掉落在道路上的物体。在这种情况下，上述分类方法对于确定道路上出现的物体类型并触发适当的行为非常有用，特别是忽略该物体(如果物体是风吹到道路上的空塑料袋)或采取任何措施以避免撞到该物体(如果物体是掉落在道路上的沉重石块)。

在一些实施例中，在所获取的数据包括一个或多个获取的图像的情况下，分类方法还包括步骤B：

B)基于所获取的数据生成至少一个数据子图像；

在步骤C中，在所述至少一个数据子图像中检测异常数据。

在这些实施例中，生成子图像，以至少执行检测步骤C。

在以上分类方法的一些实施例中，在步骤D中，通过对所述至少一个数据子图像进行分类来对样本进行分类。

在生成子图像的上述实施例中，优选地，生成多个子图像(基于初始图像)，并且在步骤D中对样本进行分类，和/或在步骤C中(视情况而定)基于所述多个子图像来检测异常数据。

在特定的实施例中，上述方法中的任何一种的各步骤由计算机程序指令确定。

因此，本公开还包括一种系统(分类器训练系统或样本分类系统)，该系统包括一个或多个处理器和存储器，该存储器存储指令，当一个或多个处理器执行该指令时，该指令使一个或多个处理器使用上面定义的训练方法之一来训练分类器，或者使用上面定义的分类方法之一来对样本进行分类。

本公开还提供了一种计算机程序，该计算机程序存储在计算机可读存储介质上，并且适于在一个或多个处理器上执行，该程序包括指令，当该程序在一个或多个处理器上运行时，该指令适于执行上面定义的方法之一的步骤。

计算机程序可以使用任何编程语言，并且可以是源代码、目标代码或介于源代码和目标代码之间的中间代码的形式，例如是部分编译的形式或任何其他期望的形式。

本公开还提供了一种计算机可读记录介质，优选地是非易失性介质，包括如上所定义的计算机程序的指令。

记录介质可以是能够存储程序的实体或设备。例如，该介质可以包括诸如只读存储器(ROM)的存储装置，例如光盘(CD)ROM或微电子电路ROM，或者实际上是磁记录装置，例如软盘或硬盘。

可替代地，记录介质可以是其中结合有程序的集成电路，该电路适于执行所讨论的方法之一或在该方法的执行中使用。

附图说明

通过参考附图，可以更好地理解本发明，并且其许多其他目的和优点对于本领域技术人员将变得显而易见，其中，不同图中相似的附图标记表示相似的元件，图中：

图1是示出根据本公开的实施例的示例性训练方法的流程图；

图2示出了根据本公开的实施例的分类系统；

图3是示出根据本公开的实施例的示例性分类方法的流程图；和

图4是示出根据本公开的另一实施例的示例性分类方法的流程图。

具体实施方式

现在将详细参考本公开的示例性实施例，附图中示出了本公开的示例。

训练方法

首先，将提出一种训练分类器Φη以输出对于样本Xi的预测的示例性训练方法，该示例性训练方法构成了本公开的第一实施例。在图1中，示意性地示出了该方法的步骤。

S0)准备

为了实施该方法，需要样本(在本实施例中是图像)的初始数据集，称为源数据集SD。该数据集优选地包括各种样本(图像)，其足够大以充分训练分类器来识别和区分数据集的不同的可单独识别的聚类。

选择前置任务。例如，在图像的情况下，前置任务通常在于尝试学习图像的视觉特征。

选择一个或多个变换T。该变换是不应当使由前置模型做出的预测改变的变换。

所选择的变换不应改变图像的语义。例如，它可以将图像翻转或将其变为灰度模式等。

必须定义前置模型和分类器。

在该实施例中，前置模型ΦΘ和分类器Φη都是神经网络。更具体地，它们每个都包括标准的ResNet-18主干网作为其核心，并且在该核心神经网络的下游添加了一个或多个层。

前置模型ΦΘ的权重标记为Θ，而分类器Φη的权重标记为η。

前置模型ΦΘ具有标准的ResNet-18主干网作为其核心神经网络。在该核心神经网络的下游添加了一个或多个层，以使前置模型的输出适应所选的前置任务。

例如，如果前置任务是实例区分任务，则添加的层可以是输出所需数量特征的线性层。

分类器Φη的核心可以是与前置模型的核心神经网络相同的神经网络(在本示例中是ResNet-18主干网)。

至于前置模型，在该核心神经网络的下游添加了一个或多个层。这些附加的层配置成使分类器输出数量为C的输出，这些输出表示所输入的样本分别属于C个聚类的概率。

为了约束分类器Φη以输出概率，分类器的最下游的层通常是归一化层，其保证输出之和始终恒定。例如，最下游的层可以是softmax层。

必须在分类器的准备期间定义聚类的数量C，即分类器的输出中的坐标数。通常，最初基于对预期在数据集中发现的聚类数量的粗略估计来定义该数量。如不确定，最初优选地用大量聚类(称为“过度聚类”)来定义前置和分类器，然后强制使聚类分布均匀。实际上，如果观察到某些聚类在前置或分类器的预测中从未对应于最高坐标(分别标记为Φ^maxΘ或Φ^maxη)，则随后可以减少聚类的数量。

S10)训练前置模型ΦΘ

一旦准备好上述元素，则执行第一训练步骤S10：训练前置模型ΦΘ以执行前置任务。

使用适合于学习前置任务的第一训练准则来执行训练。例如，可以基于参考文献[2]、[6]或[7]定义训练准则。

另外，定义第一训练准则，使得在对样本应用变换时，同时进一步保证前置模型做出的预测基本上保持不变。

考虑到该目的，在该实施例中，在训练步骤S10期间，修改前置模型ΦΘ的权重Θ，从而对于源数据集的所有样本，尝试使对于样本的预测与对于相应的变换后样本的预测之间的距离最小。该距离标记为：

d(ΦΘ(Xi),ΦΘ(T(Xi)))

除了用于训练前置模型以学习前置任务的其他项之外，第一训练准则还包括上面的值。由于该值，第一训练准则倾向于在源数据集SD的样本之间使源样本Xi经由前置模型ΦΘ的输出与相应的变换后样本T(Xi)经由前置模型ΦΘ的输出之间的距离最小。

S20)确定邻域(NXi)

然后，在步骤S20中，使用训练后的前置模型ΦΘ来确定数据集的每个样本Xi的K个最近邻值。

这里的K是至少等于1的整数。将集合NXi中的邻值的数量K设置为至少1(优选地更多，例如至少5或至少10)对于更好地捕获每个聚类之间的差异很重要。

至少可以执行步骤S22以及可选的步骤S24，以确定样本的邻域NXi。

在步骤S22中，基于前置模型ΦΘ的预测来确定邻域NXi。

为此，在步骤S22中，在嵌入空间ΦΘ中识别出数据集的每个样本Xi的K个最近邻值。

换句话说，对于数据集D的每个样本Xi，确定邻域NXi，或者样本Xi的邻值集合NXi，该邻域NXi包括数据集D中Dist_ΦΘ(Xi,Xj)最小的K个样本Xj。

在此，Dist_ΦΘ(Xi,Xj)是嵌入空间ΦΘ中的距离函数；即：

Dist_ΦΘ(Xi,Xj)＝Dist(ΦΘ(Xi),ΦΘ(Xj))

其中，Dist是通常的距离函数。

在上式中，函数Dist可以是任何距离函数；例如L2范数：

Dist(ΦΘ(Xi),ΦΘ(Xj))＝||ΦΘ(Xi)-ΦΘ(Xj)||。

可以通过不同的方式确定邻域NXi。

例如，可以将样本Xi的邻值识别为这样的样本Xj，其使得ΦΘ(Xi)和ΦΘ(Xj)之间的“余弦相似度”最大。通常，两个向量V、W之间的余弦相似度是这些向量之间的点积，标准化为：

余弦相似度(V,W)＝V.W/(||V||.||W||)。

除了步骤S22之外，如果存在关于样本的聚类方式的先验知识，则可以执行可选的步骤S24。

可以以两种不同的方式执行步骤S24。

当预先知道新样本Yi构成一个或多个聚类时，可以通过将该样本Yi增加到待在步骤S30中使用的数据集来以第一方式执行步骤S24。换句话说，在这些聚类的每一个中，预先知道聚类的所有增加样本Yi彼此相似。

在那种情况下，可以将这些增加的相似样本Yi中的每一个的邻域NYi定义为包括同一聚类的其他样本Yj(其他相似的样本Yj)。

此后，由此可以基于包括样本Xi和Yi的扩大数据集来执行步骤S30。

可以简单地通过考虑待在步骤S30中使用的数据集的样本集合构成聚类的先验信息来以第二种方式执行步骤S24。也就是说，预先知道用于步骤S30的数据集的不同样本是相似的样本，因此必须被分类为属于同一聚类。可以将多个这样的样本集合识别为构成聚类。

在这种情况下，将这些预先已知其聚类的样本Xi的邻域NXi定义为包括同一聚类的其他样本Xj。也就是说，由此基于对聚类的先验知识来明确这些样本之一的邻域NXi的定义，相反地，不考虑基于前置模型确定的邻域NXi。然后，考虑如步骤S24所定义的那样优化的邻域NXi，基于源数据集执行步骤S30。

S30)训练分类器

在步骤S20中识别出的邻域集NXi构成了分类器Φη将必须识别出的聚类的前体。

一旦已经为数据集的所有样本Xi确定了这些邻域NXi，就训练了分类器Φη。

为了加快训练速度，可以使用前置模型ΦΘ的核心神经网络的权重作为分类器Φη的核心神经网络的初始值。

训练分类器Φη，以将数据集的样本分类为聚类的集合C。分类器Φη通过在聚类C＝{1……C}中对输入的样本Xi执行软分配来实现这种分类，其中，Φη(Xi)∈[0,1]^C。因此，训练的目的是学习通过权重为η的神经网络Φη参数化的聚类函数，以将样本Xi及其邻值集合NXi分类在一起。

使用第二训练准则进行该训练。该准则是损失函数Λ，对于每个样本Xi，该损失函数Λ都考虑了样本(Xi)经由分类器(Φη)的输出(Φη(Xi))与样本的邻值集合(NXi)中该样本(Xi)的各邻值的输出之间的相应距离，并且倾向于使这些距离最小化。

在提出的实施例中，在训练期间，通过使以下第二训练准则(或损失函数)Λ最小化来获得Φη的权重：

在上式中，<,>表示点积运算符。

该公式的第一项(两重求和)强化Φη来对样本Xi及其邻值集合(NXi)中的邻值进行一致的预测。请注意，当两个预测等于1或非常接近1(非常确定)并且分配到同一聚类(一致)时，点积将最大。

此外，为了防止损失函数引导Φη将所有样本分配到一个聚类，该公式还包括一个熵项(上式中的第二项)，该熵项将预测均匀地分布在聚类C中，由此倾向于迫使样本Xi分布在整个聚类集合C中。

在本示例中，将熵项的权重设置为λ＝2。较高的权重避免了样本在训练期间过早分组。

如果事先已知聚类C上的概率分布(在此处不是这种情况)，则可以用KL散度代替第二项。

在步骤S30期间，可以通过将数据集的初始样本包括在该数据集中来扩增所训练的数据集。在这种情况下，聚类损失函数Λ适于保证样本及其扩增之间的一致性。通过将样本的扩增包括在其邻值集合NXi中来保证该一致性。

在此，对“一致性”的引用是指应当将样本及其扩增分类在同一聚类中，这意味着Dist_ΦΘ(Xi,Xj)应该很小。

S40)微调分类器Φη

上述聚类步骤S30为分类器Φη的权重η提供了初始值。在步骤S30中，用于初始训练Φη的第二训练目标Λ已经强化了样本Xi与邻值集合NXi之间的一致性。在步骤S40中如下所述使用该一致性来定义数据集的分类或聚类(如下所述，步骤S40可以重复执行)：

每个微调步骤(S40)包括以下子步骤：

S42)识别高置信度样本(X^hci)

使用以下符号：对于样本Xi，

样本Xi属于聚类Cj的概率或置信度水平表示为Φη^j(Xi)，其中，j为1到C的整数；和

样本Xi在其不同坐标j(j＝1……C)上的最高概率或最大置信度水平表示为Φη^max(Xi)。换句话说：

Φη^max(Xi)＝Max_j(Φη^j(Xi))。

实验观察到，具有高度确定预测(Φη^max(Xi)≈1)的样本Xi或“高置信度样本X^hci”倾向于被正确地分类为聚类。

基于该观察，基于高置信度样本X^hci来确定用于微调分类器Φη的聚类Cj：

首先，选择置信度阈值Thr。

然后，识别出最高概率(Φη^max(Xi))高于该置信度阈值Thr的高置信度样本X^hci。

计算高置信度样本X^HCi的数量N^HC。

在此基础上，定义聚类Cj(j＝1……C)：每个聚类Cj(仅)包括识别出的Φη^max(Xi)＝Φη^j(Xi)>Thr的高置信度样本X^hci。(某些聚类可以为空)。

基于已经很好分类的示例，该方法可以称为自标记法。在每个分类Cj中，可以将具有特别高的置信度水平Φη^j(Xi)的样本Xi视为该分类的原型。

S44)将高置信度样本(X^hci)与相应的聚类相关联

然后，将每个高置信度样本X^hci与由样本经由分类器输出的预测Φη(Xi)的最大坐标(Φη^max(Xi))所指示的聚类相关联(或标记)。

优选地，为每个聚类赋予语义标签。例如，可以基于每个聚类的至少一个高置信度样本来选择该语义标签。然后，该聚类的所有其他样本自动与该语义标签相关联。

当然，也可以为不包含高置信度样本的聚类赋予语义标签。

可以与步骤S42和S44并行地执行另一可选步骤S43，以将样本分组成聚类。

实际上，对于步骤S24，在某些情况下，事先已知某些样本彼此相似，因此应当属于同一聚类。在这种情况下，对于这些样本，可以执行步骤S43。

步骤S43包括将被认为是相似样本的一组样本中的所有样本相关联，以构成聚类。

S46)训练分类器Φη

然后训练分类器Φη，以识别聚类Cj。使用第三训练准则进行该训练。

该第三训练准则配置成对于每个高置信度样本X^hci，使该高置信度样本X^hci属于由该高置信度样本X^hci经由分类器输出的预测(Φη(Xi))的最大坐标(Φη^max(Xi))所指示的聚类(Cj)的概率(Φη^j(Xi))最大化。也就是说，第三训练准则配置成对于每个高置信度样本X^hci，使概率Φη^j(Xi)最大化，其中，j是最大坐标Φη^max(Xi)的秩。

对于所考虑的高置信度样本X^hci，这可以通过在第三训练准则中包括一项(该项可能是一个或多个子项的和)来实现，该项是概率(Φη^j(Xi))的递增函数，其中，Φη^j(Xi)是预测Φη(Xi)的最大坐标Φη^max(Xi)。

例如，当高置信度样本属于与之相关联的聚类的概率小于1时，第三训练准则可以对分类器的预测进行惩罚。

在本实施例中，对于每个高置信度样本X^hci，损失函数包括这样一项，当所考虑的样本属于其关联聚类Cj的概率Φη^j(Xi)接近1时，该项减小。

损失函数可以是交叉熵损失。

具体地，在本实施例中，使用加权的交叉熵损失来补偿聚类之间的确定样本之间的不平衡。为此，分配给聚类的权重与聚类中的高置信度样本的数量成反比。

在执行了步骤S43的情况下，已经在步骤S43中识别出的所有相似样本集合都包括在步骤S46的训练数据集中。

此外，第三训练准则由此配置成在训练期间，对于已经包括在数据集中的所有相似样本集合，使所考虑的相似样本集合中的相似样本属于同一聚类的可能性最大化。

S48)检查微调步骤是否应继续

在步骤S46中对分类器Φη进行重新训练之后，可以对每个样本重新计算预测Φη(Xi)。基于更新后的预测来确定高置信度样本X^HCi。

同样更新高置信度样本X^HCi的数量N^HC。

确定更新后的数量N^HC是否高于其先前的值。

如果答案为是(数量N^HC仍在增加)，则结论是微调将继续提高分类器Φη的预测质量。在这种情况下，执行至少一次附加的微调步骤S40。

相反，如果答案为否(数量N^HC已经达到平稳状态)，则结论是微调将不再提高分类器Φη的预测质量。因此，停止微调步骤S40。

分类系统和方法

参考图2至图4，现在将呈现根据本公开的分类方法和系统。

在图2中示意性地示出了系统1000的材料架构。系统1000既是分类器训练系统又是样本分类系统。

系统1000主要由安装在车辆1上的中央计算机100和一组传感器110组成。

系统1000的大多数硬件部件是用于执行多个任务的共享部件。因此，构成系统1000的硬件部件执行分类系统1000的功能，但是也可以执行其他功能。

尽管该实施例中的系统1000(特别是中央计算机100)在物理上位于车辆1中，但是它不必在车辆中。实际上，只要提供通信设备来将必要的输入传输到中央计算机100，它就可以位于任何地方。

此外，尽管在图1中用单个方框表示中央计算机100，但是它可以包括一个或多个处理器，因此可以是分布在多个处理器上，并且可能在物理上布置于不同位置上的分布式计算系统。

该组传感器110包括四个外部相机111以及激光雷达单元112。在相机111中，前置相机111布置成获取车辆1前方场景的图像。

在中央计算机100上实施系统100的功能。

中央计算机100包括存储设备101、一个或多个处理器102、存储器103、操作系统104、通信基础设施105和其他应用程序106。

一个或多个处理器102旨在表示存在任何形式的任何一个或多个处理器或处理设备。

通信基础设施105是数据总线，上述传感器110连接到该数据总线，并且这些传感器单元输出的信号通过该数据总线传输到中央计算机100。

存储设备101、处理器102、存储器103和操作系统104通过通信基础设施105通信耦合。

分类计算机程序Cl存储在存储器103中，该分类计算机程序Cl包括指令，当该分类计算机程序Cl在一个或多个处理器102上运行时，该指令适于执行本公开的分类方法的步骤。另外，训练计算机程序Tr也存储在存储器103中，该训练计算机程序Tr包括指令，当该训练计算机程序Tr在一个或多个处理器102上运行时，该指令适于执行本公开的训练方法的步骤。程序Cl和Tr以及存储器103分别是根据本公开的计算机程序和计算机可读记录介质的示例。计算机系统100的存储器103事实上构成了根据本发明的记录介质，该记录介质可以被一个或多个处理器102读取，并且在该记录介质上记录所述程序。

系统1000在执行程序Tr时的第一功能是训练分类器Φη。

基于程序Cl的系统1000的另一功能是在旅途中对在车辆1前方道路上检测到的物体进行分类。

为此，计算机100配置成执行程序Cl，以执行以下步骤(图3)：

A.计算机100以较高的频率周期性地获取由激光雷达单元112输出的点云和由相机111输出的图像。

C.计算机100检测所获取的数据是否包括异常数据。这种异常数据可以是位于道路表面上方的点，表明在道路上出现物体。

计算机100配置成在检测到存在这种异常数据时触发分类：

D.通过分类器Φη处理由前置相机111获取的最后图像。因此，分类器Φη预测在车辆1前方检测到的物体所对应的聚类，即物体类型。将该信息传输到车辆的驾驶员和/或车辆的驱动系统。

在一个实施例中(图4)，计算机100配置成执行附加步骤B，对于由前置相机111获取的每个图像，该附加步骤B基于所获取的图像生成一组数据子图像。例如，在每个时间步长中，通过将由相机111获取的图像划分为16个区域(这些区域优选地具有一些重叠)，可以创建16个子图像的矩阵。

然后，基于这些数据子图像执行步骤C：在某些或每个数据子图像中，检测是否存在异常数据。

如果未检测到异常数据，则算法停止。

否则，通过分类器Φη对已经检测到异常数据的数据子图像进行分类。为此，分类器必须已经在前置相机111获取的图像(数据)的子图像(数据子图像)上进行了训练。

基于分类器Φη对所有分析的数据子图像预测的结果，确定在汽车前方的场景中识别出的不同物体的列表。

基于该信息，车辆的驾驶员或驾驶系统可以响应于在道路上出现的物体而采取适当的行为。

也可以在步骤B之前执行步骤C。

在这种情况下，根据传感器(例如前置相机111)获取的图像来执行用于检测是否存在异常数据的步骤C。然后，如果已经在该图像中识别出异常数据，则生成所获取的图像的子图像(步骤B)。然后执行分类步骤D。如果在步骤C中已经确定了图像中异常数据所在的部分，则可以仅基于与图像的该部分相对应的子图像来执行步骤D；否则，可以对所有子图像执行步骤D。

尽管本文已经参考特定实施例描述了本公开，但是应当理解，这些实施例仅是本公开的原理和应用的说明。

旨在仅将说明书和示例认为是示例性的，本公开的真实范围由随附权利要求表明。

Claims

1.一种用于训练分类器(Φη)的由计算机实施的训练方法，其中：

变换后样本是通过对源样本进行变换(T)而获得的样本，所述源样本是源数据集(SD)的数据；

所述训练方法包括：

S10)使用第一训练准则，基于源数据集(SD)来训练前置模型(ΦΘ)以学习前置任务，所述第一训练准则倾向于对于所述源数据集的各源样本使源样本经由所述前置模型(ΦΘ)的输出与相应的变换后样本经由所述前置模型(ΦΘ)的输出之间的距离最小；

S20)对于所述源数据集(SD)的样本中的至少一个样本(Xi)，确定所述至少一个样本(Xi)的邻域(NXi)；

其中，对于所述至少一个样本(Xi)，所述至少一个样本(Xi)的所述邻域(NXi)包括该样本(Xi)的K个最近邻值，K为整数，K≥1，该样本(Xi)的所述K个最近邻值是所述数据集之中最小距离介于ΦΘ(Xi)和ΦΘ(Xj)之间的K个样本Xj；

S30)使用第二训练准则来训练所述分类器Φη，以预测样本(Xi)属于各聚类(Cj)的相应估计概率Φη^j(Xi)，j＝1……C，所述第二训练准则：

-倾向于使样本和属于该样本的所述邻域(NXi)的该样本(Xi)的邻值(Xj)都属于同一聚类的可能性最大化；并且

-倾向于迫使所述样本分布在多个聚类上。

2.根据权利要求1所述的训练方法，其中，对于所考虑的样本，所述第一训练准则包括这样一项，当对于所考虑的样本(Xi)的预测ΦΘ(Xi)与对于相应的变换后样本(T(Xi))的预测ΦΘ(Tj(Xi))之差增大时，所述项增大。

3.根据权利要求1或2所述的训练方法，其中，在步骤S20中，对于已经确定应该属于同一聚类的两个或更多个相似样本的至少一个集合，为所述相似样本中的每一个确定邻域，所述邻域至少包括所述相似样本中的另一个或另一些。

4.根据权利要求1至3中任一项所述的训练方法，其中，所述第二训练准则包括总和：

其中，

f是递增的连续函数，例如对数；

<,>是点积；

D是在步骤S30中训练所述分类器所使用的数据集；以及

|D|是所述数据集中的样本数量。

5.根据权利要求1至4中任一项所述的训练方法，其中，所述第二训练准则包括总和：

其中

其中，

D是在步骤S30中训练所述分类器所使用的数据集；以及

|D|是所述数据集中的样本数量。

6.根据权利要求5所述的训练方法，其特征在于，函数g定义为：

g(Φη′^c)＝Φη′^clogΦη′^c。

7.根据权利要求1至6中任一项所述的训练方法，其中，在步骤S30中，对于所述数据集的已经确定应该属于同一聚类的两个或更多个相似样本的至少一个集合，所述第二训练准则配置成倾向于使所考虑的相似样本集合中的所述相似样本属于同一聚类的可能性最大化。

8.根据权利要求1至7中任一项所述的训练方法，还包括执行至少一次微调步骤S40：

S40)基于第三训练准则(Λ)来训练所述分类器(Φη)，对于最高概率(Φη^max(Xi))高于预定阈值(Thr)的高置信度样本(X^hci)中的每个所考虑的样本(Xi)，所述第三训练准则配置成使所考虑的样本属于由对于所考虑的样本(Xi)的预测(Φη^max(Xi))的最大坐标(Φη^max(Xi))表示的聚类(Cj)的概率(Φη^j(Xi))最大化。

9.根据权利要求8所述的训练方法，其中，当确定高置信度样本的数量不再增加时，停止执行微调步骤(S40)。

10.根据权利要求8或9所述的训练方法，其中，在步骤S40中，对于所述数据集的已经确定应该属于同一聚类的两个或更多个相似样本的至少一个集合，所述第三训练准则配置成倾向于使所考虑的相似样本集合中的所述相似样本属于同一聚类的可能性最大化。

11.根据权利要求8至10中任一项所述的训练方法，其中，

将高置信度样本(X^HCi)的强扩增(SA(Xi))添加到步骤S40所使用的所述数据集；并且

所述第三训练准则配置成使所述强扩增(SA(Xi))与所述高置信度样本(X^HCi)属于同一聚类的可能性最大化。

12.根据权利要求1至11中任一项所述的训练方法，其中，

在步骤S20、S30和S40中的一个或多个中，所述训练方法包括考虑到称为相似样本的多个样本构成聚类的先验知识；由此，

在步骤S20中，在定义所述邻域时，所述相似样本被视为邻值，和/或

在步骤S30或S40中，必须将所述分类器训练成将所述相似样本分类到同一聚类中。

13.一种分类方法，包括步骤D：

D)使用通过根据权利要求1至12中任一项所述的训练方法训练的分类器对样本进行分类。

14.根据权利要求13所述的分类方法，在所述样本(Xi)包括一个或多个所获取的图像的情况下，

还包括步骤B：

B)基于所述样本生成至少一个样本子图像；并且

在步骤D中，通过对所述至少一个样本子图像进行分类来对所述样本进行分类。

15.根据权利要求13或14所述的分类方法，包括以下步骤：

A)基于一个或多个相机和/或非相机传感器的输出来获取数据；和

C)检测所获取的数据是否包括异常数据；并且

仅当在步骤C中检测到所获取的数据包括异常数据时，才执行步骤D。

16.根据权利要求15所述的分类方法，在所获取的数据包括一个或多个所获取的图像的情况下，

还包括步骤B：

B)基于所获取的数据生成至少一个数据子图像；并且

在步骤C中，在所述至少一个数据子图像中检测所述异常数据。

17.根据权利要求16所述的分类方法，其中在步骤D中，通过对所述至少一个数据子图像进行分类来对所述样本进行分类。

18.一种系统，其包括一个或多个处理器和存储器，所述存储器存储指令，当所述一个或多个处理器执行所述指令时，所述指令使所述一个或多个处理器使用根据权利要求1至12中任一项所述的训练方法来训练分类器，或者使用根据权利要求13至17中任一项所述的分类方法来对样本进行分类。

19.一种计算机可读记录介质，其包括适于在一个或多个处理器上执行的计算机程序的指令，当所述计算机程序在所述一个或多个处理器上运行时，所述指令适于执行根据权利要求1至17中任一项所述的方法的步骤。