CN115690480A

CN115690480A - 对于标注训练数据具有较少要求的图像分类器

Info

Publication number: CN115690480A
Application number: CN202210891150.0A
Authority: CN
Inventors: P·萨兰里缇柴; A·M·穆诺兹德尔加多; C·K·穆马蒂; C·布莱约塔; V·费舍尔
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-07-28
Filing date: 2022-07-27
Publication date: 2023-02-03
Also published as: DE102021208156A1; JP2023021028A; US20230032413A1

Abstract

提供了对于标注训练数据具有较少要求的图像分类器。一种用于相对于对象值o和属性值a的组合y=(a，o)对输入图像x进行分类的图像分类器（1），包括：·编码器网络（2），其被配置为将输入图像x映射到表示Z，其中该表示Z包括多个独立分量z₁，…，z_K；·对象分类头网络（3），其被配置为将输入图像x的表示分量z₁，…，z_K映射到一个或多个对象值o；·属性分类头网络（4），其被配置为将输入图像x的表示分量z₁，…，z_K映射到一个或多个属性值a；和·关联单元（5），其被配置为向每个分类头网络（3，4）提供输入图像x的与相应分类头网络（3，4）的分类任务相关的那些表示分量z₁，…，z_K的线性组合z_o、z_a。一种用于训练图像分类器（1）的方法（100）。

Description

对于标注训练数据具有较少要求的图像分类器

技术领域

本发明涉及图像分类器，其尤其可以用于出于至少部分自动化驾驶目的分析交通情形图像。

背景技术

对车辆环境的观察是人类驾驶员在使车辆转向通过交通时使用的主要信息源。因此，用于至少部分自动化驾驶的系统也依赖于对车辆环境图像的分析。这种分析是使用图像分类器来执行的，所述图像分类器检测所获取的图像中的对象-属性对。例如，对象可以具有某种类型（诸如交通标志、车辆、车道），并且也可以被给予一个属性，该属性指代对象的某种特性或状态（如颜色）。这样的图像分类器用训练图像来训练，所述训练图像用关于它们的对象内容的基准真值（ground truth）来标注。

为了图像分类器的可靠操作，有必要利用在多种多样情形下获取的广泛图像集进行训练，使得图像分类器可以最佳地推广到未见情形。

发明内容

本发明提供了一种用于相对于对象值o和属性值a的组合y=(a，o)对输入图像x进行分类的图像分类器。

该图像分类器包括编码器网络，该编码器网络被配置为将输入图像x映射至表示Z，其中该表示Z包括多个独立分量z₁，…，z_K。例如，该编码器网络可以包括一个或多个卷积层，该一个或多个卷积层将滤波器核应用于输入图像并产生一个或多个特征图。

该图像分类器进一步包括对象分类头网络以及属性分类头网络，该对象分类头网络被配置为将输入图像x的表示分量z₁，…，z_K映射到一个或多个对象值o，该属性分类头网络被配置为将输入图像x的表示分量z₁，…，z_K映射到一个或多个属性值a。但这些分类头网络没有取得具有所有表示分量z₁，…，z_K的完整表示Z作为输入。而是，图像分类器包括关联单元，该关联单元被配置为向每个分类头网络提供输入图像x的与相应分类头网络的分类任务相关的那些表示分量z₁，…，z_K的线性组合z_o、z_a。

通过限制每个分类头网络对输入图像x的特定表示分量z₁，…，z_K的访问，降低了图像分类器在训练期间学习不想要的关联的趋势。

例如，如果训练图像包含具有其独特红色的消防车，则图像分类器可以将对象类型“消防车”不仅与消防车的形状相关联，而且还与颜色“红色”相关联。特别地，因为对于图像分类器来说，确定图像包含更多的红色比它在不同形状的车辆之间进行区分容易得多，所以图像分类器可能相比于形状更多地依赖于颜色。这样的“捷径学习”可能无法推广到不在训练图像分布中的图像。例如，一些机场消防车是黄色的。因为黄色又是许多校车具有的颜色，并且两者都是具有相当大轮廓的车辆，所以已经屈服于“捷径学习”的图像分类器可能将黄色消防车误分类为校车。

防止这种行为是关联单元的工作。如果预先知道车辆的形状对于确定车辆的类型而言比颜色更重要和更具区分性得多，则关联单元可以将输入图像x的与对象的形状相关的表示分量z₁，…，z_K传递给对象分类头网络，同时保持对象的颜色对该对象分类头网络隐藏。在训练期间，对象头分类网络于是仅可以利用它取得的信息工作，并且除了学习如何通过形状在不同类型的车辆之间进行区分之外没有其他选择。

这进而允许利用较少的图像特性组合来训练图像分类器，这进而引起需要较少量的训练图像。为了教导图像分类器不是所有的消防车都是红色的，不需要包含不同颜色消防车的训练图像。仅仅通过供应与该“捷径学习”相矛盾的更多训练图像来克服“捷径学习”可能是困难的。在消防车的示例中，它们中的绝大多数是红色的，并且需要额外的努力来故意获得示出其他颜色消防车的图像。现在可以节省这种努力。

如果将表示Z因子分解成与输入图像x的不同方面相关的分量z₁，…，z_K，使得关联单元可以用细粒度方式选择将哪些信息转发至分类头网络用于哪个特定任务，则效果最为明显。因此，在特别有利的实施例中，编码器网络被训练以产生表示Z，其分量z₁，…，z_K各自包含与输入图像x的一个预定基本因子相关的信息。这样的基本因子的示例包括：

·图像x中至少一个对象的形状；

·图像x和/或图像x的区域中的至少一个对象的颜色；

·以之获取图像x的照明条件；和

·图像x中至少一个对象的纹理图案。

例如，对象值o可以从给定的可用类型集中指定对象类型。例如，当评估交通情形的图像时，这些类型可以包括交通标志、其他车辆、障碍物、车道标记、交通灯或任何其他与交通相关的对象。如上面讨论的，可以被分类并与对象值o相关联的属性a的示例包括对象的颜色和纹理。借助于关联单元，颜色或纹理信息可以用于颜色或纹理的分类，同时防止该颜色或纹理信息“泄露”到对象类型的分类。

所提及的将表示Z因子分解成多个分量z₁，…，z_K在利用标注训练图像的常规训练期间已经是有利的，因为不需要额外的图像来克服“捷径学习”。但是，这种因子分解也允许一种新的训练形式，其甚至进一步减少对于标注训练图像的需要。

因此，本发明还提供一种用于训练或预训练上述图像分类器的方法。

在该方法的过程中，对于表示Z的每个分量z₁，…，z_K，提供了因子分类头网络。该因子分类头网络被配置为将相应分量z₁，…，z_K映射到图像x的预定基本因子。

此外，提供了因子训练图像。这些因子训练图像利用相对于由分量z₁，…，z_K表示的基本因子的基准真值来标注。例如，如果基本因子是颜色，则因子训练图像的对应基准真值是该图像中示出的对象的颜色。如下面将讨论的，因子训练图像不需要被包含在原始的标注训练图像中，或者甚至不需要与原始的标注训练图像相似。

借助于编码器网络和因子分类头网络，将因子训练图像映射到基本因子的值。也就是说，编码器生成具有分量z₁，…，z_K的表示Z，并且每个这样的分量z₁，…，z_K然后被传递到其相应的因子分类头网络，以被映射到相应的基本因子的值。

基本因子的如此确定的值与基准真值的偏差借助于第一预定损失函数来评级。表征编码器网络的行为的参数和表征因子分类头网络的行为的参数朝着如下目标被优化：当处理另外的因子训练图像时，第一损失函数的评级可能改进。

以这种方式，可以对编码器网络进行专门训练，以产生被良好地因子分解成分量z₁，…，z_K的表示Z，使得每个这样的分量z₁，…，z_K仅取决于一个基本因子。编码器网络因此学习基本技能，稍后它可以使用该基本技能来产生实际待处理输入图像的有意义的表示，以供对象分类头网络使用。例如，在训练编码器网络之后，可以用常规的方式训练分类头网络，同时保持编码器网络的参数固定。

该训练在某种程度上类似于学习如何演奏诸如钢琴的乐器。首先，基本技能集是使用专门制作的练习来学习的，该练习不需要类似于任何音乐作品。在已经学习了基本技能之后，训练可以转移到真正的音乐作品上。这比直接在真正的音乐作品上利用乐器进行第一次尝试并试图同时学习所有需要的技能容易得多。

因子训练图像可以从任何合适的源获得。特别是，它们不需要承受与图像分类器被训练处理的实际输入图像的任何相似性。在特别有利的实施例中，提供因子训练图像因此包括：

·对至少一个给定的起始图像应用影响至少一个基本因子的图像处理，从而产生因子训练图像；和

·基于所应用的图像处理，确定相对于基本因子的基准真值。

因此，这些因子训练图像可与学习如何演奏乐器时播放的练习片段相比较。它们在如下意义上是“便宜的”：它们可以在没有任何人类标注的情况下自动生成，而分类头网络的训练需要标注训练图像。

在另外特别有利的实施例中，在每个因子训练图像中，每个基本因子取特定值。该因子训练图像集包括基本因子值的每个组合的至少一个因子训练图像。以这种方式，在编码器网络的训练期间，因子之间的任何不想要的相关性可以被打破。例如，在该因子训练图像集中，任何颜色可以与任何纹理和任何对象形状相组合出现。

在另外有利的实施例中，对象分类头网络和属性分类头网络也被训练。

为此，提供分类训练图像。这些分类训练图像用对象值o^*和属性值a^*的基准真值组合（a^*，o^*）来标注。借助于编码器网络、对象分类网络和属性分类头网络，分类训练图像被映射到对象值o和属性值a的组合(a，o)。

也就是说，编码器网络产生分类训练图像的表示Z。为了确定对象值o，关联单元选择表示分量z₁，…，z_K的第一子集以传递给对象分类头网络。为了确定属性值a，关联单元选择表示分量z₁，…，z_K的不同子集以传递给属性分类网络。

借助于第二预定损失函数对如此确定的组合(a，o)与相应基准真值组合（a^*，o^*）的偏差进行评级。至少表征对象分类头网络的行为的参数和表征属性分类头网络的行为的参数朝着如下目标被优化：当处理另外的分类训练图像时，第二损失函数的评级可能改进。

如上面讨论的，由于该训练可以建立在编码器网络已经获取的对基本因子f₁，…，f_K进行分类的技能上，因此它可以利用更少量的标注分类训练图像实现良好的结果。

在特别有利的实施例中，一方面一个编码器网络的组合以及另一方面对象分类头网络和属性分类头网络的多个不同组合基于编码器网络利用因子训练图像的同一个训练进行训练。也就是说，基于因子训练图像的训练可以在完全不同的图像域中被重新用于不同的应用。这节省了用于训练的时间，并且也促进图像分类器的监管批准。例如，一旦在因子训练图像上对编码器网络进行了训练，就可以针对该编码器网络获得监管批准印章。此后，如果要处理新的用例，则仅需要对新训练的对象分类头网络和新训练的属性分类头网络进行新的批准。

如果首先执行编码器和因子分类网络的训练，并且稍后执行对象分类头和属性分类头网络的训练，则在针对因子训练图像的训练期间获得的编码器网络的学习状态被转移到最终训练的图像分类器将被使用的应用领域中的分类训练图像的训练。出于该原因，因子训练图像可以被理解为“源域”中的“源图像”，并且分类训练图像可以被理解为“目标域”中的“目标图像”。但这不要与使用CycleGAN或其他生成模型的域转移相混淆。

在另外有利的实施例中，组合损失函数形成为第一损失函数和第二损失函数的加权和。表征所有网络行为的参数以改进该组合损失函数值为目标被优化。也就是说，编码器网络、因子分类头网络、对象分类头网络和属性分类头网络都可以同时被训练。然后，训练可以携手工作，以便获得相对于组合损失函数最优的解。例如，第一损失函数和第二损失函数可以是交叉熵损失函数。

在另外特别有利的实施例中，分类训练图像包括道路交通情形的图像。除了实际的对象内容之外，这些图像还依赖于如此多的因子，以至于获取具有许多不同因子组合的训练图像集是非常困难和昂贵的。例如，数据集可以包含仅在白天时间有工人在道路上的活动施工区域，因为大多数施工区域在夜间不活动。但是如果这样的建筑区域在夜间是活跃的，则图像分类器仍然应该识别它。利用目前提出的训练方法，分类可以与图像是在白天还是在夜间期间拍摄的分开，因为关联单元可以对对象分类头网络和/或对属性分类头网络隐瞒相应的分量z₁，…，z_K。

特别地，对应于表示Z的分量z₁，…，z_K的基本因子可以包括以下各项中的一个或多个：

获取图像x的

·一天中的时间；

·照明条件；

·一年中的季节；和

·天气条件。

如果可以对对象分类头网络和/或对属性分类头网络隐瞒这些基本因子，则数据集中图像之间的可变性可以更多地集中在训练图像中对象之间的实际语义差异上。因此，需要更少的训练图像来实现期望的分类准确度水平。

上述图像分类器和训练方法可以全部或部分是计算机实现的并且因此用软件体现。因此，本发明还涉及一种计算机程序，其包括机器可读指令，该机器可读指令当由一个或多个计算机执行时，使得一个或多个计算机实现上述图像分类器，和/或执行上述方法。在这方面，可以运行可执行程序代码的车辆和其他嵌入式系统的控制单元也应理解为计算机。非暂时性存储介质和/或下载产品可以包括计算机程序。下载产品是一种电子产品，该电子产品可以在线销售并通过网络传送，以便立即履行。一个或多个计算机可以配备有所述计算机程序，和/或配备有所述非暂时性存储介质和/或下载产品。

附图说明

在下文中，使用各图图示了本发明及其优选实施例，而无意图限制本发明的范围。

各图示出了：

图1图像分类器1的示例性实施例；

图2训练方法100的示例性实施例。

具体实施方式

图1是图像分类器1的示例性实施例的示意图。图像分类器1包括编码器网络2，该编码器网络2被配置为将输入图像x映射到表示Z。该表示Z包括多个独立分量z₁、z₂、z₃、z_K，它们各自包含与输入图像x的一个预定基本因子f₁、f₂、f₃、f_K相关的信息。

相应的预定基本因子f₁、f₂、f₃、f_K的值y₁、y₂、y₃、y_K可以借助于相应的因子分类头网络6-9从相应的表示分量z₁、z₂、z₃、z_K评估，该相应的因子分类头网络6-9仅在图像分类器1训练期间需要，并且一旦该训练完成就可以被丢弃。因此，因子分类头网络6-9用虚线绘制。

图像分类器1进一步包括对象分类网络3以及属性分类头网络4，该对象分类网络3被配置为将输入图像x的表示分量z₁，…，z_K映射到一个或多个对象值o，该属性分类头网络4被配置为将输入图像x的表示分量z₁，…，z_K映射到一个或多个属性值a。关联单元5向每个分类头网络3、4提供输入图像x的与相应分类头网络3、4的分类任务相关的那些表示分量z₁，…，z_K的线性组合z_o、z_a。也就是说，分类头网络3、4不应依赖的信息对该网络3、4隐瞒。例如，为了防止对象分类头网络3通过基于车辆的颜色而不是基于它们的形状对车辆类型进行分类而取“捷径”，可以从对象分类头网络3隐瞒指示颜色的表示分量z₁，…，z_K。在另一个示例中，如果属性分类头网络4要将对象的颜色确定为属性a，则关联单元5可以对该属性分类头网络4隐瞒指示对象形状的表示分量z₁，…，z_K。

图2是用于训练或预训练上述图像分类器1的方法100的示意流程图。

在步骤110中，对于表示Z的每个分量z₁，…，z_K，提供了因子分类头网络6-9。该因子分类头网络6-9被配置为将相应分量z₁，…，z_K映射到图像x的预定基本因子f₁，…，f_K。

在步骤120中，提供因子训练图像10。这些因子训练图像10利用相对于由分量z₁，…，z_K表示的基本因子f₁，…，f_K的基准真值y₁ ^*，…，y_K ^*标注。

根据框121，影响至少一个基本因子f₁，…，f_K的图像处理可以应用于至少一个给定的起始图像。这产生了因子训练图像10。根据框122，然后可以基于所应用的图像处理来确定相对于基本因子f₁，…，f_K的基准真值y₁ ^*，…，y_K ^*。

在步骤130中，编码器网络2和因子分类头网络6-9将因子训练图像（10）映射到基本因子f₁，…，f_K的值y₁，…，y_K。在内部，这是如下完成的：编码器网络2将因子训练图像10映射到表示Z。表示Z的每个分量z₁、z₂、z₃、z_K被传递到相应的因子分类头网络6-9，该相应的因子分类头网络6-9然后输出基本因子f₁，…，f_K的相应值y₁，…，y_K。

在步骤140中，借助于第一预定损失函数11对基本因子f₁，…，f_K的如此确定的值y₁，…，y_K与基准真值y₁ ^*，…，y_K ^*的偏差进行评级。

在步骤150中，表征编码器网络2的行为的参数2a和表征因子分类头网络6-9的行为的参数6a-9a朝着如下目标被优化：当处理另外的因子训练图像10时，损失函数11的评级11a可能改进。参数2a和6a-9a的最终训练状态用附图标记2a^*和6a^*-9a^*标注。

在步骤160中，提供分类训练图像12。这些分类训练图像12用对象值o^*和属性值a^*的基准真值组合（a^*，o^*）来标注。

在步骤170中，编码器网络2、对象分类头网络3和属性分类头网络4将分类训练图像12映射至对象值o和属性a的组合(a，o)。在内部，这是如下完成的：编码器网络2将分类训练图像12映射至表示Z。关联单元5决定表示分量z₁，…，z_K中的哪些与对象分类相关，并且将这些表示分量z₁，…，z_K的线性组合z_o转发到对象分类头网络3，该对象分类头网络3然后输出对象值o。关联单元5还解码表示分量z₁，…，z_K中的哪些与属性分类相关，并且将这些表示分量z₁，…，z_K的线性组合z_a转发到属性分类头网络4，该属性分类头网络4然后输出属性值a。

在步骤180中，借助于第二预定损失函数13对如此确定的组合(a，o)与相应基准真值组合（a^*，o^*）的偏差进行评级。

在步骤190中，至少表征对象分类头网络3的行为的参数3a和表征属性分类头网络4的行为的参数4a朝着如下目标被优化：当处理另外的分类训练图像12时，第二损失函数13的评级13a可能改进。参数3a和4a的最终训练状态用附图标记3a^*和4a^*标注。

根据框191，组合损失函数14可以形成为第一损失函数11和第二损失函数13的加权和。根据框192，表征所有网络2、3、4、6、7、8、9的行为的参数2a、3a、4a、6a、7a、8a、9a可以以改进该组合损失函数14的值为目标进行优化。

Claims

1.一种用于训练或预训练图像分类器（1）的方法（100），所述图像分类器（1）用于相对于对象值o和属性值a的组合y=(a，o)对输入图像x进行分类，所述图像分类器（1）包括：

·编码器网络（2），其被配置为将输入图像x映射到表示Z，其中该表示Z包括多个独立分量z₁，…，z_K；

·对象分类头网络（3），其被配置为将输入图像x的表示分量z₁，…，z_K映射到一个或多个对象值o；

·属性分类头网络（4），其被配置为将输入图像x的表示分量z₁，…，z_K映射到一个或多个属性值a；和

·关联单元（5），其被配置为向每个分类头网络（3，4）提供输入图像x的与相应分类头网络（3，4）的分类任务相关的那些表示分量z₁，…，z_K的线性组合z_o、z_a；

所述方法包括以下步骤：

·为表示Z的每个分量z₁，…，z_K提供（110）因子分类头网络（6-9），所述因子分类头网络（6-9）被配置为将相应分量z₁，…，z_K映射到图像x的预定基本因子f₁，…，f_K；

·提供（120）因子训练图像（10），所述因子训练图像（10）利用相对于由分量z₁，…，z_K表示的基本因子f₁，…，f_K的基准真值y₁ ^*，…，y_K ^*标注；

·由编码器网络（2）和因子分类头网络（6-9）将因子训练图像（10）映射（130）到基本因子f₁，…，f_K的值y₁，…，y_K；

·借助于第一预定损失函数（11）对基本因子f₁，…，f_K的如此确定的值y₁，…，y_K与基准真值y₁ ^*，…，y_K ^*的偏差进行评级（140）；和

·朝着如下目标优化（150）表征编码器网络（2）的行为的参数（2a）和表征因子分类头网络（6-9）的行为的参数（6a-9a）：当处理另外的因子训练图像（10）时，第一损失函数（11）的评级（11a）可能改进。

2.根据权利要求1所述的方法（100），其中提供（120）因子训练图像（10）包括：

·对至少一个给定的起始图像应用（121）影响至少一个基本因子f₁，…，f_K的图像处理，从而产生因子训练图像（10）；和

·基于所应用的图像处理，确定（122）相对于基本因子f₁，…，f_K的基准真值y₁ ^*，…，y_K ^*。

3.根据权利要求1和2中任一项所述的方法（100），其中，在每个因子训练图像（10）中，每个基本因子f₁，…，f_K取特定值，并且因子训练图像（10）集包括用于基本因子f₁，…，f_K的值的每个组合的至少一个因子训练图像（10）。

4.根据权利要求1至3中任一项所述的方法（100），进一步包括：

·提供（160）分类训练图像（12），所述分类训练图像（12）利用对象值o^*和属性值a^*的基准真值组合（a^*，o^*）来标注；

·由编码器网络（2）、对象分类头网络（3）和属性分类头网络（4）将分类训练图像（12）映射（170）到对象值o和属性值a的组合（a，o）；

·借助于第二预定损失函数（13）对如此确定的组合(a，o)与相应的基准真值组合（a^*，o^*）的偏差进行评级（180）；和

·朝着如下目标优化（190）至少表征对象分类头网络（3）的行为的参数（3a）和表征属性分类头网络（4）的行为的参数（4a）：当处理另外的分类训练图像（12）时，第二损失函数（13）的评级（13a）可能改进。

5.根据权利要求4所述的方法（100），其中，一方面一个编码器网络（2）的组合以及另一方面对象分类头网络（3）和属性分类头网络（4）的多个不同组合基于编码器网络（2）利用因子训练图像（10）的同一个训练进行训练。

6.根据权利要求4至5中任一项所述的方法（100），其中

·组合损失函数（14）被形成（191）为第一损失函数（11）和第二损失函数（13）的加权和；和

·以改进该组合损失函数（14）的值为目标优化（192）表征所有网络（2，3，4，6，7，8，9）的行为的参数（2a，3a，4a，6a，7a，8a，9a）。

7.根据权利要求4至6中任一项所述的方法（100），其中，所述分类训练图像（12）包括道路交通情形的图像。

8.根据权利要求7所述的方法（100），其中对应于表示Z的分量z₁，…，z_K的基本因子f₁，…，f_K包括以下各项中的一个或多个：

获取图像x的

·一天中的时间；

·照明条件；

·一年中的季节；和

·天气条件。

9.一种用于相对于对象值o和属性值a的组合y=(a，o)对输入图像x进行分类的图像分类器（1），包括：

·关联单元（5），其被配置为向每个分类头网络（3，4）提供输入图像x的与相应分类头网络（3，4）的分类任务相关的那些表示分量z₁，…，z_K的线性组合z_o、z_a。

10.根据权利要求9所述的图像分类器（1），其中所述编码器网络被训练以产生表示Z，其分量z₁，…，z_K各自包含与输入图像x的一个预定基本因子f₁，…，f_K相关的信息。

11.根据权利要求10所述的图像分类器（1），其中至少一个预定基本因子f₁，…，f_K是以下各项之一：

·图像x中至少一个对象的形状；

·图像x和/或图像x的区域中的至少一个对象的颜色；

·以之获取图像x的照明条件；和

·图像x中至少一个对象的纹理图案。

12.根据权利要求9至11中任一项所述的图像分类器（1），其中，属性值a是对象的颜色或纹理。

13.一种计算机程序，包括机器可读指令，所述机器可读指令当由一个或多个计算机执行时，在所述一个或多个计算机上实现权利要求9至12中任一项的图像分类器，和/或使得所述一个或多个计算机执行权利要求6至12中任一项的方法（100）。

14.一种具有权利要求13的计算机程序的非暂时性存储介质和/或下载产品。

15.一个或多个计算机，其具有权利要求13的计算机程序，和/或具有权利要求14的非暂时性存储介质和/或下载产品。