CN112036429A

CN112036429A - 数字图像内容识别、数字图像内容识别训练的设备和方法

Info

Publication number: CN112036429A
Application number: CN202010489437.1A
Authority: CN
Inventors: N.Y.芬尼; B.S.斯塔夫勒
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-06-03
Filing date: 2020-06-02
Publication date: 2020-12-04
Also published as: EP3748539A1; US20200380293A1; US11263495B2

Abstract

数字图像内容识别、数字图像内容识别训练的设备和方法。用于数字图像内容识别的设备和计算机实现的方法，该方法包括通过基线模型神经网络（110）取决于数字图像确定针对数字图像内容的第一候选类，该基线模型神经网络（110）包括用于对数字图像进行分类的第一特征提取器（114）和第一分类器（116）；通过原型神经网络（112）确定针对数字图像内容的第二候选类，该原型神经网络（112）包括用于对数字图像进行分类的第二特征提取器（120）和第二分类器（122）；取决于第一候选类的第一置信度分数与阈值的比较结果或者第一候选类的第一置信度分数与第二候选类的第二置信度分数的比较结果，将数字图像内容分类成第一候选类或第二候选类。

Description

数字图像内容识别、数字图像内容识别训练的设备和方法

背景技术

本发明涉及数字图像内容识别的设备和方法，以及训练数字图像内容识别的设备和方法。

人工神经网络可以被训练用于数字图像内容识别。通常，特征提取器提取数字图像的特征，并且分类器取决于所提取的特征从多个预定类确定针对数字图像内容的类。为了产生有用的识别，利用训练数据训练人工神经网络。当用于训练人工神经网络的训练数据包括每个类中的许多数字图像时，可实现好的结果。当训练数据——在训练数据在一些类中包括非常少的数字图像而其他类具有许多数字图像的意义上——不平衡时，人工神经网络的训练不太有效。因此，难以从这样的不平衡的训练数据提供好的数字图像模式识别机制。因此，以高效的方式为大量极度不平衡的类提供数字图像内容识别是合期望的。

发明内容

这通过根据独立权利要求的设备和方法来实现。

一种数字图像内容识别的计算机实现的方法，包括：通过基线模型神经网络取决于数字图像确定针对数字图像内容的第一候选类，所述基线模型神经网络包括用于对数字图像进行分类的第一特征提取器和第一分类器；通过原型神经网络确定针对数字图像内容的第二候选类，所述原型神经网络包括用于对数字图像进行分类的第二特征提取器和第二分类器，取决于第一候选类的第一置信度分数与阈值的比较结果或者第一候选类的第一置信度分数与第二候选类的第二置信度分数的比较结果，将数字图像内容分类成第一候选类或第二候选类。这是以高效的方式用于大量的极度不平衡的类的端到端模型。

有利地，所述方法包括对数字图像应用一个或多个变换，特别是裁剪、镜像、旋转、平滑或对比度降低，以创建经修改的数字图像，确定经修改的数字图像的第一候选类和/或第二候选类，确定数字图像和经修改的数字图像的候选类的数值表示的平均值，取决于所述平均值确定针对数字图像内容的类。当利用训练图像的“部分”信息或“失真信息”对模型进行训练但仍然可以学习正确的分类时，变换意在使模型更稳健。在另一方面，在变换中，训练图像和测试图像两者均被归一化以减少图像中的内方差。例如，具有在0~255之间的像素值的RGB图像将在0~1的范围中被归一化，因此这使得神经网络学习更快。

一种训练用于图像内容识别的人工神经网络的计算机实现的方法，包括：从数据库收集第一数字图像集合，所述数据库包括被分配给多镜头类的数字图像和被分配给少镜头类的数字图像，其中特别是仅从被分配给多镜头类的数字图像采样第一数字图像集合；创建包括所收集的第一数字图像集合的第一训练集合；在第一阶段中使用第一训练集合训练第一人工神经网络，所述第一人工神经网络包括用于对数字图像进行分类的第一特征提取器和第一分类器；收集经训练的第一特征提取器的第一参数，在第二阶段中取决于第一参数确定第二人工神经网络的第二特征提取器的第二参数，所述第二人工神经网络包括用于对数字图像进行分类的第二特征提取器和第二分类器。利用包含最多训练图像的类来训练基线模型。例如利用基于余弦范数距离的分类器来训练基线模型。其余类的数字图像不用于第一阶段中的训练。由于基线模型不能从大量类中学习好的特征，因此原型神经网络、即质子集（protonet）在其特征提取器中使用基线模型参数，并且计算其余类中的类的数字图像的形心。这以高效的方式为大量的极度不平衡的类提供端到端模型。

有利地，对于每个多重镜头类中的第一数字图像，对相同量的数字图像采样。这意味着训练图像从每个多重镜头类被同等地采样。因此，所学习的特征不会有利于具有更多训练图像的类。该基线模型学习基础类的特征。

有利地，每个多重镜头类包括比每个少镜头类多的数字图像。

有利地，所述方法包括利用第二训练数据集合训练第二特征提取器。第二特征提取器被预训练，即包含来自经训练的基线模型的参数。使用第二分类器微调第二特征提取器。质子集从低镜头类中对训练图像采样，并且计算每个低镜头类的形心作为支持。质子集从每个低镜头类中对验证图像采样作为查询，以计算另一个形心，并且最大化两个形心之间的距离。这意味着质子集使用n向x支持y查询方案将形心从彼此推离，其中n是类的数量，x是每类的训练图像的数量，y是每类的验证图像的数量。同时，原型神经网络在训练期间最小化相同类中的图像与形心之间的距离。

有利地，所述方法包括与第二特征提取器一起使用第二分类器，所述第二特征提取器具有固定的第二参数。

有利地，第一分类器是基于余弦范数距离的分类器和/或第二分类器是第二基于余弦范数距离的分类器或基于欧几里德范数距离的分类器。使用余弦范数距离作为基于距离的分类器来训练第一特征提取器。第二特征提取器要么使用余弦范数距离要么使用欧几里德范数距离作为基于距离的分类器。例如，要么第一分类器和第二分类器是基于距离的分类器，要么第一分类器和第二分类器是基于相似性的分类器，特别地，要么第一分类器是第一基于余弦范数距离的分类器并且第二分类器是第二余弦范数分类器，要么第一分类器是第一欧几里德范数分类器并且第二分类器是第二基于欧几里德范数距离的分类器，要么第一分类器是第一基于余弦相似性的分类器并且第二分类器是第二基于余弦相似性的分类器。

有利地，如果被分配给类的数字图像的数量超过第一阈值，则针对第一数字图像集合对被分配给所述类的数字图像采样，其中如果被分配给所述类的数字图像的数量超过第二阈值，则针对第二数字图像集合对被分配给所述类的数字图像采样，并且在于如果被分配给所述类的数字图像的数量等于或低于第一阈值和第二阈值，则既不针对第一数字图像集合也不针对第二数字图像集合对被分配给所述类的数字图像采样。这意味着基于数据库中每类的图像数量来对图像采样，其中从第一数字图像集合和第二数字图像集合排除具有少于向其分配的最小数量的数字图像的类中的数字图像。

有利地，所述方法包括对数字图像应用一个或多个变换，特别是裁剪、镜像、旋转、平滑或对比度降低，以创建经修改的数字图像，其中数字图像是被分配给多重镜头类的数字图像并且经修改的数字图像用于第一训练集合，或者其中数字图像是被分配给低镜头类的数字图像并且经修改的数字图像用于第二训练集合。

一种用于图像内容识别的设备包括用于人工神经网络的处理器和存储器，所述处理器和存储器被配置用于根据上述方法的图像内容识别。

在一个方面，一种用于处理数字图像的设备包括：基线模型神经网络设备，其包括用于对数字图像进行分类的第一特征提取器单元和第一分类器单元，所述基线模型神经网络设备适于取决于数字图像确定针对数字图像内容的第一候选类；原型神经网络设备，其包括用于对数字图像进行分类的第二特征提取器单元和第二分类器单元，所述原型神经网络设备适于确定针对数字图像内容的第二候选类；聚集设备，其适于取决于第一候选类的第一置信度分数与阈值的比较结果或者第一候选类的第一置信度分数与第二候选类的第二置信度分数的比较结果，将数字图像内容分类成第一候选类或第二候选类。

所述设备有利地包括数字图像变换设备，所述数字图像变换设备适于对数字图像应用一个或多个变换，特别是裁剪、镜像、旋转、平滑或对比度降低，以创建经修改的数字图像，确定针对经修改的数字图像的第一候选类和/或第二候选类，其中聚集设备适于确定针对数字图像和经修改的数字图像的候选类的数值表示的平均值，取决于所述平均值确定针对数字图像内容的类。

所述设备有利地包括用于提供从数字图像传感器捕获的数字图像的输入和适于输出数字图像内容的类的输出，所述输出用于响应于数字图像取决于内容的类来控制车辆、机器人、机器的运动或操作状态。传感器可以是数字图像传感器，诸如LiDAR（激光雷达）设备、雷达设备、声纳设备或相机。对运动或操作状态的控制可以指代控制致动器，例如用于避开障碍物或用于朝向目标移动。在该上下文中，图像内容可以用于决定数字图像针对该运动是否相关，或者用于确定用于致动的控制信号。因此，这样的设备的运动控制得到显著改进。

另外的有利实施例从以下描述和附图中得出。在附图中

图1公开了用于图像内容识别的设备的示意性视图，

图2公开了设备的部分，

图3公开了数字图像内容识别方法的第一方面，

图4公开了数字图像内容识别方法的第二方面，

图5公开了用于数字图像内容识别的训练方法中的步骤。

图1公开了用于数字图像内容识别的设备100。设备100包括用于第一训练集合104的第一输入102。设备100包括用于第二训练集合108的第二输入106。

设备100包括适于从第一输入102接收数字图像的基线模型神经网络110。设备100包括适于从第二输入106接收数字图像的原型模型神经网络112。

基线模型神经网络110包括第一特征提取器114和第一分类器116。第一特征提取器114可以是例如包括多个卷积层的深度神经网络、ResNet或AlexNet。第一分类器116例如是余弦距离分类器。第一特征提取器114被配置为在特征空间中确定在输入102处接收的数字图像的内容的特征。第一分类器116被配置为将数字图像内容分类成第一候选类。第一分类器116被配置为在输出122处输出第一候选类。

原型模型神经网络112包括第二特征提取器120和第二分类器122。根据第一特征提取器114的配置来配置第二特征提取器120。第二分类器122例如是欧几里德距离分类器。也可以替代地使用余弦距离分类器。第二特征提取器120被配置为在特征空间中确定在输入106处接收的数字图像的内容的特征。第二分类器122被配置为将数字图像内容分类成第二候选类。第二分类器122被配置为在输出124处输出第二候选类。

设备100包括第一置信度确定单元126，第一置信度确定单元126被配置为通过第一分类器116确定在输出118处输出的第一候选类的第一置信度分数。

设备100包括第二置信度确定单元128，第二置信度确定单元128被配置为通过第二分类器122确定在输出124处输出的候选类的第二置信度分数。

设备100包括聚集单元130，聚集单元130被配置为取决于第一候选类或第二候选类来确定针对数字图像内容的类。在一个方面，聚集单元130被配置为取决于第一置信度分数与阈值的比较结果将数字图像内容分类成第一候选类或第二候选类。在另一方面，聚集单元130被配置为取决于第一置信度分数与第二置信度分数的比较，将数字图像内容分类成第一候选类或第二候选类。聚集单元130被配置为在输出132处输出内容被分类成的类。

设备100可以包含变换设备136，变换设备136适于对数字图像应用一个或多个变换，特别是裁剪、镜像、旋转、平滑或对比度降低，以创建经修改的数字图像。经修改的数字图像可以被接收作为第一训练集合104和/或替代地第二训练集合108的部分。

当接收到经修改的数字图像时，设备100适于确定针对经修改的数字图像的第一候选类和/或第二候选类。在该情况下，聚集单元130适于确定针对数字图像和经修改的数字图像的候选类的数值表示的平均值，并且取决于该平均值确定针对数字图像内容的类。

设备100包括或可连接到用于数字图像的数据库134。数据库134包括被分配给M多镜头类的第一数字图像。数据库134包括被分配给F少镜头类的第二数字图像。在该情况下，数据库134包括针对数字图像的N = M + F类。数据库134可以包括不用于进行训练的U类数字图像。在该情况下，数据库134包括数字图像的N = M + F + U类。

示例中的基线神经网络110被配置为确定对应于M多镜头类的M输出。

在一个方面，原型神经网络112也被配置为确定对应于M多镜头类的M输出。优选地，原型神经网络112适于输出分别对应于M多镜头类和F少镜头类的M + F输出。在一个方面，原型神经网络112可以具有未用于进行训练的U类数字图像中的一个或多个的输出。

第一特征提取器114可以适于确定数字图像x的第一分数f1（x）。第一分类器116适于取决于第一分数f1（x）将数字图像分类成第一候选类。第二特征提取器120可以适于确定数字图像x的第二分数f2（x）。第二分类器122适于取决于第二分数f2（x）将数字图像分类成第二候选类。

在图1中描绘的一个方面，用于处理数字图像的设备100包括：基线模型神经网络设备110，其包括用于对数字图像进行分类的第一特征提取器单元114和第一分类器单元116，该基线模型神经网络设备110适于取决于数字图像确定针对数字图像内容的第一候选类；原型神经网络设备112，其包括用于对数字图像进行分类的第二特征提取器单元120和第二分类器单元122，该原型神经网络设备112适于确定针对数字图像内容的第二候选类；聚集设备130，其适于取决于第一候选类的第一置信度分数与阈值的比较结果或者第一候选类的第一置信度分数与第二候选类的第二置信度分数的比较结果，将数字图像内容分类成第一候选类或第二候选类。

设备100可以包括数字图像变换设备136，数字图像变换设备136适于对数字图像应用一个或多个变换，特别是裁剪、镜像、旋转、平滑或对比度降低，以创建经修改的数字图像，确定针对经修改的数字图像的第一候选类和/或第二候选类。在该方面，聚集设备130适于确定针对数字图像和经修改的数字图像的候选类的数值表示的平均值，取决于该平均值确定针对数字图像内容的类。

设备100可以包含用于提供从数字图像传感器捕获的数字图像的输入134和适于输出数字图像内容的类的输出132，该输出132用于响应于数字图像取决于内容的类来控制车辆、机器人、机器的运动或操作状态。在一个示例中，传感器是LiDAR（激光雷达）设备、雷达设备、声纳设备或相机。示例中的针对数字图像内容的类在一个方面用于决定数字图像是否相关。在另一方面，针对数字图像内容的类用于确定用于该运动或用于致动的目标或控制信号。对运动或操作状态的控制可以指代控制致动器，例如用于避开障碍物或用于朝向目标移动。

在图2中描绘的一个方面，设备100包括处理器202和特别是计算机可读的非易失性存储器204，它们被配置用于根据下面描述的方法的图像内容识别。处理器202和存储器204经由数据线206交互。设备100可以连接到或包括经由数据线206连接的数据库134。处理器可以是分布式计算系统、微处理器或微控制器。图形处理单元也可以用作处理器。

定义基线模型神经网络和原型神经网络的参数可以被存储在存储器204中，并且如下所述那样被确定。经训练的基线模型神经网络和经训练的原型神经网络可以被存储在存储器204中，并且如接下来描述那样被使用。

示例中的存储器204包括用于数字图像内容识别的计算机实现的方法的计算机可读指令。示例中的存储器204包括用于训练前面提到的神经网络的计算机实现的方法的计算机可读指令。

根据一个方面，当数字图像内容识别的计算机实现的方法开始时，执行步骤302。

在步骤302中，由基线模型神经网络110取决于数字图像来确定针对数字图像内容的第一候选类，该基线模型神经网络110包括用于对数字图像进行分类的第一特征提取器114和第一分类器116。第一候选类例如由基线模型神经网络110的M输出的最高数值表示。

之后，执行步骤304。

在步骤304中，确定第一置信度分数。第一置信度分数例如是在0和1之间的数值。第一置信度分数例如是基线模型神经网络110的M输出的最高数值，该最高数值由基线模型神经网络110的所有M输出的所有数值之和归一化。

之后，执行步骤306。

在步骤306中，在比较中，将第一置信度分数与阈值进行比较。如果第一置信度分数超过阈值，则执行步骤308。否则，执行步骤310。

在步骤308中，数字图像的内容被分类成由第一候选类表示的类。

之后，执行步骤314。

在步骤314中，输出该类。之后，该方法结束。

在步骤310中，由原型神经网络112确定针对数字图像内容的第二候选类，该原型神经网络112包括用于对数字图像进行分类的第二特征提取器120和第二分类器122。第二候选类在一个方面由原型模型神经网络112的M输出的最高数值表示。第二候选类在另一方面由原型模型神经网络112的M+F输出的最高数值表示。第二候选类在又一方面由原型模型神经网络112的M+F+U输出的最高数值表示。

之后，执行步骤312。

在步骤312中，数字图像的内容被分类成第二候选类。

然后执行步骤314。

根据另一方面，当数字图像内容识别的计算机实现的方法开始时，执行步骤402。

在步骤402中，由基线模型神经网络110取决于数字图像来确定针对数字图像内容的第一候选类，该基线模型神经网络110包括用于对数字图像进行分类的第一特征提取器114和第一分类器116。第一候选类例如由基线模型神经网络110的M输出的最高数值表示。

之后，执行步骤404。

在步骤404中，确定第一置信度分数。第一置信度分数例如是在0和1之间的数值。第一置信度分数例如是基线模型神经网络110的M输出的最高数值，该最高数值由基线模型神经网络110的所有M输出的所有数值之和归一化。

当计算置信度分数时，假设存在M+F类，分数例如在M类之上被归一化。因此，置信度分数可以被拉得更接近于与基线模型的置信度分数的范围相似的范围，该基线模型是在M类之上被训练的。

例如，当基线具有1000 个M类时，置信度分数范围从0.001到1.0，其中所有M类的置信度分数之和= 1。

原型神经网络例如具有10000个类（1000个基线M + 9000个 F类），如果我们仅在1000个类之上归一化置信度分数，则置信度分数的范围可以更接近0.001到1.0，否则置信度分数可能与基线相比太低（从0.0001到1），更难合并，其中所有M+F类或M+F+U类的置信度分数之和= 1。

也可以使用不同的方式来归一化分数，例如当正在计算原型时，通过改变原型神经网络中分数的比例因子。如果我们设置更大的比例因子，则置信度也将变得更大。

因为在原型神经网络中存在更多的类并且每类仅几个图像被采样，不如基线模型训练得那么好，因此假设原型神经网络的预测可能比基线模型的预测更错误，那么具有较弱的置信度分数是好的。这也使得整合（ensemble）更容易，因为最强的预测获胜。因此，原型神经网络预测置信度分数不得不确实绝对地高于基线模型的预测置信度分数，才能够被取作最终结果中的预测。

之后，执行步骤406。

在步骤406中，由原型神经网络112确定针对数字图像内容的第二候选类，该原型神经网络112包括用于对数字图像进行分类的第二特征提取器120和第二分类器122。第二候选类在一个方面由原型模型神经网络112的M输出的最高数值表示。第二候选类在另一方面由原型模型神经网络112的M+F输出的最高数值表示。第二候选类在又一方面由原型模型神经网络112的M+F+U输出的最高数值表示。

之后，执行步骤408。

在步骤408中，确定第二置信度分数。第二置信度分数例如是在0和1之间的数值。第二置信度分数例如是原型模型神经网络112的输出的最高数值，该最高数值由原型模型神经网络112的所有输出的所有数值之和归一化。

之后，执行步骤410。

在步骤410中，在比较中，将第一置信度分数与第二置信度分数进行比较。如果第一置信度分数超过第二置信度分数，则执行步骤412。否则，执行步骤414。

在步骤412中，数字图像的内容被分类成由第一候选类表示的类。

之后，执行步骤416。

在步骤416中，输出该类。之后，该方法结束。

在步骤414中，数字图像内容被分类成第二候选类。

然后执行步骤416。

上述方法可以包括以下附加步骤。

对数字图像应用一个或多个变换，特别是裁剪、镜像、旋转、平滑或对比度降低，以创建经修改的数字图像。

根据上述方法中的一个确定针对经修改的数字图像的第一候选类和/或第二候选类。

确定针对数字图像和经修改的数字图像的候选类的数值表示的平均值，取决于该平均值确定针对数字图像内容的类。

示例中的候选类的数值表示优选地分别对应于基线模型神经网络110和原型神经网络112的输出。

取决于哪个方法被应用，通过比较第一置信度分数与阈值或第二置信度分数来确定类。

多重镜头和少镜头分类以及基线模型神经网络和原型神经网络的示例性细节例如在以下参考文献中公开：

Wei-Yu Chen等人的“A CLOSER LOOK AT FEW-SHOTCLASSIFICATION”（ICLR 2019，在

处可获得）

Yu-Xiong Wang 等人的“Learning to Model the Tai”（第31届神经信息处理系统会议（NIPS 2017），美国加利福尼亚州长滩，在

处可获得）

Jake Snell等人的“Prototypical Networks for Few-shot Learning”（第31届神经信息处理系统会议（NIPS 2017），美国加利福尼亚州长滩，在http：//www.cs.toronto.edu/~zemel/documents/prototypical_networks_nips_2017.pdf处可获得）。

与其中公开的方案形成对比，下面描述的计算机实现的训练方法具有以下优点：

特征提取器的训练适用于大的目标类集合。这特别是通过使用基线模型神经网络110中的余弦范数距离分类器、通过训练第一特征提取器114以及通过使用第一特征提取器114的第一参数作为原型神经网络中用于少镜头学习模型的第二特征提取器120的第二参数来实现的。该方案适用于大量的类，例如200000个类。在实践中，具有在-1和1之间范围的相似性分类器——其中如果两个图像的特征等同则输出1，并且如果两个特征向量在相反的方向上则输出-1——实现了比具有在0和2之间范围的余弦距离分类器高的准确度。两者表现得非常相似，并且比softmax分类器好得多。

在每个阶段（时期）中，从每个类均匀地采样数字图像。数字图像是从多镜头类随机抽取的，并且少镜头类被过采样。在该上下文中，过采样指代通过创建经修改的数字图像、例如通过针对被分配给少镜头类的数字图像的前面提到的变换来扩增训练数据。例如，具有向其分配的每类多于50个数字图像的类被认为是多镜头类。其他数字图像被扩增，使得例如10个数字图像可用于训练集合中的每个类。可能存在具有向其分配的仅单个数字图像或非常少的数字图像的少镜头类。这些类可以被忽略。利用该类型的训练数据进行训练使训练时间减少许多数量级。

不要求每类具有至少两个图像来训练。当许多单镜头类、例如18000个类仅具有一个镜头、即仅一个数字图像时，这特别有用。基线模型神经网络110包括第一特征提取器114。第一特征提取器114利用多镜头类的图像来训练，并且第一特征提取器114的第一参数可以用在原型神经网络112的第二特征提取器120中。这些第二参数可以用作例如第二特征提取器120的部分或起始点，而不训练单镜头类。在推断期间，即当聚集从候选类预测类时，那些单镜头类图像可以用作支持图像。为了分类，计算测试图像特征与单镜头训练图像特征、即支持图像特征之间的距离。该距离用于查看这些图像有多相似或接近，以确定它们是否属于相同的类。因此，不要求附加的训练。

主要优势是能够以非常高效的方式从大的长尾不平衡数据集合学习特征。该方案对未见的图像也更稳健。原型神经网络可以对未见的类执行预测，并且基线模型神经网络对于来自与训练图像不同的分布的开放数据表现良好。该方案对于实现好的结果非常高效。该方案大幅减少总训练时间。

在一个方面，可以使用ImageNet上公开可获得的预训练权重，以例如在具有均匀分布的120万个数字图像的1000个数字图像内容类上进行训练。例如，通过从150万个数字图像均匀地抽取仅来自具有向其分配的最多数字图像的前10000个类的图像来重新训练该模型。只要对于训练有益，可以使用任何其他数量的类。利用该训练，可从第一特征提取器114获得经良好训练的特征空间。然后，经训练的第一特征提取器114的第一参数用于确定原型神经网络的第二特征提取器的第二参数，以对测试图像和训练图像执行推断，而不管有多少开放类在那里。这显著减少训练时间。

当用于图像内容识别的训练的对应计算机实现的方法中的时期开始时，执行步骤502。

在步骤502中，从数据库134收集第一数字图像集合，数据库134包括被分配给多镜头类的数字图像和被分配给少镜头类的数字图像。在示例中，每个多重镜头类包括比每个少镜头类多的数字图像。从被分配给多镜头类的数字图像采样第一数字图像集合。特别地，仅对被分配给多镜头类的数字图像采样。对于每个多重镜头类中的第一数字图像，可以对相同量的数字图像采样。

之后，执行步骤504。

在步骤504中，从数据库134收集第二数字图像集合。从被分配给少镜头类的数字图像采样第二数字图像集合。特别地，仅对被分配给少镜头类的数字图像采样。

之后，执行步骤506。

在步骤506中，创建包括所收集的第一数字图像集合的第一训练集合。

之后，执行步骤508。

在步骤508中，在第一阶段中，使用第一训练集合训练第一人工神经网络，该第一人工神经网络包括用于对数字图像进行分类的第一特征提取器和第一分类器116。示例中的第一人工神经网络是基线神经网络110。

之后，执行步骤510。

在步骤510中，收集经训练的第一特征提取器的第一参数。

之后，执行步骤512。

在步骤512中，在第二阶段中，取决于第一参数确定第二人工神经网络的第二特征提取器的第二参数，该第二人工神经网络包括用于对数字图像进行分类的第二特征提取器和第二分类器。在示例中，第二人工神经网络是原型神经网络。

之后，执行步骤514。

在步骤514中，创建用于第二训练阶段的包括第二数字图像集合的第二训练集合。

之后，执行步骤516。

在步骤516中，在第二阶段中，利用第二训练数据集合微调第二特征提取器120。第二分类器被配置为确定训练图像特征与测试图像特征之间的距离。

之后，训练时期结束。

当所有时期的所有数字图像已经被使用时，训练方法结束。上述采样步骤可以替代地在开始时针对所有时期执行一次。

第一分类器116是基于余弦范数距离的分类器。第二分类器122是第二基于余弦范数距离的分类器或基于欧几里德范数距离的分类器。

在一个方面，如果被分配给类的数字图像的数量超过第一阈值，则针对第一数字图像集合对被分配给该类的数字图像采样。在一个方面，如果被分配给该类的数字图像的数量超过第二阈值，则针对第二数字图像集合对被分配给该类的数字图像采样。在又一方面，如果被分配给该类的数字图像的数量等于或低于第一阈值和第二阈值，则既不针对第一数字图像集合也不针对第二数字图像集合对被分配给该类的数字图像采样。第一阈值例如是50，第二阈值例如是2。

在另外的方面，可以通过对数字图像应用一个或多个变换来扩增数据。可以从针对第一训练集合或第二训练集合中的一个被采样的数字图像来创建经修改的数字图像，特别是通过裁剪、镜像、旋转、平滑或对比度降低来创建经修改的数字图像。

在示例中，当数字图像是被分配给多重镜头类的数字图像时，经修改的数字图像也被分配用于第一训练集合。

同样，当数字图像是被分配给低镜头类的数字图像时，经修改的数字图像被分配给第二训练集合。

一种数字图像内容识别的计算机实现的方法，可以包括通过确定经训练的基线模型神经网络110和经训练的原型神经网络112来训练模型，并且然后使用经训练的基线模型神经网络110和经训练的原型神经网络112用于对数字图像进行分类。

Claims

1.一种数字图像内容识别的计算机实现的方法，其特征在于，通过基线模型神经网络（110）取决于数字图像确定（302，402）针对数字图像内容的第一候选类，所述基线模型神经网络（110）包括用于对数字图像进行分类的第一特征提取器（114）和第一分类器（116）；通过原型神经网络（112）确定（310，406）针对数字图像内容的第二候选类，所述原型神经网络（112）包括用于对数字图像进行分类的第二特征提取器（120）和第二分类器（122），取决于第一候选类的第一置信度分数与阈值或者第一候选类的第一置信度分数与第二候选类的第二置信度分数的比较（306，410）的结果，将数字图像内容分类成第一候选类或第二候选类。

2.根据权利要求1所述的方法，其特征在于，对数字图像应用一个或多个变换，特别是裁剪、镜像、旋转、平滑或对比度降低，以创建经修改的数字图像，确定针对经修改的数字图像的第一候选类和/或第二候选类，确定针对数字图像和经修改的数字图像的候选类的数值表示的平均值，取决于所述平均值确定针对数字图像内容的类。

3.一种训练用于图像内容识别的人工神经网络的计算机实现的方法，其特征在于，从数据库收集（502）第一数字图像集合，所述数据库包括分被配给多镜头类的数字图像和被分配给少镜头类的数字图像，其中，从被分配给多镜头类的数字图像采样第一数字图像集合；创建（506）包括所收集的第一数字图像集合的第一训练集合；在第一阶段中使用第一训练集合训练（508）第一人工神经网络，所述第一人工神经网络包括用于对数字图像进行分类的第一特征提取器和第一分类器；收集（510）经训练的第一特征提取器的第一参数；在第二阶段中取决于第一参数确定（512）第二人工神经网络的第二特征提取器的第二参数，所述第二人工神经网络包括用于对数字图像进行分类的第二特征提取器和第二分类器。

4.根据权利要求3所述的方法，其特征在于，对于每个多重镜头类中的第一数字图像，对相同量的数字图像采样。

5.根据权利要求3或4所述的方法，其特征在于，每个多重镜头类包括比每个少镜头类多的数字图像。

6.根据权利要求3至5中任一项所述的方法，其特征在于，利用第二训练数据集合训练第二特征提取器。

7.根据权利要求3至5中任一项所述的方法，其特征在于，与第二特征提取器一起使用第二分类器，所述第二特征提取器具有固定的第二参数。

8.根据权利要求3至7中任一项所述的方法，其特征在于，第一分类器是基于余弦范数距离的分类器和/或第二分类器是第二基于余弦范数距离的分类器或基于欧几里德范数距离的分类器。

9.根据权利要求3至8中任一项所述的方法，其特征在于，如果被分配给类的数字图像的数量超过第一阈值，则针对第一数字图像集合对被分配给所述类的数字图像采样，其中如果被分配给所述类的数字图像的数量超过第二阈值，则针对第二数字图像集合对被分配给所述类的数字图像采样，并且在于如果被分配给所述类的数字图像的数量等于或低于第一阈值和第二阈值，则既不针对第一数字图像集合也不针对第二数字图像集合对被分配给所述类的数字图像采样。

10.根据权利要求3至9中任一项所述的方法，其特征在于，对数字图像应用一个或多个变换，特别是裁剪、镜像、旋转、平滑或对比度降低，以创建经修改的数字图像，其中数字图像是被分配给多重镜头类的数字图像并且经修改的数字图像用于第一训练集合，或者其中数字图像是被分配给低镜头类的数字图像并且经修改的数字图像用于第二训练集合。

11.一种数字图像内容识别的计算机实现的方法，其特征在于，根据权利要求3至10中的一项来训练模型以确定经训练的基线模型神经网络和经训练的原型神经网络，使用经训练的基线模型神经网络和经训练的原型神经网络用于根据权利要求1或2中的一项对数字图像进行分类。

12.一种用于图像内容识别的设备（100），其特征在于，所述设备（100）包括用于人工神经网络的处理器（202）和存储器（204），处理器（202）和存储器（204）被配置用于根据前述权利要求中任一项的方法的图像内容识别。

13.一种用于处理数字图像的设备（100），其特征在于：基线模型神经网络设备（110），其包括用于对数字图像进行分类的第一特征提取器单元（114）和第一分类器单元（116），所述基线模型神经网络设备（110）适于取决于数字图像确定针对数字图像内容的第一候选类；原型神经网络设备（112），其包括用于对数字图像进行分类的第二特征提取器单元（120）和第二分类器单元（122），所述原型神经网络设备（112）适于确定针对数字图像内容的第二候选类；聚集设备（130），其适于取决于第一候选类的第一置信度分数与阈值的比较结果或者第一候选类的第一置信度分数与第二候选类的第二置信度分数的比较结果，将数字图像内容分类成第一候选类或第二候选类。

14.根据权利要求13所述的设备（100），其特征在于数字图像变换设备，其适于对数字图像应用一个或多个变换，特别是裁剪、镜像、旋转、平滑或对比度降低，以创建经修改的数字图像，确定针对经修改的数字图像的第一候选类和/或第二候选类，其中聚集设备（130）适于确定针对数字图像和经修改的数字图像的候选类的数值表示的平均值，取决于所述平均值确定针对数字图像内容的类。

15.根据权利要求12至14中的一项所述的设备（100），其特征在于，用于提供从数字图像传感器捕获的数字图像的输入（134）和适于输出数字图像内容的类的输出（132），所述输出（132）用于响应于数字图像取决于内容的类来控制车辆、机器人、机器的运动或操作状态。

16.一种计算机程序，其特征在于，所述计算机程序包括计算机可读指令，所述计算机可读指令当由计算机执行时使得计算机执行根据权利要求1至11的方法。

17.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机可读存储介质，所述计算机可读存储介质包括根据权利要求13的计算机程序。