CN114861929A

CN114861929A - 以改进的方式训练针对图像处理的机器学习系统

Info

Publication number: CN114861929A
Application number: CN202210053745.9A
Authority: CN
Inventors: S·G·穆勒; A·比登卡普; F·胡特尔
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-01-19
Filing date: 2022-01-18
Publication date: 2022-08-05
Also published as: DE102021200439A1; US20220230416A1

Abstract

用于训练机器学习系统（60）的以计算机实现的方法，包括以下步骤：对元参数（

）和机器学习系统（60）的参数（θ）初始化。多次执行作为循环的以下步骤：提供批次训练数据点并且基于所述元参数（

）操纵所提供的训练数据点或训练方法，用于优化所述机器学习系统的参数（θ）或所述机器学习系统的结构。根据当前元参数（

）和所述机器学习系统的当前参数（θ）确定成本函数（l）。根据所确定的第一梯度适配所述当前参数（θ），其中所述第一梯度是通过针对所述训练数据点确定的成本函数关于所述当前参数所确定的，以及根据第二梯度适配所述元参数，其中所述第二梯度是通过所确定的成本函数关于在前一步骤中使用的元参数所确定的。

Description

以改进的方式训练针对图像处理的机器学习系统

技术领域

本发明涉及一种鉴于泛化方面经改进的用于训练（Anlernen）针对基于计算机的视觉（Sehen）的机器学习系统的方法、一种训练设备、一种计算机程序和一种机器可读存储介质。

背景技术

在作者Luketina、Jelena等人的出版物“Scalable gradient-based tuning ofcontinuous regularization hyperparameters”，International conference onmachine learning，2016（可在线获取：https://arxiv.org/abs/1511.06727v1）中提出了一种针对超参数适配的基于梯度的方案，其中将超参数适配为使得模型参数梯度以及因此使得更新对于验证成本而言更有利。

发明优点

本发明相对于作者Luketina等人的上述出版物而言的不同之处在于，对于训练不需要其他数据集，特别是验证数据集，并且也可以使用不可微分的（nicht-differenzierbar）超参数。

这些不同之处具有的优点是：提供了一种训练方法，该训练方法达成了特别高的泛化（Generalisierung），其中通过有效的方式计算关于不可微分的超参数的梯度。最终，提供特别泛化的且快速的训练方法。此外，由于提到的不同之处，本发明特别是数据有效的（Dateneffizient），因为对于训练而言不需要验证数据（Validierungsdaten）。这些验证数据大多创建起来很昂贵。

发明内容

在第一方面，本发明涉及一种用于训练机器学习系统的以计算机实现的方法。所述机器学习系统可以被训练来用于基于计算机的视觉，所述基于计算机的视觉例如是图像处理，优选图像分类或对象检测或图像分割。所述方法包括以下步骤：

对元参数(

)和所述机器学习系统的参数(θ)进行初始化。所述元参数可以是所述机器学习系统的不直接由所述机器学习系统使用以通过所述机器学习系统处理数据点的任何其他参数。“不直接”可以理解为，在推导（Inferenz）中，所述机器学习系统的输出变量不是根据所述机器学习系统的该参数确定的。所述元参数可以附加地或替代地是表征训练过程的特性或行为的参数。因此能够设想，所述元参数表征例如训练数据的操纵，例如增强，或者所述元参数是所述机器学习系统的神经元或层的丢失率（Dropout Rate）或是梯度下降方法的超参数，例如学习率（Lernrate）(α)，其中所述梯度下降方法被应用于优化所述机器学习系统的参数。

然后接着是以预给定的迭代（t）次数或者直到满足关于所述机器学习系统的训练进度（Anlernfortschritt）的收敛标准（Konvergenzkriterium）为止的关于后续步骤的循环：

所述循环从提供批次（英语：batch）训练数据点开始，所述训练数据点特别是从多个训练数据点中随机选择的。批次尺寸（Stapelgröße）例如至少为128个训练数据点。优选地至少为256个，并且特别优选地至少为1024个。这是因为已经发现，大的批次尺寸附加地改进了收敛行为，特别是对于这里描述的训练方法的元参数(

)而言。

随后基于所述元参数（

）操纵所提供的训练数据点或训练方法，用于优化所述机器学习系统的参数（θ）或所述机器学习系统的结构。应当注意，这些训练数据点分别包括如下训练输入数据点，所述机器学习系统根据该训练输入数据点确定其输出变量，并且所述训练数据点分别包括分配给所述训练输入数据点的训练输出数据点（标签（Label））。还应该注意的是，所述结构表征所述机器学习系统的架构，例如层序列或应使用的在层或神经元之间的连接类型。

然后根据当前元参数（

）和所述机器学习系统的当前参数（θ）确定成本函数（l），其中所述成本函数表征所述机器学习系统的所确定的输出变量与训练输出变量之间的偏差。优选地，针对该批次中的训练数据点单独确定成本函数。

然后根据第一梯度(

)对所述当前参数(

)进行适配，其中所述第一梯度是通过针对所述训练数据点、特别是所述批次的训练数据点确定的成本函数关于当前参数所确定的，然后在多于一次地执行了所述操纵的步骤（t>1）的情况下，根据第二梯度（

）对所述元参数进行适配，其中所述第二梯度是通过当前循环迭代的所确定的成本函数关于（直接）在前面的循环迭代所使用的元参数所确定的。然后再次开始该循环，直到满足该循环的终止标准为止。

通过根据在当前循环迭代中评估的前一循环迭代的元参数来附加地适配所述元参数，正面地影响了机器学习系统训练的收敛，并且达成了经改进的泛化。

建议：根据通过所确定的成本函数关于当前参数的第一梯度与通过直接在前面的循环轮次（Schleifendurchlauf）的所确定的成本函数关于前一个元参数的第二梯度之间的标积（Skalarprodukt）（

）确定关于前一步骤中使用的元参数的第二梯度。这样做的优点是执行更有效的第二梯度估计。

还建议：根据针对来自前一循环迭代的训练数据点关于所述机器学习系统的当前参数的第一梯度（

）与所选择批次的训练数据点的成本函数的平均和的关于所述机器学习系统的当前参数的梯度

之间的标积（

）来确定所述第二梯度，其中所述标积用作所述第二梯度的权重。

这具有以下优点：对第二梯度进行特别有效的估计，并且该方法还可用于不可微分的元参数，并且特别是用于随机梯度下降方法。

还建议：利用梯度下降方法，特别是随机梯度下降方法（SGD）确定关于所述机器学习系统的当前参数的第一梯度。

所述机器学习系统可以是图像分类器。所述图像分类器将输入图像分配给预给定分类的一个或多个类别。例如，批量生产的、名义上相同的产品的图像可以用作输入图像。例如，所述图像分类器可以鉴于如下方面被训练：将所述输入图像分配给代表相应产品的质量评价的至少两个可能类别中的一个或多个。

术语“图像”原则上包括布置在二维或多维网格中的任何信息分布。这些信息可以例如是以任何成像模态、例如光学相机、热成像相机或超声所记录的图像像素的强度值。然而，任何其他数据、诸如音频数据、雷达数据或激光雷达数据也可以被转换成图像，并且然后以相同的方式被分类。

还建议：已根据第一方面所训练的经过训练的机器学习系统根据传感器的所检测的传感器变量而确定输出变量，然后可以根据所述输出变量借助于例如控制单元确定控制变量。

所述控制变量可以用于控制技术系统的执行器。所述技术系统可以是例如至少部分自主的机器、至少部分自主的车辆、机器人、工具、作业机器或诸如无人机的飞行物。例如，可以根据所检测的传感器数据来确定输入变量并提供给所述机器学习系统。所述传感器数据可以由所述技术系统的传感器（例如相机）检测，或者替代地可以从外部接收。

在其他方面，本发明涉及一种设备以及一种计算机程序，它们分别被设置为执行上述方法，本发明还涉及一种机器可读存储介质，其上存储有所述计算机程序。

附图说明

下面参照附图更详细地解释本发明的实施方式。附图中：

图1示意性地示出了本发明的实施方式的流程图；

图2示出了在确定梯度时的时间相关性的示意图；

图3示意性地示出了用于控制至少部分自主的机器人的实施例；

图4示意性地示出了用于控制制造系统的实施例；

图5示意性地示出了用于控制访问系统的实施例；

图6示意性地示出了用于控制监控系统的实施例；

图7示意性地示出了用于控制个人助理的实施例；

图8示意性地示出了用于控制医学成像系统的实施例。

具体实施方式

通常借助于所谓的梯度下降方法来训练机器学习系统，特别是神经网络。梯度下降方法的特征在于在每个训练步骤中根据计算出的梯度迭代地更新所述机器学习系统的参数，特别是权重。在此，通过成本函数l的推导（Ableitung）来确定梯度，其中为此基于训练数据来评估所述成本函数并通过所述机器学习系统的参数来推导出所述成本函数。对于常见的梯度下降方法，成本函数

取决于所述机器学习系统的参数θ，以及取决于所述机器学习系统的所确定的输出变量和所提供的目标输出变量，特别是标签。

这里，如下所述并在图1中示意性示出的，本发明在训练方法方面以梯度下降方法开始并对该训练方法进行补充。

在该训练方法的开始(S1)，除了所述机器学习系统的参数(θ)之外，还初始化元参数

。需要注意的是，这里对于第一训练步骤可以初始化相继两个元参数：例如

。

元参数(

)例如对训练数据的数据增强进行参数化。例如，关于图像的失真或旋转的分布。

此外，如此扩展成本函数

，使得现在该成本函数也取决于元参数(

)。

所述机器学习系统的实际训练步骤(S2)保持不变，其中根据梯度来更新参数θ。即，通过成本函数

计算关于元参数(θ)的梯度

，其中基于相应使用的训练数据来评估具有当前迭代步骤(t)的当前参数的所述成本函数：

。

接着是相对于常见的训练方法而言附加的优化步骤(S3)。在该步骤中，通过附加的梯度下降方法对元参数(

)进行优化。为此，根据成本函数计算关于所述元参数的梯度

，其中为此根据直接在前面的训练步骤(t-1)中使用的元参数值

对所述成本函数进行评估：

。即，根据前一个元参数

的值更新当前的元参数

。

所述元参数在两次训练迭代(t-1,t)之间的这种有偏移的（versetzt）适配有效地导致：基于当前使用的训练数据来评估直接在前使用的元参数

，其中所述当前使用的训练数据已用于确定具有机器学习系统的当前参数的成本函数。由此与常见的训练方法相比，在前后连续的步骤之间产生相关性。通过这种进一步的相关性，用于优化元参数

的附加优化步骤(S3)导致：所述元参数被优化为使得所述元参数当在下一个训练步骤中使用时附加地将所述成本函数最小化。因此，可以说这种通过元参数新引入的相关性达成了更快的收敛，因为所述元参数对通常执行的成本函数优化具有有利影响。

在接着为下一个训练步骤设置(S4)了元参数

：

以及还为下一个步骤设置了机器学习系统的参数：

之后，重新执行刚才描述的训练步骤（S2和S3），特别是多次先后执行刚才描述的训练步骤（S2和S3），直到满足预给定的终止标准为止。应当注意，参数α、β表示梯度的权重。这些参数优选地具有介于

之间的值。

应当注意，在后续的训练步骤中，在执行步骤S2之前分别根据所设置的元参数来增强训练数据。然而，在实验中发现，训练数据的增强只会在每第n个训练步骤中导致显著的性能改进。这里优选选择n=2。在另一实施例中，替代或附加地，用于机器学习系统的梯度下降方法或机器学习系统的结构可以在步骤S2之后根据元参数而改变。

如果训练已经通过多次顺序地重复步骤S2和S3而结束，则可以继续步骤S4。在此，输出刚刚经过训练的机器学习系统。

然后在随后的步骤S5中，可以使用输出的机器学习系统例如来控制执行器。在此，所述机器学习系统可以处理提供给它的数据，然后根据所述机器学习系统的所确定的结果来操控所述执行器。

在优选的实施例中，用图像训练所述机器学习系统，以便对图像上的对象进行分类/分割。

为了进一步改进所述训练方法，在使用REINFORCE技巧（Trick）的情况下确定梯度

。这种措施的优点是由此可以优化不可微分的元参数(

)，例如因为不可微分的元参数不是连续的，或者因为不可微分的元参数以非连续概率分布p为特征。

例如，分布p可以取决于元参数(

)并输出针对训练数据点i的值

。例如，

可以表征机器学习系统的超参数（例如丢失率）的值或训练数据点选择策略。分布

可以例如是通过

参数化的Softmax分布。

对于刚刚提到的措施，使用结合两个相继的批次（英语：batch）的训练数据的标积。针对第i个训练数据点而如下地确定该标积：

（等式2）：

其中

是第i个训练数据点的成本函数，特别是来自分别所考虑的批次的训练数据点，其包含第n个训练数据点，并且

是直接随后的步骤t的整个批次的成本函数，〈,〉是标积。

建议将标积

解释为奖励，并对其应用REINFORCE技巧。由此梯度

现在可以如下地近似（annähern）：

（等式3）：

图2针对前后相继的步骤t=1、2、...、4示例性地说明了用于确定等式2的时间相关性。

图3示意性地示出了在自身环境中与控制系统40交互的执行器10。在传感器30、特别是诸如视频传感器的成像传感器中以优选地规律的时间间隔检测环境，传感器30也可以通过多个传感器给定，例如立体摄像机。还能够设想其他成像传感器，例如雷达、超声或激光雷达。也能够设想热成像相机。将传感器30的传感器信号S传送到控制系统40或者在多个传感器的情况下将每个传感器信号S传送到控制系统40。控制系统40因此接收传感器信号S的序列。控制系统40由此确定如下操控信号A，这些操控信号A被传输到执行器10。

控制系统40在可选的接收单元50中接收传感器30的传感器信号S的序列，该接收单元将传感器信号S的序列转换为输入图像x的序列（替代地，也可以将每个传感器信号S直接采用作为输入图像x）。例如，输入图像x可以是传感器信号S的片段或进一步处理。输入图像x包括视频记录的各个帧。换句话说，根据传感器信号S来确定输入图像x。将输入图像x的序列输送该机器学习系统，在该实施例中是来自步骤S4的所输出的机器学习系统60。

机器学习系统网络60从输入图像x中确定输出变量y。这些输出变量y可以特别是包括输入图像x的分类和/或语义分割。将输出变量y输送给可选的转换单元（Umformeinheit），该转换单元由此确定操控信号A，所述操控信号定被输送给执行器10以对应地操控执行器10。输出变量y包括关于传感器30已检测到的对象的信息。

执行器10接收操控信号A，被对应地操控并执行对应的动作。执行器10在此可以包括（并非必然在结构上集成的）操控逻辑，所述操控逻辑根据操控信号A而确定第二操控信号，然后用该第二操控信号来操控执行器10。

在其他实施方式中，控制系统40包括传感器30。在另外的实施方式中，控制系统40替代地或附加地还包括执行器10。

在其他优选实施方式中，控制系统40包括一个或多个处理器45和至少一个机器可读存储介质46，在所述机器可读存储介质上存储有指令，当指令在处理器45上执行时，所述指令于是促使控制系统40执行根据本发明的方法。

在替代实施方式中，对于执行器10替代地或附加地设置显示单元10a。

在另一实施例中，将控制系统40用于控制至少部分自主的机器人，这里是至少部分自主的机动车辆100。传感器30可以是例如优选地布置在机动车辆100中的视频传感器。

机器学习系统60为此优选地被设置为从输入图像x中可靠地标识对象。机器学习系统60可以是神经网络。

优选地布置在机动车辆100中的执行器10可以是例如机动车辆100的制动器、驱动器或转向系统。于是操控信号A可以被确定为，使得以这样的方式操控一个或多个执行器10，即，机动车辆100例如防止与由人工神经网络60可靠标识的对象碰撞，特别是当所述对象是特定类别的对象，例如行人时。

替代地，至少部分自主的机器人还可以是另外的移动机器人（未示出），例如是通过飞行、游泳、潜水或步行来移动的机器人。所述移动机器人还可以是例如至少部分自主的割草机或至少部分自主的清洁机器人。在这些情况下，操控信号A也可以被确定为，使得以这样的方式操控移动机器人的驱动器和/或转向系统，即，至少部分自主的机器人例如防止与由人工神经网络60标识的对象碰撞。

替代地或附加地，可以用操控信号A来操控显示单元10a并且例如可以显示所确定的安全区域。例如，在机动车辆100具有非自动化转向系统的情况下，也可以用操控信号A操控显示单元10a，使得如果确定机动车辆100即将与可靠标识的对象之一碰撞，则显示单元10a输出光学或声学的警告信号。

图3示出了一种实施例，其中控制系统40用于操控制造系统200的制造机器11，其方式是操控控制该制造机器11的执行器10。制造机器11可以是例如用于冲压、锯切、钻孔和/或切割的机器。

于是传感器30可以是例如光学传感器，其例如检测制造成品12a、12b的特性。可能的是，这些制造成品12a、12b是可移动的。可以根据所检测的制造成品12a、12b的分配来操控控制该制造机器11的执行器10，从而制造机器11对应地执行制造成品12a、12b中的正确制造成品的后续加工步骤。还可能的是，通过标识制造成品12a、12b其中相同制造成品的正确特性（即，没有误分配），制造机器11对应地适配相同的制造步骤以加工后续的制造成品。

图5示出了一种实施例，其中控制系统40用于控制访问系统300。访问系统300可以包括物理访问控制，例如门401。视频传感器30被设置为检测人员。可以借助于对象标识系统60来解释所检测的图像。如果同时检测多个人员，则可以通过将这些人员（即对象）分配到彼此来例如特别可靠地确定人员的身份，例如通过分析人员的运动。执行器10可以是锁，其根据操控信号A来解除访问控制或不解除访问控制，例如打开门401或不打开门401。为此，可以根据对象标识系统60的解释来选择操控信号A，例如根据所确定的人员身份。代替物理访问控制，也可以设置逻辑访问控制。

图6示出了一种实施例，其中控制系统40用于控制监控系统400。该实施例与图5所示的实施例的不同之处在于，代替执行器10设置了由控制系统40操控的显示单元10a。例如，人工神经网络60可以可靠地确定由视频传感器30记录的主体的身份以根据该身份例如推断哪些对象变得是可疑的，然后可以选择操控信号A，使得该主体由显示单元10a彩色地突出显示。

图7示出了一种实施例，其中控制系统40用于控制个人助理250。传感器30优选地是接收用户249的手势图像的光学传感器。

根据传感器30的信号，控制系统40确定个人助理250的操控信号A，其方式是例如由神经网络执行手势识别。然后将所确定的操控信号A传送到个人助理250并且因此对应地操控该个人助理。所确定的操控信号A可以特别是被选择为，使得它对应于由用户249假定的期望操控。可以根据由人工神经网络60识别的手势来确定所述假定的期望操控。控制系统40然后可以根据所述假定的期望操控来选择用于传送到个人助理250的操控信号A，和/或选择用于与所述假定的期望操控对应地传送到个人助理250的操控信号A。

对应的操控例如可以包括：个人助理250从数据库中调用信息并以对于用户249而言可接受的方式（rezipierbar）再现所述信息。

代替个人助理250，也可以设置家用电器（未示出），特别是洗衣机、炉灶、烤箱、微波炉或洗碗机，以对应地加以操控。

图8示出了一种实施例，其中控制系统40用于控制医学成像系统500，例如MRT设备、X射线设备或超声设备。传感器30可以例如由成像传感器给定，由控制系统40来操控显示单元10a。例如，神经网络60可以确定由所述成像传感器记录的区域是否显眼，然后可以选择操控信号A，使得该区域由显示单元10a彩色地突出显示。