CN114072815A

CN114072815A - 用于人工神经网络的更稳健训练

Info

Publication number: CN114072815A
Application number: CN202080049721.5A
Authority: CN
Inventors: F·施密特; T·萨克塞
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-07-10
Filing date: 2020-06-17
Publication date: 2022-02-18
Also published as: JP7314388B2; US20220261638A1; JP2022540171A; KR20220031099A; DE102019210167A1; WO2021004741A1

Abstract

用于训练人工神经网络KNN（1）的方法（100），所述KNN包括多个处理单元（2），其中优化表征所述KNN（1）行为的参数（12）（110），目的是所述KNN（1）根据成本函数（16）将学习输入参量值（11a）尽可能好地映射为相关联的学习输出参量值（13a），其中将至少一个处理单元（2）的输出（2b）与随机值x相乘（112），并且然后作为输入（2a）输送到至少一个另外的处理单元（2'）（113），其中以概率密度函数（4a）从随机变量（4）中提取随机值x（111），所述概率密度函数（4a）与在|x‑q|中随着|x‑q|的增加而下降的指数函数成比例，其中q是可自由选择的位置参数，并且其中在所述指数函数的自变量中，|x‑q|包含在幂|x‑q|^k中，其中k≤1。用于训练和运行人工神经网络KNN（1）的方法（200）。

Description

用于人工神经网络的更稳健训练

技术领域

本发明涉及人工神经网络的训练，以例如用作分类器和/或回归器。

背景技术

人工神经网络KNN被构造为根据通过参数集预给定的行为准则将输入参量值映射为输出参量值。所述行为准则不是以口头规则的形式设定的，而是通过所述参数集中参数的数值来设定的。在训练KNN时优化这些参数，使得KNN将学习输入参量值尽可能好地映射为相关联的学习输出参量值。然后KNN期望适当地概括在训练时获得的知识。因此，当输入参量值涉及训练中未发生的未知状况时，也应将所述输入参量值映射为可用于相应应用的输出参量值。

在以这种方式训练KNN的情况下原则上存在过拟合的风险。这意味着KNN以非常完美的方式“用心学习”将学习输入参量值正确地映射为学习输出参量值，代价是对新状况的概括因此受到影响。

（G.E. Hinton、N. Srivastava、A. Krizevsky、I. Sutskever、R.S.Salakhutdinov，“Improving neural networks by preventing co-adaptation offeature detectors（通过防止特征检测器的协同适配来改进神经网络）”，arXiv：1207.0580（2012））公开了在训练时分别根据随机原理停用（“Drop-out”）一半的可用处理单元，以抑制过拟合并更好地概括在训练时获得的知识。

（S.I. Wang、C.D. Manning，“Fast dropout training（快速dropout训练）”，Proceedings of the 30^thInternational Conference on Machine Learning(2013)）公开了不完全停用处理单元，而是将它们与从高斯分布中获得的随机值相乘。

发明内容

在本发明的范围中开发了一种用于训练人工神经网络KNN的方法。KNN包括多个处理单元，这些处理单元例如可以对应于KNN的神经元。KNN用于将输入参量值映射为在相应应用的意义上有意义的输出参量值。

在此，术语“值”不应有关维度限制性地理解。从而图像可以例如作为由三个颜色层面组成的张量给出，每个颜色层面都具有各个像素的强度值的二维阵列。KNN可以接收整个图像作为输入参量值，并为该图像分配例如一个分类向量作为输出参量值。例如，该向量可以为分类的每个类别说明对应类别的对象存在于该图像中的概率或置信度为多少。该图像在此可以具有例如至少8x8、16x16、32x32、64x64、128x128、256x256或512x512像素的大小，并且已经借助于成像传感器（例如视频传感器、超声传感器、雷达传感器或激光雷达传感器或热像仪）记录。KNN尤其可以是深度神经网络，也就是说包括至少两个隐藏层。处理单元的数量优选是大的，例如大于1000，优选地大于10000。

KNN尤其可以嵌入到控制系统中，所述控制系统根据所确定的输出参量值提供操控信号，用于对应地操控车辆和/或机器人和/或生产机器和/或工具和/或监视摄像机和/或医学成像系统。

在训练时对表征KNN行为的参数进行优化。这种优化的目的是，KNN根据成本函数将学习输入参量值尽可能好地映射为相关联的学习输出参量值。

至少一个处理单元的输出与随机值x相乘，并且然后作为输入输送到至少一个另外的处理单元。在此，随机值x利用事先设定的概率密度函数从随机变量中提取。这意味着每次从随机变量提取时都分别产生新的随机值x。在提取数量足够多的随机值x的情况下，这些随机值x的观测频率近似反映了事先设定的概率密度函数。

所述概率密度函数与在|x-q|中随着|x-q|的数值增加而下降的指数函数成比例。在这个指数函数的自变量中，|x-q|包含在幂|x-q|^k中，其中k≤1。这里q是可自由选择的位置参数，其设定了随机变量的平均值的位置。

已经认识到，这令人惊讶地比根据现有技术提到的方法更好地抑制了过拟合的趋势。这意味着，如果向以这种方式训练的KNN呈现涉及迄今为止未知状况的输入参量值，则该KNN能够更好地为相应应用确定面向目标的输出参量值。

KNN必须特别地证明其概括能力的一种应用是公共道路交通中车辆的至少部分自动驾驶。类似于人类驾驶员的构造——人类驾驶员大多在其测试前坐在方向盘后面的时间不到50小时并且行驶里程不到1000km，KNN也必须接受培训以应对有限数量的状况。这里限制因素是用学习输出参量值（例如图像中可见对象的分类）来“标记”学习输入参量值（例如来自车辆环境的摄像机图像）在许多情况下需要人类劳动并且相对应地昂贵。尽管如此，对于安全性至关重要的是，以后投放市场的具有奢华设计的汽车仍然被识别为汽车，并且行人不会仅仅因为其穿的是具有不寻常图案的衣服就被分类为可自由穿越的平面。

因此，在这些以及其他与安全相关的应用中，更好地抑制过拟合导致可以更大程度地信任由KNN输出的输出参量值，并且需要更少量的学习数据以达到相同的安全水平。

此外，更好地抑制过拟合也导致训练的稳健性得到改善。稳健性的一个技术上重要的标准是训练结果的质量在多大程度上取决于训练开始时的初始状态。从而表征KNN行为的参数一般被随机初始化，并且然后被连续优化。在诸如借助于“生成对抗网络（generative adversarial networks）”在分别代表不同图像风格的域之间传输图像的一些应用情况下，可能很难预测从随机初始化开始的训练是否提供最终可用的结果。这里，本申请人的尝试已经表明，到训练结果可用于相应应用为止通常需要多次尝试。

在这种状况下，更好地抑制过拟合可以节省不成功尝试的计算时间，并由此也节省能量和金钱。

更好地抑制过拟合的原因是，在学习输入参量值中包含的、KNN的概括能力所取决于的可变性通过对处理单元的随机影响而增大。这里，具有所描述的特性的概率密度函数具有处理单元的影响对用于训练的“地面实况（ground truth）”产生较少矛盾的有利效果，其体现在利用学习输出参量值对学习输入参量值的“标记”中。

|x-q|的幂|x-q|^k限制为指数k≤1特别是抵消了训练时奇异点的出现。训练通常利用涉及成本函数的梯度下降方法执行。这意味着朝着可以预期更好的成本函数值的方向对表征KNN行为的参数进行优化。但是梯度的形成需要微分，并且这里在指数k>1的情况下导致该绝对值函数在0周围是无法微分的。

在特别有利的设计中，所述概率密度函数是拉普拉斯分布函数。该函数在其中心具有尖锐的最大值，但其中概率密度在该最大值处也是连续的。该最大值可以代表例如为1的随机值x，即一个处理单元的输出被不变地转发为到另一个处理单元的输入。于是，许多接近1的随机值x集中在该最大值附近。这意味着许多处理单元的输出只经过轻微修改。通过这种方式有利地抑制了与在利用学习输出参量值对学习输入参量值的“标记”中包含的知识的所述矛盾。

特别地，拉普拉斯分布函数的概率密度

可以由例如下式给出：

，其中

且

。

这里，如上所述，q是拉普拉斯分布的可自由选择的位置参数。如果将该位置参数例如设定为1，则假设概率密度L_b(x)如上所述在x=1时达到最大值。拉普拉斯分布的尺度参数b由参数p表示，因此对预期应用有意义的范围由此被归一化为范围

。

在特别有利的设计中，KNN由多个层构建。对于至少一层中的处理单元——这些处理单元的输出如上所述乘以随机值x，从同一个随机变量中提取随机值x。在上面提到的示例中——在该示例中随机值x的概率密度是拉普拉斯分布的，这意味着p的值对于至少一层中的所有处理单元是统一的。这考虑到如下情形，即KNN的层代表输入参量值的不同处理阶段，并且由于每一层中的处理单元数量众多，处理是大规模并行化的。

例如，被构造为识别图像中特征的KNN的不同层可以用于识别不同复杂性的特征。从而例如可以在第一层中识别基本元素并且在随后的第二层中识别由这些基本元素组成的特征。

因此，一层的不同处理单元利用相同类型的数据工作，从而有利的是从同一个随机变量中得出通过一层内的随机值x引起的输出变化。在此，一般用不同的随机值x改变一层内的不同输出。但是，在一层内提取的所有随机值x都是根据相同的概率密度函数分布的。

在另外的特别有利的设计中，在训练之后确定经过训练的KNN将验证输入参量值映射为相关联的验证输出参量值的准确度。所述训练重复多次，每次都对参数进行随机初始化。

在此特别有利的是，大多数或最好所有验证输入参量值不包含在学习输入参量值集合中。所述准确度的确定不受KNN的可能过拟合的影响。

将关于各个训练之后分别确定的准确度的方差确定为该训练的稳健性的度量。准确度彼此之间的差异越小，就该度量而言的稳健性越好。

不能保证从不同的随机初始化出发开始的训练最终导致表征KNN行为的相同或相似参数。先后开始的两个训练也可以提供完全不同的参数集作为结果。然而确保了通过两个参数集表征的KNN在应用于验证数据集的情况下以质量相似的方式表现。

以所描述的方式对准确度的定量测量为KNN和/或其训练的优化提供了另外的起点。在另外的特别有利的设计中，优化在指数函数中|x-q|的最大幂k或在拉普拉斯概率密度L_b(x)中的p值，目的是改进训练的稳健性。通过这种方式，训练可以更好地适应于KNN的预期应用，而不必事先知道一方面最大幂k或p值与另一方面所述应用之间的具体作用关系。

在另一特别有利的设计中，优化表征KNN体系架构的至少一个超参数，目的是改进训练的稳健性。超参数例如可以涉及KNN的层数量和/或每层中处理单元的类型和/或数量。由此也在KNN体系架构方面实现了至少部分地通过自动化的机器工作代替人类开发工作的可能性。

有利地，随机值x在KNN的训练步骤期间分别保持恒定，并且在训练步骤之间从随机变量中新提取。训练步骤尤其可以包括将学习输入参量值的至少一个子集处理为输出参量值，根据成本函数将这些输出参量值与学习输出参量值进行比较，以及将由此获得的知识反映到表征KNN行为的参数中。在此，这种反映例如可以通过经由KNN的连续反向传播进行。尤其是对于这种反向传播，有意义的是相应处理单元处的随机值x与在处理输入参量值的途中也使用的随机值x相同。通过处理单元代表的函数在反向传播时使用的推导于是对应于在途中使用的函数。

在特别有利的设计中，将KNN构造为分类器和/或回归器。在分类器的情况下，改进的训练导致KNN在训练中未出现的新状况下以更大的概率提供在具体应用的意义上正确的分类。与此类似，回归器提供（一维或多维的）回归值，该回归值更接近于利用回归搜索的至少一个参量在具体应用的意义上正确的值。

以这种方式改进的结果又可以在技术系统中产生有利的影响。因此，本发明还涉及一种用于训练和运行KNN的组合方法。

在这种方法中，利用上述方法对KNN进行训练。然后将测量数据输送给经过训练的KNN。这些测量数据通过物理测量过程和/或通过对这种测量过程的部分或完整仿真和/或通过对可利用这种测量过程观察的技术系统的部分或完整仿真来获得。

正是这种测量数据具有以下特性：所述测量数据中通常出现未包含在用于训练KNN的学习数据中的布局（Konstellation）。例如，很多因素都会影响由摄像机观察的场景如何转换为所记录的图像的强度值。因此，如果在不同的时间点观察同一个场景，则会以接近确定性的概率记录不同的图像。因此可以预期，在使用经过训练的KNN时出现的每个图像至少在一定程度上不同于在训练KNN时使用的所有图像。

经过训练的KNN将作为输入参量值获得的测量数据映射为输出参量值，例如映射为分类和/或回归。根据这些输出参量值形成操控信号，并且利用所述操控信号来操控车辆和/或分类系统和/或用于对批量生产的产品进行质量控制的系统和/或用于医学成像的系统。

在这种关联下，经过改进的训练具有以下效果：以更高的概率触发对相应技术系统的操控，所述操控在相应应用的背景下以及由所述测量数据代表的系统当前状态的背景下是合适的。

所述训练的结果体现在表征KNN行为的参数中。包括这些参数并使用上述方法获得的参数集可以直接用于将KNN置于经过训练的状态。尤其是如果所述参数集一次性存在，则可以任意复制具有通过上述训练改进的行为的KNN。因此所述参数集是可以独立销售的产品。

所描述的方法可以全部或部分地由计算机实现。因此，本发明还涉及一种具有机器可读指令的计算机程序，当所述机器可读指令在一个或多个计算机上执行时，所述机器可读指令促使所述一个或多个计算机执行所描述的方法之一。在这个意义上，将也能够执行机器可读指令的车辆控制设备和技术设备的嵌入式系统视为计算机。

本发明还涉及一种机器可读数据载体和/或一种具有计算机程序的下载产品。下载产品是一种数字产品，其可以经由数据网络传输，即可以由所述数据网络的用户下载，并且所述数字产品可以在例如在线商店中出售以供立即下载。

此外，计算机可以配备有所述参数集、所述计算机程序、所述机器可读数据载体和/或所述下载产品。

下面基于附图与本发明的优选实施例的描述一起更详细地示出改进本发明的其他措施。

附图说明

图1示出了用于训练KNN 1的方法100的实施例；

图2示出了具有多个层3a-3c的KNN 1中处理单元2的输出2b的示例性变化；

图3示出了用于训练KNN 1和用于运行以这种方式训练的KNN 1*的组合方法200的实施例。

具体实施方式

图1是用于训练KNN 1的方法100的实施例的流程图。在步骤110中，优化在其体系架构中设定的KNN 1的参数12，目的是根据成本函数16将学习输入参量值11a尽可能好地映射为学习输出参量值13a。结果，KNN 1被置于其经过训练的状态1*，该状态通过经过优化的参数12*表征。

为了清楚起见，在图1中没有进一步解释根据成本函数16进行的属于现有技术的优化。而是仅在框110内示出了如何干预该已知过程以改进训练结果。

在步骤111中，从随机变量4中提取随机值x。随机变量4在统计方面通过其概率密度函数4a表征。如果从相同随机变量4中提取许多随机值x，则x的各个值出现的概率平均由密度函数4a描述。

在步骤112中，将KNN 1的处理单元2的输出2b乘以随机值x。在步骤113中，将以这种方式形成的乘积作为输入2a输送到KNN 1的另外的处理单元2'。

在此根据块111a，在KNN 1的层3a-3c内对所有处理单元2分别使用相同的随机变量4。根据块111b，随机值x可以在KNN 1的训练步骤期间保持恒定，所述训练步骤除了将学习输入参量值11a映射为输出参量值13之外还可以包括由成本函数16确定的误差通过KNN1的连续反向传播。然后可以根据块111c在训练步骤之间从随机变量4中重新提取随机值x。

根据步骤110对KNN 1的一次性训练就已经改进了KNN 1在技术应用中的行为。如果执行多个这样的训练，可以进一步提高这种改进。这在图1中更详细地示出。

在步骤120中，在训练之后，确定经过训练的KNN 1*将验证输入参量值11b映射为相关联的验证输出参量值13b的准确度14。在步骤130中，该训练多次重复，每次都对参数12进行随机初始化12a。在步骤140中，将关于在各个训练之后分别确定的准确度14的方差确定为所述训练的稳健性15的度量。

稳健性15可以就这样以任何方式加以评估，以导出关于KNN 1行为的判断。然而，也可以将稳健性15反映到KNN 1的训练中。为此，图1中说明了两种示例性的可能性。

在步骤150中，可以优化指数函数中|x-q|的最大幂k或拉普拉斯概率密度L_b(x)中的p值，目的是改进稳健性15。在步骤160中，可以优化表征KNN体系架构的至少一个超参数，目的是改进稳健性15。

图2示例性地示出了从随机变量4、4'中提取的随机值x如何能够影响具有多个层3a-3c的KNN 1中处理单元2的输出2b。在图2所示的示例中，KNN 1由三个层3a-3c组成，每层具有四个处理单元2。

将输入参量值11a作为输入2a输送到KNN 1的第一层3a的处理单元2。通过参数12表征行为的处理单元2产生输出2a，这些输出2a被确定用于分别下一层3a-3c的处理单元2。最后一层3c中处理单元2的输出2b同时形成由KNN 1整体提供的输出参量值13。为了便于阅读，针对每个处理单元2仅分别绘制唯一一个到另外的处理单元2的传递。在真实的KNN 1中，层3a-3c中每个处理单元2的输出2b典型地都作为输入2a发送给后续层3a-3c中的多个处理单元2。

处理单元2的输出2b各自乘以随机值x，并且将分别获得的乘积作为输入2a输送到下一个处理单元2。在此，对于第一层3a的处理单元2的输出2b，分别从第一随机变量4中提取随机值x。对于第二层3b的处理单元2的输出2b，分别从第二随机变量4'中提取随机值x。例如，表征两个随机变量4和4'的概率密度函数4a可以是不同尺度的拉普拉斯分布。

在评估成本函数16的范围中，KNN将学习输入参量值11a映射为的输出参量值13与学习输出参量值13a进行比较。由此确定参数12的变化，通过这些变化在学习输入参量值11a的进一步处理中推测地可以由成本函数16获得更好的评估。

图3是用于训练KNN 1和随后运行以这种方式训练的KNN 1*的组合方法200的实施例的流程图。

在步骤210中，利用方法100训练KNN 1。然后KNN 1处于其经过训练的状态1*，并且其行为通过经过优化的参数12*表征。

在步骤220中，运行完成训练的KNN 1*并将包括测量数据的输入参量值11映射为输出参量值13。在步骤230中，从输出参量值13中形成操控信号5。在步骤240中，利用操控信号5操控车辆50和/或分类系统60和/或用于对批量生产的产品进行质量控制的系统70和/或用于医学成像的系统80。

Claims

1.用于训练人工神经网络KNN（1）的方法（100），所述KNN包括多个处理单元（2），其中优化表征所述KNN（1）行为的参数（12）（110），目的是所述KNN（1）根据成本函数（16）将学习输入参量值（11a）尽可能好地映射为相关联的学习输出参量值（13a），其中将至少一个处理单元（2）的输出（2b）与随机值x相乘（112），并且然后作为输入（2a）输送到至少一个另外的处理单元（2'）（113），其中以事先设定的概率密度函数（4a）从随机变量（4）中提取所述随机值x（111），其中所述概率密度函数（4a）与在|x-q|中随着|x-q|的增加而下降的指数函数成比例，其中q是可自由选择的位置参数，并且其中在所述指数函数的自变量中，|x-q|包含在幂|x-q|^k中，其中k≤1。

2.根据权利要求1所述的方法（100），其中所述概率密度函数（4a）是拉普拉斯分布函数。

3.根据权利要求2所述的方法（100），其中所述拉普拉斯分布函数的概率密度

由下式给出：

，其中

且

。

4.根据权利要求1至3中任一项所述的方法（100），其中所述KNN由多个层（3a-3c）构建，并且其中对于至少一层（3a-3c）中的处理单元（2），从同一个随机变量（4）中提取所述随机值x（111a）。

5.根据权利要求1至4中任一项所述的方法（100），其中

•在所述训练之后确定经过训练的KNN（1*）将验证输入参量值（11b）映射为相关联的验证输出参量值（13b）的准确度（14）（120），

•所述训练重复多次（130），每次都对所述参数（12）进行随机初始化（12a），

•将关于各个训练之后分别确定的准确度（14）的方差确定为所述训练的稳健性（15）的度量（140）。

6.根据权利要求5所述的方法（100），其中优化在所述指数函数中|x-q|的最大幂k或在所述拉普拉斯概率密度L_b(x)中的p值（150），目的是改进所述训练的稳健性（15）。

7.根据权利要求5至6中任一项所述的方法（100），其中优化表征所述KNN（1）体系架构的至少一个超参数（160），目的是改进所述训练的稳健性（15）。

8.根据权利要求1至7中任一项所述的方法（100），其中所述随机值x在所述KNN（1）的训练步骤期间分别保持恒定（111b），并且在训练步骤之间从所述随机变量（4）中重新提取（111c）。

9.根据权利要求1至8中任一项所述的方法（100），其中将所述KNN（1）构造为分类器和/或回归器。

10.用于训练和运行人工神经网络KNN（1）的方法（200），其中

•利用根据权利要求1至9中任一项所述的方法（100）训练所述KNN（1）（210）；

•将测量数据作为输入参量值（11）输送给经过训练的KNN（1*）（220），所述测量数据通过物理测量过程和/或通过对这种测量过程的部分或完整仿真和/或通过对能利用这种测量过程观察的技术系统的部分或完整仿真而获得；

•根据由经过训练的KNN（1*）提供的输出参量值（13）形成操控信号（5）；以及

•利用所述操控信号（5）来操控车辆（50）和/或分类系统（60）和/或用于对批量生产的产品进行质量控制的系统（70）和/或用于医学成像的系统（80）（230）。

11.具有参数（12）的参数集，所述参数（12）表征KNN（1）的行为，利用根据权利要求1至9中任一项所述的方法（100）获得。

12.包含机器可读指令的计算机程序，当所述机器可读指令在一个或多个计算机上执行时，所述机器可读指令促使所述一个或多个计算机执行根据权利要求1至10中任一项所述的方法（100、200）。

13.机器可读数据载体和/或下载产品，具有根据权利要求11所述的参数集和/或具有根据权利要求12所述的计算机程序。

14.计算机，配备有根据权利要求11所述的参数集、根据权利要求12所述的计算机程序和/或根据权利要求13所述的机器可读数据载体和/或下载产品。