CN111295676A

CN111295676A - 用于自动产生人工神经网络的方法和设备

Info

Publication number: CN111295676A
Application number: CN201880069376.4A
Authority: CN
Inventors: J.H.梅岑; T.埃尔斯肯; F.胡特
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2017-10-26
Filing date: 2018-10-24
Publication date: 2020-06-16
Also published as: KR20200073269A; WO2019081545A1; US11727277B2; US20210133576A1; DE102017219282A1; KR102569169B1; EP3701434A1

Abstract

一种用于自动产生人工神经网络（60）的方法，所述人工神经网络包括模块和连接，所述连接将所述模块链接，其中逐个模块和/或连接被添加至当前的初始网络（60），其中从可预先给定的多个可能的可添加的模块和连接中随机地选出要添加的模块和/或连接，并且其中分别通过将要添加的模块和/或连接添加至初始网络来产生当前的初始网络（60）的多个可能的扩展（61），而且其中接着选出来自多个可能的扩展（61）的扩展（61）之一，以便在下一次遍历所述方法中用作当前的初始网络（60）。

Description

用于自动产生人工神经网络的方法和设备

技术领域

本发明涉及一种用于自动产生人工神经网络的方法、一种计算机程序、一种机器可读的存储介质和一种系统；所述计算机程序包括指令，所述指令配置为当在计算机上实施所述计算机程序时实施该方法；在所述机器可读的存储介质上存储有计算机程序；所述系统尤其是包括一个或者多个计算机，所述系统配置为实施该方法。

背景技术

从“Reinforcement Learning for Architecture Search by NetworkTransformation”（arXiv preprint arXiv：1707.04873vl，2017年，Han Cai，TianyaoChen，Weinan Zhang，Yong Yu，Jun Wang）中已知了一种用于借助强化学习（英语：reinforcement learning）来自动产生人工神经网络的架构的方法，其中该网络在保留其功能的情况下被深化或者被拓宽。

发明内容

本发明的优点

与此相对照，具有独立权利要求1的特征的方法有如下优点：该方法能够实现非常高效地自动化地建立性能强的被扩大的人工神经网络。

有利的改进方案是独立权利要求的主题。

本发明的公开

在第一方面，本发明涉及一种用于自动产生人工神经网络的方法，该人工神经网络包括模块和连接，所述连接将这些模块链接，其中逐个模块和/或连接被添加至当前的初始网络（Ausgangsnetz），

其中从可预先给定的多个可能的可添加的模块和连接中随机地选出要添加的模块和/或连接，并且其中分别通过将要添加的模块和/或连接添加至初始网络来产生当前的初始网络的多个可能的扩展，（也就是说，扩展中的每个扩展分别包括当前的初始网络和所添加的模块和/或连接），

并且其中接着选出来自多个可能的扩展的所述扩展中的一个，以便在下一次遍历（Durchlauf）该方法中用作当前的初始网络。

模块是神经网络的单元，这些单元根据（必要时向量值（vektorwertigen））输入变量来测定（必要时向量值）输出变量。模块例如可以是人工神经网络的层，或者是人工神经元。

也就是说，“逐个的”意思是：该方法包括多个轮次，其中在每个轮次中，从当前的初始网络出发来产生可能的扩展，并且从中接着选出（优选地最好的）扩展，以便在下一个轮次中用作当前的初始网络。

也就是说，重复地形成多个可能的扩展，并且从这些可能的扩展中仅仅选出（优选地最好的）扩展，所述（优选地最好的）扩展接着又用作其他扩展的基础。以这种方式逐步地扩大人工神经网络。已认识到，这种贪婪的行为方式令人感到意外地在短时间内导致性能非常强的人工神经网络，而不是比方说带入妨碍性的次极小（hemmende Nebenminima）。

在改进方案中可以设置，在添加相应的模块和/或连接时，表征相应的要添加的模块和/或连接的可预先给定的参数被选择成使得：针对每个可能的输入变量，添加了相应的要添加的模块和/或连接的初始网络分别在添加相应的要添加的模块和/或连接之前和之后提供不改变的输出变量。

也就是说，要添加的模块和/或连接的相对应的参数被选择成使得：初始网络和通过添加要添加的模块和/或连接来扩展的网络在功能上是等同的。经此，可能的扩展变成快速得非常多地可训练的，这加速了该方法。

可替选地或者附加地可以设置，在首次添加模块和/或连接之前，利用初始训练数据组来训练如下那个当前的初始网络：所述当前的初始网络用作首次添加模块和/或连接的起点。这导致进一步加速该方法。

可替选地或者附加地可以设置，接着在为了在下一次遍历该方法中用作当前的初始网络而选出来自多个可能的扩展中的扩展中的一个之前，分别利用训练数据组来训练当前的初始网络的可能的扩展。

选出来自多个可能的扩展中的一个扩展可以根据如下变量进行：所述变量表征多个可能的扩展中的每个扩展的相应的性能。该变量优选地可以根据多个扩展中的相应一个扩展的输出变量来选择。

在该方面的改进方案中可以设置，分别利用梯度下降方法来训练初始网络的扩展，其中随着所执行的训练期（Trainingsepochen）的数目的增加而降低地来选择表征梯度下降方法的学习率的参数。

也就是说，表征学习率的变量被选择成使得：该变量随着学习持续时间的增加而减少。这有如下优点：梯度下降方法特别快速地收敛。即已认识到，经此可以特别可靠地抵消所估计的梯度中的波动。

在这种情况下，表征学习率的参数的降低的变化过程（Verlauf）可以借助三角函数来表征。

这是为了表征降低的学习率的特别简单的途径，所述降低的学习率具有优选的平缓的变化过程。例如，可以选择表征学习率的变量

，其中t标明（例如在训练期中测量的）训练时间，并且T标明可预先给定的总时间。

在本发明的另一方面中可以设置，按照上述权利要求之一，其中可预先给定的多个可能的模块和/或连接包括归一化模块和/或跳跃连接（英语：skip connection）和/或包含非线性函数的模块，其中非线性函数针对表征其特性的参数的至少一个值是幂等的。通过非线性函数的条件，表征性的参数可以选择为使得：如果紧接在幂等函数之前或者之后已经在初始网络中存在幂等函数，则非线性函数不改变输出变量。

归一化模块例如可以是层归一化（英语：layer normalization）或者是批量归一化（英语：batch normalization）。已认识到，这些模块可以高效地被初始化，并且通过将这些模块吸收到可预先给定的多个可能的模块中，可以特别高效地生成有效率的人工神经网络。

尤其是可以设置，可预先给定的多个可能的模块和/或连接包含归一化模块和跳跃连接和包含非线性函数的模块和包含线性函数的模块，并且包含通过添加单元或通道来拓宽现有的线性层的模块，而且包含通过复制线性层来拓宽该线性层的模块。

已表明的是，利用可预先给定的多个可能的模块和/或连接可以特别高效地生成人工神经网络。

在其他方面中，本发明涉及一种计算机程序，该计算机程序配置来实施根据本发明的方法。也就是说，计算机程序包括指令，当计算机运行计算机程序时，所述指令促使所述计算机实施根据本发明的方法。

在还有其他方面中，本发明涉及一种机器可读的存储介质，在所述机器可读的存储介质上存储有该计算机程序；而且本发明涉及一种计算机，该计算机配置为实施该方法。

附图说明

随后，参照随附的附图更详细地阐述了本发明的实施形式。在附图中：

图1示意性地示出了根据本发明产生的人工神经网络的应用可能性；

图2示意性地示出了用于产生人工神经网络的示例性的学习系统；

图3以流程图示出了用于产生人工神经网络的方法的可能的流程。

具体实施方式

图1示例性地示出了在其环境20中与执行器控制系统40交互的执行器10。执行器10和环境20共同地随后也被称为执行器系统。利用传感器30检测执行器系统的状态，所述状态也可以通过多个传感器来给出。向执行器控制系统40传送传感器30的输出信号S。执行器控制系统40从中测定操控信号（Ansteuersignal）A，执行器10接收所述操控信号A。

执行器10例如可以是（部分）自主的机器人、例如（部分）自主的机动车。传感器30例如可以是一个或者多个视频传感器，和/或一个或者多个雷达传感器，和/或一个或者多个超声传感器，和/或一个或者多个位置传感器（例如GPS）。可替选地或者附加地，传感器30也可以包括测定关于执行器系统的状态的信息的信息系统、如例如天气信息系统，该天气信息系统测定环境20中的天气的当前的或者未来的状态。

在另一实施例中，执行器10可以是制造机器人，并且那么，传感器30例如是光学传感器，所述光学传感器检测制造机器人的制造产品的性质。

在其他实施例中，执行器10可以是释放系统（Freigabesystem），该释放系统配置为释放或者不释放设备的活动。传感器30例如可以是光学传感器（例如用于检测图像或者视频数据），该光学传感器配置为检测面部。执行器10根据该操控信号A测定释放信号，该释放信号可以被使用，以便根据释放信号的值来释放所述设备。所述设备例如可以是物理的或者逻辑的访问控制装置。根据操控信号A的值，访问控制装置接着可以设置，允许访问，或者不允许访问。

也可能的是，代替执行器10，例如操控医学诊断系统，所述医学诊断系统根据操控信号A输出医学诊断。如果传感器30是检测医学图像的光学传感器，则操控信号A例如可以是如下图像的必要时配备有注释的语义分割：在这些图像中突出有对于医学诊断显现为特别重要的区域。在该情况下，附图标记40标明代理控制系统（Agentensteuerungssystem）。

执行器控制系统40在可选的接收单元50中接收到传感器的输出信号S，所述接收单元50将输出信号S转换成数据信号x（可替选地也可以直接采纳输出信号S作为数据信号x）。数据信号x例如可以是输出信号S的片段或者进一步处理。数据信号x作为输入信号被输送给人工神经网络60。人工神经网络的结构通过结构参数q表征，所述结构参数q存放在结构参数存储器Q中。人工神经网络60通过可预先给定的参数p来参数化，所述参数p存放在参数存储器P中。

在下文所描述的优选的实施例中，数据信号x是二维图像信号，所述二维图像信号的像素通过例如一个数值（亮度编码）或者三个数值（RGB编码）来表征。但是，数据信号x也可以是另外的一维或者多维数据信号。

人工神经网络60从输入信号x（这里是从图像信号x）中测定所属的输出信号y、例如逐像素的语义分割。在这种情况下，给图像信号x的每个区域分配语义值。

输出信号y（这里为语义分割y）被传送给输出单元80，所述输出单元80从中测定操控信号A。也就是说，根据语义分割y，测定操控信号A。在另外的实施形式中，也可能的是，输出单元80采纳输出信号y直接作为操控信号A。

执行器控制系统40在一实施形式中包括计算机和机器可读的存储介质（未示出），在所述机器可读的存储介质上存储有计算机程序，当所述计算机程序被计算机实施时，所述计算机程序促使所述计算机实施执行器控制系统40的所描述的功能性。

图2示意性地示出了用于产生人工神经网络60的系统140的实施例。训练数据单元150测定合适的输入变量x，所述合适的输入变量x被输送给人工神经网络。例如，训练数据单元150访问计算机实施的数据库，在所述计算机实施的数据库中存储有训练数据的组，并且例如随机地从所述训练数据的组中选出输入变量x。可选地，训练数据单元150也测定对于所述输入变量x分配的所期望的输出变量y_s，所述输出变量y_s被输送给评价单元（Bewertungseinheit）180。

人工神经网络x配置为，从输送给该人工神经网络的输入变量x中测定所属的输出变量y。输出变量y被输送给评价单元180。

修改单元160例如利用在图3中所图解说明的方法来测定新的结构参数q‘和新的参数p‘，并且将所述新的结构参数q‘和新的参数p‘输送给结构参数存储器Q和参数存储器P，在那里所述新的结构参数q‘和新的参数p‘替换结构参数q和参数p。在修改单元160中寄存有结构参数q的可能的变型。结构参数q的这种可能的变型分别对应于对于人工神经网络60的可添加的模块和连接的可能的组合。

根据本发明的一个方面，从初始版本的人工神经网络60、即初始网络出发。经由将结构参数q和参数p输送至人工神经网络60，因而每次完成人工神经网络60的一个可能的扩展61。如给人工神经网络60那样可以相对应地给扩展61中的每个扩展都输送输入变量x，使得该扩展接着测定相对应的输出变量y。

评价单元180例如可以借助与输出变量y和所期望的输出变量y_s有关的成本函数（英语：loss function（损失函数））来测定特征变量

，所述特征变量表征人工神经网络60或扩展61的性能。

在结构参数q固定的情况下，通过改变参数p可以优化人工神经网络60或扩展61。通过接着得到的表征性能的特征变量

，可以选出最有效率的那个扩展61。

系统140例如可以包括一个计算机或者多个计算机，并且该系统140在实施例中包括机器可读的存储介质200，在该机器可读的存储介质200上存储有计算机程序210，所述计算机程序210配置为实施根据本发明的方法。

图3以流程图示出了用于产生人工神经网络60的方法的可能的流程。

首先（1000），测定初始网络60（例如其方式是：从存储区域中读出表征性的结构参数q）。可选地，训练分配给该初始网络的参数p。

接着（1100），借助（伪）随机数发生器选择结构参数q的可能的变型，例如8个或者16个不同的变型（当然该数目可自由选择，可是已表明，在8到16范围中的数目导致特别好的结果）。也就是说，并行地生成多个（例如8个或者16个）可能的扩展61，这些扩展分别从初始网络60中通过添加由模块和/或连接构成的组合得到，所述模块和/或连接包括下列组合中的一个或多个：

第一可能的组合是在初始网络60的可预先给定的（和优选地随机选择的）参考层之前添加线性层。可预先给定的参考层也可以是输出网路60的输出。也就是说，如果输入变量z_e被输送给参考层，所述参考层从中生成输出变量，则在该层之前嵌入线性层，所述线性层接收输入变量z_e，从中测定经变换的输入变量z_e‘=a*z_e+b（其中参数a、b可自由选择），并且代替输入变量z_e给参考层输送经变换的输入变量z’_e。优选地，选择b=0和a=1。

第二可能的组合是在可预先给定的参考层之前添加非线性层。在这种情况下，标识出参考层的幂等函数h（例如可以标识出，输入变量z_e被输送给函数relu(x)=max(0,x)）。表征要添加的幂等函数h的参数优选地选择为等于在参考层中存在的幂等函数的相对应的参数，给所述在参考层中存在的幂等函数输送要添加的幂等函数h的输出变量。可替选地，也可以嵌入非线性函数，而不一定在参考层中已标识出幂等函数。接着，要添加的幂等函数可以选择成（例如选择为凸线性组合（konvexe Linearkombination））使得：该要添加的幂等函数针对确定的参数相同。也就是说，代替输入变量z_e，给参考层输送经变换的输入变量z_e‘ =a*h(z_e) + (l-a)*z_e。优选地，初始选择a=0。

第三可能的组合是将各个神经元添加至可预先给定的参考层。在这种情况下，表征输入变量的输入到参考层的输出变量中的函数关联的参数优选地选择成使得：参考层的输出变量与输入变量的函数相关性保持不改变。

第四可能的组合是将各个连接添加至可预先给定的参考层。例如，可以与已经现有的连接并行地添加连接。在这种情况下，表征输入变量的输入到参考层的输出变量中的函数关联的参数优选地被选择成使得：参考层的输出变量与输入变量的函数相关性保持不改变。

第五可能的组合是添加在两个（优选地随机选择的）可预先给定的参考层之间的跳跃连接、即从可预先给定的输出层到可预先给定的目标层中的跳跃连接。这种跳跃连接可以或者被选择成使得其输出变量在目标层中被增加至另一输出变量（在该情况下，跳跃连接的参数优选地被选择成使得，跳跃连接的权重被选择为等于0，而所增加的输出变量的权重被选择为等于1）。

第六可能与第五可能类似，不同在于，跳跃连接被选择成使得，该跳跃连接的输出变量在目标层中联接至另外的输出变量（在该情况下，给所联接的部件加权的权重被选择为优选等于0）。

第七可能是在初始网络60的可预先给定的（和优选地随机选择的）参考层之后添加归一化模块。根据参考层的输出变量z_r的统计学分布，测定统计学参数μ,σ，所述统计学参数例如可以对应于所选择的参数的平均值或所估计的标准分布。例如可以关于一层的行和/或列求平均值地来测定这些参数，或者也可以关于参考层的输出变量在扩展61的一批输入变量x上求平均值地来测定这些参数。归一化模块的输出变量y_r接着可以被选择为：

。

参数ε在这种情况下出于数值稳定性的原因可以设置到固定选择的小的值，例如ε=10^-10。参数γ、β优选地被选择为：

。

紧接着（1200），训练所产生的可能的扩展61。为此，在训练期（Trainings-Epochen）中，给所产生的可能的扩展61中的每个扩展都输送输入变量x，并且根据从输入变量x中测定的输出变量y来测定表征性能的特征变量

。参数p现在逐步迭代地变化，其中p₀=p，

。在这种情况下，η_t是表征学习率的参数。优选地，随着迭代索引t的升高而降低地选择所述参数，例如与具有可预先给定的总时间T的

成比例地选择所述参数。该迭代长时间地执行，直至参数p在索引t_c处收敛。接着，选择新参数p‘=p_tc。

接着（1300），给所产生的和经过训练的可能的扩展61输送可预先给定的输入变量，并且针对可能的扩展61中的每个扩展测定得到的表征性能的特征变量

。也可设想的是，在训练的变化过程中考虑在步骤（1200）中所测定的特征变量

。

最后（1400），根据所测定的特征变量

选出如下那个扩展61：该扩展61的特征变量

是最好的，例如是最大的。

现在可以检查，所选出的扩展61是否已达到足够明显比初始网络60更好的特征变量

。如果情况不是如此，则该方法结束，并且所选出的扩展61（可替选地当前的初始网络60）得出所产生的人工神经网络。

要不然，所选出的扩展61现在替换当前的初始网络60，也就是说，分配给所选出的扩展61的结构参数q‘和分配给该扩展61的所测定的参数p‘替换结构参数q和参数p。接着，该方法分支返回到步骤1100。

应注意的是，随着人工神经网络60的产生，也可以产生相对应的执行器或代理控制系统40，在所述执行器或代理控制系统中采用该人工神经网络60。例如，所有另外的部件可以可不改变地被预先给定，并且仅仅产生所包含的人工神经网络60。

该方法可以作为计算机程序、即软件来实施，或者以硬件或者以由硬件和软件构成的混合形式来实施。

Claims

1.一种用于自动产生人工神经网络（60）的方法，所述人工神经网络（60）包括模块和连接，所述连接将所述模块链接，

其中逐个模块和/或连接被添加至当前的初始网络（60），

其中从可预先给定的多个可能的可添加的模块和连接中随机地选出要添加的模块和/或连接，

并且其中分别通过将要添加的模块和/或连接添加至所述初始网络来产生所述当前的初始网络（60）的多个可能的扩展（61），

并且其中接着选出来自所述多个可能的扩展（61）的所述扩展（61）中的一个，以便在下一次遍历所述方法中用作当前的初始网络（60）。

2.根据权利要求1所述的方法，其中，在添加相应的模块和/或连接时，表征相应的要添加的模块和/或连接的可预先给定的参数（p）被选择成使得：针对每个可能的输入变量（x），添加了所述相应的要添加的模块和/或连接的所述初始网络（60）分别在添加所述相应的要添加的模块和/或连接之前和之后提供不改变的输出变量（y）。

3.根据上述权利要求中任一项所述的方法，其中，在首次添加模块和/或连接之前，利用初始训练数据组来训练如下那个当前的初始网络（60）：所述当前的初始网络（60）用作首次添加模块和/或连接的起点。

4.根据上述权利要求中任一项所述的方法，其中，接着在为了在下一次遍历所述方法中用作当前的初始网络（60）而选出来自所述多个可能的扩展的所述扩展中的所述一个之前，分别利用训练数据组来训练所述当前的初始网络（60）的所述可能的扩展（61）。

5.根据权利要求4所述的方法，其中，分别利用梯度下降方法来训练所述初始网络（60）的所述扩展，其中随着所执行的训练期的数目的增加而降低地来选择表征所述梯度下降方法的学习率的参数（η）。

6.根据权利要求5所述的方法，其中，表征所述学习率的所述参数（η）的降低的变化过程借助三角函数来表征。

7.根据上述权利要求中任一项所述的方法，其中，所述可预先给定的多个可能的模块和/或连接包括归一化模块和/或跳跃连接（英语：skip connection）和/或包含非线性函数的模块，其中所述非线性函数针对表征其特性的参数（p）的至少一个值是幂等的。

8.根据权利要求7所述的方法，其中，所述可预先给定的多个可能的模块和/或连接包含所述归一化模块和所述跳跃连接和所述包含非线性函数的模块和包含线性函数的模块，并且包含通过添加单元和/或通道来拓宽现有的线性层的模块，而且包含通过复制线性层来拓宽所述线性层的模块。

9.一种计算机程序（210），所述计算机程序（210）配置为，实施根据权利要求1至8中任一项所述的方法。

10.一种机器可读的存储介质（200），在所述机器可读的存储介质（200）上存储有根据权利要求9所述的计算机程序。

11.一种系统（140），所述系统（140）配置为，实施根据权利要求1至8中任一项所述的方法。