CN113243021A

CN113243021A - 用于训练神经网络的方法

Info

Publication number: CN113243021A
Application number: CN201980084359.2A
Authority: CN
Inventors: F·施密特; T·萨克塞
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2018-12-19
Filing date: 2019-11-28
Publication date: 2021-08-10
Also published as: TW202105261A; JP2022514886A; DE102018222347A1; EP3899808A1; WO2020126378A1; JP7137018B2; KR20210099149A; US20210406684A1

Abstract

用于训练神经网络（60）的计算机实现的方法，所述神经网络尤其被设立用于对物理测量参量进行分类，其中所述神经网络（60）借助于训练数据集（X）来被训练，其中为了进行所述训练，从所述训练数据集（X）中抽取包括输入信号（x）和所属的所希望的输出信号（y_T）的对，其中在供应所述输入信号（x）的情况下并且根据所希望的输出信号（y_T）根据所述神经网络（60）的输出信号（y）来进行对所述神经网络（60）的参数（θ）的适配，其特征在于，始终从整个训练数据集（X）中实现对的所述抽取。

Description

用于训练神经网络的方法

技术领域

本发明涉及用于训练神经网络的方法、训练系统、这样训练的神经网络的应用、计算机程序和机器可读存储介质。

背景技术

从“Improving neural networks by preventing co-adaptation of featuredetectors”, arXiv preprint arXiv:1207.0580v1, Geoffrey E. Hinton, NitishSrivastava, Alex Krizhevsky, llya Sutskever, Ruslan R. Salakhutdinov (2012)，公知一种用于训练神经网络的方法，其中在训练期间随机忽略特征检测器。该方法也以名称“Dropout（丢弃）”公知。

从“Batch Normalization: Accelerating Deep Network Training byReducing Internal Covariate Shift”, arXiv preprint arXiv:1502.03167v3, Sergeyloffe, Christian Szegedy (2015)公知一种用于训练神经网络的方法，其中将输入参量归一化到小批量（英文：“mini-batch”）的训练示例的层中。

发明内容

本发明的优点

与此相对地，具有独立权利要求1的特征的方法具有如下优点：该方法可确保被训练的系统的可靠性，这对于安全关键的应用来说是必不可少的。令人吃惊的是，在无需忍受在训练结束时可实现的（例如在图像分类方面的）性能方面变差的情况下得到该优点。

扩展方案是从属权利要求的主题。

本发明的公开

在有足够多的训练数据的情况下，可以使用所谓的“Deep Learning（深度学习）”方法、即（深度）人工神经网络，以便高效地确定输入空间V₀与输出空间V_k之间的映射。这例如可以是对传感器数据、尤其是图像数据的分类，即从传感器数据或图像数据到类别的映射。以规定k-1个隐藏空间

的方案为基础。还规定了在这些空间之间的k个映射

。这些映射

中的每个映射通常都被称作层（英文：“layer”）。通常，这种层

通过在适当地选择的空间

的情况下的权重

来被参数化。k个层

的权重

也被统称为权重

，而且从输入空间V₀到输出空间V_k的映射为

，该映射根据各个映射

（在有明确表示为下标的权重

）的情况下为

。

在被定义到

的给定的概率分布D的情况下，训练神经网络的任务在于：将权重

确定为使得成本函数L的期望值Φ

（1）

被最小化。在这种情况下，成本函数L表示对在借助于函数

所确定的输入参量x_D到在输出空间V_k中的参量

的映射与在输出空间V_k中的实际输出参量y_D之间的距离的量度。

“深度神经网络”可以被理解成具有至少两个隐藏层（英文：“hidden layer”）的神经网络。

为了将该期望值Φ最小化，可以使用基于梯度的方法，这些基于梯度的方法确定关于权重w方面的梯度

。该梯度

通常借助于训练数据

来被近似，即通过

来被近似，其中从所谓的时期（Epoche）中选择索引j。在这种情况下，时期是可用训练数据点的标签{1, ..., N}的排列。

为了扩展训练数据集，可以使用所谓的数据增强（也称作增强）。在这种情况下，可以针对该时期中的每个索引j在对

的位置选择增强对

，其中这里输入信号x_j被增强输入值

替代。在这种情况下，

可以是输入信号x_j的典型变化的集合（包括输入信号x_j本身在内），这些变化使输入信号x_j的分类、即神经网络的输出信号不变。

不过，这种基于时期的采样与根据等式（1）的定义并不完全一致，因为每个数据点在该时期的过程中正好被选择一次。而根据等式（1）的定义以独立抽取的数据点为基础。也就是说，等式（1）的前提是“在有放回的情况下”对数据点的抽取，而基于时期的采样实行“在没有放回的情况下”对数据点的抽取。这可能导致：数学收敛证明的前提不存在（因为如果从N个数据点的集合中抽取N个示例，则对这些数据点中的每个数据点都正好抽取一次的概率小于

（对于N > 2来说）），而该概率在基于时期的采样的情况下始终等于1。

如果使用数据增强，则还可以加强该统计效果，因为在每个时期都存在集合

的元素，而且视增强函数

而定，并不能排除：

，其中

。在这种情况下难以借助于集合

对这些增强进行统计上正确的映射，因为对于每个输入数据x_j来说效果不必同样显著。这样，例如旋转可能对圆形对象没有影响，但是可能非常强烈地影响一般对象。因而，集合

的大小可取决于输入数据x_j，这对于逆向训练方法而言可能有问题。

最后，训练数据点的数目N是通常难以设置的参量。如果N被选择得过大，则训练方法的运行时间可能被过度延长；如果N被选择得过小，则不能确保收敛，因为收敛的数学证明一般基于然后并不被满足的假设。此外，不清楚应该在哪个时间点可靠地结束训练。如果在这种情况下，将数据点的一部分作为评估数据集并且借助于该评估数据集来确定收敛质量，则这可能导致：关于该评估数据集的数据点方面发生权重w的过拟合（英文：“over-fitting”），这不仅降低了数据效率，而且当网络被应用于与这些训练数据不同的训练数据时可能使该网络的性能变差。这可能导致所谓的“普遍适用性”（英文：“generalizability”）降低。

为了减少过拟合，可以借助于开头提到的“Dropout”方法来使存储在隐藏层中的信息随机稀疏。

为了改善训练过程的随机性，可以通过使用所谓的批量归一化层（英文：“batchnormalization layer”）来引入关于所谓的小批量（英文：“mini batch”）的统计参数μ和σ，这些统计参数在训练过程期间有概率被更新。在推理的情况下，这些参数μ和σ的值被选择为可固定地预先给定的值，例如被选择为来自通过对指数衰减行为的外推来进行的训练中的估计值。

如果具有索引i的层是批量归一化层，则所属的权重

在梯度下降的情况下不被更新，也就是这些权重

因此以与其余的层k的权重

不一样的方式来被处理。这增加了实现的复杂程度。

此外，所述小批量的大小是参数，该参数通常影响训练结果并且因而必须尽可能好地被设置成进一步的超参数，例如在（可能复杂的）架构搜索的框架内被设置成进一步的超参数。

因而，在第一方面中，本发明涉及一种用于训练神经网络的方法，该神经网络尤其被设立用于对物理测量参量进行分类，其中该神经网络借助于训练数据集X来被训练，其中为了进行该训练，从训练数据集中（随机）抽取包括输入信号和所属的所希望的输出信号的对，其中在供应输入信号和所希望的输出信号的情况下根据神经网络的输出信号来实现对神经网络的参数的适配，其中始终从整个训练数据集中实现对的所述抽取。

在该方面的一个优选的扩展方案中规定：对的抽取与之前在训练过程中已经抽取了哪些对无关。

换言之，从训练数据集中对对、即数据点的采样对应于“有放回的抽取”。这打破了训练数据集的训练示例通过“没有放回的抽取”来被抽取的当前范式。所述“有放回的抽取”一开始看起来不利，因为不能确保在给定数目的训练示例之内来自训练数据集中的每个数据点都被实际使用。

借此可确保被训练的系统的可靠性，这尤其对于安全关键的应用来说是必不可少的。令人吃惊的是，在无需忍受在训练结束时可实现的（例如在图像分类方面的）性能方面变差的情况下得到该优点。此外，大大简化了与可用来训练神经网络的训练系统的其它子块的接口。

可选地，所抽取的对在此还可以进一步被增强。也就是说，对于一些或者所有包含在训练数据集中（作为对的组成部分）的输入信号来说，可以规定可使输入信号经受的增强函数的集合。对相对应的增强函数的选择同样可以随机进行，优选地与之前在训练过程中已经抽取了哪些对和/或哪些增强函数无关。

在一个扩展方案中可以规定：在此，所抽取的对的输入信号利用增强函数

来被增强，也就是说输入信号在该增量函数的情况下被该输入信号的图像所替代。

优选地，在这种情况下规定：从可能的增强函数的集合

中尤其是随机地选择增强函数

，其中该集合取决于输入信号。

在这种情况下可以规定：在从训练数据集中随机抽取对的情况下，抽取到可预先给定的对的概率取决于该可预先给定的对的输入信号的可能的增强函数

的数目。

例如，该概率可以是预先给定的参量。尤其是，该概率有利地被选择得与可能的增强函数的数目成比例。这能够充分考虑到有些增强函数使输入信号不变，使得增强函数的集合的基数（也就是说集合的元素的数目）在输入信号之间可能有很大不同。通过该充分考虑，可以避免在逆向训练方法方面的可能的问题。这可以按如下地被理解：在给定的输入信号的情况下，在逆向训练方法中可以借助于适当的增强函数来生成逆向输入信号，该逆向输入信号与给定的输入信号具有小于最大距离r的足够小的距离。如果容许有两个输入信号，这两个输入信号彼此间具有小的距离（小于最大距离的两倍），则可能的是：逆向输入信号的集合重叠，使得只要该重叠未被充分考虑，这些逆向训练方法就可能被过度代表。所提到的方法做到了这一点。

在这些扩展方案的另一方面中，可以规定：根据所确定的梯度来进行对参数的适配，而且为了确定该梯度，通过考虑从训练数据集中被抽取的对的逐渐增加的数目来一直使该梯度的估计值m₁细化，直至满足可预先给定的中断条件，该中断条件取决于该梯度的估计值m₁。

这尤其意味着：在满足可预先给定的中断条件之后才进行对参数的适配。

这不同于现有技术中的诸如随机梯度下降（英文：“stochastic gradientdescent”）那样的常用方法，在这些常用方法中，总是在可预先给定的小批量内进行对该梯度的平均。该小批量具有可预先给定的大小，该大小可以被设置成超参数。通过从训练数据集中连续添加对，在所提出的方法中能够一直实施该确定，直至该梯度可靠地朝向上升方向。

此外，小批量的大小是所要优化的超参数。由于可以省去该优化，所以该方法更高效且更可靠，因为过拟合可以更为有效地被抑制而且取消了作为超参数的批量大小。

尤其是，可预先给定的中断条件也可以取决于该梯度的估计值m₁的协方差矩阵C。

经此，能够特别简单地确保该梯度可靠地朝向上升方向。

例如，可预先给定的中断条件可包括如下条件：估计值m₁和协方差矩阵C对于可预先给定的置信度值λ来说是否满足条件

。

即，利用该条件来引入概率中断标准。由此，也能够利用可预先给定的置信度来确保该梯度在置信度值λ的情况下朝向上升方向。

在这些扩展方案的另一方面中，可以规定：所确定的梯度的分量根据与这些分量相对应的参数属于神经网络的哪个层来被缩放。

在该上下文中，“缩放”可以被理解为使得将所确定的梯度的分量与取决于该层的因子相乘。

该缩放尤其可取决于该层在神经网络之内的位置、即深度。

该深度例如可以通过被输送给神经网络的输入层的信号在其首次作为输入信号附在该层上之前必须传播经过的层的数目来表征、尤其是给出。

在一个扩展方案中，可以规定：该缩放也取决于所确定的梯度的相对应的分量属于特征图中的哪个特征。

尤其可以规定：该缩放取决于该特征的感受野的大小。

已经认识到：尤其是在卷积网络中特征图的权重与感受野的特征的信息累积相乘，这可能就是对于这些权重来说出现过拟合的原因。利用所提出的方法有效地阻止了这一点。

在一个特别简单且高效的替选方案中，可以规定：该缩放取决于该层的分辨率。该缩放尤其取决于该层的分辨率与输入层的分辨率之商。

已经认识到：经此，感受野的大小可以非常简单且高效地被近似。

在这些扩展方案的另一方面中，可以规定：神经网络包括缩放层，其中该缩放层将附在该缩放层的输入端上的输入信号映射到附在该缩放层的输出端上的输出信号，使得附在输出端上的输出信号是输入信号的被重新缩放的信号，其中表征该重新缩放的参数可固定地预先给定。

优选地，这里可以规定：该缩放层将附在该缩放层的输入端上的输入信号映射到附在该缩放层的输出端上的输出信号，使得该映射对应于在球上的投影，其中该球的中心c和/或半径ρ可以固定地预先给定。替选地，也可能的是：这些参数在训练过程中与神经网络的其它参数一样被适配。

在这种情况下，该映射可以通过具有第一范数（N₁）和第二范数（N₂）的等式

来给出。在这种情况下，术语“范数”应在数学意义上理解。

在一个要特别高效地计算的扩展方案中，可以规定：第一范数（N₁）和第二范数（N₂）被选择得相同。

替选地或附加地，第一范数（N₁）可以是L^∞范数。尤其是即使第一范数（N₁）和第二范数（N₂）被选择得不相同，该范数也同样可以特别高效地被计算。

替选地，可以规定：其中第一范数（N₁）是L¹范数。对第一范数的该选择有利于该缩放层的输出信号的稀疏性（英文“sparsity”）。这例如对于神经网络的压缩来说有利，因为具有值0的权重对这些权重的层的输出值没有贡献。

因而，具有这样的层的神经网络尤其可以结合压缩方法以存储特别高效的方式来被使用。

在第一范数（N₁）的所描述的变型方案中，可以有利地规定：第二范数（N₂）是L²范数。借此，该方法可以特别简单地被实现。

在这种情况下，特别有利的是：借助于确定性牛顿法来对等式

进行求解。

令人吃惊的是，即已经认识到：如果具有多个重要的、也就是说重加权的特征的输入信号附在该缩放层的输入端上，则该方法特别高效。

附图说明

随后，本发明的实施方式参考随附的附图更详细地予以阐述。在附图中：

图1示意性示出了控制系统的实施方式的构造；

图2示意性示出了用于控制至少部分自主机器人的实施例；

图3示意性示出了用于控制生产系统的实施例；

图4示意性示出了用于控制私人助理的实施例；

图5示意性示出了用于控制访问系统的实施例；

图6示意性示出了用于控制监控系统的实施例；

图7示意性示出了用于控制医学成像系统的实施例；

图8示意性示出了训练系统；

图9示意性示出了神经网络的构造；

图10示意性示出了在神经网络之内的信息转发；

图11以流程图示出了训练方法的实施方式；

图12以流程图示出了用于估计梯度的方法的实施方式；

图13以流程图示出了用于估计梯度的方法的替选的实施方式；

图14以流程图示出了用于对所估计的梯度进行缩放的方法的实施方式；

图15以流程图示出了用于在神经网络之内实现缩放层的实施方式；

图16以流程图示出了用于运行被训练的神经网络的方法。

具体实施方式

图1示出了在其周围环境20中与控制系统40进行交互的执行器10。执行器10和周围环境20也共同被称作执行器系统。利用传感器30以优选地均匀的时间间隔来检测该执行器系统的状态，该传感器也可以通过多个传感器来给出。传感器30的传感器信号S或在有多个传感器的情况下每个传感器信号S被传送给控制系统40。因此，控制系统40接收传感器信号S的序列。控制系统40据此确定操控信号A，所述操控信号被传输给执行器10。

传感器30是检测周围环境20的状态并且将其作为传感器信号S来传送的任意传感器。例如可以是成像传感器，尤其是像图像传感器或视频传感器那样的光学传感器，或者雷达传感器，或者超声传感器，或者激光雷达（LiDAR）传感器。也可以是例如接收固体声或语音信号的声音传感器。该传感器同样可以是位置传感器（诸如GPS）或者可以是运动传感器（例如单轴或多轴加速度传感器）。表征执行器10在周围环境20中的取向的传感器（例如罗盘）也是可能的。检测周围环境20的化学成分的传感器、例如氧传感器也是可能的。替选地或附加地，传感器30也可以包括确定关于执行器系统的状态的信息的信息系统、诸如天气信息系统，该天气信息系统确定了在周围环境20中的天气的当前或将来的状态。

控制系统40在可选的接收单元50中接收传感器30的传感器信号S的序列，该接收单元将传感器信号S的序列转换成输入信号x的序列（替选地也可以直接各采用传感器信号S作为输入信号x）。输入信号x例如可以是传感器信号S的片段或者对传感器信号S的进一步处理。输入信号x例如可以包括图像数据或图像，或者包括视频录制的各个帧。换言之，根据传感器信号S来确定输入信号x。输入信号x被输送给神经网络60。

神经网络60优选地通过例如包括权重w的参数θ来被参数化，这些参数存放在参数存储器P中并且由该参数存储器来提供。

神经网络60根据输入信号x来确定输出信号y。通常，输出信号y对输入信号x的分类信息进行编码。输出信号y被输送给可选的改型单元80，该改型单元据此来确定操控信号A，这些操控信号被输送给执行器10，以便相对应地对执行器10进行操控。

神经网络60例如可以被设立为：在输入信号中探测人员和/或道路指示牌和/或交通信号灯和/或车辆（即对这些人员和/或道路指示牌和/或交通信号灯和/或车辆是否存在进行分类）和/或根据它们的类型来进行分类（这可以以语义分割的形式按区域、尤其是逐像素地进行）。

执行器10接收操控信号A，相对应地被操控并且实施相对应的行动。在这种情况下，执行器10可包括（不一定在结构上集成的）操控逻辑，该操控逻辑根据操控信号A来确定然后用来操控执行器10的第二操控信号。

在其它实施方式中，控制系统40包括传感器30。在另外其它实施方式中，替选地或附加地，控制系统40也包括执行器10。

在其它优选的实施方式中，控制系统40包括一个或多个处理器45和至少一个机器可读存储介质46，在该机器可读存储介质上存储有命令，当这些命令在处理器45上被实施时，这些命令促使控制系统40实施用于运行控制系统40的方法。

在替选的实施方式中，替选于执行器10或除了执行器10之外，还设置显示单元10a。

图2示出了如下实施例，在该实施例中，控制系统40被用于控制至少部分自主机器人、这里是至少部分自动化的机动车100。

传感器30可以是结合图1所提到的传感器，优选地是一个或多个优选地布置在机动车100中的视频传感器和/或一个或多个雷达传感器和/或一个或多个超声传感器和/或一个或多个激光雷达传感器和/或一个或多个位置传感器（例如GPS）。

神经网络60可以根据输入数据x来探测例如在至少部分自主机器人的周围环境中的对象。输出信号y可以是表征在至少部分自主机器人的周围环境中对象所在的位置的信息。那么，输出信号A可以根据该信息和/或与该信息相对应地来被确定。

优选地布置在机动车100中的执行器10例如可以是机动车100的刹车装置、驱动装置或转向装置。接着，操控信号A可以被确定为使得该执行器或这些执行器10被操控为使得尤其是当涉及某些类别的对象、例如行人时，机动车100例如防止了与由神经网络60所标识的对象相撞。换言之，操控信号A可以根据所确定的类别和/或与所确定的类别相对应地被确定。

替代地，该至少部分自主机器人也可以是其它移动机器人（未绘出），例如是这种通过飞行、漂浮、潜水或步行来前进的机器人。该移动机器人例如也可以是至少部分自主割草机或者至少部分自主清洁机器人。在这些情况下，操控信号A也可以被确定为使得移动机器人的驱动装置和/或转向装置被操控为使得该至少部分自主机器人例如防止与由神经网络60所标识的对象相撞。

在另一替选方案中，该至少部分自主机器人也可以是花园机器人（未绘出），该花园机器人利用成像传感器30和神经网络60来确定在周围环境20中的植物的类型或状态。那么，执行器10例如可以是化学品的供料机。操控信号A可以根据所确定的植物的类型或者所确定的植物的状态来被确定，使得化学品的与所确定的类型或所确定的状态相对应的量被涂覆。

在还有其它替选方案中，该至少部分自主机器人也可以是家用电器（未描绘）、尤其是洗衣机、炉灶、烤箱、微波炉或洗碗机。利用传感器30、例如光学传感器可以检测用家用电器来处理的对象的状态，例如在洗衣机的情况下可以检测处在洗衣机中的洗涤物的状态。接着，利用神经网络60可以确定该对象的类型或状态并且由输出信号y来表征该对象的类型或状态。接着，操控信号A可以被确定为使得家用电器根据该对象的所确定的类型或所确定的状态来操控。例如，在洗衣机的情况下，该洗衣机可以根据处在其中的洗涤物由何种材料构成来被操控。接着，操控信号A可以根据确定了洗涤物的何种材料来被选择。

图3示出了如下实施例，在该实施例中，控制系统40被用于操控生产系统200的生产机器11，其方式是对控制该生产机器11的执行器10进行操控。生产机器11例如可以是用于冲压、锯切、钻孔和/或切割的机器。

传感器30可以是结合图1所提到的传感器，优选地是例如检测制成品12的特性的光学传感器。可能的是：控制生产机器11的执行器10根据所确定的制成品12的特性来被操控，以便生产机器11相对应地实施该制成品12的随后的加工步骤。也可能的是：传感器30确定由生产机器11来加工的制成品12的特性，而且根据此针对下一个制成品来使对生产机器11的操控适配。

图4示出了如下实施例，在该实施例中，控制系统40被用于操控私人助理250。传感器30可以是结合图1所提到的传感器。优选地，传感器30是声音传感器，该声音传感器接收用户249的语音信号。替选地或附加地，传感器30也可以被设立为接收光学信号、例如用户249的姿态的视频图像。

根据传感器30的信号，控制系统40确定私人助理250的操控信号A，例如其方式是神经网络执行姿态识别。接着，将该所确定的操控信号A传送给私人助理250并且该私人助理因此相对应地被操控。该所确定的操控信号A尤其可以被选择为使得该操控信号对应于用户249所设想的所希望的操控。该所设想的所希望的操控可以根据由神经网络60识别出的姿态来予以确定。接着，控制系统40可以根据所设想的所希望的操控来选择用于传送给私人助理250的操控信号A和/或选择用于传送给与所设想的所希望的操控相对应的私人助理250的操控信号A。

该相对应的操控例如可包含：私人助理250从数据库中调用信息并且以对于用户249来说可接收到的方式来重现这些信息。

替代私人助理250，也可以设置家用电器（未绘出），尤其是洗衣机、炉灶、烤箱、微波炉或洗碗机，以便相对应地被操控。

图5示出了如下实施例，在该实施例中，控制系统40被用于操控访问系统300。访问系统300例如可以包括物理访问控制装置、例如门401。传感器30可以是结合图1所提到的传感器，优选地是光学传感器（例如用于检测图像或视频数据），该光学传感器被设立为检测面部。借助于神经网络60，可以解释该所检测到的图像。例如可以确定人员的身份。执行器10可以是锁，该锁根据操控信号A来激活访问控制装置或者不激活访问控制装置，例如将门401打开或者不打开门401。为此，操控信号A可以根据神经网络60的解释来被选择，例如根据人员的所确定的身份来被选择。替代物理访问控制装置，也可以设置逻辑访问控制装置。

图6示出了如下实施例，在该实施例中，控制系统40被用于控制监控系统400。在图5中示出的实施例与该实施例的区别在于：替代执行器10，设置显示单元10a，该显示单元由控制系统40来操控。例如，神经网络60可以确定由光学传感器所拍摄到的对象是否可疑，而且操控信号A接着可以被选择为使得该对象由显示单元10a用颜色突出呈现。

图7示出了如下实施例，在该实施例中，控制系统40被用于控制医学成像系统500、例如MRT仪器、X光仪器或超声仪器。传感器30例如可以通过成像传感器来给出，通过控制系统40来操控显示单元10a。例如，神经网络60可以确定由成像传感器所记录的区域是否异常，而且操控信号A接着可以被选择为使得该区域由显示单元10a用颜色突出呈现。

图8示意性示出了用于借助于训练方法来训练神经网络60的训练系统140的实施例。训练数据单元150确定适合的输入信号x，这些适合的输入信号被输送给神经网络60。例如，训练数据单元150训练其中存储有训练数据记录的计算机实现的数据库，并且例如从该训练数据记录中随机选择输入信号x。可选地，训练数据单元150也确定被分配给输入信号x的所希望的或者“实际的”输出信号y_T，这些输出信号被输送给评估单元180。

人工神经网络x被设立为：根据被输送给该人工神经网络的输入信号x来确定所属的输出信号y。这些输出信号y被输送给评估单元180。

评估单元180例如可以借助于取决于输出信号y和所希望的输出信号y_T的成本函数（英文：“loss function”）

来表征机器学习系统60的性能。参数θ可以根据成本函数

来被优化。

在其它优选的实施方式中，训练系统140包括一个或多个处理器145和至少一个机器可读存储介质146，在该机器可读存储介质上存储有命令，当这些命令在处理器145上被实施时，这些命令促使控制系统140实施该训练方法。

图9示例性示出了神经网络60的可能的构造，该神经网络在该实施例中作为神经网络来给出。该神经网络包括多个层S₁、S₂、S₃、S₄、S₅，以便根据在输入层S₁的输入端上被输送的输入信号x来确定附在输出端S₅的输出端上的输出信号y。在这种情况下，这些层S₁、S₂、S₃、S₄、S₅中的每个层都被设立为：根据附在相应的层S₁、S₂、S₃、S₄、S₅的输入端上的（可能是多维的）输入信号x、z₁、z₃、z₄、z₆来确定附在相应的层S₁、S₂、S₃、S₄、S₅的输出端上的（可能是多维的）输出信号z₁、z₂、z₄、z₅、y。这种输出信号特别是在图像处理中也被称作特征图（英文：“feature maps”）。在这种情况下，并不需要这些层S₁、S₂、S₃、S₄、S₅被布置为使得作为输入信号进入其它层的所有输出信号都分别从上一层进入紧随其后的层。作为替代，跨接连接（英文：“Skip Connections”）或者循环连接也是可能的。当然，同样可能的是：输入信号x进入这些层中的多个层；或者神经网络60的输出信号y由多个层的输出信号组成。

输出层S₅例如可以通过Argmax层（即从具有分别被分配的输入值的多个输入端中选择其所分配的输入值在这些输入值中是最大输入值的那个输入端的名称的层）来给出，层S₁、S₂、S₃中的一个或多个层例如可以通过卷积层来给出。

有利地，层S₄构造为缩放层，该缩放层构造为使得附在缩放层（S₄）的输入端上的输入信号（x）被映射到附在缩放层（S₄）的输出端上的输出信号（y），使得附在该输出端上的输出信号（y）是对输入信号（x）的重新缩放，其中表征该重新缩放的参数可固定地预先给定。在下文结合图15来描述缩放层S₄可执行的方法的实施例。

图10示意性图解说明了在神经网络60之内的信息转发。这里，示意性示出了在神经网络60之内的三个多维信号，即输入信号x以及稍后的特征图z₁、z₂。在该实施例中，输入信号x具有

个像素的空间分辨率、

个像素的第一特征图z₁、

个像素的第二特征图z₂。在该实施例中，第二特征图z₂的分辨率低于输入信号x的分辨率，但是不强制是这种情况。

还示出了第二特征图z₂的特征

、例如像素。如果根据第一特征图z₁来确定第二特征图z₂的函数例如通过卷积层或者全连接层（英文：“fully connected layer”）来被示出，则也可能的是：第一特征图z₁的多个特征加入对该特征

的值的确定。但是，当然也可能的是：只有第一特征图z₁的唯一特征加入对该特征

的值的确定。

在这种情况下，“加入”可以有利地被理解为：得出表征用来根据第一特征图z₁确定第二特征图z₂的函数的参数的值与第一特征图z₁的值的组合，使得特征

的值取决于加入的特征的值。这些加入的特征的全体在图10中被称作区域Be。

输入信号x的一个或多个特征就其而言加入对该区域Be的每个特征

的确定。输入信号x的加入对该区域Be的特征

中的至少一个特征的确定的所有特征的集合被称作特征

的感受野rF。换言之，特征

的感受野rF包括输入信号x的直接或间接（换言之：至少间接）加入对特征

的确定、也就是说其值可影响特征

的值的所有那些特征。

图11以流程图示出了按照实施方式的用于训练神经网络60的方法的流程。

首先（1000），提供训练数据集X，该训练数据集包括由输入信号x_i和分别所属的输出信号y_i构成的对

。学习率η被初始化，例如被初始化成η = 1。

此外，可选地，例如如果在步骤1100中使用该方法的该部分的在图12中图解说明的实施例，则第一集合G和第二集合N被初始化。如果应该在步骤1100中使用该方法的该部分的在图13中图解说明的实施例，则可以省去对第一集合G和第二集合N的初始化。

对第一集合G和第二集合N的初始化可以按如下来进行：包括训练数据集X的在该训练方法的当前时期过程中已经被抽取的那些对

的第一集合G被初始化成空集合。包括训练数据集X的在当前时期过程中还未被抽取的那些对

的第二集合N通过给该第二集合分派训练数据集X的所有对

来被初始化。

现在（1100），借助于由训练数据集X的输入信号x_i和分别所属的输出信号y_i构成的对

，估计特征参量

关于函数θ方面的梯度g，即

。结合图12或13来描述该方法的实施例。

然后（1200），可选地执行对梯度g的缩放。结合图14来描述该方法的实施例。

紧接着（1300），可选地执行对学习率η的适配。在这种情况下，只要遍历过的时期的数目能除以可预先给定的时期数、例如5，学习率η例如就可以被降低可预先给定的学习率降低因子

（例如

）（即

）。

然后（1400），参数θ借助于所确定的并且可能被缩放的梯度g和学习率η来被更新。例如，参数θ被

替代。

现在（1500），借助于可预先给定的收敛标准来检查该方法是否收敛。例如，根据参数θ（例如在最后两个时期之间）的绝对变化可以判断是否满足收敛标准。例如，恰好当关于所有参数θ在最后两个时期之间的变化的L²范数小于可预先给定的收敛阈值时，可以满足该收敛标准。

如果判断出满足该收敛标准，则采用参数θ作为被学习的参数，并且该方法结束。如果没有判断出满足该收敛标准，则分岔回到步骤1100。

图12以流程图图解说明了用于在步骤1100中确定梯度g的示例性方法。

首先（1110），应该抽取、即选择训练数据集X（在不放回的情况下）的可预先给定的数目bs的对

并且将其分派给批量B（英文：“batch”）。可预先给定的数目bs也被称作批量大小（英文：“batch size”）。批量B被初始化成空集合。

为此，检查（1120）批量大小bs是否大于在第二集合N中存在的对

的数目。

如果批量大小bs不大于在第二集合N中存在的对

的数目，则从第二集合N中随机抽取（1130）、即选择bs个对

并且将其添加给批量B。

如果bs大于在第二集合N中存在的对

的数目，则抽取（1140）、即选择第二集合N的其数目用s来表示的全部对并且将其添加给批量B，并且从第一集合G中抽取、即选择其余的、即bs - s个对。

紧接着（1150）步骤（1130）或（1140），对于所有参数θ来说，可选地判断：这些参数θ是否应该在该训练轮次中被忽略。为此，例如针对每个层（S₁, S₂, ..., S₆）单独地规定该层的参数θ被忽略的概率。例如，该概率对于第一层（S₁）来说可以为50%并且在每个后续层的情况下被降低10%。

然后，借助于这些所规定的相应的概率，可以针对这些参数θ中的每个参数来判断该参数是否被忽略。

现在（1155），针对批量B的每个对

，可选地判断相应的输入信号x_i是否被增强。针对应该被增强的每个相对应的输入信号x_i，优选地随机选择增强函数并且将该增强函数应用于输入信号x_i。然后，这样被增强的输入信号x_i替代原来的输入信号x_i。如果输入信号x_i是图像信号，则例如可以通过旋转可预先给定的角度来给出该增强函数。

然后（1160），针对批量B的每个对

，选择相对应的（并且必要时被增强的）输入信号x_i并且将该输入信号输送给神经网络60。在这种情况下，神经网络60的要忽略的参数θ在确定相对应的输出信号期间被停用，例如其方式是将这些参数暂时设置到值零。神经网络60的相对应的输出信号

被分配给相对应的对

。根据输出信号

和对

的相应的输出信号y_i作为所希望的输出信号y_T，分别确定成本函数

。

然后（1165），针对批量B的所有对

，共同确定完整的成本函数

，并且针对所要忽略的参数θ中的每个参数，例如借助于反向传播（英文；“backpropagation”）来确定梯度g的相对应的分量。针对所要忽略的参数θ中的每个参数，将该梯度g的相对应的分量设置到零。

现在，检查（1170）在步骤1000中进行检查时是否查明了批量大小bs大于在第二集合N中存在的对

的数目。

如果查明了批量大小bs不大于在第二集合N中存在的对

的数目，则（1180）将批量B的所有对

添加给第一集合G并且从第二集合N中除去。现在检查（1185）第二集合N是否为空。如果第二集合N为空，则新的时期开始（1186）。为此，第一集合G再次被初始化成空集合，而且第二集合N重新被初始化，其方式是给该第二集合再次分派训练数据集X的所有对

，而且分岔到步骤（1200）。如果第二集合N不为空，则直接分岔到步骤（1200）。

如果查明了批量大小bs大于在第二集合N中存在的对

的数目，则第一集合G重新被初始化（1190），其方式是给该第一集合分派批量B的所有对

，第二集合N重新被初始化，其方式是给该第二集合再次分派训练数据集X的所有对

并且紧接着将也存在于批量B中的对

除去。紧接着，新的时期开始并且分岔到步骤（1200）。借此，该方法的该部分结束。

图13以流程图图解说明了用于在步骤1100中确定梯度g的另一示例性方法。首先，对该方法的参数进行初始化（1111）。在下文，用W来表示参数θ的数学空间。即如果参数θ包括np个单独的参数，则空间W是np维空间，例如

。迭代计数器n被初始化到值n = 0，然后第一参量m₁被设置成

（即被设置成np维向量），第二参量被设置成

（即被设置成

维矩阵）。

然后（1121），从训练数据集X中随机选择并且必要时增强对

。这例如可以实现为使得针对训练数据集X的对

的每个输入信号x_i确定可能的增强

的数目

，而且给每个对

分配位置参量

。（2）

如果然后均匀分布地抽取随机数

，则可以选择满足不等式链

（3）

的那个位置参量

。然后，所属的索引i表示所选择的对

，输入参量x_i的增强

可以从可能的增强

的集合中被随机抽取并且被应用于输入参量xi，也就是说所选择的对

被

替代。

输入信号x_i被输送给神经网络60。根据相对应的输出信号

和对

的输出信号y_i作为所希望的输出信号y_T，确定相对应的成本函数

。针对参数θ，例如借助于反向传播来确定与此相关的梯度d，即

。

然后（1131），按如下地更新迭代计数器n、第一参量m₁和第二参量m₂：

然后（1141），协方差矩阵C的分量

被提供为

。（7）

据此，利用（向量值的）第一参量m₁来求标量积S，即

。（8）

易于理解的是：为了利用等式（8）足够精确地确定标量积S，不是协方差矩阵C或逆矩阵C^-1的所有条目都必须同时存在。存储更高效的是：在分析等式（8）期间确定协方差矩阵C的然后需要的条目

。

然后检查（1151）该标量积S是否满足如下不等式：

，（9）

其中λ是可预先给定的阈值，该阈值对应于置信水平。

如果满足该不等式，则采用第一参量m₁的当前值作为所估计的梯度g并且分岔回到步骤（1200）。

如果不满足该不等式，则可以分岔回到步骤（1121）。替选地，也可以检查（1171）迭代计数器n是否已经达到了可预先给定的最大迭代值n_max。如果情况不是如此，则分岔回到步骤（1121），否则采用（1181）零向量

作为所估计的梯度g，并且分岔回到步骤（1200）。借此，该方法的该部分结束。

通过该方法实现了：m₁对应于关于所抽取的对

所确定的梯度d的算术平均值，而且m₂对应于关于所抽取的对

所确定的梯度d的矩阵乘积

的算术平均值。

图14示出了用于在步骤（1200）中对梯度g进行缩放的方法的实施方式。在下文，用对

来表示梯度g的每个分量，其中

表示相对应的参数θ的层，而且

表示相对应的参数θ在第

个层之内的编号。如果神经网络如图10所图解说明的那样构造用于处理具有在第

个层中的相对应的特征图

的多维输入数据x，则编号

有利地通过在该特征图

中的相对应的参数θ与其相关联的那个特征的位置来给出。

现在（1220），针对该梯度g的每个分量

，确定缩放因子

。例如，该缩放因子

可以通过第

个层的特征图的与

相对应的特征的感受野rF的大小来给出。替选地，缩放因子

也可以通过第

个层的分辨率、即特征数目相对于输入层的比例来给出。

然后（1220），利用缩放因子

来对该梯度g的每个分量

进行缩放，即

（10）。

如果缩放因子

通过感受野rF的大小来给出，则可以特别有效地避免参数θ的过拟合。如果缩放因子

通过分辨率的比例来给出，则这是一种对感受野rF的大小的特别高效的近似估计。

图15图解说明了由缩放层S₄来实施的方法的实施方式。

缩放层S₄被设立为：实现附在缩放层S₄的输入端上的输入信号x到球体上的投影，该球体具有半径ρ和中心c。这通过第一范数

和第二范数

来被表征，该第一范数测量中心c距附在缩放层S₄的输出端上的输出信号y的距离，该第二范数测量附在缩放层S₄的输入端上的输入信号x距附在缩放层S₄的输出端上的输出信号y的距离。换言之，如下等式解出了附在缩放层S₄的输出端上的输出信号y：

。（11）

图15a)图解说明了针对第一范数N₁与第二范数N₂相同的情况的特别高效的第一实施方式。在下文，该第一范数和第二范数用

来表示。

首先（2000），提供附在缩放层S₄的输入端上的输入信号x、中心参数c和半径参数ρ。

然后（2100），将附在缩放层S₄的输出端上的输出信号y确定为

（12）

借此，该方法的该部分结束。

图15b)和15c)图解说明了第一范数N₁和第二范数N₂的特别有利地选择的组合的实施方式。

图15b)图解说明了针对在所要满足的调节（12）中通过最大范数

来给出第一范数

并且通过2-范数

来给出第二范数

的情况的第二实施方式。该范数组合能特别高效地被计算。

首先（3000），类似于步骤（2000），提供附在缩放层S₄的输入端上的输入信号x、中心参数c和半径参数ρ。

然后（3100），将附在缩放层S₄的输出端上的输出信号y的分量y_i确定为

，（13）

其中i这里表示这些分量。

该方法在计算上特别高效。借此，该方法的该部分结束。

图15c)图解说明了针对在所要满足的调节（12）中通过1-范数

来给出第一范数

并且通过2-范数

来给出第二范数

的情况的第三实施方式。该范数组合引起：在附在缩放层S₄的输入端上的输入信号x中，将尽可能多的小分量设置到值零。

首先（4000），类似于步骤（2000），提供附在缩放层S₄的输入端上的输入信号x、中心参数c和半径参数ρ。

然后（4100），将符号参量

确定为

（14）

而且附在缩放层S₄的输入端上的输入信号x的分量x_i被

（15）

替代。

辅助参数γ被初始化到值零。

然后（4200），将集合N确定为

，并且距离量度为

。

然后（4300），检查是否满足不等式

（16）。

如果情况如此（4400），则辅助参数γ被

（17）

替代并且分岔回到步骤（4200）。

如果不满足（4500）不等式（16），则将附在缩放层S₄的输出端上的输出信号y的分量y_i确定为

（18）

在这种情况下，符号

通常意味着

（19）。

借此，该方法的该部分结束。该方法对应于牛顿法，而且尤其是当附在缩放层S₄的输入端上的输入信号x的分量中的多个分量都重要时在计算上特别高效。

图16图解说明了用于运行神经网络60的方法的实施方式。首先（5000），利用所描述的方法之一来训练神经网络。然后（5100），利用这样被训练的神经网络60如所描述的那样来运行控制系统40。该方法以此结束。

易于理解的是：神经网络不限于前馈神经网络（英文：“feedforward neuralnetwork”），而且本发明可以以相同的方式被应用于任何类型的神经网络，尤其是循环网络、卷积网络（英文：“convolutional neural network（卷积神经网络）”）、自动编码器、玻尔兹曼机、感知器或胶囊网络（英文：“Capsule Neural Network（胶囊神经网络）”）。

术语“计算机”包括用于运行可预先给定的计算规则的任意设备。这些计算规则可以以软件的形式存在，或者以硬件的形式存在，或者也可以以软件和硬件的混合形式存在。

此外易于理解的是：这些方法不仅仅可以如所描述的那样完全以软件来实现。这些方法也可以以硬件来实现，或者以软件和硬件的混合形式来实现。

Claims

1.用于训练神经网络（60）的计算机实现的方法，所述神经网络尤其被设立用于对物理测量参量进行分类，其中所述神经网络（60）借助于训练数据集（X）来被训练，其中为了进行所述训练，从所述训练数据集（X）中抽取包括输入信号（x）和所属的所希望的输出信号（y_T）的对，其中在供应所述输入信号（x）的情况下并且根据所希望的输出信号（y_T）根据所述神经网络（60）的输出信号（y）来进行对所述神经网络（60）的参数（θ）的适配，其特征在于，始终从整个训练数据集（X）中实现对的所述抽取。

2.根据权利要求1所述的方法，其中对的抽取与之前在训练过程中已经抽取了哪些对无关。

3.根据权利要求1或2所述的方法，其中所抽取的对的输入信号（x）利用增强函数（

）来被增强。

4.根据权利要求3所述的方法，其中从所提供的增强函数（

）的集合中选择所述增强函数（

），所述集合取决于所述输入信号（x）。

5.根据权利要求4所述的方法，其中在从所述训练数据集（X）中随机抽取对的情况下，抽取到可预先给定的对的概率取决于所述可预先给定的对的输入信号（x）的所提供的增强函数（

）的数目（

）。

6.根据权利要求1至5中任一项所述的方法，其中根据所确定的梯度（g）来进行对所述参数（θ）的适配，而且为了确定所述梯度（g），通过考虑从所述训练数据集（X）中被抽取的对

的逐渐增加的数目（n）来一直使所述梯度（g）的估计值（m₁）细化，直至满足可预先给定的中断条件，所述中断条件取决于所述梯度（g）的估计值（m₁）。

7.根据权利要求6所述的方法，其中所述可预先给定的中断条件也取决于所述梯度（g）的估计值（m₁）的协方差矩阵（C）。

8.根据权利要求7所述的方法，其中所述可预先给定的中断条件可包括如下条件：估计值（m₁）和协方差矩阵（C）对于可预先给定的置信度值（λ）来说是否满足条件

。

9.训练系统（140），所述训练系统被设立为实施根据权利要求1至8中任一项所述的方法。

10.利用根据权利要求1至8中任一项所述的方法来训练的神经网络（60）的应用，用于对附在所述神经网络的输入端上的输入信号（x）进行分类，所述输入信号是根据传感器（30）的输出信号（S）被确定的。

11.利用根据权利要求1至8中任一项所述的方法来训练的神经网络（60）的应用，用于根据所述神经网络（60）的附在所述神经网络（60）的输出端上的输出信号（y）来提供用于操控执行器（10）的操控信号（A）。

12.根据权利要求11所述的利用根据权利要求1至8中任一项所述的方法来训练的神经网络（60）的应用，其中根据所述操控信号（A）来操控执行器（10）。

13.计算机程序，所述计算机程序被设立为实施根据权利要求1至8或10至12中任一项所述的方法。

14.机器可读存储介质（46、146），在其上存储有根据权利要求13所述的计算机程序。

15.用于使用神经网络（60）的方法，其中在第一阶段中利用根据权利要求1至8中任一项所述的方法来训练所述神经网络（60）并且接着根据权利要求10至12中任一项来应用所述神经网络。