CN113243021A - 用于训练神经网络的方法 - Google Patents

用于训练神经网络的方法 Download PDF

Info

Publication number
CN113243021A
CN113243021A CN201980084359.2A CN201980084359A CN113243021A CN 113243021 A CN113243021 A CN 113243021A CN 201980084359 A CN201980084359 A CN 201980084359A CN 113243021 A CN113243021 A CN 113243021A
Authority
CN
China
Prior art keywords
neural network
training
input signal
signal
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980084359.2A
Other languages
English (en)
Inventor
F·施密特
T·萨克塞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN113243021A publication Critical patent/CN113243021A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Neurology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

用于训练神经网络(60)的计算机实现的方法,所述神经网络尤其被设立用于对物理测量参量进行分类,其中所述神经网络(60)借助于训练数据集(X)来被训练,其中为了进行所述训练,从所述训练数据集(X)中抽取包括输入信号(x)和所属的所希望的输出信号(yT)的对,其中在供应所述输入信号(x)的情况下并且根据所希望的输出信号(yT)根据所述神经网络(60)的输出信号(y)来进行对所述神经网络(60)的参数(θ)的适配,其特征在于,始终从整个训练数据集(X)中实现对的所述抽取。

Description

用于训练神经网络的方法
技术领域
本发明涉及用于训练神经网络的方法、训练系统、这样训练的神经网络的应用、计算机程序和机器可读存储介质。
背景技术
从“Improving neural networks by preventing co-adaptation of featuredetectors”, arXiv preprint arXiv:1207.0580v1, Geoffrey E. Hinton, NitishSrivastava, Alex Krizhevsky, llya Sutskever, Ruslan R. Salakhutdinov (2012),公知一种用于训练神经网络的方法,其中在训练期间随机忽略特征检测器。该方法也以名称“Dropout(丢弃)”公知。
从“Batch Normalization: Accelerating Deep Network Training byReducing Internal Covariate Shift”, arXiv preprint arXiv:1502.03167v3, Sergeyloffe, Christian Szegedy (2015)公知一种用于训练神经网络的方法,其中将输入参量归一化到小批量(英文:“mini-batch”)的训练示例的层中。
发明内容
本发明的优点
与此相对地,具有独立权利要求1的特征的方法具有如下优点:该方法可确保被训练的系统的可靠性,这对于安全关键的应用来说是必不可少的。令人吃惊的是,在无需忍受在训练结束时可实现的(例如在图像分类方面的)性能方面变差的情况下得到该优点。
扩展方案是从属权利要求的主题。
本发明的公开
在有足够多的训练数据的情况下,可以使用所谓的“Deep Learning(深度学习)”方法、即(深度)人工神经网络,以便高效地确定输入空间V0与输出空间Vk之间的映射。这例如可以是对传感器数据、尤其是图像数据的分类,即从传感器数据或图像数据到类别的映射。以规定k-1个隐藏空间
Figure 240261DEST_PATH_IMAGE001
的方案为基础。还规定了在这些空间之间的k个映射
Figure 891822DEST_PATH_IMAGE002
。这些映射
Figure 343664DEST_PATH_IMAGE003
中的每个映射通常都被称作层(英文:“layer”)。通常,这种层
Figure 473294DEST_PATH_IMAGE003
通过在适当地选择的空间
Figure 84403DEST_PATH_IMAGE004
的情况下的权重
Figure 641287DEST_PATH_IMAGE005
来被参数化。k个层
Figure 829691DEST_PATH_IMAGE003
的权重
Figure 763012DEST_PATH_IMAGE006
也被统称为权重
Figure 228629DEST_PATH_IMAGE007
Figure 956413DEST_PATH_IMAGE008
,而且从输入空间V0到输出空间Vk的映射为
Figure 710743DEST_PATH_IMAGE009
,该映射根据各个映射
Figure 119859DEST_PATH_IMAGE003
(在有明确表示为下标的权重
Figure 377665DEST_PATH_IMAGE010
)的情况下为
Figure 604246DEST_PATH_IMAGE011
在被定义到
Figure 580293DEST_PATH_IMAGE012
的给定的概率分布D的情况下,训练神经网络的任务在于:将权重
Figure 776788DEST_PATH_IMAGE013
确定为使得成本函数L的期望值Φ
Figure 154679DEST_PATH_IMAGE014
(1)
被最小化。在这种情况下,成本函数L表示对在借助于函数
Figure 286584DEST_PATH_IMAGE015
所确定的输入参量xD到在输出空间Vk中的参量
Figure 15505DEST_PATH_IMAGE016
的映射与在输出空间Vk中的实际输出参量yD之间的距离的量度。
“深度神经网络”可以被理解成具有至少两个隐藏层(英文:“hidden layer”)的神经网络。
为了将该期望值Φ最小化,可以使用基于梯度的方法,这些基于梯度的方法确定关于权重w方面的梯度
Figure 828740DEST_PATH_IMAGE017
。该梯度
Figure 998822DEST_PATH_IMAGE018
通常借助于训练数据
Figure 504889DEST_PATH_IMAGE019
来被近似,即通过
Figure 252266DEST_PATH_IMAGE020
来被近似,其中从所谓的时期(Epoche)中选择索引j。在这种情况下,时期是可用训练数据点的标签{1, ..., N}的排列。
为了扩展训练数据集,可以使用所谓的数据增强(也称作增强)。在这种情况下,可以针对该时期中的每个索引j在对
Figure 869192DEST_PATH_IMAGE021
的位置选择增强对
Figure 221676DEST_PATH_IMAGE022
,其中这里输入信号xj被增强输入值
Figure 85595DEST_PATH_IMAGE023
替代。在这种情况下,
Figure 257951DEST_PATH_IMAGE024
可以是输入信号xj的典型变化的集合(包括输入信号xj本身在内),这些变化使输入信号xj的分类、即神经网络的输出信号不变。
不过,这种基于时期的采样与根据等式(1)的定义并不完全一致,因为每个数据点在该时期的过程中正好被选择一次。而根据等式(1)的定义以独立抽取的数据点为基础。也就是说,等式(1)的前提是“在有放回的情况下”对数据点的抽取,而基于时期的采样实行“在没有放回的情况下”对数据点的抽取。这可能导致:数学收敛证明的前提不存在(因为如果从N个数据点的集合中抽取N个示例,则对这些数据点中的每个数据点都正好抽取一次的概率小于
Figure 475305DEST_PATH_IMAGE025
(对于N > 2来说)),而该概率在基于时期的采样的情况下始终等于1。
如果使用数据增强,则还可以加强该统计效果,因为在每个时期都存在集合
Figure 682296DEST_PATH_IMAGE026
的元素,而且视增强函数
Figure 467849DEST_PATH_IMAGE027
而定,并不能排除:
Figure 127501DEST_PATH_IMAGE028
,其中
Figure 148546DEST_PATH_IMAGE029
。在这种情况下难以借助于集合
Figure 944464DEST_PATH_IMAGE030
对这些增强进行统计上正确的映射,因为对于每个输入数据xj来说效果不必同样显著。这样,例如旋转可能对圆形对象没有影响,但是可能非常强烈地影响一般对象。因而,集合
Figure 150186DEST_PATH_IMAGE026
的大小可取决于输入数据xj,这对于逆向训练方法而言可能有问题。
最后,训练数据点的数目N是通常难以设置的参量。如果N被选择得过大,则训练方法的运行时间可能被过度延长;如果N被选择得过小,则不能确保收敛,因为收敛的数学证明一般基于然后并不被满足的假设。此外,不清楚应该在哪个时间点可靠地结束训练。如果在这种情况下,将数据点的一部分作为评估数据集并且借助于该评估数据集来确定收敛质量,则这可能导致:关于该评估数据集的数据点方面发生权重w的过拟合(英文:“over-fitting”),这不仅降低了数据效率,而且当网络被应用于与这些训练数据不同的训练数据时可能使该网络的性能变差。这可能导致所谓的“普遍适用性”(英文:“generalizability”)降低。
为了减少过拟合,可以借助于开头提到的“Dropout”方法来使存储在隐藏层中的信息随机稀疏。
为了改善训练过程的随机性,可以通过使用所谓的批量归一化层(英文:“batchnormalization layer”)来引入关于所谓的小批量(英文:“mini batch”)的统计参数μ和σ,这些统计参数在训练过程期间有概率被更新。在推理的情况下,这些参数μ和σ的值被选择为可固定地预先给定的值,例如被选择为来自通过对指数衰减行为的外推来进行的训练中的估计值。
如果具有索引i的层是批量归一化层,则所属的权重
Figure 297134DEST_PATH_IMAGE031
在梯度下降的情况下不被更新,也就是这些权重
Figure 325133DEST_PATH_IMAGE032
因此以与其余的层k的权重
Figure 303453DEST_PATH_IMAGE033
不一样的方式来被处理。这增加了实现的复杂程度。
此外,所述小批量的大小是参数,该参数通常影响训练结果并且因而必须尽可能好地被设置成进一步的超参数,例如在(可能复杂的)架构搜索的框架内被设置成进一步的超参数。
因而,在第一方面中,本发明涉及一种用于训练神经网络的方法,该神经网络尤其被设立用于对物理测量参量进行分类,其中该神经网络借助于训练数据集X来被训练,其中为了进行该训练,从训练数据集中(随机)抽取包括输入信号和所属的所希望的输出信号的对,其中在供应输入信号和所希望的输出信号的情况下根据神经网络的输出信号来实现对神经网络的参数的适配,其中始终从整个训练数据集中实现对的所述抽取。
在该方面的一个优选的扩展方案中规定:对的抽取与之前在训练过程中已经抽取了哪些对无关。
换言之,从训练数据集中对对、即数据点的采样对应于“有放回的抽取”。这打破了训练数据集的训练示例通过“没有放回的抽取”来被抽取的当前范式。所述“有放回的抽取”一开始看起来不利,因为不能确保在给定数目的训练示例之内来自训练数据集中的每个数据点都被实际使用。
借此可确保被训练的系统的可靠性,这尤其对于安全关键的应用来说是必不可少的。令人吃惊的是,在无需忍受在训练结束时可实现的(例如在图像分类方面的)性能方面变差的情况下得到该优点。此外,大大简化了与可用来训练神经网络的训练系统的其它子块的接口。
可选地,所抽取的对在此还可以进一步被增强。也就是说,对于一些或者所有包含在训练数据集中(作为对的组成部分)的输入信号来说,可以规定可使输入信号经受的增强函数的集合。对相对应的增强函数的选择同样可以随机进行,优选地与之前在训练过程中已经抽取了哪些对和/或哪些增强函数无关。
在一个扩展方案中可以规定:在此,所抽取的对的输入信号利用增强函数
Figure 227547DEST_PATH_IMAGE034
来被增强,也就是说输入信号在该增量函数的情况下被该输入信号的图像所替代。
优选地,在这种情况下规定:从可能的增强函数的集合
Figure 799473DEST_PATH_IMAGE035
中尤其是随机地选择增强函数
Figure 100005DEST_PATH_IMAGE034
,其中该集合取决于输入信号。
在这种情况下可以规定:在从训练数据集中随机抽取对的情况下,抽取到可预先给定的对的概率取决于该可预先给定的对的输入信号的可能的增强函数
Figure 401673DEST_PATH_IMAGE035
的数目。
例如,该概率可以是预先给定的参量。尤其是,该概率有利地被选择得与可能的增强函数的数目成比例。这能够充分考虑到有些增强函数使输入信号不变,使得增强函数的集合的基数(也就是说集合的元素的数目)在输入信号之间可能有很大不同。通过该充分考虑,可以避免在逆向训练方法方面的可能的问题。这可以按如下地被理解:在给定的输入信号的情况下,在逆向训练方法中可以借助于适当的增强函数来生成逆向输入信号,该逆向输入信号与给定的输入信号具有小于最大距离r的足够小的距离。如果容许有两个输入信号,这两个输入信号彼此间具有小的距离(小于最大距离的两倍),则可能的是:逆向输入信号的集合重叠,使得只要该重叠未被充分考虑,这些逆向训练方法就可能被过度代表。所提到的方法做到了这一点。
在这些扩展方案的另一方面中,可以规定:根据所确定的梯度来进行对参数的适配,而且为了确定该梯度,通过考虑从训练数据集中被抽取的对的逐渐增加的数目来一直使该梯度的估计值m1细化,直至满足可预先给定的中断条件,该中断条件取决于该梯度的估计值m1
这尤其意味着:在满足可预先给定的中断条件之后才进行对参数的适配。
这不同于现有技术中的诸如随机梯度下降(英文:“stochastic gradientdescent”)那样的常用方法,在这些常用方法中,总是在可预先给定的小批量内进行对该梯度的平均。该小批量具有可预先给定的大小,该大小可以被设置成超参数。通过从训练数据集中连续添加对,在所提出的方法中能够一直实施该确定,直至该梯度可靠地朝向上升方向。
此外,小批量的大小是所要优化的超参数。由于可以省去该优化,所以该方法更高效且更可靠,因为过拟合可以更为有效地被抑制而且取消了作为超参数的批量大小。
尤其是,可预先给定的中断条件也可以取决于该梯度的估计值m1的协方差矩阵C。
经此,能够特别简单地确保该梯度可靠地朝向上升方向。
例如,可预先给定的中断条件可包括如下条件:估计值m1和协方差矩阵C对于可预先给定的置信度值λ来说是否满足条件
Figure 558985DEST_PATH_IMAGE036
即,利用该条件来引入概率中断标准。由此,也能够利用可预先给定的置信度来确保该梯度在置信度值λ的情况下朝向上升方向。
在这些扩展方案的另一方面中,可以规定:所确定的梯度的分量根据与这些分量相对应的参数属于神经网络的哪个层来被缩放。
在该上下文中,“缩放”可以被理解为使得将所确定的梯度的分量与取决于该层的因子相乘。
该缩放尤其可取决于该层在神经网络之内的位置、即深度。
该深度例如可以通过被输送给神经网络的输入层的信号在其首次作为输入信号附在该层上之前必须传播经过的层的数目来表征、尤其是给出。
在一个扩展方案中,可以规定:该缩放也取决于所确定的梯度的相对应的分量属于特征图中的哪个特征。
尤其可以规定:该缩放取决于该特征的感受野的大小。
已经认识到:尤其是在卷积网络中特征图的权重与感受野的特征的信息累积相乘,这可能就是对于这些权重来说出现过拟合的原因。利用所提出的方法有效地阻止了这一点。
在一个特别简单且高效的替选方案中,可以规定:该缩放取决于该层的分辨率。该缩放尤其取决于该层的分辨率与输入层的分辨率之商。
已经认识到:经此,感受野的大小可以非常简单且高效地被近似。
在这些扩展方案的另一方面中,可以规定:神经网络包括缩放层,其中该缩放层将附在该缩放层的输入端上的输入信号映射到附在该缩放层的输出端上的输出信号,使得附在输出端上的输出信号是输入信号的被重新缩放的信号,其中表征该重新缩放的参数可固定地预先给定。
优选地,这里可以规定:该缩放层将附在该缩放层的输入端上的输入信号映射到附在该缩放层的输出端上的输出信号,使得该映射对应于在球上的投影,其中该球的中心c和/或半径ρ可以固定地预先给定。替选地,也可能的是:这些参数在训练过程中与神经网络的其它参数一样被适配。
在这种情况下,该映射可以通过具有第一范数(N1)和第二范数(N2)的等式
Figure 680525DEST_PATH_IMAGE037
来给出。在这种情况下,术语“范数”应在数学意义上理解。
在一个要特别高效地计算的扩展方案中,可以规定:第一范数(N1)和第二范数(N2)被选择得相同。
替选地或附加地,第一范数(N1)可以是L范数。尤其是即使第一范数(N1)和第二范数(N2)被选择得不相同,该范数也同样可以特别高效地被计算。
替选地,可以规定:其中第一范数(N1)是L1范数。对第一范数的该选择有利于该缩放层的输出信号的稀疏性(英文“sparsity”)。这例如对于神经网络的压缩来说有利,因为具有值0的权重对这些权重的层的输出值没有贡献。
因而,具有这样的层的神经网络尤其可以结合压缩方法以存储特别高效的方式来被使用。
在第一范数(N1)的所描述的变型方案中,可以有利地规定:第二范数(N2)是L2范数。借此,该方法可以特别简单地被实现。
在这种情况下,特别有利的是:借助于确定性牛顿法来对等式
Figure 971698DEST_PATH_IMAGE038
进行求解。
令人吃惊的是,即已经认识到:如果具有多个重要的、也就是说重加权的特征的输入信号附在该缩放层的输入端上,则该方法特别高效。
附图说明
随后,本发明的实施方式参考随附的附图更详细地予以阐述。在附图中:
图1示意性示出了控制系统的实施方式的构造;
图2示意性示出了用于控制至少部分自主机器人的实施例;
图3示意性示出了用于控制生产系统的实施例;
图4示意性示出了用于控制私人助理的实施例;
图5示意性示出了用于控制访问系统的实施例;
图6示意性示出了用于控制监控系统的实施例;
图7示意性示出了用于控制医学成像系统的实施例;
图8示意性示出了训练系统;
图9示意性示出了神经网络的构造;
图10示意性示出了在神经网络之内的信息转发;
图11以流程图示出了训练方法的实施方式;
图12以流程图示出了用于估计梯度的方法的实施方式;
图13以流程图示出了用于估计梯度的方法的替选的实施方式;
图14以流程图示出了用于对所估计的梯度进行缩放的方法的实施方式;
图15以流程图示出了用于在神经网络之内实现缩放层的实施方式;
图16以流程图示出了用于运行被训练的神经网络的方法。
具体实施方式
图1示出了在其周围环境20中与控制系统40进行交互的执行器10。执行器10和周围环境20也共同被称作执行器系统。利用传感器30以优选地均匀的时间间隔来检测该执行器系统的状态,该传感器也可以通过多个传感器来给出。传感器30的传感器信号S或在有多个传感器的情况下每个传感器信号S被传送给控制系统40。因此,控制系统40接收传感器信号S的序列。控制系统40据此确定操控信号A,所述操控信号被传输给执行器10。
传感器30是检测周围环境20的状态并且将其作为传感器信号S来传送的任意传感器。例如可以是成像传感器,尤其是像图像传感器或视频传感器那样的光学传感器,或者雷达传感器,或者超声传感器,或者激光雷达(LiDAR)传感器。也可以是例如接收固体声或语音信号的声音传感器。该传感器同样可以是位置传感器(诸如GPS)或者可以是运动传感器(例如单轴或多轴加速度传感器)。表征执行器10在周围环境20中的取向的传感器(例如罗盘)也是可能的。检测周围环境20的化学成分的传感器、例如氧传感器也是可能的。替选地或附加地,传感器30也可以包括确定关于执行器系统的状态的信息的信息系统、诸如天气信息系统,该天气信息系统确定了在周围环境20中的天气的当前或将来的状态。
控制系统40在可选的接收单元50中接收传感器30的传感器信号S的序列,该接收单元将传感器信号S的序列转换成输入信号x的序列(替选地也可以直接各采用传感器信号S作为输入信号x)。输入信号x例如可以是传感器信号S的片段或者对传感器信号S的进一步处理。输入信号x例如可以包括图像数据或图像,或者包括视频录制的各个帧。换言之,根据传感器信号S来确定输入信号x。输入信号x被输送给神经网络60。
神经网络60优选地通过例如包括权重w的参数θ来被参数化,这些参数存放在参数存储器P中并且由该参数存储器来提供。
神经网络60根据输入信号x来确定输出信号y。通常,输出信号y对输入信号x的分类信息进行编码。输出信号y被输送给可选的改型单元80,该改型单元据此来确定操控信号A,这些操控信号被输送给执行器10,以便相对应地对执行器10进行操控。
神经网络60例如可以被设立为:在输入信号中探测人员和/或道路指示牌和/或交通信号灯和/或车辆(即对这些人员和/或道路指示牌和/或交通信号灯和/或车辆是否存在进行分类)和/或根据它们的类型来进行分类(这可以以语义分割的形式按区域、尤其是逐像素地进行)。
执行器10接收操控信号A,相对应地被操控并且实施相对应的行动。在这种情况下,执行器10可包括(不一定在结构上集成的)操控逻辑,该操控逻辑根据操控信号A来确定然后用来操控执行器10的第二操控信号。
在其它实施方式中,控制系统40包括传感器30。在另外其它实施方式中,替选地或附加地,控制系统40也包括执行器10。
在其它优选的实施方式中,控制系统40包括一个或多个处理器45和至少一个机器可读存储介质46,在该机器可读存储介质上存储有命令,当这些命令在处理器45上被实施时,这些命令促使控制系统40实施用于运行控制系统40的方法。
在替选的实施方式中,替选于执行器10或除了执行器10之外,还设置显示单元10a。
图2示出了如下实施例,在该实施例中,控制系统40被用于控制至少部分自主机器人、这里是至少部分自动化的机动车100。
传感器30可以是结合图1所提到的传感器,优选地是一个或多个优选地布置在机动车100中的视频传感器和/或一个或多个雷达传感器和/或一个或多个超声传感器和/或一个或多个激光雷达传感器和/或一个或多个位置传感器(例如GPS)。
神经网络60可以根据输入数据x来探测例如在至少部分自主机器人的周围环境中的对象。输出信号y可以是表征在至少部分自主机器人的周围环境中对象所在的位置的信息。那么,输出信号A可以根据该信息和/或与该信息相对应地来被确定。
优选地布置在机动车100中的执行器10例如可以是机动车100的刹车装置、驱动装置或转向装置。接着,操控信号A可以被确定为使得该执行器或这些执行器10被操控为使得尤其是当涉及某些类别的对象、例如行人时,机动车100例如防止了与由神经网络60所标识的对象相撞。换言之,操控信号A可以根据所确定的类别和/或与所确定的类别相对应地被确定。
替代地,该至少部分自主机器人也可以是其它移动机器人(未绘出),例如是这种通过飞行、漂浮、潜水或步行来前进的机器人。该移动机器人例如也可以是至少部分自主割草机或者至少部分自主清洁机器人。在这些情况下,操控信号A也可以被确定为使得移动机器人的驱动装置和/或转向装置被操控为使得该至少部分自主机器人例如防止与由神经网络60所标识的对象相撞。
在另一替选方案中,该至少部分自主机器人也可以是花园机器人(未绘出),该花园机器人利用成像传感器30和神经网络60来确定在周围环境20中的植物的类型或状态。那么,执行器10例如可以是化学品的供料机。操控信号A可以根据所确定的植物的类型或者所确定的植物的状态来被确定,使得化学品的与所确定的类型或所确定的状态相对应的量被涂覆。
在还有其它替选方案中,该至少部分自主机器人也可以是家用电器(未描绘)、尤其是洗衣机、炉灶、烤箱、微波炉或洗碗机。利用传感器30、例如光学传感器可以检测用家用电器来处理的对象的状态,例如在洗衣机的情况下可以检测处在洗衣机中的洗涤物的状态。接着,利用神经网络60可以确定该对象的类型或状态并且由输出信号y来表征该对象的类型或状态。接着,操控信号A可以被确定为使得家用电器根据该对象的所确定的类型或所确定的状态来操控。例如,在洗衣机的情况下,该洗衣机可以根据处在其中的洗涤物由何种材料构成来被操控。接着,操控信号A可以根据确定了洗涤物的何种材料来被选择。
图3示出了如下实施例,在该实施例中,控制系统40被用于操控生产系统200的生产机器11,其方式是对控制该生产机器11的执行器10进行操控。生产机器11例如可以是用于冲压、锯切、钻孔和/或切割的机器。
传感器30可以是结合图1所提到的传感器,优选地是例如检测制成品12的特性的光学传感器。可能的是:控制生产机器11的执行器10根据所确定的制成品12的特性来被操控,以便生产机器11相对应地实施该制成品12的随后的加工步骤。也可能的是:传感器30确定由生产机器11来加工的制成品12的特性,而且根据此针对下一个制成品来使对生产机器11的操控适配。
图4示出了如下实施例,在该实施例中,控制系统40被用于操控私人助理250。传感器30可以是结合图1所提到的传感器。优选地,传感器30是声音传感器,该声音传感器接收用户249的语音信号。替选地或附加地,传感器30也可以被设立为接收光学信号、例如用户249的姿态的视频图像。
根据传感器30的信号,控制系统40确定私人助理250的操控信号A,例如其方式是神经网络执行姿态识别。接着,将该所确定的操控信号A传送给私人助理250并且该私人助理因此相对应地被操控。该所确定的操控信号A尤其可以被选择为使得该操控信号对应于用户249所设想的所希望的操控。该所设想的所希望的操控可以根据由神经网络60识别出的姿态来予以确定。接着,控制系统40可以根据所设想的所希望的操控来选择用于传送给私人助理250的操控信号A和/或选择用于传送给与所设想的所希望的操控相对应的私人助理250的操控信号A。
该相对应的操控例如可包含:私人助理250从数据库中调用信息并且以对于用户249来说可接收到的方式来重现这些信息。
替代私人助理250,也可以设置家用电器(未绘出),尤其是洗衣机、炉灶、烤箱、微波炉或洗碗机,以便相对应地被操控。
图5示出了如下实施例,在该实施例中,控制系统40被用于操控访问系统300。访问系统300例如可以包括物理访问控制装置、例如门401。传感器30可以是结合图1所提到的传感器,优选地是光学传感器(例如用于检测图像或视频数据),该光学传感器被设立为检测面部。借助于神经网络60,可以解释该所检测到的图像。例如可以确定人员的身份。执行器10可以是锁,该锁根据操控信号A来激活访问控制装置或者不激活访问控制装置,例如将门401打开或者不打开门401。为此,操控信号A可以根据神经网络60的解释来被选择,例如根据人员的所确定的身份来被选择。替代物理访问控制装置,也可以设置逻辑访问控制装置。
图6示出了如下实施例,在该实施例中,控制系统40被用于控制监控系统400。在图5中示出的实施例与该实施例的区别在于:替代执行器10,设置显示单元10a,该显示单元由控制系统40来操控。例如,神经网络60可以确定由光学传感器所拍摄到的对象是否可疑,而且操控信号A接着可以被选择为使得该对象由显示单元10a用颜色突出呈现。
图7示出了如下实施例,在该实施例中,控制系统40被用于控制医学成像系统500、例如MRT仪器、X光仪器或超声仪器。传感器30例如可以通过成像传感器来给出,通过控制系统40来操控显示单元10a。例如,神经网络60可以确定由成像传感器所记录的区域是否异常,而且操控信号A接着可以被选择为使得该区域由显示单元10a用颜色突出呈现。
图8示意性示出了用于借助于训练方法来训练神经网络60的训练系统140的实施例。训练数据单元150确定适合的输入信号x,这些适合的输入信号被输送给神经网络60。例如,训练数据单元150训练其中存储有训练数据记录的计算机实现的数据库,并且例如从该训练数据记录中随机选择输入信号x。可选地,训练数据单元150也确定被分配给输入信号x的所希望的或者“实际的”输出信号yT,这些输出信号被输送给评估单元180。
人工神经网络x被设立为:根据被输送给该人工神经网络的输入信号x来确定所属的输出信号y。这些输出信号y被输送给评估单元180。
评估单元180例如可以借助于取决于输出信号y和所希望的输出信号yT的成本函数(英文:“loss function”)
Figure 596714DEST_PATH_IMAGE039
来表征机器学习系统60的性能。参数θ可以根据成本函数
Figure 190506DEST_PATH_IMAGE039
来被优化。
在其它优选的实施方式中,训练系统140包括一个或多个处理器145和至少一个机器可读存储介质146,在该机器可读存储介质上存储有命令,当这些命令在处理器145上被实施时,这些命令促使控制系统140实施该训练方法。
图9示例性示出了神经网络60的可能的构造,该神经网络在该实施例中作为神经网络来给出。该神经网络包括多个层S1、S2、S3、S4、S5,以便根据在输入层S1的输入端上被输送的输入信号x来确定附在输出端S5的输出端上的输出信号y。在这种情况下,这些层S1、S2、S3、S4、S5中的每个层都被设立为:根据附在相应的层S1、S2、S3、S4、S5的输入端上的(可能是多维的)输入信号x、z1、z3、z4、z6来确定附在相应的层S1、S2、S3、S4、S5的输出端上的(可能是多维的)输出信号z1、z2、z4、z5、y。这种输出信号特别是在图像处理中也被称作特征图(英文:“feature maps”)。在这种情况下,并不需要这些层S1、S2、S3、S4、S5被布置为使得作为输入信号进入其它层的所有输出信号都分别从上一层进入紧随其后的层。作为替代,跨接连接(英文:“Skip Connections”)或者循环连接也是可能的。当然,同样可能的是:输入信号x进入这些层中的多个层;或者神经网络60的输出信号y由多个层的输出信号组成。
输出层S5例如可以通过Argmax层(即从具有分别被分配的输入值的多个输入端中选择其所分配的输入值在这些输入值中是最大输入值的那个输入端的名称的层)来给出,层S1、S2、S3中的一个或多个层例如可以通过卷积层来给出。
有利地,层S4构造为缩放层,该缩放层构造为使得附在缩放层(S4)的输入端上的输入信号(x)被映射到附在缩放层(S4)的输出端上的输出信号(y),使得附在该输出端上的输出信号(y)是对输入信号(x)的重新缩放,其中表征该重新缩放的参数可固定地预先给定。在下文结合图15来描述缩放层S4可执行的方法的实施例。
图10示意性图解说明了在神经网络60之内的信息转发。这里,示意性示出了在神经网络60之内的三个多维信号,即输入信号x以及稍后的特征图z1、z2。在该实施例中,输入信号x具有
Figure 799342DEST_PATH_IMAGE040
个像素的空间分辨率、
Figure 707255DEST_PATH_IMAGE041
个像素的第一特征图z1
Figure 390041DEST_PATH_IMAGE042
个像素的第二特征图z2。在该实施例中,第二特征图z2的分辨率低于输入信号x的分辨率,但是不强制是这种情况。
还示出了第二特征图z2的特征
Figure 92417DEST_PATH_IMAGE043
、例如像素。如果根据第一特征图z1来确定第二特征图z2的函数例如通过卷积层或者全连接层(英文:“fully connected layer”)来被示出,则也可能的是:第一特征图z1的多个特征加入对该特征
Figure 985287DEST_PATH_IMAGE044
的值的确定。但是,当然也可能的是:只有第一特征图z1的唯一特征加入对该特征
Figure 696891DEST_PATH_IMAGE044
的值的确定。
在这种情况下,“加入”可以有利地被理解为:得出表征用来根据第一特征图z1确定第二特征图z2的函数的参数的值与第一特征图z1的值的组合,使得特征
Figure 296500DEST_PATH_IMAGE045
的值取决于加入的特征的值。这些加入的特征的全体在图10中被称作区域Be。
输入信号x的一个或多个特征就其而言加入对该区域Be的每个特征
Figure 356728DEST_PATH_IMAGE046
的确定。输入信号x的加入对该区域Be的特征
Figure 674577DEST_PATH_IMAGE047
中的至少一个特征的确定的所有特征的集合被称作特征
Figure 924293DEST_PATH_IMAGE044
的感受野rF。换言之,特征
Figure 706304DEST_PATH_IMAGE044
的感受野rF包括输入信号x的直接或间接(换言之:至少间接)加入对特征
Figure 750484DEST_PATH_IMAGE044
的确定、也就是说其值可影响特征
Figure 493312DEST_PATH_IMAGE044
的值的所有那些特征。
图11以流程图示出了按照实施方式的用于训练神经网络60的方法的流程。
首先(1000),提供训练数据集X,该训练数据集包括由输入信号xi和分别所属的输出信号yi构成的对
Figure 281139DEST_PATH_IMAGE048
。学习率η被初始化,例如被初始化成η = 1。
此外,可选地,例如如果在步骤1100中使用该方法的该部分的在图12中图解说明的实施例,则第一集合G和第二集合N被初始化。如果应该在步骤1100中使用该方法的该部分的在图13中图解说明的实施例,则可以省去对第一集合G和第二集合N的初始化。
对第一集合G和第二集合N的初始化可以按如下来进行:包括训练数据集X的在该训练方法的当前时期过程中已经被抽取的那些对
Figure 917657DEST_PATH_IMAGE049
的第一集合G被初始化成空集合。包括训练数据集X的在当前时期过程中还未被抽取的那些对
Figure 398317DEST_PATH_IMAGE050
的第二集合N通过给该第二集合分派训练数据集X的所有对
Figure 425179DEST_PATH_IMAGE048
来被初始化。
现在(1100),借助于由训练数据集X的输入信号xi和分别所属的输出信号yi构成的对
Figure 203648DEST_PATH_IMAGE048
,估计特征参量
Figure 632355DEST_PATH_IMAGE051
关于函数θ方面的梯度g,即
Figure 80654DEST_PATH_IMAGE052
。结合图12或13来描述该方法的实施例。
然后(1200),可选地执行对梯度g的缩放。结合图14来描述该方法的实施例。
紧接着(1300),可选地执行对学习率η的适配。在这种情况下,只要遍历过的时期的数目能除以可预先给定的时期数、例如5,学习率η例如就可以被降低可预先给定的学习率降低因子
Figure 125970DEST_PATH_IMAGE053
(例如
Figure 255600DEST_PATH_IMAGE054
)(即
Figure 476497DEST_PATH_IMAGE055
Figure 298960DEST_PATH_IMAGE053
)。
然后(1400),参数θ借助于所确定的并且可能被缩放的梯度g和学习率η来被更新。例如,参数θ被
Figure 362731DEST_PATH_IMAGE056
替代。
现在(1500),借助于可预先给定的收敛标准来检查该方法是否收敛。例如,根据参数θ(例如在最后两个时期之间)的绝对变化可以判断是否满足收敛标准。例如,恰好当关于所有参数θ在最后两个时期之间的变化的L2范数小于可预先给定的收敛阈值时,可以满足该收敛标准。
如果判断出满足该收敛标准,则采用参数θ作为被学习的参数,并且该方法结束。如果没有判断出满足该收敛标准,则分岔回到步骤1100。
图12以流程图图解说明了用于在步骤1100中确定梯度g的示例性方法。
首先(1110),应该抽取、即选择训练数据集X(在不放回的情况下)的可预先给定的数目bs的对
Figure 296052DEST_PATH_IMAGE057
并且将其分派给批量B(英文:“batch”)。可预先给定的数目bs也被称作批量大小(英文:“batch size”)。批量B被初始化成空集合。
为此,检查(1120)批量大小bs是否大于在第二集合N中存在的对
Figure 699351DEST_PATH_IMAGE057
的数目。
如果批量大小bs不大于在第二集合N中存在的对
Figure 879665DEST_PATH_IMAGE057
的数目,则从第二集合N中随机抽取(1130)、即选择bs个对
Figure 368416DEST_PATH_IMAGE057
并且将其添加给批量B。
如果bs大于在第二集合N中存在的对
Figure 902165DEST_PATH_IMAGE057
的数目,则抽取(1140)、即选择第二集合N的其数目用s来表示的全部对并且将其添加给批量B,并且从第一集合G中抽取、即选择其余的、即bs - s个对。
紧接着(1150)步骤(1130)或(1140),对于所有参数θ来说,可选地判断:这些参数θ是否应该在该训练轮次中被忽略。为此,例如针对每个层(S1, S2, ..., S6)单独地规定该层的参数θ被忽略的概率。例如,该概率对于第一层(S1)来说可以为50%并且在每个后续层的情况下被降低10%。
然后,借助于这些所规定的相应的概率,可以针对这些参数θ中的每个参数来判断该参数是否被忽略。
现在(1155),针对批量B的每个对
Figure 159971DEST_PATH_IMAGE057
,可选地判断相应的输入信号xi是否被增强。针对应该被增强的每个相对应的输入信号xi,优选地随机选择增强函数并且将该增强函数应用于输入信号xi。然后,这样被增强的输入信号xi替代原来的输入信号xi。如果输入信号xi是图像信号,则例如可以通过旋转可预先给定的角度来给出该增强函数。
然后(1160),针对批量B的每个对
Figure 589815DEST_PATH_IMAGE057
,选择相对应的(并且必要时被增强的)输入信号xi并且将该输入信号输送给神经网络60。在这种情况下,神经网络60的要忽略的参数θ在确定相对应的输出信号期间被停用,例如其方式是将这些参数暂时设置到值零。神经网络60的相对应的输出信号
Figure 237966DEST_PATH_IMAGE058
被分配给相对应的对
Figure 513089DEST_PATH_IMAGE057
。根据输出信号
Figure 953298DEST_PATH_IMAGE058
和对
Figure 22885DEST_PATH_IMAGE057
的相应的输出信号yi作为所希望的输出信号yT,分别确定成本函数
Figure 673178DEST_PATH_IMAGE059
然后(1165),针对批量B的所有对
Figure 486413DEST_PATH_IMAGE057
,共同确定完整的成本函数
Figure 984391DEST_PATH_IMAGE060
,并且针对所要忽略的参数θ中的每个参数,例如借助于反向传播(英文;“backpropagation”)来确定梯度g的相对应的分量。针对所要忽略的参数θ中的每个参数,将该梯度g的相对应的分量设置到零。
现在,检查(1170)在步骤1000中进行检查时是否查明了批量大小bs大于在第二集合N中存在的对
Figure 287196DEST_PATH_IMAGE057
的数目。
如果查明了批量大小bs不大于在第二集合N中存在的对
Figure 237835DEST_PATH_IMAGE057
的数目,则(1180)将批量B的所有对
Figure 792444DEST_PATH_IMAGE057
添加给第一集合G并且从第二集合N中除去。现在检查(1185)第二集合N是否为空。如果第二集合N为空,则新的时期开始(1186)。为此,第一集合G再次被初始化成空集合,而且第二集合N重新被初始化,其方式是给该第二集合再次分派训练数据集X的所有对
Figure 879348DEST_PATH_IMAGE057
,而且分岔到步骤(1200)。如果第二集合N不为空,则直接分岔到步骤(1200)。
如果查明了批量大小bs大于在第二集合N中存在的对
Figure 618634DEST_PATH_IMAGE057
的数目,则第一集合G重新被初始化(1190),其方式是给该第一集合分派批量B的所有对
Figure 56569DEST_PATH_IMAGE057
,第二集合N重新被初始化,其方式是给该第二集合再次分派训练数据集X的所有对
Figure 211607DEST_PATH_IMAGE057
并且紧接着将也存在于批量B中的对
Figure 605548DEST_PATH_IMAGE057
除去。紧接着,新的时期开始并且分岔到步骤(1200)。借此,该方法的该部分结束。
图13以流程图图解说明了用于在步骤1100中确定梯度g的另一示例性方法。首先,对该方法的参数进行初始化(1111)。在下文,用W来表示参数θ的数学空间。即如果参数θ包括np个单独的参数,则空间W是np维空间,例如
Figure 187839DEST_PATH_IMAGE061
Figure 113070DEST_PATH_IMAGE062
。迭代计数器n被初始化到值n = 0,然后第一参量m1被设置成
Figure 134115DEST_PATH_IMAGE063
(即被设置成np维向量),第二参量被设置成
Figure 195612DEST_PATH_IMAGE064
(即被设置成
Figure 152067DEST_PATH_IMAGE065
维矩阵)。
然后(1121),从训练数据集X中随机选择并且必要时增强对
Figure 299014DEST_PATH_IMAGE057
。这例如可以实现为使得针对训练数据集X的对
Figure 858172DEST_PATH_IMAGE057
的每个输入信号xi确定可能的增强
Figure 774175DEST_PATH_IMAGE066
的数目
Figure 229427DEST_PATH_IMAGE067
,而且给每个对
Figure 50622DEST_PATH_IMAGE057
分配位置参量
Figure 351153DEST_PATH_IMAGE068
。 (2)
如果然后均匀分布地抽取随机数
Figure 183980DEST_PATH_IMAGE069
,则可以选择满足不等式链
Figure 544554DEST_PATH_IMAGE070
(3)
的那个位置参量
Figure 603777DEST_PATH_IMAGE071
。然后,所属的索引i表示所选择的对
Figure 442420DEST_PATH_IMAGE057
,输入参量xi的增强
Figure 395332DEST_PATH_IMAGE072
可以从可能的增强
Figure 926808DEST_PATH_IMAGE073
的集合中被随机抽取并且被应用于输入参量xi,也就是说所选择的对
Figure 457015DEST_PATH_IMAGE057
Figure 364928DEST_PATH_IMAGE074
替代。
输入信号xi被输送给神经网络60。根据相对应的输出信号
Figure 375610DEST_PATH_IMAGE058
和对
Figure 140303DEST_PATH_IMAGE057
的输出信号yi作为所希望的输出信号yT,确定相对应的成本函数
Figure 970856DEST_PATH_IMAGE075
。针对参数θ,例如借助于反向传播来确定与此相关的梯度d,即
Figure 88985DEST_PATH_IMAGE076
然后(1131),按如下地更新迭代计数器n、第一参量m1和第二参量m2
Figure 954173DEST_PATH_IMAGE077
然后(1141),协方差矩阵C的分量
Figure 889768DEST_PATH_IMAGE078
被提供为
Figure 207616DEST_PATH_IMAGE079
。 (7)
据此,利用(向量值的)第一参量m1来求标量积S,即
Figure 457332DEST_PATH_IMAGE080
。 (8)
易于理解的是:为了利用等式(8)足够精确地确定标量积S,不是协方差矩阵C或逆矩阵C-1的所有条目都必须同时存在。存储更高效的是:在分析等式(8)期间确定协方差矩阵C的然后需要的条目
Figure 98398DEST_PATH_IMAGE081
然后检查(1151)该标量积S是否满足如下不等式:
Figure 408157DEST_PATH_IMAGE082
, (9)
其中λ是可预先给定的阈值,该阈值对应于置信水平。
如果满足该不等式,则采用第一参量m1的当前值作为所估计的梯度g并且分岔回到步骤(1200)。
如果不满足该不等式,则可以分岔回到步骤(1121)。替选地,也可以检查(1171)迭代计数器n是否已经达到了可预先给定的最大迭代值nmax。如果情况不是如此,则分岔回到步骤(1121),否则采用(1181)零向量
Figure 10039DEST_PATH_IMAGE083
作为所估计的梯度g,并且分岔回到步骤(1200)。借此,该方法的该部分结束。
通过该方法实现了:m1对应于关于所抽取的对
Figure 735550DEST_PATH_IMAGE057
所确定的梯度d的算术平均值,而且m2对应于关于所抽取的对
Figure 575330DEST_PATH_IMAGE057
所确定的梯度d的矩阵乘积
Figure 790410DEST_PATH_IMAGE084
的算术平均值。
图14示出了用于在步骤(1200)中对梯度g进行缩放的方法的实施方式。在下文,用对
Figure 879589DEST_PATH_IMAGE085
来表示梯度g的每个分量,其中
Figure 471107DEST_PATH_IMAGE086
表示相对应的参数θ的层,而且
Figure 165394DEST_PATH_IMAGE087
表示相对应的参数θ在第
Figure 738327DEST_PATH_IMAGE088
个层之内的编号。如果神经网络如图10所图解说明的那样构造用于处理具有在第
Figure 518064DEST_PATH_IMAGE089
个层中的相对应的特征图
Figure 710011DEST_PATH_IMAGE090
的多维输入数据x,则编号
Figure 258804DEST_PATH_IMAGE091
有利地通过在该特征图
Figure 940321DEST_PATH_IMAGE090
中的相对应的参数θ与其相关联的那个特征的位置来给出。
现在(1220),针对该梯度g的每个分量
Figure 941775DEST_PATH_IMAGE092
,确定缩放因子
Figure 671834DEST_PATH_IMAGE093
。例如,该缩放因子
Figure 75133DEST_PATH_IMAGE093
可以通过第
Figure 334076DEST_PATH_IMAGE088
个层的特征图的与
Figure 494930DEST_PATH_IMAGE091
相对应的特征的感受野rF的大小来给出。替选地,缩放因子
Figure 231942DEST_PATH_IMAGE093
也可以通过第
Figure 552065DEST_PATH_IMAGE089
个层的分辨率、即特征数目相对于输入层的比例来给出。
然后(1220),利用缩放因子
Figure 450751DEST_PATH_IMAGE093
来对该梯度g的每个分量
Figure 613748DEST_PATH_IMAGE094
进行缩放,即
Figure 888871DEST_PATH_IMAGE095
(10)。
如果缩放因子
Figure 266763DEST_PATH_IMAGE093
通过感受野rF的大小来给出,则可以特别有效地避免参数θ的过拟合。如果缩放因子
Figure 664246DEST_PATH_IMAGE093
通过分辨率的比例来给出,则这是一种对感受野rF的大小的特别高效的近似估计。
图15图解说明了由缩放层S4来实施的方法的实施方式。
缩放层S4被设立为:实现附在缩放层S4的输入端上的输入信号x到球体上的投影,该球体具有半径ρ和中心c。这通过第一范数
Figure 862009DEST_PATH_IMAGE096
和第二范数
Figure 878507DEST_PATH_IMAGE097
来被表征,该第一范数测量中心c距附在缩放层S4的输出端上的输出信号y的距离,该第二范数测量附在缩放层S4的输入端上的输入信号x距附在缩放层S4的输出端上的输出信号y的距离。换言之,如下等式解出了附在缩放层S4的输出端上的输出信号y:
Figure 110905DEST_PATH_IMAGE098
。(11)
图15a)图解说明了针对第一范数N1与第二范数N2相同的情况的特别高效的第一实施方式。在下文,该第一范数和第二范数用
Figure 616973DEST_PATH_IMAGE099
来表示。
首先(2000),提供附在缩放层S4的输入端上的输入信号x、中心参数c和半径参数ρ。
然后(2100),将附在缩放层S4的输出端上的输出信号y确定为
Figure 629928DEST_PATH_IMAGE100
(12)
借此,该方法的该部分结束。
图15b)和15c)图解说明了第一范数N1和第二范数N2的特别有利地选择的组合的实施方式。
图15b)图解说明了针对在所要满足的调节(12)中通过最大范数
Figure 246854DEST_PATH_IMAGE101
来给出第一范数
Figure 520710DEST_PATH_IMAGE102
并且通过2-范数
Figure 932099DEST_PATH_IMAGE103
来给出第二范数
Figure 166772DEST_PATH_IMAGE104
的情况的第二实施方式。该范数组合能特别高效地被计算。
首先(3000),类似于步骤(2000),提供附在缩放层S4的输入端上的输入信号x、中心参数c和半径参数ρ。
然后(3100),将附在缩放层S4的输出端上的输出信号y的分量yi确定为
Figure 587389DEST_PATH_IMAGE105
, (13)
其中i这里表示这些分量。
该方法在计算上特别高效。借此,该方法的该部分结束。
图15c)图解说明了针对在所要满足的调节(12)中通过1-范数
Figure 794379DEST_PATH_IMAGE106
来给出第一范数
Figure 579933DEST_PATH_IMAGE102
并且通过2-范数
Figure 239584DEST_PATH_IMAGE103
来给出第二范数
Figure 260630DEST_PATH_IMAGE107
的情况的第三实施方式。该范数组合引起:在附在缩放层S4的输入端上的输入信号x中,将尽可能多的小分量设置到值零。
首先(4000),类似于步骤(2000),提供附在缩放层S4的输入端上的输入信号x、中心参数c和半径参数ρ。
然后(4100),将符号参量
Figure 322127DEST_PATH_IMAGE108
确定为
Figure 527849DEST_PATH_IMAGE109
(14)
而且附在缩放层S4的输入端上的输入信号x的分量xi
Figure 674796DEST_PATH_IMAGE110
(15)
替代。
辅助参数γ被初始化到值零。
然后(4200),将集合N确定为
Figure 437216DEST_PATH_IMAGE111
,并且距离量度为
Figure 415536DEST_PATH_IMAGE112
然后(4300),检查是否满足不等式
Figure 605209DEST_PATH_IMAGE113
(16)。
如果情况如此(4400),则辅助参数γ被
Figure 177136DEST_PATH_IMAGE114
(17)
替代并且分岔回到步骤(4200)。
如果不满足(4500)不等式(16),则将附在缩放层S4的输出端上的输出信号y的分量yi确定为
Figure 477667DEST_PATH_IMAGE115
(18)
在这种情况下,符号
Figure 513756DEST_PATH_IMAGE116
通常意味着
Figure 936648DEST_PATH_IMAGE117
(19)。
借此,该方法的该部分结束。该方法对应于牛顿法,而且尤其是当附在缩放层S4的输入端上的输入信号x的分量中的多个分量都重要时在计算上特别高效。
图16图解说明了用于运行神经网络60的方法的实施方式。首先(5000),利用所描述的方法之一来训练神经网络。然后(5100),利用这样被训练的神经网络60如所描述的那样来运行控制系统40。该方法以此结束。
易于理解的是:神经网络不限于前馈神经网络(英文:“feedforward neuralnetwork”),而且本发明可以以相同的方式被应用于任何类型的神经网络,尤其是循环网络、卷积网络(英文:“convolutional neural network(卷积神经网络)”)、自动编码器、玻尔兹曼机、感知器或胶囊网络(英文:“Capsule Neural Network(胶囊神经网络)”)。
术语“计算机”包括用于运行可预先给定的计算规则的任意设备。这些计算规则可以以软件的形式存在,或者以硬件的形式存在,或者也可以以软件和硬件的混合形式存在。
此外易于理解的是:这些方法不仅仅可以如所描述的那样完全以软件来实现。这些方法也可以以硬件来实现,或者以软件和硬件的混合形式来实现。

Claims (15)

1.用于训练神经网络(60)的计算机实现的方法,所述神经网络尤其被设立用于对物理测量参量进行分类,其中所述神经网络(60)借助于训练数据集(X)来被训练,其中为了进行所述训练,从所述训练数据集(X)中抽取包括输入信号(x)和所属的所希望的输出信号(yT)的对,其中在供应所述输入信号(x)的情况下并且根据所希望的输出信号(yT)根据所述神经网络(60)的输出信号(y)来进行对所述神经网络(60)的参数(θ)的适配,其特征在于,始终从整个训练数据集(X)中实现对的所述抽取。
2.根据权利要求1所述的方法,其中对的抽取与之前在训练过程中已经抽取了哪些对无关。
3.根据权利要求1或2所述的方法,其中所抽取的对的输入信号(x)利用增强函数(
Figure DEST_PATH_IMAGE001
)来被增强。
4.根据权利要求3所述的方法,其中从所提供的增强函数(
Figure 76153DEST_PATH_IMAGE002
)的集合中选择所述增强函数(
Figure 993293DEST_PATH_IMAGE001
),所述集合取决于所述输入信号(x)。
5.根据权利要求4所述的方法,其中在从所述训练数据集(X)中随机抽取对的情况下,抽取到可预先给定的对的概率取决于所述可预先给定的对的输入信号(x)的所提供的增强函数(
Figure 38610DEST_PATH_IMAGE002
)的数目(
Figure DEST_PATH_IMAGE003
)。
6.根据权利要求1至5中任一项所述的方法,其中根据所确定的梯度(g)来进行对所述参数(θ)的适配,而且为了确定所述梯度(g),通过考虑从所述训练数据集(X)中被抽取的对
Figure 151928DEST_PATH_IMAGE004
的逐渐增加的数目(n)来一直使所述梯度(g)的估计值(m1)细化,直至满足可预先给定的中断条件,所述中断条件取决于所述梯度(g)的估计值(m1)。
7.根据权利要求6所述的方法,其中所述可预先给定的中断条件也取决于所述梯度(g)的估计值(m1)的协方差矩阵(C)。
8.根据权利要求7所述的方法,其中所述可预先给定的中断条件可包括如下条件:估计值(m1)和协方差矩阵(C)对于可预先给定的置信度值(λ)来说是否满足条件
Figure DEST_PATH_IMAGE005
9.训练系统(140),所述训练系统被设立为实施根据权利要求1至8中任一项所述的方法。
10.利用根据权利要求1至8中任一项所述的方法来训练的神经网络(60)的应用,用于对附在所述神经网络的输入端上的输入信号(x)进行分类,所述输入信号是根据传感器(30)的输出信号(S)被确定的。
11.利用根据权利要求1至8中任一项所述的方法来训练的神经网络(60)的应用,用于根据所述神经网络(60)的附在所述神经网络(60)的输出端上的输出信号(y)来提供用于操控执行器(10)的操控信号(A)。
12.根据权利要求11所述的利用根据权利要求1至8中任一项所述的方法来训练的神经网络(60)的应用,其中根据所述操控信号(A)来操控执行器(10)。
13.计算机程序,所述计算机程序被设立为实施根据权利要求1至8或10至12中任一项所述的方法。
14.机器可读存储介质(46、146),在其上存储有根据权利要求13所述的计算机程序。
15.用于使用神经网络(60)的方法,其中在第一阶段中利用根据权利要求1至8中任一项所述的方法来训练所述神经网络(60)并且接着根据权利要求10至12中任一项来应用所述神经网络。
CN201980084359.2A 2018-12-19 2019-11-28 用于训练神经网络的方法 Pending CN113243021A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102018222347.5 2018-12-19
DE102018222347.5A DE102018222347A1 (de) 2018-12-19 2018-12-19 Verfahren zum Trainieren eines neuronalen Netzes
PCT/EP2019/082837 WO2020126378A1 (de) 2018-12-19 2019-11-28 Verfahren zum trainieren eines neuronalen netzes

Publications (1)

Publication Number Publication Date
CN113243021A true CN113243021A (zh) 2021-08-10

Family

ID=68733060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980084359.2A Pending CN113243021A (zh) 2018-12-19 2019-11-28 用于训练神经网络的方法

Country Status (8)

Country Link
US (1) US20210406684A1 (zh)
EP (1) EP3899808A1 (zh)
JP (1) JP7137018B2 (zh)
KR (1) KR20210099149A (zh)
CN (1) CN113243021A (zh)
DE (1) DE102018222347A1 (zh)
TW (1) TW202105261A (zh)
WO (1) WO2020126378A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI793516B (zh) * 2021-02-04 2023-02-21 國立中興大學 神經網路之自適應調節批量大小的訓練方法
TWI771098B (zh) * 2021-07-08 2022-07-11 國立陽明交通大學 路側單元之雷達系統之狀態之錯誤診斷系統及方法
CN114046179B (zh) * 2021-09-15 2023-09-22 山东省计算中心(国家超级计算济南中心) 一种基于co监测数据智能识别和预测井下安全事故的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997008627A1 (en) * 1995-08-31 1997-03-06 Arch Development Corporation A neural network based system for equipment surveillance
DE19721067C1 (de) * 1997-05-20 1998-09-17 Siemens Nixdorf Advanced Techn Stochastischer Schätzer, insbesondere zur Analyse von Kundenverhalten
WO2016145516A1 (en) * 2015-03-13 2016-09-22 Deep Genomics Incorporated System and method for training neural networks
CN108229539A (zh) * 2016-12-13 2018-06-29 安讯士有限公司 用于训练神经网络的方法、计算机程序产品和装置
CN108520155A (zh) * 2018-04-11 2018-09-11 大连理工大学 基于神经网络的车辆行为模拟方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19635758C1 (de) * 1996-09-03 1997-11-20 Siemens Ag Verfahren und Vorrichtung zur rechnergestützten Generierung mindestens eines künstlichen Trainingsdatenvektors für ein neuronales Netz
JP2004265190A (ja) * 2003-03-03 2004-09-24 Japan Energy Electronic Materials Inc 階層型ニューラルネットワークの学習方法、そのプログラム及びそのプログラムを記録した記録媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997008627A1 (en) * 1995-08-31 1997-03-06 Arch Development Corporation A neural network based system for equipment surveillance
DE19721067C1 (de) * 1997-05-20 1998-09-17 Siemens Nixdorf Advanced Techn Stochastischer Schätzer, insbesondere zur Analyse von Kundenverhalten
WO2016145516A1 (en) * 2015-03-13 2016-09-22 Deep Genomics Incorporated System and method for training neural networks
CN108229539A (zh) * 2016-12-13 2018-06-29 安讯士有限公司 用于训练神经网络的方法、计算机程序产品和装置
CN108520155A (zh) * 2018-04-11 2018-09-11 大连理工大学 基于神经网络的车辆行为模拟方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIA SHIJIE 等: ""Research on Data Augmentation for Image Classification Based on Convolution Neural Networks"", 《2017 CHINESE AUTOMATION CONGRESS(CAC)》, 31 December 2017 (2017-12-31), pages 4165 - 4170 *

Also Published As

Publication number Publication date
JP2022514886A (ja) 2022-02-16
TW202105261A (zh) 2021-02-01
US20210406684A1 (en) 2021-12-30
JP7137018B2 (ja) 2022-09-13
KR20210099149A (ko) 2021-08-11
WO2020126378A1 (de) 2020-06-25
EP3899808A1 (de) 2021-10-27
DE102018222347A1 (de) 2020-06-25

Similar Documents

Publication Publication Date Title
CN109478239B (zh) 检测图像中的对象的方法和对象检测系统
JP7402796B2 (ja) 3次元視線ベクトルを用いた車両乗員関与を決定するための方法、コンピューティングデバイス、コンピューティングシステム、コンピュータプログラム、および車両
CN112541520A (zh) 用于为神经网络生成反事实数据样本的设备和方法
CN113243021A (zh) 用于训练神经网络的方法
US20220100850A1 (en) Method and system for breaking backdoored classifiers through adversarial examples
WO2022194069A1 (zh) 一种生成显著图的方法、异常对象检测的方法以及装置
US11551084B2 (en) System and method of robust active learning method using noisy labels and domain adaptation
US20210294278A1 (en) Method and device for determining a control signal
CN113994349A (zh) 用于训练机器学习系统的方法和设备
US20230260259A1 (en) Method and device for training a neural network
CN116894799A (zh) 用于域泛化的数据增强
JP7137017B2 (ja) センサデータを分類するための方法及び装置並びにアクチュエータを駆動制御するための駆動制御信号を求めるための方法及び装置
US20220101116A1 (en) Method and system for probably robust classification with detection of adversarial examples
CN113168571A (zh) 用于训练神经网络的方法
CN113449585A (zh) 用于运行分类器的方法和设备
US20230107917A1 (en) System and method for a hybrid unsupervised semantic segmentation
US20230100765A1 (en) Systems and methods for estimating input certainty for a neural network using generative modeling
US20240112448A1 (en) Methods and systems of generating images utilizing machine learning and existing images with disentangled content and style encoding
US20230107463A1 (en) Method and system for probably robust classification with multiclass enabled detection of adversarial examples
US20240062058A1 (en) Systems and methods for expert guided semi-supervision with label propagation for machine learning models
WO2022261950A1 (en) System and method for model composition of neural networks
US20240096067A1 (en) Systems and methods for multi-teacher group-distillation for long-tail classification
US20230100132A1 (en) System and method for estimating perturbation norm for the spectrum of robustness
US20240070451A1 (en) System and method for universal purification of input perturbation with denoised diffiusion models
US20230351741A1 (en) Method and device for training a neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination