CN113243021A - 用于训练神经网络的方法 - Google Patents
用于训练神经网络的方法 Download PDFInfo
- Publication number
- CN113243021A CN113243021A CN201980084359.2A CN201980084359A CN113243021A CN 113243021 A CN113243021 A CN 113243021A CN 201980084359 A CN201980084359 A CN 201980084359A CN 113243021 A CN113243021 A CN 113243021A
- Authority
- CN
- China
- Prior art keywords
- neural network
- training
- input signal
- signal
- gradient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 81
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000000053 physical method Methods 0.000 claims abstract description 3
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 230000006978 adaptation Effects 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 23
- 230000006870 function Effects 0.000 description 23
- 230000001276 controlling effect Effects 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 9
- 238000013507 mapping Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 6
- 238000005406 washing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 238000002059 diagnostic imaging Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000002604 ultrasonography Methods 0.000 description 2
- 241001351225 Sergey Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000002775 capsule Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Neurology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
用于训练神经网络(60)的计算机实现的方法,所述神经网络尤其被设立用于对物理测量参量进行分类,其中所述神经网络(60)借助于训练数据集(X)来被训练,其中为了进行所述训练,从所述训练数据集(X)中抽取包括输入信号(x)和所属的所希望的输出信号(yT)的对,其中在供应所述输入信号(x)的情况下并且根据所希望的输出信号(yT)根据所述神经网络(60)的输出信号(y)来进行对所述神经网络(60)的参数(θ)的适配,其特征在于,始终从整个训练数据集(X)中实现对的所述抽取。
Description
技术领域
本发明涉及用于训练神经网络的方法、训练系统、这样训练的神经网络的应用、计算机程序和机器可读存储介质。
背景技术
从“Improving neural networks by preventing co-adaptation of featuredetectors”, arXiv preprint arXiv:1207.0580v1, Geoffrey E. Hinton, NitishSrivastava, Alex Krizhevsky, llya Sutskever, Ruslan R. Salakhutdinov (2012),公知一种用于训练神经网络的方法,其中在训练期间随机忽略特征检测器。该方法也以名称“Dropout(丢弃)”公知。
从“Batch Normalization: Accelerating Deep Network Training byReducing Internal Covariate Shift”, arXiv preprint arXiv:1502.03167v3, Sergeyloffe, Christian Szegedy (2015)公知一种用于训练神经网络的方法,其中将输入参量归一化到小批量(英文:“mini-batch”)的训练示例的层中。
发明内容
本发明的优点
与此相对地,具有独立权利要求1的特征的方法具有如下优点:该方法可确保被训练的系统的可靠性,这对于安全关键的应用来说是必不可少的。令人吃惊的是,在无需忍受在训练结束时可实现的(例如在图像分类方面的)性能方面变差的情况下得到该优点。
扩展方案是从属权利要求的主题。
本发明的公开
在有足够多的训练数据的情况下,可以使用所谓的“Deep Learning(深度学习)”方法、即(深度)人工神经网络,以便高效地确定输入空间V0与输出空间Vk之间的映射。这例如可以是对传感器数据、尤其是图像数据的分类,即从传感器数据或图像数据到类别的映射。以规定k-1个隐藏空间的方案为基础。还规定了在这些空间之间的k个映射。这些映射中的每个映射通常都被称作层(英文:“layer”)。通常,这种层通过在适当地选择的空间的情况下的权重来被参数化。k个层的权重也被统称为权重 ,而且从输入空间V0到输出空间Vk的映射为,该映射根据各个映射(在有明确表示为下标的权重)的情况下为。
“深度神经网络”可以被理解成具有至少两个隐藏层(英文:“hidden layer”)的神经网络。
为了将该期望值Φ最小化,可以使用基于梯度的方法,这些基于梯度的方法确定关于权重w方面的梯度。该梯度通常借助于训练数据来被近似,即通过来被近似,其中从所谓的时期(Epoche)中选择索引j。在这种情况下,时期是可用训练数据点的标签{1, ..., N}的排列。
为了扩展训练数据集,可以使用所谓的数据增强(也称作增强)。在这种情况下,可以针对该时期中的每个索引j在对的位置选择增强对,其中这里输入信号xj被增强输入值替代。在这种情况下,可以是输入信号xj的典型变化的集合(包括输入信号xj本身在内),这些变化使输入信号xj的分类、即神经网络的输出信号不变。
不过,这种基于时期的采样与根据等式(1)的定义并不完全一致,因为每个数据点在该时期的过程中正好被选择一次。而根据等式(1)的定义以独立抽取的数据点为基础。也就是说,等式(1)的前提是“在有放回的情况下”对数据点的抽取,而基于时期的采样实行“在没有放回的情况下”对数据点的抽取。这可能导致:数学收敛证明的前提不存在(因为如果从N个数据点的集合中抽取N个示例,则对这些数据点中的每个数据点都正好抽取一次的概率小于(对于N > 2来说)),而该概率在基于时期的采样的情况下始终等于1。
如果使用数据增强,则还可以加强该统计效果,因为在每个时期都存在集合的元素,而且视增强函数而定,并不能排除:,其中。在这种情况下难以借助于集合对这些增强进行统计上正确的映射,因为对于每个输入数据xj来说效果不必同样显著。这样,例如旋转可能对圆形对象没有影响,但是可能非常强烈地影响一般对象。因而,集合的大小可取决于输入数据xj,这对于逆向训练方法而言可能有问题。
最后,训练数据点的数目N是通常难以设置的参量。如果N被选择得过大,则训练方法的运行时间可能被过度延长;如果N被选择得过小,则不能确保收敛,因为收敛的数学证明一般基于然后并不被满足的假设。此外,不清楚应该在哪个时间点可靠地结束训练。如果在这种情况下,将数据点的一部分作为评估数据集并且借助于该评估数据集来确定收敛质量,则这可能导致:关于该评估数据集的数据点方面发生权重w的过拟合(英文:“over-fitting”),这不仅降低了数据效率,而且当网络被应用于与这些训练数据不同的训练数据时可能使该网络的性能变差。这可能导致所谓的“普遍适用性”(英文:“generalizability”)降低。
为了减少过拟合,可以借助于开头提到的“Dropout”方法来使存储在隐藏层中的信息随机稀疏。
为了改善训练过程的随机性,可以通过使用所谓的批量归一化层(英文:“batchnormalization layer”)来引入关于所谓的小批量(英文:“mini batch”)的统计参数μ和σ,这些统计参数在训练过程期间有概率被更新。在推理的情况下,这些参数μ和σ的值被选择为可固定地预先给定的值,例如被选择为来自通过对指数衰减行为的外推来进行的训练中的估计值。
此外,所述小批量的大小是参数,该参数通常影响训练结果并且因而必须尽可能好地被设置成进一步的超参数,例如在(可能复杂的)架构搜索的框架内被设置成进一步的超参数。
因而,在第一方面中,本发明涉及一种用于训练神经网络的方法,该神经网络尤其被设立用于对物理测量参量进行分类,其中该神经网络借助于训练数据集X来被训练,其中为了进行该训练,从训练数据集中(随机)抽取包括输入信号和所属的所希望的输出信号的对,其中在供应输入信号和所希望的输出信号的情况下根据神经网络的输出信号来实现对神经网络的参数的适配,其中始终从整个训练数据集中实现对的所述抽取。
在该方面的一个优选的扩展方案中规定:对的抽取与之前在训练过程中已经抽取了哪些对无关。
换言之,从训练数据集中对对、即数据点的采样对应于“有放回的抽取”。这打破了训练数据集的训练示例通过“没有放回的抽取”来被抽取的当前范式。所述“有放回的抽取”一开始看起来不利,因为不能确保在给定数目的训练示例之内来自训练数据集中的每个数据点都被实际使用。
借此可确保被训练的系统的可靠性,这尤其对于安全关键的应用来说是必不可少的。令人吃惊的是,在无需忍受在训练结束时可实现的(例如在图像分类方面的)性能方面变差的情况下得到该优点。此外,大大简化了与可用来训练神经网络的训练系统的其它子块的接口。
可选地,所抽取的对在此还可以进一步被增强。也就是说,对于一些或者所有包含在训练数据集中(作为对的组成部分)的输入信号来说,可以规定可使输入信号经受的增强函数的集合。对相对应的增强函数的选择同样可以随机进行,优选地与之前在训练过程中已经抽取了哪些对和/或哪些增强函数无关。
例如,该概率可以是预先给定的参量。尤其是,该概率有利地被选择得与可能的增强函数的数目成比例。这能够充分考虑到有些增强函数使输入信号不变,使得增强函数的集合的基数(也就是说集合的元素的数目)在输入信号之间可能有很大不同。通过该充分考虑,可以避免在逆向训练方法方面的可能的问题。这可以按如下地被理解:在给定的输入信号的情况下,在逆向训练方法中可以借助于适当的增强函数来生成逆向输入信号,该逆向输入信号与给定的输入信号具有小于最大距离r的足够小的距离。如果容许有两个输入信号,这两个输入信号彼此间具有小的距离(小于最大距离的两倍),则可能的是:逆向输入信号的集合重叠,使得只要该重叠未被充分考虑,这些逆向训练方法就可能被过度代表。所提到的方法做到了这一点。
在这些扩展方案的另一方面中,可以规定:根据所确定的梯度来进行对参数的适配,而且为了确定该梯度,通过考虑从训练数据集中被抽取的对的逐渐增加的数目来一直使该梯度的估计值m1细化,直至满足可预先给定的中断条件,该中断条件取决于该梯度的估计值m1。
这尤其意味着:在满足可预先给定的中断条件之后才进行对参数的适配。
这不同于现有技术中的诸如随机梯度下降(英文:“stochastic gradientdescent”)那样的常用方法,在这些常用方法中,总是在可预先给定的小批量内进行对该梯度的平均。该小批量具有可预先给定的大小,该大小可以被设置成超参数。通过从训练数据集中连续添加对,在所提出的方法中能够一直实施该确定,直至该梯度可靠地朝向上升方向。
此外,小批量的大小是所要优化的超参数。由于可以省去该优化,所以该方法更高效且更可靠,因为过拟合可以更为有效地被抑制而且取消了作为超参数的批量大小。
尤其是,可预先给定的中断条件也可以取决于该梯度的估计值m1的协方差矩阵C。
经此,能够特别简单地确保该梯度可靠地朝向上升方向。
即,利用该条件来引入概率中断标准。由此,也能够利用可预先给定的置信度来确保该梯度在置信度值λ的情况下朝向上升方向。
在这些扩展方案的另一方面中,可以规定:所确定的梯度的分量根据与这些分量相对应的参数属于神经网络的哪个层来被缩放。
在该上下文中,“缩放”可以被理解为使得将所确定的梯度的分量与取决于该层的因子相乘。
该缩放尤其可取决于该层在神经网络之内的位置、即深度。
该深度例如可以通过被输送给神经网络的输入层的信号在其首次作为输入信号附在该层上之前必须传播经过的层的数目来表征、尤其是给出。
在一个扩展方案中,可以规定:该缩放也取决于所确定的梯度的相对应的分量属于特征图中的哪个特征。
尤其可以规定:该缩放取决于该特征的感受野的大小。
已经认识到:尤其是在卷积网络中特征图的权重与感受野的特征的信息累积相乘,这可能就是对于这些权重来说出现过拟合的原因。利用所提出的方法有效地阻止了这一点。
在一个特别简单且高效的替选方案中,可以规定:该缩放取决于该层的分辨率。该缩放尤其取决于该层的分辨率与输入层的分辨率之商。
已经认识到:经此,感受野的大小可以非常简单且高效地被近似。
在这些扩展方案的另一方面中,可以规定:神经网络包括缩放层,其中该缩放层将附在该缩放层的输入端上的输入信号映射到附在该缩放层的输出端上的输出信号,使得附在输出端上的输出信号是输入信号的被重新缩放的信号,其中表征该重新缩放的参数可固定地预先给定。
优选地,这里可以规定:该缩放层将附在该缩放层的输入端上的输入信号映射到附在该缩放层的输出端上的输出信号,使得该映射对应于在球上的投影,其中该球的中心c和/或半径ρ可以固定地预先给定。替选地,也可能的是:这些参数在训练过程中与神经网络的其它参数一样被适配。
在一个要特别高效地计算的扩展方案中,可以规定:第一范数(N1)和第二范数(N2)被选择得相同。
替选地或附加地,第一范数(N1)可以是L∞范数。尤其是即使第一范数(N1)和第二范数(N2)被选择得不相同,该范数也同样可以特别高效地被计算。
替选地,可以规定:其中第一范数(N1)是L1范数。对第一范数的该选择有利于该缩放层的输出信号的稀疏性(英文“sparsity”)。这例如对于神经网络的压缩来说有利,因为具有值0的权重对这些权重的层的输出值没有贡献。
因而,具有这样的层的神经网络尤其可以结合压缩方法以存储特别高效的方式来被使用。
在第一范数(N1)的所描述的变型方案中,可以有利地规定:第二范数(N2)是L2范数。借此,该方法可以特别简单地被实现。
令人吃惊的是,即已经认识到:如果具有多个重要的、也就是说重加权的特征的输入信号附在该缩放层的输入端上,则该方法特别高效。
附图说明
随后,本发明的实施方式参考随附的附图更详细地予以阐述。在附图中:
图1示意性示出了控制系统的实施方式的构造;
图2示意性示出了用于控制至少部分自主机器人的实施例;
图3示意性示出了用于控制生产系统的实施例;
图4示意性示出了用于控制私人助理的实施例;
图5示意性示出了用于控制访问系统的实施例;
图6示意性示出了用于控制监控系统的实施例;
图7示意性示出了用于控制医学成像系统的实施例;
图8示意性示出了训练系统;
图9示意性示出了神经网络的构造;
图10示意性示出了在神经网络之内的信息转发;
图11以流程图示出了训练方法的实施方式;
图12以流程图示出了用于估计梯度的方法的实施方式;
图13以流程图示出了用于估计梯度的方法的替选的实施方式;
图14以流程图示出了用于对所估计的梯度进行缩放的方法的实施方式;
图15以流程图示出了用于在神经网络之内实现缩放层的实施方式;
图16以流程图示出了用于运行被训练的神经网络的方法。
具体实施方式
图1示出了在其周围环境20中与控制系统40进行交互的执行器10。执行器10和周围环境20也共同被称作执行器系统。利用传感器30以优选地均匀的时间间隔来检测该执行器系统的状态,该传感器也可以通过多个传感器来给出。传感器30的传感器信号S或在有多个传感器的情况下每个传感器信号S被传送给控制系统40。因此,控制系统40接收传感器信号S的序列。控制系统40据此确定操控信号A,所述操控信号被传输给执行器10。
传感器30是检测周围环境20的状态并且将其作为传感器信号S来传送的任意传感器。例如可以是成像传感器,尤其是像图像传感器或视频传感器那样的光学传感器,或者雷达传感器,或者超声传感器,或者激光雷达(LiDAR)传感器。也可以是例如接收固体声或语音信号的声音传感器。该传感器同样可以是位置传感器(诸如GPS)或者可以是运动传感器(例如单轴或多轴加速度传感器)。表征执行器10在周围环境20中的取向的传感器(例如罗盘)也是可能的。检测周围环境20的化学成分的传感器、例如氧传感器也是可能的。替选地或附加地,传感器30也可以包括确定关于执行器系统的状态的信息的信息系统、诸如天气信息系统,该天气信息系统确定了在周围环境20中的天气的当前或将来的状态。
控制系统40在可选的接收单元50中接收传感器30的传感器信号S的序列,该接收单元将传感器信号S的序列转换成输入信号x的序列(替选地也可以直接各采用传感器信号S作为输入信号x)。输入信号x例如可以是传感器信号S的片段或者对传感器信号S的进一步处理。输入信号x例如可以包括图像数据或图像,或者包括视频录制的各个帧。换言之,根据传感器信号S来确定输入信号x。输入信号x被输送给神经网络60。
神经网络60优选地通过例如包括权重w的参数θ来被参数化,这些参数存放在参数存储器P中并且由该参数存储器来提供。
神经网络60根据输入信号x来确定输出信号y。通常,输出信号y对输入信号x的分类信息进行编码。输出信号y被输送给可选的改型单元80,该改型单元据此来确定操控信号A,这些操控信号被输送给执行器10,以便相对应地对执行器10进行操控。
神经网络60例如可以被设立为:在输入信号中探测人员和/或道路指示牌和/或交通信号灯和/或车辆(即对这些人员和/或道路指示牌和/或交通信号灯和/或车辆是否存在进行分类)和/或根据它们的类型来进行分类(这可以以语义分割的形式按区域、尤其是逐像素地进行)。
执行器10接收操控信号A,相对应地被操控并且实施相对应的行动。在这种情况下,执行器10可包括(不一定在结构上集成的)操控逻辑,该操控逻辑根据操控信号A来确定然后用来操控执行器10的第二操控信号。
在其它实施方式中,控制系统40包括传感器30。在另外其它实施方式中,替选地或附加地,控制系统40也包括执行器10。
在其它优选的实施方式中,控制系统40包括一个或多个处理器45和至少一个机器可读存储介质46,在该机器可读存储介质上存储有命令,当这些命令在处理器45上被实施时,这些命令促使控制系统40实施用于运行控制系统40的方法。
在替选的实施方式中,替选于执行器10或除了执行器10之外,还设置显示单元10a。
图2示出了如下实施例,在该实施例中,控制系统40被用于控制至少部分自主机器人、这里是至少部分自动化的机动车100。
传感器30可以是结合图1所提到的传感器,优选地是一个或多个优选地布置在机动车100中的视频传感器和/或一个或多个雷达传感器和/或一个或多个超声传感器和/或一个或多个激光雷达传感器和/或一个或多个位置传感器(例如GPS)。
神经网络60可以根据输入数据x来探测例如在至少部分自主机器人的周围环境中的对象。输出信号y可以是表征在至少部分自主机器人的周围环境中对象所在的位置的信息。那么,输出信号A可以根据该信息和/或与该信息相对应地来被确定。
优选地布置在机动车100中的执行器10例如可以是机动车100的刹车装置、驱动装置或转向装置。接着,操控信号A可以被确定为使得该执行器或这些执行器10被操控为使得尤其是当涉及某些类别的对象、例如行人时,机动车100例如防止了与由神经网络60所标识的对象相撞。换言之,操控信号A可以根据所确定的类别和/或与所确定的类别相对应地被确定。
替代地,该至少部分自主机器人也可以是其它移动机器人(未绘出),例如是这种通过飞行、漂浮、潜水或步行来前进的机器人。该移动机器人例如也可以是至少部分自主割草机或者至少部分自主清洁机器人。在这些情况下,操控信号A也可以被确定为使得移动机器人的驱动装置和/或转向装置被操控为使得该至少部分自主机器人例如防止与由神经网络60所标识的对象相撞。
在另一替选方案中,该至少部分自主机器人也可以是花园机器人(未绘出),该花园机器人利用成像传感器30和神经网络60来确定在周围环境20中的植物的类型或状态。那么,执行器10例如可以是化学品的供料机。操控信号A可以根据所确定的植物的类型或者所确定的植物的状态来被确定,使得化学品的与所确定的类型或所确定的状态相对应的量被涂覆。
在还有其它替选方案中,该至少部分自主机器人也可以是家用电器(未描绘)、尤其是洗衣机、炉灶、烤箱、微波炉或洗碗机。利用传感器30、例如光学传感器可以检测用家用电器来处理的对象的状态,例如在洗衣机的情况下可以检测处在洗衣机中的洗涤物的状态。接着,利用神经网络60可以确定该对象的类型或状态并且由输出信号y来表征该对象的类型或状态。接着,操控信号A可以被确定为使得家用电器根据该对象的所确定的类型或所确定的状态来操控。例如,在洗衣机的情况下,该洗衣机可以根据处在其中的洗涤物由何种材料构成来被操控。接着,操控信号A可以根据确定了洗涤物的何种材料来被选择。
图3示出了如下实施例,在该实施例中,控制系统40被用于操控生产系统200的生产机器11,其方式是对控制该生产机器11的执行器10进行操控。生产机器11例如可以是用于冲压、锯切、钻孔和/或切割的机器。
传感器30可以是结合图1所提到的传感器,优选地是例如检测制成品12的特性的光学传感器。可能的是:控制生产机器11的执行器10根据所确定的制成品12的特性来被操控,以便生产机器11相对应地实施该制成品12的随后的加工步骤。也可能的是:传感器30确定由生产机器11来加工的制成品12的特性,而且根据此针对下一个制成品来使对生产机器11的操控适配。
图4示出了如下实施例,在该实施例中,控制系统40被用于操控私人助理250。传感器30可以是结合图1所提到的传感器。优选地,传感器30是声音传感器,该声音传感器接收用户249的语音信号。替选地或附加地,传感器30也可以被设立为接收光学信号、例如用户249的姿态的视频图像。
根据传感器30的信号,控制系统40确定私人助理250的操控信号A,例如其方式是神经网络执行姿态识别。接着,将该所确定的操控信号A传送给私人助理250并且该私人助理因此相对应地被操控。该所确定的操控信号A尤其可以被选择为使得该操控信号对应于用户249所设想的所希望的操控。该所设想的所希望的操控可以根据由神经网络60识别出的姿态来予以确定。接着,控制系统40可以根据所设想的所希望的操控来选择用于传送给私人助理250的操控信号A和/或选择用于传送给与所设想的所希望的操控相对应的私人助理250的操控信号A。
该相对应的操控例如可包含:私人助理250从数据库中调用信息并且以对于用户249来说可接收到的方式来重现这些信息。
替代私人助理250,也可以设置家用电器(未绘出),尤其是洗衣机、炉灶、烤箱、微波炉或洗碗机,以便相对应地被操控。
图5示出了如下实施例,在该实施例中,控制系统40被用于操控访问系统300。访问系统300例如可以包括物理访问控制装置、例如门401。传感器30可以是结合图1所提到的传感器,优选地是光学传感器(例如用于检测图像或视频数据),该光学传感器被设立为检测面部。借助于神经网络60,可以解释该所检测到的图像。例如可以确定人员的身份。执行器10可以是锁,该锁根据操控信号A来激活访问控制装置或者不激活访问控制装置,例如将门401打开或者不打开门401。为此,操控信号A可以根据神经网络60的解释来被选择,例如根据人员的所确定的身份来被选择。替代物理访问控制装置,也可以设置逻辑访问控制装置。
图6示出了如下实施例,在该实施例中,控制系统40被用于控制监控系统400。在图5中示出的实施例与该实施例的区别在于:替代执行器10,设置显示单元10a,该显示单元由控制系统40来操控。例如,神经网络60可以确定由光学传感器所拍摄到的对象是否可疑,而且操控信号A接着可以被选择为使得该对象由显示单元10a用颜色突出呈现。
图7示出了如下实施例,在该实施例中,控制系统40被用于控制医学成像系统500、例如MRT仪器、X光仪器或超声仪器。传感器30例如可以通过成像传感器来给出,通过控制系统40来操控显示单元10a。例如,神经网络60可以确定由成像传感器所记录的区域是否异常,而且操控信号A接着可以被选择为使得该区域由显示单元10a用颜色突出呈现。
图8示意性示出了用于借助于训练方法来训练神经网络60的训练系统140的实施例。训练数据单元150确定适合的输入信号x,这些适合的输入信号被输送给神经网络60。例如,训练数据单元150训练其中存储有训练数据记录的计算机实现的数据库,并且例如从该训练数据记录中随机选择输入信号x。可选地,训练数据单元150也确定被分配给输入信号x的所希望的或者“实际的”输出信号yT,这些输出信号被输送给评估单元180。
人工神经网络x被设立为:根据被输送给该人工神经网络的输入信号x来确定所属的输出信号y。这些输出信号y被输送给评估单元180。
在其它优选的实施方式中,训练系统140包括一个或多个处理器145和至少一个机器可读存储介质146,在该机器可读存储介质上存储有命令,当这些命令在处理器145上被实施时,这些命令促使控制系统140实施该训练方法。
图9示例性示出了神经网络60的可能的构造,该神经网络在该实施例中作为神经网络来给出。该神经网络包括多个层S1、S2、S3、S4、S5,以便根据在输入层S1的输入端上被输送的输入信号x来确定附在输出端S5的输出端上的输出信号y。在这种情况下,这些层S1、S2、S3、S4、S5中的每个层都被设立为:根据附在相应的层S1、S2、S3、S4、S5的输入端上的(可能是多维的)输入信号x、z1、z3、z4、z6来确定附在相应的层S1、S2、S3、S4、S5的输出端上的(可能是多维的)输出信号z1、z2、z4、z5、y。这种输出信号特别是在图像处理中也被称作特征图(英文:“feature maps”)。在这种情况下,并不需要这些层S1、S2、S3、S4、S5被布置为使得作为输入信号进入其它层的所有输出信号都分别从上一层进入紧随其后的层。作为替代,跨接连接(英文:“Skip Connections”)或者循环连接也是可能的。当然,同样可能的是:输入信号x进入这些层中的多个层;或者神经网络60的输出信号y由多个层的输出信号组成。
输出层S5例如可以通过Argmax层(即从具有分别被分配的输入值的多个输入端中选择其所分配的输入值在这些输入值中是最大输入值的那个输入端的名称的层)来给出,层S1、S2、S3中的一个或多个层例如可以通过卷积层来给出。
有利地,层S4构造为缩放层,该缩放层构造为使得附在缩放层(S4)的输入端上的输入信号(x)被映射到附在缩放层(S4)的输出端上的输出信号(y),使得附在该输出端上的输出信号(y)是对输入信号(x)的重新缩放,其中表征该重新缩放的参数可固定地预先给定。在下文结合图15来描述缩放层S4可执行的方法的实施例。
图10示意性图解说明了在神经网络60之内的信息转发。这里,示意性示出了在神经网络60之内的三个多维信号,即输入信号x以及稍后的特征图z1、z2。在该实施例中,输入信号x具有个像素的空间分辨率、个像素的第一特征图z1、个像素的第二特征图z2。在该实施例中,第二特征图z2的分辨率低于输入信号x的分辨率,但是不强制是这种情况。
还示出了第二特征图z2的特征、例如像素。如果根据第一特征图z1来确定第二特征图z2的函数例如通过卷积层或者全连接层(英文:“fully connected layer”)来被示出,则也可能的是:第一特征图z1的多个特征加入对该特征的值的确定。但是,当然也可能的是:只有第一特征图z1的唯一特征加入对该特征的值的确定。
在这种情况下,“加入”可以有利地被理解为:得出表征用来根据第一特征图z1确定第二特征图z2的函数的参数的值与第一特征图z1的值的组合,使得特征的值取决于加入的特征的值。这些加入的特征的全体在图10中被称作区域Be。
输入信号x的一个或多个特征就其而言加入对该区域Be的每个特征的确定。输入信号x的加入对该区域Be的特征中的至少一个特征的确定的所有特征的集合被称作特征的感受野rF。换言之,特征的感受野rF包括输入信号x的直接或间接(换言之:至少间接)加入对特征的确定、也就是说其值可影响特征的值的所有那些特征。
图11以流程图示出了按照实施方式的用于训练神经网络60的方法的流程。
此外,可选地,例如如果在步骤1100中使用该方法的该部分的在图12中图解说明的实施例,则第一集合G和第二集合N被初始化。如果应该在步骤1100中使用该方法的该部分的在图13中图解说明的实施例,则可以省去对第一集合G和第二集合N的初始化。
对第一集合G和第二集合N的初始化可以按如下来进行:包括训练数据集X的在该训练方法的当前时期过程中已经被抽取的那些对的第一集合G被初始化成空集合。包括训练数据集X的在当前时期过程中还未被抽取的那些对的第二集合N通过给该第二集合分派训练数据集X的所有对来被初始化。
然后(1200),可选地执行对梯度g的缩放。结合图14来描述该方法的实施例。
现在(1500),借助于可预先给定的收敛标准来检查该方法是否收敛。例如,根据参数θ(例如在最后两个时期之间)的绝对变化可以判断是否满足收敛标准。例如,恰好当关于所有参数θ在最后两个时期之间的变化的L2范数小于可预先给定的收敛阈值时,可以满足该收敛标准。
如果判断出满足该收敛标准,则采用参数θ作为被学习的参数,并且该方法结束。如果没有判断出满足该收敛标准,则分岔回到步骤1100。
图12以流程图图解说明了用于在步骤1100中确定梯度g的示例性方法。
首先(1110),应该抽取、即选择训练数据集X(在不放回的情况下)的可预先给定的数目bs的对并且将其分派给批量B(英文:“batch”)。可预先给定的数目bs也被称作批量大小(英文:“batch size”)。批量B被初始化成空集合。
紧接着(1150)步骤(1130)或(1140),对于所有参数θ来说,可选地判断:这些参数θ是否应该在该训练轮次中被忽略。为此,例如针对每个层(S1, S2, ..., S6)单独地规定该层的参数θ被忽略的概率。例如,该概率对于第一层(S1)来说可以为50%并且在每个后续层的情况下被降低10%。
然后,借助于这些所规定的相应的概率,可以针对这些参数θ中的每个参数来判断该参数是否被忽略。
现在(1155),针对批量B的每个对,可选地判断相应的输入信号xi是否被增强。针对应该被增强的每个相对应的输入信号xi,优选地随机选择增强函数并且将该增强函数应用于输入信号xi。然后,这样被增强的输入信号xi替代原来的输入信号xi。如果输入信号xi是图像信号,则例如可以通过旋转可预先给定的角度来给出该增强函数。
然后(1160),针对批量B的每个对,选择相对应的(并且必要时被增强的)输入信号xi并且将该输入信号输送给神经网络60。在这种情况下,神经网络60的要忽略的参数θ在确定相对应的输出信号期间被停用,例如其方式是将这些参数暂时设置到值零。神经网络60的相对应的输出信号被分配给相对应的对。根据输出信号和对的相应的输出信号yi作为所希望的输出信号yT,分别确定成本函数。
然后(1165),针对批量B的所有对,共同确定完整的成本函数,并且针对所要忽略的参数θ中的每个参数,例如借助于反向传播(英文;“backpropagation”)来确定梯度g的相对应的分量。针对所要忽略的参数θ中的每个参数,将该梯度g的相对应的分量设置到零。
如果查明了批量大小bs不大于在第二集合N中存在的对的数目,则(1180)将批量B的所有对添加给第一集合G并且从第二集合N中除去。现在检查(1185)第二集合N是否为空。如果第二集合N为空,则新的时期开始(1186)。为此,第一集合G再次被初始化成空集合,而且第二集合N重新被初始化,其方式是给该第二集合再次分派训练数据集X的所有对,而且分岔到步骤(1200)。如果第二集合N不为空,则直接分岔到步骤(1200)。
如果查明了批量大小bs大于在第二集合N中存在的对的数目,则第一集合G重新被初始化(1190),其方式是给该第一集合分派批量B的所有对,第二集合N重新被初始化,其方式是给该第二集合再次分派训练数据集X的所有对并且紧接着将也存在于批量B中的对除去。紧接着,新的时期开始并且分岔到步骤(1200)。借此,该方法的该部分结束。
图13以流程图图解说明了用于在步骤1100中确定梯度g的另一示例性方法。首先,对该方法的参数进行初始化(1111)。在下文,用W来表示参数θ的数学空间。即如果参数θ包括np个单独的参数,则空间W是np维空间,例如 。迭代计数器n被初始化到值n = 0,然后第一参量m1被设置成(即被设置成np维向量),第二参量被设置成(即被设置成维矩阵)。
然后(1131),按如下地更新迭代计数器n、第一参量m1和第二参量m2:
据此,利用(向量值的)第一参量m1来求标量积S,即
然后检查(1151)该标量积S是否满足如下不等式:
其中λ是可预先给定的阈值,该阈值对应于置信水平。
如果满足该不等式,则采用第一参量m1的当前值作为所估计的梯度g并且分岔回到步骤(1200)。
如果不满足该不等式,则可以分岔回到步骤(1121)。替选地,也可以检查(1171)迭代计数器n是否已经达到了可预先给定的最大迭代值nmax。如果情况不是如此,则分岔回到步骤(1121),否则采用(1181)零向量作为所估计的梯度g,并且分岔回到步骤(1200)。借此,该方法的该部分结束。
图14示出了用于在步骤(1200)中对梯度g进行缩放的方法的实施方式。在下文,用对来表示梯度g的每个分量,其中表示相对应的参数θ的层,而且表示相对应的参数θ在第个层之内的编号。如果神经网络如图10所图解说明的那样构造用于处理具有在第个层中的相对应的特征图的多维输入数据x,则编号有利地通过在该特征图中的相对应的参数θ与其相关联的那个特征的位置来给出。
现在(1220),针对该梯度g的每个分量,确定缩放因子。例如,该缩放因子可以通过第个层的特征图的与相对应的特征的感受野rF的大小来给出。替选地,缩放因子也可以通过第个层的分辨率、即特征数目相对于输入层的比例来给出。
图15图解说明了由缩放层S4来实施的方法的实施方式。
缩放层S4被设立为:实现附在缩放层S4的输入端上的输入信号x到球体上的投影,该球体具有半径ρ和中心c。这通过第一范数和第二范数来被表征,该第一范数测量中心c距附在缩放层S4的输出端上的输出信号y的距离,该第二范数测量附在缩放层S4的输入端上的输入信号x距附在缩放层S4的输出端上的输出信号y的距离。换言之,如下等式解出了附在缩放层S4的输出端上的输出信号y:
首先(2000),提供附在缩放层S4的输入端上的输入信号x、中心参数c和半径参数ρ。
然后(2100),将附在缩放层S4的输出端上的输出信号y确定为
借此,该方法的该部分结束。
图15b)和15c)图解说明了第一范数N1和第二范数N2的特别有利地选择的组合的实施方式。
首先(3000),类似于步骤(2000),提供附在缩放层S4的输入端上的输入信号x、中心参数c和半径参数ρ。
然后(3100),将附在缩放层S4的输出端上的输出信号y的分量yi确定为
其中i这里表示这些分量。
该方法在计算上特别高效。借此,该方法的该部分结束。
图15c)图解说明了针对在所要满足的调节(12)中通过1-范数来给出第一范数并且通过2-范数来给出第二范数的情况的第三实施方式。该范数组合引起:在附在缩放层S4的输入端上的输入信号x中,将尽可能多的小分量设置到值零。
首先(4000),类似于步骤(2000),提供附在缩放层S4的输入端上的输入信号x、中心参数c和半径参数ρ。
而且附在缩放层S4的输入端上的输入信号x的分量xi被
替代。
辅助参数γ被初始化到值零。
然后(4300),检查是否满足不等式
如果情况如此(4400),则辅助参数γ被
替代并且分岔回到步骤(4200)。
如果不满足(4500)不等式(16),则将附在缩放层S4的输出端上的输出信号y的分量yi确定为
借此,该方法的该部分结束。该方法对应于牛顿法,而且尤其是当附在缩放层S4的输入端上的输入信号x的分量中的多个分量都重要时在计算上特别高效。
图16图解说明了用于运行神经网络60的方法的实施方式。首先(5000),利用所描述的方法之一来训练神经网络。然后(5100),利用这样被训练的神经网络60如所描述的那样来运行控制系统40。该方法以此结束。
易于理解的是:神经网络不限于前馈神经网络(英文:“feedforward neuralnetwork”),而且本发明可以以相同的方式被应用于任何类型的神经网络,尤其是循环网络、卷积网络(英文:“convolutional neural network(卷积神经网络)”)、自动编码器、玻尔兹曼机、感知器或胶囊网络(英文:“Capsule Neural Network(胶囊神经网络)”)。
术语“计算机”包括用于运行可预先给定的计算规则的任意设备。这些计算规则可以以软件的形式存在,或者以硬件的形式存在,或者也可以以软件和硬件的混合形式存在。
此外易于理解的是:这些方法不仅仅可以如所描述的那样完全以软件来实现。这些方法也可以以硬件来实现,或者以软件和硬件的混合形式来实现。
Claims (15)
1.用于训练神经网络(60)的计算机实现的方法,所述神经网络尤其被设立用于对物理测量参量进行分类,其中所述神经网络(60)借助于训练数据集(X)来被训练,其中为了进行所述训练,从所述训练数据集(X)中抽取包括输入信号(x)和所属的所希望的输出信号(yT)的对,其中在供应所述输入信号(x)的情况下并且根据所希望的输出信号(yT)根据所述神经网络(60)的输出信号(y)来进行对所述神经网络(60)的参数(θ)的适配,其特征在于,始终从整个训练数据集(X)中实现对的所述抽取。
2.根据权利要求1所述的方法,其中对的抽取与之前在训练过程中已经抽取了哪些对无关。
7.根据权利要求6所述的方法,其中所述可预先给定的中断条件也取决于所述梯度(g)的估计值(m1)的协方差矩阵(C)。
9.训练系统(140),所述训练系统被设立为实施根据权利要求1至8中任一项所述的方法。
10.利用根据权利要求1至8中任一项所述的方法来训练的神经网络(60)的应用,用于对附在所述神经网络的输入端上的输入信号(x)进行分类,所述输入信号是根据传感器(30)的输出信号(S)被确定的。
11.利用根据权利要求1至8中任一项所述的方法来训练的神经网络(60)的应用,用于根据所述神经网络(60)的附在所述神经网络(60)的输出端上的输出信号(y)来提供用于操控执行器(10)的操控信号(A)。
12.根据权利要求11所述的利用根据权利要求1至8中任一项所述的方法来训练的神经网络(60)的应用,其中根据所述操控信号(A)来操控执行器(10)。
13.计算机程序,所述计算机程序被设立为实施根据权利要求1至8或10至12中任一项所述的方法。
14.机器可读存储介质(46、146),在其上存储有根据权利要求13所述的计算机程序。
15.用于使用神经网络(60)的方法,其中在第一阶段中利用根据权利要求1至8中任一项所述的方法来训练所述神经网络(60)并且接着根据权利要求10至12中任一项来应用所述神经网络。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102018222347.5 | 2018-12-19 | ||
DE102018222347.5A DE102018222347A1 (de) | 2018-12-19 | 2018-12-19 | Verfahren zum Trainieren eines neuronalen Netzes |
PCT/EP2019/082837 WO2020126378A1 (de) | 2018-12-19 | 2019-11-28 | Verfahren zum trainieren eines neuronalen netzes |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113243021A true CN113243021A (zh) | 2021-08-10 |
Family
ID=68733060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980084359.2A Pending CN113243021A (zh) | 2018-12-19 | 2019-11-28 | 用于训练神经网络的方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20210406684A1 (zh) |
EP (1) | EP3899808A1 (zh) |
JP (1) | JP7137018B2 (zh) |
KR (1) | KR20210099149A (zh) |
CN (1) | CN113243021A (zh) |
DE (1) | DE102018222347A1 (zh) |
TW (1) | TW202105261A (zh) |
WO (1) | WO2020126378A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI793516B (zh) * | 2021-02-04 | 2023-02-21 | 國立中興大學 | 神經網路之自適應調節批量大小的訓練方法 |
TWI771098B (zh) * | 2021-07-08 | 2022-07-11 | 國立陽明交通大學 | 路側單元之雷達系統之狀態之錯誤診斷系統及方法 |
CN114046179B (zh) * | 2021-09-15 | 2023-09-22 | 山东省计算中心(国家超级计算济南中心) | 一种基于co监测数据智能识别和预测井下安全事故的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997008627A1 (en) * | 1995-08-31 | 1997-03-06 | Arch Development Corporation | A neural network based system for equipment surveillance |
DE19721067C1 (de) * | 1997-05-20 | 1998-09-17 | Siemens Nixdorf Advanced Techn | Stochastischer Schätzer, insbesondere zur Analyse von Kundenverhalten |
WO2016145516A1 (en) * | 2015-03-13 | 2016-09-22 | Deep Genomics Incorporated | System and method for training neural networks |
CN108229539A (zh) * | 2016-12-13 | 2018-06-29 | 安讯士有限公司 | 用于训练神经网络的方法、计算机程序产品和装置 |
CN108520155A (zh) * | 2018-04-11 | 2018-09-11 | 大连理工大学 | 基于神经网络的车辆行为模拟方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19635758C1 (de) * | 1996-09-03 | 1997-11-20 | Siemens Ag | Verfahren und Vorrichtung zur rechnergestützten Generierung mindestens eines künstlichen Trainingsdatenvektors für ein neuronales Netz |
JP2004265190A (ja) * | 2003-03-03 | 2004-09-24 | Japan Energy Electronic Materials Inc | 階層型ニューラルネットワークの学習方法、そのプログラム及びそのプログラムを記録した記録媒体 |
-
2018
- 2018-12-19 DE DE102018222347.5A patent/DE102018222347A1/de active Pending
-
2019
- 2019-11-28 JP JP2021535840A patent/JP7137018B2/ja active Active
- 2019-11-28 KR KR1020217022763A patent/KR20210099149A/ko unknown
- 2019-11-28 EP EP19812975.1A patent/EP3899808A1/de active Pending
- 2019-11-28 US US17/295,434 patent/US20210406684A1/en active Pending
- 2019-11-28 CN CN201980084359.2A patent/CN113243021A/zh active Pending
- 2019-11-28 WO PCT/EP2019/082837 patent/WO2020126378A1/de unknown
- 2019-12-18 TW TW108146410A patent/TW202105261A/zh unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997008627A1 (en) * | 1995-08-31 | 1997-03-06 | Arch Development Corporation | A neural network based system for equipment surveillance |
DE19721067C1 (de) * | 1997-05-20 | 1998-09-17 | Siemens Nixdorf Advanced Techn | Stochastischer Schätzer, insbesondere zur Analyse von Kundenverhalten |
WO2016145516A1 (en) * | 2015-03-13 | 2016-09-22 | Deep Genomics Incorporated | System and method for training neural networks |
CN108229539A (zh) * | 2016-12-13 | 2018-06-29 | 安讯士有限公司 | 用于训练神经网络的方法、计算机程序产品和装置 |
CN108520155A (zh) * | 2018-04-11 | 2018-09-11 | 大连理工大学 | 基于神经网络的车辆行为模拟方法 |
Non-Patent Citations (1)
Title |
---|
JIA SHIJIE 等: ""Research on Data Augmentation for Image Classification Based on Convolution Neural Networks"", 《2017 CHINESE AUTOMATION CONGRESS(CAC)》, 31 December 2017 (2017-12-31), pages 4165 - 4170 * |
Also Published As
Publication number | Publication date |
---|---|
JP2022514886A (ja) | 2022-02-16 |
TW202105261A (zh) | 2021-02-01 |
US20210406684A1 (en) | 2021-12-30 |
JP7137018B2 (ja) | 2022-09-13 |
KR20210099149A (ko) | 2021-08-11 |
WO2020126378A1 (de) | 2020-06-25 |
EP3899808A1 (de) | 2021-10-27 |
DE102018222347A1 (de) | 2020-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109478239B (zh) | 检测图像中的对象的方法和对象检测系统 | |
JP7402796B2 (ja) | 3次元視線ベクトルを用いた車両乗員関与を決定するための方法、コンピューティングデバイス、コンピューティングシステム、コンピュータプログラム、および車両 | |
CN112541520A (zh) | 用于为神经网络生成反事实数据样本的设备和方法 | |
CN113243021A (zh) | 用于训练神经网络的方法 | |
US20220100850A1 (en) | Method and system for breaking backdoored classifiers through adversarial examples | |
WO2022194069A1 (zh) | 一种生成显著图的方法、异常对象检测的方法以及装置 | |
US11551084B2 (en) | System and method of robust active learning method using noisy labels and domain adaptation | |
US20210294278A1 (en) | Method and device for determining a control signal | |
CN113994349A (zh) | 用于训练机器学习系统的方法和设备 | |
US20230260259A1 (en) | Method and device for training a neural network | |
CN116894799A (zh) | 用于域泛化的数据增强 | |
JP7137017B2 (ja) | センサデータを分類するための方法及び装置並びにアクチュエータを駆動制御するための駆動制御信号を求めるための方法及び装置 | |
US20220101116A1 (en) | Method and system for probably robust classification with detection of adversarial examples | |
CN113168571A (zh) | 用于训练神经网络的方法 | |
CN113449585A (zh) | 用于运行分类器的方法和设备 | |
US20230107917A1 (en) | System and method for a hybrid unsupervised semantic segmentation | |
US20230100765A1 (en) | Systems and methods for estimating input certainty for a neural network using generative modeling | |
US20240112448A1 (en) | Methods and systems of generating images utilizing machine learning and existing images with disentangled content and style encoding | |
US20230107463A1 (en) | Method and system for probably robust classification with multiclass enabled detection of adversarial examples | |
US20240062058A1 (en) | Systems and methods for expert guided semi-supervision with label propagation for machine learning models | |
WO2022261950A1 (en) | System and method for model composition of neural networks | |
US20240096067A1 (en) | Systems and methods for multi-teacher group-distillation for long-tail classification | |
US20230100132A1 (en) | System and method for estimating perturbation norm for the spectrum of robustness | |
US20240070451A1 (en) | System and method for universal purification of input perturbation with denoised diffiusion models | |
US20230351741A1 (en) | Method and device for training a neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |