CN112085207A - 用于创建机器学习系统的方法、设备和计算机程序 - Google Patents

用于创建机器学习系统的方法、设备和计算机程序 Download PDF

Info

Publication number
CN112085207A
CN112085207A CN202010534270.6A CN202010534270A CN112085207A CN 112085207 A CN112085207 A CN 112085207A CN 202010534270 A CN202010534270 A CN 202010534270A CN 112085207 A CN112085207 A CN 112085207A
Authority
CN
China
Prior art keywords
cost function
optimization
machine learning
learning system
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010534270.6A
Other languages
English (en)
Inventor
F.胡特尔
A.泽拉
T.埃尔斯肯
T.布洛克斯
T.赛基亚
Y.马拉奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN112085207A publication Critical patent/CN112085207A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种用于创建机器学习系统的方法,包括以下步骤。根据第一成本函数(英语:loss function,损失函数)对第一参数集进行迭代优化,并且根据第二成本函数对第二参数集进行迭代优化。根据所述第一参数集确定所述第一成本函数的Hesse矩阵的特征值。当所述特征值之一大于可预给定的阈值时,中断所述优化。本发明还涉及一种计算机程序,一种用于执行该方法的设备以及一种机器可读存储元件,其上存储有所述计算机程序。

Description

用于创建机器学习系统的方法、设备和计算机程序
技术领域
本发明涉及一种用于创建机器学习系统的方法。本发明同样涉及一种设备和一种计算机程序,它们分别被设计用于执行所述方法。技术领域
Liu,Hanxiao,Karen Simonyan和Yiming Yang的“DARTS: Differentiablearchitecture search(DARTS:可微分体系架构搜索)”,arXiv预印本arXiv:1806.09055(2018)公开了一种借助于梯度下降方法来优化神经网络的体系架构的方法。
发明优点
已经观察到,已知方法不能目的明确地优化机器学习系统的一定体系架构。这可能导致所述机器学习系统对训练数据的差的性能。
而具有独立权利要求1的特征的方法具有以下优点:如果对体系架构的优化朝错误的方向发展并且没有目的明确地运转,则及早识别。由此可以实现对所述体系架构的更鲁棒的优化。
发明内容
在第一方面,提出了一种用于创建机器学习系统的、特别是计算机实现的方法。第一参数集表征所述机器学习系统的体系架构,并且第二参数集对应于所述机器学习系统的参数化。所述方法包括以下步骤:首先根据第一成本函数(英语:loss function,损失函数)对所述第一参数集进行迭代优化,并且根据第二成本函数对所述第二参数集进行迭代优化。这两个参数集的迭代优化可以交替地进行。接下来是关于所述第一参数集确定所述第一成本函数的Hesse矩阵的特征值。接下来当特征值之一大于可预给定的阈值时,中断所述优化。替代地,可以选择一个标准作为阈值,所述标准取决于多个特征值或所有特征值。
所述Hesse矩阵是这样一个矩阵,其在多维实数分析中是函数的二阶导数的模拟(Analogon)。为了确定所述特征值的近似,可以在多个随机抽取的训练数据上评估第一成本函数。优选地,为此根据随机抽取的训练数据批量(英语:mini-batch,小批量)来确定所述第一成本函数。可以在优化第一和第二参数集的每个迭代步骤之后或在可预给定数量的迭代步骤之后确定所述特征值。
所述机器学习系统的体系架构理解为所述机器学习系统的结构。所述机器学习系统的结构可以包括多个层或单元,每个层或单元具有多个(激活)功能。
迭代优化可以理解为重复优化。在此,为每个迭代步骤提出改变了的解,使得该解逐步接近最优解。为此,连续执行优化步骤多次。当满足特征值之一大于所述阈值的条件时,或者当满足所述成本函数已达到可预给定函数值的条件时,或者当达到优化步骤的预给定重复次数时,结束所述优化。然后可以结束所述优化或体系架构搜索,也就是至少输出所述第一参数集。接下来可以根据输出的第一参数集对所述机器学习系统进行初始化并根据所述第二参数集对所述机器学习系统进行参数化。也可以设想的是,在超过所述阈值之后再次从头开始所述方法,或者从先前的迭代步骤处的先前确定的参数集开始继续迭代优化。还可以设想的是,在中断所述优化之后,至少输出在超过所述阈值之前确定的所述第一参数集,特别是选择所属的体系架构。
例如,借助于梯度下降方法进行所述迭代优化。优选地,为此使用针对DARTS提出的梯度下降方法。成本函数可以理解为所述机器学习系统的所确定的输出变量与预给定的训练输出变量之间的差异或偏差。所述训练输出变量分别与训练输入变量关联。这些训练输入变量由所述机器学习系统处理并作为输出变量输出。
可以根据第一训练数据集合(例如,验证数据)来确定所述第一成本函数。可以根据第二训练数据集合来确定所述第二成本函数。训练数据分别包括成对的训练输入变量和关联的训练输出变量。可以设想的是,将同一成本函数用于两个参数集和/或根据相同的训练数据确定两个成本函数。
两个成本函数可以分别根据所述第一参数集(所述第一参数集表征所述机器学习系统的体系架构)和根据所述第二参数集(例如神经网络的权重)来予以确定。然后在通过相应的成本函数进行优化时,不应当优化的参数集分别保持不变。
所述第一成本函数和所述第二成本函数可以形成双层优化问题。所述双层优化问题是一种特殊类型的优化问题,其中一个问题嵌入(嵌套)在另一个问题中。所述双层优化问题的外部优化任务一般称为上级优化任务,并且所述双层优化问题的内部优化任务一般称为下级优化任务。于是,所述外部优化任务是所述第一成本函数的优化,而所述内部优化任务是所述第二成本函数的优化。在双层优化中通过不同的变量进行优化,这些变量称为上层变量和下层变量,所述上层变量和下层变量分别与相应的优化任务关联。
所述双层优化问题可以是DARTS的优化问题。DARTS可以理解为一种体系架构搜索方法,该方法借助于梯度下降方法优化所述机器学习系统的体系架构。基于单元来创建搜索体系架构,接下来对所述搜索体系架构进行优化。
所述迭代优化的目标是确定优化所述第一成本函数的最优第一参数集,并在给定所述最优第一参数集的情况下,通过优化(最小化/最大化)所述第二成本函数来获得针对所述第一参数集最优的第二参数集。所述第一成本函数可以是验证成本函数,而所述第二成本函数可以是训练成本函数。
如果找不到真正的最优值,则所述方法中断所述优化。由此所述方法更加鲁棒,并且不会陷入陡峭的最优值(英语:sharp optimum,锐利的最优值)。已经认识到,根据所述第一成本函数确定中断条件就足够了,因为所述第一成本函数更容易导致差的优化结果。因为用于体系架构搜索的所述第一成本函数更倾向于收敛到陡峭的最优值。应当注意,相对于所述第一成本函数更容易优化所述第二成本函数,因此对于所述第二成本函数来说不需要体系架构搜索的中断条件。
此外提出,当Hesse矩阵的最大特征值大于所述阈值时中断所述迭代优化。
如果所述最大特征值增加太多,则可以中断所述方法,因为不能预期例如达到成本函数的平坦最小值。成本函数的平坦最小值指示是否可以对新数据实现良好的概括。为此,所述最大特征值是最有特征性的,因为所述最大特征值的大的值表征陡峭的最优值(英语:sharp optimum,锐利的最优值),所述陡峭的最优值导致差的概括。因此,该途径导致所述方法的效率和鲁棒性的提高。
此外提出,对可预给定数量k个依次执行的最后迭代步骤、特别是优化所述第一参数集的最后迭代步骤的最大特征值确定第一平均值。对可预给定数量k个在所述最后的迭代步骤之前执行的迭代步骤的最大特征值确定第二平均值。当所述第二平均值与所述第一平均值之比超过可预给定的阈值时,中断所述优化。
在这种情况下的优点是实现了简单的中断条件,该中断条件与当前的优化问题和解的进度无关。此外,通过提前中断也可以大大缩短“搜索时间”。
此外提出,对最后2个、优选最后5个或特别优选最后10个迭代步骤确定平均值。所述阈值大于0.6,优选地大于0.75。当针对不同的训练数据集来模拟所述方法时,这些值被证明是最合适的。
此外提出,至少所述第二成本函数具有正则化项。可以用正则化因子对所述正则化项进行加权,其中所述正则化因子大于3*10-4并且优选小于1。
已经认识到,仅对所述第二成本函数进行正则化就足够了。由此隐含地实现了对所述第一成本函数的正则化,所述正则化对特征值产生了积极影响。
将正则化理解为一种方法,其中可以避免对训练数据的过度拟合(英语:Overfitting),使得实现更好的概括。所述正则化可以是将附加项添加至成本函数之一,所述附加项取决于参数集。所述正则化至少用于(体系架构搜索的内部优化问题的)所述第二成本函数。所述正则化对所述特征值有积极影响。因此,与中断标准的组合导致对参数集的特别更鲁棒的优化。
此外提出,所述正则化项为
Figure DEST_PATH_IMAGE001
Figure 198391DEST_PATH_IMAGE002
正则化,所述正则化因子对应于值
Figure DEST_PATH_IMAGE003
之一,其中i={3;6;9;27;81}。当针对不同的训练数据集来模拟所述方法时,这些值被证明是最合适的。
替代地,可以通过“超参数优化”来设置所述正则化因子。为此,优选使用附加的数据集(例如第二验证集)。
此外提出,在优化时根据训练数据来确定成本函数,其中至少扩充用于所述第二成本函数的训练数据。
扩充训练数据可以理解为将人工产生或操纵的训练数据添加到已经存在的训练数据中。可以根据现有的训练数据来计算出人工产生或操纵的训练数据。可以通过应用仿射变换来获得所述人工产生或操纵的训练数据。例如,可以对所述训练数据进行水平和/或垂直转换。附加地或替代地,可以进行缩放和/或“压缩”。附加地或替代地,可以改变诸如颜色或图案的光学特性。附加地或替代地,也可以进行水平和垂直拉伸。其他扩充是可能的。
除了直接扩充训练数据外,扩充同样应当理解为也可以将上述方法(以及其他)方法应用于中间输出变量(即所述机器学习系统中任何层的输出)。
优选地,去除训练输入变量的个别部分,例如图像。因为这是一种简单的正则化技术,其对于通过例如神经网络的图像处理特别有效。这些部分可以是所述训练输入变量的连续部分,由此向所述训练数据有效地补充了现有训练数据的部分隐藏版本。可以随机地选择去除的部分的大小和从所述训练数据中去除这些部分的频率。提出:该概率随着训练进度的增加而增加,特别是线性地增加。
数据扩充的优点在于,模拟还证明了所述数据扩充对所述特征值具有积极影响,并且由此使得所述特征值保持得小。对于所述第一成本函数的上述正则化也出现这种效果。因此,这些预防措施(取决于特征值的中断标准,至少所述第二成本函数的正则化和所述数据扩充)的组合导致更好的概括,并避免探索导致性能弱的机器学习系统的体系架构参数化。由此使得体系架构搜索特别鲁棒。
此外提出,在中断所述优化之后,由于已经超过所述阈值,因此根据直接在前的优化迭代步骤的第一和第二参数集来创建所述机器学习系统。替代地,可以基于在先前迭代步骤之一处确定的第一和第二参数集来继续所述优化。
此外提出,将创建的机器学习系统,特别是神经网络,用于图像处理。所述图像处理可以是对提供给所述机器学习系统的图像进行分类或分割。
此外提出,所创建的机器学习系统根据获得的传感器变量来确定控制变量。所述传感器变量可以是借助于相机检测的图像。所述控制变量可以用于控制技术系统的执行器。该技术系统可以是例如至少部分自主的机器、至少部分自主的车辆、机器人、工具、机床或诸如无人机的飞行物体。
在另一方面,提出了一种计算机程序。所述计算机程序被设计用于执行前述方法之一。该计算机程序包括指令,当所述计算机程序在计算机上运行时所述指令促使所述计算机执行这些具有其所有步骤的所述方法之一。此外,提出了一种机器可读存储模块,在其上存储了所述计算机程序。此外,提出了一种设备,该设备被设计用于执行所述方法之一。
附图说明
上述方面的实施例在附图中示出并且在以下描述中得到更详细的解释。在此:
图1示出了DARTS的单元的示意图;
图2示出了用于优化机器学习系统的体系架构和参数化的流程图的示意图;
图3示出了至少部分自主的机器人的示意图;
图4示出了用于优化机器学习系统的设备的示意图。
具体实施方式
期望使用对应于DARTS的方法对机器学习系统进行体系架构优化,因为这种方法具有以下优点:该方法使用梯度下降方法,并且因此是可伸缩的。此外,借助于DARTS可以以交替的方式既用于优化所述机器学习系统的体系架构又用于优化所述机器学习系统的参数化。可以将参数化理解为所述机器学习系统的所有参数,所述机器学习系统根据这些参数确定其输出变量。在第一实施例中,所述机器学习系统可以是神经网络(英文:neuralnetwork)。所述神经网络的参数化可以是所述神经网络的权重和所述神经网络的滤波器的滤波器系数。
对于DARTS来说,示出例如具有多个单元(英语:cell)的神经网络的体系架构,这些单元按照可预给定的顺序相互连接。这些相连的单元描述了所谓的搜索网络(英语:search network),应当关于所述搜索网络进行优化。单元是具有N个不同节点的有向非循环图。所述单元具有至少一个输入节点,优选地所述单元具有两个或更多个输入节点。这些单元还包括多个中间节点和一个输出节点。每个节点代表所述神经网络的中间变量x(i),换句话说就是激活图(英语:activation map),并且每个棱(i,j)代表运算
Figure 256477DEST_PATH_IMAGE004
,特别是代表将节点i的中间变量x(i)映射到节点j的中间变量x(j)的转换。所有节点都与其所有先前节点连接。所述输出节点同样与所有先前节点连接,其中所述输出节点的输出变量由所有先前节点的中间变量的综合(英语:concatenation,级联)确定。
第j个节点的中间结果x(j)被如下确定:
Figure DEST_PATH_IMAGE005
其中
Figure 738012DEST_PATH_IMAGE006
,并且O是所有可能运算的集合。
可以设想以下可能的运算
Figure DEST_PATH_IMAGE007
:跳跃连接(英语:skip connection),3x3平均池化,3x3最大池化,3x3和5x5卷积(英语:dilated separable convolutions,扩张可分离卷积,例如具有扩张因子2)和一个“零”连接(英语:zero operation,零运算),所述零连接代表节点之间不存在连接。
输入节点分别与所述搜索网络的前一个单元的输出节点连接。
DARTS使用两种不同类型的单元。存在正常单元,其保持其输入变量的空间分辨率,并且存在缩减单元,所述缩减单元减小其输入变量的空间分辨率,优选减小到二分之一。应当注意的是,也可以存在提高空间分辨率的上采样单元。
正常单元在图1的上部示意性地以附图标记(101)示出。示例性地,正常单元(101)包含6个节点,其中有2个输入节点(I_{k-1},I_{k-2}),3个中间节点(0,1,2)和一个输出节点(O_{k})。
为了能够经由不同的运算
Figure 70904DEST_PATH_IMAGE008
进行优化,特别是借助于梯度下降方法进行优化,要优化的函数必须是连续的。这在DARTS中借助于引入变量
Figure DEST_PATH_IMAGE009
来实现。棱(i,j)的每个运算
Figure 619697DEST_PATH_IMAGE010
都与变量
Figure DEST_PATH_IMAGE011
关联。可以借助于所有可能运算的加权组合来实现松弛,其中棱(i,j)的权重用运算o通过下式给出:
Figure 911001DEST_PATH_IMAGE012
这导致以下等式,该等式在下面也称为混合运算
Figure DEST_PATH_IMAGE013
Figure 646876DEST_PATH_IMAGE014
现在可以用等式(3)将等式(1)改写为:
Figure DEST_PATH_IMAGE015
现在可以借助于梯度下降方法关于变量α和关于运算的参数化w交替进行体系架构的优化。可以使用以下双层优化等式来优化参数化w和变量α:
Figure 750836DEST_PATH_IMAGE016
Lval是应用于验证数据集的第一成本函数,并且Ltrain是应用于训练数据集的第二成本函数。
图2示出了用于优化机器学习系统的体系架构和参数化的示意流程图。
方法(20)从步骤2000开始。在该步骤中,预给定了所述机器学习系统的体系架构。在该实施例中,所述机器学习系统可以由神经网络给定。所述体系架构可以例如通过所述神经网络的输入变量和输出变量的分辨率和/或通过一定数量的输入变量来预给定。同样,所述神经网络的体系架构可以通过所述神经网络的中间变量的最低分辨率或所述神经网络的一定数量层的最低分辨率等来预给定。
还可以在步骤2000中定义单元类型的特性,例如,每个单元类型仅具有3个中间节点。同样,在步骤2000中可以规定每个棱的所有可能运算的集合。
接下来根据预给定的体系架构和定义的单元创建搜索网络(英语:searchnetwork)。为此,将多个不同的单元类型(正常单元,缩减单元和上采样单元)依次布置,使得实现预给定的体系架构。也就是说,在步骤2000结束之后存在包括不同的依次布置的单元的所述搜索网络,接下来应当在随后的步骤中对这些单元进行优化。
在随后的步骤2100中,提供包括训练输入变量和分别关联的训练输出变量的训练数据。所述训练数据分为两个集合,这些集合优选地分别包括相同数量的训练输入变量和分别关联的训练输出变量。
在步骤2100结束之后,进行可选的步骤2200。在该步骤中,可以预先就所述训练数据或两个训练数据集合之一来优化所述搜索网络的参数化w。为此,通过所述搜索网络传播训练输入数据。然后根据所述搜索网络的所确定的输出变量和相应的训练输出变量来确定第二成本函数Ltrain,所述第二成本函数取决于参数化w和变量α。然后可以借助于梯度下降方法,例如随机梯度下降(SGD),关于参数化w来优化第二成本函数Ltrain,特别是最小化或最大化所述第二成本函数。应该注意的是,参数化w不必完全优化。仅通过多次迭代来优化参数化w而不出现收敛就足够了。
在可选步骤2200或步骤2100结束后,进行步骤2300。在该步骤中根据DARTS优化算法按照等式(5)对所述搜索网络进行优化。也就是说,交替地关于变量α和关于参数化w借助于梯度下降方法进行优化。基于第一成本函数Lval就来自步骤2100的两个训练数据集合中的第一训练数据集合对变量α进行优化。在完成所述优化之后,基于第二成本函数Ltrain就第二训练数据集合对参数化w执行优化。变量α和所述参数化的这种交替优化连依次执行多次。
在变量α的每次优化之后或在变量α的多次优化之后,根据变量α确定所述第一成本函数的Hesse矩阵的特征值。如果所述特征值之一大于可预给定的阈值,则中断所述优化并使用在超过所述阈值之前存在的变量α。也就是说,接下来将前一迭代步骤的变量α传递到步骤2400。
优选地,在步骤2300中使用第二成本函数Ltrain的正则化技术。例如,训练输入变量的个别部分被去除。可以随机选择去除的部分的大小和从所述训练数据中去除这些部分的频率。提出:该概率随着训练进度的增加而线性增加。
为了进行进一步的正则化,可以在所述优化时例如通过设置为零来随机地去除按照等式(3)的混合运算
Figure DEST_PATH_IMAGE017
。优选在所述优化开始时将所述去除的概率设置为零。所述概率可以随着成本函数的优化进度的增加而线性增加,直到达到可预给定的最大概率值。
多次重复执行步骤2300,直到满足所述特征值之一大于阈值的中断标准为止。然后,将前一迭代步骤的变量α传递到步骤2400。如果已经达到成本函数的最优值或者如果已经达到最大迭代次数,则将最后确定的变量α传递到步骤2400。
在随后的步骤2400中,根据从步骤2300传递来的变量α确定来自步骤2000的预给定神经网络的最优体系架构,特别是最优运算。根据DARTS方法,为此逆向地执行松弛。这例如可以通过根据变量α为每个棱选择最强运算来进行:
Figure DEST_PATH_IMAGE019
(6)
在步骤2400中确定了最优运算后,在步骤2500中根据这些选择的运算和来自步骤2000的预给定体系架构初始化神经网络。此外,在步骤2300中优化了的参数化w同样被用于所述神经网络的初始化。
然后,在可选步骤2500中,就提供的训练数据来重复优化初始化的神经网络的参数化w。为此,所述训练输入变量通过所述初始化的神经网络传播,并且根据所确定的输出变量和训练输出变量对所述参数化进行适配,特别是根据步骤2100。
在随后的可选步骤2600中,将来自步骤2500的初始化的神经网络用于机器人。例如,可以将来自步骤2500的神经网络用于根据所提供的输入变量确定输出变量,其中接下来借助于控制单元根据所述输出变量来控制所述机器人。
由此方法(20)结束。
图3示出了至少部分自主的机器人的示意图,该机器人在第一实施例中通过至少部分自主的车辆(300)给定。在另一个实施例中,所述至少部分自主的机器人可以是维护机器人、组装机器人或固定的生产机器人,替代地是自主的飞行物体,例如无人机。
至少部分自主的车辆(300)可以包括检测单元(30)。检测单元(30)可以是例如相机,其检测车辆(300)的周围环境。检测单元(30)可以与根据图2创建的机器学习系统连接。在该实施方式中,所述机器学习系统可以是来自步骤2600的神经网络(40)。神经网络(40)根据提供的输入变量(例如由检测单元(30)提供)和根据神经网络(40)的多个参数确定输出变量。可以将所述输出变量转发到控制单元(50)。
控制单元(50)根据神经网络(40)的输出变量来控制执行器,优选地按照以下方式控制所述执行器,即,车辆(300)执行无碰撞的机动。在第一实施例中,所述执行器可以是车辆(300)的发动机或制动系统。在另一实施例中,部分自主的机器人可以是工具、机床或生产机器人。可以借助于神经网络(40)对工件的材料进行分类。在此,所述执行器可以例如是运行磨头的电动机。
此外,车辆(300)、特别是半自主的机器人包括计算单元(60)和机器可读存储元件(60)。计算机程序可以存储在存储元件(60)上,该计算机程序包括指令,当所述指令在计算单元(60)上执行时促使计算单元(60)执行具有其所有步骤或仅步骤2600的方法,如图2所示。替代地,神经网络(40)可以存储在存储元件(60)上,并且所述计算单元执行神经网络(40)的计算。
图4示出了用于优化诸如神经网络(40)的机器学习系统、特别是用于执行用于优化神经网络(40)的步骤的设备(400)的示意图。设备(400)包括训练数据模块(410)和差异模块(420)。差异模块(420)根据训练输出变量ys和神经网络(40)的所确定的输出变量y特别是借助于成本函数来确定差异。训练数据模块(410)包含训练数据。适宜地,所述训练数据包括多个训练输入变量,每个训练输入变量都被标记。在优化期间,优化模块(430)根据差异模块(420)确定的差异确定参数化w或变量α的变化θ'。然后根据变化θ',在存储有参数化w和变量α的存储器P中进行适配。

Claims (10)

1.用于创建机器学习系统的方法,
其中第一参数集(α)表征所述机器学习系统的体系架构,并且第二参数集(w)是所述机器学习系统的参数化,所述方法包括以下步骤:
根据第一成本函数(Lval)对所述第一参数集进行迭代优化,并且根据第二成本函数(Ltrain)对所述第二参数集进行迭代优化,
其中所述第一成本函数(Lval)和所述第二成本函数(Ltrain)分别取决于所述第一参数集(α)和所述第二参数集(w);
根据所述第一参数集(α)确定所述第一成本函数(Lval)的Hesse矩阵的特征值;
当所述特征值之一大于可预给定的阈值时,中断所述优化。
2.根据权利要求1所述的方法,其中,当所述Hesse矩阵的最大特征值大于所述可预给定的阈值时中断所述迭代优化。
3.根据权利要求1或2所述的方法,其中,对可预给定数量k个依次执行的最后迭代步骤、特别是优化所述第一参数集的最后迭代步骤的最大特征值确定第一平均值,
其中对可预给定数量k个在所述最后迭代步骤之前执行的迭代步骤的最大特征值确定第二平均值,
其中当所述第二平均值与所述第一平均值之比超过所述可预给定的阈值时,中断所述优化。
4.根据权利要求3所述的方法,其中,根据分别最后5个迭代步骤的所确定的最大特征值来确定所述平均值,
其中所述阈值大于0.6。
5.根据前述权利要求中任一项所述的方法,其中,至少所述第二成本函数具有用正则化因子加权的正则化项。
6. 根据权利要求5所述的方法,其中,所述正则化项为
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004
正则化,并且所述正则化因子对应于值
Figure DEST_PATH_IMAGE006
之一,其中i={3;6;9;27;81}。
7.根据前述权利要求中任一项所述的方法,其中,在所述优化时根据训练数据来确定所述成本函数,
其中至少扩充用于所述第二成本函数的训练数据。
8.一种计算机程序,其包括指令,所述指令被设计成在计算机上执行所述指令时促使所述计算机执行根据前述权利要求中任一项所述的方法。
9.机器可读存储元件,其上存储有根据权利要求8所述的计算机程序。
10.设计为执行根据前述权利要求1至7中任一项所述的方法的设备。
CN202010534270.6A 2019-06-13 2020-06-12 用于创建机器学习系统的方法、设备和计算机程序 Pending CN112085207A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102019208629.2 2019-06-13
DE102019208629.2A DE102019208629A1 (de) 2019-06-13 2019-06-13 Verfahren, Vorrichtung und Computerprogramm zum Erstellen eines maschinellen Lernsystems

Publications (1)

Publication Number Publication Date
CN112085207A true CN112085207A (zh) 2020-12-15

Family

ID=73546754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010534270.6A Pending CN112085207A (zh) 2019-06-13 2020-06-12 用于创建机器学习系统的方法、设备和计算机程序

Country Status (2)

Country Link
CN (1) CN112085207A (zh)
DE (1) DE102019208629A1 (zh)

Also Published As

Publication number Publication date
DE102019208629A1 (de) 2020-12-17

Similar Documents

Publication Publication Date Title
CN110288030B (zh) 基于轻量化网络模型的图像识别方法、装置及设备
CN109754078B (zh) 用于优化神经网络的方法
Wang et al. Pruning from scratch
CN107273936B (zh) 一种gan图像处理方法及系统
CN107529650B (zh) 闭环检测方法、装置及计算机设备
CN104866900B (zh) 一种反卷积神经网络训练方法
CN110852168A (zh) 基于神经架构搜索的行人重识别模型构建方法及装置
CN112257794A (zh) 一种基于yolo的轻量级的目标检测方法
TWI837388B (zh) 用於深度神經網路中的深度優先迴旋的方法、設備及媒體
KR102190303B1 (ko) Cnn기반의 딥러닝 모델 학습장치 및 그 방법
CN111226234B (zh) 用于创建深度神经网络的方法、设备和计算机程序
CN113825978B (zh) 用于定义路径的方法和设备、存储装置
US20200005119A1 (en) Method of optimization of operating a convolutional neural network and system thereof
CN112132255A (zh) 人工智能神经网络引擎中模型推断的批量归一化层融合和量化方法
CN114998601A (zh) 基于Transformer的在线更新目标跟踪方法及系统
CN115423739A (zh) 基于SimpleBaseline的遥操作机械臂关键点的检测方法
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN116266387A (zh) 基于重参数化残差结构和坐标注意力机制的yolov4的图像识别算法及系统
CN115797629A (zh) 基于检测增强和多阶段边界框特征细化的实例分割方法
CN114492581A (zh) 基于迁移学习和注意力机制元学习应用在小样本图片分类的方法
CN113505751A (zh) 一种基于差异图卷积神经网络的人体骨骼动作识别方法
JP7493380B2 (ja) 機械学習システム、並びに、機械学習システムを構成する方法、コンピュータプログラム及び装置
CN112085207A (zh) 用于创建机器学习系统的方法、设备和计算机程序
CN116704267A (zh) 一种基于改进yolox算法的深度学习3d打印缺陷检测方法
CN117095217A (zh) 多阶段对比知识蒸馏方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination