CN110674920A - 用于二元神经网络的概率性训练 - Google Patents
用于二元神经网络的概率性训练 Download PDFInfo
- Publication number
- CN110674920A CN110674920A CN201910589028.6A CN201910589028A CN110674920A CN 110674920 A CN110674920 A CN 110674920A CN 201910589028 A CN201910589028 A CN 201910589028A CN 110674920 A CN110674920 A CN 110674920A
- Authority
- CN
- China
- Prior art keywords
- distribution
- neural network
- training
- weight
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 77
- 238000012549 training Methods 0.000 title claims abstract description 57
- 238000009826 distribution Methods 0.000 claims abstract description 92
- 238000000034 method Methods 0.000 claims abstract description 39
- 210000002569 neuron Anatomy 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000004913 activation Effects 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 23
- 238000005070 sampling Methods 0.000 claims description 12
- 238000005259 measurement Methods 0.000 claims description 6
- 238000000053 physical method Methods 0.000 claims description 6
- 230000001186 cumulative effect Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- GSDSWSVVBLHKDQ-UHFFFAOYSA-N 9-fluoro-3-methyl-10-(4-methylpiperazin-1-yl)-7-oxo-2,3-dihydro-7H-[1,4]oxazino[2,3,4-ij]quinoline-6-carboxylic acid Chemical compound FC1=CC(C(C(C(O)=O)=C2)=O)=C3N2C(C)COC3=C1N1CCN(C)CC1 GSDSWSVVBLHKDQ-UHFFFAOYSA-N 0.000 claims 1
- 238000001994 activation Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010012689 Diabetic retinopathy Diseases 0.000 description 1
- 208000022873 Ocular disease Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000020169 heat generation Effects 0.000 description 1
- 230000003137 locomotive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0495—Quantised networks; Sparse networks; Compressed networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Neurology (AREA)
- Feedback Control In General (AREA)
- Image Analysis (AREA)
Abstract
提供了用于二元神经网络的概率性训练。一种用于训练被至少部分地实现为二元神经网络(2)的人工神经网络(1)的方法(100),包括:●接收(110)针对人工神经网络(1)的输入xi的训练输入值(11),●处理(120)训练输入值(11)以获得输出值(12),●将损失函数(13)应用(130)于所获得的输出值(12);●更新(140)训练权重wlj,并且往回分支(150)到处理(120),直到损失函数(13)进行的评定(13a)满足预定的终止标准(160);以及●根据最终获得的训练权重wlj来配置(170)实际人工神经网络(1,2),其中处理(120)包括:●针对层(21‑23)中的每个神经元l,使用权重wlj的分布Wlj确定(121)预激活al的分布Al;以及●通过将预定阈值化函数g应用于分布A1来确定(122)输出值hl的分布Hl。
Description
技术领域
本发明涉及用于被至少部分地实现为二元神经网络的神经网络的改进训练方法,在所述二元神经网络中全部内部参数只能具有两个可能值中的一个。
背景技术
深度神经网络已成为用于具有诸如图像、视频或音频数据之类的复杂的高维度输入的现代机器学习任务的标准工具。在较不昂贵且较不耗费功率的硬件上实现深度神经网络是合期望的,尤其是对于移动、嵌入式或汽车应用而言。
为此,在最近的科学文献中已经提出了二元神经网络。在这些网络中,被用作内部参数的权重以及神经元的输出激活都是二元的,即,它们只能具有两个可能值中的一个(通常为-1和+1)。这些网络的优点在于在完全连接和卷积层中的最常见的计算操作(即与层的输入和权重矩阵或权重张量之间的矩阵乘法相对应的乘法累加(MAC))可以通过使用逐位XNOR运算与逐位求和相组合来非常高效地计算。然后产生最终输出的非线性可以使用符号函数带来。
这样的二元神经网络不要求用于浮点乘法的硬件单元。而是,按位XNOR、位计数和符号函数可以在快速且节能的硬件中实现。在WO 2018/026560 A1中给出了示例性硬件实现。
用于训练这样的网络的现有技术方法在软件中复制二元神经网络的处理链,并且为每个二元权重分配全精度“阴影权重”。当反向传播损失函数的反馈时,更新该“阴影权重”。但是无论何时使用“阴影权重”——其是用于在网络中实行计算或是用于最终的二元神经网络中——它都会被舍入为二元权重。
发明内容
发明人已经开发了一种用于训练被至少部分地实现为二元神经网络的人工神经网络的方法。在这样的网络中,与至少一层相关联的权重和至少一层的输出二者只能具有两个可能值中的一个,例如,-1或+1。
该方法包括:接收针对人工神经网络或其一部分的输入的训练输入值。例如,该方法可以作为整体在神经网络上、在神经网络的个体二元层上或在若干这样的二元层的堆栈上实行。具体地,有可能使用包括全精度层和二元层两者的混合神经网络。例如,在其中难以二元化输入的应用中,输入层可以是全精度层。在其中需要对最终层进行多于单个位激活的应用中(例如,在回归任务中),最终层可以是全精度层。其他层可以是二元层。在这样的混合网络中,全精度第一层和/或最终层仅对参数的总数量和计算的总数量略有贡献。因此,这样的网络仍然可以在下述硬件上高效地实现:与用于全精度神经网络的标准硬件相比,该硬件于是不是完全无乘法的,而是可以具有非常少数量的浮点乘法累加单元。
该方法进一步包括:根据由人工神经网络或其一部分定义的处理链来处理训练输入值,其中权重由训练权重wlj替代。这意味着给定的人工神经网络定义了要在处理链中使用的层的数量、每层神经元的数量、层的类型以及相邻层的神经元之间的互连。但是权重还不是将被用在人工神经网络中的最终权重。而是,权重是训练权重wlj(即,从默认值开始),权重wlj是自由参数,并且训练的目标是获得权重wlj的最终值。该处理产出输出值。
将损失函数应用于所获得的输出值。该损失函数被配置成在由训练输入值标示的情形中对输出值在人工神经网络的意图应用的上下文中有多好进行评定。例如,在训练数据集中,训练输入值可以与对应的训练输出值进行组合,并且损失函数可以评定所获得的输出值多好地对应于训练输出值。可替换地或组合地,损失函数可以包括其他标准,例如,针对输出值的边界条件。
更新训练权重wlj,并且该方法往回分支到该处理,直到由损失函数进行的评定满足预定的终止标准。例如,该方法可以从训练权重wlj的默认值开始,并且可以挑选相对于损失函数产生最佳梯度下降的对权重wlj的更新作为下一更新步骤。
根据最终获得的训练权重wlj来配置实际的人工神经网络。
该处理包括:在处理链的至少一层中,针对该层中的每个神经元1确定预激活a1的分布A1。分布A1是对该神经元1的全部输入xj的加权总和a1。每个输入xj利用权重wlj的分布Wlj进行加权,使得分布Wlj取代训练权重wlj。这意味着权重wlj是随机变量。无论何时从Wlj对值wlj进行采样,值wlj只能具有两个可能值中的一个(例如,-1或+1)。同时,下一个样本wlj将具有例如+1的值的概率ωlj可以具有0与1之间的任何全精度值。同样地,分布Wlj的期望可以具有-1与+1之间的任何全精度值(例如,如果有50:50汲取-1或+1的机会,则为0,或者如果有75%汲取+1的机会,则为0.5)。Wlj是随机变量的事实使得预激活al也成为随机变量,因此权重w1j的分布Wlj引发al的分布Al。xi可以是具体值(例如,训练输入值),但是如果xi也是随机变量,则计算保持相同,并且该随机变量xi的分布Xi被用在加权总和中。
针对层中的每个神经元1,通过将具有两个可能输出值的预定阈值化函数g应用于分布Al来将预激活al的分布Al转换成输出值hl的分布Hl。
从个体值的处理移动到分布的处理的结果在于可以避免非常多的舍入步骤。使用“阴影权重”的训练在前向传播期间在每一次使用“阴影权重”时依赖于这样的舍入,所以为了确定神经元l的输出hl,要求对应于hl所取决的权重wlj的数量的至少多个舍入步骤。相反地,现在根本没有舍入发生,直到获得输出值hl的分布Hl为止。即使需要从Hl对具体值hl进行采样,该采样引入的失真典型地远低于通过非常频繁地使用舍入步骤可能引入的“舍入噪声”。
“舍入噪声”的抑制使得训练更加稳定。具体地,如果使用相对于损失函数的梯度下降方法,则梯度变得噪声较少。这改进训练的收敛性。
改进的训练潜在地减少对于加宽(widen)二元网络中的层以保持任务性能的需要。因为每个二元权重可以存储比全精度权重更少的信息,所以具有给定结构的二元神经网络具有比具有相同结构的全精度神经网络更少的处理能力。因此,从全精度网络到用于处置同一任务的二元网络的切换将通常需要层的一些加宽,即,向层添加更多神经元。根据经验已经观察到,利用“阴影权重”进行训练可能会引发关于更复杂任务的任务准确度方面的某种下降,这可以通过进一步加宽层来部分地补偿。改进的训练潜在地抑制任务性能方面的降级,并因此免除对于进一步加宽的需要。
此外,通过在训练期间使用合适的先验,可以实现自动正则化,这意味着显式的正则化器不是必要的。改进的训练开辟了使用稀疏引发先验而不是权重(或甚至是神经元)的可能性,这允许在训练之后删除(即,移除)不必要的权重或神经元,以进一步增加经训练的网络在硬件和资源(即,功耗)方面的效率。例如,可以使用贝叶斯先验分布。
最重要的是,利用改进的训练,当要由人工神经网络处置给定的任务时,至少部分地将该网络设置为在硬件资源和功耗方面需求较少的二元神经网络变得更加实际。这对于车辆中的应用尤其有利,在车辆中的应用中,用以插入另外的硬件的空间和可用的功率二者都是短缺的。例如,用于运行深度全精度网络的模型的常用硬件包括:图形处理单元(GPU),其具有几千兆字节存储器、每秒几千兆位的存储器带宽、每秒实行11万亿操作的能力以及250瓦特的功耗。这将从车辆的12伏系统中汲取多于20安培。
对硬件资源的较少需求也减少了使用神经网络的嵌入式设备的制造成本。该减少对于属于消费者购买的最昂贵产品的车辆而言已经是有意义的,并且对于较不昂贵的消费者产品而言甚至更为明显。
概率性训练比常规全精度网络的训练更耗费资源。但是这种努力将仅必须花费一次,而从全精度网络到二元网络的切换贯穿网络服务寿命节省努力。因此,用于训练的增加的努力将非常迅速地收回成本。
而且,分布Wlj和Hl包含关于任何采样值wlj、相应hl的相应不确定性的信息。特别是在安全关键应用中,某个值有多么确定的信息可以至少与值本身一样重要。
优选地,至少一个分布Wlj被挑选成是集合{-1,+1}中的值的伯努利式分布。这样的分布具有一个参数,即采样权重值是+1的概率ωlj。采样权重值是-1的对应概率由1-ωlj给出。在训练期间,概率ωlj可以被存储为全精度值,并且被用作响应于来自损失函数的反馈而更新的参数。
优选地,分布A1被建模为泊松二项分布,或者建模为具有均值μl和方差σ1²的高斯分布。具体地,如果Al是多个输入xi(或分布Xi)乘以权重wlj的多个分布Wlj的总和,则所得到的随机变量根据泊松二项分布而分布。随着这样的被加数的数量增加,根据中心极限定理,泊松二项分布迅速收敛到通过高斯分布越来越好地近似的某物。高斯分布容易计算得多,并且它仅通过两个参数表征,即其均值μl和方差σl²。
优选地,作为在Al的加权总和计算中求和的分布的均值和方差的总和而获得均值μl和方差σl²。这通过利用权重wlj是独立随机变量的事实而进一步加速计算。这意味着输入xi或它们各自的分布Xi的知识,以及分布Wlj的知识足以直接计算层的每个神经元l的均值μl和方差σl²。
优选地,输出值的分布Hl被挑选为集合{-1,+1}中的值的伯努利式分布,其具有期望ξl,该期望ξl由高斯分布的累积密度函数在值0处的值给出。这是非常高效的,因为累积密度函数在许多可用软件包中以高效且数值稳定的方式实现。
在有利的实施例中,对于层中的至少一个神经元l,从分布Hl对至少一个输出值hl进行采样。然后,该值立即可用作人工神经网络的相邻层的输入(是二元输入或全精度输入)、或作为整体用作网络的最终输出。无论何时使用“阴影权重”,该实施例都以某种方式类似于利用“阴影权重”进行训练并且汲取二元权重样本。重要的区别在于,现在采样在最后仅引入一个单个离散化,而“阴影权重”的使用针对每个单个输出hl的计算要求多次舍入操作。
可替换地或组合地,在另外的有利实施例中,在处理链的下一层中的输入xi的位置中使用来自处理链的至少一层的输出hl的至少一个分布Hl。这意味着相对于该输出,在从一层到下一层的过渡期间,根本没有离散化发生。例如,伯努利式分布Hl可以通过其期望ξl来表征,并且该期望ξl可以被用作从一层传播到下一层的全精度参数。同时,伯努利式分布Wlj的全精度参数ωlj可以在每个层内被存储和更新。以这种方式,训练变得非常类似于标准全精度网络的训练。然而,在二元神经网络的情况下,代替训练关于权重的点估计,训练在关于权重和激活的全概率分布的水平上进行操作。该方案的显著属性在于不必通过汲取多个样本以及必须传播多个前向传递(pass)来近似这些分布。代替地,单个全精度前向传递允许立即传播关于权重和激活的整个分布。这进而允许利用单个错误反向传播传递来计算这些分布的参数的梯度并且计算关于权重的整个分布的更新。
在有利的实施例中,当配置实际人工神经网络时,对于权重wlj的每个最终获得的分布Wlj,至少一个值wlj被采样并存储在实际人工神经网络的非易失性存储器中以用作对应的权重。以这种方式,可以贯穿训练而保持分布Wlj的全部信息内容。而且,可以汲取多个权重集合以产生用于相同任务的网络总体。例如,这允许预测的总体平均,这可以增加任务准确度和预测的鲁棒性。而且,可以获得关于预测的高质量不确定性估计。
在另外的有利实施例中,当配置实际人工神经网络时,对于权重wlj的每个最终获得的分布Wlj,表示分布Wlj的宽度和/或表示值wlj的不确定性的至少一个统计量qlj被确定并存储在实际人工神经网络的非易失性存储器中以用作值wlj的对应的不确定性。
同样地,可以利用分布Hl的统计量来评估任何输出值hl的不确定性。例如,可以从最终层中的输出值hl的不确定性获得关于二元神经网络做出的预测的不确定性。这种不确定性可以直接从对应的分布Hl、从权重wlj的不确定性、或者两者的任意合适的组合来获得。
具体地,对于比如在至少部分自动化的车辆的操作期间对道路标志或其他对象进行分类的安全关键应用,重要的是:系统在其中有信心的预测不可能的情况下,可靠地报告低确定性。例如,这可能在以新的道路标志替代道路标志时发生。例如,用于平交道口的德国标志在长时间内示出蒸汽机车,直到它被修改成示出高速列车为止。已经以概率性方式训练的二元神经网络在常规操作期间产生这样的估计,并且可以容易地检查这些不确定性。分布Wlj的学习参数ωlj允许直接读出权重wlj的不确定性。
该训练可以优选地在计算机上实行,因此该方法可以全部或部分地体现在软件中。因此,本发明还涉及一种具有机器可读指令的计算机程序,该机器可读指令当由计算机执行时使得计算机执行本发明提供的方法。
该训练方法有利于制造旨在运行在具有有限计算资源的硬件上的任何系统,其中这些限制尤其可以包括有限的能量消耗和/或热量生成、有限的存储器和存储器带宽、或芯片面积中的限制,这是由于大规模生产产品的紧张成本约束所致。
在一个示例性实施例中,本发明提供了一种用于车辆环境的感测系统。该感测系统包括:至少一个传感器,其被配置成从环境的至少部分获取物理测量数据;以及至少一个分类器,以关于车辆环境中存在哪些对象和/或情形来对测量数据进行分类。该至少一个分类器包括已使用本发明提供的方法进行训练的至少一个二元神经网络。
具体地,在特定的有利实施例中,该至少一个分类器包括:体现在彼此独立的硬件模块中的至少两个二元神经网络。优选地具有相同结构的二元神经网络已经使用由本发明提供的方法进行训练,并且权重样本wlj已经从最终获得的分布Wlj汲取。从权重wlj的每个最终获得的分布Wlj,已经对第一权重wlj进行了采样以用在第一二元神经网络中,并且已经对第二权重wlj*进行了采样以用在第二二元神经网络中。
以这种方式,进一步增加由硬件模块的冗余带来的操作安全量。如果已经偶然为一个网络的配置汲取了“坏”样本,并且这导致错误的预测,则可以捕捉这样的错误并且对其采取行动。例如,如果有三个或更多个二元神经网络在来自相同的权重分布Wlj集合的不同权重样本wlj上进行操作,则可以根据投票机制来确定正确的预测。
感测系统的输出可以有利地用作车辆控制系统的决策的基础。因此,本发明还提供了一种用于车辆的控制系统。该控制系统包括:至少一个如以上所描述的感测系统,并且还包括逻辑,该逻辑被配置成:响应于感测系统在环境中检测到至少一个预定对象或情形,致动车辆的传动系(drive train)、转向系统和/或制动系统。具体地,该致动可以针对避免与对象或情形碰撞,或者防止对车辆、其驾驶员或对其他道路使用者的其他不利后果。
在第二示例性实施例中,本发明提供了一种便携式感测系统。该系统包括:至少一个传感器,其被配置成从工作区域获取物理测量数据;以及至少一个分类器,以关于工作区域中是否存在预定条件来对测量数据进行分类。分类器包括已使用本发明提供的方法进行训练的至少一个二元神经网络。
例如,该条件可以是眼部疾病,诸如糖尿病视网膜病变。目前,在云中的服务器上实行自动诊断。由于改进的训练而变得实际的二元神经网络的使用准许直接在相机上实行计算。
在下文中结合使用附图的优选实施例的描述来详细说明本发明的另外的改进。
附图说明
附图示出:
图1:方法100的示例性实施例;
图2:在神经元1处的随机变量输出H1的示例性生成;
图3:用于车辆3的示例性感测系统;
图4:示例性便携式感测系统41。
具体实施方式
图1示出了方法100的示例性实施例。在步骤110中,获得输入值11。在步骤120中,处理输入值11。在步骤121中,将用于神经元1的预激活A1创建为输入xi利用权重wlj的分布Wlj的加权总和。因此,不管输入xi是否是确定性的,神经元1的所得到的预激活是预激活值al的分布Al。即,预激活变为概率性的。通过在步骤122中应用阈值化函数g,产生输出值hl的分布Hl。具体地,阈值化操作可以对应于评估累积密度函数CDF。在步骤123中,从分布Hl对输出值hl进行采样。但是根据步骤124,分布Hl也可以被直接使用。
在步骤130中通过应用损失函数13来评定处理期间获得的输出值12,该输出值12是分布Hl、输出值hl或其任何合适的混合物。针对预定的终止标准160来核查评定13a。如果未满足标准160(真值为0),则在步骤140中更新训练权重的分布Wlj(例如,通过更新它们的参数ωlj),并且在该更新就位的情况下,根据步骤150,方法100往回分支到处理120。如果满足标准160(真值为1),则在步骤170中,利用取代训练权重wlj的最终获得的分布Wlj来配置未在图1中示出的实际人工神经网络1、2。
在步骤171中,从权重wlj各自的分布Wlj对权重wlj进行采样,以用作实际人工神经网络1、2中的权重。在步骤172中,将这些权重存储在神经网络1、2的非易失性存储器中。
在步骤173中,针对每个分布Wlj获得统计量qlj,以表示该分布Wlj的宽度,和/或从Wlj采样的值wlj的不确定性。在步骤174中,将该统计量qlj存储在神经网络1、2的非易失性存储器中。
图2示出了来自二元神经网络2的图样(cut-out),该二元神经网络2是人工神经网络1的部分。该切口示出了二元神经网络2的三个示例性层21-23。示例性神经元在层21和23中被绘制为虚线圆圈,并且在层22中被绘制为实心点。
示例性地示出了从层21中的一个神经元到层22中的全部神经元的输出xi。层22中的神经元1是特别感兴趣的。它产生概率性输出分布Hl,从该概率性输出分布Hl可以对输出值h l进行采样。
图2中的插图示出了如何产生输出分布Hl。对神经元1的全部输入xj利用相应的权重分布Wlj进行加权,并且在j上对结果求和。这产出预激活分布Al,其然后通过应用阈值化函数g而被转换成输出分布Hl。具体地,这可以通过评估累积密度函数CDF来完成。
图3示出了用于车辆3的环境32的示例性感测系统31。传感器34从环境32的一部分33捕获测量数据34a。测量数据34a被馈送到分类器35中,以获得存在于环境32的所观察部分33中的对象和/或情形36。
分类器35包括两个独立的硬件模块35a和35b。第一硬件模块35a实现第一二元神经网络2a,并且第二硬件模块35b实现第二二元神经网络2b。网络2a和2b两者已经使用在训练期间获得的相同的权重分布Wlj来配置。从每个这样的分布Wlj,已经取得第一样本wlj来配置第一二元神经网络2a,并且已经取得第二样本wlj*来配置第二二元神经网络2b。
在图3中所示出的实施例中,感测系统31是用于车辆3的控制系统37的部分。控制系统37进一步包括:致动逻辑38,其被配置成响应于感测系统31在车辆3的环境32中检测到至少一个预定对象或情形36而致动车辆3的传动系3a、转向系统3b和/或制动系统3c。
图4示出了示例性便携式感测系统41。传感器42从工作区域4捕获物理测量数据。物理测量数据42a被馈送到具有二元神经网络2的分类器43中,以便确定条件4a是否存在于工作区域4中。
Claims (14)
1.一种用于训练被至少部分地实现为二元神经网络(2)的人工神经网络(1)的方法(100),其中与至少一层(21-23)相关联的权重和至少一层(21-23)的输出两者只能具有两个可能值中的一个,所述方法(100)包括
● 接收(110)针对人工神经网络(1)或其一部分的输入xi的训练输入值(11),
● 根据由人工神经网络(1)或其一部分定义的处理链来处理(120)训练输入值(11),其中权重由训练权重wlj替代,从而获得输出值(12),
● 将损失函数(13)应用(130)于所获得的输出值(12),所述损失函数(13)被配置成在由训练输入值(11)标示的情形中对输出值(12)在人工神经网络(1)的意图应用的上下文中有多好进行评定;
● 更新(140)训练权重wlj,并且往回分支(150)到处理(120),直到损失函数(13)进行的评定(13a)满足预定的终止标准(160);以及
● 根据最终获得的训练权重wlj来配置(170)实际人工神经网络(1,2),
其中处理(120)包括在处理链的至少一层中:
● 针对层(21-23)中的每个神经元l确定(121)预激活al的分布Al,其中分布A1是对该神经元1的全部输入xj的加权总和,并且其中每个输入xj利用权重wlj的分布Wlj进行加权,使得分布Wlj取代训练权重wlj;以及
● 通过将具有两个可能输出值的预定阈值化函数g应用于分布A1,针对层(21-23)中的每个神经元1确定(122)输出值hl的分布Hl。
2.根据权利要求1所述的方法(100),其中至少一个分布Wlj被挑选成是集合{-1,+1}中的值的伯努利式分布。
3.根据权利要求1所述的方法(100),其中分布A1被建模为泊松二项分布,或者建模为具有均值μl和方差σl²的高斯分布。
4.根据权利要求3所述的方法(100),进一步包括:作为在Al的加权总和计算(121)中求和的分布的均值和方差的总和而获得(121a)均值μl和方差σl²。
6.根据权利要求1至5中任一项所述的方法(100),进一步包括:针对层(21-23)中的至少一个神经元1从分布Hl对至少一个输出值hl进行采样(123)。
7.根据权利要求1至6中任一项所述的方法(100),其中处理(120)进一步包括:在处理链的下一层(21-23)中的输入xi的位置中使用(124)来自处理链的至少一层的输出hl的至少一个分布Hl。
8.根据权利要求1至8中任一项所述的方法(100),其中配置(170)实际人工神经网络(1,2)包括:对于权重wlj的每个最终获得的分布Wlj,采样(171)至少一个值wlj,并且将其存储(172)在实际人工神经网络(1,2)的非易失性存储器中以用作对应的权重。
9.根据权利要求8所述的方法(100),其中配置(170)实际人工神经网络进一步包括:对于权重wlj的每个最终获得的分布Wlj,确定(173)表示分布Wlj的宽度和/或表示值wlj的不确定性的至少一个统计量qlj,并且将量qlj存储(174)在实际人工神经网络(1,2)的非易失性存储器中,以用作值wlj的对应的不确定性。
10.一种包括机器可读指令的计算机程序,所述机器可读指令当由计算机执行时使得计算机执行根据权利要求1至9中任一项所述的方法(100)。
11.一种用于车辆(3)的环境(32)的感测系统(31),包括:至少一个传感器(34),其被配置成从环境(32)的至少部分(33)获取物理测量数据(34a);以及至少一个分类器(35),以关于车辆(3)的环境(32)中存在哪些对象和/或情形(36)来对测量数据(34a)进行分类,其中至少一个分类器(35)包括已经使用根据权利要求1至9中任一项所述的方法(100)进行训练的至少一个二元神经网络(1,2)。
12.根据权利要求11所述的感测系统(31),其中至少一个分类器(35)包括:体现在彼此独立的硬件模块(35a;35b)中的至少两个二元神经网络(2a;2b),其中二元神经网络(2a;2b)已经使用根据权利要求8或9所述的方法(100)进行训练,并且其中,从权重wlj的每个最终获得的分布Wlj,已经对第一权重wlj进行了采样(171)以用在第一二元神经网络(2a)中,并且已经对第二权重wlj*进行了采样(171)以用在第二二元神经网络(2b)中。
13.一种用于车辆(3)的控制系统(37),包括:至少一个根据权利要求11或12的感测系统(31),并且进一步包括逻辑(38),其被配置成:响应于感测系统(31)在环境(32)中检测到至少一个预定对象或情形(36),致动车辆(3)的传动系(3a)、转向系统(3b)和/或制动系统(3c)。
14.一种便携式感测系统(41),包括:至少一个传感器(42),其被配置成从工作区域(4)获取物理测量数据(42a);以及至少一个分类器(43),以关于工作区域(4)中是否存在预定条件(4a)来对测量数据(42a)进行分类,其中分类器(43)包括已经使用根据权利要求1至9中任一项所述的方法(100)进行训练的至少一个二元神经网络(2)。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18181514.3 | 2018-07-03 | ||
EP18181514.3A EP3591584B1 (en) | 2018-07-03 | 2018-07-03 | Probabilistic training for binary neural networks |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110674920A true CN110674920A (zh) | 2020-01-10 |
Family
ID=62846084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910589028.6A Pending CN110674920A (zh) | 2018-07-03 | 2019-07-02 | 用于二元神经网络的概率性训练 |
Country Status (2)
Country | Link |
---|---|
EP (1) | EP3591584B1 (zh) |
CN (1) | CN110674920A (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11189171B2 (en) * | 2018-03-13 | 2021-11-30 | Nec Corporation | Traffic prediction with reparameterized pushforward policy for autonomous vehicles |
US11750621B2 (en) * | 2020-03-26 | 2023-09-05 | Cisco Technology, Inc. | Learning of malicious behavior vocabulary and threat detection through behavior matching |
US11769332B2 (en) * | 2020-06-15 | 2023-09-26 | Lytx, Inc. | Sensor fusion for collision detection |
US11514326B2 (en) * | 2020-06-18 | 2022-11-29 | International Business Machines Corporation | Drift regularization to counteract variation in drift coefficients for analog accelerators |
CN115906651B (zh) * | 2022-12-06 | 2024-05-31 | 中电金信软件有限公司 | 二值神经网络的更新方法、装置及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005025918A1 (de) * | 2003-09-12 | 2005-03-24 | Robert Bosch Gmbh | Verfahren und vorrichtung zur fahrerunterstützung |
CN103581188A (zh) * | 2013-11-05 | 2014-02-12 | 中国科学院计算技术研究所 | 一种网络安全态势预测方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10089577B2 (en) | 2016-08-05 | 2018-10-02 | Xilinx, Inc. | Binary neural networks on progammable integrated circuits |
-
2018
- 2018-07-03 EP EP18181514.3A patent/EP3591584B1/en active Active
-
2019
- 2019-07-02 CN CN201910589028.6A patent/CN110674920A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005025918A1 (de) * | 2003-09-12 | 2005-03-24 | Robert Bosch Gmbh | Verfahren und vorrichtung zur fahrerunterstützung |
CN103581188A (zh) * | 2013-11-05 | 2014-02-12 | 中国科学院计算技术研究所 | 一种网络安全态势预测方法及系统 |
Non-Patent Citations (2)
Title |
---|
C. BALDASSI等: "On the role of synaptic stochasticity in training low-precision neural networks", PHYSICAL REVIEW LETTERS, vol. 120, no. 26, 29 June 2018 (2018-06-29), pages 1 - 13 * |
W.ROTH,F.PERNKOPF: "DISCRETE-VALUED NEURAL NETWORKS USING VARIATIONAL INFERENCE", OPENREVIEW.NET, 18 December 2017 (2017-12-18), pages 1 - 11 * |
Also Published As
Publication number | Publication date |
---|---|
EP3591584A1 (en) | 2020-01-08 |
EP3591584B1 (en) | 2024-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674920A (zh) | 用于二元神经网络的概率性训练 | |
Yang et al. | Netadapt: Platform-aware neural network adaptation for mobile applications | |
KR102582194B1 (ko) | 선택적 역전파 | |
Senthilnath et al. | Clustering using levy flight cuckoo search | |
CN111310814A (zh) | 利用不平衡正负样本对业务预测模型训练的方法及装置 | |
US20210012183A1 (en) | Method and device for ascertaining a network configuration of a neural network | |
CN113159276B (zh) | 模型优化部署方法、系统、设备及存储介质 | |
CN112085161B (zh) | 一种基于随机信息传递的图神经网络方法 | |
CN113408715A (zh) | 一种神经网络的定点化方法、装置 | |
CN113825978B (zh) | 用于定义路径的方法和设备、存储装置 | |
JP7099968B2 (ja) | 演算装置 | |
Rahul et al. | Detection and correction of abnormal data with optimized dirty data: a new data cleaning model | |
CN112215298A (zh) | 模型训练方法、装置、设备及可读存储介质 | |
WO2020185207A1 (en) | Computerized system and method for generative circuit design with machine-learned networks | |
Urgun et al. | Composite power system reliability evaluation using importance sampling and convolutional neural networks | |
CN115329834A (zh) | 电缆状态确定方法、装置及系统 | |
CN112800037B (zh) | 工程造价数据处理的优化方法及装置 | |
JP7151788B2 (ja) | ニューラルネットワーク学習装置、方法およびプログラム | |
Das et al. | Multi-objective optimization based feature selection using correlation | |
CN112561166A (zh) | 车辆的调度方法和装置、存储介质、电子装置 | |
CN112446428A (zh) | 一种图像数据处理方法及装置 | |
US20220327390A1 (en) | Method for training a neural network | |
CN115145904B (zh) | 用于ai云计算训练的大数据清洗方法及大数据采集系统 | |
US20200302266A1 (en) | System and method for a neural network | |
CN112291184B (zh) | 基于神经网络集群的车内网入侵检测方法和终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |