CN114358276A - 使用自标准化梯度训练标准化流的设备和方法 - Google Patents
使用自标准化梯度训练标准化流的设备和方法 Download PDFInfo
- Publication number
- CN114358276A CN114358276A CN202111144023.6A CN202111144023A CN114358276A CN 114358276 A CN114358276 A CN 114358276A CN 202111144023 A CN202111144023 A CN 202111144023A CN 114358276 A CN114358276 A CN 114358276A
- Authority
- CN
- China
- Prior art keywords
- layer
- training
- input signal
- likelihood
- tensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims abstract description 33
- 238000009826 distribution Methods 0.000 claims abstract description 22
- 238000010606 normalization Methods 0.000 claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 7
- 230000002441 reversible effect Effects 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 5
- 240000004760 Pimpinella anisum Species 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 36
- 238000004519 manufacturing process Methods 0.000 description 12
- 230000005236 sound signal Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000005406 washing Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005094 computer simulation Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000003245 working effect Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 230000009187 flying Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012285 ultrasound imaging Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000009184 walking Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
- G06F17/153—Multidimensional correlation or convolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
- G06F18/21322—Rendering the within-class scatter matrix non-singular
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
- G06F18/21322—Rendering the within-class scatter matrix non-singular
- G06F18/21326—Rendering the within-class scatter matrix non-singular involving optimisations, e.g. using regularisation techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
使用自标准化梯度训练标准化流的设备和方法。用于训练标准化流的计算机实现的方法,其中标准化流被配置为确定表征输入信号的似然性或对数似然性的第一输出信号,其中标准化流包括至少一个第一层,其中训练标准化流包括以下步骤:●确定至少一个训练输入信号;●借助于标准化流针对每个训练输入信号确定训练输出信号;●确定第一损失值,其中第一损失值基于所述至少一个确定的训练输出信号相对于预定义概率分布的似然性或对数似然性;●确定第一层的可训练参数相对于第一损失值的梯度的近似,其中梯度取决于可训练参数的矩阵的逆,并且通过优化逆的近似来实现对梯度的近似的确定;●基于梯度的近似更新第一层的可训练参数。
Description
技术领域
本发明涉及用于训练标准化流的方法、使用标准化流的方法、分类器、训练系统、计算机程序和机器可读存储介质。
现有技术
Diederik P. Kingma, Prafulla Dhariwal的“Glow: Generative Flow withInvertible 1x1 Convolutions”(https://arxiv.org/abs/1807.03039v2,2018年7月10日)公开了一种借助于标准化流确定数据对数似然性的方法。
本发明的优点
许多现代设备配备有用于感测相应设备的内部状态和/或设备的环境状态的技术措施。这通常引起从设备生成丰富的数据。
找到一种自动筛选该数据的方式产生多个技术问题。这些问题之一是找到一种方法来确定表征内部状态或环境状态的给定数据是否重要或重要到什么程度。
确定数据重要性的一种方式是要确定数据相对于例如一些先前记录的数据的数据对数似然性。换句话说,可以通过确定给定先前记录的数据观察数据有多大似然性来测量数据的重要性。例如,可以记录在机器正常操作期间机器内部状态的数据集(例如,汲取的电流、热量、压力)。如果在机器的进一步操作期间,感测到相对于数据集具有低对数似然性的内部状态,则这可以指示机器的故障或者机器的其他非正常行为。
其中是该类的先验概率,是x的数据对数似然性,并且是类条件对数似然性,即观察该类数据的似然性。如从公式可以看出的,贝叶斯分类器需要确定两个似然性值,即类条件似然性和数据对数似然性。贝叶斯分类器的分类准确度关键取决于正确确定两个似然性值的能力。
因此,确定数据的准确似然性或对数似然性是不同技术领域中以及针对不同技术任务出现的重要技术问题。
尤其是当必须确定高维数据(例如图像或音频信号)的似然性时,标准化流已经示出它们自己最适合用于确定似然性。标准化流可以理解为来自机器学习领域的神经网络。标准化流能够将数据的第一分布映射到第二分布,其中第二分布可以由用户选择。标准化流的优点在于,第二分布几乎可以任意选择。可以尤其选择它,使得可以以封闭形式且高效地实现确定第二分布的似然性。根据该似然性,可以容易地确定数据相对于第一分布的似然性。因此,即使第一分布是困难的和/或不能以封闭形式评估,也可以容易且高效地计算数据的似然性。代替似然性,标准化流也可以确定对数似然性。
标准化流是可逆的,即标准化流能够将给定的数据映射到潜在表示,并且还能够从潜在表示映射回到数据。
可逆带来如下缺点:训练标准化流需要对包含权重的标准化的每一层的权重矩阵求逆,其中每个矩阵通常相对较大。由于矩阵求逆的计算复杂度通常是三次的,因此标准化流中的常用方法将是构造相应的权重矩阵,使得它们是三角形的,因为这将矩阵求逆的计算复杂度降低为二次。然而,这样设计标准化流,即,将权重矩阵约束为三角形,严重限制了标准化流学习从第一分布到第二分布的合适映射,因为它严重限制了映射的自由度。
因此,合期望的是获得不限于必须包括三角形权重矩阵的标准化流,其中训练标准化流的计算复杂度是二次的。在下文中,不限于三角形权重矩阵的标准化流将被称为无限制标准化流。
具有独立权利要求1的特征的方法允许训练无限制标准化流,其中训练标准化流的计算复杂度是二次的。该方法有利地通过高效地近似在标准化流训练期间所需的矩阵求逆来实现此。
对于常见的标准化流,这样训练标准化流导致不必相对于权重层限制标准化流,这导致更强大的映射功能,并且因此改进了标准化流准确确定似然性或对数似然性的能力。标准化流准确确定似然性或对数似然性的能力在下文中也可以称为标准化流的性能。
与简单地用标准梯度下降方法训练无限制标准化流相比,用具有独立权利要求1特征的方法训练无限制标准化流导致计算复杂度从三次降低到二次。给定相同量的训练时间,这种计算复杂度的降低导致无限制的标准化流能够用更多的训练数据来训练,并且因此无限制的标准化流能够在训练期间提取更多的信息。进而,这有利地导致无限制标准化流的性能的提高。
发明内容
在第一方面中,本发明涉及一种用于训练标准化流的计算机实现的方法,其中标准化流被配置为确定表征输入信号的似然性或对数似然性的第一输出信号,其中标准化流包括至少一个第一层,其中第一层包括可训练参数,并且至第一层的层输入基于输入信号,并且第一输出信号基于第一层的层输出,其中训练标准化流包括以下步骤:
● 确定至少一个训练输入信号;
● 借助于标准化流针对每个训练输入信号确定训练输出信号;
● 确定第一损失值,其中第一损失值基于所述至少一个确定的训练输出信号相对于预定义概率分布的似然性或对数似然性;
● 确定第一层的可训练参数相对于第一损失值的梯度的近似,其中梯度取决于可训练参数的矩阵的逆,并且通过优化逆的近似来实现对梯度的近似的确定;
● 基于梯度的近似更新第一层的可训练参数。
标准化流可以理解为来自机器学习领域的神经网络。标准化流能够将数据的第一分布映射到用户可以选择的第二分布。优选地,选择以单位矩阵作为协方差矩阵的多元正态分布作为第二分布。
标准化流可以包括多个层,其中信息流定义了层的次序。如果第一层向第二层提供输出、即层输出,则可以认为第一层在第二层之前,而第二层在第一层之后。
输入信号可以理解为提供给标准化流的数据。输入信号可以用作标准化流的层的输入、即层输入。接收输入信号作为层输入的层也可以被称为标准化流的输入层。类似地,层的层输出可以用作标准化流的输出信号。这样的层可以被称为标准化流的输出层。如果标准化流中包括的层既不是输入层也不是输出层,则可以将其理解为隐藏层。
从输入信号的标准化流确定的输出信号也可以理解为表征输入信号的重要性分类。如果由输出信号表征的似然性或对数似然性高,则输入信号可以被理解为相对于已经用其训练标准化流的数据“不重要”,即输入信号相当类似于用于训练标准化流的至少一个训练输入信号。同样,如果由输出信号表征的似然性或对数似然性低,即输入信号与用于训练标准化流的训练输入信号相当不同,则输入信号可以被理解为“重要的”。确定似然性或对数似然性是低还是高,可以通过将似然性或对数似然性与预定义阈值进行比较来实现。例如,如果似然性或对数似然性低于预定义阈值,则输入信号可以被分类为“重要”。如果似然性或对数似然性等于预定义阈值或高于预定义阈值,则输入信号可以被分类为“不重要”。
第一层可以理解为权重层。权重层可以被理解为包括多个权重,其中权重层的层输出基于多个权重来确定,并且权重可以在标准化流的训练期间被适应。权重层的典型形式是全连接层或卷积层。
输入信号可以包括至少一个图像,尤其是如通过例如相机传感器、LIDAR传感器、雷达传感器、超声波传感器或热相机之类的传感器记录的图像。也可以例如借助于计算机模拟的渲染、在计算机中创建的虚拟场景的渲染、生成图像的机器学习系统或者通过数字绘制图像来人工生成图像。替代地或附加地,输入信号可以包括例如如从麦克风记录的至少一个音频信号。也可以例如从计算机模拟、生成音频信号的机器学习系统或通过数字合成音频信号来人工生成音频信号。音频信号可以例如表征语音记录。替代地,音频信号可以表征音频事件的记录,例如警报声、警报或其他听觉通知信号。
可以通过从计算机实现的输入信号数据库选择输入信号来确定训练输入信号。替代地,也可以从传感器优选地在传感器的操作期间或者在包括传感器的设备的操作期间确定输入信号。
然后,可以通过将训练输入信号转发通过标准化流,即通过标准化流的层,来确定训练输出信号。
训练输出信号可以是向量的形式。如果它是张量的形式,则它可能被重新塑造成向量。
优选地,通过确定输出信号相对于第二概率分布的负对数似然性来确定第一损失值。更新第一层的可训练参数然后可以借助于梯度下降算法来实现。
标准化流还可以被配置为接受多个输入信号、即一批输入信号,其中,针对来自所述多个输入信号的每个输入信号,标准化流确定表征相应输入信号的似然性或对数似然性的对应输出信号。
同样,标准化流可以优选地用多个训练输入信号来训练。优选地,针对来自所述多个训练输入信号的每个训练输入信号确定训练输出信号,并且针对每个训练输出信号确定相应输出信号相对于预定义分布的似然性或对数似然性。基于该确定的多个似然性或对数似然性,第一损失值然后可以优选地通过对似然性或对数似然性进行平均或求和来确定。
如果单个训练输入信号被用于训练,则第一损失值可以是针对单个训练输入信号的标准化流的输出信号确定的似然性或对数似然性。
还可以设想,基于至少一个训练输入信号来优化逆的近似。
这样做的优点是,可以在训练期间基于有限数量的训练输入信号来确定逆。这大幅加速了训练。给定相等的资源,即相同的时间量,该方法因此增加了标准化流的性能,因为标准化流可以用更多的训练输入信号来训练。
也可以想象第一层是全连接层,并且根据以下公式确定层输出
该方法的优点是全连接层可以用在标准化流中,这允许标使能实现准化流所表示的映射的更多自由度。如上所述,这导致标准化流的性能提高。
这样确定梯度的近似是有利的,因为近似权重矩阵的逆导致训练方法的计算复杂度降低。如上所述,这导致标准化流的性能提高。
如果单个训练输入信号用于训练标准化流,则可以通过最小化第二损失函数来确定。如果一批训练输入信号被用于训练,则可以优选地通过以下各项来确定:针对该批中的每个训练输入信号确定,为每个确定的确定第二损失函数的输出,并且最小化输出相对于的平均值或和。
也可以想象第一层是卷积层,并且根据以下公式确定层输出
这是有利的,因为卷积层提高了包括图像的输入信号的标准化流的性能。
可以进一步想象,第一损失值相对于第一层的可训练参数的梯度然后可以根据以下公式来确定
其中是第一损失值相对于离散卷积结果的偏导数,是训练输入信号,标示逐元素乘法运算,是将第一张量取作输入并返回与第一张量形状相同的第二张量的函数,其中第二张量被全部一填充,并且是表征第三张量近似的张量,其中将第三张量与卷积产生,并且是确定转置卷积的张量的函数。
这是有利的,因为近似导致训练方法的计算复杂度降低。如上所述,这导致标准化流的性能提高。
层输入优选地以三维张量的形式给出,其中第一维对应于层输入的通道数量,并且第二维和第三维分别对应于层输入的高度和宽度。如果第一层是标准化流的输入层,则层输入例如可以是RGB图像,其中通道的数量因此将是三。
张量可以理解为通常用于卷积神经网络的核张量。优选地,核张量是四维张量,其中第一维对应于卷积层(即第一层)中使用的滤波器的数量,第二维对应于层输入的输入通道的数量,并且核张量的第三和第四维分别对应于核的高度和宽度。
特别地,范数可以是平方欧几里德距离。然而,其他范数也是可能的,例如欧几里德范数、曼哈顿范数或另一p范数。
如果单个训练输入信号被用于训练标准化流,则可以通过最小化相对于的第二损失函数来确定。如果一批训练输入信号被用于训练,则可以优选地通过以下各项来确定:针对该批中的每个训练输入信号确定,为每个确定的确定第二损失函数的输出,并且最小化输出相对于的平均值或和。
可以进一步设想,基于标准化流的输出信号来操作设备。
这是有利的,因为标准化流的改进性能直接导致设备的更好操作。
例如,可以想象标准化流包括在分类器中,其中分类器被配置为确定表征输入信号的分类的第二输出信号,其中基于第一输出信号确定第二输出信号。
例如,分类器可以是异常检测器,其被配置为相对于例如已知的正常数据来分类输入信号是否表征异常数据。可以设想,异常检测器被配置为将针对给定输入信号获得的输出信号与预定义阈值进行比较。这可以理解为确定从标准化流获得的似然性或对数似然性是否指示输入信号相对于标准化流的训练数据不太可能。
其中是该类的先验概率,是x的数据对数似然性,并且是类条件对数似然性,即观察该类数据的似然性。除了数据对数似然性,类条件对数似然性也可以从标准化流获得。例如,对于要分类的每个类,标准化流可以用仅来自该类的数据来训练。在推断期间,每个标准化流然后可以预测表示相应标准化流所属类的类条件对数似然性的对数似然性。
分类器的第二输出信号可以表征输入信号到至少一个类的分类。替代地或附加地,第二输出信号还可以表征输入信号中的对象分类和对象的对应位置。例如,输入信号可以包括图像,并且第二输出信号可以表征图像中对象的分类和图像中对象的位置。替代地或附加地,第二输出信号也可以表征输入信号的多种分类,例如语义分割。
不管包括标准化流的分类器的确切形式如何,标准化流的改进性能都有利地导致分类器分类准确度的提高。
当用作分类器的一部分时,训练标准化流可以被理解为训练分类器的至少一部分,即,训练分类器中包括的步骤也可以包括在训练分类器中。
替代地或附加地,可以想象输入信号表征设备的内部状态和/或设备的操作状态和/或设备的环境状态,其中使标准化流的第一输出信号借助于显示设备对设备的用户可用。
提出的方法的优点在于,可以在引导的人机交互过程中向用户提供对设备内部工作的洞察。
例如,该设备可以是例如机器人的至少部分自动化的机器、至少部分自动化的制造机器或至少部分自主的车辆,其中至少部分自动化的机器基于来自传感器的输入信号至少部分自动操作。输入信号也可以被提供给标准化流。输出信号可以进一步以合适的方式显示在监视器上,例如显示给机器的操作员。如果标准化流确定了输入信号的低对数似然性,则这指示来自传感器的输入信号包括可能被理解为不经常、不太可能或甚至异常的数据。可以可想到的是,将机器的自动操作建立在这样的输入信号的基础上可能导致机器的不期望或甚至不安全的行为,因为不经常的输入信号可能预期不被机器正确处理。基于显示的对数似然性,操作员因此可以接管机器的手动控制,以避免机器的潜在不想要的和/或不安全的行为。标准化流因此将使得用户能够取得对机器的内部工作的直接洞察,即机器的自动决策所基于的输入信号的重要性。
附图说明
将参考以下各图更详细地讨论本发明的实施例。各图示出:
图1是用于训练标准化流的训练系统
图2是包括在其环境中控制致动器的标准化的控制系统;
图3是控制至少部分自主机器人的控制系统;
图4是控制制造机器的控制系统;
图5是控制自动化个人助理的控制系统;
图6是控制访问控制系统的控制系统;
图7是控制监督系统的控制系统;
图8是控制成像系统的控制系统。
具体实施方式
图1示出了训练系统(140)的实施例,该训练系统(140)用于借助于训练数据集(T)训练无限制标准化流(60)。训练数据集(T)包括用于训练分类器(60)的多个训练输入信号(xi)。无限制标准化流可以包含多个全连接层和/或多个卷积层。标准化流进一步由多个参数参数化,所述多个参数包括全连接层的权重和/或卷积层的权重。
为了训练,训练数据单元(150)访问计算机实现的数据库(St2),其中数据库(St2)提供训练数据集(T)。训练数据单元(150)优选地从训练数据集(T)随机确定至少一个训练输入信号(xi),并将训练输入信号(xi)传输到分类器标准化流(60)。标准化流(60)基于输入信号(xi)确定输出信号(y i)。确定的输出信号(yi)优选地以向量的形式给出。在另外的实施例中,输出信号(yi)也可以以张量的形式给出。在这些另外的实施例中,确定的输出信号可以被展平以获得以向量形式的确定的输出信号。
确定的输出信号(yi)被传输到修改单元(180)。
基于确定的输出信号(y i),修改单元(180)然后确定分类器(60)的新参数()。出于该目的,修改单元(180)确定所确定的输出信号(yi)相对于第二概率分布的负对数似然性值。在该实施例中,选择多元标准正态分布。在另外的实施例中,可以选择其他概率分布作为第二概率分布。
修改单元(180)基于对数似然性值确定新参数()。在给定的实施例中,这是使用梯度下降方法——优选地是随机梯度下降、Adam或AdamW——来完成的。梯度下降法需要参数()相对于负对数似然性值的梯度,以便确定新的参数()。为了确定梯度,负对数似然性值通过标准化流反向传播,以便确定标准化流的层的参数相对于负对数似然性值的梯度。
如果梯度通过全连接层传播,则全连接层中包括的权重的梯度根据以下公式来确定
其中是全连接层的层输出,是全连接层的可逆激活函数,并且是包括全连接层的权重的矩阵和全连接层的层输入的矩阵乘法的结果。此外,上标T标示转置矩阵或向量,是训练输入信号,并且是通过最小化相对于的以下第二损失函数确定的矩阵
优选地,最小化第二损失函数是通过对第二损失函数进行单个步骤梯度下降来实现的。换句话说,对第一损失函数的单个步骤梯度下降可以优选地包括对第二损失函数的每个全连接层的单个步骤梯度下降。
如果梯度通过标准化流的卷积层传播,则卷积层中包括的权重的梯度根据以下公式确定
其中是卷积层的层输出,是卷积层的可逆激活函数,是包括卷积层权重的张量和层输入的离散卷积的结果,并且标示离散卷积运算。此外,是训练输入信号,标示逐元素乘法运算,是将第一张量取作输入并返回与第一张量形状相同的第二张量的函数,其中第二张量被全部一填充,是确定转置卷积的张量的函数,并且是可以通过最小化相对于的以下第二损失函数来确定的张量
优选地,最小化第二损失函数是通过对第二损失函数进行单个步骤梯度下降来实现的。换句话说,对第一损失函数的单个步骤梯度下降可以优选地包括对第二损失函数的每个全连接层的单个步骤梯度下降。
在另外的优选实施例中,在对第一损失函数的梯度下降的每个步骤期间,用多个训练输入信号(xi)训练标准化流。
优选地,梯度下降可以迭代地重复预定义数量的迭代步骤,或者迭代地重复直到负对数似然性值小于预定义阈值。替代地或附加地,还可想到的是,当相对于测试或验证数据集的平均负对数似然性值落入低于预定义阈值时,训练终止。在至少一次迭代中,在前一次迭代中确定的新参数()被用作标准化流(60)的参数()。
此外,训练系统(140)可以包括至少一个处理器(145)和包含指令的至少一个机器可读存储介质(146),所述指令当由处理器(145)执行时,使得训练系统(140)执行根据本发明的一个方面的训练方法。
在另外的实施例(未示出)中,训练输入信号(xi)也可以从传感器提供。例如,训练系统可以是能够借助于传感器感测其环境的设备的一部分。从传感器获得的输入信号可以直接用于训练标准化流(60)。替代地,输入信号可以在被提供给标准化流之前被变换。
图2中示出了基于控制系统(40)中包括的标准化流(60)的输出信号(y)来控制其环境(20)中的致动器(10)的实施例。
在优选均匀间隔的时间点,传感器(30)感测环境(20)的状况。传感器(30)可以包括几个传感器。优选地,传感器(30)是拍摄环境(20)图像的光学传感器。传感器(30)的输出信号(S)(或者,在传感器(30)包括多个传感器的情况下,用于每个传感器的输出信号(S))被传输到控制系统(40),该输出信号对感测到的状况进行编码。
因此,控制系统(40)接收传感器信号(S)流。然后,它取决于传感器信号(S)流计算一系列控制信号(A),然后将一系列控制信号(A)传输到致动器(10)。
控制系统(40)在可选的接收单元(50)中接收传感器(30)的传感器信号(S)流。接收单元(50)将传感器信号(S)变换成输入信号(x)。替代地,在没有接收单元(50)的情况下,每个传感器信号(S)可以直接取作输入信号(x)。输入信号(x)例如可以作为来自传感器信号(S)的摘录给出。替代地,传感器信号(S)可以被处理以产生输入信号(x)。换句话说,根据传感器信号(S)提供输入信号(x)。
输入信号(x)然后被传递到标准化流(60),在另外的优选实施例中,输入信号(x)还可以被传递到分类器(61),该分类器(61)被配置为确定表征输入信号(x)的分类的第二输出信号(c)。第二输出信号(c)包括将一个或多个标签分配给输入信号(x)的信息。在这些另外的实施例中,标准化流(60)优选地用用于训练分类器(61)的训练输入信号(xi)来训练。
输出信号(y)被传输到可选的转换单元(80),该可选的转换单元(80)将输出信号(y)转换成控制信号(A)。如果控制系统包括分类器(61),则第二输出信号(c)也被传输到可选的转换单元(80)并用于获得控制信号(A)。控制信号(A)然后被传输到致动器(10)以相应地控制致动器(10)。替代地,输出信号(y)或输出信号(y)和第二输出信号(c)可以直接取作控制信号(A)。
致动器(10)接收控制信号(A),被相应地控制,并实行对应于控制信号(A)的动作。致动器(10)可以包括控制逻辑,该控制逻辑将控制信号(A)变换成另外的控制信号,该另外的控制信号然后用于控制致动器(10)。
在实施例中,控制系统(40)可以包括传感器(30)。在甚至另外的实施例中,控制系统(40)替代地或附加地可以包括致动器(10)。
在甚至仍另外的实施例中,可以设想控制系统(40)代替致动器(10)或除致动器(10)之外控制显示器(10a)。
在仍另外的实施例中,分类器(61)可以包括标准化流。分类器(61)例如可以是贝叶斯分类器,其中标准化流(60)被配置为确定针对分类器(61)的类的类条件对数似然性值。
此外,控制系统(40)可以包括至少一个处理器(45)和在其上存储指令的至少一个机器可读存储介质(46),所述指令如果被实行,则使得控制系统(40)实行根据本发明方面的方法。
图3示出了实施例,其中控制系统(40)用于控制至少部分自主的机器人,例如至少部分自主的车辆(100)。
传感器(30)可以包括一个或多个视频传感器和/或一个或多个雷达传感器和/或一个或多个超声波传感器和/或一个或多个LiDAR传感器。这些传感器中的一些或全部优选但不是必须集成在车辆(100)中。因此,输入信号(x)可以理解为输入图像,并且分类器(60)可以理解为图像分类器。
图像分类器(60)可以被配置为基于输入图像(x)检测在至少部分自主机器人附近的对象。第二输出信号(c)可以包括表征对象位于至少部分自主机器人附近的信息。然后可以根据该信息确定控制信号(A),例如以避免与检测到的对象碰撞。
输出信号(y)可以表征输入图像(x)的对数似然性,并且优选地也用于确定控制信号(A)。例如,如果输出信号(y)表征低于预定义阈值的对数似然性,则车辆(100)的自主操作可以中止,并且车辆的操作可以移交给车辆(100)的驾驶员或车辆(100)的操作员。
优选地集成在车辆(100)中的致动器(10)可以由车辆(100)的制动器、推进系统、发动机、传动系或转向提供。控制信号(A)可以被确定为使得致动器(10)被控制为使得车辆(100)避免与检测到的对象碰撞。检测到的对象也可以根据图像分类器(60)认为它们最有可能是什么——例如行人或树木——来分类,并且控制信号(A)可以取决于分类来被确定。
替代地或附加地,控制信号(A)也可以用于控制显示器(10a),例如用于显示由图像分类器(60)检测的对象。还可以想象,如果车辆(100)接近于与至少一个检测到的对象碰撞,则控制信号(A)可以控制显示器(10a),使得它产生警告信号。警告信号可以是警告声音和/或触觉信号,例如车辆方向盘的振动。
显示器可以进一步提供表征输出信号的视觉呈现。车辆(100)的驾驶员或操作员因此可以被告知输入图像(x)的对数似然性,并且因此可以获得对车辆(100)的内部操作的洞察。
在另外的实施例中,至少部分自主的机器人可以由另一个移动机器人(未示出)给出,该另一个移动机器人(未示出)可以例如通过飞行、游泳、潜水或步行来移动。移动机器人尤其可以是至少部分自主的割草机,或者至少部分自主的清洁机器人。在所有以上实施例中,控制信号(A)可以被确定,使得移动机器人的推进单元和/或转向和/或制动器被控制,使得移动机器人可以避免与所述标识的对象碰撞。
在甚至另外的实施例中,至少部分自主的机器人可以由家用电器(未示出)提供,所述家用电器(未示出)像例如洗衣机、炉子、烤箱、微波炉或洗碗机。例如光学传感器的传感器(30)可以检测将由家庭电器进行处理的对象的状态。例如,在家用电器是洗衣机的情况下,传感器(30)可以检测洗衣机内部的衣物的状态。然后可以取决于检测到的衣物材料来确定控制信号(A)。
图4中示出了实施例,其中控制系统(40)用于控制例如作为生产线的一部分的至少部分自动化的制造系统(200)的制造机器(11),例如冲压刀具、刀具、枪钻或夹具。制造机器可以包括移动制造产品(12)的运输设备,例如传送带或装配线。控制系统(40)控制致动器(10),致动器(10)进而控制制造机器(11)。
传感器(30)可以由光学传感器给出,该光学传感器捕获例如制造产品(12)的特性。分类器(60)因此可以被理解为图像分类器。
图像分类器(60)可以确定制造产品(12)相对于运输设备的位置。致动器(10)然后可以取决于制造产品(12)的确定位置被控制,用于制造产品(12)的后续制造步骤。例如,可以控制致动器(10)在制造产品本身的特定位置切割制造产品。替代地,可以设想,图像分类器(60)对制造的产品是否破损或展现缺陷进行分类。然后,可以控制致动器(10)以便从运输设备移除制造的产品。
由标准化流的输出信号(y)表征的对数似然性可以在显示器(10a)上显示给制造系统(200)的操作员。基于显示的对数似然性,操作员可以确定干预制造系统(200)的自动制造过程。替代地或附加地,如果由输出信号(y)表征的对数似然性值小于预定义阈值或已经小于预定义阈值达预定义的时间量,则可以停止制造机器(200)的自动操作。
图5中示出了实施例,其中控制系统(40)用于控制自动化个人助理(250)。传感器(30)可以是光学传感器,例如用于接收用户(249)的手势的视频图像。替代地,传感器(30)也可以是音频传感器,例如用于接收用户(249)的语音命令。
控制系统(40)然后确定用于控制自动化个人助理(250)的控制信号(A)。根据传感器(30)的传感器信号(S)确定控制信号(A)。传感器信号(S)被传输到控制系统(40)。例如,分类器(60)可以被配置为例如实行手势识别算法来标识用户(249)做出的手势。控制系统(40)然后可以确定传输到自动化个人助理(250)的控制信号(A)。然后,它将控制信号(A)传输给自动化个人助理(250)。
例如,可以根据由分类器(60)识别的所标识的用户手势来确定控制信号(A)。它可以包括使得自动化个人助理(250)从数据库检索信息并以适合供用户(249)接收的形式输出该检索信息的信息。
在另外的实施例中,可以设想,代替自动化个人助理(250),控制系统(40)控制根据所标识的用户手势控制的家用电器(未示出)。家用电器可以是洗衣机、炉子、烤箱、微波炉或洗碗机。
图6中示出了实施例,其中控制系统(40)控制访问控制系统(300)。访问控制系统(300)可以被设计成物理控制访问。例如,它可以包括门(401)。传感器(30)可以被配置为检测与决定是否准许访问相关的场景。例如,它可以是用于提供图像或视频数据、例如用于检测人的面部的光学传感器。分类器(60)因此可以被理解为图像分类器。
图像分类器(60)可以被配置为对人的身份进行分类,例如通过将检测到的人的面部与存储在数据库中的已知人的其他面部进行匹配,从而确定人的身份。然后,可以取决于图像分类器(60)的分类,例如根据确定的身份,来确定控制信号(A)。致动器(10)可以是取决于控制信号(A)打开或关闭门的锁。替代地,访问控制系统(300)可以是非物理的、逻辑的访问控制系统。在这种情况下,控制信号可以用于控制显示器(10a)以示出关于人的身份和/或人是否被给予访问权的信息。
由输出信号(y)表征的对数似然性也可以显示在显示器(10a)上。
图7中示出了实施例,其中控制系统(40)控制监督系统(400)。该实施例在很大程度上与图5中所示的实施例相同。因此,将仅详细描述不同的方面。传感器(30)被配置为检测被监督的场景。控制系统(40)不一定控制致动器(10),但是可以替代地控制显示器(10a)。例如,图像分类器(60)可以确定场景的分类,例如,由光学传感器(30)检测到的场景是否正常或者场景是否展现异常。传输到显示器(10a)的控制信号(A)然后可以例如被配置为使得显示器(10a)取决于确定的分类来调整显示的内容,例如,高亮显示被图像分类器(60)认为异常的对象。
图8中示出了由控制系统(40)控制的医学成像系统(500)的实施例。成像系统可以例如是MRI装置、x射线成像装置或超声波成像装置。传感器(30)例如可以是成像传感器,其拍摄患者的至少一个图像,从而例如显示患者的不同类型的身体组织。
分类器(60)然后可以确定感测图像的至少一部分的分类。因此,图像的至少一部分被用作至分类器(60)的输入图像(x)。分类器(60)因此可以被理解为图像分类器。
然后可以根据分类选择控制信号(A),从而控制显示器(10a)。例如,图像分类器(60)可以被配置为例如通过将图像中显示的组织分类为恶性或良性组织来检测感测图像中的不同类型的组织。这可以借助于图像分类器(60)对输入图像(x)的语义分割来完成。然后可以确定控制信号(A)以例如通过显示输入图像(x)并以相同的颜色对相同组织类型的不同区域着色使得显示器(10a)显示不同的组织。
在另外的实施例(未示出)中,成像系统(500)可以用于非医疗目的,例如以确定工件的材料特性。在这些实施例中,图像分类器(60)可以被配置为接收工件的至少一部分的输入图像(x)并执行输入图像(x)的语义分割,从而对工件的材料特性进行分类。然后可以确定控制信号(A)以使得显示器(10a)显示输入图像(x)以及关于检测到的材料特性的信息。
术语“计算机”可以被理解为涵盖用于处理预定义计算规则的任何设备。这些计算规则可以是软件、硬件或者软件和硬件混合的形式。
一般而言,多个可以理解为被索引,也就是说,优选地通过将连续的整数分配给包含在多个中的元素,多个中的每个元素被分配唯一的索引。优选地,如果多个具有N个元素,其中N是多个中的元素的数量,则为元素分配从1到N的整数。还可以理解,多个元素可以通过它们的索引来访问。
Claims (14)
1.用于训练标准化流(60)的计算机实现的方法,其中标准化流(60)被配置为确定表征输入信号(x)的似然性或对数似然性的第一输出信号(y),其中标准化流(60)包括至少一个第一层,其中第一层包括可训练参数,并且至第一层的层输入基于输入信号(x),并且第一输出信号(y)基于第一层的层输出,其中训练标准化流包括以下步骤:
● 确定至少一个训练输入信号(xi);
● 借助于标准化流(60)针对每个训练输入信号(xi)确定训练输出信号(yi);
● 确定第一损失值,其中第一损失值基于所述至少一个确定的训练输出信号(yi)相对于预定义概率分布的似然性或对数似然性;
● 确定第一层的可训练参数相对于第一损失值的梯度的近似,其中梯度取决于可训练参数的矩阵的逆,并且通过优化逆的近似来实现对梯度的近似的确定;
● 基于梯度的近似更新第一层的可训练参数。
2.根据权利要求1所述的方法,其中基于所述至少一个训练输入信号(xi)来优化逆的近似。
9.根据前述权利要求中任一项所述的方法,其中设备(100,200,250,300,400,500,600)根据标准化流的输出信号(y)操作。
10.根据前述权利要求中任一项所述的方法,其中标准化流(60)包括在分类器(61)中,其中分类器(61)被配置为确定表征输入信号(x)的分类的第二输出信号,其中基于第一输出信号(y)确定第二输出信号。
11.根据前述权利要求中任一项所述的方法,其中输入信号(x)表征设备(100,200,250,300,400,500,600)的内部状态和/或设备(100,200,250,300,400,500,600)的操作状态和/或设备(100,200,250,300,400,500)的环境状态,其中借助于显示设备(10a)使标准化流(60)的第一输出信号(y)中包括的信息对设备(100,200,250,300,400,500,600)的用户可用。
12.训练系统(140),被配置为实行根据权利要求1至8中任一项的训练方法。
13.计算机程序,被配置为如果计算机程序由处理器(45,145)实行,则使得计算机实行根据权利要求1至11中任一项的方法及其所有步骤。
14.机器可读存储介质(46,146),其上存储根据权利要求13的计算机程序。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20199040.5A EP3975011A1 (en) | 2020-09-29 | 2020-09-29 | Device and method for training a normalizing flow using self-normalized gradients |
EP20199040.5 | 2020-09-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114358276A true CN114358276A (zh) | 2022-04-15 |
Family
ID=72670617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111144023.6A Pending CN114358276A (zh) | 2020-09-29 | 2021-09-28 | 使用自标准化梯度训练标准化流的设备和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220101074A1 (zh) |
EP (1) | EP3975011A1 (zh) |
CN (1) | CN114358276A (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3139477A1 (en) * | 2020-11-17 | 2022-05-17 | Uatc, Llc | Systems and methods for simulating traffic scenes |
US12019726B2 (en) * | 2022-03-18 | 2024-06-25 | Qualcomm Incorporated | Model disentanglement for domain adaptation |
-
2020
- 2020-09-29 EP EP20199040.5A patent/EP3975011A1/en active Pending
-
2021
- 2021-09-20 US US17/448,126 patent/US20220101074A1/en active Pending
- 2021-09-28 CN CN202111144023.6A patent/CN114358276A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220101074A1 (en) | 2022-03-31 |
EP3975011A1 (en) | 2022-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110554602A (zh) | 生成鲁棒的自动化学习系统并测试经训练自动化学习系统 | |
CN114358276A (zh) | 使用自标准化梯度训练标准化流的设备和方法 | |
US20220076096A1 (en) | Device and method for training a scale-equivariant convolutional neural network | |
CN113962399A (zh) | 用于机器学习中学习扰动集的方法和系统 | |
CN114586046A (zh) | 具有鲁棒深度生成模型的系统和方法 | |
US11995553B2 (en) | Parameterization of a machine learning system for a control system | |
JP2023118101A (ja) | 機械学習システムに対する敵対的パッチを特定するための装置及び方法 | |
JP7264410B2 (ja) | 「敵対的サンプル」に対するロバスト性を改善する装置及び方法 | |
US20220101116A1 (en) | Method and system for probably robust classification with detection of adversarial examples | |
US20220101128A1 (en) | Device and method for training a classifier using an invertible factorization model | |
EP4145402A1 (en) | Device and method for training a neural network for image analysis | |
TWI845580B (zh) | 用於訓練神經網路的方法 | |
US11961275B2 (en) | Device and method for training a normalizing flow | |
US20220101129A1 (en) | Device and method for classifying an input signal using an invertible factorization model | |
KR20230175128A (ko) | 기계 학습 시스템의 적대적 섭동들을 결정하기 위한 디바이스 및 방법 | |
EP4343619A1 (en) | Method for regularizing a neural network | |
US20220012636A1 (en) | Method and device for creating a system for the automated creation of machine learning systems | |
US20220230416A1 (en) | Training of machine learning systems for image processing | |
US20220284289A1 (en) | Method for determining an output signal by means of a neural network | |
CN117911806A (zh) | 用于确定编码器配置的图像分析的设备和方法 | |
TW202105261A (zh) | 用於訓練神經網路的方法 | |
KR20230159293A (ko) | 비선형 정규화를 위한 신경망 계층 | |
CN113348475A (zh) | 提高针对“对抗示例”的鲁棒性的设备和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |