CN116611500A - 用于训练神经网络的方法及装置 - Google Patents
用于训练神经网络的方法及装置 Download PDFInfo
- Publication number
- CN116611500A CN116611500A CN202310180171.6A CN202310180171A CN116611500A CN 116611500 A CN116611500 A CN 116611500A CN 202310180171 A CN202310180171 A CN 202310180171A CN 116611500 A CN116611500 A CN 116611500A
- Authority
- CN
- China
- Prior art keywords
- image
- determining
- machine learning
- training
- object detector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000013528 artificial neural network Methods 0.000 title description 9
- 238000010801 machine learning Methods 0.000 claims abstract description 54
- 230000006870 function Effects 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 description 11
- 230000001276 controlling effect Effects 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 8
- 230000006978 adaptation Effects 0.000 description 7
- 238000009826 distribution Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000005259 measurement Methods 0.000 description 4
- 238000011478 gradient descent method Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000001931 thermography Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 230000009187 flying Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000009184 walking Effects 0.000 description 1
- 238000003466 welding Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
用于训练机器学习系统的计算机实现的方法,所述方法包括:·提供来自源域的源图像和目标域的目标图像;·使用机器学习系统的第一生成器基于源图像确定所生成的第一图像,并使用机器学习系统的第二生成器基于所生成的第一图像确定第一重构;·使用第二生成器基于目标图像确定所生成的第二图像并使用第一生成器基于所生成的第二图像确定第二重构;·确定第一损失值(L1),其中第一损失值(L1)表征源图像和第一重构的第一差异,其中第一差异根据第一注意力图被加权;以及确定第二损失值(L2),其中第二损失值(L2)表征目标图像和第二重构的第二差异,其中第二差异根据第二注意力图被加权;·基于第一损失值(L1)和/或第二损失值(L2)训练机器学习系统。
Description
技术领域
本发明涉及一种用于训练机器学习系统的方法、一种用于训练对象检测器的方法、一种用于操作控制系统的方法、一种计算机程序和一种机器可读存储介质。
背景技术
本发明的优点
许多现代技术系统使用机器学习方法处理从技术系统的环境中记录的数据。这些方法通常能够提出关于数据的预测,并且确切地说基于统计学知识而提出关于数据的预测,其中所述统计学知识是基于训练数据的集合所获得的。
如果机器学习系统在推理时处理的数据统计分布与用于训练机器学习系统的数据统计分布不同,则机器学习系统通常会遇到问题。这个问题在机器学习领域也被称为域转移(英文:domain shift(域偏移))。
存在许多或多或少地受到自然或不可避免的域转移影响的技术系统的例子。例如,在至少部分自主的车辆的领域,出现了如下情况:可能以规律的周期在道路上观察到新车辆。对于至少部分自主的车辆的传感器,例如LIDAR传感器、相机传感器或雷达传感器,此类车辆通常还会导致在潜在训练集合中未知的测量,这是因为这些车辆根据定义是新的并且因此使得由其记录的传感器测量也是新的。
当产品的两个产品世代更迭时,可能会发生另一种形式的域转移。例如,存在包括机器学习系统的相机传感器,以便关于例如对象的位置方面评估由相机记录的环境(即环境的相机图像)。为了训练此类机器学习系统通常需要大量训练数据。如果相机的产品世代现在发生更迭,例如,如果使用了新的图像传感器(英文:Image),则机器学习系统在没有适配的情况下通常不再能够达到与上一相机世代相同的预测精度。因此,产品世代更迭意味着为机器学习系统确定新的训练数据。虽然纯数据本身的获取通常成本很低,但训练所需的注释的获取则困难得多且更成本密集,因为人类专家通常必须创建注释。
有利地,具有独立权利要求1的特征的方法允许使源域自适应于目标域(英文:domain adaption(域自适应))。与已知方法相比,该方法使得能够引入关于源域的哪些部分在自适应于目标域时特别重要的先验信息。所述先验信息被自动确定。因此,该方法能够有利地执行无监督的域自适应。发明人能够确定:由于先验信息而使得域自适应变得更加精确。
发明内容
在第一方面,本发明涉及一种用于训练机器学习系统的计算机实现的方法,该方法包括以下步骤:
·提供来自源域的源图像和目标域的目标图像;
·使用机器学习系统的第一生成器基于源图像确定所生成的第一图像,并使用机器学习系统的第二生成器基于所生成的第一图像确定第一重构(Rekonstruktion);
·使用第二生成器基于目标图像确定所生成的第二图像,并使用第一生成器基于所生成的第二图像确定第二重构;
·确定第一损失值,其中第一损失值表征源图像和第一重构的第一差异,其中所述第一差异根据第一注意力图(Aufmerksamkeitskarte)被加权,以及确定第二损失值,其中所述第二损失值表征所述目标图像和所述第二重构的第二差异,其中所述第二差异根据第二注意力图被加权;
·通过基于所述第一损失值和/或所述第二损失值训练所述第一生成器和/或所述第二生成器来训练所述机器学习系统。
所述机器学习系统就此可以理解为,它被构造为接受图像作为输入并基于该输入而确定另一图像作为输出。可以使用该方法训练机器学习系统,使得该机器学习系统能够将源域的图像转换为目标域的图像。
域可以理解为可以所生成的图像的概率分布。因此,该方法也可以理解为将图像从一个概率分布(源域)转换为另一概率分布(目标域)。
图像尤其可以理解为传感器记录或者也可以理解为传感器的测量。特别是相机传感器、LIDAR传感器、雷达传感器、超声波传感器或热成像相机可以用作可以将图像确定为测量的传感器。然而,也可以人工合成地(synthetisch)生成图像,例如基于计算机模拟,例如通过渲染虚拟世界而生成图像。针对这种人工合成的图像通常应非常简单地实现自动化地确定注释,其中然后可以借助该方法从人工合成的图像中生成其他图像,所述其他图像的外观(Erscheinungsbild)例如类似于相机传感器的图像。
为了确定所生成的第一图像,机器学习系统使用可以在所述方法期间被训练的第一生成器。在本发明的上下文中,生成器可以被理解为基于输入图像确定输出图像的机器学习方法。特别地,所描述的生成器可以被理解为,这些生成器确定与用作输入的图像大小相同的图像。
为了实现从源域到目标域的关联并因此实现从源域到目标域的适当的自适应,机器学习系统还包括第二生成器,该生成器被构造为将目标域中的图像映射(projizieren)回源域。如果一个图像首先由机器学习系统的一个生成器处理,这样确定的图像然后由另一个生成器处理,那么由另一个生成器确定的图像可以理解为重构。已知方法的目的是:分别针对来自源域的图像和来自目标域的图像而如此训练这些生成器,使得相应的重构与相应的图像相同。有利地,对第一注意力图和第二注意力图的使用使得能够这样控制训练,使得源域的图像和目标域的图像的某些区域可以被分类为特别重要的。由注意力图以这种方式声明(deklarieren)的区域可以优选地包含应在该图像上识别的对象。因此使得机器学习方法能够将重构中的焦点特别放在对象上。发明人能够确定由此而实现域自适应,所述域自适应能够非常精确地将对象从源域中的图像转移到目标域中的图像中。以这种方式,例如,可以确定用于目标域的对象检测器的训练数据集,其中这些训练图像能够从来自源域的数据集的图像生成,并且能够使用所述数据集的图像的注释作为生成的训练图像的注释。
与已知方法不同,在训练期间通过第一注意力图和第二注意力图将先验信息输送给机器学习系统,所述先验信息向机器学习系统指示哪些部分在域自适应中是特别相关的。
在优选实施方式中可能的是:第一注意力图针对源图像的像素而分别表征:像素是否属于该源图像上成像(abbilden)的对象,和/或其中第二注意力图针对目标图像的像素而分别表征:像素是否属于目标图像上成像的对象。
图像和相应确定的重构尤其可以逐个像素地被比较,即可以分别确定图像和重构中相同位置处的像素之间的差异,例如欧几里德距离或欧几里德距离的平方。然后可以使用注意力图,以便给所确定的差异中的每一个分配权重,其中该权重应该根据注意力图而获得差异。特别地,可以根据图像的像素是否表征对象来对所述图像的像素进行加权。在此,注意力图可以理解为带有通道或矩阵的图像。在图像和重构之间所确定的差异也可以理解为具有通道或矩阵的图像,其中特定位置处的差异分别表征图像和重构在同一位置的像素的差异。然后可以使用注意力图与差值矩阵的Hadamard乘积来确定所述差值矩阵的值的权重。基于此,然后可以确定损失值,其中例如对Hadamard乘积的结果的所有元素求和,优选地加权求和。
在一个实施方式中可能的是:如果源图像的像素属于图像中成像的对象,则第一注意力图可以给所述源图像的像素分别分配权重1,如果所述像素不属于任何对象,则给该像素分配权重0。以对象检测领域中典型的说法,注意力图因此可以设计为,将前景与背景区分开,并且确切地说通过不同的值来表示(1代表前景,0代表背景)。替代地或附加地可能的是:如果目标图像的像素属于图像中成像的对象,则第二注意力图可以给所述目标图像的像素分别分配权重,如果所述像素不属于任何对象,则给该像素分配权重0。
替代地也可能的是:第一注意力图和/或第二注意力图也可以分别表征对应像素属于对象的概率。
在优选的实施方式中可能的是:使用对象检测器基于源图像确定第一注意力图,和/或其中使用对象检测器基于目标图像确定第二注意力图。
对象检测器尤其可以是设计用于对象检测的机器学习系统,例如神经网络。对象检测器可以优选地基于源域的图像进行训练。为了训练本发明中提出的机器学习系统,对象检测器然后可以基于源图像确定第一注意力图。例如,对象检测器识别为属于一个对象的源图像的所有像素可以被对象检测器在第一注意力图中分配值1,而所述注意力图的所有其他值都可以设置为值0。类似地,对象检测器识别为属于一个对象的目标图像的所有像素都可以被对象检测器在第二注意力图中分配值1,而所述注意力图的所有其他值都可以设置为值0。
通常,对象检测器被设计为,为图像中的每个像素分配该像素是对象的概率。例如,常用的用于对象检测的神经网络以边界框(英文:bounding box)以及该边界框是神经网络已知的对象的概率的形式输出对象检测。边界框内的所述像素都可以在注意力图中分别被分配所述概率。如果神经网络确定重叠的对象检测,则可以使用分别为像素确定的最大概率。
优选地,在该方法的相应实施方式中,还可以迭代地执行该方法的步骤并且对象检测器在每次迭代中确定针对源图像的第一注意力图和/或在每次迭代中确定针对目标图像的第二注意力图。
一般来说,源图像可以理解为来源于该源域的数据集,并且目标图像可以理解为来源于该目标域的数据集。特别地,可以为了训练而使用相应数据集的多个图像并且可以迭代地执行该训练方法的这些步骤。特别是,目标域的图像不能被注释。在训练的每个迭代步骤中,对象检测器然后可以分别针对该迭代的源图像和目标图像确定对象检测,然后可以在此基础上如上述实施方式之一所阐述的那样确定第一注意力图或第二注意力图。这样做优点在于,源域数据集的图像可以通过迭代训练而随着每个迭代步被更好地变换,即,由源域变换的图像越来越近似于目标域的图像。
在该方法中训练的机器学习系统优选地表征神经网络,特别是CycleGAN。替代地,机器学习系统还可以表征另一个能够实现图像到图像变换(英文:image-to-imagetranslation)的神经网络,例如MADAN或VAE-GAN。
在另一方面,本发明涉及一种用于训练对象检测器的计算机实现的方法,该方法包括以下步骤:
·提供输入图像和注释,该注释表征在输入图像中成像的至少一个对象的位置;
·使用机器学习系统的第一生成器确定中间图像,该机器学习系统已经根据本发明的第一方面的实施方式之一得以训练;
·训练对象检测器,其中该对象检测器被训练,使得该对象检测器针对作为输入的中间图像而预测通过所述注释所表征的所述一个或多个对象。
用于训练对象检测器的方法可以这样理解:首先使用经训练的机器学习系统基于源域的图像来确定在外观上与目标域的图像相对应的图像,然后基于这些图像(即中间图像)训练对象检测器。对象检测器尤其可以被迭代地训练,其中源域的训练图像数据集能够在训练之前被变换成中间图像的数据集,然后使用这些中间图像来训练对象检测器。替代地,也可以在每个迭代步骤中分别将来自源域的图像变换为中间图像,然后使用该中间图像训练对象检测器。
有利地,可以这样以无监督的方式将对象检测器适配于目标域而无需针对目标域的图像进行对象注释。这加快了对象检测器的训练方法,因为取消了用于注释目标域图像的时间。在相同的时间预算情况下,因此对象检测器可以训练(anlernen)更多的图像。反过来,可以由此改善对象检测器的性能,因为所述对象检测器可以用更多图像被训练。
通常,本发明意义上的对象检测器可以理解为以这样的方式设置,使得所述对象检测器关于对象检测除了图像中对象的位置和大小之外还确定表征检测的对象的类别。
在用于训练对象检测器的方法中,机器学习系统可以理解为,所述机器学习系统已按照用于训练该机器学习系统的方法的一个实施方式而得以训练。特别地,用于训练机器学习系统的方法步骤因此可以是用于训练对象检测器的方法的一部分。特别地,训练机器学习系统的方法步骤可以放在训练对象检测器的方法步骤之前。
在另一方面,本发明涉及一种用于确定用于操控执行器和/或显示装置的操控信号的计算机实现的方法,该方法包括以下步骤:
·提供输入图像;
·使用对象检测器确定在输入图像上成像的对象,其中该对象检测器已经基于用于训练对象检测器的方法的表现形式而得以训练;
·基于所确定的对象确定操控信号;
·根据所述操控信号操控执行器和/或显示装置。
执行器尤其可以理解为影响技术系统或技术系统内的运动的技术系统组件。例如,执行器可以是影响机器人运动的马达,例如电动机。替代地也可能的是:执行器控制液压系统,例如执行器可以是驱动液压缸的泵。此外,执行器还可以是控制液体或气体的流入量的阀门。
附图说明
下面参考附图更详细地解释本发明的实施方式。在附图中:
图1示出了机器学习系统;
图2示意性地示出了用于训练机器学习系统的方法;
图3示意性地示出了训练系统;
图4示意性地示出了用于操控执行器的控制系统的结构;
图5示意性地示出了用于控制至少部分自主的机器人的实施例;
图6示意性地示出了用于控制制造系统的示例性实施例;
图7示意性地示出了用于控制访问系统的示例性实施例;
图8示出了用于控制监控系统的示例性实施例的示意图。
具体实施方式
图1示出了如何能够使用来自源域的源图像(x1)和来自目标域的目标图像(x2)来确定用于训练机器学习系统(70)的损失值
源图像(x1)被传递到机器学习系统(70)的第一生成器(71),其中生成器(71)基于源图像(x1)确定所生成的第一图像(a1)。此外,目标图像(x2)被传递到机器学习系统(70)的第二生成器(72),其中第二生成器(72)基于目标图像(x2)确定所生成的第二图像(a2)。
所生成的第一图像(a1)被输送到第二生成器(72)以确定第一重构(r1)。随后,确定所生成的第一图像(a1)和第一重构(r1)的逐像素的差异,例如根据Lp标准的逐像素距离。然后使用第一注意力图(m1)对这些差异进行加权,并对加权差异求和以确定第一损失值
所生成的第二图像(a2)被输送到第一生成器(71)以确定第二重构(r2)。随后,确定所生成的第二图像(a2)和第二重构(r2)的逐像素差异,例如根据Lp标准的逐像素距离。然后使用第二注意力图(m2)对差异进行加权,并对加权差异求和以确定第二损失值
目标图像(x2)和所生成的第一图像(a1)被进一步输送到第一鉴别器(73)。第一生成器(71)和第一鉴别器(73)可以理解为生成对抗网络(英文:generative adversarialnetwork,GAN)。基于目标图像(x2)和所生成的第一图像(x1),第一鉴别器(73)然后为所生成的第一图像(a1)的每个像素和目标图像(x2)的每个像素确定第一GAN损失值。也就是说,与普通的GAN损失值不同,并不使用逐像素的损失值的平均值。第一GAN损失值可以理解为一个损失值矩阵,在所述矩阵中,一位置处的损失值与目标图像(x2)和所生成的第一图像(a1)的像素位置相对应。然后使用第一注意力图(m1)对第一GAN损失值进行加权,并对经加权的损失值求和以确定第三损失值
源图像(x1)和所生成的第二图像(a2)被进一步输送到第二鉴别器(74)。第二生成器(72)和第二鉴别器(74)可以理解为GAN。基于源图像(x1)和所生成的第二图像(x2),第二鉴别器(74)然后为所生成的第二图像(a2)的每个像素和目标图像(x1)的每个像素确定第二GAN损失值。也就是说,与普通的GAN损失值不同,没有使用逐像素损失值的平均值。第二GAN损失值可以理解为一个损失值矩阵,在所述矩阵中,一位置处的损失值与源图像(x1)和所生成的第二图像(a2)的像素位置相对应。然后使用第二注意力图(m2)对第二GAN损失值进行加权,并对经加权的损失值求和以确定第四损失值
损失值然后可以被求和,优选地加权求和,以便获得单个损失值,通过该单个损失值可以改变第一生成器(71)的参数和/或第二生成器(72)的参数和/或改变第一鉴别器(73)和/或第二鉴别器(74)的参数。各个损失值/>的权重在此是该方法的超参数。
图2以流程图的形式示出机器学习系统(70)的训练方法(100)的流程。在实施例中,机器学习系统被构造为根据图1的CycleGAN。在其他实施方式中,其他配置也是可能的。
在第一步骤(101)中,从源域的数据集提供源图像,并且从目标域的数据集提供目标图像。
在第二步骤(102)中,使用预先训练的对象检测器(例如被构造用于对象检测的神经网络)处理源图像(x1)和目标图像(x2),以便分别确定对象检测。基于所述对象检测,然后确定关于源图像(x1)的第一注意力图(m1)并且确定关于目标图像(x2)的第二注意力图(m2)。
在第三步骤(103)中,根据图1,确定第一重构(r1)。
在第四步骤(104)中,根据图1确定第二重构。
在第五步骤(105)中,根据图1,确定单个损失值。
在第六步骤(106)中,使用梯度下降法训练第一生成器(71)的参数、第二生成器(72)的参数、第一鉴别器(73)的参数和第二鉴别器(74)的参数,并且因此训练机器学习系统(70)。
该方法的步骤优选地可以迭代地重复。例如,作为迭代循环的终止标准可以选择:完成特定的迭代次数。替代地,也可以基于单个损失值或基于另一个数据集所确定的损失值来结束训练。
图3示出了用于使用训练数据集(T)训练对象检测器(60)的训练系统(140)的实施例。所述训练数据集(T)包括用于训练对象检测器(60)的源域之一的多个源图像(xi),其中所述训练数据集(T)除了各源图像(xi)之外还包括所期望的输出信号(ti),所述输出信号与源图像(xi)对应并表征该源图像(xi)的对象检测。
为了训练,训练数据单元(150)访问以计算机实现的数据库(St2),其中所述数据库(St2)提供所述训练数据集(T)。训练数据单元(150)优选地从训练数据集(T)中随机确定至少一个源图像(xi)和与该源图像(xi)对应的所期望的输出信号(ti),并将源图像(xi)传送到经训练的机器学习系统(70)的第一生成器(71)。第一生成器(71)基于源图像(xi)确定中间图像。中间图像在外观上与目标域的图像相似。中间图像然后被输送到对象检测器(60)。对象检测器(60)基于中间图像确定输出信号(yi)。
所期望的输出信号(ti)和所确定的输出信号(yi)被传送到改变单元(180)。
然后,由改变单元(180)基于所期望的输出信号(ti)和所确定的输出信号(yi)确定针对对象检测器(60)的新参数(Φ′)。为此,改变单元(180)使用损失函数(英文:lossfunction)将所期望的输出信号(ti)和所确定的输出信号(yi)进行比较。损失函数确定第一损失值,该第一损失值表征所确定的输出信号(ti)偏离所期望的输出信号(ti)的程度。在实施例中,选择负对数似然函数(英文:negative log-likehood function)作为损失函数。在替代的实施例中也可以设想其他损失函数。
还可以设想的是,所确定的输出信号(yi)和所期望的输出信号(ti)分别包括多个子信号,例如以张量的形式的子信号,其中所期望的输出信号(ti)的子信号分别与所确定的输出信号(yi)的子信号相对应。例如,可以设想,输出信号(ti)的第一子信号分别表征关于源图像的一部分而言对象的出现概率,而输出信号(yi)的第二子信号表征该对象的准确位置。针对所确定的输出信号(yi)和所期望的输出信号(ti)包括多个对应的子信号的情况,优选地使用合适的损失函数分别针对对应的子信号确定第二损失值并且适当地将所确定的第二损失值合并(zusammenführen)到第一损失值,例如通过加权求和。
改变单元(180)在第一损失值的基础上确定新参数(Φ′)。在实施例中,这是使用梯度下降法、优选随机梯度下降法、Adam或AdamW而完成的。在另外的实施例中,训练也可以基于进化算法或二阶优化(英文:second-order optimization)。
所确定的新参数(Φ′)被存储在模型参数存储器(St1)中。所确定的新参数(Φ′)优选地作为参数(Φ)被提供给对象检测器(60)。
在进一步优选的实施例中,所描述的训练迭代地重复预定义的迭代步骤数或者迭代地重复直到第一损失值低于预定义的阈值。替代地或附加地,还可以设想,当关于测试或验证数据集的平均第一损失值低于预定义的阈值时结束训练。在其中至少一次迭代中,将在前一迭代中确定的新参数(Φ′)用作对象检测器(60)的参数(Φ)。
此外,训练系统(140)可以包括至少一个处理器(145)和至少一个包含指令的机器可读存储介质(146),当处理器(145)执行这些指令时,所述指令促使训练系统(140)执行根据本发明的其中一个方面的训练方法。
图4示出了在用于控制执行器(10)的环境(20)中的执行器(10)的控制系统(40)内使用对象检测器(60)。在传感器(30)中、特别是成像传感器,例如相机传感器中以优选规律的时间间隔检测该环境(20),所述传感器也可以通过多个传感器、例如立体相机而给出。传感器(30)的传感器信号(S)——或在多个传感器的情况下各一个传感器信号(S)——被传送到控制系统(40)。控制系统(40)因此接收传感器信号(S)的序列(Folge)。由此,控制系统(40)确定传输到执行器(10)的操控信号(A)。
控制系统(40)在可选的接收单元(50)中接收传感器(30)的传感器信号(S)的序列,该接收单元将传感器信号(S)的序列转换成输入信号(x)的序列(替代地,也可以直接将各传感器信号(S)采用为输入信号(x))。例如,输入信号(x)可以是传感器信号(S)的片段(Ausschnitt)或进一步处理。换句话说,输入信号(x)根据传感器信号(S)而被确定。输入信号(x)的序列被输送到对象检测器(60)。
优选地,由存储在参数存储器(P)中并由其提供的参数(Φ)参数化对象检测器(60)。
对象检测器(60)由输入信号(x)确定输出信号(y)。输出信号(y)被输送到可选的转换单元(80),该转换单元由此来确定操控信号(A),所述操控信号被输送到执行器(10)以便相应地操控该执行器(10)。
执行器(10)接收操控信号(A),相应地被操控并执行相应的动作。执行器(10)在此情况下可以包括(不一定在结构上集成的)操控逻辑,所述操控逻辑由操控信号(A)确定第二操控信号,然后利用该第二操控信号操控执行器(10)。
在另外的实施方式中,控制系统(40)包括传感器(30)。在还有的另外的实施方式中,控制系统(40)可替代地或附加地还包括执行器(10)。
在另外的优选实施方式中,控制系统(40)包括至少一个处理器(45)和至少一个机器可读存储介质(46),在该机器可读存储介质(46)上存储指令,当所述指令在至少一个处理器(45)上执行时,所述指令促使控制系统(40)执行根据本发明的方法。
在替代的实施方式中,替代于或附加于执行器(10)而设置显示单元(10a)。
图5示出了控制系统(40)如何可以用于控制至少部分自主的机器人,这里是至少部分自主的机动车辆(100)。
传感器(30)例如可以是优选布置在机动车辆(100)中的视频传感器。
对象检测器(60)被设置为,标识输入图像(x)上的可识别对象。
优选布置在机动车辆(100)中的执行器(10)例如可以是机动车辆(100)的制动器、驱动器或转向系统。然后可以这样确定操控信号(A),使得所述一个执行器或多个执行器(10)被操控为,特别是在对象是某类对象、例如行人的情况下,使得机动车辆(100)例如防止与对象检测器(60)所标识的对象发生碰撞。
替代地或附加地,可以用操控信号(A)操控显示单元(10a),并且例如可以示出所标识的对象。还可以设想的是,可以用操控信号(A)操控显示单元(10a),使得如果确定机动车辆(100)即将与所标识的对象发生碰撞,则显示单元(10a)输出光学或声学警告信号。通过警告信号的警告也可以通过触觉警告信号进行,例如通过机动车辆(100)的方向盘的振动。
替代地,至少部分自主的机器人也可以是其他移动机器人(未示出),例如通过飞行、游泳、潜水或步行而移动的机器人。移动机器人例如也可以是至少部分自主的割草机或至少部分自主的清洁机器人。在这些情况下,操控信号(A)也可以这样确定,使得该移动机器人的驱动器和/或转向系统被操控,使得所述至少部分自主的机器人例如防止与对象检测器(60)所标识的对象发生碰撞。
图6示出了一个实施例,其中控制系统(40)用于操控制造系统(200)的制造机器(11),其方式为,控制制造机器(11)的执行器(10)被操控。制造机器(11)可以是例如用于冲压、锯切、钻孔、焊接和/或切割的机器。还可以设想,制造机器(11)被构造成,通过夹持器夹持制成品(12a、12b)。
传感器(30)例如可以是视频传感器,其例如检测传送带(13)的传送表面,制成品(12a、12b可以处于所述传送带(13)上。在这种情况下,输入信号(x)是输入图像(x)。对象检测器(60)可以例如被设置成,确定传送带上的制成品(12a、12b)的位置。控制制造机器(11)的执行器(10)然后可以根据制成品(12a,12b)的所确定的位置来被操控。例如,可以这样操控执行器(10),使得执行器在制成品(12a、12b)上的预定部位处冲压、锯切、钻孔和/或切割所述制成品(12a、12b)。
还可以设想,对象检测器(60)被构造成,替代于或附加于所述位置而确定制成品(12a,12b)的其他特性。特别地,可以设想对象检测器(60)确定制成品(12a,12b)是否有缺陷和/或损坏。在这种情况下,可以操控执行器(10),使得制造机器(11)分拣出有缺陷和/或损坏的制成品(12a,12b)。
图7示出了实施例,其中控制系统(40)用于控制访问系统(300)。访问系统(300)可以包括物理访问控制,例如门(401)。传感器(30)尤其可以是视频传感器或热成像传感器,其被设置为检测门(401)前面的区域。特别地,对象检测器(60)可以检测出所传送的输入图像(x)上的人。如果同时检测出多个人,则可以通过将人(即对象)分配给彼此来特别可靠地确定例如人的身份,例如通过分析他们的运动。
执行器(10)可以是锁,使得根据操控信号(A)释放或不释放访问控制,例如打开或不打开门(401)。为此,可以根据通过对象检测器(60)为输入图像(x)确定的输出信号(y)来选择操控信号(A)。例如,可以设想:输出信号(y)包括表征对象检测器(60)检测到的人的身份的信息,并且基于人的身份来选择操控信号(A)。
替代于物理访问控制,也可以设置逻辑访问控制。
图8示出了一个实施例,其中控制系统(40)用于控制监控系统(400)。本实施例与图4所示实施例的不同之处在于设置了由控制系统(40)操控的显示单元(10a)而不是执行器(10)。例如,传感器(30)可以记录输入图像(x),在所述输入图像上应识别出至少一个人,并且所述至少一个人的位置可以通过对象检测器(60)来检测。然后可以在显示单元(10a)上示出输入图像(x),其中检测到的人能够以颜色强调示出。
术语“计算机”包括用于执行可预先给定的计算规则的任何设备。这些计算规则能够以软件形式或以硬件形式或者也能够以软件和硬件混合的形式而存在。
一般来说,复数可以理解为带索引的,即复数中的每个元素都被分配了一个唯一的索引,优选地通过为复数中包含的元素分配连续的整数来进行分配。优选地,当复数包括N个元素时,其中N是所述复数中元素的数目,则给这些元素分配从1到N的整数。
Claims (11)
1.用于训练机器学习系统(70)的计算机实现的方法(100),所述方法包括以下步骤:
·提供(101)来自源域的源图像(x1)和目标域的目标图像(x1);
·使用所述机器学习系统(70)的第一生成器(71)基于所述源图像(x1)确定(103)所生成的第一图像(a1),并使用所述机器学习系统(70)的第二生成器(72)基于所述所生成的第一图像(a1)确定第一重构(r1);
·使用所述第二生成器(72)基于所述目标图像(x2)确定(104)所生成的第二图像(a2)并使用所述第一生成器(71)基于所述所生成的第二图像(a2)确定第二重构(r2);
·确定(105)第一损失值其中所述第一损失值/>表征所述源图像(x1)和所述第一重构(r1)的第一差异,其中所述第一差异根据第一注意力图(m1)被加权;以及确定第二损失值/>其中所述第二损失值/>表征所述目标图像(x2)和所述第二重构(r2)的第二差异,其中所述第二差异根据第二注意力图(m2)被加权;
·通过基于所述第一损失值和/或所述第二损失值/>训练所述第一生成器(71)和/或所述第二生成器(72)来训练所述机器学习系统(70)。
2.根据权利要求1所述的方法(100),其中所述第一注意力图(m1)针对所述源图像(x1)的像素而分别表征:像素是否属于在所述源图像(x1)上成像的对象,和/或其中所述第二注意力图(m2)针对所述目标图像(x2)的像素而分别表征:像素是否属于所述目标图像(x2)上成像的对象。
3.根据权利要求1或2中任一项所述的方法(100),其中使用对象检测器基于所述源图像(x1)确定所述第一注意力图(m1),和/或其中使用所述对象检测器基于所述目标图像(x2)确定所述第二注意力图(m2)。
4.根据权利要求3所述的方法(100),其中迭代地执行所述方法的步骤并且对象检测器在每次迭代中确定针对源图像(x1)的第一注意力图(m1)和/或在每次迭代中确定针对目标图像(x2)的第二注意力图(m2)。
5.根据权利要求4所述的方法(100),其中,所述对象检测器被设计成,确定道路交通场景的图像中的对象。
6.根据权利要求1至5中任一项所述的方法(100),其中所述机器学习系统(70)表征CycleGAN。
7.用于训练对象检测器的计算机实现的方法,所述方法包括以下步骤:
·提供输入图像和注释,其中所述注释表征在输入图像中成像的至少一个对象的位置;
·使用机器学习系统(70)的第一生成器(71)确定中间图像,所述机器学习系统已根据权利要求1至6之一得以训练;
·训练对象检测器,其中所述对象检测器被训练,使得所述对象检测器针对作为输入的中间图像而预测通过所述注释所表征的所述一个或多个对象。
8.用于确定用于操控执行器(10)和/或显示装置(10a)的操控信号(A)的计算机实现的方法,所述方法包括以下步骤:
·提供输入图像(x);
·使用对象检测器而确定在所述输入图像(x)上成像的对象,其中所述对象检测器已根据权利要求7而得以训练;
·基于所确定的对象确定所述操控信号(A);
·根据所述操控信号操控所述执行器(10)和/或所述显示装置(10a)。
9.训练装置(140),所述训练装置被设置为执行根据权利要求1至7中任一项所述的方法。
10.计算机程序,所述计算机程序被设置成,在由处理器(45、145)执行时执行根据权利要求1至8中任一项所述的方法。
11.机器可读存储介质(46、146),其上存储有根据权利要求10所述的计算机程序。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102022201679.3A DE102022201679A1 (de) | 2022-02-17 | 2022-02-17 | Verfahren und Vorrichtung zum Trainieren eines neuronalen Netzes |
DE102022201679.3 | 2022-02-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116611500A true CN116611500A (zh) | 2023-08-18 |
Family
ID=87430808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310180171.6A Pending CN116611500A (zh) | 2022-02-17 | 2023-02-15 | 用于训练神经网络的方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230260259A1 (zh) |
CN (1) | CN116611500A (zh) |
DE (1) | DE102022201679A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102022204263A1 (de) | 2022-04-29 | 2023-11-02 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren und Vorrichtung zum Trainieren eines neuronalen Netzes |
-
2022
- 2022-02-17 DE DE102022201679.3A patent/DE102022201679A1/de active Pending
-
2023
- 2023-02-10 US US18/167,701 patent/US20230260259A1/en active Pending
- 2023-02-15 CN CN202310180171.6A patent/CN116611500A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230260259A1 (en) | 2023-08-17 |
DE102022201679A1 (de) | 2023-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210089895A1 (en) | Device and method for generating a counterfactual data sample for a neural network | |
CN109478239B (zh) | 检测图像中的对象的方法和对象检测系统 | |
US9111375B2 (en) | Evaluation of three-dimensional scenes using two-dimensional representations | |
CN112560886A (zh) | 训练类条件生成对抗序列网络 | |
CN114008633A (zh) | 用于检验人工神经网络的稳健性的方法和设备 | |
CN109101897A (zh) | 水下机器人的目标检测方法、系统及相关设备 | |
CN111797709B (zh) | 一种基于回归检测的实时动态手势轨迹识别方法 | |
JP2020038660A (ja) | CNN(Convolutional Neural Network)を利用して車線を検出するための学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{LEARNING METHOD, LEARNING DEVICE FOR DETECTING LANE USING CNN AND TEST METHOD, TEST DEVICE USING THE SAME} | |
WO2022253148A1 (en) | Systems and methods for sparse convolution of unstructured data | |
JP2021174556A (ja) | 自動運転における機能テスト方法に基づくセマンティックな敵対的生成 | |
CN116611500A (zh) | 用于训练神经网络的方法及装置 | |
CN113994349A (zh) | 用于训练机器学习系统的方法和设备 | |
EP3767534A1 (en) | Device and method for evaluating a saliency map determiner | |
US12111386B2 (en) | Methods and systems for predicting a trajectory of an object | |
JP2021197184A (ja) | 分類器を訓練及びテストするためのデバイス及び方法 | |
CN117274985A (zh) | 一种基于深度学习的结核杆菌实时目标检测方法及系统 | |
US20230031755A1 (en) | Generative adversarial network for processing and generating images and label maps | |
CN114386449A (zh) | 用于借助于机器学习系统来确定输出信号的方法 | |
US20230351741A1 (en) | Method and device for training a neural network | |
CN112149790A (zh) | 用于检查人工神经网络的鲁棒性的方法和设备 | |
Mozaffari et al. | Facial expression recognition using deep neural network | |
Kalirajan et al. | Deep learning for moving object detection and tracking | |
US20240135699A1 (en) | Device and method for determining an encoder configured image analysis | |
Sahay et al. | Multi-Object Detection and Tracking Using Machine Learning | |
US20220327387A1 (en) | More robust training for artificial neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |