CN115860108A - 用于为机器学习系统生成训练数据的设备和方法 - Google Patents

用于为机器学习系统生成训练数据的设备和方法 Download PDF

Info

Publication number
CN115860108A
CN115860108A CN202211156509.6A CN202211156509A CN115860108A CN 115860108 A CN115860108 A CN 115860108A CN 202211156509 A CN202211156509 A CN 202211156509A CN 115860108 A CN115860108 A CN 115860108A
Authority
CN
China
Prior art keywords
machine learning
learning system
input
training
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211156509.6A
Other languages
English (en)
Inventor
A·霍列娃
E·舍恩菲尔德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN115860108A publication Critical patent/CN115860108A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

提供了用于为机器学习系统生成训练数据的设备和方法。用于训练第一机器学习系统的计算机实现的方法,其中第一机器学习系统被配置为生成表征图像的标签图的输出,其中所述方法包括以下步骤:提供第一输入和第二输入,其中第一输入表征二进制向量,所述二进制向量表征来自多个类的类的相应存在或不存在,并且其中第二输入表征随机抽取的值;由第一机器学习系统的第一生成器基于第一输入和第二输入确定输出,其中输出表征第一标签图,其中第一标签图表征针对来自所述多个类的类的概率;借助于全局汇集操作确定第一标签图的表示;基于损失函数训练第一机器学习系统,其中损失函数表征F1损失,其中F1损失表征第一输入和第一标签图的表示之间的差异。

Description

用于为机器学习系统生成训练数据的设备和方法
技术领域
本发明涉及用于训练机器学习系统的方法、用于使用机器学习系统确定数据集的方法、用于使用数据集训练第二机器学习系统的方法、机器学习系统、计算机程序和机器可读存储设备。
现有技术
Le Moing等人的“Semantic Palette: Guiding Scene Generation with ClassProportions”(2021年6月3日https://arxiv.org/pdf/2106.01629.pdf)公开了一种用于训练机器学习系统以生成标签图和图像的方法。
背景技术
机器学习系统越来越多地用在几乎所有的技术领域中。通常,这些统计模型是用于多种应用的使能技术,所述多种应用例如是诸如汽车、无人机或船只之类的自主交通工具。
机器学习系统的性能——即其准确地预测所提供数据(例如图像)的期望结果(例如期望分类)的能力——关键取决于已训练机器学习系统所用的数据。例如,如果用于对交通工具附近的对象进行分类的机器学习系统没有用在夜间取得的图像进行训练,则不能预期机器学习系统的性能准确地对在夜间取得的图像进行分类。
对于数据而言出现类似的情形,这在数据集中不常见。继续上面的示例,即使在训练数据集中包括几个夜间图像,也仍然不能预期机器学习系统的性能准确地对在夜间取得的图像进行分类。
这是相当大的问题,尤其是对于诸如自主交通工具的安全关键的应用。现实世界中罕见或不常见事件可能仅稀疏地被训练数据表征,或者更糟的是,甚至可能根本没有被训练数据表征。该现象也被称为长尾问题,其中表征罕见或不常见事件的数据也被称为边缘情况或极端情况。收集与机器学习系统相关的所有此类事件的数据几乎是不可能的。然而,为了设计即使在此类罕见事件中也正确地起作用的安全自主系统,需要能够在机器学习系统的训练期间提供此类事件的数据。
通常除了在现实世界中收集的数据之外,常见的方法还依赖于生成对抗网络(也称为GAN)来合成数据,以便增加机器学习系统的训练数据。然而,已知的GAN是用在现实世界中收集的数据训练的。这意味着在现实世界中观察到的罕见事件在相应GAN的训练数据中也是罕见的。关于这方面的问题是,已知GAN丢弃数据集的未充分表示(或未观察到)的模式。该现象在GAN中也称为模式丢弃或模式崩溃。丢弃的模式可以是罕见或从不出现或共同出现的语义类别或语义类别的组合。因此,合期望的是设计一种方法来鼓励GAN生成对象/语义类别的罕见或未看见的组合的图像,即,一种抵抗模式丢弃的方法。
独立权利要求1中公开的方法的优点在于训练GAN,使得鼓励其不丢弃GAN的训练数据中的未充分表示的模式。这允许生成图像和对应的语义分割和/或甚至训练数据集的罕见类的实例分割。
发明内容
在第一方面,本发明涉及一种用于训练第一机器学习系统的计算机实现的方法,其中第一机器学习系统被配置为生成表征图像的标签图的输出信号,其中所述方法包括以下步骤:
• 提供第一输入和第二输入,其中第一输入表征二进制向量,所述二进制向量表征来自多个类的类的相应存在或不存在,并且其中第二输入表征随机抽取的值;
• 由第一机器学习系统的第一生成器基于第一输入和第二输入确定输出,其中所述输出表征第一标签图,其中第一标签图表征针对来自所述多个类的类的概率;
• 借助于全局汇集操作来确定第一标签图的表示;
• 基于损失函数来训练第一机器学习系统,其中所述损失函数表征F1损失,其中所述F1损失表征第一输入和第一标签图的表示之间的差异。
第一生成器可以被理解为生成对抗网络(也称为GAN)的生成器,其中第一机器学习系统可以被理解为GAN本身或者包括GAN。
生成器被配置为接受第一输入和第二输入作为生成器的输入,并确定标签图。标签图可以被理解为语义分割和/或实例分割。优选地,包括第一生成器的GAN是在两阶段过程中使用的第一GAN,其中第一GAN被配置为确定标签图,并且第二GAN被配置为基于标签图确定图像,使得标签图表征图像的语义分割和/或实例分割。
标签图可以优选地以三维张量的形式给出,其中高度维度和宽度维度表征对应于标签图的图像中的像素的像素位置,并且深度维度表征相应像素的分类。例如,如果标签图被用作例如训练数据,则分类可以以独热向量或整数的形式给出。如果从例如第一生成器预测标签图,则由标签图表征的分类也可以作为针对每个类的概率向量给出。
包括第一生成器的GAN可以优选地包括第一鉴别器,其中第一鉴别器用于在所述方法中训练第一生成器。第一输入和第二输入可以优选地表征向量。第一输入可以优选地表征二进制值的向量,所述向量表征要由生成器基于第一输入和第二输入生成的标签图中某些类的存在或不存在。这可以理解为诸如第一输入可以用于关于用户在输出中期望什么类来引导第一生成器的输出。第二输入优选地是随机抽取值的向量。第一和第二向量可以优选地连结成单个向量,以便充当第一生成器的输入。
第一生成器尤其可以是神经网络。作者发现StyleGAN或StyleGAN-2架构尤其有利于用作第一生成器。然而,其他架构也可以用于第一生成器,尤其是基于StyleGAN或StyleGAN-2架构的那些。
用于训练的第一输入尤其可以基于第一机器学习系统的训练数据集来确定。训练数据集可以包括表征类标签的标签图。根据这些标签图,可以确定指示符向量,其中指示符向量为标签图指示训练数据集的标签图中包括的类的存在或不存在。指示符向量可以尤其是以二进制向量的形式给出,即仅包括零和/或一的向量,并且二进制向量可以被理解为指示符向量。表征其他指示符向量的副本的指示符向量然后可以被弃置,并且剩余的唯一指示符向量可以用于训练第一生成器。例如,可以迭代地重复所述方法的步骤,并且可以在每次迭代中从唯一指示符向量对第一向量进行采样。每个指示符向量可以携带针对采样的相同概率。然而,针对每个指示符向量的概率也可以基于在弃置之前所述指示符向量在为标签图获得的所有指示符向量当中出现的频率。
替代地或附加地,机器学习系统可以基于从指示符向量导出的第一输入来训练。优选地,基于多个第一输入来训练第一机器学习系统,其中对来自多个第一输入的每个第一输入实行所述步骤,并且其中多个第一输入包括表征类的存在和不存在的组合的第一输入,其在训练数据集的标签图中没有观察到或者在训练数据集中罕见观察到。
可以基于对所获得的指示符向量进行聚类来确定指示符向量中的类组合的稀缺性。然后可以对第一输入进行采样,使得每个聚类具有提供指示符向量作为第一输入的相等概率。还可能的是确定不存在于所述多个指示符向量中的指示符向量,并提供这些指示符向量中的一个作为第一输入。还可能的是对罕见的或未观察到的指示符向量的值进行采样。例如,根据从训练数据集确定的指示符向量,可以确定指示符向量中类的出现率,即,对于每个类,对所述类在训练数据集的标签图中出现多频繁进行计数。然后,可以对指示符向量的值进行采样,其中每个类的概率是基于所述类在训练数据集中出现率的倒数来确定的。还可能的是仅对于在训练数据集中具有最低出现率的预定义量的类,例如在为训练数据集获得的指示符向量中具有最低出现率计数的来自所述多个类的20%的类,将概率设置为大于0的值。
发明人发现,向训练第一机器学习模型中引入在训练数据集中罕见的或未观察到的指示符向量,有利地进一步减轻了当训练第一机器学习系统时的模式丢弃。
第一生成器和第一鉴别器可以尤其地被配置为使得GAN是条件GAN,例如,与Mirza和Osindero的“Conditional Generative Adversarial Nets”(2014, https://arxiv.org/pdf/1411.1784.pdf)所提出的条件GAN一样。第一生成器和第一鉴别器可以例如根据辅助分类器GAN(也称为AC-GAN)架构来配置,其中AC-GAN的辅助分类器被配置为预测表征来自所述多个类的类的存在或不存在的二进制值,并且其中第一输入充当对例如二进制交叉熵损失的标签,其中二进制交叉熵损失将源分类器的输出与第一输入进行比较。原则上,第一生成器和第一鉴别器可以被配置为使得它们类似于任何已知的条件GAN架构。
然而,与已知的条件GAN的训练过程相比,所提出的方法包括新的步骤,其有利地减轻了当训练第一机器学习系统时的模式丢弃。由第一生成器为第一输入和第二输入确定的输出表征第一标签图,其中在所述方法的另一步骤中,第一标签图由全局汇集操作处理,其中汇集操作可以尤其沿着标签图的宽度和高度维度操作,即,它可以汇集包括在第一标签图中的分类。优选地,全局最大汇集操作被用作全局汇集操作。这样,标签图的表示表征了针对来自所述多个类的每个类的最大概率。然后,表示可以用在F1损失中。
当训练GAN时,例如,除了GAN损失之外,F1损失尤其可以用作附加损失,如果GAN未被训练来减轻模式崩溃,则F1损失将以其他方式用于训练GAN。这可以通过将F1损失与GAN损失相加来实现。还可能的是在将F1损失与GAN损失相加之前,将F1损失乘以预定因子,从而缩放F1损失。预定因子可以被理解为用于训练第一机器学习系统的超参数。
F1损失的优点在于,它使第一机器学习模型的训练正规化。第一生成器被激励为不丢弃罕见或不常见的模式,并且还被激励为将至少一些概率质量放入输入空间中未被训练数据集覆盖的区域(例如,训练数据集中不存在的指示符向量的区域)。这减轻了模式崩溃。
优选地,F1损失是宏F1损失,优选地是双面宏软F1损失(double-sided macrosoft F1 loss)。双面宏软F1损失可以由以下公式表征:
Figure 100002_DEST_PATH_IMAGE001
Figure 294598DEST_PATH_IMAGE002
其中N是指示符向量中的类的数量,
Figure 100002_DEST_PATH_IMAGE003
是从第一生成器确定的表示的第n个元素,并且y n 是第一输入的第n个元素。
优选地,第一机器学习系统进一步包括第二生成器,其中第二生成器被配置用于基于从第一生成器确定的标签图来确定图像。
第二生成器可以被理解为第一机器学习系统的第二GAN的一部分。发明人发现OASIS模型可以优选地用作第二GAN。
第二生成器的优点是第一机器学习系统可以基于第一输入和第二输入生成标签图和对应的图像二者。因此,非常容易通过如上所述对第一输入和第二输入进行采样来创建用于语义分割任务和/或实例分割任务的数据集,并且从它们中确定相应的标签图和图像。同样,可以生成用于分割任务和/或实例分割任务的测试数据集。由于第一生成器被训练来减轻模式崩溃,所以所生成的数据集有利地更多样化。
在另一方面,本发明因此涉及一种用于确定包括图像和标签图对的训练数据集和/或测试数据集的计算机实现的方法,其中确定至少一个图像和标签图对包括以下步骤:
• 从第一机器学习系统生成标签图,其中基于根据第一方面的训练方法提供第一机器学习系统;
• 基于标签图确定图像。
术语“基于训练方法提供第一机器学习系统”可以理解为在使用第一方面的训练方法进行训练之后获得的第一机器学习系统。换句话说,所提供的第一机器学习模型源自根据第一方面的训练方法。替代地,训练过程(例如根据第一方面的实施例的步骤)也可以是用于训练第二机器学习系统的方法的一部分。
该图像尤其可以由第二生成器确定。
在另一方面,本发明涉及一种用于训练第二机器学习系统的计算机实现的方法,其中第二机器学习系统被配置为确定表征标签图的输出信号,并且其中第二机器学习系统使用训练数据集来训练和/或其中第二机器学习系统使用测试数据集来测试,其中训练数据集和/或测试数据集已经根据用于确定训练数据集和/或测试数据集的方法来确定。
由于所生成的训练数据集和/或测试数据集更多样化,并且罕见模式没有被丢弃,所以第二机器学习系统的预测性能被训练数据集有利地增加。同样,由于测试数据集更好地对在第二机器学习系统的推理时间期间要被预期的图像和对应的标签图进行建模,所以可以以更高的精度来估计第二机器学习系统的泛化性能。这允许评测第二机器学习系统对于所意图的任务的可行性,尤其是关于第二机器学习系统的泛化能力。
在另一方面,本发明涉及一种用于确定致动器和/或显示器的控制信号的计算机实现的方法,其中基于从第二机器学习系统确定的输出信号来确定控制信号,其中第二机器学习系统已经用根据先前方面的方法进行了训练。
附图说明
将参考以下各图更详细地讨论本发明的实施例。各图示出了:
图1 用于训练第一机器学习系统的训练方法;
图2 用于训练第二机器学习系统的训练系统;
图3 控制系统,其包括控制其环境中的致动器的分类器;
图4 控制至少部分自主的机器人的控制系统;
图5 控制制造机器的控制系统;
图6 控制医学分析系统的控制系统。
具体实施方式
图1描绘了第一机器学习系统(70)的训练,其中第一机器学习系统(70)表征条件GAN。第一机器学习系统(70)包括第一生成器(71)和第一鉴别器(72)。从数据存储单元(G)向第一生成器(71)提供参数(W g )。数据存储单元(G)还向第一鉴别器(72)提供参数(W d )。第一生成器(71)和第一鉴别器(72)可以优选地是神经网络,分别优选地是根据具有条件损失的StyleGAN-2架构的生成器和鉴别器。
为了训练,向机器学习系统(70)提供训练标签图(x r )、表征要由第一生成器(71)生成的类的指示符向量的第一输入(y)和表征随机抽取的值的第二输入(n)。第一输入(y)和第二输入(n)二者可以分别以向量的形式给出。所述向量可以被连结以充当至第一生成器(71)的输入。基于该输入,第一生成器(71)确定表征标签图的输出(x f )。然后,输出(x f )、训练标签图(x r )和第一输入(y)可以作为输入提供给第一鉴别器(72)。基于该输入,鉴别器确定第一损失(
Figure 542564DEST_PATH_IMAGE004
),其中第一损失(/>
Figure 56722DEST_PATH_IMAGE004
)表征用于训练条件GAN的损失。
输出(x f )由汇集单元(73)进一步处理,该汇集单元(73)被配置为确定表征输出(x f )的全局汇集的表示(
Figure 100002_DEST_PATH_IMAGE005
)。汇集单元(73)可以优选地执行全局最大汇集,以便从输出(x f )中确定表示(/>
Figure 45407DEST_PATH_IMAGE005
)。该表示(/>
Figure 859779DEST_PATH_IMAGE005
)和第一输入(y)然后被转发到损失单元(281),该损失单元(281)被配置为基于该表示(/>
Figure 416662DEST_PATH_IMAGE005
)和第一输入(y)来确定F1损失。损失单元(281)优选地根据以下公式确定F1损失:
Figure 11591DEST_PATH_IMAGE006
然后可以将第一损失(
Figure 944912DEST_PATH_IMAGE004
)和F1损失(/>
Figure DEST_PATH_IMAGE007
)相加,以便确定总损失(/>
Figure 941687DEST_PATH_IMAGE008
)。总损失(
Figure 403893DEST_PATH_IMAGE008
)然后可以被提供给参数更新单元(282),该参数更新单元(282)被配置为确定用于第一生成器(71)和第一鉴别器(72)的新参数(/>
Figure DEST_PATH_IMAGE009
)。参数更新单元(282)可以优选地借助于自动微分来确定新参数(/>
Figure 751697DEST_PATH_IMAGE009
)。
图1中描绘的过程可以理解为用于训练第一机器学习系统(70)的梯度下降的单个步骤。优选地,运行梯度下降的多个步骤以用于训练第一机器学习系统(70)。对于每个步骤,可以从多个训练标签图中对训练标签图(x r )进行采样,其中多个训练标签图表征第一机器学习系统(70)的训练数据集。第一输入(y)和第二输入(n)也可以针对训练的每个步骤进行采样。第一输入(y)尤其可以从表征训练数据集的标签图的指示符向量的多个第一输入中采样。附加地,还可以基于指示符向量的每个元素的经验概率或者指示符向量的每个元素的经验概率的倒数来对第一输入(y)进行采样。
图2示出了用于借助于训练数据集(T)来训练控制系统(40)的第二机器学习系统(60)的训练系统(140)的实施例。训练数据集(T)包括表征图像并用于训练第二机器学习系统(60)的多个输入信号(x i ),其中对于每个输入信号(x i ),训练数据集(T)进一步包括对应于输入信号(x i )并表征输入信号(x i )的标签图的期望输出信号(t i )。期望输出信号(t i )中的至少一些在训练之后由第一生成器(71)确定。对应于由第一生成器(71)确定的期望输出信号(t i )的输入信号(x i )优选地由第二生成器(未示出)基于相应的期望输出信号(t i )来确定。
对于训练,训练数据单元(150)访问计算机实现的数据库(St2),该数据库(St2)提供训练数据集(T)。训练数据单元(150)优选地从训练数据集(T)中随机确定至少一个输入信号(x i )和对应于该输入信号(x i )的期望输出信号(t i ),并将该输入信号(x i )传输到第二机器学习系统(60)。第二机器学习系统(60)基于输入信号(x i )确定输出信号(y i )。
期望输出信号(t i )和确定的输出信号(y i )被传输到修改单元(180)。
基于期望输出信号(t i )和确定的输出信号(y i ),修改单元(180)然后确定用于第二机器学习系统(60)的新参数(
Figure 223130DEST_PATH_IMAGE010
)。出于该目的,修改单元(180)使用损失函数比较期望输出信号(t i )和确定的输出信号(y i )。损失函数确定第一损失值,该第一损失值表征所确定的输出信号(y i )偏离期望输出信号(t i )多远。在给定的实施例中,负对数似然函数被用作损失函数。在替代实施例中,也可设想到其他的损失函数。
修改单元(180)基于第一损失值确定新参数(
Figure 480936DEST_PATH_IMAGE010
)。在给定的实施例中,这是使用梯度下降方法、优选地是随机梯度下降、Adam或AdamW来完成的。在另外的实施例中,训练也可以基于用于训练神经网络的进化算法或二阶方法。
在其他优选的实施例中,所描述的训练被迭代地重复达预定义数量的迭代步骤,或者被迭代地重复直到第一损失值落入预定义的阈值以下。替代地或附加地,还可设想到,当关于测试或验证数据集的平均第一损失值落入预定义的阈值以下时,训练终止。在至少一次迭代中,在先前迭代中确定的新参数(
Figure 769835DEST_PATH_IMAGE010
)被用作第二机器学习系统(60)的参数(/>
Figure DEST_PATH_IMAGE011
)。
此外,训练系统(140)可以包括至少一个处理器(145)和至少一个包含指令的机器可读存储介质(146),所述指令当被处理器(145)执行时,使得训练系统(140)执行根据本发明的一个方面的训练方法。
图3示出了在其环境(20)中的致动器(10)的实施例。致动器(10)与控制系统(40)交互。致动器(10)以及其环境(20)将被统称为致动器系统。在优选均匀间隔的时间点,光学传感器(30)感测致动器系统的状况。光学传感器(30)可以包括若干个传感器。
由此,控制系统(40)接收传感器信号(S)流。然后,它取决于传感器信号(S)流计算一系列控制信号(A),然后将一系列控制信号(A)传输到致动器(10)。
控制系统(40)在可选的接收单元(50)中接收传感器(30)的传感器信号(S)流。接收单元(50)将传感器信号(S)变换成输入信号(x)。替代地,在没有接收单元(50)的情况下,每个传感器信号(S)可以直接取作输入信号(x)。输入信号(x)例如可以作为来自传感器信号(S)的摘录给出。替代地,可以处理传感器信号(S)以产生输入信号(x)。换句话说,根据传感器信号(S)提供输入信号(x)。
输入信号(x)然后被传递到第二机器学习系统(60)。
第二机器学习系统(60)由参数(
Figure 480302DEST_PATH_IMAGE011
)参数化,所述参数(/>
Figure 489846DEST_PATH_IMAGE011
)存储在参数存储装置(St 1)中并由参数存储装置(St 1)提供。
第二机器学习系统(60)从输入信号(x)中确定输出信号(y l )。输出信号(y l )包括将一个或多个标签分配给输入信号(x)的信息。输出信号(y l )被传输到可选的转换单元(80),该可选的转换单元(80)将输出信号(y l )转换成控制信号(A)。控制信号(A)然后被传输到致动器(10)以相应地控制致动器(10)。替代地,输出信号(y l )可以直接取作控制信号(A)。
致动器(10)接收控制信号(A),被相应地控制,并实行对应于控制信号(A)的动作。致动器(10)可以包括控制逻辑,该控制逻辑将控制信号(A)变换成另外的控制信号,该另外的控制信号然后用于控制致动器(10)。
在另外的实施例中,控制系统(40)可以包括传感器(30)。在甚至另外的实施例中,控制系统(40)替代地或附加地可以包括致动器(10)。
在仍另外的实施例中,可以想到控制系统(40)控制显示器(10a)而不是致动器(10),或除了致动器(10)之外还控制显示器(10a)。
此外,控制系统(40)可以包括至少一个处理器(45)和其上存储指令的至少一个机器可读存储介质(46),所述指令如果被实行,则使得控制系统(40)实行根据本发明的方面的方法。
图4示出了实施例,其中控制系统(40)用于控制至少部分自主的机器人,例如至少部分自主的交通工具(100)。
传感器(30)可以包括一个或多个视频传感器和/或一个或多个雷达传感器和/或一个或多个超声传感器和/或一个或多个LiDAR传感器。这些传感器中的一些或全部优选地但不是必须地集成在交通工具(100)中。
因此,输入图像(x)可以显示交通工具(100)的周围环境,并且输出信号(y l )可以表征周围环境的语义分割和/或实例分割。语义分割和/或实例分割可以尤其表征其他道路使用者、诸如建筑物或标志的静止元素以及道路或可行驶地面的分类。然后,转换单元(80)可以例如确定路线,使得交通工具在被输出信号(y l )分类为可行驶的地面上行进,同时不与交通工具(100)的环境(20)中的其他元素碰撞。然后可以根据该信息确定控制信号(A)。
优选地集成在交通工具(100)中的致动器(10)可以由交通工具(100)的制动器、推进系统、发动机、传动系或转向装置给出。
替代地或附加地,控制信号(A)也可以用于控制显示器(10a),例如用于显示由第二机器学习系统(60)检测到的对象。还可以想象的是,控制信号(A)可以控制显示器(10a),使得如果交通工具(100)偏离了通过如转换单元(80)确定的环境的安全路线,则显示器(10a)产生警告信号。警告信号可以是警告声音和/或触觉信号,例如交通工具方向盘的振动。
在另外的实施例中,至少部分自主的机器人可以由另一个移动机器人(未示出)给出,该另一个移动机器人(未示出)可以例如通过飞行、游泳、潜水或步进来移动。移动机器人尤其可以是至少部分自主的割草机,或者至少部分自主的清洁机器人。在所有上述实施例中,可以确定控制信号(A),使得移动机器人的推进单元和/或转向装置和/或制动器被控制,使得移动机器人可以避免与所述标识的对象碰撞。
在另外的实施例中,至少部分自主的机器人可以由园艺机器人(未示出)给出,其使用传感器(30)(优选地是光学传感器)来确定环境(20)中植物的状态。致动器(10)可以控制用于喷洒液体的喷嘴和/或例如刀片的切割设备。取决于植物的被标识的种类和/或被标识的状态,可以确定控制信号(A)以使得致动器(10)用合适量的合适液体喷洒植物和/或切割植物。
在甚至另外的实施例中,至少部分自主的机器人可以由家用电器(未示出)给出,该家用电器(未示出)例如像洗衣机、炉子、烤箱、微波炉或洗碗机。例如光学传感器的传感器(30)可以检测将经历由家用电器进行处理的对象的状态。例如,在家用电器是洗衣机的情况下,传感器(30)可以检测洗衣机内部衣物的状态。然后,控制信号(A)可以取决于检测到的衣物材料来确定。
图5示出了实施例,其中控制系统(40)用于控制例如作为生产线一部分的制造系统(200)的制造机器(11),例如冲压机、切割机、枪钻或夹具。制造机器(11)可以包括移动制造产品(12)的运输设备,例如传送带或装配线。控制系统(40)控制致动器(10),该致动器(10)进而控制制造机器(11)。
传感器(30)可以由捕获例如制造产品(12)的属性的光学传感器给出。
第二机器学习系统(60)可以对传送带上的制造产品(12)执行实例分割。转换单元(80)然后可以基于实例分割来推断制造产品(12)的确切位置。然后,可以取决于制造产品(12)的所确定位置来控制致动器(10),用于制造产品(12)的后续制造步骤。例如,可以控制致动器(10)在制造产品(12)本身的特定位置处切割制造产品。
图6示出了由控制系统(40)控制的医学成像系统(500)的实施例。成像系统例如可以是MRI装置、x射线成像装置或超声成像装置。传感器(30)例如可以是成像传感器,其取得患者的至少一个图像,例如显示患者的不同类型的身体组织。
第二机器学习系统(60)然后可以确定感测图像的至少一部分的语义分割。因此,图像的至少一部分被用作至第二机器学习系统(60)的输入图像(x)。
然后可以根据分类选择控制信号(A),从而控制显示器(10a)。例如,第二机器学习系统(60)可以被配置为检测感测图像中的不同类型的组织,例如,通过将图像中显示的组织分类成恶性或良性组织。这可以借助于第二机器学习系统(60)对输入图像(x)进行语义分割来完成。然后可以确定控制信号(A)以使得显示器(10a)显示不同的组织,其例如通过显示输入图像(x)并以相同的颜色对等同组织类型的不同区域着色。
在另外的实施例(未示出)中,成像系统(500)可以用于非医学目的,例如,确定工件的材料属性。在这些实施例中,第二机器学习系统(60)可以被配置为接收工件的至少一部分的输入图像(x),并且执行输入图像(x)的语义分割,从而对工件的材料属性进行分类。然后可以确定控制信号(A)以使得显示器(10a)显示输入图像(x)以及关于检测到的材料属性的信息。
术语“计算机”可以理解为涵盖用于处理预定义计算规则的任何设备。这些计算规则可以是以软件、硬件或者软件和硬件混合的形式。
一般而言,多个可以被理解为被索引,即多个中的每个元素被分配唯一的索引,优选地通过将连续的整数分配给多个中包含的元素。优选地,如果多个包括N个元素,其中N是多个中元素的数量,则元素被分配从1到N的整数。还可以理解,多个中的元素可以通过它们的索引来访问。

Claims (13)

1.一种用于训练第一机器学习系统(70)的计算机实现的方法,其中第一机器学习系统(70)被配置为生成表征图像的标签图的输出(x f ),其中所述方法包括以下步骤:
• 提供第一输入(y)和第二输入(n),其中第一输入(y)表征二进制向量,所述二进制向量表征来自多个类的类的相应存在或不存在,并且其中第二输入(n)表征随机抽取的值;
• 由第一机器学习系统(70)的第一生成器(71)基于第一输入(y)和第二输入(n)确定输出(x f ),其中输出(x f )表征第一标签图,其中第一标签图表征针对来自所述多个类的类的概率;
• 借助于全局汇集操作(73)确定第一标签图的表示(
Figure DEST_PATH_IMAGE001
);
• 基于损失函数(
Figure 939129DEST_PATH_IMAGE002
)训练第一机器学习系统(70),其中损失函数(/>
Figure 718254DEST_PATH_IMAGE002
)表征F1损失(/>
Figure DEST_PATH_IMAGE003
),其中F1损失(/>
Figure 966832DEST_PATH_IMAGE003
)表征第一输入(y)和第一标签图的表示(/>
Figure 96462DEST_PATH_IMAGE001
)之间的差异。
2.根据权利要求1所述的方法,其中,F1损失(
Figure 769889DEST_PATH_IMAGE003
)是宏F1损失,优选地是双面宏软F1损失。
3.根据权利要求1或2所述的方法,其中,基于第一机器学习系统(70)的训练数据集的标签图,确定第一输入(y)中的来自所述多个类的类的存在或不存在。
4.根据权利要求3所述的方法,其中,基于多个第一输入来训练第一机器学习系统(70),其中针对来自所述多个第一输入的每个第一输入(y)实行所述步骤,并且其中所述多个第一输入包括表征类的存在和不存在的组合的第一输入,其在训练数据集的标签图中没有观察到或者在训练数据集中罕见观察到。
5.根据权利要求1至4中任一项所述的方法,其中,第一生成器(71)是包括在第一机器学习系统(70)中的条件GAN的一部分,其中第一生成器(71)基于条件GAN损失(
Figure 592352DEST_PATH_IMAGE004
)和F1损失(/>
Figure DEST_PATH_IMAGE005
)来训练。
6.根据前述权利要求中任一项所述的方法,其中,第一机器学习系统(70)进一步包括第二生成器,其中,第二生成器被配置用于基于从第一生成器(71)确定的输出(x f )来确定图像。
7.一种用于确定包括图像(x i )和标签图(t i )对的训练数据集(T)和/或测试数据集的计算机实现的方法,其中确定至少一个图像(x i )和标签图(t i )对包括以下步骤:
• 从第一机器学习系统(70)生成输出(x f ),其中第一机器学习系统已经基于根据权利要求1至6中任一项的训练方法提供,并且提供所述输出(x f )作为标签图(t i );
• 基于标签图(t i )确定图像(x f )。
8.一种用于训练第二机器学习系统(60)的计算机实现的方法,其中第二机器学习系统(60)被配置为确定表征标签图的输出信号(y l ),并且其中第二机器学习系统(60)使用训练数据集(T)来训练,和/或其中第二机器学习系统(60)使用测试数据集来测试,其中训练数据集(T)和/或测试数据集已经根据权利要求7的方法确定。
9.一种用于确定致动器(10)和/或显示器(10a)的控制信号(A)的计算机实现的方法,其中控制信号(A)基于从第二机器学习系统(60)确定的输出信号(y l )来确定,其中第二机器学习系统(60)已经用根据权利要求8的方法训练。
10.一种根据权利要求1至6中任一项的第一机器学习系统(70)。
11.一种训练系统(140),其被配置为实行根据权利要求1至6或8中任一项的训练方法。
12.一种计算机程序,其被配置为如果所述计算机程序由处理器(45,145)实行,则使得计算机实行根据权利要求1至9中任一项的方法以及其所有步骤。
13.一种机器可读存储介质(46,146),其上存储根据权利要求12的计算机程序。
CN202211156509.6A 2021-09-23 2022-09-22 用于为机器学习系统生成训练数据的设备和方法 Pending CN115860108A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP21198499.2 2021-09-23
EP21198499.2A EP4156025A1 (en) 2021-09-23 2021-09-23 Device and method for generating training data for a machine learning system

Publications (1)

Publication Number Publication Date
CN115860108A true CN115860108A (zh) 2023-03-28

Family

ID=77910685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211156509.6A Pending CN115860108A (zh) 2021-09-23 2022-09-22 用于为机器学习系统生成训练数据的设备和方法

Country Status (3)

Country Link
US (1) US20230091396A1 (zh)
EP (1) EP4156025A1 (zh)
CN (1) CN115860108A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11922678B2 (en) * 2022-04-27 2024-03-05 Descartes Labs, Inc. Carbon estimation

Also Published As

Publication number Publication date
US20230091396A1 (en) 2023-03-23
EP4156025A1 (en) 2023-03-29

Similar Documents

Publication Publication Date Title
CN111742310B (zh) 创建包含语义信息的干净的地图
CN112241757A (zh) 用于操作神经网络的设备和方法
CN114386614A (zh) 用于训练机器学习系统的方法和装置
CN115860108A (zh) 用于为机器学习系统生成训练数据的设备和方法
US20220198781A1 (en) Device and method for training a classifier
CN114359614A (zh) 具有针对补丁攻击进行防御的鲁棒分类器的系统和方法
KR20210127639A (ko) 분류기를 훈련하기 위한 디바이스 및 방법
US20230031755A1 (en) Generative adversarial network for processing and generating images and label maps
US20210287093A1 (en) Device and method for training a neuronal network
CN114386449A (zh) 用于借助于机器学习系统来确定输出信号的方法
EP3866071A1 (en) Device and method for classifying images using an attention layer
EP4156097A1 (en) Device and method for determining a semantic segmentation and/or an instance segmentation of an image
EP4357977A1 (en) Device and method for determining an encoder configured image analysis
EP4145402A1 (en) Device and method for training a neural network for image analysis
US20220101128A1 (en) Device and method for training a classifier using an invertible factorization model
EP4053749A1 (en) Method for determining an output signal by means of a neural network
US20230229939A1 (en) Method and device for ascertaining a fusion of predictions relating to sensor signals
EP4145350A1 (en) Neural network for analyzing graphs
EP4451216A1 (en) Device and method for determining an albedo and a shading of an object
CN115249041A (zh) 用于确定分类和/或回归结果的方法和装置
CN118822939A (zh) 用于确定物体的反照率和明暗度的设备和方法
Shafiullah et al. Smart driving: a new approach to meeting driver needs
Shawkat et al. Smart driving: a new approach to meeting driver needs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination