CN112784866A - 生成用于机器学习系统的训练数据 - Google Patents

生成用于机器学习系统的训练数据 Download PDF

Info

Publication number
CN112784866A
CN112784866A CN202011077871.5A CN202011077871A CN112784866A CN 112784866 A CN112784866 A CN 112784866A CN 202011077871 A CN202011077871 A CN 202011077871A CN 112784866 A CN112784866 A CN 112784866A
Authority
CN
China
Prior art keywords
training data
scenes
scene
computing device
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011077871.5A
Other languages
English (en)
Inventor
P·D·迪斯
H·A·霍金斯
T·S·洛佩尔
G·A·罗萨里奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Boeing Co
Original Assignee
Boeing Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Boeing Co filed Critical Boeing Co
Publication of CN112784866A publication Critical patent/CN112784866A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

提供了一种计算装置、方法和计算机程序产品以生成用于机器学习系统的训练数据,所述训练数据包括代表一个或更多个边缘场景的训练数据。在计算装置的背景中,该计算装置包括模拟器,其根据采样算法来配置以在至少部分地由一个或更多个参数属性定义的情景内创建包括一个或更多个边缘场景的多个不同场景。该计算装置还包括物理引擎,其生成代表包括所述一个或更多个边缘场景的所述多个不同场景的训练数据。物理引擎被配置为修改所述一个或更多个参数属性以基于模拟器在至少部分地由修改的一个或更多个参数属性定义的另一情景内创建的另外多个不同场景来生成附加且不同的训练数据。

Description

生成用于机器学习系统的训练数据
技术领域
本公开总体上涉及被配置为生成用于机器学习系统的训练数据的计算装置、方法和计算机程序产品,更具体地,涉及一种生成用于机器学习系统的训练数据的计算装置、方法和计算机程序产品,该训练数据代表包括一个或更多个边缘场景的情景内的多个不同场景。
背景技术
在许多应用中利用了机器学习,预期未来会有更多应用依赖于机器学习。例如,利用机器学习算法的应用包括被配置为预测顾客购买的应用、被配置为识别场景中的对象的应用以及被配置为抵御网络攻击的应用等等。必须训练机器学习系统以便以可接受的方式执行。由于训练机器学习算法可接受地执行所需的最小数据量不明,所以许多机器学习算法在大量数据上训练以便增加机器学习系统将可接受地执行的可能性。因此,需要代表机器学习系统将遇到的各种情景的大量数据以便训练机器学习系统。
对于各种应用,存在许多资源可提供可用于训练机器学习系统的数据集。例如,对于对象分类应用、必须识别人的各种姿态的应用以及与复杂城市环境交互的应用,存在资源可提供训练机器学习系统的数据集。另外,存在包含传感器数据的数据集以方便开发自动驾驶车辆。然而,这些数据集中的每一个均是静态的。因此,只要数据集中包括机器学习系统将要训练的每一个情景,数据集就可用于训练目的,但是将无法在数据集内不包括的任何情景上训练机器学习系统。因此,包含或者说依赖于以静态数据集训练的机器学习系统的应用可能无法识别训练数据集中不包括的任何这种情景或对其做出适当反应。
可用于某些应用的训练数据可基于真实世界数据。然而,已开发了诸如模拟器的工具来生成用于训练机器学习系统的人工数据集。例如,Car Learning to Act(CARLA)开源模拟器被配置为创建用于自动驾驶研究的人工数据集,来自美国华盛顿州雷德蒙德市微软公司的AirSim开源模拟器被配置为创建用于包括无人机和汽车的自动载具的人工数据集,新加坡CVEDIA PVE有限公司所提供的SynCity工具被配置为创建用于其它机器学习任务的人工数据集。由这些和其它工具创建的人工数据集通常依赖于模拟的输入,至少在一些情况下该输入可能不像真实世界数据那么详细。对于支持某些应用的机器学习系统(例如,支持计算机视觉应用的机器学习系统),这种细节上的减少可能是不利的,这些机器学习系统依赖于精细级别的细节的分析和/或识别并且可根据其做出决策。
结果,利用人工数据(例如,通过诸如开源模拟器的工具生成的人工数据)训练的机器学习系统的性能可能不如基于真实世界数据训练的对应机器学习系统。因此,依赖于真实世界数据来训练机器学习系统可能是有利的,但是这种真实世界数据可能并非对包括或者说依赖于机器学习系统的应用可遇到的所有情景(例如,很少发生的情景,例如可能危险、非法或者说发生的概率低的情景)均可用。
发明内容
根据示例提供了一种计算装置、方法和计算机程序产品以便生成用于机器学习系统的训练数据。该计算装置、方法和计算机程序产品被配置为生成代表情景内包括一个或更多个边缘场景的多个不同场景的训练数据,即,可不由真实世界数据表示的那些场景,因为那些场景可表示危险或非法或者说发生的概率低的行为,但是对其可取的是训练机器学习系统,使得假如遇到边缘场景,机器学习系统或依赖于机器学习系统的应用可以更适当或至少更可预测的方式响应。结果,示例的计算装置、方法和计算机程序产品可不仅生成代表情景内包括一个或更多个边缘场景的多个不同场景的人工训练数据,而且生成基于真实世界数据的代表情景的训练数据,使得可以更鲁棒的方式训练机器学习系统,以便增加机器学习系统以及继而包含或者说依赖于机器学习系统的应用将以可接受的方式执行的可能性。
在示例中,提供了一种被配置为生成用于机器学习系统的训练数据的计算装置。该计算装置包括模拟器,其根据采样算法来配置以在至少部分地由一个或更多个参数属性定义的情景内创建多个不同场景。由模拟器创建的所述多个场景包括一个或更多个边缘场景。该计算装置还包括物理引擎,响应于模拟器,该物理引擎被配置为生成代表情景内包括所述一个或更多个边缘场景的所述多个不同场景的训练数据。物理引擎被配置为修改所述一个或更多个参数属性以便基于模拟器在至少部分地由修改的一个或更多个参数属性定义的另一情景内创建的另外多个不同场景来生成附加且不同的训练数据。
物理引擎可被配置为基于真实世界数据来生成代表情景的训练数据。此示例的模拟器可被配置为创建不由真实世界数据表示的边缘场景。在示例中,物理引擎被配置为基于真实感模型来生成代表情景的训练数据。在示例中,所述一个或更多个参数属性至少部分地定义情景或情景的环境内的性能或行为。在另一示例中,所述一个或更多个参数属性定义一个或更多个传感器的一个或更多个性质。
在另一示例中,提供了一种被配置为生成用于机器学习系统的训练数据的方法。该方法包括:根据采样算法来执行模拟以在至少部分地由一个或更多个参数属性定义的情景内创建多个不同场景。在执行模拟时,该方法包括创建一个或更多个边缘场景。响应于模拟,该方法还包括生成代表情景内包括所述一个或更多个边缘场景的所述多个不同场景的训练数据。该方法还包括修改所述一个或更多个参数属性以便基于在至少部分地由修改的一个或更多个参数属性定义的另一情景内通过模拟创建的另外多个不同场景来生成附加且不同的训练数据。
该方法可通过基于真实世界数据生成代表情景的训练数据来生成训练数据。在此示例实施方式中,模拟包括创建不由真实世界数据表示的所述一个或更多个边缘场景。示例的方法通过基于真实感模型生成代表情景的训练数据来生成训练数据。在示例中,所述一个或更多个参数属性至少部分地定义情景或情景的环境内的性能或行为。在另一示例中,所述一个或更多个参数属性定义一个或更多个传感器的一个或更多个性质。示例的方法还包括利用代表情景内包括所述一个或更多个边缘场景的所述多个不同场景的训练数据来训练机器学习系统。
在另一示例中,提供了一种被配置为生成用于机器学习系统的训练数据的计算机程序产品。该计算机程序产品包括存储有程序代码的非暂时性计算机可读介质,该程序代码包括程序代码指令,所述指令在执行时被配置为根据采样算法来执行模拟以在至少部分地由一个或更多个参数属性定义的情景内创建多个不同场景。执行模拟以创建一个或更多个边缘场景。程序代码还包括程序代码指令,以响应于模拟,生成代表情景内包括所述一个或更多个边缘场景的所述多个不同场景的训练数据。程序代码另外包括程序代码指令以修改所述一个或更多个参数属性以便基于在至少部分地由修改的一个或更多个参数属性定义的另一情景内通过模拟创建的另外多个不同场景来生成附加且不同的训练数据。
被配置为生成训练数据的程序代码指令可包括被配置为基于真实世界数据来生成代表情景的训练数据的程序代码指令。在此示例中,被配置为执行模拟的程序代码指令可包括被配置为创建不由真实世界数据表示的边缘场景的程序代码指令。根据示例被配置为生成训练数据的程序代码指令包括被配置为基于真实感模型来生成代表情景的训练数据的程序代码指令。在示例中,所述一个或更多个参数属性至少部分地定义情景或情景的环境内的性能或行为。在另一示例中,所述一个或更多个参数属性定义一个或更多个传感器的一个或更多个性质。示例的程序代码还包括被配置为利用代表情景内包括所述一个或更多个边缘场景的所述多个不同场景的训练数据来训练机器学习系统的程序代码指令。
附图说明
上面概括地描述了本公开的某些示例,现在将参照附图,附图未必按比例绘制,并且其中:
图1是示出根据本公开的示例的计算装置的框图;
图2是根据本公开的示例的可被配置以便实现图1的计算装置的模拟器和/或物理引擎的计算机的框图;
图3是示出根据本公开的示例的例如由图1的计算装置执行的操作的流程图。
具体实施方式
现在将在下面参照附图更充分地描述本公开的一些示例,附图中示出了本公开的一些而非所有示例。实际上,本公开可按照许多不同的形式具体实现,不应被解释为限于本文所阐述的示例;相反,提供这些示例以使得本公开将满足适用的法律要求。相似的标号始终表示相似的元件。如本文所使用的,术语“数据”、“内容”、“信息”和类似术语可互换使用以表示能够根据本公开的示例发送、接收和/或存储的数据。因此,不应使用任何这些术语来限制本公开的精神和范围。
根据示例提供一种计算装置、方法和计算机程序产品以便生成用于机器学习系统的训练数据。各种各样的应用中的任一种可利用机器学习系统。例如,可包括或者说依赖于机器学习系统的应用可包括与自动驾驶车辆的控制有关的应用、与计算机网络抵御网络攻击有关的应用、被配置为对硬件或软件故障做出响应的应用、被设计为预测包括龙卷风和飓风的各种天气系统的影响的应用以及与飞行器的类似控制关联的应用等等。为了提供机器学习系统的更鲁棒的训练,并且因此提供依赖于机器学习系统的应用的改进或者至少更可预测的性能,示例的计算装置、方法和计算机程序产品被配置为提供训练数据,其代表多个视图和交互以对现有数据集进行镜像,并且添加一个或更多个边缘场景,即,不由真实世界数据表示的场景。在许多情况下,边缘场景不由真实世界数据表示,因为边缘场景发生的概率低(例如,在边缘场景所表示的活动是非法或危险的情况下)。
在示例中,代表边缘场景的训练数据基于真实感模型,以便增加如果边缘场景在真实世界中曾发生过,训练数据将准确地表示边缘场景的可能性。此外,计算装置、方法和计算机程序产品不仅可仅基于模拟的环境的模型(包括边缘场景)来模拟各种场景,以便生成训练数据,而且还可基于真实世界数据来生成训练数据,从而进一步创建大或满溢的训练数据集,以便允许机器学习系统以人工数据和真实世界数据二者更完整地训练。
现在参照图1,描绘了根据示例的计算装置10,其被配置为生成用于训练机器学习系统的训练数据20。计算装置10包括模拟器12以及与模拟器通信并对模拟器做出响应的物理引擎14。模拟器12由诸如下面所描述的计算机具体实现,其根据采样算法配置以生成样本集,该样本集可被提供给计算算法以生成结果。
例如,情景可由多个参数属性16定义,各个参数属性可在连续或离散的值范围内变化。模拟器12根据采样算法配置以按算法方式(例如,以准可重复和结构化方式)从各个参数属性的范围生成样本集。由模拟器12实现的统计算法的示例包括确定性和/或随机算法。例如,由模拟器12实现的统计算法可包括实验设计采样算法,例如确定性的Box-Behnken和面心立方算法以及随机的Monte Carlo和Latin-Hypercube算法。多个参数属性的各个样本集定义情景的相应场景,并且由模拟器12的采样算法提供给计算算法生成对应结果。可针对情景的多个场景重复此过程,各个场景由参数属性16的样本集定义,所述样本集然后被提供给计算算法以生成对应输出。
在示例中,模拟器12根据Monte Carlo采样算法来配置以便获得重复的随机样本(即,样本集),其可被提供给计算算法以生成结果。在此示例中,情景可由多个参数属性16定义,各个参数属性可根据相应概率分布在值范围内变化。模拟器12根据Monte Carlo采样算法来配置以根据相应参数属性的概率分布随机采样情景的各个参数属性16的值。情景的多个参数属性16的样本集定义情景的相应场景并由模拟器12提供给计算算法以便生成对应结果。可针对情景的多个场景重复该过程,各个场景由参数属性16的随机样本集定义,所述随机样本集然后被提供给计算算法以生成对应输出。
定义情景的参数属性16根据训练数据20的类型,继而根据机器学习系统将支持的应用而变化。在这方面,参数属性16至少部分地定义情景或情景的环境内的性能或行为。一个示例的参数属性16定义收集与情景有关的数据的一个或更多个传感器(例如,相机、速度传感器、航向传感器等)的一个或更多个性质。作为示例并且结合与自动驾驶车辆的控制关联的应用,参数属性16可包括车辆的速度、车辆的航向、车辆的位置、其它附近车辆的位置、速度和航向、一个或更多个附近行人的位置和行进方向、车辆正沿其行驶的道路的特性(包括道路曲率)等。
由模拟器12针对情景的参数属性16创建的多个场景包括一个或更多个边缘场景。在示例中,由模拟器12创建的边缘场景是不由真实世界数据18表示的场景。例如,边缘场景可以是情景内可行的场景,即,可能发生的场景,但是由于与边缘场景关联的危险、边缘场景的非法性或者边缘场景在真实世界中发生的概率极低而不由情景的真实世界数据18反映。边缘场景的示例取决于所生成的训练数据20的类型,训练数据20继而取决于要采用机器学习系统的应用。结合被配置为对自动驾驶车辆提供控制的应用,例如,边缘场景可以是行人踏出到迎面而来的自动驾驶车辆前面的场景或者另一车辆闯红灯并进入与自动驾驶车辆相同的十字路口的场景,因为真实世界数据18很可能不包括代表这些危险情况的数据。关于至少部分地控制飞行器的飞行并由机器学习系统支持的应用,边缘场景可涉及响应于突变硬件或软件故障而控制飞行器。作为另一示例,对于辅助船舶或其它海上载具的引导并由机器学习系统支持的应用,边缘场景可涉及响应于检测到到来的鱼雷或存在敌方潜艇而引导船舶或其它海上载具。此外,结合预测天气系统的行为的应用,边缘场景可表示存在龙卷风或飓风。
物理引擎14也由诸如下面所描述的计算机(在一个示例中,与具体实现模拟器12的计算机相同的计算机)具体实现。物理引擎14被配置为模拟一个或更多个物理系统以便确定一个或更多个物理系统对特定输入的响应。物理引擎14可在各种应用中采用,包括例如结合图形表示的生成(例如,结合计算机图形使用)。尽管可采用各种物理引擎14,但可使用的物理引擎的一个示例是美国北卡罗来纳州卡里的Epic Games开发的虚幻引擎。
通过模拟一个或更多个物理系统对模拟器12所生成的多个场景的响应,物理引擎14被配置为生成代表该情景内的多个不同场景(包括一个或更多个边缘场景)的训练数据20。在这方面,物理引擎14从模拟器12接收定义相应场景的一个或更多个参数属性16的值,然后生成代表相应场景的训练数据20。示例的物理引擎14被配置为从模拟器12所生成的各个样本所定义的环境内生成多个视图以允许生成附加且不同的训练数据20。在这方面,在通过从模拟器12所生成的一个样本转变为另一样本而造成的对一个或更多个参数属性16的修改之后,物理引擎14被配置为在由相应样本定义的环境内创建另外多个不同场景。例如,物理引擎14可被配置为修改由一个或更多个参数属性定义的环境的某些条件以便创建不同场景,例如通过改变是否模拟雨、或者环境照明要模仿白天还是黑夜。在这方面,物理引擎14可被认为初始接收关于是否要模拟雨和/或环境照明的类型的选择,但是此后,物理引擎可改变由这些选择定义的参数属性,以便除了基于初始选择创建的那些场景之外还创建不同的场景。因此,物理引擎14与模拟器12组合可基于定义相应情景的参数属性的修改来创建代表不同情景和不同情景内的不同场景的训练数据20的更鲁棒的集。
物理引擎14被配置为不仅基于模拟器12所创建的场景,而且基于情景或情景的环境的真实感模型来生成代表情景的训练数据20。通过与定义模拟器12所创建的场景的一个或更多个参数属性16的值组合使用真实感模型来确保纹理和物理尺寸的准确性,即使训练数据是模拟的,所得训练数据20也可准确且可靠。除了基于由模拟器12执行的情景模拟来生成训练数据20之外,示例的物理引擎14还被配置为基于真实世界数据18来生成代表情景的训练数据。因此,在与自动驾驶车辆的控制有关的示例应用中,物理引擎14被配置为基于真实世界数据18(例如,沿着道路行驶的车辆的图像)以及基于模拟器12所创建的情景内的场景(例如,未由真实世界数据表示的边缘场景,例如行人踏入迎面而来的车辆前方的场景)的训练数据来生成代表车辆正沿着道路行驶的情景的训练数据20。通过基于真实世界数据18和模拟器12所创建的模拟的场景(包括边缘场景)二者来生成代表相同情景的训练数据20,物理引擎14被配置为生成更鲁棒的训练数据集,从而导致机器学习系统的更满溢训练并且在执行利用机器学习系统的应用之后得到更完整和准确的结果。
现在参照图2,描绘了可被专门配置以便用作模拟器12、物理引擎14或者模拟器和物理引擎二者的计算机30。计算机30可以是包括服务器、计算机工作站、游戏系统、多个联网的计算机等的各种各样不同类型的计算机中的任一种。不管计算机30具体实现的方式如何,此示例的计算机包括处理电路32和关联的存储器装置34。
处理电路32可按许多不同的方式具体实现,并且可例如包括被配置为独立地执行的一个或更多个处理装置。另外地或另选地,处理电路32可包括经由总线串联配置以允许独立执行软件指令、流水线和/或多线程的一个或更多个处理器。术语“处理器”或“处理电路”的使用可被理解为包括单核处理器、多核处理器、多个处理器、远程或“云”处理器或其任何组合。
在示例中,处理电路32可包括一个或更多个专用处理器、控制器、专门配置的现场可编程门阵列(FPGA)或专用集成电路(ASIC)以执行其对应功能。另外地或另选地,处理电路32可使用存储在存储器(例如,存储器34)中的处理器执行软件来实现。因此,以这种方式,处理电路32可使用完全经由硬件设计实现的专用组件来实现,或者可利用执行被设计为方便处理电路的功能的执行的计算机软件的硬件组件。
处理电路32还可包括存储器34或与之关联,并且此示例的处理电路可被配置为执行存储在存储器中或者说处理电路可访问的软件指令。在此示例中,存储器34是非暂时性的,并且可包括例如一个或更多个易失性和/或非易失性存储器。换言之,例如,存储器34可以是电子存储装置(例如,计算机可读存储介质)。存储器34可被配置为存储信息、数据、内容、应用、软件指令等,以用于使得处理电路32能够根据本文中可以想到的示例执行各种功能。另选地或另外地,处理电路32可被配置为执行硬编码功能。因此,无论通过硬件还是软件方法、或者通过硬件与软件的组合配置,处理电路32可表示能够在相应配置的同时根据本公开的示例执行操作的实体(例如,在电路中物理地具体实现)。另选地,作为另一示例,当处理电路32被具体实现为软件指令的执行器时,当软件指令被执行时软件指令可具体地配置电路以执行本文所描述的算法和/或操作。
现在参照图3,描绘了根据示例的例如由图1的计算装置10执行的操作。如方框40所示,计算装置10(例如,模拟器12)被配置为执行模拟以创建情景内的多个不同场景。情景至少部分地由一个或更多个参数属性16定义,各个参数属性具有选自对应范围的值。因此,创建多个不同场景包括为一个或更多个参数属性16确定值的不同集(例如,针对各个参数属性从对应范围提取不同值的结果)。在执行模拟时,计算装置10(例如,模拟器12)被配置为创建一个或更多个边缘场景,即,不由真实世界数据18表示的一个或更多个场景。
响应于模拟器12,计算装置10(例如,物理引擎14)被配置为生成代表该情景内的多个不同场景(包括一个或更多个边缘场景)的训练数据20。参见图3的方框42。例如,计算装置10(例如,物理引擎14)可被配置为基于真实感模型来生成代表模拟器12所模拟的场景的训练数据20,使得所得训练数据准确地反映模拟的场景。在示例中,计算装置10(例如,物理引擎14)不仅生成代表模拟器12所创建的多个不同场景的训练数据20,而且基于真实世界数据18来生成代表情景的训练数据。在一些示例中,由物理引擎14生成的训练数据20(更具体地,由训练数据表示的对象,例如,经历过训练数据的主题的一个或更多个个体)可被标记,以方便后续利用标记的训练数据来训练机器学习系统。
如图3的方框44所示,计算装置10(例如,物理引擎14)还被配置为修改一个或更多个参数属性16以便基于模拟器12在至少部分地由现在修改的一个或更多个参数属性定义的另一情景内创建的另外多个场景来生成附加且不同的训练数据20。因此,可生成训练数据20的更鲁棒且完整的集。
如方框46所示,然后可例如由计算装置10或另一训练计算机训练机器学习系统。在训练机器学习系统时,利用已生成的代表包括一个或更多个边缘场景的情景内的多个不同场景的训练数据20。因此,利用训练数据20的更鲁棒集来训练机器学习系统,使得机器学习系统的响应更准确且可预测。结果,依赖于机器学习系统的应用继而可对真实世界数据18所表示的情况以及先前未由真实世界数据表示而是模拟产物的情况二者提供更完整的响应。
图3示出描述根据本公开的示例的设备、方法和计算机程序产品的操作的流程图。将理解,流程图的各个方框以及流程图中的方框的组合可由各种手段实现,具体实现为硬件、固件、电路和/或与执行包括一个或更多个软件指令的软件关联的其它装置。例如,上述一个或更多个操作可由软件指令具体实现。在这方面,具体实现上述过程的软件指令可由采用本公开的示例的计算装置10的存储器34存储并由计算装置的处理电路32执行。将理解,任何这些软件指令可被加载到计算机或其它可编程设备(例如,硬件)上以生成机器,使得所得计算机或其它可编程设备实现流程图方框中指定的功能。这些软件指令也可被存储在计算机可读存储器中,其可引导计算机或其它可编程设备以特定方式起作用,使得存储在计算机可读存储器中的软件指令生成制品,其执行实现流程图方框中指定的功能。软件指令也可被加载到计算机或其它可编程设备上以使得在计算机或其它可编程设备上执行一系列操作以生成计算机实现的过程,使得在计算机或其它可编程设备上执行的软件指令提供用于实现流程图方框中指定的功能的操作。
此外,本公开包括以下条款,由此要注意的是,保护范围由权利要求提供,而非由这些条款:
条款1.一种被配置为生成用于机器学习系统的训练数据的计算装置,该计算装置包括:模拟器,其根据采样算法来配置以在至少部分地由一个或更多个参数属性定义的情景内创建多个不同场景,其中,由模拟器创建的所述多个场景包括一个或更多个边缘场景;以及物理引擎,响应于模拟器,该物理引擎被配置为生成代表情景内包括所述一个或更多个边缘场景的所述多个不同场景的训练数据,其中,物理引擎被配置为修改所述一个或更多个参数属性以便基于模拟器在至少部分地由修改的一个或更多个参数属性定义的另一情景内创建的另外多个不同场景来生成附加且不同的训练数据。
条款2.根据条款1所述的计算装置,其中,物理引擎被配置为基于真实世界数据来生成代表情景的训练数据。
条款3.根据条款2所述的计算装置,其中,模拟器被配置为创建不由真实世界数据表示的边缘场景。
条款4.根据条款1至3中的任一项所述的计算装置,其中,物理引擎被配置为基于真实感模型来生成代表情景的训练数据。
条款5.根据条款1至4中的任一项所述的计算装置,其中,所述一个或更多个参数属性至少部分地定义情景或情景的环境内的性能或行为。
条款6.根据条款1至5中的任一项所述的计算装置,其中,所述一个或更多个参数属性定义一个或更多个传感器的一个或更多个性质。
条款7.根据条款1至6中的任一项所述的计算装置,其中,训练数据代表情景内的所述多个不同场景并且包括所述一个或更多个边缘场景。
条款8.根据条款1至7中的任一项所述的计算装置,其中,计算装置还包括处理电路以及在操作上联接到处理电路的存储器,该存储器用于存储软件指令。
条款9.一种被配置为生成用于机器学习系统的训练数据的方法,该方法包括:根据采样算法来执行模拟以在至少部分地由一个或更多个参数属性定义的情景内创建多个不同场景,其中,执行模拟包括创建一个或更多个边缘场景;响应于模拟,生成代表情景内包括所述一个或更多个边缘场景的所述多个不同场景的训练数据;以及修改所述一个或更多个参数属性以便基于在至少部分地由修改的一个或更多个参数属性定义的另一情景内通过模拟创建的另外多个不同场景来生成附加且不同的训练数据。
条款10.根据条款9所述的方法,其中,生成训练数据包括基于真实世界数据来生成代表情景的训练数据。
条款11.根据条款10所述的方法,其中,执行模拟包括创建不由真实世界数据表示的所述一个或更多个边缘场景。
条款12.根据条款9至11中的任一项所述的方法,其中,生成训练数据包括基于真实感模型来生成代表情景的训练数据。
条款13.根据条款9至12中的任一项所述的方法,其中,所述一个或更多个参数属性至少部分地定义情景或情景的环境内的性能或行为。
条款14.根据条款9至13中的任一项所述的方法,其中,所述一个或更多个参数属性定义一个或更多个传感器的一个或更多个性质。
条款15.根据条款9至14中的任一项所述的方法,该方法还包括利用代表情景内包括所述一个或更多个边缘场景的所述多个不同场景的训练数据来训练机器学习系统。
条款16.一种被配置为生成用于机器学习系统的训练数据的计算机程序产品,该计算机程序产品包括存储有程序代码的非暂时性计算机可读介质,程序代码包括程序代码指令,所述指令被配置为在执行时:根据采样算法来执行模拟以在至少部分地由一个或更多个参数属性定义的情景内创建多个不同场景,其中,执行模拟以创建一个或更多个边缘场景;响应于模拟,生成代表情景内包括所述一个或更多个边缘场景的所述多个不同场景的训练数据;以及修改所述一个或更多个参数属性以便基于在至少部分地由修改的一个或更多个参数属性定义的另一情景内通过模拟创建的另外多个不同场景来生成附加且不同的训练数据。
条款17.根据条款16所述的计算机程序产品,其中,被配置为生成训练数据的程序代码指令包括被配置为基于真实世界数据来生成代表情景的训练数据的程序代码指令。
条款18.根据条款17所述的计算机程序产品,其中,被配置为执行模拟的程序代码指令包括被配置为创建不由真实世界数据表示的边缘场景的程序代码指令。
条款19.根据条款16至18中的任一项所述的计算机程序产品,其中,被配置为生成训练数据的程序代码指令包括被配置为基于真实感模型来生成代表情景的训练数据的程序代码指令。
条款20.根据条款16至19中的任一项所述的计算机程序产品,其中,所述一个或更多个参数属性至少部分地定义情景或情景的环境内的性能或行为。
条款21.根据条款16至20中的任一项所述的计算机程序产品,其中,所述一个或更多个参数属性定义一个或更多个传感器的一个或更多个性质。
条款22.根据条款16至21中的任一项所述的计算机程序产品,其中,程序代码还包括被配置为利用代表情景内包括所述一个或更多个边缘场景的所述多个不同场景的训练数据来训练机器学习系统的程序代码指令。
流程图方框支持执行指定的功能的手段的组合以及执行指定的功能的操作的组合。将理解,流程图的一个或更多个方框以及流程图中的方框的组合可由执行指定的功能的基于专用硬件的计算机系统或者专用硬件和软件指令的组合实现。
在一些示例中,可修改或进一步放大上述一些操作。此外,在一些示例中,可包括附加可选操作。可按任何次序并按任何组合执行对上述操作的修改、放大或添加。
受益于以上描述和相关附图中所呈现的教导,本公开所属领域的技术人员将想到本文所阐述的本公开的许多修改和其它示例。因此,应当理解,本公开不限于所公开的特定示例,修改和其它示例旨在包括在所附权利要求书的范围内。此外,尽管以上描述和相关附图在元件和/或功能的某些组合的背景下描述了示例,应该理解,在不脱离所附权利要求书的范围的情况下,可通过另选示例来提供元件和/或功能的不同组合。在这方面,例如,如一些所附权利要求中可阐述的,也可以想到与上面明确描述那些不同的元件和/或功能的组合。尽管本文中采用了特定术语,但它们仅在一般性和描述性意义上使用,而非为了限制。

Claims (15)

1.一种被配置为生成用于机器学习系统的训练数据(20)的计算装置(10),该计算装置包括:
模拟器(12),该模拟器根据采样算法来配置以在至少部分地由一个或更多个参数属性(16)定义的情景内创建多个不同场景,其中,由所述模拟器创建的所述多个不同场景包括一个或更多个边缘场景;以及
物理引擎(14),响应于所述模拟器,该物理引擎被配置为生成代表所述情景内包括所述一个或更多个边缘场景的所述多个不同场景的训练数据,其中,所述物理引擎被配置为修改所述一个或更多个参数属性以便基于所述模拟器在至少部分地由修改的一个或更多个参数属性定义的另一情景内创建的另外多个不同场景来生成附加且不同的训练数据。
2.根据权利要求1所述的计算装置,其中,所述物理引擎被配置为基于真实世界数据(18)来生成代表所述情景的训练数据。
3.根据权利要求2所述的计算装置,其中,所述模拟器被配置为创建不由所述真实世界数据表示的所述边缘场景。
4.根据权利要求1至3中的任一项所述的计算装置,其中,所述物理引擎被配置为基于真实感模型来生成代表所述情景的训练数据。
5.根据权利要求1至4中的任一项所述的计算装置,其中,所述一个或更多个参数属性至少部分地定义所述情景或所述情景的环境内的性能或行为。
6.根据权利要求1至5中的任一项所述的计算装置,其中,所述一个或更多个参数属性定义一个或更多个传感器的一个或更多个性质。
7.根据权利要求1至6中的任一项所述的计算装置,其中,所述训练数据代表所述情景内的所述多个不同场景并且包括所述一个或更多个边缘场景。
8.根据权利要求1至7中的任一项所述的计算装置,其中,所述计算装置还包括处理电路(32)以及在操作上联接到所述处理电路的存储器(34),该存储器用于存储软件指令。
9.一种被配置为生成用于机器学习系统的训练数据的方法,该方法包括以下步骤:
根据采样算法来执行(40)模拟以在至少部分地由一个或更多个参数属性(16)定义的情景内创建多个不同场景,其中,执行所述模拟包括创建一个或更多个边缘场景;
响应于所述模拟,生成(42)代表所述情景内包括所述一个或更多个边缘场景的所述多个不同场景的训练数据(20);以及
修改(44)所述一个或更多个参数属性以便基于在至少部分地由修改的一个或更多个参数属性定义的另一情景内通过所述模拟创建的另外多个不同场景来生成附加且不同的训练数据。
10.根据权利要求9所述的方法,其中,生成所述训练数据包括基于真实世界数据(18)来生成代表所述情景的训练数据。
11.根据权利要求10所述的方法,其中,执行所述模拟包括创建不由所述真实世界数据表示的所述一个或更多个边缘场景。
12.根据权利要求9至11中的任一项所述的方法,其中,生成所述训练数据包括基于真实感模型来生成代表所述情景的训练数据。
13.根据权利要求9至12中的任一项所述的方法,其中,所述一个或更多个参数属性至少部分地定义所述情景或所述情景的环境内的性能或行为。
14.根据权利要求9至13中的任一项所述的方法,其中,所述一个或更多个参数属性定义一个或更多个传感器的一个或更多个性质。
15.根据权利要求9至14中的任一项所述的方法,该方法还包括利用代表所述情景内包括所述一个或更多个边缘场景的所述多个不同场景的所述训练数据来训练所述机器学习系统。
CN202011077871.5A 2019-11-01 2020-10-10 生成用于机器学习系统的训练数据 Pending CN112784866A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/671,268 US20210133502A1 (en) 2019-11-01 2019-11-01 Computing device, method and computer program product for generating training data for a machine learning system
US16/671,268 2019-11-01

Publications (1)

Publication Number Publication Date
CN112784866A true CN112784866A (zh) 2021-05-11

Family

ID=72422136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011077871.5A Pending CN112784866A (zh) 2019-11-01 2020-10-10 生成用于机器学习系统的训练数据

Country Status (3)

Country Link
US (1) US20210133502A1 (zh)
EP (1) EP3816878A1 (zh)
CN (1) CN112784866A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536548A (zh) * 2021-06-29 2021-10-22 的卢技术有限公司 一种基于carla的预制轨迹仿真场景的搭建方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678244B2 (en) * 2017-03-23 2020-06-09 Tesla, Inc. Data synthesis for autonomous control systems
US10572979B2 (en) * 2017-04-06 2020-02-25 Pixar Denoising Monte Carlo renderings using machine learning with importance sampling
US10751879B2 (en) * 2017-06-05 2020-08-25 Autodesk, Inc. Adapting simulation data to real-world conditions encountered by physical processes
US10496099B2 (en) * 2017-07-18 2019-12-03 Uatc, Llc Systems and methods for speed limit context awareness
US10755115B2 (en) * 2017-12-29 2020-08-25 Here Global B.V. Method, apparatus, and system for generating synthetic image data for machine learning
DE102019202090A1 (de) * 2018-03-14 2019-09-19 Robert Bosch Gmbh Verfahren zum Erzeugen eines Trainingsdatensatzes zum Trainieren eines Künstlichen-Intelligenz-Moduls für eine Steuervorrichtung eines Roboters
DE112019001605T5 (de) * 2018-03-27 2020-12-17 Nvidia Corporation Trainieren, testen und verifizieren von autonomen maschinen unter verwendung simulierter umgebungen
CN110070139B (zh) * 2019-04-28 2021-10-19 吉林大学 面向自动驾驶环境感知的小样本在环学习系统和方法

Also Published As

Publication number Publication date
US20210133502A1 (en) 2021-05-06
EP3816878A1 (en) 2021-05-05

Similar Documents

Publication Publication Date Title
CN111506980B (zh) 对虚拟驾驶环境生成交通场景的方法及装置
CN113039563B (zh) 学习生成用于训练神经网络的合成数据集
US11922569B2 (en) Generating realistic point clouds
US20200192389A1 (en) Building an artificial-intelligence system for an autonomous vehicle
CN109032103B (zh) 无人驾驶车辆的测试方法、装置、设备及存储介质
CN113408141B (zh) 一种自动驾驶测试方法、装置及电子设备
US11645518B2 (en) Multi-agent simulations
CN111123920A (zh) 一种自动驾驶仿真测试场景生成方法和装置
JP2019215849A (ja) 運転場面データを分類するための方法、装置、機器及び媒体
US20230138650A1 (en) Test method for automatic driving, and electronic device
CN112307978B (zh) 目标检测方法、装置、电子设备及可读存储介质
Abdelfattah et al. Adversarial attacks on camera-lidar models for 3d car detection
CN111062405A (zh) 训练图像识别模型的方法和装置以及图像识别方法和装置
CN113935143A (zh) 通过自主车辆的增加的严重性等级估计碰撞概率
US11697205B2 (en) Determining control policies for robots with noise-tolerant structured exploration
CN114580702A (zh) 多模态多代理轨迹预测
WO2022133090A1 (en) Adaptive generation and assessment of autonomous vehicle critical scenarios
US20220358747A1 (en) Method and Generator for Generating Disturbed Input Data for a Neural Network
EP3816878A1 (en) Generating training data for a machine learning system
US20220266854A1 (en) Method for Operating a Driver Assistance System of a Vehicle and Driver Assistance System for a Vehicle
US20230082079A1 (en) Training agent trajectory prediction neural networks using distillation
KR20190060673A (ko) 데이터 처리 방법, 장치, 처리된 데이터를 이용한 객체 검출 방법
CN115357500A (zh) 自动驾驶系统的测试方法、装置、设备和介质
Kumar et al. Generative Adversarial Networks to Improve the Nature of Training in Autonomous Vehicles
US20230278589A1 (en) Autonomous driving sensor simulation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination