CN111566664A - 用于生成用于机器学习的合成图像数据的方法、设备和系统 - Google Patents
用于生成用于机器学习的合成图像数据的方法、设备和系统 Download PDFInfo
- Publication number
- CN111566664A CN111566664A CN201880084403.5A CN201880084403A CN111566664A CN 111566664 A CN111566664 A CN 111566664A CN 201880084403 A CN201880084403 A CN 201880084403A CN 111566664 A CN111566664 A CN 111566664A
- Authority
- CN
- China
- Prior art keywords
- image data
- action
- composite image
- objects
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 67
- 239000002131 composite material Substances 0.000 claims abstract description 151
- 230000009471 action Effects 0.000 claims abstract description 123
- 230000033001 locomotion Effects 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 20
- 230000015654 memory Effects 0.000 claims description 27
- 230000006399 behavior Effects 0.000 claims description 19
- 238000003860 storage Methods 0.000 claims description 16
- 241001465754 Metazoa Species 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 10
- 230000007613 environmental effect Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 7
- 208000027418 Wounds and injury Diseases 0.000 claims description 2
- 230000006378 damage Effects 0.000 claims description 2
- 208000014674 injury Diseases 0.000 claims description 2
- 208000001613 Gambling Diseases 0.000 claims 1
- 238000004891 communication Methods 0.000 description 25
- 238000013527 convolutional neural network Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 21
- 230000004438 eyesight Effects 0.000 description 16
- 238000001514 detection method Methods 0.000 description 11
- 238000009877 rendering Methods 0.000 description 11
- 230000003287 optical effect Effects 0.000 description 10
- 238000012546 transfer Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 230000001413 cellular effect Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 239000003550 marker Substances 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 230000003068 static effect Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 238000001125 extrusion Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 239000003973 paint Substances 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000282994 Cervidae Species 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004313 glare Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000010287 polarization Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/16—Anti-collision systems
- G08G1/166—Anti-collision systems for active traffic, e.g. moving vehicles, pedestrians, bikes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/772—Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/16—Anti-collision systems
- G08G1/165—Anti-collision systems for passive traffic, e.g. including static obstacles, trees
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
提供了一种用于生成用于机器学习的合成图像数据的方法。例如,所述方法涉及由处理器确定用于指示一个或多个对象的动作的一组参数。所述动作是所述一个或多个对象在一段时间内通过地理空间的动态移动。所述方法还涉及处理所述一组参数以生成合成图像数据。所述合成图像数据包括在所述一段时间内在所述地理空间中执行所述动作的所述一个或多个对象的计算机生成的图像序列。所述方法进一步涉及利用表示所述动作、所述一组参数或其组合的至少一个标记来自动标记所述合成图像数据。所述方法进一步涉及提供标记的合成图像数据,用于训练或评估机器学习模型以检测所述动作。
Description
背景技术
在过去的几十年里,注释数据的规模和类型的大规模增长加速了机器学习各个领域的发展。这使得科学和技术的许多领域取得了重大进展,因为具有数百万或数十亿参数的物理现象或用户行为的复杂模型可以适用于不断增大的数据集。然而,当此类物理现象或用户行为涉及动作或动态移动(例如,在汽车驾驶应用中)时,此类注释或标记的数据集可能是稀缺的。因此,服务提供商面临重大的技术挑战,即获取标记数据以训练机器学习模型,从而从图像数据(例如视频或图像序列)中检测或分类动作或动态移动。
一些实例实施例
因此,需要一种用于生成用于机器学习的合成图像数据的方法。
根据一个实施例,一种计算机实施的方法包含由处理器确定用于指示一个或多个对象的至少一个动作的一组参数。所述至少一个动作例如是所述一个或多个对象在一段时间内通过地理空间的动态移动。所述方法还包含处理所述一组参数以生成合成图像数据。合成图像数据包括在一段时间内在地理空间中执行至少一个动作的一个或多个对象的计算机生成的图像序列。所述方法进一步包含利用表示至少一个动作、所述一组参数或其组合的至少一个标记来自动标记合成图像数据。所述方法进一步包含提供标记的合成图像数据,用于训练或评估机器学习模型以检测至少一个动作。
根据另一实施例,一种设备包含:至少一个处理器;以及至少一个存储器,其包括用于一个或多个计算机程序的计算机程序代码,所述至少一个存储器和所述计算机程序代码被配置成利用所述至少一个处理器,至少部分地使得所述设备确定用于指示一个或多个对象的至少一个动作的一组参数。所述至少一个动作例如是所述一个或多个对象在一段时间内通过地理空间的动态移动。还使得所述设备处理所述一组参数以生成合成图像数据。合成图像数据包括在一段时间内在地理空间中执行至少一个动作的一个或多个对象的计算机生成的图像序列。所述设备进一步被使得利用表示至少一个动作、所述一组参数或其组合的至少一个标记来自动标记合成图像数据。进一步使得所述设备提供标记的合成图像数据,用于训练或评估机器学习模型以检测至少一个动作。
根据另一实施例,非暂时性计算机可读存储介质携载一个或多个指令的一个或多个序列,所述指令在由一个或多个处理器执行时,至少部分地使得设备确定用于指示一个或多个对象的至少一个动作的一组参数。所述至少一个动作例如是所述一个或多个对象在一段时间内通过地理空间的动态移动。还使得所述设备处理所述一组参数以生成合成图像数据。合成图像数据包括在一段时间内在地理空间中执行至少一个动作的一个或多个对象的计算机生成的图像序列。所述设备进一步被使得利用表示至少一个动作、所述一组参数或其组合的至少一个标记来自动标记合成图像数据。进一步使得所述设备提供标记的合成图像数据,用于训练或评估机器学习模型以检测至少一个动作。
根据另一实施例,一种设备包含用于由处理器确定用于指示一个或多个对象的至少一个动作的一组参数的设备。所述至少一个动作例如是所述一个或多个对象在一段时间内通过地理空间的动态移动。所述方法还包含处理所述一组参数以生成合成图像数据。合成图像数据包括在一段时间内在地理空间中执行至少一个动作的一个或多个对象的计算机生成的图像序列。所述方法进一步包含利用表示至少一个动作、所述一组参数或其组合的至少一个标记来自动标记合成图像数据。所述方法进一步包含提供标记的合成图像数据,用于训练或评估机器学习模型以检测至少一个动作。
另外,对于本发明的各种实例实施例,以下是适用的:一种方法,包含促进对(1)数据和/或(2)信息和/或(3)至少一个信号的处理,所述(1)数据和/或(2)信息和/或(3)至少部分地基于(或至少部分地源自)本申请中公开的与本发明的任何实施例相关的方法(或过程)的任何一个或任何组合。
对于本发明的各种实例实施例,以下也是适用的:一种方法,包含促进对至少一个接口的访问,所述至少一个接口被配置成允许对至少一个服务的访问,所述至少一个服务被配置成执行本申请中公开的网络或服务提供商方法(或过程)中的任何一个或任何组合。
对于本发明的各种实例实施例,以下也是适用的:一种方法,包含促进创建和/或促进修改(1)至少一个装置用户界面元素和/或(2)至少一个装置用户界面功能,(1)至少一个装置用户界面元素和/或(2)至少一个装置用户界面功能,至少部分地基于关于从与本发明的任何实施例相关的本申请中公开的方法或过程的一个或任何组合产生的数据和/或信息,和/或从与本发明的任何实施例相关的本申请中公开的方法(或过程)的一个或任何组合产生的至少一个信号。
对于本发明的各种实例实施例,以下也是适用的:一种方法,包含创建和/或修改(1)至少一个装置用户界面元素和/或(2)至少一个装置用户界面功能,(1)至少一个装置用户界面单元和/或(2)至少一个装置用户界面功能,其至少部分地基于关于从与本发明的任何实施例相关的本申请中公开的方法(或过程)的一个或任何组合产生的数据和/或信息,和/或从与本发明的任何实施例相关的本申请中公开的方法(或过程)的一个或任何组合产生的至少一个信号。
在各种实例实施例中,方法(或过程)可以在服务提供商侧或在移动装置侧或以服务提供商与移动装置之间的任何共享方式在两侧执行动作来实施。
对于各种实例实施例,以下是适用的:一种设备,包含用于执行权利要求的方法的设备。
通过以下的详细描述,简单地通过绘示出多个特定的实施例和实施方式,包括为实施本发明而设想的最佳模式,本发明的其它方面、特征和优点将显而易见。本发明还能够具有其它和不同的实施例,并且在不脱离本发明的精神和范围的情况下,可以在各个明显的方面修改其若干细节。相应地,附图和描述在本质上被认为是说明性的,而不是限制性的。
附图说明
在附图中,通过实例而非限制的方式绘示出了本发明的实施例:
图1是根据一个实施例的能够生成用于机器学习的合成图像数据的系统示意图;
图2是根据一个实施例的合成数据平台的组件的示意图;
图3是根据一个实施例的用于生成用于机器学习的合成图像数据的过程的流程图;
图4是绘示根据一个实施例的用于输入用于生成合成图像数据的参数的实例用户界面的示意图;
图5是绘示根据一个实施例的实例合成图像数据的示意图;
图6是绘示根据一个实施例在不同的可选或可随机化条件下呈现合成图像数据的示意图;
图7是绘示根据一个实施例的用不同抽象呈现合成图像数据以增加机器学习模型的类推性的示意图;
图8是绘示根据一个实施例的自动标记合成图像数据的实例的示意图;
图9是绘示根据一个实施例的被训练成使用合成图像数据来检测潜在碰撞的CNN检测器的实例用户界面的示意图;
图10是根据一个实施例的地理数据库的示意图;
图11是可用于实施本发明实施例的硬件的示意图;
图12是可用于实施本发明实施例的芯片组的示意图;以及
图13是可用于实施本发明实施例的移动终端(例如手机)的示意图。
具体实施方式
公开了用于生成用于机器学习的合成图像数据的方法、设备和计算机程序的实例。在下面的描述中,出于解释的目的,阐述了许多具体细节以便提供对本发明实施例的透彻理解。然而,对于本领域的技术人员显而易见的是,可以在没有这些具体细节的情况下或者以等同的布置来实施本发明的实施例。在其它情况下,以框图形式示出了公知的结构和装置,以避免不必要地模糊本发明的实施例。
图1是根据一个实施例的能够生成用于机器学习的合成图像数据的系统示意图。基于机器学习的计算机视觉系统已经实施了各种基于图像识别的服务和应用。例如,在汽车领域,计算机视觉和机器学习使得能够实时映射和感测车辆的环境,特别是对于自动或半自动车辆。对环境的此类理解例如通过提供关于潜在障碍物、其它人在道路上的行为以及安全、可驾驶区域的信息而在车辆(例如,车辆101)中驾驶时提供了增强的安全性和情景意识。了解其它车辆在哪里以及它们可能会做什么对车辆101的安全操作至关重要。例如,车辆101通常必须避开静态障碍物(例如,护栏、中线、标志、灯柱等)和动态障碍物(例如,其它车辆、行人、动物、道路碎屑等),而这些动态障碍物可以实时移动、改变和/或出现。移动或动作的动态特性对于训练和评估机器学习模型(例如,结合计算机视觉系统105的机器学习系统103)以检测图像序列或视频中的动作(例如,如从装备有摄像头的车辆101实时捕获的)提出了重大的技术挑战。
在图像识别中显示出显著能力的一种技术是使用卷积神经网络(例如CNN)或等效的机器学习模型/算法。例如,神经网络已经显示出前所未有的能力来识别图像数据(例如,各个图像和/或图像序列/视频)中的对象和动作,理解图像数据的语义含义,并且根据语义类别来分类图像数据。然而,CNN和其它机器学习模型经常需要大量的被标记的训练评估数据集来实施特征预测性能的目标水平。由于通常无法在单个图像中充分描绘动作,因此使用带有标记的动态移动或动作的地面实况实例获取此类训练和/或评估数据可能具有挑战性。相反,需要至少两个图像帧(或视频或视频剪辑)的图像序列来提供可以由机器学习系统103学习的动作或动态移动的实例。
例如,用于在汽车场景(例如,用于实施碰撞检测预测)中训练CNN或等同物的标记数据集相对缺乏。如本文所使用的,标记的数据集是已经用一个或多个标记来注释的图像数据(例如,图像序列),所述一个或多个标记表示所描绘的动作或动态移动的地面实况类。传统上,在汽车场景中,通常会对给定位置发生的事故的真实镜头进行注释(例如,通常由人),以用作事故或碰撞检测的标记训练或评估数据。但是,这种真实镜头通常无法涵盖事故在单个位置上如何发生的大量可能性,更不用说在多个不同位置上。另外,获取特别危险情况(例如,车辆之间的事故、与行人的事故、危险的车辆操作等)的视频镜头可能是罕见的或危险的。这种有限的数据会降低所得到的机器学习模型的通用性或预测精度。
另外,将数据集中的视频剪辑标签/标记为某一特征(如“危险驾驶行为”)的正/负需要大量的人工操作。这种人工操作可能很慢并且容易出错,因为它依赖于个人的人工注释者来检查和标记视频剪辑。然后,人类注释者对视频剪辑中的移动或动作的感知和解释的差异可能导致潜在的不同或不一致的标记。因此,此类数据集通常涉及高制作成本并且限于可用视频。
例如,在传统方法中,图像或视频训练数据集作为文件包提供。这些包通常被限制为在特定位置处捕获的图像,这些图像已经被(大部分)手动标记以识别对象,而不是被用于训练机器学习模型以检测动作的对象的动作或移动。现有技术的实例是KITTI训练集(例如由德国卡尔斯鲁厄理工学院(Kalsruhe Institute of Technology)和丰田技术学院芝加哥校区(Toyota Technological Institute at Chicago)生产的),其包括通过在德国卡尔斯鲁厄的真实驾驶的标记图像。然而,KITTI数据集在训练以检测动作或移动方面存在缺陷,例如在执行检测碰撞和其它类似的汽车应用时。这些缺陷包括仅提供有限的地理覆盖(例如,德国卡尔斯鲁厄),这可能潜在地降低受过训练的机器学习模型的通用性。另外,数据的标记必须通过对整个数据集进行人工检查来完成。另外,数据集是静态的,并且新的数据集需要新的驱动器和新的标记工作。
为了解决这些问题,图1的系统100引入了基于用户定义的参数生成合成图像数据(例如,图像序列或视频)的能力。在一个实施例中,参数可以描述合成图像数据要描述的动作或移动的类型。然后,系统可以使用这些参数来自动生成和标记合成图像数据。标记的合成数据然后可以用于训练或评估机器学习模型(例如,CNN或等同物),以预测或检测输入图像序列或视频中的对象的动作或动态移动。本文描述的生成合成图像数据的各种实施例提供了优于传统的现实生活视频数据集的优点,因为现实生活视频数据集只包含限定且有限数量的位置和场景。
通常,当用于训练CNN检测器以检测特定情况、动作或移动时,具有足够图像质量的合成数据集的性能类似于真实世界图像。在一个实施例中,目标图像质量水平可以通过现代图形和模拟引擎来实施,例如驾驶模拟器。因此,在一个实施例中,系统100可以提供合成训练数据集生成服务(例如,经由合成数据平台107)以生成针对用户定义的参数定制的标记合成图像数据,以表示各种动作/移动、地理位置、环境条件、对象类型等,而不是提供通过真实世界位置处的摄像机收集的一组图像。例如,此类服务的用户可以包括但不限于:(1)人类用户在应用/网页/云服务等的用户界面上定义数据集参数;或(2)客户端应用/装置/系统,通过应用编程接口(API)提供数据集参数。
与传统系统相比,系统100(例如,经由合成数据平台107)能够生成具有包括动态移动的动作或情形的一个或多个标记类(而不是传统系统的情况下的对象类)的数据集。换句话说,系统100生成标记的交通事件视频剪辑或标记有涉及用于训练CNN检测器(或任何其它等效的机器学习算法)的动态移动的任何其它动作或情形的视频剪辑的数据集。数据集是合成的,即,使用本领域已知的任何呈现和/或物理引擎或方法生成的。例如,此类引擎包括但不限于驾驶模拟器、游戏引擎和/或类似物。在一个实施例中,引擎提供模拟对象的物理特性、呈现视频剪辑、碰撞检测、人工智能(例如,模拟驾驶行为、行人行为、动物行为等)等。游戏引擎的实例包括但不限于Unreal引擎、Unity引擎等。在一个实施例中,引擎可以根据从抽象表示(例如,简单形状)到真实感表示的不同细节级别的用户参数来生成合成图像数据集。注意,合成图像数据可以用于从训练到评估/验证的机器学习流水线的任何阶段。
在一个实施例中,可以通过改变一组可随机化的参数来随机地生成多个道路几何形状和特征。在又一实施例中,系统100可以自动地标记合成图像数据,因为系统100将基于相应的指定参数而知道用户所请求的动作或情况。另外,系统100还可以通过使用呈现/物理引擎来模拟和识别在合成图像序列中描绘的对象的路径何时将拦截或接近拦截来标记合成数据集,而不必呈现实际的碰撞、未遂事故或潜在碰撞。换言之,在由用户参数指定的3D世界内呈现3D对象允许生成视频内容,所述视频内容可用于训练CNN或等效机器学习模型。在一个实施例中,涉及一个或多个对象(例如,车辆、行人等)的动态移动的任何动作或情形也可以以相同的方式被模拟和自动标记(例如,附近的汽车的危险驾驶行为、附近的行人/车辆的潜在危险轨迹等)
在一个实施例中,使用通用地理位置(例如,不对应于真实世界位置)或实际真实世界位置,合成图像数据可以是通用的。例如,当使用通用成像技术来训练CNN或等效机器学习模型时,检测器将不考虑特定于一条路线的图像,以提高关于检测到的动作或移动的类推性。在某些情况下,这可能会引起以下问题:经过训练的机器学习模型无法将特定于一条路线的几何形状评估到精度或特异性的目标水平。因此,在要考虑特定路线或位置的情况下,可以使用基于特定道路、路线或位置的几何形状和其它地图存储的特性生成的合成数据集来训练CNN或等效机器学习模型。通过这种方式,车辆101可以进一步了解以前无法了解的情况,例如特定于一条路线的安全隐患。
本文描述的生成合成图像数据的各种实施例提供了几个优点。例如,可实施的样本种类比来自传统真实世界视频源的可用种类高许多倍,从而有利地提高了经过训练的机器学习模式的技术性能。另外,与传统的人工或手工标记相比,将合成图像数据集自动标记为正/负情况的生产成本大大降低。此外,仅从合成数据获得的学习是可转移的,并且与以高精度检测真实生活视频中的事件相关。
图2是根据一个实施例的合成数据平台的组件的示意图。例如,合成数据平台107包括一个或多个组件,用于根据本文描述的各种实施例生成用于机器学习的合成图像数据。可以设想,这些组件的功能可以由具有等同功能的其它组件组合或执行。在此实施例中,合成数据平台107包括参数模块201、图像生成器203、标记模块205和数据传送模块207。合成数据平台107的上述模块和组件可以用硬件、固件、软件或其组合来实施。尽管在图1中被描绘为单独的实体,但是可以设想,合成数据平台系统107可以被实施为系统100的任何组件(例如,机器学习系统103、计算机视觉系统105、服务平台117、服务119a-119n(也统称为服务119)等的组件)的模块。在另一实施例中,模块201-207中的一个或多个可被实施为基于云的服务、本地服务、本机应用程序或其组合。合成数据平台107和模块201-207的功能将参照下图3-9进行讨论。
图3是根据一个实施例的用于生成用于机器学习的合成图像数据的过程的流程图。在各种实施例中,合成数据平台107和/或合成数据平台107的模块201-207中的任何模块可以执行过程300的一个或多个部分,并且可以在例如包括如图12所示的处理器和存储器的芯片组中实施。这样,合成数据平台107和/或模块201-207可以提供用于实施过程300的各个部分的设备,以及用于实施本文结合系统100的其它组件描述的其它过程的实施例的设备。尽管过程300被绘示和描述为一系列步骤,但是可以设想,过程300的各种实施例可以以任何顺序或组合来执行,并且不需要包括所有绘示的步骤。
如上所述,当用于训练CNN或等效的机器学习检测器以检测包括动态移动的特定动作或情况时,合成数据集的性能类似于真实世界图像。此类合成图像数据可以容易地通过现代模拟引擎来实施,例如驾驶模拟器或游戏引擎。因此,合成数据平台107(例如,支持合成训练数据集生成服务)的用户可以提供用于生成所需的合成图像数据集的参数,而不是提供通过真实位置的摄像机收集的一组图像。如前所述,用户可以包括但不限于:(1)人类用户在应用/网页/云服务等的用户界面上定义数据集参数;和/或(2)客户端应用/装置/系统,通过API提供数据集参数。例如,在过程301的步骤300处,参数模块201确定(例如,来自用户)用于指示一个或多个对象的至少一个动作的一组参数。图4是绘示出根据一个实施例的用于输入用于生成合成图像数据的参数的实例用户界面的示意图。如图所示,用户界面401提供用于指定要模拟的动作、所涉及的对象以及诸如环境地理参数、环境参数和数据集传送参数等其它参数的用户界面元素。下面更详细地讨论这些参数的实例。
在一个实施例中,所述至少一个动作是所述一个或多个对象在一段时间内通过地理空间的动态移动。这与生成对象类的传统系统相反。相反,本文描述的合成数据平台107的实施例生成动作类,这些动作类然后可以用于自动标记合成成像数据。换句话说,合成数据平台107能够生成具有一个或多个标记的动作类的数据集。如上所述,动作或情形可以由对象随时间的动态来定义。这样,根据如何定义动作,动作可以具有各种类。例如,当动作是汽车移动时,所得到的合成图像数据或数据集可以包括两类:“汽车移动”与“汽车静止”。作为与汽车移动相关的另一实例,可以有对应于各种速度范围的x个类别:0-10mph、11-20mph、21-30mph等等。其它更复杂的动作的实例可包括但不限于:“自行车将在t秒内与行人碰撞”、“危险地绕过另一辆车的一辆车”、“车辆在其车道上之字形运动”等。注意,本文描述的动作在一个图像帧中通常是不可识别的,但是需要两个或更多个帧或图像的序列。两个或更多个图像/帧的这种序列在本文被称为图像序列。在本文描述的各种实施例中,这种图像序列还可以被同义地称为视频或视频剪辑。
在一个实施例中,至少一个动作可以与汽车场景有关。这样,要执行指定动作或移动的一个或多个对象可以包括但不限于车辆、行人、骑自行车者、动物、道路、道路碎屑、道路对象或其组合。应当注意,本文描述的各种实施例还可应用于其中机器学习模型被训练以检测动作或移动(例如,无人驾驶飞行、人体移动检测、非车辆移动检测等)的任何其它使用情况生成合成图像数据。因此,指定对象或对象的动作可以与另一动作或移动用例相关,并且不限于汽车用例。
在一个实施例中,参数模块201基于感兴趣区域、起点-目的地对、导航路线、道路几何形状、事故率或其组合来选择地理区域。换句话说,用户不需要指定精确的地理位置来启动合成图像数据的创建。相反,用户可以指定可以由参数模块201用于确定适当地理区域的属性(例如,感兴趣区域、起点-目的地对、路线、道路几何形状等)。在一个实施例中,地理区域可以是真实世界位置或被建模为包括指定属性的一般位置。例如,在使用真实世界位置的情况下,图像生成器203向地理数据库查询与所述地理区域相关联的地图数据。然后,图像生成器203基于地图数据在计算机生成的图像序列中呈现地理区域。例如,地图数据可以包括地形和/或地理特征(例如,道路、道路物体、兴趣点等)的位置的HD表面地图,可用于呈现合成图像数据中的位置的3D呈现。
在一个实施例中,所述一组参数包括描述至少一个动作的类型的动作参数。在汽车场景中,所述至少一个动作的类型包括无法在安全距离处驾驶、超速行驶、无法给车辆让路、闯红灯、在错误的方向上驾驶、受伤后驾驶、即将发生的碰撞、事故、行人或动物过路或将要过路、安全或危险的超车、危险的驾驶行为,或其组合。数据集应包括这些情况的标记实例。上面未提及的一些情况可以通过定义对象交互作为自定义参数输入到系统中。换句话说,用户可以使用自定义参数来指定除以上列出的动作之外的另一类型的动作。
在一个实施例中,数据集的一般问题在于它们通常只包含已经预见和标记的情况。通过根据请求生成训练集,可以定义新的场景对象和交互。以前面的列表作为预先编程情况的实例,传统系统通常不适合生成骑自行车者进行突然和危险超车的标记图像,因为此类镜头很难获得或很危险。相反,如果动作还没有被预编程到合成数据平台107中,则用户可以使用例如自定义参数来定义此类超车的基本和通用模式。例如,用户可以基于以下内容指定骑自行车者的动作:-车辆缓慢行驶的单车道道路。所述动作可以进一步指定参数,以指示骑自行车者在横向距离汽车不到1米的情况下加速超过缓慢行驶的汽车,进入相反的车道。在一个实施例中,此类场景的变化可以由合成数据平台107生成,并相应地自动标记,例如,迎面而来的车辆、在交叉路口、在超车车辆前面的车辆等。情况的变化也被标记为正。
单个视频也可以是不同的同时动作/场景的实例,对于某些情况,可以将其标记为正,同时在其它情况将其标记为负。标记还可以包括相对数字(例如85%的碰撞机会)而不是二进制标记。
在一个实施例中,所述一组参数包括对象参数,其描述将被模拟以在合成图像数据中执行指定动作或移动的一个或多个对象的类型。在汽车场景中,实例对象可以包括但不限于车辆、行人、动物、道路碎屑、其它对象等。可以基于初始高级对象类型进一步定义对象参数。实例对象参数可以包括但不限于:(1)车辆相关参数;(2)行人相关参数;以及(3)与其它对象相关的参数。
例如,车辆相关参数可用于描述车辆的类型以及可用于确定其外观、移动、行为等的物理和性能特征,这些特征被模拟用于在包括在合成图像数据中的计算机生成的视频或图像序列中呈现。在一个实施例中,车辆相关参数可以指定车辆的类型,例如但不限于:小汽车、卡车、自行车、摩托车、飞机、无人机、船、轮船、火车等。进一步定义车辆相关参数可以指定:(1)不同的构造、型号、颜色、形状等;(2)车辆的不同速度和移动路径(合法和非法);等等。在一个实施例中,车辆相关参数可以基于所选择的地理区域或位置。例如,可以基于位置自动地确定车辆的具体类型和/或其特征。例如,城市中心可以容纳更多的乘用车、出租车、小型运输卡车,而农村州际公路可以挤满牵引挂车、长途车辆等。
类似地,行人相关参数也可以用来描述行人的类型、特征、行为、能力等,并作为所选择的动作或移动的一部分呈现在合成图像数据中。例如,这些行人相关参数包括但不限于所有人的类型(例如,年龄、性别、体型、种族、宠物等)。在一个实施例中,还可以根据所选择的位置导出行人参数值。例如,可以从地理数据库109或其它等效数据库中检索所选地理区域的人口统计数据。这样,例如,如果地理区域或位置是邻近街道,则可以选择更多的孩子作为行人进行呈现。如果地理位置是市中心的城市位置,则可以呈现大部分成人的行人组合。另外,还可以从位置导出不同的行人行为(例如,步行、跑步、玩耍、不稳定等)、外观(例如,衣服、配饰、随身装备等)等。
除了车辆和行人之外,可以指定描述包括在合成图像数据中的其它对象的参数。这些其它对象参数可以指示对象的类型及其行为、外观和/或其它特征。这些其它对象可以包括但不限于:(1)动物(例如,野生、家养等),(2)道路碎屑,(3)道路标志,(4)道路物体(例如,车道标识、护栏、人行道等),(5)附近建筑物;(6)附近地形;等等。另外,参数可以指示对象的特征,例如但不限于,大小、速度、轨迹等。参数还可以指定对象是否涉及所选择的动作或移动(例如,在动作路径中),是否涉及与所选择的主要动作分开发生的某些侧面或次要动作,是否作为背景对象出现,等等。在一个实施例中,其它对象和/或其特征、行为、外观等也可以从所选择的地理位置导出。例如,可以在描绘乡村道路的计算机生成的视频中呈现更多的野生动物(例如鹿)。
在一个实施例中,所述一组参数包括描述地理空间的环境参数。环境参数通过指定位置、一般场景特征、可见背景项目等来设置场景。例如,可以使用诸如但不限于以下的地理参数来指定位置:感兴趣的区域(由多边形、城市、地区、州、国家邮政编码定义);起点-目的地对(以生成多个可能的路线);特定路线(基于例如最常行驶、统计事故易发生处等选择);道路几何形状的复杂性(曲线、桥梁、隧道、十字路口等可能比直线道路提供更有趣的情况);事故率;等。
其它环境参数可以包括与天气/能见度条件相关的参数,例如但不限于:晴朗、多云、雾、雨、雪、冰雹、眩光、黑暗等。在一个实施例中,环境参数还可以包括用于指定背景对象的存在/不存在和/或其它特性的参数,所述背景对象例如但不限于:广告、背景人物、动物、云形成、地平线特征——类型、位置和数量。
在一个实施例中,合成图像生成器203可以通过组成可呈现的现实来生成图像序列或视频中的3D场景,其中可以例如使用可用的物理/呈现引擎(例如,驾驶模拟器、游戏引擎等)来模拟动作。因此,在步骤303处,图像生成器203处理所述一组参数以生成合成图像数据。例如,合成图像数据包括在一段时间内在地理空间中执行至少一个动作的一个或多个对象的计算机生成的图像序列。换句话说,基于指示要模拟的动作、对象等的用户定义参数,在所定义的环境内模拟情况或动作。
在一个实施例中,如果用户没有指定特定的地理区域或位置,则可以随机选择确切的场景位置。在任一情况下,如果地理位置是真实世界位置,则可以从实际3D地图数据(具有道路、建筑物、路边特征等)构建合成图像数据。从对象参数导出的对象将根据动作或情况(用于生成标签)或其它模式的定义填充场景并进行交互。自定义交互也将包括在合成图像数据集中。在一个实施例中,合成图像生成器203可以创建计算机生成的图像序列或视频以包括与室外现实和用户定义的参数一致的背景图像。
图5是绘示根据一个实施例的实例合成图像数据的示意图。更具体地,图5绘示了实例视频剪辑501,其中用户已经指定了描述车辆503在学校区域中进行危险的左车道通行移动的情况或动作的参数,从而导致在五秒内与行人505发生潜在碰撞。图像生成器203模拟所述动作并呈现视频剪辑501,所述视频剪辑501从正被超车的在右车道中行驶的另一车辆的角度示出了危险超车和潜在碰撞中涉及的动态移动。
在一个实施例中,背景图像的最基本版本可以是表面和地平线(例如,基于对应于所选位置的地形拓扑)。然后,合成图像生成器203可以呈现诸如占据表面的道路拓扑的额外特征。在一个实施例中,道路拓扑可以由以无穷排列组合的一组基本几何形状产生。在其它实施例中,可以从地图数据库,诸如地理数据库109(例如,具有高清晰度(HD)地图数据)提取道路拓扑。
取决于用户定义的参数,由合成图像生成器203生成的3D世界可以使用诸如建筑物、树木、道路设备(标志、灯等)、停放的车辆、广告海报等的随机场景对象来补充。还可以从包含3D信息的地图(例如地理数据库109)获取此类对象。另外,可以使用预定义的引擎来生成可变3D移动对象(或设计成绘示出感兴趣的动作),例如行人、骑车者、车辆、动物、碎屑,以遵循场景中的真实(但仍然是随机的)轨迹/场景。
在一个实施例中,图像生成器203可以区分用户指定的和可随机化的参数。例如,由合成数据平台107使用的任何参数可以被分类为用户指定的或可随机化的。在一个实施例中,可以将未由用户指定的任何参数选择为可随机化的。如前所述,随机化某些参数的值使得机器学习系统103被训练得对特定的特征更具有普遍性。如果指定了对给定特征的更具体预测,则可以将与所述特征相关联的参数或特征分类为不可随机化的(因此具有有限的或预定义的可变性)。因此,在一个实施例中,图像生成器203可以确定与计算机生成的图像序列相关联的一个或多个可随机化呈现变量。然后,图像生成器随机化一个或多个可随机化的呈现变量以生成合成图像数据。例如,为了生成用于机器学习(例如,用于CNN)的可行数据集,包括在合成图像数据中的视频样本可以包括对若干可随机化变量的随机变化,例如但不限于:道路形状、道路表面、道路涂料质量、道路涂料颜色、可见度/天气条件、可变背景、道路的可变的一个/多个车道轨迹、对象的可变的一个/多个轨迹(例如随机人行横道、道路上的动物、飞行碎屑、滚动球等),等等。
图6是绘示根据一个实施例在不同的可选或可随机化条件下呈现合成图像数据的示意图。在图6的实例中,在图5的视频剪辑501中描述的动作或情况的天气条件已经被随机化以显示有雾条件。因此,在图6所示的动作的变化下,图像生成器203模拟与图5相同的危险超车和潜在碰撞,但是在视频剪辑601中呈现有雾条件。这样,图像生成器可以在任何数量的不同场景下生成相同或相似动作的多个实例或剪辑。
在一个实施例中,图像生成器203基于机器学习模型的目标类推性和/或可用计算资源来改变计算机生成的图像序列中的一个或多个对象、地理空间或其它对象的呈现的细节水平或抽象程度。换句话说,图像生成器203可以根据要预测的特征改变计算机生成的视频或图像序列的真实性。在别为本文描述的各种实施例中,为机器学习系统103生成合成图像数据以预测动作或移动。因此,在一些实施例中,图像生成器203不需要使用逼真的呈现(例如,计算成本较高的呈现)来呈现发生动作或移动的至少一些对象和/或场景。例如,可以使用更抽象的表示(例如,轮廓、块、简单形状等),而不是在车辆路径上移动的行人或物体的逼真表示。这样,机器学习系统103可以在对象进行的动作或移动上而不是在进行移动的对象的特定外观上进行训练。更简单的呈现还有利地减少了生成合成图像数据所需的计算机资源。然而,在执行所选动作的对象的视觉外观很重要的情况下,则可以使用更逼真的呈现。
图7是绘示根据一个实施例的用不同抽象呈现合成图像数据以增加机器学习模型的类推性的示意图。在图7的实例中,图像生成器203提取如图5的视频剪辑501中所示的危险超车和潜在碰撞的情景,以生成提取的视频剪辑701。在抽象的视频剪辑701中,图像生成器203仅呈现没有任何背景对象(例如,电线杆和山脉)的简单水平线。另外,代替呈现车辆503和行人505的真实3D表示,图像生成器将它们呈现为简单的地理形状(例如,正方形703表示车辆503,以及圆角矩形705表示行人505)。
在步骤305处,在合成图像数据中生成图像序列或视频之后,标记模块205利用表示至少一个动作、所述一组参数或其组合的至少一个标记来自动标记合成图像数据。在一个实施例中,标记的合成图像可以存储在训练数据库111或同等的数据库中。因为合成图像数据是由合成数据平台107基于指定的参数生成的,所以平台107已经具有精确地标记计算机生成的图像序列或视频的信息,而不需要任何人工操作。这样,合成数据平台107有利地消除或减少了注释或标记机器学习数据集的传统方法所需要的人工或人力资源。此外,通过消除人工标记,合成数据平台107还有利地减少了由人工标记动作的主观解释导致的不一致性的人为误差。在一个实施例中,图像生成器203具有指示图像序列中的精确帧或图像的数据,这些精确帧或图像对应于用户通过其场景的模拟和呈现所请求的动作或移动。这样,图像生成器203可以与标记模块205交互以定义表示指定动作和/或参数的标记,然后将标记与计算机生成的视频的一个或多个帧相关联。
例如,如果用户要求合成数据平台107创建计算机生成的视频,描述如图5所示的危险超车操作和潜在碰撞,如图8所示。标记模块205可以自动标记视频,以指示生成了视频的哪些帧来显示所述操作。在一个实施例中,合成图像数据的标记包含将计算机生成的图像序列的帧跨度标记为至少一个动作的正情况或负情况,或者用与至少一个动作相关联的可变参数值(例如,85%的碰撞概率)来标记帧跨度。在图8的实例中,标记模块205自动地用两个标记来标记视频剪辑501:(1)指示危险超车的第一标记与视频片段501的帧10-150相关联;以及(2)第二标记与视频片段100-250的帧501相关联,其指示在5秒内与行人的即将碰撞的概率为85%。注意,图8的实例以人类可读形式呈现标记,但是在一个实施例中,标记通常将被数字地表示并提供为索引的二进制数据。
在一个实施例中,标记模块205可以使用用于模拟动作的呈现或物理引擎来预测可由模拟动作产生的其它潜在场景或结果,即使潜在场景或结果未在计算机产生的视频中呈现或描绘。换句话说,由于在采用不同参数之后通过模拟来规划不同对象的轨迹,所以模拟可以确定3D场景中的对象是否将在任何点处碰撞或潜在地碰撞,而不必详细呈现3D场景。这又提供了用于将计算机生成的视频剪辑自动标记为正/负以包含碰撞或潜在碰撞的指示。如果从序列中描述的动作开始在<=x秒内发生碰撞,则帧或图像序列可以被标记为正。例如,标记模块205可以确定至少一个动作将在时间阈值内将导致一个或多个对象之间的碰撞、侥幸免撞、潜在碰撞或其组合。然后,标记模块205可以标记合成图像数据,以进一步指示碰撞、侥幸免撞、潜在碰撞或其组合。
可以设想,可能的可识别的情况不限于碰撞或潜在碰撞,而是可通过分析在情况发生之前的时刻推断出的任何情况或结果。使用所述推断能力的实施例,可以以更简单的方式生成任何给定位置处的情况或动作的多个变化。这样,训练集可以有利地以高多样性和几乎无限量的样本增长,这在使用实际视频样本时是不可能的。
在自动标记特定情况下的合成图像数据(例如,正或负情况)后,即可将其导出。例如,在步骤307处,数据传送模块207提供标记的合成图像数据,用于训练或评估机器学习模型以检测至少一个动作。在一个实施例中,由用户提供的所述一组参数可以包括用于描述将用于提供合成图像数据的合成图像数据的技术属性的数据集参数。例如,所述技术属性包括标记的合成图像数据的视角、帧大小、帧速率、分辨率、图像序列长度、格式或编解码器、传送选项或其组合。
在一个实施例中,标记的合成图像数据可以作为下载、作为数据流而经由物理介质,或其组合连续地或通过批处理来提供。因此,用户可以选择经由以下方式从数据传送模块207获取数据集:下载;物理介质(例如,CD/DVD/蓝光光盘、HDD、SSD、SD卡、USB存储装置等);流式;等等。例如,标记的合成图像数据的流提供了为特定地理区域/路线所模拟的动作提供基本上无限的图像变化流的可能性。在一个实施例中,数据传送模块207使用访问凭证、计量和/或等效物来使用户能够访问合成数据平台107,并且在一些情况下,向用户收取合成数据服务的费用。客户端应用(例如,在用户装置115上执行的客户端应用程序113)可以经由网络链接(例如,URL)连接到服务以访问合成图像数据流。可替换地,数据传送模块207可以将标记的合成图像数据集推送到预定义的网址(例如,客户端URL)。这样,如果CNN或其它机器学习检测器永久地插入到合成数据平台107的流或其它数据传送服务中,则它们可以有利地不断地训练和改进其检测能力。
除了提供标记的合成图像数据作为服务之外,数据传送模块207还可以提供数据作为产品。例如,如上所述,来自合成数据平台107的所得的一组标记的合成图像序列可以作为批量包传送以供下载,在介质上传送或以供下载。在又一实施例中,合成数据平台107本身可以是集成到其它第三方服务和/或内容提供商中的产品。例如,合成数据平台107(作为产品)可以并入到第三方服务平台117、服务平台117的服务119a-119n(也统称为服务119)中的任何一个、内容提供商121a-121m(也统称为内容提供商121)和/或等同物中。
在一个实施例中,合成数据平台107可以生成标记的合成图像数据集,作为用于训练模型的服务,以在规划路线中安全地导航车辆。例如,预先规划的路线通常覆盖地图的特定区域。虽然在路线上有许多变量,但是路线几何形状和建筑物相当恒定。因此,可以根据本文描述的各种实施例生成标记的合成图像训练集,以包括路线的所有更永久的元素,同时随机化诸如道路质量、道路涂料、其它车辆、行人、骑自行车者、广告海报等特征。安装在车辆101上的CNN或其它机器学习检测器可以在驾驶路线之前接收合成图像数据集,使得所述数据集能够针对路线的细节进一步训练车辆101的机器学习检测器,从而有利地显著提高精确度和安全性。
图9是绘示根据一个实施例的被训练成使用合成图像数据来检测潜在碰撞的CNN检测器的实例用户界面900的示意图。在这个实例中,车辆101装备有包括用于检测潜在碰撞的CNN检测器的系统901。尽管未在图9中示出,但是在一些实施例中,系统901和/或CNN检测器可以包含应用程序113,其在可以安装在车辆101中或者由用户持有的用户装置115(例如,移动电话)上执行。在图9的实例中,诸如图5的视频剪辑501的合成图像数据被流传送或以其它方式传送以训练和/或评估随后放置在车辆101中的CNN检测器。基于所述训练,当车辆101接近学校十字路口区域903时,车辆905在所述区域进行可能导致与行人907碰撞的危险操作。车辆101捕获由车载CNN检测器处理的场景的视频剪辑,导致预测车辆905和行人907之间即将发生的碰撞。然后系统901可以在警报消息909中警告驾驶员即将发生的第三方碰撞。可替换地,如果车辆101是以自主模式运行的自主车辆,则系统901可以与车辆控制系统交互,以自动地修改车辆101的运行,从而避免即将发生的碰撞(例如,改变方向、减速或鸣笛提醒其它车辆905和/或行人907)。
总之,允许所述合成数据平台107的用户选择或描述所选对象的标记动作(例如,动态移动和潜在的其它行为)以及诸如摄像机视点/位置和附加可变性(如环境变量)的参数,提供了学习和预测用于自动驾驶和汽车场景之外的其它应用的复杂行为的潜力。这些其它应用包括但不限于:(1)在过马路不安全时提醒行人;(2)在潜在撞车事故发生前t秒提醒骑自行车者;(3)街头摄影机捕获摩托车危险的车道旁路;等等。
回到图1,如上所述,系统100包括合成数据平台107,用于为机器学习系统103的训练机器学习模型(例如CNN)提供标记的合成图像数据。在一些使用情况下,系统100可以包括计算机视觉系统105,其被配置成使用机器学习来检测图像序列或视频中描绘的对象的动作或动态移动。例如,关于驾驶、导航、制图和/或其它类似的应用,计算机视觉系统105可以根据本文所述的各种实施例,在输入图像序列中检测碰撞、危险情况(例如,危险超车、与前车距离太近、危险摆动等)并生成相关联的预测置信值。在一个实施例中,机器学习系统103包括神经网络或其它机器学习模型,以对检测到的动作和相关特征进行预测。在一个实施例中,机器学习系统103的神经网络是CNN,其由一个或多个神经元(其被配置成处理输入图像的一部分,例如网格单元或感受域)的多层集合组成。在一个实施例中,这些神经元集合(例如,感受层)的感受域可以被配置成对应于由如上所述生成的相应网格单元描绘的输入图像的区域。
在一个实施例中,合成数据平台107具有到训练数据库111以及地理数据库109的连接或访问,训练数据库111用于存储根据本文所述的各种实施例生成的标记的合成图像数据,地理数据库109用于检索地图数据和/或相关属性以创建计算机生成的用户指定动作的视频。在一个实施例中,地理数据库109可以包括映射地理特征的电子或数字表示,以便于生成合成图像数据。在一个实施例中,合成数据平台107、机器学习系统103和/或计算机视觉系统105通过通信网络116连接到提供一个或多个服务119的服务平台117。例如,服务119可以是依赖于使用合成图像数据训练的机器学习模型的第三方服务。例如,服务119包括但不限于地图服务、导航服务、旅行规划服务、通知服务、社交网络服务、内容(例如,音频、视频、图像等)供应服务、应用服务、存储服务、上下文信息确定服务、基于位置的服务、基于信息的服务(例如,天气、新闻等)等。在一个实施例中,服务119使用采用标记的合成图像数据进行机器学习的合成数据平台107、机器学习系统103和/或计算机视觉系统105的输出。
在一个实施例中,合成数据平台107、机器学习系统103和/或计算机视觉系统105可以是具有多个互连组件的平台。合成数据平台107、机器学习系统103和/或计算机视觉系统105可以包括多个服务器、智能联网装置、计算装置、组件和用于生成用于机器学习的标记合成图像数据的相应软件。另外,注意,合成数据平台107、机器学习系统103和/或计算机视觉系统105可以是系统100、一个或多个服务119的一部分、服务平台117的一部分的单独实体,或者包括在用户装置115和/或车辆101内。
在一个实施例中,内容提供商121可以向合成数据平台107、机器学习系统103、计算机视觉系统105、服务平台117、服务119、用户装置115、车辆101和/或在用户装置115上执行的应用程序113提供内容或数据(例如,包括地理数据、3D模型、映射特征的参数表示等)。所提供的内容可以是用于生成标记的合成图像数据的任何类型的内容,例如地图内容、文本内容、音频内容、视频内容、图像内容等。在一个实施例中,内容提供商121可以提供也可以帮助生成合成图像数据的内容。在一个实施例中,内容提供商121还可以存储与合成数据平台107、地理数据库109、机器学习系统103、计算机视觉系统105、服务平台117、服务119、用户装置115和/或车辆101相关联的内容。在另一实施例中,内容提供商121可以管理对数据的中央储存库的访问,并向诸如地理数据库109的储存库等数据提供一致的标准接口。
在一个实施例中,用户装置115和/或车辆101可以执行软件应用程序113以捕获图像数据或其它观察数据,用于由根据本文所述的实施例的冗余特征检测引擎进行处理。例如,应用程序113还可以是可在用户装置115和/或车辆101上执行的任何类型的应用程序,诸如自主驾驶应用程序、地图绘制应用程序、基于位置的服务应用程序、导航应用程序、内容供应服务、摄像机/成像应用程序、媒体播放器应用程序、社交网络应用程序、日历应用程序等。在一个实施例中,应用程序113可以充当机器学习系统103和/或计算机视觉系统105的客户端,并且执行与单独或与机器学习系统103相结合地提供冗余特征检测引擎相关联的一个或多个功能。
例如,用户装置115是任何类型的计算机系统、嵌入式系统、移动终端、固定终端或便携式终端,包括内置导航系统、个人导航装置、移动手机、站、单元、装置、多媒体计算机、多媒体平板、因特网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、网络书计算机、平板计算机、个人通信系统(PCS)装置、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位装置、健身装置、电视接收机、无线电广播接收机、电子书装置、游戏装置或其任何组合,包括这些装置的附件和外围装置或其任何组合。还可以设想,用户装置115可以支持与用户的任何类型的接口(例如“可佩戴”电路等)。在一个实施例中,用户装置115可以与车辆101相关联或者是车辆101的组成部分。
在一个任选的实施例中,用户装置115和/或车辆101被配置成有用于生成或收集环境图像数据(例如,用于由机器学习系统103和/或计算机视觉系统105处理)、相关地理数据等的各种传感器。在一个实施例中,所感测的数据表示与收集传感器数据的地理位置或坐标相关联的传感器数据。这样,传感器数据可以充当可由机器学习系统103处理的观测数据,机器学习系统103使用由合成数据平台107生成的合成图像数据进行训练和/或评估。例如,传感器可以包括用于收集位置数据的全球定位传感器(例如,GPS)、用于检测无线信号的网络检测传感器或用于不同短距离通信(例如,蓝牙、Wi-Fi、Li-Fi、近场通信(NFC)等)的接收机、时间信息传感器、用于收集图像数据的摄像机/成像传感器(例如,摄像机传感器可以自动捕获道路标志信息、道路障碍物的图像等用于分析)、用于收集音频数据的音频记录器、安装在车辆方向盘上的速度传感器、用于确定一个或多个车辆开关是否接合的开关传感器等。
用户装置115和/或车辆101的任选的传感器的其它实例可以包括光传感器、增加了高度传感器和加速度传感器的方位传感器(例如,加速度计可以测量加速度并且可以用于确定车辆的方位)、用于检测车辆沿着行进路径的倾斜或下倾程度的倾斜传感器、湿度传感器、压力传感器等。在另一实例实施例中,关于用户装置115和/或车辆101的周边的传感器可以检测车辆与车道或道路的相对距离,其它车辆、行人、交通灯、坑洼和任何其它物体的存在,或其组合。在一个场景中,传感器可以检测天气数据、交通信息或其组合。在一个实施例中,用户装置115和/或车辆101可以包括GPS或其它基于卫星的接收器,以获取地理坐标或用于确定来自卫星123的坐标的信号。此外,可以通过视觉里程计、诸如A-GPS的三角测量系统、源小区或其它位置推断技术来确定位置。在又一实施例中,传感器可以确定汽车的各种控制元件的状态,例如雨刷的启动、制动踏板的使用、加速踏板的使用、方向盘的角度、危险警告灯的启动、前灯的启动等。
在另一任选的实施例中,系统100的通信网络116包括一个或多个网络,例如数据网络、无线网络、电话网络或其任意组合。可以设想,数据网络可以是任何局域网(LAN)、城域网(MAN)、广域网(WAN)、公共数据网络(例如因特网)、短程无线网络,或任何其它合适的分组交换网络,例如商业上拥有的专有分组交换网络,例如专有电缆或光纤网络等,或其任何组合。此外,无线网络可以是例如蜂窝网络,并且可以采用各种技术,包括全域进化增强资料率(EDGE)、通用分组无线业务(GPRS)、全球移动通信系统(GSM)、网络协议多媒体子系统(IMS)、通用移动电信系统(UMTS)等,以及任何其它合适的无线介质,例如微波接入的全球互操作性(WiMAX)、长期演进(LTE)网络、码分多址(CDMA)、宽带码分多址(WCDMA)、无线保真(Wi-Fi)、无线LAN(WLAN)、因特网协议(IP)数据广播、卫星、移动自组织网络(MANET)等,或其任何组合。
例如,合成数据平台107、机器学习系统103、计算机视觉系统105、服务平台117、服务119、用户装置115、车辆101和/或内容提供商121任选地使用公知的、新的或仍在开发的协议来彼此通信以及与系统100的其它组件通信。在此上下文中,协议包括定义通信网络116内的网络节点如何基于通过通信链路发送的信息彼此交互的一组规则。这些协议在每个节点内的不同操作层是有效的,从生成和接收各种类型的物理信号,到选择用于传输这些信号的链路,到由这些信号指示的信息的格式,到识别在计算机系统上执行的哪个软件应用发送或接收信息。在开放系统互连(OSI)参考模型中描述了用于通过网络交换信息的概念上不同的协议层。
网络节点之间的通信通常通过交换离散的数据包来实施。每个包通常包含(1)与特定协议相关联的报头信息,以及(2)在报头信息之后并且包含可以独立于所述特定协议处理的信息的有效载荷信息。在一些协议中,包括(3)跟随有效载荷并指示有效载荷信息结束的尾部信息。报头包括诸如包的源、其目的地、有效载荷的长度以及协议所使用的其它属性等信息。通常,特定协议的有效载荷中的数据包括与OSI参考模型的不同的较高层相关联的不同协议的报头和有效载荷。特定协议的报头通常指示其有效载荷中包含的下一协议的类型。较高层协议被称为封装在较低层协议中。穿越多个异构网络(例如因特网)的包中所包括的报头通常包括物理(第1层)报头、数据链路(第2层)报头、互联网络(第3层)报头和传输(第4层)报头,以及如OSI参考模型所定义的各种应用(第5层、第6层和第7层)报头。
图10是根据一个实施例的地理数据库的示意图。在一个实施例中,地理数据库109包括用于(或被配置成被编译以用于)映射和/或导航相关服务的地理数据1001,例如用于基于符号的参数表示的视频测距,包括例如将参数表示编码和/或解码为符号的对象模型。在一个实施例中,使用多边形(例如,二维特征)或多边形挤出(例如,三维特征)来表示地理特征(例如,二维或三维特征)。例如,多边形的边对应于各个地理特征的边界或边。在建筑物的情况下,二维多边形可用于表示建筑物的覆盖区,而三维多边形突起可用于表示建筑物的三维表面。可以设想,尽管针对二维多边形讨论了各种实施例,但是可以设想,这些实施例也适用于三维多边形挤出。因此,这里使用的术语多边形和多边形挤出可以互换使用。
在一个实施例中,以下术语适用于地理数据库109中的地理特征的表示。
“节点”——终止链路的点。
“线段”——连接两点的直线。
“链路”(或“边缘”)——一个或多个线段的连续的、非分支的串,其在每一端的节点处终止。
“形状点”——沿着两个节点之间的链路的点(例如,用于改变链路的形状而不定义新节点)。
“定向链路”——具有起始节点(称为“参考节点”)和结束节点(称为“非参考节点”)的链路。
“简单多边形”——由在一个节点中开始和结束的定向链路串形成的外部边界的内部区域。在一个实施例中,简单多边形本身不交叉。
“多边形”——-由外边界和无或至少一个内边界(例如孔或岛)界定的区域。在一个实施例中,多边形由一个外部简单多边形而不由或由至少一个内部简单多边形构成。如果多边形仅由一个简单多边形组成,则它是简单的,或者如果它具有至少一个内部简单多边形,则它是复杂的。
在一个实施例中,地理数据库109遵循某些约定。例如,链路本身不交叉,并且除了在节点处之外彼此不交叉。此外,没有重复的形状点、节点或链路。相互连接的两条链路有一个公共节点。在地理数据库109中,重叠的地理特征由重叠的多边形表示。当多边形重叠时,一个多边形的边界与另一个多边形的边界相交。在地理数据库109中,一个多边形的边界与另一个多边形的边界相交的位置由节点表示。在一个实施例中,可以使用节点来表示沿着多边形的边界的其它位置,而不是多边形的边界与另一个多边形的边界相交的位置。在一个实施例中,形状点不用于表示多边形的边界与另一多边形的边界相交的点。
如图所示,地理数据库109包括例如节点数据记录1003、路段或链路数据记录1005、POI数据记录1007、合成图像数据记录1009、其它记录1011和索引1013。可以提供更多、更少或不同的数据记录。在一个实施例中,附加数据记录(未示出)可以包括制图(“carto”)数据记录、路线选择数据和操纵数据。在一个实施例中,索引1013可以提高地理数据库109中的数据检索操作的速度。在一个实施例中,索引1013可以用于快速定位数据,而不必在每次访问时搜索地理数据库109中的每一行。例如,在一个实施例中,索引1013可以是与所存储的特征多边形相关联的多边形点的空间索引。
在示范性实施例中,路段数据记录1005是表示道路、街道或路径的链路或路段,如可以在计算出的路线或记录的路线信息中用于确定一个或多个个性化路线。节点数据记录1003是与路段数据记录1005的各个链路或路段相对应的端点。路段链路数据记录1005和节点数据记录1003表示例如由车辆、汽车和/或其它实体使用的道路网络。可替换地,地图数据库109可以含有路径线段和节点数据记录,或者例如在车辆道路记录数据之外或替代车辆道路记录数据可以表示行人路径或区域的其它数据。
路段/链路段和节点可以与属性(诸如地理坐标、街道名称、地址范围、速度限制、交叉路口处的转弯限制以及其它导航相关属性)以及POI(诸如加油站、旅馆、餐馆、博物馆、体育场馆、办公室、汽车经销商、汽车修理商店、建筑物、商店、公园等)相关联。地图数据库109可以包括关于POI及其在POI数据记录1007中的它们相应位置的数据。地图数据库109还可以包括关于地方(诸如城市、城镇或其它社区)以及其它地理特征(诸如水体、山脉等)的数据。此类地方或特征数据可以是POI数据记录1007的一部分,或者可以与POI或POI数据记录1007(诸如用于显示或表示城市位置的数据点)相关联。
在一个实施例中,地理数据库109还可以包括合成图像记录1009,用于存储标记的合成图像数据(例如,作为训练数据库111中的存储的替代或补充),用于生成标记的合成图像数据的数据,和/或任何相关数据。在一个实施例中,合成图像数据记录1009可以与节点记录1003、路段记录1005和/或POI数据记录1007中的一个或多个相关联,以将合成图像数据与特定地理位置相关联。这样,标记的合成图像数据也可以与相应记录1003、1005和/或1007的特征或元数据相关联。
在一个实施例中,地理数据库109可以由内容提供商121与服务平台117(例如,地图开发商)相关联地维护。地图开发商可以收集地理数据以生成和增强地理数据库109。地图开发商可以使用不同的方式来收集数据。这些方式可以包括从其它源(诸如市政当局或相应的地理机构)获取数据。另外,地图开发商可以雇用现场人员通过车辆(例如,车辆101和/或用户装置115)沿遍及地理区域的道路行进以例如观察特征和/或记录关于其的信息。还可以使用航空或卫星摄影等遥感技术。
地理数据库109可以是以有助于更新、维护和开发的格式存储的主地理数据库。例如,主地图数据库或主地图数据库中的数据可以是诸如用于开发或生产目的Oracle空间格式或其它空间格式。Oracle空间格式或开发/生产数据库可以编译成传送格式(诸如地理数据文件(GDF)格式)。呈生产和/或输送格式的数据可以被编译或进一步编译以形成可以在终端用户导航装置或系统中使用的地理数据库产品或数据库。
例如,地理数据可以被编译(诸如编译成平台规范格式(PSF)格式)以组织和/或配置用于通过导航装置(诸如,通过车辆101或用户装置115)执行与导航相关的功能和/或服务,诸如路线计算、路线引导、地图显示、速度计算、距离和行进时间功能以及其它功能。导航相关功能可以对应于车辆导航、行人导航或其它类型的导航。产生最终用户数据库的编译可以由与地图开发者分开的一方或实体来执行。例如,地图开发商(诸如导航装置开发商或其它终端用户装置开发商)的消费者可以对所接收的地图数据库以输送格式执行编译以产生一个或多个经编译的导航数据库。
可以通过软件、硬件(例如通用处理器、数字信号处理(DSP)芯片、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等)、固件或其组合来有利地实施本文所述的用于生成用于机器学习的标记合成图像数据的过程。下面详细描述用于执行所述功能的此类示范性硬件。
图11绘示了可以在其上实施本发明的实施例的计算机系统1100。计算机系统1100被编程(例如,经由计算机程序代码或指令)以生成用于如本文所述的机器学习的标记的合成图像数据,并且包括诸如总线1110的通信机制以在计算机系统1100的其它内部和外部组件之间传递信息。信息(也称为数据)被表示为可测量现象的物理表示,通常为电压,但在其它实施例中包括诸如磁、电磁、压力、化学、生物、分子、原子、亚原子和量子相互作用等现象。例如,南北磁场,或零和非零电压,表示二进制数字(比特)的两种状态(0,1)。其它现象可以表示更高基数的数字。测量前多个同步量子态的叠加表示量子位(量子位)。一个或多个数字的序列构成用于表示字符的数字或代码的数字数据。在一些实施例中,称为模拟数据的信息由特定范围内的可测量值的近连续体表示。
总线1110包括信息的一个或多个并行导线,使得信息在联接到总线1110的装置之间快速传输。用于处理信息的一个或多个处理器1102与总线1110联接。
处理器1102对由计算机程序代码指定的信息执行一组操作,所述计算机程序代码与生成用于机器学习的标记合成图像数据有关。计算机程序代码是提供用于处理器和/或计算机系统的操作以执行指定功能的指令的一组指令或语句。代码例如可以用编译成处理器的本地指令集的计算机编程语言来编写。还可以使用本地指令集(例如,机器语言)直接编写代码。所述一组操作包括从总线1110引入信息以及在总线1110上放置信息。所述一组操作通常还包括比较两个或更多个信息单元、移位信息单元的位置,以及组合两个或更多个信息单元,例如通过加法或乘法或类似OR、异或(XOR)和AND等逻辑运算。可以由处理器执行的所述一组操作中的每个操作由称为指令的信息(例如一个或多个数字的操作代码)表示给处理器。由处理器1102执行的操作序列,例如操作代码序列,构成处理器指令,也称为计算机系统指令或简单地称为计算机指令。处理器可以单独地或组合地实施为机械、电气、磁性、光学、化学或量子组件。
计算机系统1100还包括存储器1104,其联接到总线1110。诸如随机存取存储器(RAM)或其它动态存储装置之类的存储器1104存储包括用于生成用于机器学习的标记合成图像数据的处理器指令的信息。动态存储器允许计算机系统1100改变存储在其中的信息。RAM允许存储在称为存储器地址的位置处的信息单元独立于相邻地址处的信息而进行存储和检索。存储器1104还由处理器1102用于在处理器指令的执行期间存储临时值。计算机系统1100还包括只读存储器(ROM)1106或其它静态存储装置,其联接到总线1110,用于存储包括指令的静态信息,所述静态信息不被计算机系统1100改变。一些存储器由易失性存储器组成,其在断电时丢失存储在其上的信息。联接到总线1110的还有非易失性(持久性)存储装置1108,诸如磁盘、光盘或闪存卡,用于存储包括指令的信息,所述信息即使在计算机系统1100关闭或以其它方式断电时也会持续存在。
包括用于生成用于机器学习的标记的合成图像数据的指令的信息从外部输入装置1112(例如包含由人类用户操作的字母数字键的键盘或传感器)被提供给总线1110以供处理器使用。传感器检测其附近的条件,并将这些检测转换为与用于表示计算机系统1100中的信息的可测量现象兼容的物理表达。联接到总线1110的主要用于与人交互的其它外部装置包括:显示装置1114,诸如阴极射线管(CRT)或液晶显示器(LCD),或用于呈现文本或图像的等离子屏幕或打印机;以及指针装置1116,诸如鼠标或跟踪球或光标方向键,或运动传感器,用于控制在显示器1114上呈现的小光标图像的位置并发出与在显示器1114上呈现的图形元素相关联的命令。在一些实施例中,例如,在计算机系统1100自动执行所有功能而无需人工输入的实施例中,省略了外部输入装置1112、显示装置1114和指针装置1116中的一个或多个。
在所绘示实施例中,诸如专用集成电路(ASIC)1120的专用硬件联接到总线1110。专用硬件被配置成足够快地执行处理器1102没有执行的操作以用于特殊目的。专用IC的实例包括用于生成用于显示器1114的图像的图形加速器卡、用于对通过网络发送的消息进行加密和解密的密码板、语音识别,以及到诸如机器人臂和医学扫描装置之类的特殊外部装置的接口,所述特殊外部装置重复地执行在硬件中更有效地实施的一些复杂操作序列。
计算机系统1100还包括联接到总线1110的通信接口1170的一个或多个实例。通信接口1170提供与各种外部装置的单向或双向通信联接,这些外部装置使用其自己的处理器进行操作,例如打印机、扫描仪和外部磁盘。通常,联接通过网络链路1178实施,其连接到本地网络1180,具有自己的处理器的各种外部装置连接到本地网络1180。例如,通信接口1170可以是个人计算机上的并行端口或串行端口或通用串行总线(USB)端口。在一些实施例中,通信接口1170是提供到相应类型的电话线的信息通信连接的综合业务数字网(ISDN)卡或数字用户线(DSL)卡或电话调制解调器。在一些实施例中,通信接口1170是电缆调制解调器,其将总线1110上的信号转换成用于同轴电缆上的通信连接的信号或转换成用于光纤电缆上的通信连接的光信号。作为另一实例,通信接口1170可以是局域网(LAN)卡,以提供到兼容LAN(例如以太网)的数据通信连接。也可以实施无线链路。对于无线链路,通信接口1170发送或接收或同时发送和接收电、声或电磁信号,包括红外和光信号,这些信号携带诸如数字数据的信息流。例如,在无线手持装置中,诸如蜂窝电话之类的移动电话,通信接口1170包括被称为无线电收发器的无线电频带电磁发射器和接收器。在某些实施例中,通信接口1170使得能够连接到通信网络116,以生成用于机器学习的标记的合成图像数据。
本文使用的术语计算机可读介质是指参与向处理器1102提供信息的任何介质,包括用于执行的指令。此类介质可以采取多种形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘或磁盘,诸如存储装置1108。易失性介质包括例如动态存储器1104。传输介质包括,例如,同轴电缆、铜线、光纤电缆,以及在没有电线或电缆的情况下通过空间传播的载波,诸如声波和电磁波,包括无线电波、光波和红外波。信号包括通过传输介质传输的幅度、频率、相位、极化或其它物理特性的人为瞬时变化。计算机可读介质的常见形式包括,例如,软驱、软盘,硬盘、磁带、任何其它磁性介质、CD-ROM、CDRW、DVD、任何其它光学介质、穿孔卡片、纸带、光学标记片、具有孔图案或其它光学可识别标记的任何其它物理介质、RAM、PROM、EPROM、FLASH-EPROM、任何其它存储器芯片或盒式磁带、载波,或计算机可从中读取的任何其它介质。
图12绘示了可在其上实施本发明的实施例的芯片组1200。芯片组1200被编程以生成用于如本文所述的机器学习的标记合成图像数据,并且包括例如结合在一个或多个物理封装(例如芯片)中的关于图11所述的处理器和存储器组件。例如,物理封装包括结构组件(例如基板)上的一个或多个材料、组件和/或导线的布置,以提供一个或多个特性,例如物理强度、尺寸守恒和/或电交互作用的限制。可以设想,在某些实施例中,芯片组可以在单个芯片中实施。
在一个实施例中,芯片组1200包括诸如总线1201的通信机制,用于在芯片组1200的组件之间传递信息。处理器1203连接到总线1201以执行指令并处理存储在例如存储器1205中的信息。处理器1203可以包括一个或多个处理核,每个核被配置成独立地执行。多核处理器使得能够在单个物理包内实施多处理。多核处理器的实例包括两个、四个、八个或更多数量的处理核。可替换地或另外,处理器1203可以包括经由总线1201串联配置的一个或多个微处理器,以使得能够独立地执行指令、流水线操作和多线程。处理器1203还可以伴随有一个或多个专用组件以执行某些处理功能和任务,例如一个或多个数字信号处理器(DSP)1207,或者一个或多个专用集成电路(ASIC)1209。DSP 1207通常被配置成独立于处理器1203实时地处理真实世界信号(例如,声音)。类似地,ASIC 1209可以被配置成执行通用处理器不容易执行的专用功能。用于协助执行本文所述的本发明功能的其它专用组件包括一个或多个现场可编程门阵列(FPGA)(未示出)、一个或多个控制器(未示出),或一个或多个其它专用计算机芯片。
处理器1203和伴随的组件通过总线1201与存储器1205连接。存储器1205包括用于存储可执行指令的动态存储器(例如,RAM、磁盘、可写光盘等)和静态存储器(例如,ROM、CD-ROM等),所述可执行指令在被执行时执行本文所述的本发明的步骤以生成用于机器学习的标记的合成图像数据。存储器1205还存储与本发明步骤的执行相关联或由其生成的数据。
图13是根据一个实施例的能够在图1的系统中操作的移动台(例如,手机)的示范性组件的示意图。通常,无线电接收器通常根据前端和后端特性来定义。接收器的前端包括所有射频(RF)电路,而后端包括所有基带处理电路。电话的相关内部组件包括主控制单元(MCU)1303、数字信号处理器(DSP)1305以及包括麦克风增益控制单元和扬声器增益控制单元的接收器/发射器单元。主显示单元1307向用户提供支持提供自动联系匹配的各种应用和移动台功能的显示。音频功能电路1309包括麦克风1311和放大从麦克风1311输出的语音信号的麦克风放大器。从麦克风1311输出的放大的语音信号被馈送到编码器/解码器(CODEC)1313。
无线电部分1315放大功率并转换频率,以便经由天线1317与包括在移动通信系统中的基站通信。功率放大器(PA)1319和发射器/调制电路可操作地响应于MCU 1303,来自PA1319的输出联接到双工器1321或循环器或天线开关,如本领域已知的。PA1319还联接到电池接口和功率控制单元1320。
在使用中,移动台1301的用户对着麦克风1311讲话,并且他或她的语音连同任何检测到的背景噪声一起被转换成模拟电压。然后通过模数转换器(ADC)1323将模拟电压转换成数字信号。控制单元1303将数字信号路由到DSP 1305中,以便在其中进行处理,例如语音编码、信道编码、加密和交织。在一个实施例中,使用诸如全球演进(EDGE)、通用分组无线业务(GPRS)、全球移动通信系统(GSM)、因特网协议多媒体子系统(IMS)、通用移动电信系统(UMTS)等的蜂窝传输协议以及任何其它合适的无线介质(例如,微波接入(WiMAX)、长期演进(LTE)网络、码分多址(CDMA)、无线保真(WiFi)、卫星等),由未单独示出的单元对处理后的语音信号进行编码。
编码信号然后被路由到均衡器1325,用于补偿在通过空气的传输期间发生的任何频率相关的损伤,诸如相位和幅度失真。在对比特流进行均衡之后,调制器1327将信号与在RF接口1329中生成的RF信号合并。调制器1327通过频率或相位调制生成正弦波。为了准备用于传输的信号,上变频器1331将从调制器1327输出的正弦波与合成器1333生成的另一正弦波组合,以实施期望的传输频率。然后通过PA1319发送所述信号,以将所述信号增加到适当的功率电平。在实际系统中,PA1319作为可变增益放大器,其增益由DSP 1305根据从网络基站接收的信息来控制。然后在双工器1321中对信号进行滤波,并且任选地将其发送到天线耦合器1335以匹配阻抗,从而提供最大功率传输。最后,信号通过天线1317传输到本地基站。可以提供自动增益控制(AGC)以控制接收器末级的增益。信号可以从那里转发到远程电话,所述远程电话可以是另一个蜂窝电话,其它移动电话或连接到公共交换电话网(PSTN)或其它电话网络的陆线。
传输到移动站1301的语音信号通过天线1317被接收,并立即由低噪声放大器(LNA)1337放大。下变频器1339降低载波频率,而解调器1341剥离RF,只留下数字比特流。然后信号通过均衡器1325并由DSP 1305处理。数模转换器(DAC)1343对信号进行转换,并且通过扬声器1345将所得到的输出传输到用户,所有这些都在主控制单元(MCU)1303的控制下——主控制单元可以实施为中央处理单元(CPU)(未示出)。
MCU 1303接收各种信号,包括来自键盘1347的输入信号。键盘1347及/或MCU 1303与其它用户输入组件(例如,麦克风1311)组合包含用于管理用户输入的用户接口电路。微控制单元(MCU)1303运行用户接口软件,以便于用户控制移动台1301的至少一些功能,从而生成用于机器学习的标记合成图像数据。MCU 1303还分别传送显示命令及切换命令至显示器1307及语音输出切换控制器。此外,MCU1303与DSP 1305交换信息,并且可以访问任选地结合的SIM卡1349和存储器1351。另外,MCU 1303执行工作站所需的各种控制功能。根据实施形式,DSP 1305可以对语音信号执行多种传统数字处理功能中的任何一种。另外,DSP1305根据麦克风1311检测到的信号确定本地环境的背景噪声电平,并将麦克风1311的增益设置为选择用来补偿移动台1301的用户的自然倾向的电平。
CODEC 1313包括ADC 1323和DAC 1343。存储器1351存储包括呼入音调数据的各种数据,并且能够存储包括经由例如全球因特网接收的音乐数据的其它数据。软件模块可驻存于RAM存储器、快闪存储器、寄存器或本技术领域已知的任何其它形式的可写入的计算机可读存储介质(包括非暂时性计算机可读存储介质)中。例如,存储装置1351可以是,但不限于,单个存储器、CD、DVD、ROM、RAM、EEPROM、光存储器,或能够存储数字数据的任何其它非易失性或非暂时存储介质。
任选地结合的SIM卡1349携带例如重要信息,诸如蜂窝电话号码、运营商提供服务、订购细节和安全信息。SIM卡1349主要用于识别无线电网络上的移动台1301。卡1349还包含用于存储个人电话号码注册表、文本消息和用户特定移动台设置的存储器。
尽管已经结合多个实施例和实施方式描述了本发明,但是本发明并不限于此,而是涵盖了落入所附权利要求的范围内的各种明显的修改和等同布置。尽管本发明的特征以权利要求中的某些组合进行表达,但是可以设想这些特征可以以任何组合和顺序来布置。
Claims (20)
1.一种计算机实施的方法,其包含:
由处理器确定用于指示一个或多个对象的至少一个动作的一组参数,其中所述至少一个动作是所述一个或多个对象在一段时间内通过地理空间的动态移动;
处理所述一组参数以生成合成图像数据,其中所述合成图像数据包括在所述一段时间内在所述地理空间中执行所述至少一个动作的所述一个或多个对象的计算机生成的图像序列;
利用表示所述至少一个动作、所述一组参数或其组合的至少一个标记来自动标记所述合成图像数据;以及
提供标记的合成图像数据,用于训练或评估机器学习模型以检测所述至少一个动作。
2.根据权利要求1所述的方法,其中所述至少一个动作与汽车场景有关,并且所述一个或多个对象包括车辆、行人、骑自行车者、动物、道路、道路碎屑、道路对象或其组合。
3.根据权利要求1所述的方法,其进一步包含:
确定所述至少一个动作在时间阈值内将导致所述一个或多个对象之间的碰撞、侥幸免撞、潜在碰撞、危险驾驶行为或任何其它值得注意的动作或其组合;以及
标记所述合成图像数据以进一步指示所述碰撞、所述侥幸免撞、所述潜在碰撞、所述危险驾驶行为或所述任何其它值得注意的动作,或其组合。
4.根据权利要求1所述的方法,其中所述合成图像数据的所述标记包含将所述计算机生成的图像序列的帧跨度标记为所述至少一个动作的正情况或负情况,或者用与所述至少一个动作相关联的可变参数值来标记所述帧跨度。
5.根据权利要求1所述的方法,其中所述标记的合成图像数据作为下载、作为数据流而经由物理介质或其组合连续地或通过批处理来提供。
6.根据权利要求1所述的方法,其进一步包含:
确定与所述计算机生成的图像序列相关联的一个或多个可随机化的呈现变量;以及
随机化所述一个或多个可随机化的呈现变量以生成所述合成图像数据。
7.根据权利要求1所述的方法,其中所述一组参数包括描述所述至少一个动作的类型的动作参数,并且其中所述至少一个动作的所述类型包括:无法在安全距离处驾驶、超速行驶、无法给车辆让路、闯红灯、在错误的方向上驾驶、受伤后驾驶、即将发生的碰撞、事故、行人或动物过路、安全或危险的超车、危险的驾驶行为,或其组合。
8.根据权利要求1所述的方法,其中所述一组参数包括描述所述地理空间的环境参数、描述所述一个或多个对象的类型的对象参数,或其组合。
9.根据权利要求1所述的方法,其进一步包含:
向地理数据库查询与所述地理空间相关联的地图数据;以及
基于所述地图数据在所述计算机生成的图像序列中呈现所述地理区域。
10.根据权利要求1所述的方法,其进一步包括:
基于感兴趣区域、起点-目的地对、导航路线、道路几何形状、事故率或其组合来选择所述地理区域。
11.根据权利要求1所述的方法,其中所述一组参数包括用于描述所述合成图像数据的技术属性的数据集参数,并且其中所述技术属性包括所述标记的合成图像数据的视角、帧大小、帧速率、分辨率、图像序列长度、格式或编解码器、传送选项或其组合。
12.根据权利要求1所述的方法,其进一步包含:
基于所述机器学习模型的目标类推性来改变所述计算机生成的图像序列中的所述一个或多个对象、所述地理空间或其它对象的呈现的细节水平或抽象程度。
13.根据权利要求1所述的方法,其进一步包含:
基于所述地理空间确定要在所述计算机生成的图像序列中呈现的一个或多个背景对象。
14.一种设备,其包含:
至少一个处理器;以及
至少一个存储器,其包括用于一个或多个程序的计算机程序代码,
所述至少一个存储器和所述计算机程序代码被配置成与所述至少一个处理器一起使得所述设备执行至少以下操作:
处理指示一个或多个对象的至少一个动作的一组参数以生成合成图像数据,其中所述合成图像数据包括在一段时间内在地理空间中执行所述至少一个动作的所述一个或多个对象的计算机生成的图像序列;
利用表示所述至少一个动作、所述一组参数或其组合的至少一个标记来自动标记所述合成图像数据;以及
提供标记的合成图像数据,用于训练或评估机器学习模型以检测所述至少一个动作。
15.根据权利要求1所述的设备,其中所述至少一个动作与汽车场景有关,并且所述一个或多个对象包括车辆、行人、骑自行车者、动物、道路、道路碎屑、道路对象或其组合。
16.根据权利要求1所述的设备,其中所述设备进一步使得:
确定所述至少一个动作在时间阈值内将导致所述一个或多个对象之间的碰撞;以及
标记所述合成图像数据以进一步指示所述碰撞。
17.根据权利要求1所述的设备,其中所述合成图像数据的所述标记使得所述设备将所述计算机生成的生成图像序列的每个帧标记为所述至少一个动作的正情况或负情况,或者利用与所述至少一个动作相关联的可变参数值来标记所述每个帧。
18.一种非暂时性计算机可读存储介质,其携载一个或多个指令的一个或多个序列,所述指令在由一个或多个处理器执行时使得设备执行:
处理指示一个或多个对象的至少一个动作的一组参数以生成合成图像数据,其中所述合成图像数据包括在一段时间内在地理空间中执行所述至少一个动作的所述一个或多个对象的计算机生成的图像序列;
利用表示所述至少一个动作、所述一组参数或其组合的至少一个标记来自动标记所述合成图像数据;以及
提供标记的合成图像数据,用于训练或评估机器学习模型以检测所述至少一个动作。
19.根据权利要求1所述的非暂时性计算机可读存储介质,其中所述至少一个动作与汽车场景有关,并且所述一个或多个对象包括车辆、行人、骑自行车者、动物、道路碎屑、道路对象或其组合。
20.根据权利要求1所述的非暂时性计算机可读存储介质,其中所述一组参数包括用于描述所述合成图像数据的用户定义属性的数据集参数,并且其中所述用户定义属性包括所述标记的合成图像数据的视角、帧大小、帧速率、分辨率、图像序列长度、格式或编解码器、传送选项或其组合。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/858,772 US10755115B2 (en) | 2017-12-29 | 2017-12-29 | Method, apparatus, and system for generating synthetic image data for machine learning |
US15/858,772 | 2017-12-29 | ||
PCT/EP2018/097037 WO2019129819A1 (en) | 2017-12-29 | 2018-12-27 | Method, apparatus, and system for generating synthetic image data for machine learning |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111566664A true CN111566664A (zh) | 2020-08-21 |
CN111566664B CN111566664B (zh) | 2024-04-05 |
Family
ID=65009736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880084403.5A Active CN111566664B (zh) | 2017-12-29 | 2018-12-27 | 用于生成用于机器学习的合成图像数据的方法、设备和系统 |
Country Status (4)
Country | Link |
---|---|
US (2) | US10755115B2 (zh) |
EP (1) | EP3732618A1 (zh) |
CN (1) | CN111566664B (zh) |
WO (1) | WO2019129819A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284201A (zh) * | 2021-05-27 | 2021-08-20 | 杭州睿影科技有限公司 | 安检图像的生成方法、安检系统及存储介质 |
CN113742630A (zh) * | 2021-09-16 | 2021-12-03 | 阿里巴巴新加坡控股有限公司 | 图像处理方法、电子设备及计算机存储介质 |
Families Citing this family (86)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10678244B2 (en) | 2017-03-23 | 2020-06-09 | Tesla, Inc. | Data synthesis for autonomous control systems |
US10671349B2 (en) | 2017-07-24 | 2020-06-02 | Tesla, Inc. | Accelerated mathematical engine |
US11893393B2 (en) | 2017-07-24 | 2024-02-06 | Tesla, Inc. | Computational array microprocessor system with hardware arbiter managing memory requests |
US11409692B2 (en) | 2017-07-24 | 2022-08-09 | Tesla, Inc. | Vector computational unit |
US11157441B2 (en) | 2017-07-24 | 2021-10-26 | Tesla, Inc. | Computational array microprocessor system using non-consecutive data formatting |
US10528950B2 (en) * | 2017-08-02 | 2020-01-07 | Cognizant Technology Solutions India Pvt. Ltd. | System and a method for detecting fraudulent transactions at a transaction site |
DE102017217005A1 (de) * | 2017-09-26 | 2019-03-28 | Robert Bosch Gmbh | Verfahren zum Ermitteln der Steigung einer Fahrbahn |
US10739773B2 (en) * | 2017-09-28 | 2020-08-11 | Nec Corporation | Generative adversarial inverse trajectory optimization for probabilistic vehicle forecasting |
US11640561B2 (en) | 2018-12-13 | 2023-05-02 | Diveplane Corporation | Dataset quality for synthetic data generation in computer-based reasoning systems |
US11625625B2 (en) | 2018-12-13 | 2023-04-11 | Diveplane Corporation | Synthetic data generation in computer-based reasoning systems |
US11727286B2 (en) | 2018-12-13 | 2023-08-15 | Diveplane Corporation | Identifier contribution allocation in synthetic data generation in computer-based reasoning systems |
US11669769B2 (en) | 2018-12-13 | 2023-06-06 | Diveplane Corporation | Conditioned synthetic data generation in computer-based reasoning systems |
US11676069B2 (en) | 2018-12-13 | 2023-06-13 | Diveplane Corporation | Synthetic data generation using anonymity preservation in computer-based reasoning systems |
US10745006B2 (en) * | 2018-02-01 | 2020-08-18 | GM Global Technology Operations LLC | Managing automated driving complexity of the forward path using perception system measures |
US11561791B2 (en) | 2018-02-01 | 2023-01-24 | Tesla, Inc. | Vector computational unit receiving data elements in parallel from a last row of a computational array |
US10867214B2 (en) | 2018-02-14 | 2020-12-15 | Nvidia Corporation | Generation of synthetic images for training a neural network model |
US11282389B2 (en) * | 2018-02-20 | 2022-03-22 | Nortek Security & Control Llc | Pedestrian detection for vehicle driving assistance |
US10922585B2 (en) | 2018-03-13 | 2021-02-16 | Recogni Inc. | Deterministic labeled data generation and artificial intelligence training pipeline |
US11023517B2 (en) * | 2018-05-31 | 2021-06-01 | Microsoft Technology Licensing, Llc | Distributed computing system with a synthetic data as a service frameset assembly engine |
US10877927B2 (en) * | 2018-05-31 | 2020-12-29 | Microsofttechnology Licensing, Llc | Distributed computing system with a synthetic data as a service asset assembly engine |
US11281996B2 (en) * | 2018-05-31 | 2022-03-22 | Microsoft Technology Licensing, Llc | Distributed computing system with a synthetic data as a service feedback loop engine |
US11615137B2 (en) * | 2018-05-31 | 2023-03-28 | Microsoft Technology Licensing, Llc | Distributed computing system with a crowdsourcing engine |
US20190370638A1 (en) * | 2018-06-01 | 2019-12-05 | Thales Canada Inc | System for and method of data encoding and/or decoding using neural networks |
TWI701174B (zh) * | 2018-06-06 | 2020-08-11 | 緯創資通股份有限公司 | 駕駛預測方法及其處理裝置與系統 |
US11215999B2 (en) | 2018-06-20 | 2022-01-04 | Tesla, Inc. | Data pipeline and deep learning system for autonomous driving |
US11361457B2 (en) | 2018-07-20 | 2022-06-14 | Tesla, Inc. | Annotation cross-labeling for autonomous control systems |
US11636333B2 (en) | 2018-07-26 | 2023-04-25 | Tesla, Inc. | Optimizing neural network structures for embedded systems |
US11562231B2 (en) | 2018-09-03 | 2023-01-24 | Tesla, Inc. | Neural networks for embedded devices |
US10902287B2 (en) | 2018-09-17 | 2021-01-26 | At&T Intellectual Property I, L.P. | Data harvesting for machine learning model training |
US20200090000A1 (en) * | 2018-09-18 | 2020-03-19 | Microsoft Technology Licensing, Llc | Progress Portal for Synthetic Data Tasks |
US11082578B2 (en) * | 2018-09-24 | 2021-08-03 | Dosl, Llc | Image capture and transfer system |
IL282172B2 (en) | 2018-10-11 | 2024-02-01 | Tesla Inc | Systems and methods for training machine models with enhanced data |
WO2020079927A1 (ja) * | 2018-10-18 | 2020-04-23 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理装置、プログラム及び情報処理方法 |
US11216704B2 (en) | 2018-10-23 | 2022-01-04 | John M. Couse; | Recognition system using multimodality dataset |
US11196678B2 (en) | 2018-10-25 | 2021-12-07 | Tesla, Inc. | QOS manager for system on a chip communications |
US11700356B2 (en) * | 2018-10-26 | 2023-07-11 | AutoBrains Technologies Ltd. | Control transfer of a vehicle |
US10957099B2 (en) * | 2018-11-16 | 2021-03-23 | Honda Motor Co., Ltd. | System and method for display of visual representations of vehicle associated information based on three dimensional model |
KR102619558B1 (ko) * | 2018-11-16 | 2024-01-02 | 현대모비스 주식회사 | 자율주행차의 제어시스템 및 그 제어방법 |
US11030476B2 (en) * | 2018-11-29 | 2021-06-08 | Element Ai Inc. | System and method for detecting and tracking objects |
JP7167668B2 (ja) * | 2018-11-30 | 2022-11-09 | コニカミノルタ株式会社 | 学習方法、学習装置、プログラムおよび記録媒体 |
US11816585B2 (en) | 2018-12-03 | 2023-11-14 | Tesla, Inc. | Machine learning models operating at different frequencies for autonomous vehicles |
US11537811B2 (en) | 2018-12-04 | 2022-12-27 | Tesla, Inc. | Enhanced object detection for autonomous vehicles based on field view |
DE102018221063A1 (de) * | 2018-12-05 | 2020-06-10 | Volkswagen Aktiengesellschaft | Konfiguration eines Steuerungssystems für ein zumindest teilautonomes Kraftfahrzeug |
US11610117B2 (en) | 2018-12-27 | 2023-03-21 | Tesla, Inc. | System and method for adapting a neural network model on a hardware platform |
US10997461B2 (en) | 2019-02-01 | 2021-05-04 | Tesla, Inc. | Generating ground truth for machine learning from time series elements |
US11567514B2 (en) | 2019-02-11 | 2023-01-31 | Tesla, Inc. | Autonomous and user controlled vehicle summon to a target |
US10956755B2 (en) | 2019-02-19 | 2021-03-23 | Tesla, Inc. | Estimating object properties using visual image data |
US11113839B2 (en) * | 2019-02-26 | 2021-09-07 | Here Global B.V. | Method, apparatus, and system for feature point detection |
US11321865B1 (en) * | 2019-03-15 | 2022-05-03 | Nvidia Corporation | Synthetic infrared image generation for machine learning of gaze estimation |
DE102019106625A1 (de) * | 2019-03-15 | 2020-09-17 | HELLA GmbH & Co. KGaA | Verfahren und Vorrichtung zum Ermitteln einer Gefahrenquelle auf einer Fahrbahn |
EP3948775A4 (en) * | 2019-04-30 | 2022-12-21 | L'Oréal | IMAGE PROCESSING USING CONVOLUTIONAL NEURAL NETWORK TO TRACK A VARIETY OF OBJECTS |
US11574089B2 (en) * | 2019-06-28 | 2023-02-07 | Zoox, Inc. | Synthetic scenario generator based on attributes |
US11568100B2 (en) * | 2019-06-28 | 2023-01-31 | Zoox, Inc. | Synthetic scenario simulator based on events |
US11449709B2 (en) * | 2019-08-08 | 2022-09-20 | Nvidia Corporation | Domain restriction of neural networks through synthetic data pre-training |
US20210133502A1 (en) * | 2019-11-01 | 2021-05-06 | The Boeing Company | Computing device, method and computer program product for generating training data for a machine learning system |
US11790411B1 (en) | 2019-11-29 | 2023-10-17 | Wells Fargo Bank, N.A. | Complaint classification in customer communications using machine learning models |
SE1951488A1 (en) * | 2019-12-18 | 2021-06-19 | Forsete Group Ab | Method and system for predicting movement |
US11893457B2 (en) * | 2020-01-15 | 2024-02-06 | International Business Machines Corporation | Integrating simulated and real-world data to improve machine learning models |
US11526721B1 (en) | 2020-02-21 | 2022-12-13 | Zoox, Inc. | Synthetic scenario generator using distance-biased confidences for sensor data |
US11741723B2 (en) * | 2020-02-27 | 2023-08-29 | Honda Motor Co., Ltd. | System for performing intersection scenario retrieval and method thereof |
US11475774B2 (en) * | 2020-04-03 | 2022-10-18 | Verizon Patent And Licensing Inc. | Systems and methods for machine learning based collision avoidance |
US11748932B2 (en) * | 2020-04-27 | 2023-09-05 | Microsoft Technology Licensing, Llc | Controllable image generation |
CN111598169B (zh) * | 2020-05-18 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、游戏测试方法、模拟操作方法及装置 |
WO2021240528A1 (en) * | 2020-05-27 | 2021-12-02 | Cognata Ltd. | Generating simulated edge-case driving scenarios |
US11386662B2 (en) | 2020-05-28 | 2022-07-12 | Microsoft Technology Licensing, Llc | Tracking multiple objects in a video stream using occlusion-aware single-object tracking |
DE102020116714A1 (de) | 2020-06-25 | 2021-12-30 | Audi Aktiengesellschaft | Steuergerät für ein Fahrzeug, System, Verfahren und Kraftfahrzeug mit einem solchen Steuergerät |
CA3184696A1 (en) * | 2020-07-07 | 2022-01-13 | Omni Consumer Products, Llc | Systems and methods for generating images for training artificial intelligence systems |
US11938957B2 (en) | 2020-08-24 | 2024-03-26 | Motional Ad Llc | Driving scenario sampling for training/tuning machine learning models for vehicles |
US11335008B2 (en) * | 2020-09-18 | 2022-05-17 | Microsoft Technology Licensing, Llc | Training multi-object tracking models using simulation |
CN112034863A (zh) * | 2020-09-21 | 2020-12-04 | 北京洛必德科技有限公司 | 地面性质信息的检测方法及装置、计算机设备 |
US11645449B1 (en) | 2020-12-04 | 2023-05-09 | Wells Fargo Bank, N.A. | Computing system for data annotation |
WO2022146944A1 (en) * | 2020-12-28 | 2022-07-07 | Blue River Technology Inc. | Machine-learned obstruction detection in a farming machine |
CN112883813B (zh) * | 2021-01-26 | 2022-02-01 | 南京公路发展(集团)有限公司 | 一种基于监控视频的高速公路路面抛洒物检测方法 |
CN113449589B (zh) * | 2021-05-16 | 2022-11-15 | 桂林电子科技大学 | 一种无人驾驶汽车在城市交通场景中驾驶策略计算方法 |
WO2022244800A1 (ja) * | 2021-05-18 | 2022-11-24 | 三菱重工機械システム株式会社 | 画像処理アルゴリズム評価装置 |
WO2023277906A1 (en) * | 2021-06-30 | 2023-01-05 | Hewlett-Packard Development Company, L.P. | Synthetic images for machine learning |
CN113255238B (zh) * | 2021-07-07 | 2021-11-12 | 华能东莞燃机热电有限责任公司 | 一种基于混合神经网络的燃气利用率预测方法和系统 |
US11868444B2 (en) | 2021-07-20 | 2024-01-09 | International Business Machines Corporation | Creating synthetic visual inspection data sets using augmented reality |
CN113485384B (zh) * | 2021-09-06 | 2021-12-10 | 中哲国际工程设计有限公司 | 一种基于物联网的无障碍导引系统 |
US20230094373A1 (en) * | 2021-09-27 | 2023-03-30 | Atlassian Pty Ltd. | Predictive monitoring of software application frameworks using machine-learning-based techniques |
US11955001B2 (en) * | 2021-09-27 | 2024-04-09 | GridMatrix, Inc. | Traffic near miss collision detection |
KR102395406B1 (ko) * | 2021-09-29 | 2022-05-10 | 주식회사 인피닉 | 기계 학습용 데이터 합성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 |
US11875580B2 (en) * | 2021-10-04 | 2024-01-16 | Motive Technologies, Inc. | Camera initialization for lane detection and distance estimation using single-view geometry |
US11755189B2 (en) * | 2021-10-25 | 2023-09-12 | Datagen Technologies, Ltd. | Systems and methods for synthetic data generation |
US20230196908A1 (en) * | 2021-12-22 | 2023-06-22 | Here Global B.V. | Method, apparatus, and system for determining a bicycle lane disruption index based on vehicle sensor data |
KR102393801B1 (ko) * | 2021-12-27 | 2022-05-03 | 주식회사 딥노이드 | 배경 합성을 통한 학습 데이터를 생성하기 위한 장치 및 이를 위한 방법 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100289632A1 (en) * | 2009-05-18 | 2010-11-18 | Gm Global Technology Operations, Inc. | Night vision on full windshield head-up display |
CN103886279A (zh) * | 2012-12-21 | 2014-06-25 | 本田技研工业株式会社 | 使用合成训练数据的实时骑车人检测 |
CN104217216A (zh) * | 2014-09-01 | 2014-12-17 | 华为技术有限公司 | 生成检测模型的方法和设备、用于检测目标的方法和设备 |
US20150186714A1 (en) * | 2013-12-30 | 2015-07-02 | Alcatel-Lucent Usa Inc. | Driver behavior monitoring systems and methods for driver behavior monitoring |
US20160140400A1 (en) * | 2014-11-13 | 2016-05-19 | Nec Laboratories America, Inc. | Atomic scenes for scalable traffic scene recognition in monocular videos |
CN106169082A (zh) * | 2015-05-21 | 2016-11-30 | 三菱电机株式会社 | 训练分类器以检测目标环境图像中的对象的方法和系统 |
CN106599767A (zh) * | 2015-10-16 | 2017-04-26 | 福特全球技术公司 | 虚拟环境中的车道边界检测数据生成 |
CN107038698A (zh) * | 2015-10-13 | 2017-08-11 | 西门子保健有限责任公司 | 用于个性化图像质量评估和优化的基于学习的框架 |
CN107031622A (zh) * | 2016-01-26 | 2017-08-11 | 福特全球技术公司 | 用于碰撞避免的训练算法 |
US20170236013A1 (en) * | 2016-02-15 | 2017-08-17 | Nvidia Corporation | System and method for procedurally synthesizing datasets of objects of interest for training machine-learning models |
US20170236027A1 (en) * | 2016-02-16 | 2017-08-17 | Brainchip Inc. | Intelligent biomorphic system for pattern recognition with autonomous visual feature extraction |
US9760806B1 (en) * | 2016-05-11 | 2017-09-12 | TCL Research America Inc. | Method and system for vision-centric deep-learning-based road situation analysis |
CN107220581A (zh) * | 2016-03-21 | 2017-09-29 | 福特全球技术公司 | 通过后置摄像机的行人检测和运动预测 |
CN107229329A (zh) * | 2016-03-24 | 2017-10-03 | 福特全球技术公司 | 用于具有深度地面实况注释的虚拟传感器数据生成的方法和系统 |
CN107492090A (zh) * | 2016-06-09 | 2017-12-19 | 西门子保健有限责任公司 | 根据合成数据利用机器学习的基于图像的肿瘤表型分析 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7828655B2 (en) | 2004-03-11 | 2010-11-09 | Navteq North America, Llc | Application programming interface for geographic data in computer games |
MX2012000724A (es) * | 2009-07-16 | 2012-06-25 | Bluefin Lab Inc | Metodo de estimacion e indicacion de interes social en medios a base de tiempo. |
US11263823B2 (en) * | 2012-02-24 | 2022-03-01 | Matterport, Inc. | Employing three-dimensional (3D) data predicted from two-dimensional (2D) images using neural networks for 3D modeling applications and other applications |
US10614726B2 (en) * | 2014-12-08 | 2020-04-07 | Life Long Driver, Llc | Behaviorally-based crash avoidance system |
US20160314224A1 (en) * | 2015-04-24 | 2016-10-27 | Northrop Grumman Systems Corporation | Autonomous vehicle simulation system |
US9598078B2 (en) * | 2015-05-27 | 2017-03-21 | Dov Moran | Alerting predicted accidents between driverless cars |
US9767565B2 (en) | 2015-08-26 | 2017-09-19 | Digitalglobe, Inc. | Synthesizing training data for broad area geospatial object detection |
US10410113B2 (en) * | 2016-01-14 | 2019-09-10 | Preferred Networks, Inc. | Time series data adaptation and sensor fusion systems, methods, and apparatus |
WO2017189533A1 (en) * | 2016-04-25 | 2017-11-02 | Convida Wireless, Llc | Data stream analytics at service layer |
US10176388B1 (en) * | 2016-11-14 | 2019-01-08 | Zoox, Inc. | Spatial and temporal information for semantic segmentation |
WO2018187632A1 (en) * | 2017-04-05 | 2018-10-11 | Carnegie Mellon University | Deep learning methods for estimating density and/or flow of objects, and related methods and software |
US10751879B2 (en) * | 2017-06-05 | 2020-08-25 | Autodesk, Inc. | Adapting simulation data to real-world conditions encountered by physical processes |
US10883844B2 (en) * | 2017-07-27 | 2021-01-05 | Waymo Llc | Neural networks for vehicle trajectory planning |
US10643320B2 (en) * | 2017-11-15 | 2020-05-05 | Toyota Research Institute, Inc. | Adversarial learning of photorealistic post-processing of simulation with privileged information |
US20220138500A1 (en) * | 2020-10-30 | 2022-05-05 | Samsung Electronics Co., Ltd. | Unsupervised super-resolution training data construction |
-
2017
- 2017-12-29 US US15/858,772 patent/US10755115B2/en active Active
-
2018
- 2018-12-27 EP EP18830855.5A patent/EP3732618A1/en active Pending
- 2018-12-27 WO PCT/EP2018/097037 patent/WO2019129819A1/en unknown
- 2018-12-27 CN CN201880084403.5A patent/CN111566664B/zh active Active
-
2020
- 2020-07-13 US US16/927,625 patent/US11475677B2/en active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100289632A1 (en) * | 2009-05-18 | 2010-11-18 | Gm Global Technology Operations, Inc. | Night vision on full windshield head-up display |
CN103886279A (zh) * | 2012-12-21 | 2014-06-25 | 本田技研工业株式会社 | 使用合成训练数据的实时骑车人检测 |
US20150186714A1 (en) * | 2013-12-30 | 2015-07-02 | Alcatel-Lucent Usa Inc. | Driver behavior monitoring systems and methods for driver behavior monitoring |
CN104217216A (zh) * | 2014-09-01 | 2014-12-17 | 华为技术有限公司 | 生成检测模型的方法和设备、用于检测目标的方法和设备 |
US20160140400A1 (en) * | 2014-11-13 | 2016-05-19 | Nec Laboratories America, Inc. | Atomic scenes for scalable traffic scene recognition in monocular videos |
CN106169082A (zh) * | 2015-05-21 | 2016-11-30 | 三菱电机株式会社 | 训练分类器以检测目标环境图像中的对象的方法和系统 |
CN107038698A (zh) * | 2015-10-13 | 2017-08-11 | 西门子保健有限责任公司 | 用于个性化图像质量评估和优化的基于学习的框架 |
CN106599767A (zh) * | 2015-10-16 | 2017-04-26 | 福特全球技术公司 | 虚拟环境中的车道边界检测数据生成 |
CN107031622A (zh) * | 2016-01-26 | 2017-08-11 | 福特全球技术公司 | 用于碰撞避免的训练算法 |
US20170236013A1 (en) * | 2016-02-15 | 2017-08-17 | Nvidia Corporation | System and method for procedurally synthesizing datasets of objects of interest for training machine-learning models |
US20170236027A1 (en) * | 2016-02-16 | 2017-08-17 | Brainchip Inc. | Intelligent biomorphic system for pattern recognition with autonomous visual feature extraction |
CN107220581A (zh) * | 2016-03-21 | 2017-09-29 | 福特全球技术公司 | 通过后置摄像机的行人检测和运动预测 |
CN107229329A (zh) * | 2016-03-24 | 2017-10-03 | 福特全球技术公司 | 用于具有深度地面实况注释的虚拟传感器数据生成的方法和系统 |
US9760806B1 (en) * | 2016-05-11 | 2017-09-12 | TCL Research America Inc. | Method and system for vision-centric deep-learning-based road situation analysis |
CN107492090A (zh) * | 2016-06-09 | 2017-12-19 | 西门子保健有限责任公司 | 根据合成数据利用机器学习的基于图像的肿瘤表型分析 |
Non-Patent Citations (8)
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284201A (zh) * | 2021-05-27 | 2021-08-20 | 杭州睿影科技有限公司 | 安检图像的生成方法、安检系统及存储介质 |
CN113742630A (zh) * | 2021-09-16 | 2021-12-03 | 阿里巴巴新加坡控股有限公司 | 图像处理方法、电子设备及计算机存储介质 |
CN113742630B (zh) * | 2021-09-16 | 2023-12-15 | 阿里巴巴新加坡控股有限公司 | 图像处理方法、电子设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019129819A1 (en) | 2019-07-04 |
US20200342242A1 (en) | 2020-10-29 |
EP3732618A1 (en) | 2020-11-04 |
US20190205667A1 (en) | 2019-07-04 |
US11475677B2 (en) | 2022-10-18 |
CN111566664B (zh) | 2024-04-05 |
US10755115B2 (en) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111566664B (zh) | 用于生成用于机器学习的合成图像数据的方法、设备和系统 | |
EP3543906B1 (en) | Method, apparatus, and system for in-vehicle data selection for feature detection model creation and maintenance | |
US11410074B2 (en) | Method, apparatus, and system for providing a location-aware evaluation of a machine learning model | |
US11645839B2 (en) | Lane feature detection in aerial images based on road geometry | |
US10789487B2 (en) | Method, apparatus, and system for determining polyline homogeneity | |
US11501104B2 (en) | Method, apparatus, and system for providing image labeling for cross view alignment | |
US11263726B2 (en) | Method, apparatus, and system for task driven approaches to super resolution | |
US11231282B2 (en) | Method and apparatus for providing node-based map matching | |
US11023747B2 (en) | Method, apparatus, and system for detecting degraded ground paint in an image | |
US11182607B2 (en) | Method, apparatus, and system for determining a ground control point from image data using machine learning | |
US10515293B2 (en) | Method, apparatus, and system for providing skip areas for machine learning | |
US11055862B2 (en) | Method, apparatus, and system for generating feature correspondence between image views | |
US20200167689A1 (en) | Method, apparatus, and system for providing data-driven selection of machine learning training observations | |
US10949707B2 (en) | Method, apparatus, and system for generating feature correspondence from camera geometry | |
US20220299341A1 (en) | Method, apparatus, and system for providing route-identification for unordered line data | |
US20220397419A1 (en) | Systems and methods for selecting a navigation map | |
US10970597B2 (en) | Method, apparatus, and system for priority ranking of satellite images | |
US20230073956A1 (en) | Systems and methods for evaluating user reviews | |
US20230196908A1 (en) | Method, apparatus, and system for determining a bicycle lane disruption index based on vehicle sensor data | |
US20230204385A1 (en) | Systems and methods for determining an electric vehicle score | |
US20230160703A1 (en) | Systems and methods for determining a vehicle boarding score |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |