CN112106060A

CN112106060A - 控制策略确定方法和系统

Info

Publication number: CN112106060A
Application number: CN201980017741.1A
Authority: CN
Inventors: S.A.怀特森; J.梅西亚斯; 陈曦; F.贝巴哈尼; K.夏尔利; S.卡塞瓦; V.库林
Original assignee: Weimo Uk Ltd
Current assignee: Weimo Uk Ltd
Priority date: 2018-03-06
Filing date: 2019-03-06
Publication date: 2020-12-18
Also published as: US20210049415A1; GB201817987D0; WO2019171060A1; GB201803599D0

Abstract

本发明涉及一种为动态对象提供行为模型的方法。具体地，本发明涉及一种用于生成通常用于模拟器和/或自动驾驶车辆中的动态对象的模型和/或控制策略的方法和系统。本发明在于提供通常用于这种自动车辆模拟器的动态对象(例如，驾驶员、行人和骑自行车的人)的一个或多个行为模型集合。

Description

控制策略确定方法和系统

技术领域

本发明涉及一种为动态对象提供行为模型的方法。具体地，本发明涉及一种用于为例如在模拟器和/或自动驾驶车辆中使用的动态对象生成模型和/或控制策略的方法和系统。

背景技术

对于英国的典型道路场景，当开始下雨，并且在繁忙的交通正在并入道路施工的高速公路的情况下时，人们普遍认为，对自动驾驶车辆进行编程以处理这种情况并非易事。一种解决方案可能是使用规划规则，但是这被普遍认为是完全不可行的，因为自动驾驶车辆在没有通行权时必须与现有交通合并，这涉及到预测其他道路使用者，但至关重要的是，还要求自动驾驶车辆以其他道路使用者期望的方式操作。在一组规划规则中对此进行编程将需要高度复杂的规则集合，尤其是对于边缘情况，如给定的示例。因此，在对车辆进行编程或训练之前不可能在现实世界中测试自动驾驶车辆，因此，替代现实世界测试的方法是使用模拟器。

自动驾驶技术的测试和开发非常复杂且昂贵。目前，因为在现实世界中进行测试的成本过高，所以有99％的自动驾驶测试是在模拟环境中进行的。每个软件更新都需要自己的测试，并且如果在真实道路上进行，则其测试本身可能具有潜在的危险。

可以在模拟器中使用以模拟道路使用者行为的一种类型的模型是简单的群体交通模型。然而，尽管这些模型可以大规模地交付模型，但是它们对于精确地建模微观效应、即个人行为没有用。

此外，如上所述，动态对象在每种情况下的行为方式都不相同。沿着人行道行走的行人在沿着人行道行走并随后过马路时的行为完全不同。行人可能会在指定的人行横道(如可控人行横道)上过马路，或者在道路上有空隙时会意外地过马路。

其他车辆驾驶员也表现出意想不到的行为，骑自行车的人也是如此。

因此，需要提供更准确的测试环境，尤其是在微观尺度上，即在模拟中的每个单独的动态对象，例如用于自动驾驶车辆模拟器中。特别地，需要用于自动驾驶车辆的“规划功能”的更精确的测试环境。规划功能是决策做出模块，其确定响应于感知的道路环境而采取哪个动作。在模拟中测试规划功能有其自身的挑战。它要求其他道路使用者具有一个或多个行为集合：高度现实；自由行动；多变；以及无需特殊编程即可生成多种场景。

高度逼真的第一行为是最具挑战性的行为之一，因为在任何给定场景中，动态对象(尤其是人类)以无数种不同的方式进行举动。在上述给定情形下，谨慎的人不会在指定的人行横道以外的任何地方过马路。然而，一个倾向于冒险的人会倾向于更多的“乱穿马路”行为，因此他们将在完全相同的情况下率先穿越相同的道路。

“自由动作”行为是任何动态对象对被测试的自动驾驶车辆做出反应的方式。同样，没有两个动态对象将以相同的方式响应。看到一辆慢速行驶的公共汽车驶向他的一个人将有机会过马路，然后在同一种情况下，另一个人会更加谨慎并等待公共汽车通过。以同样的方式，动态对象行为是并且可以是意外地变化的。因此，在自动驾驶模拟器中进行训练或训练自动驾驶模拟器需要数百万种不同场景。

发明内容

提出各个方面和/或实施例以提供用于例如自动驾驶车辆模拟器以及其他用例的动态对象(例如，驾驶员、行人和骑自行车的人)的一个或多个行为模型集合。

各个方面和/或实施例利用现实生活演示，即，来自交通摄像机的记录了现实生活行为的视频图像，并结合了计算机视觉技术的使用，以检测和识别在视频图像中观察的场景中的动态对象，并且随后跟踪检测并识别的动态对象轨迹。这可以从视频图像中逐帧完成。然后，提取的轨迹可以被用作“示教学习(Learning from Demonstration)”(LfD)算法的输入数据。这些LfD算法的输出是每个识别动态对象的“控制策略”。控制策略是学习策略，或更确切地说，是识别动态对象的行为的学习模型。例如，这可以是行人在人行道上行走并随后在自动驾驶车辆前过马路的行为模型。

根据第一方面，提供一种创建动态对象的行为模型的计算机实现的方法，所述方法包括以下步骤：a)从顺序图像数据中识别多个感兴趣的动态对象，所述顺序图像数据包括图像数据帧的序列；b)确定在顺序图像数据的帧之间动态对象的轨迹；以及c)从确定的轨迹来确定用于所述动态对象的控制策略，其中，所述确定步骤包括以下步骤：i)由生成器网络确定生成的行为；ii)确定演示相似度分数，其中，所述演示相似度分数是通过鉴别器网络的所述生成行为与真实动态对象的预定轨迹数据的相似度的量度；iii)将所述演示相似度分数提供回生成器网络；iv)由生成器网络确定修正的生成行为，其中，生成器网络使用所述演示相似度分数作为奖励函数；以及v)重复步骤i)到iv)中的任何一个，以确定修正的生成行为，直到演示相似度分数达到预定阈值为止。

可选地，生成器网络是生成-对抗人工神经网络对(GAN)。

可选地，方法与以下各项中的任意一项或任意组合一起使用：自动驾驶车辆、模拟器、游戏、视频游戏、机器人、机器人技术。

可选地，动态对象包括以下各项中的任意一项或任意组合：人类、行人、人群、车辆、自动驾驶车辆、车队、车辆队列、动物、动物群；障碍物、机器人。

可选地，所述方法还包括将所述轨迹从二维空间转换为三维空间的步骤。

可选地，确定控制策略的步骤使用示教学习算法。

可选地，确定控制策略的步骤使用逆强化学习算法。

可选地，使用所述演示相似度分数作为奖励函数的步骤包括：生成器网络使用演示相似度分数来改变其行为，以达到被认为是类似人的状态。

可选地，重复步骤i)至iv)中的任何一个的步骤包括：获得基本最优状态，其中，所述生成器网络从鉴别器网络获得对类似人的行为的基本最大分数。

可选地，生成器网络和/或鉴别器网络中的一个或两者包括以下各项中的任意一项或任意组合：神经网络、深度神经网络、学习模型、学习算法。

可选地，图像数据从以下各项中的任意一项或任意组合获得：视频数据、CCTV数据、交通摄像机、延时图像、提取的视频馈送、模拟、游戏、指示、手动控制数据、机器人控制数据、用户控制器输入数据。

可选地，顺序图像数据从车载传感器获得。

可选地，仅单个摄像机(或单个普通分辨率的单目摄像机)用于推断对象在三维空间中的位置。

根据第二方面，提供一种用于创建动态对象的行为模型的系统，所述系统包括：适于执行代码的至少一个处理器，所述代码可操作以执行创建动态对象的行为模型的计算机实现的方法，所述方法包括以下步骤：a)从顺序图像数据中识别多个感兴趣的动态对象，所述顺序图像数据包括图像数据帧的序列；b)确定在顺序图像数据的帧之间所述动态对象的轨迹；以及c)从确定的轨迹中确定用于所述动态对象的控制策略，其中，所述确定步骤包括以下步骤：i)由生成器网络确定生成的行为；ii)确定演示相似度分数，其中，所述演示相似度分数是通过鉴别器网络的所述生成的行为与真实动态对象的预定轨迹数据的相似度的量度；iii)将所述演示相似度分数提供回生成器网络；iv)由生成器网络确定修正的生成行为，其中，生成器网络使用所述演示相似度分数作为奖励函数；以及v)重复步骤i)到iv)中的任何一个，以确定修正的生成行为，直到演示相似度分数达到预定阈值为止。

根据第三方面，提供一种包括机器可读指令的存储设备，所述机器可读指令在由至少一个处理器执行时使所述至少一个处理器执行创建动态对象的行为模型的计算机实现的方法，所述方法包括以下步骤：a)从顺序图像数据中识别多个感兴趣的动态对象，所述顺序图像数据包括图像数据帧的序列；b)确定在顺序图像数据的帧之间所述动态对象的轨迹；以及c)从确定的轨迹中确定用于所述动态对象的控制策略，其中，所述确定步骤包括以下步骤：i)由生成器网络确定生成的行为；ii)确定演示相似度分数，其中，所述演示相似度分数是通过鉴别器网络的所述生成的行为与真实动态对象的预定轨迹数据的相似度的量度；iii)将所述演示相似度分数提供回生成器网络；iv)由生成器网络确定修正的生成行为，其中，生成器网络使用所述演示相似度分数作为奖励函数；以及v)重复步骤i)到iv)中的任何一个，以确定修正的生成行为，直到演示相似度分数达到预定阈值为止。

也可以使用预先录制的在电影场景中活动的人和/或动物的电影。所有这些方案都可能在获得动态对象及其上的数据的方式中起作用。

从各种来源收集图像和/或视频数据，这些数据显示了现实交通场景中的动态对象行为。例如，此数据可以包含标准路边CCTV摄像机拍摄的单目视频。然后应用计算机视觉算法从收集的数据中提取相关的动态特征，诸如对象位置，以及提取静态特征，诸如道路的位置和场景的几何形状。还可以从公共和私有地理空间数据源(例如，Google Earth、Google Street View、OpenStreetCam、Bing Maps等)获得此类视觉图像数据。

对于收集的每个视频，可以通过机器学习方法来估计摄像机的内在和外在参数，在此将其称为“通过梯度下降的相机校准”。该方法可以建立从现实世界坐标系中的3D参考帧到摄像机的2D图像平面的投影转换。通过利用对场景的已知几何形状的约束(例如，道路车辆、行人、骑自行车的人等的实际维度)，还可以获得近似反向投影，该反向投影可以用于估计与道路使用者的2D检测相对应的3D位置和/或轨迹。然后可以通过现有的多假设跟踪算法对这些3D位置进行过滤，以对每个检测的动态对象(例如，道路使用者、行人，骑自行车的人等)生成3D轨迹。

可以通过“示教学习”(或“LfD”)技术来处理收集的轨迹数据和相应的场景情境，以产生能够模仿和概括相似条件下记录的行为的控制系统。特别是，重点是通过逆强化学习(IRL)算法进行的LfD。使用此算法，可以获得成本函数，该成本函数将观察的演示解释为奖励寻求行为。在各个方面和/或实施例中使用的IRL算法可以借助于生成-对抗人工神经网络对(或“GAN”)来实现，其中可以训练生成器网络以产生奖励寻求行为，并且鉴别器网络(或“DN”)可以被训练以区分生成行为和记录的演示，进而产生能够被用于持续改进生成器的成本的度量。DN是一个神经网络，可以将生成的行为与演示行为进行比较。生成器网络可以将基于模拟道路对象相对于场景中所有其他对象以及静态场景情境的相对位置的特征表示作为其输入，并将目标位移输出到该动态对象的位置。为了稳定学习过程并提高生成器概括成看不见的状态的能力，采用了课程训练制度，其中逐渐增加生成器与模拟器交互的时间步长数。在收敛时，生成器网络可以在模拟动态对象上引发相对于与从摄像机镜头观察的演示的相似性度量而言局部最佳的运动。

学习的生成器网络然后可以被用作控制系统，以在交通模拟环境中驱动模拟的动态对象。各个方面和/或实施例不提供或不依赖于特定的交通模拟环境-相反，借助于合适的软件接口层，学习的控制系统可以生成可以部署到任何交通模拟环境中的控制策略。该系统可以通过以下方式进行调整：

1)提供模拟动态对象的位置；

2)提供对模拟交通场景的静态情境的描述，包括道路的位置、交通标志以及可能与模拟的动态对象的行为有关的任何其他静态特征；以及

3)接受对模拟的动态对象、即所有道路使用者的外部控制。

因此，某些方面/实施例的动态对象的输出行为模型可以是高度现实的，这是该算法使用实际人类行为并学习复制这些行为的控制策略的结果。控制策略是动态对象行为的模型。

因此，这些方面和/或实施例的控制策略可以生成以下场景：

1.高度现实。示教学习(LfD)算法可以获取实际的人类行为，并学习复制这些行为的控制策略。LfD算法的一个组成部分是“鉴别器”，其作用是通过将其与演示进行比较来确定该行为是否类似于人类。该鉴别器的响应可以被用于训练类似人的行为的控制策略；

2.自由动作：LfD算法的输出是“控制策略”。这可以从环境中进行观察，对其进行处理，然后采取动作进行响应——该动作表示其认为在这种情况下可以采取的以最大化其动作的“人性化”的最佳动作。这样，每个动作步骤将是对来自环境的观察的特定响应，并且会根据这些观察而有所不同；

3.多种多样：LfD算法可以基于使用真实交通摄像机镜头从计算机视觉团队提取的数据来学习行为。镜头自然会包含一系列行为类型(例如，不同的驾驶方式、一天中的不同时间、不同的天气情况等)。当控制策略输出类似人的动作时，它将根据自数据中观察到的潜在结果的概率分布来选择动作。这就要求它在其输出的行为中识别“潜在变量”——这些潜在变量表示隐含存在于输入数据中的特定行为样式。

4.算法能够生成数百万种方案：

a)LfD算法的编程允许它以快速的帧速率运行，这有助于快速生成数百万种情况。其他方法无法如此快速地计算出对环境的响应；以及

b)由于算法是“自由动作”，而不是按照特定行为进行编程的，因此它可以遍历数百万种不同的场景，而无需人工干预。

附图说明

在此仅通过示例的方式，参照具有相同附图标记的附图来描述一些实施例，在附图中：

图1是示出简化实施例的总体概述的示图，其示出以下过程：数据收集，从收集的数据中提取输入数据，基于输入数据从演示中学习以及生成控制策略，然后通过API将这些控制策略可提供给模拟器；

图2是示例实现实施例的整体架构的更详细视图的图示；以及

图3是根据演示实现的分级学习的示例实施例的图示。

具体实施方式

机器学习是一个或多个计算机使用从机器学习过程在执行任务期间获取的经验或数据生成的反馈来学习以执行多类任务的研究领域。

大多数机器学习是监督学习，它与计算机学习有关，该计算机学习一种或多种规则或功能，以按操作员或程序员的预定在示例输入和所需输出之间进行映射，通常在标记包含输入的数据集的情况下。

当目标不仅是在给定输入的情况下生成输出，而是要优化诸如机器人的自主代理的控制系统时，标准范例是强化学习，其中，系统学习最大化手动定义的奖励信号。当可以很容易地以这种奖励信号的形式量化系统的人类设计者的目标时，这种方法是有效的。

但是，在某些情况下，此类目标很难量化，例如，因为它们涉及遵守模糊的社会规范。在这种情况下，可以使用被称为示教学习(LfD)的替代范例，其中控制系统被优化，以使行为与知道如何正确执行任务的人员提供的示例演示集合保持一致。因此，LfD仅需要具有演示所要求行为的能力，而无需正式描述行为所实现的目标。

现在具体地具体参照附图，要强调的是，所示出的细节仅是示例性的，并且仅是出于对各个方面和/或实施例的说明性讨论的目的。对此，结合附图进行的描述使本领域技术人员清楚如何实现各个方面和几个实施例。

首先参照图1，示出简化实施例的总体概述。

输入数据是收集的视频和/或图像数据102，因此例如是从摄像机收集的视频数据，它提供一个或多个相应动态对象行为的一个或多个演示。该输入数据102被提供给计算机视觉神经网络104。

计算机视觉网络104逐帧分析输入数据102中的演示(或多个)，以检测和识别输入数据102中的一个或多个动态对象。

接下来，根据输入数据102中的检测和识别的动态对象(或多个)中，在视频的多个图像/帧中识别动态对象，并且在视频的多个图像/帧中跟踪并确定106它们的轨迹。在一些实施例中，MaskRCNN方法用于执行对象检测。在一些实施例中，贝叶斯(Bayesian)推理是用卡尔曼滤波器执行的，使用原则上的概率推理来量化关于跟踪对象随时间推移的位置的不确定性。

动态对象及其跟踪轨迹被输入到“示教学习算法”108中。LfD算法108包括鉴别器模块110和生成器模块112。

鉴别器模块110是神经网络，将按动态对象行为生成的控制策略与实际动态对象行为(演示)进行比较，并能够区分两者。

生成器网络112进而为每个动态对象生成控制策略。然后，鉴别器110对生成器网络112的输出进行“评分”。该分数是“奖励函数”，然后“奖励函数”被反馈给生成器112，这提示生成器112更改其为每个动态对象生成的行为，以从鉴别器110获得更好的分数(即，使行为更像人的行为)。

由LfD算法108执行的迭代进度产生控制策略114，该控制策略是每个动态对象展现出的行为的模型。该策略114可以用于向每个虚拟动态对象提供规则集合以做出行为或采取行动。动作由API 116处理并且被转换成适合于每个模拟器118、120、122的形式，其向API 116提供回观察。API 116将该观察本身转换为适合于控制策略114的形式，并发送到该控制策略114，控制策略114用观察选择下一个动作。这样，系统“示教学习”。

LfD发生在子系统LfD算法108中。一旦学习完成(即，由生成器产生的行为完全是类似人类的行为或至少达到人类行为的阈值)，则该子系统输出控制策略(CP)114。

API 116将控制策略集成到一个或多个模拟环境118、120、122中。

模拟器118、120、122通过API 116向一个或多个控制策略114提供控制策略114需要做出要采取什么动作的决定的输入(即，它正在控制的动态对象周围的环境以及场景中其他动态对象的位置)，CP 114接收该信息，并做出要采取什么动作的决定(基于已经学习的行为模型)，然后经由API 116将该决定(即，动作，例如，向特定点的移动)输出回相应的模拟器118、120、122。对于发生的每个动作，重复执行此操作。

上述步骤不必每次都以相同的顺序执行，并且无意于限制本发明。以上概述并在权利要求中定义的步骤的不同顺序可能更适合于不同的情况。概述的描述和步骤应使本领域技术人员能够理解和实施本发明。

以上步骤建立了控制策略114，可以经由API 116将其部署在一个或多个模拟环境118、120、122中。CP 114从模拟环境(或多个)118、120、122接收关于其动态对象的位置的信息，并且经由API 116向回输出对动态对象的行为的动作，其被馈送到模拟器(或多个)118、120、122。模拟器(或多个)118、120、122可以是符合以下约束的任何模拟环境：

1-模拟器(或多个)能够通过API 116将其动态对象的位置发送到CP 114；

2-模拟器(或多个)能够基于通过API 116接收的CP 114的输出来更改其动态对象的位置。因此，各个方面和/或实施例可以被部署到潜在不同的模拟器118、120和122等。

现在参照图2，其示出可以根据另一实施例实现的从演示架构学习的更详细实现的概述。

实现从摄像机或车辆中的任何传感器等接收输入，使用计算机视觉202从中分析数据以产生动态对象200、204的计算机视觉或图像数据。

该数据用于建立控制策略208。CP 208可以由自动驾驶车辆模拟器210、212、214上传或以其他方式评估。测试的CP随后可以由客户220、222、224使用，例如，自动驾驶车辆模拟器、模拟器提供商、保险公司、监管机构等。

现在参照图3，其示出LfD模块的替代实施例。在该实施例中，采用分级方法，其中由LfD产生的控制策略被分解为三个部分。

第一部分是路径规划器304，在考虑静态情境(即，静止的障碍)的同时，确定如何在遵守道路路线法则的同时，从初始位置导航到给定目的地，以及采用哪个路径执行导航。

第二部分是高级控制器302，在考虑动态情境(即，其他道路使用者)的同时，选择宏动作，宏动作指定关于如何遵循路径的高级决策(例如，是否改变车道或为红绿灯减速)。

第三部分是低级控制器306，也在考虑动态情境的同时，做出关于如何执行由高级别控制器选择的宏动作的低级决策，并直接确定通过策略输出的动作(即，控制信号)。

在这种分级方法中，可以对每个部分分别执行LfD 308、310、312，在每种情况下都会产生成本函数，然后规划者或控制器便设法将其最小化。如以上实施例中所述，可以对路径规划器304、低级控制器306和高级控制器302中的每一个以并行处理来实现LfD。

对于路径规划LfD 308，可以将原始轨迹(即，图1中所示的计算机视觉网络的输出)直接用于LfD。

对于高级控制器和低级控制器，轨迹314是从路径规划LfD 308输出的，并且首先由另一个模块316处理，该模块将轨迹细分为子轨迹，并用适当的宏动作来标记每个轨迹，然后将其馈送到高级LfD 310和低级LfD 312。

在这种分级方法中，对于模拟器300中的动态对象，路径规划器304将路径决策输出到高级控制器302。然后，高级控制器302使用来自路径规划器304的输入路径决策生成一个或多个宏动作的输出，并将其传递给低级控制器306。继而，低级控制器306从高级别控制器302接收一个或多个宏动作，并对它们进行处理以输出动作，该动作被发送回模拟器300，以使动态对象在模拟中执行。

以上实施例的应用可以包括视频游戏、机器人技术和自动驾驶车辆，在需要对类似于人的复杂行为进行建模的情况下，其他用例应该是显而易见的。

视频游戏作为用例似乎特别适合于使用此处阐述的各个方面和/或实施例。通常存在大量的游戏演示日志和视频形式的演示数据，可以用作输入，对与上述示例所给出数据集不同的数据集训练和完善上述开发方法的学习。取决于游戏，计算机视觉方法通常将需要最小的修改，因为相同的技术和对象将适用，例如，从2D映射到3D。一旦可获得游戏环境中的动态对象的轨迹，就可以应用上述各个方面/实施例中所阐述的相同的LfD方法。对于游戏应用，可以通过视频游戏环境本身就扮演了这个角色的事实代替模拟器的使用，可以简化计算机视觉和LfD处理。

相同的原则也应适用于机器人应用。如果有人收集执行任务的人类的视频数据，例如，仓库工人，则上面列出的各个方面/实施例可用于解释正在执行的感兴趣任务的演示视频，以学习将替代这些人的机器人的策略。显而易见的，为了进行映射，机器人将需要具有相似的接合点、自由度和传感器，但是与人类工作者相比，在机器人的能力略有限制的情况下，可能会有一些近似值。尽管除了使用视频数据从机器人操作演示中学习之外，或者代替使用视频数据从机器人操作演示中学习，可以执行在演示期间直接记录机器人的感觉和控制信号，这些方面/实施例也可以从由人手动控制具有任意传感器和致动器的机器人的演示中学习。

如本文所述的任何系统特征也可以被提供为方法特征，反之亦然。如本文中所使用的，装置加功能特征可以根据它们的相应结构来替代地表达。

一个方面中的任何特征可以以任何适当的组合应用于其他方面。特别地，方法方面可以应用于系统方面，反之亦然。此外，一个方面中的任何、部分和/或全部特征可以以任何适当的组合应用于任何其他方面中的任何、部分和/或全部特征。

还应当理解，可以独立地实现和/或提供和/或使用在本发明的任何方面中描述和定义的各种特征的特定组合。

Claims

1.一种创建动态对象的行为模型的计算机实现的方法，所述方法包括以下步骤：

a)从顺序图像数据中识别多个感兴趣的动态对象，所述顺序图像数据包括图像数据帧的序列；

b)确定所述动态对象在顺序图像数据的帧之间的轨迹；以及

c)从确定的轨迹中确定用于所述动态对象的控制策略，其中，所述确定步骤包括以下步骤：

i)由生成器网络确定生成行为；

ii)确定演示相似度分数，其中，演示相似度分数是通过鉴别器网络的所述生成行为与真实动态对象的预定轨迹数据的相似度的量度；

iii)将所述演示相似度分数提供回生成器网络；

iv)由生成器网络确定修正的生成行为，其中，生成器网络使用所述演示相似度分数作为奖励函数；和

v)重复步骤i)到iv)中的任何一个，以确定修正的生成行为，直到演示相似度分数达到预定阈值为止。

2.根据权利要求1所述的方法，其中，生成器网络是生成-对抗人工神经网络对(GAN)。

3.根据前述权利要求中任意一项所述的方法，其中，方法与以下各项中的任意一项或任意组合一起使用：自动驾驶车辆、模拟器、游戏、视频游戏、机器人、机器人技术。

4.根据前述权利要求中任意一项所述的方法，其中，动态对象包括以下各项中的任意一项或任意组合：人类、行人、人群、车辆、自动驾驶车辆、车队、车辆队列、动物、动物群、障碍物、机器人。

5.根据前述权利要求中任意一项所述的方法，还包括将所述轨迹从二维空间转换为三维空间的步骤。

6.根据前述权利要求中任意一项所述的方法，其中，确定控制策略的步骤使用示教学习算法。

7.根据前述权利要求中任意一项所述的方法，其中，确定控制策略的步骤使用逆强化学习算法。

8.根据前述权利要求中任意一项所述的方法，其中，使用所述演示相似度分数作为奖励函数的步骤包括：生成器网络使用演示相似度分数来改变其行为，以达到被认为是类似人的状态。

9.根据前述权利要求中任意一项所述的方法，其中，重复步骤i)至iv)中的任何一个的步骤包括：获得基本最优状态，其中，所述生成器网络从鉴别器网络获得对类似人的行为的基本最大分数。

10.根据前述权利要求中任意一项所述的方法，其中，生成器网络和/或鉴别器网络中的一个或两者包括以下各项中的任意一项或任意组合：神经网络、深度神经网络、学习模型、学习算法。

11.根据前述权利要求中任意一项所述的方法，其中，图像数据从以下各项中的任意一项或任意组合获得：视频数据、CCTV数据、交通摄像机、延时图像、提取的视频馈送、模拟、游戏、指示、手动控制数据、机器人控制数据、用户控制器输入数据。

12.根据前述权利要求中任意一项所述的方法，其中，顺序图像数据从车载传感器获得。

13.一种用于创建动态对象的行为模型的系统，所述系统包括：适于执行代码的至少一个处理器，所述代码可操作以执行任意一项前述权利要求的方法。

14.一种包括机器可读指令的存储设备，所述机器可读指令在由至少一个处理器执行时使所述至少一个处理器执行权利要求1至11中任意一项的方法步骤。