CN115860105A

CN115860105A - 行人模型的训练方法、装置、电子设备以及存储介质

Info

Publication number: CN115860105A
Application number: CN202211584429.0A
Authority: CN
Inventors: 薛云志; 刘光镇; 孟令中; 董乾; 陈贺; 师源; 李�瑞; 任红萍; 杨光
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-03-28

Abstract

本公开涉及一种行人模型的训练方法、装置、电子设备以及存储介质，属于自动驾驶技术领域。所述方法包括：构建行人模型；根据仿真系统的地图信息和仿真系统中目标车辆的行驶信息，得到行人模型的训练数据；其中，目标车辆为仿真系统中正在行驶的车辆，且目标车辆与行人模型发生交通事故的概率大于预设概率；利用训练数据，对行人模型进行强化学习的训练，以使训练后的行人模型与目标车辆发生交通事故的概率大于预设阈值，预设阈值大于预设概率。本公开可以通过行人模型模拟实际开放道路场景下的各种突发情况，对自动驾驶车辆进行有效的测试。

Description

行人模型的训练方法、装置、电子设备以及存储介质

技术领域

本公开涉及自动驾驶技术领域，尤其涉及一种行人模型的训练方法、装置、电子设备以及存储介质。

背景技术

自动驾驶汽车(又称无人驾驶汽车、电脑驾驶汽车、或轮式移动机器人)依靠人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作，让电脑可以自动安全地操作机动车辆。在实际开放道路场景下，自动驾驶汽车要处理的场景非常繁杂，道路中会存在向各个方向行驶的车辆、沿各种路径行进的行人以及其他交通参与者。因此，需要对各种自动驾驶车辆进行测试，以确认自动驾驶车辆在实际开放道路场景下，可以灵活应对各种交通参与者引发的突发事件，避免发生交通事故。

然而，现有技术中缺乏有效的测试方案模拟实际开放道路场景下各种突发情况的行人模型，以对各种自动驾驶车辆进行测试。

发明内容

为克服相关技术中存在的问题，本公开提供一种行人模型的训练方法、装置、电子设备以及存储介质。

根据本公开实施例的第一方面，提供了一种行人模型的训练方法，包括：构建行人模型；根据仿真系统的地图信息和所述仿真系统中目标车辆的行驶信息，得到所述行人模型的训练数据；其中，所述目标车辆为所述仿真系统中正在行驶的车辆，且所述目标车辆与所述行人模型发生交通事故的概率大于预设概率；所述行驶信息包括所述目标车辆的位置和/或速度；利用所述训练数据，对所述行人模型进行强化学习的训练，以使训练后的行人模型与所述目标车辆发生交通事故的概率大于预设阈值，所述预设阈值大于所述预设概率；其中，所述行人模型的输入为所述地图信息的状态表征和所述行驶信息的状态表征，所述行人模型的输出为行进动作信息。

可选地，所述训练数据中的一组样本包括状态信息、动作信息、奖励信息；所述状态信息包括所述仿真系统的地图信息的状态表征和所述目标车辆的行驶信息的状态表征；或者，所述状态信息包括所述仿真系统的地图信息的状态表征；所述动作信息包括所述行人模型基于输入的所述状态信息输出的行进动作信息；所述奖励信息包括所述行人模型按照所述动作信息向目标地点行进时，根据所述行人模型与所述目标车辆发生交通事故的概率所生成的奖励值。

可选地，所述奖励值的生成过程，包括：根据所述行人模型在多个轮次的训练过程中生成的历史行进动作信息和当前轮次的行进动作信息，利用第一神经网络模型得到第一值；其中，所述第一神经网络模型为基于时序的神经网络模型，所述第一值用于指示所述当前轮次的行进动作信息对所述行人模型与所述目标车辆发生交通事故的影响程度；根据所述地图信息中的边框数据，利用第二神经网络模型得到第二值；其中，所述地图信息中的边框数据包括所述行人模型的边框数据和/或所述目标车辆的边框数据，所述第二神经网络模型为卷积神经网络模型，所述第二值用于指示所述行人模型与所述目标车辆之间的位置信息；根据所述第一值和所述第二值，利用线性变换算法，得到所述奖励值；其中，相比于所述行人模型未与所述目标车辆发生交通事故，在所述行人模型与所述目标车辆发生交通事故的情况下，所述行人模型获得的所述奖励值更大。

可选地，所述奖励值的生成过程，包括：将所述地图信息中的边框数据，输入卷积神经网络模型，所述卷积神经网络模型通过所述地图信息中的边框数据确定所述行人模型与所述目标车辆是否发生交通事故；在所述行人模型与所述目标车辆发生交通事故的情况下，通过所述卷积神经网络模型输出第一奖励值；在所述行人模型未与所述目标车辆发生交通事故的情况下，通过所述卷积神经网络模型输出第二奖励值；其中，所述第一奖励值大于所述第二奖励值，所述第二奖励值根据所述行人模型与所述目标车辆之间的距离以及相对位置确定。

可选地，所述动作信息的生成过程，包括：将所述仿真系统的地图信息的状态表征输入卷积神经网络模型，得到所述仿真系统中可放置所述行人模型的位置信息；根据所述目标车辆的行驶信息的状态表征，得到先验信息，所述先验信息包括所述目标车辆沿行驶方向的区域信息；根据所述可放置所述行人模型的位置信息和所述先验信息，得到所述动作信息。

可选地，所述利用所述训练数据，对所述行人模型进行强化学习的训练之后，还包括：获取仿真系统的地图信息和被测试车辆的行驶信息；其中，所述被测试车辆在自动驾驶模型的控制下行驶在所述仿真系统中；所述行驶信息包括所述被测试车辆的位置和/或速度；根据所述地图信息和所述行驶信息，得到训练后的行人模型在所述仿真系统中的初始位置；控制所述行人模型从所述初始位置向目标地点行进，在所述行人模型在行进过程中与所述被测试车辆发生交通事故的情况下，确定所述被测试车辆测试失败。

根据本公开实施例的第二方面，提供了一种行人模型的训练装置，包括：模型构建模块，用于构建行人模型；数据获取模块，用于根据仿真系统的地图信息和所述仿真系统中目标车辆的行驶信息，得到所述行人模型的训练数据；其中，所述目标车辆为所述仿真系统中正在行驶的车辆，且所述目标车辆与所述行人模型发生交通事故的概率大于预设概率；所述行驶信息包括所述目标车辆的位置和/或速度；模型训练模块，用于利用所述训练数据，对所述行人模型进行强化学习的训练，以使训练后的行人模型与所述目标车辆发生交通事故概率大于预设阈值，所述预设阈值大于所述预设概率；其中，所述行人模型的输入为所述地图信息的状态表征和所述行驶信息的状态表征，所述行人模型的输出为行进动作信息。

根据本公开实施例的第三方面，提供了一种电子设备，包括：处理器，以及存储有计算机程序指令的存储器；所述处理器执行所述计算机程序指令时实现本公开第一方面所提供的行人模型的训练方法。

根据本公开实施例的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现本公开第一方面所提供的行人模型的训练方法。

本公开实施例提供的技术方案可以包括以下有益效果：

本公开提供的实施例中，首先构建行人模型；然后根据仿真系统的地图信息和仿真系统中的目标车辆的行驶信息，得到行人模型的训练数据；最后利用训练数据，对行人模型进行强化学习的训练，以使训练后的行人模型与目标车辆发生交通事故的概率大于预设阈值。由于训练后的行人模型较大概率可以与目标车辆发生交通事故，后续将自动驾驶车辆作为目标车辆接入仿真系统进行测试时，行人模型会做出较大概率与该自动驾驶车辆发生交通事故的行进动作，从而可以通过行人模型模拟实际开放道路场景下的各种突发情况，对自动驾驶车辆进行有效的测试。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种行人模型的训练方法的应用场景图。图2是根据一示例性实施例示出的一种行人模型的训练方法的流程图。

图3是根据一示例性实施例示出的一种行人模型获得奖励值的方法的流程图。

图4是根据一示例性实施例示出的又一种行人模型获得奖励值的方法的流程图。

图5是根据一示例性实施例示出的一种行人模型生成动作信息的方法的流程图。

图6是根据一示例性实施例示出的对自动驾驶车辆进行测试的方法的流程图。

图7是根据一示例性实施例示出的强化学习过程的示意图。

图8是根据一示例性实施例示出的仿真系统的示意图。

图9是根据一示例性实施例示出的行人模型生成动作信息的网络结构示意图。

图10是根据一示例性实施例示出的计算行人模型的奖励值的网络结构示意图。

图11是根据一示例性实施例示出的一种行人模型的训练装置的框图。

图12是根据一示例性实施例示出的一种电子设备1200的框图。

具体实施方式

下面将结合附图详细地对示例性实施例进行描述说明。

应当指出，相关实施例及附图仅为描述说明本公开所提供的示例性实施例，而非本公开的全部实施例，也不应理解本公开受相关示例性实施例的限制。

应当指出，本公开中所用术语“第一”、“第二”等仅用于区别不同步骤、设备或模块等。相关术语既不代表任何特定技术含义，也不表示它们之间的顺序或者相互依存关系。

应当指出，本公开中所用术语“至少一个”的修饰是示意性而非限制性的。除非在上下文另有明确指出，否则应该理解为“一个或多个”。

应当指出，本公开中所用术语“和/或”，用于描述关联对象之间的关联关系，一般表示至少存在三种关联关系。例如，A和/或B，至少可以表示：单独存在A，同时存在A和B，单独存在B这三种关联关系。

应当指出，本公开的方法实施例中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。除非特别说明，本公开的范围不受相关实施例中步骤的描述顺序限制。

需要说明的是，本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

图1是根据一示例性实施例示出的一种行人模型的训练方法的应用场景图。

如图1所示，在应用场景中可以包括服务端110、终端120和网络130。

在一些实施例中，服务端110、终端120之间可以通过网络130进行数据或者信息的交互。例如，服务端110可以通过网络130获取终端120中的信息和/或数据，或者可以通过网络130将信息和/或数据发送到终端120。

终端120为安装有仿真系统的电子设备。如图8所示，仿真系统可以模拟包括各种车辆、行人等交通参与者的实际交通场景。在一些实施例中，终端120可以从仿真系统获得训练数据(例如，可以采集仿真系统中包含目标车辆的一个或多个道路窗口数据，作为训练数据)，并将训练数据通过网络130发送给服务端110。

服务端110用于根据训练数据，训练得到行人模型，该行人模型用于对多个厂商的自动驾驶汽车进行测试。服务端110可以是单一服务器或服务器组。该服务器组可以是集中式或分布式的(例如，服务端110可以是分布式系统)，可以是专用的也可以由其他设备或系统同时提供服务。在一些实施例中，服务端110可以是区域的或者远程的。在一些实施例中，服务端110可以在云平台上实施，或者以虚拟方式提供。仅作为示例，云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。

在一些实施例中，网络130可以是无线网络中的任意一种或多种。例如，网络130可以包括无线局域网络(WLAN)、城域网(MAN)等或其任意组合。

为了便于理解，以下结合附图和实施例介绍本公开的技术方案。

是图2根据一示例性实施例示出的一种行人模型的训练方法的流程图。如图2所示，行人模型的训练方法包括以下步骤。

在步骤S210中，构建行人模型。

行人模型为用于测试自动驾驶汽车是否可以应对现实交通场景中各种复杂状况的模型。本公开提供的行人模型包括但不限于人类的形状，也可以是猫、狗或其他动物等，不受本说明书的表述所限。

本公开实施例中的行人模型通过强化学习(reinforcement learning，RL)训练得到。强化学习用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习是智能体以“试错”的方式进行学习，通过动作(action)与环境进行交互获得的奖励(reward)指导行为，目标是使智能体获得最大的奖励。常见的强化学习算法有Q-learning(Q学习)，policy gradient(策略梯度)，actor-critic(演员-评判家)等。

强化学习主要包含五个元素：智能体(agent)、环境(environment)、状态(state)、动作(action)与奖励(reward)，其中，智能体的输入为状态，输出为动作。强化学习的训练过程为：通过智能体与环境进行交互，获得每次交互的动作、状态、奖励，将一组动作、状态、奖励，作为一组训练数据，对智能体进行一次训练。采用上述过程，对智能体进行下一轮次训练，直至满足收敛条件。

在本公开提供的实施例中，如图7所示，行人模型为强化学习方法中的智能体，仿真系统为强化学习方法中的环境，地图信息和目标车辆的行驶信息作为强化学习中的状态信息，行人的行进动作作为强化学习中的动作信息。在具体实施过程中，行人模型的输入为仿真系统的地图信息的状态表征和目标车辆的行驶信息的状态表征，行人模型的输出为行进动作信息。

地图信息可以包括仿真系统被采集的场景中的道路结构信息、各种交通参与者的位置信息、目标车辆的位置信息、静态障碍物的位置信息、交通规则信息等。道路结构信息包括但不限于：车道的位置信息、人行道的位置信息、绿化带的位置信息等。交通参与者包括但不限于：行人、车辆等。静态障碍物包括但不限于：树木、停止的车辆、静止的行人等。交通规则信息包括但不限于：交通标志、红绿灯等。

仿真系统中存在多个车辆，可以从中选取正在行驶的，并且具有一定概率可以和行人模型发生交通事故(例如，人和车相撞)的车辆作为目标车辆；也即，目标车辆为仿真系统中正在行驶的车辆，且目标车辆与行人模型发生交通事故的概率大于预设概率，例如，预设概率取值为0，或者，预设概率取值为50％、80％等。例如，一个正在十字路口向西转弯的车辆，其存在一定概率可以和由南向北行进的行人模型发生交通事故，因此可以将其作为目标车辆。目标车辆的行驶信息包括目标车辆在仿真系统被采集的场景中的各种参数、位置等信息，如目标车辆的位置、速度等。

地图信息的状态表征和行驶信息的状态表征是对地图信息和行使信息进行处理后得到的数据。在具体实施过程中，可以根据强化学习算法中对状态的定义来确定对地图信息和行驶信息的处理方式，得到地图信息的状态表征和行驶信息的状态表征。例如，地图信息的状态表征可以为一个多维的向量，通过不同维度的数据来表征地图信息包含的不同信息。

在步骤S220中，根据仿真系统的地图信息和仿真系统中目标车辆的行驶信息，得到行人模型的训练数据；其中，行驶信息包括目标车辆的位置和/或速度。

由上述步骤S210可知，目标车辆为仿真系统中正在行驶的车辆，且目标车辆与行人模型发生交通事故的概率大于预设概率。在一些实施例中，可以对仿真系统中包含目标车辆的多个场景进行采集，得到离线的地图信息。例如，可以将仿真系统中目标车辆对应的视野范围内的图像数据作为离线采集的地图信息。在一些实施例中，可以将目标车辆在离线的地图信息中的位置和对应的速度作为行驶信息。

在一些实施例中，可以将行人模型接入仿真系统，实时获取仿真系统的地图信息和目标车辆的行驶信息，作为训练数据。本公开提供的实施例，通过将行人模型放置到仿真系统中，从而可以获得复杂多变的训练数据，根据该训练数据得到的训练后的行人模型更适合用于测试自动驾驶车辆，可以输出较大概率与被测试车辆发生交通事故的动作信息。

在具体实施过程中，可以根据一组地图信息和目标车辆的行驶信息得到训练数据中的一组样本；其中，样本包括：状态信息、动作信息、奖励信息。

在一些实施例中，状态信息包括仿真系统的地图信息的状态表征和目标车辆的行驶信息的状态表征。在一些实施例中，状态信息可以仅包括仿真系统的地图信息的状态表征，不受本说明书的表述所限。

在一些实施例中，动作信息包括行人模型基于输入的状态信息输出的行进动作信息，也即，将状态信息输入行人模型，获取行人模型输出的行进动作信息，将行进动作信息作为动作信息。在一些实施例中，动作信息可以用多维度的位置信息表示。例如，行人模型的动作信息可以包括行人模型的8个位置点的坐标信息：上、下、左、右、左上、左下、右上、右下。通过多维的位置信息可以表示出行人模型的较为精细的动作信息。例如，可以通过行人模型的左上角、左下角、右上角、右下角4个点组成的平面与地图坐标系的南北方向之间形成的夹角，表示行人模型做出转向的动作(例如，左转15°)。又例如，可以通过行人模型的上下坐标组成的直线在地图坐标系中沿南北方向的坐标，表示行人模型沿南北方向的行进距离(当前输出的坐标值与上一次输出的坐标值之间的差值)。

在具体实施过程，可以使用多种强化学习算法实现行人模型的网络结构，不受本说明书的表述所限。例如，可以采用ACKTR(Actor Critic using Kronecker-FactoredTrust Region)算法实现行人模型的网络结构，ACKTR算法包括策略网络与值网络，可以设计包含卷积层与全连接层的值网络与策略网络来构建行人模型。

关于行人模型根据状态信息，生成动作信息的一个实施例详见图5的相关描述，这里不再赘述。

在一些实施例中，奖励信息包括行人模型按照动作信息向目标地点行进时，根据行人模型与目标车辆发生交通事故的概率所生成的奖励值。发生交通事故的概率越大，行人模型得到的奖励值也越大。在具体实施过程中，可以使用多种强化学习算法，根据行人模型输出的动作信息，确定行人模型可以得到的奖励值。关于根据行人模型输出的动作信息，确定行人模型可以得到的奖励值的实施例，详见图3和图4的相关描述，这里不再赘述。

本公开提供的实施例，通过行人模型与目标车辆发生交通事故的概率，确定行人模型的奖励值，根据强化学习的算法，行人模型会选择输出可以获得最大回报值(根据奖励值，使用回报函数得到回报值)的动作信息，因此，使用训练后的行人模型在仿真系统中对自动驾驶车辆进行测试时，可以做出较大概率与被测试车辆发生交通事故的行进动作，从而可以有效的对自动驾驶车辆的灵敏度进行测试。

在步骤S230中，利用训练数据，对行人模型进行强化学习的训练，以使训练后的行人模型与目标车辆发生交通事故的概率大于预设阈值。

在具体实施过程中，可以根据训练数据中的多组样本对行人模型进行训练，其中，每一组样本对应于仿真系统的一个场景。在具体实施过程中，如图7所示，训练过程如下：将第一状态信息输入行人模型；根据行人模型输出的第一动作信息，确定行人模型得到的第一奖励值；将训练数据中的下一组样本的第二状态信息再次作为行人模型的输入，直至满足模型收敛条件或者训练次数达到预设次数阈值(例如，100次)。模型收敛条件可以为行人模型与目标车辆发生交通事故。在具体实施过程中，在训练次数达到预设次数阈值之后，行人模型仍然不满足模型收敛条件，则可以终止本次训练，选择仿真系统的其他场景和/或从场景中选择其他车辆作为目标车辆，根据重新选择的场景和/或目标车辆得到多组样本，继续对行人模型进行训练，直至训练后的行人模型与目标车辆发生交通事故的概率大于预设阈值。例如，进行100次训练，其中99次行人模型可以与目标车辆发生交通事故，则可以认为训练完成，得到训练后的行人模型。

需要说明的一点是，在步骤S220中选取的目标车辆本身可能存在一定的概率与行人模型发生交通事故，通过步骤S230对行人模型的训练，可以提高行人模型与目标车辆发生交通事故的概率。例如，在步骤S220中选择的目标车辆存在20％的概率与行人模型发生碰撞，而通过步骤S230对行人模型的训练完成之后，行人模型与目标车辆发生交通事故的概率提高到90％。也就是说，步骤S230中的预设阈值大于步骤S220中的预设概率。

本公开提供的实施例中，根据仿真系统的地图信息和仿真系统中目标车辆的行驶信息，得到行人模型的训练数据；利用训练数据，对行人模型进行强化学习的训练，以使训练后的行人模型与目标车辆发生交通事故的概率大于预设阈值。由于训练后的行人模型较大概率可以与目标车辆发生交通事故，后续将自动驾驶车辆作为目标车辆接入仿真系统进行测试时，行人模型会做出较大概率与该自动驾驶车辆发生交通事故的行进动作，从而可以有效的对自动驾驶车辆的灵敏度进行测试。

图3是根据一示例性实施例示出的一种行人模型获得奖励值的方法的流程图。如图3所示，该方法包括以下步骤。

在步骤S310中，根据行人模型在多个轮次的训练过程中生成的历史行进动作信息和当前轮次的行进动作信息，利用第一神经网络模型得到第一值。

第一神经网络模型可以为基于时序的神经网络模型，包括但不限于：RNN(循环神经网络模型，Recurrent Neural Network)、LSTM(长短期记忆，Long short-term memory)模型等。RNN对于每一个时刻的输入结合当前模型的状态给出一个输出，其来源是为了刻画一个序列当前的输出与之前输入的信息的关系。RNN擅长解决与时间序列相关的问题，对于一个序列数据，可以将这个序列上不同时刻的数据依次传入RNN的输入层，RNN的输出可以是对序列中下一个时刻的预测，也可以是对当前时刻信息的处理结果(例如语音识别结果)。LSTM为基于RNN改进后的模型，LSTM不仅能够解决RNN无法处理的长距离的依赖的问题，还能够解决神经网络中常见的梯度爆炸或梯度消失等问题，在处理序列数据方面非常有效。

在一些实施例中，第一神经网络模型可以为LSTM模型，如图10所示，可以将多个轮次(例如10个轮次)的训练过程中生成的历史行进动作信息和当前轮次的行进动作信息作为输入数据，依次输入LSTM模型，LSTM模型输出第一值。行人模型与目标车辆发生交通事故的结果，与行人模型输出的一系列动作信息相关联，行人模型从初始位置向目标地点行进的过程中，可以根据动作信息作出向前行进、路径选择、转向等动作，逐步使其自身的位置和目标车辆的位置越来越接近，发生交通事故的概率越来越大。经过多次训练，LSTM模型可以根据历史行进动作信息和当前轮次的行进动作信息确定当前轮次的行进动作信息对于行人模型与目标车辆发生交通事故的结果产生的影响，并用数值来表示该影响的大小，即LSTM模型输出的第一值。也就是说，本实施例中，第一值用于指示当前轮次的行进动作信息对行人模型与目标车辆发生交通事故的影响程度。

在步骤S320中，根据地图信息中的边框数据，利用第二神经网络模型得到第二值。

地图信息中的边框数据包括行人模型的边框数据和/或目标车辆的边框数据。在一些实施例中，边框数据可以为二维的边界框(box)，其包括目标对象(例如，行人模型、目标车辆等)的左上角的位置坐标、左下角的位置坐标、右上角的位置坐标以及右下角的位置坐标。

第二神经网络模型可以为卷积神经网络模型，如图10所示，可以将边框数据输入卷积神经网络模型，卷积神经网络模型输出第二值。经过多次训练，卷积神经网络模型可以根据地图信息中的边框数据，确定行人模型与目标车辆之间的距离、相对位置等信息，并通过第二值将该信息量化。也就是说，本实施例中，第二值用于指示行人模型与目标车辆之间的位置信息，如距离、相对位置等。

在步骤S330中，根据第一值和第二值，利用线性变换算法，得到奖励值。

线性变换为保持线性关系的变换或映射。在一些实施例中，线性变换算法可以为二元一次方程的形式，仅作为示例，线性变换算法可以如下述公式(1)所示。

y＝ax₁+bx₂ (1)

在公式(1)中，x₁为第一值，x₂为第二值，a和b为通过训练得到的系数，y为奖励值。

在一些实施例中，线性变化算法也可以为全连接层，第一值和第二值作为该全连接层的输入，全连接层输出奖励值，全连接层的权重系数(即上述公式(1)中的a和b)可以通过训练得到。如图10所示，LSTM输出的第一值，和卷积神经网络模型输出的第二值，作为全连接层的输入，全连接层输出奖励值。

在一些实施例中，在行人模型与目标车辆发生交通事故的情况下，利用线性变换算法得到事故发生奖励值；在行人模型未与目标车辆发生交通事故的情况下，利用线性变换算法得到事故未发生奖励值；事故发生奖励值大于事故未发生奖励值，即相比于行人模型未与目标车辆发生交通事故，在行人模型与目标车辆发生交通事故的情况下，行人模型获得的奖励值更大。

在本公开提供的实施例中，根据行人模型在多个轮次的训练过程中生成的历史行进动作信息和当前轮次的行进动作信息，利用第一神经网络模型得到可以较为精确的表示当前轮次的行进动作信息对于行人模型与目标车辆发生交通事故的结果产生的影响的第一值；根据地图信息中的边框数据，利用第二神经网络模型，得到可以反映行人模型与目标车辆之间的距离、相对位置等信息的第二值；根据第一值和第二值，利用线性变换算法，得到综合了第一值和第二值的奖励值。因此，本实施例可以达到如下训练目标：行人模型与目标车辆发生交通事故的概率越大，得到的奖励值也越大。

图4是根据一示例性实施例示出的又一种行人模型获得奖励值的方法的流程图。如图4所示，该方法包括以下步骤。

步骤S410，将地图信息中的边框数据，输入卷积神经网络模型。

在本实施例中，根据行人模型是否与目标车辆发生交通事故确定奖励值。关于地图信息中的边框数据，以及卷积神经网络模型对边框数据的处理参见步骤S320中的相关描述，这里不再赘述。

步骤S420，在行人模型与目标车辆发生交通事故的情况下，通过卷积神经网络模型输出第一奖励值。

卷积神经网络模型可以通过地图信息中的边框数据确定行人模型与目标车辆是否发生交通事故，如果是，则输出第一奖励值，第一奖励值可以为大于0的数值。

仅作为示例，在行人模型与目标车辆之间的距离小于预设距离阈值(例如，5厘米)的情况下，可以确定行人模型与目标车辆将要或已经发生交通事故，可以将第一奖励值设为一个较大的数值。

步骤S430，在行人模型未与目标车辆发生交通事故的情况下，通过卷积神经网络模型输出第二奖励值；其中，第一奖励值大于第二奖励值。

关于根据行人模型与目标车辆之间的距离以及相对位置确定奖励值的方法，可以参见步骤S320中获取第二值的方法描述，这里不再赘述。

在具体实施过程中，可以根据行人模型与目标车辆之间的距离以及相对位置确定第二奖励值。仅作为示例，在行人模型与目标车辆之间的距离大于预设距离阈值(例如，5厘米)的情况下，可以确定行人模型与目标车辆并未发生交通事故，可以将第二奖励值设为一个较小的数值。

可选地，第一奖励值和第二奖励值可以是预先设置的数值，第一奖励值大于第二奖励值；并且，在发生交通事故的情况与第一奖励值之间预先建立了对应关系、在未发生交通事故的情况与第二奖励值之间预先建立了对应关系。从而，通过卷积神经网络模型对地图信息中的边框数据处理时，若卷积神经网络模型确定行人模型与目标车辆发生交通事故，则卷积神经网络模型输出第一奖励值；若卷积神经网络模型确定行人模型未与目标车辆发生交通事故，则卷积神经网络模型输出第二奖励值。

本公开提供的实施例中，将地图信息中的边框数据，输入卷积神经网络模型；在行人模型与目标车辆发生交通事故的情况下，卷积神经网络模型输出第一奖励值；在行人模型未与目标车辆发生交通事故的情况下，卷积神经网络模型输出第二奖励值。由于在本实施例中，根据行人模型是否与目标车辆发生交通事故而生成奖励值，因此可以使得行人模型在较短时间内学习到如何与目标车辆发生交通事故的策略。

图5是根据一示例性实施例示出的一种行人模型生成动作信息的方法的流程图。如图5所示，该方法包括以下步骤。

步骤S510，将仿真系统的地图信息的状态表征输入卷积神经网络模型，得到仿真系统中可放置行人模型的位置信息。

如图9所示，可以将地图信息的状态表征输入卷积神经网络模型，卷积神经网络模型输出位置信息。

经过训练，卷积神经网络模型可以根据地图信息确定出仿真系统中可以放置行人模型的位置信息。例如，仿真系统中包括绿化带、人行道、车辆道路等，人行道上可能存在行人、停靠的车辆等，卷积神经网络模型可以将人行道上不存在其他物体的位置作为可以放置行人模型的位置信息。

在具体实施过程中，可放置行人模型的位置信息可以包括一个或多个可放置行人模型的位置，每个可放置行人模型的位置对应一块或者多块预设面积大小的区域信息。例如，可以将人行道按长度和宽度划分为多个区域，一个可放置行人模型的位置对应一个或多个区域，从而可放置行人模型的位置信息可以包括人行道中的部分或全部区域。

应理解，图4所示实施例中使用的卷积神经网络模型和图5所示实施例中使用的卷积神经网络模型是分别训练的，它们可以是两个独立的卷积神经网络模型。

步骤S520，根据目标车辆的行驶信息的状态表征，得到先验信息；其中，先验信息包括目标车辆沿行驶方向的区域信息。

如图9所示，可以将行驶信息的状态表征输入先验信息计算模型，得到先验信息。

先验信息可以为较大概率发生交通事故的位置信息，其包括目标车辆沿行驶方向的区域信息。目标车辆沿行驶方向的区域信息可以为目标车辆的车头部分沿可能的行驶方向形成的扇形区域，当行人模型在该区域内时，与目标车辆发生交通事故的概率较大。在具体实施过程，可以根据目标车辆的速度，确定扇形区域的大小。例如，可以根据目标车辆的速度与目标车辆的位置，行人模型的速度与行人模型的位置，计算得到行人模型与目标车辆可能发生交通事故的位置，根据该位置确定扇形区域的大小。

步骤S530，根据可放置行人模型的位置信息和先验信息，得到动作信息。

在具体实施过程中，可以根据步骤S510中得到的可以放置行人模型的位置信息，确定行人模型可能的行进动作信息。例如，行人模型的右侧存在行人A，则行人模型可以前行以及左转。又例如，行人模型的前方有临时停靠的车辆B，左侧为绿化带，则行人模型可以向右前方行进、或者右转。

在具体实施过程中，可以根据可放置行人模型的位置信息和先验信息确定行人模型最大概率与目标车辆发生交通事故的行进动作，将其作为行人模型的动作信息。例如，如果行人模型右侧为可放置行人模型的位置，同时也是目标车辆即将左转到达的位置(先验信息)，则可以将“右转”(例如，可以通过行人模型的8个位置点的坐标信息表示，详细内容参见步骤S220中的相关描述)作为行人模型的行进动作。又例如，如果行人模型前方为可放置行人模型的位置，同时也是直行的目标车辆的车头前方位置(先验信息)，则可以将“直行”作为行人模型的行进动作。

本公开提供的实施例中，将仿真系统的地图信息的状态表征输入卷积神经网络模型，得到仿真系统中可放置行人模型的位置信息；根据目标车辆的行驶信息的状态表征，得到先验信息；根据位置信息和先验信息，得到动作信息。由于根据位置信息可以确定仿真系统中可以放置行人的位置，根据先验信息可以确定存在较大概率可以与目标车辆发生交通事故的位置，因此，在本实施例中，可以根据位置信息和先验信息确定出存在较大概率可以与目标车辆发生交通事故的行人模型的行进动作信息。

图6是根据一示例性实施例示出的对自动驾驶车辆进行测试的方法的流程图。如图6所示，该方法包括以下步骤。

步骤S610，获取仿真系统的地图信息和被测试车辆的行驶信息；其中，被测试车辆在自动驾驶模型的控制下行驶在仿真系统中；行驶信息包括被测试车辆的位置和/或速度。

关于地图信息和行驶信息的其它介绍说明，请参见步骤S310中的相关描述，在此不再赘述。

步骤S620，根据地图信息和行驶信息，得到训练后的行人模型在仿真系统中的初始位置。

其中，行人模型用于对被测试车辆进行测试，关于行人模型的训练过程请参见上述图2至图5实施例中的相关描述，这里不再赘述。在具体实施过程中，可以根据地图信息，得到仿真系统中可放置行人模型的位置信息；根据行驶信息，得到先验信息，其中，先验信息包括被测试车辆沿行驶方向的区域信息。关于可放置行人模型的位置信息和先验信息的其它介绍说明，请参见图5所示实施例中的相关描述，这里不再赘述。

在具体实施过程中，可以从可放置行人模型的位置信息中选择同时也属于被测试车辆沿行驶方向的区域信息的位置，作为行人模型在仿真系统中的初始位置。若存在多个位置同时属于可放置行人模型的位置信息和被测试车辆沿行驶方向的区域信息，则可以从这多个位置中随机选择一个位置作为行人模型的初始位置，也可以从这多个位置中选择离被测试车辆最近的位置作为行人模型的初始位置，本实施例对具体实施过程不作限定。

步骤S630，控制行人模型从初始位置向目标地点行进，在行人模型在行进过程中与被测试车辆发生交通事故的情况下，确定被测试车辆测试失败。

目标地点是训练后的行人模型自行决策得到的。通过上述图2至图5实施例完成训练的行人模型，能够基于仿真系统中可放置行人模型的位置信息(由卷积神经网络模型基于仿真系统的地图信息的状态表征处理得到)，以及被测试车辆沿行驶方向的区域信息，自行决策得到行进动作信息，该行进动作信息包括但不限于以下至少一项：目标地点、行进动作类型、行进动作方向、行进动作速度，等等。训练后的行人模型在决策得到行进动作信息之后，即按照该行进动作信息从初始位置向目标地点行进。

交通事故包括但不限于：行人模型和被测试车辆相撞、行人模型被被测试车辆碾压等情况。

在具体实施过程中，如果在预设次数(例如，100次)的测试中，均确定被测试车辆测试成功，也即行人模型在行进过程中未与被测试车辆发生交通事故，则可以说明用于控制被测试车辆的自动驾驶模型的灵敏度足够高，可以通过自动驾驶灵敏度和安全性测试。或者，如果在预设次数(例如，100次)的测试中，大部分情况下(例如，预设次数的90％，90次)确定被测试车辆测试成功，小部分情况下(例如，预设次数的10％，10次)确定被测试车辆测试失败，则可以说明用于控制被测试车辆的自动驾驶模型的灵敏度足够高，可以通过自动驾驶灵敏度和安全性测试。

本公开提供的实施例中，获取仿真系统的地图信息和被测试车辆的行驶信息；根据地图信息和行驶信息，得到训练后的行人模型在仿真系统中的初始位置，从而可以根据该初始位置，将行人模型放置到较大概率会与被测试车辆发生交通事故的位置；控制行人模型从初始位置向目标地点行进，在行人模型在行进过程中与被测试车辆发生交通事故的情况下，确定被测试车辆测试失败，有助于对控制被测试车辆的自动驾驶模型的灵敏度和安全性进行有效的测试。

示例性装置

图11是根据一示例性实施例示出的一种行人模型的训练装置的框图。参照图11，该装置1100包括：模型构建模块1110、数据获取模块1120、模型训练模块1130。

模型构建模块1110，用于构建行人模型。

数据获取模块1120，用于根据仿真系统的地图信息和所述仿真系统中目标车辆的行驶信息，得到所述行人模型的训练数据；其中，所述目标车辆为所述仿真系统中正在行驶的车辆，且所述目标车辆与所述行人模型发生交通事故的概率大于预设概率；所述行驶信息包括所述目标车辆的位置和/或速度。

模型训练模块1130，用于利用所述训练数据，对所述行人模型进行强化学习的训练，以使训练后的行人模型与所述目标车辆发生交通事故概率大于预设阈值，所述预设阈值大于所述预设概率；其中，所述行人模型的输入为所述地图信息的状态表征和所述行驶信息的状态表征，所述行人模型的输出为行进动作信息。

可选地，所述装置1100还用于：根据所述行人模型在多个轮次的训练过程中生成的历史行进动作信息和当前轮次的行进动作信息，利用第一神经网络模型得到第一值；其中，所述第一神经网络模型为基于时序的神经网络模型，所述第一值用于指示所述当前轮次的行进动作信息对所述行人模型与所述目标车辆发生交通事故的影响程度；根据所述地图信息中的边框数据，利用第二神经网络模型得到第二值；其中，所述地图信息中的边框数据包括所述行人模型的边框数据和/或所述目标车辆的边框数据，所述第二神经网络模型为卷积神经网络模型，所述第二值用于指示所述行人模型与所述目标车辆之间的位置信息；根据所述第一值和所述第二值，利用线性变换算法，得到所述奖励值；其中，相比于所述行人模型未与所述目标车辆发生交通事故，在所述行人模型与所述目标车辆发生交通事故的情况下，所述行人模型获得的所述奖励值更大。

可选地，所述装置1100还用于：将所述地图信息中的边框数据，输入卷积神经网络模型，所述卷积神经网络模型通过所述地图信息中的边框数据确定所述行人模型与所述目标车辆是否发生交通事故；在所述行人模型与所述目标车辆发生交通事故的情况下，通过所述卷积神经网络模型输出第一奖励值；在所述行人模型未与所述目标车辆发生交通事故的情况下，通过所述卷积神经网络模型输出第二奖励值；其中，所述第一奖励值大于所述第二奖励值，所述第二奖励值根据所述行人模型与所述目标车辆之间的距离以及相对位置确定。

可选地，所述装置1100还用于：将所述仿真系统的地图信息的状态表征输入卷积神经网络模型，得到所述仿真系统中可放置所述行人模型的位置信息；根据所述目标车辆的行驶信息的状态表征，得到先验信息，所述先验信息包括所述目标车辆沿行驶方向的区域信息；根据所述可放置所述行人模型的位置信息和所述先验信息，得到所述动作信息。

可选地，所述装置1100还用于：获取所述仿真系统的地图信息和被测试车辆的行驶信息；其中，所述被测试车辆在自动驾驶模型的控制下行驶在所述仿真系统中；所述行驶信息包括所述被测试车辆的位置和/或速度；根据所述地图信息和所述行驶信息，得到训练后的行人模型在所述仿真系统中的初始位置；控制所述行人模型从所述初始位置向目标地点行进，在所述行人模型在行进过程中与所述被测试车辆发生交通事故的情况下，确定所述被测试车辆测试失败。

上述行人模型的训练装置的各个实施例的具体处理及其带来的技术效果，可分别参考对应方法实施例中的相关说明，在此不再赘述。

示例性电子设备

图12是根据一示例性实施例示出的一种电子设备1200的框图。该电子设备1200可以是计算机设备、笔记本电脑、服务器、车辆控制器、车载终端、车载计算机或者其他类型的电子设备。

参照图12，电子设备1200可包括至少一个处理器1210和存储器1220。处理器1210可以执行存储在存储器1220中的指令。处理器1210通过数据总线与存储器1220通信连接。除存储器1220外，处理器1210还可通过数据总线与输入设备1230、输出设备1240、通信设备1250通信连接。

处理器1210可以是任何常规的处理器。处理器可以包括诸如中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphic Process Unit，GPU)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、片上系统(System on Chip，SOC)、专用集成芯片(Application Specific Integrated Circuit，ASIC)或它们的组合。

存储器1220可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

在本公开实施例中，存储器1220中存储有可执行指令，处理器1210可以从所述存储器1220中读取所述可执行指令，并执行所述指令以实现上述示例性实施例中行人模型的训练方法的全部或部分步骤。

示例性计算机可读存储介质

除了上述方法和装置以外，本公开示例性实施例还包括计算机程序产品或存储有该计算机程序产品的计算机可读存储介质。该计算机产品中包括计算机程序指令，该计算机程序指令可被处理器执行，以实现上述示例性实施例中描述的全部或部分步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言以及脚本语言(例如Python)。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质更具体的例子包括：具有一个或多个导线电连接的静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘，或者上述的任意合适的组合。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开也并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种行人模型的训练方法，其特征在于，包括：

构建行人模型；

根据仿真系统的地图信息和所述仿真系统中目标车辆的行驶信息，得到所述行人模型的训练数据；其中，所述目标车辆为所述仿真系统中正在行驶的车辆，且所述目标车辆与所述行人模型发生交通事故的概率大于预设概率；所述行驶信息包括所述目标车辆的位置和/或速度；

利用所述训练数据，对所述行人模型进行强化学习的训练，以使训练后的行人模型与所述目标车辆发生交通事故的概率大于预设阈值，所述预设阈值大于所述预设概率；其中，所述行人模型的输入为所述地图信息的状态表征和所述行驶信息的状态表征，所述行人模型的输出为行进动作信息。

2.根据权利要求1所述的行人模型的训练方法，其特征在于，所述训练数据中的一组样本包括状态信息、动作信息、奖励信息；

所述状态信息包括所述仿真系统的地图信息的状态表征和所述目标车辆的行驶信息的状态表征；或者，所述状态信息包括所述仿真系统的地图信息的状态表征；

所述动作信息包括所述行人模型基于输入的所述状态信息输出的行进动作信息；

所述奖励信息包括所述行人模型按照所述动作信息向目标地点行进时，根据所述行人模型与所述目标车辆发生交通事故的概率所生成的奖励值。

3.根据权利要求2所述的行人模型的训练方法，其特征在于，所述奖励值的生成过程，包括：

根据所述行人模型在多个轮次的训练过程中生成的历史行进动作信息和当前轮次的行进动作信息，利用第一神经网络模型得到第一值；其中，所述第一神经网络模型为基于时序的神经网络模型，所述第一值用于指示所述当前轮次的行进动作信息对所述行人模型与所述目标车辆发生交通事故的影响程度；

根据所述地图信息中的边框数据，利用第二神经网络模型得到第二值；其中，所述地图信息中的边框数据包括所述行人模型的边框数据和/或所述目标车辆的边框数据，所述第二神经网络模型为卷积神经网络模型，所述第二值用于指示所述行人模型与所述目标车辆之间的位置信息；

根据所述第一值和所述第二值，利用线性变换算法，得到所述奖励值；其中，相比于所述行人模型未与所述目标车辆发生交通事故，在所述行人模型与所述目标车辆发生交通事故的情况下，所述行人模型获得的所述奖励值更大。

4.根据权利要求2所述的行人模型的训练方法，其特征在于，所述奖励值的生成过程，包括：

将所述地图信息中的边框数据，输入卷积神经网络模型，所述卷积神经网络模型通过所述地图信息中的边框数据确定所述行人模型与所述目标车辆是否发生交通事故；

在所述行人模型与所述目标车辆发生交通事故的情况下，通过所述卷积神经网络模型输出第一奖励值；

在所述行人模型未与所述目标车辆发生交通事故的情况下，。

5.根据权利要求2所述的行人模型的训练方法，其特征在于，所述动作信息的生成过程，包括：

将所述仿真系统的地图信息的状态表征输入卷积神经网络模型，得到所述仿真系统中可放置所述行人模型的位置信息；

根据所述目标车辆的行驶信息的状态表征，得到先验信息，所述先验信息包括所述目标车辆沿行驶方向的区域信息；

根据所述可放置所述行人模型的位置信息和所述先验信息，得到所述动作信息。

6.根据权利要求1所述的行人模型的训练方法，其特征在于，所述利用所述训练数据，对所述行人模型进行强化学习的训练之后，还包括：

获取所述仿真系统的地图信息和被测试车辆的行驶信息；其中，所述被测试车辆在自动驾驶模型的控制下行驶在所述仿真系统中；所述行驶信息包括所述被测试车辆的位置和/或速度；

根据所述地图信息和所述行驶信息，得到训练后的行人模型在所述仿真系统中的初始位置；

控制所述行人模型从所述初始位置向目标地点行进，在所述行人模型在行进过程中与所述被测试车辆发生交通事故的情况下，确定所述被测试车辆测试失败。

7.一种行人模型的训练装置，其特征在于，包括：

模型构建模块，用于构建行人模型；

数据获取模块，用于根据仿真系统的地图信息和所述仿真系统中目标车辆的行驶信息，得到所述行人模型的训练数据；其中，所述目标车辆为所述仿真系统中正在行驶的车辆，且所述目标车辆与所述行人模型发生交通事故的概率大于预设概率；所述行驶信息包括所述目标车辆的位置和/或速度；

模型训练模块，用于利用所述训练数据，对所述行人模型进行强化学习的训练，以使训练后的行人模型与所述目标车辆发生交通事故概率大于预设阈值，所述预设阈值大于所述预设概率；其中，所述行人模型的输入为所述地图信息的状态表征和所述行驶信息的状态表征，所述行人模型的输出为行进动作信息。

8.一种电子设备，其特征在于，包括：处理器，以及存储有计算机程序指令的存储器；所述处理器执行所述计算机程序指令时实现所述权利要求1-6任一所述的行人模型的训练方法。

9.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现所述权利要求1-6任一所述的行人模型的训练方法。