CN116909169A

CN116909169A - 运行控制模型的训练方法、运行控制方法、设备及介质

Info

Publication number: CN116909169A
Application number: CN202311181265.1A
Authority: CN
Inventors: 张建伟; 谢晨; 杨健; 杨海波
Original assignee: Guanglun Intelligent Beijing Technology Co ltd
Current assignee: Guanglun Intelligent Beijing Technology Co ltd
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2023-10-20
Anticipated expiration: 2043-09-14
Also published as: CN116909169B

Abstract

本发明涉及人工智能技术领域，具体提供一种运行控制模型的训练方法、运行控制方法、设备及介质，旨在解决提高模型训练的效率和模型性能的问题。为此目的，本发明提供的方法包括获取采用第一训练数据训练好的运行控制模型并采用测试数据对运行控制模型进行性能评测；获取评测结果较差的测试数据作为目标测试数据；识别目标测试数据对应的运行控制场景；采用渲染引擎生成符合运行控制场景的第二训练数据；采用第二训练数据对运行控制模型进行训练；训练数据与测试数据分别至少包括图像。基于上述方法，可以自动且准确地识别出模型在哪些运行控制场景下的模型性能较差，生成相应的训练数据进行优化训练，提高模型在这些运行控制场景下的模型性能。

Description

运行控制模型的训练方法、运行控制方法、设备及介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种运行控制模型的训练方法、运行控制方法、设备及介质。

背景技术

在人工智能技术领域中通常会利用机器学习等算法训练得到应用于目标对象（如车辆、自动机器人等）的运行控制模型，通过这个运行控制模型对目标对象进行运行控制。以车辆为例，在对车辆进行自动驾驶控制时通常会利用自动驾驶模型进行控制，其中，自动驾驶模型包括但不限于环境感知模型、规划和决策模型等。例如，可以通过环境感知模型感知车辆周围的障碍物信息，再通过规划和决策模型利用这些障碍物信息规划出车辆的行驶路径并控制车辆按照这个行驶路径自动行驶。在此过程中，自动驾驶模型的模型性能将会极大地影响车辆自动驾驶的可靠性与安全性，而模型性能的优劣又与模型训练时采用的训练数据的准确性息息相关。

目前常规的运行控制模型训练方法主要是由人工筛选哪些训练数据会影响模型性能，进而再利用这些训练数据对模型进行针对性训练，来提高模型性能。这种方法不仅费时费力，还极易发生误判，最终影响模型训练的效率并降低模型的性能。

相应地，本领域需要一种新的技术方案来解决上述问题。

发明内容

为了克服上述缺陷，提出了本发明，以提供解决或至少部分地解决如何有效提高模型训练的效率和模型性能的技术问题的运行控制模型的训练方法、运行控制方法、设备及介质。

在第一方面，提供一种运行控制模型的训练方法，所述方法包括：

获取采用第一训练数据训练好的运行控制模型并采用测试数据对所述运行控制模型进行性能评测，以获取各测试数据对应的评测结果；

根据各测试数据对应的评测结果，获取评测结果较差的测试数据作为目标测试数据；

识别所述目标测试数据对应的运行控制场景；

采用渲染引擎生成符合所述运行控制场景的第二训练数据；

采用所述第二训练数据再次对所述运行控制模型进行训练；

其中，所述第一训练数据、所述第二训练数据与所述测试数据分别至少包括图像。

在上述运行控制模型的训练方法的一个技术方案中，“识别所述目标测试数据对应的运行控制场景”的步骤具体包括：

对所述目标测试数据进行运行控制场景的场景元素识别，以获取所述目标测试数据包含的运行控制场景的场景元素以及相应的元素信息；

根据所述场景元素以及相应的元素信息，确定所述目标测试数据对应的运行控制场景；

和/或，

所述运行控制模型至少包括自动驾驶模型。

在上述运行控制模型的训练方法的一个技术方案中，“对所述目标测试数据进行运行控制场景的场景元素识别”的步骤具体包括：

获取所述目标测试数据中的图像，并对所述图像进行场景元素识别；

根据识别的结果，获取所述目标测试数据包含的运行控制场景的场景元素以及相应的元素信息。

在上述运行控制模型的训练方法的一个技术方案中，“对所述目标测试数据进行运行控制场景的场景元素识别”的步骤还包括：

分别对所述目标测试数据进行动态场景元素和/或静态场景元素识别，以获取所述目标测试数据包含的动态场景元素以及相应的元素信息，和/或获取所述目标测试数据包含的静态场景元素以及相应的元素信息。

在上述运行控制模型的训练方法的一个技术方案中，“确定所述目标测试数据对应的运行控制场景”的步骤具体包括：

根据所述场景元素以及相应的元素信息，生成所述目标测试数据对应的运行控制场景的文本描述文件，以便能够根据所述文本描述文件确定所述目标测试数据对应的运行控制场景。

在上述运行控制模型的训练方法的一个技术方案中，“识别所述目标测试数据对应的运行控制场景”的步骤还包括：

采用预设的用于运行控制场景识别的大模型，识别所述目标测试数据对应的运行控制场景。

在上述运行控制模型的训练方法的一个技术方案中，“获取采用第一训练数据训练好的运行控制模型”的步骤具体包括：获取在上一轮训练中采用所述上一轮训练的第一训练数据训练好的运行控制模型；

“采用所述第二训练数据再次对所述运行控制模型进行训练”的步骤具体包括：判断所述上一轮训练是否为最后一轮训练；

若是，则结束模型训练；若否，则将所述第二训练数据增加至下一轮训练的第一训练数据中，以形成下一轮训练的最新第一训练数据，并采用所述最新第一训练数据对所述运行控制模型进行下一轮训练。

在第二方面，提供一种运行控制方法，所述方法包括：

采用第一方面提供的运行控制模型的训练方法，训练得到应用于目标对象的运行控制模型；

基于所述运行控制模型对目标对象进行运行控制。

在第三方面，提供一种计算机设备，该计算机设备包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行上述运行控制模型的训练方法或运行控制方法的技术方案中任一项技术方案所述的方法。

在第四方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述运行控制模型的训练方法或运行控制方法的技术方案中任一项技术方案所述的方法。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

在实施本发明提供的运行控制模型的训练方法的技术方案中，可以获取采用第一训练数据训练好的运行控制模型并采用测试数据对运行控制模型进行性能评测，以获取各测试数据对应的评测结果，根据各测试数据对应的评测结果获取评测结果较差的测试数据作为目标测试数据，进而识别目标测试数据对应的运行控制场景。由于这个运行控制场景是评测结果较差的测试数据识别得到的，因此可以理解运行控制模型在这个运行控制场景下的模型性能较差。最后，采用渲染引擎生成符合运行控制场景的第二训练数据，采用第二训练数据再次对运行控制模型进行训练，以提高运行控制模型在这个运行控制场景下的模型性能。

通过上述方法，可以在初步训练好运行控制模型之后，自动且准确地识别出这个模型在哪些运行控制场景下的模型性能较差，并有针对性地生成相应的第二训练数据进行优化训练，提高模型在这些运行控制场景下的模型性能。在此过程中，无需人工筛选运行控制场景，也无需人工去生成第二训练数据，显著提高了模型训练的效率和准确性。

附图说明

参照附图，本发明的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本发明的保护范围组成限制。其中：

图1是根据本发明的一个实施例的运行控制模型的训练方法的主要步骤流程示意图；

图2是根据本发明的一个实施例的识别目标测试数据对应的运行控制场景的方法的主要步骤流程示意图；

图3是根据本发明的另一个实施例的运行控制模型的训练方法的主要步骤流程示意图；

图4是根据本发明的一个实施例的运行控制方法的主要步骤流程示意图；

图5是根据本发明的一个实施例的计算机设备的主要结构示意图。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“处理器”可以包括硬件、软件或者两者的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。

这里先对本发明涉及的术语进行解释。

运行控制模型是利用机器学习等算法训练得到应用于目标对象（如车辆、自动机器人、扫地机等），对目标对象进行运行控制的模型。以目标对象是车辆为例，运行控制模型可以是自动驾驶模型，通过这个自动驾驶模型可以控制车辆自动驾驶，自动驾驶模型可以包括环境感知模型、规划和决策模型等。其中，环境感知模型可以感知车辆周围的障碍物等信息，规划和决策模型可以根据环境感知模型得到的感知结果规划车辆的行驶路径并控制车辆按照行驶路径行驶等等。

运行控制场景是在对目标对象进行运行控制时目标对象所在的环境，如果进行运行控制时目标对象处于移动状态，那么运行控制场景也会随着目标对象的移动而发生改变。以车辆为例，在对车辆进行自动驾驶控制的过程中，某个时刻的运行控制场景可能是道路交叉口，这个场景包含了车道线、交通信号灯、行人、车辆、天气等等场景元素。

下面对运行控制模型的训练方法的实施例进行说明。

参阅附图1，图1是根据本发明的一个实施例的运行控制模型的训练方法的主要步骤流程示意图。如图1所示，本发明实施例中的运行控制模型的训练方法主要包括下列步骤S101至步骤S105。

步骤S101：获取采用第一训练数据训练好的运行控制模型并采用测试数据对运行控制模型进行性能评测，以获取各测试数据对应的评测结果。其中，第一训练数据与测试数据分别至少包括图像。

在本实施例中可以采用机器学习技术领域中常规的模型训练方法，采用第一训练数据对运行控制模型进行训练。以自动驾驶模型为例，可以获取至少包含车道线图像的第一训练数据，采用该第一训练数据对自动驾驶模型进行车道线检测训练，使得训练好的自动驾驶模型至少能够根据车辆周围的图像获取车辆周围的车道线矢量信息。在训练时将第一训练数据输入至自动驾驶模型，自动驾驶模型可以根据第一训练数据输出车道线矢量信息的预测值，根据该预测值和第一训练数据中车道线矢量信息的实际值计算模型损失，根据模型损失计算模型参数的参数梯度，根据参数梯度反向传播更新模型参数，直至自动驾驶模型满足收敛条件后停止训练。

在本实施例中同样可以采用机器学习技术领域中常规的模型测试方法，采用测试数据对训练好的运行控制模型进行性能评测。同样以自动驾驶模型为例，可以获取至少包含车道线图像的测试数据，将该测试数据输入至自动驾驶模型，自动驾驶模型可以根据测试数据输出车道线矢量信息的预测值，根据该预测值与测试数据中车道线矢量信息的实际值，计算自动驾驶模型预测车道线矢量信息的准确率和召回率等评测指标的指标值，将这些指标值作为评测结果。

步骤S102：根据各测试数据对应的评测结果，获取评测结果较差的测试数据作为目标测试数据。

在本实施例中评测结果可以是预设评测指标的指标值，例如准确率和召回率等评测指标的指标值，指标值越大则表明评测结果越好，反之则表明评测结果越好。为了获取评测结果较差的测试数据，可以对评测结果对应的指标值与第一设定阈值进行比较；若指标值大于第一设定阈值，则表明评测结果比较好；若指标值小于或等于第一设定阈值，则表明评测结果较差，可以将得到该评测结果的测试数据作为目标测试数据。本领域技术人员可以根据实际需求灵活地设定第一设定阈值的具体数值，本发明实施例对此不作具体限定。

进一步，在一些实施方式中，为了使运行控制模型能够针对各测试数据得到稳定且较好的评测结果，除了可以将上述指标值小于或等于是第一设定阈值的测试数据作为目标测试数据，还可以对上述指标值大于第一设定阈值的测试数据作进一步筛选。具体地，在对模型训练时通常是对其进行多次迭代训练，直至满足预设的模型收敛条件，再停止训练。针对上述指标值大于第一设定阈值的测试数据，以一个测试数据为例，分别获取在这个测试数据对应的迭代训练之前和之后的迭代训练得到的指标值，若这个测试数据对应的指标值小于上述之前和之后的迭代训练得到的指标值，且与上述之前和之后的迭代训练得到的指标值之间的偏差大于第二设定阈值，则也可以将这个测试数据作为目标测试数据。本领域技术人员同样可以根据实际需求灵活地设定第二设定阈值的具体数值，本发明实施例对此不作具体限定。

步骤S103：识别目标测试数据对应的运行控制场景。

由于测试数据至少包含图像，因此可以根据目标测试数据中的图像来识别运行控制场景，将该图像的画面呈现的场景作为运行控制场景。

步骤S104：采用渲染引擎生成符合运行控制场景的第二训练数据。渲染引擎为至少能够生成图像的渲染引擎，使得第二训练数据至少能够包含图像。例如，如果运行控制场景是由车道线、交通信号灯、夜晚等场景元素组成的道路交叉口，那么可以采用渲染引擎生成由车道线、交通信号灯等场景元素组成的夜晚状态下的道路交叉口的多个不同图像，每个图像都可以作为一个第二训练数据。此外，除了可以生成上述图像，还可以生成由车道线、交通信号灯等场景元素组成的夜晚状态下的道路交叉口的多个激光雷达点云帧，使得第二训练数据不仅包含图像还包含激光雷达点云帧。

步骤S105：采用第二训练数据再次对运行控制模型进行训练。

采用第二训练数据训练运行控制模型的方法，与前述步骤S101中采用第一训练数据训练运行控制模型的方法相同，在此不再赘述。

基于上述步骤S101至步骤S105所述的方法，可以自动且准确地识别出这个模型在哪些运行控制场景下的模型性能较差，并有针对性地生成相应的第二训练数据进行优化训练，提高模型在这些运行控制场景下的模型性能。在此过程中，无需人工筛选运行控制场景，也无需人工去生成第二训练数据，显著提高了模型训练的效率和准确性。

下面对上述步骤S103作进一步说明。

在上述步骤S103的一些实施方式中，可以通过图2所示的下列步骤S1031至步骤S1032，识别目标测试数据对应的运行控制场景。

步骤S1031：对目标测试数据进行运行控制场景的场景元素识别，以获取目标测试数据包含的运行控制场景的场景元素以及相应的元素信息。

在本实施例中，可以将场景元素作为待识别目标，采用人工智能技术领域中常规的目标识别方法对目标测试数据进行目标识别，得到场景元素，同时还可以得到场景元素的元素信息。

以自动驾驶模型为例，其目标测试数据对应的运行控制场景可能是公路、服务区和加油站等，这些场景涉及的场景元素包括但不限于车道线、障碍物、交通信号灯等等。以车道线为例，其元素信息包括但不限于矢量信息、线型（虚线或实线）。对此，可以将这些场景运算作为待识别目标，对目标测试数据进行目标识别；若目标测试数据包含车道线，那么通过目标识别可以得到车道线及其矢量信息、线型等信息。

步骤S1032：根据场景元素以及相应的元素信息，确定目标测试数据对应的运行控制场景。

在本实施例中，可以根据各场景元素及各场景元素的元素信息，分别设定一个场景标签，将这些场景标签组合在一起作为运行控制场景的场景描述信息。

基于上述步骤S1031至步骤S1032所述的方法，可以通过识别场景元素，便捷且准确地确定出目标测试数据对应的运行控制场景。

下面对上述步骤S1031和步骤S1032作进一步说明。

（一）对步骤S1031进行说明。

在上述步骤S1031的一些实施方式中，可以通过下列步骤11至步骤12，对目标测试数据进行运行控制场景的场景元素识别。

步骤11：获取目标测试数据中的图像，并对图像进行场景元素识别。具体地，可以采用对图像进行目标识别的方法，以场景元素作为待识别的目标对目标测试数据中的图像进行目标识别，得到图像中包含的场景元素以及该场景元素的元素信息。

步骤12：根据识别的结果，获取目标测试数据包含的运行控制场景的场景元素以及相应的元素信息。

在本实施例中可以将图像中包含的场景元素以及该场景元素的元素信息，直接作为目标测试数据包含的运行控制场景的场景元素以及相应的元素信息。

基于步骤11至步骤12所述的方法，可以通过图像目标识别的方法，准确地获取到目标测试数据包含的各场景元素以及相应的元素信息。

在上述步骤S1031的一些实施方式中，可以分别对目标测试数据进行动态场景元素和/或静态场景元素识别，以获取目标测试数据包含的动态场景元素以及相应的元素信息，和/或获取目标测试数据包含的静态场景元素以及相应的元素信息。以自动驾驶模型为例，目标测试数据涉及的动态场景元素包括但不限于车辆、动态障碍物、行人等，目标测试数据涉及的静态场景元素包括但不限于车道线、交通指示标识、光线亮度、天气等。以车辆为例，其元素信息包括但不限于位置、速度、轨迹、类型等。通过上述实施方式，可以从动态和静态这两个维度来获取场景元素，基于这些场景元素确定运动控制场景，能够更加全面地表征运动控制场景的场景内容。

（二）对步骤S1032进行说明。

在上述步骤S1032的一些实施方式中，可以根据场景元素以及相应的元素信息，生成目标测试数据对应的运行控制场景的文本描述文件，以便能够根据文本描述文件确定目标测试数据对应的运行控制场景。其中，文本描述文件用于采用文本格式记录各场景元素以及相应的元素信息，将文本描述文件作为运行控制场景的场景文本描述信息。

下面继续对步骤S103进行说明，在步骤S103的一些实施方式中，可以采用预设的用于运行控制场景识别的大模型，识别目标测试数据对应的运行控制场景。根据前述步骤S1031至步骤S1032所述方法的描述可知，在本发明实施例中可以将场景元素作为待识别目标，采用人工智能技术领域中常规的目标识别方法对目标测试数据进行目标识别，得到场景元素，同时还可以得到场景元素的元素信息。然而，目标对象的运行控制场景通常会包含类型繁多的场景元素，为了能够准确地识别中目标测试数据中可能包含的场景元素，本发明利用人工智能技术领域中的大模型技术，预先训练好了一个用于运行控制场景识别的大模型，该大模型能够准确识别目标对象的运行控制场景所涉及的各种场景元素，同时输出识别到的场景元素作为运行控制场景的场景信息。以车辆和自动驾驶模型为例，车辆涉及的运行控制场景可能包含车道线、动态障碍物、静态障碍物、行人、建筑物、植物等等，对于每个目标测试数据而言，无论其包含全部还是部分场景元素，都可以利用上述大模型准确地识别出来，进而得到准确的运行控制场景。

在本实施例中可以采用常规的大模型构建和训练方法，构建并训练能够准确识别出各种预设场景元素的大模型，本发明实施例不对大模型的构建和训练方法作具体限定。

进一步，在根据本发明提供的运行控制模型的训练方法实施例中，在对模型训练时通常是对其进行多次迭代训练（或多轮训练），直至满足预设的模型收敛条件，再停止训练。对此，针对每轮训练，都可以采用测试数据对完成本轮训练的运行控制模型进行性能评测，获取评测结果较差的测试数据作为目标测试数据，识别目标测试数据对应的运行控制场景，采用渲染引擎生成符合运行控制场景的第二训练数据，进而在下一轮训练时利用第二训练数据与下一轮训练原本要采用的第一训练数据一起进行训练。具体而言，在执行步骤S101时可以获取在上一轮训练中采用上一轮训练的第一训练数据训练好的运行控制模型，采用该运行控制模型执行步骤S102至步骤S104，而在执行步骤S105时可以判断上一轮训练是否为最后一轮训练；若是，则结束模型训练；若否，则将第二训练数据增加至下一轮训练的第一训练数据中，以形成下一轮训练的最新第一训练数据，并采用最新第一训练数据对运行控制模型进行下一轮训练。通过上述实施方式可以在采用第一训练数据的每轮训练中都进行模型训练优化，从而可以在模型训练的过程中逐步地挖掘出模型性能较差的运行控制场景并有针对性地进行模型训练优化，最终提高模型的性能。

如图3所示，在采用第一训练数据完成一轮模型训练之后，采用测试数据对本轮训练好的运行控制模型进行性能评测，然后获取评测结果较差的测试数据作为目标测试数据输入到用于运行控制场景识别的大模型中，得到目标测试数据对应的运行控制场景的文本描述文件，再将该文本描述文件输入到渲染引擎中，生成符合目标测试数据对应的运行控制场景的第二训练数据，最后在下一轮训练时利用第二训练数据与下一轮训练原本要采用的第一训练数据一起进行训练。

下面对运行控制方法的实施例进行说明。

参阅附图4，图4是根据本发明的一个实施例的运行控制方法的主要步骤流程示意图。如图4所示，本发明实施例中的运行控制方法主要包括下列步骤S201至步骤S202。

步骤S201：采用运行控制模型的训练方法，训练得到应用于目标对象的运行控制模型。

在此步骤中，可以采用前述方法实施例所述的运行控制模型的训练方法，训练得到应用于目标对象的运行控制模型。其中，运行控制模型、目标对象的含义分别与前述方法实施例中运行控制模型、目标对象的含义相同，在此不再进行赘述。

步骤S202：基于运行控制模型对目标对象进行运行控制。

以目标对象是车辆为例，其运行控制模型可以是自动驾驶模型。在通过步骤S201训练得到自动驾驶模型之后，可以基于这个自动驾驶模型对车辆进行自动驾驶控制。

以目标对象是扫地机为例，其运行控制模型可以是扫地控制模型。在通过步骤S201训练得到扫地控制模型之后，可以基于这个扫地控制模型控制扫地机自动行驶与清扫地面的灰尘。

基于上述步骤S201至步骤S202所述的方法，可以利用高性能的运行控制模型，对目标对象的进行安全、可靠的运行控制。

需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本发明的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时（并行）执行或以其他顺序执行，这些调整之后的方案与本发明中描述的技术方案属于等同技术方案，因此也将落入本发明的保护范围之内。

本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

进一步，本发明还提供了一种计算机设备。

参阅附图5，图5是根据本发明的一个计算机设备实施例的主要结构示意图。如图5所示，本发明实施例中的计算机设备主要包括存储装置和处理器，存储装置可以被配置成存储执行上述方法实施例的运行控制模型的训练方法或运行控制方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的运行控制模型的训练方法或运行控制方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。

在本发明实施例中计算机设备可以是包括各种电子设备形成的控制装置设备。在一些可能的实施方式中，计算机设备可以包括多个存储装置和多个处理器。而执行上述方法实施例的运行控制模型的训练方法或运行控制方法的程序可以被分割成多段子程序，每段子程序分别可以由处理器加载并运行以执行上述方法实施例的运行控制模型的训练方法或运行控制方法的不同步骤。具体地，每段子程序可以分别存储在不同的存储装置中，每个处理器可以被配置成用于执行一个或多个存储装置中的程序，以共同实现上述方法实施例的运行控制模型的训练方法或运行控制方法，即每个处理器分别执行上述方法实施例的运行控制模型的训练方法或运行控制方法的不同步骤，来共同实现上述方法实施例的运行控制模型的训练方法或运行控制方法。

上述多个处理器可以是部署于同一个设备上的处理器，例如上述计算机设备可以是由多个处理器组成的高性能设备，上述多个处理器可以是该高性能设备上配置的处理器。此外，上述多个处理器也可以是部署于不同设备上的处理器，例如上述计算机设备可以是服务器集群，上述多个处理器可以是服务器集群中不同服务器上的处理器。

进一步，本发明还提供了一种计算机可读存储介质。

在根据本发明的一个计算机可读存储介质的实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的运行控制模型的训练方法或运行控制方法的程序，该程序可以由处理器加载并运行以实现上述运行控制模型的训练方法或运行控制方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

至此，已经结合附图所示的一个实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种运行控制模型的训练方法，其特征在于，所述方法包括：

识别所述目标测试数据对应的运行控制场景；

采用渲染引擎生成符合所述运行控制场景的第二训练数据；

采用所述第二训练数据再次对所述运行控制模型进行训练；

2.根据权利要求1所述的方法，其特征在于，“识别所述目标测试数据对应的运行控制场景”的步骤具体包括：

和/或，

所述运行控制模型至少包括自动驾驶模型。

3.根据权利要求2所述的方法，其特征在于，“对所述目标测试数据进行运行控制场景的场景元素识别”的步骤具体包括：

4.根据权利要求2所述的方法，其特征在于，“对所述目标测试数据进行运行控制场景的场景元素识别”的步骤还包括：

5.根据权利要求2所述的方法，其特征在于，“确定所述目标测试数据对应的运行控制场景”的步骤具体包括：

6.根据权利要求2至5中任一项所述的方法，其特征在于，“识别所述目标测试数据对应的运行控制场景”的步骤还包括：

7.根据权利要求1所述的方法，其特征在于，

“获取采用第一训练数据训练好的运行控制模型”的步骤具体包括：获取在上一轮训练中采用所述上一轮训练的第一训练数据训练好的运行控制模型；

8.一种运行控制方法，其特征在于，所述方法包括：

采用权利要求1至7中任一项所述的运行控制模型的训练方法，训练得到应用于目标对象的运行控制模型；

基于所述运行控制模型对目标对象进行运行控制。

9.一种计算机设备，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至7中任一项所述的运行控制模型的训练方法，或者以执行权利要求8所述的运行控制方法。

10.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至7中任一项所述的运行控制模型的训练方法，或者以执行权利要求8所述的运行控制方法。