CN113741459A

CN113741459A - 确定训练样本的方法和自动驾驶模型的训练方法、装置

Info

Publication number: CN113741459A
Application number: CN202111035596.5A
Authority: CN
Inventors: 苟少帅; 张云聪; 孙元昊
Original assignee: Apollo Intelligent Technology Beijing Co Ltd
Current assignee: Apollo Intelligent Technology Beijing Co Ltd
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2021-12-03
Anticipated expiration: 2041-09-03
Also published as: CN113741459B

Abstract

本公开提供了一种确定训练样本的方法和自动驾驶模型的训练方法、装置、电子设备和存储介质，涉及人工智能技术领域，具体涉及自动驾驶和深度学习技术领域。确定训练样本的方法的具体实现方案为：确定自动驾驶数据的第一特征信息；获取多个手动驾驶数据各自的特征信息，得到多个第二特征信息；以及基于多个第二特征信息中与第一特征信息之间的相似度较高的预定数量个特征信息，确定车辆中自动驾驶模型的训练样本，其中，训练样本包括标签和指示第一时段的驾驶数据的特征数据，标签指示晚于第一时段、且与第一时段相邻的第二时段的驾驶数据。

Description

确定训练样本的方法和自动驾驶模型的训练方法、装置

技术领域

本公开涉及人工智能技术领域，具体涉及自动驾驶和深度学习技术领域，更具体地涉及一种确定训练样本的方法和自动驾驶模型的训练方法、装置、电子设备和存储介质。

背景技术

随着自动驾驶技术和人工智能技术的发展，为了提高自动驾驶体验，可以采用合理的驾驶数据不断的优化自动驾驶模型，以使得自动驾驶模型规划出更为合理的驾驶数据。

发明内容

基于此，本公开提供了一种提高训练样本准确性和降低训练样本获取成本的确定训练样本的方法和自动驾驶模型的训练方法、装置、电子设备和存储介质。

根据本公开的一个方面，提供了一种确定训练样本的方法，包括：确定自动驾驶数据的第一特征信息；获取多个手动驾驶数据各自的特征信息，得到多个第二特征信息；以及基于多个第二特征信息中与第一特征信息之间的相似度较高的预定数量个特征信息，确定车辆中自动驾驶模型的训练样本，其中，训练样本包括标签和指示第一时段的驾驶数据的特征数据，标签指示晚于第一时段、且与第一时段相邻的第二时段的驾驶数据。

根据本公开的另一个方面，提供了一种自动驾驶模型的训练方法，包括：将训练样本输入自动驾驶模型，得到预测驾驶数据，其中，训练样本包括指示实际驾驶数据的标签；以及基于预测驾驶数据和实际驾驶数据，对自动驾驶模型进行训练，其中，训练样本是采用上述确定训练样本的方法确定的。

根据本公开的另一方面，提供了一种确定训练样本的装置，包括：特征信息确定模块，用于确定自动驾驶数据的第一特征信息；特征信息获取模块，用于获取多个手动驾驶数据各自的特征信息，得到多个第二特征信息；以及样本确定模块，用于基于多个第二特征信息中与第一特征信息之间的相似度较高的预定数量个特征信息，确定车辆中自动驾驶模型的训练样本，其中，训练样本包括标签和指示第一时段的驾驶数据的特征数据，标签指示晚于第一时段、且与第一时段相邻的第二时段的驾驶数据。

根据本公开的另一方面，提供了一种自动驾驶模型的训练装置，包括：预测数据获得模块，用于将将训练样本输入自动驾驶模型，得到预测驾驶数据，其中，训练样本包括指示实际驾驶数据的标签；以及模型训练模块，用于基于预测驾驶数据和实际驾驶数据，对自动驾驶模型进行训练，其中，训练样本是采用前述的确定训练样本的装置确定的。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的确定训练样本的方法和/或自动驾驶模型的训练方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的确定训练样本的方法和/或自动驾驶模型的训练方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开提供的确定训练样本的方法和/或自动驾驶模型的训练方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的确定训练样本的方法和自动驾驶模型的训练方法、装置的应用场景示意图；

图2是根据本公开实施例的确定训练样本的方法的流程示意图；

图3是根据本公开实施例的确定自动驾驶数据的第一特征信息的原理示意图；

图4是根据本公开实施例的得到多个第二特征信息中每个特征信息与第一特征信息之间的相似度的原理示意图；

图5是根据本公开实施例的自动驾驶模型的训练方法的流程示意图；

图6是根据本公开实施例的确定训练样本的装置的结构框图；

图7是根据本公开实施例的自动驾驶模型的训练装置的结构框图；以及

图8是用来实施本公开实施例的确定训练样本的方法和/或自动驾驶模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种确定训练样本的方法，包括特征信息确定阶段、特征信息获取阶段和样本确定阶段。在特征信息确定阶段中，确定自动驾驶数据的第一特征信息。在特征信息获取阶段中，获取多个手动驾驶数据各自的特征信息，得到多个第二特征信息。在样本确定阶段中，基于多个第二特征信息中与第一特征信息之间的相似度较高的预定数量个特征信息，确定车辆中自动驾驶模型的训练样本。其中，训练样本包括标签和指示第一时段的驾驶数据的特征数据，标签指示晚于第一时段、且与第一时段相邻的第二时段的驾驶数据。

以下将结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的确定训练样本的方法和自动驾驶模型的训练方法、装置的应用场景示意图。

如图1所示，该实施例的场景100包括道路交通网110、车辆120、数据库130和通信基站140。其中道路交通网中可以包括多条道路，及由道路交汇形成的路口。车辆120例如可以安装有智能导航系统，该智能导航系统例如可以通过5G网络等，经由通信基站140将手动驾驶数据上传至数据库130中。车辆120中例如还可以安装有自动驾驶系统，自动驾驶系统可以将自动驾驶数据上传至数据库130中。

在一实施例中，数据库130中可以维护有两个存储空间，以用于分别存储手动驾驶数据和自动驾驶数据。

在一实施例中，如图1所示，该应用场景100还可以包括电子设备150。该电子设备150可以访问数据库130，以从数据库130中获取驾驶数据160。该电子设备150可以为便携式计算机、台式电脑或服务器等。

例如，该电子设备150可以是为自动驾驶系统的运行提供支持的后台管理服务器。

在一实施例中，该应用场景100还可以包括业务人员，业务人员例如可以通过操作电子设备150从数据库130中获取自动驾驶数据，并对自动驾驶数据进行合理性判定。若判定自动驾驶数据不合理，可以人工对自动驾驶数据进行调整，得到合理的自动驾驶数据。该合理的自动驾驶数据也可以作为训练自动驾驶模型的训练样本。或者，该业务人员可以通过操作电子设备150来从数据库130中获取手动驾驶数据，并对该手动驾驶数据进行筛选，得到作为训练自动驾驶模型的训练样本。

在另一实施例中，该应用场景100可以不安排业务人员。由电子设备150可以定期从数据库130中获取驾驶数据160，并通过对驾驶数据进行分析，得到用于训练自动驾驶模型的训练样本。该实施例可以降低训练样本的获取成本。该实施例的具体实现请参见后文描述的确定训练样本的方法。

在得到训练样本后，电子设备150可以使用训练样本训练自动驾驶模型。电子设备150例如还可以经由通信基站140将训练好的自动驾驶模型推送给车辆中的自动驾驶系统，以实现自动驾驶系统中自动驾驶模型的升级更新。

需要说明的是，本公开所提供的确定训练样本的方法和自动驾驶模型的训练方法中的至少一个可以由电子设备150执行，也可以由与电子设备150通信连接的其他服务器执行。相应地，本公开所提供的确定训练样本的装置和自动驾驶模型的训练装置中的至少一个可以设置在电子设备150中，也可以设置在与电子设备通信连接的其他服务器中。

应该理解，图1中的道路交通网、车辆、通信基站、数据库和电子设备的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的道路交通网、车辆、通信基站、数据库和电子设备。

以下将结合图1，通过以下图2～图4对本公开提供的确定训练样本的方法进行详细描述。

图2是根据本公开实施例的确定训练样本的方法的流程示意图。

如图2所示，该实施例的确定训练样本的方法200可以包括操作S210～操作S230。

在操作S210，确定自动驾驶数据的第一特征信息。

根据本公开的实施例，自动驾驶数据例如可以为视频数据，也可以为分析视频数据得到的对应各视频帧的以下信息中的至少一种：道路的信息、障碍物的信息、交通设施的信息、各视频帧的拍摄时间、各视频帧在视频数据中的顺序编号等。

在一实施例中，可以基于至少一个信息，来确定第一特征信息。

例如，该至少一个信息可以包括自动驾驶数据包括的道路的第一属性信息。该第一属性信息例如可以包括道路类型、道路宽度、道路数量及道路的行驶方向等。

例如，该至少一个信息可以包括自动驾驶数据包括的交通设置的第二属性信息。第二属性信息例如可以包括交通设施的类型、交通设施指示的信息等。交通设施可以包括路标、道路指示灯、限速牌等。

例如，该至少一个信息可以包括自动驾驶数据包括的障碍物的第三属性信息。第三属性信息例如可以包括障碍物与车辆之间的距离、障碍物的尺寸、类型、障碍物的移动速度、移障碍物的移动方向等。

例如，该至少一个信息可以包括行驶信息。例如可以通过分析视频帧数据中的相邻视频帧，得到车辆的行驶信息。该行驶信息例如可以包括车辆的车速、车辆的行驶方向等。

根据本公开的实施例，在自动驾驶数据为视频数据的情况下，该操作S210可以先对视频数据进行分析，得到前述的对应视频帧的至少一种信息和/或车速、行驶方向等，作为分析结果。随后可以采用矩阵或向量来表示分析结果，得到该第一特征信息。若自动驾驶数据为前述的对应视频帧的至少一种信息和/或车速、行驶方向等，则直接采用矩阵或向量来表示该些对应视频帧的信息，即可得到第一特征信息。

例如，可以采用word2vec方法、或独热编码(one-hot)方法等来实现对对应视频帧的信息的表示，从而得到第一特征信息。

例如，对于视频数据，可以针对每个视频帧得到一个分析结果。对于对应视频数据中多个视频帧的多个分析结果，该实施例可以将表示该多个分析结果的矩阵或向量依据视频帧的采集顺序拼接，将拼接得到的数据作为第一特征信息。

例如，该实施例还可以采用下文图3描述的原理来得到第一特征信息，在此不再详述。

在操作S220，获取多个手动驾驶数据各自的特征信息，得到多个第二特征信息。

根据本公开的实施例，该第二特征信息与前述第一特征信息类似。该手动驾驶数据的特征信息可以通过线下对每个手动驾驶数据进行分析得到。相应地，前述数据库可以以该特征信息的形式存储手动驾驶数据。也可以对手动驾驶数据及手动驾驶数据的特征信息建立映射关系，以同时存储该手动驾驶数据及其特征数据。

该实施例中，操作S220可以从数据库中存储的所有手动驾驶数据的特征信息中随机挑选一部分，得到多个第二特征信息。该操作S220也可以获取所有手动驾驶数据的特征信息。

根据本公开的实施例，多个手动驾驶数据可以是从大量的手动驾驶数据中筛选出的合理的驾驶数据。例如，可以从大量的手动驾驶数据中滤除掉存在违规驾驶行为的驾驶数据、发生交通事故的驾驶数据等，将剩余的手动驾驶数据作为操作S220中的多个手动驾驶数据。

在操作S230，基于多个第二特征信息中与第一特征信息之间的相似度较高的预定数量个特征信息，确定车辆中自动驾驶模型的训练样本。

根据本公开的实施例，可以采用余弦相似度、欧式距离、曼哈顿距离、皮尔逊相关系数等来表示每个第二特征信息与第一特征信息之间的相似度。

在一实施例中，该操作S230可以先计算多个第二特征信息中每个特征信息与第一特征信息之间的相似度。随后，对计算得到的多个相似度自大至小排序，选择与第一特征信息之间的相似度排在较前位置的预定数量个第二特征信息，并基于该预定数量个第二特征信息确定训练样本。其中，预定数量可以根据实际需求进行设定，本公开对此不做限定。

在另一实施例中，在操作S320之前，还可以先计算多个第二特征信息中每个特征信息与第一特征信息之间的相似度。并基于计算得到的多个相似度得到相似度较高的预定数量个特征信息。由操作S230基于该预定数量个特征信息，确定训练样本。

根据本公开的实施例，预定数量个特征信息中的每个特征信息可以指示预定时长的驾驶数据。该实施例可以将每个特征信息中指示预定时长中靠前的第一时段的驾驶数据的部分作为特征数据feature，将指示预定时长中靠后的第二时段的驾驶数据的部分作为标签label。由一个特征数据feature和一个标签label构成一个训练样本。其中，第一时段与第二时段相邻，第一时段的长度与第二时段的长度可以根据实际需求进行设定，且第一时段的长度与第二时段的长度可以相等或不等。例如，第一时段和第二时段的长度可以根据自动驾驶模型的预测能力来设定，本公开对此不做限定。

根据本公开的实施例，在第一特征信息采用下文图3描述的原理来得到第一特征信息的情况下，该实施例可以直接将预定数量个特征信息作为训练样本。

根据本公开的实施例，对于预定数量个特征信息中的每个特征信息，还可以将该每个特征信息中表示对应某个在前视频帧的信息的特征信息作为feature，将表示对应该一个在后视频帧的信息的特征信息作为label。

例如，自动驾驶模型可以为自动驾驶场景下的路径规划模型、路径决策模型、障碍物预测模型等，本公开对该自动驾驶模型不做限定。相应地，针对不同的自动驾驶模型，第一特征信息和第二特征信息所表示的驾驶数据有所不同。例如，对于路径规划模型，第一特征信息和第二特征信息表示的驾驶数据可以包括行驶路线；对于障碍物预测模型，第一特征信息和第二特征信息表示的驾驶数据可以包括障碍物的类型、障碍物的大小、障碍物的移动速度等。

综上分析，本公开实施例通过采用特征信息表示驾驶数据，并通过召回与自动驾驶数据的特征信息相似的手动驾驶数据的特征信息，可以实现与自动驾驶场景相似的手动驾驶场景下驾驶数据的召回。如此，在自动驾驶模型针对某些自动驾驶场景的规划结果不理想时，可以召回相似场景的手动驾驶数据来对自动驾驶模型进行训练，从而实现对自动驾驶模型的针对性训练，避免自动驾驶模型过拟合，提高自动驾驶模型的精度。从而可以提高基于该自动驾驶模型运行的自动驾驶车辆的行驶安全性，实现真正的无人驾驶，提高用户体验。

图3是根据本公开实施例的确定自动驾驶数据的第一特征信息的原理示意图。

根据本公开的实施例，前述第一特征信息和第二特征信息中的每个特征信息可以为包括特征数据和标签的形式。如此，挑选出来的预定数量个特征信息可以直接作为自动驾驶模型的训练样本。以下以确定第一特征信息为例，对得到包括特征数据和标签的特征信息的确定方法进行描述。

例如，自动驾驶数据包括第一预定时长的第一驾驶数据，该第一预定时长的第一驾驶数据可以通过对第一预定时长的视频数据分析得到。该第一预定时长可以包含有多个第一时刻，每个第一时刻可以为视频数据中每个视频帧的采集时刻，也可以为每个视频帧相对于视频数据中首帧的播放时刻。

如图3所示，该实施例300在确定自动驾驶数据的第一特征信息时，可以先对与自动驾驶数据对应的视频数据310中每个视频帧进行分析，得到该每个视频帧的驾驶数据。例如可以分别对视频帧311～313进行分析，得到驾驶数据321～323。多个视频帧的驾驶数据构成自动驾驶数据。该实施例可以将每个视频帧的驾驶数据与每个视频帧对应的第一时刻对应起来，得到每个第一时刻的第一驾驶数据。通过前述得到表示驾驶数据的矩阵或向量的方法，可以得到每个驾驶数据的特征矩阵。例如，对于驾驶数据321～323，可以得到特征矩阵331～333。

例如，可以以自动驾驶数据中每个第一时刻的第一驾驶数据作为第一当前数据，基于该第一当前数据及针对第一当前数据的第一在前数据，得到针对每个第一时刻的第一特征数据。例如，可以将第一当前数据对应的视频帧的前第一子时段内的视频帧的驾驶数据作为第一在前数据。将表示第一在前数据的特征矩阵和表示第一当前数据的特征矩阵拼接得到第一特征数据。

例如，可以基于第一当前数据的第一在后数据，得到针对每个第一时刻的第一标签数据。例如，可以将第一当前数据对应的视频帧的后第二子时段内的视频帧的驾驶数据作为第一在后数据。在第一在后数据为一个驾驶数据时，将表示该一个驾驶数据的特征矩阵作为第一标签数据。在第一在后数据为多个驾驶数据时，将表示该多个驾驶数据的多个特征矩阵拼接得到第一标签数据。

在得到第一特征数据和第一标签数据后，可以基于第一特征数据和第一标签数据，得到针对每个第一时刻的特征信息。具体可以将第一标签数据作为第一特征数据的标签，构成一个特征信息。

在得到针对每个第一时刻的特征信息后，可以从针对多个第一时刻的多个特征信息中选择至少一个特征信息，基于该至少一个特征信息，确定自动驾驶数据的第一特征信息。

例如，可以从多个特征信息中任一选择一个特征信息，将该选择的特征信息作为第一特征信息。或者，可以选择多个第一时刻中按时间顺序排列排在中间位置的第一时刻作为目标时刻，将针对该目标时刻的特征信息作为第一特征信息。

例如，可以从多个特征信息中选择针对连续的至少两个第一时刻的至少两个特征信息。随后将选择的至少两个特征信息进行融合，得到第一特征信息。其中，例如可以采用concat()函数来对至少两个特征信息进行融合。

示例性地，以驾驶数据322作为当前数据，拼接表示驾驶数据321的特征矩阵331和表示驾驶数据322的特征矩阵332可以得到第一特征数据341，将表示驾驶数据323的特征矩阵333作为第一标签数据342。将该第一标签数据342作为第一特征数据341的标签，可以得到第一特征信息350。

可以理解的是，在第一特征信息和第二特征信息是通过采用实施例300描述的方法获得的情况下，可以将预定数量个特征信息直接作为训练样本。这是由于预定数量个特征信息中的每个特征信息均包括有feature和label，label表示的驾驶数据所对应的视频帧为feature表示的驾驶数据所对应的视频帧的在后视频帧。可以理解为，label表示的驾驶数据为feature表示的驾驶数据之后产生的驾驶数据。而自动驾驶模型是采用实时的驾驶数据预测未来驾驶数据的模型。因此，label表示的驾驶数据可以作为与自动驾驶模型得到的预测驾驶模型相对应的实际驾驶数据。

根据本公开的实施例，若第一特征信息350采用前述将表示多个分析结果的矩阵或向量依据视频帧的采集顺序拼接得到，则可以采用前述将第一时段的驾驶数据的部分作为特征数据feature，将第二时段的驾驶数据的部分作为标签label，从而构成一个训练样本的方法，得到自动驾驶模型的训练样本。

具体地，与实施例300中的自动驾驶数据类似，每个手动驾驶数据中包括第二预定时长的第二驾驶数据。该第二预定时长的第二驾驶数据可以通过对第二预定时长的视频数据分析得到。该第二预定时长可以包含有多个第二时刻。如此，每个手动驾驶数据的特征信息包括了指示多个第二时刻的驾驶数据的多个特征数据。则针对每个特征信息，可以采用与前述实施例300基于多个驾驶数据得到第一特征信息的方法类似的方法，基于每个手动驾驶数据的特征信息中多个第二时刻的特征数据得到一个训练样本。

例如，可以以每个特征信息包括的多个特征数据中的每个特征数据作为第二当前数据，基于第二当前数据及针对第二当前数据的第二在前数据，得到针对多个第二时刻中每个第二时刻的第二特征数据。具体可以将每个特征数据作为当前数据，将当前数据对应的第二时刻之前的第三子时段内第二时刻的特征数据作为第二在前数据，将该当前数据和第二在前数据拼接得到一个第二特征数据。

例如，可以基于针对第二当前数据的第二在后数据，得到针对每个第二时刻的第二标签数据。具体可以将当前数据对应的第二时刻之后的第四子时段内第二时刻的特征数据作为第二在后数据，将该当前数据和第二在后数据拼接得到第二标签数据。

在得到第二特征数据和第二标签数据后，可以基于第二特征数据和第二标签数据，得到针对每个第二时刻的特征信息。随后可以从针对多个第二时刻的多个特征信息中选择至少一个特征信息，基于该至少一个特征信息，确定自动驾驶模型的一个训练样本。

图4是根据本公开实施例的得到多个第二特征信息中每个特征信息与第一特征信息之间的相似度的原理示意图。

根据本公开的实施例，可以采用相似度模型来确定第二特征信息与第一特征信息之间的相似度，以提高确定的相似度的准确性。通过该方式，还可以将多个第二特征信息同时输入相似度模型，得到相似度向量。相似度向量中的每个相似度表示一个第二特征信息与一个第一特征信息之间的相似度。

具体地，可以先基于第一特征信息和多个第二特征信息，确定预定相似度模型的输入数据。随后将输入数据输入预定相似度模型，得到每个特征信息与第一特征信息之间的相似度。

其中，相似度模型例如可以为深度学习模型，该相似度模型例如可以基于前述的余弦相似度、欧式距离等来计算每个第二特征信息与第一特征信息之间的相似度。该相似度模型例如可以由多个全连接层构成，也可以采用已有的类似于全空间多任务模型(Entire Space Multi-task Model，ESMM)等模型中的部分结构构成。

该相似度模型例如可以预先训练得到。在训练相似度模型时，训练样本可以包括正样本和负样本。正样本由相似的两个特征张量构成，负样本由不相似的两个特征张量构成。具体正样本和负样本的构建方式与相关技术中类似，在此不再赘述。在训练相似度模型时，例如可以采用交叉熵损失函数、L1范数损失等，本公开对此不再赘述。

在一实施例中，在基于第一特征信息和多个第二特征信息确定输入数据时，如图4所示，该实施例400可以先复制第一特征信息410，得到与多个第二特征信息420相同数量的多个第一特征信息410。随后，可以将该多个第一特征信息拼接为第一特征张量430。例如，若第一特征信息410为M×N的矩阵，第二特征信息420的个数为R，则拼接得到的第一特征张量的大小为M×N×R。类似地，可以将多个第二特征信息拼接为第二特征张量440，第二特征信息的大小与第一特征信息相同，则第二特征张量的大小也为M×N×R。最后，将该第一特征张量430与第二特征张量440以张量对的形式作为相似度模型的输入数据450。例如，得到的输入数据的大小可以为M×N×R×2。将该输入数据450输入相似度模型460，即可得到相似度向量470。该相似度向量470中各元素的取值表示第二特征张量430中对应位置的第二特征信息与第一特征信息之间的相似度。

根据本公开的实施例，为了便于快速定位到相似度较高的第二特征向量，该相似度模型除了输出相似度向量外，例如还可以输出与相似度向量中各元素对应的标识符，该标识符例如可以为得到与各元素对应的第二特征信息的手动驾驶数据的ID值，该ID值可以根据任意方式进行设定，本公开对此不做限定。相应地，第二特征信息和第一特征信息中例如也可以包括表示特征信息所对应的驾驶数据的ID值的向量。

通过该方式，可以经由相似度模型一次性计算第一特征信息与多个第二特征信息之间的相似度，可以提高获取训练样本的效率。

基于本公开提供的确定训练样本的方法，本公开还提供了一种自动驾驶模型的训练方法。以下将结合图5对该方法进行详细描述。

图5是根据本公开实施例的自动驾驶模型的训练方法的流程示意图。

如图5所示，该实施例的自动驾驶模型的训练方法500可以包括操作S510～操作S520。

在操作S510，将训练样本输入自动驾驶模型，得到预测驾驶数据。

根据本公开的实施例，训练样本包括指示实际驾驶数据的标签。该训练样本可以是采用前文描述的确定训练样本的方法获得的。自动驾驶模型例如可以为深度学习模型，以路径规划模型为例，该自动驾驶模型例如可以基于粒子群(Particle SwarmOptimization，PSO)算法、遗传算法或强化学习算法构建得到。以上自动驾驶模型仅作为示例以利于理解本公开，本公开对此不做限定，该本公开可以采用相关技术中任意的基于深度学习思想构建的自动驾驶模型。

在操作S520，基于预测驾驶数据和实际驾驶数据，对自动驾驶模型进行训练。

根据本公开的实施例，可以先确定预测驾驶数据和实际驾驶数据之间的差异，基于该差异对自动驾驶算法进行训练。例如可以采用L1范数损失函数、L2范数损失函数等来确定自动驾驶模型的损失，采用反向传播算法来优化自动驾驶模型，实现对自动驾驶模型的训练。

可以理解的是，上述确定自动驾驶模型的损失的损失函数和优化方法仅作为示例以利于理解本公开，本公开对此不做限定。

基于本公开提供的确定训练样本的方法，本公开还提供了一种确定训练样本的装置。以下将结合图6对该装置进行详细描述。

如图6所示，该实施例的确定训练样本的装置600可以包括特征信息确定模块610、特征信息获取模块620和样本确定模块630。

特征信息确定模块610用于确定自动驾驶数据的第一特征信息。在一实施例中，特征信息确定模块610可以用于执行前文描述的操作S210，在此不再赘述。

特征信息获取模块620用于获取多个手动驾驶数据各自的特征信息，得到多个第二特征信息。在一实施例中，特征信息获取模块620可以用于执行前文描述的操作S220，在此不再赘述。

样本确定模块630用于基于多个第二特征信息中与第一特征信息之间的相似度较高的预定数量个特征信息，确定车辆中自动驾驶模型的训练样本。其中，训练样本包括标签和指示第一时段的驾驶数据的特征数据，标签指示晚于第一时段、且与第一时段相邻的第二时段的驾驶数据。在一实施例中，样本确定模块630可以用于执行前文描述的操作S230，在此不再赘述。

根据本公开的实施例，自动驾驶数据包括第一预定时长的第一驾驶数据。上述特征信息确定模块610包括第一特征获得子模块、第一标签获得子模块、第一特征获得子模块和特征确定子模块。第一特征获得子模块用于以自动驾驶数据中每个第一时刻的第一驾驶数据作为第一当前数据，基于第一当前数据及针对第一当前数据的第一在前数据，得到针对每个第一时刻的第一特征数据。第一标签获得子模块用于基于针对第一当前数据的第一在后数据，得到针对每个第一时刻的第一标签数据。第一特征获得子模块用于基于第一特征数据和第一标签数据，得到针对每个第一时刻的特征信息。特征确定子模块用于基于从针对多个第一时刻的多个特征信息中选择的至少一个特征信息，确定自动驾驶数据的第一特征信息。

根据本公开的实施例，多个手动驾驶数据中的每个手动驾驶数据包括第二预定时长的第二驾驶数据。每个手动驾驶数据的特征信息包括指示多个第二时刻的驾驶数据的多个特征数据。上述样本确定模块630可以包括第二特征获得子模块、第二标签获得子模块、第二特征获得子模块和样本确定子模块。第二特征获得子模块用于以多个特征数据中的每个特征数据作为第二当前数据，基于第二当前数据及针对第二当前数据的第二在前数据，得到针对多个第二时刻中每个第二时刻的第二特征数据。第二标签获得子模块用于基于针对第二当前数据的第二在后数据，得到针对每个第二时刻的第二标签数据。第二特征获得子模块用于基于第二特征数据和第二标签数据，得到针对每个第二时刻的特征信息。样本确定子模块用于基于从针对多个第二时刻的多个特征信息中选择的至少一个特征信息，确定自动驾驶模型的一个训练样本。

根据本公开的实施例，上述确定训练样本的装置600还可以包括相似度获得模块，用于在样本确定模块630确定车辆中自动驾驶模型的训练样本之前，得到多个第二特征信息中每个特征信息与第一特征信息之间的相似度。该相似度获得模块可以包括输入数据确定子模块和相似度获得子模块。输入数据确定子模块用于基于第一特征信息和多个第二特征信息，确定预定相似度模型的输入数据。相似度获得子模块用于将输入数据输入预定相似度模型，得到每个特征信息与第一特征信息之间的相似度。

根据本公开的实施例，上述输入数据确定子模块可以包括特征复制单元、第一特征拼接单元、第二特征拼接单元和输入数据确定单元。特征复制单元用于复制第一特征信息，得到与多个第二特征信息相同数量的多个第一特征信息。第一特征拼接单元用于将多个第一特征信息拼接为第一特征张量。第二特征拼接单元用于将多个第二特征信息拼接为第二特征张量。输入数据确定单元用于将第一特征张量和第二特征张量以张量对的形式作为相似度模型的输入数据。

根据本公开的实施例，上述特征信息确定模块用于基于以下信息的至少之一，确定第一特征信息：自动驾驶数据包括的道路的第一属性信息；自动驾驶数据包括的交通设施的第二属性信息；自动驾驶数据包括的障碍物的属性信息；以及自动驾驶数据包括的行驶信息。

基于本公开提供的自动驾驶模型的训练方法，本公开还提供了一种自动驾驶模型的训练装置。以下将结合图7对该装置进行详细描述。

如图7所示，该实施例的自动驾驶模型的训练装置700可以包括预测数据获得模块710和模型训练模块720。

预测数据获得模块710用于将将训练样本输入自动驾驶模型，得到预测驾驶数据，其中，训练样本包括指示实际驾驶数据的标签。其中，训练样本是采用前文描述的确定训练样本的装置确定的。在一实施例中，预测数据获得模块710可以用于执行前文描述的操作S510，在此不再赘述。

模型训练模块720用于基于预测驾驶数据和实际驾驶数据，对自动驾驶模型进行训练。在一实施例中，模型训练模块720可以用于执行前文描述的操作S520，在此不再赘述。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的获取、收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开实施例的确定训练样本的方法和/或自动驾驶模型的训练方法的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如确定训练样本的方法和/或自动驾驶模型的训练方法。例如，在一些实施例中，确定训练样本的方法和/或自动驾驶模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM803并由计算单元801执行时，可以执行上文描述的确定训练样本的方法和/或自动驾驶模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行确定训练样本的方法和/或自动驾驶模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

基于本公开提供的电子设备，本公开还提供了一种自动驾驶车辆。该自动驾驶车辆包括前文描述的电子设备，以使得该自动驾驶车辆可以结合实时的交通信息和已行驶的路线对预先规划好的最优行车路线进行实时的调整。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种确定训练样本的方法，包括：

确定自动驾驶数据的第一特征信息；

获取多个手动驾驶数据各自的特征信息，得到多个第二特征信息；以及

基于多个所述第二特征信息中与所述第一特征信息之间的相似度较高的预定数量个特征信息，确定车辆中自动驾驶模型的训练样本，

其中，所述训练样本包括标签和指示第一时段的驾驶数据的特征数据，所述标签指示晚于所述第一时段、且与所述第一时段相邻的第二时段的驾驶数据。

2.根据权利要求1所述的方法，其中，所述自动驾驶数据包括第一预定时长的第一驾驶数据；所述确定自动驾驶数据的第一特征信息包括：

以所述自动驾驶数据中每个第一时刻的第一驾驶数据作为第一当前数据，基于所述第一当前数据及针对所述第一当前数据的第一在前数据，得到针对所述每个第一时刻的第一特征数据；

基于针对所述第一当前数据的第一在后数据，得到针对所述每个第一时刻的第一标签数据；

基于所述第一特征数据和所述第一标签数据，得到针对所述每个第一时刻的特征信息；以及

基于从针对多个第一时刻的多个特征信息中选择的至少一个特征信息，确定所述自动驾驶数据的第一特征信息。

3.根据权利要求1所述的方法，其中，所述多个手动驾驶数据中的每个手动驾驶数据包括第二预定时长的第二驾驶数据；所述每个手动驾驶数据的特征信息包括指示多个第二时刻的驾驶数据的多个特征数据；确定车辆中自动驾驶模型的训练样本包括：针对所述预定数量个特征信息中的每个特征信息：

以所述多个特征数据中的每个特征数据作为第二当前数据，基于所述第二当前数据及针对所述第二当前数据的第二在前数据，得到针对所述多个第二时刻中每个第二时刻的第二特征数据；

基于针对所述第二当前数据的第二在后数据，得到针对所述每个第二时刻的第二标签数据；

基于所述第二特征数据和所述第二标签数据，得到针对所述每个第二时刻的特征信息；以及

基于从针对所述多个第二时刻的多个特征信息中选择的至少一个特征信息，确定所述自动驾驶模型的一个训练样本。

4.根据权利要求1～3中任一项所述的方法，还包括在确定车辆中自动驾驶模型的训练样本之前，通过以下方式得到多个第二特征信息中每个特征信息与所述第一特征信息之间的相似度：

基于所述第一特征信息和多个所述第二特征信息，确定预定相似度模型的输入数据；以及

将所述输入数据输入所述预定相似度模型，得到所述每个特征信息与所述第一特征信息之间的相似度。

5.根据权利要求4所述的方法，其中，确定相似度模型的输入特征包括：

复制所述第一特征信息，得到与多个所述第二特征信息相同数量的多个第一特征信息；

将多个所述第一特征信息拼接为第一特征张量；

将多个所述第二特征信息拼接为第二特征张量；以及

将所述第一特征张量和所述第二特征张量以张量对的形式作为所述相似度模型的输入数据。

6.根据权利要求1～3中任一项所述的方法，其中，确定自动驾驶数据的第一特征信息包括：基于以下信息的至少之一，确定所述第一特征信息：

所述自动驾驶数据包括的道路的第一属性信息；

所述自动驾驶数据包括的交通设施的第二属性信息；

所述自动驾驶数据包括的障碍物的属性信息；以及

所述自动驾驶数据包括的行驶信息。

7.一种自动驾驶模型的训练方法，包括：

将训练样本输入所述自动驾驶模型，得到预测驾驶数据，其中，所述训练样本包括指示实际驾驶数据的标签；以及

基于所述预测驾驶数据和所述实际驾驶数据，对所述自动驾驶模型进行训练，

其中，所述训练样本是采用权利要求1～6中任一项所述的方法确定的。

8.一种确定训练样本的装置，包括：

特征信息确定模块，用于确定自动驾驶数据的第一特征信息；

特征信息获取模块，用于获取多个手动驾驶数据各自的特征信息，得到多个第二特征信息；以及

样本确定模块，用于基于多个所述第二特征信息中与所述第一特征信息之间的相似度较高的预定数量个特征信息，确定车辆中自动驾驶模型的训练样本，

9.根据权利要求8所述的装置，其中，所述自动驾驶数据包括第一预定时长的第一驾驶数据；所述特征信息确定模块包括：

第一特征获得子模块，用于以所述自动驾驶数据中每个第一时刻的第一驾驶数据作为第一当前数据，基于所述第一当前数据及针对所述第一当前数据的第一在前数据，得到针对所述每个第一时刻的第一特征数据；

第一标签获得子模块，用于基于针对所述第一当前数据的第一在后数据，得到针对所述每个第一时刻的第一标签数据；

第一特征获得子模块，用于基于所述第一特征数据和所述第一标签数据，得到针对所述每个第一时刻的特征信息；以及

特征确定子模块，用于基于从针对多个第一时刻的多个特征信息中选择的至少一个特征信息，确定所述自动驾驶数据的第一特征信息。

10.根据权利要求8所述的装置，其中，所述多个手动驾驶数据中的每个手动驾驶数据包括第二预定时长的第二驾驶数据；所述每个手动驾驶数据的特征信息包括指示多个第二时刻的驾驶数据的多个特征数据；所述样本确定模块包括：

第二特征获得子模块，用于以所述多个特征数据中的每个特征数据作为第二当前数据，基于所述第二当前数据及针对所述第二当前数据的第二在前数据，得到针对所述多个第二时刻中每个第二时刻的第二特征数据；

第二标签获得子模块，用于基于针对所述第二当前数据的第二在后数据，得到针对所述每个第二时刻的第二标签数据；

第二特征获得子模块，用于基于所述第二特征数据和所述第二标签数据，得到针对所述每个第二时刻的特征信息；以及

样本确定子模块，用于基于从针对所述多个第二时刻的多个特征信息中选择的至少一个特征信息，确定所述自动驾驶模型的一个训练样本。

11.根据权利要求8～10中任一项所述的装置，还包括相似度获得模块，用于在所述样本确定模块确定所述车辆中所述自动驾驶模型的训练样本之前，得到多个第二特征信息中每个特征信息与所述第一特征信息之间的相似度；所述相似度获得模块包括：

输入数据确定子模块，用于基于所述第一特征信息和多个所述第二特征信息，确定预定相似度模型的输入数据；以及

相似度获得子模块，用于将所述输入数据输入所述预定相似度模型，得到所述每个特征信息与所述第一特征信息之间的相似度。

12.根据权利要求11所述的装置，其中，所述输入数据确定子模块包括：

特征复制单元，用于复制所述第一特征信息，得到与多个所述第二特征信息相同数量的多个第一特征信息；

第一特征拼接单元，用于将多个所述第一特征信息拼接为第一特征张量；

第二特征拼接单元，用于将多个所述第二特征信息拼接为第二特征张量；以及

输入数据确定单元，用于将所述第一特征张量和所述第二特征张量以张量对的形式作为所述相似度模型的输入数据。

13.根据权利要求8～10中任一项所述的装置，其中，所述特征信息确定模块用于基于以下信息的至少之一，确定所述第一特征信息：

所述自动驾驶数据包括的道路的第一属性信息；

所述自动驾驶数据包括的交通设施的第二属性信息；

所述自动驾驶数据包括的障碍物的属性信息；以及

所述自动驾驶数据包括的行驶信息。

14.一种自动驾驶模型的训练装置，包括：

预测数据获得模块，用于将将训练样本输入所述自动驾驶模型，得到预测驾驶数据，其中，所述训练样本包括指示实际驾驶数据的标签；以及

模型训练模块，用于基于所述预测驾驶数据和所述实际驾驶数据，对所述自动驾驶模型进行训练，

其中，所述训练样本是采用权利要求8～13中任一项所述的装置确定的。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1～7中任一项所述的方法。

18.一种自动驾驶车辆，包括：根据权利要求15所述的电子设备。