CN110244728A

CN110244728A - 确定无人驾驶控制策略的方法、装置、设备及存储介质

Info

Publication number: CN110244728A
Application number: CN201910522966.4A
Authority: CN
Inventors: 钱德恒; 任冬淳; 朱炎亮; 付圣; 王志超; 丁曙光
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2019-09-17

Abstract

本申请提供一种确定无人驾驶控制策略的方法、装置、设备及存储介质，其中，所述方法包括：获取预先构建的各个目标环境对应的控制策略矩阵；确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度；基于所述相似度以及各个所述目标环境对应的控制策略矩阵确定所述当前环境对应的控制策略矩阵。本申请可以实现基于当前环境与各个目标环境之间的相似度以及各个目标环境对应的控制策略确定当前环境对应的控制策略，即可以实现为新环境确定良好的控制策略，增强控制策略算法的可扩展性，从而可以满足实际应用需求。

Description

确定无人驾驶控制策略的方法、装置、设备及存储介质

技术领域

本申请涉及无人驾驶技术领域，尤其涉及一种确定无人驾驶控制策略的方法、装置、设备及存储介质。

背景技术

无人驾驶的核心技术之一是要搭建一个驾驶模型，该驾驶模型相当于一个司机，能够感受周围环境，并做出相应地控制策略。其中，周围环境信息可以包括摄像头拍摄的周围环境视频及激光雷达获取的周围环境距离信号等，而控制策略可以包括方向盘的转角及刹车力度等。

目前，确定无人驾驶控制策略的方法大致分为两类：一类是基于规则的方法；另一类方法是基于学习的方法。目前的研究普遍认为，基于学习的方法比基于规则的方法更优。然而，现有的基于学习的方法的可扩展性较差，即只能适用于已知的环境，难以满足实际的需求。

发明内容

有鉴于此，本申请提供一种确定无人驾驶控制策略的方法、装置、设备及存储介质,以至少解决上述现有技术中的问题。

具体地，本申请是通过如下技术方案实现的：

根据本申请的第一方面，提出了一种确定无人驾驶控制策略的方法，包括：

获取预先构建的各个目标环境对应的控制策略矩阵；

确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度；

基于所述相似度以及各个所述目标环境对应的控制策略矩阵确定所述当前环境对应的控制策略矩阵。

在一实施例中，所述方法还包括基于以下步骤预先构建各个目标环境对应的控制策略矩阵：

获取人类驾驶员在多种环境下的控制信息；

标定各条所述控制信息对应的目标环境，得到各个所述目标环境的控制信息；

基于各个所述目标环境的控制信息，统计各个所述目标环境下的控制策略；

基于各个所述目标环境下的控制策略，构建各个目标环境对应的控制策略矩阵。

在一实施例中，所述确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度，包括：

确定所述当前环境的目标编码向量；

确定所述目标编码向量与各个所述目标环境的代表编码向量之间的距离；

基于所述距离确定所述当前环境与各个所述目标环境之间的相似度。

在一实施例中，所述确定所述当前环境的目标编码向量，包括：

获取所述当前环境的目标图像；

将所述目标图像输入预先训练的卷积神经网络中，得到所述当前环境的目标编码向量。

在一实施例中，所述方法还包括：

获取所述目标环境的多幅图像；

将所述多幅图像中的每幅图像分别输入预先训练的卷积神经网络中，得到所述目标环境的多个初始编码向量；

根据所述多个初始编码向量的均值确定所述目标环境的代表编码向量。

在一实施例中，所述方法还包括根据以下步骤预先训练所述卷积神经网络：

获取多幅样本图像；

标定每幅所述样本图像对应的环境以及编码向量；

将所述多幅样本图像和对应的环境以及编码向量作为训练集，训练卷积神经网络，所述编码向量与所述目标环境对应于所述卷积神经网络的不同层。

在一实施例中，所述基于所述相似度以及各个所述目标环境对应的控制策略确定所述当前环境对应的控制策略，包括：

对所述当前环境与各个所述目标环境之间的相似度进行归一化处理；

将各个所述目标环境对应的控制策略矩阵与归一化处理后的相似度进行加权求和，得到所述当前环境对应的控制策略矩阵。

根据本申请的第二方面，提出了一种确定无人驾驶控制策略的装置，包括：

控制策略获取模块，用于获取预先构建的各个目标环境对应的控制策略矩阵；

相似度确定模块，用于确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度；

控制策略确定模块，用于基于所述相似度以及各个所述目标环境对应的控制策略矩阵确定所述当前环境对应的控制策略矩阵。

根据本申请的第三方面，提出了一种确定无人驾驶控制策略的设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现上述任一所述的确定无人驾驶控制策略的方法。

根据本申请的第四方面，提出了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一所述的确定无人驾驶控制策略的方法。

由以上技术方案可见，本申请通过获取预先构建的各个目标环境对应的控制策略矩阵，并确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度，进而基于所述相似度以及各个所述目标环境对应的控制策略矩阵确定所述当前环境对应的控制策略矩阵，可以实现基于当前环境与各个目标环境之间的相似度以及各个目标环境对应的控制策略确定当前环境对应的控制策略，即可以实现为新环境确定良好的控制策略，增强控制策略算法的可扩展性，从而可以满足实际应用需求。

附图说明

图1是本申请一示例性实施例示出的一种确定无人驾驶控制策略的方法的流程图；

图2是本申请一示例性实施例示出的如何构建目标环境对应的控制策略矩阵的流程图；

图3是本申请一示例性实施例示出的如何确定当前环境与各个目标环境之间的相似度的流程图；

图4是本申请一示例性实施例示出的如何确定当前环境的目标编码向量的流程图；

图5是本申请又一示例性实施例示出的如何确定当前环境与各个目标环境之间的相似度的流程图；

图6是本申请一示例性实施例示出的如何训练卷积神经网络的流程图；

图7是本申请一示例性实施例示出的如何确定当前环境对应的控制策略的流程图；

图8是本申请一示例性实施例示出的一种确定无人驾驶控制策略的装置的结构图；

图9是本申请又一示例性实施例示出的一种确定无人驾驶控制策略的装置的结构图；

图10是本申请一示例性实施例示出的一种确定无人驾驶控制策略的设备的结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

目前，确定无人驾驶控制策略的方法大致分为两类：一类是基于规则的方法，该类方法中，工程师需为无人车的行为定义规则，比如保持车道、远离障碍物等，以使无人车在驾驶过程中通过尽量遵守这些规则来完成驾驶任务。

另一类方法是基于学习的方法，该类方法中需令一个模型去学习人类驾驶员的驾驶方法。具体步骤包括：首先记录大量的人类驾驶员在各种不同情况下的驾驶操作数据，这些数据包含驾驶员的控制信号以及车辆(型号)、外部环境状态等信息；然后利用机器学习模型从这些数据中进行学习。其中，模型的输入是车辆(型号)、外部环境信息，而输出是对无人车的控制信号；然后将该控制信号和相应的人类驾驶员的控制信号进行对比，若两个信号不同，则通过调整模型的参数来修正模型的输出，使其与驾驶员的控制信号一致；进而当训练完成后，可以得到能够很好地模拟人类驾驶员驾驶无人车的模型。目前的研究普遍认为，基于学习的方法比基于规则的方法更优。然而，现有的基于学习的方法的可扩展性较差，即模型只能学会那些录制好的数据中包含的情形，且录制人类驾驶员的数据的成本高，且无法录制所有情况的数据，因而只能适用于已知的环境，难以满足实际的需求。

有鉴于此，本申请提供一种确定无人驾驶控制策略的方法、装置、设备及存储介质，以提高确定无人驾驶控制策略的模型泛化能力，加强无人车控制的安全性。

图1是本申请第一示例性实施例示出的一种确定无人驾驶控制策略的方法的流程图；该实施例可以用于控制无人驾驶设备的服务端(例如，一台服务器和多台服务器组成的服务器集群等)，或者，可以用于无人驾驶设备(例如，无人车、无人机或机器人等)。如图1所示，该方法包括步骤S101-S103：

在步骤S101中：获取预先构建的各个目标环境对应的控制策略矩阵。

在一实施例中，为了确定当前无人驾驶设备的无人驾驶控制策略，可以获取预先构建的各个目标环境对应的控制策略矩阵。

在一实施例中，可以预先构建每个目标环境对应的控制策略矩阵，其中，目标环境可以由开发人员根据实际需求进行自由设置，如设置为高速公路、城市道路或乡村道路等，本实施例对此不进行限定。

在一实施例中，上述控制策略矩阵可以用于表征在相应的目标环境下实施的驾驶策略(例如，实施各种预设驾驶操作的概率)。

举例来说，若目标环境为高速公路，则对应的控制策略矩阵可以为[0.6,0.4,0.1],可以表示在该环境实施超车、打灯以及不鸣笛的概率分别为0.6、0.4和0.1。

在步骤S102中：确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度。

在一实施例中，当获取预先构建的各个目标环境对应的控制策略矩阵后，可以确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度。

在一实施例中，上述当前环境与各个目标环境之间的相似度可以包括通过预设算法计算出的目标参数，该参数可以用于表征无人驾驶设备所处的当前环境与各个目标环境之间的相似程度。

在一实施例中，可以通过预设编码方式将各个目标环境以及上述当前环境转化成预设编码，进而可以通过各个目标环境以及上述当前环境的预设编码之间的相似度来衡量当前环境与各个所述目标环境之间的相似度。

在一实施例中，上述确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度的方式可以参见下述图3或图5所示实施例，在此先不进行详述。

在步骤S103中：基于所述相似度以及各个所述目标环境对应的控制策略矩阵确定所述当前环境对应的控制策略矩阵。

在一实施例中，当确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度后，可以基于该相似度以及各个所述目标环境对应的控制策略矩阵确定所述当前环境对应的控制策略矩阵。

在一实施例中，可以基于当前环境与各个目标环境之间的相似度对各个目标环境对应的控制策略矩阵进行调整(例如，进行加权求和计算)，以得到调整后的控制策略矩阵，进而可以将该调整后的控制策略矩阵确定为当前环境对应的控制策略矩阵。

在一实施例中，上述基于相似度以及各个目标环境对应的控制策略矩阵确定当前环境对应的控制策略矩阵的方式可以参见下述图7所示实施例，在此先不进行详述。

由上述描述可知，本实施例通过获取预先构建的各个目标环境对应的控制策略矩阵，并确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度，进而基于所述相似度以及各个所述目标环境对应的控制策略矩阵确定所述当前环境对应的控制策略矩阵，可以实现基于当前环境与各个目标环境之间的相似度以及各个目标环境对应的控制策略确定当前环境对应的控制策略，即可以实现为新环境确定良好的控制策略，增强控制策略算法的可扩展性，从而可以满足实际应用需求。

图2是本申请一示例性实施例示出的如何构建目标环境对应的控制策略矩阵的流程图；本实施例在上述实施例的基础上以如何构建目标环境对应的控制策略矩阵为例进行示例性说明。如图2所示，上述实施例的确定无人驾驶控制策略的方法还可以包括根据以下步骤S201-S204预先构建各个目标环境对应的控制策略矩阵：

在步骤S201中，获取人类驾驶员在多种环境下的控制信息。

在一实施例中，为了构建各个目标环境对应的控制策略矩阵，可以预先获取人类驾驶员在多种环境下的控制信息。

其中，目标环境可以为上述多种环境中具有代表性的环境，或者，可以为对上述多种环境进行分类/归纳得到的环境，本实施例对此不进行限定。

在一实施例中，上述控制信息可以为人类驾驶员在相应环境下的控制操作等，本实施例对此不进行限定。

在步骤S202中，标定各条所述控制信息对应的目标环境，得到各个所述目标环境的控制信息。

在一实施例中，当获取人类驾驶员在多种环境下的控制信息后，可以标定各条所述控制信息对应的目标环境，得到各个所述目标环境的控制信息。

在一实施例中，当得到上述多种环境下的控制信息后，可以分别标注每条控制信息对应的目标环境，进而可以反过来统计每个目标环境对应的多条控制信息。

在步骤S203中，基于各个所述目标环境的控制信息，统计各个所述目标环境下的控制策略。

在一实施例中，当标定各条所述控制信息对应的目标环境，得到各个所述目标环境的控制信息后，基于各个所述目标环境的控制信息，统计各个所述目标环境下的控制策略。

在一实施例中，当确定各个目标环境的控制信息后，可以通过计算控制信息中包含的各项预设驾驶操作的概率，得到目标环境下的控制策略，进而可以通过控制策略表征人类驾驶员在该目标环境下实施各种预设驾驶操作的概率。

在步骤S204中，基于各个所述目标环境下的控制策略，构建各个目标环境对应的控制策略矩阵。

在一实施例中，当基于各个所述目标环境的控制信息，统计各个所述目标环境下的控制策略后，可以基于各个所述目标环境下的控制策略，构建各个目标环境对应的控制策略矩阵。

在一实施例中，当得到目标环境下的控制策略后，可以基于控制信息中包含的各项预设驾驶操作的概率生成控制策略矩阵，具体生成矩阵的方式可以参见现有技术中的解释和说明，本实施例对此不进行限定。

由上述描述可知，本实施例通过获取人类驾驶员在多种环境下的控制信息，并标定各条所述控制信息对应的目标环境，得到各个所述目标环境的控制信息，然后基于各个所述目标环境的控制信息，统计各个所述目标环境下的控制策略，进而基于各个所述目标环境下的控制策略，构建各个目标环境对应的控制策略矩阵，可以实现准确地构建各个目标环境对应的控制策略矩阵，进而可以为后续基于该目标环境的控制策略矩阵确定无人驾驶设备所处的当前环境的控制策略矩阵奠定基础。

图3是本申请一示例性实施例示出的如何确定当前环境与各个目标环境之间的相似度的流程图；本实施例在上述实施例的基础上以如何确定当前环境与各个目标环境之间的相似度为例进行示例性说明。如图3所示，上述步骤S102中所述确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度，可以包括以下步骤S301-S302：

在步骤S301中，确定所述当前环境的目标编码向量。

在一实施例中，当确定无人驾驶设备所处的当前环境后，可以根据预设编码方式对当前环境的图像信息等进行编码，以得到当前环境的目标编码向量。

值得说明的是，上述预设编码方式可以由开发人员根据业务需要从现有技术中进行选取，本实施例对此不进行限定。

在一实施例中，上述确定所述当前环境的目标编码向量的方式还可以参加下述图4所示实施例，在此先不进行详述。

在步骤S302中，确定所述目标编码向量与各个所述目标环境的代表编码向量之间的距离。

在一实施例中，当确定所述当前环境的目标编码向量后，可以获取各个目标环境的代表编码向量，进而可以确定该目标编码向量与各个所述目标环境的代表编码向量之间的距离。

在一实施例中，每个目标环境可以具有一个代表编码向量，该代表编码向量可以基于目标环境的一幅或多幅图像进行确定。

在一实施例中，上述目标环境的代表编码向量的确定方式可以参见下述图5所示实施例，在此先不进行详述。

在一实施例中，上述目标编码向量与各个目标环境的代表编码向量之间的距离可以由开发人员根据实际需要进行设置，如设置为余弦距离、欧式距离、曼哈顿距离或马氏距离等，本实施例对此不进行限定。

在步骤S303中，基于所述距离确定所述当前环境与各个所述目标环境之间的相似度。

在一实施例中，当确定所述目标编码向量与各个所述目标环境的代表编码向量之间的距离后，可以基于该距离确定所述当前环境与各个所述目标环境之间的相似度。

在一实施例中，可以利用目标编码向量与各个目标环境的代表编码向量之间的距离来表征上述当前环境与各个所述目标环境之间的相似度。例如，若目标编码向量与各个目标环境的代表编码向量之间的距离越大，则当前环境与各个所述目标环境之间的相似度越低；反之，若目标编码向量与各个目标环境的代表编码向量之间的距离越小，则当前环境与各个所述目标环境之间的相似度越高。

值得说明的是，为了使上述编码向量能够更好地反映不同环境之间的相似度，可以令编码向量之间的距离与不同环境的控制策略矩阵之间的距离相当。

由上述描述可知，本实施例通过确定所述当前环境的目标编码向量，并确定所述目标编码向量与各个所述目标环境的代表编码向量之间的距离，进而基于所述距离确定所述当前环境与各个所述目标环境之间的相似度，可以实现基于当前环境与目标环境的编码向量准确地确定当前环境与各个所述目标环境之间的相似度，进而可以实现后续基于当前环境与各个所述目标环境之间的相似度准确地确定当前环境对应的控制策略矩阵，可以增强控制策略算法的可扩展性，从而可以满足实际应用需求。

图4是本申请一示例性实施例示出的如何确定当前环境的目标编码向量的流程图；本实施例在上述实施例的基础上以如何确定当前环境的目标编码向量为例进行示例性说明。如图4所示，上述步骤S301中所述确定所述当前环境的目标编码向量，可以包括以下步骤S401-S402：

在步骤S401中，获取所述当前环境的目标图像。

在一实施例中，为了确定所述当前环境的目标编码向量，可以获取该当前环境的目标图像。

在一实施例中，上述当前环境的目标图像可以通过无人驾驶设备上安装的图像获取装置进行采集，或者，可以通过无人驾驶设备关联的其他设备上安装的图像获取装置进行采集，本实施例对此不进行限定。

在步骤S402中，将所述目标图像输入预先训练的卷积神经网络中，得到所述当前环境的目标编码向量。

在一实施例中，当获取所述当前环境的目标图像后，可以将该目标图像输入至预先训练的卷积神经网络中，得到所述当前环境的目标编码向量。

在一实施例中，上述卷积神经网络可以预先基于样本图像进行训练，该卷积神经网络的输入可以为当前环境的目标图像，其输出可以为当前环境的目标编码向量。

在一实施例中，上述卷积神经网络的训练方式可以参见下述图6所示实施例，在此先不进行详述。

由上述描述可知，本实施例通过获取所述当前环境的目标图像，并将所述目标图像输入预先训练的卷积神经网络中，得到所述当前环境的目标编码向量，可以实现基于预先训练的卷积神经网络确定无人驾驶设备所处的当前环境的目标编码向量，进而可以实现后续基于该目标变量向量与目标环境的代表编码向量之间的距离确定当前环境对应的控制策略矩阵，可以提高确定控制策略矩阵的准确性，满足实际应用需求。

图5是本申请又一示例性实施例示出的如何确定当前环境与各个目标环境之间的相似度的流程图；本实施例在上述实施例的基础上以如何确定当前环境与各个目标环境之间的相似度为例进行示例性说明。如图5所示，上述步骤S102中所述确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度，可以包括以下步骤S501-S506：

在步骤S501中，获取所述目标环境的多幅图像。

在一实施例中，为了确定目标环境的代表编码向量，可以获取该目标环境的多幅图像。

在一实施例中，上述目标环境的多幅图像可以为数据库中预先存储的图像，也可以为在目标环境下实时采集的多幅图像，本实施例对此不进行限定。

在步骤S502中，将所述多幅图像中的每幅图像分别输入预先训练的卷积神经网络中，得到所述目标环境的多个初始编码向量。

在一实施例中，当获取所述目标环境的多幅图像后，可以将该多幅图像中的每幅图像分别输入预先训练的卷积神经网络中，以得到每幅图像对应的一个初始编码向量，进而可以得到该目标环境的多个初始编码向量。

在步骤S503中，根据所述多个初始编码向量的均值确定所述目标环境的代表编码向量。

在一实施例中，当得到所述目标环境的多个初始编码向量后，可以计算该多个初始编码向量的均值，进而可以基于该均值确定所述目标环境的代表编码向量。

在一实施例中，可以直接将上述多个初始编码向量的均值确定为目标环境的代表编码向量。

在步骤S504中，确定所述当前环境的目标编码向量。

在步骤S505中，确定所述目标编码向量与各个所述目标环境的代表编码向量之间的距离。

在步骤S506中，基于所述距离确定所述当前环境与各个所述目标环境之间的相似度。

其中，步骤S504-S506的相关解释和说明可以参见上述实施例，在此不进行赘述。

由上述描述可知，本实施例通过获取所述目标环境的多幅图像，并将所述多幅图像中的每幅图像分别输入预先训练的卷积神经网络中，得到所述目标环境的多个初始编码向量，进而可以根据所述多个初始编码向量的均值确定所述目标环境的代表编码向量，由于通过目标环境的多幅图像计算多个初始编码向量，进而基于多个初始编码向量的均值确定目标环境的代表编码向量的方式相对于基于单一图像确定目标环境的代表编码向量，可以提高确定目标环境的代表编码向量的准确性，因而可以提高后续确定当前环境与各个所述目标环境之间的相似度的准确性，进而可以实现后续基于该相似度以及各个所述目标环境对应的控制策略矩阵准确地确定所述当前环境对应的控制策略矩阵。

图6是本申请一示例性实施例示出的如何训练卷积神经网络的流程图；本实施例在上述实施例的基础上以如何训练卷积神经网络为例进行示例性说明。如图6所示，上述实施例的确定无人驾驶控制策略的方法还可以包括基于以下步骤S601-S603预先训练所述卷积神经网络：

在步骤S601中，获取多幅样本图像。

在一实施例中，为了训练用于确定各种环境(如，无人驾驶设备所处的当前环境或目标环境等)的编码向量的卷积神经网络，可以获取各种环境下采集的多幅样本图像。

在步骤S602中，标定每幅所述样本图像对应的环境以及编码向量。

在一实施例中，当获取多幅样本图像后，可以标定每幅所述样本图像对应的环境以及编码向量。

在一实施例中，上述样本图像对应的编码向量可以根据人类驾驶员在相应环境下的控制信息进行计算，具体计算方法可以参见图2所示实施例，在此不进行赘述。

在步骤S603中，将所述多幅样本图像和对应的环境以及编码向量作为训练集，训练卷积神经网络，所述编码向量与所述目标环境对应于所述卷积神经网络的不同层。

在一实施例中，当标定每幅所述样本图像对应的环境以及编码向量后，可以将上述多幅样本图像和对应的环境以及编码向量作为训练集，训练卷积神经网络。

在一实施例中，上述编码向量与目标环境可以对应于所述卷积神经网络的不同层。例如，全连接层可以对应于网络的倒数第二层，基于倒数第二层获取测试图像的编码向量，并基于网络的输出确定测试图像对应的当前环境。

由上述描述可知，本实施例通过获取多幅样本图像，并标定每幅所述样本图像对应的环境以及编码向量，可以将所述多幅样本图像和对应的环境以及编码向量作为训练集，训练卷积神经网络，因而可以实现后续基于训练的卷积神经网络准确的确定无人驾驶设备所处的当前环境或目标环境的编码向量。

图7是本申请一示例性实施例示出的如何确定当前环境对应的控制策略的流程图；本实施例在上述实施例的基础上以如何确定当前环境对应的控制策略为例进行示例性说明。如图7所示，上述步骤S103中所述基于所述相似度以及各个所述目标环境对应的控制策略确定所述当前环境对应的控制策略，可以包括以下步骤S701-S702：

在步骤S701中，对所述当前环境与各个所述目标环境之间的相似度进行归一化处理。

在一实施例中，当确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度后，可以对所述当前环境与各个所述目标环境之间的相似度进行归一化处理。

在一实施例中，上述对相似度进行归一化处理的方式可以参见现有技术中的解释和说明，本实施例对此不进行限定。

在步骤S702中，将各个所述目标环境对应的控制策略矩阵与归一化处理后的相似度进行加权求和，得到所述当前环境对应的控制策略矩阵。

在一实施例中，当对所述当前环境与各个所述目标环境之间的相似度进行归一化处理后，可以对各个所述目标环境对应的控制策略矩阵与归一化处理后的相似度进行加权求和，得到加权求和结果，进而可以基于该加权求和结果确定当前环境对应的控制策略矩阵。

在一实施例中，可以将上述加权求和结果直接确定为当前环境对应的控制策略矩阵。

由上述描述可知，本实施例通过对所述当前环境与各个所述目标环境之间的相似度进行归一化处理，并将各个所述目标环境对应的控制策略矩阵与归一化处理后的相似度进行加权求和，得到所述当前环境对应的控制策略矩阵，可以实现基于所述相似度以及各个所述目标环境对应的控制策略准确的确定所述当前环境对应的控制策略，可以增强控制策略算法的可扩展性，从而可以满足实际应用需求。

图8是本申请一示例性实施例示出的一种确定无人驾驶控制策略的装置的结构图；如图8所示，该装置包括：控制策略获取模块110、相似度确定模块120以及控制策略确定模块130，其中：

控制策略获取模块110，用于获取预先构建的各个目标环境对应的控制策略矩阵；

相似度确定模块120，用于确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度；

控制策略确定模块130，用于基于所述相似度以及各个所述目标环境对应的控制策略矩阵确定所述当前环境对应的控制策略矩阵。

图9是本申请又一示例性实施例示出的一种确定无人驾驶控制策略的装置的结构图；其中，控制策略获取模块210、相似度确定模块220以及控制策略确定模块230与前述图8所示实施例中的控制策略获取模块110、相似度确定模块120以及控制策略确定模块130的功能相同，在此不进行赘述。如图9所示，所述装置还可以包括策略矩阵构建模块240；

策略矩阵构建模块240，可以包括：

控制信息获取单元241，用于获取人类驾驶员在多种环境下的控制信息；

控制信息获取单元242，用于标定各条所述控制信息对应的目标环境，得到各个所述目标环境的控制信息；

控制策略统计单元243，用于基于各个所述目标环境的控制信息，统计各个所述目标环境下的控制策略；

策略矩阵构建单元244，用于基于各个所述目标环境下的控制策略，构建各个目标环境对应的控制策略矩阵。

在一实施例中，相似度确定模块220，可以包括：

编码向量确定单元221，用于确定所述当前环境的目标编码向量；

向量距离确定单元222，用于确定所述目标编码向量与各个所述目标环境的代表编码向量之间的距离；

相似度确定单元223，用于基于所述距离确定所述当前环境与各个所述目标环境之间的相似度。

在一实施例中，编码向量确定单元221，还可以用于：

获取所述当前环境的目标图像；

在一实施例中，相似度确定模块220，还可以包括代表向量确定单元224；代表向量确定单元224，还可以用于：

获取所述目标环境的多幅图像；

在一实施例中，装置还包括神经网络训练模块250；神经网络训练模块250，可以包括：

样本图像获取单元251，用于获取多幅样本图像；

样本图像标定单元252，用于标定每幅所述样本图像对应的环境以及编码向量；

神经网络训练单元253，用于将所述多幅样本图像和对应的环境以及编码向量作为训练集，训练卷积神经网络，所述编码向量与所述目标环境对应于所述卷积神经网络的不同层。

在一实施例中，控制策略确定模块230，可以包括：

相似度归一化单元231，用于对所述当前环境与各个所述目标环境之间的相似度进行归一化处理；

控制策略确定单元232，用于将各个所述目标环境对应的控制策略矩阵与归一化处理后的相似度进行加权求和，得到所述当前环境对应的控制策略矩阵。

值得说明的是，上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本发明的确定无人驾驶控制策略的装置的实施例可以应用在网络设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的，其中计算机程序用于执行上述图1～图7所示实施例提供的确定无人驾驶控制策略的方法。从硬件层面而言，如图10所示，为本发明的确定无人驾驶控制策略的设备的硬件结构图，除了图10所示的处理器、网络接口、内存以及非易失性存储器之外，所述设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等；从硬件结构上来讲该设备还可能是分布式的设备，可能包括多个接口卡，以便在硬件层面进行报文处理的扩展。另一方面，本申请还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序用于执行上述图1～图7所示实施例提供的确定无人驾驶控制策略的方法。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种确定无人驾驶控制策略的方法，其特征在于，包括：

获取预先构建的各个目标环境对应的控制策略矩阵；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括基于以下步骤预先构建各个目标环境对应的控制策略矩阵：

获取人类驾驶员在多种环境下的控制信息；

3.根据权利要求1所述的方法，其特征在于，所述确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度，包括：

确定所述当前环境的目标编码向量；

4.根据权利要求3所述的方法，其特征在于，所述确定所述当前环境的目标编码向量，包括：

获取所述当前环境的目标图像；

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取所述目标环境的多幅图像；

6.根据权利要求4或5所述的方法，其特征在于，所述方法还包括根据以下步骤预先训练所述卷积神经网络：

获取多幅样本图像；

标定每幅所述样本图像对应的环境以及编码向量；

7.根据权利要求1-6任一项所述的方法，其特征在于，所述基于所述相似度以及各个所述目标环境对应的控制策略确定所述当前环境对应的控制策略，包括：

8.一种确定无人驾驶控制策略的装置，其特征在于，包括：

9.一种确定无人驾驶控制策略的无人驾驶设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现上述权利要求1-7任一所述的确定无人驾驶控制策略的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的确定无人驾驶控制策略的方法。