CN113963551B

CN113963551B - 基于协作定位的车辆定位方法、系统、设备及介质

Info

Publication number: CN113963551B
Application number: CN202111212083.7A
Authority: CN
Inventors: 董方云; 李健; 滕玲; 方帅; 邢亚; 邢宁哲; 金燊; 杨纯; 胡振; 丁慧霞; 张彦雷
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Information and Telecommunication Branch of State Grid Jibei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Information and Telecommunication Branch of State Grid Jibei Electric Power Co Ltd
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2022-09-27
Anticipated expiration: 2041-10-18
Also published as: CN113963551A

Abstract

本发明属于定位领域，公开了一种基于协作定位的车辆定位方法、系统、设备及介质，包括以下步骤：获取目标车辆的当前时刻估计位置信息，以及目标车辆的各相邻车辆的标识；将目标车辆的当前时刻估计位置信息，输入预设的测量路径预测模型，得到目标车辆的下一时刻动作路径；根据目标车辆的下一时刻动作路径以及目标车辆的各相邻车辆的标识，进行目标车辆与目标车辆的各相邻车辆的数据测量和数据交换，得到目标车辆的下一时刻估计位置信息。实现目标车辆的各相邻车辆进行数据测量和数据交换的必要性的评估，在评估结果的基础上给出目标车辆的下一时刻动作路径，能够在最大程度上降低进行数据测量和数据交换的相邻车辆的数量，避免不必要的资源消耗。

Description

基于协作定位的车辆定位方法、系统、设备及介质

技术领域

本发明属于定位领域，涉及一种基于协作定位的车辆定位方法、系统、设备及介质。

背景技术

随着车辆自动驾驶的逐渐发展和应用，对车辆的高精度定位事关人车安全及车辆调度等问题。新兴的5G移动通信技术不仅支持通信，同时也支持定位，而车辆间的协作定位相比于单一定位方式，能够以更少的资源完成车辆定位。协作定位中具体采取何种方法要考虑带宽、计算和存储等资源有限的问题。现有的常规方法，如贪心策略和随机策略等，对于协作定位问题没有闭式解且解的可扩展性较差，如果再考虑长期奖励因素，那现有方法将无法应对此问题。

如中国专利申请：CN103841641A，公开了一种基于到达角度和Gossip算法的无线传感器网络分布式协作定位方法，涉及无线传感器网络分布式定位方法。其为了实现每个锚节点采用AoA定位方法获得的未知节点位置估计值有效利用从而提高定位精度，同时将网络中每个锚节点获取的定位数据有效的融合压缩，去除由于节点密度较高引起的定位数据冗余。将Gossip算法和AoA定位方法的优势相结合，采用AoA定位方法作为基本定位技术，借助Gossip算法随机选择相邻节点交换数据并且最终达到分布式平均共识的特性，给出适用于无线传感器网络工作环境的具备精确定位精度、优良定位性能同时有效去除冗余从而完成定位数据融合压缩的分布式协作定位方法。主要应用于无线传感器网络定位中。该方法针对由大量具有数据采集、数据处理和无线数据收发等功能的无线传感器所组成的无线传感器网络，提出借助Gossip算法随机选择相邻节点交换数据，再将网络中每个锚节点的冗余定位数据进行融合压缩的方法。

但是，该方法采用随机交换策略调度网络中节点定位相关的测量数据，再根据测量数据降低网络中节点位置的不确定度，而随机策略会产生一些需要锚节点压缩的冗余信息，而这些测量、交换和压缩操作都十分消耗资源。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供一种基于协作定位的车辆定位方法、系统、设备及介质。

为达到上述目的，本发明采用以下技术方案予以实现：

本发明第一方面，一种基于协作定位的车辆定位方法，包括以下步骤：

获取目标车辆的当前时刻估计位置信息，以及目标车辆的各相邻车辆的标识；其中，目标车辆的相邻车辆为已知真实位置信息，且与目标车辆之间的距离小于预设距离的车辆；

将目标车辆的当前时刻估计位置信息，输入预设的测量路径预测模型，得到目标车辆的下一时刻动作路径；

根据目标车辆的下一时刻动作路径以及目标车辆的各相邻车辆的标识，进行目标车辆与目标车辆的各相邻车辆的数据测量和数据交换，得到目标车辆的下一时刻估计位置信息。

本发明基于协作定位的车辆定位方法进一步的改进在于：

当当前时刻为当前定位周期的初始时刻时，所述获取目标车辆的当前时刻估计位置信息的具体方法为：

获取目标车辆与目标车辆的各相邻车辆之间的数据测量信息，以及目标车辆的各相邻车辆的当前时刻真实位置信息；

根据目标车辆与目标车辆的各相邻车辆之间的数据测量信息，以及目标车辆的各相邻车辆的当前时刻真实位置信息，得到目标车辆基于目标车辆的各相邻车辆的当前时刻估计位置数据；

根据目标车辆基于目标车辆的各相邻车辆的当前时刻估计位置数据，得到目标车辆的当前时刻估计位置信息。

所述测量路径预测模型通过如下方式构建：

获取训练车辆及训练车辆的各相邻车辆的若干历史时刻真实位置信息，以及训练车辆初始历史时刻估计位置信息，得到训练集；其中，训练车辆的相邻车辆为已知真实位置信息，且与训练车辆之间的距离小于预设距离的车辆；

以最大化期望累计奖励为优化目标，以训练车辆的当前历史时刻估计位置信息为输入，以训练车辆的下一历史时刻动作路径为输出，通过训练集迭代训练预设的深度神经网络模型，得到测量路径预测模型；

其中，训练车辆的当前历史时刻估计位置信息通过训练车辆的当前历史时刻动作路径，以及训练车辆各相邻车辆的若干历史时刻真实位置信息得到；期望累计奖励为各历史时刻奖励之和的期望，各历史时刻奖励通过如下方式得到：当训练车辆的当前历史时刻估计位置信息与当前历史时刻真实位置信息之间的位置方差在预设误差内时，当前历史时刻奖励为第一预设值；否则，当前历史时刻奖励为第二预设值，第一预设值大于第二预设值。

所述通过训练集迭代训练预设的深度神经网络模型时，采用梯度下降法更新深度神经网络模型参数。

所述训练集设置预设数量个，且至少两训练集中训练车辆的相邻车辆数量不同。

所述第二预设值为0。

所述进行目标车辆与目标车辆的各相邻车辆的数据测量和数据交换，得到目标车辆的下一时刻估计位置信息的具体方法为：

根据目标车辆的下一时刻动作路径以及目标车辆的各相邻车辆的标识，确定目标车辆的各相邻车辆中需要与目标车辆记进行数据测量和数据交换的车辆标识，得到若干测换车辆标识；

根据若干测换车辆标识，测量下一时刻目标车辆与各测换车辆的直线距离，以及下一时刻目标车辆与各测换车辆的连线与目标车辆行进方向的夹角；

将各测换车辆的下一时刻真实位置信息交换至目标车辆；

根据各测换车辆的下一时刻真实位置信息，下一时刻目标车辆与各测换车辆的直线距离，以及下一时刻目标车辆与各测换车辆的连线与目标车辆行进方向的夹角，得到下一时刻目标车辆基于各测换车辆的预测估计位置信息；

获取下一时刻目标车辆基于各测换车辆的预测估计位置信息的平均值，得到目标车辆的下一时刻估计位置信息。

本发明第二方面，一种基于协作定位的车辆定位系统，包括：

获取模块，用于获取目标车辆的当前时刻估计位置信息，以及目标车辆的各相邻车辆；其中，目标车辆的相邻车辆为已知真实位置信息，且与目标车辆之间的距离小于预设距离的车辆；

预测模块，用于将目标车辆的当前时刻估计位置信息，输入预设的测量路径预测模型，得到目标车辆的下一时刻动作路径；

估计模块，用于根据目标车辆的下一时刻动作路径，进行目标车辆与目标车辆的各相邻车辆的数据测量和数据交换，得到目标车辆的下一时刻估计位置信息。

本发明第三方面，一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于协作定位的车辆定位方法的步骤。

本发明第四方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于协作定位的车辆定位方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明基于协作定位的车辆定位方法，根据目标车辆的当前时刻估计位置信息，通过预设的测量路径预测模型进行目标车辆的下一时刻动作路径的预测，在预测过程中，通过预设的测量路径预测模型，实现目标车辆的各相邻车辆进行数据测量和数据交换的必要性的评估，在评估结果的基础上给出目标车辆的下一时刻动作路径，相较于现有的贪心策略和随机交换策略，能够在最大程度上降低进行数据测量和数据交换的相邻车辆的数量，避免不必要的资源消耗，无论是定位所需的数据测量和数据交换次数，还是在有限的数据测量和数据交换次数下达到设定定位精度的车辆数量，都要优于现有的贪心策略和随机交换策略。

附图说明

图1为本发明的基于协作定位的车辆定位方法流程框图；

图2为本发明的基于协作定位的车辆定位系统结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明一实施例中，提供一种基于协作定位的车辆定位方法，在每次进行目标车辆与目标车辆的各相邻车辆的数据测量和数据交换前，评估与目标车辆的各相邻车辆进行数据测量和数据交换的必要性，以此为标准决定需要进行数据测量和数据交换的相邻车辆，以使得最大程度上降低进行数据测量和数据交换的相邻车辆的数量，避免不必要的资源消耗，具体的，该基于协作定位的车辆定位方法包括以下步骤。

S1：获取目标车辆的当前时刻估计位置信息，以及目标车辆的各相邻车辆的标识；其中，目标车辆的相邻车辆为已知真实位置信息，且与目标车辆之间的距离小于预设距离的车辆。其中，标识为各车辆的信息化表示，可采用数字、文字及字母等形式，用于信息化标记和区别各车辆。

具体的，在一个定位周期内，除初始时刻的目标车辆的当前时刻估计位置信息需要进行获取外，其余时刻的目标车辆的当前时刻估计位置信息都会在上一时刻执行所述基于协作定位的车辆定位方法后得到，然后在当前时刻继续执行所述基于协作定位的车辆定位方法时，直接采用上一时刻执行所述基于协作定位的车辆定位方法后得到的结果即可。

其中，当当前时刻为当前定位周期的初始时刻时，所述获取目标车辆的当前时刻估计位置信息的具体方法为：获取目标车辆与目标车辆的各相邻车辆之间的数据测量信息，以及目标车辆的各相邻车辆的当前时刻真实位置信息；根据目标车辆与目标车辆的各相邻车辆之间的数据测量信息，以及目标车辆的各相邻车辆的当前时刻真实位置信息，得到目标车辆基于目标车辆的各相邻车辆的当前时刻估计位置数据；根据目标车辆基于目标车辆的各相邻车辆的当前时刻估计位置数据，得到目标车辆的当前时刻估计位置信息。

其中，目标车辆与目标车辆的各相邻车辆之间的数据测量信息，通过进行目标车辆与目标车辆的各相邻车辆的数据测量得到。具体的，进行目标车辆与目标车辆的各相邻车辆的数据测量的具体方法为：测量目标车辆与目标车辆的各相邻车辆的直线距离，即距离测量量l_ij，以及目标车辆与目标车辆的各相邻车辆的连线与目标车辆行进方向的夹角，即角度测量量α_ij，完成目标车辆与目标车辆的各相邻车辆的数据测量。

具体的，距离测量量l_ij和角度测量量α_ij的计算如下：

其中，(x_i,yi)为目标车辆i的位置坐标，(x_j,y_j)为目标车辆的相邻车辆j的位置坐标。

S2：将目标车辆的当前时刻估计位置信息，输入预设的测量路径预测模型，得到目标车辆的下一时刻动作路径。

具体的，本实施例中，为了实现在每次进行目标车辆与目标车辆的各相邻车辆的数据测量和数据交换前，评估与目标车辆的各相邻车辆进行数据测量和数据交换的必要性，预设了测量路径预测模型来实现这一功能。同时，本实施例中，还提供了如下的测量路径预测模型构建方式：

获取训练车辆及训练车辆的各相邻车辆的若干历史时刻真实位置信息，以及训练车辆初始历史时刻估计位置信息，得到训练集；其中，训练车辆的相邻车辆为已知真实位置信息，且与训练车辆之间的距离小于预设距离的车辆；以最大化期望累计奖励为优化目标，以训练车辆的当前历史时刻估计位置信息为输入，以训练车辆的下一历史时刻动作路径为输出，通过训练集迭代训练预设的深度神经网络模型，得到测量路径预测模型；其中，训练车辆的当前历史时刻估计位置信息通过训练车辆的当前历史时刻动作路径，以及训练车辆各相邻车辆的若干历史时刻真实位置信息得到；期望累计奖励为各历史时刻奖励之和的期望，各历史时刻奖励通过如下方式得到：当训练车辆的当前历史时刻估计位置信息与当前历史时刻真实位置信息之间的位置方差在预设误差内时，当前历史时刻奖励为第一预设值；否则，当前历史时刻奖励为第二预设值，第一预设值大于第二预设值。

下面详细说明上述测量路径预测模型的构建原理，以进一步说明测量路径预测模型的可解释性。具体的，在超密度网络和资源有限的的车联网场景条件下，如何确定两辆车之间是否有必要进行位置测量和数据交换，以将网络中所有车辆的位置不确定度降低至某一阈值以下，是实现协作定位进行车辆定位的关键问题。

基于此，本实施例中，将如何确定两辆车之间是否有必要进行位置测量和数据交换，建立为部分可观察马尔可夫决策过程POMDP。即每辆车独立决策，某辆车采取的动作影响其他车辆观测到的环境，以快速降低网络中所有车辆位置不确定度至某一阈值以下为目标设置每个agent获得的奖励，每个agent无法获得全局状态。首先，构建网络G＝(V,E)，其中V＝{1,2,3,...,N}是车辆集合，

是车辆间连线(边)的集合，每辆车的位置坐标X_i＝(x_i,y_i),i∈V，每个代理agent对应网络中的一条边。基于此，上述问题可以表示为(S,A,P,R,γ,Ω)，其中，S是状态，一般为当前时刻的位置信息，可以是估计位置或真实位置；A＝{0,1}是agent由局部信息采取的动作，0表示不进行测量，1表示进行数据测量和数据交换，进行数据测量和数据交换需要花费时间，而不进行数据测量和数据交换几乎不需要花费时间；P是状态转换概率；Ω是每个agent可获得的局部信息；R是奖励，一般是预先的设定值，分为立即奖励和累计奖励，累计奖励即立即奖励的累计。

上述问题的优化目标是最小化网络中，目标车辆与目标车辆的各相邻车辆的执行数据测量和数据交换的次数，约束条件是网络中车辆执行完相应的动作路径后，所有车辆的位置方差低于给定的阈值。优化变量即问题的解是网络中每个车辆需要执行的动作路径。因此可以建立如下模型：

其中，a_ij是目标车辆和目标车辆的各相邻车辆之间进行数据测量和数据交换的次数，

是目标车辆i的后验位置协方差，κ是给定的阈值(单位：米)。

对于上述建立的优化模型，目前的传统算法没有封闭解且解的可扩展性较差。如果再考虑累计奖励的因素，使用传统方法将无法应对该问题的复杂性。而深度强化学习DRL可以很好的应对此类马尔科夫决策过程问题。每个agent通过观测状态和动作来获取累计奖励，策略policy决定了当前状态下所采取的动作，也是我们最终要学习的目标。对于复杂问题涉及巨大的状态空间和动作空间，可以使用深度神经网络模型DNN来模拟策略即状态空间到动作空间的映射，将车辆的估计位置信息作为深度神经网络模型的输入神经元，待训练的深度神经网络模型参数θ代表策略，输出神经元表示网络中车辆要执行的动作。

具体的，本实施例中，预设的深度神经网络模型的层数为4层，其中，隐藏层的神经元数的个数为100个，激活函数采用ReLu函数，α的数值为0，优化器采用ADAM优化器，片段数即迭代训练次数设置为2000，初始学习率设置为1×10^-4，训练阶段的场景数设置了100个场景。训练时，首先，通过随机初始化深度神经网络模型参数θ来随机初始化策略，目标是不断优化深度神经网络模型参数θ来最大化期望累计奖励，定义如下：

其中，τ是动作路径，H是每次片段的最大时隙数，r(τ)是动作路径τ产生的奖励总和，即累计奖励，p(τ；θ)是在给定策略(由深度神经网络模型参数θ决定)下选择动作路径τ的概率，其计算公式如下：

其中，p(s₀)是起始状态s₀的概率，π(a_t|s_t；θ)是在s_t状态和给定策略下选择a_t动作的概率，p(s_t+1|s_t,a_t)是在s_t状态和a_t动作下，下一个时隙转移到s_t+1状态的概率。

本实施例中，按照以下流程进行深度神经网络模型的训练：

用随机数初始化深度神经网络模型参数θ，对于片段e＝1,...,N依次执行下述片段循环步骤，片段循环步骤：对于场景s＝1,...,S依次执行下述场景循环步骤：生成初始状态s，初始化内存空间D，对于时间片t＝1,2,...,H依次执行下述时间片循环步骤：选择一个代理agent，观测代理的状态s_t，选择动作a_t～π(a|s_t；θ)，执行动作a_t并记录奖励r_e,t,s和状态s_t+1，时间片循环步骤结束，计算

场景循环步骤结束，计算并根据

更新深度神经网络模型参数θ，片段循环步骤结束。

其中，在通过训练集迭代训练预设的深度神经网络模型时，采用梯度下降法更新深度神经网络模型参数。具体的，采用梯度下降法来最大化期望累计奖励(与最小化期望累计奖励的相反数等价)，需要计算损失函数关于待训练参数θ的梯度。本实施例中，通过下式计算期望累计奖励关于深度神经网络模型参数θ的梯度：

其中，N为迭代次数，b为动作路径返回值的平均值，即动作路径平均奖励。

优选的，本实施例中，所述训练集设置预设数量个，且至少两训练集中训练车辆的相邻车辆数量不同。基于训练集的场景差异性，进而有效增强该基于协作定位的车辆定位方法的泛化性能。

优选的，本实施例中，所述第二预设值为0，便于进行期望累计奖励的计算，尽可能的降低计算资源的消耗。

S3：根据目标车辆的下一时刻动作路径以及目标车辆的各相邻车辆的标识，进行目标车辆与目标车辆的各相邻车辆的数据测量和数据交换，得到目标车辆的下一时刻估计位置信息。

具体的，首先根据目标车辆的下一时刻动作路径，确定目标车辆的各相邻车辆中需要与目标车辆记进行数据测量和数据交换的车辆，得到若干测换车辆。测量下一时刻目标车辆与各测换车辆的直线距离，以及下一时刻目标车辆与各测换车辆的连线与目标车辆行进方向的夹角；将各测换车辆的下一时刻真实位置信息交换至目标车辆。然后根据各测换车辆的下一时刻真实位置信息，下一时刻目标车辆与各测换车辆的直线距离，以及下一时刻目标车辆与各测换车辆的连线与目标车辆行进方向的夹角，得到下一时刻目标车辆基于各测换车辆的预测估计位置信息。具体的，根据上述的距离测量量和角度测量量的计算公式，在已经确定了下一时刻目标车辆与各测换车辆的直线距离，以及下一时刻目标车辆与各测换车辆的连线与目标车辆行进方向的夹角后，可以根据测换车辆的下一时刻真实位置信息，反推得到下一时刻目标车辆基于各测换车辆的预测估计位置信息。最后，通过获取下一时刻目标车辆基于各测换车辆的预测估计位置信息的平均值，得到目标车辆的下一时刻估计位置信息。

综上所述，本发明基于协作定位的车辆定位方法，根据目标车辆的当前时刻估计位置信息，通过预设的测量路径预测模型进行目标车辆的下一时刻动作路径的预测，在预测过程中，通过预设的测量路径预测模型，实现目标车辆的各相邻车辆进行数据测量和数据交换的必要性的评估，在评估结果的基础上给出目标车辆的下一时刻动作路径，相较于现有的贪心策略和随机交换策略，能够在最大程度上降低进行数据测量和数据交换的相邻车辆的数量，避免不必要的资源消耗，无论是定位所需的数据测量和数据交换次数，还是在有限的数据测量和数据交换次数下达到设定定位精度的车辆数量，都要优于现有的贪心策略和随机交换策略。

下述为本发明的装置实施例，可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节，请参照本发明方法实施例。

参见图2，本发明再一实施例中，提供一种基于协作定位的车辆定位系统，能够用于实现上述的基于协作定位的车辆定位方法，具体的，该基于协作定位的车辆定位系统包括获取模块、预测模块以及估计模块。

其中，获取模块用于获取目标车辆的当前时刻估计位置信息，以及目标车辆的各相邻车辆；其中，目标车辆的相邻车辆为已知真实位置信息，且与目标车辆之间的距离小于预设距离的车辆；预测模块用于将目标车辆的当前时刻估计位置信息，输入预设的测量路径预测模型，得到目标车辆的下一时刻动作路径；估计模块用于根据目标车辆的下一时刻动作路径，进行目标车辆与目标车辆的各相邻车辆的数据测量和数据交换，得到目标车辆的下一时刻估计位置信息。

本发明再一个实施例中，提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于基于协作定位的车辆定位方法的操作。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关基于协作定位的车辆定位方法的相应步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于协作定位的车辆定位方法，其特征在于，包括以下步骤：

根据目标车辆的下一时刻动作路径以及目标车辆的各相邻车辆的标识，进行目标车辆与目标车辆的各相邻车辆的数据测量和数据交换，得到目标车辆的下一时刻估计位置信息；

所述测量路径预测模型通过如下方式构建：

其中，训练车辆的当前历史时刻估计位置信息通过训练车辆的当前历史时刻动作路径，以及训练车辆各相邻车辆的若干历史时刻真实位置信息得到；期望累计奖励为各历史时刻奖励之和的期望，各历史时刻奖励通过如下方式得到：当训练车辆的当前历史时刻估计位置信息与当前历史时刻真实位置信息之间的位置方差在预设误差内时，当前历史时刻奖励为第一预设值；否则，当前历史时刻奖励为第二预设值，第一预设值大于第二预设值；

将各测换车辆的下一时刻真实位置信息交换至目标车辆；

2.根据权利要求1所述的基于协作定位的车辆定位方法，其特征在于，当当前时刻为当前定位周期的初始时刻时，所述获取目标车辆的当前时刻估计位置信息的具体方法为：

3.根据权利要求1所述的基于协作定位的车辆定位方法，其特征在于，所述通过训练集迭代训练预设的深度神经网络模型时，采用梯度下降法更新深度神经网络模型参数。

4.根据权利要求1所述的基于协作定位的车辆定位方法，其特征在于，所述训练集设置预设数量个，且至少两训练集中训练车辆的相邻车辆数量不同。

5.根据权利要求1所述的基于协作定位的车辆定位方法，其特征在于，所述第二预设值为0。

6.一种基于协作定位的车辆定位系统，其特征在于，包括：

获取模块，用于获取目标车辆的当前时刻估计位置信息，以及目标车辆的各相邻车辆的标识；其中，目标车辆的相邻车辆为已知真实位置信息，且与目标车辆之间的距离小于预设距离的车辆；

估计模块，用于根据目标车辆的下一时刻动作路径以及目标车辆的各相邻车辆的标识，进行目标车辆与目标车辆的各相邻车辆的数据测量和数据交换，得到目标车辆的下一时刻估计位置信息；

所述测量路径预测模型通过如下方式构建：

将各测换车辆的下一时刻真实位置信息交换至目标车辆；

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述基于协作定位的车辆定位方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于协作定位的车辆定位方法的步骤。