CN108073076A

CN108073076A - 车辆控制方法和装置

Info

Publication number: CN108073076A
Application number: CN201711403419.1A
Authority: CN
Inventors: 刘冲; 刘帅; 杨明; 郭玉清; 张骞
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2018-05-25
Anticipated expiration: 2037-12-22
Also published as: CN108073076B

Abstract

本发明提出一种车辆控制方法和装置，其中，方法包括：从初始的控制策略开始，采集第一车辆当前的第一状态信息和第二车辆当前的第二状态信息；根据第一状态信息和第二状态信息，迭代获取第一车辆当前的评价指标和获取第一车辆当前的控制策略；判断当前的评价指标是否收敛，如果当前的评价指标收敛，则停止迭代；将当前的控制策略作为最优控制策略，利用最优控制策略，控制第一车辆跟随第二车辆。在已知车辆本身的状态信息和前车的状态信息的情况下，迭代计算出车辆自身的最优控制策略，而后在最优控制策略的控制下，使车辆安全自动地跟随距离自身最近的前方车辆，从而实现自适应巡航控制，使得各个车辆在保持安全距离下，提高运行速度和运输效率。

Description

车辆控制方法和装置

技术领域

本发明涉及车辆控制技术领域，尤其涉及一种车辆控制方法和装置。

背景技术

随着车辆控制技术的不断发展，车辆行驶的安全性成为交通运输系统中的首要问题。道路交通中的诸多因素影响交通运输系统的安全性，例如车辆在实际行驶的过程中，存在非法驾驶、疲劳驾驶、超速驾驶等现象，这些现象都会对交通运输的安全性造成影响。

为了提高交通运输的安全性，目前智能运输系统(Intelligent TransportationSystems，简称ITS)成为提高车辆安全行驶的主要辅助工具，智能运输系统可以来辅助驾驶者感知周围车辆的状态信息，从而使驾驶者提前预知交通环境信息，避免发生交通事故，提高交通效率。实际应用中，自适应巡航控制是保证智能交通系统可靠运行的依据，因此，车辆之间如何实现自适应巡航控制成为亟待解决的问题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种车辆控制方法，以实现在已知车辆本身的状态信息和前车的状态信息的情况下，根据两个状态信息，通过迭代过程，计算出车辆自身的最优控制策略，而后在最优控制策略的控制下，使车辆安全且自动地跟随距离自身最近的前方车辆，从而实现自适应巡航控制，使得各个车辆在保持安全距离下，提高运行速度，节省运行时间和成本，进而提高智能交通的运输效率。

本发明的第二个目的在于提出一种车辆控制装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种车辆控制方法，包括：

从初始的控制策略开始，采集第一车辆当前的第一状态信息，以及第二车辆当前的第二状态信息；其中，所述第一车辆与所述第二车辆通过车联网互联；所述第二车辆为位于所述第一车辆前方且距离所述第一车辆最近的前方车辆；所述第一车辆与所述第二车辆处于同一车道；

根据所述第一状态信息和所述第二状态信息，迭代获取所述第一车辆当前的评价指标和获取所述第一车辆当前的控制策略；

判断所述当前的评价指标是否收敛，如果所述当前的评价指标收敛，则停止迭代；

将所述当前的控制策略作为最优控制策略，利用所述最优控制策略，控制所述第一车辆跟随所述第二车辆。

作为本发明第一方面实施例第一种可能的实现方式，所述判断所述当前的评价指标是否收敛，如果所述当前的评价指标收敛，则停止迭代，包括：

获取所述当前的评价指标与前一次的评价指标之间的差值；

判断所述差值是否小于预设的第一数值；

如果所述差值小于所述第一数值，则确定所述当前的评价指标收敛，将所述当前的评价指标作为最优评价指标，并停止迭代；

如果所述差值大于或者等于所述第一数值，则确定所述当前的评价指标未收敛，返回继续迭代以更新所述当前的评价指标。

作为本发明第一方面实施例第二种可能的实现方式，所述根据所述第一状态信息和所述第二状态信息，迭代获取所述第一车辆当前的评价指标和所述第一车辆当前的控制策略，包括：

根据所述第一状态信息和所述第二状态信息，构建第一输入数据和第二输入数据；

将所述第一输入数据输入到第一神经网络中，获取所述第一神经网络当前的第一权值，将所述当前的第一权值与所述第一输入数据相乘，获取所述当前的评价指标；

将所述第二输入数据输入到第二神经网络中，获取所述第二神经网络当前的第二权值，将所述当前的第二权值与所述第二输入数据相乘，获取所述当前的控制策略。

作为本发明第一方面实施例第三种可能的实现方式，所述判断所述当前的评价指标是否收敛，如果所述当前的评价指标收敛，则停止迭代，包括：

获取所述当前的第一权值与前一次获取到的所述第一权值之间的向量范数；其中，所述向量范数用于表征所述当前的评价指标与前一次的评价指标之间的所述差值；

判断所述向量范数是否小于预设的第二数值；

如果所述向量范数小于所述第二数值，则所述当前的评价指标收敛，停止迭代；

如果所述向量范数大于或者等于所述第二数值，则返回继续迭代以更新所述当前的评价指标。

作为本发明第一方面实施例第四种可能的实现方式，所述根据所述第一状态信息和所述第二状态信息，构建第一输入数据和第二输入数据，包括：

获取所述第一状态信息中每个状态量与所述第二状态信息对应的状态量之间的差异信息；其中，针对同一状态量的所述差异信息，用于表征所述第一车辆与所述第二车辆之间的所述状态量的差值；

利用每个状态量的所述差异信息的平方值和所述第二状态信息中每个状态量的平方值，构建所述第一输入数据；

利用每个状态量的所述差异信息和所述第二状态信息中每个状态量，构成所述第二输入数据。

作为本发明第一方面实施例第五种可能的实现方式，所述根据所述第一状态信息和所述第二状态信息，迭代获取所述第一车辆当前的评价指标和获取所述第一车辆当前的控制策略之前，还包括：

构建所述第一车辆的系统控制模型；其中，所述系统控制模型用于控制所述第一车辆与所述第二车辆对应的状态一致；

根据所述系统控制模型，构建所述第一车辆的增广系统状态；

根据所述增广系统状态，获取用于得到所述第一车辆的评价指标的评价函数；

在所述评价函数具有最优解的约束条件下，获取用于得到所述第一车辆的控制策略的控制策略函数。

作为本发明第一方面实施例第六种可能的实现方式，所述第一车辆和所述第二车辆属于同一个车队，所述车队中至少包括所述第一车辆和所述第二车辆；所述第一车辆非所述车队中的头车。

本发明实施例的车辆控制方法，通过从初始的控制策略开始，采集第一车辆当前的第一状态信息，以及第二车辆当前的第二状态信息；第二车辆为位于第一车辆前方且距离第一车辆最近的前方车辆；第一车辆与第二车辆处于同一车道；根据第一状态信息和第二状态信息，迭代获取第一车辆当前的评价指标和获取第一车辆当前的控制策略；判断当前的评价指标是否收敛，如果当前的评价指标收敛，则停止迭代；将当前的控制策略作为最优控制策略，利用最优控制策略，控制第一车辆跟随第二车辆。由此，可以实现在已知车辆本身的状态信息和前车的状态信息的情况下，据两个状态信息，通过迭代过程，计算出车辆自身的最优控制策略，而后在最优控制策略的控制下，使车辆安全且自动地跟随距离自身最近的前方车辆，从而实现自适应巡航控制，使得各个车辆在保持安全距离下，提高运行速度，节省运行时间和成本，进而提高智能交通的运输效率。

为达上述目的，本发明第二方面实施例提出了一种车辆控制装置，包括：

采集模块，用于从初始的控制策略开始，采集第一车辆当前的第一状态信息，以及第二车辆当前的第二状态信息；其中，所述第一车辆与所述第二车辆通过车联网互联；所述第二车辆为位于所述第一车辆前方且距离所述第一车辆最近的前方车辆；所述第一车辆与所述第二车辆处于同一车道；

迭代模块，用于根据所述第一状态信息和所述第二状态信息，迭代获取所述第一车辆当前的评价指标和获取所述第一车辆当前的控制策略；

判断模块，用于判断所述当前的评价指标是否收敛，如果所述当前的评价指标收敛，则停止迭代；

控制模块，用于将所述当前的控制策略作为最优控制策略，利用所述最优控制策略，控制所述第一车辆跟随所述第二车辆。

作为本发明第二方面实施例第一种可能的实现方式，所述判断模块，具体用于：

获取所述当前的评价指标与前一次的评价指标之间的差值；

判断所述差值是否小于预设的第一数值；

作为本发明第二方面实施例第二种可能的实现方式，所述迭代模块，具体用于：

作为本发明第二方面实施例第三种可能的实现方式，所述判断模块，具体用于：

判断所述向量范数是否小于预设的第二数值；

作为本发明第二方面实施例第四种可能的实现方式，所述迭代模块，还用于：

作为本发明第二方面实施例第五种可能的实现方式，所述装置还包括：

第一构建模块，用于在所述根据所述第一状态信息和所述第二状态信息，迭代获取所述第一车辆当前的评价指标和获取所述第一车辆当前的控制策略之前，构建所述第一车辆的系统控制模型；其中，所述系统控制模型用于控制所述第一车辆与所述第二车辆对应的状态一致；

第二构建模块，用于根据所述系统控制模型，构建所述第一车辆的增广系统状态；

第一获取模块，用于根据所述增广系统状态，获取用于得到所述第一车辆的评价指标的评价函数；

第二获取模块，用于在所述评价函数具有最优解的约束条件下，获取用于得到所述第一车辆的控制策略的控制策略函数。

作为本发明第二方面实施例第六种可能的实现方式，所述第一车辆和所述第二车辆属于同一个车队，所述车队中至少包括所述第一车辆和所述第二车辆；所述第一车辆非所述车队中的头车。

本发明实施例的车辆控制装置，通过从初始的控制策略开始，采集第一车辆当前的第一状态信息，以及第二车辆当前的第二状态信息；第二车辆为位于第一车辆前方且距离第一车辆最近的前方车辆；第一车辆与第二车辆处于同一车道；根据第一状态信息和第二状态信息，迭代获取第一车辆当前的评价指标和获取第一车辆当前的控制策略；判断当前的评价指标是否收敛，如果当前的评价指标收敛，则停止迭代；将当前的控制策略作为最优控制策略，利用最优控制策略，控制第一车辆跟随第二车辆。由此，可以实现在已知车辆本身的状态信息和前车的状态信息的情况下，据两个状态信息，通过迭代过程，计算出车辆自身的最优控制策略，而后在最优控制策略的控制下，使车辆安全且自动地跟随距离自身最近的前方车辆，从而实现自适应巡航控制，使得各个车辆在保持安全距离下，提高运行速度，节省运行时间和成本，进而提高智能交通的运输效率。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括：处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如本发明第一方面实施例所述的车辆控制方法。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如本发明第一方面实施例所述的车辆控制方法。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时实现如本发明第一方面实施例所述的车辆控制方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例一所提供的车辆控制方法的流程示意图；

图2为通过车联网互联的同一车队示意图；

图3为本发明实施例二所提供的车辆控制方法的流程示意图；

图4为本发明实施例中迭代算法的流程示意图；

图5为本发明实施例三所提供的车辆控制方法的流程示意图；

图6为本发明实施例提供的一种车辆控制装置的结构示意图；

图7为本发明实施例提供的另一种车辆控制装置的结构示意图；

图8示出了适于用来实现本发明实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的车辆控制方法和装置。

针对自适应巡航控制成为亟待解决的问题，本发明实施例中，从初始的控制策略开始，在已知车辆本身的状态信息和前车的状态信息的情况下，根据两个状态信息基于迭代计算的过程，得到车辆自身的最优控制策略，然后在最优控制策略的控制下，使车辆能够安全且自动地跟随距离自身最近的前方车辆，从而实现自适应巡航控制，使得各个车辆在保持安全距离下，提高运行速度，节省运行时间和成本，进而提高智能交通的运输效率。

图1为本发明实施例一所提供的车辆控制方法的流程示意图。

如图1所示，该车辆控制方法可以包括以下步骤：

步骤101，从初始的控制策略开始，采集第一车辆当前的第一状态信息，以及第二车辆当前的第二状态信息；其中，第一车辆与第二车辆通过车联网互联；第二车辆为位于第一车辆前方且距离第一车辆最近的同车道的前方车辆。

随着车对外界的信息交换(Vehicle to X，简称V2X)技术的迅猛发展，使得交通系统中各参与者之间的信息交互变得及时可靠，为智能交通系统的发展提供了充分条件。V2X包含车与车通讯(V2V)、车与人通讯(V2P)、车与交通基础设施通信(V2I)，通过无线互联网，可在车辆与环境之间实现临时数据交换。由于V2X可在车辆与环境之间实现临时数据交换，从而车辆可以从交通基础设施，例如十字路口的红路灯、道路上的监控系统、道路状态监控中心等进行数据交互，向车辆提供一些道路的状态信息。例如，道路的状态信息可以包括十字路口盲区碰撞、道路状况危险、道路施工、存在救急车辆、静态或缓慢移动的车辆、交通堵塞、事故警告，以及交通信号或标志指示。

V2X不仅可以提供一些道路的状态信息，还可以同时也为自适应巡航驾驶技术提供准确的车辆状态信息，实现准确控制。

本发明实施例中，需要通过V2X获取到的状态信息中可以包括车辆的位置信息、行驶速度和/或加速度等信息。可选地，标记初始的控制策略为u_i ⁰，u_i ⁰可以由用户根据自身需求设定，或者，u_i ⁰可以为车辆的默认值，从而可以直接从车辆中获取，对此不作限制。

本发明实施例中，车辆可以通过V2X技术，构建车联网，使得车辆之间可以互联互通。进一步地，根据行驶需求将相邻的多个车辆进行组队。例如，在物流运输场景中，从同一个地点出发运输相同物体，驶向同一个目的的车辆，可以组成一个车队。同一个车队中的车辆可以跟随前车行驶。

作为一种示例，参见图2，图2为通过车联网互联的同一车队示意图。其中，p_i表示车辆i的位置信息，i＝1,2,3,4，V_i表示车辆i的速度，d_i+δ_i表示车辆i和车辆i-1之间的安全距离，由于车辆1、2、3和4通过车联网互联，车辆1、2、3和4在道路上按序排队，并且均位于同一车道内，车辆1、2、3和4形成一个车队。

需要说明的是，同一车队中的所有车辆处于同一车道。在实际应用时，同一车队中的车辆可以在路上进行任意组合，或者，为了提高智能交通的运输效率，不同的车辆可以预先组成车队，本发明实施例对此不作限制。

本发明实施例中，第一车辆和第二车辆通过车联网互联，因此，第一车辆和第二车辆属于同一个车队。此外，由于同一车队中的车辆至少为两辆，因此，车队中至少包括第一车辆和第二车辆。需要说明的是，在一个车队中，一般以车队中的头车作为跟随对象，因此，第一车辆为车队中的除头车外的任一车辆，比如第二辆车或后面的任意一辆车，对此不作限制。需要说明的是，车队中的头车也具有执行本发明提供的车辆控制方法的能力，当该头车改变位置后，即处于车队中的其他位置时，也需要按照所述车辆控制方法跟随前车。

具体地，第一车辆和第二车辆可以通过自身的CAN总线采集各自的状态信息，而后，第一车辆和第二车辆可以通过车联网上报自身的状态信息。

作为一种可能的实现方式，在获取到第一车辆的第一状态信息后，可以根据第一车辆的第一状态信息，构建第一车辆的系统控制模型，而后为了使第一车辆与第二车辆对应的状态一致，即第一车辆可以在安全距离内紧跟第二车辆，可以根据系统控制模型，构建第一车辆的增广系统状态，而后可以根据增广系统状态建立反映误差大小的评价函数。下面结合图3，对上述过程进行详细说明。

图3为本发明实施例二所提供的车辆控制方法的流程示意图。

如图3所示，在步骤101之后，该车辆控制方法还可以包括以下步骤：

步骤201，构建第一车辆的系统控制模型；其中，系统控制模型用于控制第一车辆与第二车辆对应的状态一致。

需要说明的是，当第一车辆与第二车辆对应的状态一致，表示两个车辆同步行驶，在行驶的过程中，两个车之间的相对位置、行驶速度和加速度能够相同，或者维持相对不变。

可选地，标记第一车辆所属车队中的车辆数量为N，当第一车辆处于车队中的第i个位置时，i＝1,2，…，N，则第一车辆的系统控制模型可以为下式所示：

其中，x_i(t)＝[p_i(t) v_i(t) a_i(t)]^T，p_i(t)表示第一车辆的位置信息，v_i(t)表示第一车辆的行驶速度，a_i(t)表示第一车辆的加速度，u_i(t)表示第一车辆的控制策略的控制策略函数。且A_i和B_i分别为：

其中，τ_i是反映第一车辆功率的一个常数值。

步骤202，根据系统控制模型，构建第一车辆的增广系统状态。

本发明实施例中，系统控制模型用于控制第一车辆与第二车辆对应的状态一致，第一车辆可以在安全距离内紧跟第二车辆。可选地，可以构建系统控制模型的跟踪误差函数，具体地，系统控制模型的跟踪误差函数如下式所示：

e_i(t)＝x_i(t)-x_i-1(t)；(2)

其中，第一车辆处于车队中的第i个位置，而第二车辆处于车队中的第i-1个位置。

将公式(2)等式两边进行求导，可以得到跟踪误差函数的导数为：

令则可以得到增广系统状态为：

其中，X_i(t)表示增广系统状态，用于表示增广系统动态，用于表示增广系统输入动态。

步骤203，根据增广系统状态，获取用于得到第一车辆的评价指标的评价函数。

可选地，可以根据增广系统状态构建第一车辆的评价指标的评价函数：

其中，V_i(t)表示评价函数，Q_i和R_i分别为：

本发明实施例中，通过评价函数来评价评价指标的误差大小，从而可以体现出第一车辆在跟随第二车辆时的跟踪效果，而且还可以通过评价函数来评价控制策略的优良，可以体现在车辆的控制代价上，例如燃油经济性、控制时间、控制速度等。

步骤204，在评价函数具有最优解的约束条件下，获取用于得到第一车辆的控制策略的控制策略函数。

可选地，可以对公式(5)等式两边进行求导，可以得到评价函数的导数为：

根据公式(6)可以进一步推导得到：

在评价函数具有最优解的约束条件下，即：

其中，V_i ^*(X_i(t))为评价函数的最优解。

可以理解的是，根据公式(7)可以将控制策略函数标记为u_i ^*(X_i(t))，u_i ^*(X_i(t))可以表示为：

其中，表示函数的梯度，且

其中，X_i表示X_i(t)。

步骤102，根据第一状态信息和第二状态信息，迭代获取第一车辆当前的评价指标和获取第一车辆当前的控制策略。

本发明实施例中，从初始的控制策略开始，不断采集车辆当前的状态信息，根据采集的状态信息，迭代出评价指标以及控制策略，当判断出评价指标未收敛时继续迭代，控制策略函数输出的控制策略会对车辆进行控制，从而改变车辆当前的状态信息，继续采集车辆当前的状态信息，然后继续计算评价指标，只要当评价指标收敛时，就可以停止迭代，此处控制策略函数的输出为最优控制策略，控制车辆按照最优控制策略行驶，车辆可以与前车保证状态一致，对前车进行跟随。上述的迭代过程，如图4所示。通过图4的迭代算法，能够不断获取到第一车辆当前的控制策略。

其中，控制策略函数可以为本发明上述实施例中公式(9)中的u_i ^*(X_i(t))。

具体地，在评价函数具有最优解的约束条件下，可以得到最优控制策略函数为u_i ^*(X_i(t))。本发明实施例中，评价函数反映了第一车辆的跟踪效果，随着评价函数的取值越小评级指标越好，第一车辆的控制策略越优。

因此，本发明实施例中，可以首先根据下述公式(11)和初始的控制策略u_i ⁰迭代获取第一车辆当前的评价指标V_i ^(k)(X_i)的值。具体地，可以将u_i ⁰带入下述公式：

进而可以迭代得到第一车辆当前的评价指标V_i ^(k)(X_i)的值。在得到第一车辆当前的评价指标V_i ^(k)(X_i)的值后，可以将V_i ^(k)(X_i)带入到下述公式(12)中，获取第一车辆当前的控制策略。

具体地，可以将V_i ^(k)(X_i)带入到下述公式：

进而可以根据公式(11)和(12)，迭代求取第一车辆当前的控制策略u_i ^(k+1)(X_i(t))。

步骤103，判断当前的评价指标是否收敛，如果当前的评价指标收敛，则停止迭代。

本发明实施例中，可以根据第一车辆当前的评价指标V_i ^(k)(X_i)与前一次的评价指标V_i ^(k-1)(X_i)之间的差值，判断当前的评价指标是否收敛。具体地，可以将当前的评价指标与前一次的评价指标作差，获取差值，当差值小于预设的第一阈值时，确定当前的评价指标收敛，此时，可以将当前的评价指标作为最优评价指标，并停止迭代，而当差值大于或者等于第一数值时，确定当前的评价指标未收敛，返回继续迭代以更新当前的评价指标，即重新触发步骤102。其中，第一阈值为预先设置的，标记第一阈值为c，例如第一阈值c可以为10^-3。

步骤104，将当前的控制策略作为最优控制策略，利用最优控制策略，控制第一车辆跟随第二车辆。

本发明实施例中，当当前的评价指标收敛时，可以将当前的控制策略u_i ^(k+1)(X_i(t))作为最优控制策略u_i ^*(X_i(t))，而后利用最优控制策略u_i ^*(X_i(t))＝u_i ^(k+1)(X_i(t))，控制第一车辆跟随第二车辆。

本实施例的车辆控制方法，通过从初始的控制策略开始，采集第一车辆当前的第一状态信息，以及第二车辆当前的第二状态信息；第二车辆为位于第一车辆前方且距离第一车辆最近的前方车辆；第一车辆与第二车辆处于同一车道；根据第一状态信息和第二状态信息，迭代获取第一车辆当前的评价指标和获取第一车辆当前的控制策略；判断当前的评价指标是否收敛，如果当前的评价指标收敛，则停止迭代；将当前的控制策略作为最优控制策略，利用最优控制策略，控制第一车辆跟随第二车辆。由此，可以实现在已知车辆本身的状态信息和前车的状态信息的情况下，据两个状态信息，通过迭代过程，计算出车辆自身的最优控制策略，而后在最优控制策略的控制下，使车辆安全且自动地跟随距离自身最近的前方车辆，从而实现自适应巡航控制，使得各个车辆在保持安全距离下，提高运行速度，节省运行时间和成本，进而提高智能交通的运输效率。

步骤102-104是迭代求取算法，但是由于公式(11)是一个微分方程，很难求得到V_i ^(k)(X_i)。也就是说(11)和(12)式无法迭代得到想要的最优控制策略。为了能够得到最优控制策略，下面实施例中，通过利用神经网络近似迭代求解最优评价指标V_i ^(k)(X_i)和最优控制策略u_i ^(k+1)(X_i(t))。在利用神经网络近似迭代的过程中，只需要根据状态信息对用于近似的两个神经网络进行训练，利用当前训练出的神经网络的权值，得到第一车辆当前的评价指标和控制策略。本实施例中，一个神经网络用于近似获取第一车辆的评价指标，称为第一神经网络，另一个神经网络用于近似获取第一车辆的控制策略，称为第二神经网络。

下面结合图5，对上述算法的具体实施过程进行详细说明。

图5为本发明实施例三所提供的车辆控制方法的流程示意图。

如图5所示，该车辆控制方法可以包括以下步骤：

步骤301，从初始的控制策略开始，采集第一车辆当前的第一状态信息，以及第二车辆当前的第二状态信息。

其中，第一车辆与第二车辆通过车联网互联；第二车辆为位于第一车辆前方且距离第一车辆最近的同车道的前方车辆。

步骤301的执行过程可以参见上述实施例中步骤101的执行过程，在此不做赘述。

步骤302，根据第一状态信息和第二状态信息，构建第一输入数据和第二输入数据。

作为一种可能的实现方式，可以获取第一状态信息中每个状态量与第二状态信息对应的状态量之间的差异信息，例如，标记第一状态信息中位置信息与第二状态信息对应的差异信息为X_i1，第一状态信息中行驶速度与第二状态信息对应的差异信息为X_i2，第一状态信息中加速度与第二状态信息对应的误差信息为X_i3。标记第二状态信息中的位置信息为X_i4，行驶速度为X_i5，加速度为X_i6。

而后，可以利用每个状态量的差异信息的平方值和第二状态信息中每个状态量的平方值，构建第一输入数据。

标记第一输入数据为Φ_i(X_i)，则第一输入数据Φ_i(X_i)可以为：

而后，可以利用每个状态量的差异信息和第二状态信息中每个状态量，构成第二输入数据。

标记第二输入数据为Ψ_i(X_i)，则第二输入数据Ψ_i(X_i)可以为：

Ψ_i(X_i)＝[X_i1 X_i2 X_i3 X_i4 X_i5 X_i6]；(14)

此处需要说明的是，本发明实施例中，第一输入数据和第二输入数据的维数为6维，实际应用中，可以根据自身的需求，调整输入数据的维数，例如，可以利用两个状态量进行组合，来扩展输入数据的维数，例如，利用X_i1X_i2、X_i1X_i3来扩展输入数据的维数。

步骤303，将第一输入数据输入到第一神经网络中，获取第一神经网络当前的第一权值，将当前的第一权值与第一输入数据相乘，获取当前的评价指标。

从初始的控制策略开始，利用此时获取到的第一车辆的第一状态信息和第二车辆的第二状态信息，构成一个第一输入数据，然后输入到构建好的第一神经网络中，并且判断第一神经网络的第一权值是否收敛，如果未收敛，则继续获取新的第一输入数据输入到构建的第一神经网络中，直到第一神经网络的第一权值收敛，提取出第一神经网络当前的第一权值。可选地，标记第一权值为W_ic。

本发明实施例中，将第一权值与第一输入数据相乘，可以获取评价指标，则评价指标为：

V_i(X_i)＝W_ic ^TΦ_i(X_i)；(15)

步骤304，将第二输入数据输入到第二神经网络中，获取第二神经网络当前的第二权值，将所述当前的第二权值与所述第二输入数据相乘，获取所述当前的控制策略。

需要说明的是，本发明实施例中并不限制步骤303和步骤304的执行顺序，可以串行执行也可以并列执行。

同理，可以将第二输入数据输入到第二神经网络中，通过迭代的方式获取第二神经网络当前的第二权值。可选地，标记第二权值为W_ia。

本发明实施例中，将第二权值与第二输入数据相乘，可以获取控制策略，则控制策略为：

本实施例中，在上述102-104的迭代算法基础上，将公式(4)变形为：

对V_i ^(k+1)(X_i)求导，利用(17)式得：

根据迭代方程(11)和(12)，可以消去F_i(X_i)和G_i(X_i)得到：

对式(19)两边在时间段[t,t+Δt]积分得：

其中，在[t,t+Δt]时间段积分表示状态信息的采样时间。

将神经网络近似的评价指标(15)和控制策略(16)带入式(20)并整理可得近似误差表达式：

设

则公式(21)表示为

设第p个采样的状态信息的残差为δ^[p] _i(X_i)，总共采集N₀个状态信息，这些状态信息就是在车辆实时运行过程中不断获取的，只要车辆开始运行，这些信息就可以不断的采集得到，则整体误差为：

利用最小二乘法得最优权值求取公式：

步骤305，判断当前的评价指标是否收敛，如果当前的评价指标收敛，则停止迭代。

本实施例中，将式(11)和式(12)的迭代算法转换成了利用状态信息同时求取评价指标对应的第一神经网络的第一权值和控制策略对应的第二神经网络的第二权值，利用状态信息和公式(22)不断迭代，能够求得最优评价指标和最优的控制策略。迭代停止的判断条件就是评价函数对应的第一神经网络权值收敛，即其中ξ是一个常数，例如10^-5。

具体地，当前获取到的第一权值与前一次获取到的第一权值之前的向量范数小于预设的第二阈值时，说明第一神经网络的第一权值收敛，此时停止迭代，将第二神经网络此时的第二权值作为最终的第二权值。在获取到最终的第一权值和第二权值后，将最终的第一权值W_ic ^(k+1)和最终的第二权值W_ia ^(k+1)带入式(15)和(16)可以得到最优控制指标和最优控制策略。其中最优控制策略为

步骤306，将当前的控制策略作为最优控制策略，利用最优控制策略，控制第一车辆跟随第二车辆。

本实施例的车辆控制方法，通过从初始的控制策略开始，采集第一车辆当前的第一状态信息，以及第二车辆当前的第二状态信息；然后基于神经网络近似迭代获取第一车辆当前的评价指标和第一车辆当前的控制策略；判断当前的评价指标是否收敛，如果当前的评价指标收敛，则停止迭代；将当前的控制策略作为最优控制策略，利用最优控制策略，控制第一车辆跟随第二车辆。由此，可以实现在已知车辆本身的状态信息和前车的状态信息的情况下，根据两个状态信息，通过迭代过程计算出车辆自身的最优控制策略，而后在最优控制策略的控制下，使车辆安全且自动地跟随距离自身最近的前方车辆，从而实现自适应巡航控制，使得各个车辆在保持安全距离下，提高运行速度，节省运行时间和成本，进而提高智能交通的运输效率。

为了实现上述实施例，本发明还提出一种车辆控制装置。

图6为本发明实施例提供的一种车辆控制装置的结构示意图。

如图6所示，该车辆控制装置600包括：采集模块610、迭代模块620、判断模块630，以及控制模块640。其中，

采集模块610，用于从初始的控制策略开始，采集第一车辆当前的第一状态信息，以及第二车辆当前的第二状态信息；其中，所述第一车辆与所述第二车辆通过车联网互联。

本发明实施例中，所述第一车辆和所述第二车辆属于同一个车队，所述车队中至少包括所述第一车辆和所述第二车辆；所述第一车辆非所述车队中的头车；车队中的车辆处于同一车道。

迭代模块620，用于根据所述第一状态信息和所述第二状态信息，迭代获取所述第一车辆当前的评价指标和获取所述第一车辆当前的控制策略。

作为一种可能的实现方式，迭代模块620，具体用于根据所述第一状态信息和所述第二状态信息，构建第一输入数据和第二输入数据；将所述第一输入数据输入到第一神经网络中，获取所述第一神经网络当前的第一权值，以及将所述当前的第一权值与所述第一输入数据相乘，获取所述当前的评价指标；将所述第二输入数据输入到第二神经网络中，获取所述第二神经网络当前的第二权值，以及将所述当前的第二权值与所述第二输入数据相乘，获取所述当前的控制策略。

可选地，迭代模块620，还用于获取所述第一状态信息中每个状态量与所述第二状态信息对应的状态量之间的差异信息；其中，针对同一状态量的所述差异信息，用于表征所述第一车辆与所述第二车辆之间的所述状态量的差值；利用每个状态量的所述差异信息的平方值和所述第二状态信息中每个状态量的平方值，构建所述第一输入数据；利用每个状态量的所述差异信息和所述第二状态信息中每个状态量，构成所述第二输入数据。

判断模块630，用于判断所述当前的评价指标是否收敛，如果所述当前的评价指标收敛，则停止迭代。

作为一种可能的实现方式，判断模块630，具体用于获取所述当前的评价指标与前一次的评价指标之间的差值；判断所述差值是否小于预设的第一数值；如果所述差值小于所述第一数值，则确定所述当前的评价指标收敛，将当前的评价指标作为最优评价指标，并停止迭代；如果所述差值大于或者等于所述第一数值，则确定所述当前的评价指标未收敛，返回继续迭代以更新所述当前的评价指标。

作为另一种可能的实现方式，判断模块630，具体用于获取所述当前的第一权值与前一次获取到的所述第一权值之间的向量范数；其中，所述向量范数用于表征所述当前的评价指标与前一次的评价指标之间的所述差值；判断所述向量范数是否小于预设的第二数值；如果所述向量范数小于所述第二数值，则所述当前的评价指标收敛，停止迭代；如果所述向量范数大于或者等于所述第二数值，则返回继续迭代以更新所述当前的评价指标。

控制模块640，用于将所述当前的控制策略作为最优控制策略，利用所述最优控制策略，控制所述第一车辆跟随所述第二车辆。

进一步地，在本发明实施例的一种可能的实现方式中，参见图7，在图6所示实施例的基础上，该车辆控制装置还可以包括：

第一构建模块650，用于构建所述第一车辆的系统控制模型；其中，所述系统控制模型用于控制所述第一车辆与所述第二车辆对应的状态一致。

第二构建模块660，用于根据所述系统控制模型，构建所述第一车辆的增广系统状态。

第一获取模块670，用于根据所述增广系统状态，获取用于得到所述第一车辆的评价指标的评价函数。

第二获取模块680，用于在所述评价函数的具有最优解的约束条件下，获取用于得到所述第一车辆的控制策略的控制策略函数。

需要说明的是，前述对车辆控制方法实施例的解释说明也适用于该实施例的车辆控制装置600，此处不再赘述。

本实施例的车辆控制装置，通过从初始的控制策略开始，采集第一车辆当前的第一状态信息，以及第二车辆当前的第二状态信息；第二车辆为位于第一车辆前方且距离第一车辆最近的前方车辆；根据第一状态信息和第二状态信息，迭代获取第一车辆当前的评价指标和获取第一车辆当前的控制策略；判断当前的评价指标是否收敛，如果当前的评价指标收敛，则停止迭代；将当前的控制策略作为最优控制策略，利用最优控制策略，控制第一车辆跟随第二车辆。由此，可以实现在已知车辆本身的状态信息和前车的状态信息的情况下，根据两个状态信息，通过迭代过程计算出车辆自身的最优控制策略，而后在最优控制策略的控制下，使车辆安全且自动地跟随距离自身最近的前方车辆，从而实现自适应巡航控制，使得各个车辆在保持安全距离下，提高运行速度，节省运行时间和成本，进而提高智能交通的运输效率。

为了实现上述实施例，本发明还提出一种计算机设备，包括：处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如本发明前述实施例提出的车辆控制方法。

为了清楚说明前述计算机设备的具体结构，图8示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图8显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算机设备12以通用计算机设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture，简称ISA)总线，微通道体系结构(Micro Channel Architecture，简称MAC)总线，增强型ISA总线、视频电子标准(Vedio Electronic Standard Association，简称VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，简称PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，简称RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网，广域网和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、独立磁盘冗余阵列(RedundantArray of Independent Disks，简称RAID)系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，实现上述设备车辆控制方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如本发明前述实施例提出的车辆控制方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时实现如本发明前述实施例提出的车辆控制方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种车辆控制方法，其特征在于，包括：

2.根据权利要求1所述的车辆控制方法，其特征在于，所述判断所述当前的评价指标是否收敛，如果所述当前的评价指标收敛，则停止迭代，包括：

获取所述当前的评价指标与前一次的评价指标之间的差值；

判断所述差值是否小于预设的第一数值；

3.根据权利要求2所述的车辆控制方法，其特征在于，所述根据所述第一状态信息和所述第二状态信息，迭代获取所述第一车辆当前的评价指标和所述第一车辆当前的控制策略，包括：

4.根据权利要求3所述的车辆控制方法，其特征在于，所述判断所述当前的评价指标是否收敛，如果所述当前的评价指标收敛，则停止迭代，包括：

获取所述当前的第一权值与前一次获取到的所述第一权值之间的向量范数；其中，所述向量范数用于表征所述当前的评价指标与前一次的评价指标之间的差异；

判断所述向量范数是否小于预设的第二数值；

5.根据权利要求3或4任一项所述的车辆控制方法，其特征在于，所述根据所述第一状态信息和所述第二状态信息，构建第一输入数据和第二输入数据，包括：

6.根据权利要求1所述的车辆控制方法，其特征在于，所述根据所述第一状态信息和所述第二状态信息，迭代获取所述第一车辆当前的评价指标和获取所述第一车辆当前的控制策略之前，还包括：

7.根据权利要求1所述的车辆控制方法，其特征在于，所述第一车辆和所述第二车辆属于同一个车队，同一车队中的车辆处于同一车道；所述车队中至少包括所述第一车辆和所述第二车辆；所述第一车辆非所述车队中的头车。

8.一种车辆控制装置，其特征在于，包括：

采集模块，用于从初始的控制率开始，采集第一车辆当前的第一状态信息，以及第二车辆当前的第二状态信息；其中，所述第一车辆与所述第二车辆通过车联网互联；所述第二车辆为位于所述第一车辆前方且距离所述第一车辆最近的前方车辆；所述第一车辆与所述第二车辆处于同一车道；

9.一种计算机设备，其特征在于，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-7中任一所述的车辆控制方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的车辆控制方法。