CN116278571A

CN116278571A - 车辆控制方法、装置、设备及存储介质

Info

Publication number: CN116278571A
Application number: CN202310325375.4A
Authority: CN
Inventors: 高清源; 庄光庭; 吕雯
Original assignee: Avatr Technology Chongqing Co Ltd
Current assignee: Avatr Technology Chongqing Co Ltd
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-06-23

Abstract

本公开实施例公开了一种车辆控制方法、装置、设备及存储介质，其中，所述方法包括：响应于用户针对路径的选取操作，确定与选取操作匹配的待预测路径；获取待预测路径的当前路况信息、车辆的历史行驶状态和预设的目标强化模型；其中，目标强化模型是基于样本路况信息、样本控制信息集合和样本行驶状态训练得到的；基于待预测路径的当前路况信息和车辆的历史行驶状态，利用目标强化模型预测车辆的当前控制信息；其中，当前控制信息用于调整行驶于待预测路径的车辆上悬架的控制参数。本公开实施例可以更加准确和稳定地调整车辆上悬架的控制参数。

Description

车辆控制方法、装置、设备及存储介质

技术领域

本公开涉及但不限于计算机视觉技术领域，尤其涉及一种车辆控制方法、装置、设备及存储介质。

背景技术

汽车悬挂系统的作用在于调节驾驶的舒适性和操控性，较高的悬挂调校会使在坑洼路面上行驶更舒适。随着汽车智能化的发展，近年来多家汽车厂商设计出根据实时行驶中获得的行驶数据实现自动调校的悬挂调校系统。但这类调节方法的底层逻辑限制了车辆的行驶状态需要在一段时间内不会发生较大的变化，并通过历史数据简单地映射未来的行驶状况等。

发明内容

有鉴于此，本公开实施例至少提供一种车辆控制方法、装置、设备及存储介质。

本公开实施例的技术方案是这样实现的：

一方面，本公开实施例提供一种车辆控制方法，包括：响应于用户针对路径的选取操作，确定与所述选取操作匹配的待预测路径；获取所述待预测路径的当前路况信息、所述车辆的历史行驶状态和预设的目标强化模型；其中，所述目标强化模型是基于样本路况信息、样本控制信息集合和样本行驶状态训练得到的；基于所述待预测路径的当前路况信息和所述车辆的历史行驶状态，利用所述目标强化模型预测所述车辆的当前控制信息；其中，所述当前控制信息用于调整行驶于所述待预测路径的车辆上悬架的控制参数。

另一方面，本公开实施例提供一种车辆控制装置，包括：确定模块，用于响应于用户针对路径的选取操作，确定与所述选取操作匹配的待预测路径；第一获取模块，用于获取所述待预测路径的当前路况信息、所述车辆的历史行驶状态和预设的目标强化模型；其中，所述目标强化模型是基于样本路况信息、样本控制信息集合和样本行驶状态训练得到的；第一预测模块，用于基于所述待预测路径的当前路况信息和所述车辆的历史行驶状态，利用所述目标强化模型预测所述车辆的当前控制信息；其中，所述当前控制信息用于调整行驶于所述待预测路径的车辆上悬架的控制参数。

再一方面，本公开实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的部分或全部步骤。

又一方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。

又一方面，本公开实施例提供一种计算机程序，包括计算机可读代码，当所述计算机可读代码在计算机设备中运行时，所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。

又一方面，本公开实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法中的部分或全部步骤。

本公开实施例中，首先，通过响应于用户针对路径的选取操作，在不需要增加车辆额外设备的情况下，快速确定与选取操作匹配的待预测路径；其次，通过获取待预测路径的当前路况信息、车辆的历史行驶状态和预设的目标强化模型；其中，目标强化模型是基于样本路况信息、样本控制信息集合和样本行驶状态训练得到的；继而基于待预测路径的当前路况信息和车辆的历史行驶状态，利用目标强化模型更加准确和稳定地预测车辆的当前控制信息；其中，当前控制信息用于调整行驶于待预测路径的车辆上悬架的控制参数。这样，通过综合表征未来环境变量的当前路况信息和车辆的历史行驶状态，可以增加目标强化模型不同类型的输入维度，有助于悬挂系统的调节更好地适应未来的驾驶环境，更加简单准确地利用目标强化模型调整车辆上悬架的控制参数。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开的技术方案。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1为本公开实施例提供的一种车辆控制方法的实现流程示意图；

图2为本公开实施例提供的一种车辆控制方法的实现流程示意图；

图3为本公开实施例提供的一种模型训练方法的实现流程示意图；

图4为本公开实施例提供的一种模型训练方法的实现流程示意图；

图5为本公开实施例提供的一种目标强化模型的工作示意图；

图6为本公开实施例提供的一种车辆控制装置的组成结构示意图；

图7为本公开实施例提供的一种计算机设备的硬件实体示意图。

具体实施方式

为了使本公开的目的、技术方案和优点更加清楚，下面结合附图和实施例对本公开的技术方案进一步详细阐述，所描述的实施例不应视为对本公开的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。所涉及的术语“第一/第二/第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开的目的，不是旨在限制本公开。

本公开实施例提供一种车辆控制方法，该方法可以由计算机设备的处理器执行。其中，计算机设备指的可以是服务器、笔记本电脑、平板电脑、台式计算机、车载终端等具备车辆控制能力的设备。其中，车载终端可以包括车辆监控管理系统的前端设备，也可以称为车辆调度监控(Telematics Control Unit，TCU)终端，如，车机终端等。车载终端可以安置于车辆上，融合全球定位系统(Global Positioning System，GPS)技术、里程定位技术及汽车黑匣等技术，能用于对车辆进行现代化管理，包括：自动驾驶、行车安全监控管理、运营管理、服务质量管理、智能集中调度管理、电子站牌控制管理等。图1为本公开实施例提供的一种车辆控制方法的实现流程示意图，如图1所示，该方法包括如下步骤S101至步骤S103：

步骤S101，响应于用户针对路径的选取操作，确定与所述选取操作匹配的待预测路径。

这里，待预测路径可以是指车辆将要行驶的路径，车辆可以包括机动车和非机动车等，车辆在待预测路径进行行驶的过程中，可以对车辆上悬架等组件的控制参数进行预测。选取操作可以是用于确定待预测路径的操作，用户可以是车辆的驾驶人员等。用户可以通过车辆上的导航工具实现路径的选取操作，得到与选取操作匹配的待预测路径，针对不同地点的选取操作，可以得到不同的待预测路径。例如：导航工具为导航地图，用户在导航地图上输入起点为第一地点、终点为第二地点，导航地图可以输出第一地点至第二地点的路径，该路径可以确定为待预测路径。由于第一地点至第二地点之间的可行驶路径可以为多条，可以进一步响应于用户的选取操作，从多条待行驶路径总确定出最终的待预测路径，这里并不限定。

步骤S102，获取所述待预测路径的当前路况信息、所述车辆的历史行驶状态和预设的目标强化模型。

这里，路况信息可以是指用于反映待行驶路径上道路状态、交通状态等属性的信息，如，路况信息包括待行驶路径为直行高速路段、四车道、红路灯数量为2，无拥堵情况等。当前路况信息可以是指待预测路径对应的路况信息，如，待预测路径为第一地点至第二地点，当前路况信息为第一地点至第二地点存在三个红路灯、无交通拥堵情况等。

行驶状态可以是指车辆在行驶过程中的运行状态，行驶状态可以通过车辆行驶过程中采集的行驶参数进行反映。例如：行驶状态包括车辆颠簸程度、车辆震荡程度等；行驶参数可以包括车身悬架垂直于地面方向上的加速度、车身悬架垂直于地面方向上的速度、悬架动行程、车身俯仰角、车身横摆角、车身侧倾角和车轮动载等参数中的一种或多种，通过一种或多种行驶参数可以量化车辆的行驶状态。在车辆控制的过程中，行驶状态可以通过行驶参数进行表征，这里并不限定。

历史行驶状态可以是指车辆在待预测路径之前的一段路径上行驶采集的行驶状态，这里的历史行驶状态为车辆已采集的行驶状态，当前路况信息为车辆将要行驶路径对应的路况信息。例如：待预测路径之前的一段路径为第一路径，待预测路径为第二路径；第一路径可以对应历史路况信息，第二路径可以对应当前路况信息；车辆在第一路径上进行行驶可以采集对应的历史行驶状态，车辆在第二路径上进行行驶可以采集对应的当前行驶状态等。由于第一路径和第二路径的长度这里并不限定，那么，当前路径信息历史行驶状态等数据的数据量，这里并不限定，如，历史行驶状态可以为在响应于用户针对路径的选取操作时刻之前的预设时段内的行驶状态。在步骤S102实施过程中，可以包括：从预设的导航工具中实时读取待预测路径的当前路况信息，以及从预设的存储空间读取车辆的历史行驶状态；其中，该存储空间用于存储预设的传感器等设备对车辆进行采集得到的历史行驶状态等数据。

样本路况信息可以是对样本车辆将要行驶的路况信息，样本控制信息集合可以是指样本车辆在历史行驶过程中针对不同的路况信息所采取的控制信息，样本行驶状态可以是指样本路况信息之前的路径信息所对应的行驶状态；其中，样本车辆可以是用于训练目标强化模型的车辆，控制信息可以用于调整样本车辆上悬架的控制参数，样本控制信息集合中可以包括多个样本控制信息，如，第一样本路径对应第一样本控制信息，第二样本路径对应第二样本控制信息等。

强化学习(Reinforcement Learning，RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，可以用于描述和解决智能体(Agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化模型可以是指基于强化学习构建的神经网络模型，目标强化模型可以是指对初始强化模型进行训练得到的强化模型，初始强化模型可以是指未训练的强化模型。其中，不同类型的强化学习方式算法可以构造不同结构的强化模型，可以从多个角度对强化学习算法进行分类，如，基于模型(Model-Based)和无模型的(Model-Free)强化学习方法；基于价值(Value-Based)和基于策略的(Policy-Based)强化学习方法，或两者相结合的演员-评论家(Actor-Critic，AC)强化学习方法；蒙特卡罗(Monte Carlo，MC)和时间差分(Temporal-Difference，TD)的强化学习方法；在线策略(On Policy)和离线策略(Off Policy)等强化学习方法。本公开实施例中，对于目标强化模型的学习方式，这里并不限定。

目标强化模型可以是基于样本路况信息、样本控制信息集合和样本行驶状态训练得到的。例如：可以对样本路况信息进行特征提取，得到状态特征；对样本控制信息集合中的样本控制信息进行特征提取，得到多个动作特征，将多个动作特征进行组合得到动作空间；采集样本车辆行驶过程中所有的状态特征进行组合得到状态空间；动作空间可以是指有效动作(也即控制参数)的集合，动作空间中的动作特征具有时序性，状态空间可以是指规定环境(也即路况信息)的集合，状态空间中的状态特征具有时序性；获取未训练的强化模型，将未训练的强化模型确定为初始强化模型；初始强化模型中包括更新步长、奖励折扣因子、标注的奖励等预设参数，以及策略函数、奖励函数、价值函数等预设函数；将动作空间和状态空间输入至初始强化模型进行模型训练，得到初始强化模型所对应的价值函数，在基于价值函数可以得到最大价值的情况下，对初始强化模型的权重等参数进行调整，得到目标强化模型。

在一些实施例中，还可以利用摄像头等图像采集设备采集行驶过程中的街景图像，基于街景图像、样本路况信息、样本行驶状态和样本控制信息集合，对预设的初始强化模型进行训练，得到目标强化模型；或者，还可以用激光雷达等点云采集设备采集行驶过程中的街景点云，基于街景点云、样本路况信息、样本行驶状态和样本控制信息集合，对预设的初始强化模型进行训练，得到目标强化模型；这样，有助于增加初始强化模型输入数据的类型维度，以提高目标强化模型的准确性和稳定性等。

步骤S103，基于所述待预测路径的当前路况信息和所述车辆的历史行驶状态，利用所述目标强化模型预测所述车辆的当前控制信息。

这里，可以对待预测路径的当前路况信息进行特征提取，得到第一特征；对车辆的历史行驶状态进行特征提取，得到第二特征；将第一特征和第二特征进行拼接(如，第一特征的尾端与第二特征的首端进行拼接)，得到拼接特征，将拼接特征输入至目标强化模型，得到车辆的当前控制信息。控制信息可以同于调整车辆上悬架的控制参数，当前控制信息用于调整行驶于待预测路径的车辆上悬架的控制参数，如，当前控制信息表征降低悬架的悬架刚度，这里并不限定。

本公开实施例提供一种车辆控制方法，如图2所示，该方法包括如下步骤S201至步骤S205：

步骤S201至步骤S202分别对应于前述步骤S101至步骤S102，在实施时可以参照前述步骤S101至步骤S102的具体实施方式。

步骤S203，分别对所述当前路况信息和所述车辆的历史行驶状态进行特征提取，得到第一特征向量和第二特征向量。

这里，第一特征向量可以是用于表征当前路况信息的向量，第二特征向量可以是用于表征车辆的历史行驶状态的向量。例如：可以利用已训练的第一特征提取模型，对当前路况信息进行特征提取，得到第一特征向量；利用已训练的第二特征提取模型，对车辆的历史行驶状态进行特征提取，得到第二特征向量。第一特征提取模型和第二特征提取模型可以理解为预先设置的机器学习模型，如，神经网络模型，用于执行特征提取等。

步骤S204，对所述第一特征向量和所述第二特征向量进行融合，得到融合特征。

这里，融合特征用于表征当前路况信息和车辆的历史行驶状态两种类型的综合信息，融合可以是指综合现有的多个特征向量生成新的融合特征。例如：可以采用基于线性特征依赖模型的特征融合算法、基于稀疏表示理论的特征融合算法或基于深度学习理论的特征融合算法等特征融合方式，对去重后的图像集合对应的图像特征进行特征融合，得到图像集合所对应的集合特征；还可以对第一特征向量和第二特征向量进行拼接，得到融合特征等，对于特征融合的具体方式，这里并不限定。

步骤S205，利用所述目标强化模型的策略网络，对所述融合特征进行预测，得到所述当前控制信息。

这里，目标强化模型可以包括策略网络(Actor)和评价网络(Critic)，策略网络可以用于预测当前控制信息，评价网络可以用于确定相应的奖励等。策略网络的输入的维度与评价网络的输入的维度可以相同也可以不同，对于目标强化模型的结构，这里并不限定。例如：将融合特征输入目标强化模型的策略网络，得到当前控制信息。当前控制信息至少包括悬架刚度和减震器阻尼系数，如，当前控制信息包括减震器阻尼系数，且减震器阻尼系数未0.7，若车辆悬架的减震器阻尼系数实际值为0.6，那么可以将车辆悬架的减震器阻尼系数调整至0.7。

本公开实施例中，通过对当前路况信息提取的特征和车辆的历史行驶状态提取的特征进行融合，得到融合特征；继而利用目标强化模型的策略网络，对融合特征进行预测，可以快速准确地得到当前控制信息。

本公开实施例提供一种模型训练方法，用于训练目标强化模型，如图3所示，该方法包括如下步骤S301至步骤S305：

步骤S301，获取采样车辆的所述样本路况信息和所述样本行驶状态。

这里，样本车辆可以是用于训练目标强化模型的车辆，采样车辆与目标强化模型使用过程中涉及的车辆为同一类型的车辆。样本路况信息可以是对样本车辆将要行驶的路况信息，样本行驶状态可以是指样本路况信息之前的路径信息所对应的行驶状态。例如：可以确定采样车辆行驶过的多个路径(如，第一时段行驶于第一路径，第二时段行驶于第二路径)，以及将要行驶的第三路径，那么可以将行驶于第二路径时所采集的形式状态确定为样本行驶状态，将第三路径对应的路况信息确定为样本路况信息。

步骤S302，利用预设的初始强化模型的策略网络，对所述样本路况信息和所述样本行驶状态进行预测，得到预测控制信息。

这里，初始强化模型可以是指未训练的强化模型，通过对初始强化模型进行训练，可以得到目标强化模型，初始强化模型可以包括未训练的策略网络和未训练的评价网络。可以确定样本路况信息和样本行驶状态对应的融合特征，将样本路况信息和样本行驶状态对应的融合特征输入至初始强化模型的策略网络，得到预测控制信息；预测控制信息用于表征遇到样本路况信息时样本车辆可以选定的控制信息，预测控制信息属于样本控制信息集合，样本控制信息集合可以是指样本车辆在历史行驶过程中针对不同的路况信息所采取的控制信息。

步骤S303，基于所述预测控制信息控制所述采样车辆按照所述样本路况信息所对应的路况进行行驶，并采集行驶过程中所述样本路况信息对应的行驶状态。

这里，若样本路况信息对应第三路径，那么可以控制采样车辆按照预测控制信息对悬架上的控制参数进行调整，以使得悬架调整后的采样车辆在第三路径上进行行驶，并且在行驶的过程中，通过预设的传感设备采集样本路况信息对应的行驶状态。例如：样本路况信息对应的行驶状态可以是指采样车辆行驶于第三路径上所采集的行驶状态。

步骤S304，利用所述初始强化模型的评价网络，对所述样本路况信息、所述预测控制信息和所述样本路况信息对应的行驶状态进行评价，得到所述初始强化模型的优势函数。

这里，优势函数(也可以称为优势函数值)可以用于度量在某个路况信息(也即状态)下选取某个具体控制参数(也即动作)的合理性，优势函数直接给出动作的价值与所有可能的动作的价值的均值的差值。如果该差值(也即优势)大于0，说明动作优于平均，是个合理的选择；如果差值(优势)小于0，说明动作次于平均，不是好的选择。例如：可以确定样本路况信息、预测控制信息和样本路况信息对应的行驶状态所对应的融合特征，将样本路况信息、预测控制信息和样本路况信息对应的行驶状态所对应的融合特征输入至初始强化模型的评价网络，得到初始强化模型的奖励；继而基于奖励，确定状态价值函数和状态动作价值函数；对状态动作价值函数与状态价值函数进行相减，得到初始强化模型估计的优势函数。

其中，在采用不同的控制参数得到多个奖励的情况下，可以基于多个奖励，确定初始强化模型所对应的价值函数。价值函数可以包括状态动作价值函数和状态价值函数，状态动作价值函数可以表示的是在当前的路况信息(也即状态)处执行当前的控制参数(也即动作)后获得的长期期望折扣奖励，状态价值函数可以表示从当前的路况信息(也即状态)开始获得的长期期望折扣奖励。例如：将样本路况信息、预测控制信息和样本行驶状态输入至评价网络预设的状态动作价值函数，得到初始强化模型所对应的状态动作价值函数；将样本路况信息、预测控制信息和样本行驶状态输入至评价网络预设的状态价值函数，得到初始强化模型所对应的状态价值函数。

步骤S305，基于所述初始强化模型的优势函数、所述样本路况信息和所述预测控制信息，对所述初始强化模型的参数进行调整，得到所述目标强化模型。

这里，将优势函数、样本路况信息和预测控制信息，带入预设的损失函数，得到初始强化模型的当前损失，采用梯度下降法对初始强化模型所对应的当前损失进行处理，得到初始强化模型的参数所对应的梯度；基于梯度和预设的步长，对初始强化模型的参数进行调整，得到更新后的初始强化模型；通过多组新的样本路况信息以及新的样本行驶状态，对初始强化模型的参数进行多次调整，在更新后的初始强化模型的精度满足预设条件的情况下，将更新后的初始强化模型确定为目标强化模型。

本公开实施例中，通过样本路况信息、样本行驶状态和样本控制信息集合，可以快速准确地对初始强化模型进行训练，得到目标强化模型。

在一些实施例中，上述步骤S301可以包括如下步骤S3011至步骤S3013：

步骤S3011，从所述采样车辆的数据采集模块中获取所述采样车辆的样本行驶路径。

这里，数据采集模块可以是指采样车辆中用于采集数据的模块，如，数据采集模块包括传感设备，利用该传感设备采集样本行驶状态等数据。样本行驶状态可以用于反映车辆状态的当前悬挂和其他控制域的数据，用于反映道路颠簸程度或车辆震荡程度的悬架的控制参数，以及用户上传的用户体验等信息。样本行驶路径可以是指样本路况信息所对应的路径，可以先从数据采集模块中获取采样车辆的样本行驶路径。

步骤S3012，从所述采样车辆中的导航工具中获取所述样本行驶路径对应的所述样本路况信息。

这里，可以将样本行驶路径导入导航工具，得到样本行驶路径对应的样本路况信息。样本路况信息至少可以包括以下至少之一：道路曲折程度、车辆和行人密度、道路属性、交通事故信息。道路曲折程度可以由弯道数量、弯道的平均角度、弯道半径等数据表示，道路属性可以包括道路等级和限速类型等，如，道路等级为高速公路、一级公路、二级公路或三级公路等。车辆和行人密度可以为车辆密度较高、行人密度较高等；限速等级可以为低于30公里每小时、低于50公里每小时、低于80公里每小时等，拥堵状况为不拥堵、拥堵时长为30分钟、拥堵时长为1小时等；交通事故信息可以包括发生交通事故和未发生交通事故等。

步骤S3013，利用所述采样车辆中的传感设备，获取所述样本行驶状态。

这里，样本行驶状态为采样车辆行驶于样本行驶路径之前的上一段路径对应的行驶状态，样本行驶状态至少包括以下至少之一：车辆加速度、悬架动行程、轮胎动载荷。例如：在样本车辆行驶于样本行驶路径之前的上一段路径的情况下，利用传感设备采集车辆加速度、悬架动行程等数据。

本公开实施例中，通过采样车辆的数据采集模块和传感设备等组件，可以快速准确地获取样本路况信息和样本行驶状态。

在一些实施例中，上述步骤S305可以包括如下步骤S3051至步骤S3053：

步骤S3051，基于所述优势函数，确定所述初始强化模型的评价网络的第一损失。

这里，第一损失可以是指用于调整初始强化模型的评价网络的损失，如，在确定预设数量的优势函数(也可以称为优势函数值)的情况下，将所有优势函数值的平方进行累加，得到第一损失。

步骤S3052，基于所述优势函数以及在所述样本路况信息下执行所述预测控制信息的概率，确定所述初始强化模型的策略网络的第二损失。

这里，在样本路况信息下执行预测控制信息的概率，可以是指针对样本路况信息，从样本控制信息集合中选定预测控制信息的可能程度，该概率可以通过初始强化模型的策略网络进行输出得到。第二损失可以是指用于调整初始强化模型的策略网络的损失，如，在确定预设数量的优势函数值的情况下，将在样本路况信息下执行预测控制信息的概率与对应的优势函数值相乘，得到相乘结果，将所有相乘结果的对数累加，得到第二损失。

步骤S3053，基于所述第一损失对所述评价网络的参数进行调整，以及基于所述第二损失对所述策略网络的参数进行调整，得到所述目标强化模型。

这里，可以采用梯度下降法对第一损失进行处理，得到评价网络的参数所对应的梯度；基于梯度、预设的步长和奖励折扣因子等预设参数，对评价网络的参数进行调整；同时，可以采用梯度下降法对第二损失进行处理，得到策略网络的参数所对应的梯度；基于梯度、预设的步长和奖励折扣因子等预设参数，对策略网络的参数进行调整，以得到目标强化模型。

本公开实施例中，通过初始强化模型的优势函数、样本路况信息和预测控制信息，确定第一损失和第二损失；继而基于第一损失和第二损失准确地对初始强化模型的评价网络和策略网络进行训练，有助于快速准确地得到目标强化模型。

本公开实施例提供一种模型训练方法，用于训练目标强化模型，如图4所示，该方法包括如下步骤S401至步骤S407：

步骤S401至步骤S403分别对应于前述步骤S301至步骤S303，在实施时可以参照前述步骤S301至步骤S303的具体实施方式；步骤S407对应于前述步骤S305，在实施时可以参照前述步骤S305的具体实施方式。

步骤S404，利用所述初始强化模型的评价网络，基于所述样本路况信息、所述预测控制信息和所述样本路况信息对应的行驶状态，确定所述初始强化模型所对应的奖励。

这里，可以分别确定样本路况信息、预测控制信息和样本路况信息对应的行驶状态各自对应的特征，并将特征进行融合，得到融合后的特征；将融合后的特征输入至评价网络中预设的奖励函数，得到初始强化模型所对应的奖励。

步骤S405，基于在所述样本路况信息下执行所述预测控制信息获得的奖励，获取所述初始强化模型的状态动作价值函数和状态价值函数。

这里，状态动作价值函数(或者状态动作价值函数值)是基于在样本路况信息下执行预测控制信息获得的奖励确定的，状态价值函数(或者状态价值函数值)是基于从样本路况信息开始获得的奖励确定的，对于状态动作价值函数和状态价值函数的确定方式，这里并不限定。例如：统计从当前状态(也即样本路况信息)出发，遵循初始强化模型的策略网络所选取的策略能够获得的奖励的第一期望，将该第一期望确定为奖励所对应的状态价值函数值；统计在当前状态(也即样本路况信息)，执行动作(也即预测控制信息)之后，遵循初始强化模型的策略网络所选取的策略能够获得的奖励的第二期望，将第二期望确定为状态价值函数值；其中，状态动作价值函数值和状态价值函数值可以用于确定初始强化模型的损失。

步骤S406，利用近端策略优化算法，基于所述状态动作价值函数和所述状态价值函数，估计所述初始强化模型的优势函数。

这里，近端策略优化(Proximal Policy Optimization，PPO)可以通过限制重要性采样结果之间的差距，避免异策略两个分布差太多，以通过现有的样本路况信息等样本数据让策略网络尽可能地提升，并且控制策略的步长等；近端策略优化可以对策略网络进行改进，如，对策略网络的参数更新上进行改善等；例如：可以将状态动作价值函数与状态价值函数进行相减，得到初始强化模型估计的优势函数。对于采用近端策略优化算法训练初始强化模型的具体实现方式，这里并不限定，如，确定采用近端策略优化时初始强化模型的优势函数；基于初始强化模型的优势函数，确定初始强化学习模式所对应的优化函数；确定近端策略优化所对应的约束；将优化函数和约束两项相加，得到初始强化模型的目标优化函数；基于目标优化函数对初始强化模型进行训练，得到目标强化模型等。

本公开实施例中，通过利用近端策略优化算法，可以快速准确地基于状态动作价值函数和状态价值函数估计初始强化模型的优势函数。

在一些实施例中，上述步骤S404可以包括如下步骤S4041至步骤S4042：

步骤S4041，基于所述样本路况信息对应的行驶状态，构造所述评价网络的奖励函数。

这里，样本路况信息对应的行驶状态用于量化采样车辆在行驶过程中的舒适程度，如，车辆加速度的变化较小，则确定舒适程度较高等。在驾驶舒适程度较高和操控性能较平稳的情况下，可以利用奖励函数得到较大的奖励，如，车辆加速度越大，对应的奖励越小；悬架动行程越不平稳，对应的奖励越小。评价网络的奖励函数可以表征样本路况信息对应的行驶状态中的数据与所获得的加了之间的映射关系，可以基于样本路况信息对应的行驶状态中的多个数据进行确定多个映射关系，并对多个映射关系进行加权处理，得到当样本路况信息所对应的总奖励。

步骤S4042，利用所述奖励函数，对所述样本路况信息和所述预测控制信息进行处理，得到所述初始强化模型所对应的奖励。

这里，可以将样本路况信息和预测控制信息输入至奖励函数，得到初始强化模型所对应的奖励。其中，对初始强化模型进行训练的过程中，可以采用多个回合对初始强化模型的参数进行更新，每一回合更新一次参数；每一回合中可以包括多组状态和动作(也即多组样本路况信息和对应的行驶状态等)，每一回合可以构造该回合对应的奖励函数。

本公开实施例中，通过构造对应的奖励函数，可以确定初始强化模型更加准确的奖励，有助于提高目标强化模型的稳定性等。

下面说明本公开实施例提供的车辆控制方法在实际场景中的应用，以基于近端策略优化方式进行训练得到目标强化模型场景为例进行说明。如图5所示，目标强化模型的网络结构为Actor-Critic网络结构501，策略(Actor)网络5011和评价(Critic)网络5012的输入数据的维度(Observation Space)可以相同；但是策略网络5011输出动作空间上的概率分布，也即动作的概率509；Actor-Critic网络可以基于动作的概率509确定相应的动作511(也即当前控制信息)；评价网络5012输出状态对应的价值函数(维度为标量)，也即相应的价值510，如，状态动作价值函数值和\或状态价值函数值。

Actor-Critic网络还可以从动作空间中的特征和状态空间中的特征中获取第一奖励变量504和第二奖励变量505；第一奖励变量504可以是指用于确定第一奖励506的数据，如，将上一时刻的路况信息和控制信息等数据输入至预设的奖励函数，得到上一时刻的第一奖励；第二奖励变量505可以是指用于确定第二奖励507的数据，如，将当前时刻的路况信息和控制信息等数据输入至预设的奖励函数，得到当前时刻的第二奖励；基于第一奖励506和第二奖励507确定优势函数508；优势函数508可以作为策略网络5011的输出，如，将多个时刻对应的奖励进行累加，得到对应的优势函数值。Actor-Critic网络还可以从动作空间中的特征和状态空间中的特征中获取状态相关变量502；状态相关变量502可以是指用于确定状态503的数据，如，将上一时刻的路况信息和控制信息等数据输入至策略网络5011中预设的状态转移函数，得到当前时刻的路况信息；状态503可以作为Actor-Critic网络的输入。

动作空间可以是指控信息所对应的特征的集合，状态可以是指与控制信息所对应的路况信息。可以利用未来整个行程中累积的每一期(也即每一回合)奖励函数确定初始强化模型的优势函数(Advantage Function)，继而基于优势函数确定初始强化模型的损失函数，通过该损失函数对初始强化模型的参数进行调整，得到目标强化模型。

在一些实施例中，可以根据导航地图信息预测车辆将要行驶的环境状况(也即路况信息)，将路况信息转换为相关的数据维度的特征，得到状态空间；可以结合当前和历史的行驶信息，得到动作空间；将状态空间和动作空间作为初始强化模型的输入。利用强化学习方法PPO进行初始强化模型的训练，基于仿真环境，集合实车测试环境、慢行训练方式上线后采集的用户的行驶信息，训练和持续迭代初始强化模型，得到目标强化模型，实现算法层面上的智能处理。其中，可以利用车辆行驶过程中通过传感器收集的，可以反映驾驶舒适程度和操控性能的行驶状态信息，综合构造初始强化模型的奖励函数。

在初始强化模型的训练过程中，可以对路况信息进行特征提取处理，转换为固定维度的状态空间，状态空间中的特征为时间序列数据；以及可以对行驶状态进行特征提取处理，转换为固定维度的动作空间，动作空间中的特征可以用于定义算法控制悬挂的方式和维度；可以利用初始强化模型，基于状态空间和动作空间，确定采用当前的控制信息所对应的奖励，奖励可以是指综合评价悬挂系统调校效果的指标；通过计算不同控制参数下的奖励，得到初始强化模型的价值函数；继而基于价值函数确定初始强化模型的优势函数；优势函数可以根据未来行驶的所有控制参数，综合整体的未来行驶的悬挂效果，逆向反映当前悬挂控制的好坏，用于确定当前路况信息所对应的控制信息。

相较于相关技术中，采用监督学习算法学习悬架控制系统，存在真实输出(最优控制策略)难以定义，数据亦难以采集等问题。而本公开实施例中，通过将悬挂系统控制定义成为强化学习算法问题，利用强化学习算法训练初始强化模型，得到目标强化模型。其中，目标强化模型可以为利用近端策略优化方式得到的强化模型、深度Q网络、异步优势网络(Asynchronous Advantage Actor-Critic，A3C)、优势网络(Advantage Actor-Critic，A2C)等。同时，还可以基于导航规划和定位的地图数据，提取可以预测未来一段距离的行驶环境的路况信息，用于训练初始强化模型；这样，有助于悬挂系统的调节更好的适应未来驾驶环境，而不仅仅基于历史变量去预测未来，应当可以达到更好的效果；还可以根据未来行驶中通过传感器等收集的可以反映操控和舒适性的行驶状态信息，构造每一期的奖励函数，构造综合、全序列(Episode)的优势函数；这样，可以客观和量化地衡量悬挂系统在整个未来驾驶旅途中的综合控制效果。

基于前述的实施例，本公开实施例提供一种车辆控制装置，该装置包括所包括的各单元、以及各单元所包括的各模块，可以通过计算机设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(Central ProcessingUnit，CPU)、微处理器(Microprocessor Unit，MPU)、数字信号处理器(Digital SignalProcessor，DSP)或现场可编程门阵列(Field Programmable Gate Array，FPGA)等。

图6为本公开实施例提供的一种车辆控制装置的组成结构示意图，如图6所示，车辆控制装置600包括：确定模块610、第一获取模块620和第一预测模块630，其中：

确定模块610，用于响应于用户针对路径的选取操作，确定与所述选取操作匹配的待预测路径；第一获取模块620，用于获取所述待预测路径的当前路况信息、所述车辆的历史行驶状态和预设的目标强化模型；其中，所述目标强化模型是基于样本路况信息、样本控制信息集合和样本行驶状态训练得到的；第一预测模块630，用于基于所述待预测路径的当前路况信息和所述车辆的历史行驶状态，利用所述目标强化模型预测所述车辆的当前控制信息；其中，所述当前控制信息用于调整行驶于所述待预测路径的车辆上悬架的控制参数。

在一些实施例中，所述第一预测模块，还用于：分别对所述当前路况信息和所述车辆的历史行驶状态进行特征提取，得到第一特征向量和第二特征向量；对所述第一特征向量和所述第二特征向量进行融合，得到融合特征；利用所述目标强化模型的策略网络，对所述融合特征进行预测，得到所述当前控制信息；其中，所述当前控制信息至少包括悬架刚度和减震器阻尼系数。

在一些实施例中，所述装置还包括：第二获取模块，用于获取采样车辆的所述样本路况信息和所述样本行驶状态；第二预测模块，用于利用预设的初始强化模型的策略网络，对所述样本路况信息和所述样本行驶状态进行预测，得到预测控制信息；其中，所述预测控制信息属于所述样本控制信息集合；控制模块，用于基于所述预测控制信息控制所述采样车辆按照所述样本路况信息所对应的路况进行行驶，并采集行驶过程中所述样本路况信息对应的行驶状态；评价模块，用于利用所述初始强化模型的评价网络，对所述样本路况信息、所述预测控制信息和所述样本路况信息对应的行驶状态进行评价，得到所述初始强化模型的优势函数；调整模块，用于基于所述初始强化模型的优势函数、所述样本路况信息和所述预测控制信息，对所述初始强化模型的参数进行调整，得到所述目标强化模型。

在一些实施例中，所述第二获取模块，还用于：从所述采样车辆的数据采集模块中获取所述采样车辆的样本行驶路径；从所述采样车辆中的导航工具中获取所述样本行驶路径对应的所述样本路况信息；其中，所述样本路况信息至少包括以下至少之一：道路曲折程度、车辆和行人密度、道路属性、交通事故信息；利用所述采样车辆中的传感设备，获取所述样本行驶状态；其中，所述样本行驶状态为所述采样车辆行驶于所述样本行驶路径之前的上一段路径对应的行驶状态；所述样本行驶状态至少包括以下至少之一：车辆加速度、悬架动行程、轮胎动载荷。

在一些实施例中，所述调整模块，还用于：基于所述优势函数，确定所述初始强化模型的评价网络的第一损失；基于所述优势函数以及在所述样本路况信息下执行所述预测控制信息的概率，确定所述初始强化模型的策略网络的第二损失；基于所述第一损失对所述评价网络的参数进行调整，以及基于所述第二损失对所述策略网络的参数进行调整，得到所述目标强化模型。

在一些实施例中，所述评价模块，还用于：利用所述初始强化模型的评价网络，基于所述样本路况信息、所述预测控制信息和所述样本路况信息对应的行驶状态，确定所述初始强化模型所对应的奖励；基于在所述样本路况信息下执行所述预测控制信息获得的奖励，获取所述初始强化模型的状态动作价值函数和状态价值函数；其中，所述状态动作价值函数是基于在所述样本路况信息下执行所述预测控制信息获得的奖励确定的，所述状态价值函数是基于从所述样本路况信息开始获得的奖励确定的；利用近端策略优化算法，基于所述状态动作价值函数和所述状态价值函数，估计所述初始强化模型的优势函数。

在一些实施例中，所述评价模块，还用于：基于所述样本路况信息对应的行驶状态，构造所述评价网络的奖励函数；其中，所述样本路况信息对应的行驶状态用于量化所述采样车辆在行驶过程中的舒适程度；利用所述奖励函数，对所述样本路况信息和所述预测控制信息进行处理，得到所述初始强化模型所对应的奖励。

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上述方法实施例描述的方法，对于本公开装置实施例中未披露的技术细节，请参照本公开方法实施例的描述而理解。

需要说明的是，本公开实施例中，如果以软件功能模块的形式实现上述的车辆控制方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read OnlyMemory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本公开实施例不限制于任何特定的硬件、软件或固件，或者硬件、软件、固件三者之间的任意结合。

本公开实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的部分或全部步骤。

本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。所述计算机可读存储介质可以是瞬时性的，也可以是非瞬时性的。

本公开实施例提供一种计算机程序，包括计算机可读代码，在所述计算机可读代码在计算机设备中运行的情况下，所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。

本公开实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一些实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一些实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

这里需要指出的是：上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考。以上设备、存储介质、计算机程序及计算机程序产品实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本公开设备、存储介质、计算机程序及计算机程序产品实施例中未披露的技术细节，请参照本公开方法实施例的描述而理解。

需要说明的是，图7为本公开实施例中计算机设备的一种硬件实体示意图，如图7所示，该计算机设备700的硬件实体包括：处理器701、通信接口702和存储器703，其中：

处理器701通常控制计算机设备700的总体操作。

通信接口702可以使计算机设备通过网络与其他终端或服务器通信。

存储器703配置为存储由处理器701可执行的指令和应用，还可以缓存待处理器701以及计算机设备700中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory，RAM)实现。处理器701、通信接口702和存储器703之间可以通过总线704进行数据传输。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本公开的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本公开的各种实施例中，上述各步骤/过程的序号的大小并不意味着执行顺序的先后，各步骤/过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本公开所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本公开各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本公开上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

本公开所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

若本公开实施例涉及个人信息，应用本公开实施例的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本公开实施例涉及敏感个人信息，应用本公开实施例的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。

以上所述，仅为本公开的实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。

Claims

1.一种车辆控制方法，其特征在于，包括：

响应于用户针对路径的选取操作，确定与所述选取操作匹配的待预测路径；

获取所述待预测路径的当前路况信息、所述车辆的历史行驶状态和预设的目标强化模型；其中，所述目标强化模型是基于样本路况信息、样本控制信息集合和样本行驶状态训练得到的；

基于所述待预测路径的当前路况信息和所述车辆的历史行驶状态，利用所述目标强化模型预测所述车辆的当前控制信息；其中，所述当前控制信息用于调整行驶于所述待预测路径的车辆上悬架的控制参数。

2.根据权利要求1所述的方法，其特征在于，所述基于所述待预测路径的当前路况信息和所述车辆的历史行驶状态，利用所述目标强化模型预测所述车辆的当前控制信息，包括：

分别对所述当前路况信息和所述车辆的历史行驶状态进行特征提取，得到第一特征向量和第二特征向量；

对所述第一特征向量和所述第二特征向量进行融合，得到融合特征；

利用所述目标强化模型的策略网络，对所述融合特征进行预测，得到所述当前控制信息；

其中，所述当前控制信息至少包括悬架刚度和减震器阻尼系数。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取采样车辆的所述样本路况信息和所述样本行驶状态；

利用预设的初始强化模型的策略网络，对所述样本路况信息和所述样本行驶状态进行预测，得到预测控制信息；其中，所述预测控制信息属于所述样本控制信息集合；

基于所述预测控制信息控制所述采样车辆按照所述样本路况信息所对应的路况进行行驶，并采集行驶过程中所述样本路况信息对应的行驶状态；

利用所述初始强化模型的评价网络，对所述样本路况信息、所述预测控制信息和所述样本路况信息对应的行驶状态进行评价，得到所述初始强化模型的优势函数；

基于所述初始强化模型的优势函数、所述样本路况信息和所述预测控制信息，对所述初始强化模型的参数进行调整，得到所述目标强化模型。

4.根据权利要求3所述的方法，其特征在于，所述获取采样车辆的所述样本路况信息和所述样本行驶状态，包括：

从所述采样车辆的数据采集模块中获取所述采样车辆的样本行驶路径；

从所述采样车辆中的导航工具中获取所述样本行驶路径对应的所述样本路况信息；其中，所述样本路况信息至少包括以下至少之一：道路曲折程度、车辆和行人密度、道路属性、交通事故信息；

利用所述采样车辆中的传感设备，获取所述样本行驶状态；其中，所述样本行驶状态为所述采样车辆行驶于所述样本行驶路径之前的上一段路径对应的行驶状态；所述样本行驶状态至少包括以下至少之一：车辆加速度、悬架动行程、轮胎动载荷。

5.根据权利要求3所述的方法，其特征在于，所述基于所述初始强化模型的优势函数、所述样本路况信息和所述预测控制信息，对所述初始强化模型的参数进行调整，得到所述目标强化模型，包括：

基于所述优势函数，确定所述初始强化模型的评价网络的第一损失；

基于所述优势函数以及在所述样本路况信息下执行所述预测控制信息的概率，确定所述初始强化模型的策略网络的第二损失；

基于所述第一损失对所述评价网络的参数进行调整，以及基于所述第二损失对所述策略网络的参数进行调整，得到所述目标强化模型。

6.根据权利要求3所述的方法，其特征在于，所述利用所述初始强化模型的评价网络，对所述样本路况信息、所述预测控制信息和所述样本路况信息对应的行驶状态进行评价，得到所述初始强化模型的优势函数，包括：

利用所述初始强化模型的评价网络，基于所述样本路况信息、所述预测控制信息和所述样本路况信息对应的行驶状态，确定所述初始强化模型所对应的奖励；

基于在所述样本路况信息下执行所述预测控制信息获得的奖励，获取所述初始强化模型的状态动作价值函数和状态价值函数；其中，所述状态动作价值函数是基于在所述样本路况信息下执行所述预测控制信息获得的奖励确定的，所述状态价值函数是基于从所述样本路况信息开始获得的奖励确定的；

利用近端策略优化算法，基于所述状态动作价值函数和所述状态价值函数，估计所述初始强化模型的优势函数。

7.根据权利要求6所述的方法，其特征在于，所述利用所述初始强化模型的评价网络，基于所述样本路况信息、所述预测控制信息和所述样本路况信息对应的行驶状态，确定所述初始强化模型所对应的奖励，包括：

基于所述样本路况信息对应的行驶状态，构造所述评价网络的奖励函数；其中，所述样本路况信息对应的行驶状态用于量化所述采样车辆在行驶过程中的舒适程度；

利用所述奖励函数，对所述样本路况信息和所述预测控制信息进行处理，得到所述初始强化模型所对应的奖励。

8.一种车辆控制装置，其特征在于，包括：

确定模块，用于响应于用户针对路径的选取操作，确定与所述选取操作匹配的待预测路径；

第一获取模块，用于获取所述待预测路径的当前路况信息、所述车辆的历史行驶状态和预设的目标强化模型；其中，所述目标强化模型是基于样本路况信息、样本控制信息集合和样本行驶状态训练得到的；

第一预测模块，用于基于所述待预测路径的当前路况信息和所述车辆的历史行驶状态，利用所述目标强化模型预测所述车辆的当前控制信息；其中，所述当前控制信息用于调整行驶于所述待预测路径的车辆上悬架的控制参数。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7任一项所述方法中的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7任一项所述方法中的步骤。