CN113269304A

CN113269304A - 基于强化学习的轨迹规划方法、装置及存储介质

Info

Publication number: CN113269304A
Application number: CN202110549548.1A
Authority: CN
Inventors: 顾林坤; 谭敏波
Original assignee: Qianhai Qijian Technology Shenzhen Co ltd
Current assignee: Qianhai Qijian Technology Shenzhen Co ltd
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-08-17

Abstract

本申请公开了一种基于强化学习的轨迹规划方法、装置及存储介质。本申请提供的基于强化学习的轨迹规划方法包括：获取成本函数；获取原始动作值函数；根据成本函数对原始动作值函数进行初始化处理，得到训练前动作值函数；获取奖励函数；根据奖励函数对训练前动作值函数进行训练，得到目标动作值函数；根据目标动作值函数得到轨迹规划数据。本申请提供的基于强化学习的轨迹规划方法，提高了路径规划结果的准确性。

Description

基于强化学习的轨迹规划方法、装置及存储介质

技术领域

本申请涉及但不限于人工智能领域，尤其是涉及一种基于强化学习的轨迹规划方法、装置及存储介质。

背景技术

在人工智能领域中，自动驾驶车辆的lattice planning算法基于frenet坐标系将三维轨迹问题分解为两个二维轨迹问题，即将“纵向轨迹、横向轨迹、时间”之间的三维问题分解为“纵向ST轨迹，横向SL轨迹”之间的二维问题。在ST图和SL图中，分别对车辆起始和最终状态进行采样，对于每个最终状态进行多项式拟合，再用成本函数对轨迹进行评估，选取成本函数最低的轨迹。

但是，在用成本函数对轨迹进行评估的过程中，多种成本函数之间相互制衡，不同场景下很难找到成本函数之间的平衡点，过度依赖已经标定好的权重不足以覆盖所有场景，从而使得路径规划结果的准确性较低。

发明内容

本申请旨在至少解决现有技术中存在的技术问题之一。为此，本申请提出一种基于强化学习的轨迹规划方法、装置及存储介质，能够提高路径规划结果的准确性。

本申请第一方面实施例提供一种基于强化学习的轨迹规划方法，包括：获取成本函数；获取原始动作值函数；根据所述成本函数对所述原始动作值函数进行初始化处理，得到训练前动作值函数；获取奖励函数；根据所述奖励函数对所述训练前动作值函数进行训练，得到目标动作值函数；根据所述目标动作值函数得到轨迹规划数据。

根据本申请实施例的基于强化学习的轨迹规划方法，至少具有如下技术效果：基于强化学习的轨迹规划方法利用奖励函数对所述训练前动作值函数进行训练，得到目标动作值函数，并利用目标动作值函数来替代现有算法的计算结果，从而得到视线轨迹规划过程，避免了多种成本函数之间相互制衡，避免了对权重设定的过度依赖的问题，增强了轨迹规划数据在多种场景下的适用性，提高了路径规划结果的准确性。

根据本申请的一些实施例，所述获取奖励函数，包括：获取驾驶图像数据；根据所述驾驶图像数据得到所述奖励函数。

根据本申请的一些实施例，所述根据所述驾驶图像数据得到所述奖励函数，包括：根据所述驾驶图像数据得到规范特征信息；根据所述规范特征信息得到状态访问信息；根据状态访问信息构建得到逆强化学习模型；根据所述逆强化学习模型计算得到所述奖励函数。

根据本申请的一些实施例，所述根据所述奖励函数对所述训练前动作值函数进行训练，得到目标动作值函数，包括：获取状态信息、行为信息；根据所述状态信息、所述行为信息、所述奖励函数得到状态转移概率矩阵信息；根据所述转移概率矩阵信息得到所述目标动作值函数。

根据本申请的一些实施例，所述根据所述转移概率矩阵信息得到所述目标动作值函数，包括：根据所述转移概率矩阵信息得到权重信息；根据所述状态信息、所述行为信息、所述权重信息得到所述目标动作值函数。

根据本申请的一些实施例，所述根据所述转移概率矩阵信息得到权重信息，包括：将所述转移概率矩阵信息进行存储处理，得到存储数据；根据所述存储数据进行经验回放处理，得到权重信息。

根据本申请的一些实施例，所述成本函数，至少包括以下任一种：目的地成本函数、横向偏移量成本函数、碰撞成本函数、纵向加速度成本函数、横向加速度成本函数、向心加速度成本函数。

本申请第二方面实施例提供一种基于强化学习的轨迹规划装置，包括：

成本函数获取模块，用于获取成本函数；原始动作值函数获取模块，用于获取原始动作值函数；初始化模块，用于根据所述成本函数对所述原始动作值函数进行初始化处理，得到训练前动作值函数；奖励函数获取模块，用于获取奖励函数；目标动作值函数训练模块，用于根据所述奖励函数对所述训练前动作值函数进行训练，得到目标动作值函数；轨迹规划数据生成模块，用于根据所述目标动作值函数得到轨迹规划数据。

本申请第三方面实施例提供一种基于强化学习的轨迹规划装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现：本申请上述第一方面实施例的基于强化学习的轨迹规划方法。

本申请第四方面实施例提供一种存储介质，该存储介质存储有计算机可执行指令，所述计算机可执行指令用于：执行上述第一方面实施例所述的基于强化学习的轨迹规划方法。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过申请的实践了解到。

附图说明

下面结合附图和实施例对本申请做进一步的说明，其中：

图1是本申请一个实施例提供的基于强化学习的轨迹规划方法的流程图；

图2是图1中的步骤S140的流程图；

图3是图2中的步骤S220的流程图；

图4是图1中的步骤S150的流程图；

图5是图4中的步骤S430的流程图；

图6是图5中的步骤S510的流程图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。

在本申请的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本申请的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本申请中的具体含义。

本申请的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

根据本申请实施例提供的基于强化学习的轨迹规划方法，包括：获取成本函数；获取原始动作值函数；根据成本函数对原始动作值函数进行初始化处理，得到训练前动作值函数；获取奖励函数；根据奖励函数对训练前动作值函数进行训练，得到目标动作值函数；根据目标动作值函数得到轨迹规划数据。

如图1所示，图1是一些实施例提供的基于强化学习的轨迹规划方法的流程图，基于强化学习的轨迹规划方法包括但不限于步骤S110至步骤S160，具体包括：

S110，获取成本函数；

S120，获取原始动作值函数；

S130，根据成本函数对原始动作值函数进行初始化处理，得到训练前动作值函数；

S140，获取奖励函数；

S150，根据奖励函数对训练前动作值函数进行训练，得到目标动作值函数；

S160，根据目标动作值函数得到轨迹规划数据。

本申请提供的基于强化学习的轨迹规划方法，利用奖励函数对训练前动作值函数进行训练，得到目标动作值函数，并利用目标动作值函数来替代现有算法的计算结果，从而得到视线轨迹规划过程，避免了多种成本函数之间相互制衡，避免了对权重设定的过度依赖的问题，增强了轨迹规划数据在多种场景下的适用性，提高了路径规划结果的准确性。

根据本申请的一些实施例，获取奖励函数，包括：获取驾驶图像数据；根据驾驶图像数据得到奖励函数。

图2是一些实施例中的步骤S140的流程图，图2示意的步骤S140包括但不限于步骤S210至步骤S220：

S210，获取驾驶图像数据；

S220，根据驾驶图像数据得到奖励函数。

根据本申请的一些实施例，根据驾驶图像数据得到奖励函数，包括：根据驾驶图像数据得到规范特征信息；根据规范特征信息得到状态访问信息；根据状态访问信息构建得到逆强化学习模型；根据逆强化学习模型计算得到奖励函数。

在具体的实施例中，通过驾驶图像数据得到与驾驶图像数据相适应的奖励函数，进而再根据奖励函数完成对目标动作值函数的训练，从而实现轨迹的规划过程。

图3是一些实施例中的步骤S220的流程图，图3示意的步骤S220包括但不限于步骤S310至步骤S340：

S310，根据驾驶图像数据得到规范特征信息；

S320，根据规范特征信息得到状态访问信息；

S330，根据状态访问信息构建得到逆强化学习模型；

S340，根据逆强化学习模型计算得到奖励函数。

在步骤S210至S220中，驶图像数据包括但不限于从仿真的图像中生成近似真实的图像、真实驾驶图像等。在自动驾驶过程中，常见的用于获取训练数据的方法式是使用生成对抗模型(GAN)从仿真的图像中生成近似真实的图像；或者直接使用真实驾驶图像，利用无监督方法去除其中对驾驶行为预测无关的细节而将其简化成虚拟域中的精练规范特征。

在步骤S310中，规范特征信息为利用无监督方法去除真实驾驶图像中对驾驶行为预测无关的细节，而将其简化成虚拟域中的精练规范特征。在步骤S320中，状态访问信息包括但不限于：各状态访问次数、相对于目前学到的轨迹分布、专家的个状态访问频率等。在步骤S330至S340中，逆强化学习模型包括但不限于对奖励函数结构估计的参数模型。

具体的，DQN训练过程中需要用到奖励函数reward，通常reward使用定值有一定的局限性，本申请采用逆强化学习的方式得到奖励函数。由于真实场景中状态空间过大，状态的奖励函数值无法全部被显示地观测到，所以基于特征相似的状态具有相似奖励值的假设，通过从状态的N维特征表示到实值奖励的映射g:RN→R，建立对奖励函数结构估计的参数模型r＝g(f,θ)，其中f是空间特征，可以通过特征工程人工提取也可以直接用深度神经网络FCNN从原始数据中学习。

奖励函数的获取过程包括以下步骤：

步骤一、训练数据的获取与处理。在自动驾驶中，常见的用于获取训练数据的方法式是使用生成对抗模型(GAN)从仿真的图像中生成近似真实的图像。或者直接使用真实驾驶图像，利用无监督方法去除其中对驾驶行为预测无关的细节而将其简化成虚拟域中的精练规范特征。

步骤二、神经网络(FCNN)架构的选择。自动驾驶这种复杂环境中估计奖励函数的过程需要神经网络强大的特征表示能力以及计算的高效性。语义分割FCNN这种较复杂的网络结构更适合真实场景的应用。在最后的回归层中实现了精细的结构信息与粗糙的高层特征的连接，提升了特征多维度评价的整体性能。同时，通过padding或者去卷积化等技巧，可以实现与输入等尺寸的模型输出。另外，当采用较宽的卷积过滤器时，自编码器类型的预训练也可以被用来减少对专家示范数据的需求。

步骤三、训练过程。解决IRL(Inverse reinforcement learning，逆强化学习)问题的过程可以看作贝叶斯推理(Bayesian inference)中的最大后验概率(MAP)估计，在给定奖励函数架构及模型参数θ的情况下，最大化观测到专家示范数D的联合后验分布L(θ)＝logP(D,θ|r)＝logP(D|r)+logP(θ)，其中logP(D|r)为联合对数似然，logP(θ)为模型的惩罚项。logP(D|r)对于线性奖励函数模型中的参数θ可微，故可以应用梯度下降法求解最值。将梯度分解为损失函数对奖励值的梯度与奖励值对于神经网络权值θ的梯度，构建针对神经网络的最大熵模型。整体梯度为

第一项为：

其中，μ＝μ(s)，为各状态访问次数的统计，E[μ]为其相对于目前学到的轨迹分布P(ζ|r)的期望，μD为专家的各状态访问频率，计算方法为E[μ]＝∑_{ζ:{s,a}∈ζ}P(ζ|r)；

其中，P(ζ|r)为给定在特定起始状态与终止状态间的轨迹的驾驶员行为偏好的概率分布，在最大熵IRL模型定义下，P(ζ|r)∝exp∑_(s,a)∈ζr(s,a)正比于整条轨迹所得到的累计奖励值的以自然数e为底的指数，至此，求解得到奖励函数r。

根据本申请的一些实施例，根据奖励函数对训练前动作值函数进行训练，得到目标动作值函数，包括：获取状态信息、行为信息；根据状态信息、行为信息、奖励函数得到状态转移概率矩阵信息；根据转移概率矩阵信息得到目标动作值函数。

图4是一些实施例中的步骤S150的流程图，图4示意的步骤S150包括但不限于步骤S410至步骤S430：

S410，获取状态信息、行为信息；

S420，根据状态信息、行为信息、奖励函数得到状态转移概率矩阵信息；

S430，根据转移概率矩阵信息得到目标动作值函数。

在步骤S410至S430中，状态信息记为S，行为信息记为a，奖励函数记为r，转移概率矩阵信息记为(S_j,a_j,a_j+1,r_j,S_j+1)。

根据本申请的一些实施例，根据转移概率矩阵信息得到目标动作值函数，包括：根据转移概率矩阵信息得到权重信息；根据状态信息、行为信息、权重信息得到目标动作值函数。

图5是一些实施例中的步骤S430的流程图，图5示意的步骤S430包括但不限于步骤S510至步骤S520：

S510，根据转移概率矩阵信息得到权重信息；

S520，根据状态信息、行为信息、权重信息得到目标动作值函数。

在步骤S510至S520中，权重信息记为ω；目标动作值函数记为Q。

根据本申请的一些实施例，根据转移概率矩阵信息得到权重信息，包括：将转移概率矩阵信息进行存储处理，得到存储数据；根据存储数据进行经验回放处理，得到权重信息。

图6是一些实施例中的步骤S510的流程图，图6示意的步骤S510包括但不限于步骤S610至步骤S620：

S610，将转移概率矩阵信息进行存储处理，得到存储数据；

S620，根据存储数据进行经验回放处理，得到权重信息。

本申请引入经验回放过程，将携带有状态信息的转移概率矩阵信息及时进行存储，以便于后续调用，进而计算出权重信息，用以得到目标动作值函数，最终完成轨迹规划任务，这样的目标动作值函数的获取方式，降低人工调参的成本，增强自动驾驶车辆不同场景的适应能力，同时，由于经验回放采用的帧彼此之间不连续，使得训练结果更加健壮。

下面以一个具体的实施例描述采用DQN(Deep Q Network，深度强化学习)方式训练动作值函数Q的具体过程：

DQN过程使用卷积神经网络来逼近行为值函数，使用了target Q network来更新target，使用了经验回放。在DQN过程中，使用经验回放，使用一个Memory来存储经历过的数据，每次更新参数的时候从Memory中抽取一部分数据来用于更新，避免使用有序数据更新参数所造成的一些问题。

具体算法流程：

(1)初始化存储内存Memory D，容量为N；

(2)引入训练后的动作值函数Q；

(3)DQN过程中Q使用FCN全连接神经网络,targetQ网络权重ω-＝ω；

(4)循环遍历每个回合episode＝1,2……M；

(5)初始化初始状态init state S1；

(6)循环遍历step＝1,2……T；使用ε-gready策略生成action a_t：以ε概率选择一个随机的action，或者选择a_t＝maxQ(S_t,a；ω)；执行action a_t，接收reward rt以及新的state S_t+1；保留a_t+1将状态转移概率矩阵transition样本(S_t,a_t,a_t+1,r_t,S_t+1)存入D中；从D中随机抽取一个小批量minibatch的transitions(S_j,a_j,a_j+1,r_j,S_j+1)；令y_j＝r_j，如果j+1步是terminal(最后一步)则退出，否则：令y_j＝r_j+ymaxa′Q(S_t+1,a′；ω-)；对(y_j-Q(S_t,a_j；ω))²关于ω使用梯度下降法进行更新；每隔C steps更新targetQ网络，ω-＝ω；

其中，S表示输入状态，输入状态包括距离障碍物平均距离、障碍物有效面积、定位信息；a代表轨迹，记录a_t+1是为了保证下一步计算maxQ时，其中的a从候选轨迹中挑选而不是随机生成。

根据本申请的一些实施例，成本函数，至少包括以下任一种：目的地成本函数、横向偏移量成本函数、碰撞成本函数、纵向加速度成本函数、横向加速度成本函数、向心加速度成本函数。

下面逐个介绍每个成本函数的具体计算方法：

(1)目的地成本函数的计算方法

其中，

cost＝ref_s_dots[i]-Evaluate(1,i×trajectory_time_resolution)；公式(6)

其中，lonobjectiveCost为目的成本函数，size为参考速度点的个数；weight_target_speed为目标速度权重，默认为1，全局变量；weight_dist_travelled为距离权重，默认为10，全局变量；Trajectory_time_resolution为全局变量，默认为0.1。

(2)横向偏移量成本函数的具体计算方法：

为了让汽车尽可能沿道路中心线行驶，设置横向偏移成本函数，若汽车偏离道路中心线越远，所对应的cost越高。

横向偏移量计算方法如下：

式中，

lat_offset＝Evaluate(0,s) 公式(11)

lat_offset_start＝Evaluate(0,0) 公式(12)

其中，LatOffsetCost为横向偏移量成本函数，N为s_values中元素的个数；weight_opposite_side_offset为不在同一侧偏移权重，默认为10，全局变量；weight_same_side_offset为在同一侧偏移权重，默认为1，全局变量；lat_offset_bound默认为3，全局变量。

(3)碰撞成本函数的具体计算方法：

与驾驶安全相关，若轨迹与S-T图中障碍物有重叠，则说明碰撞风险较大，则对应的碰撞成本较高。碰撞成本函数的计算方法如下：

式中，

traj_s＝Evaluate(0,t) 公式(18)

t＝i×trajectory_time_resolution 公式(19)

sigma＝lon_collision_cost_std 公式(20)

其中，LonCollisionCost为碰撞成本函数，lon_collision_cost_std为全局变量，默认为0.5；lon_collision_yield_buffer为跟车碰撞缓冲距离，默认为1m，全局变量；lon_collision_overtake_buffer为超车碰撞缓冲距离，默认为5m，全局变量；sl为障碍物st图中t时刻的s下限，su为s上限。

(4)纵向加速度成本函数的具体计算方法：

式中，

jerk＝Evaluate(3,trajectory_time_resolution×i) 公式(25)

其中，LonComfortCost为纵向加速度成本函数。纵向加速度成本函数与驾驶员体感密切相关，若纵向加速度过大，则对应的cost相对较高。

(5)横向加速度成本函数的具体计算方法：

s＝Evaluate(0,t) 公式(28)

使用横向轨迹的Evaluate函数：

t＝i×trajectory_time_resolution) 公式(33)

其中，LonComfortCost为横向加速度成本函数。寻找轨迹上最大的横向加速度，为了防止猛打方向致使轨迹变换，最大的横向加速的轨迹对应的cost应该最高。

(6)向心加速度成本函数的具体计算方法：

式中，

centripetal_acc＝v²×kappa) 公式(38)

Kappa为参考线上对应点ref_point的曲率半径：

ref_point＝MatchToPath(reference_line,s)) 公式(39)

s＝Evaluate(0,t)；) 公式(40)

v＝Evaluate(1,t)) 公式(41)

t＝trajectory_time_resolution×i 公式(42)

其中，CentripetalAccelerationCost为向心加速度成本函数。车辆转弯和调头时要减速慢行，车速越慢向心加速度cost就相对较低，则轨迹就更容易被选中。

本申请实施例提供的基于强化学习的轨迹规划装置，包括：成本函数获取模块，用于获取成本函数；原始动作值函数获取模块，用于获取原始动作值函数；初始化模块，用于根据成本函数对原始动作值函数进行初始化处理，得到训练前动作值函数；奖励函数获取模块，用于获取奖励函数；目标动作值函数训练模块，用于根据奖励函数对训练前动作值函数进行训练，得到目标动作值函数；轨迹规划数据生成模块，用于根据目标动作值函数得到轨迹规划数据。

本申请提供的基于强化学习的轨迹规划装置实现了基于强化学习的轨迹规划方法，利用奖励函数对训练前动作值函数进行训练，得到目标动作值函数，并利用目标动作值函数来替代现有算法的计算结果，从而得到视线轨迹规划过程，避免了多种成本函数之间相互制衡，避免了对权重设定的过度依赖的问题，增强了轨迹规划数据在多种场景下的适用性，提高了路径规划结果的准确性。

本申请实施例提供的基于强化学习的轨迹规划装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现：本申请上述任一实施例的基于强化学习的轨迹规划方法。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、装置可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

上面结合附图对本申请实施例作了详细说明，但是本申请不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本申请宗旨的前提下作出各种变化。此外，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

Claims

1.基于强化学习的轨迹规划方法，其特征在于，包括：

获取成本函数；

获取原始动作值函数；

根据所述成本函数对所述原始动作值函数进行初始化处理，得到训练前动作值函数；

获取奖励函数；

根据所述奖励函数对所述训练前动作值函数进行训练，得到目标动作值函数；

根据所述目标动作值函数得到轨迹规划数据。

2.根据权利要求1所述的基于强化学习的轨迹规划方法，其特征在于，所述获取奖励函数，包括：

获取驾驶图像数据；

根据所述驾驶图像数据得到所述奖励函数。

3.根据权利要求2所述的基于强化学习的轨迹规划方法，其特征在于，所述根据所述驾驶图像数据得到所述奖励函数，包括：

根据所述驾驶图像数据得到规范特征信息；

根据所述规范特征信息得到状态访问信息；

根据状态访问信息构建得到逆强化学习模型；

根据所述逆强化学习模型计算得到所述奖励函数。

4.根据权利要求1所述的基于强化学习的轨迹规划方法，其特征在于，所述根据所述奖励函数对所述训练前动作值函数进行训练，得到目标动作值函数，包括：

获取状态信息、行为信息；

根据所述状态信息、所述行为信息、所述奖励函数得到状态转移概率矩阵信息；

根据所述转移概率矩阵信息得到所述目标动作值函数。

5.根据权利要求4所述的基于强化学习的轨迹规划方法，其特征在于，所述根据所述转移概率矩阵信息得到所述目标动作值函数，包括：

根据所述转移概率矩阵信息得到权重信息；

根据所述状态信息、所述行为信息、所述权重信息得到所述目标动作值函数。

6.根据权利要求5所述的基于强化学习的轨迹规划方法，其特征在于，所述根据所述转移概率矩阵信息得到权重信息，包括：

将所述转移概率矩阵信息进行存储处理，得到存储数据；

根据所述存储数据进行经验回放处理，得到权重信息。

7.根据权利要求1至6中任一项所述的基于强化学习的轨迹规划方法，其特征在于，所述成本函数，至少包括以下任一种：目的地成本函数、横向偏移量成本函数、碰撞成本函数、纵向加速度成本函数、横向加速度成本函数、向心加速度成本函数。

8.基于强化学习的轨迹规划装置，其特征在于，所述基于强化学习的轨迹规划装置包括：

成本函数获取模块，用于获取成本函数；

原始动作值函数获取模块，用于获取原始动作值函数；

初始化模块，用于根据所述成本函数对所述原始动作值函数进行初始化处理，得到训练前动作值函数；

奖励函数获取模块，用于获取奖励函数；

目标动作值函数训练模块，用于根据所述奖励函数对所述训练前动作值函数进行训练，得到目标动作值函数；

轨迹规划数据生成模块，用于根据所述目标动作值函数得到轨迹规划数据。

9.基于强化学习的轨迹规划装置，其特征在于，所述基于强化学习的轨迹规划装置包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现：

如权利要求1至7中任一项所述的基于强化学习的轨迹规划方法。

10.存储介质，其特征在于，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于：

执行权利要求1至7中任一项所述的基于强化学习的轨迹规划方法。