CN112085249B

CN112085249B - 一种基于强化学习的定制公交线路规划方法

Info

Publication number: CN112085249B
Application number: CN202010727169.2A
Authority: CN
Inventors: 王安格; 关宏志; 王鹏飞; 李婉莹; 朱俊泽; 覃正桃
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2022-11-04
Anticipated expiration: 2040-07-27
Also published as: CN112085249A

Abstract

本发明涉及交通工程领域，具体为一种基于强化学习的定制公交线路规划方法，包括以下步骤：采集与处理出行需求数据；设置定制公交站点；确定站点间路径；转化为分阶段线路规划问题；采用强化学习算法优化运行线路。本发明为定制公交线路规划提供了一种优化方法，有利于降低定制公交的出行成本，提升定制公交的竞争力。

Description

一种基于强化学习的定制公交线路规划方法

技术领域

本发明涉及交通工程领域，具体为一种基于强化学习的定制公交线路规划方法。

背景技术

近几年，随着经济的发展，居民的出行需求呈现多样化的趋势，传统公交单一的服务模式与居民出行需求多样化的矛盾日益凸显，发展多样化公共交通迫在眉睫。为了迎合城市多元化、多层次、高效率、高服务水平的乘客出行需求，特别是提高对私人汽车换乘的吸引力，转变现有交通方式结构，增加公共交通出行比重，一种按需出行，基于发达的定位系统和短时计算能力，响应迅速、调度灵活、舒适性高的面向随机用户的实时响应的定制公交运用而生，与常规公交相比，定制公交具有更好的灵活性，其能够根据实时的居民出行请求，最大程度地提高车辆上座率，减少资源浪费，提高居民出行效率。

如何根据乘客的出行时间窗规划合理的定制公交运行线路以减低社会总出行成本(公交运营成本和乘客出行成本之和)就显得至关重要。

发明内容

发明所要解决的技术问题

针对此问题，Yan等在《CB-Planner:A bus line planning framework forcustomized bus systems》中提出了一种适用于多种出行数据源的定制公交线路规划框架，并设计了一种启发式的解决方案框架。Huang等在《A two-phase optimization modelfor the demand-responsive customized bus network design》中提出了一种包括以交互方式动态插入乘客请求和基于总体需求的静态优化服务网络的两阶段线网优化模型。王健等在《考虑出行时间窗的定制公交线路车辆调度方法》中建立了定制公交车辆调度优化模型，将多辆定制公交车的调度问题转换为多旅行商问题。上述国内外代表研究都取得了丰富的成果，但大多采用的是启发式算法进行求解，存在收敛于局部最优解、求解速度较慢等问题。

Q-Learning算法作为强化学习的经典代表，因其对环境模型的低要求及优秀的自更新能力受到广泛关注。鉴于此，本发明考虑上下车站点时间窗的限制，以最小化社会总出行成本为目标，运用Q-Learning算法进行求解，以得到最优的运营线路，为定制公交的线路规划提供思路。

解决问题所采用的手段

为解决上述技术问题所采用的技术方案是：一种基于强化学习的定制公交线路规划方法，包括以下步骤：

(1)采集与处理出行需求数据，包括通过线上平台获取乘客出行信息、解析乘客位置信息；

(2)设置定制公交站点，包括通过K-Means聚类分析法将出行时间、地点相近的出行需求归类并据此设置定制公交站点；

(3)确定站点间路径，包括计算站点间的不同的路径阻抗确定站点间阻抗最小的路径；

(4)转化为分阶段线路规划问题，包括对上下车区域线路分阶段规划；

(5)采用强化学习算法优化运行线路，包括状态设计、动作设计、奖惩函数设计、Q值表更新规则设计。

在本发明的至少一个实施例中，所述的采集与处理出行需求数据步骤中：

1).出行数据的采集。通过网上注册信息、手机等移动端的定制信息获得乘客期望的出行时间、到达时间、起讫点。

2).出行数据的处理。收集到通勤者的起讫点无法直接利用，需要将具体地址解析为经纬度坐标，再转换为平面坐标，进而计算出行点之间的距离。

在本发明的至少一个实施例中，所述的设置定制公交站点步骤中：

采用K-means聚类分析法将出行时间相近、距离较近的多个乘客的上车地点进行合并处理，然后设置合乘站点，确定其服务范围内预约定制公交的出行者，而不响应位置不在服务范围内的乘车请求。对聚类后的站点需要结合道路情况和已设置的公交站点的情况进行调整。K-means聚类分析法对小范围内的动态乘车请求进行聚类分析的步骤为：

Step1：收集到乘客出行需求信息，确定乘客位置坐标；

Step2：建立预约请求数据集O；

Step3：分析动态请求位置分布，从中选取H个初始聚类中心Z_h(1,2,3...h)；

Step4：以Z_h为参照点，计算其它动态请求O_w与点Z_h的距离，对应请求数据划分到最近的聚类中心所在的类，即：

dis(O_w,Z_h)＝mindis(O_w,Z_h)

如果O_w,Z_k满足上述条件，则说明O_w属于第h聚类；

Step5：更新得到所有聚类区域C_h中的样本点，把所有聚类区域中样本点的均值作为新的聚类中心Z_h；

Step6：按照平方误差准则计算平方误差E。

Step7：对平方误差E进行迭代计算，当误差平方和局部最小则结束运算，否则继续重复Step4,5,6。

用K-Means聚类分析法对动态乘车请求进行分析后，假定第h个聚类中心中第w个请求的坐标为(x_rhw,y_rhw)，合成站点的坐标为(x_chw,y_chw)，设定乘客的最大可接受步行距离为d_max＝300m，根据下式判断车辆是否响应乘车请求：

根据合乘站点的服务范围则可确定每个聚类中心接受订制服务的乘客数。

在本发明的至少一个实施例中，所述的确定站点间路径步骤中：

站点间往往存在多条可选路径，确定站点间的走行路径是构建公交运行路网的基础。由于站点间路径具有独立性且包含多条路段，本发明采用基于历史数据计算路段行程时间，进而确定阻抗最小路径的方法以确定站点间的路径。

式中：F_ij表示站点i与站点j之间路径f的阻抗；G表示路段集合；

为路径-路段关联变量，如果路段a属于ij间路径f，则值为1，否则值为0；l_a表示路段a的长度；v_a表示定制公交的自由流速度；q_a表示路段a的实际交通量，通过历史数据获得；c_a表示路段a的通行能力；

为参数，

取0.15，

取0.4。

在本发明的至少一个实施例中，所述的转化为分阶段线路规划问题步骤中：

在单区域对单区域的服务模式中，上车站点集中在上车区域，下车站点集中在下车区域。定制公交在线路两端区域(上车区域、下车区域)按需设站，中途快速通过，同时考虑上下车站点的时间窗限制，对上车区域和下车区域的运行线路分阶段进行求解。在求解上车区域线路时，定义集合N＝{1,2,3…n}表示上车区域内实际站点，设置虚拟站点0作为线路起点站，其与各个实际站点的距离相同且为接近0的正数，将下车区域视为一个虚拟站点作为线路的终点站n+1，其与各个实际站点的距离为实际距离；上车区域到达终点站的时间即为下车区域起点站的发车时间；在求解下车区域线路时，定义M＝{1,2,3…m}表示下车区域内实际站点，将上车区域视为一个虚拟站点作为线路起点站0，其与各个实际站点的距离为实际距离，设置虚拟站点m+1作为线路终点站，其与各个实际站点的距离相同且为接近0的正数，从而将整条线路规划问题转化为分区域分阶段的线路规划问题。

在本发明的至少一个实施例中，所述采用强化学习算法优化运行线路步骤中，所述的强化学习算法基于Q-Learning算法，包括：

具体的算法设计为：

1)状态设计

将智能体表示为定制公交车辆，状态表示为公交站点(包括实际站点和虚拟站点)。

2)动作设计

动作表示为“前往不同站点”，智能体获取当前状态下的动作组合的最大Q值，根据当前状态的最大Q值获取当前动作并执行，然后转移到下一个状态(即站点之间的转移)。引入决策变量：

在上车区域线路求解时，一次训练结束需要满足：a.公交智能体会遍历所有实际站点；b.公交智能体不会返回虚拟站点0；c.虚拟站点0为起点站；d.虚拟站点n+1为终点站。

同理，下车区域线路一次训练结束的条件为：

3)奖惩函数设计

a.运营成本奖惩函数

定制公交企业的运营成本包括固定成本和车辆运行成本，车辆运行成本和运行线路长度具有正相关性，直接采用车辆运行的油耗费用表示其运营成本。

式中：

表示当前站点i与站点j之间的运营成本；l_ij表示站点i与站点j的距离；p表示单位油耗费用，根据实际价格取值。

b.乘客时间成本奖惩函数

假设乘客均在出行时间窗内准时到达站点，乘客的时间成本即为定制公交晚到站点(超出时间窗到达)导致乘客等待的时间成本。

式中：

表示站点j的乘客的时间成本；k为站点j的乘客数量；

表示定制公交到达站点i的实际时间；

为定制公交到达站点j的实际时间，即到达站点j的时间与站点ij路径阻抗之和；

为站点j时间窗的最晚时间；u_p为乘客的时间价值；ψ为接近0的正数，取为0.0001，避免分母为0。

c.综合奖惩函数

上式的优化目标具有同向性，将多目标优化转化为单目标优化，则最终的奖惩函数为：

式中：R表示奖惩函数。

4)Q值表更新策略

首先定义记忆矩阵M(t)←[s_t,a_t]来依次记录智能体所经历过的所有状态s_t与相应动作a_t。设记忆矩阵为h行2列的矩阵，其中h表示从初始时刻到当前时刻所经历的状态数量。以记忆矩阵中的[s_t,a_t]为索引找到前一个“状态-动作”所对应的Q值并更新。然后令t减1，并判断t-1是否为0，如果为0，说明状态s_t前续所经历过的所有“状态-动作”的Q值已更新完毕；如果不为0，则寻找其下一个“状态-动作”的Q值进行更新，直至所有Q值更新完毕，更新公式如式(16)所示，其中k＝t-1,t-2,...,2,1。

同样的字母不能表示不同的含义

1.式中，Q(s_k,a_k)表示状态s_k采取动作a_k后更新的Q值；s_k表示k时刻的状态；a_k表示状态s_k采取的动作；R_k表示状态s_k采取动作a_k获得的即时奖励；0<γ≤1为折扣系数,γ在(0,1]范围内以0.1为单位取值试验，选用算法收敛条件下γ的最大值；Q(s_k+1,a)表示状态s_k+1采取动作a可获得的最大Q值。

发明效果

通过以上描述可知，本发明研究了考虑上下车区域乘客时间窗限制的定制公交线路规划问题，在单区域外设置虚拟站点，将其转化为分阶段求解的线路规划问题，并采用Q-Learning算法进行求解。根据公交企业的运营成本和乘客的时间成本设置了奖惩函数，将“回溯”思想应用在Q-Learning算法中以提高Q值表更新效率，从而改善数据传递滞后性问题，优化后的定制公交线路能够有效地降低出行成本，从而为定制公交线路规划以及定价提供新的思路。

附图说明

图1为本发明的基本流程图；

图2为本发明的算法设计流程图；

图3a单区域对单区域模式场景图；

图3b上车区域优化场景图；

图3c下车区域优化场景图。

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识，用以较佳的实施例及附图配合详细的说明，说明如下：

本实施例的一种基于强化学习的定制公交线路规划方法，基本流程图如图1所示，请参阅图1，步骤包括：

(1)获取并处理出行信息数据。首先通过线上问卷、平台APP等形式获得乘客出行信息数据。主要的调查内容有：a.出行起讫点，包括居住地、办公地等；b.定制服务时间。定制公交为出行地点和出行时间相近的乘客提供订制服务。c.目前出行方式。通过了解通勤者当前的出行方式，优先筛选出私家车、出行距离远、出租车通勤者等，作为主要服务对象。d.姓名及联系方式。通过实名制精细化服务，方便回溯乘客信息以及发布线路信息和管理。通勤者出行信息数据采集结束后，需要先剔除无效冗余数据，再对剩余的数据进行处理，为合乘站点及线路规划提供数据支撑。收集到通勤者的起讫点无法直接利用，需要将具体地址解析为经纬度坐标，再转换为平面坐标，进而计算出行点之间的距离。

(2)进行合乘站点规划。合乘站点设置的目的是：在一个相近区域内有多个乘车请求，考虑到系统的时间成本最低，将位置相近的点通过在可接受的步行距离内引导到合乘站点上，定制公交只需在合乘站点停车即可。本发明采用K-means聚类分析法将出行时间相近、距离较近的多个乘客的上车地点进行合并处理，然后设置合乘站点，确定其服务范围内预约定制公交的出行者，而不响应位置不在服务范围内的乘车请求。对聚类后的站点需要结合道路情况和已设置的公交站点的情况进行调整。

(3)确定站点间路径。站点间往往存在多条可选路径，确定站点间的走行路径是构建公交运行路网的基础。由于站点间路径具有独立性且包含多条路段，本发明采用基于历史数据计算路段行程时间，进而确定阻抗最小路径的方法以构建公交线网。

(4)转化为分阶段线路规划问题。在单区域对单区域的服务模式中，上车站点集中在上车区域，下车站点集中在下车区域。定制公交在线路两端区域(上车区域、下车区域)按需设站，中途快速通过，同时考虑上下车站点的时间窗限制，对上车区域和下车区域的运行线路分阶段进行求解。在求解上车区域线路时，定义N＝{1,2,3…n}表示上车区域内实际站点，设置虚拟站点0作为线路起点站，其与各个实际站点的距离相同且为接近0的正数，将下车区域视为一个虚拟站点作为线路的终点站n+1，其与各个实际站点的距离为实际距离；上车区域到达终点站的时间即为下车区域起点站的发车时间；在求解下车区域线路时，定义M＝{1,2,3…m}表示下车区域内实际站点，将上车区域视为一个虚拟站点作为线路起点站0，其与各个实际站点的距离为实际距离，设置虚拟站点m+1作为线路终点站，其与各个实际站点的距离相同且为接近0的正数，从而将整条线路规划问题转化为分区域分阶段的线路规划问题。

(5)采用强化学习算法优化运行线路。分别对算法中的状态、动作、奖惩函数以及Q值更新规则进行设计。将智能体表示为定制公交车辆，状态表示为公交站点(包括实际站点和虚拟站点)；动作表示为“前往不同站点”，智能体获取当前状态下的动作组合的最大Q值，根据当前状态的最大Q值获取当前动作并执行，然后转移到下一个状态(即站点之间的转移)；奖惩函数在智能体训练过程中起着引导作用，目的是对智能体采取的动作做出评价，训练的目的是最大化最终的累计奖励值，在此奖励值设为成本的相反数，即成本越高，奖励值越小。本发明设计的奖惩函数综合考虑定制公交企业的运营成本和乘客的出行时间成本，以得到总出行成本最优的线路。

图2为本发明的算法设计流程，请参阅图2。Q-Learning算法的步骤为：

Step1：初始化Q值表并将episode(训练次数)设置为1。Q值表为二维矩阵，其中每一行对应一个状态，状态即为站点集合；每一列则对应一种动作，动作为前往不同的站点，初始时将Q值表的值设为0；

Step2：初始化状态并将step(探索步数)设置为1。从环境中获取智能体当前所处的状态，即起始站点；

Step3：更新即时奖励：根据下式计算当前状态下各个动作的奖惩值；

式中：R表示奖惩函数；

表示站点j的乘客的时间成本；k为站点j的乘客数量；

表示定制公交到达站点i的实际时间；

为站点j时间窗的最晚时间；u_p为乘客的时间价值；ψ为接近0的正数，取为0.0001，避免分母为0；

Step4：根据探索规则选择动作：根据贪婪策略选取动作，即获取当前状态下动作组合的最大Q值，根据当前状态的最大Q值获取当前动作并执行；

Step5：转移状态：智能体选择动作后，转移至下一状态；

Step6：更新记忆矩阵及Q值：根据下述的Q值表更新策略更新记忆矩阵以及Q值；

同样的字母不能表示不同的含义

式中，Q(s_k,a_k)表示状态s_k采取动作a_k后更新的Q值；s_k表示k时刻的状态；a_k表示状态s_k采取的动作；R_k表示状态s_k采取动作a_k获得的即时奖励；0<γ≤1为折扣系数；Q(s_k+1,a)表示状态s_k+1采取动作a可获得的最大Q值。

Step7：根据训练条件判断是否完成了一次训练，若是则训练次数加1，继续判断Q值表是否收敛，若是则训练结束，若否则则判断是否达到最大的训练次数，若是则训练结束，若否则初始化状态继续训练；若没有完成一次训练，则探索步数加1，判断是否达到最大探索步数，若是则初始化状态继续训练，若否则则在当前状态继续选取动作。

图3为本发明的场景图，请参阅图3。

上车站点集中在上车区域，下车站点集中在下车区域。在单区域对单区域的服务模式中，定制公交在线路两端区域(上车区域、下车区域)按需设站，中途快速通过。

本发明同时考虑上下车站点的时间窗限制，对上车区域和下车区域的运行线路分阶段进行求解。在求解上车区域线路时，定义N＝{1,2,3…n}表示上车区域内实际站点，设置虚拟站点0作为线路起点站，其与各个实际站点的距离相同且为接近0的正数，将下车区域视为一个虚拟站点作为线路的终点站n+1，其与各个实际站点的距离为实际距离；上车区域到达终点站的时间即为下车区域起点站的发车时间；在求解下车区域线路时，定义M＝{1,2,3…m}表示下车区域内实际站点，将上车区域视为一个虚拟站点作为线路起点站0，其与各个实际站点的距离为实际距离，设置虚拟站点m+1作为线路终点站，其与各个实际站点的距离相同且为接近0的正数，从而将整条线路规划问题转化为分区域分阶段的线路规划问题。

式中涉及的参数在上文均已有说明。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于强化学习的定制公交线路规划方法，其特征在于，包括：

(4)转化为分阶段线路规划问题，包括对上下车区域线路分阶段规划；所述转化为分阶段线路规划问题步骤中：

在单区域对单区域的服务模式中，上车站点集中在上车区域，下车站点集中在下车区域；定制公交在线路两端区域即上车区域、下车区域按需设站，中途快速通过，同时考虑上下车站点的时间窗限制，对上车区域和下车区域的运行线路分阶段进行求解；在求解上车区域线路时，定义集合N＝{1,2,3…n}表示上车区域内实际站点，设置虚拟站点0作为线路起点站，其与各个实际站点的距离相同且为接近0的正数，将下车区域视为一个虚拟站点作为线路的终点站n+1，其与各个实际站点的距离为实际距离；上车区域到达终点站的时间即为下车区域起点站的发车时间；在求解下车区域线路时，定义M＝{1,2,3…m}表示下车区域内实际站点，将上车区域视为一个虚拟站点作为线路起点站0，其与各个实际站点的距离为实际距离，设置虚拟站点m+1作为线路终点站，其与各个实际站点的距离相同且为接近0的正数，从而将整条线路规划问题转化为分区域分阶段的线路规划问题；

(5)采用强化学习算法优化运行线路，包括状态设计、动作设计、奖惩函数设计、Q值表更新规则设计；所述采用强化学习算法优化运行线路步骤中，所述的强化学习算法基于Q-Learning算法，包括：

1)状态设计

将智能体表示为定制公交车辆，状态表示为公交站点，包括实际站点和虚拟站点；

2)动作设计

动作表示为前往不同站点，智能体获取当前状态下的动作组合的最大Q值，根据当前状态的最大Q

值获取当前动作并执行，然后转移到下一个状态即站点之间的转移；引入决策变量：

在上车区域线路求解时，一次训练结束需要满足：a.公交智能体会遍历所有实际站点；b.公交智能体不会返回虚拟站点0；c.虚拟站点0为起点站；d.虚拟站点n+1为终点站；

同理，下车区域线路一次训练结束的条件为：

3)奖惩函数设计

a.运营成本奖惩函数

定制公交企业的运营成本包括固定成本和车辆运行成本，车辆运行成本和运行线路长度具有正相关性，直接采用车辆运行的油耗费用表示其运营成本；

式中：

表示当前站点i与站点j之间的运营成本；l_ij表示站点i与站点j的距离；p表示单位油耗费用，根据实际价格取值；

b.乘客时间成本奖惩函数

假设乘客均在出行时间窗内准时到达站点，乘客的时间成本即为定制公交晚到站点即超出时间窗到达导致乘客等待的时间成本；

式中：

表示站点j的乘客的时间成本；v为站点j的乘客数量；

表示定制公交到达站点i的实际时间；

c.综合奖惩函数

式中：R表示奖惩函数；

4)Q值表更新策略首先定义记忆矩阵M(t)←[s_t,e_t]来依次记录智能体所经历过的所有状态s_t与相应动作e_t；设记忆矩阵为x行2列的矩阵，其中x表示从初始时刻到当前时刻所经历的状态数量；以记忆矩阵中的[s_t,e_t]为索引找到前一个“状态-动作”所对应的Q值并更新；然后令t减1，并判断t-1是否为0，如果为0，说明状态s_t前续所经历过的所有“状态-动作”的Q值已更新完毕；如果不为0，则寻找其下一个“状态-动作”的Q值进行更新，直至所有Q值更新完毕，更新公式如下所示，其中k＝t-1,t-2,...,2,1；

式中，s_k表示第k步的状态；e_k表示在状态s_k采取的动作；Q(s_k,e_k)表示智能体在状态s_k时采取动作e_k后更新的Q值；R_k表示状态s_k采取动作e_k获得的即时奖励；0<γ≤1为折扣系数；Q(s_k+1,e)表示在状态s_k+1采取动作e可获得的最大Q值。

2.根据权利要求1所述的一种基于强化学习的定制公交线路规划方法，其特征在于，所述采集与处理出行需求数据步骤中：

1)出行数据的采集；获得期望的出行时间、到达时间、起讫点；

2)出行数据的处理；收集到通勤者的起讫点无法直接利用，需要将具体地址解析为经纬度坐标，再转换为平面坐标，进而计算出行点之间的距离。

3.根据权利要求1所述的一种基于强化学习的定制公交线路规划方法，其特征在于，所述设置定制公交站点步骤：

采用K-means聚类分析法将出行时间相近、距离较近的多个乘客的上车地点进行合并处理，然后设置合乘站点，确定其服务范围内预约定制公交的出行者，而不响应位置不在服务范围内的乘车请求；对聚类后的站点需要结合道路情况和已设置的公交站点的情况进行调整；K-Means聚类分析法对小范围内的动态乘车请求进行聚类分析的步骤为：

Step1：收集到乘客出行需求信息，确定乘客位置坐标；

Step2：建立预约请求数据集O；

dis(O_w,Z_h)＝min dis(O_w,Z_h)

如果O_w,Z_h满足上述条件，则说明O_w属于第h聚类；

Step6：按照平方误差准则计算平方误差E；

Step7：对平方误差E进行迭代计算，当误差平方和局部最小则结束运算，否则继续重复Step4,5,6；

4.根据权利要求1所述的一种基于强化学习的定制公交线路规划方法，其特征在于，所述确定站点间路径步骤中：

站点间存在多条可选路径，确定站点间的走行路径是构建公交运行路网的基础；由于站点间路径具有独立性且包含多条路段，采用基于历史数据计算路段行程时间，进而确定阻抗最小路径的方法以确定站点间路径；

为参数，

取0.15，

取0.4。

5.根据权利要求1所述的一种基于强化学习的定制公交线路规划方法，其特征在于，γ在(0,1]范围内以0.1为单位取值试验，选用算法收敛条件下γ的最大值。

6.根据权利要求1所述的一种基于强化学习的定制公交线路规划方法，其特征在于，所述的Q-Learning算法的步骤为：

Step1：初始化Q值表；Q值表为二维矩阵，其中每一行对应一个状态，状态即为站点集合；每一列则对应一种动作，动作为前往不同的站点，初始时将Q值表的值设为0；

Step2：初始化状态；从环境中获取智能体当前所处的状态，即起始站点；

Step3：更新即时奖励：根据所述奖惩函数计算当前状态下各个动作的奖惩值；

Step5：转移状态：智能体选择动作后，转移至下一状态；

Step6：更新记忆矩阵及Q值：根据所述Q值表更新策略更新记忆矩阵以及Q值；

Step7：根据训练条件判断是否完成了一次训练，若是则训练次数加1，继续判断Q值表是否收敛，若是则训练结束，否则则判断是否达到最大的训练次数，若是则训练结束，若否则初始化状态继续训练；若没有完成一次训练，则探索步数加1，判断是否达到最大探索步数，若是则初始化状态继续训练，否则则在当前状态继续选取动作。