CN110113793A

CN110113793A - 一种基于深度增强学习的后5g前传网时间同步方法及装置

Info

Publication number: CN110113793A
Application number: CN201910270924.6A
Authority: CN
Inventors: 杨辉; 于奥; 张�杰; 詹凯旋
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-08-09
Also published as: CN110896556B; CN110896556A

Abstract

本发明公开了一种基于深度增强学习的后5G前传网时间同步方法和装置。所述方法包括：获取同步业务请求信息以及网络资源状态信息；将所述同步业务请求信息以及所述网络资源状态信息发送给预先训练的深度增强学习路由优化模型，根据所述深度增强学习路由优化模型的学习结果获取最小非对称延迟路由；获取主时钟与从时钟时间，并计算主时钟与从时钟的时间误差；当所述时间误差保持在预设范围内，则基于所述最小非对称延迟路由为所述同步业务请求信息分配网络资源，生成同步服务结果。本发明所述方法与装置，能够最小化传输过程中不对称延迟对同步信号的影响，从而提高同步精度，满足后5G应用需求。

Description

一种基于深度增强学习的后5G前传网时间同步方法及装置

技术领域

本发明涉及通信技术领域，特别是指一种基于深度增强学习的后5G前传网时间同步方法及装置。

背景技术

随着5G技术的逐渐成熟，后5G应用如载波聚合(Carrier Aggregation，CA)、万物互联(Internet-of-Everything，IoE)以及依靠卫星系统遍布全球的无线网络的研究也在不断推进。上述后5G应用的超低延迟需要高精度时间同步来支持。学术界和业界普遍认为后5G前传的时间同步精度要求为±100ns。

在传统的传输网络中，以通常的双向方式发送同步信号。然而，由于上行链路和下行链路的长度不同，当前网络中使用的双向光纤实际上并不对称，而链路不对称是限制同步精度的主要原因。在现有网络中，光缆核心误差、光缆结构拼接误差、光缆故障拼接误差、尾纤误差以及设备类型不同等因素都可能导致光纤中的非对称双向长度现象，即使在同一光纤中传输同步信号，由于色散、折射率、温度以及不稳定的无线连接等因素，也会导致不对称延迟。例如，在50km的光路中，色散造成的非对称延迟可高达1088.25ns，远远低于我们的预期。此外，当前和下一代前传是完全动态和可重新配置的，成本和工程复杂性导致非对称延迟很难直接测量。因此，最小化不对称延迟的影响是实现超高精度时间同步的关键。

专利号为US20180069801A1的方案《Time synchronization apparatus andmethod for automatically detecting the asymmetry of an optical fiber》提出本地设备在初始化时间开始时清除转发延迟阈值和反向延迟阈值；当确定当前业务流片段对应的实时转发延迟值与所述当前业务流片段对应的反向延迟阈值之间的最大值大于所述转发延迟阈值的当前值时，将当前值具有最大值的前向延迟阈值。这样，在初始化结束之后，确定初始化结束后的延迟阈值并将其应用于延迟补偿，由此显着地减少了双向不对称的延迟变化。该方案的缺点是：当传输是通过第三方网络进行时，因为在这些网络节点上由传输时延引起的链路不对称变化很容易达到很大的值，一个普通的从时钟设备无法处理这种情况，直接阻塞了现有网络中的时钟服务。

专利号为US9762318B2的方案《Time synchronization apparatus and methodfor automatically detecting the asymmetry of an optical fiber》提供一种使用OTDR技术的具有自动光纤不对称检测的时钟同步装置和方法。在线测量发射脉冲和接收后向散射光之间的滞后时间，以确定光纤延迟。另外，两个方向上的光纤延迟可以相互比较。根据双向光纤延迟可以获得双向光纤传输中的不对称延迟。然后可以相应地执行不对称延迟补偿。这种时钟同步校正减少了双向光纤不对称的影响。该方案的缺点为：在网络中需要逐点执行测量并且根据测量结果补偿不对称性，这几乎不能用于大型节点网络。在使用光开关切换时，与现有设备几乎没有任何兼容性，会导致服务质量下降。适用性有限，无法满足后5G应用需求。

其他现有技术中，诸如网络时间协议(Network Time Protocol，NTP)和IEEE 1588精确时钟同步协议(IEEE 1588Precision Clock Synchronization Protocol，PTP)的传统方案也远远无法满足时间同步的纳秒级别精度。

发明内容

有鉴于此，本发明实施例的目的在于提出一种基于深度增强学习的后5G前传网时间同步方法及装置，能够最小化传输过程中不对称延迟对同步信号的影响，从而提高同步精度，满足后5G应用需求。

基于上述目的本发明实施例提供的一种基于深度增强学习的后5G前传网时间同步方法，包括：

获取同步业务请求信息以及网络资源状态信息；

将所述同步业务请求信息以及所述网络资源状态信息发送给预先训练的深度增强学习路由优化模型，根据所述深度增强学习路由优化模型的学习结果获取最小非对称延迟路由；

获取主时钟与从时钟时间，并计算主时钟与从时钟的时间误差；

当所述时间误差保持在预设范围内，则基于所述最小非对称延迟路由为所述同步业务请求信息分配网络资源，生成同步服务结果。

可选的，所述深度增强学习路由优化模型的训练过程包括：

初始化所述深度增强学习路由优化模型；

对于每一次训练，从初始状态开始，根据最大Q值的原则迭代选择路由，直到获得最小非对称延迟路由。

可选的，所述初始化所述深度增强学习路由优化模型包括：

输入初始数据；

根据所述初始数据构建链路时延矩阵，其中，所述链路时延矩阵中的第(i，j)个元素D_i，j指定源节点i和目的节点j单跳间的路由时延。

可选的，所述初始数据为包含三个特征平面的二维矩阵，其中：

第一个特征面包括当前链接的状态信息，所述当前链接的状态信息包括双向连接、单向链接；

第二个特征面包括链路的特征，所述特征包括长度、折射率、环境温度、材料色散和波导色散；

第三个特征面包括链路类型，所述链路类型包括光路链路、无线链路。

可选的，每一次训练的具体过程包括：

获取当前环境状态s_t-1，观察当前环境状态s_t-1并基于路由时延可获得最大奖励的原则选择动作a_t；

根据选定的动作a_t计算动作a_t的奖励r_t＝1/|D_up-D_down，其中D_up是上行链路时延，D_down是下行链路时延；

获得下一环境状态s_t，并重新选择动作，直到获得路由时延可获得最大奖励原则下的最小非对称延迟路由。

可选的，基于所述同步业务请求信息运行IEEE1588精确时钟同步协议为即将生成的同步业务服务制定时间戳并发送到目的节点。

可选的，还包括：将同步业务请求信息发送给主时钟，获得主时钟时间。

可选的，还包括：根据最小非对称链路延迟以及同步服务结果更新路由时延信息。

本发明实施例还提供一种基于深度增强学习的后5G前传网时间同步装置，包括：

获取模块，用于获取同步业务请求信息以及网络资源状态信息；

学习模块，用于将所述同步业务请求信息以及所述网络资源状态信息发送给预先训练的深度增强学习路由优化模型，使所述深度增强学习路由优化模型获取最小非对称延迟路由；

计算模块，用于获取主时钟与从时钟时间，并计算主时钟与从时钟的时间误差；

分配模块，用于当所述时间误差保持在预设范围内，则基于所述最小非对称延迟路由为所述同步业务请求信息分配网络资源，生成同步服务结果。

本发明实施例还提供一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任意一项所述的基于深度增强学习的后5G前传网时间同步方法。

从上面所述可以看出，本发明实施例提供的基于深度增强学习的后5G前传网时间同步方法及装置，将卷积神经网络和Q Learning结合在一起，创建了一种通过深度增强学习算法自我学习进行训练的深度增强学习路由优化模型，通过Deep-TSR中的DQN进行自我学习训练，能够成功地学习找到具有最小不对称延迟的链路，从而最小化传输过程中不对称延迟即获得最佳同步方案，实现后5G所要求的时间同步精度。

附图说明

图1为本发明实施例所述一种基于深度增强学习的后5G前传网时间同步方法的流程图；

图2为本发明实施例所述一种基于深度增强学习的后5G前传网时间同步方法的主要过程示意图；

图3为本发明实施例所述一种基于深度增强学习的后5G前传网时间同步方法的主要原则示意图；

图4为本发明实施例实验测试台的测试示意图；

图5为本发明实施例不对称延迟比较示意图；

图6为本发明实施例所述一种基于深度增强学习的后5G前传网时间同步装置的结构示意图；

图7为本发明实施例电子设备结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

在机器学习中，环境通常被表述为马尔可夫决策过程(MDP)，因为许多用于该环境的强化学习算法利用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的精确数学模型的知识，并且他们针对大规模MDP，其中精确方法变得不可行。强化学习不同于标准的监督式学习，不需要标准的输入/输出对，并且不需要明确校正次优操作，只需将关注点放在结果上。

图1为本发明实施例所述一种基于深度增强学习的后5G前传网时间同步方法的流程图；图2为本发明实施例所述一种基于深度增强学习的后5G前传网时间同步方法的主要过程示意图；图3为本发明实施例所述一种基于深度增强学习的后5G前传网时间同步方法的主要原则示意图。

基于此，本发明实施例的一个方面提出一种基于深度增强学习的后5G前传网时间同步方法，参照图1、2、3所示，所述方法包括：

步骤101，获取同步业务请求信息以及网络资源状态信息。

首先，控制器需要获取各个设备的同步业务请求信息以及网络资源状态信息，其中网络资源状态信息包括频谱资源信息、带宽信息等。

步骤102，控制器通过交换节点将所述同步业务请求信息以及所述网络资源状态信息发送给预先训练的深度增强学习路由优化模型，根据所述深度增强学习路由优化模型的学习结果获取最小非对称延迟路由。

步骤103，获取主时钟与从时钟时间，并计算主时钟与从时钟的时间误差。

步骤104，当所述时间误差保持在预设范围内，则基于所述最小非对称延迟路由为所述同步业务请求信息分配网络资源，生成同步服务结果。

本发明所述基于深度增强学习的后5G前传网时间同步方法，提出了一种基于增强学习的后5G前传网高精度时间同步方法(Deep Reinforcement Learning based TimeSynchronization Routing Optimization,Deep-TSR)，将卷积神经网络(ConvolutionalNeural Networks,CNN)和Q Learning结合在一起，创建了一种通过深度增强学习算法自我学习进行训练的深度增强学习路由优化模型，通过Deep-TSR中的DQN(Deep Q Network)进行自我学习训练，能够成功地学习找到具有最小不对称延迟的链路，从而最小化传输过程中不对称延迟即获得最佳同步方案，实现后5G所要求的时间同步精度。

在本发明的一些实施例中，所述深度增强学习路由优化模型的训练过程包括：

步骤201，初始化所述深度增强学习路由优化模型。

步骤202，对于每一次训练，从初始状态开始，根据最大Q值的原则迭代选择路由，直到获得最小非对称延迟路由。

在本实施例中，使用DQN路由搜索策略，可以用于未来的部署。在搜索算法中，网络中的每个节点都包含所有可能操作的链接。每个链接存储一组统计数据，包括访问次数N(s，a)，总行动值W(s，a)，平均行为值Q(s，a)和链接搜索概率P(S，A)。该算法的核心是一个值迭代更新，使用旧值和新信息的加权平均值：

其中，公式左侧Q(s_t,a_t)的表示现在的值，右侧的Q(s_t,a_t)表示上一个状态的值。

每次仿真都从初始状态开始，根据最大Q值迭代选择路由，每次选择会根据之前的奖惩因子有选择性的选择路由进行尝试，直到遇到链路不对称性最小的链路。这个最优的链路被网络扩展和评估一次，以产生先验概率并评估。

在本发明的另一些实施例中，步骤201中所述初始化所述深度增强学习路由优化模型包括：

步骤301，输入初始数据。

DQN的初始输入即所述初始数据为包含三个特征平面的二维矩阵，其中，第一个特征面包括当前链接的状态信息，所述当前链接的状态信息包括双向连接、单向链接；第二个特征面包括链路的特征，所述特征包括长度、折射率、环境温度、材料色散和波导色散；第三个特征面包括链路类型，所述链路类型包括光路链路、无线链路。由输入的三个特征平面构成了深度增强学习的网络拓扑环境，该网络拓扑环境包含节点设备、链路以及其所处状态等信息。

步骤302，根据所述初始数据构建链路时延矩阵(delay matrix，DM)，链路时延矩阵是n×n矩阵，链路时延矩阵中的第(i，j)个元素D_i，j指定源节点i和目的节点j单跳间的路由时延，若为多跳则元素D_i，j为正无穷。观察计算链路时延矩阵DM和路由策略(routingstrategy,RS)在网络中的时延(即选择哪条链路)，路由策略即为根据链路时延矩阵DM在源节点的邻接节点进行路由规划。

作为本发明的一些实施例，步骤202中每一次训练的具体过程包括：

步骤401，获取当前环境状态s_t-1，观察当前环境状态s_t-1并基于路由时延可获得最大奖励的原则选择动作a_t。

将时间分成离散的时隙t＝1,2,3....，在每个时隙t的开始，智能体(agent)反复与环境交互，agent观察环境的当前状态s_t-1并从固定的一组动作中选择动作a_t，即选择下一跳路由。agent在选择动作时，具有较高的概率选择奖励值高的动作，同时也有一定概率选择其他动作。在一个具体实施例中，agent有90％的概率选择高奖励值的动作，有10％的概率选择其他动作，以便于在进行动作选择时尽可能获得最大奖励。

步骤402，根据选定的动作a_t计算动作a_t的奖励r_t＝1/|D_up-D_down，其中D_up是上行链路时延，D_down是下行链路时延。agent收到的奖励r_t可以表示他采取的行动的好/坏。

步骤403，获得下一环境状态s_t，并重新选择动作，直到获得路由时延可获得最大奖励原则下的最小非对称延迟路由。一旦agent选择动作a_t，环境状态变为s_t。

在每个时间周期的开始，agent基于最近k个时间周期中的路由策略和DM来决定该时期的路由策略R^(t)，并且接收到奖励r_t＝1/|D_up-D_down|。

从当前状态步进到未来的步长的权重计算为折扣系数γ，折扣系数γ是介于0和1之间的数字，即0<γ<1，并且γ具有评估早期收到的奖励高于后来收到的奖励的效果(即反映“良好开端”的价值)，为了平衡即时与未来奖励，将折扣系数γ近似设置于γ＝0.9。

为了根据最大Q值的原则找到最小不对称时延的链路，将路由时延可获得的最大奖励添加到实现其当前状态的奖励来实现，其中路由时延可获得的最大奖励即包括潜在的未来建立以及选择动作中已经获得的奖励。通过潜在的未来奖励有效地影响当前路由选择。该潜在奖励是从当前状态开始的所有未来步骤的奖励的预期值的加权和。将未来奖励按如下方式计算：R_t＝r_t+γr_t+1+γ²r_t+2+…+γ^n-tr_n。

可选的，所述深度增强学习路由优化模型的训练过程中同时使用经验回放技术。具体包括：在每个时间步骤中将agent的经验e_t＝(s_t，a_t，r_t，s_t+1)存储在数据集D_t＝{e₁，...，e_t}中，并将D_t存放到记忆库U(D)中。在算法的内循环期间，从存储样本池中随机抽取经验样本(s，a，r，s’)～U(D)，打乱经验间的相关性，深度强化学习更新或小批量更新应用这些经验，使得神经网络更新更有效率。

在上述实施例中，通过对深度增强学习路由优化模型进行训练，不断调整模型中Deep-Q网络的参数，以便于最大限度地减少多集内动作值的估计误差。

可选的，步骤102中同时还包括，基于所述同步业务请求信息运行IEEE1588精确时钟同步协议为即将生成的同步业务服务制定时间戳并发送到目的节点。其中，即将生成的同步业务服务即为对应于基于所述同步业务请求信息即将生成的同步业务服务。

可选的，步骤102之后还包括：控制器将同步业务请求信息发送给主时钟，获得主时钟时间。

可选的，所述获取主时钟与从时钟时间，并计算主时钟与从时钟的时间误差包括：通过运行IEEE1588精确时钟同步协议获得主时钟与从时钟的时间误差。

可选的，所述当所述时间误差保持在预设范围内即：主时钟与从时钟的时间误差稳定在一定范围内，此时可以为同步业务请求信息对应的同步业务服务分配带宽等资源信息。

可选的，步骤104之后还包括：根据最小非对称链路延迟以及同步服务结果更新路由时延信息。

本发明实施例所述基于深度增强学习的后5G前传网时间同步方法，为了降低非对称链路引起的时延，通过深度增强学习算法自我学习训练，在端到端之间的网络环境中迭代选择路由，计算非对称时延，取得非对称时延反馈后选择最佳路由,并在基于云的光载无线网络(C-RoFN)测试平台上,验证了该方法的有效性。与传统降低非对称链路引起的时延方法相比,本发明实施例所述基于深度增强学习的后5G前传网时间同步方法具有以下优点：(1)精度高，通过不断地自学习，Deep-TSR算法获得网络合理特征并寻找到最小不对称时延路由，实现较低的延迟比；(2)Deep-TSR算法减少非对称延迟来优化同步信号路由；(3)较强的自适应性，DQN的引入，迭代选择路由，在未知的网络拓扑状态中依旧可以很好的寻找最小不对称时延链路，在大型网络中依旧有着优秀的性能，具有更大的自由度和灵活度，减少人为设计造成的干扰，对于不同网络拓扑具有较强自适应性。

在本发明的另一些方面，还提出一个具体的实施例在基于云的光载无线网络(C-RoFN)测试平台上,验证了本发明实施例所述基于深度增强学习的后5G前传网时间同步方法的有效性。其中，C-RoFN测试平台是一款多核服务器，具有12个物理2.90GHz CPU内核，2个NVIDIA GTX1080Ti GPU内核和80GBRAM。服务器运行Ubuntu 16.04，使用python 2.7/3.5通过TensorFlow 1.2.1在CUDA 8.0(cuDNN 6.0)中代码。

在数据平面中，使用两种无线电强度调制器和检测模块，这些模块由工作在40GHz频率的微波源驱动。如图2-4所示，中央单元(CU)通过光纤网络上的无线电使能。在无线电层，分布式RRH相互连接并汇聚成EON。在控制层中，中央控制器从光学和无线电链路收集操作和维护数据，然后在部署路由之前分析数据。

如图5所示，可以看出，通过自学习，算法变得越来越强大，在仅仅几次学习之后，它就学会了寻找具有最小链接不对称性的链接。另外，Deep-TSR算法可以有效减少链路不对称引起的时延，表明Deep-TSR能够从C-RoFN状态获得合理的特征，并学习到正确的路由策略。经过900,000次的学习，可以遵循相同的通用延迟算法。在14万次学习之后，使用Deep-TSR算法可以实现较低的延迟比。经过1500万次的学习后，延迟基本稳定。

本发明实施例的另一些方面还提出一种基于深度增强学习的后5G前传网时间同步装置，如图6所示，包括：

获取模块11，用于获取同步业务请求信息以及网络资源状态信息。

学习模块12，用于将所述同步业务请求信息以及所述网络资源状态信息发送给预先训练的深度增强学习路由优化模型，使所述深度增强学习路由优化模型获取最小非对称延迟路由。

计算模块13，用于获取主时钟与从时钟时间，并计算主时钟与从时钟的时间误差。

分配模块14，用于当所述时间误差保持在预设范围内，则基于所述最小非对称延迟路由为所述同步业务请求信息分配网络资源，生成同步服务结果。

可选的，所述深度增强学习路由优化模型的训练过程包括：

初始化所述深度增强学习路由优化模型；

可选的，所述初始化所述深度增强学习路由优化模型包括：

输入初始数据；

可选的，每一次训练的具体过程包括：

上述实施例的装置用于实现前述实施例中相应的基于深度增强学习的后5G前传网时间同步方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

本发明实施例的第三个方面，提出了一种执行所述基于深度增强学习的后5G前传网时间同步方法的装置的一个实施例。如图7所示，为本发明提供的执行所述基于深度增强学习的后5G前传网时间同步方法的装置的一个实施例的硬件结构示意图。

如图7所示，所述装置包括：

一个或多个处理器901以及存储器902，图7中以一个处理器901为例。

所述执行所述基于深度增强学习的后5G前传网时间同步方法的装置还可以包括：输入装置903和输出装置904。

处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器902作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的所述基于深度增强学习的后5G前传网时间同步方法对应的程序指令/模块(例如，附图4所示的获取模块11、学习模块12、计算模块13和分配模块14)。处理器901通过运行存储在存储器1002中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的基于深度增强学习的后5G前传网时间同步方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据基于深度增强学习的后5G前传网时间同步装置的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至会员用户行为监控装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置903可接收输入的数字或字符信息，以及产生与基于深度增强学习的后5G前传网时间同步装置的用户设置以及功能控制有关的键信号输入。输出装置904可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器902中，当被所述一个或者多个处理器901执行时，执行上述任意方法实施例中的基于深度增强学习的后5G前传网时间同步方法。所述执行所述基于深度增强学习的后5G前传网时间同步方法的装置的实施例，其技术效果与前述任意方法实施例相同或者类似。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度增强学习的后5G前传网时间同步方法，其特征在于，包括：

获取同步业务请求信息以及网络资源状态信息；

2.根据权利要求1所述的方法，其特征在于，所述深度增强学习路由优化模型的训练过程包括：

初始化所述深度增强学习路由优化模型；

3.根据权利要求2所述的方法，其特征在于，所述初始化所述深度增强学习路由优化模型包括：

输入初始数据；

4.根据权利要求3所述的方法，其特征在于，所述初始数据为包含三个特征平面的二维矩阵，其中：

5.根据权利要求2所述的方法，其特征在于，每一次训练的具体过程包括：

6.根据权利要求1所述的方法，其特征在于，基于所述同步业务请求信息运行IEEE1588精确时钟同步协议为即将生成的同步业务服务制定时间戳并发送到目的节点。

7.根据权利要求1所述的方法，其特征在于，还包括：将同步业务请求信息发送给主时钟，获得主时钟时间。

8.根据权利要求1所述的方法，其特征在于，还包括：根据最小非对称链路延迟以及同步服务结果更新路由时延信息。

9.一种基于深度增强学习的后5G前传网时间同步装置，其特征在于，包括：

10.一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-8任意一项所述的基于深度增强学习的后5G前传网时间同步方法。