CN111010294B - 一种基于深度强化学习的电力通信网路由方法 - Google Patents

一种基于深度强化学习的电力通信网路由方法 Download PDF

Info

Publication number
CN111010294B
CN111010294B CN201911192806.4A CN201911192806A CN111010294B CN 111010294 B CN111010294 B CN 111010294B CN 201911192806 A CN201911192806 A CN 201911192806A CN 111010294 B CN111010294 B CN 111010294B
Authority
CN
China
Prior art keywords
network
service
module
routing
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911192806.4A
Other languages
English (en)
Other versions
CN111010294A (zh
Inventor
袁晖
赵博
白万荣
宋曦
赵金雄
李志茹
高丽娜
龚波
王晶
杨凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
STATE GRID GASU ELECTRIC POWER RESEARCH INSTITUTE
State Grid Corp of China SGCC
State Grid Gansu Electric Power Co Ltd
Original Assignee
STATE GRID GASU ELECTRIC POWER RESEARCH INSTITUTE
State Grid Corp of China SGCC
State Grid Gansu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by STATE GRID GASU ELECTRIC POWER RESEARCH INSTITUTE, State Grid Corp of China SGCC, State Grid Gansu Electric Power Co Ltd filed Critical STATE GRID GASU ELECTRIC POWER RESEARCH INSTITUTE
Priority to CN201911192806.4A priority Critical patent/CN111010294B/zh
Publication of CN111010294A publication Critical patent/CN111010294A/zh
Application granted granted Critical
Publication of CN111010294B publication Critical patent/CN111010294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • H04L45/08Learning-based routing, e.g. using neural networks or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/302Route determination based on requested QoS
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于深度强化学习的电力通信网路由方法。该方法是针对基于SDN架构的电力通信网路由选择策略;分析了基于SDN的电力通信网体系结构;并设计基于深度强化学习DDPG(Deep Deterministic Policy Gradient)的路由方法,以业务带宽、时延和丢包率要求为奖励值,反复训练深度强化学习模块,实现路由策略优化。

Description

一种基于深度强化学习的电力通信网路由方法
技术领域
本发明属于电力通信领域,尤其涉及一种基于深度强化学习的电力通信网路由方法。
背景技术
近年来,智能电网和SDN(软件定义网络,Software-Defined Networks)技术不断发展;智能电网依赖于电力通信网进行高效的信息传输和交互,而SDN技术数据平面和控制平面解耦的特性可以简化网络配置与管理,进行灵活的流量控制;SDN控制器拥有全局网络视图,可根据业务需求合理分配传输资源,因此,构建基于SDN的电力通信网是未来的发展趋势;而传统静态路由算法收敛速度慢等弊端不适用于基于SDN架构的电力通信网,需要采用新技术来改善路由方法。
基于SDN架构的电力通信网通过控制器集中管控全局网络,由于网络规模庞大,需要多控制器共同协作管理网络;业务传输请求提交后,控制器根据业务服务质量(Qualityof Service,QoS)需求指标选择高效合理的传输路径,并通过流表下发给数据传输层网络设备。
现有的研究中,利用深度强化学习优化流量调度控制策略的较多,但针对基于SDN架构的电力通信网业务路由方法的研究较少;有的研究利用深度强化学习直接从经验控制多媒体流量;有的研究利用深度强化学习在拥堵网络中选择路由器,减少网络拥塞和数据传输路径的长度,实现更高的网络吞吐量;还有的研究出利用多智能体强化学习解决节点数据缓冲队列的拥堵情况。然而以上的研究均没有考虑电力通信业务传输带宽、时延和可靠性需求的特殊性,不能满足基于SDN架构的电力通信网业务传输需求。
发明内容
(一)要解决的技术问题
为了满足基于SDN架构的电力通信网业务传输QoS要求,本发明公开了一种基于深度强化学习DDPG的电力通信网路由方法。
(二)技术方案
为解决上述技术问题,本发明公开了一种基于深度强化学习DDPG的电力通信网路由方法,包括如下步骤:
步骤A,基于SDN架构的电力通信网路由策略,确定路由策略部署位置,将网络体系结构分为控制器集群模块、业务模块、数据转发模块和调度控制中心,控制器集群负责全局网络的管理,根据业务需求下发流表于数据转发层,在每个控制器中添加基于深度强化学习的路由选择模块,每个控制器相当于一个智能体;
步骤B,建立基于深度强化学习DDPG的路由策略算法框架,包括深度强化学习智能体与网络环境两大模块,并设计各个模块交互内容及其规则;
步骤C,设计深度强化学习算法训练策略,以时延、带宽利用率和业务丢包率为参数构造奖励函数,智能体与网络环境进行动作执行和奖励反馈等内容交互,直到最大训练次数,得到最优传输路径;
其中,步骤A具体包括:
A1,分析电网业务及其带宽、时延和可靠性需求;
A2,构建基于SDN的电力通信网络体系结构,将其分为控制器集群模块、业务模块、数据转发模块和调度控制中心,采用多控制器互相协调工作,通过下发流表给数据转发层提供转发策略。
其中,步骤B具体包括:
B1,抽象路由算法框架环境模块为电力通信业务类型、传输网拓扑结构和调度中心的组合;
B2,设计深度强化学习智能体训练模块,DDPG算法采用Actor-Critic架构,Actor网络根据Critic网络Q值反馈进行动作策略更新,Critic网络根据智能体采取的动作计算Q值评估动作策略优劣,并设置经验回放存储器,存储Actor网络与环境交互后的状态转换过程(st,at,rt,st+1),训练网络随机采样进行训练;
B3,智能体对网络环境采取路由选择动作时,加入随机噪声,降低状态转换过程之间的相关性,使智能体进行探索性交互;
其中,步骤C具体包括:
C1,在Actor模块策略网络中,采用off-policy训练方法,策略梯度采用
Figure BDA0002293998310000031
最优策略函数为μ=argmaxJ(μ),其中N表示随即采样状态转换过程数量,s表示环境状态,即业务及其需求和传输网状态,θ表示神经网络参数,μ表示动作策略函数,a表示路由动作;
C2,在Critic模块Q网络中,采用DQN方法对actor模块采取的行为进行评估,采用卷积神经网络网络模拟Q函数Qμ(st,at)=E[r(st,at)+γQμ(st+1,μ(st+1))],损失函数定义为
Figure BDA0002293998310000032
其中,yi是基于下一状态si+1和下一个动作ai+1的目标网络Q值,yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′),γ表示衰减因子,r表示奖励函数;
C3,智能体每次采取路由动作后获得奖励与业务的QoS相关,将其表示为
Figure BDA0002293998310000041
其中,BWR表示业务带宽利用率,Delay表示业务时延,PLR表示业务丢包率,λ为其它影响因素,a、b、c为权重参数,不同业务具有不同的参数值,r越大,表明路由策略效果越好;
C4,执行训练。初始化训练参数和网络状态,智能体根据奖励值不断调整路由动作,更新Actor网络和Critic网络目标函数,最后获得最优传输路径。
(三)有益效果
本发明通过分析电力通信业务的带宽、时延和可靠性需求,在基于SDN架构的智能电网通信网中采用基于深度强化学习DDPG路由方法,以电力通信业务QoS指标为奖励函数,训练路由算法神经网络,选择最优传输路径,实现路由策略的优化,改善电力通信网网络性能,减少业务延迟,提高带宽利用率。
附图说明
图1本发明实施例的方法流程图;
图2本发明实施例的方法基于SDN的电力通信网架构构建流程;
图3本发明实施例的方法中基于DDPG的路由方法框架构建流程图;
图4本发明实施例的方法中路由算法详细设计流程图;
图5本发明中基于SDN的电力通信网体系结构图;
图6本发明中基于深度强化学习DDPG的路由算法框架图。
具体实施方式
为了满足基于SDN架构的电力通信网业务传输QoS要求,本发明公开了一种基于深度强化学习DDPG的电力通信网路由方法。发明人考虑到,DDPG(深度确定性策略梯度,DeepDeterministic Policy Gradient)相较于传统深度强化学习拥有更快的收敛速度,可与全局网络环境进行交互训练。因此,本发明采用基于SDN架构的电力通信网络,模拟电力通信业务实际QoS需求,数据转发层使用OpenFlow交换机,在SDN控制器中添加基于深度强化学习DDPG的路由算法模块,通过训练路由算法,为业务选择最佳传输路径。
如图1所示,本发明提出了一种基于深度强化学习DDPG的电力通信网路由方法,包括如下步骤:
步骤A,基于SDN架构的电力通信网路由策略,确定路由策略部署位置,将网络体系结构分为控制器集群模块、业务模块、数据转发模块和调度控制中心,控制器集群负责全局网络的管理,根据业务需求下发流表于数据转发层,在每个控制器中添加基于深度强化学习的路由选择模块,每个控制器相当于一个智能体;
步骤B,建立基于深度强化学习DDPG的路由策略算法框架,包括深度强化学习智能体与网络环境两大模块,并设计各个模块交互内容及其规则;
步骤C,设计深度强化学习算法训练策略,以时延、带宽利用率和业务丢包率为参数构造奖励函数,智能体与网络环境进行动作执行和奖励反馈等内容交互,直到最大训练次数,得到最优传输路径;
下面结合附图和具体实施方式,对本发明做进一步说明。
如图2所示,基于SDN的电力通信网体系结构研究的具体步骤如下:
A1,分析电网业务及其带宽、时延和可靠性需求;
A2,设计基于SDN的电力通信网络体系结构,将其分为控制器集群模块、业务模块、数据转发模块和调度控制中心,采用多控制器互相协调工作,通过下发流表给数据转发层提供转发策略;采用Ryu控制器,数据转发层采用OpenFlow交换机,具体架构如图3所示;SDN控制器感知业务和网络状态,通过路由算法为传输业务选择转发路径,将数据传输到电力调度控制中心,控制中心将业务的实际QoS反馈于控制器路由模块,进行传输更新。
基于深度强化学习的路由策略框架构建流程如图4所示,具体步骤如下:
B1,抽象路由算法框架环境模块为电力通信业务类型、传输网拓扑结构和调度中心的组合,环境状态包括业务带宽、时延和丢包率要求,传输网链路和节点资源使用及剩余状态,st表示当前环境状态,st+1表示采取路由动作后下一环境状态;
B2,设计深度强化学习智能体训练模块,DDPG算法采用Actor-Critic架构,Actor和Critic网络中都包含优化器、在线策略网络和目标策略网络三个模块,通过SGA/SGD算法更新在线网络参数,软更新算法更新目标策略网络参数;Actor网络根据Critic网络Q值反馈进行动作策略更新,Critic网络根据智能体采取的动作计算Q值评估动作策略优劣;并设置经验回放存储器,存储Actor网络与环境交互后的状态转换过程(st,at,rt,st+1),训练网络随机采样进行训练;
B3,智能体根据动作策略μ(st)对网络环境采取传输路径选择动作at时,加入随机噪声,降低状态转换过程之间的相关性,使智能体与环境进行探索性交互,避免出现局部最优解情况,具体架构见图5;
根据环境奖励反馈,选择最优传输路径,如图6所示,具体步骤如下:
C1,在Actor模块策略网络中,采用off-policy训练方法,策略梯度采用
Figure BDA0002293998310000071
最优策略函数为求解μ=argmaxJ(μ);
C2,在Critic模块Q网络中,采用DQN方法对actor模块采取的行为进行评估,采用卷积神经网络网络模拟Q函数Qμ(st,at)=E[r(st,at)+γQμ(st+1,μ(st+1))],损失函数定义为
Figure BDA0002293998310000072
其中,yi是基于下一状态si+1和下一个动作ai+1的目标网络Q值,yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′);
C3,智能体每次采取路由动作后获得奖励与业务的QoS相关,将其表示为
Figure BDA0002293998310000073
r越大,动作策略越优良,链路带宽利用率越高,业务传输时延越小,丢包率越低,表明路由策略效果越好;
C4,执行训练。初始化训练参数和网络状态,智能体为业务随机选择一条传输路径,然后根据奖励值不断调整路由动作,将状态转换过程存储到回放存储器当中,以供训练网路随机选取训练数据;更新Actor网络,最小化Q网络函数Loss,更新Critic网络,最大化目标函数J(μ),最后获得最优传输路径。
本发明通过分析电力通信业务的带宽、时延和可靠性需求,在基于SDN架构的智能电网通信网中采用基于深度强化学习DDPG路由方法,以电力通信业务QoS指标为奖励函数,训练路由算法神经网络,选择最优传输路径,实现路由策略的优化,改善电力通信网网络性能,减少业务延迟,提高带宽利用率。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (1)

1.一种基于深度强化学习的电力通信网路由方法,其特征在于,包括如下步骤:
步骤A,基于SDN架构的电力通信网路由策略,确定路由策略部署位置,将网络体系结构分为控制器集群模块、业务模块、数据转发模块和调度控制中心,控制器集群负责全局网络的管理,根据业务需求下发流表于数据转发层,在每个控制器中添加基于深度强化学习的路由选择模块,每个控制器相当于一个智能体;
步骤B,建立基于深度强化学习DDPG的路由策略算法框架,包括深度强化学习智能体与网络环境两大模块,并设计各个模块交互内容及其规则;
步骤C,设计深度强化学习算法训练策略,以时延、带宽利用率和业务丢包率为参数构造奖励函数,智能体与网络环境进行动作执行和奖励反馈内容交互,直到最大训练次数,得到最优传输路径;
其中,步骤A具体包括:
A1,分析电网业务及其带宽、时延和可靠性需求;
A2,构建基于SDN的电力通信网络体系结构,将其分为控制器集群模块、业务模块、数据转发模块和调度控制中心,采用多控制器互相协调工作,通过下发流表给数据转发层提供转发策略;
其中,步骤B具体包括:
B1,抽象路由算法框架环境模块为电力通信业务类型、传输网拓扑结构和调度中心的组合;
B2,设计深度强化学习智能体训练模块,DDPG算法采用Actor-Critic架构,Actor网络根据Critic网络Q值反馈进行动作策略更新,Critic网络根据智能体采取的动作计算Q值评估动作策略优劣,并设置经验回放存储器,存储Actor网络与环境交互后的状态转换过程(st,at,rt,st+1),训练网络随机采样进行训练;
B3,智能体对网络环境采取路由选择动作时,加入随机噪声,降低状态转换过程之间的相关性,使智能体进行探索性交互;
其中,步骤C具体包括:
C1,在Actor模块策略网络中,采用off-policy训练方法,策略梯度表示为
Figure FDA0003636816630000021
最优策略函数为μ=arg max J(μ);
其中N表示随即采样状态转换过程数量,s表示环境状态,即业务及其需求和传输网状态,θ表示神经网络参数,μ表示动作策略函数,a表示路由动作,即传输路径的选择;
C2,在Critic模块Q网络中,采用DQN方法对actor模块采取的行为进行评估,采用卷积神经网络模拟Q函数Qμ(st,at)=Ε[r(st,at)+γQμ(st+1,μ(st+1))],损失函数定义为
Figure FDA0003636816630000022
其中,yi是基于下一状态si+1和下一个动作ai+1的目标网络Q值,yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′),γ表示衰减因子,r表示奖励函数;
C3,智能体每次采取路由动作后获得奖励与业务的QoS相关,将其表示为
Figure FDA0003636816630000023
其中,BWR表示业务带宽利用率,Delay表示业务时延,PLR表示业务丢包率,λ为其它影响因素,a、b、c为权重参数,不同业务具有不同的参数值,r越大,表明路由策略效果越好;
C4,执行训练,初始化训练参数和网络状态,智能体根据奖励回馈不断调整路由动作,更新Actor网络和Critic网络目标函数,最后获得最优传输路径。
CN201911192806.4A 2019-11-28 2019-11-28 一种基于深度强化学习的电力通信网路由方法 Active CN111010294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911192806.4A CN111010294B (zh) 2019-11-28 2019-11-28 一种基于深度强化学习的电力通信网路由方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911192806.4A CN111010294B (zh) 2019-11-28 2019-11-28 一种基于深度强化学习的电力通信网路由方法

Publications (2)

Publication Number Publication Date
CN111010294A CN111010294A (zh) 2020-04-14
CN111010294B true CN111010294B (zh) 2022-07-12

Family

ID=70112271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911192806.4A Active CN111010294B (zh) 2019-11-28 2019-11-28 一种基于深度强化学习的电力通信网路由方法

Country Status (1)

Country Link
CN (1) CN111010294B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738098B (zh) * 2020-05-29 2022-06-17 浪潮(北京)电子信息产业有限公司 一种车辆识别方法、装置、设备及存储介质
CN111917642B (zh) * 2020-07-14 2021-04-27 电子科技大学 分布式深度强化学习的sdn网络智慧路由数据传输方法
CN111953603A (zh) * 2020-08-20 2020-11-17 福建师范大学 基于深度强化学习软件定义物联网安全路由协议的方法
CN112232490B (zh) * 2020-10-26 2023-06-20 大连大学 一种基于视觉的深度模仿强化学习驾驶策略训练方法
CN112491714B (zh) * 2020-11-13 2022-04-08 安徽大学 SDN环境下基于深度强化学习的智能QoS路由优化方法、系统
CN112651486A (zh) * 2020-12-09 2021-04-13 中国人民解放军陆军工程大学 一种提高maddpg算法收敛速度的方法及其应用
CN112822109B (zh) * 2020-12-31 2023-04-07 上海缔安科技股份有限公司 一种基于强化学习的SDN核心网QoS路由优化方法
CN112991384B (zh) * 2021-01-27 2023-04-18 西安电子科技大学 基于ddpg的发射资源智能认知管理方法
US11606265B2 (en) 2021-01-29 2023-03-14 World Wide Technology Holding Co., LLC Network control in artificial intelligence-defined networking
CN112953844B (zh) * 2021-03-02 2023-04-28 中国农业银行股份有限公司 一种网络流量优化方法及装置
CN113518039B (zh) * 2021-03-03 2023-03-24 山东大学 Sdn架构下基于深度强化学习的资源优化方法及系统
CN113328938B (zh) * 2021-05-25 2022-02-08 电子科技大学 一种基于深度强化学习的网络自主智能管控方法
CN113347104A (zh) * 2021-05-31 2021-09-03 国网山东省电力公司青岛供电公司 基于sdn的配电物联网路由选择方法及系统
CN113259246B (zh) * 2021-06-28 2021-09-24 东禾软件(江苏)有限责任公司 一种不确定网络环境下ryu控制器流表自动生成方法
CN113489654B (zh) * 2021-07-06 2024-01-05 国网信息通信产业集团有限公司 一种路由选择方法、装置、电子设备及存储介质
CN113572697B (zh) * 2021-07-20 2023-09-22 电子科技大学 一种基于图卷积神经网络与深度强化学习的负载均衡方法
CN113938415B (zh) * 2021-09-09 2022-08-02 华中科技大学 一种基于链路状态估计的网络路由转发方法及系统
CN114285751B (zh) * 2021-12-07 2023-01-20 中国科学院计算技术研究所 一种流量工程方法及系统
CN114222207B (zh) * 2021-12-10 2023-07-14 广东电网有限责任公司广州供电局 一种基于深度强化学习的电力通信网络规划方法及系统
CN114189470B (zh) * 2022-02-14 2022-04-19 军事科学院系统工程研究院网络信息研究所 一种基于模仿学习的智能路由决策保护方法和装置
CN114202066B (zh) * 2022-02-21 2022-04-26 北京邮电大学 一种网络控制方法、装置、电子设备及存储介质
CN114650212A (zh) * 2022-03-31 2022-06-21 国网智能电网研究院有限公司 一种基于虚拟电厂的业务路径调度方法、装置及存储介质
CN114760205B (zh) * 2022-04-26 2023-03-28 浙江大学 一种分布式网络的自校准优化方法
CN114938530B (zh) * 2022-06-10 2023-03-21 电子科技大学 基于深度强化学习的无线自组网智能组网方法
CN115499365A (zh) * 2022-07-29 2022-12-20 国网河南省电力公司信息通信公司 路由优化方法、装置、设备及介质
CN115086187B (zh) * 2022-08-01 2023-09-05 广东电网有限责任公司 基于强化学习的电力通信通道规划方法、装置及存储介质
CN115037667B (zh) * 2022-08-10 2022-11-08 北京邮电大学 一种细粒度网络态势感知与源路由智能优化方法与装置
CN116170370B (zh) * 2023-02-20 2024-03-12 重庆邮电大学 一种基于注意力机制和深度强化学习的sdn多路径路由方法
CN116389365B (zh) * 2023-06-02 2023-07-25 深圳市科服信息技术有限公司 一种交换机数据处理方法及系统
CN116963225B (zh) * 2023-09-21 2023-11-24 军事科学院系统工程研究院系统总体研究所 一种面向流媒体传输的无线mesh网络路由方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108900419A (zh) * 2018-08-17 2018-11-27 北京邮电大学 Sdn架构下基于深度强化学习的路由决策方法及装置
CN109150756A (zh) * 2018-10-25 2019-01-04 重庆邮电大学 一种基于sdn电力通信网的队列调度权值量化方法
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11775850B2 (en) * 2016-01-27 2023-10-03 Microsoft Technology Licensing, Llc Artificial intelligence engine having various algorithms to build different concepts contained within a same AI model

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108900419A (zh) * 2018-08-17 2018-11-27 北京邮电大学 Sdn架构下基于深度强化学习的路由决策方法及装置
CN109150756A (zh) * 2018-10-25 2019-01-04 重庆邮电大学 一种基于sdn电力通信网的队列调度权值量化方法
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于值函数和策略梯度的深度强化学习综述;刘建伟等;《计算机学报》;20181022(第06期);全文 *
强化学习研究综述;马骋乾等;《指挥控制与仿真》;20181215(第06期);全文 *
改进DDPG算法在自动驾驶中的应用;张斌等;《计算机工程与应用》;20181221(第10期);全文 *

Also Published As

Publication number Publication date
CN111010294A (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
CN111010294B (zh) 一种基于深度强化学习的电力通信网路由方法
CN113328938B (zh) 一种基于深度强化学习的网络自主智能管控方法
CN112491714B (zh) SDN环境下基于深度强化学习的智能QoS路由优化方法、系统
CN112486690B (zh) 一种适用于工业物联网的边缘计算资源分配方法
CN113254197A (zh) 一种基于深度强化学习的网络资源调度方法及系统
CN111211987B (zh) 网络中流量动态调整方法、系统、电子设备及存储介质
CN113163451A (zh) 一种基于深度强化学习的d2d通信网络切片分配方法
CN114116047B (zh) 一种基于强化学习的车载计算密集型应用的v2i卸载方法
Hu et al. EARS: Intelligence-driven experiential network architecture for automatic routing in software-defined networking
CN105553845A (zh) 一种软件定义网络路由选择方法
CN114884895B (zh) 一种基于深度强化学习的智能流量调度方法
CN114050961B (zh) 一种大规模网络仿真系统及资源动态调度分配方法
Zhou et al. Learning from peers: Deep transfer reinforcement learning for joint radio and cache resource allocation in 5G RAN slicing
CN109474960B (zh) 一种基于q学习的双连接流量分配方法
CN111010295A (zh) 一种基于sdn-mec的配用电通信网任务迁移方法
CN115314355A (zh) 基于确定性网络的电力通信网络架构系统及方法
CN110535770B (zh) 一种SDN环境下基于QoS感知的视频流智能路由方法
CN115665258A (zh) 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法
Lotfi et al. Evolutionary deep reinforcement learning for dynamic slice management in O-RAN
Meng et al. Intelligent routing orchestration for ultra-low latency transport networks
CN116828548A (zh) 一种针对电力无线网络的基于强化学习的最佳路由调度方法
CN116980298A (zh) 一种基于边图注意力的确定性端到端切片流量编排策略
CN116389347A (zh) 一种基于强化学习的动态sdn路由优化算法
Jin et al. Joint qos control and bitrate selection for video streaming based on multi-agent reinforcement learning
CN102158413A (zh) 基于邻域免疫克隆选择的多智能体组播路由方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant