CN113114581A - 基于多智能体深度强化学习的tcp拥塞控制方法及装置 - Google Patents
基于多智能体深度强化学习的tcp拥塞控制方法及装置 Download PDFInfo
- Publication number
- CN113114581A CN113114581A CN202110526957.XA CN202110526957A CN113114581A CN 113114581 A CN113114581 A CN 113114581A CN 202110526957 A CN202110526957 A CN 202110526957A CN 113114581 A CN113114581 A CN 113114581A
- Authority
- CN
- China
- Prior art keywords
- congestion control
- neural network
- local
- reward
- sender
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000002787 reinforcement Effects 0.000 title claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 70
- 238000011217 control strategy Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 claims abstract description 9
- 238000005516 engineering process Methods 0.000 claims abstract description 8
- 238000004088 simulation Methods 0.000 claims abstract description 6
- 230000009471 action Effects 0.000 claims description 36
- 230000008859 change Effects 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 20
- 230000009916 joint effect Effects 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 claims description 12
- 238000012544 monitoring process Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 9
- 230000005540 biological transmission Effects 0.000 abstract description 4
- 239000003795 chemical substances by application Substances 0.000 description 21
- 238000010586 diagram Methods 0.000 description 7
- 230000001934 delay Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于多智能体深度强化学习的TCP拥塞控制方法及装置。所述方法包括:在传输控制协议TCP中,通过设置连续的统计区间,将多流竞争瓶颈链路的拥塞控制问题建模为马尔可夫博弈过程,并利用深度强化学习,用神经网络表示表示TCP的拥塞控制策略,在一个模拟环境中训练出最优的拥塞控制策略,从根本上解决传统启发式拥塞控制算法在动态多变的网络环境中的适应性问题及公平性问题。本发明方法使用在线变点检测技术划分统计区间,采用Actor‑Critic深度强化学习框架,对多个智能体并行联合训练,直接对TCP拥塞控制进行建模和学习,从而生成一个最优的拥塞控制策略。
Description
技术领域
本发明涉及网络通信协议,具体涉及一种基于多智能体深度强化学习的TCP拥塞控制方法及装置。
背景技术
拥塞控制是传输控制协议(Transmission Control Protocol,TCP)在发送方调节传输速率以有效利用网络带宽并缓解网络拥塞的的基本机制,TCP协议的优化重点在于拥塞控制的设计。设计一个优秀的拥塞控制算法的难点在于:首先,在复杂的网络环境中存在噪音干扰,需要有效地检测网络拥塞,例如,丢包的原因有自拥塞丢包、随机丢包、缓存限制等等,如果一味地将丢包视作网络拥塞将无法有效利用带宽资源;其次,面对动态多变的网络环境,需要及时调整拥塞控制策略,适应网络变化,例如,一个Wi-Fi信号,它的网络质量与环境高度相关,与信号源的距离,中间是否存在障碍物,甚至是人的活动,都将使网络发生变化;最后,多个TCP流竞争可用带宽,还需要考虑公平性,进一步加剧了拥塞控制设计的难度。现有启发式TCP拥塞控制方法在复杂多样动态变化的网络环境中不具备良好的适应性及公平性,控制效果较差。
发明内容
发明目的:针对现有技术的缺陷,本发明提出了一种基于多智能体深度强化学习的TCP拥塞控制方法,能够从根本上解决现有启发式TCP拥塞控制算法在复杂多样动态变化的网络环境中的适应性及公平性问题。
本发明的另一目的是提供过一种基于多智能体深度强化学习的TCP拥塞控制装置。
技术方案:为了实现以上的发明目的,本发明采用如下的技术方案:
第一方面,提供一种基于多智能体深度强化学习的TCP拥塞控制方法,包括以下步骤:
(1)通过在线变点检测技术,监视排队延迟的变化,将TCP拥塞控制过程划分为连续的统计区间;
(2)在每个统计区间内,将每一个发送方测量的网络参数作为网络环境的本地状态,将本地状态输入到表示拥塞控制策略的Actor神经网络,并根据Actor神经网络输出的本地动作,设置发送方的拥塞窗口;
(3)多智能体并行联合训练,根据所有发送方测量的网络参数和设定的奖赏函数,计算每个发送方的本地动作对应的本地奖赏,以及所有发送方的全局奖赏,并根据本地奖赏和全局奖赏对深度神经网络进行联合训练;
(4)将每个统计区间内的每个发送方的本地状态汇总为全局状态、本地动作汇总为联合动作,将全局状态、联合动作以及对应的奖赏函数得出的以及对应的奖赏值输入到Critic神经网络,输出对全局动作的评估结果;
(5)根据Critic神经网络输出的评估结果,更新Actor神经网络参数,即更新拥塞控制策略,同时也更新Critic神经网络参数。
进一步地,步骤1中排队延迟根据下式计算:di=RTTi-RTTmin,通过计算变点的后验概率:P(di-ω是变点|di:i)>η确定变点,划分统计区间。即在观察到一系列样本d1:i的情况下,其中di-ω样本是变点的后验概率大于阈值η。
步骤2中本地状态包含的网络参数有:发送速率均值、吞吐量均值、最大吞吐量、变点前后的排队延迟均值及其方差;步骤2中第i个发送方的Actor神经网络输出的本地动作是一个增益系数ai,拥塞窗口由增益系数和BDP确定,即cwnd=ai×BDP,其中ai∈(0,2]。
全局奖赏为:
Rg=wfVfairness-wlVloss
其中,Vi throughtput表示一个统计区间内发送方i的平均吞吐量,Vi delay表示一个统计区间内发送方i的平均排队延迟,Vi jitter表示一个统计区间内发送方i排队延迟的方差,Vfairness表示一个统计区间内所有发送方的吞吐量jain公平指数,Vloss表示一个统计区间内拥塞丢包的次数。wt,wd,wj,wf,wl分别为相应的权重参数。
步骤4中所述的全局状态和联合动作分别是同一个统计区间内,所有发送方本地状态的拼接及本地动作的拼接。Critic神经网络的输出是一个实数值。
步骤5中所述的Actor神经网络根据Critic神经网络的输出更新参数,Critic神经网络根据奖赏值和输出更新参数,参数的更新方法为随机梯度下降,参数更新的经验数据来源于与一个模拟环境的交互。
第二方面,提供一种基于多智能体深度强化学习的TCP拥塞控制装置,所述装置包括:
存储器,其中存储有一个或多个程序,所述一个或多个程序被一个或多个处理器执行时,致使所述一个或多个处理器执行包括以下步骤的方法:
(1)通过在线变点检测技术,监视排队延迟的变化,将TCP拥塞控制过程划分为连续的统计区间;
(2)在每个统计区间内,将每一个发送方测量的网络参数作为网络环境的本地状态,将本地状态输入到表示拥塞控制策略的Actor神经网络,并根据Actor神经网络输出的本地动作,设置发送方的拥塞窗口;
(3)多智能体并行联合训练,根据所有发送方测量的网络参数和设定的奖赏函数,计算每个发送方的本地动作对应的本地奖赏,以及所有发送方的全局奖赏,并根据本地奖赏和全局奖赏对深度神经网络进行联合训练;
(4)将每个统计区间内的每个发送方的本地状态汇总为全局状态、本地动作汇总为联合动作,将全局状态、联合动作以及对应的奖赏函数得出的奖赏值输入到Critic神经网络,输出对全局动作的评估结果;
(5)根据Critic神经网络输出的评估结果,更新Actor神经网络参数,即更新拥塞控制策略,同时也更新Critic神经网络参数。
有益效果:本发明首次提出使用多智能体深度强化学习算法来优化TCP拥塞控制,利用人工深度神经网络表示TCP拥塞控制策略,并且通过学习出各种网络环境下的最优拥塞控制策略,从根本上解决现有启发式TCP拥塞控制算法在复杂多样动态变化的网络环境中的适应性及公平性问题。此外,使用在线变点检测技术划分统计区间,使用Actor-Critic强化学习框架,采用集中训练、分散执行的方式,直接对多流竞争瓶颈链路的拥塞控制问题进行建模和学习,从而提高策略优化效率,加速神经网络的训练。
附图说明
图1是本发明考虑的多个发送方竞争瓶颈链路带宽的场景示意图;
图2是本发明统计区间划分的示意图;
图3是基于多智能体深度强化学习的TCP拥塞控制方法框架图;
图4是根据本发明实施例的集中训练及分散执行示意图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。应当了解,以下提供的实施例仅是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的技术构思,本发明还可以用许多不同的形式来实施,并且不局限于此处描述的实施例。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。
本发明提供一种基于多智能体深度强化学习的TCP拥塞控制方法,考虑有n个发送方竞争瓶颈链路带宽的场景,首先,在模拟环境中,使用所有发送方的全局信息集中训练,生成拥塞控制策略;然后,在真实环境中,允许发送方使用本地信息进行分散执行。方法主要包含以下步骤,其中步骤3-5为集中训练阶段,步骤2为分散执行阶段:
(1)通过在线变点检测技术,监视排队延迟的变化,将TCP拥塞控制过程划分为连续的统计区间;
(2)在每个统计区间内,每一个发送方都会测量网络参数作为网络环境的本地状态,将本地状态输入到表示拥塞控制策略的Actor神经网络,并根据Actor神经网络输出的本地动作,设置发送方的拥塞窗口,即分散执行;
(3)多智能体并行联合训练,根据所有发送方测量的网络参数和设定的奖赏函数,计算每个发送方的本地动作对应的本地奖赏,以及所有发送方的全局奖赏,并根据本地奖赏和全局奖赏对深度神经网络进行联合训练;
(4)将每个统计区间内的每个发送方的本地状态汇总为全局状态、本地动作汇总为联合动作,将全局状态、联合动作、以及对应的通过奖赏函数得到的奖赏值输入到Critic神经网络,输出对全局动作的评估结果;
(5)根据Critic神经网络输出的评估结果,更新Actor神经网络参数,即更新拥塞控制策略,同时也更新Critic神经网络参数。
图1是本发明实施例中考虑的多个发送方竞争瓶颈链路带宽的场景示意图,如图所示的哑铃拓扑,发送方与接收方之间的TCP流共享主机1和主机2之间的瓶颈链路,忽略发送方、接收方同主机之间的传输延迟。在这个场景下,拥塞控制算法要在保证带宽利用率的情况下,考虑如何公平地在多个流之间分配瓶颈链路带宽。
图2是本发明实施例中统计区间划分的示意图,如图所示,本发明将TCP拥塞控制过程划分成若干个统计区间,进而将多流竞争瓶颈链路的拥塞控制问题建模为马尔可夫博弈过程,从而使用多智能体强化学习框架解决问题。利用Actor神经网络和Critic神经网络,作为深度强化学习所使用的神经网络。具体地,在每个统计区间内,每个发送方独立观测排队延迟的变化,一旦瓶颈链路出现拥塞,所有发送方都能检测到排队延迟的变化,进而实现每个发送方统计区间的同步。一个统计区间最多持续时间,即若在时间内未检测到变点,这个统计区间就会结束。变点指的是,假设存在一个时间序列数据集,其中每个观测值相互独立,如果在某一时刻,模型中的某个或某些变量突然发生了变化,即存在一个时间点,在该点之前,数据集符合一个分布,在该点之后,数据集符合另外一个分布,则该点为该数据集的变点。如图2中所示,各个点表示数据集的分布,为了和其他圆点区分,变点以方框表示,方框处就是对应的变点。
在本发明实施例中,大概是3到4个端到端往返时间(Round-triptime,RTT),也称往返延迟或往返时延。其中排队延迟根据下式计算:di=RTTi-RTTmin,RTTi是发送方收到的第i个ACK包时端到端的延迟,RTTmin是状态监测器累计的样本中最小的RTT,通过计算变点的后验概率来确定变点,划分统计区间。变点的后验概率P(di-ω是变点|d1:i)>η,即,在观察到一系列样本d1:i的情况下,其中di-ω样本是变点的后验概率大于阈值η,其中d表示排队延迟的样本,d1:i表示第1个和第i个之间的一系列排队延迟样本。di-ω表示与第i个样本距离ω的排队延迟样本,具体如下:在贝叶斯在线概率变点检测算法中,把自上一个变点之后累积的样本数称为“游程长度”(Run Length),记Li为第i个排队延迟样本di处的游程长度,则有
若Li=ω,可以得出Li-ω=0,即第i-ω处存在变点。
后验概率由统计并递归计算得到。
图3是基于多智能体深度强化学习的TCP拥塞控制方法框架图,如图所示,本发明使用多智能体强化学习框架,采用基于策略梯度的深度强化学习算法,对TCP拥塞控制进行建模和学习,从而优化TCP拥塞控制的自适应性和公平性。本发明将TCP拥塞控制过程划分成连续的统计区间,在每个统计区间内,每个发送方独立观察本地状态s,然后发送方根据拥塞控制策略将本地状态映射到一个动作a,汇总所有发送方的动作组成联合动作执行,全局的网络环境将发生改变,每个发送方能够观察到新的本地状态相应的奖赏信号r。
具体地,统计区间的本地状态包括当前统计区间的:发送速率均值、吞吐量均值、最大吞吐量、变点前后的排队延迟均值及其方差。发送方i的动作ai是一个增益系数,拥塞窗口由增益系数和BDP确定,即cwnd=ai×BDP,ai∈(0,2]。BDP是带宽时延积(Bandwidth-Delay Product)的缩写,即链路上的最大比特数,也称以比特为单位的链路长度。联合动作可以表示为(a1,...,an),具体是指根据增益系数来调整拥塞窗口,这里通过增益系数对BDP的使用率进行动态调节,来接近真实的Kleinrock点。增益系数由动作决定,在系统的初始阶段存在初始值,在运行过程中由神经网络的输出来作为动作决定系数。奖赏信号由奖赏函数确定,其中本地奖赏为:
全局奖赏为:
Rg=wfVfairness-wlVloss
其中,Vi throughtput表示一个统计区间内发送方i的平均吞吐量,Vi delay表示一个统计区间内发送方i的平均排队延迟,Vi jitter表示一个统计区间内发送方i排队延迟的方差,Vfairness表示一个统计区间内所有发送方的吞吐量jain公平指数,Vloss表示一个统计区间内拥塞丢包的次数。wt,wd,wj,wf,wl为权重参数。其中各项权重的默认取值为:wt=0.5,wd=0.3,wj=0.2,wf=0.5,wl=0.5。该奖赏函数简明实用,计算开销低,响应更加迅速,适用于各种网络环境。
图4是根据本发明实施例的集中训练及分散执行示意图。这个架构允许发送方使用额外的联合信息来训练,而在决策执行时仅使用本地信息。每一个发送方智能体包含了代表Actor的神经网络以及代表Critic的神经网络,本发明通过Critic的集中训练和Actor的分散式执行,来实现多发送方联合训练的目标。集中式训练是指在训练中使用联合信息,包括全局状态、联合动作输入到每个发送方的Critic神经网络,Critic神经网络输出一个函数值,用于对Actor神经网络的策略进行评估。
联合行为值网络的更新方式与DDPG算法类似:
其中μ′=′{μ1′,...,μn′}是目标联合策略网络,用于计算在线联合策略网络μ的梯度。
Actor神经网络依据Critic神经网络输出的函数值,更新Actor神经网络参数。Critic神经网络根据奖赏和函数值来更新自己的Critic神经网络参数。参数的更新方法为随机梯度下降,参数更新的经验数据来源于与一个模拟环境的交互。
分散执行是指发送方i根据自身观察到的状态si,通过Actor神经网络映射到动作ai。该训练过程在一个模拟环境中进行,通过一定数量的训练,学出不同网络环境下最优的拥塞控制策略,从而能够适应动态变化的网络场景及保障公平性。
根据本发明的另一实施例,提供一种基于多智能体深度强化学习的TCP拥塞控制装置,所述装置包括:
存储器,其中存储有一个或多个程序,所述一个或多个程序被一个或多个处理器执行时,致使所述一个或多个处理器执行包括以下步骤的方法:
(1)通过在线变点检测技术,监视排队延迟的变化,将TCP拥塞控制过程划分为连续的统计区间;
(2)在每个统计区间内,将每一个发送方测量的网络参数作为网络环境的本地状态,将本地状态输入到表示拥塞控制策略的Actor神经网络,并根据Actor神经网络输出的本地动作,设置发送方的拥塞窗口;
(3)根据所有发送方测量的网络参数和设定的奖赏函数,计算每个发送方的本地动作对应的本地奖赏,以及所有发送方的全局奖赏;
(4)将每个统计区间内的每个发送方的本地状态汇总为全局状态、本地动作汇总为联合动作、以及对应的奖赏值输入到Critic神经网络,输出对全局动作的评估结果;
(5)根据Critic神经网络输出的评估结果,更新Actor神经网络参数,即更新拥塞控制策略,同时也更新Critic神经网络参数。
其中步骤(1)的统计区间的划分、步骤(2)的拥塞控制策略以及拥塞窗口的设置方式、步骤(3)中奖赏函数的具体形式、步骤(4)中Critic神经网络的操作以及步骤(5)中参数更新的具体方式,和前述方法实施例中的一样,具体可以参照方法实施例中的描述。
以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种等同变换,这些等同变换均属于本发明的保护范围。
Claims (9)
1.一种基于多智能体深度强化学习的TCP拥塞控制方法,其特征在于,该方法包括以下步骤:
(1)通过在线变点检测技术,监视排队延迟的变化,将TCP拥塞控制过程划分为连续的统计区间;
(2)在每个统计区间内,将每一个发送方测量的网络参数作为网络环境的本地状态,将本地状态输入到表示拥塞控制策略的Actor神经网络,并根据Actor神经网络输出的本地动作,设置发送方的拥塞窗口;
(3)多智能体并行联合训练,根据所有发送方测量的网络参数和设定的奖赏函数,计算每个发送方的本地动作对应的本地奖赏,以及所有发送方的全局奖赏,并根据本地奖赏和全局奖赏对深度神经网络进行联合训练;
(4)将每个统计区间内的每个发送方的本地状态汇总为全局状态、本地动作汇总为联合动作,将全局状态、联合动作以及对应的奖赏函数得出的奖赏值输入到Critic神经网络,输出对全局动作的评估结果;
(5)根据Critic神经网络输出的评估结果,更新Actor神经网络参数,即更新拥塞控制策略,同时也更新Critic神经网络参数。
2.根据权利要求1所述的一种基于多智能体的深度强化学习的TCP拥塞控制方法,其特征在于,所述步骤(1)包括:
根据下式计算排队延迟:di=RTTi-RTTmin,其中RTTi是发送方收到的第i个ACK包时的端到端延迟RTT,RTTmin是状态监测器累计的样本中最小的RTT;
通过计算变点的后验概率来确定变点,划分统计区间,所述变点的后验概率满足P(di-ω是变点|d1:i)>η,表示在观察到一系列样本d1:i的情况下,其中di-ω样本是变点的后验概率大于阈值η,其中d表示排队延迟的样本,d1:i表示第1个和第i个之间的一系列排队延迟样本,di-ω表示与第i个样本距离ω的排队延迟样本。
4.根据权利要求1所述的一种基于多智能体的深度强化学习的TCP拥塞控制方法,其特征在于,所述步骤(2)中本地状态包括:发送速率均值、吞吐量均值、最大吞吐量、变点前后的排队延迟均值及其方差。
5.根据权利要求1所述的一种基于多智能体的深度强化学习的TCP拥塞控制方法,其特征在于,所述步骤(2)中第i个发送方的Actor神经网络输出的本地动作是一个增益系数ai,拥塞窗口由增益系数和BDP确定,即cwnd=ai×BDP,BDP为链路上的最大比特数。
本地奖赏为:
全局奖赏为:
Rg=wfVfairness-wlVloss
其中,Vi throughtput表示一个统计区间内发送方i的平均吞吐量,Vi delay表示一个统计区间内发送方i的平均排队延迟,Vi jitter表示一个统计区间内发送方i排队延迟的方差,Vfairness表示一个统计区间内所有发送方的吞吐量jain公平指数,Vloss表示一个统计区间内拥塞丢包的次数,wt,wd,wj,wf,wl分别为相应的权重参数。
7.根据权利要求1所述的一种基于多智能体的深度强化学习的TCP拥塞控制方法,其特征在于,所述步骤(4)中全局状态和联合动作分别是同一个统计区间内所有发送方本地状态的拼接及本地动作的拼接,Critic神经网络的输出是一个实数值。
8.根据权利要求1所述的一种基于多智能体的深度强化学习的TCP拥塞控制方法,其特征在于,所述步骤(5)中Actor神经网络根据Critic神经网络的输出更新参数,Critic神经网络根据奖赏值和输出更新参数,参数的更新方法为随机梯度下降,参数更新的经验数据来源于与一个模拟环境的交互。
9.一种基于多智能体深度强化学习的TCP拥塞控制装置,其特征在于,所述装置包括:
存储器,其中存储有一个或多个程序,所述一个或多个程序被一个或多个处理器执行时,致使所述一个或多个处理器执行包括以下步骤的方法:
(1)通过在线变点检测技术,监视排队延迟的变化,将TCP拥塞控制过程划分为连续的统计区间;
(2)在每个统计区间内,将每一个发送方测量的网络参数作为网络环境的本地状态,将本地状态输入到表示拥塞控制策略的Actor神经网络,并根据Actor神经网络输出的本地动作,设置发送方的拥塞窗口;
(3)多智能体并行联合训练,根据所有发送方测量的网络参数和设定的奖赏函数,计算每个发送方的本地动作对应的本地奖赏,以及所有发送方的全局奖赏,并根据本地奖赏和全局奖赏对深度神经网络进行联合训练;
(4)将每个统计区间内的每个发送方的本地状态汇总为全局状态、本地动作汇总为联合动作,将全局状态、联合动作以及对应的奖赏函数得出的以及对应的奖赏值输入到Critic神经网络,输出对全局动作的评估结果;
(5)根据Critic神经网络输出的评估结果,更新Actor神经网络参数,即更新拥塞控制策略,同时也更新Critic神经网络参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110526957.XA CN113114581A (zh) | 2021-05-14 | 2021-05-14 | 基于多智能体深度强化学习的tcp拥塞控制方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110526957.XA CN113114581A (zh) | 2021-05-14 | 2021-05-14 | 基于多智能体深度强化学习的tcp拥塞控制方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113114581A true CN113114581A (zh) | 2021-07-13 |
Family
ID=76722476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110526957.XA Pending CN113114581A (zh) | 2021-05-14 | 2021-05-14 | 基于多智能体深度强化学习的tcp拥塞控制方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113114581A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113595923A (zh) * | 2021-08-11 | 2021-11-02 | 国网信息通信产业集团有限公司 | 一种网络拥塞控制方法及装置 |
CN114500383A (zh) * | 2022-01-25 | 2022-05-13 | 苏州全时空信息技术有限公司 | 天地一体化信息网络智能拥塞控制方法、系统及介质 |
CN114726799A (zh) * | 2022-04-28 | 2022-07-08 | 清华大学 | 拥塞控制智能体的训练方法、拥塞控制方法及装置 |
CN114745337A (zh) * | 2022-03-03 | 2022-07-12 | 武汉大学 | 一种基于深度强化学习的实时拥塞控制方法 |
WO2023226183A1 (zh) * | 2022-05-24 | 2023-11-30 | 南京邮电大学 | 一种基于多智能体协作的多基站排队式前导码分配方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110278149A (zh) * | 2019-06-20 | 2019-09-24 | 南京大学 | 基于深度强化学习的多路径传输控制协议数据包调度方法 |
CN112700663A (zh) * | 2020-12-23 | 2021-04-23 | 大连理工大学 | 基于深度强化学习策略的多智能体智能信号灯路网控制方法 |
-
2021
- 2021-05-14 CN CN202110526957.XA patent/CN113114581A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110278149A (zh) * | 2019-06-20 | 2019-09-24 | 南京大学 | 基于深度强化学习的多路径传输控制协议数据包调度方法 |
CN112700663A (zh) * | 2020-12-23 | 2021-04-23 | 大连理工大学 | 基于深度强化学习策略的多智能体智能信号灯路网控制方法 |
Non-Patent Citations (1)
Title |
---|
高少华: "基于深度强化学习的TCP拥塞控制机制研究", 《中国优秀硕士学位论文全文数据库 (电子期刊) 信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113595923A (zh) * | 2021-08-11 | 2021-11-02 | 国网信息通信产业集团有限公司 | 一种网络拥塞控制方法及装置 |
CN114500383A (zh) * | 2022-01-25 | 2022-05-13 | 苏州全时空信息技术有限公司 | 天地一体化信息网络智能拥塞控制方法、系统及介质 |
CN114500383B (zh) * | 2022-01-25 | 2024-01-30 | 苏州全时空信息技术有限公司 | 天地一体化信息网络智能拥塞控制方法、系统及介质 |
CN114745337A (zh) * | 2022-03-03 | 2022-07-12 | 武汉大学 | 一种基于深度强化学习的实时拥塞控制方法 |
CN114745337B (zh) * | 2022-03-03 | 2023-11-28 | 武汉大学 | 一种基于深度强化学习的实时拥塞控制方法 |
CN114726799A (zh) * | 2022-04-28 | 2022-07-08 | 清华大学 | 拥塞控制智能体的训练方法、拥塞控制方法及装置 |
CN114726799B (zh) * | 2022-04-28 | 2024-03-05 | 清华大学 | 拥塞控制智能体的训练方法、拥塞控制方法及装置 |
WO2023226183A1 (zh) * | 2022-05-24 | 2023-11-30 | 南京邮电大学 | 一种基于多智能体协作的多基站排队式前导码分配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113114581A (zh) | 基于多智能体深度强化学习的tcp拥塞控制方法及装置 | |
Xiao et al. | TCP-Drinc: Smart congestion control based on deep reinforcement learning | |
CN109768940B (zh) | 多业务sdn网络的流量分配方法及装置 | |
CN113467952B (zh) | 一种分布式联邦学习协同计算方法及系统 | |
CN113595923B (zh) | 一种网络拥塞控制方法及装置 | |
CN111629380B (zh) | 面向高并发多业务工业5g网络的动态资源分配方法 | |
CN111818570B (zh) | 一种面向真实网络环境的智能拥塞控制方法及系统 | |
CN116527567B (zh) | 一种基于深度强化学习的智能网络路径优选方法与系统 | |
CN102592171A (zh) | 基于bp神经网络的认知网络性能预测方法及装置 | |
GB2461244A (en) | Network congestion control with feedback to adjust flow rates of source nodes. | |
CN112887217B (zh) | 控制数据包发送方法、模型训练方法、装置及系统 | |
CN113938415B (zh) | 一种基于链路状态估计的网络路由转发方法及系统 | |
CN111416774A (zh) | 网络拥塞控制方法、装置、计算机设备及存储介质 | |
CN116320620A (zh) | 基于个性化联邦强化学习的流媒体比特率自适应调整方法 | |
CN114584494B (zh) | 一种边缘云网络中测量实际可用带宽的方法 | |
CN114866489A (zh) | 拥塞控制方法和装置及拥塞控制模型的训练方法和装置 | |
CN109698925A (zh) | 基于数据驱动的实时视频拥塞控制方法及装置 | |
CN111740925A (zh) | 一种基于深度强化学习的Coflow调度方法 | |
CN117014355A (zh) | 一种基于ddpg深度强化学习算法的tssdn动态路由决策方法 | |
CN116669068A (zh) | 一种基于gcn的时延业务端到端切片部署方法及系统 | |
CN107682235A (zh) | 一种基于卡尔曼滤波的传输时延预测数据调度方法 | |
Bachl et al. | LFQ: Online learning of per-flow queuing policies using deep reinforcement learning | |
CN111901237B (zh) | 源路由选路方法及系统、相关设备及计算机可读存储介质 | |
CN115695390B (zh) | 一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法 | |
CN115150335A (zh) | 一种基于深度强化学习的最优流量分割的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210713 |