CN113660159A - 一种基于强化学习的多径动态复用与分组传输方法 - Google Patents
一种基于强化学习的多径动态复用与分组传输方法 Download PDFInfo
- Publication number
- CN113660159A CN113660159A CN202110838114.3A CN202110838114A CN113660159A CN 113660159 A CN113660159 A CN 113660159A CN 202110838114 A CN202110838114 A CN 202110838114A CN 113660159 A CN113660159 A CN 113660159A
- Authority
- CN
- China
- Prior art keywords
- reinforcement learning
- transmission
- action
- link
- reward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/24—Multipath
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于强化学习的多径动态复用与分组传输方法,1)将时间划分为以100ms为长度的时间片,并进行顺序编号1,2,……,t,t+1,……;2)在每一个时间片的尾部,收集影响和反映各个链路传输质量的因素,将这些数据进行标准化后做为外部环境观测值;本发明基于深度强化学习的链路捆绑传输技术,将链路捆绑传输控制作为智能体,将传输中影响链路质量的因素作为环境,链路后续的传输质量和稳定性作为奖励和惩罚,从而建立强化学习模型,通过深度神经网络对策略进行不断优化,从而达到不断优化传输策略的目的;具备更好的前瞻性。
Description
技术领域
本发明属基于强化学习的多径动态复用与分组传输技术技术领域,具体涉及一种基于强化学习的多径动态复用与分组传输方法。
背景技术
多链路捆绑传输技术是指采用多条传输链路(包括有线网络、wifi或者3g/4g/5g)间协同配合,共同对同一业务的数据进行整体传输的数据通讯解决方案。多链路捆绑传输解决了同一业务数据只能利用单一链路进行传输的问题,大大提高了数据传输的效率和容错性。单一链路传输具有带宽受限、容错性差的特点,一旦链路出现问题,整体传输将会受阻或者变得很差,极大影响了数据传输的质量。对一些实时性要求较高的场景,比如视频直播和应急通讯等业务领域,越来越难于被使用者所接受。同时随着5g技术的逐渐普及以及多运营商的存在,多种传输链路并存也为多链路捆绑传输提供了广阔的应用前景。传统的链路捆绑传输技术多采用基于多缓冲区的链路带宽和数据分配策略。通过对传输的链路建立缓冲区,并对链路传输中即时速率、缓冲占用比例、丢包率、时延以及传输底层链路反馈的实时参数等进行跟踪和评估,采用加权方式建立链路的评估模型,并依据评估结果对链路进行动态的带宽和数据分配。由于影响传输的因素非常多,并且变化快,因此传统的方式很难精确界定因素变化对传输链路的影响,从而难以做出最有效的策略调整,从而最大化传输效率。
发明内容
本发明的目的在于提供一种基于强化学习的多径动态复用与分组传输方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于强化学习的多径动态复用与分组传输方法,
1)将时间划分为以100ms为长度的时间片,并进行顺序编号1,2,……,t,t+1,……;
2)在每一个时间片的尾部,收集影响和反映各个链路传输质量的因素,将这些数据进行标准化后做为外部环境观测值;这些因素包含如下项:
Wifi或者3g/4g/5g链路信号强度Signal(t);
单个链路的接收数据的瞬时速率RecvRate(t);
单个链路的短时接收延时Latency(t);
单个链路的短时丢包率Drop(t);
单个链路的短时发送速率SendRate(t);
发送缓冲的占用率Buffer(t);
记当前的状态值为S(t),S(t)=(RecvRate(t),RecvRate(t),Latency(t),Drop(t),SendRate(t),Buffer(t));
观测值S(t)将作为强化学习的环境状态值进入到深度强化学习的算法流程;
3)定义强化学习的动作Action(t);定义的动作包括:增加链路传输速率(分0.3%,1%,1.5%,3%几种选择),维持链路速率不变,减小速率(分0.3%,1%,3%,10%,30%,50%几种选择);每一种action定义为一个值;Action(t)={0,1,2,3,……n},每一个值代表了一种动作,每一次获取到S(t)后,都将会用强化学习的模型计算出一个特定的值作为该次观测值对应的动作;
4)记录采取动作后的惩罚或者奖励值,在采取了Action(t)后,将是否提升了传输的速率和质量的效果记录为Reward(t);影响传输效果的衡量标准包括:
链路捆绑整体传输速率变化ΔRate(t);
重传率变化ΔRetrans(t);
缓冲大小变化ΔBuffer(t);
时延变化ΔDelay(t);
通过多种奖励值的加权,计算出整体的奖励值,从而作为强化学习的奖励值:
Reward(t)=w0*ΔRate(t)+w1*ΔRetrans(t)+w2*ΔBuffer(t)+w3*ΔDelay(t);
5)使用DQN深度强化学习技术,在实际的多链路传输中,不断产生新的数据来对评估和策略网络进行训练,最终产生出优化的DQN模型;得到上述的S(t),Action(t)以及Reward(t)后,可以使用DQN算法来进行训练,从而产生出最终的策略。
优选的,action产生的结果是具有一定的滞后性的,因此在匹配action和相应的Reward的时候,Reward的时间点需要往后推移Δt,这个时间偏差需要根据时延来进行调整。
优选的,义强化学习的动作Action(t)的实际采样中,将按照强化学习模型的训练过程,记录每一个时刻的状态值S(t),以及输出的相应Action(t),并在采取这个action后的后续效果进行记录。
与现有技术相比,本发明的有益效果是:本发明基于深度强化学习的链路捆绑传输技术,将链路捆绑传输控制作为智能体,将传输中影响链路质量的因素作为环境,链路后续的传输质量和稳定性作为奖励和惩罚,从而建立强化学习模型,通过深度神经网络对策略进行不断优化,从而达到不断优化传输策略的目的;具备更好的前瞻性,简单的逻辑判断和静态的计算很难对状态变化做出具备更好前瞻性的动作;因为当前状态值往往只是一个截面,需要结合状态值在时间轴上的变化情况,才能更好的进行未来趋势的预判;强化学习的优势就是能在时间上对状态及动作进行跟踪和迭代,从而产生具备较好预判的较优策略。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明提供一种基于强化学习的多径动态复用与分组传输方法技术方案:一种基于强化学习的多径动态复用与分组传输方法,
1)将时间划分为以100ms为长度的时间片,并进行顺序编号1,2,……,t,t+1,……;
2)在每一个时间片的尾部,收集影响和反映各个链路传输质量的因素,将这些数据进行标准化后做为外部环境观测值;这些因素包含如下项:
Wifi或者3g/4g/5g链路信号强度Signal(t);
单个链路的接收数据的瞬时速率RecvRate(t);
单个链路的短时接收延时Latency(t);
单个链路的短时丢包率Drop(t);
单个链路的短时发送速率SendRate(t);
发送缓冲的占用率Buffer(t);
记当前的状态值为S(t),S(t)=(RecvRate(t),RecvRate(t),Latency(t),Drop(t),SendRate(t),Buffer(t));
观测值S(t)将作为强化学习的环境状态值进入到深度强化学习的算法流程;
3)定义强化学习的动作Action(t);定义的动作包括:增加链路传输速率(分0.3%,1%,1.5%,3%几种选择),维持链路速率不变,减小速率(分0.3%,1%,3%,10%,30%,50%几种选择);每一种action定义为一个值;Action(t)={0,1,2,3,……n},每一个值代表了一种动作,每一次获取到S(t)后,都将会用强化学习的模型计算出一个特定的值作为该次观测值对应的动作;
4)记录采取动作后的惩罚或者奖励值,在采取了Action(t)后,将是否提升了传输的速率和质量的效果记录为Reward(t);影响传输效果的衡量标准包括:
链路捆绑整体传输速率变化ΔRate(t);
重传率变化ΔRetrans(t);
缓冲大小变化ΔBuffer(t);
时延变化ΔDelay(t);
通过多种奖励值的加权,计算出整体的奖励值,从而作为强化学习的奖励值:
Reward(t)=w0*ΔRate(t)+w1*ΔRetrans(t)+w2*ΔBuffer(t)+w3*ΔDelay(t);
5)使用DQN深度强化学习技术,在实际的多链路传输中,不断产生新的数据来对评估和策略网络进行训练,最终产生出优化的DQN模型;得到上述的S(t),Action(t)以及Reward(t)后,可以使用DQN算法来进行训练,从而产生出最终的策略。
本实施例中,优选的,action产生的结果是具有一定的滞后性的,因此在匹配action和相应的Reward的时候,Reward的时间点需要往后推移Δt,这个时间偏差需要根据时延来进行调整。
本实施例中,优选的,义强化学习的动作Action(t)的实际采样中,将按照强化学习模型的训练过程,记录每一个时刻的状态值S(t),以及输出的相应Action(t),并在采取这个action后的后续效果进行记录。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (3)
1.一种基于强化学习的多径动态复用与分组传输方法,其特征在于:
1)将时间划分为以100ms为长度的时间片,并进行顺序编号1,2,……,t,t+1,……;
2)在每一个时间片的尾部,收集影响和反映各个链路传输质量的因素,将这些数据进行标准化后做为外部环境观测值;这些因素包含如下项:
Wifi或者3g/4g/5g链路信号强度Signal(t);
单个链路的接收数据的瞬时速率RecvRate(t);
单个链路的短时接收延时Latency(t);
单个链路的短时丢包率Drop(t);
单个链路的短时发送速率SendRate(t);
发送缓冲的占用率Buffer(t);
记当前的状态值为S(t),S(t)=(RecvRate(t),RecvRate(t),Latency(t),Drop(t),SendRate(t),Buffer(t));
观测值S(t)将作为强化学习的环境状态值进入到深度强化学习的算法流程;
3)定义强化学习的动作Action(t);定义的动作包括:增加链路传输速率(分0.3%,1%,1.5%,3%几种选择),维持链路速率不变,减小速率(分0.3%,1%,3%,10%,30%,50%几种选择);每一种action定义为一个值;Action(t)={0,1,2,3,……n},每一个值代表了一种动作,每一次获取到S(t)后,都将会用强化学习的模型计算出一个特定的值作为该次观测值对应的动作;
4)记录采取动作后的惩罚或者奖励值,在采取了Action(t)后,将是否提升了传输的速率和质量的效果记录为Reward(t);影响传输效果的衡量标准包括:
链路捆绑整体传输速率变化ΔRate(t);
重传率变化ΔRetrans(t);
缓冲大小变化ΔBuffer(t);
时延变化ΔDelay(t);
通过多种奖励值的加权,计算出整体的奖励值,从而作为强化学习的奖励值:
Reward(t)=w0*ΔRate(t)+w1*ΔRetrans(t)+w2*ΔBuffer(t)+w3*ΔDelay(t);
5)使用DQN深度强化学习技术,在实际的多链路传输中,不断产生新的数据来对评估和策略网络进行训练,最终产生出优化的DQN模型;得到上述的S(t),Action(t)以及Reward(t)后,可以使用DQN算法来进行训练,从而产生出最终的策略。
2.根据权利要求1所述的一种基于强化学习的多径动态复用与分组传输方法,其特征在于:action产生的结果是具有一定的滞后性的,因此在匹配action和相应的Reward的时候,Reward的时间点需要往后推移Δt,这个时间偏差需要根据时延来进行调整。
3.根据权利要求1所述的一种基于强化学习的多径动态复用与分组传输方法,其特征在于:定义强化学习的动作Action(t)的实际采样中,将按照强化学习模型的训练过程,记录每一个时刻的状态值S(t),以及输出的相应Action(t),并在采取这个action后的后续效果进行记录。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110838114.3A CN113660159B (zh) | 2021-07-23 | 2021-07-23 | 一种基于强化学习的多径动态复用与分组传输方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110838114.3A CN113660159B (zh) | 2021-07-23 | 2021-07-23 | 一种基于强化学习的多径动态复用与分组传输方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113660159A true CN113660159A (zh) | 2021-11-16 |
CN113660159B CN113660159B (zh) | 2023-04-18 |
Family
ID=78477735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110838114.3A Active CN113660159B (zh) | 2021-07-23 | 2021-07-23 | 一种基于强化学习的多径动态复用与分组传输方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113660159B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120133402A1 (en) * | 2010-11-30 | 2012-05-31 | Elpida Memory, Inc. | Semiconductor device having multiplexer |
US20190286979A1 (en) * | 2018-03-14 | 2019-09-19 | Electronic Arts Inc. | Reinforcement Learning for Concurrent Actions |
CN110555584A (zh) * | 2019-07-17 | 2019-12-10 | 浙江工业大学 | 一种基于深度强化学习的自动化停车场调度方法 |
GB2577741A (en) * | 2018-10-05 | 2020-04-08 | Airspan Networks Inc | An apparatus and method for configuring a communication link |
WO2020134507A1 (zh) * | 2018-12-28 | 2020-07-02 | 北京邮电大学 | 无人机网络路由构建方法、无人机及存储介质 |
CN111683381A (zh) * | 2020-04-28 | 2020-09-18 | 南京邮电大学 | 基于深度强化学习的端到端网络切片资源分配算法 |
CN112295237A (zh) * | 2020-10-19 | 2021-02-02 | 深圳大学 | 一种基于深度强化学习的决策方法 |
WO2021049984A1 (en) * | 2019-09-12 | 2021-03-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Provision of precoder selection policy for a multi-antenna transmitter |
CN213152244U (zh) * | 2020-11-12 | 2021-05-07 | 成都壹唯视信息技术有限公司 | 超高清4k直播终端 |
-
2021
- 2021-07-23 CN CN202110838114.3A patent/CN113660159B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120133402A1 (en) * | 2010-11-30 | 2012-05-31 | Elpida Memory, Inc. | Semiconductor device having multiplexer |
US20190286979A1 (en) * | 2018-03-14 | 2019-09-19 | Electronic Arts Inc. | Reinforcement Learning for Concurrent Actions |
GB2577741A (en) * | 2018-10-05 | 2020-04-08 | Airspan Networks Inc | An apparatus and method for configuring a communication link |
WO2020134507A1 (zh) * | 2018-12-28 | 2020-07-02 | 北京邮电大学 | 无人机网络路由构建方法、无人机及存储介质 |
US20200359297A1 (en) * | 2018-12-28 | 2020-11-12 | Beijing University Of Posts And Telecommunications | Method of Route Construction of UAV Network, UAV and Storage Medium thereof |
CN110555584A (zh) * | 2019-07-17 | 2019-12-10 | 浙江工业大学 | 一种基于深度强化学习的自动化停车场调度方法 |
WO2021049984A1 (en) * | 2019-09-12 | 2021-03-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Provision of precoder selection policy for a multi-antenna transmitter |
CN111683381A (zh) * | 2020-04-28 | 2020-09-18 | 南京邮电大学 | 基于深度强化学习的端到端网络切片资源分配算法 |
CN112295237A (zh) * | 2020-10-19 | 2021-02-02 | 深圳大学 | 一种基于深度强化学习的决策方法 |
CN213152244U (zh) * | 2020-11-12 | 2021-05-07 | 成都壹唯视信息技术有限公司 | 超高清4k直播终端 |
Non-Patent Citations (5)
Title |
---|
JIE PAN,XUESONG WANG,YUHU CHENG,AN: "《Multisource Transfer Double DQN Based on Actor Learning》", 《IEEE TRANSACTIONS ON NEURAI, NETWORKS AND,LEARNING SYSTEMS》 * |
丁丹等: "基于深度学习的测控数据传输技术", 《无线电工程》 * |
朱小琴等: "基于深度强化学习的电力通信网路由策略", 《科学技术创新》 * |
李孜恒;孟超;: "基于深度强化学习的无线网络资源分配算法" * |
牟治宇,张煌,范典,刘君,高飞飞: "《基于深度强化学习的无人机数据采集和路径规划研究》", 《物联网学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113660159B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108173778B (zh) | 基于业务分类的电力信息采集系统数据处理方法 | |
CN105024940B (zh) | 基于链路自适应的异构网络tcp拥塞控制方法 | |
CN105208624B (zh) | 一种异构无线网络中基于业务的多接入网络选择系统及方法 | |
CN107295598B (zh) | 一种适用于能量和信息同传网络分组的中继选择方法 | |
CN106211339B (zh) | 车联网系统中的资源分配的方法及设备 | |
CN104185248A (zh) | 一种基于分级的异构网联合接入控制方法 | |
CN103607737B (zh) | 一种异构网络业务分流方法及系统 | |
CN105636213A (zh) | 异构c-ran网络及该网络下的d2d通信模式选择与资源调度联合优化方法 | |
CN102104538A (zh) | 一种映射参数动态自适应的无线流媒体传输控制方法 | |
CN109905330B (zh) | 一种基于队列长度的动态加权公平队列列车网络调度方法 | |
CN114884895A (zh) | 一种基于深度强化学习的智能流量调度方法 | |
CN107911856A (zh) | 一种超密集异构网络中基于匹配博弈的分离多接入方法 | |
Coronado et al. | Dynamic AIFSN tuning for improving the QoS over IEEE 802.11 WLANs | |
CN113660159B (zh) | 一种基于强化学习的多径动态复用与分组传输方法 | |
CN102724763A (zh) | 一种基于二维优先级的时域分组调度方法 | |
CN113453358A (zh) | 一种无线携能d2d网络的联合资源分配方法 | |
CN110611939B (zh) | 一种基于mesh结构的配电网监测数据智能传输方法 | |
CN101877913B (zh) | Lte系统中用户调度方法 | |
CN102118183B (zh) | 电力载波通信方法及装置 | |
CN107071919B (zh) | 一种基于丢包率的lte下行实时业务调度改进方法 | |
CN112367638A (zh) | 城市轨道交通车车通信智能频谱选择方法 | |
Ning et al. | Fuzzy clustering based group vertical handover decision for heterogeneous wireless networks | |
CN116347635A (zh) | 一种基于NOMA和多智能体强化学习的NB-IoT无线资源分配方法 | |
CN115021399A (zh) | 一种适配园区多能源供电网络的拓扑辨识方法及装置 | |
CN102202402B (zh) | 无线传感器网络的最小竞争窗口策略mac层信道分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |