CN113660159A - 一种基于强化学习的多径动态复用与分组传输方法 - Google Patents

一种基于强化学习的多径动态复用与分组传输方法 Download PDF

Info

Publication number
CN113660159A
CN113660159A CN202110838114.3A CN202110838114A CN113660159A CN 113660159 A CN113660159 A CN 113660159A CN 202110838114 A CN202110838114 A CN 202110838114A CN 113660159 A CN113660159 A CN 113660159A
Authority
CN
China
Prior art keywords
reinforcement learning
transmission
action
link
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110838114.3A
Other languages
English (en)
Other versions
CN113660159B (zh
Inventor
杨飞
刘永庆
黎涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Yiweishi Information Technology Co ltd
Original Assignee
Chengdu Yiweishi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Yiweishi Information Technology Co ltd filed Critical Chengdu Yiweishi Information Technology Co ltd
Priority to CN202110838114.3A priority Critical patent/CN113660159B/zh
Publication of CN113660159A publication Critical patent/CN113660159A/zh
Application granted granted Critical
Publication of CN113660159B publication Critical patent/CN113660159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/24Multipath
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于强化学习的多径动态复用与分组传输方法,1)将时间划分为以100ms为长度的时间片,并进行顺序编号1,2,……,t,t+1,……;2)在每一个时间片的尾部,收集影响和反映各个链路传输质量的因素,将这些数据进行标准化后做为外部环境观测值;本发明基于深度强化学习的链路捆绑传输技术,将链路捆绑传输控制作为智能体,将传输中影响链路质量的因素作为环境,链路后续的传输质量和稳定性作为奖励和惩罚,从而建立强化学习模型,通过深度神经网络对策略进行不断优化,从而达到不断优化传输策略的目的;具备更好的前瞻性。

Description

一种基于强化学习的多径动态复用与分组传输方法
技术领域
本发明属基于强化学习的多径动态复用与分组传输技术技术领域,具体涉及一种基于强化学习的多径动态复用与分组传输方法。
背景技术
多链路捆绑传输技术是指采用多条传输链路(包括有线网络、wifi或者3g/4g/5g)间协同配合,共同对同一业务的数据进行整体传输的数据通讯解决方案。多链路捆绑传输解决了同一业务数据只能利用单一链路进行传输的问题,大大提高了数据传输的效率和容错性。单一链路传输具有带宽受限、容错性差的特点,一旦链路出现问题,整体传输将会受阻或者变得很差,极大影响了数据传输的质量。对一些实时性要求较高的场景,比如视频直播和应急通讯等业务领域,越来越难于被使用者所接受。同时随着5g技术的逐渐普及以及多运营商的存在,多种传输链路并存也为多链路捆绑传输提供了广阔的应用前景。传统的链路捆绑传输技术多采用基于多缓冲区的链路带宽和数据分配策略。通过对传输的链路建立缓冲区,并对链路传输中即时速率、缓冲占用比例、丢包率、时延以及传输底层链路反馈的实时参数等进行跟踪和评估,采用加权方式建立链路的评估模型,并依据评估结果对链路进行动态的带宽和数据分配。由于影响传输的因素非常多,并且变化快,因此传统的方式很难精确界定因素变化对传输链路的影响,从而难以做出最有效的策略调整,从而最大化传输效率。
发明内容
本发明的目的在于提供一种基于强化学习的多径动态复用与分组传输方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于强化学习的多径动态复用与分组传输方法,
1)将时间划分为以100ms为长度的时间片,并进行顺序编号1,2,……,t,t+1,……;
2)在每一个时间片的尾部,收集影响和反映各个链路传输质量的因素,将这些数据进行标准化后做为外部环境观测值;这些因素包含如下项:
Wifi或者3g/4g/5g链路信号强度Signal(t);
单个链路的接收数据的瞬时速率RecvRate(t);
单个链路的短时接收延时Latency(t);
单个链路的短时丢包率Drop(t);
单个链路的短时发送速率SendRate(t);
发送缓冲的占用率Buffer(t);
记当前的状态值为S(t),S(t)=(RecvRate(t),RecvRate(t),Latency(t),Drop(t),SendRate(t),Buffer(t));
观测值S(t)将作为强化学习的环境状态值进入到深度强化学习的算法流程;
3)定义强化学习的动作Action(t);定义的动作包括:增加链路传输速率(分0.3%,1%,1.5%,3%几种选择),维持链路速率不变,减小速率(分0.3%,1%,3%,10%,30%,50%几种选择);每一种action定义为一个值;Action(t)={0,1,2,3,……n},每一个值代表了一种动作,每一次获取到S(t)后,都将会用强化学习的模型计算出一个特定的值作为该次观测值对应的动作;
4)记录采取动作后的惩罚或者奖励值,在采取了Action(t)后,将是否提升了传输的速率和质量的效果记录为Reward(t);影响传输效果的衡量标准包括:
链路捆绑整体传输速率变化ΔRate(t);
重传率变化ΔRetrans(t);
缓冲大小变化ΔBuffer(t);
时延变化ΔDelay(t);
通过多种奖励值的加权,计算出整体的奖励值,从而作为强化学习的奖励值:
Reward(t)=w0*ΔRate(t)+w1*ΔRetrans(t)+w2*ΔBuffer(t)+w3*ΔDelay(t);
5)使用DQN深度强化学习技术,在实际的多链路传输中,不断产生新的数据来对评估和策略网络进行训练,最终产生出优化的DQN模型;得到上述的S(t),Action(t)以及Reward(t)后,可以使用DQN算法来进行训练,从而产生出最终的策略。
优选的,action产生的结果是具有一定的滞后性的,因此在匹配action和相应的Reward的时候,Reward的时间点需要往后推移Δt,这个时间偏差需要根据时延来进行调整。
优选的,义强化学习的动作Action(t)的实际采样中,将按照强化学习模型的训练过程,记录每一个时刻的状态值S(t),以及输出的相应Action(t),并在采取这个action后的后续效果进行记录。
与现有技术相比,本发明的有益效果是:本发明基于深度强化学习的链路捆绑传输技术,将链路捆绑传输控制作为智能体,将传输中影响链路质量的因素作为环境,链路后续的传输质量和稳定性作为奖励和惩罚,从而建立强化学习模型,通过深度神经网络对策略进行不断优化,从而达到不断优化传输策略的目的;具备更好的前瞻性,简单的逻辑判断和静态的计算很难对状态变化做出具备更好前瞻性的动作;因为当前状态值往往只是一个截面,需要结合状态值在时间轴上的变化情况,才能更好的进行未来趋势的预判;强化学习的优势就是能在时间上对状态及动作进行跟踪和迭代,从而产生具备较好预判的较优策略。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明提供一种基于强化学习的多径动态复用与分组传输方法技术方案:一种基于强化学习的多径动态复用与分组传输方法,
1)将时间划分为以100ms为长度的时间片,并进行顺序编号1,2,……,t,t+1,……;
2)在每一个时间片的尾部,收集影响和反映各个链路传输质量的因素,将这些数据进行标准化后做为外部环境观测值;这些因素包含如下项:
Wifi或者3g/4g/5g链路信号强度Signal(t);
单个链路的接收数据的瞬时速率RecvRate(t);
单个链路的短时接收延时Latency(t);
单个链路的短时丢包率Drop(t);
单个链路的短时发送速率SendRate(t);
发送缓冲的占用率Buffer(t);
记当前的状态值为S(t),S(t)=(RecvRate(t),RecvRate(t),Latency(t),Drop(t),SendRate(t),Buffer(t));
观测值S(t)将作为强化学习的环境状态值进入到深度强化学习的算法流程;
3)定义强化学习的动作Action(t);定义的动作包括:增加链路传输速率(分0.3%,1%,1.5%,3%几种选择),维持链路速率不变,减小速率(分0.3%,1%,3%,10%,30%,50%几种选择);每一种action定义为一个值;Action(t)={0,1,2,3,……n},每一个值代表了一种动作,每一次获取到S(t)后,都将会用强化学习的模型计算出一个特定的值作为该次观测值对应的动作;
4)记录采取动作后的惩罚或者奖励值,在采取了Action(t)后,将是否提升了传输的速率和质量的效果记录为Reward(t);影响传输效果的衡量标准包括:
链路捆绑整体传输速率变化ΔRate(t);
重传率变化ΔRetrans(t);
缓冲大小变化ΔBuffer(t);
时延变化ΔDelay(t);
通过多种奖励值的加权,计算出整体的奖励值,从而作为强化学习的奖励值:
Reward(t)=w0*ΔRate(t)+w1*ΔRetrans(t)+w2*ΔBuffer(t)+w3*ΔDelay(t);
5)使用DQN深度强化学习技术,在实际的多链路传输中,不断产生新的数据来对评估和策略网络进行训练,最终产生出优化的DQN模型;得到上述的S(t),Action(t)以及Reward(t)后,可以使用DQN算法来进行训练,从而产生出最终的策略。
本实施例中,优选的,action产生的结果是具有一定的滞后性的,因此在匹配action和相应的Reward的时候,Reward的时间点需要往后推移Δt,这个时间偏差需要根据时延来进行调整。
本实施例中,优选的,义强化学习的动作Action(t)的实际采样中,将按照强化学习模型的训练过程,记录每一个时刻的状态值S(t),以及输出的相应Action(t),并在采取这个action后的后续效果进行记录。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (3)

1.一种基于强化学习的多径动态复用与分组传输方法,其特征在于:
1)将时间划分为以100ms为长度的时间片,并进行顺序编号1,2,……,t,t+1,……;
2)在每一个时间片的尾部,收集影响和反映各个链路传输质量的因素,将这些数据进行标准化后做为外部环境观测值;这些因素包含如下项:
Wifi或者3g/4g/5g链路信号强度Signal(t);
单个链路的接收数据的瞬时速率RecvRate(t);
单个链路的短时接收延时Latency(t);
单个链路的短时丢包率Drop(t);
单个链路的短时发送速率SendRate(t);
发送缓冲的占用率Buffer(t);
记当前的状态值为S(t),S(t)=(RecvRate(t),RecvRate(t),Latency(t),Drop(t),SendRate(t),Buffer(t));
观测值S(t)将作为强化学习的环境状态值进入到深度强化学习的算法流程;
3)定义强化学习的动作Action(t);定义的动作包括:增加链路传输速率(分0.3%,1%,1.5%,3%几种选择),维持链路速率不变,减小速率(分0.3%,1%,3%,10%,30%,50%几种选择);每一种action定义为一个值;Action(t)={0,1,2,3,……n},每一个值代表了一种动作,每一次获取到S(t)后,都将会用强化学习的模型计算出一个特定的值作为该次观测值对应的动作;
4)记录采取动作后的惩罚或者奖励值,在采取了Action(t)后,将是否提升了传输的速率和质量的效果记录为Reward(t);影响传输效果的衡量标准包括:
链路捆绑整体传输速率变化ΔRate(t);
重传率变化ΔRetrans(t);
缓冲大小变化ΔBuffer(t);
时延变化ΔDelay(t);
通过多种奖励值的加权,计算出整体的奖励值,从而作为强化学习的奖励值:
Reward(t)=w0*ΔRate(t)+w1*ΔRetrans(t)+w2*ΔBuffer(t)+w3*ΔDelay(t);
5)使用DQN深度强化学习技术,在实际的多链路传输中,不断产生新的数据来对评估和策略网络进行训练,最终产生出优化的DQN模型;得到上述的S(t),Action(t)以及Reward(t)后,可以使用DQN算法来进行训练,从而产生出最终的策略。
2.根据权利要求1所述的一种基于强化学习的多径动态复用与分组传输方法,其特征在于:action产生的结果是具有一定的滞后性的,因此在匹配action和相应的Reward的时候,Reward的时间点需要往后推移Δt,这个时间偏差需要根据时延来进行调整。
3.根据权利要求1所述的一种基于强化学习的多径动态复用与分组传输方法,其特征在于:定义强化学习的动作Action(t)的实际采样中,将按照强化学习模型的训练过程,记录每一个时刻的状态值S(t),以及输出的相应Action(t),并在采取这个action后的后续效果进行记录。
CN202110838114.3A 2021-07-23 2021-07-23 一种基于强化学习的多径动态复用与分组传输方法 Active CN113660159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110838114.3A CN113660159B (zh) 2021-07-23 2021-07-23 一种基于强化学习的多径动态复用与分组传输方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110838114.3A CN113660159B (zh) 2021-07-23 2021-07-23 一种基于强化学习的多径动态复用与分组传输方法

Publications (2)

Publication Number Publication Date
CN113660159A true CN113660159A (zh) 2021-11-16
CN113660159B CN113660159B (zh) 2023-04-18

Family

ID=78477735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110838114.3A Active CN113660159B (zh) 2021-07-23 2021-07-23 一种基于强化学习的多径动态复用与分组传输方法

Country Status (1)

Country Link
CN (1) CN113660159B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120133402A1 (en) * 2010-11-30 2012-05-31 Elpida Memory, Inc. Semiconductor device having multiplexer
US20190286979A1 (en) * 2018-03-14 2019-09-19 Electronic Arts Inc. Reinforcement Learning for Concurrent Actions
CN110555584A (zh) * 2019-07-17 2019-12-10 浙江工业大学 一种基于深度强化学习的自动化停车场调度方法
GB2577741A (en) * 2018-10-05 2020-04-08 Airspan Networks Inc An apparatus and method for configuring a communication link
WO2020134507A1 (zh) * 2018-12-28 2020-07-02 北京邮电大学 无人机网络路由构建方法、无人机及存储介质
CN111683381A (zh) * 2020-04-28 2020-09-18 南京邮电大学 基于深度强化学习的端到端网络切片资源分配算法
CN112295237A (zh) * 2020-10-19 2021-02-02 深圳大学 一种基于深度强化学习的决策方法
WO2021049984A1 (en) * 2019-09-12 2021-03-18 Telefonaktiebolaget Lm Ericsson (Publ) Provision of precoder selection policy for a multi-antenna transmitter
CN213152244U (zh) * 2020-11-12 2021-05-07 成都壹唯视信息技术有限公司 超高清4k直播终端

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120133402A1 (en) * 2010-11-30 2012-05-31 Elpida Memory, Inc. Semiconductor device having multiplexer
US20190286979A1 (en) * 2018-03-14 2019-09-19 Electronic Arts Inc. Reinforcement Learning for Concurrent Actions
GB2577741A (en) * 2018-10-05 2020-04-08 Airspan Networks Inc An apparatus and method for configuring a communication link
WO2020134507A1 (zh) * 2018-12-28 2020-07-02 北京邮电大学 无人机网络路由构建方法、无人机及存储介质
US20200359297A1 (en) * 2018-12-28 2020-11-12 Beijing University Of Posts And Telecommunications Method of Route Construction of UAV Network, UAV and Storage Medium thereof
CN110555584A (zh) * 2019-07-17 2019-12-10 浙江工业大学 一种基于深度强化学习的自动化停车场调度方法
WO2021049984A1 (en) * 2019-09-12 2021-03-18 Telefonaktiebolaget Lm Ericsson (Publ) Provision of precoder selection policy for a multi-antenna transmitter
CN111683381A (zh) * 2020-04-28 2020-09-18 南京邮电大学 基于深度强化学习的端到端网络切片资源分配算法
CN112295237A (zh) * 2020-10-19 2021-02-02 深圳大学 一种基于深度强化学习的决策方法
CN213152244U (zh) * 2020-11-12 2021-05-07 成都壹唯视信息技术有限公司 超高清4k直播终端

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JIE PAN,XUESONG WANG,YUHU CHENG,AN: "《Multisource Transfer Double DQN Based on Actor Learning》", 《IEEE TRANSACTIONS ON NEURAI, NETWORKS AND,LEARNING SYSTEMS》 *
丁丹等: "基于深度学习的测控数据传输技术", 《无线电工程》 *
朱小琴等: "基于深度强化学习的电力通信网路由策略", 《科学技术创新》 *
李孜恒;孟超;: "基于深度强化学习的无线网络资源分配算法" *
牟治宇,张煌,范典,刘君,高飞飞: "《基于深度强化学习的无人机数据采集和路径规划研究》", 《物联网学报》 *

Also Published As

Publication number Publication date
CN113660159B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN108173778B (zh) 基于业务分类的电力信息采集系统数据处理方法
CN105024940B (zh) 基于链路自适应的异构网络tcp拥塞控制方法
CN105208624B (zh) 一种异构无线网络中基于业务的多接入网络选择系统及方法
CN107295598B (zh) 一种适用于能量和信息同传网络分组的中继选择方法
CN106211339B (zh) 车联网系统中的资源分配的方法及设备
CN104185248A (zh) 一种基于分级的异构网联合接入控制方法
CN103607737B (zh) 一种异构网络业务分流方法及系统
CN105636213A (zh) 异构c-ran网络及该网络下的d2d通信模式选择与资源调度联合优化方法
CN102104538A (zh) 一种映射参数动态自适应的无线流媒体传输控制方法
CN109905330B (zh) 一种基于队列长度的动态加权公平队列列车网络调度方法
CN114884895A (zh) 一种基于深度强化学习的智能流量调度方法
CN107911856A (zh) 一种超密集异构网络中基于匹配博弈的分离多接入方法
Coronado et al. Dynamic AIFSN tuning for improving the QoS over IEEE 802.11 WLANs
CN113660159B (zh) 一种基于强化学习的多径动态复用与分组传输方法
CN102724763A (zh) 一种基于二维优先级的时域分组调度方法
CN113453358A (zh) 一种无线携能d2d网络的联合资源分配方法
CN110611939B (zh) 一种基于mesh结构的配电网监测数据智能传输方法
CN101877913B (zh) Lte系统中用户调度方法
CN102118183B (zh) 电力载波通信方法及装置
CN107071919B (zh) 一种基于丢包率的lte下行实时业务调度改进方法
CN112367638A (zh) 城市轨道交通车车通信智能频谱选择方法
Ning et al. Fuzzy clustering based group vertical handover decision for heterogeneous wireless networks
CN116347635A (zh) 一种基于NOMA和多智能体强化学习的NB-IoT无线资源分配方法
CN115021399A (zh) 一种适配园区多能源供电网络的拓扑辨识方法及装置
CN102202402B (zh) 无线传感器网络的最小竞争窗口策略mac层信道分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant