CN114710410B - 基于深度强化学习的网络数据采集效率优化方法及系统 - Google Patents

基于深度强化学习的网络数据采集效率优化方法及系统 Download PDF

Info

Publication number
CN114710410B
CN114710410B CN202210634436.0A CN202210634436A CN114710410B CN 114710410 B CN114710410 B CN 114710410B CN 202210634436 A CN202210634436 A CN 202210634436A CN 114710410 B CN114710410 B CN 114710410B
Authority
CN
China
Prior art keywords
information
characteristic
feature
state
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210634436.0A
Other languages
English (en)
Other versions
CN114710410A (zh
Inventor
潘成胜
杨力
戚耀文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Science and Technology
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology, Nanjing University of Information Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202210634436.0A priority Critical patent/CN114710410B/zh
Publication of CN114710410A publication Critical patent/CN114710410A/zh
Application granted granted Critical
Publication of CN114710410B publication Critical patent/CN114710410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • H04L41/083Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability for increasing network speed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • H04L41/0833Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability for reduction of network energy consumption
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于深度强化学习的网络数据采集效率优化方法及系统,优化方法包括:通过分析网络特征状态数据信息,建立动态多服务台队列模型和异质特征数据信息年龄模型;定义优化前后不同特征数据的信息年龄、服务器接收队列长度以及路由效果为损失函数,建立问题约束模型,通过深度强化学习求解不同特征数据更新频率间隔,改善不同特征状态数据的更新频率对路由性能的影响。网络终端采集特征状态数据并送达控制器的过程满足负指数分布,能够计算服务器接收不同类型特征数据的最佳更新频率,结果表明该优化方法能够有效提升系统时效性和路由选取有效性;能够有效应对车际移动自组网信息时效性差、队列资源受限等问题。

Description

基于深度强化学习的网络数据采集效率优化方法及系统
技术领域
本发明涉及网络数据采集领域,具体涉及一种基于深度强化学习的网络数据采集效率优化方法及系统。
背景技术
车联网的应用场景常伴随着高机动性,复杂地理环境和电磁环境,造成车际移动自组网链路频繁切换,且资源受限。车辆通常搭载多类不同频段电台,在进行全局路由规划时,需实时采集各节点通信设备的工作和故障状态数据,以保证路由规划的合理性和有效性。
为了在数据采集过程中衡量信息的时效性,专家学者提出了信息年龄(AoI, Ageof Information)这一概念。信息年龄是服务器收到传感器发送信息经过的时间间隔。若间隔过大,则证明信息处于过期状态;若间隔过小,则单位时间内信息更新频率过高,易造成处理节点拥塞。为寻找合理的信息更新间隔,专家学者对此进行了大量研究。AlirezaJavani推导了任意数量信息源的AoI表达式,研究了单个源情况下每个服务器的最佳到达率。Yao Zhao解决了在主要用户的平均AoI约束下,通过可约束马尔科夫过程开发新的最优状态更新和数据包中继方案,来最小化平均AoI和能耗的问题。Xi Zhang在多媒体无线网络中验证和评价了基于AoI的统计延迟有界QoS配置方案,提高多媒体无线网络中平稳遍历优先服务M/M/1信道的去有界QoS性能。Melih Bastopcu在最小信息质量更新需求的限制下,通过求解所期望的信息失真水平,来确定接收机更新请求时间和发射机更新处理时间的信息年龄最优策略。Alkan Soysal推导了G/G/1/1系统的信息年龄模型,并利用该模型证明了到达率和服务率的关系,给出了信息年龄上界。Cheng Hu分别从信息年龄和数据率两方面调查了系统的及时性和效率,给出了最优功率分割比和最优加权系数。Yunquan Dong研究了决策时刻的年龄(AuD)来描述在决策时刻接收到信息更新的新鲜度。Vishrant Tripathi基于移动代理随机移动轨迹的最小化信息的峰值和平均信息年龄,作为衡量信息及时性的指标。
学者们的研究对各种情况下的最优信息年龄进行了讨论,能够有效的建立信息时效性模型,但是车际移动自组网呈现出高度动态性的网络状态和稀缺的网络资源需要其具备动态变化的信息感知模型。传统信息年龄模型只对传感器定时发送的网络状态信息进行描述,大多只计算峰值信息年龄和平均信息年龄,尚未能根据特征数据类型不同动态调整信息采集间隔。现有采集技术对感知网络特征状态信息的感知较少,难以根据不同传输需求配置网络资源,尚未有学者研究多特征状态类型对路由规划的影响,并建立信息年龄模型。
发明内容
本发明的目的在于提出一种基于深度强化学习的网络数据采集效率优化方法及系统,用于提升信息采集效率,提升系统时效性,降低网络丢包率。
实现本发明目的的技术解决方案为:第一方面,本发明提供一种基于深度强化学习的网络数据采集效率优化方法,包括:
将采集到的信息与路由规划影响特征参数进行对比,选择对路由规划影响权重更高的特征状态数据集;
建立动态多服务台队列模型,结合队列模型构建异质特征数据信息年龄模型;
通过深度强化学习求解不同特征数据更新频率间隔,定义优化前后各特征数据的信息年龄、服务器接收队列长度以及路由效果为损失函数,建立问题约束模型。
第二方面,本发明提供一种基于深度强化学习的网络数据采集效率优化系统,包括:
特征数据分析模块,用于将采集到的信息与路由规划影响特征参数进行对比,选择对路由规划影响权重更高的特征状态数据集;
处理队列与信息年龄构建模块,用于建立动态多服务台队列模型,结合队列模型构建异质特征数据信息年龄模型;
深度学习求解模块,通过深度强化学习求解不同特征数据更新频率间隔,定义优化前后各特征数据的信息年龄、服务器接收队列长度以及路由效果为损失函数,建立问题约束模型。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的基于深度强化学习的网络数据采集效率优化方法。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的基于深度强化学习的网络数据采集效率优化方法。
与现有技术相比,本发明的有益效果为:
(1)采用的深度强化学习模型,能够根据系统性能动态调整,找到最优网络信息年龄,所以能够提升系统时效性;
(2)采用的深度强化学习模型,能够在队列长度与信息年龄之间找到动态平衡点,所以能够优化队列负载,降低系统丢包率;
(3)因为采用信息熵预处理状态特征集,能够快速选择高权重特征优化,所以能够提升算法收敛速度。
附图说明
图1是状态更新频率示意图。
图2是特征数据的单链路信息年龄示意图。
图3是深度强化学习过程示意图。
图4是多算法平均信息年龄对比图。
图5是多算法平均队列长度对比图。
图6是多算法平均丢包率对比图。
图7是多算法收敛速度对比图。
具体实施方式
车际移动自组网结构复杂,网络拓扑动态变化,如何实时检测网络状态是优化远程控制的工作重点,为了保证来自传感器的信息尽可能新鲜,本发明提出一种基于深度强化学习的网络数据采集效率优化方法,将对车载移动自组网中影响路由规划的异质特征信息进行分析,建立服务器端多处理队列模型,对信息年龄进行建模并优化。
A.特征状态数据分析
车载移动自组网中产生、承载的网络业务种类繁多,不同类型业务的特征表现差异性较大,特征状态携带的信息对路由规划的影响权重不同,传感器将按照不同频率定期向服务器发送特征状态数据包。为了提高单位长度内传感器向服务器发送数据的重要度,本发明将网络连接状态、电台频率、工作模式、带宽、端到端时延等特征信息记为特征状态集
Figure 33955DEST_PATH_IMAGE001
,其中
Figure 384033DEST_PATH_IMAGE002
表示第
Figure 97911DEST_PATH_IMAGE003
个特征,保留与路由规划影响因子
Figure 931176DEST_PATH_IMAGE004
相关性较大的特征
Figure 123123DEST_PATH_IMAGE005
,删除相关性较小的特征
Figure 593288DEST_PATH_IMAGE006
,能够降低算法时间复杂度。
假设特征状态集为
Figure 743647DEST_PATH_IMAGE007
Figure 807417DEST_PATH_IMAGE008
可描述路由规划影响因子的
Figure 803055DEST_PATH_IMAGE009
维特征属性,
Figure 268672DEST_PATH_IMAGE010
可描述数据样本的
Figure 327282DEST_PATH_IMAGE011
维特征属性。
Figure 143928DEST_PATH_IMAGE012
之间的互信息可以理解为在
Figure 802312DEST_PATH_IMAGE013
中包含关于
Figure 388014DEST_PATH_IMAGE014
的信息量,即集合
Figure 614596DEST_PATH_IMAGE015
Figure 387380DEST_PATH_IMAGE014
重叠的部分,被定义为
Figure 990399DEST_PATH_IMAGE016
Figure 433538DEST_PATH_IMAGE017
Figure 690076DEST_PATH_IMAGE018
是特征状态数据集
Figure 543631DEST_PATH_IMAGE019
的信息熵,
Figure 684762DEST_PATH_IMAGE020
是已知特征集
Figure 979477DEST_PATH_IMAGE021
的情况下,特征集
Figure 547862DEST_PATH_IMAGE014
Figure 563747DEST_PATH_IMAGE022
的条件熵,
Figure 508569DEST_PATH_IMAGE023
代表
Figure 657791DEST_PATH_IMAGE024
的值取为
Figure 662656DEST_PATH_IMAGE025
时的边缘概率分布,
Figure 162907DEST_PATH_IMAGE026
代表
Figure 504896DEST_PATH_IMAGE014
的值取为
Figure 39782DEST_PATH_IMAGE027
时的边缘概率分布,
Figure 699039DEST_PATH_IMAGE028
Figure 686586DEST_PATH_IMAGE029
的联合分布概率。
固定路由规划影响因子
Figure 973211DEST_PATH_IMAGE014
,计算互信息
Figure 97025DEST_PATH_IMAGE030
,将互信息集记为
Figure 443693DEST_PATH_IMAGE031
在特征状态集
Figure 652957DEST_PATH_IMAGE013
和路由影响因子集
Figure 71169DEST_PATH_IMAGE014
两个特征集之间计算对称不确定性
Figure 317998DEST_PATH_IMAGE032
,通过对称不确定性将特征集
Figure 569988DEST_PATH_IMAGE013
按照与集合
Figure 532128DEST_PATH_IMAGE014
的相关性从大到小排序,从而获得对路由规划影响最大的特征,
Figure 894976DEST_PATH_IMAGE032
的定义如下。
两个特征集之间对称不确定性
Figure 993382DEST_PATH_IMAGE032
的定义如下所示:
Figure 540907DEST_PATH_IMAGE033
其中
Figure 724764DEST_PATH_IMAGE034
为信息增益,
Figure 894233DEST_PATH_IMAGE035
为特征状态集X的信息熵,E(Y)特征状态集Y的信息熵,
Figure 112724DEST_PATH_IMAGE036
表示特征集Y对特征集X进行划分后的条件熵。
Figure 706517DEST_PATH_IMAGE037
的取值范围在0与1之间,取值越接近1,
Figure 112090DEST_PATH_IMAGE038
Figure 206954DEST_PATH_IMAGE039
的相关性越大。
计算每个特征
Figure 279952DEST_PATH_IMAGE038
Figure 44646DEST_PATH_IMAGE039
之间的相关性,记为
Figure 940445DEST_PATH_IMAGE040
,用于判断一个特征是否与类别相关。通过序列浮动前向选择算法在大量候选特征
Figure 183208DEST_PATH_IMAGE041
中利用阈值
Figure 376292DEST_PATH_IMAGE042
进行初步筛选,获取与目标类别
Figure 436520DEST_PATH_IMAGE043
相关的特征子集
Figure 285528DEST_PATH_IMAGE044
Figure 191036DEST_PATH_IMAGE044
满足
Figure 964258DEST_PATH_IMAGE045
。将
Figure 70754DEST_PATH_IMAGE044
中各特征
Figure 62850DEST_PATH_IMAGE046
按照
Figure 178573DEST_PATH_IMAGE047
值的大小进行降序排列,根据
Figure 549512DEST_PATH_IMAGE047
的排序结果定义特征信息状态更新频率。然后取互信息集F与特征子集
Figure 92489DEST_PATH_IMAGE044
的交集
Figure 181667DEST_PATH_IMAGE048
Figure 963066DEST_PATH_IMAGE048
满足
Figure 454090DEST_PATH_IMAGE049
,剔除冗余特征
Figure 902389DEST_PATH_IMAGE050
后,使
Figure 744443DEST_PATH_IMAGE048
描述的相关度达到最优并按相关性从大到小排列。
B.系统队列模型
设网络中独立终端被记
Figure 201969DEST_PATH_IMAGE051
,终端将不断收集网络信息,定期将这些信息发送至服务器
Figure 672134DEST_PATH_IMAGE052
,服务器收到信息后对路由组网过程进行全局规划。不同类型的数据对路由决策的影响程度不同,在给定路由影响因子
Figure 559843DEST_PATH_IMAGE039
后,计算
Figure 889193DEST_PATH_IMAGE053
Figure 884831DEST_PATH_IMAGE043
的互信息集与对称不确定性,得到按影响路由规划权重从大到小排列的特征数据集
Figure 350447DEST_PATH_IMAGE054
独立终端
Figure 671707DEST_PATH_IMAGE055
设置信息处理模块,时刻
Figure 957195DEST_PATH_IMAGE056
获得特征数据集
Figure 881158DEST_PATH_IMAGE057
包含的网络特征信息,将特征数据包记为
Figure 204210DEST_PATH_IMAGE058
以不同的信息更新频率分布
Figure 430792DEST_PATH_IMAGE059
Figure 469155DEST_PATH_IMAGE060
发送
Figure 72175DEST_PATH_IMAGE061
状态更新心跳包,
Figure 512384DEST_PATH_IMAGE062
服从负指数分布,且互相独立。如图1所示。
现有车联网服务器具备一定的并行计算能力,假设服务器
Figure 909867DEST_PATH_IMAGE063
的队列单元,满足M/M/h/R多处理队列混合制模型,从独立终端
Figure 294581DEST_PATH_IMAGE064
发送的特征状态信息xi的到达率服从参数为
Figure 450361DEST_PATH_IMAGE065
的负指数分布,节点
Figure 745076DEST_PATH_IMAGE066
关于所有状态特征信息更新的到达率为
Figure 47881DEST_PATH_IMAGE067
。处理队列数量为
Figure 326416DEST_PATH_IMAGE068
Figure 130292DEST_PATH_IMAGE069
的处理队列服务率服从参数为
Figure 13935DEST_PATH_IMAGE070
的负指数分布,系统的剩余队列资源容量为
Figure 487641DEST_PATH_IMAGE071
。当
Figure 990823DEST_PATH_IMAGE071
未被完全占用且暂时无法提供服务时,特征状态信息将进入队列等待;当
Figure 739336DEST_PATH_IMAGE071
被完全占用后,系统将发生丢包。
首先计算稳态条件下
Figure 867698DEST_PATH_IMAGE072
的队列长度的分布
Figure 43464DEST_PATH_IMAGE073
,特征
Figure 765432DEST_PATH_IMAGE074
的到达率和服务率满足以下方程。
Figure 786478DEST_PATH_IMAGE075
Figure 175871DEST_PATH_IMAGE076
,当
Figure 259889DEST_PATH_IMAGE077
时,
Figure 469154DEST_PATH_IMAGE078
其中
Figure 418524DEST_PATH_IMAGE079
对多队列排队系统,稳态条件下可得服务器
Figure 662424DEST_PATH_IMAGE060
对特征数据
Figure 914413DEST_PATH_IMAGE080
的平均排队长
Figure 610974DEST_PATH_IMAGE081
为:
Figure 239401DEST_PATH_IMAGE082
特征数据
Figure 75158DEST_PATH_IMAGE083
的平均等待时间为:
Figure 763628DEST_PATH_IMAGE084
C.信息年龄
信息年龄是衡量系统时效性的重要指标,具体表现为不同特征信息的更新频率,相当于在服务器节点采集终端节点的状态信息。而在现有车载移动自组网中限制信息年龄的条件有两点,一是服务器端计算效率,计算效率低可直接体现在队列长度,当终端节点的信息更新频率趋近于0时,相当于泛洪信息攻击,服务器队列长度始终保持大于
Figure 806539DEST_PATH_IMAGE085
,系统会发生严重丢包,破坏网络连通性。二是终端节点发送速率,若将发送状态信息更新的间隔定义为一天,则实时性同样无法保障。
为此,给定信息更新间隔
Figure 238658DEST_PATH_IMAGE086
并假设遍历性,在尽量保证系统队列长度接近阈值
Figure 925991DEST_PATH_IMAGE087
的前提下,可以通过分配各特征状态信息更新间隔,来保证路由策略的实时性。
特征信息
Figure 378838DEST_PATH_IMAGE088
Figure 775622DEST_PATH_IMAGE089
时刻进入
Figure 480273DEST_PATH_IMAGE060
的接收队列,记该服务时间为
Figure 553271DEST_PATH_IMAGE090
Figure 317965DEST_PATH_IMAGE091
为独立终端
Figure 476414DEST_PATH_IMAGE092
的发送时延,
Figure 843810DEST_PATH_IMAGE093
Figure 36894DEST_PATH_IMAGE094
Figure 975419DEST_PATH_IMAGE095
的传输时延。特征信息
Figure 355585DEST_PATH_IMAGE088
Figure 667617DEST_PATH_IMAGE096
时刻被
Figure 574262DEST_PATH_IMAGE060
响应,记该服务时间为
Figure 946338DEST_PATH_IMAGE097
Figure 548220DEST_PATH_IMAGE098
代表特征下次状态更新的时刻,记该等待时间为
Figure 663944DEST_PATH_IMAGE099
如图2所示,给定特征信息
Figure 568971DEST_PATH_IMAGE100
的信息年龄过程
Figure 846368DEST_PATH_IMAGE101
并假设其遍历性,可以通过收敛至其相应随机的样本均值来建立平均信息年龄模型。状态更新的平均年龄是图中阴影部分按时间间隔归一化的面积,在时间区间[0, T]内,每个特征数据
Figure 466705DEST_PATH_IMAGE102
的状态更新的平均信息年龄为:
Figure 854961DEST_PATH_IMAGE103
Figure 877144DEST_PATH_IMAGE104
趋向于无穷大时,可以认为
Figure 450077DEST_PATH_IMAGE105
,
Figure 26552DEST_PATH_IMAGE106
为图中阴影部分的面积。
Figure 487007DEST_PATH_IMAGE107
Figure 363697DEST_PATH_IMAGE108
是下一次特征数据的发送时延,
Figure 248476DEST_PATH_IMAGE109
是下一次特征数据等待处理的时延,
Figure 312247DEST_PATH_IMAGE110
是离散条件下
Figure 573464DEST_PATH_IMAGE111
的面积,特征信息
Figure 39080DEST_PATH_IMAGE112
的平均信息年龄为:
Figure 94761DEST_PATH_IMAGE113
为提高数据采集效率,本发明设计深度强化学习模型对多目标进行联合优化,在第
Figure 911407DEST_PATH_IMAGE114
次迭代时,根据不同特征数据更新频率
Figure 850018DEST_PATH_IMAGE115
,计算服务器状态更新队列平均长度
Figure 170141DEST_PATH_IMAGE116
以及特征数据的信息年龄
Figure 396723DEST_PATH_IMAGE117
,优化路由后网络系统平均传输时延
Figure 435086DEST_PATH_IMAGE118
,丢包数
Figure 38106DEST_PATH_IMAGE119
,建立问题约束模型,
Figure 212735DEST_PATH_IMAGE120
代表算法迭代次数,计算各特征数据信息年龄对路由规划的影响,根据路由决策的结果设计奖励函数,确定收敛目标,提升不同特征类型的信息新鲜度对通信系统性能的影响。优化问题可被记为以下约束:
Minimize:
Figure 875798DEST_PATH_IMAGE121
Subject to:
Figure 263441DEST_PATH_IMAGE122
当前的特征数据更新频率将会影响信息年龄,优化信息年龄和队列长度会提升数据的时效性,在链路频繁切换、业务局部突发的车载移动自组网,高时效性会优化路由效果。
D.深度强化学习求解
深度强化学习由于其黑盒特性相较于传统方法在求解多因素耦合问题的过程中精确度更高。智能体在训练过程中通过不断地随机迭代,在执行随机动作后环境满足优化约束目标将给予智能体奖励,通过大量迭代累计回报获得多目标最优化策略。
如图3所示,本发明所提的基于深度强化学习的车际移动自组网信息采集间隔优化框架将特征数据
Figure 404573DEST_PATH_IMAGE123
的更新频率视为一个智能体,将网络路由结果的平均时延、丢包数,服务器队列长度视为状态E。每个训练周期中共迭代
Figure 699288DEST_PATH_IMAGE124
次,智能体获取初始环境状态E0,之后执行动作
Figure 267672DEST_PATH_IMAGE125
Figure 15049DEST_PATH_IMAGE126
的更新频率进行随机加权分配;执行动作后,智能体获得环境相应的奖励值
Figure 959871DEST_PATH_IMAGE127
,并继续观察下一时刻状态
Figure 236656DEST_PATH_IMAGE128
环境状态可以表示为两个部分:第一部分是服务器接收特征数据
Figure 241521DEST_PATH_IMAGE129
时的处理队列长度记为R(t),以及当前时刻的信息年龄
Figure 741772DEST_PATH_IMAGE130
。系统在接收到数据之后,系统按照现有状态将做一次路由规划,规划完成后计算系统的平均传输时延
Figure 224706DEST_PATH_IMAGE131
,总丢包数
Figure 228435DEST_PATH_IMAGE132
,当前时刻t的系统状态
Figure 404201DEST_PATH_IMAGE133
可表示为:
Figure 126169DEST_PATH_IMAGE134
系统动作可以理解为对不同特征数据更新频率
Figure 412794DEST_PATH_IMAGE135
的改变,对于
Figure 664171DEST_PATH_IMAGE136
,系统在时刻t的动作
Figure 745260DEST_PATH_IMAGE137
可以被定义为:
Figure 220104DEST_PATH_IMAGE138
Q价值函数被定义为
Figure 513682DEST_PATH_IMAGE139
,学习参数
Figure 616636DEST_PATH_IMAGE140
为满足
Figure 868626DEST_PATH_IMAGE141
的常数。
Figure 556397DEST_PATH_IMAGE142
是系统收益奖励函数,系统的动作
Figure 184824DEST_PATH_IMAGE143
将会使
Figure 283230DEST_PATH_IMAGE144
发生改变,对于车载移动自组网的数据信息采集系统,存在特征数据
Figure 971701DEST_PATH_IMAGE145
的更新频率
Figure 155557DEST_PATH_IMAGE146
使得系统的收益为:
Figure 322097DEST_PATH_IMAGE147
其中,
Figure 399643DEST_PATH_IMAGE148
Figure 261944DEST_PATH_IMAGE149
是算法总共迭代的次数,定义
Figure 667518DEST_PATH_IMAGE150
为不同特征数据的信息年龄在迭代一次后效果的差值,同理可得服务器状态更新队列平均长度、丢包数、平均传输时延的差,累加整个迭代周期的差值作为系统收益奖励函数。
算法流程
Figure 637748DEST_PATH_IMAGE151
进一步的,本发明还提供一种基于深度强化学习的网络数据采集效率优化系统,包括特征数据分析模块、处理队列与信息年龄构建模块、深度学习求解模块;
特征数据分析模块用于将采集到的信息与路由规划影响特征参数进行对比,选择对路由规划影响更大的特征状态数据集,能够使得算法收敛速度更快;
处理队列与信息年龄构建模块用于建立动态多服务台队列模型,结合队列模型构建异质特征数据信息年龄模型,能够有效描述系统时效性;
深度学习求解模块通过深度强化学习求解不同特征数据更新频率间隔,定义优化前后各特征数据的信息年龄、服务器接收队列长度以及路由效果为损失函数,建立问题约束模型,能够提升不同特征类型数据的更新频率对通信系统性能的影响。
所述特征数据分析模块能够将网络连接状态、电台频率、工作模式、带宽、端到端时延等特征状态信息记为特征状态集
Figure 710746DEST_PATH_IMAGE152
,其中
Figure 475440DEST_PATH_IMAGE153
表示第
Figure 633889DEST_PATH_IMAGE154
个特征,保留与路由规划影响因子
Figure 142230DEST_PATH_IMAGE155
相关性较大的特征
Figure 69735DEST_PATH_IMAGE156
,删除相关性较小的特征
Figure 132893DEST_PATH_IMAGE157
,能够降低算法时间复杂度。特征数据分析模块能够筛选出相关性较强的特征子集,加速与影响因子
Figure 778638DEST_PATH_IMAGE014
强相关特征的信息更新频率,使得对路由规划影响大的特征数据的时效性更强。
所述处理队列与信息年龄构建模块能够给定信息更新间隔
Figure 90671DEST_PATH_IMAGE158
并假设遍历性,在尽量保证系统队列长度接近阈值R的前提下,可以根据
Figure 872682DEST_PATH_IMAGE159
分配各特征状态信息更新间隔,来保证路由策略的实时性。
上述特征数据分析模块、处理队列与信息年龄构建模块、深度学习求解模块的具体处理过程与前述的基于深度强化学习的网络数据采集效率优化方法部分相同,本发明不再赘述。
下面结合实施例和附图对本发明进行详细说明。
实施例
系统特征数据信息的更新频率将会直接影响到数据的时效性以及网络系统的资源状态,数据时效性会进一步影响路由决策后的网络性能状态。
本发明将利用数字实验结果来验证所提算法的有效性,考虑多特征数据状态的更新频率,计算不同频率下信息年龄和队列长度的变化。基于强化学习验证不同的更新频率对系统状态环境改变的影响,并基于奖励函数,学习并优化策略动作。
本发明基于TensorFlow和 Python3.7 搭建了一个四层完全连接的神经网络,其中包括两个完全连接的隐藏层,每层分别有 128和64个神经元。考虑服务器节点数量为1个,独立车载终端为5个,通信系统特征信息数量为m,算法共迭代
Figure 979179DEST_PATH_IMAGE160
次,第t次系统状态环境包括服务器状态更新队列平均长度
Figure 112220DEST_PATH_IMAGE161
以及特征数据的信息年龄
Figure 962364DEST_PATH_IMAGE162
,优化路由后网络系统平均传输时延
Figure 867391DEST_PATH_IMAGE163
,丢包数
Figure 269422DEST_PATH_IMAGE164
,系统仿真参数如表1所示。
表1 系统仿真参数
Figure 889759DEST_PATH_IMAGE165
图4描述了状态特征信息的更新频率在不同队列调度算法下,以通过不同的发送频率计算的峰值信息年龄。业务数据的发送速率服从泊松分布,在业务到达数不断增大的条件下,系统队列长度不断累积,使得状态更新数据得不到及时处理,导致信息年龄增大。
本发明在原有基础上提升了一定的特征状态信息到达率,可以明显看到FCFS队列的信息年龄有明显增加,有优先级处理功能的队列信息年龄还处在正常范围内,能够有效的处理状态的更新信息。
如图5所示,我们不断升高特征状态信息的到达率,系统队列长度不断增长,由于系统的处理效率基本一致,各种不同算法对队列长度的优化体现基本一致,图2的仿真结果可以证明,本发明提出的算法对队列长度的优化在包到达率为趋近极限时,相较于其他算法拥有一定优势。
如图6所示,我们固定业务数据的发送频率,尝试以不同频率更新特征数据包,仿真结果表明随着状态更新间隔的不断减小,系统的业务丢包率将会以指数形式上升。验证算法的优化性能,本发明将和传统算法进行对比,可以看出本发明对路由策略执行后系统的丢包率有一定的降低。传统FCFS等算法根据系统状态直接执行路由决策,没有考虑不同特征状态更新频率对系统时效性的影响,从而导致在特定条件下的系统部分失效。
如图7所示,本发明对比了CV-woVir、CV-woMEC和CV-woC算法在服务器数量为1,传感器数为5,特征数据类型包括电台状态信息、节点拓扑状态和端到端时延的系统中的耗费。智能体在训练过程中通过不断地随机迭代,在执行随机动作后环境满足优化约束目标将给予智能体奖励,其中横坐标为迭代次数,纵坐标为累积收益。计算耗费随着时间迭代不断增加,由于本发明根据互信息和对称不确定性提取了特征状态集,使得迭代时动作更具备目的性,迭代过程的总花费更小,系统收敛速度更快。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。

Claims (8)

1.一种基于深度强化学习的网络数据采集效率优化方法,其特征在于,包括:
将采集到的信息与路由规划影响特征集
Figure 144298DEST_PATH_IMAGE001
进行对比,选择对路由规划影响权重更高的特征状态数据集;将包括网络连接状态、电台频率、工作模式、带宽、端到端时延的特征状态信息记为特征状态集
Figure 964487DEST_PATH_IMAGE002
;计算特征状态集
Figure 316971DEST_PATH_IMAGE003
和路由规划影响特征集
Figure 197202DEST_PATH_IMAGE001
两个特征集的对称不确定性
Figure 635136DEST_PATH_IMAGE004
,通过对称不确定性将特征状态集
Figure 993437DEST_PATH_IMAGE005
按照与路由规划影响特征集
Figure 466006DEST_PATH_IMAGE001
的相关性从大到小排序,从而获得特征集
Figure 750095DEST_PATH_IMAGE006
建立动态多服务台队列模型,结合队列模型构建异质特征数据信息年龄模型;
通过深度强化学习求解不同特征数据更新频率间隔,定义优化前后各特征数据的信息年龄、服务器接收队列长度以及路由效果为损失函数,建立问题约束模型。
2.根据权利要求1所述的基于深度强化学习的网络数据采集效率优化方法,其特征在于,假设特征状态集为
Figure 675325DEST_PATH_IMAGE003
Figure 837317DEST_PATH_IMAGE007
可描述路由规划影响因子的k维特征属性,
Figure 164393DEST_PATH_IMAGE002
可描述数据样本的m维特征属性;特征状态集
Figure 386427DEST_PATH_IMAGE008
Figure 798953DEST_PATH_IMAGE001
重叠的部分被定义为
Figure 561373DEST_PATH_IMAGE009
Figure 680639DEST_PATH_IMAGE010
Figure 135891DEST_PATH_IMAGE011
是路由规划影响特征集
Figure 471932DEST_PATH_IMAGE012
的信息熵,
Figure 38043DEST_PATH_IMAGE013
是已知特征状态集
Figure 11815DEST_PATH_IMAGE008
的情况下,路由规划影响特征集
Figure 637968DEST_PATH_IMAGE012
Figure 962770DEST_PATH_IMAGE014
的条件熵,
Figure 66993DEST_PATH_IMAGE015
代表
Figure 223167DEST_PATH_IMAGE005
的值取为
Figure 957905DEST_PATH_IMAGE016
时的边缘概率分布,
Figure 566741DEST_PATH_IMAGE017
代表
Figure 176452DEST_PATH_IMAGE001
的值取为
Figure 187133DEST_PATH_IMAGE018
时的边缘概率分布,
Figure 92772DEST_PATH_IMAGE019
Figure 188904DEST_PATH_IMAGE020
的联合分布概率;
固定路由规划影响特征集
Figure 572612DEST_PATH_IMAGE001
,计算互信息
Figure 703379DEST_PATH_IMAGE021
,将互信息集记为
Figure 779920DEST_PATH_IMAGE022
在特征状态集
Figure 363348DEST_PATH_IMAGE003
和路由规划影响特征集
Figure 613063DEST_PATH_IMAGE001
两个特征集之间计算对称不确定性
Figure 34555DEST_PATH_IMAGE023
,通过对称不确定性将特征状态集
Figure 344314DEST_PATH_IMAGE003
按照与路由规划影响特征集
Figure 352721DEST_PATH_IMAGE001
的相关性从大到小排序,从而获得对路由规划影响最大的特征;
两个特征集之间对称不确定性
Figure 406128DEST_PATH_IMAGE023
的定义如下所示:
Figure 183591DEST_PATH_IMAGE024
其中
Figure 664251DEST_PATH_IMAGE025
为信息增益,
Figure 894375DEST_PATH_IMAGE026
为特征状态集X的信息熵,
Figure 751472DEST_PATH_IMAGE027
表示路由规划影响特征集Y对特征状态集X进行划分后的条件熵;
Figure 445759DEST_PATH_IMAGE028
的取值范围在0与1之间;
计算每个特征
Figure 533538DEST_PATH_IMAGE029
Figure 578855DEST_PATH_IMAGE030
之间的相关性,记为
Figure 911747DEST_PATH_IMAGE031
,用于判断一个特征是否与类别相关;通过序列浮动前向选择算法在大量候选特征
Figure 460540DEST_PATH_IMAGE032
中利用阈值
Figure 486265DEST_PATH_IMAGE033
进行初步筛选,获取与路由规划影响特征集
Figure 753298DEST_PATH_IMAGE034
相关的特征子集
Figure 624302DEST_PATH_IMAGE035
Figure 293181DEST_PATH_IMAGE035
满足
Figure 988342DEST_PATH_IMAGE036
;将
Figure 477093DEST_PATH_IMAGE035
中各特征
Figure 479684DEST_PATH_IMAGE037
按照
Figure 940752DEST_PATH_IMAGE038
值的大小进行降序排列,根据
Figure 105017DEST_PATH_IMAGE039
的排序结果定义特征信息状态更新频率;然后取互信息集F与特征子集
Figure 284326DEST_PATH_IMAGE040
的交集
Figure 825028DEST_PATH_IMAGE041
Figure 140603DEST_PATH_IMAGE041
满足
Figure 741349DEST_PATH_IMAGE042
,剔除冗余特征
Figure 640909DEST_PATH_IMAGE043
后,使
Figure 985303DEST_PATH_IMAGE044
描述的相关度达到最优并按相关性从大到小排列。
3.根据权利要求2所述的基于深度强化学习的网络数据采集效率优化方法,其特征在于,所述的建立动态多服务台队列模型,具体为:
设网络中独立终端被记为
Figure 483281DEST_PATH_IMAGE045
,终端将不断收集网络信息,定期将这些信息发送至服务器
Figure 927031DEST_PATH_IMAGE046
,服务器收到信息后对路由组网过程进行全局规划;不同类型的数据对路由决策的影响程度不同,在给定路由规划影响特征集
Figure 143249DEST_PATH_IMAGE047
后,计算
Figure 963438DEST_PATH_IMAGE048
Figure 315921DEST_PATH_IMAGE030
的互信息集与对称不确定性,得到按影响路由规划权重从大到小排列的特征数据集
Figure 930574DEST_PATH_IMAGE049
独立终端
Figure 368508DEST_PATH_IMAGE050
设置信息处理模块,时刻
Figure 54704DEST_PATH_IMAGE051
获得特征数据集
Figure 697913DEST_PATH_IMAGE052
包含的网络特征信息,将特征数据包记为
Figure 811363DEST_PATH_IMAGE053
以不同的信息更新频率分布
Figure 674276DEST_PATH_IMAGE054
Figure 898584DEST_PATH_IMAGE055
发送
Figure 163344DEST_PATH_IMAGE056
状态更新心跳包,
Figure 447694DEST_PATH_IMAGE057
服从负指数分布,且互相独立;
假设服务器
Figure 532325DEST_PATH_IMAGE058
的队列单元,满足多处理队列混合制模型,从独立终端
Figure 560324DEST_PATH_IMAGE059
发送的特征状态信息
Figure 741907DEST_PATH_IMAGE060
的到达率服从参数为
Figure 633377DEST_PATH_IMAGE061
的负指数分布,节点
Figure 533200DEST_PATH_IMAGE055
关于所有状态特征信息更新的到达率为
Figure 36994DEST_PATH_IMAGE062
;处理队列数量为
Figure 73083DEST_PATH_IMAGE063
Figure 636919DEST_PATH_IMAGE055
的处理队列服务率服从参数为
Figure 758459DEST_PATH_IMAGE064
的负指数分布,系统的剩余队列资源容量为
Figure 65943DEST_PATH_IMAGE065
;当
Figure 222118DEST_PATH_IMAGE065
未被完全占用且暂时无法提供服务时,特征状态信息将进入队列等待;当
Figure 19173DEST_PATH_IMAGE065
被完全占用后,系统将发生丢包;
计算稳态条件下
Figure 64227DEST_PATH_IMAGE066
的队列长度的分布
Figure 972140DEST_PATH_IMAGE067
Figure 920505DEST_PATH_IMAGE068
,特征
Figure 888461DEST_PATH_IMAGE069
的到达率和服务率满足以下方程:
Figure 922276DEST_PATH_IMAGE070
Figure 571563DEST_PATH_IMAGE071
,当
Figure 702330DEST_PATH_IMAGE072
时,
Figure 277406DEST_PATH_IMAGE073
其中
Figure 595254DEST_PATH_IMAGE074
对多队列排队系统,稳态条件下可得服务器
Figure 110549DEST_PATH_IMAGE075
对特征数据
Figure 33506DEST_PATH_IMAGE076
的平均排队长
Figure 343265DEST_PATH_IMAGE077
为:
Figure 86093DEST_PATH_IMAGE078
特征数据
Figure 139499DEST_PATH_IMAGE079
的平均等待时间为:
Figure 916963DEST_PATH_IMAGE080
4.根据权利要求3所述的基于深度强化学习的网络数据采集效率优化方法,其特征在于,结合队列模型构建异质特征数据信息年龄模型,具体为:
特征信息
Figure 397622DEST_PATH_IMAGE081
Figure 415299DEST_PATH_IMAGE082
时刻进入
Figure 6817DEST_PATH_IMAGE066
的接收队列,记服务时间为
Figure 966683DEST_PATH_IMAGE083
Figure 555927DEST_PATH_IMAGE084
为独立终端
Figure 335664DEST_PATH_IMAGE085
的发送时延,
Figure 668556DEST_PATH_IMAGE086
Figure 482929DEST_PATH_IMAGE087
Figure 243074DEST_PATH_IMAGE088
的传输时延;特征信息
Figure 510108DEST_PATH_IMAGE089
Figure 709008DEST_PATH_IMAGE090
时刻被
Figure 814105DEST_PATH_IMAGE091
响应,记该服务时间为
Figure 807469DEST_PATH_IMAGE092
Figure 499481DEST_PATH_IMAGE093
代表特征下次状态更新的时刻,记该等待时间为
Figure 502072DEST_PATH_IMAGE094
给定特征信息
Figure 963140DEST_PATH_IMAGE089
的信息年龄过程
Figure 127406DEST_PATH_IMAGE095
并假设其遍历性,通过收敛至其相应随机的样本均值来建立平均信息年龄模型;在时间区间[0, T]内,每个特征数据
Figure 369031DEST_PATH_IMAGE089
的状态更新的平均信息年龄为:
Figure 847417DEST_PATH_IMAGE096
t趋向于无穷大时,可认为
Figure 225309DEST_PATH_IMAGE097
Figure 262272DEST_PATH_IMAGE098
Figure 725615DEST_PATH_IMAGE099
是下一次特征数据的发送时延,
Figure 7692DEST_PATH_IMAGE100
是下一次特征数据等待处理的时延,
Figure 240090DEST_PATH_IMAGE101
是离散条件下
Figure 949420DEST_PATH_IMAGE102
的面积,特征信息
Figure 900058DEST_PATH_IMAGE103
的平均信息年龄为:
Figure 782564DEST_PATH_IMAGE104
5.根据权利要求4所述的基于深度强化学习的网络数据采集效率优化方法,其特征在于,提供深度强化学习模型对多目标进行联合优化,在第t次迭代时,根据不同特征数据更新频率
Figure 72731DEST_PATH_IMAGE105
,计算服务器状态更新队列平均长度
Figure 15279DEST_PATH_IMAGE106
以及特征数据的信息年龄
Figure 889432DEST_PATH_IMAGE107
,优化路由后网络系统平均传输时延
Figure 575628DEST_PATH_IMAGE108
,丢包数
Figure 720302DEST_PATH_IMAGE109
,建立问题约束模型,
Figure 833751DEST_PATH_IMAGE110
代表算法迭代次数,计算各特征数据信息年龄对路由规划的影响,根据路由决策的结果设计奖励函数,确定收敛目标;优化问题被记为以下约束:
最小化以下参数:
Figure 758982DEST_PATH_IMAGE111
服从以下约束:
Figure 920973DEST_PATH_IMAGE112
Figure 248049DEST_PATH_IMAGE113
6.根据权利要求5所述的基于深度强化学习的网络数据采集效率优化方法,其特征在于,基于深度强化学习的车际移动自组网信息采集间隔优化框架将特征数据
Figure 204504DEST_PATH_IMAGE114
的更新频率视为一个智能体,将网络路由结果的平均时延、丢包数,服务器队列长度视为状态E;每个训练周期中共迭代
Figure 617030DEST_PATH_IMAGE115
次,智能体获取初始环境状态E0,之后执行动作
Figure 81248DEST_PATH_IMAGE116
Figure 262830DEST_PATH_IMAGE117
的更新频率进行随机加权分配;执行动作后,智能体获得环境相应的奖励值
Figure 655765DEST_PATH_IMAGE118
,并继续观察下一时刻状态
Figure 290009DEST_PATH_IMAGE119
环境状态表示为两个部分:服务器接收特征数据
Figure 856120DEST_PATH_IMAGE120
时的处理队列长度记为R(t),以及当前时刻的信息年龄
Figure 95471DEST_PATH_IMAGE121
;系统在接收到数据之后,系统按照现有状态将做一次路由规划,规划完成后计算系统的平均传输时延
Figure 721624DEST_PATH_IMAGE122
,总丢包数
Figure 780847DEST_PATH_IMAGE123
,当前时刻t的系统状态
Figure 150649DEST_PATH_IMAGE124
可表示为:
Figure 743042DEST_PATH_IMAGE125
对于
Figure 540097DEST_PATH_IMAGE126
,系统在时刻t的动作
Figure 86616DEST_PATH_IMAGE127
被定义为:
Figure 994529DEST_PATH_IMAGE128
价值函数被定义为
Figure 942893DEST_PATH_IMAGE129
,学习参数
Figure 910849DEST_PATH_IMAGE130
为满足
Figure 6981DEST_PATH_IMAGE131
的常数;
Figure 656268DEST_PATH_IMAGE132
是系统收益奖励函数,系统的动作
Figure 521456DEST_PATH_IMAGE133
将会使
Figure 96532DEST_PATH_IMAGE134
发生改变,对于车载移动自组网的数据信息采集系统,存在特征数据
Figure 679960DEST_PATH_IMAGE135
的更新频率
Figure 132938DEST_PATH_IMAGE136
使得系统的收益为:
Figure 852632DEST_PATH_IMAGE137
其中,
Figure 100074DEST_PATH_IMAGE138
Figure 170798DEST_PATH_IMAGE139
是算法总共迭代的次数,定义
Figure 224205DEST_PATH_IMAGE140
为不同特征数据的信息年龄在迭代一次后效果的差值,同理可得服务器状态更新队列平均长度、丢包数、平均传输时延的差,累加整个迭代周期的差值作为系统收益奖励函数。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一所述的方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的方法的步骤。
CN202210634436.0A 2022-06-07 2022-06-07 基于深度强化学习的网络数据采集效率优化方法及系统 Active CN114710410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210634436.0A CN114710410B (zh) 2022-06-07 2022-06-07 基于深度强化学习的网络数据采集效率优化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210634436.0A CN114710410B (zh) 2022-06-07 2022-06-07 基于深度强化学习的网络数据采集效率优化方法及系统

Publications (2)

Publication Number Publication Date
CN114710410A CN114710410A (zh) 2022-07-05
CN114710410B true CN114710410B (zh) 2022-08-26

Family

ID=82177979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210634436.0A Active CN114710410B (zh) 2022-06-07 2022-06-07 基于深度强化学习的网络数据采集效率优化方法及系统

Country Status (1)

Country Link
CN (1) CN114710410B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115361734B (zh) * 2022-07-14 2024-05-14 鹏城实验室 基于信息时效性的功率和irs相移联合优化方法及装置
CN115589380A (zh) * 2022-09-29 2023-01-10 中国联合网络通信集团有限公司 电信标识网络的实时路由方法、系统、电子设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190039A (zh) * 2021-04-27 2021-07-30 大连理工大学 一种基于分层深度强化学习的无人机采集路径规划方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11461145B2 (en) * 2019-01-28 2022-10-04 EMC IP Holding Company LLC Building neural networks for resource allocation for iterative workloads using reinforcement learning
CN112437131B (zh) * 2020-11-10 2022-09-13 西北农林科技大学 物联网中考虑数据相关性的数据动态采集与传输方法
CN113891276B (zh) * 2021-10-26 2023-05-26 重庆邮电大学 基于信息年龄的混合更新工业无线传感器网络调度方法
CN114422423B (zh) * 2021-12-24 2024-02-20 大连大学 一种基于sdn与ndn的卫星网络多约束路由方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190039A (zh) * 2021-04-27 2021-07-30 大连理工大学 一种基于分层深度强化学习的无人机采集路径规划方法

Also Published As

Publication number Publication date
CN114710410A (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
CN114710410B (zh) 基于深度强化学习的网络数据采集效率优化方法及系统
CN111629380B (zh) 面向高并发多业务工业5g网络的动态资源分配方法
CN107948083B (zh) 一种基于增强学习的sdn数据中心拥塞控制方法
CN114423061B (zh) 一种基于注意力机制和深度强化学习的无线路由优化方法
CN109787699B (zh) 一种基于混合深度模型的无线传感器网络路由链路状态预测方法
Cha et al. Fuzzy logic based client selection for federated learning in vehicular networks
CN114205782B (zh) 基于云边协同的时延最优缓存和路由方法、装置及系统
CN114301935B (zh) 一种基于声誉的物联网边云协同联邦学习节点选择方法
CN112888004A (zh) 一种物联网中多源节点信息更新的信息年龄优化方法
CN114374949B (zh) 一种车联网中基于信息新鲜度优化的功率控制机制
Lv et al. Edge computing task offloading for environmental perception of autonomous vehicles in 6G networks
CN117014355A (zh) 一种基于ddpg深度强化学习算法的tssdn动态路由决策方法
CN117675918A (zh) 基于多智能体深度强化学习的边缘区域协作缓存更新方法
CN110417572B (zh) 一种基于目标节点相遇概率预测消息传递节点的方法
CN116959244A (zh) 基于区域危险度的车载网信道拥塞控制方法及系统
CN116501483A (zh) 基于多智能体强化学习的车辆边缘计算任务调度方法
CN115118783A (zh) 基于异构通信技术超可靠低时延强化学习的任务卸载方法
Sande et al. A Backhaul Adaptation Scheme for IAB Networks Using Deep Reinforcement Learning With Recursive Discrete Choice Model
CN115086992A (zh) 一种分布式语义通信系统以及带宽资源分配方法及装置
Wu et al. On-demand Intelligent Routing Algorithms for the Deterministic Networks
Andrade-Zambrano et al. A Reinforcement Learning Congestion Control Algorithm for Smart Grid Networks
CN117939505B (zh) 一种车辆边缘网络中基于激励机制的边缘协作缓存方法及系统
CN110611582A (zh) 一种基于节点社会化的机会社会网络有效数据传输方法
CN116545853B (zh) 基于量子粒子群的一体化网络多目标优化资源管理方法
CN115051999B (zh) 基于云边协同的能耗最优任务卸载方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant