CN113438315A - 基于双网络深度强化学习的物联网信息新鲜度优化方法 - Google Patents

基于双网络深度强化学习的物联网信息新鲜度优化方法 Download PDF

Info

Publication number
CN113438315A
CN113438315A CN202110753368.5A CN202110753368A CN113438315A CN 113438315 A CN113438315 A CN 113438315A CN 202110753368 A CN202110753368 A CN 202110753368A CN 113438315 A CN113438315 A CN 113438315A
Authority
CN
China
Prior art keywords
information
reinforcement learning
internet
state
experience
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110753368.5A
Other languages
English (en)
Other versions
CN113438315B (zh
Inventor
王玺钧
林文锐
陈翔
孙兴华
詹文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110753368.5A priority Critical patent/CN113438315B/zh
Publication of CN113438315A publication Critical patent/CN113438315A/zh
Application granted granted Critical
Publication of CN113438315B publication Critical patent/CN113438315B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Medical Informatics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了基于双网络深度强化学习的物联网信息新鲜度优化方法,该方法包括:传感器将运行规定的经历数,在每段经历的每个时步中都会根据策略选择动作并执行,观察奖励和状态,并保存至经验回放池中;之后模型从经验回放池取出一批经验,使用平均代价形式的目标值计算公式计算损失函数并更新当前网络参数,每隔一定时步数更新目标网络参数;循环执行上述步骤直至该段经历结束。该方法能够帮助传感器在每一时步中做出最优决策,从而最小化平均信息变化年龄和能量消耗的加权和,达到在最小化系统平均信息变化年龄的同时最大化设备使用寿命的目的。本发明作为基于双网络深度强化学习的物联网信息新鲜度优化方法,可应用于深度强化学习领域。

Description

基于双网络深度强化学习的物联网信息新鲜度优化方法
技术领域
本发明涉及深度强化学习领域,尤其涉及基于双网络深度强化学习的物联网信息新鲜度优化方法。
背景技术
随着物联网系统应用场景的深化、车联网等设施的落地,物联网系统的实时性性能越来越重要。另一方面,目前现有的实时性指标大部分只考虑信息在时间维度上的变化,缺乏对信息在内容维度上的变化的考虑,而信息变化年龄便同时度量信息在时间和内容维度上的变化。由于信息变化年龄是随时间变化的随机过程,往往用其平均值作为性能指标。类似于平均信息变化年龄以及平均能量消耗,这类优化平均值问题统称为平均代价问题。目前常见的强化学习优化算法大部分是折扣形式的强化学习算法,折扣形式的强化学习算法并不能直接应用于平均代价问题的优化中,而传统的适用于平均代价问题的强化学习算法面临维度灾难的问题,存在巨大的局限性。
发明内容
为了解决上述技术问题,本发明的目的是提供基于双网络深度强化学习的物联网信息新鲜度优化方法,最小化物联网系统的平均信息变化年龄的同时最大化物联网设备的使用寿命,并克服环境信息不可知的问题。
本发明所采用的技术方案是:基于双网络深度强化学习的物联网信息新鲜度优化方法,包括以下步骤:
S1、将物联网点对点通信系统模型建模为平均代价马尔科夫决策过程,将优化目标设置为最小化信息变化年龄和能量消耗的加权和,在传感器内设置强化学习模型以及相关参数;
S2、初始化初始状态s0
S3、传感器中的强化学习模型观察当前系统的状态st,使用∈-greedy策略和当前网络Q(s,a;w)选择动作at
S4、传感器执行动作at,观察系统中状态的变化,收集相关的代价信息rj+1以及动作执行后的系统状态st+1
S5、传感器将当前的经验信息{st,at,rt+1,st+1}存储到经验回放池中;
S6、传感器从经验回放池中随机取出一批经验信息{sj,aj,rj+1,sj+1},计算这批经验信息的目标值yj和对应的损失函数(yj-Q(sj,aj;w))2并利用梯度下降法优化当前网络的参数w;
S7、每隔固定的时间间隔O更新一次目标网络Q(s,a;w-)的参数,更新方式为将目标网络参数同步为当前网络的参数,即w-=w;
S8、判断当前时步是否达到最大值,若是跳转S9,否则跳转S3;
S9、判断当前经历数是否等于最大经历数,若是则跳转S10,否则跳转S2;
S10、对模型的训练已完成,将传感器部署到实际应用场景中,并将传感器选择动作的策略改为贪心策略;
S11、在传感器的实际运行过程中,统计系统模型的平均代价、平均信息变化年龄和平均能量消耗,得到物联网通信系统的信息新鲜度指标数据。
进一步,所述将物联网点对点通信系统模型建模为平均代价马尔科夫决策过程,组成元素为(S,A,R),分别为:
状态,用S表示状态空间,用st=(Δttt)表示第t时隙的状态,其中Δt表示信息变化年龄,δt表示信息年龄,μt表示存储在接收端缓存区的数据包X′t里关于源端的状态信息;
动作,用A表示动作空间集合,A为离散空间,用at表示第t时隙的动作且at∈{0,1},其中0代表不发送动作,1代表采样并发送动作;
代价,用R表示代价信息,用rt+1表示在第t时隙时在状态st下采取动作at产生的代价,定义rt+1=Δt+ωatCu,其中Cu是采样传输的能量消耗,ω是权重因子,可通过ω动态调节能量消耗的占比。
进一步,所述将优化目标设置为最小化平均信息变化年龄和能量消耗的加权和,即:
Figure BDA0003146106510000021
上式中,Δt是系统在t时隙时的信息变化年龄,s0是该经历的初始状态。该指标综合考虑了系统中的平均能量消耗以及信息变化年龄,优化该指标的同时就能达到最小化系统信息年龄和延长设备寿命的目标。
进一步,所述损失函数(yj-Q(sj,aj;w))2,目标值为:
Figure BDA0003146106510000022
其中
Figure BDA0003146106510000023
为参考状态,
Figure BDA0003146106510000024
为目标网络Q(s,a;w-)在输入状态为sj+1时所能获得的最小状态动作值。
进一步,当前网络Q(s,a;w)与目标网络Q(s,a;w-)的结构一致。
进一步,所述系统中状态的变化包括信息变化年龄更新和信息年龄更新。
进一步,所述信息变化年龄更新的更新公式为:
Figure BDA0003146106510000031
其中ht表示发送端在第t时隙时发送的数据包是否被成功接收,1代表传输成功,0代表传输失败;Dt表示在t时刻新到来的数据包Xt和接收端原有的数据包X′t的比较结果,1代表不一致,0代表一致,比较操作只有在接收端成功接收新数据包Xt时才会进行。
进一步,所述信息年龄更新的更新公式为:
δt=t-U(Xt),
其中,t代表是第t时隙,Xt代表第t时隙接收端成功接收到的最新数据包,U(X)代表数据包X的时间戳。
进一步,所述贪心策略即每次选择动作时都选择代价最低的动作。
本发明方法及系统的有益效果是:本发明综合考虑了系统中的平均信息变化年龄以及能量消耗,将优化目标设置为最小化平均信息变化年龄以及能量消耗的加权和,目的是为了在最小化物联网点对点通信模型系统的平均信息变化年龄的同时,最大化系统所使用的物联网设备的使用寿命。
附图说明
图1是本发明基于双网络深度强化学习的物联网信息新鲜度优化方法的步骤流程图;
图2是本发明具体实施例中使用的物联网点对点通信系统模型图;
图3是本发明具体实施例应用的算法结构图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
如图2所示,本发明适用于点对点通信系统模型的传输优化场景,本实施例中的通信网络场景具有的特点包括:这是一个时隙系统模型;传感器内部部署有强化学习模型,具备随时对源端信息采样传输的功能;无线信道不是完美信道,传输可能失败;对于传感器来说,信道状态信息以及源端状态信息均未知,意味着传感器在采样传输之前都不知道当前源端以及信道的状态信息;采样传输需要消耗1个时隙的时间和固定的能量;传感器在完成采样传输行为之后,接收端会根据传输结果在时隙末尾返回1个1bit的ACK/NACK信号,该信号会立即到达传感器且不会出错,传感器依据上述反馈的信号来判断本次传输是否成功。本发明将优化目标设置为信息变化年龄以及能量消耗的加权和,该指标综合考虑了系统中的平均能量消耗以及信息变化年龄,优化该指标的同时就能达到最小化系统信息年龄和延长设备寿命的目标,达到帕累托最优。
参照图1和图3,本发明提供了基于双网络深度强化学习的物联网信息新鲜度优化方法,该方法包括以下步骤:
S1、将物联网点对点通信系统模型建模为平均代价马尔科夫决策过程,将优化目标设为最小化信息变化年龄和能量消耗的加权和,在传感器内设置强化学习模型以及相关参数;
具体地,对于传感器来说,源端的状态信息以及信道的状态信息都是未知的;强化学习模型的输入层与输出层有严格的规定,输入层结构与系统状态一致,输出维数与动作空间数量一致,模型中间的隐藏层无特殊要求,可根据具体问题灵活设置;
具体地,优化目标设置为最小化平均信息年龄和能量消耗的加权和,即:
Figure BDA0003146106510000041
其中Δt是系统在t时隙时的信息变化年龄,s0是经历的初始状态,Cu是采样传输的能量消耗,ω是权重因子,可通过ω动态调节能量消耗的占比。该指标综合考虑了系统中的平均能量消耗以及信息变化年龄,因此优化该指标的同时就能达到最小化系统信息年龄和延长设备寿命的目标。
具体地,将所述物联网点对点通信系统模型建模为平均代价马尔科夫决策过程,组成元素为(S,A,R),分别为:
状态,用S表示状态空间,用st=(Δttt)表示第t时隙的状态,其中Δt表示信息变化年龄,δt表示信息年龄,μt表示存储在接收端缓存区的数据包X′t里关于源端的状态信息;
动作,用A表示动作空间集合,A为离散空间,用at表示第t时隙的动作且at∈{0,1},其中0代表不发送动作,1代表采样并发送动作;
代价,用R表示代价信息,用rt+1表示在第t时隙时在状态st下采取动作at产生的代价,定义rt+1=Δt+ωatCu,Cu是采样传输的能量消耗,ω是权重因子,可通过ω动态调节能量消耗的占比。
具体地,初始化工作包括设置最大经历数、每段经历的最大时步数,随后初始化强化学习模型的各类参数,包括:经验回放池RM,学习率η,更新步长O,当前网络Q(s,a;w)以及该网络的参数w,目标网络Q(s,a;w-)以及该网络的参数w-,其中当前网络Q(s,a;w)与目标网络Q(s,a;w-)的结构一致,并且令w-=w;探索概率∈的初始值、最小值以及每个时步中∈的下降幅度。在实际中,探索概率∈可设为固定值,也可设为随时步变化而变化的值。在本算法中,在初始时将∈设置为较大的值,每个时步下降一定数值,直至达到最小值,以达到让强化学习模型在训练前期多进行随机选择操作,后期更多地选择最优动作的目的,从而提高算法的训练效率。
S2、初始化初始状态s0
具体地,在每一段经历开始时系统都会将系统状态重置为初始状态,并重置时步数。
S3、传感器中的强化学习模型观察当前系统的状态st,使用∈-greedy策略和当前网络Q(s,a;w)选择动作at
具体地,∈-greedy策略的规则为以概率∈从动作集合中随机选择动作,以概率1-∈选择当前状态的最优动作,其中最优动作是强化学习模型利用当前网络Q(s,a;w)以及状态信息计算得到,也即:
Figure BDA0003146106510000051
其中Pr(at|st)是指在状态st中采取动作at的概率,
Figure BDA0003146106510000052
代表当前网络Q(s,a;w)在输入状态为st时计算得到的状态动作值最小的动作。
S4、传感器执行动作at,观察系统中状态的变化,收集相关的代价信息rj+1以及动作执行后的系统状态st+1
具体地,系统中状态的变化包括信息变化年龄更新和信息年龄更新。
具体地,信息变化年龄更新的更新公式为:
Figure BDA0003146106510000053
其中ht表示发送端在第t时隙时发送的数据包是否被成功接收,1代表传输成功,0代表传输失败;Dt表示在t时刻新到来的数据包Xt和接收端原有的数据包X′t的比较结果,1代表不一致,0代表一致,比较操作只有在接收端成功接收新数据包Xt时才会进行。
具体地,信息年龄更新的更新公式为:
δt=t-U(Xt),
其中,t代表是第t时隙,Xt代表第t时隙接收端成功接收到的最新数据包,U(X)代表数据包X的产生时间戳。
S5、传感器将当前的经验信息{st,at,rt+1,st+1}存储到经验回放池中;
具体地,为了减少经验数据间的相关性并增加数据的利用率,本算法引入了经验回放池机制,经验回放池中存储经验信息,每一段经验信息的结构为{sj,aj,rj+1,sj+1}。同时,强化学习模型每次从经验回放池中选取经验的数量不做特殊要求,一般设置为2的若干次方,如32、64、128、256等等。
具体地,经验回放池有容量限制,当回放池已满,新的经验将覆盖最早进入回放池的经验。
S6、传感器从经验回放池中随机取出一批经验信息{sj,aj,rj+1,sj+1},计算这批经验信息的目标值yj和对应的损失函数(yj-Q(sj,aj;w))2并利用梯度下降法优化当前网络的参数w;
具体地,损失函数为(yj-Q(sj,aj;w))2,其中目标值yj为:
Figure BDA0003146106510000061
其中
Figure BDA0003146106510000062
为参考状态,
Figure BDA0003146106510000063
为目标网络Q(s,a;w-)在输入状态为sj+1时所能获得的最小状态动作值。
S7、每隔固定的时间间隔O更新一次目标网络Q(s,a;w-)的参数;
具体地,更新方式为将目标网络参数同步为当前网络的参数,即w-=w;
S8、判断当前时步是否达到最大值,若是跳转S9,否则跳转S3;
S9、判断当前经历数是否等于最大经历数,若是则跳转S10,否则跳转S2;
S10、对模型的训练已完成,将传感器部署到实际应用场景中,并将传感器选择动作的策略改为贪心策略;
具体地,贪心策略即每次选择动作时都选择由神经网络计算得到的状态动作值最低的动作,即
Figure BDA0003146106510000064
其中
Figure BDA0003146106510000065
代表传感器在输入状态为st时利用当前网络Q(s,a;w)计算得到的状态动作值最小的动作。
S11、在传感器的实际运行过程中,统计系统模型的平均代价、平均信息变化年龄和平均能量消耗,得到物联网通信系统的信息新鲜度指标数据。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (8)

1.基于双网络深度强化学习的物联网信息新鲜度优化方法,其特征在于,包括以下步骤:
S1、将物联网点对点通信系统模型建模为平均代价马尔科夫决策过程,将优化目标设置为最小化信息变化年龄和能量消耗的加权和,在传感器内设置强化学习模型以及相关参数;
S2、初始化初始状态s0
S3、传感器中的强化学习模型观察当前系统的状态st,使用∈-greedy策略和当前网络Q(s,a;w)选择动作at
S4、传感器执行动作at,观察系统中状态的变化,收集相关的代价信息rj+1以及动作执行后的系统状态st+1
S5、传感器将当前的经验信息{st,at,rt+1,st+1}存储到经验回放池中;
S6、传感器从经验回放池中随机取出一批经验信息{sj,aj,rj+1,sj+1},计算这批经验信息的目标值yj和对应的损失函数(yj-Q(sj,aj;w))2并利用梯度下降法优化当前网络的参数w;
S7、每隔固定的时间间隔O更新一次目标网络Q(s,a;w-)的参数,更新方式为将目标网络参数同步为当前网络的参数,即w-=w;
S8、判断当前时步是否达到最大值,若是跳转S9,否则跳转S3;
S9、判断当前经历数是否等于最大经历数,若是则跳转S10,否则跳转S2;
S10、对模型的训练已完成,将传感器部署到实际应用场景中,并将传感器选择动作的策略改为贪心策略;
S11、在传感器的实际运行过程中,统计系统模型的平均代价、平均信息变化年龄和平均能量消耗,得到物联网通信系统的信息新鲜度指标数据。
2.根据权利要求1所述基于双网络深度强化学习的物联网信息新鲜度优化方法,其特征在于,所述将物联网点对点通信系统模型建模为平均代价马尔科夫决策过程,组成元素为(S,A,R),分别为:
状态,用S表示状态空间,用st=(Δt,δt,μt)表示第t时隙的状态,其中△t表示信息变化年龄,δt表示信息年龄,μt表示存储在接收端缓存区的数据包X′t里关于源端的状态信息;
动作,用A表示动作空间集合,A为离散空间,用at表示第t时隙的动作且at∈{0,1},其中0代表不发送动作,1代表采样并发送动作;
代价,用R表示代价信息,用rt+1表示在第t时隙时在状态st下采取动作at产生的代价,定义rt+1=△t+ωatCu,其中Cu是采样传输的能量消耗,ω是权重因子,可通过ω动态调节能量消耗的占比。
3.根据权利要求1所述基于双网络深度强化学习的物联网信息新鲜度优化方法,其特征在于,所述将优化目标设置为最小化平均信息变化年龄和能量消耗的加权和,即:
Figure FDA0003146106500000021
上式中,△t是系统在t时隙时的信息变化年龄,s0是经历的初始状态。
4.根据权利要求1所述基于双网络深度强化学习的物联网信息新鲜度优化方法,其特征在于,所述损失函数为(yj-Q(sj,aj;w))2,其中目标值yj为:
Figure FDA0003146106500000022
上式中,
Figure FDA0003146106500000023
为参考状态,
Figure FDA0003146106500000024
为目标网络Q(s,a;w-)在输入状态为sj+1时所能获得的最小状态动作值。
5.根据权利要求1所述基于双网络深度强化学习的物联网信息新鲜度优化方法,其特征在于,当前网络Q(s,a;w)与目标网络Q(s,a;w-)的结构一致。
6.根据权利要求1所述基于双网络深度强化学习的物联网信息新鲜度优化方法,其特征在于,所述系统中状态的变化包括信息变化年龄更新和信息年龄更新。
7.根据权利要求6所述基于双网络深度强化学习的物联网信息新鲜度优化方法,其特征在于,所述信息变化年龄更新的更新公式为:
Figure FDA0003146106500000025
上式中,ht表示发送端在第t时隙时发送的数据包是否被成功接收,1代表传输成功,0代表传输失败;Dt表示在t时刻新到来的数据包Xt和接收端原有的数据包X′t的比较结果,1代表不一致,0代表一致,比较操作只有在接收端成功接收新数据包Xt时才会进行。
8.根据权利要求6所述基于双网络深度强化学习的物联网信息新鲜度优化方法,其特征在于,所述信息年龄更新的更新公式为:
δt=t-U(Xt),
上式中,t代表是第t时隙,Xt代表第t时隙接收端成功接收到的最新数据包,U(X)代表数据包X产生时的时间戳。
CN202110753368.5A 2021-07-02 2021-07-02 基于双网络深度强化学习的物联网信息新鲜度优化方法 Active CN113438315B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110753368.5A CN113438315B (zh) 2021-07-02 2021-07-02 基于双网络深度强化学习的物联网信息新鲜度优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110753368.5A CN113438315B (zh) 2021-07-02 2021-07-02 基于双网络深度强化学习的物联网信息新鲜度优化方法

Publications (2)

Publication Number Publication Date
CN113438315A true CN113438315A (zh) 2021-09-24
CN113438315B CN113438315B (zh) 2023-04-21

Family

ID=77758848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110753368.5A Active CN113438315B (zh) 2021-07-02 2021-07-02 基于双网络深度强化学习的物联网信息新鲜度优化方法

Country Status (1)

Country Link
CN (1) CN113438315B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113891276A (zh) * 2021-10-26 2022-01-04 重庆邮电大学 基于信息年龄的混合更新工业无线传感器网络调度方法
CN114039918A (zh) * 2021-10-09 2022-02-11 广东技术师范大学 一种信息年龄优化方法、装置、计算机设备及存储介质
CN114630299A (zh) * 2022-03-08 2022-06-14 南京理工大学 一种基于深度强化学习的信息年龄可感知资源分配方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110093459A1 (en) * 2009-10-15 2011-04-21 Yahoo! Inc. Incorporating Recency in Network Search Using Machine Learning
CN109660598A (zh) * 2018-11-17 2019-04-19 华中科技大学 一种物联网暂态数据的缓存替换方法及系统
CN112437131A (zh) * 2020-11-10 2021-03-02 西北农林科技大学 物联网中考虑数据相关性的数据动态采集与传输方法
CN112671451A (zh) * 2020-12-10 2021-04-16 北京邮电大学 一种无人机数据收集方法、设备、电子设备及存储介质
CN112752357A (zh) * 2020-12-02 2021-05-04 宁波大学 基于能量收割技术的在线无人机辅助数据收集方法及装置
CN112752337A (zh) * 2020-12-16 2021-05-04 南京航空航天大学 一种基于q学习的无人机中继协助保持信息新鲜度的系统和方法
CN113055910A (zh) * 2021-03-08 2021-06-29 国网能源研究院有限公司 平均信息年龄最小化射频驱动网络优化方法、系统及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110093459A1 (en) * 2009-10-15 2011-04-21 Yahoo! Inc. Incorporating Recency in Network Search Using Machine Learning
CN109660598A (zh) * 2018-11-17 2019-04-19 华中科技大学 一种物联网暂态数据的缓存替换方法及系统
CN112437131A (zh) * 2020-11-10 2021-03-02 西北农林科技大学 物联网中考虑数据相关性的数据动态采集与传输方法
CN112752357A (zh) * 2020-12-02 2021-05-04 宁波大学 基于能量收割技术的在线无人机辅助数据收集方法及装置
CN112671451A (zh) * 2020-12-10 2021-04-16 北京邮电大学 一种无人机数据收集方法、设备、电子设备及存储介质
CN112752337A (zh) * 2020-12-16 2021-05-04 南京航空航天大学 一种基于q学习的无人机中继协助保持信息新鲜度的系统和方法
CN113055910A (zh) * 2021-03-08 2021-06-29 国网能源研究院有限公司 平均信息年龄最小化射频驱动网络优化方法、系统及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
唐伦等: "基于强化学习的5G网络切片虚拟网络功能迁移算法", 《电子与信息学报》 *
熊轲等: "6G时代信息新鲜度优先的无线网络设计", 《物联网学报》 *
衣孟杰: "基于深度强化学习的无人机通信技术研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑C031-80》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114039918A (zh) * 2021-10-09 2022-02-11 广东技术师范大学 一种信息年龄优化方法、装置、计算机设备及存储介质
CN113891276A (zh) * 2021-10-26 2022-01-04 重庆邮电大学 基于信息年龄的混合更新工业无线传感器网络调度方法
CN113891276B (zh) * 2021-10-26 2023-05-26 重庆邮电大学 基于信息年龄的混合更新工业无线传感器网络调度方法
CN114630299A (zh) * 2022-03-08 2022-06-14 南京理工大学 一种基于深度强化学习的信息年龄可感知资源分配方法
CN114630299B (zh) * 2022-03-08 2024-04-23 南京理工大学 一种基于深度强化学习的信息年龄可感知资源分配方法

Also Published As

Publication number Publication date
CN113438315B (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
CN113438315A (zh) 基于双网络深度强化学习的物联网信息新鲜度优化方法
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
CN102918887B (zh) 用于动态的信道和传输速率选择的方法和设备
CN111629380B (zh) 面向高并发多业务工业5g网络的动态资源分配方法
US20220217792A1 (en) Industrial 5g dynamic multi-priority multi-access method based on deep reinforcement learning
CN112954651B (zh) 一种基于深度强化学习的低时延高可靠性v2v资源分配方法
CN114285853B (zh) 设备密集型工业物联网中基于端边云协同的任务卸载方法
US20230199720A1 (en) Priority-based joint resource allocation method and apparatus with deep q-learning
Yang et al. Deep reinforcement learning based wireless network optimization: A comparative study
CN113905384A (zh) 一种用于认知无线电的多智能体协作频谱感知与接入方法
CN114598667A (zh) 一种基于联邦学习的高效设备选择与资源分配方法
CN114116061B (zh) 一种移动边缘计算环境下的工作流任务卸载方法及系统
Zhang et al. Toward intelligent resource allocation on task-oriented semantic communication
CN114126021A (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN114501667A (zh) 一种考虑业务优先级的多信道接入建模及分布式实现方法
Lan et al. Progressive feature transmission for split inference at the wireless edge
CN117119486B (zh) 一种保障多小区蜂窝网长期用户速率的深度无监督学习资源分配方法
Sharara et al. A recurrent neural network based approach for coordinating radio and computing resources allocation in cloud-ran
CN114826378B (zh) 基于数据驱动的星间链路调度方法及系统
CN116484976A (zh) 一种无线网络中异步联邦学习方法
CN116193607A (zh) 基于信息年龄的电力物联网周期性业务数据资源调度方法
CN114500561B (zh) 电力物联网网络资源分配决策方法、系统、设备及介质
CN115580900A (zh) 一种基于深度强化学习的无人机辅助协作式任务卸载方法
CN112953666A (zh) 认知无线网络中基于信道质量的频谱预测切换方法
CN115529604A (zh) 一种基于服务器协作的联合资源分配与多元任务卸载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant