CN113438315A - 基于双网络深度强化学习的物联网信息新鲜度优化方法 - Google Patents
基于双网络深度强化学习的物联网信息新鲜度优化方法 Download PDFInfo
- Publication number
- CN113438315A CN113438315A CN202110753368.5A CN202110753368A CN113438315A CN 113438315 A CN113438315 A CN 113438315A CN 202110753368 A CN202110753368 A CN 202110753368A CN 113438315 A CN113438315 A CN 113438315A
- Authority
- CN
- China
- Prior art keywords
- information
- reinforcement learning
- internet
- state
- experience
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/104—Peer-to-peer [P2P] networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Optimization (AREA)
- Medical Informatics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mobile Radio Communication Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了基于双网络深度强化学习的物联网信息新鲜度优化方法,该方法包括:传感器将运行规定的经历数,在每段经历的每个时步中都会根据策略选择动作并执行,观察奖励和状态,并保存至经验回放池中;之后模型从经验回放池取出一批经验,使用平均代价形式的目标值计算公式计算损失函数并更新当前网络参数,每隔一定时步数更新目标网络参数;循环执行上述步骤直至该段经历结束。该方法能够帮助传感器在每一时步中做出最优决策,从而最小化平均信息变化年龄和能量消耗的加权和,达到在最小化系统平均信息变化年龄的同时最大化设备使用寿命的目的。本发明作为基于双网络深度强化学习的物联网信息新鲜度优化方法,可应用于深度强化学习领域。
Description
技术领域
本发明涉及深度强化学习领域,尤其涉及基于双网络深度强化学习的物联网信息新鲜度优化方法。
背景技术
随着物联网系统应用场景的深化、车联网等设施的落地,物联网系统的实时性性能越来越重要。另一方面,目前现有的实时性指标大部分只考虑信息在时间维度上的变化,缺乏对信息在内容维度上的变化的考虑,而信息变化年龄便同时度量信息在时间和内容维度上的变化。由于信息变化年龄是随时间变化的随机过程,往往用其平均值作为性能指标。类似于平均信息变化年龄以及平均能量消耗,这类优化平均值问题统称为平均代价问题。目前常见的强化学习优化算法大部分是折扣形式的强化学习算法,折扣形式的强化学习算法并不能直接应用于平均代价问题的优化中,而传统的适用于平均代价问题的强化学习算法面临维度灾难的问题,存在巨大的局限性。
发明内容
为了解决上述技术问题,本发明的目的是提供基于双网络深度强化学习的物联网信息新鲜度优化方法,最小化物联网系统的平均信息变化年龄的同时最大化物联网设备的使用寿命,并克服环境信息不可知的问题。
本发明所采用的技术方案是:基于双网络深度强化学习的物联网信息新鲜度优化方法,包括以下步骤:
S1、将物联网点对点通信系统模型建模为平均代价马尔科夫决策过程,将优化目标设置为最小化信息变化年龄和能量消耗的加权和,在传感器内设置强化学习模型以及相关参数;
S2、初始化初始状态s0;
S3、传感器中的强化学习模型观察当前系统的状态st,使用∈-greedy策略和当前网络Q(s,a;w)选择动作at;
S4、传感器执行动作at,观察系统中状态的变化,收集相关的代价信息rj+1以及动作执行后的系统状态st+1;
S5、传感器将当前的经验信息{st,at,rt+1,st+1}存储到经验回放池中;
S6、传感器从经验回放池中随机取出一批经验信息{sj,aj,rj+1,sj+1},计算这批经验信息的目标值yj和对应的损失函数(yj-Q(sj,aj;w))2并利用梯度下降法优化当前网络的参数w;
S7、每隔固定的时间间隔O更新一次目标网络Q(s,a;w-)的参数,更新方式为将目标网络参数同步为当前网络的参数,即w-=w;
S8、判断当前时步是否达到最大值,若是跳转S9,否则跳转S3;
S9、判断当前经历数是否等于最大经历数,若是则跳转S10,否则跳转S2;
S10、对模型的训练已完成,将传感器部署到实际应用场景中,并将传感器选择动作的策略改为贪心策略;
S11、在传感器的实际运行过程中,统计系统模型的平均代价、平均信息变化年龄和平均能量消耗,得到物联网通信系统的信息新鲜度指标数据。
进一步,所述将物联网点对点通信系统模型建模为平均代价马尔科夫决策过程,组成元素为(S,A,R),分别为:
状态,用S表示状态空间,用st=(Δt,δt,μt)表示第t时隙的状态,其中Δt表示信息变化年龄,δt表示信息年龄,μt表示存储在接收端缓存区的数据包X′t里关于源端的状态信息;
动作,用A表示动作空间集合,A为离散空间,用at表示第t时隙的动作且at∈{0,1},其中0代表不发送动作,1代表采样并发送动作;
代价,用R表示代价信息,用rt+1表示在第t时隙时在状态st下采取动作at产生的代价,定义rt+1=Δt+ωatCu,其中Cu是采样传输的能量消耗,ω是权重因子,可通过ω动态调节能量消耗的占比。
进一步,所述将优化目标设置为最小化平均信息变化年龄和能量消耗的加权和,即:
上式中,Δt是系统在t时隙时的信息变化年龄,s0是该经历的初始状态。该指标综合考虑了系统中的平均能量消耗以及信息变化年龄,优化该指标的同时就能达到最小化系统信息年龄和延长设备寿命的目标。
进一步,所述损失函数(yj-Q(sj,aj;w))2,目标值为:
进一步,当前网络Q(s,a;w)与目标网络Q(s,a;w-)的结构一致。
进一步,所述系统中状态的变化包括信息变化年龄更新和信息年龄更新。
进一步,所述信息变化年龄更新的更新公式为:
其中ht表示发送端在第t时隙时发送的数据包是否被成功接收,1代表传输成功,0代表传输失败;Dt表示在t时刻新到来的数据包Xt和接收端原有的数据包X′t的比较结果,1代表不一致,0代表一致,比较操作只有在接收端成功接收新数据包Xt时才会进行。
进一步,所述信息年龄更新的更新公式为:
δt=t-U(Xt),
其中,t代表是第t时隙,Xt代表第t时隙接收端成功接收到的最新数据包,U(X)代表数据包X的时间戳。
进一步,所述贪心策略即每次选择动作时都选择代价最低的动作。
本发明方法及系统的有益效果是:本发明综合考虑了系统中的平均信息变化年龄以及能量消耗,将优化目标设置为最小化平均信息变化年龄以及能量消耗的加权和,目的是为了在最小化物联网点对点通信模型系统的平均信息变化年龄的同时,最大化系统所使用的物联网设备的使用寿命。
附图说明
图1是本发明基于双网络深度强化学习的物联网信息新鲜度优化方法的步骤流程图;
图2是本发明具体实施例中使用的物联网点对点通信系统模型图;
图3是本发明具体实施例应用的算法结构图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
如图2所示,本发明适用于点对点通信系统模型的传输优化场景,本实施例中的通信网络场景具有的特点包括:这是一个时隙系统模型;传感器内部部署有强化学习模型,具备随时对源端信息采样传输的功能;无线信道不是完美信道,传输可能失败;对于传感器来说,信道状态信息以及源端状态信息均未知,意味着传感器在采样传输之前都不知道当前源端以及信道的状态信息;采样传输需要消耗1个时隙的时间和固定的能量;传感器在完成采样传输行为之后,接收端会根据传输结果在时隙末尾返回1个1bit的ACK/NACK信号,该信号会立即到达传感器且不会出错,传感器依据上述反馈的信号来判断本次传输是否成功。本发明将优化目标设置为信息变化年龄以及能量消耗的加权和,该指标综合考虑了系统中的平均能量消耗以及信息变化年龄,优化该指标的同时就能达到最小化系统信息年龄和延长设备寿命的目标,达到帕累托最优。
参照图1和图3,本发明提供了基于双网络深度强化学习的物联网信息新鲜度优化方法,该方法包括以下步骤:
S1、将物联网点对点通信系统模型建模为平均代价马尔科夫决策过程,将优化目标设为最小化信息变化年龄和能量消耗的加权和,在传感器内设置强化学习模型以及相关参数;
具体地,对于传感器来说,源端的状态信息以及信道的状态信息都是未知的;强化学习模型的输入层与输出层有严格的规定,输入层结构与系统状态一致,输出维数与动作空间数量一致,模型中间的隐藏层无特殊要求,可根据具体问题灵活设置;
具体地,优化目标设置为最小化平均信息年龄和能量消耗的加权和,即:
其中Δt是系统在t时隙时的信息变化年龄,s0是经历的初始状态,Cu是采样传输的能量消耗,ω是权重因子,可通过ω动态调节能量消耗的占比。该指标综合考虑了系统中的平均能量消耗以及信息变化年龄,因此优化该指标的同时就能达到最小化系统信息年龄和延长设备寿命的目标。
具体地,将所述物联网点对点通信系统模型建模为平均代价马尔科夫决策过程,组成元素为(S,A,R),分别为:
状态,用S表示状态空间,用st=(Δt,δt,μt)表示第t时隙的状态,其中Δt表示信息变化年龄,δt表示信息年龄,μt表示存储在接收端缓存区的数据包X′t里关于源端的状态信息;
动作,用A表示动作空间集合,A为离散空间,用at表示第t时隙的动作且at∈{0,1},其中0代表不发送动作,1代表采样并发送动作;
代价,用R表示代价信息,用rt+1表示在第t时隙时在状态st下采取动作at产生的代价,定义rt+1=Δt+ωatCu,Cu是采样传输的能量消耗,ω是权重因子,可通过ω动态调节能量消耗的占比。
具体地,初始化工作包括设置最大经历数、每段经历的最大时步数,随后初始化强化学习模型的各类参数,包括:经验回放池RM,学习率η,更新步长O,当前网络Q(s,a;w)以及该网络的参数w,目标网络Q(s,a;w-)以及该网络的参数w-,其中当前网络Q(s,a;w)与目标网络Q(s,a;w-)的结构一致,并且令w-=w;探索概率∈的初始值、最小值以及每个时步中∈的下降幅度。在实际中,探索概率∈可设为固定值,也可设为随时步变化而变化的值。在本算法中,在初始时将∈设置为较大的值,每个时步下降一定数值,直至达到最小值,以达到让强化学习模型在训练前期多进行随机选择操作,后期更多地选择最优动作的目的,从而提高算法的训练效率。
S2、初始化初始状态s0;
具体地,在每一段经历开始时系统都会将系统状态重置为初始状态,并重置时步数。
S3、传感器中的强化学习模型观察当前系统的状态st,使用∈-greedy策略和当前网络Q(s,a;w)选择动作at;
具体地,∈-greedy策略的规则为以概率∈从动作集合中随机选择动作,以概率1-∈选择当前状态的最优动作,其中最优动作是强化学习模型利用当前网络Q(s,a;w)以及状态信息计算得到,也即:
S4、传感器执行动作at,观察系统中状态的变化,收集相关的代价信息rj+1以及动作执行后的系统状态st+1;
具体地,系统中状态的变化包括信息变化年龄更新和信息年龄更新。
具体地,信息变化年龄更新的更新公式为:
其中ht表示发送端在第t时隙时发送的数据包是否被成功接收,1代表传输成功,0代表传输失败;Dt表示在t时刻新到来的数据包Xt和接收端原有的数据包X′t的比较结果,1代表不一致,0代表一致,比较操作只有在接收端成功接收新数据包Xt时才会进行。
具体地,信息年龄更新的更新公式为:
δt=t-U(Xt),
其中,t代表是第t时隙,Xt代表第t时隙接收端成功接收到的最新数据包,U(X)代表数据包X的产生时间戳。
S5、传感器将当前的经验信息{st,at,rt+1,st+1}存储到经验回放池中;
具体地,为了减少经验数据间的相关性并增加数据的利用率,本算法引入了经验回放池机制,经验回放池中存储经验信息,每一段经验信息的结构为{sj,aj,rj+1,sj+1}。同时,强化学习模型每次从经验回放池中选取经验的数量不做特殊要求,一般设置为2的若干次方,如32、64、128、256等等。
具体地,经验回放池有容量限制,当回放池已满,新的经验将覆盖最早进入回放池的经验。
S6、传感器从经验回放池中随机取出一批经验信息{sj,aj,rj+1,sj+1},计算这批经验信息的目标值yj和对应的损失函数(yj-Q(sj,aj;w))2并利用梯度下降法优化当前网络的参数w;
具体地,损失函数为(yj-Q(sj,aj;w))2,其中目标值yj为:
S7、每隔固定的时间间隔O更新一次目标网络Q(s,a;w-)的参数;
具体地,更新方式为将目标网络参数同步为当前网络的参数,即w-=w;
S8、判断当前时步是否达到最大值,若是跳转S9,否则跳转S3;
S9、判断当前经历数是否等于最大经历数,若是则跳转S10,否则跳转S2;
S10、对模型的训练已完成,将传感器部署到实际应用场景中,并将传感器选择动作的策略改为贪心策略;
具体地,贪心策略即每次选择动作时都选择由神经网络计算得到的状态动作值最低的动作,即
S11、在传感器的实际运行过程中,统计系统模型的平均代价、平均信息变化年龄和平均能量消耗,得到物联网通信系统的信息新鲜度指标数据。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (8)
1.基于双网络深度强化学习的物联网信息新鲜度优化方法,其特征在于,包括以下步骤:
S1、将物联网点对点通信系统模型建模为平均代价马尔科夫决策过程,将优化目标设置为最小化信息变化年龄和能量消耗的加权和,在传感器内设置强化学习模型以及相关参数;
S2、初始化初始状态s0;
S3、传感器中的强化学习模型观察当前系统的状态st,使用∈-greedy策略和当前网络Q(s,a;w)选择动作at;
S4、传感器执行动作at,观察系统中状态的变化,收集相关的代价信息rj+1以及动作执行后的系统状态st+1;
S5、传感器将当前的经验信息{st,at,rt+1,st+1}存储到经验回放池中;
S6、传感器从经验回放池中随机取出一批经验信息{sj,aj,rj+1,sj+1},计算这批经验信息的目标值yj和对应的损失函数(yj-Q(sj,aj;w))2并利用梯度下降法优化当前网络的参数w;
S7、每隔固定的时间间隔O更新一次目标网络Q(s,a;w-)的参数,更新方式为将目标网络参数同步为当前网络的参数,即w-=w;
S8、判断当前时步是否达到最大值,若是跳转S9,否则跳转S3;
S9、判断当前经历数是否等于最大经历数,若是则跳转S10,否则跳转S2;
S10、对模型的训练已完成,将传感器部署到实际应用场景中,并将传感器选择动作的策略改为贪心策略;
S11、在传感器的实际运行过程中,统计系统模型的平均代价、平均信息变化年龄和平均能量消耗,得到物联网通信系统的信息新鲜度指标数据。
2.根据权利要求1所述基于双网络深度强化学习的物联网信息新鲜度优化方法,其特征在于,所述将物联网点对点通信系统模型建模为平均代价马尔科夫决策过程,组成元素为(S,A,R),分别为:
状态,用S表示状态空间,用st=(Δt,δt,μt)表示第t时隙的状态,其中△t表示信息变化年龄,δt表示信息年龄,μt表示存储在接收端缓存区的数据包X′t里关于源端的状态信息;
动作,用A表示动作空间集合,A为离散空间,用at表示第t时隙的动作且at∈{0,1},其中0代表不发送动作,1代表采样并发送动作;
代价,用R表示代价信息,用rt+1表示在第t时隙时在状态st下采取动作at产生的代价,定义rt+1=△t+ωatCu,其中Cu是采样传输的能量消耗,ω是权重因子,可通过ω动态调节能量消耗的占比。
5.根据权利要求1所述基于双网络深度强化学习的物联网信息新鲜度优化方法,其特征在于,当前网络Q(s,a;w)与目标网络Q(s,a;w-)的结构一致。
6.根据权利要求1所述基于双网络深度强化学习的物联网信息新鲜度优化方法,其特征在于,所述系统中状态的变化包括信息变化年龄更新和信息年龄更新。
8.根据权利要求6所述基于双网络深度强化学习的物联网信息新鲜度优化方法,其特征在于,所述信息年龄更新的更新公式为:
δt=t-U(Xt),
上式中,t代表是第t时隙,Xt代表第t时隙接收端成功接收到的最新数据包,U(X)代表数据包X产生时的时间戳。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110753368.5A CN113438315B (zh) | 2021-07-02 | 2021-07-02 | 基于双网络深度强化学习的物联网信息新鲜度优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110753368.5A CN113438315B (zh) | 2021-07-02 | 2021-07-02 | 基于双网络深度强化学习的物联网信息新鲜度优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113438315A true CN113438315A (zh) | 2021-09-24 |
CN113438315B CN113438315B (zh) | 2023-04-21 |
Family
ID=77758848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110753368.5A Active CN113438315B (zh) | 2021-07-02 | 2021-07-02 | 基于双网络深度强化学习的物联网信息新鲜度优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113438315B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113891276A (zh) * | 2021-10-26 | 2022-01-04 | 重庆邮电大学 | 基于信息年龄的混合更新工业无线传感器网络调度方法 |
CN114039918A (zh) * | 2021-10-09 | 2022-02-11 | 广东技术师范大学 | 一种信息年龄优化方法、装置、计算机设备及存储介质 |
CN114630299A (zh) * | 2022-03-08 | 2022-06-14 | 南京理工大学 | 一种基于深度强化学习的信息年龄可感知资源分配方法 |
CN115484569A (zh) * | 2022-08-12 | 2022-12-16 | 北京邮电大学 | 缓存数据的传输方法、装置、电子设备及介质 |
CN115622603A (zh) * | 2022-10-08 | 2023-01-17 | 广州大学 | 一种辅助传输信息年龄最小化优化方法 |
CN115842926A (zh) * | 2021-11-29 | 2023-03-24 | 北京航空航天大学 | 基于改进的sarl的远程视频时效性优化方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110093459A1 (en) * | 2009-10-15 | 2011-04-21 | Yahoo! Inc. | Incorporating Recency in Network Search Using Machine Learning |
CN109660598A (zh) * | 2018-11-17 | 2019-04-19 | 华中科技大学 | 一种物联网暂态数据的缓存替换方法及系统 |
CN112437131A (zh) * | 2020-11-10 | 2021-03-02 | 西北农林科技大学 | 物联网中考虑数据相关性的数据动态采集与传输方法 |
CN112671451A (zh) * | 2020-12-10 | 2021-04-16 | 北京邮电大学 | 一种无人机数据收集方法、设备、电子设备及存储介质 |
CN112752337A (zh) * | 2020-12-16 | 2021-05-04 | 南京航空航天大学 | 一种基于q学习的无人机中继协助保持信息新鲜度的系统和方法 |
CN112752357A (zh) * | 2020-12-02 | 2021-05-04 | 宁波大学 | 基于能量收割技术的在线无人机辅助数据收集方法及装置 |
CN113055910A (zh) * | 2021-03-08 | 2021-06-29 | 国网能源研究院有限公司 | 平均信息年龄最小化射频驱动网络优化方法、系统及装置 |
-
2021
- 2021-07-02 CN CN202110753368.5A patent/CN113438315B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110093459A1 (en) * | 2009-10-15 | 2011-04-21 | Yahoo! Inc. | Incorporating Recency in Network Search Using Machine Learning |
CN109660598A (zh) * | 2018-11-17 | 2019-04-19 | 华中科技大学 | 一种物联网暂态数据的缓存替换方法及系统 |
CN112437131A (zh) * | 2020-11-10 | 2021-03-02 | 西北农林科技大学 | 物联网中考虑数据相关性的数据动态采集与传输方法 |
CN112752357A (zh) * | 2020-12-02 | 2021-05-04 | 宁波大学 | 基于能量收割技术的在线无人机辅助数据收集方法及装置 |
CN112671451A (zh) * | 2020-12-10 | 2021-04-16 | 北京邮电大学 | 一种无人机数据收集方法、设备、电子设备及存储介质 |
CN112752337A (zh) * | 2020-12-16 | 2021-05-04 | 南京航空航天大学 | 一种基于q学习的无人机中继协助保持信息新鲜度的系统和方法 |
CN113055910A (zh) * | 2021-03-08 | 2021-06-29 | 国网能源研究院有限公司 | 平均信息年龄最小化射频驱动网络优化方法、系统及装置 |
Non-Patent Citations (3)
Title |
---|
唐伦等: "基于强化学习的5G网络切片虚拟网络功能迁移算法", 《电子与信息学报》 * |
熊轲等: "6G时代信息新鲜度优先的无线网络设计", 《物联网学报》 * |
衣孟杰: "基于深度强化学习的无人机通信技术研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑C031-80》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114039918A (zh) * | 2021-10-09 | 2022-02-11 | 广东技术师范大学 | 一种信息年龄优化方法、装置、计算机设备及存储介质 |
CN113891276A (zh) * | 2021-10-26 | 2022-01-04 | 重庆邮电大学 | 基于信息年龄的混合更新工业无线传感器网络调度方法 |
CN113891276B (zh) * | 2021-10-26 | 2023-05-26 | 重庆邮电大学 | 基于信息年龄的混合更新工业无线传感器网络调度方法 |
CN115842926A (zh) * | 2021-11-29 | 2023-03-24 | 北京航空航天大学 | 基于改进的sarl的远程视频时效性优化方法 |
CN114630299A (zh) * | 2022-03-08 | 2022-06-14 | 南京理工大学 | 一种基于深度强化学习的信息年龄可感知资源分配方法 |
CN114630299B (zh) * | 2022-03-08 | 2024-04-23 | 南京理工大学 | 一种基于深度强化学习的信息年龄可感知资源分配方法 |
CN115484569A (zh) * | 2022-08-12 | 2022-12-16 | 北京邮电大学 | 缓存数据的传输方法、装置、电子设备及介质 |
CN115622603A (zh) * | 2022-10-08 | 2023-01-17 | 广州大学 | 一种辅助传输信息年龄最小化优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113438315B (zh) | 2023-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113438315A (zh) | 基于双网络深度强化学习的物联网信息新鲜度优化方法 | |
CN110809306B (zh) | 一种基于深度强化学习的终端接入选择方法 | |
CN102918887B (zh) | 用于动态的信道和传输速率选择的方法和设备 | |
US12035380B2 (en) | Industrial 5G dynamic multi-priority multi-access method based on deep reinforcement learning | |
CN111629380B (zh) | 面向高并发多业务工业5g网络的动态资源分配方法 | |
CN114285853B (zh) | 设备密集型工业物联网中基于端边云协同的任务卸载方法 | |
CN112954651A (zh) | 一种基于深度强化学习的低时延高可靠性v2v资源分配方法 | |
CN108092891A (zh) | 一种基于马尔科夫决策过程的数据调度方法 | |
CN114598667B (zh) | 一种基于联邦学习的设备选择与资源分配方法 | |
CN113905384A (zh) | 一种用于认知无线电的多智能体协作频谱感知与接入方法 | |
Zhang et al. | Toward intelligent resource allocation on task-oriented semantic communication | |
Lan et al. | Progressive feature transmission for split inference at the wireless edge | |
CN115315005A (zh) | 一种短数据包通信条件下导频辅助的状态更新方法 | |
CN114126021A (zh) | 一种基于深度强化学习的绿色认知无线电的功率分配方法 | |
CN115529604A (zh) | 一种基于服务器协作的联合资源分配与多元任务卸载方法 | |
CN117119486A (zh) | 一种保障多小区蜂窝网长期用户速率的深度无监督学习资源分配方法 | |
CN114826378B (zh) | 基于数据驱动的星间链路调度方法及系统 | |
US20230047986A1 (en) | System and method for communication load balancing in unseen traffic scenarios | |
CN116484976A (zh) | 一种无线网络中异步联邦学习方法 | |
CN115580900A (zh) | 一种基于深度强化学习的无人机辅助协作式任务卸载方法 | |
CN114745337A (zh) | 一种基于深度强化学习的实时拥塞控制方法 | |
CN112953666A (zh) | 认知无线网络中基于信道质量的频谱预测切换方法 | |
Ong et al. | Cognitive radio network throughput maximization with deep reinforcement learning | |
Kim et al. | RL-based transmission completion time minimization with energy harvesting for time-varying channels | |
CN118400788B (zh) | 异构无人平台集群的自适应稳态组网方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |