CN112437131A - 物联网中考虑数据相关性的数据动态采集与传输方法 - Google Patents

物联网中考虑数据相关性的数据动态采集与传输方法 Download PDF

Info

Publication number
CN112437131A
CN112437131A CN202011250319.1A CN202011250319A CN112437131A CN 112437131 A CN112437131 A CN 112437131A CN 202011250319 A CN202011250319 A CN 202011250319A CN 112437131 A CN112437131 A CN 112437131A
Authority
CN
China
Prior art keywords
state
time
action
energy
update
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011250319.1A
Other languages
English (en)
Other versions
CN112437131B (zh
Inventor
徐超
张凡
张博玮
张新艳
谢益平
孙红光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest A&F University
Original Assignee
Northwest A&F University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest A&F University filed Critical Northwest A&F University
Priority to CN202011250319.1A priority Critical patent/CN112437131B/zh
Publication of CN112437131A publication Critical patent/CN112437131A/zh
Application granted granted Critical
Publication of CN112437131B publication Critical patent/CN112437131B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • H04L67/125Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks involving control of end-device applications over a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • H04W16/225Traffic simulation tools or models for indoor or short range network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • H04W52/0209Power saving arrangements in terminal devices
    • H04W52/0225Power saving arrangements in terminal devices using monitoring of external events, e.g. the presence of a signal
    • H04W52/0248Power saving arrangements in terminal devices using monitoring of external events, e.g. the presence of a signal dependent on the time of the day, e.g. according to expected transmission activity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开一种物联网中考虑数据相关性的数据动态采集与传输方法,通过多个能量收集传感器组成了物联网网络,适当激活能量收集传感器来更新状态来提高信息的时效性;具体采用关联信息年龄的概念来表示能量收集传感器的信息时效性,然后引出一个动态更新优化的问题来使得观测到的长期平均信息相关年龄最小,该问题综合考虑了资源传输约束和能量因果约束关系;然后采用马尔可夫决策过程来描述状态更新过程,并通过在标准的Q‑network中进行动作剔除以解决该问题,本发明设计的一种基于深度强化学习的状态更新算法,该算法可以同时解决环境动态未知、维数灾难以及有效动作与状态之间的耦合问题。

Description

物联网中考虑数据相关性的数据动态采集与传输方法
技术领域
本发明涉及物联网技术领域,尤其涉及一种物联网中考虑数据相关性的数据动态采集与传输方法。
背景技术
近来物联网的发展给许多领域带来了巨大的影响,产生了许多有价值的实时应用,从工厂自动化的高速装配和包装,智能交通系统中的自动驾驶,到智慧城市或精准农业中的环境监测和过程自动化。对于这些实时的应用,服务质量在很大程度上依赖于新信息的及时传递,因为过时的信息将降低决策的准确性和可靠性。最近,信息年龄被提出,作为一种新的标准,从信息的目的地(数据融合中心)的角度评估信息时效性,其测量自生成到接收最新的分组所经过的时间。信息年龄表示了网络中的传输延迟以及传感器上的更新时间。因此,信息年龄对于信息时效性的评价更加重要和全面,而设计高效的状态更新策略对于提高物联网网络中的信息时效性至关重要。
在工作中,通常假设不同传感器生成的状态更新是独立的,每个传感器都与目标处的信息年龄值相关联。然而,对于实际场景中的许多物联网应用,不同传感器的状态更新可能是关联的,因此,这些更新需要在数据融合中心处集成做出明智的决策,即传感器是关联的。例如,环境监视可能需要具有重叠视野的多个摄像头来监测给定场景,并且自动驾驶可以依赖于汽车的路况和状态,通过聚合来自不同传感器的测量结果来生成。因此,相关信息年龄的概念在中被引入来表示能量采集传感器的信息时效性,最近的研究开始探索状态更新方案来改善物联网网络中的相关信息年龄。
同时,对于物联网网络来说,提供最新状态更新的最大挑战之一是传感器的电量供应有限,因为它们通常由容量有限的电池供电,而不是固定电源。出于经济角度的考虑,能量收集技术被认为是为传感器供电的一个具有挑战性的解决方案。因此,最近的一些研究开始研究如何通过优化能量收集来降低信息年龄的实现。然而,之前的研究在所考虑的物联网网络中只加入了一个能量收集传感器,并没有考虑传感器之间的相关性对状态更新策略设计的影响。因此,如何设计高效的动态更新策略来保证集成信息的时效性成为了关键问题。
发明内容
针对上述问题,本发明提供了一种物联网中考虑数据相关性的数据动态采集与传输方法,采用马尔可夫决策过程来描述状态更新过程,并通过在标准的Q-network中加入动作剔除,设计了一种基于深度强化学习的状态更新算法,该算法可以同时解决环境动态未知、维数灾难以及有效动作与状态之间的耦合问题。
为了实现上述技术方案,本发明提供了一种深度强化学习方法,其特征在于,首先将动态协作状态更新过程描述为马尔可夫决策过程,然后通过在标准DQN中加入动作剔除机制来更新算法的有效性。
进一步改进在于:将所关心的动态状态更新表示为由元组(S,A(t),U(·,·))组成的马尔可夫决策过程,描述如下:
1)状态空间S:首先定义每个单位时间为t的传感器nk的状态为
Figure BDA0002771379290000031
其中
Figure BDA0002771379290000032
表示从最后一次检测成功的时间段结束到时间段t开始的时间
Figure BDA0002771379290000033
传感器在
Figure BDA0002771379290000034
时的激活时间,
Figure BDA0002771379290000035
为传感器电池中的能量;然后将马尔可夫决策过程的状态定义为所有传感器的状态和数据融合中心处的相关信息年龄值的组合,即
S(t)=((S1(t),S2(t),...,SK(t)),Δ(t)),其中
Figure BDA0002771379290000036
由于状态空间S有限,设置自上次感知并成功传输的以来的最大经过时间为Gmax,最大激活时间为Xmax,数据融合中心处的最大相关信息年龄为Δmax,其值为有限的,能任意增大;
2)行动空间A:数据融合中心决策包括在每个时间段激活不超过M个传感器进行状态更新;为了避免次优行为的存在,动作空间表示为
Figure BDA0002771379290000037
A表示一个状态更新的决定,
Figure BDA0002771379290000038
Figure BDA0002771379290000039
在(5)中被定义;由于能源因果关系约束(1),在每个时间段的有效行为取决于当前状态,用
Figure BDA00027713792900000310
表示
3)奖励函数
U(·,·):在每个时间段,给定状态S(t)和动作A(t),将奖励函数定义为U(S(t),A(t))=-Δ(t+1) (14)
即下一个单位时间开始时的相关信息年龄值的负值。
以找到确定性平稳策略π*,该策略最大程度地赋予给定初始状态S(1)的长期累积奖励;
Figure BDA0002771379290000041
γ是引入的折现因子,为了确定当前奖励的重要性,同时保证长期累计奖励是有限的,Δ(1)=0时(a)成立。我们注意到,通过设置
Figure BDA0002771379290000042
π*在(15)也可以用来获得原问题P近似解(6)当γ设置接近1;
如式(15)所示,在单位时间t中获得的奖励U(S(t),A(t))影响长期累积奖励。
进一步改进在于:对于每个确定性平稳策略π,定义动作值函数如式(16)所示,(S,A)表示初始状态-动作对,Bellman最优性方程表示为式(17),其中P(S′|S,A)表示通过动作A从一种状态S到另一种状态S′的转移概率;由于传感器的感知并成功传输的概率和能量到达率未知,因此,可由基于动作剔除的DQN状态更新算法来解决;该算法如下:
初始化:初始化Q-network参数θ,目标Q-network参数θ-←θ;设置训练开始时间为Ws,训练批次大小为Db,目标网络更新频率为W-,回放内存
Figure BDA0002771379290000043
大小为D;
在基于动作剔除的DQN状态更新算法开始时,随机初始化Q-network的参数,并将目标Q-network参数θ-设置为θ的副本;学习过程被划分为Weps个回合(episode),每个回合(episode)包括个单位时间;对于每个回合(episode),将状态初始化为S(1),其中所有传感器的能量值设置为
Figure BDA0002771379290000051
其他元素设置为0,然后算法进入循环;在每次迭代t处,首先根据(1)中的能量因果约束关系指定有效动作集
Figure BDA0002771379290000052
然后根据∈贪婪策略从
Figure BDA0002771379290000053
中选择一个动作A(T)来平衡过程的进行;
Figure BDA0002771379290000054
Figure BDA0002771379290000055
贪婪动作
Figure BDA0002771379290000056
Figure BDA0002771379290000057
的概率被选择,每个其他有效动作将以
Figure BDA0002771379290000058
的概率被选择;在动作执行之后,获得相应的奖励,观察新的状态,并将相应的经验存储到回放内存
Figure BDA0002771379290000059
中;在Ws回合(episode)完成之后,开始训练过程;在每次迭代中采用随机梯度下降法,通过最小化mini-batch的损失函数来更新参数θ-,而目标网络的参数θ-每隔W-回合(episode)更新一次;最后,利用训练好的目标网络,通过访问目标网络并选择具有最大行动值的动作来做出每个单位时间中的状态更新决策。
本发明的有益效果是:本发明通过设计一种具有多个相关能量收集传感器的物联网网络动态状态更新方案,采用相关信息年龄来表示数据融合中心的集成信息的时效性。一个物联网网络由一个数据融合中心负责整合多个相关感知点的状态,每个相关感知点都可以被一组传感器观测,并生成相关的信息。因此,不同相关感知点中的传感器是相关的,而同一相关感知点中的传感器有助于状态感知和更新的分集增益。我们首先描述了数据融合中心中相关信息年龄的生成过程,然后以最小化观测到的长期平均相关信息年龄为目标,建立了一个动态状态更新优化问题,其中综合考虑了资源传输约束和能量因果关系。为了解决这一问题,我们将相应的状态更新过程转化为马尔可夫决策过程,并通过在标准的Deep Q network中加入了动作剔除机制来解决这一问题,从而解决了环境动态未知、状态-动作空间的大尺度以及有效动作与状态之间的耦合带来的挑战。
附图说明
图1是本发明的流程图。
图2为本发明的数据融合中心集成信息的相关信息年龄演化过程图。
图3为本发明的提出的DQNAE-SU算法在一定的训练次数下与不同折现因子下与基准策略生成的平均相关信息年龄对比图。
图4为本发明的不同能量收集概率下DQNAE-SU算法与基准策略生成的的平均相关信息年龄对比图。
具体实施方式
为了加深对本发明的理解,下面将结合实施例对本发明做进一步详述,本实施例仅用于解释本发明,并不构成对本发明保护范围的限定。
如图1-图4所示,假设一个由N个能量收集传感器、K个相关感知点和一个数据融合中心组成的物联网网络。传感器集和相关感知点集表示为N={1,2,...,K}和K={1,2,...,K}。架设每个相关感知点k∈K可以观察到一组
Figure BDA0002771379290000071
不同相关感知点对应的集合是不相交,即
Figure BDA0002771379290000072
L∈K,k≠l。假设一个时间轴,其中时间轴被分割成等长的单位时间。在单位时间开始时,数据融合中心选择一些传感器来协同感知相关感知点,然后要求它们发送其生成的状态更新。假设对于每个传感器,用于相关感知点感知的时间忽略不计,并且每次更新的传输时间等于单位时间的持续时间。此外,在该单位时间结束时,数据融合中心处理从传感器收集的状态更新数据,以生成相关的集成信息,这些信息将被各种实时物联网应用进一步利用(此处将忽略数据融合中心处的数据处理时间,以确保决策时期具有统一的持续时间。解决非统一决策时期的问题留待以后的工作)。
对于相关感知点的感知过程,假设在集合Nk中不同传感器的感知并成功传输的概率根据概率感知模型是不同的。我们用
Figure BDA0002771379290000073
表示传感器的感知并成功传输的概率,且nk∈Nk它对于传感器或数据融合中心是未知的。在不失一般性的前提下,我们假设
Figure BDA0002771379290000074
如果nk<mk
Figure BDA0002771379290000075
mk∈Nk同时,对于状态更新传输,我们认为每个传感器产生的更新数据可以在单位时间内成功地传递到数据融合中心,而在每个单位时间中最多允许M<N个传感器在正交信道上同时更新它们的状态包而不会发生冲突。由于处理能力有限,每个传感器都不能从其收集的数据中判断是否感知成功。因此,在传送和处理所有生成的状态更新之后,即在该单位时间结束时,数据融合中心可判断每个传感器是否感知并成功传输。
我们认为每个传感器nk都配备了电池以节省输入能量,电池存储的能量为
Figure BDA0002771379290000081
相关感知点传感和数据传输的能量消耗归一化为单位1。另外,对于每个传感器nk假设电池充电过程可以建模为概率为的
Figure BDA0002771379290000082
伯努利过程。在这项工作中,我们假设能量到达时间随时间的推移是具有因果关系的,而且数据融合中心和传感器事先不知道到达概率。在每个单位时间开始时,设
Figure BDA0002771379290000083
表示传感器nk电池的能量,A(t)=(A1(t),A2(t),...,AK(t))由数据融合中心做出的状态更新决定,其中
Figure BDA0002771379290000084
如果传感器nk被激活以感知相关传感点k并将其状态更新分组发送到数据融合中心,则
Figure BDA0002771379290000085
否则
Figure BDA0002771379290000086
因此,需要满足的能量因果约束可以表示为
Figure BDA0002771379290000087
在满足上述方程的任何状态更新策略下,每个传感器的电池nk演化为
Figure BDA0002771379290000088
其中
Figure BDA0002771379290000089
是一个随机过程,表示在前一个时间段t-1,传感器是否成功采集了一个单位的能量。当有一个能量单位被收获时
Figure BDA00027713792900000810
否则
Figure BDA00027713792900000811
在不失一般性的前提下,我们假设所有传感器的电池初始化是完整的
Figure BDA00027713792900000812
在每个单位时间的决策时刻之前,即在每个单位时间的开始,用相关信息年龄来评估数据融合中心处集成信息的时效性,记为Δt。注意到,在每个时间段t的末尾,对于每个相关传感点,至少有一个传感器发送了有效的传感数据更新,数据融合中心才能生成相关的集成信息。
Figure BDA0002771379290000091
nk∈Nk表示传感器传递的数据是否有效,如果有效则
Figure BDA0002771379290000092
否则
Figure BDA0002771379290000093
因此,对于一般传感器nk∈Nk在单位时间t内,激活时
Figure BDA0002771379290000094
否则
Figure BDA0002771379290000095
另外,我们用Z(t)∈{0,1}来表示在单位时间结束时是否成功生成了一段集成信息,若Z(t)=1则生成,否则Z(t)=0。
图2所示,说明了数据融合中心集成信息的相关信息年龄演化,K=2个相关感知点,N=N1+N2=2+2=4个传感器,M=3个正交通道。其中,只有在成功检测到两个相关感知点当前状态更新并在同一单位时间发送给数据融合中心时,相关信息年龄才会被设置为最小值。
因此,在每个单位时间t中,集成信息生成的概率可以表示为
Figure BDA0002771379290000096
式中Zk(t)=1表示相关感知点k感知并成功传输当前状态。因此,相关信息年龄的过程可以表述为
Figure BDA0002771379290000101
其中Z(t-1)=1表示在前一个单位时间t-1结束时成功生成了集成信息,且在不失一般性的情况下,Δ(1)初始化为0。为了更好地说明这一概念,图2给出了一个相关信息年龄生成过程的例子。式(4)中相关信息年龄的生成与信息年龄的生成不同,没有考虑传感器之间的相关性和协作。如式(4)所示,只有在单位时间的末端生成集成信息,相关信息年龄才能降至最小值1。另外值得注意的是在任何单位时间内激活传感器来观察部分相关感知点都会浪费状态更新时的能量,对于减少相关信息年龄是无用的。因此,为了有效的状态更新策略
Figure BDA0002771379290000102
Figure BDA0002771379290000103
其中集合Nk表示被激活的传感器数量,1(·)是指示器功能,如果满足指定条件,其值为1,否则为0。在这项工作中,我们旨在使观测到的平均相关信息年龄最小化,通过动态调度传感器来执行合作感知和更新,其中传感器的感知并成功传输的概率和能量到达率都是事先未知的。动态状态更新问题表示为
Figure BDA0002771379290000104
s.t.C1:AT=(A(1),A(2),...,A(T)) (7)
Figure BDA0002771379290000105
Figure BDA0002771379290000106
C4:Eqs.(1),(2),(5) (10)
式中AT表示数据融合中心从单位时间1到T做出的一系列调度决策,约束条件式(8)和式(9)表明,在每个单位时间中不能选择超过M个传感器同时更新其状态。在C4中式(1)(2)表示能量因果关系的要求与电池演化的约束,式(4)为最优解的必要条件。值得注意的是,在每个单位时间中,有效动作集不仅由可用的传输资源确定,而且还由调度和能量收集历史确定。因此,问题P是一个具有时变有效动作集的动态优化问题,不易解决。
本实施例提供了一种深度强化学习方法,首先将动态协作状态更新过程描述为马尔可夫决策过程,然后通过在标准DQN中加入动作剔除机制,设计了一种基于动作消除的状态更新DQN(DQNAE-SU)算法来解决该问题
将所关心的动态状态更新表示为由元组(S,A(t),U(·,·))组成的马尔可夫决策过程,描述如下:
1)状态空间S:首先定义每个单位时间为t的传感器nk的状态为
Figure BDA0002771379290000111
其中
Figure BDA0002771379290000112
表示从最后一次检测成功的时间段结束到时间段t开始的时间
Figure BDA0002771379290000113
传感器在
Figure BDA0002771379290000114
时的激活时间,
Figure BDA0002771379290000115
为传感器电池中的能量;然后将马尔可夫决策过程的状态定义为所有传感器的状态和数据融合中心处的相关信息年龄值的组合,即
S(t)=((S1(t),S2(t),...,SK(t)),Δ(t)),其中
Figure BDA0002771379290000121
由于状态空间S有限,设置自上次感知并成功传输的以来的最大经过时间为Gmax,最大激活时间为Xmax,数据融合中心处的最大相关信息年龄为Δmax,其值为有限的,能任意增大;
2)行动空间A:数据融合中心决策包括在每个时间段激活不超过M个传感器进行状态更新;为了避免次优行为的存在,需要满足必要条件式(5);所以动作空间表示为
Figure BDA0002771379290000122
A表示一个状态更新的决定,
Figure BDA0002771379290000123
Figure BDA0002771379290000124
在(5)中被定义;由于能源因果关系约束(1),在每个时间段的有效行为取决于当前状态,用
Figure BDA0002771379290000125
表示
3)奖励函数
U(·,·):在每个时间段,给定状态S(t)和动作A(t),将奖励函数定义为U(S(t),A(t))=-Δ(t+1) (14)
即下一个单位时间开始时的相关信息年龄值的负值,因为该行为执行后所得到的奖励只有在该单位时间结束后才能充分评估。
以找到确定性平稳策略π*,该策略最大程度地赋予给定初始状态S(1)的长期累积奖励((a)如果给定状态,只有一个确定的动作可以选择,(b)这个政策与时间不相关,那么这个政策是确定的和固定的))
Figure BDA0002771379290000131
γ是引入的折现因子,为了确定当前奖励的重要性,同时保证长期累计奖励是有限的,令Δ(1)=0时(a)成立。我们注意到,通过设置
Figure BDA0002771379290000132
π*在(15)也可以用来获得原问题P近似解(6)当γ设置接近1;
如式(15)所示,在单位时间t中获得的奖励U(S(t),A(t))影响长期累积奖励。因此,要找到π*,必须准确有效地估计每一项决策的长期影响,这一点由于因果关系而很重要。
对于每个确定性平稳策略π,定义动作值函数如式(16)所示,(S,A)表示初始状态-动作对,Bellman最优性方程表示为式(17),其中P(S′|S,A)表示通过动作A从一种状态S到另一种状态S′的转移概率;由于传感器的感知并成功传输的概率和能量到达率未知,因此,由基于动作剔除的DQN状态更新算法来解决;该算法如下:
初始化:初始化Q-network参数θ,目标Q-network参数θ-←θ;设置训练开始时间为Ws,训练批次大小为Db,目标网络更新频率为W-,回放内存
Figure BDA0002771379290000133
大小为D;
在基于动作剔除的DQN状态更新算法开始时,随机初始化Q-network的参数,并将目标Q-network参数θ-设置为θ的副本;学习过程被划分为Weps个回合(episode),每个回合(episode)包括T个单位时间;对于每个回合(episode),将状态初始化为S(1),其中所有传感器的能量值设置为
Figure BDA0002771379290000134
其他元素设置为0,然后算法进入循环;在每次迭代t处,首先根据(1)中的能量因果约束关系指定有效动作集
Figure BDA0002771379290000141
然后根据ε贪婪策略从
Figure BDA0002771379290000142
中选择一个动作A(T)来平衡过程的进行;
Figure BDA0002771379290000143
Figure BDA0002771379290000144
贪婪动作
Figure BDA0002771379290000145
Figure BDA0002771379290000146
的概率被选择,每个其他有效动作将以
Figure BDA0002771379290000147
的概率被选择;在动作执行之后,获得相应的奖励,观察新的状态,并将相应的经验存储到回放内存
Figure BDA0002771379290000148
中;在Ws回合(episode)完成之后,开始训练过程;在每次迭代中采用随机梯度下降法,通过最小化mini-batch的损失函数来更新参数θ-,而目标网络的参数θ-每隔W-回合(episode)更新一次;最后,利用训练好的目标网络,通过访问目标网络并选择具有最大行动值的动作来做出每个单位时间中的状态更新决策。
为了验证我们提出的基于动作剔除的DQN状态更新算法的有效性,对这一部分进行了仿真。考虑一个具有K=3个相关感知点、N=9个传感器和M=4个正交信道的物联网网络。这里,每个相关感知点可以被3个传感器感知,其感知并成功传输的概率分别设置为0.8、0.6和0.4。对于所有传感器,电池容量设置为20个单位。将最大经过时间Gmax、最大激活次数Xmax和最大相关信息年龄Δmax设置为Gmax=Xmax=2Δmax=4NK此外,为了评估该算法的有效性,将其与两种基准策略进行了比较:1)随机策略,根据该策略,数据融合中心将在每个单位时间开始随机选择一个有效动作;2)贪婪策略,每个单位时间激活不超过M个具有最高能量单元的传感器,同时满足能量因果约束关系(1)和必要条件(5)。
对于提出的基于动作剔除的DQN状态更新算法算法,Q-network和目标Q-network都是利用具有两个隐藏层的人工神经网络(ANN)实现的,每个隐藏层由256个神经元组成。采用He初始化法对Q-network的参数θ进行初始化,并在每个单独的神经元后面应用激活函数整流线性单元(ReLU)。通过每个元素的最大值来归一化网络输入状态。使用ADAM学习率α为5*10-4。采用的ε初始值和终值分别为1和0.01。在最初的105次迭代中线性递减。其余参数设置如下:回放内存D=105,训练批量Db=64,一个回合(episode)持续时间为T=103个单位时间,训练开始时间Ws=20,目标网络更新频率W-=2。
图3:当折现系数拟合分别为0.80,0.90和0.99时,本实施例提出的学习算法基于动作剔除的DQN状态更新算法的收敛性。
首先分别将折现因子γ设为0.80、0.90和0.99,其中每个传感器的能量收集概率设为0.2来考察算法的收敛行为。在∈=0.05的情况下,10个回合(episode)每2个回合(episode)执行。收敛性比较如图3所示,其结果通过平均5次以上的独立运行得到的。较暗的线条表示种子上的平均值,阴影区域是使用独立运行中的两个极值获得的。可以看出,我们的算法在不同的γ值下趋于收敛,而较大的折现因子γ会导致较低的收敛速度。然而,在达到收敛之后,关于γ所获得的平均相关信息年龄将减小,当γ接近1时,在式(15)中所获得的策略π*也将是原始问题的解决方案。
此外,我们注意到,通过学习环境动态和做出明智的决策,我们提出的算法在获得相关信息年龄方面明显优于两种基准策略。
图4所示。根据达到的平均相关信息年龄进行性能比较,其中能量收集概率区间在0.2到1.0之间。
为了评估算法的有效性,将其性能与基准策略进行了比较,在基准策略中,将传感器的能量收集概率设置为ρ,范围从0.2到1.0不等。所得到的平均相关信息年龄的平均值和标准差如图4所示,其中折现因子被设置为0.99,参考图3将会得到较低的平均相关信息年龄。此外,该算法的仿真结果是通过对最近10个运算结果进行平均得到的,每个运算结果分别进行了5次独立的运行得出,每一次运算进行了10个回合(episode)。从图4可以看出,本实施例提出的算法的性能总是优于2种基准策略,并且随着能量收集概率的增加,其优势也更加明显。因为激活具有较高感知并成功传输概率的传感器来感知相关感知点对于降低数据融合中心处的相关信息年龄是有效的。通过实现该算法,可逐步得到传感器的未知感知并成功传输的概率。更重要的是,当能量收集概率趋于1时,可满足能量因果约束关系,因此,通过运行该算法,可以找到并调度具有最高感知并成功传输概率的传感器。
由此得出的结论为:由多个能量收集传感器的物联网网络,其状态更新由数据融合中心处理以生成相关的集成信息。在标准DQN中加入动作剔除机制,提出了一种深度强化学习算法,通过适当激活传感器来协同感知不同的相关感知点并将其生成的状态更新发送,从而使获得的平均相关信息年龄最小化。通过对环境动态的学习和做出明智的决策,本实施例提出的算法可以明显优于基准策略,最后通过仿真结果验证了这一点。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (3)

1.一种物联网中考虑数据相关性的数据动态采集与传输方法,其特征在于,首先将动态状态更新过程描述为马尔可夫决策过程,然后通过在标准DQN中加入动作剔除机制来保证算法的有效性。
2.根据权利要求1所述的一种物联网中考虑数据相关性的数据动态采集与传输方法,其特征在于:将动态状态更新表示为由元组(S,A(t),U(·,·))组成的马尔可夫决策过程,描述如下:
1)状态空间S:首先定义每个单位时间为t的传感器nk的状态为
Figure FDA0002771379280000011
其中
Figure FDA0002771379280000012
表示从最后一次单位时间内成功感知的结束到单位时间t开始的时间
Figure FDA0002771379280000013
传感器在
Figure FDA0002771379280000014
时的激活时间,
Figure FDA0002771379280000015
为传感器电池中的能量;然后将马尔可夫决策过程的状态定义为所有传感器的状态和数据融合中心处的相关信息年龄值的组合,即
S(t)=((S1(t),S2(t),...,SK(t)),Δ(t)),其中
Figure FDA0002771379280000016
,由于状态空间S有限,设置自上次感知并成功传输以来的最大经过时间为Gmax,最大激活时间为Xmax,数据融合中心处的最大相关信息年龄为Δmax,其值为有限的,能任意增大;
2)行动空间A:数据融合中心决策包括在每个时间段激活不超过M个传感器进行状态更新;为了避免次优行为的存在,动作空间表示为
Figure FDA0002771379280000021
A表示一个状态更新的决定,
Figure FDA0002771379280000022
Figure FDA0002771379280000023
在(5)中被定义;由于能源因果关系约束(1),单位时间内的有效行为取决于当前状态,用
Figure FDA0002771379280000024
表示
3)奖励函数
U(·,·):对于每个单位时间,给定状态S(t)和动作A(t),将奖励函数定义为
U(S(t),A(t))=-Δ(t+1) (14)
即下一个单位时间开始时的相关信息年龄值的负值,
以找到确定性平稳策略π*,该策略最大程度地赋予给定初始状态S(1)的长期累积奖励;
Figure FDA0002771379280000025
γ是引入的折现因子,为了确定当前奖励的重要性,同时保证长期累计奖励是有限的,令Δ(1)=0时(a)成立。通过设置
Figure FDA0002771379280000026
π*在(15)也可以用来获得原问题P近似解(6)当γ设置接近1;
如式(15)所示,在单位时间t中获得的奖励U(S(t),A(t))影响长期累积奖励。
3.根据权利要求1所述的一种物联网中考虑数据相关性的数据动态采集与传输方法,其特征在于:对于每个确定性平稳策略π,定义动作值函数如式(16)所示,(S,A)表示初始状态-动作对,Bellman最优性方程表示为式(17),其中P(S′|S,A)表示通过动作A从一种状态S到另一种状态S′的转移概率;由于传感器的感知并成功传输的概率和能量到达率未知,因此,由基于动作剔除的DQN状态更新算法来解决;该算法如下:
初始化:初始化Q-network参数θ,目标Q-network参数θ-←θ;设置训练开始时间为Ws,训练批次为Db,目标网络更新频率为W-,回放内存
Figure FDA0002771379280000036
为D;
在基于动作剔除的DQN状态更新算法开始时,随机初始化Q-network的参数,并将目标Q-network参数θ-设置为θ的副本;学习过程被划分为Weps个回合(episode),每个回合(episode)包括T个单位时间;对于每个回合(episode),将状态初始化为S(1),其中所有传感器的能量值设置为
Figure FDA0002771379280000031
其他元素设置为0,然后算法进入循环;在每次迭代t处,首先根据(1)中的能量因果约束指定有效动作集
Figure FDA0002771379280000032
然后根据ε贪婪策略从
Figure FDA0002771379280000033
中选择一个动作A(T)来平衡过程的进行;
Figure FDA0002771379280000034
Figure FDA0002771379280000035
贪婪动作
Figure FDA0002771379280000041
将以
Figure FDA0002771379280000042
的概率被选择,每个其他有效动作将以
Figure FDA0002771379280000043
的概率被选择;在动作执行之后,获得相应的奖励,观察新的状态,并将相应的经验存储到回放内存
Figure FDA0002771379280000044
中;在Ws回合(episode)完成之后,开始训练过程;在每次迭代中采用随机梯度下降法,通过最小化mini-batch的损失函数来更新参数θ-,而目标网络的参数θ-的参数每隔W-个回合(episode)更新一次;最后,利用训练好的目标网络,通过访问目标网络并选择具有最大行动值的动作来做出每个单位时间中的状态更新决策。
CN202011250319.1A 2020-11-10 2020-11-10 物联网中考虑数据相关性的数据动态采集与传输方法 Active CN112437131B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011250319.1A CN112437131B (zh) 2020-11-10 2020-11-10 物联网中考虑数据相关性的数据动态采集与传输方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011250319.1A CN112437131B (zh) 2020-11-10 2020-11-10 物联网中考虑数据相关性的数据动态采集与传输方法

Publications (2)

Publication Number Publication Date
CN112437131A true CN112437131A (zh) 2021-03-02
CN112437131B CN112437131B (zh) 2022-09-13

Family

ID=74699405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011250319.1A Active CN112437131B (zh) 2020-11-10 2020-11-10 物联网中考虑数据相关性的数据动态采集与传输方法

Country Status (1)

Country Link
CN (1) CN112437131B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113259968A (zh) * 2021-04-14 2021-08-13 国网四川省电力公司电力科学研究院 基于信息新鲜度的配电网设备智能计算方法
CN113438315A (zh) * 2021-07-02 2021-09-24 中山大学 基于双网络深度强化学习的物联网信息新鲜度优化方法
CN114710410A (zh) * 2022-06-07 2022-07-05 南京信息工程大学 基于深度强化学习的网络数据采集效率优化方法及系统
CN116056116A (zh) * 2023-01-11 2023-05-02 深圳大学 无线通信系统访问控制的优化方法、系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109067918A (zh) * 2018-09-25 2018-12-21 西北农林科技大学 一种物联网中的联合内容缓存和更新策略的方法及算法
CN110351829A (zh) * 2019-08-07 2019-10-18 南京理工大学 基于深度强化学习的无线传感器网络目标追踪方法
CN110691422A (zh) * 2019-10-06 2020-01-14 湖北工业大学 一种基于深度强化学习的多信道智能接入方法
CN110850720A (zh) * 2019-11-26 2020-02-28 国网山东省电力公司电力科学研究院 一种基于dqn算法的区域自动发电动态控制方法
US20200174471A1 (en) * 2018-11-30 2020-06-04 Denso International America, Inc. Multi-Level Collaborative Control System With Dual Neural Network Planning For Autonomous Vehicle Control In A Noisy Environment
WO2020134507A1 (zh) * 2018-12-28 2020-07-02 北京邮电大学 无人机网络路由构建方法、无人机及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109067918A (zh) * 2018-09-25 2018-12-21 西北农林科技大学 一种物联网中的联合内容缓存和更新策略的方法及算法
US20200174471A1 (en) * 2018-11-30 2020-06-04 Denso International America, Inc. Multi-Level Collaborative Control System With Dual Neural Network Planning For Autonomous Vehicle Control In A Noisy Environment
WO2020134507A1 (zh) * 2018-12-28 2020-07-02 北京邮电大学 无人机网络路由构建方法、无人机及存储介质
CN110351829A (zh) * 2019-08-07 2019-10-18 南京理工大学 基于深度强化学习的无线传感器网络目标追踪方法
CN110691422A (zh) * 2019-10-06 2020-01-14 湖北工业大学 一种基于深度强化学习的多信道智能接入方法
CN110850720A (zh) * 2019-11-26 2020-02-28 国网山东省电力公司电力科学研究院 一种基于dqn算法的区域自动发电动态控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BO YIN: "Application-Oriented Scheduling for Optimizing the Age of Correlated Information: A Deep-Reinforcement-Learning-Based Approach", 《IEEE INTERNET OF THINGS JOURNAL》 *
CHAO XU: "AoI and Energy Consumption Oriented Dynamic Status Updating in Caching Enabled IoT Networks", 《IEEE INFOCOM 2020 - IEEE CONFERENCE ON COMPUTER COMMUNICATIONS WORKSHOPS (INFOCOM WKSHPS)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113259968A (zh) * 2021-04-14 2021-08-13 国网四川省电力公司电力科学研究院 基于信息新鲜度的配电网设备智能计算方法
CN113438315A (zh) * 2021-07-02 2021-09-24 中山大学 基于双网络深度强化学习的物联网信息新鲜度优化方法
CN114710410A (zh) * 2022-06-07 2022-07-05 南京信息工程大学 基于深度强化学习的网络数据采集效率优化方法及系统
CN116056116A (zh) * 2023-01-11 2023-05-02 深圳大学 无线通信系统访问控制的优化方法、系统、设备及介质
CN116056116B (zh) * 2023-01-11 2023-08-29 深圳大学 无线通信系统访问控制的优化方法、系统、设备及介质

Also Published As

Publication number Publication date
CN112437131B (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
CN112437131B (zh) 物联网中考虑数据相关性的数据动态采集与传输方法
US20220067850A1 (en) Systems and methods for managing energy storage systems
CN112598150B (zh) 一种在智能电厂中基于联邦学习提升火灾检测效果的方法
CN111629380B (zh) 面向高并发多业务工业5g网络的动态资源分配方法
CN113132943B (zh) 一种车联网中车边协同的任务卸载调度及资源分配方法
CN111291984B (zh) 多无人机分布式边缘任务选择和轨迹设计方法及装置
US20200034747A1 (en) System and method for distributed learning
EP4012563A1 (en) Profiling and application monitoring for edge devices based on headroom
CN113891276A (zh) 基于信息年龄的混合更新工业无线传感器网络调度方法
CN113438315B (zh) 基于双网络深度强化学习的物联网信息新鲜度优化方法
CN112511614B (zh) 基于强化学习的车载边缘环境下智能网联车辆任务卸载方法
CN111833205B (zh) 一种大数据场景下的移动充电桩群体智能调度方法
CN113507172B (zh) 基于移动充电车的无线传感器网络节点充电方法
Zhao et al. Adaptive Swarm Intelligent Offloading Based on Digital Twin-assisted Prediction in VEC
CN111767991B (zh) 一种基于深度q学习的测控资源调度方法
Han et al. A trajectory planning algorithm for data collection in UAV-aided wireless sensor networks
CN109413746B (zh) 一种混合能源供能的通信系统中最优化能量分配方法
CN117156492A (zh) 一种基于深度强化学习的联合服务缓存、通信与计算的双时间尺度资源分配方法
CN113365222B (zh) 一种基于可持续数据采集的移动传感器智能轨迹设计方法
Farag et al. A deep reinforcement learning approach for improving age of information in mission-critical iot
CN115423393B (zh) 一种基于lstm的动态自适应调度周期的订单调度方法及装置
Cui et al. The learning stimulated sensing-transmission coordination via age of updates in distributed uav swarm
CN115665859A (zh) 一种多智能体任务卸载和资源调度联合优化方法
Vlasov et al. Performance analysis of algorithms for energy-efficient data transfer in wireless sensor networks
Doe et al. DSORL: Data Source Optimization With Reinforcement Learning Scheme for Vehicular Named Data Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant