CN112437131A

CN112437131A - 物联网中考虑数据相关性的数据动态采集与传输方法

Info

Publication number: CN112437131A
Application number: CN202011250319.1A
Authority: CN
Inventors: 徐超; 张凡; 张博玮; 张新艳; 谢益平; 孙红光
Original assignee: Northwest A&F University
Current assignee: Northwest A&F University
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-03-02
Anticipated expiration: 2040-11-10
Also published as: CN112437131B

Abstract

本发明公开一种物联网中考虑数据相关性的数据动态采集与传输方法，通过多个能量收集传感器组成了物联网网络，适当激活能量收集传感器来更新状态来提高信息的时效性；具体采用关联信息年龄的概念来表示能量收集传感器的信息时效性，然后引出一个动态更新优化的问题来使得观测到的长期平均信息相关年龄最小，该问题综合考虑了资源传输约束和能量因果约束关系；然后采用马尔可夫决策过程来描述状态更新过程，并通过在标准的Q‑network中进行动作剔除以解决该问题，本发明设计的一种基于深度强化学习的状态更新算法，该算法可以同时解决环境动态未知、维数灾难以及有效动作与状态之间的耦合问题。

Description

物联网中考虑数据相关性的数据动态采集与传输方法

技术领域

本发明涉及物联网技术领域，尤其涉及一种物联网中考虑数据相关性的数据动态采集与传输方法。

背景技术

近来物联网的发展给许多领域带来了巨大的影响，产生了许多有价值的实时应用，从工厂自动化的高速装配和包装，智能交通系统中的自动驾驶，到智慧城市或精准农业中的环境监测和过程自动化。对于这些实时的应用，服务质量在很大程度上依赖于新信息的及时传递，因为过时的信息将降低决策的准确性和可靠性。最近，信息年龄被提出，作为一种新的标准，从信息的目的地(数据融合中心)的角度评估信息时效性，其测量自生成到接收最新的分组所经过的时间。信息年龄表示了网络中的传输延迟以及传感器上的更新时间。因此，信息年龄对于信息时效性的评价更加重要和全面，而设计高效的状态更新策略对于提高物联网网络中的信息时效性至关重要。

在工作中，通常假设不同传感器生成的状态更新是独立的，每个传感器都与目标处的信息年龄值相关联。然而，对于实际场景中的许多物联网应用，不同传感器的状态更新可能是关联的，因此，这些更新需要在数据融合中心处集成做出明智的决策，即传感器是关联的。例如，环境监视可能需要具有重叠视野的多个摄像头来监测给定场景，并且自动驾驶可以依赖于汽车的路况和状态，通过聚合来自不同传感器的测量结果来生成。因此，相关信息年龄的概念在中被引入来表示能量采集传感器的信息时效性，最近的研究开始探索状态更新方案来改善物联网网络中的相关信息年龄。

同时，对于物联网网络来说，提供最新状态更新的最大挑战之一是传感器的电量供应有限，因为它们通常由容量有限的电池供电，而不是固定电源。出于经济角度的考虑，能量收集技术被认为是为传感器供电的一个具有挑战性的解决方案。因此，最近的一些研究开始研究如何通过优化能量收集来降低信息年龄的实现。然而，之前的研究在所考虑的物联网网络中只加入了一个能量收集传感器，并没有考虑传感器之间的相关性对状态更新策略设计的影响。因此，如何设计高效的动态更新策略来保证集成信息的时效性成为了关键问题。

发明内容

针对上述问题，本发明提供了一种物联网中考虑数据相关性的数据动态采集与传输方法，采用马尔可夫决策过程来描述状态更新过程，并通过在标准的Q-network中加入动作剔除，设计了一种基于深度强化学习的状态更新算法，该算法可以同时解决环境动态未知、维数灾难以及有效动作与状态之间的耦合问题。

为了实现上述技术方案，本发明提供了一种深度强化学习方法，其特征在于，首先将动态协作状态更新过程描述为马尔可夫决策过程，然后通过在标准DQN中加入动作剔除机制来更新算法的有效性。

进一步改进在于：将所关心的动态状态更新表示为由元组(S，A(t)，U(·，·))组成的马尔可夫决策过程，描述如下：

1)状态空间S:首先定义每个单位时间为t的传感器n_k的状态为

其中

表示从最后一次检测成功的时间段结束到时间段t开始的时间

传感器在

时的激活时间，

为传感器电池中的能量；然后将马尔可夫决策过程的状态定义为所有传感器的状态和数据融合中心处的相关信息年龄值的组合，即

S(t)＝((S₁(t)，S₂(t)，...，S_K(t))，Δ(t)),其中

由于状态空间S有限，设置自上次感知并成功传输的以来的最大经过时间为G_max，最大激活时间为X_max,数据融合中心处的最大相关信息年龄为Δ_max，其值为有限的，能任意增大；

2)行动空间A:数据融合中心决策包括在每个时间段激活不超过M个传感器进行状态更新；为了避免次优行为的存在，动作空间表示为

A表示一个状态更新的决定,

和

在(5)中被定义；由于能源因果关系约束(1),在每个时间段的有效行为取决于当前状态,用

表示

3)奖励函数

U(·,·):在每个时间段，给定状态S(t)和动作A(t)，将奖励函数定义为U(S(t)，A(t))＝-Δ(t+1) (14)

即下一个单位时间开始时的相关信息年龄值的负值。

以找到确定性平稳策略π^*，该策略最大程度地赋予给定初始状态S(1)的长期累积奖励；

γ是引入的折现因子，为了确定当前奖励的重要性，同时保证长期累计奖励是有限的，Δ(1)＝0时(a)成立。我们注意到,通过设置

π^*在(15)也可以用来获得原问题P近似解(6)当γ设置接近1；

如式(15)所示，在单位时间t中获得的奖励U(S(t),A(t))影响长期累积奖励。

进一步改进在于：对于每个确定性平稳策略π，定义动作值函数如式(16)所示，(S，A)表示初始状态-动作对，Bellman最优性方程表示为式(17)，其中P(S′|S，A)表示通过动作A从一种状态S到另一种状态S′的转移概率；由于传感器的感知并成功传输的概率和能量到达率未知，因此，可由基于动作剔除的DQN状态更新算法来解决；该算法如下：

初始化:初始化Q-network参数θ，目标Q-network参数θ^-←θ；设置训练开始时间为W_s，训练批次大小为D_b，目标网络更新频率为W^-，回放内存

大小为D；

在基于动作剔除的DQN状态更新算法开始时，随机初始化Q-network的参数，并将目标Q-network参数θ^-设置为θ的副本；学习过程被划分为W_eps个回合(episode)，每个回合(episode)包括个单位时间；对于每个回合(episode)，将状态初始化为S(1)，其中所有传感器的能量值设置为

其他元素设置为0，然后算法进入循环；在每次迭代t处，首先根据(1)中的能量因果约束关系指定有效动作集

然后根据∈贪婪策略从

中选择一个动作A(T)来平衡过程的进行；

贪婪动作

将

的概率被选择，每个其他有效动作将以

的概率被选择；在动作执行之后，获得相应的奖励，观察新的状态，并将相应的经验存储到回放内存

中；在W_s回合(episode)完成之后，开始训练过程；在每次迭代中采用随机梯度下降法，通过最小化mini-batch的损失函数来更新参数θ^-，而目标网络的参数θ^-每隔W^-回合(episode)更新一次；最后，利用训练好的目标网络，通过访问目标网络并选择具有最大行动值的动作来做出每个单位时间中的状态更新决策。

本发明的有益效果是：本发明通过设计一种具有多个相关能量收集传感器的物联网网络动态状态更新方案，采用相关信息年龄来表示数据融合中心的集成信息的时效性。一个物联网网络由一个数据融合中心负责整合多个相关感知点的状态，每个相关感知点都可以被一组传感器观测，并生成相关的信息。因此，不同相关感知点中的传感器是相关的，而同一相关感知点中的传感器有助于状态感知和更新的分集增益。我们首先描述了数据融合中心中相关信息年龄的生成过程，然后以最小化观测到的长期平均相关信息年龄为目标，建立了一个动态状态更新优化问题，其中综合考虑了资源传输约束和能量因果关系。为了解决这一问题，我们将相应的状态更新过程转化为马尔可夫决策过程，并通过在标准的Deep Q network中加入了动作剔除机制来解决这一问题，从而解决了环境动态未知、状态-动作空间的大尺度以及有效动作与状态之间的耦合带来的挑战。

附图说明

图1是本发明的流程图。

图2为本发明的数据融合中心集成信息的相关信息年龄演化过程图。

图3为本发明的提出的DQNAE-SU算法在一定的训练次数下与不同折现因子下与基准策略生成的平均相关信息年龄对比图。

图4为本发明的不同能量收集概率下DQNAE-SU算法与基准策略生成的的平均相关信息年龄对比图。

具体实施方式

为了加深对本发明的理解，下面将结合实施例对本发明做进一步详述，本实施例仅用于解释本发明，并不构成对本发明保护范围的限定。

如图1-图4所示，假设一个由N个能量收集传感器、K个相关感知点和一个数据融合中心组成的物联网网络。传感器集和相关感知点集表示为N＝{1，2，...，K}和K＝{1，2，...，K}。架设每个相关感知点k∈K可以观察到一组

不同相关感知点对应的集合是不相交,即

L∈K，k≠l。假设一个时间轴，其中时间轴被分割成等长的单位时间。在单位时间开始时，数据融合中心选择一些传感器来协同感知相关感知点，然后要求它们发送其生成的状态更新。假设对于每个传感器，用于相关感知点感知的时间忽略不计，并且每次更新的传输时间等于单位时间的持续时间。此外，在该单位时间结束时，数据融合中心处理从传感器收集的状态更新数据，以生成相关的集成信息，这些信息将被各种实时物联网应用进一步利用(此处将忽略数据融合中心处的数据处理时间，以确保决策时期具有统一的持续时间。解决非统一决策时期的问题留待以后的工作)。

对于相关感知点的感知过程，假设在集合N_k中不同传感器的感知并成功传输的概率根据概率感知模型是不同的。我们用

表示传感器的感知并成功传输的概率，且n_k∈N_k它对于传感器或数据融合中心是未知的。在不失一般性的前提下，我们假设

如果n_k＜m_k，

m_k∈N_k同时，对于状态更新传输，我们认为每个传感器产生的更新数据可以在单位时间内成功地传递到数据融合中心，而在每个单位时间中最多允许M＜N个传感器在正交信道上同时更新它们的状态包而不会发生冲突。由于处理能力有限，每个传感器都不能从其收集的数据中判断是否感知成功。因此，在传送和处理所有生成的状态更新之后，即在该单位时间结束时，数据融合中心可判断每个传感器是否感知并成功传输。

我们认为每个传感器n_k都配备了电池以节省输入能量，电池存储的能量为

相关感知点传感和数据传输的能量消耗归一化为单位1。另外，对于每个传感器n_k假设电池充电过程可以建模为概率为的

伯努利过程。在这项工作中，我们假设能量到达时间随时间的推移是具有因果关系的，而且数据融合中心和传感器事先不知道到达概率。在每个单位时间开始时，设

表示传感器n_k电池的能量，A(t)＝(A₁(t)，A₂(t)，...，A_K(t))由数据融合中心做出的状态更新决定，其中

如果传感器n_k被激活以感知相关传感点k并将其状态更新分组发送到数据融合中心，则

否则

因此，需要满足的能量因果约束可以表示为

在满足上述方程的任何状态更新策略下，每个传感器的电池n_k演化为

其中

是一个随机过程，表示在前一个时间段t-1，传感器是否成功采集了一个单位的能量。当有一个能量单位被收获时

否则

在不失一般性的前提下，我们假设所有传感器的电池初始化是完整的

在每个单位时间的决策时刻之前，即在每个单位时间的开始，用相关信息年龄来评估数据融合中心处集成信息的时效性，记为Δt。注意到，在每个时间段t的末尾，对于每个相关传感点，至少有一个传感器发送了有效的传感数据更新，数据融合中心才能生成相关的集成信息。

n_k∈N_k表示传感器传递的数据是否有效，如果有效则

否则

因此，对于一般传感器n_k∈N_k在单位时间t内，激活时

否则

另外，我们用Z(t)∈{0，1}来表示在单位时间结束时是否成功生成了一段集成信息，若Z(t)＝1则生成，否则Z(t)＝0。

图2所示，说明了数据融合中心集成信息的相关信息年龄演化，K＝2个相关感知点,N＝N₁+N₂＝2+2＝4个传感器，M＝3个正交通道。其中，只有在成功检测到两个相关感知点当前状态更新并在同一单位时间发送给数据融合中心时，相关信息年龄才会被设置为最小值。

因此，在每个单位时间t中，集成信息生成的概率可以表示为

式中Z_k(t)＝1表示相关感知点k感知并成功传输当前状态。因此，相关信息年龄的过程可以表述为

其中Z(t-1)＝1表示在前一个单位时间t-1结束时成功生成了集成信息，且在不失一般性的情况下，Δ(1)初始化为0。为了更好地说明这一概念，图2给出了一个相关信息年龄生成过程的例子。式(4)中相关信息年龄的生成与信息年龄的生成不同，没有考虑传感器之间的相关性和协作。如式(4)所示，只有在单位时间的末端生成集成信息，相关信息年龄才能降至最小值1。另外值得注意的是在任何单位时间内激活传感器来观察部分相关感知点都会浪费状态更新时的能量，对于减少相关信息年龄是无用的。因此，为了有效的状态更新策略

其中集合N_k表示被激活的传感器数量，1(·)是指示器功能，如果满足指定条件，其值为1，否则为0。在这项工作中，我们旨在使观测到的平均相关信息年龄最小化，通过动态调度传感器来执行合作感知和更新，其中传感器的感知并成功传输的概率和能量到达率都是事先未知的。动态状态更新问题表示为

s.t.C1：A^T＝(A(1)，A(2)，...，A(T)) (7)

C4：Eqs.(1)，(2)，(5) (10)

式中A^T表示数据融合中心从单位时间1到T做出的一系列调度决策，约束条件式(8)和式(9)表明，在每个单位时间中不能选择超过M个传感器同时更新其状态。在C4中式(1)(2)表示能量因果关系的要求与电池演化的约束，式(4)为最优解的必要条件。值得注意的是，在每个单位时间中，有效动作集不仅由可用的传输资源确定，而且还由调度和能量收集历史确定。因此，问题P是一个具有时变有效动作集的动态优化问题，不易解决。

本实施例提供了一种深度强化学习方法，首先将动态协作状态更新过程描述为马尔可夫决策过程，然后通过在标准DQN中加入动作剔除机制，设计了一种基于动作消除的状态更新DQN(DQNAE-SU)算法来解决该问题

将所关心的动态状态更新表示为由元组(S，A(t)，U(·，·))组成的马尔可夫决策过程，描述如下：

1)状态空间S:首先定义每个单位时间为t的传感器n_k的状态为

其中

表示从最后一次检测成功的时间段结束到时间段t开始的时间

传感器在

时的激活时间，

S(t)＝((S₁(t)，S₂(t)，...，S_K(t))，Δ(t)),其中

2)行动空间A:数据融合中心决策包括在每个时间段激活不超过M个传感器进行状态更新；为了避免次优行为的存在，需要满足必要条件式(5)；所以动作空间表示为

A表示一个状态更新的决定,

和

表示

3)奖励函数

U(·，·):在每个时间段，给定状态S(t)和动作A(t)，将奖励函数定义为U(S(t)，A(t))＝-Δ(t+1) (14)

即下一个单位时间开始时的相关信息年龄值的负值，因为该行为执行后所得到的奖励只有在该单位时间结束后才能充分评估。

以找到确定性平稳策略π^*，该策略最大程度地赋予给定初始状态S(1)的长期累积奖励((a)如果给定状态，只有一个确定的动作可以选择，(b)这个政策与时间不相关，那么这个政策是确定的和固定的))

γ是引入的折现因子，为了确定当前奖励的重要性，同时保证长期累计奖励是有限的，令Δ(1)＝0时(a)成立。我们注意到,通过设置

π^*在(15)也可以用来获得原问题P近似解(6)当γ设置接近1；

如式(15)所示，在单位时间t中获得的奖励U(S(t)，A(t))影响长期累积奖励。因此，要找到π^*，必须准确有效地估计每一项决策的长期影响，这一点由于因果关系而很重要。

对于每个确定性平稳策略π，定义动作值函数如式(16)所示，(S，A)表示初始状态-动作对，Bellman最优性方程表示为式(17)，其中P(S′|S，A)表示通过动作A从一种状态S到另一种状态S′的转移概率；由于传感器的感知并成功传输的概率和能量到达率未知，因此，由基于动作剔除的DQN状态更新算法来解决；该算法如下：

大小为D；

在基于动作剔除的DQN状态更新算法开始时，随机初始化Q-network的参数，并将目标Q-network参数θ^-设置为θ的副本；学习过程被划分为W_eps个回合(episode)，每个回合(episode)包括T个单位时间；对于每个回合(episode)，将状态初始化为S(1)，其中所有传感器的能量值设置为

然后根据ε贪婪策略从

中选择一个动作A(T)来平衡过程的进行；

贪婪动作

将

的概率被选择，每个其他有效动作将以

为了验证我们提出的基于动作剔除的DQN状态更新算法的有效性，对这一部分进行了仿真。考虑一个具有K＝3个相关感知点、N＝9个传感器和M＝4个正交信道的物联网网络。这里，每个相关感知点可以被3个传感器感知，其感知并成功传输的概率分别设置为0.8、0.6和0.4。对于所有传感器，电池容量设置为20个单位。将最大经过时间G_max、最大激活次数X_max和最大相关信息年龄Δ_max设置为G_max＝X_max＝2Δ_max＝4NK此外，为了评估该算法的有效性，将其与两种基准策略进行了比较：1)随机策略，根据该策略，数据融合中心将在每个单位时间开始随机选择一个有效动作；2)贪婪策略，每个单位时间激活不超过M个具有最高能量单元的传感器,同时满足能量因果约束关系(1)和必要条件(5)。

对于提出的基于动作剔除的DQN状态更新算法算法，Q-network和目标Q-network都是利用具有两个隐藏层的人工神经网络(ANN)实现的，每个隐藏层由256个神经元组成。采用He初始化法对Q-network的参数θ进行初始化，并在每个单独的神经元后面应用激活函数整流线性单元(ReLU)。通过每个元素的最大值来归一化网络输入状态。使用ADAM学习率α为5*10^-4。采用的ε初始值和终值分别为1和0.01。在最初的10⁵次迭代中线性递减。其余参数设置如下：回放内存D＝10⁵，训练批量D_b＝64，一个回合(episode)持续时间为T＝10³个单位时间，训练开始时间W_s＝20，目标网络更新频率W^-＝2。

图3:当折现系数拟合分别为0.80,0.90和0.99时，本实施例提出的学习算法基于动作剔除的DQN状态更新算法的收敛性。

首先分别将折现因子γ设为0.80、0.90和0.99，其中每个传感器的能量收集概率设为0.2来考察算法的收敛行为。在∈＝0.05的情况下，10个回合(episode)每2个回合(episode)执行。收敛性比较如图3所示，其结果通过平均5次以上的独立运行得到的。较暗的线条表示种子上的平均值，阴影区域是使用独立运行中的两个极值获得的。可以看出，我们的算法在不同的γ值下趋于收敛，而较大的折现因子γ会导致较低的收敛速度。然而，在达到收敛之后，关于γ所获得的平均相关信息年龄将减小，当γ接近1时，在式(15)中所获得的策略π^*也将是原始问题的解决方案。

此外，我们注意到，通过学习环境动态和做出明智的决策，我们提出的算法在获得相关信息年龄方面明显优于两种基准策略。

图4所示。根据达到的平均相关信息年龄进行性能比较，其中能量收集概率区间在0.2到1.0之间。

为了评估算法的有效性，将其性能与基准策略进行了比较，在基准策略中，将传感器的能量收集概率设置为ρ，范围从0.2到1.0不等。所得到的平均相关信息年龄的平均值和标准差如图4所示，其中折现因子被设置为0.99，参考图3将会得到较低的平均相关信息年龄。此外，该算法的仿真结果是通过对最近10个运算结果进行平均得到的，每个运算结果分别进行了5次独立的运行得出，每一次运算进行了10个回合(episode)。从图4可以看出，本实施例提出的算法的性能总是优于2种基准策略，并且随着能量收集概率的增加，其优势也更加明显。因为激活具有较高感知并成功传输概率的传感器来感知相关感知点对于降低数据融合中心处的相关信息年龄是有效的。通过实现该算法，可逐步得到传感器的未知感知并成功传输的概率。更重要的是，当能量收集概率趋于1时，可满足能量因果约束关系，因此，通过运行该算法，可以找到并调度具有最高感知并成功传输概率的传感器。

由此得出的结论为：由多个能量收集传感器的物联网网络，其状态更新由数据融合中心处理以生成相关的集成信息。在标准DQN中加入动作剔除机制，提出了一种深度强化学习算法，通过适当激活传感器来协同感知不同的相关感知点并将其生成的状态更新发送，从而使获得的平均相关信息年龄最小化。通过对环境动态的学习和做出明智的决策，本实施例提出的算法可以明显优于基准策略，最后通过仿真结果验证了这一点。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种物联网中考虑数据相关性的数据动态采集与传输方法，其特征在于，首先将动态状态更新过程描述为马尔可夫决策过程，然后通过在标准DQN中加入动作剔除机制来保证算法的有效性。

2.根据权利要求1所述的一种物联网中考虑数据相关性的数据动态采集与传输方法，其特征在于：将动态状态更新表示为由元组(S，A(t)，U(·，·))组成的马尔可夫决策过程，描述如下：

1)状态空间S：首先定义每个单位时间为t的传感器n_k的状态为

其中

表示从最后一次单位时间内成功感知的结束到单位时间t开始的时间

传感器在

时的激活时间，

S(t)＝((S₁(t)，S₂(t)，...，S_K(t))，Δ(t))，其中

，由于状态空间S有限，设置自上次感知并成功传输以来的最大经过时间为G_max，最大激活时间为X_max，数据融合中心处的最大相关信息年龄为Δ_max，其值为有限的，能任意增大；

2)行动空间A：数据融合中心决策包括在每个时间段激活不超过M个传感器进行状态更新；为了避免次优行为的存在，动作空间表示为

A表示一个状态更新的决定，

和

在(5)中被定义；由于能源因果关系约束(1)，单位时间内的有效行为取决于当前状态，用

表示

3)奖励函数

U(·，·)：对于每个单位时间，给定状态S(t)和动作A(t)，将奖励函数定义为

U(S(t)，A(t))＝-Δ(t+1) (14)

即下一个单位时间开始时的相关信息年龄值的负值，

γ是引入的折现因子，为了确定当前奖励的重要性，同时保证长期累计奖励是有限的，令Δ(1)＝0时(a)成立。通过设置

π^*在(15)也可以用来获得原问题P近似解(6)当γ设置接近1；

如式(15)所示，在单位时间t中获得的奖励U(S(t)，A(t))影响长期累积奖励。

3.根据权利要求1所述的一种物联网中考虑数据相关性的数据动态采集与传输方法，其特征在于：对于每个确定性平稳策略π，定义动作值函数如式(16)所示，(S，A)表示初始状态-动作对，Bellman最优性方程表示为式(17)，其中P(S′|S，A)表示通过动作A从一种状态S到另一种状态S′的转移概率；由于传感器的感知并成功传输的概率和能量到达率未知，因此，由基于动作剔除的DQN状态更新算法来解决；该算法如下：

初始化：初始化Q-network参数θ，目标Q-network参数θ^-←θ；设置训练开始时间为W_s，训练批次为D_b，目标网络更新频率为W^-，回放内存

为D；

其他元素设置为0，然后算法进入循环；在每次迭代t处，首先根据(1)中的能量因果约束指定有效动作集

然后根据ε贪婪策略从

中选择一个动作A(T)来平衡过程的进行；

贪婪动作

将以

的概率被选择，每个其他有效动作将以

中；在W_s回合(episode)完成之后，开始训练过程；在每次迭代中采用随机梯度下降法，通过最小化mini-batch的损失函数来更新参数θ^-，而目标网络的参数θ^-的参数每隔W^-个回合(episode)更新一次；最后，利用训练好的目标网络，通过访问目标网络并选择具有最大行动值的动作来做出每个单位时间中的状态更新决策。