CN116669186A

CN116669186A - 一种基于马尔科夫决策过程的自适应功率分配方法

Info

Publication number: CN116669186A
Application number: CN202211596435.8A
Authority: CN
Inventors: 姚渭箐; 董亮; 罗弦; 庄严; 李想; 刘芬; 袁翔宇
Original assignee: Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Current assignee: Wuhan University WHU; Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-08-29

Abstract

本申请涉及一种基于马尔科夫决策过程的自适应功率分配方法，具体包括以下步骤：获取电力物联网络的参数信息，建立系统信息年龄更新模型，信息失真更新模型和能量收集模型，将动态状态更新表示为马尔可夫决策过程；构建最小化信息年龄和信息失真加权和的优化目标问题，根据获取的各发送端节点的信息年龄和信息失真的随机变量，建立电力物联网络系统的状态空间、决策空间和奖励函数；在每个时隙更新接收端节点的信息年龄和信息失真，在奖励函数趋于稳定时，得到最优的功率分配方案。本申请解决了现有电力信息传输低时延和高有效的需求，提供了一种基于马尔科夫决策过程的自适应功率分配方法，有效实现信息时延和信息失真的权衡，有效降低能耗。

Description

一种基于马尔科夫决策过程的自适应功率分配方法

技术领域

本申请属于无线通信领域，特别是一种基于马尔科夫决策过程的自适应功率分配方法。

背景技术

随着嵌入式系统的快速发展，多终端通信和云计算，越来越多的智能设备和低功耗传感器连接到互联网，这被称为物联网。特别是物联网网络已经越来越多在与数据收集和近年来的服务共享，如环境监测智慧城市规划，工业自动化，还有目标监视和跟踪。在这些系统中，特别是电力物联网中，一个数字的传感器节点用于监测的现象兴趣不断，并报告所获得的观察结果实时传输到远程中心。不同于传统通信系统的数据速率(或吞吐量)最重要的指标，失真和及时性在物联网的基础上，对信号恢复的关注更多监控系统。也就是说，是否监视器所恢复的信号可以精确地表征现象和信号是否及时或过时非常重要。当系统支持较高的数据速率时，监视器只能看到失真的减少或改善信息传递的及时性。在物联网网络和传感器网络中，失真的恢复信号通常用均方误差来测量的解码信号或估计信号。在网络信息论的框架下需要对恢复相关源的时延和失真进行优化。

发明内容

本申请实施例的目的在于提供一种基于马尔科夫决策过程的自适应功率分配方法，有效实现信息时延和信息失真的权衡，有效降低能耗。

为实现上述目的，本申请提供如下技术方案：

本申请实施例提供一种基于马尔科夫决策过程的自适应功率分配方法，具体包括以下步骤：

获取电力物联网络的参数信息，建立系统信息年龄更新模型，信息失真更新模型和能量收集模型，将动态状态更新表示为马尔可夫决策过程；

构建最小化信息年龄和信息失真加权和的优化目标问题，根据获取的各发送端节点的信息年龄和信息失真的随机变量，建立电力物联网络系统的状态空间、决策空间和奖励函数；

在每个时隙更新接收端节点的信息年龄和信息失真，在奖励函数趋于稳定时，得到最优的功率分配方案。

所述获取电力物联网络的参数信息，建立系统信息年龄更新模型，信息失真更新模型和能量收集模型，将动态状态更新表示为马尔可夫决策过程具体包括步骤：

设电力物联网络由两个电力信息感知节点组成的发送端和一个基站构成的接收端，为了使两个源节点同时接入系统，保证各个源节点之间的信号不会互相干扰，采用频分多址复用技术，即利用不同频带来区分信号源，各源节点的数据在不同频带上传输，从而避免信号的相互干扰,同时，源节点通过能量收集提供发射动力,

建立由五个参数构成(S,A,P_st,C(s,a),α)的马尔科夫决策过程，S是系统状态的集合，A是行动的集合，P_st是系统状态从一个状态采取行动后转移到另一个状态的转移概率，C(s,a)是在s状态下采用决策a的代价函数,α是关于未来系统状态和行动回报函数中的权重因子，且α∈[0,1]。

定义信息年龄为当前时隙接收端最新数据包自生成以来所产生的时间，可表示为随机过程

Δ＝t-U(t) (1)

t为当前时刻，U(t)为改数据包产生时刻；设高斯观测噪声的均值为0，方差为在一个均值为0方差为/>的平稳高斯过程，第k个源的发射功率为P_k，，k＝1,2，信息失真可表示为

其中为信道噪声功率，构建最小化信息年龄和信息失真加权和的优化目标问题：

C(s,a)＝Δ+D (3)。

与现有技术相比，本申请的有益效果是：解决了现有电力信息传输低时延和高有效的需求，提供了一种基于马尔科夫决策过程的自适应功率分配方法，有效实现信息时延和信息失真的权衡，有效降低能耗。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1：电力物联网中电力信息感知与传输模型的结构示意图；

图2：本发明的方法流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例提供的一种基于信息年龄的电力感知信息自适应短码分配方法，参见图1所示，电力物联网中电力信息感知与传输模型由2个电力信息感知节点和2基站组成。图1中箭头线表示电力感知信息传输。

参见图2所示，本发明实施例提供的一种基于信息年龄的电力感知信息自适应短码分配方法，具体包括以下步骤：

S1：获取电力物联网络的参数信息，建立系统信息年龄更新模型，信息失真更新模型和能量收集模型，将动态状态更新表示为马尔可夫决策过程。电力物联网络由两个电力信息感知节点组成的发送端和一个基站构成的接收端。为了使两个源节点同时接入系统，保证各个源节点之间的信号不会互相干扰，采用频分多址复用技术，即利用不同频带来区分信号源，各源节点的数据在不同频带上传输，从而避免信号的相互干扰。同时，源节点通过能量收集提供发射动力。假设两个源节点的传感器每个时隙收集到1个单位能量的概率为分别为λ₁，λ₂，即Pr{E_k1＝1}＝λ₁，Pr{E_k2＝1}＝λ₂。

建立由五个参数构成(S,A,P_st,C(s,a),α)的马尔科夫决策过程，S是系统状态的集合，A是行动的集合，P_st是系统状态从一个状态采取行动后转移到另一个状态的转移概率，C(s,a)是在s状态下采用决策a的代价函数。α是关于未来系统状态和行动回报函数中的权重因子，且α∈[0,1]。

S2：构建最小化信息年龄和信息失真加权和的优化目标问题，根据获取的各发送端节点的信息年龄和信息失真的随机变量，建立电力物联网络系统的状态空间、决策空间和奖励函数；

Δ＝t-U(t) (1)

t为当前时刻，U(t)为改数据包产生时刻；设高斯观测噪声的均值为0，方差为，在一个均值为0方差为/>的平稳高斯过程，第k(k＝1,2)个源的发射功率为P_k，信息失真可表示为

其中为信道噪声功率。

系统状态集：统状态集即系统在每个时隙的状态的集合。定义系统在每个时隙下的状态为S＝(δ₁,δ₂,d₁,d₂,e₁,e₂),其中δ₁,δ₂分别在当前时隙下为源节点1和源节点2发出的更新的信息年龄，d₁,d₂为在当前时隙下源节点1和源节点2发出更新信息的失真，e₁,e₂为当前时隙下源节点1和源节点2上可用的能量。

行动集：行动集为当前时隙下采取动作的集合，由源节点1的发射功率p₁(1≤p₁≤e₁)，源节点2的发射功率p₂(1≤p₂≤e₂)，即A＝(p₁,p₂)。

代价函数：状态s下采用动作a的成本设置为成本函数C(s,a)。构建最小化信息年龄和信息失真加权和的优化目标问题，在对于给定状态S_k＝s采用动作a_k＝(p₁,p₂)产生的成本为下一个时隙决策时刻年龄和信息失真的加权和，即C(s,a)＝Δ+D。

转移概率：根据马尔科夫性质可知，当前时隙的系统状态仅与前一个时隙的系统状态和行动有关，与其它时隙的系统状态和行动无关。转移概率P_st指在采取行动a∈A后状态S＝(δ₁δ₂，d₁d₂，e₁e₂)转移到下一个状态t＝(δ₁′,δ₂′,d₁′,d₂′,e₁′,e₂′)的概率。

S3：根据上个时隙的决策，下个时隙接收端将更新节点的信息年龄和信息失真，寻找最优的决策策略，在奖励函数趋于稳定时即得到最优的功率分配方案。

策略π是为每个状态选择行动(发射功率和决策)的规则，即从状态空间S到可行功率{0,1,2…e}和决策{0,1}的映射。对于系统的功率和决策控制，将寻找一种策略π^*，将最小化具有任何初始状态s的系统平均成本，如下面的优化问题所示

对所有的s∈S。

公式(3)可以通过下面的函数方程来解决

由于公式(4)不是收缩映射，通过引入贴现因子α来解决此问题

对所有的s∈S，其中0＜α＜1是折现因子。

此外，α最优策略和α最优成本函数V_α(s)满足

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于马尔科夫决策过程的自适应功率分配方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的基于马尔科夫决策过程的自适应功率分配方法，其特征在于，所述获取电力物联网络的参数信息，建立系统信息年龄更新模型，信息失真更新模型和能量收集模型，将动态状态更新表示为马尔可夫决策过程具体包括步骤：

3.根据权利要求1所述的基于马尔科夫决策过程的自适应功率分配方法，其特征在于，定义信息年龄为当前时隙接收端最新数据包自生成以来所产生的时间，可表示为随机过程

Δ＝t-U(t) (1)

C(s,a)＝Δ+D (3)。

4.根据权利要求1所述的基于马尔科夫决策过程的自适应功率分配方法，其特征在于，所述构建最小化信息年龄和信息失真加权和的优化目标问题，根据获取的各发送端节点的信息年龄和信息失真的随机变量，建立电力物联网络系统的状态空间、决策空间和奖励函数，其中状态空间包括该状态下的信息年龄大小，信息失真大小和剩余能量大小；决策空间是行动集，指所获取的随机变量功率；奖励函数指进行决策后的目标函数。