CN115086992A

CN115086992A - 一种分布式语义通信系统以及带宽资源分配方法及装置

Info

Publication number: CN115086992A
Application number: CN202210493623.1A
Authority: CN
Inventors: 张海君; 王红玉; 李亚博; 隆克平
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2022-05-07
Filing date: 2022-05-07
Publication date: 2022-09-20

Abstract

本发明涉及无线通信技术领域，特别是指一种分布式语义通信系统以及带宽资源分配方法及装置，分布式语义通信系统包括D个终端设备与一个边缘服务器；方法包括：将深度残差网络的全连接层部署在边缘服务器上，将深度残差网络中全连接层以前的神经网络部署在D个终端设备上；基于分布式语义通信系统，建立带宽资源分配优化模型；构建并训练深度确定性策略梯度DDPG算法模型，在带宽资源分配优化模型的基础上，确定离线阶段的最佳资源分配策略网络；当处于在线线阶段时，将当前状态信息输入至最佳资源分配策略网络，确定最优的特征压缩方案和带宽资源分配方案。采用本发明，可以缓解当前无线通信网络中可用带宽资源稀缺的问题。

Description

一种分布式语义通信系统以及带宽资源分配方法及装置

技术领域

本发明涉及无线通信技术领域，特别是指一种分布式语义通信系统以及带宽资源分配方法及装置。

背景技术

当前无线通信网络中的可用带宽资源稀缺,难以为呈指数增长的物联网设备数量和数据量提供高效、低时延的数据传输服务，给通信系统带来了挑战。同时，在以精确的比特恢复为目标的当前通信技术领域,大数据的高冗余特性浪费了大量的通信资源。相对于当前的通信技术，语义通信技术从语义层面上提取有用信息，去除冗余信息，从而显著减少数据传输量和传输时延，更能满足复杂、多样和智能化的信息传输需求，具有解决上述问题的巨大潜力。

语义通信重点关注有用、有价值的信息，而传统基于QoS、QoE的资源分配方法将传输内容一视同仁，不考虑所传输内容的语义信息，因此有必要针对语义通信系统研究更高效的资源分配方法，尽可能将有限的通信资源分配给语义信息丰富的数据，发挥出语义通信的最大优势。强化学习具有强大的决策能力，已被广泛应用于无线通信中的资源管理。在强化学习方法中，DDPG算法适用于高维、连续的状态空间和动作空间，且具有较快的收敛速度，近年来在无线资源分配领域取得了不错的成绩。

综上，目前亟需一种基于分布式语义通信系统的带宽分配方法，以缓解当前无线通信网络中可用带宽资源稀缺的问题。

发明内容

为了缓解当前无线通信网络中可用带宽资源稀缺的问题，本发明实施例提供了一种分布式语义通信系统以及带宽资源分配方法及装置。所述技术方案如下：

一方面，提供了一种基于分布式语义通信系统的带宽资源分配方法，该方法由分布式语义通信系统实现，该方法包括：

将深度残差网络的全连接层部署在所述边缘服务器上，将所述深度残差网络中全连接层以前的神经网络部署在所述D个终端设备上；

基于所述分布式语义通信系统，建立带宽资源分配优化模型；

构建并训练深度确定性策略梯度DDPG算法模型，在所述带宽资源分配优化模型的基础上，确定离线阶段的最佳资源分配策略网络；

当处于在线阶段时，将当前状态信息输入至所述最佳资源分配策略网络，确定最优的特征压缩方案和带宽资源分配方案。

可选地，所述将深度残差网络的全连接层部署在所述边缘服务器上，将所述深度残差网络中全连接层以前的神经网络部署在所述D个终端设备上，包括：

采用50层深度残差网络中的卷积层充当语义编码器，用所述50层深度残差网络中的全连接层充当语义解码器；

采用分布式架构，将所述全连接层以前的神经网络部署在所述D个终端设备，将所述全连接层部署到边缘服务器。

可选地，所述基于所述分布式语义通信系统，建立带宽资源分配优化模型，包括：

在神经网络训练过程中激活反向梯度传播，统计不同特征对目标AI任务正确执行的贡献度，构建特征压缩率与目标AI任务检测正确率的回归模型，形成背景知识库；

基于所述背景知识库，以最大化平均图像检测准确率、最小化平均传输时延为目标，构建分布式语义通信系统的带宽资源分配优化模型。

可选地，检测准确率采用下述公式(1)表示：

其中，j表示第j个执行任务；i表示第i个终端设备，i的取值范围为[1,n_j]，其中n_j表示执行任务j的设备数量，

J表示任务类别的数量，D表示终端设备的数量；

是由逻辑回归方法求解得出的参数，损失函数为均方误差；

表示第j个执行任务对应的第i个设备的特征压缩率；

传输时延即从终端设备传输信息至边缘服务器的总时延，采用下式(2)表示：

其中，

表示终端设备

进行特征提取与压缩的处理时延；

式(2)中

表示终端设备

传输

的时延，采用下式(3)表示：

其中，

表示每个时隙间隔t_Δ内终端设备

产生的数据量，

表示经过语义压缩后的实际要传输的数据量；

终端设备

的数据传输速率

为：

是终端设备

被分配到的带宽，P表示终端设备

的发射功率，

表示终端设备

到边缘服务器的信道增益，

表示终端设备

到边缘服务器的噪声功率。

可选地，所述构建并训练深度确定性策略梯度DDPG算法模型，在所述带宽资源分配优化模型的基础上，确定离线阶段的最佳资源分配策略网络，包括：

定义初始DDPG算法模型中的状态空间、动作空间、优化问题以及奖励函数；

在离线阶段，将所述终端设备的特征压缩方案与带宽资源分配方案作为动作，将系统平均检测正确率、平均时延、以及执行每种目标任务的设备数量作为状态，通过训练智能体，获得最佳资源分配策略网络。

可选地，所述在离线阶段，将所述终端设备的特征压缩方案与带宽资源分配方案作为动作，将系统平均检测正确率、平均时延、以及执行每种目标任务的设备数量作为状态，通过训练智能体，获得最佳资源分配策略网络，包括：

初始化神经网络参数并清空经验回放池；

动作网络根据当前状态s_k和探索噪声N选择动作a_k；

智能体执行动作a_k获得即时奖励r_k，产生下一个状态s_k+1，并将元组(s_k,a_k,r_k,s_k+1)存入经验回放池；

重复步骤(2)和(3)，直至经验回放池溢出，并从中采样N个样本；

根据样本计算当前目标Q值并更新评价网络的参数；

根据采样策略梯度更新动作网络的参数；

每迭代一次，对动作目标网络和评价目标网络的参数进行软更新；

当迭代次数达到预先设定的阈值，完成离线训练，得到能实现最佳资源分配的策略网络。

另一方面，提供了一种基于分布式语义通信系统，该系统应用于基于分布式语义通信系统的带宽资源分配方法，该系统包括D个终端设备与一个边缘服务器；其中：

所述终端设备上部署有深度残差网络中的神经网络，用于检测图像中的特定目标；

所述边缘服务器上部署有深度残差网络的全连接层，用于对终端设备上传的图像进行智能处理与计算，并将处理结果返回至终端设备。

另一方面，提供了一种基于分布式语义通信系统的带宽资源分配装置，该装置用于实现基于分布式语义通信系统的带宽资源分配方法，该装置包括：

部署模块，用于将深度残差网络的全连接层部署在所述边缘服务器上，将所述深度残差网络中全连接层以前的神经网络部署在所述D个终端设备上；

建立模块，用于基于所述分布式语义通信系统，建立带宽资源分配优化模型；

构建模块，用于构建并训练深度确定性策略梯度DDPG算法模型，在所述带宽资源分配优化模型的基础上，确定离线阶段的最佳资源分配策略网络；

确定模块，用于当处于在线阶段时，将当前状态信息输入至所述最佳资源分配策略网络，确定最优的特征压缩方案和带宽资源分配方案。

可选地，所述建立模块，用于：

可选地，所述构建模块，用于：

另一方面，提供了一种电子设备，所述基于分布式语义通信系统的带宽资源分配系统包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述基于分布式语义通信系统的带宽资源分配方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述基于分布式语义通信系统的带宽资源分配方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

采用强化学习中的DDPG算法，根据设备目标AI任务与带宽资源总量，联合优化平均检测准确率与平均传输时延，以确定最佳特征压缩方案与最佳带宽分配方案，根据最佳特征压缩方案与最佳带宽分配方案进行带宽资源分配，可以缓解当前无线通信网络中可用带宽资源稀缺的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于分布式语义通信系统的带宽资源分配方法流程图；

图2是本发明实施例提供的一种DDPG模型示意图；

图3是本发明实施例提供的一种分布式语义通信系统的结构图；

图4是本发明实施例提供的一种基于分布式语义通信系统的带宽资源分配装置结构图；

图5是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供了一种基于分布式语义通信系统的带宽资源分配系统，该方法由分布式语义通信系统实现，该分布式语义通信系统包括D个终端设备与一个边缘服务器。如图1所示的一种基于分布式语义通信系统的带宽资源分配方法流程图，该方法的处理流程可以包括如下的步骤：

S1、将深度残差网络的全连接层部署在边缘服务器上，将深度残差网络中全连接层以前的神经网络部署在D个终端设备上。

一种可行的实施方式中，该系统用神经网络拟合图像传输的语义编-解码过程，采用分布式架构，将神经网络分别部署在终端设备和边缘服务器。具体地，语义编码器的输入为原始图像，尺寸为(B,C,H,W)，其中B为图像的批容量；C为图像的通道数；H和W分别为图像的高和宽。语义编码器的输出尺寸为(B,C₁,H₁,W₁)，其中C₁为特征图的通道数，H₁和W₁为输出特征图的高和宽。语义解码器的输入尺寸为(B,C₁)，输出尺寸为(B,1)。

可选地，可以采用50层深度残差网络中的卷积层充当语义编码器，用50层深度残差网络中的全连接层充当语义解码器。该系统采用神经网络拟合图像传输的编-解码过程，采用分布式架构，将神经网络分别部署在终端设备和边缘服务器，可以缓解设备存储压力。

S2、基于分布式语义通信系统，建立带宽资源分配优化模型。

一种可行的实施方式中，S2可以包括以下步骤S21-S22：

S21、在神经网络训练过程中激活反向梯度传播，统计不同特征对目标AI任务正确执行的贡献度，构建特征压缩率与目标AI任务检测正确率的回归模型，形成背景知识库；

S22、基于背景知识库，以最大化平均图像检测准确率、最小化平均传输时延为目标，构建分布式语义通信系统的带宽资源分配优化模型。

可选地，检测准确率采用下述公式(1)表示：

J表示任务类别的数量，D表示终端设备的数量；

是由逻辑回归方法求解得出的参数，损失函数为均方误差；

表示第j个执行任务对应的第i个设备的特征压缩率；

其中，

表示终端设备

进行特征提取与压缩的处理时延；

式(2)中

表示终端设备

传输

的时延，采用下式(3)表示：

其中，

表示每个时隙间隔t_Δ内终端设备

产生的数据量，

表示经过语义压缩后的实际要传输的数据量。

一种可行的实施方式中，设系统模型中有J个任务类别，执行任务j的设备数量为n_j，那么

因此，对于执行任务j的第i个设备

来说，其检测准确率

与特征压缩率

的关系可以表示为：

其中，i的取值范围为[1,n_j]，

是由逻辑回归方法求解得出的参数，损失函数为均方误差。

终端设备

的数据传输速率为：

其中，

是设备

被分配到的带宽，P表示终端设备

的发射功率，

表示终端设备

到边缘服务器的信道增益，

表示终端设备

到边缘服务器的噪声功率。

设备

到基站的信道增益可被表示为：

其中，大尺度衰落部分

可被表示为：

其中，

为路径损耗常数，

服从对数正态分布阴影衰落，

为

到基站的距离，

代表路径损耗指数。

小尺度衰落部分

是时变的，服从单位方差，均值为0的瑞利分布。假定在时隙间隔t_Δ内信道将保持稳定状态，则

可被建模为独立的一阶复高斯-马尔可夫过程：

其中，

为信道自相关函数，J₀(.)是取决于最大多普勒频率f_d的第一类零阶贝塞尔函数，

服从圆对称复高斯分布。

假设设备端

进行特征提取与压缩的处理时延为

设备

传输

的时延为：

则从设备

传输信息至边缘服务器的总时延为：

本发明所述资源分配方法的目标是在约束条件下确定每个设备最优的特征压缩率和带宽占比，从而最大化平均目标检测正确率与最小化平均时延，以联合优化系统平均检测正确率与平均时延为目标，优化问题P1可以表示为：

s.t.

C1:

C2:

C3:

C4:

C5:

其中，约束条件C1表示所有设备分配到的带宽之和不大于总带宽资源B_max，约束条件C2限定了每个设备进行语义特征压缩的最大程度η_max，约束条件C3表示由设备

发送的数据应使检测精度大于任务需求的阈值T_min，约束条件C4表示每个设备的数据传输时延不大于时延阈值t_max,约束条件C5表示执行不同目标AI任务的设备数量和等于总设备数D。

S3、构建并训练深度确定性策略梯度DDPG算法模型，在带宽资源分配优化模型的基础上，确定离线阶段的最佳资源分配策略网络。

一种可行的实施方式中，上述步骤S3可以包括下述步骤S31-S32：

S31、定义初始DDPG算法模型中的状态空间、动作空间、优化问题以及奖励函数；

一种可行的实施方式中，状态空间由分布式语义通信系统性能和环境决定，在第k个时隙状态空间可被定义为：

s_k＝{T(k),t(k),n₁,...,n_J}

其中T(k)代表第k个时隙的平均检测正确率，t(k)代表第k个时隙的平均时延，J是任务类别数量，n_j为执行任务j的设备数量。T(k)，t(k)是连续变量，反映了当前目标函数的优化程度和系统性能，n₁,...,n_J是由环境决定的离散变量。

动作空间包括时隙k时每个设备的特征压缩率和分配到的带宽占比，可被表示为：

a_k＝{η₁(k),...,η_D(k),B₁(k),...,B_D(k)}

由于DDPG中动作网络的输出为连续变量，因此对于设备i,在时隙k时实际被压缩的特征数量为

实际分配到的带宽为

其中

为上取整操作，

是下取整操作，F是每张图片的总特征数。为了满足优化问题P1中的约束条件C1和C2，对输出动作η₁(k),...,η_D(k)做线性缩放，使它们的范围在[0,η_max]，并对输出动作B₁(k),...,B_D(k)做softmax操作。

假设在任一时隙内每台设备产生相同的数据量，在满足优化问题P1中约束条件C3,C4的情况下，即时奖励被定义为当前时隙目标函数值Z(k)与前一时隙目标函数值Z(k-1)的差，若不满足约束条件C3,C4，则产生惩罚。奖励函数可被表示为：

其中，Z(k)-Z(k-1)可进一步表示为：

在状态输入神经网络前，对其进行批归一化预处理，统一输入状态的取值范围。引入2个缩放因子

分别对状态集中的t(k)，n₁,...,n_J进行缩放，其中

所述DDPG算法模型的训练超参数如下：

动作网络学习率	0.0001
		评价网络学习率	0.0002
折扣因子	0.9
		采样大小	32
经验回放池容量	20000

S32、在离线阶段，将终端设备的特征压缩方案与带宽资源分配方案作为动作，将系统平均检测正确率、平均时延、以及执行每种目标任务的设备数量作为状态，通过训练智能体，获得最佳资源分配策略网络。

一种可行的实施方式中，如图2所示，DDPG算法模型共有4个神经网络，具体为动作网络，评价网络，动作目标网络和评价目标网络，分别用μ(s|θ^μ)，Q(s,a|θ^Q)，μ'(s|θ^μ')，Q'(s,a|θ^Q')表示，对应的神经网络参数为θ^μ，θ^Q，θ^μ'，θ^Q'。具体的训练过程如下：首先，动作网络根据当前状态s_k和探索噪声N选择动作a_k,其中N为服从均值为μ_e，方差为

的高斯分布。智能体执行动作a_k获得即时奖励r_k，产生下一个状态s_k+1，并将元组(s_k,a_k,r_k,s_k+1)存入经验回放池。若经验回放池已满，则从中采样N个样本，计算当前目标Q值y_i并通过神经网络的梯度反向传播更新θ^Q，y_i与损失函数L(θ^Q)可表示如下：

y_k＝r_k+γQ'(s_k+1,μ'(s_k+1|θ^μ')|θ^Q')

L(θ^Q)＝E_μ'[(y_k-Q(s_k,a_k|θ^Q))²]

其中γ是折扣因子。

然后，θ^μ根据采样策略梯度

更新动作网络的参数：

如果迭代次数达到T，则对评价网络和评价目标网络的参数θ^μ'，θ^Q'按更新系数τ进行软更新：

θ^μ'＝τθ^μ+(1-τ)θ^μ'

θ^Q'＝τθ^Q+(1-τ)θ^Q'

一种可行的实施方式中，S32可以包括下述步骤S321-S328，包括：

S321、初始化神经网络参数并清空经验回放池；

S322、动作网络根据当前状态s_k和探索噪声N选择动作a_k；

S323、智能体执行动作a_k获得即时奖励r_k，产生下一个状态s_k+1，并将元组(s_k,a_k,r_k,s_k+1)存入经验回放池；

S324、重复步骤S322和S323，直至经验回放池溢出，并从中采样N个样本；

S325、根据样本计算当前目标Q值并更新评价网络的参数；

S326、根据采样策略梯度更新动作网络的参数；

S327、每迭代一次，对动作目标网络和评价目标网络的参数进行软更新；

S328、当迭代次数达到预先设定的阈值，完成离线训练，得到能实现最佳资源分配的策略网络。

S4、当处于在线阶段时，将当前状态信息输入至最佳资源分配策略网络，确定最优的特征压缩方案和带宽资源分配方案。

本发明实施例中，采用强化学习中的DDPG算法，根据设备目标AI任务与带宽资源总量，联合优化平均检测准确率与平均传输时延，以确定最佳特征压缩方案与最佳带宽分配方案，根据最佳特征压缩方案与最佳带宽分配方案进行带宽资源分配，可以缓解当前无线通信网络中可用带宽资源稀缺的问题。

本发明实施例提供了一种基于分布式语义通信系统，该系统应用于基于分布式语义通信系统的带宽资源分配方法，该系统包括D个终端设备与一个边缘服务器；如图3所示的分布式语义通信系统的结构图，其中：

本发明实施例提供了一种基于分布式语义通信系统的带宽资源分配装置400，该装置用于实现基于分布式语义通信系统的带宽资源分配方法，参照图4的装置结构图，该装置400包括：

部署模块410，用于将深度残差网络的全连接层部署在所述边缘服务器上，将所述深度残差网络中全连接层以前的神经网络部署在所述D个终端设备上；

建立模块420，用于基于所述分布式语义通信系统，建立带宽资源分配优化模型；

构建模块430，用于构建并训练深度确定性策略梯度DDPG算法模型，在所述带宽资源分配优化模型的基础上，确定离线阶段的最佳资源分配策略网络；

确定模块440，用于当处于在线阶段时，将当前状态信息输入至所述最佳资源分配策略网络，确定最优的特征压缩方案和带宽资源分配方案。

可选地，所述建立模块420，用于：

可选地，所述构建模块430，用于：

图5是本发明实施例提供的一种基于分布式语义通信系统的带宽资源分配系统500的结构示意图，该基于分布式语义通信系统的带宽资源分配系统500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)501和一个或一个以上的存储器502，其中，所述存储器502中存储有至少一条指令，所述至少一条指令由所述处理器501加载并执行以实现上述基于分布式语义通信系统的带宽资源分配方法的步骤。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述基于分布式语义通信系统的带宽资源分配方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。