CN115086992A - 一种分布式语义通信系统以及带宽资源分配方法及装置 - Google Patents

一种分布式语义通信系统以及带宽资源分配方法及装置 Download PDF

Info

Publication number
CN115086992A
CN115086992A CN202210493623.1A CN202210493623A CN115086992A CN 115086992 A CN115086992 A CN 115086992A CN 202210493623 A CN202210493623 A CN 202210493623A CN 115086992 A CN115086992 A CN 115086992A
Authority
CN
China
Prior art keywords
resource allocation
network
communication system
bandwidth resource
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210493623.1A
Other languages
English (en)
Inventor
张海君
王红玉
李亚博
隆克平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202210493623.1A priority Critical patent/CN115086992A/zh
Publication of CN115086992A publication Critical patent/CN115086992A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及无线通信技术领域,特别是指一种分布式语义通信系统以及带宽资源分配方法及装置,分布式语义通信系统包括D个终端设备与一个边缘服务器;方法包括:将深度残差网络的全连接层部署在边缘服务器上,将深度残差网络中全连接层以前的神经网络部署在D个终端设备上;基于分布式语义通信系统,建立带宽资源分配优化模型;构建并训练深度确定性策略梯度DDPG算法模型,在带宽资源分配优化模型的基础上,确定离线阶段的最佳资源分配策略网络;当处于在线线阶段时,将当前状态信息输入至最佳资源分配策略网络,确定最优的特征压缩方案和带宽资源分配方案。采用本发明,可以缓解当前无线通信网络中可用带宽资源稀缺的问题。

Description

一种分布式语义通信系统以及带宽资源分配方法及装置
技术领域
本发明涉及无线通信技术领域,特别是指一种分布式语义通信系统以及带宽资源分配方法及装置。
背景技术
当前无线通信网络中的可用带宽资源稀缺,难以为呈指数增长的物联网设备数量和数据量提供高效、低时延的数据传输服务,给通信系统带来了挑战。同时,在以精确的比特恢复为目标的当前通信技术领域,大数据的高冗余特性浪费了大量的通信资源。相对于当前的通信技术,语义通信技术从语义层面上提取有用信息,去除冗余信息,从而显著减少数据传输量和传输时延,更能满足复杂、多样和智能化的信息传输需求,具有解决上述问题的巨大潜力。
语义通信重点关注有用、有价值的信息,而传统基于QoS、QoE的资源分配方法将传输内容一视同仁,不考虑所传输内容的语义信息,因此有必要针对语义通信系统研究更高效的资源分配方法,尽可能将有限的通信资源分配给语义信息丰富的数据,发挥出语义通信的最大优势。强化学习具有强大的决策能力,已被广泛应用于无线通信中的资源管理。在强化学习方法中,DDPG算法适用于高维、连续的状态空间和动作空间,且具有较快的收敛速度,近年来在无线资源分配领域取得了不错的成绩。
综上,目前亟需一种基于分布式语义通信系统的带宽分配方法,以缓解当前无线通信网络中可用带宽资源稀缺的问题。
发明内容
为了缓解当前无线通信网络中可用带宽资源稀缺的问题,本发明实施例提供了一种分布式语义通信系统以及带宽资源分配方法及装置。所述技术方案如下:
一方面,提供了一种基于分布式语义通信系统的带宽资源分配方法,该方法由分布式语义通信系统实现,该方法包括:
将深度残差网络的全连接层部署在所述边缘服务器上,将所述深度残差网络中全连接层以前的神经网络部署在所述D个终端设备上;
基于所述分布式语义通信系统,建立带宽资源分配优化模型;
构建并训练深度确定性策略梯度DDPG算法模型,在所述带宽资源分配优化模型的基础上,确定离线阶段的最佳资源分配策略网络;
当处于在线阶段时,将当前状态信息输入至所述最佳资源分配策略网络,确定最优的特征压缩方案和带宽资源分配方案。
可选地,所述将深度残差网络的全连接层部署在所述边缘服务器上,将所述深度残差网络中全连接层以前的神经网络部署在所述D个终端设备上,包括:
采用50层深度残差网络中的卷积层充当语义编码器,用所述50层深度残差网络中的全连接层充当语义解码器;
采用分布式架构,将所述全连接层以前的神经网络部署在所述D个终端设备,将所述全连接层部署到边缘服务器。
可选地,所述基于所述分布式语义通信系统,建立带宽资源分配优化模型,包括:
在神经网络训练过程中激活反向梯度传播,统计不同特征对目标AI任务正确执行的贡献度,构建特征压缩率与目标AI任务检测正确率的回归模型,形成背景知识库;
基于所述背景知识库,以最大化平均图像检测准确率、最小化平均传输时延为目标,构建分布式语义通信系统的带宽资源分配优化模型。
可选地,检测准确率采用下述公式(1)表示:
Figure BDA0003632803000000021
其中,j表示第j个执行任务;i表示第i个终端设备,i的取值范围为[1,nj],其中nj表示执行任务j的设备数量,
Figure BDA0003632803000000022
J表示任务类别的数量,D表示终端设备的数量;
Figure BDA0003632803000000031
是由逻辑回归方法求解得出的参数,损失函数为均方误差;
Figure BDA0003632803000000032
表示第j个执行任务对应的第i个设备的特征压缩率;
传输时延即从终端设备传输信息至边缘服务器的总时延,采用下式(2)表示:
Figure BDA0003632803000000033
其中,
Figure BDA0003632803000000034
表示终端设备
Figure BDA0003632803000000035
进行特征提取与压缩的处理时延;
式(2)中
Figure BDA0003632803000000036
表示终端设备
Figure BDA0003632803000000037
传输
Figure BDA0003632803000000038
的时延,采用下式(3)表示:
Figure BDA0003632803000000039
其中,
Figure BDA00036328030000000310
表示每个时隙间隔tΔ内终端设备
Figure BDA00036328030000000311
产生的数据量,
Figure BDA00036328030000000312
表示经过语义压缩后的实际要传输的数据量;
终端设备
Figure BDA00036328030000000313
的数据传输速率
Figure BDA00036328030000000314
为:
Figure BDA00036328030000000315
是终端设备
Figure BDA00036328030000000316
被分配到的带宽,P表示终端设备
Figure BDA00036328030000000317
的发射功率,
Figure BDA00036328030000000318
表示终端设备
Figure BDA00036328030000000319
到边缘服务器的信道增益,
Figure BDA00036328030000000320
表示终端设备
Figure BDA00036328030000000321
到边缘服务器的噪声功率。
可选地,所述构建并训练深度确定性策略梯度DDPG算法模型,在所述带宽资源分配优化模型的基础上,确定离线阶段的最佳资源分配策略网络,包括:
定义初始DDPG算法模型中的状态空间、动作空间、优化问题以及奖励函数;
在离线阶段,将所述终端设备的特征压缩方案与带宽资源分配方案作为动作,将系统平均检测正确率、平均时延、以及执行每种目标任务的设备数量作为状态,通过训练智能体,获得最佳资源分配策略网络。
可选地,所述在离线阶段,将所述终端设备的特征压缩方案与带宽资源分配方案作为动作,将系统平均检测正确率、平均时延、以及执行每种目标任务的设备数量作为状态,通过训练智能体,获得最佳资源分配策略网络,包括:
初始化神经网络参数并清空经验回放池;
动作网络根据当前状态sk和探索噪声N选择动作ak
智能体执行动作ak获得即时奖励rk,产生下一个状态sk+1,并将元组(sk,ak,rk,sk+1)存入经验回放池;
重复步骤(2)和(3),直至经验回放池溢出,并从中采样N个样本;
根据样本计算当前目标Q值并更新评价网络的参数;
根据采样策略梯度更新动作网络的参数;
每迭代一次,对动作目标网络和评价目标网络的参数进行软更新;
当迭代次数达到预先设定的阈值,完成离线训练,得到能实现最佳资源分配的策略网络。
另一方面,提供了一种基于分布式语义通信系统,该系统应用于基于分布式语义通信系统的带宽资源分配方法,该系统包括D个终端设备与一个边缘服务器;其中:
所述终端设备上部署有深度残差网络中的神经网络,用于检测图像中的特定目标;
所述边缘服务器上部署有深度残差网络的全连接层,用于对终端设备上传的图像进行智能处理与计算,并将处理结果返回至终端设备。
另一方面,提供了一种基于分布式语义通信系统的带宽资源分配装置,该装置用于实现基于分布式语义通信系统的带宽资源分配方法,该装置包括:
部署模块,用于将深度残差网络的全连接层部署在所述边缘服务器上,将所述深度残差网络中全连接层以前的神经网络部署在所述D个终端设备上;
建立模块,用于基于所述分布式语义通信系统,建立带宽资源分配优化模型;
构建模块,用于构建并训练深度确定性策略梯度DDPG算法模型,在所述带宽资源分配优化模型的基础上,确定离线阶段的最佳资源分配策略网络;
确定模块,用于当处于在线阶段时,将当前状态信息输入至所述最佳资源分配策略网络,确定最优的特征压缩方案和带宽资源分配方案。
可选地,所述建立模块,用于:
在神经网络训练过程中激活反向梯度传播,统计不同特征对目标AI任务正确执行的贡献度,构建特征压缩率与目标AI任务检测正确率的回归模型,形成背景知识库;
基于所述背景知识库,以最大化平均图像检测准确率、最小化平均传输时延为目标,构建分布式语义通信系统的带宽资源分配优化模型。
可选地,所述构建模块,用于:
定义初始DDPG算法模型中的状态空间、动作空间、优化问题以及奖励函数;
在离线阶段,将所述终端设备的特征压缩方案与带宽资源分配方案作为动作,将系统平均检测正确率、平均时延、以及执行每种目标任务的设备数量作为状态,通过训练智能体,获得最佳资源分配策略网络。
另一方面,提供了一种电子设备,所述基于分布式语义通信系统的带宽资源分配系统包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于分布式语义通信系统的带宽资源分配方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于分布式语义通信系统的带宽资源分配方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
采用强化学习中的DDPG算法,根据设备目标AI任务与带宽资源总量,联合优化平均检测准确率与平均传输时延,以确定最佳特征压缩方案与最佳带宽分配方案,根据最佳特征压缩方案与最佳带宽分配方案进行带宽资源分配,可以缓解当前无线通信网络中可用带宽资源稀缺的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于分布式语义通信系统的带宽资源分配方法流程图;
图2是本发明实施例提供的一种DDPG模型示意图;
图3是本发明实施例提供的一种分布式语义通信系统的结构图;
图4是本发明实施例提供的一种基于分布式语义通信系统的带宽资源分配装置结构图;
图5是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提供了一种基于分布式语义通信系统的带宽资源分配系统,该方法由分布式语义通信系统实现,该分布式语义通信系统包括D个终端设备与一个边缘服务器。如图1所示的一种基于分布式语义通信系统的带宽资源分配方法流程图,该方法的处理流程可以包括如下的步骤:
S1、将深度残差网络的全连接层部署在边缘服务器上,将深度残差网络中全连接层以前的神经网络部署在D个终端设备上。
一种可行的实施方式中,该系统用神经网络拟合图像传输的语义编-解码过程,采用分布式架构,将神经网络分别部署在终端设备和边缘服务器。具体地,语义编码器的输入为原始图像,尺寸为(B,C,H,W),其中B为图像的批容量;C为图像的通道数;H和W分别为图像的高和宽。语义编码器的输出尺寸为(B,C1,H1,W1),其中C1为特征图的通道数,H1和W1为输出特征图的高和宽。语义解码器的输入尺寸为(B,C1),输出尺寸为(B,1)。
可选地,可以采用50层深度残差网络中的卷积层充当语义编码器,用50层深度残差网络中的全连接层充当语义解码器。该系统采用神经网络拟合图像传输的编-解码过程,采用分布式架构,将神经网络分别部署在终端设备和边缘服务器,可以缓解设备存储压力。
S2、基于分布式语义通信系统,建立带宽资源分配优化模型。
一种可行的实施方式中,S2可以包括以下步骤S21-S22:
S21、在神经网络训练过程中激活反向梯度传播,统计不同特征对目标AI任务正确执行的贡献度,构建特征压缩率与目标AI任务检测正确率的回归模型,形成背景知识库;
S22、基于背景知识库,以最大化平均图像检测准确率、最小化平均传输时延为目标,构建分布式语义通信系统的带宽资源分配优化模型。
可选地,检测准确率采用下述公式(1)表示:
Figure BDA0003632803000000071
其中,j表示第j个执行任务;i表示第i个终端设备,i的取值范围为[1,nj],其中nj表示执行任务j的设备数量,
Figure BDA0003632803000000072
J表示任务类别的数量,D表示终端设备的数量;
Figure BDA0003632803000000073
是由逻辑回归方法求解得出的参数,损失函数为均方误差;
Figure BDA0003632803000000074
表示第j个执行任务对应的第i个设备的特征压缩率;
传输时延即从终端设备传输信息至边缘服务器的总时延,采用下式(2)表示:
Figure BDA0003632803000000075
其中,
Figure BDA0003632803000000076
表示终端设备
Figure BDA0003632803000000077
进行特征提取与压缩的处理时延;
式(2)中
Figure BDA0003632803000000078
表示终端设备
Figure BDA0003632803000000079
传输
Figure BDA00036328030000000710
的时延,采用下式(3)表示:
Figure BDA00036328030000000711
其中,
Figure BDA00036328030000000712
表示每个时隙间隔tΔ内终端设备
Figure BDA00036328030000000713
产生的数据量,
Figure BDA00036328030000000714
表示经过语义压缩后的实际要传输的数据量。
一种可行的实施方式中,设系统模型中有J个任务类别,执行任务j的设备数量为nj,那么
Figure BDA0003632803000000081
因此,对于执行任务j的第i个设备
Figure BDA0003632803000000082
来说,其检测准确率
Figure BDA0003632803000000083
与特征压缩率
Figure BDA0003632803000000084
的关系可以表示为:
Figure BDA0003632803000000085
其中,i的取值范围为[1,nj],
Figure BDA0003632803000000086
是由逻辑回归方法求解得出的参数,损失函数为均方误差。
终端设备
Figure BDA0003632803000000087
的数据传输速率为:
Figure BDA0003632803000000088
其中,
Figure BDA0003632803000000089
是设备
Figure BDA00036328030000000810
被分配到的带宽,P表示终端设备
Figure BDA00036328030000000811
的发射功率,
Figure BDA00036328030000000812
表示终端设备
Figure BDA00036328030000000813
到边缘服务器的信道增益,
Figure BDA00036328030000000814
表示终端设备
Figure BDA00036328030000000815
到边缘服务器的噪声功率。
设备
Figure BDA00036328030000000816
到基站的信道增益可被表示为:
Figure BDA00036328030000000817
其中,大尺度衰落部分
Figure BDA00036328030000000818
可被表示为:
Figure BDA00036328030000000819
其中,
Figure BDA00036328030000000820
为路径损耗常数,
Figure BDA00036328030000000821
服从对数正态分布阴影衰落,
Figure BDA00036328030000000822
Figure BDA00036328030000000823
到基站的距离,
Figure BDA00036328030000000824
代表路径损耗指数。
小尺度衰落部分
Figure BDA00036328030000000825
是时变的,服从单位方差,均值为0的瑞利分布。假定在时隙间隔tΔ内信道将保持稳定状态,则
Figure BDA00036328030000000826
可被建模为独立的一阶复高斯-马尔可夫过程:
Figure BDA00036328030000000827
其中,
Figure BDA0003632803000000091
为信道自相关函数,J0(.)是取决于最大多普勒频率fd的第一类零阶贝塞尔函数,
Figure BDA0003632803000000092
服从圆对称复高斯分布。
假设设备端
Figure BDA0003632803000000093
进行特征提取与压缩的处理时延为
Figure BDA0003632803000000094
设备
Figure BDA0003632803000000095
传输
Figure BDA0003632803000000096
的时延为:
Figure BDA0003632803000000097
则从设备
Figure BDA0003632803000000098
传输信息至边缘服务器的总时延为:
Figure BDA0003632803000000099
本发明所述资源分配方法的目标是在约束条件下确定每个设备最优的特征压缩率和带宽占比,从而最大化平均目标检测正确率与最小化平均时延,以联合优化系统平均检测正确率与平均时延为目标,优化问题P1可以表示为:
Figure BDA00036328030000000910
s.t.
C1:
Figure BDA00036328030000000911
C2:
Figure BDA00036328030000000912
C3:
Figure BDA00036328030000000913
C4:
Figure BDA00036328030000000914
C5:
Figure BDA00036328030000000915
其中,约束条件C1表示所有设备分配到的带宽之和不大于总带宽资源Bmax,约束条件C2限定了每个设备进行语义特征压缩的最大程度ηmax,约束条件C3表示由设备
Figure BDA00036328030000000916
发送的数据应使检测精度大于任务需求的阈值Tmin,约束条件C4表示每个设备的数据传输时延不大于时延阈值tmax,约束条件C5表示执行不同目标AI任务的设备数量和等于总设备数D。
S3、构建并训练深度确定性策略梯度DDPG算法模型,在带宽资源分配优化模型的基础上,确定离线阶段的最佳资源分配策略网络。
一种可行的实施方式中,上述步骤S3可以包括下述步骤S31-S32:
S31、定义初始DDPG算法模型中的状态空间、动作空间、优化问题以及奖励函数;
一种可行的实施方式中,状态空间由分布式语义通信系统性能和环境决定,在第k个时隙状态空间可被定义为:
sk={T(k),t(k),n1,...,nJ}
其中T(k)代表第k个时隙的平均检测正确率,t(k)代表第k个时隙的平均时延,J是任务类别数量,nj为执行任务j的设备数量。T(k),t(k)是连续变量,反映了当前目标函数的优化程度和系统性能,n1,...,nJ是由环境决定的离散变量。
动作空间包括时隙k时每个设备的特征压缩率和分配到的带宽占比,可被表示为:
ak={η1(k),...,ηD(k),B1(k),...,BD(k)}
由于DDPG中动作网络的输出为连续变量,因此对于设备i,在时隙k时实际被压缩的特征数量为
Figure BDA0003632803000000101
实际分配到的带宽为
Figure BDA0003632803000000102
其中
Figure BDA0003632803000000103
为上取整操作,
Figure BDA0003632803000000104
是下取整操作,F是每张图片的总特征数。为了满足优化问题P1中的约束条件C1和C2,对输出动作η1(k),...,ηD(k)做线性缩放,使它们的范围在[0,ηmax],并对输出动作B1(k),...,BD(k)做softmax操作。
假设在任一时隙内每台设备产生相同的数据量,在满足优化问题P1中约束条件C3,C4的情况下,即时奖励被定义为当前时隙目标函数值Z(k)与前一时隙目标函数值Z(k-1)的差,若不满足约束条件C3,C4,则产生惩罚。奖励函数可被表示为:
Figure BDA0003632803000000105
其中,Z(k)-Z(k-1)可进一步表示为:
Figure BDA0003632803000000111
在状态输入神经网络前,对其进行批归一化预处理,统一输入状态的取值范围。引入2个缩放因子
Figure BDA0003632803000000112
分别对状态集中的t(k),n1,...,nJ进行缩放,其中
Figure BDA0003632803000000113
所述DDPG算法模型的训练超参数如下:
动作网络学习率 0.0001
评价网络学习率 0.0002
折扣因子 0.9
采样大小 32
经验回放池容量 20000
S32、在离线阶段,将终端设备的特征压缩方案与带宽资源分配方案作为动作,将系统平均检测正确率、平均时延、以及执行每种目标任务的设备数量作为状态,通过训练智能体,获得最佳资源分配策略网络。
一种可行的实施方式中,如图2所示,DDPG算法模型共有4个神经网络,具体为动作网络,评价网络,动作目标网络和评价目标网络,分别用μ(s|θμ),Q(s,a|θQ),μ'(s|θμ'),Q'(s,a|θQ')表示,对应的神经网络参数为θμ,θQ,θμ',θQ'。具体的训练过程如下:首先,动作网络根据当前状态sk和探索噪声N选择动作ak,其中N为服从均值为μe,方差为
Figure BDA0003632803000000114
的高斯分布。智能体执行动作ak获得即时奖励rk,产生下一个状态sk+1,并将元组(sk,ak,rk,sk+1)存入经验回放池。若经验回放池已满,则从中采样N个样本,计算当前目标Q值yi并通过神经网络的梯度反向传播更新θQ,yi与损失函数L(θQ)可表示如下:
yk=rk+γQ'(sk+1,μ'(sk+1μ')|θQ')
L(θQ)=Eμ'[(yk-Q(sk,akQ))2]
其中γ是折扣因子。
然后,θμ根据采样策略梯度
Figure BDA0003632803000000115
更新动作网络的参数:
Figure BDA0003632803000000121
如果迭代次数达到T,则对评价网络和评价目标网络的参数θμ',θQ'按更新系数τ进行软更新:
θμ'=τθμ+(1-τ)θμ'
θQ'=τθQ+(1-τ)θQ'
一种可行的实施方式中,S32可以包括下述步骤S321-S328,包括:
S321、初始化神经网络参数并清空经验回放池;
S322、动作网络根据当前状态sk和探索噪声N选择动作ak
S323、智能体执行动作ak获得即时奖励rk,产生下一个状态sk+1,并将元组(sk,ak,rk,sk+1)存入经验回放池;
S324、重复步骤S322和S323,直至经验回放池溢出,并从中采样N个样本;
S325、根据样本计算当前目标Q值并更新评价网络的参数;
S326、根据采样策略梯度更新动作网络的参数;
S327、每迭代一次,对动作目标网络和评价目标网络的参数进行软更新;
S328、当迭代次数达到预先设定的阈值,完成离线训练,得到能实现最佳资源分配的策略网络。
S4、当处于在线阶段时,将当前状态信息输入至最佳资源分配策略网络,确定最优的特征压缩方案和带宽资源分配方案。
本发明实施例中,采用强化学习中的DDPG算法,根据设备目标AI任务与带宽资源总量,联合优化平均检测准确率与平均传输时延,以确定最佳特征压缩方案与最佳带宽分配方案,根据最佳特征压缩方案与最佳带宽分配方案进行带宽资源分配,可以缓解当前无线通信网络中可用带宽资源稀缺的问题。
本发明实施例提供了一种基于分布式语义通信系统,该系统应用于基于分布式语义通信系统的带宽资源分配方法,该系统包括D个终端设备与一个边缘服务器;如图3所示的分布式语义通信系统的结构图,其中:
所述终端设备上部署有深度残差网络中的神经网络,用于检测图像中的特定目标;
所述边缘服务器上部署有深度残差网络的全连接层,用于对终端设备上传的图像进行智能处理与计算,并将处理结果返回至终端设备。
本发明实施例提供了一种基于分布式语义通信系统的带宽资源分配装置400,该装置用于实现基于分布式语义通信系统的带宽资源分配方法,参照图4的装置结构图,该装置400包括:
部署模块410,用于将深度残差网络的全连接层部署在所述边缘服务器上,将所述深度残差网络中全连接层以前的神经网络部署在所述D个终端设备上;
建立模块420,用于基于所述分布式语义通信系统,建立带宽资源分配优化模型;
构建模块430,用于构建并训练深度确定性策略梯度DDPG算法模型,在所述带宽资源分配优化模型的基础上,确定离线阶段的最佳资源分配策略网络;
确定模块440,用于当处于在线阶段时,将当前状态信息输入至所述最佳资源分配策略网络,确定最优的特征压缩方案和带宽资源分配方案。
可选地,所述建立模块420,用于:
在神经网络训练过程中激活反向梯度传播,统计不同特征对目标AI任务正确执行的贡献度,构建特征压缩率与目标AI任务检测正确率的回归模型,形成背景知识库;
基于所述背景知识库,以最大化平均图像检测准确率、最小化平均传输时延为目标,构建分布式语义通信系统的带宽资源分配优化模型。
可选地,所述构建模块430,用于:
定义初始DDPG算法模型中的状态空间、动作空间、优化问题以及奖励函数;
在离线阶段,将所述终端设备的特征压缩方案与带宽资源分配方案作为动作,将系统平均检测正确率、平均时延、以及执行每种目标任务的设备数量作为状态,通过训练智能体,获得最佳资源分配策略网络。
本发明实施例中,采用强化学习中的DDPG算法,根据设备目标AI任务与带宽资源总量,联合优化平均检测准确率与平均传输时延,以确定最佳特征压缩方案与最佳带宽分配方案,根据最佳特征压缩方案与最佳带宽分配方案进行带宽资源分配,可以缓解当前无线通信网络中可用带宽资源稀缺的问题。
图5是本发明实施例提供的一种基于分布式语义通信系统的带宽资源分配系统500的结构示意图,该基于分布式语义通信系统的带宽资源分配系统500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)501和一个或一个以上的存储器502,其中,所述存储器502中存储有至少一条指令,所述至少一条指令由所述处理器501加载并执行以实现上述基于分布式语义通信系统的带宽资源分配方法的步骤。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于分布式语义通信系统的带宽资源分配方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于分布式语义通信系统的带宽资源分配方法,其特征在于,所述方法由分布式语义通信系统实现,所述分布式语义通信系统包括D个终端设备与一个边缘服务器;
所述方法包括:
将深度残差网络的全连接层部署在所述边缘服务器上,将所述深度残差网络中全连接层以前的神经网络部署在所述D个终端设备上;
基于所述分布式语义通信系统,建立带宽资源分配优化模型;
构建并训练深度确定性策略梯度DDPG算法模型,在所述带宽资源分配优化模型的基础上,确定离线阶段的最佳资源分配策略网络;
当处于在线阶段时,将当前状态信息输入至所述最佳资源分配策略网络,确定最优的特征压缩方案和带宽资源分配方案。
2.根据权利要求1所述的方法,其特征在于,所述将深度残差网络的全连接层部署在所述边缘服务器上,将所述深度残差网络中全连接层以前的神经网络部署在所述D个终端设备上,包括:
采用50层深度残差网络中的卷积层充当语义编码器,用所述50层深度残差网络中的全连接层充当语义解码器;
采用分布式架构,将所述全连接层以前的神经网络部署在所述D个终端设备,将所述全连接层部署到边缘服务器。
3.根据权利要求1所述的方法,其特征在于,所述基于所述分布式语义通信系统,建立带宽资源分配优化模型,包括:
在神经网络训练过程中激活反向梯度传播,统计不同特征对目标AI任务正确执行的贡献度,构建特征压缩率与目标AI任务检测正确率的回归模型,形成背景知识库;
基于所述背景知识库,以最大化平均图像检测准确率、最小化平均传输时延为目标,构建分布式语义通信系统的带宽资源分配优化模型。
4.根据权利要求3所述的方法,其特征在于,检测准确率采用下述公式(1)表示:
Figure FDA0003632802990000021
其中,j表示第j个执行任务;i表示第i个终端设备,i的取值范围为[1,nj],其中nj表示执行任务j的设备数量,
Figure FDA0003632802990000022
J表示任务类别的数量,D表示终端设备的数量;
Figure FDA0003632802990000023
是由逻辑回归方法求解得出的参数,损失函数为均方误差;
Figure FDA0003632802990000024
表示第j个执行任务对应的第i个设备的特征压缩率;
传输时延即从终端设备传输信息至边缘服务器的总时延,采用下式(2)表示:
Figure FDA0003632802990000025
其中,
Figure FDA0003632802990000026
表示终端设备
Figure FDA0003632802990000027
进行特征提取与压缩的处理时延;
式(2)中
Figure FDA0003632802990000028
表示终端设备
Figure FDA0003632802990000029
传输
Figure FDA00036328029900000210
的时延,采用下式(3)表示:
Figure FDA00036328029900000211
其中,
Figure FDA00036328029900000212
Figure FDA00036328029900000213
表示每个时隙间隔tΔ内终端设备
Figure FDA00036328029900000214
产生的数据量
Figure FDA00036328029900000215
Figure FDA00036328029900000216
表示经过语义压缩后的实际要传输的数据量;
终端设备
Figure FDA00036328029900000217
的数据传输速率
Figure FDA00036328029900000218
为:
Figure FDA00036328029900000219
Figure FDA00036328029900000220
是终端设备
Figure FDA00036328029900000221
被分配到的带宽,P表示终端设备
Figure FDA00036328029900000222
的发射功率,
Figure FDA00036328029900000223
表示终端设备
Figure FDA00036328029900000224
到边缘服务器的信道增益,
Figure FDA00036328029900000225
表示终端设备
Figure FDA00036328029900000226
到边缘服务器的噪声功率。
5.根据权利要求1所述的方法,其特征在于,所述构建并训练深度确定性策略梯度DDPG算法模型,在所述带宽资源分配优化模型的基础上,确定离线阶段的最佳资源分配策略网络,包括:
定义初始DDPG算法模型中的状态空间、动作空间、优化问题以及奖励函数;
在离线阶段,将所述终端设备的特征压缩方案与带宽资源分配方案作为动作,将系统平均检测正确率、平均时延、以及执行每种目标任务的设备数量作为状态,通过训练智能体,获得最佳资源分配策略网络。
6.根据权利要求5所述的方法,其特征在于,所述在离线阶段,将所述终端设备的特征压缩方案与带宽资源分配方案作为动作,将系统平均检测正确率、平均时延、以及执行每种目标任务的设备数量作为状态,通过训练智能体,获得最佳资源分配策略网络,包括:
初始化神经网络参数并清空经验回放池;
动作网络根据当前状态sk和探索噪声N选择动作ak
智能体执行动作ak获得即时奖励rk,产生下一个状态sk+1,并将元组(sk,ak,rk,sk+1)存入经验回放池;
重复步骤(2)和(3),直至经验回放池溢出,并从中采样N个样本;
根据样本计算当前目标Q值并更新评价网络的参数;
根据采样策略梯度更新动作网络的参数;
每迭代一次,对动作目标网络和评价目标网络的参数进行软更新;
当迭代次数达到预先设定的阈值,完成离线训练,得到能实现最佳资源分配的策略网络。
7.一种分布式语义通信系统,其特征在于,所述分布式语义通信系统用于实现基于分布式语义通信系统的带宽资源分配方法,所述分布式语义通信系统包括D个终端设备与一个边缘服务器;其中:
所述终端设备上部署有深度残差网络中的神经网络,用于检测图像中的特定目标;
所述边缘服务器上部署有深度残差网络的全连接层,用于对终端设备上传的图像进行智能处理与计算,并将处理结果返回至终端设备。
8.一种基于分布式语义通信系统的带宽资源分配装置,其特征在于,所述基于分布式语义通信系统的带宽资源分配装置用于实现基于分布式语义通信系统的带宽资源分配方法,所述装置包括:
部署模块,用于将深度残差网络的全连接层部署在所述边缘服务器上,将所述深度残差网络中全连接层以前的神经网络部署在所述D个终端设备上;
建立模块,用于基于所述分布式语义通信系统,建立带宽资源分配优化模型;
构建模块,用于构建并训练深度确定性策略梯度DDPG算法模型,在所述带宽资源分配优化模型的基础上,确定离线阶段的最佳资源分配策略网络;
确定模块,用于当处于在线阶段时,将当前状态信息输入至所述最佳资源分配策略网络,确定最优的特征压缩方案和带宽资源分配方案。
9.根据权利要求8所述的装置,其特征在于,所述建立模块,用于:
在神经网络训练过程中激活反向梯度传播,统计不同特征对目标AI任务正确执行的贡献度,构建特征压缩率与目标AI任务检测正确率的回归模型,形成背景知识库;
基于所述背景知识库,以最大化平均图像检测准确率、最小化平均传输时延为目标,构建分布式语义通信系统的带宽资源分配优化模型。
10.根据权利要求8所述的装置,其特征在于,所述构建模块,用于:
定义初始DDPG算法模型中的状态空间、动作空间、优化问题以及奖励函数;
在离线阶段,将所述终端设备的特征压缩方案与带宽资源分配方案作为动作,将系统平均检测正确率、平均时延、以及执行每种目标任务的设备数量作为状态,通过训练智能体,获得最佳资源分配策略网络。
CN202210493623.1A 2022-05-07 2022-05-07 一种分布式语义通信系统以及带宽资源分配方法及装置 Pending CN115086992A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210493623.1A CN115086992A (zh) 2022-05-07 2022-05-07 一种分布式语义通信系统以及带宽资源分配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210493623.1A CN115086992A (zh) 2022-05-07 2022-05-07 一种分布式语义通信系统以及带宽资源分配方法及装置

Publications (1)

Publication Number Publication Date
CN115086992A true CN115086992A (zh) 2022-09-20

Family

ID=83247867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210493623.1A Pending CN115086992A (zh) 2022-05-07 2022-05-07 一种分布式语义通信系统以及带宽资源分配方法及装置

Country Status (1)

Country Link
CN (1) CN115086992A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116684968A (zh) * 2023-06-19 2023-09-01 重庆邮电大学空间通信研究院 一种面向6g的文本语义通信资源分配方法
CN118200141A (zh) * 2024-05-15 2024-06-14 鹏城实验室 语义通信资源优化方法、装置、设备及存储介质
WO2024153102A1 (zh) * 2023-01-17 2024-07-25 华为技术有限公司 无线资源分配方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024153102A1 (zh) * 2023-01-17 2024-07-25 华为技术有限公司 无线资源分配方法和装置
CN116684968A (zh) * 2023-06-19 2023-09-01 重庆邮电大学空间通信研究院 一种面向6g的文本语义通信资源分配方法
CN116684968B (zh) * 2023-06-19 2023-12-22 重庆邮电大学空间通信研究院 一种面向6g的文本语义通信资源分配方法
CN118200141A (zh) * 2024-05-15 2024-06-14 鹏城实验室 语义通信资源优化方法、装置、设备及存储介质
CN118200141B (zh) * 2024-05-15 2024-10-01 鹏城实验室 语义通信资源优化方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111629380B (zh) 面向高并发多业务工业5g网络的动态资源分配方法
CN115086992A (zh) 一种分布式语义通信系统以及带宽资源分配方法及装置
CN113543176B (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN111242282B (zh) 基于端边云协同的深度学习模型训练加速方法
CN113568727B (zh) 一种基于深度强化学习的移动边缘计算任务分配方法
US20220217792A1 (en) Industrial 5g dynamic multi-priority multi-access method based on deep reinforcement learning
CN111711666B (zh) 一种基于强化学习的车联网云计算资源优化方法
CN112788605B (zh) 基于双延迟深度确定性策略边缘计算资源调度方法和系统
CN113467952A (zh) 一种分布式联邦学习协同计算方法及系统
CN110167176B (zh) 一种基于分布式机器学习的无线网络资源分配方法
CN113469325A (zh) 一种边缘聚合间隔自适应控制的分层联邦学习方法、计算机设备、存储介质
CN116456493A (zh) 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质
CN113687875B (zh) 一种车联网中车辆任务卸载方法及装置
CN114528987A (zh) 一种神经网络边缘-云协同计算分割部署方法
CN113382060A (zh) 一种物联网数据收集中的无人机轨迹优化方法及系统
CN117707795B (zh) 基于图的模型划分的边端协同推理方法及系统
CN113613332B (zh) 基于协作分布式dqn联合模拟退火算法的频谱资源分配方法和系统
CN117202264A (zh) Mec环境中面向5g网络切片的计算卸载方法
CN117369964A (zh) 边缘计算系统的任务处理方法及相关装置
CN117436485A (zh) 基于权衡时延和精度的多退出点的端-边-云协同系统及方法
CN114173421B (zh) 基于深度强化学习的LoRa逻辑信道及功率分配方法
CN116149855A (zh) 一种微服务架构下中性能资源成本优化方法及系统
CN116193516A (zh) 一种物联网场景下用于高效联邦学习的成本优化方法
CN113157344B (zh) 移动边缘计算环境下基于drl的能耗感知任务卸载方法
CN112906745B (zh) 基于边缘协同的诚信智能网络训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination