CN113987963B

CN113987963B - 一种分布式信道汇聚策略生成方法及装置

Info

Publication number: CN113987963B
Application number: CN202111585624.0A
Authority: CN
Inventors: 钟都都; 庄信武; 张伟科; 王帅; 宋哲; 苗夏箐
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-03-22
Anticipated expiration: 2041-12-23
Also published as: CN113987963A

Abstract

本发明提供一种分布式信道汇聚策略生成方法及装置，方法包括：构建优化模型并初始化参数；基于确定的顺序对各个智能体进行迭代学习；基于退火温度和当前状态选取作用于环境的动作并更新各智能体的Q值；根据动作相应的信道选取策略进行信道盲汇聚之后，对所述状态空间、所述回报值和所述退火温度进行更新；当重复迭代学习的过程直至满足结束条件时，根据所有智能体的Q值之和生成最优盲汇聚策略。本发明通过将信道盲汇聚过程建模为模仿生物界共生种群关系，个体在具有不同功能的搜索算子共同作用下搜索最有效的生物体，使种群不断进化，逐步向最优解逼近，从而能够快速生成信道分配系统的汇聚策略，进而有效提升无人集群系统的鲁棒性和实时性。

Description

一种分布式信道汇聚策略生成方法及装置

技术领域

本发明涉及通信技术领域，尤其涉及一种分布式信道汇聚策略生成方法及装置。

背景技术

目前，随着集群控制算法与通信技术耦合等集群核心技术的发展，在军事需求和高新科技进步的双重驱动下，一些军事强国纷纷加入无人集群技术装备研发行列，并不同程度地取得一定成果。无人集群通常采用动态无中心自组网技术，能通过协同实现整体能力放大，借助自主技术，无人集群作战装备能够根据战场形势及时改变群体位置和结构，链接为一个有机整体，实现作战效能的最大化，特别是在部分甚至大部分个体严重受损的情况下，仍然能保持其他个体继续协同作战并完成任务，是具有极强韧性的重要战场制胜手段。

但是，当前无人集群作战系统智能化程度仍较低，自动化、自主性和远程遥控水平尚无法满足日益复杂和激烈的战场对抗环境，特别是缺乏足够的感知、分析、计划、决策和执行能力，在对战场态势的自主感知和作战行动的自主实施等方面离实用化还有较大距离。

分布式信道盲汇聚是无人集群作战亟需解决的关键技术之一，其本质在于，节点之间不进行信息交互和协商，不依赖于中心节点对其进行指导接入，每一个节点自主决策竞争接入，并且确保最终传输的信道与干扰范围内的其他节点传输的信道之间互不干扰。但是，现有的分布式信道盲汇聚技术存在易于陷入维度灾难并对初始值设置较敏感的问题，导致无人集群系统的鲁棒性和实时性较低。

发明内容

本发明提供一种分布式信道汇聚策略生成方法、装置、电子设备及存储介质，能够避免分布式信道盲汇聚易于陷入维度灾难并对初始值设置较敏感的问题，从而提升无人集群系统的鲁棒性和实时性。

第一方面，本发明提供一种分布式信道汇聚策略生成方法，包括：

构建基于深度强化学习网络的信道汇聚优化模型，并对所述信道汇聚优化模型的参数进行初始化；其中，所述信道汇聚优化模型的智能体与无人集群系统的用户端一一对应，所述用户端的信道占用状态对应于所述信道汇聚优化模型的状态空间，所述用户端的信道选取策略对应于所述信道汇聚优化模型的动作空间；

根据预设的用户端序列确定多智能体优化顺序，并基于所述多智能体优化顺序对各个智能体进行迭代学习；

针对每一所述智能体根据当前的退火温度以及当前状态从所述动作空间中选择出作用于环境的执行动作，并根据当前的回报值基于预设的贝尔曼方程对每一智能体对应的Q值进行更新；其中，所述回报值由所述环境根据当前的信道情况生成；

在根据与所述执行动作相对应的信道选取策略进行信道盲汇聚之后，对所述状态空间、所述回报值和所述退火温度进行更新；

当重复迭代学习的过程直至所述退火温度达到预设的结束温度且累计回报值满足预设的稳态条件时，根据所有智能体的Q值之和生成最优盲汇聚策略；其中，所述累计回报为迭代学习过程中所有回报值之和。

在一个实施例中，所述用户端序列的确定方式包括：对所述无人集群系统的所有用户端进行排列组合，并将所有排列组合情况对应的序列作为所述用户端序列。

在一个实施例中，所述回报值的生成方式包括：计算当前的用户端对应的MOS值，按预设的回报值奖励函数对所述MOS值进行转换，生成得到当前的智能体的回报值。

在一个实施例中，所述按预设的转换公式对所述MOS值进行转换生成得到当前的用户端对应的智能体获得的回报值，还包括：

当判断所述MOS值低于预设的门限值时，将预设的负反馈值作为当前的智能体的回报值。

在一个实施例中，对所述信道汇聚优化模型的参数进行初始化，包括：

对用于汇总所有Q值的Q矩阵初始化为全零矩阵；

根据预设的配置信息对所述贝尔曼方程的学习率和折扣因子以及模拟退火算法的初始温度进行初始化。

本发明还提供一种分布式信道汇聚策略生成装置，包括：

初始化模块，用于构建基于深度强化学习网络的信道汇聚优化模型，并对所述信道汇聚优化模型的参数进行初始化；其中，所述信道汇聚优化模型的智能体与无人集群系统的用户端一一对应，所述用户端的信道占用状态对应于所述信道汇聚优化模型的状态空间，所述用户端的信道选取策略对应于所述信道汇聚优化模型的动作空间；

顺序确定模块，用于根据预设的用户端序列确定多智能体优化顺序，并基于所述多智能体优化顺序对各个智能体进行迭代学习；

动作交互模块，用于针对每一所述智能体根据当前的退火温度以及当前状态从所述动作空间中选择出作用于环境的执行动作，并根据当前的回报值基于预设的贝尔曼方程对每一智能体对应的Q值进行更新；其中，所述回报值由所述环境根据当前的信道情况生成；

模型更新模块，用于在根据与所述执行动作相对应的信道选取策略进行信道盲汇聚之后，对所述状态空间、所述回报值和所述退火温度进行更新；

策略生成模块，用于当重复迭代学习的过程直至所述退火温度达到预设的结束温度且累计回报值满足预设的稳态条件时，根据所有智能体的Q值之和生成最优盲汇聚策略；其中，所述累计回报为迭代学习过程中所有回报值之和。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述分布式信道汇聚策略生成方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述分布式信道汇聚策略生成方法的步骤。

本发明提供的分布式信道汇聚策略生成方法、装置、电子设备及存储介质，通过将信道盲汇聚过程建模为模仿生物界共生种群关系，其中生物个体对应优化问题的可能解，对环境的适应能力对应于适应度函数。个体在具有不同功能的搜索算子共同作用下搜索最有效的生物体，使种群不断进化，逐步向最优解逼近，从而能够快速生成信道分配系统的汇聚策略，进而有效提升无人集群系统的鲁棒性和实时性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的分布式信道汇聚策略生成方法的流程示意图；

图2是本发明实施例提供的生物逻辑内共生机理示意图；

图3是本发明实施例提供的基于多智能体深度强化学习的动态信道汇聚示意图；

图4是本发明实施例提供的分布式信道汇聚策略生成装置的结构示意图；

图5是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供一种分布式信道汇聚策略生成方法，包括步骤：

S1、构建基于深度强化学习网络的信道汇聚优化模型，并对所述信道汇聚优化模型的参数进行初始化；其中，所述信道汇聚优化模型的智能体与无人集群系统的用户端一一对应，所述用户端的信道占用状态对应于所述信道汇聚优化模型的状态空间，所述用户端的信道选取策略对应于所述信道汇聚优化模型的动作空间。

进一步地，对所述信道汇聚优化模型的参数进行初始化，包括：对用于汇总所有Q值的Q矩阵初始化为全零矩阵；根据预设的配置信息对所述贝尔曼方程的学习率和折扣因子以及模拟退火算法的初始温度进行初始化。

S2、根据预设的用户端序列确定多智能体优化顺序，并基于所述多智能体优化顺序对各个智能体进行迭代学习。

进一步地，所述用户端序列的确定方式包括：对所述无人集群系统的所有用户端进行排列组合，并将所有排列组合情况对应的序列作为所述用户端序列。

S3、针对每一所述智能体根据当前的退火温度以及当前状态从所述动作空间中选择出作用于环境的执行动作，并根据当前的回报值基于预设的贝尔曼方程对每一智能体对应的Q值进行更新；其中，所述回报值由所述环境根据当前的信道情况生成；

S4、在根据与所述执行动作相对应的信道选取策略进行信道盲汇聚之后，对所述状态空间、所述回报值和所述退火温度进行更新；

S5、当重复迭代学习的过程（S2-S4）直至所述退火温度达到预设的结束温度且累计回报值满足预设的稳态条件时，根据所有智能体的Q值之和生成最优盲汇聚策略；其中，所述累计回报为迭代学习过程中所有回报值之和。

在本发明实施例中，首先构建基于深度强化学习网络的信道汇聚优化模型，如图3所示，以每一个用户端作为一个智能体，用户端对应的占用信道的状态信息对应于模型的状态空间，用户端的信道选取策略（动作信息）对应于模型的动作空间。在开始迭代学习之前，需要对模型的各个参数进行初始化，例如可以包括预设的贝尔曼方程的学习率和折扣因子，模拟退火算法的的初始温度、退火因子、结束温度等。

然后根据预设的用户端序列确定多智能体优化的顺序，其中用户端序列可以是根据实际情况预设的序列。也可以是对所有用户端进行排列组合，然后在每个时隙随机选取其中一个序列作为所述用户端序列，模型在迭代学习时，按照该序列依次对各个智能体进行迭代。

在模型迭代过程中，每一所述智能体根据当前的退火温度以及当前状态从所述动作空间中选择出作用于环境的执行动作；并根据当前的回报值基于预设的贝尔曼方程对每一智能体对应的Q值进行更新；智能体选择一个行动作用于环境时，环境会做出相应评价并产生一个奖惩信号（回报值）反馈给智能体，智能体在下一时刻的动作选择将基于该回报值发生相应的变化。同时，智能体可以根据回报值参照预设的贝尔曼公式更新当前的Q值。

在完成一次迭代之后，模型的状态空间、回报值和退火温度都会进行相应更新。重复以上的迭代过程，直至退火温度从初始温度递减到预设的结束温度，并且累计回报值（迭代过程中会记录累计的回报值）满足预设的稳态条件时（例如累计回报值在单位时间内的变化值小于预设阈值），则结束迭代，并根据所有Q值的和生成最优盲汇聚策略。

本发明提供的分布式信道汇聚策略生成方法，通过将信道盲汇聚过程建模为模仿生物界共生种群关系，其中生物个体对应优化问题的可能解，对环境的适应能力对应于适应度函数。个体在具有不同功能的搜索算子共同作用下搜索最有效的生物体，使种群不断进化，逐步向最优解逼近，从而能够快速生成信道分配系统的汇聚策略，进而有效提升无人集群系统的鲁棒性和实时性。

在本发明实施例中，采用基于平均意见得分（MOS值）的用户适应度来构建回报值奖励函数，从而能够更加贴近对信道汇聚场景进行仿真学习的真实情况，进而最终得出更加优化的信道汇聚策略，进一步地提升无人集群系统的鲁棒性和实时性。

需要说明的是，在本发明实施例中，分布式信道盲汇聚使节点之间不进行信息交互和协商，不依赖于中心节点对其进行指导接入，每一个节点自主决策竞争接入，并且确保最终传输的信道与干扰范围内的其他节点传输的信道之间互不干扰。本发明在大时间尺度上进行非线性优化时模仿生物界共生种群关系，其中生物个体对应优化问题的可能解，对环境的适应能力对应于适应度函数。个体在具有不同功能的搜索算子共同作用下搜索最有效的生物体，使种群不断进化，逐步向最优解逼近，用于解决连续搜索空间的数值优化问题。如图2所示，当有任意节点或者逻辑内共生体失效，计划与其连接的节点可迅速切换连接到相邻的另一节点，以避免陷入维度灾难并实现初值脱敏。

本发明实施例通过随机构造多个生物体形成生物种群作为初始候选解，个体在具有不同功能的搜索算子共同作用下搜索最有效的生物体；建立适应度评价体系衡量各智能体间适应期望目标的程度；通过个体间的互利共生、偏利共生及寄生关系进行简单交互，以改善单个智能体的适应程度，使种群不断进化，逐步向最优解逼近，最终涌现群体智能指导优化搜索，解决连续搜索空间的数值优化问题。

另一方面，在本发明的基于多个无人平台的统一信道汇聚实施例中，利用强化学习使多智能体与环境进行多次信息交互实现试探评价。可以理解的是，当智能体选择一个行动作用于环境时，环境会做出相应评价并产生一个奖惩信号反馈给智能体。智能体根据反馈信号以及历史积累经验选择下一个动作。智能体需要依靠多次试探行为进行学习，并根据每一次的动作行为反馈评价，改变下一步的动作以适应环境。多个智能体同时进行强化学习时，它们之间需要通过每一次行动的反馈，共同完成强化学习的总目标。由此可知，本发明算法以节点适应性为出发点，建立多个虚拟智能体与数据库的历史环境数据交互学习，综合各节点用户的学习结果，最终生成信道分配系统的汇聚策略，从而全面提升无人集群系统的鲁棒性和实时性。

基于上述方案，为便于更好的理解本发明实施例提供的分布式信道汇聚策略生成方法，以下列举具体实例进行详细说明：

如图3所示，其为本发明实施例提供的基于多智能体深度强化学习的动态信道汇聚示意图，其中包括：

每一个用户均作为一个智能体，首先对N个用户排列组合生成N!个组合序列，并在每个时隙以P _o =1/N!的概率选取一个组合序列（用户优先级排序），按照该序列顺序进行迭代学习。具体的，首先初始化Q矩阵为全零矩阵，设定学习率α、折扣因子γ和模拟退火算法的初始温度T _begin。

智能体基于当前状态S∈S ^K×N和策略π，执行动作A∈A ^K×N，作用于环境，状态由此变化为S’∈S ^K×N，同时环境产生一个强化信号（回报值）R(s,a)反馈给智能体。不失一般性，在本发明实施例可以采用基于平均意见得分（MOS）的用户适应度来构建回报值奖励函数；智能体根据回报R(s,a)参照贝尔曼公式更新当前Q值Q ⁽ⁿ⁾(s,a)和策略π（相当于Q值的总和），并进入下一轮迭代。本发明实施例采用的贝尔曼公式如下：

式中，R ⁽ⁿ⁾表示第n个节点的回报值，s _t ⁽ⁿ⁾表示第t时刻第n个用户占用信道的状态信息；a _t ⁽ⁿ⁾表示第t时刻第n个用户的动作信息；

表示智能体未来所得到的评估函数。

本发明实施例对多智能体Q表进行拆解，将多智能体学习问题降维为单智能体学习问题。在迭代过程中，每个智能体单独更新其Q值，系统盲汇聚最优策略可以通过所有虚拟智能体的Q值的和来表征（即：

）。信道汇聚系统的目标是找到一个信道汇聚策略π，通过盲汇聚策略π形成的汇聚矩阵来最大化系统整体的预期累计折扣奖励如下：

其中，

代表基于π求数学期望值；

系统按照反比例函数递减规律，更新模拟退火算法的温度参数T _t，整个迭代过程直至Q(s,a)形成稳定最大值。重复上述步骤，直至退火温度从初始温度T _begin递减到结束温度T _finish且累计回报趋近稳定，得到用户适应性和最大的盲汇聚策略。

基于上述方案，具体步骤流程如下：

步骤101，完成系统部分参数和空间的初始化。

在本步骤中，初始化Q矩阵为全零矩阵，设定学习率α、折扣因子γ和模拟退火算法的初始温度T _begin，再从状态空间S ^K×N和动作空间A ^K×N中随机选取一个作为初始值开始迭代学习；

步骤102，进行用户排序的组合选择。

在本步骤中，每一个用户均作为一个智能体，N个用户按照用户优先级排序则生成N!个组合序列，并在每个时隙以P _o =1/N!的概率选取组合序列，按照序列顺序进行迭代学习，从而寻找效益最高的盲汇聚策略；

步骤103，具体的交互过程。

在本步骤中，在t时刻的退火温度T(t)下，通过查询Q矩阵的值，第n个智能体在当前状态s _t ⁽ⁿ⁾下从动作空间a _n（以下公式中K为动作总个数）执行动作a _i ⁽ⁿ⁾ ∈a _n作用于环境，其选择概率为：

步骤104，进行算法的迭代更新。

在本步骤中，将盲汇聚执行动作a _i ⁽ⁿ⁾选取的信道分配给用户，同时状态跳转至s’ _t ⁽ⁿ⁾ ∈s ⁽ⁿ⁾，并计算当前MOS值作为信道汇聚的回报R ⁽ⁿ⁾ (s’ _t ⁽ⁿ⁾ ,a _i ⁽ⁿ⁾ )，可表示为：

式中：MOS _n表示第n个用户的MOS值；x为用户适应性的门限值（可根据实际需求设定），当获得反馈的MOS值低于门限x时，则给予系统一个负面的评价反馈（例如-1，也可以根据实际需求设定）；当获得反馈的MOS值高于或等于门限x时，将其MOS值作为回报反馈。回报R参照贝尔曼公式更新当前Q ⁽ⁿ⁾ (s,a)，再按照反比例函数递减规律，更新模拟退火算法的温度参数T _t，直至所有用户的Q值的和Q(s,a)形成稳定最大值；

步骤105，完成汇聚算法的收敛判决。

在本步骤中，重复以上步骤，直至退火温度从初始温度T _begin递减到结束温度T _finish。记录迭代过程中的累计回报，当累计回报趋近稳定时，算法结束，根据所有Q值的和生成得到最优盲汇聚策略。

下面对本发明提供的分布式信道汇聚策略生成装置进行描述，下文描述的分布式信道汇聚策略生成装置与上文描述的分布式信道汇聚策略生成方法可相互对应参照。

请参见图4，本发明实施例提供了一种分布式信道汇聚策略生成装置，包括：

初始化模块1，用于构建基于深度强化学习网络的信道汇聚优化模型，并对所述信道汇聚优化模型的参数进行初始化；其中，所述信道汇聚优化模型的智能体与无人集群系统的用户端一一对应，所述用户端的信道占用状态对应于所述信道汇聚优化模型的状态空间，所述用户端的信道选取策略对应于所述信道汇聚优化模型的动作空间；

顺序确定模块2，用于根据预设的用户端序列确定多智能体优化顺序，并基于所述多智能体优化顺序对各个智能体进行迭代学习；

动作交互模块3，用于针对每一所述智能体根据当前的退火温度以及当前状态从所述动作空间中选择出作用于环境的执行动作，并根据当前的回报值基于预设的贝尔曼方程对每一智能体对应的Q值进行更新；其中，所述回报值由所述环境根据当前的信道情况生成；

模型更新模块4，用于在根据与所述执行动作相对应的信道选取策略进行信道盲汇聚之后，对所述状态空间、所述回报值和所述退火温度进行更新；

策略生成模块5，用于当重复迭代学习的过程直至所述退火温度达到预设的结束温度且累计回报值满足预设的稳态条件时，根据所有智能体的Q值之和生成最优盲汇聚策略；其中，所述累计回报为迭代学习过程中所有回报值之和。

在一个实施例中，所述顺序确定模块2具体还用于：对所述无人集群系统的所有用户端进行排列组合，并将所有排列组合情况对应的序列作为所述用户端序列。

在一个实施例中，所述动作交互模块3具体还用于：计算当前的用户端对应的MOS值，按预设的回报值奖励函数对所述MOS值进行转换，生成得到当前的智能体的回报值。

可以理解的是上述装置项实施例，是与本发明方法项实施例相对应的，本发明实施例提供的分布式信道汇聚策略生成装置，可以实现本发明任意一项方法项实施例提供的分布式信道汇聚策略生成方法。

本案实施例的分布式信道汇聚策略生成装置的工作原理与上述实施例的分布式信道汇聚策略生成方法是相应的，此处不再一一赘述。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行所述的分布式信道汇聚策略生成方法，该方法包括：构建基于深度强化学习网络的信道汇聚优化模型，并对所述信道汇聚优化模型的参数进行初始化；其中，所述信道汇聚优化模型的智能体与无人集群系统的用户端一一对应，所述用户端的信道占用状态对应于所述信道汇聚优化模型的状态空间，所述用户端的信道选取策略对应于所述信道汇聚优化模型的动作空间；根据预设的用户端序列确定多智能体优化顺序，并基于所述多智能体优化顺序对各个智能体进行迭代学习；针对每一所述智能体根据当前的退火温度以及当前状态从所述动作空间中选择出作用于环境的执行动作，并根据当前的回报值基于预设的贝尔曼方程对每一智能体对应的Q值进行更新；其中，所述回报值由所述环境根据当前的信道情况生成；在根据与所述执行动作相对应的信道选取策略进行信道盲汇聚之后，对所述状态空间、所述回报值和所述退火温度进行更新；当重复迭代学习的过程直至所述退火温度达到预设的结束温度且累计回报值满足预设的稳态条件时，根据所有智能体的Q值之和生成最优盲汇聚策略；其中，所述累计回报为迭代学习过程中所有回报值之和。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各实施例所提供的分布式信道汇聚策略生成方法，该方法包括：构建基于深度强化学习网络的信道汇聚优化模型，并对所述信道汇聚优化模型的参数进行初始化；其中，所述信道汇聚优化模型的智能体与无人集群系统的用户端一一对应，所述用户端的信道占用状态对应于所述信道汇聚优化模型的状态空间，所述用户端的信道选取策略对应于所述信道汇聚优化模型的动作空间；根据预设的用户端序列确定多智能体优化顺序，并基于所述多智能体优化顺序对各个智能体进行迭代学习；针对每一所述智能体根据当前的退火温度以及当前状态从所述动作空间中选择出作用于环境的执行动作，并根据当前的回报值基于预设的贝尔曼方程对每一智能体对应的Q值进行更新；其中，所述回报值由所述环境根据当前的信道情况生成；在根据与所述执行动作相对应的信道选取策略进行信道盲汇聚之后，对所述状态空间、所述回报值和所述退火温度进行更新；当重复迭代学习的过程直至所述退火温度达到预设的结束温度且累计回报值满足预设的稳态条件时，根据所有智能体的Q值之和生成最优盲汇聚策略；其中，所述累计回报为迭代学习过程中所有回报值之和。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的分布式信道汇聚策略生成方法，该方法包括：构建基于深度强化学习网络的信道汇聚优化模型，并对所述信道汇聚优化模型的参数进行初始化；其中，所述信道汇聚优化模型的智能体与无人集群系统的用户端一一对应，所述用户端的信道占用状态对应于所述信道汇聚优化模型的状态空间，所述用户端的信道选取策略对应于所述信道汇聚优化模型的动作空间；根据预设的用户端序列确定多智能体优化顺序，并基于所述多智能体优化顺序对各个智能体进行迭代学习；针对每一所述智能体根据当前的退火温度以及当前状态从所述动作空间中选择出作用于环境的执行动作，并根据当前的回报值基于预设的贝尔曼方程对每一智能体对应的Q值进行更新；其中，所述回报值由所述环境根据当前的信道情况生成；在根据与所述执行动作相对应的信道选取策略进行信道盲汇聚之后，对所述状态空间、所述回报值和所述退火温度进行更新；当重复迭代学习的过程直至所述退火温度达到预设的结束温度且累计回报值满足预设的稳态条件时，根据所有智能体的Q值之和生成最优盲汇聚策略；其中，所述累计回报为迭代学习过程中所有回报值之和。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种分布式信道汇聚策略生成方法，其特征在于，包括：

当重复迭代学习的过程直至所述退火温度达到预设的结束温度且累计回报值满足预设的稳态条件时，根据所有智能体的Q值之和生成最优盲汇聚策略；其中，所述累计回报为迭代学习过程中所有回报值之和；

所述回报值的生成方式包括：计算当前的用户端对应的MOS值，按预设的回报值奖励函数对所述MOS值进行转换，生成得到当前的智能体的回报值；其中，所述MOS值为用户端的平均意见得分。

2.根据权利要求1所述的分布式信道汇聚策略生成方法，其特征在于，所述用户端序列的确定方式包括：对所述无人集群系统的所有用户端进行排列组合，并将所有排列组合情况对应的序列作为所述用户端序列。

3.根据权利要求1所述的分布式信道汇聚策略生成方法，其特征在于，所述按预设的回报值奖励函数对所述MOS值进行转换，生成得到当前的智能体的回报值，还包括：

4.根据权利要求1所述的分布式信道汇聚策略生成方法，其特征在于，对所述信道汇聚优化模型的参数进行初始化，包括：

对用于汇总所有Q值的Q矩阵初始化为全零矩阵；

5.一种分布式信道汇聚策略生成装置，其特征在于，包括：

动作交互模块，用于针对每一所述智能体根据当前的退火温度以及当前状态从所述动作空间中选择出作用于环境的执行动作，并根据当前的回报值基于预设的贝尔曼方程对每一智能体对应的Q值进行更新；其中，所述回报值由所述环境根据当前的信道情况生成；所述动作交互模块具体还用于：计算当前的用户端对应的MOS值，按预设的回报值奖励函数对所述MOS值进行转换，生成得到当前的智能体的回报值；其中，所述MOS值为用户端的平均意见得分；

6.根据权利要求5所述的分布式信道汇聚策略生成装置，其特征在于，所述顺序确定模块具体还用于：对所述无人集群系统的所有用户端进行排列组合，并将所有排列组合情况对应的序列作为所述用户端序列。

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述分布式信道汇聚策略生成方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述分布式信道汇聚策略生成方法的步骤。