CN116056116B

CN116056116B - 无线通信系统访问控制的优化方法、系统、设备及介质

Info

Publication number: CN116056116B
Application number: CN202310039124.XA
Authority: CN
Inventors: 罗胜; 张招飞; 车越岭; 伍楷舜
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2023-01-11
Filing date: 2023-01-11
Publication date: 2023-08-29
Anticipated expiration: 2043-01-11
Also published as: CN116056116A

Abstract

本申请实施例涉及无线通信网络技术领域，特别涉及一种无线通信系统访问控制的优化方法、系统、设备及介质，该方法包括：构建基于能量收集多址无线通信系统模型；将无线通信系统的访问控制转化为具有未知系统动力学的马尔可夫决策过程；基于无线通信系统模型，采用嵌入知识方法搜索计算相关要点；相关要点包括主导动作的搜索和状态空间的缩小；基于相关要点以及深度强化学习方法，得到嵌入知识的深度强化学习方法；基于嵌入知识的深度强化学习方法，加快深度强化学习的收敛，使系统长期平均吞吐量最大化。本申请实施例提供的无线通信系统访问控制的优化方法，利用深度强化学习，以提高基于能量收集的多址无线通信系统的长期吞吐量。

Description

无线通信系统访问控制的优化方法、系统、设备及介质

技术领域

本申请实施例涉及无线通信网络技术领域，特别涉及一种无线通信系统访问控制的优化方法、系统、设备及介质。

背景技术

在未来物联网（Internet of Things, IOT）网络中，限能通信设备，例如电池供电的传感器节点，将扮演重要角色。因此，功耗和有限的电池寿命成为未来物联网需要关注的主要问题之一。在未来的物联网中，支持长期和自我可持续的运营至关重要。对于传统的由电源线供电或者内设普通电池的设备来说，没有能量浪费的概念，大部分都是根据不同的终端设备的运行状态，通过延长终端设备的休眠时间来减少能量的消耗和减少设备的接入，来尽可能达到长期运营的效果。

然而，这些传统设备在一些资源受限地区或者是人难以到达的地方，部署起来麻烦，而设备电量耗完之后，更换电池、设备的成本很较高，造成了资源的浪费。因此，传统设备在发展中无法有效满足长期可持续性的节能通信发展。而带有能量收集（EnergyHarvesting, EH）的终端设备不同于传统的终端设备，它们可以从周围环境的可再生能源，如太阳能，风能，潮汐能等，中获取能量，而且不用专用的供电装置，方便部署和长期的自我可持续运营，可以达到更好的资源管理效果。可见，能量收集EH技术可以显著的延长网络寿命和减少温室气体的排放，对于无线通信网络的优化是一个重大的突破点。

目前关于基于能量收集的无线通信系统长期吞吐量的优化方案，不能对有限的能量进行合理的管理和使用，并且其解决方案要么是系统的动态是提前已知的（无因果情况），要么是一些统计知识，例如收获的能量和信道响应的分布是已知的。然而，在许多实际系统中，这些信息很难准确地获得或估计。

发明内容

本申请实施例提供一种无线通信系统访问控制的优化方法、系统、设备及介质，利用深度强化学习来提高基于能量收集的多址无线通信系统的长期吞吐量。

为解决上述技术问题，第一方面，本申请实施例提供一种无线通信系统访问控制的优化方法，包括以下步骤：首先，构建基于能量收集多址无线通信系统模型；然后，将无线通信系统的访问控制转化为具有未知系统动力学的马尔可夫决策过程；接下来，基于无线通信系统模型，采用嵌入知识方法搜索计算相关要点；相关要点包括主导动作的搜索和状态空间的缩小；然后，基于相关要点以及深度强化学习方法，得到嵌入知识的深度强化学习方法；最后，基于嵌入知识的深度强化学习方法，加快深度强化学习的收敛，使系统长期平均吞吐量最大化。

在一些示例性实施例中，构建基于能量收集多址无线通信系统模型，包括：构建下行无线通信系统模型；下行无线通信系统模型包括一个基于能量收集的接入点，接入点通过多条正交信道向多个终端传递信息；下行无线通信系统模型包括离散传输速率模型、信道模型以及能量收集模型。

在一些示例性实施例中，将无线通信系统的访问控制转化为具有未知系统动力学的马尔可夫决策过程，包括：将接入点上的能量收集过程视为马尔可夫过程，分别对每个时隙中收集的能量和电池状态量化处理；将时隙中的信道分配写成矩阵，矩阵包括n行k列，其中第n行和第k列中的元素满足；基于矩阵以及量化处理后的能量、电池状态，得到访问要求和电池动态；基于访问要求和电池动态，得到基于能量收集无线通信系统模型的访问控制。

在一些示例性实施例中，得到访问要求和电池动态，包括：对于给定的访问方法，所需要的传输功率表示为：

其中， P是每个选定信道接入点的固定发射功率，P = cE₀，c为非负整数；E₀为基本的能量单位；接入点的电池的状态演化为：

其中，B[t]为电池动态，P[t]为发射功率，。

在一些示例性实施例中，基于访问要求和电池动态，得到基于能量收集无线通信系统模型的访问控制，包括：设定系统状态和动作空间；使用每个时隙的传输速率作为一步奖励，得到基于能量收集无线通信系统模型的访问控制；

系统状态如下式所示：

动作空间为：

一步奖励函数为：

其中，的第n行和第k列上的元素/>由/>给出。

在一些示例性实施例中，主导动作的搜索方法包括：采用两步法将系统状态的动作空间划分为不同的子集；在第一步中，剔除不适用的动作集合，保留待搜索的动作集合；在第二步中，将待搜索的动作集合分为不同的组，每个小组至少有一个主导动作；对主导动作的集合中的动作进行搜索，加快深度强化学习的收敛。

在一些示例性实施例中，状态空间的缩小方法包括：将信道状态进行重写；使用一个行向量重新表示信道状态，如下所示：

其中，。

第二方面，本申请实施例还提供了一种无线通信系统访问控制的优化系统，包括：依次连接的系统模型构建模块、访问控制转化模块以及计算模块；系统模型构建模块用于构建基于能量收集多址无线通信系统模型；访问控制转化模块用于将无线通信系统的访问控制转化为具有未知系统动力学的马尔可夫决策过程；计算模块包括特征提取模块和映射表模块，特征提取模块用于主导动作的搜索，映射表模块用于记录挑选的动作与主导动作集合的映射，通过映射确定训练过程，并通过嵌入知识的深度强化学习方法，加快深度强化学习的收敛，使系统长期平均吞吐量最大化。

另外，本申请还提供了一种电子设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述无线通信系统访问控制的优化方法。

另外，本申请还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述无线通信系统访问控制的优化方法。

本申请实施例提供的技术方案至少具有以下优点：

本申请实施例提供一种无线通信系统访问控制的优化方法、系统、设备及介质，该方法包括以下步骤：首先，构建基于能量收集多址无线通信系统模型；然后，将无线通信系统的访问控制转化为具有未知系统动力学的马尔可夫决策过程；接下来，基于无线通信系统模型，采用嵌入知识方法搜索计算相关要点；相关要点包括主导动作的搜索和状态空间的缩小；然后，基于相关要点以及深度强化学习方法，得到嵌入知识的深度强化学习方法；最后，基于嵌入知识的深度强化学习方法，加快深度强化学习的收敛，使系统长期平均吞吐量最大化。

本申请提供的无线通信系统访问控制的优化方法，提出了一种嵌入知识的深度强化学习方法来寻找最优的多通道访问策略，在没有任何关于系统动力学的非偶然知识或统计知识的情况下，以最大限度地提高长期的系统吞吐量。本申请提出有效的算法将系统的状态空间和动作空间减少，主导动作选择和状态空间减少有助于提高学习效率和策略质量。嵌入知识的深度强化学习方法提高了系统长期吞吐量中的电源管理和访问控制的性能，经过仿真实验验证了本申请的有效性和可行性。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，除非有特别申明，附图中的图不构成比例限制。

图1为本申请一实施例提供的一种无线通信系统访问控制的优化方法的流程示意图；

图2为本申请一实施例提供的一种基于能量收集多址无线通信系统模型的结构示意图；

图3为本申请一实施例提供的一种嵌入知识的深度强化学习方法流程框架示意图；

图4为本申请一实施例提供的一种主导动作搜索算法的示意图；

图5为本申请一实施例提供的一种无线通信系统访问控制的优化系统的结构示意图；

图6为本申请一实施例提供的一种嵌入知识深度强化学习算法的示意图；

图7为本申请一实施例提供的不同系统规模嵌入知识深度强化学习与深度强化学习的性能比较示意图；

图8为本申请一实施例提供的不同环境下嵌入知识的DDQN和DDQN之间的性能比较示意图；

图9为本申请一实施例提供的嵌入知识的DDQN与三种基线在系统的平均长期吞吐量方面的性能比较示意图；

图10为本申请一实施例提供的一种电子设备的结构示意图。

具体实施方式

由背景技术可知，目前现有的关于基于能量收集的无线通信系统长期吞吐量的优化方案，无法对有限的能量进行合理的管理和使用，并且其解决方案要么是系统的动态是提前已知的（无因果情况），要么是一些统计知识，例如收获的能量和信道响应的分布是已知的。然而，在许多实际系统中，这些信息很难准确地获得或估计。

目前，能量收集技术能有效实现物联网设备的长期且自我可持续运营。但带有能量收集技术的终端设备从环境收集能量过程的分布未知，且吸收到的能量是十分有限的。因此对有限的能量资源进行管理和使用显得十分重要，而传统的通信接入方法不能对有限的能量进行合理的管理和使用。以深度强化学习（Deep Reinforcement Learning, DRL）为代表的机器学习技术对这种分布未知、动态且复杂的通信环境下，利用神经网络强大的特征抽取能力和表达能力，使其能动态适应复杂环境，对有限的能量进行合理的管理和使用，进而来达到提升网络的承载能力实现网络长期和速率最大化带来了可能。

本申请的目的在于解决在能量受限的情况下，解决基于能量收集无线通信系统接入控制的问题。其面临的最大问题是如何在能量受限且系统分布未知的情况下最大化提高系统的长期吞吐量。

为解决上述技术问题，本申请实施例提供一种无线通信系统访问控制的优化方法，包括以下步骤：首先，构建基于能量收集多址无线通信系统模型；然后，将无线通信系统的访问控制转化为具有未知系统动力学的马尔可夫决策过程；接下来，基于无线通信系统模型，采用嵌入知识方法搜索计算相关要点；相关要点包括主导动作的搜索和状态空间的缩小；然后，基于相关要点以及深度强化学习方法，得到嵌入知识的深度强化学习方法；最后，基于嵌入知识的深度强化学习方法，加快深度强化学习的收敛，使系统长期平均吞吐量最大化。本申请提出一种嵌入知识的深度强化学习方法来寻找最优的多通道访问策略，在没有任何关于系统动力学的非偶然知识或统计知识的情况下，以最大限度地提高长期的系统吞吐量。

下面将结合附图对本申请的各实施例进行详细的阐述。然而，本领域的普通技术人员可以理解，在本申请各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。

参看图1，本申请实施例提供了一种无线通信系统访问控制的优化方法，包括以下步骤：

步骤S1、构建基于能量收集多址无线通信系统模型。

步骤S2、将无线通信系统的访问控制转化为具有未知系统动力学的马尔可夫决策过程。

步骤S3、基于无线通信系统模型，采用嵌入知识方法搜索计算相关要点；相关要点包括主导动作的搜索和状态空间的缩小。

步骤S4、基于相关要点以及深度强化学习方法，得到嵌入知识的深度强化学习方法。

步骤S5、基于嵌入知识的深度强化学习方法，加快深度强化学习的收敛，使系统长期平均吞吐量最大化。

本申请提供的无线通信系统访问控制的优化方法，首先，构建基于能量收集多址无线通信系统模型；然后，将无线通信系统的访问控制转化为具有未知系统动力学的马尔可夫决策过程（Markov Decision Processes，MDP）。接下来，采用嵌入知识方法搜索计算相关要点，并提出一种嵌入知识的深度强化学习方法（knowledge-embeddedDDQN），以解决现有技术提出的现有优化方案中收获的能量和信道响应的分布均为已知、而这些信息在实际系统中却很难准确地获得或估计的矛盾。本申请设计了一种嵌入知识的深度强化学习方法，在基于能量收集多址无线通信系统下能够使该系统的状态空间和动作空间的减少（动作空间的缩小），加快算法的收敛速度，最终使系统长期平均吞吐量最大化。因此，本申请提出了一种嵌入知识的深度强化学习方法来寻找最优的多通道访问策略，在没有任何关于系统动力学的非偶然知识或统计知识的情况下，以最大限度地提高长期的系统吞吐量。

在一些实施例中，步骤S1中构建基于能量收集多址无线通信系统模型，包括：构建下行无线通信系统模型；下行无线通信系统模型包括一个基于能量收集的接入点，接入点通过多条正交信道向多个终端传递信息；下行无线通信系统模型包括离散传输速率模型、信道模型以及能量收集模型。

步骤S1主要是基于能量收集无线通信系统模型建立的过程。本申请首先设计一个下行无线通信系统，其中一个基于能量收集（EH）的接入点（Access Point， AP）通过K（其中K≤N ）条正交信道向N个终端（Users，UEs）传递信息，如图 2所示，该系统以时隙的方式运行，每个时隙的标准化长度为等长T。为简单起见，假设接入点AP总是有数据要交付给每个终端（UE）。由于正交信道的数量小于终端的数量，所以在每个时间段将只选择一个终端的子集进行通信。并且，接入点AP没有专用电源，并配备了能量收集EH设备。因此，它只能利用从一些可再生能源中获得的能源，如风能、太阳能或水电，来支持通信。

基于上述模型，对相关细节要点在下面进行解释说明。

（1）离散速率通信

在本申请中，采用一个离散的传输速率模型：接入点AP 对于每个终端UE可以支持的数据速率由给出，其中/>。

对于不同的传输数据速率，对终端上的接收信号功率的要求是不同的。通常，对于更高的传输数据速率，终端需要更大的接收信号功率才能成功地检测到该信号。在本申请中，成功检测以传输速率r_m传输的数据所需的最小接收信号功率表示为T_m。

（2）信道模型

时隙t的第k个信道中终端UEn的信道增益表示为。

在每个时隙的开始处，终端UEs向接入点AP发送参考信号并且接入点AP估计信道状态信息。假设接入点AP总是对每个信道使用一个固定的发射功率P来传输信号。

因此，为了支持传输速率r_m，要求信道增益应满足。所以，由此得出：

对于信道增益满足上述公式，传输速率r_m’其中r_m’<r_m也可以支持。我们使用最大可支持的传输速率r_m表示每个正交信道的状态，并将信道质量离散为m+1状态。对于状态为r_m的信道，信道增益满足下式：

此处，定义T₀=0和T_m+1= ∞。

需要说明的的是，对于不能支持最小传输速率r₁的信道状态，我们将它表示为为r₀=0在这种情况下，信道实际上处于中断状态。基于这些观察结果，得到了一个 N×K的矩阵S[t]，其中第n行和第k列的元素为，其中，S_chan表示时隙t中接入点AP与所有终端UE之间的信道状态，/>[t]为第k 条信道中接入点AP与终端UE n之间的信道状态。

在一些实施例中，步骤S2中将无线通信系统的访问控制转化为具有未知系统动力学的马尔可夫决策过程，包括：将接入点上的能量收集过程视为马尔可夫过程，分别对每个时隙中收集的能量和电池状态量化处理；将时隙中的信道分配写成矩阵，矩阵包括n行k列，其中第n行和第k列中的元素满足；基于矩阵以及量化处理后的能量、电池状态，得到访问要求和电池动态；基于访问要求和电池动态，得到基于能量收集无线通信系统模型的访问控制。

在一些实施例中，得到访问要求和电池动态，包括：对于给定的访问方法，所需要的传输功率表示为：

其中，B[t]为电池动态，P[t]为发射功率；电池动态在时隙t中，发射功率不能超过电池中存储的功率，即。

具体的，由于接入点AP在每个时间段从周围环境中获取能量。在本申请中，将接入点AP上的能量收集（EH）过程视为一个马尔可夫过程。下面具体描述能量收集模型的构建细节。

本申请将接入点AP上的能量收集过程视为一个马尔可夫过程，并将时隙t中收获的能量表示为E[t]。一个最大容量为B_max的电池在接入点AP 里装备用来储存从环境中收集的能量。在第t个时间段的开始处，将接入点AP电池中存储的能量量表示为B[t]。为了便于分析，将每个时隙中收集的能量E和电池状态B被分别量化为，其中n和q是非负整数，E₀是基本的能量单位。在特定的时间时隙中，如果电池中的剩余能量不足以传输数据（B[t]<P），接入点AP可以选择暂停数据传输并等待更多的能量。如果电池充满了，额外收集的能量将被丢弃。数据传输是接入点AP的唯一能耗来源。

对于访问要求和电池动态的实现细节，在每个时隙中，一个终端最多可以分配一个通道，并且每个信道最多可以用于为一个终端传递信息。根据这些要求，本申请可以将第t个时隙中的信道分配写成一个矩阵A[t]，其中第n行和第k列中的元素满足下式：

如果A[t] = 1，则第k个信道分配给终端UE n。在矩阵A的每一行和每一列中，最多需要有一个等于1的元素。对于给定的访问方法A[t]，所需要的传输功率表示为：

其中，P = cE₀，c为非负整数，是每个选定信道接入点AP的固定发射功率。

需要说明的是，在时隙t中，发射功率P不能超过电池中存储的功率B，限制了信道分配方法来满足每个时隙的。根据上述确定了AP 的电池的状态演化可以被描述为：

基于上述系统模型，可以看出，基于能量收集的多址无线通信系统的访问控制是一个马尔可夫决策过程（MDP）。当前时隙t中采用的访问控制方法影响下一个时隙中可使用的能量B[t+1]，从而影响（t+1）时隙中可采用的传输方法。本申请将系统的访问控制问题表述为一个马尔可夫过程，使其可用于嵌入知识的深度强化学习的搜索MDP的传输策略。

在一些实施例中，基于访问要求和电池动态，得到基于能量收集无线通信系统模型的访问控制，包括：设定系统状态和动作空间；使用每个时隙的传输速率作为一步奖励，得到基于能量收集无线通信系统模型的访问控制。

系统状态如下式所示：

动作空间为：

一步奖励函数为：

其中，的第n行和第k列上的元素/>由/>给出。

具体的，基于能量收集无线通信系统模型的访问控制，首先，给定状态空间S：在时隙t中，系统的状态可以表示为：，系统的状态由三个部分组成，即信道状态信息s[t]、AP的电池中存储的能量 B[t]和当前时隙收集的能量E[t]。

然后动作空间A可以表示为：给定一个系统状态s[t]，接入点AP选择一个终端的子集来传递信息，并确定信道如何分配给这些终端。在形式上，接入点AP的动作是由一个给出的，其中矩阵A[t]的非零元素表示如何选择终端和如何分配信道。

需要说明的是，如果矩阵A[t]的所有元素都为零，则接入点AP将暂停传输数据并获取更多的能量。

最终得到奖励函数，如上式一步奖励函数公式所示，通过使用每个时隙的传输速率作为一步奖励。由此，给定一个系统状态和动作，可以得到一步奖励函数。

本申请考虑到系统的状态空间和动作空间随信道和终端的数量呈指数增长，这使得相对于较小的无线通信系统有着庞大的状态和动作空间，使得深度强化学习算法的收敛难度增加，同时可能会产生次优访问控制策略。为了将收敛问题和收敛到次优点问题解决，本申请提出一种嵌入知识的深度强化学习方法。通过搜索主导动作，转化信道状态来减少系统的状态空间和动作空间，嵌入知识的深度强化学习方法（knowledge-embedded DDQN）框架如图3所示。

在一些实施例中，主导动作的搜索方法包括：采用两步法将系统状态的动作空间划分为不同的子集；在第一步中，剔除不适用的动作集合，保留待搜索的动作集合；在第二步中，将待搜索的动作集合分为不同的组，每个小组至少有一个主导动作；对主导动作的集合中的动作进行搜索，加快深度强化学习的收敛。

具体的，对于给定的系统状态，在消耗相同能量的动作集合中，能够传输最大和速率的动作是主导动作。我们可以采用两步法将给定系统状态s的动作空间划分为不同的子集。在第一步中，先剔除不适用的动作集合，如需要传输功率的大于接入点AP此时的电池容量等。然后在第二步，在剩下的动作集合（待搜索的动作集合）（P_rq≤ B[t]）进一步分为不同的组，对于第j组，接入点AP使用一定量的能量j_P（j_P≤ B[t]）通过j 条不同的信道向j 个终端UE传递信息。在每个小组中，将至少有一个主导动作。

一个动作集合下可能不止有一个主导动作，对于给定的系统状态 s，我们将第 j组的主导动作表示为，对应的主导动作集合表示为/>。

因此我们得到：

其中， Q 为动作价值函数，。

只要证明出采取行动a和a’的下一个状态是相同的，为了使系统长期平均吞吐量最大化，对于给定系统状态 s 的接入点AP 的动作就可以始终从主导动作 A 的集合中选择，这样减少了系统的动作空间。

证明如下：根据马尔可夫过程（MDP）中的动作价值函数Q（s, a)的定义，得到：

对于所考虑的系统，其中R_a和R_a’分别是通过采取行动a和a’而获得的一步奖励。由于动作a是一个主导动作，我们有R_a>R_a'. 此外，由于接入点AP两个动作的能量相同，信道状态转换过程在所采取的行动中是独立的，这两个动作产生相同的后继状态，因此我们得出：。

搜索主导行动的算法的具体操作如下所示：对于一个给定的状态s，只有在主导动作集合中的动作需要进行搜索，这意味着对于深度强化学习算法来说，只有在主导动作集合中的动作需要进行探索，使的深度强化学习加快收敛。由于深度强化学习的Q值Q（s，a）是从过去不准确的观测中得到的，因此需要一个探索过程来找到一些潜在的“更好的”行动。既然我们在上述已经证明了对于状态s，不在主导动作集合中不可能是一个好的选择，所以没有必要探索这些行动。

本申请设计了算法 1（如图 4 所示）将搜索主导动作转化为一个二部图的一对一匹配问题，基于库恩-蒙克雷斯方法来找到对于给定系统状态 s 的主导动作集合，为每个二部图找到给出的最大和速率的匹配。

在一些实施例中，状态空间的缩小方法包括：将信道状态进行重写；使用一个行向量重新表示信道状态，如下所示：

其中，。

具体的，状态空间缩小的具体操作如下所示：前面已经证明了所考虑的系统只需要研究主导动作，可以减少动作空间的大小，从而使深度强化学习算法（DDQN）训练的更容易。为了加快 DDQN 的收敛速度，本申请将系统的状态空间减少，从而使 DDQN 的遍历空间大大减少。对于给定的信道状态S[t]，用于传输信息的能量j_P和相关的最大和速率会直接影响长期系统吞吐量。基于这个观察结果，我们可以将信道状态S[t]转换为另一种形式。

具体来说，对于信道状态S[t]，使用主导动作可以使系统的和速率最大，本申请使用另一个行向量重新表示信道状态，其中。

这样信道状态s[t]的第j个元素的值给出了接入点AP使用一定量的能量(j-1)P可以达到的最大和速率。因为不同的信道状态可能会导致相同的结果，通过将信道状态重写为这种形式，可以有效地减少信道状态空间的大小。

基于此，本申请提出了一种嵌入知识的深度强化学习方法来寻找最优的多通道访问方法及系统，利用深度强化学习来提高基于能量收集的多址无线通信系统的长期吞吐量。参考图5，本申请实施例还提供了一种无线通信系统访问控制的优化系统，包括：依次连接的系统模型构建模块101、访问控制转化模块102以及计算模块103；系统模型构建模块101用于构建基于能量收集多址无线通信系统模型；访问控制转化模块102用于将无线通信系统的访问控制转化为具有未知系统动力学的马尔可夫决策过程；计算模块103包括特征提取模块1031和映射表模块1032，特征提取模块1031用于主导动作的搜索，映射表模块1032用于记录挑选的动作与主导动作集合的映射，通过映射确定训练过程，并通过嵌入知识的深度强化学习方法，加快深度强化学习的收敛，使系统长期平均吞吐量最大化。

本申请通过嵌入知识的深度强化学习方法，加快深度强化学习的收敛，使系统长期平均吞吐量最大化，具体的算法流程如下所示：

嵌入知识的深度强化学习方法（knowledge-embedded DDQN）与传统的DDQN相比，增加特征提取模块1031和映射表模块1032这两个模块。特征提取模块1031的具体实现过程为：对于特定的系统状态，其主导动作以及相应的可实现的和速率先通过算法1找到。然后利用得到的主导动作和映射的系统状态形成了一个新的系统状态。在此基础上，贪婪（ε-greedy）方法只会应用于主导动作的集合，减少了动作空间。映射表模块1032的具体实现过程为：通过执行ε-greedy的方法DDQN的输出动作是一个行向量。这个被选择的动作是无法指示应该选择哪些终端以及如何分配信道。因此，对于一个特定的信道状态S，我们通过使用一个映射表，记录挑选的动作与主导动作集合的映射。有了这个映射表，每次DDQN输出一个动作时，我们就可以通过映射来确定如何将通道分配给哪些终端。如在算法2（如图 6）所示，给出了knowledge-embedded DDQN的整个训练过程。通过使用嵌入知识的深度强化学习方法，最终使得系统的长期平均吞吐量最大化。

与现有技术相比，本申请的优势在于：提出一种嵌入知识的深度强化学习方法及系统，使基于能量收集多址无线通信系统的长期平均吞吐量最大化。本申请关注 DDQN 的收敛能力与系统规模大小的问题，提出有效的算法将系统的状态空间和动作空间减少，主导动作选择和状态空间减少有助于提高学习效率和策略质量。知识嵌入式的DDQN提高了系统长期吞吐量中的电源管理和访问控制的性能，经过仿真实验验证了本申请的有效性和可行性。

本申请经过仿真实验结果认证，结果表明本申请在能量受限的环境下，有助于提高算法的学习效，提高系统长期吞吐量和访问控制的性能。

实验环境：通过仿真实验，获得相关实验数据。

实验结果：通过不同系统规模，嵌入知识的DDQN和DDQN之间的性能比较如图7所示，由图7可以看出：体现出嵌入知识的DDQN比没有嵌入知识的DDQN收敛速度快得多。

相同系统规模，不同的环境下嵌入知识的DDQN和DDQN之间的性能比较如图 8所示，由图8可以看出：嵌入知识的DDQN的平均吞吐量都远远高于无知识的DDQN。

从图7和图8可以看出：本申请提出的知识嵌入式 DDQN可以有效地提高学习效率和提高系统吞吐量。

通过嵌入知识的DDQN与i-optimal、贪婪和随机这三种比较基线比较在系统的平均长期吞吐量方面的性能，可以看出我们提出的框架对具有不同信道模型和能量收集模型的不同环境设置具有鲁棒性。实验结果如图9所示，即所提出的嵌入知识的DDQN框架提高了系统长期吞吐量中多终端多通道访问控制的性能，并且对不同的环境设置具有鲁棒性。

参考图10，本申请另一实施例提供了一种电子设备，包括：至少一个处理器110；以及，与至少一个处理器通信连接的存储器111；其中，存储器111存储有可被至少一个处理器110执行的指令，指令被至少一个处理器110执行，以使至少一个处理器110能够执行上述任一方法实施例。

其中，存储器111和处理器110采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器110和存储器111的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器110处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器110。

处理器110负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器111可以被用于存储处理器110在执行操作时所使用的数据。

本申请另一实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备（可以是单片机，芯片等）或处理器（processor）执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

由以上技术方案，本申请实施例提供一种无线通信系统访问控制的优化方法、系统、设备及介质，该方法包括以下步骤：首先，构建基于能量收集多址无线通信系统模型；然后，将无线通信系统的访问控制转化为具有未知系统动力学的马尔可夫决策过程；接下来，基于无线通信系统模型，采用嵌入知识方法搜索计算相关要点；相关要点包括主导动作的搜索和状态空间的缩小；然后，基于相关要点以及深度强化学习方法，得到嵌入知识的深度强化学习方法；最后，基于嵌入知识的深度强化学习方法，加快深度强化学习的收敛，使系统长期平均吞吐量最大化。

本领域的普通技术人员可以理解，上述各实施方式是实现本申请的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。任何本领域技术人员，在不脱离本申请的精神和范围内，均可作各自更动与修改，因此本申请的保护范围应当以权利要求限定的范围为准。

Claims

1.一种无线通信系统访问控制的优化方法，其特征在于，包括：

构建基于能量收集多址无线通信系统模型；

将无线通信系统的访问控制转化为具有未知系统动力学的马尔可夫决策过程；

基于所述多址无线通信系统模型，采用嵌入知识方法搜索计算相关要点；所述相关要点包括主导动作的搜索和状态空间的缩小；

基于所述相关要点以及深度强化学习方法，得到嵌入知识的深度强化学习方法；

基于所述嵌入知识的深度强化学习方法，加快深度强化学习的收敛，使系统长期平均吞吐量最大化；

所述将无线通信系统的访问控制转化为具有未知系统动力学的马尔可夫决策过程，包括：

将接入点上的能量收集过程视为马尔可夫过程，分别对每个时隙中收集的能量和电池状态量化处理；

将时隙t中的信道分配写成矩阵，所述矩阵包括n行k列，其中第n行和第k列中的元素满足

基于所述矩阵以及量化处理后的能量、电池状态，得到访问要求和电池动态；

基于所述访问要求和所述电池动态，得到所述基于能量收集多址无线通信系统模型的访问控制；

所述得到访问要求和电池动态，包括：

对于给定的访问方法，所需要的传输功率表示为：

其中，P是每个选定信道接入点的固定发射功率，P＝cE₀，c为非负整数；E₀为基本的能量单位；

接入点的电池的状态演化为：

B[t]＝min{B_max,B[t]–p[t]+E[t]}

其中，B[t]为电池动态，B_max为电池的最大容量；P[t]为发射功率，P[t]≤B[t]；E[t]为时隙t中收集的能量；

所述基于所述访问要求和所述电池动态，得到所述基于能量收集多址无线通信系统模型的访问控制，包括：

设定系统状态和动作空间；

使用每个时隙的传输速率作为一步奖励函数，得到所述基于能量收集多址无线通信系统模型的访问控制；

所述系统状态如下式所示：

s[t]＝(S[t]，B[t]，E[t])

所述动作空间为：

a[t]＝A[t]

所述一步奖励函数为：

其中，的第n行和第k列上的元素R[t]由/>给出；

所述主导动作的搜索方法包括：

采用两步法将系统状态的动作空间划分为不同的子集；

在第一步中，剔除不适用的动作集合，保留待搜索的动作集合；

在第二步中，将所述待搜索的动作集合分为不同的组，每个小组至少有一个主导动作；

对所述主导动作的集合中的动作进行搜索，加快深度强化学习的收敛；

所述状态空间的缩小方法包括：

将信道状态进行重写；使用一个行向量重新表示信道状态，如下所示：

其中，N表示终端的数量；K表示正交信道的数量。

2.根据权利要求1所述的无线通信系统访问控制的优化方法，其特征在于，所述构建基于能量收集多址无线通信系统模型，包括：

构建下行无线通信系统模型；所述下行无线通信系统模型包括一个基于能量收集的接入点，所述接入点通过多条正交信道向多个终端传递信息；

所述下行无线通信系统模型包括离散传输速率模型、信道模型以及能量收集模型。

3.一种无线通信系统访问控制的优化系统，其特征在于，包括：依次连接的系统模型构建模块、访问控制转化模块以及计算模块；

所述系统模型构建模块用于构建基于能量收集多址无线通信系统模型；

所述访问控制转化模块用于将无线通信系统的访问控制转化为具有未知系统动力学的马尔可夫决策过程；

所述计算模块包括特征提取模块和映射表模块，所述特征提取模块用于主导动作的搜索，所述映射表模块用于记录挑选的动作与主导动作集合的映射，通过映射确定训练过程，并通过嵌入知识的深度强化学习方法，加快深度强化学习的收敛，使系统长期平均吞吐量最大化；