CN113766538A

CN113766538A - NB-IoT无线资源分配方法、装置及可读介质

Info

Publication number: CN113766538A
Application number: CN202110955856.4A
Authority: CN
Inventors: 宁磊; 钟瀚; 陈勇; 梅逢城; 金帆
Original assignee: Shenzhen Winoble Technology Co ltd; Shenzhen Technology University
Current assignee: Shenzhen Winoble Technology Co ltd; Shenzhen Technology University
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2021-12-07

Abstract

本发明涉及一种NB‑IoT无线资源分配方法、装置及介质的技术方案，包括：初始化智能体参数，获取智能体的第一环境状态；根据第一环境状态从经验池为智能体分配第一无线资源分配策略；获取智能体执行第一无线资源分配策略得到的第二环境状态，进而获取基于第二环境状态得到的奖励值；将第一环境状态、第一无线资源分配策略、第二环境状态及奖励值存储至经验池。本发明的有益效果为：提高了NB‑IoT的资源利用率，降低碎片化现象。

Description

NB-IoT无线资源分配方法、装置及可读介质

技术领域

本发明涉及计算机网络、计算机人工智能及物联网领域，具体涉及了一种NB-IoT无线资源分配方法、装置及可读介质。

背景技术

NB-IoT是一种只占用180kHz频域资源的低功耗物联网通信方案，所有的物联网接入设备所需的通信资源都在这180kHz内进行分配。目前，NB-IoT的资源分配策略多是基于预先定义资源的方式进行分配，此种分配方式具有逻辑简单，分配算法易于实现，运行效率高的特点。但随着物联网业务模型越来越复杂，这种分配方式所预定义的资源格式显然过于单一，容易造成资源利用率，碎片化严重的现象。所以如何提高资源利用率，减少碎片化现象成为了业内的一个重要研究对象。

目前，业界使用的分配算法多以静态为主，如FIFO算法，预定义资源格式等。FIFO算法保证了每个接入设备的公平性，但并未考虑到业务的优先级，一些时延不敏感的业务占据了优先级更高的业务的资源，使优先级更高的业务需要顺延一定时间才得以传输。而采用预定义资源格式，可以分优先级传输，但随着物联网业务越来越复杂，预定义的格式也会随之变得越来越复杂，多种格式的组合分配如何设计最优算法也将成为一大难题。预定义分配算法一旦定义好后，并不会随着业务模型的改变而改变。而业务是动态变化的，如何使算法能自适应业务的动态变化需求，也应是业界需考虑的问题之一。

发明内容

本发明的目的在于至少解决现有技术中存在的技术问题之一，提供了一种NB-IoT无线资源分配方法、装置及可读介质，提高了NB-IoT的资源利用率，降低碎片化现象。

本发明的技术方案包括一种NB-IoT无线资源分配方法，其特征在于，该方法包括以下步骤：初始化智能体参数，获取NB-IoT的第一环境状态；根据所述第一环境状态通过所述智能体为所述NB-IoT分配并执行第一无线资源分配策略；获取所述NB-IoT执行所述第一无线资源分配策略得到的第二环境状态，并获取所述NB-IoT从所述第一环境状态至第二环境状态得到的奖励值；将所述第一环境状态、所述第一无线资源分配策略、所述第二环境状态及所述奖励值存储至所述经验池；所述智能体为神经网络。

根据所述的NB-IoT无线资源分配方法，其中初始化智能体参数，获取NB-IoT的第一环境状态包括：随机初始化所述智能体参数，从NB-IoT的MAC层获取所述第一环境状态，其中环境状态包括所述NB-IoT的时频域资源的使用情况、UE请求和业务模型。

根据所述的NB-IoT无线资源分配方法，其中该方法还包括：所述智能体将所述NB-IoT从所述第一环境状态至所述第二环境状态所产生的所述第一无线资源分配策略、所述奖励值及对应的环境状态作为一次交互，每次交互后将所述智能体参数存储至经验池，经过若干次交互后，从所述经验池抽取若干数据进行学习，并更新自身神经网络参数。

根据所述的NB-IoT无线资源分配方法，其中智能体抽取数据所需的调度次数及抽取数据量可自定义设置，且抽取数据的方式为随机抽取。

根据所述的NB-IoT无线资源分配方法，其中经验池包括多个所述智能体历史时刻存储的上一时刻状态、策略动作、下一时刻状态及所述奖励值，所述经验池的存储规则为先进先出。

根据所述的NB-IoT无线资源分配方法，其中该方法还包括：所述奖励值还设置有评估方式，所述评估方式通过当前时刻资源利用率评估所述第一无线资源分配策略的好坏。

本发明的技术方案还包括一种NB-IoT无线资源分配装置，该装置包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现任一项所述的方法步骤。

本发明的技术方案还包括一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项的方法。

本发明的有益效果为：通过利用深度强化学习，让智能体自身去学习资源分配的最优策略，可应付复杂的业务模型，大大提高了NB-IoT无线资源的利用率，降低了资源碎片化的现象。

附图说明

下面结合附图和实施例对本发明进一步地说明：

图1所示为根据本发明实施方式的总体流程图。

图2所示为根据本发明实施方式的动态资源分配流程图。

图3所示为根据本发明实施方式的装置图。

具体实施方式

本部分将详细描述本发明的具体实施例，本发明之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案，但其不能理解为对本发明保护范围的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。

在本发明的描述中，对方法步骤的连续标号是为了方便审查和理解，结合本发明的整体技术方案以及各个步骤之间的逻辑关系，调整步骤之间的实施顺序并不会影响本发明技术方案所达到的技术效果。

本发明的描述中，除非另有明确的限定，设置等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

术语解释：

NB-IoT：全称Narrow Band Internet of Things，是一种基于蜂窝的窄带物联网技术，也是低功耗广域物联(LPWA)的最佳联接技术，承载着智慧家庭、智慧出行、智慧城市等智能世界的基础联接任务，广泛应用于如智能表计、智慧停车、智慧路灯、智慧农业、白色家电等多个方面，是5G时代下的基础联接技术之一。

MAC层：媒体访问控制，负责处理媒体上的物理传输或接收。

深度学习：深度学习具有较强的感知能力，但是缺乏一定的决策能力。

强化学习：具有决策能力，对感知问题束手无策。

图1所示为根据本发明实施方式的总体流程图。该流程包括：初始化智能体参数，获取NB-IoT的第一环境状态；根据第一环境状态通过智能体为NB-IoT分配并执行第一无线资源分配策略；获取NB-IoT执行第一无线资源分配策略得到的第二环境状态，并获取NB-IoT从第一环境状态至第二环境状态得到的奖励值；将第一环境状态、第一无线资源分配策略、第二环境状态及奖励值存储至经验池；其中，智能体为神经网络。

需要说明的是，第一无线资源分配策略直接由智能体产生，智能体本身是神经网络，每一次的执行都会存储进经验池，当调度次数执行到给定的次数时，智能体就会从经验池里抽取一批数据，包括新旧状态，策略，奖励值来进行学习，并更新自身神经网络参数。从而达到优化的目的。

图2所示为根据本发明实施方式的动态资源分配流程图。如图2，其具体包括：

首先随机初始化智能体的参数，智能体从NB-IoT的MAC层观察并获得所需的环境状态S，包括NB-IoT时频域资源的占用与空闲情况，NB-IoT当中UE相关请求和业务模型。智能体的参数参考如下表1，表1中前12位状态数为NB-IoT的无线资源情况，后3位为UE的业务特征。

表1

根据这些环境状态和UE的业务特征，智能体根据自己所学习到的策略，为UE动态分配相应的NB-IoT时频域资源。这一分配结果会动态改变NB-IoT的资源环境，生成新的环境和状态S’，同时根据新产生的环境的结果的好坏(亦包括长远考虑的好坏)，产生出一个奖励值。以上为智能体与环境的一次交互过程，所产生的数据包括旧的状态S，相应的策略A，新的状态S’，相应奖励R。这些数据作为一次交互过程被存储进经验池当中。经验池的数据具体格式设计如下表2：

表2

本实施例根据智能体与NB-IoT环境的交互存在着前后关联性强的特点，关联性强会让智能体更聚焦于眼前的奖励最大化，而忽视长远的利益，同时对神经网络的训练也必须满足弱关联性的特点。为了打破这种关联性，经验池的抽取，按照随机提取策略，提取的数据对智能体进行训练拟合，更新参数和优化分配策略。

经验池的大小因为是有限的，因此在存储满了的时候，按照FIFO先进先出的策略，把历史上最久远的数据进行覆盖，保留最新的数据。这对于学习不断更新的NB-IoT业务模型更为有利。

本实施例实质是过利用深度强化学习，让智能体自身去学习资源分配的最优策略，可应付复杂的业务模型，大大提高了NB-IoT无线资源的利用率，降低了资源碎片化的现象，与传统技术方案相比，基于深度强化学习的动态资源分配算法无需再预先去定义资源的格式，由算法本身去定义并持续优化资源分配形式。克服了静态算法所不具有的动态性，同时提高了资源利用率和降低了资源碎片化现象。

图3所示为根据本发明实施方式的装置图。装置包括存储器100及处理器200，其中处理器200存储有计算机程序，计算机程序用于执行：初始化智能体参数，获取NB-IoT的第一环境状态；根据第一环境状态通过智能体为NB-IoT分配并执行第一无线资源分配策略；获取NB-IoT执行第一无线资源分配策略得到的第二环境状态，并获取NB-IoT从第一环境状态至第二环境状态得到的奖励值；将第一环境状态、第一无线资源分配策略、第二环境状态及奖励值存储至经验池。

应当认识到，本发明实施例中的方法步骤可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种NB-IoT无线资源分配方法，其特征在于，该方法包括以下步骤：

初始化智能体参数，获取NB-IoT的第一环境状态；

根据所述第一环境状态通过所述智能体为所述NB-IoT分配并执行第一无线资源分配策略；

获取所述NB-IoT执行所述第一无线资源分配策略得到的第二环境状态，并获取所述NB-IoT从所述第一环境状态至第二环境状态得到的奖励值；

将所述第一环境状态、所述第一无线资源分配策略、所述第二环境状态及所述奖励值存储至所述经验池；

所述智能体为神经网络。

2.根据权利要求1所述的NB-IoT无线资源分配方法，其特征在于，所述初始化智能体参数，获取NB-IoT的第一环境状态包括：

随机初始化所述智能体参数，从NB-IoT的MAC层获取所述第一环境状态，其中环境状态包括所述NB-IoT的时频域资源的使用情况、UE请求和业务模型。

3.根据权利要求1所述的NB-IoT无线资源分配方法，其特征在于，该方法还包括：

所述智能体将所述NB-IoT从所述第一环境状态至所述第二环境状态所产生的所述第一无线资源分配策略、所述奖励值及对应的环境状态作为一次交互，每次交互后将所述智能体参数存储至经验池，经过若干次交互后，从所述经验池抽取若干数据进行学习，并更新自身神经网络参数。

4.根据权利要求3所述的NB-IoT无线资源分配方法，其特征在于，所述智能体抽取数据所需的调度次数及抽取数据量可自定义设置，且抽取数据的方式为随机抽取。

5.根据权利要求1所述的NB-IoT无线资源分配方法，其特征在于，所述经验池包括多个所述智能体历史时刻存储的上一时刻状态、策略动作、下一时刻状态及所述奖励值，所述经验池的存储规则为先进先出。

6.根据权利要求1所述的NB-IoT无线资源分配方法，其特征在于，该方法还包括：

所述奖励值还设置有评估方式，所述评估方式通过当前时刻资源利用率评估所述第一无线资源分配策略的好坏。

7.一种NB-IoT无线资源分配装置，该装置包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的方法步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至6中任一项的方法。