CN101132363A

CN101132363A - 基于强化学习的自主联合无线资源管理系统和方法

Info

Publication number: CN101132363A
Application number: CNA2007101201826A
Authority: CN
Inventors: 冯志勇; 张平; 张永靖; 黎文边; 曾宪; 薛圆
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2007-08-10
Filing date: 2007-08-10
Publication date: 2008-02-27
Anticipated expiration: 2027-08-10
Also published as: CN101132363B

Abstract

本发明公开了一种基于强化学习的自主联合无线资源管理系统及方法，当可重配置移动终端发起新会话请求时，无线重配置支持功能模块收集本地无线资源管理器所提供的各异构无线接入网络的资源管理信息，根据各种网络性能参数指标采用强化学习方法进行“试错”交互，依照相应的判定准则，决定是否立即接纳新会话，如果接纳，决定接入到哪一个无线接入网络中并分配相应的业务带宽，否则拒绝该会话。然后向重配置管理器上报联合无线资源管理决策信息。通过基于比例公平频谱效用的强化信号，无线重配置支持功能模块能以“试错”迭代的在线学习方式找到优化的联合无线资源管理策略，在阻塞率和频谱效用之间获得很好的折衷。

Description

基于强化学习的自主联合无线资源管理系统和方法

技术领域

本发明涉及一种无线通信技术领域的无线资源管理系统及方法，尤其涉及一种基于强化学习的自主联合无线资源管理系统及方法。

背景技术

随着技术的发展，多种异构无线接入技术的共存将成为未来B3G无线通信环境的一个重要特征。重叠的网络覆盖、多样的业务需求以及互补的技术特性使得异构无线接入技术之间的协同和资源共享成为必须。为此，人们提出了多种联合无线资源管理的方法以获得更好的系统性能、频谱效率和用户体验。端到端重配置技术的出现，为终端和相关网元设备提供了动态选择、配置无线接入技术及工作频率的能力，使得对各种无线资源的联合管理更加灵活和可行。考虑到业务需求在空间和时间上的动态变化及其不规则性，一个同时运营多个无线接入技术的网络运营商将很难为其大量的基站和接入点配置最佳的联合无线资源管理策略。为实现网络对资源的自主管理以减少人力参与的规划和维护的成本，需要网络具有能根据实际运行情况不断修正其控制策略的自主学习能力。

强化学习是一种具有自主学习能力的“试错”的在线学习技术。学习者通过与环境不断交互获得学习经验，进而逐步改进其行为策略。强化学习以其灵活性和自适应性，广泛应用于机器人和自动控制领域，并被引入无线蜂窝网络的动态信道分配问题中。

现有技术中，针对异构无线网络中的联合接纳控制与带宽分配问题，存在的缺点在于模糊推理规则的定义以及模糊化/去模糊化函数参数的选择很大程度上依靠人工控制，主观性大，缺乏一定设计原则的指导与合理性论证。虽然引入强化学习在一定程度上克服了函数参数选择上的主观性，但却没能对推理规则进行自主、动态地的调整与控制，算法最终结果的性能难以保证。若考虑更多的输入语言变量(比如终端移动速度、重配置能力等)，则各种模糊推理规则的排列组合将以几何级数增长，在缺乏有效的设计原则指导的情况下，基于查找表的人工定义方式将面临极大的设计复杂度，实用性降低。

发明内容

针对现有技术中存在的这些缺点，本发明提出了一种基于强化学习的自主联合无线资源管理系统及方法，它适用于异构无线环境中B3G系统进行自主联合会话接纳控制和带宽分配。

本发明提出了一种基于强化学习的自主联合无线资源管理方法，当可重配置移动终端发起新会话请求时，无线重配置支持功能模块收集本地无线资源管理器所提供的各异构无线接入网络的资源管理信息，根据各种网络性能参数指标采用强化学习方法进行“试错”交互，依照相应的判定准则，决定是否立即接纳新会话，如果接纳，决定接入到哪一个无线接入网络中并分配相应的业务带宽，否则拒绝该会话。然后向重配置管理器上报联合无线资源管理决策信息。通过基于比例公平频谱效用的强化信号，无线重配置支持功能模块能以“试错”迭代的在线学习方式找到优化的联合无线资源管理策略，在阻塞率和频谱效用之间获得很好的折衷。

上述技术方案中，还包括基于强化学习的自主联合无线资源管理方法，此方法步骤如下：

步骤1、参数初始化，此步骤在所述参数初始化模块中进行，对强化学习方法中所有需要被初始化的参数进行初始化；

步骤2、状态构建，此步骤在所述参数初始化模块中进行，当新会话到达时，所述无线重配置支持功能模块需要搜集各无线接入网络的覆盖条件、负载信息、到达会话的业务特征等各种网络信息，构造出当前网络状态，并将结果转换为一维参数向量(网络状态向量)发送给所述神经网络模块，同时缓存在所述训练队列模块中；

步骤3、网络收益向量的获得，步骤2所述一维参数向量经过所述神经网络模块的运算后，在输出层得到当前网络状态下所有可能动作所对应的网络收益，并组成网络收益向量，所述网络收益向量同时被发送到所述动作选择模块和所述参数更新模块；

步骤4、动作选择和执行，所述动作选择模块根据输入的步骤3所述网络收益向量，采用一定的探索方法，从动作集合中选择一个动作并执行，被执行的动作被记录于所述参数更新模块；

步骤5、获得回报，在选择并执行一个动作后，无线网路环境做出反应，无线网络环境状态变量有所改变，所述参数更新模块收集无线网络环境所做出的反应并计算出所获得的回报；

步骤6、网络收益向量的更新，此步骤在所述参数更新模块中进行，新的会话到达，就由步骤2和3得到下一网络状态及其所有的网络收益向量，结合记录的动作以及相应的回报，更新缓存的网络收益向量，并被送入所述训练队列模块中；

步骤7、参数更新，此步骤在参数更新模块中进行，每轮迭代过程结束时，为了满足强化学习的收敛性要求，对所有相关参数以一定的规则进行更新；

步骤8、神经网络更新，每次迭代过程将产生一对网络状态向量和网络收益向量，分别作为输入向量和相应的目标输出向量被缓存到所述训练队列模块中，若所述训练队列模块被填满，所有缓存的网络状态向量和网络收益向量将被一起送入所述神经网络进行后向传播运算以调整神经网络的权值，从而获得对于网络收益的更加精确的函数近似。

上述技术方案中，还包括：所述强化学习方法中的动作选择和执行步骤，具体分为两步，首先是分配无线接入技术或者拒绝接入，然后是为接纳的会话分配一定的业务带宽。

上述技术方案中，还包括：利用神经网络实现对强化学习中状态空间的泛化。

本发明提出了一种基于强化学习的自主联合无线资源管理系统，包括：

可重配置移动终端，通过重配置工作在多种无线接入技术下，用于：发起多种不同业务类型的会话请求，并通过网络发送给本地无线资源管理器；

本地无线资源管理器，通过网络与无线重配置支持功能模块连接，用于：管理某个无线接入网络内部的无线资源分配，并将所属无线接入网络的资源管理信息提供给无线重配置支持功能模块；

无线重配置支持功能模块，通过网络与所述本地无线资源管理器和重配置管理器连接，用于：收集所述本地无线资源管理器所提供的各无线接入网络的资源管理信息，根据各种网络性能参数指标采用强化学习方法进行“试错”交互，依照相应的判定准则，决定是否立即接纳新会话，如果接纳，决定接入到哪一个无线接入网络中并分配相应的业务带宽，否则拒绝该会话。并向重配置管理器上报联合无线资源管理决策信息；

重配置管理器，位于公共的核心网域或者可信的第三方域，通过网络与所述无线重配置支持功能模块连接，用于：向所述无线重配置支持功能模块发送运营商的管理策略信息。

上述技术方案中，无线重配置支持功能模块包括：

参数初始化模块，用于对强化学习方法中所有需要被初始化的参数进行初始化，构造出当前网络状态，并将结果转换为一维参数向量(网络状态向量)发送给神经网络模块，同时缓存在训练队列模块中；

训练队列模块，用于缓存输入的网络状态向量和更新后网络收益向量，作为神经网络训练的输入和目标输出，当训练队列模块装满后将网络状态向量和网络收益向量以批处理方式送入神经网络模块，完成对神经网络内权值和偏置的后向传播训练；

神经网络模块，用于运算由参数初始化模块发送来的一维参数向量，在输出层得到当前网络状态下所有可能动作所对应的网络收益，并组成网络收益向量，发送到动作选择模块和参数更新模块；

动作选择模块，用于根据输入的网络收益向量，采用一定的探索方法，从动作集合中选择一个动作并执行，被执行的动作被记录于参数更新模块；

参数更新模块，用于参数更新和网络收益向量的更新，并将更新后的网络收益向量送入训练队列模块中。

上述技术方案中，还包括：无线环境模块，此处提到的无线环境模块是对外部无线环境的一种抽象，它用于接收动作选择模块中输出的动作信息，并将当前网络的各种状态信息进行汇总，并将需要更新的信息输送给参数更新模块，同时也提供参数初始化模块所需要的各种网络状态信息。

上述技术方案中，还包括：系统架构可分为分布式控制和集中式控制两种控制方式。所述分布式控制，指每个无线接入技术的本地无线资源管理器都与对应的一个无线重配置支持功能模块连接；所述集中式控制，指所有无线接入技术的本地无线资源管理器都与一个公共的无线重配置支持功能模块连接。

本发明的基于强化学习的自主联合无线资源管理系统及方法，适用于异构无线环境中B3G系统进行自主联合会话接纳控制和带宽分配。通过基于比例公平频谱效用的强化信号，无线重配置支持功能模块能以“试错”迭代的在线学习方式找到优化的联合无线资源管理策略，在阻塞率和频谱效用之间获得很好的折衷。本发明使得网络具有根据实际运行情况不断修正其控制策略的自主学习能力，从而实现网络对资源的自主管理，从而尽量减少了人工参与的规划和维护的成本。

此外，本发明还利用神经网络来实现对强化学习中状态空间的泛化，即采用神经网络来替代传统的穷举式查找表，以克服连续环境状态空间下的存储和查找困难，不但极大地节约了存储空间，而且降低了设计和计算复杂度。

附图说明

图1为本发明的异构无线环境的自主联合会话接纳控制和带宽分配方法整体系统架构流程图；

图2为本发明的异构无线环境下集中式和分布式自主联合会话接纳控制和带宽分配系统架构图；

图3为本发明无线重配置支持功能模块中的强化学习方法图；

图4为本发明基于强化学习的自主联合会话接纳控制和带宽分配方法流程图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

图1例示了本发明的异构无线环境的自主联合会话接纳控制和带宽分配方法整体系统架构流程图，具体流程步骤如下：

首先，在步骤10中，可配置移动终端发起新会话请求；

其次，在步骤11中，无线重配置支持功能模块收集本地无线资源管理器中所提供的各无线接入网络资源管理信息；

然后，在步骤12中，无线重配置支持功能模块根据各种网络性能参数指标采用强化学习方法进行“试错”交互；

在步骤13中，依照相应的判定准则决定是否接纳新会话。如果接纳该新会话，则如步骤14所示，决定接入到哪个无线接入网络，并分配相应的业务带宽，如果依据判定准则，不能接纳该新会话，则将拒绝这个新会话或将这个会话请求重定向到其他有重叠覆盖的网络中；

最后，如步骤15所示，将由无线重配置支持功能模块向重配置管理器上报联合无线资源管理决策信息。

图2例示了本发明的异构无线环境下集中式和分布式自主联合会话接纳控制和带宽分配系统架构图，具体各部分功能描述如下：

首先，根据本地无线资源管理器与无线重配置支持功能模块的对应关系，系统架构可分为集中式控制和分布式控制两种方式：如果所有无线接入技术的本地无线资源管理器都与一个公共的无线重配置支持功能模块连接，则称为集中式控制方式；如果每个无线接入技术的本地无线资源管理器都与自己专属的无线重配置支持功能模块连接，则称为分布式控制方式。

其次，整个系统架构中包括以下四个主要模块：

可重配置移动终端，它可通过重配置工作在多种无线接入技术下，并可以发起多种不同业务类型的会话请求。用户携带可重配置终端位于重叠覆盖区域时，可以通过购买任意一种无线接入网络的业务，享受各种无线应用。所述终端接入网络时，能够自动完成软件安装与网络设置。

本地无线资源管理器，负责管理某个无线接入网络内部的无线资源分配，包括带宽、信道、码子等无线资源。

无线重配置支持功能模块，当终端向某个无线接入网络发起会话请求时，无线重配置支持功能模块收集本地无线资源管理器所提供的各无线接入网络的资源管理信息，根据各种网络性能参数指标以及相应的判定准则，决定是否立即接纳新会话或者将其重定向到其它重叠覆盖的无线接入网络中。并向重配置管理器上报联合无线资源管理决策信息。

重配置管理器，它是重配置管理平面逻辑模型的一个完整的物理实现，被定位在可重配置网络层次结构的最高一级，位于公共的核心网域或者可信的第三方域。重配置管理器可以向无线重配置支持功能模块发送运营商的管理策略信息。其中，重配置管理平面是一个独立于具体网络和协议的逻辑模型，用于规范所有与重配置相关的过程和信令。由一系列与具体物理实现无关的控制与管理功能实体组成，是具体网络元素的抽象表达。

图3例示了本发明无线重配置支持功能模块中的强化学习方法图，具体各部分模块的功能描述如下：

参数初始化模块，此模块主要是对强化学习方法中所有需要被初始化的参数进行初始化并包括初始状态构建过程。当新会话到达时，参数初始化模块通过无线环境模块获得所需要的各无线接入网络的覆盖条件、负载信息、到达会话的业务特征等各种网络信息，并构造出当前网络状态，并将结果转换为一维参数向量(网络状态向量)发送给神经网络模块，同时缓存在训练队列模块中。

训练队列模块，用于缓存输入的网络状态向量和更新后网络收益向量，作为神经网络训练的输入和目标输出。当训练队列模块装满后，将网络状态向量和网络收益向量以批处理方式送入神经网络模块，完成对神经网络内权值和偏置的后向传播训练。

神经网络模块，由参数初始化模块产生的网络状态向量和由训练队列批量输入的网络状态向量和网络收益向量，分别作为神经网络模块的输入，进行后向传播运算以调整神经网络的权值，从而获得对于网络收益的更加精确的函数近似。并将网络收益结果送入到参数更新模块中更新相应的数据信息，同时送到动作选择模块进行动作选择的输入信息。

动作选择模块，动作分为两步，首先是分配无线接入技术或者拒绝接入，然后是为接纳的会话分配一定的业务带宽。本发明将上述两步合为一步。动作选择模块根据从神经网络模块中输入的网络收益向量信息，并依据一定的探索方法，从动作集合中选择一个动作执行。被执行的动作将被记录于参数更新模块中，相应的执行动作被送入到无线环境模块中。

参数更新模块，考虑到为了满足强化学习的收敛性要求，同时结合神经网络模块、动作选择模块和无线环境模块的输入信息，对所有相关参数以一定的规则进行更新，并将更新后的数据输入到训练队列模块中。

无线环境模块，此处提到的无线环境模块是对外部无线环境的一种抽象，无线环境模块主要是接收动作选择模块中输出的动作信息，并将当前网络的各种状态信息进行汇总，并将需要更新的信息输送给参数更新模块，同时也提供参数初始化模块所需要的各种网络状态信息。

图4例示了本发明基于强化学习的自主联合会话接纳控制和带宽分配方法流程图，具体步骤如下：

步骤400，首先进行参数初始化。在参数初始化模块中，对强化学习方法中所有需要被初始化的参数进行初始化；

步骤401，判断新会话是否到达，如果有新会话到达，则进行状态构建(如步骤402所示)。如果没有新会话到达，则继续等待，进行新会话是否到达的判断；

步骤402，进行状态构建过程，并将当前的状态信息转换成状态向量，送往训练队列模块。当新会话到达时，无线重配置支持功能模块需要搜集各无线接入网络的覆盖状况、负载信息、到达的会话业务特征等信息，构造出当前网络状态，并将结果转换为一维参数向量(网络状态向量)送往训练队列模块中；

步骤403，将网络状态向量送入神经网络模块，经过神经网络模块的运算后，得到当前网络状态下所有可能动作所对应的网络收益，并组成网络收益向量。该网络收益向量同时被发送到动作选择模块和参数更新模块中；

步骤404，更新网络收益向量，并将其发送到训练队列模块；

步骤405，动作选择模块进行动作选择，并将执行的动作记录至参数更新模块中。动作分为两步，首先是分配无线接入技术或者拒绝接入，然后是为接纳的会话分配一定的业务带宽。本发明将上述两步合为一步。动作选择模块根据输入的网络收益向量，采用一定的探索方法，从动作集合中选择一个动作并执行。被执行的动作被记录于参数更新模块；

步骤406，按照某种方法计算网络所获得的回报。回报是驱使无线重配置支持功能模块合理选择动作的直接信号。在选择并执行一个动作后，根据某种方法，计算网络所获得的回报；

步骤407，实现联合会话接纳控制和带宽分配；

步骤408，参数更新模块对以上得到的数据信息进行必要的更新。此步骤在参数更新模块中进行。每轮迭代结束时，为了满足强化学习的收敛性要求，对所有相关参数以一定的规则进行更新；

步骤409，判断训练队列是否被填满。如果训练队列已经被填满，则跳转到步骤410，将缓存在训练队列中的网络状态向量和网络收益向量一起送入神经网络，进行后向传播运算并利用运算结果调整神经网络的权值。如果训练队列未被填满，则将跳转到步骤401，判断新会话是否到达；

步骤411，判断迭代的结束条件是否满足。如果结束条件满足，则结束迭代过程(如步骤412)。如果结束条件不满足，则将跳转到步骤401，继续判断新会话是否到达，进行新一轮的迭代。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于强化学习的自主联合无线资源管理系统，所述系统包括：

可重配置移动终端，用于发起多种不同业务类型的会话请求；

通过无线网络与所述可重配置移动终端连接的本地无线资源管理器，用于接收从所述可重配置移动终端发送的会话请求，管理无线接入网络内部的无线资源分配；

通过所述网络与所述本地无线资源管理器连接的无线重配置支持功能模块，用于接收由所述本地无线资源管理器提供的对应无线接入网络的资源管理信息，收集所述本地无线资源管理器所提供的对应无线接入网络的资源管理信息，根据各种网络性能参数指标采用强化学习方法进行“试错”交互，依照相应的判定准则，决定是否立即接纳新会话，并在接纳时，决定接入到哪一个无线接入网络中并分配相应的业务带宽；

通过所述网络与所述无线重配置支持功能模块连接的重配置管理器，位于公共的核心网域或者可信的第三方域，用于接收从无线重配置支持功能模块上报的联合无线资源管理决策信息，并且向所述无线重配置支持功能模块发送运营商的管理策略信息。

2.根据权利要求1所述的基于强化学习的自主联合无线资源管理系统，还包括：参数初始化模块，训练队列模块、神经网络模块、动作选择模块、以及参数更新模块，

其中所述参数初始化模块与所述训练队列模块、所述神经网络模块和无线网络环境连接，用于对强化学习方法中所有需要被初始化的参数进行初始化，构造出当前网络状态，并将结果转换为一维参数向量发送给神经网络模块，同时缓存在所述训练队列模块中；

所述训练队列模块与所述神经网络模块和所述参数更新模块连接，用于缓存输入的网络状态向量和更新后网络收益向量，作为神经网络训练的输入和目标输出，当训练队列模块装满后将网络状态向量和网络收益向量以批处理方式送入神经网络模块，完成对神经网络内权值和偏置的后向传播训练；

所述神经网络模块与所述参数更新模块和所述动作选择模块连接，用于运算由所述参数初始化模块发送来的一维参数向量，在输出层得到当前网络状态下所有可能动作所对应的网络收益，并组成网络收益向量，发送到所述动作选择模块和所述参数更新模块；

所述动作选择模块与所述参数更新模块和所述无线网络环境连接，用于根据输入的网络收益向量，采用一定的探索方法，从动作集合中选择一个动作并执行，被执行的动作被记录于所述参数更新模块；

所述参数更新模块与所述无线网络环境连接，用于参数更新和网络收益向量的更新，并将更新后的网络收益向量送入所述训练队列模块中。

3.根据权利要求1所述的基于强化学习的自主联合无线资源管理系统，其中所述动作选择模块输出的动作信息传递给无线环境模块，同时所述参数更新模块需要获得由无线环境模块提供的更新信息，并且所述参数初始化模块需要根据无线环境模块提供的网络状态信息进行初始化过程。

4.根据权利要求1所述的基于强化学习的自主联合无线资源管理系统，其中所述系统内存在的无线接入网络属于同一运营商，并且所述无线接入网络的覆盖范围、业务能力、小区容量各不相同。

5.根据权利要求1所述的基于强化学习的自主联合无线资源管理系统，其中所述系统利用分布式控制和集中式控制两种方式进行控制，在所述分布式控制方式中，每个无线接入技术的本地无线资源管理器都与对应的一个无线重配置支持功能模块连接；在所述集中式控制中，所有无线接入技术的本地无线资源管理器都与一个公共的无线重配置支持功能模块连接。

6.根据权利要求1所述的基于强化学习的自主联合无线资源管理系统，其中所述可重配置移动终端接入网络时，自动完成软件安装与网络设置。

7.根据权利要求1所述的基于强化学习的自主联合无线资源管理系统，其中所述可重配置移动终端为具有重配置功能和移动通信功能的个人掌上电脑、移动计算机或手机。

8.一种在自主联合无线资源管理系统中的基于强化学习的自主联合无线资源管理方法，所述系统包括可重配置移动终端、通过无线网络与所述可重配置移动终端连接的本地无线资源管理器、通过所述网络与所述本地无线资源管理器连接的无线重配置支持功能模块、通过所述网络与所述无线重配置支持功能模块连接的重配置管理器，所述方法包括：

所述可重配置移动终端发起多种不同业务类型的会话请求；

所述本地无线资源管理器接收从所述可重配置移动终端发送的会话请求，管理无线接入网络内部的无线资源分配；

所述无线重配置支持功能模块接收由所述本地无线资源管理器提供的对应无线接入网络的资源管理信息，收集所述本地无线资源管理器所提供的对应无线接入网络的资源管理信息，根据各种网络性能参数指标采用强化学习方法进行“试错”交互，依照相应的判定准则，决定是否立即接纳新会话，并在接纳时，决定接入到哪一个无线接入网络中并分配相应的业务带宽；

所述重配置管理器位于公共的核心网域或者可信的第三方域，接收从无线重配置支持功能模块上报的联合无线资源管理决策信息，并且向所述无线重配置支持功能模块发送运营商的管理策略信息。

9.根据权利要求8所述的自主联合无线资源管理方法，其中所述系统还包括：参数初始化模块，训练队列模块、神经网络模块、动作选择模块、以及参数更新模块，

所述学习方法包括以下步骤：

(1)在所述参数初始化模块中对强化学习方法中所有需要被初始化的参数进行初始化；

(2)当新会话到达时，所述无线重配置支持功能模块需要搜集各无线接入网络的覆盖条件、负载信息、到达会话的业务特征等各种网络信息，构造出当前网络状态，并将结果转换为一维参数向量网络状态向量发送给所述神经网络模块，同时缓存在所述训练队列模块中；

(3)步骤(2)中的所述一维参数向量经过所述神经网络模块的运算后，在输出层得到当前网络状态下所有可能动作所对应的网络收益，并组成网络收益向量，所述网络收益向量同时被发送到所述动作选择模块和所述参数更新模块；

(4)所述动作选择模块根据输入的步骤(3)所述网络收益向量，采用一定的探索方法，从动作集合中选择一个动作并执行，被执行的动作被记录于所述参数更新模块；

(5)在选择并执行一个动作后，无线网路环境做出反应，无线网络环境状态变量有所改变，所述参数更新模块收集无线网络环境所做出的反应并计算出所获得的回报；

(6)在所述参数更新模块中进行，新的会话到达，就由步骤(2)和(3)得到下一网络状态及其所有的网络收益向量，结合记录的动作以及相应的回报，更新缓存的网络收益向量，并被送入所述训练队列模块中；

(7)在参数更新模块中，每轮迭代过程结束时，为了满足强化学习的收敛性要求，对所有相关参数以一定的规则进行更新；

(8)每次迭代过程将产生一对网络状态向量和网络收益向量，分别作为输入向量和相应的目标输出向量被缓存到所述训练队列模块中，若所述训练队列模块被填满，所有缓存的网络状态向量和网络收益向量将被一起送入所述神经网络进行后向传播运算以调整神经网络的权值，从而获得对于网络收益的更加精确的函数近似。

10.根据权利要求9所述的自主联合无线资源管理方法，其中步骤(4)还包括步骤：

分配无线接入技术或者拒绝接入，为接纳的会话分配一定的业务带宽。

11.根据权利要求9所述的自主联合无线资源管理方法，其中在步骤(5)中，回报具体为由所述参数更新模块采用相应算法对无线网络环境因动作而做出的反应进行计算得到的。

12.根据权利要求9所述的自主联合无线资源管理方法，其中所述步骤(7)或(8)中迭代过程为步骤(2)-(7)的过程。

13.根据权利要求9所述的自主联合无线资源管理方法，其中利用神经网络实现对强化学习中状态空间的泛化。