CN103548375A

CN103548375A - 通信方法及装置

Info

Publication number: CN103548375A
Application number: CN201180055954.7A
Authority: CN
Inventors: 乔治·库杜瑞迪斯
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2010-12-03
Filing date: 2011-11-22
Publication date: 2014-01-29
Also published as: EP2647239A1; WO2012072445A1

Abstract

本发明公开了一种控制电信网络的方法，所述网络包括至少一个设备，该设备被安排用于网络配置参数的交互。在运行期间，提供了学习系统和网络优化的示例以促进对系统状态的适应。

Description

通信方法及装置

技术领域

本发明实施例涉及多用户通信的技术领域，为本发明的详细说明提供了相关领域的技术。本发明还涉及小范围的无线通信或表面覆盖无线通信的技术领域，或无线通信网络的操作、管理或配置。本发明尤其涉及关于通信网络的本地感知及本地或分布式控制的技术领域。

背景技术

无线通信通过电磁信号提供一种远距离通信方式。随着用户接入通信网络的无线程度不断增加，为提升网络维护和管理提供增长的自动化，因此技术15中将面临表面覆盖无线通信的一些挑战，如资源传感和分配、干扰预测、决策。

3GPP TR36.902V9.2.0，技术报告，第三代合作伙伴项目，第三代合作伙伴项目，技术规范组无线接入网络，演进的通用陆地无线接入网络（E-UTRAN），自我配置及自我优化网络（SON）使用案例和解决方案（第9版），法国，2010年6月讨论了如下问题，如物理小区标识的自动配置，移动鲁棒性和切换参数的设置，移动负载均衡，RACH（随机接入信道）配置，维护和建立邻区关系，及小区间干扰协调。特别地，推断出以下结论：操作人力和复杂性的减少可在多厂商设备对接情况下提高系统的可操作性。

Andreas Lobinger等在′Load Balancing in Downlink LTE Self-Optimizing Networks/VTC2010-Spring Taipei19May中提到：自优化、自愈和自构建网络是接受欧盟资助项目的一部分。作者详细讨论了负载均衡及切换参数设置。

美国专利US6829491提供了一种通信网络，该网络服从于使用网络运行度量值进行的动态优化。如，它可以从一个网络控制器，如移动交换中心获得。参数调整是是否要对进一步的或不同的运行参数进行调整的基础。该文件提到，由于用户群体的异常密集（如举办体育赛事期间的体育场馆），网络负载可能是不平衡的。据推断，将一种方法和系统用于网络通信度量值的动态监测是有利的，所述度量值包括由多个网络资源提供的与通信相关的度量值。因此，作为网络性能信息的函数，在网络系统参数的建模和估计的影响下，运行参数可以被动态地重新分配。

发明内容

本发明公开了一种控制电信网络的方法，所述网络包括至少一个用于安排网络配置的20参数交互的设备。在运行期间，提供了学习系统和网络优化的示例以促进对系统状态的适应。

附图说明

图1表示根据本发明的一个典型的认知引擎CE；

图2表示两个独立的CSONE实体功能示例中的一个系统结构；

图3是模型中优先描述的一个系统的示意图；

图3是确定一个最佳动作的示意图；

图5表示合作操作的三个不同维度中的实现技术及解决措施的一些关键示例；

图6是传感监测接口的示意图；

图7表示一个配置/决策和/或执行模块的通信接口；

图8是根据本发明的两个通信/合作/执行模块示例的示意图。

图9表示一个优化模块(91)及各种实体的接口的示意图；

图10表示一个学习示例；

图11表示另一个学习模块；

图12表示一个认知SON的集中式结构；

图13表示一个有样例自主认知引擎的认知SON的分布式结构；

图14表示一个认知SON的混合网络结构；

图15表示认知SON的SON功能；

图16是两个独立的自治节点中运行的两个独立进程之间的交互的示意图。

图17表示与本发明相关的一个系统；

图18表示与本发明相关的操作的三个级别；

图19表示与本发明相关的合作决策和控制的维度；

图20表示与本发明相关的一个系统；

图21表示认知SON的优化过程；

图22表示两个独立的自治节点中运行的两个独立进程之间的交互；

图23表示根据本发明的优化程序；

图24表示根据本发明的两个独立的CSONE实体中的功能；

图25表示根据本发明的一个系统；

图26表示根据本发明的一个系统；

图27表示根据本发明的一个系统；

图28表示根据本发明的一个优化功能元件；

图29表示学习任务的程序；

图30表示根据本发明的一个学习示例；

图31表示一个认知SON的集中式结构；

图32表示仅由CSONE实体组成的结构的部署；

图33表示一个认知SON的分布式结构；

图34表示一种仅由CSONE实体组成的上述结构的部署；

图35表示一种集中协调的CSONE混合结构；

图36表示一种分布协调的CSONE混合结构；

图37表示一个仅由CSONE实体组成的结构的部署。

具体实施方式

未来网络中的无线网络的作用，将以一种最动态的形式实现由异构无线网络和从小范围的无线到蜂窝系统的各种技术组成的多跳网络拓扑。符合不同的QoS（服务质量）策略的不同功能的用户设备及话务量需求、以及多个控制和管理机构可能干预并争夺一组通用的无线资源。这种向更复杂系统的演化使对能在复杂、不利或不可预知的环境中运行良好的适应性和/或可扩展的系统的需要变得十分迫切，不排除通过无线或有线回程连接进行的操作和交互。

认知、自治和自我管理的网络的基础是关于本地物理环境和网络环境、以及一些相应的全局网络状态的认识的一个高层次的本地节点感知。由于认知无线电和认知网络的一个显着特点是根据过去的经验值、目前的运营状况及对未来行为的预测进行决策和适应的能力，为使这样一个认知水平成为可能，认知节点要有效地表达和存储环境和运营信息。每个节点的深层环境的模型只提供了部分知识。因此，为共同获得一个全球性的或广泛的环境知识，各节点可以合作，实现分布式的操作。

图1表示根据本发明的一个典型的认知发动引擎，CE，下面将对其进行详细描述。通过认知引擎，认知节点可以保持当地环境的模型，从而轮流允许基于动作影响的有根据的通信决策。认知节点决定或选择决策变量，以最大限度地提高性能度量值，例如，确定或选择能最大限度地利用网络资源的功率设定值。由于CE提供学习及适应不断变化的环境的能力，认知节点自主采取动作。

为允许这些认知节点，认知引擎优先适应：

通过性能度量值及动态的物理环境信息（物理环境——无线资源）为各个动态及其环境的一个或多个状态精确建模；

认知节点（网络环境——相邻节点）之间的模型推导出的知识/信息交换；

进行动作选择；

考虑其物理和网络环境，将其动作的预期效用最大化，从过去的动作、事件、影响及（延迟的）反馈中学习。

一个系统可能会改变在任何时间点上的状态。受内部流程（在系统内）或外部进程（在外部环境中）的影响，系统的状态通常在其使用寿命期间可以改变多次。一般来说，一些系统状态对映射一个动作决策变量是有用的，而另一些系统状态则非如此。此外，一些系统状态是有针对性的，而另一些则没有。执行对过程的控制目的在于将系统转换到目标系统状态，例如，系统运行良好的状态。

图2表示一个说明两个独立的示例CSONE实体中功能的系统结构。

认知SON引擎CSONE的操作通过存储在知识库中的知识得以支持和实现。更具体地，以上所述的各种元件或模块的每个节点优先维护一个由事实和规则组成的知识库（111）。所述知识库可能是分布式或集中式的。事实是通过参数值对表示的,这些参数对为环境及其本身，即事实和知识库的所有者建模。事实用来表示以下信息，如

检测参数，如

无线环境，包括负载和干扰级别，

KPIs及其性能度量值；

发现参数，如

相邻节点和相邻节点能力；

配置参数，提供例如

数据配置，如发射功率设定。

规则优先由前提——暗示——结论形式（如果<前提>那么<结论>）的参数值含义表示。例如，一个前提是规则或一个事实（事实的结合），典型的监测类型。相应的一个结论就是，例如，一个规则或一个事实（事实的结合），典型的配置类型。根据优选的实施例，规则适用于数值运营商所定义的数值子集的参数。规则可能意味着规则或事实。

在内容方面，事实和规则集合代表一个环境模型，其中有实体的知识进行交互。此外，该集合代表包括能力、目的、作用、功能和动作在内的实体本身的模型。

在内容方面，事实和规则集合代表一个其中有实体的知识进行交互的环境模型以及包括能力、目的、作用、功能和动作在内的实体本身的模型。

在形式上，知识K包括事实和规则。

事实反映环境及实体本身的先验知识。它包括系统状态S集、实体本身的动作A集合及功能F集合；

规则=控制，即如果s∈S，那么a∈A；

效用=系统状态U的评估功能。

事实和规则被存储在一个知识库中，优先所有功能元件部分或全部可获取。

环境状态s∈S被描述为一个所观察到的参数集fs(p)的状态函数fs∈F：P→S，其中

其中p_i是参数函数的一个参数，|P|表示参数集的基数。

通过描述的事实/规则和效用，外部环境和环境遵守的规则的模型可以在知识库中描述及存储。由于外部实体所造成的事件，或由于CE本身所采取的动作，环境的观察和转换模式也可以在环境状态和状态间转换方面进行描述。环境模型是基于先验的和/或所学的知识，由参数或参数函数表示。

如果由P衡量的T任务的性能随经验值E提高，一个认知SON引擎CSONE就从某类任务T和性能指标/度量值P方面的经验值E中学习。

例如，学习移动性优化配置的一个无线节点可能会提高其移动性能，该性能由其能力测量，以通过在其邻区配置移动性获得的经验值配置移动参数。

一个明确定义的学习问题，需要一个明确定义的任务、性能度量值和训练经验值。设计一种学习方式涉及很多设计选择，包括选择训练经验值的类型、要学习的目的（或目标）函数、对所述函数的一种表达及从训练示例中学习目标函数的一种算法。

在一般情况下，学习涉及通过一个可能的假设H的空间进行的搜索，以找到对可用的训练示例D及其它的事先约束或知识而言最适合的假设。在任何一个时间t的SON功能，ht将对应一种状态st，D对应当前的一组观察Θ。

上述优化和控制功能中有许多是基于在不同的条件下，通过搜索不同假设空间（例如，数值函数，决策树，神经网络，决策，规则）的学习方法执行的。在不同的条件下，这些搜索方法向一个最优假设收敛。

通过学习新的事实和规则、或修改现有规则执行优化控制的操作以改善性能。

图3是一个模型中优选描述的一个系统的示意图。为正确表示该系统，理想情况下，这种模型应代表该系统的所有实体、它们的状态及公开程序。

系统状态典型地是基于该系统模型的多重量化参数。优选的一组参数，S，提供所有必要的参数来区分任意两个系统状态。参数可以被监测、计算、估计和/或从统计观察中获得。在技术系统中，如（蜂窝）的无线网络、系统参数包括性能/评价度量值、关键性能指标、数据配置等。更具体地说，一个系统状态，S，可以被定义为

S=(KPI₁,...,KPI_N),(eq.1)

其中，各种N KPIs（关键性能指标），KPI_i，i=1,...,N,其中N是一个正整数，在无线网络中并非仅包括，例如，小区负载、用户数量、无线资源利用、吞吐量、频谱效率及QoS，其中N是一个正整数。

系统会通过配备的动作向某个确定合适的系统状态进行响应。一个动作是指一个系统操作期间执行一个或多个指令。在无线通信网络中，例如，一个动作与控制网络操作的网络节点的配置相对应。动作被安排维护目标状态的系统，或将其向一个目标状态发展。为此，系统运行实体被配备了动作集合A。通过按照需要执行该动作集合，将系统向目的/目标状态驱动。作为一个非独有的示例，这样的目的/目标状态是，例如，为所需吞吐量性能进行的无线资源分配，其中实际分配与动作相对应。

更具体地，一个动作A，A=(a1,...,a_M)，其中ai,i=1,...,M,其中M是一个正整数，是一个无线网络中与一个或多个配置参数相对应的动作。这些参数不仅仅包括，例如，发射功率，天线倾角，天线模式，波束成形，移动性偏移和准入阈值。

（动作）控制的概念是指对任意一个目标系统状态确定一个动作的过程。更具体地说，控制πA(s)，π_A(s):S→A,, (eq.2)

将状态s∈S映射到动作a∈A。（动作）策略的概念Π_A(S)，指S中所有状态定义的控制过程函数π_A(s)。

Π_{A} (S) = {π_{A} (s) &ForAll; s &Element; (S)} - - - (eq . 3)

根据本发明的实施例，以下是确定一种控制的过程：在给定的一组授权动作A,,中，为系统的每种状态寻找最佳动作A,,。

根据本发明的一个实施例，图4表示确定最佳动作A,,。所述确定涉及按图描述配置一个控制器(42)。优先考虑到三个级别的操作：

（i）优化级别（优化器(41)）；

（ii）调整级别（控制器(42)）；

（iii）执行级别（系统功能，如一种无线网络的任意RRM功能(43)）。

优化实体（41）确定控制过程π（s），优先关于一个或多个目标的优化。在这方面，优化一种控制过程被理解为确定一种策略，即优先为状态变量集合确定相关控制，以在各种状态中最大限度地提高的效用的目标，或最大限度地降低成本/惩罚的目标。

目标优先通过效用函数（目标函数）来表达。效用函数是一个将系统状态优先映射为实数的函数。如图4所示，各种操作级别的实体互相合作。合作的实现需要促使功能实现的通信部署。在此框架下，合作促成因素指那些机制、程序和/或促成网络节点及系统实体之间合作的协议。协作覆盖信息交流、动作协调和决策。而且，需要在不同的维度中开发这些方面，从而使不同的通信层和能力利用成为主要特点。与决策和控制维度相对应的三个关键方面能以合作为基础或潜在地从合作中受益。所述三个方面是：

通过信息交流进行的合作，涉及从节点独立传感（即，节点之间没有信息交换）到完整的上下文/知识介绍和分享；

决策与配置控制的协调，涉及重新配置方面从独立决策到充分协调的决策；

在合作传输方面从物理层/MAC分层机制到层3及以上层的分层机制的利用。

图5对上述合作操作的三个不同的维度及一些为解决能源效率部署的关键技术和措施一起作了说明。这些技术解决方案被描述为三维空间中的平面。此处说明的平面仅是一些示范合作范围的示例。一些技术的解决方案的范围也可能是一条线、一个向量或该空间中的一个点。在示例中可以看出，信息交互（协作）轴的范围在没有信息和完整的信息之间。在没有信息交换的情况下，假设节点依赖于环境的感知/监测。尽管这意味着关于环境的本地（局部的）的知识，节点合作作为纯粹的冲突解决协议中的实例仍然是可能的。在这些协议中，节点感知碰撞，并通过回退（将发送的机会给其他节点）作出反应。当然，这是节点合作进行独立决策的一个非常简单的情况。同样，在认知无线场景中，二级用户可能会以他们自身的感知数据为基础进行获取空白频段的（独立）决策。

原则上，任何合作和/或自治的解决方案都可以被映射到该（三维）空间，所述空间可呈现许多合作的解决方案安排。换句话说，两个或多个节点可能通过简单地互换信息及独立地决定实现合作。

或者，两个或更多个节点可以通过在节点间共享的协同配置计划决策来实现合作。最后，合作可以通过每一层单独地或以跨层方式实行。

基于以上的每一个维度，合作决策和控制的促成因素优先关联。尤其，关联被设想为可在以下维度进行：

在信息/上下文交换维度（或协作维度）：

感知数据，

数据配置，

合并/处理的信息，

知识呈现；

在决策协调和控制维度（或协调维度）方面：

路由/中继控制，

协商协议，

协作计划，

同步，

分布式决策，

知识推理，

冲突解决；

在分层机制维度（或通信层维度）：

层3的路由/中继，

MAC协议和/或层2中继，

层1(物理层)的协同多点传输，

网络编码和跨层。

一般存在两个方面的合作性。第一方面实现一个节点的各个目标和其所属的网络目标之间的平衡。一个网络目标可以被以最简单的方式定义为所有节点目标（一个“社会福利”目标）的总和。为实现网络目标的最大化，一个节点可能会推迟采取动作，以最大限度地实现其个人目标。例如，一个小区可以选择较低的发射功率设定，降低本小区吞吐量以最大限度地提高网络的整体吞吐量（例如，通过降低干扰）。相反地，一个节点选择较高的功率设置来提高其本小区吞吐量，这样可能对相邻小区产生更多的干扰，导致整体网络吞吐量降低。第二个方面是指网络操作最优配置的识别（例如，能源消耗最少），这平衡了充分合作（协同决策）和一个较简单的自主（独立决策）方法所带来的利益。例如，应考虑到，一方面，可以完整展示合作系统的各个部分（例如，利用信息共享），但这个额外的精细化信息和灵活性是以带有既定增益的信令得到的。此外，与第二方面（协调动作——独立动作）有关的处理是优先实现平衡的。

本发明识别了一系列导致状态参数或相关映射问题的事件：

描述系统状态的一组参数并不完善，即，这些参数不能区分系统状态；

所述这组参数包括许多使系统状态描述复杂化的参数；

对参数值仅有部分描述；

参数值是有偏差的，例如，由于话务量及无线信道是随机的和/或测量精度是有限的，系统参数是连续的，因此状态空间包括无限种状态；

所述环境是随机的，即，系统状态之间的转换是不确定的；

动作列表是不完整的，无法实现既定目标；

指导动作选择的效用函数偏离目标系统状态，或以极慢的速度收敛；

本发明也识别与合作优化控制相关的问题：

如何达到节点目标和网络目标之间的均衡；

如何判断信令/协调/信息交换的成本，例如，开销和能源。

参照图1，系统架构经过设计，对如下控制策略进行适当改善：

传感/监测单元(102)处理观察及状态传输建模；

配置/决策单元（103）处理动作选择与评估的动作-状态建模；

优化功能单元(101)处理模型的优化、功能单元及策略的最优控制；

交互功能单元（104）处理关于决策的协商和交流，以及所选动作的执行/完成的交互建模；

知识库（111）包括对实现认知SON引擎所需模型进行描述的事实和规则。知识库可以是其自身的或以上所述功能单元之间维持和连通的功能单元。

各元件通过接口(105)、(106)、(107)、(108)、(109)、(110)实现通信。

根据一个优选的实施例，认知引擎（也被称为策略引擎）中的操作由数据库、知识库中存储的事实和规则方面的知识进行支持和实现。

参考图3和图4，事实是一种系统状态S及其关联的动作集A合的组成部分。

因此，规则是对策略的各种控制，该策略是S在A上的一个映射。

优化控制的操作识别新的规则或修改已有的规则。

图6是传感监测接口的示意图。传感/监测模块的作用是，例如，收集KPI，统计处理KPI，控制KPI监测。传感模块对通信接口（106）、(61)、MCi实行监测，例如监测参数和监测时间间隔通过MCI进行通信。传感模块对决策接口MDi、（109）、（62）实行监测。系统状态信息通过MDi通信。还可能有其他可选的依赖于设备的监测接口，如连接基站的无线资源管理（RRM）的接口，或网关与传感模块之间的设备接口。尽管有依赖设备的接口，还可能有其它可选的测量监测接口（63）、（64），例如用于参数值或时间间隔的监视或通信，如有RAT/RAN RRM（无线接入技术/无线接入网络的无线资源管理）实体或无线网络网关。

图7表示一个配置/决策和/或执行模块的通信接口。配置/决策和/或执行模块的功能包括，例如基于环境状态信息、控制的无线资源配置，以及功率和频谱分配，做配置决策。例如，示例接口（107）、（71）有利于配置/决策制定和/或执行模块与通信/执行/合作模块之间的配置参数或信息的交换。在配置/决策和/或执行模块的一个或多个接口中，对决策接口（109）、（62）、（72）的监测已根据图6作出解释。一个实例接口（配置/决策和/或执行模块（73）、（74）之间）为基站的RRM或网关提供了一个依赖设备的接口。所述接口包括两个部分：用于交换配置控制参数（要设定的）或配置信息（要收集的）的决策部分，以及用于配置如RRM或网关设备的消息交换的执行部分。

图8是根据本发明的两个通信/合作/执行模块(81)、(82)示例的示意图，如，包括提供以下内容的功能：

信息交换，如

监测信息，

配置信息，如，功率、频谱、干扰消除，

邻区信息；

合作程序及协议，例如

配置参数设置的协商，

多运营商频谱共享中无线资源的拍卖；

执行，如，根据数据配置所作的执行。

所述两个模块通过Ci（合作/通信接口）(83)互相通信，并通过一个Ci或Xi（执行接口）与其它实体连通，如：

基站(84)的RRM；

传感器元件/网关（85）。

所述执行单元(87)、(88)包括：例如

自我控制设备（包含一个或多个传感/监测、决策或优化模块）的配置；

远程设备（包含一个或多个传感/监测、决策或优化模块）的配置；

功能配置（包含一个或多个传感/监测、决策或优化模块）。

通信/执行/合作模块接口，RRM实体/功能以及跨Ci/Xi（87）、（88）连接（通信/合作/执行接口）的一个传感器/执行器元件/网关。

图9是根据本发明的一个优化模块(91)的接口及各实体(92)、(93)、(94)，及所述优化模块接口(95),(96),(97)的示意图。所述优化模块(91)用于

对基于单个或多个目标参数的一个或多个环境状态进行分类；

学习及识别某些功能最重要的参数；

学习及识别某个具体产品最重要的参数；

了解不同环境状态的最有利的数据配置；

了解最优合作策略。

所述优化模块优先配置接口(95)、(96)、(97)。所述三种不同的接口，一种用于监测(92),另一种用于决策(97)，第三种接口在所述优化模块与通信/合作模块(96)的用户之间，用于执行。

优化模块优先经过适配以学习一种策略，该策略将系统的任意状态映射到一组动作，这些动作根据所述优化模块的使用过程的目标进行顺利操作。无论策略是否能被集中或分布地维护或执行，无论是否被广泛地或功能性地分布，这种映射都可以进行。

根据本发明的一个实施例，所述优化模块经过适配，以学习、识别和/或提供：

所述系统及差分参数的不同状态；

环境的一个精确模型及用于未来预测的管理规则；

不同系统状态间的转换；

实现控制及调整性操作的有序的和/或并行的动作过程；

一组随系统状态改变提供有效、稳定的操作及快速收敛的规则。

根据一个优选的实施例，状态集合通过学习被递归改善，所述状态被映射到动作上，按照映射规则和网络参数设置，这些动作相应地得到适应性的改善。

改善状态集时，对一个给定的目标或一组能区分系统的任意两种状态的目标，一组参数被优先确定。适用于工艺中所述目的一些实例学习方法包括：

决策树学习，如，适用于确定对状态作最佳分类的参数值对；

贝叶斯学习，例如，适用于识别指示系统状态的参数之间的条件和相关性；

归纳学习（从可观察的事实中学习规则），如适用于学习一种状态；

神经网络学习（从已知事例中学习一种功能），如适用于学习一种状态；

基于实例的学习（从实例间的相似点和差异之间学习状态功能），如用于学习一种状态。

输出的一个示例是对系统状态的一种简洁描述，在所述系统状态中，对组织模式和运作模式进行独特标识，优先其中一些非解释状态有待于考虑进行映射、控制或决策。最好有一个解决措施，其中每种状态由一个或多个参数值或参数值对的最小数量进行描述。

由于输出需要提供一个随时间推移产生的准确结果，时间也成为一个方面。为捕捉随时间推移的动态变化，要考虑状态转换。

本发明的另一方面是动作状态控制。适用于动作状态映射、控制或决策的方法在该工艺中为人熟知。所述方法的非独有示例是：

强化学习；

遗传算法。

强化学习，RL，不同于标准的监督学习，其中不需要正确的输入/输出对。RL是一种学习形式，符合以下条件：

学习包括无线或无线节点从它们的环境及与其与无线节点的交互中学习的能力；

学习针对一组动作，无线节点与整体网络为其发挥最佳功能；

与数值设定或一个或多个配置参数/变量典型相对应的动作；

与整体回报、收益、效用或提供评估目标的相应措施相对应的一个目标函数；

通过在可能的参数值组合中的试验和错误搜索进行的学习。

Q-学习是RL的一种特殊执行方式，其中与各种动作相关联的预期收益/回报被估计。根据一个示例性实施例，控制器进行这样的估计。Q学习递归性地预计Q值。一个Q值，Q（s,a）是一个价值函数，在给定的环境状态s中为一个单独动作的执行价值提供了一种数值估计。所述控制器基于一个样本（a,r）更新其预计值Q(s,a)：

Q(s,a)←Q(s,a)+λ(r-Q(a)). (eq.4)

样例（a,r）是由所述基站获得的经验值：执行动作a，得到收益/回报r。λ为学习率（0＜λ＜1），管理新样本取代目前估计的程度。假设有无限次迭代，该算法收敛到Q(a)。

图10表示一个学习示例。参考图10，所述任务是找到一个策略π(s):S→A，将效用函数U^π(s_t)表达的未来累积回报总量最大化。

确定性环境：

\max_{π &Element; Π} U^{π} (s_{t}) = Σ_{k = 0}^{\infty} γ^{k} r_{t + k + 1}; 0 < γ < 1

非确定性环境：

\max_{π &Element; Π} U^{π} (s_{t}) = E [Σ_{k = 0}^{\infty} γ^{k} r_{t + k + 1}]; 0 < γ < 1

优化策略：

π^{*} &equiv; \underset{π}{\arg \max} U^{π} (s), (&ForAll; s)

价值函数表示为U^π(s)

或者,

π^{*} (s) &equiv; \underset{a}{\arg \max} Q (s, a)

V^{*} (s) \underset{a^{'}}{\arg \max} Q (s, a^{'})

详细来说，启动状态和动作(st,at)的Q-算法如下：

k=0

Q_{t} (s_{t}, a_{t}) = Σ_{k = 0}^{\infty} γ^{k} r_{t + k + 1}

选择一个动作at/，并以（直到当前迭代）最佳策略继续，

Q_{t + 1} (s_{t}, a_{t}) = r_{t + 1} + γ \max_{a^{'}} Q_{t} (s_{t + 1}, a^{'}) - - - (eq . 6)

为确保收敛，一个学习速率系数r]被优先添加，

\begin{matrix} Q_{t + 1} (s_{t}, a_{t}) = (1 - η) Q_{t} (s_{t}, a_{t}) + η (r_{t + 1} + γ \max_{a^{'}} Q_{t} (s_{t + 1}, a^{'})) \\ = Q_{t} (s_{t}, a_{t}) + η (r_{t + 1} + γ \max_{a^{'}} Q_{t} (s_{t + 1}, a^{'}) - Q_{t} (s_{t}, a_{t})) \end{matrix}

= Q_{t} (s_{t}, a_{t}) + Δ Q_{t + 1} - - - (eq . 7)

开发-利用是选择动作的一种概率方法，

P (a_{i} | s_{t}) = \frac{k^{Q (s_{t}, a_{i})}}{Σ_{j} k^{Q (s_{t}, a_{j})}} - - - (eq . 8)

其中k＞0，优先是一个常数，确定所述选择对高Q值的动作支持的强度。较大的K值会将较高的概率分配给高于平均Q值的动作，使优化器利用所学并寻找其认为能将回报最大化的动作。较小的K值会将较高的概率分配给低于平均Q值的动作，使优化器开发目前没有高Q值的动作。k可以随迭代次数变化，从而使优化器支持早期学习阶段中的开发，以逐步转向更多的利用

强化学习有以下示例性优点：

噪声的鲁棒性；

较低的复杂性；

有利的执行/实现。

图11表示另一种学习的示例，其中发射功率p和天线倾角a，根据小区的话务量配置和确定。发射功率作为一个非限制单小区的示例进行说明，其被假定为常数。不同天线倾角的Q值被学习，直到得到一个所需的产生Q₄(p,a₄)的Q值的动作a₄。

指导通信系统动作选择的一个最重要的方面是其影响。根据本发明的一个实施例，通过提供一个最大的效用，所述效用被用于指导一个动作的确定。

效用函数评估一种环境状态。它将所述状态映射到一个标量值，表示状态的具体情况。通过将所述标量值与其它状态的一个或多个值比较，对比不同状态的具体情况是有可能的。在本质上，n个决策变量的一种解决措施矢量x=(x1,…xn)的效用，可以通过其对各个KPI目标f₁(x),…f_n(x)_{的影响表达}。其中，f_i(x),i=1...n,与一个KPI相对应，如切换成功率或覆盖中断率。

如果可以找到规律，那么能找到一个优选结构，将效用函数表示为

u(x)=u(x₁,…x_n)=f[f₁(x),...,f_n(x)], (eq.9)

其中f与目标之间的决策/优先级相对应。

所述效用函数u(x)=u(x1,...,xn)=f[f1(x),…fn(x)]可以用以下多种示例性方式表示：

1.作为一个聚合函数

如，加权和，u(x)=w1f₁(x)+..+wnfn(x)，其中w1+...+wn=1；

2.目标规划最小Σ|f_k(x)-T_k，其中T_k是由设计者设定的目标；

一个非聚合函数，基于非帕累托

用户自定义的顺序，其中的目标是由设计人员按照重要性级别排列。

3.MIN-MAX对比了与可获得的最小值的相关偏差（用于博弈论中解决冲突情况）；

4.基于帕累托的函数

如，帕累托最优，帕累托前沿。

强化学习优化中的回报函数应被表达为KPIs多样性方面的效用函数。

为配置网络或提供其设置，优先采用其协商策略。典型的协商策略包括协商过程中采用的动作顺序，如包括报价、还价、接受或拒绝。协商中的学习原则上提供学习其他协商实体的协商策略、其类型、效用和模型。对于交互/协商模型中的其它实体决策模型的更新，贝叶斯信念网络可作为有效的更新机制被使用。鉴于条件性陈述形式的领域知识，接受者优先使用标准的贝叶斯更新规则修改提供者需要的结果。

可被用于多小区（多目标系统）的学习示例的级别包括：

对完整信息共享和同步动作实行控制的N小区；

独立学习者，其中每个节点独立学习其各个动作的Q值，不需考虑控制中其相邻节点的动作；

耦合学习者，其中每个无线节点以其Q值中其它无线节点的动作为模型；

联合动作学习者，其中无线节点学习联合动作而非个别动作的Q值，这意味着，每个无线节点可以观察或交换其它无线节点的动作；

学习协商效率。

相比预先设定的网络设置，学习网络提供了很多好处。以下问题从首次部署以来，并不总为人所知：一个区域的话务量将如何表现或发展，什么将会成为负载，典型的用户移动性是什么，或者面积应当如何按类型划分。简而言之，在开始使用或部署期间，最佳配置还不得而知，而学习网络能够与之适应。根据优选的实施例，学习设施在运行时动态地提供了最佳的解决方案。如果基站移动到一个新的区域或话务量发生变化，如建立一个新的住宅区时，学习过程允许基站重新配置。通信网络的学习过程应作为一个随时间推移向优选解决方案实施收敛的长期过程进行安排。

出于各种优化目的，认知引擎和学习优选地被应用到蜂窝网络中。对于一个SON（自优化网络），优选地用效用函数评估当前环境的状态。

u(x)=f[f₁(x),...,f_n(x)].

关键性能指标，KPIs Ki,i=1,...n,反映系统的重要方面，优选地作为效用函数的输入被应用。

u(K)=f[K₁...,K_n].

所述效用函数f[K1...,Kn]与运营商设定的策略相对应，并促进了提供不同状态的不同KPI组之间的对比。从决策参数（配置参数）到KPI值存在一个映射。通过学习，所述系统可以理解这种映射，以及如何更改配置参数，以便快速获得最佳的系统状态。

图12-14是各种物理结构的无线网络中认知SON功能的部署示意图。

假设一组离散的时间步长t=0,1,2,...,i_n,其中每一个特定节点必须从所提供的一个有限动作A的集合（包括空的动作）选择一个动作at以优化一个合适的性能度量值。如果我们用

表示在时间r对该节点的观察，则该函数

被称为节点的决策，并将观察—动作对的完整历史映射到时间t——到最佳动作a_t。该决策以最简单的形式忽略了所有观察到的历史，除了产生该形式的最后的观察θ_t

这是从对所述实体现有的观察到一个动作a_t的映射。

在对嵌入（物理的，真的或人造的）环境的节点的观察中，它感知并在一个世界中采取动作，该世界由在该环境中感知和采取动作的所有节点组成。其中包含的任意时间步长t的及与性能指标相关的共同信息，被称为世界的状态，并用s_t表示。世界中所有的状态集都将用S表示。从一个节点的角度来看，如果对实体的观察

完全揭示世界的实际状况，即

那么世界是（完全）可观察的。另一方面，在一个可以部分观察的世界中，对实体的观察

仅提供关于实际状态s_t的部分信息。st和

之间的随机耦合能以

的形式被一个观察模型替代性地定义。状态后验分布

可以通过使用贝叶斯规则从先验分布p(s_t)中计算出来。

在许多情况下，在给定的观察Θ的情况中，将s_t感知为

的函数是切实可行的，该函数确定S上最好的假设。一个完全可观察的世界意味着

其中

因此所述策略为：

π(s_t)=a_t (2.4)

在许多情况下，出于简化的目的，马尔可夫特性为世界模型作假设，其中在时间t的世界当前状态总结了时间t+1时刻状态的所有相关信息。更具体地，一个实体可以感知不同的状态的集合S，并具有一组可执行的动作集合A。在每个时间步长t，所述实体感知当前状态s_t，选择动作a_t，并与环境和世界状态的变化结果一起执行该动作。换种说法描述动作执行，环境通过产生后续状态st+1=δ(st,at)作出响应。这里的函数δ对应一个转换模式，该模型指定一个状态—动作对(st,at)到一个新的状态st+1之间的映射。如果环境是确定的，其概率为1；如果环境是随机的，环境概率为p(st+1|st,at)。在后者中，st+1是一个随机变量，可以采取S中所有可能的值，每一个值的相应概率为p(st+1|st,at)。

各实体在动作之间进行选择，所述动作实现已确定的任务/运行的目的。一种将目标概念公式化的方法是将其定义为世界的目标状态，如果这些任务被优化执行，其对应于环境的最佳状态。在一般情况下，一个自治实体通过状态空间搜索一个最佳的动作次序，以达到目标状态。显然，并非所有的状态是平等优选的，也并非所有的目标状态是平等地最优的。优选及优化概念的公式化是通过为每种状态s分配一个真数U(s)来实现的。所述U(s)被称为某个特别任务和实体的状态s的效用。状态U(s)的效用越大，状态s越好。这样的一个评估世界每个状态的函数U可以被一个实体用来进行决策。假设一个基于环境效用的随机决策是基于这样的一个前提——状态s_t下实体的最优动作at^*应最大限度地发挥预期效用，即

α_{t}^{*} = \underset{α_{t} &Element; A}{\arg \max} \underset{s_{t + 1} &Element; S}{Σ} p (s_{t + 1} | s_{t}, α_{t}) U (s_{t + 1}) - - - (2.5)

其中，在实体采取动作at的情况下，我们总结了世界可能转换到的所有状态s_t+1∈S。然后，该实体必须选择得到最高总量的动作at^*。这为实体提供了一种决策，在效用U(s)的情况下，该决策将状态映射到优化的动作。特别是，在一个给定的任务中，一组最优化的（即最高可达的）效用U^*(s)的情况下，贪婪决策

π^{*} = \underset{α^{'}}{\arg \max} \underset{s^{'}}{Σ} p (s^{'} | s, α) U (s^{'}) - - - (2.6)

是该实体的最优决策。

对最优决策可以用一种可替代的和有用的方法来描述。对每一种状态s和每一种可能的动作a，我们可以定义一个优化动作值或Q值Q^*(s,a)，该值可以测量实体在状态s的动作a的‘合适性’。Q值符合U^*(s)=maxa Q^*(s,a),同时优化决策可计算为

π^{*} (s) = \underset{α}{\arg \max} Q^{*} (s, α) - - - (2.7)

该公式比(2.6)更简单一些，公式(2.6)并没有使用转换模型。

在许多实际情况中，π和U并非已知的先验，相反，他们应该在所述实体执行其动作时被学习。假设每次一个动作a，所述实体可能得到一个状态—动作转换的数值指示或接收到一个表示其合适度的回报r_t=r(s_t,a_t)，则执行一系列动作的所述实体可能面临临时信用分配的问题：

确定该系列动作中哪个将产生最终的回报。

假设一个回报函数r：S×A→R，即实体在状态s采取动作a时接收到回报r(s,a)，则所述实体在其规划操作时间期间将其累积回报函数最大化。一个标准的此类函数就是贴现未来回报r(st,at)+γr(st+1,at+1)+γ²r(st+2,at+2)+…,其中γ∈[0,1)是确保无限的操作时间总和保持有限的贴现率。显然，不同的决策会产生不同的贴现未来回报，因为每个策略将通过不同的状态序列选取实体。符合某种决策的一个状态s的最佳值被定义为通过在状态s处开始，所述实体接收到的最大贴现未来回报：

U^{*} (s) = \max_{π} E [Σ_{t = 0}^{\infty} γ^{t} r (s_{t}, a_{t}) | s_{0} = s, a_{t} = π (s_{t})] - - - (2.8)

其中，期望算子E[·]在随机转换间取均值。同样，所述实体的一个状态s和动作a的最佳Q值是所述实体在状态s采取动作a之后接收的最大贴现未来回报：

Q^{*} (s, a) = \max_{π} E [Σ_{t = 0}^{\infty} γ^{t} r (s_{t}, a_{t}) | s_{0} = s, a_{0} = a, a_{t > 0} = π (s_{t})] - - - (2.9)

在(2.8)或(2.9)中实现最大值的决策π^*(s)是一个优化策略：

π^{*} (s) &Element; \underset{a}{\arg \max} Q^{*} (s, a) - - - (2.10)

注意在一个给定的任务中有许多优化决策，但它们都分享一个独有的U^*和Q^*。

(2.9)中对Q^*的定义可以通过利用转换模型被递归重写：

Q^{*} (s, a) = R (s, a) + γ \underset{s^{'}}{Σ} p (s^{'} | s, a) \max_{a^{'}} Q^{*} (s^{'}, a^{'}) - - - (2.11)

这是一组非线性方程，每种状态一个方程，其解决措施定义最优Q^*。

在许多应用中，所述转换模式是不可用的。Q-学习是一种方法，用于估计不需要转换模型知识的最佳Q^*（及从该最优决策）。在Q-学习中，所述实体与环境重复进行交互，并尽力通过试验-错误估计最佳的Q^*。该实体初始化每个状态-动作对的函数Q(s,a)，然后开始开发环境。开发产生元组(s_t,a_t,r_t,s_t+1)，其中st是一个状态，a_t是状态s_t采取的一个动作，rt=r(st,at)是接收到的一个回报，s_t+1是执行at之后得到的状态。所述实体从每一个这样的元组将其Q值预测值更新为：：

Q (s_{t}, a_{t}) = (1 - λ) Q (s_{t}, a_{t}) + λ [r + γ \max_{a_{t + 1}} Q (s_{t + 1}, a_{t + 1})] - - - (2.12)

其中λ∈(0,1)是一个调节收敛的学习速率。如果所有的状态—动作组被经常无限性访问，λ随时间推移缓慢减少，Q—学习收敛到最佳Q^*[Watkinsl992]。一个共同的开发决策是所谓的ε贪婪决策，通过该决策，所述实体在状态s中选择一个概率为ε的随机动作，及概率为1-ε的动作a=argmaxa′Q(s,a′)，其中ε＜1是一个小数目。另外，根据波尔兹曼分布，所述实体能在状态s中选择开发动作a。

p (a | s) = \frac{e^{\frac{Q (s, a)}{τ}}}{\underset{a^{'}}{Σ} e^{\frac{Q (s, a^{'})}{τ}}} - - - (2.13)

其中，τ控制分布的平滑性（及选择的随机性），并随时间减少。

可全面观察的世界环境意味着一个实体知悉其环境中的所有其它实体、它们的决策和动作、以及这些在环境状态中的影响。受部分环境知识的影响，一个实体的动作可能会被其它实体的动作抵消。为避免这样的后果，实体可能会交互以收敛到一个更接近世界真实状态的联合观察。该世界具有完全可观察性。对所述实体而言，部分可观察的真正状态是s：每个实体i接收一个观察

提供关于s的信息。所有实体

的个别观察的策略定义了联合的观察Θ。在许多问题中，每个观测值都是所述状态的一个确定函数：每个状态下每个实体的观察完全由问题的确立来确定。可以定义一个更为常见的观察模型，其中，状态和观察之间的耦合是随机的。例如，一个观察模型可以定义状态和联合观察之间的一个联合的概率分布

通过使用概率理论法则，各种其它数量可以从中计算，如p(θ)或p(θ|s)。一般情况下，在具有部分可观测性的多实体决策中，每个实体i的决策是一个从个别观察

到个别动作ai=πi(θi)的映射：πi:Θi→AI。个别策略(πi)的策略定义联合策略π。

多实体的决策还需要为每个实体定义一个明确的收益函数Qi。该函数可采取多种形式，例如，它可以是状态和联合动作之间的一个函数Qi(s,a)；或联合观察和联合动作之间的函数Qi(θ,a)；或个人观察和联合动作之间的函数Qi(θi,a)。注意，往往一种形式中可以得出另一种形式，例如，当逆观测模型

是可用的，我们可以写出

假设每个实体完全遵守当前的状态，然后Q-学习可以扩展到覆盖同时学习实体的情况。此外，我们假设：

(i)每个实体i，一组离散的动作ai∈Ai i；

(ii)一个随机转换模型p(s′|s,a)，其以状态s的联合动作a=(a_i)为条件；

(iii)每个实体i，一个回报函数r_i:S×A→R。在状态s处采取联合动作a时，该函数给实体i回报r_i(s,a)。以前，一个实体i的决策是一个从状态到个别动作的映射πi(s)。在战略性博弈中，如果没有实体激励单方面改变其决策，联合策略π^*=(πi^*)是一个纳什均衡。即，假设所有其它实体坚持它们的均衡决策π-i^*(s)，那么没有实体i会在状态s采取一个动作ai≠πi^*(s)。必要时实体会协商该决策。这种协商通过报价和还价之间一轮轮的交互进行，以接受或放弃为结果。报价和还价是指对联合动作的建议。所述联合动作a的Q(s,a)在所涉及实体的可接受的报价范围内。

在以上假设的情况下，学习可在其中被完成：

分别通过每个实体，忽略系统中其它实体的存在；

通过使实体尝试为彼此建模，在这种情况下，其学习算法被耦合，即通过使每个实体i维持一个Q-函数Qi(s,a)来实现，其中，后者通过联合动作a被定义；通过使实体协同性地将贴现的未来全球性回报最大化；通过使实体学习其它实体的协调策略。

对于合作和协商，其挑战是设计非可操作的机制，在这种机制中，没有实体能从不遵守机制的规则中受益。此处关注点在有以下基元的简单机制：

A_i是实体i的可用动作的集合；

i是保密信息

的集合，它定义了实体类型，且并未对其它实体公开；

g:A→O是一个结果函数，它将一个联合动作a=(ai)映射到一个结果o=g(a)；

是实体i的收益函数，被定义为：

其中ξi:O→R是收益函数，因此当选择结果o时，代理i接受收益ξi(o)。

将收益函数ξi包括在内是有必要的，因为我们需要激励实体参与该机制。参与对一个实体而言并非先验情况。一种机制，其中没有实体由于参与变得更糟糕，即对所有的i,

这称为是个别理性的。

图12表示一个认知SON的集中式结构。认知引擎的一个中心节点配置节点功能。这种功能包括控制和信息功能，如RRM功能。优选地，该功能是专用而抽象的。

图13表示一个有示例自主认知引擎的认知SON的分布式结构，其中网络节点优选地有认知引擎和所分配的功能。

图14表示一个有多个选项的认知SON的混合网络结构，如集中式协调、分布式协调、层次结构，或每层有集中式和分布式协调的结构。

在SON中，一个通信节点（或者仅仅节点）一般假设为观察其环境，思考、决定采取什么动作、开动其决策，并最终适应环境。在一组环境条件及可能的一些反馈的情况下，节点在适当的时候学习最优化的决策，这是令人满意的。一个自治的节点可以是能做决策的任何设备。长期通信节点将是无线节点的示例。在蜂窝网络（手机）中，所述无线节点指基础设施节点，例如eNBs（演进型Node B）、BSs（基站）和移动节点，如UE（用户设备）以及移动终端。

图15表示认知SON的SON功能，如下：

观察：为观察θ监控环境，以获得当前的状态s（它以最简单的形式监测参数，可以/不可以从观察到的参数获得统计数据）；

分析：从观察θ中获得真正的状态s（它以最简单的形式估计性能度量值以及参数之间的相互关系，这些参数用于描述一个真实的状态s；

决策：在决策π的基础上通过开发及利用选择动作a。

图16表示两个独立的自治节点中运行的两个独立进程之间的交互。

在本描述中，为了便于理解，在技术领域中广泛应用的某些首字母缩写词和概念已被应用。由于提供特定名称或标签，本发明并不局限于各元件或设备。它适用于所有的方法和相应的操作设备。这也与可能与缩写词相关的各种系统有关。

虽然本发明已结合特定的实施例进行描述，它能将各种实施例或其特征，以及进一步的修改结合起来，这点可以被理解。该规范意在涉及本发明的任意变化、使用、调整或施行，并不排除以不同顺序处理的启用软件的元件和设备，其中非关键的或非相互排他性的特征或实施例的组合存在。一般情况下，在随后的权利要求范围内，本发明的原理对本发明所属领域的技术人员而言是显而易见的。

本发明的更多实施例

背景技术

未来网络中的无线网络的作用，将以一种最动态的形式实现由异构无线网络和从小范围的无线到蜂窝系统的各种技术组成的多跳网络拓扑。当符合不同的QoS（服务质量）策略的不同功能的用户设备及话务量需求，以及多个控制和管理机构干预并争夺一组通用的无线资源时，最终的状况变得相当复杂。这种向更复杂系统的演化使对能在复杂、不利或不可预知的环境中运行良好的适应性和/或可扩展的系统的需要变得十分迫切。为实现最优的网络操作，理性和自治网络节点的发展是至关重要的。因此我们专注于认知、自治、合作的自固定的节点，它们在网络中通过无线及有线回程连接实现操作和交互。

认知是一个多学科的概念，是关于有广泛功能的一些系统的，如资源传感、解释、推理、预测、决策、学习和合作。一般来说，自我管理包括许多自我方面的能力，如自感知、自配置、自优化和自愈。由于无线或网络环境变化的不同时间范围，认知适应的需要跨越不同的时间范围。例如，无线环境的小范围变化由衰落和阴影造成，适应需要快速反应。中时间范围的变化由一组通信设备或话务量的变化导致。最后，长期变化的发生是由不断变化的话务量负载或由于网络故障导致。

认知，自治和自我管理网络的基础是关于本地物理及网络环境的高水平的本地节点认知，以及一些相应的全局网络状态的概念。由于认知无线电和认知网络的一个显着特点是根据过去的经验值、目前的经营条件以及未来的行为预测进行决策和适应的能力，为了实现这样的一个认知水平，认知节点必须有效地表达和存储环境和运营信息。因此，对底层环境的功能性理解是有必要的，这样每个系统层的操作模型可以被构造并随后合并到一个集成模型上。在该集成模型中，物理和网络环境的参数之间的关系及其相关性被显现出来。每个节点的环境模型只提供了部分知识。因此，为共同获得一个通用的或广泛的环境知识，各节点可以合作，实现分布式的优化。

按后续的结构中所描述，认知引擎（CE）可以启用一个网络节点的认知能力。通过所述认知引擎，一个认知节点可以维持所述本地环境的模型，从而允许基于动作影响的有根据的通信决策。认知节点能够进一步做出合理的决策，以将其性能度量值最大化，例如，一个认知节点选择一个功率设定值，来实现网络资源的最佳使用网络资源的最佳利用。由于CE提供了学习和适应不断变化的环境的能力，所以认知节点可以自主采取动作。

为允许这些认知节点，一个认知引擎应能够：

通过以下项目为环境的动态和状态进行精确建模：

性能度量值和环境动态（物理环境——无线资源）；

模型—认知节点（网络环境—相邻节点）之间的模型推导出的知识/信息交换；

在动作选择方面作出合理选择：

在其物理和网络环境的状态中，一个合理节点的目的是将其动作的预期效用最大化；

从过去的动作、事件、影响及（延迟的）反馈中学习。

适用于动态未来移动网络环境的一种结构因此被建议来应对新兴的认知自主、合作、自固定及自组织的网络的概念。

1.1控制优化概念

一个系统在一个时间可以处于不同的状态。在内部过程（在系统内）或外部过程（外部环境中）的作用下，一个系统的状态在其生命周期，会改变多次。通常情况下，这样的过程导致系统状态转换。一般来说，一些系统状态是正常的，而另一些则不然。在技术系统中，一些系统状态是系统的目标，而另一些则不是。对过程实行控制的目的在于将系统向目标系统状态转换，如，系统优化运行的状态。一个系统通过一个模型进行描述。任何系统模型都包括系统中所有的实体、它们的状态和程序，不排除任何由此派生的理解和评估该系统的信息。

在技术系统中，一种系统状态通常基于所述系统模型的量化参数的多重性进行表达/描述/特征化。这组参数S提供所有必要的参数来区分任何两个系统状态。参数可以被监测、计算、估计和/或从系统观察中获得。在技术系统，如（蜂窝）无线网络中，系统参数包括性能/评价度量值、关键性能指标、数据配置等。更具体地说，一种系统状态可以被定义为系统状态S，S=(KPI₁,...,KPI_N)，其中无线网络的KPI可能包括小区负载、用户数量、无线资源利用率、吞吐量、频谱效率、服务质量等。

对任何系统状态，所述系统可能通过它设定的动作作出反应。我们的目标是采取动作以使系统保持在或朝一个目标状态发展。动作是指一个或多个指令的执行。在一个无线网络中，一个动作与网络节点的配置向对应，用于控制其运行。为此，系统运行实体装备了一组动作A，并根据需要执行动作A，以驱动系统向一个目的/目标状态发展。例如，为实现最佳吞吐量性能进行的无线资源分配，其中，实际分配与实现目标状态的动作和最佳吞吐量性能相对应。更具体地，我们定义

动作A,A=(a₁,...,a_M)，其中a是无线网络中与一个或多个配置参数设置相对应的一个

动作。所述配置参数包括发射功率、天线倾角、天线模式、波束成形、移动性偏移和准入阈值等。

图17表示根据本发明的一个系统。

鉴于上述定义，控制是指确定系统状态中目标状态的动作的过程。更具体地，控制，π(s):S→A将一个状态s∈S映射到动作a∈A；

决策——S中所有状态中定义的控制过程函数π(s)。

通常情况下，控制优化的目标是找到最优的（或一个优化的）决策。

所述问题可以用其它的表达作如下定义：

在给定的一组授权动作A,,中，为系统的每种状态，寻找最佳动作a。

这些通过一个优化器执行。该优化器在控制器顶部运行，对控制器进行配置。如图18所示，三个级别的运行可被定义：(i)优化级别（优化器）；

(ii)调整级别（控制器）；

(iii)执行级别（系统功能，如一种无线网络的任意RRM功能）。

因此，如果完整的控制过程π（s）是对单个或多个目标的优化，就能找到最佳动作。

目标是通过效用函数（目标函数）表达的，效用函数描述一种系统状态与目标最佳状态的接近程度。效用函数是一个函数，将系统状态映射到真数。

1.2协同控制优化

合作的实现需要促使功能实现的通信部署。在此框架下，合作促成因素指那些机制、程序和/或促成网络节点及系统实体之间合作的协议。协作覆盖信息交流、动作协调和决策。而且，需要在不同的维度中开发这些方面，从而使不同的通信层及功能成为主要特点。与决策和控制相关的三个关键方面以合作为基础或能潜在地从合作中受益。所述三个方面是：

通过信息交互进行的合作，合作涉及从节点独立传感（即，节点之间没有信息交互）到完整的上下文/知识介绍和分享；

决策与配置控制的协调，范围涉及重新配置方面的从独立决策到充分协调的决策；

合作传输方面的从物理层/MAC分层机制到层3及以上层的分层机制的利用。

图1对上述合作操作的三个不同的维度及一些为解决能源效率部署的关键技术和措施一起作了说明。这些技术解决方案被描述为以上所述的三维空间中的平面。此处说明的平面仅是一些示范合作范围的示例。一些技术的解决方案的范围也可能是一条线、一个向量或该空间中的一个点。作为一个示例，可以看出，信息交互（协作）轴范围涉及没有信息和完整的信息之间。在没有信息交换的情况下，假设节点依赖于环境的感知/监测。尽管这意味着关于环境的本地（局部的）的知识，节点合作作为纯粹的冲突解决协议中的实例仍然是可能的。在这些协议中，节点感知碰撞，并通过回退（将发送的机会给予其他节点）作出反应。当然，这是一个节点合作进行独立决策的非常简单的情况。同样，在认知无线场景中，二级用户可能会以他们自身的感知数据为基础进行获取空白频段的（独立）决策。

原则上，任何合作和/或自治的解决方案都可以被映射到这个空间，该空间可呈现合作的多种解决方案安排。换句话说，两个节点仅通过交换彼此信息及独立决定即可实现合作。另外两个节点可能通过在二者之间配置的合作计划上作决定来实现合作。最后，合作可以在每一层单独进行或以跨层方式进行。

以下关联尤其被设想为：基于以上的每一个维度，合作决策和控制的促成因素是相互关联的。尤其，关联被设想为可在以下维度进行：

图19表示与本发明相关的合作决策和控制的维度：

信息/上下文交换轴（或协作轴）：感知数据，数据配置，融合/处理的信息，知识呈现等；

决策协调和控制轴（或协调轴）：路由/中继控制，协商协议，协作计划，同步，分布式决策，知识推理，冲突解决等；

层机制轴（或通信层轴）：层3的路由/中继，MAC协议和/或层2中继，层1(物理层)的协同多点传输，网络编码和跨层等。

以上所述与一种优化系统类似，其中信息、控制和配置被指定为第III节中简单描述的促成因素的一部分。

一般，从两个不同的方向对合作进行研究。在第一方向，它获得了一个节点的各个目标和其所属的网络目标之间的平衡。一个网络目标可以被以最简单的方式定义为所有节点目标（如在社会福利中）的总和。一个节点可能会推迟采取动作，为网络目标的最大化的利益，最大限度地实现其个人目标。例如，一个小区可以选择较低的发射功率设定，以牺牲其小区吞吐量性能为代价最大限度地提高了网络的整体吞吐量（例如，通过降低干扰）。另一方面，一个节点可以选择较高的功率设置，以提高其本小区的吞吐量，从而对所有相邻小区造成更多的干扰，导致整体网络的吞吐量的降低。

第二个方向侧重于由一种充分合作（协调决策）和一种较简单的自治（独立决策）方法提供的权衡和利益。例如，广泛的信息交流将增加信令，而没有任何资料的情况下，会导致非最优决策。

1.3优化问题

下面列出了亟待解决的问题，以实现优化控制执行，其与决策优化相关，即动作—状态映射的优化。

与状态参数相关的问题：

描述系统状态的这组参数并不完善，即，这些参数不能区分系统状态；

这组参数有很多，并且所述系统状态描述变复杂；

对参数值仅有部分描述；

所述参数是有偏差的，例如，由于话务量及无线信道是随机的和/或测量精度是有限的。

系统参数是连续的，因此状态空间包括无限种状态。后者通常是利用统计方法或模糊逻辑处理。

与状态-动作对相关的问题：

环境是随机的，即，系统状态之间的转换是不确定的；

与动作相关的问题：

动作列表是不完整的，无法实现既定目标；

指导动作选择的效用函数偏离目标系统状态或以或以极慢的速度收敛。

...

与合作优化控制相关的问题：

节点目标和网络目标之间的均衡；

信令/协调/信息交换的成本，例如，开销和能源。

2SON功能

2.1背景技术

假设一组离散的时间步长t=0,1,2,...,其中每一个特定节点必须从所提供的一个有限动作A（包括空的动作）的集合选择一个动作αt，以优化合适的性能指标。如果我们用

表示在时间τ对该节点的观察，则该函数

π(θ0,α0,θ1,α1,...,θt)=αt (2.1)

被称为节点的决策，并将观察—动作对的完整历史映射到时间t——到最佳动作αt。该决策以最简单的形式忽略了所有观察到的历史，除了产生该形式的最后的观察θt

π(θt)=αt (2.2)

这是从对实体现有的观察到一个动作αt的映射。

在对（物理，真的或人造的）嵌入环境的节点的观察中，它感知并在一个世界中采取动作，该世界由在该环境中感知和采取动作的所有节点组成。其中包含的任意时间步长t的及与性能指标相关的共同信息，被称为世界的状态，并用s_t表示。世界中所有的状态集将用S表示。从一个节点的角度来看，如果对实体的观察

完全揭示世界的实际状况，即

那么世界是（完全）可观察的。另一方面，在一个可以部分观察的世界中，实体的观察

仅提供关于实际状态s_t的部分信息。st和

之间的随机耦合能以

的形式被一个观察模型替代性地定义。状态后验分布可以通过使用贝叶斯规则从先验分布p(st)中计算出来。

p(st|θt)=p(θt|st)p(st)∕p(θt) (2.3)

在许多情况下，在所述观察Θ的情况中，将st感知为

的函数是切实可行的，该函数从S上确定最好的假设。一个完全可观察到的世界意味着其中

因此所述策略读取。

π(st)=αt (2.4)

在许多情况下，出于简化的目的，马尔可夫特性为世界模型作假设，其中在时间t的世界当前状态总结了时间t+1时刻状态的所有相关信息。更具体地，一个实体可以感知不同的状态的集合S，并具有一组可执行的动作集合A。在每个时间步长t，所述实体感知当前状态s_t，选择动作a_t，并与环境和世界状态的变化结果一起执行该动作。换种说法描述动作执行，环境通过产生后续状态s_t+1=δ(s_t,α_t).作出响应。这里的函数δ对应一个转换模式，该模型指定一个状态—动作对(st,a_t)到一个新的状态s_t+1之间的映射。如果环境是确定的，其概率为1；如果环境是随机的，环境概率为p(s_t+1|s_t,α_t)。在后者中，s_t+1是一个随机变量，可以采取S中所有可能的值，每一个值的相应概率为p(s_t+1|s_t,α_t)。

各实体在动作之间进行选择，所述动作实现已确定的任务/运行的目的。一种将目标概念公式化的方法是将其定义为世界的目标状态，如果这些任务被优化执行，其对应于环境的最佳状态。在一般情况下，一个自治实体通过状态空间搜索一个最佳的动作次序，以达到目标状态。显然，并非所有的状态是平等优选的，也并非所有的目标状态是平等地最优的。优选及优化概念的公式化是通过为每种状态s分配一个真数U(s)来实现的。所述U(s)被称为某个特别任务和实体的状态s的效用。状态U(s)的效用越大，状态s越好。这样的一个评估世界每个状态的函数U可以被一个实体用来进行决策。假设一个基于环境效用的随机决策是基于这样的一个前提——状态st下实体的最优动作at^*应最大限度地发挥预期效用，即

α_{t}^{*} = \underset{α_{t} &Element; A}{\arg \max} \underset{s_{t + 1} &Element; S}{Σ} p (s_{t + 1} | s_{t}, α_{t}) U (s_{t + 1}) - - - (2.5)

其中，在实体采取动作at的情况下，我们总结了世界可能转换到的所有状态s_t+1∈S。然后，该实体必须选择得到最高总量的动作at^*。这为实体提供了一种决策，在效用U(s)的情况下，该决策将状态映射到优化的动作。特别是，在一个给定的任务中，一组最优化的（即最高可达的）效用U^*(s)的情况下，贪婪策略

π^{*} = \underset{α^{'}}{\arg \max} \underset{s^{'}}{Σ} p (s^{'} | s, α) U (s^{'}) - - - (2.6)

是该实体的最优决策。

对最优决策可以用一种可替代的和有用的方法来描述。对每一种状态s和每一种可能的动作α，我们可以定义一个优化动作值或Q值Q^*(s,a)，该值可以测量实体在状态s的动作a的‘合适性’。Q值符合U^*(s)=maxa Q^*(s,a),同时优化决策可计算为

π^{*} (s) = \underset{α}{\arg \max} Q^{*} (s, α) - - - (2.7)

该公式比(2.6)更简单一些，公式(2.6)并没有使用转换模型。

在许多实际情况中，π和U并非已知的先验，相反，他们应该在所述实体执行其动作时被学习。假设每次一个动作a，所述实体可能得到一个状态—动作转换的数值指示或接收到一个表示其合适度的回报r_t=r(s_t,a_t)，则执行一系列动作的所述实体可能面临临时信用分配的问题：确定该系列动作中哪个将产生最终的回报。

假设一个回报函数r：S×A→R，即实体在状态s采取动作a时接收到回报r(s,a)，则所述实体在其规划操作时间内将其累积回报函数最大化。一个标准的此类函数就是贴现未来回报r(st,at)+γr(st+1,at+1)+γ²r(st+2,at+2)+…,其中γ∈[0,1)是确保无限的操作时间总和保持有限的贴现率。

显然，不同的决策会产生不同的贴现未来回报，因为每个策略将通过不同的状态序列选取实体。符合某种决策的一个状态s的最佳值被定义为通过在状态s处开始，所述实体接收到的最大贴现未来回报：

U^{*} (s) = \max_{π} E [Σ_{t = 0}^{\infty} γ^{t} r (s_{t}, a_{t}) | s_{0} = s, a_{t} = π (s_{t})] - - - (2.8)

Q^{*} (s, a) = \max_{π} E [Σ_{t = 0}^{\infty} γ^{t} r (s_{t}, a_{t}) | s_{0} = s, a_{0} = a, a_{t > 0} = π (s_{t})] - - - (2.9)

在(2.8)或(2.9)中实现最大值的一个决策π*(s)是一个优化决策：

π^{*} (s) &Element; \underset{a}{\arg \max} Q^{*} (s, a) - - - (2.10)

(2.9)中对Q^*的定义可以通过利用转换模型被递归重写：

Q^{*} (s, a) = R (s, a) + γ \underset{s^{'}}{Σ} p (s^{'} | s, a) \max_{a^{'}} Q^{*} (s^{'}, a^{'}) - - - (2.11)

在许多应用中，所述转换模式是不可用的。Q—学习是一种方法，用于估计不需要转换模型知识的最佳Q^*（及从该最优决策）。在Q—学习中，所述实体与环境重复进行交互，并尽力通过试验—错误估计最佳的Q^*。该实体初始化每个状态-动作对的函数Q(s,a)，然后开始开发环境。开发产生元组(st,at,rt,st+1)，其中st是一个状态，at是状态st采取的一个动作，rt=r(st,at)是接收到的一个回报，st+1是执行at之后得到的状态。所述实体从每一个这样的元组将其Q值预测值更新为：

Q (s_{t}, a_{t}) = (1 - λ) Q (s_{t}, a_{t}) + λ [r + γ \max_{a_{t + 1}} Q (s_{t + 1}, a_{t + 1})] - - - (2.12)

p (a | s) = \frac{e^{\frac{Q (s, a)}{τ}}}{\underset{a^{'}}{Σ} e^{\frac{Q (s, a^{'})}{τ}}} - - - (2.13)

可全面观察的世界环境意味着一个实体知悉其环境中的所有其它实体、它们的决策和动作、以及这些在环境状态中的影响。受部分环境知识的影响，一个实体的动作可能会被其它实体的动作抵消。为避免这样的后果，实体可能会交互以收敛到一个更接近世界真实状态的联合观察。该世界具有完全可观察性。对所述实体而言，部分可观察的真正状态是s：可全面观察的世界环境意味着一个实体知悉其环境中的所有其它实体、它们的决策和动作、以及这些在环境状态中的影响。受部分环境知识的影响，一个实体的动作可能会被其它实体的动作抵消。为避免这样的后果，实体可能会交互以收敛到一个更接近世界真实状态的联合观察。该世界具有完全可观察性。每个实体i接收一个观察θi∈ΘI，提供关于s的信息。所有实体

的个别观察的策略定义了联合的观察θ。在许多问题中，每个观测值都是所述状态的一个确定函数：每个状态下每个实体的观察完全由问题的确立来确定。可以定义一个更为常见的观察模型，其中，状态和观察之间的耦合是随机的。例如，一个观察模型可以定义状态和联合观察之间的一个联合的概率分布通过使用概率理论法则，各种其它数量可以从中计算，如p(θ)或p(θ|s)。

一般情况下，在具有部分可观测性的多实体决策中，每个实体i的策略是一个从个别观察

到个别动作ai=πi(θi)的映射：πi:Θ_i→A_I。个别策略(πi)的策略定义联合策略π。

可用时，我们可以写出Qi(θ,a)=Σs∈Sp(s|θ)Q_i(s,a)。

(i)每个实体i，一组离散的动作ai∈Ai；

(iii)每个实体i，一个回报函数r_i:S×A→R。在状态s处采取联合动作a时，该函数给实体i回报r_i(s,a)。

以前，一个实体i的决策是一个从状态到个别动作的映射πi(s)。在战略性博弈中，如果没有实体激励单方面改变其决策，联合策略π^*=(πi^*)是一个纳什均衡。即，假设所有其它实体坚持它们的均衡决策π-i^*(s)，那么没有实体i会在状态s采取一个动作ai≠πi^*(s)。必要时实体会协商该决策。这种协商通过报价和还价之间一轮轮的交互进行，以接受或放弃为结果。报价和还价是指对联合动作的建议。所述联合动作a的Q(s,a)在所涉及实体的可接受的报价范围内。

在以上假设的情况下，学习可在其中被完成：

分别通过每个实体，忽略系统中其它实体的存在；

通过使实体尝试为彼此建模，在这种情况下，其学习算法被耦合，即通过使每个实体i维持一个Q-函数Qi(s,a)来实现，其中，后者通过联合动作a被定义。

通过使实体协同性地将贴现的未来全球性回报最大化；通过使实体学习其它实体的协调策略。

A_i是实体i的可用动作的集合；

i是保密信息

的集合，该信息定义了实体的类型，且并未对其它实体公开；

是实体i的收益函数，被定义为：

Qi(θi,a)=νi(θi,g(a))+ξi(g(a)) (2.14)

和a，Qi(θi,a)≥0，这称为是个别理性的。

2.2认知SON的优化过程

图21表示认知SON的优化过程。

我们一般将一个通信节点（或者仅仅节点）假设为观察其环境，思考、决定采取什么动作，开动其决策，并最终适应环境。在一组环境条件及可能的一些反馈的情况下，节点在适当的时候学习最优化的决策，这是令人满意的。一个自治的节点可以是能做决策的任何设备。在本文中，长期通信节点将是无线节点的示例。在蜂窝网络（手机）中，所述无线节点指基础设施节点，例如eNBs（演进型Node B）、BSs（基站）和移动节点，如UE（用户设备）以及移动终端。执行图21所述步骤的节点实现认知SON。

在背景下，对所述认知SON的功能的描述如下：

分析：从观察θ中获得真正的状态s（它以最简单的形式估计性能度量值以及参数之间的相互关系，这些参数用于描述一个真实的状态s）；

决策：在决策π的基础上通过开发及利用选择动作a；

学习：学习最优策略π^*，学习一个区别状态的简洁的描述，学习有效的协商和合作；

执行器：执行动作或与其他实体合作，即交换观察意见或进行协调，即同步动作。

系统结构中将描述上述功能实现的迹象。该结构实现了SON优化功能。

图22表示两个独立的自治节点中运行的两个独立进程之间的交互。

3总体结构解决方案

3.1认知SON引擎结构

以上结构通过如下所示功能单元（FU）或简单单元（如图23所示），为优化所述控

制策略而设计：

传感/监控单元处理观察及状态传输建模；

配置/决策功能单元为动作选择与评估处理动作—状态建模；

优化功能单元处理所有模型的优化、功能单元及决策的最优控制；

交互功能单元为决策的协商和通信以及所选动作的执行/完成处理交互建模。

知识库包括描述实现认知SON引擎所需模型的事实和规则。知识库可以是其自身的或以上所述功能单元之间维持和通信的功能单元。

所述结构表示两个独立的CSONE实体中的功能（图24）。

3.2信息/知识库

认知SON引擎CSONE的操作通过存储在知识库中的知识得以支持和实现。更具体地，以上所识别的功能模块的每个节点都维护一个由事实和规则组成的知识库。这样的知识库的实施，可以是上述模块的一部分，或一个更新并提供获取信息方法的独立的功能实体。

事实是通过参数值对表示的,这些参数对为环境及其本身，即事实和知识库的所有者建模。事实用来表示以下方面的信息

监测参数，如

所述无线环境包括负载、干扰等，

KPI，即性能度量值；

发现参数

相邻节点和相邻节点能力、状态等；

配置参数

数据配置，如发射功率设定等。

规则由前提——暗示——结论的形式（如果<前提>那么<结论>）的参数值的含义表示。前提可以是一个规则或一个事实（事实的结合），典型的监测类型。结论可以是一个规则或一个事实（事实的结合），典型的配置类型。根据优选的实施例，规则适用于数值运营商所定义的数值子集的所有的参数值，==,=＜,=＞,＜,＞,!=等。规则可能意味着规则或事实。

在内容方面，事实和规则集代表一个环境模型，其中占有实体的知识交互，实体自身的模型包括其能力、目的、作用、功能和动作。

在形式上，知识K包括事实和规则。

事实反映环境及实体本身的先验知识。它包括系统状态S集合、实体本身的动作A集合及功能F集合。

规则=控制，即如果s∈S，那么a∈A。

效用=系统状态U的评估功能。

事实和规则被存储在一个知识库中，所有功能元件部分或全部可获取。

环境状态s∈S的状态被描述为一个所观察到的参数集fs(p)的状态函数fs∈F：P--＞S，其中

其中p_i是参数函数的一个参数，|P|表示参数集的基数。

通过描述的事实/规则和效用，外部环境和环境遵守规则的模型可以在知识库中描述及存储。由于外部实体所造成的事件，或由于CE本身所采取的动作，环境的观察和转换模式也可从环境状态和状态间的转换方面进行描述。环境模型基于先验的和/或所学的知识，由参数或参数函数表示。

3.3传感/监测功能模块

图25表示根据本发明的一个系统。

传感/监测的两个主要作用是：

感知及监测可观察的参数，收集参数值及性能指标方面的短期及长期数据（信息观察操作）；

更好地描述环境状态，即专门识别环境状态，以准确及简洁的方式对其定义（信息处理操作）。

在以上描述中，专门指区分系统任意两种状态间的参数集。准确指对任何时间的参数值和参数关系的准确表达，简洁指描述状态的所需参数的最小数目。

所述信息观察操作任务指更新状态环境描述p,以反映任意时间中的真实环境。所述信息操作目标指向学习环境的不同状态。这可以通过各种方法来实现，包括：

对参数值对<p,x(p)>的组合进行分类，这些组合是通过如决策树的方式在系统中观察得到。

决策树通过从根节点到叶节点的分类对p的实例进行分类，这提供了实例的分类。决策树中的每个节点指定对p的某个参数的测试，按节点从上至下的每个分支与所述参数的一个可能值相对应。P实例的分类是通过在树的根节点开始、测试该节点指定的参数、然后沿与参数值相对应的树的分支向下移动来实现的。在新节点上发展的子树中，该过程不断重复。通常情况下，决策树表示实例的参数值上连接的分离。从树根到树叶的每条路径与参数测试的连接相对应，而决策树本身与这些连接的分离相对应。决策树的目标是选择对状态分类最有用的参数。基于熵衡量的参数测试可用于描述参数p实例的任意集合的（不）纯度。决策树仅是对状态分类的一个示例。

传感/监测功能包括：

测量值及KPI的集合；

KPI数据处理；

KPI监测控制

监测参数控制；

环境模型的输入。

传感/监测FU直接作用于：

观察模型；

转换模型；

动作—状态模型；

并支持交互和协商模型。

MCi（监测—通信接口）：

测量值监测（设定）通信

监测参数

监测时间间隔；

根据设定（获取的）测量值信息通信。

MDi（监测—决策接口）

系统状态信息通信。

Mi（监测接口）——可选择的——该命令集合可通过通信/执行模块替代地来执行：

依赖设备的

基站的RRM

传感器元件/网关；

测量值监测（集）配置

监测参数

监测时间间隔；

根据设定获取的测量值。

3.4配置/决策功能模块

图26表示根据本发明的一个系统.

配置/决策功能包括：

控制和操作的配置决策（基于环境状态信息），例如

无线资源配置和控制配置

功率

频谱

移动性参数等；

传感/监测FU直接作用于

状态—动作模型

转换模型

交互及协商模型

及交互/支持观察模型

Di（配置接口）；

依赖设备的

基站的RRM

传感器元件/网关；

决策部分(Di)

配置控制参数（设定）

配置信息（获得）；

执行部分(Xi)

设备的配置。

3.5交互功能单元

图27表示根据本发明的一个系统。

交互功能包括：

通信/合作单元

信息交换

监测信息

配置信息包括功率、IC、频谱等，

邻区信息

合作程序和协议包括

配置参数设置的协商

多运营商频谱共享中无线资源的拍卖；

执行单元——数据配置

交互FU直接作用于：

观察模型；

交互及协商模型；

及支持状态—动作及转换模型。

Ci/Xi（合作—通信/执行接口）：

依赖设备的

基站的RRM

传感器元件/网关；

通信/合作部分(Ci)

协商协议

拍卖协议

邻区节点的发现；

执行部分(Xi)

（自身）控制设备的配置（代表传感/监测、决策及优化模块）

远程设备的配置（代表传感/监测、决策及优化模块）

功能的配置（代表传感/监测，决策及优化模块）。

3.6优化功能模块

图28表示优化功能模块。

优化功能模块处理一个分析部分和一个学习部分。

分析/推理单元详细阐述了相关统计数据的识别、状态间的相关性和条件概率、观察、动作及它们的任意组合。

所述学习单元努力从世界模型中的经验值模式中学习和借鉴，这可以协助预测及优化操作。如果由P测量得到的T任务的性能随检验E增长，那么认知SON引擎CSONE在任务T和性能指标/度量值P方面从经验值E中学习借鉴。

例如，学习移动性优化配置的一个无线节点可能会提高其移动性能，该性能由其能力测量，以通过在其邻区配置移动性获得的经验值来配置移动参数。

一个明确定义的学习问题，需要一个明确定义的任务、性能度量值和训练经验值。设计一种学习方式涉及很多设计选择，包括选择训练经验值的类型、要学习的目的（或目标）函数、对所述函数的表达及从训练示例中学习目标函数的算法。

在一般情况下，学习涉及通过一个可能的假设H的空间进行搜索，以找到对可用的训练示例D及其它的事先约束或知识而言最适合的假设。在任何一个时间t的SON功函数，ht将对应一个状态st，D对应当前的观察集合Θ。

上述优化和控制功能中有许多是基于在不同的条件下，通过搜索不同假设空间（例如，数值函数、决策树、神经网络、决策、规则）的学习方法执行的。在不同的条件下，这些搜索方法向一个最优假设收敛。

通过学习新的事实和规则、或修改现有规则来执行优化控制操作以改善性能。

优化功能包括：

为实现一个或多个目标在参数基础上为环境状态分类；

学习及识别某些功能的最重要的参数；

学习及识别环境状态的变化；

学习不同环境状态的优化数据配置；

学习最优合作及协商策略。

优化功能单元直接作用于认知循环中的所有模型：

观察模型，

交互及协商模型，

动作—状态模型，

转换模型。

Oi（控制接口的优化）

不同模块中三种不同的接口规格包括：

监测(Osi)；

决策(Odi)；

通信/执行(Oci)。

3.7优化目标及方法

通常情况下，优化方法目的在于学习：

根据优化实体/功能的目标，将系统的任意状态映射到一个优化的动作集合的决策，不管策略是以集中式还是以分布式进行维护和执行，大多数是功能划分和功能分布。

所述优化的切实执行，要求所述优化实体能够有效学习：

所述系统及差分参数的所有不同状态；

一种准确的环境模型及为未来预测控制模型的规则；

不同系统状态的所有转换；

有序的和/或联合的并行动作的优化过程，以实现控制和操作优化；

随系统状态改变确保有效、稳定的操作及快速收敛的规则集合。

在这里，我们提出一种优化结构，以促进：

状态优化；

动作优化；

状态—动作优化；

网络优化。

后续我们会提到并介绍一些其它可能的示例性优化方法。

状态优化

状态优化的目标是识别所述参数集合，对于给定的目标（或目标集合），该参数集合能明显区分系统的任意两种状态。例如：

决策树学习适用于识别对状态作最佳分类的参数值对；

贝叶斯学习用于识别指示系统状态的参数间的条件和相关性；

学习所述状态的可替代的学习方法是：

归纳学习（从可观察的事实中学习规则）；

神经网络（从已知实例中学习功能）；

基于实例的学习（从实例之间的相似点和不同点学习状态功能）；

等。

状态优化的输出是对系统状态的简洁描述，其中组织模式和操作模式被独特地识别出来。优化策略是一种解决策略，其中每种状态由参数值对的最小数目描述。

状态优化的另一个目标是实施和规则，即所述模型准确表示任意时间下的环境。为反映环境状态，事实更新优化地要求：

状态转换优化

状态优化的目标是识别所述参数集合，对于给定的目标（或目标集合），该参数集合能明显区分系统的任意两种状态；

状态—动作优化

对一种转换模型没有必需要求的状态—动作优化方法包括：

强化学习

遗传算法。

等；

基于优化的强化学习(RL)

学习指无线节点从它们的环境及与其它无线节点的交互中学习的能力，

学习目的在于识别一个优化的动作集合，所述无线节点和整体网络为其发挥最佳作用，

一个动作典型地与配置参数/变量的数值设定相对应；

所述系统性能通过一个目标函数进行评估，该函数与整体的回报、收益或效用相对应；

通过在所有可能的参数值组合中复杂的试验和错误搜索进行学习；

符合上述描述的一种具体形式的学习是强化学习。

Q—学习(QL)

强化学习在过去经验值的基础上能被控制器用来估计与动作相关的预期收益/回报。强化学习的一种特别的实现形式是Q—学习。

Q值，Q（s,a）是一个价值函数，在给定的环境状态s中为一个单独动作的执行价值提供了一种数值估计。所述控制器基于以下样本（a,r）更新其预计值Q(s,a)：

Q(s,a)←Q(s,a)+λ(r-Q(a))

样例（a,r）是由所述基站获得的经验值：执行动作a，得到收益/回报rλ为学习率(0≤λ≤1)，管理新样本对当前估计的取代程度。假设有无限次迭代，该算法收敛到一个Q(a)。

学习任务

图29找到一个决策π(s):S→A，将未来累积回报总量最大化，其中

r_t=r(s_t,a_t)

s_t+1=δ(s_t,a_t)

\max_{π &Element; Π} U^{π} (s_{t}) = Σ_{k = 0}^{\infty} γ^{k} r_{t + k + 1}; 0 < γ < 1

确定性环境

\max_{π &Element; Π} U^{π} (s_{t}) = E [Σ_{k = 0}^{\infty} γ^{k} r_{t + k + 1}]; 0 < γ < 1

非确定性环境

π^{*} &equiv; \underset{π}{\arg \max} U^{π} (s), (&ForAll; s)

with value function denoted as U^*(s)价值函数被表示为优化决策

或

π^{*} (s) &equiv; \underset{a}{\arg \max} Q (s, a)

V^{*} (s) \underset{a^{'}}{\arg \max} Q (s, a^{'})

Q—算法

Q—函数—开始于(s_t,a_t)

Q_{t} (s_{t}, a_{t}) = Σ_{k = 0}^{\infty} γ^{k} r_{t + k + 1}

我们选择一个动作at，继续（截至现在的）最佳决策

Q_{t + 1} (s_{t}, a_{t}) = r_{t + 1} + γ \max_{a^{'}} Q_{t} (s_{t + 1}, a^{'})

为确保收敛，一个学习速率系数η可被添加。

\begin{matrix} Q_{t + 1} (s_{t}, a_{t}) = (1 - η) Q_{t} (s_{t}, a_{t}) + η (r_{t + 1} + γ \max_{a^{'}} Q_{t} (s_{t + 1}, a^{'})) \\ = Q_{t} (s_{t}, a_{t}) + η (r_{t + 1} + γ \max_{a^{'}} Q_{t} (s_{t + 1}, a^{'}) - Q_{t} (s_{t}, a_{t})) \end{matrix}

= Q_{t} (s_{t}, a_{t}) + Δ Q_{t + 1}

开发—利用

P (a_{i} | s_{t}) = \frac{k^{Q (s_{t}, a_{i})}}{Σ_{j} k^{Q (s_{t}, a_{j})}}

选择动作的概率方法：

其中k＞0是一个常数，确定所述选择对高Q值动作支持的强度。

较大的K值会将较高的概率分配给高于平均Q值的动作，使优化器利用所学并寻找其认为能将回报最大化的动作。

较小的K值会将较高的概率分配给低于平均Q值的动作，使优化器开发目前没有高Q值的动作。

k可以随迭代次数变化，从而使优化器支持早期学习阶段中的开发，以逐步转向更多的利用。

强化学习的优化

为什么采用强化学习？

对噪声的鲁棒性；

简单；

执行实现性。

示例：学习

多次迭代后，所述发射功率(p)和天线倾角(a)会根据一个小区的话务量被配置和优化。

在后面的单小区示例中，发射功率被假设为恒定不变的，不同天线倾角的Q值被学习。

图30表示根据本发明的一个学习示例。

基于效用的决策优化

引导动作选择的最重要的方面是其对所述系统的影响。效用被用来引导下面的效用优化中所描述的优化动作的选择。

效用函数评估一种环境状态。它将一个状态映射到一个标量值，表示状态的具体情况。通过对比所述标量值，我们可以对比不同状态的具体情况：

在本质上，n个决策变量的一种解决措施矢量x=(x1,…xn)的效用，可以通过其对各个KPI目标f1(x),…fn(x)的影响表达。其中，fi(x),i=1...n,与一个KPI相对应，如切换成功率或覆盖中断率等。

u(x)=u(x₁,..,x_n)=f[f₁(x),..,f_n(x)]

其中f与目标之间的决策/优先级相对应。

所述效用函数u(x)=u(x₁,..,x_n)=f[f₁(x),..,f_n(x)]可以用多种方式表示：

一个聚合函数

如，加权和，u(x)=w₁f₁(x)+..+w_nf_n(x),其中w₁+..+w_n=1；

目标规划最小Σ|f_k(x)-T_k|，其中T_k是由设计者设定的目标；

一个非聚合函数，基于非帕累托

例如，用户自定义的顺序，其中的目标是由设计人员按照重要性级别排列的；

MIN-MAX对比了与可获得的最小值的相关偏差（用于博弈论中解决冲突情况）；

基于帕累托的函数

如，帕累托最优，帕累托前沿。

强化学习优化中的回报函数应该被表达为KPIs的多样性方面的效用函数。

网络优化

协商优化

典型的协商策略是协商过程中采用的动作顺序，包括报价、还价、接受或拒绝；

协商中的学习原则上是指学习其它协商实体的协商策略、其类型、效用和模型；

对于交互/协商模型中的其它实体决策模型的更新，贝叶斯信念网络（或动态贝叶斯网络或动态决策网络）可作为有效的更新机制被使用。鉴于条件性陈述形式的领域知识及报价形式的信号e，报价接受者可使用标准的贝叶斯更新规则修改报价者需要的结果。

在网络中学习

应用于多小区（多目标）系统中的许多不同的学习级别；

对完整信息共享和同步动作实行控制的N小区；

联合动作学习者，其中无线节点学习联合动作而非个别动作的Q值。这意味着，每个无线节点可以观察或交换其它无线节点的动作；

学习协商效率

学习的好处；

以下内容并非一开始就为人所知：

一个区域的话务量如何表现

什么是负载

什么是典型用户移动性

哪种区域；

学习促进设计时并不为人所知的最佳解决方案；

学习促进运行时动态发现最佳方案；

如果基站移动到一个新的区域或话务量性能发生变化，如建立一个新的住宅区时，允许基站重新配置；

学习是一个长期过程，向最佳解决方案的收敛需要时间。

认知SON功能部署及结构。

将其应用到蜂窝网络，以实现各种优化目标。

所述效用函数评估环境状态u(x)=f[f1(x),..,fn(x)]。

在蜂窝系统中，我们使用关键性能指标(KPI)，反映所述系统的重要方面。

我们可以使用KPI作为效用函数的输入。

f[K1…Kn]与运营商设定的决策相对应。

所述效用函数促成了不同KPI集合（不同状态）的对比。

在决策参数（配置参数）到KPI值之间存在一个映射。

通过学习，所述系统能够理解该映射及如何改变配置参数以较快实现最优系统状态。

下面是无线网络可替代结构中认知SON功能的可能部署。所有配有CSONE的节点通过其交互单元进行通信。非CSONE节点的交互通过其执行单元在其整体中进行。CSONE节点间的交互可通过通信/合作单元进行。

集中式控制的CSONE结构

认知SON的集中式结构（如图31所示）：

一个配置节点功能的认知引擎的核心节点

功能仅指控制和信息，例如RRM功能等；

功能是专用和/或抽象的。

CSONE集中式结构促进由一个中心实体进行的集中式控制，例如以下述方式进行的O&M等，它：

从被控制的CSONE节点收集测量值和数据；

在统计数据、信息、知识、动作和决策的聚合函数的基础上建立观察、转换、状态—动作及交互模型；

基于一个网络效用函数或为控制节点所知的控制节点的效用函数，协调控制节点，决定节点的联合动作。

按照以上设想，一个中心实体所维持的模型包括对世界的所有认识及所述中心实体监测、控制、交互及优化的节点。

图32表示仅包括CSONE实体的以上结构的一种部署。

分布式控制的CSONE结构

认知SON的分布式结构（如图33所示）

自治的CE

网络节点有认知引擎和配置的功能。

CSONE分布式结构促进CSONE节点进行的分布式控制，每个：

从环境中收集测量值和数据；

建立世界的观察、转换、状态—动作及交互模型；

确定基于其效用函数的动作；

在联合动作方面与其它节点交互及协商，该联合动作将形成所有相关节点的一种可接受的和最佳的解决措施。

由各个实体维护的模型表示与所述实体的本地环境，即与实体本身和可接触范围内的邻区有关的世界的部分知识。实现全面认识需要通过观察、状态描述、数据、动作选择、评估和交互进行信息交换。

图34表示仅包括CSONE实体的以上结构的一种部署。

CSONE混合结构。

混合图1（图35）：集中式协调的CSONE混合结构。

混合图2（图36）：分布式协调的CSONE混合结构。

认知SON的混合结构（如以上图所示）。

许多可能的选项：

集中式协调混合图1

分布式协调混合图2

所述层级每一层的层结构或集中式及分布式协调

CSONE分布式结构促进了控制的分层结构，将每一层级和每一顺序的集中式控制或分布式控制结合起来。在所述层级的底层的集中式控制情况下，如混合图1所示，所述结构执行集中式协调控制。如混合图2所示，分布式控制执行分布式协调控制。

由所述协调层级较高层的实体维护的模型不同于由抽象层级较低层的实体维护的模型。较高层的模型与管理控制较接近，由抽象层级较低层所维护的模型与网络或节点功能的功能性操作较接近。图37表示仅包括CSONE实体的以上结构的一种部署。

Claims

1.一种控制电信网络的方法，所述网络包括：

至少一个用于网络配置参数交互的设备；

所述方法，其特征在于，

在给定的运行参数集合的条件下，定义一个（子）系统状态的电信网络的一个或多个关键的性能指标被映射到经过修改的运行参数；其特征在于，

根据动态动作决策确定被修改的运行参数，所述决策在优化模块中被确定，所述模块为指定映射规则的（子）系统状态分类或作区分，该映射规则根据一个递归的过程学习过去的映射规则，为一个或多个状态集合的电信网络进行动作控制。

2.根据权利要求1所述方法，其特征在于，

根据所述决策对（子）系统状态或状态转换进行预测或识别。

3.根据权利要求1所述方法，其特征在于，

所述动态动作决策由递归学习确定。

4.根据权利要求1所述方法，其特征在于，

指定一个或多个状态所需的参数数量由递归学习动态确定。

5.根据权利要求4所述方法，其特征在于，

参数静态在一个经常性的时间基础上被收集；其特征在于，

指定一个或多个状态所需的实际参数被据此确定。

6.根据权利要求4或5所述方法，其特征在于，所述学习为以下任意一种：

归纳学习或从可观察的事实中学习规则；

决策树学习；

贝叶斯学习，基于人工神经网络的学习或从已知观察中对控制功能的学习；

基于实例的学习，或从实例间的相似点和差异之间学习状态功能，或通过回归进行学习；

相关或统计学习，不排除由此形成的任何组合。

7.根据权利要求1-3所述方法，其特征在于，

所述学习是强化学习、Q-学习或通过开发或利用进行的学习，不排除由此形成的任何组合。

8.根据权利要求1所述方法，所述网络至少包括两个设备，其特征在于，

所述动作包括设备之间的交互。

9.根据权利要求1所述方法，其特征在于，

所述交互包括网络运行参数的配置、说明或设置。

10.根据权利要求1所述方法，所述网络至少包括两个设备，其特征在于，

所述交互包括设备间网络参数的协商。

11.根据权利要求10所述方法，其特征在于，

所述协商包括对电信网络实体的一个联合动作方面的动作的通信或协调。

12.根据权利要求8所述方法，所述网络包括至少两种设备：

被安排用于控制的第一设备；

用于被控制的第二设备；其特征在于，

所述动作包括用于控制第二设备运行第一设备之间的交互。

13.根据权利要求1所述方法，其特征在于，

对学习一种协商策略或一个或多个状态集合，所述电信网络为以下任意一种：

一种贝叶斯信念网络；

一种动态贝叶斯网络；

一种动态决策网络。

14.根据权利要求13所述方法，其特征在于，

所学的协商策略被应用于实体之间的协商。

15.根据权利要求1所述方法，包括：

学习一种动态网络拓扑，所述学习通过确定各自的网络实体及其功能的一种发现来实现。

16.根据权利要求1所述方法，其特征在于，

所述动态动作决策在电信网络操作期间被动态地确定。

17.根据权利要求1所述方法，其特征在于，

所述设备经过适配，将其当前状态的预期效用最大化。

18.根据权利要求1所述方法，其特征在于，

所述状态表达所述电信网络的许多关键性能指标。

19.根据权利要求1所述方法，其特征在于，

所述动作决策包括无线资源管理参数配置。

20.根据权利要求1所述方法，其特征在于，

递归过程涉及元件内迭代处理，元件间的迭代处理。

21.电信网络的一种网络设备，所述网络设备包括：

至少一个实体，安排用于网络配置参数方面的交互，该参数的特征在于通过适用于一个或多个关键性能指标的操作处理电路，所述电信网络的关键性能指标定义（子）系统状态，所述操作包括在给定的运行参数集合的条件下，将（子）系统状态映射到修改过的运行参数上；其特征在于，

根据一种动态动作决策确定修改过的运行参数，该动态动作决策在优化模块中被确定，该模块为指定映射规则的（子）系统状态分类或作区分，该映射规则为一个或多个状态集合的电信网络进行动作控制，并学习过去的映射规则。

22.一种电信网络系统包括：

至少一个实体，安排用于网络配置参数方面的交互，该参数的特征在于通过处理适用于一个或多个关键性能指标操作的电路，所述电信网络的关键性能指标定义（子）系统状态，所述操作包括在给定的运行参数集合的条件下，将（子）系统状态映射到修改过的运行参数上；其特征在于，

根据一种动态动作决策确定修改过的运行参数，该动态动作决策在优化模块中被确定，该模块能为指定映射规则的（子）系统状态分类或作区分，该映射规则为一个或多个状态集合的电信网络进行动作控制，并学习过去的映射规则；还包括：

所述实体和优化模块之间的一种通信接口，所述实体被安排用于网络配置参数的协商，所述优化模块适用于修改过的运行参数设置或一种动态修改的动作决策的交换；

一种通信接口，适用于定义一种（子）系统状态的所述电信网络的关键性能指标的交换；

一种通信接口，适用于依赖设备的参数的交换。

23.根据权利要求22所述的电信系统，其特征在于，

所述系统的一个或多个节点配备了权利要求21所述的设备，实行集中式或分布式配置，而其它的节点实行集中配置。

24.根据权利要求22所述的电信系统，其特征在于，

所述系统的一个或多个节点配备了权利要求21所述的设备，实行分布式配置。