CN114828193B

CN114828193B - 一种无线网络上下行多业务并发功率分配方法及存储介质

Info

Publication number: CN114828193B
Application number: CN202210437676.1A
Authority: CN
Inventors: 杨少石; 还婧文; 袁田浩; 孟阔; 毕嘉辉; 王潇杨
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2024-04-26
Anticipated expiration: 2042-04-19
Also published as: CN114828193A

Abstract

本发明提供了一种基于定向Q‑Learning的无线网络上下行多业务并发功率分配方法，属于无线网络通信领域。本发明方法考虑多小区无线网络中上下行多业务并发场景，获取场景中相关链路状态参数，考虑不同业务类型需求，基于平均意见分建立体验质量模型，以使系统平均意见分值最大为目标，求取功率分配最优解，各基站和终端按照最优解进行功率调整；采用定向Q‑Learning算法求取功率分配最优解，当加入新用户时，设置三种定向学习方法更新Q‑table。本发明综合考虑了上下行共存及多业务共存进行了功率分配，能为不同业务进行更优的资源分配，减小交叉链路干扰，增加系统平均意见分，能够更加有效地分配基站及用户的发射功率。

Description

一种无线网络上下行多业务并发功率分配方法及存储介质

技术领域

本发明属于涉及无线网络通信技术领域，具体涉及一种无线网络上下行多业务并发功率分配方法及存储介质。

背景技术

下面说明本发明所涉及的背景技术。

1.灵活双工(Flexible Duplex)技术。

灵活双工技术是一种具有重要潜在应用价值的新型双工技术。与传统双工技术在上下行间采用相对固定的传输资源分配方式不同，灵活双工能够根据上下行业务变化情况动态分配上下行资源，有效提高系统资源利用率，更适合未来无线网络中的上下行业务需求随时间、地点而变化的特点。

所谓双工技术，是指终端与网络接入设备间上下行链路协同工作的模式。双工技术是各类无线通信网络中的关键技术之一。在现网2G、3G、4G和5G网络中主要采用两种双工方式，即频分双工(Frequency division duplex,FDD)和时分双工(Time divisionduplex,TDD)，且每个网络只能用一种双工模式。其中，4G和5G网络的高级特性中，部分地引入了灵活双工技术。

灵活双工技术有两个基本分支，分别称为动态FDD和动态TDD。动态FDD系统中，为了适应上下行非对称的业务需求，每个小区可根据业务量需求，将上行频带配置为灵活频带，在多数时间内用于上行传输，部分时间内用于下行传输，或者将下行频带配置为灵活频带，在多数时间内用于下行传输，部分时间内用于上行传输。动态TDD系统中，时域资源在上下行链路间可以动态配置，以满足上下行业务流量不对称的需求。通过调整上下行链路的传输时间配置，可以缓解网络拥塞、提高资源利用率。在单小区的情况下，采用动态TDD技术，即根据上下行链路的容量、时延、可靠性等需求来动态配置传输时间，相比于小区采用固定的上下行链路传输时间配比，可取得更高的资源利用率。动态TDD技术已在TD-LTE(Time Division Long Term Evolution)和5G NR(5th Generation New Radio)移动通信网络发挥重要作用。

在单小区的情况下，采用灵活双工技术，即根据上下行链路的容量、时延、可靠性等需求来动态配置传输时间或传输频带，相比于小区采用固定的上下行链路传输时间配比或固定的上下行链路传输频带分配，可取得更高的资源利用率。但是，在多小区的情况下，如果每个小区都按自己的业务情况动态分配上下行链路的传输时间或传输频带，将造成严重的交叉链路干扰(CLI，Cross Link Interference)，不利于系统的频谱效率提高。

所谓交叉链路干扰，就是上行链路和下行链路在同一频率同一时隙进行信息传输时，导致接收设备(如上行链路的基站或下行链路的终端)受到发送设备(如下行链路的基站或上行链路的终端)的干扰；发送设备叫做施扰站(或施扰终端)，接收设备叫作受扰站(或受扰终端)，如图2所示。交叉链路干扰主要有两种，即基站到基站的干扰(也称下行对上行的干扰)和用户终端到用户终端的干扰(也称上行对下行的干扰)。以5G超密集网络场景和公网/专网混合异构组网场景为例，一方面单个基站服务的用户终端数量及业务类型较多，单基站上下行链路业务量的波动性、突发性较强；另一方面通常公网以下行流量为主，专网以上行流量为主，这恰恰符合灵活双工技术对所使用的通信场景的要求；此外，由于更密集的组网，基于灵活双工技术的基站间更容易产生严重的交叉链路干扰。公网基站发射功率一般较大，专网基站发射功率较小，因此专网上行信号受公网下行信号影响较大。因此综合来看，要使灵活双工技术发挥更大的作用，必须解决基站间及用户终端间的交叉链路干扰问题。

在标准化提案中，3GPP RAN 84次会议的NR协议指出，灵活双工技术可应用于5G场景，因此有必要对灵活双工技术，即动态TDD和动态FDD技术，进行深入讨论和研究。在3GPPRAN 87次会议前，标准化会议中NR灵活双工部分主要讨论的是动态TDD技术的可行性；RAN87次会议后，标准化会议中NR灵活双工部分主要讨论的是动态TDD技术的交叉链路干扰解决方法。

不仅仅限于5G场景中，交叉链路干扰消除问题也可能出现在2G/3G/4G等场景，或多个Wi-Fi无线接入点进行规模化组网的场景，或未来的6G场景，以及上行和下行传输方向间存在干扰的其他无线通信场景中。

2.交叉链路干扰管理技术。

干扰管理技术是个相当庞大的技术领域，总体上，其技术路线包括两大类：其一是通过主动的策略选择(称之为干扰协调)，使造成干扰的无线通信装置与受到干扰的无线通信装置，在特定时间、频点、空间等维度不发生或少发生干扰(称之为干扰规避、干扰抑制)；其二是在干扰无法规避或抑制的情况下，基于被动应对的策略，在物理层对干扰信号进行消除。物理层干扰消除技术的基本思想是：首先对干扰做出估计，然后从接收数据中减去干扰，从而提高接收机解调译码模块的性能。根据干扰消除的次序可以分为串行干扰消除、并行干扰消除、以及二者的混合模式。串行干扰消除的基本思想是：按照一定顺序依次判决检测各发射单元的数据符号，并将检测出的数据符号依次消去，直至检测出所有发射单元的数据符号。并行干扰消除算法的基本思想是：首先同时对所有发射单元的数据符号进行判决检测，然后基于各个判决结果，分别执行串行干扰消除过程，并多次迭代执行上述过程，获得更精确的检测结果。串行干扰消除技术在发射单元数目较多时，会带来较大时延；且每次消除之后都可能要对剩余发射单元的信号进行重新排序，运算复杂度较高。并行干扰消除技术对多个发射单元信号进行并行处理，时延较小；但是需要反复迭代提高性能，处理复杂度过高。

就灵活双工系统而言，传输资源被动态分配给每个小区与流量适配的传输方向，但由于相邻小区间在不同的传输方向上使用重叠的时间和频率资源，从而在相邻小区间产生了交叉链路干扰，导致灵活双工系统的潜在优点难以被充分利用。交叉链路干扰管理的方案(包括消除、抑制、预防等)一般分为：基于站间协调的方案(通过基站间交互信息主动调整传输策略以防止交叉链路干扰发生)、基于接收机处理的方案(在接收机信号处理层面消除残留的交叉链路干扰或降低其影响)以及基于电磁感知和预测的方案(预先感知相邻小区在不同传输方向上是否存在交叉链路干扰及可能的干扰强度)等。在现有的交叉链路干扰消除方案中，基于站间协调的方案受到了业界的广泛关注，常见的基于站间协调的方案有小区分簇、小区间协作资源调度与分配、功率控制等。

现有消除交叉链路干扰的功率控制方案主要分为上行功率控制和下行功率控制两类。上行功率控制主要是基站调节小区内的用户终端发射功率，从而在以下两方面取得优化平衡：一方面降低用户终端对相邻小区下行信号的干扰，即用户终端对用户终端的干扰；一方面提高用户终端发射信号在本小区基站处的接收质量，即本小区上行信号的接收质量。下行功率控制主要是基站控制自身发射功率，从而在以下两方面实现优化平衡：一方面降低该基站发射信号对相邻小区上行信号的干扰，即基站对基站的干扰；一方面提高该基站发射信号在本小区用户终端处的接收质量，即本小区下行信号的接收质量。

3.基于平均意见分(Mean Opinion Score,MOS)的体验质量(QoE)评价技术。

无线网络上下行多业务并发场景下，对于不同的业务类型，需优化的目标函数也不同，这增大了无线资源分配问题的复杂性。基于体验质量(Quality of Experience,QoE)对无线网络的资源管理技术进行效能评估，是一种更重视人从网络中获得的主观体验，更符合网络以人为本提供服务的本质的方法，近来得到业界的广泛关注。平均意见分是一类使用最广泛的QoE指标。通过为不同类型的业务提供通用或专用的测量尺度，MOS使人们针对跨不同特征的业务进行综合业务管理和资源分配成为可能。优化问题主要以吞吐量最大化的形式处理。

4.强化学习与Q-Learning技术。

强化学习讨论的问题是智能体(agent)怎么在环境(environment)里学习到一个策略(policy)，从而最大化它能获得的累计奖励。在强化学习中，智能体通过观测环境的状态，依照某个策略，选择执行动作。而环境接收到智能体的动作后，状态将更新并且给予智能体一个奖励反馈。Q-Learning是一种强化学习方法，它可以使智能体通过与环境不断交互获得一系列即时回报，从而得到累计回报接近最优的解决方案。

Q-Learning将环境视为一个有限状态、离散时间的随机系统。Q-Learning算法首先需要定义一个状态集合(set of states)、一个动作集合(set of actions)和奖励函数(reward)，并初始化估值表格Q-table。这里的奖励函数表示智能体所执行的动作对环境产生影响后环境给予智能体的奖励反馈。首先，由智能体获取其环境的当前状态s，并相应地在特定策略π下执行动作a，表示为π(s)→a；然后，获取即时奖励R(a，s)；最后，更新Q-table值，并使用discount因子γ(0＜γ＜1)来最大化未来奖励，该因子代表未来奖励的重要性。可通过使所述智能体从动作集合中选择下一个动作执行来实现上述过程的不断迭代，从而持续地更新Q-table的值。另外，当有新的智能体加入时，Q-table也将进行重新学习。

交叉链路干扰管理问题不仅出现在5G网络场景中，也可能出现在2G/3G/4G等网络场景，或多个Wi-Fi无线接入点进行规模化组网的场景，或未来的6G网络场景，以及上行和下行传输方向间存在干扰的其他无线通信场景中。如前所述，功率控制是交叉链路干扰管理的重要技术之一。

现有技术的不足之处在于：1)上行功率控制与下行功率控制是独立进行的，分别在各自传输方向上单独进行性能优化。由此导致的结果是，无论是在上行还是下行增加功率，都可能在增强该链路传输质量的同时，恶化其它同时有信号进行传输的链路。这里的被干扰链路可能与被增强的链路处于同一个小区，也可能与被增强的链路处于不同小区。2)现有功率控制方案一般仅考虑空口的信道状态信息，而没有考虑应用层不同业务类型对功率分配的差异化需求。因此现有技术没有解决无线网络上下行多业务并发场景下的上下行功率联合优化控制问题。

发明内容

针对上述现有问题，本发明提出了一种基于定向Q-Learning算法和基于MOS的QoE评价模型来实现无线网络多种类型业务并发场景中上下行功率联合优化的方法及存储介质。需要指出的是，在使用Q-Learning方法求解无线资源功率分配时，由于用户数动态变化且网络中存在复杂的随机干扰，新用户加入后Q-table的更新所带来的计算复杂度很高，本发明提出的方法能有效地降低计算复杂度，从而更有效地分配基站及用户的发射功率，提高网络性能。

本发明提供以下技术方案：

一种无线网络上下行多业务并发功率分配方法，包括：

获取以下参数之一或者其组合：1)各受扰基站与其服务的各用户终端之间的上行链路信道状态信息(CSI，channel state information，可为矩阵、向量或标量)；2)各施扰基站与其服务的各用户终端之间的下行链路CSI(可为矩阵、向量或标量)；3)各施扰用户终端与相邻小区中的各受扰用户终端之间的干扰链路CSI(可为矩阵、向量或标量)；4)各施扰基站与各受扰基站之间的干扰链路CSI(可为矩阵、向量或标量)；5)各上行或下行链路被分配到的传输带宽；6)各传输链路的噪声功率；7)各用户终端业务类型；8)各施扰基站与各受扰基站预期的上下行传输资源配置；9)各用户终端的QoS要求和对应的最小传输速率；10)各基站和用户终端的最大可允许发射功率。

根据获取的信息，以使系统平均MOS值最大为目标，求取功率分配最优解；

指示各施扰基站的下行发射功率与各施扰用户终端的上行发射功率按求得的最优解进行功率调整。

进一步地，本发明方法针对不同业务建立不同的MOS值计算模型，包括分别为语音、数据以及视频业务分别建立MOS值计算模型；计算所述场景中所有用户的平均MOS值，以使场景中所有用户的平均MOS值最大为目标，求取功率分配最优解。

更进一步地，求取功率分配最优解时，设置如下约束：

根据各用户终端的QoS要求，分别对各用户终端对应的上行或下行可接受的最小传输速率给出约束；

根据设备的类型，对各用户终端和各基站的最大可允许发射功率给出约束。

进一步地，求取功率分配最优解时，为不同业务计算公平系数；将公平系数作为MOS值的权重，设置的目标函数为：求取所述场景中所有用户的加权MOS值的平均值最大的功率分配方案。

所述公平系数的计算方式为：对每类业务下的所有用户，计算历史平均MOS值，获取该类业务用户的最大MOS值，然后针对该类业务下的每个用户，将最大MOS值和该用户的历史平均MOS值的比值作为当前功率分配步骤中的公平系数。

所述功率分配最优解利用改进的定向Q-Learning算法求取。其中，当有新加入的多业务用户时，采用如下三种方式之一更新新用户的Q-table：(1)第一种为相同业务类型定向学习方式，是指取相同业务类型用户的Q-table均值作为新用户的Q-table；(2)第二种为最近用户定向学习方式，是指选取距离新用户最近的用户的Q-table作为新用户的Q-table；(3)第三种为随机选择定向学习方式，是指在原始用户中随机选择某个用户的Q-table作为新用户的Q-table。

本发明方法获取各受扰基站的上行链路CSI时，进一步包括：

各小区内的用户终端在其上行链路发送可用于信道估计或信道质量测量的特定参考信号，包括但不限于：LTE系统中的探测参考信号SRS或解调参考信号DMRS；5G NR系统中的SRS，或DMRS，或相位跟踪参考信号PTRS；Wi-Fi系统中的各类短训练序列STF或长训练序列LTF信号。各受扰基站根据上述信道估计或信道质量测量参考信号以及所需的CSI具体形式，选用任一可行的信道估计或信道质量测量算法，确定其上行链路CSI。

本发明方法获取各施扰基站的下行链路CSI时，进一步包括采用以下两种方法之一或者基于它们的特定混合方法：

其一，各施扰基站在下行链路向其服务的各用户终端发送用于信道估计或信道质量测量的参考信号，包括但不限于：LTE系统中的小区专用参考信号C-RS，或用户终端专用参考信号UE-RS，或多播/广播单频网络参考信号MBSFN-RS，或信道状态信息参考信号CSI-RS，或定位参考信号P-RS；5G NR系统中的DMRS，或PTRS，或CSI-RS；Wi-Fi系统中的各类STF或LTF信号。被该施扰基站服务的各用户终端根据上述信道估计或信道质量测量参考信号以及所需的CSI具体形式，选用任一可行的信道估计或信道质量测量算法，确定该用户终端与服务该用户终端的施扰基站之间的下行链路CSI，并将该CSI以特定形式反馈给服务该用户终端的施扰基站。

其二，若上行链路CSI与下行链路CSI满足预设精度的互易性(Reciprocity)，例如上下行采用TDD技术时，各小区内的用户终端在其上行链路发送可用于信道估计或信道质量测量的特定参考信号，包括但不限于：LTE系统中的探测参考信号SRS或解调参考信号DMRS；5G NR系统中的SRS，或DMRS，或相位跟踪参考信号PTRS；Wi-Fi系统中的各类短训练序列STF或长训练序列LTF信号。为这些用户终端提供服务的各施扰基站根据上述信道估计或信道质量测量参考信号以及所需的CSI具体形式，选用任一可行的信道估计或信道质量测量算法，确定其上行链路CSI，根据信道互易性，直接获得下行链路CSI。

本发明方法获取各施扰用户终端与相邻小区中的各受扰用户终端之间的干扰链路CSI时，进一步包括：

基于网络间协调机制，施扰用户终端所在小区的基站与受扰用户终端所在小区的基站交换上行链路和下行链路配置；

施扰用户终端所在小区的基站为该施扰用户终端配置特定测量参考信号，受扰用户终端所在小区的基站为该受扰用户终端配置干扰测量资源用于交叉链路干扰测量；

受扰用户终端测量接收到的交叉链路干扰，并上报对应的测量结果，包括但不限于以下两种方法之一或者基于它们的特定混合方法：基于探测参考信号-参考信号接收功率SRS-RSRP或基于物理层接收信号强度指示RSSI的测量上报方式；其中，基于SRS-RSRP的CLI测量上报需要为干扰源用户终端配置特定测量参考信号，相应的受干扰用户终端需要配置干扰测量资源用于CLI测量；另一种基于物理层RSSI的测量上报方式，根据现有的标准，定义RSSI的作用为用于联合RSRP来计算参考信号接收质量RSRQ；

根据测量结果得到干扰信道。

本发明方法获取各施扰基站与相邻小区中的各受扰基站之间的干扰链路CSI时，包括但不限于以下方法：

基站接收来自相邻受扰基站的干扰测量请求，所述干扰测量请求中携带测量项目指示；

施扰基站发送干扰测量参考信号，受扰基站接收该信号；

受扰基站根据所述干扰测量参考信号中包含的测量参数计算所述测量项目指示对应的测量结果，并向施扰基站发送干扰响应，所述干扰响应中携带所述测量结果。

相应地，本发明实现了一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时可实现上述本发明的无线网络上下行多业务并发功率分配方法。

本发明的优点与积极效果在于：

(1)现有技术中，对于两个相邻小区间的干扰消除考虑的是同上行或同下行的解决方案，并且没有考虑用户业务需求多样性下如何建立统一的CLI消除目标函数。本发明的功率分配方法考虑了用户业务类型需求不同的情况，在多小区无线网络中上下行多业务并发场景下，以MOS作为目标函数的建立基础，给出施扰小区用户和受扰小区用户的语音、数据以及视频业务的系统模型、业务模型以及评价指标，为不同类型的业务提供通用测量尺度，为这些业务进行更优的资源分配。本发明方法在综合了上下行共存且多业务共存进行了功率分配，达到减小CLI，增加系统平均MOS值的效果。

(2)现有技术采用Q-Learning算法求解功率分配时，新用户加入后Q-table进行重新学习。而本发明使用的定向Q-Learning算法的无线网络上下行多业务并发功率分配，在传统Q-Learning的基础上，考虑了用户数动态变化的场景下Q-table的更新方式，对Q-table的更新方式进行了改进，提出了三种定向学习方法，在保证系统合理的MO值和拥塞率时，降低了算法收敛所需的迭代次数，提升了算法收敛性能，能够更加有效地分配基站及用户的发射功率。

附图说明

图1是本发明实例的上下行多业务并发功率分配方法的流程图；

图2是无线网络上下行多业务并发系统模型示意图；

图3是不同业务的评价参数与MOS映射关系示意图；

图4是本发明实例的Q-Learning方法具体实施对象示意图；

图5是本发明实施例对本发明方法实验各用户数下的平均MOS值示意图；

图6是本发明实施例对本发明方法实验各用户数下的系统拥塞率示意图；

图7是本发明实施例对本发明方法实验各用户数下的收敛所需迭代次数的示意图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明提供的基于定向Q-Learning的无线网络上下行多业务并发功率分配方法，应用在多小区无线网络中上下行多业务并发场景中，功率分配考虑了用户业务类型需求不同的情况，以MOS作为目标函数的建立基础，给出第一基站小区用户和第二基站小区用户的语音、数据以及视频业务的系统模型、业务模型以及评价指标；为不同类型的业务提供通用测量尺度。本发明的定向Q-Learning的无线网络上下行多业务并发功率分配方法，还在传统Q-Learning的基础上对Q-table的更新方式进行了改进，考虑了用户数动态变化的场景下Q-table的更新方式，能够更加有效地分配基站及用户的发射功率。

基站是一个通用术语，它可以表示宏基站(MBS，Macro Base Station)、微基站(SBS，Small-cell User Equipment)、Wi-Fi系统的接入点(AP)，等等。为了简单而不失一般性，在实施例中，将基于图1所示的由两个基站构成的双基站系统模型进行阐述。

如图1所示，本发明基于定向Q-Learning的无线网络上下行多业务并发功率分配方法，整体上分为三个步骤：

第一步，获取以下参数之一或者其组合：1)各受扰基站与其服务的各用户终端之间的上行链路CSI，CSI可为矩阵、向量或标量；2)各施扰基站与其服务的各用户终端之间的下行链路CSI；3)各施扰用户终端与相邻小区中的各受扰用户终端之间的干扰链路CSI；4)各施扰基站与各受扰基站之间的干扰链路CSI；5)各上行或下行链路被分配到的传输带宽；6)各传输链路的噪声功率；7)各用户终端业务类型；8)各施扰基站与各受扰基站预期的上下行传输资源配置；9)各用户终端的QoS要求和对应的最小传输速率；10)各基站和用户终端的最大可允许发射功率。然后根据获取的参数信息，以使场景中所有用户的平均MOS值最大为目标，求取功率分配最优解。指示各施扰基站的下行发射功率与各施扰用户终端的上行发射功率按功率分配最优解进行功率调整。

第二步，根据获取的参数信息，以使所述场景中所有用户的平均MOS值最大为目标，求取功率分配最优解。其中，本发明实施例提供了为不同业务建立的不同MOS值计算模型，使用改进的定向Q-Learning算法求取功率分配最优解。

第三步，各施扰基站的下行发射功率与各施扰用户终端的上行发射功率按求得的最优解进行功率调整。

在第一步，本发明实施例获取各受扰基站的上行链路CSI的方式，包括：各小区内的用户终端在其上行链路发送可用于信道估计或信道质量测量的特定参考信号，包括但不限于：LTE系统中的探测参考信号(SRS，Sounding Reference Signal)或解调参考信号(DMRS，Demodulation Reference Signal)；5G NR系统中的SRS，或DMRS，或相位跟踪参考信号(PTRS，Phase-Tracking Reference Signal)；Wi-Fi系统中的各类短训练序列(STF，Short Training Field)或长训练序列(LTF，Long Training Field)信号。各受扰基站根据上述信道估计或信道质量测量参考信号以及所需的CSI具体形式，选用任一可行的信道估计或信道质量测量算法，确定其上行链路CSI。

本发明实施例获取各施扰基站的下行链路CSI的方式，采用以下两种方法之一或者基于它们的特定混合方法实现：

其一，各施扰基站在下行链路向其服务的各用户终端发送用于信道估计或信道质量测量的参考信号，包括但不限于：LTE系统中的小区专用参考信号(C-RS，Cell-specificReference Signal)，或用户终端专用参考信号(UE-RS，UE-specific Reference Signal)，或多播/广播单频网络参考信号(MBSFN-RS，Multicast Broadcast Single FrequencyNetwork Reference Signal)，或信道状态信息参考信号(CSI-RS，Channel StateInformation Reference Signal)，或定位参考信号(P-RS，Positioning ReferenceSignal)；5G NR系统中的DMRS，或PTRS，或CSI-RS；Wi-Fi系统中的各类STF或LTF信号。被该施扰基站服务的各用户终端根据上述信道估计或信道质量测量参考信号以及所需的CSI具体形式，选用任一可行的信道估计或信道质量测量算法，确定该用户终端与服务该用户终端的施扰基站之间的下行链路CSI，并将该CSI以特定形式反馈给服务该用户终端的施扰基站。

其二，若上行链路CSI与下行链路CSI满足预设精度的互易性(Reciprocity)，例如上下行采用TDD技术时，各小区内的用户终端在其上行链路发送可用于信道估计或信道质量测量的特定参考信号，包括但不限于：LTE系统中的探测参考信号(SRS，SoundingReference Signal)或解调参考信号(DMRS，Demodulation Reference Signal)；5G NR系统中的SRS，或DMRS，或相位跟踪参考信号(PTRS，Phase-Tracking Reference Signal)；Wi-Fi系统中的各类短训练序列(STF，Short Training Field)或长训练序列(LTF，LongTraining Field)信号。为这些用户终端提供服务的各施扰基站根据上述信道估计或信道质量测量参考信号以及所需的CSI具体形式，选用任一可行的信道估计或信道质量测量算法，确定其上行链路CSI，根据信道互易性，直接获得下行链路CSI。

本发明实施例中获取各施扰用户终端与相邻小区中的各受扰用户终端之间的干扰链路CSI的方式，包括：

受扰用户终端测量接收到的交叉链路干扰，并上报对应的测量结果，包括但不限于以下两种方法之一或者基于它们的特定混合方法：基于探测参考信号-参考信号接收功率(SRS-RSRP，Reference Signal Received Power)或基于物理层接收信号强度指示(RSSI，Cross Link Interference-Received Signal Strength Indication)的测量上报方式；其中，基于SRS-RSRP的CLI测量上报需要为干扰源用户终端配置特定测量参考信号，相应的受干扰用户终端需要配置干扰测量资源用于CLI测量；另一种基于物理层RSSI的测量上报方式，根据现有的标准，定义RSSI的作用为用于联合RSRP来计算参考信号接收质量(RSRQ，reference signal received quality)；

根据测量结果得到干扰信道。

本发明实施例中获取各施扰基站与相邻小区中的各受扰基站之间的干扰链路CSI方式，包括但不限于以下方法：

施扰基站发送干扰测量参考信号，受扰基站接收该信号；

本发明实施例中各上行或下行链路被分配到的传输时长、各上行或下行链路被分配到的传输带宽、各传输链路的噪声功率、各施扰基站与各受扰基站预期的上下行传输资源配置、各用户终端的QoS要求和对应的最小传输速率、各基站和用户终端的最大可允许发射功率，以上参数之一或者其组合可以通过基站间的接口获取，包括但不限于：5G NR中的Xn接口和/或F1接口；4G LTE中的X2接口等。

如图2所示，实施例场景中存在两个基站，分别是施扰的第一基站和受扰的第二基站。第一基站的发射功率较高，覆盖范围较大，传输方向为下行，信号由第一基站发送给用户终端。第二基站的发射功率和覆盖范围较小，传输方向为上行，由用户终端将信号上传到第二基站。用户终端可以是任何无线接入终端，包括但不限于手机、电脑、智能平板等。设施扰小区的传输方向为DL，信号由第一基站发送给第一基站小区用户。第二基站小区的传输方向为UL，第二基站小区用户将信号上传至第二基站。假设第一基站小区中的用户终端数量和第二基站小区中的用户终端数量分别为K和L。第一基站的天线数量是M；第二基站的天线数量是N；所有用户终端均为单天线。

第k个第一小区用户终端的DL接收信号为：

其中，是从第一基站到第k个第一小区用户终端的信道状态信息(Channel State Information,CSI)，是从第一基站到第i个第一小区用户终端的功率分配矢量，其公式为：

其中，Φ_k是与第k个第一小区用户终端占用同一时频资源块(Resource Block,RB)的第一小区用户终端的集合，因此|Φ_k|＝K。上角标T表示转置。是第一基站的第m个天线分配给符号的功率，设且是第一基站向第k个第一小区用户终端发送的符号，是第l个第二小区用户终端向第二基站发送的符号。是第l个第二小区用户终端到第k个第一小区用户终端之间的CSI。Ψ_k是与第k个第一小区用户终端占用相同RB的第二小区用户终端的集合，因此|Ψ_k|＝L。表示第二基站分配给第l个第二小区用户终端的上行发射功率。代表第k个第一小区用户终端接收到的加性高斯白噪声(Addictive White Gaussian Noise,AWGN)，服从数学期望为0、方差为σ²的正态分布。

另一方面，第二基站以第l个第二小区用户终端为目标用户时的接收信号为：

其中，是第l个第二小区用户终端到第二基站的信道矢量，是从第一基站到第二基站的信道状态矩阵，方便起见，本发明实施例中定义

下面根据接收信号模型对信干噪比(Signal to Interference plus NoiseRatio,SINR)进行推导。第k个第一小区用户终端接收信号的信干噪比可以表示为：

其中，

相似地，可以得到第l个第二小区用户终端发送给第二基站的信干噪比为：

其中，

根据上述推导结果，第k个第一小区用户终端的速率可以表示为：

其中，是第k个第一小区用户终端的带宽。第l个第二小区用户终端的速率表示为：

其中，是第l个第二小区用户终端的带宽。

如图3所示，本发明的目标函数要求针对不同的业务将包括数据速率、误包率(Packet Error Probability,PEP)、峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)等在内的评价参数映射到MOS。本发明的优化分配在基站侧或Wi-Fi系统的接入点进行，从应用层提取效用函数，从物理层提取资源分配优化参数。语音业务、数据业务和视频业务的具体映射关系如下所述。

1.语音业务。本发明中以MOS_u来表示语音业务的MOS值，其具体数值及与传输速率R的对应关系，由标准化模型，即语音业务质量的感知评估(Perceptual Evaluation ofSpeech Quality,PESQ)中给出的PEP(Packet Error Probability,误包率)值确定。

2.数据业务。为了估计数据业务的用户满意度，本发明使用对数形式的MOS与传输速率R的关系。基于系统提供给用户的R和PEP来估计数据业务的MOS值MOS_w，具体计算公式如下：

MOS_w＝a*log₁₀[b*R*(1-PEP)] (12)

式中，a和b由用户感知质量确定。通过改变R和PEP来计算MOS。

3.视频业务。对于视频业务质量进行评估的现有技术很多，其中ITU(国际电信联盟)对多媒体业务质量进行了主观评估。PSNR(峰值信噪比)作为一种视频业务质量的评价指标，被普遍用来客观地衡量视频的编码性能。然而，PSNR不能准确反映人类对视频质量的主观感知。使用客观指标(例如PSNR)测量图像失真，可以使用以下逻辑函数来表征MOS和PSNR之间的关系：

其中，c、d和e是函数的参数，取c＝6.6431，d＝-0.1344和e＝30.4264。MOS_v为视频业务的MOS值。本发明选择log函数来评估视频的质量。为了表征重建视频的PSNR随传输速率的变化，得到关系如下：

PSNR＝k log₁₀R+p (14)

其中k和p是常数。本发明将语音、视频和数据业务评价指标统一化为：

其中，U是语音业务用户的数量，V是视频业务用户的数量，W是数据业务用户的数量。在这种情况下，即使系统性能最大化，也有可能无法满足给定用户的需求，这可能是因为其SINR过低，导致传输资源被分配给其他用户，这与试图为用户提供的公平性相矛盾。为了解决这个问题，本发明根据估计的MOS历史值选择语音业务、视频业务和数据业务的公平系数。假设当前处于分配步骤Z中，系统中某业务有Q个用户，用户的最大MOS值MaxMOS_Z如下：

其中，MOS_qn(q＝1,2,…Q)表示用户q在第n次分配过程中的MOS值。

用户的公平系数的计算式如下：

其中，λ_qz(q＝1,2,…Q)表示用户q在第Z次分配时的公平系数。

因此，具有最大MOS值的用户公平系数为1。由于分母在区间[1，4.5]内变化，所以其他用户的公平系数在[1，4.5]范围内。给在当前优化步骤之前MOS较低的用户提供更多的资源来确保公平性。通过使用相应算法求解以下优化问题，来获得最佳功率分配方案，以使目标函数最大化，即最大化系统平均MOS性能：

R_u≥R_u，min (21)

R_v≥R_v，min (22)

R_w≥R_w，min (23)

其中，λ表示三种业务的公平系数，可根据公式(16)和(17)计算得到。λ_u表示所有语音业务用户的公平系数，λ_w表示所有数据业务用户的公平系数，λ_v表示所有视频业务用户的公平系数。公式(19)表示第一基站的M根天线对于K个第一小区用户终端的发送功率之和小于第一基站的最大发送功率Tr表示求取矩阵的迹；此处w_k为的简写。公式(20)表示第二基站给每个第二小区用户终端分配的发送功率要小于其本身最大的发送功率公式(21)表示语音业务的用户速率R_u需满足四种语音编码器其中一个的速率，即R_u,min的值为6.4kbit/s、15.2k bit/s、24.6kbit/s、64kbit/s。公式(22)表示视频业务的用户速率R_v需满足最小传输速率R_v,min。公式(23)分别表示数据业务的用户速率R_w需满足的最小传输速率R_v,min。

本发明选择Q-Learning算法来解决上述功率分配的优化问题。如图4所示，本发明方法对原始Q-Learning算法进行改进，设计的定向Q-Learning算法具体如下。

定义一组状态S、一组动作A和奖励函数R，奖励函数表示所选动作对环境的影响。每个代理(agent)将从A中选择下一个动作。在本发明的系统模型中，agent对应于第一基站，它的每根天线均给多个第一基站用户终端分配下行功率，并告知第二基站如何为每个第二小区用户终端分配上行功率，这些功率的分配对应A。本发明的目标函数(公式(18))对应奖励函数，反映了系统的QoE；约束条件对应状态。第一基站在可行域中对功率的有限离散空间进行搜索。第一基站获取环境当前状态s，并相应地在特定策略π下采取行动a，也就是π(s)→a，即时奖励为R(a,s)。然后，使用discount因子γ(0＜γ＜1)来最大化未来奖励，该因子代表未来奖励的重要性。在满足约束的情况下，第一基站将寻求一个最优分配，以最大化目标值。

此外，定义系统拥塞率η来表示系统学习性能：

其中，count_new表示新用户加入后成功学习(当Q-table值保持不变时)的次数，count表示新用户加入前原有用户成功学习的次数。

第t次选择的动作其中第t次的状态为其中两者均由约束条件决定。对于第一小区用户终端以下关系成立：

公式(25)表示满足功率约束下的状态，满足条件判断为0；公式(26)表示满足多业务用户速率下的状态，只要有某个用户没达到速率要求R_k,min，就被判断为1。此处R_k为第k个第一小区用户终端的速率，R_k,min根据具体业务对应为不同最小传输速率，如公式(21)～(23)所述。同样，对于第二小区用户终端以下关系成立：

其中，R_l为第l个第二小区用户终端的速率，R_l,min根据具体业务对应为不同最小传输速率，如公式(21)～(23)所述。

第t次的即时奖励表示为：

其中，β是一个小于任何其他策略奖励的常数，取0.01表示采取了违反约束的不成功操作。MOS_k ^DL表示第k个第一小区用户终端的业务的MOS值，MOS_l ^UL表示第l个第二小区用户终端的业务的MOS值。当满足约束时，式中的即时奖励值为语音业务、数据业务和视频业务的平均MOS值。Q-table更新函数表示为：

式中α是学习效率，0＜α＜1。公式(30)中出现的最大化表示在所有可能的action中选择使Q_t+1最大的a_t+1。

本发明旨在对系统中新加入的多业务用户进行功率分配。为使Q-Learning算法满足环境变化，本发明引入定向学习能力，也就是说，对新加入用户的三种业务进行针对性的学习方式设计。每个新加入的多业务用户首先了解其周围环境，然后由第一基站继续选择与最大奖励相关的action，通过运行Q-Learning获得所选行动的奖励，最后根据收到的即时奖励更新Q-table。本发明所提三种学习方式如下所述。

第一种为相同业务类型定向学习，取相同业务类型用户的Q-table均值作为新用户的Q-table。第二种为最近用户定向学习，选取距离新用户最近的用户的Q-table作为新用户的Q-table。第三种为随机选择定向学习，在原始用户中随机选择某个用户的Q-table作为新用户的Q-table。已经存在于网络中的用户使用Q-Learning算法学习Q-table。新用户加入后，利用上述三种方案，获取新用户的Q-table。

本发明实施例进行定向Q-Learning上下行多业务并发功率分配方法的一个实现流程如下。

步骤一：初始化应用场景模型及相关参数，初始化Q-Learning算法的相关参数。

初始化学习效率α、discount因子γ、Q-table；初始化带宽B，第一基站、第二基站位置；第一小区用户终端、第二小区用户终端随机撒点；初始化信道矩阵。为当前所有用户随机分配业务类型。

步骤二：随机选择一个状态作为起点

步骤三：根据π(s_t)，在当前状态s_t的所有可选行动中选择一个作为a_t。

步骤四：计算给定参数下生成的速率、MOS值集合。

步骤五：系统移动到下一状态s_t+1，反馈即时奖励值R(s_t,a_t)。

步骤六：在新状态上选择使Q-table值最大的行动a_t+1。

步骤七：更新Q-table。

步骤八：新用户加入，方法一是取与新用户相同业务类型用户的Q-table取均值赋给新用户；方法二是取与新用户最近用户的Q-table赋给新用户；方法三是从原有用户中随机选择一个Q-table赋给新用户。

步骤九：将新状态更新为当前状态，重复步骤三到步骤七，直到Q-table值保持不变。并判断为成功学习。

在具体求取功率分配最优解时，本发明实施例可根据算力资源的多少选择特定的基站节点求取功率分配最优解，以使得资源得到充分利用。

下面对本发明技术方案进行仿真实验，以证明所能取得的技术效果。

仿真参数如表1所示，在仿真过程中宏、微小区的原有用户数保持不变，原有用户的业务类型和新加入系统的用户的业务类型均随机分配，新加入用户数为1。

表1仿真参数

参数名	参数值
		噪声功率	174dBm
宏小区半径	600m
		微小区半径	100m
MBS天线数	4
		SBS天线数	4
MBS最大功率	10W
		SUE最大功率	3W
用户带宽	4MHz
		学习效率	0.1
discount因子	0.4

本发明实验中，当其他系统参数保持不变，令系统原有用户数分别从4，8，12，16，20，24变化(新加入1个用户后总用户数为5，9，13，17，21，25)，采用Q-Learning算法求解，为系统新加入用户业务类型随机分配时，分别以无定向学习、相同业务类型定向学习、最近用户定向学习以及随机选择定向学习四种算法更新新用户的Q-table。实验结果如图5～7所示。

如图5所示，进行平均MOS变化仿真。从图中看出，随着用户数的增加，四种不同学习方式所实现的系统平均MOS值均在减小，这说明用户数的增加均会造成系统性能的降低。本发明方法设计的三种定向Q-Learning资源分配算法均获得了较高的MOS值。随着用户数的增加，无定向学习能力的Q-Learing算法取得微弱优势，但是复杂度将显著增加，如图7所示，这与其系统性能上所取得的微弱优势几乎抵。而且本发明定义的不同业务公平系数的引入会增加定向学习算法的最终平均MOS值，最终导致用户数增加时各算法在平均MOS值性能上差别不大。

如图6所示，显示了当系统用户数逐渐增加时采用Q-Learning算法的系统拥塞率的变化，如果要求网络以预定义的拥塞率运行，则本发明引入定向学习的方法始终能接受更多的用户数。无定向学习的拥塞率较定向学习更高。这是由于无定向学习算法中当新用户加入时，原有用户的Q-table会清空，继而随着新加入的用户重新分配资源，会加大算法的复杂度，导致拥塞率增加。

如图7所示，为随着用户数的增加几种Q-Learning算法的效率(或计算复杂度)对比，分别展示了新用户加入后不同算法的迭代次数。可以看出，采用本发明方法的三种定向学习算法能够将算法的平均收敛迭代次数减少约2/3。三种定向学习算法的复杂度几乎相同，这是由于定向学习通过有经验的用户将对周围环境的感知准确地转化为新用户的Q-table，并减少实现收敛所需的迭代次数。可以看出，与加入定向学习能力前的无学习能力算法相比，实现收敛所需的迭代次数减少达65％。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种无线网络上下行多业务并发功率分配方法，其特征在于，适用多个移动通信小区构成的无线网络，不同移动通信小区中的用户，其业务传输方向不同，网络采用灵活双工技术，基站和用户终端天线数可任意配置，即可为单天线，也可以为多天线；

该方法包括如下步骤：

(一)获取以下参数之一或者其组合：1)各受扰基站与其服务的各用户终端之间的上行链路信道状态信息CSI；2)各施扰基站与其服务的各用户终端之间的下行链路CSI；3)各施扰用户终端与相邻小区中的各受扰用户终端之间的干扰链路CSI；4)各施扰基站与各受扰基站之间的干扰链路CSI；5)各上行或下行链路被分配到的传输带宽；6)各传输链路的噪声功率；7)各用户终端业务类型；8)各施扰基站与各受扰基站预期的上下行传输资源配置；9)各用户终端的QoS要求和对应的最小传输速率；10)各基站和用户终端的最大可允许发射功率；

(二)为不同业务建立不同MOS值计算模型，根据获取的参数信息，以使场景中所有用户的平均MOS值最大为目标，求取功率分配最优解；

设场景中存在施扰的第一基站和受扰的第二基站，第一基站的传输方向为下行，第二基站的传输方向为上行，第一基站小区中的用户终端数量为K，第二基站小区中的用户终端数量为L；通过求解以下优化问题，来获得最佳功率分配方案：

其中，表示第二基站分配给第l个第二小区用户终端的上行发射功率，l＝1，2...L；是从第一基站到第k个第一小区用户终端的功率分配矢量；MOSu是语音业务的MOS值，MOS_v是视频业务的MOS值，MOS_w是数据业务的MOS值，λ_u表示所有语音业务用户的公平系数，λ_w表示所有数据业务用户的公平系数，λ_v表示所有视频业务用户的公平系数；w_k为的简写；Tr表示求取矩阵的迹；表示第一基站的最大发送功率；表示第l个第二小区用户终端本身最大的发送功率；

(三)指示各施扰基站的下行发射功率与各施扰用户终端的上行发射功率按求得的最优解进行功率调整。

2.根据权利要求1所述的方法，其特征在于，所述的步骤(二)中，根据业务类型建立不同MOS值计算模型，包括：

(1)语音业务的MOS值MOS_u，根据语音业务质量感知评估中给出的误包率PEP计算得到；

(2)数据业务的MOS值MOS_w，根据用户终端的传输速率R和PEP来计算，如下：

MOS_w＝a*log₁₀[b*R*(1-PEP)]

其中，参数a和b由用户感知质量确定；

(3)视频业务的MOS值MOS_v，使用峰值信噪比PSNR来计算，如下：

其中，函数参数c、d和e设置为：c＝6.6431，f＝-0.1344，e＝30.4264。

3.根据权利要求1所述的方法，其特征在于，所述的步骤(二)中，求取功率分配最优解时，进一步设置约束如下：

根据各用户终端的QoS要求，分别对各用户终端对应的上行或下行的最小传输速率给出约束。

4.根据权利要求1或2或3所述的方法，其特征在于，所述的步骤(二)中，求取功率分配最优解时，为不同业务计算公平系数；设置的目标函数为：将公平系数作为MOS值的权重，计算场景中所有用户的加权MOS值的平均值，求取使所述平均值最大的功率分配方案；

所述公平系数的计算方式为：

设场景中某类业务有Q个用户，当前处于第Z次功率分配步骤中；对所述Q个用户中的每个用户，求取在前Z-1次功率分配步骤中的MOS值的和，选取MOS值之和的最大值除以Z-1，作为该类业务用户的最大MOS值MaxMOS_z，然后计算第Z次功率分配时的公平系数如下：

其中，λ_qZ(q＝1，2，...Q)表示用户q在第Z次功率分配步骤中的公平系数；MOS_qn表示用户q在第n次功率分配步骤中的MOS值。

5.根据权利要求1或2或3所述的方法，其特征在于，所述的步骤(二)中，利用改进的定向Q-Learning算法求取功率分配最优解；

当有新加入的多业务用户时，采用如下三种方式之一更新新用户的Q-table：

(1)第一种为相同业务类型定向学习方式，是指取相同业务类型用户的Q-table均值作为新用户的Q-table；

(2)第二种为最近用户定向学习方式，是指选取距离新用户最近的用户的Q-table作为新用户的Q-table；

(3)第三种为随机选择定向学习方式，是指在原始用户中随机选择某个用户的Q-table作为新用户的Q-table。

6.根据权利要求5所述的方法，其特征在于，所述的步骤(二)中，利用改进的定向Q-Learnning算法求取功率分配最优解，包括：

设场景中包括施扰的第一基站和受扰的第二基站；第一基站获取环境当前状态，在可行域中对功率的有限离散空间进行搜索，寻求一个最优分配，以最大化目标值；

(1)代理为第一基站，设第t次选择的动作为a_t，a_t包含第一基站为第一小区下行用户的功率分配以及第二基站为第二小区上行用户的功率分配；获取第t次的状态为s_t，s_t包含第一小区和第二小区的环境状态；设第一小区的环境状态i表示第一小区环境状态的标号；当第一小区所有用户终端的发送功率满足第一基站的最大发送功率约束时，取值为0，否则为1；当第一小区内所有用户速率均满足对应业务的最小速率要求时，取值为0，否则为1；设第二小区的环境状态j表示第二小区环境状态的标号；当第二小区内所有用户终端分配的发送功率均满足小于自身的最大发送功率要求时，取值为0，否则为1；当第二小区内所有用户速率均满足对应业务的最小速率要求时，取值为0，否则为1；

(2)第一基站根据选择的动作计算所有用户的MOS值以及环境状态，得到第t次的即时奖励

其中，常数β取值0.01，表示采取了违反约束的不成功操作；表示第k个第一小区用户的MOS值，表示第l个第二小区用户的MOS值；K为第一小区的用户数量，L为第二小区的用户数量；

(3)在新状态上选择使Q-table值最大的行动；

(4)更新Q-table；

(5)当新用户加入时，设置新用户的Q-table：

(6)将新状态更新为当前状态，重复步骤(1)到(4)，直到Q-table值保持不变。

7.根据权利要求1所述的方法，其特征在于，所述的步骤(一)中，获取各受扰基站的上行链路CSI，采取如下方式：

各小区内的用户终端在其上行链路发送用于信道估计或信道质量测量的参考信号，包括：LTE系统中的探测参考信号SRS或解调参考信号DMRS；5G NR系统中的SRS，或DMRS，或相位跟踪参考信号PTRS；Wi-Fi系统中的各类短训练序列STF或长训练序列LTF信号；各受扰基站根据所述信道估计或信道质量测量的参考信号以及所需的CSI形式，选用任一信道估计或信道质量测量算法，确定其上行链路CSI。

8.根据权利要求1所述的方法，其特征在于，所述的步骤(一)中，获取各施扰基站的下行链路CSI，采用以下两种方法之一或者基于它们混合方法实现：

其一，各施扰基站在下行链路向其服务的各用户终端发送用于信道估计或信道质量测量的参考信号，包括但不限于：LTE系统中的小区专用参考信号C-RS，或用户终端专用参考信号UE-RS，或多播/广播单频网络参考信号MBSFN-RS，或信道状态信息参考信号CSI-RS，或定位参考信号P-RS；5G NR系统中的DMRS，或PTRS，或CSI-RS；Wi-Fi系统中的各类STF或LTF信号；被该施扰基站服务的各用户终端根据所述信道估计或信道质量测量参考信号以及所需的CSI形式，选用任一信道估计或信道质量测量算法，确定该用户终端与服务该用户终端的施扰基站之间的下行链路CSI，并将该CSI反馈给服务该用户终端的施扰基站；

其二，若上行链路CSI与下行链路CSI满足预设精度的互易性，各小区内的用户终端在其上行链路发送可用于信道估计或信道质量测量的参考信号，包括但不限于：LTE系统中的探测参考信号SRS或解调参考信号DMRS；5G NR系统中的SRS，或DMRS，或相位跟踪参考信号PTRS；Wi-Fi系统中的各类短训练序列STF或长训练序列LTF信号；为这些用户终端提供服务的各施扰基站根据所述信道估计或信道质量测量参考信号以及所需的CSI形式，选用任一信道估计或信道质量测量算法，确定其上行链路CSI，根据信道互易性，直接获得下行链路CSI；

9.根据权利要求1所述的方法，其特征在于，所述的步骤(一)中，获取各施扰用户终端与相邻小区中的各受扰用户终端之间的干扰链路CSI，采取如下方式：

受扰用户终端测量接收到的交叉链路干扰，并上报对应的测量结果，包括但不限于以下两种方法之一或者基于它们的混合方法：基于探测参考信号-参考信号接收功率SRS-RSRP或基于物理层接收信号强度指示RSSI的测量上报方式；其中，基于SRS-RSRP的CLI测量上报需要为干扰源用户终端配置特定测量参考信号，相应的受干扰用户终端需要配置干扰测量资源用于CLI测量；另一种基于物理层RSSI的测量上报方式，定义RSSI为用于联合RSRP来计算参考信号接收质量RSRQ；

根据测量结果得到干扰信道。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现上述权利要求1或2或3或7或8或9中任意一项所述的方法。