CN113783590B

CN113783590B - 一种多用户配对方法、装置及系统

Info

Publication number: CN113783590B
Application number: CN202010524011.5A
Authority: CN
Inventors: 刘国臣; 赵铭明; 寸文璟; 陈志堂; 黄崇德; 赵景
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2023-04-07
Anticipated expiration: 2040-06-10
Also published as: CN113783590A

Abstract

本发明公开了一种多用户配对的方法、装置及系统，该方法包括：获取用户特征信息，所述用户特征信息包括用户信道、信道质量指示以及历史速率；根据所述用户特征信息获取用户之间的相关信息；根据所述用户之间的相关信息获取用户配对的被选择概率分布；根据所述用户配对的被选择概率分布对用户进行采样，根据采样结果对用户进行配对。本申请提供的这种多用户配对的方法无需迭代运算，相对于现有技术计算量较小，可以降低运算复杂度，提高实时性。

Description

一种多用户配对方法、装置及系统

技术领域

本发明涉及通信领域，具体涉及一种多用户配对方法、装置及系统。

背景技术

在无线网络场景下，用户(终端设备)通过空中接口与就近的基站连接，建立起通信管道完成用户的数据通信业务。随着互联网业务的迅猛发展，手机、平板电脑等终端设备的普及，无线业务也变得越来越复杂。在无线环境里，往往存在大量的用户。因此基站设备对有限的频率、计算、存储等资源使用更加紧张。

在多输入多输出(multiple input multiple output，MIMO)或massive MIMO通信系统中，可以将不同用户进行配对，复用相同的资源进行数据传输，从而可以给基站带来频谱效率的提升。选择用户进行配对，关键在于降低用户之间的干扰信号，提升用户的信号与干扰加噪声比(signal to interference plus noise ratio，SINR)。可以采用基于贪婪准则(greedy criterion)的多用户配对方法对用户进行配对。该方法可以根据用户的信道状态，逐个选择配对用户，在降低搜索复杂度的同时，可以最大限度的提升系统的吞吐量。该方法还可以引入比例公平(proportional fair)算法改变最大化目标函数，来解决边缘用户吞吐量较低的问题。

该种基于贪婪准则的多用户配对方法需要遍历所有用户，与已经选取的用户集合进行最大化目标函数的组合计算，直到该目标函数的结果不再增加，最后完成用户配对。比如，存在100个用户，从该100个用户中选择一个用户之后，再遍历剩下的99个用户，选择最大增益的一个用户作为第二配对用户，之后在遍历剩下的98个用户，选择最大增益的一个用户作为第三配对用户……直到没有增益为止。因为该方法需要迭代运算，每选出一个用户都要遍历所有未选用户，计算量较大，计算的时间复杂度较高。

发明内容

本申请实施例第一方面提供了一种多用户配对的方法，该方法包括：获取用户特征信息，该用户特征信息包括用户信道、信道质量指示以及历史速率；根据用户特征信息获取用户之间相关信息；根据用户之间相关信息获取用户配对的被选择概率分布；根据用户配对的被选择概率分布对用户进行采样，根据采样结果对用户进行配对。本申请提供的这种多用户配对的方法可以根据用户特征信息获取到用户之间的相关信息，再根据用户间的高维矩阵表达获取到用户配对的被选择概率分布。根据该用户配对的被选择概率分布对用户进行采样，再根据采样结果对用户进行配对，无需迭代运算，相对于现有技术计算量较小，可以降低运算复杂度与时间复杂度，提高实时性。根据用户配对的被选择概率分布对用户进行采样，从而用户可以根据采样结果各自配对输出。

可选的，结合第一方面，在第一方面的第一种可能的实现方式中，根据用户特征信息获取用户之间的相关信息包括：对用户特征信息进行基于自然语言处理的注意力机制处理，并获取用户之间的相关信息。该用户之间的相关信息可以表示每个用户与总体状态的相关关系。将该用户特征进行基于自然语言处理的注意力机制处理，而不需要进行迭代运算，可以减小运算量。

可选的，结合第一方面，在第一方面的第二种可能的实现方式中，根据用户之间的相关信息获取用户配对的被选择概率分布包括：将用户之间的相关信息进行多层感知机处理，得到用户配对的被选择概率分布。可以根据用户配对的被选择概率分布，将用户进行配对，从而可以复用相同的资源进行数据传输，提升频谱效率。

可选的，结合第一方面，在第一方面的第三种可能的实现方式中，根据用户配对的被选择概率分布对用户进行采样，根据采样结果对用户进行配对包括：通过二分法对用户配对的被选择概率分布进行采样，将采样结果为1的用户进行配对。采用二分法将采样结果为1的用户进行配对。从而可以复用相同的资源进行数据传输，提升频谱效率。

可选的，结合第一方面至第一方面的第三种可能的实现方式中的任意一种可能的实现方式，在第一方面的第四种可能的实现方式中，该方法还包括：根据用户配对的被选择概率分布以及用户数量对代价函数进行强化学习。这样对代价函数进行强化学习，可以使得该代价函数不断适应特定环境。

本申请第二方面提供了一种多用户配对的装置，其特征在于，该装置包括：第一处理模块，用于获取用户特征信息，用户特征信息包括用户信道、信道质量指示以及历史速率；第二处理模块，用于根据用户特征信息获取用户之间的相关信息；第三处理模块，用于根据用户之间的相关信息获取用户配对的被选择概率分布；第四处理模块，用于根据用户配对的被选择概率分布对用户进行采样，根据采样结果对用户进行配对。本申请提供的这种多用户配对的装置可以根据用户特征信息获取到用户之间相关信息，再根据用户之间的相关信息获取到用户配对的被选择概率分布。根据该用户配对的被选择概率分布对用户进行采样，再根据采样结果对用户进行配对，无需迭代运算，相对于现有技术计算量较小，可以降低运算复杂度和时间复杂度，提高实时性。根据用户配对的被选择概率分布对用户进行采样，从而用户可以根据采样结果各自配对输出。

可选的，结合第二方面，在第二方面的第一种可能的实现方式中，第二处理模块，具体用于对用户特征信息进行基于自然语言处理的注意力机制处理，并获取用户之间的相关信息。该用户之间的相关信息可以表示每个用户与总体状态的相关关系。将该用户特征进行基于自然语言处理的注意力机制处理，而不需要进行迭代运算，可以减小运算量。

可选的，结合第二方面，在第二方面的第二种可能的实现方式中，第三处理模块，具体用于将用户之间的相关信息进行多层感知机处理，得到用户配对的被选择概率分布。可以根据用户配对的被选择概率分布，将用户进行配对，从而可以复用相同的资源进行数据传输，提升频谱效率。

可选的，结合第二方面，在第二方面的第三种可能的实现方式中，第四处理模块，具体用于通过二分法对用户配对的被选择概率分布进行采样，将采样结果为1的用户进行配对。采用二分法将采样结果为1的用户进行配对。从而可以复用相同的资源进行数据传输，提升频谱效率。

可选的，结合第二方面至第二方面的第三种可能的实现方式中任意一种可能的实现方式，在第二方面的第四种可能的实现方式中，该装置还包括：第五处理模块，用于根据用户配对的被选择概率分布以及用户数量对代价函数进行强化学习，可以使得该代价函数不断适应特定环境。

本申请第三方面提供了一种神经网络，该神经网络包括基于自然语言处理的注意力机制网络、多层感知机网络，多层感知机网络包括概率分布获取模块和采样模块；基于自然语言处理的注意力机制网络，用于获取用户特征信息，并根据用户特征信息获取用户之间的相关信息，用户特征信息包括用户信道、信道质量指示以及历史速率；概率分布获取模块，用于根据用户之间的相关信息获取用户配对的被选择概率分布；采样模块，用于根据用户配对的被选择概率分布对用户进行采样，根据采样结果对用户进行配对。该神经网络处理过程无需迭代运算，相对于现有技术计算量较小，可以降低时间复杂度，提高实时性。根据用户配对的被选择概率分布对用户进行采样，从而用户可以根据采样结果各自配对输出。

可选的，结合第三方面，在第三方面的第一种可能的实现方式中，基于自然语言处理的注意力机制网络，具体用于对用户特征信息进行基于自然语言处理的注意力机制处理，并获取用户之间的相关信息。将该用户特征进行基于自然语言处理的注意力机制处理，而不需要进行迭代运算，可以减小运算量。

可选的，结合第三方面，在第三方面的第二种可能的实现方式中，概率分布获取模块，具体用于将用户之间的相关信息进行多层感知机处理，得到用户配对的被选择概率分布。可以根据用户配对的被选择概率分布将用户进行配对，从而可以复用相同的资源进行数据传输，提升频谱效率。

可选的，结合第三方面，在第三方面的第三种可能的实现方式中，采样模块，具体用于通过二分法对用户配对的被选择概率分布进行采样，将采样结果为1的用户进行配对。从而可以复用相同的资源进行数据传输，提升频谱效率。

可选的，结合第三方面至第三方面的第三种可能的实现方式，在第三方面的第四种可能的实现方式中，该神经网络还包括：强化学习网络，用于根据用户配对的被选择概率分布以及用户数量对代价函数进行强化学习，这样可以使得该代价函数不断适应特定的环境。

本申请第四方面提供了一种基站，该基站用于执行如本申请第一方面至第一方面任意一种可能的实现方式中的多用户配对的方法。

本申请第五方面提供了一种计算机程序产品，当计算机程序产品在计算机装置上运行时，使得计算机装置执行如本申请第一方面至第一方面任意一种可能的实现方式中的方法。

本申请第六方面提供了一种计算机可读存储介质，包括计算机程序或指令，当该计算机程序或指令在计算机设备上运行时，使得计算机设备执行如本申请第一方面至第一方面任意一种可能的实现方式中的方法。

本申请第七方面提供了一种芯片，包括：处理器，处理器与存储器耦合，存储器用于存储程序或指令，所述处理器用于执行所述存储器中的计算机程序或指令以实现如本申请第一方面至第一方面任意一种可能的实现方式中的方法。

本申请提供了一种多用户配对的方法、装置及系统，该方法包括：获取用户特征信息，用户特征信息包括用户信道、信道质量指示以及历史速率；根据用户特征信息获取用户之间的相关信息；根据用户之间的相关信息获取用户配对的被选择概率分布；根据用户配对的被选择概率分布对用户进行采样，根据采样结果对用户进行配对。本申请提供的这种多用户配对的方法可以根据用户特征信息获取到用户之间的相关信息，再根据用户间的相关信息获取到用户配对的被选择概率分布。根据用户配对的被选择概率分布对用户进行采样，再根据采样结果对用户进行配对，无需迭代运算，相对于现有技术计算量较小，可以降低时间复杂度，提高实时性。

附图说明

图1为现有技术中一种基于贪婪准则的多用户配对方法；

图2为现有技术中一种基于分组法的多用户配对的方法；

图3为本申请提供的一种多用户配对的方法；

图4为本申请提供的一种自然语言处理的过程示意图；

图5为本申请提供的一种基于注意力机制的处理方式示意图；

图6为本申请提供的一种算法部署的实施过程示意图；

图7为本申请提供的一种多用户配对的装置示意图；

图8为本申请提供的一种多用户配对的装置结构示意图；

图9为本申请提供的一种多用户配对的神经网络的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。

在无线网络场景下，用户通过空中接口与就近的基站连接，建立起通信管道完成用户的数据通信业务。随着互联网业务的迅猛发展，手机、平板电脑等终端设备的普及，无线业务也变得越来越复杂。在无线环境里，往往存在大量的用户(终端设备)。因此基站设备对有限的频率、计算、存储等资源使用更加紧张。

在MIMO或massive MIMO通信系统中，可以将不同用户进行配对，复用相同的资源进行数据传输，从而可以给基站带来频谱效率的提升。选择用户进行配对，关键在于降低用户之间的干扰信号，提升用户的SINR。

多用户配对(multi-user pairing)是MIMO或massive MIMO空间复用下的资源管理技术。基站根据待服务用户集合的信道状态，选择出使得最大化频谱效率的最大子集。这是典型的组合优化问题，目前的多用户配对技术考虑计算资源、存储开销等因素。

以破零波束权值为例，下行用户接收信号的数学模型如下：

其中，y_i是用户从基站接收到的信号(即用户接收到基站分配的资源)，H_i是基站对用户的信道相应的表达，w_i是对用户i的破零波束权值，x_i是用户的数据业务，n是噪声。需要说明的是，波束赋形(beam forming,BF)是对发射信号进行加权，形成指向终端或特定方向的窄波束。破零波束权值是指对该发射信号进行加权后得到的加权数值。

关于多用户配对的波束破零权值，在没有配对用户，单个用户时候波束破零权值向量w_i是信道矩阵H_i的转置：

对于多个配对用户，以破零波束权值为例，破零波束权值是H^T的伪逆：

这样使得H_iw_k＝0，i≠k，其中σ²是环境噪声。

SINR计算如下：

H_i是基站对用户的信道相应的表达，w_i是对用户i的破零波束权值，这里分子||H_iw_i||²是用户i的信号功率，分母∑_k≠i||H_iw_k||²是统计用户i所受除了自身以外其他用户的噪声信号功率累计值。

通过香农公式来计算信道容量，如下：

通过上述计算SINR的公式可以表明:当环境噪声不改变的前提下，若想要提高SINR，关键点就在于降低用户之间的干扰信号。

现有技术中，有一种基于贪婪准则的多用户配对方法。该方法可以根据用户的信道状态，逐个选择配对用户，在降低搜索复杂度的同时，可以最大限度的提升系统的吞吐量。该方法还可以引入比例公平算法改变最大化目标函数，来解决边缘用户吞吐量较低的问题。

该方法中，利用历史速率和当前用户配对的频谱效率，组合实现保证公平调度下的最大化目标函数公式如下：如下：

其中，SE是当前用户配对的频谱效率，Thp_average是用户历史平均吞吐量。

请参见图1，该种基于贪婪准则的多用户配对方法包括：101、遍历所有用户，与已经选取的用户集合进行最大化目标函数的组合计算。102、当目标函数的结果不再增加时，完成用户配对。比如，存在100个用户，从该100个用户中选择一个用户之后，再遍历剩下的99个用户，选择最大增益的一个用户作为第二配对用户，之后在遍历剩下的98个用户…直到没有增益为止。当没有增益时，将所有被选择出来的用户进行配对。因为该方法需要迭代运算，每选出一个用户都要遍历所有未选用户，计算量较大，计算的时间复杂度高。

多用户配对的场景是组合优化(combinatorial optimization)问题，因此也存在传统解决方法，比如启发式算法(heuristic algorithm)和元启发式算法(metaheuristicalgorithm)等。元启发式算法包括禁忌搜索(tabu search)算法、模拟退火(simulatedannealing，SA)算法、遗传(genetic algorithm,GA)算法、蚁群(ant colonyoptimization,ACO)算法、粒子群(particle swarm optimization,PSO)算法等，但因为解决的处理方式复杂度太高，难以应用于基站高实时性场景中。

在实施例中，还可以采用一种基于分组法的多用户配对的方法进行用户配对。具体的，请参见图2，该种基于分组法的多用户配对方法包括：201、根据用户的信道状态，计算用户之间的信道相关性，将相关性高于预设值的用户作为一个组。不同组之间用户的相关性低。202、从每个组中按照预定规则挑选出一个用户，将挑选出来的用户进行配对。这种方法仅考虑相关性进行配对，在分组过程中，将相关性高的用户分为一个组，分组相关性的阈值需要靠人为设定。分组的个数也不能确定。该种方法仅考虑相关性，能够探索到的解空间大小较低。

所以，随着终端设备的普及和网络规模的扩大，特别是移动应用的丰富，现有的小区基站设备采用传统的资源分配方法，会带来不充分的资源分配。如何在多用户同时在线场景下做到资源分配最优，是一个非决定性多项式(non-deterministic polynomial,NP)的组合优化问题。

本申请提供了一种多用户配对的方法，请参见图3，该方法包括：

301、获取用户特征信息。

获取用户特征信息。该用户特征信息包括用户信道、信道质量指示(channelquality indicator，CQI)和历史速率。

302、根据用户特征信息获取用户之间的相关信息。

采用基于自然语言处理(natural language processing，NLP)的注意力机(attention mechanism)制处理方式，根据用户特征信息得到用户之间的相关信息。

请参见图4，该NLP处理的过程可以包括：

3021、将用户特征信息进行预处理。

具体的，该预处理步骤可以分为数据清洗、数据切分以及词性标注。

数据清洗：从该用户特征信息中找到感兴趣的内容，把不感兴趣的、视为噪音的内容清洗删除。该数据清洗的方式包括：去重、对齐、删除等。可以通过规则提取内容，正则表达式匹配等。

数据切分：为将用户特征信息中的文本切分成预先设置的最小单位颗粒度的词组。数据切分的方法包括：基于字符串匹配的切分方法、基于统计的切分方法、基于规则的切分方法等。

词性标注：给每个词组打上词类标签，例如形容词、动词、名词等。这样可以让文本在后续处理过程中融入更多有用的语言信息。

3022、将预处理得到的结果进行向量化处理。

将用户特征信息预处理后的结果转换成计算机能够计算的类型。具体的，将得到的词组字符串向量化处理，得到特征向量。示例性的，可以根据词袋模型(bag of word，BOW)和词向量模型进行向量化处理。

3023、通过特征选择获取特征子集。

在得到特征向量之后，需要从特征向量中选择合适的、表达能力强的特征子集。具体的，可以通过特征提取算法从该特征向量中选择出合适的特征子集。

在获取的该特征子集之后，通过神经网络对特征子集做N个神经元的激活函数计算，将输入的特征子集升维到N维。例如，神经网络对特征子集做三个神经元的激活函数计算，就可以将输入的特征子集升维为三维。

将升维后的N维特征进行基于注意力机制的处理。需要说明的是，注意力机制可以使得神经网络具备专注于其输入(或特征)子集的能力：选择特定的输入。在计算能力有限情况下，注意力机制是解决信息超载问题的主要手段的一种资源分配方案，可以将计算资源分配给更重要的任务。

具体的，可以通过如下公式计算用户间基于注意力机制的相关信息：

具体可以参见图5，其中，Q、K、V是将用户的特征子集进行升维处理后的高维特征。首先对该高维特征(Q、K)执行基于注意力机制的相关性矩阵乘法计算,具体的将高维特征Q与K的矩阵转置(K^T)相乘(matmul)。然后将得到的结果做归一化(scale)处理。具体的，

是对分子中两个向量Q和K^T的归一化处理。再将归一化处理的结果做softmax计算，得到softmax结果。将得到的softmax的结果与用户本身的高维特征V做乘法，输出的结果为用户之间的相关信息。

将每个用户的输出结果拼接在一起成为用户之间相关信息的高维矩阵表达。例如，得到用户1的输出结果为M、用户2的输出结果为N。则得到用户1和用户2之间相关信息的高维矩阵表达为[M,N]。

示例性的，假设存在A、B、C三个用户。

1)获取到每个用户的特征信息F包括：[信道，CQI，历史速率]。例如用户A的特征信息为FA＝[用户A的信道，用户A的CQI，用户A的历史速率]。类似的，用户B和用户C的特征信息分别为FB和FC。

2)对每个用户的特征信息F执行基于NLP处理之后，做神经网络处理，得到升维后的高维特征。具体的，每个用户得到高维特征包括：FNQ，FNK，FNV。例如，A用户得到升维后的高维特征包括：FNQA、FNKA、FNVA。同样可以得到B用户升维后的高维特征包括：FNQB、FNKB、FNVB；C用户升维后的高维特征包括：FNQC、FNKC、FNVC。

3)对每个用户的高维特征执行基于注意机制的相关性矩阵乘法计算。示例性的，将用户A执行基于注意机制的相关性矩阵乘法计算得到：

FLA＝[FNQA*FNKA^T，FNQA*FNKB^T，FNQA*FNKC^T]，其中FNKA^T是用户A的高维特征矩阵FNKA的转置，FNKB^T是用户B的高维特征矩阵FNKB的转置，FNKC^T是用户C的高维特征矩阵FNKC的转置。同样可以计算得到FLB、FLC。这里可以采取并行的方式，采用多个注意力网络并行，可以同时计算得到FLB、FLC，这样可以大幅降低计算时间的开销。

5)将FLA除以

做归一化，然后通过softmax处理得到softmax的结果FLNA。

6)得到softmax的结果后与用户本身的高维特征信息做乘法得到用户与其他用户的相关信息。具体的，得到用户A基于用户B和用户C的相关信息：FOA＝FLNA*FNVA+FA。同样可以得到用户B基于用户A和用户C的相关信息FOB，以及用户C基于用户A和用户B的相关信息FOC。

7)将用户A、B、C的输出拼接起来得到用户A、B、C之间相关信息的高维矩阵表达。具体的，高维矩阵表达为[FOA,FOB,FOC]。

需说明的是，该用户之间相关信息的高维矩阵表达与用户数量无关，所以，本申请提供的这种方法的网络权重和复杂度不随用户数量增加而变化。

303、根据用户之间的相关信息获取用户配对的被选择概率分布。

将得到用户间相关信息的高维矩阵表达，进行多层感知器(mutilayerperceptron，MLP)处理，得到用户配对被选择概率分布。

该多层感知处理模型结果计算公式如下：

y＝σ(w*x+b)

其中，x是输入用户之间相关信息的高维矩阵表达，w是神经元权重，b是偏置，σ是激活函数，y是输出用户配对被选择概率分布。该用户配对被选择概率分布包括每个用户被选择的概率。

304、根据用户配对的被选择的概率分布对用户进行采样，根据采样结果对用户进行配对。

根据用户配对的被选择的概率分布对用户进行采样，得到用户的分类输出。具体的，可以采用二分类的方法对用户配对被选择概率分布进行处理，根据用户被选择的概率得到0或者1的结果。然后将所有输出为1的用户进行配对。

305、强化学习代价函数。

在将用户配对之后，还可以对算法模型进行强化学习。例如，通过AC算法(actorcritic)对算法模型进行强化学习。每个基站处于不同的场景，利用强化学习方法针对的场景不同，对场景的变化进行实时信息的采集，并更新网络权重，实现用户的最优配对输出。根据场景输入当前的状态特征，端到端输出用户选择的结果，强化学习代价函数J(θ)如下：

这里B是用户数，L是跟环境交互获得的Reward值。b是不依赖π并估计预期结果的基线函数以减少梯度变化的参数。p_θ(π_i)是该用户被选择的概率。该Reward值可以评价用户配对的神经网络的好坏。神经网络的输出根据环境反馈，得到Reward值，每一次Reward作为神经网络更新的指向，可以不断迭代学习该神经网络，使得神经网络能够不断优化，不断适应环境，使得神经网络输出的用户配对结果能够更加适应环境。

需要指出的是，在一些特殊场景下需要特殊进行处理。受通信系统协议约束，误包后必须在指定传输时间间隔(transmission time interval，TTI)重传。或场景需要(VIP用户、高优先级业务)，因此所推荐集合须包含指定子集并最大化效用。我们针对这样情况，提高特殊用户被选中概率，使其组合得到最佳配对组合。

本申请提供的算法模型部署到现网的实施过程如图6所示。请参见图6，该实施过程如下：

401、采集现网数据。

对当前现网的真实数据进行收集，获取用户的信道数据、用户的CQI。

402、离线训练模型。

在离线平台上利用现网数据对网络进行监督训练。当模型能够收敛到预设值时，完成模型的初始化。示例性的，该预设值可以为90％，当收敛到90％及以上的预测成功率时，稳定性和鲁棒性能够得到保障。

403、更新到现网启用模型。

当模型能够收敛到预设值时，完成模型的初始化。

404、强化学习定期更新模型。

根据不同的场景设置模型在线更新的周期。例如，人群密集场景强化学习更新周期为50TTI，人群稀疏场景强化学习周期可以设置为10TTI。一次对不同的场景更好的适配，已达到频谱效率的提升。

模型更新在基站本地或传至中央服务器进行，可以允许一定时延。优选地，可以在基站的基带板上进行实时进行。

本申请提供的网络模型以离线学习模型为初始模型，避免初始性能过差，可以保证网络性能平滑，利于商业应用。同时，周期性的更新网络模型，可以提高模型对环境的适应性。

本申请提供了一种多用户配对的方法，该方法包括：获取用户特征信息，用户特征信息包括用户信道、信道质量指示以及历史速率；根据用户特征信息获取用户之间的相关信息；根据用户之间的相关信息获取用户配对的被选择概率分布；根据用户配对的被选择概率分布对用户进行采样，根据采样结果对用户进行配对。本申请提供的这种多用户配对的方法可以根据用户特征信息获取到用户之间相关信息，再根据用户间的相关信息获取到用户配对的被选择概率分布。根据该用户配对的被选择概率分布对用户进行采样，再根据采样结果对用户进行配对，无需迭代运算，相对于现有技术计算量较小，可以降低运算复杂度，降低时间复杂度，提高实时性。性能高于贪婪算法。

请参见图7，本申请还提供了一种多用户配对的装置50，该装置50用于执行上述多用户配对的方法。该装置50包括：

第一处理模块501，用于获取用户特征信息，所述用户特征信息包括用户信道、信道质量指示以及历史速率。具体请参照图3以及步骤301进行理解，此处不再赘述。

第二处理模块502，用于根据所述用户特征信息获取用户之间的相关信息。具体的，该第二处理模块502用于对所述用户特征信息进行基于自然语言处理的注意力机制处理，并获取用户之间的相关信息。请参照图3以及步骤302进行理解，此处不再赘述。

第三处理模块503，用于根据所述用户之间相关信息获取用户配对的被选择概率分布。具体的，该第三处理模块503用于将用户之间的相关信息进行多层感知机处理，得到用户配对的被选择概率分布。请参照图3以及步骤303进行理解，此处不再赘述。

第四处理模块504，用于根据所述用户配对的被选择概率分布对用户进行采样，根据采样结果对用户进行配对。具体的，该第四处理模块504用于通过二分法对所述用户配对的被选择概率分布进行采样，将采样结果为1的用户进行配对。请参照图3以及步骤304进行理解，此处不再赘述。

第五处理模块505，用于根据所述用户配对的被选择概率分布以及用户数量对代价函数进行强化学习。请参照图3以及步骤305进行理解，此处不再赘述。

本申请提供了一种多用户配对的装置50，该装置50可以根据用户特征信息获取到用户之间的相关信息，再根据用户间的相关信息获取到用户配对的被选择概率分布。根据该用户配对的被选择概率分布对用户进行采样，再根据采样结果对用户进行配对，无需迭代运算，相对于现有技术计算量较小，可以降低运算复杂度，降低时间复杂度，提高实时性。

图8为本申请提供的一种多用户配对的装置结构示意图。如图8所示，该装置60包括处理器601、存储器602和收发器603，处理器601、存储器602和收发器603可以通过总线604相连。

该装置60是一种硬件结构的装置，可以用于如图7所示的装置50中的各个功能模块的功能。例如，本领域技术人员可以想到图7所示的装置50中的第一处理模块501用于获取用户特征信息可以通过收发器603实现。图7所示的装置50中的第二处理模块502用于根据用户特征信息获取用户之间相关信息的高维矩阵表达，可以通过该处理器601调用存储器602中的代码来实现等。

可选的，上述处理器601可以是一个或多个中央处理器(central processingunit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

该处理器601，用于执行存储器602中的指令，执行上述应用于图3所示多用户配对方法中的处理步骤。

存储器602、处理器601和收发器603可以通过总线604相互连接，但不限于只能通过总线604连接；总线604可以是外设部件互连标准(peripheral componentinterconnect，PCI)总线或扩展工业标准结构(extended industry standardarchitecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序指令指示相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

本申请还提供了一种神经网络，请参见图9，该神经网络70用于实现本申请提供的多用户配对的方法。该系统包括基于自然语言处理的注意力机制网络701、多层感知机网络702、强化学习网络703。该多层感知机网络702包括概率分布获取模块7021、采样模块7022。

该基于自然语言处理的注意力机制网络701，用于获取用户特征信息，用户特征信息包括用户信道、信道质量指示以及历史速率。并根据用户特征信息获取用户之间相关信息。该基于自然语言处理的注意力机制网络701，具体用于对用户特征信息进行基于自然语言处理的注意力机制处理，并获取用户之间的相关信息。请参照图3以及步骤302进行理解，此处不再赘述。

该多层感知机网络702具体可以包括概率分布获取模块7021和采样模块7022，该概率分布获取模块7021用于根据用户之间相关信息获取用户配对的被选择概率分布。更进一步的，该概率分布获取模块7021，具体用于将用户之间的相关信息进行多层感知机处理，得到用户配对的被选择概率分布。请参照图3以及步骤303进行理解，此处不再赘述。

该采样模块7022，用于根据用户配对的被选择概率分布对用户进行采样，根据采样结果对用户进行配对。更进一步的，该采样模块7022，具体用于通过二分法对用户配对的被选择概率分布进行采样，将采样结果为1的用户进行配对。请参照图3以及步骤304进行理解，此处不再赘述。

该强化学习网络703，用于根据用户配对的被选择概率分布以及用户数量对代价函数进行强化学习。请参照图3以及步骤305进行理解，此处不再赘述。

本申请提供了一种多用户配对的神经网络70，该神经网络70可以根据用户特征信息获取到用户之间的相关信息，再根据用户间的相关信息获取到用户配对的被选择概率分布。根据该用户配对的被选择概率分布对用户进行采样，再根据采样结果对用户进行配对，无需迭代运算，相对于现有技术计算量较小，可以降低运算复杂度，降低时间复杂度，提高实时性。

本申请实施例还提供了一种基站，该基站用于执行本申请提供的多用户配对的方法。

本申请实施例还提供了一种计算机存储介质，该存储介质内存储有计算机程序，计算机程序用于执行本申请提供的多用户配对的方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当计算机程序产品在计算机装置上运行时，使得计算机装置执行本申请实施例提供的多用户配对的方法。

本申请实施例还提供了一种芯片，包括：处理器，处理器与存储器耦合，存储器用于存储计算机程序或指令，处理器用于执行存储器中的计算机程序或指令以实现本申请提供的多用户配对的方法。

以上对本申请实施例所提供的一种多用户配对的方法、装置及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种多用户配对的方法，其特征在于，所述方法包括：

获取用户特征信息，所述用户特征信息包括用户信道、信道质量指示以及历史速率；

根据所述用户特征信息获取用户之间的相关信息；

根据所述用户之间的相关信息获取用户配对的被选择概率分布；

根据所述用户配对的被选择概率分布对用户进行采样，根据采样结果对所述用户进行配对。

2.根据权利要求1所述的方法，其特征在于，所述根据所述用户特征信息获取用户之间的相关信息包括：

对所述用户特征信息进行基于自然语言处理的注意力机制处理，并获取用户之间的相关信息。

3.根据权利要求1所述的方法，其特征在于，所述根据所述用户之间的相关信息获取用户配对的被选择概率分布包括：

将所述用户之间的相关信息进行多层感知机处理，得到用户配对的被选择概率分布。

4.根据权利要求1所述的方法，其特征在于，所述根据所述用户配对的被选择概率分布对用户进行采样，根据采样结果对所述用户进行配对包括：

通过二分法对所述用户配对的被选择概率分布进行采样，将采样结果为1的用户进行配对。

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述方法还包括：

根据所述用户配对的被选择概率分布以及用户数量对代价函数进行强化学习。

6.一种多用户配对的装置，其特征在于，所述装置包括：

第一处理模块，用于获取用户特征信息，所述用户特征信息包括用户信道、信道质量指示以及历史速率；

第二处理模块，用于根据所述用户特征信息获取用户之间的相关信息；

第三处理模块，用于根据所述用户之间的相关信息获取用户配对的被选择概率分布；

第四处理模块，用于根据所述用户配对的被选择概率分布对用户进行采样，根据采样结果对所述用户进行配对。

7.根据权利要求6所述的装置，其特征在于，

所述第二处理模块，具体用于对所述用户特征信息进行基于自然语言处理的注意力机制处理，并获取用户之间的相关信息。

8.根据权利要求6所述的装置，其特征在于，

所述第三处理模块，具体用于将所述用户之间的相关信息进行多层感知机处理，得到用户配对的被选择概率分布。

9.根据权利要求6所述的装置，其特征在于，

所述第四处理模块，具体用于通过二分法对所述用户配对的被选择概率分布进行采样，将采样结果为1的用户进行配对。

10.根据权利要求6至9任意一项所述的装置，其特征在于，所述装置还包括：

第五处理模块，用于根据所述用户配对的被选择概率分布以及用户数量对代价函数进行强化学习。

11.一种计算机可读存储介质，包括计算机程序或指令，其特征在于，当所述计算机程序或指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1至5任意一项所述的多用户配对的方法。

12.一种芯片，其特征在于，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储计算机程序或指令，所述处理器用于执行所述存储器中的计算机程序或指令以实现如权利要求1至5任意一项所述的多用户配对的方法。