CN117202304A

CN117202304A - 面向射频前端的多径路由方法及相关设备

Info

Publication number: CN117202304A
Application number: CN202311016714.7A
Authority: CN
Inventors: 冉静; 王忱; 王泽锋
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-12-08

Abstract

本申请提供一种面向射频前端的多径路由方法及相关设备，射频前端划分为多层，每层设有多个器件，各个器件通过传输通道连接，并且至少存在一个连通在两个传输通道之间的传输通道，使得传输通道连接的器件可以同时实现复用，能够提高射频前端的器件利用率，当接收到射频信号时，基于接收的射频信号确定出射频信号序列，按照射频信号序列的排列顺序，通过环境适应性快速优化算法确定射频信号序列中的每个射频信号对应目标器件的排列顺序；根据每个射频信号对应目标器件的排列顺序，确定与每个射频信号对应的路径，并按照与每个射频信号对应路径进行路由，利用环境适应性快速优化算法能够快速确定目标器件的排列顺序，能够提升射频信号路由的效率。

Description

面向射频前端的多径路由方法及相关设备

技术领域

本申请涉及通信技术领域，尤其涉及一种面向射频前端的多径路由方法及相关设备。

背景技术

射频前端是无线通信的重要组成部分，在无线通信过程中能够对射频信号进行处理。传统的射频前端对于射频信号的处理往往采用单通道的形式，并没有考虑到射频前端的各个通道之间器件选择的相互影响，因此仅仅只是一个局部的优化，并非是全局的优化，这种方式无法实现通道之间的互连，只能每个通道独立地通信，从而造成射频前端的器件利用率低的问题。

发明内容

有鉴于此，本申请的目的在于提出一种面向射频前端的多径路由方法及相关设备，用以解决或部分解决上述技术问题。

基于上述目的，本申请的第一方面提供了一种面向射频前端的多径路由方法，射频前端划分为多层，每层设有多个器件，各个器件通过传输通道连接，其中，至少存在一个连通在两个传输通道之间的传输通道，所述方法包括：

响应于确定接收到射频信号，从接收的射频信号中选定初始射频信号，将所述初始射频信号作为蒙特卡洛树的初始根节点；

基于所述初始根节点递归选择当前子节点，并判断所述当前子节点是否为终止节点；

响应于确定所述当前子节点是所述终止节点，则按照从所述初始根节点到所述当前子节点的排列顺序，确定对应的累积奖励和访问次数，基于所述累积奖励和访问次数从所述当前子节点向所述初始根节点进行反向更新，直至达到预设的迭代次数，得到目标累积奖励和目标访问次数，基于所述目标累积奖励和所述目标访问次数确定所述射频信号序列；或者，

响应于确定所述当前子节点不是所述终止节点，并且所述当前子节点存在扩展节点，则基于所述当前子节点选定与所述当前子节点对应的目标扩展节点，直至所述目标扩展节点为所述终止节点，按照从所述初始根节点到所述当前子节点的排列顺序，确定对应的累积奖励和访问次数，基于所述累积奖励和访问次数从所述目标扩展节点向所述初始根节点进行反向更新，直至达到预设的迭代次数，得到目标累积奖励和目标访问次数，基于所述目标累积奖励和所述目标访问次数确定所述射频信号序列；或者，

响应于确定所述当前子节点不是所述终止节点，并且所述当前子节点不存在扩展节点，则创建与所述当前子节点对应的扩展节点，并获取从所述初始根节点到所述扩展节点的各个节点的节点状态；

基于从所述初始根节点到所述扩展节点的各个节点的节点状态，通过策略神经网络算法得到当前先验概率和当前价值；

基于所述当前先验概率和所述当前价值从所述扩展节点向所述初始根节点进行反向更新，直至达到预设的迭代次数，确定从所述初始根节点到所述扩展节点的目标控制动作，根据所述目标控制动作得到所述射频信号序列；

按照所述射频信号序列的排列顺序，通过环境适应性快速优化算法从各个层的多个器件中确定与所述射频信号序列中的每个射频信号对应的目标器件的排列顺序；

根据所述每个射频信号对应目标器件的排列顺序，确定与所述每个射频信号对应的路径，并按照与所述每个射频信号对应的路径进行路由。

可选地，所述基于所述当前子节点选定与所述当前子节点对应的目标扩展节点，包括：

获取与所述当前子节点对应的各个扩展节点的上信置信空间，以及各个扩展节点的平均奖励值；

将所述各个扩展节点的上信置信空间和所述各个扩展节点的平均奖励值进行求和处理，得到与所述各个扩展节点对应的求和结果；

基于与所述各个扩展节点对应的求和结果，通过求自变量最大值函数确定确定目标求和结果，并根据所述目标求和结果确定所述目标扩展节点。

可选地，所述获取与所述当前子节点对应的各个扩展节点的上信置信空间，包括：

获取初始扩展节点的先验概率、所述初始扩展节点的访问次数、其他扩展节点的访问次数和预设探索系数，其中，所述初始扩展节点为与所述当前子节点对应的各个扩展节点中的任一扩展节点，所述其他扩展节点为与所述当前子节点对应除所述初始扩展节点以外的扩展节点；

对各个其他扩展节点的访问次数进行求和处理，得到访问次数求和处理结果；

将所述访问次数求和结果进行开平方处理，得到开平方处理结果；

将所述初始扩展节点的访问次数与预设的参数值进行求和处理，得到求和处理结果；

利用所述开平方处理结果与所述求和处理结果进行比值处理，得到比值处理结果；

将所述预设探索系数、所述比值处理结果和所述初始扩展节点的先验概率进行乘积处理，得到所述上信置信空间。

可选地，所述获取各个扩展节点的平均奖励值，包括：

获取各个扩展节点的先验概率和所述各个扩展节点的访问次数；

将所述各个扩展节点的先验概率和所述各个扩展节点的先验概率进行比值处理，得到各个扩展节点的平均奖励值。

可选地，所述获取从所述初始根节点到所述扩展节点的各个节点的节点状态，包括：

确定从所述根据点到所述扩展节点的各个节点对应的父节点；

获取各个节点对应的父节点的节点状态，以及从对应的父节点到各个节点的控制动作；

基于所述各个节点对应的父节点的节点状态和从对应的父节点到各个节点的控制动作进行状态转移处理，得到从所述初始根节点到所述扩展节点的各个节点的节点状态。

可选地，所述基于从所述初始根节点到所述扩展节点的各个节点的节点状态，通过策略神经网络算法得到当前先验概率和当前价值，包括：

将从所述初始根节点到所述扩展节点的各个节点的节点状态进行映射处理，得到多通道二维图像；

将所述多通道二维图像输入预先经过训练的策略神经网络模型，输出所述当前先验概率和所述当前价值。

可选地，所述判断所述当前子节点是否为终止节点，包括：

获取当前子节点所在层对应的节点状态中的剩余待路由射频信号的数量；

响应于确定所述数量等于预设阈值，则所述当前子节点是终止节点；

响应于确定所述数量不等于所述预设阈值，则所述当前子节点不是终止节点。

本申请的第二方面提供了一种面向射频前端的多径路由装置，射频前端划分为多层，每层设有多个器件，各个器件通过传输通道连接，其中，至少存在一个连通在两个传输通道之间的传输通道，所述装置包括：

射频信号序列确定模块，被配置为响应于确定接收到射频信号，从接收的射频信号中选定初始射频信号，将所述初始射频信号作为蒙特卡洛树的初始根节点；基于所述初始根节点递归选择当前子节点，并判断所述当前子节点是否为终止节点；响应于确定所述当前子节点是所述终止节点，则按照从所述初始根节点到所述当前子节点的排列顺序，确定对应的累积奖励和访问次数，基于所述累积奖励和访问次数从所述当前子节点向所述初始根节点进行反向更新，直至达到预设的迭代次数，得到目标累积奖励和目标访问次数，基于所述目标累积奖励和所述目标访问次数确定所述射频信号序列；或者，响应于确定所述当前子节点不是所述终止节点，并且所述当前子节点存在扩展节点，则基于所述当前子节点选定与所述当前子节点对应的目标扩展节点，直至所述目标扩展节点为所述终止节点，按照从所述初始根节点到所述当前子节点的排列顺序，确定对应的累积奖励和访问次数，基于所述累积奖励和访问次数从所述目标扩展节点向所述初始根节点进行反向更新，直至达到预设的迭代次数，得到目标累积奖励和目标访问次数，基于所述目标累积奖励和所述目标访问次数确定所述射频信号序列；或者，响应于确定所述当前子节点不是所述终止节点，并且所述当前子节点不存在扩展节点，则创建与所述当前子节点对应的扩展节点，并获取从所述初始根节点到所述扩展节点的各个节点的节点状态；基于从所述初始根节点到所述扩展节点的各个节点的节点状态，通过策略神经网络算法得到当前先验概率和当前价值；基于所述当前先验概率和所述当前价值从所述扩展节点向所述初始根节点进行反向更新，直至达到预设的迭代次数，确定从所述初始根节点到所述扩展节点的目标控制动作，根据所述目标控制动作得到所述射频信号序列；

目标器件排列顺序确定模块，被配置为按照所述射频信号序列的排列顺序，通过环境适应性快速优化算法从各个层的多个器件中确定与所述射频信号序列中的每个射频信号对应的目标器件的排列顺序；

路由路径确定模块，被配置为根据所述每个射频信号对应目标器件的排列顺序，确定与所述每个射频信号对应的路径，并按照与所述每个射频信号对应的路径进行路由。

本申请的第三方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

本申请的第四方面提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行第一方面所述方法。

从上面所述可以看出，本申请提供的面向射频前端的多径路由方法及相关设备，射频前端划分为多层，每层设有多个器件，各个器件通过传输通道连接，并且至少存在一个连通在两个传输通道之间的传输通道，通过在两个传输通道之间设置互连的传输通道的方式，在保正既能够实现传输通道独立地通信，又能够实现传输通道之间的互连，从而使得传输通道连接的器件可以同时实现复用，进而能够提高射频前端的器件利用率，当接收到射频信号时，基于接收的射频信号确定出射频信号序列，可以将射频信号序列作为射频信号在处理时的处理顺序依据，按照射频信号序列的顺序处理射频信号，保障在不同时刻处理射频信号的连续性，从而可以提高射频信号处理的数量，通过环境适应性快速优化算法确定射频信号序列中的每个射频信号对应的目标器件的排列顺序，根据每个射频信号对应目标器件的排列顺序，确定与每个射频信号对应的路径，并按照与每个射频信号对应的路径进行路由，利用环境适应性快速优化算法能够快速确定出每个射频信号对应的目标器件的排列顺序，进而能够提升射频信号进行路由的效率。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的面向射频前端的多径路由方法的流程图；

图2为本申请实施例的面向射频前端的多径路由装置的结构框图；

图3为本申请实施例的电子设备的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

可以理解的是，在使用本公开中各个实施例的技术方案之前，均会通过恰当的方式对所涉及的个人信息的类型、使用范围、使用场景等告知用户，并获得用户的授权。

例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确的提示用户，其请求执行的操作将需要获取和使用到用户的个人信息。从而，使得用户可以根据提示信息来自主的选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。

作为一种可选的但非限定的实现方式，响应于接受到用户的主动请求，向用户发送提示信息的方式例如可以是弹窗的方式，弹窗中可以以文字的方式呈现提示信息。此外，弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。

可以理解的是，上述通知和获取用户授权过程仅是示意性的，不对本公开的实现方式构成限定，其他满足相关法律法规的方式也可应用于本公开的实现方式中。

相关技术中的射频前端的架构主要采用一频一通道的形式，其硬件资源消耗多，重复利用率低，并且成本和体积较大，不适合应用于大规模的射频前端的需求场景。

此外，现有的对于大规模射频前端的路由算法是针对单传输通道的最佳配置，没有考虑到传输通道之间器件选择的相互影响，仅仅只能实现局部的优化，不是全局优化，由于实现针对单传输通道的最佳配置的路由算法不能实现传输通道之间的互连，只能适用每个传输通道独立地通信，会导致元器件利用率不高，从而器件使用效率低、性能不高。

本申请的实施例提供一种面向射频前端的多径路由方法，射频前端(RadioFrequency Front-End，RFFE)是终端设备的核心组件，起到收发射频信号的作用，划分为多层，每层设有多个器件，各个器件通过传输通道连接，并且至少存在一个连通在两个传输通道之间的传输通道。在保正既能够实现传输通道独立地通信，又能够实现传输通道之间的互连，从而使得传输通道连接的器件可以同时实现复用，进而能够提高射频前端的器件利用率，当接收到射频信号时，基于接收的射频信号确定出射频信号序列，可以将射频信号序列作为射频信号在处理时的处理顺序依据，按照射频信号序列的顺序处理射频信号，保障在不同时刻处理射频信号的连续性，从而可以提高射频信号处理的数量，通过环境适应性快速优化算法确定射频信号序列中的每个射频信号对应的目标器件的排列顺序，根据每个射频信号对应目标器件的排列顺序，确定与每个射频信号对应的路径，并按照与每个射频信号对应的路径进行路由，利用环境适应性快速优化算法能够快速确定出每个射频信号对应的目标器件的排列顺序，进而能够提升射频信号进行路由的效率。

其中，器件包括下列至少之一：

功率放大器、滤波器、低噪声放大器、调谐器、多工器。

如图1所示，本实施例的方法包括：

步骤101，响应于确定接收到射频信号，从接收的射频信号中选定初始射频信号，将所述初始射频信号作为蒙特卡洛树的初始根节点。

在该步骤中，当接收到射频信号时，从接收的多个射频信号中随机选定初始射频信号，作为蒙特卡洛树的初始根节点，其中，可以使用查找引用函数(INDEX)随机选定初始射频信号，或者初始根节点也可以预先指定，能够提高蒙特卡洛搜索的效率。

此外，在接收射频信号的过程中，射频前端的每层均接收多个射频信号。

从接收的多个射频信号中随机选定初始射频信号，作为蒙特卡洛树的初始根节点，可以以初始根节点为起点，通过蒙特卡洛树搜索算法构建和扩展蒙特卡洛树。

步骤102，基于所述初始根节点递归选择当前子节点，并判断所述当前子节点是否为终止节点。

在该步骤中，从初始根节点开始依次选择子节点作为当前子节点，直至到达蒙特卡洛树的终止节点，在依次选择子节点的过程中，可以通过预设函数分别每个子节点的被选择的概率，选取概率高的子节点作为每次选择的当前子节点，预设函数可以表示如下：

其中，π(n′)表示节点被选择的概率，n′表示任一节点，b表示与任一节点n′有共同父节点的其他节点，N(b)表示其他节点的访问次数，N(n′)表示任一节点n′的访问次数，τ表示调节系数。

其中，每个当前子节点均表示接收的各个射频信号，每次选择当前子节点以后均需要判断当前子节点是否为终止节点，用于确定是否处理完接收的所有射频信号。

步骤103，响应于确定所述当前子节点是所述终止节点，则按照从所述初始根节点到所述当前子节点的排列顺序，确定对应的累积奖励和访问次数，基于所述累积奖励和访问次数从所述当前子节点向所述初始根节点进行反向更新，直至达到预设的迭代次数，得到目标累积奖励和目标访问次数，基于所述目标累积奖励和所述目标访问次数确定所述射频信号序列。或者，

在该步骤中，如果选择的当前子节点是终止节点，表示已经处理完接收的所有射频信号，按照从初始根节点到当前子节点的排列顺序，根据各个节点对应的射频信号的路由长度确定奖励值r，单个节点对应的射频信号的路径长度通过经过的器件之间三维空间距离确定，例如，器件A和器件B，器件A的三维空间坐标为a(x₁₁，x₁₂，x₁₃)，器件B的三维空间坐标为b(x₂₁，x₂₂，x₂₃)，则器件A与器件B之间的三维空间距离为：

其中，d₁₂表示三维空间距离，k表示三维空间的维度，n表示三维空间的第三维度。

根据各个节点对应的射频信号的路由长度所在范围，从预设的数据库中查找与路由长度所在范围对应的奖励值，获取上一次迭代过程中每个节点的访问次数和奖励值，根据如下公式更新每个节点的累积奖励和访问次数；

R(n)°＝R(n)+r

N(n)°＝N(n)+1

其中，R(n)°表示更新后的累积奖励，R(n)表示上一次迭代过程中的奖励值，r表示本次迭代过程中的奖励值r，N(n)°表示更新后的访问次数，N(n)表示上一次迭代过程中的访问次数。

基于累积奖励和访问次数从当前子节点向初始根节点进行反向更新，直至达到预设的迭代次数，将迭代过程中，累积奖励与访问次数最高的累积奖励与访问次数作为目标累积奖励和目标访问次数，并且对应迭代过程的从初始根节点到终止节点的各个节点的排列顺序作为射频信号序列。

步骤104，响应于确定所述当前子节点不是所述终止节点，并且所述当前子节点存在扩展节点，则基于所述当前子节点选定与所述当前子节点对应的目标扩展节点，直至所述目标扩展节点为所述终止节点，按照从所述初始根节点到所述当前子节点的排列顺序，确定对应的累积奖励和访问次数，基于所述累积奖励和访问次数从所述目标扩展节点向所述初始根节点进行反向更新，直至达到预设的迭代次数，得到目标累积奖励和目标访问次数，基于所述目标累积奖励和所述目标访问次数确定所述射频信号序列。或者，

在该步骤中，如果当前子节点不是终止节点，并且当前子节点已经完全扩展，则基于当前子节点选定与该当前子节点对应的最优子节点作为目标扩展节点，按照此过程依次递归选择最优子节点作为目标扩展节点，直至选择的最优目标扩展节点为终止节点，表示已经处理完接收的所有射频信号，此时，根据各个节点对应的射频信号的路由长度确定奖励值r，单个节点对应的射频信号的路径长度通过经过的器件之间三维空间距离确定，例如，器件A和器件B，器件A的三维空间坐标为a(x₁₁，x₁₂，x₁₃)，器件B的三维空间坐标为b(x₂₁，x₂₂，x₂₃)，则器件A与器件B之间的三维空间距离为：

R(n)°＝R(n)+r

N(n)°＝N(n)+1

基于累积奖励和访问次数从目标扩展节点向初始根节点进行反向更新，直至达到预设的迭代次数，将迭代过程中，累积奖励与访问次数最高的累积奖励与访问次数作为目标累积奖励和目标访问次数，并且对应迭代过程的从初始根节点到目标扩展节点的各个节点的排列顺序作为射频信号序列。

步骤105，响应于确定所述当前子节点不是所述终止节点，并且所述当前子节点不存在扩展节点，则创建与所述当前子节点对应的扩展节点，并获取从所述初始根节点到所述扩展节点的各个节点的节点状态。

在该步骤中，如果当前子节点不是终止节点，表示未处理完接收的所有射频信号，并且当前子节点未完全扩展，则扩展当前子节点的扩展节点，可以使用策略神经网络计算当前价值和在对应节点状态下采取转向扩展节点的控制动作的概率，从而实现扩展当前子节点扩展节点，并获取从初始根节点到扩展节点的各个节点的节点状态。

通过扩展当前子节点对应的扩展节点作为更新依据，用于后续从扩展节点向初始根节点进行反向更新，更新当前的射频信号序列。

步骤106，基于从所述初始根节点到所述扩展节点的各个节点的节点状态，通过策略神经网络算法得到当前先验概率和当前价值。

在该步骤中，基于初始根节点到扩展节点的各个节点的节点状态，利用得到当前先验概率和当前价值，以供将当前先验概率和当前价值当作奖励直接反向更新蒙特卡洛树，利用当前先验概率和当前价值能够直接反应扩展节点对于从初始根节点到扩展节点的选择的影响，从而省去了仿真过程，进一步提升了射频信号序列的确定效率。

其中，仿真过程为按照初始根节点到扩展节点的顺序去处理射频信号，计算对应的处理时间，根据处理时间确定扩展节点的得分。

在仿真过程中需要分别计算初始根节点到各个扩展节点对应的处理时间，确定其对应的得分，计算量庞大，会影响射频信号序列的确定效率。

步骤107，基于所述当前先验概率和所述当前价值从所述扩展节点向所述初始根节点进行反向更新，直至达到预设的迭代次数，确定从所述初始根节点到所述扩展节点的目标控制动作，根据所述目标控制动作得到所述射频信号序列。

在该步骤中，基于当前先验概率和当前价值从扩展节点向初始根节点进行反向更新，直至达到预设的迭代次数，将迭代过程中最高的当前先验概率和当前价值从数据库中映射查找对应的控制动作，作为目标控制动作，目标控制动作表示从初始根节点转到扩展节点过程中的各个节点的控制动作，从而根据目标控制动作得到射频信号序列。

其中，从初始根节点到扩展节点的递归选择过程中，每次选择均分别按照下式得到各个节点被选择的概率，选择概率高的节点进行递归选择：

其中，π(n′)表示节点被选择的概率，n′表示任一节点，b表示与任一节点n′有共同父节点的其他节点，N(b)表示其他节点的访问次数，N(n)表示任一节点n′的访问次数，τ表示调节系数。

从数据库中映射查找概率高的节点对应的控制动作，作为目标控制动作。

步骤108，按照所述射频信号序列的排列顺序，通过环境适应性快速优化算法从各个层的多个器件中确定与所述射频信号序列中的每个射频信号对应的目标器件的排列顺序。

在该步骤中，按照射频信号序列的排列顺序，通过环境适应性快速优化算法(Environment-Adaptable Fast optimization，EAF)从各个层的多个器件中确定射频信号序列中的每个射频信号所选择的目标器件的排列顺序。

其中，射频信号序列的排列顺序是按照处理的优先级顺序排列的，可以是按照高优先级至低优先级排列，还可以是按照从低优先级至高优先级排列，射频前端的每层对应的射频信号序列均采用并行的方式通过环境适应性快速优化算法确定每个射频信号所选择的目标器件的排列顺序。

此外，不同层的射频信号可以选择其他层的器件。

射频前端中各个层的器件包括下列至少之一：

功率放大器、滤波器、低噪声放大器、调谐器、多工器。

例如，射频信号序列为(1、2、3)，射频信号1选择的目标器件依次为器件A、器件B、器件C，射频信号2选择的目标器件依次为器件B、器件D、器件E，射频信号3选择的目标器件依次为器件C、器件D、器件E、器件F

可以将射频信号序列作为射频信号在处理时的处理顺序依据，按照射频信号序列的顺序处理射频信号，保障在不同时刻处理射频信号的连续性，从而可以提高射频信号处理的数量。

步骤109，根据所述每个射频信号对应目标器件的排列顺序，确定与所述每个射频信号对应的路径，并按照与所述每个射频信号对应的路径进行路由。

在该步骤中，根据每个射频信号对应的目标器件的排列顺序进行组合，得到每个射频信号对应的路径，然后按照与每个射频信号对应的路径进行路由。

例如，射频信号序列为(1、2、3)，射频信号1选择的目标器件依次为器件A、器件B、器件C，射频信号2选择的目标器件依次为器件B、器件D、器件E，射频信号3选择的目标器件依次为器件C、器件D、器件E、器件F。

则射频信号1对应的路径为从器件A至器件B、从器件B至器件C，射频信号2对应的路径为从器件B至器件D、从器件D至器件E，射频信号2对应的路径为从器件C至器件D、从器件D至器件E、从器件E至器件F。

通过上述方案，射频前端划分为多层，每层设有多个器件，各个器件通过传输通道连接，并且至少存在一个连通在两个传输通道之间的传输通道，通过在两个传输通道之间设置互连的传输通道的方式，在保正既能够实现传输通道独立地通信，又能够实现传输通道之间的互连，从而使得传输通道连接的器件可以同时实现复用，进而能够提高射频前端的器件利用率，当接收到射频信号时，基于接收的射频信号确定出射频信号序列，可以将射频信号序列作为射频信号在处理时的处理顺序依据，按照射频信号序列的顺序处理射频信号，保障在不同时刻处理射频信号的连续性，从而可以提高射频信号处理的数量，通过环境适应性快速优化算法确定射频信号序列中的每个射频信号对应的目标器件的排列顺序，根据每个射频信号对应目标器件的排列顺序，确定与每个射频信号对应的路径，并按照与每个射频信号对应的路径进行路由，利用环境适应性快速优化算法能够快速确定出每个射频信号对应的目标器件的排列顺序，进而能够提升射频信号进行路由的效率。

在一些实施例中，步骤104中，所述基于所述当前子节点选定与所述当前子节点对应的目标扩展节点，包括：

步骤1041，获取与所述当前子节点对应的各个扩展节点的上信置信空间，以及各个扩展节点的平均奖励值。

步骤1042，将所述各个扩展节点的上信置信空间和所述各个扩展节点的平均奖励值进行求和处理，得到与所述各个扩展节点对应的求和结果。

步骤1043，基于与所述各个扩展节点对应的求和结果，通过求自变量最大值函数确定确定目标求和结果，并根据所述目标求和结果确定所述目标扩展节点。

在上述方案中，可以表示如下：

其中，n′_best表示目标扩展节点，T(n′)表示上信置信空间，Q(n′)表示平均奖励值，n′表示扩展节点，arg max表示自变量最大值函数。

利用自变量最大值函数可以快速实现从与当前子节点对应的各个扩展节点中选定最优的扩展节点作为目标扩展节点。

在一些实施例中，步骤1041中，所述获取与所述当前子节点对应的各个扩展节点的上信置信空间，包括：

步骤A1，获取初始扩展节点的先验概率、所述初始扩展节点的访问次数、其他扩展节点的访问次数和预设探索系数，其中，所述初始扩展节点为与所述当前子节点对应的各个扩展节点中的任一扩展节点，所述其他扩展节点为与所述当前子节点对应除所述初始扩展节点以外的扩展节点。

步骤A2，对各个其他扩展节点的访问次数进行求和处理，得到访问次数求和处理结果。

步骤A3，将所述访问次数求和结果进行开平方处理，得到开平方处理结果。

步骤A4，将所述初始扩展节点的访问次数与预设的参数值进行求和处理，得到求和处理结果。

步骤A5，利用所述开平方处理结果与所述求和处理结果进行比值处理，得到比值处理结果。

步骤A6，将所述预设探索系数、所述比值处理结果和所述初始扩展节点的先验概率进行乘积处理，得到所述上信置信空间。

在上述方案中，可表示如下：

其中，T(n′)表示上信置信空间，c₀表示探索系数，p(n′)表示初始扩展节点的先验概率，n′表示初始扩展节点，b表示其他扩展节点，N(b)表示其他扩展节点的访问次数，N(n′)表示初始扩展节点的访问次数。

此外，预设的参数值可以根据具体情况设定，这里预设的参数值优选为1。

在确定扩展节点的上信置信空间的过程中引入了其他扩展节点，其他扩展节点与初始扩展节点为同一节点的子节点，能够提高确定的上信置信空间的准确率。

在一些实施例中，步骤1041中，所述获取各个扩展节点的平均奖励值，包括：

步骤B1，获取各个扩展节点的先验概率和所述各个扩展节点的访问次数。

步骤B2，将所述各个扩展节点的先验概率和所述各个扩展节点的先验概率进行比值处理，得到各个扩展节点的平均奖励值。

在上述方案中，可表示如下：

其中，Q(n′)表示平均奖励值，N(n′)表示访问次数，R(n′)表示先验概率，n′表示任一扩展节点。

先验概率和访问次数均用于衡量扩展节点的优劣指标，通过引入扩展节点的被选择概率和扩展节点的访问次数，确定平均奖励值，提升了衡量扩展节点的指标准确性。

在一些实施例中，步骤105，所述获取从所述初始根节点到所述扩展节点的各个节点的节点状态，包括：

步骤1051，确定从所述根据点到所述扩展节点的各个节点对应的父节点。

步骤1052，获取各个节点对应的父节点的节点状态，以及从对应的父节点到各个节点的控制动作。

步骤1053，基于所述各个节点对应的父节点的节点状态和从对应的父节点到各个节点的控制动作进行状态转移处理，得到从所述初始根节点到所述扩展节点的各个节点的节点状态。

在上述方案中，可表示如下：

其中，表示节点状态，n_L表示父节点，n′_L表示父节点对应的节点，a表示从对应的父节点到各个节点的控制动作，f_trans表示状态转移函数，/>表示父节点的节点状态。

基于父节点的节点状态，叠加上从对应的父节点到各个节点的控制动作，使得得到的各个节点的节点状态更加准确。

在一些实施例中，步骤106，包括：

步骤1061，将从所述初始根节点到所述扩展节点的各个节点的节点状态进行映射处理，得到多通道二维图像。

步骤1062，将所述多通道二维图像输入预先经过训练的策略神经网络模型，输出所述当前先验概率和所述当前价值。

在上述方案中，可表示如下：

其中，p表示当前先验概率，v表示当前价值，f_p表示策略神经网络模型，表示多通道二维图像，w_p表示策略神经网络模型的权重参数，/>表示节点n_L的节点状态，n_L表示节点。

利用策略神经网络模型能够基于多通道二维图像快速得到当前先验概率和当前价值。

在一些实施例中，步骤102中，所述判断所述当前子节点是否为终止节点，包括：

步骤1021，获取当前子节点所在层对应的节点状态中的剩余待路由射频信号的数量。

步骤1022，响应于确定所述数量等于预设阈值，则所述当前子节点是终止节点。

步骤1023，响应于确定所述数量不等于所述预设阈值，则所述当前子节点不是终止节点。

在上述方案中，获取当前子节点所在层对应的节点状态中的剩余待路由射频信号的数量，如果剩余待路由射频信号数量为预设阈值，则当前子节点是终止节点，表示已经处理完接收的所有射频信号，如果射频信号数量不等于预设阈值，表示未处理完接收的所有射频信号，其中，预设阈值可根据情况设定，这里预设阈值优选为1。

利用预设阈值与剩余待路由射频信号的数量进行比对的方式，可以快速地判断出当前子节点是否为终止节点。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种面向射频前端的多径路由装置。

参考图2，所述面向射频前端的多径路由装置，射频前端划分为多层，每层设有多个器件，各个器件通过传输通道连接，其中，至少存在一个连通在两个传输通道之间的传输通道，所述装置包括：

射频信号序列确定模块201，被配置为响应于确定接收到射频信号，从接收的射频信号中选定初始射频信号，将所述初始射频信号作为蒙特卡洛树的初始根节点；基于所述初始根节点递归选择当前子节点，并判断所述当前子节点是否为终止节点；响应于确定所述当前子节点是所述终止节点，则按照从所述初始根节点到所述当前子节点的排列顺序，确定对应的累积奖励和访问次数，基于所述累积奖励和访问次数从所述当前子节点向所述初始根节点进行反向更新，直至达到预设的迭代次数，得到目标累积奖励和目标访问次数，基于所述目标累积奖励和所述目标访问次数确定所述射频信号序列；或者，响应于确定所述当前子节点不是所述终止节点，并且所述当前子节点存在扩展节点，则基于所述当前子节点选定与所述当前子节点对应的目标扩展节点，直至所述目标扩展节点为所述终止节点，按照从所述初始根节点到所述当前子节点的排列顺序，确定对应的累积奖励和访问次数，基于所述累积奖励和访问次数从所述目标扩展节点向所述初始根节点进行反向更新，直至达到预设的迭代次数，得到目标累积奖励和目标访问次数，基于所述目标累积奖励和所述目标访问次数确定所述射频信号序列；或者，响应于确定所述当前子节点不是所述终止节点，并且所述当前子节点不存在扩展节点，则创建与所述当前子节点对应的扩展节点，并获取从所述初始根节点到所述扩展节点的各个节点的节点状态；基于从所述初始根节点到所述扩展节点的各个节点的节点状态，通过策略神经网络算法得到当前先验概率和当前价值；基于所述当前先验概率和所述当前价值从所述扩展节点向所述初始根节点进行反向更新，直至达到预设的迭代次数，确定从所述初始根节点到所述扩展节点的目标控制动作，根据所述目标控制动作得到所述射频信号序列；

目标器件排列顺序确定模块202，被配置为按照所述射频信号序列的排列顺序，通过环境适应性快速优化算法从各个层的多个器件中确定与所述射频信号序列中的每个射频信号对应的目标器件的排列顺序；

路由路径确定模块203，被配置为根据所述每个射频信号对应目标器件的排列顺序，确定与所述每个射频信号对应的路径，并按照与所述每个射频信号对应的路径进行路由。

在一些实施例中，射频信号序列确定模块201，具体被配置为：

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的面向射频前端的多径路由方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的面向射频前端的多径路由方法。

图3示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器301、存储器302、输入/输出接口303、通信接口304和总线305。其中处理器301、存储器302、输入/输出接口303和通信接口304通过总线305实现彼此之间在设备内部的通信连接。

处理器301可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器302可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器302可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器302中，并由处理器301来调用执行。

输入/输出接口303用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口304用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线305包括一通路，在设备的各个组件(例如处理器301、存储器302、输入/输出接口303和通信接口304)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器301、存储器302、输入/输出接口303、通信接口304以及总线305，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的面向射频前端的多径路由方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的面向射频前端的多径路由方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的面向射频前端的多径路由方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围(包括权利要求)被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种面向射频前端的多径路由方法，其特征在于，射频前端划分为多层，每层设有多个器件，各个器件通过传输通道连接，其中，至少存在一个连通在两个传输通道之间的传输通道，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述当前子节点选定与所述当前子节点对应的目标扩展节点，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取与所述当前子节点对应的各个扩展节点的上信置信空间，包括：

4.根据权利要求2所述的方法，其特征在于，所述获取各个扩展节点的平均奖励值，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取从所述初始根节点到所述扩展节点的各个节点的节点状态，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于从所述初始根节点到所述扩展节点的各个节点的节点状态，通过策略神经网络算法得到当前先验概率和当前价值，包括：

7.根据权利要求1所述的方法，其特征在于，所述判断所述当前子节点是否为终止节点，包括：

8.一种面向射频前端的多径路由装置，其特征在于，射频前端划分为多层，每层设有多个器件，各个器件通过传输通道连接，其中，至少存在一个连通在两个传输通道之间的传输通道，所述装置包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。

10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令用于使计算机执行权利要求1至7任一所述方法。