CN117094377A

CN117094377A - 测量方法及装置

Info

Publication number: CN117094377A
Application number: CN202210504323.9A
Authority: CN
Inventors: 皇甫幼睿; 王坚; 李榕
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2023-11-21
Also published as: WO2023216914A1

Abstract

本申请提供一种测量方法及装置，涉及通信领域，能够解决融合感知过程中测量设备选择不准确，造成感知准确度低的问题。该方法包括：第一设备获取第一感知神经网络输出的第k个第一感知结果。第一感知神经网络用于第一感知任务，第k个第一感知结果根据N个测量设备的测量结果确定，N个测量设备根据选择神经网络从M个测量设备中选择k次得到，1≤k≤N＜M，k、M、N为正整数。第一设备确定不满足选择终止条件，第一设备根据选择神经网络和第k个第一感知结果选择L个测量设备，1≤L＜M，L为正整数。第一设备获取第一感知神经网络输出的第k+1个第一感知结果，第k+1个第一感知结果根据N个测量设备和L个测量设备的测量结果确定。

Description

测量方法及装置

技术领域

本申请涉及通信领域，尤其涉及一种测量方法及装置。

背景技术

感知融合(sensor fusion)、融合感知(fusion sensing)或称合作感知(cooperative sensing)是指利用多个测量设备(比如传感器或探测器)的测量数据(或者称为探测数据)得到更为精准的感知结果。目前，利用融合感知方法来感知环境或物体是提高感知精度的必要手段。

然而，在融合感知的过程中，由于存在很多可选的测量设备，在缺乏理论指导的情况下，通常利用随机选择的方式选择测量设备，再对测量设备的测量数据进行融合，得到感知结果。然而，随机选择方式缺少对特定感知目标的自适应能力，选择出的测量设备可能不是最优的，导致带来的感知精度提升有限，另外还会导致空口资源和计算资源的浪费。

发明内容

本申请提供一种测量方法及装置，能够解决融合感知过程中测量设备选择不准确，造成感知准确度低的问题。

为达到上述目的，本申请采用如下技术方案：

第一方面，提供一种测量方法。该方法包括：第一设备获取第一感知神经网络输出的第k个第一感知结果。其中，第一感知神经网络用于第一感知任务，第k个第一感知结果根据N个测量设备的测量结果确定，N个测量设备根据选择神经网络从M个测量设备中选择k次得到，1≤k≤N＜M，k、M、N为正整数。第一设备确定不满足选择终止条件，第一设备根据选择神经网络和第k个第一感知结果选择L个测量设备，1≤L＜M，L为正整数。第一设备获取第一感知神经网络输出的第k+1个第一感知结果，第k+1个第一感知结果根据N个测量设备和L个测量设备的测量结果确定。

基于第一方面所述的测量方法，第一设备在执行感知任务时，可以根据第一感知神经网络上一次输出的第一感知结果结合选择神经网络，进行当前次测量设备的选择，第一感知神经网络上一次输出的第一感知结果则是，根据之前已选择测量设备的测量结果融合得到的，并结合当前次选择的测量设备和之前已选择的测量设备的测量结果，得到经过当前次选择后融合的第一感知结果。由此，第一设备基于每次选择后得到的第一感知结果，通过迭代方式实现了测量设备的增量选择，使得每一次选择的测量设备所得的测量结果均有利于感知结果的提升，第一感知结果也是根据增量选择的测量设备的测量结果融合得到的，从而实现增量感知过程，不仅可以避免测量设备的冗余选择，减少数据传输和计算资源开销，提高感知效率，也可以提高感知准确度和感知精度。

一种可能的设计方案中，选择神经网络部署在第一设备上，第一感知神经网络部署在第二设备上。相应地，第一设备获取第一感知神经网络输出的第k个第一感知结果，可以包括：第一设备接收来自第二设备的第k个第一感知结果。如此，选择神经网络和第一感知神经网络可以部署在不同的设备上，从而第一设备可以接收来自第二设备的第k个第一感知结果，可以实现神经网络的灵活部署，适用性高，使得第一设备与第二设备分工合作完成感知任务，相比于第一设备独立完成感知任务，可以提高处理效率。

进一步地，第一设备第1次选择的测量设备，根据选择神经网络、M个测量设备的信息和第一感知任务的任务信息确定。如此，第一设备可以根据M个测量设备的信息和第一感知任务的任务信息确定选择神经网络的初始输入，以启动第一设备对测量设备的增量选择过程，完成感知任务。

一种可能的设计方案中，选择终止条件可以包括如下一项或多项：第k个第一感知结果的准确度大于或者等于准确度阈值；或者，第一设备选择测量设备的选择次数大于或者等于选择次数阈值。如此，第一设备可以根据增量感知过程中，监测输出的第一感知结果的准确度和测量设备的选择次数，判断是否结束测量设备的选择，从而实现感知任务的测量，提高测量的可靠性。

一种可能的设计方案中，第一设备根据选择神经网络和第k个第一感知结果选择L个测量设备，可以包括：第一设备获取第二感知神经网络输出的第i个第二感知结果。其中，第二感知神经网络用于第二感知任务，第i个第二感知结果根据H个测量设备的测量结果确定，H个测量设备根据选择神经网络从W个测量设备中选择i次得到，1≤i≤H＜W，i、H、W为正整数。第一设备根据选择神经网络、第i个第二感知结果和第k个第一感知结果，选择L个测量设备。如此，第一设备可以协调完成多个感知任务，如根据一个感知任务的感知结果，为另一个感知任务选择测量设备，以提升另一个感知任务的感知精度。值得说明的是，两个感知任务之间具有一定的相关性，例如，第一感知任务可以是跟踪定位，第二感知任务可以是环境重建，跟踪定位的感知结果对于环境重建的感知结果有辅助提升作用。

一种可能的设计方案中，第二感知神经网络部署在第三设备上。相应地，第一设备获取第二感知神经网络输出的第i个第二感知结果，可以包括：第一设备接收来自第三设备的第i个第二感知结果。如此，第一设备协调完成多个感知任务时，多个感知神经网络可以部署在不同的设备上，第一设备可以与部署有感知神经网络的设备交互完成多个感知任务，提高处理效率。

一种可能的设计方案中，第一方面所述的方法还包括：第一设备获取第三感知神经网络输出的第j个训练感知结果和参考感知结果。其中，第j个训练感知结果根据Q个训练测量设备的测量结果确定，Q个训练测量设备根据选择神经网络从S个训练测量设备中选择j次得到，第j个参考感知结果根据R个训练测量设备的测量结果确定，R个训练测量设备是从S个训练测量设备中随机选择j次得到的，1＜j≤Q＜S，R＝Q，j、Q、R、S为正整数。第一设备确定不满足训练终止条件，训练终止条件用于终止对选择神经网络的训练。第一设备根据选择神经网络、第j个训练感知结果和参考感知结果，选择T个训练测量设备，1≤T＜S，T为正整数。第一设备获取第三感知神经网络输出的第j+1个训练感知结果和参考感知结果。其中，第j+1个训练感知结果根据Q个训练测量设备和T个训练测量设备的测量结果确定，第j+1个参考感知结果根据R个训练测量设备和P个训练测量设备的测量结果确定，P个训练测量设备是第j+1次从S个训练测量设备中随机选择得到的，P＝T，P为正整数。如此，第一设备可以对基于选择神经网络选择得到感知结果与随机选择得到感知结果进行对比，基于对比结果对选择神经网络进行训练，从而可以提高训练的可靠性。

进一步地，第一设备根据选择神经网络、第j个训练感知结果和参考感知结果，选择T个训练测量设备，可以包括：第一设备根据第j个训练感知结果和参考感知结果，确定用于强化学习的第j个奖励值，并根据选择神经网络、第j个训练感知结果和第j个奖励值，选择T个训练测量设备。如此，第一设备基于强化学习训练选择神经网络，利用增量选择得到感知结果与随机选择得到感知结果，确定用于强化训练的奖励值，更新选择神经网络，使得利用选择神经网络进行决策(如选择训练测量设备)得到的奖励值更大，从而达到训练的目的。

进一步地，第一设备根据第j个训练感知结果和参考感知结果，确定用于强化学习的第j个奖励值，可以包括：第一设备根据第j个训练感知结果的感知精度与第j个参考感知结果的感知精度的差值，确定用于强化学习的第j个奖励值。如此，第一设备可以利用训练感知结果与参考感知结果的感知精度的差值，确定强化学习训练的奖励值，从而达到提高训练的可靠性。

一种可能的设计方案中，训练终止条件包括如下一项或多项：第j个奖励值大于或者等于奖励值阈值；或者，选择神经网络的训练次数大于或者等于训练次数阈值；或者，选择神经网络的损失值小于或者等于损失值阈值。如此，第一设备可以根据增量感知过程中，监测输出的奖励值和训练次数，判断是否结束对选择神经网络的训练，从而完成对选择神经网络的训练，提高训练的可靠性。

一种可能的设计方案中，第三感知神经网络部署在第四设备上。第一设备获取第三感知神经网络输出的第j个训练感知结果和参考感知结果，包括：第一设备接收来自第四设备的第j个训练感知结果和参考感知结果。如此，选择神经网络的训练，可以通过第一设备与第二设备交互进行，训练方式更为灵活，适用性更高，并且两个设备分工合作完成训练，可以提高训练效率。

第二方面，提供一种测量方法。该测量方法包括：第二设备接收来自N个测量设备的测量结果，第二设备上部署有第一感知神经网络。其中，第一感知神经网络用于第一感知任务，N个测量设备根据选择神经网络从M个测量设备中选择k次得到，选择神经网络部署在第一设备上，1≤k≤N＜M，k、M、N为正整数。第二设备根据第一感知神经网络和N个测量设备的测量结果，得到第k个第一感知结果。第二设备向第一设备发送第k个第一感知结果。

一种可能的设计方案中，第二方面所述的方法还包括：第二设备接收来自第一设备的第k个选择结果，第k个选择结果用于指示第一设备根据选择神经网络第k次选择的测量设备。

第三方面，提供一种测量装置。该测量装置包括：处理模块。处理模块，用于获取第一感知神经网络输出的第k个第一感知结果，第一感知神经网络用于第一感知任务，第k个第一感知结果根据N个测量设备的测量结果确定，N个测量设备根据选择神经网络从M个测量设备中选择k次得到，1≤k≤N＜M，k、M、N为正整数。处理模块，还用于确定不满足选择终止条件。处理模块，还用于根据选择神经网络和第k个第一感知结果选择L个测量设备，1≤L＜M，L为正整数。处理模块，还用于获取第一感知神经网络输出的第k+1个第一感知结果，第k+1个第一感知结果根据N个测量设备和L个测量设备的测量结果确定。

一种可能的设计方案中，选择神经网络部署在装置上，第一感知神经网络部署在第二设备上。第三方面所述的测量装置还包括：收发模块。收发模块，用于接收来自第二设备的第k个第一感知结果。

进一步地，第三方面所述的装置第1次选择的测量设备，根据选择神经网络、M个测量设备的信息和第一感知任务的任务信息确定。

一种可能的设计方案中，选择终止条件可以包括如下一项或多项：第k个第一感知结果的准确度大于或者等于准确度阈值；或者，第三方面所述的装置选择测量设备的选择次数大于或者等于选择次数阈值。

一种可能的设计方案中，处理模块，用于：获取第二感知神经网络输出的第i个第二感知结果，第二感知神经网络用于第二感知任务，第i个第二感知结果根据H个测量设备的测量结果确定，H个测量设备根据选择神经网络从W个测量设备中选择i次得到，1≤i≤H＜W，i、H、W为正整数。根据选择神经网络、第i个第二感知结果和第k个第一感知结果，选择L个测量设备。

一种可能的设计方案中，第二感知神经网络部署在第三设备上。收发模块，还用于接收来自第三设备的第i个第二感知结果。

一种可能的设计方案中，处理模块，用于获取第三感知神经网络输出的第j个训练感知结果和参考感知结果，其中，第j个训练感知结果根据Q个训练测量设备的测量结果确定，Q个训练测量设备根据选择神经网络从S个训练测量设备中选择j次得到，第j个参考感知结果根据R个训练测量设备的测量结果确定，R个训练测量设备是从S个训练测量设备中随机选择j次得到的，1＜j≤Q＜S，R＝Q，j、Q、R、S为正整数。处理模块，还用于确定不满足训练终止条件，训练终止条件用于终止对选择神经网络的训练。处理模块，还用于根据选择神经网络、第j个训练感知结果和参考感知结果，选择T个训练测量设备，1≤T＜S，T为正整数。处理模块，还用于获取第三感知神经网络输出的第j+1个训练感知结果和参考感知结果。其中，第j+1个训练感知结果根据Q个训练测量设备和T个训练测量设备的测量结果确定，第j+1个参考感知结果根据R个训练测量设备和P个训练测量设备的测量结果确定，P个训练测量设备是第j+1次从S个训练测量设备中随机选择得到的，P＝T，P为正整数。

进一步地，处理模块，用于：根据第j个训练感知结果和参考感知结果，确定用于强化学习的第j个奖励值。根据选择神经网络、第j个训练感知结果和第j个奖励值，选择T个训练测量设备。

进一步地，处理模块，用于：根据第j个训练感知结果的感知精度与第j个参考感知结果的感知精度的差值，确定用于强化学习的第j个奖励值。

一种可能的设计方案中，训练终止条件可以包括如下一项或多项：第j个奖励值大于或者等于奖励值阈值；或者，选择神经网络的训练次数大于或者等于训练次数阈值；或者，选择神经网络的损失值小于或者等于损失值阈值。

一种可能的设计方案中，第三感知神经网络部署在第四设备上。收发模块，用于接收来自第四设备的第j个训练感知结果和参考感知结果。

可选地，收发模块可以包括接收模块和发送模块。其中，发送模块用于实现第三方面所述的装置的发送功能，接收模块用于实现第三方面所述的装置的接收功能。

可选地，第三方面所述的装置还可以包括存储模块，该存储模块存储有程序或指令。当处理模块执行该程序或指令时，使得第三方面所述的通信装置可以执行第一方面所述的方法。

需要说明的是，第三方面所述的装置可以是终端设备或网络设备，也可以是可设置于终端设备或网络设备中的芯片(系统)或其他部件或组件，还可以是包含终端设备或网络设备的装置，本申请对此不做限定。

第四方面，提供一种测量装置。该测量装置包括：收发模块和处理模块。其中，收发模块，用于接收来自N个测量设备的测量结果，该装置上部署有第一感知神经网络。其中，第一感知神经网络用于第一感知任务，N个测量设备根据选择神经网络从M个测量设备中选择k次得到，选择神经网络部署在第一设备上，1≤k≤N＜M，k、M、N为正整数。处理模块，用于根据第一感知神经网络和N个测量设备的测量结果，得到第k个第一感知结果。收发模块，还用于第二设备向第一设备发送第k个第一感知结果。

一种可能的设计方案中，收发模块，用于接收来自第一设备的第k个选择结果，第k个选择结果用于指示第一设备根据选择神经网络第k次选择的测量设备。

可选地，收发模块可以包括接收模块和发送模块。其中，发送模块用于实现第四方面所述的装置的发送功能，接收模块用于实现第四方面所述的装置的接收功能。

可选地，第四方面所述的装置还可以包括存储模块，该存储模块存储有程序或指令。当处理模块执行该程序或指令时，使得第四方面所述的通信装置可以执行第二方面所述的方法。

需要说明的是，第四方面所述的装置可以是终端设备或网络设备，也可以是可设置于终端设备或网络设备中的芯片(系统)或其他部件或组件，还可以是包含终端设备或网络设备的装置，本申请对此不做限定。

第五方面，提供了一种测量装置，包括：处理器和存储器。该存储器用于存储计算机程序，当该处理器执行该计算机程序时，以使该装置执行第一方面至第二方面中的任意一种实现方式所述的测量方法。

在一种可能的设计方案中，第五方面所述的装置还可以包括收发器。该收发器可以为收发电路或接口电路。该收发器可以用于第五方面所述的装置与其他通信装置通信。

在本申请中，第五方面所述的装置可以为第一方面或第二方面中的第一设备或第二设备，或者可设置于该第一设备或第二设备中的芯片(系统)或其他部件或组件，或者包含第一设备或第二设备的装置。

此外，第三方面至第五方面所述的装置的技术效果可以参考第一方面所述的测量方法的技术效果，此处不再赘述。

第六方面，提供一种通信系统。该通信系统包括第一设备和第二设备。可选地，还可以包括第三设备。

第七方面，提供一种计算机可读存储介质，包括：计算机程序或指令；当该计算机程序或指令在计算机上运行时，使得该计算机执行第一方面至第二方面中任意一种可能的实现方式所述的测量方法。

第八方面，提供一种计算机程序产品，包括计算机程序或指令，当该计算机程序或指令在计算机上运行时，使得该计算机执行第一方面至第二方面中任意一种可能的实现方式所述的测量方法。

附图说明

图1为本申请实施例提供的感知测量系统的架构示意图；

图2为本申请实施例提供的感知场景的示意图；

图3为本申请实施例提供的选择神经网络训练方法的流程示意图一；

图4为本申请实施例提供的选择神经网络训练方法的流程示意图二；

图5为本申请实施例提供的深度强化学习的结构示意图；

图6为本申请实施例提供的感知神经网络的损失值计算的结构示意图；

图7为本申请实施例提供的测量方法的流程示意图一；

图8为本申请实施例提供的第一感知神经网络融合处理的结构示意图；

图9为本申请实施例提供的选择神经网络处理的结构示意图；

图10为本申请实施例提供的测量方法的流程示意图二；

图11为本申请实施例提供的测量方法的流程示意图三；

图12为本申请实施例提供的测量方法的流程示意图四；

图13为本申请实施例提供的第一感知结果与参考感知结果的感知结果对比示意图；

图14为本申请实施例提供的第一感知结果与参考感知结果的感知结果的损失值变化曲线图；

图15为本申请实施例提供的测量装置的结构示意图一；

图16为本申请实施例提供的测量装置的结构示意图二。

具体实施方式

下面介绍本申请实施例所涉及的技术术语。

1、深度神经网络(deep neural networks，DNN)：是深度学习的基础。DNN包括输入层、输出层，以及输入层与输出层之间的隐藏层。隐藏层可以包括一层或多层，隐藏层可以具有非线性激活函数，如修正线性单元(rectified linear unit，ReLU)函数、双曲正切(tanh)函数。DNN中层与层之间通过每个层上的节点相互连接，一对连接的节点具有一个权重值和一个偏置值。DNN可以看作输入到输出的非线性变换，可以通过损失函数(lossfunction)计算输出的损失，产生的梯度可以用回传(back-propagation，BP)算法从输出层传回输入层计算，再结合优化器算法来更新每层网络的权重和偏置，让损失最小化。其中，优化器算法可以是随机梯度下降(stochastic gradient descent，SGD)或随机梯度上升(stochastic gradient ascent，SGA)或自适应矩估计(adaptive moment estimation，Adam)等。

2、强化学习(reinforcement learning，RL)：是智能体(agent)与环境交互，通过试错(或者是称为探索)的方式学习最优策略的过程。强化学习可以为需要进行一系列决策的问题提供解法，尤其是不能理论建模或求解困难的问题。

在强化学习系统中，包括状态(或是称为观察)、策略、回报、时间步、回合和值函数等概念。其中，状态是智能体从环境获取的信息。策略是智能体根据状态来决定下一步的行动或动作，即状态到行动的映射，回报也可以称为奖励(reward)，是智能体在环境中采取某种行动后，环境反馈的一个值，一个时间步为智能体执行一个动作到环境反馈一个回报的过程。强化学习在优化某一个问题的过程中，可以以回合为单位，每一个回合包括多个时间步。环境可以在一个回合结束时才反馈一个回报，也可以在回合没有结束时就反馈一个回报。值得说明的是，不同的环境有不同的反馈方式。

智能体的目标是最大化每个回合的总回报，而值函数就是用于评估一个策略的期望回报，其输入可以是状态，也可以是状态和动作的合集，输出值表示智能体对未来可以积累的总回报的估计值，输出值越大表示当前选择的动作从长远来看是更好的。

3、深度强化学习(deep reinforcement learning，DRL)：是深度神经网络和强化学习的组合应用。DRL仍然符合强化学习中智能体与环境交互的框架，不同的是，在DRL中，智能体使用深度神经网络进行决策。

在深度强化学习中，值函数也可以用深度神经网络表示，值函数的输入即深度神经网络的输入，值函数的输出即深度神经网络的输出。这样，值函数也可以用于深度神经网络的训练过程，其中，表示值函数的深度神经网络称为价值网络，表示输出动作的深度神经网络称为策略网络，价值网络可以通过减小策略梯度的梯度方法协助策略网络更新，策略梯度算法可以通过不断地估计梯度，最大化期望的总回报。

下面对现有技术进行简单说明。

目前，在融合感知的过程中，由于存在很多可选的测量设备，在选择哪些测量设备的测量结果作为融合感知数据时，在缺乏理论指导的情况下，通常利用随机选择的方式选择测量设备，再对测量设备的测量数据进行融合，得到感知结果。然而，随机选择方式缺少对特定感知目标的自适应能力，选择出的测量设备可能不是最优的，并不是每个测量设备所测得的测量数据都能够提升感知结果，导致带来的感知精度提升有限，从而使得感知结果准确度不够，另外还会导致空口资源和计算资源的浪费。

因此，本申请实施例提供了一种测量方法，结合神经网络通过迭代方式实现了测量设备的增量选择，可以解决融合感知过程中测量设备选择缺乏指导，造成感知准确度低的问题。

下面将结合附图，对本申请中的技术方案进行描述。

本申请实施例的技术方案可以应用于任何需要融合感知的场景/通信系统，包括有线通信系统和无线通信系统，例如无线热点(Wi-Fi)系统、蜂窝网系统、卫星通信系统、无人机通信系统、车到任意物体(vehicle to everything，V2X)通信系统、设备间(device-todevie，D2D)通信系统、车联网通信系统、第4代(4th generation，4G)移动通信系统，如长期演进(long term evolution，LTE)系统、全球互联微波接入(worldwideinteroperability for microwave access，WiMAX)通信系统、第五代(5th generation，5G)移动通信系统，如新空口(new radio，NR)系统，以及未来的通信系统，如第六代(6thgeneration，6G)移动通信系统等。

为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如，第一设备和第二设备仅仅是为了区分不同的设备，并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

本申请将围绕可包括多个设备、组件、模块等的系统来呈现各个方面、实施例或特征。应当理解和明白的是，各个系统可以包括另外的设备、组件、模块等，并且/或者可以并不包括结合附图讨论的所有设备、组件、模块等。此外，还可以使用这些方案的组合。

另外，在本申请实施例中，“示例地”、“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用示例的一词旨在以具体方式呈现概念。

本申请实施例中，“信息(information)”，“信号(signal)”，“消息(message)”，“信道(channel)”、“信令(singaling)”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。“的(of)”，“相应的(corresponding，relevant)”和“对应的(corresponding)”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。

本申请实施例描述的网络架构以及业务场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着网络架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

为便于理解本申请实施例，首先以图1中示出的感知测量系统为例详细说明适用于本申请实施例的系统。示例性地，图1为本申请实施例提供的感知测量系统的架构示意图，可以适用于任何需要融合感知的通信系统中。

如图1所示，该感知测量系统包括第一设备和M个测量设备。其中，第一设备与M个测量设备可以通信，M＞1且为正整数，第一设备上可以部署有选择神经网络和第一感知神经网络，第一设备可以根据选择神经网络和第一感知神经网络完成第一感知任务，选择神经网络可以用于实现测量设备的选择，第一感知神经网络可以用于对测量设备的测量结果的融合计算，得到第一感知结果。实现第一感知任务具体过程可以参照下述图7-图12示出的方法实施例，此处不再赘述。

可以理解的是，选择神经网络和感知神经网络可以是深度神经网络。

该感知测量系统中，M个测量设备可以是测量无线电波的设备，也可以是与测量无线电波相关的设备部件或配置。例如，M个测量设备可以是M个一定距离分布的天线或天线阵列，也可以是M个可利用的测量频段，还可以是M个波束方向，或是M个可选择的预编码(precoding)码本(codebook)。各测量设备的测量结果可以是指与无线电波相关的测量数据，例如信噪比(signal to noise ratio，SNR)、接收信号强度指示(received signalstrength indicator，RSSI)，或是信道状态信息(Channel state information，CSI)、信道频率响应(channel frequency response，CFR)、信道冲击响应(channel impulseresponse，CIR)，或是雷达测量数据等，也可以是无线电波的收发设备可以测量的其它数据，也可以是对上述一项或多项测量数据进行统计、分析等进一步处理得到的数据。

M个测量设备可以是功能相同的测量设备，也可以是功能不同的测量设备，还可以是部分功能相同的测量设备、部分功能不同的测量设备。进一步地，M个测量设备可以部署在同一设备的不同位置上，也可以部署在不同设备上。

另外，第一感知神经网络融合的测量结果的数据类型可以是相同的，也可以是不同的。例如，在无线通信系统中，第一感知神经网络融合的测量结果可以是跨层(cross-layer)的，例如，可以融合物理层(physical layer，PHY)、媒体接入控制(media accesscontrol，MAC)层、应用层(application，APP)等协议层的数据，也可以是跨设备(cross-device)的，例如，可以融合摄像头、手机、无人机、卫星、舰载设备、车载设备、物联网(internet of things，IoT)等设备的数据，还可以是跨传感器(cross-sensor)的，例如，可以融合WiFi收发机、不同频段的收发机、5G收发机、蓝牙收发机、全球定位系统(globalpositioning system，GPS)收发机、加速度计、感光元件、磁力计等传感器的数据。

可以理解的是，感知任务的不同，第一设备融合处理的测量结果不同，同一感知任务的感知结果可以通过对不同的类型的测量结果进行融合得到。

可选地，该感知测量系统还可以包括第二设备，第一感知神经网络也可以部署在第二设备上。换言之，选择神经网络和第一感知神经网络可以分开部署在不同的设备上，第一感知任务可以通过第一设备和第二设备联合完成。

可选地，该感知测量系统还可以包括第三设备，该第三设备上部署有第二感知神经网络，第二感知神经网络用于第二感知任务。此时，在图1示出的感知测量系统中，第一设备可以协调多个感知任务。例如，第一设备可以根据选择神经网络为第一感知任务选择测量设备，第二设备根据第一感知神经网络融合选择的测量设备的测量结果，得到第一感知结果，第一设备再利用第一感知结果，根据选择神经网络为第二感知任务选择测量设备，然后第三设备再根据第一设备选择的测量设备的测量结果，得到第二感知结果，两个感知任务通过第一设备交替进行测量设备的选择，可以提升感知精度。具体可以参见下述图12示出的方法实施例，此处不再赘述。

值得说明的是，第一设备协调进行的多个感知任务之间具有一定的相关性。例如，第一感知任务可以是环境重建，第二感知任务可以是跟踪定位，跟踪定位的感知结果对于环境重建的感知结果有辅助提升作用。

可以理解的是，第一感知神经网络与第二感知神经网络的结构类似，其输入可以是选择的测量设备的信息和测量结果，输出可以是融合处理得到的感知结果。基于感知任务的不同，两个感知神经网络的参数设置可能不同，感知神经网络的参数可以根据不同的应用场景具体设定，此处不做限定。其中，感知神经网络的参数可以包括权重、偏置等。

另外，第一感知任务和第二感知任务可以是感知某一环境或是环境中的某一物体，例如，第一感知任务和第二感知任务可以是环境重建、跟踪定位、判断环境中是否有人存在、手势或姿态识别等。

第一感知结果和第二感知结果可以是根据测量设备的测量结果，对环境中物体的物理属性(如形状、轮廓、材质)、位置、状态(如姿态)、状态改变、是否存在中的一项或多项的判断或描述，例如判断环境中是否有人存在，或者是通过制图、成像等方式描述当前环境中的物体，或者是识别人的手势或姿态，或者是高精度的跟踪定位等。

一些实施例中，第一设备、第二设备和测量设备可以是网络设备，也可以是设置于网络设备中的芯片(系统)或其他部件或组件，还可以是包含网络设备的装置。

又一些实施例中，第一设备、第二设备和测量设备也可以是终端设备，也可以是设置于终端设备中的芯片(系统)或其他部件或组件，还可以是包含终端设备的装置。

应理解，图1仅为便于理解而示例的简化示意图，该系统中还可以包括其他网络设备，和/或，其他终端设备，图1中未予以画出。

示例性地，图2示出了本申请实施例提供的感知场景的示意图。图1示出的感知测量系统可以适用于该感知场景中。如图2所示，该感知场景可以包括一个或多个网络设备、一个或多个终端设备。其中，任意一个终端设备可以与任意一个网络设备通信，且任意两个终端设备或者任意两个网络设备也可以进行通信。图2示例性的示出了两个网络设备(网络设备211和网络设备212)，和三个终端设备(终端设备221、终端设备222和终端设备223)，本申请实施例并不限定终端设备和网络设备的数量，可以根据不同的应用场景确定。

示例性地，在图2示出的场景中完成环境重建的感知任务时，上述图1示出的第一设备、第二设备或第三设备可以是图2中任意一个网络设备或终端设备，M个测量设备可以是该场景中包括的所有终端设备和网络设备，该场景中的终端设备和/或网络设备可以测量信道状态信息，第一设备可以根据测量的信道状态信息融合感知完成感知任务。

其中，网络设备包括但不限于：无线热点(Wi-Fi)系统中的接入点(access point，AP)，如家庭网关、路由器、服务器、交换机、网桥等，演进型节点B(evolved Node B，eNB)、无线网络控制器(radio network controller，RNC)、节点B(Node B，NB)、基站控制器(basestation controller，BSC)、基站收发台(base transceiver station，BTS)、家庭基站(例如，home evolved NodeB，或home Node B，HNB)、基带单元(baseband unit，BBU)，无线中继节点、无线回传节点、传输点(transmission and reception point，TRP或者transmissionpoint，TP)等，还可以为5G，如，新空口(new radio，NR)系统中的gNB，或，传输点(TRP或TP)，5G系统中的基站的一个或一组(包括多个天线面板)天线面板，或者，还可以为构成gNB或传输点的网络节点，如基带单元(BBU)，或，分布式单元(distributed unit，DU)、具有基站功能的路边单元(road side unit，RSU)等。

终端设备也可以称为用户装置、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置。本申请的实施例中的终端设备可以是手机(mobile phone)、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程医疗(remote medical)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端、车载终端、具有终端功能的RSU等。本申请的终端设备还可以是作为一个或多个部件或者单元而内置于车辆的车载模块、车载模组、车载部件、车载芯片或者车载单元，车辆通过内置的所述车载模块、车载模组、车载部件、车载芯片或者车载单元可以实施本申请提供的测量方法。

需要说明的是，本申请实施例提供的测量方法，可以适用于图1所示的任意两个节点之间，如第一设备与第二设备之间，也可以适用于图2所示的任意两个节点之间，如网络设备与终端设备之间，具体实现可以参考下述方法实施例，此处不再赘述。

应理解，图1和图2仅为便于理解而示例的简化示意图，该通信系统中还可以包括其他网络设备，和/或，其他终端设备，图1和图2中未予以画出。

值得说明的是，上述选择神经网络、第一感知神经网络与第二感知神经网络是经过训练得到的。其中，第一感知神经网络或第二感知神经网络可以由图1示出的第一设备或第二设备或第三设备，利用随机选择策略监督学习训练得到的，即第一感知神经网络或第二感知神经网络可以利用随机选择的训练测量设备的测量结果迭代训练得到。

下面将结合图3-图14对本申请实施例提供的测量方法进行具体阐述。

本申请实施例提供的测量方法，是第一设备基于选择神经网络和感知神经网络实现的。在实施测量方法之前，首先对本申请实施例中选择神经网络的训练过程进行描述，而感知神经网络可以利用随机选择的训练测量设备的测量结果，独立训练得到，可以参见相关现有实现方式，因此不做具体描述。

由于选择神经网络需要感知神经网络的感知结果作为输入迭代训练，所以不能独立训练得到，因此选择神经网络的训练可以是图1示出的第一设备训练得到的，也可以是第一设备与第二设备联合训练得到，还可以是第一设备与第三设备联合训练得到的。本申请实施例中选择神经网络可以联合感知神经网络，通过强化学习方法训练得到。具体可以参见下述图3-图4示出的选择神经网络的训练方法，以实现图7-图12示出的测量方法。

值得说明的是，本申请实施例中描述的“训练测量设备”、“训练感知任务”可以表示用于完成选择神经网络训练的测量设备和感知任务，其中，训练感知任务可以是已执行过的感知任务，对应的训练测量设备为用于完成该训练感知任务的测量设备。“训练感知结果”、“参考感知结果”可以表示基于选择神经网络训练得到的感知结果。而“第一感知任务”、“第二感知任务”可以表示应用本申请实施例提供的测量方法实现的感知任务，本申请实施例提供的测量方法是基于训练后的选择神经网络实现的，“测量设备”可以表示用于完成第一感知任务和/或第二感知任务的测量设备。基于同类型的感知任务，训练测量设备的信息的类型可以与测量设备的信息的类型类似，具体可以参见测量设备的信息的相关描述，训练测量设备的测量结果的类型也可以与测量设备的测量结果的类型类似，具体可以参见测量设备的测量结果的相关描述。

具体地，图3示出了本申请实施例提供的选择神经网络训练方法的流程示意图一。该选择神经网络的训练过程可以应用于图1示出的第一设备，由第一设备独立训练得到选择神经网络，也可以应用于图1示出的第一设备与第二设备，由第一设备和第二设备联合训练得到选择神经网络，或者应用于第一设备与第三设备，由第一设备和第三设备联合训练得到选择神经网络。具体地，第一设备可以是图2示出的任意一个网络设备，也可以是任意一个终端设备，对此不做限定。

如图3所示，选择神经网络的训练方法包括如下步骤：

S301、第一设备获取第三感知神经网络输出的第j个训练感知结果和参考感知结果。

其中，第三感知神经网络可以是部署在图1示出的第一设备或第二设备上的第一感知神经网络，也可以是部署在第三设备上的第二感知神经网络，还可以是部署在其他设备上的与第一感知神经网络、第二感知神经网络的结构类似的神经网络，基于不同场景、不同感知任务等，第一感知神经网络、第二感知神经网络、第三感知神经网络的参数(如权重、偏置)设置可能不同。

值得说明的是，第一设备结合第三感知神经网络对选择神经网络进行训练时，第三感知神经网络可以是根据随机选择策略监督学习预训练得到的。

具体地，第j个训练感知结果根据Q个训练测量设备的信息和测量结果确定，比如第一设备可以根据第三感知神经网络、Q个训练测量设备的信息和测量结果得到第j个训练感知结果。其中，Q个训练测量设备可以是第一设备根据选择神经网络从S个训练测量设备中选择j次得到的，一次可以选择一个或者多个训练测量设备，其中，j可以为选择训练测量设备的次数或者训练测量设备的选择次数，1≤j≤Q＜S，j、Q、S为正整数，选择神经网络可以部署在第一设备上。

其中，在第一设备根据选择神经网络，通过j次选择从S个训练测量设备中选择训练测量设备的过程中，当第一设备根据选择神经网络进行第1次选择(或者称为首次选择或者初始选择)时，第一设备可以获取训练感知任务和S个训练测量设备的信息，并根据训练感知任务和S个训练测量设备的信息初始化得到初始训练感知结果，然后将初始训练感知结果和S个训练测量设备的信息作为选择神经网络的输入，得到选择神经网络输出的第1个训练选择结果，该第1个训练选择结果可以用于第一设备第1次从S个训练测量设备中选择1个或多个训练测量设备，该过程可以称为第一设备根据选择神经网络的第1次选择。其中，S个训练测量设备的信息可以是训练测量设备的标识信息、位置信息、状态信息等有利于选择训练测量设备的信息，该S个训练测量设备的信息可以是训练测量设备向第一设备发送的。

示例性地，在图2示出的场景中，第一设备利用环境重建作为训练感知任务，对选择神经网络进行训练时，S个训练测量设备可以包括当前训练环境中的所有网络设备与终端设备，如可用于完成环境重建的训练测量设备的个数为S。此时，第一设备可以根据训练感知任务(如环境重建)和S个训练测量设备的信息(如网络设备和/或终端设备的信息)，确定初始训练感知结果，该S个训练测量设备的信息可以包括各网络设备和/或终端设备的位置信息和标识信息。

例如，第一设备得到的初始训练感知结果可以是空白图像，第一设备进行第1次选择时，将空白图像和S个训练测量设备的信息输入选择神经网络，输出第1次选择训练测量设备的结果(如第1个训练选择结果)，从而实现了训练测量设备的第1次选择。

值得说明的是，选择神经网络可以为多输出结构，选择神经网络输出的训练选择结果可以包括多个输出值，一个输出值表示一个训练测量设备被选择的概率，所有可以被选择的训练测量设备被选择的概率和为1，第一设备可以根据概率分布采样选择一个或多个训练测量设备进行测量。例如，第一设备进行第1次选择时，选择神经网络输出的训练选择结果包括S个值，S个值对应S个训练测量设备被选择的概率，第一设备可以按照每个训练测量设备被选择的概率，根据该概率分布采样，从S个训练测量设备中选择一个或者多个训练测量设备。训练完成后，在选择神经网络的实际使用过程中，第一设备根据每个测量设备被选择的概率从高到低进行测量设备的选择，从测量设备中选择概率较高的前一个或者多个测量设备。

进一步地，第三感知神经网络根据第一设备第1次选择的训练测量设备的信息和测量结果，得到第1个训练感知结果。具体地，在基于图2示出的场景中，训练感知任务为环境重建，第1次选择的训练测量设备的测量结果可以是信道测量数据，第三感知神经网络可以对第1次选择的训练测量设备的信息(如网络设备/终端设备的位置信息)和测量结果(如信道测量数据)，融合处理得到第1个训练感知结果，作为第一设备根据选择神经网络第2次选择的输入。

可以理解的是，第三感知神经网络对选择的训练测量设备的信息和测量结果的处理过程，可以是对输入数据进行特征提取、特征融合等过程，可以参照现有实现过程，在此不再赘述。

当训练测量设备的选择次数大于1，即j＞1时，后续，对于第j次选择，可以利用感知神经网络对经过j-1次选择的训练测量设备的信息以及测量结果进行融合处理，得到第j-1个训练感知结果，将第j-1个训练感知结果作为选择神经网络的输入，得到第j次选择对应的第j个训练选择结果，进而根据第j个训练选择结果确定出第j次选择对应的一个或者多个训练测量设备。换言之，第一设备根据选择神经网络每次选择训练测量设备，可以将第三感知神经网络当前输出的训练感知结果作为选择神经网络下一次选择的输入。

比如，j＝4，在进行第2次选择时，利用第三感知神经网络对第1次选择的训练测量设备的信息以及测量结果进行融合处理，得到第1个训练感知结果，将第1个训练感知结果作为选择神经网络的输入得到第1个训练选择结果，进而根据第1个训练选择结果确定出一个或者多个训练测量设备，该过程为第2次选择过程。同理，第3次选择，利用第三感知神经网络对第1次和第2次选择的训练测量设备的信息以及测量结果进行融合处理，得到第2个训练感知结果，将第2个训练感知结果作为选择神经网络的输入得到第3个训练选择结果，进而根据第3个训练选择结果确定出一个或者多个训练测量设备，该过程为第3次选择过程。同理，第4次选择，利用第三感知神经网络对第1次、第2次和第3次选择的训练测量设备的信息以及测量结果进行融合处理，得到第3个训练感知结果，将第3个训练感知结果作为选择神经网络的输入得到第4个训练选择结果，进而根据第4个训练选择结果确定出一个或者多个训练测量设备，该过程为第4次选择过程。第一设备每次选择训练测量设备的具体过程，可以参照下述S302-S305中第一设备根据选择神经网络进行第j+1次的选择过程，此处不再赘述。

可以理解的是，第一设备根据选择神经网络对输入数据(如初始训练感知结果和S个训练测量设备的信息)进行处理过程，可以是对输入数据进行特征提取、特征压缩、降维、归一化等处理过程，如将输入输出转化为特征向量计算的过程，可以参照现有实现过程，在此不再赘述。

另外，上述第j个参考感知结果可以是根据R个训练测量设备的测量结果确定，R个训练测量设备可以是第一设备从S个训练测量设备中随机选择j次得到的。换言之，参考感知结果是基于随机选择的训练测量设备的测量结果得到的。可以理解的是，利用第三感知神经网络得到参考感知结果的过程，与得到训练感知结果的过程类似，对此不再赘述。

其中，R＝Q，R为正整数，即第一设备每次随机选择的训练测量设备的个数，与第一设备利用选择神经网络每次选择的训练测量设备的个数相等。换言之，第一设备随机选择j次后得到的训练测量设备的总个数，与第一设备根据选择神经网络j次选择后得到的训练测量设备的总个数相等。这样可以实现第j个训练感知结果和参考感知结果的公平比较，提高选择神经网络训练的准确度。值得说明的是，第一设备随机选择训练测量设备可以是基于随机选择策略实现的。例如，第一设备可以基于训练测量设备的标识随机排序，选择排序较前的训练测量设备。

可以理解的是，第一设备是基于训练感知任务训练该选择神经网络的，而该训练感知任务完成情况可以用第三感知神经网络输出的训练感知结果和参考感知结果表示。例如，训练感知任务为环境重建，训练感知结果和参考感知结果可以是第三感知神经网络输出的环境重建图像。

一种可能的设计方案中，第三感知神经网络与选择神经网络可以部署在同一设备上，如第三感知神经网络也部署在该第一设备上。此时，第一设备可以本地获取第三感知神经网络的输出结果(第j个训练感知结果和参考感知结果)，具体地，第一设备可以根据第三感知神经网络、Q个训练测量设备的信息和测量结果得到第j个训练感知结果，第一设备可以根据第三感知神经网络、R个训练测量设备的信息和测量结果得到第j个参考感知结果。

另一种可能的设计方案中，第三感知神经网络与选择神经网络可以分开部署，如第三感知神经网络部署第四设备上。此时，第一设备可以接收来自第四设备的第j个训练感知结果和参考感知结果，第四设备可以根据第三感知神经网络、Q个训练测量设备的信息和测量结果，得到第j个训练感知结果，第四设备可以根据第三感知神经网络、R个训练测量设备的信息和测量结果，得到第j个参考感知结果。具体可以参照下述图4示出的训练方法，此处不再赘述。

值得说明的是，第四设备可以是图1示出的第二设备或第三设备，也可以是图1未示出的其他设备。

S302、第一设备确定不满足训练终止条件。

其中，训练终止条件用于终止对选择神经网络的训练。训练终止条件可以包括如下一项或多项：

条件1-1：第j个奖励值大于或者等于奖励值阈值。

其中，第j个奖励值用于强化学习训练，第j个奖励值可以根据第j个训练感知结果的感知精度与第j个参考感知结果的感知精度的差值确定，第j个训练感知结果的感知精度根据第j个训练感知结果与真实感知结果对比得到，所述真实感知结果可以是待感知物体或环境的实际结构或状态等，第j个参考感知结果的感知精度根据第j个参考感知结果与真实感知结果对比得到。例如，训练感知任务为环境重建，真实感知结果可以是该待重建环境的真实图像，第j个训练感知结果和参考感知结果可以是环境重建对应的感知图像，将真实图像分别与两个感知图像对比，通过计算可以得到对应的感知精度，从而得到第j个奖励值。

示例性地，真实图像与感知图像对比计算得到感知精度的过程，可以是将真实图像与感知图像的每个像素的灰度值相减，取绝对值后再取平均，即得到两幅图像的偏差值，偏差值越小，代表感知精度越高。当图像中的灰度值存在明显的双峰分布或多峰分布时，此时可以对每个峰附近的灰度值分别计算偏差值，再对各个峰取平均，这样可以避免灰度值分布不均匀导致训练过拟合。

其中，双峰分布可以是指真实图像的灰度值两极分化，例如，某真实图像的灰度值归一化到0到1之间，发现灰度值主要分布在0附近，和1附近。此时，可以对0附近的像素计算偏差值得到a，同时对1附近的像素计算偏差值得到b，最终得到整体偏差值为a+b。假如0附近的像素个数有10000个，1附近的像素个数只有100个，这种计算方式可以避免神经网络过度优化0附近的像素，让0附近和1附近的像素公平的同步优化，相当于对图像灰度值的各个峰的偏差值加了权重。另外，像素的灰度值的峰分布要以真实图像作为依据，因为感知图像在训练时一直在变化，不能代表真实的分布。

由此可得，感知图像和真实图像的整体偏差值y为：

其中，y表示感知图像与真实图像的整体偏差值，n表示真实图像峰分布的个数，i表示真实图像峰分布的序号，x_i表示第i个真实图像峰分布的偏差值，也可以称为真实图像峰分布i的偏差值。也就是说，感知图像与真实图像的整体偏差值y等于n个真实图像峰分布的偏差值的和。

其中，真实图像峰分布i的偏差值x_i可以是，真实图像属于峰分布i的像素灰度值减去感知图像的同样像素位置的灰度值得到的差值，对差值取绝对值后，再基于差值绝对值得到的平均值。

上述真实图像与感知图像对比计算得到感知精度的具体过程可以参照现有实现过程，在此不再赘述。

第j个奖励值的大小可以表示基于训练后的选择神经网络选择得到的训练感知结果，相比于随机选择得到参考感知结果的感知精度提升值大小。奖励值越大，对应训练得到的选择神经网络越好。

一种可能的设计方案中，第一设备确定第j奖励值；又一种可能的设计方案中，选择神经网络与第三感知神经网络分开部署，第三感知神经网络部署在第四设备上时，第j个奖励值可以由第四设备向第一设备发送，第一设备从第四设备获取第j个奖励值。

条件1-2：选择神经网络的训练次数大于或者等于训练次数阈值。

其中，选择神经网络的训练次数可以是基于一个或多个类型相似的训练感知任务，参考S301-S304的执行次数。

条件1-3：选择神经网络的损失值小于或者等于损失值阈值。

其中，选择神经网络的损失值表示基于训练后的选择神经网络，选择的训练测量设备的测量结果融合得到训练感知结果与真实结果基于损失函数得到损失值，损失值越小，表示训练结果越好。

可以理解的是，若多轮训练后得到的奖励值或损失值基本不再变化(收敛)，第一设备也可以终止对选择神经网络的训练。

可以理解的是，第一设备可以根据上述条件1-1到条件1-3中任意一个进行判断，也可以结合任意两个条件或三个条件一起判断。例如，第一设备可以结合条件1-1和条件1-2一起判断是否结束训练，若同时满足两个条件时，则可以终止训练，若只满足一个条件或两个条件均不满足，则可以继续训练。

由此，S302可以理解为第一设备基于对选择神经网络的训练次数确定是否满足训练终止条件，和/或基于训练过程中的输出的奖励值确定是否满足训练终止条件，即可以参照训练次数和/或奖励值，判断是否停止训练选择神经网络。

S303、第一设备根据选择神经网络、第j个训练感知结果和参考感知结果，选择T个训练测量设备。其中，1≤T＜S，T为正整数。

具体地，S303包括如下步骤3-1至步骤3-2：

步骤3-1、第一设备根据第j个训练感知结果和参考感知结果，确定用于强化学习的第j个奖励值。

步骤3-1的具体描述可以参见上述条件1-1中对应的描述，此处不再赘述。

步骤3-2、第一设备根据选择神经网络、第j个训练感知结果和第j个奖励值，选择T个训练测量设备。

具体地，第一设备将第j个奖励值输入到选择神经网络，第j个奖励值用于更新选择神经网络的参数，第一设备再将第j个训练感知结果和S-Q个训练测量设备的信息，输入更新后的选择神经网络，得到第j+1个训练感知结果，第一设备再根据第j+1个训练感知结果从S-Q个训练测量设备中选择T个训练测量设备。换言之，第j+1次选择可以是从经过前j次选择后的剩余的训练测量设备中选择T个训练测量设备。

值得说明的是，第一设备基于奖励值更新选择神经网络，可以采用梯度上升算法进行更新，具体过程可以参见现有深度强化学习过程，对此不做赘述。

S304、第一设备随机选择P个训练测量设备。

其中，P＝T，P为正整数。第一设备每次随机选择的训练测量设备的个数，与第一设备根据选择神经网络每次选择的训练测量设备的个数相等。该P个训练测量设备可以与第一设备根据选择神经网络已选择的训练测量设备相同，也可以不同，还可以部分相同，部分不同，对此不做限定。P个训练测量设备是第一设备第j+1次随机选择的。

S305、第一设备获取第三感知神经网络输出的第j+1个训练感知结果和参考感知结果。

其中，第j+1个训练感知结果根据Q个训练测量设备的信息和测量结果，以及T个训练测量设备的信息和测量结果确定。第j+1个参考感知结果根据R个训练测量设备的信息和测量结果，以及P个训练测量设备的信息和测量结果确定。由此，S305也可以理解为第一设备根据S303中选择出的T个训练测量设备，以及根据S304中选择出的P个训练测量设备，获取第三感知神经网络输出的第j+1个训练感知结果和参考感知结果。

一种可能的设计方案中，选择神经网络与第三感知神经网络均部署在第一设备上，第一设备可以本地获取第三感知神经网络输出的第j+1个训练感知结果和参考感知结果。

具体地，第一设备可以根据第三感知神经网络、Q个训练测量设备和T个训练测量设备的测量结果，得到第j+1个训练感知结果。也就是说，第一设备将Q个训练测量设备的信息和测量结果，以及S303中选择出的T个训练测量设备的信息和测量结果输入第三感知神经网络中处理后，可以得到第j+1个训练感知结果。类似地，第一设备可以根据第三感知神经网络、随机选择得到的R个训练测量设备的信息和测量结果，以及P个训练测量设备的信息和测量结果，得到第j+1个参考感知结果。

另一种可能的设计方案中，第三感知神经网络与选择神经网络分开部署，如第三感知神经网络部署在第四设备上，第一设备可以接收来自第四设备的第j+1个训练感知结果和参考感知结果。

具体地，第四设备根据第三感知神经网络、Q个训练测量设备和T个训练测量设备的测量结果，得到第j+1个训练感知结果，第四设备向第一设备发送到第j+1个训练感知结果。类似地，第四设备根据第三感知神经网络、R个训练测量设备和P个训练测量设备的测量结果，得到第j+1个参考感知结果，第四设备再向第一设备发送到第j+1个参考感知结果。

由上述可以知道，第一设备每次获取的训练感知结果或参考感知结果，是将当前次选择的训练测量设备的测量结果与之前所有已选择的训练测量设备的测量结果融合处理得到的。

值得说明的是，上述S301-S305描述的是一次训练过程，第一设备可以参考S301-S305，利用训练样本(如训练感知任务、训练测量设备构成的训练样本)进行迭代训练，从而得到训练好的选择神经网络。

例如，第一设备可以根据获得的第j+1个训练感知结果和参考感知结果参考上述S302-S305，进行下一次(如第j+2次)的训练，直至第一设备确定满足训练终止条件，得到训练好的选择神经网络用于执行下述图7-图12示出的测量方法。

下面结合强化学习架构，以及训练交互过程，详细说明本申请实施例提供的训练方法的具体实现过程。其中，第三感知神经网络与选择神经网络分开部署，如第一设备上部署有选择神经网络，第四设备上部署有第三感知神经网络。

示例性地，图4为本申请实施例提供的选择神经网络训练方法的流程示意图二。该训练方法可以适用于图1或图2示出的系统中，具体实现图3示出的训练方法。

如图4所示，该训练方法包括如下步骤：

S401、第一设备接收来自第四设备的第j个训练感知结果和参考感知结果。

S401的具体内容可以参照上述S301的相关描述，此处不再赘述。

S402、第一设备确定是否满足训练终止条件。

其中，训练终止条件的具体内容可以参照上述S302的相关描述。

一种可能的设计方案中，若第一设备确定不满足训练终止条件，则第一设备执行下述S403-S411。

另一种可能的设计方案中，若第一设备确定满足训练终止条件，则第一设备执行下述S412。

S403、第一设备根据选择神经网络、第j个训练感知结果和参考感知结果，选择T个训练测量设备。

S403的具体过程可以参照上述S303，此处不再赘述。

S404、第一设备随机选择P个训练测量设备。

S404的具体过程可以参照上述S304，此处不再赘述。

S405、第一设备向T个训练测量设备发送测量指示信息。

其中，测量指示信息用于指示训练测量设备进行测量，该测量指示信息中可以包括所选择的训练测量设备的信息，例如，T个训练测量设备的标识信息、测量启动指示信息。标识信息可以是训练测量设备的序号或描述，测量启动指示信息可以是位置信息或时间信息，训练测量设备满足测量启动指示信息的测量启动条件时启动测量。

具体地，第一设备分别向所选择的训练测量设备发送测量指示信息，该被选择的训练测量设备根据该测量指示信息进行测量。

一种可能的设计方案中，第一设备可以广播测量指示信息，被选择的训练测量设备在成功获取广播信息后，启动测量。具体地，广播的测量指示信息可以包含在系统消息中，系统消息可以是主消息块(master information block，MIB)或系统消息块(systeminformation block，SIB)，例如，第一设备在SIB消息中指示训练测量设备的标识信息为通信带宽100MHz，测量启动指示信息为距离小区内的A点10米之内。此时，某测量设备在解析了第一设备的系统消息之后，获取了该标识信息和测量启动指示信息。该测量设备符合通信带宽100MHz的描述，当该测量设备移动到距离小区内A点10米的范围内时，该测量设备启动测量，成为训练测量设备。启动测量可以是该测量设备随机接入(random access，RA)第一设备。测量启动指示信息还可以指示测量的周期。

可以理解的是，由于环境的改变或训练测量设备的移动，不同时刻的测量结果可能存在差异，因此第一设备在每一次选择后，在测量启动指示信息中，可以指示被选择的训练测量设备以及测量的周期。测量可以是单次的，也可以是根据环境或设备移动周期性的。即在指示当前次选择的训练测量设备进行测量时，之前已选择的训练测量设备可能也会重新执行测量任务。可选地，第一设备也可以向之前已选择的Q个训练测量设备重新发送测量指示信息。

一种可能的设计方案中，第一设备也可以不发送测量指示信息，例如，之前已选择的Q个训练测量设备周期性地上报或发送测量结果。

S406、第一设备向P个训练测量设备发送测量指示信息。

S406的具体过程可以参照上述S405，在此不再赘述。

S407、第四设备接收来自Q个训练测量设备和T个训练测量设备的测量结果。

对应地，各被选择的训练测量设备完成测量后，向第四设备发送对应的测量结果。

S408、第四设备接收来自R个训练测量设备和P个训练测量设备的测量结果。

对应地，随机选择的训练测量设备完成测量后，向第四设备发送对应的测量结果。

S409、第四设备根据第三感知神经网络、Q个训练测量设备和T个训练测量设备的测量结果，得到第j+1个训练感知结果。

S410、第四设备根据第三感知神经网络、R个训练测量设备和P个训练测量设备的测量结果，得到第j+1个参考感知结果。

上述S409和S410的具体过程可以参照上述S305，此处不再赘述。

S411、第四设备向第一设备发送第j+1个训练感知结果和参考感知结果。

对应的，第一设备接收来自第四设备的第j+1个训练感知结果和参考感知结果。

进一步地，第一设备收到第j+1个训练感知结果和参考感知结果后，参考上述S402判断是否满足训练终止条件，若不满足，第一设备参考上述S403-S411进行下一次的训练，直至第一设备确定满足训练终止条件，执行下述S412。

S412、第一设备结束对选择神经网络的训练。

具体地，第一设备对选择神经网络的训练，可以表示选择神经网络训练完成。

可以理解的是，上述S401-S411示出的是对选择神经网络的一次训练过程，要完成对选择神经网络的训练过程，可以参考上述S401-S411进行多次训练。

需要理解的是，上述S403、S404、S405、S406、S407、S408的执行顺序可以调整，不对其执行顺序做具体限定。如可以在执行S403、S405、S407后再执行S404、S406、S408，也可以在执行S403后执行S405、S404、S406、S407、S408。

值得说明的是，选择神经网络的训练也可以由第一设备独立完成，如第三感知神经网络与选择神经网络均部署在第一设备上，具体训练过程可以参照图3示出的训练方法，对此不再详细描述。

需要说明的是，上述图3-图4示出的训练过程是结合强化学习训练得到。

示例性地，图5示出了一种深度强化学习的结构示意图。如图5所示，第一设备为强化学习的执行主体(即智能体)，第一设备根据选择神经网络进行决策，第一设备与环境进行交互，其中，该环境中可以包括第三感知神经网络和S个训练测量设备，第三感知神经可以部署在第四设备上。

图5中，第一设备可以对环境观察得到当前状态，如上述S401，再根据选择神经网络进行决策，如上述S403、S404，并输出一个动作，该动作可以是上述S405和S406，环境接收该动作并执行该动作后，使得状态发生改变，同时基于当前状态得到一个奖励值(或者可以称为回报值)，反馈给第一设备，如上述S407、S408、S409，第一设备再根据当前状态和反馈的奖励值进行下一动作，如参考S402-S411迭代执行，直至满足上述训练终止条件。

值得说明的是，本申请实施例中，为了保证感知神经网络可以融合任意数量的测量结果，并给出尽可能准确的感知结果，在融合多个测量结果时，每增加一个测量结果，可以输出一个感知结果，并把它和真实感知目标计算损失值，并利用该损失值训练感知神经网络。

示例性地，图6示出了一种感知神经网络的损失值计算的结构示意图。该感知神经网络包括第一多层感知机(multilayer perceptron，MLP)、第一卷积神经网络(convolutional neural network，CNN)和第二CNN。

以环境重建为例，图6示出了感知神经网络融合三个训练测量设备的测量结果，从而得到用于训练的损失值的处理过程。其中，训练测量设备1-3可以是网络设备，也可以是终端设备，位置信息和场景比例尺表示训练测量设备的信息，信道测量数据表示训练测量设备的测量结果。

具体地，第一设备可以将训练测量设备1的位置信息和场景比例尺输入感知神经网络中，利用第一MLP提取该数据的特征，如特征A1，信道测量数据输入利用第一CNN提取该数据的特征，如特征B1，再将训练测量设备1的特征A1和特征B1拼接得到特征C1，此时只有一个训练测量设备，所以特征D1就是特征C1，并将特征C1利用第二CNN处理后得到重建图像1，并将重建图像1和真实图像计算偏差值，得到损失值1。同理，训练测量设备2的信息和测量结果经过第一CNN、第一MLP等处理后的特征C2，此时，将训练测量设备1的特征C1和训练测量设备2的特征C2相加得到特征D2，再利用第二CNN将特征D1处理后得到重建图像2，并将重建图像2和真实图像计算偏差值，得到损失值2。同理，训练测量设备3的信息和测量结果经过第一CNN、第一MLP等处理后的特征C3，在得到训练测量设备3的特征C3后，将训练测量设备1的特征C1、训练测量设备2的特征C2和训练测量设备3的特征C3相加得到特征D3，再利用第二CNN将特征D2处理后得到重建图像3，并将重建图像3和真实图像计算偏差值，得到损失值3。

在训练感知神经网络时，采用的损失值为：

损失值＝损失值1+损失值2+损失值3。

值得说明的是，如果只利用损失值3进行训练，感知神经网络只能在融合三个测量设备时工作的很好。相反，在增量获取测量结果的同时，损失值也是增量的计算并用于训练，这样可以保证无论获取的测量结果是1个、两个或三个，都可以得到尽可能好的感知结果。当然，也可以根据实际情况调整每种损失值的权重，例如，某场景下，融合两个测量设备的情况较多，可以适当增加损失值2的权重。即训练感知神经网络的损失值还可以表示为：

损失值＝权重1*损失值1+权重2*损失值2+权重3*损失值3。

感知神经网络的损失值可以根据融合场景以及测量结果个数等确定，对此不做限定。具体如何利用损失值训练感知神经网络的过程可以参照现有实现方式，在此不再赘述。此外，本申请实施例涉及的第一感知神经网络、第二感知神经网络和第三感知神经网络的训练过程均可以基于图6示出的过程实现。

值得说明的是，上述训练过程中选择神经网络和第三感知神经网络的处理过程，与下述测量方法中选择神经网络和第一感知神经网络的处理过程类似，因此下述测量方法中选择神经网络和第一感知神经网络的处理过程可以参照上述训练过程中的相关描述。

基于上述图3-图6示出的训练方法，可以得到用于实现下述测量方法的选择神经网络和感知神经网络。下面结合图7-图14对本申请实施例提供的测量方法进行详细描述。

示例性地，图7为本申请实施例提供的测量方法的流程示意图一。该测量方法可以适用于图1所示的系统中的第一设备。

如图7所示，该测量方法包括如下步骤：

S701、第一设备获取第一感知神经网络输出的第k个第一感知结果。

其中，第一感知神经网络用于第一感知任务，第一感知结果表示执行第一感知任务得到的结果，第k个第一感知结果表示第一设备选择k次测量设备，并根据第k次选择的测量设备的测量结果得到感知结果。

具体地，第k个第一感知结果根据N个测量设备的信息和测量结果确定，N个测量设备根据选择神经网络从M个测量设备中选择k次得到，该选择神经网络可以部署在第一设备上，M个测量设备为可用于完成第一感知任务的所有测量设备，1≤k≤N＜M，k、M、N为正整数。其中，测量设备的信息可以是该测量设备的标识信息、位置信息、状态信息、测量结果上报周期信息等有利于选择测量设备的信息。

例如，当k＝1时，N个测量设备为第一设备根据选择神经网络从M个测量设备中选择1次得到的(如第1次选择)，此时，N个测量设备至少为1个测量设备，第1个第一感知结果根据第1次选择得到的至少1个测量设备的测量结果得到。又例如，当k＝2时，N个测量设备为第一设备根据选择神经网络从M个测量设备中选择2次得到的，N个测量设备包括第1次选择的测量设备和第2次选择的测量设备，此时，N个测量设备至少为2个测量设备，第2个感知结果根据2次选择得到的至少2个测量设备的测量结果得到。也就是说，第一设备每次根据选择神经网络选择的测量设备个数至少为1个。其中，测量设备的测量结果可以参照上述系统实施例中的相关描述，此处不再赘述。

示例性地，在图2示出的场景中，第一感知任务为环境重建，测量设备可以是该场景中的网络设备和/或终端设备，网络设备和/或终端设备的总个数为M个，第一设备可以是图2中任意一个网络设备或终端设备，第一设备根据选择神经网络从M个测量设备中选择k次得到的N个测量设备，可以是N个网络设备，可以是N个终端设备，还可以是选择k次得到的网络设备和终端设备总数为N个，N个测量设备的测量结果可以是信道测量数据。

值得说明的是，N个测量设备为第一设备根据选择神经网络经过k次选择得到的，当k＞1时，后续选择过程(如从第2次开始)，第一设备根据选择神经网络进行第1次测量设备的选择的过程，与后续选择过程不同，第一设备根据选择神经网络每次选择测量设备，可以将第一感知神经网络当前输出的第一感知结果作为选择神经网络下一次选择的输入。

例如，k＝4，在进行第2次选择时，利用第一感知神经网络对第1次选择的测量设备的信息以及测量结果进行融合处理，得到第1个第一感知结果，将第1个第一感知结果作为选择神经网络的输入得到第1个选择结果，进而根据第1个选择结果确定出一个或者多个测量设备，该过程可以称为第2次选择过程。同理，在进行第3次选择，利用第一感知神经网络对第1次和第2次选择的测量设备的信息以及测量结果进行融合处理，得到第2个第一感知结果，将第2个第一感知结果作为选择神经网络的输入得到第3个选择结果，进而根据第3个选择结果确定出一个或者多个测量设备，该过程可以称为第3次选择过程。同理，在进行第4次选择，利用第一感知神经网络对第1次、第2次和第3次选择的测量设备的信息以及测量结果进行融合处理，得到第3个第一感知结果，将第3个第一感知结果作为选择神经网络的输入得到第4个选择结果，进而根据第4个选择结果确定出一个或者多个测量设备，该过程可以称为第4次选择过程。第一设备每次选择测量设备的具体过程可以参照下述S702-S704，此处不再赘述。

其中，第一设备第1次(k＝1)选择测量设备，可以根据选择神经网络、第一感知任务和M个测量设备的信息确定。具体地，第一设备根据第一感知任务和M个测量设备的信息初始化，得到第一初始感知结果，第一设备将第一初始感知结果和M个测量设备的信息输入选择神经网络处理后，得到第1个选择结果。

例如，第一感知任务为环境重建，第一设备可以确定第一初始感知结果为空白的环境描述，当环境描述为建筑轮廓的二维俯视图时，可以是一幅没有建筑物的空白图像。又例如，第一感知任务为定位，可以确定第一初始感知结果为初始位置坐标，如坐标为(0,0)。还例如，第一感知任务为判断环境中是否有人，若第一感知神经网络输出的值为1，表示有人，输出的值为0表示没有人，则第一初始感知结果可以为0。再比如，第一感知任务为手势识别，若第一感知神经网络输出的1-m分别表示m种手势，m＞1，m为正整数，则第一初始感知结果可以是随机的一个手势或者空白手势。

一种可能的设计方案中，第一感知神经网络可以部署在第一设备上。换言之，第一设备上可以部署有选择神经网络和第一感知神经网络，此时第一设备可以从本地获取第一感知神经网络输出的第k个第一感知结果。具体可以参见下述图10示出的方法实施例。

另一种可能的设计方案中，第一感知神经网络可以与选择神经网络分开部署。如第一感知神经网络部署在图1示出的第二设备上，此时第一设备可以接收来自第二设备的第k个第一感知结果。具体地，第二设备将N个测量设备的测量结果输入第一感知神经网络中，融合处理后输出第k个第一感知结果，再向第一设备发送第k个第一感知结果。具体可以参照下述图12示出的方法实施例。

图8示出了本申请实施例提供的第一感知神经网络融合处理的结构示意图，可以应用于第一设备或第二设备中。第一感知任务为环境重建，图8示出的第一感知神经网络可以包括第一多层感知机(multilayer perceptron，MLP)、第一卷积神经网络(convolutional neural network，CNN)和第二CNN。

如图8所示，在进行环境重建的感知任务时，第一设备或第二设备可以将N个测量设备的信息(如被选择的网络设备或终端设备的位置信息和场景比例尺)和测量结果(如信道测量数据)输入第一感知神经网络，对于每一个被选择的网络设备或终端设备的位置信息和场景比例尺，利用第一MLP提取该数据的特征，如特征A，对于每一个被选择的网络设备或终端设备的信道测量数据，利用第一CNN提取该数据的特征，如特征B，并将同一网络设备或终端设备的特征A和特征B拼接得到特征C，并将N个测量设备对应的特征C融合在一起，如采用注意力机制或特征相加的方式将N个特征C融合在一起得到特征D，最后将融合后得到的特征D利用第二CNN处理后得到第k个第一感知结果(如第k个环境重建图像)。

可以理解的是，上述特征A-D可以表示经过神经网络处理后得到的特征向量，具体可以参见现有实现方式，在此不再赘述。另外，图8示出的第一感知神经网络的结构是基于环境重建感知任务设计的，基于不同的感知任务，处理的数据类型不同，第一感知神经网络的结构可以有所不同，对此不做具体限定。

值得说明的是，选择神经网络可以是第一设备基于上述图3或图4示出的训练方法训练得到的，第一感知神经网络可以是图1中的第一设备或第二设备利用随机选择策略监督学习独立训练得到。

S702、第一设备确定不满足选择终止条件。

其中，选择终止条件用于指示第一设备结束对测量设备的选择，可以表示第一感知任务执行完成。第一设备可以根据选择终止条件确定是否继续选择测量设备。

具体地，第一设备可以根据如下一项或多项选择终止条件确定：

条件2-1：第k个第一感知结果的准确度大于或者等于准确度阈值。

其中，第k个第一感知结果的准确度可以表示第k个第一感知结果与真实结果的比值，其准确度越高表示第一感知结果越接近于真实结果。若第k个第一感知结果的准确度未达到设定的准确度阈值，则进行下一次测量设备的选择，如执行下述S703-S705，进行第k+1次测量设备的选择。

可以理解的是，第k个第一感知结果与真实结果的误差也可以表示第k个第一感知结果的准确度，第k个第一感知结果与真实结果的误差越小，准确度越高。对于准确度的相关描述不做具体限定。

条件2-2：第一设备选择测量设备的选择次数大于或者等于选择次数阈值。

其中，第一设备选择测量设备的选择次数即当前第一设备已选择的次数，如上述k次，若第一设备选择测量设备的次数未达到最大选择次数(如设定的选择次数阈值)，则进行下一次测量设备的选择，如执行下述S703-S704，进行第k+1次测量设备的选择。

另外，若第一设备确定不满足上述条件2-1和条件2-2，则第一设备可以不再进行下一次测量设备的选择，如不再执行下述S703-S704，即不再进行第k+1次测量设备的选择。

值得说明的是，若第k个第一感知结果的准确度与前几个已输出的第一感知结果的准确度相比，准确度提升值基本无变化或是变化极小，例如，第一感知结果的准确度从第k-4个第一感知结果开始，到第k个第一感知结果，其准确度变化极小，则第一设备也可以不再进行下一次测量设备的选择。

可以理解的是，第一设备可以基于上述条件2-1和条件2-2中的一个或多个进行判断，例如，第一设备可以结合条件2-1和条件2-2一起判断是否结束对测量设备的选择，当确定同时满足条件2-1和条件2-2时，则可以结束对测量设备的选择，当确定只满足其中一个条件或两个条件均不满足时，则可以继续进行测量设备的选择。

因此，S702也可以理解为第一设备在基于选择神经网络选择测量设备，并基于选择的测量设备的测量结果得到第一感知结果后，可以参照选择次数和/或第一感知结果，判断是否结束对测量设备的选择。

S703、第一设备根据选择神经网络和第k个第一感知结果选择L个测量设备。

其中，1≤L＜M，L为正整数。

进一步地，1≤L＜M-N。具体地，第一设备可以根据选择神经网络、第k个第一感知结果和M-N个测量设备的信息，选择L个测量设备(如进行第k+1次选择)。其中，M-N个测量设备表示减去前k次已选择的测量设备后，尚未被选择的测量设备。

图9示出了本申请实施例提供的一种选择神经网络处理的结构示意图，可以应用于第一设备中。第一感知任务为环境重建，图9示出的选择神经网络可以包括第三CNN、第二MLP和第三MLP。

如图9所示，在进行环境重建的感知任务时，第一设备将第k个第一感知结果(如第k个环境重建图像)，以及M-N个测量设备的信息(如未被选择的网络设备或终端设备的位置信息和场景比例尺)，输入第一感知神经网络，第k个环境重建图像利用第三CNN提取出特征E，每一个未被选择的网络设备或终端设备的位置信息和场景比例尺，利用第二MLP提取出特征F，再将每一个未被选择的网络设备或终端设备对应的特征F与特征E拼接得到特征G，即M-N个特征G，然后将M-N个特征G融合得到特征H，类似地，例如利用注意力机制或特征相加的方式进行融合，最后将特征H利用第三MLP处理后，得到第k+1个选择结果，第一设备可以根据第k+1个选择结果选择L个测量设备(如L个网络设备，或者是L个终端设备，或者是网络设备和终端设备总个数为L)。

一种可能的设计方案中，第一设备选择测量设备时，可以选择之前已被选择的测量设备。例如，已被选择的测量设备的移动，测量设备会重新上报测量设备的信息，第一设备可以根据更新的测量设备的信息(如位置信息)重新选择该测量设备。又例如，环境发生改变，测量结果可能会发生改变，第一设备也可以重复选择之前已被选择的测量设备。

示例性地，如图9所示，在进行环境重建的感知任务时，第一设备将第k个第一感知结果(如第k个环境重建图像)和M个测量设备，输入第一感知神经网络，此时，未被选择的网络设备或终端设备的位置信息和场景比例尺可以是M个网络设备或终端设备的位置信息和场景比例尺，也可以称为待选择的网络设备或终端设备的位置信息和场景比例尺，第k个环境重建图像利用第三CNN提取出特征E，每一个未被选择的网络设备或终端设备的位置信息和场景比例尺，利用第二MLP提取出特征F，再将每一个未被选择的网络设备或终端设备对应的特征F与特征E拼接得到特征G，即M个特征G，然后将M个特征G融合得到特征H，类似地，例如利用注意力机制或特征相加的方式进行融合，最后将特征H利用第三MLP处理后，得到第k+1个选择结果，第一设备可以根据第k+1个选择结果选择L个测量设备(如L个网络设备，或者是L个终端设备，或者是网络设备和终端设备总个数为L)。

类似的，上述特征E-H也可以表示经过神经网络处理后得到的特征向量，具体可以参见现有实现方式，在此不再赘述。另外，图9示出的选择神经网络的结构是基于环境重建感知任务设计的，基于不同的感知任务，处理的数据类型不同，选择神经网络的结构也可以有所不同，对此不做具体限定。

可以理解的是，选择神经网络输出的选择结果可以是概率值，第一设备可以根据输出的概率值选择对应的测量设备。

一种可能的设计方案中，第一设备可以根据选择神经网络、第i个第二感知结果和第k个第一感知结果，选择L个测量设备。其中，第二感知神经网络用于第二感知任务，第i个第二感知结果根据H个测量设备的测量结果确定，H个测量设备根据选择神经网络从W个测量设备中选择i次得到，1≤i≤H＜W，i、H、W为正整数。第二感知神经网络可以部署在图1示出的第三设备上，W个测量设备可以与上述M个测量设备相同，也可以不同。具体可以参见下述图12示出的方法实施例。

可以理解的是，第一设备选择好L个测量设备后，可以根据所选择测量设备的标识向所选择的L个测量设备发送测量指示信息，该测量指示信息用于指示被选择测量设备进行测量。

S704、第一设备获取第一感知神经网络输出的第k+1个第一感知结果。

一种可能的设计方案中，第一感知神经网络部署在第一设备上，第一设备可以本地获取第一感知神经网络输出的第k+1个第一感知结果。具体地，第一设备将N个测量设备和L个测量设备的测量结果、以及N个测量设备和L个测量设备的信息输入第一感知神经网络，经过第一感知神经网络对该N个测量设备和L个测量设备的测量结果融合处理后，得到第k+1个第一感知结果。其中，N个测量设备和L个测量设备的信息和测量结果可以是所述N个测量设备和L个测量设备向第一设备发送的。

另一种可能的设计方案中，第一感知神经网络部署在其他设备上，如第二设备，第一设备可以接收来自第二设备的第k+1个第一感知结果。具体地，第二设备接收来自所述N个测量设备和L个测量设备的信息和测量结果，将N个测量设备和L个测量设备的信息和测量结果输入第一感知神经网络，得到第k+1个第一感知结果，然后第二设备向第一设备发送第k+1个第一感知结果。

基于上述两种设计方案中，示例性地，第一感知任务为环境重建，第k+1个第一感知结果为第k+1个环境重建图像，第一设备或第二设备根据第一感知神经网络处理得到第k+1个环境重建图像的过程，可以参考上述图8示出的处理过程。

进一步地，第一设备获取到第k+1个第一感知结果后，参考上述S702判断是否继续下一次(如第k+2次)测量设备的选择，若需要继续选择测量设备，则利用第k+1个第一感知结果参考S703-S704继续执行，直至第一设备确定满足选择终止条件。

可以理解的是，第一设备在每次选择测量设备的过程中，选择终止条件中的比较的参数是每次变化的。例如，第一设备进行第k+2次选择之前，第一设备是根据第k+1个第一感知结果的准确度判断是否达到准确度阈值，或者是第一设备根据k+1次判断是否达到选择次数阈值。

下面结合交互流程以及具体的应用场景，对图7示出的测量方法进行详细说明。

示例性地，图10示出了本申请实施例提供的测量方法的流程示意图二。其中，第一设备上部署有选择神经网络和第一感知神经网络。

如图10所示，该测量方法包括如下步骤：

S1001、第一设备获取第一感知神经网络输出的第k个第一感知结果。

具体地，第一设备将N个测量设备的信息和测量结果，输入第一感知神经网络，该N个测量设备根据选择神经网络从M个测量设备中选择k次得到，第一感知神经网络对N个测量设备的信息和测量结果融合处理后，得到第k个第一感知结果。

其中，N个测量设备的信息和测量结果可以是所述N个测量设备向第一设备发送的。第一设备根据选择神经网络从M个测量设备中选择k次得到的N个测量设备的过程，除第1次测量设备的选择之外，后续每次测量设备的具体过程可以参考S1001-S1006。而第1次测量设备的选择的具体过程可以参照上述S701中的相关描述，此处不再赘述。

S1002、第一设备确定是否满足选择终止条件。

其中，选择终止条件可以参见上述S702的具体描述，此处不再赘述。

一种可能的设计方案中，若第一设备确定满足选择终止条件，则第一设备执行下述S1007。

另一种可能的设计方案中，若第一设备确定不满足选择终止条件，则第一设备执行下述S1003-S1006。

S1003、第一设备根据选择神经网络和第k个第一感知结果选择L个测量设备。

S1003的具体过程也可以参照上述S703，此处不再赘述。

S1004、第一设备向L个测量设备发送测量指示信息。

其中，测量指示信息用于指示被选择的测量设备进行测量，该测量指示信息可以包括被选择测量设备的标识信息、测量启动指示信息等信息。标识信息可以是测量设备的序号或描述，测量启动指示信息可以是位置信息或时间信息，训练测量设备满足测量启动指示信息的测量启动条件时启动测量。具体地，第一设备可以根据被选择的L个测量设备的标识信息，分别向该L个测量设备发送测量指示信息，被选择的L个测量设备根据测量指示信息进行测量。

一种可能的设计方案中，第一设备可以广播测量指示信息，被选择的测量设备在成功获取广播信息后，启动测量。具体地，广播的测量指示信息可以包含在系统消息中，系统消息可以是主消息块(master information block，MIB)或系统消息块(systeminformation block，SIB)，例如，第一设备在SIB消息中指示测量设备的标识信息为通信带宽100兆赫兹(mega hertz，MHz)，测量启动指示信息为距离小区内的A点10米之内。此时，某测量设备在解析了第一设备的系统消息之后，获取了该标识信息和测量启动指示信息。该测量设备符合通信带宽100MHz的描述，当该测量设备移动到距离小区内A点10米的范围内时，该测量设备启动测量，成为测量设备。启动测量可以是该测量设备随机接入(randomaccess，RA)第一设备。测量启动指示信息还可以指示测量的周期。

可以理解的是，由于环境的改变或训练测量设备的移动，不同时刻的测量结果可能存在差异，因此第一设备在每一次选择后，在测量启动指示信息中，可以指示被选择的测量设备以及测量的周期。测量可以是单次的，也可以是根据环境或设备移动周期性的。即在指示当前次选择的测量设备进行测量时，之前已选择的测量设备可能也会重新执行测量任务。可选地，第一设备也可以向之前已选择的N个测量设备重新发送测量指示信息。

一种可能的设计方案中，第一设备也可以不发送测量指示信息，例如，之前已选择的N个测量设备周期性地上报或发送测量结果。

S1005、第一设备接收来自L个测量设备和N个测量设备的测量结果。

具体地，被选择的L个测量设备和N个测量设备完成测量后，向第一设备发送对应的测量结果。

S1006、第一设备根据第一感知神经网络、N个测量设备和L个测量设备的测量结果，得到第k+1个第一感知结果。

S1006的具体过程可以参照上述S704中的相关描述。

进一步地，第一设备获取到第k+1个第一感知结果后，第一设备可以参考上述S1002-S1006进行后续测量设备设备的选择过程，直至第一设备确定满足选择终止条件。

例如，第一设备获得第8个第一感知结果后，确定不满足选择结束条件，第一设备可以再进行第9次、第10次测量设备的选择，该第9次和第10次测量设备的选择，可以参考上述S1002-S1006。

S1007、第一设备结束对测量设备的选择。

例如，第一设备在经过15次选择后，参考上述S1002中的选择终止条件，确定满足选择终止条件中的一项或多项，如第一设备确定第15个第一感知结果的准确度达到准确度阈值，则第一设备就不再进行第16次测量设备的选择，可以表示第一感知任务执行完成。

上述图10示出的测量方法，是基于选择神经网络和第一感知神经网络均部署在第一设备上实现的。在具体实现过程中，选择神经网络可以与第一感知神经网络分开部署，如选择神经网络部署在第一设备上，第一感知神经网络部署在第二设备上。示例性地，图11示出了本申请实施例提供的测量方法的流程示意图三。

如图11所述，该测量方法包括如下步骤：

S1101、第一设备接收来自第二设备的第k个第一感知结果。

具体地，第二设备将N个测量设备的信息和测量结果输入第一感知神经网络中，融合处理后输出第k个第一感知结果，再向第一设备发送第k个第一感知结果。

其中，N个测量设备的信息和测量结果可以是所述N个测量设备向第二设备发送的，第一设备根据选择神经网络从M个测量设备中选择k次得到的N个测量设备的过程，除第1次测量设备的选择之外，后续每次测量设备的具体过程可以参考S1101-S1106。而第1次测量设备的选择的具体过程可以参照上述S701中的相关描述，此处不再赘述。

S1102、第一设备确定是否满足选择终止条件。

一种可能的设计方案中，若第一设备确定满足选择终止条件，则第一设备执行下述S1108。

另一种可能的设计方案中，若第一设备确定不满足选择终止条件，则第一设备执行下述S1103-S1107。

S1103、第一设备根据选择神经网络和第k个第一感知结果选择L个测量设备。

S1103的具体过程也可以参照上述S703中的相关描述，此处不再赘述。

S1104、第一设备向L个测量设备发送测量指示信息。

S1104的具体过程也可以参照上述S1004，此处不再赘述。

S1105、第二设备接收来自L个测量设备和N个测量设备的测量结果。

具体地，L个测量设备和N个测量设备根据测量指示信息完成测量后，向第二设备发送测量结果。

可选地，第二设备还可以接收L个测量设备和N个测量设备的信息。如该L个测量设备和N个测量设备的位置信息、状态信息等。

可选地，L个测量设备和N个测量设备的信息，可以是L个测量设备和N个测量设备向第二设备发送的，也可以是第一设备向第二设备发送的。

S1106、第二设备根据第一感知神经网络、N个测量设备和L个测量设备的测量结果，得到第k+1个第一感知结果。

S1106的具体过程可以参照上述S704中的相关描述，此处不再赘述。

S1107、第一设备接收来自第二设备的第k+1个第一感知结果。

具体地，第一设备获取到第k+1个第一感知结果后，参考上述S1102-S1107进行后续测量设备的选择，直至满足选择终止条件，执行下述S1108。

S1108、第一设备结束对测量设备的选择。

具体地，第一设备结束对测量设备的选择，可以表示已完成第一感知任务。

例如，第一设备经过15次测量设备选择后，得到第15个第一感知结果，第一设备可以参考上述S702中关于选择终止条件进行判断，如第一设备确定第15个第一感知结果的准确度达到准确度阈值，则第一设备不再参考上述S1103-S1107进行第16次测量设备的选择。

基于上述图7、图10和图11示出的测量方法，是一个增量选择和感知融合的过程，第一设备每次选择测量设备是利用当前得到的第一感知结果进行的，第一感知结果则是基于第一设备当前次选择的测量设备与之前已选择的测量设备的测量结果融合得到的，第一设备重复前述选择、融合过程，可以得到更为精准的感知结果。

进一步地，第一设备还可以协调多个感知任务，对测量设备进行选择，从而实现多个感知任务。示例性地，图12示出了本申请实施例提供的测量方法的流程示意图四。其中，第一设备上部署有选择神经网络，第二设备上部署有第一感知神经网络，第二设备上部署有第二感知神经网络。

如图12所示，该测量方法包括如下步骤：

S1201、第一设备接收来自第二设备的第k个第一感知结果。

S1201的具体过程可以参照上述S701或S1101。

S1202、第一设备接收来自第三设备的第i个第二感知结果。

其中，第三设备上部署有第二感知神经网络，第二感知神经网络用于第二感知任务。该第二感知任务与第一感知任务之间具备关联性，例如，第一感知任务为环境重建，第二感知任务为跟踪定位，跟踪定位可以在当前重建的环境中执行，第一感知任务(环境重建)获得的第一感知结果(如环境图像)对于第二感知任务(跟踪定位)有辅助提升作用，第二感知任务获得的第二感知结果对于第一感知任务来说也是有价值的信息。

上述第i个第二感知结果根据H个测量设备的测量结果确定，H个测量设备根据选择神经网络从W个测量设备中选择i次得到，1≤i≤H＜W，i、H、W为正整数。

其中，W个测量设备可以与上述M个测量设备是完全不同的测量设备，例如测量设备的个数、测量设备的类型以及位置不同，W个测量设备也可以是上述M个测量设备，第一感知任务和第二感知任务根据相同的测量设备执行完成。第i个第二感知结果的处理过程可以参照上述第k个第一感知结果的处理过程，此处不再赘述。

S1203、第一设备确定不满足选择终止条件。

S1203的具体内容可以参照上述S702的具体描述，此处不再赘述。

值得说明的是，第一设备除了判断完成第一感知任务是否满足选择终止条件，也可以判断完成第二感知任务是否满足选择终止条件。判断第二感知任务的选择终止条件与第一感知任务类似，可以根据感知任务的类型进行调整，对此不做限定。

S1204、第一设备根据选择神经网络、第k个第一感知结果和第i个第二感知结果，选择L个测量设备。

具体地，第一设备根据第i个第二感知结果更新第k个第一感知结果，再将更新后的第k个第一感知结果输入选择神经网络，利用选择神经网络对更新后的第k个第一感知结果和M-N个测量设备的信息进行处理，如上述图9示出的处理过程，输出第k+1个选择结果，第一设备可以根据第k+1个选择结果确定选择的L个测量设备。

值得说明的是，第一设备基于第一感知任务进行第1次选择与后续选择过程不同。

具体地，在第一设备基于第一感知任务进行第1次选择之前，第一设备可以根据第一感知任务和M个测量设备的信息确定第一初始感知结果，可以根据第二感知任务和W个测量设备的信息确定第二初始感知结果。

示例性地，第一感知任务为环境重建，第一设备确定的第一初始感知结果可以是空白图像，第二感知任务为跟踪定位，第一设备确定的第二初始感知结果可以是初始位置坐标(0,0)。

进一步地，第一设备基于第一感知任务进行第1次选择时，第一设备可以根据选择神经网络、第一初始感知结果和第i个第二感知结果确定第1次选择的测量设备。具体地，第一设备根据第i个第二感知结果更新第一初始感知结果，再将更新后的第一初始感知结果输入选择神经网络，利用选择神经网络对第一初始感知结果和M个测量设备的信息确定第1次选择的测量设备。

其中，第i个第二感知结果也可以是第一设备经过1次测量设备选择后得到的，即i＝1。类似的，第一设备基于第二感知任务进行第1次选择的测量设备，第一设备可以根据选择神经网络、第二感知任务和W个测量设备的信息确定第1次选择的测量设备，具体可以参见上述第一设备基于第一感知任务，进行第1次测量设备选择的过程，此处不再赘述。

可选地，第i个第二感知结果也可以是第一设备经过多次测量设备选择后得到的，即i＞1。例如，第一设备选择了3次测量设备，第i个第二感知结果为第3个第二感知结果，第3个第二感知结果可以根据第二感知神经网络、和第一设备3次选择的测量设备的测量结果确定。其中，第一设备基于第二感知任务，进行第2次和第3次测量设备选择后，得到第3个第二感知结果的过程，可以参照上述S701-S704或S1101-S1106，此处不再赘述。

S1205、第一设备向L个测量设备发送测量指示信息。

S1205的具体过程可以参照上述S1004和/或S1104，此处不再赘述。

S1206、第二设备接收来自L个测量设备的测量结果。

S1206的具体过程可以参照上述S1105，此处不再赘述。

S1207、第二设备根据第一感知神经网络、N个测量设备和L个测量设备的测量结果，得到第k+1个第一感知结果。

S1207的具体过程可以参照上述S704中的相关描述，此处不再赘述。

S1208、第一设备接收来自第二设备的第k+1个第一感知结果。

一种可能的设计方案中，第一设备得到第k+1个第一感知结果后，第一设备可以根据选择神经网络、第k+1个第一感知结果和第i个第二感知结果，基于第二感知任务，进行第i+1次测量设备的选择，得到第i+1个第二感知结果。具体地，第一设备基于第二感知任务进行第i+1次测量设备的选择，可以参考第一设备基于第一感知任务进行第k+1次测量设备的选择过程，如上述S1204。

进一步地，第一设备可以再根据选择神经网络、第i+1个第二感知结果和第k+1个第一感知结果，基于第一感知任务进行第k+2次测量设备的选择。

另一种可能的设计方案中，第一设备得到第k+1个第一感知结果后，第一设备可以参考上述S1102-S1107，再进行多次测量设备的选择，如从第k+1次到第k+3次，进而得到第k+3个第一感知结果。

进一步地，第一设备可以再根据选择神经网络、第k+3个第一感知结果和第i个第二感知结果，基于第二感知任务，进行第i+1次测量设备的选择，得到第i+1个第二感知结果。具体过程仍可以参考上述S1204。

再进一步地，第一设备得到第i+1个第二感知结果后，第一设备也可以参考上述S1102-S1107，再次进行多次测量设备的选择，如从第i+1次到第i+5次，进而得到第i+5个第二感知结果。

更进一步地，第一设备再根据选择神经网络、第i+5个第二感知结果和第k+3个第一感知结果，基于第一感知任务，进行第k+4次测量设备的选择，具体过程仍可以参考上述S1204。

由此，上述两种可能的设计方案中，第一设备可以基于第一感知任务和第二感知任务交替进行测量设备的选择，利用一个感知任务的感知结果去提升另一个感知任务的感知结果的精度，直至第一设备确定满足选择终止条件，从而可以得到最为精准的第一感知结果和第二感知结果。

值得说明的是，第一设备可以协调两个及以上的感知任务，具体可以参照上述S1201-S1208，对此不做具体限定。可以理解的是，两个以上的感知任务，两两之间也应该具备相关性。

示例性地，以环境重建作为第一感知任务，图13示出了第一感知结果与参考感知结果的感知结果对比示意图。

如图13所示，分别示出了基于本申请实施例提供的测量方法，选择1次、5次、10次和15次测量设备得到的第一感知结果，与随机选择1次、5次、10次和15次测量设备得到的参考感知结果，每次选择1个测量设备。可以看出，基于本申请实施例提供的测量方法在经过第5次选择后，得到第一感知结果和真实环境已经较为接近了，而随机选择15次后，得到的参考感知结果仍与真实环境相差较大。由此可以看出，利用本申请实施例提供的测量方法得到的感知结果的精度大幅度提升，在相同感知精度的需求下，可以大幅度减少测量设备的数量，进而可以减少空口和计算资源开销，从而提高感知效率。

进一步地，图14示出了第一感知结果与参考感知结果的感知结果的损失值变化曲线图。

如图14所示，虚线表示随机选择得到参考感知结果与真实环境对比的损失值变化，实线表示基于本申请实施例提供的测量方法得到的第一感知结果与真实环境对比的损失值变化。

其中，随着测量设备个数的增加，基于本申请实施例提供的测量方法得到的第一感知结果对应的损失值，一直小于随机选择得到参考感知结果对应的损失值。可以理解的是，损失值越小，对应的感知精度越高。因此，图14也可以表示为第一感知结果与参考感知结果的感知精度变化曲线图。

图14也可以看出，利用本申请实施例提供的测量方法得到的感知结果的精度大幅度提升，在相同感知精度的需求下，本申请实施例提供的测量方法可以大幅度减少测量设备的数量，进而可以减少空口和计算资源开销。

基于图7-图12任一所示的测量方法，第一设备在执行感知任务时，可以根据第一感知神经网络上一次输出的第一感知结果结合选择神经网络，进行当前次测量设备的选择，第一感知神经网络上一次输出的第一感知结果则是，根据之前已选择测量设备的测量结果融合得到的，并结合当前次选择的测量设备和之前已选择的测量设备的测量结果，得到经过当前次选择后融合的第一感知结果。由此，第一设备基于每次选择后得到的第一感知结果，通过迭代方式实现了测量设备的增量选择，使得每一次选择的测量设备所得的测量结果均有利于感知结果的提升，第一感知结果也是根据增量选择的测量设备的测量结果融合得到的，从而实现了增量感知过程，不仅可以避免测量设备的冗余选择，减少数据传输和计算资源开销，提高感知效率，也可以提高感知准确度和感知精度。

以上结合图3-图14详细说明了本申请实施例提供的测量方法。以下结合图15-图16详细说明用于执行本申请实施例提供的测量方法的测量装置。

示例性地，图15是本申请实施例提供的测量装置的结构示意图一。如图15所示，测量装置1500包括：处理模块1501。为了便于说明，图15仅示出了该测量装置的主要部件。

一些实施例中，测量装置1500可适用于图1中所示出的感知测量系统中，执行图3或图4或图7-图12中任一所示出的方法中第一设备的功能。

其中，处理模块1501，用于获取第一感知神经网络输出的第k个第一感知结果，第一感知神经网络用于第一感知任务，第k个第一感知结果根据N个测量设备的测量结果确定，N个测量设备根据选择神经网络从M个测量设备中选择k次得到，1≤k≤N＜M，k、M、N为正整数。处理模块，还用于确定不满足选择终止条件。

处理模块1501，还用于根据选择神经网络和第k个第一感知结果选择L个测量设备，1≤L＜M，L为正整数。

处理模块1501，还用于获取第一感知神经网络输出的第k+1个第一感知结果，第k+1个第一感知结果根据N个测量设备和L个测量设备的测量结果确定。

一种可能的设计方案中，选择神经网络部署在装置上，第一感知神经网络部署在第二设备上。测量装置1500还包括：收发模块1502。收发模块1502，用于接收来自第二设备的第k个第一感知结果。

进一步地，该测量装置1500第1次选择的测量设备，根据选择神经网络、M个测量设备的信息和第一感知任务的任务信息确定。

一种可能的设计方案中，选择终止条件包括如下一项或多项：第k个第一感知结果的准确度大于或者等于准确度阈值；或者，该测量装置1500选择测量设备的选择次数大于或者等于选择次数阈值。

一种可能的设计方案中，处理模块1501，用于：获取第二感知神经网络输出的第i个第二感知结果，第二感知神经网络用于第二感知任务，第i个第二感知结果根据H个测量设备的测量结果确定，H个测量设备根据选择神经网络从W个测量设备中选择i次得到，1≤i≤H＜W，i、H、W为正整数。根据选择神经网络、第i个第二感知结果和第k个第一感知结果，选择L个测量设备。

一种可能的设计方案中，第二感知神经网络部署在第三设备上。收发模块1502，还用于接收来自第三设备的第i个第二感知结果。

一种可能的设计方案中，处理模块1501，用于获取第三感知神经网络输出的第j个训练感知结果和参考感知结果，其中，第j个训练感知结果根据Q个训练测量设备的测量结果确定，Q个训练测量设备根据选择神经网络从S个训练测量设备中选择j次得到，第j个参考感知结果根据R个训练测量设备的测量结果确定，R个训练测量设备是从S个训练测量设备中随机选择j次得到的，1＜j≤Q＜S，R＝Q，j、Q、R、S为正整数。

处理模块1501，还用于确定不满足训练终止条件，训练终止条件用于终止对选择神经网络的训练。

处理模块1501，还用于根据选择神经网络、第j个训练感知结果和参考感知结果，选择T个训练测量设备，1≤T＜S，T为正整数。

处理模块1501，还用于获取第三感知神经网络输出的第j+1个训练感知结果和参考感知结果。其中，第j+1个训练感知结果根据Q个训练测量设备和T个训练测量设备的测量结果确定，第j+1个参考感知结果根据R个训练测量设备和P个训练测量设备的测量结果确定，P个训练测量设备是第j+1次从S个训练测量设备中随机选择得到的，P＝T，P为正整数。

进一步地，处理模块1501，用于：根据第j个训练感知结果和参考感知结果，确定用于强化学习的第j个奖励值。根据选择神经网络、第j个训练感知结果和第j个奖励值，选择T个训练测量设备。

进一步地，处理模块1501，用于：根据第j个训练感知结果的感知精度与第j个参考感知结果的感知精度的差值，确定用于强化学习的第j个奖励值。

一种可能的设计方案中，训练终止条件包括如下一项或多项：第j个奖励值大于或者等于奖励值阈值；或者，选择神经网络的训练次数大于或者等于训练次数阈值；或者，选择神经网络的损失值小于或者等于损失值阈值。

一种可能的设计方案中，第三感知神经网络部署在第四设备上。收发模块1502，用于接收来自第四设备的第j个训练感知结果和参考感知结果。

可选地，收发模块1502可以包括接收模块和发送模块(图15中未示出)。其中，发送模块用于实现所述测量装置1500的发送功能，接收模块用于实现所述测量装置1500的接收功能。

可选地，所述测量装置1500还可以包括存储模块，该存储模块存储有程序或指令。当处理模块执行该程序或指令时，使得所述测量装置1500可以执行图3或图4或图7-图12中任一所述的方法。

需要说明的是，所述测量装置1500可以是终端设备或网络设备，也可以是可设置于终端设备或网络设备中的芯片(系统)或其他部件或组件，还可以是包含终端设备或网络设备的装置，本申请对此不做限定。

此外，测量装置1500的技术效果可以参考第图7-图12中任一项所示出的方法的技术效果，此处不再赘述。

另一些实施例中，测量装置1500可适用于图1中所示出的通信系统中，执行图11或图12中所示出的方法中第二设备的功能。

其中，收发模块1502，用于接收来自N个测量设备的测量结果，该装置上部署有第一感知神经网络。其中，第一感知神经网络用于第一感知任务，N个测量设备根据选择神经网络从M个测量设备中选择k次得到，选择神经网络部署在第一设备上，1≤k≤N＜M，k、M、N为正整数。

处理模块1501，用于根据第一感知神经网络和N个测量设备的测量结果，得到第k个第一感知结果。

收发模块1502，还用于第二设备向第一设备发送第k个第一感知结果。

一种可能的设计方案中，收发模块1502，用于接收来自第一设备的第k个选择结果，第k个选择结果用于指示第一设备根据选择神经网络第k次选择的测量设备。

可选地，收发模块1502可以包括接收模块和发送模块。其中，发送模块用于实现所述测量装置1500的发送功能，接收模块用于所述测量装置1500的接收功能。

可选地，所述测量装置1500还可以包括存储模块，该存储模块存储有程序或指令。当处理模块执行该程序或指令时，使得所述测量装置1500可以执行图11或图12中所述的方法。

示例性地，图16为本申请实施例提供的测量装置的结构示意图二。该测量装置可以是终端设备或网络设备，也可以是可设置于终端设备或网络设备的芯片(系统)或其他部件或组件。如图16所示，测量装置1600可以包括处理器1601。可选地，测量装置1600还可以包括存储器1602和/或收发器1603。其中，处理器1601与存储器1602和收发器1603耦合，如可以通过通信总线连接。

下面结合图16对测量装置1600的各个构成部件进行具体的介绍：

其中，处理器1601是测量装置1600的控制中心，可以是一个处理器，也可以是多个处理元件的统称。例如，处理器1601是一个或多个中央处理器(central processing unit，CPU)，也可以是特定集成电路(application specific integrated circuit，ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路，例如：一个或多个微处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(fieldprogrammable gate array，FPGA)。

可选地，处理器1601可以通过运行或执行存储在存储器1602内的软件程序，以及调用存储在存储器1602内的数据，执行测量装置1600的各种功能。

在具体的实现中，作为一种实施例，处理器1601可以包括一个或多个CPU，例如图16中所示出的CPU0和CPU1。

在具体实现中，作为一种实施例，测量装置1600也可以包括多个处理器，例如图2中所示的处理器1601和处理器1604。这些处理器中的每一个可以是一个单核处理器(single-CPU)，也可以是一个多核处理器(multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

其中，所述存储器1602用于存储执行本申请方案的软件程序，并由处理器1601来控制执行，具体实现方式可以参考上述方法实施例，此处不再赘述。

可选地，存储器1602可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1602可以和处理器1601集成在一起，也可以独立存在，并通过测量装置1600的接口电路(图16中未示出)与处理器1601耦合，本申请实施例对此不作具体限定。

收发器1603，用于与其他测量装置之间的通信。例如，测量装置1600为终端设备，收发器1603可以用于与网络设备通信，或者与另一个终端设备通信。又例如，测量装置1600为网络设备，收发器1603可以用于与终端设备通信，或者与另一个网络设备通信。

可选地，收发器1603可以包括接收器和发送器(图16中未单独示出)。其中，接收器用于实现接收功能，发送器用于实现发送功能。

可选地，收发器1603可以和处理器1601集成在一起，也可以独立存在，并通过测量装置1600的接口电路(图16中未示出)与处理器1601耦合，本申请实施例对此不作具体限定。

需要说明的是，图16中示出的测量装置1600的结构并不构成对该测量装置的限定，实际的测量装置可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

此外，测量装置1600的技术效果可以参考上述方法实施例所述的测量方法的技术效果，此处不再赘述。

本申请实施例提供一种通信系统。该通信系统包括第一设备和第二设备。

可选地，通信系统还可以包括：第三设备。

本申请实施例提供一种计算机可读存储介质。该计算机可读存储介质存储有计算机程序代码或指令，当计算机程序代码或指令在计算机上运行时，使得计算机执行如图3-图4或图7-图12中任一所示出的测量方法。

本申请实施例提供一种计算机程序产品。该计算机程序产品包括：计算机程序代码或指令，当计算机程序代码或指令在计算机上运行时，使得计算机执行如图3-图4或图7-图12中任一所示出的测量方法。

应理解，在本申请实施例中的处理器可以是中央处理单元(central processingunit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random accessmemory，RAM)可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

上述实施例，可以全部或部分地通过软件、硬件(如电路)、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A,B可以是单数或者复数。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系，但也可能表示的是一种“和/或”的关系，具体可参考前后文进行理解。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种测量方法，其特征在于，所述方法包括：

第一设备获取第一感知神经网络输出的第k个第一感知结果，所述第一感知神经网络用于第一感知任务，所述第k个第一感知结果根据N个测量设备的测量结果确定，所述N个测量设备根据选择神经网络从M个测量设备中选择k次得到，1≤k≤N＜M，k、M、N为正整数；

所述第一设备确定不满足选择终止条件；

所述第一设备根据所述选择神经网络和所述第k个第一感知结果选择L个测量设备，1≤L＜M，L为正整数；

所述第一设备获取所述第一感知神经网络输出的第k+1个第一感知结果，所述第k+1个第一感知结果根据所述N个测量设备和所述L个测量设备的测量结果确定。

2.根据权利要求1所述的方法，其特征在于，所述选择神经网络部署在所述第一设备上，所述第一感知神经网络部署在第二设备上；

所述第一设备获取第一感知神经网络输出的第k个第一感知结果，包括：

所述第一设备接收来自所述第二设备的所述第k个第一感知结果。

3.根据权利要求1或2所述的方法，其特征在于，所述第一设备第1次选择的测量设备，根据所述选择神经网络、所述M个测量设备的信息和所述第一感知任务的任务信息确定。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述选择终止条件包括如下一项或多项：

所述第k个第一感知结果的准确度大于或者等于准确度阈值；或者，

所述第一设备选择测量设备的选择次数大于或者等于选择次数阈值。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述第一设备根据所述选择神经网络和所述第k个第一感知结果选择L个测量设备，包括：

所述第一设备获取第二感知神经网络输出的第i个第二感知结果，所述第二感知神经网络用于第二感知任务，所述第i个第二感知结果根据H个测量设备的测量结果确定，所述H个测量设备根据所述选择神经网络从W个测量设备中选择i次得到，1≤i≤H＜W，i、H、W为正整数；

所述第一设备根据所述选择神经网络、所述第i个第二感知结果和所述第k个第一感知结果，选择所述L个测量设备。

6.根据权利要求5所述的方法，其特征在于，所述第二感知神经网络部署在第三设备上；

所述第一设备获取第二感知神经网络输出的第i个第二感知结果，包括：

所述第一设备接收来自所述第三设备的所述第i个第二感知结果。

7.根据权利要求1-6中任一项所述的方法，其特征在于，还包括：

所述第一设备获取第三感知神经网络输出的第j个训练感知结果和参考感知结果，其中，所述第j个训练感知结果根据Q个训练测量设备的测量结果确定，所述Q个训练测量设备根据所述选择神经网络从S个训练测量设备中选择j次得到，所述第j个参考感知结果根据R个训练测量设备的测量结果确定，所述R个训练测量设备是从所述S个训练测量设备中随机选择j次得到的，1＜j≤Q＜S，R＝Q，j、Q、R、S为正整数；

第一设备确定不满足训练终止条件，所述训练终止条件用于终止对所述选择神经网络的训练；

所述第一设备根据所述选择神经网络、第j个训练感知结果和参考感知结果，选择T个训练测量设备，1≤T＜S，T为正整数；

所述第一设备获取所述第三感知神经网络输出的第j+1个训练感知结果和参考感知结果，所述第j+1个训练感知结果根据所述Q个训练测量设备和所述T个训练测量设备的测量结果确定，所述第j+1个参考感知结果根据所述R个训练测量设备和P个训练测量设备的测量结果确定，所述P个训练测量设备是第j+1次从S个训练测量设备中随机选择得到的，P＝T，P为正整数。

8.根据权利要求7所述的方法，其特征在于，所述第一设备根据所述选择神经网络、第j个训练感知结果和参考感知结果，选择T个训练测量设备，包括：

所述第一设备根据第j个训练感知结果和参考感知结果，确定用于强化学习的第j个奖励值；

所述第一设备根据所述选择神经网络、所述第j个训练感知结果和第j个奖励值，选择所述T个训练测量设备。

9.根据权利要求8所述的方法，其特征在于，所述第一设备根据第j个训练感知结果和参考感知结果，确定用于强化学习的第j个奖励值，包括：

所述第一设备根据所述第j个训练感知结果的感知精度与所述第j个参考感知结果的感知精度的差值，确定用于强化学习的第j个奖励值。

10.根据权利要求7-9中任一项所述的方法，其特征在于，所述训练终止条件包括如下一项或多项：

所述第j个奖励值大于或者等于奖励值阈值；或者，

所述选择神经网络的训练次数大于或者等于训练次数阈值；或者，

所述选择神经网络的损失值小于或者等于损失值阈值。

11.根据权利要求7-10中任一项所述的方法，其特征在于，所述第三感知神经网络部署在第四设备上；

所述第一设备获取第三感知神经网络输出的第j个训练感知结果和参考感知结果，包括：

所述第一设备接收来自所述第四设备的所述第j个训练感知结果和参考感知结果。

12.一种测量方法，其特征在于，所述方法包括：

第二设备接收来自N个测量设备的测量结果，所述第二设备上部署有第一感知神经网络，所述第一感知神经网络用于第一感知任务，所述N个测量设备根据选择神经网络从M个测量设备中选择k次得到，所述选择神经网络部署在第一设备上，1≤k≤N＜M，k、M、N为正整数；

所述第二设备根据所述第一感知神经网络和所述N个测量设备的测量结果，得到第k个第一感知结果；

所述第二设备向所述第一设备发送所述第k个第一感知结果。

13.根据权利要求12所述的方法，其特征在于，还包括：

所述第二设备接收来自第一设备的第k个选择结果，所述第k个选择结果用于指示所述第一设备根据所述选择神经网络第k次选择的测量设备。

14.一种测量装置，其特征在于，所述装置包括：处理模块；

所述处理模块，用于获取第一感知神经网络输出的第k个第一感知结果，所述第一感知神经网络用于第一感知任务，所述第k个第一感知结果根据N个测量设备的测量结果确定，所述N个测量设备根据选择神经网络从M个测量设备中选择k次得到，1≤k≤N＜M，k、M、N为正整数；

所述处理模块，还用于确定不满足选择终止条件；

所述处理模块，还用于根据所述选择神经网络和所述第k个第一感知结果选择L个测量设备，1≤L＜M，L为正整数；

所述处理模块，还用于获取所述第一感知神经网络输出的第k+1个第一感知结果，所述第k+1个第一感知结果根据所述N个测量设备和所述L个测量设备的测量结果确定。

15.根据权利要求14所述的装置，其特征在于，所述选择神经网络部署在所述装置上，所述第一感知神经网络部署在第二设备上；所述装置还包括：收发模块；

所述收发模块，用于接收来自所述第二设备的所述第k个第一感知结果。

16.根据权利要求15所述的装置，其特征在于，所述装置第1次选择的测量设备，根据所述选择神经网络、所述M个测量设备的信息和所述第一感知任务的任务信息确定。

17.根据权利要求16所述的装置，其特征在于，所述选择终止条件包括如下一项或多项：

所述装置选择测量设备的选择次数大于或者等于选择次数阈值。

18.根据权利要求17所述的装置，其特征在于，处理模块，用于：

获取第二感知神经网络输出的第i个第二感知结果，所述第二感知神经网络用于第二感知任务，所述第i个第二感知结果根据H个测量设备的测量结果确定，所述H个测量设备根据所述选择神经网络从W个测量设备中选择i次得到，1≤i≤H＜W，i、H、W为正整数；

根据所述选择神经网络、所述第i个第二感知结果和所述第k个第一感知结果，选择所述L个测量设备。

19.根据权利要求18所述的装置，其特征在于，所述第二感知神经网络部署在第三设备上；

所述收发模块，还用于接收来自所述第三设备的所述第i个第二感知结果。

20.根据权利要求19所述的装置，其特征在于，

所述处理模块，用于获取第三感知神经网络输出的第j个训练感知结果和参考感知结果，其中，所述第j个训练感知结果根据Q个训练测量设备的测量结果确定，所述Q个训练测量设备根据所述选择神经网络从S个训练测量设备中选择j次得到，所述第j个参考感知结果根据R个训练测量设备的测量结果确定，所述R个训练测量设备是从所述S个训练测量设备中随机选择j次得到的，1＜j≤Q＜S，R＝Q，j、Q、R、S为正整数；

所述处理模块，还用于确定不满足训练终止条件，所述训练终止条件用于终止对所述选择神经网络的训练；

所述处理模块，还用于根据所述选择神经网络、第j个训练感知结果和参考感知结果，选择T个训练测量设备，1≤T＜S，T为正整数；

所述处理模块，还用于获取所述第三感知神经网络输出的第j+1个训练感知结果和参考感知结果，所述第j+1个训练感知结果根据所述Q个训练测量设备和所述T个训练测量设备的测量结果确定，所述第j+1个参考感知结果根据所述R个训练测量设备和P个训练测量设备的测量结果确定，所述P个训练测量设备是第j+1次从S个训练测量设备中随机选择得到的，P＝T，P为正整数。

21.根据权利要求20所述的装置，其特征在于，所述处理模块，用于：

根据第j个训练感知结果和参考感知结果，确定用于强化学习的第j个奖励值；

根据所述选择神经网络、所述第j个训练感知结果和第j个奖励值，选择所述T个训练测量设备。

22.根据权利要求21所述的装置，其特征在于，所述处理模块，用于：

根据所述第j个训练感知结果的感知精度与所述第j个参考感知结果的感知精度的差值，确定用于强化学习的第j个奖励值。

23.根据权利要求20-22中任一项所述的装置，其特征在于，所述训练终止条件包括如下一项或多项：

所述第j个奖励值大于或者等于奖励值阈值；或者，

所述选择神经网络的损失值小于或者等于损失值阈值。

24.根据权利要求20-23中任一项所述的装置，其特征在于，所述第三感知神经网络部署在第四设备上；

所述收发模块，用于接收来自所述第四设备的所述第j个训练感知结果和参考感知结果。

25.一种测量装置，其特征在于，所述装置包括：收发模块和处理模块；

所述收发模块，用于接收来自N个测量设备的测量结果，所述装置上部署有第一感知神经网络，所述第一感知神经网络用于第一感知任务，所述N个测量设备根据选择神经网络从M个测量设备中选择k次得到，所述选择神经网络部署在第一设备上，1≤k≤N＜M，k、M、N为正整数；

所述处理模块，用于根据所述第一感知神经网络和所述N个测量设备的测量结果，得到第k个第一感知结果；

所述收发模块，还用于向所述第一设备发送所述第k个第一感知结果。

26.根据权利要求25所述的装置，其特征在于，所述收发模块，还用于接收来自第一设备的第k个选择结果，所述第k个选择结果用于指示所述第一设备根据所述选择神经网络第k次选择的测量设备。

27.一种测量装置，其特征在于，包括：处理器，所述处理器与存储器耦合；

所述处理器，用于执行所述存储器中存储的计算机程序，以使得所述装置执行如权利要求1-13中任一项所述的测量方法。

28.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序或指令，当所述计算机程序或指令在计算机上运行时，使得所述计算机执行如权利要求1-13中任一项所述的测量方法。

29.一种计算机程序产品，其特征在于，所述计算机程序产品包括：计算机程序或指令，当所述计算机程序或指令在计算机上运行时，使得所述计算机执行如权利要求1-13中任一项所述的测量方法。