CN117580132B

CN117580132B - 基于强化学习的移动设备异构网络接入方法、装置及设备

Info

Publication number: CN117580132B
Application number: CN202410064548.6A
Authority: CN
Inventors: 王滨; 赵海涛; 王星; 王琴; 刘颖
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2024-01-16
Filing date: 2024-01-16
Publication date: 2024-04-12
Anticipated expiration: 2044-01-16
Also published as: CN117580132A

Abstract

本申请提供一种基于强化学习的移动设备异构网络接入方法、装置及设备，该方法包括：获取多个候选参数集合，所述候选参数集合包括一个候选网络、一个候选带宽和一个候选功率；针对每个候选参数集合：基于所述候选参数集合确定移动设备对应的用户奖励值和候选网络对应的网络奖励值；基于所述用户奖励值和所述网络奖励值确定所述候选参数集合对应的目标奖励值；基于每个候选参数集合对应的目标奖励值，从多个候选参数集合中选取一个候选参数集合，基于该候选参数集合确定移动设备接入的目标网络、移动设备采用的目标功率、目标网络为移动设备分配的目标带宽。通过本申请的技术方案，通过异构网络支持物联网设备的连接，满足物联网设备的需求。

Description

基于强化学习的移动设备异构网络接入方法、装置及设备

技术领域

本申请涉及网络资源分配技术领域，尤其是涉及一种基于强化学习的移动设备异构网络接入方法、装置及设备。

背景技术

物联网（Internet of Things，简称IOT）是指通过各种信息传感器、射频识别技术、全球定位系统、红外感应器、激光扫描器等各种装置与技术，实时采集任何需要连接、互动的物体或过程，采集声、光、热、电、力学、化学、生物、位置等信息，通过各类可能的网络接入，实现物与物、物与人的泛在连接，实现对物品和过程的智能化感知、识别和管理。物联网是基于互联网、电信网等的信息承载体，让所有能够被独立寻址的普通物理对象形成互联互通的网络。

物联网中的所有设备均可以为物联网设备，物联网设备可以包括智能家居设备（如智能音箱、智能扫地机器人、智能家居网关等）、工业智能网关、生命安全设备、车联网设备等。随着物联网的快速发展，物联网设备的数量越来越多，大量物联网设备需要接入网络，大规模的物联网设备给网络架构带来巨大负担，无法支持大规模物联网设备的连接，无法满足物联网设备的各种需求。

发明内容

有鉴于此，本申请提供一种基于强化学习的移动设备异构网络接入方法、装置及设备，通过异构网络支持物联网设备的连接，满足物联网设备的需求。

本申请提供一种基于强化学习的移动设备异构网络接入方法，应用于服务器，所述服务器用于为移动设备分配接入网络，所述方法包括：

获取移动设备对应的候选网络列表，所述候选网络列表包括多个候选网络，所述多个候选网络包括异构网络，且移动设备位于候选网络的覆盖范围内；

获取移动设备对应的候选带宽范围和候选功率范围，所述候选带宽范围包括多个候选带宽，所述候选功率范围包括多个候选功率；

获取多个候选参数集合，所述候选参数集合包括一个候选网络、一个候选带宽和一个候选功率；针对每个候选参数集合：基于所述候选参数集合确定所述移动设备对应的用户奖励值和所述候选网络对应的网络奖励值；基于所述用户奖励值和所述网络奖励值确定所述候选参数集合对应的目标奖励值；

基于每个候选参数集合对应的目标奖励值，从多个候选参数集合中选取一个候选参数集合，基于该候选参数集合确定所述移动设备接入的目标网络、所述移动设备采用的目标功率、所述目标网络为所述移动设备分配的目标带宽。

本申请提供一种基于强化学习的移动设备异构网络接入装置，应用于服务器，所述服务器用于为移动设备分配接入网络，所述装置包括：

获取模块，用于获取移动设备对应的候选网络列表，所述候选网络列表包括多个候选网络，所述多个候选网络包括异构网络，移动设备位于候选网络的覆盖范围内；获取移动设备对应的候选带宽范围和候选功率范围，候选带宽范围包括多个候选带宽，候选功率范围包括多个候选功率；获取多个候选参数集合，所述候选参数集合包括一个候选网络、一个候选带宽和一个候选功率；

确定模块，用于针对每个候选参数集合，基于所述候选参数集合确定所述移动设备对应的用户奖励值和所述候选网络对应的网络奖励值；基于所述用户奖励值和所述网络奖励值确定所述候选参数集合对应的目标奖励值；

处理模块，用于基于每个候选参数集合对应的目标奖励值，从多个候选参数集合中选取一个候选参数集合，基于该候选参数集合确定移动设备接入的目标网络、移动设备采用的目标功率、所述目标网络为移动设备分配的目标带宽。

本申请提供一种电子设备，包括：处理器和机器可读存储介质，机器可读存储介质存储有能够被处理器执行的机器可执行指令；其中，处理器用于执行机器可执行指令，以实现基于强化学习的移动设备异构网络接入方法。

本申请提供一种机器可读存储介质，所述机器可读存储介质存储有能够被处理器执行的机器可执行指令；其中，所述处理器用于执行所述机器可执行指令，以实现上述的基于强化学习的移动设备异构网络接入方法。

本申请提供一种计算机程序，所述计算机程序存储于机器可读存储介质，当处理器执行所述机器可读存储介质中的所述计算机程序时，促使所述处理器实现上述的基于强化学习的移动设备异构网络接入方法。

由以上技术方案可见，本申请实施例中，通过异构网络支持物联网设备的连接，满足物联网设备的需求，在采用异构网络支持物联网设备的连接时，给出一种移动设备接入异构网络的方法，能够从所有异构网络中选取移动设备接入的目标网络，并确定移动设备采用的目标功率、目标网络为移动设备分配的目标带宽，从而实现异构网络的高效接入，缓解网络压力，提高系统容量，扩大网络覆盖范围，并满足不同物联网设备的QoE（最佳体验质量）要求。

在确定目标网络、目标功率和目标带宽时，可以基于移动设备对应的用户奖励值和候选网络对应的网络奖励值确定目标奖励值，并通过强化学习的方式迭代出最优的目标奖励值，继而基于最优的目标奖励值确定目标网络、目标功率和目标带宽，从而保证目标网络是针对移动设备的优选网络，目标功率是针对移动设备的优选功率，目标带宽是针对移动设备的优选带宽。

附图说明

为了更加清楚地说明本申请实施例或者现有技术中的技术方案，下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据本申请实施例的这些附图获得其他的附图。

图1是基于强化学习的移动设备异构网络接入方法的流程示意图；

图2是异构网络接入场景的应用场景示意图；

图3是基于强化学习的移动设备异构网络接入方法的流程示意图；

图4是基于强化学习的移动设备异构网络接入装置的结构示意图；

图5是本申请一种实施方式中的电子设备的硬件结构图。

具体实施方式

在本申请实施例使用的术语仅仅是出于描述特定实施例的目的，而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请实施例中提出一种基于强化学习的移动设备异构网络接入方法，应用于服务器，服务器用于为移动设备分配接入网络（即从多个异构网络中选取移动设备接入的目标网络），参见图1所示，该方法可以包括：

步骤101、获取移动设备对应的候选网络列表，该候选网络列表包括多个候选网络，多个候选网络包括异构网络，且移动设备位于候选网络的覆盖范围内。

步骤102、获取移动设备对应的候选带宽范围和候选功率范围，该候选带宽范围包括多个候选带宽，该候选功率范围包括多个候选功率。

步骤103、获取多个候选参数集合，该候选参数集合包括一个候选网络、一个候选带宽和一个候选功率。针对每个候选参数集合：基于该候选参数集合确定移动设备对应的用户奖励值和该候选网络对应的网络奖励值；基于该用户奖励值和该网络奖励值确定该候选参数集合对应的目标奖励值。

步骤104、基于每个候选参数集合对应的目标奖励值，从多个候选参数集合中选取一个候选参数集合，基于该候选参数集合确定移动设备接入的目标网络、移动设备采用的目标功率、目标网络为移动设备分配的目标带宽。

示例性的，针对步骤103和步骤104，在得到候选带宽范围和候选功率范围之后，可以将候选带宽范围和候选功率范围输入给强化学习模型（如多智能体强化学习模型），由强化学习模型基于候选带宽范围和候选功率范围执行步骤103和步骤104，得到移动设备接入的目标网络、移动设备采用的目标功率、目标网络为移动设备分配的目标带宽，并输出移动设备接入的目标网络、移动设备采用的目标功率、目标网络为移动设备分配的目标带宽。

示例性的，获取移动设备对应的候选网络列表，可以包括但不限于：获取初始网络列表，且该初始网络列表可以包括服务器支持的多个网络，且多个网络可以包括异构网络。基于移动设备与该初始网络列表中每个网络的拓扑关系，可以从该初始网络列表中去除第一类网络得到第一中间网络列表；其中，若基于该拓扑关系确定移动设备不在某个网络的覆盖范围内，则该网络可以作为第一类网络。基于移动设备与该第一中间网络列表中每个网络的接收信号强度，可以从该第一中间网络列表中去除第二类网络得到第二中间网络列表；其中，若移动设备与某个网络的接收信号强度小于信号强度阈值，则该网络可以作为第二类网络。基于移动设备与第二中间网络列表中每个网络的网络属性偏好，从该第二中间网络列表中去除第三类网络得到候选网络列表；其中，若移动设备与某个网络的网络属性偏好小于偏好阈值，则该网络作为第三类网络。

示例性的，基于移动设备与第二中间网络列表中每个网络的网络属性偏好，从该第二中间网络列表中去除第三类网络得到候选网络列表之前，针对第二中间网络列表中每个网络，获取该网络支持的M个属性对应的M个随机概率值，获取M个属性对应的M个参数值；M为正整数，M个随机概率值服从指定分布，且M个参数值服从指定分布；针对该网络支持的每个属性，基于该属性对应的随机概率值和M个参数值确定移动设备对该属性的偏好标准化值；基于移动设备对M个属性的偏好标准化值确定移动设备与该网络的网络属性偏好。

示例性的，基于候选参数集合确定移动设备对应的用户奖励值，可以包括但不限于：基于该候选参数集合中的候选带宽和候选功率确定数据速率；基于该候选带宽、移动设备的待发送数据的目标数据量和该数据速率确定估计能耗参数；基于该目标数据量和该数据速率确定预期时延参数；基于该目标数据量确定成本参数；基于该估计能耗参数、该预期时延参数和该成本参数确定移动设备的网络评估参数；基于该网络评估参数确定移动设备对应的用户奖励值。

示例性的，基于该候选参数集合中的候选带宽和候选功率确定数据速率，可以包括但不限于：基于如下公式确定数据速率：。基于该候选带宽、该目标数据量和该数据速率确定估计能耗参数，可以包括但不限于：基于如下公式确定估计能耗参数：/>。基于该目标数据量和该数据速率确定预期时延参数，可以包括但不限于：基于如下公式确定预期时延参数：。基于该目标数据量确定成本参数，可以包括但不限于：基于如下公式确定成本参数：/>。其中，E_uw表示估计能耗参数，D_uw表示预期时延参数，C_uw表示成本参数；R_wu表示数据速率，/>表示候选带宽，/>表示候选功率，/>表示已获取的信道增益，/>表示已获取的噪声频谱密度；/>表示已获取的参数，/>表示已获取的参数，/>表示目标数据量，/>表示接入信道延迟，/>表示发送单位数据量的货币成本，表示已获取的参数。

示例性的，基于该估计能耗参数、该预期时延参数和该成本参数确定移动设备的网络评估参数，可以包括但不限于：基于如下公式确定移动设备的网络评估参数：；其中，E_uw表示估计能耗参数，D_uw表示预期时延参数，C_uw表示成本参数，/>是移动设备对估计能耗的偏好标准化值，/>是移动设备对预期时延的偏好标准化值，/>是移动设备对成本的偏好标准化值。

示例性的，基于该网络评估参数确定移动设备对应的用户奖励值，可以包括但不限于：基于该网络评估参数和参考概率值确定网络代价值，并基于该参考概率值确定切换代价值，并基于该网络代价值和该切换代价值确定移动设备对应的用户奖励值；其中，该参考概率值是移动设备在单位时间内接入参考网络类型的网络的概率值，且该参考网络类型是候选网络的网络类型。

示例性的，基于该网络评估参数和参考概率值确定网络代价值，并基于该参考概率值确定切换代价值，并基于该网络代价值和该切换代价值确定移动设备对应的用户奖励值，可以包括但不限于：若移动设备在指定时间段内的网络切换次数小于预设阈值（可以根据经验配置），则可以采用如下公式确定用户奖励值：。或者，若移动设备在指定时间段内的网络切换次数不小于该预设阈值，则可以采用如下公式确定用户奖励值：。其中，/>用于表示用户奖励值，/>用于表示单位时间t内接入参考网络类型的网络的概率值，/>用于表示多个单位时间t的概率值之和，/>用于表示网络评估参数，/>用于表示标准化效用函数，且该标准化效用函数用于对/>进行标准化效用处理，/>用于表示切换代价值对应的权重系数，/>用于表示归一化函数，且归一化函数用于对/>进行归一化处理，用于表示网络代价值对应的权重系数；/>用于表示网络代价值，和/>用于表示切换代价值。

示例性的，基于该候选参数集合确定候选网络对应的网络奖励值，可以包括但不限于：基于该候选参数集合中的候选带宽和参考概率值确定该候选网络对应的网络奖励值；其中，该参考概率值可以是移动设备在单位时间内接入参考网络类型的网络的概率值，且该参考网络类型是候选网络的网络类型。

示例性的，基于该候选参数集合中的候选带宽和参考概率值确定该候选网络对应的网络奖励值，可以包括但不限于：可以采用如下公式确定网络奖励值：。表示网络奖励值，/>表示单位时间t内接入参考网络类型的网络的概率值，/>表示多个单位时间t的概率值之和，/>表示候选带宽。

在确定目标网络、目标功率和目标带宽时，可以基于移动设备对应的用户奖励值和候选网络对应的网络奖励值确定目标奖励值，并通过强化学习的方式迭代出最优的目标奖励值，继而基于最优的目标奖励值确定目标网络、目标功率和目标带宽。比如说，将候选带宽范围和候选功率范围输入给强化学习模型，由强化学习模型输出移动设备接入的目标网络、移动设备采用的目标功率、目标网络为移动设备分配的目标带宽。保证目标网络是针对移动设备的优选网络，目标功率是针对移动设备的优选功率，目标带宽是针对移动设备的优选带宽。

以下结合具体应用场景，对本申请实施例的技术方案进行说明。

随着物联网的快速发展，物联网设备的数量越来越多，大量物联网设备需要接入网络，大规模的物联网设备给网络架构带来巨大负担，单一网络已经无法支持大规模物联网设备的连接，无法满足物联网设备的各种需求。

针对上述发现，本申请实施例提出一种基于强化学习的移动设备异构网络接入方法，针对物联网的复杂特性，从接收信号强度和网络拓扑关系等维度设计模糊网络质量评价体系完成网络初步筛选，从设备移动性、网络属性偏好和网络资源等维度设计剩余网络综合评估体系完成网络进一步筛选。这两个过程实现网络性能与用户需求之间的定性与定量分析，在实现网络选择的同时为求解算法降低复杂度，根据用户对时延、能耗、成本等属性的不同偏好，提出候选网络综合偏好量化方案，提高通信服务质量，减少不必要的网络切换。

参见图2所示，为异构网络接入场景的应用场景示意图，异构网络是指包括多种网络类型的网络（这里的网络可以是无线网络（WN），这里的网络也可以是有线网络，对此不做限制），如LTE网络、Wi-Fi网络、AP热点网络、基站网络等。当某个移动设备（也可以称为用户设备，这里的移动设备可以是物联网设备）需要接入网络时，可以从多个异构网络中选取移动设备接入的目标网络，继而控制移动设备接入到该目标网络。比如说，若移动设备位于LTE网络、Wi-Fi网络、AP热点网络、基站网络的覆盖范围内，那么，可以从LTE网络、Wi-Fi网络、AP热点网络、基站网络中选取移动设备接入的目标网络，如该目标网络可以为Wi-Fi网络，这样，可以控制移动设备接入到Wi-Fi网络。

示例性的，由服务器从多个异构网络选取移动设备接入的目标网络，服务器可以是任意电子设备，如可以是基站设备、核心网侧设备等，对此服务器的类型不做限制，能够从多个异构网络中选取移动设备接入的目标网络即可。

本申请实施例中提出一种基于强化学习的移动设备异构网络接入方法，该方法可以应用于服务器，参见图3所示，该方法可以包括以下步骤：

步骤301、服务器获取初始网络列表，该初始网络列表可以包括本服务器支持的多个网络，且本服务器支持的多个网络可以包括异构网络。

示例性的，当某个移动设备需要接入网络时，可以从本服务器支持的多个网络中为移动设备选取目标网络，因此，可以将本服务器支持的多个网络添加到初始网络列表，即该初始网络列表可以包括本服务器支持的多个网络。

比如说，本服务器支持的多个网络可以包括异构网络，如LTE网络、Wi-Fi网络、AP热点网络、基站网络等。比如说，若服务器支持的多个网络包括LTE网络1、LTE网络2、Wi-Fi网络1、Wi-Fi网络2、Wi-Fi网络3、基站网络1，则服务器可以将LTE网络1、LTE网络2、Wi-Fi网络1、Wi-Fi网络2、Wi-Fi网络3、基站网络1中的部分网络或者全部网络添加到初始网络列表。

步骤302、服务器基于移动设备与初始网络列表中每个网络的拓扑关系，从初始网络列表中去除第一类网络得到第一中间网络列表；其中，若基于该拓扑关系确定移动设备不在某个网络的覆盖范围内，则该网络作为第一类网络。

示例性的，移动设备可以检测本移动设备与初始网络列表中的每个网络的拓扑关系，该拓扑关系表示移动设备在网络的覆盖范围内，或者，移动设备不在网络的覆盖范围内。比如说，移动设备可以探测本移动设备是否在网络的覆盖范围内，对此探测方式不做限制，基于探测结果可以得到本移动设备与初始网络列表中的每个网络的拓扑关系。假设初始网络列表中存在4个网络，则拓扑关系可以为[C₁、C₂、C₃、C₄]，若C₁为第一取值（如1），则表示本移动设备在初始网络列表中的第一个网络的覆盖范围内，若C₁为第二取值（如0），则表示本移动设备不在初始网络列表中的第一个网络的覆盖范围内，以此类推。

移动设备可以将该拓扑关系发送给服务器，服务器基于该拓扑关系获知移动设备与初始网络列表中每个网络的拓扑关系。若基于该拓扑关系确定移动设备不在某个网络的覆盖范围内，则将该网络作为第一类网络，从初始网络列表中去除第一类网络。若基于该拓扑关系确定移动设备在某个网络的覆盖范围内，则不将该网络作为第一类网络，在初始网络列表中保留该网络。在对初始网络列表中的每个网络进行上述处理后，可以将更新后网络作为第一中间网络列表。

示例性的，步骤302可以为可选步骤，若执行步骤302，则服务器可以从初始网络列表中去除第一类网络得到第一中间网络列表，若不执行步骤302，则服务器可以直接将初始网络列表作为第一中间网络列表，对此不做限制。

在一种可能的实施方式中，由于在不同时隙中，移动设备和网络之间的拓扑关系不同，即，移动设备在某个时隙停留在一个区域之后，可以移动到由相邻网络组成的随机协作区域，这样，能够为移动设备提供服务的网络就发生了变化。基于此，在确定拓扑关系时，可以通过/>的矩阵/>描述移动设备和网络在时隙t的拓扑关系。其中，/>是一个二进制变量，若时隙/>时，移动设备/>在网络/>的覆盖范围内，则/>为第一取值（如1），若时隙/>时，移动设备/>不在网络/>的覆盖范围内，则/>为第二取值（如0）。K表示移动设备的总数量，即一共K个移动设备，N表示网络的总数量，即一共存在N个网络。

比如说，由于移动设备的移动性，因此，拓扑关系矩阵是实时变化的，这将影响同一网络的带宽分配，也影响移动设备的候选网络列表。

步骤303、服务器基于移动设备与第一中间网络列表中每个网络的接收信号强度，从第一中间网络列表中去除第二类网络得到第二中间网络列表；若移动设备与某个网络的接收信号强度小于信号强度阈值，则该网络作为第二类网络。

示例性的，移动设备可以检测本移动设备与第一中间网络列表中的每个网络的接收信号强度，对此检测方式不做限制，如RSS（Received Signal Strength，接收信号强度）或者RSSI（Received Signal Strength Indicator，接收信号强度指示）等，对此不做限制。该接收信号强度用于表示移动设备与网络之间的信号强弱，比如说，若接收信号强度越大，则移动设备与网络之间的信号越好。

移动设备将接收信号强度列表发送给服务器，接收信号强度列表包括本移动设备与第一中间网络列表中的每个网络的接收信号强度，服务器基于该接收信号强度列表获知移动设备与第一中间网络列表中的每个网络的接收信号强度。

若移动设备与某个网络的接收信号强度小于信号强度阈值（可以根据经验配置），则将该网络作为第二类网络，从第一中间网络列表中去除第二类网络。若移动设备与某个网络的接收信号强度不小于信号强度阈值，则不将该网络作为第二类网络，在第一中间网络列表中保留该网络。在对第一中间网络列表中的每个网络进行上述处理后，可以将更新后网络作为第二中间网络列表。

示例性的，步骤303可以为可选步骤，若执行步骤303，则服务器可以从第一中间网络列表中去除第二类网络得到第二中间网络列表，若不执行步骤302，则服务器可以直接将第一中间网络列表作为中间网络列表，对此不做限制。

步骤304、服务器基于移动设备与第二中间网络列表中每个网络的网络属性偏好，从第二中间网络列表中去除第三类网络得到候选网络列表；其中，若移动设备与某个网络的网络属性偏好小于偏好阈值，则该网络作为第三类网络。

示例性的，服务器可以获取移动设备与第二中间网络列表中的每个网络的网络属性偏好，该网络属性偏好表示移动设备对网络的偏好程度，比如说，若该网络属性偏好越大，则移动设备对网络的偏好程度越好。若移动设备与某个网络的网络属性偏好小于偏好阈值（可以根据经验配置），则将该网络作为第三类网络，从第二中间网络列表中去除第三类网络。若移动设备与某个网络的网络属性偏好不小于偏好阈值，则不将该网络作为第三类网络，在第二中间网络列表中保留该网络。在对第二中间网络列表中的每个网络进行上述处理后，可以将更新后网络作为候选网络列表，即得到移动设备对应的候选网络列表。

示例性的，步骤304可以为可选步骤，若执行步骤304，则服务器可以从第二中间网络列表中去除第三类网络得到候选网络列表，若不执行步骤304，则服务器可以直接将第二中间网络列表作为候选网络列表，对此不做限制。

在一种可能的实施方式中，针对步骤304，可以采用如下步骤实现：

步骤3041、针对第二中间网络列表中的每个网络，获取该网络支持的M个属性对应的M个随机概率值，获取M个属性对应的M个参数值。其中，M为正整数，M个随机概率值服从指定分布，且M个参数值服从指定分布。

示例性的，假设网络支持M个属性，如属性1、属性2、…、属性M，这些属性可以是网络支持的任意属性，如网络带宽、网络成本、网络类型等，对此不做限制。针对每个属性，可以获取该属性对应的随机概率值和参数值。

在网络支持M个属性时，则可以获取M个属性对应的M个随机概率值、M个属性对应的M个参数值。在获取M个随机概率值和M个参数值时，M个随机概率值服需要从指定分布，且M个参数值也需要服从指定分布。

比如说，指定分布可以是任意分布，如Zipf分布等，因此，需要获取服从Zipf分布的M个随机概率值，并获取服从Zipf分布的M个参数值。关于M个随机概率值和M个参数值的获取方式，本实施例中不做限制。

步骤3042、针对该网络支持的每个属性，基于该属性对应的随机概率值和M个属性对应的M个参数值确定移动设备对该属性的偏好标准化值。

示例性的，针对该网络支持的每个属性，可以基于该属性对应的随机概率值（即一个随机概率值）和M个参数值确定移动设备对该属性的偏好标准化值，比如说，可以采用如下公式（1）确定该偏好标准化值，当然，如下公式（1）只是确定偏好标准化值的示例，对此偏好标准化值的确定方式不做限制。

公式（1）

在公式（1）中，表示移动设备对属性m的偏好标准化值，/>表示属性m对应的随机概率值，且随机概率值服从参数/>的Zipf分布，也就是说，是随机排列分布的M个服从参数/>的Zipf分布随机概率值服，/>表示属性m对应的参数值，/>表示对M个属性对应的M个参数值（即m的取值依次是1-M）进行求和，且M个参数值服从参数/>的Zipf分布。

从公式（1）可以看出，可以基于属性m对应的随机概率值和M个属性对应的M个参数值，确定移动设备对属性m的偏好标准化值。

步骤3043、在得到移动设备对每个属性的偏好标准化值之后，基于移动设备对M个属性的偏好标准化值确定移动设备与该网络的网络属性偏好。

示例性的，在网络支持M个属性时，可以得到移动设备对M个属性的偏好标准化值，继而基于这些偏好标准化值确定移动设备与该网络的网络属性偏好。比如说，可以采用如下公式（2）确定该网络属性偏好，当然，如下公式（2）只是确定网络属性偏好的示例，对此网络属性偏好的确定方式不做限制。

公式（2）

在公式（2）中，表示移动设备与该网络的网络属性偏好，如移动设备u与网络w的网络属性偏好，/>表示移动设备对属性m的偏好标准化值，/>表示对M个属性的偏好标准化值（即m的取值依次是1-M）进行求和。

从公式（2）可以看出，可以基于移动设备对M个属性的偏好标准化值（即M个偏好标准化值之和）确定移动设备与该网络的网络属性偏好。

综上可以看出，针对第二中间网络列表中的每个网络，可以确定移动设备与该网络的网络属性偏好。比如说，为了表征移动设备的网络属性偏好，可以定义矩阵，/>表示在时隙/>时，移动设备u与网络w的网络属性偏好，也可以称为移动设备u对网络w的偏好概率，当然，也可以不考虑时隙的概念，这样，针对当前时隙，也可以表示为网络属性偏好/>。/>表示网络属性偏好矩阵，即由K*M个网络属性偏好/>组成，K表示移动设备的总数量，即一共K个移动设备，N表示网络的总数量，即一共存在N个网络。

步骤3044、基于移动设备与第二中间网络列表中每个网络的网络属性偏好，从第二中间网络列表中去除第三类网络得到候选网络列表；其中，若移动设备与某个网络的网络属性偏好小于偏好阈值，则该网络作为第三类网络。

综上所述，可以得到候选网络列表，该候选网络列表包括多个候选网络，多个候选网络包括异构网络，且移动设备位于候选网络的覆盖范围内。

在一种可能的实施方式中，由于设备数量巨大，网络异构性普遍，移动设备u往往被多个网络覆盖，随着移动性增加，频繁网络切换影响QoE，且容易导致网络接入的不稳定性。需要考虑移动设备u的移动情况以及对不同网络属性的偏好，才能满足QoE，且网络资源有限。基于上述发现，本实施例中设计一种网络选择接入策略，即从初始网络列表中选取部分满足需求的网络作为候选网络列表，从而能够满足用户需求，保证网络负载平衡，满足资源分配需求。

本实施例中，在得到初始网络列表之后，从接收信号强度和网络拓扑关系等两维度设计模糊网络质量评价体系，从网络属性偏好等维度设计网络综合评估体系，设计由模糊网络质量评价以及网络综合评估联合决定的网络接入策略，也就是说，可以基于接收信号强度、网络拓扑关系和网络属性偏好，从初始网络列表中选取部分满足需求的网络作为候选网络列表，实现异构网络资源的合理分配，以及，在网络容量限制下，可以设计合理的方案平衡网络负载。

示例性的，本实施例对步骤302-步骤304的执行顺序不做限制，如依次执行步骤302、步骤303、步骤304；或者，依次执行步骤303、步骤302、步骤304；或者，依次执行步骤304、步骤303、步骤302，以此类推。

步骤305、服务器获取移动设备对应的候选带宽范围和候选功率范围，该候选带宽范围包括多个候选带宽，该候选功率范围包括多个候选功率。其中，候选带宽范围内的候选带宽是候选网络支持为移动设备分配的带宽，候选功率范围内的候选功率是移动设备向候选网络发送数据时采用的发射功率。

示例性的，针对候选网络列表中的每个候选网络，该候选网络会支持一个带宽范围，即带宽范围可以包括带宽最小值和带宽最大值，即该候选网络只支持将位于带宽范围内的带宽分配给移动设备，为此，可以基于候选网络列表中的所有候选网络支持的带宽范围确定移动设备对应的候选带宽范围。

比如说，基于所有候选网络支持的带宽最小值确定候选带宽范围的带宽最小值（如所有候选网络支持的带宽最小值中的任一数值、或最小数值、或最大数值作为候选带宽范围的带宽最小值），基于所有候选网络支持的带宽最大值确定候选带宽范围的带宽最大值如所有候选网络支持的带宽最大值中的任一数值、或最小数值、或最大数值作为候选带宽范围的带宽最大值）。

综上所述，可以得到移动设备对应的候选带宽范围，在此基础上：可以从该候选带宽范围内随机选取K1个带宽值作为候选带宽，或者，从该候选带宽范围的带宽最小值开始，每间隔预设带宽值，选取一个带宽值作为候选带宽。当然，上述只是示例，对此不做限制，只要能够从候选带宽范围选取多个候选带宽即可，综上所述，该候选带宽范围可以包括多个候选带宽。

示例性的，移动设备向候选网络发送数据时，移动设备会支持一个功率范围，即功率范围可以包括功率最小值和功率最大值，即移动设备只支持采用该功率范围内的功率向候选网络发送数据。为此，可以将该功率范围称为移动设备对应的候选功率范围，即得到移动设备对应的候选功率范围。在此基础上：可以从该候选功率范围内随机选取K2个功率值作为候选功率，或者，从该候选功率范围的功率最小值开始，每间隔预设功率值，选取一个功率值作为候选功率。当然，上述只是示例，对此不做限制，只要能够从候选功率范围选取多个候选功率即可，综上所述，该候选功率范围可以包括多个候选功率。

步骤306、获取多个候选参数集合，候选参数集合包括一个候选网络、一个候选带宽和一个候选功率。例如，对候选网络列表中的候选网络、候选带宽范围内的候选带宽、候选功率范围内的候选功率进行任意组合，得到多个候选参数集合，每个候选参数集合包括一个候选网络、一个候选带宽和一个候选功率。

比如说，候选网络列表包括候选网络a1和候选网络a2，候选带宽范围包括候选带宽b1和候选带宽b2，候选功率范围包括候选功率c1和候选功率c2，那么，可以获取如下候选参数集合：候选参数集合1可以包括候选网络a1、候选带宽b1、候选功率c1，候选参数集合2可以包括候选网络a1、候选带宽b1、候选功率c2，候选参数集合3包括候选网络a1、候选带宽b2、候选功率c1，候选参数集合4包括候选网络a1、候选带宽b2、候选功率c2，候选参数集合5包括候选网络a2、候选带宽b1、候选功率c1，候选参数集合6包括候选网络a2、候选带宽b1、候选功率c2，候选参数集合7包括候选网络a2、候选带宽b2、候选功率c1，候选参数集合8包括候选网络a2、候选带宽b2、候选功率c2。

步骤307、针对每个候选参数集合，该候选参数集合包括一个候选网络、一个候选带宽和一个候选功率：服务器基于该候选参数集合中的候选带宽和候选功率确定移动设备对应的用户奖励值和该候选网络对应的网络奖励值；基于该用户奖励值和该网络奖励值确定该候选参数集合对应的目标奖励值。

在一种可能的实施方式中，步骤307可以采用如下步骤实现：

步骤3071、基于该候选参数集合中的候选带宽和候选功率确定数据速率。

比如说，基于该候选参数集合中的候选带宽和候选功率，可以采用如下公式（3）确定数据速率，当然，公式（3）只是一个示例，对此不做限制。

公式（3）

在公式（3）中，R_wu表示数据速率，表示候选带宽，/>表示候选功率，/>表示已获取的信道增益（对此信道增益的获取方式不做限制），/>表示已获取的噪声频谱密度（对此噪声频谱密度的获取方式不做限制）。

比如说，网络性能评价和设备请求的服务有很大关系，假设在时间周期T上，每个移动设备（/>）需要通过/>个候选网络传输/>比特的数据，同时每个候选网络将带宽方面的资源分配给U个移动设。那么，从候选网络w到移动设备/>的可用数据速率，可以参见公式（3）所示。

步骤3072、基于该候选带宽、移动设备的待发送数据的目标数据量和该数据速率确定估计能耗参数。比如说，可以采用如下公式（4）确定该估计能耗参数，当然，公式（4）只是一个示例，对此不做限制。

公式（4）

在公式（4）中，E_uw表示估计能耗参数，表示已获取的参数，是针对不同候选网络w的特定参数，不同候选网络w的参数/>可以不同，对此参数/>的获取方式不做限制，可以是配置或采用算法获取。/>表示目标数据量，即移动设备/>向候选网络传输的比特总数量。/>表示已获取的噪声频谱密度，/>表示候选带宽，R_wu表示数据速率，/>表示已获取的参数，是针对不同候选网络w的特定参数，不同候选网络w的参数/>可以不同，可以是配置或采用算法获取。

步骤3073、基于该目标数据量和该数据速率确定预期时延参数。

示例性的，任务请求预期延迟表示使用给定技术时的端到端延迟，假设数据速率模型是无干扰的，并且任何具有干扰的数据速率模型可以与数据传输能耗模型一起集成，那么，针对移动设备向候选网络/>请求的任务预期时延模型（即预期时延参数），可以采用如下公式（5）确定该预期时延参数，当然，公式（5）只是确定该预期时延参数的一个示例，对此不做限制。

公式（5）

在公式（5）中，D_uw表示预期时延参数，表示目标数据量，即移动设备/>向候选网络传输的比特总数量。R_wu表示数据速率，/>表示接入信道延迟，即候选网络w的接入信道延迟，对此接入信道延迟的获取方式不做限制。

步骤3074、基于该目标数据量确定成本参数。

示例性的，假设数据速率模型是无干扰的，且任何具有干扰的数据速率模型可以与数据传输能耗模型一起集成，那么，针对移动设备向候选网络/>请求服务产生的网络成本（即成本参数），可以采用如下公式（6）确定该成本参数，当然，公式（6）只是确定该成本参数的一个示例，对此不做限制。

公式（6）

在公式（6）中，C_uw表示成本参数，表示目标数据量，即移动设备/>向候选网络传输的比特总数量。/>表示发送单位数据量的货币成本（如移动设备上每发送1Bit的货币成本），/>表示已获取的参数，是针对不同候选网络w的特定参数，不同候选网络w的参数/>可以不同，可以是配置或采用算法获取。

步骤3075、基于该估计能耗参数、该预期时延参数和该成本参数确定移动设备的网络评估参数。比如说，可以基于该估计能耗参数、该预期时延参数和该成本参数中的至少一个参数，确定移动设备的网络评估参数。

示例性的，每个候选网络具有不同特性，如数据速率、能耗、货币成本（使用网络服务的请求支付）和传输延迟，且移动设备的移动性，使得候选网络可提供的服务质量水平随时间而变化，即移动设备在获得当前可接入候选网络的同时，候选网络也需要根据当前网络剩余整体性能判断是否满足移动设备的服务请求。基于此，可以根据移动设备的请求特征建立与网络综合评估指标相关的主要关注点，比如说，主要关注点是设备能耗、任务处理时延、价格等三个方面，而设备能耗通过估计能耗参数反映，任务处理时延通过预期时延参数反映，价格通过成本参数反映，因此，可以基于估计能耗参数、预期时延参数和成本参数确定移动设备的网络评估参数。在此基础上，可以采用如下公式（7）确定网络评估参数，当然，公式（7）只是一个示例，对此不做限制。

公式（7）

在公式（7）中，E_uw表示估计能耗参数，D_uw表示预期时延参数，C_uw表示成本参数，f_uw表示网络评估参数，是移动设备对估计能耗的偏好标准化值，可以作为估计能耗参数的权重因子，/>是移动设备对预期时延的偏好标准化值，可以作为预期时延参数的权重因子，/>是移动设备对成本的偏好标准化值，可以作为成本参数的权重因子。比如说，权重因子/>、权重因子/>、权重因子/>均可以根据经验配置，且/>。比如说，不同移动设备可以依据自身服务需求，对以上三个指标（估计能耗参数、预期时延参数和成本参数）设定不同的权重因子，例如，时延敏感的移动设备对预期时延参数赋予较大的权重因子。

步骤3076、基于该网络评估参数确定移动设备对应的用户奖励值。

示例性的，可以基于该网络评估参数和参考概率值确定网络代价值，并基于该参考概率值确定切换代价值，并基于该网络代价值和该切换代价值确定移动设备对应的用户奖励值。其中，该参考概率值是移动设备在单位时间内接入参考网络类型的网络的概率值，且该参考网络类型是候选网络的网络类型。

比如说，假设候选网络是Wi-Fi网络，则参考网络类型可以是Wi-Fi类型，假设移动设备在单位时间（如1分钟、5分钟、10分钟等）内接入Wi-Fi类型的网络的概率值是75%（如移动设备在单位时间内接入3次Wi-Fi类型的网络和接入1次AP热点类型的网络），那么，该参考概率值可以是75%。

在一种可能的实施方式中，用户奖励值的目标是将能耗降至最低，以保证更长的电池寿命，同时共同将成本、延迟和网络切换数降至最低，因此，用户奖励值的定义如下：通过降低移动设备的网络评估参数来降低能耗、延迟和成本，从而最大化移动设备的奖励，以保证移动设备的最佳QoE。

比如说，若移动设备在指定时间段内的网络切换次数小于预设阈值（可以根据经验配置，表示移动设备的切换次数较少，未频繁发生移动），则可以采用如下公式（8）确定用户奖励值，当然，公式（8）只是一个示例，对此不做限制。若移动设备在指定时间段内的网络切换次数不小于该预设阈值（表示移动设备的切换次数较多，频繁发生移动），则可以采用如下公式（9）确定用户奖励值，当然，公式（9）只是一个示例，对此不做限制。

公式（8）

公式（9）

在公式（8）和公式（9）中，用于表示用户奖励值，/>用于表示单位时间t内接入参考网络类型的网络的概率值，/>用于表示多个单位时间t的概率值之和（比如说，选取当前时间前面的1个小时的数据，将1个小时的数据拆分为12个5分钟的数据，每个5分钟的数据对应一个参考概率值/>，对12个参考概率值/>求和即可），/>用于表示该网络评估参数，/>用于表示标准化效用函数，且该标准化效用函数用于对/>进行标准化效用处理。

用于表示切换代价值对应的权重系数，该权重系数可以根据经验进行配置，用于表示归一化函数，且归一化函数用于对/>进行归一化处理。/>用于表示网络代价值对应的权重系数，该权重系数可以根据经验进行配置。

在公式（8）和公式（9）中，表示网络代价值，在公式（8）中，/>表示切换代价值，在公式（9）中，/>表示切换代价值。

从公式（8）和公式（9）可以看出，由于大于/>，因此，若移动设备未频繁发生移动，则更多关注切换代价值，更多关注切换次数，若移动设备频繁发生移动，则更少关注切换代价值，更少关注切换次数。

从公式（8）和公式（9）可以看出，由于小于1，因此，若移动设备未频繁发生移动，则更多关注网络代价值（即成本代价值），若移动设备频繁发生移动，则更少关注网络代价值（即成本代价值），奖励将忽略成本因素。

步骤3077、基于该候选参数集合中的候选带宽和参考概率值确定候选网络对应的网络奖励值。其中，该参考概率值可以是移动设备在单位时间内接入参考网络类型的网络的概率值，且该参考网络类型是候选网络的网络类型。

在一种可能的实施方式中，候选网络选取的主要目标是最大化连接用户的QoE，通过最大化奖励实现，因此，网络奖励值的定义如下：候选网络列表中的每个候选网络通过为每个移动设备分配最佳带宽来最大化其连接的移动设备的奖励，以保证连接用户的最佳QoE，比如说，可以采用如下公式（10）确定网络奖励值，当然，公式（10）只是一个示例，对此确定方式不做限制。

公式（10）

在公式（10）中，表示网络奖励值，/>表示单位时间t内接入参考网络类型的网络的概率值，/>表示多个单位时间t的概率值之和（比如说，选取当前时间前面的1个小时的数据，拆分为12个5分钟数据，每个5分钟数据对应一个参考概率值/>，对12个参考概率值/>求和），/>表示候选带宽。

步骤3078、基于该用户奖励值和该网络奖励值确定该候选参数集合对应的目标奖励值。比如说，该用户奖励值与该网络奖励值之和作为目标奖励值。

至此，完成步骤307，针对每个候选参数集合，可以采用上述方式对该候选参数集合进行处理，得到该候选参数集合对应的目标奖励值。

步骤308、基于每个候选参数集合对应的目标奖励值，从多个候选参数集合中选取一个候选参数集合，基于该候选参数集合确定移动设备接入的目标网络、移动设备采用的目标功率、目标网络为移动设备分配的目标带宽。

比如说，可以选取目标奖励值最大的候选参数集合，将该候选参数集合中的候选网络作为移动设备接入的目标网络（即移动设备需要接入到目标网络，由目标网络为移动设备提供服务），将该候选参数集合中的候选功率作为移动设备采用的目标功率（即移动设备采用目标功率向目标网络发送数据），将该候选参数集合中的候选带宽作为目标网络为移动设备分配的目标带宽。

在一种可能的实施方式中，针对一个移动设备来说，该移动设备对应多个候选参数集合，可以基于每个候选参数集合对应的目标奖励值，从多个候选参数集合中选取一个候选参数集合。针对多个移动设备来说，每个移动设备对应多个候选参数集合，这样，可以获取多个参数组合，针对每个参数组合，该参数组合包括每个移动设备对应的一个候选参数集合，比如说，参数组合1包括移动设备1对应的一个候选参数集合（移动设备1对应的多个候选参数集合中的任意一个）、移动设备2对应的一个候选参数集合、以此类推。显然，可以遍历每个移动设备对应的所有候选参数集合，从而得到多个参数组合。

针对每个参数组合，可以获取该参数组合对应的组合奖励值，比如说，可以计算该参数组合内的所有候选参数集合对应的目标奖励值的求和值（或平均值），将该求和值作为该参数组合对应的组合奖励值。

基于每个参数组合对应的组合奖励值，可以确定最大组合奖励值对应的参数组合，而该参数组合内的候选参数集合就是为移动设备选取的候选参数集合。比如说，基于该参数组合内的候选参数集合，可以为移动设备1选取候选参数集合（即位于该参数组合内）、为移动设备2选取候选参数集合，以此类推。

由以上技术方案可见，本申请实施例中，通过异构网络（即不同类型的多个无线网络）支持物联网设备的连接，满足物联网设备的需求，在采用异构网络支持物联网设备的连接时，给出一种移动设备接入异构网络的方法，能够从所有异构网络中选取移动设备接入的目标网络，并确定移动设备采用的目标功率、目标网络为移动设备分配的目标带宽，从而实现异构网络的高效接入，缓解网络压力，提高系统容量，扩大网络覆盖范围，并满足不同物联网设备的QoE要求。提供一个高效的网络选择接入机制缓解网络压力，为处于任何运动状态的移动设备实现无缝连接，通过移动设备的业务偏好提高网络接入高效性，在有限网络资源约束下为请求各种物联网服务的大量移动设备提供有效接入选择。

在一种可能的实施方式中，为了满足高效的物联网网络接入等要求，本实施例中提出一种基于强化学习的移动设备异构网络接入方法，满足海量移动设备和有限网络资源的要求，确保网络接入系统的稳定性，即网络能够确保将网络资源合理地分配给各个移动设备，同时移动设备能够根据网络负载选择接入的最佳网络。比如说，该移动设备异构网络接入方法可以包括：

步骤一：由于物联网设备数量的巨大增长、网络异构性的加深，需要考虑网络容量限制设计合理的方案平衡网络负载。此外，在移动设备侧，需要考虑移动设备的移动情况以及对不同网络属性的偏好，才能满足移动设备的QoE，因此，网络选择接入策略的设计很有必要。基于此，在步骤一中，设计一种网络选择接入策略，从而满足移动设备的QoE，且能够平衡网络负载。

步骤二：从信号强度和拓扑关系两方面设计模糊网络质量评价体系。

步骤三：从网络属性偏好的角度建立网络综合评估模型。

步骤四：设计由设备移动性、网络属性偏好及网络资源决定的接入策略。

步骤五：设计多代理的强化学习算法，通过多代理的强化学习算法，寻找使所有代理的奖励最大化的最优联合策略，即得到最终网络选择结果。

通过上述步骤，在网络接入中加入模糊网络评估机制，提升网络训练性能。能够兼顾移动设备的移动性和业务属性偏好，有效改善接入不稳定性问题。设计分布式多智能体联邦学算法，能确保问题求解的高效性和训练环境的稳定性。

针对步骤一，由于移动设备往往能够被多个网络覆盖，随着移动设备的移动性的增加，频繁的网络切换影响用户QoE，且容易导致当前网络接入的不稳定性，此外，移动设备请求的服务往往对不同网络属性有不同的偏好指标，又由于网络资源是有限的，因此，设计一个既能满足用户需求又能保证网络负载平衡的网络接入策略以及资源分配方案是复杂的。基于此，本实施例中，设计一个基于设备-网络拓扑关系和网络属性偏好的多目标优化问题，实现异构网络系统资源的合理分配，通过将网络选择问题建模为一个基于设备-网络拓扑关系和网络属性偏好的多目标优化问题，实现异构网络系统资源的合理分配。

针对步骤二，可以从信号强度和拓扑关系两方面设计模糊网络质量评价体系，比如说，可以采用如下步骤设计模糊网络质量评价体系：

步骤S11、移动设备的移动性模式可以由移动设备和网络之间的拓扑关系表示，在不同的时隙中，移动设备和网络之间的拓扑关系可以是不同的，因为每个移动设备在时隙停留在一个区域之后，可以移动到由相邻网络组成的随机协作区域，这样，能够为移动设备提供服务的网络集合就发生了变化。基于此，K*N的矩阵/>用于描述移动设备和网络在时隙t的拓扑关系。

示例性的，是一个二进制变量，若移动设备u在网络w的覆盖范围内，则变量，否则，/>。由于移动设备的移动性，关系矩阵/>是时时变化的，这将影响同一网络的带宽分配，同时也会影响候选网络列表。

步骤S12、为了表征移动设备的属性偏好，定义矩阵，/>表示移动设备/>在时隙/>对网络/>中属性/>的偏好概率，即在时隙/>时，移动设备u与网络w的网络属性偏好。对于每个移动设备，每个时隙期间的偏好/>为标准化值，记为移动设备对属性m的偏好标准化值（即/>为上述实施例的/>），不同移动设备具有不同的网络偏好，每个移动设备/>的请求遵循参数/>的Zipf分布，/>，其中，/>是网络属性的随机排列分布，由用户移动性更新的网络属性偏好可以为：/>。

步骤S13、移动设备所请求的服务属性往往多个网络达到要求，假设移动设备能够检测网络接收信号强度（RSS），则候选网络列表算法如下：

输入移动设备的初始候选网络列表；移动设备/>采集与网络之间的拓扑关系，更新请求服务的属性偏好/>；移动设备/>采集移动设备与每个网络之间的RSS；基于初始候选网络列表/>、拓扑关系/>、属性偏好/>、RSS获取候选网络列表，获取方式参见步骤301-步骤304，至此，得到候选网络列表。

针对步骤三，可以采用如下步骤建立网络综合评估模型：

步骤S21、每个网络具有不同的特性，例如，数据速率、能耗、货币成本（使用网络服务的请求支付）和传输延迟。由于移动设备的移动性，可用网络提供的服务质量水平可能随时间而变化，即移动设备在获得当前可接入网络的同时，网络也需要根据当前网络剩余整体性能判断是否满足移动设备的服务请求，因此，根据移动设备（如当前物联网设备）的请求特征，建立与网络综合评估指标相关的主要关注点是设备能耗、任务处理时延、价格等三个方面。

步骤S22、网络性能评价和移动设备请求的服务有很大关系，假设在时间周期T上，每个移动设备（/>）需要通过W个网络传输/>比特的数据，同时每个网络将带宽方面的资源分配给U个移动设备。基于此，从网络/>到移动设备/>的可用数据速率为：/>。/>是移动设备的传输功率，/>是分配的带宽，/>是噪声频谱密度，/>为信道增益。

然后，在移动设备处向网络发送比特/>（即目标数据量，表示比特总数量）的估计能耗为：/>。/>、/>是每个网络不同的特定参数。

任务请求预期延迟表示使用给定技术时的端到端延迟，假设数据速率模型是无干扰的，并且任何具有干扰的数据速率模型可以与数据传输能耗模型一起集成，则移动设备向网络/>请求的任务预期时延为：/>。其中，/>是网络的接入信道延迟。此外，移动设备/>向网络/>请求服务产生的网络成本为：/>。其中，/>是移动设备上每发送1Bit的货币成本。

步骤S23、从设备能耗、请求时延、成本建立的网络综合评估模型（即网络评估参数）为：。/>是每个移动设备/>时隙请求服务的属性偏好，由移动设备性能和所请求服务决定，和/>保持一致，且。

不同移动设备可以依据自身的服务需求，对以上三个指标设定不同的权重因子，例如，时延敏感的移动设备对时延模型赋予较大的权重值。

步骤S21-步骤S23的各公式含义可以参见步骤307，在此不再赘述。

针对步骤四，可以设计由设备移动性、网络属性偏好以及网络资源共同决定的网络接入策略，实现网络接入的高效可靠，促进网络资源的合理分配，从而提供用户服务的可靠性。比如说，该过程可以包括以下步骤：

步骤S31、对于给定的U个移动设备和N个网络，网络接入策略确保将移动设备根据其服务需求特性分配给候选网络列表中的最佳网络（作为移动设备的目标网络），同时多个网络间实现负载均衡，实现移动设备和网络的双赢。

具体包括：不同网络在移动设备处实现最佳带宽分配，即，/>为时刻移动设备/>在网络/>分得的带宽，/>为网络/>可支配的总带宽，移动设备在一段时间内的发射能耗小于自身总电量/>，移动设备的时延请求需要满足最大时延容忍范围，即/>，/>是移动设备/>能够在网络使用的最大时间段。

步骤S32、服务器收集服务需求和网络参数的信息，并基于用户综合偏好评价模型，生成最适合移动设备的最佳网络。为了生成最适合移动设备的最佳网络，网络选择策略的最终目标是最小化有限时间内所有用户的代价：

在上述公式中，表示移动设备/>对候选网络的选择情况，第一个约束是对网络容量带宽的限制，第二个约束是对任务请求最大处理时延的约束，第三个约束限制了移动设备请求网络的数量，以免造成不必要的干扰，第四个约束限制了移动设备在一段时间内的发射能耗小于自身总电量。

针对步骤五，为了解决步骤四中的问题，即如何最小化有限时间内所有用户的代价，在步骤五中，设计多代理的强化学习算法，通过多代理的强化学习算法解决该问题，找到最小化有限时间内所有用户的代价的最优策略，而基于该最优策略，就可以确定每个移动设备接入的目标网络。在步骤五中，设计多代理的强化学习算法，寻找使所有代理的奖励最大化的最优联合策略，这种算法能够适应网络的实时变化。比如说，该过程可以包括以下步骤：

步骤S41、系统中存在多个独立网络和多个移动设备，因此，在强化学习的部分可观测马尔可夫决策过程（POMDP）设计中，需要考虑多个异构体在离散时间步中与部分可观察环境的同时交互，即一种多智能体POMDP。

多智能体POMDP可以由复杂元组表示，/>用于表示异构智能体“网络”和异构智能体“移动设备”的集合，/>用于表示所有代理在时间/>的可能配置，/>的元素/>可以是智能体在时间/>的可能行为值，的元素/>可以是智能体在时间/>的观测值，/>为状态转移概率，/>是所有智能体获得的一组奖励/>，/>表示奖励因子。

步骤S42、在环境中考虑两类代理，分别是网络代理（记为WNA）和移动设备代理（记为UEA），分别部署在网络控制中心以及移动设备上，WNA优化对移动设备的接入选择以及带宽分配，UEA控制移动设备的传输数据以及响应功率分配。对应地，智能体从环境中接收观察，根据联合策略/>，根据状态转移概率/>将智能体转移到其下一个状态，并且智能体收到当前奖励/>。

在一段时间内，智能体的累计折扣报酬总额/>，/>，/>表示时间周期。因此，策略/>关于状态-动作的评价函数为。智能体的目标是找到一个最优联合策略/>，该策略通过与环境的直接交互，为每个智能体生成最优函数，而不需要明确的转移概率/>。

步骤S43、同一类型的智能体彼此独立，这些智能体之间不共享任何观察或任何类型的信息，而不同类型的智能体之间共享一些信息，包括移动设备向网络发送的数据量和功率，以及每个网络向每个移动设备分配的带宽大小和接入情况。因此，WNA在时刻的观察值为/>，行动值为/>，UEA在/>时刻的观察值可以包括能耗、时延、代价、候选网络的信号信息强度等，即/>，其中是归一化值，且是随机的，这是因为这些观测值主要取决于信道增益估计，这在系统中引入随机性。移动设备的状态也不确定，因为移动设备在任何时间点都容易发生移动，时间/>处的UEA智能体动作是移动设备发送给每个网络的数据量及功率，并表示为/>。

步骤S44、奖励函数的设计需要能够描述最初的优化问题，即最小化有限时间内所有用户的代价，为了最小化有限时间内所有用户的代价，UEA的目标是将能耗降至最低，以保证更长的电池寿命，同时共同将成本、延迟和网络切换数降至最低，基于此，UEA智能体的奖励函数的定义可以如下所示：

在上述公式中，是代价标准化效用函数，/>是时间段/>内网络切换归一化值。当移动设备发生频繁移动时，奖励将忽略成本因素，更少地关注切换次数，并更多关注移动设备业务完成情况，此时，可以采用下面的第二个公式，反之，当移动设备未发生频繁移动时，可以采用上面的第一个公式。

进一步的，WNA智能体的主要目标是最大化连接用户的QoE，通过最大化奖励实现，因此，WNA智能体的奖励函数的定义可以如下所示：。其中，每个候选网络列表中的WNA通过为每个移动设备分配最佳带宽，来最大化其连接的移动设备的奖励，以保证连接用户的最佳QoE。

步骤S45、智能体WNA、UEA是异构的，可以设计一种分布式POMDP解决异构智能体带来的环境不稳定性问题。具体地，先将所有UEA集合视为智能体，则WNA视为环境的一部分，然后，所有WNA集合作为智能体，则UEA作为环境的一部分，并使用一个共享的回放缓冲区来存储所有智能体的经验。

在网络的集中训练阶段，批评者网络充分利用这一缓冲，以评估联合观察的联合行动，从而评估联合政策。具体地，定义Q函数，/>表示当前智能体团队中评论家网络的参数，/>分别表示团队的联合观察和联合行动，而任意一个行动，/>表示参与者智能体的输出，/>是参与者智能体的参数集。该分布式网络的学习中包括批评者的Q学习和参与者的学习。假设已知最佳Q函数，评价者的目标是采取最佳行动最大化接近最佳Q函数，即/>，/>是抽取的联合经验样本，/>是当前下一状态的目标。在执行阶段，批评家网络被丢弃每个参与者都独立学习，仅依赖其本地观察和批评者，参与者学习使Q函数最大化的最优策，整个过程可以通过对测试参数/>进行调整来获得。

综上所述，本实施例中，为了解决“最小化有限时间内所有用户的代价”的问题，可以将移动设备集合（如给定的U个移动设备）和网络集合（如给定的N个网络）作为多智能体POMDP的输入数据，并设计Q函数，Q函数是用户奖励函数和网络奖励函数之和，而用户奖励函数可以参见公式（8）和公式（9），网络奖励函数参见公式（10），这样，多智能体POMDP可以采用步骤307的过程不断迭代更新，得到最优的目标奖励值（即Q函数的输出值）。

在得到最优的目标奖励值之后，就是同时得到多个移动设备对应的最优结果，这样，针对每个移动设备，可以确定移动设备接入的目标网络、可以确定移动设备采用的目标功率、可以确定目标网络为移动设备分配的目标带宽。

在一种可能的实施方式中，强化学习（RL）作为人工智能中的一个新兴领域，用于研究非确定性环境中智能体的最优顺序决策，多智能体强化学习（MARL）进一步扩展了RL框架，并明确建模多个智能体的存在及其联合行动对环境的影响，以共同高效解决网络选择和资源分配问题。本实施例中，提出一种多智能体强化学习算法，通过设计分布式多智能体联邦学算法，能够确保问题求解的高效性和训练环境的稳定性，解决系统智能体的异质性问题。

基于与上述方法同样的申请构思，本申请实施例中提出一种基于强化学习的移动设备异构网络接入装置，应用于服务器，所述服务器用于为移动设备分配接入网络，参见图4所示，为所述装置的结构示意图，所述装置包括：

获取模块41，用于获取移动设备对应的候选网络列表，所述候选网络列表包括多个候选网络，所述多个候选网络包括异构网络，移动设备位于候选网络的覆盖范围内；获取移动设备对应的候选带宽范围和候选功率范围，候选带宽范围包括多个候选带宽，候选功率范围包括多个候选功率；获取多个候选参数集合，所述候选参数集合包括一个候选网络、一个候选带宽和一个候选功率；

确定模块42，用于针对每个候选参数集合，基于所述候选参数集合确定所述移动设备对应的用户奖励值和所述候选网络对应的网络奖励值；基于所述用户奖励值和所述网络奖励值确定所述候选参数集合对应的目标奖励值；处理模块43，用于基于每个候选参数集合对应的目标奖励值，从多个候选参数集合中选取一个候选参数集合，基于该候选参数集合确定移动设备接入的目标网络、移动设备采用的目标功率、所述目标网络为移动设备分配的目标带宽。

示例性的，所述获取模块41获取移动设备对应的候选网络列表时具体用于：

获取初始网络列表，且所述初始网络列表包括所述服务器支持的多个网络；

基于移动设备与所述初始网络列表中每个网络的拓扑关系，从所述初始网络列表中去除第一类网络得到第一中间网络列表；其中，若基于所述拓扑关系确定移动设备不在网络的覆盖范围内，则该网络作为所述第一类网络；

基于移动设备与所述第一中间网络列表中每个网络的接收信号强度，从所述第一中间网络列表中去除第二类网络得到第二中间网络列表；其中，若移动设备与网络的接收信号强度小于信号强度阈值，则该网络作为所述第二类网络；

基于移动设备与所述第二中间网络列表中每个网络的网络属性偏好，从所述第二中间网络列表中去除第三类网络得到候选网络列表；其中，若移动设备与网络的网络属性偏好小于偏好阈值，则该网络作为所述第三类网络。

示例性的，所述获取模块41还用于：在基于移动设备与所述第二中间网络列表中每个网络的网络属性偏好，从所述第二中间网络列表中去除第三类网络得到候选网络列表之前，针对所述第二中间网络列表中每个网络，获取该网络支持的M个属性对应的M个随机概率值，并获取所述M个属性对应的M个参数值；其中，M为正整数，所述M个随机概率值服从指定分布，且所述M个参数值服从指定分布；针对该网络支持的每个属性，基于该属性对应的随机概率值和所述M个参数值确定移动设备对该属性的偏好标准化值；基于移动设备对所述M个属性的偏好标准化值确定移动设备与该网络的网络属性偏好。

示例性的，所述确定模块42基于所述候选参数集合确定所述移动设备对应的用户奖励值时具体用于：基于所述候选参数集合中的候选带宽和所述候选参数集合中的候选功率确定数据速率；基于所述候选带宽、移动设备的待发送数据的目标数据量和所述数据速率确定估计能耗参数；基于所述目标数据量和所述数据速率确定预期时延参数；基于所述目标数据量确定成本参数；基于所述估计能耗参数、所述预期时延参数和所述成本参数确定所述移动设备的网络评估参数；基于所述网络评估参数确定移动设备对应的用户奖励值。

示例性的，所述确定模块42基于所述候选参数集合中的候选带宽和所述候选参数集合中的候选功率确定数据速率时具体用于：基于如下公式确定所述数据速率：；所述确定模块42基于所述候选带宽、所述目标数据量和所述数据速率确定估计能耗参数时具体用于：基于如下公式确定所述估计能耗参数：；所述确定模块42基于所述目标数据量和所述数据速率确定预期时延参数时具体用于：基于如下公式确定所述预期时延参数：；所述确定模块42基于所述目标数据量确定成本参数时具体用于：基于如下公式确定所述成本参数：/>；

其中，E_uw表示所述估计能耗参数，D_uw表示所述预期时延参数，C_uw表示所述成本参数；R_wu表示所述数据速率，表示所述候选带宽，/>表示所述候选功率，/>表示已获取的信道增益，/>表示已获取的噪声频谱密度；/>表示已获取的参数，/>表示已获取的参数，/>表示所述目标数据量，/>表示接入信道延迟，/>表示发送单位数据量的货币成本，/>表示已获取的参数。

示例性的，所述确定模块42基于所述估计能耗参数、所述预期时延参数和所述成本参数确定所述移动设备的网络评估参数时具体用于：基于如下公式确定所述移动设备的网络评估参数：；

其中，E_uw表示所述估计能耗参数，D_uw表示所述预期时延参数，C_uw表示所述成本参数，是移动设备对估计能耗的偏好标准化值，/>是移动设备对预期时延的偏好标准化值，/>是移动设备对成本的偏好标准化值。

示例性的，所述确定模块42基于所述网络评估参数确定移动设备对应的用户奖励值时具体用于：基于所述网络评估参数和参考概率值确定网络代价值，基于所述参考概率值确定切换代价值，并基于所述网络代价值和所述切换代价值确定所述用户奖励值；所述参考概率值是所述移动设备在单位时间内接入参考网络类型的网络的概率值，所述参考网络类型是所述候选网络的网络类型。

示例性的，所述确定模块42基于所述网络评估参数和所述参考概率值确定网络代价值，基于所述参考概率值确定切换代价值，并基于所述网络代价值和所述切换代价值确定所述用户奖励值时具体用于：

若所述移动设备在指定时间段内的网络切换次数小于预设阈值，则采用如下公式确定所述用户奖励值：；

若所述移动设备在指定时间段内的网络切换次数不小于预设阈值，则采用如下公式确定所述用户奖励值：；

表示所述用户奖励值，/>表示单位时间t内接入参考网络类型的网络的概率值，/>表示多个单位时间t的概率值之和，/>表示所述网络评估参数，/>表示标准化效用函数，标准化效用函数用于对/>进行标准化效用处理，/>表示切换代价值对应的权重系数，/>表示归一化函数，归一化函数用于对/>进行归一化处理，表示网络代价值对应的权重系数；

表示网络代价值，/>和/>表示切换代价值。

示例性的，所述确定模块42基于所述候选参数集合确定所述候选网络对应的网络奖励值时具体用于：基于所述候选参数集合中的候选带宽和参考概率值确定所述候选网络对应的网络奖励值；其中，所述参考概率值是移动设备在单位时间内接入参考网络类型的网络的概率值，所述参考网络类型是所述候选网络的网络类型。

示例性的，所述确定模块42基于所述候选参数集合中的候选带宽和参考概率值确定所述候选网络对应的网络奖励值时具体用于：

采用如下公式确定所述网络奖励值：；其中，/>用于表示所述网络奖励值，/>用于表示单位时间t内接入参考网络类型的网络的概率值，/>表示多个单位时间t的概率值之和，/>用于表示所述候选带宽。

基于与上述方法同样的申请构思，本申请实施例提出一种电子设备（如上述服务器），参见图5所示，包括处理器51和机器可读存储介质52，机器可读存储介质52存储有能够被处理器51执行的机器可执行指令；处理器51用于执行机器可执行指令，以实现基于强化学习的移动设备异构网络接入方法。

基于与上述方法同样的申请构思，本申请实施例还提供一种机器可读存储介质，机器可读存储介质上存储有若干计算机指令，计算机指令被处理器执行时，能够实现上述示例的基于强化学习的移动设备异构网络接入方法。

其中，上述机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM（Radom Access Memory，随机存取存储器）、易失存储器、非易失性存储器、闪存、存储驱动器（如硬盘驱动器）、固态硬盘、任何类型的存储盘（如光盘、dvd等），或者类似的存储介质，或者它们的组合。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

而且，这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于强化学习的移动设备异构网络接入方法，其特征在于，应用于服务器，所述服务器用于为移动设备分配接入网络，所述方法包括：

获取多个候选参数集合，所述候选参数集合包括一个候选网络、一个候选带宽和一个候选功率；针对每个候选参数集合：基于所述候选参数集合中的候选带宽和候选功率确定数据速率，基于所述候选带宽、移动设备的待发送数据的目标数据量和所述数据速率确定估计能耗参数，基于所述目标数据量和所述数据速率确定预期时延参数，基于所述目标数据量确定成本参数，基于估计能耗参数、预期时延参数和成本参数确定所述移动设备的网络评估参数，基于所述网络评估参数和参考概率值确定网络代价值，基于所述参考概率值确定切换代价值，并基于所述网络代价值和所述切换代价值确定所述移动设备对应的用户奖励值；以及，基于所述候选带宽和参考概率值确定所述候选网络对应的网络奖励值；基于所述用户奖励值和所述网络奖励值确定所述候选参数集合对应的目标奖励值；其中，所述参考概率值是所述移动设备在单位时间内接入参考网络类型的网络的概率值，所述参考网络类型是所述候选网络的网络类型；

2.根据权利要求1所述的方法，其特征在于，

所述获取移动设备对应的候选网络列表，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于移动设备与所述第二中间网络列表中每个网络的网络属性偏好，从所述第二中间网络列表中去除第三类网络得到候选网络列表之前，所述方法还包括：

针对所述第二中间网络列表中每个网络，获取该网络支持的M个属性对应的M个随机概率值，并获取所述M个属性对应的M个参数值；其中，M为正整数，所述M个随机概率值服从指定分布，且所述M个参数值服从指定分布；

针对该网络支持的每个属性，基于该属性对应的随机概率值和所述M个参数值确定移动设备对该属性的偏好标准化值；基于移动设备对所述M个属性的偏好标准化值确定移动设备与该网络的网络属性偏好。

4.根据权利要求1所述的方法，其特征在于，

所述基于所述候选参数集合中的候选带宽和候选功率确定数据速率，包括：基于如下公式确定所述数据速率：；

所述基于所述候选带宽、所述目标数据量和所述数据速率确定估计能耗参数，包括：基于如下公式确定所述估计能耗参数：；

所述基于所述目标数据量和所述数据速率确定预期时延参数，包括：

基于如下公式确定所述预期时延参数：；

所述基于所述目标数据量确定成本参数，包括：

基于如下公式确定所述成本参数：；

其中，Euw表示所述估计能耗参数，Duw表示所述预期时延参数，Cuw表示所述成本参数；Rwu表示所述数据速率，表示所述候选带宽，/>表示所述候选功率，/>表示已获取的信道增益，/>表示已获取的噪声频谱密度；/>表示已获取的参数，/>表示已获取的参数，/>表示所述目标数据量，/>表示接入信道延迟，/>表示发送单位数据量的货币成本，/>表示已获取的参数。

5.根据权利要求1所述的方法，其特征在于，所述基于所述估计能耗参数、所述预期时延参数和所述成本参数确定所述移动设备的网络评估参数，包括：

基于如下公式确定所述移动设备的网络评估参数：；

其中，Euw表示所述估计能耗参数，Duw表示所述预期时延参数，Cuw表示所述成本参数，是移动设备对估计能耗的偏好标准化值，/>是移动设备对预期时延的偏好标准化值，/>是移动设备对成本的偏好标准化值。

6.根据权利要求1所述的方法，其特征在于，所述基于所述网络评估参数和参考概率值确定网络代价值，基于所述参考概率值确定切换代价值，并基于所述网络代价值和所述切换代价值确定所述移动设备对应的用户奖励值，包括：

表示所述用户奖励值，/>表示单位时间t内接入参考网络类型的网络的概率值，表示多个单位时间t的概率值之和，/>表示所述网络评估参数，/>表示标准化效用函数，标准化效用函数用于对/>进行标准化效用处理，/>表示切换代价值对应的权重系数，/>表示归一化函数，归一化函数用于对/>进行归一化处理，/>表示网络代价值对应的权重系数；

表示网络代价值，/>和/>表示切换代价值。

7.根据权利要求1所述的方法，其特征在于，所述基于所述候选带宽和参考概率值确定所述候选网络对应的网络奖励值，包括：

采用如下公式确定所述网络奖励值：；其中，/>用于表示所述网络奖励值，用于表示单位时间t内接入参考网络类型的网络的概率值，/>表示多个单位时间t的概率值之和，/>用于表示所述候选带宽。

8.一种基于强化学习的移动设备异构网络接入装置，其特征在于，应用于服务器，所述服务器用于为移动设备分配接入网络，所述装置包括：

确定模块，用于针对每个候选参数集合，基于所述候选参数集合中的候选带宽和候选功率确定数据速率，基于所述候选带宽、移动设备的待发送数据的目标数据量和所述数据速率确定估计能耗参数，基于所述目标数据量和所述数据速率确定预期时延参数，基于所述目标数据量确定成本参数，基于估计能耗参数、预期时延参数和成本参数确定所述移动设备的网络评估参数，基于所述网络评估参数和参考概率值确定网络代价值，基于所述参考概率值确定切换代价值，并基于所述网络代价值和所述切换代价值确定所述移动设备对应的用户奖励值；以及，基于所述候选带宽和参考概率值确定所述候选网络对应的网络奖励值；基于所述用户奖励值和所述网络奖励值确定所述候选参数集合对应的目标奖励值；其中，所述参考概率值是所述移动设备在单位时间内接入参考网络类型的网络的概率值，所述参考网络类型是所述候选网络的网络类型；

9.一种电子设备，其特征在于，包括：处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令；所述处理器用于执行机器可执行指令，以实现权利要求1-7任一所述的方法。