CN113727420B

CN113727420B - 一种多模接入网络选择装置及方法

Info

Publication number: CN113727420B
Application number: CN202111033667.8A
Authority: CN
Inventors: 柴蓉; 桂康安; 李轩; 陈前斌
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2023-05-23
Anticipated expiration: 2041-09-03
Also published as: CN113727420A

Abstract

本发明涉及多模接入网络选择装置及方法，属于异构融合网络场景多模终端接入网络选择领域，终端信息感知模块实时感知终端状态，并将感知信息发送至接入网络选择模块；业务特性感知模块实时感知当前业务特性，并将业务特性数据发送至信息处理模块；网络信息收集模块实时收集网络状态信息、并将数据发送至信息处理模块；信息处理模块对数据进行处理发送至接入网络选择判决模块；接入网络选择判决模块基于DQN模型确定最优网络接入策略。本发明可以综合考虑终端特性、业务特性、网络特性，在动态系统中考虑长期的收益，选择合适的网络，保障业务的长期服务质量。

Description

一种多模接入网络选择装置及方法

技术领域

本发明属于异构融合网络场景多模终端接入网络选择领域，涉及一种多模接入网络选择装置及方法。

背景技术

第五代移动通信(5th Generation Mobile Communications,5G)技术将实现新空口、长期演进(Long Term Evolution，LTE)、Wi-Fi及其它多种无线接入技术的异构融合，并将支持增强型移动带宽、大规模机器通信以及超可靠低时延通信等多类业务传输。随着通信芯片、封装集成以及终端技术的快速发展，支持多模通信的5G智能终端得到广泛应用。在如图1所示的5G多模异构融合网络场景中，多模终端如何实现接入网络的优化选择成为影响网络性能及用户体验的重要问题。现有研究已有考虑5G多网融合场景的接入网络选择问题，但较少考虑基于网络长期性能优化实现接入网络选择。此外，现有工作较多基于接收信号强度或数据传输速率确定接入网络选择策略，较少综合考虑多类网络业务指标以及用户业务不同偏好优化确定接入网络选择策略。

发明内容

有鉴于此，本发明的目的在于面向5G异构融合网络多类业务需求，提供一种终端自主决策的多模组接入网络选择装置及方法，支持多模组协同，实时获取业务特性、终端状态特性以及网络特性，基于深度Q网络(deep Q network，DQN)模型确定接入网络选择策略，实现业务的长期服务质量(Quality of Service，QoS)保障。本发明应用于复杂的融合网络场景、面向终端以及5G新型业务，具有很强的实用性。

为达到上述目的，本发明提供如下技术方案：

一方面，本发明提供一种多模接入网络选择装置，包括：

终端信息感知模块：用于在每个时隙开始阶段，感知终端自身的状态信息，通过对微处理器缓存内容的分析，获取终端时隙t的可用费用F_t，并将信息提供给接入网络选择判决模块；

业务特性感知模块：用于周期性地对业务数据流和协议进行分析解析，感知各业务性能参数，包括传输带宽、时延、时延抖动和丢包率的阈值，同时根据业务对各性能参数的敏感程度确定参数敏感系数，并将感知的参数阈值以及参数的敏感系数分别发送至信息处理模块、接入网络选择判决模块；

网络信息收集模块：通过不同网络端口周期性的获取网络状态信息，包括可用带宽、连接时延信息，并将收集的网络状态信息发送至信息处理模块，将网络接入费用信息发送至接入网络选择判决模块；

信息处理模块：用于将业务性能参数划分为收益类和成本类，并对参数进行归一化处理，得到各参数归一化值，并发送至接入网络选择判决模块，所述收益类包括带宽和信号强度，所述成本类包括时延和丢包参数；

接入网络选择判决模块：用于在数据预处理模块对数据进行预处理，在DQN训练模块定义系统状态、动作和即时奖励，建模长期优化目标；还用于训练DQN模型，基于DQN模型确定接入网络选择策略。

另一方面，本发明提供一种多模接入网络选择方法，包括以下步骤：

S1：终端信息感知模块实时感知收集终端信息，并将终端特性发送至接入网络选择判决模块；

S2：业务特性感知模块对用户业务特性进行实时感知，并发送至信息处理模块以及接入网络选择判决模块；

S3：网络信息接收模块实时接收可用网络状态信息，并发送至信息处理模块及接入网络选择判决模块；

S4：信息处理模块对终端特性、业务特性以及网络状态信息进行处理，将处理结果发送至接入网络选择判决模块；

S5：接入网络选择判决模块接收各模块发送的信息，执行接入选择方法，确定最优接入网络选择策略，并发送至相应的网络接口。

进一步，在所述步骤S1中，终端信息感知模块获取终端时隙t的可用费用F_t，并将信息发送至接入网络选择判决模块。

进一步，在所述步骤S2中，定义b_t为时隙t任务到达标识，b_t＝1表示时隙t有任务到达，b_t＝0表示时隙t无任务到达；业务特性感知模块对业务进行识别，感知各业务性能参数，包括传输带宽、时延、时延抖动和丢包率的阈值，定义

分别表示时隙t用户业务对第j个业务性能参数需求阈值上限及下限，1≤t≤T，1≤j≤J，其中，T为最大时隙数，J为业务性能参数数量；同时根据业务对各性能参数的敏感程度确定参数敏感系数，令ω_j,t表示时隙t业务对第j个业务性能参数的敏感系数，1≤t≤T，1≤j≤J。

进一步，在所述步骤S3中，网络信息收集模块通过接入网络端口获得接入网络参数，令p_i,j,t表示时隙t接入网络i对应的第j个性能参数指标，1≤i≤M，1≤j≤J，1≤t≤T，其中，M为接入网络数量。

进一步，在所述步骤S4中，信息处理模块接收业务特性及网络状态信息，将业务性能参数划分为收益类及成本类参数，并对参数进行归一化处理，令V_i,j,t表示p_i,j,t归一化值，有

进一步，在所述步骤S5中，接入网络选择判决模块根据终端特性、用户业务特性及网络状态信息，采用基于深度Q网络(deep Q network，DQN)的接入网络选择方法，具体为：定义系统状态、动作和即时奖励，设立系统长期优化目标，基于DQN模型确定接入网络选择策略。

进一步，所述定义系统状态、动作和即时奖励，设立系统长期优化目标，具体为：

确定状态集合S，s_t∈S，s_t为时隙t的状态，定义为：

其中i表示时隙t终端接入网络i，1≤i≤M，V_i,t＝[V_i,1,t,…,V_i,j,t,…,V_i,J,t]表示时隙t第i个网络参数的归一化值集合，ω_t＝{ω_1,t,...,ω_j,t,...,ω_J,t}表示时隙t终端业务对第j个性能参数的敏感程度集合；

表示时隙t终端业务队列需传输的业务量，建模为：

其中，

为指示函数，若ω_t+1≠ω_t为真，则/>

否则为0，/>

表示终端业务队列的最大长度；确定动作集合A，a_t∈A，a_t为时隙t的动作，定义a_t＝i表示在时隙t选择接入网络i；

定义状态为s_t时接入网络i对应的即时奖励为：

其中，

表示终端在时隙t接入网络i所获得的服务质量(Quality of Service，QoS)，T_j,t表示终端用户时隙t对第j个性能参数可容忍的参数偏移度，/>

表示在时隙t切换到网络i的费用，ω_f,ω_a,ω_g表示各项权重；

建模长期收益为：

其中γ为折扣因子且γ∈[0,1]；

建模优化问题

进一步，设立系统长期优化目标，基于DQN模型确定接入网络选择策略，具体包括：

S51：设置DQN训练过程中所需的参数，包括学习率、折扣率；

S52：初始化DQN模型中主Q网络的参数θ和目标Q网络的参数θ'；

S53：获取经验<s_t,a_t,r_t,s_t+1>，并存储在经验回放池中；

S54：从经验回放池D中随机选取转移样本<s_τ,a_τ,r_τ,s_τ+1>，输入至神经网络；

S55：计算主Q网络和目标Q网络的损失函数，更新参数θ和θ'。

进一步，步骤S52中主Q网络和目标Q网络均采用卷积神经网络，分别对两个网络的参数θ、θ'进行初始化。

进一步，步骤S53将当前状态s_t输入至主Q网络，获取所有动作对应的Q(s_t,a_t；θ)，根据贪婪策略选取动作a_t，获取即时奖励r_t，状态转移到s_t+1，获取转移数据<s_t,a_t,r_t,s_t+1>。

进一步，步骤S55所述神经网络输出Q(s_τ,a_τ；θ)及

计算损耗函数/>

利用后向传播法，梯度更新θ，周期地令θ'＝θ，完成网络参数更新。

进一步，训练DQN模型，基于DQN模型确定接入网络选择策略。

本发明的有益效果在于：本发明可以综合考虑终端特性、业务特性、网络特性，在动态系统中考虑长期的收益，选择合适的网络，保障业务的长期服务质量(Quality ofService，QoS)。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为能够用于实现本发明的一个异构融合网络通信系统的拓扑图；

图2为本发明所述DQN模型训练流程示意图；

图3为多模接入网络选择装置示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图3，本发明所述的一种多模接入网络选择方法，考虑根据终端特性、业务特性、网络特性，基于DQN得到最优网络接入选择策略。

如图2所示，本发明所述方法具体包括以下步骤：

步骤一：终端信息感知模块实时感知收集终端时隙t的可用费用F_t，并将终端特性发送至接入网络选择判决模块

步骤二：业务特性感知模块对用户业务特性进行实时感知，并发送至信息处理模块以及接入网络选择判决模块

所述业务特性感知模块对业务进行识别，感知各业务性能参数，如传输带宽、时延、时延抖动和丢包率等的阈值，定义

步骤三：网络信息接收模块实时接收可用网络状态信息，并发送至信息处理模块及接入网络选择判决模块

所述网络信息收集模块通过接入网络端口获得不同网络参数，令p_i,j,t表示时隙t接入网络i对应的第j个性能参数指标，1≤i≤M，1≤j≤J，1≤t≤T，其中，M为接入网络数量。

步骤四：信息处理模块对终端特性、业务特性、以及网络状态信息进行处理，将处理结果发送至接入网络选择判决模块

所述信息处理模块接收业务特性及网络状态信息，将业务性能参数划分为收益类及成本类参数，并对参数进行归一化处理，令V_i,j,t表示p_i,j,t归一化值，有

步骤五：接入网络选择判决模块接收各模块发送的信息，执行接入选择方法，确定最优接入网络选择策略，并发送至相应的网络接口

所述接入网络选择判决模块根据终端特性、用户业务特性及网络状态信息，采用基于深度Q网络(deep Q network，DQN)的接入网络选择方法，具体为首先定义系统状态、动作和即时奖励，其次建模长期优化目标，基于深度Q网络(deep Q network，DQN)模型确定接入网络选择策略。确定状态集合S，s_t∈S，s_t为时隙t的状态，定义为

其中i表示时隙t终端接入网络i，1≤i≤M，V_i,t＝[V_i,1,t,…,V_i,j,t,…,V_i,J,t]表示时隙t第i个网络参数的归一化值集合，其中，ω_t＝{ω_1,t,...,ω_j,t,...,ω_J,t}表示时隙t终端业务对第j个性能参数的敏感程度集合，/>

表示时隙t终端业务队列需传输的业务量，建模为

表示时隙t的业务队列，其中，/>

为指示函数，若ω_t+1≠ω_t为真，则/>

否则为0，/>

表示终端业务队列的最大长度；确定动作集合A，a_t∈A，a_t为时隙t的动作，定义a_t＝i表示在时隙t选择接入网络i；定义状态为s_t时接入网络i对应的即时奖励为/>

其中，/>

表示终端在时隙t接入网络i所获得的QoS，T_j,t表示终端用户时隙t对第j个性能参数可容忍的参数偏移度，/>

表示在时隙t切换到网络i的费用，ω_f,ω_a,ω_g，表示各项权重。建模长期收益为/>

γ为折扣因子且γ∈[0,1]，建模如下优化问题/>

所述的基于深度Q网络(deep Q network，DQN)模型确定接入网络选择策略如图2有以下步骤：

步骤一：设置DQN训练过程中所需的参数，例如学习率、折扣率等

步骤二：初始化DQN模型中初始化DQN模型中主Q网络的参数θ和目标Q网络的参数θ'

步骤三：获取经验<s_t,a_t,r_t,s_t+1>，并存储在经验回放池中

将当前状态s_t输入至所述主Q网络，获取所有动作对应的Q(s_t,a_t；θ)，根据贪婪策略选取动作a_t，获取即时奖励r_t，状态转移到s_t+1，获取转移数据<s_t,a_t,r_t,s_t+1>

步骤四：从经验回放池D中随机选取转移样本<s_τ,a_τ,r_τ,s_τ+1>，输入至神经网络

步骤五：计算两个神经网络的损失函数，更新参数θ和θ'。

所述神经网络分别输出Q(s_τ,a_τ；θ)及

计算损耗函数

如图3所示，本发明所述装置包括以下模块：

终端信息感知模块

在每个时隙开始阶段，感知终端自身的状态信息，通过对微处理器缓存内容的分析，获取终端时隙t的可用费用F_t，并将信息提供给接入网络选择判决模块；

业务特性感知模块

该模块周期性的对业务数据流和协议进行分析解析，感知各业务性能参数，如传输带宽、时延、时延抖动和丢包率等的阈值，同时根据业务对各性能参数的敏感程度确定参数敏感系数，并将感知的参数阈值以及参数的敏感系数分别发送至信息处理模块、接入网络选择判决模块；

网络信息收集模块

通过不同网络端口周期性的获取网络相关信息，如可用带宽、连接时延等信息，并将收集的网络状态信息发送至信息处理模块，将网络接入费用信息发送至接入网络选择判决模块；

信息处理模块

将业务性能参数划分为收益类，如带宽、信号强度等及成本类，如时延、丢包等参数，并对参数进行归一化处理，得到各参数归一化值，并发送至接入网络选择判决模块；

接入网络选择判决模块

在数据预处理模块对数据进行预处理，在DQN训练模块定义系统状态、动作和即时奖励，建模长期优化目标；进一步，训练DQN模型，基于DQN模型确定接入网络选择策略。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种多模接入网络选择方法，其特征在于：包括以下步骤：

S5：接入网络选择判决模块接收各模块发送的信息，执行接入选择方法，确定最优接入网络选择策略，并发送至相应的网络接口；

在所述步骤S1中，终端信息感知模块获取终端时隙t的可用费用F_t，并将信息发送至接入网络选择判决模块；

在所述步骤S2中，定义b_t为时隙t任务到达标识，b_t＝1表示时隙t有任务到达，b_t＝0表示时隙t无任务到达；业务特性感知模块对业务进行识别，感知各业务性能参数，包括传输带宽、时延、时延抖动和丢包率的阈值，定义

分别表示时隙t用户业务对第j个业务性能参数需求阈值上限及下限，1≤t≤T，1≤j≤J，其中，T为最大时隙数，J为业务性能参数数量；同时根据业务对各性能参数的敏感程度确定参数敏感系数，令ω_j,t表示时隙t业务对第j个业务性能参数的敏感系数，1≤t≤T，1≤j≤J；

在所述步骤S3中，网络信息收集模块通过接入网络端口获得接入网络参数，令p_i,j,t表示时隙t接入网络i对应的第j个性能参数指标，1≤i≤M，1≤j≤J，1≤t≤T，其中，M为接入网络数量；

在所述步骤S4中，信息处理模块接收业务特性及网络状态信息，将业务性能参数划分为收益类及成本类参数，并对参数进行归一化处理，令V_i,j,t表示p_i,j,t归一化值，有

在所述步骤S5中，接入网络选择判决模块根据终端特性、用户业务特性及网络状态信息，采用基于深度Q网络(deep Qnetwork，DQN)的接入网络选择方法，具体为：定义系统状态、动作和即时奖励，设立系统长期优化目标，基于DQN模型确定接入网络选择策略；

所述定义系统状态、动作和即时奖励，设立系统长期优化目标，具体为：

确定状态集合S，s_t∈S，s_t为时隙t的状态，定义为：

表示时隙t终端业务队列需传输的业务量，建模为：

其中，

为指示函数，若ω_t+1≠ω_t为真，则/>

否则为0，/>

定义状态为s_t时接入网络i对应的即时奖励为：

其中，

表示终端在时隙t接入网络i所获得的服务质量(QualityofService，QoS)，T_j,t表示终端用户时隙t对第j个性能参数可容忍的参数偏移度，/>

表示在时隙t切换到网络i的费用，ω_f,ω_a,ω_g表示各项权重；

建模长期收益为：

其中γ为折扣因子且γ∈[0,1]；

建模优化问题

设立系统长期优化目标，基于DQN模型确定接入网络选择策略，具体包括：

S51：设置DQN训练过程中所需的参数，包括学习率、折扣率；

S52：初始化DQN模型中主Q网络的参数θ和目标Q网络的参数θ'；

S53：获取经验<s_t,a_t,r_t,s_t+1>，并存储在经验回放池中；

S55：计算主Q网络和目标Q网络的损失函数，更新参数θ和θ'。

2.根据权利要求1所述的多模接入网络选择方法，其特征在于：步骤S53将当前状态s_t输入至主Q网络，获取所有动作对应的Q(s_t,a_t；θ)，根据贪婪策略选取动作a_t，获取即时奖励r_t，状态转移到s_t+1，获取转移数据<s_t,a_t,r_t,s_t+1>；

步骤S55所述神经网络输出Q(s_τ,a_τ；θ)及

计算损耗函数

3.一种用于实现如权利要求1-2任一所述方法的多模接入网络选择装置，其特征在于：包括：