CN112867033B

CN112867033B - 基于在线学习的动态异构网络选择方法及装置

Info

Publication number: CN112867033B
Application number: CN202011623735.1A
Authority: CN
Inventors: 刘庚冉; 贺超; 陈力; 林宇斐; 丁一珊
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-05-02
Anticipated expiration: 2040-12-31
Also published as: CN112867033A

Abstract

本发明实施例提供了一种基于在线学习的动态异构网络选择方法及装置，包括：获取无线节点进行视频传输时可选择的各无线接入网络；基于各无线接入网络建立多臂选择机MAB在线学习模型，从而将无线节点的异构网络选择问题建模为基于多臂选择机模型的在线学习问题；建立建立面向视频用户体验质量QoE的回报函数；基于多臂选择机MAB在线学习模型和面向视频用户体验质量QoE的回报函数确定多臂选择机MAB在线学习模型的最优解，并将最优解作为视频传输过程中无线接入网络选择结果，从而平衡利用与探索的难题。本实施例能够解决了在异构网络状态信息变化不确定的情况下，无线节点传输视频时的动态网络选择问题，使得视频用户能够获得更好的视频体验质量。

Description

基于在线学习的动态异构网络选择方法及装置

技术领域

本发明涉及智能通信技术领域，尤其涉及一种基于在线学习的动态异构网络选择方法及装置。

背景技术

视频用户从异构接入网络中选择合适的网络是进行视频传输的首要步骤，对视频传输质量具有重要影响。在多个异构网络共同覆盖的公共区域内，各个接入网络的带宽、丢包率等网络状态参数不断动态变化。这种网络状态信息的动态变化和不确定性，对无线视频传输节点选择接入网络增加了不确定因素和困难。同时，由于不同接入网络之间缺乏有效的信息共享方案，而网络服务提供商(Network Service Provider，NSP)之间却存在着业务竞争，一些重要的网络状态信息，例如信道的实际可用带宽、丢包率和时延等，可能无法事先告知视频用户。而实时监控所有网络状态信息的成本较高也不切实际，从而也就失去了网络选择的依据。因此，现有的方法在面对多个动态的接入网络，无法克服网络状态的随机变化做出合理的选择，实现视频传输的质量优化。

发明内容

针对现有技术中存在的问题，本发明实施例提供一种基于在线学习的动态异构网络选择方法及装置。

第一方面，本发明实施例提供一种基于在线学习的动态异构网络选择方法，包括：

获取无线节点进行视频传输时可选择的各无线接入网络；

基于所述可选择的各无线接入网络建立多臂选择机MAB在线学习模型；所述多臂选择机MAB在线学习模型用于在不同时隙选择符合目标期望的无线接入网络，所述多臂选择机MAB在线学习模型中每个可选臂表示在各无线接入网络中的一种选择接入的网络；

建立面向视频用户体验质量QoE的回报函数，并将所述面向视频用户体验质量QoE的回报函数代入所述多臂选择机MAB在线学习模型；

基于所述多臂选择机MAB在线学习模型和面向视频用户体验质量QoE的回报函数，确定所述多臂选择机MAB在线学习模型的最优解，并将所述最优解作为视频传输过程中无线接入网络选择结果。

进一步地，所述基于所述可选择的各无线接入网络建立多臂选择机MAB在线学习模型，具体包括：

若所述可选择的各无线接入网络个数为M，则确定M个无线接入网络构成的集合为M₁＝{1,2,...,M}；

将视频传输的总时隙记为T，则在不同时隙无线节点对M个无线接入网络选择的接入网络所构成的集合为

相应地，所述集合S_MAB对应的回报集为U_MAB＝{u_MAB(1),u_MAB(2),...,u_MAB(T)}；

根据集合S_MAB以及所述集合S_MAB对应的回报集U_MAB得到多臂选择机MAB在线学习模型；所述多臂选择机MAB在线学习模型为：

其中，i表示T个时隙中的一个时隙，

表示约束条件。

进一步地，所述建立面向视频用户体验质量QoE的回报函数，并将所述面向视频用户体验质量QoE的回报函数代入所述多臂选择机MAB在线学习模型，具体包括：

基于视频内容建立面向视频用户体验质量QoE的回报函数，所述面向视频用户体验质量QoE的回报函数为：

其中，所述视频内容为三类：轻微运动类、适中运动类和快速运动类，当φ＝1时，所述视频内容属于轻微运动类，当φ＝2时，所述视频内容属于适中运动类，当φ＝3时，所述视频内容属于快速运动类；在第i时隙，i≤T，无线节点所选择的无线接入网络为s_MAB(i)∈M，所述无线节点所选择的无线接入网络在所述时隙i内信道速率r_s(i)及丢包率l_s(i)保持不变；

将所述面向视频用户体验质量QoE的回报函数代入所述多臂选择机MAB在线学习模型。

进一步地，所述将所述面向视频用户体验质量QoE的回报函数代入所述多臂选择机MAB在线学习模型，具体包括：

确定各无线接入网络损耗的代价因子为λ＝{λ₁,λ₂,...,λ_M}；

基于无线接入网络损耗的代价因子确定所述面向视频用户体验质量QoE的回报函数；

将基于无线接入网络损耗的代价因子确定的所述面向视频用户体验质量QoE的回报函数代入所述多臂选择机MAB在线学习模型，则所述多臂选择机MAB在线学习模型为：

进一步地，所述基于所述多臂选择机MAB在线学习模型和面向视频用户体验质量QoE的回报函数，确定所述多臂选择机MAB在线学习模型的最优解，并将所述最优解作为视频传输过程中无线接入网络选择结果，具体包括：

基于所述多臂选择机MAB在线学习模型和面向视频用户体验质量QoE的回报函数，采用SoftMax算法确定所述多臂选择机MAB在线学习模型的最优解，并将所述最优解作为视频传输过程中无线接入网络选择结果。

进一步地，所述基于所述多臂选择机MAB在线学习模型和面向视频用户体验质量QoE的回报函数，采用SoftMax算法确定所述多臂选择机MAB在线学习模型的最优解，并将所述最优解作为视频传输过程中无线接入网络选择结果，具体包括：

将SoftMax算法表示为：

其中，v表示可选臂，v∈M，τ为温度系数，p_v(i+1)在i+1时隙时选择可选臂v的概率；

基于所述多臂选择机MAB在线学习模型和面向视频用户体验质量QoE的回报函数，采用所述SoftMax算法不断迭代选择目标概率的可选臂，当可选臂的选择结果不再变化时，确定所述多臂选择机MAB在线学习模型的最优解，并将所述最优解作为视频传输过程中无线接入网络选择结果。

第二方面，本发明实施例提供了一种基于在线学习的动态异构网络选择装置，包括：

获取模块，用于获取无线节点进行视频传输时可选择的各无线接入网络；

第一建立模块，用于基于所述可选择的各无线接入网络建立多臂选择机MAB在线学习模型；所述多臂选择机MAB在线学习模型用于在不同时隙选择符合目标期望的无线接入网络，所述多臂选择机MAB在线学习模型中每个可选臂表示在各无线接入网络中的一种选择接入的网络；

第二建立模块，用于建立面向视频用户体验质量QoE的回报函数，并将所述面向视频用户体验质量QoE的回报函数代入所述多臂选择机MAB在线学习模型；

确定模块，用于基于所述多臂选择机MAB在线学习模型和面向视频用户体验质量QoE的回报函数，确定所述多臂选择机MAB在线学习模型的最优解，并将所述最优解作为视频传输过程中无线接入网络选择结果。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上第一方面所述的基于在线学习的动态异构网络选择方法的步骤。

第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上第一方面所述的基于在线学习的动态异构网络选择方法的步骤。

由上述技术方案可知，本发明实施例提供的基于在线学习的动态异构网络选择方法及装置，通过获取无线节点进行视频传输时可选择的各无线接入网络；基于所述可选择的各无线接入网络建立多臂选择机MAB在线学习模型，从而将无线节点的异构网络选择问题建模为基于多臂选择机模型的在线学习问题；建立建立面向视频用户体验质量QoE的回报函数；基于所述多臂选择机MAB在线学习模型和面向视频用户体验质量QoE的回报函数确定所述多臂选择机MAB在线学习模型的最优解，并将所述最优解作为视频传输过程中无线接入网络选择结果，从而平衡利用与探索的难题。本实施例能够解决了在异构网络状态信息变化不确定的情况下，无线节点传输视频时的动态网络选择问题，使得视频用户能够获得更好的视频体验质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的基于在线学习的动态异构网络选择方法的硬件环境示意图；

图2为本发明一实施例提供的基于在线学习的动态异构网络选择方法的通信场景示意图；

图3为本发明一实施例提供的基于在线学习的动态异构网络选择方法中各网络被选择的概率的示意图；

图4为本发明一实施例提供的基于在线学习的动态异构网络选择方法中各网络被选择后所获回报的期望值的示意图；

图5为本发明一实施例提供的多种方法的网络选择结果对比示意图；

图6为本发明一实施例提供的基于在线学习的动态异构网络选择装置的结构示意图；

图7为本发明一实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。下面将通过具体的实施例对本发明提供的基于在线学习的动态异构网络选择方法进行详细解释和说明。

图1为本发明一实施例提供的基于在线学习的动态异构网络选择方法的流程示意图；如图1所示，该方法包括：

步骤101：获取无线节点进行视频传输时可选择的各无线接入网络。

在本步骤中，需要说明的是，参见图2，图2为本实施例适用的通信场景示意图。在视频通信过程中的一个特定服务区域W，该区域被M个异构接入网络同时覆盖，如M＝3。无人机D飞行在服务区域W中，并执行视频拍摄及回传的任务。该无人机除了搭载视频传感器外，还具备无线通信功能，其所搭载的多模无线接入设备能够兼容支持M种接入网络。通过选择其中的一种无线网络，无人机将被采集的视频经接入网络及Internet最终传输给用户。由于异构网络的动态时变特性，为了使用户能够获得良好的视频体验质量，需要从视频传输质量的角度出发，合理的进行动态网络选择。

步骤102：基于所述可选择的各无线接入网络建立多臂选择机MAB在线学习模型；所述多臂选择机MAB在线学习模型用于在不同时隙选择符合目标期望的无线接入网络，所述多臂选择机MAB在线学习模型中每个可选臂表示在各无线接入网络中的一种选择接入的网络。

在本步骤中，将无线节点的异构网络选择问题建模为基于多臂选择机(Multi-Armed Bandit，MAB)模型的在线学习问题，需要说明的是，MAB模型中一般包括一个决策者和多个可选臂，决策者需要在可选臂中做出选择，每种选择会产生相应的回报。各个臂的回报相互独立，并服从某种随机分布，但这种分布规律对决策者来说是未知的。因此，决策者要对历史回报做出记录，并以此为依据实时指导后续选择。决策者既有可能继续保持选择已知回报最高的臂，称之为利用；也有可能尝试未知的可能带来更高回报的臂，称之为探索。利用和探索之间具有冲突关系，若当前选择为非最佳臂，坚持进行利用则会错过选择最佳臂的机会，反之，若当前选择为最佳，进行探索同样会错过最佳。由于无法判断当前选择是否为最佳，决策者就是在这样的利用和探索之间不断进行折中和平衡。经过一段时间的多次选择后，决策者希望能够获得总体的最大回报，并且决策结果将不再改变。可以看出，在MAB模型中，在每次决策后都会将回报记录进行反馈，这种实时更新、不断修正的特点使得算法具备较快的收敛速度；而回报函数的选取可以从应用的实际需求出发，更容易契合异构网络视频传输的应用需求。因此，在本步骤中根据该模型设计面向视频传输的接入网络选择在线学习算法，实现优化用户体验要求的动态异构接入网络选择。

为了更好的理解本步骤，举例来说：

无线节点进行视频传输时，记可供选择的无线接入网络的个数为M，M个异构网络构成的集合记作M₁＝{1,2,…,M}；

从时隙角度出发，视频传输的总时隙记为T，在不同时隙，节点对M个网络进行选择所构成的集合记作

该选择集所对应的视频传输质量回报集为U_MAB＝{u_MAB(1),u_MAB(2),…,u_MAB(T)}；各网络状态信息在同一时隙内保持不变，在不同时隙间存在差异；

从无线接入网络的角度出发，集合M可以被看作MAB模型中多个可选臂的集合，每个可选臂都可以为无线节点的视频传输提供一定的回报，记为Q＝{q(1),q(2),...,q(M)}，由于网络状态信息的随机动态性，各网络的回报值也会在不同的时隙发生随机变化，无线节点期望通过不断决策得到更大的累积回报，从而在异构网络集合中找到最优的接入网络，该视频传输的动态网络选择问题建模为：

S_MAB即为无线节点根据历史观测值，通过MAB模型进行在线学习所获取的网络选择决策；其有益效果是，将系统建模为多臂选择机问题，以多次选择的累积效用函数的最大化作为系统优化目标。

步骤103：建立面向视频用户体验质量QoE的回报函数，并将所述面向视频用户体验质量QoE的回报函数代入所述多臂选择机MAB在线学习模型。

在本步骤中，需要说明的是，传统的接入网络选择方式往往从射频无线接入或网络层服务质量QoS的角度出发，难以体现用户对于视频应用的需求。在本实施例研究的无人机传输视频业务的场景中，需要从提高传输效果QoE(Quality of Experience)的角度出发，充分考虑视频业务的特殊性。首先考虑采用视频QoE作为回报函数的一个主要度量指标，从而将用户对视频的观看体验作为对网络选择的评价依据。一般来说，视频传输质量的评价设置在通信的接收方，用来描述编码和传输等各项因素对视频观看质量所带来的影响。但在本实施例研究节点的动态网络选择问题时，引入关于QoE的回报函数，主要是在无人机节点处，也就是视频的发送端，根据所观测得到的网络状态信息，对视频传输质量进行预测，从而为网络选择的判断提供依据。对决策者也就是无人机D来说，网络的信道状态信息是动态变化的，那么其选择的结果以及获得的回报都有可能随着时间而改变，假设在前i个时隙，无人机D所获得的面向QoE的回报函数集为U_QoE＝{u_QoE(1),u_QoE(2),...,u_QoE(i)}，该回报函数集是通过观测和记录每个时隙内的信道状态参数CSI而得到的，从而充分利用了客观QoE评价模型，达到了在客观网络状态与用户的主观观看体验之间建立良好匹配关系的目的。

为了更好的理解本步骤，举例来说：

在第i时隙，i≤T，无线节点所选择的网络为s_MAB(i)∈M，该网络在该时隙内信道速率及丢包率保持不变，分别记为r_s(i)和l_s(i)，无线节点所获得的面向QoE的回报函数集记为U_QoE＝{u_QoE(1),u_QoE(2),...,u_QoE(i)}，则

其中，f为视频的帧速率，传输过程中保持不变；将视频序列从内容上分为三种类别：轻微运动(Slight Movement，SM)、适中运动(Gentle Walking，GW)和快速运动(RapidMovement，RM)，φ∈{1,2,3}代表当前时隙的视频段所属的分类，即φ＝1时，该视频属于SM类，φ＝2时，该视频属于GW类，φ＝3时，该视频属于RM类；c₁(φ),c₂(φ),c₃(φ),c₄(φ),c₅(φ)代表当视频内容归属为不同类别时，求解QoE需要使用的相关常数，当φ相同时这一类参数是一致的，可通过拟合获得；

网络选择还需要考虑信道带宽租赁和能量消耗两方面因素，而这些都与视频传输速率相关，设各个网络总损耗的代价因子为λ＝{λ₁,λ₂,...,λ_M}，使用效用函数与成本的差值作为总回报函数，即第i时隙总的回报函数可表述为

u_MAB(i)＝u_QoE(i)-u_COST(i)＝K{φ,s_MAB(i),r_s(i),l_s(i)}-λ_s·r_s(i)

无线节点对异构网络的动态接入选择问题可以被进一步描述为：

s.t.i∈{1,2,...,T}

s(i)∈M₁

φ∈{1,2,3}

其有益效果是，从用户对视频的观看体验质量的角度出发，确立了效用函数，既考虑了不同视频本身的特征，又充分考虑了信道状态信息的时变特性。

步骤104：基于所述多臂选择机MAB在线学习模型和面向视频用户体验质量QoE的回报函数，确定所述多臂选择机MAB在线学习模型的最优解，并将所述最优解作为视频传输过程中无线接入网络选择结果。

为了更好的理解本步骤，举例来说：

在第i时隙，计算累积观测得到的各个网络的回报期望值，记作

基于玻尔兹曼探索改进的SoftMax算法，计算在第i+1时隙选择臂v的概率，

其中，v∈M，τ为温度系数，通过改变τ的大小，可以平衡探索与利用的问题；当τ变大时，M个臂被选择的概率将变得较为接近，特别当τ→∞时，各个臂被选择的概率均等；当τ减小时，不同网络被选择的概率就体现出一定的差异，当τ→0时，SoftMax算法类似经典贪心算法；

不断迭代，选择具有较大概率的臂；当该选择的结果不再发生改变时，即得到MAB问题的最优解，从而从M个网络中选择出适用于视频传输的最佳网络；其有益效果是，获得了MAB问题的最优解，该解即为最优网络选择方案，算法具备较快收敛速度，与同类方案相比具备优势。

在本实施例中，需要说明的是，相比较而言，传统的接入网络选择方法有两方面的不足之处：一是以网络的服务质量(Quality of Service，QoS)为评价指标，即只考虑网络的吞吐量、时延或丢包率等参数，而对于视频QoE这样综合性度量指标的考虑较少。二是往往假设网络状态信息基本保持稳定，对于网络的动态特性考虑较少，这与实际通信过程中网络的真实状态并不相符。在多网络并存的情况下，站在用户对视频质量需求的角度，需要重新审视无线接入网络选择的问题，使用户的最终体验切实成为选择的依据和评价的准则。因此，需要通过设计科学合理的策略方法，在网络状态信息不确定的情况下，动态选择能够为用户带来最佳视频体验的网络。

由上面技术方案可知，本发明实施例提供的基于在线学习的动态异构网络选择方法，通过获取无线节点进行视频传输时可选择的各无线接入网络；基于所述可选择的各无线接入网络建立多臂选择机MAB在线学习模型，从而将无线节点的异构网络选择问题建模为基于多臂选择机模型的在线学习问题；建立建立面向视频用户体验质量QoE的回报函数；基于所述多臂选择机MAB在线学习模型和面向视频用户体验质量QoE的回报函数确定所述多臂选择机MAB在线学习模型的最优解，并将所述最优解作为视频传输过程中无线接入网络选择结果，从而平衡利用与探索的难题。本实施例能够解决了在异构网络状态信息变化不确定的情况下，无线节点传输视频时的动态网络选择问题，使得视频用户能够获得更好的视频体验质量。

在上述实施例的基础上，在本实施例中，所述基于所述可选择的各无线接入网络建立多臂选择机MAB在线学习模型，具体包括：

其中，i表示T个时隙中的一个时隙，

表示约束条件。

在本实施例中，举例来说，在视频传输过程中采用时隙工作模式，将总的视频传输时间划分为T＝1000个时隙。在不同的时隙，节点的接入网络选择矢量可以表述为

该选择集所对应的视频传输质量回报集为U_MAB＝{u_MAB(1),u_MAB(2),...,u_MAB(T)}。

从无线接入网络的角度出发，集合M₁可以被看作MAB模型中多个可选臂的集合，每个可选臂都可以为无线节点的视频传输提供一定的回报，记为Q＝{q(1),q(2),...,q(M)}，由于网络状态信息的随机动态性，各网络的回报值也会在不同的时隙发生随机变化，无线节点期望通过不断决策得到更大的累积回报，从而在异构网络集合中找到最优的接入网络，该视频传输的动态网络选择问题建模为：

S_MAB即为无线节点根据历史观测值，通过MAB模型进行在线学习所获取的网络选择决策。

由上面技术方案可知，本发明实施例提供的基于在线学习的动态异构网络选择方法，无线节点期望通过不断决策得到更大的累积回报，从而在异构网络集合中找到最优的接入网络。

在上述实施例的基础上，在本实施例中，所述建立面向视频用户体验质量QoE的回报函数，并将所述面向视频用户体验质量QoE的回报函数代入所述多臂选择机MAB在线学习模型，具体包括：

在本实施例中，可以理解的是，由于M个接入网络的状态信息是时变的，需要从统计学角度对其不确定性进行描述。对每个网络的传输带宽和丢包率采用一种离散的描述模型，在时隙i的网络丢包率l(i)可表示如下：

l(i)＝l_min+l_unit·n_l,n_l＝1,2,...,N_l

其中，l_min是最小丢包率，l_unit是丢包率步进，N_l是丢包率状态数量，在时隙i，n_l可以随机选择从1到N_l之间的任意数值代入上式，构成当前时隙的丢包率。网络可用带宽r(i)可以采用类似的表述方式实现其随机取值：

r(i)＝r_min+r_unit·n_r,n_r＝1,2,...,N_r

三个动态异构网络的丢包率和带宽所对应的相关参数具体取值如表1所示。

表1动态异构网络的丢包率和带宽

在第i时隙，i≤T，无线节点所选择的网络为s_MAB(i)∈M，该网络在该时隙内信道速率及丢包率保持不变，分别记为r_s(i)和l_s(i)，无线节点所获得的面向QoE的回报函数集记为U_QoE＝{u_QoE(1),u_QoE(2),…,u_QoE(i)}，则

其中，f为视频的帧速率，传输过程中保持不变；c₁(φ),c₂(φ),c₃(φ),c₄(φ),c₅(φ)代表当视频内容归属为不同类别时，求解QoE时的相关常数，当φ相同时这一类参数是一致的，与视频内容相关的参数设置如表2所示。

表2不同内容类别视频的系数

网络选择还需要考虑信道带宽租赁和能量消耗两方面因素，而这些都与视频传输速率相关，设各个网络总损耗的代价因子为λ＝{λ₁,λ₂,...,λ_M}，使用效用函数与成本的差值作为总回报函数，即第i时隙总的回报函数可表述为：

在上述实施例的基础上，在本实施例中，所述将所述面向视频用户体验质量QoE的回报函数代入所述多臂选择机MAB在线学习模型，具体包括：

在上述实施例的基础上，在本实施例中，所述基于所述多臂选择机MAB在线学习模型和面向视频用户体验质量QoE的回报函数，确定所述多臂选择机MAB在线学习模型的最优解，并将所述最优解作为视频传输过程中无线接入网络选择结果，具体包括：

在本实施例中，需要说明的是，在SoftMax算法中，某个臂被选中的概率与其自身回报期望值以及所有臂回报期望值都相关，某种意义来说，这一概率是两者的比值。

在上述实施例的基础上，在本实施例中，所述基于所述多臂选择机MAB在线学习模型和面向视频用户体验质量QoE的回报函数，采用SoftMax算法确定所述多臂选择机MAB在线学习模型的最优解，并将所述最优解作为视频传输过程中无线接入网络选择结果，具体包括：

将SoftMax算法表示为：

在本实施例中，可以理解的是，基于SoftMax算法平衡利用与探索的难度，从而不断迭代选择目标概率的可选臂，当可选臂的选择结果不再变化时，确定所述多臂选择机MAB在线学习模型的最优解，并将所述最优解作为视频传输过程中无线接入网络选择结果。

为了更好的理解本实施例中，举例来说：

步骤一、在T＝1000个时隙的初始时刻，即i＝1时隙，无人机D从M＝3个可选臂中随机选择一个作为s_MAB(1)，并求解其对应的u_MAB(1)；

步骤二、在第i时隙，i∈T且i≥1，记录S＝{s_MAB(1),s_MAB(2),...,s_MAB(i)}，并计算对应的效用U＝{u_MAB(1),u_MAB(2),...,u_MAB(i)}，以及计算集合M中的每个臂被选中后得到的回报期望值

步骤三、在第i+1时隙，i+1∈T，根据下式在集合M中确定需要选择的臂

步骤四、若i+1＜T，返回步骤二循环迭代。当无人机D对可选臂的选择结果不再随时间发生改变，此时，多臂选择机获得最佳选择方案，该选择臂所对应的网络即为无人机D的最优网络选择。

本发明实施例针对无线节点对视频进行回传时的动态网络选择问题，综合考虑了异构网络信道的时变特性以及信道租用和能耗成本等因素，实现了视频传输的质量优化，确保无线节点在短时间内实现最优的接入网络选择。

参见图3、图4和图5，给出了采用基于在线学习的动态异构网络选择方法的仿真结果。参见图3和4，基于SoftMax算法进行求解时，经过有限次迭代选择结果即收敛，通过改变温度系数τ的大小，亦可以平衡探索与利用的问题；需要说明的是，图3的横纵坐标分别为选择比(selection ratio)和时隙(time slot)，图4的横纵坐标分别为效用(utility)和时隙(time slot)；参见图5，需要说明的是，图5的横纵坐标分别为效用(utility)和时隙(timeslot)，将基于SoftMax算法的结果与基于ε-贪心算法、基于UCB算法以及与不采用在线学习算法的选择结果进行对比，可以看出本发明实施例在视频效用上的优势，与已知信道状态信息时的理想情况相比，本发明实施例所带来的视频效用亦较为接近。

图6为本发明一实施例提供的基于在线学习的动态异构网络选择装置的结构示意图，如图6所示，该装置包括：获取模块201、第一建立模块202、第二建立模块203和确定模块204，其中：

其中，获取模块201，用于获取无线节点进行视频传输时可选择的各无线接入网络；

第一建立模块202，用于基于所述可选择的各无线接入网络建立多臂选择机MAB在线学习模型；所述多臂选择机MAB在线学习模型用于在不同时隙选择符合目标期望的无线接入网络，所述多臂选择机MAB在线学习模型中每个可选臂表示在各无线接入网络中的一种选择接入的网络；

第二建立模块203，用于建立面向视频用户体验质量QoE的回报函数，并将所述面向视频用户体验质量QoE的回报函数代入所述多臂选择机MAB在线学习模型；

确定模块204，用于基于所述多臂选择机MAB在线学习模型和面向视频用户体验质量QoE的回报函数，确定所述多臂选择机MAB在线学习模型的最优解，并将所述最优解作为视频传输过程中无线接入网络选择结果。

本发明实施例提供的基于在线学习的动态异构网络选择装置具体可以用于执行上述实施例的基于在线学习的动态异构网络选择方法，其技术原理和有益效果类似，具体可参见上述实施例，此处不再赘述。

基于相同的发明构思，本发明实施例提供一种电子设备，参见图7，电子设备具体包括如下内容：处理器301、通信接口303、存储器302和通信总线304；

其中，处理器301、通信接口303、存储器302通过通信总线304完成相互间的通信；通信接口303用于实现各建模软件及智能制造装备模块库等相关设备之间的信息传输；处理器301用于调用存储器302中的计算机程序，处理器执行计算机程序时实现上述各方法实施例所提供的方法，例如，处理器执行计算机程序时实现下述步骤：获取无线节点进行视频传输时可选择的各无线接入网络；基于所述可选择的各无线接入网络建立多臂选择机MAB在线学习模型；所述多臂选择机MAB在线学习模型用于在不同时隙选择符合目标期望的无线接入网络，所述多臂选择机MAB在线学习模型中每个可选臂表示在各无线接入网络中的一种选择接入的网络；建立面向视频用户体验质量QoE的回报函数，并将所述面向视频用户体验质量QoE的回报函数代入所述多臂选择机MAB在线学习模型；基于所述多臂选择机MAB在线学习模型和面向视频用户体验质量QoE的回报函数，确定所述多臂选择机MAB在线学习模型的最优解，并将所述最优解作为视频传输过程中无线接入网络选择结果。

基于相同的发明构思，本发明又一实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法实施例提供的方法，例如，获取无线节点进行视频传输时可选择的各无线接入网络；基于所述可选择的各无线接入网络建立多臂选择机MAB在线学习模型；所述多臂选择机MAB在线学习模型用于在不同时隙选择符合目标期望的无线接入网络，所述多臂选择机MAB在线学习模型中每个可选臂表示在各无线接入网络中的一种选择接入的网络；建立面向视频用户体验质量QoE的回报函数，并将所述面向视频用户体验质量QoE的回报函数代入所述多臂选择机MAB在线学习模型；基于所述多臂选择机MAB在线学习模型和面向视频用户体验质量QoE的回报函数，确定所述多臂选择机MAB在线学习模型的最优解，并将所述最优解作为视频传输过程中无线接入网络选择结果。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

此外，在本发明中，诸如“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

此外，在本发明中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

此外，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于在线学习的动态异构网络选择方法，其特征在于，包括：

获取无线节点进行视频传输时可选择的各无线接入网络；

建立面向视频用户体验质量QoE的回报函数，并将所述面向视频用户体验质量QoE的回报函数代入所述多臂选择机MAB在线学习模型，其中，所述建立面向视频用户体验质量QoE的回报函数，并将所述面向视频用户体验质量QoE的回报函数代入所述多臂选择机MAB在线学习模型，具体包括：

其中，所述视频内容为三类：轻微运动类、适中运动类和快速运动类，当φ＝1时，所述视频内容属于轻微运动类，当φ＝2时，所述视频内容属于适中运动类，当φ＝3时，所述视频内容属于快速运动类；在第i时隙，i≤T，无线节点所选择的无线接入网络为s_MAB(i)∈M，其中，M表示M个无线接入网络构成的集合M₁中第M个无线接入网络，所述无线节点所选择的无线接入网络在所述时隙i内信道速率r_s(i)及丢包率l_s(i)保持不变；f为视频的帧速率；c₁(φ),c₂(φ),c₃(φ),c₄(φ),c₅(φ)代表当视频内容归属为不同类别时，求解QoE需要使用的相关常数；

将所述面向视频用户体验质量QoE的回报函数代入所述多臂选择机MAB在线学习模型；

2.根据权利要求1所述的基于在线学习的动态异构网络选择方法，其特征在于，所述基于所述可选择的各无线接入网络建立多臂选择机MAB在线学习模型，具体包括：

i∈{1,2,...,T}

其中，i表示T个时隙中的一个时隙，

表示约束条件。

3.根据权利要求1所述的基于在线学习的动态异构网络选择方法，其特征在于，所述将所述面向视频用户体验质量QoE的回报函数代入所述多臂选择机MAB在线学习模型，具体包括：

s.t.i∈{1,2,...,T}

s(i)∈M₁

φ∈{1,2,3}

其中，λ_s表示第S个无线接入网络损耗的代价因子；M₁表示M个无线接入网络构成的集合。

4.根据权利要求3所述的基于在线学习的动态异构网络选择方法，其特征在于，所述基于所述多臂选择机MAB在线学习模型和面向视频用户体验质量QoE的回报函数，确定所述多臂选择机MAB在线学习模型的最优解，并将所述最优解作为视频传输过程中无线接入网络选择结果，具体包括：

5.根据权利要求4所述的基于在线学习的动态异构网络选择方法，其特征在于，所述基于所述多臂选择机MAB在线学习模型和面向视频用户体验质量QoE的回报函数，采用SoftMax算法确定所述多臂选择机MAB在线学习模型的最优解，并将所述最优解作为视频传输过程中无线接入网络选择结果，具体包括：

将SoftMax算法表示为：

其中，v表示可选臂，v∈M，τ为温度系数，p_v(i+1)在i+1时隙时选择可选臂v的概率，

表示在第i时隙，可选臂的回报期望值；

表示在第i时隙，在由第1个无线接入网络到第M个无线接入网络构成的集合中的第k个无线接入网络的回报期望值，其中，k为第1个无线接入网络或第M个无线接入网络；

6.一种基于在线学习的动态异构网络选择装置，其特征在于，包括：

第二建立模块，用于建立面向视频用户体验质量QoE的回报函数，并将所述面向视频用户体验质量QoE的回报函数代入所述多臂选择机MAB在线学习模型，其中，所述建立面向视频用户体验质量QoE的回报函数，并将所述面向视频用户体验质量QoE的回报函数代入所述多臂选择机MAB在线学习模型，具体包括：

7.根据权利要求6所述的基于在线学习的动态异构网络选择装置，其特征在于，所述第一建立模块在执行基于所述可选择的各无线接入网络建立多臂选择机MAB在线学习模型，具体用于：

i∈{1,2,...,T}

其中，i表示T个时隙中的一个时隙，

表示约束条件。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～5任一项所述的基于在线学习的动态异构网络选择方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1～5任一项所述的基于在线学习的动态异构网络选择方法。