CN113015179A

CN113015179A - 基于深度q网络的网络资源选择方法、装置以及存储介质

Info

Publication number: CN113015179A
Application number: CN201911315452.8A
Authority: CN
Inventors: 王浩彬; 潘卫; 李为民
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2021-06-22
Anticipated expiration: 2039-12-19
Also published as: CN113015179B

Abstract

本公开提供了一种基于深度Q网络的网络资源选择方法、装置以及存储介质，其中的方法包括：接收业务申请以及与业务申请相对应的业务需求；基于当前的网络模拟环境获取与业务需求相对应的业务特征以及网络状态；根据DQN算法更新基于DQN的网络资源选择网络模型的模型参数，用以确定最新的模型参数；根据网络资源选择网络模型获取与业务申请以及业务需求相对应的资源信息。本公开的方法、装置以及存储介质，能够根据业务需求、网络状态等自动生成网络资源选择方案，进行端到端输出，网络资源配置灵活度高，能够按需进行分配，节约了网络资源，可以快速实现业务的部署，满足业务需求，提高使用感受度。

Description

基于深度Q网络的网络资源选择方法、装置以及存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种基于深度Q网络的网络资源选择方法、装置以及存储介质。

背景技术

第五代移动通信技术研究是目前通信行业重点关注领域，5G网络具有多种业务。例如，同4G网络相比，网络切片是5G网络鲜明的特征和优点之一。5G网络切片，是指对网络数据实行类似于交通管理的分流管理，其本质是将现实存在的物理网络在逻辑层面上，划分为多个不同类型的虚拟网络，依照不同用户的服务需求，以诸如时延高低、带宽大小、可靠性强弱等指标来进行划分，从而应对复杂多变的应用场景。对于网络切片过程需要根据应用需要，分配合理的网络资源。目前，现有技术中还没有能够自动分配网络资源的技术方案。

发明内容

有鉴于此，本发明要解决的一个技术问题是提供一种基于深度Q网络的网络资源选择方法、装置以及存储介质。

根据本公开的一个方面，提供一种基于深度Q网络的网络资源选择方法，包括：接收业务申请以及与所述业务申请相对应的业务需求；其中，所述业务需求包括：带宽、时延、价格指标；基于当前的网络模拟环境获取与所述业务需求相对应的业务特征以及网络状态；根据DQN算法以及所述业务特征和所述网络状态，更新基于DQN的网络资源选择网络模型的模型参数，用以确定最新的所述模型参数；根据所述网络资源选择网络模型获取与所述业务申请以及所述业务需求相对应的资源信息。

可选地，所述根据DQN算法以及所述业务特征和所述网络状态，更新基于DQN的网络资源选择网络模型的模型参数，用以确定最新的所述模型参数包括：设置所述网络资源选择网络模型以及与所述网络资源选择网络模型具有相同结构的目标Q网络模型；根据所述网络状态和所述业务特征确定状态s_t；基于所述网络资源选择网络模型获取与所述s_t相对应的行为a_t；基于当前的网络模拟环境获取与所述a_t相对应的奖励值r_t和新状态s_t+1；生成元组数据(s_i,a_i,r_i,s_i+1)；基于所述奖励值和所述元组数据(s_i,a_i,r_i,s_i+1)设置与所述目标Q网络模型相关联的目标值；基于所述元组数据(s_i,a_i,r_i,s_i+1)和所述目标值，更新所述网络资源选择网络模型的模型参数，并输出进行更新处理后的所述网络资源选择网络模型。

可选地，所述a_t为调整带宽和时延的行为；所述奖励值为：

其中，所述Ι用于表征带宽、时延的满足程度。

可选地，设置缓存区并获取数据存储数量；将所述元组数据(s_i,a_i,r_i,s_i+1)存储在缓存区中；如果所述元组数据(s_i,a_i,r_i,s_i+1)的数量大于所述数据存储数量，则使用新元组数据(s_i,a_i,r_i,s_i+1)替换缓存时间最长的元组数据(s_i,a_i,r_i,s_i+1)。

可选地，所述基于所述奖励值和所述元组数据(s_i,a_i,r_i,s_i+1)设置与所述目标Q网络模型相关联的目标值包括：设置所述网络资源选择模型为Q、所述目标Q网络模型为

设置所述目标值为：

其中，所述

为所述目标Q网络模型相对于所述s_t+1和所述a_t的最大值。

可选地，所述基于所述元组数据(s_i,a_i,r_i,s_i+1)和所述目标值，更新所述网络资源选择网络模型的模型参数包括：获取一个所述元组数据(s_i,a_i,r_i,s_i+1)，计算与此元组数据(s_i,a_i,r_i,s_i+1)的所述y值；更新所述Q的模型参数，以使Q(s_i,a_i)最接近于所述y值；其中，Q(s_i,a_i)为所述网络资源选择模型相对于所述s_t和所述a_t的值。

可选地，设置新元组数据的生成次数，每间隔所述新元组数据的生成次数并基于所述Q的模型参数更新一次所述Q的模型参数。

可选地，基于所述网络资源选择网络模型获取所述资源信息，生成业务调度信息并下发客户；其中，所述业务申请包括：网络切片业务申请。

根据本公开的另一方面，提供一种基于深度Q网络的网络资源选择装置，包括：业务请求模块，用于接收业务申请以及与所述业务申请相对应的业务需求；其中，所述业务需求包括：带宽、时延、价格指标；识别模块，用于基于当前的网络模拟环境获取与所述业务需求相对应的业务特征以及网络状态；更新模块，用于根据DQN算法以及所述业务特征和所述网络状态，更新基于DQN的网络资源选择网络模型的模型参数，用以确定最新的所述模型参数；计算模块，用于根据所述网络资源选择网络模型获取与所述业务申请以及所述业务需求相对应的资源信息。

可选地，所述更新模块，包括：神经网络模型构建模块，用于设置所述网络资源选择网络模型以及与所述网络资源选择网络模型具有相同结构的目标Q网络模型；通信网络模块，用于根据所述网络状态和所述业务特征确定状态s_t；网络资源选择模块，用于基于所述网络资源选择网络模型获取与所述s_t相对应的行为a_t；所述通信网络模块，还用于基于当前的网络模拟环境获取与所述a_t相对应的奖励值r_t和新状态s_t+1，生成元组数据(s_i,a_i,r_i,s_i+1)；目标Q网络模块，用于基于所述奖励值和所述元组数据(s_i,a_i,r_i,s_i+1)设置与所述目标Q网络模型相关联的目标值；学习模块，用于基于所述元组数据(s_i,a_i,r_i,s_i+1)和所述目标值，更新所述网络资源选择网络模型的模型参数；输出模块，用于输出进行更新处理后的所述网络资源选择网络模型。

可选地，所述a_t为调整带宽和时延的行为；所述奖励值为：

其中，所述Ι用于表征带宽、时延的满足程度。

可选地，所述更新模块，包括：行为存储模块，用于设置缓存区并获取数据存储数量；将所述元组数据(s_i,a_i,r_i,s_i+1)存储在缓存区中；如果所述元组数据(s_i,a_i,r_i,s_i+1)的数量大于所述数据存储数量，则使用新元组数据(s_i,a_i,r_i,s_i+1)替换缓存时间最长的元组数据(s_i,a_i,r_i,s_i+1)。

可选地，所述目标Q网络模块，用于设置所述网络资源选择模型为Q、所述目标Q网络模型为

设置所述目标值为：

其中，所述

为所述目标Q网络模型相对于所述s_t+1和所述a_t的最大值。

可选地，所述学习模块，用于获取一个所述元组数据(s_i,a_i,r_i,s_i+1)，计算与此元组数据(s_i,a_i,r_i,s_i+1)的所述y值；更新所述Q的模型参数，以使Q(s_i,a_i)最接近于所述y值；其中，Q(s_i,a_i)为所述网络资源选择模型相对于所述s_t和所述a_t的值。

可选地，所述更新模块，包括：总控模块，用于设置新元组数据的生成次数，每间隔所述新元组数据的生成次数并基于所述Q的模型参数更新一次所述Q的模型参数。

可选地，调度模块，用于基于所述网络资源选择网络模型获取所述资源信息，生成业务调度信息并下发客户；其中，所述业务申请包括：网络切片业务申请。

根据本公开的又一方面，提供一种基于深度Q网络的网络资源选择装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上所述的方法。

根据本公开的再一方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行如上所述的方法。

本公开的基于深度Q网络的网络资源选择方法、装置以及存储介质，能够根据业务需求、网络状态等自动生成网络资源选择方案，进行端到端输出，网络资源配置灵活度高，能够按需进行分配，节约了网络资源，可以快速实现业务的部署，满足业务需求，提高使用感受度。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本公开的基于深度Q网络的网络资源选择方法的一个实施例的流程示意图；

图2为根据本公开的基于深度Q网络的网络资源选择方法的一个实施例中的确定最新的模型参数的流程示意图；

图3为根据本公开的基于深度Q网络的网络资源选择方法的一个实施例中的训练算法的示意图；

图4为根据本公开的基于深度Q网络的网络资源选择装置的一个实施例的模块示意图；

图5为根据本公开的基于深度Q网络的网络资源选择装置的一个实施例中的更新模块的模块示意图；

图6为根据本公开的基于深度Q网络的网络资源选择装置的另一个实施例的模块示意图。

具体实施方式

下面参照附图对本公开进行更全面的描述，其中说明本公开的示例性实施例。下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

图1为根据本公开的基于深度Q网络的网络资源选择方法的一个实施例的流程示意图，如图1所示：

步骤101，接收业务申请以及与业务申请相对应的业务需求；其中，业务需求包括：带宽、时延、价格指标等。业务申请可以为多种，例如为网络切片业务申请等。

步骤102，基于当前的网络模拟环境获取与业务需求相对应的业务特征以及网络状态。

业务特征可以为带宽、时延等特征，网络模拟环境可以为与实际网络环境相对应的模拟环境，从网络模拟环境中获取的业务特征以及网络状态，相当于在实际网络环境中的业务特征以及网络状态，网络状态为与网络切片相对应的网络状态等。

步骤103，根据深度Q网络(Deep Q-Network，DQN)算法更新基于DQN的网络资源选择网络模型的模型参数，用以确定最新的模型参数。

网络资源选择网络模型为深度Q网络，基于深度Q网络算法更新网络资源选择网络模型的模型参数，可以获得最优的网络资源选择网络。

步骤104，根据网络资源选择网络模型获取与业务申请以及业务需求相对应的资源信息。

资源可以为多种，包括部署业务的设备、链路等资源。基于网络资源选择网络模型获取资源信息，生成业务调度信息并下发客户。例如，可以根据网络资源选择网络模型，调度网络资源池用以实施网络切片实例并下发用户。

图2为根据本公开的基于深度Q网络的网络资源选择方法的一个实施例中的确定最新的模型参数的流程示意图，设置所述网络资源选择网络模型以及与所述网络资源选择网络模型具有相同结构的目标Q网络模型，如图2所示：

步骤201，根据网络状态和业务特征确定状态；其中，状态为s_t。

步骤202，基于网络资源选择网络模型获取与状态相对应的行为；其中，行为为a_t，可以为对于带宽、时延等的综合行为。

步骤203，基于当前的网络模拟环境获取与状态相对应的奖励值和新状态；其中，奖励值为r_t，新状态为s_t+1。

步骤204，生成元组数据；其中，元组数据为(s_i,a_i,r_i,s_i+1)。深度Q网络算法为结合深度神经网络(DNN)和Q学习(Q-learning)算法，DQN留有一些空间来进一步增加训练的稳定性，需要一个目标值。

步骤205，基于奖励值和元组数据设置与目标Q网络模型相关联的目标值。

步骤206，基于元组数据和目标值，更新网络资源选择网络模型的模型参数，并输出进行更新处理后的网络资源选择网络模型。

在一个实施例中，a_t为调整带宽和时延的综合行为，奖励值为：

其中，I用于表征带宽、时延的满足程度；当最低带宽、时延未满足时，Ι＝0，当带宽、时延全部满足最高要求时，Ι＝1。例如，接收到带宽、时延、价格等三项指标作为业务需求，可以直接调用现有网络的模拟环境，获取业务特征和网络状态，将调整带宽，时延(跳转路径或直连链路)的行为确定为a_t，价格用于通过计算表示为奖励值。

可以设置缓存区并获取数据存储数量，数据存储数量可以设置，例如为10,20等。将元组数据(s_i,a_i,r_i,s_i+1)存储在缓存区中，如果元组数据(s_i,a_i,r_i,s_i+1)的数量大于数据存储数量，则使用新元组数据(s_i,a_i,r_i,s_i+1)替换缓存时间最长的元组数据(s_i,a_i,r_i,s_i+1)。

基于元组数据(s_i,a_i,r_i,s_i+1)和目标值确定目标Q网络模型的模型参数可以采用多种方法。例如，设置网络资源选择模型为Q、目标Q网络模型为

设置目标值为：

其中，

为目标Q网络模型相对于s_t+1和a_t的最大值。

可以使用现有的多种方法进行求解。

获取一个元组数据(s_i,a_i,r_i,s_i+1)，计算与此元组数据(s_i,a_i,r_i,s_i+1)的y值；更新Q的模型参数，以使Q(s_i,a_i)最接近于y值；其中，Q(s_i,a_i)为网络资源选择模型相对于s_t和a_t的值。Q(s_i,a_i)可以使用现有的多种方法进行求解，以使Q(s_i,a_i)最接近于y值。设置新元组数据的生成次数，每间隔新元组数据的生成次数更新一次

例如，对于每个元组数据(s_i,a_i,r_i,s_i+1)，更新一次Q的模型参数；设置新元组数据的生成次数为3次，每间隔3次新元组数据的生成更新一次

的参数，即将

的模型参数设置与Q的模型参数相同。

例如，随机初始化网络资源选择网络模型的神经网络参数θ，记为Q；设置与网络资源选择网络模型具有相同结构的目标Q网络模型，其神经网络参数为θ，记为

根据现在的网络状态s_t生成网络资源选择行为a_t，其中，a_t是将s_t输入网络资源选择网络模型，由网络资源选择网络模型输出的a_t。执行a_t的调整之后，网络状态变为s_t+1，得到r_t，生成元组数据(s_i,a_i,r_i,s_i+1)并存储。随机选择一个元组数据(s_i,a_i,r_i,s_i+1)，设置目标值：

更新

的参数，使得

最接近于y。根据设置新元组数据的生成次数，每间隔新元组数据的生成次数更新一次

例如，每3步(新元组数据的生成次数)更新一次

使得

如图3所示，对于网络资源选择网络模型进行训练的算法如下：

初始化网络资源选择网络(Q网络)模型为Q，设置与网络资源选择网络模型具有相同结构的目标Q网络模型为

设置

循环训练次数：

while not满足业务需求或KPI:

对于网络状态和业务需求的s_t，基于网络资源选择网络模型选择网络资源的a_t；

获得奖励值r_t和新状态s_t+1；

将元组数据(s_i,a_i,r_i,s_i+1)存储进缓存；

从缓存中选择一个(s_i,a_i,r_i,s_i+1)；

设置目标值

更新Q的参数使得Q(s_i,a_i)接近于y；

每C步更新一次

在一个实施例中，本公开提供一种基于深度Q网络的网络资源选择装置，包括：业务请求模块41、识别模块42、更新模块43、计算模块44和调度模块45。业务请求模块51接收业务申请以及与业务申请相对应的业务需求；其中，业务需求包括：带宽、时延、价格指标等。

识别模块42基于当前的网络模拟环境获取与业务需求相对应的业务特征以及网络状态。更新模块43根据DQN算法更新基于DQN的网络资源选择网络模型的模型参数，用以确定最新的模型参数，用于第一次使用或校准计算模块44。计算模块44根据网络资源选择网络模型获取与业务申请以及业务需求相对应的资源信息。调度模块45基于网络资源选择网络模型，获取资源信息，生成业务调度信息并下发客户；其中，业务申请包括：网络切片业务申请等。

在一个实施例中，如图5所示，更新模块43包括：总控模块431、神经网络构建模块432、通信网络模块433、网络资源选择模块434、目标Q网络模块435、行为存储模块436、学习模块437和输出模块438。

通信网络模块433根据网络状态和业务特征确定状态s_t。网络资源选择模块434基于网络资源选择网络模型获取与s_t相对应的行为a_t。网络资源选择模块434可以以网络状态和业务需求的s_t为输入，获取与s_t相对应的行为a_t。

通信网络模块433基于当前的网络模拟环境获取与a_t相对应的奖励值r_t和新状态s_t+1，生成元组数据(s_i,a_i,r_i,s_i+1)。通信网络模块433可以基于真实网络或仿真模型，用于观察或模拟网络资源选择网络模型的输出a_t对网络的影响状态(实际状态)以及奖励值(影响是好是坏)，奖励值的确定函数可根据业务需求自主设定。网络状态为识别模块42输出的原始网络状态和业务需求。

神经网络模型构建模块432设置所述网络资源选择网络模型和与网络资源选择网络模型具有相同结构的目标Q网络模型。神经网络训练模块432设计网络资源选择模块434、目标Q网络模块435中网络模型的结构(输出模块438、网络资源选择模块434与目标Q网络模块435处理的神经网络网络模型的架构都相同，目标Q网络模型的参数间断性更新成网络资源选择网络模型的参数，输出网络即为网络资源选择网络模型训练完成时的形态。

目标Q网络模块435基于奖励值和元组数据(s_i,a_i,r_i,s_i+1)设置与目标Q网络模型相关联的目标值。学习模块437基于元组数据(s_i,a_i,r_i,s_i+1)和目标值，更新网络资源选择网络模型的模型参数。学习模块437设定学习算法，输出模块438输出进行更新处理后的网络资源选择网络模型，输出到计算模块44。

行为存储模块436设置缓存区并获取数据存储数量，将元组数据(s_i,a_i,r_i,s_i+1)存储在缓存区中；如果元组数据(s_i,a_i,r_i,s_i+1)的数量大于数据存储数量，则行为存储模块436使用新元组数据(s_i,a_i,r_i,s_i+1)替换缓存时间最长的元组数据(s_i,a_i,r_i,s_i+1)。行为储存模块436可以设置有多组行为缓存区，组数多少由总控模块431确定，每组行为存储网络状态和业务需求s_t,网络资源选择行为a_t,奖励值r_t，行为发生后的新网络状态s_t+1，以及(s_i,a_i,r_i,s_i+1)，当行为发生次数大于缓冲区大小时，由新发生的行为替代最原始的行为。

目标Q网络模块435设置网络资源选择模型为Q、目标Q网络模型为

设置目标值为：

其中，

为目标Q网络模型相对于s_t+1和a_t的最大值。目标Q网络模块435与网络资源选择模块434的架构相同，属于训练核心部分，用来提供评价的目标值y，目标Q网络的参数间断性更新成网络资源选择网络模型的参数。

学习模块437获取一个元组数据(s_i,a_i,r_i,s_i+1)，计算与此元组数据(s_i,a_i,r_i,s_i+1)的y值，更新Q的模型参数，以使Q(s_i,a_i)最接近于y值；其中，Q(s_i,a_i)为网络资源选择模型相对于s_t和a_t的值。总控模块431设置新元组数据的生成次数，每间隔新元组数据的生成次数更新一次

总控模块431管控训练核心部分以及输出模块438，设定整体训练策略，如训练次数、训练参数等。

图6为根据本公开的基于深度Q网络的网络资源选择装置的另一个实施例的模块示意图。如图6所示，该装置可包括存储器61、处理器62、通信接口63以及总线64。存储器61用于存储指令，处理器62耦合到存储器61，处理器62被配置为基于存储器61存储的指令执行实现上述的基于深度Q网络的网络资源选择方法。

存储器61可以为高速RAM存储器、非易失性存储器(non-volatile memory)等，存储器61也可以是存储器阵列。存储器61还可能被分块，并且块可按一定的规则组合成虚拟卷。处理器62可以为中央处理器CPU，或专用集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本公开的基于深度Q网络的网络资源选择方法的一个或多个集成电路。

在一个实施例中，本公开提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，指令被处理器执行如上任一实施例中的方法。

上述实施例中提供的基于深度Q网络的网络资源选择方法、装置以及存储介质，能够根据业务需求、网络状态等自动生成网络资源选择方案，进行端到端输出，网络资源配置灵活度高，能够按需进行分配，节约了网络资源，可以快速实现业务的部署，满足业务需求，提高使用感受度。

可能以许多方式来实现本公开的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种基于深度Q网络的网络资源选择方法，包括：

接收业务申请以及与所述业务申请相对应的业务需求；其中，所述业务需求包括：带宽、时延、价格指标；

基于当前的网络模拟环境获取与所述业务需求相对应的业务特征以及网络状态；

根据DQN算法以及所述业务特征和所述网络状态，更新基于DQN的网络资源选择网络模型的模型参数，用以确定最新的所述模型参数；

根据所述网络资源选择网络模型获取与所述业务申请以及所述业务需求相对应的资源信息。

2.如权利要求1所述的方法，所述根据DQN算法以及所述业务特征和所述网络状态，更新基于DQN的网络资源选择网络模型的模型参数，用以确定最新的所述模型参数包括：

设置所述网络资源选择网络模型以及与所述网络资源选择网络模型具有相同结构的目标Q网络模型；

根据所述网络状态和所述业务特征确定状态s_t；

基于所述网络资源选择网络模型获取与所述s_t相对应的行为a_t；

基于当前的网络模拟环境获取与所述a_t相对应的奖励值r_t和新状态s_t+1；

生成元组数据(s_i,a_i,r_i,s_i+1)；

基于所述奖励值和所述元组数据(s_i,a_i,r_i,s_i+1)设置与所述目标Q网络模型相关联的目标值；

基于所述元组数据(s_i,a_i,r_i,s_i+1)和所述目标值，更新所述网络资源选择网络模型的模型参数，并输出进行更新处理后的所述网络资源选择网络模型。

3.如权利要求2所述的方法，其中，

所述a_t为调整带宽和时延的行为；所述奖励值为：

其中，所述Ι用于表征带宽、时延的满足程度。

4.如权利要求3所述的方法，还包括：

设置缓存区并获取数据存储数量；

将所述元组数据(s_i,a_i,r_i,s_i+1)存储在缓存区中；

如果所述元组数据(s_i,a_i,r_i,s_i+1)的数量大于所述数据存储数量，则使用新元组数据(s_i,a_i,r_i,s_i+1)替换缓存时间最长的元组数据(s_i,a_i,r_i,s_i+1)。

5.如权利要求3所述的方法，所述基于所述奖励值和所述元组数据(s_i,a_i,r_i,s_i+1)设置与所述目标Q网络模型相关联的目标值包括：

设置所述网络资源选择模型为Q、所述目标Q网络模型为

设置所述目标值为：

其中，所述

为所述目标Q网络模型相对于所述s_t+1和所述a_t的最大值。

6.如权利要求5所述的方法，所述基于所述元组数据(s_i,a_i,r_i,s_i+1)和所述目标值，更新所述网络资源选择网络模型的模型参数包括：

获取一个所述元组数据(s_i,a_i,r_i,s_i+1)，计算与此元组数据(s_i,a_i,r_i,s_i+1)的所述y值；

更新所述Q的模型参数，以使Q(s_i,a_i)最接近于所述y值；其中，Q(s_i,a_i)为所述网络资源选择模型相对于所述s_t和所述a_t的值。

7.如权利要求6所述的方法，还包括：

设置新元组数据的生成次数，每间隔所述新元组数据的生成次数并基于所述Q的模型参数更新一次所述

的模型参数。

8.如权利要求1所述的方法，还包括：

基于所述网络资源选择网络模型获取所述资源信息，生成业务调度信息并下发客户；

其中，所述业务申请包括：网络切片业务申请。

9.一种基于深度Q网络的网络资源选择装置，包括：

业务请求模块，用于接收业务申请以及与所述业务申请相对应的业务需求；其中，所述业务需求包括：带宽、时延、价格指标；

识别模块，用于基于当前的网络模拟环境获取与所述业务需求相对应的业务特征以及网络状态；

更新模块，用于根据DQN算法以及所述业务特征和所述网络状态，更新基于DQN的网络资源选择网络模型的模型参数，用以确定最新的所述模型参数；

计算模块，用于根据所述网络资源选择网络模型获取与所述业务申请以及所述业务需求相对应的资源信息。

10.如权利要求9所述的装置，其中，

所述更新模块，包括：

神经网络模型构建模块，用于设置所述网络资源选择网络模型以及与所述网络资源选择网络模型具有相同结构的目标Q网络模型；

通信网络模块，用于根据所述网络状态和所述业务特征确定状态s_t；

网络资源选择模块，用于基于所述网络资源选择网络模型获取与所述s_t相对应的行为a_t；

所述通信网络模块，还用于基于当前的网络模拟环境获取与所述a_t相对应的奖励值r_t和新状态s_t+1，生成元组数据(s_i,a_i,r_i,s_i+1)；

目标Q网络模块，用于基于所述奖励值和所述元组数据(s_i,a_i,r_i,s_i+1)设置与所述目标Q网络模型相关联的目标值；

学习模块，用于基于所述元组数据(s_i,a_i,r_i,s_i+1)和所述目标值，更新所述网络资源选择网络模型的模型参数；

输出模块，用于输出进行更新处理后的所述网络资源选择网络模型。

11.如权利要求10所述的装置，其中，

所述a_t为调整带宽和时延的行为；所述奖励值为：

其中，所述Ι用于表征带宽、时延的满足程度。

12.如权利要求10所述的装置，其中，

所述更新模块，包括：

行为存储模块，用于设置缓存区并获取数据存储数量；将所述元组数据(s_i,a_i,r_i,s_i+1)存储在缓存区中；如果所述元组数据(s_i,a_i,r_i,s_i+1)的数量大于所述数据存储数量，则使用新元组数据(s_i,a_i,r_i,s_i+1)替换缓存时间最长的元组数据(s_i,a_i,r_i,s_i+1)。

13.如权利要求12所述的装置，其中，

所述目标Q网络模块，用于设置所述网络资源选择模型为Q、所述目标Q网络模型为