CN111935752B

CN111935752B - 一种网关接入方法、装置、计算机设备和存储介质

Info

Publication number: CN111935752B
Application number: CN202010885783.1A
Authority: CN
Inventors: 王钰翔; 祝美祺
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2024-01-02
Anticipated expiration: 2040-08-28
Also published as: CN111935752A

Abstract

本发明实施例提供了一种网关接入方法、装置、计算机设备和存储介质，应用于网关管理器，该方法包括：确定在当前网关的运行状态下，将客户端分配至网关的分配策略，该分配策略用于优化客户端通过网关与业务服务器之间的通信状态，确定当前客户端首次接入的网关、作为原始网关，按照分配策略查找适于接入当前客户端的网关、作为目标网关，将当前客户端从原始网关切换至目标网关，以使当前客户端通过目标网关与业务服务器进行通信，分配策略根据前网关的运行状态实时进行调整，可以提高容灾能力、保证服务的质量。

Description

一种网关接入方法、装置、计算机设备和存储介质

技术领域

本发明实施例涉及通信的技术领域，尤其涉及一种网关接入方法、装置、计算机设备和存储介质。

背景技术

在多个地区开展业务的场景下，如业务全球化，提供服务的业务服务器通常是分布式部署，即，根据各个地区用户的使用情况针对性的部署业务服务器及其网关，方便各个地区的用户就近接入网关，从而分配相应的业务服务器为各个地区的用户提供较为稳定、低延迟的服务。

目前，就近接入网关通常是通过域名解析实现，即由域名系统(Domain NameSystem，DNS)为不同地区或运营商的用户配置各自的IP(Internet Protocol，网际互连协议)地址，从而使得使用某运营商的用户接入指定的网关，以此实现各地区用户的就近接入业务服务器。

但是，当域名解析的网关或网络线路发生故障时，需要人工修改域名解析，域名解析生效往往较慢，使得容灾能力较低。

此外，通过域名解析使某地区用户接入距离该地区最近的网关，接入的方式单一，在网络线路发生故障等情况下，服务的质量受到影响。

发明内容

本发明实施例提出了一种网关接入方法、装置、计算机设备和存储介质，以解决接入距离最近的网关容灾能力较低、服务的质量容易受到影响的问题。

第一方面，本发明实施例提供了一种网关接入方法，应用于网关管理器，所述方法包括：

确定在当前网关的运行状态下，将客户端分配至所述网关的分配策略，所述分配策略用于优化所述客户端通过所述网关与业务服务器之间的通信状态；

确定当前客户端首次接入的网关、作为原始网关；

按照所述分配策略查找适于接入当前所述客户端的网关、作为目标网关；

将当前所述客户端从所述原始网关切换至所述目标网关，以使当前所述客户端通过所述目标网关与所述业务服务器进行通信。

可选地，所述确定在当前网关的运行状态下，将客户端分配至所述网关的分配策略，包括：

生成强化学习模型，在所述强化学习模型中，所述网关管理器为智能体、所述网关的运行状态为环境的状态、为客户端分配所述网关为动作，所述客户端通过所述网关与业务服务器之间的通信状态为激励；

执行所述强化学习模型，在所述运行状态的条件下、由所述网关管理器学习为所述客户端分配所述网关的分配策略，以优化所述通信状态。

可选地，所述执行所述强化学习模型，在所述运行状态的条件下、由所述网关管理器学习为所述客户端分配所述网关的分配策略，以优化所述通信状态，包括：

从所述运行状态中提取运行特征；

将所述运行特征输入预置的Q网络中进行处理，以输出在所述网络状态下执行所有分配策略的Q值，所述分配策略表示为所述客户端分配所述网关；

按照所述Q值选择与所述运行状态适配的分配策略，以优化所述通信状态。

可选地，所述执行所述强化学习模型，在所述运行状态的条件下、由所述网关管理器学习为所述客户端分配所述网关的分配策略，以优化所述通信状态，还包括：

在应用所述分配策略为所述客户端分配所述网关之后，查询所述网关新的运行状态、所述客户端通过所述网关与所述业务服务器之间的通信状态；

基于新的所述运行状态、所述通信状态更新所述Q值；

基于更新之后的所述Q值训练所述Q网络。

可选地，所述Q网络包括如下的至少一种：

卷积神经网络、循环神经网络、深度神经网络。

可选地，所述确定当前客户端首次接入的网关、作为原始网关，包括：

接收网关接入当前客户端时发送的分配请求，所述分配请求触发于当前所述客户端接入时携带的、表示首次接入的标识；

响应于所述分配请求，确定所述网关为原始网关。

可选地，所述按照所述分配策略查找适于接入当前所述客户端的网关、作为目标网关，包括：

查询当前所述客户端符合的条件；

在所述分配策略中查找为所述条件分配的网关，作为适于接入当前所述客户端的目标网关。

可选地，所述将当前所述客户端从所述原始网关切换至所述目标网关，以使当前所述客户端通过所述目标网关与所述业务服务器进行通信，包括：

将所述目标网关通知所述原始网关，所述原始网关用于通知当前所述客户端断开与所述原始网关的连接，以及，接入所述目标网关，当前所述客户端接入所述目标网关时未携带表示首次接入的标识。

可选地，所述运行状态包括如下的至少一种：

处理器的占用率、内存的占用率、带宽的占用率、所述网关上各客户端的网络延迟；

所述通信状态包括所有所述客户端通过所述网关访问所有业务服务器的整体延迟。

第二方面，本发明实施例还提供了一种网关接入装置，应用于网关管理器，所述装置包括：

分配策略确定模块，用于确定在当前网关的运行状态下，将客户端分配至所述网关的分配策略，所述分配策略用于优化所述客户端通过所述网关与业务服务器之间的通信状态；

原始网关确定模块，用于确定当前客户端首次接入的网关、作为原始网关；

目标网关查找模块，用于按照所述分配策略查找适于接入当前所述客户端的网关、作为目标网关；

网关切换模块，用于将当前所述客户端从所述原始网关切换至所述目标网关，以使当前所述客户端通过所述目标网关与所述业务服务器进行通信。

可选地，所述分配策略确定模块包括：

强化学习模型生成子模块，用于生成强化学习模型，在所述强化学习模型中，所述网关管理器为智能体、所述网关的运行状态为环境的状态、为客户端分配所述网关为动作，所述客户端通过所述网关与业务服务器之间的通信状态为激励；

强化学习模型执行子模块，用于执行所述强化学习模型，在所述运行状态的条件下、由所述网关管理器学习为所述客户端分配所述网关的分配策略，以优化所述通信状态。

可选地，所述强化学习模型执行子模块包括：

运行特征提取单元，用于从所述运行状态中提取运行特征；

Q网络处理单元，用于将所述运行特征输入预置的Q网络中进行处理，以输出在所述网络状态下执行所有分配策略的Q值，所述分配策略表示为所述客户端分配所述网关；

分配策略选择单元，用于按照所述Q值选择与所述运行状态适配的分配策略，以优化所述通信状态。

可选地，所述强化学习模型执行子模块还包括：

更新状态查询单元，用于在应用所述分配策略为所述客户端分配所述网关之后，查询所述网关新的运行状态、所述客户端通过所述网关与所述业务服务器之间的通信状态；

Q值更新单元，用于基于新的所述运行状态、所述通信状态更新所述Q值；

Q网络训练单元，用于基于更新之后的所述Q值训练所述Q网络。

可选地，所述Q网络包括如下的至少一种：

卷积神经网络、循环神经网络、深度神经网络。

可选地，所述原始网关确定模块包括：

分配请求接收子模块，用于接收网关接入当前客户端时发送的分配请求，所述分配请求触发于当前所述客户端接入时携带的、表示首次接入的标识；

分配请求响应子模块，用于响应于所述分配请求，确定所述网关为原始网关。

可选地，所述目标网关查找模块包括：

条件查询子模块，用于查询当前所述客户端符合的条件；

分配策略查找子模块，用于在所述分配策略中查找为所述条件分配的网关，作为适于接入当前所述客户端的目标网关。

可选地，所述网关切换模块包括：

目标网关通知子模块，用于将所述目标网关通知所述原始网关，所述原始网关用于通知当前所述客户端断开与所述原始网关的连接，以及，接入所述目标网关，当前所述客户端接入所述目标网关时未携带表示首次接入的标识。

可选地，所述运行状态包括如下的至少一种：

第三方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中任一所述的网关接入方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方中任一项所述的网关接入方法。

在本实施例中，网关管理器确定在当前网关的运行状态下，将客户端分配至网关的分配策略，该分配策略用于优化客户端通过网关与业务服务器之间的通信状态，确定当前客户端首次接入的网关、作为原始网关，按照分配策略查找适于接入当前客户端的网关、作为目标网关，将当前客户端从原始网关切换至目标网关，以使当前客户端通过目标网关与业务服务器进行通信，分配策略根据前网关的运行状态实时进行调整，在网关发生故障、网络线路发生故障等情况下，若客户端接入该网关或应用该网络线路，客户端通过网关与业务服务器之间的通信状态的质量降低，不符合优化的目标，因此，在调整分配策略可避免分配这些网关、应用这些网络线性，转而使用其他更优的网关、网络线路，可以提高容灾能力、保证服务的质量。

附图说明

图1为本发明实施例一提供的一种网关接入方法的流程图；

图2为本发明实施例一提供的一种业务系统的架构图；

图3是本发明实施例二提供的一种网关接入方法的流程图；

图4是本发明实施例二提供的一种学习模型的示意图；

图5为本发明实施例三提供的一种网关接入装置的结构示意图；

图6为本发明实施例四提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种网关接入方法的流程图，本实施例可适用于在业务系统中，如图2所示，在业务系统中可以包括如下角色：

1、多个网关(Gateway)211

网关Gateway 211作为业务系统的接入层，客户端201与其接入的网关Gateway211连接，客户端201的业务请求都通过网关Gateway 211发送给后端的业务服务器BackendServer 212，业务服务器Backend Server 212的请求响应也通过网关Gateway 211返回给客户端201。

在实际应用中，网关Gateway 211往往根据用户的分布及负载情况针对性的进行部署，可能在一个国家或地区部署一台网关Gateway 211，也可能在一个国家或地区部署多台网关Gateway 211。

2、业务服务器(Backend Server)212

业务服务器Backend Server 212负责处理客户端201的业务请求，在不同的业务场景中，处理的方式也有所不同，例如，在短视频的业务场景中，业务服务器BackendServer 212会向客户端201推送短视频，接收客户端201发布的短视频，等等。

在实际应用中，业务服务器Backend Server 212根据业务场景进行部署，可能与网关Gateway 211部署在同一个机房，也可能与网关Gateway 211部署在不同的机房。

在不同的机房时，通信的质量会收到其他因素的影响，因此，在考虑客户端201接入的质量时，除了考虑客户端201和网关Gateway 211之间的连接速度之外，还考虑客户端201通过接入网关Gateway 211、与业务服务器Backend Server212之间的通信状态，如平均访问延迟。

3、网关监控器(Gateway Monitor)213

网关监控器Gateway Monitor 213可接收网关Gateway 211上报的统计信息，将统计信息汇总后发送给网关管理器Gateway Manager 214。

其中，统计信息包括网关Gateway 211的运行状态、接入网关Gateway 211、与业务服务器Backend Server 212之间的通信状态。

4、网关管理器(Gateway Manager)214

网关管理器Gateway Manager 214负责对业务系统的网关Gateway 211进行管理。网关管理器Gateway Manager 214维护网关Gateway 211的分配策略，该分配策略的目的是最优化客户端201的接入质量，同时尽量使网关Gateway211负载均衡。

当客户端201接入网关Gateway 211时，根据分配策略为其分配适配的网关Gateway 211。

在本实施例中，以网关的运行状态作为分配的条件，以客户端通过网关与业务服务器之间的通信状态作为分配的目标，动态调整接入网关。

该方法可以由网关接入装置来执行，该网关接入装置可以由软件和/或硬件实现，可配置在计算机设备中，例如，服务器、工作站、个人电脑，等等，该计算机设备可以作为网关管理器的角色运行，具体包括如下步骤：

步骤101、确定在当前网关的运行状态下，将客户端分配至网关的分配策略。

在本实施例中，网关管理器维护表示将客户端分配至网关的分配策略，即，将符合第一条件的客户端分配至符合第二条件的网关，使得符合第一条件的客户端接入符合第二条件的网关。

其中，第一条件包括客户端的ISP(Internet Service Provider，互联网服务提供商)、客户端所处网络的类型(如Wi-Fi网络、移动网络等)、客户端的类型(如浏览器、独立的应用等)，等等。

第二条件包括网关所处的国家或地区、网关的ISP、网关在ISP下所处的网络类型(如某ISP的华南网络、华中网络、华东网络等)，等等。

在第二条件为空的情况下，网关以个体的方式进行分配，即，将符合第一条件的客户端分配至某个网关。

进一步而言，该分配策略可以周期性根据网关的运行状态进行调整。

在一个示例中，网关的运行状态包括网关的负载状态、网关上各客户端的网络延迟。

其中，网关的负载状态可以包括如下的至少一种：

处理器(central processing unit，CPU)的占用率、内存的占用率、带宽的占用率。

在该运行状态下，应用该分配策略将客户端分配至网关时，可优化客户端通过网关与业务服务器之间的通信状态，即该客户端接入该网关之后，客户端通过网关与业务服务器之间的通信状态变化较优。

其中，该通信状态评价的是所有客户端作为整体，通过网关与所有业务服务器整体之间进行通信的状态。

在一个示例中，通信状态可以包括所有客户端通过网关访问所有业务服务器的整体延迟(delay，DE)，该整体延迟R可定义为：

其中，G为网关的数量、U_g为第g个网关上已连接的客户端，latency_gu为第u个客户端通过第g个网关访问业务服务器的延迟。B为业务服务器的集合，latency_gb为第g个网关到第b个业务服务器的网络延迟，w_b为第b个业务服务器的权重，可根据业务的重要性进行配置。

当然，除了延迟之外，还可以将其他参数作为客户端通过网关与业务服务器之间的通信状态，例如，丢包率、数据包投递率(packet delivery ratio，PDR)，等等，本实施例对此不加以限制。

步骤102、确定当前客户端首次接入的网关、作为原始网关。

在本实施例中，网关管理器针对首次接入网关的客户端，重新调整按照分配策略对该客户端分配再次接入的网关，为便于区分，客户端首次接入的网关称之为原始网关，客户端再次接入的网关称之为目标网关。

其中，所谓首次接入，可以指客户端在每次执行业务操作时第一次的接入操作，所谓再次接入，可以指客户端在执行同一业务操作时第二次的接入操作，即客户端断开与目标网关的连接关系、完成业务操作之后，后续的接入操作可视为首次接入。

为便于区分首次接入，客户端可通过域名解析等方式选择一网关，生成接入请求，在该接入请求中写入表示首次接入的标识，并将该接入请求发送至该网关。

网关在接收到客户端的接入请求时，解析是否存在表示首次接入的标识，如果存在，则表示客户端首次接入网关，此时，网关生成分配请求，并将该分配请求发送至网关管理器，即分配请求触发于当前客户端接入时携带的、表示首次接入的标识。

网关管理器接收网关接入当前客户端时发送的分配请求，响应于该分配请求，确定当前的网关为原始网关。

步骤103、按照分配策略查找适于接入当前客户端的网关、作为目标网关。

针对当前接入原始网关的客户端，网关管理器可遵循当前的分配策略，查找适于接入当前客户端的网关、作为目标网关。

在具体实现中，可查询当前客户端符合的条件(即第一条件)，如客户端的ISP、客户端所处网络的类型、客户端的类型，等等。

在分配策略中查找为该条件分配的网关，作为适于接入当前客户端的目标网关。

步骤104、将当前客户端从原始网关切换至目标网关，以使当前客户端通过目标网关与业务服务器进行通信。

在本实施例中，网关管理器在当前网关的运行状态下，若寻找到与当前客户端的网关，则可以控制当前客户端从接入原始网关切换至接入目标网关，当前客户端可通过目标网关与后端的业务服务器进行通信。

在具体实现中，网关管理器可以向原始发送分配响应，该分配响应中携带目标网关的标识(如IP地址)，从而将目标网关通知原始网关。

原始网关可以向当前客户端发送接入响应，该接入响应中携带目标网关的标识(如IP地址)，从而将目标网关通知当前客户端，当前客户端响应接入通知，断开与原始网关的连接，以及，向目标网关发送接入请求，从而接入目标网关。

需要说明的是，由于当前客户端接入目标网关，属于再次进入网关，网关管理器并不再触发应用分配策略为当前客户端分配网关的操作，例如，当前客户端接入目标网关时、其接入请求未携带表示首次接入的标识，目标网关接收接入请求并未解析到表示首次接入的标识，因此，目标网关并不向网关管理器发送分配请求，而是对当前客户端与业务服务器之间通信的数据包进行交换。

实施例二

图3为本发明实施例二提供的一种网关接入方法的流程图，本实施例以前述实施例为基础，进一步细化更新分配策略的操作，该方法具体包括如下步骤：

步骤301、生成强化学习模型。

在实际应用中，强化学习模型是表达强化学习的模型，所谓强化学习，即理解信息、获得输入到输出的映射，则从自身的以往经验中去不断学习来获取知识，从而避免大量已标记的确定标签，以一个评价行为好坏的奖惩机制进行反馈，强化学习通过这样的反馈自己进行“学习”。

如果当前行为的反馈“好”，则以后就多往这个方向发展，如果当前行为的反馈“坏”，则以后尽量避免这样的行为，即不是直接得到了标签，而是自己在实际中总结得到的。

强化学习模型通常使用马尔可夫决策过程(Markov Decision Process，MDP)来描述，即，机器处在一个环境中，每个状态为机器对当前环境的感知；机器通过动作来影响环境，当机器执行一个动作后，会使得环境按某种概率转移到另一个状态；同时，环境会根据潜在的激励函数反馈给机器一个激励。

如图4所示，在强化学习模型中包含四个基本元素：智能体Agent、环境Environment、动作Action以及激励Reward。

其中，智能体Agent能够感知环境Environment的状态State，并且根据环境Environment提供的激励Reward，通过学习选择一个合适的动作Action，来最大化长期的激励Reward。

简而言之，智能体Agent根据环境Environment提供的激励Reward作为反馈，学习一系列的环境Environment的状态State到动作Action的映射，动作Action选择的原则是最大化未来累积的激励Reward的概率。选择的动作Action不仅影响当前时刻的激励Reward，还会影响下一时刻甚至未来的激励Reward，因此，智能体Agent在学习过程中的基本规则是：如果某个动作Action带来了环境Environment的正激励Reward，那么这一动作会被加强，如果某个动作Action带来了环境Environment的负激励Reward，那么这一动作会被削弱。

环境Environment会接收智能体Agent执行的一系列的动作Action，并且对这一系列的动作Action的好坏进行评价，并转换成一种可量化的(标量信号)激励Reward反馈给智能体Agent。同时，环境Environment还像智能体Agent提供它所处的状态State。

激励Reward是环境Environment提供给智能体Agent的一个可量化的标量反馈信号，用于评价智能体Agent在某一个时间所执行的动作Action的好坏。强化学习是基于一种最大化累计激励假设，即在强化学习中，智能体Agent进行一系列的动作Action选择的目标是最大化未来的累计激励Reward。

状态State包含了智能体Agent用于动作Action选择所参考的信息，它是历史History的一个函数。

则马尔科夫决策过程可表示如下：

M＝(S,A,P_sa,R)

其中，S表示环境的状态的集合，A表示为动作的集合，P_sa表示状态转移概率，即在状态s下采取动作a后，转移到其他状态的概率分布情况。

学习的目标即为针对上述马尔可夫决策过程，寻找最优策略π：

π(a|s)＝P[A_t＝a|S_t＝s]

即在t时刻，对于给定状态s，寻找该状态s下执行动作a的最优策略。

在本实施例中，在强化学习模型中，网关管理器Gateway Manager为智能体Agent、网关Gateway为环境Environment、网关Gateway的运行状态为环境Environment的状态State、为客户端分配网关为动作Action，客户端通过网关Gateway与业务服务器BackendServer之间的通信状态为激励Reward。

当然，除了网关Gateway与业务服务器Backend Server之间的通信状态之外，还可以添加其他参数作为激励Reward，例如，网关Gateway的负载状态，等等，本实施例对此不加以限制。

步骤302、执行强化学习模型，在运行状态的条件下、由网关管理器学习为客户端分配网关的分配策略，以优化通信状态。

在执行强化学习模型进行学习时，网关管理器Gateway Manager作为智能体Agent，接收网关Gateway检测的运行状态，作为状态State，执行为客户端分配网关Gateway这个动作Action，检测客户端通过网关Gateway与业务服务器Backend Server之间的通信状态为激励Reward，网关管理器Gateway Manager调整为客户端分配网关Gateway这个动作Action，使得该客户端通过网关Gateway与业务服务器Backend Server之间的通信状态这个激励Reward最优。

在本发明的一个实施例中，可以应用DQN(Deep Q-Learing，深度Q学习)执行强化学习模型，则在本实施例中，步骤302可以包括如下步骤：

步骤3021、从运行状态中提取运行特征。

步骤3022、将运行特征输入预置的Q网络中进行处理，以输出在该网络状态下执行所有分配策略的Q值。

在具体实现中，网关Gateway的负载信息、客户端通过网关Gateway与业务服务器Backend Server之间的通信状态为连续值，因此，可使用神经网络作为Q网络，从而将高纬度、连续的状态空间(负载信息、通信状态)通过神经网络转换为低纬度的价值函数。

在一个示例中，Q网络可以包括如下的至少一种：

卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep Neural Networks，DNN)。

在本实施例中，初始化运行状态s为状态序列S的第一个运行状态，并提取该运行状态s的特征向量(s)，作为运行特征，输入至Q网络中进行处理，Q网络输出所有分配策略对应的Q值，其中，分配策略表示为某个条件下的客户端分配网关Gateway。

例如，客户端的ISP包括ISP_A、ISP_B，网关Gateway包括Gateway_C、Gateway_D，则分配策略包括两个，一个是将ISP_A下的客户端分配给Gateway_C、将ISP_B下的客户端分配给Gateway_D，另一个是将ISP_A下的客户端分配给Gateway_D，将ISP_B下的客户端分配给Gateway_C。

Q值可表示为Q(s，a)，就是在某一个时刻的状态s(运行状态)下，采取动作a(为客户端分配网关)能够获得激励(通信状态)的期望，因此，DQN是将状态State(运行状态)和动作Action(为客户端分配网关)构建成一张Q_table(Q值表，即分配策略)表来存储Q值，然后根据Q值来选取能够获得最大激励(最优通信状态)的动作(为客户端分配网关)。

步骤3023、按照Q值选择与运行状态适配的分配策略，以优化通信状态。

在本实施例中，可使用∈-贪婪法(有∈的概率选择Q值最大的动作Action，有(1-∈)的概率随机选择动作Action)等方式在所有分配策略的Q值中选择某个分配策略，作为当前运行状态下的分配策略。

在本发明的另一个实施例中，步骤302还可以包括如下步骤：

步骤3024、在应用分配策略为客户端分配网关之后，查询网关新的运行状态、客户端通过网关与业务服务器之间的通信状态。

步骤3025、基于新的运行状态、新的通信状态更新Q值。

步骤3026、基于更新之后的Q值训练Q网络。

在状态s(运行状态)下执行动作a(为客户端分配网关)后，会跳转到的下一个状态s′(运行状态)。

在一个示例中，可查询网关Gateway的负载状态、客户端通过网关Gateway与业务服务器Backend Server之间的通信状态作为激励Reward，表示如下：

其中，L_i表示第i个网关Gateway的负载状态(CPU的占用率、内存的占用率、带宽的占用率等)。即为所有网关的负载状态的平均值乘以所有网关负载状态的标准差。

此后，利用贝尔曼方程更新Q值：

Q_new(s,a)＝Q(s,a)+α[r+γmax_a′Q(s′,a′)-Q(s,a)]

其中，Q_new(s,a)表示更新之后的Q值，Q(s,a)表示更新之前的Q值，α为学习率，r为衰减系数(即未来激励reward换算到当前时刻状态的衰减，表示未来Q值对当前状态的带有衰减的影响)，s′表示在状态s执行动作a新跳转到的下一个状态，max_a′Q(s′,a′)表示选取下一个状态s′中的最大Q值(对应Q_table中s′这一行的最大值)。

得到新的Q值之后，可使用新的Q值，应用梯度反向传播算法等方式更新Q网络。

需要说明的是，由于Q网络实时进行更新，因此，为了保证时效性，可迭代训练x次(如1次)Q网络时即停止更新Q网络。

当然，上述DQN算法只是作为强化学习模型的示例，在实施本发明实施例时，可以根据实际情况设置其他强化学习模型，例如，SARAS(一种时序差分法)算法、DDPG(DeepDeterministic Policy Gradient，深度确定性策略梯度)算法、A3C(Actor-CriticAlgorithm，异步的优势行动者评论家算法)算法、NAF(normalized advantage functions，归一化优势函数)算法、TRPO(Trust region policy optimization，信赖域策略优化)算法、PPO(Proximal Policy Optimization，近端策略优化算法)算法，等等，本发明实施例对此不加以限制。另外，除了上述强化学习模型外，本领域技术人员还可以根据实际需要采用其它强化学习模型，本发明实施例对此也不加以限制。

步骤303、确定当前客户端首次接入的网关、作为原始网关。

步骤304、按照分配策略查找适于接入当前客户端的网关、作为目标网关。

步骤305、将当前客户端从原始网关切换至目标网关，以使当前客户端通过目标网关与业务服务器进行通信。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例三

图5为本发明实施例三提供的一种网关接入装置的结构框图，应用于网关管理器，具体可以包括如下模块：

分配策略确定模块501，用于确定在当前网关的运行状态下，将客户端分配至所述网关的分配策略，所述分配策略用于优化所述客户端通过所述网关与业务服务器之间的通信状态；

原始网关确定模块502，用于确定当前客户端首次接入的网关、作为原始网关；

目标网关查找模块503，用于按照所述分配策略查找适于接入当前所述客户端的网关、作为目标网关；

网关切换模块504，用于将当前所述客户端从所述原始网关切换至所述目标网关，以使当前所述客户端通过所述目标网关与所述业务服务器进行通信。

在本发明的一个实施例中，所述分配策略确定模块501包括：

在本发明的一个实施例中，所述强化学习模型执行子模块包括：

运行特征提取单元，用于从所述运行状态中提取运行特征；

在本发明的一个实施例中，所述强化学习模型执行子模块还包括：

在具体实现中，所述Q网络包括如下的至少一种：

卷积神经网络、循环神经网络、深度神经网络。

在本发明的一个实施例中，所述原始网关确定模块502包括：

在本发明的一个实施例中，所述目标网关查找模块503包括：

条件查询子模块，用于查询当前所述客户端符合的条件；

在本发明的一个实施例中，所述网关切换模块504包括：

在具体实现中，所述运行状态包括如下的至少一种：

本发明实施例所提供的网关接入装置可执行本发明任意实施例所提供的网关接入方法，具备执行方法相应的功能模块和有益效果。

实施例四

图6为本发明实施例四提供的一种计算机设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图6显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的网关接入方法。

实施例五

本发明实施例五还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述网关接入方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种网关接入方法，其特征在于，应用于网关管理器，所述方法包括：

确定当前客户端首次接入的网关、作为原始网关；

将当前所述客户端从所述原始网关切换至所述目标网关，以使当前所述客户端通过所述目标网关与所述业务服务器进行通信；

其中，所述确定在当前网关的运行状态下，将客户端分配至所述网关的分配策略，包括：

2.根据权利要求1所述的方法，其特征在于，所述执行所述强化学习模型，在所述运行状态的条件下、由所述网关管理器学习为所述客户端分配所述网关的分配策略，以优化所述通信状态，包括：

从所述运行状态中提取运行特征；

将所述运行特征输入预置的Q网络中进行处理，以输出在所述运行状态下执行所有分配策略的Q值，所述分配策略表示为所述客户端分配所述网关；

3.根据权利要求2所述的方法，其特征在于，所述执行所述强化学习模型，在所述运行状态的条件下、由所述网关管理器学习为所述客户端分配所述网关的分配策略，以优化所述通信状态，还包括：

基于新的所述运行状态、所述通信状态更新所述Q值；

基于更新之后的所述Q值训练所述Q网络。

4.根据权利要求2或3所述的方法，其特征在于，所述Q网络包括如下的至少一种：

卷积神经网络、循环神经网络、深度神经网络。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述确定当前客户端首次接入的网关、作为原始网关，包括：

响应于所述分配请求，确定所述网关为原始网关。

6.根据权利要求1-3任一项所述的方法，其特征在于，所述按照所述分配策略查找适于接入当前所述客户端的网关、作为目标网关，包括：

查询当前所述客户端符合的条件；

7.根据权利要求1-3任一项所述的方法，其特征在于，所述将当前所述客户端从所述原始网关切换至所述目标网关，以使当前所述客户端通过所述目标网关与所述业务服务器进行通信，包括：

8.根据权利要求1-3任一项所述的方法，其特征在于，

所述运行状态包括如下的至少一种：

9.一种网关接入装置，其特征在于，应用于网关管理器，所述装置包括：

网关切换模块，用于将当前所述客户端从所述原始网关切换至所述目标网关，以使当前所述客户端通过所述目标网关与所述业务服务器进行通信；

其中，所述分配策略确定模块包括：

10.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的网关接入方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的网关接入方法。