CN111211984A

CN111211984A - 优化cdn网络的方法、装置及电子设备

Info

Publication number: CN111211984A
Application number: CN202010309406.3A
Authority: CN
Inventors: 郭得科; 李妍; 陈洪辉; 廖汉龙; 武睿
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-05-29
Anticipated expiration: 2040-04-20
Also published as: CN111211984B

Abstract

本发明提供一种优化CDN网络的方法、装置及电子设备，其特征在于，包括：构建控制策略优化神经网络模型；使用所述控制策略优化神经网络模型进行路径选择，得到路径选择结果；将所述路径选择结果应用于CDN网络，得到反馈的网络状态数据；根据所述网络状态数据对所述控制策略优化神经网络模型进行参数优化，得到优化后的控制策略优化神经网络模型，用于优化所述CDN网络。

Description

优化CDN网络的方法、装置及电子设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种优化CDN网络的方法、装置及电子设备。

背景技术

为了向用户提供高性能响应服务，大型内容提供商在全球范围内构建入网点PoP和数据中心DC，所有这些入网点与数据中心专用广域网WAN联网在一起构成集成基础架构。作为内容分发网络CDN的核心，PoP / DC选择和从PoP到DC的路由路径选择在提高在线服务的性能方面起着重要作用，然而由于CDN环境的高动态性和复杂性，选择正确的PoP / DC和路由路径非常困难，现有的启发式方法无法适应广泛环境的变化，选择也不够精准。

发明内容

有鉴于此，本发明的目的在于提出一种可适应广泛环境变化、选择更精准的优化CDN网络的方法、装置及电子设备以解决问题。

基于上述目的，本发明提供了一种优化CDN网络的方法，其特征在于，包括：

构建控制策略优化神经网络模型；

使用所述控制策略优化神经网络模型进行路径选择，得到路径选择结果；

将所述路径选择结果应用于CDN网络，得到反馈的网络状态数据；

根据所述网络状态数据对所述控制策略优化神经网络模型进行参数优化，得到优化后的控制策略优化神经网络模型，用于优化所述CDN网络。

在一些实施方式中，所述控制策略优化神经网络模型包括演员网络和评判家网络：

所述演员网络进行路径选择；

所述评判家网络对所述演员网络进行打分，得出分数；

所述演员网络根据所述分数调整自身参数。

在一些实施方式中，所述根据所述网络状态数据对所述控制策略优化神经网络模型进行参数优化包括：

根据所述网络状态计算奖励；

使用所述奖励对所述评判家网络进行参数优化。

在一些实施方式中，所述评判家网络的输出层为线性神经元。

在一些实施方式中，所述控制策略优化神经网络模型在模拟器模拟的环境中训练，所述模拟器，被配置为：

模拟内容交付环境的动态；设定跟踪不同类型内容传输集的工作负载；根据内容类型分配不同的资源需求；根据资源消耗选定入网点容量和路径带宽；进行状态观察，得到网络状态数据，并将所述网络状态数据传递给所述控制策略优化神经网络模型。

在一些实施方式中，所述网络状态数据包括：

端到端延迟，接入网点和数据中心的处理时间、客户端和接入网点之间的传输时间以及接入网点和数据中心之间的传输时间；路由距离，路由之间的物理距离；利用率，包括服务器利用率和路径利用率。

在一些实施方式中，所述优化所述CDN网络，包括：

通过24位子网掩码前缀粒度将客户端组合在一起，为每一组客户端部署一个局部所述优化后的控制策略优化神经网络模型；

确定客户端和本地控制的映射，并以粗粒度进行更新。

基于同一发明构思，本申请还提供了一种优化CDN网络装置，其特征在于，包括：

模型构建模块，被配置为构建控制策略优化神经网络模型；

路径选择模块，被配置为使用所述控制策略优化神经网络模型进行路径选择，得到路径选择结果；

动作模块，被配置为将所述路径选择结果应用于CDN网络，得到反馈的网络状态数据；

优化应用模块，被配置为根据所述网络状态数据对所述控制策略优化神经网络模型进行参数优化，得到优化后的控制策略优化神经网络模型，用于优化所述CDN网络。

基于同一发明构思，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上述实施方式任意一项所述的方法。

基于同一发明构思，本申请还提供了一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述实施方式任意一项所述方法。

从上面所述可以看出，本发明提供的一种优化CDN网络的方法、装置及电子设备首次提出将内容交付优化问题转化为机器学习问题的框架，而且将这一框架进行了通用化，因此CDN运营商可以轻松地根据自己的情况定制框架；本申请提出的演员评判家神经网络模型可适应广泛的环境变化，通过不断的迭代，模型自身不断优化，使得路径的选择更精准；而且，本申请技术方案的性能超过了现有算法在整体延迟和所考虑的每种内容类型上的性能，在负载平衡方面表现出最佳性能，可以快速适应环境变化，具有流畅的性能，范化能力更强，在新的工作负载数据集上表现良好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例的CDN内容传输端到端流程图；

图2为本发明一个实施例的传输响应过程示意图；

图3为本发明一个实施例的控制策略优化神经网络模型图；

图4为本发明一个实施例的算法示意图；

图5为本发明一个实施例的两级智能路径控制器的框架图；

图6为本发明一个实施例的电子设备的硬件结构示意图；

图7为本发明一个实施例的一种优化CDN网络的方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

近年来，在线服务和内容（例如，视频流，游戏）的数量不断增加，与此同时，用户感知性能要求上升，然而因为客户遍布全球，远离负责托管这些内容的数据中心交付质量会影响用户体验，从而对内容提供商的收入产生重大影响。

为了缓解此问题并改善客户端感知的性能（例如，总体响应时间和吞吐量），帮助减少用户延迟，大型内容提供商已经部署了CDN基础架构和广泛的专用网络，采用分层CDN，所述分层CDN通常具有两层服务器集群：1）全球分布的PoP服务器，存储Web内容的副本（包括视频，文档，图像和音频），这些服务器执行TCP splitting并提供静态内容； 2）数据中心，负责提供动态（通常是个性化的）内容，包括搜索结果和电子邮件消息。所有这些数据中心和PoP都与提供商自己的专用广域网（WAN）联网在一起，它们通过遍布全球的众多入网点（PoP）为客户提供服务，并与高容量数据中心（DC）互连。作为集成基础设施，当客户端发出内容请求时，请求首先通过本地ISP发送到附近的PoP，检索静态内容；同时，PoP通过WAN将请求转发到检索动态内容的数据中心。

通过CDN实现内容传输的端到端流程，在任何CDN部署的核心，可以做出两个关键选择来改善CDN性能：（1）集群选择，在哪里选择最佳PoP和数据中心以服务特定客户，以及（2）路径选择，选择合适的路由以避免WAN内的网络低性能（例如，瓶颈，拥塞等）。 PoP / DC和从PoP到DC的路由路径的选择一起在提高在线服务的性能方面起着重要作用。大型云提供商（如亚马逊，微软和谷歌）可以集成上述两种方法来提高效率和用户满意度，因为它们可以同时控制网络和集群。

如图1为本发明一个实施例的CDN内容传输端到端流程图所示，客户端首先向内容提供者发送请求以进行认证。提供商使用IP地址进行响应，该IP地址将客户定向到托管内容的附近PoP服务器。然后，客户建立与PoP的直接TCP连接，并为静态内容发出HTTP GET请求，而PoP维护与数据中心的持久TCP连接以提供动态内容。

内容传输性能的一个主要组成部分是客户端与数据中心中存在的内容之间的传输时间，作为案例研究，本申请考虑接收搜索查询响应的延迟。如图2为本发明一个实施例的传输响应过程示意图所示，响应时间大致为4个RTT + RTTd +处理时间，其中RTT是客户端和PoP之间的往返时间，RTTd是PoP和数据中心之间的往返时间。今天，大多数PoP服务器通常靠近客户，因此RTT可以忽略不计；相反，端到端响应时间仅由RTTd +处理时间决定。实际上，许多研究表明，内容传输网络存在一个距离阈值，使PoP服务器进一步靠近不再对于降低传输时间有用。因此，PoP和数据中心的处理时间和负载以及它们之间的可用连接带宽等关键因素决定了客户端感知的整体性能。因此，PoP / DC和从PoP到DC的路由路径的选择一起在提高请求在线服务的性能方面起着重要作用。

为了解决这个问题，研究人员研究了多种方法来选择PoP / DC和客户请求应该指向的路由路径。这些算法使用各种不同的输入（IP地址，延迟，丢失）来确定与网络相关的性能，并动态地将客户端引导到“附近”的PoP或数据中心。

为了解决这些问题，大量研究致力于寻求最佳选择机制。大多数现有的选择机制开发了固定的启发式算法，以根据性能测量，系统建模或两者的组合做出选择决策。这些机制要求代表性测量并正确理解工作负载和环境。当模型设置与环境不匹配时，启发式算法可能会遭受性能损失。由于CDN环境的高动态性和复杂性，选择正确的PoP / DC和路由路径非常困难，现有的启发式方法无法适应广泛环境的变化，选择不够精准，而且选择决策的级联效应（例如，将大量客户端引导到最佳路径可能会将该路径带宽消耗到危险水平并导致未来拥塞）和较大的决策空间（大量的PoP和丰富的连接）容易耗费更多资源。此外，这些预设的启发式方法不能适应于不同的网络和工作负载条件。

而强化学习（RL）方法的自适应性天然具备解决这些问题的优势，它可以从与环境相互作用的经验中直接进行学习，做出更好的决策，因此可以高度适应CDN环境的高动态性和复杂性。受此启发，本申请认为强化学习方法自然非常适合此PoP / DC和路由路径选择。这是由于：（1）强化学习可以将复杂系统和决策策略建模为神经网络。强化学习代理学习直接根据适合在线随机环境的环境经验做出更好的决策；（2）强化学习可用于优化各种难以用启发式建模的目标；（3）PoP / DC的选择和每个客户端的路由路径是高度重复的，这使得强化学习具有丰富的训练数据。

有鉴于此，本发明的目的在于提出一种可适应广泛环境变化、选择更精准的优化CDN网络的方法、装置及电子设备以解决当前的问题。

下面结合图3为本发明一个实施例的控制策略优化神经网络模型图、图4为本发明一个实施例的算法示意图、图5为本发明一个实施例的两级智能路径控制器的框架图、图6为本发明一个实施例的电子设备的硬件结构示意图和图7为本发明一个实施例的一种优化CDN网络的方法的流程图对本发明做进一步说明。本发明提供了一种优化CDN网络的方法，包括：

S1：构建控制策略优化神经网络模型：

与以启发式算法使用预设规则不同，本申请尝试基于强化学习（RL）的动态的环境观察学习策略。RL是关于随着时间的推移与环境交互的方法。在每个时间步t，代理从状态空间

观察一些状态

，并根据策略

从动作空间

中选择动作

，其中

是动作

在状态

下的概率分布。在采取动作

后，代理获得奖励

并且环境状态转换为

。其中状态转移具有随机性和马尔可夫性。强化学习的目标是最大化预期的累积奖励

，其中

是累积因子。

在强化学习中有多种算法来训练代理（例如，DQN，REINFORCE 等）。这里本申请选择A3C（异步优势演员评判家算法），A3C保持了策略的近似值，并且已经成功应用于许多网络相关学习问题，而且 A3C可以并行化，这为大规模内容传输问题留下未来的改进空间，本申请使路径选择和强化学习之间形成自然映射，使用A3C训练算法，即先进的演员评判家者算法搭建控制策略优化神经网络模型。

所述演员网络进行路径选择；

所述评判家网络对所述演员网络进行打分，得出分数；

所述演员网络根据所述分数调整自身参数

如图3为本发明一个实施例的控制策略优化神经网络模型图，总结了控制策略优化神经网络模型如何应用于内容交付环境中的集群和路径选择，它涉及训练两个神经网络，即演员网络和评判家网络，其中代理使用评判家网络对演员网络进行评分，演员网络根据评判家的评分进行自身参数的更新调整。在每个时间步骤t，代理从环境中观察状态并将其带到它的神经网络，然后选择一个动作。输入从已完成的请求和所有请求中收集状态活跃的请求。将状态表示为向量

，其中

是过去

个客户请求的IP地址前缀；

是过去

个请求的网络吞吐量；

是过去

个请求的计算资源；

是过去

个请求的响应时间；

是过去

个请求的CP选择；

是剩余

个请求的资源需求（网络和计算）；

是需要分配的剩余请求数。

为了训练模型，本申请使用数据驱动的评估，涵盖从实际数据收集的广泛网络条件和工作负载。该模拟器可以忠实地模拟内容交付环境的动态。代理的主要目标是最小化端到端的平均响应时间。理想情况下，训练过程应该与实际的客户请求和内容交付环境一起进行。然而，由于内容分发涉及由许多方（例如，客户端，CDN和ISP）组成的复杂生态系统，并且具有各种基础设施配置文件（例如，拓扑，路由，业务关系，等等）。大多数这些信息很难获得，因为它们与不同公司之间的业务合同有关，而且对研究人员不开放。相反，本申请使用真实的网络数据和工作负载数据集在模拟环境中训练控制策略优化神经网络模型。该模拟器可以忠实地模拟内容交付环境的动态。此外，本申请考虑了各种工作负载数据，每个工作负载跟踪从不同类型的内容传送（例如，视频，web等）收集。对于每个客户请求，模拟器假定其资源需求以前是已知的，并根据内容类型分配不同的资源需求。然后，模拟器通过当前请求的资源需求消耗选定的PoP容量和路径带宽，这表示该请求的内容传送。在每个请求完成后，模拟器会进行多次状态观察，例如响应时间，网络吞吐量和计算资源，然后将它们传递给RL代理。

本申请考虑集成基础架构，供应商在控制网络和集群时共同协调所有路由和资源分配决策。为简单起见，本申请不采用对ISP网络的控制，其中客户端和PoP之间的网络传输时间可以忽略不计。因此内容传递问题可建模为如何将来自每个客户的新请求分配给端到端路径的集合，其包括PoP服务器，数据中心和它们之间的WAN路径。本申请将其称为集群和路径选择或CP选择，使用平均端到端响应时间作为主要系统目标。具体而言，端到端响应时间由RTT +处理时间确定，其中RTT反映WAN路径选择，处理时间反映集群选择。内容交付机制需要平衡各种客户感知的绩效。尽管存在与网络相关的目标（例如，延迟，丢失，拥塞等），但提供高质量体验（QoE）对于今天的CDN至关重要，因为流式视频构成了因特网中的大部分流量。预先设定的启发式方法无法满足所有这些复杂的目标。相比之下，RL生成的算法可以通过仔细调整奖励来适应各种目标。例如，为了同时最大化资源利用率，本申请可以将利用率添加到奖励中；为了最大化视频质量（即，最高平均比特率），本申请可以奖励代理商获得的吞吐量之和。如果没有一般性，本申请只考虑尽量减少响应时间作为奖励。

S2：使用所述控制策略优化神经网络模型进行路径选择，得到路径选择结果：

如图3所示，指导路径选择的决策策略来自演员网络，代理观察一组状态度量，包括客户端响应时间，过去的请求决策和几个原始网络信号（例如，吞吐量，丢失），并将这些值馈送到演员网络，演员网络输出动作，即路径选择结果。

S3：将所述路径选择结果应用于CDN网络，得到反馈的网络状态数据：

将演员网络输出的路径选择结果用于CDN网络中进行路径选择，然后模拟器观察CDN网络的网络状态，例如延迟即响应时间，网络吞吐量和计算资源，然后将这些网络状态数据反馈给控制策略优化神经网络模型。

在一些实施方式中，所述网络状态数据包括：

S4：根据所述网络状态数据对所述控制策略优化神经网络模型进行参数优化，得到优化后的控制策略优化神经网络模型，用于优化所述CDN网络：

根据所述网络状态计算奖励；

使用所述奖励对所述评判家网络进行参数优化。

RL代理的主要目标是最大化从环境接收的预期累积奖励。在每个动作之后，环境为学习代理提供针对该最后请求的奖励rt。因此，对于完成的请求集获得奖励并且应该反映客户端感知的性能。本申请制定奖励信号以最小化平均端到端响应时间。具体而言，它仅在完成的请求集上计算。

本申请评判家网络和演员网络的输入层使用相同的神经网络结构，由于评判家网络评估演员网络为其打分，评判家神经网络的最终输出是线性神经元。

为将优化后的控制策略优化神经网络模型用于优化所述CDN网络，本申请设计了SmartRoad系统，一种使用强化学习（RL）生成选择算法的系统，该系统为PoP / DC和路由路径生成有效的选择解决方案，能够根据与环境交互的体验直接做出更好的选择决策。本申请使用Python和TensorFlow实现了SmartRoad原型，它不依赖于任何预先编程的控制规则或关于CDN环境的明确假设，自动学习适应各种设置的选择策略。本申请将SmartRoad与最先进的选择机制（例如PECAN，Footprint）进行比较，并使用广泛的环境条件（网络和工作负载）来衡量SmartRoad可以实现的性能优势。客户体验的表现以一系列指标为特征。本申请发现，在所有考虑的场景中，SmartRoad优于其他方案，降低平均响应时间27％-41％。此外，本申请的结果显示SmartRoad可以平衡各种负载，并能够推广到不同的CDN环境。

在一些实施方式中，所述优化所述CDN网络，包括：

确定客户端和本地控制的映射，并以粗粒度进行更新。

随着内容提供商迅速扩展其CDN基础设施和连接，使用3种基础设施类型的CDN，PoP，数据中心和WAN路径，全球有数十万个PoP，客户请求从全世界到达CDN，SmartRoad调度程序定期决定如何将新客户请求分配给PoP服务器，数据中心，以及PoP和DC之间的WAN路径，即CP路径，假设每个请求的资源需求在到达时是已知的（例如，存储器，CPU，流量），不同种类的内容消耗了大量的资源需求，例如，视频内容消耗的带宽最多，从100 kbps到超过3Mbps，是图形和音频应用的十倍。这导致动作空间巨大，训练控制策略优化神经网络模型变得非常具有挑战性。

因此本申请以/ 24 IP地址前缀的粒度执行CP选择，因为来自相同IP地址前缀的客户使用相同的CP选择，共享相似的因素（例如，位置），例如，当选择相同的PoP时，当来自相同/ 24个IP前缀的客户端遇到类似的Web加载时间；由于各种约束，例如距离约束，国籍约束等，一个典型IP地址前缀的选择空间相对较小，因此来自相同IP地址前缀的客户端共享类似的因素。所以本申请将基础架构视为单个资源集合，忽略机器级别的详细信息。

如本申请图5所示，本申请为每个客户端组部署一个独立的本地SmartRoad控制器，这样即可将全局SmartRoad控制器分解为单独的每组本地SmartRoad控制器，然后可以在地理分布式集群中独立运行，自然地解决了CDN复杂的交互，并且适合于实时控制。对于每个/ 24 IP前缀客户组，本申请部署一个独立的本地SmartRoad控制器。当客户发出内容请求时，该请求（包括其特征（例如，IP前缀，资源需求））首先被发送到其本地SmartRoad控制器以进行控制决策。然后，SmartRoad控制器从本地基于RL的选择算法获得最新的决策，并将决策传递给客户端。请求完成后，客户测量其端到端性能（例如，响应时间）并向同一本地SmartRoad控制器报告。然后，本地控制器使用此新测量更新算法。同时，全局SmartRoad控制器确定客户组和本地控制的映射，并且具有所有客户组的性能的全局视图，并以粗粒度（例如，小时）更新它。

模型构建模块，被配置为构建控制策略优化神经网络模型；

需要说明的是，本发明实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围（包括权利要求）被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路（IC）芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的（即，这些细节应当完全处于本领域技术人员的理解范围内）。在阐述了具体细节（例如，电路）以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构（例如，动态RAM（DRAM））可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种优化CDN网络的方法，其特征在于，包括：

构建控制策略优化神经网络模型；

2.根据权利要求1所述的一种优化CDN网络的方法，其特征在于，所述控制策略优化神经网络模型包括演员网络和评判家网络：

所述演员网络进行路径选择；

所述评判家网络对所述演员网络进行打分，得出分数；

所述演员网络根据所述分数调整自身参数。

3.根据权利要求2所述的一种优化CDN网络的方法，其特征在于，所述根据所述网络状态数据对所述控制策略优化神经网络模型进行参数优化包括：

根据所述网络状态计算奖励；

使用所述奖励对所述评判家网络进行参数优化。

4.根据权利要求2所述的一种优化CDN网络的方法，其特征在于，所述评判家网络的输出层为线性神经元。

5.根据权利要求1所述的一种优化CDN网络的方法，其特征在于，所述控制策略优化神经网络模型在模拟器模拟的环境中训练，所述模拟器，被配置为：

6.根据权利要求1所述的一种优化CDN网络的方法，其特征在于，所述网络状态数据包括：

7.根据权利要求1所述的一种优化CDN网络的方法，其特征在于，所述优化所述CDN网络，包括：

确定客户端和本地控制的映射，并以粗粒度进行更新。

8.一种优化CDN网络装置，其特征在于，包括：

模型构建模块，被配置为构建控制策略优化神经网络模型；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行权利要求1至7任一所述方法。