CN116599999B

CN116599999B - 预测cdn用户的实时用量数据的方法、装置及设备

Info

Publication number: CN116599999B
Application number: CN202310876961.8A
Authority: CN
Inventors: 何强; 周峰; 陈春秀; 朱晨奕; 黄伟锋
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2023-07-18
Filing date: 2023-07-18
Publication date: 2023-10-10
Anticipated expiration: 2043-07-18
Also published as: CN116599999A

Abstract

本发明提供了一种预测CDN用户的实时用量数据的方法、装置及设备，涉及计算机处理技术领域。该方法包括：基于第一历史日志文件，获得内容分发网络CDN用户请求的历史的统一资源定位系统URL相关信息；根据所述URL相关信息，采用预先剪枝方式构建决策树；其中，所述预先剪枝方式用于控制决策树的生长；利用所述决策树，得到CDN用户的实时用量预测数据。本发明的方法通过历史数据，利用机器学习中的决策树来预测出当前CDN用户的实时用量数据，能够有效准确地预测出CDN用户的实时用量。

Description

预测CDN用户的实时用量数据的方法、装置及设备

技术领域

本发明涉及计算机处理技术领域，尤其是涉及一种预测CDN用户的实时用量数据的方法、装置及设备。

背景技术

现有技术中，日志分析过程为离线式的日志文件处理。通过日志文件解析用户的用量情况，无法实时有效的获取用户的实时用量数据。

目前，一种解决方案是，内容分发网络（Content Delivery Network，简称CDN）实时日志的分析过程中均是直接对CDN原始的日志记录直接进行不同系统间的传输，由于CDN集群本身较为庞大，同时用户每时每刻产生的日志数据量更加巨大，在采集处理实时日志数据过程中无形地增加了CDN集群中各个节点的数据处理性能压力，并存在CDN节点在采集汇聚过程数据因传输丢包而造成预测得到的实时数据不准确的情况。

另一种解决方案是，日志数据采集分析方式是映入物理的电子设备装置直接对CDN节点日志数据进行采集分析，并通过预设的CDN集群流量低峰时间段对融合分析结果进行上传，以便后续的运维分析。但是该方案需要在CDN集群中增加物理硬件设备且预测得到的实时数据存在不连续性的问题。

发明内容

本发明的目的在于提供一种预测CDN用户的实时用量数据的方法、装置及设备，用于解决现有技术无法准确预测CDN用户的实时用量数据的问题。

为了达到上述目的，本发明提供一种预测CDN用户的实时用量数据的方法，包括：

基于第一历史日志文件，获得内容分发网络CDN用户请求的历史的统一资源定位系统URL相关信息；

根据所述URL相关信息，采用预先剪枝方式构建决策树；其中，所述预先剪枝方式用于控制决策树的生长；

利用所述决策树，得到CDN用户的实时用量预测数据。

其中，所述URL相关信息包括：URL请求次数、URL资源用量和各访问资源对应的URL路径；

所述根据所述URL相关信息，采用预先剪枝方式构建决策树，包括：

采用KMP算法对所述各访问资源对应的URL路径进行解析，获得各访问资源对应的URL路径中的相同路径；

以所述相同路径为决策树的树根开始，按照各访问资源在所述相同路径段之后的URL路径段以及URL层级构建决策树，并在决策树构建过程中，采用预先剪枝方式修剪决策树中部分节点的继续分支，直至得到决策树；

其中，所述决策树包括多个节点和多个叶节点，所述节点为URL路径段，所述叶节点为请求的资源数据或者部分的URL路径。

其中，采用预先剪枝方式修剪决策树中部分节点的继续分支，包括：

若决策树生长至第一节点时，获取第二节点的URL资源用量；其中，所述第二节点为所述第一节点的下一个分支节点，所述第一节点为所述多个节点中的一者；

根据所述URL请求次数和所述URL资源用量，确定预先剪枝时所使用的指标值；

在所述第二节点的URL资源用量小于所述指标值的情况下，停止所述第一节点之后的所述第二节点的生长，并将所述第一节点确定为叶节点。

其中，所述根据所述URL请求次数和所述URL资源用量，确定预先剪枝时所使用的指标值，包括：

根据所述URL请求次数，计算得到所述第一节点的访问请求概率和所述第一节点之后的各URL路径段的访问请求概率；

根据所述URL资源用量，获得所述第一节点的URL资源用量和所述第一节点之后各URL路径段的URL资源用量；

根据所述第一节点的访问请求概率、所述第一节点的URL资源用量、所述第一节点之后的各URL路径段的访问请求概率以及所述第一节点之后各URL路径段的URL资源用量，计算得到所述第一节点以及所述第一节点之后各URL路径段的所有URL资源的数学期望值；

将所述数学期望值确定为预先剪枝时所使用的指标值。

其中，所述利用所述决策树，得到CDN用户的实时用量预测数据，包括：

采用目标决策方式，从所述决策树中确定最终决策路径；其中，所述目标决策方式包括概率优先决策方式和/或资源用量优先决策方式；

获取访问一次所述最终决策路径的资源用量；

根据所述最终决策路径的资源用量和所述URL请求次数，计算得到CDN用户的实时用量预测数据。

其中，所述目标决策方式包括概率优先决策方式和资源用量优先决策方式；

所述采用目标决策方式，从所述决策树中确定最终决策路径，包括：

采用概率优先决策方式，从所述决策树中确定出最大可能访问的第一URL路径；

采用资源用量优先决策方式，从所述决策树中确定出资源用量最大的第二URL路径；

将所述第一URL路径和所述第二URL路径确定为最终决策路径。

其中，所述采用概率优先决策方式，从所述决策树中确定出最大可能访问的第一URL路径，包括：

从所述决策树的树根开始，基于所述决策树中各节点的访问请求概率，计算得到每条决策路径上的叶节点的访问请求概率；

根据每条决策路径上的叶节点的访问请求概率，确定出最大可能访问的第一URL路径。

其中，所述根据每条决策路径上的叶节点的访问请求概率，确定出最大可能访问的第一URL路径，包括：

根据每条决策路径上的叶节点的访问请求概率和决策路径的总个数，计算得到叶节点的访问请求概率的第一方差值；

将每个叶节点的访问请求概率与所述第一方差值进行比较，将满足第一条件的叶节点对应的URL路径确定为最大可能访问的第一URL路径；其中，所述第一条件为：叶节点的访问请求概率与所述第一方差值之间差值的绝对值小于第一预设阈值。

其中，所述采用资源用量优先决策方式，从所述决策树中确定出资源用量最大的第二URL路径，包括：

在排除所述第一URL路径之后，从所述决策树的第一URL层级开始，获取其他URL路径中各URL路径在所述第一URL层级对应的第三节点下的资源总用量；其中，所述第一URL层级为所述决策树深度最小的叶节点对应的URL层级，所述第三节点下的资源总用量为所述第三节点的资源用量和所述第三节点之后的节点的资源用量之和；

根据其他URL路径中各URL路径在所述第一URL层级对应的第三节点下的资源总用量，确定资源用量最大的第二URL路径。

其中，根据其他URL路径中各URL路径在所述第一URL层级对应的第三节点下的资源总用量，确定资源用量最大的第二URL路径，包括：

根据其他URL路径中每个RL路径在所述第一URL层级对应的第三节点下的资源总用量和所述第三节点的总个数，计算得到第三节点下的资源总用量的第二方差值；

将每个第三节点下的资源总用量与所述第二方差值进行比较，将满足第二条件的第三节点对应的URL路径确定为资源用量最大的第二URL路径，其中，所述第二条件为：第三节点下的资源总用量与所述第二方差值之间差值的绝对值小于第二预设阈值。

本发明还提供一种预测CDN用户的实时用量数据的装置，包括：

获取模块，用于基于第一历史日志文件，获得内容分发网络CDN用户请求的历史的统一资源定位系统URL相关信息；

决策树构建模块，用于根据所述URL相关信息，采用预先剪枝方式构建决策树；其中，所述预先剪枝方式用于控制决策树的生长；

预测模块，用于利用所述决策树，得到CDN用户的实时用量预测数据。

本发明还提供一种预测CDN用户的实时用量数据的设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；所述处理器执行所述程序时实现如上述所述的预测CDN用户的实时用量数据的方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的预测CDN用户的实时用量数据的方法中的步骤。

本发明的上述技术方案至少具有如下有益效果：

本发明实施例中，通过基于第一历史日志文件，获得内容分发网络CDN用户请求的历史的统一资源定位系统URL相关信息；根据所述URL相关信息，采用预先剪枝方式构建决策树；其中，所述预先剪枝方式用于控制决策树的生长；利用所述决策树，得到CDN用户的实时用量预测数据，这样，通过历史数据，利用机器学习中的决策树来预测出当前CDN用户的实时用量数据，能够有效准确地预测出CDN用户的实时用量。

附图说明

图1表示现有CDN日志离线分析示意图；

图2表示现有CDN日志实时数据流向示意图；

图3表示现有CDN日志实时分析方式对应的示意图；

图4表示本发明实施例的预测CDN用户的实时用量数据的方法流程示意图之一；

图5表示本发明实施例展示的访问资源对应的URL路径中的相同路径的示意图；

图6表示本发明实施例的决策树的示意图；

图7表示利用本发明实施例的决策树决策最终路径的示意图；

图8表示本发明实施例的预测CDN用户的实时用量数据的方法流程示意图之二；

图9表示本发明实施例的预测CDN用户的实时用量数据的装置的模块示意图；

图10表示本发明实施例的预测CDN用户的实时用量数据的设备的硬件结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

如图1所示，当前的一种CDN日志分析方案为离线式的从CDN厂商下载用户的用量日志文件，然后导入到现有的Apache hadoop等大数据处理工具中，再在大数据处理工具中对用户的用量进行分析处理，并将分析处理后的日志数据导入mysql等关系型数据库中，最后用户才从关系型数据库中获取相关数据，对于报表等实时性要求不高的场景，以上流程没有太大问题，可以处理海量CDN的日志同时保证数据的准确性，但该方案无法满足用户对实时性要求较高场景的交互查询需求。也就是离线式的日志文件处理无法实时有效的获取用户的实时用量数据。

针对上述问题，如图2所示，一种解决方案是，当前CDN实时日志的分析过程中均是直接对CDN原始的日志记录直接进行不同系统间的传输，由于CDN集群本身较为庞大，同时用户每时每刻产生的日志数据量更加巨大，而直接对用户的日志数据进行传输将极其耗时，且由于该架构中需对CDN集群中的所有节点实时用量数据进行采集并统计分析其中的数据信息，这将给CDN集群中各个节点造成极大的数据处理性能压力。另外，由于不同环境的网络情况也不尽相同，这将进一步加剧实时数据传输过程的延时性，并存在部分节点实时数据丢包的可能，进而影响采集的用户实时数据准确性。

如图3所示，另一种解决方案是，当前的一种CDN实时日志数据采集分析方式是映入物理的电子设备装置直接对CDN节点日志数据进行采集分析，并通过预设的CDN集群流量低峰时间段对融合分析结果进行上传，以便后续的运维分析。该架构中一方面引入了额外的物理电子设备将增加CDN集群成本，另一方面由于该实时数据需在CDN集群错峰时对融合分析结果进行上传，错峰时间段为预设极其不灵活，同时也造成CDN集群高峰时间段将无法获取到用户的实时日志数据，该方式面向客户时将严重影响客户的使用体验。

为了解决上述问题，本发明提供了一种预测CDN用户的实时用量数据的方法，下面参照图4所示的该方法的流程示意图进行具体说明。该方法包括：

步骤401，基于第一历史日志文件，获得内容分发网络CDN用户请求的历史的统一资源定位系统URL相关信息；

这里，第一历史日志文件是前一时间粒度的离线CDN日志文件，比如前一个小时或者前两个小时的离线CDN日志文件。具体的可以从分析型数据库（如Apache Doris）中获取。其中，CDN供应商会将历史日志文件导入到分析型数据库中。需要说明的是，CDN日志文件数据虽然具有延时性的特点，但其数据的准确度、完整度和丰富度极高，通过对CDN日志文件中的数据进行统计分析能够保证样本数据的高准确性和完整性，为后续决策树的构建提供准确有效的数据支持。

本步骤中，通过解析第一历史日志文件，可获取CDN用户请求的历史的统一资源定位系统（Uniform Resource Locator，URL）相关信息。

可选地，所述URL相关信息包括：URL请求次数、URL资源用量和各访问资源对应的URL路径。

步骤402，根据所述URL相关信息，采用预先剪枝方式构建决策树；其中，所述预先剪枝方式用于控制决策树的生长；

需要说明的是，决策树（Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法，由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，它代表的是对象属性与对象值之间的一种映射关系。决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。分类树（决策树）是一种十分常用的分类方法，它是一种监督学习，所谓监督学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类，这样的机器学习就被称之为监督学习。

本步骤中，具体可利用历史的URL相关信息按照URL路径及层级构建决策树，具体的构建过程中参见下述实施例。

步骤403，利用所述决策树，得到CDN用户的实时用量预测数据。

这里，利用构建好的决策树，可以选择出决策路径；并通过选择出的决策路径，得到CDN用户的实时用量预测数据。

本发明实施例的方法，通过历史日志文件来预测出当前CDN用户的实时用量数据情况，既能缓解CDN集群数据处理的性能压力，又能快速有效地实时预测出用量数据，避免了在实时采集CDN集群各个节点的用量数据过程中的丢包问题，并通过长时间的机器学习及算法训练（构建决策树），将进一步提高用户CDN实时用量数据的准确性和实时性。通过本发明实施例的方法，能够利用历史日志文件来预测出CDN的用户行为，避免了直接采集集群节点实时数据过程中的巨大性能消耗。

在一可选地实施例中，上述步骤402，根据所述URL相关信息，采用预先剪枝方式构建决策树，具体可包括：

步骤4021，采用KMP算法对所述各访问资源对应的URL路径进行解析，获得各访问资源对应的URL路径中的相同路径；

参见图5，通过KMP算法，统计出各访问资源对应的URL路径中的相同路径。图中虚线左侧，表示各访问资源对应的URL路径中的相同路径，即都要经过的路径，虚线右侧的URL路径各不相同，从而对应不同的访问资源。

需要说明的是，通过KMP算法，统计出各访问资源对应的URL路径中的相同路径，可获取请求访问的各级URL地址请求情况，无需即时采集，通过统计分析现有数据即可获得，降低了CDN集群节点的数据处理性能压力。

步骤4022，以所述相同路径为决策树的树根开始，按照各访问资源在所述相同路径段之后的URL路径段以及URL层级构建决策树，并在决策树构建过程中，采用预先剪枝方式修剪决策树中部分节点的继续分支，直至得到决策树；其中，所述决策树包括多个节点和多个叶节点，所述节点为URL路径段，所述叶节点为请求的资源数据或者部分的URL路径。

具体的，在决策树构建过程中，采用预先剪枝方式修剪决策树中部分节点的继续分支，可以包括：

1）若决策树生长至第一节点时，获取第二节点的URL资源用量；其中，所述第二节点为所述第一节点的下一个分支节点，所述第一节点为所述多个节点中的一者；

2）根据所述URL请求次数和所述URL资源用量，确定预先剪枝时所使用的指标值；

本步骤2）具体可以包括：

2-1）根据所述URL请求次数，计算得到所述第一节点的访问请求概率和所述第一节点之后的各URL路径段的访问请求概率；

具体的，根据与第一节点在同一URL层级的各URL路径段对应的URL请求次数，计算所述第一节点的访问请求概率；同理，可计算得到第一节点之后的各URL路径段的访问请求概率。

2-2）根据所述URL资源用量，获得所述第一节点的URL资源用量和所述第一节点之后各URL路径段的URL资源用量；

2-3）根据所述第一节点的访问请求概率、所述第一节点的URL资源用量、所述第一节点之后的各URL路径段的访问请求概率以及所述第一节点之后各URL路径段的URL资源用量，计算得到所述第一节点以及所述第一节点之后各URL路径段的所有URL资源的数学期望值；

本步骤可通过下述公式，计算得到第一节点以及所述第一节点之后各URL路径段的所有URL资源的数学期望值：

其中，为第一节点下各URL路径段对应的资源用量中的任一者，即第一节点的URL资源用量、第一节点之后各URL路径段的URL资源用量中的任一者；为对应的访问请求概率。

2-4）将所述数学期望值确定为预先剪枝时所使用的指标值。

3）在所述第二节点的URL资源用量小于所述指标值的情况下，停止所述第一节点之后的所述第二节点的生长，并将所述第一节点确定为叶节点。

也就是，第二节点的URL资源用量小于该指标值时，不再继续分支生长，本节点（即第一节点）为叶节点。该叶节点的资源用量即为该叶节点下所有URL路径对应的具体资源用量之和。以图6为例，图6为本发明实施例的决策树的示意图；图中的资源用量大小从资源1到资源15依次为1KB到15KB，分别计算出对应决策树节点的用量数据。

在一可选地的实施例中，上述步骤403，利用所述决策树，得到CDN用户的实时用量预测数据，可以具体包括：

步骤4031，采用目标决策方式，从所述决策树中确定最终决策路径；其中，所述目标决策方式包括概率优先决策方式和/或资源用量优先决策方式；

需要说明的是，决策树的决策方式分为概率优先决策方式和资源用量优先决策方式两种。概率优先决策方式用于决策出最大可能访问的URL路径；资源用量优先决策方式用于决策出不包含最大可能访问的URL路径的最大资源用量的URL路径。

步骤4032，获取访问一次所述最终决策路径的资源用量；

步骤4033，根据所述最终决策路径的资源用量和所述URL请求次数，计算得到CDN用户的实时用量预测数据。

需要说明的是，最终决策路径为一条或者多条。最终决策路径为一条URL路径时，将该URL路径的资源用量和对应该URL的URL请求次数进行乘积运算，得到CDN用户的实时用量预测数据。

最终决策路径为多条URL路径时，分别将每条URL路径的资源用量与对应的URL请求次数进行乘积后，经得到的计算结果累加，得到CDN用户的实时用量预测数据。

需要说明的是，目标决策方式可以是概率优先决策方式，或者是资源用量优先决策方式，或者是概率优先决策方式和资源用量优先决策方式的组合。具体的，可根据用户的域名业务情况及历史用量数据分布情况使用单一的决策方式，以便获得更加准确的预测用量数据。

可选地，所述目标决策方式包括概率优先决策方式和资源用量优先决策方式；相应地，步骤4031，采用目标决策方式，从所述决策树中确定最终决策路径，具体可包括：

1、采用概率优先决策方式，从所述决策树中确定出最大可能访问的第一URL路径；

该步骤具体可包括：

（1）从所述决策树的树根开始，基于所述决策树中各节点的访问请求概率，计算得到每条决策路径上的叶节点的访问请求概率；

参见图7，从决策树的树根开始，根据次级URL（仅跟树根之后的URL层级对应的URL路径段，是决策树上的一个节点）的访问请求概率（图7所示的路径上标注着访问请求概率，如从域名根URL到次级URL1的访问请求概率为0.6）决定决策路径；三级URL的决策由次级URL的概率和三级URL概率乘积（比如，如图7所示，次级URL1的概率和三级URL2的概率的乘积为0.54）决策，以此类推分别统计出叶节点的请求概率。

（2）根据每条决策路径上的叶节点的访问请求概率，确定出最大可能访问的第一URL路径。

这里，步骤（2）可以具体包括：

a1）根据每条决策路径上的叶节点的访问请求概率和决策路径的总个数，计算得到叶节点的访问请求概率的第一方差值；

具体的，叶节点的访问请求概率的第一方差值，可以通过下述公式计算得到：

其中，表示决策树叶节点被访问请求概率的平均值，表示决策路径的总个数，即叶节点的总个数，表示具体叶节点n的访问请求概率。

a2）将每个叶节点的访问请求概率与所述第一方差值进行比较，将满足第一条件的叶节点对应的URL路径确定为最大可能访问的第一URL路径；其中，所述第一条件为：叶节点的访问请求概率与所述第一方差值之间差值的绝对值小于第一预设阈值。

也就是，通过将每个叶节点的访问请求概率与所述第一方差值进行比较，将访问请求概率与第一方差值比较接近的叶节点对应的URL路径，确定为最大可能访问的第一URL路径。即利用叶节点概率的离散程度（即叶节点的访问请求概率的第一方差值）决定第一URL路径（可存在多条路径）。

2、采用资源用量优先决策方式，从所述决策树中确定出资源用量最大的第二URL路径；

该步骤可以具体包括：

b1）在排除所述第一URL路径之后，从所述决策树的第一URL层级开始，获取其他URL路径中各URL路径在所述第一URL层级对应的第三节点下的资源总用量；其中，所述第一URL层级为所述决策树深度最小的叶节点对应的URL层级，所述第三节点下的资源总用量为所述第三节点的资源用量和所述第三节点之后的节点的资源用量之和；

应理解，决策树深度指的是构成决策树的URL路径的URL层级，层级越少，说明决策树深度越小。

也就是说，由策树深度最小的叶节点决定用量统计的URL层级，同时决策过程中排除概率优先决策出的URL路径资源用量，如图7中三级URL2节点的用量数据将不统计四级URL1节点对应的用量数据，以避免两种决策方式决策出相同资源数据，进而导致决策均偏向同种决策维度，造成最终预测数据不准确。

该步骤b1）具体实现过程的一个示例如下：

根据叶节点的资源用量大小（比如，如图7所示，第一条路径的叶节点的请求概率为0.0144，资源1的资源用量大小为1KB，则第一条路径的叶节点的资源用量大小为0.0144），分别计算出不同URL路径的资源用量数据，再根据决策树深度最小的叶节点决定资源用量决策的URL层级（需要说明的是，资源作为根节点，也算一个层级），即图7中，资源用量决策的URL层级为决策树的三级URL层级，分别累计四级URL中非概率决策路径的用量数据，再累计三级URL节点下的四级URL的用量，得到三级URL节点用量（比如，如图7所示，三级URL3的节点用量为资源9-资源12所在路径的叶节点的资源用量之和：2.4094）。

b2）根据其他URL路径中各URL路径在所述第一URL层级对应的第三节点下的资源总用量，确定资源用量最大的第二URL路径。

该步骤b2）可以具体包括：

①根据其他URL路径中每个RL路径在所述第一URL层级对应的第三节点下的资源总用量和所述第三节点的总个数，计算得到第三节点下的资源总用量的第二方差值；

该第二方差值的计算原理同上述步骤（2）中的a1），即通过第三节点下的资源总用量的平均值、第三节点的总个数以及具体的第三节点m的资源总用量，计算得到第三节点下的资源总用量的第二方差值。

②将每个第三节点下的资源总用量与所述第二方差值进行比较，将满足第二条件的第三节点对应的URL路径确定为资源用量最大的第二URL路径，其中，所述第二条件为：第三节点下的资源总用量与所述第二方差值之间差值的绝对值小于第二预设阈值。

也就是，通过将每个第三节点下的资源总用量与第二方差值进行比较，将资源总用量与第二方差值比较接近的第三节点对应的URL路径，确定为资源用量最大的第二URL路径。即利用第三节点下的资源总用量的离散程度（即第三节点下的资源总用量的第二方差值）决定第二URL路径。

3、将所述第一URL路径和所述第二URL路径确定为最终决策路径。

在一可选地实施例中，本发明实施例的方法还可包括：

I）基于第二历史日志文件，按照实时用量数据进行聚合处理，得到聚合结果，所述第二历史日志文件对应的时间晚于所述第一历史日志文件对应的时间；

II）根据所述聚合结果，对所述CDN用户的实时用量预测数据进行校正，得到校正后的实时用量预测数据。

该实施例是利用第二历史日志文件对实时用量预测数据做校正，其中，可以从分析型数据库如Apache Doris中获取第二历史日志文件，具体的，CDN厂商直接将未做任何处理的用户原始用量日志数据以文件形式上传至分布式文件系统HDFS文件服务中，使用开源Apache Doris的Spark load 数据到导入方式直接从HDFS文件服务器中将原始数据导入到Doris中。

这里，第二历史日志文件对应的时间晚于第一历史日志文件对应的时间，应理解，第二历史日志文件的数据滞后于第一历史日志文件，其中包括实时用量预测数据对应的真实的用量数据。具体的，该真实的用量数据可利用Apache Doris联机分析处理能力对第二历史日志文件进行统计分析得到。也就是，利用Apache Doris联机分析处理能力对第二历史日志文件进行统计分析可快速对原始数据按照实时用量数据所统计的维度进行再聚合处理，并将该聚合结果与CDN用户的实时用量预测数据进行校正（可以是将实时用量预测数据替换为聚合结果，即真实的用量数据替换），以提高实时预测数据的准确性。

下面参见图8说明本发明方法的具体实现流程。

步骤1，将CDN供应商提供的域名延时日志数据（历史日志文件）导入Apache Doris中，统计分析日志数据中用户请求的URL相关数据，收集用户历史的URL请求次数、URL资源用量以及URL具体的资源路径，并计算出各个路径段的访问请求概率以及具体URL对应资源的请求概率。

上述数据将为后续的决策树构建提供完整准确的数据支持。

步骤2，CDN域名URL路径决策树构建，将从历史日志文件中统计分析得到用户访问URL数据构造成决策树，决策树的各个节点为用户真实访问请求URL中的路径，在决策树的构建过程中采用预先剪枝的方式控制决策树的生长，预先剪枝设定的指标数值为本节点下所有对应URL资源的数学期望，当下一分支节点所对应的资源用量小于该指标数值时，下一节点不生长，本节点即为该分支路径的叶节点。

步骤3，对构建的决策树采用概率优先决策和资源用量优先决策两种方式组合进行预测用量的决策。

根据概率优先决策出的最大可能访问的URL路径，并将一次访问该URL产生的用量数据作为基数，将基数与前一时间粒度访问次数的乘积作为概率优先决策的预测用量数据。概率优先决策过程中可根据叶节点的资源概率离散程度决定是否同时保留多条URL路径。

资源用量优先决策方式为统计各个叶节点资源用量数据，由决策树深度最小的叶节点决定用量统计的URL层级，同时决策过程中排除概率优先决策出的URL路径资源用量，之后，从决定的URL层级获取各URL路径（这里排除掉概率优先决策出的URL路径）在该URL层级对应的节点下的资源总用量；之后，确定资源用量最大的URL路径；并将一次访问该URL路径的用量数据作为基数，将基数与前一时间粒度访问次数的乘积作为资源用量优先决策的预测用量数据。

两种决策方式获得的预测用量数据累计则为该URL决策树决策出的用户实时的用量预测数据。

步骤4，实时用量预测数据校正，将CND供应商延时上传的CDN日志文件数据导入Apache Doris中，利用Apache Doris联机分析处理能力对延时数据进行统计分析，并将分析结果用于对实时预测数据的校验修正，以提高实时预测数据的准确性。

如图9所示，本发明实施例还提供一种预测CDN用户的实时用量数据的装置，该装置可包括：

获取模块901，用于基于第一历史日志文件，获得内容分发网络CDN用户请求的历史的统一资源定位系统URL相关信息；

决策树构建模块902，用于根据所述URL相关信息，采用预先剪枝方式构建决策树；其中，所述预先剪枝方式用于控制决策树的生长；

预测模块903，用于利用所述决策树，得到CDN用户的实时用量预测数据。

可选地，所述URL相关信息包括：URL请求次数、URL资源用量和各访问资源对应的URL路径；所述决策树构建模块902，可以包括：

解析单元，用于采用KMP算法对所述各访问资源对应的URL路径进行解析，获得各访问资源对应的URL路径中的相同路径；

决策树构建单元，用于以所述相同路径为决策树的树根开始，按照各访问资源在所述相同路径段之后的URL路径段以及URL层级构建决策树，并在决策树构建过程中，采用预先剪枝方式修剪决策树中部分节点的继续分支，直至得到决策树；

可选地，决策树构建单元具体用于：

将所述数学期望值确定为预先剪枝时所使用的指标值。

可选地，预测模块903可以包括：

处理单元，用于采用目标决策方式，从所述决策树中确定最终决策路径；其中，所述目标决策方式包括概率优先决策方式和/或资源用量优先决策方式；

获取单元，用于获取访问一次所述最终决策路径的资源用量；

预测单元，用于根据所述最终决策路径的资源用量和所述URL请求次数，计算得到CDN用户的实时用量预测数据。

可选地，所述目标决策方式包括概率优先决策方式和资源用量优先决策方式；处理单元具体用于：

将所述第一URL路径和所述第二URL路径确定为最终决策路径。

可选地，处理单元具体用于：

可选地，本发明实施例的装置还包括：

处理模块，用于基于第二历史日志文件，按照实时用量数据进行聚合处理，得到聚合结果，所述第二历史日志文件对应的时间晚于所述第一历史日志文件对应的时间；

校正模块，用于根据所述聚合结果，对所述CDN用户的实时用量预测数据进行校正，得到校正后的实时用量预测数据。

本发明实施例的预测CDN用户的实时用量数据的装置，通过基于第一历史日志文件，获得内容分发网络CDN用户请求的历史的统一资源定位系统URL相关信息；根据所述URL相关信息，采用预先剪枝方式构建决策树；其中，所述预先剪枝方式用于控制决策树的生长；利用所述决策树，得到CDN用户的实时用量预测数据，这样，通过历史数据，利用机器学习中的决策树来预测出当前CDN用户的实时用量数据，能够有效准确地预测出CDN用户的实时用量。

为了更好的实现上述目的，如图10所示，本发明实施例还提供一种预测CDN用户的实时用量数据的设备，包括处理器1000和收发器1010，所述收发器1010在处理器1000的控制下接收和发送数据，所述处理器1000用于执行如下过程：

利用所述决策树，得到CDN用户的实时用量预测数据。

可选地，所述URL相关信息包括：URL请求次数、URL资源用量和各访问资源对应的URL路径；处理器1000还用于：

可选地，处理器1000还用于：

将所述数学期望值确定为预先剪枝时所使用的指标值。

可选地，处理器1000还用于：

获取访问一次所述最终决策路径的资源用量；

可选地，所述目标决策方式包括概率优先决策方式和资源用量优先决策方式；处理器1000还用于：

将所述第一URL路径和所述第二URL路径确定为最终决策路径。

可选地，处理器1000还用于：

基于第二历史日志文件，按照实时用量数据进行聚合处理，得到聚合结果，所述第二历史日志文件对应的时间晚于所述第一历史日志文件对应的时间；

根据所述聚合结果，对所述CDN用户的实时用量预测数据进行校正，得到校正后的实时用量预测数据。

本发明实施例的预测CDN用户的实时用量数据的设备，通过基于第一历史日志文件，获得内容分发网络CDN用户请求的历史的统一资源定位系统URL相关信息；根据所述URL相关信息，采用预先剪枝方式构建决策树；其中，所述预先剪枝方式用于控制决策树的生长；利用所述决策树，得到CDN用户的实时用量预测数据，这样，通过历史数据，利用机器学习中的决策树来预测出当前CDN用户的实时用量数据，能够有效准确地预测出CDN用户的实时用量。

本发明实施例还提供一种预测CDN用户的实时用量数据的设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的预测CDN用户的实时用量数据的方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的预测CDN用户的实时用量数据的方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器（Read-Only Memory，简称ROM）、随机存取存储器（Random AccessMemory，简称RAM）、磁碟或者光盘等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储介质中，使得存储在该计算机可读存储介质中的指令产生包括指令装置的纸制品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他科编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种预测CDN用户的实时用量数据的方法，其特征在于，包括：

利用所述决策树，得到CDN用户的实时用量预测数据；

所述URL相关信息包括：URL请求次数、URL资源用量和各访问资源对应的URL路径；

其中，所述决策树包括多个节点和多个叶节点，所述节点为URL路径段，所述叶节点为请求的资源数据或者部分的URL路径；

所述利用所述决策树，得到CDN用户的实时用量预测数据，包括：

获取访问一次所述最终决策路径的资源用量；

2.根据权利要求1所述的方法，其特征在于，采用预先剪枝方式修剪决策树中部分节点的继续分支，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述URL请求次数和所述URL资源用量，确定预先剪枝时所使用的指标值，包括：

将所述数学期望值确定为预先剪枝时所使用的指标值。

4.根据权利要求1所述的方法，其特征在于，所述目标决策方式包括概率优先决策方式和资源用量优先决策方式；

将所述第一URL路径和所述第二URL路径确定为最终决策路径。

5.根据权利要求4所述的方法，其特征在于，所述采用概率优先决策方式，从所述决策树中确定出最大可能访问的第一URL路径，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据每条决策路径上的叶节点的访问请求概率，确定出最大可能访问的第一URL路径，包括：

7.根据权利要求4所述的方法，其特征在于，所述采用资源用量优先决策方式，从所述决策树中确定出资源用量最大的第二URL路径，包括：

8.根据权利要求7所述的方法，其特征在于，根据其他URL路径中各URL路径在所述第一URL层级对应的第三节点下的资源总用量，确定资源用量最大的第二URL路径，包括：

9.一种预测CDN用户的实时用量数据的装置，其特征在于，包括：

预测模块，用于利用所述决策树，得到CDN用户的实时用量预测数据；

所述URL相关信息包括：URL请求次数、URL资源用量和各访问资源对应的URL路径；所述决策树构建模块包括：

所述预测模块包括：

10.一种预测CDN用户的实时用量数据的设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述的预测CDN用户的实时用量数据的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8任一项所述的预测CDN用户的实时用量数据的方法中的步骤。