CN113572627B

CN113572627B - 一种数据处理方法和数据处理装置

Info

Publication number: CN113572627B
Application number: CN202010351214.9A
Authority: CN
Inventors: 史久泰
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2022-09-02
Anticipated expiration: 2040-04-28
Also published as: US20230064755A1; CN113572627A; WO2021218531A1

Abstract

本申请实施例公开了一种数据处理方法和数据处理装置，用于提高处理网络数据的性能。本申请实施例数据处理装置用于在预定网络环境中对采集到的网络数据进行处理，本申请实施例该数据处理装置执行的方法包括：获取第一预测信息，数据处理装置用于在预定网络环境中对采集到的网络数据进行处理，第一预测信息包括第一时段内所需处理数据量的预测值，第一时段以第一时刻为起始点；根据第一预测信息从数据处理模型集合中选择第一数据处理模型，数据处理模型集合包括第二数据处理模型和第一数据处理模型；在第一时刻到达后，接收采集到的第一网络数据；在第一时段内利用第一数据处理模型对第一网络数据进行处理。

Description

一种数据处理方法和数据处理装置

技术领域

本申请涉及通信技术领域，进一步涉及人工智能(Artificial Intelligence，AI)技术在通信技术领域中的应用,尤其涉及一种数据处理方法和数据处理装置。

背景技术

数据处理是指数据处理装置对输入数据处理装置的数据进行分析、加工、变换的技术过程，该过程包括对输入的各种原始数据的分析、整理、计算、编辑等的加工和处理。数据处理的目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的信息。

随着互联网技术的飞速发展，网络数据处理成为了数据处理的一个典型应用场景。网络数据包括但不限于大量接入互联网的设备产生的流量数据、以及安全防护设备(如防火墙、安全网关等)产生的日志数据。数据处理装置通过对网络数据进行处理，而实现以业务感知、流量分类、和应用识别为例的一种或多种功能。

当前一种应用广泛的网络数据处理方案的工作原理如下：数据处理装置接收从网络环境中采集的网络数据；数据处理装置利用数据处理模型对接收到的网络数据进行处理并输出处理结果，其中数据处理模型为通过机器学习方法训练得到的模型。数据处理装置作为一个独立工作、销售、制造的计算设备，其自身具有的处理资源被称为内部资源。数据处理装置除了上述内部资源之外，还往往具有外部连接的可借用资源。可借用资源例如是可借用内存或处理器。当数据处理装置的内部资源不足时，能够申请获得全部或部分可借用资源，并利用内部资源和申请到的可借用资源对接收到的网络数据进行处理，从而满足吞吐量的需求。

但是，针对数据处理装置未设置可借用资源的场景，或者，针对可借用资源相对于待处理的网络数据不充足的场景，现有技术缺少可满足吞吐量需求的解决方案。

发明内容

本申请实施例提供了一种数据处理方法和数据处理装置，用于利于提高处理网络数据的性能。

第一方面，本申请实施例提供了一种数据处理方法。该方法由数据处理装置执行，所述数据处理装置用于在预定网络环境中对采集到的网络数据进行处理。该方法包括如下步骤。数据处理装置获取第一预测信息。所述第一预测信息包括第一时段内所需处理数据量的预测值，所述第一时段以第一时刻为起始点。所述数据处理装置根据所述第一预测信息从数据处理模型集合中选择第一数据处理模型。所述数据处理模型集合包括第二数据处理模型和所述第一数据处理模型。所述第一数据处理模型的准确度高于所述第二数据处理模型的准确度，并且所述第一数据处理模型的吞吐量低于所述第二数据处理模型的吞吐量。或者，所述第一数据处理模型的准确度低于所述第二数据处理模型的准确度，并且所述第一数据处理模型的吞吐量高于所述第二数据处理模型的吞吐量。所述数据处理装置在所述第一时刻到达后，接收采集到的第一网络数据。所述数据处理装置在所述第一时段内利用所述第一数据处理模型对所述第一网络数据进行处理。

虽然数据处理装置在不同时段内接收到的数据量不是固定的，但是本申请实施例中，数据处理装置可以获取第一时段内所需处理数据量的预测值。数据处理装置根据该预测值有利于从数据处理模型集合中选择到处理第一网络数据的最优数据处理模型。数据处理装置在第一时段内利用第一数据处理模型对第一网络数据进行处理，有利于提高处理第一网络数据的性能。

在第一方面的一种可能的实现方式中，所述数据处理装置采用以下方式选择第一数据处理模型。所述数据处理装置根据所述第一预测信息确定所述第一数据处理模型的第一资源占用量，以此类推从而确定所述数据处理模型集合中每个数据处理模型的第一资源占用量。其中，所述第一数据处理模型的第一资源占用量为所述数据处理装置利用所述第一数据处理模型执行第一过程所需占用第一资源量的预测值。所述第一过程为处理所述第一时段内所需处理数据量的过程。所述数据处理装置根据资源可用量和所述数据处理模型集合中每个数据处理模型的第一资源占用量从所述数据处理模型集合中选择所述第一数据处理模型，所述资源可用量为所述第一时段内可用的所述第一资源量。

数据处理模型的第一资源占用量能够体现该数据处理模型的吞吐量和精确度。在该可能的实现方式中，数据处理装置根据资源可用量和所述数据处理模型集合中每个数据处理模型的第一资源占用量从所述数据处理模型集合中选择所述第一数据处理模型，有利于选择到最优数据处理模型，进而提高处理第一网络数据的性能。

在第一方面的一种可能的实现方式中，所述数据处理装置采用以下方式确定所述第一数据处理模型的第一资源占用量。所述数据处理装置将所述第一预测信息输入预测模型，得到所述第一数据处理模型的第一资源占用量。所述预测模型用于预测所述数据处理装置利用所述第一数据处理模型执行单个过程所需占用的所述第一资源量。所述单个过程为处理一个时段内所需处理数据量的过程。所述预测模型是根据历史样本集训练得到的。所述历史样本集包括第一样本。所述第一样本包括第二时段内所需处理数据量的实际值。所述第一样本的标签为所述数据处理装置根据所述第一数据处理模型执行第二过程占用所述第一资源量的实际值。所述第二过程为处理所述第二时段内所需处理数据量的过程，所述第二时段在所述第一时段之前。

在该可能的实现方式中，数据处理装置采用机器学习方法确定所述第一数据处理模型的第一资源占用量，有利于提高第一资源占用量的准确性，进而有利于选择到最优数据处理模型，提高处理第一网络数据的性能。

在第一方面的一种可能的实现方式中，在所述数据处理装置在所述第一时段内利用所述第一数据处理模型对所述第一网络数据进行处理之后，数据处理装置还执行如下方法。所述数据处理装置获取第一实际信息和第二资源占用量。所述第一实际信息包括所述第一时段内已处理数据量的实际值。所述第二资源占用量为所述数据处理装置利用所述第一数据处理模型执行所述第一过程所占用所述第一资源量的实际值。所述数据处理装置根据所述第一实际信息和所述第二资源占用量对所述预测模型进行训练。

该可能的实现方式中，数据处理装置能够不断增加或更新预测模型的历史样本集，从而提升预测模型的预测效果，使得预测模型的预测结果进一步接近实际结果。所述数据处理装置根据资源可用量和预测模型的预测结果从所述数据处理模型集合中选择所述第一数据处理模型，有利于选择到最优数据处理模型，进而提高处理第一网络数据的性能。

在第一方面的一种可能的实现方式中，所述数据处理装置采用以下方式确定所述第一数据处理模型的第一资源占用量。所述数据处理装置根据所述第一预测信息、第二实际信息、第三资源占用量、所述第一数据处理模型的性能参数和已使用数据处理模型的性能参数，确定所述第一数据处理模型的第一资源占用量。所述已使用数据处理模型是所述第一数据处理模型，或者，所述已使用数据处理模型是所述第二数据处理模型，或者，所述已使用数据处理模型是所述数据处理模型集合中所述第一数据处理模型和所述第二数据处理模型以外的一个数据处理模型。所述第二实际信息包括第三时段内已处理数据量的实际值。所述第三资源占用量为所述数据处理装置利用所述已使用数据处理模型执行第三过程所占用所述第一资源量的实际值。所述第三过程为处理所述第三时段内所需处理数据量的过程。所述第三时段在所述第一时段之前。所述第一数据处理模型的性能参数用于表示所述第一数据处理模型的准确度。所述第一数据处理模型的性能参数与所述第二数据处理模型的性能参数不同。

该可能的实现方式提供一种不依赖预测模型的方法。数据处理装置可以节约训练预测模型所需的资源。并且，数据处理装置可以预测第一数据处理模型在更多时段占用的第一资源量。数据处理装置针对更多时段执行本申请实施例方法，有利于在处理网络数据的过程中维持较高性能。

在第一方面的一种可能的实现方式中，所述数据处理装置采用以下方式在所述第一时段内利用所述第一数据处理模型对所述第一网络数据进行处理。所述数据处理装置在所述第一时段内按照所述第一数据处理模型的特征提取规则从所述第一网络数据中提取第一特征集合中各个特征的特征值。所述第一特征集合中特征的数目与第二特征集合中特征的数目不同，所述第一特征集合和所述第二特征集合分别对应于所述第一数据处理模型和所述第二数据处理模型。所述数据处理装置在所述第一时段内将从所述第一网络数据中提取的特征值输入所述第一数据处理模型，从而实现利用所述第一数据处理模型对所述第一网络数据进行处理。

该可能的实现方式中，数据处理装置可以按照数据处理模型的特征提取规则和特征集合中特征来提取网络数据中的特征值。这样，数据处理模型集合可以包括特征提取规则和特征集合不同的数据处理模型，有利于将更多数据处理模型加入数据处理模型集合，从而有利于选择处理第一网络数据更优的数据处理模型。

在第一方面的一种可能的实现方式中，所述第一数据处理模型的性能参数是第一特征集合中特征的数目。

以第一数据处理模型和第二数据处理模型为例。若第一特征集合中特征的数目大于第二特征集合中特征的数目，那么第一数据处理模型的准确度高于第二数据处理模型的准确度，第一数据处理模型的吞吐量低于第二数据处理模型的吞吐量。反之，若第一特征集合中特征的数目小于第二特征集合中特征的数目，那么第一数据处理模型的准确度低于第二数据处理模型的准确度，第一数据处理模型的吞吐量高于第二数据处理模型的吞吐量。该可能的实现方式以数据处理模型对应的特征集合中特征的数目作为该数据处理模型的性能参数，使得性能参数可以同时体现数据处理模型的吞吐量和准确度。数据处理装置确定第一数据处理模型第一资源占用量的依据包括第一数据处理模型的性能参数和已使用数据处理模型的性能参数，有利于提高第一数据处理模型第一资源占用量的准确性。

第一差异为所述第一数据处理模型的第一资源占用量与所述资源可用量之间的差异，第二差异为所述第二数据处理模型的第一资源占用量与所述资源可用量之间的差异。在第一方面的一种可能的实现方式中，第一差异小于第二差异。

该可能的实现方式中，第一差异小于第二差异，有利于使得数据处理装置在满足完成度需求的情况下，提高处理第一网络数据的准确度。

在第一方面的一种可能的实现方式中，所述第一资源量为所述数据处理装置处理接收的网络数据所耗费的时间长度。

数据处理装置利用数据处理模型处理网络数据所耗费的时间长度可以体现该数据处理模型的吞吐量和准确度。在该实现方式中，数据处理装置可以实现根据资源可用量、各数据处理模型的吞吐量和准确度选择最优数据处理模型，从而提高利用所选数据处理模型处理网络数据的性能。

在第一方面的一种可能的实现方式中，所述预定网络环境包括网络数据的发送装置和所述数据处理装置。所述发送装置包括一个或多个数据源设备，所述采集到的网络数据包括所述一个或多个数据源设备产生的网络数据。或者，所述发送装置为具有数据采集功能的报文转发设备，所述采集到的网络数据包括所述报文转发设备采集到的网络数据。所述数据处理装置为一个计算机、或一个计算机集群、或所述计算机集群中的一个计算机。所述计算机集群用于以负载均衡的方式处理所述采集到的网络数据。

该可能的实现方式提供了多种预定网络环境，有利于增大本申请数据处理方法的应用范围。

在第一方面的一种可能的实现方式中，所述第一预测信息还包括第一时段内可用第二资源量的预测值。

数据处理模型的吞吐量与数据处理装置的可用资源量(称作第二资源量)有关。该可能的实现方式将第一时段内可用第二资源量的预测值加入第一预测信息，有利于使得数据处理装置选择到最优数据处理模型。

在第一方面的一种可能的实现方式中，所述第二资源量包括硬件资源量和网络资源量中的至少一种。

硬件资源量和网络资源量是容易测量和预测的。在该可能的实现方式中第二资源量包括硬件资源量和网络资源量中的至少一种，有利于提高第一预测信息的准确性，进而有利于使得数据处理装置选择到最优数据处理模型。

第二方面，本申请实施例提供了一种数据处理装置。该数据处理装置包括网络接口、存储器和与所述存储器连接的处理器；所述存储器用于存储指令；所述处理器用于执行所述指令，以使所述数据处理装置执行上述第一方面或上述第一方面的任意一种可能的实现方式中的方法，具体参见上面的详细描述，此处不再赘述。

第三方面，提供了一种处理装置，该装置具有实现上述第一方面所述方法或上述第一方面的任意一种可能的实现方式的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

第四方面，本申请实施例提供了一种计算机存储介质，用于储存为上述数据处理装置所用的计算机软件指令，其包含用于执行上述第一方面或上述第一方面的任意一种可能的实现方式所设计的程序。

第五方面，本申请的又一方面提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

第六方面，本申请实施例提供了一种芯片，包括存储器和处理器，存储器用于存储计算机指令，处理器用于从存储器中调用并运行该计算机指令，以执行上述第一方面及其上述第一方面任意一种可能的实现方式中的方法。

第七方面，本申请实施例还提供了一种数据处理系统，该数据处理系统包括网络数据的发送装置和第二方面及其上述第二方面任意一种可能的实现方式中的数据处理装置。所述发送装置包括一个或多个数据源设备，所述采集到的网络数据包括所述一个或多个数据源设备产生的网络数据。或者，所述发送装置为具有数据采集功能的报文转发设备，所述采集到的网络数据包括所述报文转发设备采集到的网络数据。所述数据处理装置为一个计算机、或一个计算机集群、或所述计算机集群中的一个计算机，所述计算机集群用于以负载均衡的方式处理所述采集到的网络数据。

其中，第二方面、第三方面、第四方面、第五方面、第六方面以及第七方面或者其中任一种可能实现方式所带来的技术效果可参见上述第一方面或上述第一方面中不同的可能实现方式所带来的技术效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作一简单地介绍。显而易见地，下面描述中的附图是本申请的一些实施例。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本申请实施例适用的一种网络环境的示意图；

图1B是本申请实施例适用的另一种网络环境的示意图；

图2A是本申请实施例数据处理装置的一个结构示意图；

图2B是本申请实施例数据处理装置的一个功能框图；

图3是本申请实施例数据处理方法的原理流程图；

图4是本申请实施例数据处理方法的另一个实施例示意图；

图5是本申请实施例数据处理方法的另一个实施例示意图；

图6是本申请实施例处理装置的一个结构示意图。

具体实施方式

在单个时段内，数据处理装置接收从网络环境中采集的网络数据，并利用数据处理模型对该网络数据进行处理并输出处理结果。一般根据数据处理装置处理该网络数据的准确度和完成度来评价数据处理装置处理该网络数据的性能。其中，完成度是指在实际处理数据量占所需处理数据量的比例，准确度是指正确处理数据量占实际处理数据量的比例。

经分析发现如下结论：数据处理装置处理该网络数据的准确度由数据处理装置处理网络数据时所使用的数据处理模型的准确度决定，数据处理装置处理该网络数据的完成度由该数据处理模型的吞吐量和该网络数据对应的数据量决定。其中，吞吐量是指在单个时段内能够处理的最大数据量。

基于上述结论，本申请实施例提供一种数据处理方法和数据处理装置，以提高数据处理装置处理该网络数据的性能。下面简要介绍本申请实施例的设计思路。

数据处理装置中预先设置至少两个数据处理模型，其中至少两个数据处理模型在准确度和吞吐量方面存在差异。数据处理装置预测未来某个时段的数据量，并根据该数据量从该至少两个数据处理模型中选择一个数据处理模型。数据处理装置在该时段接收网络数据，并利用选择的数据处理模型处理接收到的网络数据，而实现以业务感知、流量分类、和应用识别为例的一种或多种功能。

下面结合附图，对本申请实施例进行具体介绍。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。

本申请实施例中，数据处理装置接收的网络数据来自预定网络环境。为了便于理解本申请的应用场景，下面首先以两个具体网络环境为例对本申请实施例的应用背景进行介绍。需要说明的是本申请实施例提供的数据处理方法也同样适用于其他可能的网络环境。本申请实施例中列举的网络环境包括数据处理装置和网络数据的发送装置。本申请实施例提供的数据处理方法应用的网络环境包括但不限于以下场景一和场景二。

场景一

该数据处理装置为一个通用的计算机设备。可选地，该计算机设备为一个服务器，或者为一个或多个虚拟机，或者为计算机集群，或者为计算机集群中的其中一台计算机。当该计算机设备为计算机集群时，该计算机集群以负载均衡的方式处理接收到的网络数据。

图1A是本申请预定网络环境的一个示意图。图1A以预定网络环境中的数据处理装置为一个计算机设备(或者计算机集群、或者计算机集群中的一个计算机)，发送装置为报文转发设备。该报文转发设备具有数据采集功能，该报文转发设备例如是防火墙、路由器、或安全网关。该报文转发设备以直路的方式接入用户设备和互联网服务器之间的报文传输路径中，并向数据处理装置发送流经所述报文转发设备的网络数据。例如，报文转发设备缓存流经所述报文转发设备的网络数据，向数据处理装置发送缓存的数据。或者，例如，报文转发设备以端口镜像的方式向数据处理装置发送流经所述报文转发设备的网络数据。图1A以数据处理装置为一个计算机集群、或者计算机集群中的一个计算机为例进行举例说明。可替代地，数据处理装置为一个独立的计算机设备。

参阅图1A，该预定网络环境包括通过有线或无线方式连接的用户设备1011a、用户设备1012a、用户设备1013a、交换机102a、防火墙103a、互联网104a以及计算机集群105a。图1A以预定网络环境包括用户设备1011a、用户设备1012a和用户设备1013a为例。可选的，在实际应用中，预定网络环境包括更多或更少的用户设备。用户设备1011a、用户设备1012a和用户设备1013a分别与交换机102a相连接。交换机102a用于支持用户设备1011a、用户设备1012a、用户设备1013a与互联网104a交互网络数据。防火墙103a设置在交换机102a和互联网104a之间，以保障网络数据安全性。设置在防火墙103a中的数据采集模块(图1A中未示出)用于采集流经防火墙103a的网络数据，并将采集到的网络数据发送给计算机集群105a。图1A以计算机集群105a包括服务器1051a、服务器1052a、服务器1053a和服务器1054a为例。可选的，在实际应用中，计算机集群105a包括更多或更少的服务器。可选的，服务器1051a为负载均衡服务器，以使服务器1052a、服务器1053a和服务器1054a负载均衡的处理接收到的网络数据。

场景二

该数据处理装置为云服务器。可选地，该云服务器是一个通用的计算机设备。可选地，该计算机设备为一个服务器，或者为一个或多个虚拟机，或者为计算机集群，或者为计算机集群中的其中一台计算机。当该计算机设备为计算机集群时，该计算机集群以负载均衡的方式处理接收到的网络数据。

图1B是本申请预定网络环境的另一个示意图。图1B以预定网络环境中的数据处理装置为云服务器，发送装置为数据源设备或者具有数据采集功能的报文转发设备。该云服务器为互联网用户提供处理网络数据的服务。该数据源设备用于产生网络数据，该数据源设备例如是网站服务器。该数据源设备向该云服务器发送产生的网络数据，请求该云服务器对该网络数据进行处理。图1B以数据处理装置为云服务器为例进行举例说明。

参阅图1B，该预定网络环境包括网站服务器1011b、网站服务器1012b、网站服务器1013b和云服务器102b。图1B以预定网络环境包括三个网站服务器为例。可选的，在实际应用中，预定网络环境包括更多或更少的网站服务器。网站服务器1011b、网站服务器1012b和网站服务器1013b分别与云服务器102b相连接。网站服务器1011b、网站服务器1012b和网站服务器1013b用于产生网络数据，并通过网站用户接口(Website User Interface，Web UI)方式向云服务器102b发送产生的网络数据，以请求云服务器102b提供服务。云服务器102b对接收到的网络数据进行处理，并将处理结果通过WebUI、邮件等方式反馈给提交网络数据的网站服务器，从而向网站服务器1011b、网站服务器1012b和网站服务器1013b提供服务。图1B以云服务器102b包括虚拟机1021b、虚拟机1022b和虚拟机1023b为例。可选的，在实际应用中，云服务器102b包括更多或更少的虚拟机。

图1A和图1B示例性介绍了本申请实施例中提供的数据处理方法适用的网络环境，下面介绍本申请实施例提供的数据处理装置的结构。

图2A是本申请实施例数据处理装置的一个结构示意图。参阅图2A，该数据处理装置包括处理器201、存储器202和网络接口203。

处理器201可以是一个或多个CPU，该CPU可以是单核CPU，也可以是多核CPU。

存储器202包括但不限于是随机存取存储器(random access memory，RAM)、只读存储器(Read only Memory，ROM)、可擦除可编程只读存储器(erasable programmableread-only memory，EPROM或者快闪存储器)、快闪存储器、或光存储器等。存储器202中保存有操作系统和程序指令的代码。

网络接口203可以是有线接口，例如光纤分布式数据接口(Fiber DistributedData Interface，FDDI)、千兆以太网(Gigabit Ethernet，GE)接口；网络接口203也可以是无线接口。网络接口203用于接收来自于内部网络和/或外部网络的网络数据。

可选地，数据处理装置还包括总线204，上述处理器201、存储器202通常通过总线204相互连接，也可以采用其他方式相互连接。

可选地，数据处理装置还包括输出接口205，该输出接口205与输出设备连接，用于通过输出设备向用户输出对网络数据的处理结果。输出设备包括但不限于显示器、打印机等等。

可选地，处理器201通过读取存储器202中保存的程序指令实现本申请实施例数据处理方法，或者，处理器201也可以通过内部存储的程序指令实现本申请实施例数据处理方法。

在处理器201通过读取存储器202中保存的程序指令实现本申请实施例数据处理方法的情况下，存储器202中保存实现本申请实施例数据处理方法的程序指令。处理器201读取存储器202中存储的程序指令后，生成一个或多个软件功能模块。该软件功能模块的划分，仅仅为一种逻辑功能划分。为了便于理解，下面提供一种可能的软件功能模块的划分方式。

图2B是本申请实施例数据处理装置一种功能框图。图2A中处理器201读取存储器202中存储的程序指令后，生成图2B中数据处理装置中的各个模块。参阅图2B，本申请数据处理装置包括监控模块、数据存储模块、数据量预测模块、资源预测模块、模型选择模块、特征提取模块和数据处理模块。

监控模块用于监控数据处理装置在每个时段所处理数据量和所占用资源量。所处理数据量是指数据处理装置处理的网络数据的大小。所占用资源量包括CPU使用率、内存使用率、磁盘使用率和网络带宽使用率等。

数据存储模块用于存储监控模块监控到的所处理数据量和所占用资源量。本申请实施例中，将数据存储模块中存储的过去多个时段所处理数据量称作历史数据量，将数据处理模块中存储的过去多个时段所占用资源量称作历史资源量。

数据量预测模块用于向数据存储模块获取历史数据量，并根据历史数据量预测未来某个时段(称作X时段)内数据处理装置所需处理数据量。可选的，该X时段为当前时段的下一时段。可选的，数据量预测模块采用机器学习方法预测X时段内数据处理装置所需处理数据量。

资源预测模块用于向数据存储模块获取历史资源量，并根据历史资源量预测X时段内数据处理装置可用资源量。数据量预测模块采用机器学习方法预测X时段内数据处理装置可用资源量。

模型选择模块用于获取资源预测模块预测的X时段内可用资源量和数据量预测模块预测的X时段内所需处理数据量。模型选择模块还用于根据获取到的数据从数据处理模型集合中选择一个数据处理模型，并将选择结果发送给特征提取模块和数据处理模块。可选的，数据处理模型集合中每个数据处理模型对应一个标识，该选择结果包括所选X时段数据处理模型对应的标识。数据处理模型集合中不同数据处理模型对应的标识不同。

特征提取模块用于根据模型选择模块发送的选择结果确定X时段所选数据处理模型对应的特征提取规则。特征提取模块还用于按照该特征提取规则对X时段接收的网络数据进行特征提取。可选的，特征提取模块设置数据处理模型集合中每个数据处理模型的特征提取规则。

数据处理模块用于根据模型选择模块发送的选择结果确定所选X时段的数据处理模型。数据处理模块还用于利用该数据处理模型对特征提取模块提取的特征进行处理。数据处理模块设置数据处理模型集合，该数据处理模型集合包括至少两个数据处理模型。数据处理模型集合中每个数据处理模型为根据机器学习方法得到的。

图2B所描述的数据处理装置仅仅是一种示例，并不对本申请实施例数据处理装置的功能或模块划分方式起到限定作用。和图2B所描述的数据处理装置相比，可选的，本申请实施例数据处理装置包括更多或更少的模块。例如，数据处理装置不包括数据存储模块、资源预测模块和数据量预测模块，数据处理装置通过外部接口从其他外部设备调用数据存储模块、资源预测模块和数据量预测模块。

图2A和图2B示例性介绍了本申请实施例数据处理装置的结构，下面介绍本申请实施例数据处理装置执行的数据处理方法。图3是本申请实施例提供的数据处理方法的原理流程图。参阅图3，本申请数据处理方法包括步骤301至步骤304。可选地，图3所示的数据处理方法的执行主体是图1A中以计算机集群105a或计算机集群105a中的一个计算机为例的数据处理装置，或者是图1B中以云服务器102b为例的数据处理装置，或者是具有如图2A或图2B所示结构的数据处理装置。

301、数据处理装置获取第一预测信息。

本申请实施例中，数据处理装置用于在预定网络环境中对采集到的网络数据进行处理。可选的，该预定网络环境为图1A或图1B所示的预定网络环境。

本申请实施例中，第一预测信息包括某个时段内所需处理数据量的预测值。为了便于描述，将该时段称作第一时段，将第一时段的起始时刻称作第一时刻。

可选的，第一时段内所需处理数据量为图2B中的数据量预测模块得到的。

302、数据处理装置根据第一预测信息从数据处理模型集合中选择第一数据处理模型。

本申请实施例中，数据处理装置中预先设置数据处理模型集合，该数据处理模型集合包括至少两个数据处理模型。数据处理装置获取第一预测信息之后，根据第一预测信息从该数据处理模型集合中选择一个数据处理模型。为了便于描述，将数据处理装置选择的数据处理模型称作第一数据处理模型。

数据处理模型集合包括第一数据处理模型和第二数据处理模型。其中，第一数据处理模型的准确度高于第二数据处理模型的准确度，并且第一数据处理模型的吞吐量低于第二数据处理模型的吞吐量。或者，第一数据处理模型的准确度低于第二数据处理模型的准确度，并且第一数据处理模型的吞吐量高于第二数据处理模型的吞吐量。需要说明的是，数据处理模型集合中包含的数据处理模型的数量也可以为大于2的整数，本实施例为了描述简明，仅以数据处理模型集合包括两个数据处理模型为例进行举例说明。当数据处理模型集合中包含的数据处理模型的数量大于2时，各数据处理模型在准确度和吞吐量方面也具有类似的特点。即准确度较高的数据处理模型通常具有较低的吞吐量，而准确度较低的数据处理模型通常具有较高的吞吐量。

可选的，参阅图2B，数据处理装置通过模型选择模块执行上述步骤302。需要说明的是，本申请实施例在第一时刻到达前完成步骤302。

303、数据处理装置在第一时刻到达后，接收采集到的第一网络数据。

本申请实施例中，在第一时刻到达后，数据处理装置在预定网络环境中接收采集到的网络数据。为了便于描述，将该网络数据称作第一网络数据。

参阅图1A和图1B的相关描述，可选的，该第一网络数据来自报文转发设备或数据源设备。

304、数据处理装置在第一时段内利用第一数据处理模型对第一网络数据进行处理。

可选的，第一网络数据指的是数据处理装置在第一时段内接收到的全部网络数据。数据处理装置将第一时段内接收到的网络数据进行缓存，之后，对第一网络数据进行集中处理。

或者，可选的，第一网络数据指的是数据处理装置在第一时段内接收到的部分网络数据。可选的，第一网络数据指第一时段内一定时长内接收到的网络数据，或者，第一网络数据指第一时段内接收到的一定大小的网络数据。数据处理装置在第一时段内接收到第一网络数据后，便对第一网络数据进行处理。

本申请实施例中，数据处理装置中预先设置数据处理模型集合，数据处理模型集合包括第一数据处理模型和第二数据处理模型。其中，第一数据处理模型的准确度高于第二数据处理模型的准确度，并且第一数据处理模型的吞吐量低于第二数据处理模型的吞吐量。或者，第一数据处理模型的准确度低于第二数据处理模型的准确度，并且第一数据处理模型的吞吐量高于第二数据处理模型的吞吐量。虽然数据处理装置在不同时段内接收到的数据量不是固定的，但是数据处理装置可以获取第一时段内所需处理数据量的预测值。数据处理装置根据该预测值有利于从数据处理模型集合中选择处理第一网络数据最优的数据处理模型。假设数据处理装置选择的数据处理模型为第一数据处理模型。数据处理装置在第一时段内利用第一数据处理模型对第一网络数据进行处理，有利于提高处理第一网络数据的性能。

数据处理装置包括多个用于评价其性能的性能指标。在不同应用场景下，技术人员一般采用不同的性能指标来衡量数据处理装置的性能。该性能指标例如包括完成度和准确度。下面以采用完成度和准确度来衡量数据处理装置性能的应用场景为例，介绍本申请实施例数据处理装置从数据处理模型集合中选择最优数据处理模型的一种方法。

假设数据处理模型集合包括模型1和模型2。模型1的吞吐量和准确度分别为v1和a1，模型2的吞吐量和准确度分别为v2和a2，并且，v1<v2，a1>a2。以V代表数据处理装置在第一时段内所需处理数据量的预测值，以网络数据1代表数据量为V的网络数据。分别以完成度1和准确度1代表数据处理装置利用模型1处理网络数据1的完成度和准确度。分别以完成度2和准确度2代表数据处理装置利用模型2处理网络数据1的完成度和准确度。

若V<v1，那么完成度1和完成度2均为1。在这种情况下，由于a1>a2，因此准确度1>准确度2，模型1优于模型2。结合图3对应的数据处理方法，可选的，第一数据处理模型为模型1，第二数据处理模型为模型2。

若V>v1，那么数据处理装置利用模型1的完成度小于1。由于v1<v2，因此完成度2>完成度1。在这种情况下，模型2优于模型1。结合图3对应的数据处理方法，可选的，第一数据处理模型为模型2，第二数据处理模型为模型1。

本申请实施例中，第一时段可以指多个时段中的一个时段。数据处理装置能够基于类似的原理对多个时段中的网络数据执行本申请实施例方法。下面以该多个时段包括互不重叠的时段1和时段2为例，简单介绍数据处理装置针对该多个时段的网络数据执行本申请实施例方法的过程。

数据处理装置根据时段1内所需处理数据量的预测值从数据处理模型集合中选择一个数据处理模型，之后在时段1内利用选择的数据处理模型处理时段1内接收的网络数据。数据处理装置根据时段2内所需处理数据量的预测值从数据处理模型集合中选择一个数据处理模型，之后在时段2内利用选择的数据处理模型处理时段2内接收的网络数据。数据处理装置针对多个时段执行本申请实施例方法，有利于在处理网络数据的过程中维持较高性能。

参阅图3，在步骤304中，数据处理装置在第一时段内利用第一数据处理模型对第一网络数据进行处理。可选的，如图4所示，步骤304具体包括步骤401和步骤402。下面分别对步骤401和步骤402进行介绍。

401、数据处理装置在第一时段内按照第一数据处理模型的特征提取规则从第一网络数据中提取第一特征集合中各个特征的特征值。

本申请实施例中，第一特征集合包括一个或多个特征。示例性的，假设第一网络数据为某用户产生的网络数据，第一特征集合包括特征1、特征2和特征3。特征1的特征值指示该用户本次的登录地址，特征2的特征值指示该用户本次的登录时间，特征3的特征值指示该用户本次使用的互联网协议(Internet Protocol，IP)地址。

可选的，在本申请实施例中，数据处理装置预先存储数据处理模型集合中每个数据处理模型对应的特征提取规则和特征集合。将第一数据处理模型对应的特征集合称作第一特征集合，将第二数据处理模型对应的特征集合称作第二特征集合。可选的，第一数据处理模型的特征提取规则与第二数据处理模型的特征提取规则不同，第一特征集合和第二特征集合不同。可选的，第一特征集合中特征的数目与第二特征集合中特征的数目不同。例如，第二特征集合包括上述特征1和上述特征2。

402、数据处理装置在第一时段内将从第一网络数据中提取的特征值输入第一数据处理模型，从而实现第一数据处理模型对第一网络数据进行处理。

参阅图2B，可选的，数据处理装置通过特征提取模块执行步骤401，数据处理装置通过数据处理模块执行步骤402。

示例性的，假设第一网络数据为某用户产生的网络数据，从第一网络数据中提取的特征值指示该用户本次的登录地址、该用户本次的登录时间和该用户本次使用的IP地址，第一数据处理模型对第一网络数据的处理结果指示该用户本次登录正常或异常。

通过步骤401和步骤402，数据处理装置可以按照数据处理模型的特征提取规则和特征集合中特征来提取网络数据中的特征值。这样，数据处理模型集合可以包括特征提取规则和特征集合不同的数据处理模型，有利于将更多数据处理模型加入数据处理模型集合，从而有利于选择处理第一网络数据更优的数据处理模型。

参阅图3，在步骤302中，数据处理装置根据第一预测信息从数据处理模型集合中选择第一数据处理模型，第一预测信息包括第一时段内所需处理数据量的预测值。下面介绍步骤302一种可能的具体实现方式。

参阅图5，可选的，本申请实施例步骤302具体包括步骤501和步骤502。

501、数据处理装置根据第一预测信息确定第一数据处理模型的第一资源占用量，以此类推从而确定数据处理模型集合中每个数据处理模型的第一资源占用量。

本申请实施例中，第一数据处理模型的第一资源占用量为数据处理装置利用第一数据处理模型执行第一过程所需占用第一资源量的预测值，第一过程为处理第一时段内所需处理数据量的过程。可选的，第一资源量是第一时段内可用的时间长度。

502、数据处理装置根据资源可用量和数据处理模型集合中每个数据处理模型的第一资源占用量从数据处理模型集合中选择第一数据处理模型。

该资源可用量是指第一时段内可用的第一资源量。本申请实施例中，可选的，数据处理装置在不同时段内可用的第一资源量为相同的。或者，可选的，数据处理装置在不同时段内可用的第一资源量为不同的。在这种情况下，可选的，第一资源可用量为第一时段内可用第一资源量的预测值。

下面对步骤501和步骤502的有益效果进行分析。

假设第一数据处理模型对应的占用资源量小于第二数据处理模型对应的占用资源量，那么第一数据处理模型的吞吐量大于第二数据处理模型的吞吐量，并且第一数据处理模型的准确度小于第二数据处理模型的准确度。假设第一数据处理模型对应的占用资源量不超过第一时段内可用的第一资源量，那么数据处理模型利用第一数据处理模型在单个时段内所处理数据量不超过第一数据处理模型的吞吐量。其中，数据处理模型对应的占用资源量是指数据处理装置利用该数据处理模型处理单个时段内数据量所占用的第一资源量。通过上述分析可以得出结论：数据处理模型对应的占用资源量可以体现数据处理模型的吞吐量和准确度。

根据上述结论可知：通过步骤501和步骤502，数据处理装置选择第一数据处理模型的依据包括第一预测信息、资源可用量以及数据处理模型中每个数据处理模型的准确度和吞吐量。这样，数据处理装置有利于选择到处理第一网络数据的最优数据处理模型，从而提高处理第一网络数据的性能。

数据处理模型的部分资源量影响数据处理模型的吞吐量，为了使得数据处理装置选择到最优数据处理模型，可选的，本申请实施例还涉及该部分资源量。为了便于描述，将影响数据处理模型吞吐量的资源量称作第二资源量。该第二资源量例如包括硬件资源和网络资源中的至少一种。硬件资源例如包括CPU资源和内存资源，网络资源例如是网络带宽。

下面首先举例介绍数据处理模型的吞吐量与可用第二资源量的关系。

假设T1和T2是两个不同的时段，数据处理装置在T1内的可用第二资源量大于其在T2内的可用第二资源量。对于数据处理模型集合中的同一个数据处理模型(以第一数据处理模型为例)，第一数据处理模型在T1内的吞吐量高于其在T2内的吞吐量。对于第一数据处理模型和第二数据处理模型，假设在T1内，第一数据处理模型的吞吐量均低于第二数据处理模型的吞吐量。那么，在T2内，第一数据处理模型的吞吐量仍然低于第二数据处理模型的吞吐量。

基于上述对数据处理模型吞吐量与可用第二资源量关系的分析，为了进一步提高数据处理装置处理第一网络数据的性能，可选的，第一预测信息还包括第一时段内可用第二资源量。相应的，参阅图3，在步骤301中，数据处理装置获取第一时段内所需处理数据量的预测值和可用第二资源量。参阅图3，在步骤302中，数据处理装置根据第一时段内所需处理数据量的预测值和可用第二资源量从数据处理模型集合中选择第一数据处理模型。参阅图5，在步骤501中，数据处理装置根据第一时段内所需处理数据量的预测值和第一时段内可用第二资源量确定第一数据处理模型的第一资源占用量。

若数据处理装置在不同时段内可用第二资源量不同，可选的，数据处理装置获取的第一时段内可用第二资源量为第一时段内可用第二资源量的预测值。例如，结合图2B的功能框图，第一时段内可用第二资源量的预测值为资源预测模块生成的。

上面结合图5介绍了步骤501和步骤502。下面分别介绍步骤501和步骤502可能的实现方式。

首先介绍步骤501的第一种实现方式。本申请实施例中，可选的，步骤501包括步骤5011a。

5011a、数据处理装置将第一预测信息输入预测模型，得到第一数据处理模型的第一资源占用量。

本申请实施例中，预测模型用于预测数据处理装置利用第一数据处理模型执行单个过程所需占用的第一资源量，该单个过程为处理一个时段内所需处理数据量的过程。

该预测模型是根据历史样本集训练得到的，该历史样本集包括多个有标签的样本。下面以历史样本集中的第一样本为例介绍历史样本集中的样本。第一样本包括第二时段内所需处理数据量的实际值，第一样本的标签为数据处理装置根据第一数据处理模型执行第二过程占用第一资源量的实际值。其中，第二过程为处理第二时段内所需处理数据量的过程，第二时段在第一时段之前。可选的，第二时段为第一时段的前一个时段，或者，第二时段与第一时段之间间隔至少一个时段。

本申请实施例中，可选的，数据处理装置为第一数据处理模型和第二数据处理模型设置不同的预测模型。为了便于区分，将第一数据处理模型对应的预测模型称作第一预测模型，将第二数据处理模型对应的预测模型称作第二预测模型。数据处理装置将第一预测信息输入第一预测模型得到第一数据处理模型的第一资源占用量，数据处理装置将第一预测信息输入第二预测模型得到第二数据处理模型的第一资源占用量。

或者，本申请实施例中，可选的，数据处理装置为第一数据处理模型和第二数据处理模型设置同一个预测模型。数据处理装置将第一预测信息输入预测模型，得到第一数据处理模型的第一资源占用量和第二数据处理模型的第一资源占用量。

通过步骤5011a，数据处理装置采用机器学习方法确定第一数据处理模型的第一资源占用量，有利于提高第一资源占用量的准确性，进而有利于选择到最优数据处理模型，提高处理第一网络数据的性能。

参阅图3、图5和步骤5011a，若数据处理装置按照步骤5011a和步骤502执行图3中的步骤302，在步骤304之后，可选的，本申请实施例数据处理方法还包括步骤305和步骤306。

305、数据处理装置获取第一实际信息和第二资源占用量。

本申请实施例中，第一实际信息包括第一时段内已处理数据量的实际值，第二资源占用量为数据处理装置利用第一数据处理模型执行第一过程所占用第一资源量的实际值。

本申请实施例中，可选的，数据处理装置将第一实际信息作为训练预测模型的一个样本，数据处理装置将第二资源占用量作为该样本的标签。

306、数据处理装置根据第一实际信息和第二资源占用量对预测模型进行训练。

本申请实施例中，可选的，数据处理装置在获取到第一实际信息和第二资源占用量后，便根据第一实际信息和第二资源占用量对预测模型进行训练。或者，可选的，数据处理装置保存获取到的第一实际信息和第二资源占用量，数据处理装置在满足预设条件时利用保存的样本对预测模型进行训练。为了便于理解，下面对预设条件进行介绍。

本申请实施例中，可选的，数据处理装置保存的样本数目达到预设数目时，数据处理装置判定满足预设条件。或者，可选的，当预测模型的准确度低于预设准确度时，数据处理装置判定满足该预设条件。或者，可选的，数据处理装置每隔固定时长利用保存的样本对预测模型进行训练。

通过步骤305和步骤306，数据处理装置能够不断增加或更新预测模型的历史样本集，从而提升预测模型的预测效果，使得预测模型的预测结果进一步接近实际结果。所述数据处理装置根据资源可用量和预测模型的预测结果从所述数据处理模型集合中选择所述第一数据处理模型，有利于选择到最优数据处理模型，进而提高处理第一网络数据的性能。

下面介绍步骤501的第二种实现方式。本申请实施例中，可选的，步骤501包括步骤5011b。

5011b、数据处理装置根据第一预测信息、第二实际信息、第三资源占用量、第一数据处理模型的性能参数和已使用数据处理模型的性能参数，确定第一数据处理模型的第一资源占用量。

本申请实施例中，数据处理装置在第三时段利用已使用数据处理模型处理第三时段内所需处理数据量，第三时段在第一时段之前。已使用数据处理模型是第一数据处理模型或第二数据处理模型，或者，已使用数据处理模型是数据处理模型集合中第一数据处理模型和第二数据处理模型以外的一个数据处理模型。

第二实际信息包括第三时段内已处理数据量的实际值。第三资源占用量为数据处理装置利用已使用数据处理模型执行第三过程所占用第一资源量的实际值，第三过程为处理第三时段内所需处理数据量的过程。为了使数据处理装置更加准确的选择最优数据处理模型，可选的，第二实际信息还包括第三时段内可用第二资源量。

第一数据处理模型的性能参数用于表示第一数据处理模型的准确度，并且，第一数据处理模型的性能参数与第二数据处理模型的性能参数不同。

参阅图4及其相关描述，本申请实施例中，可选的，第一数据处理模型的性能参数是第一特征集合中特征的数目，第二数据处理模型的性能参数是第二特征集合中特征的数目。第一特征集合中特征的数目与第二特征集合中特征的数目不同。

通过步骤5011b，数据处理装置无需依赖预测模型确定第一数据处理模型的第一资源量。这样，数据处理装置可以节约训练预测模型所需的资源。

为了便于理解，下面介绍步骤5011b一种可能的具体实现方式。

以Ta表示第三时段(例如过去的最后一个时段)，以Tb表示第一时段(例如未来的第一个时段)。假设第一预测信息包括Tb内所需处理数据量的预测值(以d1表示)和Tb内可用第二资源量的预测值(以r1表示)，第二实际信息包括Ta内已处理数据量的实际值(以d0表示)和Ta内可用第二资源量的实际值(以r0表示)。假设第一资源量指数据处理装置处理接收的网络数据所耗费的时间长度，已使用数据处理模型为第二数据处理模型。第一数据处理模型的第一资源占用量t1＝t0+t0*(ε*(s1/s2)*(d1/d0)*(r0/r1)-1)。其中，以t0表示第三资源占用量，以s1表示第一输入特征的数目，以s2表示第二输入特征的数目，ε为常数系数。

前面通过步骤5011a和步骤5011b分别介绍了步骤501的两种实现方式。本申请实施例中，可选的，数据处理装置在第一条件下按照步骤5011a执行步骤501，数据处理装置在第二条件下按照步骤5011b执行步骤501。

示例性的，数据处理装置在预测模型的训练过程中或优化过程中按照步骤5011b执行步骤501，数据处理装置在预测模型训练完或优化完的条件下按照步骤5011a执行步骤501。这样数据处理装置可以在相邻的多个时段执行本申请实施例方法，有利于在处理网络数据的过程中维持较高性能。

上面介绍了图5所示步骤501可能的实现方式，下面介绍图5所示步骤502可能的实现方式。步骤502中，数据处理装置根据资源可用量和数据处理模型集合中每个数据处理模型的第一资源占用量从数据处理模型集合中选择第一数据处理模型。步骤502有多种实现方式，下面分两种情况举例介绍步骤502的实现方式。

情况1：为了满足吞吐量需求，第一数据处理模型的第一资源占用量不超过资源可用量。

为了便于描述，将数据处理模型集合中第一资源占用量不超过资源可用量的数据处理模型称作备选数据处理模型。假设数据处理模型集合包括多个备选数据处理模型，在该多个备选数据处理模型中，可选的，第一数据处理模型的第一资源占用量最大。也就是说，在该多个备选数据处理模型中，第一数据处理模型的第一资源占用量与资源可用量的差异最小。这样有利于在满足吞吐量需求的情况下，提高所选数据处理模型的准确度，从而提高数据处理装置处理第一网络数据的性能。

情况2：考虑到第一资源占用量的确定过程可能存在误差，本申请实施例不限定第一数据处理模型的第一资源占用量小于或等于资源可用量。

在这种情况下，可选的，数据处理装置根据第一差异和第二差异选择第一数据处理模型。其中，第一差异指的是第一数据处理模型的第一资源占用量与资源可用量之间的差异，第二差异指的是第二数据处理模型的第一资源占用量与资源可用量之间的差异。

对于情况2，步骤502可以通过不同具体方式来实现。例如，由于第一差异小于第二差异，因此数据处理装置选择第一数据处理模型。或者，数据处理装置根据数据处理模型集合中各数据处理模型的被选概率选择第一数据处理模型。具体的，数据处理装置根据第一差异确定第一数据处理模型的被选概率，以此类推确定数据处理模型集合中每个数据处理模型的被选概率。之后，数据处理装置根据数据处理模型集合中每个数据处理模型的被选概率从数据处理模型集合中选择第一数据处理模型。若第一差异大于第二差异，那么第一数据处理模型的被选概率大于第二数据处理模型的被选概率。若第一差异小于第二差异，那么第一数据处理模型的被选概率小于第二数据处理模型的被选概率。

上述本申请数据处理方法任一实施例中涉及的机器学习方法可以包括但不限于如下任意一种方法：梯度提升决策树(gradient boosting decision tree，GBDT)、逻辑回归(logistic regression)、循环神经网络(recurrent neural network，RNN)和长短期记忆网络(long short-term memory，LSTM)。

上面介绍了本申请数据处理方法的多个实施例。结合图2A所示的数据处理装置，可选的，处理器201根据存储器202保存的程序指令来执行上述方法实施例。例如，处理器201根据存储器202保存的程序指令来执行上述图3所示的实施例中的步骤301至步骤306、图4所示的实施例中的步骤401至步骤402、图5所示的实施例中的步骤501至步骤502、上述步骤5011a、或上述步骤5011b。处理器201实现上述步骤的更多细节请参阅前面各个方法实施例中的描述，在这里不再重复。

相应的，本申请实施例还提供一种处理装置。图6为本申请实施例处理装置的结构示意图。该处理装置600与上述各个方法实施例中的数据处理装置耦合连接，例如，集成在数据处理装置中，是数据处理装置中的一个软件或硬件组件。

参阅图6，该处理装置600包括处理模块601和获取模块602。处理模块601用于执行上述图3所示实施例中的步骤301、步骤302和步骤304，或者执行上述图3所示实施例中的步骤301、步骤302、步骤304、步骤305和步骤306，或者执行图4所示实施例中的步骤401至步骤402，或者执行图5所示实施例中的步骤501至步骤502，或者执行上述步骤5011a或步骤5011b。获取模块602用于执行上述图3所示实施例中的步骤303。处理模块601和获取模块602的具体执行过程请参阅前述相应附图所示实施例中相应步骤的详细描述，这里不再赘述。

图6所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。图6中上述各个模块既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。例如，采用软件实现时，处理模块601和获取模块602可以由图2A中的处理器201读取存储器202中存储的程序代码后，生成的软件功能模块来实现。图6中的模块也可以由数据处理装置中的不同硬件分别实现，例如获取模块602由图2A中的网络接口203实现，处理模块601由图2A中处理器201中的部分处理资源(例如多核处理器中的其他核)，或者采用现场可编程门阵列(Field－Programmable Gate Array，FPGA)、或协处理器等可编程器件来完成。显然上述功能模块也可以采用软件硬件相结合的方式来实现，例如获取模块602由网络接口203实现，而处理模块601是由处理器201读取存储器202中存储的程序指令后生成的软件功能模块。

图6所示的处理装置能够实现的技术效果、处理模块601和获取模块602实现上述功能的更多细节请参阅前面各个方法实施例中对于数据处理装置的描述，在这里不再赘述。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员将会理解，当使用软件实现本申请实施例的各个方面、或各个方面的可能实现方式时，上述各个方面、或各个方面的可能实现方式可以全部或部分地以计算机程序产品的形式实现。计算机程序产品是指存储在计算机可读介质中的计算机可读指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。

计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质包括但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或者装置，或者前述的任意适当组合。如计算机可读存储介质为随机存取存储器(Random Access Memory，RAM)、只读存储器(read only memory，ROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)或便携式只读存储器(Compact Disc Read-OnlyMemory，CD-ROM)。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的范围。这样，倘若本申请的这些修改和变型属于本发明权利要求的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种数据处理方法，所述方法由数据处理装置执行，所述数据处理装置用于在预定网络环境中对采集到的网络数据进行处理，其特征在于，所述方法包括：

数据处理装置获取第一预测信息，所述第一预测信息包括第一时段内所需处理数据量的预测值，所述第一时段以第一时刻为起始点；

所述数据处理装置根据所述第一预测信息从数据处理模型集合中选择第一数据处理模型，所述数据处理模型集合包括第二数据处理模型和所述第一数据处理模型，所述第一数据处理模型的准确度高于所述第二数据处理模型的准确度、并且所述第一数据处理模型的吞吐量低于所述第二数据处理模型的吞吐量，或者，所述第一数据处理模型的准确度低于所述第二数据处理模型的准确度、并且所述第一数据处理模型的吞吐量高于所述第二数据处理模型的吞吐量；

所述数据处理装置在所述第一时刻到达后，接收采集到的第一网络数据；

所述数据处理装置在所述第一时段内利用所述第一数据处理模型对所述第一网络数据进行处理。

2.根据权利要求1所述的方法，其特征在于，所述数据处理装置根据所述第一预测信息从数据处理模型集合中选择第一数据处理模型，包括：

所述数据处理装置根据所述第一预测信息确定所述第一数据处理模型的第一资源占用量，以此类推从而确定所述数据处理模型集合中每个数据处理模型的第一资源占用量，其中，所述第一数据处理模型的第一资源占用量为所述数据处理装置利用所述第一数据处理模型执行第一过程所需占用第一资源量的预测值，所述第一过程为处理所述第一时段内所需处理数据量的过程；

所述数据处理装置根据资源可用量和所述数据处理模型集合中每个数据处理模型的第一资源占用量从所述数据处理模型集合中选择所述第一数据处理模型，所述资源可用量为所述第一时段内可用的所述第一资源量。

3.根据权利要求2所述的方法，其特征在于，所述数据处理装置根据所述第一预测信息确定所述第一数据处理模型的第一资源占用量，包括：

所述数据处理装置将所述第一预测信息输入预测模型，得到所述第一数据处理模型的第一资源占用量，所述预测模型用于预测所述数据处理装置利用所述第一数据处理模型执行单个过程所需占用的所述第一资源量，所述单个过程为处理一个时段内所需处理数据量的过程，所述预测模型是根据历史样本集训练得到的，所述历史样本集包括第一样本，所述第一样本包括第二时段内所需处理数据量的实际值，所述第一样本的标签为所述数据处理装置根据所述第一数据处理模型执行第二过程占用所述第一资源量的实际值，所述第二过程为处理所述第二时段内所需处理数据量的过程，所述第二时段在所述第一时段之前。

4.根据权利要求3所述的方法，其特征在于，在所述数据处理装置在所述第一时段内利用所述第一数据处理模型对所述第一网络数据进行处理之后，所述方法还包括：

所述数据处理装置获取第一实际信息和第二资源占用量，所述第一实际信息包括所述第一时段内已处理数据量的实际值，所述第二资源占用量为所述数据处理装置利用所述第一数据处理模型执行所述第一过程所占用所述第一资源量的实际值；

所述数据处理装置根据所述第一实际信息和所述第二资源占用量对所述预测模型进行训练。

5.根据权利要求2所述的方法，其特征在于，所述数据处理装置根据所述第一预测信息确定所述第一数据处理模型的第一资源占用量，包括：

所述数据处理装置根据所述第一预测信息、第二实际信息、第三资源占用量、所述第一数据处理模型的性能参数和已使用数据处理模型的性能参数，确定所述第一数据处理模型的第一资源占用量，所述已使用数据处理模型是所述第一数据处理模型，或者，所述已使用数据处理模型是所述第二数据处理模型，或者，所述已使用数据处理模型是所述数据处理模型集合中所述第一数据处理模型和所述第二数据处理模型以外的一个数据处理模型，所述第二实际信息包括第三时段内已处理数据量的实际值，所述第三资源占用量为所述数据处理装置利用所述已使用数据处理模型执行第三过程所占用所述第一资源量的实际值，所述第三过程为处理所述第三时段内所需处理数据量的过程，所述第三时段在所述第一时段之前，所述第一数据处理模型的性能参数用于表示所述第一数据处理模型的准确度，所述第一数据处理模型的性能参数与所述第二数据处理模型的性能参数不同。

6.根据权利要求5所述的方法，其特征在于，所述数据处理装置在所述第一时段内利用所述第一数据处理模型对所述第一网络数据进行处理，包括：

所述数据处理装置在所述第一时段内按照所述第一数据处理模型的特征提取规则从所述第一网络数据中提取第一特征集合中各个特征的特征值，第二特征集合中特征的数目与所述第一特征集合中特征的数目不同，所述第一特征集合和所述第二特征集合分别对应于所述第一数据处理模型和所述第二数据处理模型；

所述数据处理装置在所述第一时段内将从所述第一网络数据中提取的特征值输入所述第一数据处理模型，从而实现利用所述第一数据处理模型对所述第一网络数据进行处理。

7.根据权利要求6所述的方法，其特征在于，所述第一数据处理模型的性能参数是所述第一特征集合中特征的数目。

8.根据权利要求2至7中任一项所述的方法，其特征在于，第一差异小于第二差异，所述第一差异为所述第一数据处理模型的第一资源占用量与所述资源可用量之间的差异，所述第二差异为所述第二数据处理模型的第一资源占用量与所述资源可用量之间的差异。

9.根据权利要求2至8中任一项所述的方法，其特征在于，所述第一资源量为所述数据处理装置处理接收的网络数据所耗费的时间长度。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述预定网络环境包括网络数据的发送装置和所述数据处理装置；所述发送装置包括一个或多个数据源设备，所述采集到的网络数据包括所述一个或多个数据源设备产生的网络数据；或者，所述发送装置为具有数据采集功能的报文转发设备，所述采集到的网络数据包括所述报文转发设备采集到的网络数据；所述数据处理装置为一个计算机、或一个计算机集群，所述计算机集群用于以负载均衡的方式处理所述采集到的网络数据。

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述第一预测信息还包括第一时段内可用第二资源量的预测值。

12.根据权利要求11所述的方法，其特征在于，所述第二资源量包括硬件资源量和网络资源量中的至少一种。

13.一种数据处理装置，所述数据处理装置用于在预定网络环境中对采集到的网络数据进行处理，其特征在于，所述装置包括网络接口、存储器和与所述存储器连接的处理器；

所述存储器用于存储指令；

所述处理器用于执行所述指令，以使所述数据处理装置执行以下操作：

获取第一预测信息，所述第一预测信息包括第一时段内所需处理数据量的预测值，所述第一时段以第一时刻为起始点；

根据所述第一预测信息从数据处理模型集合中选择第一数据处理模型，所述数据处理模型集合包括第二数据处理模型和所述第一数据处理模型，所述第一数据处理模型的准确度高于所述第二数据处理模型的准确度、并且所述第一数据处理模型的吞吐量低于所述第二数据处理模型的吞吐量，或者，所述第一数据处理模型的准确度低于所述第二数据处理模型的准确度、并且所述第一数据处理模型的吞吐量高于所述第二数据处理模型的吞吐量；

在所述第一时刻到达后，接收采集到的第一网络数据；

在所述第一时段内利用所述第一数据处理模型对所述第一网络数据进行处理。

14.根据权利要求13所述的装置，其特征在于，所述处理器具体用于：

根据所述第一预测信息确定所述第一数据处理模型的第一资源占用量，以此类推从而确定所述数据处理模型集合中每个数据处理模型的第一资源占用量，其中，所述第一数据处理模型的第一资源占用量为所述数据处理装置利用所述第一数据处理模型执行第一过程所需占用第一资源量的预测值，所述第一过程为处理所述第一时段内所需处理数据量的过程；

根据资源可用量和所述数据处理模型集合中每个数据处理模型的第一资源占用量从所述数据处理模型集合中选择所述第一数据处理模型，所述资源可用量为所述第一时段内可用的所述第一资源量。

15.根据权利要求14所述的装置，其特征在于，所述处理器具体用于：

将所述第一预测信息输入预测模型，得到所述第一数据处理模型的第一资源占用量，所述预测模型用于预测所述数据处理装置利用所述第一数据处理模型执行单个过程所需占用的所述第一资源量，所述单个过程为处理一个时段内所需处理数据量的过程，所述预测模型是根据历史样本集训练得到的，所述历史样本集包括第一样本，所述第一样本包括第二时段内所需处理数据量的实际值，所述第一样本的标签为所述数据处理装置根据所述第一数据处理模型执行第二过程占用所述第一资源量的实际值，所述第二过程为处理所述第二时段内所需处理数据量的过程，所述第二时段在所述第一时段之前。

16.根据权利要求15所述的装置，其特征在于，所述处理器还用于：

在所述第一时段内利用所述第一数据处理模型对所述第一网络数据进行处理之后，获取第一实际信息和第二资源占用量，所述第一实际信息包括所述第一时段内已处理数据量的实际值，所述第二资源占用量为所述数据处理装置利用所述第一数据处理模型执行所述第一过程所占用所述第一资源量的实际值；

根据所述第一实际信息和所述第二资源占用量对所述预测模型进行训练。

17.根据权利要求14所述的装置，其特征在于，所述处理器具体用于：

根据所述第一预测信息、第二实际信息、第三资源占用量、所述第一数据处理模型的性能参数和已使用数据处理模型的性能参数，确定所述第一数据处理模型的第一资源占用量，所述已使用数据处理模型是所述第一数据处理模型，或者，所述已使用数据处理模型是所述第二数据处理模型，或者，所述已使用数据处理模型是所述数据处理模型集合中所述第一数据处理模型和所述第二数据处理模型以外的一个数据处理模型，所述第二实际信息包括第三时段内已处理数据量的实际值，所述第三资源占用量为所述数据处理装置利用所述已使用数据处理模型执行第三过程所占用所述第一资源量的实际值，所述第三过程为处理所述第三时段内所需处理数据量的过程，所述第三时段在所述第一时段之前，所述第一数据处理模型的性能参数用于表示所述第一数据处理模型的准确度，所述第一数据处理模型的性能参数与所述第二数据处理模型的性能参数不同。

18.根据权利要求17所述的装置，其特征在于，所述处理器具体用于：

在所述第一时段内按照所述第一数据处理模型的特征提取规则从所述第一网络数据中提取第一特征集合中各个特征的特征值，所述第一特征集合中特征的数目与第二特征集合中特征的数目不同，所述第一特征集合和所述第二特征集合分别对应于所述第一数据处理模型和所述第二数据处理模型；

在所述第一时段内将从所述第一网络数据中提取的特征值输入所述第一数据处理模型，从而实现利用所述第一数据处理模型对所述第一网络数据进行处理。

19.根据权利要求18所述的装置，其特征在于，所述第一数据处理模型的性能参数是所述第一特征集合中特征的数目。

20.根据权利要求14至19中任一项所述的装置，其特征在于，第一差异小于第二差异，所述第一差异为所述第一数据处理模型的第一资源占用量与所述资源可用量之间的差异，所述第二差异为所述第二数据处理模型的第一资源占用量与所述资源可用量之间的差异。

21.根据权利要求14至20中任一项所述的装置，其特征在于，所述第一资源量为所述数据处理装置处理接收的网络数据所耗费的时间长度。

22.根据权利要求13至21中任一项所述的装置，其特征在于，所述第一预测信息还包括第一时段内可用第二资源量的预测值。

23.根据权利要求22所述的装置，其特征在于，所述第二资源量包括硬件资源量和网络资源量中的至少一种。

24.一种处理装置，其特征在于，所述处理装置包括获取模块和处理模块；

所述获取模块用于在第一时刻到达后，接收采集到的第一网络数据；

所述处理模块用于获取第一预测信息，所述数据处理装置用于在预定网络环境中对采集到的网络数据进行处理，所述第一预测信息包括第一时段内所需处理数据量的预测值，所述第一时段以所述第一时刻为起始点；根据所述第一预测信息从数据处理模型集合中选择第一数据处理模型，所述数据处理模型集合包括第二数据处理模型和所述第一数据处理模型，所述第一数据处理模型的准确度高于所述第二数据处理模型的准确度、并且所述第一数据处理模型的吞吐量低于所述第二数据处理模型的吞吐量，或者，所述第一数据处理模型的准确度低于所述第二数据处理模型的准确度、并且所述第一数据处理模型的吞吐量高于所述第二数据处理模型的吞吐量；在所述第一时段内利用所述第一数据处理模型对所述第一网络数据进行处理。

25.一种数据处理系统，其特征在于，包括网络数据的发送装置和如权利要求13-23任一所述的数据处理装置；所述发送装置包括一个或多个数据源设备，所述采集到的网络数据包括所述一个或多个数据源设备产生的网络数据；或者，所述发送装置为具有数据采集功能的报文转发设备，所述采集到的网络数据包括所述报文转发设备采集到的网络数据；所述数据处理装置为一个计算机、或一个计算机集群，所述计算机集群用于以负载均衡的方式处理所述采集到的网络数据。