CN109660533A

CN109660533A - 实时识别异常流量的方法、装置、计算机设备和存储介质

Info

Publication number: CN109660533A
Application number: CN201811534156.2A
Authority: CN
Inventors: 于洋; 马宁; 孙家棣
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-04-19
Anticipated expiration: 2038-12-14
Also published as: CN109660533B

Abstract

本发明公开了一种实时识别异常流量的方法、装置、计算机设备和存储介质，涉及流量监控领域，该方法包括：获取已经接收且存储在数据库中的流量数据；从所述流量数据中获取样本集；将所述样本集分出初始训练样本集；将所述初始训练样本集分别输入逻辑回归LR模型与随机森林RF模型进行训练；接收实时流量数据；将实时流量数据分成第一部分和第二部分；将所述LR模型与RF模型同时投入对第一部分中的实时流量数据的识别中；确定LR模型、RF模型分别对应的第一准确度、第二准确度；将第一准确度和第二准确度中准确度更高的模型配置到第二部分中的实时异常流量的识别中，并进行异常流量的实时识别。该方法提高了实时识别异常流量的准确度。

Description

实时识别异常流量的方法、装置、计算机设备和存储介质

技术领域

本发明涉及流量监控领域，特别是涉及实时识别异常流量的方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的迅速发展，网络中流量数据的流通传递着各种各样的信息，为人们带来了极大的便利。但同时，有着许多不法份子通过重复请求、访问、下载等操作产生大量流量，从中进行获利。而这种恶意发送流量数据的行为将对服务器造成极大的负担，严重时甚至导致服务器瘫痪，对其他合法用户节点造成不便及损失。因此是否能够有效对异常流量进行限制、封锁，取决于服务器是否能够准确、及时、有效地识别出异常流量数据。

发明内容

基于此，为解决相关技术中如何实时识别异常流量的技术问题，本发明提供了一种实时识别异常流量的方法、装置、计算机设备和存储介质。

第一方面，提供了一种实时识别异常流量的方法，包括：

获取已经接收、且存储在数据库中的流量数据；

从所述流量数据中获取样本集，其中，每个所述流量数据为一个样本，每个所述流量数据被贴有是否是异常流量的标签；

将所述样本集分出初始训练样本集；

将所述初始训练样本集分别输入逻辑回归LR模型与随机森林RF模型进行训练，其中，根据逻辑回归LR模型与随机森林RF模型的输出结果判定所述初始训练样本集的每个样本是否是异常流量，如果判定结果与样本的标签一致，则判定结果准确，判定结果准确的样本数占所述初始训练样本集中的样本总数的比为准确度，在所述准确度没有均达到预定阈值时，不断对所述逻辑回归LR模型与随机森林RF模型进行训练，直到所述准确度均达到预定阈值；

接收实时流量数据；

将所述实时流量数据分成第一部分和第二部分，其中，所述第一部分被贴有是否是异常流量的标签；

将所述LR模型与RF模型同时投入对所述第一部分中的实时流量数据的识别中；

确定LR模型的判定结果与贴有的标签一致的实时流量数据数占第一部分中的所有实时流量数据的占比，作为第一准确度；确定RF模型的判定结果与贴有的标签一致的实时流量数据数占第一部分中的所有实时流量数据的占比，作为第二准确度；

将第一准确度和第二准确度中准确度更高的模型配置到第二部分中的实时异常流量的识别中，并进行异常流量的实时识别。

在本公开的一示例性实施例中，所述获取样本集，包括：

将所述流量数据输入离线异常流量识别模型，由异常流量识别模型输出正负样本，所述正样本为正常流量样本，打上正常流量标签；所述负样本为异常流量样本，打上异常流量标签；

将所有所述正负样本进行数据清洗，其中清洗过的样本组成所述样本集。

在本公开的一示例性实施例中，将所述正负样本进行数据清洗，包括：对格式转换失败、部分格式转换的数据进行删除。

在本公开的一示例性实施例中，所述将所述样本集分出初始训练样本集包括：用所述样本集中初始训练样本集以外的样本组成对抗训练样本集。

在本公开的一示例性实施例中，根据逻辑回归LR模型的输出结果判定所述初始训练样本集的每个样本是否是异常流量包括：将逻辑回归LR模型输出的异常流量风险分数与预定风险分数阈值进行比较，其中，如果输出的异常流量风险分数高于预定风险分数阈值，则该样本是异常流量。

在本公开的一示例性实施例中，所述将所述初始训练样本集分别输入逻辑回归LR模型与随机森林RF模型进行训练之后，包括：

将所述对抗训练样本集分别输入所述LR模型与RF模型；

如果基于所述LR模型与RF模型的输出判定出的所述对抗训练样本集中的样本是否是异常流量的判定结果一致，却与该样本的标签不一致，将该样本的标签改变为与所述判定结果一致；

确定所述LR模型与RF模型的输出判定出的所述对抗训练样本集中的样本是否是异常流量的判定结果一致、却与该样本的标签不一致的数量占对抗训练样本集中样本总数的比；

如果所述比大于预定阈值，将标签改变后的对抗训练样本集再次输入所述LR模型与RF模型，重复基于所述LR模型与RF模型的输出判定出的所述对抗训练样本集中的样本是否是异常流量的判定结果一致、却与该样本的标签不一致，则将该样本的标签改变为与所述判定结果一致，并确定所述比的过程，直到所述比不大于预定阈值。

在本公开的一示例性实施例中，第一部分被贴有是否是异常流量的标签是通过将第一部分中的流量数据输入所述LR模型与RF模型以外的其它异常流量数据识别模型进行的。

根据本公开的第二方面，提供一种实时识别异常流量的装置，包括：

第一获取模块，配置为获取已经接收、且存储在数据库中的流量数据；

第二获取模块，配置为从所述流量数据中获取样本集；

初始训练模块，配置为将所述逻辑回归LR模型与随机森林RF模型训练至准确度均达到预定阈值；

接收模块，配置为接收实时流量数据；

分流模块，配置为将所述实时流量数据分成第一部分和第二部分；

确定模块，配置为确定第一准确度与第二准确度；

分配模块，配置为将第一准确度和第二准确度中准确度更高的模型配置到第二部分中的实时异常流量的识别中，并进行异常流量的实时识别。

根据本公开的第三方面，提供一种实时识别异常流量的计算机设备，包括：

存储器，配置为存储可执行指令；

处理器，配置为执行所述存储器中存储的可执行指令，以执行以上所述的方法。

根据本公开的第四方面，提供一种计算机可读程序介质，其存储有计算机程序指令，当所述计算机指令被计算机执行时，使计算机执行以上所述的方法。

与传统技术中对单个识别异常流量的模型进行离线训练，再将其投入到异常流量的识别中去相比，本公开的实施例通过先对逻辑回归LR模型、随机森林RF模型分别进行训练，再使二者进行对抗训练，使得二者对于流量数据的识别结果达到一定程度的稳定一致后，再从二者中确定出识别结果更为精准的模型，将其应用于实时流量的异常识别中。通过这种方法，实现了异常流量的实时、精准识别，提高了异常流量识别的准确度。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

图1示出根据本公开一示例实施方式的实时识别异常流量的方法的流程图。

图2示出根据本公开一示例实施方式的实时识别异常流量的装置的方框图。

图3示出根据本公开一示例实施方式的获取样本集的详细流程图。

图4示出根据本公开一示例实施方式的将所述初始训练样本集分别输入逻辑回归LR模型与随机森林RF模型进行训练之后的详细流程图。

图5示出根据本公开一示例实施方式的实时识别异常流量的系统架构框图。

图6示出根据本公开一示例实施方式的实时识别异常流量装置的硬件设备图。

图7示出根据本公开一示例实施方式的实时识别异常流量的系统的计算机可读存储介质图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本公开的目的在于实现异常流量的实时、精准识别，提高异常流量识别的准确度。根据本公开一个实施例的实时识别异常流量的方法，包括：获取已经接收、且存储在数据库中的流量数据；从所述流量数据中获取样本集，其中，每个所述流量数据为一个样本，每个所述流量数据被贴有是否是异常流量的标签；将所述样本集分出初始训练样本集；将所述初始训练样本集分别输入逻辑回归LR模型与随机森林RF模型进行训练，其中，根据逻辑回归LR模型与随机森林RF模型的输出结果判定所述初始训练样本集的每个样本是否是异常流量，如果判定结果与样本的标签一致，则判定结果准确，判定结果准确的样本数占所述初始训练样本集中的样本总数的比为准确度，在所述准确度没有均达到预定阈值时，不断对所述逻辑回归LR模型与随机森林RF模型进行训练，直到所述准确度均达到预定阈值；接收实时流量数据；将所述实时流量数据分成第一部分和第二部分，其中，所述第一部分被贴有是否是异常流量的标签；将所述LR模型与RF模型同时投入对所述第一部分中的实时流量数据的识别中；确定LR模型的判定结果与贴有的标签一致的实时流量数据数占第一部分中的所有实时流量数据的占比，作为第一准确度；确定RF模型的判定结果与贴有的标签一致的实时流量数据数占第一部分中的所有实时流量数据的占比，作为第二准确度；将第一和第二准确度中准确度更高的模型配置到第二部分中的实时异常流量的识别中，并进行异常流量的实时识别。与传统技术中对单个识别异常流量的模型进行离线训练，再将其投入到异常流量的识别中去相比，本公开的实施例通过先对逻辑回归LR模型、随机森林RF模型分别进行训练，再使二者进行对抗训练，使得二者对于流量数据的识别结果达到一定程度的稳定一致后，再从二者中确定出识别结果更为精准的模型，将其应用于实时流量的异常识别中。通过这种方法，实现了异常流量的实时、精准识别，提高了异常流量识别的准确度。

图1示出根据本公开一示例实施方式的实时识别异常流量的方法的流程图：

步骤S100：获取已经接收、且存储在数据库中的流量数据；

步骤S110：从所述流量数据中获取样本集，其中，每个所述流量数据为一个样本，每个所述流量数据被贴有是否是异常流量的标签；

步骤S120：将所述样本集分出初始训练样本集；

步骤S130：将所述初始训练样本集分别输入逻辑回归LR模型与随机森林RF模型进行训练，其中，根据逻辑回归LR模型与随机森林RF模型的输出结果判定所述初始训练样本集的每个样本是否是异常流量，如果判定结果与样本的标签一致，则判定结果准确，判定结果准确的样本数占所述初始训练样本集中的样本总数的比为准确度，在所述准确度没有均达到预定阈值时，不断对所述逻辑回归LR模型与随机森林RF模型进行训练，直到所述准确度均达到预定阈值；

步骤S140：接收实时流量数据；

步骤S150：将实时流量数据分成第一部分和第二部分，其中，所述第一部分被贴有是否是异常流量的标签；

步骤S160：将所述LR模型与RF模型同时投入对所述第一部分中的实时流量数据的识别中；

步骤S170：确定LR模型的判定结果与贴有的标签一致的实时流量数据数占第一部分中的所有实时流量数据的占比，作为第一准确度；确定RF模型的判定结果与贴有的标签一致的实时流量数据数占第一部分中的所有实时流量数据的占比，作为第二准确度；

步骤S180：将第一和第二准确度中准确度更高的模型配置到第二部分中的实时异常流量的识别中，并进行异常流量的实时识别。

在一实施例中，获取已经接收、且存储在数据库中的流量数据后，使用已有的异常流量识别模型，对这些流量数据贴上是否是异常流量的标签。将这些已经贴好标签的流量数据作为样本，对LR模型与RF模型进行训练。当LR模型与RF模型对于样本的判断的准确度均达到预定阈值后，停止训练过程。至此，对于历史上存储的流量数据，LR模型与RF模型有了对其进行是否是异常流量的判断的基本功能。而由于实时流量数据的数据特征一直在变化，对于历史上流量数据判断准确的模型，对于实施流量数据的判断不一定也能达到较高的准确度。因此，还需要使用实时流量数据对LR模型与RF模型进行准确度的实际测试。接收实时流量数据后，从中分出第一部分流量数据，并使用已有的异常流量识别模型，对其贴上是否是异常流量的标签。使用LR模型与RF模型，对已经贴上标签的第一部分流量数据进行判定，将判定准确度较高的那个模型投入到实际的实时流量的异常识别中。即，将一部分实时流量用于测试LR模型与RF模型对于实时流量的实际判定准确度，整个实时流量的异常识别过程，只需测试一次。测试完毕后，将对于实时浏览的实际判定准确度更高的那个模型，投入到实时流量的异常识别中，由此实现对异常流量的实时识别。

下面，将结合附图对本示例实施方式中上述在视频中插播视频广告的各步骤进行详细的解释以及说明。

在步骤S100中，获取已经接收、且存储在数据库中的流量数据。

通过此步骤，达到了后续能够随时提取数据库中的流量数据以进行操作的目的。

在一实施例中，接收用户产生的行为数据，例如：埋点数据，以及业务数据，例如：注册所使用的邮箱地址、注册的时间、请求发出的ip地址。将这些数据存储进数据库，以待后续对其进行提取使用。

在步骤S110中，从所述流量数据中获取样本集，其中，每个所述流量数据为一个样本，每个所述流量数据被贴有是否是异常流量的标签。

在一实施例中，如图3所示，步骤S110包括：

步骤S1101：将所述流量数据输入离线异常流量识别模型，由异常流量识别模型输出正负样本，所述正样本为正常流量样本，打上正常流量标签；所述负样本为异常流量样本，打上异常流量标签；

步骤S1102：将所有所述正负样本进行数据清洗，其中清洗过的样本组成所述样本集。

离线异常流量识别模型是指已有的训练完毕的识别异常流量的机器学习模型。

数据清洗是指对格式转换失败、部分格式转换的数据进行删除。

使用离线的异常流量识别模型对数据库中的数据贴上正常流量、异常流量的标签，将未完全正确进行格式转换的缺陷数据进行清洗，剩下格式正确、贴好标签的数据作为样本，进而组成样本集，达到了获取能够进行训练的样本集的目的。

在一实施例中，存储在数据库中的数据有着用户访问服务器产生的正常流量数据，也有恶意人员重复大量发送的异常流量数据。其中，异常流量数据包括特定特征字段的访问量异常、流量中所带业务信息异常，例如：正常流量的访问设备号为abcde…，但异常流量设备号为12345…，正常流量的身份证号为18位，异常流量的身份证号为10位。将数据库中的数据输入离线异常流量识别模型后，所述离线模型对数据打上正常流量或异常流量的标签。再对已经贴上标签的数据进行清洗，为的是排除格式不完全、不足以正确判断的数据。每个清洗后的、带有标签的数据均为一个样本，所有样本组成样本集。

在步骤S120中，将所述样本集分出初始训练样本集，包括：用所述样本集中初始训练样本集以外的样本组成对抗训练样本集。

初始训练样本集是指用于对逻辑回归LR模型、随机森林RF模型分别进行训练，使二者分别完成初步训练的样本集。

对抗训练样本集是指用于对逻辑回归LR模型、随机森林RF模型共同进行训练，使二者完成对抗训练的样本集。

通过从样本集中分出初始训练样本集、对抗训练样本集，达到了在不同的训练阶段使用不同的样本集对模型进行训练的目的。

在一实施例中，从样本集中选取30％的样本作为初始训练样本集，选取50％的样本作为对抗训练样本集。

在步骤S130中，将所述初始训练样本集分别输入逻辑回归LR模型与随机森林RF模型进行训练，其中，根据逻辑回归LR模型与随机森林RF模型的输出结果判定所述初始训练样本集的每个样本是否是异常流量，如果判定结果与样本的标签一致，则判定结果准确，判定结果准确的样本数占所述初始训练样本集中的样本总数的比为准确度，在所述准确度没有均达到预定阈值时，不断对所述逻辑回归LR模型与随机森林RF模型进行训练，直到所述准确度均达到预定阈值。

通过这种方法，实现了LR模型与RF模型在异常流量的识别上各自达到预定准确度的目的。

在一实施例中，将所述初始训练样本集输入所述LR模型，所述LR模型对所述初始训练样本集中的每个样本进行输出，输出结果为异常流量风险分数。所述异常流量风险分数反映了所述样本为异常流量的可能性大小。如果所述异常流量风险分数超过预定判定阈值，则将所述样本判定为异常流量。例如，预定判定阈值为87％，LR模型对初始训练样本集中一样本进行输出，输出结果为89％，即说明该样本为异常流量的可能性为89％。由于该输出值超过了预定判定阈值，则将该样本判定为异常流量。

在一实施例中，将所述初始训练样本集输入所述RF模型，所述RF模型由多个决策树组成。对于一个样本，每个决策树都会对其进行输出，最终的判定结果采取“少数服从多数”的策略，即多数决策树做出的输出作为最终对所述样本的判定。例如，RF模型中有100个决策树，对于初始训练样本集中的一个样本，42个决策树输出为“正常流量”，58个决策树输出为“异常流量”，则RF模型对该样本的判定为“异常流量”。

在一实施例中，LR模型对初始训练样本集中的样本进行判定后，如果判定结果与样本的标签一致，则该判定结果准确，判定结果准确的样本数占所述初始训练样本集中的样本总数的比为准确度，如果准确度均达到预定阈值停止训练。例如：准确度的预定阈值为97％，则LR模型与RF模型对初始训练样本集的判定的准确度均需达到97％以上时才可停止训练。

如图4所示，在步骤S130之后，包括：

步骤S132：将所述对抗训练样本集分别输入所述LR模型与RF模型；

步骤S134：如果基于所述LR模型与RF模型的输出判定出的所述对抗训练样本集中的样本是否是异常流量的判定结果一致，却与该样本的标签不一致，将该样本的标签改变为与所述判定结果一致；

步骤S136：确定所述LR模型与RF模型的输出判定出的所述对抗训练样本集中的样本是否是异常流量的判定结果一致、却与该样本的标签不一致的数量占对抗训练样本集中样本总数的比；

步骤S138：如果所述比大于预定阈值，将标签改变后的对抗训练样本集再次输入所述LR模型与RF模型，重复基于所述LR模型与RF模型的输出判定出的所述对抗训练样本集中的样本是否是异常流量的判定结果一致、却与该样本的标签不一致，则将该样本的标签改变为与所述判定结果一致，并确定所述比的过程，直到所述比不大于预定阈值。

通过LR模型与RF模型两种不同判定策略模型对同一对抗训练样本集的共同判定、修正，直到LR模型与RF模型对对抗训练样本集的共同判定的误差小于预定阈值，达到了进一步完善LR模型与RF模型，提高了二者准确度的目的。

在一实施例中，所述对抗训练样本集中有100个样本，所述预定阈值为2％。LR模型与RF模型共同将3个标签本来是“正常流量”的样本判定为“异常流量”，将7个标签本来是“异常流量”的样本判定为“正常流量”，则将这10个样本的标签修改为与LR模型和RF模型判定结果一致。所述是否是异常流量的判定结果一致、却与该样本的标签不一致的数量占对抗训练样本集中样本总数的比为10％，即对所述对抗训练样本集的共同判定的误差为10％，大于预定阈值2％，因此将标签改变后的所述对抗训练样本集再次输入所述LR模型与RF模型，重复基于所述LR模型与RF模型的输出判定出的所述对抗训练样本集中的样本是否是异常流量的判定结果一致、却与该样本的标签不一致，则将该样本的标签改变为与所述判定结果一致，并确定所述比的过程，直所述比不大于预定阈值，即LR模型与RF模型对所述对抗训练样本集的共同判定的误差不大于预定阈值。

在步骤S140中，接收实时流量数据。

实时流量数据是指一定时限内某个动作带来的流量数据。

在步骤S150中，将所述实时流量数据分成第一部分和第二部分，其中，所述第一部分被贴有是否是异常流量的标签。

分出的第一部分的实时流量数据是为了对LR模型与RF模型进行测试。

第二部分的实时流量数据即为实际需要进行异常流量识别的流量数据部分。

在一实施例中，将20％的接收的实时流量数据中确定为第一部分实时流量数据，剩下的80％的接收的实时流量数据确定为第二部分实时流量数据。

在一实施例中，第一部分被贴有的是否是异常流量的标签是通过将第一部分中的流量数据输入所述LR模型与RF模型以外的其他异常流量数据识别模型进行的。例如，使用离线的神经网络模型对第一部分的实时流量数据进行贴标签。

在步骤S160中，将所述LR模型与RF模型同时投入对所述第一部分中的实时流量数据的识别中。

在一实施例中，所述LR模型与RF模型经过对对抗训练样本集的共同训练，准确度均达到预定目标，将二者投入对第一部分中的流量数据的识别中。

在步骤S170中，确定LR模型的判定结果与贴有的标签一致的实时流量数据数占第一部分中的所有实时流量数据的占比，作为第一准确度；确定RF模型的判定结果与贴有的标签一致的实时流量数据数占第一部分中的所有实时流量数据的占比，作为第二准确度。

通过确定第一准确度与第二准确度，以准确度为标准衡量、确定出更优的模型。

在步骤S180中，将第一和第二准确度中准确度更高的模型配置到第二部分中的实时异常流量的识别中，并进行异常流量的实时识别。

将准确度更高的模型配置到第二部分中的实时异常流量的识别，保证了实时识别异常流量的高准确度。

如图2所示，在一实施例中，提供了一种实时识别异常流量的装置，具体包括：第一获取模块210、第二获取模块220、初始训练模块230、接收模块240、分流模块250、确定模块260、分配模块270。

第一获取模块210，配置为获取已经接收、且存储在数据库中的流量数据；

第二获取模块220，配置为从所述流量数据中获取样本集；

初始训练模块230，配置为将所述逻辑回归LR模型与随机森林RF模型训练至准确度均达到预定阈值；

接收模块240，配置为接收实时流量数据；

分流模块250，配置为将所述实时流量数据分成第一部分和第二部分；

确定模块260，配置为确定第一准确度与第二准确度；

分配模块270，配置为将第一准确度和第二准确度中准确度更高的模型配置到第二部分中的实时异常流量的识别中，并进行异常流量的实时识别。

上述装置中各个模块的功能和作用的实现过程具体详见上述实时识别异常流量的方法中对应步骤的实现过程，在此不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

图5示出根据本公开一示例实施方式的一实时识别异常流量的系统架构框图。该系统架构包括:

在一实施例中，管理端340向服务器320传递确定训练LR模型与RF模型过程所述的预定阈值的参数。服务器320从用户终端310处获取流量数据，将获取的流量数据经过离线模型贴上标签，并将所述流量数据以及各个流量数据的标签存储进数据库330以供后续调用。完成异常流量识别后，服务器320将识别结果进行记录，并将所述记录存储进数据库330中。管理端340可通过服务器320查阅所述记录。

通过以上对系统架构的描述，本领域的技术人员易于理解，这里描述的系统架构能够实现图2所示的实时识别异常流量的装置中各个模块的功能。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图6来描述根据本发明的这种实施方式的电子设备400。图6显示的电子设备400仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，电子设备400以通用计算设备的形式表现。电子设备400的组件可以包括但不限于：上述至少一个处理单元410、上述至少一个存储单元420、连接不同系统组件(包括存储单元420和处理单元410)的总线430。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元410执行，使得所述处理单元410执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元410可以执行如图1中所示步骤S100：获取已经接收、且存储在数据库中的流量数据；步骤S110：从所述流量数据中获取样本集，其中，每个所述流量数据为一个样本，每个所述流量数据被贴有是否是异常流量的标签；步骤S120：将所述样本集分出初始训练样本集；步骤S130：将所述初始训练样本集分别输入逻辑回归LR模型与随机森林RF模型进行训练，其中，根据逻辑回归LR模型与随机森林RF模型的输出结果判定所述初始训练样本集的每个样本是否是异常流量，如果判定结果与样本的标签一致，则判定结果准确，判定结果准确的样本数占所述初始训练样本集中的样本总数的比为准确度，在所述准确度没有均达到预定阈值时，不断对所述逻辑回归LR模型与随机森林RF模型进行训练，直到所述准确度均达到预定阈值；步骤S140：接收实时流量数据；步骤S150：将实时流量数据分成第一部分和第二部分，其中，所述第一部分被贴有是否是异常流量的标签；步骤S160：将所述LR模型与RF模型同时投入对所述第一部分中的实时流量数据的识别中；步骤S170：确定LR模型的判定结果与贴有的标签一致的实时流量数据数占第一部分中的所有实时流量数据的占比，作为第一准确度；确定RF模型的判定结果与贴有的标签一致的实时流量数据数占第一部分中的所有实时流量数据的占比，作为第二准确度；步骤S180：将第一准确度和第二准确度中准确度更高的模型配置到第二部分中的实时异常流量的识别中，并进行异常流量的实时识别。

存储单元420可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)4201和/或高速缓存存储单元4202，还可以进一步包括只读存储单元(ROM)4203。

存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204，这样的程序模块4205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线430可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备400也可以与一个或多个外部设备500(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备400交互的设备通信，和/或与使得该电子设备400能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口450进行。并且，电子设备400还可以通过网络适配器460与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器460通过总线430与电子设备400的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图7所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品600，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种实时识别异常流量的方法，其特征在于，包括：

获取已经接收、且存储在数据库中的流量数据；

将所述样本集分出初始训练样本集；

接收实时流量数据；

2.根据权利要求1的方法，其特征在于，所述获取样本集，包括：

3.根据权利要求2的方法，其特征在于，将所述正负样本进行数据清洗，包括：对格式转换失败、部分格式转换的数据进行删除。

4.根据权利要求1所述的方法，其特征在于，所述将所述样本集分出初始训练样本集包括：用所述样本集中初始训练样本集以外的样本组成对抗训练样本集。

5.根据权利要求1的方法，其特征在于，根据逻辑回归LR模型的输出结果判定所述初始训练样本集的每个样本是否是异常流量包括：将逻辑回归LR模型输出的异常流量风险分数与预定风险分数阈值进行比较，其中，如果输出的异常流量风险分数高于预定风险分数阈值，则该样本是异常流量。

6.根据权利要求1所述的方法，其特征在于，所述将所述初始训练样本集分别输入逻辑回归LR模型与随机森林RF模型进行训练之后，包括：

将所述对抗训练样本集分别输入所述LR模型与RF模型；

7.根据权利要求1的方法，其特征在于，第一部分被贴有是否是异常流量的标签是通过将第一部分中的流量数据输入所述LR模型与RF模型以外的其它异常流量数据识别模型进行的。

8.一种实时识别异常流量的装置，其特征在于，包括：

第二获取模块，配置为从所述流量数据中获取样本集；

接收模块，配置为接收实时流量数据；

确定模块，配置为确定第一准确度与第二准确度；

9.一种实时识别异常流量的电子设备，特征在于，包括：

存储器，配置为存储可执行指令；

处理器，配置为执行所述存储器中存储的可执行指令，以执行根据权利要求1-7中任一个所述的方法。

10.一种计算机可读程序介质，其特征在于，其存储有计算机程序指令，当所述计算机指令被计算机执行时，使计算机执行根据权利要求1-7中任一个所述的方法。