CN114024761A

CN114024761A - 网络威胁数据的检测方法、装置、存储介质及电子设备

Info

Publication number: CN114024761A
Application number: CN202111328134.2A
Authority: CN
Inventors: 吕博良; 张�诚; 姜城; 旷亚和
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-02-08
Anticipated expiration: 2041-11-10
Also published as: CN114024761B

Abstract

本申请公开了一种网络威胁数据的检测方法、装置、存储介质及电子设备，涉及信息安全技术领域，该方法包括：将待检测的流量数据进行排序，得到排序后的流量数据；对排序后的流量数据进行特征提取，得到流量数据的特征；根据无监督学习算法对流量数据的特征进行检测，得到检测结果；根据监督学习算法对检测结果进行识别，得到识别结果，其中，识别结果包括如下至少之一：对目标网络漏洞进行攻击的威胁数据、对网络不存在威胁的数据。通过本申请，解决了相关技术中威胁数据对漏洞进行攻击时检测效率较低的问题。

Description

网络威胁数据的检测方法、装置、存储介质及电子设备

技术领域

本申请涉及信息安全技术领域，具体而言，涉及一种网络威胁数据的检测方法、装置、存储介质及电子设备。

背景技术

随着互联网技术的不断发展，互联网企业增加边界防护部署防火墙、ips、waf等安全防护工具，防止黑客攻击、拒绝恶意流量，由于0day漏洞攻击流量为未知的系统漏洞及攻击载荷，使得ips、waf等安全防护工具基于已知规则检测攻击载荷的方法无法精准的检测出0day攻击，故黑客为达到渗透和远程命令执行的目的，利用0day漏洞攻击绕过ips、waf等防护设备的监控，可见，传统手段只能识别已知漏洞，针对未知的0day漏洞攻击识别效率较低。

针对相关技术中威胁数据对漏洞进行攻击时检测效率较低的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种网络威胁数据的检测方法、装置、存储介质及电子设备，以解决相关技术中威胁数据对漏洞进行攻击时检测效率较低的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种网络威胁数据的检测方法。该方法包括：将待检测的流量数据进行排序，得到排序后的流量数据；对排序后的流量数据进行特征提取，得到流量数据的特征；根据无监督学习算法对流量数据的特征进行检测，得到检测结果；根据监督学习算法对检测结果进行识别，得到识别结果，其中，识别结果包括如下至少之一：对目标网络漏洞进行攻击的威胁数据、对网络不存在威胁的数据。

进一步地，在将待检测的流量数据进行排序，得到排序后的流量数据之前，该方法还包括：获取原始流量数据，其中，原始流量数据至少包括多个数据包；在预设时间内将多个数据包按照第一预设数值进行分组，得到分组后的数据包，其中，第一预设数值为多个数据包的源地址IP与目的地址IP组合对的数量；将分组后的数据包进行处理，得到待检测的流量数据。

进一步地，根据无监督学习算法对流量数据的特征进行检测，得到检测结果包括：根据无监督学习算法对流量数据的特征进行离群点的检测，得到检测结果。

进一步地，在根据无监督学习算法对流量数据的特征进行检测，得到检测结果之后，该方法还包括：将检测结果进行标记，得到标记后的检测结果，其中，检测结果包括如下至少之一：第一密度分布类型的流量数据、第二密度分布类型的流量数据，其中，第二密度分布类型的流量数据的分布密度大于第一密度分布类型的流量数据的分布密度；根据标记后的检测结果确定威胁数据的检测模型。

进一步地，根据监督学习算法对检测结果进行识别，得到识别结果包括：若根据检测模型识别出检测结果为第一密度分布类型的流量数据，则确定流量数据为对网络不存在威胁的数据；若根据检测模型识别出检测结果为第二密度分布类型的流量数据，则确定流量数据为对目标网络漏洞进行攻击的威胁数据。

进一步地，将检测结果进行标记，得到标记后的检测结果包括：在流量数据为第一密度分布类型的情况下，对流量数据采用第二预设数值进行标记，得到标记后的检测结果；在流量数据为第二密度分布类型的情况下，对流量数据采用第三预设数值进行标记，得到标记后的检测结果。

进一步地，流量数据的特征至少包括：流量数据的请求数据、流量数据的协议类型、流量数据的交互频率、流量数据的域名长度、流量数据中字符的占比。

为了实现上述目的，根据本申请的另一方面，提供了一种网络威胁数据的检测装置。该装置包括：第一排序单元，用于将待检测的流量数据进行排序，得到排序后的流量数据；第一提取单元，用于对排序后的流量数据进行特征提取，得到流量数据的特征；第一检测单元，用于根据无监督学习算法对流量数据的特征进行检测，得到检测结果；第一识别单元，用于根据监督学习算法对检测结果进行识别，得到识别结果，其中，识别结果包括如下至少之一：对目标网络漏洞进行攻击的威胁数据、对网络不存在威胁的数据。

进一步地，该装置还包括：第一获取单元，用于在将待检测的流量数据进行排序，得到排序后的流量数据之前，获取原始流量数据，其中，原始流量数据至少包括多个数据包；第一分组单元，用于在预设时间内将多个数据包按照第一预设数值进行分组，得到分组后的数据包，其中，第一预设数值为多个数据包的源地址IP与目的地址IP组合对的数量；第一处理单元，用于将分组后的数据包进行处理，得到待检测的流量数据。

进一步地，第一检测单元包括：第一检测模块，用于根据无监督学习算法对流量数据的特征进行离群点的检测，得到检测结果。

进一步地，该装置还包括：第一标记单元，用于在根据无监督学习算法对流量数据的特征进行检测，得到检测结果之后，将检测结果进行标记，得到标记后的检测结果，其中，检测结果包括如下至少之一：第一密度分布类型的流量数据、第二密度分布类型的流量数据，其中，第二密度分布类型的流量数据的分布密度大于第一密度分布类型的流量数据的分布密度；第一确定单元，用于根据标记后的检测结果确定威胁数据的检测模型。

进一步地，第一识别单元包括：第一确定模块，用于若根据检测模型识别出检测结果为第一密度分布类型的流量数据，则确定流量数据为对网络不存在威胁的数据；第二确定模块，用于若根据检测模型识别出检测结果为第二密度分布类型的流量数据，则确定流量数据为对目标网络漏洞进行攻击的威胁数据。

进一步地，第一标记单元包括：第一标记模块，用于在流量数据为第一密度分布类型的情况下，对流量数据采用第二预设数值进行标记，得到标记后的检测结果；第二标记模块，用于在流量数据为第二密度分布类型的情况下，对流量数据采用第三预设数值进行标记，得到标记后的检测结果。

根据本申请实施例的另一方面，还提供了一种电子设备，包括一个或多个处理器和存储器，该计算机程序/指令被处理器执行时执行上述任意一项的方法。

根据本申请实施例的另一方面，还提供了一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时执行上述任意一项的方法。

通过本申请，采用以下步骤：将待检测的流量数据进行排序，得到排序后的流量数据；对排序后的流量数据进行特征提取，得到流量数据的特征；根据无监督学习算法对流量数据的特征进行检测，得到检测结果；根据监督学习算法对检测结果进行识别，得到识别结果，其中，识别结果包括如下至少之一：对目标网络漏洞进行攻击的威胁数据、对网络不存在威胁的数据。解决了相关技术中威胁数据对漏洞进行攻击时检测效率较低的问题。通过据无监督学习算法对流量数据的特征进行检测，得到检测结果，以及根据监督学习算法对检测结果进行识别，进而达到了提高威胁数据对漏洞进行攻击时检测效率的效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例提供的网络威胁数据的检测方法的流程图；

图2是根据本申请实施例提供的网络威胁数据的检测方法的系统逻辑流程图；

图3是根据本申请实施例提供的网络威胁数据的检测装置的示意图一；

图4是根据本申请实施例提供的网络威胁数据的检测装置的示意图二；

图5是根据本申请实施例提供的网络威胁数据的检测装置的模型架构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

IF-IDF：是一种用于信息检索与数据挖掘的常用加权技术。

0day攻击：在计算机领域中，0day通常是指还没有补丁的漏洞，而0day攻击则是指利用这种漏洞进行的攻击。

离群点：是指一个时间序列中，远离序列的一般水平的极端大值和极端小值。

根据本申请的实施例，提供了一种网络威胁数据的检测方法。

图1是根据本申请实施例的网络威胁数据的检测方法的流程图。如图1所示，该方法包括以下步骤：

步骤S101，将待检测的流量数据进行排序，得到排序后的流量数据。

具体的，在将待检测的流量数据进行排序之前，需要对待测试的流量数据进行获取。

可选地，在本申请实施例提供的网络威胁数据的检测方法中，在将待检测的流量数据进行排序，得到排序后的流量数据之前，该方法还包括：获取原始流量数据，其中，原始流量数据至少包括多个数据包；在预设时间内将多个数据包按照第一预设数值进行分组，得到分组后的数据包，其中，第一预设数值为多个数据包的源地址IP与目的地址IP组合对的数量；将分组后的数据包进行处理，得到待检测的流量数据。

例如，按照一定时间窗口t(对应于本申请中的预设时间)从网络数据流中对原始流量数据进行提取，其中，时间t的大小取决于要提取的原始流量数据的大小，若原始流量数据中的多个数据包的源地址IP与目的地址IP组合对的数量为a，在时间t内将原始流量数据中的多个数据包分为a个组，其中，每个组内包含数据的业务请求以及其对应的全部数据，通过将分组后的数据包进行清洗处理，得到待检测的流量数据，进一步使得待检测的流量数据变得完整，从而使得后续对待检测的流量数据的分析更为准确。

具体的，本申请将待检测的流量数据按照一定顺序进行排列，以便后续系统对流量数据进行分析时，能够较为明显的发现数据的特征。

步骤S102，对排序后的流量数据进行特征提取，得到流量数据的特征。

具体的，将上述得到的待测试的流量数据生成业务流量特征工程，得到流量数据的特征，可选地，在本申请实施例提供的网络威胁数据的检测方法中，流量数据的特征至少包括：流量数据的请求数据、流量数据的协议类型、流量数据的交互频率、流量数据的域名长度、流量数据中字符的占比。

具体的，上述的流量数据的交互频率包含数据的源ip与目的ip之间的交换频率，其中，通过对流量载荷中的自然语言分词等特征的处理，得到流量数据中字符的占比，例如，流量载荷自然语言分词以字符为分词的最小单位进行n-gram分词，随后通过TF-IDF算法计算得到载荷的分词特征并计算载荷中各字符占比率，即阿拉伯数字0-9和字母a-z的占比，如P[a]＝count[a]/len[data]，需要说明的是，上述流量数据的特征还包括：流量数据的域名有效性以及流量数据的数据分布。本申请通过对待检测的流量数据的特征提取，提升了对威胁数据进行0day漏洞攻击时的识别效率。

步骤S103，根据无监督学习算法对流量数据的特征进行检测，得到检测结果。

具体的，根据上述的提取到的流量数据的特征得到流量数据的特征向量，本申请是通过无监督学习算法的孤立森林异常检测算法实现对特征向量的检测。

可选地，在本申请实施例提供的网络威胁数据的检测方法中，根据无监督学习算法对流量数据的特征进行检测，得到检测结果包括：根据无监督学习算法对流量数据的特征进行离群点的检测，得到检测结果。

具体的，根据孤立森林异常检测算法对流量数据的特征进行离群点的检测，，通过检测到的离群点位置数据便于对后续的异常数据的分析，进一步提升了对异常数据的检测效率。

可选地，在本申请实施例提供的网络威胁数据的检测方法中，在根据无监督学习算法对流量数据的特征进行检测，得到检测结果之后，该方法还包括：将检测结果进行标记，得到标记后的检测结果，其中，检测结果包括如下至少之一：第一密度分布类型的流量数据、第二密度分布类型的流量数据；根据标记后的检测结果确定威胁数据的检测模型，其中，第二密度分布类型的流量数据的分布密度大于第一密度分布类型的流量数据的分布密度。

具体的，通过对流量数据的特征进行离群点的检测，可以得到不同密度分布的流量数据，其中，检测结果包括，第一密度分布类型的流量数据为分布稀疏的流量数据，第二密度分布类型的流量数据为分布高密集的流量数据。根据不同密度分布的流量数据对威胁数据的检测模型(也即0day攻击的检测模型)进行构建，本申请通过对网络流量进行建模分析，进而提升了对0day漏洞攻击流量数据的检测效率。

可选地，在本申请实施例提供的网络威胁数据的检测方法中，将检测结果进行标记，得到标记后的检测结果包括：在流量数据为第一密度分布类型的情况下，对流量数据采用第二预设数值进行标记，得到标记后的检测结果；在流量数据为第二密度分布类型的情况下，对流量数据采用第三预设数值进行标记，得到标记后的检测结果。

例如，将第一密度分布类型的流量数据采用数字0进行标记，将第二密度分布类型的流量数据采用数字1进行标记，并将标记后的数据分别存入无监督算法模型的两个簇中，以方便后续对威胁数据的检测。

步骤S104，根据监督学习算法对检测结果进行识别，得到识别结果，其中，识别结果包括如下至少之一：对目标网络漏洞进行攻击的威胁数据、对网络不存在威胁的数据。

具体的，利用监督学习算法将0day攻击的检测模型检测识别出流量数据进行识别，进一步地提升了企业应对网络威胁数据的安全防护能力。

可选地，在本申请实施例提供的网络威胁数据的检测方法中，根据监督学习算法对检测结果进行识别，得到识别结果包括：若根据检测模型识别出检测结果为第一密度分布类型的流量数据，则确定流量数据为对网络不存在威胁的数据；若根据检测模型识别出检测结果为第二密度分布类型的流量数据，则确定流量数据为对目标网络漏洞进行攻击的威胁数据。

具体的，0day攻击的检测模型将正常簇(对应于本申请中标记为0的检测结果)的输出结果判定为正常流量；0day攻击的检测模型将标记为1的检测结果的输出结果判定为黑样本数据，也即对0day漏洞(对应于本申请中的目标网络漏洞)进行攻击的流量数据。

可选地，图2是根据本申请实施例提供的网络威胁数据的检测方法的系统逻辑流程图，如图2所示，对网络流量数据进行提取，并建立业务流量特征工程，训练并生成0day攻击的检测模型，并利用该检测模型对流量数据中的威胁数据进行判断。

综上，本申请实施例提供的网络威胁数据的检测方法，通过将待检测的流量数据进行排序，得到排序后的流量数据；对排序后的流量数据进行特征提取，得到流量数据的特征；根据无监督学习算法对流量数据的特征进行检测，得到检测结果；根据监督学习算法对检测结果进行识别，得到识别结果，其中，识别结果包括如下至少之一：对目标网络漏洞进行攻击的威胁数据、对网络不存在威胁的数据。解决了相关技术中威胁数据对漏洞进行攻击时检测效率较低的问题。通过据无监督学习算法对流量数据的特征进行检测，得到检测结果，以及根据监督学习算法对检测结果进行识别，进而达到了提高威胁数据对漏洞进行攻击时检测效率的效果。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种网络威胁数据的检测装置，需要说明的是，本申请实施例的网络威胁数据的检测装置可以用于执行本申请实施例所提供的用于网络威胁数据的检测方法。以下对本申请实施例提供的网络威胁数据的检测装置进行介绍。

图3是根据本申请实施例的网络威胁数据的检测装置的示意图一。如图3所示，该装置包括：第一排序单元301、第一提取单元302、第一检测单元303、第一识别单元304。

具体的，第一排序单元301，用于将待检测的流量数据进行排序，得到排序后的流量数据；

第一提取单元302，用于对排序后的流量数据进行特征提取，得到流量数据的特征；

第一检测单元303，用于根据无监督学习算法对流量数据的特征进行检测，得到检测结果；

第一识别单元304，用于根据监督学习算法对检测结果进行识别，得到识别结果，其中，识别结果包括如下至少之一：对目标网络漏洞进行攻击的威胁数据、对网络不存在威胁的数据。

综上，本申请实施例提供的网络威胁数据的检测装置，通过第一排序单元301将待检测的流量数据进行排序，得到排序后的流量数据；第一提取单元302对排序后的流量数据进行特征提取，得到流量数据的特征；第一检测单元303根据无监督学习算法对流量数据的特征进行检测，得到检测结果；第一识别单元304根据监督学习算法对检测结果进行识别，得到识别结果，其中，识别结果包括如下至少之一：对目标网络漏洞进行攻击的威胁数据、对网络不存在威胁的数据，解决了相关技术中威胁数据对漏洞进行攻击时检测效率较低的问题。通过据无监督学习算法对流量数据的特征进行检测，得到检测结果，以及根据监督学习算法对检测结果进行识别，进而达到了提高威胁数据对漏洞进行攻击时检测效率的效果。

可选地，在本申请实施例提供的网络威胁数据的检测装置中，该装置还包括：第一获取单元，用于在将待检测的流量数据进行排序，得到排序后的流量数据之前，获取原始流量数据，其中，原始流量数据至少包括多个数据包；第一分组单元，用于在预设时间内将多个数据包按照第一预设数值进行分组，得到分组后的数据包，其中，第一预设数值为多个数据包的源地址IP与目的地址IP组合对的数量；第一处理单元，用于将分组后的数据包进行处理，得到待检测的流量数据。

可选地，在本申请实施例提供的网络威胁数据的检测装置中，第一检测单元303包括：第一检测模块，用于根据无监督学习算法对流量数据的特征进行离群点的检测，得到检测结果。

可选地，在本申请实施例提供的网络威胁数据的检测装置中，该装置还包括：第一标记单元，用于在根据无监督学习算法对流量数据的特征进行检测，得到检测结果之后，将检测结果进行标记，得到标记后的检测结果，其中，检测结果包括如下至少之一：第一密度分布类型的流量数据、第二密度分布类型的流量数据，其中，第二密度分布类型的流量数据的分布密度大于第一密度分布类型的流量数据的分布密度；第一确定单元，用于根据标记后的检测结果确定威胁数据的检测模型。

可选地，在本申请实施例提供的网络威胁数据的检测装置中，第一识别单元304包括：第一确定模块，用于若根据检测模型识别出检测结果为第一密度分布类型的流量数据，则确定流量数据为对网络不存在威胁的数据；第二确定模块，用于若根据检测模型识别出检测结果为第二密度分布类型的流量数据，则确定流量数据为对目标网络漏洞进行攻击的威胁数据。

可选地，在本申请实施例提供的网络威胁数据的检测装置中，第一标记单元包括：第一标记模块，用于在流量数据为第一密度分布类型的情况下，对流量数据采用第二预设数值进行标记，得到标记后的检测结果；第二标记模块，用于在流量数据为第二密度分布类型的情况下，对流量数据采用第三预设数值进行标记，得到标记后的检测结果。

可选地，在本申请实施例提供的网络威胁数据的检测装置中，流量数据的特征至少包括：流量数据的请求数据、流量数据的协议类型、流量数据的交互频率、流量数据的域名长度、流量数据中字符的占比。

可选地，图4是根据本申请实施例提供的网络威胁数据的检测装置的示意图二，如图4所示，该装置包括：网络数据提取模块、流量特征提取模块、0day攻击模型训练和判别模块，其中，网络数据流量(对应于本申请中的原始流量数据)通过网络数据提取模块进行获取，该模块选取符合格式保准的数据信息数据送入流量特征提取模块，流量特征提取模块对流量数据的特征进行提取，最终通过0day攻击判别模块对流量进行识别。

可选地，图5是根据本申请实施例提供的网络威胁数据的检测装置的模型架构示意图，如图5所示，0day攻击模型训练和判别模块包含0day攻击流量训练单元和0day攻击流量判别单元，0day攻击流量训练单元接收流量特征提取模块中得到的网络数据流量特征向量，0day攻击流量判别单元接收0day攻击流量训练单元的标记流量数据，利用监督学习算法，对标记为1的黑样本数据进行0day攻击检测判别。

网络威胁数据的检测装置包括处理器和存储器，上述第一排序单元301、第一提取单元302、第一检测单元303、第一识别单元304等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来网络威胁数据的检测。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现网络威胁数据的检测方法。

本发明实施例提供了一种处理器，处理器用于运行程序，其中，程序运行时执行网络威胁数据的检测方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：将待检测的流量数据进行排序，得到排序后的流量数据；对排序后的流量数据进行特征提取，得到流量数据的特征；根据无监督学习算法对流量数据的特征进行检测，得到检测结果；根据监督学习算法对检测结果进行识别，得到识别结果，其中，识别结果包括如下至少之一：对目标网络漏洞进行攻击的威胁数据、对网络不存在威胁的数据。

处理器执行程序时还实现以下步骤：在将待检测的流量数据进行排序，得到排序后的流量数据之前，获取原始流量数据，其中，原始流量数据至少包括多个数据包；在预设时间内将多个数据包按照第一预设数值进行分组，得到分组后的数据包，其中，第一预设数值为多个数据包的源地址IP与目的地址IP组合对的数量；将分组后的数据包进行处理，得到待检测的流量数据。

处理器执行程序时还实现以下步骤：根据无监督学习算法对流量数据的特征进行离群点的检测，得到检测结果。

处理器执行程序时还实现以下步骤：在根据无监督学习算法对流量数据的特征进行检测，得到检测结果之后，将检测结果进行标记，得到标记后的检测结果，其中，检测结果包括如下至少之一：第一密度分布类型的流量数据、第二密度分布类型的流量数据，其中，第二密度分布类型的流量数据的分布密度大于第一密度分布类型的流量数据的分布密度；根据标记后的检测结果确定威胁数据的检测模型。

处理器执行程序时还实现以下步骤：若根据检测模型识别出检测结果为第一密度分布类型的流量数据，则确定流量数据为对网络不存在威胁的数据；若根据检测模型识别出检测结果为第二密度分布类型的流量数据，则确定流量数据为对目标网络漏洞进行攻击的威胁数据。

处理器执行程序时还实现以下步骤：在流量数据为第一密度分布类型的情况下，对流量数据采用第二预设数值进行标记，得到标记后的检测结果；在流量数据为第二密度分布类型的情况下，对流量数据采用第三预设数值进行标记，得到标记后的检测结果。

处理器执行程序时还实现以下步骤：流量数据的特征至少包括：流量数据的请求数据、流量数据的协议类型、流量数据的交互频率、流量数据的域名长度、流量数据中字符的占比。

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：将待检测的流量数据进行排序，得到排序后的流量数据；对排序后的流量数据进行特征提取，得到流量数据的特征；根据无监督学习算法对流量数据的特征进行检测，得到检测结果；根据监督学习算法对检测结果进行识别，得到识别结果，其中，识别结果包括如下至少之一：对目标网络漏洞进行攻击的威胁数据、对网络不存在威胁的数据。

当在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：在将待检测的流量数据进行排序，得到排序后的流量数据之前，获取原始流量数据，其中，原始流量数据至少包括多个数据包；在预设时间内将多个数据包按照第一预设数值进行分组，得到分组后的数据包，其中，第一预设数值为多个数据包的源地址IP与目的地址IP组合对的数量；将分组后的数据包进行处理，得到待检测的流量数据。

当在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：根据无监督学习算法对流量数据的特征进行离群点的检测，得到检测结果。

当在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：在根据无监督学习算法对流量数据的特征进行检测，得到检测结果之后，将检测结果进行标记，得到标记后的检测结果，其中，检测结果包括如下至少之一：第一密度分布类型的流量数据、第二密度分布类型的流量数据，其中，第二密度分布类型的流量数据的分布密度大于第一密度分布类型的流量数据的分布密度；根据标记后的检测结果确定威胁数据的检测模型。

当在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：若根据检测模型识别出检测结果为第一密度分布类型的流量数据，则确定流量数据为对网络不存在威胁的数据；若根据检测模型识别出检测结果为第二密度分布类型的流量数据，则确定流量数据为对目标网络漏洞进行攻击的威胁数据。

当在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：在流量数据为第一密度分布类型的情况下，对流量数据采用第二预设数值进行标记，得到标记后的检测结果；在流量数据为第二密度分布类型的情况下，对流量数据采用第三预设数值进行标记，得到标记后的检测结果。

当在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：流量数据的特征至少包括：流量数据的请求数据、流量数据的协议类型、流量数据的交互频率、流量数据的域名长度、流量数据中字符的占比。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种网络威胁数据的检测方法，其特征在于，包括：

将待检测的流量数据进行排序，得到排序后的流量数据；

对所述排序后的流量数据进行特征提取，得到流量数据的特征；

根据无监督学习算法对所述流量数据的特征进行检测，得到检测结果；

根据监督学习算法对所述检测结果进行识别，得到识别结果，其中，所述识别结果包括如下至少之一：对目标网络漏洞进行攻击的威胁数据、对网络不存在威胁的数据。

2.根据权利要求1所述的方法，其特征在于，在将待检测的流量数据进行排序，得到排序后的流量数据之前，所述方法还包括：

获取原始流量数据，其中，所述原始流量数据至少包括多个数据包；

在预设时间内将所述多个数据包按照第一预设数值进行分组，得到分组后的数据包，其中，所述第一预设数值为所述多个数据包的源地址IP与目的地址IP组合对的数量；

将所述分组后的数据包进行处理，得到所述待检测的流量数据。

3.根据权利要求1所述的方法，其特征在于，根据无监督学习算法对所述流量数据的特征进行检测，得到检测结果包括：

根据无监督学习算法对所述流量数据的特征进行离群点的检测，得到所述检测结果。

4.根据权利要求1所述的方法，其特征在于，在根据无监督学习算法对所述流量数据的特征进行检测，得到检测结果之后，所述方法还包括：

将所述检测结果进行标记，得到标记后的检测结果，其中，所述检测结果包括如下至少之一：第一密度分布类型的流量数据、第二密度分布类型的流量数据，其中，所述第二密度分布类型的流量数据的分布密度大于所述第一密度分布类型的流量数据的分布密度；

根据所述标记后的检测结果确定所述威胁数据的检测模型。

5.根据权利要求4所述的方法，其特征在于，根据监督学习算法对所述检测结果进行识别，得到识别结果包括：

若根据所述检测模型识别出所述检测结果为所述第一密度分布类型的流量数据，则确定所述流量数据为对所述网络不存在威胁的数据；

若根据所述检测模型识别出所述检测结果为所述第二密度分布类型的流量数据，则确定所述流量数据为对目标网络漏洞进行攻击的威胁数据。

6.根据权利要求4所述的方法，其特征在于，将所述检测结果进行标记，得到标记后的检测结果包括：

在所述流量数据为所述第一密度分布类型的情况下，对所述流量数据采用第二预设数值进行标记，得到标记后的检测结果；

在所述流量数据为所述第二密度分布类型的情况下，对所述流量数据采用第三预设数值进行标记，得到标记后的检测结果。

7.根据权利要求1所述的方法，其特征在于，所述流量数据的特征至少包括：所述流量数据的请求数据、所述流量数据的协议类型、所述流量数据的交互频率、所述流量数据的域名长度、所述流量数据中字符的占比。

8.一种网络威胁数据的检测装置，其特征在于，包括：

第一排序单元，用于将待检测的流量数据进行排序，得到排序后的流量数据；

第一提取单元，用于对所述排序后的流量数据进行特征提取，得到流量数据的特征；

第一检测单元，用于根据无监督学习算法对所述流量数据的特征进行检测，得到检测结果；

第一识别单元，用于根据监督学习算法对所述检测结果进行识别，得到识别结果，其中，所述识别结果包括如下至少之一：对目标网络漏洞进行攻击的威胁数据、对网络不存在威胁的数据。

9.一种计算机可读存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至7中任意一项所述的方法。

10.一种电子设备，其特征在于，包括：包括一个或多个处理器和存储器，所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至7中任意一项所述的网络威胁数据的检测方法。