CN106713324A - 一种流量检测方法及装置 - Google Patents

一种流量检测方法及装置 Download PDF

Info

Publication number
CN106713324A
CN106713324A CN201611236423.9A CN201611236423A CN106713324A CN 106713324 A CN106713324 A CN 106713324A CN 201611236423 A CN201611236423 A CN 201611236423A CN 106713324 A CN106713324 A CN 106713324A
Authority
CN
China
Prior art keywords
algorithm
default
checked
discharge
measurement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611236423.9A
Other languages
English (en)
Other versions
CN106713324B (zh
Inventor
陈永环
张迪
张晓明
赵冲翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201611236423.9A priority Critical patent/CN106713324B/zh
Publication of CN106713324A publication Critical patent/CN106713324A/zh
Application granted granted Critical
Publication of CN106713324B publication Critical patent/CN106713324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种流量检测方法及装置,所述方法包括:针对包含待检测流量的日志进行特征处理,获得每一条待检测流量的特征;根据所述特征,确定每一条待检测流量的特征向量;利用预设聚类算法,对所述特征向量进行聚类;分别利用预设分类算法中的每一个分类算法和预设训练数据集,对聚类结果进行分类;根据每一个分类算法的分类结果、预设训练数据集以及预设决策树算法,检测每一个特征向量对应的待检测流量是否为异常流量。应用本发明实施例,提高了异常流量检测的准确率。

Description

一种流量检测方法及装置
技术领域
本发明涉及异常流量检测领域,特别涉及一种流量检测方法及装置。
背景技术
随着互联网技术的发展,网络应用得到了极大的普及,不明计算机的接入可能会造成网络异常流量的发生。异常流量是造成网络安全的问题之一,它是指对正常网络使用造成不良影响,对目标主机进行控制与破坏的流量模式,常见的形式有木马病毒、网络蠕虫和分布式拒绝服务攻击等。因此,快速从网络中检测出异常流量对于保护网络安全是非常重要的。
现有的异常流量检测是通过基于监督学习的机器学习算法进行检测的,具体过程是:采用预先收集的训练数据集(黑名单的流量和白名单的流量)和分类算法对待检测流量进行训练,得到待检测流量的分类结果,再通过分类算法获得待检测流量属于异常流量的概率,根据预测概率检测待检测流量是否为异常流量。基于监督学习主要是通过广泛的学习,因此训练数据集种类的完备直接影响到训练的结果。当未知流量数据出现的时候,因为没有相应的训练数据集进行学习,因而不能准确的将未知流量进行分类,导致异常流量检测准确率较低。
发明内容
本发明实施例的目的在于提供一种流量检测方法及装置,以提高异常流量检测的准确率。
为达到上述目的,本发明实施例公开了一种流量检测方法,所述方法包括:
针对包含待检测流量的日志进行特征处理,获得每一条待检测流量的特征;
根据所述特征,确定每一条待检测流量的特征向量;
利用预设聚类算法,对所述特征向量进行聚类;
分别利用预设分类算法中的每一个分类算法和预设训练数据集,对聚类结果进行分类;
根据每一个分类算法的分类结果、预设训练数据集以及预设决策树算法,检测每一个特征向量对应的待检测流量是否为异常流量。
可选的,所述预设聚类算法为:K-means算法。
可选的,所述预设分类算法,包括以下算法中一种或几种:
逻辑回归算法、支持向量机算法、随机森林算法。
可选的,所述预设决策树算法为:梯度迭代决策树算法。
可选的,在所述根据所述特征,确定每一条待检测流量的特征向量之前,所述方法还包括:
对获得每一条待检测流量的特征进行预设处理,所述预设处理包括:预处理、离散化处理、归一化处理和插值处理中的一种或几种;
所述根据所述特征,确定每一条待检测流量的特征向量,包括:
根据预设处理后的特征,确定每一条待检测流量的特征向量。
可选的,所述方法还包括:
根据检测结果对所述每一个分类算法的分类结果进行验证;
如果验证错误,更改该分类算法对聚类结果进行分类时所使用的训练数据集。
为达到上述目的,本发明实施例公开了一种流量检测装置,所述装置包括:
获得模块,用于针对包含待检测流量的日志进行特征处理,获得每一条待检测流量的特征;
确定模块,用于根据所述特征,确定每一条待检测流量的特征向量;
聚类模块,用于利用预设聚类算法,对所述特征向量进行聚类;
分类模块,用于分别利用预设分类算法中的每一个分类算法和预设训练数据集,对聚类结果进行分类;
检测模块,用于根据每一个分类算法的分类结果、预设训练数据集以及预设决策树算法,检测每一个特征向量对应的待检测流量是否为异常流量。
可选的,所述预设聚类算法为:K-means算法。
所述预设分类算法,包括以下算法中一种或几种:
逻辑回归算法、支持向量机算法、随机森林算法。
所述预设决策树算法为:梯度迭代决策树算法。
可选的,所述装置还包括:
预处理模块,用于对获得每一条待检测流量的特征进行预设处理,所述预设处理包括:预处理、离散化处理、归一化处理和插值处理中的一种或几种;
所述确定模块,具体用于:
根据预设处理后的特征,确定每一条待检测流量的特征向量。
可选的,所述装置还包括:
验证模块,用于根据检测结果对所述每一个分类算法的分类结果进行验证;
更改模块,用于在所述验证模块的验证结果为错误的情况下,更改该分类算法对聚类结果进行分类时所使用的训练数据集。
由上述的技术方案可见,本发明实施例提供的一种流量检测方法及装置,针对包含待检测流量的日志进行特征处理,获得每一条待检测流量的特征;根据所述特征,确定每一条待检测流量的特征向量;利用预设聚类算法,对所述特征向量进行聚类;分别利用预设分类算法中的每一个分类算法和预设训练数据集,对聚类结果进行分类;根据每一个分类算法的分类结果、预设训练数据集以及预设决策树算法,检测每一个特征向量对应的待检测流量是否为异常流量。
应用本发明实施例,通过采用非监督的聚类算法对原始日志中的待检测流量的特征向量进行聚类后,再采用基于监督学习的分类算法和训练数据集对聚类后的结果进行分类,对分类后的结果采用基于决策树算法检测每一个特征向量对应的待检测流量是否为异常流量,解决了现有技术中通过训练数据集对待检测的流量进行分类在遇到未知流量时,因为没有相关的训练数据集而不能准确的将其进行分类,从而无法得知该未知流量是否为异常流量的问题。本发明实施例采用的聚类算法,即使存在未知流量也可以通过聚类算法自动将其分类,不需要依赖训练数据集进行学习。因此,提高了异常流量检测的准确率。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的流量检测方法的一种流程示意图;
图2为本发明实施例提供的流量检测方法的另一种流程示意图;
图3为本发明实施例提供的流量检测方法的再一种流程示意图;
图4为本发明实施例提供的流量检测装置的一种结构示意图;
图5为本发明实施例提供的流量检测装置的另一种结构示意图;
图6为本发明实施例提供的流量检测装置的再一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为解决现有技术问题,本发明实施例提供了一种流量检测方法及装置,以下分别进行详细说明。
需要说明的是,机器学习分为有监督的学习和无监督的学习,有监督的学习采用预先标记好的样本对待检测的样本进行训练,对应的分类算法有逻辑回归算法、支持向量机算法、随机森林算法。基于无监督的机器学习,是根据一组数据的相似度而生成的一组数据的集合,不需要预先标记好的样本,例如聚类算法。
本领域技术人员可以理解的是,服务器时刻在接收来自终端的访问,每一次访问就会生成一条流量记录,从而生成包含大量流量记录的日志。针对网站的管理者来说,为了维护网站的正常使用,需要进行检测是否有异常流量的产生,会从日志包含的流量进行分析,这些流量即是待检测的流量。
参见图1,图1为本发明实施例提供的流量检测方法的一种流程示意图,所述方法包括步骤:
S101,针对包含待检测流量的日志进行特征处理,获得每一条待检测流量的特征。
S102,根据所述特征,确定每一条待检测流量的特征向量。
S103,利用预设聚类算法,对所述特征向量进行聚类。
具体的,实际应用中,所述预设聚类算法可以为K-means算法。
S104,分别利用预设分类算法中的每一个分类算法和预设训练数据集,对聚类结果进行分类。
具体的,实际应用中,所述预设分类算法,可以包括以下算法中一种或几种:逻辑回归算法、支持向量机算法、随机森林算法。
S105,根据每一个分类算法的分类结果、预设训练数据集以及预设决策树算法,检测每一个特征向量对应的待检测流量是否为异常流量。
具体的,实际应用中,所述预设决策树算法可以为梯度迭代决策树算法。
本领域技术人员可以理解的是,日志中包含大量的流量,每一条的流量经过特征处理之后可以获得很多个该条流量的特征,示例性的,特征可以是上行总包数、上行总字节数、下行总包数、下行总字节数、平均活动状态时间、平均空闲时间等等,每条网络流量的特征可以多达两百多个。从每条流量的特征中选择一些特征,根据其对应的特征值确定该条待检测流量的特征向量。
示例性的,假设总共n条流量,对于n条流量中的任意一条流量i均有个5个特征,分别为上行总包数、上行总字节数、下行总包数、下行总字节数、平均活动状态时间。假设每个特征用2维的向量表示,则对于n条流量中的任意一条流量i的上行总包数对应的向量可以表示为:ai0ai1,上行总字节数对应的向量可以表示为:ai2ai3,下行总包数对应的向量可以表示为:ai4ai5,下行总字节数对应的向量可以表示为:ai6ai7,平均活动状态时间对应的向量可以表示为:ai8ai9,则对于n条流量中的任意一条流量i对应的特征向量ai可以用这5个特征的向量进行表示,比如:ai=ai0ai1ai2ai3ai4ai5ai6ai7ai8ai9,假设这n条流量对应的n个特征向量分别是a1至an
采用预设的聚类算法对特征向量进行聚类,聚类是根据特征向量内部的相似度进行类别的划分,在没有训练数据集的情况下可以把n个特征向量a1至an划分成k类。具体的,可以采用K-means算法进行聚类,其中,K-means算法接收输入量k,然后将输入的n个数据对象划分为k个类,以使所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个中心对象来进行计算的,输出满足方差最小标准的k个聚类。采用K-means算法具有分类速度快的优点,可以提高流量的分类速度。聚类算法为现有技术,本发明实施例在此不对其进行赘述。
聚类算法是根据向量内部的相似度进行聚类,但是聚类的结果并无法直接得知哪些流量是异常的,所以在S104中采用基于监督学习的分类算法和预设的训练数据集对聚类的结果再次进行分类。预设训练数据集是预先收集的黑名单和白名单流量的集合,用以对未知的、已分类的流量进行训练,并结合分类算法对其进行分类,假设,对聚类结果的k个类别分类成m类。本发明实施例在聚类算法所得到的分类结果的基础上进一步采用基于监督学习的分类算法进行分类,所以融合了基于非监督学习的聚类算法和基于监督学习的分类算法,能够进一步提高流量检测的准确性。
进一步的,预设的分类算法可以是逻辑回归(Logistic Regression,简称为LR)算法、支持向量机(Support Vector Machine,简称SVM)算法、随机森林算法(Random Forest,简称为RF)中的一种或者几种。逻辑回归算法的核心思想是利用训练数据集对分类边界建立回归方程,以此进行分类,是一种选择最优分类的算法,整个算法可以看做是一个预测类别的函数将输入的待分类数据进行分类并采用检测函数(又叫损失函数或错误函数)进行检测分类的好坏,以达到正确分类的目的。支持向量机算法通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化。随机森林算法是用随机的方式建立一个森林,森林里面有很多的决策树组成,每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的待检测样本(本发明实施例中指待检测流量对应的特征向量)输入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类,然后看看哪一类被选择最多,就预测这个样本为那一类。当采用多种分类算法时,相比较现有技术中只采用一种分类方法进行分类,进一步提高了流量检测的鲁棒性。
根据分类算法得到的m类结果,还无法得知每一类中的特征向量对应的流量是不是异常流量,因此,再次采用具有分类和预测功能的决策树算法进行检测。决策树算法多棵决策树组成,所有树的结论累加起来做最终答案。示例性的,流量A包含的5个特征,假设5个特征分别为:上行总包数、上行总字节数、下行总包数、下行总字节数、平均活动状态时间,分别进行决策树训练,共计采用5棵决策树,根据已有的训练数据集每棵树分别判断当前特征的值为异常流量的概率,进而得到该条流量为异常流量的预测概率。还可以采用与预设的概率阈值进行比较,如果大于预设阈值,则检测该特征向量对应的待检测流量为异常流量;不然,则为正常流量。示例性的,特征向量a的预测概率为0.6,预设阈值为0.55,因为0.6>0.55,所以检测到特征向量a对应的流量A是异常流量。具体的,决策树算法可以是梯度迭代决策树(Gradient BoostingDecision Tree,简称为GBDT)算法,梯度迭代决策树算法的核心就在于,每一棵树学的是之前所有树结论和的残差,这个残差就是一个加预测值后能得真实值的累加量。逻辑回归算法、支持向量机算法、随机森林算法和梯度迭代决策树算法为现有技术,本发明实施例在此不对其进行赘述。
可见,应用本发明图1所示的实施例,通过采用非监督的聚类算法对原始日志中的待检测流量的特征向量进行聚类后,再采用基于监督学习的分类算法和训练数据集对聚类后的结果进行分类,对分类后的结果采用基于决策树算法检测每一个特征向量对应的待检测流量是否为异常流量,解决了现有技术中通过训练数据集对待检测的流量进行分类在遇到未知流量时,因为没有相关的训练数据集而不能准确的将其进行分类,从而无法得知该未知流量是否为异常流量的问题。本发明实施例采用的聚类算法,即使存在未知流量也可以通过聚类算法自动将其分类,不需要依赖训练数据集进行学习。因此,提高了异常流量检测的准确率。
参见图2,图2为本发明实施例提供的流量检测方法的另一种流程示意图,本发明图2所示实施例在图1所示实施例的基础上,在S102之前增加S106。
S106,对获得每一条待检测流量的特征进行预设处理,所述预设处理包括:预处理、离散化处理、归一化处理和插值处理中的一种或几种。
具体的,实际应用中,S102可以为S102A:根据预设处理后的特征,确定每一条待检测流量的特征向量。
本领域技术人员可以理解的是,在获取每条流量的特征以后通常要进行数据的过滤等预处理操作;另外得到的特征是连续的,为了防止在分类的时候产生过拟合的风险需要将特征进行离散化处理,具体的可以采用基于信息熵的离散化方法;为了方便获得流量对应的特征向量,将流量对应的特征进行归一化处理,得到的特征值均在0-1之间;还可以采用插值法对流量的特征进行插值处理。
实际应用中,可以采用预处理、离散化处理、归一化处理和插值处理中的一种或几种处理方式对每一条待检测流量的特征进行处理。根据处理的结果确定该条流量对应的特征向量。以归一化为例,流量A的5个特征上行总包数、上行总字节数、下行总包数、下行总字节数、平均活动状态时间的值分别为:3、5、2、5、8,经过归一化处理后上行总包数、上行总字节数、下行总包数、下行总字节数、平均活动状态时间值分别为0.1、0.3、0.2、0.5、0.6,每个特征的值再按照固定维度的向量进行表示,进而得到由这5个特征组成的特征向量。
应用本发明图2所示的实施例,对待检测流量进行处理,方便了待检测流量的特征向量的确定,使得确定出的待检测流量的特征向量更加准确,进一步提高了异常流量检测的准确率。
图3为本发明实施例提供的流量检测方法的再一种流程示意图,本发明图3所示实施例在图1所示实施例的基础上,增加S107和S108。
S107,根据检测结果对所述每一个分类算法的分类结果进行验证,如果验证错误,执行S108。
S108,更改该分类算法对聚类结果进行分类时所使用的训练数据集。
本领域技术人员可以理解的是,为了进一步确保分类算法的分类的准确性,需要根据分类算法的分类结果进行验证,具体的可以采用误差率进行验证,误差率即分类算法将流量对应的特征向量分类错误的比例。示例性的,支持向量机算法对100条流量对应的特征向量的聚类结果进行分类,其中分错了类别的特征向量数量为2,那么支持向量机算法的误差率为2%,误差率与分类算法本身和所采用的训练数据集相关。实际使用中,可以预设误差率,分类算法对应的误差率和预设误差率进行对比验证,如果大于预设误差率则更换分类算法使用的训练数据集。由于每天都在进行异常流量的检测,相应的训练数据集也在不停的更新,具体的,可以根据不同时间的分类算法对应的误差率进行比较。示例性的,今天与昨天采用的训练数据集不同,将今天的分类算法的误差率与昨天的误差率进行比较,若大于昨天的误差率,则采用昨天的训练数据集,否则,继续采用今天采用的训练数据集。
可见,应用本发明图3所示的实施例,通过不断的验证算法的分类结果,根据验证的结果确定是否更换训练数据集,进一步避免了由于训练数据集的因素影响分类结果,提高了流量分类的准确率。
图4为本发明实施例提供的流量检测装置的一种结构示意图,所述装置可以包括:获得模块201、确定模块202、聚类模块203、分类模块204、检测模块205。
获得模201,用于针对包含待检测流量的日志进行特征处理,获得每一条待检测流量的特征;
确定模块202,用于根据所述特征,确定每一条待检测流量的特征向量;
聚类模块203,用于利用预设聚类算法,对所述特征向量进行聚类;
分类模块204,用于分别利用预设分类算法中的每一个分类算法和预设训练数据集,对聚类结果进行分类;
检测模块205,用于根据每一个分类算法的分类结果、预设训练数据集以及预设决策树算法,检测每一个特征向量对应的待检测流量是否为异常流量。
具体的,实际应用中,所述预设聚类算法可以为:K-means算法。
所述预设分类算法,可以包括以下算法中一种或几种:逻辑回归算法、支持向量机算法、随机森林算法。
所述预设决策树算法可以为:梯度迭代决策树算法。
可见,应用本发明图4所示的实施例,通过采用非监督的聚类算法对原始日志中的待检测流量的特征向量进行聚类后,再采用基于监督学习的分类算法和训练数据集对聚类后的结果进行分类,对分类后的结果采用基于决策树算法检测每一个特征向量对应的待检测流量是否为异常流量,解决了现有技术中通过训练数据集对待检测的流量进行分类在遇到未知流量时,因为没有相关的训练数据集而不能准确的将其进行分类,从而无法得知该未知流量是否为异常流量的问题。本发明实施例采用的聚类算法,即使存在未知流量也可以通过聚类算法自动将其分类,不需要依赖训练数据集进行学习。因此,提高了异常流量检测的准确率。
图5为本发明实施例提供的流量检测装置的另一种结构示意图,本发明图5所示实施例在图4所示实施例的基础上,增加预处理模块206。
预处理模块206,用于对获得每一条待检测流量的特征进行预设处理,所述预设处理包括:预处理、离散化处理、归一化处理和插值处理中的一种或几种;
具体的,实际应用中,所述确定模块202,可以用于:根据预设处理后的特征,确定每一条待检测流量的特征向量。
应用本发明图5所示的实施例,对待检测流量进行处理,方便了待检测流量的特征向量的确定,使得确定出的待检测流量的特征向量更加准确,进一步提高了异常流量检测的准确率。
图6为本发明实施例提供的流量检测装置的再一种结构示意图,本发明图6所示实施例在图4所示实施例的基础上,增加验证模块207、更改模块208。
验证模块207,用于根据检测结果对所述每一个分类算法的分类结果进行验证;
更改模块208,用于在所述验证模块的验证结果为错误的情况下,更改该分类算法对聚类结果进行分类时所使用的训练数据集。
可见,应用本发明图6所示的实施例,通过不断的验证算法的分类结果,根据验证的结果确定是否更换训练数据集,进一步避免了由于训练数据集的因素影响分类结果,提高了流量分类的准确率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种流量检测方法,其特征在于,所述方法包括:
针对包含待检测流量的日志进行特征处理,获得每一条待检测流量的特征;
根据所述特征,确定每一条待检测流量的特征向量;
利用预设聚类算法,对所述特征向量进行聚类;
分别利用预设分类算法中的每一个分类算法和预设训练数据集,对聚类结果进行分类;
根据每一个分类算法的分类结果、预设训练数据集以及预设决策树算法,检测每一个特征向量对应的待检测流量是否为异常流量。
2.根据权利要求1所述的方法,其特征在于,所述预设聚类算法为:K-means算法。
3.根据权利要求1所述的方法,其特征在于,所述预设分类算法,包括以下算法中一种或几种:
逻辑回归算法、支持向量机算法、随机森林算法。
4.根据权利要求1所述的方法,其特征在于,所述预设决策树算法为:梯度迭代决策树算法。
5.根据权利要求1所述的方法,其特征在于,在所述根据所述特征,确定每一条待检测流量的特征向量之前,所述方法还包括:
对获得每一条待检测流量的特征进行预设处理,所述预设处理包括:预处理、离散化处理、归一化处理和插值处理中的一种或几种;
所述根据所述特征,确定每一条待检测流量的特征向量,包括:
根据预设处理后的特征,确定每一条待检测流量的特征向量。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据检测结果对所述每一个分类算法的分类结果进行验证;
如果验证错误,更改该分类算法对聚类结果进行分类时所使用的训练数据集。
7.一种流量检测装置,其特征在于,所述装置包括:
获得模块,用于针对包含待检测流量的日志进行特征处理,获得每一条待检测流量的特征;
确定模块,用于根据所述特征,确定每一条待检测流量的特征向量;
聚类模块,用于利用预设聚类算法,对所述特征向量进行聚类;
分类模块,用于分别利用预设分类算法中的每一个分类算法和预设训练数据集,对聚类结果进行分类;
检测模块,用于根据每一个分类算法的分类结果、预设训练数据集以及预设决策树算法,检测每一个特征向量对应的待检测流量是否为异常流量。
8.根据权利要求7所述的装置,其特征在于,所述预设聚类算法为:K-means算法。
所述预设分类算法,包括以下算法中一种或几种:
逻辑回归算法、支持向量机算法、随机森林算法。
所述预设决策树算法为:梯度迭代决策树算法。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
预处理模块,用于对获得每一条待检测流量的特征进行预设处理,所述预设处理包括:预处理、离散化处理、归一化处理和插值处理中的一种或几种;
所述确定模块,具体用于:
根据预设处理后的特征,确定每一条待检测流量的特征向量。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
验证模块,用于根据检测结果对所述每一个分类算法的分类结果进行验证;
更改模块,用于在所述验证模块的验证结果为错误的情况下,更改该分类算法对聚类结果进行分类时所使用的训练数据集。
CN201611236423.9A 2016-12-28 2016-12-28 一种流量检测方法及装置 Active CN106713324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611236423.9A CN106713324B (zh) 2016-12-28 2016-12-28 一种流量检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611236423.9A CN106713324B (zh) 2016-12-28 2016-12-28 一种流量检测方法及装置

Publications (2)

Publication Number Publication Date
CN106713324A true CN106713324A (zh) 2017-05-24
CN106713324B CN106713324B (zh) 2020-03-06

Family

ID=58903622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611236423.9A Active CN106713324B (zh) 2016-12-28 2016-12-28 一种流量检测方法及装置

Country Status (1)

Country Link
CN (1) CN106713324B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107404398A (zh) * 2017-05-31 2017-11-28 中山大学 一种网络用户行为判别系统
CN107809331A (zh) * 2017-10-25 2018-03-16 北京京东尚科信息技术有限公司 识别异常流量的方法和装置
CN108737410A (zh) * 2018-05-14 2018-11-02 辽宁大学 一种基于特征关联的有限知工业通信协议异常行为检测方法
CN109167753A (zh) * 2018-07-23 2019-01-08 中国科学院计算机网络信息中心 一种网络入侵流量的检测方法及装置
CN109257354A (zh) * 2018-09-25 2019-01-22 平安科技(深圳)有限公司 基于模型树算法的异常流量分析方法及装置、电子设备
CN109257379A (zh) * 2018-11-07 2019-01-22 郑州云海信息技术有限公司 一种木马程序的检测方法、装置、设备及存储介质
CN109379228A (zh) * 2018-11-02 2019-02-22 平安科技(深圳)有限公司 误告警信息识别方法及装置、存储介质、电子终端
CN109495521A (zh) * 2019-01-18 2019-03-19 新华三信息安全技术有限公司 一种异常流量检测方法及装置
CN109525548A (zh) * 2018-09-25 2019-03-26 平安科技(深圳)有限公司 一种基于代价函数的白名单更新方法、装置及电子设备
CN109600345A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 异常数据流量检测方法及装置
CN109784370A (zh) * 2018-12-14 2019-05-21 中国平安财产保险股份有限公司 基于决策树的数据地图生成方法、装置和计算机设备
CN110011931A (zh) * 2019-01-25 2019-07-12 中国科学院信息工程研究所 一种加密流量类别检测方法及系统
CN110225007A (zh) * 2019-05-27 2019-09-10 国家计算机网络与信息安全管理中心 webshell流量数据聚类分析方法以及控制器和介质
CN110505179A (zh) * 2018-05-17 2019-11-26 中国科学院声学研究所 一种网络异常流量的检测方法及系统
CN111492635A (zh) * 2017-08-09 2020-08-04 Ntt安全公司 恶意软件主机网络流分析系统和方法
CN112073360A (zh) * 2019-11-22 2020-12-11 深圳大学 超文本传输数据的检测方法、装置、终端设备及介质
CN112583847A (zh) * 2020-12-25 2021-03-30 南京联成科技发展股份有限公司 一种面向中小企业网络安全事件复杂分析的方法
CN113096388A (zh) * 2021-03-22 2021-07-09 北京工业大学 一种基于梯度提升决策树的短时交通流量预测方法
CN113206824A (zh) * 2021-03-23 2021-08-03 中国科学院信息工程研究所 动态网络异常攻击检测方法、装置、电子设备和存储介质
CN113452648A (zh) * 2020-03-24 2021-09-28 北京沃东天骏信息技术有限公司 检测网络攻击的方法、装置、设备和计算机可读介质
CN115189927A (zh) * 2022-06-24 2022-10-14 华北电力大学 一种基于零信任的电力网络安全防护方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571486A (zh) * 2011-12-14 2012-07-11 上海交通大学 一种基于BoW模型和统计特征的流量识别方法
CN104601565A (zh) * 2015-01-07 2015-05-06 天津理工大学 一种智能优化规则的网络入侵检测分类方法
CN104767692A (zh) * 2015-04-15 2015-07-08 中国电力科学研究院 一种网络流量分类方法
WO2015154484A1 (zh) * 2014-09-11 2015-10-15 中兴通讯股份有限公司 流量数据分类方法及装置
CN106060043A (zh) * 2016-05-31 2016-10-26 北京邮电大学 一种异常流量的检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571486A (zh) * 2011-12-14 2012-07-11 上海交通大学 一种基于BoW模型和统计特征的流量识别方法
WO2015154484A1 (zh) * 2014-09-11 2015-10-15 中兴通讯股份有限公司 流量数据分类方法及装置
CN104601565A (zh) * 2015-01-07 2015-05-06 天津理工大学 一种智能优化规则的网络入侵检测分类方法
CN104767692A (zh) * 2015-04-15 2015-07-08 中国电力科学研究院 一种网络流量分类方法
CN106060043A (zh) * 2016-05-31 2016-10-26 北京邮电大学 一种异常流量的检测方法及装置

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107404398A (zh) * 2017-05-31 2017-11-28 中山大学 一种网络用户行为判别系统
CN111492635A (zh) * 2017-08-09 2020-08-04 Ntt安全公司 恶意软件主机网络流分析系统和方法
CN109600345A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 异常数据流量检测方法及装置
CN107809331A (zh) * 2017-10-25 2018-03-16 北京京东尚科信息技术有限公司 识别异常流量的方法和装置
CN108737410A (zh) * 2018-05-14 2018-11-02 辽宁大学 一种基于特征关联的有限知工业通信协议异常行为检测方法
CN108737410B (zh) * 2018-05-14 2021-04-13 辽宁大学 一种基于特征关联的有限知工业通信协议异常行为检测方法
CN110505179B (zh) * 2018-05-17 2021-02-09 中国科学院声学研究所 一种网络异常流量的检测方法及系统
CN110505179A (zh) * 2018-05-17 2019-11-26 中国科学院声学研究所 一种网络异常流量的检测方法及系统
CN109167753A (zh) * 2018-07-23 2019-01-08 中国科学院计算机网络信息中心 一种网络入侵流量的检测方法及装置
CN109525548A (zh) * 2018-09-25 2019-03-26 平安科技(深圳)有限公司 一种基于代价函数的白名单更新方法、装置及电子设备
CN109525548B (zh) * 2018-09-25 2021-10-29 平安科技(深圳)有限公司 一种基于代价函数的白名单更新方法、装置及电子设备
CN109257354B (zh) * 2018-09-25 2021-11-12 平安科技(深圳)有限公司 基于模型树算法的异常流量分析方法及装置、电子设备
CN109257354A (zh) * 2018-09-25 2019-01-22 平安科技(深圳)有限公司 基于模型树算法的异常流量分析方法及装置、电子设备
WO2020062731A1 (zh) * 2018-09-25 2020-04-02 平安科技(深圳)有限公司 一种基于代价函数的白名单更新方法、装置及电子设备
WO2020062803A1 (zh) * 2018-09-25 2020-04-02 平安科技(深圳)有限公司 基于模型树算法的异常流量分析方法、装置、电子设备及非易失性可读存储介质
CN109379228A (zh) * 2018-11-02 2019-02-22 平安科技(深圳)有限公司 误告警信息识别方法及装置、存储介质、电子终端
CN109257379A (zh) * 2018-11-07 2019-01-22 郑州云海信息技术有限公司 一种木马程序的检测方法、装置、设备及存储介质
CN109784370A (zh) * 2018-12-14 2019-05-21 中国平安财产保险股份有限公司 基于决策树的数据地图生成方法、装置和计算机设备
CN109784370B (zh) * 2018-12-14 2024-05-10 中国平安财产保险股份有限公司 基于决策树的数据地图生成方法、装置和计算机设备
CN109495521A (zh) * 2019-01-18 2019-03-19 新华三信息安全技术有限公司 一种异常流量检测方法及装置
CN109495521B (zh) * 2019-01-18 2021-06-04 新华三信息安全技术有限公司 一种异常流量检测方法及装置
CN110011931B (zh) * 2019-01-25 2020-10-16 中国科学院信息工程研究所 一种加密流量类别检测方法及系统
CN110011931A (zh) * 2019-01-25 2019-07-12 中国科学院信息工程研究所 一种加密流量类别检测方法及系统
CN110225007A (zh) * 2019-05-27 2019-09-10 国家计算机网络与信息安全管理中心 webshell流量数据聚类分析方法以及控制器和介质
CN112073360A (zh) * 2019-11-22 2020-12-11 深圳大学 超文本传输数据的检测方法、装置、终端设备及介质
CN113452648A (zh) * 2020-03-24 2021-09-28 北京沃东天骏信息技术有限公司 检测网络攻击的方法、装置、设备和计算机可读介质
CN112583847B (zh) * 2020-12-25 2022-08-05 南京联成科技发展股份有限公司 一种面向中小企业网络安全事件复杂分析的方法
CN112583847A (zh) * 2020-12-25 2021-03-30 南京联成科技发展股份有限公司 一种面向中小企业网络安全事件复杂分析的方法
CN113096388A (zh) * 2021-03-22 2021-07-09 北京工业大学 一种基于梯度提升决策树的短时交通流量预测方法
CN113096388B (zh) * 2021-03-22 2022-09-09 北京工业大学 一种基于梯度提升决策树的短时交通流量预测方法
CN113206824A (zh) * 2021-03-23 2021-08-03 中国科学院信息工程研究所 动态网络异常攻击检测方法、装置、电子设备和存储介质
CN115189927A (zh) * 2022-06-24 2022-10-14 华北电力大学 一种基于零信任的电力网络安全防护方法
CN115189927B (zh) * 2022-06-24 2023-11-03 华北电力大学 一种基于零信任的电力网络安全防护方法

Also Published As

Publication number Publication date
CN106713324B (zh) 2020-03-06

Similar Documents

Publication Publication Date Title
CN106713324A (zh) 一种流量检测方法及装置
US20170063893A1 (en) Learning detector of malicious network traffic from weak labels
US9479524B1 (en) Determining string similarity using syntactic edit distance
US10691795B2 (en) Quantitative unified analytic neural networks
CN111209563B (zh) 一种网络入侵检测方法及系统
EP3465515B1 (en) Classifying transactions at network accessible storage
Wu et al. Intrusion detection system combined enhanced random forest with SMOTE algorithm
CN109818961B (zh) 一种网络入侵检测方法、装置和设备
CN107145778B (zh) 一种入侵检测方法及装置
CN110363003B (zh) 一种基于深度学习的Android病毒静态检测方法
CN109145030B (zh) 一种异常数据访问的检测方法和装置
CN112464232B (zh) 一种基于混合特征组合分类的Android系统恶意软件检测方法
US11182481B1 (en) Evaluation of files for cyber threats using a machine learning model
CN112134862A (zh) 基于机器学习的粗细粒度混合网络异常检测方法及装置
CN107483451A (zh) 基于串并行结构网络安全数据处理方法及系统、社交网络
CN117081858A (zh) 一种基于多决策树入侵行为检测方法、系统、设备及介质
RU180789U1 (ru) Устройство аудита информационной безопасности в автоматизированных системах
CN114285587B (zh) 域名鉴别方法和装置、域名分类模型的获取方法和装置
CN115130110B (zh) 基于并行集成学习的漏洞挖掘方法、装置、设备及介质
CN111224919B (zh) 一种ddos识别方法、装置、电子设备及介质
Zhang et al. A hierarchical clustering strategy of processing class imbalance and its application in fraud detection
Hadi et al. Handling ambiguous packets in intrusion detection
CN115688101A (zh) 一种基于深度学习的文件分类方法及装置
CN115842645A (zh) 基于umap-rf的网络攻击流量检测方法、装置及可读存储介质
CN115545091A (zh) 基于集成学习器的恶意程序api调用序列检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant