CN110753065B - 网络行为检测方法、装置、设备及存储介质 - Google Patents
网络行为检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110753065B CN110753065B CN201911032287.5A CN201911032287A CN110753065B CN 110753065 B CN110753065 B CN 110753065B CN 201911032287 A CN201911032287 A CN 201911032287A CN 110753065 B CN110753065 B CN 110753065B
- Authority
- CN
- China
- Prior art keywords
- detected
- user
- behavior
- determining
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 64
- 230000006399 behavior Effects 0.000 claims abstract description 269
- 239000013598 vector Substances 0.000 claims abstract description 139
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims description 69
- 238000010586 diagram Methods 0.000 claims description 26
- 230000002159 abnormal effect Effects 0.000 claims description 19
- 230000000694 effects Effects 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 description 8
- 206010000117 Abnormal behaviour Diseases 0.000 description 6
- 238000004138 cluster model Methods 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013016 damping Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- ZPUCINDJVBIVPJ-LJISPDSOSA-N cocaine Chemical compound O([C@H]1C[C@@H]2CC[C@@H](N2C)[C@H]1C(=O)OC)C(=O)C1=CC=CC=C1 ZPUCINDJVBIVPJ-LJISPDSOSA-N 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Abstract
本发明公开了一种网络行为检测方法、装置、设备及存储介质,该方法包括:根据待检测用户的网络行为,确定待检测用户的待检测行为特征向量,根据待检测行为特征向量,以及,预先确定的聚类模型,确定待检测行为特征向量的所属类簇,其中,聚类模型为根据多个用户的历史网络行为以及基于拉普拉斯映射的近邻传播聚类算法确定的模型,聚类模型包括类簇以及类簇中心,当待检测行为特征向量与所属类簇的中心的距离大于预设阈值时,确定待检测行为特征向量对应的行为为攻击行为。通过基于拉普拉斯映射的近邻传播聚类算法确定出的聚类模型对用户的网络行为进行检测,该检测方法检测效率及检测准确率均较高。
Description
技术领域
本发明实施例涉及入侵检测领域,尤其涉及一种网络行为检测方法、装置、设备及存储介质。
背景技术
在入侵检测领域中,网络行为检测是一个非常重要的分支。当用户在网络上浏览网页时,服务器会记录下用户的访问行为信息,通过对用户的行为信息进行采集分析,能够检测出异常用户的行为,达到保护服务器不被恶意用户攻击的目的。常见的网络行为检测技术一般流程如下:首先通过网络流量采集工具Snort、Wireshark等自行采集数据集或者采用公共的网络入侵数据集,接着对数据集进行预处理,从中提取用户行为数据,然后选择合适的算法构建入侵检测分类器,根据入侵检测分类器识别待测行为数据对应的行为是正常行为还是异常行为。其核心技术是采用合适的算法对用户行为数据进行检测、分析,识别出异常行为。
目前,可以采用基于主成分分析(Principal Component Analysis,PCA)的异常行为检测方法,具体过程为:首先,对用户行为进行预处理,从历史用户行为数据中提取用户行为类型对应的用户行为元素,得到正常行为特征向量集合;然后,使用PCA计算每个历史用户正常行为特征向量子集合中特征向量的主方向,计算所有子集合中历史用户正常行为特征向量与样本之间的相似系数,得到全部用户行为类型的异常阈值,最后再计算实时用户行为特征向量的主方向与历史用户正常行为特征向量主方向样本之间的相似系数,即实时用户行为相似系数;根据相似系数求实时用户行为异常值,并与同种用户行为类型的用户行为异常阈值比较,判断实时用户行为是否异常。
但是,上述方法中,将全部的样本,即,特征向量集合作为一个总体对待,去寻找一个均方误差最小意义上的最优行为特征主方向,而忽略了类别属性,因此,导致检测准确率较低。
发明内容
本发明提供一种网络行为检测方法、装置、设备及存储介质,以解决目前的网络行为检测方法准确率低的技术问题。
第一方面,本发明实施例提供一种网络行为检测方法,包括:
根据待检测用户的网络行为,确定所述待检测用户的待检测行为特征向量;
根据所述待检测行为特征向量,以及,预先确定的聚类模型,确定所述待检测行为特征向量的所属类簇;其中,所述聚类模型为根据多个用户的历史网络行为以及基于拉普拉斯映射的近邻传播聚类算法确定的模型,所述聚类模型包括类簇以及类簇中心;
当所述待检测行为特征向量与所述所属类簇的中心的距离大于预设阈值时,确定所述待检测行为特征向量对应的行为为攻击行为。
如上所示的方法中,所述根据所述待检测行为特征向量,以及,预先确定的聚类模型,确定所述待检测行为特征向量的所属类簇之前,所述方法还包括:
根据多个用户的历史网络行为,确定每个所述用户的历史行为特征向量;
根据多个所述历史行为特征向量,确定特征相似度矩阵;
根据所述特征相似度矩阵构建稀疏矩阵连接图;
根据所述稀疏矩阵连接图,确定对应的拉普拉斯矩阵;
将所述拉普拉斯矩阵的最小的预设数量个非零特征值对应的特征向量作为降维后的数据对象;
根据所述降维后的数据对象,确定类别相似度矩阵;
对所述类别相似度矩阵,执行近邻传播算法的消息传递过程,直至收敛,得到所述聚类模型。
如上所示的方法中,所述行为特征向量包括以下至少一项特征属性:
活跃度、请求成功率、重复请求率、页面浏览时间、兴趣广泛度、热门网页偏好度以及异常访问率。
如上所示的方法中,所述根据待检测用户的网络行为,确定所述待检测用户的待检测行为特征向量,包括:
统计预设时长内所述待检测用户全部请求数、所有用户平均请求数、所述待检测用户成功请求数、所述待检测用户重复请求的网页数、所述待检测用户浏览过的页面数、所述待检测用户对同一个网页的最高请求次数以及服务器繁忙时所述待检测用户的请求数;
将所述待检测用户全部请求数除以所有用户平均请求数的商确定为所述待检测用户的活跃度;
将所述待检测用户成功请求数除以所述待检测用户全部请求数的商确定为所述待检测用户的请求成功率;
将所述待检测用户重复请求的网页数除以所述待检测用户全部请求数的商确定为所述待检测用户的重复请求率;
将所述待检测用户全部请求数除以所述预设时长的商确定为所述待检测用户的页面浏览时间;
将所述待检测用户浏览过的页面数除以所述服务器所有的页面数的商确定为所述待检测用户的兴趣广泛度;
将所述待检测用户对同一个网页的最高请求次数除以所述待检测用户全部请求数的商确定为所述待检测用户的热门网页偏好度;
将所述服务器繁忙时所述待检测用户的请求数除以所述待检测用户全部请求数的商确定为所述待检测用户的异常访问率;
将所述待检测用户的活跃度、所述待检测用户的请求成功率、所述待检测用户的重复请求率、所述待检测用户的页面浏览时间、所述待检测用户的兴趣广泛度、所述待检测用户的热门网页偏好度以及所述待检测用户的异常访问率组成的向量,确定为所述待检测用户的待检测行为特征向量。
如上所示的方法中,所述根据待检测用户的网络行为,确定所述待检测用户的待检测行为特征向量之前,所述方法还包括:
从网站服务器的访问日志中,获取所述待检测用户的网络行为。
如上所示的方法中,所述根据所述待检测行为特征向量,以及,预先确定的聚类模型,确定所述待检测行为特征向量的所属类簇,包括:
分别确定所述待检测行为特征向量与所述聚类模型中各个类簇的中心的距离;
将所述距离中最小的距离对应的类簇确定为所述待检测行为特征向量的所属类簇。
如上所示的方法中,所述方法还包括:
当所述待检测行为特征向量与所述所属类簇的中心的距离小于或者等于所述预设阈值时,确定所述待检测行为特征向量对应的行为为正常访问行为。
第二方面,本发明实施例提供一种网络行为检测装置,包括:
第一确定模块,用于根据待检测用户的网络行为,确定所述待检测用户的待检测行为特征向量;
第二确定模块,用于根据所述待检测行为特征向量,以及,预先确定的聚类模型,确定所述待检测行为特征向量的所属类簇;其中,所述聚类模型为根据多个用户的历史网络行为以及基于拉普拉斯映射的近邻传播聚类算法确定的模型,所述聚类模型包括类簇以及类簇中心;
第三确定模块,用于当所述待检测行为特征向量与所述所属类簇的中心的距离大于预设阈值时,确定所述待检测行为特征向量对应的行为为攻击行为。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面提供的网络行为检测方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面提供的网络行为检测方法。
本实施例提供一种网络行为检测方法、装置、设备及存储介质,该方法包括:根据待检测用户的网络行为,确定待检测用户的待检测行为特征向量,根据待检测行为特征向量,以及,预先确定的聚类模型,确定待检测行为特征向量的所属类簇,其中,聚类模型为根据多个用户的历史网络行为以及基于拉普拉斯映射的近邻传播聚类算法确定的模型,聚类模型包括类簇以及类簇中心,当待检测行为特征向量与所属类簇的中心的距离大于预设阈值时,确定待检测行为特征向量对应的行为为攻击行为。通过基于拉普拉斯映射的近邻传播聚类算法确定出的聚类模型对用户的网络行为进行检测,确定出的聚类模型既考虑了数据对象在原始特征空间中的邻近程度,又考虑了数据对象在原始特征空间中的连通性,因此,该检测方法检测效率及检测准确率均较高。
附图说明
图1为本发明提供的网络行为检测方法应用场景的示意图;
图2为本发明提供的网络行为检测方法实施例的流程示意图;
图3为图2所示实施例中一种确定聚类模型的流程示意图;
图4为图3对应的确定聚类模型过程的示意图;
图5为本发明提供的网络行为检测装置实施例的结构示意图;
图6为图5所示实施例中第四确定模块的结构示意图;
图7为本发明提供的计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1为本发明提供的网络行为检测方法应用场景的示意图。如图1所示,某个网站的服务器11可以被多个用户对应的设备12访问。这些访问行为中,有些是正常访问行为,有些是攻击行为。本实施例提供的网络行为检测方法,旨在根据待检测用户的网络行为,确定该待检测用户的行为为正常访问行文还是攻击行为。本实施例提供的网络行为检测方法可以由服务器11执行,也可以由其他能与服务器11的数据进行交互的计算机设备执行。
图2为本发明提供的网络行为检测方法实施例的流程示意图。本实施例适用于对待检测用户的网络行为进行检测的场景。本实施例可以由网络行为检测装置来执行,该网络行为检测装置可以由软件和/或硬件的方式实现,该网络行为检测装置可以集成于服务器等计算机设备中。如图2所示,本实施例提供的网络行为检测方法包括如下步骤:
步骤201:根据待检测用户的网络行为,确定待检测用户的待检测行为特征向量。
具体地,本实施例中,可以从网站服务器的访问日志中,获取待检测用户的网络行为。
通过分析网络攻击行为与正常访问行为的不同特点,总结出二者有以下区别:在发送请求速度方面,正常访问行为在服务器繁忙时请求数往往变小,而攻击行为的请求速度往往变大;在页面浏览时间方面,正常访问行为的阅读时间长,请求频率低,而攻击行为的阅读时间短,发生请求频率高。
可选地,为了表示上述网络行为的区别,本实施例中定义用户的行为特征向量包括以下至少一项特征属性:活跃度、请求成功率、重复请求率、页面浏览时间、兴趣广泛度、热门网页偏好度以及异常访问率。
其中,活跃度反映用户的活跃程度。请求成功率反映用户访问有效页面的概率。重复请求率反映用户对相同页面的偏好程度。页面浏览时间反映请求成功后用户的阅读时间长短。兴趣广泛度反映用户兴趣范围。热门网页偏好度反映用户对请求次数最多的网页的访问率。异常访问率反映服务器繁忙时用户的请求率。
进一步地,一种实现方式中,用户的行为特征向量包括活跃度、请求成功率、重复请求率、页面浏览时间、兴趣广泛度、热门网页偏好度以及异常访问率7个特征属性的内容。基于此,步骤201的具体实现过程可以为:
统计预设时长内待检测用户全部请求数、所有用户平均请求数、待检测用户成功请求数、待检测用户重复请求的网页数、待检测用户浏览过的页面数、待检测用户对同一个网页的最高请求次数以及服务器繁忙时待检测用户的请求数;
将待检测用户全部请求数除以所有用户平均请求数的商确定为待检测用户的活跃度,将待检测用户成功请求数除以待检测用户全部请求数的商确定为待检测用户的请求成功率,将待检测用户重复请求的网页数除以待检测用户全部请求数的商确定为待检测用户的重复请求率,将待检测用户全部请求数除以预设时长的商确定为待检测用户的页面浏览时间,将待检测用户浏览过的页面数除以服务器所有的页面数的商确定为待检测用户的兴趣广泛度,将待检测用户对同一个网页的最高请求次数除以待检测用户全部请求数的商确定为待检测用户的热门网页偏好度,将服务器繁忙时待检测用户的请求数除以待检测用户全部请求数的商确定为待检测用户的异常访问率;
将待检测用户的活跃度、待检测用户的请求成功率、待检测用户的重复请求率、待检测用户的页面浏览时间、待检测用户的兴趣广泛度、待检测用户的热门网页偏好度以及待检测用户的异常访问率组成的向量,确定为待检测用户的待检测行为特征向量。
在上述步骤中,可以将服务器的中央处理器的利用率大于利用率阈值的时间段,和/或,服务器的磁盘占用率大于占用率阈值的时间段确定为服务器繁忙时段。确定出服务器的繁忙时间段后,统计该时间段中待检测用户的请求数,以确定待检测用户的异常访问率。
步骤202:根据待检测行为特征向量,以及,预先确定的聚类模型,确定待检测行为特征向量的所属类簇。
其中,聚类模型为根据多个用户的历史网络行为以及基于拉普拉斯映射的近邻传播聚类算法确定的模型,聚类模型包括类簇以及类簇中心。
具体地,本实施例中,采用根据多个用户的历史网络行为以及基于拉普拉斯映射的近邻传播聚类(Affinity Propagation clustering based on Laplacian Eigenmaps,APLE)算法确定的聚类模型,以及待检测行为特征向量,确定该待检测行为特征向量的所属类簇。
近邻传播聚类算法基于因子图和置信传播理论,通过节点间的信息传递,使得所有数据点与代表点的相似度之和最大,聚类效果好于传统的k均值聚类算法(k-meansclustering algorithm,k-means),但其只能发现球形簇,在用户网络行为聚类方面难以达到较好的聚类效果。
通过研究发现,传统的任意形状簇聚类算法的相似点:这些算法本质上都是基于类别相似度,并且在计算数据对象类别相似度的过程中,局域相似度信息扮演了重要角色。为了将近邻传播算法应用于任意形状粗聚类问题上,本实施例中提出了基于APLE算法确定聚类模型。APLE算法首先通过特征相似度矩阵构建稀疏矩阵连接图,并将稀疏矩阵连接图嵌入到低维特征空间,再在低维特征空间中计算数据对象之间的类别相似度,然后采用近邻传播算法在类别相似度矩阵上进行聚类,最终得到聚类结果。此方法得到的聚类模型既考虑了数据对象在原始特征空间中的邻近程度,又考虑了数据对象在原始特征空间中的连通性。
图3为图2所示实施例中一种确定聚类模型的流程示意图。如图3所示,在一种实现方式中,确定聚类模型的过程具体包括如下步骤:
步骤3011:根据多个用户的历史网络行为,确定每个用户的历史行为特征向量。
具体地,确定用户的历史行为特征向量的过程与步骤201中确定待检测用户的待检测行为特征向量的过程类似,此处不再赘述。假设在步骤3011中,确定出的用户i的历史行为特征向量为Vi=(αi,βi,γi,δi,εi,θi,μi),其中,αi表示用户i的活跃度,βi表示用户i的请求成功率,γi表示用户i的重复请求率,δi表示用户i的页面浏览时间,εi表示用户i的兴趣广泛度,θi表示用户i的热门网页偏好度,μi表示用户i的异常访问率。
N个用户的历史行为特征向量构成历史访问行为特征矩阵:
Vi=(V1,V2,......,VN)T。
步骤3012:根据多个历史行为特征向量,确定特征相似度矩阵。
具体地,确定每一个历史行为特征向量与其他历史行为特征向量的相似度,构成特征相似度矩阵。示例性地,可以通过皮尔逊相关系数、欧几里德距离、Cosine相似度或者曼哈顿距离等确定每个历史行为特征向量与其他历史行为特征向量的相似度。
图4为图3对应的确定聚类模型过程的示意图。确定出的特征相似度矩阵如图4所示。其中,aij表示用户i对应的历史行为特征向量与用户j对应的历史行为特征向量之间的相似度。
步骤3013:根据特征相似度矩阵构建稀疏矩阵连接图。
在确定出特征相似度矩阵后,可以基于特征相似度矩阵中的每个元素的值,确定用户之间的连通关系,以及连通节点之间边的权重值。即,以图的形式表示特征相似度矩阵。图中的每个顶点表示一个用户,基于特征相似度矩阵的元素值,可以确定出有些用户之间连通,有些用户之间不连通。示例性地,可以基于热核函数确定连通节点之间的边的权重值。确定出的稀疏矩阵连接图如图4所示,其中,每个顶点表示一个用户。
步骤3014:根据稀疏矩阵连接图,确定对应的拉普拉斯矩阵。
在确定出稀疏矩阵连接图后,可以确定出该稀疏矩阵连接图对应的拉普拉斯矩阵。拉普拉斯矩阵被定义为L=D-W,其中,D为该稀疏矩阵连接图的度矩阵,W为该稀疏矩阵连接图的邻接矩阵。
步骤3015:将拉普拉斯矩阵的最小的预设数量个非零特征值对应的特征向量作为降维后的数据对象。
在确定出拉普拉斯矩阵之后,计算拉普拉斯矩阵的特征向量与特征值,将其中最小的m个非零特征值对应的特征向量作为降维后的数据对象,实现降维。其中,m表示预设数量。
步骤3016:根据降维后的数据对象,确定类别相似度矩阵。
在该步骤中,确定m个特征向量中每一个特征向量与其他特征向量的相似度,形成类别相似度矩阵。形成的类别相似度矩阵如图4所示。其中,bxy表示特征向量X与特征向量Y之间的相似度。
步骤3017:对类别相似度矩阵,执行近邻传播算法的消息传递过程,直至收敛,得到聚类模型。
确定出类别相似度矩阵之后,确定参考度、吸引度矩阵以及归属度矩阵,迭代更新吸引度矩阵及归属度矩阵,直至类簇中心在一定程度上不再更新或者达到最大迭代次数。最终确定出包括多个类簇以及类簇中心的聚类模型。
在步骤202中,分别确定待检测行为特征向量与聚类模型中各个类簇的中心的距离;将距离中最小的距离对应的类簇确定为待检测行为特征向量的所属类簇。
步骤203:当待检测行为特征向量与所属类簇的中心的距离大于预设阈值时,确定待检测行为特征向量对应的行为为攻击行为。
具体地,当待检测行为特征向量与所属类簇的中心的距离大于预设阈值时,说明待检测行为特征向量对应的行为与正常访问行为的相似度很低,该待检测行为特征向量对应的行为为攻击行为。
进一步地,当待检测行为特征向量与所属类簇的中心的距离小于或者等于预设阈值时,确定待检测行为特征向量对应的行为为正常访问行为。
以下将真实网络(Web)日志Clerknet-超文本传输协议(Hyper Text TransferProtocol,HTTP)数据集中8月29日全天数据作为正常用户训练数据集,9月1日全天数据作为正常用户测试数据集,然后模拟随机页面,单一页面,重放序列,三种不同类型的常见攻击行为,每种类型都包含每秒400次请求、每秒600次请求、每秒800次请求3种不同攻击速率,从聚类时间、误检率和检测率三个角度比较APLE算法、K-means PCA(KMPCA)算法以及近邻传播(Affinity Propagation,AP)聚类算法。
1、计算时间是衡量一个算法时间复杂度的因素之一。分别从正常用户训练数据集抽取10,20,40,60,80,100,200个样本,对比APLE算法、AP聚类算法与KMPCA算法的聚类时间。其中,KMPCA算法中K=5,迭代最大次数为1000次;AP聚类算法中偏向参数取中值,阻尼系数设置为0.5,最大迭代次数为1000次;APLE算法偏向参数取中值,阻尼系数设置为0.5,最大迭代次数为1000次。对比结果如表1所示:
表1三种算法的聚类时间对比表
2、误检率和检测率能够很好地展示聚类结果的准确性。首先使用3种算法确定的聚类模型对各个正常用户数据集进行误检率测试,误检率测试结果如表2所示:
表2 KMPCA,AP,LAP算法误检率对比表
数据集 | KMPCA | AP | APLE |
测试集1 | 10.70 | 2.79 | 1.63 |
测试集2 | 23.26 | 17.96 | 16.24 |
测试集3 | 20.29 | 19.09 | 18.74 |
测试集4 | 11.62 | 9.19 | 5.59 |
平均 | 16.52 | 12.26 | 10.55 |
其次使用3种算法的聚类结果对不同攻击类型、不同攻击速率攻击用户数据集进行检测率测试,实验结果如表3所示。
表3不同类型不同速率攻击行为检测率表
从表1、表2和表3可以看出,本实施例提供的网络行为检测方法效率较高、误检率较低并且检测率较高。
本实施例提供的网络行为检测方法,包括:根据待检测用户的网络行为,确定待检测用户的待检测行为特征向量,根据待检测行为特征向量,以及,预先确定的聚类模型,确定待检测行为特征向量的所属类簇,其中,聚类模型为根据多个用户的历史网络行为以及基于拉普拉斯映射的近邻传播聚类算法确定的模型,聚类模型包括类簇以及类簇中心,当待检测行为特征向量与所属类簇的中心的距离大于预设阈值时,确定待检测行为特征向量对应的行为为攻击行为。通过基于拉普拉斯映射的近邻传播聚类算法确定出的聚类模型对用户的网络行为进行检测,确定出的聚类模型既考虑了数据对象在原始特征空间中的邻近程度,又考虑了数据对象在原始特征空间中的连通性,因此,该检测方法检测效率及检测准确率均较高。
图5为本发明提供的网络行为检测装置实施例的结构示意图。如图5所示,本实施例提供的网络行为检测装置包括以下模块:第一确定模块51、第二确定模块52以及第三确定模块53。
第一确定模块51,用于根据待检测用户的网络行为,确定待检测用户的待检测行为特征向量。
可选地,行为特征向量包括以下至少一项特征属性:活跃度、请求成功率、重复请求率、页面浏览时间、兴趣广泛度、热门网页偏好度以及异常访问率。
一种实现方式中,第一确定模块51具体用于:
统计预设时长内待检测用户全部请求数、所有用户平均请求数、待检测用户成功请求数、待检测用户重复请求的网页数、待检测用户浏览过的页面数、待检测用户对同一个网页的最高请求次数以及服务器繁忙时待检测用户的请求数;
将待检测用户全部请求数除以所有用户平均请求数的商确定为待检测用户的活跃度;
将待检测用户成功请求数除以待检测用户全部请求数的商确定为待检测用户的请求成功率;
将待检测用户重复请求的网页数除以待检测用户全部请求数的商确定为待检测用户的重复请求率;
将待检测用户全部请求数除以预设时长的商确定为待检测用户的页面浏览时间;
将待检测用户浏览过的页面数除以服务器所有的页面数的商确定为待检测用户的兴趣广泛度;
将待检测用户对同一个网页的最高请求次数除以待检测用户全部请求数的商确定为待检测用户的热门网页偏好度;
将服务器繁忙时待检测用户的请求数除以待检测用户全部请求数的商确定为待检测用户的异常访问率;
将待检测用户的活跃度、待检测用户的请求成功率、待检测用户的重复请求率、待检测用户的页面浏览时间、待检测用户的兴趣广泛度、待检测用户的热门网页偏好度以及待检测用户的异常访问率组成的向量,确定为待检测用户的待检测行为特征向量。
第二确定模块52,用于根据待检测行为特征向量,以及,预先确定的聚类模型,确定待检测行为特征向量的所属类簇。
其中,聚类模型为根据多个用户的历史网络行为以及基于拉普拉斯映射的近邻传播聚类算法确定的模型,聚类模型包括类簇以及类簇中心。
可选地,本实施例提供的装置还包括第四确定模块54,用于根据多个用户的历史网络行为以及基于拉普拉斯映射的近邻传播聚类算法确定聚类模型。
图6为图5所示实施例中第四确定模块的结构示意图。如图6所示,第四确定模块54具体包括:第一确定子模块541、第二确定子模块542、构建子模块543、第三确定子模块544、第四确定子模块545、第五确定子模块546以及迭代子模块547。
第一确定子模块541,用于根据多个用户的历史网络行为,确定每个用户的历史行为特征向量。
第二确定子模块542,用于根据多个历史行为特征向量,确定特征相似度矩阵。
构建子模块543,用于根据特征相似度矩阵构建稀疏矩阵连接图。
第三确定子模块544,用于根据稀疏矩阵连接图,确定对应的拉普拉斯矩阵。
第四确定子模块545,用于将拉普拉斯矩阵的最小的预设数量个非零特征值对应的特征向量作为降维后的数据对象。
第五确定子模块546,用于根据降维后的数据对象,确定类别相似度矩阵。
迭代子模块547,用于对类别相似度矩阵,执行近邻传播算法的消息传递过程,直至收敛,得到聚类模型。
可选地,第二确定模块52具体用于:分别确定待检测行为特征向量与聚类模型中各个类簇的中心的距离;将距离中最小的距离对应的类簇确定为待检测行为特征向量的所属类簇。
第三确定模块53,用于当待检测行为特征向量与所属类簇的中心的距离大于预设阈值时,确定待检测行为特征向量对应的行为为攻击行为。
可选地,该装置还包括:获取模块,用于从网站服务器的访问日志中,获取待检测用户的网络行为。
可选地,该装置还包括:第五确定模块,用于当待检测行为特征向量与所属类簇的中心的距离小于或者等于预设阈值时,确定待检测行为特征向量对应的行为为正常访问行为。
本发明实施例所提供的网络行为检测装置可执行本发明任意实施例所提供的网络行为检测方法,具备执行方法相应的功能模块和有益效果。
图7为本发明提供的计算机设备的结构示意图。如图7所示,该计算机设备包括处理器70和存储器71。该计算机设备中处理器70的数量可以是一个或多个,图7中以一个处理器70为例;该计算机设备的处理器70和存储器71可以通过总线或其他方式连接,图7中以通过总线连接为例。
存储器71作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的网络行为检测方法对应的程序指令以及模块(例如,网络行为检测装置中的第一确定模块51、第二确定模块52以及第三确定模块53)。处理器70通过运行存储在存储器71中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的网络行为检测方法。
存储器71可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器71可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器71可进一步包括相对于处理器70远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实施例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种网络行为检测方法,该方法包括:
根据待检测用户的网络行为,确定所述待检测用户的待检测行为特征向量;
根据所述待检测行为特征向量,以及,预先确定的聚类模型,确定所述待检测行为特征向量的所属类簇;其中,所述聚类模型为根据多个用户的历史网络行为以及基于拉普拉斯映射的近邻传播聚类算法确定的模型,所述聚类模型包括类簇以及类簇中心;
当所述待检测行为特征向量与所述所属类簇的中心的距离大于预设阈值时,确定所述待检测行为特征向量对应的行为为攻击行为。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的网络行为检测方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述网络行为检测装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (9)
1.一种网络行为检测方法,其特征在于,包括:
根据待检测用户的网络行为,确定所述待检测用户的待检测行为特征向量;
根据所述待检测行为特征向量,以及,预先确定的聚类模型,确定所述待检测行为特征向量的所属类簇;其中,所述聚类模型为根据多个用户的历史网络行为以及基于拉普拉斯映射的近邻传播聚类算法确定的模型,所述聚类模型包括类簇以及类簇中心;
当所述待检测行为特征向量与所述所属类簇的中心的距离大于预设阈值时,确定所述待检测行为特征向量对应的行为为攻击行为;
其中,所述根据所述待检测行为特征向量,以及,预先确定的聚类模型,确定所述待检测行为特征向量的所属类簇之前,所述方法还包括:
根据多个用户的历史网络行为,确定每个所述用户的历史行为特征向量;
根据多个所述历史行为特征向量,确定特征相似度矩阵;
根据所述特征相似度矩阵构建稀疏矩阵连接图;
根据所述稀疏矩阵连接图,确定对应的拉普拉斯矩阵;
将所述拉普拉斯矩阵的最小的预设数量个非零特征值对应的特征向量作为降维后的数据对象;
根据所述降维后的数据对象,确定类别相似度矩阵;
对所述类别相似度矩阵,执行近邻传播算法的消息传递过程,直至收敛,得到所述聚类模型。
2.根据权利要求1所述的方法,其特征在于,所述行为特征向量包括以下至少一项特征属性:
活跃度、请求成功率、重复请求率、页面浏览时间、兴趣广泛度、热门网页偏好度以及异常访问率。
3.根据权利要求2所述的方法,其特征在于,所述根据待检测用户的网络行为,确定所述待检测用户的待检测行为特征向量,包括:
统计预设时长内所述待检测用户全部请求数、所有用户平均请求数、所述待检测用户成功请求数、所述待检测用户重复请求的网页数、所述待检测用户浏览过的页面数、所述待检测用户对同一个网页的最高请求次数以及服务器繁忙时所述待检测用户的请求数;
将所述待检测用户全部请求数除以所有用户平均请求数的商确定为所述待检测用户的活跃度;
将所述待检测用户成功请求数除以所述待检测用户全部请求数的商确定为所述待检测用户的请求成功率;
将所述待检测用户重复请求的网页数除以所述待检测用户全部请求数的商确定为所述待检测用户的重复请求率;
将所述待检测用户全部请求数除以所述预设时长的商确定为所述待检测用户的页面浏览时间;
将所述待检测用户浏览过的页面数除以所述服务器所有的页面数的商确定为所述待检测用户的兴趣广泛度;
将所述待检测用户对同一个网页的最高请求次数除以所述待检测用户全部请求数的商确定为所述待检测用户的热门网页偏好度;
将所述服务器繁忙时所述待检测用户的请求数除以所述待检测用户全部请求数的商确定为所述待检测用户的异常访问率;
将所述待检测用户的活跃度、所述待检测用户的请求成功率、所述待检测用户的重复请求率、所述待检测用户的页面浏览时间、所述待检测用户的兴趣广泛度、所述待检测用户的热门网页偏好度以及所述待检测用户的异常访问率组成的向量,确定为所述待检测用户的待检测行为特征向量。
4.根据权利要求1所述的方法,其特征在于,所述根据待检测用户的网络行为,确定所述待检测用户的待检测行为特征向量之前,所述方法还包括:
从网站服务器的访问日志中,获取所述待检测用户的网络行为。
5.根据权利要求1所述的方法,其特征在于,所述根据所述待检测行为特征向量,以及,预先确定的聚类模型,确定所述待检测行为特征向量的所属类簇,包括:
分别确定所述待检测行为特征向量与所述聚类模型中各个类簇的中心的距离;
将所述距离中最小的距离对应的类簇确定为所述待检测行为特征向量的所属类簇。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述待检测行为特征向量与所述所属类簇的中心的距离小于或者等于所述预设阈值时,确定所述待检测行为特征向量对应的行为为正常访问行为。
7.一种网络行为检测装置,其特征在于,包括:
第一确定模块,用于根据待检测用户的网络行为,确定所述待检测用户的待检测行为特征向量;
第二确定模块,用于根据所述待检测行为特征向量,以及,预先确定的聚类模型,确定所述待检测行为特征向量的所属类簇;其中,所述聚类模型为根据多个用户的历史网络行为以及基于拉普拉斯映射的近邻传播聚类算法确定的模型,所述聚类模型包括类簇以及类簇中心;
第三确定模块,用于当所述待检测行为特征向量与所述所属类簇的中心的距离大于预设阈值时,确定所述待检测行为特征向量对应的行为为攻击行为;
所述装置还包括第四确定模块,所述第四确定模块具体包括:第一确定子模块、第二确定子模块、构建子模块、第三确定子模块、第四确定子模块、第五确定子模块以及迭代子模块;
第一确定子模块,用于根据多个用户的历史网络行为,确定每个用户的历史行为特征向量;
第二确定子模块,用于根据多个历史行为特征向量,确定特征相似度矩阵;
构建子模块,用于根据特征相似度矩阵构建稀疏矩阵连接图;
第三确定子模块,用于根据稀疏矩阵连接图,确定对应的拉普拉斯矩阵;
第四确定子模块,用于将拉普拉斯矩阵的最小的预设数量个非零特征值对应的特征向量作为降维后的数据对象;
第五确定子模块,用于根据降维后的数据对象,确定类别相似度矩阵;
迭代子模块,用于对类别相似度矩阵,执行近邻传播算法的消息传递过程,直至收敛,得到聚类模型。
8.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的网络行为检测方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的网络行为检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911032287.5A CN110753065B (zh) | 2019-10-28 | 2019-10-28 | 网络行为检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911032287.5A CN110753065B (zh) | 2019-10-28 | 2019-10-28 | 网络行为检测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110753065A CN110753065A (zh) | 2020-02-04 |
CN110753065B true CN110753065B (zh) | 2022-03-01 |
Family
ID=69280451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911032287.5A Expired - Fee Related CN110753065B (zh) | 2019-10-28 | 2019-10-28 | 网络行为检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110753065B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112529051B (zh) * | 2020-11-25 | 2024-04-09 | 微梦创科网络科技(中国)有限公司 | 一种刷量用户识别方法及装置 |
CN112738018A (zh) * | 2020-11-30 | 2021-04-30 | 南方电网数字电网研究院有限公司 | Arp欺骗攻击检测方法、装置、计算机设备和存储介质 |
CN112488765A (zh) * | 2020-12-08 | 2021-03-12 | 深圳市欢太科技有限公司 | 广告反作弊方法、广告反作弊装置、电子设备及存储介质 |
CN113194031B (zh) * | 2021-04-23 | 2023-03-31 | 西安交通大学 | 雾无线接入网内结合干扰抑制的用户聚类方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647726A (zh) * | 2018-05-11 | 2018-10-12 | 南京理工大学 | 一种图像聚类方法 |
CN109218321A (zh) * | 2018-09-25 | 2019-01-15 | 北京明朝万达科技股份有限公司 | 一种网络入侵检测方法及系统 |
CN109861953A (zh) * | 2018-05-14 | 2019-06-07 | 新华三信息安全技术有限公司 | 一种异常用户识别方法及装置 |
CN109976308A (zh) * | 2019-03-29 | 2019-07-05 | 南昌航空大学 | 一种基于拉普拉斯分值与ap聚类的故障特征的提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9552520B1 (en) * | 2015-07-07 | 2017-01-24 | Disney Enterprises, Inc. | Systems and methods for automatic key frame extraction and storyboard interface generation for video |
-
2019
- 2019-10-28 CN CN201911032287.5A patent/CN110753065B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647726A (zh) * | 2018-05-11 | 2018-10-12 | 南京理工大学 | 一种图像聚类方法 |
CN109861953A (zh) * | 2018-05-14 | 2019-06-07 | 新华三信息安全技术有限公司 | 一种异常用户识别方法及装置 |
CN109218321A (zh) * | 2018-09-25 | 2019-01-15 | 北京明朝万达科技股份有限公司 | 一种网络入侵检测方法及系统 |
CN109976308A (zh) * | 2019-03-29 | 2019-07-05 | 南昌航空大学 | 一种基于拉普拉斯分值与ap聚类的故障特征的提取方法 |
Non-Patent Citations (1)
Title |
---|
基于拉普拉斯特征映射的仿射传播聚类;张亮,等;《计算机工程》;20110505(第9期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110753065A (zh) | 2020-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110753065B (zh) | 网络行为检测方法、装置、设备及存储介质 | |
WO2022117063A1 (zh) | 孤立森林的训练方法,网络爬虫的识别方法及装置 | |
WO2017143934A1 (zh) | 网络访问行为识别方法和装置、服务器和存储介质 | |
Cheng et al. | Evaluating probability threshold k-nearest-neighbor queries over uncertain data | |
US20160065534A1 (en) | System for correlation of domain names | |
CN107992738B (zh) | 一种账号登录异常检测方法、装置及电子设备 | |
JP2003030222A (ja) | 大規模データベースにおける主要クラスタおよびアウトライア・クラスタの検索、検出および同定のための方法、システム、記録媒体、およびサーバ | |
CN106294815B (zh) | 一种url的聚类方法及装置 | |
CN113890902B (zh) | 特征识别库的构建方法及装置、流量识别方法 | |
CN111651755B (zh) | 入侵检测方法和装置 | |
CN113807073B (zh) | 文本内容异常检测方法、装置以及存储介质 | |
CN111708942B (zh) | 多媒体资源推送方法、装置、服务器及存储介质 | |
CN107231383B (zh) | Cc攻击的检测方法及装置 | |
CN111371757B (zh) | 恶意通信检测方法、装置、计算机设备和存储介质 | |
CN110309154B (zh) | 基于图谱的实体特征选择方法、装置、设备和存储介质 | |
Yao et al. | Using Parametric t-Distributed Stochastic Neighbor Embedding Combined with Hierarchical Neural Network for Network Intrusion Detection. | |
Sipola et al. | Dimensionality reduction framework for detecting anomalies from network logs | |
CN111488479A (zh) | 超图构建方法、装置以及计算机系统和介质 | |
Ayat et al. | Entity resolution for distributed probabilistic data | |
CN111984867B (zh) | 一种网络资源确定方法及装置 | |
CN113408579A (zh) | 一种基于用户画像的内部威胁预警方法 | |
Ding et al. | A network intrusion detection algorithm based on outlier mining | |
CN112148763A (zh) | 无监督数据异常检测方法、装置及存储介质 | |
Chen et al. | Deck: Detecting events from web click-through data | |
CN111612531B (zh) | 一种点击欺诈的检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220301 |