CN111163053A - 一种恶意url检测方法及系统 - Google Patents

一种恶意url检测方法及系统 Download PDF

Info

Publication number
CN111163053A
CN111163053A CN201911207570.7A CN201911207570A CN111163053A CN 111163053 A CN111163053 A CN 111163053A CN 201911207570 A CN201911207570 A CN 201911207570A CN 111163053 A CN111163053 A CN 111163053A
Authority
CN
China
Prior art keywords
clusters
parameters
malicious url
data set
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911207570.7A
Other languages
English (en)
Other versions
CN111163053B (zh
Inventor
熊骁
郭岗
林飞
古元
沈智杰
景晓军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Act Technology Development Co ltd
Shenzhen Surfilter Technology Development Co ltd
Original Assignee
Beijing Act Technology Development Co ltd
Shenzhen Surfilter Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Act Technology Development Co ltd, Shenzhen Surfilter Technology Development Co ltd filed Critical Beijing Act Technology Development Co ltd
Priority to CN201911207570.7A priority Critical patent/CN111163053B/zh
Publication of CN111163053A publication Critical patent/CN111163053A/zh
Application granted granted Critical
Publication of CN111163053B publication Critical patent/CN111163053B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种恶意URL检测方法及系统,所述恶意URL检测方法包括:获取流量日志的参数;提取流量日志的参数的通项数据集;对该通项数据集进行聚类,得到多个簇;计算所有的从多个簇中所选两个不同簇的交集,从而得到模式规则;并利用该模式规则判别恶意URL。本发明利用流量日志特征处理模块提高了网络流量日志批处理效率,有效提取了流量中链接访问日志的核心项集;结合聚类算法模块可以很好地提取海量流量日志中的模式规则,并利用关联规则取交集得到了强规则模式,应用于后续的恶意URL研判分析,较于以往的方法,效率更高,效果更佳。

Description

一种恶意URL检测方法及系统
技术领域
本发明涉及网络信息安全技术领域,尤其涉及一种恶意URL检测方法及系统。
背景技术
随着计算机技术和互联网技术的迅猛发展,人们的生活方式发生了极大的变化,互联网社交、电子商务以及互联网金融逐渐融入了人们的日常生活。与此同时,互联网的发展也引入了新的危险,网络犯罪手段层出不穷,网络威胁形式越来越多,识别网络威胁的难度大大增加,成本显著上升。在大数据时代背景下,如何高效地检测出这些恶意URL,并及时上报,以便于有关部门进行监管,从而减少恶意URL的威胁和侵害,是网络信息安全领域中需要解决的问题。
在现有恶意URL的检测方法中,黑名单技术是恶意URL检测中比较传统和经典的一种方法,网页黑名单中包含已知的恶意URL列表。这种方法虽然简单,但是费时费力,处理效率低,恶意URL往往改头换面(如更换域名、 URL路径等)后,又会死灰复燃。
基于模式规则的启发式算法是对黑名单技术的一种升级。其主要原理是从已有恶意URL中提炼出相似性规则来发现并识别恶意URL。在黑名单库的基础上,通过人工统计整理,发现网站的链接中存在着某些相似的模式规则 (Pattern Rule),依靠现有的启发式规则识别恶意URL,而不需要依靠黑名单的精确匹配来完成识别,这种方法较之黑名单库有所改进,但面对海量的网络流量,要发现新的恶意URL模式规则,也是件非常困难的事情。
发明内容
本发明针对以上技术问题,提供一种恶意URL检测方法及系统。
本发明所提出的技术方案如下:
本发明提出了一种恶意URL检测方法,包括以下步骤:
步骤S1、获取流量日志的参数;
步骤S2、提取流量日志的参数的通项数据集;对该通项数据集进行聚类,得到多个簇;
步骤S3、计算所有的从多个簇中所选两个不同簇的交集,从而得到模式规则;并利用该模式规则判别恶意URL。
本发明上述恶意URL检测方法中,步骤S1还包括:按照参数格式特征区分并分别获取流量日志不同类型的参数。
本发明上述恶意URL检测方法中,步骤S2还包括:对流量日志不同类型的参数分别提取各自的通项数据;再将所提取的所有通项数据重组,从而构成流量日志的参数的通项数据集。
本发明上述恶意URL检测方法中,步骤S3还包括:过滤掉元素小于3 的簇,再通过计算所有的从多个簇中所选经过滤后留下的两个不同簇的交集,从而得到模式规则。
本发明上述恶意URL检测方法中,流量日志的参数包括Domain部分、 URL部分、Parame部分、Refer部分。
本发明还提出了一种恶意URL检测系统,包括:
参数提取器,用于获取流量日志的参数;
通项数据集提取器,用于提取流量日志的参数的通项数据集;
簇生成器,用于对该通项数据集进行聚类,得到多个簇;
模式规则挖掘器,用于计算所有的从多个簇中所选两个不同簇的交集,从而得到模式规则;
恶意URL判别器,用于利用模式规则判别恶意URL。
本发明上述恶意URL检测系统中,参数提取器还用于按照参数格式特征区分并分别获取流量日志不同类型的参数。
本发明上述恶意URL检测系统中,通项数据集提取器包括:通项生成模块,用于对流量日志不同类型的参数分别提取各自的通项数据;数据集重组模块,用于将所提取的所有通项数据重组,从而构成流量日志的参数的通项数据集。
本发明上述恶意URL检测系统中,模式规则挖掘器还用于过滤掉元素小于3的簇,再通过计算所有的从多个簇中所选经过滤后留下的两个不同簇的交集,从而得到模式规则。
本发明上述恶意URL检测系统中,流量日志的参数包括Domain部分、 URL部分、Parame部分、Refer部分。
本发明提出了一种恶意URL检测方法及系统,利用流量日志特征处理模块提高了网络流量日志批处理效率,有效提取了流量中链接访问日志的核心项集;结合聚类算法模块更好地提取海量流量日志中的模式规则,并利用关联规则取交集得到了强规则模式,应用于后续的恶意URL研判分析,较于以往的方法,效率更高,效果更佳。
附图说明
图1为本申请实施例提供的一种恶意URL检测方法的流程示意图;
图2是本申请实施例提供的一种恶意URL检测系统的结构示意图。
具体实施方式
本发明所要解决的技术问题是:恶意URL检测的技术主要是依据流量中的网站链接URL及相关访问参数Parame等信息进行综合分析判断,目前主要采用基于黑名单库以及模式规则匹配的检测方法,模式规则的构建一般基于人工分析提炼或基于数据挖掘等方法来发现。基于人工提取黑名单库来进行匹配检测的方法费时费力,效率不高,当流量日志变成海量时,则人工发现的效率趋于零。基于模式规则的启发式算法是在黑名单库的基础上,通过统计分析来发现网站链接中的模式规则,经过人工整理提炼,并部署到监测系统中,可以批量发现同类型模式规则下的恶意URL。面对海量的网络流量日志,通过简单的Excel排序统计分析,亦难于找到流量记录中的关联规则以及规则出现的频度,人工寻找恶意URL模式规则难度相当大。
就该技术问题,本发明提出了一种恶意URL检测方法及系统,一种新的流量日志数据分析处理和模式规则发现技术,优化了流量日志的特征处理过程,经过关联规则聚类分析,可以很好地提炼出海量流量日志中的模式规则,并应用于恶意URL检测规则研判。该方法包括:获取流量日志的参数;提取流量日志的参数的通项数据集;对该通项数据集进行聚类,得到多个簇;计算所有的从多个簇中所选两个不同簇的交集,从而得到模式规则;并利用该模式规则判别恶意URL。
为了使得本发明的技术方案、技术目的以及技术效果更为清楚,以使得本领域技术人员能够理解和实施本发明,下面将结合附图及具体实施例对本发明做进一步详细的描述。
图1是本申请实施例提供的一种恶意URL检测方法的流程示意图。该方法包括:
步骤S1、获取流量日志的参数;
在步骤S1中,按照参数格式特征区分并分别获取流量日志不同类型的参数;流量日志的参数包括Domain部分、URL部分、Parame部分、Refer部分。该四个部分是流量日志中值得分析的数据项,即:
Domain URL Parame Refer
一个典型的日志记录数据样本如下所示:
Domain:xlvs.cn
URL:xlvs.cn/admin/ajax.php
Parame:act=setStatus&name=3591&status=1
Refer:http://xlvs.cn/admin/list.php?type=0
URL(Uniform Resource Locator,统一资源定位符)用于唯一标识和描述 Web上的网页和其他资源,通常指向Internet上的站点。URL部分的结构包括域名(Domain)、路径、文件名三部分。上例中xlvs.cn为域名,/admin/为路径,ajax.php为文件名。
Domain(域名)是用来定位网站的独一无二的名字。
Parame是指查询参数,通常用于为动态网页传递参数,用“&”隔开,可以有多个参数,每个参数的名字和值用“=”隔开,也可选择是否有。
Refer是HTTP请求头的一部分,当浏览器向web服务器发送请求的时候,一般会带上Refer,告诉服务器是从哪个页面链接过来的,服务器籍此可以获得一些信息用于处理。
步骤S2、提取流量日志的参数的通项数据集;对该通项数据集进行聚类,得到多个簇;
在步骤S2中,对流量日志不同类型的参数分别提取各自的通项数据;再将所提取的所有通项数据重组,从而构成流量日志的参数的通项数据集。
具体地,在本步骤中,URL预处理,对URL部分进行截取、分段,去掉与Domain重合的字符串部分,并根据“/”符来对剩余部分分段;Parame预处理,根据“&”对Parame中所包含的参数段进行分段;Refer预处理:根据“?”对Refer分成两部分,根据“&”对第二部分进行参数分段。为简化描述,分别用d、u、p、r来代替以上四部分参数项。
参数提取后的数据变成如下的样子:
S={d,u,p,r}={{xlvs.cn},{admin,ajax.php},{act=setStatus,name=3591,status=1},{http://xlvs.cn/admin/list.php,type=0}}
对于S中的子集,分别处理,提取通项。显见,处理后的数据变成了四元组集合S,通项提取的过程就是分别对d,u,p,r进行操作。
由于域名d部分代表的是一个完整的物理地址存在,因此再做进一步的粒度细分已无意义,反而会带来后续计算上的麻烦,这里保留d的现有形式作为通项值。
对于u部分,定义集合U={ui|ui∈u,i=1,2,3,4...},需要处理以下几种形式的元素:
ui中以数字字符串开始:
例如:0234admin,将“0234”部分用通配符“*”来表示:*admin
ui中以数字字符串结尾:
例如:admin1520,将“1520”部分用通配符“*”来表示:admin*
ui全部为数字字符串:
例如:174216,将整个字段用通配符“***”来表示:****
ui中文件名部分为数字字符串;
例如:1558612176.html,将文件名部分用通配符“***”来表示,将后缀部分用“HHH”来表示:***.HHH
对于p部分,定义集合P={pi|pi∈p,i=1,2,3,4...},统一按以下方式处理:
“=”后面的字符串值为变量,用通配符“*”来表示。例如:act=setStatus 表示为:act=*,name=3591表示为:name=*。
对于r部分,定义集合R={ri|ri∈r,i=2,3,4...},统一按以下方式处理:
“=”后面的字符串值为变量,用通配符“*”来表示。例如:type=0表示为:type=*。
经过以上步骤处理,即可得到四个部分参数项的通项数据表示。
然后,将通项数据重新组合,表示成四元组集合。这部分的操作是将u、 p、d中通项处理后的结果组成新的集合,分别定义为u′、p′、d′,这里d′=d。处理完成后的日志记录集合,即流量日志的参数的通项数据集为:
S′={d′,u′,p′,r′}={{xlvs.cn},{admin,ajax.php},{act=*,name=*,status=*},{http://xlvs.cn/admin/list.php,type=*}}
经过通项提取后,数据集记录中会出现大量的重复数据样本。
这里通过对数据样本排序去重,可以压缩数据量,减少后面操作的计算量,便于后续关联规则的发掘。通常情况下,初始数据集可以压缩至1%的数据量规模。
为了达到自动化的模式规则发现,通项数据集还需进一步进行聚类算法处理。聚类算法可为K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的期望最大化聚类算法、凝聚层次聚类算法或图团体检测法。
如前所述,数据集中的一条日志记录表示为:S′={d′,u′,p′,r′},生成簇的步骤如下:
(1)取数据集Data中所有的u′项(去重复)组成集合U0,设ui′∈U0,以ui′为主元素,含有同一ui′项的日志记录S′归属于同一簇中,定义为 Heapi={S′|S′∈Data,u′∈S′,u′=u′i},简记为Heapi,这里Heapi为一个集合;
(2)扫描所有的簇,计算两个簇之间的相似度,根据阈值进行簇合并。
定义一个簇中所有的d′项构成的集合(去重复)为D′,D′称作这个簇的域名集,u′称作簇的核心URL模式,U′为u′中分段元素组成的集合。
对两个不同的簇Heapi和Heapj,簇相似的判别规则是:
|D′i|>3,且|D′j|>3,且D′i和D′j重合度大于0.8;
|U′i|>3,且|U′j|>3,且U′i和U′j重合度大于0.75;
|A|代表集合A中元素(去重复)的个数,两个集合重合度的计算方法为:
Figure BDA0002297244790000071
同时满足①②条件的两个簇,认为是相似的簇。相似簇合并操作只对所有簇进行一次扫描合并。
经过以上步骤处理后,所有的日志记录通项数据集被聚类到了不同的簇中。
步骤S3、计算所有的从多个簇中所选两个不同簇的交集,从而得到模式规则;并利用该模式规则判别恶意URL。
在步骤S3中,过滤掉元素小于3的簇,再通过计算所有的从多个簇中所选经过滤后留下的两个不同簇的交集,从而得到模式规则。
具体地,同一簇中的数据集合可以看作是满足同一条模式规则(Pattern Rule)下产生的,即它们具有共同的相似特征,从字符串特征上来看,它们匹配同一通项,或者匹配的通项具有高度的相似性,同时,它们的域名集也是扎堆出现的。
以上表述可以符号化表示为:
Figure BDA0002297244790000072
即在规则rulei下,数据集Data映射为簇Heapi
关联规则挖掘的第一步,首先对簇集合{Heapi}进行过滤,簇中域名集元素个数小于3的从最终结果中剔除。
第二步,对簇集合{Heapi||Heapi|≥3}中的簇两两操作,计算两个不同簇的域名集的交集部分。同时满足rulei和rulej部分的域名集为:D′i∩D′j
此部分域名集即为满足强规则条件下的域名。域名集和对应的规则,可以进入后面的研判流程。
剔除掉交集中元素个数小于3的集合,得到最终的模式发现结果。
Result={(D′i∩D′j,rulei,rulej)||D′i∩D′j|≥3}
图2是本申请实施例提供的一种与上述恶意URL检测方法对应的恶意 URL检测系统的结构示意图。该系统包括:
参数提取器100,用于获取流量日志的参数;
参数提取器模块的工作原理:URL预处理,对URL部分进行截取、分段,去掉与Domain重合的字符串部分,并根据“/”符来对剩余部分分段;Parame 预处理,根据“&”对Parame中所包含的参数段进行分段;Refer预处理:根据“?”对Refer分成两部分,根据“&”对第二部分进行参数分段。为简化描述,分别用d、u、p、r来代替以上四部分参数项。
对于上面的例子,参数提取后的数据变成如下的样子:
S={d,u,p,r}={{xlvs.cn},{admin,ajax.php},{act=setStatus,name=3591,status=1},{http://xlvs.cn/admin/list.php,type=0}}
参数提取工作是为了下一步的通项提取做准备。
通项数据集提取器200,用于提取流量日志的参数的通项数据集;
通项数据集提取器200包括:
通项生成模块210,用于对流量日志不同类型的参数分别提取各自的通项数据;
数据集重组模块220,用于将所提取的所有通项数据重组,从而构成流量日志的参数的通项数据集。
通项生成模块210用于对于S中的子集,分别处理,提取通项。显见,处理后的数据变成了四元组集合S,通项提取的过程就是分别对d,u,p,r 进行操作。
由于域名d部分代表的是一个完整的物理地址存在,因此再做进一步的粒度细分已无意义,反而会带来后续计算上的麻烦,这里保留d的现有形式作为通项值。
对于u部分,定义集合U={ui|ui∈u,i=1,2,3,4...},需要处理以下几种形式的元素:
ui中以数字字符串开始:
例如:0234admin,将“0234”部分用通配符“*”来表示:*admin
ui中以数字字符串结尾:
例如:admin1520,将“1520”部分用通配符“*”来表示:admin*
ui全部为数字字符串:
例如:174216,将整个字段用通配符“***”来表示:****
ui中文件名部分为数字字符串;
例如:1558612176.html,将文件名部分用通配符“***”来表示,将后缀部分用“HHH”来表示:***.HHH
对于p部分,定义集合P={pi|pi∈p,i=1,2,3,4...},统一按以下方式处理:
“=”后面的字符串值为变量,用通配符“*”来表示。例如:act=setStatus 表示为:act=*,name=3591表示为:name=*。
对于r部分,定义集合R={ri|ri∈r,i=2,3,4...},统一按以下方式处理:
“=”后面的字符串值为变量,用通配符“*”来表示。例如:type=0表示为:type=*。
经过以上步骤处理,即可得到四个部分参数项的通项数据表示。
数据集重组模块220包括:
将通项数据重新组合,表示成四元组集合。这部分的操作是将u、p、d 中通项处理后的结果组成新的集合,分别定义为u′、p′、d′,这里d′=d。处理完成后的日志记录集合为:
S′={d′,u′,p′,r′}={{xlvs.cn},{admin,ajax.php},{act=*,name=*,status=*},{http://xlvs.cn/admin/list.php,type=*}}
经过通项提取后,数据集记录中会出现大量的重复数据样本。
这里通过对数据样本排序去重,可以压缩数据量,减少后面操作的计算量,便于后续关联规则的发掘。通常情况下,初始数据集可以压缩至1%的数据量规模。
簇生成器300,用于对该通项数据集进行聚类,得到多个簇;
经过前一模块的处理后,数据集的数量已大大缩减,皆以通项表示法来表示。为了达到自动化的模式规则发现,通项数据集还需进一步进行聚类算法处理。
如前所述,数据集中的一条日志记录表示为:S′={d′,u′,p′,r′},生成簇的步骤如下:
(1)取数据集Data中所有的u′项(去重复)组成集合U0,设u′i∈U0,以u′i为主元素,含有同一u′i项的日志记录S′归属于同一簇中,定义为 Heapi={S′|S′∈Data,u′∈S′,u′=u′i},简记为Heapi,这里Heapi为一个集合;
(2)扫描所有的簇,计算两个簇之间的相似度,根据阈值进行簇合并。
定义一个簇中所有的d′项构成的集合(去重复)为D′,D′称作这个簇的域名集,u′称作簇的核心URL模式,U′为u′中分段元素组成的集合。
对两个不同的簇Heapi和Heapj,簇相似的判别规则是:
|D′i|>3,且|D′j|>3,且D′i和D′j重合度大于0.8;
|U′i|>3,且|U′j|>3,且U′i和U′j重合度大于0.75;
|A|代表集合A中元素(去重复)的个数,两个集合重合度的计算方法为:
Figure BDA0002297244790000101
同时满足①②条件的两个簇,认为是相似的簇。相似簇合并操作只对所有簇进行一次扫描合并。
经过以上步骤处理后,所有的日志记录通项数据集被聚类到了不同的簇中。
模式规则挖掘器400,用于计算所有的从多个簇中所选两个不同簇的交集,从而得到模式规则;
此模块的作用是在上一步处理后,对模式规则的进一步加强。同一簇中的数据集合可以看作是满足同一条模式规则(Pattern Rule)下产生的,即它们具有共同的相似特征,从字符串特征上来看,它们匹配同一通项,或者匹配的通项具有高度的相似性,同时,它们的域名集也是扎堆出现的。
以上表述可以符号化表示为:
Figure BDA0002297244790000111
即在规则rulei下,数据集Data映射为簇Heapi
关联规则挖掘的第一步,首先对簇集合{Heapi}进行过滤,簇中域名集元素个数小于3的从最终结果中剔除。
第二步,对簇集合{Heapi||Heapi|≥3}中的簇两两操作,计算两个不同簇的域名集的交集部分。同时满足rulei和rulej部分的域名集为:D′i∩D′j
此部分域名集即为满足强规则条件下的域名。域名集和对应的规则,可以进入后面的研判流程。
剔除掉交集中元素个数小于3的集合,得到最终的模式发现结果。
Result={(D′i∩D′j,rulei,rulej)||D′i∩D′j|≥3}
恶意URL判别器500,用于利用模式规则判别恶意URL。
本发明的实施例利用流量日志特征处理模块提高了网络流量日志批处理效率,有效提取了流量中链接访问日志的核心项集;结合聚类算法模块可以很好地提取海量流量日志中的模式规则,并利用关联规则取交集得到了强规则模式,应用于后续的恶意URL研判分析,较于以往的方法,效率更高,效果更佳。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种恶意URL检测方法,其特征在于,包括以下步骤:
步骤S1、获取流量日志的参数;
步骤S2、提取流量日志的参数的通项数据集;对该通项数据集进行聚类,得到多个簇;
步骤S3、计算所有的从多个簇中所选两个不同簇的交集,从而得到模式规则;并利用该模式规则判别恶意URL。
2.根据权利要求1所述的恶意URL检测方法,其特征在于,步骤S1还包括:
按照参数格式特征区分并分别获取流量日志不同类型的参数。
3.根据权利要求2所述的恶意URL检测方法,其特征在于,步骤S2还包括:
对流量日志不同类型的参数分别提取各自的通项数据;
再将所提取的所有通项数据重组,从而构成流量日志的参数的通项数据集。
4.根据权利要求1所述的恶意URL检测方法,其特征在于,步骤S3还包括:
过滤掉元素小于3的簇,再通过计算所有的从多个簇中所选经过滤后留下的两个不同簇的交集,从而得到模式规则。
5.根据权利要求1所述的恶意URL检测方法,其特征在于,流量日志的参数包括Domain部分、URL部分、Parame部分、Refer部分。
6.一种恶意URL检测系统,其特征在于,包括:
参数提取器(100),用于获取流量日志的参数;
通项数据集提取器(200),用于提取流量日志的参数的通项数据集;
簇生成器(300),用于对该通项数据集进行聚类,得到多个簇;
模式规则挖掘器(400),用于计算所有的从多个簇中所选两个不同簇的交集,从而得到模式规则;
恶意URL判别器(500),用于利用模式规则判别恶意URL。
7.根据权利要求6所述的恶意URL检测系统,其特征在于,参数提取器(100)还用于按照参数格式特征区分并分别获取流量日志不同类型的参数。
8.根据权利要求7所述的恶意URL检测系统,其特征在于,通项数据集提取器(200)包括:
通项生成模块(210),用于对流量日志不同类型的参数分别提取各自的通项数据;
数据集重组模块(220),用于将所提取的所有通项数据重组,从而构成流量日志的参数的通项数据集。
9.根据权利要求6所述的恶意URL检测系统,其特征在于,模式规则挖掘器(400)还用于过滤掉元素小于3的簇,再通过计算所有的从多个簇中所选经过滤后留下的两个不同簇的交集,从而得到模式规则。
10.根据权利要求6所述的恶意URL检测系统,其特征在于,流量日志的参数包括Domain部分、URL部分、Parame部分、Refer部分。
CN201911207570.7A 2019-11-29 2019-11-29 一种恶意url检测方法及系统 Active CN111163053B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911207570.7A CN111163053B (zh) 2019-11-29 2019-11-29 一种恶意url检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911207570.7A CN111163053B (zh) 2019-11-29 2019-11-29 一种恶意url检测方法及系统

Publications (2)

Publication Number Publication Date
CN111163053A true CN111163053A (zh) 2020-05-15
CN111163053B CN111163053B (zh) 2022-05-03

Family

ID=70556327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911207570.7A Active CN111163053B (zh) 2019-11-29 2019-11-29 一种恶意url检测方法及系统

Country Status (1)

Country Link
CN (1) CN111163053B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11475090B2 (en) * 2020-07-15 2022-10-18 Group-Ib Global Private Limited Method and system for identifying clusters of affiliated web resources

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101399658A (zh) * 2007-09-24 2009-04-01 北京启明星辰信息技术有限公司 一种安全日志分析方法及系统
CN102222187A (zh) * 2011-06-02 2011-10-19 国家计算机病毒应急处理中心 基于域名构造特征的挂马网页检测方法
US20160292592A1 (en) * 2015-04-03 2016-10-06 Oracle International Corporation Method and system for implementing machine learning classifications
CN106384128A (zh) * 2016-09-09 2017-02-08 西安交通大学 一种挖掘时序数据状态关联的方法
CN109408745A (zh) * 2018-09-17 2019-03-01 国美网安科技有限公司 网页数据分析处理方法及装置
CN109861995A (zh) * 2019-01-17 2019-06-07 安徽谛听信息科技有限公司 一种网络空间安全大数据智能分析方法、计算机可读介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101399658A (zh) * 2007-09-24 2009-04-01 北京启明星辰信息技术有限公司 一种安全日志分析方法及系统
CN102222187A (zh) * 2011-06-02 2011-10-19 国家计算机病毒应急处理中心 基于域名构造特征的挂马网页检测方法
US20160292592A1 (en) * 2015-04-03 2016-10-06 Oracle International Corporation Method and system for implementing machine learning classifications
CN106384128A (zh) * 2016-09-09 2017-02-08 西安交通大学 一种挖掘时序数据状态关联的方法
CN109408745A (zh) * 2018-09-17 2019-03-01 国美网安科技有限公司 网页数据分析处理方法及装置
CN109861995A (zh) * 2019-01-17 2019-06-07 安徽谛听信息科技有限公司 一种网络空间安全大数据智能分析方法、计算机可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蒋磊: "基于机器学习的SQL注入检测技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11475090B2 (en) * 2020-07-15 2022-10-18 Group-Ib Global Private Limited Method and system for identifying clusters of affiliated web resources

Also Published As

Publication number Publication date
CN111163053B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
WO2021088385A1 (zh) 一种在线日志解析方法、系统及其电子终端设备
CN107294993B (zh) 一种基于集成学习的web异常流量监测方法
Leung et al. Unsupervised anomaly detection in network intrusion detection using clusters
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
CN102779249B (zh) 恶意程序检测方法及扫描引擎
CN105138913A (zh) 一种基于多视集成学习的恶意软件检测方法
CN103927398A (zh) 基于最大频繁项集挖掘的微博炒作群体发现方法
CN111723371A (zh) 构建恶意文件的检测模型以及检测恶意文件的方法
CN115544519A (zh) 对计量自动化系统威胁情报进行安全性关联分析的方法
CN114817243A (zh) 数据库联合索引的建立方法、装置、设备及存储介质
CN111163053B (zh) 一种恶意url检测方法及系统
CN115794803A (zh) 一种基于大数据ai技术的工程审计问题监测方法与系统
CN110008701B (zh) 基于elf文件特征的静态检测规则提取方法及检测方法
Aung et al. Association rule pattern mining approaches network anomaly detection
Pei et al. Subgraph anomaly detection in financial transaction networks
CN112887343A (zh) 一种用于网络大数据的管理系统及管理方法
Rahman et al. An efficient approach for selecting initial centroid and outlier detection of data clustering
CN112883373A (zh) 一种PHP类型的WebShell检测方法及其检测系统
CN112052453A (zh) 基于Relief算法的webshell检测方法及装置
CN112968865B (zh) 一种基于关联规则挖掘的网络协议语法特征快速提取方法
CN115221012A (zh) 一种日志的聚类解析方法、装置及设备
CN115842645A (zh) 基于umap-rf的网络攻击流量检测方法、装置及可读存储介质
Bai et al. Patcluster: A top-down log parsing method based on frequent words
CN112163217B (zh) 恶意软件变种识别方法、装置、设备及计算机存储介质
CN113919415A (zh) 一种基于无监督算法的异常群组检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant