CN102222187A - 基于域名构造特征的挂马网页检测方法 - Google Patents

基于域名构造特征的挂马网页检测方法 Download PDF

Info

Publication number
CN102222187A
CN102222187A CN2011101469677A CN201110146967A CN102222187A CN 102222187 A CN102222187 A CN 102222187A CN 2011101469677 A CN2011101469677 A CN 2011101469677A CN 201110146967 A CN201110146967 A CN 201110146967A CN 102222187 A CN102222187 A CN 102222187A
Authority
CN
China
Prior art keywords
domain
domain name
stage
sample
detection method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011101469677A
Other languages
English (en)
Other versions
CN102222187B (zh
Inventor
张健
杜振华
张津弟
刘威
梁宏
舒心
马勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NATIONAL COMPUTER VIRUS EMERGENCY RESPONSE CENTER
Original Assignee
NATIONAL COMPUTER VIRUS EMERGENCY RESPONSE CENTER
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NATIONAL COMPUTER VIRUS EMERGENCY RESPONSE CENTER filed Critical NATIONAL COMPUTER VIRUS EMERGENCY RESPONSE CENTER
Priority to CN2011101469677A priority Critical patent/CN102222187B/zh
Publication of CN102222187A publication Critical patent/CN102222187A/zh
Application granted granted Critical
Publication of CN102222187B publication Critical patent/CN102222187B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于域名构造特征的挂马网页检测方法。该方法是通过已捕获的少量已知或可疑挂马网页URL,通过样本聚类获得构造规则,再通过构造规则进行衍生,最后通过对衍生出的可疑URL进行验证来发现未知挂马网站,从而可以在投入较少的情况下获得比较好的检测效果和明显提高检测效率,而且还可以得到大量的线索和数据。另外,由于本方法对检测目标范围进行了优化,因此可以优先检测可疑度高的目标,所以能够明显提高检测效率。此外,本方法还可以与传统的挂马网页检测方法相结合,并且在应用中可以前置,从而为传统的挂马网页检测方法缩小检测范围,并且仍能保持较好的召回率。

Description

基于域名构造特征的挂马网页检测方法
技术领域
本发明属于计算机技术领域,特别是涉及一种基于域名构造特征的挂马网页检测方法。
背景技术
挂马攻击是指攻击者在已经获得控制权的网站网页中嵌入恶意代码(通常是通过IFrame、Script引用来实现),当用户访问该网页时,嵌入的恶意代码将利用浏览器本身的漏洞、第三方ActiveX漏洞或者其它插件(如Flash、PDF插件等)漏洞,在用户不知情的情况下下载并执行恶意木马。
目前,在广域网上主动检测挂马网页的方法主要基于网络爬行技术,即:设置若干入口点,使用网络爬虫程序获取大量相关链接,再逐一进行后续判断。虽然该方法的检测范围较大,全面性好,但由于检测目标过于发散,所以需要消耗大量的服务器资源和网络资源,并且发现挂马网页的效率不高。
发明内容
为了解决上述问题,本发明的目的在于提供一种能够明显提高检测效率的基于域名构造特征的挂马网页检测方法。
为了达到上述目的,本发明提供的基于域名构造特征的挂马网页检测方法包括按顺序进行的下列步骤:
1)对已知恶意网页URL样本进行分析并提取特征的S1阶段:在此阶段中,从已知的恶意网页URL库中提取出已知恶意网页地址和域名,然后对其进行分析,并提取其特征,从而生成已知样本特征池;
2)根据特征对样本进行聚类的S2阶段:在此阶段中,对从S1阶段获得的已知样本特征池中的已知恶意网页URL样本进行聚类,从而求得各样本之间的匹配率;
3)获得每一类样本的构造规则的S3阶段:在此阶段中,先应用相同构造判断规则对经过聚类的已知样本逐一进行分类,然后分别确定能代表该类样本的构造规则,从而生成构造规则池;
4)通过构造规则生成衍生集合的S4阶段:在此阶段中,通过对构造规则池中的规则进行衍生,由此获得衍生集合;
5)用衍生集合样本判别恶意网页的S5阶段:在此阶段中,针对衍生集合中的URL样本,使用挂马网页主动检测系统逐一进行验证,如果从中发现恶意网页,达到预期目标;如果未能发现,则返回到S1阶段的入口处。
在S2阶段中,所述的对已知样本特征池中的样本进行聚类的方法包括按顺序进行的下列步骤:
a)从已知样本特征池中任意取两个挂马网页地址,截取其域名字符串domain1,domain2,然后分别计算两域名字符串长度差d;
b)计算上述两个域名的相似度序列Q1,Q2,Q3...;
c)获得两个域名字符串的匹配率
Figure BDA0000065800410000021
d)重复上述步骤a)-c),直至完成对已知样本特征池中所有样本的聚类。
在步骤a)中,所述的计算两域名字符串长度差d所采用的具体做法是:对于任意2个挂马网页地址addr1,addr2∈Ui,截取其域名字符串分别domain1,domain2∈Ai,然后计算两域名字符串的长度差d=|Len(domain1)-Len(domain2)|。
在步骤b)中,所述的计算上述两个域名的相似度序列Q1,Q2,Q3...所采用的具体做法是:将domain2相对于domain1做从左至右的移动匹配计算,长度不足部分用空格补齐,每移动匹配一次,就计算一次匹配率M、重叠率L,进而得到相似度Q,其中,将字符串的长度记为n,相同字母的个数记为m,两字符串重叠的个数记为r,则有:
重叠率L:重叠字符串的个数与字符串的长度之比率,即:
匹配率M:对应位置字符相同或视觉相似的个数与字符串长度之比率,即: M = m n ;
相似度Q:域名相似度 Q = M 2 L = ( m 2 n 2 ) · ( r n ) ;
最后得到相似度序列Q1,Q2,Q3...Q2n-1
在步骤c)中,所述的获得两个域名字符串的匹配率
Figure BDA0000065800410000034
所采用的具体做法是:在步骤b)所得到的相似度序列Q1,Q2,Q3...Q2n-1中取最大值,作为最终两个域名字符串的匹配率
Figure BDA0000065800410000035
,即: ( Q domain 1 , domain 2 ) = Max { Q 1 , Q 2 , Q 3 . . . Q 2 n - 1 } .
在S3阶段中,所述的相同构造判断规则所采用的具体判断方法是:
当domain1,domain2的相似度
Figure BDA0000065800410000038
满足如下条件时,
Q ( domain 1 , domain 2 ) > 0.5 Len ( domain 1 ) < 11 , d < 3 0.7 Len ( domain 1 ) &GreaterEqual; 11 , d < 3
则认为domain1,domain2具有相同的构造规则p:
p=P(domain1,domain2)。
在S3阶段中,所述的构造规则p使用PERL正则表达式形式进行描述,如:
domain1=’baidu-opop1.cn’
domain2=’baidu-opop2.cn’
则有p=baidu-opop[d+].[Dtype+],其中[Dtype+]是自定义的变量,主要代表常见的域名类型,如“.cn”,“.com”,“.org”。
在S4阶段中,所述的对构造规则池中的规则进行衍生的方法包括按顺序进行的下列步骤:
e)从构造规则池中取一规则,分析其通配符数量,即统计[d+]、[w+]、[Dtype+]的数量;
f)根据通配符类型,对通配符进行赋值,[d+]的取值为[0,20]范围内的正整数;[w+]的取值为字母{a,b,c,…,z};[Dtype+]取值范围为常见域名{.cn,.com,.org,…,.net};
g)通过步骤f)获得与规则对应的衍生URL;
h)重复上述步骤e)-g),直至完成对构造规则池中所有规则的衍生,获得衍生集合。
本发明提供的基于域名构造特征的挂马网页检测方法是通过已捕获的少量已知或可疑挂马网页URL,通过样本聚类获得构造规则,再通过构造规则进行衍生,最后通过对衍生出的可疑URL进行验证来发现未知挂马网站,从而可以在投入较少的情况下获得比较好的检测效果和明显提高检测效率,而且还可以得到大量的线索和数据。另外,由于本方法对检测目标范围进行了优化,因此可以优先检测可疑度高的目标,所以能够明显提高检测效率。此外,本方法还可以与传统的挂马网页检测方法相结合,并且在应用中可以前置,从而为传统的挂马网页检测方法缩小检测范围,并且仍能保持较好的召回率。
附图说明
图1为本发明提供的基于域名构造特征的挂马网页检测方法流程图。
具体实施方式
本发明人通过对大量捕获的网页挂马数据进行统计分析,发现黑客的挂马活动具有工具化和批量化的特点。黑客在挂马前会申请一批域名,这些域名的构成具有一定规律和相似度。
如下列挂马网页地址:
http://baidu-opop1.cn/Bfyy.htm
http://baidu-opop1.cn/ce.htm
http://baidu-opop2.cn/ce.htm
http://baidu-opop2.cn/Bfyy.htm
http://baidu-opop3.cn/Bfyy.htm
http://baidu-opop3.cn/real10.htm
http://baidu-opop3.cn/ce.htm
http://baidu-opop4.cn/Bfyy.htm
http://baidu-opop4.cn/ie7.htm
http://baidu-opop6.cn/ce.htm
http://baidu-opop7.cn/Bfyy.htm
http://baidu-opop7.cn/ie7.htm
在这些网站地址中,域名部分:
baidu-opop.cn
baidu-opop1.cn
baidu-opop2.cn
baidu-opop3.cn
baidu-opop4.cn
baidu-opop6.cn
baidu-opop7.cn
以及路径部分:
/Bfyy.htm
/ce.htm
/ie7.htm
/real10.htm
均具有较强的相似性。
经过调研和分析,本发明人认为这种相似度产生的原因主要有:
(1)便于管理
目前网页挂马活动日益规模化、集团化,环节和复杂度也呈上升趋势,一个黑客团伙往往掌握成百上千个可用于挂马的网站域名,为了降低管理、维护难度,而逐渐形成了一种规范化的挂马网页管理和运作方式。
(2)提高域名申请的成功率
目前黑客在申请用于挂马的网站域名时,往往采用批量注册的方式,采用相似的构造方式往往可以在较短时间内注册一大批可用域名。而且目前自动域名注册程序已经出现,其功能同样是通过相应的构造规则进行批量注册。
(3)提高配置木马效率
黑客在挂马时,需要将挂马网页的URL写入木马程序或者写入被入侵的正常网页中,而且通过分析捕获的挂马网页,黑客建立的一个放马网站中同时储存20~40个不同功能的木马。因此采用相同的路径,可以仅变换提前申请的放马网站域名,即可生成挂马URL,然后对木马进行配置,这个过程一般采用工具实现。这样,黑客可以根据需要快速批量配置木马。
在分析挂马URL中域名、网页路径的组成特点后,本发明人提出了一种基于域名构造特征的挂马网页检测方法,通过已捕获的挂马网页地址,由本方法直接生成可能存在的未知挂马网页地址,然后再由挂马网页主动检测系统进行验证,从而快速发现未知的挂马网页。
下面结合附图和具体实施例对本发明提供的基于域名构造特征的挂马网页检测方法进行详细说明。
如图1所示,本发明提供的基于域名构造特征的挂马网页检测方法包括按顺序进行的下列步骤:
1)对已知恶意网页URL样本进行分析并提取特征的S1阶段:在此阶段中,从已知的恶意网页URL库D1中提取出已知恶意网页地址和域名,然后对其进行分析,并提取其特征,从而生成已知样本特征池D2;
2)根据特征对样本进行聚类的S2阶段:在此阶段中,对从S1阶段获得的已知样本特征池D2中的已知恶意网页URL样本进行聚类,从而求得各样本之间的匹配率;
3)获得每一类样本的构造规则的S3阶段:在此阶段中,先应用相同构造判断规则对经过聚类的已知样本逐一进行分类,然后分别确定能代表该类样本的构造规则,从而生成构造规则池D3;
4)通过构造规则生成衍生集合的S4阶段:在此阶段中,通过对构造规则池D3中的规则进行衍生,由此获得衍生集合D4;
5)用衍生集合样本判别恶意网页的S5阶段:在此阶段中,针对衍生集合D4中的URL样本,使用挂马网页主动检测系统逐一进行验证,如果从中发现恶意网页,达到预期目标;如果未能发现,则返回到S1阶段的入口处。
在S2阶段中,所述的对已知样本特征池D2中的样本进行聚类的方法包括按顺序进行的下列步骤:
a)从已知样本特征池D2中任意取两个挂马网页地址,截取其域名字符串domain1,domain2,然后分别计算两域名字符串长度差d;
b)计算上述两个域名的相似度序列Q1,Q2,Q3...;
d)获得两个域名字符串的匹配率
d)重复上述步骤a)-c),直至完成对已知样本特征池D2中所有样本的聚类。
在步骤a)中,所述的计算两域名字符串长度差d所采用的具体做法是:对于任意2个挂马网页地址addr1,addr2∈Ui,截取其域名字符串分别domain1,domain2∈Ai,然后计算两域名字符串的长度差d=|Len(domain1)-Len(domain2)|。
在步骤b)中,所述的计算上述两个域名的相似度序列Q1,Q2,Q3...所采用的具体做法是:将domain2相对于domain1做从左至右的移动匹配计算,长度不足部分用空格补齐,每移动匹配一次,就计算一次匹配率M、重叠率L,进而得到相似度Q,其中,将字符串的长度记为n,相同字母的个数记为m,两字符串重叠的个数记为r,则有:
重叠率L:重叠字符串的个数与字符串的长度之比率,即:
Figure BDA0000065800410000081
匹配率M:对应位置字符相同或视觉相似的个数与字符串长度之比率,即: M = m n ;
相似度Q:域名相似度 Q = M 2 L = ( m 2 n 2 ) &CenterDot; ( r n ) ;
最后得到相似度序列Q1,Q2,Q3...Q2n-1
在步骤c)中,所述的获得两个域名字符串的匹配率所采用的具体做法是:在步骤b)所得到的相似度序列Q1,Q2,Q3...Q2n-1中取最大值,作为最终两个域名字符串的匹配率即: ( Q domain 1 , domain 2 ) = Max { Q 1 , Q 2 , Q 3 . . . Q 2 n - 1 } .
在步骤b)计算匹配率M时,所述的视觉相似的具体判定依据是:
对于具有较强的视觉相似度的字符,即判定为视觉相似,本发明人经过统计拟定出了一个目前黑客常用的视觉相似度对应表(见表1),以用于匹配率M的计算。
表1视觉相似字符对照表
    说明     说明
    0     字母0     0     数字0
    1     字母1     1     数字1
    6     数字6     b     字母b
    l     字母l     I 字母i的大写
    B     字母B     8     数字8
在S3阶段中,所述的相同构造判断规则所采用的具体判断方法是:
当domain1,domain2的相似度
Figure BDA0000065800410000091
满足如下条件时,
Q ( domain 1 , domain 2 ) > 0.5 Len ( domain 1 ) < 11 , d < 3 0.7 Len ( domain 1 ) &GreaterEqual; 11 , d < 3
则可认为domain1,domain2具有相同的构造规则p:
p=P(domain1,domain2)。
在S3阶段中,所述的构造规则p使用PERL正则表达式形式进行描述,如:
domain1=’baidu-opop1.cn’
domain2=’baidu-opop2.cn’
则有p=baidu-opop[d+].[Dtype+],其中[Dtype+]是自定义的变量,主要代表常见的域名类型,如“.cn”,  “.com”,“.org”等。
下面通过具体实例说明在步骤c)中获得两个域名字符串的匹配率
Figure BDA0000065800410000093
的具体过程:
例如:有域名domain1=‘justcctv6.cn’和domain2=’justcctvbb.cn’,为了提高效率,将域名进行简化,并将域名类型去除,即:domain1=‘justcctv6’,domain2=’justcctvbb’。
将domain2相对于domain1做从左至右的移动匹配计算,长度不足部分用空格补齐,每移动匹配一次,就计算一次匹配率M、重叠率L,进而得到相似度Q,如下所示。
又如:
domain1=’wm.sllbqsb.cn’
domain2=’wm.slldqsb.cn’
则有p=wm.sll[w+]qsb.[Dtype+]。
Figure BDA0000065800410000101
由此得到相似度序列Q1,Q2,Q3...Q19,而最终两个域名字符串的匹配率则取其中的最大值Max{Q1,Q2,Q3...Q19}。
在S4阶段中,所述的对构造规则池D3中的规则进行衍生的方法包括按顺序进行的下列步骤:
e)从构造规则池D3中取一规则,分析其通配符数量,即统计[d+]、[w+]、[Dtype+]的数量;
f)根据通配符类型,对通配符进行赋值,[d+]的取值为[0,20]范围内的正整数;[w+]的取值为字母{a,b,c,…,z};[Dtype+]取值范围为常见域名{.cn,.com,.org,…,.net};
g)通过步骤f)获得与规则对应的衍生URL;
h)重复上述步骤e)-g),直至完成对构造规则池D3中所有规则的衍生,获得衍生集合D4。

Claims (8)

1.一种基于域名构造特征的挂马网页检测方法,其特征在于:所述的基于域名构造特征的挂马网页检测方法包括按顺序进行的下列步骤:
1)对已知恶意网页URL样本进行分析并提取特征的S1阶段:在此阶段中,从已知的恶意网页URL库(D1)中提取出已知恶意网页地址和域名,然后对其进行分析,并提取其特征,从而生成已知样本特征池(D2);
2)根据特征对样本进行聚类的S2阶段:在此阶段中,对从S1阶段获得的已知样本特征池(D2)中的已知恶意网页URL样本进行聚类,从而求得各样本之间的匹配率;
3)获得每一类样本的构造规则的S3阶段:在此阶段中,先应用相同构造判断规则对经过聚类的已知样本逐一进行分类,然后分别确定能代表该类样本的构造规则,从而生成构造规则池(D3);
4)通过构造规则生成衍生集合的S4阶段:在此阶段中,通过对构造规则池(D3)中的规则进行衍生,由此获得衍生集合(D4);
5)用衍生集合样本判别恶意网页的S5阶段:在此阶段中,针对衍生集合(D4)中的URL样本,使用挂马网页主动检测系统逐一进行验证,如果从中发现恶意网页,达到预期目标;如果未能发现,则返回到S1阶段的入口处。
2.根据权利要求1所述的基于域名构造特征的挂马网页检测方法,其特征在于:在S2阶段中,所述的对已知样本特征池(D2)中的样本进行聚类的方法包括按顺序进行的下列步骤:
a)从已知样本特征池(D2)中任意取两个挂马网页地址,截取其域名字符串domain1,domain2,然后分别计算两域名字符串长度差d;
b)计算上述两个域名的相似度序列Q1,Q2,Q3...;
c)获得两个域名字符串的匹配率
Figure FDA0000065800400000011
d)重复上述步骤a)-c),直至完成对已知样本特征池(D2)中所有样本的聚类。
3.根据权利要求2所述的基于域名构造特征的挂马网页检测方法,其特征在于:在步骤a)中,所述的计算两域名字符串长度差d所采用的具体做法是:对于任意2个挂马网页地址addr1,addr2∈Ui,截取其域名字符串分别domain1,domain2∈Ai,然后计算两域名字符串的长度差d=|Len(domain1)-Len(domain2)|。
4.根据权利要求2所述的基于域名构造特征的挂马网页检测方法,其特征在于:在步骤b)中,所述的计算上述两个域名的相似度序列Q1,Q2,Q3...所采用的具体做法是:将domain2相对于domain1做从左至右的移动匹配计算,长度不足部分用空格补齐,每移动匹配一次,就计算一次匹配率M、重叠率L,进而得到相似度Q,其中,将字符串的长度记为n,相同字母的个数记为m,两字符串重叠的个数记为r,则有:
重叠率L:重叠字符串的个数与字符串的长度之比率,即:
匹配率M:对应位置字符相同或视觉相似的个数与字符串长度之比率,即: M = m n ;
相似度Q:域名相似度 Q = M 2 L = ( m 2 n 2 ) &CenterDot; ( r n ) ;
最后得到相似度序列Q1,Q2,Q3...Q2n-1
5.根据权利要求2所述的基于域名构造特征的挂马网页检测方法,其特征在于:在步骤c)中,所述的获得两个域名字符串的匹配率
Figure FDA0000065800400000024
所采用的具体做法是:在步骤b)所得到的相似度序列Q1,Q2,Q3...Q2n-1中取最大值,作为最终两个域名字符串的匹配率
Figure FDA0000065800400000025
,即: ( Q domain 1 , domain 2 ) = Max { Q 1 , Q 2 , Q 3 . . . Q 2 n - 1 } .
6.根据权利要求1所述的基于域名构造特征的挂马网页检测方法,其特征在于:在S3阶段中,所述的相同构造判断规则所采用的具体判断方法是:
当domain1,domain2的相似度
Figure FDA0000065800400000031
满足如下条件时,
Q ( domain 1 , domain 2 ) > 0.5 Len ( domain 1 ) < 11 , d < 3 0.7 Len ( domain 1 ) &GreaterEqual; 11 , d < 3
则认为domain1,domain2具有相同的构造规则p:
p=P(domain1,domain2)。
7.根据权利要求1所述的基于域名构造特征的挂马网页检测方法,其特征在于:在S3阶段中,所述的构造规则p使用PERL正则表达式形式进行描述,如:
domain1=’baidu-opop1.cn’
domain2=’baidu-opop2.cn’
则有p=baidu-opop[d+].ptype+],其中[Dtype+]是自定义的变量,主要代表常见的域名类型,如“.cn”,“.com”,“.org”。
8.根据权利要求1所述的基于域名构造特征的挂马网页检测方法,其特征在于:在S4阶段中,所述的对构造规则池(D3)中的规则进行衍生的方法包括按顺序进行的下列步骤:
e)从构造规则池(D3)中取一规则,分析其通配符数量,即统计[d+]、[w+]、[Dtype+]的数量;
f)根据通配符类型,对通配符进行赋值,[d+]的取值为[0,20]范围内的正整数;[w+]的取值为字母{a,b,c,…,z};[Dtype+]取值范围为常见域名{.cn,.com,.org,…,.net};
g)通过步骤f)获得与规则对应的衍生URL;
h)重复上述步骤e)-g),直至完成对构造规则池(D3)中所有规则的衍生,获得衍生集合(D4)。
CN2011101469677A 2011-06-02 2011-06-02 基于域名构造特征的挂马网页检测方法 Active CN102222187B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101469677A CN102222187B (zh) 2011-06-02 2011-06-02 基于域名构造特征的挂马网页检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101469677A CN102222187B (zh) 2011-06-02 2011-06-02 基于域名构造特征的挂马网页检测方法

Publications (2)

Publication Number Publication Date
CN102222187A true CN102222187A (zh) 2011-10-19
CN102222187B CN102222187B (zh) 2012-12-05

Family

ID=44778738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101469677A Active CN102222187B (zh) 2011-06-02 2011-06-02 基于域名构造特征的挂马网页检测方法

Country Status (1)

Country Link
CN (1) CN102222187B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436563A (zh) * 2011-12-30 2012-05-02 奇智软件(北京)有限公司 一种检测页面篡改的方法及装置
CN103632084A (zh) * 2012-08-20 2014-03-12 百度在线网络技术(北京)有限公司 恶意特征数据库的建立方法、恶意对象检测方法及其装置
CN104077353A (zh) * 2011-12-30 2014-10-01 北京奇虎科技有限公司 一种黑链检测的方法及装置
CN104168272A (zh) * 2014-08-04 2014-11-26 国家电网公司 一种基于通信行为聚类的木马检测方法
CN104735074A (zh) * 2015-03-31 2015-06-24 江苏通付盾信息科技有限公司 一种恶意url检测方法及其实现系统
CN105025017A (zh) * 2015-07-03 2015-11-04 汉柏科技有限公司 基于防火墙的防挂马的方法及防火墙
CN105897751A (zh) * 2016-06-03 2016-08-24 北京奇虎科技有限公司 威胁情报的生成方法及装置
CN106055981A (zh) * 2016-06-03 2016-10-26 北京奇虎科技有限公司 威胁情报的生成方法及装置
CN106940711A (zh) * 2017-02-27 2017-07-11 北京神州绿盟信息安全科技股份有限公司 一种url检测方法及检测装置
CN107220239A (zh) * 2017-05-31 2017-09-29 温州市鹿城区中津先进科技研究院 一种基于大数据处理的电子商务中有效评论的特征提取方法
CN107798080A (zh) * 2017-10-13 2018-03-13 中国科学院信息工程研究所 一种面向钓鱼url检测的相似样本集构造方法
WO2018072363A1 (zh) * 2016-10-19 2018-04-26 中国互联网络信息中心 一种数据源扩展方法及装置
CN108874802A (zh) * 2017-05-09 2018-11-23 阿里巴巴集团控股有限公司 网页检测方法和装置
WO2019101197A1 (zh) * 2017-11-24 2019-05-31 新华三信息安全技术有限公司 网页请求识别
CN110971601A (zh) * 2019-12-02 2020-04-07 邑客得(上海)信息技术有限公司 一种高效的网络报文传输层多级特征提取方法和系统
CN111131260A (zh) * 2019-12-24 2020-05-08 邑客得(上海)信息技术有限公司 一种海量网络恶意域名识别和分类方法及系统
CN111163053A (zh) * 2019-11-29 2020-05-15 深圳市任子行科技开发有限公司 一种恶意url检测方法及系统
CN111666566A (zh) * 2019-03-07 2020-09-15 北京安信天行科技有限公司 一种挂马检测方法及系统
CN113807087A (zh) * 2020-06-16 2021-12-17 中国电信股份有限公司 网站域名相似度检测方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080295153A1 (en) * 2007-05-24 2008-11-27 Zhidan Cheng System and method for detection and communication of computer infection status in a networked environment
CN101692639A (zh) * 2009-09-15 2010-04-07 西安交通大学 一种基于url的不良网页识别方法
CN101964026A (zh) * 2009-07-23 2011-02-02 中联绿盟信息技术(北京)有限公司 网页挂马检测方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080295153A1 (en) * 2007-05-24 2008-11-27 Zhidan Cheng System and method for detection and communication of computer infection status in a networked environment
CN101964026A (zh) * 2009-07-23 2011-02-02 中联绿盟信息技术(北京)有限公司 网页挂马检测方法和系统
CN101692639A (zh) * 2009-09-15 2010-04-07 西安交通大学 一种基于url的不良网页识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王涛等: "基于统计学习的挂马网页实时监测", 《计算机科学》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077353B (zh) * 2011-12-30 2017-08-25 北京奇虎科技有限公司 一种黑链检测的方法及装置
CN102436563B (zh) * 2011-12-30 2014-07-09 奇智软件(北京)有限公司 一种检测页面篡改的方法及装置
CN104077353A (zh) * 2011-12-30 2014-10-01 北京奇虎科技有限公司 一种黑链检测的方法及装置
CN102436563A (zh) * 2011-12-30 2012-05-02 奇智软件(北京)有限公司 一种检测页面篡改的方法及装置
CN103632084A (zh) * 2012-08-20 2014-03-12 百度在线网络技术(北京)有限公司 恶意特征数据库的建立方法、恶意对象检测方法及其装置
CN104168272A (zh) * 2014-08-04 2014-11-26 国家电网公司 一种基于通信行为聚类的木马检测方法
CN104735074A (zh) * 2015-03-31 2015-06-24 江苏通付盾信息科技有限公司 一种恶意url检测方法及其实现系统
CN105025017A (zh) * 2015-07-03 2015-11-04 汉柏科技有限公司 基于防火墙的防挂马的方法及防火墙
CN105897751A (zh) * 2016-06-03 2016-08-24 北京奇虎科技有限公司 威胁情报的生成方法及装置
CN106055981A (zh) * 2016-06-03 2016-10-26 北京奇虎科技有限公司 威胁情报的生成方法及装置
CN106055981B (zh) * 2016-06-03 2019-08-20 北京奇虎科技有限公司 威胁情报的生成方法及装置
WO2018072363A1 (zh) * 2016-10-19 2018-04-26 中国互联网络信息中心 一种数据源扩展方法及装置
CN106940711A (zh) * 2017-02-27 2017-07-11 北京神州绿盟信息安全科技股份有限公司 一种url检测方法及检测装置
CN106940711B (zh) * 2017-02-27 2020-02-07 北京神州绿盟信息安全科技股份有限公司 一种url检测方法及检测装置
CN108874802A (zh) * 2017-05-09 2018-11-23 阿里巴巴集团控股有限公司 网页检测方法和装置
CN107220239A (zh) * 2017-05-31 2017-09-29 温州市鹿城区中津先进科技研究院 一种基于大数据处理的电子商务中有效评论的特征提取方法
CN107798080A (zh) * 2017-10-13 2018-03-13 中国科学院信息工程研究所 一种面向钓鱼url检测的相似样本集构造方法
CN107798080B (zh) * 2017-10-13 2020-05-22 中国科学院信息工程研究所 一种面向钓鱼url检测的相似样本集构造方法
WO2019101197A1 (zh) * 2017-11-24 2019-05-31 新华三信息安全技术有限公司 网页请求识别
CN111666566A (zh) * 2019-03-07 2020-09-15 北京安信天行科技有限公司 一种挂马检测方法及系统
CN111666566B (zh) * 2019-03-07 2021-06-15 北京安信天行科技有限公司 一种挂马检测方法及系统
CN111163053A (zh) * 2019-11-29 2020-05-15 深圳市任子行科技开发有限公司 一种恶意url检测方法及系统
CN111163053B (zh) * 2019-11-29 2022-05-03 深圳市任子行科技开发有限公司 一种恶意url检测方法及系统
CN110971601A (zh) * 2019-12-02 2020-04-07 邑客得(上海)信息技术有限公司 一种高效的网络报文传输层多级特征提取方法和系统
CN111131260A (zh) * 2019-12-24 2020-05-08 邑客得(上海)信息技术有限公司 一种海量网络恶意域名识别和分类方法及系统
CN113807087A (zh) * 2020-06-16 2021-12-17 中国电信股份有限公司 网站域名相似度检测方法和装置
CN113807087B (zh) * 2020-06-16 2023-11-28 中国电信股份有限公司 网站域名相似度检测方法和装置

Also Published As

Publication number Publication date
CN102222187B (zh) 2012-12-05

Similar Documents

Publication Publication Date Title
CN102222187B (zh) 基于域名构造特征的挂马网页检测方法
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
US9954895B2 (en) System and method for identifying phishing website
CN105516113B (zh) 用于自动网络钓鱼检测规则演进的系统和方法
CN103927400B (zh) Web网站产品详细信息的分类抓取及产品信息库建立方法
CN106375345B (zh) 一种基于周期性检测的恶意软件域名检测方法及系统
CN104601573B (zh) 一种Android平台URL访问结果验证方法及装置
CN104750704B (zh) 一种网页url地址分类识别方法及装置
CN103838754B (zh) 信息搜索装置及方法
CN103530365B (zh) 获取资源的下载链接的方法及系统
CN101630325B (zh) 一种基于脚本特征的网页聚类方法
WO2014000537A1 (zh) 一种钓鱼网站查找系统及方法
CN104202291A (zh) 基于多因素综合评定方法的反钓鱼方法
US20160140344A1 (en) Security information management system and security information management method
CN101883024A (zh) 一种跨站点伪造请求的动态检测方法
CN109117634A (zh) 基于网络流量多视图融合的恶意软件检测方法及系统
CN105281973A (zh) 一种针对特定网站类别的网页指纹识别方法
CN103116635B (zh) 面向领域的暗网资源采集方法和系统
CN107818132A (zh) 一种基于机器学习的网页代理发现方法
CN102073678B (zh) 一种网站信息分析系统及其方法
CN107437026A (zh) 一种基于广告网络拓扑的恶意网页广告检测方法
CN107438083A (zh) 一种Android环境下钓鱼网站检测方法及其检测系统
CN107666404A (zh) 宽带网络用户识别方法和装置
CN110020161B (zh) 数据处理方法、日志处理方法和终端
CN108959930A (zh) 恶意pdf检测方法、系统、数据存储设备和检测程序

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant