CN102622553A - 检测网页安全的方法及装置 - Google Patents

检测网页安全的方法及装置 Download PDF

Info

Publication number
CN102622553A
CN102622553A CN2012101232026A CN201210123202A CN102622553A CN 102622553 A CN102622553 A CN 102622553A CN 2012101232026 A CN2012101232026 A CN 2012101232026A CN 201210123202 A CN201210123202 A CN 201210123202A CN 102622553 A CN102622553 A CN 102622553A
Authority
CN
China
Prior art keywords
webpage
detected
fishing
type
domain name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012101232026A
Other languages
English (en)
Inventor
罗焱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN2012101232026A priority Critical patent/CN102622553A/zh
Publication of CN102622553A publication Critical patent/CN102622553A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种检测网页安全的方法及装置,属于计算机技术领域。所述方法包括:根据待检测网页的页面信息确定所述待检测网页的网页类型,并获取所述待检测网页的域名信息;将所述待检测网页的域名信息与钓鱼网页或非钓鱼网页的域名特征进行匹配,所述钓鱼网页或非钓鱼网页的网页类型与所述待检测网页的网页类型一致;根据匹配结果判断所述待检测网页是否为钓鱼网页。由于恶意欺诈类钓鱼网页的域名具有明显特征,本发明通过获取待检测网页的域名信息,将该域名信息与钓鱼网页或非钓鱼网页的域名特征进行匹配,根据匹配结果判断待检测网页是否为钓鱼网页,不仅能够实现恶意欺诈类钓鱼网页的检测,还可提高检测该类钓鱼网页的准确性。

Description

检测网页安全的方法及装置
技术领域
本发明涉及信息安全技术领域,特别涉及一种检测网页安全的方法及装置。
背景技术
随着网络的普及,钓鱼网页近年来在全球频繁出现,严重地影响了在线金融服务、电子商务的发展。其中,钓鱼网页通常分为仿冒类、非法类和恶意欺诈类等几种类型,如何准确、有效地检测出钓鱼网页,成为了保护用户网络安全的关键。
现有技术在检测网页安全时,采用的一种方式是基于钓鱼网页与合法网页的相似度来检测钓鱼网页,另一种方式是基于钓鱼网页的特征来检测钓鱼网页,还有一种方式是基于网页文本信息使用分类器检测色情网页。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
由于恶意欺诈类钓鱼网页与合法网页在页面结构和文字上无法区分,基于钓鱼网页与合法网页的相似度检测方式不适用于恶意欺诈类钓鱼网页的检测,而基于页面特征的检测方式和基于分类的检测方式也均无法准确检测出恶意欺诈类钓鱼网页。
发明内容
为了准确地检测出恶意欺诈类钓鱼网页,本发明实施例提供了一种检测网页安全的方法及装置。所述技术方案如下:
一方面,提供了一种检测网页安全的方法,所述方法包括:
根据待检测网页的页面信息确定所述待检测网页的网页类型,并获取所述待检测网页的域名信息;
将所述待检测网页的域名信息与钓鱼网页或非钓鱼网页的域名特征进行匹配,所述钓鱼网页或非钓鱼网页的网页类型与所述待检测网页的网页类型一致;
根据匹配结果判断所述待检测网页是否为钓鱼网页。
可选地,所述根据待检测网页的页面信息确定所述待检测网页的网页类型之前,还包括:
收集网页类型与所述待检测网页的网页类型一致的非钓鱼网页的域名,得到白域名集合;
判断所述待检测网页的域名是否在所述白域名集合中;
如果是,则判断所述待检测网页为非钓鱼网页;
如果否,则继续执行根据待检测网页的页面信息确定所述待检测网页的网页类型的后续检测步骤。
可选地,所述根据待检测网页的页面信息确定所述待检测网页的网页类型之前,还包括:
收集网页类型与所述待检测网页的网页类型一致的钓鱼网页的域名,得到黑域名集合;
判断所述待检测网页的域名是否在所述黑域名集合中;
如果是,则判断所述待检测网页为钓鱼网页;
如果否,则继续执行根据待检测网页的页面信息确定所述待检测网页的网页类型的后续检测步骤。
进一步地,所述将所述待检测网页的域名信息与钓鱼网页或非钓鱼网页的域名特征进行匹配之前,还包括:
收集网页类型与所述待检测网页的网页类型一致的钓鱼网页或非钓鱼网页的域名特征,并设置门限值;
所述根据匹配结果判断所述待检测网页是否为钓鱼网页,具体包括:
如果所述待检测网页的域名信息与钓鱼网页的域名特征匹配的数量达到设置的所述门限值,则判断所述待检测网页为钓鱼网页;或者,
如果所述待检测网页的域名信息与非钓鱼网页的域名特征匹配的数量达到设置的所述门限值,则判断所述待检测网页为非钓鱼网页。
可选地,所述收集网页类型与所述待检测网页的网页类型一致的钓鱼网页或非钓鱼网页的域名特征之后,还包括:
周期性收集网页类型与所述待检测网页的网页类型一致的钓鱼网页或非钓鱼网页的域名特征,并根据收集到的域名特征的数量调整设置的所述门限值。
另一方面,还提供了一种检测网页安全的装置,所述装置包括:
确定模块,用于根据待检测网页的页面信息确定所述待检测网页的网页类型;
获取模块,用于获取所述待检测网页的域名信息;
匹配模块,用于将所述获取模块获取到的待检测网页的域名信息与钓鱼网页或非钓鱼网页的域名特征进行匹配,所述钓鱼网页或非钓鱼网页的网页类型与所述确定模块确定的所述待检测网页的网页类型一致;
第一判断模块,用于根据所述匹配模块得到的匹配结果判断所述待检测网页是否为钓鱼网页。
可选地,所述装置还包括:
第一收集模块,用于收集网页类型与所述待检测网页的网页类型一致的非钓鱼网页的域名,得到白域名集合;
第二判断模块,用于判断所述待检测网页的域名是否在所述第一收集模块得到的白域名集合中;如果是,则判断所述待检测网页为非钓鱼网页;如果否,则所述确定模块继续执行根据待检测网页的页面信息确定所述待检测网页的网页类型的后续检测步骤。
可选地,所述装置还包括:
第二收集模块,用于收集网页类型与所述待检测网页的网页类型一致的钓鱼网页的域名,得到黑域名集合;
第三判断模块,用于判断所述待检测网页的域名是否在所述第二收集模块得到的黑域名集合中;如果是,则判断所述待检测网页为钓鱼网页;如果否,则所述确定模块继续执行根据待检测网页的页面信息确定所述待检测网页的网页类型的后续检测步骤。
进一步地,所述装置还包括:
第三收集模块,用于收集网页类型与所述待检测网页的网页类型一致的钓鱼网页或非钓鱼网页的域名特征,并设置门限值;
所述第一判断模块,具体用于如果所述待检测网页的域名信息与钓鱼网页的域名特征匹配的数量达到设置的所述门限值,则判断所述待检测网页为钓鱼网页;或者,如果所述待检测网页的域名信息与非钓鱼网页的域名特征匹配的数量达到设置的所述门限值,则判断所述待检测网页为非钓鱼网页。
可选地,所述第三收集模块,还用于周期性收集网页类型与所述待检测网页的网页类型一致的钓鱼网页或非钓鱼网页的域名特征,并根据收集到的域名特征的数量调整所述预设门限值。
本发明实施例提供的技术方案带来的有益效果是:
由于恶意欺诈类钓鱼网页的域名具有明显特征,因而通过获取待检测网页的域名信息,将该域名信息与钓鱼网页或非钓鱼网页的域名特征进行匹配,根据匹配结果判断待检测网页是否为钓鱼网页,不仅能够检测出恶意欺诈类钓鱼网页,实现网页安全的检测,还可提高检测该类钓鱼网页的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种检测网页安全的方法流程图;
图2是本发明实施例二提供的一种检测网页安全的方法流程图;
图3是本发明实施例三提供的一种检测网页安全的方法流程图;
图4是本发明实施例四提供的一种检测网页安全的装置结构示意图;
图5是本发明实施例四提供的另一种检测网页安全的装置结构示意图;
图6是本发明实施例四提供的又一种检测网页安全的装置结构示意图;
图7是本发明实施例四提供的再一种检测网页安全的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本实施例提供了一种检测网页安全的方法,参见图1,本实施例提供的方法流程具体如下:
101:根据待检测网页的页面信息确定待检测网页的网页类型,并获取该待检测网页的域名信息;
可选地,根据待检测网页的页面信息确定待检测网页的网页类型之前,还包括:
收集网页类型与待检测网页的网页类型一致的非钓鱼网页的域名,得到白域名集合;
判断待检测网页的域名是否在白域名集合中;
如果是,则判断待检测网页为非钓鱼网页;
如果否,则继续执行根据待检测网页的页面信息确定待检测网页的网页类型的后续检测步骤。
可选地,根据待检测网页的页面信息确定待检测网页的网页类型之前,还包括:
收集网页类型与待检测网页的网页类型一致的钓鱼网页的域名,得到黑域名集合;
判断待检测网页的域名是否在黑域名集合中;
如果是,则判断待检测网页为钓鱼网页;
如果否,则继续执行根据待检测网页的页面信息确定待检测网页的网页类型的后续检测步骤。
102:将该待检测网页的域名信息与钓鱼网页或非钓鱼网页的域名特征进行匹配,该钓鱼网页或非钓鱼网页的网页类型与待检测网页的网页类型一致;
103:根据匹配结果判断待检测网页是否为钓鱼网页。
其中,将待检测网页的域名信息与钓鱼网页或非钓鱼网页的域名特征进行匹配之前,还包括:
收集网页类型与待检测网页的网页类型一致的钓鱼网页或非钓鱼网页的域名特征,并设置门限值;
根据匹配结果判断待检测网页是否为钓鱼网页,具体包括:
如果待检测网页的域名信息与钓鱼网页的域名特征匹配的数量达到设置的门限值,则判断待检测网页为钓鱼网页;或者,
如果待检测网页的域名信息与非钓鱼网页的域名特征匹配的数量达到设置的门限值,则判断待检测网页为非钓鱼网页。
可选地,收集网页类型与待检测网页的网页类型一致的钓鱼网页或非钓鱼网页的域名特征之后,还包括:
周期性收集网页类型与待检测网页的网页类型一致的钓鱼网页或非钓鱼网页的域名特征,并根据收集到的域名特征的数量调整设置的门限值。
由于恶意欺诈类钓鱼网页的域名具有明显特征,因而本实施例提供的方法通过获取待检测网页的域名信息,将该域名信息与钓鱼网页或非钓鱼网页的域名特征进行匹配,根据匹配结果判断待检测网页是否为钓鱼网页,不仅能够检测出恶意欺诈类钓鱼网页,实现网页安全的检测,还可提高检测该类钓鱼网页的准确性。
为了更加清楚地阐述上述实施例一提供的方法,结合上述内容,以如下实施例二和实施例三为例,对检测网页安全的方法进行详细地举例说明,详见如下实施例二和实施例三:
实施例二
本实施例提供了一种检测网页安全的方法,结合上述实施例一的内容,本实施例以将待检测网页的域名信息与钓鱼网页的域名特征进行匹配,以判断该待检测网页是否为钓鱼网页为例,对检测网页安全的方法进行举例说明。参见图2,本实施例提供的方法流程具体如下:
201:根据待检测网页的页面信息确定该待检测网页的网页类型,并获取该待检测网页的域名信息;
其中,网页类型可依据网页内容进行划分,例如,分为飞机票订购、火车票订购等网页类型,除此之外,还可以有其他网页类型,本实施例不对具体的待检测网页进行限定,同样不对其网页类型进行限定。根据待检测网页的页面信息确定该待检测网页的网页类型时,可通过待检测网页的网址获取待检测网页的页面信息,再通过朴素bayes(贝叶斯)分类器对网页信息进行分类,得到待检测网页的网页类型。
为了使得到的分类结果更具准确性,本实施例提供的方法在通过朴素bayes分类器对网页信息进行分类之前,针对不同网页类型训练出不同的朴素bayes分类器,以训练预设网页类型的朴素bayes分类器为例,其具体训练过程包括:人工收集或通过分词程序收集网页类型与预设网页类型一致的网页中的关键字,收集预设个数个任意网页及预设网页类型的网页,并计算提取出的关键字在收集到的网页中的概率,将训练过程中的关键字及关键字对应的概率作为朴素bayes分类器的配置数据。在通过朴素bayes分类器对网页信息进行分类时,将待检测网页的页面信息作为输入,利用配置数据得到待检测网页的网页类型。关于收集网页的预设个数可以根据实际情况设置为任意值,本实施例对其大小不做具体限定。例如,以预设网页类型为飞机票订购为例,提取飞机票订购网页中的关键字,并收集200个飞机票订购网页以及200个任意网页,计算提取出的各个关键字在200个飞机票订购网页和200个任意网页中的概率,将关键字及关键字对应的概率作为飞机票订购类网页对应的朴素bayes分类器的配置数据。由此,利用得到的朴素bayes分类器实现对网页类型为飞机票订购类的网页进行分类。
获取该待检测网页的域名信息时,获取到的域名信息包括但不限于以下内容中的至少一种:
(1)域名所有人;
(2)域名注册商信息,包括地址、Email等;
(3)域名注册日期;
(4)域名过期日期;
(5)域名更新日期;
(6)域名对应的IP(Internet Protocol,网际协议)信息,包括IP的位置信息等;
(7)域名的备案信息,包括备案号、许可证号、主办单位性质等。
在获取上述待检测网页的域名信息时,可依据待检测网页的网址提取待检测网页的域名,使用curl工具到对应的网站获取该域名的备案信息,根据域名使用whois命令获取其他域名信息。其中,curl工具为利用URL(Uniform/Universal Resource Locator,统一资源定位符语法在命令行方式下工作的文件传输工具,通过该curl工具即可到备案信息网站去查询待检测网页的备案信息。whois命令用来查询域名的IP以及所有者等信息的传输协议,通过该whois命令即可查询得到除备案信息之外的其他域名信息。
202:将该待检测网页的域名信息与钓鱼网页的域名特征进行匹配,该钓鱼网页的网页类型与该待检测网页的网页类型一致;
针对该步骤,由于钓鱼网页的域名具有明显特征,因而该步骤采取了通过将待检测网页的域名信息与其同网页类型的钓鱼网页的域名特征进行匹配的方式,以得出该待检测网页与钓鱼网页的特征相似程度,进而判断该待检测网页是否为钓鱼网页。为了实现该步骤,在将待检测网页的域名信息与钓鱼网页的域名特征进行匹配之前,本实施例提供的方法还包括收集网页类型与待检测网页的网页类型一致的钓鱼网页的域名特征的步骤,且为了限定待检测网页与同网页类型的钓鱼网页之间的特征相似程度,本实施例提供的方法还包括设置门限值的步骤,以使后续步骤通过待检测网页的域名信息与钓鱼网页的域名特征匹配的数量是否达到门限值来判断该待检测网页是否为钓鱼网页。
其中,收集网页类型与待检测网页的网页类型一致的钓鱼网页的域名特征时,可先收集网页类型与待检测网页类型一致的钓鱼网页,之后再提取收集到的钓鱼网页的域名特征,并设置门限值。实际应用过程中,不同网页类型的钓鱼网页具有不同的域名特征,域名特征的数量也会有所不同,本实施例不对收集到的钓鱼网页的具体域名特征及域名特征的数量进行限定,由于域名特征的数量不同,检测过程中所依据的门限值也会不同,本实施例同样不对设置的门限值大小进行限定。以网页类型为飞机票订购类的钓鱼网页为例,其域名特征可包括但不限于如下内容中的至少一种:
(1)域名注册日期离用户访问日期一般不超过2个月;
(2)域名注册日期一般在最近年度除夕、元旦、十一、五一长假前2个月之内;
(3)域名更新日期与域名注册日期有相同的特征;
(4)域名对应的IP多在国外;
(5)域名无备案,或有备案但主办单位性质为个人;
(6)多个黑域名对应的域名注册商的Email相同。
进一步地,为了使收集到的钓鱼网页的域名特征覆盖范围更广,进而降低检测结果的错误率,本实施例提供的方法还包括:
周期性收集网页类型与待检测网页的网页类型一致的钓鱼网页的域名特征,并根据收集到的域名特征的数量调整设置的门限值。
优选地,为了避免重复地收集钓鱼网页的域名特征,本实施例提供的方法在收集得到钓鱼网页的域名特征之后,还包括将其存储的步骤,以便重复利用收集得到的数据。例如,将每一网页类型的钓鱼网页的域名特征存储在域名特征数据库中,且为了区分不同网页类型的钓鱼网页的域名特征,在域名特征数据库中对每一网页类型设置对应的类型标识,则将待检测网页的域名信息与钓鱼网页的域名特征进行匹配时,可先根据该待检测网页的网页类型到域名特征数据库中查找该网页类型对应的域名特征,之后再将该待检测网页的域名信息与查找到的域名特征进行匹配,具体匹配过程本实施例不做具体限定,如果待检测网页的域名信息具有查找到的域名特征,则可得出该待检测网页的域名信息与域名特征相匹配。
203:根据匹配结果判断该待检测网页是否为钓鱼网页。
具体地,在上述步骤202收集网页类型与待检测网页的网页类型一致的钓鱼网页的域名特征,并设置门限值,将待检测网页的域名信息与钓鱼网页的域名特征进行匹配之后,如果待检测网页的域名信息与钓鱼网页的域名特征匹配的数量达到预先设置的门限值,则判断该待检测网页为钓鱼网页,否则,可判断该待检测网页为非钓鱼网页。例如,如果与待检测网页同网页类型的钓鱼网页的域名特征有6个,设置的门限值为4,则如果待检测网页的域名信息与同网页类型的钓鱼网页有4个匹配的域名特征,则可判断该待检测网页为钓鱼网页。
优选地,除了以上述步骤201至步骤203的操作过程实现钓鱼网页的检测外,为了加快检测速度,本实施例提供的方法在根据待检测网页的页面信息确定待检测网页的网页类型之前,还包括:
收集网页类型与待检测网页的网页类型一致的非钓鱼网页的域名,得到白域名集合;
判断待检测网页的域名是否在白域名集合中;
如果是,则判断待检测网页为非钓鱼网页;
如果否,则继续执行根据待检测网页的页面信息确定待检测网页的网页类型的后续检测步骤。
可选地,本实施例提供的方法在根据待检测网页的页面信息确定待检测网页的网页类型之前,还包括:
收集网页类型与待检测网页的网页类型一致的钓鱼网页的域名,得到黑域名集合;
判断待检测网页的域名是否在黑域名集合中;
如果是,则判断待检测网页为钓鱼网页;
如果否,则继续执行根据待检测网页的页面信息确定待检测网页的网页类型的后续检测步骤。
通过上述收集到的白、黑域名集合得出待检测网页是否为钓鱼网页的方式可以看出,对于已知的钓鱼网页和非钓鱼网页,本实施例提供的方法可无需执行上述步骤201至步骤203的过程,而直接得出该待检测网页是否为钓鱼网页的检测结果,进而加快了检测速度。
进一步地,为了避免对相同的网页重复进行如上钓鱼网页的检测过程,进而加快检测效率,本实施例提供的方法在根据如上步骤201至步骤203得到待检测网页是否为钓鱼网页的结果之后,还包括:根据该待检测网页的检测结果,将其域名记录在对应的白域名集合或黑域名集合中,以在下次对该检测网页进行钓鱼网页的检测时,直接将其域名与白域名集合或黑域名集合中的域名进行对比得到检测结果。例如,如果通过上述步骤201至步骤203对待检测网页进行检测的检测结果为非钓鱼网页,则将该待检测网页的域名记录在白域名集合中,下次再检测该待检测网页时,通过将其域名与白域名集合中的域名进行比对之后即可得出该待检测网页为非钓鱼网页。又例如,如果通过上述步骤201至步骤203对待检测网页进行检测的检测结果为钓鱼网页,则将该待检测网页的域名记录在黑域名集合中,下次再检测该待检测网页时,通过将其域名与黑域名集合中的域名进行比对之后即可得出该待检测网页为钓鱼网页。
由于恶意欺诈类钓鱼网页的域名具有明显特征,因而本实施例提供的方法通过获取待检测网页的域名信息,将该域名信息与钓鱼网页的域名特征进行匹配,根据匹配结果判断待检测网页是否为钓鱼网页,不仅能够检测出恶意欺诈类钓鱼网页,实现对网页安全的检测,还可提高检测该类钓鱼网页的准确性。
实施例三
本实施例提供了一种检测网页安全的方法,结合上述实施例一的内容,本实施例以将待检测网页的域名信息与非钓鱼网页的域名特征进行匹配,以判断该待检测网页是否为钓鱼网页为例,对检测网页安全的方法进行举例说明。参见图3,本实施例提供的方法流程具体如下:
301:根据待检测网页的页面信息确定该待检测网页的网页类型,并获取该待检测网页的域名信息;
该步骤的具体实现方式同上述实施例二中步骤201的实现方式,详见上述实施例二中步骤201的描述,此处不再赘述。
302:将该待检测网页的域名信息与非钓鱼网页的域名特征进行匹配,该非钓鱼网页的网页类型与该待检测网页的网页类型一致;
针对该步骤,由于钓鱼网页的域名具有明显特征,如果待检测网页的域名信息中不包括钓鱼网页的域名特征,则可判断该待检测网页为非钓鱼网页,为此,本实施例提供的方法采取了将待检测网页的域名信息与非钓鱼网页的域名特征进行匹配的方式,由此检测该待检测网页是否为钓鱼网页。具体实现时,在将待检测网页的域名信息与非钓鱼网页的域名特征进行匹配之前,还包括收集网页类型与待检测网页的网页类型一致的非钓鱼网页的域名特征的步骤,且为了限定待检测网页与同网页类型的非钓鱼网页之间的特征相似程度,本实施例提供的方法还包括了设置门限值的步骤,以使后续步骤通过待检测网页的域名信息与非钓鱼网页的域名特征匹配的数量是否达到门限值来判断该待检测网页是否为钓鱼网页。
其中,收集网页类型与待检测网页的网页类型一致的非钓鱼网页的域名特征时,可先收集网页类型与待检测网页类型一致的非钓鱼网页,之后再提取收集到的非钓鱼网页的域名特征,并设置门限值。实际应用过程中,不同网页类型的非钓鱼网页具有不同的域名特征,域名特征的数量也会有所不同,本实施例不对收集到的非钓鱼网页的具体域名特征及域名特征的数量进行限定,由于域名特征的数量不同,检测过程中所依据的门限值也会不同,本实施例同样不对设置的门限值大小进行限定。以网页类型为飞机票订购类的非钓鱼网页为例,其域名特征可包括但不限于如下内容中的至少一种:
(1)域名注册日期离用户访问日期一般超过2个月;
(2)域名注册日期一般不在最近年度除夕、元旦、十一、五一长假前2个月之内;
(3)域名更新日期与域名注册日期有不同的特征;
(4)域名对应的IP多在国内;
(5)域名有备案;
(6)每个域名对应的域名注册商的Email不同。
进一步地,为了使收集到的非钓鱼网页的域名特征覆盖范围更广,进而降低检测结果的错误率,本实施例提供的方法还包括:
周期性收集网页类型与待检测网页的网页类型一致的非钓鱼网页的域名特征,并根据收集到的域名特征的数量调整设置的门限值。
优选地,为了避免重复地收集非钓鱼网页的域名特征,本实施例提供的方法在收集得到非钓鱼网页的域名特征之后,还包括将其存储的步骤,以便重复利用收集得到的数据。例如,将每一网页类型的非钓鱼网页的域名特征存储在域名特征数据库中,且为了区分不同网页类型的非钓鱼网页的域名特征,在域名特征数据库中对每一网页类型设置对应的类型标识,则将待检测网页的域名信息与非钓鱼网页的域名特征进行匹配时,可先根据该待检测网页的网页类型到域名特征数据库中查找该网页类型对应的域名特征,之后再将该待检测网页的域名信息与查找到的域名特征进行匹配,具体匹配过程本实施例不做具体限定,如果待检测网页的域名信息具有查找到的域名特征,则可得出该待检测网页的域名信息与域名特征相匹配。
303:根据匹配结果判断该待检测网页是否为钓鱼网页。
具体地,在上述步骤302收集网页类型与待检测网页的网页类型一致的非钓鱼网页的域名特征,并设置门限值,将待检测网页的域名信息与非钓鱼网页的域名特征进行匹配之后,如果待检测网页的域名信息与非钓鱼网页的域名特征匹配的数量达到预先设置的门限值,则判断该待检测网页为非钓鱼网页,否则,可判断该待检测网页为钓鱼网页。例如,如果与待检测网页同网页类型的非钓鱼网页的域名特征有6个,设置的门限值为4,则如果待检测网页的域名信息与同网页类型的非钓鱼网页有4个匹配的域名特征,则可判断该待检测网页为非钓鱼网页。
优选地,除了以上述步骤301至步骤303的操作过程实现钓鱼网页的检测外,为了加快检测速度,本实施例提供的方法在根据待检测网页的页面信息确定待检测网页的网页类型之前,还包括:
收集网页类型与待检测网页的网页类型一致的非钓鱼网页的域名,得到白域名集合;
判断待检测网页的域名是否在白域名集合中;
如果是,则判断待检测网页为非钓鱼网页;
如果否,则继续执行根据待检测网页的页面信息确定待检测网页的网页类型的后续检测步骤。
可选地,本实施例提供的方法在根据待检测网页的页面信息确定待检测网页的网页类型之前,还包括:
收集网页类型与待检测网页的网页类型一致的钓鱼网页的域名,得到黑域名集合;
判断待检测网页的域名是否在黑域名集合中;
如果是,则判断待检测网页为钓鱼网页;
如果否,则继续执行根据待检测网页的页面信息确定待检测网页的网页类型的后续检测步骤。
通过上述收集到的白、黑域名集合得出待检测网页是否为钓鱼网页的方式可以看出,对于已知的钓鱼网页和非钓鱼网页,本实施例提供的方法可无需执行上述步骤301至步骤303的过程,而直接得出该待检测网页是否为钓鱼网页的检测结果,进而加快了检测速度。
为了避免对相同的网页重复进行如上钓鱼网页的检测过程,进而加快检测效率,本实施例提供的方法在根据如上步骤301至步骤303得到待检测网页是否为钓鱼网页的结果之后,还包括:根据该待检测网页的检测结果,将其域名记录在对应的白域名集合或黑域名集合中,以在下次对该检测网页进行钓鱼网页的检测时,直接将其域名与白域名集合或黑域名集合中的域名进行对比得到检测结果。例如,如果通过上述步骤301至步骤303对待检测网页进行检测的检测结果为非钓鱼网页,则将该待检测网页的域名记录在白域名集合中,下次再检测该待检测网页时,通过将其域名与白域名集合中的域名进行比对,即可得出该待检测网页为非钓鱼网页。又例如,如果通过上述步骤301至步骤303对待检测网页进行检测的检测结果为钓鱼网页,则将该待检测网页的域名记录在黑域名集合中,下次再检测该待检测网页时,通过将其域名与黑域名集合中的域名进行比对,即可得出该待检测网页为钓鱼网页。
由于恶意欺诈类钓鱼网页的域名具有明显特征,因而本实施例提供的方法通过获取待检测网页的域名信息,将该域名信息与非钓鱼网页的域名特征进行匹配,根据匹配结果判断待检测网页是否为钓鱼网页,不仅能够检测出恶意欺诈类钓鱼网页,实现网页安全的检测,还可提高检测该类钓鱼网页的准确性。
实施例四
本实施例提供了一种检测网页安全的装置,该装置用于执行上述实施例一至实施例三提供的检测网页安全的方法,参见图4,该装置包括:
确定模块401,用于根据待检测网页的页面信息确定待检测网页的网页类型;
获取模块402,用于获取待检测网页的域名信息;
匹配模块403,用于将获取模块402获取到的待检测网页的域名信息与钓鱼网页或非钓鱼网页的域名特征进行匹配,钓鱼网页或非钓鱼网页的网页类型与确定模块401确定的待检测网页的网页类型一致;
第一判断模块404,用于根据匹配模块403得到的匹配结果判断待检测网页是否为钓鱼网页。
其中,确定模块401确定待检测网页的网页类型的方式,以及获取模块402获取待检测网页的域名信息的方式均可详见上述实施例二中步骤201的相关描述,此处不再赘述。匹配模块403将待检测网页的域名信息与钓鱼网页的域名特征进行匹配的过程详见上述实施例二中步骤202的相关描述,匹配模块403将待检测网页的域名信息与非钓鱼网页的域名特征进行匹配的过程详见上述实施例三中步骤302的相关描述,此处不再赘述。第一判断模块404判断待检测网页是否为钓鱼网页的方式详见上述实施例二中步骤203以及实施例三中步骤303的相关描述,此处不再赘述。
可选地,参见图5,该装置还包括:
第一收集模块405,用于收集网页类型与待检测网页的网页类型一致的非钓鱼网页的域名,得到白域名集合;
第二判断模块406,用于判断待检测网页的域名是否在第一收集模块405得到的白域名集合中;如果是,则判断待检测网页为非钓鱼网页;如果否,则确定模块401继续执行根据待检测网页的页面信息确定待检测网页的网页类型的后续检测步骤。
可选地,参见图6,该装置还包括:
第二收集模块407,用于收集网页类型与待检测网页的网页类型一致的钓鱼网页的域名,得到黑域名集合;
第三判断模块408,用于判断待检测网页的域名是否在第二收集模块407得到的黑域名集合中;如果是,则判断待检测网页为钓鱼网页;如果否,则确定模块401继续执行根据待检测网页的页面信息确定待检测网页的网页类型的后续检测步骤。
进一步地,参见图7,该装置还包括:
第三收集模块409,用于收集网页类型与待检测网页的网页类型一致的钓鱼网页或非钓鱼网页的域名特征,并设置门限值;
第一判断模块404,具体用于如果待检测网页的域名信息与钓鱼网页的域名特征匹配的数量达到第三收集模块409设置的门限值,则判断待检测网页为钓鱼网页;或者,如果待检测网页的域名信息与非钓鱼网页的域名特征匹配的数量达到第三收集模块409设置的门限值,则判断待检测网页为非钓鱼网页。
可选地,第三收集模块409,还用于周期性收集网页类型与待检测网页的网页类型一致的钓鱼网页或非钓鱼网页的域名特征,并根据收集到的域名特征的数量调整设置的门限值。
由于恶意欺诈类钓鱼网页的域名具有明显特征,因而本实施例提供的装置通过获取待检测网页的域名信息,将该域名信息与钓鱼网页或非钓鱼网页的域名特征进行匹配,根据匹配结果判断待检测网页是否为钓鱼网页,不仅能够检测出恶意欺诈类钓鱼网页,实现对网页安全的检测,还可提高检测该类钓鱼网页的准确性。
需要说明的是:上述实施例提供的检测网页安全的装置在检测网页安全时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的检测网页安全的装置与检测网页安全的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种检测网页安全的方法,其特征在于,所述方法包括:
根据待检测网页的页面信息确定所述待检测网页的网页类型,并获取所述待检测网页的域名信息;
将所述待检测网页的域名信息与钓鱼网页或非钓鱼网页的域名特征进行匹配,所述钓鱼网页或非钓鱼网页的网页类型与所述待检测网页的网页类型一致;
根据匹配结果判断所述待检测网页是否为钓鱼网页。
2.根据权利要求1所述的方法,其特征在于,所述根据待检测网页的页面信息确定所述待检测网页的网页类型之前,还包括:
收集网页类型与所述待检测网页的网页类型一致的非钓鱼网页的域名,得到白域名集合;
判断所述待检测网页的域名是否在所述白域名集合中;
如果是,则判断所述待检测网页为非钓鱼网页;
如果否,则继续执行根据待检测网页的页面信息确定所述待检测网页的网页类型的后续检测步骤。
3.根据权利要求1所述的方法,其特征在于,所述根据待检测网页的页面信息确定所述待检测网页的网页类型之前,还包括:
收集网页类型与所述待检测网页的网页类型一致的钓鱼网页的域名,得到黑域名集合;
判断所述待检测网页的域名是否在所述黑域名集合中;
如果是,则判断所述待检测网页为钓鱼网页;
如果否,则继续执行根据待检测网页的页面信息确定所述待检测网页的网页类型的后续检测步骤。
4.根据权利要求1所述的方法,其特征在于,所述将所述待检测网页的域名信息与钓鱼网页或非钓鱼网页的域名特征进行匹配之前,还包括:
收集网页类型与所述待检测网页的网页类型一致的钓鱼网页或非钓鱼网页的域名特征,并设置门限值;
所述根据匹配结果判断所述待检测网页是否为钓鱼网页,具体包括:
如果所述待检测网页的域名信息与钓鱼网页的域名特征匹配的数量达到设置的所述门限值,则判断所述待检测网页为钓鱼网页;或者,
如果所述待检测网页的域名信息与非钓鱼网页的域名特征匹配的数量达到设置的所述门限值,则判断所述待检测网页为非钓鱼网页。
5.根据权利要求4所述的方法,其特征在于,所述收集网页类型与所述待检测网页的网页类型一致的钓鱼网页或非钓鱼网页的域名特征之后,还包括:
周期性收集网页类型与所述待检测网页的网页类型一致的钓鱼网页或非钓鱼网页的域名特征,并根据收集到的域名特征的数量调整设置的所述门限值。
6.一种检测网页安全的装置,其特征在于,所述装置包括:
确定模块,用于根据待检测网页的页面信息确定所述待检测网页的网页类型;
获取模块,用于获取所述待检测网页的域名信息;
匹配模块,用于将所述获取模块获取到的待检测网页的域名信息与钓鱼网页或非钓鱼网页的域名特征进行匹配,所述钓鱼网页或非钓鱼网页的网页类型与所述确定模块确定的所述待检测网页的网页类型一致;
第一判断模块,用于根据所述匹配模块得到的匹配结果判断所述待检测网页是否为钓鱼网页。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第一收集模块,用于收集网页类型与所述待检测网页的网页类型一致的非钓鱼网页的域名,得到白域名集合;
第二判断模块,用于判断所述待检测网页的域名是否在所述第一收集模块得到的白域名集合中;如果是,则判断所述待检测网页为非钓鱼网页;如果否,则所述确定模块继续执行根据待检测网页的页面信息确定所述待检测网页的网页类型的后续检测步骤。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二收集模块,用于收集网页类型与所述待检测网页的网页类型一致的钓鱼网页的域名,得到黑域名集合;
第三判断模块,用于判断所述待检测网页的域名是否在所述第二收集模块得到的黑域名集合中;如果是,则判断所述待检测网页为钓鱼网页;如果否,则所述确定模块继续执行根据待检测网页的页面信息确定所述待检测网页的网页类型的后续检测步骤。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第三收集模块,用于收集网页类型与所述待检测网页的网页类型一致的钓鱼网页或非钓鱼网页的域名特征,并设置门限值;
所述第一判断模块,具体用于如果所述待检测网页的域名信息与钓鱼网页的域名特征匹配的数量达到所述第三收集模块设置的所述门限值,则判断所述待检测网页为钓鱼网页;或者,如果所述待检测网页的域名信息与非钓鱼网页的域名特征匹配的数量达到所述第三收集模块设置的所述门限值,则判断所述待检测网页为非钓鱼网页。
10.根据权利要求9所述的装置,其特征在于,所述第三收集模块,还用于周期性收集网页类型与所述待检测网页的网页类型一致的钓鱼网页或非钓鱼网页的域名特征,并根据收集到的域名特征的数量调整设置的所述门限值。
CN2012101232026A 2012-04-24 2012-04-24 检测网页安全的方法及装置 Pending CN102622553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101232026A CN102622553A (zh) 2012-04-24 2012-04-24 检测网页安全的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101232026A CN102622553A (zh) 2012-04-24 2012-04-24 检测网页安全的方法及装置

Publications (1)

Publication Number Publication Date
CN102622553A true CN102622553A (zh) 2012-08-01

Family

ID=46562468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101232026A Pending CN102622553A (zh) 2012-04-24 2012-04-24 检测网页安全的方法及装置

Country Status (1)

Country Link
CN (1) CN102622553A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102882716A (zh) * 2012-09-25 2013-01-16 杭州安恒信息技术有限公司 工信部备案检测方法及系统
CN103152355A (zh) * 2013-03-19 2013-06-12 北京奇虎科技有限公司 对危险网站进行提示的方法、系统及客户端设备
CN103152354A (zh) * 2013-03-19 2013-06-12 北京奇虎科技有限公司 对危险网站进行提示的方法、系统及客户端设备
CN103209177A (zh) * 2013-03-13 2013-07-17 深信服网络科技(深圳)有限公司 网络钓鱼攻击的检测方法和装置
CN103927480A (zh) * 2013-01-14 2014-07-16 腾讯科技(深圳)有限公司 一种恶意网页的识别方法、装置和系统
CN104091124A (zh) * 2014-07-03 2014-10-08 利诚服装集团股份有限公司 一种数据安全处理方法
CN104216930A (zh) * 2013-07-30 2014-12-17 腾讯科技(深圳)有限公司 一种跳转类钓鱼网页的检测方法和装置
CN104317938A (zh) * 2014-10-31 2015-01-28 北京国双科技有限公司 网页链接有效性验证方法及装置
WO2016015680A1 (zh) * 2014-08-01 2016-02-04 北京奇虎科技有限公司 移动终端输入窗口的安全检测方法和安全检测装置
CN105389722A (zh) * 2015-11-20 2016-03-09 小米科技有限责任公司 恶意订单识别方法及装置
CN106028297A (zh) * 2016-04-28 2016-10-12 北京小米移动软件有限公司 携带网址的短信处理方法及装置
CN106055981A (zh) * 2016-06-03 2016-10-26 北京奇虎科技有限公司 威胁情报的生成方法及装置
CN108683666A (zh) * 2018-05-16 2018-10-19 新华三信息安全技术有限公司 一种网页识别方法及装置
CN113709265A (zh) * 2020-05-22 2021-11-26 深信服科技股份有限公司 一种域名识别的方法、装置、系统和计算机可读存储介质
CN113923193A (zh) * 2021-10-27 2022-01-11 北京知道创宇信息技术股份有限公司 一种网络域名关联方法、装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040267895A1 (en) * 2001-09-17 2004-12-30 Pan-Jung Lee Search system using real name and method thereof
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN101656707A (zh) * 2008-08-19 2010-02-24 盛大计算机(上海)有限公司 网站的防伪标识系统及其实现方法
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN101872347A (zh) * 2009-04-22 2010-10-27 富士通株式会社 判断网页类型的方法和装置
CN102082792A (zh) * 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 钓鱼网页检测方法及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040267895A1 (en) * 2001-09-17 2004-12-30 Pan-Jung Lee Search system using real name and method thereof
CN101656707A (zh) * 2008-08-19 2010-02-24 盛大计算机(上海)有限公司 网站的防伪标识系统及其实现方法
CN101872347A (zh) * 2009-04-22 2010-10-27 富士通株式会社 判断网页类型的方法和装置
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN102082792A (zh) * 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 钓鱼网页检测方法及设备

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102882716A (zh) * 2012-09-25 2013-01-16 杭州安恒信息技术有限公司 工信部备案检测方法及系统
CN103927480A (zh) * 2013-01-14 2014-07-16 腾讯科技(深圳)有限公司 一种恶意网页的识别方法、装置和系统
CN103209177A (zh) * 2013-03-13 2013-07-17 深信服网络科技(深圳)有限公司 网络钓鱼攻击的检测方法和装置
CN103152355A (zh) * 2013-03-19 2013-06-12 北京奇虎科技有限公司 对危险网站进行提示的方法、系统及客户端设备
CN103152354A (zh) * 2013-03-19 2013-06-12 北京奇虎科技有限公司 对危险网站进行提示的方法、系统及客户端设备
CN103152354B (zh) * 2013-03-19 2015-12-02 北京奇虎科技有限公司 对危险网站进行提示的方法、系统及客户端设备
CN104216930A (zh) * 2013-07-30 2014-12-17 腾讯科技(深圳)有限公司 一种跳转类钓鱼网页的检测方法和装置
CN104216930B (zh) * 2013-07-30 2018-04-27 腾讯科技(深圳)有限公司 一种跳转类钓鱼网页的检测方法和装置
CN104091124A (zh) * 2014-07-03 2014-10-08 利诚服装集团股份有限公司 一种数据安全处理方法
WO2016015680A1 (zh) * 2014-08-01 2016-02-04 北京奇虎科技有限公司 移动终端输入窗口的安全检测方法和安全检测装置
CN104317938B (zh) * 2014-10-31 2018-02-02 北京国双科技有限公司 网页链接有效性验证方法及装置
CN104317938A (zh) * 2014-10-31 2015-01-28 北京国双科技有限公司 网页链接有效性验证方法及装置
CN105389722A (zh) * 2015-11-20 2016-03-09 小米科技有限责任公司 恶意订单识别方法及装置
CN105389722B (zh) * 2015-11-20 2019-12-13 小米科技有限责任公司 恶意订单识别方法及装置
CN106028297A (zh) * 2016-04-28 2016-10-12 北京小米移动软件有限公司 携带网址的短信处理方法及装置
CN106028297B (zh) * 2016-04-28 2019-11-08 北京小米移动软件有限公司 携带网址的短信处理方法及装置
CN106055981A (zh) * 2016-06-03 2016-10-26 北京奇虎科技有限公司 威胁情报的生成方法及装置
CN106055981B (zh) * 2016-06-03 2019-08-20 北京奇虎科技有限公司 威胁情报的生成方法及装置
CN108683666A (zh) * 2018-05-16 2018-10-19 新华三信息安全技术有限公司 一种网页识别方法及装置
CN108683666B (zh) * 2018-05-16 2021-04-16 新华三信息安全技术有限公司 一种网页识别方法及装置
CN113709265A (zh) * 2020-05-22 2021-11-26 深信服科技股份有限公司 一种域名识别的方法、装置、系统和计算机可读存储介质
CN113923193A (zh) * 2021-10-27 2022-01-11 北京知道创宇信息技术股份有限公司 一种网络域名关联方法、装置、存储介质及电子设备
CN113923193B (zh) * 2021-10-27 2023-11-28 北京知道创宇信息技术股份有限公司 一种网络域名关联方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN102622553A (zh) 检测网页安全的方法及装置
CN101504673B (zh) 一种识别疑似仿冒网站的方法与系统
CN105119909B (zh) 一种基于页面视觉相似性的仿冒网站检测方法和系统
CN102957664B (zh) 一种识别钓鱼网站的方法及装置
US20160063541A1 (en) Method for detecting brand counterfeit websites based on webpage icon matching
CN102082792A (zh) 钓鱼网页检测方法及设备
CN103209177B (zh) 网络钓鱼攻击的检测方法和装置
CN102647408A (zh) 一种基于内容分析的判断钓鱼网站的方法
CN104750754A (zh) 网站所属行业的分类方法和服务器
CN104462509A (zh) 垃圾评论检测方法及装置
CN104125209A (zh) 恶意网址提示方法和路由器
CN105376217B (zh) 一种恶意跳转及恶意嵌套类不良网站的自动判定方法
CN101359329A (zh) 基于浏览器的过滤色情软件插件
CN108038173B (zh) 一种网页分类方法、系统及一种网页分类设备
US20170053031A1 (en) Information forecast and acquisition method based on webpage link parameter analysis
CN103268328B (zh) 二维码的验证方法及搜索引擎服务器
CN103927480A (zh) 一种恶意网页的识别方法、装置和系统
CN108092963A (zh) 网页识别方法、装置、计算机设备及存储介质
CN108023868B (zh) 恶意资源地址检测方法和装置
CN110020161B (zh) 数据处理方法、日志处理方法和终端
CN102891861B (zh) 一种基于客户端的钓鱼网站检测方法及其装置
CN108881138A (zh) 一种网页请求识别方法及装置
CN109347786A (zh) 钓鱼网站检测方法
CN106250402B (zh) 一种网站分类方法及装置
CN112328936A (zh) 一种网站识别方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120801