CN105357221A

CN105357221A - 识别钓鱼网站的方法及装置

Info

Publication number: CN105357221A
Application number: CN201510885473.9A
Authority: CN
Inventors: 李晓波; 尹露; 杨晶
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2015-12-04
Filing date: 2015-12-04
Publication date: 2016-02-24

Abstract

本发明公开了一种识别钓鱼网站的方法及装置，涉及互联网安全领域，为解决因IP地址被屏蔽而导致的无法识别钓鱼网站的问题而发明。本发明的方法包括：获取已知钓鱼网站的URL作为样本URL；根据样本URL的特征信息训练检测模型；使用检测模型对未知URL的特征信息进行匹配，获得未知URL的检测结果。本发明主要应用于第三方安全机构向互联网用户提供网络安全保障服务的过程中。

Description

识别钓鱼网站的方法及装置

技术领域

本发明涉及互联网安全领域，尤其涉及一种识别钓鱼网站的方法及装置。

背景技术

钓鱼网站通常是指伪装成银行网站或电子商务网站、用以窃取用户提交的私人信息的网站。不法分子利用各种手段仿冒真实网站的统一资源定位符(UniformResourceLocator，简称URL)及页面内容，诱导用户访问仿冒的页面内容，以此来骗取用户输入的银行帐号、密码等私人信息。钓鱼网站的出现严重影响了在线金融服务的发展，破坏了公众使用互联网的信心。因此对钓鱼网站进行有效识别就成为互联网安全领域中的一项重要工作。

现有识别钓鱼网站的方式为：通过未知URL向目标网站请求页面内容，获取并识别页面内容中的特征向量，根据特征向量的特点判断目标网站是否为钓鱼网站。例如，对页面内容中文字、图片、输入框、控件等对象的位置、尺寸、样式风格进行识别，判断该页面内容是否与正规的银行或电子商务网站的页面内容相似。如果相似则可确定该目标网站为钓鱼网站，该未知URL为钓鱼URL。

现有方式需要以获取目标网站的页面内容为前提，但是实际应用中部分钓鱼网站具有针对安全检测的防御机制。这些钓鱼网站可以通过页面请求方的网间协议(InternetProtocol，简称IP)地址识别出请求方的身份。如果请求方身份为互联网安全机构，那么钓鱼网站就会对请求方的IP地址进行屏蔽，使得请求方无法获得钓鱼网站的页面内容，从而也就无法基于页面内容对钓鱼网站进行有效识别。

发明内容

本发明提供了一种识别钓鱼网站的方法及装置，能够解决因IP地址被屏蔽而导致的无法识别钓鱼网站的问题。

为解决上述问题，一方面，本发明提供了一种识别钓鱼网站的方法，该方法包括：

获取已知钓鱼网站的统一资源定位符URL作为样本URL；

根据样本URL的特征信息训练检测模型；

使用检测模型对未知URL的特征信息进行匹配，获得未知URL的检测结果。

另一方面，本发明还提供了一种识别钓鱼网站的装置，该装置包括：

获取单元，用于获取已知钓鱼网站的统一资源定位符URL作为样本URL；

训练单元，用于根据样本URL的特征信息训练检测模型；

匹配单元，用于使用检测模型对未知URL的特征信息进行匹配，获得未知URL的检测结果。

本发明提供的识别钓鱼网站的方法及装置，能够根据钓鱼网站的URL训练检测模型，并使用检测模型对未知URL中的特征信息进行匹配，从而获得未知URL是否为钓鱼网站URL的检测结果。与现有技术相比，本发明仅对未知URL进行检测就可以达到识别钓鱼网站的目的，无需通过未知URL向未知网站请求页面内容，即使未知网站对请求方的IP地址进行屏蔽也不影响对钓鱼网站的识别。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种识别钓鱼网站的方法流程图；

图2示出了本发明实施例提供的另一种识别钓鱼网站的方法流程图；

图3示出了本发明实施例提供的一种识别钓鱼网站的装置的组成框图；

图4示出了本发明实施例提供的另一种识别钓鱼网站的装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种识别钓鱼网站的方法，该方法通过对未知URL进行模型匹配的方式识别钓鱼网站。如图1所示，该方法包括：

101、获取已知钓鱼网站的URL作为样本URL。

本发明实施例可以由第三方的安全服务器或监控客户端进行实现。监控客户端的实体形式包括但不限于是手机、个人电脑(PersonalComputer，简称PC)、平板电脑以及可穿戴式电子设备。为便于表述本发明实施例后续将以安全服务器为例进行说明。

本实施例中，训练检测模型的数据材料是已知钓鱼网站的URL，服务器可以通过现有手段收集已知钓鱼网站的URL，包括但不限于是：1、从URL黑名单中获取；2、通过用户网络举报获取；3、向第三方监管机构获取；4、通过页面内容检测确定。实际应用中，训练检测模型的数据材料可以一次性给出，也可以随时间的推移不断增量更新，本实施例不对数据材料的数量进行限制。

102、根据样本URL的特征信息训练检测模型。

钓鱼网站的URL(后续简称为钓鱼URL)与正规网站的URL(后续简称为安全URL)之间，在URL结构或内容上通常有所差异，例如钓鱼URL的域名注册时间较短、域名级数较少等，可以将这种差异作为识别钓鱼URL的判断标准。所谓特征信息就是指样本URL(钓鱼URL)的结构及内容，将样本URL中预设字段上的内容进行提取，作为特征信息输入到检测模型中进行训练，可以使检测模型获得识别钓鱼网站的判断标准，从而在后续可以对钓鱼URL进行有效识别。实际应用中样本URL的数量越多、特征信息越明显，检测模型的识别准确度就越高。

本实施例中，可以通过机器学习的方式训练检测模型。在学习方式上具体可以包括监督式学习、非监督式学习、半监督式学习、强化学习等。在学习算法的种类方面，可以包括回归算法、基于实例的算法、正则化算法、决策树算法、贝叶斯算法、基于核的算法、聚类算法、分类算法、关联规则算法、人工神经网络、深度学习、降低维度算法、集成算法等。本实施例不对训练检测模型的方式进行具体限制。

103、使用检测模型对未知URL的特征信息进行匹配，获得未知URL的检测结果。

在获得检测模型后就可以使用该模型对未知URL进行检测了。所谓未知URL就是作为检测对象的目标网站的URL。检测未知URL的目的在于判断该URL是否为钓鱼网站的URL。而在本实施例的一种实现方式中，也可以不给出是否为钓鱼URL的定性结论，而是给出未知URL可能为钓鱼URL的概率大小，本实施例不对检测结果的形式和内容进行具体限制，一切基于特征信息检测给出的、能够为用户甄别钓鱼网站提供指导性意见的信息均包含于所述检测结果的范畴内。

在对未知URL进行匹配时，需要从未知URL中提取特征信息，这里所述的特征信息是指与前述样本URL的结构或内容对应的信息，但并不一定是在结果或内容上相同的特征信息。这是由于，对于未知URL而言，其有可能是钓鱼URL也有可能是安全URL，当为钓鱼URL时，其特征信息会与某个或某些样本URL的特征信息相同，当为安全URL时，其特征信息与样本URL的特征信息不同。在提取未知URL的特征信息时无需也无法确定其特征信息的性质，只要按照提取样本URL特征信息的方式提取对应位置上的内容即可。

在获得未知URL的特征信息后，使用检测模型对其进行匹配，若符合检测标准或检测规则，则确定其为钓鱼URL，否则确定其为安全URL。当然，实际应用中也可以根据特征信息与检测标准或检测规则的匹配程度，给出未知URL为钓鱼URL的概率大小。

本实施例中，可以将样本URL及未知URL直接输入到检测模型中，无需单独执行特征信息提取的步骤。实际应用中可以为检测模型提供URL的存储路径，或者通过专用的人机交互界面将外部输入的URL发送给检测模型，本实施例对此不作限制。

本发明实施例提供的识别钓鱼网站的方法，能够根据钓鱼网站的URL训练检测模型，并使用检测模型对未知URL中的特征信息进行匹配，从而获得未知URL是否为钓鱼网站URL的检测结果。与现有技术相比，本发明实施例仅对未知URL进行检测就可以达到识别钓鱼网站的目的，无需通过未知URL向未知网站请求页面内容，即使未知网站对请求方的IP地址进行屏蔽也不影响对钓鱼网站的识别。

进一步的，作为对图1所示方法的细化和扩展，本发明实施例还提供了一种识别钓鱼网站的方法。如图2所示，该方法包括：

201、获取已知钓鱼网站的URL作为样本URL。

本步骤的实现方式与图1步骤101的实现方式相同，此处不再赘述。

202、根据域名注册信息、域名访问信息、域名属性信息及主机地址信息中的至少一类特征信息，训练所述检测模型。

从样本URL中提取出来进行模型训练的特征信息包括域名注册信息、域名访问信息、域名属性信息及主机地址信息中的任意一项或至少两项的组合。其中：

域名注册信息是与目标网站注册域名相关的信息，钓鱼网站和安全网站的域名注册信息存在差别特点。具体的，域名注册信息包括域名注册时间、域名更新时间、域名过期时间、域名注册邮箱、域名注册公司及域名系统生效时间中的至少一项。实际应用中可以从whois信息中获取域名注册信息，服务器通过第三方查询网站提供的页面接口就可以在线查询某个域名的whois信息。

域名注册时间是目标网站向域名注册管理网站注册域名的时间。通常钓鱼网站建立的目的性很强，随建随用，因此钓鱼网站的域名注册时间一般都不会太久远。而正规网站以网站运营为目的申请域名，域名注册的时间一般都较早，可以通过域名注册时间对钓鱼网站和安全网站进行区分。

域名更新时间是在域名到期时续展期限的时间。与域名注册类似，很多钓鱼网站会在更新域名期限后立即实施欺诈行为，因此可以根据域名更新时间的远近对钓鱼网站进行识别。通常域名更新时间与当前时间十分靠近的网站具有更大的称为钓鱼网站的可能性。

域名过期时间是指域名期限到期的时间，通常域名到期后的30至60天内允许网站对域名进行赎回，当域名到期超过75天时仍未赎回，域名管理网站会将域名予以注销。钓鱼网站通常对域名归属权利并不敏感，域名到期后往往会放弃该域名，而安全网站具有较为正规域名管理流程，域名过期后会在短时间内迅速予以续展。因此如果域名过期时间较久仍没有续展或赎回，那么该域名属于钓鱼网站的可能性较大。

域名注册邮箱是申请域名注册时使用的邮箱，一般正规网站会使用固定并且长久使用的邮箱进行域名注册，而钓鱼网站使用的注册邮箱则多为为了注册域名而注册的邮箱，邮箱地址更换较为频繁。因此可以通过域名注册邮箱对钓鱼网站及安全网站进行识别。

域名注册公司是注册域名是填写的公司信息，通常安全网站使用的域名注册公司具有较为完备的资质，而钓鱼网站则会使用临时注册的小公司进行域名注册。因此可以通过域名注册公司对钓鱼网站及安全网站进行识别。

域名系统生效时间是指从域名解析开始到域名生效的时间，通常钓鱼网站和安全网站的域名系统生效时间不同，可以以此对两者进行区分。

域名访问信息是指互联网用户访问域名产生的统计信息，多以次数及数量作为单位。通常钓鱼网站相对正规网站而言受众更小，同时钓鱼网站的生命周期又小于正规网站的生命周期，因此其域名的访问量会远远小于正规网站，可以通过域名访问信息对钓鱼网站和正规网站进行识别，域名访问量小于预设值或预设量级的域名，涉嫌钓鱼网站的可能性更大。具体的，域名访问信息包括域名解析次数、页面浏览量及独立访客数量中的至少一项。这三项指标从不同角度对域名的访问次数/数量进行了统计，其中页面浏览量与独立访客数量的区别在于，页面浏览量反映的是网站页面的点击率，可以理解为人次统计；而独立访客数量统计的则是访问网站页面的不重复的IP地址数量，可以理解为人头统计。

域名属性信息用于反映域名本身的特点，包括域名熵信息、域名长度及域名级数中的至少一项。其中，

域名熵信息用于反映域名的混乱程度。通常正规网站出于便于用户记忆域名的考虑，会注册内容上具有一定规律的域名，最常见的就是使用字号的全拼、拼音首字母或谐音，例如“baidu”、“JD”、“tmall”。而钓鱼网站则对域名的内容没有过多要求，只要能够获得注册进行使用即可。为避免与已注册的域名重名，钓鱼网站通常会可以避免具有一定规律的域名，或者仅仅是在键盘上胡乱敲击几个字母作为域名申请，例如“asd”、“fgh”、“fhjgk”等。因此可以通过域名熵信息对域名的混乱程度进行检测，从而对钓鱼网站和安全网站进行识别。本实施例中，对于在键盘上胡乱敲击获得域名(例如“asdf”)，甚至可以基于熵信息判断组成域名的字母在键盘上的位置是否相邻，识别出域名是否为胡乱敲击获得的，由此识别出钓鱼网站。通常，域名较混乱的域名，涉嫌钓鱼网站的可能性更大。

域名长度是指域名中的字符长度。通常，字符数越多的域名价格更为低廉，钓鱼网站一般倾向使用价格低廉的域名，因此可以通过域名长度对钓鱼网站和安全网站进行识别，域名较长的域名，涉嫌钓鱼网站的可能性更大。

与域名长度类似的，域名级数较多的域名价格更为低廉，出于降低欺诈成本的角度考虑，钓鱼网站一般会选择级数较多的域名使用，而很少使用顶级域名(价格较高)，因此可以通过域名级数对钓鱼网站和安全网站进行识别，域名级数较多的域名，涉嫌钓鱼网站的可能性更大。

主机地址信息用于反映与域名下属主机的地址相关的信息，包括主机IP数量、主机IP地址归属地及主机IP地址黑白属性中的至少一项。

对于主机IP数量，通常正规网站的规模较大，再加上分布式部署，其主机的数量会很多。而钓鱼网站规模较小，主机数量一般在个位数(大多数只有一个)。因此可以通过主机IP地址的数量对钓鱼网站和安全网站进行识别，主机IP数量小于预设数量或量级的域名，涉嫌钓鱼网站的可能性更大。

主机IP地址归属地，一般正规网站的主机都部署在国内，其IP地址归属地多为中国境内。而钓鱼网站为逃避监管，大多租用境外的主机实施诈骗。因此可以通过主机IP地址归属地对钓鱼网站和安全网站进行识别，主机IP地址归属地为境外的域名，涉嫌钓鱼网站的可能性更大。

主机IP地址黑白属性，可以是服务器侧记录的黑白属性，也可以是服务器向第三方网站获取的黑白属性。黑白属性用于标识IP地址是否为安全地址，所谓安全地址包括没有病毒/木马植入行为的地址、没有进行过安全攻击的地址，以及没有实施过其他威胁网络安全的行为的地址。通常钓鱼网站会实施威胁网络安全的行为，因此如果主机IP地址属性为黑，为钓鱼网站的可能性更大。

以上，对训练检测模型使用的特征信息进行了介绍。实际应用中，使用特征信息的种类越多，检测结果的准确度就越高。在本实施例的一种实现方式中，可以提取上述全部特征信息进行模型训练。

203、将提取的特征信息与检测模型中样本URL的特征信息进行比对，获得未知URL的检测结果。

在获得检测模型后，就可以对未知URL进行检测了。服务器从未知URL中提取出类型与从样本URL中提取出的特征信息相同的特征信息，输入到检测模型中，与样本URL的特征信息按照对应的类别进行比对。实际应用中，从未知URL中提取的特征信息的种类也可以少于从样本URL中提取的特征信息的种类，但是前者特征信息的类型不能超过后者特征信息涉及的类型范围。

获得的检测结果包括：

1、未知URL为钓鱼URL

2、未知URL为安全URL

3、未知URL为钓鱼URL的概率，例如有70％的概率为钓鱼网站。

其中，结果1和结果2两者择一输出，结果3可以单独作为检测进行输出，也可以与结果1或结果2一并输出。

204、当未知URL为钓鱼URL时，将钓鱼URL添加到样本URL中，对检测模型进行演化训练。

进一步的，在本实施例的一个可选方案中，当检测结果确定位置URL为钓鱼URL时，服务器还可以将该未知URL添加到样本URL的集合中，以便后续基于增量后的样本URL对检测模型进行演化训练，获得新版本的检测模型。通常，样本URL数量越多、样本URL涉及的范围越广，训练出的检测模型的准确度越高。

进一步的，作为对图2所示流程的扩展，在本发明实施例提供的另一个方法中，服务器还可以在执行步骤201之前，采用预设的分类算法对样本URL进行分类，获得对应不同钓鱼网站类型的样本URL。通常钓鱼网站的类型各有不同，本实施例中，服务器可以通过分类算法将不同类型钓鱼网站的URL进行分类。分类的目的在于，在为用户提供URL检测结果的基础上进一步提供钓鱼URL对应的钓鱼网站类型。具体的，服务器可以采用逻辑回归算法将样本URL分为十余个大类，百余个小类。示例性的，大类可以包括：仿冒银行网站类、仿冒购物网站类、仿冒QQ类、仿冒邮箱类、仿冒中奖信息类、仿冒运营商信息类等；以仿冒银行网站类下属的小类为例，小类又可以进一步包括：仿冒工商银行网站类、仿冒农业银行网站类、仿冒中国银行网站类等。在获得样本URL的分类后，服务器可以使用所有类型的样本URL训练出一个综合模型。通过该综合模型获得的检测结果中，包含钓鱼URL对应的钓鱼网站的类型。此外，服务器也可以根据不同类别的样本URL分别训练不同类型的检测模型。在对未知URL进行检测时，可以使用一种或多种检测模型对未知URL分别进行检测，获得对应不同钓鱼网站类型的检测结果。

进一步的，作为对图1及图2所示方法的实现，本发明实施例还提供了一种识别钓鱼网站的装置，该装置可以位于上述安全服务器或监控客户端一侧。如图3所示，该装置包括：获取单元31、训练单元32以及匹配单元33。其中，

获取单元31，用于获取已知钓鱼网站的统一资源定位符URL作为样本URL；

训练单元32，用于根据样本URL的特征信息训练检测模型；

匹配单元33，用于使用检测模型对未知URL的特征信息进行匹配，获得未知URL的检测结果。

进一步的，训练单元32用于根据样本URL的下列至少一类特征信息，训练检测模型：

域名注册信息、域名访问信息、域名属性信息及主机地址信息。

进一步的，训练单元32训练使用的域名注册信息包括：域名注册时间、域名更新时间、域名过期时间、域名注册邮箱、域名注册公司及域名系统生效时间中的至少一项。

进一步的，训练单元32训练使用的域名访问信息包括：域名解析次数、页面浏览量及独立访客数量中的至少一项。

进一步的，训练单元32训练使用的域名属性信息包括：域名熵信息、域名长度及域名级数中的至少一项。

进一步的，训练单元32训练使用的主机地址信息包括主机网间协议IP数量、主机IP地址归属地及主机IP地址黑白属性中的至少一项。

进一步的，匹配单元33用于将提取的特征信息与检测模型中样本URL的特征信息进行比对，获得未知URL的检测结果。

进一步的，匹配单元33获得的检测结果包括：

未知URL为钓鱼URL；

未知URL为安全URL；

未知URL为钓鱼URL的概率。

进一步的，训练单元32用于当未知URL为钓鱼URL时，将钓鱼URL添加到样本URL集合中，对检测模型进行演化训练。

进一步的，如图4所示，该装置进一步包括：

分类单元34，用于采用预设的分类算法对样本URL进行分类，获得对应不同钓鱼网站类型的样本URL。

进一步的，匹配单元33用于当检测未知URL为钓鱼URL时，获得钓鱼URL对应的钓鱼网站类型。

本发明实施例提供的识别钓鱼网站的装置，能够根据钓鱼网站的URL训练检测模型，并使用检测模型对未知URL中的特征信息进行匹配，从而获得未知URL是否为钓鱼网站URL的检测结果。与现有技术相比，本发明实施例仅对未知URL进行检测就可以达到识别钓鱼网站的目的，无需通过未知URL向未知网站请求页面内容，即使未知网站对请求方的IP地址进行屏蔽也不影响对钓鱼网站的识别。

本发明的实施例公开了：

A1、一种识别钓鱼网站的方法，其特征在于，所述方法包括：

获取已知钓鱼网站的统一资源定位符URL作为样本URL；

根据所述样本URL的特征信息训练检测模型；

使用所述检测模型对未知URL的特征信息进行匹配，获得所述未知URL的检测结果。

A2、根据A1所述的方法，其特征在于，所述根据所述样本URL的特征信息训练检测模型，包括：

根据所述样本URL的下列至少一类特征信息，训练所述检测模型：

A3、根据A2所述的方法，其特征在于，所述域名注册信息包括：域名注册时间、域名更新时间、域名过期时间、域名注册邮箱、域名注册公司及域名系统生效时间中的至少一项。

A4、根据A2所述的方法，其特征在于，所述域名访问信息包括：域名解析次数、页面浏览量及独立访客数量中的至少一项。

A5、根据A2所述的方法，其特征在于，所述域名属性信息包括：域名熵信息、域名长度及域名级数中的至少一项。

A6、根据A2所述的方法，其特征在于，所述主机地址信息包括主机网间协议IP数量、主机IP地址归属地及主机IP地址黑白属性中的至少一项。

A7、根据A1至6中任一项所述的方法，其特征在于，所述使用所述检测模型对未知URL的特征信息进行匹配，获得所述未知URL的检测结果，包括：

将提取的特征信息与所述检测模型中样本URL的特征信息进行比对，获得所述未知URL的检测结果。

A8、根据A7所述的方法，其特征在于，所述检测结果包括：

所述未知URL为钓鱼URL；或者，

所述未知URL为安全URL；或者，

所述未知URL为钓鱼URL的概率。

A9、根据A8所述的方法，其特征在于，当所述未知URL为钓鱼URL时，所述方法进一步包括：

将所述钓鱼URL添加到样本URL集合中，对所述检测模型进行演化训练。

A10、根据A1所述的方法，其特征在于，所述方法进一步包括：

采用预设的分类算法对样本URL进行分类，获得对应不同钓鱼网站类型的样本URL。

A11、根据A10所述的方法，其特征在于，当检测所述未知URL为钓鱼URL时，所述未知URL的检测结果还包括：

所述钓鱼URL对应的钓鱼网站类型。

B12、一种识别钓鱼网站的装置，其特征在于，所述装置包括：

训练单元，用于根据所述样本URL的特征信息训练检测模型；

匹配单元，用于使用所述检测模型对未知URL的特征信息进行匹配，获得所述未知URL的检测结果。

B13、根据B12所述的装置，其特征在于，所述训练单元用于根据所述样本URL的下列至少一类特征信息，训练所述检测模型：

B14、根据B13所述的装置，其特征在于，所述训练单元训练使用的所述域名注册信息包括：域名注册时间、域名更新时间、域名过期时间、域名注册邮箱、域名注册公司及域名系统生效时间中的至少一项。

B15、根据B13所述的装置，其特征在于，所述训练单元训练使用的所述域名访问信息包括：域名解析次数、页面浏览量及独立访客数量中的至少一项。

B16、根据B13所述的装置，其特征在于，所述训练单元训练使用的所述域名属性信息包括：域名熵信息、域名长度及域名级数中的至少一项。

B17、根据B13所述的装置，其特征在于，所述训练单元训练使用的所述主机地址信息包括主机网间协议IP数量、主机IP地址归属地及主机IP地址黑白属性中的至少一项。

B18、根据B12至7中任一项所述的装置，其特征在于，所述匹配单元用于将提取的特征信息与所述检测模型中样本URL的特征信息进行比对，获得所述未知URL的检测结果。

B19、根据B18所述的装置，其特征在于，所述匹配单元获得的所述检测结果包括：

所述未知URL为钓鱼URL；

所述未知URL为安全URL；

所述未知URL为钓鱼URL的概率。

B20、根据B19所述的装置，其特征在于，所述训练单元用于当所述未知URL为钓鱼URL时，将所述钓鱼URL添加到样本URL集合中，对所述检测模型进行演化训练。

B21、根据B12所述的装置，其特征在于，所述装置进一步包括：

分类单元，用于采用预设的分类算法对样本URL进行分类，获得对应不同钓鱼网站类型的样本URL。

B22、根据B21所述的装置，其特征在于，所述匹配单元用于当检测所述未知URL为钓鱼URL时，获得所述钓鱼URL对应的钓鱼网站类型。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的发明名称(如确定网站内链接等级的装置)中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种识别钓鱼网站的方法，其特征在于，所述方法包括：

获取已知钓鱼网站的统一资源定位符URL作为样本URL；

根据所述样本URL的特征信息训练检测模型；

2.根据权利要求1所述的方法，其特征在于，所述根据所述样本URL的特征信息训练检测模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述域名注册信息包括：域名注册时间、域名更新时间、域名过期时间、域名注册邮箱、域名注册公司及域名系统生效时间中的至少一项。

4.根据权利要求2所述的方法，其特征在于，所述域名访问信息包括：域名解析次数、页面浏览量及独立访客数量中的至少一项。

5.根据权利要求2所述的方法，其特征在于，所述域名属性信息包括：域名熵信息、域名长度及域名级数中的至少一项。

6.根据权利要求2所述的方法，其特征在于，所述主机地址信息包括主机网间协议IP数量、主机IP地址归属地及主机IP地址黑白属性中的至少一项。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述使用所述检测模型对未知URL的特征信息进行匹配，获得所述未知URL的检测结果，包括：

8.根据权利要求7所述的方法，其特征在于，所述检测结果包括：

所述未知URL为钓鱼URL；或者，

所述未知URL为安全URL；或者，

所述未知URL为钓鱼URL的概率。

9.根据权利要求8所述的方法，其特征在于，当所述未知URL为钓鱼URL时，所述方法进一步包括：

10.一种识别钓鱼网站的装置，其特征在于，所述装置包括：

训练单元，用于根据所述样本URL的特征信息训练检测模型；