CN112217815B

CN112217815B - 钓鱼网站的识别方法、装置和计算机设备

Info

Publication number: CN112217815B
Application number: CN202011077624.5A
Authority: CN
Inventors: 胡冰; 范渊
Original assignee: DBAPPSecurity Co Ltd
Current assignee: DBAPPSecurity Co Ltd
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2022-09-13
Anticipated expiration: 2040-10-10
Also published as: CN112217815A

Abstract

本申请涉及钓鱼网站的识别方法、装置和计算机设备，其中，该钓鱼网站的识别方法包括：通过获取网站资产库，其中，所述网站资产库中包含多个网站的多维度资产信息；根据所述网站资产库，确定盗用网站库和被盗用网站库，其中，所述盗用网站库中包含有盗用网站的多维度资产信息，所述被盗用网站库中包含有被盗用网站的多维度资产信息；将所述盗用网站库中的多维度资产信息与所述被盗用网站库中的多维度资产信息进行比对，确定所述盗用网站库中的钓鱼网站，解决了相关技术中通过网页内容关键字来检测钓鱼网站，存在钓鱼网站的检测准确率较低的问题，提高了钓鱼网站的检测准确率。

Description

钓鱼网站的识别方法、装置和计算机设备

技术领域

本申请涉及计算机网络安全领域，特别是涉及钓鱼网站的识别方法、装置和计算机设备。

背景技术

随着互联网技术的发展，尤其是智能终端设备的普及，在给人们提供便利信息的同时也为钓鱼网站(是指通过垃圾邮件、即时通信、社交网络等信息载体，发布欺诈性消息，骗取网络用户访问并窃取用户的私密信息)的传播提供了更多的渠道。伴随电子商务的普及和推广，与银行诈骗相关的网络钓鱼事件频繁发生，其危害程度呈现逐年增长的趋势。在国内，每天产生数千亿的URL(Uniform Resoure Locator，统一资源定位符)访问行为，这些钓鱼URL链接在传播的过程中被及时发现，并对其进行实时的处理，将在很大程度上降低钓鱼网站的传播和危害。

在相关技术中，一些钓鱼网站检测是提取网站中网页内容的关键字，然后通过网页内容关键字来检测钓鱼网站，但依靠关键字来检测使得对网站的检测不够全面，导致钓鱼网站的检测准确率较低。

目前针对相关技术中通过网页内容关键字来检测钓鱼网站，存在钓鱼网站的检测准确率较低的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供的钓鱼网站的识别方法、装置和计算机设备，以至少解决相关技术中通过网页内容关键字来检测钓鱼网站，存在钓鱼网站的检测准确率较低的问题。

第一方面，本申请实施例提供了一种钓鱼网站的识别方法，所述方法包括：

获取网站资产库，其中，所述网站资产库中包含多个网站的多维度资产信息；

根据所述网站资产库，确定盗用网站库和被盗用网站库，其中，所述盗用网站库中包含有盗用网站的多维度资产信息，所述被盗用网站库中包含有被盗用网站的多维度资产信息；

将所述盗用网站库中的多维度资产信息与所述被盗用网站库中的多维度资产信息进行比对，确定所述盗用网站库中的钓鱼网站。

在其中一些实施例中，获取网站资产库包括：

收集可访问的网站；

通过网络爬虫爬取所述网站的多维度资产信息；

将所述网站的多维度资产信息存储在所述网站资产库中。

在其中一些实施例中，通过网络爬虫爬取所述网站的多维度资产信息包括：

通过网络爬虫爬取网站的页面内容和页面域名；

通过正则表达式从所述页面内容中获取页面备案号；

对所述页面备案号不为空的网站，拓展whois信息和域名备案号，其中，所述多维度资产信息至少包括页面域名、页面备案号、页面内容、whois信息以及域名备案号。

在其中一些实施例中，根据所述网站资产库中网站的多维度资产信息，确定盗用网站库和被盗用网站库包括：

将所述网站资产库中，所述页面备案号不为空且所述域名备案号为空的网站，判定为盗用网站；

根据所述盗用网站，确定所述盗用网站库；

根据所述盗用网站库和所述网站资产库，确定所述被盗用网站库。

在其中一些实施例中，将所述盗用网站库中盗用网站的多维度资产信息与所述被盗用网站库中被盗用网站的多维度资产信息进行比对，确定所述盗用网站库中的钓鱼网站包括：

根据所述被盗用网站库中的页面内容和所述盗用网站库中的页面内容，确定被盗用网站库中的页面内容与盗用网站库中的页面内容之间的海明距离；

将海明距离大于或者等于预设阈值的盗用网站从所述盗用网站库中删除，以生成第一盗用网站库；

将所述第一盗用网站库与所述被盗用网站库进行比对，确定所述钓鱼网站。

在其中一些实施例中，将所述第一盗用网站库与所述被盗用网站库进行比对，确定所述钓鱼网站包括：

将所述第一盗用网站库中的网站域名与所述被盗用网站库中的网站域名进行比对，将网站域名相同的盗用网站从所述第一盗用网站库中删除，以生成第二盗用网站库；

获取所述第二盗用网站库中所述页面内容的关键字；

若所述关键字与预设字不一致，则将与所述关键字不一致的盗用网站从所述第二盗用网站库中删除，以生成第三盗用网站库；

将所述第三盗用网站库与所述被盗用网站库进行比对，确定钓鱼网站。

在其中一些实施例中，将所述第三盗用网站库与所述被盗用网站库进行比对，确定钓鱼网站包括；

将所述第三盗用网站库中的whois信息与所述被盗用网站库中的whois信息进行比对；

若whois信息一致，则将与所述whois信息一致的盗用网站从所述第三盗用网站库中删除，以生成第四盗用网站库；

获取所述第四盗用网站库中盗用网站的页面链接和所述被盗用网站库中被盗用网站的页面链接，并根据所述盗用网站的页面链接和所述被盗用网站的页面链接，从所述第四盗用网站库中确定所述钓鱼网站。

第二方面，本申请实施例提供了一种钓鱼网站的识别装置，所述装置包括：获取模块、确定模块和比对模块；

所述获取模块，用于获取网站资产库，其中，所述网站资产库中包含多个网站的多维度资产信息；

所述确定模块，用于根据所述网站资产库，确定盗用网站库和被盗用网站库，其中，所述盗用网站库中包含有盗用网站的多维度资产信息，所述被盗用网站库中包含有被盗用网站的多维度资产信息；

所述比对模块，用于将所述盗用网站库中的多维度资产信息与所述被盗用网站库中的多维度资产信息进行比对，确定所述盗用网站库中的钓鱼网站。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述所述的钓鱼网站的识别方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的钓鱼网站的识别方法。

相比于相关技术，本申请实施例提供的钓鱼网站的识别方法，通过获取网站资产库，其中，所述网站资产库中包含多个网站的多维度资产信息；根据所述网站资产库，确定盗用网站库和被盗用网站库，其中，所述盗用网站库中包含有盗用网站的多维度资产信息，所述被盗用网站库中包含有被盗用网站的多维度资产信息；将所述盗用网站库中的多维度资产信息与所述被盗用网站库中的多维度资产信息进行比对，确定所述盗用网站库中的钓鱼网站，解决了相关技术中通过网页内容关键字来检测钓鱼网站，存在钓鱼网站的检测准确率较低的问题，提高了钓鱼网站的检测准确率。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的钓鱼网站的识别方法的流程图；

图2是根据本申请实施例的获取网站资产库的方法流程图一；

图3是根据本申请实施例的获取网站资产库的方法流程图二；

图4是根据本申请实施例的确定盗用网站库和被盗用网站库的方法流程图；

图5是根据本申请实施例的确定盗用网站库中的钓鱼网站的方法流程图一；

图6是根据本申请实施例的确定盗用网站库中的钓鱼网站的方法流程图二；

图7是根据本申请实施例的确定盗用网站库中的钓鱼网站的方法流程图三；

图8是根据本申请实施例的钓鱼网站的识别装置的结构框图；

图9是根据本申请实施例的计算机设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“多个”是指两个或两个以上。

本申请提供的钓鱼网站的识别方法，用于识别检测欺骗用户的虚假网站，其中，钓鱼网站的页面与真实网站界面基本一致，欺骗消费者或者窃取访问者提交的账号和密码信息，且钓鱼网站一般只有一个或几个页面，和真实网站差别细微，是互联网中最常碰到的一种诈骗方式，通常伪装成银行及电子商务、窃取用户提交的银行账号、密码等私密信息的网站。

在相关技术中，一些钓鱼网站检测是提取网站中网页内容的关键字，然后通过网页内容关键字来检测钓鱼网站，但依靠关键字来检测使得对网站的检测不够全面，导致钓鱼网站的检测准确率较低。本申请提供的钓鱼网站的识别方法，首先通过根据包含多个网站的多维度资产信息的网站资产库，确定盗用网站库和被盗用网站库，然后将盗用网站库中的多维度资产信息与被盗用网站库中的多维度资产信息进行比对，确定盗用网站库中的钓鱼网站，解决了相关技术中通过网页内容关键字来检测钓鱼网站，存在钓鱼网站的检测准确率较低的问题，提高了钓鱼网站的检测准确率。

本实施例提供了一种钓鱼网站的识别方法，图1是根据本申请实施例的钓鱼网站的识别方法的流程图，如图1所示，该方法包括如下步骤：

步骤S101，获取网站资产库，其中，网站资产库中包含多个网站的多维度资产信息；例如，网站资产库中包含多个网站的字段链接、域名、页面内容、页面备案号等，且网站的页面备案号可以为空。

步骤S102，根据网站资产库，确定盗用网站库和被盗用网站库，其中，盗用网站库中包含有盗用网站的多维度资产信息，被盗用网站库中包含有被盗用网站的多维度资产信息；需要说明的是，网站资产库也可以理解为是包含多个网站的多维度资产信息的网站资产表，可根据网站资产表中各个网站的多维度资产信息，确定盗用网站表和被盗用网站表，也就是确定盗用网站库和被盗用网站库。

步骤S103，将盗用网站库中的多维度资产信息与被盗用网站库中的多维度资产信息进行比对，确定盗用网站库中的钓鱼网站。

通过上述步骤S101至步骤S103，首先根据网站资产库中各个网站的多维度资产信息确定盗用网站库和被盗用网站库，然后将盗用网站库中的多维度资产信息与被盗用网站库中的多维度资产信息进行比对，也就是利用各个被盗用网站的多维度资产信息从多个盗用网站中筛选出钓鱼网站，且随着网站资产库中网站数量的增加，所检测出的钓鱼网站数量也会越多，解决了相关技术中通过网页内容关键字来检测钓鱼网站，存在钓鱼网站的检测准确率较低的问题，提高了钓鱼网站的检测准确率。

在其中一些实施例中，图2是根据本申请实施例的获取网站资产库的方法流程图一，如图2所示，该方法包括如下步骤：

步骤S201，收集可访问的网站；例如，可以是在互联网上找寻一批可访问的网站。

步骤S202，通过网络爬虫爬取网站的多维度资产信息；

例如，在互联网上找寻一批可访问的网站后，可以将网站链接生成爬虫种子存入种子库并设置种子状态为未爬取状态，通过网络爬虫实时去种子库中获取未爬取的种子，进行访问抓取页面，爬取到页面之后处理页面以获取多维度资产信息。

步骤S203，将网站的多维度资产信息存储在网站资产库中。

通过上述步骤S201和步骤S203，在互联网上找寻一批可访问的网站，通过网络爬虫进行整个互联网网站数据的收集，进而便于后期在这些网站数据中筛选出钓鱼网站，从而降低被钓鱼网站欺骗的人数，且随着网站资产库中网站数量的增加，所检测出的钓鱼网站数量也会越多。

在其中一些实施例中，图3是根据本申请实施例的获取网站资产库的方法流程图二，如图3所示，通过网络爬虫爬取网站的多维度资产信息包括如下步骤：

步骤S301，通过网络爬虫爬取网站的页面内容和页面域名。

步骤S302，通过正则表达式从页面内容中获取页面备案号；例如，通过正则表达式从页面内容中获取备案号，将获取的备案号作为页面备案号，且页面备案号不一定存在，取不到的则页面备案号为空字符串，同时可将此页面的链接、页面域名、页面内容和页面备案号作为一条记录保存在网站资产库。

步骤S303，对页面备案号不为空的网站，拓展whois信息和域名备案号，其中，多维度资产信息至少包括页面域名、页面备案号、页面内容、whois信息以及域名备案号；例如，过滤出页面备案号不为空的网站，扩展whois字段和域名备案号字段，whois字段是域名的whois信息，包括注册商、联系人、更新时间、创建时间、过期时间、公司、域名服务器、状态这些信息，whois信息主要是通过whois命令进行获取；域名备案号是域名的备案号，数据主要从工信部的域名备案管理系统中来，可以通过开放的接口进行获取。

通过上述步骤S301和步骤S303，采用网络爬虫、正则表达式等手段获取网站资产库中多个网站的页面内容和域名备案号，对页面备案号不为空的网站，拓展whois信息和域名备案号，以获得网站资产库各个网站真实的多维度资产信息。

在其中一些实施例中，图4是根据本申请实施例的确定盗用网站库和被盗用网站库的方法流程图，如图4所示，该方法包括如下步骤：

步骤S401，将网站资产库中，页面备案号不为空且域名备案号为空的网站，判定为盗用网站。

步骤S402，根据盗用网站，确定盗用网站库。

步骤S403，根据盗用网站库和网站资产库，确定被盗用网站库；例如，通过将盗用网站库与网站资产库进行关联查询，筛选出带有多维度资产信息的被盗用网站，再根据筛选出的被盗用网站确定盗用网站库。

通过步骤S401至步骤S403，结合网站资产库中，页面备案号不为空且域名备案号为空的各个网站确定盗用网站库，并将盗用网站库与网站资产库进行关联查询，确定盗用网站库，提高盗用网站库和被盗用网站库的可靠性。

在其中一些实施例中，图5是根据本申请实施例的确定盗用网站库中的钓鱼网站的方法流程图一，如图5所示，该方法包括如下步骤：

步骤S501，根据被盗用网站库中的页面内容和盗用网站库中的页面内容，确定被盗用网站库中的页面内容与盗用网站库中的页面内容之间的海明距离；

例如，通过SimHash算法计算盗用网站库中页面内容的哈希值，以及通过SimHash算法计算被盗用网站库中页面内容的哈希值，并计算两哈希值之间的海明距离。

步骤S502，将海明距离大于或者等于预设阈值的盗用网站从盗用网站库中删除，以生成第一盗用网站库；

需要说明的是，海明距离小于一定预设值，表示两个页面是相似的，则说明相对应的盗用网站属于钓鱼网站的概率大，若海明距离大于或者等于预设阈值的盗用网站，则说明不属于钓鱼网站，因此可将海明距离大于或者等于预设阈值的盗用网站从盗用网站库中删除，以生成第一盗用网站库；例如，将海明距离大于或者等于3的盗用网站从盗用网站库中删除。

步骤S503，将第一盗用网站库与被盗用网站库进行比对，确定钓鱼网站。

通过步骤S501至步骤S503，首先根据被盗用网站库中的页面内容和盗用网站库中的页面内容，确定被盗用网站库中的页面内容与盗用网站库中的页面内容之间的海明距离，然后根据海明距离初步从盗用网站库中排除不可能是钓鱼网站的网站，便于后续快速从盗用网站库中快速识别出钓鱼网站。

在其中一些实施例中，图6是根据本申请实施例的确定盗用网站库中的钓鱼网站的方法流程图二，如图6所示，将第一盗用网站库与被盗用网站库进行比对确定钓鱼网站包括如下步骤：

步骤S601，将第一盗用网站库中的网站域名与被盗用网站库中的网站域名进行比对，将网站域名相同的盗用网站从第一盗用网站库中删除，以生成第二盗用网站库；

例如，当第一盗用网站库中和被盗用网站库中两个页面相似，则判断两者的域名是否相同，若相同则将对应的盗用网站从第一盗用网站库中删除；若不相同则继续判断两者的二级域名是否相同，若相同则将对应的盗用网站从第一盗用网站库中删除，不相同则保留，最终生成第二盗用网站库。

步骤S602，获取第二盗用网站库中页面内容的关键字。

步骤S603，若关键字与预设字不一致，则将与关键字不一致的盗用网站从第二盗用网站库中删除，以生成第三盗用网站库；

例如，对第二盗用网站库中页面内容进行处理，首先提取页面内容中的文本内容，进行分词处理，然后判断分词后是否包含登陆、注册这两个关键字，若不包含则从第二盗用网站库中将对应的盗用网站删除；若包含则继续判断登陆、注册是否在表单提交标签中，或登陆、注册是否是按钮或者超链接标签，若不是则从第二盗用网站库中将对应的盗用网站删除，若是则保留，最终生成第三盗用网站库。

步骤S604，将第三盗用网站库与被盗用网站库进行比对，确定钓鱼网站。

通过步骤S601至步骤S604，先对页面相似的盗用网站和被盗用网站通过一级域名和二级域名进行判断，以剔除不属于钓鱼网站的盗用网站，然后对盗用网站页面内容进行是否包含登录、注册关键字进行判断，以进一步剔除不属于钓鱼网站的盗用网站。

在其中一些实施例中，图7是根据本申请实施例的确定盗用网站库中的钓鱼网站的方法流程图三，如图7所示，将第三盗用网站库与被盗用网站库进行比对确定钓鱼网站包括如下步骤：

步骤S701，将第三盗用网站库中的whois信息与被盗用网站库中的whois信息进行比对。

步骤S702，若whois信息一致，则将与whois信息一致的盗用网站从第三盗用网站库中删除，以生成第四盗用网站库；

例如，对比第三盗用网站库whois信息中注册联系人与被盗用网站库whois信息中注册联系人是否一致，当whois信息中注册联系人隐藏则不比较，删除注册联系人一致的盗用网站，最终生成第四盗用网站库。

步骤S703，获取第四盗用网站库中盗用网站的页面链接和被盗用网站库中被盗用网站的页面链接，并根据盗用网站的页面链接和被盗用网站的页面链接，从第四盗用网站库中确定钓鱼网站；

例如，提取第四盗用网站库中盗用网站的页面链接，并过滤出所有的内链，当内链数量S₀小于5个，且内链数量S₀占所有链接的百分比S₁小于10％，则继续统计被盗用网站库中被盗用网站页面链接的内链数量N₀和内链占比N₁，当S₀-N₀<0且S₁-N₁<0，则判定该盗用网站是钓鱼网站；需要说明的是，页面中的链接域名与当前页面的域名不一致的这些链接，称之为外链，页面中的链接域名与当前页面的域名一致的这些链接，称之为内链。

通过步骤S701至步骤S703，进一步根据盗用网站的whois信息与被盗用网站的whois信息，以及盗用网站的页面链接与被盗用网站的页面链接，来确定钓鱼网站，使得钓鱼网站的识别率更高。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例还提供了一种钓鱼网站的识别装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

在一些实施例中，图8是根据本申请实施例的钓鱼网站的识别装置的结构框图，如图8所示，该装置包括：获取模块80、确定模块81和比对模块82；

获取模块80，用于获取网站资产库，其中，网站资产库中包含多个网站的多维度资产信息；

确定模块81，用于根据网站资产库，确定盗用网站库和被盗用网站库，其中，盗用网站库中包含有盗用网站的多维度资产信息，被盗用网站库中包含有被盗用网站的多维度资产信息；

比对模块82，用于将盗用网站库中的多维度资产信息与被盗用网站库中的多维度资产信息进行比对，确定盗用网站库中的钓鱼网站。

在其中一些实施例中，获取模块80、确定模块81和比对模块82还用于实现上述各实施例提供的钓鱼网站的识别方法中的步骤，在这里不再赘述。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种钓鱼网站的识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，图9是根据本申请实施例的计算机设备的内部结构示意图，如图9所示，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种钓鱼网站的识别方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述各实施例提供的钓鱼网站的识别方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个实施例提供的钓鱼网站的识别方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种钓鱼网站的识别方法，其特征在于，所述方法包括：

将所述盗用网站库中的多维度资产信息与所述被盗用网站库中的多维度资产信息进行比对，确定所述盗用网站库中的钓鱼网站；

获取网站资产库包括：收集可访问的网站；通过网络爬虫爬取所述网站的多维度资产信息；将所述网站的多维度资产信息存储在所述网站资产库中；通过网络爬虫爬取网站的页面内容和页面域名；通过正则表达式从所述页面内容中获取页面备案号；对所述页面备案号不为空的网站，拓展whois信息和域名备案号，其中，所述多维度资产信息至少包括页面域名、页面备案号、页面内容、whois信息以及域名备案号；将所述网站资产库中，所述页面备案号不为空且所述域名备案号为空的网站，判定为盗用网站；根据所述盗用网站，确定所述盗用网站库；根据所述盗用网站库和所述网站资产库，确定所述被盗用网站库。

2.根据权利要求1所述的钓鱼网站的识别方法，其特征在于，将所述盗用网站库中盗用网站的多维度资产信息与所述被盗用网站库中被盗用网站的多维度资产信息进行比对，确定所述盗用网站库中的钓鱼网站包括：

3.根据权利要求2所述的钓鱼网站的识别方法，其特征在于，将所述第一盗用网站库与所述被盗用网站库进行比对，确定所述钓鱼网站包括：

获取所述第二盗用网站库中所述页面内容的关键字；

4.根据权利要求3所述的钓鱼网站的识别方法，其特征在于，将所述第三盗用网站库与所述被盗用网站库进行比对，确定钓鱼网站包括；

5.一种钓鱼网站的识别装置，其特征在于，所述装置包括：获取模块、确定模块和比对模块；

所述获取模块，用于获取网站资产库，其中，所述网站资产库中包含收集可访问的网站；通过网络爬虫爬取多个网站的多维度资产信息；将所述网站的多维度资产信息存储在所述网站资产库中；

所述比对模块，用于将所述盗用网站库中的多维度资产信息与所述被盗用网站库中的多维度资产信息进行比对，确定所述盗用网站库中的钓鱼网站；

通过网络爬虫爬取网站的页面内容和页面域名；通过正则表达式从所述页面内容中获取页面备案号；对所述页面备案号不为空的网站，拓展whois信息和域名备案号，其中，所述多维度资产信息至少包括页面域名、页面备案号、页面内容、whois信息以及域名备案号；将所述网站资产库中，所述页面备案号不为空且所述域名备案号为空的网站，判定为盗用网站；根据所述盗用网站，确定所述盗用网站库；根据所述盗用网站库和所述网站资产库，确定所述被盗用网站库。

6.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述钓鱼网站的识别方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4中任一项所述钓鱼网站的识别方法的步骤。