CN113609493A

CN113609493A - 钓鱼网站的识别方法、装置、设备及介质

Info

Publication number: CN113609493A
Application number: CN202110898965.7A
Authority: CN
Inventors: 祝萍; 王贵智; 刘赫德
Original assignee: Industrial and Commercial Bank of China Ltd ICBC; ICBC Technology Co Ltd
Current assignee: Industrial and Commercial Bank of China Ltd ICBC; ICBC Technology Co Ltd
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-11-05

Abstract

本公开提供一种钓鱼网站的识别方法，包括：获取合法网站的网页信息，提取所述网页信息中的关键信息；根据所述关键信息构建所述合法网站的知识图谱；搜索包括所述关键信息的所有网站；针对于所述网站中的每一网站，对该网站的网页信息进行关键字抽取，根据所述关键字构建该网站的知识图谱；将每一网站的知识图谱与所述合法网站的知识图谱进行匹配，以识别钓鱼网站。本公开还提供一种钓鱼网站的识别装置、电子设备、计算机可读存储介质及计算机程序产品。

Description

钓鱼网站的识别方法、装置、设备及介质

技术领域

本公开涉及信息安全领域，可应用金融科技领域或其他领域，具体涉及一种钓鱼网站的识别方法、装置、设备及介质。

背景技术

网络钓鱼是一种利用社会工程学和技术手段窃取消费者的个人身份数据和财务账户凭证等的网络攻击方式。采用社会工程手段的网络钓鱼攻击往往是向用户发送貌似来自合法企业或机构的欺骗性电子邮件、手机短信等，引诱用户回复个人敏感信息或单击里面的链接访问伪造的网站，进而泄露凭证信息(如用户名、密码)或下载恶意软件。网络钓鱼的日益猖獗使互联网用户面临身份欺诈、个人隐私信息泄露以及经济损失等各方面的威胁。

目前钓鱼网站识别主要方式包括：基于黑名单的钓鱼网站识别方法、基于相似域名的钓鱼网站识别办法、基于关键信息匹配的识别方法以及基于视觉相似的识别方法。其中，基于黑名单的方法：属于被动监测，需要先将钓鱼网站收集到黑名单中，才能基于此识别，不能针对新出现、或更换域名的钓鱼网站进行识别。基于相似域名的方法适用于通过相似域名制造钓鱼网站的情况，发现准确率高，但是由于域名资源有限，现在钓鱼网站较少有此种方式，钓鱼网站识别的覆盖面较低。基于关键信息匹配的识别方法存在误发现情况多，无法应对网站重定向情况。基于视觉相似的识别方法需要进行大量图片对比，消耗资源，而且钓鱼网站有时是将整个站点几个页面的几个部分拼接到一起，造成和合法网页比较相似的特征，但是和合法网页对比，又难以通过图片对比发现。

公开内容

有鉴于此，本公开一方面提供一种钓鱼网站的识别方法，包括：获取合法网站的网页信息，提取所述网页信息中的关键信息；根据所述关键信息构建所述合法网站的知识图谱；搜索包括所述关键信息的所有网站；针对于所述网站中的每一网站，对该网站的网页信息进行关键字抽取，根据所述关键字构建该网站的知识图谱；将每一网站的知识图谱与所述合法网站的知识图谱进行匹配，以识别钓鱼网站。

根据本公开的实施例，其中，所述根据所述关键字构建该网站的知识图谱包括：根据所述合法网站的知识图谱所包含的关系构建该网站的知识图谱。

根据本公开的实施例，其中，所述将每一网站的知识图谱与所述合法网站的知识图谱进行匹配，以识别钓鱼网站包括：根据所述每一网站的知识图谱与所述合法网站的知识图谱，判断该网站包括的属性与所述合法网站包括的属性相似或相同的数量是否大于预设值；若是，则该网站为钓鱼网站。

根据本公开的实施例，所述方法还包括：展示所述钓鱼网站的关键信息，其中，所述钓鱼网站的关键信息包括域名注册地、域名、服务类型。

根据本公开的实施例，所述方法还包括：基于XXL-JOB分布式任务调度平台，按照固定频率在固定时间执行所述钓鱼网站的识别方法以识别钓鱼网站。

根据本公开的实施例，其中，采用图数据库的形式存储所述知识图谱。

本公开另一方面提供一种钓鱼网站的识别装置，包括：获取模块，用于获取合法网站的网页信息，提取所述网页信息中的关键信息；第一构建模块，用于根据所述关键信息构建所述合法网站的知识图谱；搜索模块，用于搜索包括所述关键信息的所有网站；第二构建模块，用于针对于所述网站中的每一网站，对该网站的网页信息进行关键字抽取，根据所述关键字构建该网站的知识图谱；识别模块，用于将每一网站的知识图谱与所述合法网站的知识图谱进行匹配，以识别钓鱼网站。

根据本公开的实施例，所述装置还包括：展示模块，用于展示所述钓鱼网站的关键信息，其中，所述钓鱼网站的关键信息包括域名注册地、域名、服务类型。

根据本公开的实施例，所述装置还包括：调度模块，用于基于XXL-JOB分布式任务调度平台，按照固定频率在固定时间执行所述钓鱼网站的识别方法以识别钓鱼网站。

本公开的另一个方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

附图说明

图1示意性示出了根据本公开实施例的钓鱼网站的识别方法及系统的系统架构100；

图2示意性示出了根据本公开一实施例的钓鱼网站的识别方法的流程图；

图3示意性示出了本公开一实施例提供的合法网站的关系图谱图；

图4示意性示出了本公开一实施例提供的待筛查网站的关系图谱图；

图5示意性示出了根据本公开另一实施例的钓鱼网站的识别方法的流程图；

图6示意性示出了根据本公开另一实施例的钓鱼网站的识别方法的流程图；

图7示意性示出了根据本公开一实施例的钓鱼网站的识别装置的框图；

图8示意性示出了根据本公开又一实施例的钓鱼网站的识别装置的框图；

图9示意性示出了根据本公开又一实施例的钓鱼网站的识别装置的框图；

图10示意性示出了根据本公开实施例的适于实现上文描述的方法的电子设备的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。

在本公开的技术方案中，所涉及的用户信息的获取，存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

本公开的实施例提供一种钓鱼网站的识别方法，包括：获取合法网站的网页信息，提取所述网页信息中的关键信息。根据关键信息构建合法网站的知识图谱。搜索包括关键信息的所有网站。针对于网站中的每一网站，对该网站的网页信息进行关键字抽取，根据关键字构建该网站的知识图谱。将每一网站的知识图谱与合法网站的知识图谱进行匹配，以识别钓鱼网站。

图1示意性示出了根据本公开实施例的钓鱼网站的识别方法及系统的系统架构100。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括客户端101、102，网络103及服务器104。网络103用于在客户端101、102和服务器104之间提供通信链路。

客户端101、102例如可以是具有显示屏并且可接入输入设备以进行信息输入的各种电子设备，包括但不限于智能手机、平板电脑、台式PC、膝上型PC、上网本计算机、工作站、服务器、游戏机等，电子设备可用于用户登录相应的账号，访问因特网上配置的各种网站，以进行信息查询或业务操作，包括但不限于文本、音频、视频等。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。其中有线方式例如可以是采用线缆及以下多种接口中的任一种连接：光纤通道、红外线接口、D型数据接口、串行接口、USB接口、USBType-C接口或Dock接口，无线方式例如可以是采用无线通信方式连接的，其中的无线通信例如可采用蓝牙、Wi-Fi、Infrared、ZigBee等多个无线技术标准中的任一个。服务器105可以是能够通过网络103获取因特网上配置的合法网站及包含该合法网站的关键信息的所有网站的网页信息，根据合法网站的关键信息构建合法网站的知识图谱，针对于网站中的每一网站，对该网站的网页信息进行关键字抽取，根据关键字构建该网站的知识图谱。将每一网站的知识图谱与合法网站的知识图谱进行匹配，以识别钓鱼网站。

需要说明的是，本公开实施例所提供的钓鱼网站的识别方法可以由服务器104执行。相应地，本公开实施例所提供的钓鱼网站的识别装置可以设置于服务器104中。或者，本公开实施例所提供的钓鱼网站的识别方法也可以由不同于服务器104且能够与客户端101、102和/或服务器104通信的服务器或服务器集群执行。相应地，本公开实施例所提供的钓鱼网站的识别装置也可以设置于不同于服务器104且能够与客户端101、102和/或服务器104通信的服务器或服务器集群中。或者，本公开实施例所提供的钓鱼网站的识别方法也可以部分由服务器104执行，部分由客户端101、102执行。相应的，本公开实施例所提供的钓鱼网站的识别装置也可以部分设置于服务器104中，部分设置于客户端101、102中。

应该理解，图1中的客户端、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的客户端、网络和服务器。

本公开实施例提供的钓鱼网站的识别方法，可以应用于金融科技领域。例如，在银行业或者其他金融机构，随着互联网、物联网的快速发展，越来越多银行业务由线下转变为线上办理，用户通过登录用户名和密码进行相应业务办理或信息获取。而随着电信诈骗的日益猖獗，越来越多的钓鱼网站出现在互联网中，以获取银行用户的身份信息或银行卡信息，进而窃取用户的财产。而采用本公开实施例提供的钓鱼网站的识别方法，可快速准确识别出这些不合法的钓鱼网站，对这些不合法的钓鱼网站进行关闭并提醒用户哪些是钓鱼网站，进而保障用户的财产安全。

应当理解是，本公开实施例提供的钓鱼网站的识别方法不仅限于应用于金融科技领域，上述描述只是示例性的，对于需要进行钓鱼网站的识别的其他领域，例如其它非金融产品的销售领域、电子商务领域、物流领域等，都可以应用本公开实施例的钓鱼网站的识别方法进行钓鱼网站的识别。

图2示意性示出了根据本公开一实施例的钓鱼网站的识别方法的流程图。

如图2所示，该钓鱼网站的识别方法例如可以包括操作S201～S205。

在操作S201，获取合法网站的网页信息，提取网页信息中的关键信息。

在本公开实施例中，关键信息可以是与合法网站相关的关键信息，例如可以包括域名、LOGO、客服电话、品牌标语、服务类型等。

在操作S202，根据关键信息构建合法网站的知识图谱。

在本公开实施例中，基于知识图谱技术，对这些关键信息进行关键字抽取，以构建该合法网站的关键信息的关系图谱。其中，采用图数据库的形式存储该合法网站的知识图谱。

图3示意性示出了本公开一实施例提供的合法网站的关系图谱图。

如图3所示，例如对于工商银行的合法网站，本公开实施例提取了该合法网站的产品名、客服电话、域名、LOGO及标题等，构建了工商银行的知识图谱。该知识图谱能够直观地反应合法网站包含的实体与实体之间的关系。

在操作S203，搜索包括关键信息的所有网站。

基于钓鱼网站都包含合法网站的一些关键信息这个事实，根据收集到的合法网站的关键信息，通过互联网搜索引擎、第三方网络资产测绘接口爬取包含关键信息的网页信息，存储到数据库中，作为后续筛查分析对象。

例如，以工行银行为例，在英特网中，采用数据爬取技术爬取包括产品名、客服电话、域名、LOGO及标题等其中至少之一的网站，并存储与数据库中，作为钓鱼网站的待筛查对象。

在操作S204，针对于网站中的每一网站，对该网站的网页信息进行关键字抽取，根据关键字构建该网站的知识图谱。

在本公开实施例中，基于知识图谱技术，对每一待筛查网站包括的关键信息进行关键字抽取，以构建每一待筛查网站的关键信息的关系图谱。

根据本公开的实施例，根据合法网站的知识图谱所包含的关系构建每一待筛查网站的知识图谱，即每一待筛查网站的关键信息的关系图谱与合法网站的关系图谱类似。例如，本公开实施例提取了合法网站的产品名、客服电话、域名、LOGO及标题等，构建了工商银行的知识图谱，则每一待筛查网站的关键信息的关系图谱也基于产品名、客服电话、域名、LOGO及标题等中的至少之一构建，这种构建方法后续匹配更准确，便于更好地识别钓鱼网站。其中，采用图数据库的形式存储每一待筛查网站的知识图谱。

图4示意性示出了本公开一实施例提供的待筛查网站的关系图谱图。

如图4所示，由于工商银行的合法网站是基于产品名、客服电话、域名、LOGO及标题这些关键信息进行关系图谱的构建，则待筛查网站A及待筛查网站B也基于这些关键信息进行关系图谱的构建。应当理解，这些关键信息中，待筛查网站A及待筛查网站B不包括的关键信息则不构建关系图谱，只构建包含的关键信息的图谱。例如。从待筛查网站A的关系图谱可以看出，其包含的属性有客服电话、LOGO及标题，从待筛查网站的关系图谱可以看出，其包含的属性仅仅只有标题工商银行。

在操作S205，将每一网站的知识图谱与合法网站的知识图谱进行匹配，以识别钓鱼网站。

在本公开实施例中，根据每一网站的知识图谱与合法网站的知识图谱，判断该网站包括的属性与合法网站包括的属性相似或相同的数量是否大于预设值。若是，则该网站为钓鱼网站。若否，则该网站不为钓鱼网站。

继续参阅图4，通过对比工商银行的合法网站及待筛查网站A，判断疑似钓鱼网站和合法网页建立连接的数量，建立的连接数量越多(也即属性相似或相同越多)，说明相似度越高，判断为钓鱼网站的概率越高。由于待筛查网站A包括了合法网站的客服电话、LOGO及标题，与合法网站具备较高的相似性，则待筛查网站A为疑似钓鱼网站，进一步通过域名被判断为非合法，则疑似钓鱼网站A被标记为钓鱼网站。待筛查网站B仅仅包括了标题工商银行这一相似信息，不被标记为钓鱼网站。

本公开实施例提供的钓鱼网站的识别方法，基于知识图谱技术分别构建合法网站与待筛查网站的关系图谱，将合法网站与钓鱼网站联系在一起，充分利用图计算特性，以识别钓鱼网站，可以解决网页重定向后，难以识别电鱼网站的问题，重定向的钓鱼网站依然可以通过图计算识别，识别准确率高，范围更广。由于该方法是对网页信息进行关键字抽取以构建关系图谱，因而针对于信息量较少，部分模仿合法网站，例如仅包含关键字、敏感信息收集(身份证、密码)的钓鱼网站，具备较好的发现效果。此外，该方法消耗的资源少。

图5示意性示出了根据本公开另一实施例的钓鱼网站的识别方法的流程图。

如图5所示，该钓鱼网站的识别方法除包括上述操作S201～S205。例如可以还包括操作S501。

在操作S501，基于XXL-JOB分布式任务调度平台，按照固定频率在固定时间执行钓鱼网站的识别方法以识别钓鱼网站。

根据本公开的实施例，通过开源的XXL-JOB进行任务调度，将数据待筛查网站信息的爬取、筛查分析任务按照固定频率在固定时间执行，以便定时定期开展钓鱼网站筛查工作，进而实现钓鱼网站的自动识别功能。

图6示意性示出了根据本公开另一实施例的钓鱼网站的识别方法的流程图。

如图6所示，该钓鱼网站的识别方法除包括上述操作S201～S205及S501。例如可以还包括操作S601。

在操作S601，展示钓鱼网站的关键信息。

根据本公开的实施例，展示的钓鱼网站的关键信息例如包括域名注册地、域名、服务类型。通过将钓鱼网站的关键信息展示给用户，方便用户及时发现钓鱼网站，从而提醒用户不访问这些钓鱼网站，降低损失。

图7示意性示出了根据本公开一实施例的钓鱼网站的识别装置的框图。

如图7所示，钓鱼网站的识别装置700例如可以包括获取模块710、第一构建模块720、搜索模块730、第二构建模块740及识别模块750。

获取模块710，用于获取合法网站的网页信息，提取网页信息中的关键信息。

第一构建模块720，用于根据关键信息构建合法网站的知识图谱。

搜索模块730，用于搜索包括关键信息的所有网站。

第二构建模块740，用于针对于网站中的每一网站，对该网站的网页信息进行关键字抽取，根据关键字构建该网站的知识图谱。

识别模块750，用于将每一网站的知识图谱与合法网站的知识图谱进行匹配，以识别钓鱼网站。

图8示意性示出了根据本公开又一实施例的钓鱼网站的识别装置的框图。

如图8所示，钓鱼网站的识别装置700例如可以包括获取模块710、第一构建模块720、搜索模块730、第二构建模块740、识别模块750及展示模块760。

搜索模块730，用于搜索包括关键信息的所有网站。

识别模块750，用于将每一网站的知识图谱与合法网站的知识图谱进行匹配，以识别钓鱼网站。图9示意性示出了根据本公开实施例的第二生成模块的框图。

展示模块760，用于展示钓鱼网站的关键信息，其中，钓鱼网站的关键信息包括域名注册地、域名、服务类型。

如图8所示，钓鱼网站的识别装置700例如可以包括获取模块710、第一构建模块720、搜索模块730、第二构建模块740、识别模块750、展示模块760及调度模块770。

搜索模块730，用于搜索包括关键信息的所有网站。

调度模块770，用于基于XXL-JOB分布式任务调度平台，按照固定频率在固定时间执行钓鱼网站的识别方法以识别钓鱼网站。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，获取模块710、第一构建模块720、搜索模块730、第二构建模块740、识别模块750、展示模块760及调度模块770中的任意多个可以合并在一个模块/单元/子单元中实现，或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者，这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合，并在一个模块/单元/子单元中实现。根据本公开的实施例，获取模块710、第一构建模块720、搜索模块730、第二构建模块740、识别模块750、展示模块760及调度模块770中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获取模块710、第一构建模块720、搜索模块730、第二构建模块740、识别模块750、展示模块760及调度模块770中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

需要说明的是，本公开的实施例中钓鱼网站的识别装置部分与本公开的实施例中钓鱼网站的识别方法部分是相对应的，其具体实施细节也是相同的，在此不再赘述。

图10示意性示出了根据本公开实施例的适于实现上文描述的方法的电子设备的框图。图10示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，根据本公开实施例的电子设备1000包括处理器1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。处理器1001例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器1001还可以包括用于缓存用途的板载存储器。处理器1001可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1003中，存储有电子设备1000操作所需的各种程序和数据。处理器1001、ROM 1002以及RAM1003通过总线1004彼此相连。处理器1001通过执行ROM 1002和/或RAM1003中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 1002和RAM 1003以外的一个或多个存储器中。处理器1001也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备1000还可以包括输入/输出(I/O)接口1005，输入/输出(I/O)接口1005也连接至总线1004。电子设备1000还可以包括连接至I/O接口1005的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM1002和/或RAM 1003和/或ROM 1002和RAM 1003以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

Claims

1.一种钓鱼网站的识别方法，包括：

获取合法网站的网页信息，提取所述网页信息中的关键信息；

根据所述关键信息构建所述合法网站的知识图谱；

搜索包括所述关键信息的所有网站；

针对于所述网站中的每一网站，对该网站的网页信息进行关键字抽取，根据所述关键字构建该网站的知识图谱；

将每一网站的知识图谱与所述合法网站的知识图谱进行匹配，以识别钓鱼网站。

2.根据权利要求1所述的钓鱼网站的识别方法，其中，所述根据所述关键字构建该网站的知识图谱包括：

根据所述合法网站的知识图谱所包含的关系构建该网站的知识图谱。

3.根据权利要求1所述的钓鱼网站的识别方法，其中，所述将每一网站的知识图谱与所述合法网站的知识图谱进行匹配，以识别钓鱼网站包括：

根据所述每一网站的知识图谱与所述合法网站的知识图谱，判断该网站包括的属性与所述合法网站包括的属性相似或相同的数量是否大于预设值；

若是，则该网站为钓鱼网站。

4.根据权利要求1所述的钓鱼网站的识别方法，所述方法还包括：

展示所述钓鱼网站的关键信息，其中，所述钓鱼网站的关键信息包括域名注册地、域名、服务类型。

5.根据权利要求1所述的钓鱼网站的识别方法，所述方法还包括：

基于XXL-JOB分布式任务调度平台，按照固定频率在固定时间执行所述钓鱼网站的识别方法以识别钓鱼网站。

6.根据权利要求1所述的钓鱼网站的识别方法，其中，采用图数据库的形式存储所述知识图谱。

7.一种钓鱼网站的识别装置，包括：

获取模块，用于获取合法网站的网页信息，提取所述网页信息中的关键信息；

第一构建模块，用于根据所述关键信息构建所述合法网站的知识图谱；

搜索模块，用于搜索包括所述关键信息的所有网站；

第二构建模块，用于针对于所述网站中的每一网站，对该网站的网页信息进行关键字抽取，根据所述关键字构建该网站的知识图谱；

识别模块，用于将每一网站的知识图谱与所述合法网站的知识图谱进行匹配，以识别钓鱼网站。

8.根据权利要求7所述的钓鱼网站的识别装置，其中，所述根据所述关键字构建该网站的知识图谱包括：

9.根据权利要求7所述的钓鱼网站的识别装置，其中，所述将每一网站的知识图谱与所述合法网站的知识图谱进行匹配，以识别钓鱼网站包括：

若是，则该网站为钓鱼网站。

10.根据权利要求7所述的钓鱼网站的识别装置，所述装置还包括：

展示模块，用于展示所述钓鱼网站的关键信息，其中，所述钓鱼网站的关键信息包括域名注册地、域名、服务类型。

11.根据权利要求7所述的钓鱼网站的识别装置，所述装置还包括：

调度模块，用于基于XXL-JOB分布式任务调度平台，按照固定频率在固定时间执行所述钓鱼网站的识别方法以识别钓鱼网站。

12.根据权利要求7所述的钓鱼网站的识别装置，其中，采用图数据库的形式存储所述知识图谱。

13.一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至6中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现权利要求1至6中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至6中任一项所述的方法。