CN109756467B

CN109756467B - 一种钓鱼网站的识别方法及装置

Info

Publication number: CN109756467B
Application number: CN201711085177.6A
Authority: CN
Inventors: 李彬; 袁静; 郝建忠; 郑浩彬; 钟雪慧; 吕汉鑫
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Priority date: 2017-11-07
Filing date: 2017-11-07
Publication date: 2021-04-27
Anticipated expiration: 2037-11-07
Also published as: CN109756467A

Abstract

本发明实施例提供一种钓鱼网站的识别方法及装置。所述方法包括：获取预设时段内用户的访问网络行为日志，访问网络行为日志包括访问网页信息、访问时刻和用户手机号码；根据黑名单网页库确定目标号码集合，目标号码集合包括访问网页信息为黑名单网页的目标用户手机号码和访问黑名单网页的第一访问时刻；确定与第一访问时刻间隔小于预设时长阈值的第二访问时刻集合和待识别访问网页子集，确定目标号码集合对应的待识别网页集合；将待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算，确定待识别访问网页是否为钓鱼网站。本发明实施例对可疑网页集合体进行识别，提高了钓鱼网站识别效率。

Description

一种钓鱼网站的识别方法及装置

技术领域

本发明实施例涉及网络安全技术领域，具体涉及一种钓鱼网站的识别方法及装置。

背景技术

据工信部的数据显示，截止到2017年5月末，我国移动电话用户总数达到13.88亿户，其中2017年1-5月净增3910万户。2G和3G用户稳步向4G用户转换，4G用户持续爆发式增长，总数达到7.14亿户，占移动电话用户的比重达到54.1％，新形势下，移动支付开始普及并快速发展，电信诈骗问题也逐步凸显。经中国反钓鱼网站联盟10月处理报告显示，截至2017年5月份，联盟累计认定并处理钓鱼网站382969个，其中仅在5月就发现处理了877个钓鱼网站。妄图偷取用户隐私信息的不法分子越来越活跃，恶意钓鱼网站引起诈骗案例层出不穷，这种电信网络新型违法犯罪行为，已成为影响社会稳定和群众安全感的突出犯罪问题，恶意虚假钓鱼攻击已成为全世界共同面临的网络安全问题，是全球互联网行业急需解决的问题，因此加强对钓鱼网站识别的研究具有重要的现实意义。

目前有三种钓鱼网站识别方法，分别是URL黑白名单过滤方法，URL机器学习检测方法和基于网页内容的相似度识别方法，其中URL黑白名单过滤方法，前期需要通过人工方式收集黑白名单，主要应用在浏览器上，当用户访问网页时使用黑白名单进行对该网页进行全匹配，这种方法覆盖范围小，对于目前的互联网发展速度，有一定的局限性。URL机器学习检测方法基于各种URL相似度及分类算法，利用已经发现的钓鱼网站进行学习训练，建立起强大的黑名单训练集，当用户访问网页时，根据黑名单训练集对访问网页进行分类，URL机器学习检测方法前提必须收集到足够多的钓鱼网站，然而钓鱼网站的存活时间短，需要及时捕获钓鱼网站进行训练，对系统数据的精确定位和时效性要求非常高。基于网页内容的相似度识别方法是对用户访问网页的元素进行特征挖掘，如URL、域名、图片、组成、页面关键词等，通过分类预测计算进行识别。然而上述三种识别方法对数据利用率较低：都是针对单个网页的内容元素进行特征识别(如URL、域名、IP、网页内容等)，属于个体识别技术，在移动互联网中，识别单个网站实际上并不能发挥移动互联网的大数据优势，识别效率较低。

发明内容

针对现有技术中的缺陷，本发明实施例提供了一种钓鱼网站的识别方法及装置。

第一方面，本发明实施例提供一种钓鱼网站的识别方法，包括：

获取预设时段内用户的访问网络行为日志，所述访问网络行为日志包括访问网页信息、访问时刻和用户手机号码；

根据黑名单网页库匹配所述访问网页信息，确定所述访问网络行为日志对应的目标号码集合，所述目标号码集合包括访问网页信息为黑名单网页的目标用户手机号码和所述目标用户手机号码访问黑名单网页的第一访问时刻；

根据所述目标用户手机号码对应的访问网络行为日志，确定与所述第一访问时刻间隔小于预设时长阈值的第二访问时刻集合，以及与所述第二访问时刻集合对应的待识别访问网页子集，根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别网页集合；

将所述待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算，确定所述待识别访问网页是否为钓鱼网站。

第二方面，本发明实施例提供一种钓鱼网站的识别装置，包括：

获取模块，用于获取预设时段内用户的访问网络行为日志，所述访问网络行为日志包括访问网页信息、访问时刻和用户手机号码；

匹配模块，用于根据黑名单网页库匹配所述访问网页信息，确定所述访问网络行为日志对应的目标号码集合，所述目标号码集合包括访问网页信息为黑名单网页的目标用户手机号码和所述目标用户手机号码访问黑名单网页的第一访问时刻；

筛选模块，用于根据所述目标用户手机号码对应的访问网络行为日志，确定与所述第一访问时刻间隔小于预设时长阈值的第二访问时刻集合，以及与所述第二访问时刻集合对应的待识别访问网页子集，根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别网页集合；

识别模块，用于将所述待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算，确定所述待识别访问网页是否为钓鱼网站。

第三方面，本发明实施例提供一种电子设备，包括：

存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如下方法：获取预设时段内用户的访问网络行为日志，所述访问网络行为日志包括访问网页信息、访问时刻和用户手机号码；根据黑名单网页库匹配所述访问网页信息，确定所述访问网络行为日志对应的目标号码集合，所述目标号码集合包括访问网页信息为黑名单网页的目标用户手机号码和所述目标用户手机号码访问黑名单网页的第一访问时刻；根据所述目标用户手机号码对应的访问网络行为日志，确定与所述第一访问时刻间隔小于预设时长阈值的第二访问时刻集合，以及与所述第二访问时刻集合对应的待识别访问网页子集，根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别网页集合；将所述待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算，确定所述待识别访问网页是否为钓鱼网站。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如下方法：获取预设时段内用户的访问网络行为日志，所述访问网络行为日志包括访问网页信息、访问时刻和用户手机号码；根据黑名单网页库匹配所述访问网页信息，确定所述访问网络行为日志对应的目标号码集合，所述目标号码集合包括访问网页信息为黑名单网页的目标用户手机号码和所述目标用户手机号码访问黑名单网页的第一访问时刻；根据所述目标用户手机号码对应的访问网络行为日志，确定与所述第一访问时刻间隔小于预设时长阈值的第二访问时刻集合，以及与所述第二访问时刻集合对应的待识别访问网页子集，根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别网页集合；将所述待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算，确定所述待识别访问网页是否为钓鱼网站。

本发明实施例提供的钓鱼网站的识别方法，根据预设时段内的用户访问网络行为日志，确定访问黑名单网页的目标号码集合，根据访问黑名单网页的访问时刻确定访问可疑网页的访问时刻，利用了用户访问网页行为时存在时间前后顺序的链式网络行为，通过点面发散的思维，从发现一个目标号码范围到发现一群可疑网页范围的模式，进行可疑网页集群定位，在大数据环境中快速圈定目标可疑危险网站范围，减少系统资源检索，对可疑网页集合体进行识别，提高了钓鱼网站识别效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的钓鱼网站的识别方法流程示意图；

图2为本发明又一实施例提供的钓鱼网站的识别方法流程示意图；

图3为本发明实施例提供的钓鱼网站的识别装置结构示意图；

图4为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的钓鱼网站的识别方法流程示意图，如图1所示，该方法包括：

步骤S11、获取预设时段内所有用户的访问网络行为日志，所述访问网络行为日志包括访问网页信息、访问时刻和用户手机号码；

具体地，当用户使用手机访问某个网页时，会生成一个访问网络行为日志，记录用户手机号码、用户访问的网页信息和访问该网页的时刻，其中网页信息可以为访问网页的URL、IP地址或网页域名等。获取某一段时间内所有用户的访问网络行为日志，每个用户的访问网络行为日志包括该用户的用户手机号码，该用户访问网页信息，以及用户访问该网页的访问时刻。例如获取13：00-14:00内所有用户的访问网络行为日志，首先根据访问网络行为日志中记录的访问时刻确定预设时段内的所有用户的访问网络行为日志，得到的结果为：{Num_A，URL₁，Time₁，URL₂，Time₂，URL₃，Time₃}，{Num_B，URL₂，Time₃，URL₃，Time₄，URL₄，Time₅}，{Num_C，URL₁，Time₁，URL₄，Time₂，URL₅，Time₆}，{Num_D，URL₁，Time₅，URL₆，Time₆}，{Num_E，URL₁，Time₁，URL₃，Time₂，URL₇，Time₃}，其中Num表示用户手机号码，URL表示访问网页URL，Time表示访问时刻。

步骤S12、根据黑名单网页库匹配所述访问网页信息，确定所述访问网络行为日志对应的目标号码集合，所述目标号码集合包括访问网页信息为黑名单网页的目标用户手机号码和所述目标用户手机号码访问黑名单网页的第一访问时刻；

具体地，根据黑名单网页库对访问网络行为日志进行筛选，匹配黑名单网页与访问网页信息，确定访问网页信息为黑名单网页的目标用户手机号码，以及该用户手机号码访问黑名单网页的访问时刻，将这些用户手机号码和访问时刻组成目标号码集合，在本发明实施例中，为了区分访问黑名单网页的访问时刻和访问其他网页的访问时刻，将访问黑名单网页的访问时刻记为第一访问时刻，其中，黑名单网页库可以是目前已经确定的钓鱼网站的网页集合，也可以是根据现有技术直接确定的黑名单网页库，此处不再赘述。

例如，预设时段内的访问网络行为日志包括：{Num_A，URL₁，Time₁，URL₂，Time₂，URL₃，Time₃}，{Num_B，URL₂，Time₃，URL₃，Time₄，URL₄，Time₅}，{Num_C，URL₁，Time₁，URL₄，Time₂，URL₅，Time₆}，{Num_D，URL₁，Time₅，URL₆，Time₆}，{Num_E，URL₁，Time₁，URL₃，Time₂，URL₇，Time₃}，黑名单网页库为{URL₂，URL₃，URL₅}，此时目标号码集合为{Num_A，Time₂，Time₃，Num_B，Time₃，Time₄，Num_C，Time₆，Num_E，Time₂}。

步骤S13、根据所述目标用户手机号码对应的网络行为日志，确定与所述第一访问时刻间隔小于预设时长阈值的第二访问时刻集合，以及与第二访问时刻集合对应的待识别访问网页子集，根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别网页集合。

具体地，如果用户在某个时刻访问了一条恶意链接，前后某段时间点就可能会存在用户访问恶意链接载体网页、广告内容等链式网络行为，或者用户访问钓鱼网站时点击了其网页中其他钓鱼网站链接，利用这种前后连带关系，可以快速、有效的确定新可疑钓鱼网站的网络行为集合，节省了钓鱼网站内容爬虫后才能发现其网页内容中存在的其他钓鱼网站时间。在本发明实施例中，根据访问了黑名单网页的目标用户手机号码的访问网络行为日志，确定目标用户手机号码访问时刻间隔与该目标用户手机号码访问黑名单网页的第一访问时刻间隔小于阈值的第二访问时刻，确定这些第二访问时刻对应的访问网页子集，所有目标用户手机号码的上述访问网页子集构成了预设时段内的待识别网页集合，这样，就可以对预设时段内的访问网页信息进行了筛选，挑选出一部分需要进行识别的访问网页。

例如，预先设置预设时长阈值T，当用户在某个时刻t访问了黑名单网页，那么该用户在t-T至t+T这段时间段内的访问网页，由于黑名单网页已经经过识别确定，无需再重复识别，将这些访问网页中的黑名单网页直接去除，就是该用户在预设时段内需要进一步进行识别验证的可疑访问网页，预设时段内所有用户的可疑访问网页构成了预设时段内的待识别网页集合。其中预设时长阈值T可以根据经验设置，也可以根据实时采集的数据进行学习更新，本发明实施例对此不作限定。

步骤S14、将所述待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算，确定所述待识别访问网页是否为钓鱼网站。

具体地，将待识别网页集合中每个待识别访问网页与黑名单库中的黑名单网页进行分析，计算该待识别访问网页与黑名单网页库中每个黑名单网页的相似度，当相似度达到预设相似度阈值时，确定该待识别访问网页为钓鱼网站，其中预设相似度阈值可以根据实际情况提前设定，本发明实施例对此不做限定。

例如，预设时段内的访问网络行为日志包括：{Num_A，URL₁，Time₁，URL₂，Time₂，URL₃，Time₃}，{Num_B，URL₂，Time₃，URL₃，Time₄，URL₄，Time₅}，{Num_C，URL₁，Time₁，URL₄，Time₂，URL₅，Time₆}，{Num_D，URL₁，Time₅，URL₆，Time₆}，{Num_E，URL₁，Time₁，URL₃，Time₂，URL₇，Time₃}，黑名单网页库为{URL₂，URL₃，URL₅}，此时目标号码集合为{Num_A，Time₂，Time₃，Num_B，Time₃，Time₄，Num_C，Time₆，Num_E，Time₂}。预设时长阈值为T，第二访问时刻为{Time₁}、{Time₂}、{Time₃}根据预设时长，确定的待识别网页包括{URL₁，URL₄，URL₇}，计算URL₁对应的网页与URL₂，URL₃和URL₅对应的网页的相似度分别为s1、s2和s3，根据相似度确定URL₁为钓鱼网站，计算URL₄对应的网页与URL₂，URL₃和URL₅对应的网页的相似度分别为s4、s5和s6，根据相似度确定URL₄为正常网站，计算URL₇对应的网页与URL₂，URL₃和URL₅对应的网页的相似度分别为s7、s8和s9，根据相似度确定URL₇为钓鱼网站，这样，在预设时段内，对三个待识别访问网页进行识别，确定其中两个为钓鱼网站。

在上述实施例的基础上，进一步地，所述根据黑名单网页库匹配所述访问网页信息，确定所述访问网络行为日志对应的目标号码集合，所述目标号码集合包括访问网页信息为黑名单网页的目标用户手机号码和所述目标用户手机号码访问黑名单网页的第一访问时刻，包括：

匹配白名单网页库和所述访问网页信息，对所述访问网络行为日志进行筛选，确定筛选后的访问网络行为日志；

根据黑名单网页库匹配所述筛选后的访问网络行为日志对应的访问网页信息，确定访问网页信息为黑名单网页的目标用户手机号码和所述目标用户手机号码访问黑名单网页的第一访问时刻；

根据所述目标用户手机号码和所述第一访问时刻确定所述访问网络行为日志对应的目标号码集合。

具体地，某一时间段内，所有用户的访问网络行为日志数据量非常大，而对于用户访问网络行为日志中的访问网页进行是否是钓鱼网站的识别，可以先进行筛选，对于现有技术已经验证过是白名单网页的访问网页不再识别，这样可以降低数据处理维度。具体地，将预设时段内的用户访问网络行为日志中记录的访问网页信息与白名单网页库进行匹配，将属于白名单网页库的访问网页对应的访问网络行为日志删除，然后将筛选后的访问网络行为日志中的访问网页信息与黑名单网页库进行匹配，确定访问网页为黑名单网页的目标用户手机号码和该目标用户手机号码访问黑名单网页的第一访问时刻。之后将经过白名单网页库过滤后的访问网络行为日志，再经过黑名单网页库过滤，将访问网页信息为黑名单网页的访问网络行为日志删除，在经过两次过滤的访问网络行为日志里，根据目标用户手机号码对应的访问网络行为日志，确定与第一访问时刻间隔小于预设时长阈值的第二访问时刻集合，以及与第二访问时刻集合对应的待识别访问网页子集，根据每个目标用户手机号码对应的待识别访问网页子集确定预设时段内访问网络行为日志对应的待识别网页集合，将待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算，确定待识别访问网页是否为钓鱼网站。

例如，预设时段内的访问网络行为日志包括：{Num_A，URL₁，Time₁，URL₂，Time₂，URL₃，Time₃}，{Num_B，URL₂，Time₃，URL₃，Time₄，URL₄，Time₅}，{Num_C，URL₁，Time₁，URL₄，Time₂，URL₅，Time₆}，{Num_D，URL₁，Time₅，URL₆，Time₆}，{Num_E，URL₁，Time₁，URL₃，Time₂，URL₇，Time₃}，白名单网页库为{URL₁，URL₆}，黑名单网页库为{URL₂，URL₃，URL₅}。第一次筛选后的访问网络日志行为包括：{Num_A，URL₂，Time₂，URL₃，Time₃}，{Num_B，URL₂，Time₃，URL₃，Time₄，URL₄，Time₅}，{Num_C，URL₄，Time₂，URL₅，Time₆}，{Num_E，URL₃，Time₂，URL₇，Time₃}，之后通过黑名单网页库确定目标号码集合为{Num_A，Time₂，Time₃，Num_B，Time₃，Time₄，Num_C，Time₆，Num_E，Time₂}，对筛选后的访问网络日志进行二次筛选后的访问网络行为日志包括：{Num_B，URL₄，Time₅}，{Num_C，URL₄，Time₂}，{Num_E，URL₇，Time₃}，从二次筛选后的访问网络行为日志中筛选出与访问黑名单网页的第一访问时刻间隔预设时长阈值的第二访问时刻{Time₅}，{Time₂}，从而确定待识别网页为{URL₄}。

本发明实施例提供的钓鱼网站的识别方法，对预设时段内的用户访问网络行为日志进行二次筛选，对目标访问网络行为日志预处理，减少大量无谓运算，并确定访问黑名单网页的目标号码集合，根据访问黑名单网页的访问时刻确定访问可疑网页的访问时刻，利用了用户访问网页时存在时间前后顺序的链式网络行为，通过点面发散的思维，从发现一个目标号码范围到发现一群可疑网页范围的模式，进行可疑网页集群定位，在大数据环境中快速圈定目标可疑危险网站范围，减少系统资源检索，对可疑网页集合体进行识别，提高了钓鱼网站识别效率。

在上述各实施例的基础上，进一步地，所述根据所述目标用户手机号码对应的访问网络行为日志，确定与所述第一访问时刻间隔小于预设时长阈值的第二访问时刻集合，以及与所述第二访问时刻集合对应的待识别访问网页子集，根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别网页集合，包括：

根据所述黑名单网页库中存在链接关系的黑名单网页对，确定所述目标号码集合中，访问所述黑名单网页对的访问时刻间隔集合；

确定所述访问时刻间隔集合中每个访问时刻间隔在所述访问时刻间隔集合中出现的概率，根据所述概率，确定预设时长阈值；

根据所述目标用户手机号码对应的网络行为日志，确定与所述第一访问时刻间隔小于所述预设时长阈值的第二访问时刻集合，以及与所述第二访问时刻集合对应的待识别访问网页子集；

根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别访问网页集合。

在实际应用中，预设时长阈值是为了圈定可疑访问网页范围，预设时长阈值除了可以根据经验设置外，还可以根据实际情况不断更新。具体地，首先确定黑名单网页库中存在链接关系的黑名单网页对，例如，可以预先爬取黑名单网页中的链接内容，确定存在链接关系的黑名单网页对，然后确定目标号码集合中访问黑名单网页对的目标用户手机号码，以及该目标用户手机号码访问黑名单网页对的访问时刻间隔。根据每个访问黑名单网页对的目标用户手机号码的访问时刻间隔确定访问时刻间隔集合，之后确定每个访问时刻间隔在访问时刻间隔集合中出现的概率，计算出最高频间隔P_max＝Max{P₁，P₂，P₃，…，P_n}，P_n表示在访问时刻间隔集合中出现访问时刻间隔n的出现概率，若存在概率一样，不同访问时刻间隔选取最大访问时刻间隔，将选取的访问时刻间隔作为预设时刻间隔。

例如，URL₂与URL₃存在链接关系，URL₄与URL₅存在链接关系，用户A访问URL₂与URL₃的时刻间隔为t₁，用户B访问URL₂与URL₃的时刻间隔为t₂，用户C访问URL₄与URL₅的时刻间隔为t₁，用户D访问URL₂与URL₃的时刻间隔为t₃，用户E访问URL₄与URL₅的时刻间隔为t₄，那么访问时刻间隔集合为{t₁，t₂，t₁，t₃，t₄}。不同访问时刻间隔出现的概率为：P_t1＝0.4，P_t2＝0.2，P_t3＝0.2，P_t4＝0.2，之后确定t₁为最高频时刻间隔，将t₁作为预设时刻间隔，根据目标用户手机号码对应的网络行为日志，确定与第一访问时刻间隔小于预设时长阈值t₁的第二访问时刻集合，以及与第二访问时刻集合对应的待识别访问网页子集，根据每个目标用户手机号码对应的待识别访问网页子集确定目标号码集合对应的待识别访问网页集合。

本发明实施例提供的钓鱼网站的识别方法，获取预设时段内的用户访问网络行为日志，确定访问黑名单网页的目标号码集合，根据用户访问有链接关系的黑名单网页对的时刻间隔确定访问可疑网页的访问时刻，利用了用户访问网页时存在时间前后顺序的链式网络行为，通过点面发散的思维，从发现一个目标号码范围到发现一群可疑网页范围的模式，进行可疑网页集群定位，在大数据环境中快速圈定目标可疑危险网站范围，减少系统资源检索，对可疑网页集合体进行识别，提高了钓鱼网站识别效率。

在上述各实施例的基础上，进一步地，所述将所述待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算，确定所述待识别访问网页是否为钓鱼网站，包括：

访问所述待识别网页集合中的每个待识别访问网页；

爬取所述待识别访问网页中的关键词，根据所述关键词确定所述待识别访问网页的特征向量；

计算所述待识别访问网页的特征向量与所述黑名单网页库中每个黑名单网页的特征向量的相似度；

根据所述相似度，确定所述待识别访问网页是否为钓鱼网站。

具体地，预先对黑名单网页库中的每个黑名单网页做预处理，爬取黑名单网页中的高频内容，提取出高频关键词，可以设置N个关键词个数，N值根据实际情况确定，为了减少数据计算量，N最大数值为100个，然后将N个高频关键词组成该黑名单网页的特征向量。这样，黑名单网页库中每个黑名单网页对应一个N维特征向量。

当确定待识别网页集合之后，访问待识别网页集合中的每个待识别访问网页，爬取网页中的高频内容，提取出N个高频关键词，然后将N个高频关键词组成该待识别访问网页的特征向量。这样，待识别网页集合中每个待识别访问网页对应一个N维特征向量。

之后，根据相似度算法原理，将待识别访问网页的特征向量与黑名单网页库的各个特征向量进行相似度计算，根据相似度，确定待识别访问网页是否为钓鱼网站，若相似度距离小于预设相似度阈值，则确认待识别访问网页为钓鱼网站。其中相似度算法可以为Gensimx相似度或其他相似度算法，本发明实施例对此不做限定。

在实际应用中，还可以对白名单网页库的每个白名单网页做预处理，爬取白名单网页中的高频内容，提取出N个高频关键词，然后将N个高频关键词组成该白名单网页的特征向量。这样，白名单网页库中每个白名单网页对应一个N维特征向量。之后，根据相似度算法原理，将待识别访问网页的特征向量与黑名单网页库和白名单网页库的各个特征向量进行相似度计算，根据相似度，确定待识别访问网页是否为钓鱼网站，若相似度距离小于预设相似度阈值，则确认待识别访问网页为钓鱼网站。

本发明实施例提供的钓鱼网站的识别方法，获取预设时段内的用户访问网络行为日志，确定访问黑名单网页的目标号码集合，根据用户访问有链接关系的黑名单网页对的时刻间隔确定访问可疑网页的访问时刻，利用了用户访问网页时存在时间前后顺序的链式网络行为，进行可疑网页集群定位，在大数据环境中快速圈定目标可疑危险网站范围，减少系统资源检索，利用相似度算法对对可疑网页集合体进行识别，提高了钓鱼网站识别效率。

在上述各实施例的基础上，进一步地，所述方法还包括：

若判断获知所述待识别访问网页为钓鱼网站，则更新所述黑名单网页库，将所述待识别访问网页增加到所述黑名单网页库中。

具体地，若经过判断得知待识别访问网页为钓鱼网站，则更新黑名单网页库，将确认为钓鱼网站的待识别访问网页增加到黑名单网页库中。在实际应用中，还可以将新增黑名单网页的特征向量也增加到黑名单网页库的特征向量组里。

在实际应用中，还可以在识别出待识别访问网页为钓鱼网站后，判断该网页是否已经在互联网系统备案，若未备案，则将该网页及其特征向量增加到黑名单网页库中，若该网页已经备案，则网页内容可能被恶意篡改，此时，可以在用户访问该网页时，进行提醒存在风险，不再将该网页加入到黑名单网页库中。

图2为本发明又一实施例提供的钓鱼网站的识别方法流程示意图，如图2所示，该方法包括：

步骤S21、根据白名单网页库对用户的访问网络行为日志进行过滤，删除访问网页为白名单网页的访问网络行为日志；

步骤S22、根据黑名单网页库对第一次筛选后的访问网络行为日志进行二次筛选；

步骤S23、根据黑名单网页库确定目标号码集合；

步骤S24、根据目标号码集合确定访问存在链接关系的黑名单网页对的访问时刻间隔；

步骤S25、根据访问时刻间隔确定预设时长阈值；

步骤S26、根据预设时长阈值和黑白名单过滤后的访问网页集合确定目标用户手机号码对应的待识别访问网页集合；

步骤S27、访问待识别访问网页，爬取网页内容，提取网页高频关键词；

步骤S28、根据高频关键词生成待识别访问网页的特征向量；

步骤S29、将待识别访问网页的特征向量与黑名单网页库的特征向量组进行相似度计算；

步骤S210、根据相似度判断该网页是否为钓鱼网站，若是，则执行步骤S211，若不是则结束识别流程；

步骤S211、判断网页是否备案，若未备案则将该网页及特征向量增加到黑名单网页库中，若已经备案，则结束识别流程。

本发明实施例提供的钓鱼网站的识别方法，获取预设时段内的用户访问网络行为日志，确定访问黑名单网页的目标号码集合，根据用户访问有链接关系的黑名单网页对的时刻间隔确定访问可疑网页的访问时刻，利用了用户访问网页时存在时间前后顺序的链式网络行为，进行可疑网页集群定位，在大数据环境中快速圈定目标可疑危险网站范围，减少系统资源检索，利用相似度算法对对可疑网页集合体进行识别，并将识别出为钓鱼网站的可疑网页增加到黑名单网页库中，不断丰富黑名单网页库，最终全覆盖可疑检测，提高了钓鱼网站识别效率。

图3为本发明实施例提供的钓鱼网站的识别装置结构示意图，如图3所示，该装置包括：获取模块31、匹配模块32、筛选模块33和识别模块34，其中：

获取模块31用于获取预设时段内用户的访问网络行为日志，所述访问网络行为日志包括访问网页信息、访问时刻和用户手机号码；匹配模块32用于根据黑名单网页库匹配所述访问访问网页信息，确定所述访问网络行为日志对应的目标号码集合，所述目标号码集合包括访问网页信息为黑名单网页的目标用户手机号码和所述目标用户手机号码访问黑名单网页的第一访问时刻；筛选模块33用于根据所述目标用户手机号码对应的访问网络行为日志，确定与所述第一访问时刻间隔小于预设时长阈值的第二访问时刻集合，以及与所述第二访问时刻集合对应的待识别访问网页子集，根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别网页集合；识别模块34用于将所述待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算，确定所述待识别访问网页是否为钓鱼网站。

具体地，获取模块31获取某一段时间内所有用户的访问网络行为日志，每个用户的访问网络行为日志包括该用户的用户手机号码，该用户访问网页信息，以及用户访问该网页的访问时间。匹配模块32根据黑名单网页库对访问网络行为日志进行筛选，匹配黑名单网页与访问网页信息，确定访问网页信息为黑名单网页的目标用户手机号码，以及该用户手机号码访问黑名单网页的访问时刻，将这些号码和时刻组成目标号码集合，筛选模块33根据访问了黑名单网页的目标号码的访问网络行为日志，确定目标号码访问时刻间隔与访问黑名单网页的访问时刻间隔小于预设时长阈值的访问时刻，确定这些访问时刻对应的访问网页，所有目标用户手机号码的上述访问网页构成了预设时段内的待识别网页集合，这样，就可以对预设时段内的访问网页进行了筛选，挑选出一部分需要进行识别的访问网页。识别模块34将待识别网页集合中每个待识别访问网页与黑名单库中的黑名单网页进行分析，计算该待识别访问网页与黑名单网页库中每个黑名单网页的相似度，当相似度达到预设相似度阈值时，确定该待识别访问网页为钓鱼网站。本发明实施例提供的装置，用于实现上述方法，其功能具体参照上述方法实施例，此处不再赘述。

本发明实施例提供的钓鱼网站的识别装置，根据预设时段内的用户访问网络行为日志，确定访问黑名单网页的目标号码集合，根据访问黑名单网页的访问时刻确定访问可疑网页的访问时刻，利用了用户访问网页行为时存在时间前后顺序的链式网络行为，通过点面发散的思维，从发现一个目标号码范围到发现一群可疑网页范围的模式，进行可疑网页集群定位，在大数据环境中快速圈定目标可疑危险网站范围，减少系统资源检索，对可疑网页集合体进行识别，提高了钓鱼网站识别效率。

在上述实施例的基础上，进一步地，所述筛选模块包括：

时刻间隔确定单元，用于根据所述黑名单网页库中存在链接关系的黑名单网页对，确定所述目标号码集合中，访问所述黑名单网页对的访问时刻间隔集合；

目标时长确定单元，用于确定所述访问时刻间隔集合中每个访问时刻间隔在所述访问时刻间隔集合中出现的概率，根据所述概率，确定预设时长阈值；

第一筛选单元，用于根据所述目标号码对应的网络行为日志，确定与所述第一访问时刻间隔小于所述预设时间阈值的第二访问时刻集合，以及与所述第二访问时刻集合对应的待识别访问网页子集。

第二筛选单元，用于根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别访问网页集合。

具体地，时刻间隔确定单元首先确定黑名单网页库中存在链接关系的黑名单网页对，例如，可以预先爬取黑名单网页中的链接内容，确定存在链接关系的黑名单网页对，然后确定访问了黑名单网页的目标号码集合中访问黑名单网页对的访问时刻间隔。目标时长确定单元确定每个访问时刻间隔在访问时刻间隔集合中出现的概率，计算出最高频间隔P_max＝Max{P₁，P₂，P₃，…，P_n}，P_n表示在时刻间隔集合中出现时刻间隔n的出现概率，若存在概率一样，不同时刻间隔选取最大时刻间隔，将选取的时刻间隔作为预设时刻间隔。第一筛选单元根据目标用户手机号码对应的网络行为日志，确定与第一访问时刻间隔小于预设时长阈值的第二访问时刻集合，以及与第二访问时刻集合对应的待识别访问网页子集，第二筛选单元，根据每个目标用户手机号码对应的待识别访问网页子集确定目标号码集合对应的待识别网页集合。在实际应用中，还可以将时刻间隔确定单元和目标时长确定单元整合为一个时间关系确定单元，时间关系确定单元根据黑名单网页库中存在链接关系的黑名单网页对，确定目标号码集合中，访问黑名单网页对的访问时刻间隔集合，确定访问时刻间隔集合中每个访问时刻间隔在访问时刻间隔集合中出现的概率，根据概率，确定预设时长阈值。这样经过时间关系确定单元可以确定预设时长阈值，进而根据预设时长阈值确定目标用户手机号码对应的待识别访问网页集合。本发明实施例提供的装置，用于实现上述方法，其功能具体参照上述方法实施例，此处不再赘述。

本发明实施例提供的钓鱼网站的识别装置，获取预设时段内的用户访问网络行为日志，确定访问黑名单网页的目标号码集合，根据用户访问有链接关系的黑名单网页对的时刻间隔确定访问可疑网页的访问时刻，利用了用户访问网页时存在时间前后顺序的链式网络行为，通过点面发散的思维，从发现一个目标号码范围到发现一群可疑网页范围的模式，进行可疑网页集群定位，在大数据环境中快速圈定目标可疑危险网站范围，减少系统资源检索，对可疑网页集合体进行识别，提高了钓鱼网站识别效率。

在上述各实施例的基础上，进一步地，所述识别模块包括：

访问单元，用于访问所述待识别网页集合中的每个待识别访问网页；

映射单元，用于爬取所述待识别访问网页中的关键词，根据所述关键词确定所述待识别访问网页的特征向量；

相似度计算单元，计算所述待识别访问网页的特征向量与所述黑名单网页库中每个黑名单网页的特征向量的相似度；

识别单元，用于根据所述相似度，确定所述待识别访问网页是否为钓鱼网站。

具体地，映射单元预先对黑名单网页库中的每个黑名单网页做预处理，爬取黑名单网页中的高频内容，提取出高频关键词，可以设置N个关键词个数，N值根据实际情况确定，为了减少数据计算量，N最大数值为100个，然后将N个高频关键词组成该黑名单网页的特征向量。这样，黑名单网页库中每个黑名单网页对应一个N维特征向量。当确定待识别网页集合之后，访问单元访问待识别网页集合中的每个待识别访问网页，映射单元爬取网页中的高频内容，提取出N个高频关键词，然后将N个高频关键词组成该待识别访问网页的特征向量。这样，待识别网页集合中每个待识别访问网页对应一个N维特征向量。相似度计算单元根据相似度算法原理，将待识别访问网页的特征向量与黑名单网页库的各个特征向量进行相似度计算，识别单元根据相似度确定待识别访问网页是否为钓鱼网站，若相似度距离小于预设相似度阈值，则确认待识别访问网页为钓鱼网站。本发明实施例提供的装置，用于实现上述方法，其功能具体参照上述方法实施例，此处不再赘述。

本发明实施例提供的钓鱼网站的识别装置，获取预设时段内的用户访问网络行为日志，确定访问黑名单网页的目标号码集合，根据用户访问有链接关系的黑名单网页对的时刻间隔确定访问可疑网页的访问时刻，利用了用户访问网页时存在时间前后顺序的链式网络行为，进行可疑网页集群定位，在大数据环境中快速圈定目标可疑危险网站范围，减少系统资源检索，利用相似度算法对对可疑网页集合体进行识别，提高了钓鱼网站识别效率。

图4为本发明实施例提供的电子设备的结构示意图，如图4所示，所述设备包括：处理器(processor)401、存储器(memory)402和总线403；

其中，处理器401和存储器402通过所述总线403完成相互间的通信；

处理器401用于调用存储器402中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取预设时段内用户的访问网络行为日志，所述访问网络行为日志包括访问网页信息、访问时刻和用户手机号码；根据黑名单网页库匹配所述访问网页信息，确定所述访问网络行为日志对应的目标号码集合，所述目标号码集合包括访问网页信息为黑名单网页的目标用户手机号码和所述目标用户手机号码访问黑名单网页的第一访问时刻；根据所述目标用户手机号码对应的访问网络行为日志，确定与所述第一访问时刻间隔小于预设时长阈值的第二访问时刻集合，以及与所述第二访问时刻集合对应的待识别访问网页子集，根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别网页集合；将所述待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算，确定所述待识别访问网页是否为钓鱼网站。

本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取预设时段内用户的访问网络行为日志，所述访问网络行为日志包括访问网页信息、访问时刻和用户手机号码；根据黑名单网页库匹配所述访问网页信息，确定所述访问网络行为日志对应的目标号码集合，所述目标号码集合包括访问网页信息为黑名单网页的目标用户手机号码和所述目标用户手机号码访问黑名单网页的第一访问时刻；根据所述目标用户手机号码对应的访问网络行为日志，确定与所述第一访问时刻间隔小于预设时长阈值的第二访问时刻集合，以及与所述第二访问时刻集合对应的待识别访问网页子集，根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别网页集合；将所述待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算，确定所述待识别访问网页是否为钓鱼网站。

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取预设时段内用户的访问网络行为日志，所述访问网络行为日志包括访问网页信息、访问时刻和用户手机号码；根据黑名单网页库匹配所述访问网页信息，确定所述访问网络行为日志对应的目标号码集合，所述目标号码集合包括访问网页信息为黑名单网页的目标用户手机号码和所述目标用户手机号码访问黑名单网页的第一访问时刻；根据所述目标用户手机号码对应的访问网络行为日志，确定与所述第一访问时刻间隔小于预设时长阈值的第二访问时刻集合，以及与所述第二访问时刻集合对应的待识别访问网页子集，根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别网页集合；将所述待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算，确定所述待识别访问网页是否为钓鱼网站。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

1.一种钓鱼网站的识别方法，其特征在于，包括：

将所述待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算，确定所述待识别访问网页是否为钓鱼网站；

其中，所述根据所述目标用户手机号码对应的访问网络行为日志，确定与所述第一访问时刻间隔小于预设时长阈值的第二访问时刻集合，以及与所述第二访问时刻集合对应的待识别访问网页子集，根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别网页集合，包括：

根据所述目标用户手机号码对应的访问网络行为日志，确定与所述第一访问时刻间隔小于所述预设时长阈值的第二访问时刻集合，以及与所述第二访问时刻集合对应的待识别访问网页子集；

根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别网页集合。

2.根据权利要求1所述的方法，其特征在于，所述根据黑名单网页库匹配所述访问网页信息，确定所述访问网络行为日志对应的目标号码集合，所述目标号码集合包括访问网页信息为黑名单网页的目标用户手机号码和所述目标用户手机号码访问黑名单网页的第一访问时刻，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算，确定所述待识别访问网页是否为钓鱼网站，包括：

访问所述待识别网页集合中的每个待识别访问网页；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.一种钓鱼网站的识别装置，其特征在于，包括：

识别模块，用于将所述待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算，确定所述待识别访问网页是否为钓鱼网站；

其中，所述筛选模块包括：

第一筛选单元，用于根据所述目标用户手机号码对应的网络行为日志，确定与所述第一访问时刻间隔小于所述预设时长阈值的第二访问时刻集合，以及与所述第二访问时刻集合对应的待识别访问网页子集；

第二筛选单元，用于根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别网页集合。

6.根据权利要求5所述的装置，其特征在于，所述识别模块包括：

7.一种电子设备，其特征在于，包括：

存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一所述的方法。