CN110647895B

CN110647895B - 一种基于登录框图像的钓鱼页面识别方法及相关设备

Info

Publication number: CN110647895B
Application number: CN201810671860.6A
Authority: CN
Inventors: 马长春
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2023-02-03
Anticipated expiration: 2038-06-26
Also published as: CN110647895A

Abstract

本发明实施例提供了一种基于登录框图像的钓鱼页面识别方法及相关设备，用于从多维度识别网络钓鱼页面。本发明实施例方法包括：分别提取预置安全登录框图像集合中的各个登陆框图像的SURF特征向量，并将每个登陆框图像的各个SURF特征向量关联存储，形成各自的标准SURF特征向量集合；采集待检测登录页面的页面截图，并提取对应的SURF特征向量，形成第一SURF特征向量集合；根据第一SURF特征向量集合与标准SURF特征向量集合，从至少两个维度判断待检测登录页面与各个安全登陆框图像的相似度，并根据各个维度的判断结果为待检测登录页面分配对应的权值；统计待检测登录页面获得的权值之和，若权值之和不小于第三预置阈值，则判定待检测登录页面为钓鱼页面。

Description

一种基于登录框图像的钓鱼页面识别方法及相关设备

技术领域

本发明涉及网络安全技术领域，具体涉及一种基于登录框图像的钓鱼页面识别方法及相关设备。

背景技术

网络钓鱼是通过大量发送声称来自于银行或其他知名机构的欺骗性垃圾信息，意图引诱收信人给出敏感信息（如用户名、口令、帐号 ID 、 ATM PIN 码或信用卡详细信息）的一种攻击方式。黑客往往会伪造钓鱼页面，用户访问伪造的钓鱼页面并输入相应的敏感信息，保存这些敏感信息，达到窃取敏感信息的目的。

现有的网页伪造检测方案往往是基于黑名单技术，主要是基于安全厂商建立的黑名单进行筛选，安全厂商的黑名单的更新往往是在钓鱼网站危害已经形成之后，并不能在钓鱼网站出现之初进行识别。

有鉴于此，有必要提出一种新的钓鱼页面识别方法，降低网络钓鱼的风险。

发明内容

本发明实施例提供了一种基于登录框图像的钓鱼页面识别方法及相关设备，用于识别网络钓鱼页面。

本发明实施例第一方面提供了一种基于登录框图像的钓鱼页面识别方法，其特征在于，包括：

分别提取预置安全登录框图像集合中的各个登陆框图像的SURF特征向量，并将每个登陆框图像的各个SURF特征向量关联存储，形成各自的标准SURF特征向量集合；

采集待检测登录页面的页面截图，并提取对应的SURF特征向量，形成第一SURF特征向量集合；

根据所述第一SURF特征向量集合与所述标准SURF特征向量集合，从至少两个维度判断所述待检测登录页面与各个安全登陆框图像的相似度，并根据各个维度的判断结果为所述待检测登录页面分配对应的权值；

统计所述待检测登录页面获得的权值之和，若权值之和不小于第三预置阈值，则判定所述待检测登录页面为钓鱼页面。

可选的，作为一种可能的实施方式，本发明实施例中，从至少两个维度判断所述待检测登录页面与各个安全登陆框图像的相似度，并根据各个维度的判断结果为所述待检测登录页面分配对应的权值，包括：

若所述安全登录框图像集合对应的各个所述标准SURF特征向量集合中存在第二SURF特征向量集合，所述第二SURF特征向量集合与所述第一SURF特征向量集合中匹配成功的SURF特征向量的个数不小于第一预置阈值，则为所述待检测登录页面分配第一权值，其中，两个SURF特征向量相似度大于第二预置阈值则判定对应的SURF特征向量匹配成功；

判断所述第二SURF特征向量集合与所述第一SURF特征向量集合中匹配成功的SURF特征向量是否满足缩放映射，并根据判断结果为所述待检测登录页面分配第二权值。

可选的，作为一种可能的实施方式，本发明实施例中，在统计所述待检测登录页面获得的权值之和之前，该方法还包括：

判断所述第二SURF特征向量集合与所述待检测登录页面对应的域名是否相同，并根据判断结果为所述待检测登录页面分配第三权值。

可选的，作为一种可能的实施方式，本发明实施例中该方法还包括：

采集待检测页面的页面信息，所述页面信息至少包括所述待检测页面对应的超文本标记语言HTML文件；

从所述HTML文件中提取文件正文及统一资源定位符URL地址；

统计所述HTML文件的文件正文中包含预置关键词汇的数量；

判断所述HTML文件中的URL地址的个数，与文件正文的字节数的比值是否大于第四预置阈值，并根据判断结果为所述待检测页面分配第四权值；

判断所述HTML文件中的文件正文中包含预置关键词汇的数量是否大于第五预置阈值，并根据判断结果为所述待检测页面分配第五权值；

统计各项检测过程中所述待检测页面获得的权值之和，若权值之和不小于第六预置阈值，则判定所述待检测页面为待检测登录页面。

所述待检测页面的页面信息登录页面截图，在统计所述待检测页面获得的权值之和之前，还包括：

将所述登录页面截图输入预置的卷积神经网络CNN分类器模型中进行分类，并根据分类结果为所述待检测页面分配第六权值。

本发明实施例第二方面提供了一种服务器，其特征在于，包括：

第一提取模块，用于分别提取预置安全登录框图像集合中的各个登陆框图像的SURF特征向量，并将每个登陆框图像的各个SURF特征向量关联存储，形成各自的标准SURF特征向量集合；

第一采集模块，用于采集待检测登录页面的页面截图，并提取对应的SURF特征向量，形成第一SURF特征向量集合；

第一分配模块，用于根据所述第一SURF特征向量集合与所述标准SURF特征向量集合，从至少两个维度判断所述待检测登录页面与各个安全登陆框图像的相似度，并根据各个维度的判断结果为所述待检测登录页面分配对应的权值；

第一统计模块，用于统计所述待检测登录页面获得的权值之和，若权值之和不小于第三预置阈值，则判定所述待检测登录页面为钓鱼页面。

可选的，作为一种可能的实施方式，本发明实施例中的第一分配模块包括：

第一分配单元，若所述安全登录框图像集合对应的各个所述标准SURF特征向量集合中存在第二SURF特征向量集合，所述第二SURF特征向量集合与所述第一SURF特征向量集合中匹配成功的SURF特征向量的个数不小于第一预置阈值，则用于为所述待检测登录页面分配第一权值，其中，两个SURF特征向量相似度大于第二预置阈值则判定对应的SURF特征向量匹配成功；

第二分配单元，用于判断所述第二SURF特征向量集合与所述第一SURF特征向量集合中匹配成功的SURF特征向量是否满足缩放映射，并根据判断结果为所述待检测登录页面分配第二权值。

可选的，作为一种可能的实施方式，本发明实施例中的服务器还包括：

第二分配模块，用于判断所述第二SURF特征向量集合与所述待检测登录页面对应的域名是否相同，并根据判断结果为所述待检测登录页面分配第三权值。

第二采集模块，用于采集待检测页面的页面信息，所述页面信息至少包括所述待检测页面对应的超文本标记语言HTML文件；

第二提取模块，用于从所述HTML文件中提取文件正文及统一资源定位符URL地址；

第二统计模块，用于统计所述HTML文件的文件正文中包含预置关键词汇的数量；

第四分配模块，用于判断所述HTML文件中的URL地址的个数，与文件正文的字节数的比值是否大于第四预置阈值，并根据判断结果为所述待检测页面分配第四权值；

第五分配模块，用于判断所述HTML文件中的文件正文中包含预置关键词汇的数量是否大于第五预置阈值，并根据判断结果为所述待检测页面分配第五权值；

第三统计模块，用于统计各项检测过程中所述待检测页面获得的权值之和，若权值之和不小于第六预置阈值，则判定所述待检测页面为待检测登录页面。

可选的，作为一种可能的实施方式，所述待检测页面的页面信息登录页面截图，本发明实施例中的服务器还包括：

第六分配模块，用于将所述登录页面截图输入预置的卷积神经网络CNN分类器模型中进行分类，并根据分类结果为所述待检测页面分配第六权值。

本发明实施例第三方面提供了一种计算机装置，其特征在于，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如第一方面及第一方面任意一种可能的实施方式中的步骤。

本发明实施例第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如第一方面及第一方面任意一种可能的实施方式中的步骤。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中，服务器可以提取预先保存的预置安全登录框图像集合中的每个登陆框图像的各个SURF特征向量关联存储，形成各自的标准SURF特征向量集合，以这些标准SURF特征向量集合作为对照，可以将待检测登录页面的页面截图对应的SURF特征向量集合与各个标准SURF特征向量集合进行匹配，基于匹配的结果可以为待检测页面分配第一权值，进一步的，对于匹配成功的SURF特征向量集合可以判断其对应的安全登陆页面的域名是否与待检测页面的域名相同，基于判断的结果可以为待检测页面分配第三权值，最终结合待检测登录页面获得的权值之和综合判定待检测登录页面是否为钓鱼页面，即从多维度对待检测登录页面进行实时的防伪识别，降低了网络钓鱼的风险。

附图说明

图1为本发明实施例中一种基于登录框图像的钓鱼页面识别方法的一个实施例示意图；

图2为本发明实施例中一种基于登录框图像的钓鱼页面识别方法的另一个实施例示意图；

图3为本发明实施例中待检测页面识别方法的一个实施例示意图；

图4为本发明实施例中一种服务器的一个实施例示意图；

图5为本发明实施例中一种服务器的另一个实施例示意图；

图6为本发明实施例中一种服务器的另一个实施例示意图；

图7为本发明实施例中一种计算机装置的一个实施例示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于理解，下面对本发明实施例中的具体流程进行描述，请参阅图1，本发明实施例中一种基于登录框图像的钓鱼页面识别方法的一个实施例可包括：

101、分别提取预置安全登录框图像集合中的各个登陆框图像的SURF特征向量，并将每个登陆框图像的各个SURF特征向量关联存储，形成各自的标准SURF特征向量集合。

本发明实施例中，为了对待检测的登录页面进行识别，首先需要预先采集一些容易被钓鱼的目标应用程序对应的安全登陆框图像作为参照，常见的钓鱼目标应用程序种类可以包括银行类（例如招商银行）、IM类（例如QQ）、文档共享类（例如百度云）、邮箱类（新浪邮箱）、购物类（淘宝）等。服务器可以采集常见的钓鱼目标应用程序界面对应的安全登录框图像，形成预置安全登录框图像集合。

具体获取登陆框图像的方法可以采用爬虫引擎根据登录页面的URL地址在登录页面截取，也可以在对应的HTML文件中获取登陆框图像的存储位置获取登陆框图像，具体此处不做限定，当采用HTML文件获取登陆框图像时，可选的，具体获取登陆框的步骤可以为：1、通过HTML分析登录页面中登录信息提交的登录方法；2、获取登录方法为识别页面所使用的语言，对不同的预研设立信息交互的正则匹配，通过正则匹配找到相关的HTML组件；3、根据HTML组件获取登录方法所在组件的渲染区域，通过这个渲染区域位置和HTML组件大小可以在渲染区域中确定登陆框图像位置。

在采集到安全登录框图像之后，可以对通过SURF算法提取各个登陆框图像的SURF特征向量，每个登陆框图像可以提取到多个158维度的SURF特征向量，可以将每个登陆框图像的各个SURF特征向量关联存储，形成各自的标准SURF特征向量集合。其中，SURF是Speeded Up Robust Features（加速稳健特征）的缩写，SURF算法是一种稳健的局部特征点检测和描述算法。最初由Herbert Bay发表在2006年的欧洲计算机视觉国际会议（EuropenConference on Computer Vision，ECCV）上，并在2008年正式发表在Computer Vision andImage Understanding期刊上。SURF算法是对David Lowe在1999年提出的Sift算法的改进，提升了算法的执行效率，为算法在实时计算机视觉系统中应用提供了可能，具体的SURF算法为现有技术，此处不做赘述。

102、采集待检测登录页面的页面截图，并提取对应的SURF特征向量，形成第一SURF特征向量集合。

对于待检测页面，当确定待检测页面为登录页面之后，服务器可以采集待检测登录页面的页面截图，并采用SURF算法提取该页面截图对应的SURF特征向量，形成第一SURF特征向量集合。

103、从至少两个维度判断待检测登录页面与各个安全登陆框图像的相似度，并根据各个维度的判断结果为待检测登录页面分配对应的权值。

实际运用中，各个登陆页面往往会包含有对应的登陆框图像，本发明实施例中可以通过检测待检测页面是否包含预置的安全登陆框图像对待检测页面的真伪进行识别。具体的，在获取到第一SURF特征向量集合与标准SURF特征向量集合之后，服务器可以从至少两个维度判断待检测登录页面与各个安全登陆框图像的相似度，并根据各个维度的判断结果为待检测登录页面分配对应的权值，具体的检测维度的数量此处不做限定，示例性的检测维度将在后续的实施例中详细描述。

104、统计待检测登录页面获得的权值之和，若权值之和不小于第三预置阈值，则判定待检测登录页面为钓鱼页面。

服务器可以统计待检测登录页面获得的权值之和，若权值之和不小于第三预置阈值，则判定待检测登录页面为钓鱼页面。

本发明实施例中，服务器可以提取预先保存的预置安全登录框图像集合中的每个登陆框图像的各个SURF特征向量关联存储，形成各自的标准SURF特征向量集合，以这些标准SURF特征向量集合以及安全登录框图像的域名作为对照，基于不同的维度对待检测登录页面进行检测，并根据不同维度的检测结果为待检测登陆页面分配不同的权值，最终结合待检测登录页面获得的权值之和综合判定待检测登录页面是否为钓鱼页面，即从多维度对待检测登录页面进行实时的防伪识别，降低了网络钓鱼的风险。

在上述图1所示的实施例的基础上，为了进一步提高检测的准确性，可以从更多的维度检测待检测页面是否为钓鱼页面，请参阅图2，本发明实施例中一种基于登录框图像的钓鱼页面识别方法的另一个实施例可包括：

201、分别提取预置安全登录框图像集合中的各个登陆框图像的SURF特征向量，并将每个登陆框图像的各个SURF特征向量关联存储，形成各自的标准SURF特征向量集合。

202、采集待检测登录页面的页面截图，并提取对应的SURF特征向量，形成第一SURF特征向量集合。

203、将第一SURF特征向量集合与各个标准SURF特征向量集合进行匹配。

实际应用中，第一SURF特征向量与各个标准SURF特征向量集合中均包括多个SURF特征向量，为了对待检测登录页面进行安全检测，需要将第一SURF特征向量集合与各个标准SURF特征向量集合进行匹配。若安全登录框图像集合对应的各个标准SURF特征向量集合中存在第二SURF特征向量集合，该第二SURF特征向量集合与第一SURF特征向量集合中匹配成功的SURF特征向量的个数不小于第一预置阈值，则为待检测登录页面分配第一权值，其中，两个SURF特征向量匹配成功是指两个SURF特征向量相似度大于第二预置阈值。可选的，若安全登录框图像集合对应的各个标准SURF特征向量集合中不存在上述的第二SURF特征向量集合，则可以不分配第一权值或为待检测登录页面分配权值为零。

可选的，判断两个SURF特征向量相似度大于第二预置阈值可以采用欧氏距离算法计算两个SURF特征向量的欧氏距离，两者的欧氏距离小于特定阈值，则可以判断两个SURF特征向量相似度大于第二预置阈值，进而判定对应的SURF特征向量匹配成功。可以理解的是，本发明实施例中判断向量相似度的算法可以是欧氏距离算法、也可以是曼哈顿距离算法、切比雪夫距离算法、闵可夫斯基距离算法、马氏距离算法、汉明距离算法等，具体此处不做限定。进一步的，为了减少计算量，本发明实施例中可以根据第二预置阈值及各个标准SURF特征向量集合计算满足匹配条件的SURF特征向量各个维度的参数的取值范围，根据该取值范围初步判断两个SURF特征向量的相似度，对满足取值范围的SURF特征向量进行进一步的相似度计算，减少计算量。

204、判断第二SURF特征向量集合与第一SURF特征向量集合中匹配成功的SURF特征向量是否满足缩放映射，并根据判断结果为待检测登录页面分配第二权值。

若安全登录框图像集合对应的各个标准SURF特征向量集合中存在上述步骤203中第二SURF特征向量集合，则服务器可以进一步判断第二SURF特征向量集合与第一SURF特征向量集合中匹配成功的SURF特征向量是否满足缩放映射，并根据判断结果为待检测登录页面分配第二权值，可选的，若第二SURF特征向量集合与第一SURF特征向量集合中匹配成功的SURF特征向量不满足缩放映射，则可以不分配第二权值或为待检测登录页面分配第二权值为零。

具体的，可以根据坐标系中SURF特征向量的位置信息，计算两个图片的公共原点，再从原点出发，可以求得第二SURF特征向量集合与第一SURF特征向量集合中匹配成功的SURF特征向量点与原点之间的距离，进而判断两个集合中匹配成功的每一对SURF特征向量点与原点之间的距离的比例值，若这些比例值一致或比例值的差值小于预设范围，则可以判定对应的匹配成功的SURF特征向量满足缩放映射。

205、判断第二SURF特征向量集合与待检测登录页面对应的域名是否相同，并根据判断结果为待检测登录页面分配第三权值。

服务器可以通过爬虫引擎采集常见的钓鱼目标应用程序以及待检测登录页面对应的域名，判断第二SURF特征向量集合与待检测登录页面对应的域名是否相同，并根据判断结果为待检测登录页面分配第三权值，可选的，若第二SURF特征向量集合与待检测登录页面对应的域名相同，则可以不分配第三权值或为待检测登录页面分配权值为零。可以理解的是，具体的权值分配可以根据用户的需求进行合理的设置，具体此处不做限定。

206、统计待检测登录页面获得的权值之和，若权值之和不小于第三预置阈值，则判定待检测登录页面为钓鱼页面。

服务器可以统计待检测登录页面获得的权值之和，本实施例中可以统计第一权值、第三权值、第二权值及第四权值的和，若权值之和不小于第三预置阈值，则判定待检测页面为登录页面，具体的第三预置阈值可以根据实际权值的配置进行合理的设置，具体此处不做限定。

例如，对于待检测登录页面存在步骤203中所示的第二SURF特征向量集合与该待检测登录页面的页面截图的第一SURF特征向量集合相匹配，则为待检测登录页面分配第一权值为0，若第二SURF特征向量集合与待检测登录页面对应的域名不相同，则可以为待检测登录页面分配第三权值为2，若第二SURF特征向量集合与第一SURF特征向量集合中匹配成功的SURF特征向量不满足缩放映射，则为待检测登录页面分配第三权值为1，设定第三预置阈值为3，则可以判定待检测登录页面为钓鱼页面。

本发明实施例中，服务器可以提取预先保存的预置安全登录框图像集合中的每个登陆框图像的各个SURF特征向量关联存储，形成各自的标准SURF特征向量集合，以这些标准SURF特征向量集合作为对照，可以将待检测登录页面的页面截图对应的SURF特征向量集合与各个标准SURF特征向量集合进行匹配，基于匹配的结果可以为待检测页面分配第一权值，并判断匹配成功的SURF特征向量是否满足缩放映射，并根据判断结果为待检测登录页面分配第二权值，进一步的，对于匹配成功的SURF特征向量集合可以判断其对应的安全登陆页面的域名是否与待检测页面的域名相同，基于判断的结果可以为待检测页面分配第三权值，最终结合待检测登录页面获得的权值之和综合判定待检测登录页面是否为钓鱼页面，即从多维度对待检测登录页面进行实时的防伪识别，降低了网络钓鱼的风险。

实际运用中，待检测的页面可能包含登录页面和非登录页面，在实施上述图1及图2所示的实施例中的检测对象优选为登录页面，也可以是非登录页面，为了提高检测的准确率，可以对待检测页面进行初步的筛选，筛选出待检测的登录页面。请参阅图3，在上述图1及图2所示的实施例的基础上，本发明实施例中识别待检测登录页面的一个实施例可包括：

301、采集待检测页面的页面信息，该页面信息至少包括待检测页面对应的超文本标记语言HTML文件；

考虑到登录页面的正文内容相对较少，而且登录页面往往会有与登录相关的预置关键词汇，例如“登录”、“注册”“忘记密码”“自动登录”“记住密码”等词汇，还可以是其他国家的语言中上述预置关键词汇的译文，登录页面往往会有连接到主页面、注册页面、密码找回页面、合作方账户登录页面等页面的内链，本发明实施例中，基于上述登录页面的特性进行登录页面的识别。

服务器可以采集待检测页面的页面信息，该页面信息可以包括待检测页面的HTML文件，进而可以从对应的HTML文件中可以提取到页面正文及HTML文件中包含的URL地址（内链）。可选的，服务器可以构建爬虫引擎爬取待检测页面的页面信息。

302、从HTML文件中提取页面正文及统一资源定位符URL地址。

服务器获取到HTML文件之后，可以从该HTML文件中提取待检测页面的正文及URL地址。具体的，可以根据HTML语法规则提取文件中的URL地址。

可选的，服务器可以将HTML文件中的编码转换为预置的格式进行存储，可以去除编码中的脚本及特殊字符、去除HTML格式的格式标签得到的页面正文之后可以得到待检测页面的页面正文。可选的，还可以根据HTML文件中的编码的行距与字距分布，去除行距较大，字距较大的部分编码，以进一步的对获取到的页面正文进行优化。可以理解的是，具体从HTML文件中提取待检测页面的正文的方法可以根据实际的HTML文件编码方式进行合理的调整，具体此处不做限定。

303、统计HTML文件的页面正文中包含预置关键词汇的数量。

在提取到HTML文件的页面正文之后，服务器可以统计HTML文件的页面正文中包含预置关键词汇的数量，预置关键词汇可以是“登录”、“注册”“忘记密码”“自动登录”“记住密码”等词汇，以及其他国家的语言中上述预置关键词汇的译文。可以理解的是，可以根据预置关键词汇可以根据语言种类的不同及登录页面的不同进行合理的设置，具体此处不做限定。

304、判断HTML文件中的URL地址的个数，与页面正文的字节数的比值是否大于第四预置阈值，并根据判断结果为待检测页面分配第四权值；

常见的登录页面的页面正文相对较少，而登录页面连接到主页面、注册页面、密码找回页面、合作方账户登录页面等多个页面的内链，往往待检测页面中的页面正文一定的情况下，内链越多越可能为登录页面。本发明实施例中采用多维度的检测方式，为每一维度的检测结果分配权值，服务器可以判断HTML文件中的URL地址的个数，与页面正文的字节数的比值是否大于第四预置阈值并根据判断结果为待检测页面分配第四权值，例如，HTML文件中的URL地址的个数，与页面正文的字节数的比值大于第一预置阈值时，为待检测页面分配不为零的第四权值，当比值小于第四预置阈值时为待检测页面分配的第四权值为零。

305、判断HTML文件中的页面正文中包含预置关键词汇的数量是否大于第五预置阈值，并根据判断结果为待检测页面分配第五权值；

服务器可以判断HTML文件中的页面正文中包含预置关键词汇的数量是否大于第五预置阈值，并根据判断结果为待检测页面分配第五权值，可选的，页面正文中包含预置关键词汇的数量不小于第五预置阈值，可以为待检测页面分配固定的第五权值，也可以设定页面正文中包含预置关键词汇的数量越大分配的第五权值越大，具体此处不做限定。

306、将登录页面截图输入预置的CNN分类器模型中进行分类，并根据分类结果为待检测页面分配第六权值。

可选的，为了进一步提高检测的准确性，可以引入卷积神经网络CNN分类器检测待检测页面是否为登录页面。具体的，服务器可以采集预置数量的登录页面图像作为正样本、预置数量的非登录页面作为负样本；将正样本及负样本输入原始CNN分类器模型进行训练，得到预置的CNN分类器模型。

具体的，服务器可以将获取到的正样本及负样本按照预置的算法，例如哈希算法，surf算法，sift算法等，进行特征化，生成对应的特征向量，样本向量化之后，特征向量记为X，人工分类的标签记为Y；

将向量X和标签Y输入到分类器模型中进行训练，例如将向量X和标签Y输入到CNN分类器模型中，CNN模型会根据预置的算法计算将向量X映射到标签Y的过程中所需的参数，最终得到预置CNN模型。该模型可以将未知特征向量集合X到标签集合Y的映射lr：x—>y，具体的CNN分类器模型的算法原理为现有技术，此处不做赘述。

在训练得到预置的CNN分类器模型之后，服务器可以通过渲染引擎获取待检测页面的页面截图，可以将登录页面截图输入预置的CNN分类器模型中进行分类，并根据分类结果为待检测页面分配第六权值，例如，CNN分类器将待检测页面的页面截图分类为非登录界面，则服务器为待检测页面分配的第六权值可以为零。

307、将HTML文件中的URL地址输入长短期记忆网络LSTM分类器模型中进行分类，并根据分类结果为待检测页面分配第七权值。

可选的，为了进一步提高检测的准确性，还可以引入输入长短期记忆网络LSTM分类器模型检测待检测页面是否为登录页面。具体的，服务器可以采集预置数量的登录页面的URL地址作为正样本、预置数量的非登录页面的URL地址作为负样本；将正样本及负样本输入原始LSTM分类器模型进行训练，得到预置的LSTM分类器模型。

服务器可以将先前获取到的待检测页面的HTML文件中的URL地址输入长短期记忆网络LSTM分类器模型中进行分类，并根据分类结果为待检测页面分配第七权值。例如，LSTM分类器将待检测页面的页面截图分类为非登录界面，则服务器为待检测页面分配的第七权值可以为零。

308、统计待检测页面获得的权值之和，若权值之和不小于第六预置阈值，则判定待检测页面为登录页面。

服务器可以统计待检测页面获得的权值之和，本实施例中可以统计第四权值、第五权值、第六权值及第七权值的和，若权值之和不小于第六预置阈值，则判定待检测页面为登录页面，具体的第六预置阈值可以根据实际权值的配置进行合理的设置，具体此处不做限定。

本发明实施例中，可以采集待检测页面的页面信息，该页面信息可以包括待检测页面的HTML文件及待检测页面的页面截图，基于待检测页面的页面信息进行四个维度的检测，并根据每个维度的检测结果为待检测页面分配四个权值，最终统计待检测页面获得的权值之和，若权值之和不小于第六预置阈值，则判定待检测页面为登录页面，从多维度检测待检测页面是否为登录页面，提高了检测的准确性。

可以理解的是，在本发明的各种实施例中，上述各步骤的序号的大小并不意味着执行顺序的先后，各步骤的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

上述实施例对本发明实施例中的基于登录框图像的钓鱼页面识别方法进行了描述，下面将对本发明实施例中的服务器进行描述，请参阅图4，本发明实施例中，一种服务器的一个实施例可包括：

第一提取模块401，用于分别提取预置安全登录框图像集合中的各个登陆框图像的SURF特征向量，并将每个登陆框图像的各个SURF特征向量关联存储，形成各自的标准SURF特征向量集合；

第一采集模块402，用于采集待检测登录页面的页面截图，并提取对应的SURF特征向量，形成第一SURF特征向量集合；

第一分配模块403，用于根据所述第一SURF特征向量集合与所述标准SURF特征向量集合，从至少两个维度判断所述待检测登录页面与各个安全登陆框图像的相似度，并根据各个维度的判断结果为所述待检测登录页面分配对应的权值；

第一统计模块404，用于统计待检测登录页面获得的权值之和，若权值之和不小于第三预置阈值，则判定待检测登录页面为钓鱼页面。

可选的，作为一种可能的实施方式，请参阅图5，本发明实施例中的第一分配模块可以包括：

第一分配单元4031，若安全登录框图像集合对应的各个标准SURF特征向量集合中存在第二SURF特征向量集合，第二SURF特征向量集合与第一SURF特征向量集合中匹配成功的SURF特征向量的个数不小于第一预置阈值，则用于为待检测登录页面分配第一权值，其中，两个SURF特征向量相似度大于第二预置阈值则判定对应的SURF特征向量匹配成功；

第二分配单元4032，用于判断第二SURF特征向量集合与第一SURF特征向量集合中匹配成功的SURF特征向量是否满足缩放映射，并根据判断结果为待检测登录页面分配第二权值；

可选的，作为一种可能的实施方式，请参阅图5，本发明实施例中的服务器还可以包括：

第二分配模块405，用于判断第二SURF特征向量集合与待检测登录页面对应的域名是否相同，并根据判断结果为待检测登录页面分配第二权值。

可选的，作为一种可能的实施方式，请参阅图6，本发明实施例中的服务器还可以包括：

第二采集模块406，用于采集待检测页面的页面信息，页面信息至少包括待检测页面对应的超文本标记语言HTML文件；

第二提取模块407，用于从HTML文件中提取文件正文及统一资源定位符URL地址；

第二统计模块408，用于统计HTML文件的文件正文中包含预置关键词汇的数量；

第四分配模块409，用于判断HTML文件中的URL地址的个数，与文件正文的字节数的比值是否大于第四预置阈值，并根据判断结果为待检测页面分配第四权值；

第五分配模块410，用于判断HTML文件中的文件正文中包含预置关键词汇的数量是否大于第五预置阈值，并根据判断结果为待检测页面分配第五权值；

第三统计模块411，用于统计各项检测过程中待检测页面获得的权值之和，若权值之和不小于第六预置阈值，则判定待检测页面为待检测登录页面。

可选的，作为一种可能的实施方式，待检测页面的页面信息登录页面截图，本发明实施例中的服务器还可以包括：

第六分配模块412，用于将登录页面截图输入预置的卷积神经网络CNN分类器模型中进行分类，并根据分类结果为待检测页面分配第六权值。

上面从模块化功能实体的角度对本发明实施例中的服务器进行了描述，下面从硬件处理的角度对本发明实施例中的计算机装置进行描述：

本发明实施例还提供了一种计算机装置7，如图7所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机装置7一般指服务器等处理能力较强的计算机设备。

参考图7，计算机装置7包括：电源710、存储器720、处理器730、有线或无线网络接口740以及存储在存储器中并可在处理器上运行的计算机程序。处理器执行计算机程序时实现上述基于登录框图像的钓鱼页面识别方法实施例中的步骤，例如图1所示的步骤101至107。或者，处理器执行计算机程序时实现上述各装置实施例中各模块或单元的功能。

本发明的一些实施例中，处理器具体用于实现如下步骤：

统计待检测登录页面获得的权值之和，若权值之和不小于第三预置阈值，则判定待检测登录页面为钓鱼页面。

可选的，本发明的一些实施例中，处理器还可以用于实现如下步骤：

若安全登录框图像集合对应的各个标准SURF特征向量集合中存在第二SURF特征向量集合，第二SURF特征向量集合与第一SURF特征向量集合中匹配成功的SURF特征向量的个数不小于第一预置阈值，则为待检测登录页面分配第一权值，其中，两个SURF特征向量相似度大于第二预置阈值则判定对应的SURF特征向量匹配成功；

判断第二SURF特征向量集合与待检测登录页面对应的域名是否相同，并根据判断结果为待检测登录页面分配第二权值。

判断第二SURF特征向量集合与第一SURF特征向量集合中匹配成功的SURF特征向量是否满足缩放映射，并根据判断结果为待检测登录页面分配第三权值。

采集待检测页面的页面信息，页面信息至少包括待检测页面对应的超文本标记语言HTML文件；

从HTML文件中提取文件正文及统一资源定位符URL地址；

统计HTML文件的文件正文中包含预置关键词汇的数量；

判断HTML文件中的URL地址的个数，与文件正文的字节数的比值是否大于第四预置阈值，并根据判断结果为待检测页面分配第四权值；

判断HTML文件中的文件正文中包含预置关键词汇的数量是否大于第五预置阈值，并根据判断结果为待检测页面分配第五权值；

统计各项检测过程中待检测页面获得的权值之和，若权值之和不小于第六预置阈值，则判定待检测页面为待检测登录页面。

待检测页面的页面信息登录页面截图，在统计待检测页面获得的权值之和之前，还包括：

将登录页面截图输入预置的卷积神经网络CNN分类器模型中进行分类，并根据分类结果为待检测页面分配第六权值。

计算机装置7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器中，并由处理器执行。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。

本领域技术人员可以理解，图7中示出的结构并不构成对计算机装置7的限定，计算机装置7可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，例如计算机装置还可以包括输入输出设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（SmartMedia Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，可以实现如下步骤：

从HTML文件中提取文件正文及统一资源定位符URL地址；

统计HTML文件的文件正文中包含预置关键词汇的数量；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于登录框图像的钓鱼页面识别方法，其特征在于，包括：

统计所述待检测登录页面获得的权值之和，若权值之和不小于第三预置阈值，则判定所述待检测登录页面为钓鱼页面；

其中在所述采集待检测登录页面的页面截图之前，还包括：

采集待检测页面的页面信息，所述页面信息至少包括所述待检测页面对应的超文本标记语言HTML文件；从所述HTML文件中提取文件正文及统一资源定位符URL地址；统计所述HTML文件的文件正文中包含预置关键词汇的数量；判断所述HTML文件中的URL地址的个数，与文件正文的字节数的比值是否大于第四预置阈值，并根据判断结果为所述待检测页面分配第四权值；判断所述HTML文件中的文件正文中包含预置关键词汇的数量是否大于第五预置阈值，并根据判断结果为所述待检测页面分配第五权值；统计各项检测过程中所述待检测页面获得的权值之和，若权值之和不小于第六预置阈值，则判定所述待检测页面为待检测登录页面。

2.根据权利要求1所述的方法，其特征在于，所述从至少两个维度判断所述待检测登录页面与各个安全登陆框图像的相似度，并根据各个维度的判断结果为所述待检测登录页面分配对应的权值，包括：

3.根据权利要求2所述的方法，其特征在于，在统计所述待检测登录页面获得的权值之和之前，还包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

5.一种服务器，其特征在于，包括：

第一统计模块，用于统计所述待检测登录页面获得的权值之和，若权值之和不小于第三预置阈值，则判定所述待检测登录页面为钓鱼页面；

6.根据权利要求5所述的服务器，其特征在于，所述第一分配模块包括：

7.一种计算机装置，其特征在于，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至4中任意一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1至4中任意一项所述方法的步骤。