CN115883111A

CN115883111A - 一种钓鱼网站识别方法、装置、电子设备及存储介质

Info

Publication number: CN115883111A
Application number: CN202110931289.9A
Authority: CN
Inventors: 孙祥训; 程宝平; 谢小燕
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2023-03-31

Abstract

本申请公开了一种钓鱼网站识别方法、装置、电子设备及存储介质。其中，方法包括：提取待识别网站的至少一个第一特征以及至少一个第二特征；所述第一特征表征URL相关的特征；所述第二特征表征网站页面相关的特征；将所述至少一个第一特征以及所述至少一个第二特征输入设定的特征融合网络模型，得到第一概率；所述第一概率表征所述待识别网站为钓鱼网站的概率；在所述第一概率大于设定阈值时，确定所述待识别网站为钓鱼网站。

Description

一种钓鱼网站识别方法、装置、电子设备及存储介质

技术领域

本申请涉及信息安全技术领域，尤其涉及一种钓鱼网站识别方法、装置、电子设备及存储介质。

背景技术

钓鱼网站指欺骗用户的虚假网站。相关技术中，主要通过以下三种方式对钓鱼网站进行识别：1、通过对网页视觉信息的判断识别钓鱼网站；2、通过对网页的标志(Logo)的特征的判断识别钓鱼网站；3、通过对网站对应的统一资源定位符(URL，Uniform ResourceLocator)特征的判断识别钓鱼网站。然而，这些方式都存在较高的误判率，且识别效率低下。

发明内容

有鉴于此，本申请实施例的主要目的在于提供一种钓鱼网站识别方法、装置、电子设备及存储介质，以解决相关技术中对钓鱼网站的识别误判率较高、识别效率较低的问题。

为达到上述目的，本申请实施例的技术方案是这样实现的：

本申请实施例提供了一种钓鱼网站识别方法，所述方法包括：

提取待识别网站的至少一个第一特征以及至少一个第二特征；所述第一特征表征URL相关的特征；所述第二特征表征网站页面相关的特征；

将所述至少一个第一特征以及所述至少一个第二特征输入设定的特征融合网络模型，得到第一概率；所述第一概率表征所述待识别网站为钓鱼网站的概率；

在所述第一概率大于设定阈值时，确定所述待识别网站为钓鱼网站。

上述方案中，所述提取待识别网站的至少一个第一特征以及至少一个第二特征，包括：

将所述待识别网站的URL的设定字段部分分别与设定白名单和设定黑名单中的每个URL的设定字段部分进行匹配，得到匹配结果；

在所述匹配结果表征所述待识别网站的URL的设定字段部分与设定白名单或设定黑名单中的每个URL的设定字段部分都不匹配的情况下，提取所述待识别网站的至少一个第一特征以及至少一个第二特征。

上述方案中，所述将所述待识别网站的URL的设定字段部分分别与设定白名单和设定黑名单中的每个URL的设定字段部分进行匹配，包括：

对所述待识别网站的URL进行预处理，将所述URL转换成设定格式的URL；

将所述待识别网站的设定格式的URL的设定字段部分分别与设定白名单和设定黑名单中的每个URL的设定字段部分进行匹配。

上述方案中，所述方法还包括：

在所述匹配结果表征所述待识别网站的URL的设定字段部分与设定白名单或设定黑名单中的任意一个URL的设定字段部分匹配的情况下，输出所述待识别网站对应的识别结果。

上述方案中，所述至少一个第一特征包括以下至少一项：

所述待识别网站的URL与设定白名单中每个URL之间的字符相似度；

所述待识别网站的URL的特征向量；所述特征向量基于所述待识别网站的URL中每个字符确定出。

上述方案中，所述方法还包括：

基于所述待识别网站的URL的字符长度和所述设定白名单中每个URL的字符长度以及编辑距离，计算得到所述待识别网站的URL与设定白名单中每个URL之间的字符相似度；和/或，

将所述待识别网站的URL中每个字符对应的字符向量输入设定的特征提取模型，得到所述设定的特征提取模型输出的向量，并将所述设定的特征提取模型输出的向量输入设定的池化层进行降维处理，得到所述待识别网站的URL的特征向量。

上述方案中，所述至少一个第二特征包括以下至少一项：

所述待识别网站页面中的Logo的特征；

所述待识别网站页面中的表单特征；

所述待识别网站页面中的设定类型的链接数量与总链接数量的比值；

所述待识别网站页面中的敏感关键词的数量。

上述方案中，所述至少一个第二特征包括所述待识别网站页面中的Logo的特征，在所述将所述至少一个第一特征以及所述至少一个第二特征输入设定的特征融合网络模型时，所述方法包括：

将所述待识别网站页面中的Logo的特征与设定Logo特征库中的每个Logo特征进行匹配，得到第一匹配度；

将所述第一匹配度输入所述设定的特征融合网络模型；其中，

所述设定Logo特征库基于对设定白名单中每个URL对应的网站页面中的Logo进行特征提取得到。

本申请实施例还提供了一种钓鱼网站识别装置，所述装置包括：

提取单元，用于提取待识别网站的至少一个第一特征以及至少一个第二特征；所述第一特征表征URL相关的特征；所述第二特征表征网站页面相关的特征；

输入单元，用于将所述至少一个第一特征以及所述至少一个第二特征输入设定的特征融合网络模型，得到第一概率；所述第一概率表征所述待识别网站为钓鱼网站的概率；

确定单元，用于在所述第一概率大于设定阈值时，确定所述待识别网站为钓鱼网站。

本申请实施例还提供了一种电子设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，其中，

所述处理器用于运行所述计算机程序时，执行上述任一方法的步骤。

本申请实施例还提供了一种存储介质，其上存有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的步骤。

在本申请实施例中，提取待识别网站的至少一个第一特征以及至少一个第二特征，其中，第一特征表征URL相关的特征，第二特征表征网站页面相关的特征。将至少一个第一特征以及至少一个第二特征输入设定的特征融合网络模型，得到第一概率，第一概率表征待识别网站为钓鱼网站的概率，在第一概率大于设定阈值时，确定待识别网站为钓鱼网站。这样，基于网站的URL相关的特征和网站页面相关的特征从多个维度对待识别的网站进行识别，不仅可以识别出与正常网站的URL相似的钓鱼网站，也可以识别出与正常网站的页面相似的钓鱼网站，对钓鱼网站的识别判断更加全面。并且，只需将提取出的待识别网站的相关特征输入训练好的设定的特征融合网络模型，就可以得到待识别网站为钓鱼网站的第一概率，进而基于第一概率确定待识别网站是否为钓鱼网站，实现了对待识别网站的快速识别，提高了识别效率，适合大规模的钓鱼网站识别。

附图说明

图1为本申请实施例提供的钓鱼网站识别方法的实现流程示意图；

图2为本申请应用实施例提供的钓鱼网站识别方法的实现流程示意图；

图3为本申请应用实施例提供的另一钓鱼网站的识别方法的实现流程示意图；

图4为本申请实施例提供的钓鱼网站识别装置的示意图；

图5为本申请实施例电子设备的硬件组成结构示意图。

具体实施方式

钓鱼网站为了达到让用户信以为真的目的，多在URL和网页的视觉特征上迷惑用户。经过对大量钓鱼网站进行总结发现，相关技术中，常见的钓鱼网站主要有以下几个特征：1、与正常网站的URL相似。如，使用www.orange.com-abc.cn模仿www.orange.com；2、与正常网站的网页视觉特征相似，钓鱼网站常在页面上添加正常网站的Logo，迷惑用户；3、钓鱼网站的网页通常为挂失、领奖、登录等页面，包含各种表单Form信息和敏感词；4、钓鱼网站存活时间较短，大都在24小时以内，并且大都粗制滥造，网页中的空链数量和外链数据较多。

针对上述特点，相关技术中，主要通过以下三种方式对钓鱼网站进行识别：1、通过对网站对应的URL特征的判断识别钓鱼网站；2、通过对网页视觉信息的判断识别钓鱼网站；3、通过对网页的Logo的特征的判断识别钓鱼网站。然而，这些方式都存在较高的误判率，且识别效率低下。

基于此，本申请实施例提供了一种钓鱼网站识别方法、装置、电子设备及存储介质，提取待识别网站的至少一个第一特征以及至少一个第二特征，其中，第一特征表征URL相关的特征，第二特征表征网站页面相关的特征。将至少一个第一特征以及至少一个第二特征输入设定的特征融合网络模型，得到第一概率，第一概率表征待识别网站为钓鱼网站的概率，在第一概率大于设定阈值时，确定待识别网站为钓鱼网站。这样，基于网站的URL相关的特征和网站页面相关的特征从多个维度对待识别的网站进行识别，不仅可以识别出与正常网站的URL相似的钓鱼网站，也可以识别出与正常网站的页面相似的钓鱼网站，对钓鱼网站的识别判断更加全面。并且，只需将提取出的待识别网站的相关特征输入训练好的设定的特征融合网络模型，就可以得到待识别网站为钓鱼网站的第一概率，进而基于第一概率确定待识别网站是否为钓鱼网站，实现了对待识别网站的快速识别，提高了识别效率，适合大规模的钓鱼网站识别。

下面结合附图及实施例对本申请再作进一步详细的描述。

图1为本申请实施例提供的钓鱼网站识别方法的实现流程示意图。如图1所示，所述方法包括：

步骤101：提取待识别网站的至少一个第一特征以及至少一个第二特征；所述第一特征表征URL相关的特征；所述第二特征表征网站页面相关的特征。

这里，提取待识别网站的至少一个第一特征和第二特征，其中，第一特征表征URL相关的特征，第二特征表征网站页面相关的特征。

在一实施例中，所述至少一个第一特征包括以下至少一项：

这里，第一特征包括待识别网站的URL与设定白名单中每个URL之间的字符相似度。其中，设定白名单中存储了多条正常网站的URL。设定白名单中存储的URL的数量可以根据实际需要进行设置，如可以设置成1000条，本申请实施例对此不做限定。并且，设定白名单中存储的URL会根据网站的热度定期进行更新。

实际应用中，可以通过爬虫技术从公共网络中爬取包括运营商、银行、电商、支付软件、手机厂商、社交网站、游戏厂商、云盘厂商、证券理财、视频网站、出行网站等多个类别的正常网站的URL，并基于这些爬取得到的URL构建设定的白名单。

第一特征还可以包括待识别网站的URL的特征向量，其中，所述特征向量基于待识别网站的URL中每个字符确定出。需要说明的是，URL的特征向量不是URL包含的某个字段的特征如域名部分字段的特征，而是一个基于包含的每个字符确定出的、具有语义信息的特征向量。示例性地，在待识别网站的URL为www.orange.com-abc.cn的情况下，分别确定出字符w、o、r、a、n、g、e、c、m、b、n对应的字符向量，再基于每个字符对应的字符向量确定该URL对应的向量，将该URL对应的向量输入设定的特征提取模型，得到设定的特征提取模型输出的向量，将设定的特征提取模型输出的向量输入设定的池化层进行降维处理，得到该URL的特征向量。

通过将第一特征设置为待识别网站的URL与设定白名单中每条URL之间的字符相似度，和/或，待识别网站的URL的特征向量，可以充分提取和待识别网站的URL相关的特征，便于准确识别出待识别网站是否为钓鱼网站，提高了识别的精度。

在一实施例中，所述方法还包括：

这里，基于待识别网站的URL的字符长度和设定白名单中每个URL的字符长度以及编辑距离，计算待识别网站的URL与设定白名单中每个URL之间的字符相似度。待识别的网站的URL与设定白名单中任意一个URL之间的字符相似度S的具体计算公式如下：

其中，Lev表示编辑距离。URL1表示设定白名单中的任意一个URL，URL2表示待识别的网站的URL。Len(URL1)表示设定白名单中的任意一个的URL的字符长度，Len(URL2)表示待识别网站的URL的字符长度。

其中，编辑距离表征由一个词转换成另一个词所需要的最少的单字符编辑操作次数，单字符编辑操作包括插入、删除和替换。如词1为kitten，词2为sitting，那么，从词1转换成词2，首先需要将字符k替换成字符s得到sitten，然后将字符e替换成字符i得到sittin，最后再插入字符g得到sitting，这样，从词1转换成词2，需要经过3次单字符的编辑操作，因此，词1与词2之间的编辑距离为3。

S的具体计算过程为，将URL1与URL2的字符长度进行比较，得到两者之间的字符长度的最大值和最小值，将字符长度的最大值减去URL1与URL2之间的编辑距离得到的结果，与字符长度的最小值进行比值得到的结果即为URL1与URL2之间的字符相似度。当URL1与URL2的字符和字符长度完全相同时，S为1；当URL1与URL2两者的字符和字符长度完全不相同时，S为0。示例性地，URL1的字符长度为7，URL2的字符长度为5，两者的字符完全不相同，则将URL1转换成URL2，需要经过5次单字符的替换操作和2次单字符的插入操作，所以此时lev为7，而URL1与URL2中两者字符长度的最大值为7，最小值为5，所以计算出的S为0。

优选地，可以基于待识别网站的URL的设定字符部分的长度和设定白名单中每个URL的设定字符部分的长度以及编辑距离，计算待识别网站的URL与设定白名单中每个URL之间的字符相似度。其中，所述待识别网站的URL的设定字符部分表征URL的域名部分。因为URL的域名部分最能体现不同的URL之间的差别，所以，可以利用URL的域名部分的字符来计算字符相似度。示例性地，待识别网站的URL格式为http://mail.111.com/index.html，其中，http://是协议，mail是服务器名，而111.com则是域名部分，/是根目录，index.html根目录下的默认网页。因此，可以基于待识别网站的URL的域名部分即111.com这部分的字符长度设定白名单中每个URL的域名部分的长度以及编辑距离，计算待识别网站的URL与设定白名单中每个URL之间的字符相似度。

在计算得到待识别网站的URL与设定白名单中每个URL之间的字符相似度之后，从多个字符相似度中选出最大的字符相似度，将该最大的字符相似度输入至设定的特征融合网络模型中。

这里，将待识别网站的URL中每个字符对应的字符向量输入设定的特征提取模型，得到设定的特征提取模型输出的向量，并将该输出的向量输入设定的池化层进行降维处理，得到待识别网站的URL的特征向量。

具体地，首先将待识别网站的URL中的每个字符，利用卷积神经网路模型转换成对应的字符向量，并基于每个字符对应的字符向量，组成所述URL对应的向量。

将由每个字符对应的字符向量组成的所述URL对应的向量输入设定的特征提取模型中，利用设定的特征提取模型对所述URL对应的向量进行特征提取，得到设定的特征提取模型输出的向量。设定的特征提取模型是已经训练好的模型。设定的特征提取模型可以为Char-CNN网络模型。

由于每个字符对应的字符向量的维度较高，因此组成的所述URL对应的向量的维度也较高，进行特征提取后，设定的特征提取模型输出的向量的维度也较高，为了便于后续的处理过程，需要对设定的特征提取模型输出的向量进行降维处理。因此，将设定的特征提取模型输出的向量，输入设定的池化层进行降维处理，获得维度降低后的待识别网站的URL的特征向量。

需要说明的是，本申请实施例中，使用不同尺寸卷积核的卷积神经网络，对待识别网站的URL进行深层特征的提取，相较于LSTM等时间序列相关的神经网络，计算速度更快，能够快速确定大规模的待识别网站的URL的特征向量，更符合5G场景下大规模的钓鱼网站的识别。

通过计算待识别网站的URL与设定白名单中每条URL之间的字符相似度，和/或，计算待识别网站的URL的特征向量，可以充分提取和待识别网站的URL相关的特征，便于准确识别出待识别网站是否为钓鱼网站，提高了识别的精度。

在一实施例中，所述至少一个第二特征包括以下至少一项：

所述待识别网站页面中的Logo的特征；

所述待识别网站页面中的表单特征；

所述待识别网站页面中的敏感关键词的数量。

这里，第二特征可以为待识别网站页面中的Logo的特征，获取待识别网站页面中的Logo后，利用快速特征点提取和描述(ORB，Oriented FAST and Rotated BRIEF)算法提取待识别网站页面中的Logo的特征。

第二特征可以为待识别网站页面中的表单特征。钓鱼网站的页面通常为挂失、登录等页面，需要用户填写各种表单，因此，可以提取待识别网站页面中的表单特征，基于表单特征进一步识别待识别网站是否为钓鱼网站。

第二特征可以为待识别网站页面中的设定类型的链接数量与总链接数量的比值。这里，设定类型的链接包括外链和空链。钓鱼网站的页面中的外链数量和空链数量相对较多，因此，可以提取待识别网站页面中的外链数量与总链接数量的比值和空链数量与总链接数量的比值，基于外链数量与总链接数量的比值和空链数量与总链接数量的比值进一步识别待识别网站是否为钓鱼网站。

第二特征可以为待识别网站页面中的敏感关键词的数量。通过网站页面文本分词得到待识别网站页面中包含的词语，再判断待识别网站页面中包含的词语是否为敏感词。具体地，可以将待识别网站页面中包含的每个词语分别与设定敏感词表中的敏感词进行匹配，如果待识别网站页面中包含的一个词语与设定敏感词表中的任意一个敏感词匹配，则说明待识别网站页面中包含的该词语为敏感词。得到待识别网站页面中包含的每个词语的判断结果之后，统计待识别网站页面中的敏感词的数量。其中，设定敏感词表为预先创建的，其中的敏感词数量可为300，具体数值的设置根据实际情况决定，本申请实施例在此不做限定。敏感词表中包含登录、密码、信用卡、挂失等词语。

通过提取待识别网站页面中的Logo特征、表单特征、设定类型的链接数量与总链接数量的比值、敏感词的数量，可以充分提取和待识别网站的页面相关的特征，便于准确识别出待识别网站是否为钓鱼网站，提高了识别的精度。

步骤102：将所述至少一个第一特征以及所述至少一个第二特征输入设定的特征融合网络模型，得到第一概率；所述第一概率表征所述待识别网站为钓鱼网站的概率。

这里，将提取得到的至少一个第一特征和至少一个第二特征输入设定的特征融合网络模型，设定的特征融合网络模型输出第一概率，第一概率表征待识别的网站为钓鱼网站的概率。设定的特征融合网络模型由两个全连接层一个Softmax层组成。

步骤103：在所述第一概率大于设定阈值时，确定所述待识别网站为钓鱼网站。

如果第一概率大于设定阈值，则确定待识别的网站为钓鱼网站。设定阈值可以为80％、85％或90％，设定阈值的具体取值可以根据实际情况进行设置，本申请实施例在此不做限定。

在一实施例中，所述提取待识别网站的至少一个第一特征以及至少一个第二特征，包括：

这里，设定白名单中存储了设定数量的正常网站的URL，设定黑名单存储了设定数量的已经被识别出的钓鱼网站的URL。实际应用中，可以从phishtank网站中抽取设定数量的URL存储至设定黑名单，phishtank网站中汇集了大量已经被识别为钓鱼网站的URL。

待识别网站的URL的设定字段部分表征URL的域名部分，将待识别网站的URL的域名部分与设定白名单和设定黑名单中的每个URL的域名部分进行匹配，如果待识别网站的URL的域名部分与设定白名单中每个URL的域名部分或设定黑名单中每个URL的域名部分都不匹配，说明既无法确定待识别网站的URL是设定白名单中的URL，也无法确定待识别网站的URL是设定黑名单中的URL，因此需要进一步对待识别网站是否为钓鱼网站进行确定，所以，提取待识别网站的至少一个第一特征和至少一个第二特征，基于待识别网站的第一特征和第二特征，继续对待识别网站进行识别。

通过在提取待识别网站的第一特征和第二特征之前，先将待识别网站的URL的设定字段部分与设定白名单和设定黑名单中的URL的设定字段部分进行匹配，在不匹配的情况下再进一步对待识别网站进行识别，可以提高钓鱼网站的识别效率。

在一实施例中，所述方法还包括：

这里，待识别网站的URL的设定字段部分表征URL的域名部分。如果待识别网站的URL的域名部分与设定白名单中任意一个URL的域名部分匹配，说明待识别网站的URL是设定白名单中的URL，因此，输出待识别网站为正常网站的识别结果。

如果待识别网站的URL的域名部分与设定黑名单中任意一个URL的域名部分匹配，说明待识别网站的URL是设定黑名单中的URL，因此输出待识别网站为钓鱼网站的识别结果。

通过在待识别网站的URL的设定字段部分与设定白名单或设定黑名单中的URL的设定字段部分匹配的情况下，输出待识别网站对应的识别结果，可以快速得出待识别网站的识别结果，提高了钓鱼网站的识别效率。

在一实施例中，所述将所述待识别网站的URL的设定字段部分分别与设定白名单和设定黑名单中的每个URL的设定字段部分进行匹配，包括：

这里，在获得待识别网站的URL后，对所述URL进行预处理。具体地，将所述URL转化成设定格式的URL。设定格式的URL表征完整格式的URL。一条完整格式的URL由四部分组成：协议、主机、端口、路径。而获取的待识别网站的URL可能只包含主机和端口部分，因此，需要对待识别网站的URL进行预处理，将待识别网站的URL转化成包含协议、主机、端口、路径的设定格式的URL。

在预处理结束后，将待识别网站的设定格式的URL的设定字段部分分别与设定白名单和设定黑名单中的每个URL的设定字段部分进匹配。其中，URL的设定字段部分表征URL的域名部分。

通过基于预处理后的待识别网站的设定格式的URL进行匹配，可以提高匹配的准确率和效率。

在一实施例中，所述至少一个第二特征包括所述待识别网站页面中的Logo的特征，在所述将所述至少一个第一特征以及所述至少一个第二特征输入设定的特征融合网络模型时，所述方法包括：

这里，至少一个第二特征包括待识别网站页面中的Logo的特征。在将至少一个第一特征以及至少一个第二特征输入设定的特种融合网络模型时，利用ORB算法提取待识别网站页面中的Logo的特征，将提取得到的待识别网站页面中的Logo的特征与设定Logo特征库中的每个Logo特征进行匹配，得到第一匹配度。然后将第一匹配度输入设定的特征融合网络模型中，以便基于待识别网站页面中的Logo的特征对待识别网站进行识别。

设定Logo特征库基于对设定白名单中每个URL对应的网站页面中的Logo进行特征提取得到。具体地，基于设定白名单中每个URL对应的网站页面，获得每个URL对应的网站页面的对应的Logo，使用ORB算法对获得的所有Logo进行特征提取，基于提取出的所有Logo对应的Logo特征建立设定Logo特征库。

通过将待识别网站页面中的Logo的特征与设定Logo特征库中每个Logo特征进行匹配得到的第一匹配度输入设定的特征融合网络模型中，便于基于待识别网站的网站页面中的Logo的特征进一步识别出待识别网站是否为钓鱼网站，提高了识别的准确率。

图2为本申请应用实施例提供的钓鱼网站识别方法的实现流程示意图，如图2所示：

在获得待识别网站的URL之后，首先对该URL进行预处理，得到待识别网站的设定格式的URL。

将待识别网站的设定格式的URL的设定字段部分与设定白名单和设定黑名单中的每个URL的设定字段部分进行匹配，在待识别网站的设定格式的URL的设定字段部分与设定白名单或设定黑名单中的任意一个URL的设定字段部分匹配的情况下，输出待识别网站对应的识别结果；在待识别网站的设定格式的URL的设定字段部分与设定白名单或者设定黑名单中的每个URL的设定字段部分都不匹配的情况下，提取待识别网站的至少一个URL相关的第一特征和至少一个页面相关的第二特征。其中，第一特征至少包括待识别网站的URL与设定白名单中每个URL之间的字符相似度，和/或，待识别网站的URL的特征向量，该特征向量基于待识别网站的URL中每个字符确定出。第二特征至少包括待识别网站页面中的Logo的特征，和/或，待识别网站页面的其他网页特征，如待识别网站页面中的表单特征、待识别网站页面中的设定类型的链接数量与总链接数量的比值、所述待识别网站页面中的敏感关键词的数量。

将待识别网站的至少一个第一特征和至少一个第二特征输入设定的特征融合网络模型中，得到待识别网站为钓鱼网站的第一概率。

在第一概率大于设定阈值的情况下，确定待识别网站为钓鱼网站。

图3为本申请应用实施例提供的另一钓鱼网站的识别方法的实现流程示意图，如图3所示：

首先将待识别网站的URL中的每个字符，利用卷积神经网路模型转换成对应的字符向量，并基于每个字符对应的字符向量，组成所述URL对应的向量。如在待识别网站的URL为www.orange.com-abc.cn的情况下，将其中的每个字符转换成对应的字符向量，并组成该URL对应的向量。将该URL对应的向量输入设定的特征提取模型中，利用设定的特征提取模型对该URL对应的向量进行特征提取，得到设定的特征提取模型输出的向量。设定的特征提取模型可以为Char-CNN网络模型。由于每个字符对应的字符向量的维度较高，因此组成的该URL对应的向量的维度也较高，设定的特征提取模型输出的向量的维度也较高，为了便于后续的处理过程，需要对设定的特征提取模型输出的向量进行降维处理。因此，将设定的特征提取模型输出的向量，输入设定的池化层进行降维处理，获得维度降低后的该URL的特征向量。

在待识别网站的URL为www.orange.com-abc.cn的情况下，基于该URL的字符长度与设定白名单中的每个URL的字符长度以及编辑距离计算得到字符相似度。

将待识别网站页面中的Logo的特征与设定Logo特征库中的每个Logo特征进行匹配，得到第一匹配度。

提取待识别网站页面中的表单特征、外链数量与总链接数量的比值、空链数量与总链接数量的比值、敏感关键词的数量。

将上述四个步骤得到的结果输入设定的特征融合网络模型中，得到待识别网站为钓鱼网站的第一概率。设定的特征融合网络模型由两个全连接层和一个Softmax层组成。

在本申请实施例中，提取待识别网站的至少一个第一特征以及至少一个第二特征，其中，第一特征表征URL相关的特征，第二特征表征网站页面相关的特征。将至少一个第一特征以及至少一个第二特征输入设定的特征融合网络模型，得到第一概率，第一概率表征所述待识别网站为钓鱼网站的概率，在第一概率大于设定阈值时，确定待识别网站为钓鱼网站。这样，基于网站的URL相关的特征和网站页面相关的特征从多个维度对待识别的网站进行识别，不仅可以识别出与正常网站的URL相似的钓鱼网站，也可以识别出与正常网站的页面相似的钓鱼网站，对钓鱼网站的识别判断更加全面。并且，只需将提取出的待识别网站的相关特征输入训练好的设定的特征融合网络模型，就可以得到待识别网站为钓鱼网站的第一概率，进而基于第一概率确定待识别网站是否为钓鱼网站，实现了对待识别网站的快速识别，提高了识别效率，适合大规模的钓鱼网站识别。

为实现本申请实施例的方法，本申请实施例还提供了一种钓鱼网站识别装置，图4为本申请实施例提供的钓鱼网站识别装置的示意图，请参见图4，该装置包括：

提取单元401，用于提取待识别网站的至少一个第一特征以及至少一个第二特征；所述第一特征表征URL相关的特征；所述第二特征表征网站页面相关的特征；

输入单元402，用于将所述至少一个第一特征以及所述至少一个第二特征输入设定的特征融合网络模型，得到第一概率；所述第一概率表征所述待识别网站为钓鱼网站的概率；

确定单元403，用于在所述第一概率大于设定阈值时，确定所述待识别网站为钓鱼网站。

在一实施例中，所述提取单元401，还用于将所述待识别网站的URL的设定字段部分分别与设定白名单和设定黑名单中的每个URL的设定字段部分进行匹配，得到匹配结果；

在一实施例中，所述装置还包括：匹配单元，用于对所述待识别网站的URL进行预处理，将所述URL转换成设定格式的URL；

在一实施例中，所述装置还包括：输出单元，用于在所述匹配结果表征所述待识别网站的URL的设定字段部分与设定白名单或设定黑名单中的任意一个URL的设定字段部分匹配的情况下，输出所述待识别网站对应的识别结果。

在一实施例中，所述至少一个第一特征包括以下至少一项：

在一实施例中，所述装置还包括：计算单元，和/或降维处理单元，其中，

所述计算单元，用于基于所述待识别网站的URL的字符长度和所述设定白名单中每个URL的字符长度以及编辑距离，计算得到所述待识别网站的URL与设定白名单中每个URL之间的字符相似度。

所述降维处理单元，用于将所述待识别网站的URL中每个字符对应的字符向量输入设定的特征提取模型，得到所述设定的特征提取模型输出的向量，并将所述设定的特征提取模型输出的向量输入设定的池化层进行降维处理，得到所述待识别网站的URL的特征向量。

在一实施例中，所述至少一个第二特征包括以下至少一项：

所述待识别网站页面中的Logo的特征；

所述待识别网站页面中的表单特征；

所述待识别网站页面中的敏感关键词的数量。

在一实施例中，所述至少一个第二特征包括所述待识别网站页面中的Logo的特征，所述输入单元402，还用于将所述待识别网站页面中的Logo的特征与设定Logo特征库中的每个Logo特征进行匹配，得到第一匹配度；

实际应用时，所述提取单元401、所述输入单元402、所述确定单元403、所述匹配单元、所述输出单元、所述计算单元、所述降维处理单元可通过终端中的处理器，比如中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital SignalProcessor)、微控制单元(MCU，Microcontroller Unit)或可编程门阵列(FPGA，Field－Programmable Gate Array)等实现。

需要说明的是：上述实施例提供的钓鱼网站识别装置在进行信息显示时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的钓鱼网站识别装置与钓鱼网站识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于上述程序模块的硬件实现，且为了实现本申请实施例的方法，本申请实施例还提供了一种电子设备。图5为本申请实施例提供的电子设备的硬件组成结构示意图，如图5所示，电子设备包括：

通信接口501，能够与其它设备比如网络设备等进行信息交互；

处理器502，与所述通信接口501连接，以实现与其它设备进行信息交互，用于运行计算机程序时，执行上述终端侧一个或多个技术方案提供的方法。而所述计算机程序存储在存储器503上。

具体地，所述处理器502，用于提取待识别网站的至少一个第一特征以及至少一个第二特征；所述第一特征表征URL相关的特征；所述第二特征表征网站页面相关的特征；

在一实施例中，所述处理器502还用于将所述待识别网站的URL的设定字段部分分别与设定白名单和设定黑名单中的每个URL的设定字段部分进行匹配，得到匹配结果；

在一实施例中，所述处理器502还用于对所述待识别网站的URL进行预处理，将所述URL转换成设定格式的URL；

在一实施例中，所述处理器502还用于在所述匹配结果表征所述待识别网站的URL的设定字段部分与设定白名单或设定黑名单中的任意一个URL的设定字段部分匹配的情况下，输出所述待识别网站对应的识别结果。

在一实施例中，所述至少一个第一特征包括以下至少一项：

在一实施例中，所述处理器502还用于基于所述待识别网站的URL的字符长度和所述设定白名单中每个URL的字符长度以及编辑距离，计算得到所述待识别网站的URL与设定白名单中每个URL之间的字符相似度；和/或，

在一实施例中，所述至少一个第二特征包括以下至少一项：

所述待识别网站页面中的Logo的特征；

所述待识别网站页面中的表单特征；

所述待识别网站页面中的敏感关键词的数量。

在一实施例中，所述至少一个第二特征包括所述待识别网站页面中的Logo的特征，所述处理器502还用于将所述待识别网站页面中的Logo的特征与设定Logo特征库中的每个Logo特征进行匹配，得到第一匹配度；

当然，实际应用时，电子设备中的各个组件通过总线系统504耦合在一起。可理解，总线系统504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线系统504。

本申请实施例中的存储器503用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括：用于在电子设备上操作的任何计算机程序。

可以理解，存储器503可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本申请实施例描述的存储器503旨在包括但不限于这些和任意其它适合类型的存储器。

上述本申请实施例揭示的方法可以应用于处理器502中，或者由处理器502实现。处理器502可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器502中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器502可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器502可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器503，处理器502读取存储器503中的程序，结合其硬件完成前述方法的步骤。

处理器502执行所述程序时实现本申请实施例的各个方法中的相应流程。

在示例性实施例中，本申请实施例还提供了一种存储介质，即计算机存储介质，具体为计算机可读存储介质，例如包括存储计算机程序的存储器503，上述计算机程序可由处理器502执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置、终端和方法，可以通过其它的方式实现。以上所描述的设备实施例仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种钓鱼网站识别方法，其特征在于，所述方法包括：

提取待识别网站的至少一个第一特征以及至少一个第二特征；所述第一特征表征统一资源定位符URL相关的特征；所述第二特征表征网站页面相关的特征；

2.根据权利要求1所述的钓鱼网站识别方法，其特征在于，所述提取待识别网站的至少一个第一特征以及至少一个第二特征，包括：

3.根据权利要求2所述的钓鱼网站的识别方法，其特征在于，所述将所述待识别网站的URL的设定字段部分分别与设定白名单和设定黑名单中的每个URL的设定字段部分进行匹配，包括：

4.根据权利要求2或3所述的钓鱼网站的识别方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的钓鱼网站识别方法，其特征在于，所述至少一个第一特征包括以下至少一项：

6.根据权利要求5所述的钓鱼网站的识别方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的钓鱼网站识别方法，其特征在于，所述至少一个第二特征包括以下至少一项：

所述待识别网站页面中的标志Logo的特征；

所述待识别网站页面中的表单特征；

所述待识别网站页面中的敏感关键词的数量。

8.根据权利要求1所述的钓鱼网站识别方法，其特征在于，所述至少一个第二特征包括所述待识别网站页面中的Logo的特征，在所述将所述至少一个第一特征以及所述至少一个第二特征输入设定的特征融合网络模型时，所述方法包括：

9.一种钓鱼网站识别装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，其中，

所述处理器用于运行所述计算机程序时，执行权利要求1-8任一项所述方法的步骤。

11.一种存储介质，其上存有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。