CN103685308B

CN103685308B - 一种钓鱼网页的检测方法及系统、客户端、服务器

Info

Publication number: CN103685308B
Application number: CN201310729124.9A
Authority: CN
Inventors: 陈劲; 牛成
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: 360 Digital Security Technology Group Co Ltd
Priority date: 2013-12-25
Filing date: 2013-12-25
Publication date: 2017-04-26
Anticipated expiration: 2033-12-25
Also published as: CN103685308A

Abstract

本发明公开了一种钓鱼网页的检测方法及系统、客户端、服务器，其中，方法包括：从加载完成的页面中提取页面元素，得到每个页面元素对应的特征ID，将页面的特征ID于特征库中的特征ID相匹配，对页面进行初步的识别，当存在与特征库中的特征ID相匹配的页面特征ID时，利用匹配的特征ID计算得到至少一个模板ID，根据该模板ID对页面进行精准的识别，根据识别结果对访问页面的行为作相应的处理。根据该方案，对钓鱼网页的检测结合了页面中的多个页面元素以及页面元素的组合，对页面进行了多层次的识别，降低了误判率，提高了识别准确率。

Description

一种钓鱼网页的检测方法及系统、客户端、服务器

技术领域

本发明涉及互联网技术领域，具体涉及一种钓鱼网页的检测方法及系统、客户端、服务器。

背景技术

随着互联网的发展，基于WEB的应用日益普及，人们通过浏览器可以查询银行账户、网上购物、电子商务、查询信息、获取知识、进行娱乐等，WEB为人们提供了方便和快捷的交互方式。然而，人们在上网冲浪浏览网页的同时，经常会遭遇到恶意网站的侵袭，导致计算机被病毒、木马等感染。

恶意网站，例如钓鱼网站、或者是欺诈，仿冒网站等，主要是通过仿冒真实网站的URL地址或是页面内容，伪装成银行及电子商务等类型的网站，或是利用真实网站服务器程序上的漏洞，在该网站的某些网页中插入危险的网页代码，以此来骗取用户银行或信用卡账号、密码等私人资料。恶意网页中包含着许多敏感的特征，例如，金融欺诈类的恶意网页会在文字、图片等方面仿冒官网，或是在真实网页中插入虚假票务、虚假中奖、假冒网银、虚假购物等信息，这些特征大多以文本串的形式出现在网页中。

现有的为了防范恶意网站的主要手段是当用户访问某网站时，客户端将网站的URL发送至服务器端的黑白名单数据库进行查询，然而由于钓鱼网站不断更新换代，这种方法对钓鱼网站等恶意网站的检出率不高并具有滞后性。或者是通过基于文本的方法进行识别，例如通过提取页面中关键词，并将关键词上传至服务器，在黑名单数据库中匹配，这种方法效率比较低下，而且容易受文字顺序等因素的影响，误判率较高。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题钓鱼网页的检测方法及系统、客户端、服务器。

根据本发明的一个方面，提供了钓鱼网页的检测方法，包括：在访问页面的页面事件加载完成后，提取页面的多个页面元素，获取每个页面元素对应的特征ID；将多个页面元素对应的特征ID与特征库中的特征ID进行匹配；若多个页面元素对应的特征ID中具有与特征库中的特征ID匹配的至少一个特征ID，则将该匹配的至少一个特征ID进行组合计算得到至少一个模板ID，将至少一个模板ID与钓鱼网页识别库中的模板ID进行匹配；若至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID，则拦截页面的访问行为或进行风险提示。

根据本发明的另一方面，提供了一种客户端，包括：服务器下发的特征库和钓鱼网页识别库，分别用于存储服务器对恶意／欺诈／钓鱼页面的样本进行机器学习而得到的特征ID和模板ID；提取模块，用于在访问页面的页面事件加载完成后，提取页面的多个页面元素；特征ID获取模块，用于获取每个页面元素对应的特征ID；第一匹配模块，用于将多个页面元素对应的特征ID与特征库中的特征ID进行匹配；模板ID获取模块，用于若多个页面元素对应的特征ID中具有与特征库中的特征ID匹配的至少一个特征ID，则将该匹配的至少一个特征ID进行组合计算得到至少一个模板ID；第二匹配模块，用于将至少一个模板ID与钓鱼网页识别库中的模板ID进行匹配；处理模块，用于若至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID，则拦截页面的访问行为或进行风险提示。

根据本发明的另一个方面，提供了一种服务器，包括：特征库和钓鱼网页识别库，分别用于存储对恶意／欺诈／钓鱼页面的样本进行机器学习而得到的特征ID和模板ID；网络接口，用于将特征库和钓鱼网页识别库下放给客户端。

根据本发明的另一个方面，提供了一种钓鱼网页的检测系统，包括：上述客户端和服务器。

根据本发明的钓鱼网页的检测方法及系统、客户端、服务器，从加载完成的页面中提取页面元素，得到每个页面元素对应的特征ID，将页面的特征ID与特征库中的特征ID相匹配，对页面进行初步的识别，当存在与特征库中的特征ID相匹配的页面的特征ID时，利用匹配的特征ID计算得到至少一个模板ID，根据该模板ID对页面进行精准的识别，根据识别结果对访问页面的行为作相应的处理。根据该方案，对页面的识别结合了页面中的多个页面元素以及页面元素的组合，对页面进行了多层次的识别；该方案不依赖于服务器端的黑白名单数据库，而是通过本地特征库和钓鱼网页识别库实现对恶意／欺诈／钓鱼页面的高效率的识别。通过上述多层次的识别，降低了误判率，提高了识别准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的钓鱼网页的检测方法的流程图；

图2示出了根据本发明另一个实施例的钓鱼网页的检测方法的流程图；

图3示出了根据本发明一个实施例的客户端的结构示意图；

图4示出了根据本发明一个实施例的服务器的结构示意图；

图5示出了根据本发明一个实施例的钓鱼网页的检测系统的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的钓鱼网页的检测方法的流程图，如图1所示，该方法包括如下步骤：

步骤S110，在浏览器的页面事件加载完成后，提取页面的多个页面元素，获取每个页面元素对应的特征ID。

对页面元素的提取在页面事件加载完成后进行。页面元素可以是页面上的文本内容按特定的编码转换后的二进制编码数据。页面事件加载完成是指页面中全部的显示内容加载完成，包括文字、图片、表单等。特征ID是由特定算法生成的，与提取出的每个页面元素唯一对应的一组二进制数据。

步骤S120，将多个页面元素对应的特征ID与特征库中的特征ID进行匹配。

特征库是大量的恶意／欺诈／钓鱼页面中的包含恶意信息的页面元素对应的特征ID的集合。如果从访问页面提取的特征ID在特征库中找不到与其匹配的特征ID，就表明页面中不具有常见的恶意／欺诈／钓鱼的页面元素，将该页面识别为安全页面，允许用户的访问行为。

步骤S130，若多个页面元素对应的特征ID中具有与特征库中的特征ID匹配的至少一个特征ID，将匹配的至少一个特征ID进行组合计算得到至少一个模板ID，将至少一个模板ID与钓鱼网页识别库中的模板ID进行匹配。

如果存在特征ID的匹配，该页面有可能是恶意／欺诈／钓鱼页面。通过模板ID做进一步的确定，模板ID是对匹配的一个或多个特征ID组合计算得到的二进制数据。

步骤S140，若至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID，则拦截页面的访问行为或进行风险提示。

根据本发明上述实施例提供的方法，从加载完成的页面中提取页面元素，得到每个页面元素对应的特征ID，根据页面的特征ID对页面进行初步的识别，当存在与特征库中的特征ID相匹配的页面特征ID时，利用匹配的特征ID计算得到至少一个模板ID，根据该模板ID对页面进行精准的识别，根据识别结果对访问页面的行为作相应的处理。根据该方案，对页面的识别结合了页面中的多个页面元素的特征ID以及特征ID组合计算得到的模板ID，对页面进行了多层次的识别；该方案不依赖于服务器端的黑白名单数据库，而是通过本地特征库和钓鱼网页识别库实现对恶意／欺诈／钓鱼页面的高效率的识别。通过上述多层次的识别，降低了误判率，提高了识别准确率。

图2示出了根据本发明另一个实施例的钓鱼网页的检测方法的流程图，如图2所示，该方法包括如下步骤：

步骤S210，提取页面的多个页面元素，获取每个页面元素对应的特征ID。

对页面元素的提取在页面事件加载完成后进行。页面元素可以是页面上的文本内容按特定的编码转换后的二进制编码数据。页面事件加载完成首先是指页面中全部的显示内容加载完成，包括文字、图片、表单等。对于动态网页，显示的内容却可能随着时间或数据库操作的结果而发生改变，过早的提取页面内容可能无法包含全部必需的页面元素，从而造成误判。例如，页面代码中可能脚本，脚本运行中可能会替换页面中的部分内容。这时，对页面元素的提取应在所有脚本加载、运行完成之后，以及DOM组件加载完成后进行。

页面可能是具有多个子框架页面的嵌套网页，在内嵌页中显示其他页面的内容。这种情况下，页面事件加载完成还包括所有内嵌页面也加载完成。

在某些情况下，也可以为页面事件的加载设置一个等待时间，等待时间结束后即认为页面事件已加载完成，开始提取页面元素。例如，一些恶意网站在页面内容展示完成之后，也一直保持加载状态，造成等待的时间过长，无法及时检测。通过设置时间，可以避免这种情况的发生。

页面元素的提取具体是指提取不定长的网页片段，对这些网页片段做穷举，筛选和淘汰，得到最终的页面元素。具体地，可以这样进行：从第一个字节开始，依次遍历后面长度为1，2，3，......直到预设上限字节长度的二进制数据片段；对每个片段进行筛选，如果是无用片段，则丢弃，如果是有用片段，记录该片段；当前字节片段遍历完成后，按照相同的逻辑处理下一字节。

为每个记录的片段生成特征ID，特征ID是二进制数据。页面元素与生成的特征ID唯一对应。具体地，可以利用哈希算法为每个页面元素生成特征ID。

步骤S220，将多个页面元素对应的特征ID与特征库中的特征ID进行匹配，如果提取的特征ID中具有与特征库中的特征ID匹配的至少一个特征ID，执行步骤S240，否则执行步骤S230。

特征库由服务器生成，是大量的恶意／欺诈／钓鱼页面中的恶意页面元素对应的特征ID的集合。具体地，服务器通过机器学习算法对大量的网站页面提取页面元素，获取恶意／欺诈／钓鱼页面的样本，统计出经常在恶意／欺诈／钓鱼网站中出现的页面元素，按照特定的算法，例如哈希算法，为这些元素生成特征ID，将生成的特征ID加入到特征库中。例如，可以利用贝叶斯统计概率模型和神经网络模型，对样本进行机器学习建立特征库。

服务器对生成的特征库进行维护。该步骤中所说的与特征库中的特征ID进行匹配是在本地完成的，这样更具有效率和灵活性。具体地，服务器根据最新的统计样本定期地对特征库中的特征ID做更新，将更新的特征库同步给客户端。进一步地，服务器可以对特征库进行删除，得到一个精简的特征库，例如，精简的数据库中保留根据一段时间内的统计的样本，将恶意／欺诈／钓鱼页面上最常见的页面元素对应的特征ID，客户端将该精简的特征库下载到本地。服务器端的特征库与本地相比更全面精准。这样，对于常见页面的识别不需要经过服务器端，提高了效率。

步骤S230，允许页面的访问行为。

如果从访问页面的页面元素中提取的特征ID中在本地的特征库中找不到与其匹配的特征ID，就表明页面中不具有常见的恶意／欺诈／钓鱼的页面元素，将该页面识别为安全页面，允许用户的访问行为。

步骤S240，将匹配的至少一个特征ID进行组合计算得到至少一个模板ID。

如果提取的特征ID中具有与特征库中的特征ID匹配的至少一个特征ID，则该页面可能是恶意／欺诈／钓鱼页面，这时，需要根据钓鱼网页识别库和模板ID做进一步的确认。

页面的模板ID是对步骤S210中获取的一个或多个特征ID组合计算得到的，模板ID也是一组二进制数据。模板ID可以是通过特定的快速哈希算法生成的定长的二进制数据，例如，通过MD5算法生成的64位的二进制串。与特征ID类似地，不同特征ID按照相同的顺序组合，按照相同的算法计算得到的模板ID是唯一的并且是不可逆的。

步骤S250，将至少一个模板ID与钓鱼网页识别库中的模板ID进行匹配，如果至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID，执行步骤S270，否则执行步骤S260。

钓鱼网页识别库的生成方式与特征库类似，服务器端获取恶意／欺诈／钓鱼页面的样本，对样本进行机器学习，建立钓鱼网页识别库；服务器端定期更新特征库和钓鱼网页识别库并同步给客户端。例如，钓鱼网页识别库中的模板ID是按照贝叶斯统计概率模型和神经网络模型对恶意／欺诈／钓鱼页面的页面元素组合方式进行机器学习，然后根据相应片段在特征库中的特征ID，进行组合后通过MD5算法生成得到的。服务器可以对特征库进行删除，得到一个精简的钓鱼网页识别库，客户端将该精简的钓鱼网页识别库下载到本地。

只通过特征ID无法对页面做出准确的判断，因为用于生成该特征ID的页面元素也可能出现在安全网站中。例如，该页面元素是对应于“中奖”这一关键词的一组编码，“中奖”是恶意网站中一种常见的欺诈手段，但也可能出现在官方的彩票管理网站或合法抽奖活动等安全网站上。因此，只根据这特征ID将该网页识别为恶意网站会导致较高的误判率。而在该步骤中通过匹配多个特征ID组合生成的模板ID能够进行准确的判断。例如，在访问页面中除了“中奖”，还包括奖金数额“XX万元”，“手续费”，“验证码”，“汇款地址”等字样，可以确定该页面属于恶意／欺诈／钓鱼页面。模板ID就是将上述字样对应的页面元素生成的特征ID按一定顺序组合计算产生的一个二进制数据，由于页面元素、特征ID和模板ID之间的唯一对应关系，根据模板ID就可以对页面内容做出判断。

步骤S260，将匹配的至少一个特征ID和计算生成的模板ID上报给服务器，然后执行步骤S290。

服务器端根据匹配的至少一个特征ID和由该至少一个特征ID生成的至少一个模板ID判定页面是否属于恶意／欺诈／钓鱼页面。

服务器也可以通过在服务器侧的特征库钓鱼网页识别库中匹配模板ID进行判定。如同在步骤S240中所述的，服务器中的特征库和钓鱼网页识别库与本地特征库和钓鱼网页识别库相比，更加全面或具有更高的更新频率，能够进行更准确的判断。

可选地，在步骤S250判断为否的情况下，也可以直接执行步骤S230。即，在页面具有匹配的特征ID但模板ID不匹配的情况下，可以允许页面的访问行为。

步骤S270，将匹配的模板ID上报给服务器。

如果至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID，可以确定访问页面属于恶意／欺诈／钓鱼页面，该步骤将匹配的模板ID上报给服务器，获取页面具体的分类信息。

具体的分类类别名称在本实施例的方法实施之前由人工设定，主要类别包括：中奖页面，虚假银行页面，虚假购物页面等，在每个主要类别下还可以进行更精细的分类，例如中奖页面可以进一步包括“中国好声音”中奖页面，“我要上春晚”中奖诈骗页面等。

具体地，服务器端通过对大量的恶意／欺诈／钓鱼页面类型和页面生成的模板ID进行机器学习，得到分类的规则，预先建立模板ID与分类信息之间的对应关系，接收客户端上报的模板ID后，根据分类规则将该模板ID划分到相应的类别下。

该步骤中还可以向服务器上传匹配的模板ID对应页面的URL，以供服务器将该页面的URL加入恶意网址库。为保护用户的隐私，可以对URL加密，计算URL的特征值作为密文。可选地，特征值可以为根据MD5(Message Digest Algorithm，消息摘要算法第五版)计算得到的哈希值，或SHA1(Secure Hash Algorithm，安全哈希算法)码，或CRC(CyclicRedundancy Check，循环冗余校验)码等可唯一标识原信息的特征码。需要说明的是，在上传URL的密文到服务器的时候，需要首先屏蔽可能带有用户密码的网址字符串，不上传此类URL，以便保证用户信息的安全。

步骤S280，接收服务器端返回的匹配的模板ID所对应的分类信息。然后执行步骤S2100。

上述步骤S270和步骤S280为本实施例的可选步骤，在步骤S250判断为是的情况下，可以直接执行步骤S2100，无需去服务器端查询分类信息。

步骤S290，接收服务器端返回的判定结果，如果判定结果表明页面属于恶意／欺诈／钓鱼页面，执行步骤S2100，如果不属于恶意／欺诈／钓鱼页面，执行步骤S230。

步骤S2100，拦截页面的访问行为或进行风险提示。

可以在指定的区域弹出窗口或消息以提示用户，将步骤S280中接收的服务器返回的分类信息，或步骤S290中接收的服务器对恶意／欺诈／钓鱼页面的判定结果也加入在弹出窗口或消息中。

根据本发明上述实施例提供的方法，判定页面事件加载完成后，从页面内容中提取多个页面元素，为提取的页面元素生成特征ID，首先将多个页面元素对应的特征ID与特征库中的特征ID进行匹配，如果存在匹配的特征ID，则认为该页面可能是恶意／欺诈／钓鱼页面，将匹配的至少一个特征ID进行组合计算得到至少一个模板ID并在钓鱼网页识别库中进行匹配，如果至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID，将该页面确认为恶意／欺诈／钓鱼页面，进一步根据模板ID获取页面的分类信息，如果模板ID不匹配，则将匹配的特征ID和生成的模板ID上传至服务器，由服务器判定所述页面是否属于恶意／欺诈／钓鱼页面；对于客户端或服务器确定的恶意／欺诈／钓鱼页面，给出风险提示或拦截访问行为，风险提示中还可以包括分类信息。根据该方案，通过本地特征库和钓鱼网页识别库，可以实现对部分常见恶意／欺诈／钓鱼页面的高效率的识别，对于本地无法识别的情况，还可以进一步与服务器交互，利用服务器中的特征库和钓鱼网页识别库实现精准的识别，并获取页面详细的分类。通过上述多层次的识别，提高了判断的准确率，同时为用户提供更全面的信息。

图3示出了根据本发明一个实施例的客户端的结构示意图，如图3所示，该客户端包括：

服务器下发的特征库和钓鱼网页识别库，分别用于存储服务器对恶意／欺诈／钓鱼页面的样本进行机器学习而得到的特征ID和模板ID。

特征库由服务器生成，是大量的恶意／欺诈／钓鱼页面中的恶意页面元素对应的特征ID的集合。具体地，服务器对大量的网站页面提取页面元素，获取恶意／欺诈／钓鱼页面的样本，统计出经常在恶意／欺诈／钓鱼网站中出现的页面元素，按照特定的算法，例如哈希算法，为每个片段生成特征ID，将特征ID加入到特征库中。例如，可以利用贝叶斯统计概率模型和神经网络模型，对样本进行机器学习建立特征库。服务器根据最新的统计样本定期地对特征库中的特征ID做更新，将更新的特征库同步给客户端。进一步地，服务器可以对特征库进行删除，得到一个精简的特征库，例如，精简的数据库中保留根据一段时间内的统计的样本，将恶意／欺诈／钓鱼页面上最常见的页面元素对应的特征ID，客户端将该精简的特征库下载到本地。服务器端的特征库与本地相比更全面精准。这样，对于常见页面的识别不需要经过服务器端，提高了效率。

提取模块310，用于在访问页面的页面事件加载完成后，提取页面的多个页面元素。

提取模块310对页面元素的提取在页面事件加载完成后进行。提取的页面元素可以是页面上的文本内容按特定的编码转换后的二进制编码数据。这里，页面事件加载完成首先是指页面中全部的显示内容加载完成，包括文字、图片、表单等。对于动态网页，显示的内容却可能随着时间或数据库操作的结果而发生改变，过早的提取页面内容可能无法包含全部必需的页面元素，从而造成误判。例如，页面代码中可能脚本，脚本运行中可能会替换页面中的部分内容。这时，对页面元素的提取应在所有脚本运行完成之后，以及DOM组件加载完成后进行。

提取模块310对页面元素的提取是通过提取不定长的网页页面元素实现的，提取模块310对网页的片段做穷举，筛选和淘汰，得到最终的页面元素。具体地，可以这样进行：提取模块310从第一个字节开始，依次遍历后面长度为1，2，3，......直到预设上限字节长度的二进制数据片段；对每个二进制数据片段进行筛选，如果是无用片段，则丢弃，如果是有用片段，记录该二进制数据片段作为页面元素；当前字节片段遍历完成后，提取模块310按照相同的逻辑处理下一字节。

特征ID获取模块320，用于获取每个页面元素对应的特征ID。特征ID获取模块320生成的特征ID是二进制数据，并且生成的特征ID与提取模块310获取的页面元素唯一对应。具体地，特征ID获取模块320可以利用哈希算法为每个页面元素生成特征ID。

第一匹配模块330，用于将特征ID获取模块320获取的特征ID与特征库中的特征ID进行匹配。

处理模块360，用于若特征ID获取模块320获取的与多个页面元素对应的特征ID中不具有与特征库中的特征ID匹配的至少一个特征ID时，允许页面的访问行为。

模板ID获取模块340，用于若第一匹配模块330输出的匹配结果表明多个页面元素对应的特征ID中具有与特征库中的特征ID匹配的至少一个特征ID时，将该匹配的至少一个特征ID进行组合计算得到至少一个模板ID。模板ID也是一组二进制数据。模板ID可以是模板ID获取模块通过特定的快速哈希算法生成的定长的二进制数据，例如，通过MD5算法生成的64位的二进制串。与特征ID类似地，一组特征ID按照相同的顺序组合，按照相同的算法计算得到的模板ID是唯一的并且是不可逆的。

第二匹配模块350，用于将模板ID获取模块340生成的至少一个模板ID与钓鱼网页识别库中的模板ID进行匹配。则处理模块360还用于当第二匹配模块350的结果表明模板ID获取模块340组合计算得到的模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID时，拦截页面的访问行为或进行风险提示。

客户端还包括：上报接口370，用于若至少一个模板ID中不具有与钓鱼网页识别库中的模板ID匹配的模板ID，则将匹配的至少一个特征ID和至少一个模板ID上报给服务器端，以供服务器端根据匹配的至少一个特征ID和至少一个模板ID判定页面是否属于恶意／欺诈／钓鱼页面。

接收接口380，用于接收服务器端返回的判定结果。则处理模块360还用于：若判定结果表明页面属于恶意／欺诈／钓鱼页面，则拦截页面的访问行为或进行风险提示；否则，允许页面的访问行为。

上报接口370还用于：若至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID，则将匹配的模板ID上报给服务器端，以供服务器端根据预先建立的模板ID与分类信息的对应关系，确定匹配的模板ID所对应的分类信息。则接收接口380还用于：接收服务器端返回的匹配的模板ID所对应的分类信息；处理模块360还用于在进行风险提示的同时展示分类信息。

上报接口370还用于：若至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID，则将页面的URL以及鉴定识别信息加密成密文上报给服务器端，以供服务器端将页面的URL加入恶意网址库。上报接口370可以计算URL的特征值作为密文。可选地，上报接口370可以根据MD5(Message Digest Algorithm，消息摘要算法第五版)计算得到的哈希值，或SHA1(Secure Hash Algorithm，安全哈希算法)码，或CRC(Cyclic RedundancyCheck，循环冗余校验)码等可唯一标识原信息的特征码。需要说明的是，在上传URL的密文到服务器的时候，上报接口370需要首先屏蔽可能带有用户密码的网址字符串，不上传此类URL，以便保证用户信息的安全。

图4示出了根据本发明一个实施例的服务器的结构示意图，如图4所示，服务器包括：

特征库和钓鱼网页识别库，分别用于存储对恶意／欺诈／钓鱼页面的样本进行机器学习而得到的特征ID和模板ID；

网络接口410，用于将特征库和钓鱼网页识别库下放给客户端。

服务器还包括：判断模块420，用于根据匹配的至少一个特征ID和至少一个模板ID判定页面是否属于恶意／欺诈／钓鱼页面。服务器也可以通过在服务器侧的特征库、钓鱼网页识别库中匹配特征ID和模板ID进行判定。服务器中的特征库和钓鱼网页识别库与本地特征库和钓鱼网页识别库相比，更加全面或具有更高的更新频率，能够进行更准确的判断。

网络接口410还用于向客户端返回判断模块420的判定结果。

服务器还包括：分类模块430，用于根据预先建立的模板ID与分类信息的对应关系，确定匹配的模板ID所对应的分类信息。具体的分类类别名称由人工设定，主要类别包括：中奖页面，虚假银行页面，虚假购物页面等，在每个主要类别下还可以进行更精细的分类，例如中奖页面可以进一步包括“中国好声音”中奖页面，“我要上春晚”中奖诈骗页面等。

具体地，分类模块430通过对大量的恶意／欺诈／钓鱼页面类型和根据页面内容生成的模板ID进行机器学习，得到分类的规则，接收客户端上报的模板ID后，根据分类规则将该模板ID划分到相应的类别下。

网络接口410还用于向客户端返回匹配的模板ID所对应的分类信息。

网络接口410还用于接收客户端上报的由页面的URL以及鉴定识别信息加密得到的密文。

服务器还包括：恶意网址库440，用于存储网络接口410接收的恶意页面的URL。

图5示出了根据本发明一个实施例的钓鱼网页的检测系统的结构示意图，如图5所示，该系统包括客户端300和服务器400，其中有关客户端300的具体结构和功能可参见客户端实施例的描述，有关服务器400的具体结构和功能可参见服务器实施例的描述，在此不再赘述。

根据本发明上述实施例提供的客户端、服务器和钓鱼网页的检测系统，客户端判定页面内容加载完成后，通过提取模块从页面内容中提取多个页面元素，特征ID获取模块为提取的页面元素生成特征ID；第一匹配模块将多个页面元素对应的特征ID与特征库中的特征ID进行匹配，如果存在匹配的特征ID，则认为该页面可能是恶意／欺诈／钓鱼页面；模板ID获取模块将匹配的至少一个特征ID进行组合计算得到至少一个模板ID并在钓鱼网页识别库中进行匹配，如果至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID，将该页面确认为恶意／欺诈／钓鱼页面，通过上传接口将模板ID发送至服务器；服务器通过分类模块根据模板ID获取页面的分类信息；如果模板ID不匹配，则通过上传接口将匹配的特征ID和生成的模板ID上传至服务器，服务器通过判断模块判定所述页面是否属于恶意／欺诈／钓鱼页面；客户端接收返回结果，对于确定的恶意／欺诈／钓鱼页面，给出风险提示或拦截访问行为，风险提示中还可以包括分类信息。根据该方案，通过本地特征库和钓鱼网页识别库，可以实现对部分常见恶意／欺诈／钓鱼页面的高效率的识别，对于本地无法识别的情况，还可以进一步与服务器交互，利用服务器中的特征库和钓鱼网页识别库实现精准的识别，并获取页面详细的分类。通过上述多层次的识别，提高了判断的准确率，同时为用户提供更全面的信息。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和／或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的客户端、服务器和钓鱼网页的检测系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了：

A1、一种钓鱼网页的检测方法，包括：

在浏览器的页面事件加载完成后，提取页面的多个页面元素，获取每个页面元素对应的特征ID；

将多个页面元素对应的特征ID与特征库中的特征ID进行匹配；

若多个页面元素对应的特征ID中具有与特征库中的特征ID匹配的至少一个特征ID，则将该匹配的至少一个特征ID进行组合计算得到至少一个模板ID，将所述至少一个模板ID与钓鱼网页识别库中的模板ID进行匹配；

若所述至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID，则拦截所述页面的访问行为或进行风险提示。

A2、根据A1所述的方法，所述特征库和钓鱼网页识别库是预先从服务器端下载的；所述服务器端获取恶意／欺诈／钓鱼页面的样本，对所述样本进行机器学习建立所述特征库和钓鱼网页识别库；所述服务器端定期更新所述特征库和钓鱼网页识别库并同步给客户端。

A3、根据A2所述的方法，所述对样本进行机器学习建立所述特征库和钓鱼网页识别库具体为：利用贝叶斯统计概率模型和神经网络模型，对样本进行机器学习建立所述特征库和钓鱼网页识别库。

A4、根据A1-A3任一项所述的方法，还包括：若多个页面元素对应的特征ID中不具有与特征库中的特征ID匹配的至少一个特征ID，则允许所述页面的访问行为。

A5、根据A1-A3任一项所述的方法，还包括：

若所述至少一个模板ID中不具有与钓鱼网页识别库中的模板ID匹配的模板ID，则将所述匹配的至少一个特征ID和所述至少一个模板ID上报给服务器端，以供所述服务器端根据所述匹配的至少一个特征ID和所述至少一个模板ID判定所述页面是否属于恶意／欺诈／钓鱼页面；

接收服务器端返回的判定结果，若所述判定结果表明所述页面属于恶意／欺诈／钓鱼页面，则拦截所述页面的访问行为或进行风险提示；否则，允许所述页面的访问行为。

A6、根据A1-A3任一项所述的方法，还包括：

若所述至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID，则将匹配的模板ID上报给服务器端，以供所述服务器端根据预先建立的模板ID与分类信息的对应关系，确定所述匹配的模板ID所对应的分类信息；

接收所述服务器端返回的所述匹配的模板ID所对应的分类信息，在进行风险提示的同时展示所述分类信息。

A7、根据A1-A3任一项所述的方法，还包括：

若所述至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID，则将所述页面的URL以及鉴定识别信息加密成密文上报给服务器端，以供服务器端将所述页面的URL加入恶意网址库。

A8、根据A1-A7任一项所述的方法，所述提取页面的多个页面元素进一步包括：

从所述页面的第一个字节开始，依次遍历多个预定长度的二进制数据片段；

对每个二进制数据片段进行筛选，若为无用片段，则丢弃；若为有用片段，则记录该二进制数据片段作为所述页面元素。

B9、一种客户端，包括：

服务器下发的特征库和钓鱼网页识别库，分别用于存储服务器对恶意／欺诈／钓鱼页面的样本进行机器学习而得到的特征ID和模板ID；

提取模块，用于在浏览器的页面事件加载完成后，提取页面的多个页面元素；

特征ID获取模块，用于获取每个页面元素对应的特征ID；

第一匹配模块，用于将多个页面元素对应的特征ID与特征库中的特征ID进行匹配；

模板ID获取模块，用于若多个页面元素对应的特征ID中具有与特征库中的特征ID匹配的至少一个特征ID，则将该匹配的至少一个特征ID进行组合计算得到至少一个模板ID；

第二匹配模块，用于将所述至少一个模板ID与钓鱼网页识别库中的模板ID进行匹配；

处理模块，用于若所述至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID，则拦截所述页面的访问行为或进行风险提示。

B10、根据B9所述的客户端，所述处理模块还用于：若多个页面元素对应的特征ID中不具有与特征库中的特征ID匹配的至少一个特征ID，则允许所述页面的访问行为。

B11、根据B9所述的客户端，还包括：

上报接口，用于若所述至少一个模板ID中不具有与钓鱼网页识别库中的模板ID匹配的模板ID，则将所述匹配的至少一个特征ID和所述至少一个模板ID上报给服务器端，以供所述服务器端根据所述匹配的至少一个特征ID和所述至少一个模板ID判定所述页面是否属于恶意／欺诈／钓鱼页面；

接收接口，用于接收服务器端返回的判定结果；

所述处理模块还用于：若所述判定结果表明所述页面属于恶意／欺诈／钓鱼页面，则拦截所述页面的访问行为或进行风险提示；否则，允许所述页面的访问行为。

B12、根据B11所述的客户端，所述上报接口还用于：若所述至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID，则将匹配的模板ID上报给服务器端，以供所述服务器端根据预先建立的模板ID与分类信息的对应关系，确定所述匹配的模板ID所对应的分类信息；

所述接收接口还用于：接收所述服务器端返回的所述匹配的模板ID所对应的分类信息；

所述处理模块还用于在进行风险提示的同时展示所述分类信息。

B13、根据B11所述的客户端，所述上报接口还用于：若所述至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID，则将所述页面的URL以及鉴定识别信息加密成密文上报给服务器端，以供服务器端将所述页面的URL加入恶意网址库。

B14、根据B9-B13任一项所述的客户端，所述提取模块进一步用于：从所述页面的第一个字节开始，依次遍历多个预定长度的二进制数据片段；对每个二进制数据片段进行筛选，若为无用片段，则丢弃；若为有用片段，则记录该二进制数据片段作为所述页面元素。

C15、一种服务器，包括：

网络接口，用于将所述特征库和钓鱼网页识别库下放给客户端。

C16、根据C15所述的服务器，所述网络接口还用于接收客户端上报的匹配的至少一个特征ID和所述至少一个模板ID；

所述服务器还包括：判断模块，用于根据所述匹配的至少一个特征ID和所述至少一个模板ID判定所述页面是否属于恶意／欺诈／钓鱼页面；

所述网络接口还用于向客户端返回判定结果。

C17、根据C15所述的服务器，所述网络接口还用于接收客户端上报的匹配的模板ID；

所述服务器还包括：分类模块，用于根据预先建立的模板ID与分类信息的对应关系，确定所述匹配的模板ID所对应的分类信息；

所述网络接口还用于向客户端返回所述匹配的模板ID所对应的分类信息。

C18、根据C15所述的服务器，所述网络接口还用于接收客户端上报的由所述页面的URL以及鉴定识别信息加密得到的密文；

所述服务器还包括：恶意网址库，用于存储所述页面的URL。

D19、一种钓鱼网页的检测系统，包括：C9-C14任一项所述的客户端以及C15-C18任一项所述的服务器。

Claims

1.一种钓鱼网页的检测方法，所述方法由客户端执行，包括：

将多个页面元素对应的特征ID与特征库中的特征ID进行匹配；其中，所述特征库是恶意/欺诈/钓鱼页面中的包含恶意信息的页面元素对应的特征ID的集合；

若多个页面元素对应的特征ID中不具有与特征库中的特征ID匹配的至少一个特征ID，则允许所述页面的访问行为；

2.根据权利要求1所述的方法，所述特征库和钓鱼网页识别库是预先从服务器端下载的；所述服务器端获取恶意/欺诈/钓鱼页面的样本，对所述样本进行机器学习建立所述特征库和钓鱼网页识别库；所述服务器端定期更新所述特征库和钓鱼网页识别库并同步给客户端。

3.根据权利要求2所述的方法，所述对样本进行机器学习建立所述特征库和钓鱼网页识别库具体为：利用贝叶斯统计概率模型和神经网络模型，对样本进行机器学习建立所述特征库和钓鱼网页识别库。

4.根据权利要求1-3任一项所述的方法，还包括：

若所述至少一个模板ID中不具有与钓鱼网页识别库中的模板ID匹配的模板ID，则将所述匹配的至少一个特征ID和所述至少一个模板ID上报给服务器端，以供所述服务器端根据所述匹配的至少一个特征ID和所述至少一个模板ID判定所述页面是否属于恶意/欺诈/钓鱼页面；

接收服务器端返回的判定结果，若所述判定结果表明所述页面属于恶意/欺诈/钓鱼页面，则拦截所述页面的访问行为或进行风险提示；否则，允许所述页面的访问行为。

5.根据权利要求1-3任一项所述的方法，还包括：

6.根据权利要求1-3任一项所述的方法，还包括：

7.根据权利要求1-3任一项所述的方法，所述提取页面的多个页面元素进一步包括：

8.一种客户端，包括：

服务器下发的特征库和钓鱼网页识别库，分别用于存储服务器对恶意/欺诈/钓鱼页面的样本进行机器学习而得到的特征ID和模板ID；其中，所述特征库是恶意/欺诈/钓鱼页面中的包含恶意信息的页面元素对应的特征ID的集合；

特征ID获取模块，用于获取每个页面元素对应的特征ID；

处理模块，用于若所述至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID，则拦截所述页面的访问行为或进行风险提示；

所述处理模块还用于：若多个页面元素对应的特征ID中不具有与特征库中的特征ID匹配的至少一个特征ID，则允许所述页面的访问行为。

9.根据权利要求8所述的客户端，还包括：

上报接口，用于若所述至少一个模板ID中不具有与钓鱼网页识别库中的模板ID匹配的模板ID，则将所述匹配的至少一个特征ID和所述至少一个模板ID上报给服务器端，以供所述服务器端根据所述匹配的至少一个特征ID和所述至少一个模板ID判定所述页面是否属于恶意/欺诈/钓鱼页面；

接收接口，用于接收服务器端返回的判定结果；

所述处理模块还用于：若所述判定结果表明所述页面属于恶意/欺诈/钓鱼页面，则拦截所述页面的访问行为或进行风险提示；否则，允许所述页面的访问行为。

10.根据权利要求9所述的客户端，所述上报接口还用于：若所述至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID，则将匹配的模板ID上报给服务器端，以供所述服务器端根据预先建立的模板ID与分类信息的对应关系，确定所述匹配的模板ID所对应的分类信息；

11.根据权利要求9所述的客户端，所述上报接口还用于：若所述至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID，则将所述页面的URL以及鉴定识别信息加密成密文上报给服务器端，以供服务器端将所述页面的URL加入恶意网址库。

12.根据权利要求8-11任一项所述的客户端，所述提取模块进一步用于：从所述页面的第一个字节开始，依次遍历多个预定长度的二进制数据片段；对每个二进制数据片段进行筛选，若为无用片段，则丢弃；若为有用片段，则记录该二进制数据片段作为所述页面元素。

13.一种钓鱼网页的检测系统，包括：权利要求8-12任一项所述的客户端以及服务器；

其中，所述服务器包括：

特征库和钓鱼网页识别库，分别用于存储对恶意/欺诈/钓鱼页面的样本进行机器学习而得到的特征ID和模板ID；

14.根据权利要求13所述的钓鱼网页的检测系统，所述网络接口还用于接收客户端上报的匹配的至少一个特征ID和所述至少一个模板ID；

所述服务器还包括：判断模块，用于根据所述匹配的至少一个特征ID和所述至少一个模板ID判定所述页面是否属于恶意/欺诈/钓鱼页面；

所述网络接口还用于向客户端返回判定结果。

15.根据权利要求13所述的钓鱼网页的检测系统，所述网络接口还用于接收客户端上报的匹配的模板ID；

16.根据权利要求13所述的钓鱼网页的检测系统，所述网络接口还用于接收客户端上报的由所述页面的URL以及鉴定识别信息加密得到的密文；

所述服务器还包括：恶意网址库，用于存储所述页面的URL。