CN105574036B

CN105574036B - 一种网页数据的处理方法及装置

Info

Publication number: CN105574036B
Application number: CN201410548702.3A
Authority: CN
Inventors: 陈荣; 陈梦; 陈远斌; 刘宽; 董梁; 唐艳平; 李德春; 刘飞飞
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2014-10-16
Filing date: 2014-10-16
Publication date: 2020-04-21
Anticipated expiration: 2034-10-16
Also published as: CN105574036A

Abstract

本发明公开了一种网页数据的处理方法及装置，其中，该方法包括：接收网页链接地址；获取网页链接地址所指向的网页；若确定出网页所属的网站为钓鱼网站时，获取网页中的输入接口，输入接口可供用户输入；获取预设的垃圾信息，并向输入接口发送获取到的垃圾信息。本发明将垃圾信息自动输入到钓鱼网页的输入接口中并自动提交，以无价值的数据填充钓鱼网页，使其获取到的信息中垃圾信息含量大大增加，从而降低其可用性，整个对抗的流程简单且成本较低，可避免该钓鱼网站继续对原网站进行攻击，减少对原网站的损失和影响，更好的保障用户信息安全。

Description

一种网页数据的处理方法及装置

技术领域

本发明属于网络安全领域，尤其涉及一种网页数据的处理方法及装置。

背景技术

随着互联网技术的迅速发展，一些知名网站会遭遇到被钓鱼网站攻击所伤害的危险，从而造成了被攻击网站的信誉蒙受了很大的损害。

目前，为了防范钓鱼网站的攻击，出现了很多识别钓鱼网站的工具；例如：提供一个免费的工具栏，在搜索的时候可以帮助用户识别欺诈性的网站；或者通过与phishtank等恶意网址数据库的合作以阻止用户访问伪造站点等，即大部分都是通过获取网页内容进行特征分析，然后判断网页是否有害，从而防止用户受到欺骗。

在对现有技术的研究和实践过程中，本发明的发明人发现，目前现有技术虽然可以对钓鱼网站进行识别或者在识别钓鱼网站后进行防御，但仍无法避免该钓鱼网站继续对原网站进行攻击，从而对被攻击网站造成损失和影响。

发明内容

本发明的目的在于提供一种网页数据的处理方法及装置，可以在识别到钓鱼网站后对其进行处理，以减少钓鱼网站对被攻击网站的损失和影响。

为解决上述技术问题，本发明实施例提供以下技术方案：

一种网页数据的处理方法，其中所述方法包括：

接收网页链接地址；

获取所述网页链接地址所指向的网页；

若确定出所述网页所属的网站为钓鱼网站时，获取所述网页中的输入接口，所述输入接口可供用户输入；

获取预设的垃圾信息，并向所述输入接口发送获取到的所述垃圾信息。

为解决上述技术问题，本发明实施例还提供以下技术方案：

一种网页数据的处理装置，其中所述装置包括：

接收模块，用于接收网页链接地址；

第一获取模块，用于获取所述网页链接地址所指向的网页；

第二获取模块，用于若确定出所述网页所属的网站为钓鱼网站时，获取所述网页中的输入接口，所述输入接口可供用户输入；

第三获取模块，用于获取预设的垃圾信息；

发送模块，用于向所述输入接口发送获取到的所述垃圾信息。

相对于现有技术，本实施例中，在确定出网页链接地址所指向的网页所属的网站为钓鱼网站时，获取该网页中可供用户输入的输入接口，并向输入接口发送预设的垃圾信息；本发明将垃圾信息自动输入到钓鱼网页的输入接口中并自动提交，以无价值的数据填充钓鱼网页，使其获取到的信息中垃圾信息含量大大增加，从而降低其可用性，整个对抗的流程简单且成本较低，可避免该钓鱼网站继续对原网站进行攻击，减少对原网站的损失和影响，更好的保障用户信息安全。

附图说明

下面结合附图，通过对本发明的具体实施方式详细描述，将使本发明的技术方案及其它有益效果显而易见。

图1是本发明第一实施例提供的网页数据的处理方法的流程示意图；

图2为本发明第二实施例提供的网页数据的处理方法的流程示意图；

图3a为本发明第三实施例提供的网页数据的处理方法的流程示意图；

图3b为本发明第三实施例提供的网页数据的处理系统的结构示意图；

图3c为本发明第三实施例提供的号码池的结构示意图；

图3d为本发明第三实施例提供的网页数据解析模块的结构示意图；

图4为本发明第四实施例提供的网页数据的处理装置的结构示意图；

图5为本发明第五实施例提供的网页数据的处理装置的结构示意图；

图6为本发明第六实施例提供的服务器的结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例，其不应被视为限制本发明未在此详述的其它具体实施例。

在以下的说明中，本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本发明原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本发明的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行操作。所熟知的适合用于本发明的运算系统、环境与组态的范例可包括(但不限于)手持电话、个人计算机、服务器、多处理器系统、微电脑为主的系统、主架构型计算机、及分布式运算环境，其中包括了任何的上述系统或装置。

本文所使用的术语「模块」可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法优选的以软件的方式进行实施，当然也可在硬件上进行实施，均在本发明保护范围之内。

而且本文所使用的词语“优选的”意指用作实例、示例或例证。奉文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反，词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即，除非另外指定或从上下文中清楚，“X使用A或B”意指自然包括排列的任意一个。即，如果X使用A；X使用B；或X使用A和B二者，则“X使用A或B”在前述任一示例中得到满足。

而且，尽管已经相对于一个或多个实现方式示出并描述了本公开，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件、资源等)执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示)，即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外，尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。

第一实施例

请参阅图1，图1是本发明第一实施例提供的网页数据的处理方法的流程示意图。所述方法步骤包括：

在步骤S101中，接收网页链接地址。

在步骤S102中，获取所述网页链接地址所指向的网页。

可以理解的是，所述步骤S101和步骤S102可具体包括：

本发明提供的所述网页数据的处理方法是基于BS(浏览器browser，服务器server)的系统结构的，用户通过浏览器使用该系统，通过浏览器接受网页链接地址，根据该网页链接地址向服务器发出请求，以等待所述网页链接地址所指向的网页响应，从而获取到所述网页链接地址所指向的网页。

其中，所述网页链接地址可以以统一资源定位符(URL，Uniform ResourceLocator)的形式进行实现；所述URL是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该如何对其进行处理；可以理解的是，所述网页链接地址还可以以其他形式进行实现，此处举例不构成对本发明的限定。

在步骤S103中，若确定出所述网页所属的网站为钓鱼网站时，获取所述网页中的输入接口，所述输入接口可供用户输入。

其中，所述钓鱼网站是指通过伪装成官方网站，诱骗用户访问并输入帐号密码等个人敏感信息，从而非法获取用户的个人敏感数据的一类网站。

可以理解的是，所述网页中的输入接口可以具体为供用户输入的输入框，以使用户进行相应的登录操作，例如，所述输入框可以包括身份证输入框、银行卡输入框、手机号输入框、验证码输入框等，此处对输入接口的实现形式不作具体限定。

在步骤S104中，获取预设的垃圾信息，并向所述输入接口发送获取到的所述垃圾信息。

可以理解的是，本发明所述的网页数据的处理方法是一种基于信息污染对网页数据进行处理的方法，其中信息污染是指媒介信息中混入了有害性、欺骗性、误导性信息元素，致使信息可用性降低或不可用的一种现象。

本发明实施例中，所述预设的垃圾信息是指混入了有害性、欺骗性、误导性元素的信息，利用这些无价值的数据填充钓鱼网页，致使其获取到的信息中垃圾信息含量大大增加，从而降低其可用性。容易想到的是，所述垃圾信息可以通过服务器自动生成并预先存储。

由上述可知，本实施例提供的网页数据的处理方法，在确定出网页链接地址所指向的网页所属的网站为钓鱼网站时，获取该网页中可供用户输入的输入接口，并向输入接口发送预设的垃圾信息；本发明将垃圾信息自动输入到钓鱼网页的输入接口中并自动提交，以无价值的数据填充钓鱼网页，使其获取到的信息中垃圾信息含量大大增加，从而降低其可用性，整个对抗的流程简单且成本较低，可避免该钓鱼网站继续对原网站进行攻击，减少对原网站的损失和影响，更好的保障用户信息安全。

第二实施例

请参阅图2，图2为本发明第二实施例提供的网页数据的处理方法的流程示意图。所述方法步骤包括：

在步骤S201中，接收网页链接地址。

在步骤S202中，获取所述网页链接地址所指向的网页。

可以理解的是，所述步骤S201和步骤S202可具体包括：

本发明提供的所述网页数据的处理方法是基于BS的系统结构的，用户通过浏览器使用该系统，通过浏览器接受网页链接地址，根据该网页链接地址向服务器发出请求，以等待所述网页链接地址所指向的网页响应，从而获取到所述网页链接地址所指向的网页。

其中，所述网页链接地址可以以统一资源定位符URL的形式进行实现；所述URL是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该如何对其进行处理；可以理解的是，所述网页链接地址还可以以其他形式进行实现，此处举例不构成对本发明的限定。

在步骤S203中，解析所述网页，确定出所述网页所属的网站为钓鱼网站。

可以理解的是，网站是由网页集合而成的，而大家通过浏览器所看到的画面就是网页，网页说具体了是一个超文本标记语言(html，HyperText Mark-up Language)文件，浏览器是用来解读这份文件的，也可以说，网页是有许多html文件集合而成。

也就是说，钓鱼网站是由钓鱼网页集合而成；其中，所述钓鱼网站是指通过伪装成官方网站，诱骗用户访问并输入帐号密码等个人敏感信息，从而非法获取用户的个人敏感数据的一类网站。

需要说明的是，本发明实施例中，解析所述网页就是对网页进行检测，判断所述网页链接地址所指向的网页所属的网站是否为钓鱼网站；本发明实施例中，可以通过URL获取对应网页内容，分析内容提取特征，采用多种检测方法(如分司、恶意特征匹配等)判断目标网页是否为恶意，其中，网页检测(或网址检测)常用于检测网站木马和钓鱼网站。

优选的，在某些实施方式中，可以基于以下方式对所述网页链接地址所指向的网页进行检测：

步骤S2031、根据预设规则，对所述网页链接地址进行过滤；

步骤S2032、判断过滤后的所述网页链接地址所指向的网页是否为预设的白名单网页；

步骤S2033、若所述网页链接地址所指向的网页不是为预设的白名单网页，则确定所述网页所属的网站为钓鱼网站。

也就是说，需要对所述网页链接地址进行过滤，以作为网页检测的首要步骤，主要是为了过滤格式不符合规范网页链接地址，若所述网页链接地址为URL形式，则首先需要对格式不符合规范的URL数据过滤；容易想到的是，规范的格式可以作为预设规则预先存储在服务器中。

经过滤后，对符合规范的网页链接地址继续进行判断，判断所述网页链接地址所指向的网页是否为预设的白名单网页；容易想到的是，所述白名单网页可以预先存储在服务中，其设置主要是为了减少对合法的网站的明显误操作；所述白名单网页可以具体包括某些安全性强的网页，其本身被攻破的概率较小，即被非法操作者用于设置钓鱼网页的概率不大。可以理解的是，对于该类网页，如果进行相应的分析检测，会浪费大量服务器资源，因此将其直接设置为白名单网页。

可以想到的是，当通过上述步骤S2031至步骤S2032的检测后，所述网页链接地址所指向的网页不是为预设的白名单网页时，可认为所述网页所属的网站有为钓鱼网站的嫌疑，因此，本发明实施例中，可以确定该网页所属的网站为钓鱼网站。

在步骤S204中，将所述网页链接地址所指向的网页的数据与预设的网页特征数据库中的网页特征数据相匹配。

在步骤S205中，当所述网页链接地址所指向的网页存在有与所述网页特征数据一致的数据时，确定所述网页具有供用户输入的输入接口。

可以理解的是，所述步骤S204和步骤S205可具体包括：

在确定出所述网页链接地址所指向的网页所属的网站为钓鱼网站后，需要对该网页的整个页面的数据进行扫描，以判断在该网页中是否有存在可供用户输入的输入接口。

以所述网页链接地址为URL形式作为例子，当获取到该URL数据对应的钓鱼网页后，将该钓鱼网页的网页数据(即网页代码)与预设的网页特征数据库中的网页特征数据进行一一匹配，可以理解的是，所述网页特征数据库中的网页特征数据为指示网页中输入接口的特征数据，当检测到钓鱼网页存在有与该网页特征数据一致的网页数据时，就可认为该钓鱼网页中存在有所述输入接口。

容易想到的是，所述网页特征数据库可以预先设置在服务器中，且所述网页特征数据库包括指示网页中输入接口的特征数据。

在步骤S206中，获取所述网页中的输入接口。

在步骤S207中，获取预设的垃圾信息，并向所述输入接口发送获取到的所述垃圾信息。

可以理解的是，所述步骤S206和步骤S207可具体包括：

本发明所述的网页数据的处理方法是一种基于信息污染对网页数据进行处理的方法，其中信息污染是指媒介信息中混入了有害性、欺骗性、误导性信息元素，致使信息可用性降低或不可用的一种现象。

本发明实施例中，所述预设的垃圾信息是指混入了有害性、欺骗性、误导性元素的信息，在获取到所述网页中的输入接口后，利用这些无价值的数据填充钓鱼网页的输入接口，致使其获取到的信息中垃圾信息含量大大增加，从而降低其可用性。容易想到的是，所述垃圾信息可以通过服务器自动生成并预先存储。

优选的，在本发明一种实施方式中，所述服务器可以基于以下方式自动生成所述垃圾信息：

在该实施方式中，所述服务器中可包括一号码池，所述号码池用于生成并存储所述垃圾信息，所述网页中的输入接口可以具体为供用户输入的输入框，其中发送到所述输入框进行填充的垃圾信息可以包括账号以及相应的账号密码这两种数据。

可以理解的是，所述账号的来源可以包括新号、回收号以及假号；其中，新号来自系统自动生成的从未使用过的号码，回收号的来源包括非活跃号码、废弃号码等，假号是指伪造的、不存在于系统中的号码，如某账号要求为由5位阿拉伯数字组成的账号，则假号是要8位阿拉伯数字组成的账号，等等。

上述号码会通过预设的筛选策略做过滤，选出合适的数据注入号码池；在本实施例中，可以根据需要由系统自动生成以下3种类型的垃圾信息：

第一、真帐号、真密码。该类数据由放号系统自动生成，并由后台统一标记为垃圾帐号。该类帐号虽然数据真实但并无实际使用价值，专门针对某些高级钓鱼网站进行帐号和密码有效性检测。

第二、真帐号、假密码。该类数据也是由放号系统生成。某些钓鱼网站为了提高所获取信息的可用性，会增加非法字符检测能力，因此需要输入真帐号才能提交。

第三、假帐号、假密码。该类数据主要是用于是针对普通钓鱼网站进行帐号和密码有效性检测。

可以理解的是，本实施例中，获取预设的垃圾信息，并向所述输入接口发送获取到的所述垃圾信息。即例如，将获取到的预设的垃圾信息发送到输入框进行填充和处理，其中，该填充和处理过程根据所述垃圾信息(账号和相应的密码)的属性，可以基于以下步骤实现，包括：

首先，从所述号码池中获取假帐号和假密码这类数据，若利用所述假帐号、假密码这类数据填充所述输入框不成功，则再从所述号码池中获取真帐号、假密码这类数据，并使用所述真帐号、假密码这类数据填充所述输入框；若利用所述真帐号、假密码这类数据填充所述输入框不成功，则再从所述号码池中获取真帐号、真密码这类数据，并使用所述真帐号、真密码这类数据填充所述输入框。

第三实施例

请参阅图3a，图3a为本发明第三实施例提供的网页数据的处理方法的流程示意图。可一并参考图3b，图3b为该实施例提供的网页数据的处理系统的结构示意图，本实施例中，所述网页数据的处理方法基于如图3b所示的系统进行，所述系统可包括一号码池301、网页数据解析模块302、引擎处理模块303以及网页特征数据库304。

在该实施方式中，所述网页特征数据库304包括指示网页中输入接口的网页特征数据；所述引擎处理模块303可以优选为Webkit引擎，其他实施例中，还可以为IE内核引擎或火狐Firefox引擎，此处不作具体限定。

在该实施方式中，所述号码池301用于生成并存储垃圾信息，所述网页中的输入接口可以具体为供用户输入的输入框，其中发送到所述输入框进行填充的垃圾信息可以包括账号以及相应的账号密码这两种数据。

可以理解的是，所述号码池301的结构可如图3c所示，所述号码池301可以包括新号生成模块3011、回收号生成模块3012、假号生成模块3013、号码过滤模块3014以及垃圾信息确定模块3015；对应的，所述账号可以包括新号、回收号以及假号，所述账号可以为QQ号、微信号等；所述新号生成模块301用于生成新号及相应的密码，所述回收号生成模块3012用于对回收号及相应的密码进行回收存储，所述假号生成模块3013用于生成假号及相应的密码；其中新号是自动生成的从未使用过的号码，回收号包括非活跃号码、废弃号码等，假号是指伪造的、不存在于系统中的号码，如某账号要求为由5位阿拉伯数字组成的账号，则假号是要8位阿拉伯数字组成的账号，等等。

上述号码中，新号以及回收号会通过所述号码过滤模块3014预设的筛选策略做过滤，选出合适的数据，连同假号一同注入垃圾信息确定模块3015；在本实施例中，可以根据需要由系统自动生成以下3种类型的垃圾信息：

可以理解的是，在对网页数据进行处理前，所述引擎处理模块303需预先加载所述网页特征数据库304，并等待接收所述网页链接地址(如URL数据)，当收到网页链接地址时，触发以下步骤，如图3a所示，所述方法步骤包括：

在步骤S301中，接收网页链接地址。

在步骤S302中，获取所述网页链接地址所指向的网页。

可以理解的是，所述步骤S301和步骤S302可具体包括：

本发明提供的所述网页数据的处理方法是基于BS的系统结构的，用户通过浏览器使用该系统，通过浏览器接受网页链接地址，根据该网页链接地址向所述引擎处理模块303发出请求，以等待所述网页链接地址所指向的网页响应，若判断出该请求未超时，则可获取到所述网页链接地址所指向的网页。随后将所述网页链接地址所指向的网页发送到所述网页数据解析模块302进行网页检测。

在步骤S303中，解析所述网页，确定出所述网页所属的网站为钓鱼网站。

所述网页数据解析模块302解析所述网页，其中，所述网页数据解析模块302的结构可参考图3c所示，所述网页数据解析模块302可以包括三个子模块，过滤子模块3021、白名单处理子模块3022以及可信网页处理子模块3023，以对网页进行检测。

可以理解的是，网站是由网页集合而成的，而大家通过浏览器所看到的画面就是网页，网页说具体了是一个超文本标记语言html文件，浏览器是用来解读这份文件的，也可以说，网页是有许多html文件集合而成。

步骤S3031、根据预设规则，所述过滤子模块3021对所述网页链接地址进行过滤；

步骤S3032、白名单处理子模块3022判断过滤后的所述网页链接地址所指向的网页是否为预设的白名单网页；

步骤S3033、若所述网页链接地址所指向的网页不是为预设的白名单网页，则可信网页处理子模块3023判断所述网页链接地址所指向的网页是否为预设的可信网页；

所述可信网页为在预设时间间隔内扫描处理过的网页；

步骤S3034、若所述网页链接地址所指向的网页不是为预设的可信网页，则确定所述网页所属的网站为钓鱼网站。

也就是说，需要对所述网页链接地址进行过滤，以作为网页检测的首要步骤，主要是为了过滤格式不符合规范网页链接地址，若所述网页链接地址为URL形式，则首先需要对格式不符合规范的URL数据过滤；容易想到的是，规范的格式可以作为预设规则预先存储在所述过滤子模块3021中。

经过滤后，对符合规范的网页链接地址继续进行判断，判断所述网页链接地址所指向的网页是否为预设的白名单网页；容易想到的是，所述白名单网页可以预先存储在白名单处理子模块3022中，其设置主要是为了减少对合法的网站的明显误操作；所述白名单网页可以具体包括某些安全性强的网页，其本身被攻破的概率较小，即被非法操作者用于设置钓鱼网页的概率不大。可以理解的是，对于该类网页，如果进行相应的分析检测，会浪费大量服务器资源，因此将其直接设置为白名单网页。

优选的，当判断出所述网页链接地址所指向的网页不是为预设的白名单网页后，还可以进一步的判断所述网页链接地址所指向的网页是否为预设的可信网页，所述可信网页为在预设时间间隔内扫描处理过的网页；容易想到的是，所述预设的可信网页可以预先存储在可信网页处理子模块3023中；可以理解的是，对于最近一段时间内扫描且处理过的网页，可认为其在最近一段时间内是安全的，因此不再进行相应的分析检测，同样的，能大幅度降低数据处理量。

可以想到的是，当通过上述步骤S3031至步骤S3033的检测后，所述网页链接地址所指向的网页不是为预设的可信网页时，可认为所述网页所属的网站有为钓鱼网站的嫌疑，因此，本发明实施例中，可以确定该网页所属的网站为钓鱼网站，并发送至所述引擎处理模块303进行处理。

在步骤S304中，将所述网页链接地址所指向的网页的数据与预设的网页特征数据库中的网页特征数据相匹配。

在步骤S305中，当所述网页链接地址所指向的网页存在有与所述网页特征数据一致的数据时，确定所述网页具有供用户输入的输入接口。

可以理解的是，所述步骤S304和步骤S305可具体包括：

在确定出所述网页链接地址所指向的网页所属的网站为钓鱼网站后，所述引擎处理模块303需要对该网页的整个页面的数据进行扫描，以判断在该网页中是否有存在可供用户输入的输入接口。

在步骤S306中，根据所述网页链接地址对所述网页进行优先级划分。

在步骤S307中，按照所述网页的优先级由高到低，依序获取所述网页中的输入接口；

在步骤S308中，获取预设的垃圾信息，并向所述输入接口发送获取到的所述垃圾信息。

可以理解的是，所述步骤S306至步骤S308可基于所述网页数据解析模块302的网页提取策略模块(如URL数据的提取策略模块)3024实现；所述网页提取策略模块3024用于对网页优先级进行划分，以优化对网页的处理顺序，例如对于某些特定的小网站、新申请的域名(Domain Name)、具体敏感公共网关接口CGI(Common Gateway Interface)的网站等，需要提高其优先级；另一方面，对于某些常规大站，存在钓鱼网页的可能性相对较少，可以降低处理优先级。

可以理解的是，域名是由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称，通常在网页浏览器地址栏中输入域名即可访问对应的网站，而免费域名是指某些网站开放子域名，供其它用户注册免费使用。例如提供免费域名服务的网站3322.org，用户可以免费注册类似于test.3322.org的子域名；公共网关接口CGI是WWW技术中最重要的技术之一。

本发明实施例中，所述预设的垃圾信息是指混入了有害性、欺骗性、误导性元素的信息，在获取到所述网页中的输入接口后，利用这些无价值的数据填充钓鱼网页的输入接口，致使其获取到的信息中垃圾信息含量大大增加，从而降低其可用性。容易想到的是，所述垃圾信息可以通过上如图3c所示的号码池301自动生成并预先存储，此处不再具体描述。

可以理解的是，本实施例中，所述引擎处理模块303从所述号码池301中获取预设的垃圾信息，并向所述输入接口发送获取到的所述垃圾信息。例如，将获取到的预设的垃圾信息发送到输入框进行填充和处理，其中，该填充和处理过程根据所述垃圾信息(账号和相应的密码)的属性，可以基于以下步骤实现，包括：

首先，从号码池中获取假帐号和假密码这类数据，若利用所述假帐号、假密码这类数据填充所述输入框不成功，则再从号码池中获取真帐号、假密码这类数据，并使用所述真帐号、假密码这类数据填充所述输入框；若利用所述真帐号、假密码这类数据填充所述输入框不成功，则再从号码池中获取真帐号、真密码这类数据，并使用所述真帐号、真密码这类数据填充所述输入框。

第四实施例

为便于更好的实施本发明实施例提供的网页数据的处理方法，本发明实施例还提供一种基于上述基于网页数据的处理方法的装置。其中名词的含义与上述基于即时通讯的智能控制方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图4，图4为本发明第四实施例提供的网页数据的处理装置的结构示意图，其中所述网页数据的处理装置包括：接收模块401、第一获取模块402、第二获取模块403、第三获取模块404以及发送模块405；

其中所述接收模块401，用于接收网页链接地址；所述第一获取模块402，用于获取所述网页链接地址所指向的网页。

可以理解的是，本发明提供的所述网页数据的处理装置是基于BS的系统结构的，用户通过浏览器使用该系统，通过浏览器接受网页链接地址，根据该网页链接地址向服务器发出请求，以等待所述网页链接地址所指向的网页响应，从而获取到所述网页链接地址所指向的网页。

所述第二获取模块403，用于若确定出所述网页所属的网站为钓鱼网站时，获取所述网页中的输入接口，所述输入接口可供用户输入；

所述第三获取模块404，用于获取预设的垃圾信息；所述发送模块405，用于向所述输入接口发送获取到的所述垃圾信息。

可以理解的是，本发明所述的网页数据的处理装置是一种基于信息污染对网页数据进行处理的装置，其中信息污染是指媒介信息中混入了有害性、欺骗性、误导性信息元素，致使信息可用性降低或不可用的一种现象。

由上述可知，本实施例提供的网页数据的处理装置，在确定出网页链接地址所指向的网页所属的网站为钓鱼网站时，获取该网页中可供用户输入的输入接口，并向输入接口发送预设的垃圾信息；本发明将垃圾信息自动输入到钓鱼网页的输入接口中并自动提交，以无价值的数据填充钓鱼网页，使其获取到的信息中垃圾信息含量大大增加，从而降低其可用性，整个对抗的流程简单且成本较低，可避免该钓鱼网站继续对原网站进行攻击，减少对原网站的损失和影响，更好的保障用户信息安全。

第五实施例

请参阅图5，图5为本发明第五实施例提供的网页数据的处理装置的结构示意图，其中所述网页数据的处理装置包括：接收模块501、第一获取模块502、第二获取模块503、第三获取模块504以及发送模块505，可以理解的是，该实施例中上述各功能模块的功能作用可对应参考第四实施例中的接收模块401、第一获取模块402、第二获取模块403、第三获取模块404以及发送模块405的相关描述，此处不作赘述。

可以理解的是，本发明提供的所述网页数据的处理装置是基于BS的系统结构的，用户通过浏览器使用该系统，通过浏览器接受网页链接地址，根据该网页链接地址发出请求，以等待所述网页链接地址所指向的网页响应，若判断出该请求未超时，则可获取到所述网页链接地址所指向的网页。

优选的，所述装置还可以包括过滤模块506、第一判断模块507、第一确定模块508，以对网页进行检测，判断所述网页链接地址所指向的网页所属的网站是否为钓鱼网站。本发明实施例中，可以通过URL获取对应网页内容，分析内容提取特征，采用多种检测方法(如分司、恶意特征匹配等)判断目标网页是否为恶意，其中，网页检测(或网址检测)常用于检测网站木马和钓鱼网站。

优选的，可以基于以下方式对所述网页链接地址所指向的网页进行检测：其中所述过滤模块506，用于根据预设规则，对所述网页链接地址进行过滤；所述第一判断模块507，用于判断过滤后的所述网页链接地址所指向的网页是否为预设的白名单网页；所述第一确定模块508，用于若所述网页链接地址所指向的网页不是为预设的白名单网页，则确定所述网页所属的网站为钓鱼网站。

也就是说，在该实施例中，需要对所述网页链接地址进行过滤，以作为网页检测的首要步骤，主要是为了过滤格式不符合规范网页链接地址，若所述网页链接地址为URL形式，则首先需要对格式不符合规范的URL数据过滤；容易想到的是，规范的格式可以作为预设规则预先存储在服务器中。

可以想到的是，当所述网页链接地址所指向的网页不是为预设的白名单网页时，可认为所述网页所属的网站有为钓鱼网站的嫌疑，因此，本发明实施例中，可以确定该网页所属的网站为钓鱼网站。

进一步优选的，所述装置还可以包括第二判断模块509以及第二确定模块510：

所述第二判断模块509，用于若所述网页链接地址所指向的网页不是为预设的白名单网页，则判断所述网页链接地址所指向的网页是否为预设的可信网页，所述可信网页为在预设时间间隔内扫描处理过的网页；所述第二确定模块510，用于若所述网页链接地址所指向的网页不是为预设的可信网页，则确定所述网页所属的网站为钓鱼网站。

即该实施例中，当判断出所述网页链接地址所指向的网页不是为预设的白名单网页后，还可以进一步的判断所述网页链接地址所指向的网页是否为预设的可信网页，所述可信网页为在预设时间间隔内扫描处理过的网页；容易想到的是，所述预设的可信网页可以预先存储在可信网页处理子模块3023中；可以理解的是，对于最近一段时间内扫描且处理过的网页，可认为其在最近一段时间内是安全的，因此不再进行相应的分析检测，同样的，能大幅度降低数据处理量。

可以想到的是，当所述网页链接地址所指向的网页不是为预设的可信网页时，可认为所述网页所属的网站有为钓鱼网站的嫌疑，因此，本发明实施例中，可以确定该网页所属的网站为钓鱼网站。

即该实施例中，过滤模块506、第一判断模块507、第一确定模块508、第二判断模块509以及第二确定模块510用于确定该网页所属的网站为钓鱼网站，当确定该网页所属的网站为钓鱼网站后，再进行垃圾信息的发送处理。

更进一步的，在该实施方式中，所述装置还可以包括优先级划分模块，所述优先级划分模块，用于根据所述网页链接地址对所述网页进行优先级划分；则所述第二获取模块503，用于若确定出所述网页所属的网站为钓鱼网站时，按照所述网页的优先级由高到低，依序获取所述网页中的输入接口。

可以理解的是，对网页优先级进行划分，以优化对网页的处理顺序，例如对于某些特定的小网站、新申请的域名(Domain Name)、具体敏感公共网关接口CGI的网站等，需要提高其优先级；另一方面，对于某些常规大站，存在钓鱼网页的可能性相对较少，可以降低处理优先级。

可以理解的是，域名是由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称，通常在网页浏览器地址栏中输入域名即可访问对应的网站。

在某些实施方式中，所述装置还可以包括匹配模块以及第三确定模块，以确定所述网页中是否具有供用户今夕输入的输入接口；

其中所述匹配模块，用于将所述网页链接地址所指向的网页的数据与预设的网页特征数据库中的网页特征数据相匹配；所述第三确定模块，用于当所述网页链接地址所指向的网页存在有与所述网页特征数据一致的数据时，确定所述网页具有供用户输入的输入接口。

本发明所述的网页数据的处理装置是一种基于信息污染对网页数据进行处理的装置，其中信息污染是指媒介信息中混入了有害性、欺骗性、误导性信息元素，致使信息可用性降低或不可用的一种现象。

本发明实施例中，所述预设的垃圾信息是指混入了有害性、欺骗性、误导性元素的信息，在获取到所述网页中的输入接口后，利用这些无价值的数据填充钓鱼网页的输入接口，致使其获取到的信息中垃圾信息含量大大增加，从而降低其可用性。容易想到的是，所述垃圾信息可以通过号码池自动生成并预先存储。

其中，所述号码池用于生成并存储所述垃圾信息，所述网页中的输入接口可以具体为供用户输入的输入框，其中发送到所述输入框进行填充的垃圾信息可以包括账号以及相应的账号密码这两种数据。

可以理解的是，所述账号可以包括新号、回收号以及假号；其中，新号来自系统自动生成的从未使用过的号码，回收号的来源包括非活跃号码、废弃号码等，假号是指伪造的、不存在于系统中的号码，如某账号要求为由5位阿拉伯数字组成的账号，则假号是要8位阿拉伯数字组成的账号，等等。

上述号码会通过预设的筛选策略做过滤，选出合适的数据注入号码池；在本实施例中，可以根据需要由系统自动生成以下3种类型的垃圾信息：第一、真帐号、真密码。该类数据由放号系统自动生成，并由后台统一标记为垃圾帐号。该类帐号虽然数据真实但并无实际使用价值，专门针对某些高级钓鱼网站进行帐号和密码有效性检测。第二、真帐号、假密码。该类数据也是由放号系统生成。某些钓鱼网站为了提高所获取信息的可用性，会增加非法字符检测能力，因此需要输入真帐号才能提交。第三、假帐号、假密码。该类数据主要是用于是针对普通钓鱼网站进行帐号和密码有效性检测。

容易想到的是，所述号码池的结构以及生成垃圾信息的具体过程可以参考图3c以及上述实施例的相关描述，此处不再赘述。

可以理解的是，本实施例中，从所述号码池301中获取预设的垃圾信息，并向所述输入接口发送获取到的所述垃圾信息。例如，将获取到的预设的垃圾信息发送到输入框进行填充和处理，其中，该填充和处理过程根据所述垃圾信息(账号和相应的密码)的属性，可以基于以下步骤实现，包括：

需要说明的是，具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，例如：本实施例中的过滤模块506、第一判断模块507、第一确定模块508、第二判断模块509以及第二确定模块510与第三实施例中的网页数据解析模块302相对应等，以上各个单元的具体实施可参见前面的实施例，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对网页数据的处理方法的详细描述，此处不再赘述。

第六实施例

本发明实施例还提供一种服务器，其中可以集成本发明实施例的网页数据的处理装置，如图6所示，其示出了本发明实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、射频(Radio Frequency，RF)电路603、电源604、输入单元605、以及显示单元606等部件。本领域技术人员可以理解，图6中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器601是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器601可包括一个或多个处理核心；优选的，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。

存储器602可用于存储软件程序以及模块，处理器601通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器601对存储器602的访问。

RF电路603可用于收发信息过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器601处理；另外，将涉及上行的数据发送给基站。通常，RF电路603包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路603还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobilecommunication)、通用分组无线服务(GPRS，General Packet Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband CodeDivision Multiple Access)、长期演进(LTE，Long Term Evolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

服务器还包括给各个部件供电的电源604(比如电池)，优选的，电源可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源604还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元605，该输入单元605可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该服务器还可包括显示单元606，该显示单元606可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元608可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-EmittingDiode)等形式来配置显示面板。

具体在本实施例中，服务器中的处理器601会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而实现各种功能，如下：

接收网页链接地址；获取所述网页链接地址所指向的网页；若确定出所述网页所属的网站为钓鱼网站时，获取所述网页中的输入接口，所述输入接口可供用户输入；获取预设的垃圾信息，并向所述输入接口发送获取到的所述垃圾信息。

优选的，所述处理器601还可以用于：根据预设规则，对所述网页链接地址进行过滤；判断过滤后的所述网页链接地址所指向的网页是否为预设的白名单网页；若所述网页链接地址所指向的网页不是为预设的白名单网页，则确定所述网页所属的网站为钓鱼网站。

进一步优选的，所述处理器601还可以用于若所述网页链接地址所指向的网页不是为预设的白名单网页，则判断所述网页链接地址所指向的网页是否为预设的可信网页，所述可信网页为在预设时间间隔内扫描处理过的网页；若所述网页链接地址所指向的网页不是为预设的可信网页，则确定所述网页所属的网站为钓鱼网站。

在某些实施方式中，所述确定出所述网页所属的网站为钓鱼网站之后，所述处理器601还可以根据所述网页链接地址对所述网页进行优先级划分，则所述获取所述网页中的输入接口，包括：按照所述网页的优先级由高到低，依序获取所述网页中的输入接口。

在某些实施方式中，所述获取所述网页中的输入接口之前，所述处理器601还可以将所述网页链接地址所指向的网页的数据与预设的网页特征数据库中的网页特征数据相匹配；当所述网页链接地址所指向的网页存在有与所述网页特征数据一致的数据时，确定所述网页具有供用户输入的输入接口。

由上述可知，本实施例提供的服务器，在确定出网页链接地址所指向的网页所属的网站为钓鱼网站时，获取该网页中可供用户输入的输入接口，并向输入接口发送预设的垃圾信息；本发明将垃圾信息自动输入到钓鱼网页的输入接口中并自动提交，以无价值的数据填充钓鱼网页，使其获取到的信息中垃圾信息含量大大增加，从而降低其可用性，整个对抗的流程简单且成本较低，可避免该钓鱼网站继续对原网站进行攻击，减少对原网站的损失和影响，更好的保障用户信息安全。

本发明实施例提供的所述网页数据的处理装置，譬如为计算机、平板电脑、具有触摸功能的手机等等，所述网页数据的处理装置与上文实施例中的网页数据的处理方法属于同一构思，在所述网页数据的处理装置上可以运行所述网页数据的处理方法实施例中提供的任一方法，其具体实现过程详见所述网页数据的处理方法实施例，此处不再赘述。

需要说明的是，对本发明所述网页数据的处理方法而言，本领域普通测试人员可以理解实现本发明实施例所述网页数据的处理方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在终端的存储器中，并被该终端内的至少一个处理器执行，在执行过程中可包括如所述网页数据的处理方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)等。

对本发明实施例的所述网页数据的处理装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

以上对本发明实施例所提供的一种网页数据的处理方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种网页数据的处理方法，其特征在于，所述方法包括：

接收网页链接地址；

获取所述网页链接地址所指向的网页；

根据预设的垃圾信息的真实性对所述垃圾信息进行分类，得到多种不同类型的垃圾信息，所述垃圾信息包括真账号、真密码的垃圾信息，真账号、假密码的垃圾信息，以及假账号、假密码的垃圾信息，所述真账号、真密码的垃圾信息指真实但无使用价值的数据，用于对预设高级钓鱼网站进行账号和密码有效性检测，所述真账号、假密码的垃圾信息用于对增加非法字符检测能力的钓鱼网站进行账号和密码有效性检测，所述假账号、假密码的垃圾信息用于对普通钓鱼网站进行账号和密码有效性检测；

获取所述预设的垃圾信息，并按照先填充假账号、假密码的垃圾信息，再填充真账号、假密码的垃圾信息，以及真账号、真密码的垃圾信息的顺序，向所述输入接口依次尝试发送所述不同类型的垃圾信息，以使用不同类型的垃圾信息填充相应类型的钓鱼网站，通过不同类型的钓鱼网站的账号和密码有效性检测。

2.根据权利要求1所述的网页数据的处理方法，其特征在于，所述确定所述网页所属的网站为钓鱼网站，包括：

根据预设规则，对所述网页链接地址进行过滤；

判断过滤后的所述网页链接地址所指向的网页是否为预设的白名单网页；

若所述网页链接地址所指向的网页不是为预设的白名单网页，则确定所述网页所属的网站为钓鱼网站。

3.根据权利要求2所述的网页数据的处理方法，其特征在于，所述确定所述网页所属的网站为钓鱼网站，还包括：

若所述网页链接地址所指向的网页不是为预设的白名单网页，则判断所述网页链接地址所指向的网页是否为预设的可信网页，所述可信网页为在预设时间间隔内扫描处理过的网页；

若所述网页链接地址所指向的网页不是为预设的可信网页，则确定所述网页所属的网站为钓鱼网站。

4.根据权利要求1至3任一项所述的网页数据的处理方法，其特征在于，所述确定出所述网页所属的网站为钓鱼网站之后，还包括：

根据所述网页链接地址对所述网页进行优先级划分；

所述获取所述网页中的输入接口，包括：

按照所述网页的优先级由高到低，依序获取所述网页中的输入接口。

5.根据权利要求1至3任一项所述的网页数据的处理方法，其特征在于，所述获取所述网页中的输入接口之前，还包括：

将所述网页链接地址所指向的网页的数据与预设的网页特征数据库中的网页特征数据相匹配；

当所述网页链接地址所指向的网页存在有与所述网页特征数据一致的数据时，确定所述网页具有供用户输入的输入接口。

6.一种网页数据的处理装置，其特征在于，所述装置包括：

接收模块，用于接收网页链接地址；

第一获取模块，用于获取所述网页链接地址所指向的网页；

第三获取模块，用于根据预设的垃圾信息的真实性对所述垃圾信息进行分类，得到多种不同类型的垃圾信息，所述垃圾信息包括真账号、真密码的垃圾信息，真账号、假密码的垃圾信息，以及假账号、假密码的垃圾信息，所述真账号、真密码的垃圾信息指真实但无使用价值的数据，用于对预设高级钓鱼网站进行账号和密码有效性检测，所述真账号、假密码的垃圾信息用于对增加非法字符检测能力的钓鱼网站进行账号和密码有效性检测，所述假账号、假密码的垃圾信息用于对普通钓鱼网站进行账号和密码有效性检测；获取所述预设的垃圾信息；

发送模块，用于按照先填充假账号、假密码的垃圾信息，再填充真账号、假密码的垃圾信息，以及真账号、真密码的垃圾信息的顺序，向所述输入接口依次尝试发送所述不同类型的垃圾信息，以使用不同类型的垃圾信息填充相应类型的钓鱼网站，通过不同类型的钓鱼网站的账号和密码有效性检测。

7.根据权利要求6所述的网页数据的处理装置，其特征在于，所述装置还包括：

过滤模块，用于根据预设规则，对所述网页链接地址进行过滤；

第一判断模块，用于判断过滤后的所述网页链接地址所指向的网页是否为预设的白名单网页；

第一确定模块，用于若所述网页链接地址所指向的网页不是为预设的白名单网页，则确定所述网页所属的网站为钓鱼网站。

8.根据权利要求7所述的网页数据的处理装置，其特征在于，所述装置还包括：

第二判断模块，用于若所述网页链接地址所指向的网页不是为预设的白名单网页，则判断所述网页链接地址所指向的网页是否为预设的可信网页，所述可信网页为在预设时间间隔内扫描处理过的网页；

第二确定模块，用于若所述网页链接地址所指向的网页不是为预设的可信网页，则确定所述网页所属的网站为钓鱼网站。

9.根据权利要求6至8任一项所述的网页数据的处理装置，其特征在于，所述装置还包括：

优先级划分模块，用于根据所述网页链接地址对所述网页进行优先级划分；

则所述第二获取模块，用于若确定出所述网页所属的网站为钓鱼网站时，按照所述网页的优先级由高到低，依序获取所述网页中的输入接口。

10.根据权利要求6至8任一项所述的网页数据的处理装置，其特征在于，所装置还包括：

匹配模块，用于将所述网页链接地址所指向的网页的数据与预设的网页特征数据库中的网页特征数据相匹配；

第三确定模块，用于当所述网页链接地址所指向的网页存在有与所述网页特征数据一致的数据时，确定所述网页具有供用户输入的输入接口。

11.一种计算机可读存储介质，其存储有计算机程序，其中，所述计算机程序使得计算机执行如权利要求1至5任一项所述的方法。

12.一种服务器，包括处理器和存储器，所述存储器存储有用于网页数据处理的计算机程序，其中，所述处理器加载所述存储器的计算机程序执行如权利要求1至5任一项所述的方法。