CN102609518B

CN102609518B - 多状态ajax网页内容获取方法及系统

Info

Publication number: CN102609518B
Application number: CN201210028947.4A
Authority: CN
Inventors: 任勇; 彭兆盟; 徐蕾; 何能强; 姜春晓; 李治华; 孙权
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2012-02-09
Filing date: 2012-02-09
Publication date: 2015-02-18
Anticipated expiration: 2032-02-09
Also published as: CN102609518A

Abstract

本发明是一种多状态AJAX网页内容自动获取方法和系统，属于互联网数据挖掘技术领域。该方法包括：加载网页并提取AJAX调用事件，按照基于AJAX状态转换图的遍历方法逐步执行所有AJAX调用事件，并用AJAX状态识别方法判断每次执行得到的状态是否是重复状态，从而自动获取多状态AJAX网页所有状态内容和状态转换信息。与所述方法相对应的系统包括：事件识别和执行单元、页面状态识别单元和状态遍历调度单元。通过本发明能获取到多状态AJAX网页内容和状态转换信息，使搜索引擎能够索引更完整的网页内容。

Description

多状态AJAX网页内容获取方法及系统

技术领域

本发明涉及互联网数据挖掘技术领域，特别涉及一种多状态AJAX网页内容自动获取方法及系统。

背景技术

随着互联网的不断发展，互联网已经进入了Web 2.0时代，越来越多的网站开发者采用AJAX等技术开发他们的网站。AJAX(Asynchronous JavaScript and XML，异步JavaScript和XML)技术可以使部分页面异步更新，用户可以在不刷新整个页面的情况下动态获取更新部分，带来了更小的等待延时和更好的用户体验。AJAX网页与传统的静态网页不一样，每个页面可以分成不同的“状态”：一个AJAX页面同一个URL(Uniform Resource Locator，统一资源定位符)下可以有不同页面状态，每个状态上可能有不同的AJAX调用事件，这些状态之间通过执行AJAX调用事件进行相互转换，状态之间的转换可以形成一个有向的状态转换图：顶点为状态，边为AJAX调用事件。

网络爬虫是是一种互联网数据获取系统，能自动获取互联网上的网页内容，是搜索引擎的重要组成部分。传统爬虫不执行JavaScript脚本，因此不能抓取AJAX网页执行脚本后动态加载的网页内容。现有的支持AJAX网页的爬虫加入了JavaScript解析功能，如申请号为200910133630.5的中国专利《一种AJAX网页内容的抓取方法及系统》，但该类爬虫仍只是根据网页的URL进行网页内容抓取，同一URL对应的AJAX网页内容只抓取一次。然而常见的AJAX网页一个URL通常都对应多个页面状态，比如AJAX分页应用，一个URL对应多个分页状态，现有的抓取方法不支持同一网址下的多状态内容自动识别和获取。

发明内容

(一)要解决的技术问题

有鉴于此，本发明的目的在于提出一种多状态AJAX网页内容获取方法和系统，以解决多状态AJAX网页中所有不同状态的自动获取。

(二)技术方案

为了解决上述技术问题，本发明提供一种多状态AJAX网页内容获取方法，包括步骤：

S101：通过URL加载AJAX网页，得到网页初始状态，并在AJAX状态转换图上添加一个对应该网页初始状态的新顶点；

S102：判断顶点数是否大于阈值，若是转向步骤S111，否则转向步骤S103；

S103：提取出该网页当前状态上的每一个AJAX调用事件，若为新事件，加入到该状态对应的AJAX调用事件队列中，否则在状态转换图上添加一条边，该边始于当前状态顶点，终于目标状态顶点；

S104：判断该状态AJAX调用事件队列是否为空，若该状态AJAX调用事件队列不为空，则转向步骤S105，否则转向步骤S109；

S105：从队列中取出一个新的AJAX调用事件并执行；

S106：判断得到的状态是否为新状态，若是新状态，转向步骤S107，否则转向步骤S108；

S107：在AJAX状态转换图上添加一个对应该状态的新顶点，并添加一条从前一状态顶点到当前状态顶点的边，转向步骤S102；

S108：添加一条从前一状态顶点到当前状态顶点的边，转向步骤S104；

S109：寻找AJAX调用事件队列不为空的状态，若找到，转向步骤S110，否则转向步骤S111；

S110：导航到所述AJAX调用事件队列不为空的状态，转向步骤S105；

S111：本次抓取过程结束。

优选地，所述步骤S110中导航到AJAX调用事件队列不为空的状态的方法为：在已得到的状态转换图中找到从当前状态到新状态之间的最短路径，并执行最短路径上的事件导航到新状态。

优选地，利用dijkstra算法在状态转换图中找到对应顶点之间的最短路径。

优选地，所述步骤S106中判断得到的状态是否为新状态的方法包括步骤：

S201：AJAX页面状态过滤，去除页面状态中包括无关标签及其属性的无关部分；

S202：应用AJAX重复状态检测方法比较页面状态。

优选地，所述AJAX重复状态检测方法包括步骤：

S202a：比较两个处理后的状态Hash值是否相同，若相同，则是重复状态，否则继续进行步骤S202b；

S202b：比较两个状态上的AJAX调用事件是否相同，若不相同，则是新状态；若相同则比较两个状态是否近似重复，若是，则是重复状态，否则是新状态。

优选地，所述步骤S202b中比较两个状态是否近似重复的方法包括：比较两个状态的文本长度之差、simhash值距离和编辑距离是否超过阈值，若均不超过，则是近似重复，否则是新状态。

本发明还提供一种多状态AJAX网页内容获取系统，包括：事件识别和执行单元、页面状态识别单元和状态遍历调度单元；

所述页面状态识别单元通过URL加载AJAX网页，得到网页初始状态，并在AJAX状态转换图上添加一个对应该网页初始状态的新顶点；页面状态识别单元还能够判断顶点数是否大于阈值，当顶点数大于阈值时抓取过程结束；页面状态识别单元还能够判断得到的状态是否为新状态，若是新状态，在AJAX状态转换图上添加一个对应该状态的新顶点，并添加一条从前一状态顶点到当前状态顶点的边，否则添加一条从前一状态顶点到当前状态顶点的边；

所述事件识别和执行单元提取出该网页当前状态上的每一个AJAX调用事件，若为新事件，加入到该状态对应的AJAX调用事件队列中，否则在状态转换图上添加一条边，该边始于当前状态顶点，终于目标状态顶点；事件识别和执行单元还能够判断该状态AJAX调用事件队列是否为空，若该状态AJAX调用事件队列不为空，则从队列中取出一个新的AJAX调用事件并执行，否则寻找AJAX调用事件队列不为空的状态；

所述状态遍历调度单元在抓取过程结束后遍历整个状态转换图，得到状态转换信息，获取所有状态内容。

优选地，所述事件识别和执行单元用JavaScript引擎或者嵌入式浏览器来实现。

优选地，所述页面状态识别单元还能够识别重复或者近似重复页面状态；首先进行AJAX页面状态过滤，去除页面状态中包括无关标签及其属性的无关部分；然后比较两个处理后的状态Hash值是否相同，若相同，则是重复状态，否则比较两个状态上的AJAX调用事件是否相同，若不相同，则是新状态；若相同则比较两个状态是否近似重复，若是，则是重复状态，否则是新状态。比较两个状态是否近似重复的方法包括：比较两个状态的文本长度之差、simhash值距离和编辑距离是否超过阈值，若均不超过，则是近似重复，否则是新状态。

优选地，所述所述状态遍历调度单元可以逐步获得状态转换图，若当前状态所有AJAX事件都已执行完时，还能够导航到一个AJAX调用事件未全部完成的状态。

(三)有益效果

本发明支持同一网址下的多状态内容自动识别和获取，能获取到多状态AJAX网页内容和状态转换信息，使搜索引擎能够索引更完整的网页内容

附图说明

图1是AJAX状态转换图示例；

图2是本发明多状态AJAX网页内容自动获取方法一实施例的流程图；

图3是本发明方法中AJAX网页状态比较方法一实施例的流程图；

图4是本发明方法中近似重复比较方法一实施例的流程图；

图5是本发明多状态AJAX网页内容获取系统结构框图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不是限制本发明的范围。

AJAX网页与传统静态网页不同，每个URL对应的AJAX页面可能包含多个页面状态，在每个页面状态上有一些AJAX调用事件，执行这些AJAX调用事件导致AJAX状态切换。每个AJAX网页都有一个隐含的状态转换图来控制页面的交互方式，图1所示即为一个简单的使用AJAX进行分页的页面状态转换图，值得注意的是，在每个状态均可通过重新载入URL(Reload)返回到初始状态(图1中的虚线)。由于大多数AJAX网页并不支持状态“回退”，即从当前状态通过浏览器“后退”方法回退到前一状态，也不能直接跳转到任一状态，因此不能直接使用传统的深度优先或者广度优先方法来遍历整个状态转换图。

图2所示为本发明多状态AJAX内容获取方法一实施例的流程图，包括以下步骤：

步骤S101：通过URL获得AJAX网页代码，加载该AJAX网页，得到初始状态，并在AJAX状态转换图上添加一个对应初始状态的新顶点；

本实施例中使用JavaScript引擎或者嵌入式浏览器加载AJAX网页的动态内容以及执行AJAX调用动作，以解决传统爬虫不执行JavaScript导致不能得到动态加载的内容的问题。

步骤S102：若顶点数大于某阈值，转向步骤S111；

大多数AJAX页面只包含有限状态，但有少部分AJAX页面包含无穷多状态，此步骤是为了防止出现无穷多状态导致抓取失败的问题。

步骤S103：提取出当前状态上的每一个AJAX调用事件，若为新事件，加入到该状态对应的AJAX调用事件队列中；否则在状态转换图上添加一条边，该边始于当前状态顶点，终于目标状态顶点；

此步骤提取出每一个得到的新状态上的AJAX调用事件队列，由于不同的状态上可能有相同的AJAX调用事件，为了减少不必要的执行，对于重复事件已经知道该事件执行的结果，因此只需在状态转换图上添加相应的边即可。

步骤S104：若该状态AJAX调用事件队列不为空，则转向步骤S105，否则转向步骤S109；

若此状态还有未执行的AJAX调用事件，则执行之；否则跳转到寻找未完成状态的流程。

步骤S105：从队列中取出一个新的AJAX调用事件并执行；

利用JavaScript引擎或者嵌入式浏览器执行该AJAX调用事件，如“onclick()”等，并解析执行后得到的页面状态。

步骤S106：对于得到的状态，与已经得到的所有状态比较，若是新状态，转向步骤S107，否则转向步骤S108；

此步骤判断得到的状态是否为新状态，由于AJAX不能通过URL识别状态，也不能简单的通过hash值来识别，需要应用AJAX重复状态识别方法。

步骤S107：在AJAX状态转换图上添加一个对应该状态的新顶点，并添加一条从前一状态顶点到当前状态顶点的边，转向步骤S102；

此步骤是得到新状态的处理方式：在状态转换图上增加相应的顶点和边，并转向新状态的处理流程。

步骤S108：添加一条从前一状态顶点到当前状态顶点的边，转向步骤S104；

此步骤是得到重复状态的处理方式：只在状态转换图上增加相应的边，并转向重复状态的处理流程。

步骤S109：寻找AJAX调用事件队列不为空的状态，若找到，转向步骤S110，否则转向步骤S111；

此步骤为当前状态所有AJAX调用事件都已执行完毕时的操作，可能有多个状态AJAX调用事件队列不为空，可以从中任取一个。状态转换图遍历方法的复杂度与此时的操作有关，导航到AJAX调用事件队列不为空的状态所需步骤越少，复杂度就越低。由于完整的状态转换图在抓取完成之前并不可知，因此难以设计出全局最优方法，一种贪婪方法利用dijkstra算法从已经得到的状态转换图中找出距离当前状态顶点最近的状态顶点。

步骤S110：在已得到的状态转换图中找到从当前状态到新状态之间的最短路径，并执行最短路径上的事件导航到新状态，转向步骤S105；

此步骤利用dijkstra算法在状态转换图中找到对应顶点之间的最短路径并导航到新状态，值得注意的是每个状态可以通过重新载入URL得到初始状态，因此每个状态顶点均有一条到初始状态顶点的隐含的边，如图1中的虚线。

步骤S111：本次抓取过程结束。

此时所有AJAX调用事件均已触发，说明该AJAX页面全部信息均已得到，或者抓取的状态数超过了预先设定的阈值，抓取过程结束。

AJAX网页具有高度的页面动态性，而一个极细微的改变就会导致hash值完全不同，因此需要采用一种鲁棒的重复状态识别方法。参见图3，方法如下：

步骤S201：AJAX页面状态过滤，去除页面状态中无关的部分；

由于只关心内容的获取，不关心呈现方式的变化比如字体、颜色等的改变。因此在比较重复状态之前，需要进行页面的预处理，过滤掉网页中的一些无关元素如<style>、<script>等标签以及无关标签属性，但要保存文本部分和有关AJAX调用事件的页面元素。

步骤S202：应用AJAX重复状态检测方法比较页面状态。

在进行完预处理之后就可以通过一些近似重复比较方法来比较页面状态。由于完全重复的状态Hash值相同，而且两个重复状态上的AJAX调用事件一定相同，因此可以利用这些性质加速判断，图4是一种推荐的状态比较方法：

步骤S202a：比较两个处理后的状态Hash值是否相同，若相同，则是重复状态，否则继续进行步骤S202b；

步骤S202b：比较两个状态上的AJAX调用事件是否相同，若不相同，则是新状态，否则继续进行近似重复状态比较，忽略页面元素的细微变化；

比较两个状态是否近似重复，若是，则是重复状态，否则是新状态。可以利用一些常用的近似重复状态比较方法如Simhash值、编辑距离等来比较页面距离是否超过阈值，另外近似重复状态文本长度之差也要小于阈值。图4中步骤S202c～S202e是一种推荐的近似重复状态比较方法流程，分别比较两个状态的文本长度之差、simhash值距离和编辑距离是否超过阈值，若均不超过，则是近似重复，否则是新状态。每次得到的新状态要和所有已存在的所有状态比较，因此需要记录之前得到的状态的相关信息。这种比较方法只需要很小的额外信息，多次比较方法的准确度依次增加，但复杂度也是依次增加，通过这种方式可以避免一些不必要的比较，提高比较的效率。

相应于上面的方法，本发明还提供一种多状态AJAX网页内容自动获取系统，参见图5所示，包括：

事件识别和执行单元310，用于提取和执行AJAX调用事件；

通常该单元可以用JavaScript引擎或者嵌入式浏览器来实现。

页面状态识别单元320，用于识别重复或者近似重复页面状态；

该单元应用AJAX状态比较方法进行AJAX重复状态识别，可以按照步骤S201～S203实现。

状态遍历调度单元330，用于遍历整个状态转换图，得到状态转换信息，获取所有状态内容。

该单元可以逐步获得状态转换图，并用于实现S110步骤：若当前状态所有AJAX事件都已执行完时，导航到一个AJAX调用事件未全部完成的状态。

所述页面状态识别单元320通过URL加载AJAX网页，得到网页初始状态，并在AJAX状态转换图上添加一个对应该网页初始状态的新顶点；页面状态识别单元320还能够判断顶点数是否大于阈值，当顶点数大于阈值时抓取过程结束；页面状态识别单元320还能够判断得到的状态是否为新状态，若是新状态，在AJAX状态转换图上添加一个对应该状态的新顶点，并添加一条从前一状态顶点到当前状态顶点的边，否则添加一条从前一状态顶点到当前状态顶点的边；

所述事件识别和执行单元310提取出该网页当前状态上的每一个AJAX调用事件，若为新事件，加入到该状态对应的AJAX调用事件队列中，否则在状态转换图上添加一条边，该边始于当前状态顶点，终于目标状态顶点；事件识别和执行单元310还能够判断该状态AJAX调用事件队列是否为空，若该状态AJAX调用事件队列不为空，则从队列中取出一个新的AJAX调用事件并执行，否则寻找AJAX调用事件队列不为空的状态；

所述状态遍历调度单元330在抓取过程结束后遍历整个状态转换图，得到状态转换信息，获取所有状态内容。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种多状态AJAX网页内容获取方法，其特征在于，包括步骤：

S105：从队列中取出一个新的AJAX调用事件并执行；

S110：在所述状态转换图中找到从当前状态到新状态之间的最短路径，并执行最短路径上的事件导航到新状态，转向步骤S105；

S111：本次抓取过程结束。

2.如权利要求1所述的方法，其特征在于，利用dijkstra算法在状态转换图中找到对应顶点之间的最短路径。

3.如权利要求1或者2中任意一项所述的方法，其特征在于，所述步骤S106中判断得到的状态是否为新状态的方法包括步骤：

S202：应用AJAX重复状态检测方法比较页面状态。

4.如权利要求3所述的方法，其特征在于，所述AJAX重复状态检测方法包括步骤：

5.如权利要求4所述的方法，其特征在于，所述步骤S202b中比较两个状态是否近似重复的方法包括：比较两个状态的文本长度之差、simhash值距离和编辑距离是否超过阈值，若均不超过，则是近似重复，否则是新状态。

6.一种多状态AJAX网页内容获取系统，其特征在于，包括：事件识别和执行单元(310)、页面状态识别单元(320)和状态遍历调度单元(330)；

所述页面状态识别单元(320)通过URL加载AJAX网页，得到网页初始状态，并在AJAX状态转换图上添加一个对应该网页初始状态的新顶点；页面状态识别单元(320)还能够判断顶点数是否大于阈值，当顶点数大于阈值时抓取过程结束；页面状态识别单元(320)还能够判断得到的状态是否为新状态，若是新状态，在AJAX状态转换图上添加一个对应该状态的新顶点，并添加一条从前一状态顶点到当前状态顶点的边，否则添加一条从前一状态顶点到当前状态顶点的边；

所述事件识别和执行单元(310)提取出该网页当前状态上的每一个AJAX调用事件，若为新事件，加入到该状态对应的AJAX调用事件队列中，否则在状态转换图上添加一条边，该边始于当前状态顶点，终于目标状态顶点；事件识别和执行单元(310)还能够判断该状态AJAX调用事件队列是否为空，若该状态AJAX调用事件队列不为空，则从队列中取出一个新的AJAX调用事件并执行，否则寻找AJAX调用事件队列不为空的状态；

所述状态遍历调度单元(330)在所述AJAX调用事件队列不为空的状态转换图中找到从当前状态到新状态之间的最短路径，并执行最短路径上的事件导航到新状态。

7.如权利要求6所述的系统，其特征在于，所述事件识别和执行单元(310)用JavaScript引擎或者嵌入式浏览器来实现。

8.如权利要求6所述的系统，其特征在于，所述页面状态识别单元(320)还能够识别重复或者近似重复页面状态；首先进行AJAX页面状态过滤，去除页面状态中包括无关标签及其属性的无关部分；然后比较两个处理后的状态Hash值是否相同，若相同，则是重复状态，否则比较两个状态上的AJAX调用事件是否相同，若不相同，则是新状态；若相同则比较两个状态是否近似重复，若是，则是重复状态，否则是新状态；比较两个状态是否近似重复的方法包括：比较两个状态的文本长度之差、simhash值距离和编辑距离是否超过阈值，若均不超过，则是近似重复，否则是新状态。

9.如权利要求6所述的系统，其特征在于，所述状态遍历调度单元(330)可以逐步获得状态转换图，若当前状态所有AJAX事件都已执行完时，还能够导航到一个AJAX调用事件未全部完成的状态。