CN104090931A

CN104090931A - 一种基于网页链接参数分析的信息预测采集方法

Info

Publication number: CN104090931A
Application number: CN201410290459.XA
Authority: CN
Inventors: 董守斌; 陈佳; 李粤; 古万荣; 袁华
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2014-06-25
Filing date: 2014-06-25
Publication date: 2014-10-08
Also published as: WO2015196740A1; US20170053031A1

Abstract

本发明公开了一种基于网页链接参数分析的信息预测采集方法，包括以下顺序的步骤：计算网页链接的参数特征统计信息，计算网页所包含外部链接的分布信息，根据网页的外部链接分布特征对网页进行分类，网页资源的抽样预测，预测样本的采集测试，网页资源的总体预测。本发明的方法，有效地补充了传统采集信息方式的不足，扩展了待采集链接资源的数量，利用已知的网页资源特征预测到了大量未采集的网页资源，提高了采集网页信息的覆盖率。

Description

一种基于网页链接参数分析的信息预测采集方法

技术领域

本发明涉及搜索引擎和Web挖掘机所需的信息采集技术领域，特别涉及一种基于网页链接参数分析的信息预测采集方法。

背景技术

当今，互联网提供了越来越多有价值的信息，人们习惯通过搜索引擎来获取信息，信息采集系统是搜索引擎的核心组成部分；对Web进行数据挖掘能发现Web上大量隐藏的知识，从而衍生各种互联网服务，Web数据挖掘也需要对网页信息进行深层次的采集。通用的网页信息采集系统有一些局限性：

(一)在一定采集深度内，无法收录一些深层网页数据。

(二)网页的编码技术日益复杂，无法从中抽取到链接资源，遗漏大量网页资源。

(三)基于JavaScript引擎解析网页中的动态代码会给信息采集系统带来较大的开销。

互联网上的网页总数持续高速增长，这对搜索引擎的网络信息采集提出了更高的要求。互联网的网页数量很庞大，尤其是动态网页的数量增长迅速。在信息采集的过程中，难免会碰到各种异常情况，如服务器响应缓慢，重复网页、无效网页链接过多，网页资源之间的链接难以发现等问题。网页链接简称URL。

因此，人们需要一种新的网络信息采集方法，来满足人们的需求。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于网页链接参数分析的信息预测采集方法，其对采集到大量网页和链接资源进行聚类和分类决策，预测未知的网页集合中还会包括哪些链接资源，结合预测方法，可以比传统的采集方式发现更多具有相似链接的动态网页。

本发明的目的通过以下的技术方案实现：

一种基于网页链接参数分析的信息预测采集方法，包括以下顺序的步骤：

(1)计算网页链接的参数特征统计信息；

(2)计算网页所包含外部链接的分布信息，为网页分类提供特征并作为识别的依据；

(3)根据网页的外部链接分布特征对网页进行分类；

(4)利用网页链接的分类结果和参数统计信息进行网页资源的抽样预测，产生一个测试所预测网页资源的小样本；

(5)对抽样得到的预测样本进行采集测试，筛选出采集成功率达到自定义阈值的网页链接集合，舍弃不符合条件的部分网页链接；

(6)网页资源的总体预测：利用抽样测试的结果和网页链接的参数特征统计信息，用于预测大量有效的网页链接集合。

所述的步骤(1)，具体如下：通过对已采集的网页链接库进行遍历，遍历过程中提取网页链接的参数特征，并记录每对参数值对中已出现的最小值、最大值。

步骤(1)中，所述的网页链接参数的统计信息包括每个网页链接的参数部分的取值信息，其中参数部分由多组参数值对组成，将纯数值的部分转化为一个取值范围，为预测类似的网页链接提供依据。

所述的步骤(2)，具体如下：抽取每个网页中的外链接，对它们进行聚类，得到该网页上所包含的链接资源分布特征。

步骤(3)中，所述的网页的外部链接分布特征由聚类产生，通过前缀相同数目的统计、编辑距离在一定范围内，把每个网页的所有外链接聚集为相似形式的多个类别，并根据每个类别数目的大小进行排序得到分布特征。

步骤(3)中，所述的网页分类是用于识别网页链接所对应的类别，为导航类网页链接、列表页网页链接、内容页网页链接中的一种。

步骤(4)中，所述的网页资源的抽样预测，是在所有可以预测的网页资源集合中，在每个网站每个路径下都随机抽取一定比例的网页链接。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明的方法有效地补充了传统采集信息方式的不足，扩展了待采集链接资源的数量，利用已知的网页资源特征预测到了大量未采集的网页资源，提高了采集网页信息的速度和覆盖率。

2、本发明的方法中，所述预测样本的采集测试，能够验证不同参数值对应预测的网页链接样本是否能有效地访问网络资源，为下一步全面生成预测的网页链接资源做参考。

3、本发明的方法中，所述网页资源的总体预测，根据抽样预测样本的有效性分析，可以剔除大量无效的预测结果，降低预测的盲目性，提高准确率。

附图说明

图1为本发明所述的一种基于网页链接参数分析的信息预测采集方法的流程图；

图2为图1所述方法的网页链接字符串的基本形式图；

图3为图1所述方法的已经采集网页链接的统计信息结构示意图；

图4为图1所述方法的每个网站中不同路径的参数值存储的示意图；

图5为图1所述方法的对每个网页所包含外链接进行聚类的示意图；

图6为图1所述方法的根据网页外链接分布特征进行分类的示意图；

图7为图1所述方法的网页链接预测的示意图；

图8为图1所述方法的抽样预测和总体预测的示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1，一种基于网页链接参数分析的信息预测采集方法，包括以下顺序的步骤：

(1)计算网页链接的参数特征统计信息：通过对已采集的网页链接库进行遍历，遍历过程中提取网页链接的参数特征，并记录每对参数值对中已出现的最小值、最大值；

所述的网页链接参数的统计信息包括每个网页链接的参数部分的取值信息，其中参数部分由多组参数值对组成，将纯数值的部分转化为一个取值范围，为预测类似的网页链接提供依据；

如图2所示，URL一般包括协议和路径两个部分,<host>表示站点主机名(域名或IP地址),<port>表示端口号,<path>表示页面路径,<searchpart>表示CGI接口GET方法的参数表达式；对一个站点来说，能够表示站点结构的只有<path>部分,页面的路径和Web站点的文件系统是对应的，也是一种分层的树形结构，每层之间通过“/”分开；

如图3所示，已采集URL的统计信息结构显示了遍历已采集URL库后得到的统计结果，每个网站都可以建立一棵对应网站的结构树，树的叶子节点保存着该网站某个路径下的统计信息；

如图4所示，该图显示的是每个网站结构树示意图，树结构的叶端保存的是从链接的<searchpart>部分提取出来的参数值对信息，可以由多对name＝value结构形式组成，value部分保存着迄今为止发现的最小值和最大值；

(2)计算网页所包含外部链接的分布信息，为网页分类提供特征并作为识别的依据：抽取每个网页中的外链接，对它们进行聚类，得到该网页上所包含的链接资源分布特征；

如图5所示，网页解析模块可以从网页文本信息中提取出众多指向外部网站的链接，每个网页上所包含的外链接大多数在形式上是相似的，把站点和路径组成的部分定义为前缀，聚类模块可以把前缀相同的链接聚合为一个类别，并计算该类别的链接数目；

(3)根据网页的外部链接分布特征对网页进行分类；

所述的网页的外部链接分布特征由聚类产生，通过前缀相同数目的统计、编辑距离在一定范围内，把每个网页的所有外链接聚集为相似形式的多个类别，并根据每个类别数目的大小进行排序得到分布特征；

如图6，所述的网页分类是用于识别网页链接所对应的类别，为导航类网页链接、列表页网页链接、内容页网页链接中的一种；其中

导航页：大量外链接，聚类后，特点是类别多，数目大的类别比较少，分布平均；

列表页：外链接较多，聚类后，特点是前几个大类别的数量占总数的比重很大；

内容页：外链接相对较少，文字较多，可以从列表页的大类别计算得出；

所述的网页资源的抽样预测，是在所有可以预测的网页资源集合中，在每个网站每个路径下都随机抽取一定比例的网页链接；

如图7所示，根据URL统计信息和URL聚类、分类得出来的类别信息，对有扩展价值的URL形式进行预测扩展；在该步骤中，每一个由<host>:<port>和<path>组成的前缀，都与一个参数值对(name＝value)构成一个新的URL，例如，倘若该前缀可能存在三个不同的参数值对形式，则分别构造这三种URL，以此类推；在URL的参数中，决定一个网页的关键参数通常只有一个，与数据库中主键的作用类似，在接下来的步骤中，可以通过抽样测试来筛选出其中有效的参数值对，剔除由无效的参数值对所构造的URL；

如图8所示，为了避免盲目预测产生过多无效的URL资源，通过先抽样预测，并进行采集测试，可以统计出每个网站每个路径下的采集成功率，可以识别出预测的URL是否有效；根据抽样预测测试的结果，再进行总体预测URL集合，抽样产生的URL数目远远小于直接总体预测产生的URL数目，以这种方式用比较小的代价来提高预测的准确率；

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于网页链接参数分析的信息预测采集方法，其特征在于，包括以下顺序的步骤：

(1)计算网页链接的参数特征统计信息；

(3)根据网页的外部链接分布特征对网页进行分类；

2.根据权利要求1所述的基于网页链接参数分析的信息预测采集方法，其特征在于，所述的步骤(1)，具体如下：通过对已采集的网页链接库进行遍历，遍历过程中提取网页链接的参数特征，并记录每对参数值对中已出现的最小值、最大值。

3.根据权利要求1所述的基于网页链接参数分析的信息预测采集方法，其特征在于，步骤(1)中，所述的网页链接参数的统计信息包括每个网页链接的参数部分的取值信息，其中参数部分由多组参数值对组成，将纯数值的部分转化为一个取值范围，为预测类似的网页链接提供依据。

4.根据权利要求1所述的基于网页链接参数分析的信息预测采集方法，其特征在于，所述的步骤(2)，具体如下：抽取每个网页中的外链接，对它们进行聚类，得到该网页上所包含的链接资源分布特征。

5.根据权利要求1所述的基于网页链接参数分析的信息预测采集方法，其特征在于，步骤(3)中，所述的网页的外部链接分布特征由聚类产生，通过前缀相同数目的统计、编辑距离在一定范围内，把每个网页的所有外链接聚集为形式相似的多个类别，并根据每个类别数目的大小进行排序得到分布特征。

6.根据权利要求1所述的基于网页链接参数分析的信息预测采集方法，其特征在于，步骤(3)中，所述的网页分类是用于识别网页链接所对应的类别，为导航类网页链接、列表页网页链接、内容页网页链接中的一种。

7.根据权利要求1所述的基于网页链接参数分析的信息预测采集方法，其特征在于，步骤(4)中，所述的网页资源的抽样预测，是在所有可以预测的网页资源集合中，在每个网站每个路径下都随机抽取一定比例的网页链接。