CN103714149B

CN103714149B - 一种自适应增量式的深层网络数据源发现方法

Info

Publication number: CN103714149B
Application number: CN201310733599.5A
Authority: CN
Inventors: 赵峰; 金海�; 聂昶; 陈恒
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2013-12-26
Filing date: 2013-12-26
Publication date: 2017-04-19
Anticipated expiration: 2033-12-26
Also published as: CN103714149A

Abstract

本发明公开了一种自适应增量式的深网数据源发现方法，将深层网络数据源发现过程分为站点定位和站内搜索两个阶段，在站点定位阶段引进站点发现机制可以高效扩充站点数据以提高爬行效率；在站点和站内链接选取采用自适应的排序机制，能够更快的发现深层网络站点和可查询表单。本方法实现了增量自动高效采集深网数据源，可用于深层网络数据集成和暗网爬虫，同时也适用于构建在线数据库目录站点。

Description

一种自适应增量式的深层网络数据源发现方法

技术领域

本发明属于计算机领域的信息检索和数据挖掘，具体涉及一种自适应增量式的深层网络数据源发现方法，可以自动并高效按照领域发现深层网络数据源。

背景技术

随着互联网数据爆炸式增长，越来越多网站站点采用网络数据库技术，互联网上大量的页面由数据库动态生成，这些信息不能通过静态链接爬取，必须通过提交查询来获得。由于搜索引擎的爬虫不具备自动填写表单的能力，因此这部分数据不能被搜索引擎索引，隐藏在网络数据库背后，这部分数据被称为深层网络或者暗网。

BrightPlanet在2001发布的深层网络白皮书，对深层网络进行了一次较为全面的宏观统计，白皮书中指出深层网络蕴含的信息量是浅层网络的400-550倍，深层网络信息高度领域相关，其信息质量是浅层网络的1000-2000倍。为了挖掘深层网络中的数据，现有的技术包括数据集成、暗网爬虫和采样等，然而这些技术第一步就是获取深层网络数据源。由于深层网络数据源呈稀疏分布的特性，而且经常变化和更新，不断有新的数据源加入和旧的数据源撤出，因此自动定位这些数据源颇具挑战。此外现有的深层网络目录站点大都是手动或半自动化方法，而且这些目录站点覆盖率低。例如最大的在线数据库目录站点completePlane，收录了70,000个在线数据库仅占整体的15.6%。

现有的数据源发现机制主要可以分为两类：通用爬虫和主题爬虫，其中通用爬虫一般采用穷尽的方式进行爬行，会下载大量无关的页面导致效率低下；主题爬虫方式按照领域进行爬取，通过页面分类器过滤掉主题无关页面，再通过链接分类器对链接筛选来加快爬行过程，但由于存在主题漂移和链接分类器精度等因素，会降低爬行的效率；此外由于数据源稀疏分布，主题爬虫通过设置终止条件来加快爬行过程会导致大量页面没有机会访问，页面分类器和链接分类器也会过滤掉很多页面和链接，因此难以保证高的覆盖率。

发明内容

鉴于此，本发明的目的在于提供一种自适应增量式的深层网络数据源发现方法，该方法可以按照领域自动高效发现深层网络数据源。

为实现以上发明目的，本发明采用以下技术方案：

一种自适应增量式的深层网络数据源发现方法，包括站点定位和站内搜索两个阶段，其中，所述站点定位阶段包括站点收集、站点排序和站点分类，所述站内搜索阶段包括页面抓取、链接选取和表单分类，

所述站点收集用于发现新的站点，保证爬行过程中站点队列中有充足的站点链接供选取；

所述站点排序用于给站点评分并选取相关度最高的站点链接；

所述站点分类用于判断站点是否领域相关；

所述页面抓取用于按照宽度优先策略访问到指定深度，其中，在每层爬行过程中，从存储当前深度的链接的工作队列中抽取链接，把页面中站内链接抽取到候选队列中用于下一个深度的爬取，将外部站点链接存储到站点数据库和站点队列中；

所述链接选取用于在访问站点每层之前对候选队列中的链接进行筛选和排序；

所述表单分类用于通过通用表单分类器和领域表单分类器判定表单是否为领域相关的查询表单，从而对表单进行过滤。

与现有技术相比，本发明具有以下有益效果：

(1)自适应性。通过在线构建深层网络站点特征空间和表单路径特征空间，可以学习到新的特征，用以优化站点和站内链接的选取，可以尽早发现潜在深层网络站点和查询表单。

(2)增量式爬取。采用两阶段式数据源发现机制，只需要以较小的代价记录站点访问状态和含有表单的链接实现增量式爬取，每次爬行可以在原有基础上继续进行。

(3)覆盖率高。将深层网络数据源发现过程分为站点定位和站内搜索两阶段，首先通过站点分类器避免无关站点的访问，其次引入站点收集机制，借助搜索引擎反向爬行可以有效扩充站点，增加站点覆盖范围。

(4)效率高。在站点定位阶段通过优先选取高相关度的站点，来尽早的访问深层网络站点；同时在站点内搜索阶段，采用一系列精细的终止条件，在访问每层链接时，利用链接树分析避免访问偏差以及对链接相关度进行排序，保证爬虫在访问尽可能少的页面，同时覆盖站点内尽可能多目录下的链接以及相关度高的链接优先访问，从而显著的提高了爬虫的效率。

附图说明

图1为本发明自适应增量式的深网数据源发现方法结构图；

图2为本发明的站点定位阶段中站点收集的处理流程图；

图3为本发明的站点定位阶段中站点排序的处理流程图；

图4为本发明的站内搜索阶段中页面抓取的处理流程图；

图5为本发明的站内搜索阶段中链接选取的处理流程图；

图6为本发明的站内搜索阶段中表单分类的处理流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步说明。

如图1所示，本发明实施例的自适应增量式的深层网络数据源发现方法，包站点定位阶段和站内搜索阶段。

(1)站点定位阶段包括站点收集、站点排序和站点分类。

站点收集用于发现新的站点，保证爬行过程中站点队列中有充足的站点链接供选取。如图2所示，站点收集包括以下步骤：

（1-1）判断站点队列大小是否小于预定义的阈值，若满足条件，则转入步骤（1-2）；否则，直接结束；

（1-2）将已发现的深层网络站点作为输入，提交给搜索引擎进行反向搜索，然后抽取搜索结果页面中的链接，并下载这些链接所对应的页面；

（1-3）根据启发规则分析下载的页面是否是中心页面，若是，则转入步骤（1-4）；否则，返回步骤（1-1）；

（1-4）抽取中心页面中的外向站点链接并存入到站点数据库和站点队列中。

在本实施例中，所述搜索引擎进行反向搜索可以使用Google的link工具。

站点排序用于给站点评分并选取相关度最高的站点链接。如图3所示，包括以下步骤：

（2-1）判断新发现的深层网络站点数目是否达到预定阈值，若是，则转入步骤（2-2）；否则进入步骤（2-4）；

（2-2）抽取深层网络站点特征，更新深层网络站点特征空间，所述深层网络站点特征包括URL、锚文本、链接附近文本，所述深层网络站点特征空间由所有已知深层网络站点特征的高频词组成；

（2-3）计算站点队列中站点与更新后的深层网络站点特征空间的相似度，按照相似度由高到低对站点队列中的站点重新排序。其中，将站点和深层网络站点特征空间都规约成由词组成的向量，所述相似度通过计算向量的余弦相似度得到。

（2-4）判断是否达到最大页面访问数，若是，则直接结束；否则转入步骤（2-5）；

（2-5）从站点队列中选取相似度最高的站点；

（2-6）根据站点根页面内容判断站点是否领域相关，若是则转入步骤（2-7），否则返回步骤（2-4）；

（2-7）完成站内搜索后，判断站点内是否含有相关查询表单，若是，则令深层网络站点数目加1，并返回步骤（2-1）；否则返回步骤（2-4）。

可以看到，站内搜索的结果会影响站点排序，使得整个排序过程具有自适应性。随着不断进行站内搜索，新发现的深层网络站点增加到一定阈值的时候，会自动更新深层网络站点特征空间，并对站点队列中站点重新进行排序。

站点分类用于判断站点是否领域相关。具体包括以下步骤：

（3-1）从站点队列中选取和深层网络站点特征空间相似度最高的站点；

（3-2）抽取站点根页面内容作为分类依据，对根页面内容进行分词、去停用词和词根规约，利用训练好的站点分类器判断是否领域相关，若是，则进入站内搜索阶段，否则返回步骤（3-1）。

在本实施例中，采用贝叶斯分类方法，将某个领域作为正例，其他领域作为反例来构建二元分类器，贝叶斯分类器通过采用开源数据挖掘工具weka训练得到。

(2)站内搜索阶段包括页面抓取、链接选取和表单分类。

页面抓取用于按照宽度优先策略访问到指定深度，其中使用工作队列和候选队列，工作队列用于存储当前深度的链接，在每层爬行过程中，从工作队列中抽取链接，把页面中站内链接抽取到候选队列中用于下一个深度的爬取，将外部站点链接存储到站点数据库和站点队列中。同时，若页面中有表单，则把表单提交给表单分类器进行过滤，判断是否含有相关的查询表单。

在站内搜索过程中，通过设置如下精细的终止条件，用于加快搜索过程和提高爬行效率：

终止条件1：最大爬行深度；

终止条件2：每层最多爬行页面数目；

终止条件3：每层最多收获表单数目；

终止条件4：每层连续访问指定页面数没有发现新表单，直接进入下一层；

终止条件5：若站点爬虫连续访问指定页面数目没有发现新的查询表单，则结束当前站内搜索。

其中，终止条件1和5为站内搜索的退出条件，若满足其中任何一个，即达到最大爬行深度或连续访问指定页面数后，没有发现新的查询表单，则直接退出站内搜索；终止条件2,3,4为深度终止条件，若满足其中任何一个，则结束当前深度，直接进入下一个深度。

如图4所示，页面抓取具体包括以下步骤：

（4-1）访问每个深度之前判断是否满足退出条件（即上述终止条件1或5），若不满足，则转入步骤（4-2）；否则直接结束；

（4-2）判断工作队列是否为空或当前深度终止条件是否满足（即上述终止条件2，3或4），若满足则进入步骤（4-3），否则进入步骤（4-4）；

（4-3）按照链接选取策略选取候选队列中的链接至工作队列，并清空候选队列，访问深度加1，并返回步骤（4-1）；

（4-4）从工作队列弹出一个链接，下载并解析链接指向的页面，抽取站内链接至候选队列，站外链接至站点队列，判断页面中是否含有相关表单，若有则进入步骤（4-5），否则返回步骤（4-2）；

（4-5）抽取并存储相关表单，并返回到步骤（4-2）。

链接选取用于在访问站点每层之前对候选队列中的链接进行筛选和排序，对应上述步骤（4-3）中所述的链接选取策略。如图5所示，包括以下步骤：

（5-1）计算候选队列中链接评分并进行排序。其评分计算过程和站点排序类似，通过在线收集表单路径的特征，并构建表单路径特征空间，计算站内链接与特征空间的相似度作为评分，所述表单路径为直接指向含查询表单页面的站点内部链接；

（5-2）判断候选队列中链接数目是否大于该深度限定的最大访问页面数，若是，则转入步骤（5-3）；否则直接结束；

（5-3）根据链接路径构建链接树，按照比例分配每个路径下的待访问页面数；

（5-4）选取每个路径下评分最高的待访问数量的链接，并对这些链接按照评分重新排序；

（5-5）将选取的链接加入工作队列开始下一个深度的访问。

表单分类用于判定表单是否为领域相关的查询表单，从而对表单进行过滤。如图6所示，表单分类的过程由通用表单分类器和领域表单分类器完成。其中，通用表单分类器可以通过表单的结构特征如文本输入框个数、表单提交方式等来判断表单是否属于可查询表单，采用决策树的分类方法来训练二元分类器；领域表单分类器可以利用表单文本特征，例如<form>标签之间的文本，采用文本分类中SVM算法来判断表单是否领域相关。

具体包括以下步骤：首先抽取表单结构特征和表单文本特征，通用表单分类器根据表单结构特征，利用决策树分类模型判断表单是否属于可查询表单，若满足条件，则领域表单分类器根据表单文本特征判断表单是否领域相关，若满足条件，则将表单存入到表单数据库中。

应当理解，以上所述仅为本发明的一种具体实现方式，本发明的实现方法并不局限于此，任何在本发明领域内不脱离本发明精神下的改变，都应属于本发明所附权利要求的保护范围。

Claims

1.一种自适应增量式的深层网络数据源发现方法，包括站点定位和站内搜索两个阶段，其中，所述站点定位阶段包括站点收集、站点排序和站点分类，所述站内搜索阶段包括页面抓取、链接选取和表单分类，

所述站点分类用于判断站点是否领域相关；

所述表单分类用于通过通用表单分类器和领域表单分类器判定表单是否为领域相关的查询表单，从而对表单进行过滤；

其中，所述站点排序具体包括以下步骤：

(2-1)判断新发现的深层网络站点数目是否达到预定阈值，若是，则转入步骤(2-2)；否则进入步骤(2-4)；

(2-2)抽取深层网络站点特征，更新深层网络站点特征空间，所述深层网络站点特征包括URL、锚文本、链接附近文本，所述深层网络站点特征空间由所有已知深层网络站点特征的高频词组成；

(2-3)计算站点队列中站点与更新后的深层网络站点特征空间的相似度，按照相似度由高到低对站点队列中的站点重新排序；

(2-4)判断是否达到最大页面访问数，若是，则直接结束；否则转入步骤(2-5)；

(2-5)从站点队列中选取相似度最高的站点；

(2-6)根据站点根页面内容判断站点是否领域相关，若是则转入步骤(2-7)，否则返回步骤(2-4)；

(2-7)完成站内搜索后，判断站点内是否含有相关查询表单，若是，则令深层网络站点数目加1，并返回步骤(2-1)；否则返回步骤(2-4)。

2.根据权利要求1所述的自适应增量式的深层网络数据源发现方法，其中，所述站点收集具体包括以下步骤：

(1-1)判断站点队列大小是否小于预定义的阈值，若满足条件，则转入步骤(1-2)；否则，直接结束；

(1-2)将已发现的深层网络站点作为输入，提交给搜索引擎进行反向搜索，然后抽取搜索结果页面中的链接，并下载这些链接所对应的页面；

(1-3)根据启发规则分析下载的页面是否是中心页面，若是，则转入步骤(1-4)；否则，返回步骤(1-1)；

(1-4)抽取中心页面中的外向站点链接并存入到站点数据库和站点队列中。

3.根据权利要求2所述的自适应增量式的深层网络数据源发现方法，其中，所述搜索引擎进行反向搜索使用Google的link工具。

4.根据权利要求1所述的自适应增量式的深层网络数据源发现方法，其中，所述站点分类具体包括以下步骤：

(3-1)从站点队列中选取和深层网络站点特征空间相似度最高的站点；

(3-2)抽取站点根页面内容作为分类依据，对根页面内容进行分词、去停用词和词根规约，利用训练好的站点分类器判断是否领域相关，若是，则进入站内搜索阶段，否则返回步骤(3-1)。

5.根据权利要求1所述的自适应增量式的深层网络数据源发现方法，其中，在站内搜索过程中，设置以下终止条件：

终止条件1：最大爬行深度；

终止条件2：每层最多爬行页面数目；

终止条件3：每层最多收获表单数目；

终止条件5：若站点爬虫连续访问指定页面数目没有发现新的查询表单，则结束当前站内搜索；

6.根据权利要求5所述的自适应增量式的深层网络数据源发现方法，其中，所述页面抓取具体包括以下步骤：

(4-1)访问每个深度之前判断是否满足退出条件即上述终止条件1或5，若不满足，则转入步骤(4-2)；否则直接结束；

(4-2)判断工作队列是否为空或当前深度终止条件是否满足即上述终止条件2、3或4，若满足则进入步骤(4-3)，否则进入步骤(4-4)；

(4-3)按照链接选取策略选取候选队列中的链接至工作队列，并清空候选队列，访问深度加1，并返回步骤(4-1)；

(4-4)从工作队列弹出一个链接，并下载并解析链接指向的页面，抽取站内链接至候选队列，抽取站外链接至站点队列，判断页面中是否含有相关表单，若有则进入步骤(4-5)，否则返回步骤(4-2)；

(4-5)抽取并存储相关表单，并返回到步骤(4-2)。

7.根据权利要求1所述的自适应增量式的深层网络数据源发现方法，其中，所述链接选取具体包括以下步骤：

(5-1)计算候选队列中链接评分并进行排序；

(5-2)判断候选队列中链接数目是否大于该深度限定的最大访问页面数，若是，则转入步骤(5-3)；否则直接结束；

(5-3)根据链接路径构建链接树，按照比例分配每个路径下的待访问页面数；

(5-4)选取每个路径下评分最高的待访问数量的链接，并对这些链接按照评分重新排序；

(5-5)将选取的链接加入工作队列开始下一个深度的访问。

8.根据权利要求7所述的自适应增量式的深层网络数据源发现方法，其中，步骤(5-1)中，评分计算为：在线收集表单路径的特征，构建表单路径特征空间，计算站内链接与特征空间的相似度作为评分，所述表单路径为直接指向含查询表单页面的站点内部链接。

9.根据权利要求1所述的自适应增量式的深层网络数据源发现方法，其中，所述表单分类具体包括以下步骤：

抽取表单结构特征和表单文本特征，通用表单分类器根据表单结构特征，利用决策树分类模型判断表单是否属于可查询表单，若满足条件，则领域表单分类器根据表单文本特征判断表单是否领域相关，若满足条件，则将表单存入到表单数据库中。