CN105528414A

CN105528414A - 一种搜集深网数据全集的爬虫方法和系统

Info

Publication number: CN105528414A
Application number: CN201510885882.9A
Authority: CN
Inventors: 李欢; 孙阳; 周伟斌; 武江; 张元明
Original assignee: Chemical Industry Press; Beihang University
Current assignee: Chemical Industry Press; Beihang University
Priority date: 2015-12-04
Filing date: 2015-12-04
Publication date: 2016-04-27
Anticipated expiration: 2035-12-04
Also published as: CN105528414B

Abstract

本发明提供一种搜集深网数据全集的爬虫方法和系统，其中，搜集深网数据全集的爬虫方法包括：根据关键词汇进行深网数据搜索，获得查询结果；若所述查询结果溢出，则对所述查询结果进行分词处理获得特征词集合，将所述特征词集合中的每个特征词与上一次搜索中的所述关键词汇进行组合获得多个新关键词汇，根据每个新关键词汇进行深网数据搜索获得所有新关键词汇的全部查询结果；若所述全部查询结果中至少一个所述新关键词汇的查询结果溢出，则继续对溢出的所述新关键词汇的查询结果进行分词处理以及深网数据搜索，直至全部查询结果非溢出。本发明提供的搜集深网数据全集的爬虫方法，可以获得深网数据搜索全集。

Description

一种搜集深网数据全集的爬虫方法和系统

技术领域

本发明涉及爬虫技术领域，尤其涉及一种搜集深网数据全集的爬虫方法和系统。

背景技术

互联网包含的信息非常丰富，按其所蕴含信息的深度，互联网可以划分为表层网络和深网。所谓表层网络，是指可以通过统一资源定位符(UniformResourceLocator，简称URL)直接访问的页面的集合，所谓深网，又称为看不见的网页，是指通过搜索引擎由于技术原因无法检索到的那部分信息，深网相比于表层网络包含了更多的信息。

在现有技术中，对深网数据进行搜索，通常是根据用户提供的搜索词通过深网查询query接口实现的，深网网页均与query接口单一链接。但是，由于深网所有者通常进行搜索结果的限制，即，根据用户提供的搜索词，仅将与搜索词关联度最高的前K个搜索结果返回给用户，存在搜索结果top-k问题，造成用户无法获得与搜索词相关的深网数据全集。

发明内容

本发明提供一种搜集深网数据全集的爬虫方法和系统，可以获得深网数据搜索全集。

本发明提供的搜集深网数据全集的爬虫方法，包括：

根据关键词汇进行深网数据搜索，获得查询结果；

若所述查询结果溢出，则对所述查询结果进行分词处理获得特征词集合，将所述特征词集合中的每个特征词与上一次搜索中的所述关键词汇进行组合获得多个新关键词汇，根据每个新关键词汇进行深网数据搜索获得所有新关键词汇的全部查询结果；

若所述全部查询结果中至少一个所述新关键词汇的查询结果溢出，则继续对溢出的所述新关键词汇的查询结果进行分词处理以及深网数据搜索，直至全部查询结果非溢出。

本发明提供的搜集深网数据全集的爬虫和系统，包括：

第一查询模块，用于根据关键词汇进行深网数据搜索，获得查询结果；

第二查询模块，用于若所述查询结果溢出，则对所述查询结果进行分词处理获得特征词集合，将所述特征词集合中的每个特征词与上一次搜索中的所述关键词汇进行组合获得多个新关键词汇，根据每个新关键词汇进行深网数据搜索获得所有新关键词汇的全部查询结果；若所述全部查询结果中至少一个所述新关键词汇的查询结果溢出，则继续对溢出的查询结果进行分词处理以及深网数据搜索，直至全部查询结果非溢出。

本发明提供了一种搜集深网数据全集的爬虫方法和系统，其中，搜集深网数据全集的爬虫方法包括：根据关键词汇进行深网数据搜索，获得查询结果，若查询结果溢出，则对查询结果进行分词处理获得特征词集合，将特征词集合中的每个特征词与上一次搜索中的关键词汇进行组合获得多个新关键词汇，根据每个新关键词汇进行深网数据搜索获得所有新关键词汇的全部查询结果，若全部查询结果中至少一个新关键词汇的查询结果溢出，则继续对溢出的新关键词汇的查询结果进行分词处理以及深网数据搜索，直至全部查询结果非溢出。本发明提供的搜集深网数据全集的爬虫方法，通过逐次更新查询结果溢出的关键词汇，逐渐缩小搜索范围，可以获得深网数据搜索全集。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的搜集深网数据全集的爬虫方法的流程图；

图2为本发明实施例二提供的搜集深网数据全集的爬虫方法的流程图；

图3为本发明实施例一提供的搜集深网数据全集的爬虫系统的结构示意图；

图4为本发明实施例二提供的搜集深网数据全集的爬虫系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一提供的搜集深网数据全集的爬虫方法的流程图，本实施例提供的搜集深网数据全集的爬虫方法，可以应用于各个领域的深网搜索，用于获得深网搜集数据全集，例如：书籍搜索、商品搜索，等等。如图1所示，本实施例提供的搜集深网数据全集的爬虫方法，可以包括：

步骤101、根据关键词汇进行深网数据搜索，获得查询结果。

在本步骤中，获得的查询结果可能是深网数据搜索全集，也可能不是深网数据搜索全集，需要对查询结果进行判断。如果查询结果不是深网数据搜索全集，则需要进一步进行搜索。

其中，关键词汇可以是单一的一个词，也可以是多个词组成的并列词汇，例如：关键词汇可以为“计算机”，关键词汇还可以为“计算机、科学”，等等。

其中，关键词汇可以为中文词汇、英文词汇，或者为其他语言集中的词，本实施例对此不加以限制。

步骤103、若查询结果溢出，则对查询结果进行分词处理获得特征词集合，将特征词集合中的每个特征词与上一次搜索中的关键词汇进行组合获得多个新关键词汇，根据每个新关键词汇进行深网数据搜索获得所有新关键词汇的全部查询结果。

在本步骤中，如果步骤101获得的查询结果溢出，说明不是深网数据搜索全集，则需要进一步搜索。下面以具体实例详细说明本步骤。

假设步骤101中的关键词汇为“计算机”，由于查询结果溢出，则对查询结果进行分词处理获得特征词集合为“程序、java”，这样，将特征词集合中的每个特征词与上一次搜索中的关键词汇(“计算机”)进行组合，将获得两个新关键词汇，分别为“计算机、程序”和“计算机、java”，根据“计算机、程序”继续进行深网数据搜索获得关于“计算机、程序”的查询结果，根据“计算机、java”继续进行深网数据搜索获得关于“计算机、java”的查询结果，这样，就获得了全部新关键词汇的全部查询结果。

在本步骤中，每一个新关键词汇的查询结果依然可能溢出，可能没有溢出。如果哪一个新关键词汇的查询结果溢出了，说明此次深网数据搜索的查询结果仍然不是深网数据全集，还需要进一步进行搜索。

步骤105、若全部查询结果中至少一个新关键词汇的查询结果溢出，则继续对溢出的新关键词汇的查询结果进行分词处理以及深网数据搜索，直至全部查询结果非溢出。

在本步骤中，如果步骤103获得的全部查询结果中，存在至少一个新关键词汇的查询结果溢出，说明还不是深网数据搜索全集，则需要进一步搜索。下面接续步骤103的具体实例详细说明本步骤。

假设步骤103中新关键词汇“计算机、java”的查询结果溢出，则对“计算机、java”的查询结果继续进行分词处理获得特征词集合为“编程、硬件”，这样，将特征词集合中的每个特征词与上一次搜索中的关键词汇(“计算机、java”)进行组合，将获得两个新关键词汇，分别为“计算机、java、编程”和“计算机、java、硬件”，根据“计算机、java、编程”继续进行深网数据搜索获得关于“计算机、java、编程”的查询结果，根据“计算机、java、硬件”继续进行深网数据搜索获得关于“计算机、java、硬件”的查询结果，这样，就获得了全部新关键词汇的全部查询结果。

然后，需要判断每一个新关键词汇的查询结果是否溢出，如果溢出，则需要继续搜索，直至全部查询结果没有溢出，获得深网数据搜索的全集。

其中，在本步骤中，继续对溢出的查询结果进行分词处理以及深网数据搜索，是指重复步骤103的操作。

可见，通过上述步骤，在每一次搜索完成后，需要判断全部的查询结果是否溢出，如果溢出，则针对查询结果溢出的关键词汇进行下一次的搜索，在下一次的搜索中，首先对上一次的溢出的关键词汇进行更新，具体地，通过分词处理获得特征词集合，将特征词集合中的每个特征词与上一次搜索的溢出的关键词汇进行组合，形成新的关键词汇，如此反复搜索，逐渐缩小溢出的搜索范围，直至所有查询结果都没有溢出。本实施例提供的搜集深网数据全集的爬虫方法，克服了深网所有者设置的搜索结果top-k问题，通过逐次更新查询结果溢出的关键词汇，逐渐缩小溢出的搜索范围，可以获得深网数据搜索全集。

可选的，在本实施例中，判断查询结果是否溢出，一种实现规则可以是：

若查询结果的数目等于深网预设阈值，则查询结果溢出；或者，

若查询结果的数目小于深网预设阈值，则查询结果非溢出。

其中，深网预设阈值是深网所有者根据需要进行设置的查询结果的最大返回数量。

本实施例提供了一种搜集深网数据全集的爬虫方法，包括：根据关键词汇进行深网数据搜索，获得查询结果，若查询结果溢出，则对查询结果进行分词处理获得特征词集合，将特征词集合中的每个特征词与上一次搜索中的关键词汇进行组合获得多个新关键词汇，根据每个新关键词汇进行深网数据搜索获得所有新关键词汇的全部查询结果，若全部查询结果中至少一个新关键词汇的查询结果溢出，则继续对溢出的新关键词汇的查询结果进行分词处理以及深网数据搜索，直至全部查询结果非溢出。本实施例提供的搜集深网数据全集的爬虫方法，通过逐次更新查询结果溢出的关键词汇，逐渐缩小搜索范围，可以获得深网数据搜索全集。

图2为本发明实施例二提供的搜集深网数据全集的爬虫方法的流程图，本实施例在实施例一的基础上，主要提供了实施例一中步骤103的一种具体案方式，本实施例提供的搜集深网数据全集的爬虫方法，步骤103中对查询结果进行分词处理获得特征词集合，可以包括：

步骤201、对查询结果中的每一条结果进行分词处理，获得查询结果的至少两个特征词汇。

其中，分词处理可以采用现有的任意对各语言集的分词处理技术，例如，对于中文短文本数据进行分词处理，可以去除无用的冠词，连词等。

步骤203、将特征词汇分别作为矩阵的行和列构成特征词汇关联矩阵，对特征词汇关联矩阵采用最小顶点覆盖算法获得特征词集合。

其中，特征词汇关联矩阵中各元素的取值为与各元素对应的两个特征词汇在查询结果中同时出现的次数。例如，在特征词汇关联矩阵中，行为“计算机”，列为“科学”的元素的取值为5，则表示“计算机”和“科学”这两个特征词汇在5条结果中同时出现过。所以，特征词汇关联矩阵中各元素的取值可以表示两个特征词汇的关联程度，取值越高，说明这两个特征词汇同时出现的次数越多，关联越密切。

在本步骤中，通过计算特征词汇的关联程度并采用最小顶点覆盖算法，可以过滤掉特征词汇中关联度不高的特征词汇，从而可以得到特征词数目较少的较优的特征词集合，从而进一步缩小了下一次搜索的关键词汇的数量，提高了获取深网数据搜索全集的效率。

其中，最小顶点覆盖算法是图论中的重要概念，可以采用现有的任意一种算法。

可选的，步骤203中对特征词汇关联矩阵采用最小顶点覆盖算法获得特征词集合，一种实现方式可以为：

根据特征词汇关联矩阵获取无向连通图。其中，无向连通图的顶点为特征词汇，无向连通图的边为特征关联矩阵中各非零元素。

采用最小顶点覆盖算法获取无向连通图对应的最小顶点集合，将最小顶点集合对应的特征词作为特征词集合。其中，最小顶点集包括无向连通图中的每一条边的至少一个顶点。

其中，无向连通图的边仅针对两个不同的特征词汇的连接。如果两个不同的特征词汇对应的特征关联矩阵中元素的取值非零，则表示这两个不同的特征词汇之间存在一条边。

进一步，通过特征关联矩阵中各非零元素的取值，可以计算无向连通图中各顶点的度，以用于最小顶点覆盖算法。

可选的，上述步骤中的最小顶点覆盖算法，一种实现方式可以为：

初始化最小顶点集合为空集。

在无向连通图的顶点集中选取度最小的一个顶点，将顶点以及与顶点连接的其他顶点放入最小顶点集合中，在无向连通图中删除最小顶点集合中的各顶点。

重新计算无向连通图中各剩余顶点的度，并重复执行上述选取顶点的步骤，直至无向连通图中没有顶点为止。

可选的，上述步骤中的最小顶点覆盖算法，另一种实现方式可以为：

初始化最小顶点集合为空集。

在无向连通图的边集中任意选取一条边，将边的两个顶点放入最小顶点集合中，在无向连通图中删除所有与最小顶点集合中各顶点连接的边。

继续在无向连通图中各剩余边中任意选取一条边，重复执行上述选取顶点的步骤，直至无向连通图中没有边为止。

本实施例提供了一种搜集深网数据全集的爬虫方法，通过逐次更新查询结果溢出的关键词汇，逐渐缩小搜索范围，可以获得深网数据搜索全集。并且，由于获得的特征词集合包含了较少的较优的特征词，从而进一步缩小了下一次搜索的关键词汇的数量，提高了获取深网数据搜索全集的效率。

图3为本发明实施例一提供的搜集深网数据全集的爬虫系统的结构示意图，本实施例提供的搜集深网数据全集的爬虫系统，可以执行图1所示实施例提供的搜集深网数据全集的爬虫方法。如图3所示，本实施例提供的搜集深网数据全集的爬虫系统，可以包括：

第一查询模块11，用于根据关键词汇进行深网数据搜索，获得查询结果。

第二查询模块13，用于若查询结果溢出，则对查询结果进行分词处理获得特征词集合，将特征词集合中的每个特征词与上一次搜索中的关键词汇进行组合获得多个新关键词汇，根据每个新关键词汇进行深网数据搜索获得所有新关键词汇的全部查询结果。若全部查询结果中至少一个新关键词汇的查询结果溢出，则继续对溢出的查询结果进行分词处理以及深网数据搜索，直至全部查询结果非溢出。

可选的，若查询结果的数目等于深网预设阈值，则查询结果溢出，或者，若查询结果的数目小于深网预设阈值，则查询结果非溢出。

本实施例提供了一种搜集深网数据全集的爬虫系统，包括：第一查询模块和第二查询模块，其中，第一查询模块用于根据关键词汇进行深网数据搜索，获得查询结果，第二查询模块用于若查询结果溢出，则对查询结果进行分词处理获得特征词集合，将特征词集合中的每个特征词与上一次搜索中的关键词汇进行组合获得多个新关键词汇，根据每个新关键词汇进行深网数据搜索获得所有新关键词汇的全部查询结果。若全部查询结果中至少一个新关键词汇的查询结果溢出，则继续对溢出的查询结果进行分词处理以及深网数据搜索，直至全部查询结果非溢出。本实施例提供的搜集深网数据全集的爬虫系统，通过逐次更新查询结果溢出的关键词汇，逐渐缩小搜索范围，可以获得深网数据搜索全集。

图4为本发明实施例二提供的搜集深网数据全集的爬虫系统的结构示意图，本实施例在实施例一的基础上，提供了搜集深网数据全集的爬虫系统的另一种实现方式，可以执行图1～图2所示实施例提供的搜集深网数据全集的爬虫方法。如图4所示，本实施例提供的搜集深网数据全集的爬虫系统，可以包括：第一查询模块11和第二查询模块13。

其中，第二查询模块13包括分词模块131和处理模块133。

分词模块131用于，对查询结果中的每一条结果进行分词处理，获得查询结果的至少两个特征词汇。

处理模块133用于，将特征词汇分别作为矩阵的行和列构成特征词汇关联矩阵，对特征词汇关联矩阵采用最小顶点覆盖算法获得特征词集合。其中，特征词汇关联矩阵中各元素的取值为与各元素对应的两个特征词汇在查询结果中同时出现的次数。

可选的，处理模块133具体用于：

初始化最小顶点集合为空集。

可选的，处理模块133具体用于：

初始化最小顶点集合为空集。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种搜集深网数据全集的爬虫方法，其特征在于，包括：

根据关键词汇进行深网数据搜索，获得查询结果；

2.根据权利要求1所述的方法，其特征在于，所述对所述查询结果进行分词处理获得特征词集合，包括：

对所述查询结果中的每一条结果进行分词处理，获得所述查询结果的至少两个特征词汇；

将所述特征词汇分别作为矩阵的行和列构成特征词汇关联矩阵，对所述特征词汇关联矩阵采用最小顶点覆盖算法获得所述特征词集合；其中，所述特征词汇关联矩阵中各元素的取值为与所述各元素对应的两个特征词汇在所述查询结果中同时出现的次数。

3.根据权利要求2所述的方法，其特征在于，所述对所述特征词汇关联矩阵采用最小顶点覆盖算法获得所述特征词集合，包括：

根据所述特征词汇关联矩阵获取无向连通图；其中，所述无向连通图的顶点为所述特征词汇，所述无向连通图的边为所述特征关联矩阵中各非零元素；

采用所述最小顶点覆盖算法获取所述无向连通图对应的最小顶点集合，将所述最小顶点集合对应的特征词作为所述特征词集合；其中，所述最小顶点集包括所述无向连通图中的每一条边的至少一个顶点。

4.根据权利要求3所述的方法，其特征在于，所述最小顶点覆盖算法包括：

初始化所述最小顶点集合为空集；

在所述无向连通图的顶点集中选取度最小的一个顶点，将所述顶点以及与所述顶点连接的其他顶点放入所述最小顶点集合中，在所述无向连通图中删除所述最小顶点集合中的各顶点；

重新计算所述无向连通图中各剩余顶点的度，并重复执行上述选取顶点的步骤，直至所述无向连通图中没有顶点为止。

5.根据权利要求3所述的方法，其特征在于，所述最小顶点覆盖算法包括：

初始化所述最小顶点集合为空集；

在所述无向连通图的边集中任意选取一条边，将所述边的两个顶点放入所述最小顶点集合中，在所述无向连通图中删除所有与所述最小顶点集合中各顶点连接的边；

继续在所述无向连通图中各剩余边中任意选取一条边，重复执行上述选取顶点的步骤，直至所述无向连通图中没有边为止。

6.根据权利要求1至5任一所述的方法，其特征在于，若所述查询结果的数目等于深网预设阈值，则所述查询结果溢出；或者，

若所述查询结果的数目小于所述深网预设阈值，则所述查询结果非溢出。

7.一种搜集深网数据全集的爬虫系统，其特征在于，包括：

8.根据权利要求7所述的系统，其特征在于，所述第二查询模块包括分词模块和处理模块；

所述分词模块用于，对所述查询结果中的每一条结果进行分词处理，获得所述查询结果的至少两个特征词汇；

所述处理模块用于，将所述特征词汇分别作为矩阵的行和列构成特征词汇关联矩阵，对所述特征词汇关联矩阵采用最小顶点覆盖算法获得所述特征词集合；其中，所述特征词汇关联矩阵中各元素的取值为与所述各元素对应的两个特征词汇在所述查询结果中同时出现的次数。

9.根据权利要求8所述的系统，其特征在于，所述处理模块具体用于：

10.根据权利要求9所述的系统，其特征在于，所述处理模块具体用于：

初始化所述最小顶点集合为空集；

重新计算所述无向连通图中各剩余顶点的度，并重复执行上述选取顶点的步骤，直至所述无向连通图中没有顶点为止；

或者，

初始化所述最小顶点集合为空集；