CN105528414A - 一种搜集深网数据全集的爬虫方法和系统 - Google Patents

一种搜集深网数据全集的爬虫方法和系统 Download PDF

Info

Publication number
CN105528414A
CN105528414A CN201510885882.9A CN201510885882A CN105528414A CN 105528414 A CN105528414 A CN 105528414A CN 201510885882 A CN201510885882 A CN 201510885882A CN 105528414 A CN105528414 A CN 105528414A
Authority
CN
China
Prior art keywords
query result
summit
minimum vertex
connected undigraph
network data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510885882.9A
Other languages
English (en)
Other versions
CN105528414B (zh
Inventor
李欢
孙阳
周伟斌
武江
张元明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chemical Industry Press
Beihang University
Original Assignee
Chemical Industry Press
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chemical Industry Press, Beihang University filed Critical Chemical Industry Press
Priority to CN201510885882.9A priority Critical patent/CN105528414B/zh
Publication of CN105528414A publication Critical patent/CN105528414A/zh
Application granted granted Critical
Publication of CN105528414B publication Critical patent/CN105528414B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种搜集深网数据全集的爬虫方法和系统,其中,搜集深网数据全集的爬虫方法包括:根据关键词汇进行深网数据搜索,获得查询结果;若所述查询结果溢出,则对所述查询结果进行分词处理获得特征词集合,将所述特征词集合中的每个特征词与上一次搜索中的所述关键词汇进行组合获得多个新关键词汇,根据每个新关键词汇进行深网数据搜索获得所有新关键词汇的全部查询结果;若所述全部查询结果中至少一个所述新关键词汇的查询结果溢出,则继续对溢出的所述新关键词汇的查询结果进行分词处理以及深网数据搜索,直至全部查询结果非溢出。本发明提供的搜集深网数据全集的爬虫方法,可以获得深网数据搜索全集。

Description

一种搜集深网数据全集的爬虫方法和系统
技术领域
本发明涉及爬虫技术领域,尤其涉及一种搜集深网数据全集的爬虫方法和系统。
背景技术
互联网包含的信息非常丰富,按其所蕴含信息的深度,互联网可以划分为表层网络和深网。所谓表层网络,是指可以通过统一资源定位符(UniformResourceLocator,简称URL)直接访问的页面的集合,所谓深网,又称为看不见的网页,是指通过搜索引擎由于技术原因无法检索到的那部分信息,深网相比于表层网络包含了更多的信息。
在现有技术中,对深网数据进行搜索,通常是根据用户提供的搜索词通过深网查询query接口实现的,深网网页均与query接口单一链接。但是,由于深网所有者通常进行搜索结果的限制,即,根据用户提供的搜索词,仅将与搜索词关联度最高的前K个搜索结果返回给用户,存在搜索结果top-k问题,造成用户无法获得与搜索词相关的深网数据全集。
发明内容
本发明提供一种搜集深网数据全集的爬虫方法和系统,可以获得深网数据搜索全集。
本发明提供的搜集深网数据全集的爬虫方法,包括:
根据关键词汇进行深网数据搜索,获得查询结果;
若所述查询结果溢出,则对所述查询结果进行分词处理获得特征词集合,将所述特征词集合中的每个特征词与上一次搜索中的所述关键词汇进行组合获得多个新关键词汇,根据每个新关键词汇进行深网数据搜索获得所有新关键词汇的全部查询结果;
若所述全部查询结果中至少一个所述新关键词汇的查询结果溢出,则继续对溢出的所述新关键词汇的查询结果进行分词处理以及深网数据搜索,直至全部查询结果非溢出。
本发明提供的搜集深网数据全集的爬虫和系统,包括:
第一查询模块,用于根据关键词汇进行深网数据搜索,获得查询结果;
第二查询模块,用于若所述查询结果溢出,则对所述查询结果进行分词处理获得特征词集合,将所述特征词集合中的每个特征词与上一次搜索中的所述关键词汇进行组合获得多个新关键词汇,根据每个新关键词汇进行深网数据搜索获得所有新关键词汇的全部查询结果;若所述全部查询结果中至少一个所述新关键词汇的查询结果溢出,则继续对溢出的查询结果进行分词处理以及深网数据搜索,直至全部查询结果非溢出。
本发明提供了一种搜集深网数据全集的爬虫方法和系统,其中,搜集深网数据全集的爬虫方法包括:根据关键词汇进行深网数据搜索,获得查询结果,若查询结果溢出,则对查询结果进行分词处理获得特征词集合,将特征词集合中的每个特征词与上一次搜索中的关键词汇进行组合获得多个新关键词汇,根据每个新关键词汇进行深网数据搜索获得所有新关键词汇的全部查询结果,若全部查询结果中至少一个新关键词汇的查询结果溢出,则继续对溢出的新关键词汇的查询结果进行分词处理以及深网数据搜索,直至全部查询结果非溢出。本发明提供的搜集深网数据全集的爬虫方法,通过逐次更新查询结果溢出的关键词汇,逐渐缩小搜索范围,可以获得深网数据搜索全集。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的搜集深网数据全集的爬虫方法的流程图;
图2为本发明实施例二提供的搜集深网数据全集的爬虫方法的流程图;
图3为本发明实施例一提供的搜集深网数据全集的爬虫系统的结构示意图;
图4为本发明实施例二提供的搜集深网数据全集的爬虫系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一提供的搜集深网数据全集的爬虫方法的流程图,本实施例提供的搜集深网数据全集的爬虫方法,可以应用于各个领域的深网搜索,用于获得深网搜集数据全集,例如:书籍搜索、商品搜索,等等。如图1所示,本实施例提供的搜集深网数据全集的爬虫方法,可以包括:
步骤101、根据关键词汇进行深网数据搜索,获得查询结果。
在本步骤中,获得的查询结果可能是深网数据搜索全集,也可能不是深网数据搜索全集,需要对查询结果进行判断。如果查询结果不是深网数据搜索全集,则需要进一步进行搜索。
其中,关键词汇可以是单一的一个词,也可以是多个词组成的并列词汇,例如:关键词汇可以为“计算机”,关键词汇还可以为“计算机、科学”,等等。
其中,关键词汇可以为中文词汇、英文词汇,或者为其他语言集中的词,本实施例对此不加以限制。
步骤103、若查询结果溢出,则对查询结果进行分词处理获得特征词集合,将特征词集合中的每个特征词与上一次搜索中的关键词汇进行组合获得多个新关键词汇,根据每个新关键词汇进行深网数据搜索获得所有新关键词汇的全部查询结果。
在本步骤中,如果步骤101获得的查询结果溢出,说明不是深网数据搜索全集,则需要进一步搜索。下面以具体实例详细说明本步骤。
假设步骤101中的关键词汇为“计算机”,由于查询结果溢出,则对查询结果进行分词处理获得特征词集合为“程序、java”,这样,将特征词集合中的每个特征词与上一次搜索中的关键词汇(“计算机”)进行组合,将获得两个新关键词汇,分别为“计算机、程序”和“计算机、java”,根据“计算机、程序”继续进行深网数据搜索获得关于“计算机、程序”的查询结果,根据“计算机、java”继续进行深网数据搜索获得关于“计算机、java”的查询结果,这样,就获得了全部新关键词汇的全部查询结果。
在本步骤中,每一个新关键词汇的查询结果依然可能溢出,可能没有溢出。如果哪一个新关键词汇的查询结果溢出了,说明此次深网数据搜索的查询结果仍然不是深网数据全集,还需要进一步进行搜索。
步骤105、若全部查询结果中至少一个新关键词汇的查询结果溢出,则继续对溢出的新关键词汇的查询结果进行分词处理以及深网数据搜索,直至全部查询结果非溢出。
在本步骤中,如果步骤103获得的全部查询结果中,存在至少一个新关键词汇的查询结果溢出,说明还不是深网数据搜索全集,则需要进一步搜索。下面接续步骤103的具体实例详细说明本步骤。
假设步骤103中新关键词汇“计算机、java”的查询结果溢出,则对“计算机、java”的查询结果继续进行分词处理获得特征词集合为“编程、硬件”,这样,将特征词集合中的每个特征词与上一次搜索中的关键词汇(“计算机、java”)进行组合,将获得两个新关键词汇,分别为“计算机、java、编程”和“计算机、java、硬件”,根据“计算机、java、编程”继续进行深网数据搜索获得关于“计算机、java、编程”的查询结果,根据“计算机、java、硬件”继续进行深网数据搜索获得关于“计算机、java、硬件”的查询结果,这样,就获得了全部新关键词汇的全部查询结果。
然后,需要判断每一个新关键词汇的查询结果是否溢出,如果溢出,则需要继续搜索,直至全部查询结果没有溢出,获得深网数据搜索的全集。
其中,在本步骤中,继续对溢出的查询结果进行分词处理以及深网数据搜索,是指重复步骤103的操作。
可见,通过上述步骤,在每一次搜索完成后,需要判断全部的查询结果是否溢出,如果溢出,则针对查询结果溢出的关键词汇进行下一次的搜索,在下一次的搜索中,首先对上一次的溢出的关键词汇进行更新,具体地,通过分词处理获得特征词集合,将特征词集合中的每个特征词与上一次搜索的溢出的关键词汇进行组合,形成新的关键词汇,如此反复搜索,逐渐缩小溢出的搜索范围,直至所有查询结果都没有溢出。本实施例提供的搜集深网数据全集的爬虫方法,克服了深网所有者设置的搜索结果top-k问题,通过逐次更新查询结果溢出的关键词汇,逐渐缩小溢出的搜索范围,可以获得深网数据搜索全集。
可选的,在本实施例中,判断查询结果是否溢出,一种实现规则可以是:
若查询结果的数目等于深网预设阈值,则查询结果溢出;或者,
若查询结果的数目小于深网预设阈值,则查询结果非溢出。
其中,深网预设阈值是深网所有者根据需要进行设置的查询结果的最大返回数量。
本实施例提供了一种搜集深网数据全集的爬虫方法,包括:根据关键词汇进行深网数据搜索,获得查询结果,若查询结果溢出,则对查询结果进行分词处理获得特征词集合,将特征词集合中的每个特征词与上一次搜索中的关键词汇进行组合获得多个新关键词汇,根据每个新关键词汇进行深网数据搜索获得所有新关键词汇的全部查询结果,若全部查询结果中至少一个新关键词汇的查询结果溢出,则继续对溢出的新关键词汇的查询结果进行分词处理以及深网数据搜索,直至全部查询结果非溢出。本实施例提供的搜集深网数据全集的爬虫方法,通过逐次更新查询结果溢出的关键词汇,逐渐缩小搜索范围,可以获得深网数据搜索全集。
图2为本发明实施例二提供的搜集深网数据全集的爬虫方法的流程图,本实施例在实施例一的基础上,主要提供了实施例一中步骤103的一种具体案方式,本实施例提供的搜集深网数据全集的爬虫方法,步骤103中对查询结果进行分词处理获得特征词集合,可以包括:
步骤201、对查询结果中的每一条结果进行分词处理,获得查询结果的至少两个特征词汇。
其中,分词处理可以采用现有的任意对各语言集的分词处理技术,例如,对于中文短文本数据进行分词处理,可以去除无用的冠词,连词等。
步骤203、将特征词汇分别作为矩阵的行和列构成特征词汇关联矩阵,对特征词汇关联矩阵采用最小顶点覆盖算法获得特征词集合。
其中,特征词汇关联矩阵中各元素的取值为与各元素对应的两个特征词汇在查询结果中同时出现的次数。例如,在特征词汇关联矩阵中,行为“计算机”,列为“科学”的元素的取值为5,则表示“计算机”和“科学”这两个特征词汇在5条结果中同时出现过。所以,特征词汇关联矩阵中各元素的取值可以表示两个特征词汇的关联程度,取值越高,说明这两个特征词汇同时出现的次数越多,关联越密切。
在本步骤中,通过计算特征词汇的关联程度并采用最小顶点覆盖算法,可以过滤掉特征词汇中关联度不高的特征词汇,从而可以得到特征词数目较少的较优的特征词集合,从而进一步缩小了下一次搜索的关键词汇的数量,提高了获取深网数据搜索全集的效率。
其中,最小顶点覆盖算法是图论中的重要概念,可以采用现有的任意一种算法。
可选的,步骤203中对特征词汇关联矩阵采用最小顶点覆盖算法获得特征词集合,一种实现方式可以为:
根据特征词汇关联矩阵获取无向连通图。其中,无向连通图的顶点为特征词汇,无向连通图的边为特征关联矩阵中各非零元素。
采用最小顶点覆盖算法获取无向连通图对应的最小顶点集合,将最小顶点集合对应的特征词作为特征词集合。其中,最小顶点集包括无向连通图中的每一条边的至少一个顶点。
其中,无向连通图的边仅针对两个不同的特征词汇的连接。如果两个不同的特征词汇对应的特征关联矩阵中元素的取值非零,则表示这两个不同的特征词汇之间存在一条边。
进一步,通过特征关联矩阵中各非零元素的取值,可以计算无向连通图中各顶点的度,以用于最小顶点覆盖算法。
可选的,上述步骤中的最小顶点覆盖算法,一种实现方式可以为:
初始化最小顶点集合为空集。
在无向连通图的顶点集中选取度最小的一个顶点,将顶点以及与顶点连接的其他顶点放入最小顶点集合中,在无向连通图中删除最小顶点集合中的各顶点。
重新计算无向连通图中各剩余顶点的度,并重复执行上述选取顶点的步骤,直至无向连通图中没有顶点为止。
可选的,上述步骤中的最小顶点覆盖算法,另一种实现方式可以为:
初始化最小顶点集合为空集。
在无向连通图的边集中任意选取一条边,将边的两个顶点放入最小顶点集合中,在无向连通图中删除所有与最小顶点集合中各顶点连接的边。
继续在无向连通图中各剩余边中任意选取一条边,重复执行上述选取顶点的步骤,直至无向连通图中没有边为止。
本实施例提供了一种搜集深网数据全集的爬虫方法,通过逐次更新查询结果溢出的关键词汇,逐渐缩小搜索范围,可以获得深网数据搜索全集。并且,由于获得的特征词集合包含了较少的较优的特征词,从而进一步缩小了下一次搜索的关键词汇的数量,提高了获取深网数据搜索全集的效率。
图3为本发明实施例一提供的搜集深网数据全集的爬虫系统的结构示意图,本实施例提供的搜集深网数据全集的爬虫系统,可以执行图1所示实施例提供的搜集深网数据全集的爬虫方法。如图3所示,本实施例提供的搜集深网数据全集的爬虫系统,可以包括:
第一查询模块11,用于根据关键词汇进行深网数据搜索,获得查询结果。
第二查询模块13,用于若查询结果溢出,则对查询结果进行分词处理获得特征词集合,将特征词集合中的每个特征词与上一次搜索中的关键词汇进行组合获得多个新关键词汇,根据每个新关键词汇进行深网数据搜索获得所有新关键词汇的全部查询结果。若全部查询结果中至少一个新关键词汇的查询结果溢出,则继续对溢出的查询结果进行分词处理以及深网数据搜索,直至全部查询结果非溢出。
可选的,若查询结果的数目等于深网预设阈值,则查询结果溢出,或者,若查询结果的数目小于深网预设阈值,则查询结果非溢出。
本实施例提供了一种搜集深网数据全集的爬虫系统,包括:第一查询模块和第二查询模块,其中,第一查询模块用于根据关键词汇进行深网数据搜索,获得查询结果,第二查询模块用于若查询结果溢出,则对查询结果进行分词处理获得特征词集合,将特征词集合中的每个特征词与上一次搜索中的关键词汇进行组合获得多个新关键词汇,根据每个新关键词汇进行深网数据搜索获得所有新关键词汇的全部查询结果。若全部查询结果中至少一个新关键词汇的查询结果溢出,则继续对溢出的查询结果进行分词处理以及深网数据搜索,直至全部查询结果非溢出。本实施例提供的搜集深网数据全集的爬虫系统,通过逐次更新查询结果溢出的关键词汇,逐渐缩小搜索范围,可以获得深网数据搜索全集。
图4为本发明实施例二提供的搜集深网数据全集的爬虫系统的结构示意图,本实施例在实施例一的基础上,提供了搜集深网数据全集的爬虫系统的另一种实现方式,可以执行图1~图2所示实施例提供的搜集深网数据全集的爬虫方法。如图4所示,本实施例提供的搜集深网数据全集的爬虫系统,可以包括:第一查询模块11和第二查询模块13。
其中,第二查询模块13包括分词模块131和处理模块133。
分词模块131用于,对查询结果中的每一条结果进行分词处理,获得查询结果的至少两个特征词汇。
处理模块133用于,将特征词汇分别作为矩阵的行和列构成特征词汇关联矩阵,对特征词汇关联矩阵采用最小顶点覆盖算法获得特征词集合。其中,特征词汇关联矩阵中各元素的取值为与各元素对应的两个特征词汇在查询结果中同时出现的次数。
可选的,处理模块133具体用于:
根据特征词汇关联矩阵获取无向连通图。其中,无向连通图的顶点为特征词汇,无向连通图的边为特征关联矩阵中各非零元素。
采用最小顶点覆盖算法获取无向连通图对应的最小顶点集合,将最小顶点集合对应的特征词作为特征词集合。其中,最小顶点集包括无向连通图中的每一条边的至少一个顶点。
可选的,处理模块133具体用于:
初始化最小顶点集合为空集。
在无向连通图的顶点集中选取度最小的一个顶点,将顶点以及与顶点连接的其他顶点放入最小顶点集合中,在无向连通图中删除最小顶点集合中的各顶点。
重新计算无向连通图中各剩余顶点的度,并重复执行上述选取顶点的步骤,直至无向连通图中没有顶点为止。
可选的,处理模块133具体用于:
初始化最小顶点集合为空集。
在无向连通图的边集中任意选取一条边,将边的两个顶点放入最小顶点集合中,在无向连通图中删除所有与最小顶点集合中各顶点连接的边。
继续在无向连通图中各剩余边中任意选取一条边,重复执行上述选取顶点的步骤,直至无向连通图中没有边为止。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种搜集深网数据全集的爬虫方法,其特征在于,包括:
根据关键词汇进行深网数据搜索,获得查询结果;
若所述查询结果溢出,则对所述查询结果进行分词处理获得特征词集合,将所述特征词集合中的每个特征词与上一次搜索中的所述关键词汇进行组合获得多个新关键词汇,根据每个新关键词汇进行深网数据搜索获得所有新关键词汇的全部查询结果;
若所述全部查询结果中至少一个所述新关键词汇的查询结果溢出,则继续对溢出的所述新关键词汇的查询结果进行分词处理以及深网数据搜索,直至全部查询结果非溢出。
2.根据权利要求1所述的方法,其特征在于,所述对所述查询结果进行分词处理获得特征词集合,包括:
对所述查询结果中的每一条结果进行分词处理,获得所述查询结果的至少两个特征词汇;
将所述特征词汇分别作为矩阵的行和列构成特征词汇关联矩阵,对所述特征词汇关联矩阵采用最小顶点覆盖算法获得所述特征词集合;其中,所述特征词汇关联矩阵中各元素的取值为与所述各元素对应的两个特征词汇在所述查询结果中同时出现的次数。
3.根据权利要求2所述的方法,其特征在于,所述对所述特征词汇关联矩阵采用最小顶点覆盖算法获得所述特征词集合,包括:
根据所述特征词汇关联矩阵获取无向连通图;其中,所述无向连通图的顶点为所述特征词汇,所述无向连通图的边为所述特征关联矩阵中各非零元素;
采用所述最小顶点覆盖算法获取所述无向连通图对应的最小顶点集合,将所述最小顶点集合对应的特征词作为所述特征词集合;其中,所述最小顶点集包括所述无向连通图中的每一条边的至少一个顶点。
4.根据权利要求3所述的方法,其特征在于,所述最小顶点覆盖算法包括:
初始化所述最小顶点集合为空集;
在所述无向连通图的顶点集中选取度最小的一个顶点,将所述顶点以及与所述顶点连接的其他顶点放入所述最小顶点集合中,在所述无向连通图中删除所述最小顶点集合中的各顶点;
重新计算所述无向连通图中各剩余顶点的度,并重复执行上述选取顶点的步骤,直至所述无向连通图中没有顶点为止。
5.根据权利要求3所述的方法,其特征在于,所述最小顶点覆盖算法包括:
初始化所述最小顶点集合为空集;
在所述无向连通图的边集中任意选取一条边,将所述边的两个顶点放入所述最小顶点集合中,在所述无向连通图中删除所有与所述最小顶点集合中各顶点连接的边;
继续在所述无向连通图中各剩余边中任意选取一条边,重复执行上述选取顶点的步骤,直至所述无向连通图中没有边为止。
6.根据权利要求1至5任一所述的方法,其特征在于,若所述查询结果的数目等于深网预设阈值,则所述查询结果溢出;或者,
若所述查询结果的数目小于所述深网预设阈值,则所述查询结果非溢出。
7.一种搜集深网数据全集的爬虫系统,其特征在于,包括:
第一查询模块,用于根据关键词汇进行深网数据搜索,获得查询结果;
第二查询模块,用于若所述查询结果溢出,则对所述查询结果进行分词处理获得特征词集合,将所述特征词集合中的每个特征词与上一次搜索中的所述关键词汇进行组合获得多个新关键词汇,根据每个新关键词汇进行深网数据搜索获得所有新关键词汇的全部查询结果;若所述全部查询结果中至少一个所述新关键词汇的查询结果溢出,则继续对溢出的查询结果进行分词处理以及深网数据搜索,直至全部查询结果非溢出。
8.根据权利要求7所述的系统,其特征在于,所述第二查询模块包括分词模块和处理模块;
所述分词模块用于,对所述查询结果中的每一条结果进行分词处理,获得所述查询结果的至少两个特征词汇;
所述处理模块用于,将所述特征词汇分别作为矩阵的行和列构成特征词汇关联矩阵,对所述特征词汇关联矩阵采用最小顶点覆盖算法获得所述特征词集合;其中,所述特征词汇关联矩阵中各元素的取值为与所述各元素对应的两个特征词汇在所述查询结果中同时出现的次数。
9.根据权利要求8所述的系统,其特征在于,所述处理模块具体用于:
根据所述特征词汇关联矩阵获取无向连通图;其中,所述无向连通图的顶点为所述特征词汇,所述无向连通图的边为所述特征关联矩阵中各非零元素;
采用所述最小顶点覆盖算法获取所述无向连通图对应的最小顶点集合,将所述最小顶点集合对应的特征词作为所述特征词集合;其中,所述最小顶点集包括所述无向连通图中的每一条边的至少一个顶点。
10.根据权利要求9所述的系统,其特征在于,所述处理模块具体用于:
初始化所述最小顶点集合为空集;
在所述无向连通图的顶点集中选取度最小的一个顶点,将所述顶点以及与所述顶点连接的其他顶点放入所述最小顶点集合中,在所述无向连通图中删除所述最小顶点集合中的各顶点;
重新计算所述无向连通图中各剩余顶点的度,并重复执行上述选取顶点的步骤,直至所述无向连通图中没有顶点为止;
或者,
初始化所述最小顶点集合为空集;
在所述无向连通图的边集中任意选取一条边,将所述边的两个顶点放入所述最小顶点集合中,在所述无向连通图中删除所有与所述最小顶点集合中各顶点连接的边;
继续在所述无向连通图中各剩余边中任意选取一条边,重复执行上述选取顶点的步骤,直至所述无向连通图中没有边为止。
CN201510885882.9A 2015-12-04 2015-12-04 一种搜集深网数据全集的爬虫方法和系统 Active CN105528414B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510885882.9A CN105528414B (zh) 2015-12-04 2015-12-04 一种搜集深网数据全集的爬虫方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510885882.9A CN105528414B (zh) 2015-12-04 2015-12-04 一种搜集深网数据全集的爬虫方法和系统

Publications (2)

Publication Number Publication Date
CN105528414A true CN105528414A (zh) 2016-04-27
CN105528414B CN105528414B (zh) 2019-07-05

Family

ID=55770637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510885882.9A Active CN105528414B (zh) 2015-12-04 2015-12-04 一种搜集深网数据全集的爬虫方法和系统

Country Status (1)

Country Link
CN (1) CN105528414B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106066875A (zh) * 2016-05-30 2016-11-02 深圳市华傲数据技术有限公司 一种基于深网爬虫的高效数据采集方法及系统
CN109657131A (zh) * 2018-12-10 2019-04-19 中国测绘科学研究院 基于检索词与空间范围的深网poi数据获取方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100875636B1 (ko) * 2007-09-19 2008-12-26 한국과학기술정보연구원 그리드 컴퓨팅 기반 웹 크롤러 시스템 및 그 방법
US20090204610A1 (en) * 2008-02-11 2009-08-13 Hellstrom Benjamin J Deep web miner
CN101667201A (zh) * 2009-09-18 2010-03-10 浙江大学 基于树合并的Deep Web查询接口集成方法
US20120323881A1 (en) * 2011-06-17 2012-12-20 Microsoft Corporation Interactive web crawler
CN103257981A (zh) * 2012-06-12 2013-08-21 苏州大学 基于查询接口属性特征的Deep Web数据表面化方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100875636B1 (ko) * 2007-09-19 2008-12-26 한국과학기술정보연구원 그리드 컴퓨팅 기반 웹 크롤러 시스템 및 그 방법
US20090204610A1 (en) * 2008-02-11 2009-08-13 Hellstrom Benjamin J Deep web miner
CN101667201A (zh) * 2009-09-18 2010-03-10 浙江大学 基于树合并的Deep Web查询接口集成方法
US20120323881A1 (en) * 2011-06-17 2012-12-20 Microsoft Corporation Interactive web crawler
CN103257981A (zh) * 2012-06-12 2013-08-21 苏州大学 基于查询接口属性特征的Deep Web数据表面化方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WU P, WEN J R, LIU H, ET AL.: "Query Selection Techniques for Efficient Crawling of Structured Web Sources", 《INTERNATIONAL CONFERENCE ON DATA ENGINEERING》 *
刘璟: "《计算机算法引论 设计与分析技术》", 30 September 2003 *
李学环: "基于视觉信息与DOM树的Deep Web数据获取方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
王晓东: "《算法设计与分析习题解答 第3版》", 28 February 2014 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106066875A (zh) * 2016-05-30 2016-11-02 深圳市华傲数据技术有限公司 一种基于深网爬虫的高效数据采集方法及系统
CN106066875B (zh) * 2016-05-30 2019-08-16 深圳市华傲数据技术有限公司 一种基于深网爬虫的高效数据采集方法及系统
CN109657131A (zh) * 2018-12-10 2019-04-19 中国测绘科学研究院 基于检索词与空间范围的深网poi数据获取方法及系统

Also Published As

Publication number Publication date
CN105528414B (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN106815263B (zh) 法律条文的搜索方法及装置
CN101599089B (zh) 视频服务网站内容更新信息的自动搜索与抽取系统及方法
CN105404699A (zh) 一种搜索财经文章的方法、装置及服务器
CN101963965B (zh) 基于搜索引擎的文档索引方法、数据查询方法及服务器
CN102930059A (zh) 一种聚焦爬虫的设计方法
CN104504150A (zh) 新闻舆情监测系统
CN105512143A (zh) 一种网页分类方法及装置
CN104516982A (zh) 一种基于Nutch的Web信息提取方法和系统
CN105302876A (zh) 基于正则表达式的url过滤方法
CN102411617B (zh) 一种对海量url进行存储和查询方法
CN106844640A (zh) 一种网页数据分析处理方法
CN105488221A (zh) 一种在搜索界面推荐查询词进行搜索的方法和系统
CN102929902A (zh) 一种基于中文检索的分词方法及装置
CN102542061A (zh) 一种产品的智能分类方法
CN105302807A (zh) 一种获取信息类别的方法和装置
CN109074366A (zh) 用于计算机网络路由基础架构的增益调整组件
CN105069112A (zh) 一种行业垂直搜索引擎系统
CN103714149A (zh) 一种自适应增量式的深层网络数据源发现方法
CN107977420A (zh) 一种演进式文档的摘要提取方法、装置及可读存储介质
CN105528414A (zh) 一种搜集深网数据全集的爬虫方法和系统
CN106547803A (zh) 爬取网站增量资源的方法和装置
CN103064966A (zh) 一种从单记录网页中抽取规律噪音的方法
CN102654875B (zh) 一种自动处理网页文本的内链的方法及装置
CN106980677A (zh) 面向行业的主题搜索方法
CN103488741A (zh) 一种基于url的中文多语义名词的在线语义挖掘系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant