CN100452054C - 用于深层网页数据源集成的数据源发现方法 - Google Patents

用于深层网页数据源集成的数据源发现方法 Download PDF

Info

Publication number
CN100452054C
CN100452054C CNB2007100218834A CN200710021883A CN100452054C CN 100452054 C CN100452054 C CN 100452054C CN B2007100218834 A CNB2007100218834 A CN B2007100218834A CN 200710021883 A CN200710021883 A CN 200710021883A CN 100452054 C CN100452054 C CN 100452054C
Authority
CN
China
Prior art keywords
page
link
data source
root
scoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2007100218834A
Other languages
English (en)
Other versions
CN101051313A (zh
Inventor
崔志明
赵朋朋
方巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shu Lan
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CNB2007100218834A priority Critical patent/CN100452054C/zh
Publication of CN101051313A publication Critical patent/CN101051313A/zh
Application granted granted Critical
Publication of CN100452054C publication Critical patent/CN100452054C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于深层网页数据源集成的数据源发现方法,包括下列步骤:(1)构建站点根链接队列和本地链接队列;(2)从本地链接队列中取评分最高的页面链接,由爬行模块下载;(3)利用表单分类器对下载的页面进行处理,如其中含有表单查询接口,则将其加入深层网页数据源中;(4)利用页面分类器对下载的页面进行处理,如果主题评分小于设定阈值,则返回步骤(2);(5)提取页面中的链接地址,经链接分类器判断后分别放入本地链接队列、站点根链接队列或抛弃;(6)重复步骤(2)至步骤(5),实现深层网页数据源的自动爬行。本发明是一种非常高效的Deep Web数据源获取方法,它能够较大范围地提高人们的工作效率,为进一步实现深层网页数据源集成提供基础。

Description

用于深层网页数据源集成的数据源发现方法
技术领域
本发明涉及一种基于网络的数据源的发现方法,具体涉及一种由网络查询接口连接的深层网页的数据源发现方法,用于深层网页数据源的集成。
背景技术
随着网络数据库的广泛应用,网络正在加速“深化”。互联网上有大量页面是由后台数据库动态产生,这部分信息不能直接通过静态链接获取,只能通过填写表单提交查询来获取,由于传统的网络爬虫(Crawler)不具有填写表单的能力,无法获取这些页面。因此,现有的搜索引擎搜索不出这部分页面信息,从而导致这部分信息对用户是隐藏、不可见的,我们称之为深层网络页面(Deep Web,又称为Invisible Web,Hidden Web)。Deep Web是一个与SurfaceWeb相对应的概念,最初由Dr.Jill Ellsworth于1994年提出,指那些由普通搜索引擎难以发现其信息内容的网络页面。Deep Web信息一般存储在数据库中,和静态页面相比通常信息量更大,主题更专一,信息质量更好,信息结构化更好,增长速度更快。研究表明,Deep Web信息是Surface Web信息的500倍,有近450,000个Deep Web站点。实现大规模Deep Web数据集成是方便用户使用Deep Web信息的一个有效途径。
要实现大规模Deep Web集成搜索,需要解决:1)数据源发现(Deep WebDiscovery);2)查询接口抽取(Query Interface Extraction);3)数据源分类(Source Classification);4)查询转换(Query Transfer);5)结果合成(ResultMerging)等五个关键问题。
对Deep Web进行分类集成搜索的前提是获取Deep Web查询接口,这属于数据源发现的范畴。
K.C.-C.Chang,B.He,Z.Zhang在Toward Large-Scale Integration:Building a MetaQuerier over Databases on the Web一文中(Conference onInnovative Data Systems Research,Asilomar,2005),公开了一种从网络中获取查询接口的方法,其首先收集提供WWW服务的IP地址列表,然后对于列表中每个IP地址,按照宽度优先策略依次抓取一定深度范围内的网页,并从下载的页面中提取可查询接口。但是,由于互联网中含有查询接口的页面比例很小,而宽度优先是一种盲目的搜索策略,采用这种方法会下载大量无关的页面,效率非常低。
解决这个问题的有效手段是采用聚焦爬行(Focused Crawling)技术。目前把聚焦爬虫技术应用到Deep Web数据源发现中的研究还比较少。有学者使用链接分类器来优先下载那些最可能指向含有查询接口的页面。在训练分类器过程中,其使用Google等搜索引擎来得到指向内层页面的所有外层页面,但是这种方法的缺点是:越到外层,页面的数量就越多,并且很多是无关的页面,所以会造成“主题漂移”等问题。而且上述方法无法得到某页面在其所属站点中准确的深度信息,从而无法很好地控制爬行的进程。
发明内容
本发明目的是提供一种用于深层网页数据源集成的数据源发现方法,以根据所设定的主题,实现主题相关的数据查询接口的检索下载,减小页面下载数量,解决主题漂移问题。
为达到上述目的,本发明采用的技术方案是:一种用于深层网页数据源集成的数据源发现方法,包括下列步骤:
(1)提供待查询数据的主题,分别构建站点根链接队列和本地链接队列,在站点根链接队列中放入至少一个种子根链接地址,并根据其与主题的关系给定权重;
(2)如果本地链接队列为空,则从站点根链接队列中取权重最大的一个根链接地址,放入本地链接队列中;从本地链接队列中取评分最高的页面链接,由爬行模块下载该页面;
(3)利用表单分类器对步骤(2)下载的页面进行处理,如其中含有表单查询接口,则将其加入深层网页数据源中;
(4)利用页面分类器对步骤(2)下载的页面进行处理,所述页面分类器采用最优者优先(best-first)策略进行主题判断,如果主题评分小于设定阈值,则返回步骤(2);
(5)提取页面中的链接地址,用链接分类器判断链接地址是否有可能指向含有表单接口的页面,并给该链接评分,所述链接分类器判断方法为,提取锚文本、链接上下文文本、链接地址、链接中的图片地址作为特征,进行信息分词并统计词频,得到该链接的特征向量X,采用朴素贝叶斯方法对链接信息进行分类;对于评分大于设定值的链接,如为本地链接,则放入本地链接队列,如为外部站点链接,则搜索站点根链接队列,存在对应的站点根链接时,根据该链接的评分调整站点根链接的权重,不存在对应的站点根链接时,则将该链接的站点根链接加入站点根链接队列,并根据评分设定根链接的权重;
(6)重复步骤(2)至步骤(5),实现深层网页数据源的自动爬行。
上述技术方案中,所述的“本地链接”是指与正在处理的页面具有相同的站点根链接的页面链接。“页面分类器”采用Best-first策略,用于判断抓取的页面P是否属于当前主题。只有当P属于当前主题,P中的链接和查询接口才被继续处理。“链接分类器”用于判断链接url是否有可能指向含有表单接口的页面,并给该链接评分。所述的分类器方法为现有技术,其一般过程都是通过对已经分好类的一组训练文本的学习来自动创建分类器,通过有指导的学习对测试文本进行分类。其中,所述朴素贝叶斯分类器(
Figure C20071002188300061
BayesClassifier)假定特征向量的各分量间相对于决策变量是独立的。对于特征向量为X=[x1,x2,...,xd]T的测试样本,它属于第Ci类的概率如(1)式所示:
P ( C i | X ) = P ( C i ) / P ( X ) * Π j = 1 d P ( x j | C i ) - - - ( 1 )
P(Ci|X)代表X属于类Ci的概率。对每一个类别都计算上式的概率,最终的识别结果是使概率值最大的那个类。
通过采用页面分类器进行主题判断,有效地避免了主题漂移。
进一步的技术方案,所述步骤(5)中,对于本地链接,如果链接深度大于3时,则抛弃,不放入本地链接队列。据调查,91.6%的深层网页查询接口所在页面的深度小于等于3,因此当链接的深度大于3时,就不处理该链接,可以在保证准确度的前提下,有效减小处理量。
上述技术方案中,先采用页面实例对页面分类器进行训练,然后对于从爬行器得到的新页面用训练好的页面分类器分析并给予评分,所述评分反应了该页面属于当前主题的概率大小,只有当该评分大于一个先前设定的阈值θ时,页面中的链接和查询接口才被继续处理。
上述技术方案中,所述表单分类器根据启发规则确定查询接口区域,仅当页面中的表单为查询接口类表单时,将其加入深层网页数据源;所述启发规则为,由TEXTAREA控件或PASSWORD控件构成的网页表单不是查询接口;网页表单中的控件数量少于3的网页表单不是查询接口。
进一步的技术方案,设定查询接口阈值,当某个站点已发现的不同的查询接口数量大于查询接口阈值时,该站点的链接直接抛弃,不再加入链接队列。
优选的技术方案为,所述的查询接口阈值为5~8之间的整数。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:
1.由于本发明采用页面分类器判断页面主题与所需查询主题的一致性概率,因而可以有效防止主题漂移,实现聚焦爬行,大大减小处理量,提高深层网页数据源的发现效率;
2.由于本发明设置了站点根链接队列和本地链接队列两个队列,可以有效监视正在处理的站点的链接深度,当链接深度大于3时,停止处理,由于91.6%的深层网页查询接口所在页面的深度小于等于3,因此可以在保证准确度的前提下,有效减小处理量;
3.本发明同时考虑了各站点的权重和当前站点中各链接相关性等问题来调整爬行的先后顺序,是一种非常高效的Deep Web数据源获取方法,它能够较大范围地提高人们的工作效率,为进一步实现深层网页数据源集成提供基础。
附图说明
附图1是本发明实施例一的深层网页数据源聚焦爬虫系统框架示意图;
附图2是实施例一的聚焦爬行算法示意图。
具体实施方式
下面结合附图及实施例对本发明作进一步描述:
实施例一:参见附图1至附图2所示,一种用于深层网页数据源集成的数据源发现方法,包括下列步骤:
(1)提供待查询数据的主题,分别构建站点根链接队列和本地链接队列,在站点根链接队列中放入至少一个种子根链接地址,并根据其与主题的关系给定权重;
(2)如果本地链接队列为空,则从站点根链接队列中取权重最大的一个根链接地址,放入本地链接队列中;从本地链接队列中取评分最高的页面链接,由爬行模块下载该页面;
(3)利用表单分类器对步骤(2)下载的页面进行处理,如其中含有表单查询接口,则将其加入深层网页数据源中;
(4)利用页面分类器对步骤(2)下载的页面进行处理,所述页面分类器采用最优者优先(best-first)策略进行主题判断,如果主题评分小于设定阈值,则返回步骤(2);
(5)提取页面中的链接地址,用链接分类器判断链接地址是否有可能指向含有表单接口的页面,并给该链接评分,所述链接分类器判断方法为,提取锚文本、链接上下文文本、链接地址、链接中的图片地址作为特征,进行信息分词并统计词频,得到该链接的特征向量X,采用朴素贝叶斯方法对链接信息进行分类;对于评分大于设定值的链接,如为本地链接,则放入本地链接队列,如为外部站点链接,则搜索站点根链接队列,存在对应的站点根链接时,根据该链接的评分调整站点根链接的权重,不存在对应的站点根链接时,则将该链接的站点根链接加入站点根链接队列,并根据评分设定根链接的权重;
(6)重复步骤(2)至步骤(5),实现深层网页数据源的自动爬行。
实现上述方法的深层网页(Deep Web)数据源聚焦爬虫系统,其系统框架图参见图1所示。各模块详细介绍如下:
1.链接分类器
链接分类器用于判断链接URL是否有可能指向含有表单接口的页面,并给该链接评分。链接分类器提取的特征主要是锚文本及链接上下文文本、URL地址、链接中的图片地址。经观察,很多链接中用图片代替了锚文本,所以我们把图片的地址信息也考虑进去。对上述信息分词并统计词频后,就得到了该链接的特征向量X。然后我们采用朴素贝叶斯方法来对链接信息进行分类。
2.页面分类器
页面分类器采用Best-first策略,用于判断抓取的页面P是否属于当前主题。只有当P属于当前主题,P中的链接和查询接口才被继续处理。页面分类器先用部分从雅虎分类目录中得到的页面实例进行训练。然后对于从爬行器得到的一个新页面P,训练好的页面分类器分析P的内容,然后给P一个评分,这个评分反应了P属于当前主题的概率大小。只有当该评分大于一个先前设定的阈值θ时,P中的链接和查询接口才被继续处理。
3.表单分类器
因为我们的目标是收集Deep Web数据源,所以我们需要去除那些不是Deep Web查询接口的表单,诸如会员登陆,邮件订阅等对本发明无意义的表单。为此,我们根据一些启发规则来确定查询接口区域,例如有些网页表单有TEXTAREA控件和PASSWORD控件,根据实际经验我们可以直接判定这类网页表单不是查询接口。另外可以为网页表单中的控件数量设置一个阈值,当一个网页表单中的控件数量低于这个阈值时,就可以认为这个网页表单不是查询接口。例如有些站内搜索的网页表单元素数量很少,仅有一个文本框和一个提交按钮,对这类网页表单我们无法获得足够的信息,因此可将它们划入非查询接口一类。
4.爬行模块
爬行模块采用多线程技术,以提高系统的处理速度。当爬行了一段时间以后,随着待爬行链接队列中链接数量成几何级增长,内存消耗相当快,CPU利用率变得很低。所以要限制相关数据结构占用内存的容量,当其容量大于一定数值时要把数据利用持久化技术(serialization)写到磁盘上。
在确定爬行停止条件时,因为研究表明:平均每个Deep Web站点只含有4.2个查询接口。所以当某个站点已发现的不同的查询接口数量或下载的页面数量超过一定的阈值时,这个站点中的链接就不再处理了。
5.待爬行链接队列
本系统中待爬行队列主要有两个:“本地链接队列”和“站点根链接队列”。据调查,91.6%的Deep Web查询接口所在页面的深度小于等于3,因此当链接的深度大于3时,我们就不处理该链接了。“本地链接队列”存放了属于当前站点的各待爬行链接,各链接按照评分由高到低排序。而对于当前站点页面中指向外部站点的链接,我们把这些链接所在站点的首页地址以及该站点的权重存放在“站点根链接队列”中。“站点根链接队列”中的各站点的权重会在爬行过程中不断地被更新。更新的原则是:当新发现的属于某个站点的链接评分很高时,会增加该站点的权重;相反会降低该站点的权重。“站点根链接队列”中的各站点按照其权重由高到低排序。爬行过程中,当“本地链接队列”为空时,则从“站点根链接队列”中取出一个权重最高的站点首页地址放入“本地链接队列”,从而开始新一轮的爬行。
Deep Web数据源聚焦爬行算法
Deep Web数据源聚焦爬虫的核心算法如附图2所示。为了以后对各领域的查询接口分别进行集成,本实施例对不同领域(如工作领域、汽车领域)的站点分别进行爬行。
待爬行的链接存放在待爬行队列里,已访问过的链接放入已爬行队列。在决定一个链接是否要加入到待爬行队列时,要考虑三个问题:1.该链接的深度是否小于等于3(因为91.6%的Deep Web查询接口所在页面的深度小于等于3)。2.该链接所在页面的内容是否与当前主题相关。如果页面内容与主题无关,则不考虑其中的链接。3.该链接是否有可能指向含有查询接口的页面。

Claims (4)

1.一种用于深层网页数据源集成的数据源发现方法,其特征在于,包括下列步骤:
(1)提供待查询数据的主题,分别构建站点根链接队列和本地链接队列,在站点根链接队列中放入至少一个种子根链接地址,并根据其与主题的关系给定权重;
(2)如果本地链接队列为空,则从站点根链接队列中取权重最大的一个根链接地址,放入本地链接队列中;从本地链接队列中取评分最高的页面链接,由爬行模块下载该页面;
(3)利用表单分类器对步骤(2)下载的页面进行处理,如其中含有表单查询接口,则将其加入深层网页数据源中;
(4)利用页面分类器对步骤(2)下载的页面进行处理,所述页面分类器采用最优者优先策略进行主题判断,如果主题评分小于设定阈值,则返回步骤(2);
(5)提取页面中的链接地址,用链接分类器判断链接地址是否有可能指向含有表单接口的页面,并给该链接评分,所述链接分类器判断方法为,提取锚文本、链接上下文文本、链接地址、链接中的图片地址作为特征,进行信息分词并统计词频,得到该链接的特征向量X,采用朴素贝叶斯方法对链接信息进行分类;对于评分大于设定值的链接,如为本地链接,则放入本地链接队列,如为外部站点链接,则搜索站点根链接队列,存在对应的站点根链接时,根据该链接的评分调整站点根链接的权重,不存在对应的站点根链接时,则将该链接的站点根链接加入站点根链接队列,并根据评分设定根链接的权重;
(6)重复步骤(2)至步骤(5),实现深层网页数据源的自动爬行。
2.根据权利要求1所述的用于深层网页数据源集成的数据源发现方法,其特征在于:所述步骤(5)中,对于本地链接,如果链接深度大于3时,则抛弃,不放入本地链接队列。
3.根据权利要求1所述的用于深层网页数据源集成的数据源发现方法,其特征在于:所述步骤(4)中,先采用页面实例对页面分类器进行训练,然后对于从爬行模块得到的新页面用训练好的页面分类器分析并给予评分,所述评分反应了该页面属于当前主题的概率大小,只有当该评分大于或等于一个先前设定的阈值θ时,页面中的链接和查询接口才被继续处理。
4.根据权利要求1所述的用于深层网页数据源集成的数据源发现方法,其特征在于:所述步骤(3)中,所述表单分类器根据启发规则确定查询接口区域,仅当页面中的表单为查询接口类表单时,将其加入深层网页数据源;所述启发规则为:由TEXTAREA控件或PASSWORD控件构成的网页表单不是查询接口,网页表单中的控件数量少于3的网页表单不是查询接口。
CNB2007100218834A 2007-05-09 2007-05-09 用于深层网页数据源集成的数据源发现方法 Expired - Fee Related CN100452054C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007100218834A CN100452054C (zh) 2007-05-09 2007-05-09 用于深层网页数据源集成的数据源发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007100218834A CN100452054C (zh) 2007-05-09 2007-05-09 用于深层网页数据源集成的数据源发现方法

Publications (2)

Publication Number Publication Date
CN101051313A CN101051313A (zh) 2007-10-10
CN100452054C true CN100452054C (zh) 2009-01-14

Family

ID=38782726

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007100218834A Expired - Fee Related CN100452054C (zh) 2007-05-09 2007-05-09 用于深层网页数据源集成的数据源发现方法

Country Status (1)

Country Link
CN (1) CN100452054C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346748A (zh) * 2014-11-25 2015-02-11 新浪网技术(中国)有限公司 信息展示方法及装置

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261634B (zh) * 2008-04-11 2012-11-21 哈尔滨工业大学深圳研究生院 基于增量Q-Learning的学习方法及系统
CN102117275B (zh) * 2009-12-31 2012-11-07 北大方正集团有限公司 一种基于互联网定向站点网页数据采集的方法及装置
CN101916272B (zh) * 2010-08-10 2012-04-25 南京信息工程大学 用于深层网数据集成的数据源选择方法
CN102103636B (zh) * 2011-01-18 2013-08-07 南京信息工程大学 一种面向深层网页的增量信息获取方法
CN102739679A (zh) * 2012-06-29 2012-10-17 东南大学 一种基于url分类的钓鱼网站检测方法
CN103678371B (zh) * 2012-09-14 2017-10-10 富士通株式会社 词库更新装置、数据整合装置和方法以及电子设备
CN104317845A (zh) * 2014-10-13 2015-01-28 安徽华贞信息科技有限公司 一种深度网络数据自动抽取方法及系统
CN104462241A (zh) * 2014-11-18 2015-03-25 北京锐安科技有限公司 基于url中锚文字和周边文本的人口属性分类方法及装置
CN105843965B (zh) * 2016-04-20 2019-06-04 广东精点数据科技股份有限公司 一种基于url主题分类的深层网络爬虫表单填充方法和装置
CN106326447B (zh) * 2016-08-26 2019-06-21 北京量科邦信息技术有限公司 一种众包网络爬虫抓取数据的检测方法及系统
CN107784034B (zh) * 2016-08-31 2021-05-25 北京搜狗科技发展有限公司 页面类别识别方法及装置、用于页面类别识别的装置
CN108090200A (zh) * 2017-12-22 2018-05-29 中央财经大学 一种排序型隐藏网数据库数据的获取方法
CN108829792A (zh) * 2018-06-01 2018-11-16 成都康乔电子有限责任公司 基于scrapy的分布式暗网资源挖掘系统及方法
CN109101600A (zh) * 2018-08-01 2018-12-28 沈文策 一种网页中动态数据的爬取方法及装置
CN110765336B (zh) * 2019-11-01 2022-04-01 北京天融信网络安全技术有限公司 一种网页信息处理方法及系统
CN112486989B (zh) * 2020-11-28 2021-08-27 河北省科学技术情报研究院(河北省科技创新战略研究院) 一种多源数据颗粒化融合及指标分类分层处理方法
CN113360798B (zh) * 2021-06-02 2024-02-27 北京百度网讯科技有限公司 泛滥数据识别方法、装置、设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1564157A (zh) * 2004-03-23 2005-01-12 南京大学 一种可扩展、可定制的主题集中式万维网爬虫设置方法
US6988100B2 (en) * 2001-02-01 2006-01-17 International Business Machines Corporation Method and system for extending the performance of a web crawler
US20060161564A1 (en) * 2004-12-20 2006-07-20 Samuel Pierre Method and system for locating information in the invisible or deep world wide web
CN1851706A (zh) * 2006-05-30 2006-10-25 南京大学 基于本体学习的智能主题式网络爬虫系统构建方法
CN1851705A (zh) * 2006-05-30 2006-10-25 南京大学 基于本体的主题式网络爬虫系统构建方法
WO2007017862A2 (en) * 2005-08-05 2007-02-15 Buzzmetrics Ltd. Method and system for extracting web data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6988100B2 (en) * 2001-02-01 2006-01-17 International Business Machines Corporation Method and system for extending the performance of a web crawler
CN1564157A (zh) * 2004-03-23 2005-01-12 南京大学 一种可扩展、可定制的主题集中式万维网爬虫设置方法
US20060161564A1 (en) * 2004-12-20 2006-07-20 Samuel Pierre Method and system for locating information in the invisible or deep world wide web
WO2007017862A2 (en) * 2005-08-05 2007-02-15 Buzzmetrics Ltd. Method and system for extracting web data
CN1851706A (zh) * 2006-05-30 2006-10-25 南京大学 基于本体学习的智能主题式网络爬虫系统构建方法
CN1851705A (zh) * 2006-05-30 2006-10-25 南京大学 基于本体的主题式网络爬虫系统构建方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346748A (zh) * 2014-11-25 2015-02-11 新浪网技术(中国)有限公司 信息展示方法及装置
CN104346748B (zh) * 2014-11-25 2018-05-25 新浪网技术(中国)有限公司 信息展示方法及装置

Also Published As

Publication number Publication date
CN101051313A (zh) 2007-10-10

Similar Documents

Publication Publication Date Title
CN100452054C (zh) 用于深层网页数据源集成的数据源发现方法
CN109543086B (zh) 一种面向多数据源的网络数据采集与展示方法
Udapure et al. Study of web crawler and its different types
Gupta et al. Focused web crawlers and its approaches
CN103714149B (zh) 一种自适应增量式的深层网络数据源发现方法
CN106227788A (zh) 一种以Lucene为基础的数据库查询方法
CN104182412A (zh) 一种网页爬取方法及系统
CN103914538B (zh) 基于锚文本上下文和链接分析的主题抓取方法
CN103279492A (zh) 一种抓取网页的方法和装置
Kumar et al. Design of a mobile Web crawler for hidden Web
CN109815388A (zh) 一种基于遗传算法的智能聚焦爬虫系统
Shekhar et al. An architectural framework of a crawler for retrieving highly relevant web documents by filtering replicated web collections
Deng Research on the focused crawler of mineral intelligence service based on semantic similarity
CN108090200A (zh) 一种排序型隐藏网数据库数据的获取方法
CN107169082A (zh) 一种基于区域定位的消息推送方法
Mangaravite et al. Improving the efficiency of a genre-aware approach to focused crawling based on link context
Ye et al. iSurfer: A focused web crawler based on incremental learning from positive samples
Prasath et al. Finding potential seeds through rank aggregation of web searches
Yuan et al. Improvement of pagerank for focused crawler
Kaur et al. SmartCrawler: A Three-Stage Ranking Based Web Crawler for Harvesting Hidden Web Sources.
Patil et al. Implementation of enhanced web crawler for deep-web interfaces
Wang et al. Focused deep web entrance crawling by form feature classification
王辉 et al. 使用分类器自动发现特定领域的深度网入口
Yadav et al. Topical web crawling using weighted anchor text and web page change detection techniques
Amrin et al. Focused Web Crawling Algorithms.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Free format text: FORMER OWNER: ZHAO PENGPENG FANG WEI

Owner name: SUZHOU PUDA NEW INFORMATION TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: CUI ZHIMING

Effective date: 20100401

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 215001 ROOM 403, BUILDING 115, SU'AN NEW VILLAGE, SUZHOU CITY, JIANGSU PROVINCE TO: 215021 B502-2, INSIDE OF INTERNATIONAL SCIENCE PARK, NO.1355, JINJIHU AVENUE, SUZHOU INDUSTRIAL PARK DISTRICT, SUZHOU CITY, JIANGSU PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20100401

Address after: 215021 international science and Technology Park, 1355 Jinji Lake Avenue, Suzhou Industrial Park, Suzhou, Jiangsu, B502-2

Patentee after: Suzhou Production Information Technology Co., Ltd.

Address before: 215001 room 115, building 403, Su an village, Suzhou, Jiangsu

Co-patentee before: Zhao Pengpeng

Patentee before: Cui Zhiming

Co-patentee before: Fang Wei

EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20071010

Assignee: SUZHOU SOUKE INFORMATION TECHNOLOGY CO., LTD.

Assignor: Suzhou Production Information Technology Co., Ltd.

Contract record no.: 2013320010066

Denomination of invention: Integrated data source finding method for deep layer net page data source

Granted publication date: 20090114

License type: Exclusive License

Record date: 20130412

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20161010

Address after: 215021 Jiangsu Suzhou City Canglang District liberation Village 5 403 room

Patentee after: Shu Lan

Address before: 215021 international science and Technology Park, 1355 Jinji Lake Avenue, Suzhou Industrial Park, Suzhou, Jiangsu, B502-2

Patentee before: Suzhou Production Information Technology Co., Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090114

Termination date: 20180509