CN102103636A - 一种面向深层网页的增量信息获取方法 - Google Patents

一种面向深层网页的增量信息获取方法 Download PDF

Info

Publication number
CN102103636A
CN102103636A CN 201110020898 CN201110020898A CN102103636A CN 102103636 A CN102103636 A CN 102103636A CN 201110020898 CN201110020898 CN 201110020898 CN 201110020898 A CN201110020898 A CN 201110020898A CN 102103636 A CN102103636 A CN 102103636A
Authority
CN
China
Prior art keywords
data
value
frequency
url
timeliness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201110020898
Other languages
English (en)
Other versions
CN102103636B (zh
Inventor
方巍
文学志
毕硕本
崔志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN 201110020898 priority Critical patent/CN102103636B/zh
Publication of CN102103636A publication Critical patent/CN102103636A/zh
Application granted granted Critical
Publication of CN102103636B publication Critical patent/CN102103636B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公布了一种面向深层网页的增量信息获取方法。本发明方法包括:步骤1:确定与远程数据源同步频率;步骤2:利用泊松过程来表示数据源变化频率;步骤3:确定平均新颖度;步骤4:根据数据时新性确定更新频率进行增量信息获取。另外,本发明还可以利用在线学习方法有效进行增量信息获取。本发明方法首先确定与远程数据源同步频率,然后利用泊松过程获得数据源变化频率;接着根据数据时新性确定更新频率。相比现有技术,本发明方法是一种非常高效的深层网页的增量信息获取方法,它能够较大范围地提高人们的工作效率以及在相同更新资源条件下,使得本地数据和远程数据保持最大化同步,为进一步实现深层网数据源集成提供基础。

Description

一种面向深层网页的增量信息获取方法
技术领域
本发明涉及一种面向深层网页的增量信息获取方法,具体涉及一种由网络查询接口连接的深层网页的信息获取方法,用于深层网页数据源的集成。
背景技术
目前主流搜索引擎还只能搜索Internet表面可索引的信息,在Internet深处还隐含着大量通过主流搜索引擎无法涉及的海量信息,这些信息被称之为深层网页(Deep Web,又称为Invisible Web或Hidden Web)。根据Bright Planet研究表明,Deep Web信息量非常庞大,是可索引Web信息的500倍,并且这些Deep Web内容95%都是可以通过Internet无需付费注册就可以公开访问的。Deep Web的信息一般存储在服务器端Web数据库中,与静态页面相比通常信息量更大、主题更专一、信息质量和结构更好。目前Deep Web信息集成主要有两种实现方案:一种方案是基于元搜索的方法,针对某个领域提供统一的查询接口,将用户查询经过语义映射转发到各个Deep Web数据源上,返回的结果经过抽取、语义标注、去重合并呈现给用户。该方案不需维护本地数据库,但存在如下不足:查询响应时间由远程数据源的服务质量决定,响应时间不可控;同时,建立和维护统一查询接口模式与各个数据源接口模式的语义映射代价高。另一种方案与构建传统搜索引擎一样,将Deep Web数据库里内容爬取出来,存储到本地动态网页拷贝库中并建立索引,它能在最短时间内响应用户的查询要求。目前第二种方案正受到越来越多国内外研究学者的关注,将成为Deep Web数据集成研究的主流,该方案中一个关键问题是如何让本地数据和远程数据源中数据保持同步。本发明解决该关键问题,在相同更新资源条件下,使得本地数据和远程数据保持最大化同步。
由于Deep Web是自治的、独立更新的,其数据经常处于频繁更新的状态,而用户总是希望能够得到当前Web数据库中最新的内容。因此需要定期的更新本地数据拷贝,以保持和远程数据源同步。由于不同的DeepWeb数据源或同一个Deep Web数据源中的数据记录变化频率是不一样的,现有方法按统一频率更新本地存储的所有数据,这是非常耗费资源的(包括带宽、远程数据源的服务器资源等)。而且,Deep Web处于快速动态更新的状态,使得数据更新维护变得更加复杂。
发明内容
本发明目的是针对现有技术存在的缺陷提供一种面向深层网页的增量信息获取方法。
本发明为实现上述目的,采用如下技术方案:
本发明一种面向深层网页的增量信息获取方法包括如下步骤:
步骤1:确定本地对象与远程数据源同步频率,其中远程数据源即远程Web上数据库;
步骤2:利用泊松过程来表示远程数据源平均变化频率λi,其中,i=1,2,…,n;
步骤3:确定平均新颖度:
由步骤2得到的平均变化频率λi,确定各对象即远程Web上数据库中各数据项ei对应的同步频率fi,在满足同步资源限制的条件下,使本地数据库的平均新颖度最大,
F ‾ ( S ) = 1 n Σ i = 1 n F ‾ ( e i ) = 1 n Σ i = 1 n F ‾ ( λ i , f i ) ;
步骤4:根据数据时新性确定更新频率
在时刻t数据抓取系统所维护的第i个数据记录ri的时新性如下:
则由N个数据记录组成的数据记录集合S的平均时新性如下:
F ( S , t ) = 1 N Σ i = 1 N F ( r i , t ) .
利用拉格朗日乘子可以计算得到各对象的理论同步频率,然后按理论同步频率对对象数据进行同步,使本地数据库的平均新颖度达到最大值。
其中,所述数据记录集合S在时间上取平均值加以衡量:
F ( S ) ‾ = lim t → ∞ 1 t ∫ 0 t F ( S , t ) dt . .
其中,对于所有的(s,a)初始化表项Q0(s,a)=0,此处Q表示计算机机器学习领域的专业表示即Q为增强学习的表示形式,其中s表示状态,a表示动作,也就是Q(s,a)表示应用动作a到状态s的结果状态;初始化为0值,也就是未进行学习初始化值;在每个情节中,将对数据源的范围作为其活动,得到回报值为ri
r i = 1 N Σ i = 1 N F ( r i , t )
并在时段t内,对Q值进行更新:
q j = r j + lim t → ∞ 1 t ∫ 0 t F ( S , t ) dt .
根据上述算法在资源限制的前提下,即与服务器最大交互次数为M为固定值常量,使得新颖度
Figure BSA00000421355300033
值最大,其中fi和λi分别是数据记录i的搜集频率即同步频率和平均变化频率,F(fi,λi)表示对应数据记录i的新颖度,新颖度是通过数据时新性得到,也就是时新性表示记录中对象即最小单位数据项的更新频率,而新颖度指数据项的集合记录也就是远程数据源的整体时新性,ωi是重要性权重。
其中,本地对象数据库中的对象数据是远程Web数据库中数据的一份拷贝,获取远程Web数据库中数据的方法如下:
(1)提供待查询数据的主题,分别构建站点初始训练队列URL,然后提取队首队列URL,分析指队首页面页面结构提取页面中的链接地址URL,并根据页面关键信息计算链接地址的立即回报得出未来回报,然后结合Value值词库中未来回报来计算该链接地址的综合Q值;
(2)权衡立即回报价值和未来回报价值的信任度,即现在是处理利用阶段还是探索阶段,控制信任度。根据URL地址的深度因子是否大于5,如果深度因子大于5,则抛弃,不放入待提取URL队列;
(3)当得到深度因子小于5的URL链接后,然后判断其综合Q值是否大于设定的主题值,如果是则更新Value值词库中的原属性值,并用新的Value值词库来计算未来回报,然后根据URL优先权放入待提取URL队列中,如此反复训练直到得到最终的待提取URL队列,然后由网络爬虫抓取Deep Web中增量信息;如果综合Q值小于设定的主题值,则舍去该URL,返回步骤(1)继续下一轮训练。
本发明提出新的方法来自动增量更新本地Deep Web数据,从而在相同资源约束前提下,提高本地数据的时新性和新数据的发现效率。本发明可有效提高Deep Web信息集成服务质量,使Deep Web信息能更好地为科研、生产和决策服务。
附图说明
图1是本发明方法的增量信息获取系统流程图;
图2是本发明方法的信息获取训练模块流程图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
面向深层网页的增量信息获取系统流程如图1所示。
(1):在面向Deep Web的对象检索系统中,本地数据库中的对象信息是远程Web数据库中数据的一份拷贝。然而由于远程数据源的自治性,当其包含的对象信息改变时,并不会主动告知外界系统。所以我们必须周期性的访问这些数据源来检测数据的变化,并且把对象信息的更新反映到本地数据库中。由于远程数据源的变化和本地数据库拷贝更新之间存在一定的延迟,所以必定存在本地有一部分数据拷贝与远程数据源中不一致的情况。因此,我们要采用一定的策略来高效的同步本地的对象信息。
(2):根据远程对象的变化规律决定同步频率。如果知道远程对象的变化频率,那我们就根据其变化的快慢,对不同的对象采用不同的同步频率。这种方法的实际意义在于:同步资源是有限的,即一般在一段时间T内,能同步的本地对象的最大数量是固定的。否则会消耗大量的网络带宽,降低系统性能。因此有必要根据远程对象的变化规律决定同步频率,做到“有的放矢”。
(3):由于泊松过程(Poisson process)经常被用来描述一个随机事件序列,这些事件以固定频率重复独立发生,就用泊松过程描述同步频率。例如:一个城市发生车祸的情况、大型超市顾客到来的情况以及热线中心电话的多少等,都可以用泊松过程来描述。根据泊松过程的定义,记X(t)代表某随机变量在时间段(0,t)之间变化的次数,则其变化次数为k次的概率为:
Pr { X ( s + t ) - X ( s ) = k } = ( λt ) k k ! e - λt , k = 0,1 , . . . (公式1)
从而单位时间内变化发生的次数可由X(t+1)-X(t)的数学期望计算:
E [ X ( t + 1 ) - X ( t ) ] = Σ k = 0 ∞ k * Pr { X ( t + 1 ) - X ( t ) = k } = λe - λ Σ k = 0 ∞ λ k - 1 ( k - 1 ) ! (公式2)
根据泰勒展开式:所以E[X(t+1)-X(t)]=λ。这表明如果随机变量满足泊松过程的条件,虽然它可以在任何时刻发生变化,但其平均变化频率固定为λ。
(4)对本地数据库中的每个对象,我们会在一段时间内跟踪原始数据库中该对象的变化情况。利用公式λ=X/T近似计算得到该对象的平均变化频率。在统计得到各对象的平均变化频率之后,我们可以据此确定各对象的同步频率,以使本地数据库中的对象信息得到最优的同步效果。该问题的数学描述如下:已知各对象的平均变化频率为λi(i=1,2,…,n),目标是确定各对象对应的同步频率fi(i=1,2,…,n),在满足同步资源限制的条件下,使本地数据库的平均新颖度
Figure BSA00000421355300044
最大。
F ‾ ( S ) = 1 n Σ i = 1 n F ‾ ( e i ) = 1 n Σ i = 1 n F ‾ ( λ i , f i ) (公式3)
(5)采用数据时新性作为Deep Web数据更新策略的评估指标,对于Deep Web信息获取系统而言,如果它在某时刻存在本地的某数据记录与当时该数据记录在远程DeepWeb中的实际内容相同,则称该数据记录是时新的。数据抓取系统所维护的某个数据记录ri的时新性可以定义如下:
对象ei及数据库S在某时刻t的新颖度(freshness)可按如下公式计算:
F ( r i , t ) = 1 , up - to - date 0 , otherwise (公式4)
根据上述公式的定义,可以进一步定义由N个数据记录组成的集合S的平均时新性如下:
F ( S , t ) = 1 N Σ i = 1 N F ( r i , t ) . (公式5)
利用拉格朗日乘子可以计算得到各对象的理论同步频率fi,i=1,2,…,n,然后按fi对对象数据进行同步,可以使本地数据库的平均新颖度达到最大值。
增量信息抓取系统维护的是一个数据记录集合S,它所关注的是S在某段时间的平均时新性和平均年龄。此时,可以在时间上取平均值加以衡量:
F ( S ) ‾ = lim t → ∞ 1 t ∫ 0 t F ( S , t ) dt .
我们将Deep Web数据增量更新目标抽象为一个优化的问题。对于所有的(s,a)初始化表项Q0(s,a)=0,在每个情节中,将对数据源的范围作为其活动,得到回报ri
r i = 1 N Σ i = 1 N F ( r i , t )
并在某一时段t内,对Q值进行更新:
q j = r j + lim t → ∞ 1 t ∫ 0 t F ( S , t ) dt .
根据上述算法在资源限制的前提下,即与服务器最大交互次数为M,使得新颖度
Figure BSA00000421355300056
值最大,其中fi和λi分别是数据记录i的搜集频率和变化频率,F(fi,λi)表示对应数据记录i的新颖度。ωi是重要性权重,这里我们可以定义为数据源的重要性或者实体的重要性。
根据Deep Web的特性,本发明采用基于数据源的重要性权重和数据源的变化频率来确定其更新频率,然后有效进行数据源增量信息的获取。
另外,在Deep Web数据获取的过程中还可以进行在线学习。根据关键词或关键词的组合所返回结果中新记录数,设置相应的Q值。根据学习结果,对可能出现新数据的关键词或关键词的组合则提高爬虫抓取的频率。在相同资源约束前提下,可有效提高新数据的发现效率。
为了避免在数据获取过程中搜索树膨胀,采用强化学习技术应用到数据获取的可控网络爬虫方法中。该方法通过强化学习技术得到一些控制“经验信息”,根据这些信息来预测较远的回报,按照某一主题如汽车、房产、工作等领域进行搜索,以使累积返回的回报值最大。
图2是可控网络爬虫训练模块,包括下列步骤:
(1)提供待查询数据的主题,分别构建站点初始训练队列URL,然后提取队首队列URL,分析其页面结构提取页面中的链接地址URL,并根据页面关键信息计算链接地址的立即回报,结合经验得出未来回报值,然后结合Value值词库中未来回报来计算该链接地址的综合Q值,
(2)权衡立即回报价值和未来回报价值的信任度,即现在是处理利用阶段还是探索阶段,控制信任度。根据URL地址的深度因子是否大于5,如果深度因子大于5,则抛弃,不放入待提取URL队列。据调查,91.6%的深层网页查询接口所在页面的深度都在5层之内,因此当URL链接的深度大于5时,就不处理该链接,可以在保证准确度的前提下,有效减小处理量。
(3)上述技术方案中,当得到深度因子小于5的URL链接后,然后判断其综合Q值是否大于某个主题值,如果是则更新Value值词库中的原属性值,并用新的Value值词库来计算未来回报,然后根据URL优先权放入待提取URL队列中,如此反复训练直到得到最终的待提取URL队列,然后由爬虫程序有目的的抓取Deep Web中增量信息。如果综合Q值小于某个主题值,则舍去该URL。返回步骤(1)继续下一轮训练。

Claims (4)

1.一种面向深层网页的增量信息获取方法,其特征在于包括如下步骤:
步骤1:确定本地对象与远程数据源同步频率,其中远程数据源即远程Web上数据库;
步骤2:利用泊松过程来表示远程数据源平均变化频率λi,其中,i=1,2,...,n;
步骤3:确定平均新颖度:
由步骤2得到的平均变化频率λi,确定各对象即远程Web上数据库中各数据项ei对应的同步频率fi,在满足同步资源限制的条件下,使本地数据库的平均新颖度
Figure FSA00000421355200011
最大,
F ‾ ( S ) = 1 n Σ i = 1 n F ‾ ( e i ) = 1 n Σ i = 1 n F ‾ ( λ i , f i ) ;
步骤4:根据数据时新性确定更新频率
在时刻t数据抓取系统所维护的第i个数据记录ri的时新性如下:
Figure FSA00000421355200013
则由N个数据记录组成的数据记录集合S的平均时新性如下:
F ( S , t ) = 1 N Σ i = 1 N F ( r i , t ) .
利用拉格朗日乘子可以计算得到各对象的理论同步频率,然后按理论同步频率对对象数据进行同步,使本地数据库的平均新颖度达到最大值。
2.根据权利要求1所述的一种面向深层网页的增量信息获取方法,其特征在于所述数据记录集合S在时间上取平均值加以衡量:
F ( S ) ‾ = lim t → ∞ 1 t ∫ 0 t F ( S , t ) dt . .
3.根据权利要求1所述的一种面向深层网页的增量信息获取方法,其特征在于对于所有的(s,a)初始化表项Q0(s,a)=0,此处Q表示计算机机器学习领域的专业表示即Q为增强学习的表示形式,其中s表示状态,a表示动作,也就是Q(s,a)表示应用动作a到状态s的结果状态;初始化为0值,也就是未进行学习初始化值;在每个情节中,将对数据源的范围作为其活动,得到回报值为ri
r i = 1 N Σ i = 1 N F ( r i , t )
并在时段t内,对Q值进行更新:
q j = r j + lim t → ∞ 1 t ∫ 0 t F ( S , t ) dt .
根据上述算法在资源限制的前提下,即与服务器最大交互次数为M为固定值常量,使得新颖度值最大,其中fi和λi分别是数据记录i的搜集频率即同步频率和平均变化频率,F(fi,λi)表示对应数据记录i的新颖度,新颖度是通过数据时新性得到,也就是时新性表示记录中对象即最小单位数据项的更新频率,而新颖度指数据项的集合记录也就是远程数据源的整体时新性,ωi是重要性权重。
4.根据权利要求1所述的一种面向深层网页的增量信息获取方法,其特征在于本地对象数据库中的对象数据是远程Web数据库中数据的一份拷贝,获取远程Web数据库中数据的方法如下:
(1)提供待查询数据的主题,分别构建站点初始训练队列URL,然后提取队首队列URL,分析指队首页面页面结构提取页面中的链接地址URL,并根据页面关键信息计算链接地址的立即回报得出未来回报,然后结合Value值词库中未来回报来计算该链接地址的综合Q值;
(2)权衡立即回报价值和未来回报价值的信任度,即现在是处理利用阶段还是探索阶段,控制信任度。根据URL地址的深度因子是否大于5,如果深度因子大于5,则抛弃,不放入待提取URL队列;
(3)当得到深度因子小于5的URL链接后,然后判断其综合Q值是否大于设定的主题值,如果是则更新Value值词库中的原属性值,并用新的Value值词库来计算未来回报,然后根据URL优先权放入待提取URL队列中,如此反复训练直到得到最终的待提取URL队列,然后由网络爬虫抓取Deep Web中增量信息;如果综合Q值小于设定的主题值,则舍去该URL,返回步骤(1)继续下一轮训练。
CN 201110020898 2011-01-18 2011-01-18 一种面向深层网页的增量信息获取方法 Expired - Fee Related CN102103636B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110020898 CN102103636B (zh) 2011-01-18 2011-01-18 一种面向深层网页的增量信息获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110020898 CN102103636B (zh) 2011-01-18 2011-01-18 一种面向深层网页的增量信息获取方法

Publications (2)

Publication Number Publication Date
CN102103636A true CN102103636A (zh) 2011-06-22
CN102103636B CN102103636B (zh) 2013-08-07

Family

ID=44156406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110020898 Expired - Fee Related CN102103636B (zh) 2011-01-18 2011-01-18 一种面向深层网页的增量信息获取方法

Country Status (1)

Country Link
CN (1) CN102103636B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036046A (zh) * 2014-07-02 2014-09-10 重庆大学 基于属性共现模式的Deep Web查询接口模式匹配方法
CN104391917A (zh) * 2014-11-19 2015-03-04 四川长虹电器股份有限公司 一种增量抓取网页内容的方法
CN105912456A (zh) * 2016-05-10 2016-08-31 福建师范大学 一种基于用户兴趣迁移的大数据集仿真生成方法
CN107228676A (zh) * 2016-03-23 2017-10-03 赫力环球有限公司 来自连接的车辆队列的地图更新
CN111831908A (zh) * 2020-06-24 2020-10-27 平安科技(深圳)有限公司 医疗领域知识图谱构建方法、装置、设备及存储介质
CN113021818A (zh) * 2021-03-25 2021-06-25 弘丰塑胶制品(深圳)有限公司 一种具有自动脱料功能的注射模具的控制系统
CN113112584A (zh) * 2021-05-12 2021-07-13 中南大学湘雅医院 具备动力的智能关节增肌矫形支具、控制系统、终端、介质
CN113190585A (zh) * 2021-04-12 2021-07-30 郑州轻工业大学 一种服装设计的大数据采集分析系统
CN113239091A (zh) * 2021-05-14 2021-08-10 杭州志卓科技股份有限公司 一种人工智能b2b网站用户的智能评价系统
CN113327653A (zh) * 2021-04-27 2021-08-31 江苏轩辕特种材料科技有限公司 一种新型合金材料的混合预加工系统
CN113409549A (zh) * 2021-06-11 2021-09-17 中铁西南科学研究院有限公司 一种高山峡谷地区的滑坡监测预警系统
CN114324334A (zh) * 2021-12-30 2022-04-12 中国热带农业科学院热带作物品种资源研究所 一种芒果种质资源营养品质的评价系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050256850A1 (en) * 2004-05-14 2005-11-17 Microsoft Corporation Method and system for schema matching of web databases
CN101051313A (zh) * 2007-05-09 2007-10-10 崔志明 用于深层网页数据源集成的数据源发现方法
CN101582074A (zh) * 2009-01-21 2009-11-18 东北大学 一种DeepWeb响应页面数据抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050256850A1 (en) * 2004-05-14 2005-11-17 Microsoft Corporation Method and system for schema matching of web databases
CN101051313A (zh) * 2007-05-09 2007-10-10 崔志明 用于深层网页数据源集成的数据源发现方法
CN101582074A (zh) * 2009-01-21 2009-11-18 东北大学 一种DeepWeb响应页面数据抽取方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036046A (zh) * 2014-07-02 2014-09-10 重庆大学 基于属性共现模式的Deep Web查询接口模式匹配方法
CN104391917A (zh) * 2014-11-19 2015-03-04 四川长虹电器股份有限公司 一种增量抓取网页内容的方法
CN107228676A (zh) * 2016-03-23 2017-10-03 赫力环球有限公司 来自连接的车辆队列的地图更新
CN105912456A (zh) * 2016-05-10 2016-08-31 福建师范大学 一种基于用户兴趣迁移的大数据集仿真生成方法
CN105912456B (zh) * 2016-05-10 2019-01-22 福建师范大学 一种基于用户兴趣迁移的大数据集仿真生成方法
CN111831908A (zh) * 2020-06-24 2020-10-27 平安科技(深圳)有限公司 医疗领域知识图谱构建方法、装置、设备及存储介质
CN113021818A (zh) * 2021-03-25 2021-06-25 弘丰塑胶制品(深圳)有限公司 一种具有自动脱料功能的注射模具的控制系统
CN113190585A (zh) * 2021-04-12 2021-07-30 郑州轻工业大学 一种服装设计的大数据采集分析系统
CN113327653A (zh) * 2021-04-27 2021-08-31 江苏轩辕特种材料科技有限公司 一种新型合金材料的混合预加工系统
CN113112584A (zh) * 2021-05-12 2021-07-13 中南大学湘雅医院 具备动力的智能关节增肌矫形支具、控制系统、终端、介质
CN113112584B (zh) * 2021-05-12 2022-09-23 中南大学湘雅医院 具备动力的智能关节增肌矫形支具、控制系统、终端、介质
CN113239091A (zh) * 2021-05-14 2021-08-10 杭州志卓科技股份有限公司 一种人工智能b2b网站用户的智能评价系统
CN113409549A (zh) * 2021-06-11 2021-09-17 中铁西南科学研究院有限公司 一种高山峡谷地区的滑坡监测预警系统
CN114324334A (zh) * 2021-12-30 2022-04-12 中国热带农业科学院热带作物品种资源研究所 一种芒果种质资源营养品质的评价系统

Also Published As

Publication number Publication date
CN102103636B (zh) 2013-08-07

Similar Documents

Publication Publication Date Title
CN102103636B (zh) 一种面向深层网页的增量信息获取方法
CN103310026A (zh) 一种基于搜索引擎的轻量级通用网页主题爬虫方法
CN102760151B (zh) 开源软件获取与搜索系统的实现方法
CN103309960A (zh) 一种网络舆情事件多维信息提取的方法及装置
CN101770520A (zh) 基于用户浏览行为的用户兴趣建模方法
CN102662954A (zh) 一种基于url字符串信息学习的主题爬虫系统的实现方法
CN103294815A (zh) 基于关键字分类并有多种呈现方式的搜索引擎装置与方法
CN103559252A (zh) 给游客推荐其很可能会浏览的景点的方法
Saad et al. Archiving the web using page changes patterns: a case study
CN102902800B (zh) 基于Agent的智能元搜索引擎系统
CN103714140A (zh) 一种基于主题网络爬虫的搜索方法及装置
CN102254004A (zh) 一种网络日志挖掘中的Web建模方法及系统
CN103150663A (zh) 一种网络投放数据投放的方法和装置
CN103412903B (zh) 基于兴趣对象预测的物联网实时搜索方法及系统
CN104899229A (zh) 基于群体智能的行为聚类系统
CN103455487A (zh) 一种搜索词的提取方法及装置
CN104298785A (zh) 一种众搜资源搜索方法
CN103823879A (zh) 面向在线百科的知识库自动更新方法及系统
CN105824880A (zh) 一种网页抓取方法及装置
CN102946320A (zh) 一种分布式用户行为日志预测网络监管方法及系统
CN104298669A (zh) 一种基于社交网络的人员地理信息挖掘模型
CN107103063A (zh) 基于大数据的科技信息资源检索查询系统
CN109977285A (zh) 一种面向Deep Web的自适应增量数据采集方法
Zha et al. An Efficient Improved Strategy for the PageRank Algorithm
KR100975510B1 (ko) 웹 페이지 색인 업데이트 방법 및 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20110622

Assignee: Science and Technology Co., Ltd. is swum in Jiangsu at once

Assignor: Nanjing University of Information Science and Technology

Contract record no.: 2015320000189

Denomination of invention: Deep web-oriented incremental information acquisition method

Granted publication date: 20130807

License type: Exclusive License

Record date: 20150414

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20161226

Address after: 225400 Jiangsu Province, Taixing City Industrial Park Xiangrong Road No. 18

Patentee after: JIANGSU QIANJING INFORMATION TECHNOLOGY CO., LTD.

Address before: 210044 Nanjing Ning Road, Jiangsu, No. six, No. 219

Patentee before: Nanjing IT Engineering Univ.

TR01 Transfer of patent right

Effective date of registration: 20180110

Address after: 210044 Nanjing Ning Road, Jiangsu, No. six, No. 219

Patentee after: Nanjing University of Information Science and Technology

Address before: 225400 Jiangsu Province, Taixing City Industrial Park Xiangrong Road No. 18

Patentee before: JIANGSU QIANJING INFORMATION TECHNOLOGY CO., LTD.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130807

Termination date: 20180118

CF01 Termination of patent right due to non-payment of annual fee