CN102103636B

CN102103636B - 一种面向深层网页的增量信息获取方法

Info

Publication number: CN102103636B
Application number: CN 201110020898
Authority: CN
Inventors: 方巍; 文学志; 毕硕本; 崔志明
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2011-01-18
Filing date: 2011-01-18
Publication date: 2013-08-07
Anticipated expiration: 2031-01-18
Also published as: CN102103636A

Abstract

本发明公布了一种面向深层网页的增量信息获取方法。本发明方法包括：步骤1：确定与远程数据源同步频率；步骤2：利用泊松过程来表示数据源变化频率；步骤3：确定平均新颖度；步骤4：根据数据时新性确定更新频率进行增量信息获取。另外，本发明还可以利用在线学习方法有效进行增量信息获取。本发明方法首先确定与远程数据源同步频率，然后利用泊松过程获得数据源变化频率；接着根据数据时新性确定更新频率。相比现有技术，本发明方法是一种非常高效的深层网页的增量信息获取方法，它能够较大范围地提高人们的工作效率以及在相同更新资源条件下，使得本地数据和远程数据保持最大化同步，为进一步实现深层网数据源集成提供基础。

Description

一种面向深层网页的增量信息获取方法

技术领域

本发明涉及一种面向深层网页的增量信息获取方法，具体涉及一种由网络查询接口连接的深层网页的信息获取方法，用于深层网页数据源的集成。

背景技术

目前主流搜索引擎还只能搜索Internet表面可索引的信息，在Internet深处还隐含着大量通过主流搜索引擎无法涉及的海量信息，这些信息被称之为深层网页(Deep Web，又称为Invisible Web或Hidden Web)。根据Bright Planet研究表明，Deep Web信息量非常庞大，是可索引Web信息的500倍，并且这些Deep Web内容95％都是可以通过Internet无需付费注册就可以公开访问的。Deep Web的信息一般存储在服务器端Web数据库中，与静态页面相比通常信息量更大、主题更专一、信息质量和结构更好。目前Deep Web信息集成主要有两种实现方案：一种方案是基于元搜索的方法，针对某个领域提供统一的查询接口，将用户查询经过语义映射转发到各个Deep Web数据源上，返回的结果经过抽取、语义标注、去重合并呈现给用户。该方案不需维护本地数据库，但存在如下不足：查询响应时间由远程数据源的服务质量决定，响应时间不可控；同时，建立和维护统一查询接口模式与各个数据源接口模式的语义映射代价高。另一种方案与构建传统搜索引擎一样，将Deep Web数据库里内容爬取出来，存储到本地动态网页拷贝库中并建立索引，它能在最短时间内响应用户的查询要求。目前第二种方案正受到越来越多国内外研究学者的关注，将成为Deep Web数据集成研究的主流，该方案中一个关键问题是如何让本地数据和远程数据源中数据保持同步。本发明解决该关键问题，在相同更新资源条件下，使得本地数据和远程数据保持最大化同步。

由于Deep Web是自治的、独立更新的，其数据经常处于频繁更新的状态，而用户总是希望能够得到当前Web数据库中最新的内容。因此需要定期的更新本地数据拷贝，以保持和远程数据源同步。由于不同的DeepWeb数据源或同一个Deep Web数据源中的数据记录变化频率是不一样的，现有方法按统一频率更新本地存储的所有数据，这是非常耗费资源的(包括带宽、远程数据源的服务器资源等)。而且，Deep Web处于快速动态更新的状态，使得数据更新维护变得更加复杂。

发明内容

本发明目的是针对现有技术存在的缺陷提供一种面向深层网页的增量信息获取方法。

本发明为实现上述目的，采用如下技术方案：

本发明一种面向深层网页的增量信息获取方法包括如下步骤：

步骤1：确定本地对象与远程数据源同步频率，其中远程数据源即远程Web上数据库；

步骤2：利用泊松过程来表示远程数据源平均变化频率λ_i，其中，i＝1，2，…，n；

步骤3：确定平均新颖度：

由步骤2得到的平均变化频率λ_i，确定各对象即远程Web上数据库中各数据项e_i对应的同步频率f_i，在满足同步资源限制的条件下，使本地数据库的平均新颖度

最大，

\overset{&OverBar;}{F} (S) = \frac{1}{n} Σ_{i = 1}^{n} \overset{&OverBar;}{F} (e_{i}) = \frac{1}{n} Σ_{i = 1}^{n} \overset{&OverBar;}{F} (λ_{i}, f_{i});

步骤4：根据数据时新性确定更新频率

在时刻t数据抓取系统所维护的第i个数据记录r_i的时新性如下：

则由N个数据记录组成的数据记录集合S的平均时新性如下：

F (S, t) = \frac{1}{N} Σ_{i = 1}^{N} F (r_{i}, t) .

利用拉格朗日乘子可以计算得到各对象的理论同步频率，然后按理论同步频率对对象数据进行同步，使本地数据库的平均新颖度达到最大值。

其中，所述数据记录集合S在时间上取平均值加以衡量：

\overset{&OverBar;}{F (S)} = \lim_{t &RightArrow; \infty} \frac{1}{t} {&Integral;}_{0}^{t} F (S, t) dt . .

其中，对于所有的(s，a)初始化表项Q₀(s，a)＝0，此处Q表示计算机机器学习领域的专业表示即Q为增强学习的表示形式，其中s表示状态，a表示动作，也就是Q(s，a)表示应用动作a到状态s的结果状态；初始化为0值，也就是未进行学习初始化值；在每个情节中，将对数据源的范围作为其活动，得到回报值为r_i：

r_{i} = \frac{1}{N} Σ_{i = 1}^{N} F (r_{i}, t)

并在时段t内，对Q值进行更新：

q_{j} = r_{j} + \lim_{t &RightArrow; \infty} \frac{1}{t} {&Integral;}_{0}^{t} F (S, t) dt .

根据上述算法在资源限制的前提下，即与服务器最大交互次数为M为固定值常量，使得新颖度值最大，其中f_i和λ_i分别是数据记录i的搜集频率即同步频率和平均变化频率，F(f_i，λ_i)表示对应数据记录i的新颖度，新颖度是通过数据时新性得到，也就是时新性表示记录中对象即最小单位数据项的更新频率，而新颖度指数据项的集合记录也就是远程数据源的整体时新性，ω_i是重要性权重。

其中，本地对象数据库中的对象数据是远程Web数据库中数据的一份拷贝，获取远程Web数据库中数据的方法如下：

(1)提供待查询数据的主题，分别构建站点初始训练队列URL，然后提取队首队列URL，分析指队首页面页面结构提取页面中的链接地址URL，并根据页面关键信息计算链接地址的立即回报得出未来回报，然后结合Value值词库中未来回报来计算该链接地址的综合Q值；

(2)权衡立即回报价值和未来回报价值的信任度，即现在是处理利用阶段还是探索阶段，控制信任度。根据URL地址的深度因子是否大于5，如果深度因子大于5，则抛弃，不放入待提取URL队列；

(3)当得到深度因子小于5的URL链接后，然后判断其综合Q值是否大于设定的主题值，如果是则更新Value值词库中的原属性值，并用新的Value值词库来计算未来回报，然后根据URL优先权放入待提取URL队列中，如此反复训练直到得到最终的待提取URL队列，然后由网络爬虫抓取Deep Web中增量信息；如果综合Q值小于设定的主题值，则舍去该URL，返回步骤(1)继续下一轮训练。

本发明提出新的方法来自动增量更新本地Deep Web数据，从而在相同资源约束前提下，提高本地数据的时新性和新数据的发现效率。本发明可有效提高Deep Web信息集成服务质量，使Deep Web信息能更好地为科研、生产和决策服务。

附图说明

图1是本发明方法的增量信息获取系统流程图；

图2是本发明方法的信息获取训练模块流程图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明：

面向深层网页的增量信息获取系统流程如图1所示。

(1)：在面向Deep Web的对象检索系统中，本地数据库中的对象信息是远程Web数据库中数据的一份拷贝。然而由于远程数据源的自治性，当其包含的对象信息改变时，并不会主动告知外界系统。所以我们必须周期性的访问这些数据源来检测数据的变化，并且把对象信息的更新反映到本地数据库中。由于远程数据源的变化和本地数据库拷贝更新之间存在一定的延迟，所以必定存在本地有一部分数据拷贝与远程数据源中不一致的情况。因此，我们要采用一定的策略来高效的同步本地的对象信息。

(2)：根据远程对象的变化规律决定同步频率。如果知道远程对象的变化频率，那我们就根据其变化的快慢，对不同的对象采用不同的同步频率。这种方法的实际意义在于：同步资源是有限的，即一般在一段时间T内，能同步的本地对象的最大数量是固定的。否则会消耗大量的网络带宽，降低系统性能。因此有必要根据远程对象的变化规律决定同步频率，做到“有的放矢”。

(3)：由于泊松过程(Poisson process)经常被用来描述一个随机事件序列，这些事件以固定频率重复独立发生，就用泊松过程描述同步频率。例如：一个城市发生车祸的情况、大型超市顾客到来的情况以及热线中心电话的多少等，都可以用泊松过程来描述。根据泊松过程的定义，记X(t)代表某随机变量在时间段(0，t)之间变化的次数，则其变化次数为k次的概率为：

\Pr {X (s + t) - X (s) = k} = \frac{{(λt)}^{k}}{k!} e^{- λt}, k = 0,1, . . .

(公式1)

从而单位时间内变化发生的次数可由X(t+1)-X(t)的数学期望计算：

E [X (t + 1) - X (t)] = Σ_{k = 0}^{\infty} k * \Pr {X (t + 1) - X (t) = k} = {λe}^{- λ} Σ_{k = 0}^{\infty} \frac{λ^{k - 1}}{(k - 1)!}

(公式2)

根据泰勒展开式：

所以E[X(t+1)-X(t)]＝λ。这表明如果随机变量满足泊松过程的条件，虽然它可以在任何时刻发生变化，但其平均变化频率固定为λ。

(4)对本地数据库中的每个对象，我们会在一段时间内跟踪原始数据库中该对象的变化情况。利用公式λ＝X/T近似计算得到该对象的平均变化频率。在统计得到各对象的平均变化频率之后，我们可以据此确定各对象的同步频率，以使本地数据库中的对象信息得到最优的同步效果。该问题的数学描述如下：已知各对象的平均变化频率为λ_i(i＝1，2，…，n)，目标是确定各对象对应的同步频率f_i(i＝1，2，…，n)，在满足同步资源限制的条件下，使本地数据库的平均新颖度

最大。

\overset{&OverBar;}{F} (S) = \frac{1}{n} Σ_{i = 1}^{n} \overset{&OverBar;}{F} (e_{i}) = \frac{1}{n} Σ_{i = 1}^{n} \overset{&OverBar;}{F} (λ_{i}, f_{i})

(公式3)

(5)采用数据时新性作为Deep Web数据更新策略的评估指标，对于Deep Web信息获取系统而言，如果它在某时刻存在本地的某数据记录与当时该数据记录在远程DeepWeb中的实际内容相同，则称该数据记录是时新的。数据抓取系统所维护的某个数据记录r_i的时新性可以定义如下：

对象e_i及数据库S在某时刻t的新颖度(freshness)可按如下公式计算：

F (r_{i}, t) = \{\begin{matrix} 1, & up - to - date \\ 0, & otherwise \end{matrix}

(公式4)

根据上述公式的定义，可以进一步定义由N个数据记录组成的集合S的平均时新性如下：

F (S, t) = \frac{1}{N} Σ_{i = 1}^{N} F (r_{i}, t) .

(公式5)

利用拉格朗日乘子可以计算得到各对象的理论同步频率f_i，i＝1，2，…，n，然后按f_i对对象数据进行同步，可以使本地数据库的平均新颖度达到最大值。

增量信息抓取系统维护的是一个数据记录集合S，它所关注的是S在某段时间的平均时新性和平均年龄。此时，可以在时间上取平均值加以衡量：

\overset{&OverBar;}{F (S)} = \lim_{t &RightArrow; \infty} \frac{1}{t} {&Integral;}_{0}^{t} F (S, t) dt .

我们将Deep Web数据增量更新目标抽象为一个优化的问题。对于所有的(s，a)初始化表项Q₀(s，a)＝0，在每个情节中，将对数据源的范围作为其活动，得到回报r_i：

r_{i} = \frac{1}{N} Σ_{i = 1}^{N} F (r_{i}, t)

并在某一时段t内，对Q值进行更新：

q_{j} = r_{j} + \lim_{t &RightArrow; \infty} \frac{1}{t} {&Integral;}_{0}^{t} F (S, t) dt .

根据上述算法在资源限制的前提下，即与服务器最大交互次数为M，使得新颖度

值最大，其中f_i和λ_i分别是数据记录i的搜集频率和变化频率，F(f_i，λ_i)表示对应数据记录i的新颖度。ω_i是重要性权重，这里我们可以定义为数据源的重要性或者实体的重要性。

根据Deep Web的特性，本发明采用基于数据源的重要性权重和数据源的变化频率来确定其更新频率，然后有效进行数据源增量信息的获取。

另外，在Deep Web数据获取的过程中还可以进行在线学习。根据关键词或关键词的组合所返回结果中新记录数，设置相应的Q值。根据学习结果，对可能出现新数据的关键词或关键词的组合则提高爬虫抓取的频率。在相同资源约束前提下，可有效提高新数据的发现效率。

为了避免在数据获取过程中搜索树膨胀，采用强化学习技术应用到数据获取的可控网络爬虫方法中。该方法通过强化学习技术得到一些控制“经验信息”，根据这些信息来预测较远的回报，按照某一主题如汽车、房产、工作等领域进行搜索，以使累积返回的回报值最大。

图2是可控网络爬虫训练模块，包括下列步骤：

(1)提供待查询数据的主题，分别构建站点初始训练队列URL，然后提取队首队列URL，分析其页面结构提取页面中的链接地址URL，并根据页面关键信息计算链接地址的立即回报，结合经验得出未来回报值，然后结合Value值词库中未来回报来计算该链接地址的综合Q值，

(2)权衡立即回报价值和未来回报价值的信任度，即现在是处理利用阶段还是探索阶段，控制信任度。根据URL地址的深度因子是否大于5，如果深度因子大于5，则抛弃，不放入待提取URL队列。据调查，91.6％的深层网页查询接口所在页面的深度都在5层之内，因此当URL链接的深度大于5时，就不处理该链接，可以在保证准确度的前提下，有效减小处理量。

(3)上述技术方案中，当得到深度因子小于5的URL链接后，然后判断其综合Q值是否大于某个主题值，如果是则更新Value值词库中的原属性值，并用新的Value值词库来计算未来回报，然后根据URL优先权放入待提取URL队列中，如此反复训练直到得到最终的待提取URL队列，然后由爬虫程序有目的的抓取Deep Web中增量信息。如果综合Q值小于某个主题值，则舍去该URL。返回步骤(1)继续下一轮训练。

Claims

1.一种面向深层网页的增量信息获取方法，其特征在于包括如下步骤：

步骤2：利用泊松过程来表示远程数据源平均变化频率λ_i，其中，i=1,2,…,n，n代表远程数据源的个数；

步骤3：确定平均新颖度：

最大，

\bar{F} (S) = \frac{1}{n} Σ_{i = 1}^{n} \bar{F} (e_{i}) = \frac{1}{n} Σ_{i = 1}^{n} \bar{F} (λ_{i}, f_{i});

步骤4：根据数据时新性确定更新频率：

在时刻t数据抓取系统所维护的第i个数据记录ri的时新性如下：

则由N个数据记录组成的数据记录集合S的平均时新性如下：

F (S, t) = \frac{1}{N} Σ_{i = 1}^{N} F (r_{i}, t) .

利用拉格朗日乘子计算得到各对象的理论同步频率，然后按理论同步频率对对象数据进行同步，使本地数据库的平均新颖度达到最大值。

2.根据权利要求1所述的一种面向深层网页的增量信息获取方法，其特征在于所述数据记录集合S在时间上取平均值加以衡量：

\bar{F (S)} = \lim_{t &RightArrow; \infty} \frac{1}{t} {&Integral;}_{0}^{t} F (S, t) dt . .

3.根据权利要求1所述的一种面向深层网页的增量信息获取方法，其特征在于对于所有的(s,a)初始化表项Q₀(s,a)=0，此处Q表示计算机机器学习领域的专业表示，即Q为增强学习的表示形式，其中s表示状态，a表示动作，也就是Q(s,a)表示应用动作a到状态s的结果状态；初始化为0值，也就是未进行学习初始化值；在每个情节中，将对数据源的范围作为其活动，得到回报值为R_i：

R_{i} = \frac{1}{N} Σ_{i = 1}^{N} F (r_{i}, t)

并在时段0-t内，对Q值进行更新：

q_{j} = R_{j} + \lim_{t &RightArrow; \infty} \frac{1}{t} {&Integral;}_{0}^{t} F (S, t) dt .;

其中q_j表示第j个数据记录在时段0-t内进行增强学习得到的结果状态值，R_j表示第j个数据记录在时段0-t内进行增强学习得到的回报值；

根据上述算法在资源限制的前提下，即与服务器最大交互次数M为固定值常量，使得新颖度

值最大，F(f_i,λ_i)表示对应第i个数据记录的新颖度，新颖度是通过数据时新性得到，也就是时新性表示记录中对象即最小单位数据项的更新频率，而新颖度指数据项的集合记录也就是远程数据源的整体时新性，ω_i是重要性权重。

4.根据权利要求1所述的一种面向深层网页的增量信息获取方法，其特征在于本地对象数据库中的对象数据是远程Web数据库中数据的一份拷贝，获取远程Web数据库中数据的方法如下：

(2)权衡立即回报价值和未来回报价值的信任度，即现在是处理利用阶段还是探索阶段，控制信任度；根据URL地址的深度因子是否大于5，如果深度因子大于5，则抛弃，不放入待提取URL队列；