CN101261634A

CN101261634A - 基于增量Q-Learning的学习方法及系统

Info

Publication number: CN101261634A
Application number: CNA2008100666271A
Authority: CN
Inventors: 叶允明
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2008-04-11
Filing date: 2008-04-11
Publication date: 2008-09-10
Anticipated expiration: 2028-04-11
Also published as: CN101261634B

Abstract

本发明涉及一种基于增量Q－Learning的学习方法及系统。所述方法中系统要沿着新爬行页面对应的超链接链路重新计算链路上各个结点函数Q值，根据计算得到的新的函数Q值，系统重新进行函数Q值的离散化，形成新的样本，然后重新训练NB分类器以获得新的Q值分类模型，再利用该新的Q值分类模型为URL队列中的各个候选URL重新计算Q值，最后IQ－Learning算法也要让页面相关度评估器进行增量学习。本发明系统体系结构的创新点在于增加了一个Q－Learning在线样本生成器，它对在线爬行获得的页面进行分析和评价，生成新的正例样本或反例样本，使增量学习成为可能。本发明所述技术有效的提高了主题爬虫的收获率。

Description

基于增量Q-Learning的学习方法及系统

技术领域

本发明涉及一种基于增量Q-Learning的学习方法及系统，是一种应用于从万维网上快速有效的检索用户所需信息的一种增量Q-Learning学习方法及系统。

背景技术

Web爬虫(Web Crawler或Spider，Robot)是一种信息收集系统。它通过下载Web页面，并沿着已爬行页面中的超链接来遍历Web，收集Web页面。一般Web爬虫通常用于通用搜索引擎中，作为搜索引擎的页面收集系统。它通常以宽度优先的模式(即无选择性)遍历Web，力求在限定的爬行周期内收集到尽可能多的Web页面。

Web爬虫采用特定的爬行(Crawling)策略，周期性的收集尽可能多的Web网页，然后提交给自动索引系统；索引系统根据定义的索引要求建立基于相应检索元的索引库；用户通过系统提供的查询接口访问搜索引擎；查询系统根据用户提交的查询条件搜索索引库，获得检索结果，并且采用一定的评价算法计算用户查询条件和检索结果之间的相关性，检索结果根据相关度进行排序后按高相关度优先的顺序返回给用户。

爬虫的工作过程是一个沿着存在于Web页面之间的超链接遍历Web的过程。作为通用搜索引擎的页面收集代理，一般Web爬虫在选择下一个要爬行的URL(Uniform Resoure Locator统一资源定位器、网络地址)时，是无目的性的，即一般采用FIFO(First-in First-out先进先出)的顺序从URL队列中逐个取出URL，其爬行策略是无选择性的。这是由通用搜索引擎的目标决定的，即要求在有限的时间内收集到尽可能多的页面。它没有预定义的目标主题的导向，因此对Web的遍历过程是没有选择性的。

主题爬虫(Topical Crawler)，又称为聚焦爬虫(Focused crawler)或主题驱动的爬虫(Topic-driven crawler)。它是一种智能的Web爬虫，因此它的基本工作过程与一般的爬虫是相似的。

然而，与一般Web爬虫不同的是，主题爬虫在进行爬行时是目标主题驱动的，在遍历Web时是有选择性的，其目标是使爬行结果的“收获率”最大化。“收获率”的定义与传统信息检索领域中的查准率(或精度)相似，可计算为爬行结果页面集中主题相关页面所占的百分数。主题爬虫的爬行过程可以看作是一个有选择性的遍历Web图的过程，它从一组种子URL出发，沿着Web页面上的超链接不断爬行网页。在爬行过程中，系统要判断已爬行到的页面是否是主题相关的，并通过超链接分析算法(或其它优化算法)确定下一个被访问的候选URL(候选URL存放在URL队列中，是从已收集的网页中抽取出来的，并且未经爬行)。在遍历Web图时，主题爬虫就是要确保尽可能多的访问那些属于相关集的节点，同时尽可能避免搜集到那些属于不相关集的节点。

虽然现有的主题爬虫技术已经取得了令人鼓舞的进步，但从系统性能上看还难尽如人意。特别是对于比较“窄”的目标主题来说，系统的爬行收获率还需要较大的提高。纵观现有的主题爬虫方法，它们大部分都依赖于有监督或半监督的学习算法(例如朴素贝叶斯方法，Q-Learning)，从而能够从初始的目标主题信息(特别是样本页面)中学习并构造页面(超文本)分类模型和超链接评价模型，而生成的模型通常是静态的，在爬行过程中得不到更新，即它们缺乏可在线增量学习的能力。这种静态的策略是影响主题爬虫性能以及可用性的主要原因：

首先，由于缺乏增量学习能力，初始样本页面(包括主题层次目录中的页面和用户提供的样本页面)就成为决定超文本分类器和超链接评价器性能的主要因素。然而，要提供一个全面的、高质量的初始样本集通常是比较困难且耗时的，因此初始样本通常是很有限的，不足以构造精确的超文本分类器和超链接评价器，从而影响了系统的性能。

基于有监督学习算法的超文本分类器在训练时既需要正例样本，也需要大量的反例样本。然而，要在爬行开始时就提供足够的反例以完全覆盖反例主题是很困难的。例如，假设目标主题是“计算机”，那么如何找到足够全面的反例页面来表示“所有非计算机”呢？虽然主题层次目录可以在一定程度上解决这个问题，即将目录树中的某个结点标识为正例集(目标主题)，而所有其它结点标识为反例集，但是由于主题层次目录所覆盖的主题范围比较有限，因此目标主题可能无法用它来表示，特别是对于那些“窄”的目标主题，这种方法就存在明显的局限性。

Web页面的内容以及不同主题页面集的超链接结构是多种多样的，这就要求页面分类模型和超链接评价模型能够在爬行过程中得到不断的更新和调整，以适应异构的爬行环境。

发明内容

为了解决现有主题爬虫技术中存在的对于比较“窄”的目标主题来说，系统的爬行收获率较低，生成的页面(超文本)分类模型和超链接评价模型是静态的，在爬行过程中得不到更新，缺乏可在线增量学习的能力，导致初始样本页面(包括主题层次目录中的页面和用户提供的样本页面)就成为决定超文本分类器和超链接评价器性能的主要因素。然而，要提供一个全面的、高质量的初始样本集通常是比较困难且耗时的，因此初始样本通常是很有限的，不足以构造精确的超文本分类器和超链接评价器，从而影响了系统的性能。而且由于利用现有技术进行主题层次目录所覆盖的主题范围比较有限，因此目标主题可能无法全面表示，特别是对于那些“窄”的目标主题，现有技术方法存在明显的局限性等技术问题，本发明提供了一种基于增量Q-Learning的学习方法。

为了解决现有主题爬虫技术中存在的对于比较“窄”的目标主题来说，系统的爬行收获率较低，生成的页面(超文本)分类模型和超链接评价模型是静态的，在爬行过程中得不到更新，缺乏可在线增量学习的能力，导致初始样本页面(包括主题层次目录中的页面和用户提供的样本页面)就成为决定超文本分类器和超链接评价器性能的主要因素。然而，要提供一个全面的、高质量的初始样本集通常是比较困难且耗时的，因此初始样本通常是很有限的，不足以构造精确的超文本分类器和超链接评价器，从而影响了系统的性能。而且由于利用现有技术进行主题层次目录所覆盖的主题范围比较有限，因此目标主题可能无法全面表示，特别是对于那些“窄”的目标主题，现有技术方法存在明显的局限性等技术问题，本发明提供了一种基于增量Q-Learning的学习。

本发明解决现有技术问题所采用的技术方案为提供一种基于增量Q-Learning学习方法，所述增量Q-Learning学习方法包括步骤：第一步：将种子站点集合S作为起始爬行URL队列H；第二步、对初始样本页面集W进行学习；第三步、从所述起始爬行URL队列H中取Q函数值最高的结点U；第四步、爬行得到所述节点U对应的页面d；第五步、将所述页面d加入到已爬行页面集D；第六步、从所述页面d中解析出新的URL节点集U^*；第七步、将所述URL节点集U^*加入到所述起始爬行URL队列H中；第八步、计算所述页面d的相关度R(d)；第九步、将所述相关度R(d)沿链接路径进行反馈对其祖先页面重新计算函数Q值；第十步、使用所述第十步中所述函数Q值进行重新训练；第十一步、对于待选的URL使用重新训练过的分类器进行函数Q值的估算；第十二步、对所述URL对列中进行基于所述函数Q值的排序。

根据本发明的一优选实施例：所述第二步为使用页面相关度评估器对初始样本页面集W进行学习，具体包括步骤：首先、用普通爬虫或其它类型的主题爬虫爬行一部分页面，作为函数Q值计算的训练集；其次、设超链接为u_i，计算它的函数Q值Q(u_i)的方法是：设定Q(u_i)＝1，如果所述超链接u_i直接链接向一个主题相关页面，则设定Q(u_i)＝0。

根据本发明的一优选实施例：所述第三步具体为对候选URL进行IQ-Learning评估，在IQ-Learning算法中，候选URL的函数Q值是基于已爬行页面集合在线计算，它的定义既考虑了立即回报也考虑了长远回报，公式为：Q(u_i)＝R(d_i)+γQ(d_i)，

Q (d_{i}) = \frac{1}{n} \cdot Σ_{k = 1, u_{k} &Element; d_{i}}^{n} Q (u_{k});

其中，u_i是已爬行的超链接、d_i是爬行所述u_i获得的页面、R(d_i)表示页面d_i的主题相关度、u_k是所述d_i的子URL，并且是一个已爬行的URL、n表示d_i的已爬行子URL的总数、Q(u_k)表示u_k的函数Q值、γ是一个折算因子；这个定义是一个递归的定义，其中R(d_i)表示了爬行u_i而获得的立即回报，而γQ(d_i)表示折算了的累计长远回报，γ决定了长远回报相对于立即回报的重要性。

根据本发明的一优选实施例：所述第八步为通过页面相关度评估器计算所述页面d的相关度R(d)，具体包括步骤：(一)、提取链接上下文信息；(二)、对以获取到的链接进行分类；(三)、根据训练样本集计算出先验概率和后验概率。

根据本发明的一优选实施例：所述步骤(一)具体为每个超链接的上下文Γ(u_i)是由它的锚文本以及该超链接的源页面的标题(Title)组成的，这样每个训练样本可以表示为：<Γ(u_i)，C_i>；采用朴素贝叶斯作为训练算法，首先Γ(u_i)要通过向量空间模型表示为一个词频加权向量，最后Γ(u_i)表示为：Γ(u_i)＝<ω_1i，ω_2i，…，ω_ki，…，ω_ni>。

根据本发明的一优选实施例：所述步骤(二)具体为对每一个新发现的超链接u_i(对应于候选URL)，分类器要根据所述URL的上下文Γ(u_i)判断它属于哪个类C^*，并把与该类相对应的Q值赋给所述候选URL以表示它的爬行优先级；对于NB分类器，这个任务可以表示为：要找到一个类C^*，使该类相对于所述Γ(u_i)的条件概率P(C^*|Γ(u_i))最大化，可用下式来表示：

C^{*} = \underset{c_{j}}{\arg \max} P (C_{j}) P (Γ (u_{i}) | C_{j}) = \underset{c_{j}}{\arg \max} P (C_{j}) Π_{k = 1}^{| Γ (u_{i}) |} P (ω_{kj} | C_{j}) .

根据本发明的一优选实施例：所述步骤(三)具体为：先验概率P(C_j)为类C_j包含的样本数量占整个样本集的百分比；后验概率P(ω_kj|C_j)为：

P (ω_{kj} | C_{j}) = \frac{1 + Σ_{i = 1}^{| c_{j} |} ω_{ki}}{| V | + Σ_{i = 1}^{| c_{j} |} ω_{i}},

其中，|V|表示特征空间的大小，ω_ki表示特征(词)t_k在类C_j的一个训练样本Γ(u_i)中所具有的tf*idf权值，即

表示了特征t_k在类C_j中的tf*idf权值总和，ω_i表示C_j的一个训练样本Γ(u_i)中所有特征的tf*idf权值的总和，即表示类C_j中的所有特征的tf*idf权值总和。

根据本发明的一优选实施例：所述步骤J具体为使用所述步骤I中新获取的函数Q值对朴素贝叶斯Q值映射分类器进行重新训练。

为了解决现有技术中存在的问题，本发明还提供了一种基于增量Q-Learning学习系统，所述系统包括页面相关度评估器、超链接评价器和网页爬行器，所述系统还包括样本生成器，所述样本生成器分别与所述页面相关度评估器、所述超链接评价器和所述网页爬行器连接。

根据本发明的一优选实施例：所述页面相关度评估器与所述超链接评价器是紧耦合的关系。

本发明的有益效果在于：在基于增量Q-Learning学习系统中，页面分类器和超链接评价器具有增量学习能力，从而改进了现有主题爬虫的体系结构，使主题爬虫在爬行过程中能进行在线学习，具有更强的自适应性，能快速优化其爬行策略。

基于增量Q-Learning学习方法是基于增强学习思想的，它在学习时考虑到了长远回报问题，因此不容易陷入局部最优，具有更好的性能。我们通过大量的对比实验证明了增量学习对于提高主题爬虫的收获率是非常有效的。

说明书附图

图1.本发明基于增量Q-Learning的学习方法及系统中增量Q-Learning学习方法流程图；

图2.一个从已爬行页面集中构造的超链接结构示意图；

图3.本发明基于增量Q-Learning的学习方法及系统中增量Q-Learning学习系统结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明：

增强学习(Reinforcement learning)是机器学习领域的一个重要分支。从智能Agent(代理程序：在一些查询系统中，用户可以采用自己喜欢的格式提出查询要求，再由代理程序Agent转换成适合数据库使用的严格定义的查询参数)的角度看，它是研究如何使自治的Agent感知环境并在与环境的交互中学习到最优的控制策略，从而在该策略的指导下达到目标状态的过程。Agent寻找目标状态的过程是一个马尔可夫决策过程(Markovdecision process，MDP)，它可以用回报(Reward)方程来定义，即Agent与环境的交互结果是以回报的形式表达的，如果Agent对当前环境采取的行动对最终达到目标有利，则将得到正回报，否则为负回报，判断Agent是否达到目标的标准就是要使Agent得到的累计回报总和最大化。这个MDP(Markov Decision Process马尔可夫决策)过程可以更形式化的定义如下：假设Agent的状态空间为S，初始状态为st，可能采取的动作空间为A，状态转换函数为δ:S×A→S，回报函数为r:S×A→R，则Agent与环境的交互过程得到的累计回报可表示为：

V^{π} (s_{t}) &equiv; r_{t} + γ \cdot r_{t + 1} + γ^{2} \cdot r_{t + 2} + \cdot \cdot \cdot = Σ_{i = 0}^{\infty} γ^{t + i} \cdot r_{t + i}

其中，r_t+i表示Agent进行第i次状态转移而得到的回报(由回报函数r确定)，这是学习系统提供给Agent的唯一训练信息。根据MDP的性质，Agent采取的动作a_t+i只与它当前所处的状态s_t+i有关，而不依赖于以前的状态和动作。γ为折算因子，通常情况下0≤γ≤1，它表示从初始状态出发，越往后的状态转移得到的回报对最优控制策略选择的影响越小，即未来的回报相对于立即回报要进行折算。这种折算通常是比较合理的，因为在许多情况下我们希望获得更快的回报。那么，V^π(s_t)表示在策略π的控制下，Agent由任意状态s_t出发获得的折算累计回报，增强学习的目标是要找到一个控制策略π，它使V^π(s_t)最大化。这个策略称为最优策略(Optimal policy)，可用π^*来表示：

π^{*} (s_{t}) &equiv; \underset{π}{\arg \max} V^{π} (s_{t}), ({&ForAll; s}_{t})

那么如何学习到这个最优策略π^*呢？直接学习函数π^*:S→A是很困难的，因为训练数据中没有提供<s_i，a_i>形式的训练样例。作为替代，唯一可用的训练信息是立即回报序列r(s_i，a_i)，i＝0，1，2...。给定这种类型的训练信息，更容易的是学习一个定义在状态和动作上的数值评估函数，然后以此评估函数的形式实现最优策略。目前，Q函数是使用最广泛的评估函数，它的定义如下：

Q (s_{t}, a_{t}) &equiv; r (s_{t}, a_{t}) + γ V^{π^{*}} (δ (s_{t}, a_{t}))

&equiv; r (s_{t}, a_{t}) + γ \max_{a_{t + 1}} Q (δ (s_{t}, a_{t}), a_{t + 1})

评估函数Q(s_t，a_t)表示从状态s_t开始并使用a_t作为第一个动作时的最大折算累积回报。换言之，Q(s_t，a_t)的值为从状态s_t执行动作a_t的立即回报加上以后(即从新状态δ(s_t，a_t)开始)遵循最优策略π^*而获得的回报。根据Q函数的定义，上述公式可以重写为Q(s_t，a_t)的形式：

π^{*} (s_{t}) &equiv; \underset{π}{\arg \max} Q^{π} (s_{t}, a_{t}), ({&ForAll; s}_{t})

这样，Agent寻找最优策略的过程就可以转化为如何学习最优Q函数的问题，称为Q学习(Q-Learning)。从公式可以看出Q函数的定义是一个递归定义，因此可以采用迭代逼近的Q学习算法来确定最优的Q函数。通过该最优Q函数Agent可以对当前所处状态s_t时应该采取哪一个动作a_t做出最优选择(即选择具有最大Q函数值的动作)。

以下结合附图对本发明所述技术进行详细说明：

请参阅图1本发明基于增量Q-Learning学习方法及系统中增量Q-Learning学习方法流程图，如图1所示本发明一种基于增量Q-Learning学习方法，所述增量Q-Learning学习方法包括步骤：第一步：将种子站点集合S作为起始爬行URL队列H；第二步、对初始样本页面集W进行学习；第三步、从所述起始爬行URL队列H中取Q函数值最高的结点U；第四步、爬行得到所述节点U对应的页面d；第五步、将所述页面d加入到已爬行页面集D；第六步、从所述页面d中解析出新的URL节点集U^*；第七步、将所述URL节点集U^*加入到所述起始爬行URL队列H中；第八步、计算所述页面d的相关度R(d)；第九步、将所述相关度R(d)沿链接路径进行反馈对其祖先页面重新计算函数Q值；第十步、使用所述第十步中所述函数Q值进行重新训练；第十一步、对于待选的URL使用重新训练过的分类器进行函数Q值的估算；第十二步、对所述URL对列中进行基于所述函数Q值的排序。

其中，所述第二步为使用页面相关度评估器对初始样本页面集W进行学习，具体包括步骤：首先可以用一个一般的爬虫或其它类型的主题爬虫爬行一部分页面，作为函数Q值计算的训练集。这部分页面将被手工标识为主题相关的或主题不相关的，然后对页面集中的每一个超链接根据它链接向的页面相关性，以及超链接结构计算出它相对应的函数Q值。如附图2.一个从已爬行页面集中构造的超链接结构示意图所示，这是一个已爬行页面集中的超链接形成的超链接结构图。图中阴影结点表示主题相关页面，白色结点为不相关页面。箭头线表示页面之间的超链接。设超链接为u_i，则计算它的Q值Q(u_i)的最简单的方法是：让Q(u_i)＝1如果u_i直接链接向一个主题相关页面，否则让Q(u_i)＝0。

按照以上所述计算方法，图2中的超链接B、C、D、E、G、H的Q值将为1，而超链接A、F、I、J的Q值为0。这种计算方法相当折算因子γ设为0，即只考虑立即回报，而不考虑长远回报。如果考虑长远回报，那么就要使γ＞0，并根据迭代定义要沿着超链接链路考虑与u_i对应的子页面的Q值，这样Q(u_i)就成为一个连续的值。

所述第三步具体为在IQ-Learning算法中，候选URL的Q值是基于已爬行页面集合在线计算的，它的定义既考虑了立即回报也考虑了长远回报，如下式所示：

Q(u_i)＝R(d_i)+γQ(d_i)，

Q (d_{i}) = \frac{1}{n} \cdot Σ_{k = 1, u_{k} &Element; d_{i}}^{n} Q (u_{k})

其中，u_i是已爬行的超链接，d_i是爬行u_i获得的页面。R(d_i)表示页面d_i的主题相关度。u_k是d_i的子URL，并且是一个已爬行的URL，n表示d_i的已爬行子URL的总数。Q(u_k)表示u_k的Q值，γ是一个折算因子。可以看出，这个定义是一个递归的定义，其中R(d_i)表示了爬行u_i而获得的立即回报，而γQ(d_i)表示折算了的长远回报(累计的)，γ决定了长远回报相对于立即回报的重要性。

本发明基于增量Q-Learning学习方法及系统中增量Q-Learning学习方法中第八步为通过页面相关度评估器计算所述页面d的相关度R(d)，具体包括步骤：(一)、提取链接上下文信息；(二)、对以获取到的链接进行分类；(三)、根据训练样本集计算出先验概率和后验概率。

其中，所述(一)步的实现方式为：

每个超链接的上下文Γ(u_i)是由它的锚文本以及该超链接的源页面的标题(Title)组成的，这样每个训练样本可以表示为：<Γ(u_i)，C_i>。我们采用朴素贝叶斯作为训练算法。首先Γ(u_i)要通过向量空间模型表示为一个词频加权向量，最后Γ(u_i)表示为：Γ(u_i)＝<ω_1i，ω_2i，…，ω_ki，…，ω_ni>。

所述(二)步的实现方式为：

对每一个新发现的超链接u_i(对应于候选URL)，分类器要根据该URL的上下文Γ(u_i)判断它属于哪个类C^*，并把与该类相对应的函数Q值赋给该候选URL以表示它的爬行优先级。对于NB(Naive Bayes朴素贝叶斯)分类器，这个任务可以表示为：要找到一个类C^*，使该类相对于Γ(u_i)的条件概率P(C^*|Γ(u_i))最大化，可用下式来表示：

C^{*} = \underset{c_{j}}{\arg \max} P (C_{j} | Γ (u_{i})) = \underset{c_{j}}{\arg \max} P (C_{j}) P (Γ (u_{i}) | C_{j})

直接计算P(Γ(u_i)|C_j)在计算上是不可行的，因为Γ(u_i)所属的特征空间的维数太高。然而，按照NB算法的统计特征独立假设，可以认为任一个特征ω_ki在页面中(或上下文)出现的概率与其它特征是否出现没有内在关系。基于这个假设，可以用下式来表示：

C^{*} = \underset{c_{j}}{\arg \max} P (C_{j}) P (Γ (u_{i}) | C_{j}) = \underset{c_{j}}{\arg \max} P (C_{j}) Π_{k = 1}^{| Γ (u_{i}) |} P (ω_{kj} | C_{j})

所述(三)步的实现方式为：

计算先验概率P(C_j)比较简单，它等于类C_j包含的样本数量占整个样本集的百分比。

后验概率P(ω_kj|C_j)可按照下式计算：

P (ω_{kj} | C_{j}) = \frac{1 + Σ_{i = 1}^{| c_{j} |} ω_{ki}}{| V | + Σ_{i = 1}^{| c_{j} |} ω_{i}}

表示了特征t_k在类C_j中的tf*idf权值总和，ω_i表示C_j的一个训练样本Γ(u_i)中所有特征的tf*idf权值的总和，即

表示类C_j中的所有特征的tf*idf权值总和。

主题爬虫刚开始爬行时，由于只爬行了少量的页面，产生的训练样本数量比较有限，因此在实际爬行中一般需要一个过渡期，在这个期间主题爬虫将直接基于候选URL的上下文相关度决定URL的爬行优先级，这个过渡期一般比较短，在本发明技术的实验中一般设为50个页面左右。经过这个过渡期后，IQ-Learning算法就要进行正常的运行。可以看出，整个算法的运行不需要手工标识样本，系统可以为Q值分类器在线生成训练样本，而分类器就可以进行增量的学习，从而可以及时更新候选URL的Q值估计模型，调整和优化爬行的策略

为了解决现有技术中存在的问题，本发明还提供了一种基于增量Q-Learning学习系统，如附图3所示：本发明系统结构的最大创新点在于增加了一个Q-Learning在线样本生成器，它对在线爬行获得的页面进行分析和评价，生成新的正例样本或反例样本，使增量学习成为可能。页面相关度评估器的功能相当于超文本分类器，对页面进行相关度评估，但它对分类算法有特殊要求：由于爬行开始时只有正例，因此它必须能只基于正例学习；它可以产生一个连续的相关度值，使超链接评价器可以更好的集成相关度信息。页面相关度评估器与超链接评价器是紧耦合的关系，它们能在线相互反馈。

本发明技术的有益效果在于：在基于增量Q-Learning学习系统中，页面分类器和超链接评价器具有增量学习能力，从而改进了现有主题爬虫的体系结构，使主题爬虫在爬行过程中能进行在线学习，具有更强的自适应性，能快速优化其爬行策略。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于增量Q-Learning的学习方法，其特征在于：所述增量Q-Learning学习方法包括步骤：

A：将种子站点集合S作为起始爬行URL队列H；

B：对初始样本页面集W进行学习；

C：从所述起始爬行URL队列H中取Q函数值最高的结点U；

D：爬行得到所述节点U对应的页面d；

E：将所述页面d加入到已爬行页面集D；

F：从所述页面d中解析出新的URL节点集U^*；

G：将所述URL节点集U^*加入到所述起始爬行URL队列H中；

H：计算所述页面d的相关度R(d)；

I：将所述相关度R(d)沿链接路径进行反馈对其祖先页面重新计算函数Q值；

J：使用所述步骤I中所述函数Q值进行重新训练；

K：对于待选的URL使用重新训练过的分类器进行函数Q值的估算；

L：对所述URL对列中进行基于所述函数Q值的排序。

2.根据权利要求1所述基于增量Q-Learning的学习方法，其特征在于：所述步骤B为使用页面相关度评估器对初始样本页面集W进行学习，具体包括步骤：

B1：用普通爬虫或其它类型的主题爬虫爬行一部分页面，作为函数Q值计算的训练集；

B2：设超链接为u_i，计算它的函数Q值Q(u_i)的方法是：设定Q(u_i)＝1，如果所述超链接u_i直接链接向一个主题相关页面，则设定Q(u_i)＝0。

3.根据权利要求1所述基于增量Q-Learning的学习方法，其特征在于：所述步骤C具体为对候选URL进行IQ-Learning评估，在IQ-Learning算法中，候选URL的函数Q值是基于已爬行页面集合在线计算，它的定义既考虑了立即回报也考虑了长远回报，公式为：Q(u_i)＝R(d_i)+γQ(d_i)，

Q (d_{i}) = \frac{1}{n} \cdot Σ_{k = 1, u_{k} &Element; d_{i}}^{n} Q (u_{k});

4.根据权利要求1所述基于增量Q-Learning的学习方法，其特征在于：所述步骤H为通过页面相关度评估器计算所述页面d的相关度R(d)，具体包括步骤：

H1：提取链接上下文信息；

H2：对以获取到的链接进行分类；

H3：根据训练样本集计算出先验概率和后验概率。

5.根据权利要求4所述基于增量Q-Learning的学习方法，其特征在于：所述步骤H1具体为每个超链接的上下文Γ(u_i)是由它的锚文本以及该超链接的源页面的标题(Title)组成的，这样每个训练样本可以表示为：<Γ(u_i)，C_i>；采用朴素贝叶斯作为训练算法，首先Γ(u_i)要通过向量空间模型表示为一个词频加权向量，最后Γ(u_i)表示为：

Γ(u_i)＝<ω_1i，ω_2i，…，ω_ki，…，ω_ni>。

6.根据权利要求4所述基于增量Q-Learning的学习方法，其特征在于：所述步骤H2具体为对每一个新发现的超链接u_i(对应于候选URL)，分类器要根据所述URL的上下文Γ(u_i)判断它属于哪个类C^*，并把与该类相对应的Q值赋给所述候选URL以表示它的爬行优先级；

对于NB分类器，这个任务可以表示为：要找到一个类C^*，使该类相对于所述Γ(u_i)的条件概率P(C^*|Γ(u_i))最大化，可用下式来表示：

C^{*} = \underset{c_{j}}{\arg \max} P (C_{j}) P (Γ (u_{i}) | C_{j}) = \underset{c_{j}}{\arg \max} P (C_{j}) Π_{k = 1}^{| Γ (u_{i}) |} P (ω_{kj} | C_{j}) .

7.根据权利要求4所述基于增量Q-Learning的学习方法，其特征在于：所述步骤H3具体为：

先验概率P(C_j)为类C_j包含的样本数量占整个样本集的百分比；

后验概率P(ω_kj|C_j)为：

P (ω_{kj} | C_{j}) = \frac{1 + Σ_{i = 1}^{| c_{j} |} ω_{ki}}{| V | + Σ_{i = 1}^{| c_{j} |} ω_{i}},

8.根据权利要求1所述基于增量Q-Learning的学习方法，其特征在于：所述步骤J具体为使用所述步骤I中新获取的函数Q值对朴素贝叶斯Q值映射分类器进行重新训练。

9.一种基于增量Q-Learning的学习系统，所述系统包括页面相关度评估器、超链接评价器和网页爬行器，其特征在于：所述系统还包括样本生成器，所述样本生成器分别与所述页面相关度评估器、所述超链接评价器和所述网页爬行器连接。

10.根据权利要求9所述基于增量Q-Learning的学习系统，其特征在于：所述页面相关度评估器与所述超链接评价器是紧耦合的关系。