CN108694197A - 超文本抓取方法和装置 - Google Patents

超文本抓取方法和装置 Download PDF

Info

Publication number
CN108694197A
CN108694197A CN201710228779.6A CN201710228779A CN108694197A CN 108694197 A CN108694197 A CN 108694197A CN 201710228779 A CN201710228779 A CN 201710228779A CN 108694197 A CN108694197 A CN 108694197A
Authority
CN
China
Prior art keywords
page
technorati authority
link
hypertext
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710228779.6A
Other languages
English (en)
Inventor
张波
孟遥
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201710228779.6A priority Critical patent/CN108694197A/zh
Publication of CN108694197A publication Critical patent/CN108694197A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种超文本抓取方法和装置。其中,基于第一种子页面,对链接页面进行第一遍历,以抓取超文本页面。对于通过第一遍历抓取的每一个当前页面,获得其第一权威度。若第一权威度大于第一阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面,并从第二训练页面集合中选取与该当前页面相似的页面,以其所包含的链接所指向的链接页面中第二权威度最大的页面作为当前页面继续遍历;其中,所述第二权威度是对第二训练页面的权威度加以调整后的值。

Description

超文本抓取方法和装置
技术领域
本申请涉及信息处理领域,具体地涉及互联网领域,更具体地涉及一种超文本抓取方法、超文本抓取装置以及程序。
背景技术
网络爬虫是一种自动获取网页内容或称超文本的程序。传统爬虫从一个或若干初始网页或称种子页面的URL开始,获得初始网页上的链接(URL),在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。另外一些不常使用的名字还有蚂蚁、自动索引或者蠕虫。
传统的网络爬虫使用遍历算法,并在遍历获取的页面中选择主题相关度高的链接进行继续抓取,对于主题不相关的页面则直接丢弃,直到满足一定的条件结束。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据本发明的一个方面,提供了一种超文本抓取方法,包括:基于第一种子页面,对链接页面进行第一遍历,以抓取超文本页面;其中,对于通过第一遍历抓取的每一个当前页面,获得其第一权威度;若第一权威度大于第一阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面,并从第二训练页面集合中选取与该当前页面相似的页面,以其所包含的链接所指向的链接页面中第二权威度最大的页面作为当前页面继续遍历;其中,所述第二权威度是对第二训练页面的权威度加以调整后的值。
根据本发明的另一个方面,提供了一种超文本抓取装置,包括:遍历单元,用于基于第一种子页面,对链接页面进行第一遍历以抓取超文本页面;权威度评估单元,用于对于通过第一遍历抓取的每一个当前页面,获得其第一权威度;以及训练页面库,所述训练页面库中的页面的权威度已经基于其包含的链接所指向的页面的权威度进行了调整,成为第二权威度;其中,所述遍历单元被配置为:若第一权威度大于第一阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面,并从训练页面库中选取与该当前页面相似的页面,以其所包含的链接所指向的链接页面中第二权威度最大的页面作为当前页面继续遍历。
依据本发明的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。
根据本申请的超文本抓取方法、装置和程序,当抓取到主题不是很相关的页面时,网络爬虫的遍历不一定在该页面停止,而是要考察与该页面相关联的页面中主题相关度较高的链接继续遍历,从而避免遗漏某些页面。
通过以下结合附图对本发明的优选实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
为了进一步阐述本申请的以上和其它优点和特征,下面结合附图对本申请的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解,这些附图仅描述本申请的典型示例,而不应看作是对本申请的范围的限定。在附图中:
图1A是本申请的超文本抓取方法的一种实施方式的示意流程图;
图1B是本申请的超文本抓取方法的另一种实施方式的示意流程图;
图2是本申请的一种实施方式中与当前页面相关联的链接页面的示意图;
图3是本申请的另一种实施方式中与当前页面相关联的链接页面的示意图;
图4是本申请的超文本抓取方法的另一种实施方式的示意流程图;
图5是本申请的另一种实施方式中调整权威度的示意图;
图6A到6C是本申请的超文本抓取装置的几种实施方式的示意图;
图7是其中可以实现根据本发明的实施例的方法和/或装置的通用个人计算机的示例性结构的框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
下文中的描述按如下顺序进行:
1.超文本抓取方法
2.超文本抓取装置
3.用以实施本申请的装置和方法的计算设备
[1.超文本抓取方法]
图1A示出了根据本申请的实施例的超文本(比如网页)抓取方法。其始于种子页面(以下称为“第一种子页面”100),基于第一种子页面对链接页面进行遍历(以下称为“第一遍历”),即按照一定的顺序抓取第一种子页面中的链接指向的页面(以下称为“链接页面”204(图2))(步骤102)以及链接页面中的链接进一步指向的其他链接页面204。按照所述顺序的不同,一般分为广度遍历和深度遍历。在广度遍历中,首先穷尽当前页面中的所有链接(第一层链接),然后依次针对第一层链接中的每一个链接所指向的页面,穷尽该页面中的所有链接(第二层链接),这样依次向第二层、第三层链接遍历,直到预定的遍历深度或者其他约束条件比如遍历链接的总数。在深度遍历中,针对第一层链接中的每一个链接,先遍历到预定的遍历深度,再遍历第一层链接中的下一个链接。
在超文本的抓取有约束条件的情况下,例如是基于主题词、关键词等的抓取,则存在抓取的网页是否符合约束条件的问题,即所抓取的网页是否是所需要的网页。对此可以用“权威度”(authority value)来表征。对于网页来说,可以有多种途径获得权威度,例如HITS算法、PAGERANK算法、搜索引擎的排序算法、使用权威度分类器或者任何其他获得权威度的算法。权威度分类器可以使用任何类型的分类器,例如逻辑回归、朴素贝叶斯、神经网络、SVM(支持向量机)等分类器都可以。权威度分类器可以使用上述分类器以任何训练方式获得。训练所使用的样本可以是任何网页(这些训练网页样本构成“第一训练页面集合”402(图4))。对样本的标注可以使用前述HITS算法、PAGERANK算法、搜索引擎的排序算法或任何其他算法对集合中的网页进行权威度评估(步骤412,图4),用通过这些算法获得的权威度大于预定阈值(以下称为“第三阈值”)的网页来训练所述分类器(步骤414,图4),从而获得权威度分类器416(图4)。
权威度分类器416可以预先准备好提供给本公开的超文本抓取方法,也可以临时训练。在一种实施方式中,作为训练样本的网页最好使用与最终的超文本抓取相似的网页,例如主题相近。因此,可以使用与最终的超文本抓取相似或者相同的约束条件来获取训练网页样本即第一训练页面集合402。例如使用相似或相同的领域关键词、主题词等来获取所述第一训练页面集合402。这样,所获得的第一训练页面集合402与要超文本抓取方法所要抓取的主题等相近,不容易出现语义漂移。
回到图1A所示的超文本抓取方法的实施方式。对于遍历过程中每一次抓取到的当前页面104,均可以利用前文所讨论的各种算法或者训练得到的权威度分类器来获取权威度(以下称为“第一权威度”)(步骤106。另见图4中的箭头a6或a8)。判断该第一权威度是否大于预定阈值(以下称为“第一阈值”Th1)(步骤108)。若是则保留当前页面并继续遍历(步骤110)。若否,则舍弃当前页面,获取替代页面作为当前页面(步骤112),继续遍历。
须注意,在本公开当中,保留某页面,即意味着可以基于该页面所包含的链接继续遍历;舍弃某页面,则不仅意味着该页面不予保留,也意味着该页面不再作为遍历的基础,即不再对该页面所包含的链接所指向的页面进行抓取。当然,本领域技术人员可以理解,对于本实施方式的超文本抓取方法所采用的遍历而言,虽然基于某一链接的遍历结束,但仍有可能需要继续进行基于与该链接平行的其他链接的遍历,直到达到整体的遍历结束条件,这是不言而喻的。另外,即使在遍历过程中从未有页面被舍弃,遍历也受制于总体的遍历结束条件,例如遍历深度,或者所抓取的页面数量等,这也是不言而喻的。
按照上述方法,对于作为当前页面104的替代页面,同样要获取第一权威度并与第一阈值进行比较,以确定是保留还是舍弃该页面。在舍弃该替代页面(步骤112)的情况下,作为该实施方式的变型之一,可以继续获取下一个替代页面;作为该实施方式的变型之二,可以在满足结束条件的情况下,不再获取下一个替代页面。该结束条件例如是允许连续出现的替代页面的次数。例如,仅允许连续出现一个替代页面,即,若替代页面的权威度不符要求,则舍弃该替代页面,不基于该替代页面所包含的链接进行进一步遍历。如果允许连续出现两个替代页面,则在一个替代页面的权威度不满足要求时,允许基于该替代页面继续获得另一个替代页面。如果该另一个替代页面仍然不符要求,才结束该分支的遍历。
对于通过正常的遍历动作抓取的当前页面104,以及所获取的替代页面,其权威度的判断阈值可以相同也可以不同。如图1B所示,对于作为当前页面的替代页面,可以将其权威度与第二阈值Th2相比较,以决定是保留还是舍弃作为当前页面的替代页面。在图1B中,替代页面的权威度的获取方式,以及获取替代页面的结束条件,可以与结合图1A进行的描述相同。回忆到前文述及对权威度分类器的训练,其中涉及使用权威度大于第三阈值的网页来训练分类器。其中,该第三阈值可以大于第一阈值和第二阈值,以便获得性能更佳的权威度分类器。根据实际应用的需求,第二阈值可以大于第一阈值,也可以小于第一阈值,或者相同。
下面说明替代页面的获取。按照本公开的一种实施方式,替代页面可以是与该当前页面相关联的链接页面中权威度(以下称“第二权威度”)最大的页面。该第二权威度可以用与获得第一权威度相同的手段获得。在本公开中,所谓“与该当前页面相关联的链接页面”可以至少包括两种情况。一种情况如图2所示,与该当前页面104相关联的链接页面为该当前页面104所包含的链接(例如URL1,URL2,URL3)所指向的页面204(例如链接页面1、2、3)。
另一种情况如图3所示,与该当前页面104相关联的链接页面为与该当前页面相似的页面304所包含的链接(例如URL1,URL2,URL3)所指向的页面204(例如链接页面1、2、3)。相似的确定可以使用现有技术中的任何方法,例如基于特征划分包括分词技术的距离计算等等。
在一种实施方式中,与当前页面104相似的相似页面304可以从已有的第二训练页面集合426(参见下文结合图4的说明)中选取。当从第二训练页面集合426中选取替代页面之后,此后的遍历可以一直在该集合中进行;或者可以将该替代页面作为一个普通页面,在该集合外部继续进行遍历,虽然遍历到的页面有可能确实也存在于该集合之中。由于该集合426是已有的,因此该页面所包含的链接所指向的页面,也就是图3中的连接页面1、2和3的第二权威度,既可以在本公开的超文本抓取方法中临时获取,也可以是该集合426预先提供的。在这种情况下,在接下来的遍历过程中,在图1A所示的实施方式中即可将所选中的作为替代页面的链接页面(即链接页面1、2、3中第二权威度最大者)的第二权威度作为第一权威度;在图1B所示的实施方式中,第二权威度同样可以用来直接在与第二阈值Th2的比较步骤114中使用。
图4示意性地图示了本公开的超文本抓取方法(图4右栏)与权威度分类器416的训练(图4左栏)以及第二训练页面集合426(图4中间栏)的关系。图4的右下角简要示出了前文结合图1A和图1B所描述的过程,即基于第一种子页面100通过第一遍历抓取超文本,获得超文本页面集合436。在第一遍历的过程中,当前页面第一权威度的获取106既可以由预先训练(步骤414)得到的权威度分类器416进行,如箭头a8所示;也可以由训练权威度分类器416过程中相同的权威度评估手段(步骤412)来进行,如虚线箭头a6所示。对于第一遍历过程中使用的替代页面,如前文所述既可以以其他任何方式提供(例如图2、图3所示),也可以由第二训练页面集合426提供(步骤112A,箭头a9),当由第二训练页面集合426提供时,替代页面以及如图3所示与之竞争的其他链接页面的权威度也可以是预先确定好的,在提供替代页面时一并提供其权威度。第二训练页面集合426中的页面的权威度,类似地同样可以由预先训练(步骤414)得到的权威度分类器416进行,如箭头a7所示;也可以由训练权威度分类器416过程中相同的权威度评估手段(步骤412)来进行,如虚线箭头a5所示。
对于第一遍历所使用的来自第二训练页面集合426的替代页面以及如图3所示与之竞争的其他链接页面的权威度,可以是使用前述方法获得权威度,也可以是对使用前述方法所获得的权威度进行调整(步骤428)后的值。这种调整的目的是避免在当前页面的权威度不够的情况下,因为舍弃该当前页面而导致其所包含的链接指向的权威度较高的页面未被纳入遍历范围之中。基于该目的,所述调整可以包括使用第二训练页面所包含的链接所指向页面的权威度调整该第二训练页面的权威度。可以使用所包含的所有链接指向的页面的权威度进行调整,这样在决定是否丢弃当前训练页面时能够将所有链接页面的权威度都考虑在内。在另外一种实施方式中,考虑到权威度是特定于相应页面自身的特征,不因并行的其他链接页面的权威度而有所改变,因此对于当前训练页面来说,其所包含的链接所指向的页面中的最大权威度更有意义。因此,可以使用第二训练页面所包含的链接所指向页面的最大权威度调整该第二训练页面的权威度。
在本公开中,当涉及权威度时,若存在经过调整后的权威度,则是指调整后的权威度,除非根据上下文推断或者已明确指出系指未经调整的权威度。
考虑到无论直接链接到还是间接链接到的权威度高的页面均有价值,在一种实施方式中使用迭代算法进行所述调整。也就是说,进行所述调整所考虑的链接页面的权威度,也可以是经过相同的算法经过调整的权威度。如图5所示,实线箭头表示页面的链接关系,例如页面G中的链接指向页面H和I,I中的链接指向J,等等。为了叙述简明,假定图5示出了所有的链接,并且图5所示为整个第二训练页面集合426。图5中的虚线箭头表示在上述迭代调整算法中,权威度的反馈关系。例如,如果用Q(A,B)表示A页面中的链接指向的B页面的调整后的权威度,则页面M的权威度Q(K,M)和页面L的权威度Q(K,L)或其中的较大者Max(Q(K,x))(x={L,M})将参与页面M本身未经调整的权威度Reward(M)的调整。进一步,Q(J,K)将参与页面J的未经调整的权威度Reward(J)的调整,以此类推,页面H的权威度Q(G,H)和页面I的权威度Q(G,I)或其中的较大者Max(Q(G,x))(x={H,I})将参与页面G本身未经调整的权威度Reward(G)的调整。如此形成第二训练页面集合中所有页面的Q值矩阵。Q值即为前述第二权威度。
在图5中,虚线框H、I、J表示其未经调整的权威度低于图1A中的第一阈值或者图1B中的第二阈值的页面。那么在不调整权威度的实施方式中,该三页面即使被选中为替代页面,例如页面G与为图3中的相似页面304,Q(G,I)>Q(G,H),从而将页面I选为替代页面,那么在不允许连续多次寻找替代页面的实施方式中,页面I仍然会被舍弃,从而终止当前分支中的遍历。
在一种实施方式中,当从第二训练页面集合426中选取相似页面304时,考虑到第二训练页面集合426中的页面的权威度经过了调整,因此所述相似页面304包括与本要舍弃的当前页面相同的页面。例如,在允许连续两次寻找替代页面的实施方式中,如上一段所述页面I的权威度即使经过了调整仍不够大从而要舍弃页面I,此时可以考虑页面I所指向的调整后的权威度最大的页面J。页面J本身未经调整的权威度可能不足够大,但是在经过页面K的权威度调整之后,页面J的调整后的权威度可能足以让页面J得以保留,从而继续向页面K等遍历。
以上调整方式的具体实现可以有多种方式。其中一种最简单的方式可以用以下公式表达:
Q(A,B)=Reward(B)+γMax(Q(B,x))
其中,Reward(B)为B页面的未经调整的权威度,Q(B,x)为B页面中的链接指向的x页面的调整后的权威度,其中x为B页面中的所有链接,γ为最大远程回报,决定了下一层链接的权威度对上一层链接的权威度有多大影响。取决于具体应用的需要,其取值范围为0-1。如果希望抓取更多的网页,则取值接近1,反之接近0。一般取0.8左右的值较佳。
回到图4。对于本公开的超文本抓取方法来说,所使用的第一种子页面100既可以预先提供,也可以通过预处理得到。在一种实施方式中,如图4右栏所示,可以通过第一预搜索430得到第一预搜索页面432,通过枢纽度评估406B选出第一种子页面100。对于第一预搜索430,可以基于任何适合应用目的的搜索条件,例如关键词、主题词等。对于第一预搜索页面432的数量,可以设置一定的限制。一个页面的枢纽度用于表征该页面在何种程度上能够通过其中的链接导引到有用的或者说权威度较高的页面,其基本上取决于其所包含的链接所指向的页面的权威度。
可以有多种途径获得权威度,例如HITS算法、搜索引擎的排序算法、使用枢纽度分类器或者任何其他获得权威度的算法。枢纽度分类器可以使用任何类型的分类器,例如逻辑回归、朴素贝叶斯、神经网络、SVM(支持向量机)等分类器都可以。枢纽度分类器可以使用上述分类器以任何训练方式获得。训练所使用的样本可以是任何网页(这些训练网页样本构成“第三训练页面集合”402。对样本的标注可以使用前述HITS算法、搜索引擎的排序算法或任何其他算法对集合中的网页进行枢纽度评估(步骤406),用通过这些算法获得的权威度大于预定阈值(以下称第四阈值)的网页来训练所述分类器(步骤408),从而获得枢纽度分类器410。
枢纽度分类器410可以预先准备好提供给本公开的超文本抓取方法,也可以临时训练。在一种实施方式中,作为训练样本的网页最好使用与最终的超文本抓取相似的网页,例如主题相近。因此,可以使用与最终的超文本抓取相似或者相同的约束条件来获取训练网页样本即第三训练页面集合402。例如使用相似或相同的领域关键词、主题词等来获取所述第三训练页面集合402。这样,所获得的第三训练页面集合402与超文本抓取方法所要抓取的主题等相近,不容易出现语义漂移。
用于训练权威度分类器416的第一训练页面集合和用于训练枢纽度分类器410的第三训练页面集合可以是不同的集合,也可以是同一个集合。图4所示为同一个集合即第一/第三训练页面集合402。其可以由第三预搜索400得到。对于第三预搜索400,可以基于任何适合应用目的的搜索条件,例如关键词、主题词等。对于第三预搜索得到的第一/第三训练页面集合402中页面的数量,可以设置一定的限制。第三预搜索400的方式、条件等与第一预搜索430可以相同也可以不同。
在枢纽度评估步骤406B中,对第一预搜索页面432的枢纽度的获取既可以由预先训练(步骤408)得到的枢纽度分类器410进行,如箭头a1所示;也可以由训练枢纽度分类器410过程中相同的枢纽度评估手段(步骤406)来进行,如虚线箭头a4所示。
在完成枢纽度评估步骤406B之后,可以以所述枢纽度满足第一条件的页面为所述第一种子页面100。例如,可以以枢纽度最大的一个或者多个页面作为第一种子页面100。又例如,可以以枢纽度大于预定阈值(以下称第五阈值)的一个或者多个页面作为第一种子页面100。第五阈值可以大于前述第四阈值。
类似地,前述第二训练页面集合426可以预先提供,也可以临时生成。生成第二训练页面集合426时,可以基于预先提供或者临时获取的第二种子页面424进行遍历(以下称为第二遍历425)获得。第二遍历425采用与第一遍历类似的现有技术进行,若第一遍历为广度遍历则第二遍历425也使用广度遍历;若第一遍历为深度遍历则第二遍历425也采用深度遍历。第二遍历425的遍历深度可以大于第一遍历的遍历深度。
类似于第一种子页面100,所使用的第二种子页面424既可以预先提供,也可以通过类似于针对第一种子页面100描述的预处理得到。在一种实施方式中,如图4中间栏所示,可以通过第二预搜索420得到第二预搜索页面422,通过枢纽度评估406A选出第二种子页面424。对于第二预搜索420,可以基于任何适合应用目的的搜索条件,例如关键词、主题词等。对于第二预搜索页面422的数量,可以设置一定的限制。第二预搜索420的方式、条件等与第一预搜索430和/或第三预搜索400可以相同也可以不同。
在枢纽度评估步骤406A中,对第二预搜索页面422的枢纽度的获取既可以由预先训练(步骤408)得到的枢纽度分类器410进行,如箭头a2所示;也可以由训练枢纽度分类器410过程中相同的枢纽度评估手段(步骤406)来进行,如虚线箭头a3所示。
在完成枢纽度评估步骤406A之后,可以以所述枢纽度满足第二条件的页面为所述第二种子页面424。例如,可以以枢纽度最大的一个或者多个页面作为第二种子页面424。又例如,可以以枢纽度大于预定阈值(以下称第六阈值)的一个或者多个页面作为第二种子页面100。第六阈值可以大于前述第四阈值。
[2.超文本抓取装置]
以上所讨论的方法可以完全由计算机可执行的程序来实现,也可以部分地或完全地使用硬件和/或固件来实现。当其用硬件和/或固件实现时,或者将计算机可执行的程序载入可运行程序的硬件设备时,则实现了下文将要描述的超文本抓取装置。下文中,在不重复上文中已经讨论的一些细节的情况下给出这些装置的概要,但是应当注意,虽然这些装置可以执行前文所描述的方法,但是所述方法不一定采用所描述的装置的那些部件或不一定由那些部件执行。
图6A示出了根据本公开的一种实施方式的超文本抓取装置。其包括遍历单元602和权威度评估单元416A。遍历单元602用于基于第一种子页面,对链接页面进行第一遍历以抓取超文本页面。对于第一种子页面、链接页面、第一遍历等,前文描述超文本抓取方法时已详尽描述,在此不再赘述。权威度评估单元416A用于对于通过第一遍历抓取的每一个当前页面,获得其第一权威度。权威度评估单元416A可以是前文描述过的权威度分类器416,也可以是实施前文描述过的其他权威度评估算法,包括HITS算法、PAGERANK算法、搜索引擎的排序算法等,的实体。
在该实施方式中,所述遍历单元602可以被配置为:若第一权威度大于第一阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面,并基于与该当前页面相关联的链接页面中第二权威度最大的页面(替代页面)作为当前页面继续遍历。保留和舍弃当前页面的含义,以及继续遍历的含义与方式,已在描述超文本抓取方法时详尽说明。
所述遍历单元602可以进一步被配置为,若作为当前页面的替代页面的权威度大于第二阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面。第二阈值和第一阈值可以相同也可以不同。与该当前页面相关联的链接页面可以为该当前页面所包含的链接所指向的页面;或可以为与该当前页面相关联的链接页面为与该当前页面相似的页面所包含的链接所指向的页面。
根据本公开的另一种实施方式,如图6B所示,所述超文本抓取装置还可以包括训练页面库426A,其中所述遍历单元602被配置为从所述训练页面库中选取与所述当前页面相似的页面所包含的链接所指向的页面,作为所述与当前页面相关联的链接页面。所述训练页面库426A中存储前文已描述的第二训练页面集合426,在此不再赘述。该训练页面库426A中的页面的权威度可以预先计算好,也可以临时计算。在一种实施方式中,所述训练页面库426A中的页面的权威度已经基于其包含的链接所指向的页面的权威度进行了调整。该调整也可以临时地由权威度调整单元428A进行。调整的具体实施方式前文已结合超文本抓取方法进行了详尽描述。在对所述训练页面库426A中的页面的权威度加以调整的情况下,从所述第二训练页面库426A中选取的与前述当前页面相似的页面包括与该当前页面相同的页面。
训练页面库426A中的页面的权威度的评估可以使用前文所述的权威度评估单元416A,也可以使用相对独立的权威度评估单元(未图示),其同样可以使用前文所描述的权威度分类器416或者实施其他权威度评估算法的实体。
在另一种实施方式中,如图6C所示,可以有预搜索单元606和枢纽度评估单元410A来为遍历单元602做准备,即从预搜索获得的页面中,选取枢纽度满足一定条件的页面作为第一种子页面,以供遍历单元602作为遍历的基础。其具体实现方式前文已结合超文本抓取方法予以说明。
类似地,枢纽度评估单元410A同样可以是前文描述过的枢纽度分类器410,也可以是实施前文描述过的其他权威度评估算法,包括HITS算法、搜索引擎的排序算法等,的实体。
在另一种实施方式中,训练页面库426A中的内容可以临时准备。在这种情况下,需要实施结合图4所描述的从第二预搜索420到第二遍历425的操作,以形成存储在训练页面库426A中的第二训练页面集合426。这个过程可以由前面描述的同一套装置包括预搜索单元606、枢纽度评估单元410A和遍历单元602来完成,只不过其所处理的内容对象以及相关参数与后面正式进行的超文本抓取过程不同。当然,这些操作也可以由另一套类似的装置来完成。
以上实施例中的相关细节已经在对超文本抓取方法的描述中详细给出,在此不再赘述。
[3.用以实施本申请的装置和方法的计算设备]
上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图7所示的通用计算机700)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中,也根据需要存储当CPU 701执行各种处理等等时所需的数据。CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。
下述部件连接到输入/输出接口705:输入部分706(包括键盘、鼠标等等)、输出部分707(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分708(包括硬盘等)、通信部分709(包括网络接口卡比如LAN卡、调制解调器等)。通信部分709经由网络比如因特网执行通信处理。根据需要,驱动器710也可连接到输入/输出接口705。可移除介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可移除介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可移除介质711。可移除介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出了相应的计算机程序代码、一种存储有机器可读取的指令代码的计算机程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,被配置为承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是被配置为说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。
通过上述的描述,本发明的实施例提供了以下的技术方案,但不限于此。
附记1.一种超文本抓取方法,包括:
基于第一种子页面,对链接页面进行第一遍历,以抓取超文本页面;其中,
对于通过第一遍历抓取的每一个当前页面,获得其第一权威度;
若第一权威度大于第一阈值,则保留该当前页面,并基于该当前页面继续遍历;否则:
舍弃该当前页面,并从第二训练页面集合中选取与该当前页面相似的页面,以其所包含的链接所指向的链接页面中第二权威度最大的页面作为当前页面继续遍历;
其中,所述第二权威度是对第二训练页面的权威度加以调整后的值。
附记2.如附记1所述的超文本抓取方法,其中,若作为当前页面的所述链接页面中第二权威度最大的页面的第二权威度大于第二阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面。
附记3.如附记1或2所述的超文本抓取方法,其中,从所述第二训练集合中选取的与该当前页面相似的页面包括与该当前页面相同的页面。
附记4.如附记1或2所述的超文本抓取方法,其中,所述调整包括:使用第二训练页面所包含的链接所指向页面的权威度调整该第二训练页面的权威度。
附记5.如附记4所述的超文本抓取方法,其中,使用第二训练页面所包含的链接所指向页面的最大权威度调整该第二训练页面的权威度。
附记6.如附记5所述的超文本抓取方法,其中,使用迭代算法进行所述调整。
附记7.如附记6所述的超文本抓取方法,所述调整使用以下计算公式:Q(A,B)=Reward(B)+γMax(Q(B,x))其中,Q(A,B)为A页面中的链接指向的B页面的调整后的权威度,Reward(B)为B页面的未经调整的权威度,Q(B,x)为B页面中的链接指向的x页面的调整后的权威度,其中x为B页面中的所有链接,γ为最大远程回报,其取值范围为0-1。
附记8.如附记7所述的超文本抓取方法,其中γ为0.8。
附记9.如附记1或2所述的超文本抓取方法,其中,所述第一权威度和/或第二权威度是通过HITS算法、PAGERANK算法、搜索引擎排序或者权威度分类器获得的。
附记10.如附记9所述的超文本抓取方法,其中,所述权威度分类器是通过基于第一训练页面集合及通过HITS算法、PAGERANK算法或搜索引擎排序获得的权威度训练分类器得到的。
附记11.如附记10所述的超文本抓取方法,其中,使用权威度大于第三阈值的训练页面训练权威度分类器,其中,该第三阈值大于所述第一阈值。
附记12.如附记1所述的超文本抓取方法,其中,所述第二训练页面基于第二种子页面使用第二遍历获得。
附记13.如附记12所述的超文本抓取方法,其中,所述第二遍历的遍历深度大于所述第一遍历的深度。
附记14.如附记12所述的超文本抓取方法,还包括:
对第二预搜索得到的至少一个超文本页面获得枢纽度;
以所述枢纽度满足第二条件的页面为所述第二种子页面。
附记15.如附记1所述的超文本抓取方法,还包括:
对第一预搜索得到的至少一个超文本页面获得枢纽度;
以所述枢纽度满足第一条件的页面为所述第一种子页面。
附记16.如附记14或15所述的超文本抓取方法,其中,所述枢纽度是通过HITS算法、搜索引擎排序或者枢纽度分类器获得的。
附记17.如附记16所述的超文本抓取方法,其中,所述枢纽度分类器是通过基于第三训练页面集合及通过HITS算法或搜索引擎排序获得的枢纽度训练分类器得到的。
附记18.一种超文本抓取装置,包括:
遍历单元,用于基于第一种子页面,对链接页面进行第一遍历以抓取超文本页面;
权威度评估单元,用于对于通过第一遍历抓取的每一个当前页面,获得其第一权威度;以及
训练页面库,所述训练页面库中的页面的权威度已经基于其包含的链接所指向的页面的权威度进行了调整,成为第二权威度;
其中,所述遍历单元被配置为:若第一权威度大于第一阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面,并从训练页面库中选取与该当前页面相似的页面,以其所包含的链接所指向的链接页面中第二权威度最大的页面作为当前页面继续遍历。
附记19.如附记18所述的超文本抓取装置,其中,所述遍历单元被进一步配置为:若作为当前页面的所述链接页面中第二权威度最大的页面的第二权威度大于第二阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面。
附记20.如附记18或19所述的超文本抓取装置,还包括权威度调整单元,其使用第二训练页面所包含的链接所指向页面的最大权威度调整该第二训练页面的权威度。

Claims (10)

1.一种超文本抓取方法,包括:
基于第一种子页面,对链接页面进行第一遍历,以抓取超文本页面;其中,
对于通过第一遍历抓取的每一个当前页面,获得其第一权威度;
若第一权威度大于第一阈值,则保留该当前页面,并基于该当前页面继续遍历;否则:
舍弃该当前页面,并从第二训练页面集合中选取与该当前页面相似的页面,以其所包含的链接所指向的链接页面中第二权威度最大的页面作为当前页面继续遍历;
其中,所述第二权威度是对第二训练页面的权威度加以调整后的值。
2.如权利要求1所述的超文本抓取方法,其中,
若作为当前页面的所述链接页面中第二权威度最大的页面的第二权威度大于第二阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面。
3.如权利要求1或2所述的超文本抓取方法,其中,从所述第二训练集合中选取的与该当前页面相似的页面包括与该当前页面相同的页面。
4.如权利要求1或2所述的超文本抓取方法,其中,所述调整包括:使用第二训练页面所包含的链接所指向页面的权威度调整该第二训练页面的权威度。
5.如权利要求4所述的超文本抓取方法,其中,使用第二训练页面所包含的链接所指向页面的最大权威度调整该第二训练页面的权威度。
6.如权利要求5所述的超文本抓取方法,其中,使用迭代算法进行所述调整。
7.如权利要求6所述的超文本抓取方法,所述调整使用以下计算公式:Q(A,B)=Reward(B)+γMax(Q(B,x))其中,Q(A,B)为A页面中的链接指向的B页面的调整后的权威度,Reward(B)为B页面的未经调整的权威度,Q(B,x)为B页面中的链接指向的x页面的调整后的权威度,其中x为B页面中的所有链接,γ为最大远程回报,其取值范围为0-1。
8.如权利要求7所述的超文本抓取方法,其中γ为0.8。
9.一种超文本抓取装置,包括:
遍历单元,用于基于第一种子页面,对链接页面进行第一遍历以抓取超文本页面;
权威度评估单元,用于对于通过第一遍历抓取的每一个当前页面,获得其第一权威度;以及
训练页面库,所述训练页面库中的页面的权威度已经基于其包含的链接所指向的页面的权威度进行了调整,成为第二权威度;
其中,所述遍历单元被配置为:若第一权威度大于第一阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面,并从训练页面库中选取与该当前页面相似的页面,以其所包含的链接所指向的链接页面中第二权威度最大的页面作为当前页面继续遍历。
10.如权利要求9所述的超文本抓取装置,其中,所述遍历单元被进一步配置为:若作为当前页面的所述链接页面中第二权威度最大的页面的第二权威度大于第二阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面。
CN201710228779.6A 2017-04-10 2017-04-10 超文本抓取方法和装置 Pending CN108694197A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710228779.6A CN108694197A (zh) 2017-04-10 2017-04-10 超文本抓取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710228779.6A CN108694197A (zh) 2017-04-10 2017-04-10 超文本抓取方法和装置

Publications (1)

Publication Number Publication Date
CN108694197A true CN108694197A (zh) 2018-10-23

Family

ID=63842347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710228779.6A Pending CN108694197A (zh) 2017-04-10 2017-04-10 超文本抓取方法和装置

Country Status (1)

Country Link
CN (1) CN108694197A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914201A (zh) * 2020-08-07 2020-11-10 腾讯科技(深圳)有限公司 网络页面的处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663054A (zh) * 2012-03-29 2012-09-12 奇智软件(北京)有限公司 一种确定网站权重的方法及装置
US20140074736A1 (en) * 2005-03-08 2014-03-13 Unearthed Land Technologies, Llc Method and system for retrieving and serving regulatory history for a property
CN103841173A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种垂直网络蜘蛛
CN105677862A (zh) * 2016-01-08 2016-06-15 上海数道信息科技有限公司 一种抓取网页内容的方法及装置
CN106339378A (zh) * 2015-07-07 2017-01-18 中国科学院信息工程研究所 基于关键词导向的主题网络爬虫的数据搜集方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140074736A1 (en) * 2005-03-08 2014-03-13 Unearthed Land Technologies, Llc Method and system for retrieving and serving regulatory history for a property
CN102663054A (zh) * 2012-03-29 2012-09-12 奇智软件(北京)有限公司 一种确定网站权重的方法及装置
CN103841173A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种垂直网络蜘蛛
CN106339378A (zh) * 2015-07-07 2017-01-18 中国科学院信息工程研究所 基于关键词导向的主题网络爬虫的数据搜集方法
CN105677862A (zh) * 2016-01-08 2016-06-15 上海数道信息科技有限公司 一种抓取网页内容的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914201A (zh) * 2020-08-07 2020-11-10 腾讯科技(深圳)有限公司 网络页面的处理方法及装置
CN111914201B (zh) * 2020-08-07 2023-11-07 腾讯科技(深圳)有限公司 网络页面的处理方法及装置

Similar Documents

Publication Publication Date Title
US7953725B2 (en) Method, system, and storage medium for providing web information processing services
TWI396984B (zh) 使用網路文件的偏擊距離之排序功能
US10346413B2 (en) Time-aware ranking adapted to a search engine application
CN101452463A (zh) 定向抓取页面资源的方法和装置
CN103778548A (zh) 商品信息与关键词匹配方法、商品信息投放方法及装置
CN109240929A (zh) 软件质量预测方法、装置、终端和计算机可读存储介质
WO2008109485A1 (en) Personalized shopping recommendation based on search units
CN110163723A (zh) 基于产品特征的推荐方法、装置、计算机设备及存储介质
CN108710672B (zh) 一种基于增量贝叶斯算法的主题爬虫方法
CN103902579B (zh) 获取信息的方法和装置
CN106960248A (zh) 一种基于数据驱动预测用户问题的方法及装置
CN105894183A (zh) 项目评价方法及装置
CN102682023B (zh) 确定网站搜索关键词的方法和装置
JP4894580B2 (ja) 旬度解析システム、旬度解析方法、及び旬度解析プログラム
CN108846695A (zh) 终端更换周期的预测方法及装置
CN105930537A (zh) 一种页面保存的方法及电子设备
Saad et al. Using visual pages analysis for optimizing web archiving
CN106371706A (zh) 应用快捷方式位置选择的方法及装置
CN107016023A (zh) 累加检索处理方法和装置
CN108694197A (zh) 超文本抓取方法和装置
CN108628871A (zh) 一种基于链接特征的链接去重方法
CN109815388A (zh) 一种基于遗传算法的智能聚焦爬虫系统
CN109727125A (zh) 借款金额预测方法、装置、服务器、存储介质
CN103345525B (zh) 文本分类方法、装置及处理器
WO2001050338A1 (en) Categorisation of data entities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181023