CN103377291A - 借助于参考网络抓取建立网络语料库 - Google Patents

借助于参考网络抓取建立网络语料库 Download PDF

Info

Publication number
CN103377291A
CN103377291A CN2013102092107A CN201310209210A CN103377291A CN 103377291 A CN103377291 A CN 103377291A CN 2013102092107 A CN2013102092107 A CN 2013102092107A CN 201310209210 A CN201310209210 A CN 201310209210A CN 103377291 A CN103377291 A CN 103377291A
Authority
CN
China
Prior art keywords
resource
grid
identifier
response
crawl
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102092107A
Other languages
English (en)
Other versions
CN103377291B (zh
Inventor
S·里夏尔
X·格勒昂
J·费伦齐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dassault Systemes of America Corp
Original Assignee
Exalead SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Exalead SA filed Critical Exalead SA
Publication of CN103377291A publication Critical patent/CN103377291A/zh
Application granted granted Critical
Publication of CN103377291B publication Critical patent/CN103377291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于建立网络语料库(WCD)的计算机实现方法,包括以下步骤:由网络爬虫(WC)发送查询至参考网络抓取代理(RWCA),这个查询包含资源的至少一个标识符,由所述网络爬虫(WC)接收来自所述参考网络抓取代理(RWCA)的响应;如果这个响应不包含由所述标识符所识别的资源,则通过所述网络爬虫(WC)从与所述标识符相对应的网站(WS)下载所述资源,并且将所述资源添加到所述网络语料库(WCD);以及,如果这个资源包含由所述标识符所识别的资源,则将所述资源添加到网络语料库(WCD)。

Description

借助于参考网络抓取建立网络语料库
技术领域
本发明涉及网络信息软件领域,并且特别地涉及从因特网中取回数据以建立语料库的方法和系统,例如那些已知的“网络爬虫”。
背景技术
WWW(万维网)可被认为是一个巨大的数据储存库,其被极大地认为具有非常重要的商业价值。因此,需要向在互联网领域活跃的公司提供工具以创造网络上可用的资源之外的这种价值。这些公司可以提供专用于个体用户的服务(例如搜索引擎),或者以B to B(企业对企业)模型提供给其他公司的服务,例如,对汇总特定商业领域的市场数据等等。
为了能够分析信息并且规定其价格,首先和强制步骤是取回网络上可用的信息,并且根据它们建立“网络语料库”,即,可以运行专用计算机程序的一组资源。这些网络语料库在通用搜索引擎的情形下,或者在更小地局限于给定商业范围或者主题的情形下都是泛化的。
从网络取回信息,例如资源(网页、多媒体文件等),是一项耗时的任务。取回单个资源的时延可能是数百毫秒到秒。这种时延也是不可预测的,由于其依赖于网站和基础通信网络的健康状况。
并且,对网络上的可用资源没有全局查看。因此,为了建立这种查看,例如为了应答由搜索引擎的用户输入的查询,需要通过访问第一资源来执行迭代处理,并且接着访问在这些资源中所涉及的资源等,直到认为已经获得了对该网络的充分的查看。
在进行这个处理中,累加时延并且能够回答用户请求的最终时延是不合理的。
已经引入了网络爬虫来避免搜索引擎或者任何其他需要访问大量资源的计算机程序的这种时延。
网络爬虫是用于寻找、浏览和下载在网络中的网站上可用的资源的程序,以便构成语料库,即能够被其他程序所使用的一组资源。它们也被称作蚂蚁、机器人、网络蜘蛛……。接下来,将它们称作“网络爬虫”,或者更简称为“爬虫”。
更具体且普遍地,爬虫以访问被称作“种子”的URL(统一资源定位符)的列表开始。当爬虫访问由这些URL识别出的资源时,其识别由所述资源包含的所有URL(以超链接的形式),并且将它们增加到待访问的URL列表中。接着递归地访问这些URL,同时下载相应的资源以逐渐地建立网络爬虫。
在此,将网络抓取定义为由网络爬虫存储的数字内容。
由搜索引擎主要地使用这些网络爬虫,如图1所示。
网络爬虫WC抓取网络并建立网络抓取WCD,其是下载资源的储存库。索引程序IDP正在使用这个网络抓取WCD,以便建立索引ID。
这个索引程序IDP可以包括处理管线,其针对分析网络抓取WCD的原始资源,以将它们转换为遵循更加适于索引的格式的“对象”。例如,可以抑制某些下载资源(例如广告横幅、图像等)的部分内容,和/或查找下载资源内的某些数据,以将它们放置在待被索引的对象的专用字段内,等。
索引程序IDP也处理“对象”或者原始资源,以将与它们相关联的项目进行存储,从而集中于对查询的处理。
当用户U以搜索引擎SE而发起查询时,浏览索引ID以取回与所述查询的标准相匹配的项目。接着向用户U呈现这些项目,然后用户U可以选择下载或者不下载与所呈现的项目相对应的资源(例如,通过点击与项目相关联的超链接)。
例如通过图形建模的方法,也可以由其他计算机程序Prog(例如批量分析程序)使用网络抓取WCD。
因此,网络爬虫能够使得资源取回与处理和应用分离开。由从网络取回资源引起的时延不影响计算机程序Prog、SE的响应,也不影响索引ID的实时综合性。所述时延仅影响在某时刻可用的信息(即,下载资源)。更特别地,它们影响了在索引ID上可见的语料库(新的资源、删除的资源或更改的资源)的改变的时间。
这意味着应用不是直接依靠于由爬虫所执行的资源取回任务的调度。链接到这个任务的时延和时间约束仅会影响某时刻可用的信息量(也就是,下载资源)以及它的年限和新鲜度。
这还意味着网络爬虫可以构成从网络下载的数据上的元数据。更确切地说,单个索引字段可能需要在单一资源上未找到但是由多个资源的分析提供的信息。另外,Google公司的PageRank(网页排名)算法使用资源之间超链接的图形表示。建立这种图形需要对语料库的每个资源进行检查。
一般而言,索引的建立需要对相同资源的多次访问。在没有网络抓取的情况下,将几次感觉到从网络取回资源的时延。
并且,有时也需要部分或者完全地改变索引的结构。为了避免资源取回的时延,索引程序IDP可以使用网络抓取WCD中可用的下载资源,来替代从网络下载它们。
虽有这种分离,但网络抓取任务所涉及的时延仍然存在瓶颈,并且已经采取一些工作来减少将网络语料库内的改变反映在网络抓取上所需的时间,或者将该网络抓取首先集中在最相关的改变上。
然而,这些努力主要解决捕获网络语料库内的改变并且以最小的时延将它们反映在网络抓取中的问题。
它们不解决最初建立新的语料库的问题。
网络抓取保持非常慢的处理至少是由于以下原因:
-存在由“网络礼节(netiquette)”所授权的受限制的抓取频率:为了避免链接到网络爬虫的流量使网站过载,通常容许爬虫将以每2.5秒一次的较小频率访问相同的主机网站(或主机)。此外,网站可以强制执行它们自己的策略,并且甚至可以拒绝服务超过所容许的频率的爬虫。在这种情况中,可以暂时地或者最后地禁止爬虫再次访问网站。
-正如在早前所提到的,网站通常花费数百毫秒到秒来回答请求。
-抓取处理不是可并行化的。在资源上发现的URL通常被用于确定将访问的新资源。在这种情况中,不能并行地下载资源并且增加了时延。
另外,即使在狭窄领域中需要网络语料库,网络抓取处理也应当考虑非常大量的资源,包括与这个狭窄领域不相关的资源。其原因在于抓取处理是非选择性的一个处理:
-对于仅对网络的子集感兴趣的应用,因为不感兴趣的资源可能引用感兴趣的资源,所以仍然需要全部网络的抓取。换言之,如果过滤掉不感兴趣的资源,则可能会忽略许多感兴趣的资源。
-可仅在已经将资源抓取之后做出资源是否是感兴趣的决定,这是因为由资源的URL和引用其的资源所提供的信息少于由资源本身所提供的信息。
增加硬件资源以减少建立网络抓取所需的时间是可能的。然而,这种解决方案不是可扩展的并且是非常昂贵的。并且,由于在处理的任务之间存在依赖性,所以其在时间增益方面并不是完全满意的方案:即使具有无穷的处理资源,它也将花费数月来抓取网络的实质性部分。例如,这已在Nature第400卷,PP.,107-109,1999年公开的Steve Lawrence和C.Lee Giles的文章“Accessibility ofInformation on the Web”中进行了说明。
发明内容
本发明的目的是至少部分缓解以上描述的缺点。
更特别地,本发明目的在于以高效的方式来建立网络语料库,也就是,通过无需更多硬件资源而稳固这个建立。
采用一种用于建立网络语料库的计算机实现的方法来达到这个目的,所述方法包括以下步骤:
-由网络爬虫发送查询至参考网络抓取代理,这个查询包含资源的至少一个标识符,
-由网络爬虫接收来自参考网络抓取代理的响应,
-如果这个响应不包含由所述标识符所识别的资源,则通过网络爬虫从与所述标识符相对应的网站(WS)下载该资源,并且将该资源添加到网络语料库;以及,
-否则,如果该响应包含由所述标识符所识别的资源,则将这个资源添加到网络语料库。
优选的实施例包括下列特征的一个或多个:
-参考网络抓取代理依照参考网络抓取的内容建立响应。
-如果参考网络抓取代理确定资源没有包含在参考网络抓取中,则发起下载资源及将其添加到参考网络抓取。
依照一个实施例,本发明的方法还可以包括以下步骤:
-根据参考网络抓取建立参考索引,
-由网络爬虫发送索引查询至参考索引,
-由网络爬虫接收来自参考索引的响应,以及
-基于响应的内容完成发送查询至参考网络抓取代理的步骤。
这个实施例还可以包括下列特征的一个或多个:
-索引查询可以包含资源的标识符,并且如果响应包含与这个资源有关的索引信息,则可以依照索引信息,决定是否发送查询至参考网络抓取代理。
-索引查询包括查询标准,并且参考索引的响应包含标识符的列表。
-参考索引的响应另外包含与标识符对应的索引信息。
-索引查询包括标识符,并且参考索引发送包含一组标识符的响应,该一组标识符包含于由这个标识符所识别的资源中。
标识符可以是URL(统一资源定位符)。
本发明的另一目标是一种适用于建立网络语料库的网络爬虫。它具有多个部件用于:
-发送查询至参考网络抓取代理,这个查询包含资源的至少一个标识符,
-接收来自参考网络抓取代理的响应;
-如果该响应不包含由所述标识符所识别的资源,则从与所述标识符相对应的网站下载该资源,并且将该资源添加到网络语料库;以及,
-否则,如果该响应包含由所述标识符所识别的资源,则将这个资源添加到网络语料库。
根据作为非限制性示例给出的以下的本发明的实施例的描述,并参考下文列出的附图,本发明其它的特征和优点将变得显而易见。
附图说明
图1(已经描述)示出了可在其中配置网络爬虫的功能架构。
图2示出了能够配置本发明的功能架构。
图3图示了依照现有技术通常如何从网络取回资源。
图4和图5示出了图示本发明多个实施例和选择的两种时序。
具体实施方式
在图2所图示的本发明的实施例中,参考区域RA包含参考网络爬虫RWC、参考网络抓取RWCD和参考网络抓取代理RWCA。
这样的参考网络爬虫RWC可以是任何网络爬虫,包括依照现有技术的那些网络爬虫。词语“参考”没有给它带来任何其他特征,除了用作依照本发明的网络爬虫WC的“参考”。
参考区域RA具有功能或商业含义。
这可以涉及看作同一公司的前提或服务器,该同一公司将抓取服务提供给其他公司或提供给终端用户。作为一个示例,网络爬虫WC可以在该参考区域外部,并且使用由服务于参考区域RA的公司允许打开的接口,以访问参考网络爬虫代理RWCA。
网络爬虫WC和参考区域RA也可看作同一公司。在这种情况下,参考区域RA可以只具有功能含义,并且分离与每个网络爬虫WC、RWC相关联的区域。参考区域能够(但不是必需的)配置遗留网络爬虫程序。
还可以依照本发明配置参考网络爬虫RWC;那么,术语“参考”应当只辨别它们之间的功能关系。
依照这个实施例,参考区域RA还包括参考网络抓取代理RWCA。这个元件负责网络爬虫WC和参考网络抓取RWCD的接合。特别地,当需要时,它可以承担任何协议转换方面的职责。它接收由网络爬虫WC发送的查询,并且向其发回响应。这些响应是依照参考网络抓取RWCD的内容建立的。
从架构的观点而言,本发明只影响参考网络抓取代理RWCA到参考区域RA的添加。可以允许不修改参考区域的所有其他功能元件,并且完全符合现有技术的机制。
这个参考网络爬虫RWC可以如前所述地建立参考网络抓取RWCD。更具体地,它递归地从网络下载资源,并且通过分析下载的资源的内容而识别新的资源以进行下载。
这些下载的资源可以包含超链接,其包含资源的标识符。这些标识符通常是URL(统一资源定位符),例如,由IETF(因特网工程任务组)的RFC3986所规定的。
在下载资源是网页的情形中,标识符典型地采取嵌入HTML(超文本标记语言)的URL的形式。这种实施例的示例可以是:
<a href=”resource1”>link</a>
这种语言意味着在网页中显示词语“link(链接)”,相应于超链接进行加重。这种加重将显示给读者:他或她可以点击这个词语以访问“resource1”。<href>关键词以URL的形式引入该“resource1”的标识符。
因此,参考网络爬虫RWC可以解析下载的资源,以识别所有(或部分)的这些URL,并且将它们看作新的资源以进行访问。可以依照一些策略安排访问和/或只选择部分进行访问。
可以将下载的资源添加到参考网络抓取RWCD。
图4图示了在本发明实施例中涉及的元件之间的消息交换。
依照本发明的一个方面,网络爬虫WC发送查询M1至参考网络抓取代理RWCA。
这个查询M1至少包含资源的标识符。这个标识符可以是URL,并且该资源可以是任何类型的,包括网页、多媒体文件(视频、照片、音乐...)等。
在一般情形中,查询M1包含URL的列表。然而,为了简化,以下描述将仅基于查询中包含一个URL。从处理一个扩展到多个URL是简单的,因为不同元件可以依次简化地处理它们。
然后,参考网络抓取代理RWCA可以检查参考网络抓取RWCD,以便确定该URL是否与已经下载且添加到该参考网络抓取RWCD的资源对应。
在该第一情形中,假定发现了资源。然后,参考网络抓取代理RWCA可以将资源插入到响应M2,该响应M2被发回至网络爬虫WC。
当网络爬虫WC接收到这个响应M2时,它可以检查其内容。在这里,响应M2包含资源,并且可以假定:这个资源是由URL识别出的资源。然后,可以将该资源添加到网络语料库WCD。
在这里,可以看出,没有查询网络服务器,而是仅通过复制来自参考网络抓取RWCD的资源来执行网络语料库WCD的充实。这种机制有助于降低互联网的流量,并且显著地降低了建立网络语料库所需的时间,这是因为参考网络抓取的响应时间通常低于网站的响应时间。
在第二种情形中,网络爬虫WC发送第二查询M3至参考网络抓取代理RWCA。该第二查询包含另一资源的URL。
如前,参考网络抓取代理RWCA检查这个URL是否对应于已经下载且添加到这个参考网络抓取RWCD的资源。然而,这次假定迄今为止没有下载资源。
依照第一选择,参考网络抓取代理RWCA可以发回没有包含资源的响应M4。响应M4可以包含表示这种缺乏资源的状态指示。例如,这种状态指示可以是HTTP204状态(“没有内容”)。
当网络爬虫WC接收到这个响应M4时,可以检查其内容,并且确定该响应没有包含所需的资源和/或错误消息。
依照本发明的一个实施例,在这种情形中,网络爬虫WC可以发送另一查询至另一参考网络抓取代理(在图2中未示出)。网络爬虫WC可以使用若干个参考网络抓取代理(以及参考区域)。在这种实施例中,可以顺序地查询参考网络抓取代理,直到接收到包含资源的响应;或者可以并行地查询。并行选择在降低获得包含资源的响应的平均时间方面提供了优势,但是却增加了参考网络抓取代理的负荷。
如果接收到包含资源的响应,则当接收到响应M2时,网络爬虫WC可以像以前那样起作用。
如果网络爬虫WC还未接收到包含资源的任何响应(在这些情形中,已经查询多个或仅一个),这可以触发由网络爬虫WC从与URL对应的网站WS下载这个资源。
依照现有技术的机制,由网络爬虫执行知晓其URL的资源的下载。简单来说,该下载是发送请求M5至与URL对应的网站WS,并且从这个网站WS接收响应M6,其包含这个资源。
图3用更多细节示出了网络爬虫WC能够如何访问知晓其URL的网络的资源。
如同互联网的任意客户端,用一个(或多个)DNS(域名服务器)的地址来配置网络爬虫WC。
首先,发送请求MR1至这个DNS(或者DNS列表中的第一个),以URL作为参数。动态配置DNS,以将资源的URL与可以找到这个资源的网站的IP地址相关联。用消息MR2应答这个请求,其中消息MR2包含与所请求的URL相对应的IP地址的列表。
然后,网络爬虫WC可以发送如IETF的RFC2616所定义的HTTP(超文本传输协议)请求M5至由这个列表的IP地址之一所识别出的网站WS。这个请求典型地是GET请求,并且它包含URL。
与网站WS相关联的HTTP服务器发送响应M6至这个请求,该请求包含通过这个URL所识别出的资源。
然后,网络爬虫WC可以将这个资源添加到其网络语料库WCD。
依照第二选择,代替发回没有资源和/或错误指示的消息M4,参考网络抓取代理RWCA可以启动对所请求的资源的下载。
可以由参考网络抓取代理RWCA本身执行这个下载,或者将其插入资源列表中以由参考网络爬虫RWC进行下载。
在这些情形中,可以向网络爬虫WC发回一响应以通知:其查询正在处理,并且一旦资源从网站WS下载下来则可以期待包含资源的另一响应。这种附带条件的响应可以包含表示这种情况的状态信息。例如,这种状态信息可以是HTTP202状态。当接收到这种附带条件的响应时,网络爬虫可以等待,直到接收到全响应或者从网站WS下载资源本身。
在参考网站爬虫侧,接着,从与URL对应的网站WS下载资源,如前所解释的:它发送HTTP请求M7至网站,网站通过包含资源的响应M8进行应答。
可以将资源添加到参考网络抓取RWCD,或者不依照参考网络爬虫RWC的自身策略。这些策略超出了本发明的范围。
然后,参考网络抓取代理RWCA可以发送包含这个资源的响应M9至网络爬虫WC。然后,网络爬虫WC可以像在以上关于消息M2的接收所描述的情形中那样起作用。
这种第二选择比第一选择具有以下优势:使得参考网络爬虫RWC知晓其他方的查询。尤其在通过若干个网络爬虫WC使用参考网络抓取RWCD的情形中,这可以有助于得到指示来下载资源,以充实其自身的参考网络抓取RWC。
当参考网络抓取RWCD形成由更多具体的网络爬虫WC所使用的泛化网络语料库时,这将是特别有用的。由于细分商业主导者(niche businessplayer)专用,所以可以用更具体的内容进行充实。
在不将参考网络爬虫RWC和网络爬虫WC看作同一公司的情形中,这种行为在知识管理方面对双方都提供了优势。
依照本发明的一个实施例,发送至参考网络抓取代理RWCA的查询M1、M3可以包含除标识符(URL)之外的附加参数。特别地,它们可以包含期限约束,其指定从网络最后下载资源以来的最大时间。
如果最近较少下载在与URL对应的参考网络抓取RWCD中的资源,期限参数在查询M1、M3内,那么参考网络抓取代理可以认为在参考网络抓取RWCD中还未找到资源。然后,可以启动先前所述的任意选择,例如从网站WS下载,或者发回错误消息(也就是,行为可能类似于在参考网络抓取RWCD中没有包含资源)。
图5示出了本发明的另一实施例,其中,网络爬虫WC使用参考索引RID。术语“参考”仅意味着根据参考网络抓取RWCD建立这个索引并且其是参考区域RA的一部分。
依照现有技术已知的机制,索引程序使用参考网络抓取RWCD来建立该参考索引RID。参考索引内信息的内容和格式不在本发明的范围内。参考索引可以是现有技术的任何索引。
它可以是由活跃于本领域的公司所提供的索引,所述公司例如,Google、Microsoft或Exalead等。
在这里,参考索引RID应当被认为部分是信息储存库和处理并回答由客户端发送的查询所需的程序。
依照本发明的一个实施例,在发送查询至参考抓取代理RWCA之前,网络爬虫WC可以发送索引查询至参考索引RID。在这种实施例中,然后,可以基于与这些索引查询相关接收到的响应的内容,决定至参考网络抓取代理的查询的发送。
若干种选择都是可能的。
返回参照图5,依照第一选择,将包含一个(若干个)URL的索引查询M10发送至参考索引。
在第一情形中,参考索引RID不包含与所请求的URL有关的任何信息。然后,将响应M11发回到网络爬虫WC,以指示没有索引URL。
应当注意,由于从参考网络抓取RWCD获得参考索引,所以这意味着还未下载资源,以及还未将资源添加到这个参考网络抓取。
然后,网络爬虫WC可以从与这个URL相对应的网站WS下载由这个URL所识别的资源。将消息M12发送至网站WS,并且接收响应M13内的资源。
在第二情形中,参考索引RID包含相对于URL的索引信息。然后,它发送应答索引查询M14的响应M15,其包含可以是与URL相关的索引信息的全部或部分的信息(在一般情况下,仅传送索引信息的一部分)。
索引响应内的发送信息可以包括资源的描述:标记、关键词、信息字段,而且还包括资源的摘录或摘要版本。如前所述,对于网页,索引信息可以包括没有广告条幅、图像等的网页版本。对于视频资源,索引信息可以仅包括视频的文本描述等。
依照本发明的一个实施例,网络爬虫WC可以基于这个索引响应而对尝试将资源添加到网络语料库WCD的时机做出决定。
可以依照资源是否与网络爬虫WC打算建立的网络语料库WCD相关来做出这个决定。例如,如果网络爬虫WC正在建立与给定主题相关的网络语料库,则如果参考索引返回提示资源与这个主题不对应时,网络爬虫WC将不会希望将所述资源添加到这个网络语料库。
在根据索引响应,网络爬虫WC决定对相应资源的积极兴趣的情形中,如之前所述,它发送包含URL的查询M16至参考网络抓取代理RWCA。当它接收到包含资源的响应M17时,将资源添加到网络语料库WCD。
在根据索引响应,网络爬虫WC决定它对相应资源没有兴趣的情形中,处理可以在此结束,并且没有消息M16被发送至参考网络抓取代理RWCA。然后,网络爬虫可以处理另一URL。
依照另一选择,依照查询语言,发送索引查询M18至包含查询标准的参考索引RID。这种查询语言可以是复杂的或简单的(例如,与布尔连接器相链接的关键字的列表)。
当待建立的网络语料库是与给定主题相关的具体网络语料库时,这种选择是特别相关的。这些查询可以过滤与这个主题相关的资源。
参考索引RID可以通过发送与查询标准相匹配的信息来回答这种请求。更特别地,响应M19可以包含对应于与查询标准匹配的资源的URL的列表,或者包含与对应于URL的资源的索引信息相关联的这些URL的列表。
在第一情况中,网络爬虫WC会需要为接收到的列表包含的每一个URL发送查询M20。
在第二情况中,网络爬虫可以使用接收到的索引信息,以确定其是否对查询每个资源感兴趣。然后,它可以为接收到的列表的URL的每个、一部分或不为任意一个发送查询M20。它接收与所查询的URL相对应的响应M21。
另一选择是使得网络爬虫能够查询资源内包含的URL的列表,而不查询这个资源本身。
网络爬虫WC发送索引查询M22至包含URL和指示符的参考索引RID。
辨认这个指示符,参考索引RID将区分这个索引查询M22和例如先前所述的如索引查询M10、M14的“正常”索引查询。如前所述,参考索引RID将查看其是否包含与这个URL相关的索引信息。
在这种选择的优选实施例中,索引信息包含与由资源包含的URL(超链接)有关的信息。在建立参考索引RID时通过解析资源而取回这个信息。在这个实施例中,参考索引RID可以快速回答索引查询,而无需资源的任何处理或进一步解析。在找到这种索引信息的情况下,将发送包含这些URL(如果有的话)的响应M23。
然后,网络爬虫WC对任意类型的后续查询使用这些URL:查询由到参考网络抓取代理RWCA的这些URL所识别的资源,查询参考索引RID以获得另外的URL而不获得资源本身等。
在这个语料库对一个资源不感兴趣(与主题不相关等)但该资源还会包含到感兴趣的其他资源的超链接的情形中,这种类型的请求有助于避免对网络语料库WCD增加不必要的资源。
相同的网络爬虫可以以最有效的方式实现这些选择的一个或若干个,并且依照其算法使用它们来发现网络并建立网络语料库。
已经参考优选实施例描述了本发明。然而,在本发明范围内可以存在众多变化。

Claims (10)

1.一种用于建立网络语料库(WCD)的计算机实现方法,包括以下步骤:
-由网络爬虫(WC)发送查询至参考网络抓取代理(RWCA),所述查询包含资源的至少一个标识符,
-由所述网络爬虫(WC)接收来自所述参考网络抓取代理(RWCA)的响应;
-如果所述响应不包含由所述标识符所识别的资源,则通过所述网络爬虫(WC)从与所述标识符相对应的网站(WS)下载所述资源,并且将所述资源添加到所述网络语料库(WCD);以及,
-如果所述响应包含由所述标识符所识别的资源,则将所述资源添加到所述网络语料库(WCD)。
2.根据权利要求1所述的计算机实现方法,其中,所述参考网络抓取代理(RWCA)依照参考网络抓取(RWCD)的内容建立响应。
3.根据权利要求2所述的计算机实现方法,其中,如果所述参考网络抓取代理(RWCA)确定所述资源没有包含在所述参考网络抓取(RWCD)中,则将发起下载所述资源并添加到所述参考网络抓取(RWCD)。
4.根据权利要求2或3所述的计算机实现方法,还包括以下步骤:
-根据所述参考网络抓取(RWCD)建立参考索引(RID),
-由所述网络爬虫(WC)发送索引查询至所述参考索引(RID),
-由所述网络爬虫(WC)接收来自所述参考索引的响应,以及
-其中,基于所述响应的内容完成将所述查询发送至所述参考网络抓取代理(RWCA)。
5.根据前述权利要求之一所述的计算机实现方法,其中,所述索引查询包含资源的标识符,并且其中,如果所述响应包含与所述资源有关的索引信息,则依照所述索引信息,决定是否发送查询至所述参考网络抓取代理(RWCA)。
6.根据权利要求4所述的计算机实现方法,其中,所述索引查询包括查询标准,并且所述参考索引的所述响应包含标识符的列表。
7.根据权利要求6所述的计算机实现方法,其中,所述参考索引的所述响应另外包含与所述标识符对应的索引信息。
8.根据权利要求4所述的计算机实现方法,其中,所述索引查询包括标识符,并且其中,所述参考索引发送包含一组标识符的响应,所述一组标识符包含于由所述标识符所识别的资源中。
9.根据前述权利要求中任一项所述的计算机实现方法,其中,所述标识符是URL。
10.一种适用于建立网络语料库(WCD)的网络爬虫(WC),所述网络爬虫(WC)具有用于以下操作的部件:
-发送查询至参考网络抓取代理(RWCA),所述查询包含资源的至少一个标识符,
-接收来自所述参考网络抓取代理(RWCA)的响应;
-如果所述响应不包含由所述标识符所识别的资源,则从与所述标识符相对应的网站(WS)下载所述资源,并且将所述资源添加到所述网络语料库(WCD);以及,
-如果所述响应包含由所述标识符所识别的资源,则将所述资源添加到所述网络语料库(WCD)。
CN201310209210.7A 2012-04-12 2013-04-12 借助于参考网络抓取建立网络语料库 Active CN103377291B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP123054322 2012-04-12
EP12305432.2 2012-04-12
EP12305432.2A EP2650802B1 (en) 2012-04-12 2012-04-12 Building of a web corpus with the help of a reference web crawl

Publications (2)

Publication Number Publication Date
CN103377291A true CN103377291A (zh) 2013-10-30
CN103377291B CN103377291B (zh) 2019-09-17

Family

ID=46022143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310209210.7A Active CN103377291B (zh) 2012-04-12 2013-04-12 借助于参考网络抓取建立网络语料库

Country Status (6)

Country Link
US (1) US9529911B2 (zh)
EP (1) EP2650802B1 (zh)
JP (1) JP6254355B2 (zh)
KR (1) KR102054020B1 (zh)
CN (1) CN103377291B (zh)
CA (1) CA2812439C (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8560604B2 (en) 2009-10-08 2013-10-15 Hola Networks Ltd. System and method for providing faster and more efficient data communication
CN106919696B (zh) * 2017-03-07 2020-08-14 上海携程商务有限公司 Seo站点构建方法及seo请求的响应方法
LT3780557T (lt) 2019-02-25 2023-03-10 Bright Data Ltd. Turinio parsisiuntimo, naudojant url bandymų mechanizmą, sistema ir būdas
US11394799B2 (en) 2020-05-07 2022-07-19 Freeman Augustus Jackson Methods, systems, apparatuses, and devices for facilitating for generation of an interactive story based on non-interactive data

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101443751A (zh) * 2004-11-22 2009-05-27 特鲁维奥公司 用于应用爬取器的方法和装置
CN101971172A (zh) * 2005-08-29 2011-02-09 谷歌公司 移动站点地图
CN102402627A (zh) * 2011-12-31 2012-04-04 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185789A (ja) * 1997-09-10 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 分散検索装置
JP2002351873A (ja) * 2001-05-23 2002-12-06 Hitachi Ltd メタデータ管理システムおよび検索方法
US20080071830A1 (en) * 2006-09-14 2008-03-20 Bray Pike Method of indexing and streaming media files on a distributed network
US20090287684A1 (en) * 2008-05-14 2009-11-19 Bennett James D Historical internet
US8346755B1 (en) * 2010-05-04 2013-01-01 Google Inc. Iterative off-line rendering process

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101443751A (zh) * 2004-11-22 2009-05-27 特鲁维奥公司 用于应用爬取器的方法和装置
CN101971172A (zh) * 2005-08-29 2011-02-09 谷歌公司 移动站点地图
CN102402627A (zh) * 2011-12-31 2012-04-04 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MATT CUTTS: "《Crawl caching proxy》", 23 April 2006 *

Also Published As

Publication number Publication date
CA2812439C (en) 2020-09-15
JP6254355B2 (ja) 2017-12-27
CA2812439A1 (en) 2013-10-12
KR20130116032A (ko) 2013-10-22
KR102054020B1 (ko) 2019-12-09
CN103377291B (zh) 2019-09-17
EP2650802B1 (en) 2018-10-24
EP2650802A1 (en) 2013-10-16
US9529911B2 (en) 2016-12-27
US20130275406A1 (en) 2013-10-17
JP2013222463A (ja) 2013-10-28

Similar Documents

Publication Publication Date Title
CN102521251B (zh) 个性化搜索直达的方法、实现该方法的装置和搜索服务器
US7502994B2 (en) Web page link-tracking system
US9037500B2 (en) Method, medium, and system of generating a referral website URL using website listings in a cookie
JP5654605B2 (ja) 入口ウェブページへの外部参照と変換とを関連付けてオーガニックマーケティングキャンペーンの効果に関する情報を提供する方法、オーガニックマーケティングキャンペーンの価値を推定する方法
US7082428B1 (en) Systems and methods for collaborative searching
US8572100B2 (en) Method and system for recording search trails across one or more search engines in a communications network
US7620657B2 (en) Method and system for registering and retrieving production information
CN101957844B (zh) 一种在线应用系统及其实现方法
US20060288087A1 (en) Web-based method and system for providing content-driven service to internet users
US20080270412A1 (en) Tracking user clicks using ajax based beacons
CN104067274A (zh) 用于改进对搜索结果的访问的系统和方法
US20080097891A1 (en) Virtual Stock Market Service Based on Search Index
CN102203765A (zh) 在没有明确地提供的装置或用户识别信息的情况下唯一地识别网络分布式装置
CN103365865A (zh) 数据存储方法、数据下载方法及其装置
CN101616050B (zh) 总线系统
CN103377291A (zh) 借助于参考网络抓取建立网络语料库
CN110659414B (zh) 一种基于用户画像的个性化信息推送方法及用户端
CN102185830B (zh) 一种网络电视浏览器安全过滤的方法及系统
US20020052889A1 (en) Method for managing alterations of contents
Parvatikar et al. Analysis of user behavior through web usage mining
CN111159590A (zh) 一种基于前后端业务调用链路的串联方法及装置
CN103905434A (zh) 一种网络数据处理方法和装置
US20160378860A1 (en) Facilitating media content search
CN101763392A (zh) 检索架构和检索方法
CN100596143C (zh) Web页面流中数据共享的方法和客户端设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: DASSAULT SYS OF AMERICA

Free format text: FORMER OWNER: EXALEAD SA

Effective date: 20141223

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20141223

Address after: French Velizy - veraku Bligh

Applicant after: Dassault Sys of America

Address before: France

Applicant before: Exalead

SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant