CN102298609B

CN102298609B - 文档收集系统和方法

Info

Publication number: CN102298609B
Application number: CN201110168897.5A
Authority: CN
Inventors: 高永受; 韩承烨; 徐祯佑
Original assignee: NHN Corp
Current assignee: NHN Corp
Priority date: 2010-06-24
Filing date: 2011-06-17
Publication date: 2016-05-18
Anticipated expiration: 2031-06-17
Also published as: JP2012009024A; US20110320427A1; EP2400409A2; EP2400409A8; US8930343B2; EP2400409A3; KR20110140019A; CN102298609A; KR101120387B1; JP5959163B2

Abstract

本发明公开了一种文档收集系统和方法。文档收集系统包括：识别信息接收部，从至少一个网站接收发生更新的文档的识别信息；收集请求传递部，根据所述识别信息向所述网站传递所述文档的收集请求；更新信息收集部，收集响应于所述文档的收集请求从所述至少一个网站传送的文档的更新信息；搜索结果提供部，响应于从网站接收的搜索请求将从所述文档的更新信息提取的搜索结果提供给所述至少一个网站。根据文档收集系统，能够减少网络网站的负荷的同时提高收集的文档的准确度。

Description

文档收集系统和方法

技术领域

本发明涉及一种在网站上收集文档的系统和方法，更详细地讲，涉及一种在作为搜索对象的文档中收集发生更新的文档的文档收集系统和方法。

背景技术

一般来讲，搜索服务商利用网络机器人(webrobot)在存在于互联网上的多个网站中收集文档的内容。此时，网络机器人利用随机访问方法(randomaccessmethod)的爬行(crawling)技术来收集包含于文档中的内容。具体来讲，搜索服务商随机地提取种子网址(SeedURL)，基于提取的SeedURL通过网络机器人收集文档。因此，与文档各自的独有URL无关地收集文档。

当以上述的方式收集文档时，存在这种问题，即，由于网络机器人的随机访问，网络网站发生大的负荷。另外，由于网络机器人的随机收集，搜索服务商将与搜索请求无关的文档作为搜索结果来提供。即，因没有归一化的URL和文档内容，搜索服务商难以分析文档收集结果。

因此，需要避免给网络网站加重负荷的同时，能够收集正确的网络文档的系统和方法。

发明内容

本发明提供了一种通过识别信息来收集发生更新的文档，从而能够减少随机爬行引起的网站负荷的系统和方法。

本发明提供了一种内容提供者将与文档的更新关联的识别信息传递给搜索商，从而在搜索结果中仅能够反映内容提供者所期望的文档的系统和方法。

本发明提供了一种以XML形式收集发生更新的文档，从而标题、内容、标签(tag)等文档的结构能够正确地反映到搜索结果的系统和方法。

根据本发明的一实施例的一种文档收集系统包括：识别信息接收部，从至少一个网站接收发生更新的文档的识别信息；收集请求传递部，根据所述识别信息，向所述网站传递所述文档的收集请求；以及，更新信息收集部，收集响应于所述文档的收集请求从所述网站传送的文档的更新信息。

根据本发明的一实施例的一种文档收集方法包括步骤：从至少一个网站接收发生更新的文档的识别信息；根据所述识别信息向所述网站传递所述文档的收集请求；收集响应于所述文档的收集请求从所述网站传送的文档的更新信息。

根据本发明的一实施例，通过识别信息来收集发生更新的文档，所以能够减少随机爬行引起的网站的负荷。

根据本发明的一实施例，内容提供者将与文档的更新关联的识别信息传递给搜索商，所以仅内容提供者希望的文档能够被反映到搜索结果。

根据本发明的一实施例，以XML形式收集发生更新的文档，所以标题、内容、标签等文档的结果能够正确地反映到搜索结果。

附图说明

图1是用于说明根据本发明的一实施例的收集文档的过程的示图；

图2是示出根据本发明的一实施例的文档收集系统的详细结构的框图；

图3是示出本发明中使用的资源(resource)的结构的示图；

图4是示出根据本发明的一实施例的文档收集方法的流程图；

图5是根据本发明的另一实施例对收集的文档进行搜索的系统的一示例。

主要符号的说明

210为识别信息接收部，220为收集请求传递部，230为更新信息接收部，240为搜索结果提供部。

具体实施方式

以下，将参照附图详细描述本发明的实施例。根据本发明的一实施例的文档收集方法可由文档收集系统执行。

图1是用于说明根据本发明的一实施例的收集文档的过程的示图。

参照图1，当发生更新时，网站110将诸如因特网包搜索器(Ping，packetinternetgrope)协议的识别信息传送给文档收集系统120。例如，文档的更新表示包含于文档中的内容发生注册/修改/删除等。还有，Ping表示文档发生更新的一种信号。

据此，响应于所接收识别信息，文档收集系统120向网站110请求发生更新的文档。此时，文档收集系统120请求满足“AtomSyndicationFormat”的联合(syndication)文档。

响应于文档收集系统120的请求，网站110可将发生更新的文档传递给文档收集系统120。具体地讲，文档收集系统120可从网站110收集以XML结构构成的联合文档。

此时，网站110将与希望搜索到的文档关联的识别信息传送给文档收集系统120，从而可以防止不需要的文档被文档收集系统120收集。此时，当在希望搜索到的文档发生内容的注册、删除、修改等的更新时，网站110将诸如Ping的识别信息传送给文档收集系统120，从而可以减少随机爬行引起的负荷。

图2是示出根据本发明的一实施例的文档收集系统的详细结构的框图。

参照图2，文档收集系统120可包括识别信息接收部210、收集请求传递部220、更新信息收集部230和搜索结果提供部240。

识别信息接收部210可从网站110接收发生更新的文档的识别信息。在此，识别信息可包括与发生诸如内容的注册/修改/删除的更新的文档关联的Ping协议。

此时，识别信息接收部210可接收包括与发生更新的文档关联的链接信息的识别信息。在此，链接信息可包括表示发生更新的文档在网站110上的位置的URL。即，网站110通过包括链接信息的识别信息将希望收集到的文档发送给文档收集系统120。

收集请求传递部220可根据识别信息将文档的收集请求传递给网站110。具体地讲，收集请求传递部220使用包括在识别信息中的链接信息所指定的路径，向网站110传递收集请求。作为一示例，收集请求传递部220利用链接信息向网站110请求以XML形式构成的联合文档。

包括在作为识别信息的Ping协议中的链接信息可如下构成。

http://[DOMAIN]/atom.cgi？id＝[RESOURCE_ID]&type＝[RESOURCE_TYPE]&&start-time＝[START_TIME]&end-time＝[END_TIME]&max-entry＝[MAX_ENTRY]&page＝[PAGE]

作为一示例，可根据如下表1定义包括在链接信息中的参数。

[表1]

还有，表1中的id参数可根据AtomSyndicationFormat所倾向的“TagURI”表示。此时，TagURI中，如果channelID包括“-”分隔符，则TagURI可通过URL编码来表示。

TagURI可包括资源。作为一示例，资源可包括网站(site)、频道(channel)、文章(article)。按资源种类将实际资源链接以TagURI表现的示例如表2所示。

[表2]

还有，可根据id和type参数值确定收集请求传递部220请求的XML形式的联合(Syndication)文档所包括的资源的范围。作为一示例，可如表3所示的确定资源的范围。

[表3]

作为一示例，当识别信息接收部210接收的识别信息所包括的id是site，类型为channel时，收集请求传递部220将请求包括在网站110的所有频道的信息的联合文档的收集请求发送给网站110。此时，网站110可根据收集请求将网站110包括的所有频道的更新信息传送给文档收集系统120。

更新信息收集部230可收集响应于文档的收集请求而从网站110传送的文档的更新信息。

此时，更新信息收集部230从网站110收集的文档的更新信息可以是包括至少一个元素(element)的XML文档形式。具体地讲，更新信息收集部230通过从网站110接收以XML形式构成的联合文档来收集文档的更新信息。

另外，文档的更新信息可包括如下表4所示的元素。

[表4]

此时，可如表5所示地指定链接(link)元素的rel属性值。具体地讲，与联合文档关联的资源可根据表5指定的值而不同。

[表5]

还有，更新信息收集部230接收的作为XML形式的文档的联合文档的最小单位是由1个进入元素(entryelement)构成的进入(entry)文档。

此外，当元素为多个时，更新信息收集部230可通过将多个元素设置为元素组来进行收集。具体地讲，当一个联合文档包括多个进入条目时，更新信息收集部230可通过将多个进入条目分组为馈送(feed)元素来进行收集。此时，分组为馈送(feed)元素的文档的更新信息可以是馈送文档的形式。

作为一示例，当一个联合文档包括多个进入元素时，除进入元素之外的如表6所示的元素可附加地添加到馈送元素中。

[表6]

元素	说明
		atom:id	区分馈送文档的唯一ID，使用Tag URI形式
atom:title	馈送文档的简单说明
		atom:updated	馈送文件被更新的时间

另外，更新信息收集部230可基于识别信息所包括的分配期间来收集文档的更新信息。具体地讲，当在识别信息中包括表1的start-time和end-time时，更新信息收集部230可以仅从start-time设置的时间至end-time设置的时间内收集与识别信息对应的文档的更新信息。

以上的说明中描述了从网站110收集文档的更新信息的过程。文档收集系统120可将从网站110收集的文档的更新信息应用于搜索。

当从网站110接收到搜索请求时，搜索结果提供部240可将与搜索请求对应的搜索结果反馈到网站110。此时，搜索请求可包括关键词和基于关键词的选项。

具体地讲，搜索结果提供部240可从更新信息收集部230收集的文档的更新信息中提取与搜索请求对应的搜索结果并提供给网站110。此时，网站110可根据网站接口对从文档收集系统120接收的搜索结果进行渲染并显示。结果，文档收集系统120可以执行对于网站110的单独的搜索数据库(DB)的作用。

图3是示出本发明中使用的资源的结构的示图。

本发明中使用的资源可具有如图3所示的网站(site)310、频道(channel)320和文章(article)330的层级结构。

具体地讲，网站310可包括第一频道321、第二频道322至第N频道323的多个频道320。另外，每个频道可包括第一文章331、第二文章332至第N文章333的多个文章330。此时，文章对应于文档。

作为一示例，当识别信息的id为site，类型为article时，网站110可根据表3将包括在网站310的所有文章330的更新信息传送给文档收集系统120。结果，网站110可通过如表3所示的参数来确定文档的收集范围。

图4是示出根据本发明的一实施例的文档收集方法的流程图。

在步骤S410，识别信息接收部210从网站110接收发生更新的文档的识别信息。此时，识别信息可包括与文档关联的链接信息。

在步骤S420，收集请求传递部420可根据在步骤S410接收的识别信息向网站110传递文档的收集请求。此时，收集请求传递部220使用包括在识别信息中的链接信息所指定的路径来向网站110传递文档的收集请求。

在步骤S430，更新信息收集部230可收集响应于在步骤420中传送的文档的收集请求从网站110传送的文档的更新信息。此时，更新信息收集部230从网站110收集的文档的更新信息可以是包括至少一个元素的XML形式的文档。

步骤S410至步骤S430表示文档收集系统120从网站110收集文档的更新内容的过程。此后，步骤S440至步骤S460表示文档收集系统120基于文档的更新内容提供搜索结果的过程。

在步骤S440，搜索结果提供部240可从网站110接收搜索请求。

在步骤S450，搜索结果提供部240可使用在步骤S440接收的搜索请求从收集的文档的更新信息中提取搜索结果。

在步骤S460，搜索结果提供部240可将在步骤S450提取的搜索结果传送给网站110。此时，网站110根据网站接口对接收的搜索结果进行渲染并显示。

图5是根据本发明的另一实施例的搜索收集的文档的系统的一个示例。

如图5所示，根据本发明的文档收集系统120中，搜索收集的文档的更新信息的搜索服务器500可以单独的分离。

此时，文档收集系统120可使用识别信息接收部210、收集请求发送部220和更新信息收集部230从网站110收集文档并根据搜索服务器510的请求搜索收集的文档并将搜索结果提供给搜索服务器500。

当搜索服务器500从网站110接收搜索请求时，搜索服务器500向文档收集系统120传送搜索请求，从文档收集系统120接收与搜索请求对应的搜索结果并提供给网站110。

此时，搜索服务器500可包括网站接收部510、收集系统发送部520、收集系统接收部530和网站发送部540。

此时，网站接收部510可从网站110接收搜索请求，收集系统发送部520向文档收集系统120传送从网站110接收的搜索请求。

另外，收集系统接收部530接收与从文档收集系统120传送的搜索请求对应的搜索结果，网站发送部540将接收的搜索结果提供给网站110。

结果，根据本发明的一实施例，从网站仅收集对应于与文档的更新信息关联的识别信息的文档，从而能够防止不希望搜索到的文档被收集到文档收集系统。

虽然如上根据限定的实施例和附图说明了本发明，但是本发明不限于上述的实施例，本发明所属领域的具有普通知识的技术人员可从这种记载可以进行各种修改和变形。

所以，本发明的范围不局限于所描述的实施例，应由权利要求及权利要求的等同物来限定。

Claims

1.一种文档收集系统，其特征在于，包括：

识别信息接收部，从至少一个网站接收发生更新的文档的识别信息，其中，所述文档为所述至少一个网站发送的希望搜索到的文档；

收集请求传递部，根据所述识别信息向所述至少一个网站传递所述文档的收集请求；

更新信息收集部，收集响应于所述文档的收集请求从所述至少一个网站传送的文档的更新信息；

搜索结果提供部，响应于从网站接收的搜索请求，将从所述文档的更新信息中提取的搜索结果提供给所述网站。

2.如权利要求1所述的文档收集系统，其特征在于，所述识别信息接收部接收包括与所述文档关联的链接信息的识别信息。

3.如权利要求1所述的文档收集系统，其特征在于，所述更新信息收集部从所述至少一个网站以包括至少一个元素的XML形式收集所述文档的更新信息。

4.如权利要求3所述的文档收集系统，其特征在于，当所述元素为多个时，所述更新信息收集部将多个元素设置为元素组来进行收集。

5.如权利要求3所述的文档收集系统，其特征在于，所述更新信息收集部基于所述识别信息所包括的分配期间收集所述文档的更新信息。

6.如权利要求1所述的文档收集系统，其特征在于，所述至少一个网站根据网站接口对所述搜索结果进行渲染并进行显示。

7.一种搜索服务器，其特征在于，包括：

文档系统发送部，向从至少一个网站接收发生更新的文档的识别信息并根据所述识别信息收集文档的更新信息的文档收集系统传送从网站接收的搜索请求，其中，所述文档为所述至少一个网站发送的希望搜索到的文档；

文档系统接收部，从所述文档收集系统接收与所述搜索请求对应的搜索结果；

网站发送部，将所述搜索结果提供给所述至少一个网站。

8.如权利要求7所述的搜索服务器，其特征在于，所述至少一个网站根据网站接口对所述搜索结果进行渲染并显示。

9.如权利要求7所述的搜索服务器，其特征在于，所述文档收集系统从所述至少一个网站以包括至少一个元素的XML文档形式收集所述文档的更新信息。

10.如权利要求7所述的搜索服务器，其特征在于所述文档收集系统基于所述识别信息所包括的分配期间收集所述文档的更新信息。

11.一种文档收集方法，其特征在于，包括步骤：

从至少一个网站接收发生更新的文档的识别信息，其中，所述文档为所述至少一个网站发送的希望搜索到的文档；

根据所述识别信息向所述至少一个网站传递所述文档的收集请求；

收集响应于所述文档的收集请求从所述至少一个网站传送的文档的更新信息；以及

对应于从所述至少一个网站接收的搜索请求，将从所述文档的更新信息提取的搜索结果提供给所述至少一个网站。

12.如权利要求11所述的文档收集方法，其特征在于，所述接收识别信息的步骤是接收包括与所述文档关联的链接信息的识别信息。

13.如权利要求11所述的文档收集方法，其特征在于，所述收集更新信息的步骤是从所述至少一个网站以包括至少一个元素的XML文档形式收集所述文档的更新信息。

14.如权利要求13所述的文档收集方法，其特征在于，所述收集更新信息的步骤是当所述元素为多个时，将多个元素设置为元素组来进行收集。

15.如权利要求13所述的文档收集方法，其特征在于，所述收集更新信息的步骤是基于所述识别信息所包括的分配期间收集所述文档的更新信息。

16.如权利要求11所述的文档收集方法，其特征在于，还包括步骤：所述至少一个网站根据网站接口对所述搜索结果进行渲染并显示。

17.一种搜索方法，其特征在于，包括如下步骤：

向从至少一个网站接收发生更新的文档的识别信息并根据所述识别信息收集文档的更新信息的文档收集系统传送从网站接收的搜索请求，其中，所述文档为所述至少一个网站发送的希望搜索到的文档；

从所述文档收集系统接收与所述搜索请求对应的搜索结果；

将所述搜索结果提供给所述至少一个网站。

18.如权利要求17所述的搜索方法，其特征在于，所述至少一个网站根据所述网站接口对所述搜索结果进行渲染并显示。

19.如权利要求17所述的搜索方法，其特征在于，所述文档收集系统从所述至少一个网站以包括至少一个元素的XML文档形式收集所述文档的更新信息。

20.如权利要求17所述的搜索方法，其特征在于，基于所述识别信息所包括的分配期间收集所述文档的更新信息。