CN102298609B - 文档收集系统和方法 - Google Patents

文档收集系统和方法 Download PDF

Info

Publication number
CN102298609B
CN102298609B CN201110168897.5A CN201110168897A CN102298609B CN 102298609 B CN102298609 B CN 102298609B CN 201110168897 A CN201110168897 A CN 201110168897A CN 102298609 B CN102298609 B CN 102298609B
Authority
CN
China
Prior art keywords
document
website
lastest imformation
collection
identifying information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110168897.5A
Other languages
English (en)
Other versions
CN102298609A (zh
Inventor
高永受
韩承烨
徐祯佑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NHN Corp
Original Assignee
NHN Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NHN Corp filed Critical NHN Corp
Publication of CN102298609A publication Critical patent/CN102298609A/zh
Application granted granted Critical
Publication of CN102298609B publication Critical patent/CN102298609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/65Updates

Abstract

本发明公开了一种文档收集系统和方法。文档收集系统包括:识别信息接收部,从至少一个网站接收发生更新的文档的识别信息;收集请求传递部,根据所述识别信息向所述网站传递所述文档的收集请求;更新信息收集部,收集响应于所述文档的收集请求从所述至少一个网站传送的文档的更新信息;搜索结果提供部,响应于从网站接收的搜索请求将从所述文档的更新信息提取的搜索结果提供给所述至少一个网站。根据文档收集系统,能够减少网络网站的负荷的同时提高收集的文档的准确度。

Description

文档收集系统和方法
技术领域
本发明涉及一种在网站上收集文档的系统和方法,更详细地讲,涉及一种在作为搜索对象的文档中收集发生更新的文档的文档收集系统和方法。
背景技术
一般来讲,搜索服务商利用网络机器人(webrobot)在存在于互联网上的多个网站中收集文档的内容。此时,网络机器人利用随机访问方法(randomaccessmethod)的爬行(crawling)技术来收集包含于文档中的内容。具体来讲,搜索服务商随机地提取种子网址(SeedURL),基于提取的SeedURL通过网络机器人收集文档。因此,与文档各自的独有URL无关地收集文档。
当以上述的方式收集文档时,存在这种问题,即,由于网络机器人的随机访问,网络网站发生大的负荷。另外,由于网络机器人的随机收集,搜索服务商将与搜索请求无关的文档作为搜索结果来提供。即,因没有归一化的URL和文档内容,搜索服务商难以分析文档收集结果。
因此,需要避免给网络网站加重负荷的同时,能够收集正确的网络文档的系统和方法。
发明内容
本发明提供了一种通过识别信息来收集发生更新的文档,从而能够减少随机爬行引起的网站负荷的系统和方法。
本发明提供了一种内容提供者将与文档的更新关联的识别信息传递给搜索商,从而在搜索结果中仅能够反映内容提供者所期望的文档的系统和方法。
本发明提供了一种以XML形式收集发生更新的文档,从而标题、内容、标签(tag)等文档的结构能够正确地反映到搜索结果的系统和方法。
根据本发明的一实施例的一种文档收集系统包括:识别信息接收部,从至少一个网站接收发生更新的文档的识别信息;收集请求传递部,根据所述识别信息,向所述网站传递所述文档的收集请求;以及,更新信息收集部,收集响应于所述文档的收集请求从所述网站传送的文档的更新信息。
根据本发明的一实施例的一种文档收集方法包括步骤:从至少一个网站接收发生更新的文档的识别信息;根据所述识别信息向所述网站传递所述文档的收集请求;收集响应于所述文档的收集请求从所述网站传送的文档的更新信息。
根据本发明的一实施例,通过识别信息来收集发生更新的文档,所以能够减少随机爬行引起的网站的负荷。
根据本发明的一实施例,内容提供者将与文档的更新关联的识别信息传递给搜索商,所以仅内容提供者希望的文档能够被反映到搜索结果。
根据本发明的一实施例,以XML形式收集发生更新的文档,所以标题、内容、标签等文档的结果能够正确地反映到搜索结果。
附图说明
图1是用于说明根据本发明的一实施例的收集文档的过程的示图;
图2是示出根据本发明的一实施例的文档收集系统的详细结构的框图;
图3是示出本发明中使用的资源(resource)的结构的示图;
图4是示出根据本发明的一实施例的文档收集方法的流程图;
图5是根据本发明的另一实施例对收集的文档进行搜索的系统的一示例。
主要符号的说明
210为识别信息接收部,220为收集请求传递部,230为更新信息接收部,240为搜索结果提供部。
具体实施方式
以下,将参照附图详细描述本发明的实施例。根据本发明的一实施例的文档收集方法可由文档收集系统执行。
图1是用于说明根据本发明的一实施例的收集文档的过程的示图。
参照图1,当发生更新时,网站110将诸如因特网包搜索器(Ping,packetinternetgrope)协议的识别信息传送给文档收集系统120。例如,文档的更新表示包含于文档中的内容发生注册/修改/删除等。还有,Ping表示文档发生更新的一种信号。
据此,响应于所接收识别信息,文档收集系统120向网站110请求发生更新的文档。此时,文档收集系统120请求满足“AtomSyndicationFormat”的联合(syndication)文档。
响应于文档收集系统120的请求,网站110可将发生更新的文档传递给文档收集系统120。具体地讲,文档收集系统120可从网站110收集以XML结构构成的联合文档。
此时,网站110将与希望搜索到的文档关联的识别信息传送给文档收集系统120,从而可以防止不需要的文档被文档收集系统120收集。此时,当在希望搜索到的文档发生内容的注册、删除、修改等的更新时,网站110将诸如Ping的识别信息传送给文档收集系统120,从而可以减少随机爬行引起的负荷。
图2是示出根据本发明的一实施例的文档收集系统的详细结构的框图。
参照图2,文档收集系统120可包括识别信息接收部210、收集请求传递部220、更新信息收集部230和搜索结果提供部240。
识别信息接收部210可从网站110接收发生更新的文档的识别信息。在此,识别信息可包括与发生诸如内容的注册/修改/删除的更新的文档关联的Ping协议。
此时,识别信息接收部210可接收包括与发生更新的文档关联的链接信息的识别信息。在此,链接信息可包括表示发生更新的文档在网站110上的位置的URL。即,网站110通过包括链接信息的识别信息将希望收集到的文档发送给文档收集系统120。
收集请求传递部220可根据识别信息将文档的收集请求传递给网站110。具体地讲,收集请求传递部220使用包括在识别信息中的链接信息所指定的路径,向网站110传递收集请求。作为一示例,收集请求传递部220利用链接信息向网站110请求以XML形式构成的联合文档。
包括在作为识别信息的Ping协议中的链接信息可如下构成。
http://[DOMAIN]/atom.cgi?id=[RESOURCE_ID]&type=[RESOURCE_TYPE]&&start-time=[START_TIME]&end-time=[END_TIME]&max-entry=[MAX_ENTRY]&page=[PAGE]
作为一示例,可根据如下表1定义包括在链接信息中的参数。
[表1]
还有,表1中的id参数可根据AtomSyndicationFormat所倾向的“TagURI”表示。此时,TagURI中,如果channelID包括“-”分隔符,则TagURI可通过URL编码来表示。
TagURI可包括资源。作为一示例,资源可包括网站(site)、频道(channel)、文章(article)。按资源种类将实际资源链接以TagURI表现的示例如表2所示。
[表2]
还有,可根据id和type参数值确定收集请求传递部220请求的XML形式的联合(Syndication)文档所包括的资源的范围。作为一示例,可如表3所示的确定资源的范围。
[表3]
作为一示例,当识别信息接收部210接收的识别信息所包括的id是site,类型为channel时,收集请求传递部220将请求包括在网站110的所有频道的信息的联合文档的收集请求发送给网站110。此时,网站110可根据收集请求将网站110包括的所有频道的更新信息传送给文档收集系统120。
更新信息收集部230可收集响应于文档的收集请求而从网站110传送的文档的更新信息。
此时,更新信息收集部230从网站110收集的文档的更新信息可以是包括至少一个元素(element)的XML文档形式。具体地讲,更新信息收集部230通过从网站110接收以XML形式构成的联合文档来收集文档的更新信息。
另外,文档的更新信息可包括如下表4所示的元素。
[表4]
此时,可如表5所示地指定链接(link)元素的rel属性值。具体地讲,与联合文档关联的资源可根据表5指定的值而不同。
[表5]
还有,更新信息收集部230接收的作为XML形式的文档的联合文档的最小单位是由1个进入元素(entryelement)构成的进入(entry)文档。
此外,当元素为多个时,更新信息收集部230可通过将多个元素设置为元素组来进行收集。具体地讲,当一个联合文档包括多个进入条目时,更新信息收集部230可通过将多个进入条目分组为馈送(feed)元素来进行收集。此时,分组为馈送(feed)元素的文档的更新信息可以是馈送文档的形式。
作为一示例,当一个联合文档包括多个进入元素时,除进入元素之外的如表6所示的元素可附加地添加到馈送元素中。
[表6]
元素 说明
atom:id 区分馈送文档的唯一ID,使用Tag URI形式
atom:title 馈送文档的简单说明
atom:updated 馈送文件被更新的时间
另外,更新信息收集部230可基于识别信息所包括的分配期间来收集文档的更新信息。具体地讲,当在识别信息中包括表1的start-time和end-time时,更新信息收集部230可以仅从start-time设置的时间至end-time设置的时间内收集与识别信息对应的文档的更新信息。
以上的说明中描述了从网站110收集文档的更新信息的过程。文档收集系统120可将从网站110收集的文档的更新信息应用于搜索。
当从网站110接收到搜索请求时,搜索结果提供部240可将与搜索请求对应的搜索结果反馈到网站110。此时,搜索请求可包括关键词和基于关键词的选项。
具体地讲,搜索结果提供部240可从更新信息收集部230收集的文档的更新信息中提取与搜索请求对应的搜索结果并提供给网站110。此时,网站110可根据网站接口对从文档收集系统120接收的搜索结果进行渲染并显示。结果,文档收集系统120可以执行对于网站110的单独的搜索数据库(DB)的作用。
图3是示出本发明中使用的资源的结构的示图。
本发明中使用的资源可具有如图3所示的网站(site)310、频道(channel)320和文章(article)330的层级结构。
具体地讲,网站310可包括第一频道321、第二频道322至第N频道323的多个频道320。另外,每个频道可包括第一文章331、第二文章332至第N文章333的多个文章330。此时,文章对应于文档。
作为一示例,当识别信息的id为site,类型为article时,网站110可根据表3将包括在网站310的所有文章330的更新信息传送给文档收集系统120。结果,网站110可通过如表3所示的参数来确定文档的收集范围。
图4是示出根据本发明的一实施例的文档收集方法的流程图。
在步骤S410,识别信息接收部210从网站110接收发生更新的文档的识别信息。此时,识别信息可包括与文档关联的链接信息。
在步骤S420,收集请求传递部420可根据在步骤S410接收的识别信息向网站110传递文档的收集请求。此时,收集请求传递部220使用包括在识别信息中的链接信息所指定的路径来向网站110传递文档的收集请求。
在步骤S430,更新信息收集部230可收集响应于在步骤420中传送的文档的收集请求从网站110传送的文档的更新信息。此时,更新信息收集部230从网站110收集的文档的更新信息可以是包括至少一个元素的XML形式的文档。
步骤S410至步骤S430表示文档收集系统120从网站110收集文档的更新内容的过程。此后,步骤S440至步骤S460表示文档收集系统120基于文档的更新内容提供搜索结果的过程。
在步骤S440,搜索结果提供部240可从网站110接收搜索请求。
在步骤S450,搜索结果提供部240可使用在步骤S440接收的搜索请求从收集的文档的更新信息中提取搜索结果。
在步骤S460,搜索结果提供部240可将在步骤S450提取的搜索结果传送给网站110。此时,网站110根据网站接口对接收的搜索结果进行渲染并显示。
图5是根据本发明的另一实施例的搜索收集的文档的系统的一个示例。
如图5所示,根据本发明的文档收集系统120中,搜索收集的文档的更新信息的搜索服务器500可以单独的分离。
此时,文档收集系统120可使用识别信息接收部210、收集请求发送部220和更新信息收集部230从网站110收集文档并根据搜索服务器510的请求搜索收集的文档并将搜索结果提供给搜索服务器500。
当搜索服务器500从网站110接收搜索请求时,搜索服务器500向文档收集系统120传送搜索请求,从文档收集系统120接收与搜索请求对应的搜索结果并提供给网站110。
此时,搜索服务器500可包括网站接收部510、收集系统发送部520、收集系统接收部530和网站发送部540。
此时,网站接收部510可从网站110接收搜索请求,收集系统发送部520向文档收集系统120传送从网站110接收的搜索请求。
另外,收集系统接收部530接收与从文档收集系统120传送的搜索请求对应的搜索结果,网站发送部540将接收的搜索结果提供给网站110。
结果,根据本发明的一实施例,从网站仅收集对应于与文档的更新信息关联的识别信息的文档,从而能够防止不希望搜索到的文档被收集到文档收集系统。
虽然如上根据限定的实施例和附图说明了本发明,但是本发明不限于上述的实施例,本发明所属领域的具有普通知识的技术人员可从这种记载可以进行各种修改和变形。
所以,本发明的范围不局限于所描述的实施例,应由权利要求及权利要求的等同物来限定。

Claims (20)

1.一种文档收集系统,其特征在于,包括:
识别信息接收部,从至少一个网站接收发生更新的文档的识别信息,其中,所述文档为所述至少一个网站发送的希望搜索到的文档;
收集请求传递部,根据所述识别信息向所述至少一个网站传递所述文档的收集请求;
更新信息收集部,收集响应于所述文档的收集请求从所述至少一个网站传送的文档的更新信息;
搜索结果提供部,响应于从网站接收的搜索请求,将从所述文档的更新信息中提取的搜索结果提供给所述网站。
2.如权利要求1所述的文档收集系统,其特征在于,所述识别信息接收部接收包括与所述文档关联的链接信息的识别信息。
3.如权利要求1所述的文档收集系统,其特征在于,所述更新信息收集部从所述至少一个网站以包括至少一个元素的XML形式收集所述文档的更新信息。
4.如权利要求3所述的文档收集系统,其特征在于,当所述元素为多个时,所述更新信息收集部将多个元素设置为元素组来进行收集。
5.如权利要求3所述的文档收集系统,其特征在于,所述更新信息收集部基于所述识别信息所包括的分配期间收集所述文档的更新信息。
6.如权利要求1所述的文档收集系统,其特征在于,所述至少一个网站根据网站接口对所述搜索结果进行渲染并进行显示。
7.一种搜索服务器,其特征在于,包括:
文档系统发送部,向从至少一个网站接收发生更新的文档的识别信息并根据所述识别信息收集文档的更新信息的文档收集系统传送从网站接收的搜索请求,其中,所述文档为所述至少一个网站发送的希望搜索到的文档;
文档系统接收部,从所述文档收集系统接收与所述搜索请求对应的搜索结果;
网站发送部,将所述搜索结果提供给所述至少一个网站。
8.如权利要求7所述的搜索服务器,其特征在于,所述至少一个网站根据网站接口对所述搜索结果进行渲染并显示。
9.如权利要求7所述的搜索服务器,其特征在于,所述文档收集系统从所述至少一个网站以包括至少一个元素的XML文档形式收集所述文档的更新信息。
10.如权利要求7所述的搜索服务器,其特征在于所述文档收集系统基于所述识别信息所包括的分配期间收集所述文档的更新信息。
11.一种文档收集方法,其特征在于,包括步骤:
从至少一个网站接收发生更新的文档的识别信息,其中,所述文档为所述至少一个网站发送的希望搜索到的文档;
根据所述识别信息向所述至少一个网站传递所述文档的收集请求;
收集响应于所述文档的收集请求从所述至少一个网站传送的文档的更新信息;以及
对应于从所述至少一个网站接收的搜索请求,将从所述文档的更新信息提取的搜索结果提供给所述至少一个网站。
12.如权利要求11所述的文档收集方法,其特征在于,所述接收识别信息的步骤是接收包括与所述文档关联的链接信息的识别信息。
13.如权利要求11所述的文档收集方法,其特征在于,所述收集更新信息的步骤是从所述至少一个网站以包括至少一个元素的XML文档形式收集所述文档的更新信息。
14.如权利要求13所述的文档收集方法,其特征在于,所述收集更新信息的步骤是当所述元素为多个时,将多个元素设置为元素组来进行收集。
15.如权利要求13所述的文档收集方法,其特征在于,所述收集更新信息的步骤是基于所述识别信息所包括的分配期间收集所述文档的更新信息。
16.如权利要求11所述的文档收集方法,其特征在于,还包括步骤:所述至少一个网站根据网站接口对所述搜索结果进行渲染并显示。
17.一种搜索方法,其特征在于,包括如下步骤:
向从至少一个网站接收发生更新的文档的识别信息并根据所述识别信息收集文档的更新信息的文档收集系统传送从网站接收的搜索请求,其中,所述文档为所述至少一个网站发送的希望搜索到的文档;
从所述文档收集系统接收与所述搜索请求对应的搜索结果;
将所述搜索结果提供给所述至少一个网站。
18.如权利要求17所述的搜索方法,其特征在于,所述至少一个网站根据所述网站接口对所述搜索结果进行渲染并显示。
19.如权利要求17所述的搜索方法,其特征在于,所述文档收集系统从所述至少一个网站以包括至少一个元素的XML文档形式收集所述文档的更新信息。
20.如权利要求17所述的搜索方法,其特征在于,基于所述识别信息所包括的分配期间收集所述文档的更新信息。
CN201110168897.5A 2010-06-24 2011-06-17 文档收集系统和方法 Active CN102298609B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2010-0060185 2010-06-24
KR1020100060185A KR101120387B1 (ko) 2010-06-24 2010-06-24 문서 수집 시스템 및 방법

Publications (2)

Publication Number Publication Date
CN102298609A CN102298609A (zh) 2011-12-28
CN102298609B true CN102298609B (zh) 2016-05-18

Family

ID=44773211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110168897.5A Active CN102298609B (zh) 2010-06-24 2011-06-17 文档收集系统和方法

Country Status (5)

Country Link
US (1) US8930343B2 (zh)
EP (1) EP2400409A3 (zh)
JP (1) JP5959163B2 (zh)
KR (1) KR101120387B1 (zh)
CN (1) CN102298609B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8713368B2 (en) * 2012-08-22 2014-04-29 Sap Ag Methods for testing OData services
JP5823943B2 (ja) * 2012-10-10 2015-11-25 株式会社Ubic フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
US9112790B2 (en) * 2013-06-25 2015-08-18 Google Inc. Fabric network
US9973299B2 (en) 2014-10-14 2018-05-15 At&T Intellectual Property I, L.P. Method and apparatus for adjusting a mode of communication in a communication network
KR20230143753A (ko) 2022-04-06 2023-10-13 주식회사 하나금융티아이 텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 수집 장치 및 방법

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125823A (ja) * 1999-10-29 2001-05-11 Fujitsu Ltd プッシュサービスシステムおよびプッシュサービス処理方法
US9460414B2 (en) * 2001-08-28 2016-10-04 Eugene M. Lee Computer assisted and/or implemented process and system for annotating and/or linking documents and data, optionally in an intellectual property management system
US8676837B2 (en) * 2003-12-31 2014-03-18 Google Inc. Systems and methods for personalizing aggregated news content
US8086492B2 (en) * 2004-03-23 2011-12-27 Douglas Ashbaugh Frame-based network advertising and exchange therefor
US8131702B1 (en) * 2004-03-31 2012-03-06 Google Inc. Systems and methods for browsing historical content
JP2006099341A (ja) * 2004-09-29 2006-04-13 Bank Of Tokyo-Mitsubishi Ufj Ltd 更新履歴生成装置及びプログラム
WO2007123785A2 (en) * 2006-03-31 2007-11-01 Stt Weos, Inc. Method and apparatus for information exchange over a web based environment
JP4982139B2 (ja) * 2006-09-14 2012-07-25 ソフトバンクモバイル株式会社 中継サーバ及び情報提供システム
JP2008158589A (ja) * 2006-12-20 2008-07-10 Oki Electric Ind Co Ltd 更新情報通知装置及び更新情報通知プログラム
US8255382B2 (en) * 2007-06-20 2012-08-28 Boopsie, Inc. Dynamic menus for multi-prefix interactive mobile searches
JP2008257317A (ja) * 2007-04-02 2008-10-23 Fuji Xerox Co Ltd 情報処理装置、情報処理システム及びプログラム
JP2008262520A (ja) * 2007-04-11 2008-10-30 Dynasoft Corp インターネット情報検索システム及びその方法
US8255411B1 (en) * 2008-06-19 2012-08-28 Boopsie, Inc. Dynamic menus for multi-prefix interactive mobile searches
US9152942B2 (en) * 2007-08-03 2015-10-06 International Business Machines Corporation Using a group list server as a syndication feed server
CN101493828A (zh) * 2008-01-23 2009-07-29 孔雪 主动式自动订制web应用的系统和方法
US8768909B2 (en) * 2008-06-19 2014-07-01 Tropare, Inc. Dynamic menus for multi-prefix interactive mobile searches using predictive text to yield targeted advertisements
JP5163379B2 (ja) * 2008-09-11 2013-03-13 富士通株式会社 文書群検出方法及び文書群検出装置
JP5736638B2 (ja) * 2008-10-20 2015-06-17 株式会社リコー 画像処理装置
KR20100060185A (ko) 2008-11-27 2010-06-07 삼성전자주식회사 무선통신 시스템에서 간섭 제어 방법 및 장치
US8281233B2 (en) * 2009-06-15 2012-10-02 Microsoft Corporation Architecture to expose internal business data on a website
US20110173177A1 (en) * 2010-01-11 2011-07-14 Flavio Junqueira Sightful cache: efficient invalidation for search engine caching
US9116990B2 (en) * 2010-05-27 2015-08-25 Microsoft Technology Licensing, Llc Enhancing freshness of search results

Also Published As

Publication number Publication date
JP2012009024A (ja) 2012-01-12
KR101120387B1 (ko) 2012-03-09
US20110320427A1 (en) 2011-12-29
EP2400409A8 (en) 2013-08-07
EP2400409A2 (en) 2011-12-28
EP2400409A3 (en) 2012-12-26
KR20110140019A (ko) 2011-12-30
JP5959163B2 (ja) 2016-08-02
CN102298609A (zh) 2011-12-28
US8930343B2 (en) 2015-01-06

Similar Documents

Publication Publication Date Title
CN107273409B (zh) 一种网络数据采集、存储及处理方法及系统
KR101105970B1 (ko) 다양한 포맷의 컨텐츠를 관리하는 미디어 미디에이터 시스템 및 방법
CN102117320B (zh) 一种结构化数据搜索的方法和装置
CN102298609B (zh) 文档收集系统和方法
US20040172410A1 (en) Content management system
US8832069B2 (en) System and method for adding identity to web rank
US8306965B2 (en) System and method for generating expertise based search results
CN101681372A (zh) 将相关信息提供给本地网中的装置的用户的方法和系统
CN103051976A (zh) 一种cdn分发hls内容方法、系统及设备
CN101980529A (zh) 支持三网融合的视频服务系统
CN101046806B (zh) 搜索引擎系统和方法
CN103294824A (zh) 一种音乐聚合方法和系统
CN101339560B (zh) 一种搜索系列性数据的方法、装置及一种搜索引擎系统
CN103942268A (zh) 搜索与应用相结合的方法、设备以及应用接口
CN102063454A (zh) 一种搜索与应用相结合的方法和设备
CN105760550A (zh) 面向大数据存储中心的互联网数据采集系统和采集方法
CN103036746B (zh) 基于网络中间点的网页响应时间被动测量方法及系统
CN101344886B (zh) 提供媒体服务器的内容的设备、方法和系统
CN102819613B (zh) Rss信息分页抓取系统及方法
CN101777070B (zh) 一种互动数字电视节目搜索方法及查询服务器
CN105574037A (zh) 一种信息处理方法及装置
CN101763392A (zh) 检索架构和检索方法
EP2442235A1 (en) Method adapting to mobile search interface, search server and system thereof
CN103077218A (zh) 一种用于确定查询请求中查询序列的需求信息的方法与设备
CN112836087A (zh) 一种视频属性信息采集方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant