CN101546309B - 对计算机网络中的资源内容构建索引的方法和设备 - Google Patents

对计算机网络中的资源内容构建索引的方法和设备 Download PDF

Info

Publication number
CN101546309B
CN101546309B CN200810084087XA CN200810084087A CN101546309B CN 101546309 B CN101546309 B CN 101546309B CN 200810084087X A CN200810084087X A CN 200810084087XA CN 200810084087 A CN200810084087 A CN 200810084087A CN 101546309 B CN101546309 B CN 101546309B
Authority
CN
China
Prior art keywords
resource content
user
index
index codes
codes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200810084087XA
Other languages
English (en)
Other versions
CN101546309A (zh
Inventor
张岭
沈羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN200810084087XA priority Critical patent/CN101546309B/zh
Priority to US12/371,712 priority patent/US8359317B2/en
Publication of CN101546309A publication Critical patent/CN101546309A/zh
Application granted granted Critical
Publication of CN101546309B publication Critical patent/CN101546309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明公开了一种对计算机网络中的资源内容构建索引的方法和设备,所述计算机网络包括作为搜索引擎的计算机和作为资源内容站点并且存储有用户的资源内容的计算机,所述方法包括以下步骤:判断所述资源内容是否链接有由所述用户定义的索引代码,所述索引代码用于处理所述资源内容以获得描述所述资源内容的信息;如果判断所述资源内容链接有由所述用户定义的索引代码,则运行所述由用户定义的索引代码,以获得描述所述资源内容的信息作为索引结果。

Description

对计算机网络中的资源内容构建索引的方法和设备
技术领域
本发明涉及搜索引擎技术,尤其涉及对计算机网络中的资源内容构建索引的方法和设备。
背景技术
随着计算机和互联网技术的发展,搜索引擎已经成为Web客户机(例如计算机)使用者获取信息的重要方式。传统的搜索引擎例如有Inktomi,Excite,Lycos,Infoseek或FAST等,包括在互联网和搜索器服务器之间发送和接收信息包的路由器、索引服务器和网络服务器。搜索引擎使用搜索器(WEB爬虫或称为蜘蛛、机器人程序)定期地访问通过URL定位的网页资源,提取出其中的文本信息和其它相关网页属性,并储存该信息以使得索引服务器可以处理检索到的数据。所述索引服务器解析这些文档并通过应用索引算法创建文档索引,通常是根据每个文档所包含的关键字和其它属性来创建有优先级的索引。
网络服务器包括搜索程序,用于处理针对搜索引擎的搜索请求。一般,基于用户通过向搜索引擎提供的感兴趣的关键字,搜索程序根据用户提供的关键字通过索引器检索事先建立好的索引数据库来生成提供给用户的关键字结果页面,来帮助用户发现和访问新的“统一资源地址”(URL)。
为建立搜索索引,搜索引擎使用了不同种类的算法来创建索引。对于现代的搜索引擎,它们使用文档内容和链接信息(例如Google的网页级别)二者来建立索引。当搜索引擎试图找到对用户查询最相关的文档时,则对文档索引应用搜索算法然后返回匹配的结果。
因此基本上,搜索引擎将使用同样的算法集来为文档排序,而最重要的是,该算法是由搜索服务的提供者(例如Google或Yahoo)自己设计和维护的。对于Web内容的所有者而言,他们所能提供的仅仅是网页,而让搜索引擎根据网页的内容决定文档索引如何建立。
WO2001027793提出在各远程服务器设置代理程序,使用该代理程序为每个远程服务器所属的所有计算机产生搜索引擎更新信息,由此可以减小中心索引服务器的工作负荷并提高效率。根据WO2001027793,所述代理程序仍然使用由搜索服务提供者提供的、与搜索引擎侧完全相同的索引算法。
发明内容
考虑到现有技术的搜索引擎都是提供控制的索引,本发明的目的是提出一种不同的搜索引擎搜索引技术,旨在提供涉及用于Web搜索的“用户贡献的索引”。具体地,本发明利用了由用户自定义的索引算法,以期提高索引质量和搜索质量。
根据本发明的一个方面,一种用于对计算机网络中的资源内容构建索引的方法,所述计算机网络包括作为搜索引擎的计算机和作为资源内容站点并且存储有用户的资源内容的计算机,
所述方法包括以下步骤:
判断所述资源内容是否链接有由所述用户定义的索引代码,所述索引代码用于处理所述资源内容以获得描述所述资源内容的信息;和
如果判断所述资源内容链接有由所述用户定义的索引代码,则运行所述由用户定义的索引代码,以获得描述所述资源内容的信息作为索引结果。
如果判断所述资源内容未链接有所述用户定义的索引代码,则使用预定的索引器(即由搜索服务提供者提供的索引算法)对所述资源内容构建索引,这种情况下则与传统的在所述搜索引擎侧或资源内容站点侧进行的受控索引相似。
当本发明的方法在搜索引擎侧进行的情况下,所述方法还包括:在判断所述资源内容是否链接有所述用户定义的索引代码的步骤之前,将所述资源内容及其链接的相关信息下载到所述搜索引擎。
优选地,所述用户定义的索引代码一般由脚本文件来实现,相应地运行所述用户定义的索引代码的步骤是通过调用脚本引擎实现的。
判断所述资源内容是否链接有所述用户定义的索引代码的步骤是通过解析所述资源内容并验证所述资源内容链接的相关信息而实现的。
另外,当本发明的方法在资源内容站点侧进行的情况下,需要预先在资源内容站点侧判断对所述资源内容的访问是来自所述搜索引擎的搜索器的访问还是一般浏览者的访问;如果是来自所述搜索引擎的搜索器的访问,则进一步执行所述判断资源内容是否链接有所述用户定义的索引代码的步骤。
所述用户定义的索引代码描述了所述用户对所述资源内容中的索引项的自定义权重,并且所述索引项也可由所述用户选择。优选地,所述用户定义的索引代码是由用户使用所述资源内容的内容和/或组织作为索引项并对所述索引项赋予权重值而实现的。
为方便用户完成自定义的索引代码,可允许用户基于代码模板来完成索引代码。所述代码模板对应于所述资源内容的内容模板。
根据本发明的另一个方面,一种用于对计算机网络中的资源内容构建索引的设备,所述计算机网络包括作为搜索引擎的计算机和作为资源内容站点并且存储有用户的资源内容的计算机,所述设备设置在所述搜索引擎侧并包括:
判断装置,被配置成接收所述搜索引擎的索引器下载的所述资源内容及其链接的相关信息,并判断所述资源内容链接的相关信息是否包含由用户定义的索引代码,所述索引代码用于处理所述资源内容以获得描述所述资源内容的信息;和
解释器,被配置成运行所述用户定义的索引代码,以获得描述所述资源内容的信息作为索引结果。
所述设备还包括被配置成保存所述解释器的索引结果的索引数据库。
所述设备还包括预定的索引器,该预定的索引器被配置成:如果所述判断装置判断所述资源内容未链接有所述用户定义的索引代码,对所述资源内容构建索引。
优选地,所述用户定义的索引代码由脚本文件来实现,相应地所述解释器是脚本引擎。
根据本发明的再一个方面,用于对计算机网络中的资源内容构建索引的设备设置在所述资源内容站点侧,相应地其判断装置被配置成判断所述资源内容链接的相关信息是否包含由用户定义的索引代码,而其解释器被配置成运行所述用户定义的索引代码,以获得描述所述资源内容的信息作为供所述搜索引擎下载的索引结果。
所述判断装置还被配置成判断对所述资源内容的访问是来自所述搜索引擎的搜索器的访问还是一般浏览者的访问,这样仅仅响应于来自所述搜索引擎的搜索器的访问,所述判断装置执行所述判断资源内容是否链接有所述用户定义的索引代码,减小了资源内容站点侧的开销。
本发明可以应用于因特网和被管理的网络环境。由于用户或内容所有者比其他任何人更好地理解文档(内容,版面设计,组织等各索引项),本发明的“用户贡献的索引”允许每个用户或内容所有者基于感兴趣的索引项来提供最佳描述文档的索引代码(即索引算法),因此本发明的“用户贡献的索引”可更有效地有助于提高索引质量,由此也提高了搜索质量。尤其在被管理的网络环境中,由于内容所有者提供的索引代码更值得信赖,因此本发明更优选地应用于被管理的网络环境(如内网)。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。
图1是示出可实现本发明的分布式数据处理系统的框图。
图2是应用了本发明第一实施例的索引构建设备的系统的框图。
图3示出了根据本发明第一实施例的索引构建方法的流程图。
图4示出了根据本发明第三实施例的索引构建方法的流程图。
具体实施方式
下面参照附图来说明本发明的实施例。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
系统体系
现在参考附图,特别是图1,描述了可实现本发明的分布式数据处理系统的框图。分布式数据处理系统100是可实现本发明的计算机网络。分布式数据处理系统100包含网络102,网络102是用于在不同的设备和分布式数据处理系统100内连接到一起的计算机之间提供通信链接的媒介。
在所描述的例子中,服务器104与存储器106一起连接到网络102。此外,例如工作站、个人计算机、手机、PDA等的客户端108、110和112也被连接到网络102。在所描述的例子中,服务器104向客户端108、110和112提供如引导文件的数据、操作系统以及应用程序。分布式数据处理系统100可包括另外的服务器、客户端以及其它未显示的设备。在所描述的例子中,分布式数据处理系统100是因特网,网络102表示对使用TCP/IP协议套件来彼此通信的网络以及网关的集合。当然,分布式数据处理系统100还可被实现为不同类型的网络。
企图将图1作为例子,而不是作为本发明所述过程的结构限制。在不偏离本发明精神和范围的条件下,可对图1所示系统作出许多更改。
本发明可实现为如图1所示的服务器104的数据处理系统。该数据处理系统可以是包括连接到系统总线的多个处理器的对称对处理器(SMP)系统。亦可使用单处理器系统。本发明还可实现为图1中客户端计算机的数据处理系统。
构建索引的方法和设备
根据本发明公开了一种对计算机网络中的资源内容构建索引的方法,所述计算机网络包括作为搜索引擎的计算机和作为资源内容站点并且存储有用户的资源内容的计算机,所述方法包括以下步骤:判断所述资源内容是否链接有由所述用户定义的索引代码,所述索引代码用于处理所述资源内容以获得描述所述资源内容的信息;如果判断所述资源内容链接有由所述用户定义的索引代码,则运行所述由用户定义的索引代码,以获得描述所述资源内容的信息作为索引结果。本发明的方法可以在搜索引擎侧或在资源内容站点一侧。
相应地,本发明的用于对计算机网络中的资源内容构建索引的设备,包括:判断装置,被配置成判断所述资源内容链接的相关信息是否包含由用户定义的索引代码;和解释器,被配置成运行所述用户定义的索引代码,以获得描述所述资源内容的信息作为索引结果。
第一实施例
图2是应用了根据本发明第一实施例的索引构建设备的系统框图,包括资源内容站点210、搜索器220、计算机网络230、索引构建设备240、索引数据库250和检索器260。在第一实施例中,索引构建设备240设置在搜索引擎一侧,即与搜索器220、索引数据库250和检索器260一起构成搜索引擎,该索引构建设备可以设置在搜索引擎服务器中或者搜索引擎的索引服务器中。
至少一个资源内容站点210存储有资源内容,该资源内容可以是HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息等各种信息,在本实施例中以网页文件为例。在该网页文件中嵌入了各种链接的相关信息,在本实施例中以脚本(Script)文件为例,该脚本文件可以包含用户定义的用于实现索引算法的索引代码以及其它脚本。该索引代码可以由JavaScript、VBScript或搜索引擎服务器侧上的Script引擎所支持的任何其他Script语言编程,在本实施例以JavaScript为例。
网页文件所链接的索引代码实现了针对包含该索引代码的网页文件的索引算法。例如wiki页的网页可以通过使用如下的调用代码来嵌入由用户定义的JavaScript索引代码:
            <script type=”text/javascript”
src=”/wiki/pages/indexer/wiki-indexer.js”></script>
在以上的代码中script type=”text/javascript”表示采用javascript脚本语言,src=”/wiki/pages/indexer/wiki-indexer.js”></script>中列出了脚本文件名(wiki-indexer.js)及地址(服务器上的目录/wiki/pages/indexer/),表示调用了该wiki-indexer.js脚本文件。
用户定义的索引代码的功能与传统索引器的相同,都是用于处理网页文件以获得描述网页文件的信息,特别是用于在执行时解析由搜索器搜索到的网页信息,从中抽取出索引项,生成表示文档以及生成文档库的索引表。所不同的是,由于用户或者可以说是资源内容所有者比其他任何人更好地理解资源内容(网页文件的内容,版面设计,组织),因此根据本发明,用户定义的索引代码允许用户自己选择对资源内容的索引项并且自己定义对所选择索引项的权重。这样本发明的“用户定义的索引”可更有效地提高索引质量,由此也提高了搜索质量。
例如,通常使用的索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等。用户定义的索引代码允许用户优选地基于内容和/或组织方面的内容索引项设计索引算法,最佳地描述文档。用户可以通过对其中的某些索引项赋予较高或较低权重来完成其索引算法。
在一个最优实施例中,用户可以选择例如段落、重点、章节等内容组织作为索引项,通过在脚本文件的索引代码中加大某个段落、某个重点、某个章节的权重,表示该索引项对文档的区分度同时有助于在执行时计算查询结果的相关度,从而最佳地描述文档。这样,在随后执行该脚本文件时,其中的索引代码将解析该网页源文件,识别经预定义的章节,并赋予那些区域的文本以较高或较低的索引值。
为方便用户或者内容所有者设计出以上所述的基于JavaScript的索引代码,用户或者内容所有者可以首先基于内容模板创建代码模板,或者也可以为用户或内容所有者提供各种类型的代码模板,由用户或内容所有者对感兴趣索引项的权重赋值或者仅对特定索引项的权重赋值。每个代码模板处理不同的网页(例如HTML)版面设计和内容。可以对同类型模板的网页使用单一的索引代码,也可以根据对象的内容个性化设计索引代码,本领域普通技术人员基于以上描述完全可以设计出个性化的索引代码或者针对各类型内容模板的代码模板。
搜索引擎的搜索器(也称为网络爬虫)220访问所述资源内容站点210的网页文件时,搜索器220依据网页上的URL链接下载网页文件及其链接的脚本文件,并发送回搜索引擎侧。
搜索引擎包括搜索器220、索引构建设备240、索引数据库250和检索器260。可替换地,也可以将索引数据库250并入索引构建设备240中。
索引构建设备240包括判断装置241、解释器242以及预定索引器243。以下结合涉及本发明第一实施例的索引构建方法的图3对第一实施例的索引构建设备240作详细说明。
步骤S301开始,在步骤S302搜索引擎的搜索器220下载了资源内容(在本实施例中为网页文件)和链接的相关信息(在本实施例中为脚本文件)之后,由索引构建设备24的判断装置241解析所下载的网页文件,并判断网页文件是否链接有由所述用户定义的索引代码(即本实施例中的JavaScript代码)(步骤S303)。如果在步骤S303判断装置241判断网页文件链接有由所述用户定义的索引代码,则由解释器242运行由用户定义的索引代码(步骤S304),以获得描述所述资源内容的信息作为索引结果,将其保存在搜索引擎的索引数据库250中(步骤S306)并结束流程处理(步骤S307)。
具体地,为了判断嵌入的脚本文件是否包含了索引代码,索引构建设备240的判断装置241被配置成用于验证脚本文件中的代码,例如通过要求用户定义的索引代码在设计之后满足统一的规范(如命名的规范),则判断装置241验证下载网页中脚本文件的代码,识别其中的索引代码,并调用解释器242来运行识别到的索引代码。
解释器242(在本实施例中针对JavaScript形式的索引代码是脚本引擎),用于解释执行JavaScript代码中的索引代码,将其编译成计算机能执行的机器代码,例如可以是Mozilla Rhino解释器。解释器242被调用后解释执行索引代码,打开该索引代码相关的网页文件并进行解析,识别网页文件的各部分并按照用户定义的权重抽取出索引项,产生表示文档以及生成文档库的索引表。这样脚本文件中索引代码的输出结果就是针对该网页文件的文档索引。该文档索引将被储存在索引数据库250中。
如果在步骤S303判断装置241在所下载的网页文件中未查找到索引代码或者甚至在所下载的网页文件中都未查找到任何嵌入的JavaScript代码,则索引构建设备240将使用默认的索引算法(预定的索引器243)来索引该网页文件(步骤S305),并将索引结果保存在索引数据库250中(步骤S306)。
在此预定的索引器243提供控制的索引,优选地设置在索引构建设备240中,但是应当理解预定索引器243并非必须的,因为本发明可以设计成不对未链接有用户定义索引代码的资源内容构建索引;另外预定的索引器还可以不设置在索引构建设备240中而单独地设置在搜索引擎服务器中或者搜索引擎的索引服务器中。
针对搜索引擎的搜索请求。搜索引擎服务器的搜索器260将根据用户提供的关键字检索事先建立好的索引数据库250,进行文档与查询的相关度评价,对将要输出的结果进行排序,生成提供给用户的关键字结果页面。
以上介绍了本发明的索引构建方法应用于因特网的情况,用于替代受控的搜索引擎索引技术,本发明的索引构建方法充分利用了用户或内容所有者对资源内容的了解,按照用户定义的权重抽取出索引项,提高了索引质量和搜索质量。
第二实施例
以上第一实施例介绍了本发明的索引构建方法应用于因特网的情况,本发明的索引构建方法还可应用于被管理的网络环境(例如内网)中。在被管理的网络环境(例如内网)中的处理步骤与第一实施例中的相同。
在内网中,资源内容(例如Web文档)通常不像因特网那样被链接和引用,其中大部分文档为部门、业务单位所有并且是自包含的:少数指向其他部门文档的向内链接和少数来自其他部门文档的向外链接。因此与因特网相比,Web链接信息在内网搜索中帮助较小,而Web内容在搜索排序中起最重要的作用。并且由于缺乏链接信息,传统的内网搜索常常无法提供与基于因特网的Web搜索一样的搜索质量。
因此本发明的索引构建方法应用于内网索引,替换目前的内网搜索引擎索引器,可以取得更好的效果。
进一步,考虑到因特网中存在试图调节排序结果的排名作弊的情况,在被管理的内网中用户或内容所有者提供的索引代码要比因特网中一般用户提供的索引代码更值得信赖,因此本发明的“用户贡献的索引”在被管理的网络环境中可更有效地有助于提高索引质量和搜索质量。
另外,一般内网的内容均经过良好的组织,因此本发明的“用户贡献的索引”可通过提供规范的索引模板实现索引,来有利地提高索引和搜索质量。
第三实施例
以上第一和第二实施例公开了在搜索引擎侧运行用户定义的索引代码产生索引结果的技术方案,本发明的实现并不限于此。本发明还可在用户侧即资源内容站点210运行包含用户定义的索引代码的脚本文件。图4示出了根据本发明第三实施例的索引构建方法的流程图。
从步骤S401开始,在资源内容站点210准备资源内容链接的脚本文件之后,资源内容站点210需要通过判断搜索器的请求、其报头或者其它识别搜索器的机制来判断未知的访问是否是搜索器的访问、还是一般浏览者的访问(步骤S402)。
如果是搜索器的访问则首先判断资源内容链接的相关信息(如脚本文件)中是否有由用户定义的索引代码(步骤S403),如果有则通过调用资源内容站点210的脚本引擎来运行用户定义的索引代码(步骤S404),将索引代码运行的输出结果作为索引结果由搜索器下载到所述搜索引擎的索引数据库250中(步骤S406),并结束流程处理(步骤S407)。由此,可以减轻搜索引擎侧中心的工作负荷并提高效率。
如果在步骤S403的判断结果为“否”,则可以在搜索引擎侧或者甚至在资源内容站点210使用预定的索引器对资源内容创建索引(步骤S405),在资源内容站点使用预定的索引器可参考WO2001027793,在此不作赘述。
为减小用户侧的资源开销,亦可以在资源内容站点210侧第一次独立地运行用户定义的索引代码之后或者在第一次响应搜索器的访问运行用户定义的索引代码之后,将索引结果记录在资源内容站点210的存储器中,以便针对之后的搜索器访问提供相同的索引结果。如果资源内容进行了更新,则相应地执行更新后的资源内容的索引代码并更新索引结果。
相应地,实现第三实施例的索引构建设备也设置在所述资源内容站点侧,并类似地包括:判断装置,被配置成判断来自搜索引擎搜索器的访问并且判断资源内容链接的相关信息是否包含了由用户定义的索引代码;以及解释器,被配置成运行用户定义的索引代码,以获得描述资源内容的信息作为供所述搜索引擎的搜索器下载的索引结果。
在第三实施例中由于在用户侧即资源内容站点210运行用户定义的索引代码而用户侧通常配置有脚本引擎,因此,在搜索引擎侧无须设置解释器242及相应的接口组件,就此而言整个系统的开销会变小。
其它实施例
对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算设备(包括处理器、存储介质等)或者计算设备的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的,因此在这里省略了详细说明。
因此,基于上述理解,本发明的目的还可以通过在任何信息处理设备上运行一个程序或者一组程序来实现。所述信息处理设备可以是公知的通用设备。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者设备的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质,因此也没有必要在此对各种存储介质一一列举。
在本发明的设备和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上描述了本发明的优选实施方式。本领域的普通技术人员知道,本发明的保护范围不限于这里所公开的具体细节,而可以具有在本发明的精神实质范围内的各种变化和等效方案。

Claims (26)

1.一种用于对计算机网络中的资源内容构建索引的方法,所述计算机网络包括作为搜索引擎的计算机和作为资源内容站点并且存储有用户的资源内容的计算机,
所述方法包括以下步骤:
判断所述资源内容是否链接有由所述用户定义的索引代码,所述索引代码用于处理所述资源内容以获得描述所述资源内容的信息;和
如果判断所述资源内容链接有由所述用户定义的索引代码,则运行所述由用户定义的索引代码,以获得描述所述资源内容的信息作为索引结果,
其中,所述用户为所述资源内容的提供者。
2.根据权利要求1所述的方法,其中还包括:将所述用户定义的索引代码运行所获得的索引结果保存在所述搜索引擎的索引数据库中。
3.根据权利要求1所述的方法,其中,如果判断所述资源内容未链接有所述用户定义的索引代码,则使用预定的索引器对所述资源内容构建索引。
4.根据权利要求1所述的方法,其中,判断所述资源内容是否链接有所述用户定义的索引代码以及运行所述用户定义的索引代码的步骤都是在所述搜索引擎侧进行的,
所述方法还包括:在判断所述资源内容是否链接有所述用户定义的索引代码的步骤之前,将所述资源内容及其链接的相关信息下载到所述搜索引擎。
5.根据权利要求4所述的方法,其中,所述用户定义的索引代码由脚本文件来实现,
运行所述用户定义的索引代码的步骤是通过调用脚本引擎实现的。
6.根据权利要求4所述的方法,其中,判断所述资源内容是否链接有所述用户定义的索引代码的步骤是通过解析所述资源内容并验证所述资源内容链接的相关信息而实现的。
7.根据权利要求1所述的方法,其中,判断所述资源内容是否链接有所述用户定义的索引代码以及运行所述用户定义的索引代码的步骤都是在所述资源内容站点侧进行的。
8.根据权利要求7所述的方法,其中还包括:在所述资源内容站点侧判断对所述资源内容的访问是来自所述搜索引擎的搜索器的访问还是一般浏览者的访问;如果是来自所述搜索引擎的搜索器的访问,则进一步执行所述判断资源内容是否链接有所述用户定义的索引代码的步骤。
9.根据权利要求1所述的方法,其中,所述用户定义的索引代码描述了所述用户对所述资源内容中的索引项的自定义权重。
10.根据权利要求9所述的方法,其中,所述索引项是由所述用户选择的。
11.根据权利要求1所述的方法,其中,所述用户定义的索引代码是由用户使用所述资源内容的内容和/或组织作为索引项并对所述索引项赋予权重值而实现的。
12.根据权利要求1所述的方法,其中,所述用户定义的索引代码是基于代码模板完成的,所述代码模板对应于所述资源内容的内容模板。
13.根据权利要求1所述的方法,其中,所述用户定义的索引代码由脚本文件来实现。
14.根据权利要求1所述的方法,其中,所述计算机网络是被管理的网络环境。
15.一种用于对计算机网络中的资源内容构建索引的设备,所述计算机网络包括作为搜索引擎的计算机和作为资源内容站点并且存储有用户的资源内容的计算机,所述设备设置在所述搜索引擎侧并包括:
判断装置,被配置成接收所述搜索引擎的索引器下载的所述资源内容及其链接的相关信息,并判断所述资源内容链接的相关信息是否包含由用户定义的索引代码,所述索引代码用于处理所述资源内容以获得描述所述资源内容的信息;和
解释器,被配置成如果判断所述资源内容链接有由所述用户定义的索引代码,则运行所述用户定义的索引代码,以获得描述所述资源内容的信息作为索引结果,
其中,所述用户为所述资源内容的提供者。
16.根据权利要求15所述的设备,其中还包括索引数据库,被配置成保存所述解释器的索引结果。
17.根据权利要求15所述的设备,其中还包括预定的索引器,该预定的索引器被配置成:如果所述判断装置判断所述资源内容未链接有所述用户定义的索引代码,对所述资源内容构建索引。
18.根据权利要求15所述的设备,其中,所述用户定义的索引代码由脚本文件来实现,所述解释器是脚本引擎。
19.根据权利要求15所述的设备,其中,所述判断装置还被配置成解析所述资源内容并验证所述资源内容链接的相关信息,以判断所述资源内容是否链接有所述用户定义的索引代码。
20.根据权利要求15所述的设备,其中,所述用户定义的索引代码描述了所述用户对所述资源内容中的索引项的自定义权重。
21.根据权利要求20所述的设备,其中,所述索引项是由所述用户选择的。
22.根据权利要求15所述的设备,其中,所述用户定义的索引代码是由用户使用所述资源内容的内容和/或组织作为索引项并对所述索引项赋予权重值而实现的。
23.根据权利要求15所述的设备,其中,所述用户定义的索引代码是基于代码模板完成的,所述代码模板对应于所述资源内容的内容模板。
24.根据权利要求15所述的设备,其中,所述计算机网络是被管理的网络环境。
25.一种用于对计算机网络中的资源内容构建索引的设备,所述计算机网络包括作为搜索引擎的计算机和作为资源内容站点并且存储有用户的资源内容的计算机,所述设备设置在所述资源内容站点侧并包括:
判断装置,被配置成判断所述资源内容链接的相关信息是否包含由用户定义的索引代码,所述索引代码用于处理所述资源内容以获得描述所述资源内容的信息;
解释器,被配置成如果判断所述资源内容链接有由所述用户定义的索引代码,则运行所述用户定义的索引代码,以获得描述所述资源内容的信息作为供所述搜索引擎下载的索引结果,
其中,所述用户为所述资源内容的提供者。
26.根据权利要求25所述的设备,其中,所述判断装置还被配置成判断对所述资源内容的访问是来自所述搜索引擎的搜索器的访问还是一般浏览者的访问,并且响应于来自所述搜索引擎的搜索器的访问,执行所述判断资源内容是否链接有所述用户定义的索引代码。
CN200810084087XA 2008-03-26 2008-03-26 对计算机网络中的资源内容构建索引的方法和设备 Active CN101546309B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN200810084087XA CN101546309B (zh) 2008-03-26 2008-03-26 对计算机网络中的资源内容构建索引的方法和设备
US12/371,712 US8359317B2 (en) 2008-03-26 2009-02-16 Method and device for indexing resource content in computer networks

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810084087XA CN101546309B (zh) 2008-03-26 2008-03-26 对计算机网络中的资源内容构建索引的方法和设备

Publications (2)

Publication Number Publication Date
CN101546309A CN101546309A (zh) 2009-09-30
CN101546309B true CN101546309B (zh) 2012-07-04

Family

ID=41118619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810084087XA Active CN101546309B (zh) 2008-03-26 2008-03-26 对计算机网络中的资源内容构建索引的方法和设备

Country Status (2)

Country Link
US (1) US8359317B2 (zh)
CN (1) CN101546309B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8452850B2 (en) * 2000-12-14 2013-05-28 International Business Machines Corporation Method, apparatus and computer program product to crawl a web site
CN101515300B (zh) * 2009-04-02 2011-07-20 阿里巴巴集团控股有限公司 一种Ajax网页内容的抓取方法及系统
WO2010141598A2 (en) * 2009-06-02 2010-12-09 Index Logic, Llc Systematic presentation of the contents of one or more documents
US20120078874A1 (en) 2010-09-27 2012-03-29 International Business Machine Corporation Search Engine Indexing
US8667386B2 (en) * 2010-11-11 2014-03-04 Netcordant, Inc. Network client optimization
US10089403B1 (en) * 2011-08-31 2018-10-02 Amazon Technologies, Inc. Managing network based storage
US8707262B2 (en) * 2011-12-22 2014-04-22 Sap Ag Code scoring
CN104038471B (zh) * 2013-03-08 2017-08-11 中国移动通信集团浙江有限公司 一种在互联网中管理idc资源的方法和运营商网络
CN103336784B (zh) * 2013-06-04 2016-04-20 百度在线网络技术(北京)有限公司 一种用于确定资源的优选资源描述信息的方法与设备
CN104516979B (zh) * 2014-12-31 2018-10-02 北京锐安科技有限公司 一种基于二次检索的数据查询方法及系统
CN104936043A (zh) * 2015-07-08 2015-09-23 蓝汛网络科技(北京)有限公司 视频资源识别方法和装置
CN105045684B (zh) * 2015-07-16 2018-06-15 北京京东尚科信息技术有限公司 索引切换和索引控制的方法及装置
CN107357891A (zh) * 2017-07-12 2017-11-17 中云开源数据技术(上海)有限公司 一种主页链接推荐方法
CN108334585A (zh) * 2018-01-29 2018-07-27 湖北省楚天云有限公司 一种网页爬虫方法、装置以及电子设备
CN111862966A (zh) * 2019-08-22 2020-10-30 马上消费金融股份有限公司 智能语音交互方法以及相关装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101097578A (zh) * 2007-06-07 2008-01-02 北京金山软件有限公司 一种网络资源检索方法及系统

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6148289A (en) * 1996-05-10 2000-11-14 Localeyes Corporation System and method for geographically organizing and classifying businesses on the world-wide web
US7349892B1 (en) * 1996-05-10 2008-03-25 Aol Llc System and method for automatically organizing and classifying businesses on the World-Wide Web
US6088698A (en) * 1998-02-27 2000-07-11 Oracle Corporation Method and apparatus for incrementally generating a virtual three-dimensional world
US6271840B1 (en) * 1998-09-24 2001-08-07 James Lee Finseth Graphical search engine visual index
US6253198B1 (en) * 1999-05-11 2001-06-26 Search Mechanics, Inc. Process for maintaining ongoing registration for pages on a given search engine
US6516337B1 (en) 1999-10-14 2003-02-04 Arcessa, Inc. Sending to a central indexing site meta data or signatures from objects on a computer network
US6351755B1 (en) * 1999-11-02 2002-02-26 Alta Vista Company System and method for associating an extensible set of data with documents downloaded by a web crawler
US6418453B1 (en) * 1999-11-03 2002-07-09 International Business Machines Corporation Network repository service for efficient web crawling
US6751612B1 (en) * 1999-11-29 2004-06-15 Xerox Corporation User query generate search results that rank set of servers where ranking is based on comparing content on each server with user query, frequency at which content on each server is altered using web crawler in a search engine
US7082427B1 (en) * 2000-05-24 2006-07-25 Reachforce, Inc. Text indexing system to index, query the archive database document by keyword data representing the content of the documents and by contact data associated with the participant who generated the document
WO2002097667A2 (en) * 2001-05-31 2002-12-05 Lixto Software Gmbh Visual and interactive wrapper generation, automated information extraction from web pages, and translation into xml
TW539963B (en) 2001-10-12 2003-07-01 Inventec Besta Co Ltd Method for automatically abstracting labeled data content in electric document
US6763362B2 (en) * 2001-11-30 2004-07-13 Micron Technology, Inc. Method and system for updating a search engine
US7076108B2 (en) * 2001-12-11 2006-07-11 Gen Dow Huang Apparatus and method for image/video compression using discrete wavelet transform
US6946715B2 (en) * 2003-02-19 2005-09-20 Micron Technology, Inc. CMOS image sensor and method of fabrication
US8856093B2 (en) * 2002-09-03 2014-10-07 William Gross Methods and systems for search indexing
US7370035B2 (en) * 2002-09-03 2008-05-06 Idealab Methods and systems for search indexing
US7289983B2 (en) * 2003-06-19 2007-10-30 International Business Machines Corporation Personalized indexing and searching for information in a distributed data processing system
US20050125412A1 (en) * 2003-12-09 2005-06-09 Nec Laboratories America, Inc. Web crawling
US7664734B2 (en) * 2004-03-31 2010-02-16 Google Inc. Systems and methods for generating multiple implicit search queries
US7386572B2 (en) * 2004-04-14 2008-06-10 Nancy Kramer System and method for a modular user controlled search engine
CN100568230C (zh) * 2004-07-30 2009-12-09 国际商业机器公司 基于超文本的多语言网络信息搜索方法和系统
JP4355639B2 (ja) * 2004-09-15 2009-11-04 キヤノン株式会社 画像処理装置およびその制御方法
US7490316B2 (en) * 2004-12-02 2009-02-10 International Business Machines Corporation Method and apparatus to implement adaptive scripting tool
US20060195435A1 (en) * 2005-02-28 2006-08-31 Microsoft Corporation System and method for providing query assistance
US7734644B2 (en) * 2005-05-06 2010-06-08 Seaton Gras System and method for hierarchical information retrieval from a coded collection of relational data
US20070073894A1 (en) * 2005-09-14 2007-03-29 O Ya! Inc. Networked information indexing and search apparatus and method
US7747614B2 (en) * 2005-10-31 2010-06-29 Yahoo! Inc. Difference control for generating and displaying a difference result set from the result sets of a plurality of search engines
US8266130B2 (en) * 2006-01-23 2012-09-11 Chacha Search, Inc. Search tool providing optional use of human search guides
US8707451B2 (en) * 2006-03-01 2014-04-22 Oracle International Corporation Search hit URL modification for secure application integration
US7840045B2 (en) * 2006-04-21 2010-11-23 The University Of Utah Research Foundation Method and system for parallel reconstruction in the K-space domain for application in imaging systems
US7698328B2 (en) * 2006-08-11 2010-04-13 Apple Inc. User-directed search refinement
US8195655B2 (en) * 2007-06-05 2012-06-05 Microsoft Corporation Finding related entity results for search queries
US7925641B2 (en) * 2007-09-21 2011-04-12 Sap Ag Indexing web content of a runtime version of a web page
US20090094224A1 (en) * 2007-10-05 2009-04-09 Google Inc. Collaborative search results
US7818324B1 (en) * 2007-11-14 2010-10-19 Google Inc. Searching indexed and non-indexed resources for content

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101097578A (zh) * 2007-06-07 2008-01-02 北京金山软件有限公司 一种网络资源检索方法及系统

Also Published As

Publication number Publication date
US20090248622A1 (en) 2009-10-01
US8359317B2 (en) 2013-01-22
CN101546309A (zh) 2009-09-30

Similar Documents

Publication Publication Date Title
CN101546309B (zh) 对计算机网络中的资源内容构建索引的方法和设备
CN100367276C (zh) 用于在计算机网络内搜索的方法和设备
CN100440208C (zh) 改进万维网设备中超文本标记语言页面表现的方法和系统
JP4437918B2 (ja) 選択的に情報を検索しその後その情報の表示を可能にする装置および方法
CN103502983B (zh) 利用基于DOM的同构来备忘缓存Web浏览计算
US20120311419A1 (en) System for displaying cached webpages, a server therefor, a terminal therefor, a method therefor and a computer-readable recording medium on which the method is recorded
US20080104042A1 (en) Personalized Search Using Macros
CN1964356B (zh) 数据处理方法和系统
CN101690128A (zh) 用于下载内容以便离线浏览的系统、方法、设备以及计算机程序产品
CN105721538A (zh) 数据访问的方法和装置
CN101542482A (zh) 书签和排名
CN103942268B (zh) 搜索与应用相结合的方法、设备以及应用接口
CN105939313A (zh) 状态码重定向方法及装置
CN110287444B (zh) 网站检测方法、装置及存储介质
CN100504877C (zh) 一种Web页面动作收藏方法和装置
CN102622402B (zh) 使用页面集而提供信息搜索服务的服务器、方法和系统
US20140074814A1 (en) Method and apparatus for switching search engine to repeat search
CN107851114A (zh) 自动信息检索
JP2011525669A (ja) 製品を検索するための方法、製品を検索するためのシステム、関連する製品セマンティクス決定装置、および関連する製品検索装置
CN104182402A (zh) 浏览器界面地址栏输入控制方法及系统
JP4931151B2 (ja) レコメンド提供サーバ、レコメンド提供プログラム及びレコメンド提供方法
CN105468776A (zh) 操作数据库的方法、装置及系统
CN102707967A (zh) 一种运行第三方应用程序的方法、设备及系统
CN106612336A (zh) 图片预加载方法和装置
CN1972285A (zh) 用于生成统一资源定位符的拦截器组件和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant