CN101599069A - 电子文档的搜索方法及系统 - Google Patents
电子文档的搜索方法及系统 Download PDFInfo
- Publication number
- CN101599069A CN101599069A CNA2009100410274A CN200910041027A CN101599069A CN 101599069 A CN101599069 A CN 101599069A CN A2009100410274 A CNA2009100410274 A CN A2009100410274A CN 200910041027 A CN200910041027 A CN 200910041027A CN 101599069 A CN101599069 A CN 101599069A
- Authority
- CN
- China
- Prior art keywords
- electronic document
- index
- related information
- module
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种电子文档的搜索方法,包括以下步骤:抓取电子文档及所述电子文档的关联信息;建立包含所述关联信息的电子文档的索引;响应用户的搜索请求返回包含所述关联信息的搜索结果。上述电子文档的搜索方法中,搜索引擎的索引包含有电子文档的关联信息,通过电子文档的关联信息可以在不打开该电子文档的情况下了解电子文档的内容,同时关联信息是对电子文档本身内容从不同文字或角度的描述,从而增加用不同关键字搜索时搜索到该电子文档的可能性,可以更好的满足用户的需求。此外,还提供了一种电子文档的搜索系统。
Description
【技术领域】
本发明涉及计算机网络技术,特别是涉及一种电子文档的搜索方法及系统。
【背景技术】
计算机网络技术的发展极大的提高了人们获取信息的便利性。计算机网络中存储了海量的信息,为了便于人们查找到自己所需的信息,搜索引擎被广泛使用。人们通过输入关键词,即可找到包含该关键词的网页。
搜索引擎的工作过程大致可以分为如下三个步骤:
抓取网页:每个独立的搜索引擎都有自己的网页抓取程序(spider,称为网络蜘蛛)。网页抓取程序顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,若网页上有适当的超级链接,从一定范围的网页出发,就能搜集到绝大多数的网页。
整理信息:搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。
提供检索服务:用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;搜索引擎返回主要是以网页链接的形式提供的,这样通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。
随着人们对搜索结果要求的提高,很多搜索引擎服务的提供商都提供了电子文档的搜索服务。传统的电子文档搜索服务是根据用户输入的关键词查找相应的电子文档,查找到的电子文档内通常包含用户输入的关键词,返回的搜索结果页面会显示一部分该电子文档的文字,以方便用户了解该电子文档的内容。然而,这种电子文档的搜索方法与一般的网页搜索方法完全一致,只是将搜索内容限制在某一单个的电子文档内,没有体现出电子文档的自身特点,导致搜索到的电子文档数量少或者不符合用户的需求。
【发明内容】
基于此,有必要提供一种更好的满足用户需求的电子文档的搜索方法。
一种电子文档的搜索方法,包括以下步骤:抓取电子文档及所述电子文档的关联信息;建立包含所述关联信息的电子文档的索引;响应用户的搜索请求返回包含所述关联信息的搜索结果。
在优选的实施例中,所述建立包含所述关联信息的电子文档的索引的步骤包括:判断是否已经为该电子文档建立索引;如果未为该电子文档建立索引则为该电子文档建立索引;如果已经为该电子文档建立索引则将所述关联信息追加存入索引中。
在优选的实施例中,所述建立包含所述关联信息的电子文档的索引的步骤包括:解析该电子文档的内容,并将所述电子文档的内容作为所述索引的一部分。
在优选的实施例中,所述建立包含所述关联信息的电子文档的索引的步骤包括:根据所述电子文档的链接地址建立唯一的电子文档编号,并根据所述电子文档编号组织所述索引。
在优选的实施例中,所述关联信息包括链接到该电子文档的链接文字信息或提供链接到该电子文档的链接的网页页面内容信息。
在优选的实施例中,所述关联信息包括用户对该电子文档的评价信息。
此外,还有必要提供一种更好的满足用户需求的电子文档的搜索系统。
一种电子文档的搜索系统,包括:数据抓取模块,用于抓取电子文档及所述电子文档的关联信息;索引模块,与所述数据抓取模块相连建立包含所述关联信息的电子文档的索引;存储模块,与所述索引模块相连以存储所述索引;检索模块,与所述存储模块连接,响应用户的搜索请求返回包含所述关联信息的搜索结果。
在优选的实施例中,所述索引模块还用于查询所述存储模块判断是否已经为该电子文档建立索引,如果未为该电子文档建立索引则为该电子文档建立索引,如果已经为该电子文档建立索引则将所述关联信息追加存入索引中。
在优选的实施例中,还包括内容解析模块,所述内容解析模块与所述数据抓取模块相连以解析该电子文档的内容,所述索引模块与所述内容解析模块相连并将所述电子文档的内容作为所述索引的一部分。
在优选的实施例中,所述关联信息包括链接到该电子文档的链接文字信息、提供链接到该电子文档的链接的网页页面内容信息、用户对该电子文档的评价信息中的一种或两种以上。
上述电子文档的搜索方法和系统中,搜索引擎的索引包含有电子文档的关联信息,通过电子文档的关联信息可以在不打开该电子文档的情况下了解电子文档的内容,同时关联信息是对电子文档本身内容从不同文字或角度的描述,从而增加用不同关键字搜索时搜索到该电子文档的可能性,可以更好的满足用户的需求。
【附图说明】
图1为一实施例的电子文档的搜索方法的流程图;
图2为建立包含关联信息的电子文档的索引的具体流程图;
图3为一实施例的电子文档的搜索系统的模块图。
【具体实施方式】
如图1所示,其为一种电子文档的搜索方法流程图,该方法包括以下步骤:
步骤S110,抓取电子文档及所述电子文档的关联信息。电子文档的抓取可以通过网页搜索中查找到的链接进行。通过网络蜘蛛从网络中抓取电子文档,并获取该电子文档的关联信息。关联信息是指除电子文档本身的内容外,对查找该电子文档、快速掌握该电子文档的内容、了解该电子文档的应用等有用的信息,例如链接到该电子文档的链接文字信息、提供链接到该电子文档的链接的网页页面内容信息、用户对该电子文档的评价信息等。例如,有一件txt格式的电子文档“新宋”,在互联网上的地址为:http://abc.a.com/b/xinsong.txt,有一个网页页面,上面有链接文字信息:“新宋的电子书”,这个链接文字信息的链接指向“http://abc.a.com/b/xinsong.txt”,同时这个页面上有如下的页面内容信息:“《新宋》第二卷《权柄》,主要讲叙石越的改革与对西夏的战争。”此外,网页页面中还包含用户对该电子文档的评价信息,比如170人给予了这个电子文档好的评价,2人给予差的评价,这些评价可以作为返回搜索结果的排序依据,便于用户找到有用的电子文档。
步骤S120,建立包含所述关联信息的电子文档的索引。将关联信息整理到搜索引擎的索引中,便于在接收到用户的搜索请求时快速有效的返回搜索结果。在建立包含关联信息的电子文档的索引的步骤中,可以解析该电子文档的内容,并将电子文档的内容作为索引的一部分。电子文档的内容可以是电子文档的名称、作者、出版社、摘要、关键词等,也可是电子文档内容的全本文本信息。这样,当有用户搜索的信息是某个电子文档的内容的时候,就可以保证也命中这些信息,从而提高用户的满意度。为了更好的管理电子文档,可以根据电子文档的链接地址建立唯一的电子文档编号,并根据电子文档编号组织索引。
步骤S130,响应用户的搜索请求返回包含关联信息的搜索结果。将关联信息显示在返回结果的页面上,通过该页面用户可以查看到关联信息,迅速了解该电子文档的内容。关联信息可以和电子文档内的部分内容出现在下载该电子文档的链接下。
上述电子文档的搜索方法中,搜索引擎的索引包含有电子文档的关联信息,通过电子文档的关联信息可以在不打开该电子文档的情况下了解电子文档的内容,例如链接到该电子文档的链接文字信息会高度概括电子文档的内容;同时关联信息是对电子文档本身内容从不同文字或角度的描述,例如提供链接到该电子文档的链接的网页页面内容信息会从读者的角度去描述电子文档的内容,这些描述文字可能与电子文档中的文字不同,从而增加用不同关键字搜索时搜索到该电子文档的可能性,可以更好的满足用户的需求。
如图2所示,其为步骤S120更具体的流程图。
首先,步骤S210,判断是否已经为该电子文档建立索引。互联网中存在大量相同的信息,同样也包括大量相同的电子文档,通过判断步骤S110中抓取的电子文档是否已经存在并建立索引了来避免对同样的电子文档建立多个索引,浪费存储空间及避免用户在同样的电子文档上花费太多时间。是否为同样的电子文档可以通过电子文档本身的内容来判断。如果未为该电子文档建立索引,则进入步骤S220;如果已经为该电子文档建立索引,则进入步骤S230。
步骤S220,为该电子文档建立索引。没有为该电子文档建立索引说明该电子文档是全新的文档,因此需要整理该电子文档的信息来建立新的索引。
步骤S230,将关联信息追加存入索引中。对于已经有该电子文档的情况,可以将步骤S110中抓取到的新的关联信息追加存入索引中。因为不同的网页页面对相同的电子文档的关联信息是不同的,通过追加的方式存入,可以补充该电子文档的关联信息,使得关联信息更加充实,便于用户更好的了解该电子文档及增加该电子文档被搜索到的可能性。
如图3所示,还提供了一种电子文档的搜索系统。电子文档的搜索系统300包括数据抓取模块310、索引模块320、存储模块330、检索模块340和内容解析模块350。
数据抓取模块310用于抓取电子文档及电子文档的关联信息。数据抓取模块310通过网页搜索中查找到的链接抓取电子文档,并获取该电子文档的关联信息。关联信息是指除电子文档本身的内容外,对查找该电子文档、快速掌握该电子文档的内容、了解该电子文档的应用等有用的信息,例如链接到该电子文档的链接文字信息、提供链接到该电子文档的链接的网页页面内容信息、用户对该电子文档的评价信息等。
索引模块320与数据抓取模块310相连以建立包含关联信息的电子文档的索引。索引模块320将关联信息整理到搜索引擎的索引中,便于在接收到用户的搜索请求时快速有效的返回搜索结果。
存储模块330与索引模块320相连以存储索引模块320为电子文档建立的索引。另外,数据抓取模块310抓取的电子文档及其关联信息也可以先存储到存储模块330,再由索引模块320对存储的电子文档及其关联信息建立索引,在提供该电子文档的服务器与互联网的连接断开的情况下,搜索引擎的服务器仍然可以提供该电子文档。为了避免对同一电子文档建立多个索引和重复存储相同的电子文档,索引模块320还可以查询存储模块330判断是否已经为该电子文档建立索引,如果未为该电子文档建立索引则为该电子文档建立索引,如果已经为该电子文档建立索引则将关联信息追加存入索引中。
检索模块340与存储模块330连接,在接收到用户的搜索请求时,响应用户的搜索请求返回包含关联信息的搜索结果。将关联信息显示在返回结果的页面上,通过该页面用户可以查看到关联信息,迅速了解该电子文档的内容。
内容解析模块350连接在数据抓取模块310和索引模块320之间,对数据抓取模块310抓取的电子文档的内容进行解析,索引模块320将解析获得的电子文档的内容作为索引的一部分。检索模块340可以将关联信息和电子文档内的部分内容显示在下载该电子文档的链接下方。
上述电子文档的搜索系统中,搜索引擎的索引包含有电子文档的关联信息,通过电子文档的关联信息可以在不打开该电子文档的情况下了解电子文档的内容,同时关联信息是对电子文档本身内容从不同文字或角度的描述,从而增加用不同关键字搜索时搜索到该电子文档的可能性,可以更好的满足用户的需求。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1、一种电子文档的搜索方法,其特征在于,包括以下步骤:
抓取电子文档及所述电子文档的关联信息;
建立包含所述关联信息的电子文档的索引;
响应用户的搜索请求返回包含所述关联信息的搜索结果。
2、根据权利要求1所述的电子文档的搜索方法,其特征在于,所述建立包含所述关联信息的电子文档的索引的步骤包括:
判断是否已经为该电子文档建立索引;
如果未为该电子文档建立索引则为该电子文档建立索引;
如果已经为该电子文档建立索引则将所述关联信息追加存入索引中。
3、根据权利要求1或2所述的电子文档的搜索方法,其特征在于,所述建立包含所述关联信息的电子文档的索引的步骤包括:解析该电子文档的内容,并将所述电子文档的内容作为所述索引的一部分。
4、根据权利要求1或2所述的电子文档的搜索方法,其特征在于,所述建立包含所述关联信息的电子文档的索引的步骤包括:根据所述电子文档的链接地址建立唯一的电子文档编号,并根据所述电子文档编号组织所述索引。
5、根据权利要求1所述的电子文档的搜索方法,其特征在于,所述关联信息包括链接到该电子文档的链接文字信息或提供链接到该电子文档的链接的网页页面内容信息。
6、根据权利要求1所述的电子文档的搜索方法,其特征在于,所述关联信息包括用户对该电子文档的评价信息。
7、一种电子文档的搜索系统,其特征在于,包括:
数据抓取模块,用于抓取电子文档及所述电子文档的关联信息;
索引模块,与所述数据抓取模块相连建立包含所述关联信息的电子文档的索引;
存储模块,与所述索引模块相连以存储所述索引;
检索模块,与所述存储模块连接,响应用户的搜索请求返回包含所述关联信息的搜索结果。
8、根据权利要求7所述的电子文档的搜索系统,其特征在于,所述索引模块还用于查询所述存储模块判断是否已经为该电子文档建立索引,如果未为该电子文档建立索引则为该电子文档建立索引,如果已经为该电子文档建立索引则将所述关联信息追加存入索引中。
9、根据权利要求7或8所述的电子文档的搜索系统,其特征在于,还包括内容解析模块,所述内容解析模块与所述数据抓取模块相连以解析该电子文档的内容,所述索引模块与所述内容解析模块相连并将所述电子文档的内容作为所述索引的一部分。
10、根据权利要求7或8所述的电子文档的搜索系统,其特征在于,所述关联信息包括链接到该电子文档的链接文字信息、提供链接到该电子文档的链接的网页页面内容信息、用户对该电子文档的评价信息中的一种或两种以上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2009100410274A CN101599069A (zh) | 2009-07-10 | 2009-07-10 | 电子文档的搜索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2009100410274A CN101599069A (zh) | 2009-07-10 | 2009-07-10 | 电子文档的搜索方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101599069A true CN101599069A (zh) | 2009-12-09 |
Family
ID=41420517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2009100410274A Pending CN101599069A (zh) | 2009-07-10 | 2009-07-10 | 电子文档的搜索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101599069A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314501A (zh) * | 2011-08-31 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 一种确定站点文档的连载状态信息的方法与设备 |
CN103533399A (zh) * | 2013-09-30 | 2014-01-22 | 深圳创维-Rgb电子有限公司 | 一种视频信息显示方法和装置 |
CN103559305A (zh) * | 2013-11-18 | 2014-02-05 | 英华达(上海)科技有限公司 | 文件搜寻系统及其方法 |
CN104424252A (zh) * | 2013-08-28 | 2015-03-18 | 北大方正集团有限公司 | 基于xml的文字信息处理方法和文字内容服务器 |
CN109299244A (zh) * | 2018-11-15 | 2019-02-01 | 天津字节跳动科技有限公司 | 一种在线文档检索方法、装置、存储介质及电子设备 |
CN115080684A (zh) * | 2022-07-28 | 2022-09-20 | 天津联想协同科技有限公司 | 网盘文档索引方法、装置、网盘及存储介质 |
CN116932859A (zh) * | 2023-08-10 | 2023-10-24 | 苏州阿基米德网络科技有限公司 | 一种医疗设备文档的搜索和浏览方法 |
-
2009
- 2009-07-10 CN CNA2009100410274A patent/CN101599069A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314501A (zh) * | 2011-08-31 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 一种确定站点文档的连载状态信息的方法与设备 |
CN104424252A (zh) * | 2013-08-28 | 2015-03-18 | 北大方正集团有限公司 | 基于xml的文字信息处理方法和文字内容服务器 |
CN104424252B (zh) * | 2013-08-28 | 2017-12-15 | 北大方正集团有限公司 | 基于xml的文字信息处理方法和文字内容服务器 |
CN103533399A (zh) * | 2013-09-30 | 2014-01-22 | 深圳创维-Rgb电子有限公司 | 一种视频信息显示方法和装置 |
CN103559305A (zh) * | 2013-11-18 | 2014-02-05 | 英华达(上海)科技有限公司 | 文件搜寻系统及其方法 |
CN103559305B (zh) * | 2013-11-18 | 2017-06-09 | 英华达(上海)科技有限公司 | 文件搜寻系统及其方法 |
CN109299244A (zh) * | 2018-11-15 | 2019-02-01 | 天津字节跳动科技有限公司 | 一种在线文档检索方法、装置、存储介质及电子设备 |
CN115080684A (zh) * | 2022-07-28 | 2022-09-20 | 天津联想协同科技有限公司 | 网盘文档索引方法、装置、网盘及存储介质 |
CN115080684B (zh) * | 2022-07-28 | 2023-01-06 | 天津联想协同科技有限公司 | 网盘文档索引方法、装置、网盘及存储介质 |
CN116932859A (zh) * | 2023-08-10 | 2023-10-24 | 苏州阿基米德网络科技有限公司 | 一种医疗设备文档的搜索和浏览方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6029192A (en) | System and method for locating resources on a network using resource evaluations derived from electronic messages | |
US8255386B1 (en) | Selection of documents to place in search index | |
US9268873B2 (en) | Landing page identification, tagging and host matching for a mobile application | |
CN102722498B (zh) | 搜索引擎及其实现方法 | |
CN101599069A (zh) | 电子文档的搜索方法及系统 | |
US20110302148A1 (en) | System and Method for Indexing Food Providers and Use of the Index in Search Engines | |
CN101276368A (zh) | 信息检索装置和方法 | |
CN102722499B (zh) | 搜索引擎及其实现方法 | |
US20070239692A1 (en) | Logo or image based search engine for presenting search results | |
CN102761627A (zh) | 基于终端访问统计的云网址推荐方法及系统及相关设备 | |
CN103631794A (zh) | 一种用于对搜索结果进行排序的方法、装置与设备 | |
CN103870461A (zh) | 主题推荐方法、装置和服务器 | |
CN103235827B (zh) | 一种科技信息自动分类筛选的方法 | |
CN102722501A (zh) | 搜索引擎及其实现方法 | |
Prajapati | A survey paper on hyperlink-induced topic search (HITS) algorithms for web mining | |
CN105095335A (zh) | 用于网络上搜索结果的评级系统 | |
CN108228663A (zh) | 一种分页检索方法及装置 | |
CN104834736A (zh) | 构建索引库的方法、装置及检索的方法、装置和系统 | |
KR100671077B1 (ko) | 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템 | |
CN107491465A (zh) | 用于搜索内容的方法和装置以及数据处理系统 | |
JP2009026249A (ja) | 閲覧履歴編集端末及びプログラムおよびその方法 | |
CN102937977A (zh) | 一种搜索服务器及搜索方法 | |
CN103902687B (zh) | 一种搜索结果的生成方法及装置 | |
CN108256064B (zh) | 一种数据搜索方法和装置 | |
CN101887438A (zh) | 确定网页的搜索引擎优化规则的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20091209 |