CN1122387C - 万维网站的网页全文检索方法 - Google Patents

万维网站的网页全文检索方法 Download PDF

Info

Publication number
CN1122387C
CN1122387C CN98107500A CN98107500A CN1122387C CN 1122387 C CN1122387 C CN 1122387C CN 98107500 A CN98107500 A CN 98107500A CN 98107500 A CN98107500 A CN 98107500A CN 1122387 C CN1122387 C CN 1122387C
Authority
CN
China
Prior art keywords
webpage
text
data
website
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN98107500A
Other languages
English (en)
Other versions
CN1235447A (zh
Inventor
赵国仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LONGJUANFENG SCIENCE AND TECHNOLOGY Co Ltd
Original Assignee
LONGJUANFENG SCIENCE AND TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LONGJUANFENG SCIENCE AND TECHNOLOGY Co Ltd filed Critical LONGJUANFENG SCIENCE AND TECHNOLOGY Co Ltd
Priority to CN98107500A priority Critical patent/CN1122387C/zh
Publication of CN1235447A publication Critical patent/CN1235447A/zh
Application granted granted Critical
Publication of CN1122387C publication Critical patent/CN1122387C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

一种万维网站的网页全文检索方法,通过逐页读取一万维网站的各个网页中的文本数据和路径数据,来快速取得该检索系统所需的数据,并节省大量的存储器容量。该检索方法包含存储在服务器一个以上的数据组以及管理程序,每一数据组中皆包含有路径文件、索引文件、及文本文件。当一使用者输入欲查询网页的检索条件后,所述管理程序会利用所述服务器内所存的每一数据组的索引文件找出各数据组相对应的万维网站中符合所述检索条件的网页,以及依据各数据组的路径文件将符合所述检索条件的网页的路径数据取出,并以一预定形式提供给所述使用者。

Description

万维网站的网页全文检索方法
本发明涉及一种全文检索方法,特别涉及一种万维网站(worldwide web)的网页全文检索方法。
目前互联网极为盛行,有各式各样的万维网站连接于其上,任何使用者只要通过互联网便能连接到各种不同的万维网站去寻找所需要的数据。但是目前互联网上的万维网站的数目太多,而且各个网站的网页数量也很多,而且常常会被更新,因此使用者在寻找所需要的信息时,常会不知道从何处着手。为了解决使用者这方面的困扰,目前已有一些网站检索系统在市场上被推出。这些检索系统可以让使用者利用关键字来对检索系统内所存的各个网站的网页进行全文检索以找出相关的网站及网页数据,其后使用者可以利用超连接(hyperlink)的功能直接与找出的相关网站连接以取得相关网页的数据。
这些检索系统在建立各网站的网页数据时,首先会收集各网站所有的网页数据,然后再对这些网页数据进行分析、整理以供使用者检索。然而,由于每个网页通常包含有图形文件、文本文件(text file)、声音文件、动画文件等许多个文件,而每个网站可能又包含有数百页、甚至上万页的网页,因此光是收集一个网站的网页数据便构成了一件庞大的工作,而一个检索系统往往需建立数十个甚至数百个以上的网站数据,在时间和存储器容量上的耗费便形成了一个棘手的问题。因此,本发明的目的在于提供一种万维网站的网页全文检索方法,其可通过读取一万维网站的各个网页中的文本数据和路径数据的方法,来快速取得及建立该检索系统所需的数据,并节省大量的存储器容量。
本发明的万维网站的网页全文检索方法,在与互联网相连的网络服务器存储有一个以上的数据组,及用来管理所述服务器的操作以及对使用者提供所述数据组的全文检索的一管理程序,其中每一数据组皆由所述互联网上的一万维网站上的网页数据所制成,其特征是:
每一数据组包含有:
一路径文件,用来记录所述数据组相对应的万维网站中各网页的路径数据;以及
一索引文件,用来对所述数据组相对应的万维网站中各网页的文本数据做全文检索,
其中当一使用者输入欲查询网页的检索条件后,所述管理程序会利用所述服务器内所存的每一数据组的索引文件找出各数据组相对应的万维网站中符合所述检索条件的网页,以及依据各数据组的路径文件将符合所述检索条件的网页的路径数据取出,并以一预定形式提供给所述使用者;
还包含有一文本文件,用来记录所述数据组相对应的万维网站中各网页的文本数据,所述路径文件是用来记录所述文本文件中各网页的路径数据,而所述索引文件则用来对所述文本文件内各网页的文本数据做全文检索;其中当一使用者输入欲查询网页的检索条件后,所述管理程序会利用所述服务器内所存的每一数据组的索引文件找出各数据组的文本文件中符合所述检索条件的网页,以及根据各数据组的文本文件及路径文件将符合所述检索条件的网页的文本数据及路径数据取出,并以一预定形式提供给所述使用者。
附图的简单说明
图1为本发明网页全文检索系统的示意图。
图2为图1检索系统的功能方块图。
图3为图1检索系统建立一网站的网页数据的流程图。
图4为图1检索系统进行全文检索的流程图。
请参考图1。图1为本发明网页全文检索系统10的示意图。检索系统10可通过互联网14和万维网站12及使用者16相互连接。万维网站12上通常含有一个首页和多个网页开放给大众查询,而检索系统10会通过互联网14逐页读取万维网站12上的各个网页,并只存储文本数据及路径数据来快速地建立检索系统10内的网页数据以供使用者16做线上查询。
请参考图2。图2为图1检索系统10的功能方块图。检索系统10包含有一服务器20连接于互联网14,一个以上的数据组22以及一管理程序24存储于服务器20内。服务器20包含有一存储器21用来存储程序及数据,以及一处理器23用来执行存储器21内所存储的程序。管理程序24用来管理服务器20的操作,其包含有一数据组建立模块25用来建立万维网站12的数据组22以供使用者16做全文检索,以及一全文检索模块27用来对使用者16提供数据组22的全文检索服务。每一个数据组22都是由互联网14上的一万维网站12的网页数据所制成,其包含有一文本文件26,用来记录万维网站12中各网页的文本数据,一路径文件(path file)28,用来记录文本文件26中各网页的路径数据,以及一索引文件(index file)30,用来对文本文件26内各网页的文本数据作全文检索。
数据组建立模块25用来建立互联网14上各个不同的万维网站12的数据组22以供使用者16做全文检索。在建立一万维网站12的数据组22时,它会经由互联网14对该万维网站12进行网络连线,并以逐页读取的方式将该万维网站12的各个网页的路径数据及各网页内所存的文本数据取出以建立该万维网站12的数据组22的文本文件26、路径文件28及可供全文检索的索引文件30。
全文检索模块27用来对使用者16提供数据组22的全文检索服务。当使用者16希望通过检索系统10来查询互联网14上的一些万维网站12的网页数据时,使用者16需先输入欲查询网页的关键字或关键字的组合,然后全文检索模块27会利用服务器20内所存的各个数据组22的索引文件30找出各数据组22的文本文件26中符合该检索条件的网页,然后将符合检索条件的网页的文本数据及路径数据由各数据组22的文本文件26及路径文件28中取出,并以符合http标准的网页形式传给使用者16。每一数据组22的路径文件28中存有与该数据组22相对应的万维网站12的网址,以及该数据组22的文本文件26中各网页在该万维网站12内的路径数据。
请参考图3。图3为图1检索系统10的数据组建立模块25建立一万维网站12的数据组22的流程图,其包含下列步骤:步骤30:通过互联网14与一万维网站12相连;步骤31:建立该万维网站12的文本文件26及路径文件28,以及建立
    一超连接数据文件,并将该万维网站12的网址存入该路径文
    件28;步骤32:要求该万维网站12提供首页数据;步骤33:将该首页内的文本数据存入该文本文件26,将该首页内的路
    径数据存入该路径文件28,将该首页内其他网页的超连接数
    据取出并存入该超连接数据文件,并依据文本文件26内所存
    的文本数据建立一可供全文检索的索引文件30,而后将该首
    页内的其他数据弃置;步骤34:将该超连接数据文件内的一未读取过的网页的超连接数据取
    出,并依据该超连接数据要求该万维网站12提供该网页的数
    据;步骤35:将该网页内的文本数据存入该文本文件26中,将该网页的路
    径数据存入该路径文件28,将该网页内其他网页的超连接数
    据取出并将未存入该超连接数据文件中的网页的超连接数据
    存入该超连接数据文件,并依据文本文件26内所存的各网页
    的文本数据建立一可供全文检索的索引文件30,而后将该网
    页内的其他数据弃置;步骤36:检查是否该超连接数据文件内的所有网页都已被读过;若否,
    则跳至步骤34;步骤37:结束。
数据组建立模块25除了可以依据上述步骤逐页读取一万维网站12的所有网页外,也可以将上述步骤略做修改以读取一预定数目的网页或是一预定树状结构内的所有网页。在上述的步骤中,数据组建立模块25会将万维网站12的各个网页的文本数据及路径数据分别存入文本文件26及路径文件28,而其他不相关的数据则会予以弃置,这使得检索系统10可以快速地建立一个万维网站12的数据组22供使用者16查询并且可以节省大量的存储器空间。
请参考图4。图4为图1检索系统10的全文检索模块27对使用者16提供全文检索服务的流程图,其包含下列步骤:步骤40:使用者16通过互联网14与检索系统10连接;步骤41:使用者16将欲检索的关键字输入检索系统10;步骤42:管理程序24的全文检索模块27根据输入的关键字到各个数
    据组22的索引文件30中寻找符合条件的网页的索引数据;步骤43:全文检索模块27根据各数据组22的相关网页的索引数据到
    各数据组22的文本文件26中取出各网页的文本数据,以及
    到各数据组22的路径文件28中取出各网页的路径数据;步骤44:全文检索模块27将各网页的文本数据以及路径数据做适当组
    合后传回给使用者16。
在步骤44中,全文检索模块27可依据使用者16的要求将各网页的文本数据中的标题或部分文字段落取出,而不是将各网页所有的文本数据全部传给使用者16。全文检索模块27会将各网页的文本数据依某一顺序排列后以符合http标准的网页形式传给使用者16,其中各网页的路径数据是以超连接数据的形式存放在传给使用者16的网页中,因此使用者16可利用各网页的超连接数据与各网页的原始网站相连接以取得各网页的完整数据。
现有网站检索系统在建立检索数据时,通常会先完整地下载一个网站的所有网页数据,然后再对该网站的所有网页数据进行分析整理以制作出必要的检索数据。这种方式需耗费大量的数据存储空间以及处理时间。本发明的网页全文检索系统10则会以逐页读取的方式来取得一万维网站12内各网页的文本数据及路径数据,并同时将各网页内其他不相关的数据弃置,因此在存储空间以及处理时间上的需求均可大量地被减低。以上所述仅为本发明的较佳实施例,凡依本发明权利要求所做的均等变化与修饰,皆应属本发明专利的涵盖范围。

Claims (8)

1.一种万维网站的网页全文检索方法,在与互联网相连的网络服务器存储有一个以上的数据组,及用来管理所述服务器的操作以及对使用者提供所述数据组的全文检索的一管理程序,其中每一数据组皆由所述互联网上的一万维网站上的网页数据所制成,其特征是:
每一数据组包含有:
一路径文件,用来记录所述数据组相对应的万维网站中各网页的路径数据;以及
一索引文件,用来对所述数据组相对应的万维网站中各网页的文本数据做全文检索,
其中当一使用者输入欲查询网页的检索条件后,所述管理程序会利用所述服务器内所存的每一数据组的索引文件找出各数据组相对应的万维网站中符合所述检索条件的网页,以及依据各数据组的路径文件将符合所述检索条件的网页的路径数据取出,并以一预定形式提供给所述使用者;
还包含有一文本文件,用来记录所述数据组相对应的万维网站中各网页的文本数据,所述路径文件是用来记录所述文本文件中各网页的路径数据,而所述索引文件则用来对所述文本文件内各网页的文本数据做全文检索;其中当一使用者输入欲查询网页的检索条件后,所述管理程序会利用所述服务器内所存的每一数据组的索引文件找出各数据组的文本文件中符合所述检索条件的网页,以及根据各数据组的文本文件及路径文件将符合所述检索条件的网页的文本数据及路径数据取出,并以一预定形式提供给所述使用者。
2.如权利要求1所述的网页全文检索方法,其中所述管理程序将符合所述检索条件的网页的文本数据及路径数据以符合http标准的网页形式提供给使用者。
3.如权利要求1所述的网页全文检索方法,其中所述管理程序将符合所述检索条件的网页的文本数据中的标题或是部分文本段落提供给使用者。
4.如权利要求1所述的网页全文检索方法,其中所述检索条件为所述使用者所欲查询的关键字或关键字的组合。
5.如权利要求1所述的网页全文检索方法,其中每一数据组的路径文件中存有所述数据组的文本文件中各网页在所述数据组相对应的万维网站的内部路径,以及所述万维网站于所述互联网上的网址,所述管理程序所产生的符合所述检索条件的网页的路径数据中,包含有各网页的内部路径与所述万维网站的网址。
6.如权利要求1所述的网页全文检索方法,其中所述管理程序另包含有一数据组建立模块,用来建立一万维网站的数据组以供使用者做全文检索,所述数据组建立模块会经由所述互联网对所述万维网站进行网络连线,并将所述万维网站的各网页的路径数据及各网页内所存的文本数据取出以建立所述万维网站的数据组的文本文件及路径文件,而后再依据所述文本文件建立一可用来对所述文本文件内各网页的文本数据做全文检索的索引文件。
7.如权利要求6所述的网页全文检索方法,其中在逐页读取所述万维网站的各网页以取出各网页的路径数据及各网页内所存的文本数据时,所述管理程序会将各网页内的其他数据弃置以节省存储空间。
8.如权利要求6所述的网页全文检索方法,其中在读取所述万维网站的各网页时,所述管理程序可读取所述万维网站的所有网页、一预定数目的网页或一预定树状结构内的所有网页。
CN98107500A 1998-05-11 1998-05-11 万维网站的网页全文检索方法 Expired - Fee Related CN1122387C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN98107500A CN1122387C (zh) 1998-05-11 1998-05-11 万维网站的网页全文检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN98107500A CN1122387C (zh) 1998-05-11 1998-05-11 万维网站的网页全文检索方法

Publications (2)

Publication Number Publication Date
CN1235447A CN1235447A (zh) 1999-11-17
CN1122387C true CN1122387C (zh) 2003-09-24

Family

ID=5219367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN98107500A Expired - Fee Related CN1122387C (zh) 1998-05-11 1998-05-11 万维网站的网页全文检索方法

Country Status (1)

Country Link
CN (1) CN1122387C (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100544368C (zh) * 2000-02-21 2009-09-23 株式会社Ntt都科摩 信息分配方法,信息分配系统和信息分配服务器
AU2000278999A1 (en) * 2000-10-20 2002-04-29 Beijing Pdn Xinren Information Technology Co., Ltd. Building-up and employing method for search network station
CN100370459C (zh) * 2005-12-08 2008-02-20 华为技术有限公司 一种减少分页数据检索时间的方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996017313A1 (en) * 1994-11-18 1996-06-06 Oracle Corporation Method and apparatus for indexing multimedia information streams

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996017313A1 (en) * 1994-11-18 1996-06-06 Oracle Corporation Method and apparatus for indexing multimedia information streams

Also Published As

Publication number Publication date
CN1235447A (zh) 1999-11-17

Similar Documents

Publication Publication Date Title
US7185088B1 (en) Systems and methods for removing duplicate search engine results
CN1310175C (zh) 搜索引擎管理系统和方法
US7552109B2 (en) System, method, and service for collaborative focused crawling of documents on a network
CN103823883B (zh) 一种网站用户访问路径的分析方法及系统
CN1112647C (zh) 响应查询以对文档集合中的文档进行分级的系统和方法
CN103744853B (zh) 提供搜索引擎网页快照信息的方法及装置
US7779001B2 (en) Web page ranking with hierarchical considerations
US20080228675A1 (en) Multi-tiered cascading crawling system
CN1486457A (zh) 一种用于间接爬行的系统和过程
CN1249610C (zh) 资料自动下载之系统及方法
EP1975816A1 (en) Electronic document retrieval system
CN1360267A (zh) 文件分类查找方法
EP1993045A1 (en) Electronic document retrievel system
Halavais Blogs and the “social weather.”
CN1404590A (zh) 元数据分类和信息入口的创建方法
CN101188521B (zh) 一种挖掘用户行为数据的方法和网站服务器
Saito et al. A cognitive study of information seeking processes in the WWW: the effects of searcher's knowledge and experience
CN1932811A (zh) 内容网站的文字中关联于关键词的链接的建立系统
CN1122387C (zh) 万维网站的网页全文检索方法
CN115115248A (zh) 一种数字化车间生产成本管理系统及管理方法
CN114357010A (zh) 一种基于Python的图书推荐系统的方法
Mukhopadhyay et al. An approach to confidence based page ranking for user oriented web search
US20090222293A1 (en) Method and System of Using Commodity Databases in Internet Search Advertising
CN1271134A (zh) 网络系统的动态回馈及查询方法
CN1183464C (zh) 用于创建统一的可打印的超链接文档集的方法

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB02 Change of applicant information

Address after: 4, No. 412, No. five, Zhong Cheng Dong Lu, Taipei, Taiwan

Applicant after: Longjuanfeng Science and Technology Co., Ltd.

Address before: No. 205, Lane 18, two road, Yongkang, Tainan County, Taiwan

Applicant before: Zhao Guoren

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: ZHAO GUOREN TO: LONGJUANFENG SCIENCE AND TECHNOLOGY CO., LTD.

C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20030924

Termination date: 20110511