CN1193309C - 搜索引擎关键字的关联建立系统及方法 - Google Patents

搜索引擎关键字的关联建立系统及方法 Download PDF

Info

Publication number
CN1193309C
CN1193309C CNB011450851A CN01145085A CN1193309C CN 1193309 C CN1193309 C CN 1193309C CN B011450851 A CNB011450851 A CN B011450851A CN 01145085 A CN01145085 A CN 01145085A CN 1193309 C CN1193309 C CN 1193309C
Authority
CN
China
Prior art keywords
key word
information
browsing
search
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB011450851A
Other languages
English (en)
Other versions
CN1430165A (zh
Inventor
陈文鋕
张履平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute for Information Industry
Original Assignee
Institute for Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute for Information Industry filed Critical Institute for Information Industry
Priority to CNB011450851A priority Critical patent/CN1193309C/zh
Publication of CN1430165A publication Critical patent/CN1430165A/zh
Application granted granted Critical
Publication of CN1193309C publication Critical patent/CN1193309C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明是搜索引擎关键字的关联建立系统及方法。查询第一关键字与第二关键字,分别得到相应的第一搜索信息与第二搜索信息;记录一第一关键字及相应的一第一搜索信息与一第二关键字及相应的一第二搜索信息;第一搜索信息与第二搜索信息,分别包括一第一文件集合与一第二文件集合;记录第一搜索信息所相应的一第一浏览信息与第二搜索信息所相应的一第二浏览信息;第一、二浏览信息,分别包括相应第一文件集合与第二文件集合的一第一浏览时间集合与一第二浏览时间集合;依据第一、二搜索信息、第一、二浏览信息,决定第一、二关键字所相应的一关联值;关联值包含一搜索关联值及一浏览关联值;记录第一、二关键字及相应的关联值于一关联词数据库中。

Description

搜索引擎关键字的关联建立系统及方法
技术领域
本发明是有关于一种搜索引擎关键字的关联建立系统及方法,且特别有关于一种可以依据使用者的查询行为及浏览行为来决定关联词的关联建立系统及方法。
发明背景
在现存的搜索引擎(Search Engine)中,关联词的建立方式主要系依据信息检索(Information Retrieval)的方式来进行建立。所谓关联词即为在不同关键字之间的关联程度,即当使用者输入一个关键字时,搜索引擎可以自动查询或是提供相关的关键字给使用者作进一步查询。然而,若以信息检索的方式来自动建立关联词,由于每一份搜索文件并没有赋予任何实质上意义,而仅通过统计的方法来进行记录,因此,往往有正确率(Precision)不高的问题存在。
另一方面,如果以人工的方式建立关联词,则必须花费大量的人力与时间成本,而且对于不同领域的关联词也不一定能适用,因此,必须重新建立关联词而更加浪费人力与时间。此外,由于国际互连网世界不断地有新词出现,因此,在现存搜索引擎中,也必须不断地将新词建立关联,以维持整体搜索引擎的关联正确率。
发明内容
有鉴于此,本发明的主要目的为提供一种可以依据使用者的查询行为及浏览行为来决定关联词的关联建立系统及方法。
为了达成本发明的上述目的,可借由本发明所提供的搜索引擎的关键字关联建立系统来达成。本发明搜索引擎的关键字关联建立系统包括一搜索引擎、一查询行为数据库、一浏览行为数据库、一关联分析器及一关联词数据库。
本发明是这样实现的:
一种搜索引擎的关键字关联建立系统,其特征在于,包括:
一搜索引擎,用以查询第一关键字与第二关键字,从而分别得到相应的第一搜索信息与第二搜索信息;
一查询行为数据库,记录一第一关键字及相应的一第一搜索信息与一第二关键字及相应的一第二搜索信息;所述第一搜索信息与该第二搜索信息,分别包括一第一文件集合与一第二文件集合;
一浏览行为数据库,记录该第一关键字及该第一搜索信息所相应的一第一浏览信息与该第二关键字及该第二搜索信息所相应的一第二浏览信息;所述第一浏览信息与该第一浏览信息,分别包括相应该第一文件集合与该第二文件集合的一第一浏览时间集合与一第二浏览时间集合;
一关联分析器,依据该第一搜索信息、该第二搜索信息、该第一浏览信息、及该第二浏览信息,决定该第一关键字与该第二关键字所相应的一关联值;所述关联值包含一搜索关联值及一浏览关联值;
一关联词数据库,用以记录该第一关键字、该第二关键字及相应的该关联值。
本发明另提出一种搜索引擎的关键字关联建立方法,其特征在于,包括下列步骤:
查询该第一关键字与该第二关键字,从而分别得到相应的第一搜索信息与第二搜索信息;
记录一第一关键字及相应的一第一搜索信息与一第二关键字及相应的一第二搜索信息;该第一搜索信息与该第二搜索信息,分别包括一第一文件集合与一第二文件集合;
记录该第一搜索信息所相应的一第一浏览信息与该第二搜索信息所相应的一第二浏览信息;该第一浏览信息与该第二浏览信息,分别包括相应该第一文件集合与该第二文件集合的一第一浏览时间集合与一第二浏览时间集合;
依据该第一搜索信息、该第二搜索信息、该第一浏览信息、及该第二浏览信息,决定该第一关键字与该第二关键字所相应的一关联值;该关联值包含一搜索关联值及一浏览关联值;
记录该第一关键字、该第二关键字及相应的该关联值于一关联词数据库中。
附图说明
为使本发明的上述目的、特征和优点能更明显易懂,下文特举实施例,并配合附图,详细说明如下:
图1为依据本发明实施例的搜索引擎的关键字关联建立系统的系统架构示意图;
图2为依据本发明实施例的搜索引擎的关键字关联建立方法的操作流程图。
具体实施方式
图1显示依据本发明实施例的搜索引擎的关键字关联建立系统的系统架构,参考图1,本发明实施例的系统架构将说明于下。
依据本发明实施例的搜索引擎的关键字关联建立系统包括一搜索引擎10、查询行为数据库11、浏览行为数据库12、关联分析器13、以及一关联词数据库14。
搜索引擎10系用以接收使用者输入的关键字,而依照输入的关键字进行查询。假设使用者输入一第一关键字与一第二关键字,则藉由搜索引擎10的查询可以分别得到相应的第一搜索信息与第二搜索信息。其中,第一搜索信息与第二搜索信息分别包括一第一文件集合与一第二文件集合,换句话说,第一文件集合与第二文件集合分别包括了多篇与第一关键字与第二关键字相关的文件。
查询行为数据库11中则记录使用者输入的第一关键字及相应的第一搜索信息与第二关键字及相应的第二搜索信息。浏览行为数据库12中则记录第一关键字及第一搜索信息所相应的第一浏览信息与第二关键字及第二搜索信息所相应的第二浏览信息。其中,第一浏览信息与第二浏览信息,分别包括相应第一文件集合与第二文件集合的一第一浏览时间集合与一第二浏览时间集合。第一浏览时间集合与第二浏览时间集合分别记录使用者针对第一文件集合与第二文件集合中不同文件的浏览时间。
关联分析器13则依据第一搜索信息、第二搜索信息、第一浏览信息、以及第二浏览信息,决定第一关键字与第二关键字所相应的一关联值。关联词数据库14则用来记录此第一关键字、第二关键字及相应的关联值。其中,关联值包含一搜索关联值与一浏览关联值,主要系依据使用者的查询行为与浏览行为来分别决定。
接下来,关联分析器13如何依据第一搜索信息、第二搜索信息、第一浏览信息、以及第二浏览信息,来决定第一关键字与第二关键字所相应的关联值将进行说明如下。
首先,相应于第一关键字与第二关键字的关联值中的搜索关联值可以以下列方程式计算:
其中,N1表示第一关键字所相应的第一文件集合中所包含的文件数目,N2表示第二关键字所相应的第二文件集合中所包含的文件数目,且S表示第一文件集合与第二文件集合中相同文件的数目。因此,搜索关联值可以依据第一文件集合与第二文件集合中出现的相同文件的数目来决定。
另一方面,相应于第一关键字与第二关键字的关联值中的浏览关联值可以以下列方程式计算:
W i = T i Σ j = 1 P T j P
其中,Wi表示S篇相同的文件中,文件i对于使用者的重要性。P表示S篇相同的文件中使用者浏览的文件数目,Ti表示使用者浏览文件i所花费的时间。换言之,所谓文件的重要性系依据此文件相对于其他相同文件中被使用者浏览的文件所花费的浏览时间而决定。
之后,可以利用搜索关联值与浏览关联值计算第一关键字与第二关键字所相应的关联值:
关联值1,2=α×搜索关联值1,2+(1-α)×浏览关联值1,2,其中,0≤α≤1,且α值可以依据不同的领域或应用而有所调整。
此外,本发明亦可依据不同使用者对于关键字的搜索与文件的浏览行为来相互进行关键字间的关联。
假设使用者A与使用者B分别输入第一关键字与第二关键字进行查询。第一关键字所相应的第一文件集合中包含了N1篇文件,第二关键字所相应的第二文件集合中包含了N2篇文件,且S表示第一文件集合与第二文件集合中相同文件的数目。因此,相应于第一关键字与第二关键字的关联值中的搜索关联值可以以下列方程式计算:
另一方面,相应于第一关键字与第二关键字的关联值中的浏览关联值可以以下列方程式计算:
W i , k = T i , k A i Σ j = 1 P T j , k A j P k
其中,Wi,k表示S篇相同的文件中,文件i对于使用者k的重要性。Pk表示S篇相同的文件中使用者k浏览的文件数目,Ti,k表示使用者k浏览文件i所花费的时间,Ai表示所有使用者浏览文件i所花费时间的平均。在此情况中,浏览行为数据库12中可以依据不同使用者分别记录其浏览信息,因此,Ai可以透过简单的运算求得。
相同地,可以利用搜索关联值与浏览关联值计算第一关键字与第二关键字所相应的关联值:
关联值1,2=α×搜索关联值1,2+(1-α)×浏览关联值1,2,其中,0≤α≤1,且α值可以依据不同的领域或应用而有所调整。
接下来,图2显示依据本发明实施例的搜索引擎的关键字关联建立方法的操作流程,同时参考图1与图2,本发明实施例的操作流程将说明于下。
首先,如步骤S20,使用者利用搜索引擎10查询第一关键字与第二关键字,从而分别得到相应第一关键字与第二关键字的第一搜索信息与第二搜索信息。然后,如步骤S22,将第一关键字及相应的第一搜索信息与第二关键字及相应的第二搜索信息记录于查询行为数据库11中。其中,第一搜索信息与第二搜索信息分别包括一第一文件集合与一第二文件集合,也就是说,第一文件集合与第二文件集合分别包括了多篇与第一关键字与第二关键字相关的文件。
并如步骤S24,将使用者对于第一搜索信息的浏览行为(第一浏览信息)与第二搜索信息的浏览行为(第二浏览信息)记录于浏览行为数据库12中。其中,第一浏览信息与第二浏览信息,分别包括相应第一文件集合与第二文件集合的一第一浏览时间集合与一第二浏览时间集合。第一浏览时间集合与第二浏览时间集合分别记录使用者针对第一文件集合与第二文件集合中不同文件的浏览时间。
接着,如步骤S26,关联分析器13依据储存于查询行为数据库11中的第一搜索信息及第二搜索信息与储存于浏览行为数据库12中的第一浏览信息及第二浏览信息,决定第一关键字与第二关键字所相应的关联值。
相同地,关联值包含一搜索关联值与一浏览关联值。其中,搜索关联值系依据第一文件集合与第二文件集合中出现的相同文件的数自来决定。浏览关联值系依据第一文件集合与第二文件集合中每一相同文件的重要性来决定。而每一相同文件的重要性系依据每一相同文件所分别相应第一浏览时间集合与第二浏览时间集合中的一第一浏览时间与一第二浏览时间来决定。
最后,如步骤S28,将第一关键字、第二关键字及相应的关联值记录于关联词数据库14之中。
因此,当使用者输入一关键字进行查询时,搜索引擎可以依据关联词数据库14中记录的相应关键字的关联值来搜索关联性较高的关键词来自动查询,或将关联性较高的关键词提供给使用者自行查询。
因此,借由本发明所提出的搜索引擎的关键字关联建立系统及方法,可以依据使用者或是不同使用者之间的查询行为及浏览行为来决定关联词的关联。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明,任何熟悉此项技艺者,在不脱离本发明的精神和范围内,当可做些许更动与润饰,因此本发明的保护范围当由权利要求书所界定。

Claims (8)

1.一种搜索引擎的关键字关联建立系统,其特征在于,包括:
一搜索引擎,用以查询第一关键字与第二关键字,从而分别得到相应的第一搜索信息与第二搜索信息;
一查询行为数据库,记录一第一关键字及相应的一第一搜索信息与一第二关键字及相应的一第二搜索信息;所述第一搜索信息与该第二搜索信息,分别包括一第一文件集合与一第二文件集合;
一浏览行为数据库,记录该第一关键字及该第一搜索信息所相应的一第一浏览信息与该第二关键字及该第二搜索信息所相应的一第二浏览信息;所述第一浏览信息与该第一浏览信息,分别包括相应该第一文件集合与该第二文件集合的一第一浏览时间集合与一第二浏览时间集合;
一关联分析器,依据该第一搜索信息、该第二搜索信息、该第一浏览信息、及该第二浏览信息,决定该第一关键字与该第二关键字所相应的一关联值;所述关联值包含一搜索关联值及一浏览关联值;
一关联词数据库,用以记录该第一关键字、该第二关键字及相应的该关联值。
2.如权利要求1所述的一种搜索引擎的关键字关联建立系统,其特征在于,该关联分析器是依据该第一文件集合与该第二文件集合中出现的相同文件的数目来决定该搜索关联值。
3.如权利要求1所述的一种搜索引擎的关键字关联建立系统,其特征在于,该关联分析器是依据该第一文件集合与该第二文件集合中每一该相同文件的重要性来决定该浏览关联值。
4.如权利要求3所述的一种搜索引擎的关键字关联建立系统,其特征在于,每一该相同文件的重要性是依据每一该相同文件所分别相应该第一浏览时间集合与该第二浏览时间集合中的一第一浏览时间与一第二浏览时间来决定。
5.一种搜索引擎的关键字关联建立方法,其特征在于,包括下列步骤:
查询第一关键字与第二关键字,从而分别得到相应的第一搜索信息与第二搜索信息;
记录一第一关键字及相应的一第一搜索信息与一第二关键字及相应的一第二搜索信息;该第一搜索信息与该第二搜索信息,分别包括一第一文件集合与一第二文件集合;
记录该第一搜索信息所相应的一第一浏览信息与该第二搜索信息所相应的一第二浏览信息;该第一浏览信息与该第二浏览信息,分别包括相应该第一文件集合与该第二文件集合的一第一浏览时间集合与一第二浏览时间集合;
依据该第一搜索信息、该第二搜索信息、该第一浏览信息、及该第二浏览信息,决定该第一关键字与该第二关键字所相应的一关联值;该关联值包含一搜索关联值及一浏览关联值;
记录该第一关键字、该第二关键字及相应的该关联值于一关联词数据库中。
6.如权利要求5所述的一种搜索引擎的关键字关联建立方法,其特征在于,该搜索关联值是依据该第一文件集合与该第二文件集合中出现的相同文件的数目来决定。
7.如权利要求5所述的一种搜索引擎的关键字关联建立方法,其特征在于,该浏览关联值是依据该第一文件集合与该第二文件集合中每一该相同文件的重要性来决定。
8.如权利要求7述的一种搜索引擎的关键字关联建立方法,其特征在于,每一该相同文件的重要性是依据每一该相同文件所分别相应该第一浏览时间集合与该第二浏览时间集合中的一第一浏览时间与一第二浏览时间来决定。
CNB011450851A 2001-12-29 2001-12-29 搜索引擎关键字的关联建立系统及方法 Expired - Fee Related CN1193309C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB011450851A CN1193309C (zh) 2001-12-29 2001-12-29 搜索引擎关键字的关联建立系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB011450851A CN1193309C (zh) 2001-12-29 2001-12-29 搜索引擎关键字的关联建立系统及方法

Publications (2)

Publication Number Publication Date
CN1430165A CN1430165A (zh) 2003-07-16
CN1193309C true CN1193309C (zh) 2005-03-16

Family

ID=4678007

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB011450851A Expired - Fee Related CN1193309C (zh) 2001-12-29 2001-12-29 搜索引擎关键字的关联建立系统及方法

Country Status (1)

Country Link
CN (1) CN1193309C (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8856163B2 (en) * 2003-07-28 2014-10-07 Google Inc. System and method for providing a user interface with search query broadening
US7158966B2 (en) * 2004-03-09 2007-01-02 Microsoft Corporation User intent discovery
US7475074B2 (en) * 2005-02-22 2009-01-06 Taiwan Semiconductor Manufacturing Co., Ltd. Web search system and method thereof
CN1858737B (zh) * 2006-01-25 2010-06-02 华为技术有限公司 一种数据搜索的方法和系统

Also Published As

Publication number Publication date
CN1430165A (zh) 2003-07-16

Similar Documents

Publication Publication Date Title
Fetterly et al. A large-scale study of the evolution of web pages
AU2009234120B2 (en) Search results ranking using editing distance and document information
US7882107B2 (en) Method and system for processing a text search query in a collection of documents
US10210256B2 (en) Anchor tag indexing in a web crawler system
JP4698737B2 (ja) ドキュメント利用統計を用いたランキング関数
CN1112647C (zh) 响应查询以对文档集合中的文档进行分级的系统和方法
Brin et al. The anatomy of a large-scale hypertextual web search engine
CN1279441C (zh) 用于确定热门的调用者-被调用者关系和对应的调用者/被调用者对的方法
US7065523B2 (en) Scoping queries in a search engine
US8209305B2 (en) Incremental update scheme for hyperlink database
US8332422B2 (en) Using text search engine for parametric search
US8335779B2 (en) Method and apparatus for gathering, categorizing and parameterizing data
CN1755678A (zh) 在排序搜索结果时引入锚文本用的系统和方法
CN1898667A (zh) 根据结果与用户查询的相关性增强搜索索引
CN1389811A (zh) 搜索引擎的智能化搜索方法
KR20060048655A (ko) 네트워크 문서의 배치화된 인텍싱을 위한 시스템 및 방법
CN1758244A (zh) 用于排列搜索结果的文档以改进多样性和信息丰富度的方法和系统
CN1755682A (zh) 使用点击距离对搜索结果分级的系统和方法
CN1898670A (zh) 提高搜索质量的系统和方法
CN1820267A (zh) 可配置的信息识别系统和方法
CN101079056A (zh) 一种搜索方法和系统
WO2009000174A1 (fr) Procédé et dispositif de classement de pages web
CN1731393A (zh) 基于关键词的企业信息搜索方法
CN1193309C (zh) 搜索引擎关键字的关联建立系统及方法
CN1710561A (zh) 用于索引和检索文档的方法、计算机程序及数据载体

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20050316

Termination date: 20181229