CN1639712A - 用于响应于信息搜索请求来提供搜索结果的方法和设备 - Google Patents
用于响应于信息搜索请求来提供搜索结果的方法和设备 Download PDFInfo
- Publication number
- CN1639712A CN1639712A CNA038052806A CN03805280A CN1639712A CN 1639712 A CN1639712 A CN 1639712A CN A038052806 A CNA038052806 A CN A038052806A CN 03805280 A CN03805280 A CN 03805280A CN 1639712 A CN1639712 A CN 1639712A
- Authority
- CN
- China
- Prior art keywords
- document
- tfidf
- electronic document
- item
- search results
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/954—Navigation, e.g. using categorised browsing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99937—Sorting
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了一种系统和方法,用于利用那些搜索结果文档中所含的项的TFIDF来获得搜索结果(即,电子文档),以量化搜索结果文档彼此之间的相关程度,并且根据那些量化的关系来组织搜索结果。利用这样的一种系统和方法,可以用如下这种方式来显示搜索结果文档,即:对于查看者而言搜索结果文档之间的关系是明显的。
Description
本发明涉及电子文档的搜索,更具体而言,涉及一种处理搜索结果以便确定搜索结果中的电子文档之间的关系的系统和方法。
启用因特网的计算装置(比如,个人计算机(PC)、个人数字助理(PDA)、蜂窝式电话等等)的普及使用是″web搜索″的性能特性。典型地,用户在计算装置上运行Web浏览器程序并运用Web浏览器在因特网上访问远程服务器上的搜索引擎。搜索引擎的用户界面往往是具有文字框的web页面,在所述文字框中,用户可以输入一个关键词或一系列关键词。一旦输入了这些关键词,搜索引擎就准备出一个与那些关键词相关的web页面的列表。通常,搜索引擎实际上不搜索因特网而是搜索索引数据库,在所述索引数据库中保存着与因特网上的web页面相对应的文件。在某些情况下,索引数据库由实际的web页面或web页面的压缩版本组成。
一旦已生成相关web页面的列表,搜索引擎的用户界面就向用户展示该列表。图1示出了用于显示搜索引擎结果的典型web页面用户界面100。在图1中,将结果展示成超文本形式的″链接″150,当用户利用计算装置的光标选择(″点击″或″双击″)链接时,所述超文本形式的″链接″允许用户直接跳到另一个web页面上。典型地,链接150按递减相关性的次序排列,其中web页面A151是最相关的web页面。
然而,彼此之间最强相关的链接往往出现在相关文件列表的独立的点处。例如,web页面A 151和web页面B 159事实上可能来自于同一个web站点。但是,因为它们是独立地呈现在列表上的,所以可能会误使用户认为它们是不相关的(当然除了搜索关键词之外)。另外,因为它们是独立呈现的并且在计算装置上只有有限大小的显示区,所以其它相关的web页面被挤出该显示区,且由此而不能被显示给用户。此外,尽管如果把web页面H 157和web页面I 153集合起来显示的话则将会更有效且更便利,但是与同一概念(concept)强相关的web页面(诸如web页面H 157和web页面I 153之类的)可能彼此相互分离。
因此,需要一种能够显示搜索结果以把彼此强相关的项集合起来的系统和方法,它们都避免重复并向查看者提供更多信息。
本发明的一个目的是,避免搜索结果列表中的相似项的重复。
本发明的另一个目的是,把搜索查询的结果中的强相关项集合起来以便查看者能够看到什么项位于搜索结果列表中的项之间。
本发明的另一个目的是,在计算装置中的搜索结果显示当中把强相关项集合起来,以便查看者能够看到哪些项在搜索结果列表中是互连的,并且以便查看者可以看到更多的搜索结果。
这些及其它目的是通过本发明来实现的,本发明提供了一种用于获得搜索结果(亦即电子文件)的系统和方法,所述系统和方法利用在那些搜索结果文档中所含的项的TFIDF来量化搜索结果文件彼此相关的程度并且根据那些已定量出的关系来组织(organize)搜索结果。利用这类系统和方法,能够用如下这种方式来显示搜索结果文档,所述方式就是:搜索结果文档之间的关系对于查看者而言是明显的。
通过结合附图思考下列详细说明,本发明的其它目的和特征将变得明显。然而,将要理解的是,附图仅仅是为举例说明而设计的,而不作为限制本发明的定义,应当参照所附的权利要求来限定本发明。还应理解的是,不必非得按照比例绘制这些附图,除非另作说明,它们仅仅意在从概念上举例说明这里所述的结构和程序。
在附图中,其中相似的附图标记指代相似的元件:
图1示出用于搜索引擎的常规web页面用户界面,以用来显示搜索结果;
图2是示出本发明优选实施例中的步骤概要的流程图;
图3是示出根据本发明实施例的用于执行图2的步骤210的示例性方法的流程图;
图4是示出根据本发明实施例的用于执行图2的步骤220的示例性方法的流程图;
图5是根据本发明优选实施例的图4中的步骤410的转换过程的概念说明。
图6是示出根据本发明优选实施例的用于减少单词数量的示例性方法的流程图,所述单词数量将变为图4中的步骤410的转换过程的矢量;
图7是示出根据本发明实施例的用于执行图2的步骤230的示例性方法的流程图;
图8是根据本发明优选实施例的图7的组织过程的概念说明;
图9是根据本发明优选实施例的用于处理搜索结果的示例性方法的流程图;和
图10示出根据本发明优选实施例的用于搜索引擎的web页面用户界面,它示出了搜索结果。
在图2的流程图中示出了本发明优选实施例中的步骤的概要。因为这是一种用于处理搜索项结果的系统和方法,而不是一种用于执行搜索的系统和方法,所以在图2中未示出执行搜索的步骤。任何可允许的生成搜索结果的方法都可以与本发明一起使用。在图2的步骤210中,计算每一个搜索结果项中的一些或所有项的TFIDF(项频率(TermFrequency/反相文档频率(Inverse Document Frequency))。在下面给出TFIDF的定义。接下来,在步骤220中,确定基于搜索结果项之间的TFIDF值的相似性。最后,在步骤230中,根据步骤220中确定的相似性来组织搜索结果项。
在此,将对于搜索结果项使用术语″电子文档″(或有时是″文档″)。电子文档是以电子格式存储的任何类型的文件,并且能由电子装置来″读取″。因为电子文档可以是照片或音轨,所以″读取″在本文中意味着电子装置把电子文档中的材料转换成能由人类感知的格式。电子文档的″项″是数据的单个位,电子装置可以将这些位从电子文档中解析出来。
例如,在后台中,电子文档是web页面,或者更确切地说,它们是HTML(超文本标记语言)文件。HTML包含了远远超过纯粹文本的″超文本″,并且提供了到其它web页面的链接以及指向其它资源的指针。HTML是″标记″语言,这是因为它描述了文档是如何被格式化的。换言之,它告知Web浏览器显示什么以及如何显示它。尽管所有的web页面都是以HTML(或其它类似的标记语言)的版本来编写的,但是用户永远都看不到HTML,而是仅仅能够看到HTML指令的结果。例如,web页面中的HTML可以指示Web浏览器检索存储在特定位置处的特定照片,并且在web页面的左下角中显示该照片。从另一方面来说,用户仅仅在左下角中看到了照片。HTML指令是″标记(tag)″的形式,比如像<body bgcolor=″#ffffff″>。对于本发明而言,HTML电子文档的″项″往往既包括出现在web页面上的文本的单词,HTML标记,又包括HTML标记内的所有元素。
此外,本发明适用于电子文档的任何集合,而不管它们例如是因特网搜索引擎的索引数据库中的web页面、MP3播放器中的音频文件,还是附带在用户的计算装置上的数据库中的记录。
TFIDF(项频率/反相文档频率)是一个项有多少次出现在一个特定电子文档中同具有那个特定项的全局文档组中有多少电子文档的比。分母(文档频率:DF)也可以是特定项有多少次出现在全局文档组中。无论哪种,分母(DF)的功能是表明那个项将能多么有利地帮助区分全局文档组中的文档。例如,如果诸如″antidisestablishmentarianism″之类的特定项仅仅出现在三篇文档中,那么其DF将等于3。诸如″the″之类的另一项可能会出现在300,000篇文档中,那么其DF就是300,000。这样一来,因为DF是TFIDF的分母,所以″antidisestablishmentarianism″的TFIDF就会比″the″的TFIDF大得多。照此,当选择在区分文档过程中最有用的那些项的过程时,TFIDF是有用的。
对于文档x中的单词wi的TFIDF的数学定义为:
其中:
ft x(wi)=TF-单词wi在文档x中的频率
fd(wi)=DF-单词wi在全局文档组上的文档频率
可以根据特定实施例的需要来改变全局文档组。
如图3所示,可以进一步分解图2中的步骤210。在步骤310中(它出现在由虚线构成的框中,其中虚线指向该步骤在该方法中的两个可能的位置,下面将对其进行解释),确定单个单词或项的全局频率fd:
步骤310 DFG(wi)=fd(wi)=其中项wi出现在文档的组G中的文档数目
当全局频率fds为预定量时,虚线313示出了步骤310的位置。在这种情况下,可以当初始化系统时仅执行一次步骤310,而不考虑执行多少次其余的步骤。在确定什么将充当文档的全局组G时,存在许多活动余地(latitude)。例如,如果利用因特网搜索引擎进行工作的话,那么全局组G就可能是索引数据库中的索引文件组。往往会计算每个web页面中的每个单词和/或项的DFG,并且将会存储那些DF值以待随后使用。这一计算可能发生在任何特定搜索执行以前。作为另一个示例,可以使用抗计概率的词典,其中词典中的每个项往往具有一个出现在全局组G中的任何单个文档中的相关联的概率。如果全局组G是因特网,那么所述词典就可以以web页面的统计抽样为基础。如果全局组G是医学文本数据库,那么词典就可以是具有医学文本数据库中的单词wi的文档的准确总数。随着内容改变,可以经常地更新这些值(即,可以重复步骤310)。
当把实际搜索结果用作为全局文档组G来确定全局频率fds时,虚线315示出步骤310的位置。换言之,在已经执行了特定的搜索查询并且已经产生搜索结果(即,步骤320)之后,就会利用搜索结果中的文档来计算那些文档中的项的全局频率fds。
不考虑是在搜索之前还是之后确定的全局频率,图3中的下一步是步骤330,其中计算每个搜索结果文档中的每个单词的项频率。假定在搜索结果中有N篇文档。由此,计算N篇文档中的每一篇的每个单词wx的项频率ft:
其中k=1,2,…,N
在其它实施例中,可以通过用这个量除以该文档中的单词数目来正规化这个值。在步骤330之后,计算N篇文档中的每一篇的每个单词wi的TFIDF:
步骤340
其中k=1,2,…,N
在步骤340之后,不必确实让每个文档中的每个单词都具有TFIDF值。例如,如果通过利用web页面的搜索引擎的索引数据库的典型抽样来预先(即,如果步骤310是在步骤320之前的)计算单个项的全局频率fd,那么就存在永远不给单个搜索结果文档中的某些单词指定全局频率fd的可能性。作为另一个示例,当正在从词典中下载单个项的全局频率fd时,可能全发生这种情况,所述词典将单词关联于那些出现在英语中的单词的统计概率。在那些情况下,搜索结果文档中的那些没有fds的单词可以被忽略,或者可以把搜索结果用作为全局组来计算全局频率fds。在其它实施例中,其中可以把搜索结果文档组作为全局文档组来计算那些单词的fd(即,其中步骤310是在步骤之后的),由于出现在所有文档或几乎所有文档中的单词具有很小的区分能力,因而可以将这些单词丢弃。
返回到图2,当在步骤210中计算了搜索结果文档中的一些或所有单词的TFIDF以后,根据步骤220中的TFIDF值来确定搜索结果项之间的相似性。在本发明的优选实施例中,步骤220包括两个步骤,如图4所示。在图4中的步骤410中,搜索结果文档被转换成矢量格式;在步骤420中,利用在步骤410中创建的矢量实体来计算相对应的文档之间的相似性度量。
图5是图4中的步骤410的转换过程的概念上说明。文档D 510是由按特定顺序的单词W1、W3、W7、W15、W16等等组成的。也可以将这个表示成组D 520。当转换成矢量格式时,用每个单词的TFIDF矢量来替代这些单词,由此得出矢量实体
D。一旦在步骤410中每个文档都处于矢量格式,就可以在步骤420中测量文档之间的相似性(例如,矢量距离)。
在某些情况下,在步骤410中,也可以希望仅仅把文档中的某些单词转换成TFIDF矢量格式,而不是把所有的单词都转换。当后来比较这些文档时,这种矢量的缩减将会导致更少的存储器和更少的计算量。然而,必须确定将要转换哪些单词和不转换哪些单词。图6是用于减少单词数目的示例性方法,其中所述单词将在图4的转换步骤410中变为矢量。在步骤610中,计算每个单词的总体TFIDFo(全部搜索结果文档的TFIDF):
步骤610
这个等式把全部N篇搜索结果文档中的每个单词wi的TFIDF值全部加起来。接下来,在步骤620中选择具有最高TFIDFo的预定数目M个单词。M可能是从1到N中任何用数字量。如果M是1,则在步骤420中计算的相似性度量将以一个单词或项为基础。优选地,选择M使得在文档之间比较大量的矢量,不过,像″the″和″an″这样的单词会因其相对低的TFIDFo值而从比较中排除。在步骤620中也可以使用其它的选择方法。例如,阈值TFIDFo值可以用于确定将选择哪些单词。这将意味着所选的单词的数目将随着搜索而变化,不过相关性的等级将是恒定的。
返回到图4,在步骤420中,存在许多用于确定矢量实体之间的相似性(即,距离)的方法。本领域所众所周知的一些相似性度量例如包括:骰子(Dice)系数和余弦系数。余弦系数表示两个矢量之间的点积并且计量了矢量之间的角度。在优选实施例中,相对于单词而言所述角度表示了两篇文档之间的相对紧密性,其中两个矢量都与该单词相对应。例如,单词″因特网″将具有文档D1中的矢量和文档D2中的矢量,而这两个矢量之间的小角度将表明这两个矢量与它们的典型文档D1和D2是密切相关的。在R.O.Duda、P.E.Hart和D.G.Stork(John Wiley & Sons,2000年)的
Pattern Classification(模 式分类)中给出了相似性度量的许多示例,将该篇文献在此引入以供参考。
返回到图2,根据在步骤230中确定的相似性来组织搜索结果项。在本发明的优选实施例中,步骤230包括两个步骤,如图7所示。在图7中的步骤710中,利用关于在步骤220中计算的相似性度量方面的标准聚类方法,来把搜索结果文档集合在一起或者″聚类″在一起。这将创建在不同程度上密切相关的文档的簇。聚类方法是本领域所众所周知的。优选实施例使用k步聚类法,这是一种用于把数据点聚类成数据点的不相交子集以使得平方和准则被最小化的算法。k步聚类法具有下列属性-(a)每个簇都具有一个中心,该中心是该簇中的所有数据点的平均位置;和(b)每个数据点都位于它最接近其中心的簇中。在William B.Frakes和Ricardo Baeza-Yates(Eds.)(PrenticeHall,1992年)的Information Retrieval:Data Structures &Algorithms(信息检索:数据结构与算法)的Edie Rasmussen的一篇文章″Clustering Algorithms(聚类算法)″中可以找到许多的聚类方法示例,将该篇引入于此以供参考。在步骤720中,把每个簇的矩心选择成文档中的那个簇的″典型的″文档。确定矢量实体的簇的矩心也是本领域所众所周知的,并且在Pattern Classification(模式分类)中能够找到矩心计算的示例,将该篇文献引入于此以供参考。
图8是图7的两步组织过程的概念说明。图8中的框800是矢量空间的一部分的表示。尽管在图8中是按照二维示出的,但是这个矢量空间将可能是M维的,其中M是在文档之间正在比较的单词数目。矢量实体A 851、B 859、H 857和I 853表示不同的文档。在图7的两步过程中,第一,把相似的文档(即,在矢量空间中靠在一起的矢量实体)集合起来,如包围簇A 851、B 859、Q和X的线810和包围簇H 957、I 953、P和M的线820所示。什么位于簇中的判断可能包括阈值(例如,相同簇中到最远矢量实体的最大距离,到簇的潜在矩心的最大距离,等等)。第二,确定每个簇的矩心(centroid)。在图8中,文档A 851是第一簇的矩心,而文档H 857是第二簇的矩心。依据搜索结果中的文档数目,可以具有多层的聚类,即簇内的子簇、子簇内的子子簇,依此类推。
图2给出了根据本发明优选实施例的方法的概要。图3-8以及它们所附的说明探究了实现图2中的步骤的具体装置。现在,图9将示出用于实现本发明优选实施例的具体示例性步骤的完整序列。
图9是根据本发明优选实施例的步骤的示例性序列的流程图。在步骤910中,确定全局文档组当中的所有项或一些项的文档频率。这个步骤的执行可能发生在特定搜索之前或之后。在执行搜索并返回搜索结果之后,在步骤920中确定构成搜索结果的电子文档中的一些项或所有项的项频率。在步骤910之后发生步骤920也是可能的。兼备步骤920的项频率和步骤910的文档频率,在步骤930中确定搜索结果文档中的一些项或所有项的TFIDF。
在步骤940中,将每个搜索结果文档被转换成TFIDF矢量实体。在步骤950利用搜索结果文档的相应TFIDF矢量实体,来计算这些搜索结果文档之间的相似性度量。利用该相似性度量,在步骤960中,通过聚类相应的矢量实体来把搜索结果文档集和成簇。最后,在步骤970中,通过选择相应矢量实体簇的矩心,来从每个簇中选择出典型文档。
图10示出了用于在执行根据本发明优选实施例的方法步骤之后显示搜索引擎结果的示例性web页面用户界面1000。在图10的web页面中显示在图8中已组织的一些搜索结果的链接。搜索结果以半层次格式(只有两层,即矩心和保留在簇中的其他文档)加以呈现。当web页面打开时,每个簇的矩心都只显示链接。每个矩心在它的左侧的框中都有一个″+″;当点击″+″时,会在矩心下面显示出第二级链接。在图10中,紧挨着矩心链接A 1051和H 1057的″+″框已被点击,所以在每个矩心链接下面显示出了第二层文档。按照递减相关性的次序示出所述第二层文档。因此,在矩心文档A 851的链接1051下面是所列出的文档B的链接1059、文档Q的链接以及文档X的链接。
与图1相反,如图10所示,本发明的优选实施例把强相关的文档集合在一起。这将使用户更容易理解搜索结果是如何分解为相关的类别的。例如,如果用户利用关键词″mason″来进行搜索,那么搜索结果就可能会落入两个基本类别:一方面是masons和masonry,而另一方面是freemasonry。在现有技术中,来自于两个类别的结果往往会交错,这使用户难以缩小他或她在期望的类别上的注意力。利用本发明的优选实施例,用户就会接收已经被分隔成两个类别″mason/masonry″和″freemasonry″的结果。
上述各种优选实施例的说明示出了本发明的一些优点。通过使用项的TFIDF,本发明考虑到了在区分文档过程中项有效的程度。根据搜索结果之间的关系来把搜索结果组织成簇,帮助用户立即确定了文档之间的连接。
本发明的在优选实施例中的许多参数可以由用户来设置。用户可以确定将在方法中使用那些项。例如,如果搜索结果是HTML文档形式的,那么该用户可以指明在方法中只使用了照片标记,由此使得根据他们的照片来聚类所述文档。该用户可以确定不同的全局组,根据这些全局组来确定全局频率。例如,如果本发明的实施例使用了来自于一个或多个词典中的预定fd值,则该用户就可以依据搜索来选择使用不同的词典(即,当大多数搜索结果为医学文章时选择医学词典,而当结果是法律文章时选择法律词典,等)。用户还可以确定可能会使用的不同阈值。例如,用户可以通过确定最大距离来相明簇的大小。作为另一个示例,用户可以为将在相似性度量步骤中比较多少矢量而选择值M。那样,用户就可以限制所需的计算量并很快接收到结果;或者增加计算量并接收更多精细区分的结果。
尽管已经示出、描述并指出了本发明当应用于其优选实施例时的基本新颖性特征,将要理解的是,在所述方法及所举例说明的装置的形式和细节和它们操作上的各种省略、替换和改变,都可以由本领域的技术人员在不背离本发明精神的情况下作出。举例来说,意图让基本上以实质相同的方式执行相同功能以实现相同结果的那些元件和/或方法步骤的全部组合都落入本发明的范围内。此外,应当认识到的是,可以把结合本发明的任何已公开的形式或实施例而描述的结构和/或元件和/或方法步骤并入到任何其它公开或者描述或提出的形式或实施例中,以作为设计选择的一般实质内容。因此,意在仅仅由这里所附的权利要求的范围来加以限制。
Claims (17)
1.一种用于处理搜索结果的方法,其中所述搜索结果是由项组成的电子文档,其特征在于,包括以下步骤:
确定搜索结果当中每个电子文档中的每个项的项频率反相文档频率TFIDF(210),其中所述TFIDF是项频率除以文档频率,其中所述项频率是文档中的特定项的频率,而所述文档频率是特定项在全局文档组上的频率;
确定搜索结果中的电子文档之闸的相似性度量(220),其中所述相似性度量是以所确定的TFIDF值为基础的;以及
根据所确定的相似性度量来组织搜索结果(230)。
2.如权利要求1所述的方法,其特征在于:所述文档频率是下列两者的其中之一:特定项出现在全局电子文档组中的次数或其中出现特定项的全局电子文档组中的电子文档数目。
3.如权利要求1所述的方法,其中确定每个电子文档中的每个项的TFIDF的步骤的特征在于,包括以下步骤:
确定特定项出现在全局电子文档组中的次数和其中出现特定项的全局电子文档组中的电子文档数目的其中之一(310);
确定每个项处于特定电子文档中的次数(330);以及
通过用第二步的结果除以第一步的结果,来确定搜索结果当中每个特定电子文档中的每个项的TFIDF(340)。
4.如权利要求1所述的方法,其中确定搜索结果中的电子文档之间的相似性度量的步骤的特征在于,包括以下步骤:
把搜索结果中的每个电子文档转换成矢量格式(410),借此为每个电子文档创建相对应的矢量实体,其中所确定的TFI DF值为矢量;
以及
计算相对应的矢量实体之间的相似性度量(420)。
5.如权利要求4所述的方法,其中根据所确定的相似性度量来组织搜索结果的步骤的特征在于,包括以下步骤:
利用计算出的相似性度量,通过聚类搜索结果中的电子文档相对应的矢量实体(710)来聚类它们,借此形式至少一个簇;以及
通过选择每个簇中的矩心矢量实体,来选择至少一个簇中每一个的典型电子文档(720)。
6.如权利要求3所述的方法,其特征在于:所述确定文档频率步骤发生在执行搜索之前(313)和执行搜索之后(315)的其中之一。
7.如权利要求3所述的方法,其特征在于:所述确定文档频率步骤发生在执行搜索之前(313),并且其中全局电于文档组是搜索引擎的索引数据库中的一组索引文件。
8.如权利要求3所述的方法,其特征在于:所述确定文档频率步骤发生在执行搜索之后(315),并且其中所述DF是从包含项的统计概率的词典中检索出的。
9.如权利要求3所述的方法,其特征在于:所述确定文档频率步骤发生在执行搜索之后(315),并且其中所述全局文档组是搜索结果。
10.如权利要求1所述的方法,其特征在于:在确定TDIDF步骤中确定的TFIDF是通过每个确定的TFIDF除以特定电子文档的长度来正规化的。
11.如权利要求1所述的方法,其特征在于:所述计算相似性度量步骤是利用骰子系数和余弦系数的其中之一来执行的。
12.如权利要求4所述的方法,其特征进一步在于,包括以下步骤:
通过利用计算出的相似性度量,在聚类步骤中所创建的所述至少一个簇的至少一个簇内创建子簇;以及
通过选择所创建的子簇中的矩心矢量实体,来为创建的子簇选择典型电子文档。
13.如权利要求5所述的方法,其特征在于,进一步包括以下步骤:
通过示出搜索结果中的电子文档的分级结构来显示搜索结果的摘要,其中所述分级结构包括簇中的典型文档的第一级和剩余文档的第二级。
14.如权利要求5所述的方法,其中把搜索结果中的每个电子文档转换成矢量格式步骤的特征在于,包括以下步骤:
计算其TFIDF已确定的每个项的总体TFIDF(610),其中特定项的总体TFIDF是搜索结果的电子文档中的那个特定项的所有TFIDF的总和;
根据项的总体TFIDF来选择具有总体TFIDF的项的数目M(620),其中M小于或等于具有总体TFIDF的项的总数;以及
把搜索结果中的每个电子文档转换成矢量格式,其中仅仅把所选定的M个项的确定的TFIDF值作为矢量使用。
15.如权利要求14所述的方法,其中根据项的总体TFIDF来选择具有总体TFIDF的项的数目M的步骤的特征在于,包括以下步骤:
选择数目M;以及
选择具有最高的总体TFIDF值的M个项。
16.如权利要求14所述的方法,其中根据项的总体TFIDF来选择具有总体TFIDF的项的数目M的特征在于,包括以下步骤:
为一个项选择最小总体TFIDF值;以及
选择具有高于最小总体值的总体TFIDF值的项,其中M是具有高于最小总体值的一个总体TFIDF值的项的任何数目。
17.一种用于处理搜索结果的系统,其中所述搜索结果是由项组成的电子文档,所述系统的特征在于:
用于确定全局电子文档组中的一些项或所有项的文档频率DF的装置,其中所述文档频率是一个项在全局文档组上的频率;
用于确定搜索结果当中每个文档中的一些项或所有项的项频率TF的装置,其中所述项频率是一个项出现在一个特定电子文档中的次数;
用于通过把每个特定项的TF除以特定项的DF,来确定搜索结果当中每个特定电子文档中的一些项或所有项的项频率反相文档频率TFIDF的装置;
用于把搜索结果中的每个电子文档转换成矢量格式借此为每个电子文档创建相应的矢量实体的装置,其中所确定的TFIDF值为矢量;
用于计算相应的矢量实体之间的相似性度量的装置;
用于利用计算出的相似性度量通过聚类搜索结果中的电子文档的相应的矢量实体来聚类它们借此形成至少一个簇的装置;和
用于通过选择每个簇中的矩心矢量实体来选择至少一个簇的每一个的典型电子文档的装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/093,329 US6910037B2 (en) | 2002-03-07 | 2002-03-07 | Method and apparatus for providing search results in response to an information search request |
US10/093,329 | 2002-03-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1639712A true CN1639712A (zh) | 2005-07-13 |
Family
ID=27787962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA038052806A Pending CN1639712A (zh) | 2002-03-07 | 2003-02-19 | 用于响应于信息搜索请求来提供搜索结果的方法和设备 |
Country Status (7)
Country | Link |
---|---|
US (1) | US6910037B2 (zh) |
EP (1) | EP1485823A2 (zh) |
JP (1) | JP2005519396A (zh) |
KR (1) | KR20040091095A (zh) |
CN (1) | CN1639712A (zh) |
AU (1) | AU2003206064A1 (zh) |
WO (1) | WO2003075181A2 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073718A (zh) * | 2011-01-10 | 2011-05-25 | 清华大学 | 一种对概率数据库查询结果予以解释与擦改的系统及方法 |
CN102124439A (zh) * | 2008-06-13 | 2011-07-13 | 电子湾有限公司 | 用于集群化的方法和系统 |
CN101408885B (zh) * | 2007-10-05 | 2012-12-19 | 富士通株式会社 | 利用统计分布对主题进行建模 |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3452558B2 (ja) * | 2001-09-25 | 2003-09-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 翻訳対象のリソースと分野別辞書を関連付けるための方法、システムおよびプログラム |
US7243092B2 (en) * | 2001-12-28 | 2007-07-10 | Sap Ag | Taxonomy generation for electronic documents |
US8561069B2 (en) * | 2002-12-19 | 2013-10-15 | Fujitsu Limited | Task computing |
US7870134B2 (en) * | 2003-08-28 | 2011-01-11 | Newvectors Llc | Agent-based clustering of abstract similar documents |
US7761885B2 (en) * | 2004-04-28 | 2010-07-20 | Fujitsu Limited | Task computing |
US8117280B2 (en) * | 2003-12-12 | 2012-02-14 | Fujitsu Limited | Task computing |
JP3978221B2 (ja) | 2003-12-26 | 2007-09-19 | 松下電器産業株式会社 | 辞書作成装置および辞書作成方法 |
JP2005250693A (ja) * | 2004-03-02 | 2005-09-15 | Tsubasa System Co Ltd | 文字情報分類プログラム |
JP4634736B2 (ja) * | 2004-04-22 | 2011-02-16 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム |
US7392474B2 (en) * | 2004-04-30 | 2008-06-24 | Microsoft Corporation | Method and system for classifying display pages using summaries |
US7809695B2 (en) * | 2004-08-23 | 2010-10-05 | Thomson Reuters Global Resources | Information retrieval systems with duplicate document detection and presentation functions |
US8065336B2 (en) * | 2004-12-20 | 2011-11-22 | Fujitsu Limited | Data semanticizer |
US8015065B2 (en) * | 2005-10-28 | 2011-09-06 | Yahoo! Inc. | Systems and methods for assigning monetary values to search terms |
US7769751B1 (en) * | 2006-01-17 | 2010-08-03 | Google Inc. | Method and apparatus for classifying documents based on user inputs |
JP2007241635A (ja) * | 2006-03-08 | 2007-09-20 | Nec Corp | 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム |
US8972872B2 (en) * | 2006-03-27 | 2015-03-03 | Fujitsu Limited | Building computing applications based upon metadata |
US7558787B2 (en) * | 2006-07-05 | 2009-07-07 | Yahoo! Inc. | Automatic relevance and variety checking for web and vertical search engines |
US7933904B2 (en) * | 2007-04-10 | 2011-04-26 | Nelson Cliff | File search engine and computerized method of tagging files with vectors |
US8019742B1 (en) | 2007-05-31 | 2011-09-13 | Google Inc. | Identifying related queries |
US8935249B2 (en) | 2007-06-26 | 2015-01-13 | Oracle Otc Subsidiary Llc | Visualization of concepts within a collection of information |
US8024327B2 (en) * | 2007-06-26 | 2011-09-20 | Endeca Technologies, Inc. | System and method for measuring the quality of document sets |
KR20090033728A (ko) * | 2007-10-01 | 2009-04-06 | 삼성전자주식회사 | 컨텐트 요약 정보 제공 방법 및 그 장치 |
US8171035B2 (en) | 2007-10-22 | 2012-05-01 | Samsung Electronics Co., Ltd. | Situation-aware recommendation using correlation |
US8019782B2 (en) * | 2007-10-22 | 2011-09-13 | Samsung Electronics Co., Ltd. | Situation-aware recommendation using limited cluster sizes |
US8166052B2 (en) * | 2007-10-22 | 2012-04-24 | Samsung Electronics Co., Ltd. | Situation recognition for recommendation using merge-split approach |
US20090119281A1 (en) * | 2007-11-03 | 2009-05-07 | Andrew Chien-Chung Wang | Granular knowledge based search engine |
US7720870B2 (en) * | 2007-12-18 | 2010-05-18 | Yahoo! Inc. | Method and system for quantifying the quality of search results based on cohesion |
US10664889B2 (en) * | 2008-04-01 | 2020-05-26 | Certona Corporation | System and method for combining and optimizing business strategies |
JP5234405B2 (ja) * | 2008-04-24 | 2013-07-10 | アイシン・エィ・ダブリュ株式会社 | 検索装置及び検索プログラム |
US20090287645A1 (en) * | 2008-05-15 | 2009-11-19 | Yahoo! Inc. | Search results with most clicked next objects |
JP5316158B2 (ja) * | 2008-05-28 | 2013-10-16 | 株式会社リコー | 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 |
US9183323B1 (en) | 2008-06-27 | 2015-11-10 | Google Inc. | Suggesting alternative query phrases in query results |
US8095545B2 (en) * | 2008-10-14 | 2012-01-10 | Yahoo! Inc. | System and methodology for a multi-site search engine |
TW201027375A (en) * | 2008-10-20 | 2010-07-16 | Ibm | Search system, search method and program |
US8161054B2 (en) * | 2009-04-03 | 2012-04-17 | International Business Machines Corporation | Dynamic paging model |
US9836448B2 (en) * | 2009-04-30 | 2017-12-05 | Conversant Wireless Licensing S.A R.L. | Text editing |
US20110015921A1 (en) * | 2009-07-17 | 2011-01-20 | Minerva Advisory Services, Llc | System and method for using lingual hierarchy, connotation and weight of authority |
CN102053992B (zh) * | 2009-11-10 | 2014-12-10 | 阿里巴巴集团控股有限公司 | 聚类方法和系统 |
US8849785B1 (en) | 2010-01-15 | 2014-09-30 | Google Inc. | Search query reformulation using result term occurrence count |
TWI490711B (zh) * | 2010-02-11 | 2015-07-01 | Alibaba Group Holding Ltd | Clustering methods and systems |
JP2012027846A (ja) * | 2010-07-27 | 2012-02-09 | Sony Corp | 情報処理装置、情報表示方法及びコンピュータプログラム |
JP5740228B2 (ja) * | 2011-07-01 | 2015-06-24 | Kddi株式会社 | 代表的なコメント抽出方法およびプログラム |
EP2693346A1 (en) * | 2012-07-30 | 2014-02-05 | ExB Asset Management GmbH | Resource efficient document search |
US20140280088A1 (en) * | 2013-03-15 | 2014-09-18 | Luminoso Technologies, Inc. | Combined term and vector proximity text search |
US10061796B2 (en) | 2014-03-11 | 2018-08-28 | Google Llc | Native application content verification |
JP6260678B2 (ja) * | 2016-12-06 | 2018-01-17 | 株式会社Jvcケンウッド | 情報処理装置、情報処理方法、及び情報処理プログラム |
CN110019785B (zh) * | 2017-09-29 | 2022-03-01 | 北京国双科技有限公司 | 一种文本分类方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5913215A (en) * | 1996-04-09 | 1999-06-15 | Seymour I. Rubinstein | Browse by prompted keyword phrases with an improved method for obtaining an initial document set |
US6038561A (en) * | 1996-10-15 | 2000-03-14 | Manning & Napier Information Services | Management and analysis of document information text |
US5819258A (en) * | 1997-03-07 | 1998-10-06 | Digital Equipment Corporation | Method and apparatus for automatically generating hierarchical categories from large document collections |
US5924090A (en) * | 1997-05-01 | 1999-07-13 | Northern Light Technology Llc | Method and apparatus for searching a database of records |
US6081805A (en) * | 1997-09-10 | 2000-06-27 | Netscape Communications Corporation | Pass-through architecture via hash techniques to remove duplicate query results |
US6182066B1 (en) * | 1997-11-26 | 2001-01-30 | International Business Machines Corp. | Category processing of query topics and electronic document content topics |
JPH11213000A (ja) * | 1998-01-29 | 1999-08-06 | Nippon Telegr & Teleph Corp <Ntt> | インタラクティブ情報検索方法及び装置及びインタラクティブ情報検索プログラムを格納した記憶媒体 |
US6418429B1 (en) * | 1998-10-21 | 2002-07-09 | Apple Computer, Inc. | Portable browsing interface for information retrieval |
US6360227B1 (en) * | 1999-01-29 | 2002-03-19 | International Business Machines Corporation | System and method for generating taxonomies with applications to content-based recommendations |
-
2002
- 2002-03-07 US US10/093,329 patent/US6910037B2/en not_active Expired - Lifetime
-
2003
- 2003-02-19 WO PCT/IB2003/000721 patent/WO2003075181A2/en active Application Filing
- 2003-02-19 JP JP2003573567A patent/JP2005519396A/ja active Pending
- 2003-02-19 CN CNA038052806A patent/CN1639712A/zh active Pending
- 2003-02-19 AU AU2003206064A patent/AU2003206064A1/en not_active Abandoned
- 2003-02-19 EP EP03702948A patent/EP1485823A2/en not_active Ceased
- 2003-02-19 KR KR10-2004-7013755A patent/KR20040091095A/ko not_active Application Discontinuation
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101408885B (zh) * | 2007-10-05 | 2012-12-19 | 富士通株式会社 | 利用统计分布对主题进行建模 |
CN102124439A (zh) * | 2008-06-13 | 2011-07-13 | 电子湾有限公司 | 用于集群化的方法和系统 |
CN102073718A (zh) * | 2011-01-10 | 2011-05-25 | 清华大学 | 一种对概率数据库查询结果予以解释与擦改的系统及方法 |
CN102073718B (zh) * | 2011-01-10 | 2013-01-30 | 清华大学 | 一种对概率数据库查询结果予以解释与擦改的系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
AU2003206064A1 (en) | 2003-09-16 |
WO2003075181A3 (en) | 2004-03-25 |
US20030172063A1 (en) | 2003-09-11 |
EP1485823A2 (en) | 2004-12-15 |
JP2005519396A (ja) | 2005-06-30 |
KR20040091095A (ko) | 2004-10-27 |
WO2003075181A2 (en) | 2003-09-12 |
US6910037B2 (en) | 2005-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1639712A (zh) | 用于响应于信息搜索请求来提供搜索结果的方法和设备 | |
US10474686B2 (en) | Information theory based result merging for searching hierarchical entities across heterogeneous data sources | |
US6701314B1 (en) | System and method for cataloguing digital information for searching and retrieval | |
US8086601B2 (en) | Systems and methods of retrieving relevant information | |
Xue et al. | Optimizing web search using web click-through data | |
US6418433B1 (en) | System and method for focussed web crawling | |
Amento et al. | Does “authority” mean quality? Predicting expert quality ratings of Web documents | |
US8655888B2 (en) | Searching documents for ranges of numeric values | |
JP4763354B2 (ja) | 検索結果のランク付けへのアンカーテキストの組込みシステムおよび方法 | |
US20040215606A1 (en) | Method and apparatus for machine learning a document relevance function | |
CN1702654A (zh) | 计算显示页面中块的重要度的方法和系统 | |
US20050165757A1 (en) | Method and apparatus for ranking web page search results | |
RU2236699C1 (ru) | Способ поиска и выборки информации с повышенной релевантностью | |
KR20080046670A (ko) | 문서 사용 통계치를 사용한 랭킹 함수 | |
US20080250008A1 (en) | Query Specialization | |
Wolfram | The symbiotic relationship between information retrieval and informetrics | |
Dolin et al. | Scalable collection summarization and selection | |
US20080147631A1 (en) | Method and system for collecting and retrieving information from web sites | |
Barrio et al. | Sampling strategies for information extraction over the deep web | |
Wang et al. | PMS-Sorting: A New Sorting Algorithm Based on Similarity. | |
Holi et al. | Integrating tf-idf weighting with fuzzy view-based search | |
Ozmutlu et al. | A Monte-Carlo simulation application for automatic new topic identification of search engine transaction logs | |
Klink et al. | Visualising and mining digital bibliographic data | |
El Hassani et al. | The Search for Digital Information by Evaluating Four Models | |
Choi et al. | Ranking web pages relevant to search keywords |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |