New! View global litigation for patent families

CN1609859A - 搜索结果聚类的方法 - Google Patents

搜索结果聚类的方法 Download PDF

Info

Publication number
CN1609859A
CN1609859A CN 200410091772 CN200410091772A CN1609859A CN 1609859 A CN1609859 A CN 1609859A CN 200410091772 CN200410091772 CN 200410091772 CN 200410091772 A CN200410091772 A CN 200410091772A CN 1609859 A CN1609859 A CN 1609859A
Authority
CN
Grant status
Application
Patent type
Prior art keywords
clustering
search
document
result
sorts
Prior art date
Application number
CN 200410091772
Other languages
English (en)
Inventor
孙斌
Original Assignee
孙斌
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRICAL DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • G06F17/3061Information retrieval; Database structures therefor ; File system structures therefor of unstructured textual data
    • G06F17/30705Clustering or classification
    • G06F17/30707Clustering or classification into predefined classes

Abstract

一种搜索结果聚类的方法,包括如下步骤:预先记录被索引文档相对于其所包含的某个或者某几个关键词的一个或多个类别;根据预先记录的文档相对于包含在搜索请求中的某个或者某几个关键词的类别,对所述搜索结果中的文档分组。所述类别可以为任意的文档分类标记或者关键词。每个类别可设置一个权重值。搜索结果中的文档被放入该文档相对于查询关键词的类别集合中,并且所得到的各个聚类类别的级别可由其所包含的文档的级别来计算。本发明的聚类过程可以高效地完成,适用于大规模文档检索系统(例如互联网搜索引擎)对搜索结果的聚类,并且通过对聚类类别评级,可以将具有较高级别的聚类以及其中较高级别的文档优先呈现给用户。

Description

搜索结果聚类的方法

技术领域

本发明涉及信息检索技术领域,特别是对检索出来的结果进行自动聚类的方法,例如在联机文档检索系统或者网络搜索引擎中对用户查询的结果进行聚类的方法。

背景技术

目前,基于计算机或者计算机网络的文档检索系统对于用户查询所返回的搜索结果通常是包含了文档表示(例如标题、摘要)或文档链接的一个列表,列表中的文档一般按照文档与查询之间的相关程度由高到低排序。用户在此列表中进一步查找和选取实际相关或有用的文档。对于非常大的文档库,例如互联网搜索引擎所搜集的网页库,系统返回给用户的搜索结果通常是成百上千的文档链接。用户在大量的返回结果中查找有用信息对用户而言是一种很大的负担,质量、类别等有很大不同的文档线性地罗列在一起也容易掩盖用户真正关心的文档。对此,除了进一步提高文档检索技术(例如充分利用网页的超链接特征、文本格式化信息等)、尽量将用户可能感兴趣的文档排列在靠前的位置之外,另外一种方便用户在搜索结果中进行浏览和查找的技术是系统对搜索结果进行自动分组,即将具有相似特征(例如内容主题)的文档(或文档表示)放在同一组之中,以便于用户缩小查找范围、只在感兴趣的少数组中查找和选取所关心的文档。

一种常用的分组技术是文档分类(Classification),或更准确地称为文档归类(Categorization),即在一个预先定义的、固定的类别集合中确定各个文档的一个或者多个类别。由于各个文档都预先确定好了类别,系统对检索结果中的文档的归类过程可以简单高效地完成。对于大规模的文档库而言,这个是一个非常突出的优点。然而,归类方法的缺陷也在于其使用的固定的分类体系:预先确定的分类体系通常只能适用于很小的知识领域,缺乏可扩充性和灵活性;很多文档符合多个类别的标准,兼类现象严重;自动归类算法难于保证分类结果的准确性和一致性,特别是对于内容庞杂、质量参差不齐的网页文档(Web Page Document),归类效果一般很差。

归类方法预先固定了每个文档的类别,在分类过程中没有考虑用户查询这个因素。实际上,当文档被用于不同的目的时,它可能对应不同的类别。因此搜索结果中的文档的类别具有随用户查询的不同而变化的特征。这也是归类方法在被用于对搜索结果分组时的一个不足。

早期的互联网搜索引擎曾广泛使用人工归类方法,即由人工为每个收录的网页指定类别,其结果有比较好的质量保证,然而这种方法不能适应网页数量的快速增长,目前已较少使用。

另一种对搜索结果分组的技术是文档聚类(Clustering),即将具有相近特征的文档找出来、并为它们动态生成一个类别标记。在本发明中,概念“类”或“类别”(Class)统一指称归类类别和聚类类别,通常也被分别称为“类目”(Category)和“(类)簇”(Cluster)。

使用聚类方法对搜索结果中的文档进行分组可以避免归类方法的类别固定、缺乏可扩充性和灵活性、维护分类体系一致性困难等问题。由于被聚类的对象是根据查询而获得的文档,搜索结果聚类可以动态地反映文档类别随用户查询的不同而变化的特征。聚类方法不使用预先固定的类别体系,而是根据文档之间的相似性动态地生成类别,无需付出维护分类体系的代价。

与用户交互的大规模文档检索系统,例如互联网搜索引擎,要求搜索结果聚类过程具有实时、在线的性能,具备极高的时间效率,也就是系统在根据用户查询获得结果文档集合之后,必须尽快地完成聚类,并迅速将聚类结果输出给用户端。通常的文档聚类算法的时间复杂性为O(n2)~O(n3),n是被聚类的文档的数目。这样的复杂性对于大规模文档检索系统而言太高,不适用于实时在线的搜索结果聚类。

Zamir和Etzioni提出了后缀树聚类(Suffix Tree Clustering,STC)方法,使用一种称为后缀树的数据结构来识别多个文档之中的共同字符子串(参见O.Zamir&O.Etzioni.Web document clustering:a feasibility demonstration.Proceedings of ACM SIGIR’98,SIGIRConference on Research and Development in Informatin Retrieval.1998)。该方法达到了线性时间复杂度O(n),即正比于被聚类的文档的数量。对于比较小的文档、或者比较小的文档表示(例如文档摘要),在限定了参与聚类的文档数量小于一定阈值的条件下,该方法可以达到实时、增量式聚类的要求。该方法自提出之后成为很多搜索结果聚类方法和应用系统的基础。在相关的研究中,Wang和Kitsuregawa提出了结合文档内容(关键词)和网页超链信息进行聚类的方法(参见Y.Wang&M.Kitsuregawa.Evaluating contents-linkcoupled web page clustering for web search results.Proceedings of ACM CIKM,Conferenceon Information and Knowledge Management.2002);Zeng等人对聚类名称的生成提出了改进,以便获得更具可读性的类别名称(参见H.Zeng et al.Learning to cluster web searchresults.Proceedings of ACM SIGIR 2004,SIGIR Conference on Research and Development inInformatin Retrieval.2004)。

当前,运用这一类搜索结果聚类方法的最典型的应用系统是Vivísimo公司提出的聚类引擎(参见网址http://Vivisimo.com),以及与之有关的其它搜索引擎(例如Clusty.com,DogPile.com)。这些搜索结果聚类应用系统都是元搜索引擎(Meta Search Engine),被聚类的文档是其它搜索引擎返回的搜索结果列表,即实际参与聚类的文档是原网页文档的标题、关键词邻近句子摘要、链接文字等比较短的文档表示,并且对参与聚类的文档数量作了严格限制(200~500篇文档)。在这些限制条件下,这类系统可具备接近实时聚类的性能(用户端响应时间约在5秒钟以内)。

总体而言,目前已知的搜索结果聚类方法为满足实时在线聚类的性能要求,都对被聚类的文档内容和文档数量作了很大的限制。已知的上述这类实时聚类方法只能处理很少量的文档,并且通常只使用很少量的文档内容(标题、摘要或链接文字),例如在元搜索引擎中所使用的搜索结果聚类方法。通用的(非元搜索的)互联网搜索引擎返回给用户的搜索结果通常包含成千上万甚至数十万的文档。目前的搜索结果聚类方法不适用于这些系统。

因此,对文档数量和内容不限、对类别不限的高效大规模的搜索结果聚类技术是大规模文档检索系统所需要的。大规模文档检索系统,例如互联网搜索引擎等,有必要对数量庞大的搜索结果根据用户查询的特征(例如查询关键词)并基于全文内容进行实时在线的聚类。目前这样的聚类方法和系统尚未出现。

发明内容

本发明的一个目的是提出一种对文档数量和类别不加限定的搜索结果聚类方法,适用于大规模的搜索结果聚类。

本发明的另一个目的是提出一种根据查询中的关键词而直接确定聚类类别的搜索结果聚类方法。

本发明的再一个目的是提出一种对数量不限的搜索结果进行聚类、并对得到的各个类别进行评级的方法。

为达到上述目的,本发明采取的技术方案是:一种搜索结果聚类的方法,所述搜索结果是作为对某个搜索请求的响应、从一个被索引的文档集合中根据搜索请求与被索引文档的相关程度而被选取的一批文档,所述搜索请求来自使用计算机或者计算机网络的用户,其特征在于它包括如下步骤:a.预先记录被索引文档相对于其所包含的某个或者某几个关键词的一个或多个类别;b.根据预先记录的文档相对于包含在搜索请求中的某个或者某几个关键词的类别,对所述搜索结果中的文档分组。

所述类别可以为任意的文档分类标记,或者是索引关键词、索引关键词的固定搭配等。每个类别可设置一个权重值,表示此类别与所对应的文档的关联程度。搜索结果中的文档被放入该文档相对于查询关键词的类别集合中,并且聚类之后的文档的在某一类别中的文档级别由聚类之前的文档级别和该文档相关对于此类别的权重等因素而确定。所得到的各个聚类类别的级别可由其所包含的文档的级别来计算。

此技术方案具备如下的技术效果:预先为每个文档确定了聚类类别,并且这些聚类类别可以直接由索引关键词而快速得到。这个特征使得聚类过程可以非常高效地完成,适用于对大规模的检索结果聚类,可达到文档归类的运行时效率。同时,类别是根据关键词而直接确定,因此相对于不同的查询关键词或词组,同一文档可以属于不同的类别,从而克服了固定分类体系的缺点。另外,根据聚类所得到的各个类别中的文档数量、文档权重的总和或者平均值等信息,还可以计算出这些类别的权重,并以此对这些类别进行评级(Ranking)和排序。由此,系统可以将具有较高级别的聚类以及其中较高级别的文档优先呈现给用户。

附图说明

本说明书包含3个附图。

附图1是本发明一个实施例的流程图。

附图2是带有关键词相关聚类记录信息的倒排索引数据结构示意图。

附图3是本发明的一个实施例针对查询关键词对搜索结果进行聚类而生成的一个输出结果样例。

具体实施方式

下面结合附图和实施例对上述技术方案作进一步的说明。

文档检索系统的首要步骤是对所获取的文档集合进行索引,生成适合于计算机进行搜索运算的数据结构,以便根据用户查询而有效地查找到相关的文档。文档集合通常包括各种形式的电子文档,例如发布在互联网站点上的网页(HTML文档)和其它格式的数据文件。大规模文档检索系统通常使用倒排索引,即以关键词来索引包含了该关键词的各个文档,并可记录该关键词在文档中的出现频次、位置等信息。

在信息检索领域,“关键词”一般指称用于文档索引和检索的项(term),包括文档中的特征项即“索引项”(index term)和查询中的特征项即“搜索项”(search term)。这些项可以是通常的词、词组,也可以是其它类型的字符串(例如二字/词组Bigram等)。本发明所使用的“关键词”概念遵循这种用法。

设有文档集合{di|i=1,2,...,N},其中N是被索引文档的总数。文档检索系统使用一个关键词集合(索引词典){kwj|j=1,2,...,K}来索引一批文档。文档检索的过程即系统使用查询中的关键词来搜索文档索引。查询通常为单个关键词或者多个关键词的组合(例如逻辑表达式)。设查询Query包含关键词kw1、kw2、...、kwQ,记为Query={kw1,kw2,...,kwQ}。如果查询中的关键词kwi在索引中出现,则通过索引可以获得所有包含该关键词kwi的文档。以此得到查询中的各个关键词对应的文档,再经过适当的集合运算(交集、并集、差集等),就得到了候选的相关文档。系统再利用一定的判据(例如关键词频次和位置等)确定查询与各个候选文档的相关程度,从候选文档中选取一部分文档作为搜索结果。通常需要将搜索结果中的文档按照相关程度由高到低排序,并为它们生成文档表示(包括标题、摘要、文档编号或者网址等信息)。

现有的搜索结果聚类方法依靠上述过程得到的文档表示来完成对搜索结果中的文档进行实时在线的聚类,即根据文档表示来发现文档之间的相似特征、将具有相似特征的文档放入同一个类别中、并为该类别生成一个有意义的名称(通常为文档表示中的公共字符子串)。因此这些聚类方法是与文档索引过程无关的。如本发明背景技术所述,这类方法为满足实时在线聚类的性能要求,对被聚类的文档内容和文档数量作了很大的限制,难以适用于对数量庞大的搜索结果进行高效的聚类,并且不能直接根据用户查询的特征(例如查询关键词)并基于全文内容快速地确定文档的聚类类别。

本发明实施例的流程图如附图1所示,其包含的步骤是:101:获取并索引一个文档集合{di};102:相对于文档的全部或者部分索引项{kwj}(包括关键词、多个关键词的搭配或词组),预先确定各个文档相对于这些索引项的可能的一个或者多个类别,并将此文档类别信息保存。由于这种文档类别是针对具体的索引关键词(或者词组)的,为便于叙述,本发明将其称为“关键词相关的聚类”类别,或简称为“KWAC类别(Keyword AssociatedClustering Classes)”或“聚类类别”;103:通过计算机或者计算机网络获得用户提交的搜索请求,从中提取出用户查询;104:使用查询中的关键词搜索文档索引,根据查询与被索引文档的相关程度,选取一部分文档作为搜索结果;105:对于搜索结果中的各个相关文档,根据预先已确定的文档相对于查询关键词或者词组(作为命中该文档的索引项)的类别,将文档放入这些类别中,完成对搜索结果中的文档的分组(其表现为对检索结果的聚类)。由于各个文档的类别在检索之后已经明确,这个步骤的实际操作类似文档归类的过程,可以非常高效地实现;106:将搜索结果返回给用户。

本实施例将搜索结果聚类同文档收集、索引、检索等过程结合在一起,可应用在任意的文档检索系统或通用的搜索引擎中,不受元搜索引擎的限制。

下面详细说明步骤102和105的内容。

-聚类类别的确定:在步骤102,本发明的关键词相关聚类类别可以在离线(off-line)状态下确定,同时又不受固定分类体系的限制,可以是任何形式的类别标记,或者系统定义的任何标识符。对于大规模文档检索系统,例如互联网搜索引擎,特别有用的类别标记是关键词,也就是用一个关键词(或者词组)作为文档的类别,从而便于用户基于关键词进行检索、聚类、浏览等。当然,固定分类体系中的类别(例如图书分类标记、网页分类搜索目录名称等)也可以用作某个文档的KWAC类别。

一种有效的方式是将灵活可变的关键词类别与固定分类体系中的类别结合起来应用。在本发明的实施例中,当分析文档相对于某个索引项的KWAC类别时,如果该文档中没有合适的与该索引项高度相关的其它关键词或词组作为文档的KWAC类别,则使用与该索引项对应的固定分类体系中的类别作为文档相对于此索引项的KWAC类别。该对应关系可预先记录,并与固定分类体系保存在一起。

在本发明的实施例中,作为聚类类别的关键词的另一个来源是关键词的固定搭配。首先,用一个词组库(或者称为短语库)保存常用的或者重要的关键词组合。如果文档中的某些用于索引的关键词满足词组库中的搭配关系,则将与该词构成搭配关系的关键词作为聚类类别。其次,应用统计自然语言处理在词的固定搭配与短语等的识别方面提供的技术,在各个文档中计算侯选词串的统计特征(例如共现频率、互信息、条件熵等),从这些侯选词串中找出合适的词串作为词组。上述两种方法可结合使用,即词组库作为词组统计的参考,而统计得到的词组可用于对词组库的更新。

在本发明的实施例中,反映文档内容的主题词(Topic Words)或词组也可以被直接作为文档中全部或者部分索引项(关键词或者词组、Bigram等)的KWAC类别。特别是,网页(HTML、XML文档)或其它类型文档中的格式化信息被用作主题词标识的依据。其中,出现在文档标题(Title)中的关键词,以及出现在指向当前文档的其它文档中的超链接(Hyperlink)中的链接文本(Anchor Text)中的关键词,优先成为当前文档的候选主题词和聚类类别。与上述固定分类体系一起,这一类关键词构成了文档的固定(与查询无关)的聚类类别。

在本发明的实施例中,每个关键词相关的聚类类别Ci(i=1,2,...,m)具有一个权重值wti,记为wti=KWAC_Weight(kw,d,Ci),                                          (1)它表示某个文档d在查询项(关键词或者词组)为kw的情况下属于类别Ci的权重或者可能性。用KWAC_Set(kw,d)表示文档d相对于项kw的所有可能的聚类类别的集合,本实施例应用了聚类类别权重值wti的如下条件:对于文档中的任意索引关键词kw∈d,ΣCi∈KWAC_Set(kw,d)KWAC_Weight(kw,d,Ci)=1.---(2)]]>类别权重的最简单情况是KWAC_Set(kw,d)中各个类别Ci的权重相同(即等可能性),取值为KWAC_Set(kw,d)中类别总数的倒数:

KWAC_Weight(kw,d,Ci)=1|KWAC_Set(kw,d)|---(3)]]>对于聚类类别Ci为关键词的情形,可以根据在文档d中Ci与索引关键词kw的共现(搭配)频度fi来确定其权重值wti。一种具体的方法如下:wti=fif1+f2+...+fm,i=1,2,...,m---(4)]]>与共现频度相关的其它统计量(例如互信息等)也可以被作为确定聚类类别权重的依据。

对于聚类类别Ci为关键词的情形,上述类别权重wti还可根据关键词Ci在文档d中出现的位置、文档格式、以及关键词Ci与索引关键词kw的相对位置关系等信息,按照文档检索中的惯常方式进行调整。例如,如果关键词Ci与kw是邻接在一起的,或者二者共同出现在文档标题中,则权重wti被加大。

文档相对于其所包含的关键词的聚类类别以及类别权重的确定都是与查询过程无关的,因而可以在离线的过程中进行。

-聚类类别信息的组织与存放:本发明的关键词相关聚类信息是一个索引项与文档的二元组的集合,即一个(term,doc_id)配对的集合。该集合可组织成为一张二维表的数据结构,存储在文件中。它也可以作为一组索引项-文档列表(term,doc_id_list)的集合。特别是,它可以作为一个项-文档列表的倒排表数据结构。该倒排表数据可单独存放。显然,如果在文档集的倒排索引中扩充一个数据域,则可以进一步将此KWAC信息存放在倒排文档索引中,或者保存在与倒排索引相对应的链表中。

附图2是本发明的一种带有关键词相关聚类信息的倒排索引数据结构。索引词典中的每个索引项kw被转化成为一个整数word_id,并对应一个指向该索引项的倒排表(inverted list)的指针ptr,在此倒排表中存储了包含该索引项的各个文档的编号doc_id以及该索引项在文档中出现的各个位置的列表pos_list。附图2中的灰色阴影部分是本发明的作为倒排表形式的聚类类别信息。在文档倒排索引中为每个文档增加了一个指针KWAC_rec_ptr,指向该文档(doc_id)相对于当前的索引项(word_id)的所有可能的KWAC类别C1,2,...,m及其对应的权重wt1,2,...,m的记录列表。

在本发明的实施例中,对于KWAC类别是关键词的情况,上述聚类记录中的类别Ci是作为类别的关键词的word_id。

另外,在关键词类别的记录中还设置了一个邻接关系的指示符prox,用于指示在文档d中索引项kw与关键词Ci是否邻接在一起、以及如何邻接:如果Ci是出现在kw的右边,则为右邻接;Ci是出现在kw的左边,则为左邻接。可以分别用prox=0,prox=+1和prox=-1来表示不邻接、右邻接和左邻接这三种情况。

-搜索结果文档的聚类类别的确定:在步骤105,对于由单个关键词kw组成的查询Query={kw},搜索结果中的任一文档d被直接放入到它相对于索引项kw的各个KWAC类别中,即文档d出现在所有类别Ci∈KWAC_Set(kw,d)之中。由此完成对搜索结果中的各个文档的分组。

对于聚类类别Ci为关键词的情形,上述搜索结果中的文档聚类的名称按照如下方法确定:■如果文档d相对于kw的右邻接KWAC类别是Ci(即proxi=+1),则该类别的名称以词串“kw Ci”表示;■如果文档d相对于kw的左邻接KWAC类别是Ci(即proxi=-1),则该类别的名称以词串“Cikw”表示;■否则(proxi=-1)该类别的名称以“kw,Ci”表示。

相对于包含多个关键词的查询Query={kw1,kw2,...,kwQ},某个文档d的所有可能的聚类类别的集合是该文档相对于各个查询关键词的类别集合的并集,即KWAC-Set(Query,d)=∪kw∈QueryKWAC_Set(kw,d).---(5)]]>搜索结果中的文档的类别确定方式与单关键词查询的搜索结果分组过程类似,即搜索结果中的文档被逐一放入各个类别Ci∈KWAC_Set(Query,d)之中。

对于聚类类别Ci为关键词的情形,上述搜索结果中的文档聚类的名称按照如下方法确定:如果多关键词查询Query不要求其中的各个关键词有位置邻接关系(例如,各个关键词之间仅仅是“与(AND)”、“或(OR)”等逻辑关系),则类别名称的确定方式与单关键词查询的情况类似;如果多关键词查询Query要求其某些关键词之间需要满足邻接关系,例如设Query包含一个词组“AB”(关键词A与B邻接出现),则对包含了词组“AB”的搜索结果中的各个文档d的分组按照如下方式命名:■如果文档d相对于B的右邻接KWAC类别是C1(prox=+1),则d被归入C1,且该类别名称以词串“AB C1”表示;■如果文档d相对于A的左邻接KWAC类别是C2(prox=-1),则d被归入C2,且该类别名称以词串“C2AB”表示;■如果上述两种情况同时出现,则d被同时放在上述两个类别C1和C2中,且类别名称分别如上所述;■如果上述两种情况都不出现(prox=O),则d被同时放在上述两个类别C1和C2中,且类别名称为“AB,C1”和“C2,AB”。

例如,对于Query=“search engine(搜索引擎)”(设按索引词典被分解为“search(搜索)”和“enginen(引擎)”两个关键词),如果文档d相对于“engine”的右邻接KWAC类别是“marketing(营销)”,则d被放入名称为“search engine marketing”的类别中;如果文档d相对于“search”的左邻接KWAC类别是“internet(互联网)”,则d被放入名称为“internetsearch engine”的类别中。如果两种情况同时成立,则d被同时放入名称为“search enginemarketing”和“internet search engine”的两个类别中。

包含了词组“A...B”的查询以相同的方式处理。

对于要求部分关键词邻接、其它关键词不邻接的多关键词查询,例如Query={“AB”,C,D},则首先按照上述方法处理不邻接的关键词,然后再处理其中要求邻接的关键词。

-单个类别中文档级别的计算:通常,系统所维护的文档集中的各个文档di被赋予一个全局级别,表示该文档在文档集合中的重要性。在文档与查询的相关程度的判断过程中,根据相关程度也可赋予文档一个相对于查询的相对级别,表示该文档在搜索结果中的重要性,并可用于对搜索结果中的文档进行排序。下面用DocRank(di)统一表示文档di的全局或者相对级别。

当搜索结果中(未聚类的)原级别为DocRank(d)的文档d被放入到类别Ci中之后,文档d相对于同一类中的其它文档的级别的差别有可能发生变化。本发明提供了对于聚类之后的搜索结果中的文档重新计算文档级别的方法。本发明的实施例按照下面的公式来确定文档d在类别Ci中的文档级别:ClusteredDocRank(d,Ci)=Σkw∈QueryClusteredDocRank(d,kw,Ci),---(6)]]>其中ClusteredDocRank(d,kw,Ci)=DocRank(d)×KWAC_Weight(kw,d,Ci)                            (7)×f(KWAC_Freq(Query,d,Ci))×g(Mutual_KWAC(Query,d)).

在上述公式中,KWAC_Weight(kw,d,Ci)是聚类类别记录KWAC(kw,d)中的文档d属于类别Ci的权重wti;KWAC_Freq(Query,d,Ci)是Ci在各个关键词kw∈Query所对应的集合KWAC_Set(kw,d)中出现的次数;函数f(x)可选为f(x)=x或f(x)=2x两种典型形式之一;函数Mutual_KWAC(Query,d)是Query中各个关键词kw在文档d的KWAC记录中互为KWAC类别的关键词的个数;函数g(x)可选为g(x)∝x的形式。

根据上述公式,对于多关键词查询,如果某个聚类类别Ci同时是文档d相对于查询中多个关键词的聚类类别,则在当前查询下该类别Ci对于文档d的重要性将增大,其增大倍数为f(KWAC_Freq(Query,d,Ci))。相对地,如果某个类别Ci仅仅出现在多关键词查询的少数(例如一个)关键词的聚类类别集合中,则该类别Ci的重要性较低。

另外,如果多关键词查询Query中有多个关键词对于某个文档d互为聚类类别,即对于某两个互为聚类类别的关键词kwi,j∈Query,有kwi∈KWAC_Set(kwj,d)和kwj∈KWAC_Set(kwi,d).

则文档d相对于该查询Query具有更大的重要性。因此文档d(在所有聚类类别Ci中)将具有更大的文档级别,其增大倍数为g(Mutual_KWAC(Query,d))。此情况的一个特例就是:当一个具有多个关键词的查询的所有n个关键词对于某个文档d而言互为聚类类别时,则d的文档级别增大g(n)倍。

在任一类别Ci中的各个文档可按照文档在这个类别中的上述文档级别ClusteredDocRank(d,Ci)排序。

-聚类类别的级别计算:将搜索结果中的文档分组到各个KWAC类别之后,这些类别的级别就可以由其所包含的文档的级别来计算。在本发明的实施例中,根据用户选项或者系统设定,搜索结果聚类中的一个KWAC类别的级别(或权重)是其包含的所有(或者前N个)文档的级别值的总和,或者是所有(或者前N个)文档级别的平均值。

搜索结果聚类中得到的各个KWAC类别Ci按照其级别被排序。在将聚类后的搜索结果返回给用户时,具有较高级别的前若干个类别被优先提交给用户。而在每个KWAC类别Ci中,文档也按照其文档级别DocRank排序。因此可以把具有高级别的聚类类别中的具有较高文档级别的文档优先提交给用户。

对于单关键词或多关键词查询Query,聚类Ci的权重可按照如下两种方法之一来计算,分别为聚类Ci中的文档级别总和与文档级别平均值:ClassRank1(Ci)=Σd∈CiClusteredDocRank(d,Ci)---(8)]]>=Σd∈CiΣkw∈QueryClusteredDocRank(d,kw,Ci),]]>ClassRank2(Ci)=Σd∈CiClusteredDocRank(d,Ci)NDocs(Ci)---(9)]]>=Σd∈CiΣkw∈QueryClusteredDocRank(d,kw,Ci)NDocs(Ci),]]>其中NDocs(Ci)是Ci中的文档总数。

ClassRank1(Ci)表示整个Ci类别的重要性(即指示该类别在总体上是否值得被用户先看到),而ClassRank2(Ci)则表示类别Ci中的文档的平均重要性(指示其中的各个文档是否值得看)。在各个类别中的文档数目差别很大时,ClassRank1是较好的指标,而在各个类别中的文档数目比较接近(或者被强制一致)时,ClassRank2是较好的指标。

经过聚类之后的搜索结果中的各个聚类类别Ci即可按照其级别排序。

-新的文档级别:利用文档的KWAC信息,还可以对文档集或者搜索结果中的文档重新评级(Ranking),计算新的文档级别。这提供了一种根据关键词相关聚类信息进行文档评级(DocumentRanking)的方法。

对于级别为DocRank(di)的文档,利用公式(7)可引入一个相对于查询Query的新的文档级别:NewDocRank(d|Query)]]>=Σkw∈QueryΣCi∈KWAC_Set(kw,d)ClusteredDocRank(d,kw,Ci)---(10)]]>=DocRank(d)×Σkw∈QueryΣCi∈KWAC_Set(kw,d)[KWAC_Weight(kw,d,Ci)]]>×f(KWAC_Freq(Query,d,Ci))×g(Mutual_KWAC(Query,d))].]]>

在方程(2)的条件下,对于f(x)=1和g(x)=1/Q的情形(Q是Query中关键词的个数),NewDocRank与原来的DocRank是一致的。

NewDocRank(d|Query)的一个用途是:当用户选择不对搜索结果中的文档进行聚类、当仍然考虑聚类对文档排序的作用时,返回给用户的搜索结果中的文档按照新的文档级别被排序。

附图3是本发明的一个用于网页文档的搜索结果聚类系统的输出样例。用户输入的查询关键词301是“search engine(搜索引擎)”。系统使用预先确定的KWAC类别信息(以关键词作为KWAC类别)将包含了该查询的所有关键词的网页聚类成多个类别,并按照类别的ClassRank1级别(由公式8定义)排序。每个聚类Ci中的文档d又按照其文档级别ClusteredDocRank(d,Ci)(由公式6定义)排序。返回给用户的搜索结果中,具有最高级别的4个聚类302被首先提交给用户,其类别名称分别为“search engine marketing”,“search engine optimization”,“search engine submission”等,并且每个聚类中具有最高级别的前3个文档被首先列出。

在本发明实施例的技术细节说明中,本说明书使用了到排索引方式的文档检索系统作为示例。但是,本领域技术人员可以清楚地知道本发明的应用范围并不局限于这种类型的系统。

本发明的技术方案还可以用其它不同于上述实施例的方式实现。所附的权利要求书涵盖了对以上所描述的各要素的诸多变形与替换。

Claims (10)

1.一种搜索结果聚类的方法,所述搜索结果是作为对某个搜索请求的响应、从一个被索引的文档集合中根据搜索请求与被索引文档的相关程度而被选取的一批文档,所述搜索请求来自使用计算机或者计算机网络的用户,其特征在于它包括如下步骤:a.预先记录被索引文档相对于其所包含的某个或者某几个关键词的一个或多个类别;b.根据预先记录的文档相对于包含在搜索请求中的某个或者某几个关键词的类别,对所述搜索结果中的文档分组。
2.根据权利要求1所述的搜索结果聚类的方法,其特征在于:所述的文档相对于关键词的类别为文档分类标记。
3.根据权利要求1所述的搜索结果聚类的方法,其特征在于:所述的文档相对于关键词的类别是关键词或者词组。
4.根据权利要求3所述的搜索结果聚类的方法,其特征在于:所述的文档相对于关键词的类别是在文档中与索引关键词有固定搭配关系的关键词,或者是在一个预先确定的词组库中与索引关键词有固定搭配关系的关键词,或者是出现在文档标题中的关键词,或者是出现在指向当前文档的其它文档中的超链接所包含的链接文本中的关键词。
5.根据权利要求1至4之一所述的搜索结果聚类的方法,其特征在于:为每个类别设置一个权重值,表示此类别与所对应的文档的关联程度。
6.根据权利要求1至5之一所述的搜索结果聚类的方法,其特征在于:所述的文档相对于关键词的类别的集合为一个索引项-文档列表的倒排表数据结构,独立存放或者与倒排文档索引结合在一起。
7.根据权利要求1至6之一所述的搜索结果聚类的方法,其特征在于:对于由单个关键词组成的查询,搜索结果中的任一文档被直接放入到该文档相对于查询关键词的各个类别中;而对于包含多个关键词的查询,搜索结果中的任一文档的聚类类别的集合是该文档相对于各个查询关键词的类别集合的并集,且该文档被分别放入此并集中的各个类别之中。
8.根据权利要求1至7之一所述的搜索结果聚类的方法,其特征在于:聚类之后的文档在某一类别中的文档级别由聚类之前的文档级别和该文档相对于此类别的权重而确定,或者由聚类之前的文档级别和该类别在各个查询关键词所对应的聚类类别集合中出现的次数而确定,或者由聚类之前的文档级别和查询中互为聚类类别的关键词的个数而确定。
9.根据权利要求1至8之一所述的搜索结果聚类的方法,其特征在于:所述聚类类别的级别由其所包含的文档的级别来计算,是其包含的所有或者前若干个文档的级别的总和,或者是其包含的所有或者前若干个文档的级别的平均值。
10.根据权利要求9所述的搜索结果聚类的方法,其特征在于:经过聚类之后的搜索结果中的各个聚类类别按照其级别排序,且具有较高级别的前若干个聚类被优先提交给用户。
CN 200410091772 2004-11-26 2004-11-26 搜索结果聚类的方法 CN1609859A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200410091772 CN1609859A (zh) 2004-11-26 2004-11-26 搜索结果聚类的方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN 200410091772 CN1609859A (zh) 2004-11-26 2004-11-26 搜索结果聚类的方法
US11263820 US20060117002A1 (en) 2004-11-26 2005-11-01 Method for search result clustering

Publications (1)

Publication Number Publication Date
CN1609859A true true CN1609859A (zh) 2005-04-27

Family

ID=34766309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200410091772 CN1609859A (zh) 2004-11-26 2004-11-26 搜索结果聚类的方法

Country Status (2)

Country Link
US (1) US20060117002A1 (zh)
CN (1) CN1609859A (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100428233C (zh) 2005-06-15 2008-10-22 国际商业机器公司 用于搜索的方法和设备
CN100433007C (zh) 2005-10-26 2008-11-12 斌 孙 提供搜索结果的方法
CN100481077C (zh) 2006-01-12 2009-04-22 国际商业机器公司 用于增强搜索结果导航的可视化方法及装置
CN100504866C (zh) 2006-06-30 2009-06-24 腾讯科技(深圳)有限公司 一种综合搜索结果的排序系统及方法
CN100594495C (zh) 2005-11-17 2010-03-17 国际商业机器公司 使用文本分析从源文档中识别相关文档集合的系统和方法
CN101119326B (zh) 2006-08-04 2010-07-28 腾讯科技(深圳)有限公司 一种即时通信会话记录的管理方法及装置
CN101916164A (zh) * 2010-08-11 2010-12-15 中兴通讯股份有限公司 一种移动终端及其实现的文件浏览方法
CN101963974A (zh) * 2010-09-03 2011-02-02 深圳创维数字技术股份有限公司 一种epg栏目生成方法
CN101179472B (zh) 2007-05-31 2011-05-11 腾讯科技(深圳)有限公司 一种网络资源搜索方法及搜索系统
CN101355457B (zh) 2008-06-19 2011-07-06 腾讯科技(北京)有限公司 测试方法及测试设备
CN102222072A (zh) * 2010-04-19 2011-10-19 腾讯科技(深圳)有限公司 一种信息分类的方法和装置
CN101344892B (zh) 2007-07-12 2011-12-07 株式会社理光 信息处理设备及信息处理方法
CN101694670B (zh) 2009-10-20 2012-07-04 北京航空航天大学 一种基于公共子串的中文Web文档在线聚类方法
CN102609475A (zh) * 2012-01-19 2012-07-25 浙江省公众信息产业有限公司 微博内容监测方法及监测系统
CN101739429B (zh) 2008-11-18 2012-08-22 中国移动通信集团公司 一种优化聚类搜索结果的方法及其装置
CN102122296B (zh) 2008-12-05 2012-09-12 北京大学 检索结果聚类方法及装置
CN101055585B (zh) 2006-04-13 2013-01-02 Lg电子株式会社 文档聚类系统和方法
CN102999562A (zh) * 2011-11-02 2013-03-27 微软公司 路由查询结果
CN103678302A (zh) * 2012-08-30 2014-03-26 北京百度网讯科技有限公司 一种文档结构化组织方法及装置
CN103995849A (zh) * 2014-05-07 2014-08-20 中国科学院计算技术研究所 一种事件跟踪方法及系统
CN104111990A (zh) * 2014-07-02 2014-10-22 百度在线网络技术(北京)有限公司 搜索结果卡片的展现方法和装置
CN104123279A (zh) * 2013-04-24 2014-10-29 腾讯科技(深圳)有限公司 关键词的聚类方法和装置
CN104834684A (zh) * 2008-06-13 2015-08-12 电子湾有限公司 用于集群化的方法和系统
CN104838375A (zh) * 2012-11-13 2015-08-12 微软技术许可有限责任公司 搜索结果基于意图的呈现
US9177022B2 (en) 2011-11-02 2015-11-03 Microsoft Technology Licensing, Llc User pipeline configuration for rule-based query transformation, generation and result display
CN105045845A (zh) * 2015-07-02 2015-11-11 浪潮(北京)电子信息产业有限公司 一种文档分类管理方法及装置
US9189563B2 (en) 2011-11-02 2015-11-17 Microsoft Technology Licensing, Llc Inheritance of rules across hierarchical levels
CN103530318B (zh) * 2007-01-05 2017-01-04 飞扬管理有限公司 使用与客户端设备通信的网络设备搜索数据的方法

Families Citing this family (130)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
DE60205649D1 (de) 2001-10-22 2005-09-22 Riccardo Vieri System um Textnachrichten in Stimmnachrichten zu konvertieren und über eine Internetverbindung zu einem Telefon zu schicken und verfahren zum Betrieb dieses System
US8713025B2 (en) * 2005-03-31 2014-04-29 Square Halt Solutions, Limited Liability Company Complete context search system
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7693819B2 (en) * 2005-12-29 2010-04-06 Sap Ag Database access system and method for transferring portions of an ordered record set responsive to multiple requests
US7644373B2 (en) * 2006-01-23 2010-01-05 Microsoft Corporation User interface for viewing clusters of images
US8972379B1 (en) 2006-08-25 2015-03-03 Riosoft Holdings, Inc. Centralized web-based software solution for search engine optimization
US7877392B2 (en) 2006-03-01 2011-01-25 Covario, Inc. Centralized web-based software solutions for search engine optimization
US8943039B1 (en) * 2006-08-25 2015-01-27 Riosoft Holdings, Inc. Centralized web-based software solution for search engine optimization
US7707161B2 (en) * 2006-07-18 2010-04-27 Vulcan Labs Llc Method and system for creating a concept-object database
US9323867B2 (en) * 2006-08-03 2016-04-26 Microsoft Technology Licensing, Llc Search tool using multiple different search engine types across different data sets
US7783589B2 (en) * 2006-08-04 2010-08-24 Apple Inc. Inverted index processing
US7698328B2 (en) * 2006-08-11 2010-04-13 Apple Inc. User-directed search refinement
US7856350B2 (en) * 2006-08-11 2010-12-21 Microsoft Corporation Reranking QA answers using language modeling
US8838560B2 (en) * 2006-08-25 2014-09-16 Covario, Inc. System and method for measuring the effectiveness of an on-line advertisement campaign
US7974976B2 (en) * 2006-11-09 2011-07-05 Yahoo! Inc. Deriving user intent from a user query
US7548912B2 (en) * 2006-11-13 2009-06-16 Microsoft Corporation Simplified search interface for querying a relational database
US20080154878A1 (en) * 2006-12-20 2008-06-26 Rose Daniel E Diversifying a set of items
US8108390B2 (en) * 2006-12-21 2012-01-31 Yahoo! Inc. System for targeting data to sites referenced on a page
US20080155426A1 (en) * 2006-12-21 2008-06-26 Microsoft Corporation Visualization and navigation of search results
US7636713B2 (en) * 2007-01-31 2009-12-22 Yahoo! Inc. Using activation paths to cluster proximity query results
US7912847B2 (en) * 2007-02-20 2011-03-22 Wright State University Comparative web search system and method
US7739220B2 (en) * 2007-02-27 2010-06-15 Microsoft Corporation Context snippet generation for book search system
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP2008257655A (ja) * 2007-04-09 2008-10-23 Sony Corp 情報処理装置及び方法、並びにプログラム
US20080270228A1 (en) * 2007-04-24 2008-10-30 Yahoo! Inc. System for displaying advertisements associated with search results
US9396261B2 (en) * 2007-04-25 2016-07-19 Yahoo! Inc. System for serving data that matches content related to a search results page
US7720860B2 (en) * 2007-06-08 2010-05-18 Apple Inc. Query result iteration
US20080306949A1 (en) * 2007-06-08 2008-12-11 John Martin Hoernkvist Inverted index processing
US8019760B2 (en) * 2007-07-09 2011-09-13 Vivisimo, Inc. Clustering system and method
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8145660B2 (en) * 2007-10-05 2012-03-27 Fujitsu Limited Implementing an expanded search and providing expanded search results
US20090094211A1 (en) * 2007-10-05 2009-04-09 Fujitsu Limited Implementing an expanded search and providing expanded search results
US20090094210A1 (en) 2007-10-05 2009-04-09 Fujitsu Limited Intelligently sorted search results
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8046361B2 (en) * 2008-04-18 2011-10-25 Yahoo! Inc. System and method for classifying tags of content using a hyperlinked corpus of classified web pages
US20090327223A1 (en) * 2008-06-26 2009-12-31 Microsoft Corporation Query-driven web portals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20100131496A1 (en) * 2008-11-26 2010-05-27 Yahoo! Inc. Predictive indexing for fast search
US8326835B1 (en) * 2008-12-02 2012-12-04 Adobe Systems Incorporated Context-sensitive pagination as a function of table sort order
US20100145923A1 (en) * 2008-12-04 2010-06-10 Microsoft Corporation Relaxed filter set
US8396742B1 (en) 2008-12-05 2013-03-12 Covario, Inc. System and method for optimizing paid search advertising campaigns based on natural search traffic
US8458171B2 (en) * 2009-01-30 2013-06-04 Google Inc. Identifying query aspects
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8620900B2 (en) * 2009-02-09 2013-12-31 The Hong Kong Polytechnic University Method for using dual indices to support query expansion, relevance/non-relevance models, blind/relevance feedback and an intelligent search interface
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
DE102010029091B4 (de) * 2009-05-21 2015-08-20 Koh Young Technology Inc. Formmessgerät und -verfahren
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8533202B2 (en) 2009-07-07 2013-09-10 Yahoo! Inc. Entropy-based mixing and personalization
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
WO2011095923A1 (en) * 2010-02-03 2011-08-11 Syed Yasin Self-learning methods for automatically generating a summary of a document, knowledge extraction and contextual mapping
US8260664B2 (en) * 2010-02-05 2012-09-04 Microsoft Corporation Semantic advertising selection from lateral concepts and topics
US8150859B2 (en) * 2010-02-05 2012-04-03 Microsoft Corporation Semantic table of contents for search results
US8983989B2 (en) * 2010-02-05 2015-03-17 Microsoft Technology Licensing, Llc Contextual queries
US8903794B2 (en) * 2010-02-05 2014-12-02 Microsoft Corporation Generating and presenting lateral concepts
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP5803902B2 (ja) * 2010-03-12 2015-11-04 日本電気株式会社 関連情報出力装置、関連情報出力方法および関連情報出力プログラム
US20110231395A1 (en) * 2010-03-19 2011-09-22 Microsoft Corporation Presenting answers
CN102236663B (zh) 2010-04-30 2014-04-09 阿里巴巴集团控股有限公司 一种基于垂直搜索的查询方法、系统和装置
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9443008B2 (en) * 2010-07-14 2016-09-13 Yahoo! Inc. Clustering of search results
US9020922B2 (en) 2010-08-10 2015-04-28 Brightedge Technologies, Inc. Search engine optimization at scale
US20120047172A1 (en) * 2010-08-23 2012-02-23 Google Inc. Parallel document mining
US9240020B2 (en) 2010-08-24 2016-01-19 Yahoo! Inc. Method of recommending content via social signals
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US8489604B1 (en) * 2010-10-26 2013-07-16 Google Inc. Automated resource selection process evaluation
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8667007B2 (en) 2011-05-26 2014-03-04 International Business Machines Corporation Hybrid and iterative keyword and category search technique
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8849811B2 (en) 2011-06-29 2014-09-30 International Business Machines Corporation Enhancing cluster analysis using document metadata
US9026519B2 (en) 2011-08-09 2015-05-05 Microsoft Technology Licensing, Llc Clustering web pages on a search engine results page
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9244919B2 (en) * 2013-02-19 2016-01-26 Google Inc. Organizing books by series
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
CN105027197A (zh) 2013-03-15 2015-11-04 苹果公司 训练至少部分语音命令系统
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A3 (en) 2013-06-07 2015-01-29 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
US20150032729A1 (en) * 2013-07-23 2015-01-29 Salesforce.Com, Inc. Matching snippets of search results to clusters of objects
US9589050B2 (en) 2014-04-07 2017-03-07 International Business Machines Corporation Semantic context based keyword search techniques
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
CN104091058A (zh) * 2014-06-27 2014-10-08 北京君和信达科技有限公司 一种安检结论提交方法和装置
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
CN104679848A (zh) * 2015-02-13 2015-06-03 百度在线网络技术(北京)有限公司 搜索推荐方法和装置
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US20170060868A1 (en) * 2015-08-28 2017-03-02 International Business Machines Corporation Automated management of natural language queries in enterprise business intelligence analytics
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6876997B1 (en) * 2000-05-22 2005-04-05 Overture Services, Inc. Method and apparatus for indentifying related searches in a database search system
US7610313B2 (en) * 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
US7191175B2 (en) * 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100428233C (zh) 2005-06-15 2008-10-22 国际商业机器公司 用于搜索的方法和设备
CN100433007C (zh) 2005-10-26 2008-11-12 斌 孙 提供搜索结果的方法
CN100594495C (zh) 2005-11-17 2010-03-17 国际商业机器公司 使用文本分析从源文档中识别相关文档集合的系统和方法
CN100481077C (zh) 2006-01-12 2009-04-22 国际商业机器公司 用于增强搜索结果导航的可视化方法及装置
CN101055585B (zh) 2006-04-13 2013-01-02 Lg电子株式会社 文档聚类系统和方法
CN100504866C (zh) 2006-06-30 2009-06-24 腾讯科技(深圳)有限公司 一种综合搜索结果的排序系统及方法
CN101119326B (zh) 2006-08-04 2010-07-28 腾讯科技(深圳)有限公司 一种即时通信会话记录的管理方法及装置
CN103530318B (zh) * 2007-01-05 2017-01-04 飞扬管理有限公司 使用与客户端设备通信的网络设备搜索数据的方法
CN101179472B (zh) 2007-05-31 2011-05-11 腾讯科技(深圳)有限公司 一种网络资源搜索方法及搜索系统
CN101344892B (zh) 2007-07-12 2011-12-07 株式会社理光 信息处理设备及信息处理方法
CN104834684A (zh) * 2008-06-13 2015-08-12 电子湾有限公司 用于集群化的方法和系统
CN101355457B (zh) 2008-06-19 2011-07-06 腾讯科技(北京)有限公司 测试方法及测试设备
CN101739429B (zh) 2008-11-18 2012-08-22 中国移动通信集团公司 一种优化聚类搜索结果的方法及其装置
CN102122296B (zh) 2008-12-05 2012-09-12 北京大学 检索结果聚类方法及装置
CN101694670B (zh) 2009-10-20 2012-07-04 北京航空航天大学 一种基于公共子串的中文Web文档在线聚类方法
CN102222072A (zh) * 2010-04-19 2011-10-19 腾讯科技(深圳)有限公司 一种信息分类的方法和装置
CN101916164A (zh) * 2010-08-11 2010-12-15 中兴通讯股份有限公司 一种移动终端及其实现的文件浏览方法
CN101963974A (zh) * 2010-09-03 2011-02-02 深圳创维数字技术股份有限公司 一种epg栏目生成方法
CN102999562A (zh) * 2011-11-02 2013-03-27 微软公司 路由查询结果
US9558274B2 (en) 2011-11-02 2017-01-31 Microsoft Technology Licensing, Llc Routing query results
CN102999562B (zh) * 2011-11-02 2017-08-08 微软技术许可有限责任公司 路由查询结果
US9189563B2 (en) 2011-11-02 2015-11-17 Microsoft Technology Licensing, Llc Inheritance of rules across hierarchical levels
US9177022B2 (en) 2011-11-02 2015-11-03 Microsoft Technology Licensing, Llc User pipeline configuration for rule-based query transformation, generation and result display
US9792264B2 (en) 2011-11-02 2017-10-17 Microsoft Technology Licensing, Llc Inheritance of rules across hierarchical levels
CN102609475A (zh) * 2012-01-19 2012-07-25 浙江省公众信息产业有限公司 微博内容监测方法及监测系统
CN102609475B (zh) * 2012-01-19 2016-06-15 浙江省公众信息产业有限公司 微博内容监测方法及监测系统
CN103678302A (zh) * 2012-08-30 2014-03-26 北京百度网讯科技有限公司 一种文档结构化组织方法及装置
CN104838375A (zh) * 2012-11-13 2015-08-12 微软技术许可有限责任公司 搜索结果基于意图的呈现
CN104123279A (zh) * 2013-04-24 2014-10-29 腾讯科技(深圳)有限公司 关键词的聚类方法和装置
CN103995849B (zh) * 2014-05-07 2017-05-03 中国科学院计算技术研究所 一种事件跟踪方法及系统
CN103995849A (zh) * 2014-05-07 2014-08-20 中国科学院计算技术研究所 一种事件跟踪方法及系统
CN104111990A (zh) * 2014-07-02 2014-10-22 百度在线网络技术(北京)有限公司 搜索结果卡片的展现方法和装置
CN105045845A (zh) * 2015-07-02 2015-11-11 浪潮(北京)电子信息产业有限公司 一种文档分类管理方法及装置

Also Published As

Publication number Publication date Type
US20060117002A1 (en) 2006-06-01 application

Similar Documents

Publication Publication Date Title
Lawrence et al. Indexing and retrieval of scientific literature
US8122016B1 (en) Determining concepts associated with a query
Alonso et al. Clustering and exploring search results using timeline constructions
US7599914B2 (en) Phrase-based searching in an information retrieval system
Davies et al. QuizRDF: Search technology for the semantic web
US7584175B2 (en) Phrase-based generation of document descriptions
US7580929B2 (en) Phrase-based personalization of searches in an information retrieval system
US7536408B2 (en) Phrase-based indexing in an information retrieval system
US7698331B2 (en) Matching and ranking of sponsored search listings incorporating web search technology and web content
US7426507B1 (en) Automatic taxonomy generation in search results using phrases
US7359891B2 (en) Hot topic extraction apparatus and method, storage medium therefor
US6029165A (en) Search and retrieval information system and method
Shen et al. Building bridges for web query classification
Zhang et al. Improving web search results using affinity graph
US7610279B2 (en) Filtering context-sensitive search results
US7698255B2 (en) System for organizing knowledge data and communication with users having affinity to knowledge data
US5924090A (en) Method and apparatus for searching a database of records
US7962461B2 (en) Method and system for finding and aggregating reviews for a product
US8166013B2 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
US7302646B2 (en) Information rearrangement method, information processing apparatus and information processing system, and storage medium and program transmission apparatus therefor
US6694331B2 (en) Apparatus for and method of searching and organizing intellectual property information utilizing a classification system
US6408294B1 (en) Common term optimization
US6374241B1 (en) Data merging techniques
US20070255689A1 (en) System and method for indexing web content using click-through features
US20020032672A1 (en) Method and apparatus for formatting information within a directory tree structure into an encylopedia-like entry

Legal Events

Date Code Title Description
C06 Publication
C10 Request of examination as to substance
C02 Deemed withdrawal of patent application after publication (patent law 2001)