CN101458708B - 检索结果聚类方法及装置 - Google Patents

检索结果聚类方法及装置 Download PDF

Info

Publication number
CN101458708B
CN101458708B CN2008102392562A CN200810239256A CN101458708B CN 101458708 B CN101458708 B CN 101458708B CN 2008102392562 A CN2008102392562 A CN 2008102392562A CN 200810239256 A CN200810239256 A CN 200810239256A CN 101458708 B CN101458708 B CN 101458708B
Authority
CN
China
Prior art keywords
phrase
result
retrieval
cluster
confirming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008102392562A
Other languages
English (en)
Other versions
CN101458708A (zh
Inventor
骆雄武
万小军
杨建武
吴於茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Founder Electronics Chief Information Technology Co ltd
New Founder Holdings Development Co ltd
Peking University
Original Assignee
BEIJING FOUNDER E-GOVERNMENT INFORMATION TECHNOLOGY Co Ltd
Peking University
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING FOUNDER E-GOVERNMENT INFORMATION TECHNOLOGY Co Ltd, Peking University, Peking University Founder Group Co Ltd filed Critical BEIJING FOUNDER E-GOVERNMENT INFORMATION TECHNOLOGY Co Ltd
Priority to CN2008102392562A priority Critical patent/CN101458708B/zh
Publication of CN101458708A publication Critical patent/CN101458708A/zh
Application granted granted Critical
Publication of CN101458708B publication Critical patent/CN101458708B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种检索结果聚类方法及装置,用以解决按照现有技术提供的检索结果聚类方法使得用户难以按照聚类标签找到符合自己需求的检索结果的问题。其中,本发明公开的该方法包括步骤:从检索结果中选取规定数目的短语;针对选取到的每个短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签。

Description

检索结果聚类方法及装置
技术领域
本发明涉及互联网信息检索技术领域,尤其涉及一种检索结果聚类方法及装置。 
背景技术
随着互联网的飞速发展,网络上的信息总量呈现出爆炸式的增长,为了使人们能够从大量的信息中更高效快捷地找到自己所需的信息,各种搜索引擎技术应运而生。 
现有技术中,通用搜索引擎的使用方式为:用户将检索的关键词输入搜索引擎给出的关键词栏,搜索引擎根据该关键词进行检索,并将检索得到的结果按照一个排好序的列表的形式展现给用户,然后再由用户根据自身需求,从列表中找到需要的信息。当采用上述方式进行信息查询时,如果用户输入的关键词的歧义性较弱,使得搜索引擎根据该关键词返回的结果含义明确而且唯一时,搜索引擎根据关键词返回的能够满足用户查询需求的结果往往排列在列表中靠前的位置,这样用户就可以很快地找到自己需要的信息;但是,当用户输入的关键词本身具有不同的含义,使得搜索引擎根据该关键词返回的搜索结果包含了关键词的不同含义时,上述方式就会使得用户可能需要在浏览了很多个页面和结果之后才能找到自己需要的信息,对用户来说将是一项麻烦而且耗时的工作。 
为了解决用户在搜索引擎返回的检索结果中查找自己需要的信息比较麻烦的问题,一方面,可以改进文本检索技术、尽量将用户可能感兴趣的结果排在靠前的位置;另一方面,则是改进便于用户在检索结果中进行浏览和查找的技术,比如对搜索引擎得到的检索结果进行自动分组,将具有相似特征(例如 同属于一个主题)的文档放在同一组,以便于用户缩小查找范围,只在自己感兴趣的少数组中查找和浏览所关心的文档。 
在现有技术中,一种常用的对搜索引擎得到的检索结果进行自动分组的传统做法是,先对搜索引擎返回的结果进行文档聚类(Clustering),然后为每个聚类产生一个标签(通常是在每个聚类中选择的一个代表性的词或者短语)。在文档聚类过程中,由于不需要使用预先设定的分类体系,而是根据文档之间的相似性动态地生成类别,因此其优点在于无需付出维护分类体系的代价;但其缺点则在于产生的聚类标签可读性较差。 
为了解决采用上述方法产生的聚类标签可读性较差的问题,现有技术中还提出了多种检索结果聚类的方法,比如O.Zamir和O.Etzioni提出了后缀树聚类(STC,Suffix Tree Clustering)方法,通过为检索出的文档集构建一棵统一的后缀树,从而识别出多个文档之间的公共字符串来进行文档的自动聚类(参见O.Zamir and O.Etzioni.Web document clustering:A feasibility demonstration.In SIGIR,46-54,1998)。该方法效率高,而且对于短文档聚类效果较好,自提出后被很多系统采用,但是采用该方法得到的聚类标签仍然是在得到聚类的基础上,再选取其中的一个短语生成的,因此可读性和区分性都较差。 
X.Wang提出了一种基于网络搜索日志的机器学习方法来组织搜索结果。针对一个查询,先通过用户搜索日志用星形聚类的方法学习出可能的“兴趣面(interesting aspects)”,并采用搜索日志中用户过去输入的查询词作为聚类的标签,然后用分类的方法将搜索结果分组至各个聚类。这一方法效果不错,但是,搜索日志毕竟不可能包含用户的所有可能的查询,对于那些新的在日志中难以找到相似者的查询,该方法性能可能就会受到影响(参见X.Wang and C.Zhai.Learn from web search logs to organize search results.In SIGIR,87-94,2007)。 
H.Zeng等人也意识到了聚类标签的重要性,他们利用机器学习的方法,通过将人工标注和模型训练相结合,对聚类标签的生成提出了改进,并且取得 了不错的效果,但是他们的方法需要人工标注的训练集,还要结合一些复杂的特征找到合适的训练模型,然后进行候选标签的挑选,维护代价较大(参见H.Zeng,Q.He,Z.Chen,W.Ma,and J.Ma.Learning to cluster web search results.In SIGIR,210-217,2004)。 
当前,对于检索结果聚类,也存在很多较为成熟的实用系统,如Carrot(http://demo.carrot2.org/demo-stable/main),Vivisimo(http://vivisimo.com),它们总体上都有着不错的表现性能,但是在很多情况下,聚类标签的可读性以及标签与聚类结果间的相关度等较差,从而也使得用户在搜索引擎返回的检索结果中查找自己需要的信息仍然比较麻烦。 
总体而言,当前大部分检索结果聚类方法中,聚类的标签是在对检索结果进行聚类后生成的,或是在对检索结果进行聚类的同时附带生成的,按照这样的方式产生的聚类标签可读性较差,不同聚类标签之间区分性较小,从而使得用户难以按照聚类标签找到符合自己需求的检索结果。 
发明内容
本发明实施例提供一种检索结果聚类方法及装置,用以解决按照现有技术提供的检索结果聚类方法使得用户难以按照聚类标签找到符合自己需求的检索结果的问题。 
为此,本发明采用以下技术方案: 
一种检索结果聚类方法,包括:从检索结果中选取第一数目的短语; 
根据第一数目的短语中各个短语分别包含的字数数目及预设的字数数目阈值,分别确定第一数目的短语中各个短语的长度得分; 
针对第一数目的短语中的每个短语,根据包含该短语的检索结果个数、包含该短语的预设检索结果个数阈值、该短语在各个检索结果中出现的总次数,以及检索结果的总个数,确定该短语的出现频率得分; 
根据确定的第一数目的短语中各个短语的长度得分及出现频率得分,分别 确定各个短语的总得分; 
根据确定的各个短语的总得分,按照总得分由高到低的选取顺序,从所述第一数目的短语中依次选取规定数目的短语;针对选取到的每个短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签。 
一种检索结果聚类方法,包括:从检索结果中选取第一数目的短语;分别确定第一数目的短语中各个短语与用于检索的关键词在同一检索结果中出现的位置之间的第一平均距离;对确定的各个第一平均距离进行归一化处理;根据归一化结果,分别确定第一数目的短语中各个短语与用于检索的关键词在同一个检索结果中出现的位置之间的第二平均距离;根据确定的各个第二平均距离,按照第二平均距离由小到大的选取顺序,依次从所述第一数目的短语中选取规定数目的短语;针对选取到的每个短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签。 
一种检索结果聚类装置,包括:选取单元,利用与从检索结果中选取规定数目的短语;聚类单元,用于针对选取单元选取到的每个短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签。 
本发明实施例通过按照预设的选取规则,先从检索结果中选取出规定数目的短语,然后再针对选取到的每个短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签,使得得到的聚类标签可读性较好,不同聚类标签之间区分性较大,从而用户能够很容易地按照聚类标签找到符合自己需求的检索结果。
附图说明
图1为本发明实施例提供的一种检索结果聚类方法的具体实现流程示意图; 
图2为本发明实施例中从检索结果中选取规定数目的短语的一种具体实现流程示意图; 
图3为本发明实施例中从检索结果中选取规定数目的短语的另一种具体实现流程示意图; 
图4为本发明实施例中实现从选取到的规定数目的短语进一步挑选出相关度较低的第一规定数目的短语的具体实现流程示意图; 
图5为本发明实施例中对步骤12进行改进的具体实现流程图; 
图6为本发明实施例中选取单元的一种具体结构示意图; 
图7为本发明实施例中选取单元的另一种具体结构示意图。 
具体实施方式
本发明实施例提供一种检索结果聚类方法及装置,通过按照预设的选取规则,先从检索结果中选取出规定数目的短语,然后再针对选取到的每个短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签,使得得到的聚类标签可读性较好,不同聚类标签之间区分性较大,从而用户能够很容易地按照聚类标签找到符合自己需求的检索结果。 
下面结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。 
如图1所示,为本发明实施例提供的一种检索结果聚类方法的具体实现流程示意图,具体包括: 
步骤11,从检索结果中选取规定数目的短语; 
步骤12,针对选取到的每个短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签。 
上述的检索结果是指,检索系统针对某个查询请求,根据一个文档集合中各个文档与查询请求间的相关程度返回的一批文档,该返回的文档则既可以是原始的整个文档,也可以是用于代表文档的摘要片段(snippet)。其中,检索系统是指用于根据查询请求,从任何候选文档集中检索出与查询请求相关的文档集的系统或装置;查询请求是指由计算机或网络用户的输入的、符合检索系 统格式要求的、任何被检索系统接收的符号表达。本发明实施例提供的该方法,适用于对任何类型的检索结果的聚类。 
按照本发明实施例提供的该方法,作为聚类标签的短语不是在对检索结果进行聚类后生成的,也不是在对检索结果进行聚类的同时附带生成的,而是先于对检索结果进行聚类前生成的。因此,按照本发明实施例提供的该方法,对检索结果的聚类是依赖于已经选取到的短语而进行的,而聚类标签的选取则不会被动地依赖于已经聚类或正在聚类的检索结果,从而使得本发明实施例提供的该方法能够解决按照现有技术提供的检索结果聚类方法产生的聚类标签可读性较差,不同聚类标签之间区分性较小,从而使得用户难以按照聚类标签找到符合自己需求的检索结果的问题。 
较佳地,上述步骤11中从检索结果中选取规定数目的短语的一种具体实现流程示意图如图2所示,包括: 
步骤21,从检索结果中选取第一数目的短语; 
步骤22,根据第一数目的短语中各个短语分别包含的字数数目及预设的字数数目阈值,分别确定第一数目的短语中各个短语的长度得分,该确定过程具体为: 
根据步骤21中选取出的第一数目的短语中各个短语分别包含的字数数目及预设的字数数目阈值,按照下述公式(1),确定各个选取到的短语的长度得分: 
Figure G2008102392562D00061
其中,len为该短语中包含的字数数目,MAXLEN为预设的字数数目阈值,lenScore为该短语的长度得分; 
步骤23,针对第一数目的短语中的每个短语,根据包含该短语的检索结果个数、包含该短语的预设检索结果个数阈值、该短语在各个检索结果中出现的总次数,以及检索结果的总个数,确定该短语的出现频率得分,该过程具体如下:
按照下述公式(2),分别确定第一数目短语中各个短语的出现频率得分: 
Figure G2008102392562D00071
其中,TF为所述同一短语在各个检索结果中出现的总次数,N为检索结果的总个数,DF为包含所述同一短语的检索结果个数,thresh为预设的包含所述同一短语的预设检索结果个数阈值(用于过滤掉那些只出现在很少的检索结果中的短语),TFIDScore为所述同一短语的出现频率得分; 
步骤24,根据确定的第一数目的短语中各个短语的长度得分及出现频率得分,分别确定各个短语的总得分,确定该总得分的具体公式如下式(3): 
score=α·lenScore+TFIDFScore        (3) 
其中,α为调整lenScore和TFIDScore之间权重的调节因子,score为短语的总得分; 
步骤25,根据确定的各个短语的总得分,按照总得分由高到低的选取顺序,从所述第一数目的短语中依次选取规定数目的短语。 
针对上述步骤21,从检索结果中选取第一数目的短语时,可以但不限于采用以下两种方式: 
方式1:基于后缀树的方式选取名词性后缀短语。该方式的主要原理是以检索结果中的每个句子为分界,以词为单位,将所有检索结果构建到一棵后缀树中。构建该后缀树的具体过程可参考“H.Chim and X.Deng.A new suffix treesimilarity measure for document clustering.In WWW,121-129,2007”。 
在这个后缀树中,每一个节点代表了一个短语,该短语的内容是从后缀树树的根节点到该节点本身所经过的边的连接。每个内部节点都记录了经过该节点所有文档的编号,同时对应记录了每个文档包含该节点的次数;而每个外部节点则代表了一个后缀短语。 
与H.Chim等人提供的构建后缀树的方法有所不同的是,本发明提供的该方法在构建后缀树的过程中,还对每个词的词性进行了记录。因此,在构建了后缀树之后,结合短语中每个词的词性,可以针对每个节点选取出大量的名词 短语,然后分别统计出选取出的各个短语的长度(这里的长度是指该短语包含的汉字个数,或者包含的单词个数)、各个短语分别在所有检索结果中出现的总次数、分别包含各个短语中同一短语的检索结果的个数,以及各个短语的编号(这里的编号是指按照预设的排序规则,对选取出的各个短语进行排序后,各个短语在排序中的位置)。 
方式2:基于n-gram(n-gram类型的短语是指从一个检索结果中选取出的长度为n的短语,且选取出的各长度为n的短语的排列顺序与各短语在该检索结果中出现的顺序保持一致)模型的方式选取短语。该方法的原理是从检索结果中选取不超过预设长度阈值的所有名词性短语。 
在方式2的具体实现过程中,鉴于选取出来的短语是用作聚类标签的,而聚类标签的长度一般较短,因此可以从所有的检索结果中选取不超过预设长度阈值的所有uni-gram,bi-gram,tri-gram类型的短语,其中,uni-gram,bi-gram,tri-gram类型的短语分别指从一个检索结果中选取出的长度为1、2、3的短语,且选取出的各长度为1的短语的排列顺序与各短语在该检索结果中出现的顺序保持一致;选取出的各长度为2的短语的排列顺序与各短语在该检索结果中出现的顺序保持一致;选取出的各长度为3的短语的排列顺序与各短语在该检索结果中出现的顺序保持一致。在选取这些n-gram短语的同时,还可以记录下每个短语的长度、各个短语分别在所有检索结果中出现的总次数、分别包含各个短语中同一短语的检索结果的个数,以及各个短语的编号等信息,最后,根据这些短语中词语的词性,从中选取出名词性短语。 
此外,现有技术中任何从检索结果中选取出短语的方法都可用于实现本发明实施例提供的该方法中从检索结果中选取规定数目的短语。 
按照上述步骤选取规定数目的短语,使得选取到的短语在作为聚类标签时,一方面,聚类标签的长度能控制在合适的长度范围内,从而聚类标签比较规范,具有很好的可读性;另一方面,在检索结果中出现的频率较高的短语被选取到作为聚类标签,而在检索结果中出现频率较低的聚类标签则被过滤掉, 从而使得根据选取到的聚类标签得到的各个聚类之间内部相似度较高。 
除上述计算方式外,还可以采用其他计算方式,根据第一数目的短语中各个短语分别包含的字数数目及预设的字数数目阈值,分别确定第一数目的短语中各个短语的长度得分;以及还可以采用其他计算方式,针对第一数目的短语中的每个短语,根据包含该短语的检索结果个数、包含该短语的预设检索结果个数阈值、该短语在各个检索结果中出现的总次数,以及检索结果的总个数,确定该短语的出现频率得分。采用其他计算方式确定各个短语的长度得分及出现频率得分,以实现从第一数目短语中依次选取规定数目的短语,同样在本发明的保护范围之内。 
较佳地,上述步骤11中从检索结果中选取规定数目的短语的另一种具体实现流程示意图如图3所示,包括: 
步骤31,从检索结果中选取第一数目的短语,这里同样可以但不限于采用上述的基于后缀树的方式或基于n-gram模型的方式选取第一数目的短语; 
步骤32,分别确定第一数目的短语中各个短语与用于检索的关键词在同一检索结果中出现的位置之间的第一平均距离,该第一平均距离的确定可采用如下式(4)所示的计算方式: 
d ij avg = Σ p m ∈ P j , q n ∈ Q j | p m - q n | | P j | · | Q j | - - - ( 4 )
其中,dijavg为第一数目短语中第i个短语与用于检索的关键词在第j个检索结果中出现的位置之间的第一平均距离,i为所述第一数目,j为包含第一数目短语中同一短语的第j个检索结果,Pj为所述同一短语在第j个检索结果中出现的位置对应的向量空间模型,Qj为包含所述同一短语的第j个检索结果中关键词出现的位置对应的向量空间模型,pm为同一短语在第j个检索结果中出现的第m个位置对应的向量空间模型,qn为包含同一短语的第j个检索结果中关键词出现的第n个位置对应的向量空间模型; 
步骤33,对确定的各个第一平均距离进行归一化处理,具体地,可以按照 下述公式(5),将所述第一平均距离进行归一化处理: 
d ij avg → = d ij avg LEN j - - - ( 5 )
其中,LENj为第j个检索结果的文档字数总数目,
Figure G2008102392562D00102
为归一化后的第一数目短语中第i个短语与用于检索的关键词在第j个检索结果中出现的位置之间的第一平均距离; 
步骤34,根据归一化结果,分别确定第一数目的短语中各个短语与用于检索的关键词在同一个检索结果中出现的位置之间的第二平均距离,具体地,根据
Figure G2008102392562D00103
按照下述公式(6),分别确定第一数目短语中的各个短语与用于检索的关键词在各个检索结果中出现的位置之间的第二平均距离: 
D i avg = Σ s j ∈ S d ij avg → | S | - - - ( 6 )
其中,S为包含同一短语的所有检索结果对应的向量空间模型,Diavg为所述第一数目短语中的第i个短语与用于检索的关键词在第j个检索结果中出现的位置之间的第二平均距离; 
步骤35,根据确定的各个第二平均距离,按照第二平均距离由小到大的选取顺序,依次从所述第一数目的短语中选取规定数目的短语。 
在本发明实施例中,图2、图3所示的从检索结果中选取规定数目的短语的两种具体方式除了可以分开使用外,还可以结合使用。比如,可以先采用图2所示的方式从第一数目短语中选取得到第二数目的短语,再采用图3所示的方式从选取到的第二数目的短语中选取规定数目的短语,或者先采用图3所示的方式从第一数目短语中选取得到第二数目的短语,再采用图2所示的方式从选取到的第二数目的短语中选取规定数目的短语。此外,为了进一步使选取到的规定数目的短语对应的聚类标签之间的区分性较大,且聚类标签可读性较好,本发明实施例中还可以采用如图4所示的流程图,实现从上述选取到的规定数目的短语进一步挑选出相关度较低的第一规定数目的短语:
步骤41,对选取的规定数目的短语中各个短语分别在各个检索结果中出现的次数所构成的矩阵A进行奇异值分解; 
如下所示,为各个短语分别在各个检索结果中出现的次数所构成的矩阵A的一个具体例子,其中,d1~d6分别对应于6个不同的检索结果,t1~t4分别对应于4个不同的短语,如第一个矩阵元素322即表示短语t1在检索结果d1中出现的次数为322次: 
对矩阵进行奇异值分解的公式则如下式(7)所示: 
A=UWVT                             (7) 
其中,U和V为正交矩阵,W为奇异值对角矩阵。 
步骤42,根据奇异值分解结果,确定选取的规定数目短语中各个短语之间的相关度C,该相关度C的计算公式如下式(8)所示: 
C=AAT                               (8) 
由于U和V为正交矩阵,W为奇异值对角矩阵,因此,根据公式(7)、(8)可推导出下式(9): 
C=AAT=UWVT(UWVT)T=UWVTVWTUT=UW2UT       (9) 
步骤43,按照短语之间的相关度由低到高的选取顺序,依次从规定数目的短语中选取第一规定数目的短语。 
依次按照图2、图3、图4所示的选取方式对短语进行多次选取,并针对选取到的每个短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签,可以使得得到的标签的可读性更好,不同标签之间的区分性变得更大,从而能够使用户很容易地按照聚类标签找到符合自己需求的检索结果。
进一步地,为了使用户能够更加容易地按照聚类标签找到符合自己需求的检索结果,针对上述步骤12,本发明实施例还采用了如图5所示的方式对该步骤12进行了改进,其改进的具体流程示意图包括以下步骤: 
步骤51,根据每个聚类中分别包含的检索结果个数,以及每个聚类中包含的各个检索结果对应的向量空间模型,确定每个聚类的中心向量,确定中心向量的具体公式如下式(10)所示: 
o = 1 | D ( CL β ) | · Σ Rγ ∈ D ( CL β ) Rγ - - - ( 10 )
其中,D(CLβ)为第β个聚类,Rγ为D(CLβ)中包含的第γ个检索结果对应的空间向量模型,o为该第β个聚类的中心向量; 
步骤52,根据确定的每个聚类的中心向量,分别确定每个聚类的中心向量与每个聚类中包含的各个检索结果对应的向量空间模型的内部相似度(ICS,Intra-Cluster Similarity)的平均值,具体地,可以按照下述公式(11),计算各个聚类中心向量与各个聚类中包含的每个检索结果对应的向量空间模型的内部相似度平均值ICSβ: 
ICS β = 1 | D ( CL β ) | · Σ Rγ ∈ D ( CL β ) cos ( Rγ , o ) - - - ( 11 )
步骤53,分别根据确定的对应每个聚类的内部相似度的平均值,保留内部相似度的平均值不小于预设的内部相似度阈值的聚类; 
步骤54,按照内部相似度的平均值由大到小的顺序,对被保留下来的聚类进行排列。 
需要说明的是,除上述计算方式外,还可以采用其他计算方式确定该内部相似度平均值。采用其他计算方式确定内部相似度平均值,以实现分别根据确定的对应每个聚类的内部相似度平均值,保留内部相似度平均值不小于预设的内部相似度阈值的聚类,同样在本发明的保护范围之内。 
经过上述步骤51~53,由于在最终的检索结果聚类中只保留了各个检索结 果之间的内部相似度较大的聚类,而去除了各个检索结果之间的内部相似度较小的聚类,因此,最终保留的各个聚类中不会包含太多的检索结果,且由于聚类中包含的检索结果之间相似度较大,从而使聚类标签有较明确的主题,有利于用户根据自身的需求对检索结果进行对比查找。此外,采用步骤54对保留下来的聚类按照内部相似度平均值由大到小的顺序进行了排列,可以使得用户查找自身所需求的检索结果时更为方便。 
相应地,本发明实施例提供一种检索结果聚类装置,包括:选取单元,利用与从检索结果中选取规定数目的短语;聚类单元,用于针对选取单元选取到的每个短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签。 
较佳地,针对上述选取单元功能的一种实现方式,上述选取单元的具体结构示意图如图6所示,可以包括: 
第一选取子单元61,用于从检索结果中选取第一数目的短语; 
长度得分确定子单元62,用于根据第一选取子单元61选取的第一数目的短语中各个短语分别包含的字数数目及预设的字数数目阈值,分别确定第一数目的短语中各个短语的长度得分; 
频率得分确定子单元63,用于针对第一选取子单元61选取的第一数目短语中的每个短语,根据包含该短语的检索结果个数、包含该短语的预设检索结果个数阈值、该短语在各个检索结果中出现的总次数,以及检索结果的总个数,确定该短语的出现频率得分; 
总得分确定子单元64,用于根据长度得分确定子单元62确定的第一数目的短语中各个短语的长度得分、频率得分确定子单元63确定的第一数目的短语中各个短语的出现频率得分,分别确定各个短语的总得分; 
第二选取子单元65,用于根据总得分确定子单元64确定的各个短语的总得分,按照总得分由高到低的选取顺序,从第一子单元61选取到的第一数目的短语中依次选取规定数目的短语。
对应于上述选取子单元功能的一种实现方式,上述选取子单元具体可以包括:第一选取模块,用于根据总得分确定子单元确定的各个短语的总得分,按照总得分由高到低的选取顺序,从所述第一数目的短语中依次选取第二数目的短语;第一平均距离确定模块,用于分别确定选取模块选取的所述第二数目的短语中各个短语与用于检索的关键词在同一检索结果中出现的位置之间的第一平均距离:归一化模块,用于对第一平均距离确定模块确定的各个第一平均距离进行归一化处理;第二平均距离确定模块,用于根据归一化结果,分别确定选取模块选取的所述第二数目的短语中各个短语与用于检索的关键词在各个检索结果中出现的位置之间的第二平均距离;第二选取模块,用于根据第二平均距离确定模块确定的各个第二平均距离,按照第二平均距离由小到大的选取顺序,依次从选取模块选取的所述第二数目的短语中选取规定数目的短语。 
对应于上述第二选取模块功能的一种具体实现方式,上述第二选取模块具体可以包括:第一选取子模块,用于根据选取模块选取的所述第二数目的短语中各个短语分别在检索结果中出现的位置,及用于检索的关键词在检索结果中出现的位置,从第二数目的短语中选取第三数目的短语;分解子模块,用于对第一选取子模块选取的第三数目的短语中各个短语分别在各个检索结果中出现的次数所构成的矩阵进行奇异值分解;确定子模块,用于根据分解子模块的奇异值分解结果,确定第三数目的短语中各个短语之间的相关度;第二选取子模块,用于根据确定子模块确定的各个短语之间的相关度,按照相关度由低到高的选取顺序,在第一选取子模块选取的第三数目的短语中依次选取规定数目的短语。 
对应于上述选取单元功能的另一种实现方式,上述选取单元的具体结构示意图如图7所示,具体可以包括: 
第一选取子单元71,用于从检索结果中选取第一数目的短语; 
第一平均距离确定子单元72,用于分别确定第一选取子单元71选取的第一数目的短语中各个短语与用于检索的关键词在同一检索结果中出现的位置之 间的第一平均距离; 
归一化子单元73,用于对第一平均距离确定子单元72确定的各个第一平均距离进行归一化处理; 
第二平均距离确定子单元74,用于根据归一化子单元73的归一化结果,分别确定第一数目的短语中各个短语与用于检索的关键词在同一个检索结果中出现的位置之间的第二平均距离; 
第二选取子单元75,用于根据第二平均距离确定子单元74确定的各个第二平均距离,按照第二平均距离由小到大的选取顺序,依次从第一选取子单元71选取到的第一数目的短语中选取规定数目的短语。 
进一步地,为了使用户能够更加容易地按照聚类标签找到符合自己需求的检索结果,本发明实施例提供的该检索结果聚类装置还可以包括: 
中心向量确定单元,用于根据聚类单元得到的每个聚类中分别包含的检索结果个数,以及每个聚类中包含的各个检索结果对应的向量空间模型,确定每个聚类的中心向量; 
内部相似度平均值确定单元,用于根据中心向量确定单元确定的每个聚类的中心向量,分别确定每个聚类的中心向量与每个聚类中包含的各个检索结果对应的向量空间模型的内部相似度的平均值; 
保留单元,用于分别根据内部相似度平均值确定单元确定的对应每个聚类的内部相似度的平均值,保留内部相似度的平均值不小于预设的内部相似度阈值的聚类;以及 
排列单元,用于根据按照内部相似度的平均值由大到小的顺序,对被保留单元保留下来的聚类进行排列。 
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种检索结果聚类方法,其特征在于,包括:
从检索结果中选取第一数目的短语;
根据第一数目的短语中各个短语分别包含的字数数目及预设的字数数目阈值,分别确定第一数目的短语中各个短语的长度得分;
针对第一数目的短语中的每个短语,根据包含该短语的检索结果个数、包含该短语的预设检索结果个数阈值、该短语在各个检索结果中出现的总次数,以及检索结果的总个数,确定该短语的出现频率得分;
根据确定的第一数目的短语中各个短语的长度得分及出现频率得分,分别确定各个短语的总得分;
根据确定的各个短语的总得分,按照总得分由高到低的选取顺序,从所述第一数目的短语中依次选取规定数目的短语;
针对选取到的每个短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签。
2.如权利要求1所述的方法,其特征在于,根据确定的各个短语的总得分,按照总得分由高到低的选取顺序,从第一数目的短语中依次选取规定数目的短语,具体包括:
根据确定的各个短语的总得分,按照总得分由高到低的选取顺序,从所述第一数目的短语中依次选取第二数目的短语;
分别确定所述第二数目的短语中各个短语与用于检索的关键词在同一检索结果中出现的位置之间的第一平均距离:
对确定的各个第一平均距离进行归一化处理,以及
根据归一化结果,分别确定所述第二数目的短语中各个短语与用于检索的关键词在各个检索结果中出现的位置之间的第二平均距离;
根据确定的各个第二平均距离,按照第二平均距离由小到大的选取顺序,依次从所述第二数目的短语中选取规定数目的短语。
3.如权利要求2所述的方法,其特征在于,根据确定的各个第二平均距离,按照第二平均距离由小到大的选取顺序,依次从所述第二数目的短语中选取规定数目的短语,具体包括:
根据第二数目的短语中各个短语分别在检索结果中出现的位置,及用于检索的关键词在检索结果中出现的位置,从第二数目的短语中选取第三数目的短语;
对选取的第三数目的短语中各个短语分别在各个检索结果中出现的次数所构成的矩阵进行奇异值分解;
根据奇异值分解结果,确定第三数目的短语中各个短语之间的相关度;
根据确定的各个短语之间的相关度,按照相关度由低到高的选取顺序,在第三数目的短语中依次选取规定数目的短语。
4.如1~3任一权利要求所述的方法,其特征在于,针对每个选取到的短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签之后,还包括:
根据每个聚类中分别包含的检索结果个数,以及每个聚类中包含的各个检索结果对应的向量空间模型,确定每个聚类的中心向量;
根据确定的每个聚类的中心向量,分别确定每个聚类的中心向量与每个聚类中包含的各个检索结果对应的向量空间模型的内部相似度的平均值;
分别根据确定的对应每个聚类的内部相似度的平均值,保留内部相似度的平均值不小于预设的内部相似度阈值的聚类;以及
按照内部相似度的平均值由大到小的顺序,对被保留下来的聚类进行排列。
5.一种检索结果聚类装置,其特征在于,包括:
选取单元,利用与从检索结果中选取规定数目的短语;
聚类单元,用于针对选取单元选取到的每个短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签。
其中,所述选取单元具体包括:
第一选取子单元,用于从检索结果中选取第一数目的短语;
长度得分确定子单元,用于根据第一选取子单元选取的第一数目的短语中各个短语分别包含的字数数目及预设的字数数目阈值,分别确定第一数目的短语中各个短语的长度得分;
频率得分确定子单元,用于针对第一数目的短语中的每个短语,根据包含该短语的检索结果个数、包含该短语的预设检索结果个数阈值、该短语在各个检索结果中出现的总次数,以及检索结果的总个数,确定该短语的出现频率得分;
总得分确定子单元,用于根据长度得分确定子单元确定的第一数目的短语中各个短语的长度得分、频率得分确定子单元确定的第一数目的短语中各个短语的出现频率得分,分别确定各个短语的总得分;
第二选取子单元,用于根据总得分确定子单元确定的各个短语的总得分,按照总得分由高到低的选取顺序,从第一选取子单元选取的所述第一数目的短语中依次选取规定数目的短语。
6.如权利要求5所述的装置,其特征在于,所述选取子单元具体包括:
第一选取模块,用于根据总得分确定子单元确定的各个短语的总得分,按照总得分由高到低的选取顺序,从所述第一数目的短语中依次选取第二数目的短语;
第一平均距离确定模块,用于分别确定选取模块选取的所述第二数目的短语中各个短语与用于检索的关键词在同一检索结果中出现的位置之间的第一平均距离:
归一化模块,用于对第一平均距离确定模块确定的各个第一平均距离进行归一化处理;
第二平均距离确定模块,用于根据归一化结果,分别确定选取模块选取的所述第二数目的短语中各个短语与用于检索的关键词在各个检索结果中出现的位置之间的第二平均距离;
第二选取模块,用于根据第二平均距离确定模块确定的各个第二平均距离,按照第二平均距离由小到大的选取顺序,依次从选取模块选取的所述第二数目的短语中选取规定数目的短语。
7.如权利要求6所述的装置,其特征在于,所述第二选取模块具体包括:
第一选取子模块,用于根据选取模块选取的所述第二数目的短语中各个短语分别在检索结果中出现的位置,及用于检索的关键词在检索结果中出现的位置,从第二数目的短语中选取第三数目的短语;
分解子模块,用于对第一选取子模块选取的第三数目的短语中各个短语分别在各个检索结果中出现的次数所构成的矩阵进行奇异值分解;
确定子模块,用于根据分解子模块的奇异值分解结果,确定第三数目的短语中各个短语之间的相关度;
第二选取子模块,用于根据确定子模块确定的各个短语之间的相关度,按照相关度由低到高的选取顺序,在第一选取子模块选取的第三数目的短语中依次选取规定数目的短语。
8.如权利要求5~7任一所述的装置,其特征在于,还包括:
中心向量确定单元,用于根据聚类单元得到的每个聚类中分别包含的检索结果个数,以及每个聚类中包含的各个检索结果对应的向量空间模型,确定每个聚类的中心向量;
内部相似度平均值确定单元,用于根据中心向量确定单元确定的每个聚类的中心向量,分别确定每个聚类的中心向量与每个聚类中包含的各个检索结果对应的向量空间模型的内部相似度的平均值;
保留单元,用于分别根据内部相似度平均值确定单元确定的对应每个聚类的内部相似度的平均值,保留内部相似度的平均值不小于预设的内部相似度阈值的聚类;以及
排列单元,用于根据按照内部相似度的平均值由大到小的顺序,对被保留单元保留下来的聚类进行排列。
CN2008102392562A 2008-12-05 2008-12-05 检索结果聚类方法及装置 Expired - Fee Related CN101458708B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008102392562A CN101458708B (zh) 2008-12-05 2008-12-05 检索结果聚类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102392562A CN101458708B (zh) 2008-12-05 2008-12-05 检索结果聚类方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201110048758A Division CN102122296B (zh) 2008-12-05 2008-12-05 检索结果聚类方法及装置

Publications (2)

Publication Number Publication Date
CN101458708A CN101458708A (zh) 2009-06-17
CN101458708B true CN101458708B (zh) 2012-07-04

Family

ID=40769564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102392562A Expired - Fee Related CN101458708B (zh) 2008-12-05 2008-12-05 检索结果聚类方法及装置

Country Status (1)

Country Link
CN (1) CN101458708B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101989281B (zh) * 2009-08-03 2012-06-27 中国移动通信集团公司 聚类方法及装置
CN101673305B (zh) * 2009-09-29 2015-04-08 百度在线网络技术(北京)有限公司 行业分类方法、装置和服务器
CN101763441B (zh) * 2010-01-13 2013-04-03 北京中加国道科技有限责任公司 一种以动态目录方式组织检索结果的技术
CN101853272B (zh) * 2010-04-30 2012-07-04 华北电力大学(保定) 基于相关反馈和聚类的搜索引擎技术
CN102081642A (zh) * 2010-10-28 2011-06-01 华南理工大学 搜索引擎检索结果聚类的中文标签提取方法
CN102456060A (zh) * 2010-10-28 2012-05-16 株式会社日立制作所 信息处理装置及信息处理方法
CN102622358A (zh) * 2011-01-27 2012-08-01 天脉聚源(北京)传媒科技有限公司 一种搜索信息的方法和系统
CN103870476A (zh) * 2012-12-12 2014-06-18 百度在线网络技术(北京)有限公司 检索方法及设备
CN103093376B (zh) * 2013-01-16 2020-02-14 北京邮电大学 基于奇异值分解算法的聚类协同过滤推荐系统
US9792560B2 (en) * 2015-02-17 2017-10-17 Microsoft Technology Licensing, Llc Training systems and methods for sequence taggers
CN105631033B (zh) * 2015-12-31 2020-06-19 北京奇艺世纪科技有限公司 一种视频数据的挖掘方法和装置
CN108021951A (zh) * 2017-12-29 2018-05-11 北京天融信网络安全技术有限公司 一种文档检测的方法、服务器及计算机可读存储介质
CN110188301B (zh) * 2019-04-30 2022-02-18 北京百度网讯科技有限公司 用于网站的信息聚合方法及装置
WO2023137633A1 (en) * 2022-01-19 2023-07-27 Siemens Aktiengesellschaft Data processing apparatus, method and diagnostic system

Also Published As

Publication number Publication date
CN101458708A (zh) 2009-06-17

Similar Documents

Publication Publication Date Title
CN101458708B (zh) 检索结果聚类方法及装置
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
CN100416570C (zh) 一种基于问答库的中文自然语言问答方法
CN109960786A (zh) 基于融合策略的中文词语相似度计算方法
CN102955848B (zh) 一种基于语义的三维模型检索系统和方法
CN103902652A (zh) 自动问答系统
CN103678412B (zh) 一种文档检索的方法及装置
CN104021198B (zh) 基于本体语义索引的关系数据库信息检索方法及装置
CN104636466A (zh) 一种面向开放网页的实体属性抽取方法和系统
CN103049433A (zh) 自动问答方法、自动问答系统及构建问答实例库的方法
CN102122296B (zh) 检索结果聚类方法及装置
CN105956206A (zh) 一种基于关键词树的视频检索方法及系统
CN104102681A (zh) 一种微博关键事件获取方法和装置
CN105868177A (zh) 一种通用公式搜索方法
CN106484797A (zh) 基于稀疏学习的突发事件摘要抽取方法
CN103150356A (zh) 一种应用的泛需求检索方法及系统
CN102768679A (zh) 一种搜索方法及搜索系统
CN104281565A (zh) 语义词典构建方法和装置
CN105404677A (zh) 一种基于树形结构的检索方法
CN102609455B (zh) 一种实现汉语同音字检索的方法
CN106570196A (zh) 视频节目的搜索方法和装置
Grineva et al. Blognoon: Exploring a topic in the blogosphere
CN105426490A (zh) 一种基于树形结构的索引方法
CN111241854A (zh) 一种基于区块链技术的语言搜索引擎系统
CN102750278A (zh) 信息的获取方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220914

Address after: 100871 No. 5, the Summer Palace Road, Beijing, Haidian District

Patentee after: Peking University

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS CHIEF INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 100871 No. 5, the Summer Palace Road, Beijing, Haidian District

Patentee before: Peking University

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS CHIEF INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120704

CF01 Termination of patent right due to non-payment of annual fee