CN101364239B - 一种分类目录自动构建方法及相关系统 - Google Patents

一种分类目录自动构建方法及相关系统 Download PDF

Info

Publication number
CN101364239B
CN101364239B CN2008102237923A CN200810223792A CN101364239B CN 101364239 B CN101364239 B CN 101364239B CN 2008102237923 A CN2008102237923 A CN 2008102237923A CN 200810223792 A CN200810223792 A CN 200810223792A CN 101364239 B CN101364239 B CN 101364239B
Authority
CN
China
Prior art keywords
concept term
concept
term
class
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008102237923A
Other languages
English (en)
Other versions
CN101364239A (zh
Inventor
李亚楠
王斌
李锦涛
李鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taobao China Software Co Ltd
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN2008102237923A priority Critical patent/CN101364239B/zh
Publication of CN101364239A publication Critical patent/CN101364239A/zh
Application granted granted Critical
Publication of CN101364239B publication Critical patent/CN101364239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供一种分类目录自动构建方法,包括:从现有数据中查找与用户提交的查询词有关的概念术语,得到与所述查询词相关的概念术语集合;计算所述概念术语集合中各个概念术语间的相关度;根据所述概念术语间的相关度,对所述概念术语集合中的概念术语做分类或聚类操作,得到至少一个概念术语类;将所述概念术语集合中的概念术语按照所述概念术语类组织成分类目录后,返回给用户。本发明在现有的搜索引擎的基础上,为用户提供的查询词生成了相应的分类目录,所得到的分类目录能够反映用户查询的不同含义,从而有助于用户更容易、更快捷地找到所需的信息。

Description

一种分类目录自动构建方法及相关系统
技术领域
本发明涉及计算机搜索领域,特别涉及在计算机搜索过程中为搜索结果创建分类目录的方法以及相应的系统。 
背景技术
计算机和互联网技术的快速发展,方便了人们对信息的获取。尤其是近几年来,随着搜索引擎技术的飞速发展,因特网用户通过搜索引擎获取信息已经成为非常普遍的现象。CNNIC信息服务部在2005年1月公布的《全球互联网统计信息报告》就已经显示:搜索引擎拥有84%的网民用户。现在的搜索引擎用户恐怕会更多。但是现在的搜索引擎很多时候并不能返回正确的答案,尼尔森-诺曼集团的调查显示:搜索引擎的评价成功率只有42%。 
如何帮助用户快速准确地发现其所寻找的信息是搜索引擎的重要目标。到目前为止,搜索引擎已经经历了两代:第一代搜索引擎指主要依靠人工分拣的分类目录搜索,这一类当时以Yahoo这样的门户网站为代表。随着互联网规模的不断扩大,靠人工编辑生成的分类目录难以跟上互联网信息增长速度;另外内容增多导致目录深度和每一层节点数的不断增加,这些无疑加重了用户浏览信息和检索的负担。第二代搜索引擎以超链接分析为基础的机器抓取技术为基础,在一定程度上解决了上述问题;这一类以Google公司为代表。从交互上看,可以直接获取相关文档的第二代搜索引擎自然要比层层浏览跳转才能找到信息的第一代搜索引擎好。但是当前的第二代搜索引擎相对于第一代搜索引擎也引入了两个弊端:一是搜索引擎返回的结果缺乏人工目录的有效组织,不利于浏览。另一点在于,当用户初始查询失败时,用户不能利用目录索引找到当前查询的相关内容。而在人工编辑的分类目录中,用户查找失败后可以通过当前目录的上层目录或相关目录去再次组织寻找。 
鉴于上述两种搜索引擎模式各自所存在的缺陷,若能够提供一种将两种搜索引擎模式的优点集于一身的新的搜索方法,则有助于向用户提供更 快、更有效的搜索服务。 
发明内容
本发明的目的是克服现有的搜索引擎模式在搜索过程中各自所存在的缺陷,从而提供一种在搜索过程中创建分类目录并根据所创建的分类目录实现搜索的搜索方法。 
为了实现上述目的,本发明提供了一种分类目录自动构建方法,包括: 
步骤1)、查找与用户提交的查询词有关的概念术语,得到与所述查询词相关的概念术语集合; 
步骤2)、计算所述概念术语集合中各个概念术语间的相关度; 
步骤3)、根据所述概念术语间的相关度,对所述概念术语集合中的概念术语做分类或聚类操作,得到至少一个概念术语类;其中,还包括对所得到的概念术语类中的概念术语做进一步的分类或聚类操作,将所述概念术语类中的概念术语分成多个集合,从而得到范围更小的新的概念术语类; 
步骤4)、将所述概念术语集合中的概念术语按照所述概念术语类组织成分类目录。 
上述技术方案中,在所述的步骤3)中,采用图分割算法实现对概念术语的分类操作,其中,所述的图分割算法包括: 
步骤3-1)、根据所述概念术语间的相关度,为所述的概念术语构建概念关系图; 
步骤3-2)、对所述概念关系图中代表概念术语的各个顶点进行划分,按照所述顶点间相互联系的密切程度将所述概念关系图分为多个子图,每个子图代表一个概念术语类;其中,所述子图的划分方法包括:Kernighan-Lin图划分方法、求解拉普拉斯矩阵特征向量的谱方法、基于edge-betweenness的划分方法、K完全子图方法、互联网链接分析中的HITS、MCL方法,基于最大流最小割的web社区发现算法和密度二部图划分方法,基于Modularity的社区发现算法,基于δ-Closure的社区发现算法。 
上述技术方案中,在所述的步骤3-1)中,在构建所述的概念关系图时,包括: 
步骤3-1-1)、用一个节点表示一个概念术语; 
步骤3-1-2)、对两个概念术语做两两相关度判断,在判断过程中,当 两个概念术语间的相关度高于用户指定的阈值时,为表示这两个概念术语的两个节点间添加一条有权边,用所述概念术语间的相关度数值表示所述有权边的权重; 
步骤3-1-3)、对概念术语集合中的所有概念术语完成上述的两两相关度判断后即可得到所述的概念关系图。 
上述技术方案中,在所述的步骤3)中,采用聚类算法实现对概念术语的聚类操作;所述的聚类算法包括:single-linkage方法、ROCK方法、Chameleon方法、或conceptual clustering方法。 
上述技术方案中,在所述的步骤1)中,从现有数据中查找与用户提交的查询词有关的概念术语,所述的现有数据包括用于记录以前用户查询的搜索引擎日志、搜索引擎返回的与当前查询相关的文档、词典、网上人工编辑目录信息、Wiki信息、用户标注信息在内的信息。 
上述技术方案中,在所述的步骤1)中,所述的现有数据还包括用户查询历史信息、用户查询倾向信息和/或用户注册帐号信息在内的用户个人信息。 
上述技术方案中,所述的步骤2)还包括:在计算所述概念术语集合中各个概念术语间的相关度前,对所述概念术语集合中各个概念术语与所述查询词的相关度进行计算,将与所述查询词的相关度小于用户指定阈值的概念术语从所述概念术语集合中删除。 
上述技术方案中,在所述的步骤2)中,采用一种相关度计算方法对所述概念术语间或概念术语与查询词间的相关度进行计算,所述的相关度计算方法包括:计算两个术语在同一文本内容中的共同出现次数的方法、数据挖掘方法、计算两个术语间的互信息的方法、计算两个术语在词典或人工目录中的距离的方法、传统信息检索中计算文本间距离的计算方法。 
上述技术方案中,在所述的步骤2)中,还包括采用至少两种计算相关度的方法对概念术语间的相关度进行计算,将所得到的多种计算结果做归一化加权操作,得到最终的相关度值。 
上述技术方案中,所述的步骤3)还包括采用类标签对所得到的概念术语类进行标识;所述类标签用于标识所述概念术语类。 
上述技术方案中,所述的类标签采用所代表的概念术语类中最具代表性的概念术语,或能够对所代表的概念术语类中所有概念术语进行概括的标签。 
上述技术方案中,所述的概念术语类中最具代表性的概念术语为所述概念术语类中与类中心相似度值最大的概念术语。 
上述技术方案中,所述的能够对所代表的概念术语类中所有概念术语进行概括的标签的产生包括: 
事先定义一组类别标签,依据类别标签对各概念术语类进行分类,概念术语类的类标签就是其所属类别的类别标签。 
上述技术方案中,所述的能够对所代表的概念术语类中所有概念术语进行概括的标签的产生包括:找出类中每个相关概念术语在树形人工编辑目录中对应的节点,以这些节点共有的最深祖先节点作为该类的类标签。 
上述技术方案中,在所述的步骤4)中,还包括将所述的分类目录返回给用户,在返回给用户时,结合用户设定的模式信息显示所述的分类目录,所述的模式信息包括图标、颜色、字体大小、对概念术语的注释说明。 
本发明还提供了一种计算机搜索方法,包括: 
步骤1)、用户输入查询词; 
步骤2)、采用所述的分类目录自动构建方法为所述的查询词构建分类目录; 
步骤3)、用户将步骤2)所得到的分类目录中的概念术语作为推荐的查询词发起下一次搜索,以得到更为精确的搜索结果。 
本发明还提供了一种分类目录自动构建系统,包括:概念术语抽取模块、相关度计算模块、概念术语分类模块、分类目录显示模块以及用于包括现有数据的数据库;其中, 
所述的概念术语抽取模块从所述数据库所存储的现有数据中找到与用户提交的查询词有关的概念术语,得到与所述查询词相关的概念术语集合; 
所述的相关度计算模块计算所述概念术语集合中各个概念术语间的相关度; 
所述的概念术语分类模块根据所述概念术语间的相关度,对所述概念术语集合中的概念术语做分类或聚类操作,得到至少一个概念术语类;其中,还包括对所得到的概念术语类中的概念术语做进一步的分类或聚类操作,将所述概念术语类中的概念术语分成多个集合,从而得到范围更小的新的概念术语类; 
所述的分类目录显示模块将所述概念术语集合中的概念术语按照所 述概念术语类组织成分类目录。 
上述技术方案中,所述的相关度计算模块中还包括概念术语筛选单元,所述的概念术语筛选单元对由概念术语抽取模块所得到的概念术语集合中各个概念术语与所述查询词的相关度进行计算,将与所述查询词的相关度小于用户指定阈值的概念术语从所述概念术语集合中删除,然后再由相关度计算模块对所述概念术语集合中的各个概念术语计算相关度。 
上述技术方案中,所述的概念术语分类模块还包括标签选择单元,所述的标签选择单元为所得到的概念术语类选择类标签;所述类标签用于标识所述概念术语类。 
本发明又提供了一种计算机搜索系统,包括查询词输入模块、分类目录自动构建系统、以及再搜索模块;其中, 
所述的查询词输入模块用于由用户输入查询词; 
所述的分类目录自动构建系统用于为所述的查询词构建分类目录; 
所述的再搜索模块将所述的分类目录自动构建系统所创建的分类目录中的概念术语作为推荐的查询词发起下一次搜索,以得到更为精确的搜索结果。 
本发明的优点在于: 
1、本发明在现有的搜索引擎的基础上,为用户提供的查询词生成了相应的分类目录,所得到的分类目录能够反映用户查询的不同含义,从而有助于用户更容易、更快捷地找到所需的信息。 
2、本发明所生成的分类目录只需要显示与用户查询相关的目录,相对于门户网站或其他人工编辑的全局目录结构,用户不需要从全局根目录层层浏览查找,这将大大降低用户的负担。 
3、本发明可以应用在搜索引擎相关搜索推荐领域,当用户查询失败时,本发明提供含义分类明确的相关搜索查询,利用这些相关搜索查询用户可以逐步明确其搜索意图并找到答案。 
4、本发明可以在大规模数据集上自动构建层次化的目录,相对于人工分类编辑目录,大大提高了效率和覆盖率。 
附图说明
图1为本发明的分类目录自动构建方法在一个实施例中的实现流程图; 
图2为在一个实施例中,根据相关度值对“Java”所涉及的概念术语所构建的概念关系图; 
图3为在一个实施例中,为“Java”所生成的分类目录以及搜索结果的示意图; 
图4为本发明的分类目录自动构建系统的示意图。 
具体实施方式
下面结合附图和具体实施方式对本发明加以说明。 
在对本发明进行详细说明前,对本发明中所涉及到的几个概念进行解释,以更好地理解本发明。 
搜索引擎:本发明中所述的搜索引擎是一个泛指概念,它不是指具体某个网站搜索服务或某个公司的搜索引擎产品,也不是专门搜索某类“对象”的搜索引擎,这里所说的“对象”包括但不限于网页、图像、音频、视频。所述的搜索引擎是指任何以输入关键字,提交后获取搜索结果的方式进行信息查找的计算机系统。 
查询:本发明中所述的查询是一个泛指概念,它是指能体现浏览或搜索意图的词和/或短语集合。词和/或短语的集合可由用户直接提交,也可以从其他其他系统或组件获得。 
概念术语:本发明所述的概念术语由词、短语或它们的组合表示,也可赋予一段注释说明。 
分类目录:本发明所述的分类目录是由与某一查询Q相关的概念术语组成的层次化结构,通过其中任一概念术语C用户可以找到与C相关的“对象”集合Ds。集合Ds中的“对象”有可能并不存在于搜索引擎对查询Q的返回结果中。 
在对概念进行解释说明后,下面对本发明的具体实现过程进行详细说明。 
当前,用户采用搜索引擎所提供的搜索服务时,通常会根据自己的搜索意图输入一个或一个以上的关键词,通过搜索引擎所返回的与关键词相关的搜索结果来查找自己所需要的信息。但在这一搜索过程中,可能会存在以下问题: 
1、用户并不清楚如何用有限的几个词语来描述他的搜索意图,特别是当所涉及的搜索意图较为生僻、不易描述时,由此所得到的搜索结果往往不符合用户的要求。 
2、用户所输入的关键词由于语言中常见的多义性,使得所采用的关键词并不能准确地表达用户的搜索意图。例如,关键词“笔记本”既可能 是指便携式电脑,也可能是指纸质的记事本。对于这类关键词,需要用户对所返回的搜索结果做进一步的筛选,或者需要用户在现有关键词的基础上添加和/或替换一些关键词做进一步搜索。 
上述问题的存在都不利于搜索结果的正确获得,特别是那些非热门的搜索对象。在本发明中,为了有效地避免上述情况的发生,本发明的搜索引擎在为用户的查询生成相应的搜索结果的同时,还提供了与用户的查询词相关的相关概念术语分类目录,通过这一分类目录做更为精确的二次查询。 
为了便于理解,我们用一个具体的例子对本发明中所涉及的相关概念术语分类目录的生成过程进行说明。 
假设有一个不了解计算机技术的用户想查询关于咖啡的信息,他输入了“Java”作为查询词,由于当前互联网上关于“java编程”的信息占据绝对优势地位。所以无论搜索引擎返回的文档结果还是相关搜索信息都是关于计算机技术的,用户难以找到其所要的信息。但单独对“Java”这个词进行考察的话,可以知道这个词所包含的含义可以分为三类,一是在计算机技术方面的,如Java语言,二是与咖啡相关的,如爪哇咖啡,三是与区域(region)相关的,如爪哇岛。显然,前面所提到的用户想要查询的是与爪哇咖啡有关的内容。通过现有的搜索引擎无法做到,因此,需要生成与Java有关的相关概念术语分类目录。参考图1,生成相关概念术语分类目录的具体过程如下。 
首先,对当前的查询词进行分析,并从现有数据中找到与查询词有关的概念术语。此处所涉及的现有数据可以是用于记录以前用户查询的搜索引擎日志、搜索引擎返回的与当前查询相关的文档、词典、网上人工编辑目录信息、Wiki信息、用户标注信息等。在这些现有数据中,识别出与查询词有一定关联(如在同一篇文档中)的高频词和/或短语,这些高频词和/或短语就可被认作概念术语。前述例子中的查询词只有“Java”一个词,在现有数据中可以找到与之相关的内容,如“computer”、“coffee”、“region”等,这些都可以作为“Java”的概念术语。除了上述的概念术语外,还可以包括如“java island”、“java language”、“java servlet”、“javascript”、“cafeau lait”、“cappuccino coffee”、“south”、“code”等概念术语。以上是对查询词进行分析从而得到概念术语的基本操作,在本发明的一个优选实施例中,还可以使得最终生成的相关概念术语的分类目录具有个性化功能, 即最终所生成的分类目录对于不同的用户有不同的内容,如对于计算机编程人员显示关于“Java编程”的内容,而对于咖啡店老板显示关于爪哇咖啡的内容。要使得所述的分类目录具有个性化功能,就需要在对查询词进行分析,生成相关概念术语时,所用到的数据除了前面所提到的用于记录以前用户查询的搜索引擎日志、搜索引擎返回的与当前查询相关的文档、词典、网上人工编辑目录信息、Wiki信息、用户标注信息外,还包括用户个人信息,如用户查询历史信息、用户查询倾向和/或用户注册帐号信息等。结合用户个人信息所生成的概念术语将有利于在后续操作中得到与用户相关的分类目录。 
在得到关于查询词的诸多概念术语后,就要对这些概念术语进行分类。对概念术语的分类操作是在计算概念术语间相关度的基础上实现的。在前面所提到的“Java”例子中,概念术语“computer”与“java language”、“java servlet”、“javascript”等的相关性较大,而概念术语“coffee”则与“cafe au lait”、“cappuccino coffee”等的相关性较大。对这种概念术语间相关性大小的衡量就用所述的相关度表示。由于在前面的操作中,与某一特定查询词的相关概念术语的数量可能较多,因此,在计算概念术语间相关度之前,还可以先对概念术语进行筛选,即计算各个概念术语与当前查询的查询词之间的相关度,从中选取相关度高的概念术语。概念术语筛选后,就可以对筛选得到的概念术语间的相关度进行计算。计算概念术语与查询词的相关度,以及计算概念术语间的相关度的实现方法相类似,可以采用现有技术中的各种实现方法,包括但不限于:计算两个术语在同一文本内容中的共同出现次数、数据挖掘中相关方法(如关联规则)、计算两个术语间的互信息、计算两个术语在词典或人工目录中的距离、传统信息检索中计算文本间距离的计算方法。下面给出利用同一文本中共同出现次数的方法来计算查询词与概念术语间以及概念术语间相关度的公式,以方便理解。其中: 
查询词与概念术语间的相关度计算公式如下: 
sim(Q,c)=CF×log(N/DF) 
其中的Q表示当前查询,c表示一个概念术语,CF是查询Q返回结果中概念c出现的总次数,DF是出现概念c的文档个数,N是查询Q总的返回结果数。 
概念术语间的计算公式如下: 
sim ( c i , c j ) = | D ( c i ) ∩ D ( c j ) | | D ( c i ) ∪ D ( c j ) |
其中,D(c)表示含有概念c的文档集合。 
从上述的计算公式中可以看出,如果两个概念术语经常在同一篇文档中出现,那么它们之间的相关度就高。 
前述公式给出了相关度值计算的一种方法,但在实际应用中,为了使得相关度值更为精确,最好采用现有技术中的多种相关度值计算方法中的若干种对相关概念术语间的相关度值进行计算,从而得到多种计算结果,然后对不同的计算结果做归一化加权计算,得到一个新的相关度值,这一相关度值也就是概念术语间的最终相关度值。 
在得到概念术语间的相关度值(或最终相关度值)后,就可以根据相关度值对各个概念术语做分类。对概念术语做分类的方法可以有多种,单纯从分类目的上讲,所有基于对象间相似度或距离值进行计算的分类或聚类算法都是可行的。但是考虑到在分类前类别数目和类别标签都是未知的,传统的分类方法(classification)难以解决此分类问题。这里可以采用不需要事先指定类别个数的聚类(cluster analysis)算法、图分割算法。这里所述的聚类算法包括但不限于:如single-linkage、ROCK、Chameleon之类的层次化(Hierarchical)方法,如conceptual clustering之类的基于模型的方法。这里所述的图分割算法包括各种基于图结构的分类(graph-based classification)算法、社会关系网络分析(social networksanalysis)中的社区(community)发现算法,如Kernighan-Lin图划分方法、求解拉普拉斯矩阵特征向量的谱方法、基于edge-betweenness的划分方法、K完全子图(k-clique)方法、互联网链接分析中的中的HITS、MCL方法,基于最大流最小割的web社区发现算法和Kumar等人提出的密度二部图划分方法,基于Modularity的社区发现算法,基于δ-Closure的社区发现算法等多种现有技术中已经存在的方法。 
相对于传统的文本分类、聚类方法,基于图分割的方法更能给出体现一个查询不同意图的分类结果。物以类聚,人以群分。当一个查询能体现多种不同含义时,属于同一个含义的概念术语相互间往往联系紧密,而不同含义的概念术语则联系松散。正是基于这种思想,采用图中的社区(community)发现算法会取得更好的效果。在本实施例中,以图分割算法中的基于Modularity的社区发现算法为例,对如何实现概念术语的分类 进行说明。 
在图分割算法中,首先需要构建概念关系图G,在概念关系图G中,节点Vi表示概念术语ci,如果两个概念术语(ci,cj)间的相关度高于用户指定的阈值,则将用于表示这两个概念术语的节点间用一条有权边eij相连,边的权重就是两个概念术语间的相关度数值。图2就是根据相关度值对前述的“Java”例子中所涉及的概念术语所构建的概念关系图,从该图中可以看出,这一概念关系图大致分为三个区域,其中一个区域与地理相关,其中一个区域与计算机相关,而另一个区域与咖啡相关,与“Java”在现实中所包含的多种含义基本一致。 
在得到概念术语的概念关系图后,就可以对概念关系图进行划分。以图2中所示的概念关系图G为例,对如何采用基于Modularity的社区发现算法对该图进行划分做示例性说明。 
假设图G中包括n个顶点(V1,V2,...,Vn),分别表示n个相关概念术语(c1,c2,c3,...,cn),连接顶点(V1,V2)的边权重eij=sim(ci,cj)。首先对所有边的权重进行归一化: 
fe ij = e ij Σ a = 1 n Σ b = 1 n
feij可以看作是顶点Vi,Vj之间有相互关系的概率: Σ i = 1 N Σ j = 1 N fe ij = 1
然后对概念关系图按照以下步骤做具体的划分: 
第一步,将概念关系图中的每个顶点形成一个子图,从而建立子图G1 0,G2 0,...GN 0.此时N=n。每一个子图代表一个类。 
第二步,计算各类间的边的权重之和: ge ij = Σ a ∈ G i k Σ b ∈ G j k fe ab .
第三步,计算当前这种子图划分方式的Modularity值,Modularity值的计算方法如下: 
M = Σ i = 1 N ( e ii - Σ j = 1 N e ij Σ j = 1 N e ji )
M值可以看作是每个子图内顶点间有相互联系的概率是否远大于他们与其他子图间顶点相关联的概率。M值越大说明划分效果越好,反之则越差。 
第四步,如果现在还有多个子图G1 k,G1 k,G3 k,...,寻找两个子图Gx k,Gy k进行合并,使得合并后新分类下M值增加的数值最大。这样形成了新的子图划分结果G1 k+1,G2 k+1,G3 k+1,...。 
第五步,转到第二步,重复计算及合并,直到所有子图都合并成一个图为止。寻找整个合并过程中M值最大时的分类结果,这个结果就是最终的分类结果。根据子图中顶点与相关概念术语的对应关系就可以做出对相关概念术语的分类结果。 
图2所示的概念关系图经过上述步骤后,可以得到三个子图,即与地理相关的子图、与计算机相关的子图以及与咖啡相关的子图。这些子图所包括的范围较大,根据分类目录的需要,还可以对子图做进一步的划分以得到范围更小的子图。例如,可以设定一个阈值,然后采用前述的方法对现有的某一子图做子图划分,直到划分所得到的子图个数超过所设定的阈值后才停止相关操作。以图2为例,与计算机相关的子图还可以进一步分为“java language”、“java servlet”等范围更小的子图。 
完成对概念关系图中的子图的划分后,就可以从各个子图中抽取对应的相关概念术语从而构成相关概念术语类,并为所得到的相关概念术语类寻找用于标识类的类标签。在寻找类标签时,可能有多种实现方式。如在一个实例中,可以从类中选择一个最具代表性的概念术语作为类别标签。具体地,可以选取与类中心相似度值最大的概念术语作为类别标签。在另一个实例中,也可以用一个能概括相关概念术语的类中所有概念术语的标签作为类别标签,所述标签可以从现有数据中获取,如一个人工编辑的目录。例如,先找出类中每个相关概念术语在人工编辑目录(像ODP)中对应的节点,然后找出这些节点共有的最深祖先节点,这个祖先节点的内容就可以作为该类的标签。此处还可以采用如下方式:事先定义一组类别标签,依据类别标签对各概念术语类进行分类,概念术语类的类标签就是其所属类别的类别标签。在本实施例中,可以采用如下方式: 
假设要为子图g所代表的类寻找类标签,首先选择与子图g内其他概念术语连边数W1最大的概念术语;如果有多个概念术语的W1值相同且均超过其他概念术语的W1值,那么从中选择与所有子图中概念术语间连边权重之和最大的概念术语;如果这时选出的概念术语仍不止一个,那么选择其中CF最大的;按照上述方法最终选出的概念术语作为子图g中概念术语类的标签。 
通过上述方法,可以为前述的“Java”例子中的各个类设定用于标识类的类标签。例如,对于与地理相关的类可以用“location”作为标签,对于与计算机相关的类可以用“computers”作为标签,而对于与咖啡相关的类则可以用“coffee”作为标签。在上述类的子类中,也可以设定相应的标签,例如,“computers”类的子类中还包括有“java language”、“javaservlet”、“java api”、“java enterprise platform”等类标签。 
一个相关概念术语类在设定类标签后,将这个类标签作为根目录,将类中的其他概念术语作为根目录下的子目录。所有的相关概念术语类通过上述方式组合后,就可以得到本发明所涉及的相关概念术语的分类目录。 
以上所得到的具有类标签的相关概念术语的分类目录是一种较佳的实现方式,在具体实现时,也可以将所得到的与某一查询词有关的相关概念术语直接按照所在的类进行显示,而无需为类设定类标签。 
在本发明中,为了更好地服务于用户,对于所得到的分类目录还可以根据用户设定和/或分类目录的具体应用场景对目录所显示的概念术语做一定的调整。例如,如果概念术语将作为“相关搜索”的超链接,那么概念术语将根据当前查询和查询日志中的信息调整概念术语的组合方式,使其达到更好的查询效果;如果用户设定每个类别的相关概念术语显示数目不大于5,那么需要对类内的相关术语再次排序,删除掉排名靠后的概念术语。 
在得到概念术语的分类目录后,可以将分类目录与搜索结果一起返回给用户,以方便用户作进一步查询。这一返回用户的过程实际上就是对相关概念术语的分类目录的显示。在显示过程中,需要用到用户所设定的模式信息,如图标、颜色、字体大小、对概念术语的注释说明等。例如,可以通过字体的大小来体现一个概念术语相关的文档数量,字体大的概念术语拥有更多的相关文档;也可以用不同颜色来表示概念术语的热门程度。在图3中给出了前述“Java”例子的分类目录以及对应的搜索结果的显示结果。在该图中包括有查询框602,其中用户已输入查询“java”。返回结果的页面中包括两部分:查询相关网页604和相关概念术语分类目录612(黑色方框内内容)。从相关概念术语分类目录612中可以看出,“java”的相关概念术语分属于三个大类“computer”、“coffee”、“location”,每一类通过类标签608标识。每一类可以展开显示该类中的相关概念术语606,例如“location”类展开后显示“location”、“java island”、“Indonesia”三 个相关概念术语。有的类内概念术语还可以再次组织成分类目录,每个概念术语前的图标610指示了该概念术语是否还包含更多概念术语。例如“java language”可以展开,里面包含“javascript”、“open source java”等概念术语。在图3中只是给出了“Java”例子的分类目录的一部分,在实际应用中可能并不限于上述内容。 
在得到相关概念术语的分类目录后,就可以利用该分类目录进行计算机搜索。在一种计算机搜索方法中,在得到由用户的查询词所生成的分类目录后,可根据分类目录由用户做进一步的搜索。例如,可将分类目录中所包含的概念术语作为搜索引擎所推荐的“相关搜索”,它包括多种情况。在一个实例中,将分类目录中的概念术语作为查询词,当用户点击分类目录中的某一概念术语时,搜索引擎返回以该概念术语作为查询词的搜索结果。在另一个实例中,将分类目录中的概念术语作为当前查询的补充信息,在下一次查询中,将概念术语补充到当前查询的查询词中,以构造更加精确的查询。在又一个实例中,若所给出的概念术语的分类目录来自事先人工编辑好的目录信息,当用户点击某一相关概念术语后,将转到事先人工编辑的关于此概念术语的网页目录,此时,概念术语相当于事先人工编辑好的标签或目录。此外,还可以采用在用户搜索查询与先前查询之间的距离度量来确定向用户显示哪些相关概念术语,进而根据用户个性化展示其感兴趣的分类目录信息。具体的,系统记录每个用户的查询历史信息,对相关概念术语分类后,计算各类相关概念术语与当前用户历史查询的相关度,去除相关度低于某一阈值的概念术语类,将相关度高的概念术语类组织成分类目录展示。 
以上是对本发明如何生成相关概念术语分类目录的方法所作的详细说明,在上述方法的基础上,本发明还提供了能够实现上述方法的系统。如图4所示,该系统主要包括概念术语抽取模块、相关度计算模块、概念术语分类模块、分类目录显示模块以及用于包括现有数据的数据库; 
其中,所述的概念术语抽取模块从所述数据库所存储的现有数据中找到与用户提交的查询词有关的概念术语,得到与所述查询词相关的概念术语集合;所述的相关度计算模块计算所述概念术语集合中各个概念术语间的相关度;所述的概念术语分类模块根据所述概念术语间的相关度,对所述概念术语集合中的概念术语做分类或聚类操作,得到至少一个概念术语类;所述的分类目录显示模块将所述概念术语集合中的概念术语按照所述 概念术语类组织成分类目录后返回给用户。 
在前述的系统中,所述的相关度计算模块中还包括概念术语筛选单元,所述的概念术语筛选单元对由概念术语抽取模块所得到的概念术语集合中各个概念术语与所述查询词的相关度进行计算,将与所述查询词的相关度小于用户指定阈值的概念术语从所述概念术语集合中删除,然后再由相关度计算模块对所述概念术语集合中的各个概念术语计算相关度。 
所述的概念术语分类模块还包括标签选择单元,所述的标签选择单元为所得到的概念术语类选择类标签。 
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。 

Claims (20)

1.一种分类目录自动构建方法,包括:
步骤1)、从所述数据库所存储的现有数据中查找与用户提交的查询词有关的概念术语,得到与所述查询词相关的概念术语集合;
步骤2)、计算所述概念术语集合中各个概念术语间的相关度;
步骤3)、根据所述概念术语间的相关度,对所述概念术语集合中的概念术语做分类或聚类操作,得到至少一个概念术语类;其中,还包括对所得到的概念术语类中的概念术语做进一步的分类或聚类操作,将所述概念术语类中的概念术语分成多个集合,从而得到范围更小的新的概念术语类;
步骤4)、将所述概念术语集合中的概念术语按照所述概念术语类组织成分类目录。
2.根据权利要求1所述的分类目录自动构建方法,其特征在于,在所述的步骤3)中,采用图分割算法实现对概念术语的分类操作,其中,所述的图分割算法包括:
步骤3-1)、根据所述概念术语间的相关度,为所述的概念术语构建概念关系图;
步骤3-2)、对所述概念关系图中代表概念术语的各个顶点进行划分,按照所述顶点间相互联系的密切程度将所述概念关系图分为多个子图,每个子图代表一个概念术语类;其中,所述子图的划分方法包括:Kernighan-Lin图划分方法、求解拉普拉斯矩阵特征向量的谱方法、基于edge-betweenness的划分方法、K完全子图方法、互联网链接分析中的HITS、MCL方法,基于最大流最小割的web社区发现算法和密度二部图划分方法,基于Modularity的社区发现算法,基于δ-Closure的社区发现算法。
3.根据权利要求2所述的分类目录自动构建方法,其特征在于,在所述的步骤3-1)中,在构建所述的概念关系图时,包括:
步骤3-1-1)、用一个节点表示一个概念术语;
步骤3-1-2)、对两个概念术语做两两相关度判断,在判断过程中,当两个概念术语间的相关度高于用户指定的阈值时,为表示这两个概念术语的两个节点间添加一条有权边,用所述概念术语间的相关度数值表示所述 有权边的权重;
步骤3-1-3)、对概念术语集合中的所有概念术语完成上述的两两相关度判断后即可得到所述的概念关系图。
4.根据权利要求1所述的分类目录自动构建方法,其特征在于,在所述的步骤3)中,采用聚类算法实现对概念术语的聚类操作;所述的聚类算法包括:single-linkage方法、ROCK方法、Chameleon方法、或conceptualclustering方法。
5.根据权利要求1所述的分类目录自动构建方法,其特征在于,在所述的步骤1)中,从现有数据中查找与用户提交的查询词有关的概念术语,所述的现有数据包括用于记录以前用户查询的搜索引擎日志、搜索引擎返回的与当前查询相关的文档、词典、网上人工编辑目录信息、Wiki信息、用户标注信息在内的信息。
6.根据权利要求5所述的分类目录自动构建方法,其特征在于,在所述的步骤1)中,所述的现有数据还包括用户查询历史信息、用户查询倾向信息和/或用户注册帐号信息在内的用户个人信息。
7.根据权利要求1所述的分类目录自动构建方法,其特征在于,所述的步骤2)还包括:在计算所述概念术语集合中各个概念术语间的相关度前,对所述概念术语集合中各个概念术语与所述查询词的相关度进行计算,将与所述查询词的相关度小于用户指定阈值的概念术语从所述概念术语集合中删除。
8.根据权利要求1或7所述的分类目录自动构建方法,其特征在于,在所述的步骤2)中,采用一种相关度计算方法对所述概念术语间或概念术语与查询词间的相关度进行计算,所述的相关度计算方法包括:计算两个术语在同一文本内容中的共同出现次数的方法、数据挖掘方法、计算两个术语间的互信息的方法、计算两个术语在词典或人工目录中的距离的方法、传统信息检索中计算文本间距离的计算方法。
9.根据权利要求8所述的分类目录自动构建方法,其特征在于,在所述的步骤2)中,还包括采用至少两种计算相关度的方法对概念术语间的相关度进行计算,将所得到的多种计算结果做归一化加权操作,得到最终的相关度值。
10.根据权利要求1所述的分类目录自动构建方法,其特征在于,所述的步骤3)还包括采用类标签对所得到的概念术语类进行标识;所述类 标签用于标识所述概念术语类。
11.根据权利要求10所述的分类目录自动构建方法,其特征在于,所述的类标签采用所代表的概念术语类中最具代表性的概念术语,或能够对所代表的概念术语类中所有概念术语进行概括的标签。
12.根据权利要求11所述的分类目录自动构建方法,其特征在于,所述的概念术语类中最具代表性的概念术语为所述概念术语类中与类中心相似度值最大的概念术语。
13.根据权利要求11所述的分类目录自动构建方法,其特征在于,所述的能够对所代表的概念术语类中所有概念术语进行概括的标签的产生包括:事先定义一组类别标签,依据类别标签对各概念术语类进行分类,概念术语类的类标签就是其所属类别的类别标签。
14.根据权利要求11所述的分类目录自动构建方法,其特征在于,所述的能够对所代表的概念术语类中所有概念术语进行概括的标签的产生包括:找出类中每个相关概念术语在树形人工编辑目录中对应的节点,以这些节点共有的最深祖先节点作为该类的类标签。
15.根据权利要求1所述的分类目录自动构建方法,其特征在于,在所述的步骤4)中,还包括将所述的分类目录返回给用户,在返回给用户时,结合用户设定的模式信息显示所述的分类目录,所述的模式信息包括图标、颜色、字体大小、对概念术语的注释说明。
16.一种计算机搜索方法,包括:
步骤1)、用户输入查询词;
步骤2)、采用权利要求1-15之一的分类目录自动构建方法为所述的查询词构建分类目录;
步骤3)、用户将步骤2)所得到的分类目录中的概念术语作为推荐的查询词发起下一次搜索,以得到更为精确的搜索结果。
17.一种分类目录自动构建系统,包括:概念术语抽取模块、相关度计算模块、概念术语分类模块、分类目录显示模块以及用于包括现有数据的数据库;其中,
所述的概念术语抽取模块从所述数据库所存储的现有数据中找到与用户提交的查询词有关的概念术语,得到与所述查询词相关的概念术语集合;
所述的相关度计算模块计算所述概念术语集合中各个概念术语间的 相关度;
所述的概念术语分类模块根据所述概念术语间的相关度,对所述概念术语集合中的概念术语做分类或聚类操作,得到至少一个概念术语类;其中,还包括对所得到的概念术语类中的概念术语做进一步的分类或聚类操作,将所述概念术语类中的概念术语分成多个集合,从而得到范围更小的新的概念术语类;
所述的分类目录显示模块将所述概念术语集合中的概念术语按照所述概念术语类组织成分类目录。
18.根据权利要求17所述的分类目录自动构建系统,其特征在于,所述的相关度计算模块中还包括概念术语筛选单元,所述的概念术语筛选单元对由概念术语抽取模块所得到的概念术语集合中各个概念术语与所述查询词的相关度进行计算,将与所述查询词的相关度小于用户指定阈值的概念术语从所述概念术语集合中删除,然后再由相关度计算模块对所述概念术语集合中的各个概念术语计算相关度。
19.根据权利要求17所述的分类目录自动构建系统,其特征在于,所述的概念术语分类模块还包括标签选择单元,所述的标签选择单元为所得到的概念术语类选择类标签;所述类标签用于标识所述概念术语类。
20.一种计算机搜索系统,包括查询词输入模块、权利要求17-19之一所述的分类目录自动构建系统、以及再搜索模块;其中,
所述的查询词输入模块用于由用户输入查询词;
所述的分类目录自动构建系统用于为所述的查询词构建分类目录;
所述的再搜索模块将所述的分类目录自动构建系统所创建的分类目录中的概念术语作为推荐的查询词发起下一次搜索,以得到更为精确的搜索结果。 
CN2008102237923A 2008-10-13 2008-10-13 一种分类目录自动构建方法及相关系统 Active CN101364239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008102237923A CN101364239B (zh) 2008-10-13 2008-10-13 一种分类目录自动构建方法及相关系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102237923A CN101364239B (zh) 2008-10-13 2008-10-13 一种分类目录自动构建方法及相关系统

Publications (2)

Publication Number Publication Date
CN101364239A CN101364239A (zh) 2009-02-11
CN101364239B true CN101364239B (zh) 2011-06-29

Family

ID=40390605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102237923A Active CN101364239B (zh) 2008-10-13 2008-10-13 一种分类目录自动构建方法及相关系统

Country Status (1)

Country Link
CN (1) CN101364239B (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110119269A1 (en) * 2009-11-18 2011-05-19 Rakesh Agrawal Concept Discovery in Search Logs
CN101763441B (zh) * 2010-01-13 2013-04-03 北京中加国道科技有限责任公司 一种以动态目录方式组织检索结果的技术
US8983989B2 (en) 2010-02-05 2015-03-17 Microsoft Technology Licensing, Llc Contextual queries
US8903794B2 (en) 2010-02-05 2014-12-02 Microsoft Corporation Generating and presenting lateral concepts
US20110302149A1 (en) * 2010-06-07 2011-12-08 Microsoft Corporation Identifying dominant concepts across multiple sources
CN101984422B (zh) * 2010-10-18 2013-05-29 百度在线网络技术(北京)有限公司 一种容错文本查询的方法和设备
CN102207960B (zh) * 2011-05-25 2013-10-23 盛乐信息技术(上海)有限公司 一种触控设备的搜索引擎及方法
CN103294703A (zh) * 2012-02-28 2013-09-11 宇龙计算机通信科技(深圳)有限公司 终端和文档管理方法
CN103309869B (zh) * 2012-03-09 2017-05-10 阿里巴巴集团控股有限公司 数据对象的展示关键词推荐方法及系统
CN102880633A (zh) * 2012-07-27 2013-01-16 四川长虹电器股份有限公司 基于特征词的内容推送方法
CN102968435B (zh) * 2012-09-20 2016-06-29 中国商用飞机有限责任公司 建立信息类目体系的方法和相应的信息分类浏览检索装置
CN103020293B (zh) * 2012-12-28 2019-02-05 百度在线网络技术(北京)有限公司 一种移动应用的本体库的构建方法及系统
CN103942232B (zh) * 2013-01-18 2018-09-18 佳能株式会社 用于挖掘意图的方法和设备
CN103942198B (zh) * 2013-01-18 2017-07-28 佳能株式会社 用于挖掘意图的方法和设备
WO2014183244A1 (zh) * 2013-05-12 2014-11-20 Huang Bo 一种离散值特征向量的快速监督学习方法
CN103413027B (zh) * 2013-07-22 2016-06-08 北京航空航天大学 一种社会网络重叠社区发现方法的评价方法
CN103500214B (zh) * 2013-09-30 2017-04-19 北京奇虎科技有限公司 一种基于视频搜索的分词信息推送方法和装置
CN103488787B (zh) * 2013-09-30 2017-12-19 北京奇虎科技有限公司 一种基于视频搜索的在线播放入口对象的推送方法和装置
CN103544266B (zh) * 2013-10-16 2017-05-31 北京奇虎科技有限公司 一种搜索建议词生成的方法以及装置
CN103559030B (zh) * 2013-10-28 2017-01-04 中国电子科技集团公司第四十一研究所 一种基于三态选择树的仪器自测试显示组件构造方法
CN104199855B (zh) * 2014-08-13 2017-07-28 王和平 一种针对中医药学信息的检索系统和方法
CN105512131A (zh) * 2014-09-25 2016-04-20 中国科学技术信息研究所 基于类目相似度计算的分类法类目映射的方法和装置
CN105589853B (zh) 2014-10-20 2017-09-15 阿里巴巴集团控股有限公司 一种类目目录确定方法及装置、自动分类方法及装置
CN104679730A (zh) * 2015-02-13 2015-06-03 刘秀磊 网页摘要抽取方法及其装置
CN104951534B (zh) * 2015-06-18 2019-07-23 百度在线网络技术(北京)有限公司 搜索结果优化方法及搜索引擎
CN105512178B (zh) * 2015-11-25 2019-02-05 百度在线网络技术(北京)有限公司 一种实体推荐方法及装置
CN110019783B (zh) * 2017-09-27 2021-01-22 北京国双科技有限公司 属性词聚类方法及装置
CN109600319B (zh) * 2018-12-11 2022-07-08 浙江工商大学 一种实时传输机制中的流量调度方法
CN110569367A (zh) * 2019-09-10 2019-12-13 苏州大学 一种基于知识图谱的空间关键字查询方法、装置及设备
CN110968650A (zh) * 2019-10-30 2020-04-07 清华大学 基于医生协助的医疗领域知识图谱构建方法
CN112307219B (zh) * 2020-10-22 2022-11-04 首都师范大学 网站搜索用词汇数据库更新方法、系统及计算机存储介质
CN113609379B (zh) * 2021-07-12 2022-07-22 北京达佳互联信息技术有限公司 标签体系构建方法、装置、电子设备及存储介质
CN116029853B (zh) * 2023-02-15 2023-06-27 江西科技学院 一种会计数据处理方法、系统、计算机及存储介质

Also Published As

Publication number Publication date
CN101364239A (zh) 2009-02-11

Similar Documents

Publication Publication Date Title
CN101364239B (zh) 一种分类目录自动构建方法及相关系统
Zhang et al. Ad hoc table retrieval using semantic similarity
KR101114023B1 (ko) 확장형 문서 검색을 위한 콘텐츠 전파
Wei et al. A survey of faceted search
CN1882943B (zh) 使用超单元的搜索处理的系统和方法
US8645385B2 (en) System and method for automating categorization and aggregation of content from network sites
US7779001B2 (en) Web page ranking with hierarchical considerations
US8650198B2 (en) Systems and methods for facilitating the gathering of open source intelligence
CN105045875B (zh) 个性化信息检索方法及装置
US20060047649A1 (en) Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US7516397B2 (en) Methods, apparatus and computer programs for characterizing web resources
Dou et al. Automatically mining facets for queries from their search results
CN101630314A (zh) 一种基于领域知识的语义查询扩展方法
CN1996316A (zh) 基于网页相关性的搜索引擎搜索方法
CN101283353A (zh) 通过分析标签找到相关文档的系统和方法
Biancalana et al. Social tagging in query expansion: A new way for personalized web search
CN103838798A (zh) 页面分类系统及页面分类方法
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
CN103942198A (zh) 用于挖掘意图的方法和设备
CN105975547A (zh) 基于内容与位置特征的近似web文档检测方法
US20100174719A1 (en) System, method, and program product for personalization of an open network search engine
CN103942232A (zh) 用于挖掘意图的方法和设备
CN103942204A (zh) 用于挖掘意图的方法和设备
Jain et al. Organizing query completions for web search
Chehreghani et al. Density link-based methods for clustering web pages

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: ALIBABA GROUP HOLDING LTD.

Free format text: FORMER OWNER: INSTITUTE OF COMPUTING TECHNOLOGY, CHINESE ACADEMY OF SCIENCES

Effective date: 20130106

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100190 HAIDIAN, BEIJING TO: 310099 HANGZHOU, ZHEJIANG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20130106

Address after: 310099 A building, West Lake international science and technology building, No. 19 Wen two road, 391, Zhejiang, Hangzhou, Xihu District, China

Patentee after: Alibaba (China) Co., Ltd.

Address before: 100190 Haidian District, Zhongguancun Academy of Sciences, South Road, No. 6, No.

Patentee before: Institute of Computing Technology, Chinese Academy of Sciences

TR01 Transfer of patent right

Effective date of registration: 20210226

Address after: Room 554, 5 / F, building 3, 969 Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: TAOBAO (CHINA) SOFTWARE Co.,Ltd.

Address before: 19 / F, building a, Xihu international science and technology building, 391 Wener Road, Xihu District, Hangzhou City, Zhejiang Province, 310099

Patentee before: Alibaba (China) Co.,Ltd.

TR01 Transfer of patent right