CN101727454A - 用于对象自动分类的方法和系统 - Google Patents
用于对象自动分类的方法和系统 Download PDFInfo
- Publication number
- CN101727454A CN101727454A CN200810173612A CN200810173612A CN101727454A CN 101727454 A CN101727454 A CN 101727454A CN 200810173612 A CN200810173612 A CN 200810173612A CN 200810173612 A CN200810173612 A CN 200810173612A CN 101727454 A CN101727454 A CN 101727454A
- Authority
- CN
- China
- Prior art keywords
- classification
- classification results
- results
- ontology information
- inquiry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了用于对象自动分类的方法和系统。所述方法包括:获取一组对象;基于查询日志对所述对象进行分类,以生成第一分类结果;基于本体信息对所述对象进行分类,以生成第二分类结果;以及对所述第一分类结果和所述第二分类结果进行语义融合,以生成最终分类结果。根据本发明,与现有技术相比,通过对基于查询日志的分类结果与基于本体信息的分类结果进行语义融合,可以提高分类的准确性和用户友好性。
Description
技术领域
本发明一般地涉及信息检索和对象(例如文档、搜索结果等)分类,更具体而言,本发明涉及用于对象自动分类的方法和系统,该方法和系统将基于查询历史的分类结果与基于本体信息的分类结果相结合,来进行对象的分类和组织。
背景技术
随着因特网导致的电子信息激增,在Web上逐渐积累了大量的多元化信息,并且这些信息仍旧持续不断地飞速增长。从而,带来的一项具有挑战性的任务是如何帮助网民从这大量不断激增的信息中找到有用的信息。
信息检索(Information Retrieval,IR)是用于在对象(例如文档)集合中搜索信息的科学。根据处理对象的不同,其可被进一步划分为对文档中包含的信息片段的搜索、对文档本身的搜索、对描述文档的元数据的搜索或者数据库内的搜索,以检索文本、声音、图像或数据。这里所述数据库可以是关系独立数据库或超文本联网数据库(例如通过因特网或内联网)。Web搜索引擎(例如Google或Baidu)是一种被设计用于帮助用户找到存储在Web上的信息的对象检索系统,其允许用户寻找满足特定标准(通常,该标准表达为给定的单词或短语)的内容并检索出匹配这些标准的项目列表。
对象分类是利用来自预定集合的主题类别来标记对象(例如文档、自然语言文本)的活动,其可被应用于IR和文本数据挖掘中的很多应用情形,例如词义消歧、文档组织、文本过滤和网页检索等等。对象聚类(Object Clustering)是对象分类的一种,其将诸如文档之类的对象分类到不同的群组,更确切地讲,将对象集合划分成多个子集(即聚类),从而使得每个子集中的对象共享某些公共特征。
考虑到从通用的搜索引擎通常会返回大量搜索结果这一事实,在很多情况下,Web用户仍旧难以找到他们真正需要的信息。对象聚类/分类技术则能够通过有效的组织这些返回的搜索结果,使得用户能够更容易地找到或者快速导航到其所关心的对象。
如上所述,随着电子媒体内容的不断激增,搜索引擎(用于网页或桌面文档)在帮助用户寻找有用信息方面开始扮演越来越关键的角色。然而,搜索引擎所返回的大量搜索结果通常在标题和类型方面都是异构的,从而在用户试图找到他们感兴趣的信息时会给用户带来极大负担。
在现有技术中已经存在很多用于自动信息分类的算法。例如,在XuanHui Wang和ChendXiang Zhai所著的题为“Learn from Web SearchLogs to Organize Search Results”的文章(参见SIGIR2007,第87-94页)(下称对比文献1)中提出这样一种搜索结果分类方法,该方法根据从搜索引擎的查询日志学习获得的类别来组织搜索结果。再比如,在日本专利申请2005-182280(下称对比文献2)中给出另一种组织搜索结果的方法,该方法基于预先存储的本体信息(ontology)来提取出对象类别,然后再按类别组织搜索结果。
在基于查询日志的对象分类方法中,类别选择没有考虑本体信息所提供的背景知识,因此分类结果的准确性不够好。另外,由于该解决方案所采用的统计方法过多地依赖于历史信息而造成所产生的类别信息对用户而言的可读性差,因此其分类结果不是用户友好(user-friendly)的。
另一方面,对于基于本体信息的对象分类方法,由于该分类方法受到预先存储的本体信息的约束,所以其所产生的类别集合灵活性差,并因此难以反映用户兴趣的不断改变。
发明内容
鉴于上述现有技术中所存在的缺陷,作出了本发明,其将本体信息所提供的背景知识与查询日志所暗示的历史信息相结合,以提高对象(例如文档和搜索结果)分类的质量。
根据本发明第一方面,提供了一种用于分类对象的方法,该方法包括:获取一组对象;基于查询日志对所述对象进行分类,以生成第一分类结果;基于本体信息对所述对象进行分类,以生成第二分类结果;以及对所述第一分类结果和所述第二分类结果进行语义融合,以生成最终分类结果。
根据本发明第二方面,提供了一种用于分类对象的系统,该系统包括:对象获取装置,用于获取一组对象;基于查询日志的分类装置,用于基于查询日志对所述对象进行分类,以生成第一分类结果;基于本体信息的分类装置,用于基于本体信息对所述对象进行分类,以生成第二分类结果;以及语义融合装置,用于对所述第一分类结果和所述第二分类结果进行语义融合,以生成最终分类结果。
如下面将更详细描述的,本发明所提出的对象分类方法主要包括三个步骤:(1)基于查询日志的对象分类;(2)基于本体信息的对象分类;以及(3)上述两种分类结果的语义融合。
首先,在基于查询日志的对象分类中,如上述对比文献1所述,由于搜索引擎的查询日志存储了反映搜索结果的潜在方面(类别集合)的相关查询,因此该方法能够根据从查询日志中学习得到的类别来组织搜索结果。首先,用户可以从查询日志中提取出相关查询;然后,对这些相关查询聚类并将聚类中心视为潜在类别;最后,将所有搜索结果分类到相应类别中。
其次,关于基于本体信息的对象分类方法,如上述对比文献2所述,由于本体信息所反映的背景知识对用户而言更容易理解,因此该方法将搜索结果分类到从本体信息提取出的各个类别。首先,根据本体信息,用户对待分类的对象(例如文档)和输入的目标查询进行标注(annotation);然后,基于语义关联性分析生成对象类别集合;最后,将所有搜索结果分类到相应类别中。
最后,语义融合步骤包含以下三种情况:
1)根据基于本体信息的方法结果对基于查询日志的方法结果进行调整和细化;
2)根据基于查询日志的方法结果对基于本体信息的方法结果进行调整和细化;以及
3)将以上两方面调整结果相结合以得到对象分类的最终结果。
根据本发明,不仅分类的准确性能够得以提高,还能够提供用户友好的分类结果显示。
如果没有合理的目标类别集合,从某种程度上讲,单单讨论分类的准确性是没有意义的。通过将基于本体信息的分类方法所生成的语义框架(本体信息中的相关概念)添加到基于查询日志的方法所生成的不稳定的类别集合,本发明能够动态地生成由本体知识校正过的反映用户查询/浏览历史的目标类别集合,进而大大提高分类准确性。
另外,由于对于用户而言,本体信息所反映的背景知识更易于理解,因此本发明可以提供用户友好的分类结果显示。
此外,来自基于本体信息的方法和基于查询日志的方法的结果之间的语义对准能够确保聚类结果可以反映出用户兴趣的改变,从而提高了系统的分类灵活性。
从下面结合附图的详细描述中,可以更明确地看出本发明的以上及其他特征和优点。注意,本发明并不局限于图中所示的示例或者任何具体的实施例。
附图说明
结合附图,从下面对本发明实施例的详细描述,将更好地理解本发明,附图中类似的参考标注指示类似的部分,其中:
图1是示出根据本发明实施例的对象分类系统100的内部结构的框图;
图2是示出图1所示系统的操作过程的示例的流程图;
图3是更详细示出图1所示系统中用于执行基于查询日志的对象分类的分类装置102的内部结构的框图;
图4是用于说明基于查询日志的对象分类过程的示意图;
图5是更详细示出图1所示系统中用于执行基于本体信息的对象分类的分类装置103的内部结构的框图;
图6是用于说明基于本体信息的对象分类过程的示意图;
图7是示出第一语义融合过程的流程图,在该过程中,参考基于本体信息的分类结果对基于查询日志的分类结果进行调整;
图8和图9是用于进一步示出图7所示第一语义融合过程和结果的示意图;
图10是示出第二语义融合过程的流程图,在该过程中,参考基于查询日志的分类结果对基于本体信息的分类结果进行调整;
图11和图12是用于进一步示出图10所示第二语义融合过程和结果的示意图;以及
图13是示出最终语义融合结果的示意图。
具体实施方式
下面参考附图描述根据本发明的示例性实施例。应当意识到,所描述的实施例仅是用于举例说明的目的,本发明并不限于所描述的具体实施例。
本发明涉及对象自动分类,这里以作为搜索结果的文档为例来详细说明根据本发明的方法和系统。当然,本领域技术人员将会意识到,本发明并不局限于这里所提供的示例,而是可被广泛应用到其他对象分类相关的领域。
图1以框图形式示出根据本发明实施例的对象分类系统100的内部结构。如图所示,该对象分类系统100主要包括对象获取装置101、基于查询日志的分类装置102、基于本体信息的分类装置103和语义融合装置104,其中基于查询日志的分类装置102和基于本体信息的分类装置103可分别参考来自查询日志存储器106的查询日志和来自本体信息存储器107的本体信息来实现基于搜索引擎的查询日志的对象分类和基于预先存储的本体信息的对象分类。例如前述对比文献1和2分别给出两个具体示例。当然,本领域技术人员可以意识到,本发明所应用到分类方法并不局限于对比文献1和2中所给出的示例,本领域公知的其他基于查询历史和本体信息的对象分类方法也可以应用于本发明以实现本发明的目的。
在图1所示示例中,用户可获得的所有对象(例如文档)被存储在对象库105中。用户可以首先通过输入单元1011输入一目标查询,然后搜索单元1012可以在对象库105中执行传统的基于关键字的信息检索,以根据倒排索引(inverted index)输出搜索结果,作为将被分类的对象集合。
基于查询日志的分类装置102的分类结果和基于本体信息的分类装置103的分类结果分别以查询列表和概念列表形式输出,并被提供到语义融合装置104以进行语义融合。最终,语义融合装置104对查询列表和概念列表进行调整,并输出最终分类结果。
图2示出图1所示对象分类系统100的工作过程200的流程图。首先,在步骤201处,用户通过输入单元1011输入一目标查询。然后,通过检索,在步骤202处,搜索单元1012从对象库105中搜索出一组对象以用于分类。在步骤203处,基于查询日志的分类装置102对输入的对象集合进行基于查询日志的分类,以生成第一分类结果(即查询列表)。在步骤204处,基于本体信息的分类装置103对输入的对象集合进行基于本体信息的分类,以生成第二分类结果(即概念列表)。最后,在步骤205中,语义融合装置104对第一和第二分类结果进行语义融合,以生成最终分类结果。然后,过程200结束。
下面,将首先参考图3和4来描述基于查询日志的对象分类过程。
如图3所示,基于查询日志的分类装置102包括查询日志获取单元301、相关查询提取单元302、基于聚类的类别学习单元303和分类单元304。查询日志存储器106存储有来自搜索引擎的查询历史,即用户所输入的所有查询以及与这些查询相关联的点入信息(下文称之为“伪文档”)。其中,每个查询例如可以对应于一个伪文档,以记录该查询所得到的搜索结果中哪些结果被用户点击过,以及被点击的次数等信息。
首先,查询日志获取单元301获取查询日志存储器106中所存储的查询日志。相关查询提取单元302根据查询日志获取单元301所获取的查询日志中的伪文档与用户输入的目标查询之间的相似性提取出相关查询。然后,基于聚类的类别学习单元303对所有相关查询进行聚类并输出每个聚类的中心作为一个对象类别。这些对象类别应该对应于用户输入的目标查询中所给出的用户兴趣。例如,如图4所示,在以“WarRoom”为目标查询的示例中,例如可以得到图中左侧所示出的聚类结果。并且在图中右侧所示出的查询列表中,左侧聚类策略中生成的聚类中心WarRoom Plan、WarRoom Spec、Information Management、Tag、Ontology等被用作对象类别。
然后,分类单元304可以利用现有的分类方法将对象(例如搜索结果)分类到不同类别。例如,分类单元304可以根据搜索结果的TF-IDF向量与某一类别中所有文档的向量的平均值之间的余弦相似性得分来进行搜索结果的分类(即,基于质心的方法)。
图5和图6详细示出基于本体信息的对象分类装置及其操作原理。首先如图5所示,基于本体信息的分类装置103包括本体信息获取单元501、对象标注单元502、查询标注单元503、类别生成单元504和分类单元505。本体信息存储器107由两部分构成,即背景知识存储库1071和元数据存储库1072。在图5所示示例中,首先,对象标注单元502从背景知识存储库1071获取背景知识,并将其传输到对象标注单元502,以用于对象(例如文档)语义标注。对象标注单元502获取来自外部的对象集合,并参考由本体信息获取单元501输入的背景知识来对接收到的对象进行语义标注,并将作为语义标注结果所生成的元数据存储到元数据存储库1072中以备后用。对象标注单元502对诸如文档之类对象集合的语义标注过程在后台执行,其记录背景知识中定义的实体与出现在文档中的实体之间的关联关系(linkage)。
参考图6所示流程图,查询标注单元503对预先输入的目标查询(步骤601),例如“WarRoom Summery”中出现的关键字进行语义标注,并识别出在背景知识中出现的实体与目标查询中感兴趣的实体之间的关系(步骤602)。例如,查询标注单元503可以识别出实体“WarRoom”是背景知识中的概念“project”的一个实例。然后,在步骤603中,类别生成单元504根据经标注的目标查询在本体信息中的语义相关概念从背景知识存储库1071中所存储的背景知识中提取出适当的对象类别集合。例如,根据背景知识,类别生成单元504可以识别出概念“project”与“Time”、“People”、“Team”等概念相关,并因此将这些概念提取出以作为可能的对象类别。从而,类别生成单元504可以生成如图6所示概念列表1以用于对象分类。最后,在步骤604中,分类单元505利用背景知识作为中介,通过参考预先由对象标注单元502存储在元数据存储库1072中的与对象集合中的各个对象相关的元数据来执行语义关联性分析,从而找到适当的类别用于对象分类。
上面分别参考图3、4和图5、6详细描述了基于查询日志和基于本体信息的对象分类方案的示例。如前所述,基于查询日志的分类方法由于没有考虑本体信息所提供的背景知识,因此分类结果的准确性不够好,并且对用户而言可读性差。另一方面,基于本体信息的分类方法所产生的类别集合灵活性差,并且难以反映用户兴趣的不断改变。鉴于此,本发明提出一种综合性方法,用于将上述两种分类方案相结合,以提高对象分类的准确性和用户友好性。
根据本发明的实施例,在图1所示系统100中,语义融合装置104的工作过程主要包括以下三个方面:
1)根据基于本体信息的分类结果来调整基于查询日志的分类结果;
2)根据基于查询日志的分类结果来调整基于本体信息的分类结果;以及
3)将以上两方面调整结果相结合以得到最终的对象分类结果。
下面将通过参考图7-13来详细描述语义融合装置104所执行的语义融合过程的工作原理。
首先,图7示出第一语义融合过程,在该过程中,参考基于本体信息的分类结果(即概念列表)对基于查询日志的分类结果(即查询列表)进行调整。图8和图9是示出图7所示第一语义融合过程和结果的示意图。
如图7所示,语义融合装置104首先接收分别来自基于查询日志的分类装置102和基于本体信息的分类装置103的第一分类结果(即查询列表)和第二分类结果(即概念列表)。所述查询列表和概念列表的结构例如如图8所示。然后,在步骤701中,首先计算查询列表上的查询与概念列表中的每个概念之间的相似性。例如,在图8所示示例中,获取查询列表中的查询“WarRoom Spec”所对应的每个文档,分析其元数据(Time、People、Team...):例如,类别“WarRoom Spec”中90%的文档包含单词“MengXin”或由“MengXin”创建,从而确定查询“WarRoom Spec”与概念列表中的概念“MengXin”之间的相似性为90%。类似地,可以确定查询“WarRoom Spec”与概念列表中的概念“Time”下的子概念“Jan”、“Feb”、“Mar”之间的相似性分别为15%、80%和5%。接下来,在步骤702中,判断计算出的相似性是否大于预先给定的阈值。如果是,则在步骤703中执行第一语义融合。例如,可以通过在概念“MengXin”之后添加括号,并在括号中添加查询“WarRoom Spec”而将查询“WarRoom Spec”与概念“MengXin”相融合。然后,在步骤704中,根据在步骤701中计算出的文档相似性对括号中的查询进行排序。然后,过程700结束。
图9示出上述第一语义融合过程的结果。经过第一语义融合,基于本体信息的分类过程所生成的概念列表的语义框架被添加到基于查询日志的分类过程所生成的查询列表,从而得到图9所示的融合列表1。通过该过程,本体信息中的相关概念可以被添加到查询列表形成的不稳定的目标类别集合,从而提高分类准确性。另外,由于用户可以更好地理解本体信息所提供的背景知识,因此经过第一语义融合,可以提供分类结果的用户友好显示。
图10示出第二语义融合过程,在该过程中,参考基于查询日志的分类结果(即查询列表)对基于本体信息的分类结果(即概念列表)进行调整。图11和图12是示出图10所示第二语义融合过程和结果的示意图。
首先,如图10所示,语义融合装置104首先接收分别来自基于查询日志的分类装置102和基于本体信息的分类装置103的第一分类结果(即查询列表)和第二分类结果(即概念列表)。然后,在步骤1001中,从本体信息存储器107收集一段时间内与目标查询(例如“WarRoom”)的概念相关的所有查询,并在步骤1002中,收集与这些查询相关的所有伪文档。接下来,在步骤1003中,可以参考各个查询所对应的伪文档而统计出查询列表中的每个类别(即查询)中的搜索结果的点击次数。例如,如图11所示,查询列表中的查询“WarRoom Plan”、“WarRoom Spec”等所对应的搜索结果的点击次数被计算出为100次、30次等,并被相应地表记载查询列表中。然后,在步骤1004中,判断计算出的各个查询的点击频率是否大于预先给定的阈值。如果是,则在步骤1005中执行第二语义融合,即将具有较高点击频率的查询类别添加到概念列表中。例如,在图11所示示例中,由于查询“Tag”和“Information Management”具有较高点击频率,因此当搜索“WarRoom”时,它们被视为伪概念并被添加到概念列表中。然后,在步骤1006中,根据点击频率的大小对添加的伪概念进行排序。然后,过程1000结束。
图12示出上述第二语义融合过程的结果。如图所示,通过分析基于查询日志的分类方法所生成的查询列表,具有较高点击频率的查询“Tag”和“Information Management”作为伪概念被添加到基于本体信息的分类方法所生成的概念列表,从而得到图12所示的融合列表2。在大多数情况下,本体信息的定义可能不够全面,并且其一旦被指定,则可能难以根据用户的兴趣而被改变。通过第二语义融合过程,可以将基于查询历史生成的相关伪概念添加到概念列表,从而使得分类结果更具灵活性。这样一来,既可以补偿本体信息过于僵化的缺点,也可以反映用户兴趣的改变。
最后,上述第一和第二语义融合过程的结果被进一步融合到一起,从而形成最终的对象分类结果。图13示出最终语义融合结果的示意图。该最终分类结果例如图13中的融合列表3所示。通过将两种语义融合结果相结合,可以实现基于本体信息的分类方法和基于查询日志的分类方法的相互调整和细化。
经过上述语义融合过程,使得根据本发明的对象分类方法所生成的分类结果更准确并且更具用户友好性。
首先,在用户友好性方面,通过将基于本体信息所生成的概念列表的语义框架添加到查询列表,使得用户可以更快地了解相关查询的语义属性,而动态添加相关伪概念的做法可以解决本体信息僵化的问题并使得用户更容易找到最流行以及最相关的查询结果。此外,根据查询相关的搜索结果的点击频率调整每个类别排序的做法可以反映出用户兴趣的改变。
其次,在分类准确性方面,通过将语义框架添加到基于查询日志的方法所生成的不稳定的类别集合,可以使得目标类别集合进一步细化,从而提高分类的准确性。另外,任何搜索引擎在运行初期都不具有查询日志,并且在不同领域的查询日志通过是完全不同的,并因此可能无法在本地引擎上直接使用。因此,基于本体信息的方法可以补偿搜索引擎运行初期不存在查询日志的情况,从而进一步提高对象分类的准确性。
虽然上面已经参考附图描述了根据本发明的具体实施例,但是本发明并不限于图中示出的特定配置和处理。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明的元素可以实现为硬件、软件、固件或者它们的组合,并且可以用在它们的系统、子系统、部件或者子部件中。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施例中所描述的算法可以被修改,而系统体系结构并不脱离本发明的基本精神。因此,当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。
Claims (13)
1.一种用于分类对象的方法,包括:
获取一组对象;
基于查询日志对所述对象进行分类,以生成第一分类结果;
基于本体信息对所述对象进行分类,以生成第二分类结果;以及
对所述第一分类结果和所述第二分类结果进行语义融合,以生成最终分类结果。
2.如权利要求1所述的方法,其中获取所述对象的步骤包括:
输入一目标查询;
根据所述目标查询在对象库中进行搜索;以及
输出搜索结果,作为待分类的对象集合。
3.如权利要求2所述的方法,其中在所述对象库中的所述搜索采取基于关键字的信息检索方法。
4.如权利要求2所述的方法,其中所述基于查询日志对所述对象进行分类的步骤包括:
获取所述查询日志;
从所述查询日志中提取出与所述目标查询相关的查询;
对提取出的所述相关查询进行聚类,并确定各个聚类的聚类中心,作为对象类别;以及
将所有所述搜索结果分类到确定的各个类别中。
5.如权利要求2所述的方法,其中所述基于本体信息对所述对象进行分类的步骤包括:
获取所述本体信息;
参考所述本体信息标注作为搜索结果的所有对象和所述目标查询;
根据经标注的所述目标查询在所述本体信息中的语义相关概念来生成对象类别;以及
将所有所述搜索结果分类到生成的各个类别中。
6.如权利要求1所述的方法,其中所述语义融合步骤包括:
根据所述第二分类结果来调整所述第一分类结果;
根据所述第一分类结果来调整所述第二分类结果;以及
集成所述调整后的第一分类结果和所述调整后的第二分类结果,以生成所述最终分类结果。
7.如权利要求6所述的方法,其中所述调整第一分类结果的步骤包括:
将所述第二分类结果所形成的语义框架添加到所述第一分类结果。
8.如权利要求6所述的方法,其中所述调整第二分类结果的步骤包括:
将所述第一分类结果中被频繁点击的查询添加到所述第二分类结果。
9.一种用于分类对象的系统,包括:
对象获取装置,用于获取一组对象;
基于查询日志的分类装置,用于基于查询日志对所述对象进行分类,以生成第一分类结果;
基于本体信息的分类装置,用于基于本体信息对所述对象进行分类,以生成第二分类结果;以及
语义融合装置,用于对所述第一分类结果和所述第二分类结果进行语义融合,以生成最终分类结果。
10.如权利要求9所述的系统,还包括:
用于存储对象的对象库;
其中所述对象获取装置包括:
输入单元,用于输入一目标查询;以及
搜索单元,用于根据所述目标查询在所述对象库中进行搜索,并且输出搜索结果,作为待分类的对象集合。
11.如权利要求10所述的系统,其中所述基于查询日志的分类装置包括:
查询日志获取单元,用于获取所述查询日志;
相关查询提取单元,用于从所述查询日志中提取出与所述目标查询相关的查询;
基于聚类的类别学习单元,用于对提取出的所述相关查询进行聚类,并确定各个聚类的聚类中心,作为对象类别;以及
分类单元,用于将所有所述搜索结果分类到确定的各个类别中。
12.如权利要求10所述的系统,其中所述基于本体信息的分类装置包括:
本体信息获取单元,用于获取所述本体信息;
对象标注单元,用于参考所述本体信息标注作为搜索结果的所有对象;
查询标注单元,用于标注所述目标查询;
类别生成单元,用于根据经标注的所述目标查询在所述本体信息中的语义相关概念来生成对象类别;以及
分类单元,用于将所有所述搜索结果分类到生成的各个类别中。
13.如权利要求9所述的系统,其中所述语义融合装置包括:
第一调整单元,用于根据所述第二分类结果来调整所述第一分类结果;
第二调整单元,用于根据所述第一分类结果来调整所述第二分类结果;以及
集成单元,用于集成所述调整后的第一分类结果和所述调整后的第二分类结果,以生成所述最终分类结果。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810173612A CN101727454A (zh) | 2008-10-30 | 2008-10-30 | 用于对象自动分类的方法和系统 |
JP2009243546A JP5192475B2 (ja) | 2008-10-30 | 2009-10-22 | オブジェクト分類方法およびオブジェクト分類システム |
US12/607,369 US8275765B2 (en) | 2008-10-30 | 2009-10-28 | Method and system for automatic objects classification |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810173612A CN101727454A (zh) | 2008-10-30 | 2008-10-30 | 用于对象自动分类的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101727454A true CN101727454A (zh) | 2010-06-09 |
Family
ID=42132695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200810173612A Pending CN101727454A (zh) | 2008-10-30 | 2008-10-30 | 用于对象自动分类的方法和系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8275765B2 (zh) |
JP (1) | JP5192475B2 (zh) |
CN (1) | CN101727454A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722553A (zh) * | 2012-05-24 | 2012-10-10 | 浙江大学 | 基于用户日志分析的分布式倒排索引组织方法 |
CN103544301A (zh) * | 2013-10-31 | 2014-01-29 | 上海交通大学 | 一种移动云中高效安全的支持多关键字的搜索方法 |
CN109460467A (zh) * | 2018-09-28 | 2019-03-12 | 中国科学院电子学研究所苏州研究院 | 一种网络信息分类体系构建方法 |
CN109558384A (zh) * | 2018-09-29 | 2019-04-02 | 中国平安人寿保险股份有限公司 | 日志分类方法、装置、电子设备和存储介质 |
CN110399544A (zh) * | 2019-06-27 | 2019-11-01 | 迪安诊断技术集团股份有限公司 | 电子病历数字对象分类器生成方法以及最终分类器系统 |
CN110431514A (zh) * | 2017-01-19 | 2019-11-08 | 三星电子株式会社 | 用于情境驱动智能的系统和方法 |
CN110427404A (zh) * | 2019-08-01 | 2019-11-08 | 上海计算机软件技术开发中心 | 一种区块链跨链数据检索系统 |
CN111209406A (zh) * | 2018-11-21 | 2020-05-29 | 中国电信股份有限公司 | 本体知识库实例数据维护方法和装置 |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110119570A1 (en) * | 2009-11-18 | 2011-05-19 | Xerox Corporation | Automated variable dimension digital document advisor |
US20110262102A1 (en) * | 2010-04-13 | 2011-10-27 | Lahr Nils B | System and methods for optimizing buffering heuristics in media |
US8352474B2 (en) * | 2010-06-16 | 2013-01-08 | Fuji Xerox Co., Ltd. | System and method for retrieving information using a query based index |
US10423577B2 (en) | 2010-06-29 | 2019-09-24 | International Business Machines Corporation | Collections for storage artifacts of a tree structured repository established via artifact metadata |
US8898182B2 (en) | 2011-04-27 | 2014-11-25 | International Business Machines Corporation | Methods and arrangements for providing effective interactive query suggestions without query logs |
US10198506B2 (en) * | 2011-07-11 | 2019-02-05 | Lexxe Pty Ltd. | System and method of sentiment data generation |
JP5308593B2 (ja) | 2011-07-25 | 2013-10-09 | 楽天株式会社 | ジャンル生成装置 |
US20130212089A1 (en) * | 2012-02-10 | 2013-08-15 | Google Inc. | Search Result Categorization |
CN103324640B (zh) * | 2012-03-23 | 2016-06-08 | 日电(中国)有限公司 | 一种确定搜索结果文档的方法、装置和设备 |
US8843470B2 (en) * | 2012-10-05 | 2014-09-23 | Microsoft Corporation | Meta classifier for query intent classification |
US10528907B2 (en) * | 2012-12-19 | 2020-01-07 | Oath Inc. | Automated categorization of products in a merchant catalog |
US9064230B2 (en) | 2013-01-31 | 2015-06-23 | Wal-Mart Stores, Inc. | Ranking keywords for product types with manual curation |
US9436919B2 (en) | 2013-03-28 | 2016-09-06 | Wal-Mart Stores, Inc. | System and method of tuning item classification |
US9390378B2 (en) | 2013-03-28 | 2016-07-12 | Wal-Mart Stores, Inc. | System and method for high accuracy product classification with limited supervision |
US9483741B2 (en) | 2013-03-28 | 2016-11-01 | Wal-Mart Stores, Inc. | Rule-based item classification |
US8949283B1 (en) | 2013-12-23 | 2015-02-03 | Google Inc. | Systems and methods for clustering electronic messages |
US9767189B2 (en) | 2013-12-30 | 2017-09-19 | Google Inc. | Custom electronic message presentation based on electronic message category |
US9015192B1 (en) | 2013-12-30 | 2015-04-21 | Google Inc. | Systems and methods for improved processing of personalized message queries |
US9542668B2 (en) | 2013-12-30 | 2017-01-10 | Google Inc. | Systems and methods for clustering electronic messages |
US9306893B2 (en) | 2013-12-31 | 2016-04-05 | Google Inc. | Systems and methods for progressive message flow |
US9152307B2 (en) | 2013-12-31 | 2015-10-06 | Google Inc. | Systems and methods for simultaneously displaying clustered, in-line electronic messages in one display |
US10033679B2 (en) | 2013-12-31 | 2018-07-24 | Google Llc | Systems and methods for displaying unseen labels in a clustering in-box environment |
US9124546B2 (en) | 2013-12-31 | 2015-09-01 | Google Inc. | Systems and methods for throttling display of electronic messages |
CN104834648B (zh) * | 2014-02-12 | 2018-07-31 | 华为技术有限公司 | 日志查询方法和装置 |
CN107038179B (zh) * | 2016-08-23 | 2020-04-10 | 平安科技(深圳)有限公司 | 信息项存储方法和系统 |
EP3559804B1 (en) | 2017-01-19 | 2024-03-06 | Samsung Electronics Co., Ltd. | Vision intelligence management for electronic devices |
US11036780B2 (en) | 2018-03-08 | 2021-06-15 | Ebay Inc. | Automatic lot classification |
KR20200075147A (ko) * | 2018-12-13 | 2020-06-26 | (주)한국플랫폼서비스기술 | 자동 분류저장 기술을 이용한 dbms-ai 프레임 워크 및 이를 이용한 자동분류저장 방법 |
US10489454B1 (en) | 2019-06-28 | 2019-11-26 | Capital One Services, Llc | Indexing a dataset based on dataset tags and an ontology |
US11531703B2 (en) | 2019-06-28 | 2022-12-20 | Capital One Services, Llc | Determining data categorizations based on an ontology and a machine-learning model |
CN113127642B (zh) * | 2021-04-29 | 2022-12-23 | 广盟数据科技(上海)有限公司 | 文档可控式自动分类方法、装置、设备及存储介质 |
Family Cites Families (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5694559A (en) * | 1995-03-07 | 1997-12-02 | Microsoft Corporation | On-line help method and system utilizing free text query |
US6460034B1 (en) * | 1997-05-21 | 2002-10-01 | Oracle Corporation | Document knowledge base research and retrieval system |
US6185550B1 (en) * | 1997-06-13 | 2001-02-06 | Sun Microsystems, Inc. | Method and apparatus for classifying documents within a class hierarchy creating term vector, term file and relevance ranking |
US6108703A (en) * | 1998-07-14 | 2000-08-22 | Massachusetts Institute Of Technology | Global hosting system |
US6502091B1 (en) * | 2000-02-23 | 2002-12-31 | Hewlett-Packard Company | Apparatus and method for discovering context groups and document categories by mining usage logs |
US6751600B1 (en) * | 2000-05-30 | 2004-06-15 | Commerce One Operations, Inc. | Method for automatic categorization of items |
US6785683B1 (en) * | 2000-07-06 | 2004-08-31 | International Business Machines Corporation | Categorization and presentation tool for code resources |
US6598042B1 (en) * | 2000-09-29 | 2003-07-22 | International Business Machines Corporation | System and method for query by category |
US20020169770A1 (en) * | 2001-04-27 | 2002-11-14 | Kim Brian Seong-Gon | Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents |
US6947936B1 (en) * | 2001-04-30 | 2005-09-20 | Hewlett-Packard Development Company, L.P. | Method for a topic hierarchy classification system |
US7536413B1 (en) * | 2001-05-07 | 2009-05-19 | Ixreveal, Inc. | Concept-based categorization of unstructured objects |
KR20040013097A (ko) * | 2001-07-04 | 2004-02-11 | 코기줌 인터메디아 아게 | 카테고리 기반의 확장가능한 대화식 문서 검색 시스템 |
US6701333B2 (en) * | 2001-07-17 | 2004-03-02 | Hewlett-Packard Development Company, L.P. | Method of efficient migration from one categorization hierarchy to another hierarchy |
US20030115191A1 (en) * | 2001-12-17 | 2003-06-19 | Max Copperman | Efficient and cost-effective content provider for customer relationship management (CRM) or other applications |
US6978264B2 (en) * | 2002-01-03 | 2005-12-20 | Microsoft Corporation | System and method for performing a search and a browse on a query |
US20030144996A1 (en) * | 2002-01-28 | 2003-07-31 | Moore Larry Richard | Method and system for transporting and displaying search results and information hierarchies |
US6886010B2 (en) * | 2002-09-30 | 2005-04-26 | The United States Of America As Represented By The Secretary Of The Navy | Method for data and text mining and literature-based discovery |
US7349917B2 (en) * | 2002-10-01 | 2008-03-25 | Hewlett-Packard Development Company, L.P. | Hierarchical categorization method and system with automatic local selection of classifiers |
US8401255B2 (en) * | 2002-12-18 | 2013-03-19 | General Electric Company | Computer-assisted reconciliation of multiple image reads |
US20040120558A1 (en) * | 2002-12-18 | 2004-06-24 | Sabol John M | Computer assisted data reconciliation method and apparatus |
US7383239B2 (en) * | 2003-04-30 | 2008-06-03 | Genworth Financial, Inc. | System and process for a fusion classification for insurance underwriting suitable for use by an automated system |
US7051077B2 (en) * | 2003-06-30 | 2006-05-23 | Mx Logic, Inc. | Fuzzy logic voting method and system for classifying e-mail using inputs from multiple spam classifiers |
US7124148B2 (en) * | 2003-07-31 | 2006-10-17 | Sap Aktiengesellschaft | User-friendly search results display system, method, and computer program product |
JP4274907B2 (ja) * | 2003-11-11 | 2009-06-10 | 日本電信電話株式会社 | コンテンツ分類システムおよび方法、コンピュータプログラムおよび記録媒体 |
JP2005182280A (ja) * | 2003-12-17 | 2005-07-07 | Ibm Japan Ltd | 情報検索システム、検索結果加工システム及び情報検索方法並びにプログラム |
US7870039B1 (en) * | 2004-02-27 | 2011-01-11 | Yahoo! Inc. | Automatic product categorization |
US7383260B2 (en) * | 2004-08-03 | 2008-06-03 | International Business Machines Corporation | Method and apparatus for ontology-based classification of media content |
US7567962B2 (en) * | 2004-08-13 | 2009-07-28 | Microsoft Corporation | Generating a labeled hierarchy of mutually disjoint categories from a set of query results |
US20070266020A1 (en) * | 2004-09-30 | 2007-11-15 | British Telecommunications | Information Retrieval |
US7668889B2 (en) * | 2004-10-27 | 2010-02-23 | At&T Intellectual Property I, Lp | Method and system to combine keyword and natural language search results |
WO2006057973A2 (en) * | 2004-11-23 | 2006-06-01 | Eastman Kodak Company | Method for classifying radiographs |
US7702674B2 (en) * | 2005-03-11 | 2010-04-20 | Yahoo! Inc. | Job categorization system and method |
US20060224579A1 (en) * | 2005-03-31 | 2006-10-05 | Microsoft Corporation | Data mining techniques for improving search engine relevance |
US7890520B2 (en) * | 2005-08-01 | 2011-02-15 | Sony Corporation | Processing apparatus and associated methodology for content table generation and transfer |
US7921109B2 (en) * | 2005-10-05 | 2011-04-05 | Yahoo! Inc. | Customizable ordering of search results and predictive query generation |
US20070124200A1 (en) * | 2005-11-26 | 2007-05-31 | Chintano, Inc. | Systems and methods for providing online contextual advertising in multilingual environments |
US7657550B2 (en) * | 2005-11-28 | 2010-02-02 | Commvault Systems, Inc. | User interfaces and methods for managing data in a metabase |
KR100749045B1 (ko) * | 2006-01-26 | 2007-08-13 | 삼성전자주식회사 | 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치 |
US7657518B2 (en) * | 2006-01-31 | 2010-02-02 | Northwestern University | Chaining context-sensitive search results |
US20070192293A1 (en) * | 2006-02-13 | 2007-08-16 | Bing Swen | Method for presenting search results |
US20070208728A1 (en) * | 2006-03-03 | 2007-09-06 | Microsoft Corporation | Predicting demographic attributes based on online behavior |
US7818315B2 (en) * | 2006-03-13 | 2010-10-19 | Microsoft Corporation | Re-ranking search results based on query log |
US8214360B2 (en) * | 2006-04-06 | 2012-07-03 | International Business Machines Corporation | Browser context based search disambiguation using existing category taxonomy |
US8442965B2 (en) * | 2006-04-19 | 2013-05-14 | Google Inc. | Query language identification |
KR100785352B1 (ko) * | 2006-04-21 | 2007-12-18 | 엔에이치엔(주) | 검색결과리스트 생성 방법 및 검색결과리스트 생성 시스템 |
US20070255755A1 (en) * | 2006-05-01 | 2007-11-01 | Yahoo! Inc. | Video search engine using joint categorization of video clips and queries based on multiple modalities |
US7788269B2 (en) * | 2007-03-30 | 2010-08-31 | International Business Machines Corporation | Integration of predefined multi-dimensional and flexibly-ordered dynamic search interfaces |
US8331674B2 (en) * | 2007-04-06 | 2012-12-11 | International Business Machines Corporation | Rule-based combination of a hierarchy of classifiers for occlusion detection |
US7860946B1 (en) * | 2007-05-01 | 2010-12-28 | Disintegrated Communication Systems, Llc | Systems, methods, and computer-readable media for searching and concomitantly interacting with multiple information content providers, other individuals, relevant communities of individuals, and information provided over a network |
US8051056B2 (en) * | 2007-05-29 | 2011-11-01 | Microsoft Corporation | Acquiring ontological knowledge from query logs |
KR100930455B1 (ko) * | 2007-09-06 | 2009-12-08 | 엔에이치엔(주) | 쿼리별 검색 컬렉션 생성 방법 및 시스템 |
US8103676B2 (en) * | 2007-10-11 | 2012-01-24 | Google Inc. | Classifying search results to determine page elements |
US8260034B2 (en) * | 2008-01-22 | 2012-09-04 | International Business Machines Corporation | Multi-modal data analysis for defect identification |
WO2009134755A2 (en) * | 2008-04-28 | 2009-11-05 | Alexandria Investment Research And Technology, Llc | Adaptive knowledge platform |
US7949672B2 (en) * | 2008-06-10 | 2011-05-24 | Yahoo! Inc. | Identifying regional sensitive queries in web search |
JP5241370B2 (ja) * | 2008-08-01 | 2013-07-17 | 三菱電機株式会社 | テーブル分類装置、テーブル分類方法及びテーブル分類プログラム |
US9336511B2 (en) * | 2008-10-06 | 2016-05-10 | Sap Se | Import and merge of categorization schemas |
JP2010102385A (ja) * | 2008-10-21 | 2010-05-06 | Kddi Corp | ユーザ分類装置、広告配信装置、ユーザ分類方法、広告配信方法、およびプログラム |
US9594835B2 (en) * | 2008-11-25 | 2017-03-14 | Yahoo! Inc. | Lightning search aggregate |
US8170725B2 (en) * | 2009-02-18 | 2012-05-01 | GM Global Technology Operations LLC | Vehicle stability enhancement control adaptation to driving skill based on highway on/off ramp maneuver |
-
2008
- 2008-10-30 CN CN200810173612A patent/CN101727454A/zh active Pending
-
2009
- 2009-10-22 JP JP2009243546A patent/JP5192475B2/ja not_active Expired - Fee Related
- 2009-10-28 US US12/607,369 patent/US8275765B2/en active Active
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722553A (zh) * | 2012-05-24 | 2012-10-10 | 浙江大学 | 基于用户日志分析的分布式倒排索引组织方法 |
CN103544301A (zh) * | 2013-10-31 | 2014-01-29 | 上海交通大学 | 一种移动云中高效安全的支持多关键字的搜索方法 |
CN110431514A (zh) * | 2017-01-19 | 2019-11-08 | 三星电子株式会社 | 用于情境驱动智能的系统和方法 |
CN110431514B (zh) * | 2017-01-19 | 2022-05-03 | 三星电子株式会社 | 用于情境驱动智能的系统和方法 |
CN109460467A (zh) * | 2018-09-28 | 2019-03-12 | 中国科学院电子学研究所苏州研究院 | 一种网络信息分类体系构建方法 |
CN109460467B (zh) * | 2018-09-28 | 2020-02-14 | 中国科学院电子学研究所苏州研究院 | 一种网络信息分类体系构建方法 |
CN109558384A (zh) * | 2018-09-29 | 2019-04-02 | 中国平安人寿保险股份有限公司 | 日志分类方法、装置、电子设备和存储介质 |
CN109558384B (zh) * | 2018-09-29 | 2023-07-18 | 中国平安人寿保险股份有限公司 | 日志分类方法、装置、电子设备和存储介质 |
CN111209406A (zh) * | 2018-11-21 | 2020-05-29 | 中国电信股份有限公司 | 本体知识库实例数据维护方法和装置 |
CN111209406B (zh) * | 2018-11-21 | 2023-06-20 | 中国电信股份有限公司 | 本体知识库实例数据维护方法和装置 |
CN110399544A (zh) * | 2019-06-27 | 2019-11-01 | 迪安诊断技术集团股份有限公司 | 电子病历数字对象分类器生成方法以及最终分类器系统 |
CN110427404A (zh) * | 2019-08-01 | 2019-11-08 | 上海计算机软件技术开发中心 | 一种区块链跨链数据检索系统 |
Also Published As
Publication number | Publication date |
---|---|
US20100114855A1 (en) | 2010-05-06 |
JP5192475B2 (ja) | 2013-05-08 |
JP2010170529A (ja) | 2010-08-05 |
US8275765B2 (en) | 2012-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101727454A (zh) | 用于对象自动分类的方法和系统 | |
US9317613B2 (en) | Large scale entity-specific resource classification | |
US9235638B2 (en) | Document retrieval using internal dictionary-hierarchies to adjust per-subject match results | |
CN102760138B (zh) | 用户网络行为的分类方法和装置及对应的搜索方法和装置 | |
US7672943B2 (en) | Calculating a downloading priority for the uniform resource locator in response to the domain density score, the anchor text score, the URL string score, the category need score, and the link proximity score for targeted web crawling | |
US8825657B2 (en) | Systems and methods for creating, navigating, and searching informational web neighborhoods | |
US9928296B2 (en) | Search lexicon expansion | |
TWI398786B (zh) | 產生以專業知識為基礎的搜尋結果之系統、方法及其電腦可讀取媒體 | |
US20080104034A1 (en) | Method For Scoring Changes to a Webpage | |
CN101404015A (zh) | 自动生成词条层次 | |
CN101551806A (zh) | 一种个性化网址导航的方法和系统 | |
CN102999560A (zh) | 用社交网络特征提高姓名和其它搜索查询的搜索引擎结果页面的相关性 | |
KR20150031234A (ko) | 어플리케이션 검색들을 가능하게 하기 위해 사용되는 검색 인덱스의 업데이트 | |
US20160103861A1 (en) | Method and system for establishing a performance index of websites | |
CN101178728A (zh) | 一种网址导航的方法和系统 | |
CN101401062A (zh) | 确定相关来源、查询及合并多个内容来源的结果的方法和系统 | |
CN104077286A (zh) | 商品信息的搜索方法及系统 | |
JP2013536491A (ja) | ビデオコンテンツを管理するための方法および装置 | |
CN101404016A (zh) | 确定文档特异性 | |
CN109918563A (zh) | 一种基于公开数据的图书推荐的方法 | |
US20110208715A1 (en) | Automatically mining intents of a group of queries | |
US20150302090A1 (en) | Method and System for the Structural Analysis of Websites | |
Kumar | World towards advance web mining: A review | |
WO2022098721A1 (en) | Self-building hierarchically indexed multimedia database | |
CN104484367A (zh) | 一种数据挖掘分析系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20100609 |