CN101639837A - 用于自动分类对象的方法和系统 - Google Patents
用于自动分类对象的方法和系统 Download PDFInfo
- Publication number
- CN101639837A CN101639837A CN200810134793A CN200810134793A CN101639837A CN 101639837 A CN101639837 A CN 101639837A CN 200810134793 A CN200810134793 A CN 200810134793A CN 200810134793 A CN200810134793 A CN 200810134793A CN 101639837 A CN101639837 A CN 101639837A
- Authority
- CN
- China
- Prior art keywords
- classification
- hierarchical structure
- score
- ontology information
- onto
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了用于自动分类对象的方法和系统。所述方法包括:输入一组对象以及用于分类对象的类别层次结构;获取领域相关的本体信息;利用基于本体信息的方法将每个对象分类到类别层次结构中,以得到第一分类结果;利用基于信息检索(IR)的方法将每个对象分类到类别层次结构中,以得到第二分类结果;以及组合所述第一和第二分类结果以得到最终分类结果。本发明可被应用到单层或多层的类别层次结构,并且可以有效且精确的实现对象分类,从而获得更小的分类结果粒度。
Description
技术领域
本发明一般地涉及信息检索和文本数据挖掘,更具体而言,本发明涉及用于自动分类对象(例如文档、邮件等)的方法和系统。
背景技术
随着可用在线信息(例如电子文档)的不断增长,人们变得越来越难以理解和有效利用这大量的信息。于是,帮助人们组织信息以及用有效且高效的方式找到感兴趣的信息成为一项很有挑战性的任务。
信息检索(Information Retrieval,IR)是用于在对象(例如文档)集合中搜索信息的科学。根据处理对象的不同,其可被进而划分为对文档中包含的信息片段的搜索、对文档本身的搜索、对描述文档的元数据的搜索或者数据库内的搜索,以检索文本、声音、图像或数据。这里所述数据库可以是关系独立数据库或超文本联网数据库(例如通过因特网或内联网)。文本数据挖掘一般指的是从明文文本构造高质量信息的过程,其可被进而划分为文本分类、文本聚类、概念/实体提取、文档概括等等。由于当前最常获得的信息通常被存储为文本或文档,因此相信信息检索和文本数据挖掘具有很高的商业价值。文档分类是利用来自预定集合的主题类别来标记自然语言文本的过程,其可被应用到很多IR和文本数据挖掘情形,例如词义消歧、文档组织、文本过滤和网页检索。
对于信息检索以及文本数据挖掘而言,自动对象分类是其中的关键技术之一,并在电子信息的有效利用、信息的组织和帮助用户找到感兴趣的信息方面扮演着重要的角色。但是,现有技术中提供的对象分类方法的精确度不高,不足以实现准确而高效的对象(例如文档)分类。
例如,在Wang.K、Zhou.S等人发表的文章“Building hierarchicalclassifiers using class proximity”(Proc of VLDB’97,Edinburgh,UK,1999,第363-374页)中公开了一种分层次的对象分类方法,其提出建模类别之间的相似性的概念。在该对象分类方法中,分类器的建立分为三个步骤:关联规则的建立;关联规则的排列;以及找到具有最小截止误差(cutofferror)的规则集合。
再比如,以Sebastiani.F在ACM Computing Surveys(2002)上发表的文章“Machines learning in automated text categorization”为例,基于机器学习的方法已被广泛用于自动文档分类,其中主要包括两个步骤,即建立分类器和用分类器进行文档分类。
另外,在题为“Method and System for Guided Cluster Based Processingon Prototypes”的美国专利US 7308451B1中公开了用于自动文档再分类的实现方法,其基于原始组织结构(原型聚类)对文档进行再分类,并输出比原始结构更详细的组织结构。
然而,如上文所提到的,现有技术中所提出的对象分类方案的精确性并不理想,并且在大多数方案中,仅仅考虑到基于关键字的分类,而没有涉及与环境或领域相关的上下文信息或背景知识。另外,在现有技术中,如果对象集合或所属领域改变,则分类器需要被重新训练,从而使得分类器的可扩展性很差。并且,由于需要预定的训练集合,因而使得分类器的性能依赖于大量被标记的数据。另一方面,就规则建立而言,自动规则生成是一个非常耗时的过程,对于全文本文档尤其如此,因此使得处理大规模文档集合变得非常困难。
发明内容
鉴于上述现有技术中所存在的缺陷,作出了本发明,其用于更加准确且有效地进行对象(例如文档)分类,进而使得用户能够更有效地组织他/她的个人数据并找到感兴趣的信息。
本发明提出了一种用于对象分类的混合方法。之所以称之为混合方法是因为它将基于本体信息(ontology information)的对象分类方法和基于信息检索(IR)的对象分类方法相结合。大体上讲,本发明的自动对象分类方法主要包括三个步骤:(1)基于本体信息的对象分类;(2)基于IR的对象分类;以及(3)上述两种分类结果的组合。
在基于本体信息的对象分类中,针对某一领域(例如企业或组织)的背景知识被提供以用于对象的分类,这种背景知识在这里被称为本体信息,其包括关于该组织的环境本体信息(在一些示例中,可称之为企业本体信息)和规则本体信息。以企业信息分类为例,由于本体信息从多个角度(例如部门、团队、项目、活动等等)反映出关于企业的上下文信息,因此基于本体信息的对象分类可以被用于多维地组织待分类的对象。
另一方面,在基于IR的对象分类中,通过分析出现在用于分类对象(例如文档)的类别层次结构(例如文件夹)中的词汇和对象内容之间的关系,提取出与不同类别相关的代表性关键字,并将提取出的代表性关键字作为中介,利用基于向量空间模型(VSM)方法计算每个对象和类别层次结构上的节点(即类别)之间的相似性,从而实现对象到类别层次结构的分类。这里,也可以采用基于学习的方法。
然后,基于本体信息的分类结果和基于IR的分类结果被适当地组合,以得到最终分类结果,从而提高对象分类的质量。
根据本发明一个方面,提供了一种用于分类对象的方法,其包括如下步骤:a)输入一组对象以及用于分类对象的类别层次结构;b)获取领域相关的本体信息;c)利用基于本体信息的方法将每个对象分类到所述类别层次结构中,以得到第一分类结果;d)利用基于信息检索(IR)的方法将每个对象分类到所述类别层次结构中,以得到第二分类结果;以及e)组合所述第一和第二分类结果以得到最终分类结果。
根据本发明另一方面,提供了一种用于分类对象的系统,其包括:对象输入装置,用于输入一组对象;类别层次结构输入装置,用于输入用于分类对象的类别层次结构;本体信息库,用于存储领域相关的本体信息;基于本体分类装置,用于利用基于本体信息的方法将每个对象分类到所述类别层次结构中,以得到第一分类结果;基于IR分类装置,用于利用基于IR的方法将每个对象分类到所述类别层次结构中,以得到第二分类结果;以及组合装置,用于组合所述第一和第二分类结果以得到最终分类结果。
根据本发明,以上方法和系统既可被应用于单层的类别层次结构,也可被用于多层的类别层次结构,例如针对单层和多层文件夹的不同情形,具体细节请参见下文中的详细描述。
如上所述,根据本发明的混合对象分类方案将基于本体信息的分类方法和基于IR的分类方法适应地相结合。这样一来,如果基于本体信息的对象分类没有找到某一对象的元数据匹配,作为补充,基于IR的分类方法可以对其进行分类。相反地,即使某一对象在基于IR的分类方法中呈现出与多个类别具有同样的相似性,用户可以利用基于本体信息的方法对其给出更可靠的分类结果。因此,根据本发明的混合对象分类方法可以提高对象分类的精确度并获得更小的分类结果粒度。
另外,在本发明所提出的基于本体信息的分类方法中,可以通过背景知识(其提供关于相应对象的上下文信息)与相应对象的元数据之间的映射来进行对象分类。另外,由于组织或企业中的各个用户都对本组织的背景知识有相当的了解,因此虽然不同用户所使用的类别层次结构可能有所不同,但是所有用户可以共享一组相同或类似的分类模式,其中每个分类模式对应于一个维度(例如时间、项目等等)。由于背景知识可以从多个角度反映出相应组织(例如企业)的情况,因此可以以多维的方式实现对象的分类。
从下面结合附图的详细描述中,可以更明确地看出本发明的以上及其他特征和优点。注意,本发明并不局限于图中所示的示例或者任何具体的实施例。
附图说明
结合附图,从下面对本发明实施例的详细描述,将更好地理解本发明,附图中类似的参考标注指示类似的部分,其中:
图1是示出根据本发明第一实施例的混合对象分类系统100的内部结构的框图;
图2是示出图1所示系统的操作过程的示例的流程图;
图3A是更详细示出用于执行基于本体信息的对象分类的基于本体分类装置的内部结构的框图;
图3B是用于说明基于本体信息的对象分类过程的示意图;
图4A是更详细示出用于执行基于IR的对象分类的基于IR分类装置的内部结构的框图;
图4B是用于说明基于IR的对象分类过程的示意图;
图5是更详细示出用于组合基于本体信息和基于IR的分类结果的组合装置的内部结构的框图;
图6是示出图5所示组合装置的操作过程的一个示例的流程图;
图7是示出根据本发明第二实施例的混合对象分类系统700的内部结构的框图;以及
图8是用于说明具有多层结构的类别层次结构的等价结构变换的示意图。
具体实施方式
下面参考附图描述根据本发明的示例性实施例。应当意识到,所描述的实施例仅是用于举例说明的目的,本发明并不限于所描述的具体实施例。
本发明涉及自动对象分类,这里以针对某一组织(例如企业)所使用的文档分类为例来详细说明根据本发明的方法和系统。当然,本领域技术人员将会意识到,本发明并不局限于这里所提供的示例,而是可被广泛应用到其他对象分类相关的领域。
首先,图1是示出根据本发明第一实施例的混合对象分类系统100的内部结构的框图。图2是示出图1所示系统的操作过程的示例的流程图。如图1所示,系统100主要包括类别层次结构输入装置101、对象输入装置102、基于本体分类装置103、基于IR分类装置104以及组合装置105。参考图2所示流程图,首先在步骤201中,对象输入装置102从对象存储库107获取一组对象(X1,X2,…Xn),这里所述对象例如是文档、电子邮件、附件或桌面对象。然后,在步骤202中,类别层次结构输入装置101从类别层次结构存储库107述入一个用于分类对象的类别层次结构L。作为示例,该类别层次结构L例如可以被组织成文件夹的形式,用于存储和分类不同的类别对象(例如文档)。根据需求,类别层次结构L可以具有单层或多层的层次结构。在单层结构的情况下,类别层次结构L具有一层节点,其中每个节点对应于不同的类别。在多层结构的情况下,类别层次结构L上的第i+1层节点所对应的类别例如可以是第i层节点所对应类别的子类别。例如,参考图8,其示出多层结构的一个示例。该示例中以文件夹的形式示出具有两层节点的类别层次结构。当然,本发明的实施例并不局限于图中所示结构,具有更多或更少层次的结构也可被用于本发明。
返回图2,在步骤203中,基于本体分类装置103可以从本体信息库108获取与该组织(或企业)有关的本体信息,该本体信息可以包括环境本体信息和规则本体信息。然后,在步骤204中,基于本体分类装置103利用基于本体信息的方法对对象输入装置102输入的对象组(X1,X2,…Xn)中的对象进行分类,得到第一分类结果。作为示例,分类结果可以是将对象分类到不同类别的得分。在步骤205中,基于IR分类装置104利用基于IR的方法对对象组(X1,X2,…Xn)中的对象进行分类,得到第二分类结果。然后,在步骤206中,基于本体分类装置103和基于IR分类装置104得到的第一和第二分类结果在组合装置105中被组合,以得到最终分类结果,并根据最终分类结果,将对象组(X1,X2,…Xn)中的各个对象分类到类别层次结构中的相应类别。然后,对象分类过程结束。
如上文提到的,在本发明所公开的混合对象分类中,基于本体信息的分类方法和基于IR的分类方法可以互为补充。如果基于本体信息的对象分类没有找到某一对象的元数据匹配,作为补充,基于IR的分类方法可以对其进行分类。相反地,即使某一对象在基于IR的分类中呈现出与多个类别具有同样的相似性,用户也可以利用基于本体信息的方法对其给出更可靠的分类结果。从而,可以进一步提高对象分类的精确度。
下面,将分别进一步描述本发明的对象分类系统中的三个主要组件,即基于本体分类装置103、基于IR分类装置104和组合装置105。
作为示例,首先描述对象被分类到单层的类别层次结构的情况。
图3A是更详细示出用于执行基于本体信息的对象分类的基于本体分类装置的内部结构的框图,图3B是用于说明基于本体信息的对象分类过程的示意图。
如图3A所示,基于本体分类装置103包括元数据提取单元301、本体化单元302、规则生成单元303和第一分类单元304。对象组(X1,X2,…Xn)首先被提供到元数据提取单元301,以根据来自本体信息库108的环境本体信息提取出每个对象Xi的元数据。这里,可以使用扩展的Dublin核心集来代表所有种类的对象。众所周知,在Dublin核心集中包括总共15种元数据。但是,在本发明中,作为示例,只使用其中的四种,即题目(Topic)、创建者(Creator)、时间(Time)和文件类型(File Type)。另外,本发明还使用了未包括在Dublin核心集中的一些元数据,例如发件人(Sender)、收件人(Receiver)等等。当然,本发明并不局限于这里所述示例。根据实际应用需求,用户可以自行设计其他种类的元数据。例如,如图3B中的示例所示,根据环境本体信息可以提取出对象X的元数据“瑞星”、2007.10.24、Linda等等。这里的环境本体信息例如表征某一组织或企业的背景知识,例如,如图3B所示方框中的环境本体结构所示。
在提取出各个对象的元数据之后,本体化单元302根据环境本体信息对提取出的每个对象的元数据进行本体化。然后,基于规则生成单元303根据来自本体信息库108的规则本体信息生成的一组规则与经本体化的元数据之间的映射,第一分类单元304可以计算出将每个对象映射到类别层次结构上的不同类别的得分,作为第一分类结果。
这里所述的规则本体信息可以表征多个一般规则。规则本体的实例例如可以是与项目等相关的活动信息,例如主管、成员、持续时间等等。分类规则可以通过将活动信息的实例添加到规则本体结构来自动生成,这样可以确保本发明在出现新的活动时具有良好的可扩展性。例如,Linda和Jay在9月前是活动A的成员,因此她们之间发送的邮件或文件属于活动A的可能性非常高,而假如在9月之后,Linda变为活动B的主管,则在9月之后她们之间的邮件更可能与活动B相关。
为了便于理解,下面给出基于本体信息的对象分类过程的一个示例。
首先假设某一企业分别开展四个不同项目,即项目1、项目2、项目3和项目4。通过本体信息库108可以获取与该企业相关的环境本体信息,其中与项目1-4相关的本体信息如下:
项目 | 关键字 | 主管 | 成员 | 持续时间 |
1 | 瑞星 | Belinda | Linda,Jay,Sam,Fei | 2007.1.2-2007.12.22 |
2 | 杀毒软件 | Belinda | Linda,Kitty,Wendy | 2005.2.5-2006.10.14 |
3 | 防火墙 | Tom | Belinda,Sam,Jay | 2006.9.1-2006.11.5 |
4 | Anti-Virus | Tom | Fei,John | 2008.1.3-2008.6.6 |
假设,基于本体分类装置103获取到两个对象(例如文件)X和Y。
元数据提取单元301分别从文件X和Y中提取出元数据如下:
文件X | 瑞星 | 2007.10.24 | Linda | Belinda |
文件Y | 防火墙 | 2006.9.12 | Jay | Tom |
然后,本体化单元302参考与该企业有关的环境本体信息将提取出的对象X和Y的元数据进行本体化,即得到:
文件X | 瑞星→项目1的关键字 | 2007.10.24→项目1的持续时间 | Linda→项目1和2的成员 | Belinda→项目1和2的主管,项目3的成员 |
文件Y | 防火墙→项目3的关键字 | 2006.9.12→项目2和3的持续时间 | Jay→项目1和3的成员 | Tom→项目3和4的主管 |
这里,再假设规则生成单元303根据来自本体信息库108的规则本体信息得到如下一组规则的示例:
规则1:在给定项目的持续时间期间发送/接收或书写的文件。
规则2:由给定项目的主管发送/接收或书写的文件。
规则3:由给定项目的成员发送/接收或书写的文件。
规则4:文件标题包括给定项目的关键字。
规则5:文件上下文包括给定项目的关键字。
然后,第一分类单元304可以根据规则生成单元303生成的上述规则与本体化单元302得到的文件X和Y的经本体化的元数据之间的映射,计算出文件X和Y被分类到各个项目(即类别)1、2、3和4的得分。例如,规则i(在本示例中,i=1到5)的结果可以被表示为一个布尔变量vi:0或1。根据各个规则的贡献和可靠性的不同,可以为每个规则分配一个权重wi。然后,对于每个项目类别,可以基于以下等式1计算出每个文件对象X和Y被分类到该项目(类别)的得分:
例如,在本示例中,可以分别计算出文件X和Y被分类到各个项目的得分如下:
[表1:基于本体信息的方法]:
项目1 | 项目2 | 项目3 | 项目4 | |
文件X | 0.8 | 0.1 | 0.1 | 0 |
文件Y | 0.1 | 0.1 | 0.7 | 0.1 |
根据以上结果,可以将文件X分类到项目1,并将文件Y分类到项目3,作为利用基于本体信息的方法得到的第一分类结果。
以上给出了利用基于本体信息的方法进行对象分类的一个示例。当然,本领域技术人员容易理解,以上示例仅仅出于举例说明的目的,本发明的范围并不局限于上述示例。本领域技术人员可以根据应用需求利用已知的方法或自行设计适当的方法来实现基于本体信息进行对象分类的目的。
如上所述,利用基于本体信息的方法获得的分类结果有时可能是相对粗糙的,例如在与活动相关的类别层次结构非常复杂的情况下。因此,需要将分类结果进一步细化到更小的粒度。在本发明中,可以利用基于IR的对象分类来达到这一目的。图4A是更详细示出基于IR分类装置104的内部结构的框图,图4B是用于说明基于IR的对象分类过程的示意图。
如图4A所示,在该示例中,基于IR分类装置104包括关键字提取单元401和第二分类单元402。关键字提取单元401以通过类别层次结构输入装置101输入的类别层次结构作为输入,并提取出类别层次结构上的每个类别的语义相关的代表关键字。然后,在第二分类单元402处,以提取出的代表关键字作为媒介,利用基于向量空间模型(VSM)的方法或基于学习的方法计算每个对象与类别层次结构上的每个类别之间的相似性度量,并根据计算出的相似性度量,将对象分类到相似性最高的类别。
例如,参考图4B所示示例,在该示例中,作为类别层次结构上的一个类别的项目1被示出。关键字提取单元401例如可以从项目1提取出很多语义相关的代表关键字,例如瑞星、防火墙、病毒、anti-virus、anti-spam、安全性等等。然后,第二分类单元402可以通过比较各个对象(例如文件)1-9的文本内容与提取出的代表关键字,来利用基于VSM或基于学习的方法计算对象1-9与项目1以及其他项目之间的相似性,并将各个对象分类到与其最相似的类别(例如项目)。
假设,利用上述基于IR的方法,对于以上示例1的情况例如可以计算出对象X和Y被分类到各个项目的得分如下:
[表2:基于IR的方法]
项目1 | 项目2 | 项目3 | 项目4 | |
文件X | 0.25 | 0.25 | 0.3 | 0.2 |
文件Y | 0.35 | 0.25 | 0.1 | 0.3 |
在利用基于本体信息的方法和基于IR的方法分别得到分类结果之后,组合装置105将两者的分类结果相结合,以得到最终分类结果。下面将参考图5和6来描述组合装置105及其操作的一个示例。显而易见,分类结果的组合并不局限于图中所示示例,在随后的描述中将给出可以同样用于本发明的组合过程的一些其他示例。但是,这些示例仅仅出于举例说明的目的,而不希望作为对本发明的限制。
为了实现两种分类结果的组合,可以设想为基于本体信息的方法和基于IR的方法分配不同的权重,然后再通过对通过两种方法获得的得分加权求和来计算组合得分,并根据组合得分确定对象分类的最终结果。在图5所示示例中,可以设想以通过两种方法(即,基于本体信息的方法和基于IR的方法)获得的得分的归一化标准偏差作为相应分类方法的权重。本领域技术人员可以理解,针对利用某一分类方法将对象分类到不同类别所获得的得分,如果对应于不同类别的得分之间的差别很大,则容易将对象分类到具有较高得分的类别。相反,如果不同类别的得分之间的差别不大,则难以确定对象的正确分类。因此根据上述常识,可以合理地利用得分的标准偏差作为评价不同方法的权重。
参考图5,在该示例中,组合装置105包括阈值比较单元501、第一权重计算器502、第二权重计算器503、组合得分计算器504和对象分类器505。组合装置105的操作过程如图6的流程图所示。首先,根据基于本体信息的方法所获得的第一分类结果(得分)S_Onto(i)和基于IR的方法所获得的第二分类结果S_IR(i)以及用于分类的类别层次结构(例如文件夹)被提供到组合装置105。这里,i代表不同的类别。
在步骤601处,首先获取第一分类结果S_Onto(i)。在步骤602处,阈值比较单元501判断第一分类结果S_Onto(i)是否足够好。例如,阈值比较单元501可以将第一分类结果S_Onto(i)中的最高得分与一预定阈值(例如0.9)相比较,如果S_Onto(i)的最高得分大于该阈值,则说明利用基于本体信息的方法获得的分类结果足够理想。在此情况下,对象分类器505可以直接将第一分类结果S_Onto(i)作为最终分类结果并据此进行对象分类(步骤606)。另一方面,如果第一分类结果S_Onto(i)不够好(步骤602的“否”分支),则需要在步骤603中获取基于IR的方法获得的第二分类结果S_IR(i)。然后,在步骤604处,第一权重计算器502和第二权重计算器503分别计算针对基于本体信息的方法和基于IR的方法的第一方法权重W_Onto和第二方法权重W_IR。如上所述,在图5所示示例中,第一分类结果S_Onto(i)和第二分类结果S_IR(i)的得分的归一化标准偏差被用作相应方法的权重。当然,方法权重的计算并不局限于该示例,随后将对其他示例进行详细描述。
这里,针对图5所示示例,在此情况下,第一分类结果S_Onto(i)和第二分类结果S_IR(i)中的得分都是介于0和1之间的值,因此我们可以将其视为随机变量X。如果随机变量X的期望值(均值)μ=E(X),则X的方差计算如下:
相应地,其标准偏差为:
如上所述,在该示例中,两种分类结果的得分的归一化标准偏差被用作方法权重,即第一方法权重W_Onto和第二方法权重W_IR可以被计算如下:
W_Onto=SD(X_onto)/(SD(X_onto)+SD(X_ir))
(等式2)
W_IR=SD(X_ir)/(SD(X_onto)+SD(X_ir))=1-W_onto
(等式3)
随后,在步骤605处,组合得分计算器504可以计算组合得分如下:
S=W_onto×S_Onto+W_IR×S_IR
(等式4)
根据组合得分S,随后,在步骤606处,对象分类器505可以将对象分类到具有最高得分S的类别。
例如,再次参考以上表1和表2所给出的示例。对于文件X,通过表1和表2可以分别计算出SD(X_onto)和SD(X_ir)分别为0.293和0.032,从而计算第一方法权重W_Onto和第二方法权重W_IR如下:
W_Onto=0.293/(0.293+0.032)=0.901(性能好)
W_IR=1-0.901=0.099(性能差)
然后,可以计算出组合得分如下表:
[表3:组合得分]
项目1 | 项目2 | 项目3 | 项目4 | |
文件X | 0.7447 | 0.1158 | 0.1197 | 0.0198 |
根据以上组合得分,可以得到最终分类结果为将文件X分类到具有最高组合得分的项目(即类别)1。
计算第一方法权重W_Onto和第二方法权重W_IR的计算并不局限于上述示例。下面给处其他几个简要示例。当然,本领域技术人员根据本发明的原理,可以设计其他方案,用于分类结果的组合。
(一)输入类别层次结构和待分类的对象组,根据基于本体信息的分类结果的离散程度,来计算基于本体信息的方法的权重W_Onto,并据此权重W_Onto调整基于IR方法的权重W_IR。
考虑如下规则:
规则1:在给定项目的持续时间期间发送/接收或书写的文件。
规则2:由给定项目的主管发送/接收或书写的文件。
情况1:假设根据规则1,可以把文件X分类到类别(即项目)1-5(例如,因为项目1-5的持续时间都包括文件X的创建时间);根据规则2,可以把文件X分类到类别5-7(例如因为项目5-7的主管都是该文件的创建者);
情况2:假设根据规则1,可以把文件X分类到类别1-5,而根据规则2,可以把文件X分类到类别1-7。
在此情况下,显而易见情况1比较好,因为根据上述规则本体,可以容易地确定该文件X应该属于类别5。但是,对于情况2,只能确定该文件X属于类别1-5中的某一个。鉴于此,可以考虑根据所有有效规则本体产生结果的交集来确定基于本体信息的方法的优劣。即,结果交集越少说明分类结果的离散程度越高,也就是基于本体信息的方法越好,应该赋予其更高的权重。从而,方法权重W_Onto和第二方法权重W_IR可以计算如下:
W_Onto=权衡因子(1-交集数目/类别总数)
W_IR=1-W_Onto
作为示例,上述情况1中的交集数目为1,因此W_Onto=0.9×(1-1/7)=0.77,情况2中的交集数目为5,W_Onto=0.9×(1-5/7)=0.26。
(二)在仅输入类别层次结构,而未输入待分类的对象组的情况下,计算两种方法本身的优劣,并据此计算两种方法的权重W_Onto和W_IR。
首先分析基于IR方法,如果类别层次结构中各个类别的内容文本在语义上很相似,则基于IR的方法很难将输入文件进行很好的分类,所以可以考虑根据类别层次结构本身的特点来判断基于IR方法本身的优劣。也就是说,类别层次结构上的各个类别的文本差别越大,基于IR的方法将会越好。据此,可以对类别层次结构上所有类别的名称进行聚类,得到的类别越多,说明类别名称之间的差距越大,基于IR的分类将会越可靠。
然后分析基于本体信息的方法,如果类别层次结构上的类别的名称属于本体信息中的实例,并且各个类别属于不相关的结构时,说明基于本体信息的方法可以将文件较容易的分开。也就是说,基于本体信息的方法比较好,应该赋予其较高的权重。
(三)可以根据经验值,预先给出针对两种方法的固定的权重W_Onto和W_IR。例如,基于本体方法的权重W_Onto为0.7,基于IR方法的权重W_IR为0.3。
以上,为了简化说明,针对类别层次结构具有单层结构(即,单层类别节点)的情况详细描述了根据本发明的混合对象分类方案。但是,本发明也可被类似地应用到解决将对象组分类到多层结构的情况。例如,下面将参考图7和8描述将本发明应用到多层的类别层次结构的示例。
图7是示出根据本发明第二实施例的混合对象分类系统700的内部结构的框图,以及图8是用于说明具有多层结构的类别层次结构的等价结构变换的示意图。
在具有多层的类别层次结构中,例如如图8所示的多层文件夹结构,第i+1层类别节点可以是第i层类别节点的子类别。因此,在一种实现方式中,可以设想首先应用上面描述的混合对象分类方法将对象(例如文件)分类到某一第一层类别,然后再重复利用上述方法,在对象被分类到的第一层类别内进一步进行针对子类别的分类。以此类推,直到将对象分类到其所属的子类别。虽然在图8所示示例中仅仅示出具有两层节点的类别层次结构的情况,但是本领域技术人员容易理解,类别层次结构的多层结构并不局限于此。
实际上,在类别层次结构呈现多层结构的情况下,可以存在多种等价的层次结构。例如,如图8所示示例,通过改变类别层次结构的第一层类别节点,可以实现多种不同的层次结构。这里层次结构之间彼此等价。
在图7所示的实施例中,除了类似于图1所示第一实施例的组件之外,系统700还包括解析装置701和选择装置702。在类别层次结构输入装置101输入具有多层的类别层次结构之后,解析装置701首先对该层次结构进行解析,以得到多个等价的类别层次结构。然后选择装置702从作为候选的多个等价类别层次结构中选出一个最优类别层次结构,用于随后进行的对象分类。
对于最优类别层次结构的判断和选择,可以存在多种可行方式。这里仅仅出于举例说明的目的给出一个示例,并且不希望其作为对本发明的限制。
从用户的角度,一种好的类别层次结构应该能够容易地划分每个对象(例如文件)。作为示例,每个对象在被分类到每个类别时被赋予一个得分。可以设想,如果该对象针对所有类别的得分的范围很大,则意味着容易将其分类到类别之一。因此,可以设想使用得分的标准偏差来判断类别层次结构的优劣。
这里假设输入的多层类别层次结构如图8所示,即具有两层类别节点。可以利用以下示例性算法以迭代方式进行类别层次结构的选择:
1.针对每个作为候选的等价类别层次结构
a)将所有文件分类到该层次结构上的第一层类别节点。例如,这里可以使用基于本体信息和基于IR的混合对象分类方法。
b)计算每个对象的得分SF,这里SF是将该对象分类到每个类别时得到的所有得分S的标准偏差。
c)计算该类别层次结构的得分SS=mean(SF),即,层次结构得分被计算为所有对象的平均得分。
2.选择具有最大得分的等价类别层次结构作为最优类别层次结构,以用于随后的对象分类。
以上已经参考附图对根据本发明的混合对象分类方法与系统进行了详细描述。根据本发明,通过将基于本体信息的分类方法和基于IR的分类方法相结合,可以更加有效且精确的实现对象分类,并获得更小的分类结果粒度。如果基于本体信息的对象分类没有找到某一对象的元数据匹配,作为补充,基于IR的分类方法可以对其进行分类。相反地,即使某一对象在基于IR的分类方法中呈现出与多个类别具有同样的相似性,用户可以利用基于本体信息的方法对其给出更可靠的分类结果。
另外,在本发明所提出的基于本体信息的分类方法中,可以通过背景知识(其提供关于相应对象的上下文信息)与相应对象的元数据之间的映射来进行对象分类。另外,由于组织或企业中的各个用户都对本组织的背景知识有相当的了解,因此虽然不同用户所使用的类别层次结构可能有所不同,但是所有用户可以共享一组相同或类似的分类模式,其中每个分类模式对应于一个维度(例如时间、项目等等)。由于背景知识可以从多个角度反映出相应组织(例如企业)的情况,因此可以以多维的方式实现对象的分类。
虽然上面已经参考附图描述了根据本发明的具体实施例,但是本发明并不限于图中示出的特定配置和处理。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明的元素可以实现为硬件、软件、固件或者它们的组合,并且可以用在它们的系统、子系统、部件或者子部件中。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施例中所描述的算法可以被修改,而系统体系结构并不脱离本发明的基本精神。因此,当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。
Claims (32)
1.一种用于分类对象的方法,包括:
a)输入一组对象以及用于分类对象的类别层次结构;
b)获取领域相关的本体信息;
c)利用基于本体信息的方法将每个所述对象分类到所述类别层次结构中,以得到第一分类结果;
d)利用基于信息检索(IR)的方法将每个所述对象分类到所述类别层次结构中,以得到第二分类结果;以及
e)组合所述第一和第二分类结果以得到最终分类结果。
2.如权利要求1所述的方法,其中所述类别层次结构为单层结构,其包括一层类别节点。
3.如权利要求2所述的方法,其中所述第一分类结果是利用所述基于本体信息的方法将一对象分类到所述类别层次结构上的不同类别的得分S_Onto(i),所述第二分类结果是利用所述基于IR的方法将该对象分类到所述类别层次结构上的不同类别的得分S_IR(i),其中i表示类别。
4.如权利要求3所述的方法,其中所述组合步骤包括:
计算对应于所述基于本体信息的方法的第一方法权重W_Onto;
计算对应于所述基于IR的方法的第二方法权重W_IR;
计算组合得分S(i)=S_Onto(i)×W_Onto+S_IR(i)×W_IR;以及
将所述对象分类到具有最大所述组合得分的类别。
5.如权利要求4所述的方法,其中所述第一方法权重W_Onto和第二方法权重W_IR分别是利用所述基于本体信息的方法和所述基于IR的方法计算出的得分的归一化的标准偏差。
6.如权利要求4所述的方法,其中所述第一方法权重W_Onto表征所述基于本体信息的方法的分类结果的离散程度,并且所述第二方法权重W_IR=1-W_Onto。
7.如权利要求4所述的方法,其中所述第一方法权重W_Onto和所述第二方法权重W_IR是根据所述类别层次结构本身的语义特性来确定的。
8.如权利要求4所述的方法,其中所述第一方法权重W_Onto和所述第二方法权重W_IR是根据经验预先确定的固定权重。
9.如权利要求3所述的方法,其中如果利用所述基于本体信息的方法计算出的得分S_Onto(i)中的最大值大于预定阈值,则将所述对象分类到具有所述最大得分的类别,作为所述最终分类结果。
10.如权利要求3所述的方法,其中所述本体信息包括环境本体信息和规则本体信息。
11.如权利要求10所述的方法,其中所述基于本体信息的方法包括:
针对每个对象,根据所述环境本体信息提取出该对象的元数据;
根据所述环境本体信息,将所述对象的提取出的每个所述元数据本体化;
根据所述规则本体信息生成一组分类规则;以及
基于生成的所述分类规则与所述对象的经本体化的元数据之间的映射,计算将所述对象分类到所述类别层次结构上的不同类别的得分。
12.如权利要求11所述的方法,其中所述对象的元数据包括标题、创建者、时间、对象类型、发送者、接收者。
13.如权利要求3所述的方法,其中所述基于IR的方法包括:
分析所述类别层次结构以提取出每个类别所对应的代表关键字;
将输入的每个对象的文本内容与每个类别的代表关键字相比较,以计算所述对象与所述类别之间的相似性度量;以及
将所述相似性度量作为将所述对象分类到所述类别的得分。
14.如权利要求13所述的方法,其中计算相似性度量的步骤是利用基于向量空间模型(VSM)的方法或基于学习的方法来实现的。
15.如权利要求1所述的方法,其中所述类别层次结构为多层结构,其中第i+1层上的类别是第i层上的类别的子类别。
16.如权利要求15所述的方法,其中,在利用所述步骤c)、d)、e)将输入的对象分类到所述类别层次结构上的第i层上的类别之后,重复所述步骤c)、d)、e)以将已分类的对象进一步分类到第i+1层上的子类别。
17.如权利要求15所述的方法,还包括:
解析输入的所述类别层次结构以得到多个等价类别层次结构;以及
从所述多个等价类别层次结构中选择一个最优类别层次结构以用于分类。
18.如权利要求17所述的方法,其中所述最优类别层次结构是所述多个等价类别层次结构中使得对象针对不同类别的分类得分的方差最大的类别层次结构。
19.一种用于分类对象的系统,包括:
对象输入装置,用于输入一组对象;
类别层次结构输入装置,用于输入用于分类对象的类别层次结构;
本体信息库,用于存储领域相关的本体信息;
基于本体分类装置,用于利用基于本体信息的方法将每个所述对象分类到所述类别层次结构中,以得到第一分类结果;
基于IR分类装置,用于利用基于IR的方法将每个所述对象分类到所述类别层次结构中,以得到第二分类结果;以及
组合装置,用于组合所述第一和第二分类结果以得到最终分类结果。
20.如权利要求19所述的系统,其中所述类别层次结构为单层结构,其包括一层类别节点。
21.如权利要求20所述的系统,其中
所述基于本体分类装置利用所述基于本体信息的方法计算将一对象分类到所述类别层次结构上的不同类别的得分S_Onto(i),作为所述第一分类结果;并且
所述基于IR分类装置利用所述基于IR的方法计算将该对象分类到所述类别层次结构上的不同类别的得分S_IR(i),作为所述第二分类结果,其中i表示类别。
22.如权利要求21所述的系统,其中所述组合装置包括:
第一权重计算器,用于计算对应于所述基于本体信息的方法的第一方法权重W_Onto;
第二权重计算器,用于计算对应于所述基于IR的方法的第二方法权重W_IR;
组合得分计算器,用于计算组合得分S(i)=S_Onto(i)×W_Onto+S_IR(i)×W_IR;以及
对象分类器,用于将所述对象分类到具有最大所述组合得分的类别。
23.如权利要求22所述的系统,其中所述组合装置还包括:
阈值比较单元,用于将利用所述基于本体信息的方法计算出的得分S_Onto(i)中的最大值与预定阈值相比较,并且
如果所述阈值比较单元确定得分S_Onto(i)中的最大值大于所述预定阈值,所述对象分类器则将所述对象分类到具有所述最大得分的类别。
24.如权利要求21所述的系统,其中所述本体信息包括环境本体信息和规则本体信息。
25.如权利要求24所述的系统,其中所述基于本体分类装置包括:
元数据提取单元,用于针对每个对象,根据所述环境本体信息提取出该对象的元数据;
本体化单元,用于根据所述环境本体信息,将所述对象的提取出的每个所述元数据本体化;
规则生成单元,用于根据所述规则本体信息生成一组分类规则;以及
第一得分计算单元,用于基于生成的所述分类规则与所述对象的经本体化的元数据之间的映射,计算将所述对象分类到所述类别层次结构上的不同类别的得分。
26.如权利要求25所述的系统,其中所述对象的元数据包括标题、创建者、时间、对象类型、发送者、接收者。
27.如权利要求21所述的系统,其中所述基于IR分类装置包括:
关键字提取单元,用于分析所述类别层次结构以提取出每个类别所对应的代表关键字;以及
第二得分计算单元,用于将输入的每个对象的文本内容与每个类别的代表关键字相比较,以计算所述对象与所述类别之间的相似性度量,作为将所述对象分类到所述类别的得分。
28.如权利要求27所述的系统,其中所述第二得分计算单元利用基于向量空间模型(VSM)的方法或基于学习的方法来计算所述相似性度量。
29.如权利要求19所述的系统,其中所述类别层次结构为多层结构,其中第i+1层上的类别是第i层上的类别的子类别。
30.如权利要求29所述的系统,其中,在所述基于本体分类装置、所述基于IR分类装置和所述组合装置将输入的对象分类到所述类别层次结构上的第i层上的类别之后,所述基于本体分类装置、所述基于IR分类装置和所述组合装置重复操作,以将已分类的对象进一步分类到第i+1层上的子类别。
31.如权利要求29所述的系统,还包括:
解析装置,用于解析从所述类别层次结构输入装置输入的所述类别层次结构以得到多个等价类别层次结构;以及
选择装置,用于从所述多个等价类别层次结构中选择一个最优类别层次结构以用于分类。
32.如权利要求31所述的系统,其中所述最优类别层次结构是所述多个等价类别层次结构中使得对象针对不同类别的分类得分的方差最大的类别层次结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810134793A CN101639837B (zh) | 2008-07-29 | 2008-07-29 | 用于自动分类对象的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810134793A CN101639837B (zh) | 2008-07-29 | 2008-07-29 | 用于自动分类对象的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101639837A true CN101639837A (zh) | 2010-02-03 |
CN101639837B CN101639837B (zh) | 2012-10-24 |
Family
ID=41614821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200810134793A Expired - Fee Related CN101639837B (zh) | 2008-07-29 | 2008-07-29 | 用于自动分类对象的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101639837B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101944099A (zh) * | 2010-06-24 | 2011-01-12 | 西北工业大学 | 一种使用本体进行文本文档自动分类的方法 |
CN103092931A (zh) * | 2012-12-31 | 2013-05-08 | 武汉传神信息技术有限公司 | 多策略结合文档自动分类方法 |
CN103218356A (zh) * | 2012-01-18 | 2013-07-24 | 深圳市腾讯计算机系统有限公司 | 一种面向开放平台的提问质量判定方法和系统 |
WO2014064527A1 (en) * | 2012-10-25 | 2014-05-01 | Headland Core Solutions Limited | Message scanning system and method |
CN105528356A (zh) * | 2014-09-29 | 2016-04-27 | 阿里巴巴集团控股有限公司 | 结构化标签生成方法、使用方法及装置 |
CN105868272A (zh) * | 2016-03-18 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 多媒体文件分类方法及装置 |
CN106874279A (zh) * | 2015-12-11 | 2017-06-20 | 腾讯科技(深圳)有限公司 | 生成应用类别标签的方法及装置 |
CN107577760A (zh) * | 2017-09-01 | 2018-01-12 | 北京神州泰岳软件股份有限公司 | 一种基于约束规范的文本分类方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1438592A (zh) * | 2003-03-21 | 2003-08-27 | 清华大学 | 一种文本自动分类方法 |
CN1252635C (zh) * | 2004-01-16 | 2006-04-19 | 清华大学 | 中文文本自动分类用的特征降维方法 |
-
2008
- 2008-07-29 CN CN200810134793A patent/CN101639837B/zh not_active Expired - Fee Related
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101944099A (zh) * | 2010-06-24 | 2011-01-12 | 西北工业大学 | 一种使用本体进行文本文档自动分类的方法 |
CN103218356A (zh) * | 2012-01-18 | 2013-07-24 | 深圳市腾讯计算机系统有限公司 | 一种面向开放平台的提问质量判定方法和系统 |
CN103218356B (zh) * | 2012-01-18 | 2017-12-08 | 深圳市世纪光速信息技术有限公司 | 一种面向开放平台的提问质量判定方法和系统 |
WO2014064527A1 (en) * | 2012-10-25 | 2014-05-01 | Headland Core Solutions Limited | Message scanning system and method |
CN103092931A (zh) * | 2012-12-31 | 2013-05-08 | 武汉传神信息技术有限公司 | 多策略结合文档自动分类方法 |
CN105528356A (zh) * | 2014-09-29 | 2016-04-27 | 阿里巴巴集团控股有限公司 | 结构化标签生成方法、使用方法及装置 |
CN105528356B (zh) * | 2014-09-29 | 2019-01-18 | 阿里巴巴集团控股有限公司 | 结构化标签生成方法、使用方法及装置 |
CN106874279A (zh) * | 2015-12-11 | 2017-06-20 | 腾讯科技(深圳)有限公司 | 生成应用类别标签的方法及装置 |
CN106874279B (zh) * | 2015-12-11 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 生成应用类别标签的方法及装置 |
CN105868272A (zh) * | 2016-03-18 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 多媒体文件分类方法及装置 |
CN107577760A (zh) * | 2017-09-01 | 2018-01-12 | 北京神州泰岳软件股份有限公司 | 一种基于约束规范的文本分类方法及装置 |
CN107577760B (zh) * | 2017-09-01 | 2019-12-17 | 中科鼎富(北京)科技发展有限公司 | 一种基于约束规范的文本分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101639837B (zh) | 2012-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101639837B (zh) | 用于自动分类对象的方法和系统 | |
Basavaraju et al. | A novel method of spam mail detection using text based clustering approach | |
Ghosh et al. | A tutorial review on Text Mining Algorithms | |
US8620922B2 (en) | Generating a taxonomy for documents from tag data | |
CN105719191B (zh) | 多尺度空间下不确定行为语义的社交群体发现方法 | |
Kovacevic et al. | Using data mining to improve digital library services | |
Ignatov et al. | Can triconcepts become triclusters? | |
Gao et al. | Personalized service system based on hybrid filtering for digital library | |
Franzoni et al. | PMING distance: a collaborative semantic proximity measure | |
CN106815310A (zh) | 一种对海量文档集的层次聚类方法及系统 | |
Ferreira et al. | A tool for generating synthetic authorship records for evaluating author name disambiguation methods | |
Yerva et al. | Quality-aware similarity assessment for entity matching in Web data | |
Shyu et al. | Category cluster discovery from distributed www directories | |
Java et al. | Detecting commmunities via simultaneous clustering of graphs and folksonomies | |
Garcia et al. | Comparative evaluation of link-based approaches for candidate ranking in link-to-wikipedia systems | |
Elhebir et al. | A novel ensemble approach to enhance the performance of web server logs classification | |
US8819023B1 (en) | Thematic clustering | |
Shastri et al. | Development of a data mining based model for classification of child immunization data | |
Sun et al. | Distance dynamics based overlapping semantic community detection for node‐attributed networks | |
Musaev et al. | Rex: Rapid ensemble classification system for landslide detection using social media | |
Nuray-Turan et al. | Self-tuning in graph-based reference disambiguation | |
LR et al. | A Clustering Based Social Matrix Factorization Technique for Personalized Recommender Systems | |
Abdullah et al. | Tracing significant association rules using critical least association rules model | |
Bui et al. | On the utility of abstraction in labeling actors in social networks | |
Sreedevia et al. | Prediction of fake tweets using machine learning algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20121024 Termination date: 20160729 |