CN100538695C - 构造、维护个性化分类树的方法及系统 - Google Patents

构造、维护个性化分类树的方法及系统 Download PDF

Info

Publication number
CN100538695C
CN100538695C CNB2004100546318A CN200410054631A CN100538695C CN 100538695 C CN100538695 C CN 100538695C CN B2004100546318 A CNB2004100546318 A CN B2004100546318A CN 200410054631 A CN200410054631 A CN 200410054631A CN 100538695 C CN100538695 C CN 100538695C
Authority
CN
China
Prior art keywords
mentioned
document
category node
classification tree
personalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2004100546318A
Other languages
English (en)
Other versions
CN1725213A (zh
Inventor
刘世霞
杨力平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CNB2004100546318A priority Critical patent/CN100538695C/zh
Priority to US11/188,194 priority patent/US7865530B2/en
Publication of CN1725213A publication Critical patent/CN1725213A/zh
Application granted granted Critical
Publication of CN100538695C publication Critical patent/CN100538695C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了构造个性化分类树的方法、维护个性化分类树的方法、利用个性化分类树分类显示文档的方法,以及个性化分类系统。该个性化分类树是包含至少一个类节点的分类树,该构造个性化分类树的方法包括:独立地创建上述至少一个类节点的每一个时包括以下步骤:为该类节点定义一个名字;以及为该类节点指定至少一个关键词。

Description

构造、维护个性化分类树的方法及系统
技术领域
本发明涉及数据处理技术,具体地,涉及个性化分类树的构造和利用该个性化分类树对文档进行分类的技术。
背景技术
对于企业和个人来说,都存在对其拥有的信息文档进行分类存放的问题。尤其对于拥有大量信息文档的企业和处理各种文档的个人来说,将这些文档按类有规则地存放对其工作效率来说无疑会是有利的。现在已经有许多统计分类方法被成功地应用于实际文档分类中,这些方法如支持向量机(Support Vector Machine,SVM)、K-最邻近分类法(K-NearestNeighbor,KNN)、判定树(Decision Trees)、Naive Bayesian方法等。利用这些统计方法,文档分类的准确性和查全率可以达到85%以上。
在传统文档分类技术中,在进行文档分类之前,要由领域专家定义出分类树,并对分类树中的每一个类节点都要用一组人工标记的文档的训练集来进行定义。然后,利用训练文档集构造相应的分类器。最后利用分类器对待分类的文档进行自动分类。但是,传统分类方法的准确性是依赖于训练集中训练样本的数量和质量的。
Yiming Yang和Xin Liu在Proceedings of ACM SIGIR Conference onResearch and Development in Information Retrieval(SIGIR′99,pp42—49,1999)上发表的文章“A re-examination of text categorizationmethods”中对包括SVM(支持向量机)、KNN(最邻近)、LLSF(线性最小平方拟合)、NN(神经网络)、和NB(Naive Bayesian)在内的五种统计分类方法进行了测试。如该文章中所记载的,利用Reuters-21578的测试表明对于包含训练样本较多的类别(具有300个以上的训练样本),上述方法可达到很高准确性和查全率,而对于包含训练样本较少的类别(具有低于10个的训练样本)来说,上述方法具有很低的准确性和查全率。
在实际应用中,分类树中各个类中训练样本的分布往往并不均衡,有的类节点只有很少的训练样本。根据该篇文章的统计,利用ApteMod版本,最普通(常用)的类别为“earn”,其具有2,877篇训练文档,但是有82%的类别具有100个以下的实例,33%的类别具有10个以下的实例。如该文章中所记载的,对上述方法的测试结果表明它们的性能是训练集类频度(training-set category frequency)的函数。对于那些具有10个以下的训练文档大小的类别,其F值(F-meausure)测量只达到0.2以下,而对于那些具有高于2000的训练集频度的类别,其测量可达到0.9或更高。从以上可以看出,在具有较小训练集的情况下,统计方法不能够很好地工作。
此外,所有上述算法都是以预定义的分类树为基础的,这些分类树结构完善,并且分类树中每一类都被人工配置了几十个或上百个训练样本。然而,无论预定义的分类树其结构如何复杂,任何由专家定义的特定分类树都不可能完全达到用户所需的详细程度。在大多数情况下,普通用户将分类树当作硬盘上的文件夹层次结构,希望能够象对待文件夹一样对分类树进行自定义的个性化管理。因此,一般应用系统应该允许用户任意定义其个性化分类树,而且在这样的分类树中用户应该还可以引入语义的不一致性。例如,用户首先定义了一个子树:
IBM → ⟨ PC Server ,
并希望能够将与IBM产品有关的文档放入这一子树中,即将与IBM PC有关的文档放入类“PC”中,将与IBM Server有关的文档放入类“Server”中。但是,随着时间的推移,用户希望将关于DELL PC的一些文档收集到类“PC”中。然而,这一操作将语义不一致性引入到了这一个性化分类树中。传统分类方法是不能将语义不一致的关于DELL PC的文档引入到类“PC”中的,因此不能实现这样的个性化分类树。
因此,用户希望能够任意创建类似自己文件夹层次结构的个性化分类树,并将满足自己需求的语义结构自由映射到这一个性化分类树上,而不必受到传统的语义一致性的限制,同时,还希望不需要自己手工完成冗长的、耗费时间和精力的大量训练样本的指定工作,从而实现满足个人需求的个性化文档分类。
发明内容
为了解决上述现有技术中存在的问题,本发明提出了构造、维护个性化分类树、利用个性化分类树分类显示文档的方法以及个性化分类系统,从而使用户能够通过定义满足个人需求的个性化分类树,实现个性化的文档分类,并且无须手工标记大量的训练文档集和考虑语义不一致性的问题。
根据本发明的一个方面,提供了一种构造个性化分类树的方法,上述个性化分类树是包含至少一个类节点(category node)的分类树,独立地创建上述至少一个类节点的每一个时包括步骤:为该类节点定义一个名字;以及为该类节点指定至少一个关键词(keyword)。缺省地,该类的名字就是该类的一个关键词。在创建上述至少一个类节点的每一个时还包括以下步骤:为该类节点指定至少一个特征文档(feature file)。
根据本发明的另一个方面,提供了一种构造个性化分类树的方法,上述个性化分类树是包含至少一个类节点的树,在创建上述至少一个类节点的每一个时包括步骤:利用至少一个关键词查找文档;从查找结果中选择至少一个文档;为该类节点定义一个名字;将上述查找使用的关键词指定作为该类节点的关键词;以及将上述选中的至少一个文档指定作为该类节点的特征文档。
根据本发明的另一个方面,提供了一种维护个性化分类树的方法,上述个性化分类树是包含至少一个类节点的分类树,上述至少一个类节点的每一个包含一个名字和至少一个关键词,该方法包括:对于上述至少一个类节点的每一个,利用该类节点中包含的上述至少一个关键词查找文档;从查找结果中选择至少一个文档作为该类节点的特征文档;以及根据上述至少一个特征文档,进行主题跟踪增加与该类节点相关的文档。
根据本发明的另一个方面,提供了一种维护个性化分类树的方法,上述个性化分类树是包含至少一个类节点的分类树,上述至少一个类节点的每一个包含一个名字、至少一个关键词和至少一个特征文档,该方法包括:对于上述至少一个类节点的每一个,根据上述至少一个特征文档,进行主题跟踪增加与该类节点相关的文档。
根据本发明的另一个方面,提供了一种利用个性化分类树分类显示文档的方法,上述个性化分类树是包含至少一个类节点的树,上述至少一个类节点的每一个包含一个名字、至少一个关键词、至少一个特征文档和属于该类节点的相关文档,该方法包括步骤:选择上述个性化分类树中的一个类节点;以及显示属于该类节点的相关文档。
根据本发明的另一个方面,提供了一种个性化分类系统,包括:分类树编辑器,用于创建并修改个性化分类树,其中,上述个性化分类树是包含至少一个类节点的分类树,其中,创建上述至少一个类节点的每一个包含为该类节点定义一个名字、为该类节点指定至少一个关键词和为该类节点指定至少一个特征文档;类节点编辑器,用于配置上述个性化分类树中的类节点;爬行器(crawler),用于从指定的信息源获取文档;以及个性化分类器,用于将由上述爬行器获取的文档分类到上述个性化分类树中。
附图说明
相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明一个实施例的构造个性化分类树的方法的流程图;
图2是根据本发明另一实施例构造个性化分类树中每一节点的方法的流程图;
图3是根据本发明一个实施例的维护个性化分类树的方法的流程图;
图4是显示了根据本发明一个实施例的维护个性化分类树的方法中针对一个类节点进行主题跟踪以增加相关文档的详细步骤的流程图;
图5是用于说明文档长度规范化的图;
图6是根据本发明一个实施例的利用个性化分类树分类显示文档的方法的流程图;
图7A~7C示出了本发明利用个性化分类树分类显示文档的方法中在不同显示模式下的文档显示结果;
图8是根据本发明一个实施例的个性化分类系统的方框图。
具体实施方式
下面就结合附图对本发明的各个优选实施例进行详细的说明。
如前面所述,在传统文档分类方法中都是由领域专家来构造分类树,并为分类树中的每一类选择大量训练文档集,从而利用训练集对新文档进行语义鉴定以将其归到分类树中的各类中,这样的分类树遵守语义一致性,不允许用户引入语义的不一致性。此外,这类已由专家定义的分类树对于用户想要创建自己的个性化类别存在很大的困难,因为用户需要为定义的新类选择大量的训练文档,这对于非语言学专家的普通用户来说是困难的且其分类的准确性也没有保证。因此,如果能够使用户可以根据自己的需求构造个性化分类树,并利用该树在没有训练样本或小样本的情况下,对文档进行自动的分类和管理,则会为用户省去很多烦琐的文档管理工作。
传统的分类树把各个文档及它们之间的联系以树的形式组织在一起,父子节点之间是包含关系并且父子节点之间具有严格的语义限定关系,训练时是相互依赖的,对子节点的限定包含对其父节点的语义限定,即,父节点包含属于子节点的全部文档。这就保证了分类树的语义一致性。而在本发明中,父子节点分别进行独立的限定,语义相对独立,通过不同的视图、文档组织/定制/过滤,来满足用户浏览和查找文档的需要。亦即,根据本发明的分类树中,父子节点的路径组织形式是父子关系,但父子节点的限定和内容是相互独立的。
构造个性化分类树的方法
根据本发明的一个方面,提供了一种构造个性化分类树的方法。下面就结合附图对该方法进行详细说明。
图1是根据本发明一个实施例的构造个性化分类树的方法的流程图。本发明的个性化分类树允许存在语义的不一致性,因此在构造该个性化分类树时可以不用考虑子节点与父节点的一致性问题,以同样的步骤创建每一个类节点。
如图1所示,本实施例的构造个性化分类树的方法开始后,首先在步骤105进行初始化工作,创建一个只包含根节点的分类树。
接着在步骤110,向上述个性化分类树中增加一个类节点。
接着在步骤115,为该新类节点定义一个名字。该名字应该能够表现该节点的类别特征,类似于文件夹的名字。
接着在步骤120,为该新类节点指定至少一个关键词。优选地,该类的名字就被作为该类的一个关键词。类节点的关键词用于描述该类节点的主题内容,如后面所述,可以利用该关键词查找与该类节点相关的文档和该类节点的特征文档。
接着在步骤125,为该新类节点指定信息源。该信息源用于表明该类节点的相关文档的来源,例如,可以是URL、路径、IP地址或计算机名等等。需要指出的是,可以为一个类节点指定一个信息源,也可以为其指定多个信息源,而且多个类节点也可共用一个信息源。当未对新类节点指定信息源时,该类节点的信息源缺省继承其父节点的信息源。
接着在步骤130,为该新类节点指定至少一个特征文档。本发明中,特征文档是与该类节点相关性很高的、最能体现该类内容的文档,相当于传统分类方法中的训练样本。但是与传统分类方法不同之处在于,本发明的特征文档的数量可以大大小于传统分类方法中的训练样本的数量(例如,用户可以只需要选出3至5个样本),因而可以节省用户指定特征文档的时间。
接着在步骤135,判断对该个性化分类树的构造任务是否完成,如果还需要增加新的类节点,则返回到步骤110,重复前面描述的步骤110至130,在个性化分类树中增加新的节点。
如果在步骤135中判断为构造任务完成,则该方法在步骤140结束。
采用本实施例的利用本实施例的构造个性化分类树的方法,由于不考虑父节点与子节点之间的一致性,因此可以简单地、同等地创建每一个类节点,因此即是作为非语言专家的普通用户也可以方便地完成。而且,按照本实施,用户不需要指定大量的训练样本,从而可以减少工作量。
进而,根据本实施例的一个变形例,也可以省略步骤125和/或步骤130,即,不为每个节点指定信息源和特征文档。其中信息源可以是整个分类树指定一样的信息源或者子节点使用父节点的信息源,特征文档可以在后面描述的维护个性化分类树的过程中来选定。或者不指定信息源,而将用户能够访问或者有权限访问的信息源作为节点的信息源,也可以不选定特征文档,而将用户经常访问的文档作为特征文档或者仅使用关键词来进行分类。这样,可以进一步节省用户构造个性化分类树的工作量。
图2是根据本发明另一实施例构造个性化分类树中每一节点的方法的流程图。本实施例构造个性化分类树的方法与上述实施例构造个性化分类树的方法的不同之处在于每个类节点的创建过程不同。本实施例个性化分类树中每个类节点的创建是在用户检索文档的同时完成的。
如图2所示,首先在步骤205,用户利用一个或多个关键词从信息源查找文档。具体地,用户可以利用关键词在一个本地或网络路径下查找包含该关键词的文档,也可以是,例如,用户在一个搜索引擎中输入关键词来进行相关文档的查询。
接着在步骤210,从上一步骤的查找结果中选择至少一个文档。具体地,用户可以通过浏览查找到每个文档的摘要或正文来,选择一个或多个希望得到的文档。
接着在步骤215,向个性化分类树中增加一个类节点。用户可以在该个性化分类树中的任意一个希望的位置增加一个类节点。
接着在步骤220,为该类节点定义一个名字,以作为该类的标记。
接着在步骤225,将步骤205中查找所用的关键词指定作为该类节点的关键词。
接着在步骤230,将在步骤210中选中的文档指定作为该类节点的特征文档。
然后在步骤235,为该类节点指定信息源。该信息源可以是前面步骤205中查找文档的路径,或者如果用户通过搜索引擎进行查询时可以是搜索到的文档所在的URL或路径等等。当然,也可以为该类节点指定多个信息源,例如当查询到的文档来自不同的地方时。
以上,结合附图1和2对本发明实施例的构造个性化分类树的方法进行了描述。应当指出,在增加新节点时,子节点可以继承父节点的属性,例如,信息源、关键词等,也可以为分类树设定共同的属性,如信息源。
通过以上的描述可知,由于在构造个性化分类树时对其中的每个类节点都是依各自需求单独创建的,各个类节点之间都是平等互不依赖的关系,因此利用上述实施例构造出的个性化分类树不存在类节点之间的语义约束问题,因而允许语义不一致性的存在。此外,因为对每个类节点无需指定或只需指定很少几篇特征文档,而无需象传统分类树那样要由语言学专家来指定大量的训练样本集,因而大大简化了分类树的构造过程,节省了大量的人力和宝贵的时间。
此外,因为上述个性化分类树中可为每个类节点分别指定信息源并且一个类节点可以具有多个信息源,因此进一步方便了用户来使用个性化分类树管理文档。
此外,在上一实施例中,还可以在用户进行文档检索的同时完成向个性化分类树中增加新类节点的工作,从而将用户检索与个性化分类树的创建结合起来,这样进一步简化了用户的工作。
维护个性化分类树的方法
在同一发明构思下,根据本发明的另一个方面,提供了一种维护个性化分类树的方法,该个性化分类树可以是例如由前面所述的构造个性化分类树的方法生成的。下面就结合附图对该方法进行说明。
图3是根据本发明一个实施例的维护个性化分类树的方法的流程图。需要说明的是,本实施例适用于,个性化分类树是由前面所述构造个性化分类树的方法所生成的,其包含至少一个类节点,且每个类节点包含一个名字、至少一个关键词以及用于表明该类节点的相关文档来源的信息源。
如图3所示,首先在步骤305,从上述个性化分类树中选择一个类节点。由于本发明中个性化分类树中父节点与子节点之间是相对独立的,没有严格的语义约束关系,因此,在维护该个性化分类树时,可以按照任意的顺序来逐一地选择类节点进行处理,例如,可以是按照深度优先或宽度优先的顺序,或者其他的顺序。
接着在步骤310,对于选中的该类节点,利用关键词从该类节点指定的信息源查找相关文档。
接着在步骤315,从上一步骤的查找结果中选择至少一个文档作为该类节点的特征文档。
接着在步骤320,根据上述至少一个特征文档,该类节点指定的信息源中的文档进行主题跟踪(topic tracking)、增加该类节点的相关文档。在现有技术中,已知有多种主题跟踪的方法,例如Martin Franz等人在文章“Unsupervised and Supervised Clustering for Topic Tracking”(NAACL-2001)中提出的主题跟踪方法,以及J.G.Fiscus等人在文章“NIST’s 1998 Topic Detection and Tracking Evaluation(TDT2)”(发表于Proceedings of the DARPA Broadcast News Workshop,1999)中所述的主题跟踪方法等等,这里将其全文引入在此作为参考。后面将结合附图对该跟踪方法进行详细描述。
接着在步骤325,判断对该个性化分类树的维护工作是否完成,如果还需要对该分类树中其他节点进行维护,则该方法前进到步骤330。在步骤330,选择该个性化分类树中需要进行维护的下一类节点,该方法返回到步骤310重复前面所述的步骤310至步骤325。
如果步骤325的判断结果为全部节点已经处理完成,则该方法在步骤335结束。
另外,根据本实施例的一个变形例,上述个性化分类树中的类节点已经指定了特征文档,则对该节点的维护过程中可以省略步骤310和步骤315,而直接根据指定的特征文档进行主题跟踪。
另外,根据本实施例的另一个变形例,没有为上述个性化分类树中的每个类节点指定信息源,则对该节点的维护过程中可以针对一个共同的信息源下的文档来进行文档查找和/或主题跟踪。
图4显示了根据本发明一个实施例的维护个性化分类树的方法中针对一个类节点进行主题跟踪以增加相关文档的详细步骤。
如图4所示,首先在步骤405,从类节点的特征文档中提取关键词。具体地,例如可以采用tf(term frequency)方法或者tf-idf(termfrequency—inverse document frequency)方法等。tf方法就是按照每个关键词在该文档中出现的次数来排序计算权重。tf-idf方法则是通过计算tf×idf来确定每个关键词的权重,if是该词在该文档中的出现的频率(次数),idf=all_sentences/term_sentences其中,all_sentences是该文档中全部句子的数量,term_sentences是其中包含该词的句子的数量。然后,根据以上计算结果提取出权重高的一个或多个关键词。
接着在步骤410,在类节点指定的信息源中选取一个文档。
接着在步骤415,利用上述从特征文档中提取出的至少一个关键词以及该类节点内包含的关键词,对该类节点信息源中的该文档进行长度规范化。
由于各种文档的结构和长度不同,有时一篇文档会会在不同的部分包含与希望的主题相关的内容和不相关的内容,这种情况下,如果直接对该文档计算与特征文档的主题相关程度,往往会导致计算出的相关程度很低,从而漏掉本应当选中的相关文档。为此,本实施例中,利用上述从特征文档中提取出的关键词以及该类节点指定的关键词,对该类节点信息源中的该文档进行长度规范化,来克服上述问题。
图5是用于说明文档长度规范化的图。如图5所示,具体来说,对文档进行长度规范化是将该上述的每个关键词都看作是一个种子(seed)。对于在该文档中出现的每个种子,从该文档中提取出包含该种子的周围文本(surrounding text),这里所提取的周围文本的基本单元是该文档中包含种子的段落。然后,将提取出来的各个周围文本组合起来作为该文档的长度规范化后的结构。这样文本中与希望主题无关的部分就本排除出去了。
接着在步骤420,计算长度规范化后的上述文档与该类节点中特征文档的主题相关程度。
具体地,可以使用多种方法来计算主题相关程度,例如前面提到的现有技术文件中所描述的那样。本实施例中,使用Okapi公式来计算第一和第二文档主题相关程度,即
Ok ( d 1 , d 2 ) = Σ w ∈ d 1 ∩ d 2 t w 1 t w 2 λ ( w , μ )
其中,d1表示第一文档,d2表示第二文档,
Figure C200410054631D00172
是词w在文档i中的调整词频, t w i = t w i ‾ α + t w i ‾ ,
Figure C200410054631D00174
词w在文档i中的词频,α是调整系数,用于调整词频最大值与最小值之间的差距;μ是节点中所包含的特征文档集合;λ(w,μ)=idf0(w)+Δλ(w,μ),idf0(w)词w的反向文档频率,Δλ(ω,μ)主要用于比较两个文档集合的相似程度,这两个文档集合分别是:Dw,包含词w的文档集合;以及一个类节点中所包含的特征文档集合μ。
Δλ ( w , μ ) = λ 0 2 n w , μ n w + n μ , 其中,nw是包含词w的文档总数,nμ是一个类节点中所包含的特征文档总数,nw,μ是文档集合μ中包含词w的文档总数;λ0是一个可调整的比例系数,用于调整Δλ(w,μ)项目的重要程度。
接着在步骤425,判断该文档与该类节点中特征文件之间的主题相关程度是否大于一个第一指定阈值。该第一指定阈值可以为例如40%。若判断为“是”,则该方法进行到步骤430,将该文档作为相关文档加入到该节点之下;否则,该方法进行到步骤445。
在步骤430之后执行步骤435,判断该文档与该类节点中特征文件之间的主题相关程度是否大于一个第二指定阈值,该第二指定阈值大于第一指定阈值,例如为60%。如果判断为“是”,则该方法进行到步骤440,增加该文档作为该类节点的特征文档;否则,该方法进行到步骤445。
然后在步骤445,判断该类节点信息源中的所有文档是否都已处理完成。若还有未处理的文档,则该方法前进到步骤450,选取该信息源中的下一个文档并返回到步骤415重复前面描述的过程处理该文档;否则,该方法在步骤455结束。
进而,根据本实施例的一个变形例,可以不对被处理的文档进行长度规范化,因此,步骤405、415可以省略。
另外,根据本发明的另外一个实施例,在对个性化分类树的维护过程中,还判断节点下特征文档是否大于一个预定数量,例如100篇,如果是,则可以采用传统的统计分类方法来进行维护。
通过以上的描述可知,对个性化分类树的维护是通过每个类节点直接从信息源获取相关文档来实现,因此,类节点之间可以不考虑在语义约束的问题。而且,不需要指定或只需指定很少几篇特征文档即可进行文档的分类。
此外,本实施例的维护个性化分类树的方法在进行节点维护即文档分类的同时,还可以不断扩充类节点的特征文档的数量,从而自动调整对主题跟踪,使文档的分类精度也逐渐提高。
再者,上述维护个性化分类树的方法当个性化分类树中类节点的特征文档的数量达到一定数量时,便可使用传统的分类方法,因此,本实施例的方法还可作为传统分类方法中当类节点中训练样本数量较少时的补充方法。
利用个性化分类树分类显示文档的方法
在同一发明构思下,根据本发明的另一个方面,提供了一种利用个性化分类树分类显示文档的方法。下面就结合附图对该方法进行说明。
图6是本发明一个实施例的利用个性化分类树分类显示文档的方法的流程图。其中的个性化分类树可以是例如由前面所述的构造个性化分类树的方法生成的、并由前面所述维护个性化分类树的方法所维护的个性化分类树。该个性化分类树至少包含一个类节点,且每一个类节点包含名字、关键词、特征文档和属于该类节点的相关文档。
如图6所示,首先在步骤605,选择个性化分类树中的一个类节点。
接着在步骤610,选择显示模式。即用户利用输入设备选择文档的显示模式。本实施例中,文档显示模式包括:普通模式(Common view)、下级模式(Lower view)、上级模式(Upper view)、和限制模式(Limitedview)。缺省地以“普通模式”向用户显示选定类节点中的相关文档。其中,在“普通模式”中,只显示属于选中类节点的相关文档;在“下级模式”中,显示属于选中类节点的相关文档和属于该类节点的子节点的相关文档,如图7B所示;在“上级模式”中,显示属于选中类节点的相关文档和属于该类节点的父节点的相关文档,如图7A所示;在“限制模式”中,则排除属于该类节点的子节点的相关文档,如图7C所示。
需要说明的是,上述几种显示模式可以组合使用来显示相关文档。例如当组合选择“上级模式”和“限制模式”时,如图7C所示,则可以向传统的分类树一样语义严格地分类显示文档。
具体地,在步骤615,判断用户是否选择了“下级模式”。如果是,则执行步骤625,显示属于该类节点的相关文档和属于该类节点的子节点的相关文档。
接着在步骤620,判断用户是否选择了“上级模式”。如果是,则执行步骤630,显示属于该类节点的相关文档和属于该类节点的父节点的相关文档。
接着在步骤635,判断用户是否选择了“限制模式”。如果是,则执行步骤640,将属于该类节点的子节点的相关文档从显示的文档列表中排除出去。
最后该方法在步骤645结束。当然,上述步骤也可以被重复执行,从而允许用户不断选择类节点来分类显示文档。
另外,本实施例中除了向用户显示符合条件的文档列表之外,还可显示该列表中选定文档的摘要信息。同时,文档列表还以相关文档与该类节点中特征文档之间的相关程度的大小顺序显示列表中的文档。
通过以上的描述可知,本实施例的利用个性化分类树分类显示文档的方法可以利用前面描述的个性化分类树对相关文档进行分类显示。并且,利用本实施例提供的多种显示模式,可以以多种方式组织相关文档进行显示;进而还可以弥补上述个性化分类树中的不一致性。
个性化分类系统
在同一发明构思下,根据本发明的另一个方面,提供了一种个性化分类系统。下面就结合附图对该系统进行说明。
图8是根据本发明一个实施例的个性化分类系统的方框图。如图8所示,本实施例的个性化分类系统800包括:分类树编辑器801、类节点编辑器802、爬行器803、个性化分类器804、分类显示装置806、分类树存储装置807。
其中,分类树编辑器801用于创建和修改个性化分类树,例如,添加类节点、删除类节点、和修改树结构等。
类节点编辑器802,用于配置上述个性化分类树中的类节点,例如,为节点定义名字、关键字、特征文档、和信息源等。当用户未指定一个类节点的关键字、特征文档、和信息源时,该类节点编辑器缺省地还可以继承该类节点父节点的设置。
爬行器803,用于从指定的信息源获取文档。该爬行器803可以是现有技术中已知的网络爬行器。当个性化分类树中的每个类节点指定了信息源时,爬行器803则可以从各个类节点指定的信息源获取文档。
个性化分类器804,用于将由上述爬行器803获取的文档分类到上述个性化分类树中。根据本实施例,个性化分类器804进一步包括:关键词提取单元8042、长度规范化单元8044、相关性计算单元8046。
其中,关键词提取单元8042,用于从指定的特征文档中提取关键词。长度规范化单元8044,用于根据关键词对文档进行长度规范化。相关性计算单元8046,用于计算被处理的文档与特征文档集之间的主题相关程度,例如,可以使用前面描述的Okapi算法。进而,个性化分类器804可以根据该主题相关程度来确定是否将该文档分类到该节点中,此外,还可以根据其主题相关程度来确定是否将该相关文档加为该节点的特征文件。
分类显示装置806,用于利用上述个性化分类树分类显示相关文档。在本实施例中,分类显示装置806可以以前面描述的各种显示模式,来显示相关文档。
分类树存储装置805,用于存储上述个性化分类树,包括:例如,每个类节点中的属性信息及该节点的相关文档、特征文档等。
通过以上的描述可知,利用本实施例的个性化分类系统可以实现前面描述的构造个性化分类树的方法、维护个性化分类树的方法和利用个性化分类树分类显示文档的方法。
应当指出,本发明的上述个性化分类系统及其组成部分可以以硬件和软件方式实现,并且根据需要可以和其他装置结合,例如,可以实现在个人计算机、服务器、笔记本计算机、掌上型计算机、PDA等各种具有信息处理功能的设备上,并且可以物理地分离而操作上互相连接完成功能。
以上虽然通过一些示例性的实施例对本发明的构造个性化分类树的方法、维护个性化分类树的方法、利用个性化分类树分类显示文档的方法及个性化分类系统进行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。

Claims (20)

1.一种构造个性化分类树的方法,其特征在于,上述个性化分类树是包含至少一个类节点的分类树,独立地创建上述至少一个类节点的每一个时包括以下步骤:
为该类节点定义一个名字;
为该类节点指定至少一个关键词;以及
为该类节点指定至少一个特征文档。
2.如权利要求1所述的构造个性化分类树的方法,其特征在于,在创建上述至少一个类节点的每一个时还包括以下步骤:
为该类节点指定至少一个用于表明该类节点的相关文档来源的信息源。
3.如权利要求2所述的构造个性化分类树的方法,其特征在于,当上述类节点是一个子节点时,缺省地继承其父节点的关键词、特征文档和/或信息源。
4.如权利要求1~3中任意一项所述的构造个性化分类树的方法,其特征在于,各个类节点的语义限定是相互独立的。
5.一种构造个性化分类树的方法,其特征在于,上述个性化分类树是包含至少一个类节点的树,在创建上述至少一个类节点的每一个时包括以下步骤:
利用至少一个关键词查找文档;
从查找结果中选择至少一个文档;
为该类节点定义一个名字;
将上述查找使用的关键词指定作为该类节点的关键词;以及
将上述选中的至少一个文档指定作为该类节点的特征文档。
6.如权利要求5所述的构造个性化分类树的方法,其特征在于,在创建上述至少一个类节点的每一个时还包括以下步骤:
为该类节点指定至少一个信息源。
7.如权利要求6所述的构造个性化分类树的方法,其特征在于,当上述类节点是一个子节点时,缺省地继承其父节点的关键词、特征文档和/或信息源。
8.一种维护个性化分类树的方法,其特征在于,上述个性化分类树是包含至少一个类节点的分类树,上述至少一个类节点的每一个包含一个名字和至少一个关键词,该方法包括:
对于上述至少一个类节点的每一个,
根据该类节点中包含的上述至少一个关键词,为该类节点指定至少一个特征文档;以及
根据上述至少一个特征文档,进行主题跟踪增加与该类节点相关的文档。
9.根据权利要求8所述的维护个性化分类树的方法,其特征在于上述指定至少一个特征文档的步骤包括:
利用该类节点中包含的上述至少一个关键词查找文档;以及
从查找结果中选择至少一个文档作为该类节点的特征文档。
10.如权利要求9所述的维护个性化分类树的方法,其特征在于,上述至少一个类节点的每一个还包含至少一个用于表明该类节点的相关文档来源的信息源,上述进行主题跟踪增加与该类节点相关的文档的步骤,对来自上述信息源的文档进行主题跟踪。
11.如权利要求10所述的维护个性化分类树的方法,其特征在于,上述进行主题跟踪增加与该类节点相关的文档的步骤,包括:
从上述至少一个特征文档中提取出至少一个关键词;
根据上述提取出的至少一个关键词和该类节点包含的上述至少一个关键词,对来自上述信息源的上述至少一个文档进行长度规范化;
为长度规范化后的上述至少一个文档的每一个计算与上述特征文档的主题相关程度;以及
将上述主题相关程度大于一个第一指定阈值的上述文档作为相关文档加入到该类节点之下。
12.如权利要求10所述的维护个性化分类树的方法,其特征在于,上述进行主题跟踪增加与该类节点相关的文档的步骤,包括:
为来自上述信息源的上述至少一个文档的每一个计算与上述特征文档的主题相关程度;以及
将上述主题相关程度大于一个第一指定阈值的上述文档作为相关文档加入到该节点之下。
13.如权利要求11或12所述的维护个性化分类树的方法,其特征在于,上述进行主题跟踪增加与该类节点相关的文档的步骤,还包括:
将上述主题相关程度大于一个第二指定阈值的上述文档增加作为该类节点的特征文档,其中上述第二指定阈值大于上述第一指定阈值。
14.如权利要求11或12所述的维护个性化分类树的方法,其特征在于,利用Okapi公式计算上述主题相关程度。
15.如权利要求11或12所述的维护个性化分类树的方法,其特征在于,进一步包括:当上述至少一个类节点的特征文档多于一个预定数量时,开始使用统计分类方法。
16.一种个性化分类系统,其特征在于,包括:
分类树编辑器,用于创建和修改个性化分类树,其中,上述个性化分类树是包含至少一个类节点的分类树,其中,创建上述至少一个类节点的每一个包含为该类节点定义一个名字、为该类节点指定至少一个关键词和为该类节点指定至少一个特征文档;
类节点编辑器,用于配置上述个性化分类树中的类节点;
爬行器,用于从指定的信息源获取文档;以及
个性化分类器,用于将由上述爬行器获取的文档分类到上述个性化分类树中。
17.如权利要求16所述的个性化分类系统,其特征在于,上述个性化分类树中的每个类节点还包含至少一个用于表明该类节点的相关文档来源的信息源;
上述爬行器从由上述每个类节点指定的信息源获取文档。
18.如权利要求16所述的个性化分类系统,其特征在于,所述个性化分类器进一步包括:
关键词提取单元,用于从指定的特征文档中提取关键词;
长度规范化单元,用于根据关键词对文档进行长度规范化;
相关性计算单元,用于计算指定的文档与特征文档集之间的主题相关程度。
19.如权利要求18所述的个性化分类系统,其特征在于,所述相关性计算单元利用Okapi公式计算上述主题相关程度。
20.如权利要求16所述的个性化分类系统,其特征在于,还包括:
分类显示装置,用于利用上述个性化分类树分类显示相关文档。
CNB2004100546318A 2004-07-22 2004-07-22 构造、维护个性化分类树的方法及系统 Expired - Fee Related CN100538695C (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNB2004100546318A CN100538695C (zh) 2004-07-22 2004-07-22 构造、维护个性化分类树的方法及系统
US11/188,194 US7865530B2 (en) 2004-07-22 2005-07-22 Constructing and maintaining a personalized category tree, displaying documents by category and personalized categorization system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2004100546318A CN100538695C (zh) 2004-07-22 2004-07-22 构造、维护个性化分类树的方法及系统

Publications (2)

Publication Number Publication Date
CN1725213A CN1725213A (zh) 2006-01-25
CN100538695C true CN100538695C (zh) 2009-09-09

Family

ID=35658481

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100546318A Expired - Fee Related CN100538695C (zh) 2004-07-22 2004-07-22 构造、维护个性化分类树的方法及系统

Country Status (2)

Country Link
US (1) US7865530B2 (zh)
CN (1) CN100538695C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281578A (zh) * 2013-07-02 2015-01-14 威盛电子股份有限公司 数据文件的地域标记方法以及装置

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080263594A1 (en) * 2005-04-06 2008-10-23 Ruzz Tv Pty Ltd Schedule of a Broadcast Management System
CN100395755C (zh) * 2006-02-23 2008-06-18 无锡永中科技有限公司 计算机中建立树状文件结构的方法
US20080068641A1 (en) * 2006-09-19 2008-03-20 Xerox Corporation Document processing system
KR100849497B1 (ko) * 2006-09-29 2008-07-31 한국전자통신연구원 온톨로지 매핑을 이용한 단백질 이름 정규화 방법
US7562088B2 (en) * 2006-12-27 2009-07-14 Sap Ag Structure extraction from unstructured documents
KR101182280B1 (ko) * 2007-03-17 2012-09-14 삼성전자주식회사 문서관리방법 및 문서관리장치
US9069883B2 (en) * 2007-03-17 2015-06-30 Samsung Electronics Co., Ltd. Document management method and document management apparatus using the same
US8375072B1 (en) * 2007-04-12 2013-02-12 United Services Automobile Association (Usaa) Electronic file management hierarchical structure
CN101315624B (zh) * 2007-05-29 2015-11-25 阿里巴巴集团控股有限公司 一种文本主题推荐的方法和装置
TW200936619A (en) 2007-11-15 2009-09-01 Univation Tech Llc Polymerization catalysts, methods of making, methods of using, and polyolefin products made therefrom
CN101714142B (zh) * 2008-10-06 2012-10-17 易搜比控股公司 文件群集的合并方法
US20110282858A1 (en) * 2010-05-11 2011-11-17 Microsoft Corporation Hierarchical Content Classification Into Deep Taxonomies
ES2798272T3 (es) 2011-11-08 2020-12-10 Univation Tech Llc Métodos de preparación de un sistema catalítico
US9626445B2 (en) * 2015-06-12 2017-04-18 Bublup, Inc. Search results modulator
US9262535B2 (en) * 2012-06-19 2016-02-16 Bublup Technologies, Inc. Systems and methods for semantic overlay for a searchable space
CN103106262B (zh) * 2013-01-28 2016-05-11 新浪网技术(中国)有限公司 文档分类、支持向量机模型生成的方法和装置
WO2015003063A1 (en) 2013-07-02 2015-01-08 Convida Wireless, Llc Mechanisms for semantics publishing and discovery
US9400839B2 (en) 2013-07-03 2016-07-26 International Business Machines Corporation Enhanced keyword find operation in a web page
CN103605796B (zh) * 2013-12-05 2016-08-03 用友优普信息技术有限公司 支持版本迭代的文档管理装置和文档管理方法
US9569728B2 (en) 2014-11-14 2017-02-14 Bublup Technologies, Inc. Deriving semantic relationships based on empirical organization of content by users
US10155826B2 (en) 2014-12-12 2018-12-18 Exxonmobil Research And Engineering Company Olefin polymerization catalyst system comprising mesoporous organosilica support
WO2018191000A1 (en) 2017-04-10 2018-10-18 Exxonmobil Chemicl Patents Inc. Methods for making polyolefin polymer compositions
CN108052636B (zh) * 2017-12-20 2022-02-25 北京工业大学 确定文本主题相关度的方法、装置及终端设备
CN108509424B (zh) * 2018-04-09 2021-08-10 平安科技(深圳)有限公司 制度信息处理方法、装置、计算机设备和存储介质
CN108512854B (zh) * 2018-04-09 2021-09-07 平安科技(深圳)有限公司 制度信息安全监控方法、装置、计算机设备和存储介质
CN112015893A (zh) * 2020-08-12 2020-12-01 北京字节跳动网络技术有限公司 数据处理方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5644764A (en) * 1995-01-31 1997-07-01 Unisys Corporation Method for supporting object modeling in a repository
US6047284A (en) * 1997-05-14 2000-04-04 Portal Software, Inc. Method and apparatus for object oriented storage and retrieval of data from a relational database
US6055540A (en) * 1997-06-13 2000-04-25 Sun Microsystems, Inc. Method and apparatus for creating a category hierarchy for classification of documents
US6223145B1 (en) * 1997-11-26 2001-04-24 Zerox Corporation Interactive interface for specifying searches
US6014662A (en) * 1997-11-26 2000-01-11 International Business Machines Corporation Configurable briefing presentations of search results on a graphical interface
US6002750A (en) * 1997-12-12 1999-12-14 U S West, Inc. Method and system for providing integrated wireline/wireless voice messaging service
US6216134B1 (en) * 1998-06-25 2001-04-10 Microsoft Corporation Method and system for visualization of clusters and classifications
US6345252B1 (en) * 1999-04-09 2002-02-05 International Business Machines Corporation Methods and apparatus for retrieving audio information using content and speaker information
US7213024B2 (en) * 2000-03-09 2007-05-01 The Web Access, Inc. Method and apparatus for accessing information within an electronic system
US7162540B2 (en) * 2000-05-15 2007-01-09 Catchfire Systems, Inc. Method and system for prioritizing network services
ATE491998T1 (de) 2001-05-25 2011-01-15 Endeca Technologies Inc Hierarchisches datengesteuertes navigationssystem und verfahren für informationswiderauffindung

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281578A (zh) * 2013-07-02 2015-01-14 威盛电子股份有限公司 数据文件的地域标记方法以及装置
CN104281578B (zh) * 2013-07-02 2017-11-03 威盛电子股份有限公司 数据文件的地域标记方法以及装置

Also Published As

Publication number Publication date
CN1725213A (zh) 2006-01-25
US20060020588A1 (en) 2006-01-26
US7865530B2 (en) 2011-01-04

Similar Documents

Publication Publication Date Title
CN100538695C (zh) 构造、维护个性化分类树的方法及系统
McCallum et al. Automating the construction of internet portals with machine learning
Popescul et al. Statistical relational learning for link prediction
US20030115188A1 (en) Method and apparatus for electronically extracting application specific multidimensional information from a library of searchable documents and for providing the application specific information to a user application
US20030115189A1 (en) Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
Zheng et al. Collecting event‐related tweets from twitter stream
Ding et al. User modeling for personalized Web search with self‐organizing map
Thangamani et al. Ontology based fuzzy document clustering scheme
Anami et al. Machine learning techniques in Web content mining: a comparative analysis
Adami et al. Bootstrapping for hierarchical document classification
Chen et al. Web services clustering using SOM based on kernel cosine similarity measure
Bakariya et al. Mining rare itemsets from weblog data
Kraft et al. Textual information retrieval with user profiles using fuzzy clustering and inferencing
Bewoor et al. Empirical analysis of single and multi document summarization using clustering algorithms
Torres-Tramón et al. A diffusion-based method for entity search
Tsekouras et al. An effective fuzzy clustering algorithm for web document classification: A case study in cultural content mining
Yu et al. Subtopic mining via modifier graph clustering
Rasane et al. Handling various issues in text classification: a review
Xuan et al. Finding main topics in blogosphere using document clustering based on topic model
Zhang et al. An integrated system for building enterprise taxonomies
Malarvizhi et al. Distributed approach to web page categorization using map-reduce programming model
Mladenic et al. Text and Web mining
Kansagara et al. Thematically Clustering In Digital Forensics Text String Searching: A Survey.
Kalayanasaravan et al. Document retrieval system using genetic algorithm
Labriji et al. User interest center based on a semantic user profile

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090909

Termination date: 20160722

CF01 Termination of patent right due to non-payment of annual fee