CN101561805B

CN101561805B - 文档分类器生成方法和系统

Info

Publication number: CN101561805B
Application number: CN200810094208.9A
Authority: CN
Inventors: 李建强; 赵彧
Original assignee: NEC China Co Ltd
Current assignee: NEC China Co Ltd
Priority date: 2008-04-18
Filing date: 2008-04-18
Publication date: 2014-06-25
Anticipated expiration: 2028-04-18
Also published as: CN101561805A; JP2009259250A; JP4926198B2

Abstract

本发明提供了一种分类器生成方法和系统。所述方法包括：获取对象集合的聚类结果；生成对象集合的粗略分类结果以得到粗略分类器；以及用聚类结果调整粗略分类结果以生成最终分类器。在一个实施例中，粗略分类结果根据对准模型与聚类结果对准相，以此控制来源于类别名和相应语义分析的可能偏见。利用根据本发明的分类器生成方法和系统，可大大提高文档分类的精确性和可扩展性。

Description

文档分类器生成方法和系统

技术领域

本发明一般地涉及信息检索(information retrieval，IR)和文本数据挖掘，更具体而言，涉及能够进行自动文档分类的文档分类器的生成方法和系统，其通过组合未标注文档集的潜在数据分布和类别名字典所暗示出的语义信息来进行高度精确的文档分类。

背景技术

当前，可获得的电子文档的快速增长使得人们无法透彻了解并有效利用这大量的信息。如何帮助用户以有效且高效的方式组织这些信息并找到感兴趣的信息片断是一项富有挑战性的任务。

信息检索(IR)是一种在文档集合中搜索信息的科学，其可被进一步划分为：搜索包含在文档中的一段信息；搜索文档本身；搜索描述文档的元数据；或者在数据库中搜索文本、声音、图像或数据，所述数据库可以是关系独立数据库或者通过诸如因特网或内联网之类的超文本联网数据库。文本数据挖掘一般指的是根据明文文本构造高质量信息的过程，其可被进一步划分为文本分类、文本聚类(clustering)、概念/实体提取、文档概括等等。由于当前大多数可获得的信息都被存储为文本或文档，因此相信信息检索和文本数据挖掘具有很高的商业价值。文档分类是一种利用来自预定集合的主题类别来标注(label)自然语言文本的行为，其可被应用在多种使用IR和文本数据挖掘的情形，例如词义消歧、文档组织、文本过滤和网页检索。

由于可用电子信息量的不断增长，信息检索和文本数据挖掘的重要性是显而易见的。自动文档分类是用于信息检索和文本数据挖掘的基础技术之一，其在大量电子信息的有效且高效利用方面扮演重要角色。

当前，对于自动文档分类，基于机器学习(Machine Learning，ML)的方法占主导地位。基于ML方法的良好性能极大地取决于大量手工标注的训练数据。但是，手工标注数据的任务是繁琐而且昂贵的，对于复杂的文档分类尤其如此，其中可能存在成百上千个类别。

为了利用未经标注的数据来提高所训练的模型的精确性，已经进行了多种研究。但是，现有方法无法处理没有训练集合可用的情况。而且，由于学习过程过多地依赖于有限数量的训练样本，因此分类结果很容易受训练集合影响而存在偏见。从而，无法对于真实世界中的系统呈现足够好的性能。

本发明的研究尤其与信息检索和文本数据挖掘中的文档分类有关，在这方面现有技术中存在很多研究。基本上，当前流行的自动文档分类方法可被分成以下三类：监督型文档分类、半监督型文档分类和无监督型文档分类。它们的实现方法通常包括两个步骤，即分类器学习步骤和文档分类步骤。

监督型文档分类方法将类别名仅视为符号标注，并且假设无法获得关于类别名含义的额外知识以及外部知识来帮助建立分类器。在分类器学习阶段，通过观察先前已经手工分类(例如由领域专家)出的一组文档的特性来利用一般归纳过程自动建立针对类别的分类器。然后，在文档分类阶段，分类器收集新文档应该具备的特性，以便将其分类到相应的类别之下。在先前的研究中已经研制出多种用于归纳构造文档分类器的不同方法，其中比较流行的方法包括概率分类器、判决树、神经网络、支持向量机(support vector machine，SVM)和回归方法。由于关于文档正确分类的知识被用于监督分类器学习，因此每个类别需要大量手工标注的训练样本才能进行精确的学习。

为了减少用于训练数据标注的人为麻烦，提出了半监督型文档分类方法，其用于具有较少标注数据的文档分类。该方法既利用标注的训练数据样本也利用未经标注的训练数据样本，其中未经标注的数据被用来改善监督型学习由于训练数据不充足而引起的低性能。到目前为止，针对半监督型文档分类方法的研究可以粗略分成三类，即生成方法(generativemethod)、区分方法(discriminative method)和自学方法(selF-learningmethod)。

生成方法假设从可识别的混合分布(例如高斯混合模型)中生成文档实例。混合模型的未知参数可以通过大量未经标注的数据来确定。一种代表性的方法是期望最大化(Expertation-Maximization，EM)算法。同时，利用对未经标注的文档进行文档聚类来改善文本分类，其中每个聚类实际上充当一种“伪混合模型”。聚类过程可被应用到标注的和未经标注的数据，从而将从这些聚类中提取出的新特征引入标注的和未经标注的数据的模式中。

区分方法来源于来自不同类的未经标注的数据之间具有较大差异(margin)这一思想。基于该假设，直推式SVM利用未经标注的数据扩展标准的SVM以尝试通过最小化特定文档的错误分类来最大化“未经标注的数据差异”。作为SVM一般形式的逻辑回归模型也被用于半监督型文本分类。最近，出现了基于图表示的一系列新型半监督型学习方法，他们将标注的和未经标注的实例表示为顶点，将实例之间的相似性表示为边。

自学方法假设分类器自己的高度信任的预测是正确的。基于该假设得到两种代表性方法，即自训练和协同训练。自训练按如下方法实现：(1)少量标注文档被用于分类器训练；(2)所产生的分类器被用于分类未经标注的文档；(3)在每次迭代中以高度信任选择新标注的文档的可靠集合来重复地重新训练分类器。在迭代期间，分类器利用其自己高度信任的预测来自我学习。类似地，日本专利No.2002-133389提供了一种推进(boosting)机制，该机制利用测试数据的分布来提高具有少量训练数据的迭代学习的精确性。对于协同训练，其实现方式如下：(1)首先，特征集被分成两个充分且有条件地独立的集合，它们被分别用于训练两个分类器；(2)然后，每个分类器对未经标注的数据进行分类，并选择若干可信样本，用来扩展另一分类器的训练集合；(3)两个分类器利用附加的训练样本被重新训练，并且该过程被重复。

与采用文档集合中暗示的针对文档分类的知识的监督型和半监督型学习方法不同，所谓的无监督型文档分类方法主要利用类别概念中暗示的知识来进行自动文档分类。该方法无需手工创建训练文档，而是主要利用预定的初始关键字列表作为种子，并采用某些自扩展(bootstrapping)机制。通过将文档分成若干句子，一种利用每个类别的关键字列表创建训练句子集合的方法被提出，随后，被分类的句子被用于文档分类。

但是，现有技术存在尚未解决的缺陷。

首先，对于监督型方法，其需要针对每个文档集或问题域获得大量训练数据，而为了建立充足的训练数据，需要花费很高成本。获得标注数据通常是很困难的，其非常昂贵并且耗时，因为其需要有经验的人类标注者的参与。对于具有成百上千个类别的复杂任务或领域尤其如此。

其次，对于半监督型方法，其文档分类结果易于受少量训练数据的影响而存在偏见。半监督型学习方法的思想在于不仅从标注的训练数据中学习，还要采用额外获得的未经标注的数据中的结构性信息。虽然，训练数据的可获得性问题得到部分解决，但是其过分关注标注的数据集，并且极大地依赖标注的数据集中所呈现的分布。由于标注数据是稀疏性的，因此该方法不仅精确度不够好，而且鲁棒性也是个大问题。

另外，对于无监督型方法，其文档分类结果易受预定的关键字列表影响而存在偏见。在所谓的无监督型方法中，每个类别的类别名或关键字列表充当自扩展机制的种子以用于自动文档分类。由于该方法极大地依赖于人为定义的初始关键字列表并且不存在偏见控制机制，因此分类结果的精确性和鲁棒性一般都不够好。而且，初始种子单词需要手工收集，这对于复杂任务也是一项繁重而昂贵的任务。

再次，无论监督型方法、半监督型方法还是无监督型方法，它们的自适应性和可扩展性均较差。通过这三种方法训练出的分类器是依赖于领域或文档集的，即，如果文档集或领域变化，分类器则需要重新训练。对于监督型方法和半监督型方法，这意味着需要额外的人为努力将一定量的文档标注为训练数据。对于无监督型方法，如果领域改变，则需要重新定义与相应类别相关的初始关键字列表。而且，对于改变的领域或文档集，需要费力进行额外的学习。

因此，需要新的文档分类方法和系统，用来提高文档分类的精确性和可扩展性，尤其针对没有标注数据可用的情形。

发明内容

鉴于上述现有技术文档分类方法中所存在的问题，作出了本发明。

本发明提出一种文档分类器生成方法，其利用目标文档集的数据分布知识以及类别名所暗示的语义信息两者来生成文档分类器以用于自动文档分类，从而提高文档分类的精确性和可扩展性。该方法尤其适用于没有训练集合可用的情形。

大体上来看，本发明所提出的混合文档分类器建立方法主要包括三个步骤：(1)初始训练集合生成；(2)迭代分类器学习；和(3)最终分类器建立。

首先，在初始训练集合生成期间，初始训练集合是在外部知识源的支持下基于类别名的语义分析而生成的。例如，在一个实施例中，设计出一种基于描述(profile)的方法，用于建立分类器，其中每个类别具有语义相关的特征集，以充当该类别的代表性描述。基于初始分类器，包括肯定和否定样本的初始训练集合(标注文档)被创建，以用于随后的迭代分类器学习。

然后，在迭代分类器学习阶段，每次迭代中，来自上次迭代的分类器分类结果被用于建立这次迭代的训练集合(选择高度可信的分类结果作为标注数据)。然后，从更新的训练集合(标注数据)中构造新的分类器。最后，使用新的分类器代替上次迭代的分类器来分类剩余的文档。当所有文档都被标注、形成的一组分类器收敛或者满足其他终止条件时，迭代过程终止。

最后，在最终分类器建立阶段，从迭代学习终止后所得到的所有分类器中选择最符合预先获得的文档聚类结果的分类器，作为最终分类器。由于本发明假设不存在训练数据，对于分类器选择的方案主要利用最大似然性估计。

需要注意的是，在机器学习过程期间，训练集合的选择(包括初始训练集合的生成和迭代学习中的中间训练集合的生成)基于文档分类结果与聚类结果的对准(alignment)，在此过程中，例如可采用贝叶斯(Bayesian)模型。其目标是要减小由于类别名、外部知识源或迭代分类器学习过程中的噪声数据所带来的可能偏见。

具体而言，根据本发明一个方面，提出了一种分类器生成方法，其包括：获取对象(例如文档)集合的聚类结果；生成所述对象集合的粗略分类结果以得到粗略分类器；以及用所述聚类结果调整所述粗略分类结果以生成最终分类器。在某些实施例中，粗略分类器的生成可以采取利用训练集学习出分类器的方式，所述训练集可以是从外部输入的人工标注训练集，或者可以根据领域相关的类别名通过参考外部知识源自动生成。另外，在某些实施例中，通过使得粗略分类结果与预先获得的聚类结果对准来调整粗略分类结果，该调整过程可以采取迭代方式，通过不断更新训练集，从而学习出一组中间分类器，并且可以从这组中间分类器中选择与聚类结果最匹配的最优分类器作为最终分类器。

另外，根据本发明另一方面，还提出了一种分类器生成系统，其包括：获取装置，用于获取对象集合的聚类结果；粗略分类装置，用于生成所述对象集合的粗略分类结果以得到粗略分类器；以及调整生成装置，用于用所述聚类结果调整所述粗略分类结果以生成最终分类器。

在本发明中，文档的聚类结果和分类结果之间的对准分析被执行，并被集成到训练集合建立以及迭代分类器学习的过程中。这样一来，来源于类别名和相应语义分析的可能偏见得到控制。其确保了所产生的训练数据以及最终的分类结果的精确性得以提高

另外，本发明所采用的方法不需要训练数据或初始预定的关键字列表来进行文档分类。相反，本发明采用在现有外部知识源的支持下对类别名的语义分析(包括用于同现关键字(co-occurrence keyword)提取的潜在语义分析)来建立初始训练集合。由于已有的外部知识源可以覆盖多个领域，因此当领域或文档集改变时，本发明的方法可被容易地应用到多个不同的领域/文档集，从而大大减少额外的标注工作。

另外，本发明所提供的最终分类器建立的机制可以降低分类器由于迭代分类器学习过程中的噪声数据的存在而引起过大偏见的危险，尤其对于区分分类器(例如SVM、逻辑回归等)。本发明的另一重要贡献在于提高了最终文档分类结果的精确性。

从下面结合附图的详细描述中，可以看出本发明的其他特征和优点。注意，本发明并不限于图中所示的示例或者任何具体的实施例。

附图说明

结合附图，从下面对本发明实施例的详细描述，将更好地理解本发明，附图中类似的参考标注指示类似的部分，其中：

图1示出文档分类系统100的整体框图，其中具体示出根据本发明实施例的分类器生成子系统10的内部结构；

图2示出图1所示文档分类系统100的工作过程的流程图；

图3示出图1所示分类器生成子系统10中的调整生成装置103的一个示例的内部结构的框图；

图4A和图4B分别是示出图1所示分类器生成子系统10中的粗略分类装置102的两种实现方式400A和400B的内部结构的框图，其中在图4A所示实现方式400A中，从外部获取的人工标注的训练集被直接用于分类器学习，而在图4B所示实现方式400B中，训练集被自动生成以用于分类器学习；

图5是示出在自动生成训练集的情况下，图4B所示训练集发生单元401B的内部结构的框图；

图6是示出图5所示训练集发生单元中的分类部件504的一个示例的内部结构的框图；

图7是示出图5所示在自动生成训练集的情况下，训练集发生单元的工作过程的一个示例700的流程图；

图8是示出图5所示根据中间分类结果生成训练集的训练集产生部件505的一个示例的内部结构的框图，其中关于文档集合的聚类结果被用于调整中间分类结果；

图9示出根据本发明实施例，图1所示分类器生成子系统10中的调整生成装置103采取迭代分类器学习的工作过程900的流程图；以及

图10是被用于实现本发明的计算机系统的示意性框图。

具体实施方式

本发明所提出的分类器生成方法和系统可应用于文本过滤、文档推荐、搜索结果聚类、网页搜索和网络文本挖掘等等。

图1示出文档分类系统100的整体框图，其中具体示出根据本发明实施例的分类器生成子系统10的内部结构。如图所示，来自文档库105的文档集合通过文档聚类装置107被预先聚类成多个组，并将聚类结果存储在聚类结果库104中。聚类结果库104中所存储的关于文档集合的聚类结果将被根据本发明的分类器生成子系统10或者其他信息检索相关应用所消耗。关于文档聚类的方法属于本领域技术人员公知技术，不作为本发明研究的重点，并因此不作赘述。本领域技术人员所知的任意文档聚类方法都可被用于获得所需文档聚类结果。图1所示根据本发明实施例的分类器生成子系统10包括获取装置101、粗略分类装置102以及调整生成装置103。

图2示出图1所示文档分类系统100的工作过程的流程图。

首先，在步骤201处，分类器生成子系统10从文档库105获得将要分类的文档集合。获取的文档集合首先被提供到粗略分类装置102以进行粗略分类，从而得到粗略分类结果(即粗略分类器)，如步骤202所示。例如，在背景技术中描述的本领域公知的监督型文档分类、半监督型文档分类或无监督型文档分类方法均可被用于实现粗略分类目的。在某些实施例中，例如如下文所述，可以采用训练集学习分类器的方法生成粗略分类器。根据实际应用需求的不同，可以采用外部输入的人工标注的训练集，也可以通过参考来自外部知识源的关于类别名的语义信息自动生成训练集。关于训练集的自动生成随后将详细描述。

如此同时，在步骤203中，获取装置101从聚类结果库104获取预先存储的关于该文档集合的聚类结果。如本领域技术人员所知，聚类结果能够反映出关于文档集合的潜在数据分布，并因此可被用于控制粗略分类结果中可能存在的偏见。关于文档集合的来自粗略分类装置102的粗略分类结果和来自获取装置101的聚类结果都被提供到调整生成装置103。接下来，在步骤204中，调整生成装置103利用来自获取装置101的聚类结果对来自粗略分类装置102的粗略分类结果(即粗略分类器)进行调整，从而生成最终分类器106。关于利用聚类结果调整粗略分类结果的原理及过程，随后将参考图3来进一步描述。另外，如下文将描述的，这种利用聚类结果调整粗略分类结果的做法可被扩展为以迭代方式运行，即通过迭代不断更新中间分类结果，从而产生一组中间分类器，并从中选择一个最优分类器作为最终分类器。这样做，可以进一步提高文档分类的精确性。关于迭代分类器学习的具体描述随后给出。随后在步骤205中，已经在步骤201中获取的文档集合被提供到所生成的最终分类器106，最终分类器106将集合中的每个文档分类到至少一个类别，并将分类结果存储到文档分类结果库108中。然后，过程200结束。

图3示出图1所示分类器生成子系统10中的调整生成装置103的一个示例的内部结构的框图。在该示例中，假设粗略分类装置102采用基于查询的方法执行粗略分类，从而粗略分类结果被表示为一系列等级得分。调整生成装置103利用贝叶斯(Bayesian)推论模型作为对准模型执行粗略分类结果与聚类结果的对准，从而获得更加精确的分类结果，即得到最终分类器106。这里应该指出，利用聚类结果调整粗略分类结果的方法并不局限于图3所示利用贝叶斯推论模型对准的示例，本领域技术人员容易想到其他调整方法也可被类似地应用于此以实现提高分类精确度的目的。

在图3所示示例中，调整生成装置103包含先验概率计算单元301和对准单元302。

首先，在先验概率计算单元301中，计算对应于粗略分类结果的先验概率。如前所述，这里假设粗略分类结果被表示为一系列排序得分。令C表示类别集合，D表示文档集合。对于文档d_i∈D和类别c_j∈C，存在排序得分s(d_i，c_j)，其指示d_i属于c_j的概率。从而，该得分被归一化为：

s^{'} (d_{i}, c_{j}) = \frac{s (d_{i}, c_{j})}{Σ_{c &Element; C} s (d_{i}, c)}

(等式1)

从而，我们可以假设P(c_j|d_i)＝s′(d_i，c_j)。

然后，在对准单元302中，基于贝叶斯推论来建立对准模型。令C′表示聚类集合。如果聚类结果显示文档d_i被聚类到聚类c′_k∈C′中，则对准结果被表示为如下后验概率：

P (c_{j} | d_{i}, {c^{'}}_{k}) = \frac{P (c_{j} | d_{i}) P ({c^{'}}_{k} | c_{j})}{P ({c^{'}}_{k})}

(等式2)

其中，先验概率P(c_j|d_i)来源于粗略分类结果。显而易见，根据统计学原理可以计算：

P ({c^{'}}_{k} | c_{j}) = \frac{\underset{d {&Element; c^{'}}_{k}}{Σ} P (c_{j} | d)}{\underset{d &Element; D}{Σ} P (c_{j} | d)},

(等式3)

P ({c^{'}}_{k}) = \underset{c &Element; C}{Σ} P ({c^{'}}_{k} | c)

(等式4)

因此，最终的对准模型被表示为：

P (c_{j} | d_{i}, {c^{'}}_{k}) = \frac{P (c_{j} | d_{i}) \underset{d {&Element; c^{'}}_{k}}{Σ} P (c_{j} | d)}{\underset{d &Element; D}{Σ} P (c_{j} | d) \underset{c &Element; C}{Σ} \frac{\underset{d {&Element; c^{'}}_{k}}{Σ} P (c_{j} | d)}{\underset{d &Element; D}{Σ} P (c | d)}}

(等式5)

根据等式5所示概率模型，即已实现经过聚类结果调整的最终分类器，该最终分类器相对于等式1所表示的粗略分类器，其文档分类的精确度更高，并且由于聚类结果调整的引入，可能由于类别名以及语义分析所导致的偏见得到有效的控制。

下面，将参考图4A和图4B来进一步描述构成分类器生成子系统10一部分的粗略分类装置102的内部结构。如前所述，在某些实施例中，可以采用训练集学习分类器的方法生成粗略分类器。这里所采用的训练集可以采用外部输入的人工标注的训练集，也可以由系统自动生成。图4A和图4B分别给出采用人工标注的训练集以及自动生成训练集情况下通过训练集学习生成粗略分类器的两个示例。当然，粗略分类器的生成并不局限于训练集学习，本领域技术人员公知的任何其他分类器生成方法都可被应用于此。

首先，参考图4A，在该示例中，粗略分类装置102包括训练集发生单元401A和学习单元402。训练集发生单元401A从外部获取人工标注的训练集并将其直接提供到学习单元402以用于分类器学习。接着，由学习单元402学习出分类器。关于利用训练集学习出分类器的过程，属于本领域公知技术，这里不作赘述。

参考图4B，在该示例中，粗略分类装置102包括训练集发生单元401B和学习单元402。训练集发生单元401B与训练集发生单元401A的不同之处在于训练集发生单元401B通过参考来自外部知识源404的关于类别名的语义信息来自动生成训练集。然后，与图4A相同，自动生成的训练集被提供到学习单元402以学习出分类器。

下面将参考图5-8来详细描述图4B所示训练集发生单元401B中自动生成训练集的过程及原理。

首先，如图5所示，训练集发生单元401B包括类别名获取部件501、词义消歧部件502、关键字生成部件503、分类部件504和训练集产生部件505。另外，如图5所示，除了文档库105之外，训练集发生单元401B还需要参考类别名库403和与类别名相关的外部知识源404来实现训练集的自动生成。

下面结合图7来描述图5所示训练集发生单元401B的训练集自动生成过程700。

首先，在步骤701中，类别名获取部件501从类别名库403获取预定的类别名。由于类别名中的单词可能在不同情形下可能具有不同含义，因此可选地，在步骤702处，词义消歧部件502可以在外部知识源404的支持下首先对类别名进行词义消歧。然后，在步骤703中，经过词义消歧后的类别名被提供到关键字生成部件503，以基于所识别出的词义生成相关关键字。这里，相关关键字可能包括与通过语义分析识别出的类别名具有高同现性(co-occurrence)的单词，还可能包括类别名中出现的关键字的同义词、下位词或上位词。这些同义词、下位词或上位词可以从外部知识源404找到。

这里为了便于理解，给出词义消歧以及同义词选择的一个示例：在WordNet中单词“spam”具有两个含义，即(1)一种由碎猪肉制成的的罐头肉制品，和(2)不想要的电子邮件。我们需要在两种含义之间进行区分以选择“spam”对于产品描述分类的同义词。从而，“spam+一种由碎猪肉制成的的罐头肉制品”和“spam+不想要的电子邮件”作为两个查询项被发送到文档集合(即，所设置的产品描述)。对于前一查询，得到20个命中；而对于后一查询，得到100个命中。由于100＞20，因此在该分类任务的上下文中，“spam”因该具有第2种含义。因此，来自含义(2)的同义词，即“垃圾邮件”被选择。

返回图7，在步骤704处，所产生的相关关键字被提供到分类部件504以用于对文档集合进行分类，从而获得中间分类结果(即中间分类器)。然后，在步骤705中，中间分类结果被提供到训练集产生部件505，从而生成所需训练集。然后，过程700结束。

图6示出图5所示训练集发生单元中的分类部件504的一个示例的内部结构。在该示例中，基于描述的过滤方法被用于产生中间分类结果，即利用类别名相关关键字作为查询项对文档集合进行搜索，并选择命中列表中的文档标记为相应类别。如图6所示，在该示例中，分类部件504包括搜索器601和类别标注器602。再次参考图7中的步骤704，首先，在子步骤7041中，搜索器601接收来自关键字生成部件503的类别名相关关键字，并将相关关键字作为相应类别的代表性描述对文档集合进行搜索。然后，在子步骤7042中，作为搜索结果的命中列表被发送到类别标注器602。类别标注器602将命中列表中的全部或一些(例如前200个)标注到相应类别，从而完成文档分类。所产生的中间分类结果随后被用于训练集的生成。

一般而言，为了确保所标注的文档是正确的，通常只有位于命中列表顶部的文档被选择。例如，对于产品类别“anti_spam”，“spam+垃圾邮件”作为相关关键字被发送到文档集合以进行搜索。这里，“spam”是从类别名(即“anti_spam”)识别出的关键字，而“垃圾邮件”是从WordNet选择的同义词。假设命中列表包括1000个搜索结果，我们可能仅仅选择前200项作为“anti_spam”产品的代表性产品描述。这里，假设前200项产品描述拥有人们用来判断一个产品是否具有anti_spam功能或者是否属于“anti_spam”类别的所有需要的特征。

如上所述，在得到中间分类结果(即中间分类器)之后，中间分类结果被提供到训练集产生部件505以产生训练集。本领域技术人员公知的任意根据分类器产生训练集的方法都可被应用于此以实现本发明的目的。但是，这里为了进一步提高文档分类的精确性，本发明提出在训练集的生成过程中，同样可以采用已知的聚类结果对中间分类结果进行调整(例如，采用贝叶斯对准模型)。图8示出训练集产生部件505的一个示例的内部结构，其中关于文档集合的聚类结果被用于调整中间分类结果。

可以看出，图8所示结构框图与前述图3所示调整生成装置103的内部结构类似。就是说，在该示例中，训练集产生部件505采用类似于图3所示方式对中间分类结果进行调整。关于其具体细节，这里不再赘述。经调整(对准)后的中间分类结果随后被提供到训练集选择器802，以使得训练集选择器802能够从中选择所需训练集。

以上参考图1-8描述了根据本发明实施例的分类器生成系统10的结构和工作原理。如前所述，为了进一步提高文档分类精度，利用聚类结果调整粗略分类结果的过程可以采取迭代方式执行。下面将通过参考图9的流程图来详细描述迭代分类器学习。

首先，在步骤901处，在粗略分类结果生成过程中产生的训练集被获取，作为初始训练集。在每次迭代期间，可以使用某种已知的分类器学习方法(例如基于多项式模型的NB

)利用训练集学习出新的中间分类器(步骤902)。然后，在步骤903，新的分类器被用于对文档库105中的文档进行分类，以得到新的中间分类结果。然后在步骤904处，判断是否满足迭代终止条件。该迭代终止条件可以由用户确定。例如，如果在迭代过程中逐步产生的所有中间分类器逐渐收敛，则可以选择所产生的训练集变得稳定作为迭代终止条件。或者，例如可以选择文档库105中的所有文档均已被分类作为迭代终止条件。如果在步骤904处确定满足迭代终止条件尚未满足(即步骤904中的“否”)，过程则前进到步骤905。在步骤905中，利用本轮迭代的中间分类结果生成用于下次迭代的新训练集。这里根据中间分类结果产生新训练集的方法可以类似于图8所示的方法。如上所述，中间分类结果基于对准模型(例如贝叶斯对准模型)被与聚类结果对准。与图8所示方法的主要不同之处部分地在于先验概率的计算，这里，对于来自不同分类器的文档分类结果，可以采用某些特定方法。例如，如果采用NB分类器，先验概率则是从分类器直接返回的针对每对类别c_j和文档d_i的P(c_j/d_i)。

以NB分类器为例，该迭代算法被描述如下：

(a)首先输入初始训练集T：C→Powerset(D)，即经标注的文档子集；

(b)利用T学习NB分类器，并利用学习结果获得针对每个类别-文档对(c，d)∈C×D的P(c|d)；

(c)对于每个(c，d)∈C×D，如果在聚类结果中d∈c′，则利用对准模型计算P(c|d，c′)，令P′(c|d)＝P(c|d，c′)；

(d)生成针对新训练集T′：C-＞Powerset(D)的某些新的标注文档，其中对于每个c∈C，T′(c)包括文档集合D-domain(T)(D和T之间的差集)中P′(c|d)从高到低排列的顶部s个文档；

(e)如果T′＝Φ，则迭代终止，否则，令T：＝T+T′，开始下一轮迭代。

以上以NB分类器为例，详细描述了图9所示迭代分类器学习过程中步骤901-905期间的迭代过程。在迭代学习过程中，每次迭代创建一个分类器，该分类器可以由类别-文档对的后验概率函数P′(c|d)表示。当然，本发明所涉及的分类器并不局限于NB分类器。其他种类的分类器显而易见也可被应用于本发明。

返回图9，如果在步骤904中确定满足迭代终止条件(即步骤904中的“是”)，过程则前进到步骤906。在步骤906中，在迭代过程中所产生的一组中间分类器被保存。然后，在步骤907中，从在迭代过程中产生的一组中间分类器中选择一个最佳分类器作为最终分类器。这里，典型的最终分类器选择方式是从一组中间分类器中选择最符合给定文档集合的那一个。在迭代学习过程中，已知聚类结果可以消除弱训练集的偏见。因此，我们可以利用聚类结果来评价和选择最合适的分类器。在一个示例中，贝叶斯模型被用于从中间分类器组中选择与聚类结果最佳匹配的中间分类器作为最终分类器。

例如，将中间分类器记作F_k，k＝1，2，...N，N表示迭代次数。根据贝叶斯模型得到：

P (F_{k} | C^{'}) = \frac{P (C^{'} | F_{k}) P (F_{k})}{P (C^{'})}

(等式6)

基于最大似然方法，我们需要找到一个特定F_k，该F_k使得P(C′|F_k)最大。

显而易见，如果假设文档是彼此独立的，则具有：

P (C^{'} | F_{k}) = \underset{d &Element; D}{Π} P (c^{'} (d) | c (d)), c (d) = \max_{c &Element; C} P^{'} (c | d)

(等式7)

其中c′(d)是文档d所属聚类，c(d)是文档d根据分类器F_k所属类别。类似于上述对准模型的概率计算，可以得到F_k的概率函数如下：

P (C^{'} | F_{k}) = \underset{d &Element; D}{Π} \frac{\underset{t {&Element; c}^{'} (d)}{Σ} P^{'} (c (d) | t)}{\underset{t &Element; D}{Σ} P^{'} (c (d) | t)}

(等式8)

并且最终分类器为：

F = \max_{F_{k}} P (C^{'} | F_{k}) .

然后，在选择出最终分类器之后，过程900结束。

图10是被用于实现本发明的计算机系统1000的示意性框图。如图所示，该计算机系统1000包括CPU 1001、用户接口1002、外围设备1003、存储器1005、永久存储设备1006以及将它们彼此相连的总线1004。存储器1005中包含领域与词性分析模块、自动文档分类模块、文档聚类模块、IR相关系统、操作系统(OS)等等。本发明主要与所述自动文档分类模块相关，其例如是图1所示的文档分类系统100。文档聚类模块可以对文档集合执行聚类处理，并将聚类结果预先存储在适当的聚类结果库(例如，聚类结果库104)中。永久存储设备1006存储了本发明所涉及的各种数据库，例如聚类结果库104、文档库105、文档分类结果库108、类别名库403、外部知识源404等等。

以上描述了根据本发明实施例的文档分类方法和系统，并重点描述了分类器自动生成，根据上述描述可以看出，本发明具有以下效果：

首先，在本发明中，文档的聚类结果和分类结果之间的对准分析被执行，并被集成到训练集合建立以及迭代分类器学习的过程中。这样一来，来源于类别名和相应语义分析的可能偏见得到控制。其确保了所产生的训练数据以及最终的分类结果的精确性得以提高

另外，本发明所采用的方法不需要训练数据或初始预定的关键字列表来进行文档分类。相反，本发明采用在现有外部知识源的支持下对类别名的语义分析来建立初始训练集合。由于已有的外部知识源可以覆盖多个领域，因此当领域或文档集改变时，本发明的方法可被容易地应用到多个不同的领域/文档集，从而大大减少额外的标注工作。

上面已经参考附图描述了根据本发明的具体实施例。但是，本发明并不限于图中示出的特定配置和处理。并且，为了简明起见，这里省略对这些已知方法技术的详细描述。

在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神之后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明的元素可以实现为硬件、软件、固件或者它们的组合，并且可以用在它们的系统、子系统、部件或者子部件中。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

本发明可以以其他的具体形式实现，而不脱离其精神和本质特征。例如，特定实施例中所描述的算法可以被修改，而系统体系结构并不脱离本发明的基本精神。因此，当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

1.一种能够进行自动文档分类的电子文档分类器的生成方法，涉及信息计算和文本数据挖掘，其通过组合未标注文档集的潜在数据分布和类别名字典所暗示出的语义信息来继续高度精确的电子文档分类，包括：

获取对象集合的聚类结果；

生成所述对象集合的粗略分类结果以得到粗略分类器；以及

用所述聚类结果调整所述粗略分类结果以生成最终分类器；

其中生成所述粗略分类结果以得到粗略分类器的步骤包括：

获得训练集；以及

由所述训练集学习出所述粗略分类器；

其中，所述训练集是通过如下过程自动生成的：

获取与所述对象集合相关的类别名；

基于所述类别名生成相关的关键字；

利用所述关键字分类所述对象集合以得到中间分类结果；以及

从所述中间分类结果获得所述训练集。

2.如权利要求1所述的方法，其中所述调整步骤包括：

计算对应于所述粗略分类结果的先验概率；

利用概率上的方法使得所述粗略分类结果与所述聚类结果对准，以生成对应于所述对准结果的后验概率；以及

根据所述后验概率生成所述最终分类器。

3.如权利要求2所述的方法，其中所述概率上的方法是贝叶斯推论方法。

4.如权利要求1或2或3所述的方法，其中用所述聚类结果调整所述粗略分类结果包括：

计算对应于粗略分类结果的先验概率；该粗略分类结果为一系列排序得分；

令C表示类别集合，D表示文档集合；对于文档d_i∈D和类别c_j∈C，存在排序得分s(d_i，c_j)，其指示d_i属于c_j的概率，则该得分被归一化为：

s^{'} (d_{i}, c_{j}) = \frac{s (d_{i}, c_{j})}{Σ_{c &Element; C} s (d_{i}, c)}

等式1

其中P(c_j|d_i)＝s′(d_i，c_j)；

基于贝叶斯推论来建立对准模型，即：

令C′表示聚类集合，如果聚类结果显示文档d_i被聚类到聚类c′_k∈C′中，则对准结果被表示为如下后验概率：

P (c_{j} | d_{i}, {c^{'}}_{k}) = \frac{P (c_{j} | d_{i}) P ({c^{'}}_{k} | c_{j})}{P ({c^{'}}_{k})}

等式2

其中，先验概率P(c_j|d_i)来源于粗略分类结果；

根据统计学原理可以计算：

P ({c^{'}}_{k} | c_{j}) = \frac{\underset{d &Element; {c^{'}}_{k}}{Σ} P (c_{j} | d)}{\underset{d &Element; D}{Σ} P (c_{j} | d)},

等式3

P ({c^{'}}_{k}) = \underset{c &Element; C}{Σ} P ({c^{'}}_{k} | c)

等式4

则最终的对准模型为：

P (c_{j} | d_{i}, {c^{'}}_{k}) = \frac{P (c_{j} | d_{i}) \underset{d &Element; {c^{'}}_{k}}{Σ} P (c_{j} | d)}{\underset{d &Element; D}{Σ} P (c_{j} | d) \underset{c &Element; C}{Σ} \frac{\underset{d &Element; {c^{'}}_{k}}{Σ} P (c_{j} | d)}{\underset{d &Element; D}{Σ} P (c | d)}}

等式5

根据等式5所示概率模型来通过聚类结果调整的最终分类器。

5.如权利要求1所述的方法，其中，生成所述关键字的步骤还包括：

参考外部知识源对获取的所述类别名进行词义消歧；以及

基于经过所述词义消歧的类别名生成所述关键字。

6.如权利要求1所述的方法，其中所述关键字作为代表性描述，并且所述得到中间分类结果的步骤包括：

利用所述代表性描述作为查询项搜索所述对象集合；以及

将作为搜索结果的命中列表中的对象标注到相应类别。

7.如权利要求6所述的方法，其中将所述命中列表中的前预定数目个对象标注到相应类别。

8.如权利要求1所述的方法，其中从所述中间分类结果获得所述训练集的步骤包括：

用所述聚类结果调整所述中间分类结果以生成中间分类器；并且

从所述中间分类器对应的调整后的分类结果中选择生成所述训练集。

9.如权利要求1所述的方法，其中在用所述聚类结果调整所述粗略分类结果以生成最终分类器的步骤中，以所述训练集作为初始训练集进行迭代分类器学习，从而学习出一组中间分类器，并从所述一组中间分类器中选择一个最优分类器，作为所述最终分类器。

10.如权利要求9所述的方法，其中所述最优分类器是与所述聚类结果最佳匹配的分类器。

11.如权利要求9所述的方法，其中所述迭代分类器学习中的一次迭代包括：

利用从前次迭代生成的训练集学习出本次迭代的中间分类器；

利用所述本次迭代的中间分类器对所述对象集合进行分类，以得到本次迭代的中间分类结果；

用所述聚类结果调整所述本次迭代的中间分类结果，以生成用于下次迭代的训练集。

12.一种能够进行自动文档分类的电子文档分类器的生成系统，涉及信息计算和文本数据挖掘，其通过组合未标注文档集的潜在数据分布和类别名字典所暗示出的语义信息来继续高度精确的电子文档分类，包括：

获取装置，用于获取对象集合的聚类结果；

粗略分类装置，用于生成所述对象集合的粗略分类结果以得到粗略分类器；以及

调整生成装置，用于用所述聚类结果调整所述粗略分类结果以生成最终分类器；

其中所述粗略分类装置包括：

训练集发生单元，用于获得训练集；以及

学习单元，用于由所述训练集学习出所述粗略分类器；

其中所述系统还包括类别名库，用于存储领域相关的类别名，其中所述训练集发生单元自动生成所述训练集，并且包括：

类别名获取部件，用于从所述类别名库获取与所述对象集合相关的类别名；

关键字生成部件，用于基于所述类别名生成相关的关键字；

分类部件，用于利用所述关键字分类所述对象集合以得到中间分类结果；以及

训练集产生部件，用于从所述中间分类结果获得所述训练集。

13.如权利要求12所述的系统，其中所述调整生成装置包括：先验概率计算单元，用于计算对应于所述粗略分类结果的先验概率；以及

对准单元，利用概率上的方法使得所述粗略分类结果与所述聚类结果对准以生成对应于所述对准结果的后验概率，并且根据所述后验概率生成所述最终分类器。

14.如权利要求13所述的系统，其中所述概率上的方法是贝叶斯推论方法。

15.如权利要求12或13或14所述的系统，其中调整生成装置包含先验概率计算单元和对准单元；

所述先验概率计算单元计算对应于粗略分类结果的先验概率；该粗略分类结果为一系列排序得分；即：令C表示类别集合，D表示文档集合；对于文档d_i∈D和类别c_j∈C，存在排序得分s(d_i，c_j)，其指示d_i属于c_j的概率，则该得分被归一化为：

s^{'} (d_{i}, c_{j}) = \frac{s (d_{i}, c_{j})}{Σ_{c &Element; C} s (d_{i}, c)}

等式1

其中P(c_j|d_i)＝s′(d_i，c_j)；

所述对准单元基于贝叶斯推论来建立对准模型，即：

P (c_{j} | d_{i}, {c^{'}}_{k}) = \frac{P (c_{j} | d_{i}) P ({c^{'}}_{k} | c_{j})}{P ({c^{'}}_{k})}

等式2

其中，先验概率P(c_j|d_i)来源于粗略分类结果；

根据统计学原理可以计算：

P ({c^{'}}_{k} | c_{j}) = \frac{\underset{d &Element; {c^{'}}_{k}}{Σ} P (c_{j} | d)}{\underset{d &Element; D}{Σ} P (c_{j} | d)},

等式3

P ({c^{'}}_{k}) = \underset{c &Element; C}{Σ} P ({c^{'}}_{k} | c)

等式4

则最终的对准模型为：

P (c_{j} | d_{i}, {c^{'}}_{k}) = \frac{P (c_{j} | d_{i}) \underset{d &Element; {c^{'}}_{k}}{Σ} P (c_{j} | d)}{\underset{d &Element; D}{Σ} P (c_{j} | d) \underset{c &Element; C}{Σ} \frac{\underset{d &Element; {c^{'}}_{k}}{Σ} P (c_{j} | d)}{\underset{d &Element; D}{Σ} P (c | d)}}

等式5

根据等式5所示概率模型来获得通过聚类结果调整最终分类器。

16.如权利要求12所述的系统，还包括外部知识源，用于存储与所述类别名相关的知识，并且所述训练集发生单元还包括词义消歧部件，用于参考所述外部知识源对获取的所述类别名进行词义消歧，并且

所述关键字生成部件基于经过所述词义消歧的类别名生成所述关键字。

17.如权利要求12所述的系统，其中所述关键字作为代表性描述，并且所述分类部件包括：

搜索器，用于利用所述代表性描述作为查询项搜索所述对象集合；以及

类别标注器，用于将作为搜索结果的命中列表中的对象标注到相应类别。

18.如权利要求17所述的系统，其中所述类别标注器将所述命中列表中的前预定数目个对象标注到相应类别。

19.如权利要求12所述的系统，其中所述训练集产生部件包括：

调整生成器，用于用所述聚类结果调整所述中间分类结果以生成中间分类器；以及

训练集选择器，用于从所述中间分类器对应的调整后的分类结果中选择生成所述训练集。

20.如权利要求12所述的系统，其中所述调整生成装置以所述训练集作为初始训练集并以所述粗略分类器作为初始分类器进行迭代分类器学习，从而学习出一组中间分类器，并从所述一组中间分类器中选择一个最优分类器，作为所述最终分类器。

21.如权利要求20所述的系统，其中所述最优分类器是与所述聚类结果最佳匹配的分类器。