CN105631488A

CN105631488A - 一种数字对象分类器生成方法

Info

Publication number: CN105631488A
Application number: CN201410487093.5A
Authority: CN
Inventors: 王青
Original assignee: Wuxi Zhuoshi Technology Co Ltd
Current assignee: Wuxi Zhuoshi Technology Co Ltd
Priority date: 2014-09-23
Filing date: 2014-09-23
Publication date: 2016-06-01

Abstract

本发明提供了一种数字对象分类器生成方法。所述方法包括：获取数字对象的聚类方法；生成聚类后集合的粗略分类方法，包括对分类参数进行估计的方法，形成初步的分类器；用聚类结果对初步分类器进行参数调整，结合逻辑化推理方法确定最终分类器。在一个实施例中，初步分类结果根据伪似然估计方法确定参数，进一步借助概率推理的后验估计方法进行修正并确定最终分类器，从而有效的避免了干扰信息的影响，弥补了数字知识对象中不明确语义信息引起的歧义缺陷。利用本发明的分类方法和系统，可以提高数字知识对象分类的精确性和可扩展性。

Description

一种数字对象分类器生成方法

技术领域

本发明属于知识管理领域。一般地涉及知识的分类组织、检索与挖掘。具体而言，涉及通过计算机技术，自动对以数字对象表现的计算机可以读取的知识进行分类组织，并自动对组织后的结果提供检索与挖掘所必须的数字特征。

背景技术

目前，可获得的以计算机可以处理的数字对象为表象的知识快速增长，使得人们无法透彻了解并有效利用这大量的信息。如何帮助用户以高效的方式组织这些知识并找到所需的重点知识是一项富有挑战性的任务，也是知识管理领域的核心目的。

对知识统计关系的学习已成为知识管理领域的一个重要研究热点，它在生物信息学、系统生物学、互联网搜索、社会网、似然模型获取与利用、地理信息系统和自然语言理解等领域，都获得了极高的重视。它是将关系/逻辑表示、概率推理机制(不确定性处理)、机器学习和数据挖掘集成在一起，以获取数据中的似然模型为目的的知识管理方法。统计关系学习中的统计指采用基于概率论的概率表示和推理机制，关系是指一阶逻辑表示和关系表示；学习等同于数据挖掘，是指从数据中学得统计关系模型。目前统计关系学习方法主要有基于Bayesian网的方法、基于(隐)Markov模型的方法、基于随机文法的方法和基于Markov网的方法等。

本发明的研究利用统计关系学习的方法，实现知识管理中的知识获取、分类组织、挖掘与特征标注过程。在这些方面现有技术中存在很多研究成果，大致可以分为监督型、半监督型和无监督型三类。各自都存在一定程度缺陷：监督型方法为了获得统计关系的参数估计需要大量的训练数据集，这在实用环境中特别是某些固定行业应用中难以获得，适用性差；半监督型方法会受局部数据特征分布的影响，导致整体参数估计的偏差，虽然有研究用似然估计的方法进行改进，但在计算机自动处理该过程时效果仍不明显；无监督型方法需要严格预定义先验知识列表，如关键字列表等，可扩展性差。因此需要新的对数字对象知识进行分类组织管理的方法，用以提高知识管理过程中，对数字对象的分类统计关系进行学习和生成的方法，用以实现计算机可处理的，高效的，可扩展的知识管理过程。

发明内容

针对上述问题，做出本发明。

本发明提出一种数字对象分类方法和系统，针对计算机可处理的数字对象知识，进行自动化的分类组织，通过对数字对象分类特征的统计关系学习，实现对分类过程适用性和可扩展性的提升。

本发明大致可分为以下步骤：1)预处理过程；2)获得数字对象的特征向量空间；3)获得初始训练集；4)迭代分类器学习；5)最终分类器建立。

首先，预处理过程是根据知识管理的需要，先对原始知识集合中的非知识对象或者非特定研究行业对象进行清洗，去处后续会带来干扰的非知识信息。

其次，利用所研究行业的特定需求和计算机系统处理能力的需求将将知识数字对象化。

第三，在初始训练集合生成期间，初始训练集合实在先验知识的支持下基于类别名的语义分析而成的。在实际应用中，设计出一种基于描述的方法，用于建立分类器，其中每个类别具有语义相关的特征集，其相关度体现了统计相关参数。基于初始分类器，包括肯定和否定样本的初始训练集合被创建，以用于随后的迭代分类器学习。

第四，在迭代分类器学习阶段，每次迭代中，来自上次迭代的分类器分类结果被用于建立这次迭代的训练集合。然后，从更新的训练集合中构造新的分类器。最后，实用新的分类器代替上次迭代的分类器来分类剩余的数字对象。当所有的数字对象分类完成后，形成的一组分类器收敛或者满足其他终止条件时，迭代过程终止。

第五，在最终分类器建立阶段，从迭代学习终止后所得到的所有分类器中选择最符合预先获得的聚类结果的分类器，作为最终分类器。由于本发明假设不存在初始训练数据，对于分类器选择的方案上主要利用伪最大似然估计，并利用一阶逻辑关系进行修正。

在本发明中，数字对象的聚类结果和分类结果之间的对准分析被执行，并被集成到训练集合建立以及迭代分类器学习的过程中，这样一来，来源于类别名和相应语义分析的可能偏见和歧义得到控制，确保了所产生的训练数据以及最终分类结果的精确性得以提高。

另一方面，本发明所采用的方法不需要初始训练数据或者初始约定的固定的关键字列表来进行分类。相反，本发明采用在现有知识源的支持下对类别名进行语义分析来建立初始训练集合。由于已有的外部知识源可以覆盖多个领域，因此当领域集改变时，本方面的方法仍可容易的应用到多个不同的领域集中，从而减少额外的人工干预工作，提高计算机自动化处理的程度。

此外，本发明所提供的最终分类器建立的机制可以降低分类器由于迭代分类器学习过程中的噪声数据的存在而引起的过大偏差。从而提高最终分类的精确性。

从以下实施例的描述中，可以看出本发明的具体特征和优点。本发明并不限于以下实施例中的描述或其他具体的实施例。

附图说明

附图1是数字对象分类系统S100的整体框图；

附图2是图1所示数字对象分类系统S100的工作过程的流程图；

附图3是图1所示的分类系统中的调整生成装置S103的一个实例的结构框图；

附图4是图1所示的分类系统中的粗略分类器S102的结构框图；

附图5是根据本发明实施例，图1所示分类系统中的调整生成装置103采取迭代分类器学习的工作过程流程图；

附图6是被用于实现本发明的计算机系统的示意性框图。

具体实施方式

本发明所提出的分类器生成方法和系统可应用于一般知识管理过程中的知识获取与过滤，知识分类组织，知识搜索，和数据挖掘等等。

图1所示分类系统S100的整体框图。如果所示，来自知识库S105的数字对象集合通过聚类装置S107被预先聚类成多个组，并将聚类结果存储在聚类结果库S104中。聚类结果库S104中所存储的关于文档集合的聚类结果将用于实际的具体知识管理应用中。关于聚类的方法属于本领域的公共知识技术，不作为本发明的研究重点，不做详细描述。图1所示根据本发明实施例的分类器系统包括获取装置S101，粗略分类装置S102以及调整生成装置S103。

图2所示为图1中分类系统S100的工作过程的流程图。

首先，在步骤201处，先对待处理的数据进行预处理工作，对与应用无关的原始内容进行过滤与清洗。

其次，在步骤202处，将经过清洗的原始数字对象进行向量化的规范化处理，形成适用于应用程序的计算机可处理的数字对象表达形式。

第三，规范化处理后的数字对象首先被粗略分类装置S102处理以进行粗略分类，从而得到粗略分类结果，如步骤203所示。例如，在本说明书背景技术中描述的本领域公共知识技术的监督型分类、半监督型分类或无监督型分类方法均可用于实现粗略分类目的。在某些特定的实施例中，可以采用外部输入的训练集，也可以通过参考来自外部知识源的关于类名的语义信息自动生成训练集，以达到自适应的效果。

同时，在步骤204处，获取装置S101从聚类结果库S104处获取预先存储的关于该集合的聚类结果。此时，来自粗略分类装置S102的粗略分类结果和来自获取装置S101的聚类结果都被提供到调整生成装置S103处。

在步骤205处，利用聚类结果对来自粗略分类装置的粗略分类结果进行调整，从而生成最终分类器S106。

在步骤206处，已经在步骤202处获得的集合被提供到所生成的最终分类器S106，最终分类器S106将集合中的每个分类指定到一个类别，并将分类结果存储到文档分类结果库S108中。过程结束。

图3所示为分类系统的调整生成装置框图。其中包括概率计算单元S301和对准单元S302.

首先，在概率计算单元S301处，计算对应于粗略分类结果的先验概率。如前所述，先验概率的计算问题可以转化为对粗略分类器中各种分类公司的权值w_i(i＝1，…m)进行估计。因此参数学习任务就是估计出知识库中所有公式的权值。一个原始数据对象库就是一个向量x＝(x₁，…，x_l，…，x_n)。给定一个数据对象库，分类器的权值原则上可以通过最大似然估计的方法学习到。即参数w_i看作固定值，并假设所有数据满足参数w_i，通过计算使X＝x的似然概率P_w(X＝x)取最大值的w_i(i＝1，…，m)来获取参数值。

\frac{&PartialD;}{&PartialD; w_{i}} \log P_{w} (X = x) = n_{i} (x) - \underset{x^{'}}{Σ} P_{w} (X = x^{'}) n_{i} (x^{'}) - - - (1)

其中，一般方法中，n_i(x)与n_i(x′)都可以从数据对象库中计算得到，但计算效率低，因此用最大伪似然概率估计来替代，即：

\begin{matrix} \frac{&PartialD;}{&PartialD; w_{i}} \log P_{w} (X = x) = Σ_{l = 1}^{n} [n_{i} (x) - P_{w} (X_{l} = 0 | M B_{x} (X_{l})) \times n_{i} (X_{l = 0})] \\ - P_{w} (X_{l} = 1 | {MB}_{x} (X_{l})) \times n_{i} (X_{l = 1}) \end{matrix} - - - (2)

其中：P_w(X＝x)为伪似然概率，MB_x(X_l)表示X_l的Markov概率覆盖。使参数学习问题转化为非线性优化问题。

在对准单元S302中，计算对准模型。一般的，当一个聚类结果形成后，对准结果可以表示为后验概率：

{P_{w}}^{'} (X = x^{'}) = \frac{P_{w} (X = x) P (X = x^{'})}{P (x^{'})} - - - (3)

其中，先验概率P_w(X＝x)来自粗分类结果，因此，最终的对准模型可以表示为：

{P_{w}}^{'} (X = x^{'}) = \frac{P_{w} (X = x) \underset{x = x^{'}}{Σ} P (x | C)}{\underset{C}{Σ} P (X = x) \underset{C}{Σ} (\frac{ΣP (x_{n} | C)}{ΣP (x_{n}^{'} | C)})} - - - (4)

其中，C为数字对象库经过聚类后形成的聚类集合。

根据公式(4)所示的概率模型，即实现经过聚类结果调整的最终分类器，该最终分类器相对于粗略分类器，由于经过了对准处理，分类精度更高，并可以功过聚类结果的引入，使分类偏差得到了控制。

图4是粗略分类装置根据外部知识源自动生成训练集的示意图。包括训练集发生单元S401和学习单元S402。训练集发生单元S401参考可能的外部知识源的输入自动随机抽取数据并筛选生成训练集。然后自动生成的训练即被提供到学习单元S402以学习分类器，并完成分类器的参数估计。

图5是分类系统中的调整生成装置103采取迭代分类器学习的工作过程流程图。其工作流程如下：

首先，在步骤501处，在粗略分类结果生成过程中产生的训练集作为初始训练集。在每次迭代期间，在步骤502处可以使用某种已知的分类器学习方法利用训练集生成中间分类器。在步骤503处，新的分类器被用于对文档库S105中的文档进行分类，以得到新的中间分类结果。在步骤504处，判断是否满足迭代终止条件。该迭代终止条件由用户自己确定。如果迭代终止条件没有被满足，过程则前进到步骤505，利用本轮迭代的中间分类结果生成用于下次迭代的新训练集。如果终止条件满足，则过程前进到步骤506，在迭代过程中所产生的一系列中间分类器被保留。然后在步骤507处，从在迭代过程中所产生的一系列中间分类器中，选出最校准代价最小的一个作为最终分类器，最终该迭代流程结束。

图6是用于实现本发明的计算机系统的示意性框图。包括应用服务器S601，用于处理预定义的公式计算并进行系统整体应用服务；用户接口S602，用于实现对外部知识库系统和存储系统的对接；预处理中间件模块S603，用于对外部数据的预处理过程；数据对象规范化中间件模块S604，用于实现对预处理后的数据对象向量化以便后续计算处理；聚类分析中间件模块S605，用于实现聚类计算；自动分类中间件模块S606，用于执行自动分类的迭代计算。

以上描述了根据本发明实施例的文档分类方法和系统，并重点描述了分类器自动生成，根据上述描述可以看出，本发明具有以下效果：利用聚类结果和多次迭代的方式改进对数字对象的分类过程，削减可能的误差，确保了最终分类结果的精确性；此外，本发明中，外部输入的训练数据集不是必要条件，系统可以根据外部知识源自动生成训练集，并通过迭代过程不断优化，扩展了系统的适用性。

以上所述仅为本发明的实施例，本发明还可以以其他具体形式实现，凡在本发明的精神和原则之内所做的任何修改、等同替换等，军营包含在本发明的范围之中。

Claims

1.一种数字对象分类器生成方法，包括：

获取数字对象的聚类方法；

生成聚类后结果的粗略分类方法，并形成初步分类器；以及

用聚类结果对初步分类器进行参数调整，并形成最终分类器。

2.如权利要求1所述的参数调整步骤包括：

计算对应于所述粗略分类结果的初步分类器的参数估计；

利用聚类结果和最大伪似然估计方法对初步分类器参数进行修正，以生成对应于相应结果的后验概率；以及

根据所述后验概率生成所述最终分类器。

3.如权利要求2所述的方法，其中利用最大伪似然估计方法中，利用最大伪似然估计值代替一般最大似然估计值，并结合一阶逻辑谓词的方法进行参数值的修正。

4.如权利要求2所述的方法，其中所述的参数估计值是利用训练集获得，训练集是通过如下过程自动生成的：

获取与所述对象集合相关分类的类别名；

基于所述的类别名生成相关的关键值；

利用所述关键字分类所述对象集合以得到中间分类结果；以及

从所述中间分类结果获得所述训练集。

5.如权利要求4所述的方法，其中，生成所述关键值的步骤还包括：

参考外部知识源对获取的所述类别名进行重新分类；以及

基于经过重新分类的类别名生成所述关键值。

6.如权利要求4所述的方法，其中所述关键值作为代表性描述，并且所述得到中间分类结果的步骤包括：

利用所述代表性描述作为查询项搜索所述对象集合；以及

将作为搜索结果的命中列表中的对象标注到相应类别中。

7.如权利要求6所述的方法，其中将所述命中列表中的前预定数目个对象标注到相应类别。所述通过中间分类结果获得所述训练集的步骤包括：

用所述聚类结果调整所述中间分类结果以生成中间分类器；以及

从所述中间分类器对应的调整后的分类结果中选择生成所述训练集。

8.如权利要求7所述的方法，其中在用所述聚类结果调整所述初步分类结果以生成最终分类器的步骤中，以所述训练集作为初始训练集进行迭代分类器学习，从而学习一组中间分类器，并从所述一组中间分类器中选择一个最有分类器作为所述最终分类器。

9.最终分类器系统，包括：

获取器，用于获取对象集合的聚类结果；

粗略分类装置，用于生成所述对象集合的粗略分类结果以得到粗略分类器；以及

调整装置，用于用所述聚类结果调整所述粗略分类结果以生成最终分类器。

10.如权利要求9所述的系统，其中所述调整装置包括：

先验概率计算单元，用于计算对应于所述粗略分类结果的先验概率；以及对准单元，利用最大伪似然估计方法和一阶逻辑谓词方法使得所述粗略分类结果与所述聚类结果对准以生成对应于所述对准结果的后验概率，并且根据所述后验概率生成所述最终分类器。