CN101976270A

CN101976270A - 基于不确定推理的文本层次分类方法与装置

Info

Publication number: CN101976270A
Application number: CN 201010562470
Authority: CN
Inventors: 钱钢; 王海; 沈玲玲; 姜乃松; 冯向前; 王艳军
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2010-11-29
Filing date: 2010-11-29
Publication date: 2011-02-16
Anticipated expiration: 2030-11-29
Also published as: CN101976270B

Abstract

本发明涉及利用数据挖掘技术进行中文文本处理的信息技术领域，涉及一种基于不确定推理的文本层次分类方法和装置。包括：a)从训练文本中提取特征；b)确定分类问题的辨识框架和焦元；c)利用特征的权重构造基本可信度分配函数；d)利用特征的基本可信度分配函数合成测试文本的信度分布；e)利用信度分布根据分类规则进行分类。本发明具有以下优点：通过将非叶子类构造成虚拟的叶子类参与分类，很好的区分了父类与子类之间的不同特征；利用基本可信度分配函数分配给非叶子类的信度以及pignistic概率将文本的分类可信度表示为一个三角模糊数，在分类时充分地利用了不确定信息，提高了分类的准确程度。

Description

基于不确定推理的文本层次分类方法与装置

技术领域：本发明涉及利用数据挖掘技术进行中文文本处理的信息技术领域，特别是涉及一种基于证据推理的无标题文本的分类方法和装置。

背景技术：随着在行业内部网络或者因特网上的各种技术类、办公类以及其他电子化文档的快速增长，对文档的分类管理效率及性能提出了更高要求。一方面海量的文档导致单层目录导航不再高效，需要更加科学的多层次目录分类系统进行文档分类管理。另一方面单纯依靠手工对大量文档进行分类已经显得不切实际。所以，文本的自动层次分类技术的研究有很强的实际应用意义。然而目前比较成熟的研究与应用大多在文档的单层目录分类上，文本多层次分类技术还处在初步探索阶段，分类的准确度和性能仍是需要解决的关键问题。

目前探索的层次分类方法的解决方案可以分为两种：

(1)自顶向下的方法(top-down level-based)现有的大部分层次分类方法都采用这种模式，其特点是在类别树的每一层都构建一个或者多个分类器，每个分类器在所在层像单层文本分类一样工作。一个文本从根节点开始，逐层向下分类，直至到达叶子节点。这种方法具有明显的优点：将大的分类问题转化为小的子问题，能较好地降低时间和空间复杂度。然而这种方法也有明显的缺点：如果一个文本被分入了错误的父类，将不可能分入正确的叶子类。

(2)大爆炸方法(big-bang)这种方法在整个分类过程中只构造一个分类器。并用来对文本进行分类。虽然克服了方法1所述的缺点，但方法的时间空间开销一般比较大，不适合在对时间要求较高的场合比如网络上使用。

在没有一种方法能保证100％的正确率的前提下，近可能提高分类准确率就成了分类算法追求的目标。利用特征进行分类的模式下，特征包含的信息是模糊的，不确定的。比如“电脑”一词即可能出现在计算机类的文本中，也可能出现在生物科技类的文本，很难确定一个特征词只出现在一个文本类中，不出现在其他类中，这就是当前的分类算法热衷于使用概率来描述特征的区分度的原因。

发明内容：本发明的目的在于提供一种新的中文文本层次分类方法和装置，用于提高对中文文本分类的准确程度。

本发明利用不确定推理理论：即证据推理和模糊数的相关理论，充分挖掘特征中的不确定信息，改善分类的准确度。

本发明是这样来实现的：一种基于不确定推理的文本层次分类方法，包括：

a)从训练文本中提取特征；

b)确定分类问题的辨识框架和焦元；

c)利用特征的权重构造基本可信度分配函数(BPA)；

d)根据基本可信度分配函数和待分类文本的特征权重合成待分类文本的信度分配；

e)利用信度分布根据分类规则对待分类文本进行分类。

本发明还提供一种文本层次分类装置，包括：

a)文本预处理模块U1，用于将文本预处理成算法需要的TF及BINARY向量形式；

b)特征抽取、分类器训练模块U2，用于对文本预处理模块U1处理的文本特征的抽取、训练分类器；即用于利用TF*IDF方法提取文本特征，对文本降维，并利用特征权重构造基本可信度分配函数；

c)分类模块U3，用于根据特征抽取、分类器训练模块U2生成的分类器对待分类文本进行分类，并评价分类效率与准确性。

与现有文本层次分类技术相比，本发明具有以下优点：

通过将非叶子类构造成虚拟的叶子类参与分类，很好的区分了父类与子类之间的不同特征；利用基本可信度分配函数分配给非叶子类的信度以及pignistic概率将文本的分类可信度表示为一个三角模糊数，在分类时充分地利用了不确定信息，提高了分类的准确程度。

附图说明：图1是本发明实施例中文本层次分类方法的流程图；

图2是本发明实施例中分类器训练的流程图；

图3是本发明实施例中分类模块的流程图；

图4是本发明实施例中测试文本的分类结果判定的流程图；

图5A、5B是本发明实施例中测试宏平均值及微平均值与每个类选取的特征数之间的关系图；

图6是实现本发明的文本层次分类方法的装置的结构图；

具体实施方式：以下结合附图对本发明作具体说明。应该指出，所描述的实施例仅仅视为说明的目的，而不是对本发明的限制。

实施例1

本发明的实施例1提供了一种文本层次分类方法，如图1所示，包括以下步骤：

步骤101：从训练文本中提取特征；

步骤102：确定分类问题的辨识框架和焦元，利用特征的权重构造基本可信度分配函数(BPA)；

步骤103：根据基本可信度分配函数和待分类文本的特征权重合成测试文本的信度分配；

步骤104：利用信度分布根据分类规则对待分类文本进行分类。

以下进一步详细的说明本发明实施例的文本层次分类方法中的各个细节问题。

1、语料选择：

本实施例采用的语料为中文文本分类语料库-TanCorpV1.0，该语料库分为两个层次，第一层12个类别，第二层60个类别，共有文本14150篇，具体层级结构及文本数见表1。实验时选取每个类别其中的70％作为训练语料，剩下的30％作为测试语料。

表1

2、确定辨识框架与焦元：

对于一个层次分类问题，其类别层次结构可以用一个类别树来表示。类别树由一个根节点、若干中间节点和叶子节点组成。文本层次分类就是要将一个文本通过根节点、中间节点分到某个叶子节点。

为描述问题方便，下面只说明层次结构为2层的情况。设分类问题中共有CN1个大类，记为c_m，共CN2个小类，其中c_m类中有n_m个子类，其中m 1，2，…，CN1。类层次关系可以用下面类似矩阵的形式表示：

\begin{matrix} c_{1} \\ c_{2} \\ M \\ c_{CN 1} \end{matrix} (\begin{matrix} c_{11} & c_{12} & Λ & c_{1, n_{1}} \\ c_{21} & c_{22} & Λ & c_{2, n_{1}} \\ M & M & O & M \\ c_{CN 1,1} & c_{CN 1,1} & Λ & c_{CN 1, n_{CN 1}} \end{matrix})

于是，所有叶子类构成该分类问题的辨识框架，记为：

Ω = {c_{11}, Λ, c_{1, n_{1}}, c_{21}, Λ, c_{2, n_{1}}, Λ, c_{CN 1,1}, Λ, c_{CN 1, n_{CN 1}}}

本发明实施例中假设信度只可能分配到某个具体的类别上，包括层次1大类和层次2子类，故所有可能的焦元集合可以记为：

F = {c_{11}, Λ, c_{1, n_{1}}, c_{21}, Λ, c_{2, n_{1}}, Λ, c_{CN 1,1}, Λ, c_{CN 1, n_{CN 1}}, {c_{11}, Λ, c_{1, n_{1}}}, {c_{21}, Λ, c_{2, n_{1}}}, Λ, {c_{CN 1,1}, Λ, c_{CN 1, n_{CN 1}}}, Ω}

也就是说：m(2^Ω\F)＝0。同时，将文本中的特征及其出现频率作为证据。以下将F\Ω中的每个元素看做一个类，即共有CN1+CN2个类，显然该集合中有CN1个虚拟类，其意义为：例如，表示有证据说明文本有10％的可能性是属于第一大类的，但是却不确定这10％的可能性是支持文本属于第一大类的哪一个子类的。这种不确定性是由于大类的特征与子类的特征一般不同造成的，它不仅对将文本分入正确的大类很有用，而且利用不确定推理的知识，也可以用之来帮助子类层次的分类。这正是本发明的主要思想之一。

2、特征选取：

这里选择词作为文本特征。特征选取采用TF*IDF方法：选取TF*IDF值最大的前一定数目的词作为特征。首先将每个类包含的所有文本(层次1大类包含的文本是指其全部子类包含的全部文本)的TF向量融合成一个类文本TF向量；然后设定想要抽取的类的特征数的阀值ρ₁，并根据类文本的TF*IDF值选取制定数目的词作为该类的特征；最后综合得到分类器的特征，特征数记为N。这种为每个类分别选取特征的方法能使得在总特征数大为缩减的同时还能提高分类精度。最优特征数量由分类测试的结果来确定。

4、训练分类器

如图2所示，分为如下步骤：

步骤201：分别生成每个类的文本特征的TF向量和BINARY向量；

步骤202：由下面的公式计算类文本d_i中特征f_j的权重W(d_i，f_j)：

W (d_{i}, f_{j}) = \sqrt{TF (d_{i}, f_{j})} \cdot IDF (f_{j}) / Σ_{j = 1}^{N} {(\sqrt{TF (d_{i}, f_{j})} \cdot IDF (f_{j}))}^{2}

由于直觉上词的权重与词频TF的关系不应该是TF*IDF公式所描述的简单的线性关系，本发明将公式中的TF改进为

实验证明改进后分类精度得到了改善；

步骤203：利用特征的权重值构造证据推理的基础：基本可信度分配函数。

首先给出本发明中使用的基本可信度分配函数的定义：

定义1：设类文本d_i中特征f_j的权重为W(d_i，f_j)，记S_j＝∑_iW(d_i，f_j)。定义特征f_j的基本可信度分配函数：

m(c_i，f_j)＝W(d_i，f_j)/S_j，

其中，i＝1，2，Λ，CN2，CN2+1，Λ，CN2+CN1，j＝1，2，Λ，N。

显然，根据定义1：m(Ω，f_j)＝0。本发明中这样定义的原因是基于这样的假设：特征至少在一个类(层次1大类或者层次2子类)中出现过。

5、分类

分类的主要思想是将待分类文本中出现的特征及其频度作为证据，结合训练得到的基本可信度分配函数，利用证据推理的理论合成待分类文本在各焦元上的信度分配，在利用信度分配按照分类规则分类，如图3所示，具体步骤如下：

步骤301：读入待分类文本并预处理成特征及其频度的向量形式，记为：

x＝(TF₁，TF₂，Λ，TF_j，Λ，TF_N)

步骤302：将x归一化，作为各证据的权重w＝(w₁，w₂，Λ，w_j，Λ，w_N)，其中：

w_{j} = \sqrt{{TF}_{j}} / Σ_{j} \sqrt{{TF}_{j}}

步骤303：利用证据推理知识进行证据合成。共有N个证据，其基本可信度分配函数由定义1给出，证据权重由步骤302给出。本发明实施例采用递推合成算法，该算法属于现有技术。

记合成后的信度分布为m(c_i)，其中i＝1，2，Λ，CN2，CN2+1，Λ，CN2+CN1。当1≤i≤CN2时，m(c_i)表示证据支持待分类文本属于层次2子类c_i的程度，当CN2+1≤i≤CN2+CN1时，m(c_i)表示证据支持待分类文本属于层次1大类c_i-CN2的程度，是没有分配给具体层次2子类的信度。

步骤304：利用合成的信度分布根据分类规则，如图4所示，分类结果判定流程如下：

步骤401：利用步骤303中的得到的信度分布，计算出待分类文本属于层次1大类c_m的概率P₁(c_m)，属于层次2子类c_i的概率P₂(c_i)。记index(max(·))表示取最大值的下标索引，即index(max(P₁))表示概率最大的层次1大类的类标号，index(max(P₂))表示概率最大的层次2子类的类标号。同时记L1Index(c_i)为层次2子类c_i的层次1大类的类标号。这里概率的计算方法如下：

(1)测试文本属于层次2子类c_i的概率P₂(c_i)分为两部分，一部分是证据支持待分类文本属于该类的信度m(c_i)，这一部分是确定的；另一部分是证据支持待分类文本属于该类的父类c_m即层次1大类的信度m(c_m)，这一部分是不确定的，即不知道该怎样分配到其子类上。本发明采用根据理由不充分准则而来的Pignistic概率分配方法

BetP (c_{i}) = \frac{1}{| c_{m} |} m (c_{m})

其中，c_i为层次1大类c_m的所有子类，|c_m|表示包含的子类数。于是P₂(c_i)可以表示成一个三角模糊数(m(c_i)，m(c_i)+BetP(c_i)，m(c_i)+m(c_m))，其意义分别为文本属于层次2子类c_i的概率的下界、最可能值、上界。为了实现三角模糊数的比较，本发明采用逆模糊化的方法：

P₂(c_i)＝α·m(c_i)+β·(m(c_i)+BetP(c_i))+γ·(m(c_i)+m(c_m))

其中α，β，γ∈(0，1)且α+β+γ＝1。

(2)待分类文本属于层次1大类c_m的概率P₁(c_m)等于该文本属于大类c_m的所有子类的概率之和：

P₁(c_m)＝∑P₂(c_i)

其中c_i为层次1大类c_m的所有子类。

步骤402：如果index(max(P₁))等于L1Index(index(max(P₂)))，也就是待分类文本最可能属于的层次1大类与文本最可能属于的层次2子类所在的大类相同，这时接受分类结果，待分类文本属于层次1的第index(max(P₁))大类、层次2的第index(max(P₂))子类，转至步骤406。否则转入步骤403。

步骤403：对于两个错误的分类而言，第一个错误将待分类文本归入正确的层次1大类、错误的层次2子类，第二个错误将待分类文本归入错误的层次1大类，显然前者犯的错误小于后者。在没有办法保证100％的正确率时，减小分类错误及其后果是很有必要的。因此，基于优先将待分类文本分入正确可能性大的大类的思想，本发明采取如下判断规则：如果max(P₁)大于某一预先设定的阀值ρ₂，接受第一层次的分类，将待分类文本分入层次1的第index(max(P₁))大类，转入步骤404；否则转入步骤405。

步骤404：在层次1大类确定的条件下，根据该类下的子类的概率对待分类文本进行第二层次的分类，分类结果为待分类文本属于层次2的第index(max(P₂))子类。转入步骤406。

步骤405：如果待分类文本属于层次1上大类的概率区分度不大，也就是不能比较高概率地判断文本属于哪个大类，这时利用待分类文本属于层次2子类的概率进行分类，根据max(P₂)将文本分入层次1第L1Index(index(max(P₂)))大类、层次2第index(max(P₂))子类。转入步骤406。

步骤406：输出分类结果，分类结束。

6、评价方法与实施例实验结果

为了验证本发明的层次分类方法的有效性，采用前述TanCorpV1.0语料库的两个层次全部12大类60小类的文本进行测试。评价指标选择F1的宏平均和微平均。在以下的实验中，取阀值ρ₂＝0.5，α＝γ＝1/6，β＝4/6。

特征提取环节是分类的基础，特征数的多少能直接影响分类的准确性。在本发明的算法中，每个类特征数由预先设定的阀值ρ₁确定，在实施例中，ρ₁为一个CN1+CN2维向量，为选择最优的阀值ρ₁以及合成后的分类器的特征数，发明人通过单层次的分类实验，如图5，确定了各层次分类时的最优特征数。图5A、5B分别显示了层次1的CN1个大类上分类时不同的分类器特征数对应的F1的微平均(MicroF1)和宏平均(MacroF1)，同时也显示了在相同条件下利用SVM方法分类的F1的微平均(MicroF1)和宏平均(MacroF1)，显然本发明提供的方法比SVM方法有更好的分类精度。从图中也可以看出，随着特征数的增多，分类准确度也增加，但是特征数太多带来的时间和空间的开销也增大。同时当层次1大类的每个类选取的特征数为350时，分类性能局部最高，此时，对应的合成后层次1大类的分类器特征数为3527。类似地，在层次2小类上进行分类实验，可以确定当当层次1大类的每个类选取的特征数为200时，分类性能局部最高，此时，对应的合成后层次2小类的分类器特征总数为6258。最后综合得到本发明方法的分类器的特征数为7960，后面的实验中均取此值。

选择该特征数阀值，第一层次上的分类和第二层次上的分类精度分别如下表2所示。

表2

	MicroF1	MacroF1
			层次1	92.72％	89.02％
层次2	77.66％	74.47％

本发明公开的方法提高了中文文本层次分类的精度，该方法可以应用于涉及对大量文本进行分类管理的知识管理系统或者网络信息处理系统中，对于中文文本特别是无标题文本的自动分类管理提供了更科学高效的方法。例如，搜索引擎的搜索结果分类，有利用用户找到自己感兴趣的类别的搜索结果；知识管理系统中的文本分类，有利用系统挖掘和发现隐藏在类别信息下的知识。

实施例2

本发明的实施例2还提供了一种文本层次分类装置，如图6所示，包括：

文本预处理模块U1，用于将文本预处理成算法需要的TF及BINARY向量形式，包括：

分词单元U11，用于对输入的文本进行分析，输出分词的结果：词列表。

系统词典生成单元U12，用于统计文本集合中出现的词，并统一编号。

文本向量生成单元U13，用于根据系统词典对每个文本进行分析，生成文本的TF及BINARY向量。

特征抽取、分类器训练模块U2，用于对文本预处理模块U1处理的文本特征的抽取，训练分类器，包括：

类文本向量生成单元U21，用于统计每个类(包括叶子节点类和非叶子节点类)的文本TF及BINARY向量。

特征抽取单元U22，用于根据特征权重计算公式和特征数阀值抽取一定数目的特征。

特征BPA函数生成单元U23，用于根据文本的特征权重向量生成各特征的基本可信度分配(BPA)函数。

分类模块U3，用于根据特征抽取、分类器训练模块U2模块生成的分类器对待分类文本进行分类，包括：

特征证据权重生成单元U31，用于对待分类文本表示成特征的TF向量形式，并生成归一化的特征证据权重。

证据合成单元U32，用于根据特征抽取、分类器训练模块U2模块生成的BPA函数和特征证据权重对证据进行合成，生成待分类文本属于各类别的信度分布。

概率计算单元U33，用于根据证据合成单元U32生成的信度分布，利用Pignistic概率以及三角模糊数的知识计算待分类文本属于各叶子节点类和非叶子节点类的概率。

分类结果判定单元U34，用于根据概率计算单元U33输出的待分类文本属于各类别的概率，一用分类规则判定待分类文本的最终分类结果。

分类精度评价单元U35，用于对待分类文本集的分类结果按照通用的评价标准评价分类进度。

最优特征数生成单元U36，用于根据多次具体的分类精度评价值的优劣生成特征提取时的最优特征权重阀值及特征数阀值。

Claims

1.一种基于不确定推理的文本层次分类方法，其特征在于，所述方法包括如下步骤：

从训练文本中提取特征；

确定分类问题的辨识框架和焦元集合；

利用特征的权重构造基本可信度分配函数(BPA)；

根据基本可信度分配函数和待分类文本的特征权重合成待分类文本的信度分配；

利用信度分布根据分类规则对待分类文本进行分类。

2.如权利要求1的方法，其特征在于，所述从训练文本中提取特征包括：

对文本进行分词，统计词频，将文本表示成TF向量和BINARY向量，计算文本中词的TF*IDF值，根据权重提取特征；文本中特征的权重包括：

W (d_{i}, f_{j}) = \sqrt{TF (d_{i}, f_{j})} \cdot IDF (f_{j}) / Σ_{j = 1}^{N} {(\sqrt{TF (d_{i}, f_{j})} \cdot IDF (f_{j}))}^{2}

其中，W(d_i，f_j)为文本d_i中特征f_j的权重，TF(d_i，f_j)为文本d_i中特征f_j的频数，IDF(f_j)为特征f_j的反文档频率。

3.如权利要求1的方法，其特征在于，确定分类问题的辨识框架和焦元集合，是将所有的叶子节点类的集合确定为分类问题的辨识框架；将除根节点外的所有节点类的集合作为分类问题的焦元集合；焦元集合中的非叶子节点类焦元的信度是指分配在该大类上且不确定该分配给该大类的哪个子类的信度。

4.如权利要求1的方法，其特征在于，所述根据特征的权重构造基本可信度分配函数包括：

m(c_i，f_j)＝W(d_i，f_j)/S_j

其中，m(c_i，f_j)为特征f_j属于焦元集合中的类c_i，的可信度，S_j为焦元集合中的所有类上特征f_j的权重之和。

5.如权利要求1的方法，其特征在于，所述利用信度分布根据分类规则对待分类文本进行分类包括：

由待分类文本的TF向量按下述公式生成待分类文本的特征证据权重：

w_{j} = \sqrt{{TF}_{j}} / Σ_{j} \sqrt{{TF}_{j}}

其中，w_j为待分类文本中特征f_j的权重，TF_j为待分类文本中特征f_j出现的频数；

利用证据权重对基本可信度分配加权，再利用递推合成算法得到待分类文本属于焦元集合中所有类的信度分布；

由信度分布根据分类规则对待分类文本进行分类。

6.如权利要求5的方法，其特征在于，所述根据分类规则进行分类包括：

利用信度分布计算待分类文本属于每个层次的所有类的概率；

利用待分类文本属于每个层次的所有类的概率根据分类规则在每个层次上分类。

7.如权利要求6的方法，其特征在于，所述利用信度分布计算待分类文本属于每个层次的所有类的概率包括：

将分配给父类的信度根据Pignistic概率分配方法分配给其子类，构造子类的信度的三角模糊数的表述形式，并逆模糊化为概率；一个父类的信度等于分配给其所有子类的的概率之和；

所述将分配给父类的信度根据Pignistic概率分配方法分配给其子类包括：

BetP (c_{i}) = \frac{1}{| c_{m} |} m (c_{m})

其中，BetP(c_i)为Pignistic概率分配给子类c_i的信度，|c_m|为父类c_m包含的子类数，m(c_m)为分配给父类c_m的信度。

所述子类的信度的三角模糊数的表述形式包括：

(m(c_i)，m(c_i)+BetP(c_i)，m(c_i)+m(c_m))

其中，m(c_i)为待分类文本属于类c_i的最小概率，m(c_i)+BetP(c_i)为待分类文本文本属于类c_i的最可能概率，m(c_i)+m(c_m)为待分类文本文本属于类c_i的最大概率。

所述逆模糊化包括：

P₂(c_i)＝α·m(c_i)+β·(m(c_i)+BetP(c_i))+γ·(m(c_i)+m(c_m))

其中，P₂(c_i)为文本属于类的概率，α，β，γ∈(0，1)且α+β+γ＝1。

8.如权利要求6的方法，其特征在于，所述分类规则包括：

如果下一层次概率最大的类别属于上一层次的概率最大的类别，则接受上下两个层次上的分类结果，按各层次最大概率分类；如果下一层次概率最大的类别不属于上一层次的概率最大的类别，但上一层次的最大概率大于预先设定的阀值时，将上一层次按最大概率分类，再在该类别中按照概率最大原则分类；如果下一层次概率最大的类别不属于上一层次的概率最大的类别，同时上一层次的最大概率不大于预先设定的阀值，按照下一层次的概率最大原则确定文本的上下层次分类结果。

9.一种基于不确定推理的文本层次分类装置，其特征在于，包括：

文本预处理模块U1，用于将文本预处理成算法需要的TF及BINARY向量形式；

特征抽取、分类器训练模块U2，用于对文本预处理模块U1处理的文本特征的抽取、训练分类器；即用于利用TF*IDF方法提取文本特征，对文本降维，并利用特征权重构造基本可信度分配函数；

分类模块U3，用于根据特征抽取、分类器训练模块U2生成的分类器对待分类文本进行分类，并评价分类效率与准确性。

10.如权利要求9的文本层次分类装置，其特征在于，所述文本预处理模块U1包括：

分词单元，用于对输入的文本进行分析，输出分词的结果：词列表；

系统词典生成单元，用于统计文本集合中出现的词，并统一编号；

文本向量生成单元，用于根据系统词典对每个文本进行分析，生成文本的TF向量及BINARY向量。

11.如权利要求9的文本层次分类装置，其特征在于，所述特征抽取、分类器训练模块U2包括：

类文本向量生成单元，用于统计每个类，包括叶子节点类和非叶子节点类的文本TF向量及BINARY向量；

特征抽取单元，用于根据特征权重计算公式和权重阀值抽取一定数目的特征；

特征BPA函数生成单元，用于根据类的文本特征权重向量生成各特征的基本可信度分配(BPA)函数。

12.如权利要求9的文本层次分类装置，其特征在于，所述分类模块U3包括：

特征证据权重生成单元，用于对待分类文本表示成特征的TF向量形式，并生成归一化的特征证据权重；

证据合成单元，用于根据特征抽取、分类器训练模块模块生成的BPA函数和特征证据权重对证据进行合成，生成待分类文本属于各类别的信度分布；

概率计算单元，用于根据证据合成单元生成的信度分布，利用Pignistic概率以及三角模糊数的知识计算待分类文本属于各叶子节点类和非叶子节点类的概率；

分类结果判定单元，用于根据概率计算单元输出的待分类文本属于各类别的概率，一用分类规则判定待分类文本的最终分类结果；

分类精度评价单元，用于对待分类文本集的分类结果按照通用的评价标准评价分类进度；

最优特征数生成单元，用于根据多次具体的分类精度评价值的优劣生成特征提取时的最优特征权重阀值及特征数。