CN102033964B

CN102033964B - 基于块划分及位置权重的文本分类方法

Info

Publication number: CN102033964B
Application number: CN2011100065017A
Authority: CN
Inventors: 周亚建; 平源; 杨义先; 彭维平; 刘念
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2011-01-13
Filing date: 2011-01-13
Publication date: 2012-05-09
Anticipated expiration: 2031-01-13
Also published as: CN102033964A

Abstract

本发明公开一种基于块划分及位置权重的文本分类方法。它包括步骤：对输入的训练或测试文本经过基本的预处理后，提取文本中的段信息；将每一段视为一个基本的文本块，对块信息做统计分析，根据块大小分布或预定义的块比率，对文本内容重新进行块划分，包括文本块的合并等操作。提取特征词、量化权重，并获取特征词对类别的后验概率，然后分析具有最大后验概率类别与文本类别标签相符的特征词的分布，最后生成文本向量；利用分类器完成分类模型训练或文本分类。本发明可用于文本分类系统的文本表示阶段，通过丰富传统的利用特征词构建文本向量时对文本内容信息的表达，提升文本分类效果。

Description

基于块划分及位置权重的文本分类方法

技术领域

本发明涉及一种基于块划分及位置权重的文本分类方法，属于电子文本组织归类领域。

背景技术

文本分类通常从两个角度评价文本分类方法的优劣：一是分类性能，如准确率、召回率和F1值，二是实现性能，如时间效率和存储效率。而实现文本分类的过程却包含文本预处理、文本表示、分类器训练和分类应用等步骤，其中文本表示包含特征选择、特征权重量化、特征降维等细节。

常规的文本分类方法较多的集中在分类器的选择和改进方面，主要有基于支持向量机、K近邻、贝叶斯网络或多分类器组合等技术，尤其是支持向量机技术以其较高的分类性能和泛化能力而被广泛应用。然而，分类器的分类性能是受待分样本的可分性制约的，而确保样本可分性的关键却在于文本表示。一个文本数据在通过预处理之后，丢失部分信息是不可避免的，而文本向量固有的稀疏性则将加剧信息的丢失，以至于从分类器的设计上去解决输入样本的本身的类别重叠、噪声等变得异常困难和不确定。所以，一个良好文本分类方法如果能够在文本表示阶段最大程度地保留文本所携带的信息，无疑对于提高文本分类的效果是有益的。

传统的文本分类方法主要有两种模式：一是完全基于特征词的词频(TF)信息及其变化来反映文本信息，一是对文本进行断句后，根据特征词所在句子的不同来调节特征词权重以丰富所反映的文本信息。前者由于表达模式单一，不能最大程度的保留文本信息；后者虽携带信息更丰富，但通常的文本大小不一、句子长度差异大，导致句划分分析模式的适应能力差、存储资源消耗大，且不易于寻找有效的特征词权重调节模式等问题。

发明内容

本发明的目的是提供一种基于块划分及位置权重的文本分类方法，能够对文本做块划分、调整和分析后，引入特征词的位置权重表达以丰富文本向量的信息量，进一步提高文本分类的性能。

本发明的一个基本思想就是通过将文本内容划分为文本块，并利用特征词所在的块号或块偏移对特征重要程度的影响，来阐释文本携带的特征词信息之外的结构信息。然而，即便是同类文本的不同实例的原始段(块)大小与数量都是随机的，同时，对于文本块较多的情况，距离较近的文本块对相同特征词的重要程度影响较小，所以为避免直接使用原始段作为文本块的基本单位带来的计算、存储开销，需要对文本块进行适当的调整或重新划分。

本发明的技术方案是：基于块划分及位置权重的文本分类方法，包括如下步骤：

第一步：预处理及原始段、块的提取与标记：对输入的训练或测试文本使用基本的预处理，分析、提取并标记文本的原始段信息，将每个段视为一个文本块；

第二步：统计分析每个文本的块大小与分布，根据一个阈值，对近邻小文本块做合并操作；根据预定义块比率对整个文本或特定文本块重新进行块划分和标记；

第三步：判断处理对象，若为训练集文本，转入第四步，否则转入第六步；

第四步：利用常规的特征提取方法从训练集文本中提取特征词t_j；使用特征权重量化方法，计算特征词的权重w_j；计算特征词t_j对每个训练类别的后验概率；

第五步：提取每个训练集文本中的具有最大后验概率类别与文本类别标签相符的特征词的分布，分析该特征词分布，选择合适的位置权重表达式f(b)，其中b为块号；

第六步：根据第四步的特征词，提取测试文本的特征词t_j、所属文本块号b_j及原始权重w_j；计算位置权重f(b_j)·ω_j来替代原始权重w_j，并输出文本向量；

第七步：利用分类器完成分类模型训练或文本分类。

上述第一步中预处理及原始段、块的提取与标记采用的方法包括中/英文分词、去停用词、英文的词根还原，若为网页文本，则增加去HTML标记等操作。

上述第一步中分析、提取文本的段信息，将每一个段视为一个文本块，加以标记。

上述第二步中合并操作的步骤为：

根据第一步中的标记结果，长度为|D|的文本D被划分为长度序列{d₁，d₂，…，d_l}，其中，l为文本块数，则统计文本D的块平均长度

和方差δ如下。

\overset{&OverBar;}{d} = \frac{1}{l} Σ_{k = 1}^{l} d_{k} - - - (1)

δ = {(\frac{1}{l - 1} Σ_{k = 1}^{l} {[d_{k} - \overset{&OverBar;}{d}]}^{2})}^{\frac{1}{2}} - - - (2)

上述第四步中提取特征词的方法为基于互信息量(Mutual Information)、卡方(chi-square，χ²)和RF(relevance frequency)中的一种特征提取方法。

上述第四步中计算特征词的权重w_j的方法包括IDF(Inverse Document Frequency)、卡方、RF、OR(Odd Ratio)中的一种特征词权重量化方法。

上述第四步中计算特征词t_j对每个训练类别的后验概率，对类别C_i的后验概率Pr(C_i|t_j)的计算方法为：

\Pr (C_{i} | t_{j}) = \frac{\Pr (C_{i}, t_{j})}{\Pr (t_{j})} = \frac{\Pr (t_{j} | C_{i}) \cdot \Pr (C_{i})}{\Pr (t_{j})} - - - (3)

\Pr (C_{i}) = \frac{Σ_{j = 1}^{N} tf (t_{ji})}{Σ_{i = 1}^{| C |} Σ_{j = 1}^{N} tf (t_{ji})} - - - (4)

\Pr (t_{j}) = \frac{Σ_{i = 1}^{| C |} tf (t_{ji})}{Σ_{i = 1}^{| C |} Σ_{j = 1}^{N} tf (t_{ji})} - - - (5)

\Pr (t_{j} | C_{i}) = \frac{tf (t_{ji})}{Σ_{j = 1}^{N} tf (t_{ji})} - - - (6)

其中，tf(t_ji)为特征词t_j在类别C_i中出现的频率，|C|为训练集中包含的类别数，N为特征词总数，对于具有多类文本的训练过程，每一个特征词t_j都会得到一个后验概率序列，{Pr(C₁|t_j)，Pr(C₂|t_j)，...，Pr(C_N′|t_j)}，其中N’为训练文本的类别总数。

上述第五步中特征词分布分析方法包括以下两种：

方法一，根据文本分类器的目标应用，分析各类别文档的共性结构规范，确定最佳表达文本类别的信息与该信息存在于文档中的偏移关系，而后选择一个合理的位置权重表达式；

方法二，由文本分类器，依据第二步的块划分，先将从长度大于一个阈值d_threshold的文本D_k(|D_k|≥d_threshold)中提取的特征词集

划分为如下序列：

T_{D_{k}} = {T_{D_{k 1}}, T_{D_{k 2}}, . . ., T_{D_{kr}}} - - - (7)

其中，r为文本D_k的块数，然后依据一定的统计分析方法得到位置权重表达式，通过分析得到每个块对文档类别判定的贡献程度，再通过概率拟合算法得到的位置权重表达式为

f (b) = \log_{2} (\frac{δ}{b + 1} + 2) - - - (8)

其中，b∈[0，r-1]为块偏移，δ(≥1)为控制位置权重值范围和偏移落差的阈值，为预设值。

本发明的有益效果：

本发明的研究将人工进行文本分类时，有意识地提取文本对象特定区域、特定词等信息以对文本做出合理的类别判断的行为，转换为从文本向量对文本信息的表达能力提升的角度来提高文本分类器的分类效果。为此，本发明的文本分类方法，通过先将文本进行内容块标记、调整或重划分，然后利用人工或统计方法对文本中最大后验概率与文本类别标签相同的特征词的分布进行分析，确定特征词重要程度与其所在块偏移的关系作为位置权重，最后将位置权重和传统的特征权重相结合计算新的特征权重值，并输出相应的文本向量到分类器进行分类。

本发明方法采用了灵活的文本块划分方式，适宜处理任意长度的文本，能最大程度地节省文本分类器实现系统对存储资源的占用，并且块大小调整或重划分过程无须额外的文本扫描工作，极大的节约了分类所需的时间。同时，采用本发明的基于块偏移的位置权重表达模式，能从根本上解决传统方法本质上单纯地基于词频的权重所存在的表达模式单一，生成文本向量的信息量不足的问题。因此，本发明的本质是在原特征权重中附加了文本的结构信息，使得文本向量表达信息更丰富，使本发明的实现系统在分类的准确率、召回率等指标比传统方法有较大幅度的提高。

附图说明

图1本发明的基于块划分及位置权重的文本分类方法流程图。

具体实施方式：

下面结合附图和实施例，对本发明所述的技术方案作进一步的阐述。

在人工进行分类的时候，人们如果判断一个文本属于哪一类或者是获取文本所传达的信息，往往并不需要通读全文以确定文本的主题进而得到正确的判断，而是在文本的特定位置提取反映文本类型的特征词。而确定一个具有相当重要程度的特征词，也不仅仅依据它在一个文本中出现的频率来判断。也就是，一个具有明确的单类别或多类别归属的文本，通常具有在其特定领域的规范表达，即同样的特征词由于其处于文本中的位置不同，也将携带不同的信息量。换言之，一个文本所传达的信息量，应至少包含由组成文本的特征词所携带的信息和影响特征词本身作为反映文本类别的重要程度的文本结构信息两部分。而文本分类器从文本中获取的信息量越多，越将有利于做出正确的判断。然而，让文本分类器提取特征词是容易的，要精确分析文本结构并给出严格的特征词重要程度受结构影响的表达式却是不可能的。在对语料库的分析时，虽然每个特征词都可能在不同的类别中出现，但通过后验概率分析，我们能找与其具有最大相关度的类别，本发明称其为特征词的最大类别倾向。结合恰当的统计分析方法对特征集内各特征词的最大类别倾向分析，能找到特征词权重与位置结构关系的近似，进而优化文本表示的信息量。也就是说，本发明实现了一种基于块划分和位置权重分析的文本分类新方法。

本发明基于块划分及位置权重的文本分类方法的步骤如下：

1)预处理及原始段(块)提取与标记，它包括：

a.对输入的训练或测试文本，使用基本的预处理；

b.分析、提取并标记文本的原始段信息，将每个段视为一个文本块；

2)块信息统计分析，相邻文本块合并或按预定义的块比率重新划分文本块，它包括下面两个可选步骤：

a.统计分析每个文本的块大小与分布，根据一个阈值，对近邻小文本块做合并操作；

b.根据预定义块比率，对整个文本或特定文本块重新进行块划分和标记；3)判断处理对象，若为训练集文本，转入步骤4)，否则，转入步骤6)；

4)提取特征词、量化权重，并获取特征词t_j对类别C_i的后验概率Pr(C_i|t_j)，它包括：

a.利用常规的特征提取方法，从训练集文本中提取特征词t_j；

b.使用一种特征权重量化方法，计算特征词的权重w_j；

c.计算特征词t_j对每个训练类别的后验概率，如对类别C_i的后验概率Pr(C_i|t_j)；

5)根据最大后验概率类别与文本类别标签相符的特征词分布分析，选择或设计位置权重表达式，它包括：

a.提取每个训练集文本中的具有最大后验概率类别与文本类别标签相符的特征词的分布；

b.分析a步骤的特征词分布，选择或设计合适的位置权重表达式f(b)，其中b为块号；

6)提取特征词t_j、所属块号b_j及原始权重w_j，计算f(b_j)·w_j，并生成文本向量，它包括：

a.根据步骤4)的特征词集，提取测试文本的特征词t_j、所属文本块号b_j及原始权重w_j；

b.计算位置权重f(b_j)·w_j来替代原始权重w_j，并输出文本向量；

7)分类器训练模型或分类。用于训练分类模型或分类的分类器可以是任何支持文本向量模型的分类器，如支持向量机分类器、K近邻分类器及朴素贝叶斯分类器等。

1.预处理及原始段(块)提取与标记

步骤1.a的预处理操作以利于提取训练集或测试集文本的原始段落信息为中心，可以采用常规的预处理方法，如中/英文分词、去停用词、英文的词根还原等，若为网页文本，则可增加去HTML标记等操作；

步骤1.b分析、提取文本的段信息，将每一个段视为一个文本块，加以标记，以便在步骤2中进行块分析与调整；

步骤1.a和1.b没有先后关系，具体实施过程中，可根据实际情况将二者有效融合，或先提取并标记文本块(段)信息后再做基本预处理操作。例如，在处理网页文本时，HTML标记中的“<H>与</H>”和“<p>与</p>”分别反映了文本的标题和段落数据范围，此时便可先自行标记文本块信息后清除这些语法标记。

本发明方法建议在处理网页文本时，将HTML标记“<H>与</H>”之间的标题文本或其他具有明确主题反映能力的文本块作为一个独立的文本块划分，并不受步骤2的块调整方法影响。

2.块信息统计分析，相邻文本块合并或按预定义的块比率重新划分文本块

本发明关于文本块调整或重新划分包含两个可选方案：

b.根据预定义块比率，对整个文本或特定文本块重新进行块划分和标记；

所述的方案a中，假设根据步骤1中的标记结果，长度为|D|的文本D被划分为长度序列{d₁，d₂，…，d_l}，其中，l为文本块数。则统计文本D的块平均长度

和方差δ如下：

\overset{&OverBar;}{d} = \frac{1}{l} Σ_{k = 1}^{l} d_{k} - - - (9)

δ = {(\frac{1}{l - 1} Σ_{k = 1}^{l} {[d_{k} - \overset{&OverBar;}{d}]}^{2})}^{\frac{1}{2}} - - - (10)

判断一个文本块是否需要进行调整的条件是：对于设定的系数λ，如果当前文本块的长度d_i(i∈[1，l])小于

进行文本块合并的方法可以是将第i个文本块并入第i-1或i+1个文本块中；

所述的方案b中，可预设块大小比率R，将文本逐次划分为长度为R·|D|的文本块。

所述的方案b中，文本块大小比率R将直接影响文本即将被划分的块数，预设原则可以是人工对文本分类的目标领域的文档做有意义的结构分析而得到，也可以是其他任何有效方式。

本步骤中，上述两个方案可以结合使用，条件是：当文本分类系统选择使用方案a所述方法进行文本块调整时，但存在一些步骤1无法提取恰当的信息进行原始块划分和标记的文本，且该文本的长度|D|又大于一个预设的全文长度界|D|_max时。

由于它们本身没有足够的信息使得步骤1合理的标记文本块，

3.判断处理对象，若为训练集文本，转入步骤4)，否则，转入步骤6)；

本发明的图示步骤采用了将文本分类系统的训练过程和测试过程结合的表达方式，故步骤3对处理对象的判断并不是必须在步骤2之后进行。在实际的文本分类系统中，对训练集的训练和对测试集的测试过程是两个独立的过程，即在将本发明方法用于具体的文本分类系统中，可以将此7个步骤分解为训练和测试两个步骤序列，示例如下：

训练过程：步骤1→步骤2→步骤4→步骤5→步骤7

测试过程：步骤1→步骤2→步骤6→步骤7

4.提取特征词、量化权重，并获取特征词t_j对类别C_i的后验概率Pr(C_i|t_j)

本发明实际是实现了一种基于并具有灵活的块划分能力和位置权重分析的文本分类方法，所以对于提取特征词、量化权重等方法不作具体限制。

步骤4.a旨在从训练集文本中提取特征词t_j，使用的方法可以是基于互信息量(MutualInformation)、卡方(chi-square，χ²)和RF(relevance frequency)等任何一种特征提取方法；

步骤4.b计算特征词的权重w_j，可选择包括IDF(Inverse Document Frequency)、卡方、RF、OR(Odd Ratio)等在内的任何一种特征词权重量化方法；

步骤4.c计算特征词t_j对每个训练类别的后验概率，如对类别C_i的后验概率Pr(C_i|t_j)计算方法(3)～(6)：

\Pr (C_{i} | t_{j}) = \frac{\Pr (C_{i}, t_{j})}{\Pr (t_{j})} = \frac{\Pr (t_{j} | C_{i}) \cdot \Pr (C_{i})}{\Pr (t_{j})} - - - (11)

\Pr (C_{i}) = \frac{Σ_{j = 1}^{N} tf (t_{ji})}{Σ_{i = 1}^{| C |} Σ_{j = 1}^{N} tf (t_{ji})} - - - (12)

\Pr (t_{j}) = \frac{Σ_{i = 1}^{| C |} tf (t_{ji})}{Σ_{i = 1}^{| C |} Σ_{j = 1}^{N} tf (t_{ji})} - - - (13)

\Pr (t_{j} | C_{i}) = \frac{tf (t_{ji})}{Σ_{j = 1}^{N} tf (t_{ji})} - - - (14)

其中，tf(t_ji)为特征词t_j在类别C_i中出现的频率，|C|为训练集中包含的类别数，N为特征词总数。在实现的系统中，采用了基于特征词频来计量后验概率，也可以使用出现特征词的文档频率计算。

对于具有多类文本的训练过程，每一个特征词t_j都会得到一个后验概率序列，{Pr(C₁|t_j)，Pr(C₂|t_j)，...，Pr(C_N′|t_j)}，其中N’为训练文本的类别总数。

5.根据最大后验概率类别与文本类别标签相符的特征词分布分析，选择或设计位置权重表达式。

在步骤4得到所有特征词的后验序列后，若分类器没有训练集文本结构的先验知识，则可以先提取每个训练集文本中的具有最大后验概率类别与文本类别标签相符的特征词，即对任一文本D_k，需提取的特征词集满足

T_{D_{k}} = {t | y_{D_{k}} = C_{i}, \Pr (C_{i} | t) &GreaterEqual; \Pr (C_{q} | t) |_{q &NotEqual; i}, i, q &Element; [1, | C |], k &Element; [1, l]} - - - (15)

其中，

为文本D_k的类别标签，l为训练集中的文本总数，|C|为类别总数。

根据本发明的步骤4.b，需要人工或分类器通过分析每个文档或人工分析认为最具有代表意义的文档的特征词集

中词汇的分布情况，分析方法有如下方式，但不局限于示例所介绍的方式。

方法一是，根据文本分类器的目标应用，分析各类别文档的共性结构规范，确定最佳表达文本类别的信息与该信息存在于文档中的偏移关系，而后选择一个合理的位置权重表达式；

方法二是，由文本分类器，依据步骤2的块划分，先将从长度大于一个阈值d_threshold的文本D_k(|D_k|≥d_threshold)中提取的特征词集

划分为如下序列：

T_{D_{k}} = {T_{D_{k 1}}, T_{D_{k 2}}, . . ., T_{D_{kr}}} - - - (16)

其中，r为文本D_k的块数。然后，依据一定的统计分析方法得到位置权重表达式。实现系统中，通过分析得到每个块对文档类别判定的贡献程度，再通过概率拟合算法，对20Newsgroup、Reuters-21573等分析得到的位置权重表达式为

f (b) = \log_{2} (\frac{δ}{b + 1} + 2) - - - (17)

其中，b∈[0，r-1]这块偏移，δ(≥1)为控制位置权重值范围和偏移落差的阈值，为预设值。

6.提取特征词t_j、所属块号b_j及原始权重w_j，以f(b_j)和w_j为输入参数，计算新权重替代原始权重，并生成文本向量

本发明的另一个基本思想是，通过引入特征所在文本中的块位置对其本身的重要性关系，来改变传统单纯依据特征词频率的权重模式，进而达到丰富文本向量对文本信息的表达，而最直接的方法就是用特征词的位置权重乘以特征词的原量化权重。

为此，对于文本分类器来讲，本步骤无论是作用于训练过程建立分类模型，还是作用于测试集进行分类，都应当包含以下两项工作：

a.根据步骤4的特征词集，提取测试文本的特征词t_j’、所属文本块号b_j及原始权重w_j；

b.以位置权重f(b_j)和原始权重w_j作为输入参数，计算新权重值替代原始权重w_j，并输出文本向量；

本发明所述的步骤6.a中，对特征词原始权重的计量方法没有要求，并已由步骤4说明。

本发明所述的步骤6.b中，实现系统采用了将特征词的位置权重乘以原始权重的方法f(b_j)·w_j替代原始权重w_j；根据具体目标应用的不同，可以将位置权重和原始权重作为两项参数，采用其他任何有效方法生成新的权重值。最终，根据步骤7处理格式的要求输出的文本向量。

7.分类器训练模型或分类。

用于训练分类模型或分类的分类器可以是任何支持文本向量模型的分类器，如支持向量机分类器、K近邻分类器及朴素贝叶斯分类器等。

上述对本发明进行说明所涉及的仅是各步骤的示例，本领域普通技术人员可以根据实际情况确定所需要使用的步骤，而且各个步骤的具体实现有多种方法，任何在不脱离本发明的范围的任何修改或局部替换，均属于本发明权利要求来限定的范围。

Claims

1.基于块划分及位置权重的文本分类方法，其特征在于：包括如下步骤：

第一步：预处理及原始段、块的提取与标记：对输入的训练或测试文本使用基本的预处理，分析、提取并标记文本的原始段信息，将每个段视为一个文本块，加以标记；其中预处理及原始段、块的提取与标记采用的方法包括中/英文分词、去停用词、英文的词根还原，若为网页文本，则增加去HTML标记操作；

第二步：统计分析每个文本的块大小与分布，根据一个阈值，对近邻小文本块做合并操作；根据预定义块比率对整个文本或特定文本块重新进行块划分和标记；其中合并操作的步骤为：根据第一步中的标记结果，长度为|D|的文本D被划分为长度序列{d₁，d₂，…，d_l}，其中，l为文本块数，则统计文本D的块平均长度和方差δ如下：

第四步：利用常规的特征提取方法从训练集文本中提取特征词t_j；使用特征权重量化方法，计算特征词的权重w_j；计算特征词t_j对每个训练类别的后验概率；其中提取特征词的方法为基于互信息量(Mutual Information)、卡方(chi-square，χ²)和RF(relevance frequency)中的一种特征提取方法，计算特征词的权重w_j的方法包括IDF(Inverse Document Frequency)、卡方、RF、OR(Odd Ratio)中的一种特征词权重量化方法，计算特征词t_j对每个训练类别的后验概率，对类别C_i的后验概率Pr(C_i|t_j)的计算方法为：

其中，tf(t_ji)为特征词t_j在类别C_i中出现的频率，|C|为训练集中包含的类别数，N为训练文本的特征词总数，对于具有多类文本的训练过程，每一个特征词t_j都会得到一个后验概率序列，{Pr(C₁|t_j)，Pr(C₂|t_j)，...，Pr(C_N′|t_j)}，其中N’为训练文本的类别总数；

第五步：提取每个训练集文本中的具有最大后验概率类别与文本类别标签相符的特征词的分布，分析该特征词分布，选择合适的位置权重表达式f(b)，其中b为块号；其中特征词分布分析方法包括以下两种：

方法二，由文本分类器，依据第二步的块划分，先将从长度大于一个阈值d_threshold的文本D_k(|D_k|≥d_threshold)中提取的特征词集划分为如下序列：

其中，b∈[0，r-1]为块偏移，δ(≥1)为控制位置权重值范围和偏移落差的阈值，为预设值；

第六步：根据第四步的特征词，提取测试文本的特征词t_j’、所属文本块号b_j及原始权重w_j；计算位置权重f(b_j)·w_j来替代原始权重w_j，并输出文本向量；

第七步：利用分类器完成分类模型训练或文本分类。