CN105224689A

CN105224689A - 一种东巴文献分类方法

Info

Publication number: CN105224689A
Application number: CN201510726507.XA
Authority: CN
Inventors: 李宁; 吕学强; 陈玉敬; 董志安
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2016-01-06

Abstract

本发明涉及一种东巴文献分类方法，包括以下步骤：步骤1)划分训练集与测试集；步骤2)文本预处理；步骤3)特征选择；步骤4)利用文献特征进行二次降维得到东巴文献分类的特征；步骤5)特征加权；步骤6)用向量空间模型来表示训练集和测试集的文档，得到其向量空间模型表示形式；步骤7)根据分类规则对测试集进行分类得到分类结果。本发明提出的东巴文献分类方法，设计科学合理，工作效率高，利用GMI特征选择算法选择出文本特征，然后结合文献特征进行二次降维得到东巴文献的分类特征，最后利用支持向量机分类器对东巴文献进行训练和测试，平均正确率和召回率都很高，为东巴文献分类提供了一个非常有效的方法。

Description

一种东巴文献分类方法

技术领域

本发明属于文本分类技术领域，具体涉及一种东巴文献分类方法。

背景技术

纳西族是中国56个民族之一，千年以来由纳西族传承下来的文化，又叫东巴文化。东巴文化是中国乃至全世界珍贵的文化遗产，成为世人关注的文化。目前，这一世界文化遗产引起了很多研究者的兴趣，研究成果逐年增加。为了方便人们的检索和使用，最初采用人工分类的方式对东巴文献进行整理。但是，人工分类的方法存在很多的不足，一方面需要投入大量的人力、物力和精力；二是分类结果存在不确定性和不一致性，这种人工分类的做法取决于个人能力和经验，对于同一篇文献，不同人的分类结果可能截然不同。即使是同一个人在不同时间的多次分类结果也有可能不同。

东巴文献不同于一般的文本，它具有普通文本的一般特性又拥有期刊文献的特殊性，经过文本预处理，得到文本集合的词项序列，然而词项序列的维数高达几万维，甚至十万维；如果用词项序列作为文本特征，会造成维数灾难，严重影响分类的效率，并且维数过高会参杂大量的冗余信息影响分类的效果；特征选择就是用来排除大量对分类没有作用的词项。在现有技术中，互信息方法(MI)因为计算复杂度小成为重要的特征选择算法之一。传统的互信息(MI)方法的计算公式为：其中，p(w_i,c_j)表示含有词项w_i并且属于类别c_j的文本概率，p(w_i)表示含有词项w_i的文本概率，p(c_j)表示文本属于类别c_j的概率。词项w_i在m个类的整体互信息量表示为

M I (w_{i}) = p (c_{j}) Σ_{j = 1}^{m} M I (w_{i}, c_{j}) .

然而，现有技术中常用的传统的互信息(MI)方法有如下不足：传统的互信息方法仅仅考虑了文档频率而没有考虑词频；传统的互信息方法使用每个类别上的互信息量的期望值作为评估函数，体现的是一种平均选择能力，传统的互信息方法选择的是一种平均能力，然而特征选择是选择出该类的特征来区别于其他类别，所以传统的互信息方法选择不能很好地满足实际要求。

目前，文本分类已有不少成果，然而东巴文献还没有进行分类研究，东巴文献分类方法领域还存在较大的技术空白，这是当前亟待解决的问题。

发明内容

针对上述背景技术中存在的问题，本发明的目的在于提供一种可解决上述技术问题的东巴文献分类方法。

为了实现上述发明目的，本发明采用的技术方案如下：

一种东巴文献分类方法，包括以下步骤：

步骤1)划分训练集与测试集：将需要进行分类的东巴文献按照n:1的比例随机划分为训练集和测试集，其中n为正整数；

步骤2)文本预处理：对所述训练集和所述测试集进行文本预处理；

步骤3)特征选择：利用GMI特征选择算法对所述训练集进行特征选择，采用所述GMI特征选择算法进行一次降维得到文本特征；

步骤4)利用文献特征进行二次降维得到东巴文献分类的特征；

步骤5)特征加权：采用TF-IDF算法来计算词项对文本的贡献程度，对所述训练集和所述测试集进行特征加权操作；

步骤6)文档表示：用向量空间模型来表示所述训练集和所述测试集的文档，得到所述训练集和所述测试集的向量空间模型表示形式；

步骤7)采用支持向量机算法对用向量空间模型表示的训练集进行训练得到一个分类规则，根据所述分类规则对测试集进行分类得到分类结果。

进一步地，所述步骤1)中的n为3或4或5；

进一步地，所述步骤2)具体为：抽取每篇东巴文献文章中的关键词构建专有名词的词典，然后使用ICTCLAS分词工具外加专有名词的词典对文本数据进行中文分词；过滤停用词和干扰词，所述停用词是指副词、连接词和语气助词。

进一步地，所述GMI特征选择算法的数学表达式为：

G M I (w_{i}, c_{j}) = \partial β γ M I (w_{i}, c_{j}),

其中：w_i表示词项，c_j表示类别；

表示词项频度因子，其数学表达式为其中，TF_ij是第j个词项在第i个文本中出现的频数，n为该东巴文献类的文本总数，v表示该东巴文献类所有词项的个数；

β表示分散度因子，其数学表达式为：其中，r_ij是第j个词项在第i个文本中是否出现的量，n为该东巴文献类文本总数；

γ表示集中度因子，其数学表达式为

其中，df(w,c_j)表示在类别c_j中包含词项w的文本数，m表示总共的类别数；

以

G M I (w_{i}) = \underset{j = 1 ... m}{m a x} G M I (w_{i}, c_{j}) - \underset{j = 1 ... m}{s \max} G M I (w_{i}, c_{j})

作为全局评估函数，其中GMI(w_i)表示词项w_i的整体互信息量，表示词项w_i在所有类别中互信息值最大的量，表示词项w_i在所有类别中互信息值次大的量。

进一步地，所述步骤4)中，通过文本预处理把标题切分为词项集合S₁，把摘要切分为词项集合S₂，取所述词项集合S₁与所述词项集合S₂的交集得到所述文献特征；所述文献特征与通过步骤3)得到的所述文本特征进行二次降维得到东巴文献分类的特征。

进一步地，所述TF-IDF算法的计算公式为其中，w_ij表示词项i对第j篇文章的权重系数，tf_ij表示词项i在第j篇文章中出现的频数，n表示文本总数量，n_i表示包含词项i文本总数。

进一步地，所述步骤6)具体为：通过所述向量空间模型将每一个文本转换成一组向量，进而将文本数据转换成计算机可以处理的数据，其中，将所述文本表示为：d＝{t₁,,…t_n}1≤i≤n，对每一个词项t_i,按照所述步骤5)中的所述TF-IDF算法得到权重w_i,所述文本向量表示为：d＝{(t₁,w₁),(t₂,w₂),(t₃,w₃),…(t_n,w_n)}。

本发明提出的东巴文献分类方法，设计科学合理，工作效率高，提出了GMI特征选择算法，充分考虑了词频、集中度和分散度等因素改进了传统的互信息方法，并采用了最大值与次大值之差作为全局评估函数，利用GMI特征选择算法选择出文本特征，然后结合文献特征进行二次降维得到东巴文献的分类特征，最后利用支持向量机(SVM)分类器对东巴文献进行训练和测试，平均正确率和召回率都很高，为东巴文献分类提供了一个非常有效的方法，可以很好地满足实际应用的需要。

附图说明

图1为本发明提出的东巴文献分类方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，一种东巴文献分类方法，包括步骤1)至步骤7)七个步骤，如下：

步骤1)划分训练集与测试集：将需要进行分类的东巴文献按照n:1的比例随机划分为训练集和测试集，其中n为正整数，n可以为3或4或5，此处取n＝4；

步骤2)文本预处理：对所述训练集和所述测试集进行文本预处理，具体地，抽取每篇东巴文献文章中的关键词构建专有名词的词典，然后使用ICTCLAS分词工具外加专有名词的词典对文本数据进行中文分词；过滤停用词和干扰词，所述停用词是指副词、连接词和语气助词；

本发明通过考虑频度、集中度和分散度等因素，提出了GMI特征选择算法，改进了传统的互信息公式，本发明GMI特征选择算法的数学表达式为：

G M I (w_{i}, c_{j}) = \partial β γ M I (w_{i}, c_{j}),

其中：w_i表示词项；c_j表示类别；GMI(w_i,c_j)的数学表达式为

G M I (w_{i}, c_{j}) = \partial β γ M I (w_{i}, c_{j}),

其中，

为传统的互信息(MI)方法的计算公式，其中，p(w_i,c_j)表示含有词项w_i并且属于类别c_j的文本概率，p(w_i)表示含有词项w_i的文本概率，p(c_j)表示文本属于类别c_j的概率。词项w_i在m个类的整体互信息量表示为

M I (w_{i}) = p (c_{j}) Σ_{j = 1}^{m} M I (w_{i}, c_{j});

\partial

表示词项频度因子，指的是在某一个类别中词项在该类中出现的次数与这个类中所有词项出现次数和的比值，其数学表达式为：其中，TF_ij是第j个词项在第i个文本中出现的频数，n为该类的文本总数，v表示该类所有的词项的个数；

β表示分散度因子，指的是在某一个类别中包含某个词项的文本数与该类文本总数的比值，公式为：其中，r_ij是第j个词项在第i个文本中是否出现(如果出现，值为1，否则，值为0)，n为该类文本总数。

γ表示集中度因子，如果词项集中分布在某个类别中，在其他类别中出现比较少，则该词项与这个类别有很强的关联程度，本发明使用集中度因子γ来衡量这个关联程度，γ的数学表达式为：

γ = \frac{d f (w, c_{j})}{Σ_{j = 1}^{m} d f (w, c_{j}) - d f (w, c_{j}) + 0.1},

其中，df(w,c_j)表示在类别c_j中包含词项w的文本数，m表示总共的类别；某个词项集中出现在一个类别中，则出现在其他类别的文本总数就比较少，比值就会比较大，如果该词项仅仅只在一个类中出现，则词项具有很强的分类能力，γ是该词项出现文本次数的10倍，恰好表示了比较强的分类能力；每个词项在每个类别中都要通过公式计算一次互信息值，则会得到m个互信息值。本发明采用

G M I (w_{i}) = \underset{j = 1 ... m}{m a x} G M I (w_{i}, c_{j}) - \underset{j = 1 ... m}{s \max} G M I (w_{i}, c_{j})

作为全局评估函数，利用最大值与最小值的差作为评估函数值，其中，GMI(w_i)表示词项w_i的整体互信息量；表示词项w_i在所有类别中互信息值最大的量，而表示词项w_i在所有类别中互信息值次大的量。

GMI特征选择算法利用最大值与最小值的差作为评估函数值。使用最大值与次大值之差来表示一个词项的信息量，如果差值越大，则该词项越能够表示取得最大值的那个类别。

本发明提出的GMI特征选择算法在互信息公式和全局评估函数两个方向上改进了传统互信息方法的性能，针对传统互信息方法的不足，加入了频度、集中度和分散度等因素改进了传统的互信息公式，引入了词项频度因子分散度因子以及关联程度某个词项集中出现在一个类别中，则出现在其他类别的文本总数就比较少，比值就会比较大，如果该词项仅仅只在一个类中出现，则词项具有很强的分类能力，γ是该词项出现文本次数的10倍，恰好表示了比较强的分类能力。

东巴文献属于期刊文献，不同于一般的文本。文献的标题，对文献有着直接说明的作用，比如标题为“运用命题产生法探寻东巴文的性质”明显表示文章描述东巴文的相关信息，标题对于文献类别的判定具有很重要的作用。文献的摘要是文章内容的高度总结，概括了文章的主要内容；本发明选择标题和摘要的信息作为文献特征；具体地，通过文本预处理把标题切分为词项集合S₁，把摘要切分为词项集合S₂。取词项集合S₁与词项集合S₂的交集得到所述文献特征。通过文本特征选择得到维数较高的文本特征，通过分析东巴文献的特点，利用文献特征与文本特征取交集对文本特征进行二次降维得到东巴文献分类的特征；

TF是指在一篇文章中某个词项出现的频数。IDF是指逆向文件频率，是由总文件数与含有特定词项的文件数之比取对数得到。本发明使用支持向量机(SVM)算法进行分类，需要对特征进行加权来衡量特征对文本的重要程度。TF-IDF是一种比较通用的加权计算技术，广泛应用于文本分类领域。本发明采用TF-IDF算法来计算词项对文本的贡献程度。TF是指在一篇文章中某个词项出现的频数。IDF是指逆向文件频率，是由总文件数与含有特定词项的文件数之比取对数得到。

所述TF-IDF算法的计算公式为其中，w_ij表示词项i对第j篇文章的权重系数，tf_ij表示词项i在第j篇文章中出现的频数，n表示文本总数量，n_i表示包含词项i文本总数。

步骤6)文档表示：用向量空间模型(VSM)来表示所述训练集和所述测试集的文档，得到所述训练集和所述测试集的向量空间模型表示形式；具体地：利用向量空间模型将每一个文本转换成一组向量，进而将文本数据转换成计算机可以处理的数据，将所述文本表示为：d＝{t₁,,…t_n}1≤i≤n，对于每一个词项t_i,都会按照公式(3.8)的计算规则得到一个权重w_i,所述文本表示为：d＝{(t₁,w₁),(t₂,w₂),(t₃,w₃),…(t_n,w_n)}；

步骤7)采用支持向量机(SVM)算法对用向量空间模型表示的训练集进行训练得到一个分类规则，根据分类规则对测试集进行分类得到分类结果。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种东巴文献分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的东巴文献分类方法，其特征在于，所述步骤1)中的n为3或4或5。

3.根据权利要求1所述的东巴文献分类方法，其特征在于，所述步骤2)具体为：

抽取每篇东巴文献文章中的关键词构建专有名词的词典；

使用ICTCLAS分词工具外加专有名词的词典对文本数据进行中文分词；

过滤停用词和干扰词，其中，所述停用词是指副词、连接词和语气助词。

4.根据权利要求1所述的东巴文献分类方法，其特征在于，所述GMI特征选择算法的数学表达式为：

G M I (w_{i}, c_{j}) = \partial β γ M I (w_{i}, c_{j}),

其中，

w_i表示词项，c_j表示类别；

表示词项频度因子，其数学表达式为其中，TF_ij表示第j个词项在第i个文本中出现的频数，n为东巴文献类的文本总数，v表示东巴文献类所有词项的个数；

β表示分散度因子，其数学表达式为其中，r_ij表示第j个词项在第i个文本中出现的量，n为该东巴文献类文本总数；

γ表示集中度因子，其数学表达式为其中，df(w,c_j)表示在类别c_j中包含词项w的文本数，m表示总共的类别数；

以

G M I (w_{i}) = \underset{j = 1 ... m}{m a x} G M I (w_{i}, c_{j}) - \underset{j = 1 ... m}{s \max} G M I (w_{i}, c_{j})

作为全局评估函数，其中，GMI(w_i)表示词项w_i的整体互信息量，表示词项w_i在所有类别中互信息值最大的量，表示词项w_i在所有类别中互信息值次大的量。

5.根据权利要求1所述的东巴文献分类方法，其特征在于，所述步骤4)具体为：

通过文本预处理把标题切分为词项集合S₁，把摘要切分为词项集合S₂，取所述词项集合S₁与所述词项集合S₂的交集得到所述文献特征；

所述文献特征与通过步骤3)得到的所述文本特征进行二次降维得到东巴文献分类的特征。

6.根据权利要求1所述的东巴文献分类方法，其特征在于，所述TF-IDF算法的计算公式为

w_{ij} = \frac{{tf}_{ij} \times \log (\frac{n}{n_{i}} + 0.5)}{\sqrt{Σ_{i &Element; j} {({tf}_{ij} \times \log (\frac{n}{n_{i}} + 0.5))}^{2}}},

其中，

w_ij表示词项i对第j篇文章的权重系数，tf_ij表示词项i在第j篇文章中出现的频数，n表示文本总数量，n_i表示包含词项i文本总数。

7.根据权利要求6所述的东巴文献分类方法，其特征在于，所述步骤6)通过所述向量空间模型将每一个文本转换成一组向量，进而将文本数据转换成计算机可以处理的数据，其中，将所述文本表示为d＝{t₁,,…t_n}1≤i≤n，对每一个词项t_i按照所述步骤5)中的所述TF-IDF算法得到权重w_i,所述文本向量表示为d＝{(t₁,w₁),(t₂,w₂),(t₃,w₃),…(t_n,w_n)}。