CN104965867A

CN104965867A - 基于chi特征选取的文本事件分类方法

Info

Publication number: CN104965867A
Application number: CN201510310162.XA
Authority: CN
Inventors: 张雪英; 王曙; 顾佳诚; 廖健平; 朱瑞军
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2015-06-08
Filing date: 2015-06-08
Publication date: 2015-10-07

Abstract

本发明公开了一种基于CHI特征选取的文本事件分类方法，包括针对训练语料的分类模型训练过程和文本分类过程。该方法通过分析中文文本事件的语言描述特征，选取CHI值作为主题特征向量，针对选取的训练语料形成特征文件和训练模版，最终实现文本事件信息的分类。其中，模型训练过程包括以下步骤：(1)文本训练语料选取；(2)文本语料预处理；(3)类别特征选取，生成特征文件集合；(4)文本特征向量生成及归一化处理，生成特征向量文件；(5)SVM模型训练。文本分类过程与模型训练过程类似。本发明采用的方法可广泛地应用于中文文本数据挖掘的识别、分类、解析与监测过程，能够有效提升中文文本自然语言处理的解析效率与解析精度。

Description

基于CHI特征选取的文本事件分类方法

技术领域

本发明属于地理信息的数据挖掘领域，具体公开了一种基于CHI特征选取的文本事件分类方法。

背景技术

随着互联网资源爆炸式的增长，分类技术已经成为倍受关注的领域和研究的热点。全球技术研究和咨询公司相关调查报告显示，未来10年中至少95％的人机交互信息是文本语言，其中事件是人们认知和理解世界的基本单位，包含着人类对事件信息描述的时空与属性要素信息以及事件各要素之间的语义关联关系。

然而，文本中事件信息的有效利用和知识的发现成为了现今文本数据挖掘领域亟待面对的问题。文本分类既能够为信息与知识的抽取奠定基础，又能够有效降低文本中事件信息的挖掘利用难度。目前，分类体系、模式匹配与机器学习等方法大部分应用于文本的分类，而缺乏完整的文本中事件的分类方法。

发明内容

本发明的目的在于：依据中文文本事件描述特点，提出一种基于CHI特征选取的文本事件分类方法，有效改进中文文本自然语言处理中事件类型的分类，提升了中文文本事件的分类精度和效率，为文本数据挖掘提供基础性分类依据。

为了实现上述目的，本发明通过分析中文文本事件的语言描述特征，选取CHI值作为主题特征向量，针对选取的训练语料形成特征文件和训练模版，最终实现文本事件信息的分类，具体的过程如下：

基于CHI特征选取的文本事件分类方法，其特征在于，包括如下过程：

(一)分类模型训练过程：

步骤11：文本训练语料选取，即从网络文本中筛选文本训练语料，选取的语料包括多种类别的主题事件，每类包括多篇语料文本；

步骤12：对筛选的文本训练语料进行预处理，具体方法如下：

a)数据转码处理，将原始筛选文本中各种类别的中文编码格式统一转换为UTF-8编码格式，

b)将原始语料的格式内容进行初步筛选，过滤无效字符，删除低特征文本，

c)文本分词，使用ICTCLAS工具包对文本进行分词处理，建立停用词表，对文本特征进行初步筛选，并建立每篇语料文本的特征表；

步骤13：训练语料类别特征选取：对于每一类别主题事件，对每篇语料的每个特征根据其对主题类别的贡献率以及对所在语料的贡献率进行特征的筛选，使用卡方统计量CHI值作为特征选择的指标，最终每个类别提取一定数量的特征，并合并所有事件类别的特征形成特征集合文件；

步骤14：文本特征向量生成：使用步骤13中生成的特征集合文件，遍历每一篇训练语料，抽取其中包含的特征，计算相应的特征值，生成特征向量文件，并进行归一化处理，最终生成SVM训练文件；

步骤15：SVM分类模型训练：使用生成的训练文件训练SVM模型，同时通过交叉检验工具调整参数对模型进行优化；

(二)文本分类过程：

步骤21：对待分类的文本进行预处理，生成待分类文本的特征表；

步骤22：使用步骤13生成的特征集合文件抽取待分类文本中的类别特征；

步骤23：待分类文本的文本特征向量生成：使用词频值生成文本的特征向量，并将特征向量进行归一化处理；

步骤24：文本分类：使用步骤15训练生成的SVM分类模型，对归一化的待分类文本特征向量进行分类，得到待分类文本主题类别的预测结果。

本发明基于CHI特征选取的文本事件分类方法，利用中文文本事件的语言描述特征，选取CHI值作为主题特征向量，结合机器学习的方法，实现了有效的文本事件分类。其优点是分类模型中蕴含所有类型的主题特征信息，因此可以更加准确的实现事件文本的分类。本发明所采用的方法可成功地应用于中文文本数据挖掘的识别、分类、解析与监测过程，能够有效提升中文文本自然语言处理的解析效率与解析精度。此外，基于CHI特征选取的文本事件分类方法还能够为信息的进一步抽取奠定有效的技术基础。

附图说明

图1是本发明中文文本事件分类方法流程图；

图2是训练语料类别1特征集合示意图；

图3是训练语料生成的特征集合文件示意图；

图4是归一化处理后的SVM训练文件；

图5是基于SVM模型形成的分类模型文件；

图6是文本分类结果。

具体实施方式

下面结合附图和实施例，做进一步详细说明。

本方法总体流程参见图1。本实例选取网络新闻报道文稿作为模型训练的原始语料，共选取9类主题包括：汽车、财经、IT、健康、体育、旅游、教育、招聘、文化以及军事的文本，每类文本2000篇共18000篇语料，语料类别涵盖了社会生活中绝大多数事件主题，覆盖度高，特征丰富，语料规模适中，可以提供足够的训练、测试用语料。待分类文本语料选取“暴雨”事件的网络新闻报道20篇为例，作为实施示例。

(一)分类模型训练过程：

步骤11：文本训练语料选取；即从网络文本中筛选文本训练语料。

步骤12：文本语料预处理；

将筛选的文本训练语料进行预处理，具体方法如下：

a)数据转码处理，将原始筛选文本中各种类别的中文编码格式统一转换为UTF-8编码格式。

b)将原始语料的格式内容进行初步筛选，过滤无效字符，删除低特征文本。

c)文本分词，使用中科院ICTCLAS工具包对文本进行分词处理，建立停用词表，对文本特征进行初步筛选，并建立每篇语料文本的特征表。

步骤13：训练语料类别特征选取；

选取每类语料的特征，并生成特征集合文件，对于每一类别主题事件，并非每篇语料的所有特征都是有用特征，需要对每个特征针对其对主题类别的贡献率以及对所在语料的贡献率进行特征的筛选，最终每个类别提取一定数量的特征，并合并所有事件类别的特征形成特征集合文件，具体方法如下：

a)计算CHI指标，使用CHI值作为特征选择的指标，即卡方统计量。某个特征的CHI值依据以下公式计算：

χ^{2} (t, c) = \frac{N \times {(A D - C B)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)} - - - (1)

其中，公式中各个参数的含义，说明如下：

t：表示文本特征，

c：表示类别，

χ²(t，c)：表示文本特征t与类别c之间的相关关系，

N：训练数据集文档总数，

A：在一个类别中，包含某个词的文档的数量，

B：在一个类别中，排除该类别，其他类别包含某个词的文档的数量，

C：在一个类别中，不包含某个词的文档的数量，

D：在一个类别中，不包含某个词也不在该类别中的文档的数量，

b)特征集合选择，计算每个类别每个特征的CHI值，按照CHI值降序排列，此处选择前200个特征作为该类别的特征集合，该集合的特征可以最大限度反映类别文本的领域描述特性，特征集合将作为分类模型的重要依据，以类型一特征的特征集合为例，参见图2。

c)合并所有类别特征集合生成用以模型训练的特征集合文件，参见图3。

步骤14：文本特征向量生成；

使用步骤13中生成的特征集合文件，遍历每一篇训练语料，抽取其中包含的特征，计算相应的特征值，生成特征向量文件，并进行归一化处理。具体步骤包括：

a)通过TF-IDF值计算文本特征值，TF-IDF用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF指词频，IDF指逆向文件频率，见公式(2)(3)：

{TF}_{i, j} = \frac{n_{i, j}}{Σ_{k} n_{k, j}} - - - (2)

即某篇文章中某词出现的次数n与总词数的比值。

{IDF}_{i} = \log \frac{| D |}{| {j : t_{i} &Element; d_{j}} |} - - - (3)

D指某一类别总文件数目，即总文件数与包含某词的文件数的比值。因此，TF-IDF＝TF*IDF。该步骤需生成每一篇语料的特征向量，SVM模型可识别的格式为：“类别编号特征一：特征值特征二：特征值……”。

b)将每个特征赋予唯一的特征编号。全部语料数据处理完毕后生成一个特征向量文件，特征向量的大小取决于特征集合中的特征数以及语料库中的文件总数，如果共有N个特征，M篇训练语料，则特征文件为一个N*M的特征矩阵。

c)特征值归一化处理；为了使能够训练出高效的SVM模型，还需要对特征值进行归一化处理。将每个特征的特征值放缩到区间[-1,1]或者[0,1]，区间任意，由用户决定，一般放缩到[-1,1]内，并将归一化特征值最终生成SVM训练文件，参见图4。

步骤15：SVM分类模型训练；

使用生成的训练文件训练SVM模型，同时通过交叉检验工具调整参数对模型进行优化。具体步骤包括：

a)生成模型文件，使用线性核函数非启发式训练SVM模型，其他参数默认，生成模型文件，参见图5。

b)将训练文件分成指定组数，需交叉验证分类正确率，并调整相关参数：代价系数以及交叉验证分组数目，直至识别正确率最大。

(二)文本分类过程：

步骤21：待分类文本预处理；

将待分类文本进行转码、筛选和分词等预处理过程，生成待分类文本的特征表。步骤与训练语料的预处理步骤类似，参见步骤12。

步骤22：待分类文本的文本特征抽取；

使用步骤13生成的特征集合文件抽取待分类文本中的类别特征。

步骤23：待分类文本的文本特征向量生成；

参照步骤14，使用词频值生成文本的特征向量，并将特征向量进行归一化处理。

步骤24：文本分类；

使用步骤15训练生成的分类模型，对归一化的待分类文本特征向量进行分类，得到待分类文本主题类别的预测结果，参见图6。

(三)实验分析

由上述实例可知：本发明基于中文文本事件的描述特征和SVM模型，针对待分类语料，提取各类语料的特征向量，经过特征训练形成分类模型，最终将待分类语料处理的特征信息由分类模型进行计算，得出最终的文本分类结果，参见图6。其中，文本为20篇待分类文本的分类情况，“5”表示暴雨类型文本，“4”表示泥石流类型文本。由于文本中，暴雨事件的发生常常会伴随泥石流事件的发生，因此，将这种分类误差可看作是分类体系引起的系统误差，在分类结果上并不影响分类结果。该方法在公开测试中，封闭测试及开放测试的准确性分别为89.00％和75.00％。

本发明实例中，仅以网络文本报道作为待分类文本，该方法也同样适用于其他类型描述事件的文本信息。

Claims

1.基于CHI特征选取的文本事件分类方法，其特征在于，包括如下过程：

(一)分类模型训练过程：

(二)文本分类过程：

2.根据权利要求1所述的基于CHI特征选取的文本事件分类方法，其特征在于，所述步骤13的具体方法如下：

a)计算卡方统计量CHI指标，某个特征的CHI值依据以下公式计算：

χ^{2} (t, c) = \frac{N \times {(A D - C B)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)} - - - (1)

其中，公式中各个参数的含义，说明如下：

t：表示文本特征，

c：表示类别，

χ²(t，c)：表示文本特征t与类别c之间的相关关系，

N：训练数据集文档总数，

A：在一个类别中，包含某个词的文档的数量，

C：在一个类别中，不包含某个词的文档的数量，

b)特征集合选择，计算每个类别每个特征的CHI值，按照CHI值降序排列，选择排列在前的一定数量的特征作为该类别的特征集合；

c)合并所有类别的特征集合，生成用以模型训练的特征集合文件。

3.根据权利要求1所述的基于CHI特征选取的文本事件分类方法，其特征在于，所述步骤14的具体步骤包括：

a)通过TF-IDF值计算文本特征值，TF-IDF值用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降，其中，TF指词频，IDF指逆向文件频率，计算公式分别为：

{TF}_{i, j} = \frac{n_{i, j}}{Σ_{k} n_{k, j}} - - - (2)

即某篇文章中某词出现的次数n与总词数的比值，

{IDF}_{i} = \log \frac{| D |}{| {j : t_{i} &Element; d_{j}} |} - - - (3)

D指某一类别总文件数目，即总文件数与包含某词的文件数的比值，因此，TF-IDF＝TF*IDF；

b)将每个特征赋予唯一的特征编号，全部语料数据处理完毕后生成一个特征向量文件，特征向量文件的大小取决于特征集合中的特征数以及语料库中的文件总数，如果共有N个特征和M篇训练语料，则特征文件为一个N*M的特征矩阵；

c)特征值归一化处理；将每个特征的特征值放缩到区间[-1,1]或者[0,1]，并将归一化特征值最终生成SVM训练文件。