CN104820703A

CN104820703A - 一种文本精细分类方法

Info

Publication number: CN104820703A
Application number: CN201510239027.0A
Authority: CN
Inventors: 郑胜; 张胜; 邹复好; 蒋丹; 夏明�; 周可
Original assignee: WUHAN SHUWEI TECHNOLOGY Co Ltd
Current assignee: WUHAN SHUWEI TECHNOLOGY Co Ltd
Priority date: 2015-05-12
Filing date: 2015-05-12
Publication date: 2015-08-05

Abstract

本发明提供了一种文本精细分类方法，属于计算机自然语言处理或模式识别技术领域，解决现有文本分类方法针对短文档精细类别划分准确率低的问题。本发明首先根据已知训练样本，构造两级分类器，每一级分类器都包含独立的敏感词典；其次，对分类器的训练样本执行分词、去除专用停顿词、同义词网映射等操作，实现词向量的预处理；再次，根据词向量的重要性差异进行特征选择，构建分类器的敏感词典；再次，利用KNN算法计算目标文档的精细分类结果；最后，对分类结果进行评价与反馈，动态优化敏感词典，进一步提高分类准确率。实验证明，针对短文档，采用本文的文本精细分类方法，可以显著提高精细分类的准确率。

Description

一种文本精细分类方法

技术领域

本发明属于计算机自然语言处理或模式识别技术领域，具体涉及一种文本精细分类方法，可以提高短文档的精细分类准确率。

背景技术

文本分类一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程，其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。

传统的文本分类方法，通常对类别间区别较为明显的长文档进行分类，譬如网页内容分类(体育、新闻、财经和军事等)。然而在某些特定领域，如公安的接警信息自动化分类、微博情感分析等短文档分类中，类别之间的差距十分细微，对文本类别精细程度要求越高，分类的准确性就变得越低。

以朴素贝叶斯算法为例，贝叶斯算法关注的是文档属于某类别的概率。文档属于某个类别的概率等于文档中每个词属于该类别的概率的综合表达式。而每个词属于该类别的概率又在一定程度上可以用这个词在该类别训练文档中出现的次数(词频信息)来粗略估计，因而使得整个计算过程成为可行的。使用朴素贝叶斯算法时，在训练阶段的主要任务就是估计这些值。但是，在公安接警信息中，类别之间的差距十分细微，表达文档主题的关键词可能只有1至2个，这样一来其他噪声词汇对分类结果的干扰就十分明显。特别是，随着分类精细程度的提高，如将盗窃案细分为撬门入户盗窃案、溜门入户盗窃案、插门入户盗窃案等等，此时，分类的准确率将急剧下降，远远无法满足实际应用的需要。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种文本精细分类方法，以解决短文档精细类别划分准确率低的问题，显著提高精细分类的准确率。

按照本发明的一个方面，提供了一种文本精细分类方法，包括两级分类器构造步骤、词向量预处理步骤、敏感词典构建步骤、文本精细分类步骤和评价与反馈步骤，其中：

(1)两级分类器构造步骤：根据应用需求和原始文档集数据分布，将分类器划分为M个一级分类器和N个二级分类器，每个一级分类器C_i都至少包含一个以上的二级分类器C_j，每个二级分类器都从属于某个一级分类器；其中N>＝M；i＝1,...,M；j＝1,...,N；

(2)词向量预处理步骤：对分类器的训练样本进行词向量的预处理，包括对分类器的训练样本执行中文分词、去除专用停顿词和同义词网映射；

(3)敏感词典构建步骤：通过对预处理后得到的词向量进行特征选择和人工标注相结合方式，分别为每一个分类器构建独有的敏感词典；

(4)文本精细分类步骤：利用步骤(3)得到各级分类器的敏感词典，输入测试文档，将其与两级分类器进行匹配计算，得到最终的分类结果；

(5)评价与反馈步骤：对步骤(4)得到的分类结果进行评价，并跳转到步骤(3)，根据反馈的评价对分类器的敏感词典进行动态优化。

本发明的一个实施例中，所述步骤(1)构建的分类器中，一级分类器C_i和二级分类器C_j，都包含数量不等的训练样本以及自己所独有的敏感词典，一级分类器敏感词典中包含的敏感词，不会在从属于它的二级分类器敏感词典中重复出现。

本发明的一个实施例中，所述步骤(4)中对测试文档进行匹配计算得到最终的分类结果，具体为：

采用步骤(2)中的词向量预处理方法对测试文档进行词向量预处理；采用K最近邻算法，将预处理后得到的词向量T(term₁,...,term_n...)分别与一级分类器C_i(i＝1,...,M)的敏感词典SensWordDict_i(i＝1,...,M)进行匹配计算，得到最相邻的一级分类器C_t；再次调用KNN算法进行二级分类，将从属于一级分类器C_t的所有二级分类器C_m～C_n，与词向量T再次进行比较，得到最终的二级分类结果C_k。

本发明的一个实施例中，所述步骤(3)中构建敏感词典，具体为：

对词向量Term_i采用词频-逆向文件频率算法进行特征选择，再通过人工标注对其中间结果进行微调与优化，最终得到分类器C_i的敏感词典SensWordDict_i，其中Term_i是数据集D_i经过预处理后得到的词向量，D_i是分类器C_i的样本数据集。

本发明的一个实施例中，所述步骤(2)中的中文分词处理具体为：

采用中科院分词系统ICTCLAS对文本进行分词，根据词性剔除对文本分类无用的词，包括拟声词、副词、介词和连词。

本发明的一个实施例中，所述步骤(2)中的去除专用停顿词处理具体为：

根据应用场景和原始文档集特点，去除出现频率非常高但对分类无用的领域专用停顿词。

本发明的一个实施例中，所述步骤(2)中的同义词网映射处理具体为：利用Wordnet进行同义词消岐。

按照本发明的另一方面，还提供了一种文本精细分类系统，所述系统包括两级分类器构造模块、词向量预处理模块、敏感词典构建模块、文本精细分类模块和评价与反馈模块，其中：

所述两级分类器构造模块，用于根据应用需求和原始文档集数据分布，将分类器划分为M个一级分类器和N个二级分类器，每个一级分类器C_i都至少包含一个以上的二级分类器C_j，每个二级分类器都从属于某个一级分类器；其中N>＝M；i＝1,...,M；j＝1,...,N；

所述词向量预处理模块，用于对分类器的训练样本进行词向量的预处理，包括对分类器的训练样本执行中文分词、去除专用停顿词和同义词网映射；

所述敏感词典构建模块，用于通过对预处理后得到的词向量进行特征选择和人工标注相结合的方式，为每一个分类器构建独有的敏感词典。

所述文本精细分类模块，用于根据敏感词典构建模块得到的各级分类器的敏感词典，输入测试文档，将其与两级分类器进行匹配计算，得到最终的分类结果；

所述评价与反馈模块，用于对文本精细分类模块得到的分类结果进行评价，并跳转到敏感词典构建模块，根据反馈的评价对分类器的敏感词典进行动态优化。

本发明的一个实施例中，所述文本精细分类模块具体用于，对经过词向量预处理的测试文档，采用K最近邻算法，将预处理后得到的词向量T(term₁,...,term_n...)分别与一级分类器C_i(i＝1,...,M)的敏感词典SensWordDict_i(i＝1,...,M)进行匹配计算，得到最相邻的一级分类器C_t；再次调用KNN算法进行二级分类，将从属于一级分类器C_t的所有二级分类器C_m～C_n，与词向量T再次进行比较，得到最终的二级分类结果C_k。

本发明的一个实施例中，所述文敏感词典构建模块具体用于，对词向量Term_i采用词频-逆向文件频率算法进行特征选择，再通过人工标注对其中间结果进行微调与优化，最终得到分类器C_i的敏感词典SensWordDict_i，其中Term_i是数据集D_i经过预处理后得到的词向量，D_i是分类器C_i的样本数据集。

本发明首先根据已知训练样本，构造两级分类器，每一级分类器都包含独立的敏感词典；其次，对分类器的训练样本执行分词、去除专用停顿词、同义词网映射等操作，实现词向量的预处理；再次，根据词向量的重要性差异进行特征选择，构建分类器的敏感词典；再次，利用KNN算法计算目标文档的精细分类结果；最后，对分类结果进行评价与反馈，动态优化敏感词典，进一步提高分类准确率。实验证明，针对短文档，采用本文的文本精细分类方法，可以显著提高精细分类的准确率。

附图说明

图1为本发明文本精细分类方法的流程示意图；

图2为本发明实施例中两级分类器的体系架构图；

图3为本发明实施例中词向量预处理的流程示意图；

图4为本发明实施例中精细分类的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明所提供的文本精细分类方法，包括两级分类器构造步骤、词向量预处理步骤、敏感词典构建步骤、文本精细分类步骤和评价与反馈步骤，具体地：

(1)两级分类器构造步骤：

如图2所示，根据应用需求和原始文档集数据分布，将分类器划分为M个一级分类器和N个二级分类器(N>＝M),每个一级分类器C_i(i＝1,...,M)都至少包含一个以上的二级分类器C_j(j＝1,...,N)，每个二级分类器都从属于某个一级分类器。

无论是一级分类器C_i，还是二级分类器C_j，都包含数量不等的训练样本以及自己所独有的敏感词典。一级分类器敏感词典中包含的敏感词，不会在从属于它的二级分类器敏感词典中重复出现。

(2)词向量预处理步骤：

在构建分类器的敏感字典之前，需要先对分类器的训练样本进行词向量的预处理，以提高敏感词提取的准确性和效率。

词向量的预处理方法，如图3所示，主要包括对分类器的训练样本执行分词、去除专用停顿词和同义词网映射。

中文分词：采用中科院分词系统ICTCLAS对文本进行分词，根据词性剔除对文本分类无用的词，例如拟声词、副词、介词和连词等。

去除专用停顿词：根据应用场景和原始文档集特点，去除出现频率非常高但对分类无用的领域专用停顿词，如“犯罪嫌疑人”、“受害人”、“价值”、“报案”等公安领域专用停顿词。

同义词网映射：利用Wordnet进行同义词消岐。如将“盗窃”、“偷窃”、“窃取”统一映射为“盗窃”，这样，在接下来的敏感词提取中可以进一步提高准确性，避免表述差异导致的文本分类误差。

(3)敏感词典构建步骤：

为每一个分类器构建独有的敏感词典，主要是通过对预处理后得到的词向量进行特征选择和人工标注相结合。

分类器C_i的样本数据集是D_i，经过预处理后得到词向量Term_i，采用词频-逆向文件频率(Term Grequency–Inverse Document Frequency，TF-IDF)算法进行特征选择，再通过人工标注对其中间结果进行微调与优化，最终得到分类器C_i的敏感词典SensWordDict_i。

(4)文本精细分类步骤：

经过步骤(3)后，得到各级分类器的敏感词典，此时，就可以输入测试文档，将其与各级分类器进行匹配计算，得到最终的分类结果。具体的匹配计算过程如下：

首先，对测试文档进行词向量预处理，过程与步骤(2)相同；其次，采用K最近邻(k-Nearest Neighbor，kNN)算法，将预处理后得到的词向量T(term₁,...,term_n...)分别与一级分类器C_i(i＝1,...,M)的敏感词典SensWordDict_i(i＝1,...,M)进行匹配计算，得到最相邻的一级分类器C_t；再次调用KNN算法进行二级分类，将从属于一级分类器C_t的所有二级分类器C_m～C_n，与词向量T再次进行比较，得到最终的二级分类结果C_k。

(5)评价与反馈步骤：

如图4所示，对步骤(4)得到的分类结果进行评价，评价方法既可以采用人工识别，也可以利用已知类别的训练样本进行自动评价。将评价结果反馈给系统，并跳转到步骤(3)，系统将根据反馈信息对分类器的敏感词典进行动态优化，随着系统的不断运行，文本分类的准确率也会不断提升。

本发明要求每一个二级分类器C_j(j＝1,...,N)都要从属于某个一级分类器C_i(i＝1,...,M)，N>＝M。本发明适用于短文档的精细类别划分，不适用于长文档的文本分类。

进一步地，本发明还提供了一种文本精细分类系统，所述系统包括两级分类器构造模块、词向量预处理模块、敏感词典构建模块、文本精细分类模块和评价与反馈模块，其中：

具体地，所述敏感词典构建模块，用于对词向量Term_i采用词频-逆向文件频率算法进行特征选择，再通过人工标注对其中间结果进行微调与优化，最终得到分类器C_i的敏感词典SensWordDict_i，其中Term_i是数据集D_i经过预处理后得到的词向量，D_i是分类器C_i的样本数据集。

具体地，所述文本精细分类模块具体用于，对经过词向量预处理的测试文档，采用K最近邻算法，将预处理后得到的词向量T(term₁,...,term_n...)分别与一级分类器C_i(i＝1,...,M)的敏感词典SensWordDict_i(i＝1,...,M)进行匹配计算，得到最相邻的一级分类器C_t；再次调用KNN算法进行二级分类，将从属于一级分类器C_t的所有二级分类器C_m～C_n，与词向量T再次进行比较，得到最终的二级分类结果C_k。

下面结合一个公安接警信息分类的实例，来说明本发明方法，所述方法包括两级分类器构造步骤、词向量预处理步骤、敏感词典构建步骤、文本精细分类步骤和评价与反馈步骤。具体地：

(1)两级分类器构造步骤：

根据原始文档集构造两级分类器，一级分类器C_i(i＝1,2)，二级分类器C’_j(j＝1,...,5)。其中一级分类器包含盗窃与诈骗两个类别；盗窃又包含了拎包盗窃、电动车盗窃和撬门入户盗窃三个二级分类器，而诈骗包含了网络诈骗和信用卡诈骗两个二级分类器。

无论是一级分类器C_i，还是二级分类器C’_j，都包含数量不等的训练样本，分别是100、105、40、45、30、50、35个。同时，每个分类器都具有独立的敏感词典。一级分类器敏感词典中包含的敏感词，不会在从属于它的二级分类器敏感词典中重复出现。例如，一级分类器盗窃的敏感词典中含有关键词“盗窃”、“被盗”等关键词，这些关键词不会在从属于它的二级分类器敏感词典中重复出现，如撬门入户盗窃中的关键词是“撬门”、“入户”等。

(2)词向量预处理步骤：

对分类器执行词向量的预处理方法，主要包括对分类器的训练样本执行分词、去除专用停顿词和同义词网映射。例如，对盗窃类的某一个训练样本执行分词后得到词向量(2003年、受害人、被、拎包、盗取、损失、金额、2000元)；根据词性剔除对文本分类无用的副词、介词等，得到词向量(受害人、拎包、盗取、损失、金额)；去除公安专用停顿词后，得到词向量(拎包、盗取、损失)；经过同义词网映射后，将“盗取”映射为“盗窃”，得到词向量(拎包、盗窃、损失)。

(3)敏感词典构建步骤：

为每一个分类器构建独有的敏感词典，主要是通过对预处理后得到的词向量进行特征选择和人工标注相结合。例如，采用TF-IDF算法对二级分类器信用卡诈骗的词向量(诈骗、信用卡、冒用、透支、损失、万元)进行特征选择，本类别中出现频率越高的词权重越大，所有类别中出现频率越高的词权重越小，经过筛选后得到信用卡诈骗的敏感词典为(诈骗、信用卡、冒用、透支)；由于关键词“诈骗”属于一级分类器诈骗的关键词，所以，通过人工标注后，我们将其移除，最终得到二级分类器信用卡诈骗的敏感词典为(信用卡、冒用、透支)。

(4)文本精细分类步骤：

经过步骤(3)后，得到各级分类器的敏感词典：盗窃(盗窃、扒窃)、诈骗(诈骗、欺诈)、拎包盗窃(拎包)、电动车盗窃(电动车)、撬门入户盗窃(撬门、入户)、网络诈骗(网上、购物)、信用卡诈骗(信用卡、冒用、透支)。

此时，输入测试文档“2004年接武汉市工商银行牡丹支行报案称：李XX恶意诈骗，用工行贷记卡透支7905元，经多方催缴仍未归还。”，对测试文档进行预处理后得到词向量(恶意、诈骗、贷记卡、透支、催缴)。

首先，采用KNN算法将测试文档的词向量与一级分类器盗窃和诈骗的敏感词典进行匹配计算，发现测试文档属于诈骗的概率大于盗窃的概率，初步判断测试文档为诈骗案。

然后，再次调用KNN算法，将测试文档与一级分类器诈骗类别下的二级分类器网络诈骗和信用卡诈骗分别进行匹配计算，发现测试文档属于信用卡诈骗的概率大于网络诈骗的概率，因此，判断该测试文档属于信用卡诈骗案。

(5)评价与反馈步骤：

对步骤(4)得到的分类结果进行评价，通过人工识别发现该测试文档确实属于信用卡诈骗类别，将评价结果反馈给系统，并跳转到步骤(3)，系统将根据反馈信息对分类器的敏感词典进行动态优化，将(贷记卡、催缴)添加到信用卡诈骗的敏感词典中，随着系统的不断运行，文本分类的准确率也会不断提升。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本精细分类方法，其特征在于，包括两级分类器构造步骤、词向量预处理步骤、敏感词典构建步骤、文本精细分类步骤和评价与反馈步骤，其中：

2.如权利要求1所述的文本精细分类方法，其特征在于，所述步骤(1)构建的分类器中，一级分类器C_i和二级分类器C_j，都包含数量不等的训练样本以及自己所独有的敏感词典，一级分类器敏感词典中包含的敏感词，不会在从属于它的二级分类器敏感词典中重复出现。

3.如权利要求1或2所述的文本精细分类方法，其特征在于，所述步骤(4)中对测试文档进行匹配计算得到最终的分类结果，具体为：

4.如权利要求1或2所述的文本精细分类方法，其特征在于，所述步骤(3)中构建敏感词典，具体为：

5.如权利要求1或2所述的文本精细分类方法，其特征在于，所述步骤(2)中的中文分词处理具体为：

6.如权利要求1或2所述的文本精细分类方法，其特征在于，所述步骤(2)中的去除专用停顿词处理具体为：

7.如权利要求1或2所述的文本精细分类方法，其特征在于，所述步骤(2)中的同义词网映射处理具体为：利用Wordnet进行同义词消岐。

8.一种文本精细分类系统，其特征在于，所述系统包括两级分类器构造模块、词向量预处理模块、敏感词典构建模块、文本精细分类模块和评价与反馈模块，其中：

所述敏感词典构建模块，用于通过对预处理后得到的词向量进行特征选择和人工标注相结合的方式，为每一个分类器构建敏感词典；

9.如权利要求8所述的文本精细分类方法，其特征在于，所述文本精细分类模块具体用于，对经过词向量预处理的测试文档，采用K最近邻算法，将预处理后得到的词向量T(term₁,...,term_n...)分别与一级分类器C_i(i＝1,...,M)的敏感词典SensWordDict_i(i＝1,...,M)进行匹配计算，得到最相邻的一级分类器C_t；再次调用KNN算法进行二级分类，将从属于一级分类器C_t的所有二级分类器C_m～C_n，与词向量T再次进行比较，得到最终的二级分类结果C_k。

10.如权利要求8或9所述的文本精细分类方法，其特征在于，所述文敏感词典构建模块具体用于，对词向量Term_i采用词频-逆向文件频率算法进行特征选择，再通过人工标注对其中间结果进行微调与优化，最终得到分类器C_i的敏感词典SensWordDict_i，其中Term_i是数据集D_i经过预处理后得到的词向量，D_i是分类器C_i的样本数据集。