CN106708926A

CN106708926A - 一种支持海量长文本数据分类的分析模型的实现方法

Info

Publication number: CN106708926A
Application number: CN201611001399.0A
Authority: CN
Inventors: 王宇; 徐晓燕; 周渊; 刘庆良; 郑彩娟; 黄成�; 周游; 王海平; 马雪
Original assignee: BEIJING SCISTOR TECHNOLOGY Co Ltd; National Computer Network and Information Security Management Center
Current assignee: BEIJING SCISTOR TECHNOLOGY Co Ltd; National Computer Network and Information Security Management Center
Priority date: 2016-11-14
Filing date: 2016-11-14
Publication date: 2017-05-24
Anticipated expiration: 2036-11-14
Also published as: CN106708926B

Abstract

本发明提出一种支持海量长文本数据分类的分析模型的实现方法，属于大数据文本分析技术领域。本发明采用HanLP分词工具中的标准分词并采用改进的CHI算法，一方面有效降低文本分类时每篇文章的词向量空间的维度，降低文本分类计算的时间复杂度，提升算法效率，满足大数据背景下海量长文本分类时的性能需求；同时最大程度低减少由于降低向量空间维度数而造成分类准确性降低。采用TFIDF算法能够有效消除了文本与向量之间的屏障，最后采用朴素贝叶斯分类算法，能够准确的将文本进行较好的训练，实现长文本的准确的分类。本发明能有效地解决在大数据环境下长文本分类的性能指标和准确性指标的矛盾性问题，具有广泛的应用前景。

Description

一种支持海量长文本数据分类的分析模型的实现方法

技术领域

本发明属于大数据文本分析技术领域，具体涉及一种通过CHI算法提取每类文本的特征词、TFIDF算法实现文本的向量化表示以及朴素贝叶斯方法训练分类的海量长文本数据分类的分析模型的实现方法。

背景技术

当今时代，是一个信息技术飞速发展的时代。随着信息技术的发展，科学知识也在短时间内发生了急剧的、爆炸性的增长，每天都有大量的信息在产生，全世界每年出版图书50万种，每一分钟就有一种新书出版。平均每天发表的包含新知识的论文为1.3到1.4万篇；登记的发明创造专利每年超过30万件，平均每天有800-900件专利问世。进二十年来，每年形成的文件资料的页数都在数以亿计的增加。同时，伴随着Internet的迅猛发展，网站和网页数也在迅速增长，大约每年翻一番。据估计，目前全世界网页数已高达2000亿，而Google宣称其已索引250亿网页。从这些统计数字可以看出，我们被淹没在一个多么浩大的信息海洋中！然而人们越来越感觉无法快速找到需要的知识。这就是所谓的“信息是丰富的，知识是贫乏的”。

针对目前网络信息大部分都是以文本形式存在的状况，自动文本分类技术作为处理和组织大量文本的关键技术，受到了广泛关注。目前的对于文本分类的工具，有两个大的方向：第一个方向是基于语义的，在分类算法的初期阶段，语义算法得到了许多研究者的青睐，在进行分类时充分考虑了一些语言中的语法结构，比如词语之间的位置关系，进行语句之间的相似度比较从而得到某个未知类别文章的类别，但是这类算法比较缺乏坚实的理论基础，不存在明确的评价标准且在实际应用的过程中表现越来越不能满足实际需求。因此，近些年，大部分的关于文本分类的研究是基于统计的分类算法研究，基于统计的分类算法大多具有严密的理论证明，并且在实际应用时的效果明显优于语义的算法。但是目前基于统计的分类算法也存在一些问题，大部分的统计分类模型的通用性比不好，只能在一些特定的情况下表现出来较为优秀的性能，并不通用；另外现在的统计分类分析模型大部分都是基于单个处理机的，这样模型对于目前的海量数据来讲，是扼需解决的一个问题。

发明内容

针对统计分类模型的这两个问题，本发明提供了相应的解决方法来应对目前的实际分类的需求，提出采用一种通过CHI算法提取每类文本的特征词,并通过计算所有类别的特征词集的集合交运算得到后续文本分类的词向量空间，可以一方面有效降低文本分类时每篇文章的词向量空间的维度，降低文本分类计算的时间复杂度，提升算法效率，满足大数据背景下海量长文本分类时的性能需求。同时又可以最大程度地减少由于降低向量空间维度数而造成分类准确性降低。TFIDF算法实现文本的向量化表示以及朴素贝叶斯方法训练分类的方法，不仅能够高效快速的对训练样本进行特征选取，也能够准确的对待分类文本进行分类。

根据本发明的第一个方面，提出了一种新的基于VSM的统计分类模型，将文本进行向量化表示。因为直接对自然语言进行处理的情况过于复杂，很难用具体的算法确定文本之间的相关关系，不仅算法的设计上会是十分复杂，而且文本的处理时间上也会是一种灾难。本发明提出的这种基于VSM的统计分类模型，不仅能够从形式上大大简化对于自然语言的处理难度，还能提高对文本整体分类效率，保证很好的适用于海量文本数据的处理需求。在VSM的框架之下，本发明采用了特征选择、文本的向量化表示、基于统计的分类算法相结合的框架体系结构，能够很好的解决海量文本数据分类的问题。其中特征选择过程，通过引入了改进后的CHI算法首选对训练集样本进行计算，得到训练样本中每类文本的N个代表性关键词。再通过对所有类别文本各自的N个代表性关键词进行集合交集运算，最终得到低维度高可代表性的特征向量空间。本发明提出的向量空间模型简化了对长文本的处理过程，大大节省了文本占用的空间资源，同时也能够将本文之间的关系量化的表示，较好的节约了文本的处理时间；文本的向量化过程和基于统计的分类算法过程均采用了分布式处理框架来完成，spark分布式计算框架适应目前的对于海量文本的处理的时间效率的需求。并且本模型中的每一步所采用的具体的算法设计具有很好的通用性，高效性。

本发明的第二方面，本发明采用基于HanLP自然语言处理工具中的标准分词器进行分词，HanLP工具的标准分词器相比于NLP分词工具来说，分词准确率高；相较于IK分词工具该分词器不仅具有更高的准确性，而且还能够支持词性标注功能，相比CRF分词工具而言，在分词性能上而言，更突出了明显的优势。并且本发明在原有HanLP自然语言处理包的基础上，扩展了多个词典，使得分词效果无论从准确性还是性能方面都有了较大的提高。

本发明的第三个方面，采用是基于CHI卡方检验的特征选择算法，并进行了算法的优化。原始CHI的计算公式是基于文档频率(即某个词语在文本分类训练集中的文档出现频率)计算CHI值，选出每个类别下的最高的N个值，进行特征选择。但是在经过CHI算法选择出来的词语，经过人工检查，发现在某些类别中，会出现一些对特征词所在类别代表性不是很强的词，这类词不仅不会对文本分类带来贡献，还会降低文本分类的准确率，因此本发明对原始的CHI特征选择算法进行了改进，将其改造为基于词频的CHI值进行计算，特征选择结果经过人工识别，词语的代表性大大提高，并且在之后的测试中，分类的正确率相比于原始的CHI算法提高了大约3％。

本发明的第四个阶段对于文本的向量化的表示和分类算法均采用基于spark的分布式框架体系结构。spark分布式计算框架适应目前的对于海量文本的处理的时间效率的需求。并且本模型中的每一步所采用的具体的算法设计具有很好的通用性，高效性。因此本发明采用了目前在业界广泛认可的spark并行计算处理工具，来解决问题目前的单机串行处理方式速度极慢的问题。

本发明的第五个方面，在特征选择过程和之后的文本向量化的表示过程中，进行了优化。一般的分类模型在特征选择的功能中，一般都会进行词性过滤的功能，一般大部分的分类模型都是采用了只保留名词的方法，即选择出来的特征词都是名词，并且在之后的应用TFIDF文本向量化的过程中，并没有词性过滤这一过程。本发明对于这两个功能进行了优化。首先是，文本的特征词过滤过程，采用了保留名词+动词+形容词的方法。其次，在文本的向量化表示过程中同样采用了只保留名词+动词+形容词的方法。经过之后的实际测试过程中发现，这样的处理方式提高了分类的准确率。

本发明的优点在于：

总之，本发明提出的支持海量长文本数据分类的分析模型能够在准确性和性能上都达到一个较高的水平。本发明在训练语料库充足的情况下能够有效的对未知类别文本进行准确、高效的类别划分。本发明采用HanLP分词工具中的标准分词能够准确的将训练文本数据、待分类文本数据进行有效的分词，并采用改进的CHI算法准确的为每一类文本选取其所属特征词，并通过计算所有类别的特征词集的集合交运算得到后续文本分类的词向量空间，可以一方面有效降低文本分类时每篇文章的词向量空间的维度，降低文本分类计算的时间复杂度，提升算法效率，满足大数据背景下海量长文本分类时的性能需求。同时又可以最大程度地减少由于降低向量空间维度数而造成分类准确性降低。这为文本分类奠定了良好的基础；采用TFIDF算法能够有效消除文本与向量之间的屏障，很好的将每一文本进行了向量化的表示，最后，采用较为经典的朴素贝叶斯分类算法，能够准确的将文本进行较好的训练，实现长文本的准确的分类。通过本发明提出的支持海量长文本数据分类的分析模型，在长文本分类、信息检索、书籍统计、舆情分词等领域具有广泛的应用前景。

附图说明

图1为本发明的分类模型的训练流程；

图2为本发明的分类模型的测试流程；

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明提供一种支持海量长文本数据分类的分析模型及其实现方法，所述分析模型采用了基于统计的文本分类算法，该文本分类算法中采用向量空间模型(VSM)，对CHI算法中提取的类别特征词根据TFIDF算法实现文本的向量化表示，采用朴素贝叶斯方法对语料库进行训练，实现了海量长文本数据分类的分析模型。

所述的分析模型通过如下步骤实现：

第一步，建立基于VSM的统计分类模型，将文本进行向量化表示。

因为直接对自然语言进行处理的情况过于复杂，很难用具体的算法确定文本之间的相关关系，不仅算法的设计上会是十分复杂，而且文本的处理时间上也会是一种灾难。本发明提出的这种基于VSM的统计分类模型，不仅能够从形式上大大简化对于自然语言的处理难度，还能提高对文本整体分类效率，保证很好的适用于海量文本数据的处理需求。在VSM的框架之下，本发明采用了特征选择、文本的向量化表示、基于统计的分类算法相结合的框架体系结构，能够很好的解决海量文本数据分类的问题。其中特征选择过程，简化了对长文本的处理过程，大大节省了文本占用的空间资源，同时也能够将本文之间的关系量化的表示，较好的节约了文本的处理时间；文本的向量化过程和基于统计的分类算法过程均采用了分布式处理框架来完成，spark分布式计算框架适应目前的对于海量文本的处理的时间效率的需求。并且所述的基于VSM的统计分类模型中的每一步所采用的具体的算法设计具有很好的通用性，高效性。

在本发明所设计的分类模型中，文本的向量空间通过计算训练文本每类的代表性特征词来获得。分类模型所使用的文本向量空间等于所有类别训练文本基于CHI算法得到的特征词的集合交集。基于改进后的CHI算法保证了每类文本特征词的代表性，从而最大限度地降低了由于文本特征向量维度降低而导致分类准确性降低。同时达到了对向量空间维度降维作用，使文本分类过程性能大大提升。

第二步，采用基于HanLP自然语言处理工具中的标准分词器进行分词。

HanLP自然语言处理工具的标准分词器相比于NLP分词工具来说，分词准确率高；相较于IK分词工具该标准分词器不仅具有更高的准确性，而且还能够支持词性标注功能，相比CRF分词工具而言，在分词性能上而言，更突出了明显的优势。并且本发明在原有HanLP自然语言处理包的基础上，扩展了多个词典，使得分词效果无论从准确性还是性能方面都有了较大的提高。

第三步，采用基于CHI卡方检验的特征选择算法，并进行了算法的优化。

原始CHI的计算公式是基于文档频率(即某个词语在文本分类训练集中的文档出现频率)计算CHI值，选出每个类别下的最高的N个值，进行特征选择。但是在经过CHI算法选择出来的词语，经过人工检查，发现在某些类别中，会出现一些对特征词所在类别代表性不是很强的词，这类词不仅不会对文本分类带来贡献，还会降低文本分类的准确率，因此本发明对原始的CHI特征选择算法进行了改进，将其改造为基于词频的CHI值进行计算，特征选择结果经过人工识别，词语的代表性大大提高，并且在之后的测试中，分类的正确率相比于原始的CHI算法提高了大约3％。

第四步，对于文本的向量化的表示和分类算法均采用基于spark的分布式框架体系结构。spark分布式计算框架适应目前的对于海量文本的处理的时间效率的需求。并且本模型中的每一步所采用的具体的算法设计具有很好的通用性，高效性。因此本发明采用了目前在业界广泛认可的spark并行计算处理工具，来解决问题目前的单机串行处理方式速度极慢的问题。

第五步，在特征选择过程和之后的文本向量化的表示过程中，进行了优化。一般的分类模型在特征选择的功能中，一般都会进行词性过滤的功能，一般大部分的分类模型都是采用了只保留名词的方法，即选择出来的特征词都是名词，并且在之后的应用TFIDF文本向量化的过程中，并没有词性过滤这一过程。本发明对于这两个功能进行了优化。首先是，文本的特征词过滤过程，采用了保留名词+动词+形容词的方法。其次，在文本的向量化表示过程中同样采用了只保留名词+动词+形容词的方法。经过之后的实际测试过程中发现，这样的处理方式提高了分类的准确率。

以下将给出本发明分析模型的具体实施过程的一个实例。

首先，给出CHI算法的配置文件中的内容。

#待处理文本的统一编码格式

processor.common.charset＝UTF-8

#分词器类名称:

processor.document.analyzer.class＝com.scistor.scitextminner.featureextractor.analyzer.HanLPAnalyzer

#停用词词表存放路径

processor.document.analyzer.stopwords.dir＝/mnt/sdg1/document_analysis/stopwords

#分词结果中的过滤类的名称

processor.document.filter.classes＝com.scistor.scitextminner.featureextractor.filter.LexicalCategoryFilter,com.scistor.scitextminner.featureextractor.filter.SingleWordTermFilter,com.scistor.scitextminner.featureextractor.filter.StopwordsTermFilter#需要保留的词性的列表

processor.document.filter.kept.lexical.categories＝n,nh,nhm,nhd,nf,gi,gg,nmc,nit,ntcf,nto,ntu,nts,nm,nb,nba,nbc,nbp,gbc,gb,gc,gp,gm,zg,v,vd,vn,vx,vi,vl,vg,a,ad,an,z

#,vn,ns,nt

#每一类所要选出来的词的个数

processor.each.label.kept.term.count＝3000

#每一类的CHI的词的列表的存放路径

procesor.dataset.label.chi.term.vector.file＝/mnt/sdg1/document_analysis/mergedCHIvector/labelCHIword.txt

#将每一列的CHI词合并后的文件的存放路径

processor.dataset.chi.term.vector.file＝/mnt/sdg1/document_analysis/mergedCHIvector/mergedCHI.txt

#保留训练文本的扩展名

processor.dataset.file.extension＝.txt

#用于存放文本分类的数字代表类别文件的存放路径

processor.dataset.label.vector.file＝/mnt/sdg1/document_analysis/labelID/labelID.txt

#用于存放训练文本的路径

processor.dataset.train.input.root.dir＝/mnt/sdg1/document_analysis/train12007

修改完配置文件中的内容后，就可以执行CHI的选词过程。

接下来是对于文本的训练与预测实施过程，如图1、图2所示。

#这是之前CHI生成的词语的txt

processor.dataset.chi.term.vector.file＝/mnt/sdg1/document_analysis/mergedCHI.txt

#这是词性列表，只计算名词，形容词，动词

#这是HDFS上的一个路径，程序运行中间会用到

processor.dataset.predict.dir＝/tmp/zhang/predict/

#这是训练语料库的路径，HDFS

processor.dataset.train.input.root.train.dir＝/tmp/zhang/train1

#这是测试语料库的路径，HDFS

processor.dataset.test.input.root.test.dir＝/tmp/zhang/test1

#这是预测结果的TXT，每一行表示一个文本，每行两列，第一列表示原始类别，第二列表示最终类别，这两列都是数字

processor.dataset.test.predict.txt.file＝/mnt/sdg1/document_analysis/predict/predictresult.txt

#这是上面文件加了一个测试预料库的文件的路径的预测结果文件

processor.dataset.test.predict.path.txt.file＝/mnt/sdg1/document_analysis/predict/predictresultcocpath.txt

#这是预测文件的数字所表示的文件类别

processor.dataset.label.txt.file＝/mnt/sdg1/document_analysis/predict/labelID.txt

配置完之后就可以进行文本分类的训练与预测过程。

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种支持海量长文本数据分类的分析模型的实现方法，包括以下几个步骤：

第一步，建立基于VSM的统计分类模型，将文本进行向量化表示；

在VSM的框架之下，采用特征选择、文本的向量化表示、基于统计的分类算法相结合的框架体系结构；

第二步，采用基于HanLP自然语言处理工具中的标准分词器进行分词；

其中，HanLP自然语言处理包的还设有扩展词典；

第三步，采用基于CHI卡方检验的特征选择算法，并进行算法优化；

其中，CHI的计算公式是基于词频计算CHI值，选出每个类别下的最高的N个值，进行特征选择；

第四步，对于文本的向量化的表示和分类算法均采用基于spark的分布式框架体系结构；

第五步，在特征选择过程和文本向量化的表示过程中，进行优化；

首先是，文本的特征词过滤过程，采用了保留名词+动词+形容词的方法；其次，在文本的向量化表示过程中同样采用了只保留名词+动词+形容词的方法；

根据训练语料库，对分析模型进行训练，最终，通过模型进行分类预测。