CN109766410A

CN109766410A - 一种基于fastText算法的新闻文本自动分类系统

Info

Publication number: CN109766410A
Application number: CN201910011489.5A
Authority: CN
Inventors: 程徐; 韩芳; 孔维健
Original assignee: Donghua University
Current assignee: Donghua University; National Dong Hwa University
Priority date: 2019-01-07
Filing date: 2019-01-07
Publication date: 2019-05-17

Abstract

本发明涉及一种基于fastText算法的新闻文本自动分类系统，包括：新闻文本预处理模块，用于对通过爬虫爬取到的新闻文本进行筛选和清洗操作；中文分词及去停用词模块：用于对文本数据进行分词操作并通过停用词表去除对文本分类无意义的词；数字特征提取模块：用于将文本特征转化成数字特征；fastText分类器模块：用于通过fastText算法进行多分类模型的构建，将每段新闻文本预测分类为对应的类别。本发明能够对新闻文本自动归类。

Description

一种基于fastText算法的新闻文本自动分类系统

技术领域

本发明涉及新闻文本自动分类技术领域，特别是涉及一种基于fastText算法的新闻文本自动分类系统。

背景技术

随着网络信息技术的迅速发展和传统纸媒逐渐向信息化媒体的转型，网络中有越来越多的信息积累，尤其是新闻的无纸化使得人们更倾向于在网络上搜索信息。其中大部分是以文本形式存在。文本分类则能有效解决这一问题，而传统的文本分类主要使用手工分类的途径，这种做法有着很多的弊处：首先，这样会耗费大量的人力、物力；其次，存在获得的成果与所要求的不一致的现象。效率低下的手工分类方式面临愈来愈多的困难，面对大数据更显得无从下手，为了提高分类的准确率和速度，新闻文本自动分类顺理成章地成为了发展方向。

国内外研究新闻文本自动分类开始的比较早。相关研究最早可以追溯到上世纪50年代，当时是通过专家规则进行分类，甚至在80年代初一度发展到利用知识工程建立专家系统，这种做法不仅费时费力，而且覆盖的范围和准确率都非常有限。后来伴随着统计学习方法的发展，特别是90年代后互联网在线文本数量增加和机器学习学科的兴起，逐渐形成了一套解决大规模文本分类问题的经典方法，这个阶段的主要套路是人工特征工程加浅层传统分类模型。但是这些传统做法主要问题是文本表示太稀疏而且高纬度，特征表达能力不强，此外还需要人工进行特征工程，成本很高。随着深度学习在图像和语音领域取得巨大成功，人们也慢慢将深度学习应用于自然语言处理领域，使得深度学习神经网络有效的应用于新闻文本自动分类领域。

发明内容

本发明所要解决的技术问题是提供一种基于fastText算法的新闻文本自动分类系统，能够对新闻文本自动归类。

本发明解决其技术问题所采用的技术方案是：提供一种基于fastText算法的新闻文本自动分类系统，包括：新闻文本预处理模块，用于对通过爬虫爬取到的新闻文本进行筛选和清洗操作；中文分词及去停用词模块：用于对文本数据进行分词操作并通过停用词表去除对文本分类无意义的词；数字特征提取模块：用于将文本特征转化成数字特征；fastText分类器模块：用于通过fastText算法进行多分类模型的构建，将每段新闻文本预测分类为对应的类别。

所述新闻文本预处理模块通过正则表达式来对html标签进行匹配来抽取实现新闻文本的筛选和清洗。

所述中文分词及去停用词模块采用jieba分词器对新闻文本进行分词，对分完词之后的文本数据再通过内置的哈工大停用词表进行去停用词处理。

所述数字特征提取模块采用词向量模型word2vec对每个词构建300维的高维向量，并通过one-hot方式进行编码将类别转化成数字特征，其中，词向量模型word2vec的训练文本数据来源于中文维基百科。

所述fastText分类器模块通过载入预训练好的fastText模型进行多分类模型的构建，其中，所述fastText模型的输入是一个词的序列，输出是这个词序列属于不同类别的概率；所述fastText模型将一系列单词作为输入并产生一个预定义类的概率分布；使用一个softmax方程来计算概率，当数据量巨大时，fastText使用基于霍夫曼编码树的分层softmax方法进行计算。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明可用于对新闻文本自动归类，使得用户可以快速的对同类型的新闻进行浏览。

附图说明

图1是本发明的结构方框图；

图2是本发明中fastText拓扑结构图；

图3是本发明中CBOW拓扑结构图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种基于fastText算法的新闻文本自动分类系统，如图1所示，包括：新闻文本预处理模块，用于对通过爬虫爬取到的新闻文本进行筛选和清洗操作；中文分词及去停用词模块：用于对文本数据进行分词操作并通过停用词表去除对文本分类无意义的词；数字特征提取模块：用于将文本特征转化成数字特征；fastText分类器模块：用于通过fastText算法进行多分类模型的构建，将每段新闻文本预测分类为对应的类别。

新闻文本预处理模块是对通过爬虫程序爬取各大新闻网站的html格式的数据抽取清洗出其中相关的新闻文本，此处可以通过正则表达式来对html标签进行匹配来抽取，将清洗之后的文本可以存成txt格式数据，也可以做成csv格式的数据。

中文分词及去停用词模块采用jieba分词器对新闻文本进行分词，jieba分词器是先基于词典的方式进行规则分词，然后再用统计分词方法进行辅助的混合分词方法。对分完词之后的文本数据再通过内置的停用词表对其进行去停用词处理，本实施方式中采用的是哈工大停用词表。所谓去停用词就是去除文本中一些没有意义的词。

数字特征提取模块就是将文本特征转化成计算机可以处理的数字特征，特征提取方法有很多，比较传统的有基于统计机器学习的词袋模型、TF-IDF模型、语言模型、LDA主题模型等，但是目前为止对词义特征刻画能力比较强的还是基于深度学习的词嵌入模型word2vec，本实施方式就是采用这种预训练好的词向量模型，通过gensim库中word2vec模块进行训练，训练模型的文本数据来源于中文维基百科，将每个词映射到300维的高维空间中，使具有很好的区分能力。对于类别可以通过one-hot方式进行编码使之转化成数字特征。

fastText分类器模块采用的是迁移学习方法预训练好的模型，本实施方式中依然采用gensim库中fastText模块进行预训练。fastText算法是一种有监督的模型，与word2vec中的CBOW架构很相似，其结构如图2所示。CBOW是通过上下文预测中间词，而fastText则是通过上下文预测标签，这个标签就是文本的类别，是训练模型之前通过人工标注等方法事先确定下来的。从模型架构上来说，沿用了CBOW的单层神经网络的模式，不过fastText的处理速度才是这个算法的创新之处。该模型的输入是一个词的序列(一段文本或者一句话)，输出是这个词序列属于不同类别的概率。在序列中的词和词组构成特征向量，特征向量通过线性变换映射到中间层，再由中间层映射到标签。fastText在预测标签时使用了非线性激活函数，但在中间层不使用非线性激活函数。如图2展示了一个有一个隐藏层的简单模型。词表征被平均成一个文本表征，然后其会被馈送入一个线性分类器。这个构架和图3所示的CBOW模型相似，只是中间词被替换成了标签。该模型将一系列单词作为输入并产生一个预定义类的概率分布。这里使用一个softmax方程来计算这些概率。当数据量巨大时，线性分类器的计算十分昂贵，所以fastText使用了一个基于霍夫曼编码树的分层softmax方法。常用的文本特征表示方法是词袋模型，然而词袋(BOW)中的词顺序是不变的，但是明确考虑该顺序的计算成本通常十分高昂。作为替代，fastText使用n-gram获取额外特征来得到关于局部词顺序的部分信息。

本实施方式的基于fastText算法的新闻文本自动分类系统的效果测试可通过多次输入一段新的新闻文本数据，看其预测的结果与其真实的结果是否一致来评估。对于一段新的新闻文本事先通过新闻文本预处理模块进行清洗和筛选，接着输入到中文分词及去停用词模块进行分词和去提用词操作，然后再将去完停用词后文本数据输入到数字特征提取模块中得到相应的300维词向量，最终输入到fastText分类器模块进行分类，这就是大致的一段新文本的分类过程。

Claims

1.一种基于fastText算法的新闻文本自动分类系统，其特征在于，包括：新闻文本预处理模块，用于对通过爬虫爬取到的新闻文本进行筛选和清洗操作；中文分词及去停用词模块：用于对文本数据进行分词操作并通过停用词表去除对文本分类无意义的词；数字特征提取模块：用于将文本特征转化成数字特征；fastText分类器模块：用于通过fastText算法进行多分类模型的构建，将每段新闻文本预测分类为对应的类别。

2.根据权利要求1所述的基于fastText算法的新闻文本自动分类系统，其特征在于，所述新闻文本预处理模块通过正则表达式来对html标签进行匹配来抽取实现新闻文本的筛选和清洗。

3.根据权利要求1所述的基于fastText算法的新闻文本自动分类系统，其特征在于，所述中文分词及去停用词模块采用jieba分词器对新闻文本进行分词，对分完词之后的文本数据再通过内置的哈工大停用词表进行去停用词处理。

4.根据权利要求1所述的基于fastText算法的新闻文本自动分类系统，其特征在于，所述数字特征提取模块采用词向量模型word2vec对每个词构建300维的高维向量，并通过one-hot方式进行编码将类别转化成数字特征，其中，词向量模型word2vec的训练文本数据来源于中文维基百科。

5.根据权利要求1所述的基于fastText算法的新闻文本自动分类系统，其特征在于，所述fastText分类器模块通过载入预训练好的fastText模型进行多分类模型的构建，其中，所述fastText模型的输入是一个词的序列，输出是这个词序列属于不同类别的概率；所述fastText模型将一系列单词作为输入并产生一个预定义类的概率分布；使用一个softmax方程来计算概率，当数据量巨大时，fastText使用基于霍夫曼编码树的分层softmax方法进行计算。