CN109766410A - 一种基于fastText算法的新闻文本自动分类系统 - Google Patents
一种基于fastText算法的新闻文本自动分类系统 Download PDFInfo
- Publication number
- CN109766410A CN109766410A CN201910011489.5A CN201910011489A CN109766410A CN 109766410 A CN109766410 A CN 109766410A CN 201910011489 A CN201910011489 A CN 201910011489A CN 109766410 A CN109766410 A CN 109766410A
- Authority
- CN
- China
- Prior art keywords
- fasttext
- newsletter archive
- text
- word
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 230000011218 segmentation Effects 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000004140 cleaning Methods 0.000 claims abstract description 6
- 238000012216 screening Methods 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 8
- 239000010410 layer Substances 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000035508 accumulation Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于fastText算法的新闻文本自动分类系统,包括:新闻文本预处理模块,用于对通过爬虫爬取到的新闻文本进行筛选和清洗操作;中文分词及去停用词模块:用于对文本数据进行分词操作并通过停用词表去除对文本分类无意义的词;数字特征提取模块:用于将文本特征转化成数字特征;fastText分类器模块:用于通过fastText算法进行多分类模型的构建,将每段新闻文本预测分类为对应的类别。本发明能够对新闻文本自动归类。
Description
技术领域
本发明涉及新闻文本自动分类技术领域,特别是涉及一种基于fastText算法的新闻文本自动分类系统。
背景技术
随着网络信息技术的迅速发展和传统纸媒逐渐向信息化媒体的转型,网络中有越来越多的信息积累,尤其是新闻的无纸化使得人们更倾向于在网络上搜索信息。其中大部分是以文本形式存在。文本分类则能有效解决这一问题,而传统的文本分类主要使用手工分类的途径,这种做法有着很多的弊处:首先,这样会耗费大量的人力、物力;其次,存在获得的成果与所要求的不一致的现象。效率低下的手工分类方式面临愈来愈多的困难,面对大数据更显得无从下手,为了提高分类的准确率和速度,新闻文本自动分类顺理成章地成为了发展方向。
国内外研究新闻文本自动分类开始的比较早。相关研究最早可以追溯到上世纪50年代,当时是通过专家规则进行分类,甚至在80年代初一度发展到利用知识工程建立专家系统,这种做法不仅费时费力,而且覆盖的范围和准确率都非常有限。后来伴随着统计学习方法的发展,特别是90年代后互联网在线文本数量增加和机器学习学科的兴起,逐渐形成了一套解决大规模文本分类问题的经典方法,这个阶段的主要套路是人工特征工程加浅层传统分类模型。但是这些传统做法主要问题是文本表示太稀疏而且高纬度,特征表达能力不强,此外还需要人工进行特征工程,成本很高。随着深度学习在图像和语音领域取得巨大成功,人们也慢慢将深度学习应用于自然语言处理领域,使得深度学习神经网络有效的应用于新闻文本自动分类领域。
发明内容
本发明所要解决的技术问题是提供一种基于fastText算法的新闻文本自动分类系统,能够对新闻文本自动归类。
本发明解决其技术问题所采用的技术方案是:提供一种基于fastText算法的新闻文本自动分类系统,包括:新闻文本预处理模块,用于对通过爬虫爬取到的新闻文本进行筛选和清洗操作;中文分词及去停用词模块:用于对文本数据进行分词操作并通过停用词表去除对文本分类无意义的词;数字特征提取模块:用于将文本特征转化成数字特征;fastText分类器模块:用于通过fastText算法进行多分类模型的构建,将每段新闻文本预测分类为对应的类别。
所述新闻文本预处理模块通过正则表达式来对html标签进行匹配来抽取实现新闻文本的筛选和清洗。
所述中文分词及去停用词模块采用jieba分词器对新闻文本进行分词,对分完词之后的文本数据再通过内置的哈工大停用词表进行去停用词处理。
所述数字特征提取模块采用词向量模型word2vec对每个词构建300维的高维向量,并通过one-hot方式进行编码将类别转化成数字特征,其中,词向量模型word2vec的训练文本数据来源于中文维基百科。
所述fastText分类器模块通过载入预训练好的fastText模型进行多分类模型的构建,其中,所述fastText模型的输入是一个词的序列,输出是这个词序列属于不同类别的概率;所述fastText模型将一系列单词作为输入并产生一个预定义类的概率分布;使用一个softmax方程来计算概率,当数据量巨大时,fastText使用基于霍夫曼编码树的分层softmax方法进行计算。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明可用于对新闻文本自动归类,使得用户可以快速的对同类型的新闻进行浏览。
附图说明
图1是本发明的结构方框图;
图2是本发明中fastText拓扑结构图;
图3是本发明中CBOW拓扑结构图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的实施方式涉及一种基于fastText算法的新闻文本自动分类系统,如图1所示,包括:新闻文本预处理模块,用于对通过爬虫爬取到的新闻文本进行筛选和清洗操作;中文分词及去停用词模块:用于对文本数据进行分词操作并通过停用词表去除对文本分类无意义的词;数字特征提取模块:用于将文本特征转化成数字特征;fastText分类器模块:用于通过fastText算法进行多分类模型的构建,将每段新闻文本预测分类为对应的类别。
新闻文本预处理模块是对通过爬虫程序爬取各大新闻网站的html格式的数据抽取清洗出其中相关的新闻文本,此处可以通过正则表达式来对html标签进行匹配来抽取,将清洗之后的文本可以存成txt格式数据,也可以做成csv格式的数据。
中文分词及去停用词模块采用jieba分词器对新闻文本进行分词,jieba分词器是先基于词典的方式进行规则分词,然后再用统计分词方法进行辅助的混合分词方法。对分完词之后的文本数据再通过内置的停用词表对其进行去停用词处理,本实施方式中采用的是哈工大停用词表。所谓去停用词就是去除文本中一些没有意义的词。
数字特征提取模块就是将文本特征转化成计算机可以处理的数字特征,特征提取方法有很多,比较传统的有基于统计机器学习的词袋模型、TF-IDF模型、语言模型、LDA主题模型等,但是目前为止对词义特征刻画能力比较强的还是基于深度学习的词嵌入模型word2vec,本实施方式就是采用这种预训练好的词向量模型,通过gensim库中word2vec模块进行训练,训练模型的文本数据来源于中文维基百科,将每个词映射到300维的高维空间中,使具有很好的区分能力。对于类别可以通过one-hot方式进行编码使之转化成数字特征。
fastText分类器模块采用的是迁移学习方法预训练好的模型,本实施方式中依然采用gensim库中fastText模块进行预训练。fastText算法是一种有监督的模型,与word2vec中的CBOW架构很相似,其结构如图2所示。CBOW是通过上下文预测中间词,而fastText则是通过上下文预测标签,这个标签就是文本的类别,是训练模型之前通过人工标注等方法事先确定下来的。从模型架构上来说,沿用了CBOW的单层神经网络的模式,不过fastText的处理速度才是这个算法的创新之处。该模型的输入是一个词的序列(一段文本或者一句话),输出是这个词序列属于不同类别的概率。在序列中的词和词组构成特征向量,特征向量通过线性变换映射到中间层,再由中间层映射到标签。fastText在预测标签时使用了非线性激活函数,但在中间层不使用非线性激活函数。如图2展示了一个有一个隐藏层的简单模型。词表征被平均成一个文本表征,然后其会被馈送入一个线性分类器。这个构架和图3所示的CBOW模型相似,只是中间词被替换成了标签。该模型将一系列单词作为输入并产生一个预定义类的概率分布。这里使用一个softmax方程来计算这些概率。当数据量巨大时,线性分类器的计算十分昂贵,所以fastText使用了一个基于霍夫曼编码树的分层softmax方法。常用的文本特征表示方法是词袋模型,然而词袋(BOW)中的词顺序是不变的,但是明确考虑该顺序的计算成本通常十分高昂。作为替代,fastText使用n-gram获取额外特征来得到关于局部词顺序的部分信息。
本实施方式的基于fastText算法的新闻文本自动分类系统的效果测试可通过多次输入一段新的新闻文本数据,看其预测的结果与其真实的结果是否一致来评估。对于一段新的新闻文本事先通过新闻文本预处理模块进行清洗和筛选,接着输入到中文分词及去停用词模块进行分词和去提用词操作,然后再将去完停用词后文本数据输入到数字特征提取模块中得到相应的300维词向量,最终输入到fastText分类器模块进行分类,这就是大致的一段新文本的分类过程。
Claims (5)
1.一种基于fastText算法的新闻文本自动分类系统,其特征在于,包括:新闻文本预处理模块,用于对通过爬虫爬取到的新闻文本进行筛选和清洗操作;中文分词及去停用词模块:用于对文本数据进行分词操作并通过停用词表去除对文本分类无意义的词;数字特征提取模块:用于将文本特征转化成数字特征;fastText分类器模块:用于通过fastText算法进行多分类模型的构建,将每段新闻文本预测分类为对应的类别。
2.根据权利要求1所述的基于fastText算法的新闻文本自动分类系统,其特征在于,所述新闻文本预处理模块通过正则表达式来对html标签进行匹配来抽取实现新闻文本的筛选和清洗。
3.根据权利要求1所述的基于fastText算法的新闻文本自动分类系统,其特征在于,所述中文分词及去停用词模块采用jieba分词器对新闻文本进行分词,对分完词之后的文本数据再通过内置的哈工大停用词表进行去停用词处理。
4.根据权利要求1所述的基于fastText算法的新闻文本自动分类系统,其特征在于,所述数字特征提取模块采用词向量模型word2vec对每个词构建300维的高维向量,并通过one-hot方式进行编码将类别转化成数字特征,其中,词向量模型word2vec的训练文本数据来源于中文维基百科。
5.根据权利要求1所述的基于fastText算法的新闻文本自动分类系统,其特征在于,所述fastText分类器模块通过载入预训练好的fastText模型进行多分类模型的构建,其中,所述fastText模型的输入是一个词的序列,输出是这个词序列属于不同类别的概率;所述fastText模型将一系列单词作为输入并产生一个预定义类的概率分布;使用一个softmax方程来计算概率,当数据量巨大时,fastText使用基于霍夫曼编码树的分层softmax方法进行计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910011489.5A CN109766410A (zh) | 2019-01-07 | 2019-01-07 | 一种基于fastText算法的新闻文本自动分类系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910011489.5A CN109766410A (zh) | 2019-01-07 | 2019-01-07 | 一种基于fastText算法的新闻文本自动分类系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109766410A true CN109766410A (zh) | 2019-05-17 |
Family
ID=66452645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910011489.5A Pending CN109766410A (zh) | 2019-01-07 | 2019-01-07 | 一种基于fastText算法的新闻文本自动分类系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109766410A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175288A (zh) * | 2019-05-23 | 2019-08-27 | 中国搜索信息科技股份有限公司 | 一种面向青少年群体的文字和图像数据的过滤方法及系统 |
CN110222189A (zh) * | 2019-06-19 | 2019-09-10 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN111177382A (zh) * | 2019-12-23 | 2020-05-19 | 四川大学 | 基于FastText算法的智能法条推荐辅助系统 |
CN111191449A (zh) * | 2019-12-26 | 2020-05-22 | 航天信息股份有限公司 | 一种税务反馈信息的处理方法及装置 |
CN111680155A (zh) * | 2020-05-13 | 2020-09-18 | 新华网股份有限公司 | 文本分类方法、装置、电子设备及计算机存储介质 |
CN111818080A (zh) * | 2020-07-22 | 2020-10-23 | 中国工商银行股份有限公司 | 注入攻击检测模型构建方法和装置 |
CN111859887A (zh) * | 2020-07-21 | 2020-10-30 | 北京北斗天巡科技有限公司 | 一种基于深度学习的科技新闻自动写作系统 |
CN111967063A (zh) * | 2020-09-02 | 2020-11-20 | 开普云信息科技股份有限公司 | 一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质 |
CN113051462A (zh) * | 2019-12-26 | 2021-06-29 | 深圳市北科瑞声科技股份有限公司 | 一种多分类模型训练方法、系统及装置 |
CN113705728A (zh) * | 2021-09-18 | 2021-11-26 | 全知科技(杭州)有限责任公司 | 一种分类分级清单智能打标方法 |
CN114218941A (zh) * | 2021-11-30 | 2022-03-22 | 深圳市查策网络信息技术有限公司 | 一种新闻标签标注方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
CN107609121A (zh) * | 2017-09-14 | 2018-01-19 | 深圳市玛腾科技有限公司 | 基于LDA和word2vec算法的新闻文本分类方法 |
CN108399230A (zh) * | 2018-02-13 | 2018-08-14 | 上海大学 | 一种基于卷积神经网络的中文财经新闻文本分类方法 |
US20180357531A1 (en) * | 2015-11-27 | 2018-12-13 | Devanathan GIRIDHARI | Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof |
-
2019
- 2019-01-07 CN CN201910011489.5A patent/CN109766410A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180357531A1 (en) * | 2015-11-27 | 2018-12-13 | Devanathan GIRIDHARI | Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof |
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
CN107609121A (zh) * | 2017-09-14 | 2018-01-19 | 深圳市玛腾科技有限公司 | 基于LDA和word2vec算法的新闻文本分类方法 |
CN108399230A (zh) * | 2018-02-13 | 2018-08-14 | 上海大学 | 一种基于卷积神经网络的中文财经新闻文本分类方法 |
Non-Patent Citations (2)
Title |
---|
代令令等: "基于fastText的中文文本分类", 《计算机与现代化》 * |
刘测等: "面向新闻文本的分类方法的比较研究", 《智能计算机与应用》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175288A (zh) * | 2019-05-23 | 2019-08-27 | 中国搜索信息科技股份有限公司 | 一种面向青少年群体的文字和图像数据的过滤方法及系统 |
CN110175288B (zh) * | 2019-05-23 | 2020-05-19 | 中国搜索信息科技股份有限公司 | 一种面向青少年群体的文字和图像数据的过滤方法及系统 |
CN110222189A (zh) * | 2019-06-19 | 2019-09-10 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN111177382A (zh) * | 2019-12-23 | 2020-05-19 | 四川大学 | 基于FastText算法的智能法条推荐辅助系统 |
CN111177382B (zh) * | 2019-12-23 | 2023-12-08 | 四川大学 | 基于FastText算法的智能法条推荐辅助系统 |
CN113051462A (zh) * | 2019-12-26 | 2021-06-29 | 深圳市北科瑞声科技股份有限公司 | 一种多分类模型训练方法、系统及装置 |
CN111191449A (zh) * | 2019-12-26 | 2020-05-22 | 航天信息股份有限公司 | 一种税务反馈信息的处理方法及装置 |
CN111680155A (zh) * | 2020-05-13 | 2020-09-18 | 新华网股份有限公司 | 文本分类方法、装置、电子设备及计算机存储介质 |
CN111859887A (zh) * | 2020-07-21 | 2020-10-30 | 北京北斗天巡科技有限公司 | 一种基于深度学习的科技新闻自动写作系统 |
CN111818080A (zh) * | 2020-07-22 | 2020-10-23 | 中国工商银行股份有限公司 | 注入攻击检测模型构建方法和装置 |
CN111967063A (zh) * | 2020-09-02 | 2020-11-20 | 开普云信息科技股份有限公司 | 一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质 |
CN113705728A (zh) * | 2021-09-18 | 2021-11-26 | 全知科技(杭州)有限责任公司 | 一种分类分级清单智能打标方法 |
CN113705728B (zh) * | 2021-09-18 | 2023-08-01 | 全知科技(杭州)有限责任公司 | 一种分类分级清单智能打标方法 |
CN114218941A (zh) * | 2021-11-30 | 2022-03-22 | 深圳市查策网络信息技术有限公司 | 一种新闻标签标注方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109766410A (zh) | 一种基于fastText算法的新闻文本自动分类系统 | |
CN105868184B (zh) | 一种基于循环神经网络的中文人名识别方法 | |
CN109783818B (zh) | 一种企业行业分类方法 | |
CN109933670B (zh) | 一种基于组合矩阵计算语义距离的文本分类方法 | |
CN108520030B (zh) | 文本分类方法、文本分类系统及计算机装置 | |
CN109670039B (zh) | 基于三部图和聚类分析的半监督电商评论情感分析方法 | |
CN112015863B (zh) | 一种基于图神经网络的多元特征融合中文文本分类方法 | |
Sari et al. | Text classification using long short-term memory with glove | |
CN110083700A (zh) | 一种基于卷积神经网络的企业舆情情感分类方法及系统 | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN106815369A (zh) | 一种基于Xgboost分类算法的文本分类方法 | |
CN108804651B (zh) | 一种基于强化贝叶斯分类的社交行为检测方法 | |
CN105631479A (zh) | 基于非平衡学习的深度卷积网络图像标注方法及装置 | |
CN113420145B (zh) | 一种基于半监督学习的招标文本分类方法与系统 | |
CN111552803A (zh) | 一种基于图小波网络模型的文本分类方法 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN109783637A (zh) | 基于深度神经网络的电力检修文本挖掘方法 | |
CN110472245B (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
CN109582963A (zh) | 一种基于极限学习机的档案自动分类方法 | |
CN111460097A (zh) | 一种基于tpn的小样本文本分类方法 | |
CN108984532A (zh) | 基于层次嵌入的方面抽取方法 | |
CN116245110A (zh) | 基于图注意力网络的多维度信息融合用户立场检测方法 | |
CN114925205B (zh) | 基于对比学习的gcn-gru文本分类方法 | |
CN114722835A (zh) | 基于lda和bert融合改进模型的文本情感识别方法 | |
Rajalakshmi et al. | Sentimental analysis of code-mixed Hindi language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190517 |