CN110955776A

CN110955776A - 一种政务文本分类模型的构建方法

Info

Publication number: CN110955776A
Application number: CN201911123141.1A
Authority: CN
Inventors: 昌攀; 曹扬; 胥月; 张鹏翔
Original assignee: CETC Big Data Research Institute Co Ltd
Current assignee: CETC Big Data Research Institute Co Ltd
Priority date: 2019-11-16
Filing date: 2019-11-16
Publication date: 2020-04-03

Abstract

本发明提供一种政务文本分类模型的构建方法，自动对政务文本数据进行分类，基本的步骤为：首先按照目前政务文本分类目录的20种种类数，选取尽可能多的已标记的政务分类文本，进行Word2vec的词向量库建设，接着借助权重TF‑IDF算法，计算每个词在不同类别中所占的比例，量化分类的权重，生成改进型的文本词向量，最后借助卷积神经网络从局部到全局的相关特征学习能力，对政务分类文本进行深度学习，提高政务领域内文本主题分类的精确度和效率。

Description

一种政务文本分类模型的构建方法

技术领域

本发明涉及一种政务文本分类模型的构建方法，属于自然语言处理、人工智能技术领域，具体涉及一种基于Word2vec和权重TF-IDF的卷积神经网络政务文本分类模型的构建方法。

背景技术

随着国家电子政务、数字政府和数字中国等大数据、智慧政务战略的深入推进，各级政府部门越来越多将政策法规、新闻报道和标准规范通过网络的形式面向公众宣传和推送，由此产生了大量政府公文公告，据不完全统计，国家部委在近五年通过政府公开网站发布的公文数量就超过10万篇。面对日益繁重的政务公文文本数据信息，如何将其正确且高效的编入政务主题分类类别中变得十分困难，庞大的信息使得人们要仔细阅读公文信息，查找满足分类条件的政务主题类别中包含的关键字信息，对于政务文本的关键字还不能准确进行分类，需要进一步结合上下文信息对关键字进行解析，因此急需一种准确率高、分类高效的政务主题行业分类方法。

基于文本的分类算法目前较多，目前的政务文本分类过程中存在的分类精度低、政务文本对于分类的类型无严格的规定、文本分类过程中语义表达弱、词序丢失，现有的分类算法未考虑到每种词汇在政务领域分类过程中的不同占比等情况，文本分类过程中语义表达弱、词序丢失等情况，如何针对这些大量的公文数据进行有效政务主题分类管理成为了一个巨大的挑战。

发明内容

为解决上述技术问题，本发明提供了一种政务文本分类模型的构建方法，该政务文本分类模型的构建方法解决了现有技术在政务文本主题行业分类领域中，存在分类精度低、政务文本对于分类的类型无严格的规定、文本分类过程中语义表达弱、词序丢失，现有的分类算法未考虑到每种词汇在政务领域分类过程中的不同占比等情况。

本发明通过以下技术方案得以实现。

本发明提供的一种政务文本分类模型的构建方法，包括以下步骤：

①构建政务词向量库：构建政务文本主题分类领域的词向量库；

②构建词的权重：根据词向量库，通过权重TF-IDF算法，获取改进型的词向量；

③构建卷积神经网络：根据改进型的词向量，生成政务文本分类模型。

所示步骤①分为以下步骤：

(1.1)选择政务文本库：获取经过人工标注的政务文本分类的文本库；

(1.2)文本分词：借助标准的语料库，基于词语的统计进行政务文本的分词；

(1.3)文本过滤：去除分词中存在的与文本分类无关的词汇；

(1.4)One-hot编码：对文本过滤后的词汇，进行One-hot编码，将词汇数值化表示；

(1.5)构建训练样本：根据步骤(1.4)，构建政务文本词库的训练样本；

(1.6)输入神经网络模型：输入神经网络模型，获取神经网络的层数、激活函数、分类方法、调优方法；

(1.7)模型训练：根据步骤(1.5)，训练神经网络模型，获取训练后的神经网络模型；

(1.8)词向量库：根据步骤(1.7)，获取政务文本分类领域的词向量库。

所述步骤(1.2)中，采用jieba工具进行分词。

所述步骤(1.3)中，与文本分类无关的词汇包括介词和谓词。

所述步骤②分为以下步骤：

(2.1)获取词语所占比重：根据词向量库中，每个词语出现在不同政务分类中的数目，获取在每个分类中该词语所占的比重；

(2.2)词的TF-IDF的值：根据TF-IDF算法，依次计算不同政务文本中词汇的TF-IDF的值；

(2.3)改进型词向量：根据步骤(2.1)和(2.2)，获取改进型词向量。

所述步骤③分为以下步骤：

(3.1)搭建卷积神经网络模型：根据改进型的词向量的维度，选择输入层神经元的个数，确定隐藏层的层数和卷积核的个数、卷积核的尺寸、池化方法、全连接层的神经元个数、优化参数、学习率、分类模型；

(3.2)政务文本训练：基于训练集的政务文本分类训练，不断调优参数，进行数据验证，直至卷积神经网络模型稳定；

(3.3)生成政务文本分类模型：对卷积神经网络模型进行固化，生成政务文本分类模型。

本发明的有益效果在于：建了在政务主题分类领域的词向量库，然后利用权重TF-IDF算法得到改进的词向量库，最后针对改进的词向量库进行卷积神经网络构建，最终得到政务主题分类模型，自动分类政务文本，提高了政务主题分类的精确度和效率。

附图说明

图1是本发明的框架流程示意图；

图2是本发明的技术流程示意图。

具体实施方式

下面进一步描述本发明的技术方案，但要求保护的范围并不局限于所述。

如图1和图2所示，一种政务文本分类模型的构建方法，包括以下步骤：

①构建Word2vec政务词向量库：构建政务文本主题分类领域的词向量库；

②构建词的权重TF-IDF：根据词向量库，通过权重TF-IDF算法，获取改进型的词向量；

优选的，使用改进的权重TF-IDF算法，并结合了政务领域同一词汇在不同分类的过程中对于不同主题类别的归属权重不一样，将词汇的归属权重数值化，融入进阶段一提取的政务领域词向量中，得到改进型的词向量，刻画了同一词汇对于不同类别的归属程度；

优选的，借助卷积神经网络从局部到全局网络的特征学习能力，构建能高精度分类政务领域的文本分类模型，使用改进型的词向量库，实现对政务文本信息的主题分类，提高分类精确度。

所示步骤①分为以下步骤：

进一步地，所使用的政务文本库是经过人工标注的20种政务文本分类的文本库，这20个类别分别是：综合政务、经济管理、国土资源能源、工业交通、信息产业、城乡建设环境保护、农业水利、财政、商业贸易、旅游服务业、气象水文测绘地震、对外事务、政法监察、科技教育、文化卫生体育、军事国防、劳动人事、民政社区、文秘行政、综合党团、综合类，每个类别中包含了近1000条文本信息，文本数据均人工采集于政府数据共享开放平台，人工进行分类标注；

(1.3)文本过滤：去除分词中存在的与文本分类无关的词汇，保留主要的名词信息；

(1.5)构建训练样本：根据步骤(1.4)，构建政务文本词库的Word2vec的训练样本；

(1.8)词向量库：根据步骤(1.7)，获取政务文本分类领域的词向量库，这个词向量库专用于政务文本主题分类。

所述步骤(1.2)中，采用jieba工具进行分词。

所述步骤(1.3)中，与文本分类无关的词汇包括介词和谓词。

所述步骤②分为以下步骤：

(2.1)获取词语所占比重：根据词向量库中，每个词语出现在不同政务分类中的数目，获取在每个分类中该词语所占的比重；例如词语w_i在C₁分类中出现文本有m₁个，在C₂分类中出现文本有m₂个….其比例依次是

其中N为总的文本个数；

具体的，在相应的位置上相乘得到权重TF-IDF值，能反应不同的词语在文本分类算法上的不同贡献率和统一词语区别于总体类别的度量值；将词向量的值与权重TF-IDF的值相乘，得到能刻画不同政务文本的词对于分类重要程度相关的改进型词向量。

所述步骤③分为以下步骤：

优选的，本方法构建的政务主题分类模型，能够动态地根据用户输入的政务文本信息，主动并智能地为用户推荐相应的政务主题分类类目，解决了繁重的政务文本阅读量、查阅主题分类类目的依据等弊端，使政务文本的主题分类更加高效、智能，解决了用户面对繁重的公文文本分类任务繁重的问题，提高了办事效率。

综上所述，本发明构建的政务主题分类模型能够快速且精确地分类基于政务主题的文本信息，在实际的应用过程中，为用户提供了一个基于政务主题分类的参考类目，达到提高工作效率的目的。

Claims

1.一种政务文本分类模型的构建方法，其特征在于：包括以下步骤：

③构建卷积神经网络：根据改进型的词向量，生成政务文本分类模型；

所述步骤②分为以下步骤：

2.如权利要求1所述的政务文本分类模型的构建方法，其特征在于：所示步骤①分为以下步骤：

(1.3)文本过滤：去除分词中存在的与文本分类无关的词汇；

3.如权利要求2所述的政务文本分类模型的构建方法，其特征在于：所述步骤(1.2)中，采用jieba工具进行分词。

4.如权利要求2所述的政务文本分类模型的构建方法，其特征在于：所述步骤(1.3)中，与文本分类无关的词汇包括介词和谓词。

5.如权利要求1所述的政务文本分类模型的构建方法，其特征在于：所述步骤③分为以下步骤：