CN109271523A

CN109271523A - 一种基于信息检索的政府公文主题分类方法

Info

Publication number: CN109271523A
Application number: CN201811406868.6A
Authority: CN
Inventors: 宋亚军; 方鑫; 李泽源; 陈达纲; 何杰; 李泽松
Original assignee: Division Big Data Research Institute Co Ltd
Current assignee: Division Big Data Research Institute Co Ltd
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2019-01-25

Abstract

本发明提供一种基于信息检索的政府公文主题分类方法，包括以下步骤：建立倒排索引‑人工构造分类主题词集‑检索‑获取检索结果‑存为json文件‑文本预处理‑训练分类模型‑获取分类结果。本发明对所有待分类文档建立倒排索引，然后进行检索，能够大大提高分类的速度；自动构造大规模标注数据训练数据的训练分类模型，可以训练有监督机器学习算法或深度学习算法，进一步提高分类的准确率。

Description

一种基于信息检索的政府公文主题分类方法

技术领域

本发明涉及一种基于信息检索的政府公文主题分类方法，属于公文主题分类技术领域。

背景技术

当前公文主题分类方法精确率低且分类粒度粗，但将公文进行准确的主题分类是政务领域许多NLP应用的基础任务，包括自动公文归档，政策分析，智能搜索和个性化推荐，且在某些特定领域，比如房地产和教育等领域，地方政策经常会进行修订，使得公民难以从海量的公文准确地找到需要的政策文件；对于公务员，发布新的公文或修改现有的公文，他们需要参考上级部门下发的文件或其他部门的发布的相同主题的公文，此外，在分析政府政策或向公众解释政策时，公务员也需要搜索相关主题的公文。然而由于政府公文主题众多，涉及国家治理、社会生活的方方面面，根据国务院办公厅政府信息公开目录的分类标准，公文主题类别超过四十个，且每篇公文可能包含多个主题，并且没有大规模的标注数据，因此无论对于数据标注还是分类模型的训练都非常具有挑战。

发明内容

为解决上述技术问题，本发明提供了一种基于信息检索的政府公文主题分类方法，该基于信息检索的政府公文主题分类方法基于信息检索模型，仅需人工构建主题词集合，能够自动构建大规模带标注的公文分类训练数据集，并自动构造大规模标注数据训练的训练分类模型，在保证精确率的情况下，大幅提高了公文分类的召回率，并且能够实现更细粒度的分类。

本发明通过以下技术方案得以实现。

本发明提供的一种基于信息检索的政府公文主题分类方法，包括以下步骤：

①建立倒排索引：基于信息检索模型，并使用Lucene开源全文检索库，对待分类公文建立倒排索引；

②人工构造分类主题词集：采用主题分类方法，对公文主题进行分类，再分别对每个主题类别构建一个主题词集合；

③检索：以对应类别的主题词集作为查询字符串，对步骤①中的倒排索引进行检索；

④获取检索结果：获取步骤③中的检索结果；

⑤存为json文件：将检索结果的前30％打上对应类别标签，作为训练集和开发集，存入json文件，获取带标注的公文分类训练数据集；

⑥训练分类模型：将带标注的公文分类训练数据集进行基于传统机器学习模型和基于深度学习模型的文本分类模型训练，构建训练分类模型；

⑦获取分类结果：进行分类预测，获取分类结果。

所述步骤①分为以下步骤：

(1.1)使用开源的结巴分词软件，分别对公文标题和公文正文文本进行中文分词和去停用词处理；

(1.2)使用Lucene开源全文检索库对公文原标题、发文单位、公文原正文、分词后的公文正文、分词后的公文标题，分别建立倒排索引。

所述步骤⑥中，传统机器学习模型获取带标注的公文分类训练数据集中，每个词的TF-IDF作为特征，深度学习模型学习带标注的公文分类训练数据集中，每篇文本的特征。

所述步骤⑦中，分类模型训练完成后，对于一篇给定的公文，使用训练好的分类模型，获取文本属于各个类别的概率，并选择概率最大的类别作为最终的分类结果。

本发明的有益效果在于：对所有待分类文档建立倒排索引，然后进行检索，能够大大提高分类的速度；自动构造大规模标注数据训练数据的训练分类模型，可以训练有监督机器学习算法或深度学习算法，进一步提高分类的准确率。

具体实施方式

下面进一步描述本发明的技术方案，但要求保护的范围并不局限于所述。

一种基于信息检索的政府公文主题分类方法，包括以下步骤：

①建立倒排索引：基于信息检索模型，并使用Lucene开源全文检索库，对待分类公文建立倒排索引；具体分为以下步骤：

(1.2)使用Lucene开源全文检索库对公文原标题、发文单位、公文原正文、分词后的公文正文、分词后的公文标题，分别建立倒排索引；

具体的，领域专家(政策研究专家)分别对每个主题类别构建一个主题词集合，比如对于教育主题，确定的主题词包括教育部、高校、中小学、幼儿园、教师等，对于公安主题，确定的主题词包括公安、公安部、刑侦、缉毒等；

具体的，确定主题类别的主题词集后，以该主题类别的词集作为全文检索模块的查询字符串(字符串中词之间以空格分开)，对步骤①中建立的倒排索引进行检索；

④获取检索结果：获取步骤③中的检索结果；

具体的，将检索结果中排序靠前的公文(本文中使用检索结果的前30％)存入json文件，作为后续机器学习模型和深度学习模型的训练数据，之所以将检索结果的前30％作为训练数据，是因为检索结果排序越靠前的公文越与主题相关，构建的数据集质量越好，后续分类结果也越可靠；

⑥训练分类模型：将获取带标注的公文分类训练数据集进行基于传统机器学习模型和基于深度学习模型的文本分类模型训练，获取其特征，构建训练分类模型；

具体的，传统机器学习模型获取带标注的公文分类训练数据集中，每个词的TF-IDF作为特征，深度学习模型学习带标注的公文分类训练数据集中，每篇文本的特征。

⑦获取分类结果：进行分类预测，获取分类结果。

具体的，分类模型训练完成后，对于一篇给定的公文，使用训练好的分类模型，获取文本属于各个类别的概率，并选择概率最大的类别作为最终的分类结果。

实施例

如上所述，将本方法与基于发文部门的分类算法进行了对比，并采用标准的精确率(Precision)、召回率(Recall)和F值(F1-score)作为评价标准，其计算公式分别如下：

其中，TP(True positive)为人工标注为正例且被分类器识别为正例的数目，FP(False positive)为人工标注为负例但被分类器识别为正例的数目；

其中，FN(False negtive)为人工标注为正例且分类器识别为负例的数目；

本方法以xgboost作为基于传统机器学习的文本分类算法的代表进行实验对比，以textcnn算法作为基于深度学习的文本分类算法的代表进行实验对比，几种对比方法分别命名如下：

(1)Department-based：直接基于发文部门进行公文分类的方法；

(2)IR-based：基于信息检索模型的检索结果进行公文类别的方法；

(3)Xgboost：基于信息检索模型的结果，自动构造带标注的公文分类训练数据集，然后训练分类模型、预测公文类别的方法；

(4)Textcnn：基于信息检索模型的结果，自动构造带标注的公文分类训练数据集，然后训练分类模型、预测公文类别的方法；

上述方法的分类结果如表2所示。

表2：本文提出方法与相关方法对比

从表中可以看出，本方法在带标注的公文分类训练数据集训练的Xgboost和Textcnn方法中，精确率和召回率都有一定程度的提高，达到了使用基于信息检索方法自动构造的标注数据集的有效性的目的，在保证精确率的情况下，大幅提高了公文分类的召回率，并且能够实现更细粒度的分类。

Claims

1.一种基于信息检索的政府公文主题分类方法，其特征在于：包括以下步骤：

①建立倒排索引：基于信息检索模型，使用Lucene开源全文检索库，对待分类公文建立倒排索引；

④获取检索结果：获取步骤③中的检索结果；

⑦获取分类结果：进行分类预测，获取分类结果。

2.如权利要求1所述的基于信息检索的政府公文主题分类方法，其特征在于：所述步骤①分为以下步骤：

3.如权利要求1所述的基于信息检索的政府公文主题分类方法，其特征在于：所述步骤⑥中，传统机器学习模型获取带标注的公文分类训练数据集中，每个词的TF-IDF作为特征，深度学习模型学习带标注的公文分类训练数据集中，每篇文本的特征。

4.如权利要求1所述的基于信息检索的政府公文主题分类方法，其特征在于：所述步骤⑦中，分类模型训练完成后，对于一篇给定的公文，使用训练好的分类模型，获取文本属于各个类别的概率，并选择概率最大的类别作为最终的分类结果。