CN110705285B

CN110705285B - 一种政务文本主题词库构建方法、装置、服务器及可读存储介质

Info

Publication number: CN110705285B
Application number: CN201910889703.7A
Authority: CN
Inventors: 刘彤; 王更新; 钟爱秒; 张海鹏; 宋灿灿; 张佳琪; 张光璞; 左琦; 杨杰
Original assignee: Beijing Computing Center Co ltd
Current assignee: Beijing Computing Center Co ltd
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2022-11-22
Anticipated expiration: 2039-09-20
Also published as: CN110705285A

Abstract

本发明提供了一种政务文本主题词库构建方法、装置、服务器及可读存储介质，涉及数据处理技术领域技术领域，包括：步骤一，获取现有政务文本主题词库；步骤二，获取历届次政务文本词库；步骤三，获取网络政务文本扩充词库；步骤四，对经过所述步骤一、所述步骤二和所述步骤三分别获得的所述现有政务文本主题词库、所述历届次政务文本词库和所述网络政务文本扩充词库进行去重处理，形成最终政务文本主题词库，总之，本发明提供的政务文本主题词库构建方法、装置，工作量小、模型简单，能够大大提高工作效率的同时且能够满足工作精度需求，具有重要的研究意义和使用价值。

Description

一种政务文本主题词库构建方法、装置、服务器及可读存储介质

技术领域

本发明涉及数据处理技术领域，尤其是涉及一种政务文本主题词库构建方法、装置、服务器及可读存储介质。

背景技术

数据预处理是文本处理的重要组成部分。在传统的文本数据预处理中，首先需要构建停用词表，如何构建停用词表也是文本数据预处理中的关键步骤，停用词的思想是在原始文本集中去掉不需要的词汇，字符。在分词阶段时，如果分出的词语在停用词表中，则进行剔除，留下语义质量好的词语，

在现有的文本分析预处理中，维护停用词表比较复杂，停用词除了要包含常用的停用词表，比如语气词、数字等，还需要维护专用领域的停用词表，比如多篇文档都出现的高频词。从反面即停用词表的角度去构建专用领域停用词表，即使用停用词去过滤现有的文本，如果在停用词典中出现，则进行过滤，但是该反面构建的方法有一定的弊端：工作量太大，尤其是停用词较少时，文本中留下不具有明显主题倾向词语较多，会影响后期模型训练的速度和精度，如果在政务文本数据处理过程中应用该种词库构建方法，会留下更多的不具有明显主题倾向的词语，后期模型训练的速度会减慢，精度也会大大降低。因此，亟待研究一种新的政务文本词库构建方法、装置，工作量小、模型简单，保证工作效率的同时能够满足工作精度的需求。

应该注意，上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些技术方案在本发明的技术背景部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

本发明的目的在于提供一种工作量小、模型简单的政务文本主题词库构建方法、装置、服务器及可读存储介质，能够大大提高工作效率的同时且能够满足工作精度需求，具有重要的研究意义和使用价值。为实现上述目的，本发明提供了以下技术方案：

本发明提供了一种政务文本主题词库构建方法，包括：

步骤一，获取现有政务文本主题词库；

步骤二，获取历届次政务文本词库；

步骤三，获取网络政务文本扩充词库；

步骤四，对经过所述步骤一、所述步骤二和所述步骤三分别获得的所述现有政务文本主题词库、所述历届次政务文本词库和所述网络政务文本扩充词库进行去重处理，形成最终政务文本主题词库；

所述步骤一中的所述获取现有政务文本主题词库，包括：获取历届次政务文本的主题词，建立相邻两级主题词之间的映射关系，来形成所述步骤一中的所述现有政务文本主题词库；

所述步骤二中的所述获取历届次政务文本词库，包括：

获取历届次政务文本标题，

使用分词工具对所述历届次政务文本标题进行切分，

对经过所述切分后获得的主题词进行人工标注筛选，来形成所述步骤二中的所述历届次政务文本词库；

所述步骤三中的所述获取网络政务文本扩充词库，包括：

获取经过所述步骤一获取的所述现有政务文本主题词库中的二级主题词，

以所述二级主题词为搜索关键词对百度文库中文本的关键词进行搜索得到初级搜索关键词，

对所述初级搜索关键词进行爬取和去重，得到中级搜索关键词；

对所述中级搜索关键词进行分词和人工标注筛选，来得到所述步骤三中的所述网络政务文本扩充词库。

可选地，所述步骤一中的所述获取现有政务文本主题词库，包括：获取历届次政务文本的主题词，建立一级主题词和二级主题词之间的映射关系，来形成所述步骤一中的所述现有政务文本主题词库。

可选地，所述步骤一中的所述获取现有政务文本主题词库，包括：获取历届次政务文本的主题词，建立二级主题词和三级主题词之间的映射关系，来形成所述步骤一中的所述现有政务文本主题词库。

可选地，所述分词工具为HanLP、Jieba、THULAC或NLPIR。

可选地，所述分词工具为Jieba，Jieba分词采用API，采用带词性的posseg进行切分。

可选地，所述使用分词工具对所述历届次政务文本标题进行切分时，利用自定义词典和网络公开的常用停用词库对所述历届次政务文本标题进行切分，所述自定义词典为能够确定哪些词语是组合词语、不需要细粒度切分的词典；所述网络公开的常用停用词库包括百度停用词列表、四川大学机器智能实验室停用词库、哈工大停用词表，停用词库包含标点符号、语气词或数字。

可选地，所述使用分词工具对所述历届次政务文本标题进行切分时，还包括：选用词性为名词、名动词、名形词、未知词的词语，同时筛选词语长度为2以上的词语作为主题词，对经过所述切分后获得的主题词进行人工标注筛选，来形成所述步骤二中的所述历届次政务文本词库。

可选地，所述步骤三中，对所述初级搜索关键词通过scrapy爬虫框架和redis进行多线程爬取和去重，得到中级搜索关键词。

本发明还提供一种政务文本主题词库构建装置，包括：

用于获取现有政务文本主题词库的现有政务文本主题词库模块；

用于获取历届次政务文本词库的历届次政务文本词库模块；

用于获取网络政务文本扩充词库的网络政务文本扩充词库模块；

用于对所述现有政务文本主题词库模块、所述历届次政务文本词库模块、所述网络政务文本扩充词库模块分别获取的现有政务文本主题词库、历届次政务文本词库、网络政务文本扩充词库进行去重处理的去重处理模块，所述现有政务文本主题词库模块、所述历届次政务文本词库模块、所述网络政务文本扩充词库模块分别与所述去重处理模块连接；

所述现有政务文本主题词库模块，包括获取历届次政务文本主题词的历届次政务文本主题词模块，建立相邻两级主题词之间的映射关系，以形成现有政务文本主题词库；

所述历届次政务文本词库模块，包括依次连接地：

用于获取历届次政务文本标题的历届次政务文本标题模块，

用于使用分词工具对所述历届次政务文本标题进行切分的第一切分模块，

对经过所述切分后获得的主题词进行人工标注筛选的第一人工标注筛选模块，以形成历届次政务文本词库；

所述获取网络政务文本扩充词库模块，包括依次连接地：

用于获取所述现有政务文本主题词库中二级主题词的二级主题词获取模块，

用于以所述二级主题词为搜索关键词对百度文库中文本的关键词进行搜索得到初级搜索关键词的初级搜索关键词获取模块，

用于对所述初级搜索关键词进行爬取和去重，得到中级搜索关键词的中级搜索关键词获取模块，

用于对所述中级搜索关键词进行分词的第二切分模块和人工标注筛选的第二人工标注筛选模块，以得到所述网络政务文本扩充词库。

本发明还提供一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，

所述处理器执行所述程序时实现上述方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明提供的技术方案中，通过结合现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库，并对现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库进行去重处理，形成最终政务文本主题词库，该种政务文本主题词库构建方法工作量小、模型简单，能够大大提高工作效率的同时且能够满足工作精度需求，具有重要的研究意义和使用价值。

在本发明的优选方案中，通过获取历届次政务文本的主题词，建立相邻两级主题词之间的映射关系，来形成现有政务文本主题词库，更加清晰、准确；通过获取历届次政务文本标题，并使用分词工具对历届次政务文本标题进行切分，对经过切分后获得的主题词进行人工标注筛选，来形成历届次政务文本词库；获取经过现有政务文本主题词库中的二级主题词，以二级主题词为搜索关键词对百度文库中文本的关键词进行搜索得到初级搜索关键词，对初级搜索关键词进行爬取和去重，得到中级搜索关键词，对中级搜索关键词进行分词和人工标注筛选，来得到网络政务文本扩充词库。在传统的文本数据预处理中，首先需要构建停用词表，停用词的思想是在原始文本集中去掉不需要的词汇，字符。在分词阶段时，如果分出的词语在停用词表中，则进行剔除，留下语义质量好的词语，但是该文本数据处理方法因为停用词表而存在很多的弊端：维护停用词表比较复杂，停用词除了要包含常用的停用词表，比如语气词、数字等，还需要维护专用领域的停用词表，比如多篇文档都出现的高频词。而从反面即停用词表的角度去构建专用领域停用词表工作量太大，停用词较少时，文本中留下不具有明显主题倾向词语较多，会影响后期模型训练的速度和精度。而本发明的技术方案从正面构建专用领域词库，能有效的保留具有明显主题倾向的词语，即一篇文章只留下存在于专用领域词库的词语，能够减少文本噪声，提高文本语义表述的质量，有利于提升后期模型构建的质量。

分词工具可以为HanLP、Jieba、THULAC或NLPIR等，本发明优选地技术方案中，分词工具为Jieba，Jieba分词采用API，采用带词性的posseg进行切分，通过调用API获取带有词性的分词结果，在大多数情况下，jieba分词取得的分词效果比较好，且在文本处理中比较通用，本发明的政务文本主题词库构建方法中的分词过程采用该分词工具，分词效果更好，有利于提升后期模型构建的质量。

在本发明的优选方案中，使用分词工具对历届次政务文本标题进行切分时，利用自定义词典和网络公开的常用停用词库对历届次政务文本标题进行切分，自定义词典为能够确定哪些词语是组合词语、不需要细粒度切分的词典；网络公开的常用停用词库包括百度停用词列表、四川大学机器智能实验室停用词库、哈工大停用词表，停用词库包含标点符号、语气词或数字，本发明的政务文本主题词库构建方法中的切分过程采用自定义词典，能够确定哪些是组合词语，减少错误的发生，提高精准程度，具有重要的研究意义和使用价值。

在本发明的优选方案中，获取经过步骤一获取的现有政务文本主题词库中的二级主题词，以二级主题词为搜索关键词对百度文库中文本的关键词进行搜索得到初级搜索关键词，对初级搜索关键词进行爬取和去重，得到中级搜索关键词；对中级搜索关键词进行分词和人工标注筛选，来得到步骤三中的网络政务文本扩充词库，其中，对初级搜索关键词通过scrapy爬虫框架和redis进行多线程爬取和去重，得到中级搜索关键词，scrapy爬虫框架和redis进行多线程爬取和去重的引入，scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，只需要实现少量代码，就能够快速的抓取到数据内容，Scrapy爬虫框架的使用可以加快下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成政务文本主题词库构建过程中的各种需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中政务文本主题词库构建方法流程图；

图2是政务文本主题词库构建装置结构示意图。

101、现有政务文本主题词库模块；201、历届次政务文本词库模块；301、网络政务文本扩充词库模块；401、去重处理模块；2001、历届次政务文本标题模块；2002、第一切分模块；2003、第一人工标注筛选模块；3001、二级主题词获取模块；3002、初级搜索关键词获取模块；3003、中级搜索关键词获取模块；3004、第二切分模块；3005、第二人工标注筛选模块。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

在现有的文本分析预处理中，维护停用词表比较复杂，停用词除了要包含常用的停用词表，比如语气词、数字等，还需要维护专用领域的停用词表，比如多篇文档都出现的高频词。从反面即停用词表的角度去构建专用领域停用词表，即使用停用词去过滤现有的文本，如果在停用词典中出现，则进行过滤，但是该反面构建的方法有一定的弊端：工作量太大，尤其是停用词较少时，文本中留下不具有明显主题倾向词语较多，会影响后期模型训练的速度和精度，如果在政务文本数据处理过程中应用该种词库构建方法，会留下更多的不具有明显主题倾向的词语，后期模型训练的速度会减慢，精度也会大大降低。本发明的词库构建通过结合现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库，并对现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库进行去重处理，形成最终政务文本主题词库，该种政务文本主题词库构建方法工作量小、模型简单，能够大大提高工作效率的同时且能够满足工作精度需求，具有重要的研究意义和使用价值。

本发明提供一种政务文本主题词库构建方法，如图1-图2所示，包括：

步骤一，获取现有政务文本主题词库；

步骤二，获取历届次政务文本词库；

步骤三，获取网络政务文本扩充词库；

步骤四，对经过步骤一、步骤二和步骤三分别获得的现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库进行去重处理，形成最终政务文本主题词库；

其中，步骤一中的获取现有政务文本主题词库，包括：获取历届次政务文本的主题词，建立相邻两级主题词之间的映射关系，来形成步骤一中的现有政务文本主题词库；

步骤二中的获取历届次政务文本词库，包括：

获取历届次政务文本标题，

使用分词工具对历届次政务文本标题进行切分，

对经过切分后获得的主题词进行人工标注筛选，来形成步骤二中的历届次政务文本词库；

步骤三中的获取网络政务文本扩充词库，包括：

获取经过步骤一获取的现有政务文本主题词库中的二级主题词，

以二级主题词为搜索关键词对百度文库中文本的关键词进行搜索得到初级搜索关键词，

对初级搜索关键词进行爬取和去重，得到中级搜索关键词；

对中级搜索关键词进行分词和人工标注筛选，来得到步骤三中的网络政务文本扩充词库。

在传统的文本数据预处理中，首先需要构建停用词表，停用词的思想是在原始文本集中去掉不需要的词汇，字符。在分词阶段时，如果分出的词语在停用词表中，则进行剔除，留下语义质量好的词语，但是该文本数据处理方法因为停用词表而存在很多的弊端：维护停用词表比较复杂，停用词除了要包含常用的停用词表，比如语气词、数字等，还需要维护专用领域的停用词表，比如多篇文档都出现的高频词。而从反面即停用词表的角度去构建专用领域停用词表工作量太大，停用词较少时，文本中留下不具有明显主题倾向词语较多，会影响后期模型训练的速度和精度。而本发明的技术方案从正面构建专用领域词库，能有效的保留具有明显主题倾向的词语，即一篇文章只留下存在于专用领域词库的词语，能够减少文本噪声，提高文本语义表述的质量，有利于提升后期模型构建的质量。

本发明提供的词库构建方法通过结合现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库，并对现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库进行去重处理，形成最终政务文本主题词库，该种政务文本主题词库构建方法工作量小、模型简单，能够大大提高工作效率的同时且能够满足工作精度需求，具有重要的研究意义和使用价值。

需要说明的是，本发明下述实施例中的“历届次”可以是“当前年度”之前的若干年，比如前五年或者六年，甚至是更多年，并无特别限定，可以为2018年、2017年、2016年，也可以为2018年、2017年、2016年、2015年，也可以为2018年、2017年、2016年、2015年、2014年，也可以为2018年、2017年、2016年、2015年、2014年、2013年，2018年、2017年、2016年、2015年、2014年、2013年、2012年、......、2003年、2004年等等，并没有特殊限定历届次指的是哪几届，都是可以根据具体数据需求来进行年份筛选和信息获取或者信息统计。

于本发明的具体实施例中，步骤一，获取现有政务文本主题词库；步骤二，获取历届次政务文本词库；步骤三，获取网络政务文本扩充词库；步骤四，对经过步骤一、步骤二和步骤三分别获得的现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库进行去重处理，形成最终政务文本主题词库；其中，步骤一中的获取现有政务文本主题词库，包括：获取历届次政务文本的主题词，建立相邻两级主题词之间的映射关系，来形成步骤一中的现有政务文本主题词库；为了更清晰地来展示映射关系，于本发明的具体实施例中，步骤一中的获取现有政务文本主题词库，包括：获取历届次政务文本的主题词，建立一级主题词和二级主题词之间的映射关系，来形成步骤一中的现有政务文本主题词库。

需要说明的是，本发明获取历届次政务文本的主题词中的“历届次”可以是“当前年度”之前的若干年，比如前五年或者六年，甚至是更多年，并无特别限定，可以为2018年、2017年、2016年，也可以为2018年、2017年、2016年、2015年，也可以为2018年、2017年、2016年、2015年、2014年，也可以为2018年、2017年、2016年、2015年、2014年、2013年，2018年、2017年、2016年、2015年、2014年、2013年、2012年、......、2003年、2004年等等，并没有特殊限定历届次政务文本指的是哪几届政务文本，都是可以根据具体数据需求来进行年份筛选和信息获取或者信息统计。

为了更清晰地来展示映射关系，于本发明的具体实施例中，步骤一中的获取现有政务文本主题词库，包括：获取历届次政务文本的主题词，建立二级主题词和三级主题词之间的映射关系，来形成步骤一中的现有政务文本主题词库。

具体地，为了进一步展示映射关系，从而更加准确获取政务文本主题词库，于本发明的具体实施例中，步骤一中的获取现有政务文本主题词库，包括：获取历届次政务文本的主题词，不仅需要建立一级主题词和二级主题词之间的映射关系，还需要建立二级主题词和三级主题词之间的映射关系，来形成步骤一中的现有政务文本主题词库。

于本发明的具体实施例中，步骤二中的获取历届次政务文本词库，包括：第一，获取历届次政务文本标题，第二，使用分词工具对历届次政务文本标题进行切分，第三，对经过切分后获得的主题词进行人工标注筛选，来形成步骤二中的历届次政务文本词库；其中，分词工具为HanLP、Jieba、THULAC、NLPIR等。

HanLP：

HanLP是由一系列模型与算法组成的工具包，目标是普及自然语言处理在生产环境中的应用。

HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点；提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。HanLP已经被广泛用于Lucene、Solr、ElasticSearch、Hadoop、Android、Resin等平台，有大量开源作者开发各种插件与拓展，并且被包装或移植到Python、C#、R、JavaScript等语言上去

Jieba：

Jieba支持三种分词模式：

精确模式，试图将句子最精确地切开，适合文本分析；

全模式，把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义；

搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

Jieba中文分词组件，可用于中文句子/词性分割、词性标注、未登录词识别，支持用户词典等功能。该组件的分词精度达到了97％以上。

THULA：

THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包，具有中文分词和词性标注功能。THULAC具有如下几个特点：

能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成，模型标注能力强大。

准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3％，词性标注的F1值可达到92.9％，与该数据集上最好方法效果相当。

速度较快。同时进行分词和词性标注速度为300KB/s，每秒可处理约15万字。只进行分词速度可达到1.3MB/s。

NLPIR：

NLPIR汉语分词系统：主要功能包括中文分词；英文分词；词性标注；命名实体识别；新词识别；关键词提取；支持用户专业词典与微博分析。NLPIR系统支持多种编码、多种操作系统、多种开发语言与平台，具有如下功能：

中英文混合分词功能

自动对中文英文信息进行分词与词性标注功能，涵盖了中文分词、英文分词、词性标注、未登录词识别与用户词典等功能。

关键词提取功能

采用交叉信息熵的算法自动计算关键词，包括新词与已知词，下面是对十八届三中全会报告部分内容的关键词提取结果。

新词识别与自适应分词功能

从较长的文本内容中，基于信息交叉熵自动发现新特征语言，并自适应测试语料的语言概率分布模型，实现自适应分词。

用户专业词典功能

可以单条导入用户词典，也可以批量导入用户词典。如可以定“举报信敏感点”，其中举报信是用户词，敏感点是用户自定义的词性标记。

为了进一步提升词库构建的准确率，于本发明的具体实施例中，分词工具为Jieba，Jieba分词采用API，采用带词性的posseg进行切分，通过调用API获取带有词性的分词结果，在大多数情况下，jieba分词取得的分词效果比较好，且在文本处理中比较通用，本发明的政务文本主题词库构建方法中的分词过程采用该分词工具，分词效果更好，有利于提升后期模型构建的质量。

于本发明的具体实施例中，使用分词工具对历届次政务文本标题进行切分时，利用自定义词典和网络公开的常用停用词库对历届次政务文本标题进行切分，自定义词典为能够确定哪些词语是组合词语、不需要细粒度切分的词典；网络公开的常用停用词库包括百度停用词列表、四川大学机器智能实验室停用词库、哈工大停用词表，停用词库包含标点符号、语气词或数字。本发明的政务文本主题词库构建方法中的切分过程采用自定义词典，能够确定哪些是组合词语，减少错误的发生，提高精准程度，具有重要的研究意义和使用价值。

需要说明的是，上述的常用停用词库，并不局限于前面列举的几个数据库，其数据库的选取以及来源并不局限于本发明的具体实施例，均是可以根据用户需求以及时代发展来进行实时更新的。

于本发明的具体实施例中，使用分词工具对历届次政务文本标题进行切分时，还包括：选用词性为名词、名动词、名形词、未知词的词语，同时筛选词语长度为2以上的词语作为主题词，对经过切分后获得的主题词进行人工标注筛选，来形成步骤二中的历届次政务文本词库。

于本发明的具体实施例中，步骤三中，对初级搜索关键词通过scrapy爬虫框架和redis进行多线程爬取和去重，得到中级搜索关键词。其中，对初级搜索关键词通过scrapy爬虫框架和redis进行多线程爬取和去重，得到中级搜索关键词，scrapy爬虫框架和redis进行多线程爬取和去重的引入，scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，只需要实现少量代码，就能够快速的抓取到数据内容，Scrapy爬虫框架的使用可以加快下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成政务文本主题词库构建过程中的各种需求。

本发明还提供了一种政务文本主题词库构建装置，如图2所示，包括：

用于获取现有政务文本主题词库的现有政务文本主题词库模块101；

用于获取历届次政务文本词库的历届次政务文本词库模块201；

用于获取网络政务文本扩充词库的网络政务文本扩充词库模块301；

用于对现有政务文本主题词库模块101、历届次政务文本词库模块201、网络政务文本扩充词库模块301分别获取的现有政务文本主题词库、历届次政务文本词库、网络政务文本扩充词库进行去重处理的去重处理模块401，所述现有政务文本主题词库模块101、历届次政务文本词库模块201、网络政务文本扩充词库模块301分别与去重处理模块401连接；

现有政务文本主题词库模块101，包括获取历届次政务文本主题词的历届次政务文本主题词模块，建立相邻两级主题词之间的映射关系，以形成现有政务文本主题词库；

历届次政务文本词库模块，包括依次连接地：

用于获取历届次政务文本标题的历届次政务文本标题模块2001，

用于使用分词工具对历届次政务文本标题进行切分的第一切分模块2002，

对经过切分后获得的主题词进行人工标注筛选的第一人工标注筛选模块2003，以形成历届次政务文本词库；

获取网络政务文本扩充词库模块301，包括依次连接地：

用于获取现有政务文本主题词库中二级主题词的二级主题词获取模块3001，

用于以二级主题词为搜索关键词对百度文库中文本的关键词进行搜索得到初级搜索关键词的初级搜索关键词获取模块3002，

用于对初级搜索关键词进行爬取和去重，得到中级搜索关键词的中级搜索关键词获取模块3003，

用于对中级搜索关键词进行分词的第二切分模块3004和人工标注筛选的第二人工标注筛选模块3005，以得到网络政务文本扩充词库。在传统的文本数据预处理中，首先需要构建停用词表，停用词的思想是在原始文本集中去掉不需要的词汇，字符。在分词阶段时，如果分出的词语在停用词表中，则进行剔除，留下语义质量好的词语，但是该文本数据处理方法因为停用词表而存在很多的弊端：维护停用词表比较复杂，停用词除了要包含常用的停用词表，比如语气词、数字等，还需要维护专用领域的停用词表，比如多篇文档都出现的高频词。而从反面即停用词表的角度去构建专用领域停用词表工作量太大，停用词较少时，文本中留下不具有明显主题倾向词语较多，会影响后期模型训练的速度和精度。而本发明的技术方案从正面构建专用领域词库，能有效的保留具有明显主题倾向的词语，即一篇文章只留下存在于专用领域词库的词语，能够减少文本噪声，提高文本语义表述的质量，有利于提升后期模型构建的质量。

本发明提供的词库构建装置通过结合现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库，并对现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库进行去重处理，形成最终政务文本主题词库，该种政务文本主题词库构建方法工作量小、模型简单，能够大大提高工作效率的同时且能够满足工作精度需求，具有重要的研究意义和使用价值。

在传统的文本数据预处理中，首先需要构建停用词表，停用词的思想是在原始文本集中去掉不需要的词汇，字符。在分词阶段时，如果分出的词语在停用词表中，则进行剔除，留下语义质量好的词语，但是该文本数据处理方法因为停用词表而存在很多的弊端：维护停用词表比较复杂，停用词除了要包含常用的停用词表，比如语气词、数字等，还需要维护专用领域的停用词表，比如多篇文档都出现的高频词。而从反面即停用词表的角度去构建专用领域停用词表工作量太大，停用词较少时，文本中留下不具有明显主题倾向词语较多，会影响后期模型训练的速度和精度。而本发明的技术方案下的词库构建装置从正面构建专用领域词库，能有效的保留具有明显主题倾向的词语，即一篇文章只留下存在于专用领域词库的词语，能够减少文本噪声，提高文本语义表述的质量，有利于提升后期模型构建的质量。

本发明提供的词库构建装置，通过结合现有政务文本主题词库模块101获取到的现有政务文本主题词库、历届次政务文本词库模块201获取到的历届次政务文本词库和网络政务文本扩充词库模块301获取到的网络政务文本扩充词库，并对现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库通过去重处理模块401进行去重处理，形成最终政务文本主题词库，该种政务文本主题词库构建装置工作量小、模型简单，能够大大提高工作效率的同时且能够满足工作精度需求，具有重要的研究意义和使用价值。

于本发明的具体实施例中，通过结合现有政务文本主题词库模块101获取到的现有政务文本主题词库、历届次政务文本词库模块201获取到的历届次政务文本词库和网络政务文本扩充词库模块301获取到的网络政务文本扩充词库，并对现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库通过去重处理模块401进行去重处理，形成最终政务文本主题词库，其中，现有政务文本主题词库模块101，包括：用于获取历届次政务文本的主题词的届次政务文本的主题词模块1001，建立相邻两级主题词之间的映射关系，来形成现有政务文本主题词库；为了更清晰地来展示映射关系，于本发明的具体实施例中，现有政务文本主题词库模块101，包括：用于获取历届次政务文本的主题词的届次政务文本的主题词模块1001，建立一级主题词和二级主题词之间的映射关系，来形成现有政务文本主题词库。

需要说明的是，本发明实施例中获取历届次政务文本的主题词中的“历届次”可以是“当前年度”之前的若干年，比如前五年或者六年，甚至是更多年，并无特别限定，可以为2018年、2017年、2016年，也可以为2018年、2017年、2016年、2015年，也可以为2018年、2017年、2016年、2015年、2014年，也可以为2018年、2017年、2016年、2015年、2014年、2013年，2018年、2017年、2016年、2015年、2014年、2013年、2012年、......、2003年、2004年等等，并没有特殊限定历届次政务文本指的是哪几届政务文本，都是可以根据具体数据需求来进行年份筛选和信息获取或者信息统计。

为了更清晰地来展示映射关系，于本发明的具体实施例中，通过结合现有政务文本主题词库模块101获取到的现有政务文本主题词库、历届次政务文本词库模块201获取到的历届次政务文本词库和网络政务文本扩充词库模块301获取到的网络政务文本扩充词库，并对现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库通过去重处理模块401进行去重处理，形成最终政务文本主题词库，其中，现有政务文本主题词库模块101，包括：用于获取历届次政务文本的主题词的届次政务文本的主题词模块1001，建立相邻两级主题词之间的映射关系，来形成现有政务文本主题词库，现有政务文本主题词库模块101，包括：用于获取历届次政务文本的主题词的届次政务文本的主题词模块1001，建立二级主题词和三级主题词之间的映射关系，来形成现有政务文本主题词库。

具体地，为了进一步展示映射关系，从而更加准确获取政务文本主题词库，于本发明的具体实施例中，通过结合现有政务文本主题词库模块101获取到的现有政务文本主题词库、历届次政务文本词库模块201获取到的历届次政务文本词库和网络政务文本扩充词库模块301获取到的网络政务文本扩充词库，并对现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库通过去重处理模块401进行去重处理，形成最终政务文本主题词库，其中，现有政务文本主题词库模块101，包括：用于获取历届次政务文本的主题词的届次政务文本的主题词模块1001，建立相邻两级主题词之间的映射关系，来形成现有政务文本主题词库；为了更清晰地来展示映射关系，现有政务文本主题词库模块101，包括：用于获取历届次政务文本的主题词的届次政务文本的主题词模块1001，不仅包括建立一级主题词和二级主题词之间的映射关系，还包括建立二级主题词和三级主题词之间的映射关系来形成现有政务文本主题词库。

于本发明的具体实施例中，用于获取历届次政务文本词库的历届次政务文本词库模块201，包括：

第一，用于获取历届次政务文本标题的历届次政务文本标题模块，

第二，用于使用分词工具对历届次政务文本标题进行切分的第一切分模块，

第三，用于对经过切分后获得的主题词进行人工标注筛选的第一人工标注筛选模块，来形成历届次政务文本词库；其中，分词工具为HanLP、Jieba、THULAC、NLPIR等。

HanLP：

Jieba：

Jieba支持三种分词模式：

精确模式，试图将句子最精确地切开，适合文本分析；

THULA：

NLPIR：

中英文混合分词功能

关键词提取功能

新词识别与自适应分词功能

用户专业词典功能

为了进一步提升词库构建的准确率，于本发明的具体实施例中，分词工具为Jieba，Jieba分词采用API，采用带词性的posseg进行切分，通过调用API获取带有词性的分词结果，在大多数情况下，jieba分词取得的分词效果比较好，且在文本处理中比较通用，本发明的政务文本主题词库构建装置中分词过程采用该分词工具，分词效果更好，有利于提升后期模型构建的质量。

于本发明的具体实施例中，使用分词工具对历届次政务文本标题进行切分时，利用自定义词典和网络公开的常用停用词库对历届次政务文本标题进行切分，自定义词典为能够确定哪些词语是组合词语、不需要细粒度切分的词典；网络公开的常用停用词库包括百度停用词列表、四川大学机器智能实验室停用词库、哈工大停用词表，停用词库包含标点符号、语气词或数字。本发明的政务文本主题词库构建装置中的切分过程采用自定义词典，能够确定哪些是组合词语，减少错误的发生，提高精准程度，具有重要的研究意义和使用价值。

于本发明的具体实施例中，历届次政务文本词库模块中，使用分词工具对历届次政务文本标题进行切分时，还包括：选用词性为名词、名动词、名形词、未知词的词语，同时筛选词语长度为2以上的词语作为主题词，对经过切分后获得的主题词进行人工标注筛选，来形成历届次政务文本词库。

于本发明的具体实施例中，词库构建装置包括：

用于对现有政务文本主题词库模块101、历届次政务文本词库模块201、网络政务文本扩充词库模块301分别获取的现有政务文本主题词库、历届次政务文本词库、网络政务文本扩充词库进行去重处理的去重处理模块401，现有政务文本主题词库模块101、历届次政务文本词库模块201、网络政务文本扩充词库模块301分别与去重处理模块401连接；

历届次政务文本词库模块，包括依次连接地：

网络政务文本扩充词库模块301，包括依次连接地：

用于对中级搜索关键词进行分词的第二切分模块3004和人工标注筛选的第二人工标注筛选模块3005，以得到网络政务文本扩充词库。

于本发明的具体实施例中，网络政务文本扩充词库模块301包括对初级搜索关键词获取模块3002获取的初级搜索关键词进行爬取和去重，为了能够尽快的爬取到网站数据，于本发明的具体实施例中，通过scrapy爬虫框架和redis进行多线程爬取去重，得到中级搜索关键词。其中，对初级搜索关键词通过scrapy爬虫框架和redis进行多线程爬取和去重，得到中级搜索关键词，scrapy爬虫框架和redis进行多线程爬取和去重的引入，scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，只需要实现少量代码，就能够快速的抓取到数据内容，Scrapy爬虫框架的使用可以加快下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成政务文本主题词库构建过程中的各种需求。

本发明还提供了一种服务器，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述词库构建方法的步骤。

本发明还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述词库构建方法的步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种政务文本主题词库构建方法，其特征在于，包括：

步骤一，获取现有政务文本主题词库；

步骤二，获取历届次政务文本词库；

步骤三，获取网络政务文本扩充词库；

所述步骤二中的所述获取历届次政务文本词库，包括：

获取历届次政务文本标题，

使用分词工具对所述历届次政务文本标题进行切分，

所述步骤三中的所述获取网络政务文本扩充词库，包括：

2.根据权利要求1所述的政务文本主题词库构建方法，其特征在于，所述步骤一中的所述获取现有政务文本主题词库，包括：获取历届次政务文本的主题词，建立一级主题词和二级主题词之间的映射关系，来形成所述步骤一中的所述现有政务文本主题词库。

3.根据权利要求1所述的政务文本主题词库构建方法，其特征在于，所述步骤一中的所述获取现有政务文本主题词库，包括：获取历届次政务文本的主题词，建立二级主题词和三级主题词之间的映射关系，来形成所述步骤一中的所述现有政务文本主题词库。

4.根据权利要求1所述的政务文本主题词库构建方法，其特征在于，所述分词工具为HanLP、Jieba、THULAC或NLPIR。

5.根据权利要求1所述的政务文本主题词库构建方法，其特征在于，所述分词工具为Jieba，Jieba分词采用API，采用带词性的posseg进行切分。

6.根据权利要求1所述的政务文本主题词库构建方法，其特征在于，所述使用分词工具对所述历届次政务文本标题进行切分时，利用自定义词典和网络公开的常用停用词库对所述历届次政务文本标题进行切分，所述自定义词典为能够确定哪些词语是组合词语、不需要细粒度切分的词典；所述网络公开的常用停用词库包括百度停用词列表、四川大学机器智能实验室停用词库、哈工大停用词表，停用词库包含标点符号、语气词或数字。

7.根据权利要求1所述的政务文本主题词库构建方法，其特征在于，所述使用分词工具对所述历届次政务文本标题进行切分时，还包括：选用词性为名词、名动词、名形词、未知词的词语，同时筛选词语长度为2以上的词语作为主题词，对经过所述切分后获得的主题词进行人工标注筛选，来形成所述步骤二中的所述历届次政务文本词库。

8.根据权利要求1所述的政务文本主题词库构建方法，其特征在于，所述步骤三中，对所述初级搜索关键词通过scrapy爬虫框架和redis进行多线程爬取和去重，得到中级搜索关键词。

9.一种政务文本主题词库构建装置，其特征在于，包括：

用于获取现有政务文本主题词库的现有政务文本主题词库模块(101)；

用于获取历届次政务文本词库的历届次政务文本词库模块(201)；

用于获取网络政务文本扩充词库的网络政务文本扩充词库模块(301)；

用于对所述现有政务文本主题词库模块(101)、所述历届次政务文本词库模块(201)、所述网络政务文本扩充词库模块(301)分别获取的现有政务文本主题词库、历届次政务文本词库、网络政务文本扩充词库进行去重处理的去重处理模块(401)，所述现有政务文本主题词库模块(101)、所述历届次政务文本词库模块(201)、所述网络政务文本扩充词厍模块(301)分别与所述去重处理模块(401)连接；

所述现有政务文本主题词库模块(101)，包括获取历届次政务文本主题词的历届次政务文本主题词模块，建立相邻两级主题词之间的映射关系，以形成现有政务文本主题词库；

所述历届次政务文本词库模块，包括依次连接地：

用于获取历届次政务文本标题的历届次政务文本标题模块(2001)，

用于使用分词工具对所述历届次政务文本标题进行切分的第一切分模块(2002)，

对经过所述切分后获得的主题词进行人工标注筛选的第一人工标注筛选模块(2003)，以形成历届次政务文本词库；

所述获取网络政务文本扩充词库模块(301)，包括依次连接地：

用于获取所述现有政务文本主题词库中二级主题词的二级主题词获取模块(3001)，

用于以所述二级主题词为搜索关键词对百度文库中文本的关键词进行搜索得到初级搜索关键词的初级搜索关键词获取模块(3002)，

用于对所述初级搜索关键词进行爬取和去重，得到中级搜索关键词的中级搜索关键词获取模块(3003)，

用于对所述中级搜索关键词进行分词的第二切分模块(3004)和人工标注筛选的第二人工标注筛选模块(3005)，以得到所述网络政务文本扩充词库。

10.一种服务器，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-8任一项所述方法的步骤。

11.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。