CN110705285B - 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 - Google Patents

一种政务文本主题词库构建方法、装置、服务器及可读存储介质 Download PDF

Info

Publication number
CN110705285B
CN110705285B CN201910889703.7A CN201910889703A CN110705285B CN 110705285 B CN110705285 B CN 110705285B CN 201910889703 A CN201910889703 A CN 201910889703A CN 110705285 B CN110705285 B CN 110705285B
Authority
CN
China
Prior art keywords
text
government affair
word
words
government
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910889703.7A
Other languages
English (en)
Other versions
CN110705285A (zh
Inventor
刘彤
王更新
钟爱秒
张海鹏
宋灿灿
张佳琪
张光璞
左琦
杨杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Computing Center Co ltd
Original Assignee
Beijing Computing Center Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Computing Center Co ltd filed Critical Beijing Computing Center Co ltd
Priority to CN201910889703.7A priority Critical patent/CN110705285B/zh
Publication of CN110705285A publication Critical patent/CN110705285A/zh
Application granted granted Critical
Publication of CN110705285B publication Critical patent/CN110705285B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Abstract

本发明提供了一种政务文本主题词库构建方法、装置、服务器及可读存储介质,涉及数据处理技术领域技术领域,包括:步骤一,获取现有政务文本主题词库;步骤二,获取历届次政务文本词库;步骤三,获取网络政务文本扩充词库;步骤四,对经过所述步骤一、所述步骤二和所述步骤三分别获得的所述现有政务文本主题词库、所述历届次政务文本词库和所述网络政务文本扩充词库进行去重处理,形成最终政务文本主题词库,总之,本发明提供的政务文本主题词库构建方法、装置,工作量小、模型简单,能够大大提高工作效率的同时且能够满足工作精度需求,具有重要的研究意义和使用价值。

Description

一种政务文本主题词库构建方法、装置、服务器及可读存储 介质
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种政务文本主题词库构建方法、装置、服务器及可读存储介质。
背景技术
数据预处理是文本处理的重要组成部分。在传统的文本数据预处理中,首先需要构建停用词表,如何构建停用词表也是文本数据预处理中的关键步骤,停用词的思想是在原始文本集中去掉不需要的词汇,字符。在分词阶段时,如果分出的词语在停用词表中,则进行剔除,留下语义质量好的词语,
在现有的文本分析预处理中,维护停用词表比较复杂,停用词除了要包含常用的停用词表,比如语气词、数字等,还需要维护专用领域的停用词表,比如多篇文档都出现的高频词。从反面即停用词表的角度去构建专用领域停用词表,即使用停用词去过滤现有的文本,如果在停用词典中出现,则进行过滤,但是该反面构建的方法有一定的弊端:工作量太大,尤其是停用词较少时,文本中留下不具有明显主题倾向词语较多,会影响后期模型训练的速度和精度,如果在政务文本数据处理过程中应用该种词库构建方法,会留下更多的不具有明显主题倾向的词语,后期模型训练的速度会减慢,精度也会大大降低。因此,亟待研究一种新的政务文本词库构建方法、装置,工作量小、模型简单,保证工作效率的同时能够满足工作精度的需求。
应该注意,上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些技术方案在本发明的技术背景部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
本发明的目的在于提供一种工作量小、模型简单的政务文本主题词库构建方法、装置、服务器及可读存储介质,能够大大提高工作效率的同时且能够满足工作精度需求,具有重要的研究意义和使用价值。为实现上述目的,本发明提供了以下技术方案:
本发明提供了一种政务文本主题词库构建方法,包括:
步骤一,获取现有政务文本主题词库;
步骤二,获取历届次政务文本词库;
步骤三,获取网络政务文本扩充词库;
步骤四,对经过所述步骤一、所述步骤二和所述步骤三分别获得的所述现有政务文本主题词库、所述历届次政务文本词库和所述网络政务文本扩充词库进行去重处理,形成最终政务文本主题词库;
所述步骤一中的所述获取现有政务文本主题词库,包括:获取历届次政务文本的主题词,建立相邻两级主题词之间的映射关系,来形成所述步骤一中的所述现有政务文本主题词库;
所述步骤二中的所述获取历届次政务文本词库,包括:
获取历届次政务文本标题,
使用分词工具对所述历届次政务文本标题进行切分,
对经过所述切分后获得的主题词进行人工标注筛选,来形成所述步骤二中的所述历届次政务文本词库;
所述步骤三中的所述获取网络政务文本扩充词库,包括:
获取经过所述步骤一获取的所述现有政务文本主题词库中的二级主题词,
以所述二级主题词为搜索关键词对百度文库中文本的关键词进行搜索得到初级搜索关键词,
对所述初级搜索关键词进行爬取和去重,得到中级搜索关键词;
对所述中级搜索关键词进行分词和人工标注筛选,来得到所述步骤三中的所述网络政务文本扩充词库。
可选地,所述步骤一中的所述获取现有政务文本主题词库,包括:获取历届次政务文本的主题词,建立一级主题词和二级主题词之间的映射关系,来形成所述步骤一中的所述现有政务文本主题词库。
可选地,所述步骤一中的所述获取现有政务文本主题词库,包括:获取历届次政务文本的主题词,建立二级主题词和三级主题词之间的映射关系,来形成所述步骤一中的所述现有政务文本主题词库。
可选地,所述分词工具为HanLP、Jieba、THULAC或NLPIR。
可选地,所述分词工具为Jieba,Jieba分词采用API,采用带词性的posseg进行切分。
可选地,所述使用分词工具对所述历届次政务文本标题进行切分时,利用自定义词典和网络公开的常用停用词库对所述历届次政务文本标题进行切分,所述自定义词典为能够确定哪些词语是组合词语、不需要细粒度切分的词典;所述网络公开的常用停用词库包括百度停用词列表、四川大学机器智能实验室停用词库、哈工大停用词表,停用词库包含标点符号、语气词或数字。
可选地,所述使用分词工具对所述历届次政务文本标题进行切分时,还包括:选用词性为名词、名动词、名形词、未知词的词语,同时筛选词语长度为2以上的词语作为主题词,对经过所述切分后获得的主题词进行人工标注筛选,来形成所述步骤二中的所述历届次政务文本词库。
可选地,所述步骤三中,对所述初级搜索关键词通过scrapy爬虫框架和redis进行多线程爬取和去重,得到中级搜索关键词。
本发明还提供一种政务文本主题词库构建装置,包括:
用于获取现有政务文本主题词库的现有政务文本主题词库模块;
用于获取历届次政务文本词库的历届次政务文本词库模块;
用于获取网络政务文本扩充词库的网络政务文本扩充词库模块;
用于对所述现有政务文本主题词库模块、所述历届次政务文本词库模块、所述网络政务文本扩充词库模块分别获取的现有政务文本主题词库、历届次政务文本词库、网络政务文本扩充词库进行去重处理的去重处理模块,所述现有政务文本主题词库模块、所述历届次政务文本词库模块、所述网络政务文本扩充词库模块分别与所述去重处理模块连接;
所述现有政务文本主题词库模块,包括获取历届次政务文本主题词的历届次政务文本主题词模块,建立相邻两级主题词之间的映射关系,以形成现有政务文本主题词库;
所述历届次政务文本词库模块,包括依次连接地:
用于获取历届次政务文本标题的历届次政务文本标题模块,
用于使用分词工具对所述历届次政务文本标题进行切分的第一切分模块,
对经过所述切分后获得的主题词进行人工标注筛选的第一人工标注筛选模块,以形成历届次政务文本词库;
所述获取网络政务文本扩充词库模块,包括依次连接地:
用于获取所述现有政务文本主题词库中二级主题词的二级主题词获取模块,
用于以所述二级主题词为搜索关键词对百度文库中文本的关键词进行搜索得到初级搜索关键词的初级搜索关键词获取模块,
用于对所述初级搜索关键词进行爬取和去重,得到中级搜索关键词的中级搜索关键词获取模块,
用于对所述中级搜索关键词进行分词的第二切分模块和人工标注筛选的第二人工标注筛选模块,以得到所述网络政务文本扩充词库。
本发明还提供一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,
所述处理器执行所述程序时实现上述方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本发明提供的技术方案中,通过结合现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库,并对现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库进行去重处理,形成最终政务文本主题词库,该种政务文本主题词库构建方法工作量小、模型简单,能够大大提高工作效率的同时且能够满足工作精度需求,具有重要的研究意义和使用价值。
在本发明的优选方案中,通过获取历届次政务文本的主题词,建立相邻两级主题词之间的映射关系,来形成现有政务文本主题词库,更加清晰、准确;通过获取历届次政务文本标题,并使用分词工具对历届次政务文本标题进行切分,对经过切分后获得的主题词进行人工标注筛选,来形成历届次政务文本词库;获取经过现有政务文本主题词库中的二级主题词,以二级主题词为搜索关键词对百度文库中文本的关键词进行搜索得到初级搜索关键词,对初级搜索关键词进行爬取和去重,得到中级搜索关键词,对中级搜索关键词进行分词和人工标注筛选,来得到网络政务文本扩充词库。在传统的文本数据预处理中,首先需要构建停用词表,停用词的思想是在原始文本集中去掉不需要的词汇,字符。在分词阶段时,如果分出的词语在停用词表中,则进行剔除,留下语义质量好的词语,但是该文本数据处理方法因为停用词表而存在很多的弊端:维护停用词表比较复杂,停用词除了要包含常用的停用词表,比如语气词、数字等,还需要维护专用领域的停用词表,比如多篇文档都出现的高频词。而从反面即停用词表的角度去构建专用领域停用词表工作量太大,停用词较少时,文本中留下不具有明显主题倾向词语较多,会影响后期模型训练的速度和精度。而本发明的技术方案从正面构建专用领域词库,能有效的保留具有明显主题倾向的词语,即一篇文章只留下存在于专用领域词库的词语,能够减少文本噪声,提高文本语义表述的质量,有利于提升后期模型构建的质量。
分词工具可以为HanLP、Jieba、THULAC或NLPIR等,本发明优选地技术方案中,分词工具为Jieba,Jieba分词采用API,采用带词性的posseg进行切分,通过调用API获取带有词性的分词结果,在大多数情况下,jieba分词取得的分词效果比较好,且在文本处理中比较通用,本发明的政务文本主题词库构建方法中的分词过程采用该分词工具,分词效果更好,有利于提升后期模型构建的质量。
在本发明的优选方案中,使用分词工具对历届次政务文本标题进行切分时,利用自定义词典和网络公开的常用停用词库对历届次政务文本标题进行切分,自定义词典为能够确定哪些词语是组合词语、不需要细粒度切分的词典;网络公开的常用停用词库包括百度停用词列表、四川大学机器智能实验室停用词库、哈工大停用词表,停用词库包含标点符号、语气词或数字,本发明的政务文本主题词库构建方法中的切分过程采用自定义词典,能够确定哪些是组合词语,减少错误的发生,提高精准程度,具有重要的研究意义和使用价值。
在本发明的优选方案中,获取经过步骤一获取的现有政务文本主题词库中的二级主题词,以二级主题词为搜索关键词对百度文库中文本的关键词进行搜索得到初级搜索关键词,对初级搜索关键词进行爬取和去重,得到中级搜索关键词;对中级搜索关键词进行分词和人工标注筛选,来得到步骤三中的网络政务文本扩充词库,其中,对初级搜索关键词通过scrapy爬虫框架和redis进行多线程爬取和去重,得到中级搜索关键词,scrapy爬虫框架和redis进行多线程爬取和去重的引入,scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,只需要实现少量代码,就能够快速的抓取到数据内容,Scrapy爬虫框架的使用可以加快下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成政务文本主题词库构建过程中的各种需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中政务文本主题词库构建方法流程图;
图2是政务文本主题词库构建装置结构示意图。
101、现有政务文本主题词库模块;201、历届次政务文本词库模块;301、网络政务文本扩充词库模块;401、去重处理模块;2001、历届次政务文本标题模块;2002、第一切分模块;2003、第一人工标注筛选模块;3001、二级主题词获取模块;3002、初级搜索关键词获取模块;3003、中级搜索关键词获取模块;3004、第二切分模块;3005、第二人工标注筛选模块。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
在现有的文本分析预处理中,维护停用词表比较复杂,停用词除了要包含常用的停用词表,比如语气词、数字等,还需要维护专用领域的停用词表,比如多篇文档都出现的高频词。从反面即停用词表的角度去构建专用领域停用词表,即使用停用词去过滤现有的文本,如果在停用词典中出现,则进行过滤,但是该反面构建的方法有一定的弊端:工作量太大,尤其是停用词较少时,文本中留下不具有明显主题倾向词语较多,会影响后期模型训练的速度和精度,如果在政务文本数据处理过程中应用该种词库构建方法,会留下更多的不具有明显主题倾向的词语,后期模型训练的速度会减慢,精度也会大大降低。本发明的词库构建通过结合现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库,并对现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库进行去重处理,形成最终政务文本主题词库,该种政务文本主题词库构建方法工作量小、模型简单,能够大大提高工作效率的同时且能够满足工作精度需求,具有重要的研究意义和使用价值。
本发明提供一种政务文本主题词库构建方法,如图1-图2所示,包括:
步骤一,获取现有政务文本主题词库;
步骤二,获取历届次政务文本词库;
步骤三,获取网络政务文本扩充词库;
步骤四,对经过步骤一、步骤二和步骤三分别获得的现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库进行去重处理,形成最终政务文本主题词库;
其中,步骤一中的获取现有政务文本主题词库,包括:获取历届次政务文本的主题词,建立相邻两级主题词之间的映射关系,来形成步骤一中的现有政务文本主题词库;
步骤二中的获取历届次政务文本词库,包括:
获取历届次政务文本标题,
使用分词工具对历届次政务文本标题进行切分,
对经过切分后获得的主题词进行人工标注筛选,来形成步骤二中的历届次政务文本词库;
步骤三中的获取网络政务文本扩充词库,包括:
获取经过步骤一获取的现有政务文本主题词库中的二级主题词,
以二级主题词为搜索关键词对百度文库中文本的关键词进行搜索得到初级搜索关键词,
对初级搜索关键词进行爬取和去重,得到中级搜索关键词;
对中级搜索关键词进行分词和人工标注筛选,来得到步骤三中的网络政务文本扩充词库。
在传统的文本数据预处理中,首先需要构建停用词表,停用词的思想是在原始文本集中去掉不需要的词汇,字符。在分词阶段时,如果分出的词语在停用词表中,则进行剔除,留下语义质量好的词语,但是该文本数据处理方法因为停用词表而存在很多的弊端:维护停用词表比较复杂,停用词除了要包含常用的停用词表,比如语气词、数字等,还需要维护专用领域的停用词表,比如多篇文档都出现的高频词。而从反面即停用词表的角度去构建专用领域停用词表工作量太大,停用词较少时,文本中留下不具有明显主题倾向词语较多,会影响后期模型训练的速度和精度。而本发明的技术方案从正面构建专用领域词库,能有效的保留具有明显主题倾向的词语,即一篇文章只留下存在于专用领域词库的词语,能够减少文本噪声,提高文本语义表述的质量,有利于提升后期模型构建的质量。
本发明提供的词库构建方法通过结合现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库,并对现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库进行去重处理,形成最终政务文本主题词库,该种政务文本主题词库构建方法工作量小、模型简单,能够大大提高工作效率的同时且能够满足工作精度需求,具有重要的研究意义和使用价值。
需要说明的是,本发明下述实施例中的“历届次”可以是“当前年度”之前的若干年,比如前五年或者六年,甚至是更多年,并无特别限定,可以为2018年、2017年、2016年,也可以为2018年、2017年、2016年、2015年,也可以为2018年、2017年、2016年、2015年、2014年,也可以为2018年、2017年、2016年、2015年、2014年、2013年,2018年、2017年、2016年、2015年、2014年、2013年、2012年、......、2003年、2004年等等,并没有特殊限定历届次指的是哪几届,都是可以根据具体数据需求来进行年份筛选和信息获取或者信息统计。
于本发明的具体实施例中,步骤一,获取现有政务文本主题词库;步骤二,获取历届次政务文本词库;步骤三,获取网络政务文本扩充词库;步骤四,对经过步骤一、步骤二和步骤三分别获得的现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库进行去重处理,形成最终政务文本主题词库;其中,步骤一中的获取现有政务文本主题词库,包括:获取历届次政务文本的主题词,建立相邻两级主题词之间的映射关系,来形成步骤一中的现有政务文本主题词库;为了更清晰地来展示映射关系,于本发明的具体实施例中,步骤一中的获取现有政务文本主题词库,包括:获取历届次政务文本的主题词,建立一级主题词和二级主题词之间的映射关系,来形成步骤一中的现有政务文本主题词库。
需要说明的是,本发明获取历届次政务文本的主题词中的“历届次”可以是“当前年度”之前的若干年,比如前五年或者六年,甚至是更多年,并无特别限定,可以为2018年、2017年、2016年,也可以为2018年、2017年、2016年、2015年,也可以为2018年、2017年、2016年、2015年、2014年,也可以为2018年、2017年、2016年、2015年、2014年、2013年,2018年、2017年、2016年、2015年、2014年、2013年、2012年、......、2003年、2004年等等,并没有特殊限定历届次政务文本指的是哪几届政务文本,都是可以根据具体数据需求来进行年份筛选和信息获取或者信息统计。
为了更清晰地来展示映射关系,于本发明的具体实施例中,步骤一中的获取现有政务文本主题词库,包括:获取历届次政务文本的主题词,建立二级主题词和三级主题词之间的映射关系,来形成步骤一中的现有政务文本主题词库。
具体地,为了进一步展示映射关系,从而更加准确获取政务文本主题词库,于本发明的具体实施例中,步骤一中的获取现有政务文本主题词库,包括:获取历届次政务文本的主题词,不仅需要建立一级主题词和二级主题词之间的映射关系,还需要建立二级主题词和三级主题词之间的映射关系,来形成步骤一中的现有政务文本主题词库。
于本发明的具体实施例中,步骤二中的获取历届次政务文本词库,包括:第一,获取历届次政务文本标题,第二,使用分词工具对历届次政务文本标题进行切分,第三,对经过切分后获得的主题词进行人工标注筛选,来形成步骤二中的历届次政务文本词库;其中,分词工具为HanLP、Jieba、THULAC、NLPIR等。
HanLP:
HanLP是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。
HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点;提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。HanLP已经被广泛用于Lucene、Solr、ElasticSearch、Hadoop、Android、Resin等平台,有大量开源作者开发各种插件与拓展,并且被包装或移植到Python、C#、R、JavaScript等语言上去
Jieba:
Jieba支持三种分词模式:
精确模式,试图将句子最精确地切开,适合文本分析;
全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
Jieba中文分词组件,可用于中文句子/词性分割、词性标注、未登录词识别,支持用户词典等功能。该组件的分词精度达到了97%以上。
THULA:
THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点:
能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。
准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。
速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。
NLPIR:
NLPIR汉语分词系统:主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。NLPIR系统支持多种编码、多种操作系统、多种开发语言与平台,具有如下功能:
中英文混合分词功能
自动对中文英文信息进行分词与词性标注功能,涵盖了中文分词、英文分词、词性标注、未登录词识别与用户词典等功能。
关键词提取功能
采用交叉信息熵的算法自动计算关键词,包括新词与已知词,下面是对十八届三中全会报告部分内容的关键词提取结果。
新词识别与自适应分词功能
从较长的文本内容中,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言概率分布模型,实现自适应分词。
用户专业词典功能
可以单条导入用户词典,也可以批量导入用户词典。如可以定“举报信敏感点”,其中举报信是用户词,敏感点是用户自定义的词性标记。
为了进一步提升词库构建的准确率,于本发明的具体实施例中,分词工具为Jieba,Jieba分词采用API,采用带词性的posseg进行切分,通过调用API获取带有词性的分词结果,在大多数情况下,jieba分词取得的分词效果比较好,且在文本处理中比较通用,本发明的政务文本主题词库构建方法中的分词过程采用该分词工具,分词效果更好,有利于提升后期模型构建的质量。
于本发明的具体实施例中,使用分词工具对历届次政务文本标题进行切分时,利用自定义词典和网络公开的常用停用词库对历届次政务文本标题进行切分,自定义词典为能够确定哪些词语是组合词语、不需要细粒度切分的词典;网络公开的常用停用词库包括百度停用词列表、四川大学机器智能实验室停用词库、哈工大停用词表,停用词库包含标点符号、语气词或数字。本发明的政务文本主题词库构建方法中的切分过程采用自定义词典,能够确定哪些是组合词语,减少错误的发生,提高精准程度,具有重要的研究意义和使用价值。
需要说明的是,上述的常用停用词库,并不局限于前面列举的几个数据库,其数据库的选取以及来源并不局限于本发明的具体实施例,均是可以根据用户需求以及时代发展来进行实时更新的。
于本发明的具体实施例中,使用分词工具对历届次政务文本标题进行切分时,还包括:选用词性为名词、名动词、名形词、未知词的词语,同时筛选词语长度为2以上的词语作为主题词,对经过切分后获得的主题词进行人工标注筛选,来形成步骤二中的历届次政务文本词库。
于本发明的具体实施例中,步骤三中,对初级搜索关键词通过scrapy爬虫框架和redis进行多线程爬取和去重,得到中级搜索关键词。其中,对初级搜索关键词通过scrapy爬虫框架和redis进行多线程爬取和去重,得到中级搜索关键词,scrapy爬虫框架和redis进行多线程爬取和去重的引入,scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,只需要实现少量代码,就能够快速的抓取到数据内容,Scrapy爬虫框架的使用可以加快下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成政务文本主题词库构建过程中的各种需求。
本发明还提供了一种政务文本主题词库构建装置,如图2所示,包括:
用于获取现有政务文本主题词库的现有政务文本主题词库模块101;
用于获取历届次政务文本词库的历届次政务文本词库模块201;
用于获取网络政务文本扩充词库的网络政务文本扩充词库模块301;
用于对现有政务文本主题词库模块101、历届次政务文本词库模块201、网络政务文本扩充词库模块301分别获取的现有政务文本主题词库、历届次政务文本词库、网络政务文本扩充词库进行去重处理的去重处理模块401,所述现有政务文本主题词库模块101、历届次政务文本词库模块201、网络政务文本扩充词库模块301分别与去重处理模块401连接;
现有政务文本主题词库模块101,包括获取历届次政务文本主题词的历届次政务文本主题词模块,建立相邻两级主题词之间的映射关系,以形成现有政务文本主题词库;
历届次政务文本词库模块,包括依次连接地:
用于获取历届次政务文本标题的历届次政务文本标题模块2001,
用于使用分词工具对历届次政务文本标题进行切分的第一切分模块2002,
对经过切分后获得的主题词进行人工标注筛选的第一人工标注筛选模块2003,以形成历届次政务文本词库;
获取网络政务文本扩充词库模块301,包括依次连接地:
用于获取现有政务文本主题词库中二级主题词的二级主题词获取模块3001,
用于以二级主题词为搜索关键词对百度文库中文本的关键词进行搜索得到初级搜索关键词的初级搜索关键词获取模块3002,
用于对初级搜索关键词进行爬取和去重,得到中级搜索关键词的中级搜索关键词获取模块3003,
用于对中级搜索关键词进行分词的第二切分模块3004和人工标注筛选的第二人工标注筛选模块3005,以得到网络政务文本扩充词库。在传统的文本数据预处理中,首先需要构建停用词表,停用词的思想是在原始文本集中去掉不需要的词汇,字符。在分词阶段时,如果分出的词语在停用词表中,则进行剔除,留下语义质量好的词语,但是该文本数据处理方法因为停用词表而存在很多的弊端:维护停用词表比较复杂,停用词除了要包含常用的停用词表,比如语气词、数字等,还需要维护专用领域的停用词表,比如多篇文档都出现的高频词。而从反面即停用词表的角度去构建专用领域停用词表工作量太大,停用词较少时,文本中留下不具有明显主题倾向词语较多,会影响后期模型训练的速度和精度。而本发明的技术方案从正面构建专用领域词库,能有效的保留具有明显主题倾向的词语,即一篇文章只留下存在于专用领域词库的词语,能够减少文本噪声,提高文本语义表述的质量,有利于提升后期模型构建的质量。
本发明提供的词库构建装置通过结合现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库,并对现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库进行去重处理,形成最终政务文本主题词库,该种政务文本主题词库构建方法工作量小、模型简单,能够大大提高工作效率的同时且能够满足工作精度需求,具有重要的研究意义和使用价值。
在传统的文本数据预处理中,首先需要构建停用词表,停用词的思想是在原始文本集中去掉不需要的词汇,字符。在分词阶段时,如果分出的词语在停用词表中,则进行剔除,留下语义质量好的词语,但是该文本数据处理方法因为停用词表而存在很多的弊端:维护停用词表比较复杂,停用词除了要包含常用的停用词表,比如语气词、数字等,还需要维护专用领域的停用词表,比如多篇文档都出现的高频词。而从反面即停用词表的角度去构建专用领域停用词表工作量太大,停用词较少时,文本中留下不具有明显主题倾向词语较多,会影响后期模型训练的速度和精度。而本发明的技术方案下的词库构建装置从正面构建专用领域词库,能有效的保留具有明显主题倾向的词语,即一篇文章只留下存在于专用领域词库的词语,能够减少文本噪声,提高文本语义表述的质量,有利于提升后期模型构建的质量。
本发明提供的词库构建装置,通过结合现有政务文本主题词库模块101获取到的现有政务文本主题词库、历届次政务文本词库模块201获取到的历届次政务文本词库和网络政务文本扩充词库模块301获取到的网络政务文本扩充词库,并对现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库通过去重处理模块401进行去重处理,形成最终政务文本主题词库,该种政务文本主题词库构建装置工作量小、模型简单,能够大大提高工作效率的同时且能够满足工作精度需求,具有重要的研究意义和使用价值。
需要说明的是,本发明下述实施例中的“历届次”可以是“当前年度”之前的若干年,比如前五年或者六年,甚至是更多年,并无特别限定,可以为2018年、2017年、2016年,也可以为2018年、2017年、2016年、2015年,也可以为2018年、2017年、2016年、2015年、2014年,也可以为2018年、2017年、2016年、2015年、2014年、2013年,2018年、2017年、2016年、2015年、2014年、2013年、2012年、......、2003年、2004年等等,并没有特殊限定历届次指的是哪几届,都是可以根据具体数据需求来进行年份筛选和信息获取或者信息统计。
于本发明的具体实施例中,通过结合现有政务文本主题词库模块101获取到的现有政务文本主题词库、历届次政务文本词库模块201获取到的历届次政务文本词库和网络政务文本扩充词库模块301获取到的网络政务文本扩充词库,并对现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库通过去重处理模块401进行去重处理,形成最终政务文本主题词库,其中,现有政务文本主题词库模块101,包括:用于获取历届次政务文本的主题词的届次政务文本的主题词模块1001,建立相邻两级主题词之间的映射关系,来形成现有政务文本主题词库;为了更清晰地来展示映射关系,于本发明的具体实施例中,现有政务文本主题词库模块101,包括:用于获取历届次政务文本的主题词的届次政务文本的主题词模块1001,建立一级主题词和二级主题词之间的映射关系,来形成现有政务文本主题词库。
需要说明的是,本发明实施例中获取历届次政务文本的主题词中的“历届次”可以是“当前年度”之前的若干年,比如前五年或者六年,甚至是更多年,并无特别限定,可以为2018年、2017年、2016年,也可以为2018年、2017年、2016年、2015年,也可以为2018年、2017年、2016年、2015年、2014年,也可以为2018年、2017年、2016年、2015年、2014年、2013年,2018年、2017年、2016年、2015年、2014年、2013年、2012年、......、2003年、2004年等等,并没有特殊限定历届次政务文本指的是哪几届政务文本,都是可以根据具体数据需求来进行年份筛选和信息获取或者信息统计。
为了更清晰地来展示映射关系,于本发明的具体实施例中,通过结合现有政务文本主题词库模块101获取到的现有政务文本主题词库、历届次政务文本词库模块201获取到的历届次政务文本词库和网络政务文本扩充词库模块301获取到的网络政务文本扩充词库,并对现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库通过去重处理模块401进行去重处理,形成最终政务文本主题词库,其中,现有政务文本主题词库模块101,包括:用于获取历届次政务文本的主题词的届次政务文本的主题词模块1001,建立相邻两级主题词之间的映射关系,来形成现有政务文本主题词库,现有政务文本主题词库模块101,包括:用于获取历届次政务文本的主题词的届次政务文本的主题词模块1001,建立二级主题词和三级主题词之间的映射关系,来形成现有政务文本主题词库。
具体地,为了进一步展示映射关系,从而更加准确获取政务文本主题词库,于本发明的具体实施例中,通过结合现有政务文本主题词库模块101获取到的现有政务文本主题词库、历届次政务文本词库模块201获取到的历届次政务文本词库和网络政务文本扩充词库模块301获取到的网络政务文本扩充词库,并对现有政务文本主题词库、历届次政务文本词库和网络政务文本扩充词库通过去重处理模块401进行去重处理,形成最终政务文本主题词库,其中,现有政务文本主题词库模块101,包括:用于获取历届次政务文本的主题词的届次政务文本的主题词模块1001,建立相邻两级主题词之间的映射关系,来形成现有政务文本主题词库;为了更清晰地来展示映射关系,现有政务文本主题词库模块101,包括:用于获取历届次政务文本的主题词的届次政务文本的主题词模块1001,不仅包括建立一级主题词和二级主题词之间的映射关系,还包括建立二级主题词和三级主题词之间的映射关系来形成现有政务文本主题词库。
于本发明的具体实施例中,用于获取历届次政务文本词库的历届次政务文本词库模块201,包括:
第一,用于获取历届次政务文本标题的历届次政务文本标题模块,
第二,用于使用分词工具对历届次政务文本标题进行切分的第一切分模块,
第三,用于对经过切分后获得的主题词进行人工标注筛选的第一人工标注筛选模块,来形成历届次政务文本词库;其中,分词工具为HanLP、Jieba、THULAC、NLPIR等。
HanLP:
HanLP是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。
HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点;提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。HanLP已经被广泛用于Lucene、Solr、ElasticSearch、Hadoop、Android、Resin等平台,有大量开源作者开发各种插件与拓展,并且被包装或移植到Python、C#、R、JavaScript等语言上去
Jieba:
Jieba支持三种分词模式:
精确模式,试图将句子最精确地切开,适合文本分析;
全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
Jieba中文分词组件,可用于中文句子/词性分割、词性标注、未登录词识别,支持用户词典等功能。该组件的分词精度达到了97%以上。
THULA:
THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点:
能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。
准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。
速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。
NLPIR:
NLPIR汉语分词系统:主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。NLPIR系统支持多种编码、多种操作系统、多种开发语言与平台,具有如下功能:
中英文混合分词功能
自动对中文英文信息进行分词与词性标注功能,涵盖了中文分词、英文分词、词性标注、未登录词识别与用户词典等功能。
关键词提取功能
采用交叉信息熵的算法自动计算关键词,包括新词与已知词,下面是对十八届三中全会报告部分内容的关键词提取结果。
新词识别与自适应分词功能
从较长的文本内容中,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言概率分布模型,实现自适应分词。
用户专业词典功能
可以单条导入用户词典,也可以批量导入用户词典。如可以定“举报信敏感点”,其中举报信是用户词,敏感点是用户自定义的词性标记。
为了进一步提升词库构建的准确率,于本发明的具体实施例中,分词工具为Jieba,Jieba分词采用API,采用带词性的posseg进行切分,通过调用API获取带有词性的分词结果,在大多数情况下,jieba分词取得的分词效果比较好,且在文本处理中比较通用,本发明的政务文本主题词库构建装置中分词过程采用该分词工具,分词效果更好,有利于提升后期模型构建的质量。
于本发明的具体实施例中,使用分词工具对历届次政务文本标题进行切分时,利用自定义词典和网络公开的常用停用词库对历届次政务文本标题进行切分,自定义词典为能够确定哪些词语是组合词语、不需要细粒度切分的词典;网络公开的常用停用词库包括百度停用词列表、四川大学机器智能实验室停用词库、哈工大停用词表,停用词库包含标点符号、语气词或数字。本发明的政务文本主题词库构建装置中的切分过程采用自定义词典,能够确定哪些是组合词语,减少错误的发生,提高精准程度,具有重要的研究意义和使用价值。
需要说明的是,上述的常用停用词库,并不局限于前面列举的几个数据库,其数据库的选取以及来源并不局限于本发明的具体实施例,均是可以根据用户需求以及时代发展来进行实时更新的。
于本发明的具体实施例中,历届次政务文本词库模块中,使用分词工具对历届次政务文本标题进行切分时,还包括:选用词性为名词、名动词、名形词、未知词的词语,同时筛选词语长度为2以上的词语作为主题词,对经过切分后获得的主题词进行人工标注筛选,来形成历届次政务文本词库。
于本发明的具体实施例中,词库构建装置包括:
用于获取现有政务文本主题词库的现有政务文本主题词库模块101;
用于获取历届次政务文本词库的历届次政务文本词库模块201;
用于获取网络政务文本扩充词库的网络政务文本扩充词库模块301;
用于对现有政务文本主题词库模块101、历届次政务文本词库模块201、网络政务文本扩充词库模块301分别获取的现有政务文本主题词库、历届次政务文本词库、网络政务文本扩充词库进行去重处理的去重处理模块401,现有政务文本主题词库模块101、历届次政务文本词库模块201、网络政务文本扩充词库模块301分别与去重处理模块401连接;
现有政务文本主题词库模块101,包括获取历届次政务文本主题词的历届次政务文本主题词模块,建立相邻两级主题词之间的映射关系,以形成现有政务文本主题词库;
历届次政务文本词库模块,包括依次连接地:
用于获取历届次政务文本标题的历届次政务文本标题模块2001,
用于使用分词工具对历届次政务文本标题进行切分的第一切分模块2002,
对经过切分后获得的主题词进行人工标注筛选的第一人工标注筛选模块2003,以形成历届次政务文本词库;
网络政务文本扩充词库模块301,包括依次连接地:
用于获取现有政务文本主题词库中二级主题词的二级主题词获取模块3001,
用于以二级主题词为搜索关键词对百度文库中文本的关键词进行搜索得到初级搜索关键词的初级搜索关键词获取模块3002,
用于对初级搜索关键词进行爬取和去重,得到中级搜索关键词的中级搜索关键词获取模块3003,
用于对中级搜索关键词进行分词的第二切分模块3004和人工标注筛选的第二人工标注筛选模块3005,以得到网络政务文本扩充词库。
于本发明的具体实施例中,网络政务文本扩充词库模块301包括对初级搜索关键词获取模块3002获取的初级搜索关键词进行爬取和去重,为了能够尽快的爬取到网站数据,于本发明的具体实施例中,通过scrapy爬虫框架和redis进行多线程爬取去重,得到中级搜索关键词。其中,对初级搜索关键词通过scrapy爬虫框架和redis进行多线程爬取和去重,得到中级搜索关键词,scrapy爬虫框架和redis进行多线程爬取和去重的引入,scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,只需要实现少量代码,就能够快速的抓取到数据内容,Scrapy爬虫框架的使用可以加快下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成政务文本主题词库构建过程中的各种需求。
在传统的文本数据预处理中,首先需要构建停用词表,停用词的思想是在原始文本集中去掉不需要的词汇,字符。在分词阶段时,如果分出的词语在停用词表中,则进行剔除,留下语义质量好的词语,但是该文本数据处理方法因为停用词表而存在很多的弊端:维护停用词表比较复杂,停用词除了要包含常用的停用词表,比如语气词、数字等,还需要维护专用领域的停用词表,比如多篇文档都出现的高频词。而从反面即停用词表的角度去构建专用领域停用词表工作量太大,停用词较少时,文本中留下不具有明显主题倾向词语较多,会影响后期模型训练的速度和精度。而本发明的技术方案下的词库构建装置从正面构建专用领域词库,能有效的保留具有明显主题倾向的词语,即一篇文章只留下存在于专用领域词库的词语,能够减少文本噪声,提高文本语义表述的质量,有利于提升后期模型构建的质量。
本发明还提供了一种服务器,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述词库构建方法的步骤。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述词库构建方法的步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (11)

1.一种政务文本主题词库构建方法,其特征在于,包括:
步骤一,获取现有政务文本主题词库;
步骤二,获取历届次政务文本词库;
步骤三,获取网络政务文本扩充词库;
步骤四,对经过所述步骤一、所述步骤二和所述步骤三分别获得的所述现有政务文本主题词库、所述历届次政务文本词库和所述网络政务文本扩充词库进行去重处理,形成最终政务文本主题词库;
所述步骤一中的所述获取现有政务文本主题词库,包括:获取历届次政务文本的主题词,建立相邻两级主题词之间的映射关系,来形成所述步骤一中的所述现有政务文本主题词库;
所述步骤二中的所述获取历届次政务文本词库,包括:
获取历届次政务文本标题,
使用分词工具对所述历届次政务文本标题进行切分,
对经过所述切分后获得的主题词进行人工标注筛选,来形成所述步骤二中的所述历届次政务文本词库;
所述步骤三中的所述获取网络政务文本扩充词库,包括:
获取经过所述步骤一获取的所述现有政务文本主题词库中的二级主题词,
以所述二级主题词为搜索关键词对百度文库中文本的关键词进行搜索得到初级搜索关键词,
对所述初级搜索关键词进行爬取和去重,得到中级搜索关键词;
对所述中级搜索关键词进行分词和人工标注筛选,来得到所述步骤三中的所述网络政务文本扩充词库。
2.根据权利要求1所述的政务文本主题词库构建方法,其特征在于,所述步骤一中的所述获取现有政务文本主题词库,包括:获取历届次政务文本的主题词,建立一级主题词和二级主题词之间的映射关系,来形成所述步骤一中的所述现有政务文本主题词库。
3.根据权利要求1所述的政务文本主题词库构建方法,其特征在于,所述步骤一中的所述获取现有政务文本主题词库,包括:获取历届次政务文本的主题词,建立二级主题词和三级主题词之间的映射关系,来形成所述步骤一中的所述现有政务文本主题词库。
4.根据权利要求1所述的政务文本主题词库构建方法,其特征在于,所述分词工具为HanLP、Jieba、THULAC或NLPIR。
5.根据权利要求1所述的政务文本主题词库构建方法,其特征在于,所述分词工具为Jieba,Jieba分词采用API,采用带词性的posseg进行切分。
6.根据权利要求1所述的政务文本主题词库构建方法,其特征在于,所述使用分词工具对所述历届次政务文本标题进行切分时,利用自定义词典和网络公开的常用停用词库对所述历届次政务文本标题进行切分,所述自定义词典为能够确定哪些词语是组合词语、不需要细粒度切分的词典;所述网络公开的常用停用词库包括百度停用词列表、四川大学机器智能实验室停用词库、哈工大停用词表,停用词库包含标点符号、语气词或数字。
7.根据权利要求1所述的政务文本主题词库构建方法,其特征在于,所述使用分词工具对所述历届次政务文本标题进行切分时,还包括:选用词性为名词、名动词、名形词、未知词的词语,同时筛选词语长度为2以上的词语作为主题词,对经过所述切分后获得的主题词进行人工标注筛选,来形成所述步骤二中的所述历届次政务文本词库。
8.根据权利要求1所述的政务文本主题词库构建方法,其特征在于,所述步骤三中,对所述初级搜索关键词通过scrapy爬虫框架和redis进行多线程爬取和去重,得到中级搜索关键词。
9.一种政务文本主题词库构建装置,其特征在于,包括:
用于获取现有政务文本主题词库的现有政务文本主题词库模块(101);
用于获取历届次政务文本词库的历届次政务文本词库模块(201);
用于获取网络政务文本扩充词库的网络政务文本扩充词库模块(301);
用于对所述现有政务文本主题词库模块(101)、所述历届次政务文本词库模块(201)、所述网络政务文本扩充词库模块(301)分别获取的现有政务文本主题词库、历届次政务文本词库、网络政务文本扩充词库进行去重处理的去重处理模块(401),所述现有政务文本主题词库模块(101)、所述历届次政务文本词库模块(201)、所述网络政务文本扩充词厍模块(301)分别与所述去重处理模块(401)连接;
所述现有政务文本主题词库模块(101),包括获取历届次政务文本主题词的历届次政务文本主题词模块,建立相邻两级主题词之间的映射关系,以形成现有政务文本主题词库;
所述历届次政务文本词库模块,包括依次连接地:
用于获取历届次政务文本标题的历届次政务文本标题模块(2001),
用于使用分词工具对所述历届次政务文本标题进行切分的第一切分模块(2002),
对经过所述切分后获得的主题词进行人工标注筛选的第一人工标注筛选模块(2003),以形成历届次政务文本词库;
所述获取网络政务文本扩充词库模块(301),包括依次连接地:
用于获取所述现有政务文本主题词库中二级主题词的二级主题词获取模块(3001),
用于以所述二级主题词为搜索关键词对百度文库中文本的关键词进行搜索得到初级搜索关键词的初级搜索关键词获取模块(3002),
用于对所述初级搜索关键词进行爬取和去重,得到中级搜索关键词的中级搜索关键词获取模块(3003),
用于对所述中级搜索关键词进行分词的第二切分模块(3004)和人工标注筛选的第二人工标注筛选模块(3005),以得到所述网络政务文本扩充词库。
10.一种服务器,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-8任一项所述方法的步骤。
11.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。
CN201910889703.7A 2019-09-20 2019-09-20 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 Active CN110705285B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910889703.7A CN110705285B (zh) 2019-09-20 2019-09-20 一种政务文本主题词库构建方法、装置、服务器及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910889703.7A CN110705285B (zh) 2019-09-20 2019-09-20 一种政务文本主题词库构建方法、装置、服务器及可读存储介质

Publications (2)

Publication Number Publication Date
CN110705285A CN110705285A (zh) 2020-01-17
CN110705285B true CN110705285B (zh) 2022-11-22

Family

ID=69195723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910889703.7A Active CN110705285B (zh) 2019-09-20 2019-09-20 一种政务文本主题词库构建方法、装置、服务器及可读存储介质

Country Status (1)

Country Link
CN (1) CN110705285B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961694A (zh) * 2021-09-22 2022-01-21 福建亿榕信息技术有限公司 一种基于会议的公司各单位运作情况辅助分析方法及系统
CN115270774B (zh) * 2022-09-27 2023-01-03 吉奥时空信息技术股份有限公司 一种半监督学习的大数据关键词词典构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763213A (zh) * 2018-05-25 2018-11-06 西南电子技术研究所(中国电子科技集团公司第十研究所) 主题特征文本关键词提取方法
CN108829698A (zh) * 2018-04-19 2018-11-16 平安科技(深圳)有限公司 政务系统发文方法、装置、计算机设备及存储介质
CN109635082A (zh) * 2018-11-26 2019-04-16 平安科技(深圳)有限公司 政策影响分析方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160056983A (ko) * 2014-11-12 2016-05-23 한국전자통신연구원 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829698A (zh) * 2018-04-19 2018-11-16 平安科技(深圳)有限公司 政务系统发文方法、装置、计算机设备及存储介质
CN108763213A (zh) * 2018-05-25 2018-11-06 西南电子技术研究所(中国电子科技集团公司第十研究所) 主题特征文本关键词提取方法
CN109635082A (zh) * 2018-11-26 2019-04-16 平安科技(深圳)有限公司 政策影响分析方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Test model for stop word removal of devnagari text documents based on finite automata;Anjusha Pimpalshende and A.R. Mahajan;《IEEE》;20180621;第1-3页 *
基于领域词库的新闻提取技术的研究及应用;扬晶;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20190219;I138-2407 *

Also Published As

Publication number Publication date
CN110705285A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN109960724B (zh) 一种基于tf-idf的文本摘要方法
US8073877B2 (en) Scalable semi-structured named entity detection
CN109635297B (zh) 一种实体消歧方法、装置、计算机装置及计算机存储介质
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
US20060206306A1 (en) Text mining apparatus and associated methods
US20130060769A1 (en) System and method for identifying social media interactions
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
JP2013502643A (ja) 構造化データ翻訳装置、システム及び方法
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
CN102214189B (zh) 基于数据挖掘获取词用法知识的系统及方法
CN107357777B (zh) 提取标签信息的方法和装置
CN108038099B (zh) 基于词聚类的低频关键词识别方法
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
JP2011118689A (ja) 検索方法及びシステム
CN112883165B (zh) 一种基于语义理解的智能全文检索方法及系统
CN111382571A (zh) 一种信息抽取方法、系统、服务器和存储介质
Jain et al. Context sensitive text summarization using k means clustering algorithm
CN111325018A (zh) 一种基于web检索和新词发现的领域词典构建方法
Hu et al. Self-supervised synonym extraction from the web.
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 249 Dongsi South Street, Dongcheng District, Beijing 100094

Applicant after: Beijing Computing Center Co.,Ltd.

Address before: 249 Dongsi South Street, Dongcheng District, Beijing 100094

Applicant before: BEIJING COMPUTING CENTER

GR01 Patent grant
GR01 Patent grant