CN111476025B

CN111476025B - 一种面向政府领域新词自动发现的实现方法、分析模型及其系统

Info

Publication number: CN111476025B
Application number: CN202010133406.2A
Authority: CN
Inventors: 汪敏; 严妍; 刘鹏飞; 尹娜
Original assignee: Beijing Kaipuyun Information Technology Co ltd; Cape Cloud Information Technology Co ltd
Current assignee: Beijing Kaipuyun Information Technology Co ltd; Cape Cloud Information Technology Co ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2021-01-08
Anticipated expiration: 2040-02-28
Also published as: CN111476025A

Abstract

本发明提供一种面向政府领域新词自动发现的实现方法、分析模型及其系统，所述方法包括：对网络信息去除杂数据后得到纯文本，通过HanLP分词器对纯文本进行分词获得带有词性的单词集合，对单词集合进行常用词、垃圾词的初步过滤，对过滤结果进行单词多元匹配形成组合词汇，根据组合规则判断词性，运用TF/IDF算法统计词频得到加权分数，根据分数进行筛选和专家鉴定形成最优规则，系统依据最优规则进行循环训练和全文模式匹配后输出目标结果得到分析模型。本技术将多元匹配规则、智能过滤、加权统计、规则判断和专家鉴定技术相融合，收录大量专业词典，借鉴语言学家研究成果，形成了最优的分析模型从而输出新的词汇，有效提高了新词发现效率和新词识别的准确性，同时可查询到具有更高语义专指度的复合词，提升了政府网站新词发现的专业度和准确性。

Description

一种面向政府领域新词自动发现的实现方法、分析模型及其系统

技术领域

本发明涉及网络信息技术领域，尤其涉及一种面向政府领域新词自动发现的实现方法、分析模型及其系统。

背景技术

现有的政府网站新词发现功能不准确、不全面，对专有复合新词的发现效果差。

目前，现有技术大都是基于统计或者基于规则来实现新词发现，其中，基于统计的方法一般都限于查找较短的短语，基于规则的方法一般会局限于某个领域。随着新词发现技术研究的不断深入，单独利用规则的方法会由于规则获取的限制，将越来越不能满足逐渐加快的新词产生速度和识别速度的要求，单独利用统计的方法由于其忽略了词语内部结构特征和构词能力等特性，也不能达到最好的效果。因此，如何更准确、更全面、更快速地发现政府领域内新词，尤其是专有性复合新词是本领域的一个难点。

发明内容

本发明为了弥补现有技术的不足，提供一种面向政府领域新词自动发现的实现方法、分析模型及其系统，该技术将多元匹配规则、智能过滤、加权统计、规则判断和专家鉴定技术相融合，收录大量专业词典，借鉴语言学家研究成果，形成了最优的分析模型从而输出新的词汇，有效提高了新词发现效率和新词识别的准确性，同时可查询到具有更高语义专指度的复合词，提升了政府网站新词发现的专业度和准确性。

本发明提供了一种面向政府领域新词自动发现的分析模型，该模型部署方法如下：

对网络信息去除杂数据后得到纯文本，通过HanLP分词器对纯文本进行分词获得带有词性的单词集合，对单词集合进行常用词、垃圾词的初步过滤，对过滤结果进行单词多元匹配形成组合词汇，根据组合规则判断词性，运用TF/IDF算法统计词频得到加权分数，根据分数进行筛选和专家鉴定形成最优规则，系统依据最优规则进行循环训练和全文模式匹配后输出目标结果得到分析模型。

进一步地，HanLP分词器包含目前常用的多种分词算法，比如正向最大匹配算法，逆向最大匹配算法和双向最大匹配法。

进一步地，所述“组合词规则”包括单字组合词规则和多字组合词规则。

另外，本发明还提供了一种面向政府领域新词自动发现的实现方法，实现步骤如下：

依照自定义词典采用分词算法对网络信息解析后的文本信息进行切分，得到带有词性的单词集合，将单词集合与分析模型进行对比和词汇提取，获得包含词首、词中和词尾的多元组合词，采用TF/IDF算法统计词中的词频和词首、词尾的单词和词性并打分得到候选新词，根据分数对候选新词进行置信度判断，得到政府领域新词。

进一步地，所述“分词算法”主要包括：正向最大匹配算法，逆向最大匹配算法和双向最大匹配法。

进一步地，所述“自定义词典”可根据业务需求自行配置，随时导入相关业务词汇和大量专业词典以丰富词库。

另外，本发明还提供了一种面向政府领域新词自动发现的系统，该系统包括如下结构：

爬虫模块：通过爬虫技术从政府网站中抓取相关页面；

页面解析模块：对抓取的页面进行代码解析，去掉无关的HTML代码，取出相关的文本信息；

分词模块：参考自定义词典、运用分词算法对解析后的文本信息进行切分；

模型构建和训练模块；

词性标注模块：对目标新词进行标注并存放到词性标注词库中，以丰富库中词汇；词性标注词库：对词库中词汇进行管理和自定义配置，可随时导入相关业务词汇和大量专业词典，还可通过循环训练不断丰富词汇并指导文本信息的切分。

进一步地，模型构建和训练模块还包括智能过滤子模块、匹配组合子模块、加权统计子模块、规则判断子模块和专家鉴定子模块。

本发明提供的一种面向政府领域新词自动发现的实现方法、分析模型及其系统，相比于现有技术具有以下优点：

本发明将多元匹配规则、智能过滤、加权统计、规则判断和专家鉴定技术相融合，形成最优的分析模型从而输出新的词汇，使发现新词、复合词非常高效可信，尤其是针对政府领域更显示出从特种语料中发现新词的巨大优势。本技术不仅提高了新词发现效率和新词识别的准确性，还可以识别出具有更高语义专指度的复合词，大大提升了政府网站新词发现的专业度和准确性。

附图说明

图1为实施例一的一种面向政府领域新词自动发现分析模型的部署方法操作流程示意图。

图2为实施例二的一种面向政府领域新词自动发现实现方法的操作流程示意图。

图3为实施例三的一种面向政府领域新词自动发现系统的结构示意图。

具体实施方式

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可以找说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和有点能够更明显易懂，以下为本发明的具体实施方式。

实施例一

参见图1，为本实施例提供的一种面向政府领域新词自动发现分析模型的部署方法，所举实例只用于解释本发明，并非用于限定本发明的范围。实现步骤如下：

S1、爬取政府发文信息网络片段；

S2、去除杂数据获得纯文本；

S3、根据自定义词典运用HanLP分词器对纯文本进行切分；

S4、对切分后的文本进行常用词、垃圾词的智能过滤；

S5、采用多元匹配规则对过滤结果进行组合形成新词汇；

S6、根据组合词规则对新词汇进行词性判断，并与停用词表进行比对；

S7、对符合规则的新词汇运用TF/IDF统计算法进行词频统计和加权计算；

S8、依据指定阈值对计算后的加权分数进行智能过滤；

S9、对过滤结果进行专家鉴定，形成最优规则；

S10、将鉴定结果进行全文模式匹配，获得目标结果并存储到自定义词典中；

S11、依据最优规则进行循环训练，得到分析模型。

其中，HanLP分词器包含的分词算法包含目前常用的多种分词算法，比如正向最大匹配算法，逆向最大匹配算法和双向最大匹配法。

其中，S6所述“组合词规则”包括单字组合词规则和多字组合词规则。

其中，所述“单字组合词规则”是指：某些词的词性本身不具有实际的概念意义，其功能主要用来造句而很少用来组成新词、新概念，包括数词、代词、介词、助词、象声词和姓氏单字；其他词性的某些单字由于自身意义的原因，很少用来组成新词新语，被归为单字组合词停用词表，包括不可扩展的单字、只做首词的单字和只作尾词的单字。单字组合词规则的实现步骤如下：

S6.1、将单字组合词汇进行分离；

S6.2、不可扩展的单字列表过滤；

S6.3、只做主词的单字列表过滤；

S6.4、只做辅词的单字列表过滤；

S6.5、词性规则过滤；

S6.6、人工挑选得到结果。

其中，所述“多字组合词规则”是指：

规则	成词率	规则	成词率
				单字+多字	低	名词+副词	低
名词+名词	较高	职位/职称+姓氏	低
				名词+动词	低	前缀名词+词	高
名词+形容词	低	词+后缀名词	高

和单字组合词规则一样，多字组合词也有停用词表，包括禁用虚词、禁用实词、只做首词和只做尾词。

其中，S5中所述“采用多元匹配规则对过滤结果进行组合形成新词汇” 的具体实现方法，举例如下。

实现原理：

采用四元匹配规则实现词汇组合，设W_new＝W₁、W₂、W₃、W₄，算法描述如下：

阈值f的取值根据需要来设置，词首、词中和词尾的阈值大小可以是不同的，而且阈值大小和训练预料所用的N元语法中N的大小有一定关系：

当阈值f的取值用以下公式确定时，新词发现的质量较高，设C_headi表示词首词集合中的第i个词的词首模式值，VALUE_headi标识C_headi的词频。则f_head可以表示为：

同理，可以计算f_middle和f_tail，其中，head、tail、middle是词汇带入到分析模型后智能提取的包含词首、词中和词尾的多元组合词，f_head表示词首分值， f_middle表示词中分值，f_tail表示词尾分值。

结果展示：

利用爬虫程序从政府网站中抓取一定容量的页面，解析后通过最大正向匹配算法对文本信息进行分词，之后采用二元匹配、三元匹配和四元匹配规则对分词进行重新组合，最后利用统计算法进行加权计算得到2016-2019政府工作报告新词发现结果，其中，在2016-2019政府工作报告新词中涉及经济和民生类新词有53 个，经过统计算法计算出的二元匹配新词有14个、三元匹配新词有15个、四元匹配新词有8个、多元匹配新词有16个，并根据新词出现频率进行倒序排列，具体结果如下：

2016-2019政府工作报告新词发现结果

从结果可以看出：所获得的专业复合词包含了更准确、更丰富的语义信息，用I(C)表示词汇C的语义的发散程度，“C/Q”表示复合词CQ由词C和词Q联合而成，显然I(C/Q)<I(C)+I(Q)，发现的复合词表达了更加准确的语义信息。

综上，本技术将多元匹配规则、智能过滤、加权统计、规则判断和专家鉴定技术相融合形成最优的分析模型，有效提升发现新词、复合词的效率和准确性，尤其是针对政府领域更显示出从特种语料中发现新词的优势。而且，当新词的词频大于所有新词的数学期望时可信度更高，还会经过专家鉴定进行最终的判断和筛选。

实施例二

参见图2，为本实施例提供的一种面向政府领域新词自动发现的实现方法，所举实例只用于解释本发明，并非用于限定本发明的范围。具体实现步骤如下：

S12、系统运用爬虫技术从政府网站中抓取相关页面；

S13、对抓取的页面进行代码解析，去掉无关的HTML代码，取出相关的文本信息；

S14、依据自定义词典采用分词算法切分文本信息，得到带有词性的单词集合；

S15、将单词集合与分析模型进行对比，获得目标新词并存入自定义词典；

S16、得到政府领域新词。

其中，S14中所述“分词算法”主要包括：正向最大匹配算法，逆向最大匹配算法和双向最大匹配法。

其中，S14中所述“自定义词典”可根据业务需求自行配置，随时导入相关业务词汇和大量专业词典以丰富词库。

其中，S15进一步包括如下步骤：

S15.1、将单词集合带入到分析模型中智能提取，通过规则得到包含词首、词中和词尾的多元组合词；

S15.2、统计多元组合词的词中的词频和词首、词尾的单词和词性，获得候选新词；

S15.3、对候选新词进行置信度判断，获得目标新词并存入自定义词典。

其中，S15.1中所述“规则”是指多元匹配规则和组合词规则。

其中，S15.2中所述“统计”是指运用TF/IDF统计算法进行词频统计和加权计算。

实施例三

参见图3，为本实施例提供的一种面向政府领域新词自动发现系统，所举实例只用于解释本发明，并非用于限定本发明的范围。具体模块如下：

爬虫模块：通过爬虫技术从政府网站中抓取相关页面；

模型构建和训练模块；

其中，模型构建和训练模块还包括智能过滤子模块、匹配组合子模块、加权统计子模块、规则判断子模块和专家鉴定子模块，具体功能如下：

智能过滤子模块：对解析后词汇进行常用词和垃圾词等词性过滤，对加权计算的分数进行阈值过滤；

匹配组合子模块：采用多元匹配规则对过滤后的词汇进行多元匹配形成新的组合词汇；

规则判断子模块：运用单字组合词规则和多字组合词规则对多元匹配后的新组合词汇进行词性判断，并与停用词表进行比对；

加权统计子模块：对符合规则的新组合词汇运用TF/IDF统计算法进行词频统计和加权计算，经筛选获得候选新词；

专家鉴定子模块：对候选新词进行专业人工判别获得目标新词。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围不局限于此，任何熟悉本技术领域的技术人员在本发明的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种面向政府领域新词自动发现方法，其特征在于：包括如下步骤：

S12、系统运用爬虫技术从政府网站中抓取相关页面；

S16、得到政府领域新词；

其中，所述分析模型通过如下步骤获取：

S1、抓取政府发文信息网络片段；

S2、去除杂数据获得纯文本；

S3、根据自定义词典运用HanLP分词器对纯文本进行切分；

S4、对切分后的文本进行常用词、垃圾词的智能过滤；

S5、采用多元匹配规则对过滤结果进行组合形成新词汇；

S8、依据指定阈值对计算后的加权分数进行智能过滤；

S9、对过滤结果进行专家鉴定，形成最优规则；

S11、依据最优规则进行循环训练，得到分析模型；

其中，所述S15进一步包括如下步骤：

S15.1、将单词集合带入到分析模型中智能提取，通过最优规则得到包含词首、词中和词尾的多元组合词；

S15.3、对候选新词进行置信度判断，获得目标新词并存入自定义词典；

其中，所述S15.1进一步包括如下步骤：

S15.1.1、构建停用词表和候选新词表，设置词首、词中和词尾的分值；

S15.1.2、判断词首、词中和词尾是否存在停用词，若是，跳出；

S15.1.3、否则，判断词首是否小于词首分值；

S15.1.4、若是，判断词中是否小于词中分值；

S15.1.5、若是，判断词尾是否小于词尾分值；

S15.1.6、否则，得到候选新词且词频加1，加入到候选新词表；

其中，所述加权计算的“分值”用下述公式确定时，新词发现的质量较高，设C_headi表示词首词集合中的第i个词的词首模式值，VALUE_headi标识C_headi的词频，则f_head可以表示为：

同理，可以计算f_middle和f_tail，其中，head、tail、middle是分词结果带入到分析模型后智能提取的包含词首、词中和词尾的多元组合词，f_head表示词首分值，f_middle表示词中分值，f_tail表示词尾分值。

2.如权利要求1所述的一种面向政府领域新词自动发现方法，其特征在于：所述S3中“HanLP分词器”包含的分词算法有：正向最大匹配算法，逆向最大匹配算法和双向最大匹配法。

3.如权利要求1所述的一种面向政府领域新词自动发现方法，其特征在于：S6中所述“组合词规则”包括：单字组合词规则和多字组合词规则，其中，所述“单字组合词规则”是指：某些词的词性本身不具有实际的概念意义，其功能主要用来造句而很少用来组成新词、新概念，包括数词、代词、介词、助词、象声词和姓氏单字；其他词性的某些单字由于自身意义的原因，很少用来组成新词新语，被归为单字组合词停用词表，包括不可扩展的单字、只做首词的单字和只作尾词的单字；

其中，所述“多字组合词规则”是指：前缀名词+词、词+后缀名词的成词率高；名词+名词成词率较高；单字+多字、名词+动词、名词+形容词、名词+副词、职位/职称+姓氏的成词率低；并且和单字组合词规则一样，多字组合词也有停用词表，包括禁用虚词、禁用实词、只做首词和只做尾词。

4.如权利要求3所述的一种面向政府领域新词自动发现方法，其特征在于：所述“单字组合词规则”实现步骤如下：

S6.1、将单字组合词汇进行分离；

S6.2、不可扩展的单字列表过滤；

S6.3、只做主词的单字列表过滤；

S6.4、只做辅词的单字列表过滤；

S6.5、词性规则过滤；

S6.6、人工挑选得到结果。

5.如权利要求1所述的一种面向政府领域新词自动发现方法，其特征在于：S14中所述“自定义词典”可根据业务需求自行配置，随时导入相关业务词汇和大量专业词典以丰富词库；S15.1中所述“最优规则”是指对分析模型进行循环训练形成的最优选词规则；S15.2中所述“统计”是指运用TF/IDF统计算法进行词频统计和加权计算。

6.如权利要求1所述的一种面向政府领域新词自动发现方法，其特征在于：所述“多元匹配规则”代入算法中可描述为N元语法，所述“加权计算”的分值和训练预料所用的N元语法中N的大小有一定关系：

当N＝1时，词首分值＝1，词中分值＝0，词尾分值＝0

当N＝2时，词中分值＝0

当N＝3时，词首分值、词中分值、词尾分值无固定值

当N＝4时，词首分值、词中分值、词尾分值无固定值

当N很大时，词中分值>词首分值，词中分值>词尾分值

当N接近无穷大时，词中分值趋近于1，词首分值趋近于0，词尾分值趋近于0。

7.一种面向政府领域新词自动发现系统，其特征在于：包括如下模块：

爬虫模块：通过爬虫技术从政府网站中抓取相关页面；

模型构建和训练模块：对数据进行分词，通过多元匹配规则和组合词规则进行选词，再通过TF/IDF算法统计词频进行选词，对计算结果进行阈值过滤并通过专家干预方式确定选词，经过循环训练形成最优规则以指导选词，最终构建分析模型；

词性标注模块：对目标新词进行标注并存放到词性标注词库中，以丰富库中词汇；

词性标注词库：对词库中词汇进行管理和自定义配置，可随时导入相关业务词汇和大量专业词典，还可通过循环训练不断丰富词汇并指导文本信息的切分；

其中，所述“模型构建和训练模块”还包括智能过滤子模块、匹配组合子模块、加权统计子模块、规则判断子模块和专家鉴定子模块，具体如下：

加权统计子模块：对符合最优规则的新组合词汇运用TF/IDF统计算法进行词频统计和加权计算，经筛选获得候选新词；

专家鉴定子模块：对候选新词进行专业人工判别获得目标新词；

其中，所述加权计算的分值用下述公式确定时，新词发现的质量较高，设C_headi表示词首词集合中的第i个词的词首模式值，VALUE_headi标识C_headi的词频，则f_head可以表示为：