CN112364172A

CN112364172A - 一种政务公文领域知识图谱构建方法

Info

Publication number: CN112364172A
Application number: CN202011108956.5A
Authority: CN
Inventors: 陈刚
Original assignee: Shanghai Yanshu Computer Technology Co ltd
Current assignee: Shanghai Yanshu Computer Technology Co ltd
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-02-12

Abstract

本发明公开了一种政务公文领域知识图谱构建方法：先做好数据库准备工作；再从数据库中获取所有政务公文，并对获取到的公文进行预处理；然后根据政务公文的特点制定模板，确定特征语句的获取规则；根据政务公文的文本情况，选用模板抽取或非模板抽取的其中一种方法，对预处理后的文章进行实体确定和关系抽取；最后根据抽取出的实体和关系，将公文编号存储到neo4j数据库中。本发明通过命名实体识别、实体链接和关系抽取的过程，生成知识图谱，知识图谱可用于政策公文快速检索反馈，实现搜索需要的政策公文文章时，缩短时长，提高搜索效率的技术效果，进而解决了在相关技术中，对需要的内容信息进行搜索时，时间长，效率低的技术问题。

Description

一种政务公文领域知识图谱构建方法

技术领域

本发明涉及知识图谱技术领域，具体为一种政务公文领域知识图谱构建方法。

背景技术

知识图谱是关系里最有效的表示方式，是将所有不同种类的信息连接在一起形成一个关系网络。基于知识图谱，还可以制定智能搜索和数据可视化的功能。通过知识图谱，每一个关键词的搜索都可以返回更丰富、更全面的信息，并以可视化形式将这些复杂的信息直观地呈现。迄今为止，知识图谱的实际应用在发达国家已经逐步拓展并取得了较好的效果，但它在我国仍属研究的起步阶段。知识图谱最早被应用于搜索引擎领域，可更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。目前在我国的商业应用上，包括金融、农业、电商、医疗健康、环境保护等大量的垂直领域，广泛应用了知识图谱。同样，利用现有技术也可以将知识图谱应用在政务公文的检索上，把政务公文的相关信息用知识图谱表示出来，从而进行更深入的知识推理。

基于此，本发明设计了一种政务公文领域知识图谱构建方法，以解决上述问题。

发明内容

本发明的目的在于提供一种政务公文领域知识图谱构建方法，以专家制定法模板或政策公文文章内容为基础构建训练模型，通过命名实体识别、实体链接和关系抽取的过程，生成知识图谱，知识图谱可用于政策公文快速检索反馈，实现搜索需要的政策公文文章时，缩短时长，提高搜索效率的技术效果，进而解决了在相关技术中，对需要的内容信息进行搜索时，时间长，效率低的技术问题。

为实现上述目的，本发明提供如下技术方案：一种政务公文领域知识图谱构建方法，该方法包括：

第一步：将大量政务公文数据存入Elasticsearch数据库，做好数据库准备工作；

第二步：从数据库中获取所有政务公文，并对获取到的公文进行分词，然后对文本中的无用部分进行清洗，如去标点符号、停用词等，最后使用词形还原和词干提取进行标准化的预处理；

第三步：根据政务公文的特点和规律制定模板，确定特征语句的获取规则；

第四步：根据政务公文的文本情况，选用模板抽取或非模板抽取的其中一种方法，对预处理后的文章进行实体确定和关系抽取；

第五步：根据抽取出的实体和关系，关系抽取后，与关系字典进行比对，并将公文编号存储到neo4j数据库中。

作为本发明的进一步方案，第三步中由于大多数政务公文都是结构性很强的文章，同一类型的政务公文，结构很相似，政务公文相对大数据而言，数据集规模较小，在小规模数据集上，使用模板方法更容易实现且构建简单，因此，根据文章的特点和规律，由专家制定模板，模板包含如下内容：

作为本发明的进一步方案，第三步中特征语句获取规则的制定部分对于结构性不强的文章作为半结构化或非结构化数据，需要利用正则切割语句，确定特征语句的获取规则，方便后续的实体确定和关系抽取；基于专家意见和大量公文资料，确定特征语句为包含公文类型、时间、地点和发文部门的语句作为特征语句。

作为本发明的进一步方案，第四步中实体确定和关系抽取中实体抽取文本中的原子信息，包括上述的公文类型、发布时间、地点、发文部门的具体标签；机器对文章进行判断，通过模板方法，使用传统机器学习方法在公文数据的语料中进行命名实体的操作；或者通过特征语句的方法，对政策公文数据的句子打标签，构成多个训练集，使用深度学习方法从政策公文文本中抽取出实体，并且可以按照业务需求识别出更多类别的实体；收集测试文档，运行程序给每个token做标记，最后输出命名实体；通过bootstrap的方式获取发文名称，扩充原有的词典；使用词典匹配技术识别实体指称，通过表层名字扩展、搜索引擎和构建查询实体引用表，生成候选实体；基于深度学习进行候选实体消歧，将实体与知识库中的对应实体进行链接；在识别出句子中的关键实体后，还需从政务公文中进行实体间关系的抽取，使用已构建的人工模板进行匹配，进而对关系分类。

一种政务公文领域知识图谱构建方法，该装置包括数据模块、处理模块、规则模块、抽取模块和存储模块，所述数据模块用于获取政务公文原数据，扩充关系字典；所述处理模块对数据模块中的政务公文原数据进行清洗，包括分词、去标点符号、停用词等，使用词形还原和词干提取进行标准化的预处理；所述规则模块用于实体、关系的确定的前期准备；所述抽取模块用于知识抽取，将各实体从政策公文中抽取出来；所述存储模块用于构建知识图谱过程中各类数据的存储。

作为本发明的进一步方案，所述规则模块包括模板制作单元、特征语句获取单元和关系词典；根据专家意见制定模板、特征语句获取规则时，规则模块用于抽取模块进行实体抽取；关系词典需要进行扩充时，规则模块用于抽取模块进行关系比对确定。

作为本发明的进一步方案，所述抽取模块包括命名实体识别单元、实体链接单元和关系抽取单元，命名实体识别单元采用规则模块中的模板制作单元、特征语句获取单元进行实体抽取，经过测试集的测试后确定实体；实体链接单元用于将政策公文文本中的某些字符串映射到知识库中对应的实体上；映射过程中存在同名异实体或者同实体异名的现象，那么这个映射过程需要进行消歧；关系抽取单元使用规则模块中的关系词典进行比对，确定实体与实体间的关系。

作为本发明的进一步方案，所述存储模块包括数据模块中获取到的政策公文数据和知识图谱构建过程中的实体以及实体关系。

本发明的有益效果为：该构建方法以专家制定法模板或政策公文文章内容为基础构建训练模型，通过命名实体识别、实体链接和关系抽取的过程，生成知识图谱，知识图谱可用于政策公文快速检索反馈，实现搜索需要的政策公文文章时，缩短时长，提高搜索效率的技术效果，进而解决了在相关技术中，对需要的内容信息进行搜索时，时间长，效率低的技术问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明政务公文领域知识图谱构建方法的模块结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施案例1：

请参阅图1，本发明提供一种技术方案：一种政务公文领域知识图谱构建方法，该方法包括：

具体的，第三步中由于大多数政务公文都是结构性很强的文章，同一类型的政务公文，结构很相似，政务公文相对大数据而言，数据集规模较小，在小规模数据集上，使用模板方法更容易实现且构建简单，因此，根据文章的特点和规律，由专家制定模板，模板包含如下内容：

具体的，第三步中特征语句获取规则的制定部分对于结构性不强的文章作为半结构化或非结构化数据，需要利用正则切割语句，确定特征语句的获取规则，方便后续的实体确定和关系抽取；基于专家意见和大量公文资料，确定特征语句为包含公文类型、时间、地点和发文部门的语句作为特征语句。

具体的，第四步中实体确定和关系抽取中实体抽取文本中的原子信息，包括上述的公文类型、发布时间、地点、发文部门的具体标签；机器对文章进行判断，通过模板方法，使用传统机器学习方法在公文数据的语料中进行命名实体的操作；或者通过特征语句的方法，对政策公文数据的句子打标签，构成多个训练集，使用深度学习方法从政策公文文本中抽取出实体，并且可以按照业务需求识别出更多类别的实体；收集测试文档，运行程序给每个token做标记，最后输出命名实体；通过bootstrap的方式获取发文名称，扩充原有的词典；使用词典匹配技术识别实体指称，通过表层名字扩展、搜索引擎和构建查询实体引用表，生成候选实体；基于深度学习进行候选实体消歧，将实体与知识库中的对应实体进行链接；在识别出句子中的关键实体后，还需从政务公文中进行实体间关系的抽取，使用已构建的人工模板进行匹配，进而对关系分类。

具体的，所述规则模块包括模板制作单元、特征语句获取单元和关系词典；根据专家意见制定模板、特征语句获取规则时，规则模块用于抽取模块进行实体抽取；关系词典需要进行扩充时，规则模块用于抽取模块进行关系比对确定。

具体的，所述抽取模块包括命名实体识别单元、实体链接单元和关系抽取单元，命名实体识别单元采用规则模块中的模板制作单元、特征语句获取单元进行实体抽取，经过测试集的测试后确定实体；实体链接单元用于将政策公文文本中的某些字符串映射到知识库中对应的实体上；映射过程中存在同名异实体或者同实体异名的现象，那么这个映射过程需要进行消歧；关系抽取单元使用规则模块中的关系词典进行比对，确定实体与实体间的关系。

具体的，所述存储模块包括数据模块中获取到的政策公文数据和知识图谱构建过程中的实体以及实体关系。

实施案例2：

以环境质量监测公报知识图谱为例：

（1）通过数据模块，存放大量国家、省市地方的环境质量监测报告原数据，同时存放关系字典；

（2）经过处理模块调出数据模块中的环境质量监测报告原数据，并对原数据进行清洗，包括分词、去标点符号、停用词等，使用词形还原和词干提取进行标准化的预处理；

（3）文章数据中环境质量监测报告都是结构化数据，但获取到的政策公文数据集规模较小，通过咨询专家意见，根据文章的特点和规律，制定模板。通常文章标题或公文第一段中包含了发文时间、地点和部门的具体标签，模板制定为句子同时包含年/月、省/市/区/县、环境/质量时抽取实体和关系。其他半结构化数据的环境质量监测报告文章，需要先利用正则切割语句，确定特征语句的获取规则为包含年/月、省/市/区/县、环境/质量中其中一个；

（4）用户的搜索是一个实体抽取的环节，机器对文章进行判断，符合使用模板条件的文章，通过上述模板，使用传统机器学习方法在环境质量监测报告数据的语料中进行命名实体的操作；例如：标题为“2020年3月份江门市环境空气质量状况”的文章符合使用模板的条件，使用传统机器学习处理切割抽取出2020年3月、江门，使用词典匹配技术，将实体与扩充后的词典进行比对，确定好关系；

机器对文章进行判断，符合使用上述提取特征语句的文章，需要人工先对大量环境质量监测报告数据的句子打标签，构成多个训练集。使用深度学习方法，按照业务需求从环境质量监测报告文本中抽取出实体。收集测试文档，运行程序给每个token做标记，最后输出命名实体。使用词典匹配技术识别实体指称，通过表层名字扩展、搜索引擎和构建查询实体引用表，生成候选实体。基于深度学习进行候选实体消歧，将实体与知识库中的对应实体进行链接。在识别出句子中的关键实体后，还需从政务公文中进行实体间关系的抽取，使用已构建的人工模板进行匹配，进而对关系分类；

（5）将关系抽取分类后，将文章的编号对应关系存入存储模块。

本发明的构建方法以专家制定法模板或政策公文文章内容为基础构建训练模型，通过命名实体识别、实体链接和关系抽取的过程，生成知识图谱，知识图谱可用于政策公文快速检索反馈，实现搜索需要的政策公文文章时，缩短时长，提高搜索效率的技术效果，进而解决了在相关技术中，对需要的内容信息进行搜索时，时间长，效率低的技术问题。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种政务公文领域知识图谱构建方法，其特征在于，该方法包括：

2.根据权利要求1所述的一种政务公文领域知识图谱构建方法，其特征在于：第三步中由于大多数政务公文都是结构性很强的文章，同一类型的政务公文，结构很相似，政务公文相对大数据而言，数据集规模较小，在小规模数据集上，使用模板方法更容易实现且构建简单，因此，根据文章的特点和规律，由专家制定模板，模板包含如下内容：

。

3.根据权利要求1所述的一种政务公文领域知识图谱构建方法，其特征在于：第三步中特征语句获取规则的制定部分对于结构性不强的文章作为半结构化或非结构化数据，需要利用正则切割语句，确定特征语句的获取规则，方便后续的实体确定和关系抽取；基于专家意见和大量公文资料，确定特征语句为包含公文类型、时间、地点和发文部门的语句作为特征语句。

4.根据权利要求1所述的一种政务公文领域知识图谱构建方法，其特征在于：第四步中实体确定和关系抽取中实体抽取文本中的原子信息，包括上述的公文类型、发布时间、地点、发文部门的具体标签；机器对文章进行判断，通过模板方法，使用传统机器学习方法在公文数据的语料中进行命名实体的操作；或者通过特征语句的方法，对政策公文数据的句子打标签，构成多个训练集，使用深度学习方法从政策公文文本中抽取出实体，并且可以按照业务需求识别出更多类别的实体；收集测试文档，运行程序给每个token做标记，最后输出命名实体；通过bootstrap的方式获取发文名称，扩充原有的词典；使用词典匹配技术识别实体指称，通过表层名字扩展、搜索引擎和构建查询实体引用表，生成候选实体；基于深度学习进行候选实体消歧，将实体与知识库中的对应实体进行链接；在识别出句子中的关键实体后，还需从政务公文中进行实体间关系的抽取，使用已构建的人工模板进行匹配，进而对关系分类。

5.一种政务公文领域知识图谱构建装置，其特征在于：包括数据模块、处理模块、规则模块、抽取模块和存储模块，所述数据模块用于获取政务公文原数据，扩充关系字典；所述处理模块对数据模块中的政务公文原数据进行清洗，包括分词、去标点符号、停用词等，使用词形还原和词干提取进行标准化的预处理；所述规则模块用于实体、关系的确定的前期准备；所述抽取模块用于知识抽取，将各实体从政策公文中抽取出来；所述存储模块用于构建知识图谱过程中各类数据的存储。

6.根据权利要求5所述的一种政务公文领域知识图谱构建装置，其特征在于：所述规则模块包括模板制作单元、特征语句获取单元和关系词典；根据专家意见制定模板、特征语句获取规则时，规则模块用于抽取模块进行实体抽取；关系词典需要进行扩充时，规则模块用于抽取模块进行关系比对确定。

7.根据权利要求5所述的一种政务公文领域知识图谱构建装置，其特征在于：所述抽取模块包括命名实体识别单元、实体链接单元和关系抽取单元，命名实体识别单元采用规则模块中的模板制作单元、特征语句获取单元进行实体抽取，经过测试集的测试后确定实体；实体链接单元用于将政策公文文本中的某些字符串映射到知识库中对应的实体上；映射过程中存在同名异实体或者同实体异名的现象，那么这个映射过程需要进行消歧；关系抽取单元使用规则模块中的关系词典进行比对，确定实体与实体间的关系。

8.根据权利要求5所述的一种政务公文领域知识图谱构建装置，其特征在于：所述存储模块包括数据模块中获取到的政策公文数据和知识图谱构建过程中的实体以及实体关系。