CN116204656A

CN116204656A - 一种大数据知识图谱构建方法、系统、设备及存储介质

Info

Publication number: CN116204656A
Application number: CN202310127164.XA
Authority: CN
Inventors: 吴珺; 李天意; 郑欣丽; 袁子健; 董佳明
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-06-02

Abstract

本发明提供一种大数据知识图谱构建方法、系统、设备及存储介质，包括如下步骤：S1.获取政府治理大数据的结构化数据、半结构化数据和非结构化数据，确定政府治理大数据知识图谱的整体层次结构；S2.分别对政府治理大数据的结构化数据、半结构化数据和非结构化数据进行抽取；S3.提取政府治理大数据知识的三元组，包括具体政府治理大数据具体实体、实体间的具体关系和构建政府治理大数据知识图谱；S4.完成政府治理大数据知识问答系统的环境搭建、需求分析、整体模块设计、功能实现。本发明构建了动态管理数据库，为构建更科学、更完整的政府治理大数据知识图谱提供了理论基础与技术保障。

Description

一种大数据知识图谱构建方法、系统、设备及存储介质

技术领域

本发明涉及知识图谱与大数据技术领域,尤其涉及一种大数据知识图谱构建方法、系统、设备及存储介质。

背景技术

利用大数据以及数据分析预测来提高政府治理能力，一直是政府治理领域研究的热门。然而当前政府部门对于数据的进一步的整合与分析的能力依旧很缺乏，目前并没有成熟的政府大数据治理系统，实现政府治理数据的可视化，并且分析与预测政府与城市的未来发展，并且提出相应意见，知识图谱在政府大数据治理领域的应用和技术体系依旧很缺乏。

在如今信息化的社会背景下，“互联网+”成为社会发展的新潮，大数据被视为一种积极的治理资源，政府要善于利用大数据，只有利用好大数据资源，才能做出更科学和更精准的决策，通过大数据分析提升政府与公众的联系，通过政府与公众在城市建设，医疗卫生服务，生态环境等方面的齐心合作，共同建设更好的城市与社会。因此“数据到知识”的转换能力显得更加重要，政府治理大数据知识图谱的构建与应用，从数据收集到知识整合与存储，以及图谱的生成与应用，实现了各类治理数据与规划信息更好的流动与互通。政府治理大数据的公开透明，也能进一步提升政府部门在公众心中的可信度，使得社会的发展更加和谐与稳定。

发明内容

针对现有技术中存在的技术问题，本发明提供了一种大数据知识图谱构建方法、系统、设备及存储介质，以实现公民与政府工作人员可直接查看到政府治理数据之间的关联关系，实现各类治理数据与发展规划信息互通。

根据本发明的第一方面，提供了一种大数据知识图谱构建方法，用于政府治理对大数据进行分析，构建方法包括以下步骤：

S1.获取政府治理大数据的结构化数据、半结构化数据和非结构化数据，确定政府治理大数据知识图谱的整体层次结构；

S2.分别对政府治理大数据的结构化数据、半结构化数据和非结构化数据进行实体关系抽取；

S3.提取政府治理大数据知识三元组(x,R,y)，其中x，y表示具体政府治理大数据具体实体，R表示实体间的具体关系,构建政府治理大数据知识图谱；

S4.完成政府治理大数据知识问答系统的环境搭建、需求分析、整体模块设计、功能实现。

可选的，所述获取政府治理大数据的结构化数据、半结构化数据和非结构化数据包括：

使用Python爬虫技术对官网权威网站获取政府治理文件，整理政府文件数据，通过数据预处理，筛选出政府文件中结构化、半结构化以及非结构化数据，其中，结构化数据指关系型数据库表形式管理的数据，具有明显的层次结构，半结构化以及非结构化数据指没有固定结构模式的数据。

可选的，所述分别对政府治理大数据的结构化数据、半结构化数据和非结构化数据进行实体关系抽取包括：

利用数据预处理、规则模板定义和融合加性注意力机制和传统实体关系抽取模型相结合的方式分别对政府治理大数据的结构化数据、半结构化数据和非结构化数据进行实体关系抽取；

若数据为结构化数据或半结构化数据，通过构建规则模板，利用规则模板提取知识三元组；

若数据为非结构化数据，利用加性实体关系提取知识三元组。

可选的，所述利用规则模板提取知识三元组包括：

提取构建规则模板所需的关键词，构建关键词集；

利用关键词集匹配结构化或半结构化数据中对应的标志词；

利用所述标志词与所述关键词的关系，构建规则模板，利用正则表达式提取上述结构化或半结构化数据中，适配所构建规则模板的数据，以提取结构化与半结构化数据的知识三元组。

可选的，所述若数据为非结构化数据，利用加性实体关系提取知识三元组包括以下步骤：

将非结构化数据逐条处理为政府治理信息知识数据，构建文本集；

采用BERT模型进行预训练学习上下文信息和结构特征，通过BERT模型中的自注意力机制获取多个维度的语义信息，学习输入的治理信息中每个字和符号到对应的实体识别标签的规律；

对BERT模型的输出向量进行特征提取，得到更加全面的上下文语义信息和句子级别特征，输出每个字符对应标签类别矩阵；

采用加性注意力机制降低线性复杂度，实现有效的上下文建模。

可选的，所述提取政府治理大数据知识三元组包括：

确定政府治理大数据知识图谱的整体层次结构与模式层，将所有实体、关系、属性自动存入数据库中，对三元组进行标注区分，完成政府治理大数据的可视化展示。

可选的，所述完成政府治理大数据知识问答系统的环境搭建、需求分析、整体模块设计、功能实现包括：

根据知识图谱各个实体、关系、属性以及路径关系网，联合Cypher语句查询操作，进行政府治理大数据知识问答系统交互。

根据本发明的第二方面，提供一种大数据知识图谱构建系统，包括：

包括：获取模块、划分模块、提取模块和融合模块，

获取模块，用于获取政府治理大数据的结构化数据、半结构化数据和非结构化数据，确定政府治理大数据知识图谱的整体层次结构；

划分模块，用于对政府治理大数据的结构化数据、半结构化数据和非结构化数据进行实体关系抽取；

提取模块，用于提取政府治理大数据知识三元组(x,R,y)，其中x，y表示具体政府治理大数据具体实体，R表示实体间的具体关系,构建政府治理大数据知识图谱；

融合模块，用于完成政府治理大数据知识问答系统的环境搭建、需求分析、整体模块设计、功能实现。

根据本发明的第三方面，提供了一种电子设备，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机程序时实现一种大数据知识图谱构建方法的步骤。

根据本发明的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机管理类程序被处理器执行时实现一种大数据知识图谱构建方法的步骤。

本发明的技术效果和优点：

本发明在对政府治理大数据知识整合过程中，考虑到政府治理类别的多样化，以及多模态的业务场景需求，本发明利用知识图谱技术对大量政府治理数据进行可视化存储与管理、对政府治理多样化的类别优化了分类方法、提出了政府治理大数据知识三元组(x,R,y)的匹配技术、构建了动态管理数据库，为构建更科学、更完整的政府治理大数据知识图谱提供了理论基础与技术保障。

本文提出了加性实体关系抽取BBFC模型，通过Fastformer层降低线性复杂度，实现有效的上下文建模，解决传统实体关系抽取模型存在的长序列前端语义稀释、输出的特征向量信息不够准确，导致识别的实体标签信息错误等问题，提升了实体关系抽取的准确性，并取得了良好的效果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

图1为本发明实施例中政府治理大数据知识图谱构建方法的流程结构框图。

图2为本发明实施例的知识图谱构建过程结构框图；

图3为本发明实施例中加性实体关系抽取BBFC模型结构框图；

图4为本发明实施例中针对政府治理大数据知识图谱中Cypher语句具体功能实现图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

政府治理大数据知识图谱为领域知识图谱,具有领域专业性特征,其应用场景及服务主要针对政府工作人员，同时也面对所有社会公民。专业型领域知识图谱通常采用自顶向下，逐层建模的构建方式，其核心在于各类知识实体的及关系的抽取，以及的逻辑表达。

政府治理大数据领域知识图谱的构建首先需要建立符合行业特征的知识本体模型及结构框架，与其他领域不同的是，政府治理大数据领域的知识获取，对数据来源的真实性与准确性有着更高的要求。

虽然目前大量的政府治理文件已经在全网公开化、透明化，但是政府治理文件往往是长篇非结构化的文本数据，不利于查阅，在大数据信息时代，传统的政府治理模式已经逐渐落后，政府需要通过技术手段对大数据进行分析。

可以理解的是，基于上述背景技术中的缺陷，本发明实施例提出了一种大数据知识图谱构建方法，用于政府治理对大数据进行分析，具体如图1所示，包括以下步骤：

在本发明实施例中，获取政府治理大数据的结构化数据、半结构化数据和非结构化数据具体包括，使用爬虫技术对百度百科、湖北省发展规划数据库、湖北省人民政府官网等权威网站获取政府治理文件，整理政府文件数据，通过数据预处理，筛选出政府文件中结构化、半结构化以及非结构化数据，确定政府治理大数据知识图谱的整体层次结构；结构化数据指关系型数据库表形式管理的数据，具有明显的层次结构，半结构化以及非结构化数据指没有固定结构模式的数据。

进一步地，利用规则模板定义和融合加性注意力机制和传统实体关系抽取模型相结合的方式分别对政府治理大数据的结构化数据、半结构化数据和非结构化数据进行抽取。

具体表现为：利用数据预处理、规则模板定义与在传统实体关系抽取模型基础上结合加性注意力机制(Fastformer)的模型(简称：加性实体关系抽取BBFC模型)，对政府治理大数据的结构化数据、半结构化数据和非结构化数据进行实体关系抽取。

在加性实体关系抽取BBFC模型中，具体包括以下步骤：

首先采用BERT模型代替Word2Vec模型进行预训练学习上下文信息和结构特征，通过BERT模型中的双向Transformer自注意力机制，获取多个维度的语义信息，

其次采用BiLSTM对BERT的输出向量进行特征提取，进一步通过融合加性注意力机制(Fastformer)降低线性复杂度，实现有效的上下文建模，解决BiLSTM模型存在的长序列前端语义稀释、输出的特征向量信息不够准确，导致识别的实体标签信息错误等问题，

最后通过CRF层学习到句子的前后依赖，从而加入了一些约束来保证最终预测结果有效性。

图2为本发明实施例的知识图谱构建过程结构框图，如图2所示，在本实施例中，实体关系抽取包括：结构化数据、半结构化数据和非结构化数据的实体关系抽取；

若数据为结构化数据或半结构化数据，通过构建规则模板，利用规则模板提取知识三元组(x,R,y)，首先提取构建规则模板所需的关键词，构建关键词集M{M1，M2，M3…}，利用关键词集M{M1，M2，M3…}，匹配结构化或半结构化数据中对应的标志词，利用所述标志词与所述关键词的关系，构建规则模板，利用正则表达式提取上述结构化或半结构化数据中，适配所构建规则模板的数据，以提取结构化与半结构化数据的知识三元组(x,R,y),其中，x，y表示具体政府治理大数据具体实体，如实体x1：关谷软件园，实体y1：洪山区，实体x1与实体y1之间的联系为：关谷软件园“位于”洪山区，其中“位于”为实体x1与实体y1之间的关系，定义为：R1；

若数据为非结构化数据，首先将非结构化数据逐条处理为政府治理信息知识数据，并构建文本集Tx{T1，T2，T3…}，例如T1：地方一般公共预算收入达到76.3亿元。并且如所述步骤S2中，利用加性实体关系抽取BBFC模型抽取的方式，对于文本集Tx{T1，T2，T3…}，提取知识三元组(x,R,y)，如：实体x2：地方一般公共预算收入，实体y2：76.3亿元，“达到”为实体x2与实体y2之间的关系，定义为：R2；

加性实体关系抽取BBFC模型结构框图如图3所示；利用加性实体关系抽取BBFC模型抽取的方式，对于文本集Tx{T1，T2，T3…}，提取知识三元组(x,R,y)，具体包括以下步骤：

利用加性实体关系抽取BBFC模型，对文本集Tx{T1，T2，T3…}，通过BIO模式进行语义标注；

首先采用BERT模型代替Word2Vec模型进行预训练学习上下文信息和结构特征，通过BERT模型中的双向Transformer自注意力机制，获取多个维度的语义信息，本层主要学习输入的治理信息中每个字和符号到对应的实体识别标签的规律；

其次采用BiLSTM对BERT的输出向量进行特征提取，从而得到更加全面的上下文语义信息,通过BiLSTM层，得到句子级别特征，最终输出每个字符对应标签类别矩阵记为矩阵Bi＝[B1，B2，…，BN]，其中Bi表示该字符对应各标签类别的分数；

进一步采用加性注意力机制(Fastformer)降低线性复杂度，实现有效的上下文建模，解决BiLSTM模型存在的长序列前端语义稀释、输出的特征向量信息不够准确，导致识别的实体标签信息错误等问题。

通过加性注意力机制(Fastformer)降低线性复杂度的具体步骤如下：

(1)经过BiLSTM层得到Fastformer层的输入向量，记为X，其中X∈R^N×d，其中R为实数集，N为从属向量个数，d为隐藏维数，其从属向量记为[X₁，X₂，…，X_N]；

(2)通过Fastformer层，动态生成字符特征、位置特征、标签特征，三种特征的权重，并且通过3个独立的线性变换层将输入向量转化为(查询矩阵)Query、(键矩阵)Key和(值矩阵)Value，记为Q，K，V，其中Q，K，V∈R^N×d，记Q＝[Q₁，Q₂，…，Q_N]，K＝[K₁，K₂，…，K_N]，V＝[V₁，V₂，…，V_N]；

(3)为了压缩注意力查询中的政治治理大数据的上下文信息，首先将查询矩阵Q变换为全局注意力查询向量q，其中q∈R^d。

(4)对于全局注意力查询向量q，第i个查询向量的注意权重α_i的计算公式为：

其中，exp是以自然常数e为底的指数函数，w_q∈R^d为可学习的参数向量，T为转置符，/>

为N个多项式之和，qi、qj分别表示在查询向量q中的第i，j个查询向量；

(5)对于全局注意力查询向量q，计算公式为：

其中ai为注意权重；

(6)为了进一步解决全局注意力查询向量q与键矩阵K之间的全局政治治理大数据上下文建模问题，首先通过添加注意将键矩阵K转化为全局注意力键向量k，其中k∈R^d，其次通过全局注意力查询向量元素与每个键向量元素的乘积进行交互建模，形成基于上下文的感知的键矩阵，该矩阵中的第i个向量记为p_i，p_i的计算公式如下：p_i＝q*k_i；

在基于上下文的感知的键矩阵中，其第i个查询向量的注意权重β_i的计算公式为：

其中，w_k∈R^d为可学习的参数向量，pi、pj分别表示在基于上下文的感知的键矩阵p中的第i，j个查询向量；

(7)对于全局注意力键向量k，计算公式如下：

其中N为向量个数；

最后，建立注意值矩阵value和全局注意力键向量k之间的交互模型，通过key向量和每个value向量之间的元素乘积得到key-value向量，记为：μ_i，μ_i的计算公式如下：u_i＝k*v_i，其中Vi为注意值矩阵中第i个查询向量；

(8)对于每个key-value向量，利用线性转换层来学习其隐藏表示，其中输出矩阵记为R＝[r₁，r₂，…，r_N]，将得到的R矩阵与查询矩阵Query进一步相加得到Fastformer的权重矩阵输出，记为P＝[p₁，p₂，…，p_N]，通过Fastformer层，最终输出每个字符对应标签类别矩阵记为概率矩阵P_ij，代表i字符对应j标签的概率。

最后将得到的概率矩阵P_ij，通过CRF层学习到句子的前后依赖，从而加入了一些约束来保证最终预测结果有效性，如可能的约束比如：实体的开头应该是BIO标注模式中的“B”而不是“I”或者“O”；

基于所述通过BIO模式的语义标注实体结果，提取所述非结构化数据的知识三元组(x,R,y)，其中x，y表示具体政府治理大数据具体实体，如实体x2：地方一般公共预算收入，实体y2：76.3亿元，实体x2与实体y2之间的联系为：地方一般公共预算收入“达到”76.3亿元，其中“达到”为实体x2与实体y2之间的关系，定义为：R2；

S3.提取政府治理大数据知识三元组(x,R,y)，其中x，y表示具体政府治理大数据具体实体，R表示实体间的具体关系，构建政府治理大数据知识图谱；

提取政府治理大数据知识三元组包括：整合数据的实体关系抽取，构成结构化的政府治理大数据知识三元组(x,R,y)，确定政府治理大数据知识图谱的整体层次结构与模式层，并将所有实体、属性、关系自动存入MySQL数据库中，将结构化的政府治理大数据知识三元组(x,R,y)利用Cypher语句进行操作，存入Neo4j数据库中，并对三元组(x,R,y)进行标注区分，完成政府治理大数据的可视化展示，构建政府治理大数据知识图谱。

在本实施例中，MySQL是一种关系型数据库管理系统，关系数据库将数据保存在不同的表中，政府治理大数据知识图谱采用Neo4j进行存储，Neo4j是一个高性能的NOSQL图形数据库，它将结构化数据存储在网络上而不是表中，它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎。

Cypher是Neo4j图像数据库查询语言，与SQL查询语句相类似，Cypher语句通过模式匹配图像数据库中的节点与关系，通常利用MATCH关键字、WHERE关键字、RETURN关键字对Neo4j进行数据的增删改查操作，如通过以下Cypher语句：具体的针对政府治理大数据知识图谱中Cypher语句具体功能实现图如图4所示；

MATCH p＝(a)-[*]->(b)WHERE a.name＝“湖北省武汉市洪山区2020年政府工作报告”and b.name＝“教育”RETURN p，可以查询到2020年洪山区政府工作报告中有关教育类的政府治理信息与事件；

MATCH(n:Type{name：“教育”})delete n，对教育类的政府治理信息与事件进行删除；

CREATE(n:Type{name:“农业”}),新增农业类的政府治理信息与事件节点。

根据知识图谱各个实体、属性以及路径关系网，联合Cypher语句查询操作，实现政府治理大数据知识问答系统交互。

本发明实施例还提供一种大数据知识图谱构建系统，包括：获取模块、划分模块、提取模块和融合模块，

提取模块，用于提取政府治理大数据知识三元组(x,R,y)，其中x，y表示具体政府治理大数据具体实体，R表示实体间的具体关系，构建政府治理大数据知识图谱；

可以理解的是，本发明提供的一种大数据知识图谱构建系统与前述各实施例提供的大数据知识图谱构建方法相对应，一种大数据知识图谱构建系统的相关技术特征可参考一种大数据知识图谱构建方法的相关技术特征，在此不再赘述。

本发明实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如下步骤：

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种大数据知识图谱构建方法，用于政府治理对大数据进行分析，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种大数据知识图谱构建方法，其特征在于，所述获取政府治理大数据的结构化数据、半结构化数据和非结构化数据包括：

3.根据权利要求1所述的一种大数据知识图谱构建方法，其特征在于，所述分别对政府治理大数据的结构化数据、半结构化数据和非结构化数据进行实体关系抽取包括：

4.根据权利要求3所述的一种大数据知识图谱构建方法，其特征在于，所述利用规则模板提取知识三元组包括：

提取构建规则模板所需的关键词，构建关键词集；

利用关键词集匹配结构化或半结构化数据中对应的标志词；

5.根据权利要求3所述的一种大数据知识图谱构建方法，其特征在于，所述若数据为非结构化数据，利用加性实体关系提取知识三元组包括以下步骤：

6.根据权利要求1所述的一种大数据知识图谱构建方法，其特征在于，所述提取政府治理大数据知识三元组(x,R,y)包括：

7.根据权利要求1所述的一种大数据知识图谱构建方法，其特征在于，所述完成政府治理大数据知识问答系统的环境搭建、需求分析、整体模块设计、功能实现包括：

8.一种大数据知识图谱构建系统，其特征在于，包括：获取模块、划分模块、提取模块和融合模块，

9.一种电子设备，其特征在于，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7任一项所述的一种大数据知识图谱构建方法的步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机管理类程序，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的一种大数据知识图谱构建方法的步骤。