CN110598005A

CN110598005A - 一种面向公共安全事件的多源异构数据知识图谱构建方法

Info

Publication number: CN110598005A
Application number: CN201910842031.4A
Authority: CN
Inventors: 李文波; 王海雷; 吴雪莲; 卢鹏程; 常一帆; 孙晓晴
Original assignee: Hefei Technology Innovation Engineering Institute of CAS
Current assignee: Hefei Technology Innovation Engineering Institute of CAS
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2019-12-20
Anticipated expiration: 2039-09-06
Also published as: CN110598005B

Abstract

本发明涉及一种面向公共安全事件的多源异构数据知识图谱构建方法，与现有技术相比解决了公共安全事件涉及数据量太大难以归纳分析的缺陷。本发明包括以下步骤：基础数据的获取；对公共安全事件多源异构数据进行实体识别及关系抽取；构建公共安全事件骨干实体知识图谱；构建公共安全事件的多源异构数据知识图谱。本发明通过对多源异构数据的处理，对公共安全事件的表达在各个方面都有数据支撑，利用准确、大量的数据使得对公共安全事件构建知识图谱的专业性能有所提高。

Description

一种面向公共安全事件的多源异构数据知识图谱构建方法

技术领域

本发明涉及数据语义分析技术领域，具体来说是一种面向公共安全事件的多源异构数据知识图谱构建方法。

背景技术

自2012年谷歌发布知识图谱以来，知识图谱一直因其强大的事件表达能力、关系联系能力、信息快速搜索能力和知识推理能力，被广泛应用于各种人工智能方向，例如问答机器人、智能搜索引擎等。知识图谱是语义网络和数据库的结合，由海量的三元组数据(实体，关系，实体)组成，实体与关系之间是有方向的，这种形式可以快速获取与事物相关的所有知识。

在公共安全领域，由于公共安全事件数据是从各个渠道获取，导致数据包含结构型数据、半结构化数据和非结构型数据，而且数据的质量不同，很难达到对公共安全事件的完好表达。

那么，如何将知识图谱应用于公共安全事件，以知识图谱强大的事件表达、关系互联以及知识推理能力实现公共安全事件的技术展示，已经成为急需解决的技术问题。

发明内容

本发明的目的是为了解决现有技术中公共安全事件涉及数据量太大难以归纳分析的缺陷，提供一种面向公共安全事件的多源异构数据知识图谱构建方法来解决上述问题。

为了实现上述目的，本发明的技术方案如下：

一种面向公共安全事件的多源异构数据知识图谱构建方法，包括以下步骤：

基础数据的获取：获取公共安全事件多源异构数据；

对公共安全事件多源异构数据进行实体识别及关系抽取；

构建公共安全事件骨干实体知识图谱：根据公共安全事件所属领域，基于地理空间原理构建公共安全事件骨干实体知识图谱；

构建公共安全事件的多源异构数据知识图谱：根据公共安全事件所属部门提供的资料对骨干知识图谱进行属性关系补充，实现结构化、半结构化、非结构化知识的抽取，构建完备的公共安全事件的多源异构数据知识图谱。

所述对公共安全事件多源异构数据进行实体识别及关系抽取包括以下步骤：

对公共安全事件多源异构数据利用bert模型进行实体识别，

使用结巴分词器将公共安全事件的结构化数据进行预处理，再用bert模型进行训练，最后得到关于公共安全事件的bert模型，在bert输出端加入softmax分类器，解决公共安全事件中多个相近实体的区分；

对公共安全事件多源异构数据进行关系抽取：

使用双向LSTM神经网络模型加入Attention机制方法对对公共安全事件多源异构数据进行关系抽取，Attention机制用于自动发现那些对于分类起到关键作用的词，使得双向LSTM神经网络模型模型从每个句子中捕获最重要的语义信息，将双向LSTM神经网络模型设置为5层结构。

所述构建公共安全事件骨干实体知识图谱包括以下步骤：

根据公共安全事件数据中的数据模式形式，提取本体知识，构建公共安全事件的本体库，公共安全事件的本体库的形式为{实体，关系，实体}；

对结构化数据进行图映射或者D2R数据转换，得到三元组数据；

对半结构化数据进行制作三元组数据提取模板，通过模板抽取器提取数据，得到三元组数据；

对非结构化数据进行实体关系提取，得到三元组数据；

将得到的三元组数据与本体库中对应的本体知识进行本体对齐操作，消除同义词、近义词实体，对三元组实体进行实体匹配操作，消去重复实体；

使用图数据库软件Neo4j保存得到的三元组数据，构成公共安全事件骨干实体知识图谱。

所述构建公共安全事件的多源异构数据知识图谱包括以下步骤：

对公共安全事件所属部门所提供资料数据进行分块，利用主题模型LDA对数据库中实体进行聚类，得到K个主题；

将每个实体映射到K维主题空间，用主题向量进行表示；

对结构化、半结构化、非结构化数据进行实体识别，通过计算实体相似性来判断实体是否是同一个实体，得到对应实体的向量表达：

实体相似性采用基于相似性函数的特征匹配方法，在多数据源实体对齐过程中两个实体e₁和e₂的相似性函数定义为：

sim(e₁,e₂)＝(1-α)sim_semantic(e₁,e₂)+αsim_NB(e₁,e₂)，

其中，sim_semantic(e₁,e₂)是实体对语义相似性计算函数，sim_NB(e₁,e₂)是实体对属性结构相似性函数，0＜α＜1为两者的调节因子，用于调节两相似性的比重；

利用Trans系列知识推理模型，对不具有实体对齐的实体进行知识推理，推理出相应的实体向量和关系向量，在公共安全事件骨干实体知识图谱基础上补充出完备的公共安全事件的多源异构数据知识图谱。

所述的双向LSTM神经网络模型5层结构设置方法如下：

设定第一层为输入层：将句子输入到模型中；

设定第二层为Embedding层：将每个词映射到低维空间；

设定第三层为LSTM层：使用双向LSTM从Embedding层获取高级特征；

其中LSTM层包含四个部分：

输入门：包含了当前输入、上一个隐状态、上一个细胞状态，组成权重矩阵，以决定加入多少新信息：i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)；

遗忘门：包含了当前输入、上一个隐状态、上一个细胞状态，组成权重矩阵，决定丢弃多少旧信息：f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)；

细胞状态：包含了上一个细胞状态以及基于当前输入和上个隐状态信息生成的新信息：c_t＝i_tg_t+f_tc_t-1

g_t＝tanh(W_xcx_t+W_hch_t-1+W_ccc_t-1+b_c)；

输出门：包含了当前输入、上一个隐状态、当前细胞状态，组成权重矩阵，以决定哪些信息被输出：o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)；

输出的当前隐状态则由当前细胞状态乘以输出们的权重矩阵得到：

h_t＝o_ttanh(c_t)；

设定第四层为Attention层：生成一个权重向量，通过与这个权重向量相乘，使每一次迭代中的词汇级的特征合并为句子级的特征；

将LSTM层输入的向量集合表示为H:[h₁,h₂,...,h_T]，

其Attention层得到的权重矩阵由下面的方式得到：

M＝tanh(H)

α＝softmax(w^TM)

r＝Hα^T，

其中d^w为词向量的维度；

设定第五层为输出层：将句子级的特征向量用于关系分类，以分类的句子将表示如下：

h^*＝tanh(r)，经过softmax分类器分类得到关系向量并输出。

有益效果

本发明的一种面向公共安全事件的多源异构数据知识图谱构建方法，与现有技术相比通过对多源异构数据的处理，对公共安全事件的表达在各个方面都有数据支撑，利用准确、大量的数据使得对公共安全事件构建知识图谱的专业性能有所提高；通过利用地理知识原理对公共安全事件的表达有一个完整的，包含时间和空间属性实体的构建知识图谱的方法，进一步完善知识图谱的准确；通过使用公共安全领域的专业知识来获得知识图谱，可以进行高效、准确的知识推理，进一步完善公共安全事件知识图谱的专业性。

本发明将公共安全事件的海量大数据变为三元组形式，对公共安全事件的表达得到提升，进一步利用知识图谱的知识推理能力，对公共安全事件进行分析判断。

附图说明

图1为本发明的方法顺序图。

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识，用以较佳的实施例及附图配合详细的说明，说明如下：

如图1所示，本发明所述的一种面向公共安全事件的多源异构数据知识图谱构建方法，包括以下步骤：

第一步，基础数据的获取：获取公共安全事件多源异构数据。

第二步，对公共安全事件多源异构数据进行实体识别及关系抽取。

利用获取到的公共安全事件多源异构数据，从中提取实体和关系，针对结构化的数据，通过建立数据库中概念和知识图谱中的本体的映射关系得到相关的规则抽取器进行抽取，对于半结构化数据则是建立相关模板抽取器进行抽取，而对于非结构化数据，则可以先根据结构化数据和半结构化数据所建立的知识图谱进行训练集的抽取，利用深度学习方法来训练出相应的公共安全知识表达抽取器。其具体步骤如下：

(1)对公共安全事件多源异构数据利用bert模型进行实体识别，

使用结巴分词器将公共安全事件的结构化数据进行预处理，再用bert模型进行训练，最后得到关于公共安全事件的bert模型，这使得该模型对于公共安全领域极为敏感。因为bert在实体识别方面有下游接口，所以只要加入起始和结束的符号，对于最后BERT每个位置的输出都加入一个线性的分类器就可以了。不过在使用bert的时候，在bert输出端加入softmax分类器，解决公共安全事件中多个相近实体的区分。

(2)对公共安全事件多源异构数据进行关系抽取：

双向LSTM神经网络模型5层结构设置方法如下：

A1)设定第一层为输入层：将句子输入到模型中；

A2)设定第二层为Embedding层：将每个词映射到低维空间；

A3)设定第三层为LSTM层：使用双向LSTM从Embedding层获取高级特征；

其中LSTM层包含四个部分：

A31)输入门：包含了当前输入、上一个隐状态、上一个细胞状态，组成权重矩阵，以决定加入多少新信息：i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)；

A32)遗忘门：包含了当前输入、上一个隐状态、上一个细胞状态，组成权重矩阵，决定丢弃多少旧信息：f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)；

A33)细胞状态：包含了上一个细胞状态以及基于当前输入和上个隐状态信息生成的新信息：c_t＝i_tg_t+f_tc_t-1

g_t＝tanh(W_xcx_t+W_hch_t-1+W_ccc_t-1+b_c)；

A34)输出门：包含了当前输入、上一个隐状态、当前细胞状态，组成权重矩阵，以决定哪些信息被输出：o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)；

A35)输出的当前隐状态则由当前细胞状态乘以输出们的权重矩阵得到：

h_t＝o_ttanh(c_t)；

A4)设定第四层为Attention层：生成一个权重向量，通过与这个权重向量相乘，使每一次迭代中的词汇级的特征合并为句子级的特征；

将LSTM层输入的向量集合表示为H:[h₁,h₂,...,h_T]，

其Attention层得到的权重矩阵由下面的方式得到：

M＝tanh(H)

α＝softmax(w^TM)

r＝Hα^T，

其中d^w为词向量的维度；

A5)设定第五层为输出层：将句子级的特征向量用于关系分类，以分类的句子表示如下：

h^*＝tanh(r)，经过softmax分类器分类得到关系向量并输出。

第三步，构建公共安全事件骨干实体知识图谱。根据公共安全事件所属领域，基于地理空间原理构建公共安全事件骨干实体知识图谱。其具体步骤如下：

(1)根据公共安全事件数据中的数据模式形式，提取本体知识，构建公共安全事件的本体库，公共安全事件的本体库的形式为{实体，关系，实体}。

对公共安全事件知识图谱进行构建，先构建公共安全事件的本体知识库，就是数据的模式信息。根据公共安全数据中的一些数据模式形式，提取本体知识，构建公共安全事件的本体库。通过公共安全事件的本体库，可以快速分析数据是否是关于公共安全事件。

(2)对结构化数据进行图映射或者D2R数据转换，得到三元组数据。

(3)对半结构化数据进行制作三元组数据提取模板，通过模板抽取器提取数据，得到三元组数据。

(4)对非结构化数据进行实体关系提取，得到三元组数据。

(5)将得到的三元组数据与本体库中对应的本体知识进行本体对齐操作，消除同义词、近义词实体，对三元组实体进行实体匹配操作，消去重复实体。

(6)使用图数据库软件Neo4j保存得到的三元组数据，构成公共安全事件骨干实体知识图谱。

第四步，构建公共安全事件的多源异构数据知识图谱。

根据公共安全事件所属部门提供的资料对骨干知识图谱进行属性关系补充，实现结构化、半结构化、非结构化知识的抽取，构建完备的公共安全事件的多源异构数据知识图谱。其具体步骤如下：

(1)对公共安全事件所属部门所提供资料数据进行分块，利用主题模型LDA对数据库中实体进行聚类，得到K个主题。

(2)将每个实体映射到K维主题空间，用主题向量进行表示。

(3)对结构化、半结构化、非结构化数据进行实体识别，通过计算实体相似性来判断实体是否是同一个实体，得到对应实体的向量表达：

sim(e₁,e₂)＝(1-α)sim_semantic(e₁,e₂)+αsim_NB(e₁,e₂)，

其中，sim_semantic(e₁,e₂)是实体对语义相似性计算函数，sim_NB(e₁,e₂)是实体对属性结构相似性函数，0＜α＜1为两者的调节因子，用于调节两相似性的比重。

(4)利用Trans系列知识推理模型，对不具有实体对齐的实体进行知识推理，推理出相应的实体向量和关系向量，在公共安全事件骨干实体知识图谱基础上补充出完备的公共安全事件的多源异构数据知识图谱。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种面向公共安全事件的多源异构数据知识图谱构建方法，其特征在于，包括以下步骤：

11)基础数据的获取：获取公共安全事件多源异构数据；

12)对公共安全事件多源异构数据进行实体识别及关系抽取；

13)构建公共安全事件骨干实体知识图谱：根据公共安全事件所属领域，基于地理空间原理构建公共安全事件骨干实体知识图谱；

14)构建公共安全事件的多源异构数据知识图谱：根据公共安全事件所属部门提供的资料对骨干知识图谱进行属性关系补充，实现结构化、半结构化、非结构化知识的抽取，构建完备的公共安全事件的多源异构数据知识图谱。

2.根据权利要求1所述的一种面向公共安全事件的多源异构数据知识图谱构建方法，其特征在于，所述对公共安全事件多源异构数据进行实体识别及关系抽取包括以下步骤：

21)对公共安全事件多源异构数据利用bert模型进行实体识别，

22)对公共安全事件多源异构数据进行关系抽取：

使用双向LSTM神经网络模型加入Attention机制方法对公共安全事件多源异构数据进行关系抽取，Attention机制用于自动发现那些对于分类起到关键作用的词，使得双向LSTM神经网络模型模型从每个句子中捕获最重要的语义信息，将双向LSTM神经网络模型设置为5层结构。

3.根据权利要求1所述的一种面向公共安全事件的多源异构数据知识图谱构建方法，其特征在于，所述构建公共安全事件骨干实体知识图谱包括以下步骤：

31)根据公共安全事件数据中的数据模式形式，提取本体知识，构建公共安全事件的本体库，公共安全事件的本体库的形式为{实体，关系，实体}；

32)对结构化数据进行图映射或者D2R数据转换，得到三元组数据；

33)对半结构化数据进行制作三元组数据提取模板，通过模板抽取器提取数据，得到三元组数据；

34)对非结构化数据进行实体关系提取，得到三元组数据；

35)将得到的三元组数据与本体库中对应的本体知识进行本体对齐操作，消除同义词、近义词实体，对三元组实体进行实体匹配操作，消去重复实体；

36)使用图数据库软件Neo4j保存得到的三元组数据，构成公共安全事件骨干实体知识图谱。

4.根据权利要求1所述的一种面向公共安全事件的多源异构数据知识图谱构建方法，其特征在于，所述构建公共安全事件的多源异构数据知识图谱包括以下步骤：

41)对公共安全事件所属部门所提供资料数据进行分块，利用主题模型LDA对数据库中实体进行聚类，得到K个主题；

42)将每个实体映射到K维主题空间，用主题向量进行表示；

43)对结构化、半结构化、非结构化数据进行实体识别，通过计算实体相似性来判断实体是否是同一个实体，得到对应实体的向量表达：

sim(e₁,e₂)＝(1-α)sim_semantic(e₁,e₂)+αsim_NB(e₁,e₂)，

44)利用Trans系列知识推理模型，对不具有实体对齐的实体进行知识推理，推理出相应的实体向量和关系向量，在公共安全事件骨干实体知识图谱基础上补充出完备的公共安全事件的多源异构数据知识图谱。

5.根据权利要求2所述的一种面向公共安全事件的多源异构数据知识图谱构建方法，其特征在于，所述的双向LSTM神经网络模型5层结构设置方法如下：

51)设定第一层为输入层：将句子输入到模型中；

52)设定第二层为Embedding层：将每个词映射到低维空间；

53)设定第三层为LSTM层：使用双向LSTM从Embedding层获取高级特征；

其中LSTM层包含四个部分：

531)输入门：包含了当前输入、上一个隐状态、上一个细胞状态，组成权重矩阵，以决定加入多少新信息：i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)；

532)遗忘门：包含了当前输入、上一个隐状态、上一个细胞状态，组成权重矩阵，决定丢弃多少旧信息：f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)；

533)细胞状态：包含了上一个细胞状态以及基于当前输入和上个隐状态信息生成的新信息：c_t＝i_tg_t+f_tc_t-1

g_t＝tanh(W_xcx_t+W_hch_t-1+W_ccc_t-1+b_c)；

534)输出门：包含了当前输入、上一个隐状态、当前细胞状态，组成权重矩阵，以决定哪些信息被输出：o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)；

535)输出的当前隐状态则由当前细胞状态乘以输出们的权重矩阵得到：

h_t＝o_ttanh(c_t)；

54)设定第四层为Attention层：生成一个权重向量，通过与这个权重向量相乘，使每一次迭代中的词汇级的特征合并为句子级的特征；

将LSTM层输入的向量集合表示为H:[h₁,h₂,...,h_T]，

其Attention层得到的权重矩阵由下面的方式得到：

M＝tanh(H)

α＝softmax(w^TM)

r＝Hα^T，

其中d^w为词向量的维度；

55)设定第五层为输出层：将句子级的特征向量用于关系分类，以分类的句子表示如下：

h^*＝tanh(r)，经过softmax分类器分类得到关系向量并输出。