CN107704637B

CN107704637B - 一种面向突发事件的知识图谱构建方法

Info

Publication number: CN107704637B
Application number: CN201711158208.6A
Authority: CN
Inventors: 刘忠; 霍家欣; 王涛; 冯旸赫; 程光权; 黄金才; 陈发君; 朱先强
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2017-11-20
Filing date: 2017-11-20
Publication date: 2019-12-13
Anticipated expiration: 2037-11-20
Also published as: CN107704637A

Abstract

本发明公开一种面向突发事件的知识图谱构建方法，包括以下步骤：从互联网上收集文档数据，并同时判断文档数据质量以决定是否进行深层次收集；从所收集文档数据中抽取出突发事件的实体和关系，通过匹配将实体用关系连接起来；将所抽取的实体聚成多个实体簇，构建突发事件的知识图谱模式层；构建实体簇中每个实体的子图谱；最后合并子图谱，得到面向突发事件的知识图谱。本发明将知识图谱引入突发事件领域，有助于突发事件的知识查询学习和在突发事件发生后辅助应急方案的制定，本发明方法可提高数据的获取质量和获取效率，减少人力成本，降低构建知识图谱的复杂性，并提升构建知识图谱的质量。

Description

一种面向突发事件的知识图谱构建方法

技术领域

本发明涉及语义网络领域，特指一种面向突发事件的知识图谱构建方法。

背景技术

突发事件的处置一直是社会关注的重点问题。突发事件的处置要十分小心，如果忽略引发突发事件物质的特性，哪怕是微小的一点，都有可能引发灾难事故的发生，灾难事故的后果无法预期，往往给社会带来巨大影响。目前突发事件研究主要针对求援方案的制定和优化，或者采用现代的监控手段进行实时监控预防，但突发事件具有复杂性和难以控制性，目前的方法并不能很好地应对突发事件。例如在危险品存储或运输过程中，通常使用电子监控系统监控危险品是否发生不良反应，实时监控，只有在事件发生后才会进行异常报警，忽略了基础部分，并不能从根源预防。而且，检测系统也不能在突发事件后续处理过程中为提供事故决策方面的帮助。如何更好地应对突发事件是整个社会急需解决的难题。

近年来，知识图谱逐渐成为一个新的研究领域。知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，揭示知识领域的动态发展规律，为学科研究提供切实的、有价值的参考。迄今为止，其实际应用在发达国家已经逐步拓展并取得了较好的效果，但它在我国仍属研究的起步阶段。

知识图谱强大的语义表示能力很适合非常规突发事件涉及的复杂关系表示，但目前非常规突发事件相关领域基于知识图谱构建方法的研究几乎处于空白阶段。现有的知识图谱构建技术只能达到对一般常规知识图谱的构建，而且关系较为简单，方法的可移植性差，实用性存在明显的局限性。目前在对突发事件相关知识的获取依然是采用传统的方法，获取效率低，不能实现相关信息的快速查询和吸收，也不能在突发事件发生时对应急方案的制定起到辅助作用。所以，设计基于知识图谱的更加有效的突发事件应对方法是亟待解决的问题。

发明内容

本发明为克服上述情况不足，提供一种可快速有效完成某些突发事件知识图谱构建，实现快速查询突发事件相关信息，对突发事件的发生起到预防作用或在突发事件发生时对应急方案的制定起到辅助作用的面向突发事件的知识图谱构建方法。

为解决上述问题，本发明所采用的技术方案是：

一种面向突发事件的知识图谱构建方法，包括以下几个步骤：

步骤1：使用框架爬虫技术从互联网上收集与突发事件相关的文档数据，并通过基于TFIDF文档相似度的方法判断文档数据质量，决定是否继续进行深层次链接文档数据爬取；

步骤2：建立突发事件领域的分词词库和停用词词库，将分词词库中描述突发事件的实体以及连接实体之间的关系分别标记为名词和动词，并根据标记的名词和动词从所收集的文档数据中抽取突发事件的实体和关系，通过匹配将实体用关系连接起来；

步骤3：构建本体，通过聚类操作将所抽取的实体聚成多个不同的实体簇，每个实体簇包含若干个实体，对比百科中该突发事件词条的描述结构构建出该突发事件的知识图谱模式层；

步骤4：根据步骤2中所抽取的突发事件的实体和关系，找到与实体簇中某个实体对应的文档，并通过K-近邻方法找出该实体对应的文档中与该实体相近的描述词，通过匹配建立实体与相近描述词的关系，得到子图谱。

步骤5：合并子图谱，连接所有子图谱，完成知识合并，得到面向突发事件的知识图谱。

作为本发明的进一步改进：

进一步地，所述步骤1中基于TFIDF文档相似度的方法判断文档数据质量的具体步骤是：

步骤1.1：建立数据质量判断模型，如公式(1)所示：

其中，S_i,m'表示第i层的第m'篇文档与当前已经爬取的所有文档的相似度，S_i-1,m表示第i-1层的第m篇文档与当前已经爬取的所有文档的相似度，S_i,m',k表示第i层的第m'篇文档与同层第k篇文档的相似度，其中第m'篇文档的链接在第m篇文档中，W_i和p_i表示第i层设定的权重大小。

步骤1.2：设定阈值σ，当待判断文档和其他文档的相似度S_i,m'小于阈值σ时，认为网络爬取的该篇文档不符合条件，并统计该层不符合条件的文档数量a_i，以及该层待判断文档中与当前所有文档相同的文档数量b_i。

步骤1.3：统计该层文档的所有数量N_i，计算爬取该层文档的不合格率(a_i+b_i)/N_i，设定阈值p，判断是否对该层文档的链接继续爬取，不合格文档率大于阈值p，则停止对下一层文档的数据爬取。

进一步地，所述步骤2中的分词词库在爬取文档时用于标记文档中属于分词词库中词的词性，出现在文档中属于停用词词库中的词则直接删除。

进一步地，所述步骤3中聚类操作的具体方法是：

步骤3.1：对抽取的实体使用深度神经网络语言模型进行词训练，获得包含语义和语法特征词的分布式表达；

步骤3.2：在完成词分布式表达基础上，对实体采用K-均值无监督方法进行聚类；

进一步地，所述步骤4中构建子图谱的方法中还使用了映射，映射的具体方法是：首先找到某个实体对应的文档，然后通过链接找出与该文档相似的研究论文文档，并建立该实体与这些文档之间的映射。

进一步地，所述步骤5中合并的具体方法是指：如果两个子图谱都包含实体a，则将一个子图谱中和实体a连接的实体b与另一个子图谱中的实体a相连，完成子图谱合并；如果某个子图谱中实体与其他子图谱中实体没有相同的，则通过计算候选子图谱与待合并子图谱的相似度进行合并。

进一步地，所述计算候选子图谱与待合并子图谱的相似度的具体方法是：

步骤5.1：所爬取的文档数据和上层文档中的链接相对应，分为同层链接的文档和不同层链接的文档。

步骤5.2：某个子图谱对应知识图谱中的文档M，另一个子图谱对应知识图谱中的文档N，两个子图谱中没有相同的实体，计算文档M中实体和文档N中实体以及第i层其他文档中所有实体的相似度，选取出与待合并子图谱整体相似度最大的候选子图谱，具体公式如下：

其中，m_k表示与待合并子图谱相似度最大的候选子图谱，m₁和m_t分别表示第1个和第t个候选子图谱，|m₁|和|m_t|分别表示第1个和第t个候选子图谱中实体的个数，i表示待合并子图谱中的实体，n表示文档M对应的待合并子图谱中的实体的个数，j表示候选子图谱中的实体，s(i,j)表示实体i与实体j的相似度。

其中，l表示文档M对应的待合并子图谱中的实体与候选子图谱中所有实体相似度最大的实体，|m_k|表示与待合并子图谱相似度最大的候选子图谱中实体的个数；

l'＝argmax{s(j,l)}(j＝1,2,...,|m_k|) (4)

其中，l'表示候选子图谱中实体与实体l相似度之和最大的实体，将文档M对应的待合并子图谱中的实体l与候选子图谱m_k中的实体l'相连，并作一定的标记说明是通过模型计算得出；

步骤5.3：将相似度最高的文档所对应的候选子图谱与文档M对应的待合并子图谱进行合并。

本发明的有益效果：(1)从互联网上收集数据的同时判断文档数据质量，决定是否继续进行深层次链接文档数据爬取，可以减少不必要的工作，提高数据的获取质量和获取效率；(2)本发明的数据收集方法在构建其他领域知识图谱过程中同样适用；(3)本发明通过聚类统计归纳建立指导数据层的本体，无需相关领域专家的协助，减少人力成本；(4)通过先建立子图谱，之后根据子图谱合并原则完成合并，降低构建的复杂性和提升构建的质量，有助于突发事件的知识查询学习和在突发事件发生后辅助应急方案的制定。

附图说明

图1是本发明方法的流程图；

图2是收集文档数据并同时判断文档数据质量的流程图；

图3是危险品的知识图谱模式层示意图；

图4是针对某种物质的子图谱示意图；

图5是含有相同实体子图谱的合并示意图；

图6是文档层次关系示意图。

具体实施方式

下面结合附图和具体实施对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例提供一种面向突发事件的知识图谱构建方法，如图1方法流程图所示，以危险品为例，该方法包括如下步骤：

步骤1：使用框架爬虫技术从互联网上收集与突发事件相关的文档数据，并通过基于TFIDF文档相似度的方法判断文档数据质量，决定是否继续进行深层次链接文档数据爬取，具体流程如图2所示；其中基于TFIDF文档相似度的方法判断文档数据质量的具体步骤是：

步骤1.1：建立数据质量判断模型，如公式(1)所示：

步骤1.2：设定阈值σ，当待判断文档和其他文档的相似度S_i,m'小于阈值σ时，认为网络爬取的该篇文档不符合条件，并统计在该层不符合条件的文档数量a_i，以及该层文档与当前所有文档相同的文档数量b_i。

在整个文档数据获取过程中，同时判断获取文档数据的质量，并决定是否继续进行深层次链接数据爬取，可以提高数据的获取质量和获取效率，减小后期文档分析处理的工作量。本发明中的数据收集方法在构建其他领域知识图谱过程中同样适用。

步骤2：建立突发事件领域的分词词库和停用词词库，将分词词库中描述突发事件的实体以及连接实体之间的关系分别标记为名词和动词，并根据标记的名词和动词从所收集的文档数据中抽取突发事件的实体和关系，通过匹配将实体用关系连接起来。分词词库在爬取文档时用于标记文档中属于分词词库中词的词性，出现在文档中属于停用词词库中的词则直接删除。

建立针对危险品领域的词库可以使抽取的信息更加精准，采用词性标记可以提高危险品领域相关信息抽取的准确率和召回率，而且根据词性抽取信息时面向每一篇子文档，保证了相关的描述主要是针对一个实体，降低复杂性。

步骤3：构建本体，通过聚类操作将所抽取的实体聚成多个不同的实体簇，每个实体簇包含若干个实体，对比百科中该突发事件词条的描述结构构建出该突发事件的知识图谱模式层，如图3所示。

其中聚类操作的具体方法是：

步骤3中构建本体无需相关领域专家的参与，打破建立专业领域知识图谱需要领域专家的限制。

步骤4：根据步骤2中所抽取的突发事件的实体和关系，找到与实体簇中某个实体对应的文档，并通过K-近邻方法找出该实体对应的文档中与该实体相近的描述词，通过匹配建立实体与相近描述词的关系，得到子图谱，针对危险品的知识图谱中某种物质的子图谱结构如图4所示。此外在构建子图谱的方法中还使用了映射，具体方法是：首先找到某个实体对应的文档，然后通过链接找出与该文档相似的研究论文文档，并建立该实体与这些文档之间的映射。通过步骤4有针对性地建立一篇文档中某个实体的子图谱，可以提升知识图谱质量。所使用的映射方法可以对实体进行更为详细的阐述，实现知识图谱既满足一般性突发事件涉及相关项的相关知识了解，又可以满足专业研究者的研究需求。

步骤5：合并子图谱，连接所有子图谱，完成知识合并，得到面向突发事件的知识图谱。其中合并的具体方法是指：如图5所示，如果两个子图谱都包含实体a，则将一个子图谱中和实体a连接的实体b与另一个子图谱中的实体a相连，完成子图谱合并；如果某个子图谱中实体与其他子图谱中实体没有相同的，则通过计算候选子图谱与待合并子图谱的相似度进行合并，文档层次关系如图6所示。

计算候选子图谱与待合并子图谱的相似度的具体方法是：

l'＝argmax{s(j,l)}(j＝1,2,...,|m_k|) (4)

本发明先构建子图谱，再合并子图谱得到知识图谱，可以提高知识图谱的构建质量，同时降低构建的复杂性。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种面向突发事件的知识图谱构建方法，其特征在于：包括以下步骤：

步骤4：根据步骤2中所抽取的突发事件的实体和关系，找到与实体簇中某个实体对应的文档，并通过K-近邻方法找出该实体对应的文档中与该实体相近的描述词，通过匹配建立实体与相近描述词的关系，得到子图谱；

步骤5：合并子图谱，连接所有子图谱，完成知识合并，得到面向突发事件的知识图谱；

所述步骤1中基于TFIDF文档相似度的方法判断文档数据质量的具体步骤是：

步骤1.1：建立数据质量判断模型，如公式(1)所示：

其中，S_i,m'表示第i层的第m'篇文档与当前已经爬取的所有文档的相似度，S_i-1,m表示第i-1层的第m篇文档与当前已经爬取的所有文档的相似度，S_i,m',k表示第i层的第m'篇文档与同层第k篇文档的相似度，其中第m'篇文档的链接在第m篇文档中，W_i和p_i表示第i层设定的权重大小；

步骤1.2：设定阈值σ，当待判断文档和其他文档的相似度S_i,m'小于阈值σ时，认为网络爬取的该篇文档不符合条件，并统计该层不符合条件的文档数量a_i，以及该层待判断文档中与当前所有文档相同的文档数量b_i；

步骤1.3：统计该层文档的所有数量N_i，计算爬取该层文档的不合格率(a_i+b_i)/N_i，设定阈值p，判断是否对该层文档的链接继续爬取，不合格率大于阈值p，则停止对下一层文档的数据爬取。

2.根据权利要求1所述的一种面向突发事件的知识图谱构建方法，其特征在于：所述步骤2中的分词词库在爬取文档时用于标记文档中属于分词词库中词的词性，出现在文档中属于停用词词库中的词则直接删除。

3.根据权利要求2所述的一种面向突发事件的知识图谱构建方法，其特征在于：所述步骤3中聚类操作的具体方法是：

步骤3.2：在完成词分布式表达基础上，对实体采用K-均值无监督方法进行聚类。

4.根据权利要求1所述的一种面向突发事件的知识图谱构建方法，其特征在于：所述步骤4中构建子图谱的方法中还使用了映射，映射的具体方法是：首先找到某个实体对应的文档，然后通过链接找出与该文档相似的研究论文文档，并建立该实体与这些文档之间的映射。

5.根据权利要求1所述的一种面向突发事件的知识图谱构建方法，其特征在于：所述步骤5中合并的具体方法是指：如果两个子图谱都包含实体a，则将一个子图谱中和实体a连接的实体b与另一个子图谱中的实体a相连，完成子图谱合并；如果某个子图谱中实体与其他子图谱中实体没有相同的，则通过计算候选子图谱与待合并子图谱的相似度进行合并。

6.根据权利要求5所述的一种面向突发事件的知识图谱构建方法，其特征在于：所述计算候选子图谱与待合并子图谱的相似度的具体方法是：

步骤5.1：所爬取的文档数据和上层文档中的链接相对应，分为同层链接的文档和不同层链接的文档；

其中，m_k表示与待合并子图谱相似度最大的候选子图谱，m₁和m_t分别表示第1个和第t个候选子图谱，|m₁|和|m_t|分别表示第1个和第t个候选子图谱中实体的个数，i表示待合并子图谱中的实体，n表示文档M对应的待合并子图谱中的实体的个数，j表示候选子图谱中的实体，s(i,j)表示实体i与实体j的相似度；

l'＝argmax{s(j,l)} (j＝1,2,...,|m_k|) (4)