CN117454987B

CN117454987B - 基于事件自动抽取的矿山事件知识图谱构建方法及装置

Info

Publication number: CN117454987B
Application number: CN202311786525.8A
Authority: CN
Inventors: 傅德谦; 岳正元; 李章良; 乔中力
Original assignee: Linyi University
Current assignee: Linyi University
Priority date: 2023-12-25
Filing date: 2023-12-25
Publication date: 2024-03-19
Anticipated expiration: 2043-12-25
Also published as: CN117454987A

Abstract

本说明书实施例公开了一种基于事件自动抽取的矿山事件知识图谱构建方法及装置，涉及知识图谱技术领域，用于解决现有事件抽取准确率低的问题，方法包括：基于众包平台对矿山事故事件文本数据进行半自动化标注，获得标注文本数据集；基于BERT预训练的动态多池化卷积神经网络模型，获取标注文本数据集中各数据的词汇级信息以标识获得词汇级特征向量；根据动态多池化卷积神经网络模型捕获句子级信息以标识获得句子级特征向量，拼接词汇级特征向量与句子级特征向量获得特征向量，并输入分类器进行事件触发词的抽取，获得矿山事故事件抽取结果；对矿山事故事件抽取结果进行事件标识，以对矿山事故事件抽取结果进行处理进而映射获得矿山事件知识图谱。

Description

基于事件自动抽取的矿山事件知识图谱构建方法及装置

技术领域

本说明书涉及知识图谱技术领域，尤其涉及一种基于事件自动抽取的矿山事件知识图谱构建方法及装置。

背景技术

知识图谱(Knowledge Graph)，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。具体来说，知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，揭示知识领域的动态发展规律，为学科研究提供切实的、有价值的参考。

由于当前的矿山事故事件多以非结构化的文本形式呈现，要实现对其中的知识的应用，就不可避免地应用事件抽取。然而当前矿山领域的中文事件抽取还处于空白阶段，矿山事故事件触发词、事件元素、元素角色都还没有具体的标准。且由于缺少相应的事故标准数据集，当基于人工批注构建事故标准数据集时仅人工进行事故标准数据集的构建时，效率低且准确率难以保证，进而使得当前进行矿山事件知识图谱构建时的事件抽取准确率低，难以发现矿山所暴露的问题，影响了矿山安全作业与风险防控的工作。

发明内容

为了解决上述技术问题，本说明书一个或多个实施例提供了一种基于事件自动抽取的矿山事件知识图谱构建方法及装置。

本说明书一个或多个实施例采用下述技术方案：

本说明书一个或多个实施例提供一种基于事件自动抽取的矿山事件知识图谱构建方法，方法包括：

基于公开新闻网站爬取矿山事故事件文本数据，对所述矿山事故事件文本数据进行预处理，以对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注，获得矿山事故事件的标注文本数据集；

基于BERT预训练的动态多池化卷积神经网络模型，获取所述标注文本数据集中各数据的词汇级信息，并对所述词汇级信息进行标识获得词汇级特征向量；

根据动态多池化卷积神经网络模型捕获句子级信息，以对所述句子级信息进行标识获得句子级特征向量，并拼接所述词汇级特征向量与句子级特征向量获得特征向量；

将所述特征向量输入分类器进行事件触发词的抽取，获得矿山事故事件抽取结果；

对所述矿山事故事件抽取结果进行事件标识，以基于所述事件标识对所述矿山事故事件抽取结果进行处理，并对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱。

可选地，在本说明书一个或多个实施例中，对所述矿山事故事件文本数据进行预处理，具体包括：

获取各所述矿山事故事件文本数据的数据格式，以基于所述数据格式将所述矿山事故时间文本数据划分到不同的文本数据集；

基于所述BERT预训练模型的输入格式确定所述文本数据集中的待转换数据集，以对所述待转换数据集进行数据转换，获得符合格式的第一文本数据；

对各所述第一文本数据基于摘要算法进行数据去重处理，获得去重后的第二文本数据；

确定所述第二文本数据中的中文字符占比，若确定所述中文字符占比小于预设占比阈值，则对所述第二文本数据进行删除，获得处理后的矿山事故事件文本数据。

可选地，在本说明书一个或多个实施例中，所述对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注，获得矿山事故事件的标注文本数据集，具体包括：

获取各所述处理后的矿山事故事件文本数据的摘要数据，以基于自动化算法确定所述摘要数据所对应的自动化标注；其中，所述自动化标注包括：事件类型标注、事件元素标注；

将所述各所述处理后的矿山事故事件文本数据与所述对应的自动化标注上传到所述众包平台；

基于所述众包平台的人工经验对各所述处理后的矿山事故事件文本数据所对应的自动化标注进行校验，获得矿山事故事件的标注文本数据集。

可选地，在本说明书一个或多个实施例中，所述基于BERT预训练的动态多池化卷积神经网络模型，获取所述标注文本数据集中各数据的词汇级信息，并对所述词汇级信息进行标识获得词汇级特征向量，具体包括：

将所述标注文本数据集中各数据作为输入文本，以将所述输入文本基于词汇单元进行转换获得词汇级序列数据；其中，所述词汇单元为token级单元；

基于所述BERT预训练模型的预设标记算法对所述词汇级序列数据进行拆分，获得所述标注文本数据集中各数据的子单词；其中，所述预设标记算法为：WordPieceTokenization；

基于所述BERT预训练模型的嵌入层确定对各所述子单词进行映射，获得各所述子单词所对应的词汇级特征向量；其中，所述映射向量包含所述子单词的语义信息。

可选地，在本说明书一个或多个实施例中，所述根据动态多池化卷积神经网络模型捕获句子级信息，以对所述句子级信息进行标识获得句子级特征向量，并拼接所述词汇级特征向量与句子级特征向量获得特征向量，具体包括：

根据所述词汇级特征向量确定待分类的候选事件触发词与候选事件元素的位置，以基于所述候选事件触发词与所述候选事件元素的位置，进行动态化句子切分获得句子级信息；

基于动态多池化卷积神经网络模型的嵌入层对所述句子级信息进行映射获得句子级特征向量；

基于全连接层对所述词汇级特征向量与所述句子级特征向量进行拼接，获得特征向量；其中，所述特征向量为，L为词汇级特征向量，P为句子级特征向量。

可选地，在本说明书一个或多个实施例中，将所述特征向量输入分类器进行事件触发词的抽取，获得矿山事故事件抽取结果，具体包括：

确定第一softmax分类器中事件触发词的分类计算公式；其中，所述分类计算公式为：，/>表示转移矩阵，/>表示整个网络的最终输出，V表示所述特征向量；

基于所述分类计算公式确定所述特征向量的分类结果，并基于softmax函数计算当前待分类的候选事件触发词分类结果中，概率最高的事件类型为所述矿山事故事件的事件分类结果；

基于第二softmax分类器对所述事件分类结果的事件元素进行分类，确定所述事件分类结果所对应的事件元素角色，为所述矿山事故事件的元素分类结果；

根据所述事件分类结果与所述元素分类结果，确定所述矿山事故事件抽取结果；

所述根据所述事件分类结果与所述元素分类结果，确定所述矿山事故事件抽取结果之后，所述方法还包括：

基于CRF层确定所述矿山事故事件抽取结果的预测输出标签。

可选地，在本说明书一个或多个实施例中，对所述矿山事故事件抽取结果进行事件标识，以基于所述事件标识对所述矿山事故事件抽取结果进行处理，具体包括：

基于所述矿山事故事件抽取结果进行事件标识，以获取所述矿山事故事件的事件真实性标识与事件共指标识；

若基于所述事件真实性标识确定所述特征向量所对应的矿山事故事件为非真实事件，则对所述矿山事故事件抽取结果中该矿山事故事件进行删除；

若基于所述事件共指性标识，确定特征向量所对应的矿山事故事件为同一事故事件，则对所述特征向量所对应的处理后的矿山事故事件文本数据进行数据合并。

可选地，在本说明书一个或多个实施例中，所述根据动态多池化卷积神经网络模型捕获句子级信息，以对所述句子级信息进行标识获得句子级特征向量之前，所述方法还包括：

确定所述动态多池化卷积神经网络模型的目标函数，以基于所述目标函数对所述动态多池化卷积神经网络模型进行迭代优化；其中，所述目标函数为：

；

其中，θ表示影响事件类型的参数，i表示第i个事件类型，m表示事件类型的总量，x表示输入的特征，y表示要预测的目标，J(θ)表示极大似然估计。

可选地，在本说明书一个或多个实施例中，所述对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱，具体包括：

获取所述处理后的矿山事故事件抽取结果中各矿山事故事件的事件触发词，作为所述矿山事件知识图谱的事件节点；

基于各所述事件节点所对应的特征向量，确定所述矿山事件知识图谱的事件节点的事件关系，以基于所述事件关系确定所述矿山事件知识图谱的边；

对所述事件节点与所述矿山事件知识图谱的边，获得所述矿山事件知识图谱。

本说明书一个或多个实施例提供一种基于事件自动抽取的矿山事件知识图谱构建装置，装置包括：

数据标注单元，用于基于公开新闻网站爬取矿山事故事件文本数据，对所述矿山事故事件文本数据进行预处理，以对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注，获得矿山事故事件的标注文本数据集；

第一向量提取单元，用于基于BERT预训练的动态多池化卷积神经网络模型，获取所述标注文本数据集中各数据的词汇级信息，并对所述词汇级信息进行标识获得词汇级特征向量；

第二向量提取单元，用于根据动态多池化卷积神经网络模型捕获句子级信息，以对所述句子级信息进行标识获得句子级特征向量，并拼接所述词汇级特征向量与句子级特征向量获得特征向量；

抽取单元，用于将所述特征向量输入分类器进行事件触发词的抽取，获得矿山事故事件抽取结果；

映射单元，用于对所述矿山事故事件抽取结果进行事件标识，以基于所述事件标识对所述矿山事故事件抽取结果进行处理，并对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：

基于众包平台进行半自动化标注，获得矿山事故事件的标注文本数据集，基于众包半自动化的方式进行标注即降低了仅基于人工经验进行手动标注带来的高人力成本以及高时间成本，也避免了仅基于自动化算法进行标注时容易脱离人工经验的问题，且解决了现有技术中缺乏矿山事故标准数据集导致的事假抽取准确率低的问题。此外通过基于BERT预训练的动态多池化卷积神经网络模型分别获取词汇级特征向量与句子级特征向量，实现了在损失最重要信息的前提下捕获到更多的事件信息，增加了知识图谱构建的可靠性。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本说明书实施例提供的一种基于事件自动抽取的矿山事件知识图谱构建方法流程示意图；

图2为本说明书实施例提供的一种事件知识图谱构建流程示意图；

图3为本说明书实施例提供的一种事件抽取的模型结构示意图；

图4为本说明书实施例提供的一种基于事件自动抽取的矿山事件知识图谱构建装置内部结构示意图。

具体实施方式

本说明书实施例提供一种基于事件自动抽取的矿山时间知识图谱构建方法及装置。

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

如图1所示，本说明书实施例提供了一种基于事件自动抽取的矿山时间知识图谱构建方法流程示意图。由图1可知，本说明书一个或多个实施例中，一种基于事件自动抽取的矿山时间知识图谱构建方法，具体包括以下步骤：

S101：基于公开新闻网站爬取矿山事故事件文本数据，对所述矿山事故事件文本数据进行预处理，以对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注，获得矿山事故事件的标注文本数据集。

为了能够获得矿山事故标准数据集，解决现有矿山领域的知识图谱由于矿山事故标准数据集的空白导致的事件抽取准确率低的问题。本说明书实施例中，通过公开新闻网站以及本地新闻网站爬取相应的矿山事故事件文本数据，作为后续进行处理分析的基础。需要说明的是：由于矿山事故事件文本数据是在新闻网站上爬取获得的，数据质量不能保证，所以要对爬取获得的矿山事故事件文本数据进行预处理，从而对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注，获得矿山事故事件的标注文本数据集，基于众包半自动化的方式进行标注即降低了仅基于人工经验进行手动标注带来的高人力成本以及高时间成本，也避免了仅基于自动化算法进行标注时容易脱离人工经验的问题。

具体地，在本说明书一个或多个实施例中，对矿山事故事件文本数据进行预处理，具体包括以下步骤：

首先，为了能够对格式错误的进行调整方便进行后续的事件抽取过程，本说明书实施例中获取各矿山事故事件文本数据的数据格式，从而根据不同的数据格式将矿山事故时间文本数据划分到不同的文本数据集中。然后基于BERT预训练的动态多池化卷积神经网络模型的输入格式确定出文本数据集中的待转换数据集，也就是需要与预训练模型的输入格式不一致的需要进行格式转换的文本数据集作为待转换数据集，从而将待转换数据集进行数据转换，获得符合格式的第一文本数据。然后为了对重复冗余数据进行过滤，本说明书实施例中对各第一文本数据基于摘要算法进行数据去重处理，获得去重后的第二文本数据。然后为了去除不符合要求的乱码数据，首先确定出第二文本数据中的中文字符占比，如果确定第二文本数据中的中文字符占比小于预设占比阈值，该占比阈值可以基于实际场景的需求进行设置例如设置为90%，在中文字符占比小于预设占比阈值是说明该第二文本数据可能为乱码数据，因此为了保证知识图谱的准确性与可靠性需要对第二文本数据进行删除，获得处理后的矿山事故事件文本数据。

进一步地，为了降低仅基于人工经验进行手动标注带来的高人力成本以及高时间成本，以及避免仅基于自动化算法进行标注时容易脱离人工经验的问题，在本说明书一个或多个实施例中，对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注，获得矿山事故事件的标注文本数据集，具体包括以下步骤：

首先获取各处理后的矿山事故事件文本数据的摘要数据，从而基于自动化算法确定出摘要数据所对应的自动化标注；其中，需要说明的是自动化算法可以为现有的机器学习算法此处不再加以赘述。而对应的自动化标注包括：事件类型标注与事件元素标注，事件类型标注也就是将文本中的事件触发词与事件类型标记出来，并将该词语作为事件类型所对应的实例，事件元素标注也就是将文本中的事件元素进行标注，并将其与对应的元素角色相关联。通过上述步骤进行自动化标注后为了避免自动化算法陷入局部最优解导致脱离人工经验的问题，本说明书实施例中将各所述处理后的矿山事故事件文本数据与对应的自动化标注上传到矿山领域的众包平台中，以便于基于众包平台的人工经验对各处理后的矿山事故事件文本数据所对应的自动化标注进行进一步地校验，从而获得矿山事故事件的标注文本数据集。

S102：基于BERT预训练的动态多池化卷积神经网络模型，获取所述标注文本数据集中各数据的词汇级信息，并对所述词汇级信息进行标识获得词汇级特征向量。

为了实现基于有监督的机器学习方法对事件进行抽取，实现对于事件触发词的检测与分类以及事件元素的发现及其角色分类。本说明书实施例中通过BERT预训练模型，获取标注文本数据集中各数据的词汇级信息，并对词汇级信息进行编码标识获得词汇级特征向量。具体地，在本说明书一个或多个实施例中，基于BERT预训练的动态多池化卷积神经网络模型，获取标注文本数据集中各数据的词汇级信息，并对词汇级信息进行标识获得词汇级特征向量，具体包括如图3所示词汇级特征向量也就是词向量的提取，包括以下过程：

将标注文本数据集中各数据作为输入文本，以将输入文本基于词汇单元进行转换获得词汇级序列数据；其中，需要说明的是词汇单元为token级单元。然后基于BERT预训练的动态多池化卷积神经网络模型的预设标记算法也就是WordPiece Tokenization，对词汇级序列数据进行拆分，获得标注文本数据集中各数据的子单词。然后通过BERT预训练模型的嵌入层确定对各所述子单词进行映射，获得各子单词所对应的词汇级特征向量。其中，可以理解的是映射向量中包含了子单词的语义信息，通过基于基于BERT的预训练模型进行词嵌入，利用了BERT模型可以考虑到单词的上下文关系，对于歧义语义效果明显的作用，实现了获取词汇级序列数据并标识为词汇级特征向量L的过程。

S103：根据动态多池化卷积神经网络模型捕获句子级信息，以对所述句子级信息进行标识获得句子级特征向量，并拼接所述词汇级特征向量与句子级特征向量获得特征向量。

基于上述步骤获得词汇级特征向量之后，如图3所示的事件抽取模型中还会对句子级表示进行获取，实现对于更多事件信息的获取。因此，本说明书实施例中，根据基于BERT预训练的动态多池化卷积神经网络模型来捕获句子级信息，从而对句子级信息进行编码标识获得句子级特征向量，通过拼接上述过程中获取到的词汇级特征向量与句子级特征向量获得特征向量。具体地，在本说明书一个或多个实施例中，根据动态多池化卷积神经网络模型捕获句子级信息，以对所述句子级信息进行标识获得句子级特征向量，并拼接词汇级特征向量与句子级特征向量获得特征向量，具体包括：

首先根据词汇级特征向量确定待分类的候选事件触发词与候选事件元素的位置，从而根据候选事件触发词与候选事件元素的位置，进行动态化句子切分获得句子级信息。然后基于动态多池化卷积神经网络模型的嵌入层对句子级信息进行映射获得句子级特征向量。同时基于全连接层对词汇级特征向量与句子级特征向量进行拼接，获得特征向量。其中，需要说明的是特征向量为，L为词汇级特征向量，P为句子级特征向量。

S104：将所述特征向量输入分类器进行事件触发词的抽取，获得矿山事故事件抽取结果。

为了获得事件抽取结果，实现为事件触发词分配事件元素，并判定事件元素在相应的事件中扮演的角色。本说明书实施例中将上述过程中获取到的特征向量输入到分类器中进行事件触发词的抽取，从而获得矿山事故事件抽取结果。具体地，在本说明书一个或多个实施例中，将特征向量输入分类器进行事件触发词的抽取，获得矿山事故事件抽取结果，具体包括：

首先如图2所示事件抽取过程包括两个阶段，一个阶段为事件触发词分类过程基于基于BERT预训练的动态多池化卷积神经网络模型对一个句子中的所有词汇进行分类，判断其是否为事件触发词，触发了什么类型的事件，该过程中进行时间抽取时首先确定第一softmax分类器中事件触发词的分类计算公式；其中，需要说明的是分类计算公式为：，/>表示转移矩阵，/>表示整个网络的最终输出，V表示所述特征向量，b表示偏移量。然后基于分类计算公式确定特征向量的分类结果，并基于softmax函数计算当前待分类的候选事件触发词分类结果中，概率最高的事件类型为矿山事故事件的事件分类结果。然后第二个阶段为事件元素检测阶段，在该阶段中基于动态多池化卷积神经网络模型对句子中所有的候选事件元素进行分类，为事件触发词分配事件元素，并判定事件元素在相应的事件中扮演的角色。也就是基于第二softmax分类器对事件分类结果的事件元素进行分类，确定采集事件分类结果所对应的事件元素角色，为矿山事故事件的元素分类结果。根据事件分类结果与元素分类结果，实现为事件触发词也就是事件分类结果分配对应的元素分类结果确定矿山事故事件抽取结果。

具体的，上述事件抽取过程中，基于动态多池化卷积神经网络模型在不损失最重要信息的前提下捕获到更多的事件信息时，其实现步骤如下：

Xi表示第i个词，Xj表示第j个词，用来表示词/>,/>,…,/>的联接。那么，一次卷积操作对应着一个滤波器，每个滤波器的每次卷积都是考虑临近的n个词。那么特征表示/>通过滤波器处理过程得到：

(1)

其中，是一个偏置项，/>是激活函数，w表示权重矩阵，h表示长度。

通过动态多池化针对每个特征序列获得句子级特征L。将词汇级特征和句子级特征拼接成一个向量。分类计算过程为：

O=WV+b(2)

其中，W表示转移矩阵、O表示网络输出、V表示特征向量、b表示偏移量。输入一个样本，参数为/>的网络输出向量/>，则输出向量/>的第/>维/>中的值代表当前待分类事件元素被判定为角色/>的概率。条件概率/>，对元素角色类型采用softmax分类器进行分类：

(3)

其中，i表示第i个事件类型，x表示输入特征值，θ表示参数，表示第k维的输出向量。然后，输入所有的训练样本，针对/>，针对目标函数进行优化：

(4)

最后，为了获得更好的分类结果，本说明书实施例在根据事件分类结果与元素分类结果，确定矿山事故事件抽取结果之后，方法还包括：通过在动态多池化神经网络中加入的CRF层确定出矿山事故事件抽取结果的预测输出标签。

进一步地，为了能够实现对于模型的优化保证事件抽取过程中的分类效果，在本说明书一个或多个实施例中，根据动态多池化卷积神经网络模型捕获句子级信息，以对句子级信息进行标识获得句子级特征向量之前，方法还包括以下过程：

即确定动态多池化卷积神经网络模型的目标函数，以基于目标函数对动态多池化卷积神经网络模型进行迭代优化；其中，所述目标函数为：

；

S105：对所述矿山事故事件抽取结果进行事件标识，以基于所述事件标识对所述矿山事故事件抽取结果进行处理，并对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱。

在对矿山事件知识图谱进行构建之前，由于事件抽取过程中，抽取的成功率不是100%。为了提高事件质量，通过众包半自动化的方式，借助专家知识，对抽取结果进行筛选清洗，从而保证矿山事故事件的抽取质量。也就是说本说明书实施例中对矿山事故事件抽取结果进行事件标识获得事件真实性标识与事件共指标识。可以理解的是事件共指标识指的是因为存在多个新闻描述同一事件的情况，所以在事件抽取之前做标签，指明两个文本数据描述的是同一事件。在抽取结束后根据标签，将描述相同事件的信息进行融合。因此本说明书实施例中在事件抽取之后基于事件标识对矿山事故事件抽取结果进行处理，并对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱。

具体地，在本说明书一个或多个实施例中，对矿山事故事件抽取结果进行事件标识，以基于事件标识对所述矿山事故事件抽取结果进行处理，具体包括：

基于矿山事故事件抽取结果进行事件标识，以获取矿山事故事件的事件真实性标识与事件共指标识。如果基于事件真实性标识确定该特征向量所对应的矿山事故事件为非真实事件，那么就对矿山事故事件抽取结果中该矿山事故事件进行删除。而如果基于事件共指性标识，确定特征向量所对应的矿山事故事件为同一事故事件，则对该特征向量所对应的处理后的矿山事故事件文本数据进行数据合并。进一步地，在本说明书一个或多个实施例中，对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱，具体包括以下步骤：

首先，获取处理后的矿山事故事件抽取结果中各矿山事故事件的事件触发词，作为矿山事件知识图谱的事件节点。然后基于各事件节点所对应的特征向量，确定出矿山事件知识图谱的事件节点的事件关系，以基于事件关系确定矿山事件知识图谱的边。通过对事件节点与所述矿山事件知识图谱的边，获得如图2事件知识图谱中的矿山事件知识图谱。

如图4所示，本说明书实施例提供了一种基于事件自动抽取的矿山事件知识图谱构建装置，装置包括：

数据标注单元401，用于基于公开新闻网站爬取矿山事故事件文本数据，对所述矿山事故事件文本数据进行预处理，以对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注，获得矿山事故事件的标注文本数据集；

第一向量提取单元402，用于基于BERT预训练的动态多池化卷积神经网络模型，获取所述标注文本数据集中各数据的词汇级信息，并对所述词汇级信息进行标识获得词汇级特征向量；

第二向量提取单元403，用于根据动态多池化卷积神经网络模型捕获句子级信息，以对所述句子级信息进行标识获得句子级特征向量，并拼接所述词汇级特征向量与句子级特征向量获得特征向量；

抽取单元404，用于将所述特征向量输入分类器进行事件触发词的抽取，获得矿山事故事件抽取结果；

映射单元405，用于对所述矿山事故事件抽取结果进行事件标识，以基于所述事件标识对所述矿山事故事件抽取结果进行处理，并对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在上述记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书的一个或多个实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种基于事件自动抽取的矿山事件知识图谱构建方法，其特征在于，所述方法包括：

对所述矿山事故事件抽取结果进行事件标识，以基于所述事件标识对所述矿山事故事件抽取结果进行处理，并对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱；

对所述矿山事故事件文本数据进行预处理，具体包括：

获取各所述矿山事故事件文本数据的数据格式，以基于所述数据格式将所述矿山事故事件文本数据划分到不同的文本数据集；

基于所述BERT预训练的动态多池化卷积神经网络模型的输入格式确定所述文本数据集中的待转换数据集，以对所述待转换数据集进行数据转换，获得符合格式的第一文本数据；

确定所述第二文本数据中的中文字符占比，若确定所述中文字符占比小于预设占比阈值，则对所述第二文本数据进行删除，获得处理后的矿山事故事件文本数据；

所述对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注，获得矿山事故事件的标注文本数据集，具体包括：

基于所述众包平台的人工经验对各所述处理后的矿山事故事件文本数据所对应的自动化标注进行校验，获得矿山事故事件的标注文本数据集；

将所述特征向量输入分类器进行事件触发词的抽取，获得矿山事故事件抽取结果，具体包括：

确定第一softmax分类器中事件触发词的分类计算公式；其中，所述分类计算公式为：，/>表示转移矩阵，/>表示整个网络的最终输出，V表示所述特征向量，b表示偏移量；

基于CRF层确定所述矿山事故事件抽取结果的预测输出标签；

对所述矿山事故事件抽取结果进行事件标识，以基于所述事件标识对所述矿山事故事件抽取结果进行处理，具体包括：

2.根据权利要求1所述的一种基于事件自动抽取的矿山事件知识图谱构建方法，其特征在于，所述基于BERT预训练的动态多池化卷积神经网络模型，获取所述标注文本数据集中各数据的词汇级信息，并对所述词汇级信息进行标识获得词汇级特征向量，具体包括：

基于所述BERT预训练的动态多池化卷积神经网络模型的预设标记算法对所述词汇级序列数据进行拆分，获得所述标注文本数据集中各数据的子单词；其中，所述预设标记算法为：WordPiece Tokenization；

基于所述BERT预训练的动态多池化卷积神经网络模型的嵌入层确定对各所述子单词进行映射，获得各所述子单词所对应的词汇级特征向量；其中，所述词汇级特征向量包含所述子单词的语义信息。

3.根据权利要求2所述的一种基于事件自动抽取的矿山事件知识图谱构建方法，其特征在于，所述根据动态多池化卷积神经网络模型捕获句子级信息，以对所述句子级信息进行标识获得句子级特征向量，并拼接所述词汇级特征向量与句子级特征向量获得特征向量，具体包括：

4.根据权利要求1所述的一种基于事件自动抽取的矿山事件知识图谱构建方法，其特征在于，所述根据动态多池化卷积神经网络模型捕获句子级信息，以对所述句子级信息进行标识获得句子级特征向量之前，所述方法还包括：

；

5.根据权利要求1所述的一种基于事件自动抽取的矿山事件知识图谱构建方法，其特征在于，所述对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱，具体包括：

6.一种基于事件自动抽取的矿山事件知识图谱构建装置，其特征在于，所述装置包括：

映射单元，用于对所述矿山事故事件抽取结果进行事件标识，以基于所述事件标识对所述矿山事故事件抽取结果进行处理，并对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱；

对所述矿山事故事件文本数据进行预处理，具体包括：

所述根据所述事件分类结果与所述元素分类结果，确定所述矿山事故事件抽取结果之后，还包括：

基于CRF层确定所述矿山事故事件抽取结果的预测输出标签；