CN110413796A

CN110413796A - 一种煤矿典型动力灾害领域本体构建方法

Info

Publication number: CN110413796A
Application number: CN201910596452.3A
Authority: CN
Inventors: 刘秀磊; 刘旭红; 张良; 于汝意; 张悦
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2019-11-05

Abstract

本发明提供一种煤矿典型动力灾害领域本体构建方法。该方法融合了传统的骨架法和七步法，详细阐述了本体构建过程中所用的技术，为研究者提供了工程上可实现的本体构建思路。使用Jena工具实现本体的形式化表示，介绍了Jena工具的体系结构和构建所用的关键性代码。

Description

一种煤矿典型动力灾害领域本体构建方法

技术领域

本发明涉及本体构建技术领域，尤其涉及一种煤矿典型动力灾害领域本体构建方法。

背景技术

由于传统的骨架法仅提供了构建思路，缺少具体的实施方法和技术，七步法缺少本体检查和评价行为，无法实现本体的更新和复用。因此，本发明在综合考虑骨架法和七步法的基础上，提出一种煤矿典型动力灾害领域本体自动构建方法。

发明内容

有鉴于此，本发明提供一种煤矿典型动力灾害领域本体构建方法，该方法将骨架法中本体应用目的确定和本体分析整合为一步，根据煤矿领域本体研究现状省略了七步法中复用现有本体步骤，强调了领域概念和关系的自动抽取，为研究者提供了工程上可实现的本体构建思路。

本申请是通过如下技术方案实现的：

一种煤矿典型动力灾害领域本体构建方法，所述本体构建方法包括如下步骤：

步骤1，确定本体应用的目的和构建范围；

步骤2，使用基于词向量和条件随机场的算法，实现概念的自动抽取；

步骤3，使用基于Bi-MGU神经网络模型的算法，实现关系的自动抽取，所述实现关系的自动抽取，具体包括：采用有监督的学习方法，选取当前词和词间距作为特征，进行关系的抽取。

步骤4，使用Jena本体开发工具将概念用关系连接起来；

步骤5，使用OWL本体描述语言对概念和关系进行形式化表示。

进一步的，所述目的是构建煤矿典型动力灾害领域本体，用于煤矿领域知识管理，建立煤矿安全知识分类体系，所述构建范围涉及“人-机-环-管”四方面的信息。

进一步的，所述本体构建方法还包括：

步骤6，设计煤矿本体检索系统，对构建的本体进行性能评价，若满足预设的评价标准，则完成本体构建；若不满足，则返回，重新执行步骤1。

进一步的，所述基于词向量和条件随机场的算法，采用统计主导的方法，使用条件随机场模型，选取当前词、词性、词长、依存句法关系作为统计特征，词向量间的语义相似度作为语义相似性特征，并将二者拼接为一个新的特征向量作为CRFs模型的输入特征，进行概念的抽取。

进一步的，所述基于词向量和条件随机场的算法，具体步骤如下：

步骤201，将煤矿典型动力灾害领域事故相关文本数据作为原始语料，并对其进行分词预处理，获得预处理后的数据，再使用NLTK工具获取文本数据的当前词Word、词性POS、词长Wordlen、依存句法关系Rel，合并为统计特征向量(Word,POS,Wordlen,Rel)；

步骤202，采用SOWE词向量模型训练所述预处理后的数据，获取词向量(v₁,v₂,.......,v_m)；通过与煤矿安全领域词典进行对比，计算出处理后数据中的词语和煤矿安全领域词典中词语之间的语义相似度，并将其进行离散化，得到语义相似性特征Sim；

步骤203，将统计特征和语义相似性特征合并为(Word,POS,Wordlen,Rel,Sim)，作为CRFs模型的输入特征；

步骤204，对语料进行标注，标注集使用{B,I,O}组块，其中B表示概念开始的部分，I表示概念的其他部分，O表示非概念的部分；

步骤205，用标注好的数据训练模型，得到煤矿典型动力灾害领域概念自动抽取模型；

步骤206，用所述概念自动抽取模型在测试数据上进行概念的标注任务，得到概念抽取的结果。

进一步的，在步骤203中，所述将统计特征和语义相似性特征合并为(Word,POS,Wordlen,Rel,Sim)，具体包括：

计算待识别词语与煤矿安全领域词典中词语的词向量间的语义相似度Sim来表达领域性，并将统计特征与语义相似性特征合并为(Word,POS,Wordlen,Rel,Sim)，其中，语义相似度Sim为两个词向量夹角余弦值的最大值，通过如下公式计算：

其中，e(w_i)、e(wj)分别为待识别词语w_i的词向量和词典中词语w_j的词向量，w_j∈D，D为煤矿安全领域词典。

进一步的，在所述步骤202中，所述SOWE词向量模型使用上下文词向量的拼接作为输入，并通过如下公式计算：

x＝[e(w_i-(n-1))；…e(w_i-(n-1)/2-1)；…e(w_i)]

其中，w_i-(n-1)、w_i-(n-1)/2-1……w_i为原始文本中的词语；

该抽取模型根据上下文的表示，直接进行预测：

其中，c为目标词w的上下文，V表示提取出的词表，e′(w)^T为目标词w辅助词向量的转置，e′(w′)^T为目标词w′辅助词向量的转置。

进一步的，所述煤矿本体检索系统用于将构建好的煤矿典型动力灾害领域本体应用到语义检索环节中，对比基于关键词的检索结果和基于本体语义的检索结果，验证本发明提出的煤矿典型动力灾害领域本体自动构建方法在实际应用方面具有可行性；

检索系统架构整体划分为：应用层、业务层和数据层，这三大层次关系。

进一步的，所述语义检索是指对概念以及概念之间关系在语义层面的检索，核心是对概念之间的推理。

进一步的，所述检索系统包括查询业务部分和煤矿安全信息语义处理部分，所述查询业务部分，用于查询信息的输入与最终结果的展示。

与现有技术相比，本发明的优点在于：从实际应用出发，对本发明构建的本体进行整体性能上的评估。将基于传统关键词的检索和基于本体的语义检索的结果进行对比，发现相较于传统基于关键词的检索，基于本体语义的检索的查全率更高，查找到的相关信息更加全面和丰富，证明本发明提出的煤矿典型动力灾害领域本体自动构建方法是可行有效的，具有实际应用价值。最后，总结了煤矿典型动力灾害领域本体在煤矿安全信息检索中的作用

附图说明

图1为本发明的本体构建方法的流程示意图；

图2为本发明的基于词向量和CRFs的概念抽取方法的流程示意图；

图3为依存句法分析结果对比图；

图4为SOWE词向量模型结构图；

图5为本发明所采用的煤矿安全领域本体检索系统体系示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本发明中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面将结合附图和实例对本发明作进一步的详细说明。

本发明通过将骨架法和七步法融合，提出一种煤矿典型动力灾害领域本体自动构建方法，并详细介绍了技术方案，具体方法如图1所示。

本发明提出的方法将骨架法中本体应用目的确定和本体分析整合为一步，根据煤矿领域本体研究现状省略了七步法中复用现有本体步骤，强调了领域概念和关系的自动抽取，并提供了工程上可实现的本体构建思路。具体步骤为：

步骤1，确定本体应用的目的和构建范围；

所述目的是构建煤矿典型动力灾害领域本体，用于煤矿领域知识管理，建立煤矿安全知识分类体系；

所述构建范围涉及“人-机-环-管”四方面的信息。

所述基于词向量和条件随机场的算法，采用统计主导的方法，使用条件随机场模型，选取当前词、词性、词长、依存句法关系作为统计特征，词向量间的语义相似度作为语义相似性特征，并将二者拼接为一个新的特征向量作为CRFs模型的输入特征，进行概念的抽取；

步骤3，使用基于Bi-MGU神经网络模型的算法，实现关系的自动抽取；

所述实现关系的自动抽取，具体包括：采用有监督的学习方法，选取当前词和词间距作为特征，进行关系的抽取。

步骤4，使用Jena本体开发工具将概念用关系连接起来。

步骤5，使用OWL本体描述语言对概念和关系进行形式化表示。

在步骤2中，使用所述条件随机场模型以将领域概念抽取问题转化为序列标注问题。

本发明在传统CRFs模型的基础上，将统计特征和语义相似性特征相结合，提出一种基于词向量和条件随机场模型的概念抽取方法，具体方法如图2所示。

所述基于词向量和条件随机场的算法，具体步骤如下：

针对应用的领域不同，选取的特征也不尽相同，应该具有代表性和针对性。选取特征时，不仅要考虑上下文信息、依存句法关系等信息，还应该最大程度地集成知识源，避免特征的碎片化。使用不同特征的组合最终实现抽取结果准确度的最大化。通过对煤矿安全领域词汇统计特征和语言学特征的分析，本发明使用当前词、词性、词长、依存句法关系这四个特征作为统计特征，如下表所示。将统计特征和语义相似性特征合并为(Word,POS,Wordlen,Rel,Sim)，作为CRFs模型的输入特征。

(1)当前词Word：词语是构成概念的基本单位。煤矿安全领域概念的统计信息表明有些词只出现在煤矿安全领域。因此，当前词本身包含了候选词是否作为煤矿安全领域概念的很多信息，因此使用当前词本身作为特征。

(2)词性POS：煤矿安全领域概念的词性一般为名词或者名词短语，几乎不会是介词、连词等词性。词性组合模式主要为“n”、“n+n”、“n+vn+n”、“n+n+n”。因此，概念和词性有一定的相关性，可以选取词性作为概念抽取的特征。

(3)词长WordLen：由于煤矿安全领域概念中许多词是未登录词，分词后会产生很多单字。所以，可以将词长作为特征，判断当前词是否是概念的组成部分。

(4)依存句法分析Rel：依存关系的类型有核心关系(HED)、定中关系(ATT)、动宾关系(VOB)、右附加关系(RAD)等。煤矿安全领域概念间的依存关系存在一定规律。通过过滤不可能组成概念的依存关系，可以提高概念抽取的正确率。其中，词与词之间的关系可以使用依存句法关系的标注来表示。例如“一种预测煤矿典型动力灾害的方法”其中概念为“煤矿典型动力灾害”。依存句法分析的结果如图3所示。

词向量(Word Embedding)是经过神经网络模型生成的词，实质上是一个低维的实数向量表示，又称词嵌入或分布表示。通过这种词向量表示技术可以对上下文以及上下文与目标词之间的关系建模，进而表达词语的语义含义。由于语义上相似的词语在空间中的向量也相似，所以通过这种表示，可以描述词之间的相似度。因此，本发明借助煤矿安全领域专家提供的煤矿安全领域词典，使用词向量描述煤矿安全领域概念的语义含义并通过词语与煤矿安全领域概念的词向量之间的相似度来表达领域性。如果该词语与煤矿安全领域词典中的词语相似度高，就可认定该词语是煤矿安全领域概念。

在步骤203中，所述将统计特征和语义相似性特征合并为(Word,POS,Wordlen,Rel,Sim)具体包括：

其中，e(w_i)、e(w_j)分别为待识别词语w_i的词向量和词典中词语w_j的词向量，w_j∈D，D为煤矿安全领域词典。

对于SOWE词向量模型，是由Mikolov等人在传统神经网络语言模型(NeuralNetwork Language Model，NNLM)、循环神经网络语言模型(Recurrent Neural Networkbased Language Model，RNNLM)、C&W模型的基础上进行简化，提出了CBOW模型和skip-gram模型。相较于传统的神经网络模型，二者均省略了隐藏层，模型结构从神经网络结构转变为log线性结构。log线性结构相比NNLM和RNNLM少了一个矩阵运算，所以训练速度更快。CBOW模型使用的是上下文各词词向量的平均值作为输入，skip-gram模型使用的是某个词的词向量。二者均没有考虑上下文的词序信息，导致模型对语义的捕获能力较低，影响概念抽取的性能。因此本发明提出一种改进的词向量模型—SOWE。

在所述步骤202中，所述SOWE词向量模型使用上下文词向量的拼接作为输入，并通过如下公式计算：

x＝[e(w_i-(n-1))；…e(w_i-(n-1)/2-1)；…e(w_i)] (2.2)

其中，w_i-(n-1)、w_i-(n-1)/2-1……w_i为原始文本中的词语。

该模型根据上下文的表示，直接进行预测：

其中，c为目标词w的上下文，V表示提取出的词表，e′(w)^T为目标词w辅助词向量的转置，e′(w′)^T为目标词w′辅助词向量的转置。其模型结构如图4所示。

CBOW模型、skip-gram模型和SOWE模型对比如下表所示。其中，|e|表示词向量维度，|V|表示词表中词的总个数，win表示上下文窗口的大小。

从表中可以看出，只有skip-gram模型使用词作为上下文的表示，其它模型使用的是根据不同组合策略构造的n-gram。CBOW模型使用n-gram中各词词向量的平均值作为上下文表示，本发明提出的模型使用n-gram中各词词向量的拼接作为上下文表示。在结构复杂度方面，由于SOWE模型不仅保留词序信息还采取线性变换，所以结构最复杂。CBOW模型使用上下文词向量的线性叠加而skip-gram则是随机选取其中一个词的词向量，因此skip-gram模型结构要比CBOW模型简单。在参数个数方面，SOWE模型既保持了上下文的词序信息，又采用了线性结构，因此参数个数最多。在时间复杂度上，由于三种模型均不需要计算输入层到隐藏层以及隐藏层到输出层两个矩阵运算，因此复杂度都不高，CBOW和skip-gram模型进一步省略了词序信息，所以复杂度更低。

本发明通过对比概念和关系抽取的准确率、召回率、F值，从理论角度证明煤矿典型动力灾害领域本体自动构建方法的算法可行性和性能优越性。目前，在实际应用方面，对本体自动构建方法的评估主要有三种方式。一是，比较自动构建的本体与手动构建的本体之间的相似度，例如概念相似度、语义关联相似度。这种方式的可靠性高，但是需要手动构建出参考本体，违背了研究本体自动构建方法的初衷。二是，邀请相关领域专家直接进行评估，这是目前最普遍的做法，但是存在主观性较强的问题，并且需要耗费大量人力和时间。三是，使用基于本体的检索方式和传统检索方式针对相同词汇进行检索，比较不同检索方式的检索性能。

本发明采用第三种方式，通过设计煤矿本体检索系统，将构建好的煤矿典型动力灾害领域本体应用到语义检索环节中，对比基于关键词的检索结果和基于本体语义的检索结果，验证本发明提出的煤矿典型动力灾害领域本体自动构建方法在实际应用方面具有可行性。

语义检索是指对概念以及概念之间关系在语义层面的检索，核心是对概念之间的推理。检索系统架构整体划分为：应用层、业务层和数据层，这三大层次关系如图5所示。

从上图中可以看出，整个检索系统大致分为两个部分，一个是查询业务部分，二是煤矿安全信息语义处理部分。在查询业务部分中，应用层的作用是查询信息的输入与最终结果的展示。业务层的作用是具体查询操作的执行：首先，借助查询转换器将用户的检索请求映射成本体模型中的领域概念；然后，对用户的检索请求采取基于知识、语义上的检索匹配；最后，返回知识库中符合条件的结果。数据层由数据库组成，负责煤矿安全领域本体模型信息的持久化保存以及煤矿安全信息的存储。

煤矿安全信息语义处理部分的主要作用是煤矿典型动力灾害领域本体的构建和煤矿信息的语义推理。该部分是通过Jena所提供的API以及Jena提供的推理机制来实现的。首先根据数据三元组模型，通过注册机制创建推理机；然后推理机生成包含推理机制的模型对象；最后，使用Ontology API和Model API对模型进行操作和处理。

本发明使用不同的检索词进行多次检索，通过对具体案例的分析对比发现，相较于传统基于关键词的检索，基于本体语义的检索的查全率更高，查找到的相关信息更加全面和丰富。这是由于传统基于关键词的检索只是将查询关键词与索引库中的词语进行字符串形式的匹配，难以正确理解和处理用户检索语义和意图，导致查询结果的准确率不高，无关信息过多。虽然基于关键词的检索技术经过了多次改进,但是始终没有解决理解用户检索语义和意图的问题，因此检索性能并没有得到根本上的改善，无法达到预期的检索效果。

煤矿典型动力灾害领域本体在煤矿信息检索中的作用主要有：

(1)消除用户间交流的信息壁垒：煤矿安全规范规程体系和煤矿安全知识分类体系的建立，能够消除信息所处的环境不同、处理方式不同导致的信息壁垒，为不同人、不同组织之间提供更好的交流方式。在构建其他更具体的本体时，本发明构建的煤矿典型动力灾害领域本体提供了概念的约束和共享。

(2)为异构的煤矿安全信息提供信息转换的中间件：本体模型使用机器可以读懂的语言进行形式化的描述，并通过“信息-本体-信息”的方式在不同机器间进行相应的本体映射，消除了信息组织方式不同导致的不同机器间交流的障碍，实现了不同机器间信息的共享、互操作和有效管理。

(3)提高煤矿安全信息系统的性能：本体对煤矿安全信息进行了统一规范化的描述，增强了系统的可靠性，提高了系统信息使用效率。同时，本体的构建实现了对知识的理解和推理，使机器对信息的使用不仅仅局限于信息的匹配，提高了煤矿信息系统的智能化水平。

(4)节省煤矿安全信息系统的建设成本：规范化的知识组织形式使得本体也可以在其他地方使用，实现了一次构建多次使用，节省了构建信息的成本。

需要说明的是，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种煤矿典型动力灾害领域本体构建方法，其特征在于，所述本体构建方法包括如下步骤：

步骤1，确定本体应用的目的和构建范围；

步骤4，使用Jena本体开发工具将概念用关系连接起来；

步骤5，使用OWL本体描述语言对概念和关系进行形式化表示。

2.根据权利要求1所述的煤矿典型动力灾害领域本体构建方法，其特征在于，所述目的是构建煤矿典型动力灾害领域本体，用于煤矿领域知识管理，建立煤矿安全知识分类体系，所述构建范围涉及“人-机-环-管”四方面的信息。

3.根据权利要求1所述的煤矿典型动力灾害领域本体构建方法，其特征在于，所述本体构建方法还包括：

4.根据权利要求1所述的煤矿典型动力灾害领域本体构建方法，其特征在于，所述基于词向量和条件随机场的算法，采用统计主导的方法，使用条件随机场模型，选取当前词、词性、词长、依存句法关系作为统计特征，词向量间的语义相似度作为语义相似性特征，并将二者拼接为一个新的特征向量作为CRFs模型的输入特征，进行概念的抽取。

5.根据权利要求1或4所述的煤矿典型动力灾害领域本体构建方法，其特征在于，所述基于词向量和条件随机场的算法，具体步骤如下：

6.根据权利要求5所述的煤矿典型动力灾害领域本体构建方法，其特征在于，在步骤203中，所述将统计特征和语义相似性特征合并为(Word,POS,Wordlen,Rel,Sim)，具体包括：

7.根据权利要求5所述的煤矿典型动力灾害领域本体构建方法，其特征在于，在所述步骤202中，所述SOWE词向量模型使用上下文词向量的拼接作为输入，并通过如下公式计算：

其中，w_i-(n-1)、w_i-(n-1)/2-1……w_i为原始文本中的词语；

该抽取模型根据上下文的表示，直接进行预测：

8.根据权利要求3所述的煤矿典型动力灾害领域本体构建方法，其特征在于，

所述煤矿本体检索系统用于将构建好的煤矿典型动力灾害领域本体应用到语义检索环节中，对比基于关键词的检索结果和基于本体语义的检索结果，验证本发明提出的煤矿典型动力灾害领域本体自动构建方法在实际应用方面具有可行性；

9.根据权利要求8所述的煤矿典型动力灾害领域本体构建方法，其特征在于，所述语义检索是指对概念以及概念之间关系在语义层面的检索，核心是对概念之间的推理。

10.根据权利要求8或9所述的煤矿典型动力灾害领域本体构建方法，其特征在于，

所述检索系统包括查询业务部分和煤矿安全信息语义处理部分，所述查询业务部分，用于查询信息的输入与最终结果的展示。