CN109189820A

CN109189820A - 一种煤矿安全事故本体概念抽取方法

Info

Publication number: CN109189820A
Application number: CN201810853624.6A
Authority: CN
Inventors: 刘秀磊; 刘思含; 刘旭红; 李红臣; 崔展奇
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2018-07-30
Filing date: 2018-07-30
Publication date: 2019-01-11
Anticipated expiration: 2038-07-30
Also published as: CN109189820B

Abstract

本发明提供了一种煤矿安全事故本体概念抽取方法，该方法将词向量和条件随机场结合起来对煤矿安全事故本体概念进行抽取，充分考虑领域词语的语义特性和领域特性，解决了传统研究方法在语义关系分析方面欠缺的问题以及煤矿安全领域数据管理不统一的问题，提高了知识的重用性。通过实验，证明了相较于较传统的基于CRFs的概念抽取方法，本文提出的方法提高了煤矿安全领域概念抽取的精度。同时，也证明了本文提出的词向量模型，相比传统CBOW模型和skip‑gram模型性能更好。

Description

一种煤矿安全事故本体概念抽取方法

技术领域

本发明涉及一种煤矿安全事故本体概念抽取方法，具体涉及一种基于词向量和条件随机场的煤矿安全事故本体概念抽取方法。

背景技术

煤炭安全生产是一个综合系统工程，涉及到人员、设备、环境、管理四大要素的相互影响和联动，需要将采煤、掘进、机电、通风、地测、防治水等诸多环节和信息整合。本体作为知识库的一种形式，能够有效地描述概念以及概念间的关系，具有共享性和重用性，并支持逻辑推理。针对煤矿安全事故领域中数据的特点，构建具有推理能力、语义一致性的煤矿安全事故本体，形成区域内煤矿静态、动态等多源头全方位异构数据的互联互通，有助于建立区域煤矿信息数据中心，使单一数据变为高融合数据。

概念的抽取是本体构建中最关键的一步。概念抽取的方式分为手动和自动构建方式。手动的方式需要领域专家的协助，构建成本高、效率低、主观性强、可移植性弱。因此，如何从文本数据源中自动高效地抽取概念已成为煤矿安全领域本体概念抽取的研究重点。然而，目前的概念抽取方法无法有效表示领域概念丰富的语义特性和领域特性，影响了抽取的效果。

发明内容

针对上述技术问题，本发明提供一种煤矿安全事故本体概念抽取方法，该方法有效表示领域概念丰富的语义特性和领域特性，抽取效果好。

本发明采用的技术方案为：

本发明实施例提供一种煤矿安全事故本体概念抽取方法，包括以下步骤：

从预设网站爬取关于煤矿安全事故的文本数据，所述文本数据包括训练数据和测试数据；

对爬取的文本数据进行预处理，并抽取经预处理后的文本数据的特征，得到统计特征向量，所述特征包括当前词、词性、词长和依存句法关系；

采用改进的Skip-gram模型对经抽取特征后的文本数据进行训练以获取词向量；

将获取的词向量与煤矿安全领域词典中相应的词向量进行对比，计算出语义相似度，并对计算出的语义相似度进行离散化处理，得到相似度特征；

将统计特征向量与相似度特征拼接为一个特征向量，作为条件随机场模型的输入特征；

对所述训练数据进行标注；

利用标注好的训练数据训练所述条件随机场模型，得到领域概念抽取的模型；

利用得到的领域概念抽取的模型在所述测试数据上进行概念的标注任务，得到概念抽取的结果。

可选地，所述文本数据包括煤矿事故案例和煤矿事故事后分析报告。

可选地，所述改进的Skip-gram模型通过下述公式(1)和(2)表示：

x＝[e(w_i-(n-1))；…e(w_i-(n-1)/2-1)；…e(w_i)] (1)

其中，x为几个词语词向量的拼接组合，e(.)为每个词语的词向量，w_i-(n-1)、w_i-(n-1)/2-1……w_i为原始文本中的词语；P(w|c)为下一个词是w的概率，c为目标词w的上下文，V表示词表，e′(w)^T为目标词w辅助词向量的转置，e′(w′)^T为目标词w′辅助词向量的转置。

可选地，所述语义相似度通过下述公式(3)计算：

其中，Sim表示语义相似度，e(w_i)、e(w_j)分别为待识别词语w_i的词向量和词典中词语w_j的词向量，w_j∈D，D为煤矿安全领域词典。

可选地，采用标注集为{B,I,O}组块对所述训练数据进行标注，其中B表示概念开始的部分，I表示概念的其他部分，O表示非概念的部分。

可选地，通过火车头爬虫工具爬取所述文本数据。

可选地，通过语言技术平台云工具对所述文本数据进行预处理；所述预处理包括对所述文本数据进行去噪、去重、分词、词性标注、去除停用词。

可选地，所述预设网站包括煤矿安全网、煤矿事故网、安全管理网。

本发明实施例提供的煤矿安全事故本体概念抽取方法，将词向量和条件随机场结合起来对煤矿安全事故本体概念进行抽取，充分考虑领域词语的语义特性和领域特性，解决了传统研究方法在语义关系分析方面欠缺的问题以及煤矿安全领域数据管理不统一的问题，提高了知识的重用性。通过实验，证明了相较于较传统的基于CRFs的概念抽取方法，本文提出的方法提高了煤矿安全领域概念抽取的精度。同时，也证明了本文提出的词向量模型，相比传统CBOW模型和skip-gram模型性能更好。

附图说明

图1为本发明实施例提供的煤矿安全事故本体概念抽取方法的流程示意图；

图2为依存句法分析结果示意图；

图3为改进词向量模型结构示意图；

图4为模型性能对比结果示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

图1为本发明实施例提供的煤矿安全事故本体概念抽取方法的流程示意图。如图1所示，本发明实施例提供的煤矿安全事故本体概念抽取方法包括以下步骤：

S101、从预设网站爬取关于煤矿安全事故的文本数据，所述文本数据包括训练数据和测试数据。

在本发明中，所述预设网站可包括煤矿安全网、煤矿事故网、安全管理网。可通过火车头爬虫工具从这些网站爬取所述文本数据。所述文本数据可包括煤矿事故案例和煤矿事故事后分析报告等。

S102、对爬取的文本数据进行预处理，并抽取经预处理后的文本数据的特征，得到统计特征向量，所述特征包括当前词、词性、词长和依存句法关系。

在本发明实施例中，可通过哈工大语言技术平台云(LTP-Cloud)工具对所述文本数据进行预处理；所述预处理包括对所述文本数据进行去噪、去重、分词、词性标注、去除停用词等。

本发明实施例通过对煤矿安全领域词汇统计特征和语言学特征的分析，使用当前词、词性、词长、依存句法关系这四个特征作为统计特征，如表1所示。

表1 CRFs模型的特征类型和取值

特征类型	值
		当前词	词本身
词性	名词(n)，动词(v)……
		词长	词长度值：1,2，……
依存句法分析	定中关系、动宾关系……

(1)当前词Word：词语是构成概念的基本单位。煤矿安全领域概念的统计信息表明，有些词只出现在煤矿安全领域。因此，当前词本身包含了候选词是否作为煤矿安全领域概念的很多信息，因此使用当前词本身作为特征。

(2)词性POS：根据汉语词性对照表(北大标准/中科院标准)标注词语的词性。煤矿安全领域概念的词性一般为名词或者名词短语，几乎不会是介词、连词等词性。词性组合模式主要为“n”、“n+n”、“n+vn+n”、“n+n+n”。因此，概念和词性有一定的相关性，可以选取词性作为概念抽取的特征。

(3)词长WordLen：由于煤矿安全领域概念中许多词是未登录词，分词后会产生很多单字。所以，可以将词长作为特征，判断当前词是否是概念的组成部分。

(4)依存句法分析Rel：煤矿安全领域概念内部词语与词语之间的依存关系存在一定的规律。依存关系的类型有核心关系(HED)、定中关系(ATT)、动宾关系(VOB)、右附加关系(RAD)等。通过过滤不可能组成概念的依存关系，可以提高概念抽取的正确率。其中，词与词之间的关系可以使用依存句法关系的标注来表示。例如“一种预测煤矿典型动力灾害的方法”其中概念为“煤矿典型动力灾害”。依存句法分析的结果如图2所示。

S103、采用改进的Skip-gram模型对经抽取特征后的文本数据进行训练以获取词向量。

词向量训练常用的模型为CBOW模型和skip-gram模型。相较于传统的神经网络模型，二者均省略了隐藏层，训练速度更快。CBOW模型使用的是上下文各词的词向量的平均值，skip-gram模型使用的是某个词的词向量。二者均没有考虑上下文的词序信息，因此本发明提出一种改进的词向量模型。该模型使用上下文词向量的拼接作为输入，即

x＝[e(w_i-(n-1))；…e(w_i-(n-1)/2-1)；…e(w_i)] (1)

其中，x为几个词语词向量的拼接组合，e(.)为每个词语的词向量，w_i-(n-1)、w_i-(n-1)/2-1……w_i为原始文本中的词语。

该模型根据上下文的表示，直接进行预测：

其中，P(w|c)为下一个词是w的概率，预测下一个词是什么，c为目标词w的上下文，V表示词表，e′(w)^T为目标词w辅助词向量的转置，e′(w′)^T为目标词w′辅助词向量的转置。其模型结构如图3所示。

CBOW模型、skip-gram模型和改进的模型对比如表2所示。其中，|e|表示词向量维度，|V|表示词表中词的总个数，win表示上下文窗口的大小。

表2 CBOW模型、skip-gram模型和改进模型比较

从表2中可以看出，只有skip-gram模型使用词作为上下文的表示，其它模型使用的是根据不同组合策略构造的n-gram。在结构复杂度方面，CBOW和Skip-gram模型比较简单。由于CBOW模型用上下文词向量的线性叠加而skip-gram则是随机选取其中一个词的词向量，所以相比不仅保留词序信息还采取线性变换的改进模型，结构更加简单。在参数个数方面，skip-gram与CBOW模型使用了两份词向量，没有其它额外的模型参数。改进的模型由于既保持了上下文的词序信息，又采用了线性结构，因此参数个数最多。在时间复杂度上，由于三种模型均不需要计算输入层到隐藏层以及隐藏层到输出层两个矩阵运算，因此复杂度都不高，CBOW和skip-gram模型进一步省略了词序信息，所以复杂度更简单。

S104、将获取的词向量与煤矿安全领域词典中相应的词向量进行对比，计算出语义相似度，并对计算出的语义相似度进行离散化处理，得到相似度特征。

词向量(word embedding)是经过神经网络模型生成的词，实质上是一个低维的实数向量表示，又称词嵌入或分布表示。通过这种词向量表示技术可以对上下文以及上下文与目标词之间的关系建模，进而表达词语的语义含义。由于语义上相似的词语在空间中的向量也相似，所以通过这种表示，可以描述词之间的相似度。每个领域的核心词汇一般都以领域词典的形式存在，如果某个词语与领域词典中的词语具有语义相似性，那么可以认为该词语是领域相关的概念。因此，本发明实施例使用词向量描述煤矿安全事故概念的语义含义并通过词语与煤矿安全事故概念的词向量之间的相似度来表达领域性。

本发明实施例通过计算待识别词语与煤矿安全领域词典中词语的词向量间的语义相似度(Sim)来表达领域性。语义相似度(Sim)为两个词向量夹角的余弦值的最大值，即

其中，e(w_i)、e(w_j)分别为待识别词语w_i的词向量和词典中词语w_j的词向量，w_j∈D，D为煤矿安全领域词典。

该语义相似度为连续的实数。由于CRFs模型的输入特征为离散特征，所以将计算出的相似度离散化，得到相似度特征。

在本发明一实施例中，采用分箱法对语义相似度进行离散化，相似度值域范围为[0,1]，将其等距划分为[0,0.2],[0.2,0.4],[0.4,0.6],[0.6,0.8],[0.8,1]，从而得到相似度特征。

S105、将统计特征向量与相似度特征拼接为一个特征向量，作为条件随机场模型的输入特征。

将步骤S103中得到的统计特征向量与步骤S104中得到的语义相似性特征拼接为一个新的特征向量(Word,POS,Wordlen,Rel,Sim)作为CRFs模型的输入特征，进行概念的抽取。

S106、对所述训练数据进行标注。

在该步骤中，可在煤矿相关领域专家的协助下对训练数据进行标注。标注集使用{B,I,O}组块，其中B表示概念开始的部分，I表示概念的其他部分，O表示非概念的部分。

S107、利用标注好的训练数据训练所述条件随机场模型，得到领域概念抽取的模型。

在该步骤中，将训练数据加载进条件随机场模型的程序，程序执行完成后会得到一个.model的文件，该文件就是保存的训练后得到领域概念抽取的模型。

S108、利用得到的领域概念抽取的模型在所述测试数据上进行概念的标注任务，得到概念抽取的结果。

在该步骤中，可通过与步骤S105相同的标注方式利用步骤S106中得到的领域概念抽取的模型在所述测试数据上进行概念的标注任务，得到概念抽取的结果。

【实施例】

以下通过实验对本发明提供的煤矿安全事故本体概念抽取方法的优点进行说明。

实验描述

本实施例使用的文本数据为煤矿安全网、煤矿事故网、安全管理网有关煤矿事故案例和煤矿事故分析报告，共70M计。其中，56M作为训练数据，14M作为测试数据。本实施例使用的训练数据拟合程度参数c为1，特征出现的次数f为5，并采用Unigram template特征模板，窗口大小为2，正则化算子选择L2。首先，只使用统计特征进行抽取实验。然后，分别使用skip-gram模型、CBOW模型和改进的词向量模型生成的词向量，加入语义相似度特征，进行抽取实验。最后，通过两组对比实验比较抽取结果的准确率(P)、召回率(R)、F值。

实验分析

只使用统计特征的方法和统计特征与语义相似性特征相结合的方法实验结果对比如表3所示。

表3实验结果对比

	P	R	F
				传统CRF法	85.2％	82.6％	83.8％
本发明的方法	89.8％	92.0％	90.9％

本发明提出的改进的词向量模型与传统CBOW模型、skip-gram模型性能的对比如图4所示。

从上述图4中可以看出，本发明实施例提出的语义相似性特征和统计特征相结合的方法，在准确率(P)、召回率(R)、F值上相比传统的条件随机场的方法，均有提高。同时，本发明提出的改进词向量模型仅在准确率上相比skip-gram模型略低，而其他方面的性能都有明显提升。因此，证明了本文提出的方法具有性能优越性。

综上，本发明提出一种利用词向量和条件随机场的方法，解决煤矿安全领域本体构建过程中的概念自动抽取问题。该方法充分考虑领域词语的语义特性和领域特性，解决了传统研究方法在语义关系分析方面欠缺的问题以及煤矿安全领域数据管理不统一的问题，提高了知识的重用性。通过实验，证明了相较于较传统的基于CRFs的概念抽取方法，本文提出的方法提高了煤矿安全领域概念抽取的精度。同时，也证明了本文提出的词向量模型，相比传统CBOW模型和skip-gram模型性能更好。

以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种煤矿安全事故本体概念抽取方法，其特征在于，包括以下步骤：

对所述训练数据进行标注；

2.根据权利要求1所述的方法，其特征在于，所述文本数据包括煤矿事故案例和煤矿事故事后分析报告。

3.根据权利要求1所述的方法，其特征在于，所述改进的Skip-gram模型通过下述公式(1)和(2)表示：

x＝[e(w_i-(n-1))；…e(w_i-(n-1)/2-1)；…e(w_i)] (1)

4.根据权利要求1所述的方法，其特征在于，所述语义相似度通过下述公式(3)计算：

5.根据权利要求1所述的方法，其特征在于，采用标注集为{B,I,O}组块对所述训练数据进行标注，其中B表示概念开始的部分，I表示概念的其他部分，O表示非概念的部分。

6.根据权利要求1所述的方法，其特征在于，通过火车头爬虫工具爬取所述文本数据。

7.根据权利要求1所述的方法，其特征在于，通过语言技术平台云工具对所述文本数据进行预处理；所述预处理包括对所述文本数据进行去噪、去重、分词、词性标注、去除停用词。

8.根据权利要求1所述的方法，其特征在于，所述预设网站包括煤矿安全网、煤矿事故网、安全管理网。