CN114580421A

CN114580421A - 一种基于改进神经网络的页岩气实体识别方法

Info

Publication number: CN114580421A
Application number: CN202210220954.8A
Authority: CN
Inventors: 朱西平; 卢星宇; 肖丽娟; 高昂; 郭露; 李映璋
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2022-06-03

Abstract

本发明提出一种基于改进神经网络的页岩气实体识别方法，属于页岩气与自然语言处理领域。该方法首先对页岩气人工标注数据进行预处理，将字映射为具有上下文语义的密集向量序列，传输给卷积神经网络对其过滤句中局部语境对实体识别的影响；再通过双向长短期记忆网络来捕获页岩气标注处上下文的隐藏状态，利用注意力机制，关注句中标签，通过相似信息预测字符标签，来解决标注不一致问题；最终上传至条件随机场，对其结果进一步约束，达到实体分类的效果。本发明可快速、高效的识别页岩气领域相关实体名称，为页岩气智能分析系统提供首个页岩气高精度实体识别方法。

Description

一种基于改进神经网络的页岩气实体识别方法

技术领域

本发明涉及页岩气与自然语言处理领域，具体涉及是一种基于改进神经网络的页岩气实体识别方法。

背景技术

随着非常规油气勘探开发节奏加快，为进一步深化页岩气数据信息化处理，构建智能分析系统，需先对其底层数据进行分析处理，抽取相应实体对象。但传统页岩气数据分析中大多是对结构化数据进行研究，利用数据仓库工具进行挖掘。并未使用到先进的命名体识别(NER)技术。

命名体识别技术(NER)作为语义抽取的技术关键，对样本中实体名称识别，并分类。在NER研究的多年中，大多针对英文文本，少数中文NER又使用在一些特定领域，未在页岩气领域使用。如：孙德刚提出医学NER的LSTM-CRF模型，结合拼写特征、上下文特征及字向量来构建单词特征；Chiu和Nichols提出使用LSTM和CNN网络来学习单词和字符级特征；Cho等人则是引入多种语料库训练模型,提出一个生物医学NER的LSTM-CRF模型,提高模型精度。

然而页岩气领域与其它领域相比，数据结构杂乱，存在大量术语缩写及不完整文本；无固定表达模式，所以复制其他领域实体识别方法到页岩气领域富具挑战。

发明内容

本发明的出发点在于克服原有技术的不足，而提供一种基于改进神经网络的页岩气实体识别方法，该方法通过引入注意力机制，解决页岩气领域数据结构杂乱，存在大量术语缩写及不完整文本所导致的实体标签前后不一致的问题，使之更适配页岩气领域，成为页岩气领域首个实体识别方法。

为实现所述发明目的，所提供的技术方案是一种基于改进神经网络的页岩气实体识别方法，其特征在于，包括以下步骤：

1)对页岩气人工标注原始数据进行预处理，将字逐一映射为具有上下文语义的密集向量序列；

2)将步骤1)中所得密集向量序列上传至卷积神经网络，通过约束卷积神经网络中的过滤器大小，过滤句中局部语境对页岩气实体识别的影响，得到过滤后的语义特征；

3)将步骤2)中所得语义特征上传至双向长短期记忆网络，根据语义特征上下文序列信息来捕获标记的隐藏状态，得到页岩气的全局语义特征；

4)将步骤3)中全局语义特征上传至注意力机制，通过训练其关注句中标注，利用相似信息预测字符标签，来解决人工标注数据中实体标签前后不一致的问题；

5)将最终数据上传至条件随机场，通过一阶线性链条件随机场联合解码，进一步约束其输出结果，得到训练样本的负对数似然损失函数，优化其函数，得到页岩气实体识别结果。

根据以上所述，对页岩气领域因使用综上所述实体识别方案，本发明的有益效果是:

本发明根据页岩气领域实际复杂情况出发，使用了一个基于混合神经网络的改进实体识别框架；通过卷积神经网络很好的过滤掉了句中局部语境对页岩气实体识别的影响，进一步与双向长短期记忆网络相结合，根据上下文序列信息来捕获标记的隐藏状态，更好的统领页岩气的全局语义特征，再引入注意力机制，有效的解决页岩气领域数据结构杂乱，存在大量术语缩写及不完整文本所导致的实体标签前后不一致的问题，使之更适配页岩气领域。最后再由一阶线性链条件随机场联合解码，进一步约束其输出结果，保证其实体识别方法的高效精准性。

附图说明

图1是本页岩气实体识别方法的整体流程图；

图2是本页岩气实体识别方法具体实施的框架结构分析图；

图3是本页岩气实体识别方法中的双向长短期记忆网络(BiLSTM)原理图。

具体实施方式

本发明是一种基于改进神经网络的页岩气实体识别方法，其具体流程，如图1所示，其特征在于，包括以下步骤：

再具体而言，如图2所示，为页岩气实体识别具体实施的框架结构分析图。

框架结构自下而上依次为：字向量层、卷积神经网络(CNN)层、双向长短期记忆网络(BiLSTM)层、注意力机制层、和条件随机场(CRF)层。

在第一层，输入句子的字向量x_i通过字向量层将字映射为具有上下文语义的密集向量序列，得到输出向量[x₁,x₂,...,x_N]。

x_i＝Ew_i∈R^D，

式中，E∈R^D×V为每个字符映射为密集向量的嵌入矩阵，D为向量维数，V为词汇量。s＝[w₁,w₂,...,w_N]为输入句子，N为句子长度，w_i∈R^V为第i字向量的one-hot表示。

在第二层，CNN过滤句中局部语境对页岩气实体识别的影响。如：“2018”可以是时间实体中的“2018年”,也可以是无用信息中的量词；为区分信息实体，提取语义信息，用w∈R^KD作为CNN层中的过滤器，K为通道窗口尺寸；使用多个窗口大小不同的过滤器来学习上下文语义特征，将过滤器提取的第i个语义特征表示为：

式中

为

到

的字向量，f为激活函数ReLU，则CNN层输出为c＝[c₁,c₁,...,c_N]，c_i∈R^M，M为过滤器编号。

在第三层，BiLSTM网络层可根据长距离序列信息捕获标记的隐藏状态，如图3所示，

为正向隐层输出序列，

为反向隐层输出序列；CNN层输出c＝[c₁,c₁,...,c_N]在BiLSTM层作为各时刻输入，使

和

进行拼接，得到BiLSTM层的输出b；

b＝[b₁,b₂,...,b_N]，

式中

为第i个字符的隐藏层输出；b_i∈R^2S,S为BiLSTM中隐藏状态的维度；

此外，该模型在BiLSTM和CRF层之间还存在一注意力机制层；通过训练模型关注句中标注，利用相似信息预测字符标签，以解决标注不一致问题；

用ρ＝[w₁,w₂,...,w_t,w_N]作为输入句子，通过计算句中目标词w_t和其他词w_i的得分函数，来计算两词之间相似度：

score(w_t,w_i)＝W_a|w_t-w_i|，

式中W_a为可训练权重矩阵；

然后用Softmax函数将其标准化，生成以w_t为条件的注意力权重α_t,i：

进一步为每个目标词生成一个上下文向量

从而，对目标词来说，形成注意力层输出ο_t：

在第五层为条件随机场(CRF)。CRF是一种概率模型，可通过相邻标签具有强相关性，进一步约束其输出结果，保证最终输出的有效性；

相比独立标签解码，本层使用一阶线性链CRF联合解码来提高模型效率；用y＝[y₁,y₂,...,y_N]表示为s的标签序列，y_i∈R^L为第i个字符的one-hot表达，L为标签数；o＝[o₁,o₂,...,o_N]为CRF层输入,标签序列y为CRF层输出，得到y与ο的计算公式：

式中ν(s)为全部句子s的标签序列集合，ψ(o_i,y_i,y_i-1)为势函数，θ为参数集；

式中M∈R^2S×L,T∈R^L×L；等式中θ＝{M,T}

训练样本的负对数似然损失函数，如下：

S是训练数据中的句子集，o_s与y_s是注意力机制层与BiLSTM联合输出和标签序列；

最后再使用Adam优化器对训练样本中的负对数似然损失函数进行优化，提高页岩气实体识别方法精度。在CRF层输出结果中，选择得分最高的标签序列作为改进神经网络页岩气实体识别结果。

综上所述，仅为本页岩气实体识别方法效果较佳实施例而已，并不是用来约束本发明，凡在本发明的精神与原则范围内所作的相关修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改进神经网络的页岩气实体识别方法，其特征在于，包括以下步骤：

2)将步骤1)中所得密集向量序列上传至卷积神经网络(CNN)，通过约束卷积神经网络中的过滤器大小，过滤句中局部语境对页岩气实体识别的影响，得到过滤后的语义特征；

3)将步骤2)中所得语义特征上传至双向长短期记忆网络(BiLSTM)，根据语义特征上下文序列信息来捕获标记的隐藏状态，得到页岩气的全局语义特征；

5)将最终数据上传至条件随机场(CRF)，通过一阶线性链条件随机场联合解码，进一步约束其输出结果，得到训练样本的负对数似然损失函数，优化其函数，得到页岩气实体识别结果。

2.根据权利要求1所述的一种基于改进神经网络的页岩气实体识别方法，其特征在于，步骤1)的详细步骤为：

在步骤1)中，输入句子的字向量x_i通过字向量层将字映射为具有上下文语义的密集向量序列，得到输出向量[x₁,x₂,...,x_N]；

x_i＝Ew_i∈R^D，

式中，E∈R^D×V为每个字符映射为密集向量的嵌入矩阵，D为向量维数，V为词汇量，s＝[w₁,w₂,...,w_N]为输入句子，N为句子长度，w_i∈R^V为第i字向量的one-hot表示。

3.根据权利要求1所述的一种基于改进神经网络的页岩气实体识别方法，其特征在于，步骤2)的详细步骤为：

在步骤2)中，卷积神经网络过滤句中局部语境对页岩气实体识别的影响；如：“2018”可以是时间实体中的“2018年”,也可以是无用信息中的量词；为区分信息实体，提取语义信息，用w∈R^KD作为卷积神经网络中的过滤器，K为通道窗口尺寸；使用多个窗口大小不同的过滤器来学习上下文语义特征，将过滤器提取的第i个语义特征表示为：