CN114580421A - 一种基于改进神经网络的页岩气实体识别方法 - Google Patents

一种基于改进神经网络的页岩气实体识别方法 Download PDF

Info

Publication number
CN114580421A
CN114580421A CN202210220954.8A CN202210220954A CN114580421A CN 114580421 A CN114580421 A CN 114580421A CN 202210220954 A CN202210220954 A CN 202210220954A CN 114580421 A CN114580421 A CN 114580421A
Authority
CN
China
Prior art keywords
shale gas
neural network
network
entity identification
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210220954.8A
Other languages
English (en)
Inventor
朱西平
卢星宇
肖丽娟
高昂
郭露
李映璋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Petroleum University
Original Assignee
Southwest Petroleum University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Petroleum University filed Critical Southwest Petroleum University
Priority to CN202210220954.8A priority Critical patent/CN114580421A/zh
Publication of CN114580421A publication Critical patent/CN114580421A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种基于改进神经网络的页岩气实体识别方法,属于页岩气与自然语言处理领域。该方法首先对页岩气人工标注数据进行预处理,将字映射为具有上下文语义的密集向量序列,传输给卷积神经网络对其过滤句中局部语境对实体识别的影响;再通过双向长短期记忆网络来捕获页岩气标注处上下文的隐藏状态,利用注意力机制,关注句中标签,通过相似信息预测字符标签,来解决标注不一致问题;最终上传至条件随机场,对其结果进一步约束,达到实体分类的效果。本发明可快速、高效的识别页岩气领域相关实体名称,为页岩气智能分析系统提供首个页岩气高精度实体识别方法。

Description

一种基于改进神经网络的页岩气实体识别方法
技术领域
本发明涉及页岩气与自然语言处理领域,具体涉及是一种基于改进神经网络的页岩气实体识别方法。
背景技术
随着非常规油气勘探开发节奏加快,为进一步深化页岩气数据信息化处理,构建智能分析系统,需先对其底层数据进行分析处理,抽取相应实体对象。但传统页岩气数据分析中大多是对结构化数据进行研究,利用数据仓库工具进行挖掘。并未使用到先进的命名体识别(NER)技术。
命名体识别技术(NER)作为语义抽取的技术关键,对样本中实体名称识别,并分类。在NER研究的多年中,大多针对英文文本,少数中文NER又使用在一些特定领域,未在页岩气领域使用。如:孙德刚提出医学NER的LSTM-CRF模型,结合拼写特征、上下文特征及字向量来构建单词特征;Chiu和Nichols提出使用LSTM和CNN网络来学习单词和字符级特征;Cho等人则是引入多种语料库训练模型,提出一个生物医学NER的LSTM-CRF模型,提高模型精度。
然而页岩气领域与其它领域相比,数据结构杂乱,存在大量术语缩写及不完整文本;无固定表达模式,所以复制其他领域实体识别方法到页岩气领域富具挑战。
发明内容
本发明的出发点在于克服原有技术的不足,而提供一种基于改进神经网络的页岩气实体识别方法,该方法通过引入注意力机制,解决页岩气领域数据结构杂乱,存在大量术语缩写及不完整文本所导致的实体标签前后不一致的问题,使之更适配页岩气领域,成为页岩气领域首个实体识别方法。
为实现所述发明目的,所提供的技术方案是一种基于改进神经网络的页岩气实体识别方法,其特征在于,包括以下步骤:
1)对页岩气人工标注原始数据进行预处理,将字逐一映射为具有上下文语义的密集向量序列;
2)将步骤1)中所得密集向量序列上传至卷积神经网络,通过约束卷积神经网络中的过滤器大小,过滤句中局部语境对页岩气实体识别的影响,得到过滤后的语义特征;
3)将步骤2)中所得语义特征上传至双向长短期记忆网络,根据语义特征上下文序列信息来捕获标记的隐藏状态,得到页岩气的全局语义特征;
4)将步骤3)中全局语义特征上传至注意力机制,通过训练其关注句中标注,利用相似信息预测字符标签,来解决人工标注数据中实体标签前后不一致的问题;
5)将最终数据上传至条件随机场,通过一阶线性链条件随机场联合解码,进一步约束其输出结果,得到训练样本的负对数似然损失函数,优化其函数,得到页岩气实体识别结果。
根据以上所述,对页岩气领域因使用综上所述实体识别方案,本发明的有益效果是:
本发明根据页岩气领域实际复杂情况出发,使用了一个基于混合神经网络的改进实体识别框架;通过卷积神经网络很好的过滤掉了句中局部语境对页岩气实体识别的影响,进一步与双向长短期记忆网络相结合,根据上下文序列信息来捕获标记的隐藏状态,更好的统领页岩气的全局语义特征,再引入注意力机制,有效的解决页岩气领域数据结构杂乱,存在大量术语缩写及不完整文本所导致的实体标签前后不一致的问题,使之更适配页岩气领域。最后再由一阶线性链条件随机场联合解码,进一步约束其输出结果,保证其实体识别方法的高效精准性。
附图说明
图1是本页岩气实体识别方法的整体流程图;
图2是本页岩气实体识别方法具体实施的框架结构分析图;
图3是本页岩气实体识别方法中的双向长短期记忆网络(BiLSTM)原理图。
具体实施方式
本发明是一种基于改进神经网络的页岩气实体识别方法,其具体流程,如图1所示,其特征在于,包括以下步骤:
1)对页岩气人工标注原始数据进行预处理,将字逐一映射为具有上下文语义的密集向量序列;
2)将步骤1)中所得密集向量序列上传至卷积神经网络,通过约束卷积神经网络中的过滤器大小,过滤句中局部语境对页岩气实体识别的影响,得到过滤后的语义特征;
3)将步骤2)中所得语义特征上传至双向长短期记忆网络,根据语义特征上下文序列信息来捕获标记的隐藏状态,得到页岩气的全局语义特征;
4)将步骤3)中全局语义特征上传至注意力机制,通过训练其关注句中标注,利用相似信息预测字符标签,来解决人工标注数据中实体标签前后不一致的问题;
5)将最终数据上传至条件随机场,通过一阶线性链条件随机场联合解码,进一步约束其输出结果,得到训练样本的负对数似然损失函数,优化其函数,得到页岩气实体识别结果。
再具体而言,如图2所示,为页岩气实体识别具体实施的框架结构分析图。
框架结构自下而上依次为:字向量层、卷积神经网络(CNN)层、双向长短期记忆网络(BiLSTM)层、注意力机制层、和条件随机场(CRF)层。
在第一层,输入句子的字向量xi通过字向量层将字映射为具有上下文语义的密集向量序列,得到输出向量[x1,x2,...,xN]。
xi=Ewi∈RD
式中,E∈RD×V为每个字符映射为密集向量的嵌入矩阵,D为向量维数,V为词汇量。s=[w1,w2,...,wN]为输入句子,N为句子长度,wi∈RV为第i字向量的one-hot表示。
在第二层,CNN过滤句中局部语境对页岩气实体识别的影响。如:“2018”可以是时间实体中的“2018年”,也可以是无用信息中的量词;为区分信息实体,提取语义信息,用w∈RKD作为CNN层中的过滤器,K为通道窗口尺寸;使用多个窗口大小不同的过滤器来学习上下文语义特征,将过滤器提取的第i个语义特征表示为:
Figure BDA0003537421000000041
式中
Figure BDA0003537421000000042
Figure BDA0003537421000000043
Figure BDA0003537421000000044
的字向量,f为激活函数ReLU,则CNN层输出为c=[c1,c1,...,cN],ci∈RM,M为过滤器编号。
在第三层,BiLSTM网络层可根据长距离序列信息捕获标记的隐藏状态,如图3所示,
Figure BDA0003537421000000045
为正向隐层输出序列,
Figure BDA0003537421000000046
为反向隐层输出序列;CNN层输出c=[c1,c1,...,cN]在BiLSTM层作为各时刻输入,使
Figure BDA0003537421000000047
Figure BDA0003537421000000048
进行拼接,得到BiLSTM层的输出b;
b=[b1,b2,...,bN],
式中
Figure BDA0003537421000000049
为第i个字符的隐藏层输出;bi∈R2S,S为BiLSTM中隐藏状态的维度;
Figure BDA00035374210000000410
Figure BDA00035374210000000411
此外,该模型在BiLSTM和CRF层之间还存在一注意力机制层;通过训练模型关注句中标注,利用相似信息预测字符标签,以解决标注不一致问题;
用ρ=[w1,w2,...,wt,wN]作为输入句子,通过计算句中目标词wt和其他词wi的得分函数,来计算两词之间相似度:
score(wt,wi)=Wa|wt-wi|,
式中Wa为可训练权重矩阵;
然后用Softmax函数将其标准化,生成以wt为条件的注意力权重αt,i
Figure BDA00035374210000000412
进一步为每个目标词生成一个上下文向量
Figure BDA00035374210000000414
Figure BDA00035374210000000413
从而,对目标词来说,形成注意力层输出οt
Figure BDA00035374210000000415
在第五层为条件随机场(CRF)。CRF是一种概率模型,可通过相邻标签具有强相关性,进一步约束其输出结果,保证最终输出的有效性;
相比独立标签解码,本层使用一阶线性链CRF联合解码来提高模型效率;用y=[y1,y2,...,yN]表示为s的标签序列,yi∈RL为第i个字符的one-hot表达,L为标签数;o=[o1,o2,...,oN]为CRF层输入,标签序列y为CRF层输出,得到y与ο的计算公式:
Figure BDA0003537421000000051
式中ν(s)为全部句子s的标签序列集合,ψ(oi,yi,yi-1)为势函数,θ为参数集;
Figure BDA0003537421000000052
式中M∈R2S×L,T∈RL×L;等式中θ={M,T}
训练样本的负对数似然损失函数,如下:
Figure BDA0003537421000000053
S是训练数据中的句子集,os与ys是注意力机制层与BiLSTM联合输出和标签序列;
最后再使用Adam优化器对训练样本中的负对数似然损失函数进行优化,提高页岩气实体识别方法精度。在CRF层输出结果中,选择得分最高的标签序列作为改进神经网络页岩气实体识别结果。
综上所述,仅为本页岩气实体识别方法效果较佳实施例而已,并不是用来约束本发明,凡在本发明的精神与原则范围内所作的相关修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于改进神经网络的页岩气实体识别方法,其特征在于,包括以下步骤:
1)对页岩气人工标注原始数据进行预处理,将字逐一映射为具有上下文语义的密集向量序列;
2)将步骤1)中所得密集向量序列上传至卷积神经网络(CNN),通过约束卷积神经网络中的过滤器大小,过滤句中局部语境对页岩气实体识别的影响,得到过滤后的语义特征;
3)将步骤2)中所得语义特征上传至双向长短期记忆网络(BiLSTM),根据语义特征上下文序列信息来捕获标记的隐藏状态,得到页岩气的全局语义特征;
4)将步骤3)中全局语义特征上传至注意力机制,通过训练其关注句中标注,利用相似信息预测字符标签,来解决人工标注数据中实体标签前后不一致的问题;
5)将最终数据上传至条件随机场(CRF),通过一阶线性链条件随机场联合解码,进一步约束其输出结果,得到训练样本的负对数似然损失函数,优化其函数,得到页岩气实体识别结果。
2.根据权利要求1所述的一种基于改进神经网络的页岩气实体识别方法,其特征在于,步骤1)的详细步骤为:
在步骤1)中,输入句子的字向量xi通过字向量层将字映射为具有上下文语义的密集向量序列,得到输出向量[x1,x2,...,xN];
xi=Ewi∈RD
式中,E∈RD×V为每个字符映射为密集向量的嵌入矩阵,D为向量维数,V为词汇量,s=[w1,w2,...,wN]为输入句子,N为句子长度,wi∈RV为第i字向量的one-hot表示。
3.根据权利要求1所述的一种基于改进神经网络的页岩气实体识别方法,其特征在于,步骤2)的详细步骤为:
在步骤2)中,卷积神经网络过滤句中局部语境对页岩气实体识别的影响;如:“2018”可以是时间实体中的“2018年”,也可以是无用信息中的量词;为区分信息实体,提取语义信息,用w∈RKD作为卷积神经网络中的过滤器,K为通道窗口尺寸;使用多个窗口大小不同的过滤器来学习上下文语义特征,将过滤器提取的第i个语义特征表示为:
Figure FDA0003537420990000021
式中
Figure FDA0003537420990000022
Figure FDA0003537420990000023
Figure FDA0003537420990000024
的字向量,f为激活函数ReLU,则卷积神经网络输出为c=[c1,c1,...,cN],ci∈RM,M为过滤器编号。
4.根据权利要求1所述的一种基于改进神经网络的页岩气实体识别方法,其特征在于,步骤3)的详细步骤为:
在步骤3)中,BiLSTM网络可根据长距离序列信息捕获标记的隐藏状态,
Figure FDA0003537420990000025
为正向隐层输出序列,
Figure FDA0003537420990000026
为反向隐层输出序列;CNN网络输出c=[c1,c1,...,cN]在BiLSTM网络中作为各时刻输入,使
Figure FDA0003537420990000027
Figure FDA0003537420990000028
进行拼接,得到BiLSTM网络的输出b:
b=[b1,b2,...,bN],
式中
Figure FDA0003537420990000029
为第i个字符的隐藏输出;bi∈R2S,S为BiLSTM中隐藏状态的维度:
Figure FDA00035374209900000210
Figure FDA00035374209900000211
5.根据权利要求1所述的一种基于改进神经网络的页岩气实体识别方法,其特征在于,步骤4)的详细步骤为:
在BiLSTM网络和CRF网络之间还存在一注意力机制;通过训练模型关注句中标注,利用相似信息预测字符标签,以解决标注不一致问题;
用ρ=[w1,w2,...,wt,wN]作为输入句子,通过计算句中目标词wt和其他词wi的得分函数,来计算两词之间相似度:
score(wt,wi)=Wa|wt-wi|
式中Wa为可训练权重矩阵;
然后用Softmax函数将其标准化,生成以wt为条件的注意力权重αt,i
Figure FDA0003537420990000031
进一步为每个目标词生成一个上下文向量
Figure FDA0003537420990000037
Figure FDA0003537420990000032
从而,对目标词来说,形成注意力机制输出οt
Figure FDA0003537420990000033
6.根据权利要求1所述的一种基于改进神经网络的页岩气实体识别方法,其特征在于,5)的详细步骤为:
在步骤5)中条件随机场(CRF)是一种概率模型,可通过相邻标签具有强相关性,进一步约束其输出结果,保证最终输出的有效性;
相比独立标签解码,本网络使用一阶线性链CRF联合解码来提高模型效率;用y=[y1,y2,...,yN]表示为s的标签序列,yi∈RL为第i个字符的one-hot表达,L为标签数;o=[o1,o2,...,oN]为CRF网络输入,标签序列y为CRF网络输出,得到y与ο的计算公式:
Figure FDA0003537420990000034
式中ν(s)为全部句子s的标签序列集合,ψ(oi,yi,yi-1)为势函数,θ为参数集;
Figure FDA0003537420990000035
式中M∈R2S×L,T∈RL×L;等式中θ={M,T},
训练样本的负对数似然损失函数,如下:
Figure FDA0003537420990000036
S是训练数据中的句子集,os与ys是注意力机制与BiLSTM网络联合输出和标签序列;
最后再使用Adam优化器对训练样本中的负对数似然损失函数进行优化,提高页岩气实体识别方法精度。在CRF网络输出结果中,选择得分最高的标签序列作为改进神经网络页岩气实体识别结果。
CN202210220954.8A 2022-03-08 2022-03-08 一种基于改进神经网络的页岩气实体识别方法 Pending CN114580421A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210220954.8A CN114580421A (zh) 2022-03-08 2022-03-08 一种基于改进神经网络的页岩气实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210220954.8A CN114580421A (zh) 2022-03-08 2022-03-08 一种基于改进神经网络的页岩气实体识别方法

Publications (1)

Publication Number Publication Date
CN114580421A true CN114580421A (zh) 2022-06-03

Family

ID=81774143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210220954.8A Pending CN114580421A (zh) 2022-03-08 2022-03-08 一种基于改进神经网络的页岩气实体识别方法

Country Status (1)

Country Link
CN (1) CN114580421A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117012373A (zh) * 2023-10-07 2023-11-07 广州市妇女儿童医疗中心 一种葡萄胎辅助检查模型的训练方法、应用方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117012373A (zh) * 2023-10-07 2023-11-07 广州市妇女儿童医疗中心 一种葡萄胎辅助检查模型的训练方法、应用方法及系统
CN117012373B (zh) * 2023-10-07 2024-02-23 广州市妇女儿童医疗中心 一种葡萄胎辅助检查模型的训练方法、应用方法及系统

Similar Documents

Publication Publication Date Title
CN108959252B (zh) 基于深度学习的半监督中文命名实体识别方法
CN111444726B (zh) 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110135457B (zh) 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN110866117B (zh) 一种基于语义增强与多层次标签嵌入的短文本分类方法
Yousfi et al. Contribution of recurrent connectionist language models in improving LSTM-based Arabic text recognition in videos
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN109003601A (zh) 一种针对低资源土家语的跨语言端到端语音识别方法
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
CN110569511A (zh) 基于混合神经网络的电子病历特征提取方法
CN112434686B (zh) 针对ocr图片的端到端含错文本分类识别仪
CN109948144B (zh) 一种基于课堂教学情境的教师话语智能处理的方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN112347269A (zh) 基于BERT和Att-BiLSTM的论点对识别方法
CN111444704A (zh) 基于深度神经网络的网络安全关键词抽取方法
CN111680684B (zh) 一种基于深度学习的书脊文本识别方法、设备及存储介质
CN108681532B (zh) 一种面向中文微博的情感分析方法
CN110134950A (zh) 一种字词结合的文本自动校对方法
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN114662495A (zh) 一种基于深度学习的英文文献污染物信息抽取方法
CN115238693A (zh) 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination