CN114580421A - 一种基于改进神经网络的页岩气实体识别方法 - Google Patents
一种基于改进神经网络的页岩气实体识别方法 Download PDFInfo
- Publication number
- CN114580421A CN114580421A CN202210220954.8A CN202210220954A CN114580421A CN 114580421 A CN114580421 A CN 114580421A CN 202210220954 A CN202210220954 A CN 202210220954A CN 114580421 A CN114580421 A CN 114580421A
- Authority
- CN
- China
- Prior art keywords
- shale gas
- neural network
- network
- entity identification
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种基于改进神经网络的页岩气实体识别方法,属于页岩气与自然语言处理领域。该方法首先对页岩气人工标注数据进行预处理,将字映射为具有上下文语义的密集向量序列,传输给卷积神经网络对其过滤句中局部语境对实体识别的影响;再通过双向长短期记忆网络来捕获页岩气标注处上下文的隐藏状态,利用注意力机制,关注句中标签,通过相似信息预测字符标签,来解决标注不一致问题;最终上传至条件随机场,对其结果进一步约束,达到实体分类的效果。本发明可快速、高效的识别页岩气领域相关实体名称,为页岩气智能分析系统提供首个页岩气高精度实体识别方法。
Description
技术领域
本发明涉及页岩气与自然语言处理领域,具体涉及是一种基于改进神经网络的页岩气实体识别方法。
背景技术
随着非常规油气勘探开发节奏加快,为进一步深化页岩气数据信息化处理,构建智能分析系统,需先对其底层数据进行分析处理,抽取相应实体对象。但传统页岩气数据分析中大多是对结构化数据进行研究,利用数据仓库工具进行挖掘。并未使用到先进的命名体识别(NER)技术。
命名体识别技术(NER)作为语义抽取的技术关键,对样本中实体名称识别,并分类。在NER研究的多年中,大多针对英文文本,少数中文NER又使用在一些特定领域,未在页岩气领域使用。如:孙德刚提出医学NER的LSTM-CRF模型,结合拼写特征、上下文特征及字向量来构建单词特征;Chiu和Nichols提出使用LSTM和CNN网络来学习单词和字符级特征;Cho等人则是引入多种语料库训练模型,提出一个生物医学NER的LSTM-CRF模型,提高模型精度。
然而页岩气领域与其它领域相比,数据结构杂乱,存在大量术语缩写及不完整文本;无固定表达模式,所以复制其他领域实体识别方法到页岩气领域富具挑战。
发明内容
本发明的出发点在于克服原有技术的不足,而提供一种基于改进神经网络的页岩气实体识别方法,该方法通过引入注意力机制,解决页岩气领域数据结构杂乱,存在大量术语缩写及不完整文本所导致的实体标签前后不一致的问题,使之更适配页岩气领域,成为页岩气领域首个实体识别方法。
为实现所述发明目的,所提供的技术方案是一种基于改进神经网络的页岩气实体识别方法,其特征在于,包括以下步骤:
1)对页岩气人工标注原始数据进行预处理,将字逐一映射为具有上下文语义的密集向量序列;
2)将步骤1)中所得密集向量序列上传至卷积神经网络,通过约束卷积神经网络中的过滤器大小,过滤句中局部语境对页岩气实体识别的影响,得到过滤后的语义特征;
3)将步骤2)中所得语义特征上传至双向长短期记忆网络,根据语义特征上下文序列信息来捕获标记的隐藏状态,得到页岩气的全局语义特征;
4)将步骤3)中全局语义特征上传至注意力机制,通过训练其关注句中标注,利用相似信息预测字符标签,来解决人工标注数据中实体标签前后不一致的问题;
5)将最终数据上传至条件随机场,通过一阶线性链条件随机场联合解码,进一步约束其输出结果,得到训练样本的负对数似然损失函数,优化其函数,得到页岩气实体识别结果。
根据以上所述,对页岩气领域因使用综上所述实体识别方案,本发明的有益效果是:
本发明根据页岩气领域实际复杂情况出发,使用了一个基于混合神经网络的改进实体识别框架;通过卷积神经网络很好的过滤掉了句中局部语境对页岩气实体识别的影响,进一步与双向长短期记忆网络相结合,根据上下文序列信息来捕获标记的隐藏状态,更好的统领页岩气的全局语义特征,再引入注意力机制,有效的解决页岩气领域数据结构杂乱,存在大量术语缩写及不完整文本所导致的实体标签前后不一致的问题,使之更适配页岩气领域。最后再由一阶线性链条件随机场联合解码,进一步约束其输出结果,保证其实体识别方法的高效精准性。
附图说明
图1是本页岩气实体识别方法的整体流程图;
图2是本页岩气实体识别方法具体实施的框架结构分析图;
图3是本页岩气实体识别方法中的双向长短期记忆网络(BiLSTM)原理图。
具体实施方式
本发明是一种基于改进神经网络的页岩气实体识别方法,其具体流程,如图1所示,其特征在于,包括以下步骤:
1)对页岩气人工标注原始数据进行预处理,将字逐一映射为具有上下文语义的密集向量序列;
2)将步骤1)中所得密集向量序列上传至卷积神经网络,通过约束卷积神经网络中的过滤器大小,过滤句中局部语境对页岩气实体识别的影响,得到过滤后的语义特征;
3)将步骤2)中所得语义特征上传至双向长短期记忆网络,根据语义特征上下文序列信息来捕获标记的隐藏状态,得到页岩气的全局语义特征;
4)将步骤3)中全局语义特征上传至注意力机制,通过训练其关注句中标注,利用相似信息预测字符标签,来解决人工标注数据中实体标签前后不一致的问题;
5)将最终数据上传至条件随机场,通过一阶线性链条件随机场联合解码,进一步约束其输出结果,得到训练样本的负对数似然损失函数,优化其函数,得到页岩气实体识别结果。
再具体而言,如图2所示,为页岩气实体识别具体实施的框架结构分析图。
框架结构自下而上依次为:字向量层、卷积神经网络(CNN)层、双向长短期记忆网络(BiLSTM)层、注意力机制层、和条件随机场(CRF)层。
在第一层,输入句子的字向量xi通过字向量层将字映射为具有上下文语义的密集向量序列,得到输出向量[x1,x2,...,xN]。
xi=Ewi∈RD,
式中,E∈RD×V为每个字符映射为密集向量的嵌入矩阵,D为向量维数,V为词汇量。s=[w1,w2,...,wN]为输入句子,N为句子长度,wi∈RV为第i字向量的one-hot表示。
在第二层,CNN过滤句中局部语境对页岩气实体识别的影响。如:“2018”可以是时间实体中的“2018年”,也可以是无用信息中的量词;为区分信息实体,提取语义信息,用w∈RKD作为CNN层中的过滤器,K为通道窗口尺寸;使用多个窗口大小不同的过滤器来学习上下文语义特征,将过滤器提取的第i个语义特征表示为:
在第三层,BiLSTM网络层可根据长距离序列信息捕获标记的隐藏状态,如图3所示,为正向隐层输出序列,为反向隐层输出序列;CNN层输出c=[c1,c1,...,cN]在BiLSTM层作为各时刻输入,使和进行拼接,得到BiLSTM层的输出b;
b=[b1,b2,...,bN],
此外,该模型在BiLSTM和CRF层之间还存在一注意力机制层;通过训练模型关注句中标注,利用相似信息预测字符标签,以解决标注不一致问题;
用ρ=[w1,w2,...,wt,wN]作为输入句子,通过计算句中目标词wt和其他词wi的得分函数,来计算两词之间相似度:
score(wt,wi)=Wa|wt-wi|,
式中Wa为可训练权重矩阵;
然后用Softmax函数将其标准化,生成以wt为条件的注意力权重αt,i:
从而,对目标词来说,形成注意力层输出οt:
在第五层为条件随机场(CRF)。CRF是一种概率模型,可通过相邻标签具有强相关性,进一步约束其输出结果,保证最终输出的有效性;
相比独立标签解码,本层使用一阶线性链CRF联合解码来提高模型效率;用y=[y1,y2,...,yN]表示为s的标签序列,yi∈RL为第i个字符的one-hot表达,L为标签数;o=[o1,o2,...,oN]为CRF层输入,标签序列y为CRF层输出,得到y与ο的计算公式:
式中ν(s)为全部句子s的标签序列集合,ψ(oi,yi,yi-1)为势函数,θ为参数集;
式中M∈R2S×L,T∈RL×L;等式中θ={M,T}
训练样本的负对数似然损失函数,如下:
S是训练数据中的句子集,os与ys是注意力机制层与BiLSTM联合输出和标签序列;
最后再使用Adam优化器对训练样本中的负对数似然损失函数进行优化,提高页岩气实体识别方法精度。在CRF层输出结果中,选择得分最高的标签序列作为改进神经网络页岩气实体识别结果。
综上所述,仅为本页岩气实体识别方法效果较佳实施例而已,并不是用来约束本发明,凡在本发明的精神与原则范围内所作的相关修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于改进神经网络的页岩气实体识别方法,其特征在于,包括以下步骤:
1)对页岩气人工标注原始数据进行预处理,将字逐一映射为具有上下文语义的密集向量序列;
2)将步骤1)中所得密集向量序列上传至卷积神经网络(CNN),通过约束卷积神经网络中的过滤器大小,过滤句中局部语境对页岩气实体识别的影响,得到过滤后的语义特征;
3)将步骤2)中所得语义特征上传至双向长短期记忆网络(BiLSTM),根据语义特征上下文序列信息来捕获标记的隐藏状态,得到页岩气的全局语义特征;
4)将步骤3)中全局语义特征上传至注意力机制,通过训练其关注句中标注,利用相似信息预测字符标签,来解决人工标注数据中实体标签前后不一致的问题;
5)将最终数据上传至条件随机场(CRF),通过一阶线性链条件随机场联合解码,进一步约束其输出结果,得到训练样本的负对数似然损失函数,优化其函数,得到页岩气实体识别结果。
2.根据权利要求1所述的一种基于改进神经网络的页岩气实体识别方法,其特征在于,步骤1)的详细步骤为:
在步骤1)中,输入句子的字向量xi通过字向量层将字映射为具有上下文语义的密集向量序列,得到输出向量[x1,x2,...,xN];
xi=Ewi∈RD,
式中,E∈RD×V为每个字符映射为密集向量的嵌入矩阵,D为向量维数,V为词汇量,s=[w1,w2,...,wN]为输入句子,N为句子长度,wi∈RV为第i字向量的one-hot表示。
6.根据权利要求1所述的一种基于改进神经网络的页岩气实体识别方法,其特征在于,5)的详细步骤为:
在步骤5)中条件随机场(CRF)是一种概率模型,可通过相邻标签具有强相关性,进一步约束其输出结果,保证最终输出的有效性;
相比独立标签解码,本网络使用一阶线性链CRF联合解码来提高模型效率;用y=[y1,y2,...,yN]表示为s的标签序列,yi∈RL为第i个字符的one-hot表达,L为标签数;o=[o1,o2,...,oN]为CRF网络输入,标签序列y为CRF网络输出,得到y与ο的计算公式:
式中ν(s)为全部句子s的标签序列集合,ψ(oi,yi,yi-1)为势函数,θ为参数集;
式中M∈R2S×L,T∈RL×L;等式中θ={M,T},
训练样本的负对数似然损失函数,如下:
S是训练数据中的句子集,os与ys是注意力机制与BiLSTM网络联合输出和标签序列;
最后再使用Adam优化器对训练样本中的负对数似然损失函数进行优化,提高页岩气实体识别方法精度。在CRF网络输出结果中,选择得分最高的标签序列作为改进神经网络页岩气实体识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210220954.8A CN114580421A (zh) | 2022-03-08 | 2022-03-08 | 一种基于改进神经网络的页岩气实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210220954.8A CN114580421A (zh) | 2022-03-08 | 2022-03-08 | 一种基于改进神经网络的页岩气实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114580421A true CN114580421A (zh) | 2022-06-03 |
Family
ID=81774143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210220954.8A Pending CN114580421A (zh) | 2022-03-08 | 2022-03-08 | 一种基于改进神经网络的页岩气实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114580421A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117012373A (zh) * | 2023-10-07 | 2023-11-07 | 广州市妇女儿童医疗中心 | 一种葡萄胎辅助检查模型的训练方法、应用方法及系统 |
-
2022
- 2022-03-08 CN CN202210220954.8A patent/CN114580421A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117012373A (zh) * | 2023-10-07 | 2023-11-07 | 广州市妇女儿童医疗中心 | 一种葡萄胎辅助检查模型的训练方法、应用方法及系统 |
CN117012373B (zh) * | 2023-10-07 | 2024-02-23 | 广州市妇女儿童医疗中心 | 一种葡萄胎辅助检查模型的训练方法、应用方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959252B (zh) | 基于深度学习的半监督中文命名实体识别方法 | |
CN111444726B (zh) | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110135457B (zh) | 基于自编码器融合文档信息的事件触发词抽取方法及系统 | |
CN110866117B (zh) | 一种基于语义增强与多层次标签嵌入的短文本分类方法 | |
Yousfi et al. | Contribution of recurrent connectionist language models in improving LSTM-based Arabic text recognition in videos | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN109003601A (zh) | 一种针对低资源土家语的跨语言端到端语音识别方法 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN112541356B (zh) | 一种生物医学命名实体识别的方法和系统 | |
CN110569511A (zh) | 基于混合神经网络的电子病历特征提取方法 | |
CN112434686B (zh) | 针对ocr图片的端到端含错文本分类识别仪 | |
CN109948144B (zh) | 一种基于课堂教学情境的教师话语智能处理的方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN112347269A (zh) | 基于BERT和Att-BiLSTM的论点对识别方法 | |
CN111444704A (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
CN111680684B (zh) | 一种基于深度学习的书脊文本识别方法、设备及存储介质 | |
CN108681532B (zh) | 一种面向中文微博的情感分析方法 | |
CN110134950A (zh) | 一种字词结合的文本自动校对方法 | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN114662495A (zh) | 一种基于深度学习的英文文献污染物信息抽取方法 | |
CN115238693A (zh) | 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |