CN114662495A - 一种基于深度学习的英文文献污染物信息抽取方法 - Google Patents

一种基于深度学习的英文文献污染物信息抽取方法 Download PDF

Info

Publication number
CN114662495A
CN114662495A CN202210414714.1A CN202210414714A CN114662495A CN 114662495 A CN114662495 A CN 114662495A CN 202210414714 A CN202210414714 A CN 202210414714A CN 114662495 A CN114662495 A CN 114662495A
Authority
CN
China
Prior art keywords
model
word
entity
lstm
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210414714.1A
Other languages
English (en)
Inventor
程飞
连德如
李慧珍
游静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202210414714.1A priority Critical patent/CN114662495A/zh
Publication of CN114662495A publication Critical patent/CN114662495A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的英文文献污染物信息抽取方法,包括:构建适用于本土环境监测文献文本挖掘的术语词典;获取原始文献,并对原始文献进行语料分词,构建文献生语料;构建实体抽取模型和关系抽取模型;对文献生语料进行预处理,得到用于实体抽取模型和关系抽取模型的训练集和测试集;通过训练集对实体抽取模型和关系抽取模型进行训练,得到训练完成的实体抽取模型和关系抽取模型;将测试集输入至训练完成的实体抽取模型进行识别,得到实体识别结果;将实体识别结果和测试集数据输入至训练完成的关系抽取模型,得到关系抽取结果。本发明不仅实现了原始英文文献中化学品的命名实体识别,也对化学品及检测浓度进行了关系抽取。

Description

一种基于深度学习的英文文献污染物信息抽取方法
技术领域
本发明涉及环境科学及人工智能的技术领域,尤其涉及到一种基于深度学习的英文文献污染物信息抽取方法。
背景技术
随着环境科学的发展,针对大气、水体、沉积物、土壤等环境介质的监测数据显著增多。大量的前期研究结果提供了区域污染物的环境暴露水平,为相关研究及管理提供了参考。在大数据时代,依靠人工阅读已无法满足当前对数据全面和高效收集的需求,而通过计算机的自动化阅读,以文本挖掘的方法收集文本信息,是近些年相关领域的主要前景。
当前文本挖掘模型的研究主要是泛用式人工智能的学科交叉与拓展,其中深度学习模型针以较深的语言表达层和较高的学习效率,逐渐受到了文献综述工作的关注。当前,已被应用的领域包括结构化数据库建设、知识图谱建设、文献内容分析等。例如专利CN1041999972 B提出了对新闻数据的命名实体识别及关系抽取,构建实体网络,获得了新闻术语之间的关系;专利CN 104298651 B提出了生物医学术语的命名实体识别和蛋白质交互的关系抽取,提供了蛋白质交互关系数据检索的服务。高度依赖于术语词典的文本挖掘模型尚无法通用于不同领域。若能建立起细分领域上污染物及其关键信息的实体关系网络,就可以根据实体网络中的相关污染物信息,检索所有现有的化学品报道信息,构建环境中检出的化学品暴露数据库。因此,基于具有环境风险的化学品名录为参考自建词典,构建适用于环境监测相关文献的污染物信息实体关系网络是当前工作中需要解决的重要任务.
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于深度学习的英文文献污染物信息抽取方法,通过细分化学品名录库及深度学习网络架构对环境监测文献中的污染物信息收集、分析,并构建污染物名称和浓度之间的关系网络,得到可更新的英文术语及污染物暴露浓度信息。
为实现上述目的,本发明所提供的技术方案为:
一种基于深度学习的英文文献污染物信息抽取方法,包括:
基于现有化学品名录,构建适用于本土环境监测文献文本挖掘的术语词典;
获取原始文献,并对原始文献进行语料分词,构建文献生语料;
构建实体抽取模型和关系抽取模型;
对文献生语料进行预处理,得到用于实体抽取模型和关系抽取模型的训练集和测试集;
通过训练集对实体抽取模型和关系抽取模型进行训练,得到训练完成的实体抽取模型和关系抽取模型;
将测试集输入至训练完成的实体抽取模型进行识别,得到实体识别结果;
将实体识别结果和测试集数据输入至训练完成的关系抽取模型,得到关系抽取结果。
进一步地,对原始文献进行语料分词包括:
原始文献经基于互信息和左右熵的短语提取算法处理,得到文本片段的互信息值和左右熵;
根据互信息和左右熵对原始文献中的文本短语进行评分并排名;
提取排名靠前的文本短语加入分词词典进行文本分词,根据分词结果调整文本短语评分,得到词语边界明确的文献生语料。
进一步地,所述实体抽取模型采用Bi-LSTM+CRF模型,所述关系抽取模型采用Bi-GRU模型。
进一步地,对文献生语料进行预处理包括:
结合BIO标注模型和术语词典对文献生语料中的词语进行标注,并将标记后的词语转化为符合Bi-LSTM+CRF模型输入格式的化学品名称;
通过Bi-LSTM+CRF模型对化学品名称进行识别并输出对应的浓度;
对浓度进行识别并还原出化学品的命名实体。
进一步地,BIO标注模型的定义如下:
B表示命名实体首部字;I表示命名实体内部字;E则表示命名实体的结束;O表示非命名实体构成字;S表示单字命名实体;
将标记后的词语转化为符合Bi-LSTM+CRF模型输入格式的化学品名称,包括:
提取标注后的内容中的每个字符和字符的标签,将其加入“字符”和“字符标签”两个数组,如果该字符为预设字符,删除该字符及其字符标签,利用pad_sequences函数,将得到的数组转化为符合所述Bi-LSTM+CRF模型输入格式的化学品名称。
进一步地,通过Bi-LSTM+CRF模型对化学品名称进行识别并输出对应的浓度包括:
加载预训练的词向量,并将样本数据与词向量匹配,将匹配成功的数据生成用于模型训练的词向量矩阵;
将词向量矩阵作为embedding层输入,经过Bi-LSTM层进行编码,Bi-LSTM层的输出为词的每一个标签分值,通过挑选标签分值最高的作为该词的标签;
引入CRF层,进行句子级的序列标注;
最后识别出浓度并提取。
进一步地,经过Bi-LSTM层进行编码包括:
经过Bi-LSTM层自动提取句子特征,将一个句子的各个词的char embedding序列(x1,x2,x3,...,xn)作为Bi-LSTM各个时间步的输入,并将正向LSTM输出的隐状态
Figure BDA0003605169720000031
与反向LSTM的隐状态序列
Figure BDA0003605169720000032
在各个位置输出的隐状态进行位置拼接
Figure BDA0003605169720000033
得到完整的隐状态序列
Figure BDA0003605169720000034
Bi-LSTM层的输出为词的每一个标签分值,最后通过挑选标签分值最高的作为该词的标签。
进一步地,构建的关系抽取模型包括:
模型网络第一层为Bi-GRU;每个GRU单元分别包含包括一个重置门rt和一个更新门zt,更新门zt用于控制前一时刻输出ht-1与当前时刻输入xt中所含信息的保留程度,将其作为t时刻门控单元的输出ht;而重置门rt通过xt决定前一时刻ht-1中信息的遗忘程度,计算得到当前时刻的记忆
Figure BDA0003605169720000041
和更新门后的的当前时刻隐状态ht,t时刻GRU单元的更新门zt、重置门rt、新记忆
Figure BDA0003605169720000042
最终隐状态ht的计算如下:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure BDA0003605169720000043
Figure BDA0003605169720000044
其中,σ()为sigmoid非线性激活函数,用于增强模型对非线性数据的处理能力,σ(x)=1/(1+e-x),*表示点乘,tanh(x)=(ex-e-x)/(ex+e-x),W、Wr、Wz为模型的权值矩阵,[]表示将两个向量连接;
模型网络第二层为词级注意力层:w={w1,w2,...,wT}将ht通过下式进行处理,得到ut=tanh(Ww·ht+bw);
模型网络第三层为句级注意力层:
将词级注意力层的输出s组成的句子特征值作为句级注意力层的输入,加入随机初始化的词上下文向量us进行共同训练,v是所有句子的向量和,具体公式如下:
ui=tanh(Ws·si+bs)
Figure BDA0003605169720000045
Figure BDA0003605169720000051
模型网络第四层为Softmax分类器:
Softmax分类器将v映射到一组元素在[0,1]区间内的向量,向量和为1,如下式所示:
y=Soft max(v),y=[y1,y2,...,yN]and yi∈[0,1]and∑yi=1
其中,N为关系标签数量,即关系抽取分类数量。
进一步地,在词级注意力层训练过程中加入随机初始化的词上下文向量uw进行共同训练,通过加入词级注意层计算词与关系的相关程度,形成词级注意力层句子向量,词级注意力层计算公式如下式:
Figure BDA0003605169720000052
Figure BDA0003605169720000053
其中αt为该词ut与uw的归一化表示,s为当前时刻加权后的词向量表示。
进一步地,关系抽取模型训练当中,添加L2正则化方法对关系抽取网络进行约束,训练过程中引入dropout策略,设置压抑概率,采用批量的Adam优化方法用于模型参数训练。
与现有技术相比,本技术方案原理及优点如下:
模型的深度学习网络架构对环境监测文献进行基于化学品名称的命名实体识别及关系抽取,不仅实现了原始英文文献中化学品的命名实体识别,也对化学品及检测浓度进行了关系抽取,基于此得到一套可更新的化学品名录数据库,并构建了文献中化学品及环境检出浓度的数据集,极大提高了此类文献信息收集工作的效率,对于区域报道化学品浓度的统计工作代替人工阅读。。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种一种基于深度学习的英文文献污染物信息抽取方法的原理流程图;
图2为Bi-LSTM+CRF模型原理示意图;
图3为Bi-GRU模型原理示意。
具体实施方式
下面结合具体实施方式对本发明作进一步说明:
本实施例所述的一种基于深度学习的英文文献污染物信息抽取方法,包括
S1、基于现有化学品名录,构建适用于本土环境监测文献文本挖掘的术语词典;
S2、获取原始文献,并对原始文献进行语料分词,构建文献生语料;
本步骤中,对原始文献进行语料分词包括:
原始文献经基于互信息和左右熵的短语提取算法处理,得到文本片段的互信息值和左右熵;
根据互信息和左右熵对原始文献中的文本短语进行评分并排名;
提取排名靠前的文本短语加入分词词典进行文本分词,根据分词结果调整文本短语评分,得到词语边界明确的文献生语料。
S3、构建实体抽取模型和关系抽取模型;其中,实体抽取模型采用Bi-LSTM+CRF模型,关系抽取模型采用Bi-GRU模型。
S4、对文献生语料进行预处理,得到用于实体抽取模型和关系抽取模型的训练集和测试集;
本步骤中,对文献生语料进行预处理包括:
S4-1、结合BIO标注模型和术语词典对文献生语料中的词语进行标注,并将标记后的词语转化为符合Bi-LSTM+CRF模型输入格式的化学品名称;
BIO标注模型的定义包括:
B表示命名实体首部字;I表示命名实体内部字;E则表示命名实体的结束;O表示非命名实体构成字;S表示单字命名实体;
将标记后的词语转化为符合Bi-LSTM+CRF模型输入格式的化学品名称,包括:
提取标注后的内容中的每个字符和字符的标签,将其加入“字符”和“字符标签”两个数组,如果该字符为预设字符,删除该字符及其字符标签,利用pad_sequences函数,将得到的数组转化为符合所述Bi-LSTM+CRF模型输入格式的化学品名称。预设字符为“,。!?:‘’:;、.”。
S4-2、通过Bi-LSTM+CRF模型对化学品名称进行识别并输出对应的浓度(包括浓度值以及浓度值的单位);
本步骤包括:
加载预训练好的词向量,并使用样本数据到词向量中查表,生成训练用的词向量矩阵;
将词向量矩阵作为embedding层输入,经过Bi-LSTM层进行编码,Bi-LSTM层的输出为词的每一个标签分值,通过挑选标签分值最高的作为该词的标签;
引入CRF层,进行句子级的序列标注;
最后识别出浓度并提取。
上述中,经过Bi-LSTM层进行编码包括:
经过Bi-LSTM层自动提取句子特征,将一个句子的各个词的char embedding序列(x1,x2,x3,...,xn)作为Bi-LSTM各个时间步的输入,并将正向LSTM输出的隐状态
Figure BDA0003605169720000071
与反向LSTM的隐状态序列
Figure BDA0003605169720000072
在各个位置输出的隐状态进行位置拼接
Figure BDA0003605169720000073
得到完整的隐状态序列
Figure BDA0003605169720000074
Bi-LSTM层的输出为词的每一个标签分值,最后通过挑选标签分值最高的作为该词的标签。
S4-3、对浓度进行识别并还原出化学品的命名实体。
还原过程如下:
若当前字母Y0标注为B,则表示该字母为一个命名实体的开头,下一个字母Y1若被标注为E则表示该字母为一个命名实体的结束,Y0和Y1共同构成一个命名实体;若Y1被标注为I,则继续判断下一个字母Y2,直到字母Yn被标注为E,则Y0,Y1,Y2,…,Yn共同构成一个命名实体;如果当前字母被标注为S,则表示该字为一个单字命名实体;若当前字被标注为O,则表示该字为非实体构成字。
S5、通过训练集对实体抽取模型和关系抽取模型进行训练,得到训练完成的实体抽取模型和关系抽取模型;
上述中,关系抽取模型包括:
模型网络第一层为Bi-GRU;每个GRU单元分别包含包括一个重置门rt和一个更新门zt,更新门zt用于控制前一时刻输出ht-1与当前时刻输入xt中所含信息的保留程度,将其作为t时刻门控单元的输出ht;而重置门rt通过xt决定前一时刻ht-1中信息的遗忘程度,计算得到当前时刻的记忆
Figure BDA0003605169720000081
和更新门后的的当前时刻隐状态ht,t时刻GRU单元的更新门zt、重置门rt、新记忆
Figure BDA0003605169720000082
最终隐状态ht的计算如下:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure BDA0003605169720000083
Figure BDA0003605169720000084
其中,σ()为sigmoid非线性激活函数,用于增强模型对非线性数据的处理能力,σ(x)=1/(1+e-x),*表示点乘,tanh(x)=(ex-e-x)/(ex+e-x),W、Wr、Wz为模型的权值矩阵,[]表示将两个向量连接;
模型网络第二层为词级注意力层:w={w1,w2,...,wT}将ht通过下式进行处理,得到ut=tanh(Ww·ht+bw);
模型网络第三层为句级注意力层:
将词级注意力层的输出s组成的句子特征值作为句级注意力层的输入,加入随机初始化的词上下文向量us进行共同训练,v是所有句子的向量和,具体公式如下:
ui=tanh(Ws·si+bs)
Figure BDA0003605169720000091
Figure BDA0003605169720000092
模型网络第四层为Softmax分类器:
Softmax分类器将v映射到一组元素在[0,1]区间内的向量,向量和为1,如下式所示:
y=Soft max(v),y=[y1,y2,...,yN]and yi∈[0,1]and∑yi=1
其中,N为关系标签数量,即关系抽取分类数量。
通过加入词级注意层计算词与关系的相关程度,形成词级注意力层句子向量,词级注意力层计算公式如下式:
Figure BDA0003605169720000093
Figure BDA0003605169720000094
其中αt为该词ut与uw的归一化表示,s为当前时刻加权后的词向量表示。
关系抽取模型训练当中,添加L2正则化方法对关系抽取网络进行约束,训练过程中引入dropout策略,设置压抑概率,采用批量的Adam优化方法用于模型参数训练。
S6、将测试集输入至训练完成的实体抽取模型进行识别,得到实体识别结果;
S7、将实体识别结果和测试集数据输入至训练完成的关系抽取模型,得到关系抽取结果。
为证明本发明的有效性和优越性,下面基于深度学习的英文文献污染物信息抽取方法对页岩气特征污染物浓度信息进行命名实体识别及关系抽取。
实验数据集为Web of Science数据库中页岩气开采地污染的相关英文文献。通过训练得到的模型,测试和验证Bi-LSTM+CRF+Bi-GRU神经网络模型的有效性,测评任务是识别和抽取英文文献中的浓度和化学品实体,并提取两者的对应关系。在本次实例中,Bi-LSTM+CRF+Bi-GRU模型的实现采用了TensorFlow深度学习框架,编程语言为Python。
包括如下具体步骤:
(1)文献收集
本次实例的文献是Web of Knowledge数据库中2000年至2020年有关于页岩气开采的文献。首先在Web of Knowledge数据库上以检索式“TS=((Toxicity OR ToxicologyOR Ecotoxicology)OR(“Hydraulic Fracturing”OR“hydraulic Fracture”OR“Hydraulic-fracturing”)OR(Risk OR Evaluation)AND(Shale gas OR Shale)AND SU=(EnvironmentOR Geochemistry OR Ecology OR Toxicology)AND PY=2000-2020”来检索并收集2000-2020年关于页岩气特征污染物的文献。随机选取该领域收录的文献为研究语料,随机抽取率为10%,得到670篇文献。
(2)语料预处理
将所得到的670篇文献,用Pdfminer函数包将文献的PDF格式转换为可读写的TXT格式。加载数据集,每一行至少包含一个单词和一个标记,句子与句子之间是以空格进行分割,最后返回句子集合。用Word2Vec词向量工具作分词处理,在对分词后的文本进行英文分词和标注词性操作,得到待标注实体类型的文本。标注文本,本次实例使用的分类集标注方法为BIO体系,如表1所示。
表1.实体分类及标注体系
Figure BDA0003605169720000101
Figure BDA0003605169720000111
在对语料进行处理后的文本格式中,第一列为文本中的词语,第二列是此词的词性,第三列表示的是该词在句子中代表的实体,实例如表2所示。
表2.实体标注举例
文本中的词语 BIO标注
The O
concentration O
of O
Ethanol B-Chem
is O
16.7 B-Num
mg/L B-Conc
(3)词向量矩阵生成
本次实例使用Word2Vec词向量工具从EPA官方提供的页岩气开采地污染物列表“Hydraulic Fracturing List”的无标注语料进行训练,得到词向量,作为神经网络模型的初始词向量,使神经网络模型在初始阶段就能够应用词向量中已包含的丰富信息。其中,“Hydraulic Fracturing List”包含着1172种污染物的名称及其所有别名,别名是在语料预处理阶段通过Pubchem接口获取。Word2Vec词向量工具是直接嵌入在模型当中,无需人工进行词向量训练。
(4)基于模型训练的污染物信息拾取
i)预标注的命名实体识别
化合物名称作为第一标注,通过匹配词典后实现实体标记。浓度包括数值和单位,作为第二标注,其命名实体识别通过上述训练好的词向量矩阵作为embedding层输入到模型中,通过Bi-LSTM层的编码,原矩阵输出为词的标签分值,分值最高的作为该词的标签。引入CRF层,进行句子级的序列标注。在Bi-LSTM+CRF模型中,预测语料已经进行了文本预处理与清洗,通过分词等将文本整理为已构建模型适用的格式,预测语料经过模型输出识别结果,识别出浓度值并提取。
ii)预标注的命名实体识别
化合物的命名实体识别是以预训练好的污染物词典为参考,使用Bi-GRU模型将词典中的每一个化合物在数据集中进行词级注意力层和句级注意力层进行位置识别和实体标签识别。通过识别出浓度,定位到浓度所在的句子内,将化合物名称与句子中的文本信息比较,经过Softmax分类器,最后依据浓度的定位识别出句子中的化合物名称。经过Bi-GRU模型关系抽取网络,得到浓度及化合物名称的关系抽取结果。
已训练Bi-LSTM+CRF模型对测试数据进行识别,提取识别后的分类标签,并将相应的标签转化为相应的实体字符串,作为候选实体。根据候选实体在文本中的位置确定不同实体之间的关系。在模型中,通过Word2Vec工具得到的词向量将传给双向的LSTM层,训练模型。
对原始数据进行了以上步骤后,可获得化合物浓度的命名实体识别。但化合物名称及浓度之间的对应关系还需要Bi-GRU模型加以辅导才可获得。接下来,Bi-GRU模型将引入到Bi-LSTM+CRF模型中,在有了化合物名称和化合物浓度的命名实体识别的基础上,对之间的对应关系进行了对应及关系抽取。Bi-GRU模型将浓度数据作为实体位置信息,可以在原文本预料中定位该浓度数据,并调动“Hydraulic Fracturing List”中的1172种化合物,设置为实体标签信息,在该浓度数据所定位到的句子中将1172种化合物名称及其别名的词条逐一比对,提取出句子中的化合物名称。
使用Bi-LSTM+CRF模型获得实体位置信息和标签信息经过词向量特征的扩充,使得文本信息向量化。使用Bi-GRU模型,实体位置信息和实体标签信息经过模型网络Bi-GRU、词级注意力层、句级注意力层和Softmax分类器,对关系抽取模型进行训练,最终获得化合物名称及其浓度的对应关系。三个数据集的命名实体识别及关系抽取的结果如表3所示,并将训练集和测试集的关系抽取结果随取选取20个作为展示,如表4。
表3.数据集的实体数据统计
任务数据集 文献数量 浓度实体数量 关系抽取数量
训练集 402 275 47
验证集 134 93 16
测试集 134 88 18
合计 670 340 81
表4.页岩气污染物实体关系抽取结果展示
化合物名称 浓度数值 浓度单位
Ethane 0.1 ppb
Zinc chloride 65 mg/L
water 100 mg/L
Phenanthrene 5 mg/L
Polyoxypropylenediamine 2000 ng/L
Barium 4.62 mg/L
Ozone 19.5 ppb
Hexane 0.2 ppb
Ethane 0.7 ppb
Ethylbenzene 20 mg/kg
Aluminum 10,284 mg/kg
Arsenic 16.2 mg/kg
Barium 1,297 mg/kg
Boron 29.1 mg/kg
Cadmium 1.9 mg/kg
Copper 38.3 mg/kg
Lead 54.9 mg/kg
Nickel 28.9 mg/kg
Zinc 85.2 mg/kg
Organics 0.9 mg/kg
Benzene 15.6 mg/kg
最后,分别对Bi-LSTM+CRF+Bi-GRU模型的命名实体识别结果进行性能评价,由表5得知,模型整体的准确度为74.35%,召回率为75.81%,F1值为75.1%。
表5.各实体类型的准确度、召回率和F1值
实体类型 准确度 召回率 F1值
B-Chem 83.3% 62.5% 71.4%
B-Num 87.2% 84.2% 85.7%
B-Conc 52.5% 80.8% 63.6%
平均 74.4% 75.8% 75.1%
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (10)

1.一种基于深度学习的英文文献污染物信息抽取方法,其特征在于,包括:
基于现有化学品名录,构建适用于本土环境监测文献文本挖掘的术语词典;
获取原始文献,并对原始文献进行语料分词,构建文献生语料;
构建实体抽取模型和关系抽取模型;
对文献生语料进行预处理,得到用于实体抽取模型和关系抽取模型的训练集和测试集;
通过训练集对实体抽取模型和关系抽取模型进行训练,得到训练完成的实体抽取模型和关系抽取模型;
将测试集输入至训练完成的实体抽取模型进行识别,得到实体识别结果;
将实体识别结果和测试集数据输入至训练完成的关系抽取模型,得到浓度及化合物名称的关系抽取结果。
2.根据权利要求1所述的一种基于深度学习的英文文献污染物信息抽取方法,其特征在于,对原始文献进行语料分词包括:
原始文献经基于互信息和左右熵的短语提取算法处理,得到文本片段的互信息值和左右熵;
根据互信息和左右熵对原始文献中的文本短语进行评分并排名;
提取排名靠前的文本短语加入分词词典进行文本分词,根据分词结果调整文本短语评分,得到词语边界明确的文献生语料。
3.根据权利要求1所述的一种基于深度学习的英文文献污染物信息抽取方法,其特征在于,所述实体抽取模型采用Bi-LSTM+CRF模型,所述关系抽取模型采用Bi-GRU模型。
4.根据权利要求3所述的一种基于深度学习的英文文献污染物信息抽取方法,其特征在于,对文献生语料进行预处理包括:
结合BIO标注模型和术语词典对文献生语料中的词语进行标注,并将标记后的词语转化为符合Bi-LSTM+CRF模型输入格式的化学品名称;
通过Bi-LSTM+CRF模型对化学品名称进行识别并输出对应的浓度;
对浓度进行识别并还原出化学品的命名实体。
5.根据权利要求4所述的一种基于深度学习的英文文献污染物信息抽取方法,其特征在于,BIO标注模型的定义包括:
B表示命名实体首部字;I表示命名实体内部字;E则表示命名实体的结束;O表示非命名实体构成字;S表示单字命名实体;
将标记后的词语转化为符合Bi-LSTM+CRF模型输入格式的化学品名称,包括:
提取标注后的内容中的每个字符和字符的标签,将其加入“字符”和“字符标签”两个数组,如果该字符为预设字符,删除该字符及其字符标签,利用pad_sequences函数,将得到的数组转化为符合所述Bi-LSTM+CRF模型输入格式的化学品名称。
6.根据权利要求4所述的一种基于深度学习的英文文献污染物信息抽取方法,其特征在于,通过Bi-LSTM+CRF模型对化学品名称进行识别并输出对应的浓度包括:
加载预训练的词向量,并将样本数据与词向量匹配,将匹配成功的数据生成用于模型训练的词向量矩阵;
将词向量矩阵作为embedding层输入,经过Bi-LSTM层进行编码,Bi-LSTM层的输出为词的每一个标签分值,通过挑选标签分值最高的作为该词的标签;
引入CRF层,进行句子级的序列标注;
最后识别出浓度并提取。
7.根据权利要求6所述的一种基于深度学习的英文文献污染物信息抽取方法,其特征在于,经过Bi-LSTM层进行编码包括:
经过Bi-LSTM层自动提取句子特征,将一个句子的各个词的char embedding序列(x1,x2,x3,...,xn)作为Bi-LSTM各个时间步的输入,并将正向LSTM输出的隐状态
Figure FDA0003605169710000031
与反向LSTM的隐状态序列
Figure FDA0003605169710000032
在各个位置输出的隐状态进行位置拼接
Figure FDA0003605169710000033
得到完整的隐状态序列
Figure FDA0003605169710000034
Bi-LSTM层的输出为词的每一个标签分值,最后通过挑选标签分值最高的作为该词的标签。
8.根据权利要求1所述的一种基于深度学习的英文文献污染物信息抽取方法,其特征在于,构建的关系抽取模型包括:
模型网络第一层为Bi-GRU;每个GRU单元分别包含包括一个重置门rt和一个更新门zt,更新门zt用于控制前一时刻输出ht-1与当前时刻输入xt中所含信息的保留程度,将其作为t时刻门控单元的输出ht;而重置门rt通过xt决定前一时刻ht-1中信息的遗忘程度,计算得到当前时刻的记忆
Figure FDA0003605169710000035
和更新门后的的当前时刻隐状态ht,t时刻GRU单元的更新门zt、重置门rt、新记忆
Figure FDA0003605169710000038
最终隐状态ht的计算如下:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure FDA0003605169710000036
Figure FDA0003605169710000037
其中,σ()为sigmoid非线性激活函数,用于增强模型对非线性数据的处理能力,σ(x)=1/(1+e-x),*表示点乘,tanh(x)=(ex-e-x)/(ex+e-x),W、Wr、Wz为模型的权值矩阵,[]表示将两个向量连接;
模型网络第二层为词级注意力层:w={w1,w2,...,wT}将ht通过下式进行处理,得到ut=tanh(Ww·ht+bw);
模型网络第三层为句级注意力层:
将词级注意力层的输出s组成的句子特征值作为句级注意力层的输入,加入随机初始化的词上下文向量us进行共同训练,v是所有句子的向量和,具体公式如下:
ui=tanh(Ws·si+bs)
Figure FDA0003605169710000041
Figure FDA0003605169710000042
模型网络第四层为Softmax分类器:
Softmax分类器将v映射到一组元素在[0,1]区间内的向量,向量和为1,如下式所示:
y=Softmax(v),y=[y1,y2,...,yN]andyi∈[0,1]and∑yi=1
其中,N为关系标签数量,即关系抽取分类数量。
9.根据权利要求8所述的一种基于深度学习的英文文献污染物信息抽取方法,其特征在于,在词级注意力层训练过程中加入随机初始化的词上下文向量uw进行共同训练,通过加入词级注意力层计算词与关系的相关程度,形成词级注意力层句子向量,词级注意力层计算公式如下式:
Figure FDA0003605169710000043
Figure FDA0003605169710000044
其中αt为该词ut与uw的归一化表示,s为当前时刻加权后的词向量表示。
10.根据权利要求9所述的一种基于深度学习的英文文献污染物信息抽取方法,其特征在于,关系抽取模型训练当中,添加L2正则化方法对关系抽取网络进行约束,训练过程中引入dropout策略,设置压抑概率,采用批量的Adam优化方法用于模型参数训练。
CN202210414714.1A 2022-04-20 2022-04-20 一种基于深度学习的英文文献污染物信息抽取方法 Pending CN114662495A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210414714.1A CN114662495A (zh) 2022-04-20 2022-04-20 一种基于深度学习的英文文献污染物信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210414714.1A CN114662495A (zh) 2022-04-20 2022-04-20 一种基于深度学习的英文文献污染物信息抽取方法

Publications (1)

Publication Number Publication Date
CN114662495A true CN114662495A (zh) 2022-06-24

Family

ID=82036026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210414714.1A Pending CN114662495A (zh) 2022-04-20 2022-04-20 一种基于深度学习的英文文献污染物信息抽取方法

Country Status (1)

Country Link
CN (1) CN114662495A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146031A (zh) * 2022-07-06 2022-10-04 四川乐为科技有限公司 一种基于深度学习和辅助特征的短文本立场检测方法
CN115630171A (zh) * 2022-12-21 2023-01-20 白杨时代(北京)科技有限公司 一种实体关系联合抽取方法及装置
CN116070602A (zh) * 2023-01-05 2023-05-05 中国科学院计算机网络信息中心 一种pdf文档智能标注与抽取方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146031A (zh) * 2022-07-06 2022-10-04 四川乐为科技有限公司 一种基于深度学习和辅助特征的短文本立场检测方法
CN115146031B (zh) * 2022-07-06 2024-05-14 四川乐为科技有限公司 一种基于深度学习和辅助特征的短文本立场检测方法
CN115630171A (zh) * 2022-12-21 2023-01-20 白杨时代(北京)科技有限公司 一种实体关系联合抽取方法及装置
CN116070602A (zh) * 2023-01-05 2023-05-05 中国科学院计算机网络信息中心 一种pdf文档智能标注与抽取方法
CN116070602B (zh) * 2023-01-05 2023-10-17 中国科学院计算机网络信息中心 一种pdf文档智能标注与抽取方法

Similar Documents

Publication Publication Date Title
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN114662495A (zh) 一种基于深度学习的英文文献污染物信息抽取方法
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN112989841B (zh) 一种用于突发事件新闻识别与分类的半监督学习方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN111966917A (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN110750635B (zh) 一种基于联合深度学习模型的法条推荐方法
CN110413768A (zh) 一种文章题目自动生成方法
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN111476036A (zh) 一种基于中文单词特征子串的词嵌入学习方法
CN112597366B (zh) 基于Encoder-Decoder的事件抽取方法
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
CN111444704A (zh) 基于深度神经网络的网络安全关键词抽取方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
CN115510863A (zh) 一种面向问句匹配任务的数据增强方法
CN111428501A (zh) 命名实体的识别方法、识别系统及计算机可读存储介质
CN110929518B (zh) 一种使用重叠拆分规则的文本序列标注算法
CN113204967A (zh) 简历命名实体识别方法及系统
CN111967267A (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN112101014A (zh) 一种混合特征融合的中文化工文献分词方法
CN111444720A (zh) 一种英文文本的命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination