CN114662495A

CN114662495A - 一种基于深度学习的英文文献污染物信息抽取方法

Info

Publication number: CN114662495A
Application number: CN202210414714.1A
Authority: CN
Inventors: 程飞; 连德如; 李慧珍; 游静
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2022-06-24

Abstract

本发明公开了一种基于深度学习的英文文献污染物信息抽取方法，包括：构建适用于本土环境监测文献文本挖掘的术语词典；获取原始文献，并对原始文献进行语料分词，构建文献生语料；构建实体抽取模型和关系抽取模型；对文献生语料进行预处理，得到用于实体抽取模型和关系抽取模型的训练集和测试集；通过训练集对实体抽取模型和关系抽取模型进行训练，得到训练完成的实体抽取模型和关系抽取模型；将测试集输入至训练完成的实体抽取模型进行识别，得到实体识别结果；将实体识别结果和测试集数据输入至训练完成的关系抽取模型，得到关系抽取结果。本发明不仅实现了原始英文文献中化学品的命名实体识别，也对化学品及检测浓度进行了关系抽取。

Description

一种基于深度学习的英文文献污染物信息抽取方法

技术领域

本发明涉及环境科学及人工智能的技术领域，尤其涉及到一种基于深度学习的英文文献污染物信息抽取方法。

背景技术

随着环境科学的发展，针对大气、水体、沉积物、土壤等环境介质的监测数据显著增多。大量的前期研究结果提供了区域污染物的环境暴露水平，为相关研究及管理提供了参考。在大数据时代，依靠人工阅读已无法满足当前对数据全面和高效收集的需求，而通过计算机的自动化阅读，以文本挖掘的方法收集文本信息，是近些年相关领域的主要前景。

当前文本挖掘模型的研究主要是泛用式人工智能的学科交叉与拓展，其中深度学习模型针以较深的语言表达层和较高的学习效率，逐渐受到了文献综述工作的关注。当前，已被应用的领域包括结构化数据库建设、知识图谱建设、文献内容分析等。例如专利CN1041999972 B提出了对新闻数据的命名实体识别及关系抽取，构建实体网络，获得了新闻术语之间的关系；专利CN 104298651 B提出了生物医学术语的命名实体识别和蛋白质交互的关系抽取，提供了蛋白质交互关系数据检索的服务。高度依赖于术语词典的文本挖掘模型尚无法通用于不同领域。若能建立起细分领域上污染物及其关键信息的实体关系网络，就可以根据实体网络中的相关污染物信息，检索所有现有的化学品报道信息，构建环境中检出的化学品暴露数据库。因此，基于具有环境风险的化学品名录为参考自建词典，构建适用于环境监测相关文献的污染物信息实体关系网络是当前工作中需要解决的重要任务.

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于深度学习的英文文献污染物信息抽取方法,通过细分化学品名录库及深度学习网络架构对环境监测文献中的污染物信息收集、分析，并构建污染物名称和浓度之间的关系网络，得到可更新的英文术语及污染物暴露浓度信息。

为实现上述目的，本发明所提供的技术方案为：

一种基于深度学习的英文文献污染物信息抽取方法，包括：

基于现有化学品名录，构建适用于本土环境监测文献文本挖掘的术语词典；

获取原始文献，并对原始文献进行语料分词，构建文献生语料；

构建实体抽取模型和关系抽取模型；

对文献生语料进行预处理，得到用于实体抽取模型和关系抽取模型的训练集和测试集；

通过训练集对实体抽取模型和关系抽取模型进行训练，得到训练完成的实体抽取模型和关系抽取模型；

将测试集输入至训练完成的实体抽取模型进行识别，得到实体识别结果；

将实体识别结果和测试集数据输入至训练完成的关系抽取模型，得到关系抽取结果。

进一步地，对原始文献进行语料分词包括：

原始文献经基于互信息和左右熵的短语提取算法处理，得到文本片段的互信息值和左右熵；

根据互信息和左右熵对原始文献中的文本短语进行评分并排名；

提取排名靠前的文本短语加入分词词典进行文本分词，根据分词结果调整文本短语评分，得到词语边界明确的文献生语料。

进一步地，所述实体抽取模型采用Bi-LSTM+CRF模型，所述关系抽取模型采用Bi-GRU模型。

进一步地，对文献生语料进行预处理包括：

结合BIO标注模型和术语词典对文献生语料中的词语进行标注，并将标记后的词语转化为符合Bi-LSTM+CRF模型输入格式的化学品名称；

通过Bi-LSTM+CRF模型对化学品名称进行识别并输出对应的浓度；

对浓度进行识别并还原出化学品的命名实体。

进一步地，BIO标注模型的定义如下：

B表示命名实体首部字；I表示命名实体内部字；E则表示命名实体的结束；O表示非命名实体构成字；S表示单字命名实体；

将标记后的词语转化为符合Bi-LSTM+CRF模型输入格式的化学品名称，包括：

提取标注后的内容中的每个字符和字符的标签，将其加入“字符”和“字符标签”两个数组，如果该字符为预设字符，删除该字符及其字符标签，利用pad_sequences函数，将得到的数组转化为符合所述Bi-LSTM+CRF模型输入格式的化学品名称。

进一步地，通过Bi-LSTM+CRF模型对化学品名称进行识别并输出对应的浓度包括：

加载预训练的词向量，并将样本数据与词向量匹配，将匹配成功的数据生成用于模型训练的词向量矩阵；

将词向量矩阵作为embedding层输入，经过Bi-LSTM层进行编码，Bi-LSTM层的输出为词的每一个标签分值，通过挑选标签分值最高的作为该词的标签；

引入CRF层，进行句子级的序列标注；

最后识别出浓度并提取。

进一步地，经过Bi-LSTM层进行编码包括：

经过Bi-LSTM层自动提取句子特征，将一个句子的各个词的char embedding序列(x₁,x₂,x₃,...,x_n)作为Bi-LSTM各个时间步的输入，并将正向LSTM输出的隐状态

与反向LSTM的隐状态序列

在各个位置输出的隐状态进行位置拼接

得到完整的隐状态序列

Bi-LSTM层的输出为词的每一个标签分值，最后通过挑选标签分值最高的作为该词的标签。

进一步地，构建的关系抽取模型包括：

模型网络第一层为Bi-GRU；每个GRU单元分别包含包括一个重置门r_t和一个更新门z_t，更新门z_t用于控制前一时刻输出h_t-1与当前时刻输入x_t中所含信息的保留程度，将其作为t时刻门控单元的输出h_t；而重置门r_t通过x_t决定前一时刻h_t-1中信息的遗忘程度，计算得到当前时刻的记忆

和更新门后的的当前时刻隐状态h_t，t时刻GRU单元的更新门z_t、重置门r_t、新记忆

最终隐状态h_t的计算如下:

z_t＝σ(W_z·[h_t-1,x_t])

r_t＝σ(W_r·[h_t-1,x_t])

其中，σ()为sigmoid非线性激活函数，用于增强模型对非线性数据的处理能力，σ(x)＝1/(1+e^-x),*表示点乘，tanh(x)＝(e^x-e^-x)/(e^x+e^-x)，W、W_r、W_z为模型的权值矩阵，[]表示将两个向量连接；

模型网络第二层为词级注意力层：w＝{w₁,w₂,...,w_T}将h_t通过下式进行处理，得到u_t＝tanh(W_w·h_t+b_w)；

模型网络第三层为句级注意力层：

将词级注意力层的输出s组成的句子特征值作为句级注意力层的输入，加入随机初始化的词上下文向量u_s进行共同训练，v是所有句子的向量和，具体公式如下:

u_i＝tanh(W_s·s_i+b_s)

模型网络第四层为Softmax分类器:

Softmax分类器将v映射到一组元素在[0,1]区间内的向量，向量和为1，如下式所示:

y＝Soft max(v),y＝[y₁,y₂,...,y_N]and y_i∈[0,1]and∑y_i＝1

其中，N为关系标签数量，即关系抽取分类数量。

进一步地，在词级注意力层训练过程中加入随机初始化的词上下文向量u_w进行共同训练，通过加入词级注意层计算词与关系的相关程度，形成词级注意力层句子向量，词级注意力层计算公式如下式：

其中α_t为该词u_t与u_w的归一化表示，s为当前时刻加权后的词向量表示。

进一步地，关系抽取模型训练当中，添加L₂正则化方法对关系抽取网络进行约束，训练过程中引入dropout策略，设置压抑概率，采用批量的Adam优化方法用于模型参数训练。

与现有技术相比，本技术方案原理及优点如下：

模型的深度学习网络架构对环境监测文献进行基于化学品名称的命名实体识别及关系抽取，不仅实现了原始英文文献中化学品的命名实体识别，也对化学品及检测浓度进行了关系抽取，基于此得到一套可更新的化学品名录数据库，并构建了文献中化学品及环境检出浓度的数据集，极大提高了此类文献信息收集工作的效率，对于区域报道化学品浓度的统计工作代替人工阅读。。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种一种基于深度学习的英文文献污染物信息抽取方法的原理流程图；

图2为Bi-LSTM+CRF模型原理示意图；

图3为Bi-GRU模型原理示意。

具体实施方式

下面结合具体实施方式对本发明作进一步说明：

本实施例所述的一种基于深度学习的英文文献污染物信息抽取方法，包括

S1、基于现有化学品名录，构建适用于本土环境监测文献文本挖掘的术语词典；

S2、获取原始文献，并对原始文献进行语料分词，构建文献生语料；

本步骤中，对原始文献进行语料分词包括：

S3、构建实体抽取模型和关系抽取模型；其中，实体抽取模型采用Bi-LSTM+CRF模型，关系抽取模型采用Bi-GRU模型。

S4、对文献生语料进行预处理，得到用于实体抽取模型和关系抽取模型的训练集和测试集；

本步骤中，对文献生语料进行预处理包括：

S4-1、结合BIO标注模型和术语词典对文献生语料中的词语进行标注，并将标记后的词语转化为符合Bi-LSTM+CRF模型输入格式的化学品名称；

BIO标注模型的定义包括：

提取标注后的内容中的每个字符和字符的标签，将其加入“字符”和“字符标签”两个数组，如果该字符为预设字符，删除该字符及其字符标签，利用pad_sequences函数，将得到的数组转化为符合所述Bi-LSTM+CRF模型输入格式的化学品名称。预设字符为“，。！？:‘’:；、.”。

S4-2、通过Bi-LSTM+CRF模型对化学品名称进行识别并输出对应的浓度(包括浓度值以及浓度值的单位)；

本步骤包括：

加载预训练好的词向量，并使用样本数据到词向量中查表，生成训练用的词向量矩阵；

引入CRF层，进行句子级的序列标注；

最后识别出浓度并提取。

上述中，经过Bi-LSTM层进行编码包括：

与反向LSTM的隐状态序列

在各个位置输出的隐状态进行位置拼接

得到完整的隐状态序列

S4-3、对浓度进行识别并还原出化学品的命名实体。

还原过程如下:

若当前字母Y0标注为B，则表示该字母为一个命名实体的开头，下一个字母Y1若被标注为E则表示该字母为一个命名实体的结束，Y0和Y1共同构成一个命名实体；若Y1被标注为I,则继续判断下一个字母Y2，直到字母Yn被标注为E，则Y0,Y1,Y2,…,Yn共同构成一个命名实体；如果当前字母被标注为S，则表示该字为一个单字命名实体；若当前字被标注为O，则表示该字为非实体构成字。

S5、通过训练集对实体抽取模型和关系抽取模型进行训练，得到训练完成的实体抽取模型和关系抽取模型；

上述中，关系抽取模型包括：

最终隐状态h_t的计算如下:

z_t＝σ(W_z·[h_t-1,x_t])

r_t＝σ(W_r·[h_t-1,x_t])

模型网络第三层为句级注意力层：

u_i＝tanh(W_s·s_i+b_s)

模型网络第四层为Softmax分类器:

y＝Soft max(v),y＝[y₁,y₂,...,y_N]and y_i∈[0,1]and∑y_i＝1

其中，N为关系标签数量，即关系抽取分类数量。

通过加入词级注意层计算词与关系的相关程度，形成词级注意力层句子向量，词级注意力层计算公式如下式：

关系抽取模型训练当中，添加L₂正则化方法对关系抽取网络进行约束，训练过程中引入dropout策略，设置压抑概率，采用批量的Adam优化方法用于模型参数训练。

S6、将测试集输入至训练完成的实体抽取模型进行识别，得到实体识别结果；

S7、将实体识别结果和测试集数据输入至训练完成的关系抽取模型，得到关系抽取结果。

为证明本发明的有效性和优越性，下面基于深度学习的英文文献污染物信息抽取方法对页岩气特征污染物浓度信息进行命名实体识别及关系抽取。

实验数据集为Web of Science数据库中页岩气开采地污染的相关英文文献。通过训练得到的模型，测试和验证Bi-LSTM+CRF+Bi-GRU神经网络模型的有效性，测评任务是识别和抽取英文文献中的浓度和化学品实体，并提取两者的对应关系。在本次实例中，Bi-LSTM+CRF+Bi-GRU模型的实现采用了TensorFlow深度学习框架，编程语言为Python。

包括如下具体步骤：

(1)文献收集

本次实例的文献是Web of Knowledge数据库中2000年至2020年有关于页岩气开采的文献。首先在Web of Knowledge数据库上以检索式“TS＝((Toxicity OR ToxicologyOR Ecotoxicology)OR(“Hydraulic Fracturing”OR“hydraulic Fracture”OR“Hydraulic-fracturing”)OR(Risk OR Evaluation)AND(Shale gas OR Shale)AND SU＝(EnvironmentOR Geochemistry OR Ecology OR Toxicology)AND PY＝2000-2020”来检索并收集2000-2020年关于页岩气特征污染物的文献。随机选取该领域收录的文献为研究语料，随机抽取率为10％，得到670篇文献。

(2)语料预处理

将所得到的670篇文献，用Pdfminer函数包将文献的PDF格式转换为可读写的TXT格式。加载数据集，每一行至少包含一个单词和一个标记，句子与句子之间是以空格进行分割，最后返回句子集合。用Word2Vec词向量工具作分词处理，在对分词后的文本进行英文分词和标注词性操作，得到待标注实体类型的文本。标注文本，本次实例使用的分类集标注方法为BIO体系，如表1所示。

表1.实体分类及标注体系

在对语料进行处理后的文本格式中，第一列为文本中的词语，第二列是此词的词性，第三列表示的是该词在句子中代表的实体，实例如表2所示。

表2.实体标注举例

文本中的词语	BIO标注
		The	O
concentration	O
		of	O
Ethanol	B-Chem
		is	O
16.7	B-Num
		mg/L	B-Conc

(3)词向量矩阵生成

本次实例使用Word2Vec词向量工具从EPA官方提供的页岩气开采地污染物列表“Hydraulic Fracturing List”的无标注语料进行训练，得到词向量，作为神经网络模型的初始词向量，使神经网络模型在初始阶段就能够应用词向量中已包含的丰富信息。其中，“Hydraulic Fracturing List”包含着1172种污染物的名称及其所有别名，别名是在语料预处理阶段通过Pubchem接口获取。Word2Vec词向量工具是直接嵌入在模型当中，无需人工进行词向量训练。

(4)基于模型训练的污染物信息拾取

i)预标注的命名实体识别

化合物名称作为第一标注，通过匹配词典后实现实体标记。浓度包括数值和单位，作为第二标注，其命名实体识别通过上述训练好的词向量矩阵作为embedding层输入到模型中，通过Bi-LSTM层的编码，原矩阵输出为词的标签分值，分值最高的作为该词的标签。引入CRF层，进行句子级的序列标注。在Bi-LSTM+CRF模型中，预测语料已经进行了文本预处理与清洗，通过分词等将文本整理为已构建模型适用的格式，预测语料经过模型输出识别结果，识别出浓度值并提取。

ii)预标注的命名实体识别

化合物的命名实体识别是以预训练好的污染物词典为参考，使用Bi-GRU模型将词典中的每一个化合物在数据集中进行词级注意力层和句级注意力层进行位置识别和实体标签识别。通过识别出浓度，定位到浓度所在的句子内，将化合物名称与句子中的文本信息比较，经过Softmax分类器，最后依据浓度的定位识别出句子中的化合物名称。经过Bi-GRU模型关系抽取网络，得到浓度及化合物名称的关系抽取结果。

已训练Bi-LSTM+CRF模型对测试数据进行识别，提取识别后的分类标签，并将相应的标签转化为相应的实体字符串，作为候选实体。根据候选实体在文本中的位置确定不同实体之间的关系。在模型中，通过Word2Vec工具得到的词向量将传给双向的LSTM层，训练模型。

对原始数据进行了以上步骤后，可获得化合物浓度的命名实体识别。但化合物名称及浓度之间的对应关系还需要Bi-GRU模型加以辅导才可获得。接下来，Bi-GRU模型将引入到Bi-LSTM+CRF模型中，在有了化合物名称和化合物浓度的命名实体识别的基础上，对之间的对应关系进行了对应及关系抽取。Bi-GRU模型将浓度数据作为实体位置信息，可以在原文本预料中定位该浓度数据，并调动“Hydraulic Fracturing List”中的1172种化合物，设置为实体标签信息，在该浓度数据所定位到的句子中将1172种化合物名称及其别名的词条逐一比对，提取出句子中的化合物名称。

使用Bi-LSTM+CRF模型获得实体位置信息和标签信息经过词向量特征的扩充，使得文本信息向量化。使用Bi-GRU模型，实体位置信息和实体标签信息经过模型网络Bi-GRU、词级注意力层、句级注意力层和Softmax分类器，对关系抽取模型进行训练，最终获得化合物名称及其浓度的对应关系。三个数据集的命名实体识别及关系抽取的结果如表3所示,并将训练集和测试集的关系抽取结果随取选取20个作为展示，如表4。

表3.数据集的实体数据统计

任务数据集	文献数量	浓度实体数量	关系抽取数量
				训练集	402	275	47
验证集	134	93	16
				测试集	134	88	18
合计	670	340	81

表4.页岩气污染物实体关系抽取结果展示

化合物名称	浓度数值	浓度单位
			Ethane	0.1	ppb
Zinc chloride	65	mg/L
			water	100	mg/L
Phenanthrene	5	mg/L
			Polyoxypropylenediamine	2000	ng/L
Barium	4.62	mg/L
			Ozone	19.5	ppb
Hexane	0.2	ppb
			Ethane	0.7	ppb
Ethylbenzene	20	mg/kg
			Aluminum	10,284	mg/kg
Arsenic	16.2	mg/kg
			Barium	1,297	mg/kg
Boron	29.1	mg/kg
			Cadmium	1.9	mg/kg
Copper	38.3	mg/kg
			Lead	54.9	mg/kg
Nickel	28.9	mg/kg
			Zinc	85.2	mg/kg
Organics	0.9	mg/kg
			Benzene	15.6	mg/kg

最后，分别对Bi-LSTM+CRF+Bi-GRU模型的命名实体识别结果进行性能评价，由表5得知，模型整体的准确度为74.35％，召回率为75.81％，F1值为75.1％。

表5.各实体类型的准确度、召回率和F1值

实体类型	准确度	召回率	F1值
				B-Chem	83.3％	62.5％	71.4％
B-Num	87.2％	84.2％	85.7％
				B-Conc	52.5％	80.8％	63.6％
平均	74.4％	75.8％	75.1％

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。