CN113392636B

CN113392636B - 一种生态风险评价文献中毒理学术语的文本挖掘方法

Info

Publication number: CN113392636B
Application number: CN202110588683.7A
Authority: CN
Inventors: 程飞; 李慧珍; 游静
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2022-06-14
Anticipated expiration: 2041-05-28
Also published as: CN113392636A

Abstract

本发明公开了一种生态风险评价文献中毒理学术语的文本挖掘方法，通过毒理学专业知识库自动获取一套英文术语词典(有害结局路径术语词典)，基于该专业的术语词典，保证了生态风险评价文献中毒理学术语文本挖掘的精确度。以及，结合有害结局路径术语词典，对语料库中的生态风险评价文献进行基于有害结局路径术语的自然语言处理，极大地提高了生态风险评价文献信息的收集速度，特定的机制信息统计替代了人工阅读，并实现了大量数据并行计算，提高了文献综述的效率。最后，依赖朴素贝叶斯算法的机器学习技术应用到毒理学术语的预测和分类，弥补了生态风险评价文献中机理信息的缺失。

Description

一种生态风险评价文献中毒理学术语的文本挖掘方法

技术领域

本发明涉及环境生态风险评价和人工智能的技术领域，尤其涉及到一种生态风险评价文献中毒理学术语的文本挖掘方法。

背景技术

随着毒性评价中生物技术的快速发展，基于生物测试的环境风险评价报道逐渐增多。大量以生物活性或毒性终点为基础的前期研究结果，有利于加深风险评价研究者对风险识别目标的认识。在历史文献中被广泛报道的生物活性，可作为区域环境组分的典型毒性作用机理的证据。一方面，可作为测试组组建的依据，为后续研究提供了建议。另一方面，将有效提供污染物类别及特征粒子等信息，辅助非目标性筛查。能够充分利用该证据的前提是对信息的全面、自动化收集，以反映结果的普遍性和客观性。依赖传统人工文献阅读的效率，远不能满足文献大数据时代下获取海量数据的需求。

当前，一种集成了网络爬虫、自然语言处理和机器学习的泛用式人工智能方法——文本挖掘技术，逐渐受到了文献综述的关注，且已被应用于医学和生物信息学等领域的文献收集和分析中。例如专利CN 111950283 A提出了对中文医学文献的分词和命名实体识别，以获得医疗词汇的精准分词。但高度依赖术语词典的文本挖掘技术，尚无法在不同学科间泛用，因此依据生态毒理学具有独立的术语体系，发明一种更适用于环境风险评价文献的文本挖掘方法是当前在毒性识别工作中需要解决的重要任务。

发明内容

本发明的目的在于克服现有技术的不足，提供一种生态风险评价文献中毒理学术语的文本挖掘方法，通过毒理学专业知识库自动获取一套英文术语词典，特别针对环境风险评价领域英文文献中毒理学关键文本信息收集、分析，并结合机器学习方法预测文献中的毒理学机制信息缺口。

为实现上述目的，本发明所提供的技术方案为：

一种生态风险评价文献中毒理学术语的文本挖掘方法，包括以下步骤：

S1、从AOPWiki数据库批量获取并整理有害结局路径百科数据；

S2、基于步骤S1整理得到的有害结局路径百科数据构建有害结局路径术语词典；

S3、收集及下载生态风险评价文献，构建语料库；

S4、结合步骤S2构建的有害结局路径术语词典，对语料库中的生态风险评价文献进行基于有害结局路径术语的自然语言处理，得到已标记类别的类别标签；

S5、对已标记类别的类别标签进行Meta分析，得到同质性的类别标签，剔除异质性高的记录；

S6、以语料库中的目标类别标签为预测变量，毒理学类别标签为响应变量，构建监督式朴素贝叶斯分类器；

S7、训练监督式朴素贝叶斯分类器；

S8、通过训练好的监督式朴素贝叶斯分类器预测生态风险评价文献中的毒理学机制信息缺口，实现对文献信息中毒理学名词术语的重新注释，填补文献中未提到的有害结局路径信息。

进一步地，所述从AOPWiki数据库批量获取并整理有害结局路径百科数据的具体步骤如下：

S1-1、对每个AOP ID分别获取JSON下的不同类，并请求下载“aop_aos”、“aop_mies”、“aop_kes”、“aop_stressors”以及“relationships”的结果，分别为该条有害结局路径AOP中包括的有害结局AO、分子起始事件MIE、关键事件KE、引起分子起始事件的候选物以及与其他AOP的关联；所有类下的信息，构成一条完整的AOP词条；每种类最多存储6个数据，返回后存储到本地电子表格aop.csv中；

S1-2、对每个关键事件的KE ID获取JSON下的不同类，请求下载如下信息：

“event_components”、“official_name”、“source_id”，分别对应KE中包括的组分、官方命名方法、KE在AOPWiki中的ID；

“process”下的“term”和“source_id”标签中的变量，分别对应与KE相关联的MIE、KE和AO的术语描述和对应ID；

“action”下的“term”和“source_id”标签中的变量，分别对应作用机制的术语描述和对应ID；

返回并下载所有数据，存储到本地电子表格ke.csv中；

S1-3、将步骤S1-1和步骤S1-2保存的数据融合，得到以事件ID为行的数据集，其响应变量包括关键事件的编号，对应有害结局的编号，类别为MIE/KE/AO，对关键事件的术语描述，以及对关键事件的详细描述，存储为新数据集ke_new.csv。

进一步地，所述步骤S2中，以分词的形式构建有害结局路径术语词典，分词依据为ke_new.csv中的关键事件的术语描述变量；

分词中，删除助词和动词部分，仅保留术语名词及名词缩写；对单行术语中包括两个以上名词的，拆分成多个不同名词，并保证拆分后的语义不变；缩写亦作为单独名词；将拆分后的名词存储到数据集末，命名为“term_x”，每个术语拆分出的名词变量数量不超过5个；完成后检查确认，并提取出“编号”和“term_1-5”部分，重新存储为dictionary.csv的数据集，该数据集为有害结局路径术语词典。

进一步地，当AOPWiki数据库内容更新时，循环步骤S1和步骤S2，完善更新有害结局路径术语词典。

进一步地，所述步骤S4的具体过程如下：

S4-1、逐条提取语料库中生态风险评价文献的文献摘要变量，作为生语料；

S4-2、利用nltk库对生语料进行分词；

S4-3、使用步骤S2构建的有害结局路径术语词典分别对分词后的生语料进行命名实体识别，类型包括有害结局AO、分子起始事件MIE或关键事件KE；

S4-4、标记并定义对应生语料的类别为匹配到的术语，同时计数术语频数；

S4-5、被标记过的生语料转为熟语料；

S4-6、统计熟语料中类别标签的频数。

进一步地，所述步骤S5对已标记类别的标签进行Meta分析的具体过程如下：

S5-1、将已标记类别的标签转换为0或1的二分类标签；

S5-2、计算Meta分析的效应值；

S5-3、对效应值进行Hedges’g检验，以每一行统计量I²>50％为依据判别标签数据是否具有同质性；

S5-4、将具有同质性的类别标签添加到置信数据集中。

与现有技术相比，本方案原理及优点如下：

1、通过毒理学专业知识库自动获取一套英文术语词典(有害结局路径术语词典)，基于该专业的术语词典，保证了生态风险评价文献中毒理学术语文本挖掘的精确度，而且该套英文术语词典可不断更新，符合社会不断更新换代的需要。

2、结合有害结局路径术语词典，对语料库中的生态风险评价文献进行基于有害结局路径术语的自然语言处理，极大地提高了生态风险评价文献信息的收集速度，特定的机制信息统计替代了人工阅读，并实现了大量数据并行计算，提高了文献综述的效率。

3、依赖朴素贝叶斯算法的机器学习技术应用到毒理学术语的预测和分类，弥补了生态风险评价文献中机理信息的缺失，增强了毒理学测试的内涵性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种生态风险评价文献中毒理学术语的文本挖掘方法的原理流程图；

图2为生态风险评价文献的收集和自然语言处理结果示意图；

图3为监督式朴素贝叶斯分类器结果和性能分析示意图；

图4为经过机器学习后提高毒性测试内涵性的统计结果比较示意图。

具体实施方式

下面结合具体实施例对本发明作进一步说明：

如图1所示，一种生态风险评价文献中毒理学术语的文本挖掘方法，包括以下步骤：

S1、从AOPWiki数据库批量获取并整理有害结局路径百科数据，过程如下：

S1-1、对每个AOP ID分别获取JSON(库)下的不同类，并请求下载“aop_aos”、“aop_mies”、“aop_kes”、“aop_stressors”以及“relationships”的结果，分别为该条有害结局路径AOP中包括的有害结局AO、分子起始事件MIE、关键事件KE、引起分子起始事件的候选物以及与其他AOP的关联；所有类下的信息，构成一条完整的AOP词条；每种类最多存储6个数据，返回后存储到本地电子表格aop.csv中；

返回并下载所有数据，存储到本地电子表格ke.csv中；

本步骤以分词的形式构建有害结局路径术语词典，分词依据为ke_new.csv中的关键事件的术语描述变量；

当AOPWiki数据库内容更新时，循环步骤S1和步骤S2，完善更新有害结局路径术语词典。

S3、收集及下载生态风险评价文献，构建语料库；

本实施例主要针对Web of Science网站中SCI英文期刊的标题、综述等信息自动化下载，为实现分布式快速获取使用网络爬虫的Scrapy架构；该Scrapy架构的程序，对基本设置进行了优化，用户仅需要在购买Webof Science访问权限的网络环境中即可使用；针对需要下载的内容，在“main.py”中更改设定，包括Web of Science高级检索式、期刊列表、批量下载数量等，实现自定义使用者的研究兴趣，特别针对特定主题词的过滤检索(如图1中的“Bioassay”)；下载后的文本信息以txt格式存储为文本文件和db存储在数据库文献中，前者可直接用于文本挖掘，后者则方便对数据预处理筛选，再导出需要分析的文本。

S4、结合步骤S2构建的有害结局路径术语词典，对语料库中的生态风险评价文献进行基于有害结局路径术语的自然语言处理，得到已标记类别的类别标签；具体过程如下：

S4-2、利用nltk库对生语料进行分词；

S4-5、被标记过的生语料转为熟语料；

S4-6、统计熟语料中类别标签的频数，作为研究综述的结论推断；

语料库所标记的多种不同的类别标签，可互相作为变量构建数据模型，用于分类和预测推断。

S5、为提高数据的可重复性，实现不同文献数据的可比性，对已标记类别的类别标签进行Meta分析，具体过程如下：

S5-1、由于文本信息为类别变量，为使Meta分析的效应值计算生效，将已标记类别的标签转换为0或1的二分类标签；(如某一行KE类别为Narcosis，则转换为的结果为Narcosis:1，非此类别的结果为Narcosis：0)

S5-2、通过Mantel-Haenszel池随机模型下的优势比(oddsratio)计算Meta分析的效应值；

S5-4、将具有同质性的类别标签添加到置信数据集中，用于后续机器学习训练。

S6、以语料库中的目标类别标签为预测变量(如图1所示的“测试方法”和“机制”)，毒理学类别标签为响应变量，构建监督式朴素贝叶斯分类器；

S7、监督式朴素贝叶斯分类器通过4叠交叉验证完成训练，以准确率估算模型分类结果的区分可靠性，以F1得分评价模型性能；

具体地，文本记录被分类成某一种毒理学术语相关的概率为P(Y＝c_k)，似然度为P(X＝x|Y＝c_k)，分别通过以下公式求得，

基于此，计算出的分类结果如以下公式求得：

下面对近10年关于我国水体毒性评价的历史文献报道的收集和分类，具体如下：

首先，构建有害结局路径词典，在截止到提交专利之前，从AOPWiki上收集并整理术语词条共计1131个，选取20个例子展示结果如下表1所示：

表1

然后，以检索式“TS＝((Toxicity OR Toxicology OR Ecotoxicology)OR(HazardOR Risk)OR(Identification OR Evaluation)OR(“Effect directed analysis”OR“Effect-directed analysis”OR EDA OR“Nontarget”OR“Non-target”OR“Toxicityidentification evaluation”OR TIE)OR(Bioassay OR Bioactive)AND(Water ORSediment OR Aquatic)AND(China OR“Hong Kong”OR“Macao”OR“Taiwan”))AND CU＝(China OR”替代“Hong Kong”OR“Macao”OR“Taiwan”)AND WC＝(Environment ORGeochemistry OR Ecology OR Toxicology)AND PY＝2010-2020”对近10年我国水体毒性评价的历史文献收集和批量下载，获得共计14984条记录，将文献的摘要结果存储为生语料。

使用上述有害结局路径词典，分别对生语料命名实体识别AO和MIE/KE，如图2所示，其中所有信息均可被通用毒理学词条标记，但仅有40.2％的信息可被MIE/KE标记，即有59.8％的文献未提及具体毒理学机制信息。

提取类别变量MIE/KE中样本容量大于100的数据Meta分析，转换处理后的数据，其异质性检验结果的平均值为I²＝52％，表明该数据集的数据质量具有置信度，可用于机器学习训练。

为填补其余机制信息缺口，本实施例将词典外的实体名词作为引起毒性作用机制的变量，并以文献的分子起始事件为元组类别标签，T＝{MIE,(名词1，名词2，…)}，构建朴素贝叶斯预测模型，以推断未知文献中毒性测试的作用机制。如图3所示。在提取到的26个MIE类别中，每个MIE均需要与其他25个变量两两配对，计算分类概率，并取概率较大值作为本次配对的类别。每次配对均将变量随机分配成25％的测试集和75％的训练集，经过4次迭代和325次两两配对后，完成所有分类结果的估计，其准确率为如图上方块中数字所示。对角线方格为每个MIE被正确分类的概率，所有结果的平均值大于54％，可视作均为有效分类。

经过对26个MIE重新分类后，将原有毒理学机制信息缺口填补到剩余15％，从而使最终统计结果发生显著变化，如图4所示。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种生态风险评价文献中毒理学术语的文本挖掘方法，其特征在于，包括以下步骤：

S1、从AOPWiki数据库批量获取并整理有害结局路径百科数据；

S3、收集及下载生态风险评价文献，构建语料库；

S7、训练监督式朴素贝叶斯分类器；

S8、通过训练好的监督式朴素贝叶斯分类器预测生态风险评价文献中的毒理学机制信息缺口，实现对文献信息中毒理学名词术语的重新注释，填补文献中未提到的有害结局路径信息；

所述从AOPWiki数据库批量获取并整理有害结局路径百科数据的具体步骤如下：

S1-1、对每个AOP ID分别获取JSON下的不同类，并请求下载“aop_aos”、“aop_mies”、“aop_kes”、“aop_stressors”以及“relationships”的结果，“aop_aos”为有害结局路径AOP中包括的有害结局AO、“aop_mies”为有害结局路径AOP中包括的分子起始事件MIE、“aop_kes”为有害结局路径AOP中包括的关键事件KE、“aop_stressors”为有害结局路径AOP中包括的引起分子起始事件的候选物、“relationships”为有害结局路径AOP中包括的与其他AOP的关联；所有类下的信息，构成一条完整的AOP词条；每种类最多存储6个数据，返回后存储到本地电子表格aop.csv中；

“event_components”、“official_name”、“source_id”，分别对应关键事件KE中包括的组分、官方命名方法、关键事件KE在AOPWiki中的ID；

“process”下的“term”对应与KE相关联的分子起始事件MIE、关键事件KE和有害结局AO的术语描述；

“action”下的“term”对应作用机制的术语描述；

返回并下载所有数据，存储到本地电子表格ke.csv中；

S1-3、将步骤S1-1和步骤S1-2保存的数据融合，得到以事件ID为行的数据集，其响应变量包括关键事件的编号、对应有害结局的编号、对关键事件的术语描述以及对关键事件的详细描述，存储为新数据集ke_new.csv。

2.根据权利要求1所述的一种生态风险评价文献中毒理学术语的文本挖掘方法，其特征在于，步骤S2中，以分词的形式构建有害结局路径术语词典，分词依据为ke_new.csv中的关键事件的术语描述变量；

3.根据权利要求2所述的一种生态风险评价文献中毒理学术语的文本挖掘方法，其特征在于，当AOPWiki数据库内容更新时，循环步骤S1和步骤S2，完善更新有害结局路径术语词典。

4.根据权利要求1-3任一所述的一种生态风险评价文献中毒理学术语的文本挖掘方法，其特征在于，步骤S4的具体过程如下：

S4-2、利用nltk库对生语料进行分词；

S4-5、被标记过的生语料转为熟语料；

S4-6、统计熟语料中类别标签的频数。

5.根据权利要求1所述的一种生态风险评价文献中毒理学术语的文本挖掘方法，其特征在于，步骤S5对已标记类别的标签进行Meta分析的具体过程如下：

S5-1、将已标记类别的标签转换为0或1的二分类标签；

S5-2、计算Meta分析的效应值；

S5-4、将具有同质性的类别标签添加到置信数据集中。