CN113392636B - 一种生态风险评价文献中毒理学术语的文本挖掘方法 - Google Patents

一种生态风险评价文献中毒理学术语的文本挖掘方法 Download PDF

Info

Publication number
CN113392636B
CN113392636B CN202110588683.7A CN202110588683A CN113392636B CN 113392636 B CN113392636 B CN 113392636B CN 202110588683 A CN202110588683 A CN 202110588683A CN 113392636 B CN113392636 B CN 113392636B
Authority
CN
China
Prior art keywords
harmful
aop
term
ecological risk
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110588683.7A
Other languages
English (en)
Other versions
CN113392636A (zh
Inventor
程飞
李慧珍
游静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202110588683.7A priority Critical patent/CN113392636B/zh
Publication of CN113392636A publication Critical patent/CN113392636A/zh
Application granted granted Critical
Publication of CN113392636B publication Critical patent/CN113392636B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种生态风险评价文献中毒理学术语的文本挖掘方法,通过毒理学专业知识库自动获取一套英文术语词典(有害结局路径术语词典),基于该专业的术语词典,保证了生态风险评价文献中毒理学术语文本挖掘的精确度。以及,结合有害结局路径术语词典,对语料库中的生态风险评价文献进行基于有害结局路径术语的自然语言处理,极大地提高了生态风险评价文献信息的收集速度,特定的机制信息统计替代了人工阅读,并实现了大量数据并行计算,提高了文献综述的效率。最后,依赖朴素贝叶斯算法的机器学习技术应用到毒理学术语的预测和分类,弥补了生态风险评价文献中机理信息的缺失。

Description

一种生态风险评价文献中毒理学术语的文本挖掘方法
技术领域
本发明涉及环境生态风险评价和人工智能的技术领域,尤其涉及到一种生态风险评价文献中毒理学术语的文本挖掘方法。
背景技术
随着毒性评价中生物技术的快速发展,基于生物测试的环境风险评价报道逐渐增多。大量以生物活性或毒性终点为基础的前期研究结果,有利于加深风险评价研究者对风险识别目标的认识。在历史文献中被广泛报道的生物活性,可作为区域环境组分的典型毒性作用机理的证据。一方面,可作为测试组组建的依据,为后续研究提供了建议。另一方面,将有效提供污染物类别及特征粒子等信息,辅助非目标性筛查。能够充分利用该证据的前提是对信息的全面、自动化收集,以反映结果的普遍性和客观性。依赖传统人工文献阅读的效率,远不能满足文献大数据时代下获取海量数据的需求。
当前,一种集成了网络爬虫、自然语言处理和机器学习的泛用式人工智能方法——文本挖掘技术,逐渐受到了文献综述的关注,且已被应用于医学和生物信息学等领域的文献收集和分析中。例如专利CN 111950283 A提出了对中文医学文献的分词和命名实体识别,以获得医疗词汇的精准分词。但高度依赖术语词典的文本挖掘技术,尚无法在不同学科间泛用,因此依据生态毒理学具有独立的术语体系,发明一种更适用于环境风险评价文献的文本挖掘方法是当前在毒性识别工作中需要解决的重要任务。
发明内容
本发明的目的在于克服现有技术的不足,提供一种生态风险评价文献中毒理学术语的文本挖掘方法,通过毒理学专业知识库自动获取一套英文术语词典,特别针对环境风险评价领域英文文献中毒理学关键文本信息收集、分析,并结合机器学习方法预测文献中的毒理学机制信息缺口。
为实现上述目的,本发明所提供的技术方案为:
一种生态风险评价文献中毒理学术语的文本挖掘方法,包括以下步骤:
S1、从AOPWiki数据库批量获取并整理有害结局路径百科数据;
S2、基于步骤S1整理得到的有害结局路径百科数据构建有害结局路径术语词典;
S3、收集及下载生态风险评价文献,构建语料库;
S4、结合步骤S2构建的有害结局路径术语词典,对语料库中的生态风险评价文献进行基于有害结局路径术语的自然语言处理,得到已标记类别的类别标签;
S5、对已标记类别的类别标签进行Meta分析,得到同质性的类别标签,剔除异质性高的记录;
S6、以语料库中的目标类别标签为预测变量,毒理学类别标签为响应变量,构建监督式朴素贝叶斯分类器;
S7、训练监督式朴素贝叶斯分类器;
S8、通过训练好的监督式朴素贝叶斯分类器预测生态风险评价文献中的毒理学机制信息缺口,实现对文献信息中毒理学名词术语的重新注释,填补文献中未提到的有害结局路径信息。
进一步地,所述从AOPWiki数据库批量获取并整理有害结局路径百科数据的具体步骤如下:
S1-1、对每个AOP ID分别获取JSON下的不同类,并请求下载“aop_aos”、“aop_mies”、“aop_kes”、“aop_stressors”以及“relationships”的结果,分别为该条有害结局路径AOP中包括的有害结局AO、分子起始事件MIE、关键事件KE、引起分子起始事件的候选物以及与其他AOP的关联;所有类下的信息,构成一条完整的AOP词条;每种类最多存储6个数据,返回后存储到本地电子表格aop.csv中;
S1-2、对每个关键事件的KE ID获取JSON下的不同类,请求下载如下信息:
“event_components”、“official_name”、“source_id”,分别对应KE中包括的组分、官方命名方法、KE在AOPWiki中的ID;
“process”下的“term”和“source_id”标签中的变量,分别对应与KE相关联的MIE、KE和AO的术语描述和对应ID;
“action”下的“term”和“source_id”标签中的变量,分别对应作用机制的术语描述和对应ID;
返回并下载所有数据,存储到本地电子表格ke.csv中;
S1-3、将步骤S1-1和步骤S1-2保存的数据融合,得到以事件ID为行的数据集,其响应变量包括关键事件的编号,对应有害结局的编号,类别为MIE/KE/AO,对关键事件的术语描述,以及对关键事件的详细描述,存储为新数据集ke_new.csv。
进一步地,所述步骤S2中,以分词的形式构建有害结局路径术语词典,分词依据为ke_new.csv中的关键事件的术语描述变量;
分词中,删除助词和动词部分,仅保留术语名词及名词缩写;对单行术语中包括两个以上名词的,拆分成多个不同名词,并保证拆分后的语义不变;缩写亦作为单独名词;将拆分后的名词存储到数据集末,命名为“term_x”,每个术语拆分出的名词变量数量不超过5个;完成后检查确认,并提取出“编号”和“term_1-5”部分,重新存储为dictionary.csv的数据集,该数据集为有害结局路径术语词典。
进一步地,当AOPWiki数据库内容更新时,循环步骤S1和步骤S2,完善更新有害结局路径术语词典。
进一步地,所述步骤S4的具体过程如下:
S4-1、逐条提取语料库中生态风险评价文献的文献摘要变量,作为生语料;
S4-2、利用nltk库对生语料进行分词;
S4-3、使用步骤S2构建的有害结局路径术语词典分别对分词后的生语料进行命名实体识别,类型包括有害结局AO、分子起始事件MIE或关键事件KE;
S4-4、标记并定义对应生语料的类别为匹配到的术语,同时计数术语频数;
S4-5、被标记过的生语料转为熟语料;
S4-6、统计熟语料中类别标签的频数。
进一步地,所述步骤S5对已标记类别的标签进行Meta分析的具体过程如下:
S5-1、将已标记类别的标签转换为0或1的二分类标签;
S5-2、计算Meta分析的效应值;
S5-3、对效应值进行Hedges’g检验,以每一行统计量I2>50%为依据判别标签数据是否具有同质性;
S5-4、将具有同质性的类别标签添加到置信数据集中。
与现有技术相比,本方案原理及优点如下:
1、通过毒理学专业知识库自动获取一套英文术语词典(有害结局路径术语词典),基于该专业的术语词典,保证了生态风险评价文献中毒理学术语文本挖掘的精确度,而且该套英文术语词典可不断更新,符合社会不断更新换代的需要。
2、结合有害结局路径术语词典,对语料库中的生态风险评价文献进行基于有害结局路径术语的自然语言处理,极大地提高了生态风险评价文献信息的收集速度,特定的机制信息统计替代了人工阅读,并实现了大量数据并行计算,提高了文献综述的效率。
3、依赖朴素贝叶斯算法的机器学习技术应用到毒理学术语的预测和分类,弥补了生态风险评价文献中机理信息的缺失,增强了毒理学测试的内涵性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种生态风险评价文献中毒理学术语的文本挖掘方法的原理流程图;
图2为生态风险评价文献的收集和自然语言处理结果示意图;
图3为监督式朴素贝叶斯分类器结果和性能分析示意图;
图4为经过机器学习后提高毒性测试内涵性的统计结果比较示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明:
如图1所示,一种生态风险评价文献中毒理学术语的文本挖掘方法,包括以下步骤:
S1、从AOPWiki数据库批量获取并整理有害结局路径百科数据,过程如下:
S1-1、对每个AOP ID分别获取JSON(库)下的不同类,并请求下载“aop_aos”、“aop_mies”、“aop_kes”、“aop_stressors”以及“relationships”的结果,分别为该条有害结局路径AOP中包括的有害结局AO、分子起始事件MIE、关键事件KE、引起分子起始事件的候选物以及与其他AOP的关联;所有类下的信息,构成一条完整的AOP词条;每种类最多存储6个数据,返回后存储到本地电子表格aop.csv中;
S1-2、对每个关键事件的KE ID获取JSON下的不同类,请求下载如下信息:
“event_components”、“official_name”、“source_id”,分别对应KE中包括的组分、官方命名方法、KE在AOPWiki中的ID;
“process”下的“term”和“source_id”标签中的变量,分别对应与KE相关联的MIE、KE和AO的术语描述和对应ID;
“action”下的“term”和“source_id”标签中的变量,分别对应作用机制的术语描述和对应ID;
返回并下载所有数据,存储到本地电子表格ke.csv中;
S1-3、将步骤S1-1和步骤S1-2保存的数据融合,得到以事件ID为行的数据集,其响应变量包括关键事件的编号,对应有害结局的编号,类别为MIE/KE/AO,对关键事件的术语描述,以及对关键事件的详细描述,存储为新数据集ke_new.csv。
S2、基于步骤S1整理得到的有害结局路径百科数据构建有害结局路径术语词典;
本步骤以分词的形式构建有害结局路径术语词典,分词依据为ke_new.csv中的关键事件的术语描述变量;
分词中,删除助词和动词部分,仅保留术语名词及名词缩写;对单行术语中包括两个以上名词的,拆分成多个不同名词,并保证拆分后的语义不变;缩写亦作为单独名词;将拆分后的名词存储到数据集末,命名为“term_x”,每个术语拆分出的名词变量数量不超过5个;完成后检查确认,并提取出“编号”和“term_1-5”部分,重新存储为dictionary.csv的数据集,该数据集为有害结局路径术语词典。
当AOPWiki数据库内容更新时,循环步骤S1和步骤S2,完善更新有害结局路径术语词典。
S3、收集及下载生态风险评价文献,构建语料库;
本实施例主要针对Web of Science网站中SCI英文期刊的标题、综述等信息自动化下载,为实现分布式快速获取使用网络爬虫的Scrapy架构;该Scrapy架构的程序,对基本设置进行了优化,用户仅需要在购买Webof Science访问权限的网络环境中即可使用;针对需要下载的内容,在“main.py”中更改设定,包括Web of Science高级检索式、期刊列表、批量下载数量等,实现自定义使用者的研究兴趣,特别针对特定主题词的过滤检索(如图1中的“Bioassay”);下载后的文本信息以txt格式存储为文本文件和db存储在数据库文献中,前者可直接用于文本挖掘,后者则方便对数据预处理筛选,再导出需要分析的文本。
S4、结合步骤S2构建的有害结局路径术语词典,对语料库中的生态风险评价文献进行基于有害结局路径术语的自然语言处理,得到已标记类别的类别标签;具体过程如下:
S4-1、逐条提取语料库中生态风险评价文献的文献摘要变量,作为生语料;
S4-2、利用nltk库对生语料进行分词;
S4-3、使用步骤S2构建的有害结局路径术语词典分别对分词后的生语料进行命名实体识别,类型包括有害结局AO、分子起始事件MIE或关键事件KE;
S4-4、标记并定义对应生语料的类别为匹配到的术语,同时计数术语频数;
S4-5、被标记过的生语料转为熟语料;
S4-6、统计熟语料中类别标签的频数,作为研究综述的结论推断;
语料库所标记的多种不同的类别标签,可互相作为变量构建数据模型,用于分类和预测推断。
S5、为提高数据的可重复性,实现不同文献数据的可比性,对已标记类别的类别标签进行Meta分析,具体过程如下:
S5-1、由于文本信息为类别变量,为使Meta分析的效应值计算生效,将已标记类别的标签转换为0或1的二分类标签;(如某一行KE类别为Narcosis,则转换为的结果为Narcosis:1,非此类别的结果为Narcosis:0)
S5-2、通过Mantel-Haenszel池随机模型下的优势比(oddsratio)计算Meta分析的效应值;
S5-3、对效应值进行Hedges’g检验,以每一行统计量I2>50%为依据判别标签数据是否具有同质性;
S5-4、将具有同质性的类别标签添加到置信数据集中,用于后续机器学习训练。
S6、以语料库中的目标类别标签为预测变量(如图1所示的“测试方法”和“机制”),毒理学类别标签为响应变量,构建监督式朴素贝叶斯分类器;
S7、监督式朴素贝叶斯分类器通过4叠交叉验证完成训练,以准确率估算模型分类结果的区分可靠性,以F1得分评价模型性能;
S8、通过训练好的监督式朴素贝叶斯分类器预测生态风险评价文献中的毒理学机制信息缺口,实现对文献信息中毒理学名词术语的重新注释,填补文献中未提到的有害结局路径信息。
具体地,文本记录被分类成某一种毒理学术语相关的概率为P(Y=ck),似然度为P(X=x|Y=ck),分别通过以下公式求得,
Figure BDA0003088623330000081
Figure BDA0003088623330000082
基于此,计算出的分类结果如以下公式求得:
Figure BDA0003088623330000083
Figure BDA0003088623330000084
下面对近10年关于我国水体毒性评价的历史文献报道的收集和分类,具体如下:
首先,构建有害结局路径词典,在截止到提交专利之前,从AOPWiki上收集并整理术语词条共计1131个,选取20个例子展示结果如下表1所示:
Figure BDA0003088623330000091
表1
然后,以检索式“TS=((Toxicity OR Toxicology OR Ecotoxicology)OR(HazardOR Risk)OR(Identification OR Evaluation)OR(“Effect directed analysis”OR“Effect-directed analysis”OR EDA OR“Nontarget”OR“Non-target”OR“Toxicityidentification evaluation”OR TIE)OR(Bioassay OR Bioactive)AND(Water ORSediment OR Aquatic)AND(China OR“Hong Kong”OR“Macao”OR“Taiwan”))AND CU=(China OR”替代“Hong Kong”OR“Macao”OR“Taiwan”)AND WC=(Environment ORGeochemistry OR Ecology OR Toxicology)AND PY=2010-2020”对近10年我国水体毒性评价的历史文献收集和批量下载,获得共计14984条记录,将文献的摘要结果存储为生语料。
使用上述有害结局路径词典,分别对生语料命名实体识别AO和MIE/KE,如图2所示,其中所有信息均可被通用毒理学词条标记,但仅有40.2%的信息可被MIE/KE标记,即有59.8%的文献未提及具体毒理学机制信息。
提取类别变量MIE/KE中样本容量大于100的数据Meta分析,转换处理后的数据,其异质性检验结果的平均值为I2=52%,表明该数据集的数据质量具有置信度,可用于机器学习训练。
为填补其余机制信息缺口,本实施例将词典外的实体名词作为引起毒性作用机制的变量,并以文献的分子起始事件为元组类别标签,T={MIE,(名词1,名词2,…)},构建朴素贝叶斯预测模型,以推断未知文献中毒性测试的作用机制。如图3所示。在提取到的26个MIE类别中,每个MIE均需要与其他25个变量两两配对,计算分类概率,并取概率较大值作为本次配对的类别。每次配对均将变量随机分配成25%的测试集和75%的训练集,经过4次迭代和325次两两配对后,完成所有分类结果的估计,其准确率为如图上方块中数字所示。对角线方格为每个MIE被正确分类的概率,所有结果的平均值大于54%,可视作均为有效分类。
经过对26个MIE重新分类后,将原有毒理学机制信息缺口填补到剩余15%,从而使最终统计结果发生显著变化,如图4所示。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (5)

1.一种生态风险评价文献中毒理学术语的文本挖掘方法,其特征在于,包括以下步骤:
S1、从AOPWiki数据库批量获取并整理有害结局路径百科数据;
S2、基于步骤S1整理得到的有害结局路径百科数据构建有害结局路径术语词典;
S3、收集及下载生态风险评价文献,构建语料库;
S4、结合步骤S2构建的有害结局路径术语词典,对语料库中的生态风险评价文献进行基于有害结局路径术语的自然语言处理,得到已标记类别的类别标签;
S5、对已标记类别的类别标签进行Meta分析,得到同质性的类别标签,剔除异质性高的记录;
S6、以语料库中的目标类别标签为预测变量,毒理学类别标签为响应变量,构建监督式朴素贝叶斯分类器;
S7、训练监督式朴素贝叶斯分类器;
S8、通过训练好的监督式朴素贝叶斯分类器预测生态风险评价文献中的毒理学机制信息缺口,实现对文献信息中毒理学名词术语的重新注释,填补文献中未提到的有害结局路径信息;
所述从AOPWiki数据库批量获取并整理有害结局路径百科数据的具体步骤如下:
S1-1、对每个AOP ID分别获取JSON下的不同类,并请求下载“aop_aos”、“aop_mies”、“aop_kes”、“aop_stressors”以及“relationships”的结果,“aop_aos”为有害结局路径AOP中包括的有害结局AO、“aop_mies”为有害结局路径AOP中包括的分子起始事件MIE、“aop_kes”为有害结局路径AOP中包括的关键事件KE、“aop_stressors”为有害结局路径AOP中包括的引起分子起始事件的候选物、“relationships”为有害结局路径AOP中包括的与其他AOP的关联;所有类下的信息,构成一条完整的AOP词条;每种类最多存储6个数据,返回后存储到本地电子表格aop.csv中;
S1-2、对每个关键事件的KE ID获取JSON下的不同类,请求下载如下信息:
“event_components”、“official_name”、“source_id”,分别对应关键事件KE中包括的组分、官方命名方法、关键事件KE在AOPWiki中的ID;
“process”下的“term”对应与KE相关联的分子起始事件MIE、关键事件KE和有害结局AO的术语描述;
“action”下的“term”对应作用机制的术语描述;
返回并下载所有数据,存储到本地电子表格ke.csv中;
S1-3、将步骤S1-1和步骤S1-2保存的数据融合,得到以事件ID为行的数据集,其响应变量包括关键事件的编号、对应有害结局的编号、对关键事件的术语描述以及对关键事件的详细描述,存储为新数据集ke_new.csv。
2.根据权利要求1所述的一种生态风险评价文献中毒理学术语的文本挖掘方法,其特征在于,步骤S2中,以分词的形式构建有害结局路径术语词典,分词依据为ke_new.csv中的关键事件的术语描述变量;
分词中,删除助词和动词部分,仅保留术语名词及名词缩写;对单行术语中包括两个以上名词的,拆分成多个不同名词,并保证拆分后的语义不变;缩写亦作为单独名词;将拆分后的名词存储到数据集末,命名为“term_x”,每个术语拆分出的名词变量数量不超过5个;完成后检查确认,并提取出“编号”和“term_1-5”部分,重新存储为dictionary.csv的数据集,该数据集为有害结局路径术语词典。
3.根据权利要求2所述的一种生态风险评价文献中毒理学术语的文本挖掘方法,其特征在于,当AOPWiki数据库内容更新时,循环步骤S1和步骤S2,完善更新有害结局路径术语词典。
4.根据权利要求1-3任一所述的一种生态风险评价文献中毒理学术语的文本挖掘方法,其特征在于,步骤S4的具体过程如下:
S4-1、逐条提取语料库中生态风险评价文献的文献摘要变量,作为生语料;
S4-2、利用nltk库对生语料进行分词;
S4-3、使用步骤S2构建的有害结局路径术语词典分别对分词后的生语料进行命名实体识别,类型包括有害结局AO、分子起始事件MIE或关键事件KE;
S4-4、标记并定义对应生语料的类别为匹配到的术语,同时计数术语频数;
S4-5、被标记过的生语料转为熟语料;
S4-6、统计熟语料中类别标签的频数。
5.根据权利要求1所述的一种生态风险评价文献中毒理学术语的文本挖掘方法,其特征在于,步骤S5对已标记类别的标签进行Meta分析的具体过程如下:
S5-1、将已标记类别的标签转换为0或1的二分类标签;
S5-2、计算Meta分析的效应值;
S5-3、对效应值进行Hedges’g检验,以每一行统计量I2>50%为依据判别标签数据是否具有同质性;
S5-4、将具有同质性的类别标签添加到置信数据集中。
CN202110588683.7A 2021-05-28 2021-05-28 一种生态风险评价文献中毒理学术语的文本挖掘方法 Active CN113392636B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110588683.7A CN113392636B (zh) 2021-05-28 2021-05-28 一种生态风险评价文献中毒理学术语的文本挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110588683.7A CN113392636B (zh) 2021-05-28 2021-05-28 一种生态风险评价文献中毒理学术语的文本挖掘方法

Publications (2)

Publication Number Publication Date
CN113392636A CN113392636A (zh) 2021-09-14
CN113392636B true CN113392636B (zh) 2022-06-14

Family

ID=77619321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110588683.7A Active CN113392636B (zh) 2021-05-28 2021-05-28 一种生态风险评价文献中毒理学术语的文本挖掘方法

Country Status (1)

Country Link
CN (1) CN113392636B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118016204A (zh) * 2024-02-05 2024-05-10 苏州药明康德新药开发有限公司 一种毒理学风险评估方法、系统、计算机设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110415770A (zh) * 2019-08-26 2019-11-05 南京大学 一种基于剂量-效应简化转录组的预测化学品胚胎发育毒性的方法
CN112749833A (zh) * 2020-12-09 2021-05-04 暨南大学 基于朴素贝叶斯模型的大肠杆菌利福平抗性突变预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005022403A1 (en) * 2003-08-27 2005-03-10 Sox Limited Method of building persistent polyhierarchical classifications based on polyhierarchies of classification criteria
US20150332158A1 (en) * 2014-05-16 2015-11-19 International Business Machines Corporation Mining strong relevance between heterogeneous entities from their co-ocurrences

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110415770A (zh) * 2019-08-26 2019-11-05 南京大学 一种基于剂量-效应简化转录组的预测化学品胚胎发育毒性的方法
CN112749833A (zh) * 2020-12-09 2021-05-04 暨南大学 基于朴素贝叶斯模型的大肠杆菌利福平抗性突变预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Jean-Charles Carvaillo et al.Linking Bisphenol S to Adverse Outcome Pathways Using a Combined Text Mining and Systems Biology Approach.《Environmental Health Perspectives》.2019,第127卷(第4期),第1-11页. *
S Jannicke Moe et al.Building and Applying Quantitative Adverse Outcome Pathway Models for Chemical Hazard and Risk Assessment.《Toxicology and Chemistry》.2019,第38卷(第9期),第1850-1865页. *
靳远 等.系统毒理学研究进展.《环境与职业医学》.2021,第38卷(第5期),第447-453页. *

Also Published As

Publication number Publication date
CN113392636A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN112199511B (zh) 跨语言多来源垂直领域知识图谱构建方法
Bernstein et al. MetaSRA: normalized human sample-specific metadata for the Sequence Read Archive
CN111222340B (zh) 基于多标准主动学习的乳腺电子病历实体识别系统
CN113806563B (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
CN108875809A (zh) 联合attention机制与神经网络的生物医学实体关系分类方法
Wu et al. Extracting topics based on Word2Vec and improved Jaccard similarity coefficient
CN111325018A (zh) 一种基于web检索和新词发现的领域词典构建方法
CN109710725A (zh) 一种基于文本分类的中文表格列标签恢复方法和系统
Wang et al. Using natural language processing and machine learning to replace human content coders.
Krüger et al. A literature review on methods for the extraction of usage statements of software and data
Xu et al. A GitHub-based data collection method for software defect prediction
CN116383395A (zh) 一种水文模型领域知识图谱的构建方法
CN113392636B (zh) 一种生态风险评价文献中毒理学术语的文本挖掘方法
Viet et al. Analyzing recent research trends of computer science from academic open-access digital library
CN108536781A (zh) 一种社交网络情绪焦点的挖掘方法及系统
Li et al. Multi-task deep learning model based on hierarchical relations of address elements for semantic address matching
Hunter et al. Using hierarchical text classification to investigate the utility of machine learning in automating online analyses of wildlife exploitation
CN117574858A (zh) 一种基于大语言模型的类案检索报告自动生成方法
CN108614860A (zh) 一种律师信息处理方法和系统
Wang et al. Ipre: a dataset for inter-personal relationship extraction
Tandjung et al. Topic modeling with latent-dirichlet allocation for the discovery of state-of-the-art in research: A literature review
Viehmann et al. Investigating opinions on public policies in digital media: Setting up a supervised machine learning tool for stance classification
Haider et al. Social Media Hate Speech Detection Using Machine Learning Approach
CN116186422A (zh) 基于社交媒体和人工智能的疾病相关舆情分析系统
Lu et al. An effective approach for Chinese news headline classification based on multi-representation mixed model with attention and ensemble learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant