CN111613277A - 一种危险化学品领域的知识表示方法 - Google Patents
一种危险化学品领域的知识表示方法 Download PDFInfo
- Publication number
- CN111613277A CN111613277A CN202010440437.2A CN202010440437A CN111613277A CN 111613277 A CN111613277 A CN 111613277A CN 202010440437 A CN202010440437 A CN 202010440437A CN 111613277 A CN111613277 A CN 111613277A
- Authority
- CN
- China
- Prior art keywords
- chemical
- entity
- entities
- knowledge
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000126 substance Substances 0.000 title claims abstract description 126
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000014509 gene expression Effects 0.000 claims abstract description 47
- 239000013598 vector Substances 0.000 claims abstract description 41
- 150000002500 ions Chemical class 0.000 claims description 32
- 125000003636 chemical group Chemical group 0.000 claims description 29
- 125000004429 atom Chemical group 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 16
- 239000000383 hazardous chemical Substances 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 238000011478 gradient descent method Methods 0.000 claims description 8
- 230000013016 learning Effects 0.000 claims description 7
- 238000004880 explosion Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 2
- 231100000206 health hazard Toxicity 0.000 claims description 2
- 230000009545 invasion Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 abstract description 2
- GRYLNZFGIOXLOG-UHFFFAOYSA-N Nitric acid Chemical compound O[N+]([O-])=O GRYLNZFGIOXLOG-UHFFFAOYSA-N 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 8
- 210000003128 head Anatomy 0.000 description 5
- 231100001261 hazardous Toxicity 0.000 description 4
- 238000002485 combustion reaction Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 231100000693 bioaccumulation Toxicity 0.000 description 2
- 239000013626 chemical specie Substances 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 206010007269 Carcinogenicity Diseases 0.000 description 1
- 206010070834 Sensitisation Diseases 0.000 description 1
- 206010043275 Teratogenicity Diseases 0.000 description 1
- 230000007059 acute toxicity Effects 0.000 description 1
- 231100000403 acute toxicity Toxicity 0.000 description 1
- 238000009835 boiling Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007670 carcinogenicity Effects 0.000 description 1
- 231100000260 carcinogenicity Toxicity 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007665 chronic toxicity Effects 0.000 description 1
- 231100000160 chronic toxicity Toxicity 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002939 deleterious effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 210000000744 eyelid Anatomy 0.000 description 1
- 230000037406 food intake Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007794 irritation Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000007886 mutagenicity Effects 0.000 description 1
- 231100000299 mutagenicity Toxicity 0.000 description 1
- HGASFNYMVGEKTF-UHFFFAOYSA-N octan-1-ol;hydrate Chemical compound O.CCCCCCCCO HGASFNYMVGEKTF-UHFFFAOYSA-N 0.000 description 1
- 125000004430 oxygen atom Chemical group O* 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 239000002504 physiological saline solution Substances 0.000 description 1
- 231100000614 poison Toxicity 0.000 description 1
- 239000002574 poison Substances 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 230000008313 sensitization Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 231100000456 subacute toxicity Toxicity 0.000 description 1
- 231100000211 teratogenicity Toxicity 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/20—Identification of molecular entities, parts thereof or of chemical compositions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种化学品知识表示的方法,用于性质复杂的危险化学品领域的知识表示,通过本发明能够完成对危险化学品知识体系的有效管理,对于该领域进行高效的计算和推理研究等提供了极大帮助。该方法主要是:首先确定目标危险化学品并获取其相关信息。接下来使用SMILES表达式切割算法提取危险化学品基本性质知识;人工录入危险化学品之间的不相容性质知识;组合三元组方式提取危险化学品其他性质知识,通过上述工作完成危险化学品知识库的构建。最后构建并使用ChIncomTrans知识表示模型将危险化学品领域知识映射成为向量形式的存在。
Description
技术领域
本发明属于知识表示领域,涉及化学品知识表示的方法,特别适用于性质复杂的危险化学品领域的知识表示。
背景技术
化学品在工农业的生产环节和人们的日常生活中扮演着极为重要的角色,但其中危险化学品的存在也导致了众多的爆炸、燃烧、毒害等事故,对人体健康和周围环境造成严重危害。危险化学品的危险性主要是由危化品自身的性质决定的,通常在各种因素的影响下,通过特定的反应机制表现。掌握其基本性质,对有效防范化学品的危害有关键作用,也是政府管理部门实施化学品管理决策必备的基础。然而化学品种类繁杂,相互之间差异很大,掌握其特性十分困难。长期以来,危险化学品领域的从业者都是依赖书籍、网络搜索和工作经验来规避在生产生活中出现的危险情况。但是书籍和网络搜索的结果依赖于其他从业者的编辑上传,而且这些资料无法完整地覆盖生产中所有的情况,而单单依赖于工作经验同样存在经验匮乏,遗忘等风险。因此在互联网飞速发展的今天,如何利用计算机将已有的数据资料进行整合,进而为危险化学品的安全性防范和生产指导提供帮助已经成为亟待解决的问题。
知识图谱可以用于描述客观世界中所存在的概念,实体及实体之间的联系,是一种结构化的工具,其概念的正式提出是在2012年由google定义并宣布将这个技术应用到其自身的google搜索中。知识图谱可以用形式化的效果来展示已有的数据信息,进而更好地对繁多复杂的数据进行有效的组织与管理。因此,可以结合知识图谱来表示危险化学品在客观现实生活的存在,从而更好地将计算机技术应用于危险化学品领域,是一个解决的好办法。
知识图谱中的知识表示技术是使用张量、图形、向量等方式对知识图谱映射后的文字信息进行表示的技术,通过知识表示技术更加易于利用知识图谱中的数据进行后续的推理与应用。结合知识表示技术,可以完成对危化品领域复杂知识的管理,掌握危险化学品的特性,从而在此技术上完成后续的推理和应用。
对于知识表示学习的研究,从发展历程来看主要可以分成两个阶段。早期的知识表示学习还处于百花争鸣的阶段,出现了许多的不同的表示模型如能量模型、距离模型、单层神经网络模型、双线性模型、张量神经网络模型、矩阵分解模型等,它们各自在不同的数据集上都表现出了一定的优势。2013年,Borders将向量的平移不变性应用于知识表示中,提出了TransE(Translating Embeddings)这一全新的知识表示模型。TransE模型由其优越的性能和强大的泛化能力,成为了知识表示领域的标杆模型。在TransE模型提出之后,人们对于知识的表示方法有了全新的认识,并将知识利用向量进行表示的方法和技巧进行拓展和深入研究,在其模型基础上进行改良并提出了TransH、TransR、TransD、Transparse、TransC等模型,共同组成了知识图谱翻译系列模型。
尽管现在知识表示技术已经有了一定阶段性成果,但是现有的知识表示学习模型大多数都被设计为通用模型,对于性质复杂的危险化学品等特定领域的实用性不足,仍然存在一些缺陷。
发明内容
本专利的目的是为现有的危险化学品领域知识提供一种高效率、能够计算和推理,易于在此基础上进行后续研究的知识表示方法。
具体包括以下步骤:
步骤一,按照《危险化学品目录(2015版)》确定所需的目标危险化学品,然后到网站上爬取其相关信息,包括了CAS号、SMILES表达式、理化性质、不相容化学品、储存运输方式等,将上述爬取的相关数据存储至mysql数据库中。
步骤二,提取出危险化学品基本性质知识。对每一个化学品,对其进行SMILES表达式的解析,将其分解为数个原子、离子和化学基团。将化学品、SMILES表达式、每一个不同的原子、离子和化学基团均定义为一个实体,再利用SMILES表达式,找出这些实体之间的关系。将所有的实体和关系组合成三元组信息保存在数据库中。
步骤三,人工录入所有危险化学品之间的不相容性质知识。具体包括两个不相容实体和实体之间的不相容关系,将所有的不相容信息组合成三元组信息保存在数据库中。
步骤四,提取危险化学品其他性质知识。将数据库中每一条记录中的每一个字段均定义为一个实体,将化学品相关信息表的列属性名均定义为一个关系,将所有的实体和关系组合成三元组信息保存在数据库中。
步骤五,构建并应用ChIncomTrans知识表示模型。从数据库中提取所有的三元组信息,使用ChIncomTrans模型将每个实体和关系都映射到低维向量空间中,使用模型将其均表示为向量形式的存在,从而完成了知识表示的过程。
进一步限定,所述步骤一中获取的化学品相关信息具体包括以下内容:
中文名、通用俗名、化学品英文名称、英文名、技术说明书编码、生产企业名称、地址、生效日期、有害物成分、含量、危险性类别、侵入途径、健康危害、环境危害、燃爆危险、皮肤接触、眼睛接触、吸入、食入、危险特性、有害燃烧产物、灭火办法、应急处理、操作注意事项、中国MAC、前苏联MAC、TLVTN、TLVWN、监测方法、工程控制、呼吸系统防护、眼睛防护、身体防护、手防护、其他防护、外观与性状、PH、熔点、沸点、分子式、主要成分、饱和蒸汽压、临界温度、辛醇水分配系数的对数值、闪点、引燃温度、溶解性、主要用途、其他理化性质、相对水密度、相对蒸气密度、分子量、燃烧热、临界压力、爆炸上限、爆炸下限、稳定性、禁配物、避免接触的条件、聚合危害、分解产物、急性毒性、亚急性和慢性毒性、刺激性、致敏性、致突变性、致畸性、致癌性、生态毒理毒性、生物降解性、非生物降解性、生物富集或生物累积性、其他有害作用、废弃物性质、废弃处置方法、废弃注意事项、危险货物编号、UN编号、包装标志、包装类别、包装方法、运输注意事项、法规信息、参考文献、填表部门、数据审核单位、修改说明、其他信息。
进一步限定,对于步骤二中,对每一个化学式的SMILES表达式的解析过程,将其分为四种类型。分别是对原子与离子、化学基团、单键化学式和非单键化学式的解析。
第一步,解析SMILES表达式中的原子和离子,包含以下步骤:
先对SMILES表达式找出每个大写字母up作为每一个目标原子或目标离子的开始,再对每一个up之后的字符进行遍历。
若up下一位是“+”或者“-”号,则目标离子为“up+正负号”。
若up下一位是大写字母或者除了“+”和“-”外的其他符号,则目标原子为“up”。
若up下一位是小写字母low,则将low添加在up后组成新的目标,继续向后遍历表达式:
若low下一位是“+”或者“-”号,则目标离子为“up+low+正负号”;
若low下一位是大写字母或者除了“+”和“-”外的其他符号,则目标原子为“up+low”;
若low下一位是数字num,而且数字num后为“+”或者“-”号,则目标离子为“up+low+num+正负号”;
若low下一位是数字num,而且数字num后为大写字母或者除了“+”和“-”外的其他符号,则目标原子为“up+low”;
若up下一位是数字num,继续向后遍历表达式:
若num下一位是“+”或者“-”号,则目标离子为“up+正负号”;
若num下一位是大写字母或者除了“+”和“-”外的其他符号,则目标原子为“up”;
将化学品作为一个实体,如图1所得到目标中原子或者离子进行去重操作,之后作为另一个实体,实体间关系定义为“包含原子”或“包含离子”,将三元组保存在数据库中。
第二步,解析SMILES表达式中包含的化学基团,包括以下步骤:
首先找出SMILES表达式中所有的“[”或者“(”所在的位置作为每一个基团的开始位置。对每一个开始位置之后的字符串,可以根据当前位置的字符进行SMILES表达式中化学基团的解析过程:
若表达式当前位置为“[”,符号“[”计数器数值加一,继续向后遍历。
若表达式当前位置为“]”,符号“]”计数器数值减一,若此时计数器数值为0,则当前位置为基团结束位置,否则继续向后遍历。
若表达式当前位置为“(”,符号“(”计数器数值加一,继续向后遍历。
若表达式当前位置为“)”,符号“)”计数器数值减一,若此时计数器数值为0,则当前位置为基团结束位置。否则继续向后遍历。
若表达式当前位置为其他字符,继续向后遍历。
将每一个目标化学基团提取出来,将之转化为字符串str,计算str中大写字母的数量,若大写字母数量大于等于2,则将str定义为一个化学基团实体。
将化学品作为一个实体,化学基团作为另一个实体,实体间关系定义为“包含基团”,将三元组保存在数据库中。
第三步,解析SMILES表达式中包含的非单键化学式,包括以下步骤:
先找到SMILES表达式中的“=”、“.”、“@”、“#”、“/”、“\”作为非单键化学键。接下来针对每一个非单键化学键,使用如图3所示解析出非单键化学式,用以提取SMILES表达式中的信息。起始位置和结束位置的具体寻找方法如下:
首先寻找非单键化学式起始位置。
若化学键的上一位是“]”或者“)”,则使用第二步的方法反向计算,找到其对应的基团作为起始位置。
若化学键的上一位是小写字母low或者正负号,则继续向前搜索到最近的大写字母up。利用第一步的方法与最长匹配原则找到其对应的原子或者离子作为起始位置。
再寻找非单键化学式结束位置。
若化学键的下一位是“[”或者“(”,则使用步骤第二步的方法,找到其对应的基团作为结束位置。
若化学键的下一位是大写字母up,则使用第一步的方法和最长匹配原则找到其对应的原子或者离子作为结束位置。
将化学品作为一个实体,将每一个如图3所解析得到的非单键化学式,定义为非单键化学式实体,即另一个实体,实体间关系定义为“包含非单键化学式”,将三元组保存在数据库中。
第四步,解析SMILES表达式中包含的单键化学式及位置信息。
首先遍历化学品的SMILES表达式的每一位,并根据当前位置的字符按照如下方法来寻找单键化学式及位置信息:
若当前位置的字符是大写字母,则根据第一步中的方法和最长匹配原则计算出原子或者离子,从结束位置继续向后遍历。
若当前位置的字符是“[”或者是“(”,则根据第二步中的方法计算出化学基团,从结束位置继续向后遍历。
将上述情况中获得的原子,离子,化学基团依次按顺序编号,则它们的距离定义为编号的差值,然后按照以下步骤获取SMILES表达式中包含的信息:
若原子,离子,化学基团之间在字符串中的距离dis为1,则将编号较小的化学式定义为一个实体,编号较大的化学式定义为另一个实体,实体间关系定义为“1_place_before,将三元组保存在文档中。同时另外定义一个关系为“包含单键化学式”,将这两个三元组都保存在数据库中。
若原子,离子,化学基团之间在字符串中的距离dis大于1,则将编号较小的化学式定义为一个实体,编号较大的化学式定义为另一个实体,实体间关系定义为“‘dis’+‘_place_before’”,如间隔为3时,实体间关系为“3_place_before”将三元组保存在数据库中。
进一步限定,对于步骤五中,ChIncomTrans模型训练过程具体为:
第一步,先从数据库中获取所有保存的三元组信息,除了此三元组信息,另外新建两个文档分别存储实体和关系。
第三步,计算出所有的三元组中每个头实体所对应出现的平均尾实体数和每个头实体所对应出现的平均尾实体数并根据得到的结果确定负样例中替换头实体和尾实体的概率为按照此概率对一定数量的正样例三元组信息生成对应的负样例三元组,将全部新三元组添加到三元组列表中。
第五步,重复上述第三步和第四步后一定次数或者梯度下降法误差小于训练终止误差后,最终得到了所有的实体和关系的向量表示结果,从而完成危险化学品领域的知识表示过程。
本发明的显著效果是为现有的危险化学品领域知识提供一种高效率、能够计算和推理,易于在此基础上进行后续研究的知识表示方法,通过本发明为危险化学品领域的相关知识以向量形式进行了映射,完成了知识表示的过程。
附图说明
图1为本发明工作流程图;
图2为解析SMILES表达式中的原子和离子流程图;
图3为解析SMILES表达式中的化学基团流程图;
图4为解析SMILES表达式中的非单键化学式流程图;
图5为解析SMILES表达式中的单键化学式和位置信息流程图;
图6为危险化学品知识库中的部分三元组文档;
图7为三元组中提取的部分实体文档;
图8为三元组中提取的部分关系文档;
图9为ChIncomTrans模型训练过程图;
图10为ChIncomTrans模型映射后得到的部分实体向量表示;
图11为ChIncomTrans模型映射后得到的部分关系向量表示;
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
图1为本发明的工作流程图。
首先根据中国化学品协会发布的最新《危险化学品名录(2015版本)》确定了本次建立知识库所需要的危险化学品对象和他们的CAS编号,如通用名为发烟硝酸的CAS编号为“7697-37-2”,共计确定了2828个危险化学品。然后将CAS编号作为化学品的统一识别号,针对每一个危险化学品到相关网站上爬取这些危险化学品的相关信息,包括了SMILES、理化性质、储存运输方式等。
接下来对每一个危险化学品,对其进行SMILES表达式的解析。将其分解为数个原子、离子和化学基团,将化学品、SMILES表达式、每一个不同的原子、离子和化学基团均定义为一个实体,再利用SMILES表达式,找出这些实体之间的关系。利用以上组合而成的三元组信息构成了危险化学品基本性质的知识。
同样以CAS编号为“7697-37-2”的危险化学品为例,通过如图2所示的SMILES表达式解析算法中解析原子与离子的方法,可以获取到该化学品种原子即O原子和两种离子N+和O-。因此共生成了一个原子三元组信息和两个离子三元信息,即(7697-37-2,atom,O)、(7697-37-2,ion,N+)和(7697-37-2,ion,O-)。
通过如图3所示的SMILES表达式解析化学基团的方法,可以获取到该化学品一共存在三个化学基团,即[N+]化学基团、(=O)化学基团和[O-]化学基团。因此共生成了三个三元组信息,即7697-37-2,chemical_group,[N+])、(7697-37-2,chemical_group,(=O))和(7697-37-2,chemical_group,[O-])。
通过如图4所示的SMILES表达式解析非单键化学式的方法,该化学品中没有非单键化学式的存在。
通过如图5所示的SMILES表达式解析单键化学式和位置信息的方法,可以获取到该化学品一共存在三个单键化学式即O[N+]化学式、[N+](=O)化学式和(=O)[O-]化学式。因此共生成了三个三元组信息,即(7697-37-2,single_bond_formula,O[N+])、(7697-37-2,single_bond_formula,[N+](=O))和(7697-37-2,single_bond_formula,(=O)[O-])。除此之外,一共解析出了六个化学式位置信息,并根据这些位置信息可以得到六个三元组信息,分别是(O,1_place_before,[N+])、(O,2_place_before,(=O))、(O,3_place_before,[O-])、([N+],1_place_before,(=O))、([N+],2_place_before,[O-])和((=O),1_place_before,[O-])。
通过上述SMILES表达式的解析过程,CAS编号为“7697-37-2”的危险化学品一共得到了十二个三元组信息,通过这些三元组信息可以表示这个化学品所包含的各类基本性质。
接下来人工录入所有危险化学品之间的不相容知识。如(504-24-5,ch_incom_ch,124-68-5)、(504-24-5,ch_incom_ch,929-06-6)、(504-24-5,ch_incom_ch,100-51-6)等三元组信息。
接下来完成危险化学品其他性质知识的获取工作。这里是将上述得到的危险化学品的其他性质通过组合成为三元组知识,如(147-82-0;提起眼睑,用流动清水或生理盐水清洗,就医;eye_protect)等知识。
通过上述过程完成了危险化学品知识库的构建工作后,共计得到了279370个三元组信息,如图6为危险化学品知识库中的部分三元组文档。将这些三元组去重提取得到了实体和关系并将其存储在文档中,其中包括了15056个实体信息和146个实体间关系信息。如图7为三元组中提取的部分实体文档,如图8为三元组中提取的部分关系文档。
接下来进行知识表示学习的工作。本发明设计了ChIncomTrans知识表示模型来完成知识表示的工作,从而将所有三元组中的实体和关系都映射成为低维向量的知识表示形式,如图9为ChIncomTrans模型训练过程图。
首先确定本模型的学习参数如下:初始化的向量维度为50维,梯度下降法单次迭代大小为5000,训练终止误差为0.001,训练最大次数为400次,“不相容”间隔γ1为5,非“不相容”间隔γ2为1,梯度下降法学习率0.01。
接下来在模型中输入上述得到危险化学品知识库中的实体文档、关系文档和三元组文档,通过ChIncomTrans模型训练得到了危险化学品知识库中所有的实体和关系的向量知识表示形式。如图10为ChIncomTrans模型映射后得到的部分实体向量表示,如图11为ChIncomTrans模型映射后得到的部分关系向量表示。
Claims (5)
1.一种危险化学品领域的知识表示方法,其特征在于:包括以下步骤:
步骤1:按照《危险化学品目录(2015版)》确定所需的目标危险化学品,然后到网站上爬取其相关信息,包括了CAS号、SMILES表达式、理化性质、不相容化学品、储存运输方式等,将上述爬取的相关数据存储至mysql数据库中。
步骤2:提取出危险化学品基本性质知识。对每一个化学品,对其进行SMILES表达式的解析,将其分解为数个原子、离子和化学基团。将化学品、SMILES表达式、每一个不同的原子、离子和化学基团均定义为一个实体,再利用SMILES表达式,找出这些实体之间的关系。将所有的实体和关系组合成三元组信息保存在数据库中。
步骤3:人工录入所有危险化学品之间的不相容性质知识。具体包括两个不相容实体和实体之间的不相容关系,将所有的不相容信息组合成三元组信息保存在数据库中。
步骤4:提取危险化学品其他性质知识。将数据库中每一条记录中的每一个字段均定义为一个实体,将化学品相关信息表的列属性名均定义为一个关系,将所有的实体和关系组合成三元组信息保存在数据库中。
步骤5:构建并应用ChIncomTrans知识表示模型。从数据库中提取所有的三元组信息,使用ChIncomTrans模型将每个实体和关系都映射到低维向量空间中,使用模型将其均表示为向量形式的存在,从而完成了知识表示的过程。
2.根据权利要求1所述的一种危险化学品领域的知识表示方法,其特征在于步骤2中,其对每一个化学式的SMILES表达式解析的具体步骤为:
步骤2.1:解析SMILES表达式中包含的原子与离子。将化学品作为一个实体,解析出的原子或者离子作为另一个实体,实体间关系定义为“包含原子”或“包含离子”,将三元组保存在数据库中。
步骤2.2:解析SMILES表达式中包含的化学基团,将化学品作为一个实体,化学基团作为另一个实体,实体间关系定义为“包含基团”,将三元组保存在数据库中。
步骤2.3:解析SMILES表达式中包含的非单键化学式。将化学品作为一个实体,非单键化学式实体作为另一个实体,实体间关系定义为“包含非单键化学式”,将三元组保存在数据库中。
步骤2.4:解析SMILES表达式中包含的单键化学式及位置信息。先将化学品作为一个实体,单键化学式实体作为另一个实体,实体间关系定义为“包含非单键化学式”,将三元组保存在数据库中。再将解析出的单键化学式按照在SMILES表达式中出现的顺序进行编号,对两两间距为dis的单键化学式进行三元组的添加:将编号较小的化学式定义为一个实体,编号较大的化学式定义为另一个实体,实体间关系定义为“dis+‘_place_before’”,将三元组保存在数据库中。
3.根据根据权利要求1所述的一种危险化学品领域的知识表示方法,其特征在于:所述步骤4中危险化学品的其他性质知识由步骤1的危险化学品相关知识中提取组合三元组而来,包括中文名、通用俗名、化学品英文名称、英文名、技术说明书编码、生产企业名称、地址、生效日期、有害物成分、含量、危险性类别、侵入途径、健康危害、环境危害、燃爆危险、皮肤接触、眼睛接触等。
4.根据权利要求1所述的一种危险化学品领域的知识表示方法,其特征在于:所述步骤5中ChIncomTrans知识表示模型训练过程为:
步骤5.1:先从数据库中获取所有保存的三元组信息,除了此三元组信息,另外新建两个文档分别存储实体和关系。
步骤5.3:计算出所有的三元组中每个头实体所对应出现的平均尾实体数和每个头实体所对应出现的平均尾实体数并根据得到的结果确定负样例中替换头实体和尾实体的概率为按照此概率对一定数量的正样例三元组信息生成对应的负样例三元组,将全部新三元组添加到三元组列表中。
步骤5.5:重复上述步骤5.3和步骤5.4后一定次数或者梯度下降法误差小于训练终止误差后,最终得到了所有的实体和关系的向量表示结果,从而完成危险化学品领域的知识表示过程。
5.根据权利要求1所述的一种危险化学品领域的知识表示方法和权利要求3所述的ChIncomTrans知识表示模型训练过程,其特征在于:在所述的模型训练过程中,经实验分析,在模型的超参数设置为:初始化的向量维度为50维;梯度下降法单次迭代大小为5000;训练终止误差为0.001;训练最大次数为400次;“不相容”间隔γ1为5;非“不相容”间隔γ2为1;梯度下降法学习率0.01的情况下,模型取得了较好的知识表示效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010440437.2A CN111613277A (zh) | 2020-05-22 | 2020-05-22 | 一种危险化学品领域的知识表示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010440437.2A CN111613277A (zh) | 2020-05-22 | 2020-05-22 | 一种危险化学品领域的知识表示方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111613277A true CN111613277A (zh) | 2020-09-01 |
Family
ID=72198980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010440437.2A Pending CN111613277A (zh) | 2020-05-22 | 2020-05-22 | 一种危险化学品领域的知识表示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111613277A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120295796A1 (en) * | 2010-09-03 | 2012-11-22 | Vassa Informatics | System and Method of Predicting Chemical Interaction and Functionality of Molecules |
AU2015205934A1 (en) * | 2005-05-20 | 2015-09-24 | Synergenz Bioscience Limited | Methods of analysis of polymorphisms and uses thereof |
CN106021474A (zh) * | 2016-05-18 | 2016-10-12 | 武汉科技大学 | 一种确定smiles表达式之间是否具有子结构关系的方法 |
CN107145593A (zh) * | 2017-05-27 | 2017-09-08 | 广西大学 | 危险化学品重大危险源基础信息数据库应用系统 |
CN110379467A (zh) * | 2019-07-17 | 2019-10-25 | 成都火石创造科技有限公司 | 一种化学分子式切分方法 |
CN110781315A (zh) * | 2019-10-16 | 2020-02-11 | 华中农业大学 | 一种食品安全知识图谱及相关智能问答系统的构建方法 |
-
2020
- 2020-05-22 CN CN202010440437.2A patent/CN111613277A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2015205934A1 (en) * | 2005-05-20 | 2015-09-24 | Synergenz Bioscience Limited | Methods of analysis of polymorphisms and uses thereof |
US20120295796A1 (en) * | 2010-09-03 | 2012-11-22 | Vassa Informatics | System and Method of Predicting Chemical Interaction and Functionality of Molecules |
CN106021474A (zh) * | 2016-05-18 | 2016-10-12 | 武汉科技大学 | 一种确定smiles表达式之间是否具有子结构关系的方法 |
CN107145593A (zh) * | 2017-05-27 | 2017-09-08 | 广西大学 | 危险化学品重大危险源基础信息数据库应用系统 |
CN110379467A (zh) * | 2019-07-17 | 2019-10-25 | 成都火石创造科技有限公司 | 一种化学分子式切分方法 |
CN110781315A (zh) * | 2019-10-16 | 2020-02-11 | 华中农业大学 | 一种食品安全知识图谱及相关智能问答系统的构建方法 |
Non-Patent Citations (2)
Title |
---|
PAOLA GRAMATICA: "QSARINS-chem: Insubria datasets and new QSAR/QSPR models for environmental pollutants in QSARINS", 《JOURNAL OF COMPUTATIONAL CHEMISTRY》 * |
刘宝: "基于自然语言处理(NLP)技术建立化学品危险评估知识图谱的研究", 《计算机与应用化学》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kershaw Jr et al. | Forest mensuration | |
McDonald et al. | JCAMP-DX: A standard form for exchange of infrared spectra in computer readable form | |
Navarro | Spaces, trees, and colors: The algorithmic landscape of document retrieval on sequences | |
Warr | Representation of chemical structures | |
US20140059015A1 (en) | Selecting candidate rows for deduplication | |
Restrepo et al. | Mathematical thinking in chemistry | |
Specht et al. | A story of data won, data lost and data re-found: the realities of ecological data preservation | |
US20230274324A1 (en) | Classification of dangerous goods via machine learning | |
CN111613277A (zh) | 一种危险化学品领域的知识表示方法 | |
Müller et al. | Ω-Bibliography of Mathematical Logic: Model Theory | |
CN112541088A (zh) | 一种基于知识图谱的危险化学品库构建方法 | |
Coleman et al. | A workflow to create trait databases from collections of textual taxonomic descriptions | |
Costello Jr | Storage and retrieval of chemical research and patent information by links and roles in Du Pont | |
CN117194682A (zh) | 构建基于电网相关文件的知识图谱的方法、装置及介质 | |
Filippov | Quotient spaces and multiplicity of a base | |
Hamoud et al. | Using an Islamic Question and Answer Knowledge Base to answer questions about the holy Quran | |
Hussain et al. | Visualization and Explorative Data Analysis | |
Zhang et al. | Fine-Tuning ChatGPT Achieves State-of-the-Art Performance for Chemical Text Mining | |
CN115392939B (zh) | 一种基于检索对比和匹配度计算的危险废物溯源方法 | |
D’Souza | Agriculture Named Entity Recognition—Towards FAIR, Reusable Scholarly Contributions in Agriculture | |
Li et al. | Enhanced KStore with the use of dictionary and Trie for retail business data | |
Sojka | Competing patterns for language engineering: Methods to handle and store empirical data | |
Shiddiqi et al. | Vector Space Model-based Information Retrieval Systems at South Sumatera Regional Libraries | |
Broughton | Notational expressivity; the case for and against the representation of internal subject structure in notational coding | |
Mora-Cross et al. | Essential Biodiversity Variables: extracting plant phenological data from specimen labels using machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200901 |