CN114896408A - 一种材料知识图谱的构建方法、材料知识图谱及应用 - Google Patents
一种材料知识图谱的构建方法、材料知识图谱及应用 Download PDFInfo
- Publication number
- CN114896408A CN114896408A CN202210303420.1A CN202210303420A CN114896408A CN 114896408 A CN114896408 A CN 114896408A CN 202210303420 A CN202210303420 A CN 202210303420A CN 114896408 A CN114896408 A CN 114896408A
- Authority
- CN
- China
- Prior art keywords
- information
- knowledge graph
- crystal structure
- text
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000000463 material Substances 0.000 title claims abstract description 323
- 238000010276 construction Methods 0.000 title claims abstract description 24
- 239000013078 crystal Substances 0.000 claims abstract description 95
- 238000012545 processing Methods 0.000 claims abstract description 76
- 238000000034 method Methods 0.000 claims abstract description 75
- 238000012512 characterization method Methods 0.000 claims abstract description 42
- 238000000605 extraction Methods 0.000 claims abstract description 33
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 230000004927 fusion Effects 0.000 claims description 36
- 239000013077 target material Substances 0.000 claims description 32
- 238000003860 storage Methods 0.000 claims description 30
- 238000004422 calculation algorithm Methods 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 23
- 238000002372 labelling Methods 0.000 claims description 21
- 230000003197 catalytic effect Effects 0.000 claims description 18
- 238000011161 development Methods 0.000 claims description 15
- 230000018109 developmental process Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000000547 structure data Methods 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 12
- 230000000007 visual effect Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 10
- 238000006555 catalytic reaction Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000003709 image segmentation Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 5
- 239000003054 catalyst Substances 0.000 claims description 4
- 229910010293 ceramic material Inorganic materials 0.000 claims description 4
- 238000004146 energy storage Methods 0.000 claims description 4
- 238000013138 pruning Methods 0.000 claims description 4
- 229910052761 rare earth metal Inorganic materials 0.000 claims description 4
- 150000002910 rare earth metals Chemical class 0.000 claims description 4
- 239000004065 semiconductor Substances 0.000 claims description 4
- 239000011232 storage material Substances 0.000 claims description 4
- 239000000376 reactant Substances 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 claims description 2
- 239000000047 product Substances 0.000 claims description 2
- 230000008520 organization Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 11
- 238000013461 design Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 12
- 229910010710 LiFePO Inorganic materials 0.000 description 8
- 229910052744 lithium Inorganic materials 0.000 description 8
- 229910010707 LiFePO 4 Inorganic materials 0.000 description 7
- WHXSMMKQMYFTQS-UHFFFAOYSA-N Lithium Chemical compound [Li] WHXSMMKQMYFTQS-UHFFFAOYSA-N 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 239000007774 positive electrode material Substances 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000002114 nanocomposite Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- HBBGRARXTFLTSG-UHFFFAOYSA-N Lithium ion Chemical compound [Li+] HBBGRARXTFLTSG-UHFFFAOYSA-N 0.000 description 2
- 239000010405 anode material Substances 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 229910001416 lithium ion Inorganic materials 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 229910012851 LiCoO 2 Inorganic materials 0.000 description 1
- 229910019142 PO4 Inorganic materials 0.000 description 1
- 229910010389 TiMn Inorganic materials 0.000 description 1
- 239000003513 alkali Substances 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 150000001768 cations Chemical class 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 239000011258 core-shell material Substances 0.000 description 1
- 239000002178 crystalline material Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 208000020960 lithium transport Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 239000007769 metal material Substances 0.000 description 1
- 239000002105 nanoparticle Substances 0.000 description 1
- 229910052759 nickel Inorganic materials 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 229910052609 olivine Inorganic materials 0.000 description 1
- 239000010450 olivine Substances 0.000 description 1
- 235000021317 phosphate Nutrition 0.000 description 1
- 150000003013 phosphoric acid derivatives Chemical class 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 239000006104 solid solution Substances 0.000 description 1
- 238000001179 sorption measurement Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C60/00—Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种材料知识图谱的构建方法、材料知识图谱及应用。本申请的构建方法,包括分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片,分别对文本信息、晶体结构信息和材料表征图片进行数据处理,抽取特征信息,根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联,获得材料知识图谱。本申请方法,为包含文本、晶体结构和材料表征图片三种形式信息的多模态材料知识图谱构建流程,构建的材料知识图谱,更完整、高效,可实现对过往材料科学信息的高效分析与管理,实现基于数据驱动的材料科学知识发现,对材料科学信息进行高效溯源分析,实现对新材料的推理预测,加速新材料的设计与发现。
Description
技术领域
本申请涉及材料知识图谱技术领域,特别是涉及一种材料知识图谱的构建方法、材料知识图谱及应用。
背景技术
2012年,Google正式提出了“知识图谱(Knowledge Graph)”的概念,其初衷是为了优化搜索引擎返回的结果,增强用户搜索质量及体验。本质上,知识图谱是揭示实体之间关系的语义网络,以符号形式描述物理世界中的概念以及相互关系。知识图谱在多个领域发挥了重要的作用,例如金融、生物医药、电商等,知识图谱通过其高效的知识管理能力为任务场景赋能,进行更深层次的分析,辅助决策。
经过长时间的发展,海量的材料科学文献、大量的晶体结构信息与材料表征图片中积累了丰富的材料科学信息,但是如何从这些材料科学信息中高效获取所需的信息和知识仍然十分困难。
近年来,材料领域知识图谱的研究初步出现,例如基于子图语义距离(DLSSD)和字符串相似度(SDSS)的金属材料知识图谱、通过关联不断扩充每种材料的可用信息量的材料属性关联框架propnet,除此之外,还出现了致力于收集纳米复合材料的加工、结构和性能的实验和计算数据的纳米复合材料知识图谱。但是,这些工作仅仅聚焦于文本信息,导致知识图谱的不完整性和片面性。
因此,如何研发更完整、高效的材料知识图谱,是本领域亟待解决的问题。
发明内容
本申请的目的是提供一种改进的材料知识图谱的构建方法,由此构建的材料知识图谱及其应用。
本申请采用了以下技术方案:
本申请的一方面公开了一种材料知识图谱的构建方法,包括以下步骤:
数据获取步骤,包括分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片;文本信息为包括文献标题、摘要、关键词、正文、支撑材料、参考文献在内的全文信息,以及相应的作者信息;
特征抽取步骤,包括分别对文本信息、晶体结构信息和材料表征图片进行数据处理,抽取特征信息;文本信息的数据处理,包括对不同来源的文本信息进行融合,获得目标材料实体的特征信息,对文本类型实体进行标注;晶体结构信息的数据处理,包括对晶体结构数据进行编码,将结构信息向量化,根据晶体结构文件的名称对结构类型实体进行标注;材料表征图片的数据处理,包括对材料表征图片进行处理,提取图形特征,根据表征图片的标题信息对图片类型实体进行标注;
知识融合步骤,包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联,获得材料知识图谱。
需要说明的是,本申请的材料知识图谱构建方法,对文本信息、晶体结构信息和材料表征图片进行特征抽取和融合,从而构建获得更完整、高效的多模态材料知识图谱。
本申请的一种实现方式中,本申请的构建方法还包括存储和应用步骤;该存储和应用步骤,包括对知识融合步骤获得的材料知识图谱进行存储,并在可视化插件的支持下对材料知识图谱进行查询、分析和展示。
需要说明的是,单纯就材料知识图谱构建而言,经过知识融合步骤即可获得所需的材料知识图谱;但是,一般来说,知识图谱的构建还包括其应用。因此,本申请的构建方法还包括存储和应用步骤,即对材料知识图谱进行存储和可视化插件支持下的查询、分析和展示。可以理解,本申请的关键在于材料知识图谱,至于具体如何存储,可以参考现有技术,例如存储于Neo4j、MongoDB等等数据库中;至于可视化插件可以参考现有的数据库检索和分析系统,在此不作具体限定。
本申请的一种实现方式中,文本信息的数据处理中,对不同来源的文本信息进行融合,获得目标材料实体的特征信息,具体包括,对不同来源的文本进行词嵌入训练,得出不同来源的文本的词向量,采用注意力机制对不同来源的文本的词向量进行融合,得到最终的融合向量。
本申请的一种实现方式中,不同来源的文本包括所有材料文本、目标材料文本、重要信息文本;所有材料文本是指所有的材料文本,目标材料文本是指研究的目标材料的相关文本,重要信息文本是指包含重要信息的文本。
需要说明的是,本申请创造性的设计“多源文本信息融合”流程将多种来源的信息进行融合以增加目标材料实体分布式信息的含量,从而提升目标材料实体的词嵌入的质量,最后根据文本信息对文本类型实体自动化标注。
本申请的一种实现方式中,晶体结构信息的数据处理中,对晶体结构数据进行编码,将结构信息向量化,具体包括,采用图论、库伦矩阵、拓扑描述符和倒空间信息中的至少一种对晶体结构信息进行向量化。
需要说明的是,晶体结构信息向量化的目的是使晶体结构信息变成能够被计算机识别和处理的信息;图论、库伦矩阵、拓扑描述符和倒空间信息只是本申请的一种实现方式中列举的可以对晶体结构数据进行向量化的方式;不排除还可以采用其他方式实现晶体结构的向量化。
本申请的一种实现方式中,材料表征图片的数据处理中,对材料表征图片进行处理,提取图形特征,包括对材料形状、边缘、尺寸、原子空间分布进行特征提取。
本申请的一种实现方式中,材料表征图片的数据处理,具体包括,使用基于深度学习的图像分割算法对材料表征图片进行处理,采用语义分割将材料表征图片分割成若干个部分,从中提取图形特征。
本申请的一种实现方式中,作者信息包括作者的姓氏、名字、开放研究者与贡献者身份识别码、电子邮箱地址、所属机构单位。
本申请的一种实现方式中,知识融合步骤还包括,在进行三类实体的对应和关联之前,进行作者消歧处理;作者消歧处理包括,(1)使用机器学习模型-朴素贝叶斯模型,将作者信息按照对应的摘要文本进行分类;(2)使用数据库重复检测技术-匹配依赖算法,对步骤(1)获得的每个分类中的作者信息及其相应的文本信息按照相似性分“块”,将相似度高的作者信息分类于一个“块”中;(3)再次应用朴素贝叶斯模型,对步骤(2)获得的每个“块”再次进行分类,减少错误及重复关联;(4)利用CTANE算法进行匹配,通过剪枝策略对CTANE算法每一层的候选集进行剪枝,提升信息匹配的速度和效率。
本申请的另一面公开了本申请的构建方法获得的材料知识图谱。
需要说明的是,本申请的材料知识图谱可以存储于数据库中,在可视化插件的支持下,使得存储本申请材料知识图谱的数据库能够实现对材料相关信息的查询、分析和展示。可以理解,本申请的材料知识图谱也可以单独的储存于只读存储器、随机存储器、磁盘、光盘、硬盘等计算机可读存储介质中,单独作为材料知识图谱的数据库;使用时直接利用该计算机可读存储介质,或者通过下载或复制保存到本地设备的存储器中,通过可视化插件对本申请的材料知识图谱进行查询、分析和展示。
本申请的再一面公开了一种构建材料知识图谱的装置,其包括数据获取模块、特征抽取模块和知识融合模块;
数据获取模块,包括用于分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片;文本信息为包括文献标题、摘要、关键词、正文、支撑材料、参考文献在内的全文信息,以及相应的作者信息;
特征抽取模块,包括用于分别对文本信息、晶体结构信息和材料表征图片进行数据处理,抽取特征信息;其中,文本信息的数据处理,包括对不同来源的文本信息进行融合,获得目标材料实体的特征信息,对文本类型实体进行标注;晶体结构信息的数据处理,包括对晶体结构数据进行编码,将结构信息向量化,根据晶体结构文件的名称对结构类型实体进行标注;材料表征图片的数据处理,包括对材料表征图片进行处理,提取图形特征,根据表征图片的标题信息对图片类型实体进行标注;
知识融合模块,包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联,获得材料知识图谱。
本申请的一种实现方式中,本申请构建材料知识图谱的装置还包括存储和应用模块;该存储和应用模块,包括用于对知识融合步骤获得的材料知识图谱进行存储,并在可视化插件的支持下对材料知识图谱进行查询、分析和展示。
需要说明的是,本申请构建材料知识图谱的装置,实际上就是通过各模块自动化的实现本申请材料知识图谱构建方法的各步骤;因此,各模块的具体限定可以参考本申请的材料知识图谱构建方法,例如,不同来源的文本具体分为所有材料文本、目标材料文本、重要信息文本,词嵌入训练和词向量进行融合,晶体结构信息向量化,图形特征提取,作者消歧处理等,都可以参考本申请的材料知识图谱构建方法,在此不累述。
本申请的再一面公开了一种构建材料知识图谱的装置,其包括存储器和处理器;存储器用于存储程序;处理器用于通过执行存储器存储的程序实现本申请的材料知识图谱的构建方法。
本申请的再一面公开了一种计算机可读存储介质,其包括存储于其中的程序,程序能够被处理器执行以实现本申请的材料知识图谱的构建方法。
本申请的再一面公开了本申请的材料知识图谱的构建方法,或者本申请的材料知识图谱,或者本申请的构建材料知识图谱的装置,或者本申请的计算机可读存储介质,在材料科学发展史溯源分析、新材料研发或潜在材料推理预测中的应用;应用领域包括但不限于结构材料、功能陶瓷材料、半导体材料、储能材料、催化材料、超导材料、生命医学材料、稀土材料。
本申请的再一面公开了一种预测电池材料的方法,包括本申请的材料知识图谱的构建方法,或者本申请的材料知识图谱,或者本申请的构建材料知识图谱的装置,或者本申请的计算机可读存储介质,对电池材料领域的文本信息、晶体结构信息和/或材料表征图片进行分析,推理预测潜在的电池材料的组成、结构、制备方法及其应用场景。
本申请的再一面公开了一种预测催化材料的方法,包括采用本申请的材料知识图谱的构建方法,或者本申请的材料知识图谱,或者本申请的构建材料知识图谱的装置,或者本申请的计算机可读存储介质,对催化材料领域的文本信息、晶体结构信息和/或材料表征图片进行分析,对催化反应进行建模,实现催化反应中反应物、生成物、催化剂、反应路径、催化条件的推理预测,进而推理预测催化材料的成分、结构、催化机理。
本申请的有益效果在于:
本申请的材料知识图谱构建方法,包含文本、晶体结构和材料表征图片三种形式信息的多模态材料知识图谱构建,本申请构建方法获得的材料知识图谱,更完整、高效,可实现对过往材料科学信息的高效分析与管理,实现对新材料的推理预测,为数据驱动的知识发现奠定了基础。
附图说明
图1是本申请实施例中材料知识图谱构建方法的流程框图;
图2是本申请实施例中构建材料知识图谱的装置的结构框图;
图3是本申请实施例中采用材料知识图谱分析的LiFePO4发展里程碑图。
具体实施方式
现有的材料科学信息主要以材料科学文献(即文本信息)、晶体结构信息和材料表征图片,三种形式存在。本申请研究发现,虽然目前以及累计了丰富的材料科学信息;但是,从这三类承载材料科学信息的载体中高效获取信息和知识是困难的,这主要是由于以下三个原因:
(1)非结构化的文本信息是杂乱无章的,研究人员获取目标信息的效率较低,且无法保证信息的全面性和深度;
(2)人工处理和分析大量晶体结构信息是十分耗时且不准确的;
(3)XRD、TEM等材料表征图片的数量非常多,人工处理和分析十分耗时且不准确。
目前,虽然有材料领域知识图谱的相关研究和报道;但是,现有的材料知识图谱主要聚焦于文本信息,存在不完整性和片面性。因此,本申请创造性的提出,如果能将文本、结构、图像这三种不同格式的信息转换成计算机能够识别的数字化形式,即可对海量材料科学信息进行高效高精度的分析和处理。
因此,为了构建更加全面的可以对材料科学知识进行高效管理的综合性平台,本申请创造性的将文本中的语义信息、晶体结构中的结构信息、表征图片中的图信息进行融合,构建多模态材料知识图谱,以实现基于数据驱动的材料科学知识发现,对材料科学信息进行高效溯源分析,推理预测未发现的新材料,加速新材料的设计与发现。
本申请的材料知识图谱的构建方法,如图1所示,包括数据获取步骤11、特征抽取步骤12和知识融合步骤13。
其中,数据获取步骤11,包括分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片;文本信息为包括文献标题、摘要、关键词、正文、支撑材料、参考文献在内的全文信息,以及相应的作者信息。
例如,从网络上收集材料科学、物理、化学、生物领域的文献标题、摘要、关键词、正文、支撑材料以及相应的作者信息(LN、FN、ORCID、Email、Affiliation);从网络上或自有数据库中收集整理晶体结构文件;从材料科学文献以及自有表征图片库中收集整理相关材料表征图片。
特征抽取步骤12,包括分别对文本信息、晶体结构信息和材料表征图片进行数据处理,抽取特征信息;文本信息的数据处理,包括对不同来源的文本信息进行融合,获得目标材料实体的特征信息,对文本类型实体进行标注;晶体结构信息的数据处理,包括对晶体结构数据进行编码,将结构信息向量化,根据晶体结构文件的名称对结构类型实体进行标注;材料表征图片的数据处理,包括对材料表征图片进行处理,提取图形特征,根据表征图片的标题信息对图片类型实体进行标注。
例如,1)文本信息的数据处理:首先使用文本搜索及正则表达式匹配技术剔除一些无用的干扰文本,使用词嵌入方法对文本信息进行向量化表示,然后通过设计的“多源文本信息融合”流程将多种来源的信息进行融合以增加目标材料实体分布式信息的含量,从而提升目标材料实体的词嵌入的质量,最后根据文本信息对文本类型实体自动化标注;2)晶体结构信息的数据处理:基于图论、库伦矩阵、拓扑描述符、倒空间信息等方法对晶体结构数据进行编码,将结构信息向量化,最后根据晶体结构文件的名称对结构类型实体自动化标注;3)材料表征图片的数据处理:使用基于深度学习的图像分割算法对表征图片进行处理,提取图形特征,例如材料形状、边缘、尺寸、空间分布等重要信息,最后根据表征图片的标题信息对图片类型实体自动化标注。
知识融合步骤13,包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联,获得材料知识图谱。
在进一步的改进方案中,本申请的材料知识图谱的构建方法还包括存储和应用步骤14,如图1所示。
存储和应用步骤14,包括对知识融合步骤获得的材料知识图谱进行存储,并在可视化插件的支持下对材料知识图谱进行查询、分析和展示。
例如,将对应关联后的数据,即材料知识图谱,存储于数据库中,如Neo4j、MongoDB等,在可视化插件的支持下可进行展示及查询,基于多模态材料知识图谱可对材料科学发展史进行溯源分析,对新材料进行推理预测,包括但不限于结构材料、功能陶瓷材料、半导体材料、储能材料、催化材料、超导材料、生命医学材料、稀土材料。
本领域技术人员可以理解,上述方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述方法中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述方法中全部或部分功能。
因此,基于本申请的材料知识图谱构建方法,本申请提出了一种构建材料知识图谱的装置,如图2所示,包括数据获取模块21、特征抽取模块22和知识融合模块23。
数据获取模块21,包括用于分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片;文本信息为包括文献标题、摘要、关键词、正文、支撑材料、参考文献在内的全文信息,以及相应的作者信息。
特征抽取模块22,包括用于分别对文本信息、晶体结构信息和材料表征图片进行数据处理,抽取特征信息;其中,文本信息的数据处理,包括对不同来源的文本信息进行融合,获得目标材料实体的特征信息,对文本类型实体进行标注;晶体结构信息的数据处理,包括对晶体结构数据进行编码,将结构信息向量化,根据晶体结构文件的名称对结构类型实体进行标注;材料表征图片的数据处理,包括对材料表征图片进行处理,提取图形特征,根据表征图片的标题信息对图片类型实体进行标注。
例如,文本信息的数据处理中,采用Word2vec算法、GloVe模型、FastText模型、ELMo模型、CoVe模型、BERT模型中的至少一种进行词嵌入训练,获得不同来源的文本的词向量,并采用注意力机制对不同来源的文本的词向量进行融合,得到最终的融合向量。
知识融合模块23,包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联,获得材料知识图谱。
同样的,在进一步的改进方案中,本申请构建材料知识图谱的装置还包括存储和应用模块24,如图2所示。
存储和应用模块24,包括用于对知识融合步骤获得的材料知识图谱进行存储,并在可视化插件的支持下对材料知识图谱进行查询、分析和展示。
本申请的另一实现方式中还提供了一种构建材料知识图谱的装置,该装置包括存储器和处理器;存储器,包括用于存储程序;处理器,包括用于通过执行存储器存储的程序以实现以下方法:数据获取步骤,包括分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片;文本信息为包括文献标题、摘要、关键词、正文、支撑材料、参考文献在内的全文信息,以及相应的作者信息;特征抽取步骤,包括分别对文本信息、晶体结构信息和材料表征图片进行数据处理,抽取特征信息;文本信息的数据处理,包括对不同来源的文本信息进行融合,获得目标材料实体的特征信息,对文本类型实体进行标注;晶体结构信息的数据处理,包括对晶体结构数据进行编码,将结构信息向量化,根据晶体结构文件的名称对结构类型实体进行标注;材料表征图片的数据处理,包括对材料表征图片进行处理,提取图形特征,根据表征图片的标题信息对图片类型实体进行标注;知识融合步骤,包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联,获得材料知识图谱。或者,还可以包括存储和应用步骤;该存储和应用步骤,包括对知识融合步骤获得的材料知识图谱进行存储,并在可视化插件的支持下对材料知识图谱进行查询、分析和展示。
本申请另一种实现方式中还提供一种计算机可读存储介质,该存储介质中包括程序,该程序能够被处理器执行以实现如下方法:数据获取步骤,包括分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片;文本信息为包括文献标题、摘要、关键词、正文、支撑材料、参考文献在内的全文信息,以及相应的作者信息;特征抽取步骤,包括分别对文本信息、晶体结构信息和材料表征图片进行数据处理,抽取特征信息;文本信息的数据处理,包括对不同来源的文本信息进行融合,获得目标材料实体的特征信息,对文本类型实体进行标注;晶体结构信息的数据处理,包括对晶体结构数据进行编码,将结构信息向量化,根据晶体结构文件的名称对结构类型实体进行标注;材料表征图片的数据处理,包括对材料表征图片进行处理,提取图形特征,根据表征图片的标题信息对图片类型实体进行标注;知识融合步骤,包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联,获得材料知识图谱。或者,还可以包括存储和应用步骤;该存储和应用步骤,包括对知识融合步骤获得的材料知识图谱进行存储,并在可视化插件的支持下对材料知识图谱进行查询、分析和展示。
下面通过具体实施例和附图对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明,不应理解为对本申请的限制。
实施例
本例的材料知识图谱构建方法,具体包括以下步骤:
一、数据获取步骤
1)文本信息获取:从网络上收集材料科学、物理、化学领域的文献标题、摘要、关键词、正文、支撑材料、参考文献等全文信息,以及相应的作者信息。作者信息包括:LN、FN、ORCID、Email、Affiliation,即姓氏、名字、开放研究者与贡献者身份识别码、电子邮箱地址、所属机构单位。
2)晶体结构信息获取:从网络上或自有数据库中收集整理晶体结构文件。
3)材料表征图片获取:从材料科学文献以及自有表征图片库中收集整理相关材料表征图片。
二、特征抽取步骤
特征抽取步骤主要包括分别对文本信息、晶体结构信息和材料表征图片进行数据处理,抽取特征信息。具体如下:
1)文本信息的数据处理
首先使用文本搜索及正则表达式匹配算法剔除一些无用的干扰文本(包括英文以外语言的摘要文本、出现在摘要开头或结尾的版权信息以及“Abstract”等开头词和短语)。
对于材料知识图谱,材料实体的挖掘是核心任务之一,根据分布式假设中“一个词的含义由其上下文决定”的思想,无监督的词嵌入技术被用于对材料实体进行抽取,该技术将文字映射到向量空间以实现文本到数值的转换。但是,将现有词嵌入方法直接应用于材料科学文本存在明显的弊端,这是因为该方法提取的信息是词语的分布式表示信息,而分布式表示信息十分容易受到语料库文本自身的影响,这会导致很多目标材料词汇被提取到的信息十分稀疏甚至是无法被提取到,这会严重影响材料实体信息抽取的质量,并最终影响材料知识图谱的质量。
因此,本例设计了“多源信息融合”的流程,通过将多种来源的信息进行融合以增加目标材料实体分布式信息的含量,从而提升目标材料实体的词嵌入的质量。本例对三种不同来源的文本:所有材料文本、目标材料文本、重要信息文本,使用Word2vec算法进行词嵌入训练。
Word2vec包括两种训练模式的模型:CBOW和Skip-gram。假定yk表示第k个时间发生的概率,tk为监督标签,交叉熵误差函数定义为:
如果使用单词为w1、w2、…、wT的语料库,窗口设置为L,则两种模型的损失函数分别为:
关于文本的选择,“所有材料文本”是指所有的材料文本;“目标材料文本”是指想要的研究的目标材料的相关文本,例如想要研究催化材料,则所有与催化材料相关的文本就是“目标材料文本”;“重要信息文本”是指包含重要信息的文本,可以是多种形式的,例如人工整理的一些领域知识、规律等。
基于Word2vec,可以得出三种不同来源的文本的词向量。然后对得出的三类词向量进行融合,即“多源文本信息融合”。本例采用注意力机制的思想来进行信息的融合,注意力机制的粗略描述是“从大量信息中筛选出少量重要信息,聚焦于重要信息,忽略大多不重要的信息”,在该模型中,权重代表信息的重要性。
注意力机制的具体计算过程可总结为3个过程:
①根据Query和Key计算两者的相似性:最常见的计算方法包括计算向量点积、余弦相似度或引入额外的神经网络;本例采用余弦相似度,相似性计算方法如下:
②引入类似Softmax的计算方式对上一步的得分进行数值转换,计算权重系数:
③对上一步的权重系数进行加权求和可得到注意力数值:
上式中Query指查询向量,Key指键值向量,Value指数值向量,Source指输入文本,Similarity指向量相似度,L为输入文本中句子的长度,α为注意力权重。
本例设计双重注意力机制,将三类词向量通过两次注意力机制实现融合,即可得到最终的融合向量。
2)晶体结构信息的数据处理
晶体结构信息处理的核心在于对晶体结构信息编码(向量化),目前代表性的可用方法有四类,分别是图论、库伦矩阵、拓扑描述符以及倒空间信息。以上四种方法都可以用于本例,具体的,可以根据需求选择使用。
①图论:将原子间连接关系简化为图是一种广泛应用的结构编码方法。根据图论原理可由图生成邻接矩阵,这种基于结构图的特征提取方法源于一个重要的思想:材料中的距离和角度等信息可以从原子间连接关系的特征中获取。基于结构图的特征不但拥有较高的可解释性,而且易于融合多种微观和宏观信息,使模型具有很高的适用性。
②库伦矩阵:第二类常用的结构编码方法是库伦矩阵及其变体。库伦矩阵形式上类似于电子结构计算中的哈密顿量,其非对角线元素代表原子间的库仑斥力,而对角线元素则只与核电荷相关。后来以库伦矩阵为原型,陆续出现了BoB、sine matrix和MBTR等结构编码方法,成功使研究体系从小分子扩展至周期性晶体材料。库伦矩阵等结构编码方法的主要优点是其简单而又具有物理背景的数学表达式。
③拓扑描述符:第三类方法是拓扑描述符,其中最具代表性的是持续同调(persistent homology)方法。该方法将原子抽象成三维空间中的点云,通过记录其尺寸增加的过程中拓扑不变量的变化,从而得到拓扑指纹。具有一定连接关系的原子结构会对应唯一的拓扑指纹,因而可将其用于构建机器学习模型中的特征。这类基于拓扑描述符的结构编码方法可以同时提取材料的局部和全局结构信息,因而在生物大分子领域得到了广泛应用。目前,该方法在材料科学领域中已逐渐获得关注,其独特的结构描述方式在处理复杂晶体结构时有望发挥一定的优势。
④倒空间信息:第四类是基于倒空间信息,如衍射图谱等,针对晶体材料全局特征开发的结构编码方法。这类方法源于傅里叶变换的特点,即倒空间中的格点信息由实空间中的所有格点一起贡献。因此,衍射图谱包含了周期性晶体结构的长程结构信息,可以为材料性质的预测提供有力的帮助。由于倒空间信息中无法抽取出各个原子的元素信息,因而单独使用该特征将导致无法描述原子间的相互作用。开发实空间与倒空间信息相结合的结构特征提取方法将会是今后一个关键的研究方向。
图论、库伦矩阵、拓扑描述符和倒空间信息的具体方案参考现有技术,在此不累述。本例具体采用的是图论对晶体结构信息进行向量化,图论及材料晶体结构描述方法参考专利申请201910390012.2。
3)材料表征图片的数据处理
本例使用基于深度学习的图像分割算法对表征图片进行处理,图像分割就是指将图像分割成多个部分,提取图形特征,例如材料形状、边缘、尺寸、空间分布等重要信息。在这个过程中,图像的每个像素点都和目标的种类相关联,图像分割主要分为语义分割和实例分割两种类型,由于本例希望算法可以将相同的材料标注出来,因此本例主要进行语义分割。
图像分割模型的基本架构包括编码器和解码器,编码器通过卷积核提取图像特征,解码器负责输出包含物体轮廓的分割蒙版,大多数图像分割框架都具有类似的结构,本例可采用的算法包括U-Net、FastFCN、Gated-SCNN、Mask R-CNN等。具体的,本例采用MaskR-CNN,该架构的核心点在于边界框和将图片分割成一系列像素点的语义分割,从而实现物体的分类和定位,每个兴趣区域会得到一个分割蒙版,最终输出类标签和边界框。在模型的训练过程中,通常使用简单的跨类别熵损失函数,如果想要获得图像的细节信息,可以使用Focal、Dice、边界损失、加权交叉熵等损失函数。
对上述三类数据处理完成后,根据各自对应的信息进行标注。具体的,对于文本信息,“多源文本信息融合”后,根据文本信息对文本类型实体自动化标注;晶体结构信息,最后根据晶体结构文件的名称对结构类型实体自动化标注;材料表征图片,最后根据表征图片的标题信息对图片类型实体自动化标注。
三、知识融合步骤
该步骤主要包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联,获得材料知识图谱。
但是,考虑到歧义化现象,本例首先对作者进行消歧,减少作者的歧义化现象。即在进行三类实体的对应和关联之前,先进行作者消歧处理。
本例设计了“多尺度分类,双模型结合”的消歧流程。“多尺度分类”是指设计不同的分类粒度,从大到小,逐步提高精度。“双模型结合”是指将机器学习算法与数据库重复检测技术结合,以实现模型之间的互补,提升最终性能表现。
在数据中,作者信息包括LN、FN、ORCID、Email以及Affiliation(即姓氏、名字、开放研究者与贡献者身份识别码、电子邮箱地址、所属机构单位),存储为[FN,LN,ORCID,Email,Affiliation]元组的形式。设计的“多尺度分类,双模型结合”的详细消歧流程分为以下4个步骤:
1)使用机器学习模型-朴素贝叶斯模型进行“粗粒度”分类,即将作者按照对应的摘要文本分类于几个大类领域。朴素贝叶斯分类器是一种基于贝叶斯定理的弱分类器,其假定样本每个特征与其他特征都不相关,适合于大型数据集,是一种在特定场景下胜过许多复杂算法的高效分类方法。
该算法的输入为:
训练数据T={(x1,y1),(x2,y2),…,(xN,yN)}
基于此,本例从数据库中随机抽样若干份文献摘要并分为训练集(80%)和测试集(20%),将训练后的分类器用于所有文献摘要,将文献摘要及相应作者分为几个大类领域。
2)使用数据库重复检测技术-匹配依赖算法对每个大类中的作者信息及相应文本信息按照相似性分“块”,即指一个数据集合,将相似度高的作者分类于一个“块”中。
数据去重作为数据质量管理领域最为广泛的研究问题,其可定义如下:如果给定了数据源和对应的属性列表,通过对每对元组的每个偶对进行匹配以判断是否指代相同实体,从而进行二分类。考虑到函数依赖在存在错误且数据源形式不同的质量较差的数据库中效果不佳的问题,本例采用匹配依赖(Matching Dependency)算法对数据进行处理。该算法的优势在于其拥有与传统形式不同的依赖和推理机制,对数据包含的语义进行匹配且对搜索空间进行约减,从而完成数据的去重任务。匹配依赖可根据相似性谓词进行定义,关系模式(R1,R2)的匹配依赖的语法定义为:
基于此算法,本例使用声明式语言LogiQL进行去重操作。在去重时,同时处理作者信息(FN,LN,ORCID,Email,Affiliation)、文献标题和关键词这三类文本,余弦相似度被用于对数据记录间的相似性进行量化,按照设置的阈值进行分“块”。阈值可根据对精度的要求进行人工调整,本例在实验中采取的阈值为0.8。
3)再次应用朴素贝叶斯模型,对每个“块”中的记录再次分类。
本例使用文献标题、摘要以及关键词文本训练朴素贝叶斯分类器,使用训练好的分类器对同一个“块”中的记录对进行分类,从而大幅度减少错误及重复关联的情况。
4)针对传统的数据检索方法在庞大复杂的数据查找场景中效率较低的问题,本例设计剪枝策略以提高匹配速度及效率。
CTANE算法是目前使用最广泛的条件函数依赖挖掘算法之一,但是该方法以广度优先为搜索原则,这意味着,随着搜索空间的增长,其搜索效率会严重下降,造成极大的时间成本,本例通过剪枝策略对每一层的候选集进行剪枝,可采用的剪枝策略是多样的,例如对条件函数依赖(Conditional Functional Dependency,CFD)的右项集进行剪枝或者对特定类型的候选项进行剪枝,从而大大缩减搜索空间以提升信息匹配的速度和效率。
按照以上方法,本例收集了约290万条作者信息,进行消歧处理后获得约105万条高质量作者信息,框架的精准度达到约89%,召回率达到了约93%。
作者消歧完成后,根据标注的标签将文本、结构、图片三类实体进行对应和关联,获得本例的材料知识图谱。
将本例对应关联后的数据,即本例的材料知识图谱,存储于数据库中,如Neo4j、MongoDB等,在可视化插件的支持下可进行展示及查询。本例基于多模态的材料知识图谱可对材料科学发展史进行溯源分析,例如查询作者信息可得出该作者曾研究过的材料信息、查询材料信息可得出研究过该材料的所有作者;综合文本、结构以及表征图片信息对潜在材料进行推理预测,包括但不限于结构材料、功能陶瓷材料、半导体材料、储能材料、催化材料、超导材料、生命医学材料、稀土材料。
采用本例的材料知识图谱及其构建方法,分别进行材料科学发展史溯源分析和潜在材料推理预测,具体如下:
试验1材料科学发展史溯源分析
本例以锂电池正极材料LiFePO4为例,利用本例的构建方法及其构建的材料知识图谱,对LiFePO4进行自动化分析,关联相关学者及其研究信息,建立用于锂离子电池的LiFePO4的发展里程碑图,及其发展的重要历程。
LiFePO4的发展里程碑图如图3所示,LiFePO4的发展重要历程输出结果如下:
1997年:Fe3+/Fe2+电对被发现在LiFePO4中具有最低的能级,比锂金属的费米能级低3.5eV;橄榄石型磷酸盐用于锂电池。
2001年:在室温下,达到了超过170mAh/g理论容量95%的近乎完美的利用率;LiFePO4/C复合材料在C/2时达到了90%的理论容量,具有非常好的倍率性能和出色稳定性。
2002年:通过控制阳离子的非化学计量并结合固溶体掺杂,LiFePO4的电子电导率提升了约108倍数;通过减少LiFePO4/C复合电极中的碳,可以使比能、体积能、振实密度最大化;LiFePO4的有序橄榄石型结构中的锂插入被认为是具有Frumkin型吸附等温线的插入过程。
2004年:富含金属的磷化物的渗滤纳米网络被发现可增强电子电导率;对LixMPO4(M=Mn,Fe,Co,Ni)6种橄榄石相材料中的Li电导率。
2005年:从原子尺度研究了LiFePO4中的缺陷、掺杂和锂传输。
2008年:设计了具有芯-壳结构的LiFePO4/C纳米复合材料,通过原位聚合限制方法进行合成;通过domino-cascade模型研究了LiFePO4纳米颗粒中的锂脱嵌。
2009年:碱金属离子和氮掺杂到LiFePO4晶格中可增强其电子电导率,不会阻止锂离子的传输。
图3和发展的重要历程展示的结果与事实相符,说明本例的材料知识图谱能够准确有效的进行材料科学发展史溯源分析,并且直观的展示分析结果。
试验2催化材料的推理预测
本试验从互联网收集不同种类的化合物数据、催化反应模拟数据和催化反应实验数据,包含20万实体,同时包含实验反应和模拟反应。催化材料知识图谱中的实体主要分为“元素”和“材料”两种类型。对于两类实体,本试验囊括其重要的属性,对于元素,本试验包含其元素的原子序数、主族数和周期数等。对于“材料”本试验收集其CAS号、smile表达式、常见物理化学属性等。使用两种关系“A在B的催化下生成C”,“B能催化A”来建模催化反应,前一种关系完整的建模了一个催化反应,第二种关系便于查询催化剂的共性。基于此,根据反应物和生成物对催化剂进行推理预测,同时,根据材料知识图谱的直接或间接路径进行反应路径的推理。
试验3锂电池正极材料的推理预测
对锂电池正极材料相关文本进行信息抽取后,基于其所含元素、结构、应用等特征信息,根据正极材料实体之间的直接或间接联系进行推理预测,推理预测出与现有常用的锂电池正极材料相似的潜在正极材料,如通过与LiCoO2的直接、间接关联关系,推理出潜在正极材料Li2TiMn3O8。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本申请的保护范围。
Claims (10)
1.一种材料知识图谱的构建方法,其特征在于:包括以下步骤,
数据获取步骤,包括分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片;所述文本信息为包括文献标题、摘要、关键词、正文、支撑材料、参考文献在内的全文信息,以及相应的作者信息;
特征抽取步骤,包括分别对文本信息、晶体结构信息和材料表征图片进行数据处理,抽取特征信息;文本信息的数据处理,包括对不同来源的文本信息进行融合,获得目标材料实体的特征信息,对文本类型实体进行标注;晶体结构信息的数据处理,包括对晶体结构数据进行编码,将结构信息向量化,根据晶体结构文件的名称对结构类型实体进行标注;材料表征图片的数据处理,包括对材料表征图片进行处理,提取图形特征,根据表征图片的标题信息对图片类型实体进行标注;
知识融合步骤,包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联,获得材料知识图谱。
2.根据权利要求1所述的构建方法,其特征在于:还包括存储和应用步骤;
所述存储和应用步骤,包括对知识融合步骤获得的材料知识图谱进行存储,并在可视化插件的支持下对材料知识图谱进行查询、分析和展示;
优选的,所述文本信息的数据处理中,对不同来源的文本信息进行融合,获得目标材料实体的特征信息,具体包括,对不同来源的文本进行词嵌入训练,得出不同来源的文本的词向量,采用注意力机制对不同来源的文本的词向量进行融合,得到最终的融合向量;
优选的,所述不同来源的文本包括所有材料文本、目标材料文本、重要信息文本;所述所有材料文本是指所有的材料文本,所述目标材料文本是指研究的目标材料的相关文本,所述重要信息文本是指包含重要信息的文本;
优选的,所述晶体结构信息的数据处理中,对晶体结构数据进行编码,将结构信息向量化,具体包括,采用图论、库伦矩阵、拓扑描述符和倒空间信息中的至少一种对晶体结构信息进行向量化;
优选的,所述材料表征图片的数据处理中,对材料表征图片进行处理,提取图形特征,包括对材料形状、边缘、尺寸、原子空间分布进行特征提取;
优选的,所述材料表征图片的数据处理,具体包括,使用基于深度学习的图像分割算法对材料表征图片进行处理,采用语义分割将材料表征图片分割成若干个部分,从中提取图形特征。
3.根据权利要求1或2所述的构建方法,其特征在于:所述作者信息包括作者的姓氏、名字、开放研究者与贡献者身份识别码、电子邮箱地址、所属机构单位;
优选的,所述知识融合步骤还包括,在进行三类实体的对应和关联之前,进行作者消歧处理;
所述作者消歧处理包括,(1)使用机器学习模型-朴素贝叶斯模型,将作者信息按照对应的摘要文本进行分类;(2)使用数据库重复检测技术-匹配依赖算法,对步骤(1)获得的每个分类中的作者信息及其相应的文本信息按照相似性分“块”,将相似度高的作者信息分类于一个“块”中;(3)再次应用朴素贝叶斯模型,对步骤(2)获得的每个“块”再次进行分类,减少错误及重复关联;(4)利用CTANE算法进行匹配,通过剪枝策略对CTANE算法每一层的候选集进行剪枝,提升信息匹配的速度和效率。
4.根据权利要求1-3任一项所述的构建方法获得的材料知识图谱。
5.一种构建材料知识图谱的装置,其特征在于:包括数据获取模块、特征抽取模块和知识融合模块;
数据获取模块,包括用于分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片;所述文本信息为包括文献标题、摘要、关键词、正文、支撑材料、参考文献在内的全文信息,以及相应的作者信息;
特征抽取模块,包括用于分别对文本信息、晶体结构信息和材料表征图片进行数据处理,抽取特征信息;其中,文本信息的数据处理,包括对不同来源的文本信息进行融合,获得目标材料实体的特征信息,对文本类型实体进行标注;晶体结构信息的数据处理,包括对晶体结构数据进行编码,将结构信息向量化,根据晶体结构文件的名称对结构类型实体进行标注;材料表征图片的数据处理,包括对材料表征图片进行处理,提取图形特征,根据表征图片的标题信息对图片类型实体进行标注;
知识融合模块,包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联,获得材料知识图谱。
6.根据权利要求5所述的装置,其特征在于:还包括存储和应用模块;
所述存储和应用模块,包括用于对知识融合步骤获得的材料知识图谱进行存储,并在可视化插件的支持下对材料知识图谱进行查询、分析和展示;
优选的,所述文本信息的数据处理中,对不同来源的文本信息进行融合,获得目标材料实体的特征信息,具体包括,对不同来源的文本进行词嵌入训练,得出不同来源的文本的词向量,采用注意力机制对不同来源的文本的词向量进行融合,得到最终的融合向量;
优选的,所述不同来源的文本包括所有材料文本、目标材料文本、重要信息文本;所述所有材料文本是指所有的材料文本,所述目标材料文本是指研究的目标材料的相关文本,所述重要信息文本是指包含重要信息的文本;
优选的,所述晶体结构信息的数据处理中,对晶体结构数据进行编码,将结构信息向量化,具体包括,采用图论、库伦矩阵、拓扑描述符和倒空间信息中的至少一种对晶体结构信息进行向量化;
优选的,所述材料表征图片的数据处理中,对材料表征图片进行处理,提取图形特征,包括对材料形状、边缘、尺寸、原子空间分布进行特征提取;
优选的,所述材料表征图片的数据处理,具体包括,使用基于深度学习的图像分割算法对材料表征图片进行处理,采用语义分割将材料表征图片分割成若干个部分,从中提取图形特征;
优选的,所述作者信息包括作者的姓氏、名字、开放研究者与贡献者身份识别码、电子邮箱地址、所属机构单位;
优选的,所述知识融合模块,还包括用于在进行三类实体的对应和关联之前,进行作者消歧处理;
所述作者消歧处理包括,(1)使用机器学习模型-朴素贝叶斯模型,将作者信息按照对应的摘要文本进行分类;(2)使用数据库重复检测技术-匹配依赖算法,对步骤(1)获得的每个分类中的作者信息及其相应的文本信息按照相似性分“块”,将相似度高的作者信息分类于一个“块”中;(3)再次应用朴素贝叶斯模型,对步骤(2)获得的每个“块”再次进行分类,减少错误及重复关联;(4)利用CTANE算法进行匹配,通过剪枝策略对CTANE算法每一层的候选集进行剪枝,提升信息匹配的速度和效率。
7.一种计算机可读存储介质,其特征在于:包括存储于其中的程序,所述程序能够被处理器执行以实现权利要求1-3任一项所述的材料知识图谱的构建方法。
8.根据权利要求1-3任一项所述的材料知识图谱的构建方法,或者权利要求4所述的材料知识图谱,或者权利要求5或6所述的构建材料知识图谱的装置,或者权利要求7所述的计算机可读存储介质,在材料科学发展史溯源分析、新材料研发或潜在材料推理预测中的应用;应用领域包括但不限于结构材料、功能陶瓷材料、半导体材料、储能材料、催化材料、超导材料、生命医学材料、稀土材料。
9.一种预测电池材料的方法,其特征在于:包括采用权利要求1-3任一项所述的材料知识图谱的构建方法,或者权利要求4所述的材料知识图谱,或者权利要求5或6所述的构建材料知识图谱的装置,或者权利要求7所述的计算机可读存储介质,对电池材料领域的文本信息、晶体结构信息和/或材料表征图片进行分析,推理预测潜在的电池材料的组成、结构、制备方法及其应用场景。
10.一种预测催化材料的方法,其特征在于:包括采用权利要求1-3任一项所述的材料知识图谱的构建方法,或者权利要求4所述的材料知识图谱,或者权利要求5或6所述的构建材料知识图谱的装置,或者权利要求7所述的计算机可读存储介质,对催化材料领域的文本信息、晶体结构信息和/或材料表征图片进行分析,对催化反应进行建模,实现催化反应中反应物、生成物、催化剂、反应路径、催化条件的推理预测,进而推理预测催化材料的成分、结构、催化机理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210303420.1A CN114896408B (zh) | 2022-03-24 | 2022-03-24 | 一种材料知识图谱的构建方法、材料知识图谱及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210303420.1A CN114896408B (zh) | 2022-03-24 | 2022-03-24 | 一种材料知识图谱的构建方法、材料知识图谱及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114896408A true CN114896408A (zh) | 2022-08-12 |
CN114896408B CN114896408B (zh) | 2024-04-19 |
Family
ID=82714544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210303420.1A Active CN114896408B (zh) | 2022-03-24 | 2022-03-24 | 一种材料知识图谱的构建方法、材料知识图谱及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114896408B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115713986A (zh) * | 2022-11-11 | 2023-02-24 | 中南大学 | 基于注意力机制的材料晶体属性预测方法 |
CN116720819A (zh) * | 2023-08-10 | 2023-09-08 | 福建省闽清双棱纸业有限公司 | 一种融合知识图谱和神经网络的浸渍纸原料管理系统 |
CN117610541A (zh) * | 2024-01-17 | 2024-02-27 | 之江实验室 | 大规模数据的作者消歧方法、装置及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254667A (zh) * | 2021-06-07 | 2021-08-13 | 成都工物科云科技有限公司 | 基于深度学习模型的科技人物知识图谱构建方法、装置及终端 |
WO2021212682A1 (zh) * | 2020-04-21 | 2021-10-28 | 平安国际智慧城市科技股份有限公司 | 知识抽取方法、装置、电子设备及存储介质 |
CN113806563A (zh) * | 2021-11-18 | 2021-12-17 | 东南大学 | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 |
-
2022
- 2022-03-24 CN CN202210303420.1A patent/CN114896408B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021212682A1 (zh) * | 2020-04-21 | 2021-10-28 | 平安国际智慧城市科技股份有限公司 | 知识抽取方法、装置、电子设备及存储介质 |
CN113254667A (zh) * | 2021-06-07 | 2021-08-13 | 成都工物科云科技有限公司 | 基于深度学习模型的科技人物知识图谱构建方法、装置及终端 |
CN113806563A (zh) * | 2021-11-18 | 2021-12-17 | 东南大学 | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 |
Non-Patent Citations (1)
Title |
---|
朱木易洁;鲍秉坤;徐常胜;: "知识图谱发展与构建的研究进展", 南京信息工程大学学报(自然科学版), no. 06, 28 November 2017 (2017-11-28) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115713986A (zh) * | 2022-11-11 | 2023-02-24 | 中南大学 | 基于注意力机制的材料晶体属性预测方法 |
CN115713986B (zh) * | 2022-11-11 | 2023-07-11 | 中南大学 | 基于注意力机制的材料晶体属性预测方法 |
CN116720819A (zh) * | 2023-08-10 | 2023-09-08 | 福建省闽清双棱纸业有限公司 | 一种融合知识图谱和神经网络的浸渍纸原料管理系统 |
CN116720819B (zh) * | 2023-08-10 | 2023-10-27 | 福建省闽清双棱纸业有限公司 | 一种融合知识图谱和神经网络的浸渍纸原料管理系统 |
CN117610541A (zh) * | 2024-01-17 | 2024-02-27 | 之江实验室 | 大规模数据的作者消歧方法、装置及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114896408B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Transformer-based dual relation graph for multi-label image recognition | |
Ye et al. | Attention-driven dynamic graph convolutional network for multi-label image recognition | |
Liu et al. | Artificial intelligence in the 21st century | |
CN114896408B (zh) | 一种材料知识图谱的构建方法、材料知识图谱及应用 | |
Hsu | Content-based text mining technique for retrieval of CAD documents | |
Wang et al. | Structure learning via parameter learning | |
Wu et al. | Learning semantic structure-preserved embeddings for cross-modal retrieval | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN103425740B (zh) | 一种面向物联网的基于语义聚类的物资信息检索方法 | |
Li et al. | Graph representation learning with encoding edges | |
WO2020074786A1 (en) | System for searching natural language documents | |
Henk et al. | Metaresearch recommendations using knowledge graph embeddings | |
Zhang et al. | Deep medical cross-modal attention hashing | |
Zhang et al. | Proximity-aware heterogeneous information network embedding | |
Garrido-Munoz et al. | A holistic approach for image-to-graph: application to optical music recognition | |
Yin et al. | Sentence-BERT and k-means based clustering technology for scientific and technical literature | |
Paul et al. | Self help: Seeking out perplexing images for ever improving navigation | |
CN110377690A (zh) | 一种基于远程关系抽取的信息获取方法和系统 | |
Jayaram et al. | Abstract and Image Analysis of High-Temperature Materials from Scientific Journals Using Deep Learning and Rule-Based Machine Learning Approaches | |
Zhai et al. | TRIZ technical contradiction extraction method based on patent semantic space mapping | |
Lin et al. | A probabilistic contrastive framework for semi-supervised learning | |
Wang et al. | Unsupervised variational auto-encoder hash algorithm based on multi-channel feature fusion | |
Mohemad et al. | Ontological-based information extraction of construction tender documents | |
Liu et al. | Lekan: Extracting long-tail relations via layer-enhanced knowledge-aggregation networks | |
Wang et al. | Knowledge graph-based semantic ranking for efficient semantic query |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |