CN114896408B

CN114896408B - 一种材料知识图谱的构建方法、材料知识图谱及应用

Info

Publication number: CN114896408B
Application number: CN202210303420.1A
Authority: CN
Inventors: 潘锋; 聂志伟; 李舜宁
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2024-04-19
Anticipated expiration: 2042-03-24
Also published as: CN114896408A

Abstract

本申请公开了一种材料知识图谱的构建方法、材料知识图谱及应用。本申请的构建方法，包括分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片，分别对文本信息、晶体结构信息和材料表征图片进行数据处理，抽取特征信息，根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联，获得材料知识图谱。本申请方法，为包含文本、晶体结构和材料表征图片三种形式信息的多模态材料知识图谱构建流程，构建的材料知识图谱，更完整、高效，可实现对过往材料科学信息的高效分析与管理，实现基于数据驱动的材料科学知识发现，对材料科学信息进行高效溯源分析，实现对新材料的推理预测，加速新材料的设计与发现。

Description

一种材料知识图谱的构建方法、材料知识图谱及应用

技术领域

本申请涉及材料知识图谱技术领域，特别是涉及一种材料知识图谱的构建方法、材料知识图谱及应用。

背景技术

2012年，Google正式提出了“知识图谱(Knowledge Graph)”的概念，其初衷是为了优化搜索引擎返回的结果，增强用户搜索质量及体验。本质上，知识图谱是揭示实体之间关系的语义网络，以符号形式描述物理世界中的概念以及相互关系。知识图谱在多个领域发挥了重要的作用，例如金融、生物医药、电商等，知识图谱通过其高效的知识管理能力为任务场景赋能，进行更深层次的分析，辅助决策。

经过长时间的发展，海量的材料科学文献、大量的晶体结构信息与材料表征图片中积累了丰富的材料科学信息，但是如何从这些材料科学信息中高效获取所需的信息和知识仍然十分困难。

近年来，材料领域知识图谱的研究初步出现，例如基于子图语义距离(DLSSD)和字符串相似度(SDSS)的金属材料知识图谱、通过关联不断扩充每种材料的可用信息量的材料属性关联框架propnet，除此之外，还出现了致力于收集纳米复合材料的加工、结构和性能的实验和计算数据的纳米复合材料知识图谱。但是，这些工作仅仅聚焦于文本信息，导致知识图谱的不完整性和片面性。

因此，如何研发更完整、高效的材料知识图谱，是本领域亟待解决的问题。

发明内容

本申请的目的是提供一种改进的材料知识图谱的构建方法，由此构建的材料知识图谱及其应用。

本申请采用了以下技术方案：

本申请的一方面公开了一种材料知识图谱的构建方法，包括以下步骤：

数据获取步骤，包括分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片；文本信息为包括文献标题、摘要、关键词、正文、支撑材料、参考文献在内的全文信息，以及相应的作者信息；

特征抽取步骤，包括分别对文本信息、晶体结构信息和材料表征图片进行数据处理，抽取特征信息；文本信息的数据处理，包括对不同来源的文本信息进行融合，获得目标材料实体的特征信息，对文本类型实体进行标注；晶体结构信息的数据处理，包括对晶体结构数据进行编码，将结构信息向量化，根据晶体结构文件的名称对结构类型实体进行标注；材料表征图片的数据处理，包括对材料表征图片进行处理，提取图形特征，根据表征图片的标题信息对图片类型实体进行标注；

知识融合步骤，包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联，获得材料知识图谱。

需要说明的是，本申请的材料知识图谱构建方法，对文本信息、晶体结构信息和材料表征图片进行特征抽取和融合，从而构建获得更完整、高效的多模态材料知识图谱。

本申请的一种实现方式中，本申请的构建方法还包括存储和应用步骤；该存储和应用步骤，包括对知识融合步骤获得的材料知识图谱进行存储，并在可视化插件的支持下对材料知识图谱进行查询、分析和展示。

需要说明的是，单纯就材料知识图谱构建而言，经过知识融合步骤即可获得所需的材料知识图谱；但是，一般来说，知识图谱的构建还包括其应用。因此，本申请的构建方法还包括存储和应用步骤，即对材料知识图谱进行存储和可视化插件支持下的查询、分析和展示。可以理解，本申请的关键在于材料知识图谱，至于具体如何存储，可以参考现有技术，例如存储于Neo4j、MongoDB等等数据库中；至于可视化插件可以参考现有的数据库检索和分析系统，在此不作具体限定。

本申请的一种实现方式中，文本信息的数据处理中，对不同来源的文本信息进行融合，获得目标材料实体的特征信息，具体包括，对不同来源的文本进行词嵌入训练，得出不同来源的文本的词向量，采用注意力机制对不同来源的文本的词向量进行融合，得到最终的融合向量。

本申请的一种实现方式中，不同来源的文本包括所有材料文本、目标材料文本、重要信息文本；所有材料文本是指所有的材料文本，目标材料文本是指研究的目标材料的相关文本，重要信息文本是指包含重要信息的文本。

需要说明的是，本申请创造性的设计“多源文本信息融合”流程将多种来源的信息进行融合以增加目标材料实体分布式信息的含量，从而提升目标材料实体的词嵌入的质量，最后根据文本信息对文本类型实体自动化标注。

本申请的一种实现方式中，晶体结构信息的数据处理中，对晶体结构数据进行编码，将结构信息向量化，具体包括，采用图论、库伦矩阵、拓扑描述符和倒空间信息中的至少一种对晶体结构信息进行向量化。

需要说明的是，晶体结构信息向量化的目的是使晶体结构信息变成能够被计算机识别和处理的信息；图论、库伦矩阵、拓扑描述符和倒空间信息只是本申请的一种实现方式中列举的可以对晶体结构数据进行向量化的方式；不排除还可以采用其他方式实现晶体结构的向量化。

本申请的一种实现方式中，材料表征图片的数据处理中，对材料表征图片进行处理，提取图形特征，包括对材料形状、边缘、尺寸、原子空间分布进行特征提取。

本申请的一种实现方式中，材料表征图片的数据处理，具体包括，使用基于深度学习的图像分割算法对材料表征图片进行处理，采用语义分割将材料表征图片分割成若干个部分，从中提取图形特征。

本申请的一种实现方式中，作者信息包括作者的姓氏、名字、开放研究者与贡献者身份识别码、电子邮箱地址、所属机构单位。

本申请的一种实现方式中，知识融合步骤还包括，在进行三类实体的对应和关联之前，进行作者消歧处理；作者消歧处理包括，(1)使用机器学习模型-朴素贝叶斯模型，将作者信息按照对应的摘要文本进行分类；(2)使用数据库重复检测技术-匹配依赖算法，对步骤(1)获得的每个分类中的作者信息及其相应的文本信息按照相似性分“块”，将相似度高的作者信息分类于一个“块”中；(3)再次应用朴素贝叶斯模型，对步骤(2)获得的每个“块”再次进行分类，减少错误及重复关联；(4)利用CTANE算法进行匹配，通过剪枝策略对CTANE算法每一层的候选集进行剪枝，提升信息匹配的速度和效率。

本申请的另一面公开了本申请的构建方法获得的材料知识图谱。

需要说明的是，本申请的材料知识图谱可以存储于数据库中，在可视化插件的支持下，使得存储本申请材料知识图谱的数据库能够实现对材料相关信息的查询、分析和展示。可以理解，本申请的材料知识图谱也可以单独的储存于只读存储器、随机存储器、磁盘、光盘、硬盘等计算机可读存储介质中，单独作为材料知识图谱的数据库；使用时直接利用该计算机可读存储介质，或者通过下载或复制保存到本地设备的存储器中，通过可视化插件对本申请的材料知识图谱进行查询、分析和展示。

本申请的再一面公开了一种构建材料知识图谱的装置，其包括数据获取模块、特征抽取模块和知识融合模块；

数据获取模块，包括用于分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片；文本信息为包括文献标题、摘要、关键词、正文、支撑材料、参考文献在内的全文信息，以及相应的作者信息；

特征抽取模块，包括用于分别对文本信息、晶体结构信息和材料表征图片进行数据处理，抽取特征信息；其中，文本信息的数据处理，包括对不同来源的文本信息进行融合，获得目标材料实体的特征信息，对文本类型实体进行标注；晶体结构信息的数据处理，包括对晶体结构数据进行编码，将结构信息向量化，根据晶体结构文件的名称对结构类型实体进行标注；材料表征图片的数据处理，包括对材料表征图片进行处理，提取图形特征，根据表征图片的标题信息对图片类型实体进行标注；

知识融合模块，包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联，获得材料知识图谱。

本申请的一种实现方式中，本申请构建材料知识图谱的装置还包括存储和应用模块；该存储和应用模块，包括用于对知识融合步骤获得的材料知识图谱进行存储，并在可视化插件的支持下对材料知识图谱进行查询、分析和展示。

需要说明的是，本申请构建材料知识图谱的装置，实际上就是通过各模块自动化的实现本申请材料知识图谱构建方法的各步骤；因此，各模块的具体限定可以参考本申请的材料知识图谱构建方法，例如，不同来源的文本具体分为所有材料文本、目标材料文本、重要信息文本，词嵌入训练和词向量进行融合，晶体结构信息向量化，图形特征提取，作者消歧处理等，都可以参考本申请的材料知识图谱构建方法，在此不累述。

本申请的再一面公开了一种构建材料知识图谱的装置，其包括存储器和处理器；存储器用于存储程序；处理器用于通过执行存储器存储的程序实现本申请的材料知识图谱的构建方法。

本申请的再一面公开了一种计算机可读存储介质，其包括存储于其中的程序，程序能够被处理器执行以实现本申请的材料知识图谱的构建方法。

本申请的再一面公开了本申请的材料知识图谱的构建方法，或者本申请的材料知识图谱，或者本申请的构建材料知识图谱的装置，或者本申请的计算机可读存储介质，在材料科学发展史溯源分析、新材料研发或潜在材料推理预测中的应用；应用领域包括但不限于结构材料、功能陶瓷材料、半导体材料、储能材料、催化材料、超导材料、生命医学材料、稀土材料。

本申请的再一面公开了一种预测电池材料的方法，包括本申请的材料知识图谱的构建方法，或者本申请的材料知识图谱，或者本申请的构建材料知识图谱的装置，或者本申请的计算机可读存储介质，对电池材料领域的文本信息、晶体结构信息和/或材料表征图片进行分析，推理预测潜在的电池材料的组成、结构、制备方法及其应用场景。

本申请的再一面公开了一种预测催化材料的方法，包括采用本申请的材料知识图谱的构建方法，或者本申请的材料知识图谱，或者本申请的构建材料知识图谱的装置，或者本申请的计算机可读存储介质，对催化材料领域的文本信息、晶体结构信息和/或材料表征图片进行分析，对催化反应进行建模，实现催化反应中反应物、生成物、催化剂、反应路径、催化条件的推理预测，进而推理预测催化材料的成分、结构、催化机理。

本申请的有益效果在于：

本申请的材料知识图谱构建方法，包含文本、晶体结构和材料表征图片三种形式信息的多模态材料知识图谱构建，本申请构建方法获得的材料知识图谱，更完整、高效，可实现对过往材料科学信息的高效分析与管理，实现对新材料的推理预测，为数据驱动的知识发现奠定了基础。

附图说明

图1是本申请实施例中材料知识图谱构建方法的流程框图；

图2是本申请实施例中构建材料知识图谱的装置的结构框图；

图3是本申请实施例中采用材料知识图谱分析的LiFePO₄发展里程碑图。

具体实施方式

现有的材料科学信息主要以材料科学文献(即文本信息)、晶体结构信息和材料表征图片，三种形式存在。本申请研究发现，虽然目前以及累计了丰富的材料科学信息；但是，从这三类承载材料科学信息的载体中高效获取信息和知识是困难的，这主要是由于以下三个原因：

(1)非结构化的文本信息是杂乱无章的，研究人员获取目标信息的效率较低，且无法保证信息的全面性和深度；

(2)人工处理和分析大量晶体结构信息是十分耗时且不准确的；

(3)XRD、TEM等材料表征图片的数量非常多，人工处理和分析十分耗时且不准确。

目前，虽然有材料领域知识图谱的相关研究和报道；但是，现有的材料知识图谱主要聚焦于文本信息，存在不完整性和片面性。因此，本申请创造性的提出，如果能将文本、结构、图像这三种不同格式的信息转换成计算机能够识别的数字化形式，即可对海量材料科学信息进行高效高精度的分析和处理。

因此，为了构建更加全面的可以对材料科学知识进行高效管理的综合性平台，本申请创造性的将文本中的语义信息、晶体结构中的结构信息、表征图片中的图信息进行融合，构建多模态材料知识图谱，以实现基于数据驱动的材料科学知识发现，对材料科学信息进行高效溯源分析，推理预测未发现的新材料，加速新材料的设计与发现。

本申请的材料知识图谱的构建方法，如图1所示，包括数据获取步骤11、特征抽取步骤12和知识融合步骤13。

其中，数据获取步骤11，包括分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片；文本信息为包括文献标题、摘要、关键词、正文、支撑材料、参考文献在内的全文信息，以及相应的作者信息。

例如，从网络上收集材料科学、物理、化学、生物领域的文献标题、摘要、关键词、正文、支撑材料以及相应的作者信息(LN、FN、ORCID、Email、Affiliation)；从网络上或自有数据库中收集整理晶体结构文件；从材料科学文献以及自有表征图片库中收集整理相关材料表征图片。

特征抽取步骤12，包括分别对文本信息、晶体结构信息和材料表征图片进行数据处理，抽取特征信息；文本信息的数据处理，包括对不同来源的文本信息进行融合，获得目标材料实体的特征信息，对文本类型实体进行标注；晶体结构信息的数据处理，包括对晶体结构数据进行编码，将结构信息向量化，根据晶体结构文件的名称对结构类型实体进行标注；材料表征图片的数据处理，包括对材料表征图片进行处理，提取图形特征，根据表征图片的标题信息对图片类型实体进行标注。

例如，1)文本信息的数据处理：首先使用文本搜索及正则表达式匹配技术剔除一些无用的干扰文本，使用词嵌入方法对文本信息进行向量化表示，然后通过设计的“多源文本信息融合”流程将多种来源的信息进行融合以增加目标材料实体分布式信息的含量，从而提升目标材料实体的词嵌入的质量，最后根据文本信息对文本类型实体自动化标注；2)晶体结构信息的数据处理：基于图论、库伦矩阵、拓扑描述符、倒空间信息等方法对晶体结构数据进行编码，将结构信息向量化，最后根据晶体结构文件的名称对结构类型实体自动化标注；3)材料表征图片的数据处理：使用基于深度学习的图像分割算法对表征图片进行处理，提取图形特征，例如材料形状、边缘、尺寸、空间分布等重要信息，最后根据表征图片的标题信息对图片类型实体自动化标注。

知识融合步骤13，包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联，获得材料知识图谱。

在进一步的改进方案中，本申请的材料知识图谱的构建方法还包括存储和应用步骤14，如图1所示。

存储和应用步骤14，包括对知识融合步骤获得的材料知识图谱进行存储，并在可视化插件的支持下对材料知识图谱进行查询、分析和展示。

例如，将对应关联后的数据，即材料知识图谱，存储于数据库中，如Neo4j、MongoDB等，在可视化插件的支持下可进行展示及查询，基于多模态材料知识图谱可对材料科学发展史进行溯源分析，对新材料进行推理预测，包括但不限于结构材料、功能陶瓷材料、半导体材料、储能材料、催化材料、超导材料、生命医学材料、稀土材料。

本领域技术人员可以理解，上述方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述方法中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述方法中全部或部分功能。

因此，基于本申请的材料知识图谱构建方法，本申请提出了一种构建材料知识图谱的装置，如图2所示，包括数据获取模块21、特征抽取模块22和知识融合模块23。

数据获取模块21，包括用于分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片；文本信息为包括文献标题、摘要、关键词、正文、支撑材料、参考文献在内的全文信息，以及相应的作者信息。

特征抽取模块22，包括用于分别对文本信息、晶体结构信息和材料表征图片进行数据处理，抽取特征信息；其中，文本信息的数据处理，包括对不同来源的文本信息进行融合，获得目标材料实体的特征信息，对文本类型实体进行标注；晶体结构信息的数据处理，包括对晶体结构数据进行编码，将结构信息向量化，根据晶体结构文件的名称对结构类型实体进行标注；材料表征图片的数据处理，包括对材料表征图片进行处理，提取图形特征，根据表征图片的标题信息对图片类型实体进行标注。

例如，文本信息的数据处理中，采用Word2vec算法、GloVe模型、FastText模型、ELMo模型、CoVe模型、BERT模型中的至少一种进行词嵌入训练，获得不同来源的文本的词向量，并采用注意力机制对不同来源的文本的词向量进行融合，得到最终的融合向量。

知识融合模块23，包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联，获得材料知识图谱。

同样的，在进一步的改进方案中，本申请构建材料知识图谱的装置还包括存储和应用模块24，如图2所示。

存储和应用模块24，包括用于对知识融合步骤获得的材料知识图谱进行存储，并在可视化插件的支持下对材料知识图谱进行查询、分析和展示。

本申请的另一实现方式中还提供了一种构建材料知识图谱的装置，该装置包括存储器和处理器；存储器，包括用于存储程序；处理器，包括用于通过执行存储器存储的程序以实现以下方法：数据获取步骤，包括分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片；文本信息为包括文献标题、摘要、关键词、正文、支撑材料、参考文献在内的全文信息，以及相应的作者信息；特征抽取步骤，包括分别对文本信息、晶体结构信息和材料表征图片进行数据处理，抽取特征信息；文本信息的数据处理，包括对不同来源的文本信息进行融合，获得目标材料实体的特征信息，对文本类型实体进行标注；晶体结构信息的数据处理，包括对晶体结构数据进行编码，将结构信息向量化，根据晶体结构文件的名称对结构类型实体进行标注；材料表征图片的数据处理，包括对材料表征图片进行处理，提取图形特征，根据表征图片的标题信息对图片类型实体进行标注；知识融合步骤，包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联，获得材料知识图谱。或者，还可以包括存储和应用步骤；该存储和应用步骤，包括对知识融合步骤获得的材料知识图谱进行存储，并在可视化插件的支持下对材料知识图谱进行查询、分析和展示。

本申请另一种实现方式中还提供一种计算机可读存储介质，该存储介质中包括程序，该程序能够被处理器执行以实现如下方法：数据获取步骤，包括分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片；文本信息为包括文献标题、摘要、关键词、正文、支撑材料、参考文献在内的全文信息，以及相应的作者信息；特征抽取步骤，包括分别对文本信息、晶体结构信息和材料表征图片进行数据处理，抽取特征信息；文本信息的数据处理，包括对不同来源的文本信息进行融合，获得目标材料实体的特征信息，对文本类型实体进行标注；晶体结构信息的数据处理，包括对晶体结构数据进行编码，将结构信息向量化，根据晶体结构文件的名称对结构类型实体进行标注；材料表征图片的数据处理，包括对材料表征图片进行处理，提取图形特征，根据表征图片的标题信息对图片类型实体进行标注；知识融合步骤，包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联，获得材料知识图谱。或者，还可以包括存储和应用步骤；该存储和应用步骤，包括对知识融合步骤获得的材料知识图谱进行存储，并在可视化插件的支持下对材料知识图谱进行查询、分析和展示。

下面通过具体实施例和附图对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明，不应理解为对本申请的限制。

实施例

本例的材料知识图谱构建方法，具体包括以下步骤：

一、数据获取步骤

1)文本信息获取：从网络上收集材料科学、物理、化学领域的文献标题、摘要、关键词、正文、支撑材料、参考文献等全文信息，以及相应的作者信息。作者信息包括：LN、FN、ORCID、Email、Affiliation，即姓氏、名字、开放研究者与贡献者身份识别码、电子邮箱地址、所属机构单位。

2)晶体结构信息获取：从网络上或自有数据库中收集整理晶体结构文件。

3)材料表征图片获取：从材料科学文献以及自有表征图片库中收集整理相关材料表征图片。

二、特征抽取步骤

特征抽取步骤主要包括分别对文本信息、晶体结构信息和材料表征图片进行数据处理，抽取特征信息。具体如下：

1)文本信息的数据处理

首先使用文本搜索及正则表达式匹配算法剔除一些无用的干扰文本(包括英文以外语言的摘要文本、出现在摘要开头或结尾的版权信息以及“Abstract”等开头词和短语)。

对于材料知识图谱，材料实体的挖掘是核心任务之一，根据分布式假设中“一个词的含义由其上下文决定”的思想，无监督的词嵌入技术被用于对材料实体进行抽取，该技术将文字映射到向量空间以实现文本到数值的转换。但是，将现有词嵌入方法直接应用于材料科学文本存在明显的弊端，这是因为该方法提取的信息是词语的分布式表示信息，而分布式表示信息十分容易受到语料库文本自身的影响，这会导致很多目标材料词汇被提取到的信息十分稀疏甚至是无法被提取到，这会严重影响材料实体信息抽取的质量，并最终影响材料知识图谱的质量。

因此，本例设计了“多源信息融合”的流程，通过将多种来源的信息进行融合以增加目标材料实体分布式信息的含量，从而提升目标材料实体的词嵌入的质量。本例对三种不同来源的文本：所有材料文本、目标材料文本、重要信息文本，使用Word2vec算法进行词嵌入训练。

Word2vec包括两种训练模式的模型：CBOW和Skip-gram。假定y_k表示第k个时间发生的概率，t_k为监督标签，交叉熵误差函数定义为：

如果使用单词为w₁、w₂、…、w_T的语料库，窗口设置为L，则两种模型的损失函数分别为：

关于文本的选择，“所有材料文本”是指所有的材料文本；“目标材料文本”是指想要的研究的目标材料的相关文本，例如想要研究催化材料，则所有与催化材料相关的文本就是“目标材料文本”；“重要信息文本”是指包含重要信息的文本，可以是多种形式的，例如人工整理的一些领域知识、规律等。

基于Word2vec，可以得出三种不同来源的文本的词向量。然后对得出的三类词向量进行融合，即“多源文本信息融合”。本例采用注意力机制的思想来进行信息的融合，注意力机制的粗略描述是“从大量信息中筛选出少量重要信息，聚焦于重要信息，忽略大多不重要的信息”，在该模型中，权重代表信息的重要性。

注意力机制的具体计算过程可总结为3个过程：

①根据Query和Key计算两者的相似性：最常见的计算方法包括计算向量点积、余弦相似度或引入额外的神经网络；本例采用余弦相似度，相似性计算方法如下：

②引入类似Softmax的计算方式对上一步的得分进行数值转换，计算权重系数：

③对上一步的权重系数进行加权求和可得到注意力数值：

上式中Query指查询向量，Key指键值向量，Value指数值向量，Source指输入文本，Similarity指向量相似度，L为输入文本中句子的长度，α为注意力权重。

本例设计双重注意力机制，将三类词向量通过两次注意力机制实现融合，即可得到最终的融合向量。

2)晶体结构信息的数据处理

晶体结构信息处理的核心在于对晶体结构信息编码(向量化)，目前代表性的可用方法有四类，分别是图论、库伦矩阵、拓扑描述符以及倒空间信息。以上四种方法都可以用于本例，具体的，可以根据需求选择使用。

①图论：将原子间连接关系简化为图是一种广泛应用的结构编码方法。根据图论原理可由图生成邻接矩阵，这种基于结构图的特征提取方法源于一个重要的思想：材料中的距离和角度等信息可以从原子间连接关系的特征中获取。基于结构图的特征不但拥有较高的可解释性，而且易于融合多种微观和宏观信息，使模型具有很高的适用性。

②库伦矩阵：第二类常用的结构编码方法是库伦矩阵及其变体。库伦矩阵形式上类似于电子结构计算中的哈密顿量，其非对角线元素代表原子间的库仑斥力，而对角线元素则只与核电荷相关。后来以库伦矩阵为原型，陆续出现了BoB、sine matrix和MBTR等结构编码方法，成功使研究体系从小分子扩展至周期性晶体材料。库伦矩阵等结构编码方法的主要优点是其简单而又具有物理背景的数学表达式。

③拓扑描述符：第三类方法是拓扑描述符，其中最具代表性的是持续同调(persistent homology)方法。该方法将原子抽象成三维空间中的点云，通过记录其尺寸增加的过程中拓扑不变量的变化，从而得到拓扑指纹。具有一定连接关系的原子结构会对应唯一的拓扑指纹，因而可将其用于构建机器学习模型中的特征。这类基于拓扑描述符的结构编码方法可以同时提取材料的局部和全局结构信息，因而在生物大分子领域得到了广泛应用。目前，该方法在材料科学领域中已逐渐获得关注，其独特的结构描述方式在处理复杂晶体结构时有望发挥一定的优势。

④倒空间信息：第四类是基于倒空间信息，如衍射图谱等，针对晶体材料全局特征开发的结构编码方法。这类方法源于傅里叶变换的特点，即倒空间中的格点信息由实空间中的所有格点一起贡献。因此，衍射图谱包含了周期性晶体结构的长程结构信息，可以为材料性质的预测提供有力的帮助。由于倒空间信息中无法抽取出各个原子的元素信息，因而单独使用该特征将导致无法描述原子间的相互作用。开发实空间与倒空间信息相结合的结构特征提取方法将会是今后一个关键的研究方向。

图论、库伦矩阵、拓扑描述符和倒空间信息的具体方案参考现有技术，在此不累述。本例具体采用的是图论对晶体结构信息进行向量化，图论及材料晶体结构描述方法参考专利申请201910390012.2。

3)材料表征图片的数据处理

本例使用基于深度学习的图像分割算法对表征图片进行处理，图像分割就是指将图像分割成多个部分，提取图形特征，例如材料形状、边缘、尺寸、空间分布等重要信息。在这个过程中，图像的每个像素点都和目标的种类相关联，图像分割主要分为语义分割和实例分割两种类型，由于本例希望算法可以将相同的材料标注出来，因此本例主要进行语义分割。

图像分割模型的基本架构包括编码器和解码器，编码器通过卷积核提取图像特征，解码器负责输出包含物体轮廓的分割蒙版，大多数图像分割框架都具有类似的结构，本例可采用的算法包括U-Net、FastFCN、Gated-SCNN、Mask R-CNN等。具体的，本例采用MaskR-CNN，该架构的核心点在于边界框和将图片分割成一系列像素点的语义分割，从而实现物体的分类和定位，每个兴趣区域会得到一个分割蒙版，最终输出类标签和边界框。在模型的训练过程中，通常使用简单的跨类别熵损失函数，如果想要获得图像的细节信息，可以使用Focal、Dice、边界损失、加权交叉熵等损失函数。

对上述三类数据处理完成后，根据各自对应的信息进行标注。具体的，对于文本信息，“多源文本信息融合”后，根据文本信息对文本类型实体自动化标注；晶体结构信息，最后根据晶体结构文件的名称对结构类型实体自动化标注；材料表征图片，最后根据表征图片的标题信息对图片类型实体自动化标注。

三、知识融合步骤

该步骤主要包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联，获得材料知识图谱。

但是，考虑到歧义化现象，本例首先对作者进行消歧，减少作者的歧义化现象。即在进行三类实体的对应和关联之前，先进行作者消歧处理。

本例设计了“多尺度分类，双模型结合”的消歧流程。“多尺度分类”是指设计不同的分类粒度，从大到小，逐步提高精度。“双模型结合”是指将机器学习算法与数据库重复检测技术结合，以实现模型之间的互补，提升最终性能表现。

在数据中，作者信息包括LN、FN、ORCID、Email以及Affiliation(即姓氏、名字、开放研究者与贡献者身份识别码、电子邮箱地址、所属机构单位)，存储为[FN，LN，ORCID，Email，Affiliation]元组的形式。设计的“多尺度分类，双模型结合”的详细消歧流程分为以下4个步骤：

1)使用机器学习模型-朴素贝叶斯模型进行“粗粒度”分类，即将作者按照对应的摘要文本分类于几个大类领域。朴素贝叶斯分类器是一种基于贝叶斯定理的弱分类器，其假定样本每个特征与其他特征都不相关，适合于大型数据集，是一种在特定场景下胜过许多复杂算法的高效分类方法。

该算法的输入为：

训练数据T＝{(x₁，y₁)，(x₂，y₂)，…，(x_N，y_N)}

其中是第i个样本的第j个特征，a_jl是第j个特征可能取的第l个值，j＝1、2、…n；l＝1、2、…S_j；y_i∈{c₁，c₂，...，c_K}；k＝1、2、…K；实例x；输出为：实例x的分类。

基于此，本例从数据库中随机抽样若干份文献摘要并分为训练集(80％)和测试集(20％)，将训练后的分类器用于所有文献摘要，将文献摘要及相应作者分为几个大类领域。

2)使用数据库重复检测技术-匹配依赖算法对每个大类中的作者信息及相应文本信息按照相似性分“块”，即指一个数据集合，将相似度高的作者分类于一个“块”中。

数据去重作为数据质量管理领域最为广泛的研究问题，其可定义如下：如果给定了数据源和对应的属性列表，通过对每对元组的每个偶对进行匹配以判断是否指代相同实体，从而进行二分类。考虑到函数依赖在存在错误且数据源形式不同的质量较差的数据库中效果不佳的问题，本例采用匹配依赖(Matching Dependency)算法对数据进行处理。该算法的优势在于其拥有与传统形式不同的依赖和推理机制，对数据包含的语义进行匹配且对搜索空间进行约减，从而完成数据的去重任务。匹配依赖可根据相似性谓词进行定义，关系模式(R₁，R₂)的匹配依赖的语法定义为：

上式中X₁、X₂对应R₁、R₂中属性的两两兼容列表，为匹配操作符。

基于此算法，本例使用声明式语言LogiQL进行去重操作。在去重时，同时处理作者信息(FN，LN，ORCID，Email，Affiliation)、文献标题和关键词这三类文本，余弦相似度被用于对数据记录间的相似性进行量化，按照设置的阈值进行分“块”。阈值可根据对精度的要求进行人工调整，本例在实验中采取的阈值为0.8。

3)再次应用朴素贝叶斯模型，对每个“块”中的记录再次分类。

本例使用文献标题、摘要以及关键词文本训练朴素贝叶斯分类器，使用训练好的分类器对同一个“块”中的记录对进行分类，从而大幅度减少错误及重复关联的情况。

4)针对传统的数据检索方法在庞大复杂的数据查找场景中效率较低的问题，本例设计剪枝策略以提高匹配速度及效率。

CTANE算法是目前使用最广泛的条件函数依赖挖掘算法之一，但是该方法以广度优先为搜索原则，这意味着，随着搜索空间的增长，其搜索效率会严重下降，造成极大的时间成本，本例通过剪枝策略对每一层的候选集进行剪枝，可采用的剪枝策略是多样的，例如对条件函数依赖(Conditional Functional Dependency，CFD)的右项集进行剪枝或者对特定类型的候选项进行剪枝，从而大大缩减搜索空间以提升信息匹配的速度和效率。

按照以上方法，本例收集了约290万条作者信息，进行消歧处理后获得约105万条高质量作者信息，框架的精准度达到约89％，召回率达到了约93％。

作者消歧完成后，根据标注的标签将文本、结构、图片三类实体进行对应和关联，获得本例的材料知识图谱。

将本例对应关联后的数据，即本例的材料知识图谱，存储于数据库中，如Neo4j、MongoDB等，在可视化插件的支持下可进行展示及查询。本例基于多模态的材料知识图谱可对材料科学发展史进行溯源分析，例如查询作者信息可得出该作者曾研究过的材料信息、查询材料信息可得出研究过该材料的所有作者；综合文本、结构以及表征图片信息对潜在材料进行推理预测，包括但不限于结构材料、功能陶瓷材料、半导体材料、储能材料、催化材料、超导材料、生命医学材料、稀土材料。

采用本例的材料知识图谱及其构建方法，分别进行材料科学发展史溯源分析和潜在材料推理预测，具体如下：

试验1材料科学发展史溯源分析

本例以锂电池正极材料LiFePO₄为例，利用本例的构建方法及其构建的材料知识图谱，对LiFePO₄进行自动化分析，关联相关学者及其研究信息，建立用于锂离子电池的LiFePO₄的发展里程碑图，及其发展的重要历程。

LiFePO₄的发展里程碑图如图3所示，LiFePO₄的发展重要历程输出结果如下：

1997年：Fe³⁺/Fe²⁺电对被发现在LiFePO₄中具有最低的能级，比锂金属的费米能级低3.5eV；橄榄石型磷酸盐用于锂电池。

2001年：在室温下，达到了超过170mAh/g理论容量95％的近乎完美的利用率；LiFePO₄/C复合材料在C/2时达到了90％的理论容量，具有非常好的倍率性能和出色稳定性。

2002年：通过控制阳离子的非化学计量并结合固溶体掺杂，LiFePO₄的电子电导率提升了约108倍数；通过减少LiFePO₄/C复合电极中的碳，可以使比能、体积能、振实密度最大化；LiFePO₄的有序橄榄石型结构中的锂插入被认为是具有Frumkin型吸附等温线的插入过程。

2004年：富含金属的磷化物的渗滤纳米网络被发现可增强电子电导率；对LixMPO₄(M＝Mn,Fe,Co,Ni)6种橄榄石相材料中的Li电导率。

2005年：从原子尺度研究了LiFePO₄中的缺陷、掺杂和锂传输。

2008年：设计了具有芯-壳结构的LiFePO₄/C纳米复合材料，通过原位聚合限制方法进行合成；通过domino-cascade模型研究了LiFePO₄纳米颗粒中的锂脱嵌。

2009年：碱金属离子和氮掺杂到LiFePO₄晶格中可增强其电子电导率，不会阻止锂离子的传输。

图3和发展的重要历程展示的结果与事实相符，说明本例的材料知识图谱能够准确有效的进行材料科学发展史溯源分析，并且直观的展示分析结果。

试验2催化材料的推理预测

本试验从互联网收集不同种类的化合物数据、催化反应模拟数据和催化反应实验数据，包含20万实体，同时包含实验反应和模拟反应。催化材料知识图谱中的实体主要分为“元素”和“材料”两种类型。对于两类实体，本试验囊括其重要的属性，对于元素，本试验包含其元素的原子序数、主族数和周期数等。对于“材料”本试验收集其CAS号、smile表达式、常见物理化学属性等。使用两种关系“A在B的催化下生成C”，“B能催化A”来建模催化反应，前一种关系完整的建模了一个催化反应，第二种关系便于查询催化剂的共性。基于此，根据反应物和生成物对催化剂进行推理预测，同时，根据材料知识图谱的直接或间接路径进行反应路径的推理。

试验3锂电池正极材料的推理预测

对锂电池正极材料相关文本进行信息抽取后，基于其所含元素、结构、应用等特征信息，根据正极材料实体之间的直接或间接联系进行推理预测，推理预测出与现有常用的锂电池正极材料相似的潜在正极材料，如通过与LiCoO₂的直接、间接关联关系，推理出潜在正极材料Li₂TiMn₃O₈。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本申请的保护范围。

Claims

1.一种材料知识图谱的构建方法，其特征在于：包括以下步骤，

数据获取步骤，包括分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片；所述文本信息为包括文献标题、摘要、关键词、正文、支撑材料、参考文献在内的全文信息，以及相应的作者信息；

知识融合步骤，包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联，获得材料知识图谱；

存储和应用步骤，包括对知识融合步骤获得的材料知识图谱进行存储，并在可视化插件的支持下对材料知识图谱进行查询、分析和展示；

所述文本信息的数据处理中，对不同来源的文本信息进行融合，获得目标材料实体的特征信息，具体包括，对不同来源的文本进行词嵌入训练，得出不同来源的文本的词向量，采用注意力机制对不同来源的文本的词向量进行融合，得到最终的融合向量；

所述不同来源的文本包括所有材料文本、目标材料文本、重要信息文本；所述所有材料文本是指所有的材料文本，所述目标材料文本是指研究的目标材料的相关文本，所述重要信息文本是指包含重要信息的文本；

所述晶体结构信息的数据处理中，对晶体结构数据进行编码，将结构信息向量化，具体包括，采用图论、库伦矩阵、拓扑描述符和倒空间信息中的至少一种对晶体结构信息进行向量化；

所述材料表征图片的数据处理中，对材料表征图片进行处理，提取图形特征，包括对材料形状、边缘、尺寸、原子空间分布进行特征提取；

所述材料表征图片的数据处理，具体包括，使用基于深度学习的图像分割算法对材料表征图片进行处理，采用语义分割将材料表征图片分割成若干个部分，从中提取图形特征；

所述作者信息包括作者的姓氏、名字、开放研究者与贡献者身份识别码、电子邮箱地址、所属机构单位；

所述知识融合步骤还包括，在进行三类实体的对应和关联之前，进行作者消歧处理；

所述作者消歧处理包括，（1）使用机器学习模型-朴素贝叶斯模型，将作者信息按照对应的摘要文本进行分类；（2）使用数据库重复检测技术-匹配依赖算法，对步骤（1）获得的每个分类中的作者信息及其相应的文本信息按照相似性分“块”，将相似度高的作者信息分类于一个“块”中；（3）再次应用朴素贝叶斯模型，对步骤（2）获得的每个“块”再次进行分类，减少错误及重复关联；（4）利用CTANE算法进行匹配，通过剪枝策略对CTANE算法每一层的候选集进行剪枝，提升信息匹配的速度和效率。

2.根据权利要求1所述的构建方法获得的材料知识图谱。

3.一种构建材料知识图谱的装置，其特征在于：包括数据获取模块、特征抽取模块、知识融合模块、存储和应用模块；

数据获取模块，包括用于分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片；所述文本信息为包括文献标题、摘要、关键词、正文、支撑材料、参考文献在内的全文信息，以及相应的作者信息；

知识融合模块，包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联，获得材料知识图谱；

所述存储和应用模块，包括用于对知识融合步骤获得的材料知识图谱进行存储，并在可视化插件的支持下对材料知识图谱进行查询、分析和展示；

所述知识融合模块，还包括用于在进行三类实体的对应和关联之前，进行作者消歧处理；

4.一种计算机可读存储介质，其特征在于：包括存储于其中的程序，所述程序能够被处理器执行以实现权利要求1所述的材料知识图谱的构建方法。

5.根据权利要求1所述的材料知识图谱的构建方法，或者权利要求2所述的材料知识图谱，或者权利要求3所述的构建材料知识图谱的装置，或者权利要求4所述的计算机可读存储介质，在材料科学发展史溯源分析、新材料研发或潜在材料推理预测中的应用；应用领域包括但不限于结构材料、功能陶瓷材料、半导体材料、储能材料、催化材料、超导材料、生命医学材料、稀土材料。

6.一种预测电池材料的方法，其特征在于：包括采用权利要求1所述的材料知识图谱的构建方法，或者权利要求2所述的材料知识图谱，或者权利要求3所述的构建材料知识图谱的装置，或者权利要求4所述的计算机可读存储介质，对电池材料领域的文本信息、晶体结构信息和/或材料表征图片进行分析，推理预测潜在的电池材料的组成、结构、制备方法及其应用场景。

7.一种预测催化材料的方法，其特征在于：包括采用权利要求1所述的材料知识图谱的构建方法，或者权利要求2所述的材料知识图谱，或者权利要求3所述的构建材料知识图谱的装置，或者权利要求4所述的计算机可读存储介质，对催化材料领域的文本信息、晶体结构信息和/或材料表征图片进行分析，对催化反应进行建模，实现催化反应中反应物、生成物、催化剂、反应路径、催化条件的推理预测，进而推理预测催化材料的成分、结构、催化机理。