CN115762658A

CN115762658A - 基于图卷积神经网络的共晶密度预测方法

Info

Publication number: CN115762658A
Application number: CN202211441111.7A
Authority: CN
Inventors: 蒲雪梅; 郭佳丽; 孙明; 杨松燃; 胡际帆
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2023-03-07
Anticipated expiration: 2042-11-17
Also published as: CN115762658B

Abstract

本发明公开了基于图卷积神经网络预测共晶密度的方法，包括收集共晶样本并进行筛选和数据增强得到共晶数据；对共晶体中两个单独分子分开用分子图的方式表征各个分子的结构，再采用拼接操作将两个分子的信息整合为共晶体的图信息，探索共晶体中分子的2维描述符和3维描述符作为全局特征对预测模型的影响；共晶样本随机划分5％做测试集，剩下的共晶样本做十倍交叉验证用于模型超参数寻参；引入全局注意力机制，构建了基于图卷积神经网络的深度学习框架进行共晶密度预测。本发明实现对共晶体中异质分子间的相互作用的有效识别和共晶体密度性质进行快速预测。

Description

基于图卷积神经网络的共晶密度预测方法

技术领域

本发明涉及共晶体预测技术领域，具体的说，是一种基于图卷积神经网络的共晶密度预测方法。

背景技术

共晶是由两种或两种以上的中性分子，通过特定的化学计量比，以电荷转移、π-π相互作用、氢键和卤键等非共价键相互作用的方式形成的晶体单相，通常在室温下共晶以固体的形式存在，不包含溶剂也不是简单的盐类物质。与单组分晶体相比，多组分的共晶体成分更丰富且分子间相互作用力设计更可控，使得共晶体具有更丰富的多样性。这些共晶体能够在不影响单体分子的情况下，通过与其它不同的分子结合来改变分子的物理和化学性质，并且这些性质不是由组分分子之间简单组合形成的。此外，共晶分子具有合成步骤简单，可调节单体分子的结构、形态和大小，而且相比于单个分子，通过共晶工程更容易获得稀有的或多功能特性新分子的优势。目前共晶工程这种分子协同创新的策略，在药物研发，功能材料发现等领域都受到了广泛的关注。例如，在药物研究领域，通过共晶工程改变药物活性成分的熔点、溶解度及生物利用度等。在有机功能材料领域，研究者通过形成新的共晶体来改变原有分子的光学、电学等性质。此外，在含能材料领域，传统的含能材料可通过共晶工程获得低感度，高爆轰性能的新型含能材料。虽然共晶工程已经在药物和材料领域展现了广泛应用前景，但是传统的共晶研发过程，往往基于大量的实验试错方式，这一过程通常耗时和耗力。随着化合物探索空间的不断扩大，科学家们希望在研究新分子之前，对候选的分子进行快速准确的评估，从而便于节省材料的研发时间和成本，缩短研发周期。

发明内容

本发明的目的在于提供一种基于图卷积神经网络的共晶密度预测方法，用于解决现有技术中共晶研发过程基于大量的实验试错方式耗时耗力、研发周期较长的问题。

本发明通过下述技术方案解决上述问题：

一种基于图卷积神经网络的共晶密度预测方法，包括：

步骤S100、数据收集：从晶体结构数据库CSD中收集共晶样本，考虑数据质量结合化学计量比对共晶样本进行筛选，采用交换共晶中两个分子的顺序做和数据增强，得到共晶数据；

步骤S200、数据处理：对共晶体中两个单独分子分开用分子图的方式表征各个分子的结构，再采用拼接操作将两个分子的信息整合为共晶图，在探索样本表征过程，选取共晶体中分子的2维描述符和3维描述符作为全局特征输入模型；所述模型基于图卷积神经网络的深度学习框架，由一个图卷积神经网络的特征提取器和一个三层的全连接层神经网络预测器组成；

步骤S300、数据集划分：共晶样本随机划分5％做测试集，剩下的共晶样本做十倍交叉验证用于模型超参数寻参；

步骤S400、引入全局注意力机制，提出基于共晶图卷积神经网络的深度学习回归模型CCPGraph，进行共晶密度预测。

考虑数据质量结合化学计量比对共晶样本进行筛选，采用交换共晶中两个分子的顺序做数据增强具体包括：

(1)过滤掉不是由两个异质分子组成的晶体，保留常温下是固态的双组分晶体样本；

(2)删除没有密度值的共晶样本；

(3)排除含有金属元素的共晶体，保留含碳元素的分子组成的共晶体，移除盐类、含有溶剂和晶体乱序的样本；

(4)针对多晶型的共晶样本，选用密度最大值作为该晶体的最终密度值；

(5)将共晶数据按计量比划分三组，分别是1:1、1:2或2:1和其它计量比；

(6)对共晶分子进行顺序交换，增加训练样本的数量，实现数据增强的目的。

所述步骤S200具体包括：

定义共晶图：对每一个共晶体，读取共晶体的两个成分分子的序列信息，采用原子表示节点、共价键表示边的方式对每个分子的图结构进行表征得到分子图；再将两个分子的原子信息和边信息拼接起来，组成共晶体的原子特征矩阵和表示共价键的边特征矩阵；对每个原子通过共价键的连接将相邻原子的信息整合到该原子中；

在探索样本表征过程中，计算了共晶体中分子的2维描述符和3维描述符作为全局特征，2维描述符来自于RDKit工具中计算的200个分子水平的物理化学描述符；此外，17个3维描述符的7个来自于共晶分类工作中关于空间形状和大小，另外10个是基于RDKit开源工具计算的空间作用力的3维分子特征。

针对共晶的特征表征，本发明开发了一个基于图卷积神经网络的深度学习框架来实现对共晶密度的预测，此框架由一个图卷积神经网络的特征提取器和一个三层的全连接层神经网络预测器组成。为了完成对不同层次特征信息的学习，本框架还引入全局变量来实现对外部的2D和3D分子描述符输入和学习，并且引入注意力机制进一步优化变量空间和实现对模型的可解释性。具体来说，本发明分子图的定义是通过分子节点和共价键边的方式表示，G＝(V,E)，其中V表示节点特征矩阵，它由一组原子特征向量组成，V∈R^n×d，n表示分子中所有的原子数，d表示原子的特征数目；E表示边的特征矩阵，它由一组共价键的特征向量组成，E∈R^m×c，m表示分子中所有共价键的数量，c为共价键的类别数量；

对其中一个节点i的特征向量表示为v_i∈R^d；

对其中节点i和节点j形成边的特征向量表示为e_ij∈R^c；

用全局特征u表示整体分子的描述符特征，则，对应分子图表示为G＝(V，E，u)；

对于一个共晶体则有，共晶体的分子图表示为：

G_cc＝(G1，G2)＝{(V(V₁，V₂)，E(E₁，E₂)，u(u₁，u₂))}

其中，G₁＝(V₁，E₁，u₁)，G₂＝(V₂，E₂，u₂)。

分子图的消息传递包括：

(1)对全局特征u进行隐藏信息的表示，通过单层前馈神经网络构建全局特征函数φ_u，u′＝φ_u(u)＝Relu(uW+b)。其中Relu为激活函数，u′是经过信息更新操作后的全局特征向量，W和b是需要训练的权重值和偏差值；

(2)聚合邻接节点信息

在考虑全局特征的情况下，首先将变换后的全局特征与节点特征进行信息融合，则有，

V＝(v₁，v₂，...，v_i，...，v_n)

表示拼接操作；V^u表示特征融合之后的原子特征矩阵；

其次利用相邻原子特征以及相邻边的特征进行相邻节点的信息聚合，此时对于原子即节点i则有，

若不考虑全局特征时，与节点i相邻节点的聚合邻接信息表示为：

v_i，adj＝scatter_j∈N(i)(φ_adj(v_j，e_i，j))

N(i)是与节点i相邻的节点集合；v_j表示与i相邻的节点j的特征向量；e_i，j则是节点i与节点j形成的边的特征向量；φ_adj是邻接节点信息更新函数；scatter表示沿段求和操作；v_i，adj表示节点i的聚合邻接节点信息；

(3)邻接节点聚合到中心原子，实现原子信息更新。

由于邻接节点信息的聚合只考虑了相邻节点对中心节点特征的传递，而没有考虑中心节点自身的特征。因此这里也进一步加入中心节点的特征信息。具体来说，先对节点中心节点信息进行更新，φ_v是节点更新函数，用于非线性处理节点特征。然后与聚合邻接节点信息进行加和得到一次消息传递后的新原子特征。在考虑全局特征的情况下，有

若不考虑全局特征时，则有

V′是所有节点完成一次消息更新后的节点特征矩阵；||表示向量的拼接操作。

所述步骤S400具体包括：

经过图神经网络的消息传递过程后的特征信息采用全局注意力的方法，基于模型学习的节点特征，通过注意力机制优化特征空间，构建特征与分子性质的预测关系，全局注意力表示为：

在考虑全局特征的情况下，有

α＝softmax(h_gate(V^u′))

若不考虑全局特征时，则有

α＝softmax(h_gate(V′))

其中v′_i表示节点i的特征向量，是节点特征矩阵V′的第i行，当全局特征存在时，为v′_i与更新后的全局特征u′拼接为

n个节点拼接后的组成节点特征为V^u′；h_gate:R^F→R，h_gate代表一个神经网络对维度为F的张量进行降维操作，本发明采用的神经网络为多层感知器MLPs；α为分子中节点注意力系数的向量集合，α_i是i节点的注意力系数；x_graph表示用注意力机制对分子图中每个节点进行特征空间优化之后的图嵌入向量；

此外，采用全局注意力机制算法，获取的每个节点注意力系数可作为节点的权重信息进行可视化分析。利用可视化结果可直观显示出图神经网络模型提取的重要节点及其基团信息，从而有助于理解模型对于构建结构与目标性质之间的构效关系。因此采用全局注意力机制算法可以获取图神经网络模型对于预测效果的解释信息；

在全局注意力机制操作后，将x_graph图嵌入向量用三个全连接层的神经网络(fullyconnected neural network,FNN)实现共晶体密度性质的预测。

本发明与现有技术相比，具有以下优点及有益效果：

(1)本发明从机器学习的三个关键因素(数据、特征和模型框架)着手，开发了一个基于图卷积神经网络的深度学习回归模型CCPGraph，可快速实现对有机共晶体密度的准确预测，解决了现有技术中共晶研发过程基于大量的实验试错方式耗时耗力、研发周期较长的问题。

(2)本发明关注了共晶体中异质分子对的化学计量比和样本特征表征对模型的影响，并引入数据增强和注意力机等策略来进一步提升数据量和优化变量空间，注意力机制的引入还能够识别出影响共晶密度的异质分子间的重要作用，解决了深度学习模型的可解释性这一难点。

(3)本发明中用于共晶体密度预测的深度学习回归模型CCPGraph能够基于图卷积神经网络端到端的学习来避免传统机器学习的特征挑选工程，在实际应用中更具普适性，并通过数据质量的提升、特征表征的对比以及变量空间的注意力机制优化实现了共晶密度的快速和准确预测，而且数据增强也提升了模型的鲁棒性和泛化能力。

(4)本发明为共晶工程的实验研究提供了一个简便、快速和准确的智能预测工具，并且本发明涉及的技术优势还可为深度学习在实际中的应用提供方法上的指导。

附图说明

图1为本发明收集数据流程和数据分布图，其中a为共晶体密度数据收集流程图；b为1:1型共晶体，1:2(或2:1)型共晶体，以及其它化学计量比的共晶数据分布图；c为1:1型共晶体密度值分布图；

图2为本发明的模型架构图；

图3为分子图中使用的原子和键特征；

图4为分子图中使用的全局特征；

图5为图卷积神经网络和DNN模型的超参数搜索空间；

图6为不同化学计量比的数据构建模型在独立测试集的预测结果，其中a为共晶体密度值不同化学计量比数据量的韦恩图；b为训练样本集和独立测试集依据不同化学计量比的划分组合；c和d为1:1型共晶体训练模型对1:1型共晶，1:2(或2:1)型共晶密度的预测性能；e和f为1:1和1:2(或2:1)共晶体训练模型对1:1型共晶，1:2(或2:1)型共晶密度的预测性能；

图7为对比模型预测性能分布图，其中，a为基于共晶图卷积神经网络的深度学习回归模型CCPGraph在不同分子特征子集中十倍交叉验证的性能；b为CCPGraph与其它机器学习方法在十倍交叉验证集中模型预测性能；c为七个对比模型中训练集、验证集的MAE、RMSE雷达分布图；

图8为基于最优CCPGraph模型在独立测试集和外部数据集以及实验样本的预测性能示意图，其中，a为最优模型在数据划分的独立测试集中预测散点图；b为独立测试集预测值与实验值的误差统计分布图；c为外部数据集中预测值与真实值的散点图；d为最优模型在外部数据集中预测值与实验值的误差统计分布图；e为最新报道的合成的含能共晶三维结构；f为最新报道的合成的含能共晶空间堆积图；

图9为表征分子间相互作用的代表性共晶注意力机制可视化热图和真实晶体结构图，其中，a为ATAHIP共晶、b为IBOZOS共晶、c为ELOGOE共晶。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例：

结合附图1、图2所示，一种基于图卷积神经网络的共晶密度预测方法，包括：

一、数据收集(收集流程如图1中a所示)

CSD共晶样本中包括了1:1、1:2或2:1以及其它计量比。收集的共晶密度数据中，两组分分子化学计量比为1:1的占比分别是75.55％(图1中b所示)。4144个1:1的共晶密度数据的密度数值的范围从1.0g/cm³到3.0g/cm³，主要分布在1.125g/cm³到1.75g/cm³之间，密度值在此区间的数据占比超过一半以上，并且很少有大于2.5g/cm³的共晶密度数值(图1中c所示)。以上数据分析表明共晶的密度数据分布没有特别极端值的存在，适用于机器学习建模分析。

高质量的数据是确保机器学习模型准确性的一个关键因素，为了获取高质量有机共晶体密度值的数据，如图1所示，本申请对CSD数据库中的共晶体数据进行了清洗和筛选，随后按照不同计量比进行了划分，以获得共晶体中异质分子对的不同化学计量比对模型预测结果的影响。我们将来自于CSD的共晶数据集，经过五轮筛选，最终获得5485个共晶密度实验数据，并在获得了不同计量比的共晶数据对模型预测性能的影响之后，本发明采用高质量的1:1型共晶体数据构建图卷积神经网络模型，用于共晶体的性质预测。

具体筛选步骤如下：

(1)根据共晶的定义过滤掉不是由两个异质分子组成的晶体，且保留常温下是固态的双组分晶体样本；

(2)删除没有密度值的晶体样本；排除含有金属元素的共晶，且保留含碳元素的分子组成的共晶体。

(3)移除不合理的晶体数据，比如盐类、含有溶剂和晶体乱序的样本；

(4)考虑到大多数有机小分子的分子量小于700g/mol，筛除晶体中组分分子的分子量大于此阈值的数据；

(5)针对多晶型的晶体数据，在密度的数据筛选中选用最大值作为该晶体的最终密度值。此外，对收集的共晶中异质分子的化学计量比按照1:1,1:2或2:1，以及其它计量比进行分开统计；

针对共晶体密度性质数据较少的情况，对训练集中的共晶分子对进行顺序交换，以增加两倍训练样本的数量，从而实现数据增强的目的。

二、共晶样本的特征表征

样本的特征表征是机器学习建模的关键因素，图卷积神经网络的核心是消息传递网络，在消息传递过程中对分子的图结构直接提取特征信息用于分子性质的预测。对于每一个共晶体，我们使用开源的RDKit工具分别读入共晶体的两个成分分子的序列信息，用原子表示节点，共价键表示边的方式对每个分子的图结构进行表征。再将两个分子的原子信息和边信息拼接起来，组成共晶体的原子特征矩阵和表示共价键的边特征矩阵，其中原子和键的计算特征统计如图3所示。由于共晶体中的分子通过非共价键的方式相互作用，因此在特征选择方面，除了一些分子的原子基本表示以外，本发明的特征纳入了与非共价键形成有关的一些信息，比如原子的供体和受体特性，是否环中或苯环中原子，同样键也是如此。

在图卷积神经网络的消息传递过程，对每个原子通过共价键的连接将相邻原子的信息整合到该原子中，以便于对原子周边局部化学环境的理解。在这一过程中，除了共晶体的图表征以外，为了给深度学习的应用提供特征表征的指导，我们也探讨了共晶体中分子的2维和3维描述符性质作为全局特征加入消息传递阶段对模型性能的影响，其中2维描述符来自于RDKit工具中计算的200个分子水平的物理化学描述符。此外，17个3维描述符7个来自于共晶分类中关于空间形状和大小，另外10个是基于RDKit开源工具计算的空间作用力的3维分子特征。

综上，本文对于共晶体在原子特征，共价键类别的基础上分别探讨了2维分子水平描述符和3维结构描述符(标记为全局描述符，如图4所示)，以便为深度学习在实际中的应用提供样本表征的指导。

三、基于图卷积神经网络的深度学习回归模型CCPGraph的构建

合理科学的模型框架是机器学习能够有效学到样本特征和挖掘其与目标性质的关系的关键，因此，本发明依据共晶样本数据特点，基于Pytorch深度学习库开发了一个先进有效的共晶密度预测的CCPGraph模型。如图2所示，该模型主要涉及三个方面的构建：共晶样本中双分子体系的表征(如图2中a所示)，基于GNN的特征提取器(如图2中b所示)以及基于全连接层神经网络(FC)的密度预测器(如图2中b所示)，其中GNN特征提取器主要包括消息传递阶段和消息读出阶段，消息传递阶段由多个Graph block组成，通过全局特征更新函数φ_u、邻接节点更新函数φ_adj和中心原子更新函数φ_v来实现原子的信息更新。本发明在消息读出阶段引入了全局注意力机制对信息传递后的分子图特征进行池化操作，全局注意力机制能够实现对特征的加权求和，而非特征之间简单的求和操作，这种方法在优化图向量特征空间的同时，对原子提供注意力权重值，从而对模型进行可解释性。图2中c和图2中d进一步展示了Graph block的原子消息更新过程和消息读出阶段的全局注意力机制。

具体如下：

分子图的定义是通过分子节点和共价键边的方式表示，G＝(V，E)，其中V表示节点特征矩阵，它由一组原子特征向量组成，V∈R^n×d，n表示分子中所有的原子数，d表示原子的特征数目。E表示边的特征矩阵，它由一组共价键的特征向量组成，E∈R^m×c，m表示分子中所有共价键的数量，c为共价键的类别数量。

对其中一个节点i的特征向量表示为v_i∈R^d；

对其中节点i和节点j形成边的特征向量表示为e_ij∈R^c；

用向量u表示整体分子的描述符特征，则，对应分子图表示为G＝(V，E，u)；

对于一个共晶体则有，共晶体的分子图表示为：

G_cc＝(G1，G2)＝{(V(V₁，V₂)，E(E₁，E₂)，u(u₁，u₂))}

其中，G₁＝(V₁，E₁，u₁)，G₂＝(V₂，E₂，u₂)。

分子图的消息传递包括：

(2)聚合邻接节点信息。

V＝(v₁，v₂，...，v_i，...，v_n)

表示拼接操作；V^u表示特征融合之后的原子特征矩阵；

其次利用相邻原子特征以及相邻边的特征进行相邻节点的信息聚合，此时对于原子i(即节点i，在分子中称原子，在图中称节点)则有，

若不考虑全局特征时，与原子i相邻原子的聚合邻接信息表示为：

v_i，adj＝scatter_j∈N(i)(φ_adj(v_j，e_i，j))

N(i)是与节点i相邻的节点集合；v_j表示与节点i相邻的节点j的特征向量；e_i，j则是节点i与节点j形成的边的特征向量；φ_adj是邻接节点信息更新函数；scatter表示延段求和操作；v_i，adj表示节点i的聚合邻接节点信息；

(3)邻接节点聚合到中心节点，实现原子信息更新。

由于邻接节点信息的聚合只考虑了相邻节点对中心节点特征的传递，而没有考虑中心节点自身的特征。因此这里也进一步加入中心原子的特征信息。具体来说，先对中心节点信息进行更新，φ_v是节点更新函数，用于非线性处理节点特征。然后与聚合邻接节点信息进行加和得到一次消息传递后的新原子特征。在考虑全局特征的情况下，有：

若不考虑全局特征时，则有

V′是所有原子完成一次消息更新后的节点特征矩阵；‖表示向量的拼接操作。

Readout Phase的图形嵌入是对分子图神经网络信息传递后的节点特征进行提取，以便于适用机器学习的预测任务。经过图神经网络的消息传递过程后的特征信息采用全局注意力方法，基于模型学习的节点特征，通过注意力机制进一步优化特征空间，用于构建特征与性质的预测关系。

全局注意力表示为：

在考虑全局特征的情况下，有

α＝softmax(h_gate(V^u′))

若不考虑全局特征时，则有

α＝softmax(h_gate(V′))

其中，v′_i表示节点i的特征向量，是节点特征矩阵V′的第i行，当全局特征存在时，为v′_i与更新后的全局特征u′拼接为

n个节点拼接后的组成节点特征为V^u′；h_gate:R^F→R，h_gate代表一个神经网络对维度为F的张量进行降维操作，本发明采用的神经网络为多层感知器MLPs；α为分子中原子注意力系数的向量集合，α_i是节点i的注意力系数；x_graph表示用注意力机制对分子图中每个节点进行特征空间优化之后的图嵌入向量；

在全局注意力机制操作后，将x_graph图嵌入向量用三个全连接层(fully connectedneural network,FC)的神经网络进行共晶体密度性质的预测。

四、模型评估

为了对本发明涉及的所有回归模型进行综合的评估，我们采用了MAE(平均绝对误差)、RMSE(均方根误差)、R²(决定系数)、Re％(相对百分误差)来综合评价模型的性能。它们的计算公式如下所示：

其中y_pre,i和y_exp,i分别表示第i个共晶样本的预测值和实验值，N表示所有的样本数，

表示预测的平均值。

五、超参数优化

机器学习的性能与超参数的选择密切相关，比如神经网络的层数，激活函数等控制着模型的学习效果。本文对随机划分交叉验证集中训练和验证数据集采用贝叶斯优化算法进行超参数寻参，以验证集的MSE损失值作为优化目标。经过100组迭代寻参之后确定最优超参数。为了方法比较的公平性，对于其它的RF、DNN算法也基于相同的数据集采用同样的方法确定各个模型的最优超参数，其中图卷积神经网络和DNN模型的超参数搜索空间如图5所示，对于随机森林回归算法的超参数，我们对其中决定预测准确率和学习成本的决策树参数n_estimators、以及其它max_depth、min_samples_leaf、min_samples_split和bootstrap五个参数进行了搜索。其中n_estimators表示决策树个数、max_depth表示决策树最大深度、min_samples_leaf表示最小叶子节点样本数、min_samples_split表示最小分离样本数、booststrap表示是否进行随机抽样。

六、实验结果和验证

本发明基于收集的共晶体样本，分析了共晶体中不同化学计量比的数据对CCPGraph模型预测密度性能的影响，以便于筛选高质量的样本数据用于构建共晶体结构-密度性质预测模型。我们根据共晶体的化学计量比分布，采用化学计量比为1:1样本，以及混合1:1和1:2/2:1的样本分别构建了两个预测模型，再将它们用于1:1，及1:2/2:1的两类独立测试集上进行密度预测，图6中b显示了这两类模型的训练集和测试集的组成，图6中c-f显示了这两类模型在不同共晶类别中的预测性能。从图6中c-f的实验结果可以看出，1:1型共晶体构建的模型，对1:1型和1:2/2:1型独立测试集的预测R²分别为0.9766和0.7777。而混合共晶体构建的模型，对这两类独立测试集的预测R²分别是0.9650和0.8440。这些结果指出基于1:1型共晶数据对独立测试集中1:1型未知样本预测准确度最高，而对独立测试集中1:2/2:1型共晶样本预测准确度急剧下降为0.777。而用混合了1:1和1:2/2:1共晶样本训练的模型对独立测试集中1:1型的共晶样本预测准确度也有所降低，但对1:2/2:1共晶准确度升高，这是由于混合模型相比于1:1型模型学习到了1:2/2:1共晶样本的知识，所以对1:2/2:1共晶样本的预测准确度比1:1型模型高，但是对于1:1型共晶的预测由于混杂了1:2/2:1共晶知识而有所降低，且由于混合样本中1:1型的样本远多于1:2/2:1型的样本(如图6中a所示)，所以混合模型对1:1共晶预测准确度高于1:2/2:1型准确度。总体来看，采用1:1型的共晶数据构建模型能够对密度性质实现更高的预测准确度，这些结果清楚地展示了数据清洗对于机器学习模型预测性能的重要性。

由于特征表征是影响机器学习模型效果的一个重要因素，本发明还分析了不同样本表征方式作为输入对CCPGraph模型预测密度性质的影响，从而确定适合共晶密度预测的最优样本表征方式，并为图卷积神经网络在实际中的应用提供特征表征的指导。图7中a展示了不同特征表征的CCPGraph模型在十倍交叉验证集的预测性能，其中CCPGraph表示仅用基于分子图表征的图神经网络的预测模型，CCPGraph+2D表示模型在分子图中仅加入200个2维特征的分子互补特征的预测模型，CCPGraph+3D表示在分子图中仅加入17个3维特征的预测模型，CCPGraph+2D+3D表示融合分子图、所有2维和3维特征的预测模型。实验结果表明，仅基于共晶的分子图表征的图卷积神经网络模型CCPGraph就可以实现对共晶密度性质的准确预测，而额外加入先验知识(2D和3D)反而降低了模型的预测准确度。通过对比分析发现，以往的特征融合展现出优势是由于所应用的体系数据分布不平衡或者涉及到图卷积网络在表征大分子全局特征的局限性问题，所以他们才会考虑加入额外的特征融合，但本发明所涉及有机分子的分子量小于700g/mol的小分子类型，而且也不存在以往图卷积神经网络分类模型中正负样本不平衡的问题，所以在这种情况下，加入额外的2D和3D描述符反而增加了特征的冗余性，而让模型学习更为复杂，反而降低了模型的预测准确度，这个结果为深度学习在实际应用中样本表征提供了指导。

为了进一步评估我们预测模型的先进性，本发明也将CCPGraph模型与一个传统机器学习模型随机森林(RF)和两个深度神经网络(Deep Neural Network)DNN模型进行实验对比。在对比模型实验中，本发明基于分子描述符和分子指纹的两种不同分子表征的方式，利用随机森林算法和深度神经网络构建了3个共晶体密度性质的对比预测模型。传统机器学习在构建RF的回归模型中，使用217个分子描述符作为输入来评估先验知识在模型预测中的效果。而在另外两个DNN模型中，一方面使用217个分子描述符构建深度神经网络模型，另一方面由于分子指纹能够提供原子环境的拓扑结构信息，因此我们的方法对比中，对DNN模型也考虑了分子连通性指纹结构(ECFP)作为输入特征。以上三个对比模型我们分别标记为RF_desc、DNN_desc和DNN_FP。在相同数据集下分别对RF_desc、DNN_desc和DNN_FP模型进行寻参。

图7中b分别展示了三个对比模型在十倍交叉验证集中预测性能，其中验证集的R²均值分别是0.8949、0.9050和0.9078。从实验结果可以看出，三个对比模型在验证集中预测性能显示基于分子指纹描述符和分子物理化学性质描述符在DNN模型中几乎无差别。但是，DNN模型的预测结果优于基于描述符特征的传统机器学习方法RF。此外，本文构建的CCPGraph与三个对比模型相比较在训练集和验证集中表现出整体性能最优。从图7中c所示的模型预测误差统计结果也可以看出，与传统机器学习模型和深度学习模型相比，共晶体密度性质的预测误差排名依次是图神经网络模型性能优于深度学习算法，其次优于传统机器学习模型。在图神经网络模型中，CCPGraph的预测误差MAE，RMSE均取得最低值，分别为0.0356g/cm³、0.0539g/cm³。然而与图神经网络模型相比，DNN_FP、DNN_desc和RF_desc模型在验证集的MAE和RMSE则相对较大，均值分别是0.0516g/cm³和0.0809g/cm³、0.0522g/cm³和0.0794g/cm³、以及0.0514g/cm³和0.0847g/cm³。以上结果表明，CCPGraph模型在共晶密度性质预测中表现出整体最优性能，进一步证实了我们所提出的这个模型的先进性。

七、模型的泛化能力

模型的泛化能力指的是模型对不在训练集中的未知样本的预测准确度，代表着模型在实际应用中的可靠性，因此是评价模型应用潜力的重要指标。我们在这里通过独立测试集和新近报道的外部样本数据集的预测准确度来评估和验证CCPGraph模型在未知样本预测的泛化能力。首先，本文对数据集随机划分的5％独立测试集进行预测，这部分样本包含207个共晶样本，预测值分布结果如图8中a所示。可以看出，独立测试集的R²，MAE和RMSE分别是0.9781、0.0302和0.0405。随后，为了进一步测试模型应用于未知样本的泛化能力，我们从CSD数据库中收集了2021年到2022年新收录在该数据库中的共晶密度实验数据，作为外部样本共计272个共晶数据。同样，我们采用与独立测试集相同的参数信息对这部分数据集进行测试，从图8中c的结果中可以看到模型对外部数据集预测的R²为0.9853，MAE和RMSE为0.0349、0.0427。随后，通过统计预测的相对误差百分比分布，我们发现独立测试集和外部测试集数据的预测误差整体集中在-6％到6％的范围(见图8中b和d)，其中在这个误差范围的数据占比独立测试集有96％，外部测试集有97％。以上分析结果表明模型对于未知样本预测的误差小，准确率高，模型具有良好的泛化能力和鲁棒性。

为了进一步验证共晶体密度预测模型在实际应用中的可靠性，对实验合成的含能共晶体进行密度值的预测，共晶结构见图8中e和f。对实验共晶样本的预测，同样采用序列输入RDKit对共晶体中的两个分子进行特征表征，随后用训练好的CCPGraph模型进行密度值预测，预测结果为1.7145g/cm³。而之前的实验过程中，我们通过测量实验晶体的方式获取该共晶的密度为1.83g/cm³，预测相对误差百分比为-6.23％，预测误差在实验可接受范围。该结果进一步表明我们构建的共晶密度预测模型不仅在训练集、独立测试集上有较好的预测效果，而且在外部样本测试和实验对比中均具有很好的预测可靠性，模型具有一定的实际应用价值。

八、基于注意力机制的模型解释

深度学习虽然具有强大的学习能力，但模型的黑箱本质导致了模型的可解释性困难，这也是深度学习模型在实际应用中的一个局限。因此为了解决这个局限，我们在模型搭建的过程中对于图卷积神经网络的消息读出阶段引入了注意力机制，以便对分子中的每个原子进行有目的性的学习，并得到每个原子的重要性权重，一方面进一步优化变量空间，另一方面可通过对这些权重进行可视化来获得对模型可解释性，能够对共晶体中分子间的相互作用进行很好的识别，从而有利于模型构建结构和性质的关系。如图9所示，我们在外部样本集中挑选了代表性的共晶体ATAHIP(如图9中a)，IBOZOS(如图9中b)和ELOGOE(如图9中c)作为代表性的显示。其中图9中左侧展示的是CCPGraph模型利用全局注意力机制获得的注意力权重对每个原子进行可视化的热图。通过与CCDC获取的该共晶体的真实晶体结构进行对比(图9中右侧所示)，我们发现在ATAHIP共晶中的卤键相互作用对-I1…S1,-I2…S1,-F1---C-H3，-F1---C-H3；IBOZOS共晶中的卤键和氢键相互作用对-O2--H12，-I1--C8；以及ELOGOE共晶的π-π相互作用和O-H之间的氢键相互作用我们的模型能实现很好的识别。此外，对于ATAHIP共晶中涉及的相同分子之间的相互作用，如F1-C…F2和-N2-H…S1、-N1-H…S1模型则没有对这部分的原子进行过度关注，这表明我们的CCPGraph模型能够准确识别形成共晶体的异质分子之间的重要作用。

数据是机器学习建模的第一要素，因此本发明首先从数据质量的角度，完成了从CCDC剑桥晶体结构数据库对材料和药物研究范围的共晶体密度数据的收集，并提出了一种系统地处理共晶体密度性质数据适用于机器学习的数据清洗流程。分析了共晶体中异质分子对不同化学计量比的数据分布，发现共晶体中1:1型的化学计量比占比约为75％，更为重要的是，在使用机器学习对共晶体构建的结构-性质预测模型中，采用1:1的共晶体数据能实现更好的预测性能。同时，本发明基于共晶体的结构特点和密度预测目标开发了一个基于图卷积神经网络的深度学习架构CCPGraph，能够实现从分子拓扑结构到共晶密度性质的准确预测深度学习回归模型CCPGraph。由于样本的特征表征是影响机器学习模型的一个关键因素，因此我们在本发明的研发过程中探讨了2D和3D分子描述符作为先验知识融合到分子图表征的不同组合策略对共晶体密度性质预测的影响。分析结果表明CCPGraph模型仅基于分子图表征的方式就能实现较好的预测效果，额外的先验知识的加入反而会引起模型过拟合。通过分析我们发现，基于图卷积神经网络模型的预测性能往往受到数据自身质量的影响，需要考虑分子，数据分布等因素。当卷积神经网络基于已有的数据采用端到端的学习方式不同获得与目标性能相关的有效的结构特征信息时，有必要引入先验知识的特征融合的策略补充特征信息，但如果图卷积神经网络能够基于分子图的端到端学习获取到有效的结构信息时，就没有必要加入外部的先验知识，否则会引起信息的冗余，反而引起模型效果的下降。此外，针对深度机器学习的黑箱问题，本发明引入了注意力机制对图卷积神经网络消息传递的输出特征进行原子权重信息的提取，进一步优化了特征变量空间，并实现了模型在对共晶体密度预测过程中重要基团和关键作用的准确识别，实现了对CCPGraph模型的可解释性，为共晶体的形成和稳定性的理解提供了重要参考。此外，本发明研发过程中所揭示的数据质量、数据量、样本特征表征以及注意力机制的研究结果可为深度学习在实际中的应用提供了有价值的指导。

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种基于图卷积神经网络的共晶密度预测方法，其特征在于，包括：

步骤S100、数据收集：从晶体结构数据库CSD中收集共晶样本，考虑数据质量结合化学计量比对共晶样本进行筛选，采用交换共晶中两个分子的顺序做数据增强，得到共晶数据；

2.根据权利要求1所述的一种基于图卷积神经网络的共晶密度预测方法，其特征在于，考虑数据质量结合化学计量比对共晶样本进行筛选，采用交换共晶中两个分子的顺序做数据增强，具体包括：

(2)删除没有密度值的共晶样本；

3.根据权利要求1所述的一种基于图卷积神经网络的共晶密度预测方法，其特征在于，所述步骤S200具体包括：

在探索样本表征过程中，计算了共晶体中分子的2维描述符和3维描述符作为全局特征，2维描述符来自于RDKit工具中计算的200个分子水平的物理化学描述符；3维描述符一部分来自于共晶分类工作中关于空间形状和大小的7个描述符，另一部分基于RDKit开源工具计算的空间作用力的10个3维分子特征作为另外一类表征分子空间结构的描述符。

4.根据权利要求3所述的一种基于图卷积神经网络的共晶密度预测方法，其特征在于，定义分子图：通过分子节点和共价键边的方式表示，G＝(V,E)，其中V表示节点特征矩阵，它由一组原子特征向量组成，V∈R^n×d，n表示分子中所有的原子数，d表示原子的特征数目；E表示边的特征矩阵，它由一组共价键的特征向量组成，E∈R^m×c，m表示分子中所有共价键的数量，c为共价键的类别数量；节点特征矩阵V中的节点i的特征向量表示为v_i，v_i∈R^d；节点i和节点j形成边的特征向量表示为e_ij，e_ij∈R^c；

用全局特征u表示整体分子的描述符特征，则，对应分子图表示为G＝(V,E,u)；

对于一个共晶体，则共晶体的分子图表示为：

G_cc＝(G1,G2)＝{(V(V₁,V₂),E(E₁,E₂),U(u₁,u₂))}

其中G₁＝(V₁,E₁,u₁)，G₂＝(V₂,E₂,u₂)。

5.根据权利要求4所述的一种基于图卷积神经网络的共晶密度预测方法，其特征在于，分子图的消息传递包括：

(1)对全局特征u进行隐藏信息的表示，通过单层前馈神经网络构建全局特征函数Φ_u，u^′＝Φ_u(u)＝Relu(uW+b)，其中Relu为激活函数，u^′是经过信息更新操作后的全局特征，W和b是需要训练的权重值和偏差值；

(2)聚合邻接节点信息

V＝(v₁,v₂,…,v_i,…,v_n)

⊕表示拼接操作；V^u表示特征融合之后的原子特征矩阵；

其次，利用相邻节点特征以及相邻边的特征进行相邻节点的信息聚合，此时对于节点i则有，

考虑全局特征的情况下，与i原子相邻原子的聚合邻接信息表示为：

v_i,adj＝scatter_j∈N(i)(Φ_adj(v_j,e_i,j))

N(i)是与节点i相邻的节点集合；v_j表示与节点i相邻的节点j的特征向量；Φ_adj是邻接节点信息更新函数；scatter表示沿段求和操作；v_i,adj表示节点i的聚合邻接节点信息；

(3)邻接节点聚合到中心节点，实现节点信息更新

由于邻接节点信息的聚合只考虑了相邻节点对中心节点特征的传递，而没有考虑中心节点自身的特征，因此这里也进一步加入中心节点的特征信息，具体来说，先对中心节点信息进行更新，Φ_v是节点更新函数，用于非线性处理节点特征，然后与聚合邻接节点信息进行加和得到一次消息传递后的新节点特征；在考虑全局特征的情况下，有

若不考虑全局特征时，则有

V^′是所有节点完成一次消息更新后的节点特征矩阵；‖表示向量的拼接操作。

6.根据权利要求5所述的一种基于图卷积神经网络的共晶密度预测方法，其特征在于，所述步骤S400具体包括：

经过图卷积神经网络的消息传递过程后的特征信息采用全局注意力机制的方法，基于模型学习的节点特征，通过注意力机制优化特征空间，构建特征与分子性质的预测关系，全局注意力表示为：

在考虑全局特征的情况下，有：

α＝softmax(h_gate(V^u′))

若不考虑全局特征时，则有

α＝softmax(h_gate(V^′))

其中v_i ^′表示节点i的特征向量，是节点特征矩阵V^′的第i行，当全局特征存在时，为v_i ^′与更新后的全局特征u^′拼接为v_i ^u′，n个节点拼接后的组成节点特征为V^u′；

h_gate:R^F→R，h_gate代表神经网络对维度为F的张量进行降维操作，α为分子中节点注意力系数的向量集合，α_i是i节点的注意力系数；x_graph表示用注意力机制对分子图中每个原子进行特征空间优化之后的图嵌入向量；

在全局注意力机制操作后，将x_graph图嵌入向量用三个全连接层的神经网络进行共晶体密度性质的预测。