CN114724646A

CN114724646A - 一种基于质谱图和图结构的分子属性预测方法

Info

Publication number: CN114724646A
Application number: CN202210483589.XA
Authority: CN
Inventors: 张桃红; 陈赛安; 陈晗
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-07-08
Anticipated expiration: 2042-05-05
Also published as: CN114724646B

Abstract

本发明公开了一种基于质谱图和图结构的分子属性预测方法，包括：S1，获取待预测分子的质谱图数据和图结构数据；S2，利用数据增强方法增强数据真实性以及扩充数据量；S3，利用图神经网络和transformer结构提取两种模态的分子属性特征；S4，利用特征融合模块实现多模态特征的信息融合，并根据融合后的特征对分子属性进行预测，得到预测属性的数值。本发明利用神经网络直接学习分子的质谱图信息，并将得到的特征和图结构特征进行融合，端到端地进行分子属性预测，两种模态数据信息互相补充，提升了分子属性预测的准确率，同时大大简化了前期的数据特征工程。

Description

一种基于质谱图和图结构的分子属性预测方法

技术领域

本发明涉及材料发和深度学习技术领域，特别涉及一种基于质谱图和图结构的分子属性预测方法。

背景技术

分子材料广泛应用于医疗卫生、食品、日常化工等领域。因此，加快新分子材料的发现对促进科学和社会的发展具有重要意义。目前，分子材料的研究非常耗时，需要大量的努力来确定一定的目标性质，优化分子的合成条件。理论高通量计算方法通常用于预测分子的性质。这种有合理解释的机制驱动的计算模型可以有效地加速新材料的发现。然而，机构驱动的计算模型是一个具有参数简化的理论模型。它忽略了材料缺陷、真实环境、设施、研究人员技能等因素的影响，而这些因素可能会导致预测的不准确。

近年来，大数据驱动的人工智能方法被广泛应用于计算机视觉、自然语言处理、医学和交通等领域。由于分子大数据的强大的非线性能力和可行性，基于机器学习和深度学习的材料特性预测受到了研究者的广泛关注。一种是基于描述符的机器学习预测，它需要找到与目标属性有很强相关性的描述符；另一种是基于图神经网络的端到端深度学习模型，它是一种利用分子图结构作为输入的神经网络，可以从分子图结构中提取抽象信息，映射到目标属性。然而，图神经网络与其他机器学习方法也存在同样的问题，即缺乏泛化，易于达到训练数据的极限，且当真实的分子被抽象为图结构时，它将失去部分三维结构信息和核外电子信息，这会导致对结果的预测不准确；而基于描述符的机器学习预测方法则需要在前期进行大量的特征工程工作。

图谱是材料领域经常出现的一种数据形式，它是通过微观粒子束、电磁波束等打到材料表面所产生的特定的响应，这样的相应包括电子、质子、粒子相应，通过捕捉这样的相应，可以判断材料的电子信息，原子信息以及结构信息，所以图谱被常常用来推测材料属性，并且和描述符不同的是，图谱不需要进行大量特征工程，图谱的识别主要是通过观察特征峰的位置关系和强度来判断材料的组成和结构。

因此，亟需一种基于质谱图和图结构的分子属性预测方法，利用神经网络直接学习分子的质谱图信息，并将得到的特征和图神经网络学习到的特征进行融合，进行分子属性预测，既能提升分子属性预测的准确率，又可以大大简化前期的数据特征工程。

发明内容

本发明提供了一种基于质谱图和图结构的分子属性预测方法，不仅能解决仅使用图神经网络进行材料属性预测性能较低的问题，而且能简化前期的特征工程。通过深度神经网络直接学习分子质谱图的潜在特征表示，通过图神经网络学习分子的图结构特征信息，并将质谱图特征和图结构特征进行融合，提升了分子属性预测的准确性。

为解决上述技术问题，本发明提供了如下技术方案：

一种基于质谱图和图结构的分子属性预测方法，包括：

S1，获取待预测分子的质谱图数据和图结构数据；

S2，利用数据增强方法增强数据真实性以及扩充数据量；

S3，利用图神经网络和transformer结构提取两种模态的分子属性特征；

S4，利用特征融合模块实现多模态特征的信息融合，并根据融合后的特征对分子属性进行预测，得到预测属性的数值。

进一步地，所述S1中，获取待预测分子的质谱图数据和图结构数据，包括：

每个分子的质谱图数据形式为一个长度固定的一维向量，图结构数据包括组成分子的原子特征矩阵、原子之间键的特征矩阵以及分子图结构的邻接矩阵。分子的图谱数据和图结构数据共同构成数据集。

进一步地，所述S2中，利用数据增强方法增强数据真实性和数据扩充，包括：

利用数据增强方法完善数据集，减少质谱图的实验数据与理论数据之间的差异性，增加数据的真实性。具体的数组增强方法如下：

添加噪声就是对图谱数据的每个位置添加一定的噪声，添加a到b的随机噪声和均值为μ方差为σ的高斯噪声，添加随机噪声的表达式如下：

y(x)＝I(x)+random(a，b)

(1)

其中I(x)为图谱x位置的原强度，y(x)为添加噪声后的x位置的强度，random为随机函数。添加高斯噪声的表达式如下：

y(x)＝I(x)+F(μ，σ) (2)

其中F(μ，σ)为高斯函数，表达式为：

峰值偏移是对明显的特征峰进行左右轻微偏移，此处设置两个随机数μ₁和μ₂，其中μ₁为该峰值是否进行偏移，其取值范围为μ₁∈[0，η]其中η∈[0，1]，μ₂为偏移数其取值范围为μ₂∈[-m，m]，m为偏移最大值，添加峰值偏移操作的表达式为：

exchange(y(x+μ₂)，y(x)) μ₁∈[0，η]

(4)

其中为exchange表示两个值进行交换。

峰值增强和削弱操作和上面峰值偏移一些类似，设置一个随机数μ₃，其中μ₃决定该峰是否进行增强和削弱操作，其取值范围为μ₃∈[0，θ]其中θ∈[0，1]，设置一个随机数μ₄，该随机数决定对峰值削弱或增强的幅度值，其取值范围为μ₄∈[-kE，kE]，其中E为该峰值的原始强度，k为峰增强或者减弱最大的峰值比例。峰值增强和削弱操作的表达式如下：

I(x)＝I′(x)+μ₄ μ₃∈[0，θ] (5)

其中I′(x)为原始峰值强度。

进一步地，所述S3中，利用图神经网络和transformer结构提取两种模态的分子属性特征，包括：

构建图神经网络和transformer结构提取两种模态的分子属性特征，图神经网络提取的是分子的图结构信息，transformer结构提取的是质谱图中的潜在分子属性信息。

图神经网络可对分子中原子的邻据信息进行聚合，图神经网络中的注意力运算可以调整每个原子周围的邻据节点的权重。图神经网络的输入为三元组{V，E，A}的形式，其中，V表示组成分子的原子特征矩阵，E表示原子之间键的特征矩阵，A表示分子图结构的邻接矩阵。图卷积神经网络将图结构的邻接矩阵引入到卷积计算中，构造了消息传递和更新函数，公式如下：

其中

(I为单位矩阵)表示图结构的邻接矩阵，

为对角度矩阵，θ为模型可学习的权重矩阵。V为节点特征矩阵，右上角标为迭代轮数。从节点角度的消息传递和更新函数为：

其中，

其中e_ij表示以i和j为短点的边的权重，对于有向图来说，e_ij表示源点i到终点j的边的权重，e_ji表示源点j到终点i的边的权重。

在使用transformer进行图谱的特征学习之前，需要对分子图谱进行划分。将分子的质谱图视作长为L的一维向量，后将此向量均匀划分为等长的N个向量，构成transformer的输入序列，每个向量的长度P为L/N，然后进行输入序列的位置嵌入，使用一组可学习的向量序列和输入序列进行相加构成具有位置嵌入的输入序列，公式如下：

X＝[p⁰+z⁰；p¹+z¹；...；p^N+z^N]

(8)

其中，X为输入序列矩阵，p¹为位置嵌入向量，是模型可学习参数，其维度为P，z⁰为回归向量，用于进行模型最终的回归输出，z¹到z^N为图谱段嵌入向量，维度均为P。

将具有位置信息的输入序列输入transformer结构进行分子属性的特征学习，采用transformer的编码器部分，进行输入序列的自注意力运算，自注意力运算方法如下：

Output＝Attention(Q，K，V) (9)

Q＝W^q·Input (10)

K＝W^k·Input (11)

V＝W^v·Input (12)

其中Input表示网络的输入，Output表示网络的输出，W^q、W^k、W^v为网络的可学习参数矩阵，Q、K、V是由输出序列得到的、进行注意力运算的矩阵。

进一步地，所述S4中，利用特征融合模块实现多模态特征的信息融合，并根据融合后的特征对分子属性进行预测，得到预测属性的数值，包括：

多模态数据学习可以实现材料属性的准确预测，模型中的特征融合模块可以实现多模态数据提取网络的信息融合，本模型在使用图谱的基础上融合图神经网络信息，可以实现特征的有效互补。特征融合模块的表达式如下：

X＝concat(X_spec，X_graph)

(14)

y＝MLP(X)

(15)

其中X_spec为transformer提取的特征，其维度为D_spec，X_graph为图神经网络提取的特征，其维度为D_graph，X为融合后的特征，其维度为D_spec+D_graph，多层感知机MLP使用GELU激活函数做非线性映射。通过MLP之后得到模型的输出，利用该输出向量可对分子的属性进行预测。

进一步地，所述S3中，图神经网络提取的是分子图结构中潜在分子属性信息，transformer结构提取的是质谱图中的潜在分子属性信息。

本发明提供的技术方案带来的有益效果至少包括：

本发明的上述技术方案提供了待预测分子的质谱图数据和图结构数据的获取方法；利用数据增强方法增强数据真实性以及扩充数据量；利用图神经网络和transformer结构提取两种模态的分子属性特征；利用特征融合模块实现多模态特征的信息融合，并根据融合后的特征对分子属性进行预测，得到预测属性的数值；利用神经网络直接学习分子的质谱图信息，并将得到的特征和图结构特征进行融合，端到端地进行分子属性预测，提升了分子属性预测的准确率，大大简化了前期的数据特征工程。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于质谱图和图结构的分子属性预测方法的执行流程示意图；

图2是本发明实施例提供的基于质谱图和图结构的分子属性预测方法整体的网络结构示意图；

图3是本发明实施例提供的分子质谱图采用数据增强后的结果示意图；

图4是本发明实施例提供的自注意力机制示意图；

图5是本发明实施例提供的transformer模型有效性评估示意图；

图6是本发明实施例提供的图神经网络模型示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

如图1所示，本发明实施例提供了一种基于质谱图和图结构的分子属性预测方法，该方法包括：

S1，获取待预测分子的质谱图数据和图结构数据；

需要说明的是，由于分子图结构数据通常只包含分子的结构化特征，特征不够丰富，对分子的图谱数据进行特征提取后，可以很好的对分子的三维结构信息进行补充。因此，本实例为了解决单一图结构特征的局限性、提高属性预测的准确率，对图谱数据的潜在特征进行学习。

S2，利用数据增强方法增强数据真实性以及扩充数据量；

需要说明的是，本实施例是通过分析分子图谱的实验数据和理论数据之间的差异性，对原始的理论数据进行特征增强，使其接近实验真实数据。具体地，使用添加噪声、峰值偏移、峰值增强和削弱方法进行数据增强，得到用于模型训练的图谱数据集。具体的数组增强方法如下：

y(x)＝I(x)+random(a，b)

(1)其中I(x)为图谱x位置的原强度，y(x)为添加噪声后的x位置的强度，random为随机函数。添加高斯噪声的表达式如下：

y(x)＝I(x)+F(μ，σ) (2)

其中F(μ，σ)为高斯函数，表达式为：

峰值偏移是对明显的特征峰进行左右轻微偏移，此处设置两个随机数μ₁和μ₂，其中μ₁为该峰值是否进行偏移，其取值范围为μ₁∈[0，η]

其中η∈[0，1]，μ₂为偏移数其取值范围为μ₂∈[-m，m]，m为偏移最大值，添加峰值偏移操作的表达式为：

exchange(y(x+μ₂)，y(x)) μ₁∈[0，η]

(4)

其中为exchange表示两个值进行交换。

I(x)＝Iμ1(x)+μ₄ μ₃∈[0，θ] (5)

其中I′(x)为原始峰值强度。

S3，利用图神经网络和transformer结构提取两种模态的分子属性特征；其中，图神经网络提取的是分子图结构中潜在分子属性信息，transformer结构提取的是质谱图中的潜在分子属性信息；

具体地，在本实施例中，得到分子属性特征信息的方式为：图神经网络对分子中原子的邻据信息进行聚合，得到分子属性的预测向量；transformer结构将分子图谱进行划分，得到等长的N个向量，构成transformer的输入序列，然后进行输入序列的位置嵌入，使用一组可学习的向量序列和输入序列进行相加构成具有位置嵌入的输入序列，然后送transformer网络进行自注意力的运算，学习分子图谱潜在的特征信息，得到分子属性的预测向量。图神经网络可对分子中原子的邻居信息进行聚合，图神经网络中的注意力运算可以调整每个原子周围的邻居节点的权重。图神经网络的输入为三元组{V，E，A}的形式，其中，V表示组成分子的原子特征矩阵，E表示原子之间键的特征矩阵，A表示分子图结构的邻接矩阵。图卷积神经网络将图结构的邻接矩阵引入到卷积计算中，构造了消息传递和更新函数，公式如下：

其中

(I为单位矩阵)表示图结构的邻接矩阵，

其中，

X＝[p⁰+z⁰；p¹+z¹；...；p^N+z^N]

(8)

Output＝Attention(Q，K，V) (9)

Q＝W^q·Input (10)

K＝W^k·Input (11)

V＝W^v·Input (12)

S4，利用特征融合模块实现多模态特征的信息融合，并根据融合后的特征对分子属性进行预测，得到预测属性的数值；

具体地，在本实施例中，得到多模态融合特征信息地方式为：将图神经网络和transformer得到的预测向量，按照相同的维度对特征进行拼接，并使用全连接层和非线性激活函数来更好的融合特征，实现特征的有效互补。最后得到经过特征融合的分子属性预测向量。特征融合模块的表达式如下：

X＝concat(X_spec，X_graph)

(14)

y＝MLP(X)

(15)

进一步地，本实施例的基于质谱图和图结构的分子属性预测方法所采用的网络模型的网络结构如图2所示。

实施例一

在本实施例中，使用分子图结构数据和图谱数据验证基于质谱图和图结构的分子属性预测方法的效果。

通过PubChem网站提供的api接口获取具有图结构数据和实验数据的json文件，其中图结构数据包括原子的属性和键的属性。通过HMDB开源数据库获取分子质谱图数据。分子图谱数据维度按照数据集最大质荷比设置为2000维，即每个图谱数据为一个2000维的向量，在数据增强的过程中，随机噪声a＝0，b＝1，使用均值为0，方差为1的高斯函数进行噪声添加，即μ＝0，σ＝1，并将添加噪声之后取值小于0的部分取绝对值。在进行峰值偏移时，设置偏移的最大范围为10个偏移单位，即峰值按照概率向左或者向右偏移最大十个单位，设m＝10，在进行峰值增强和削弱操作时，设置k＝0.1，即在预设概率之下，质谱图的峰值强度增强和削弱不能超过最大峰值的10％。

本模型训练的batch size的大小为32，使用Adam优化器进行参数优化并且设置其初始学习率为0.001，之后根据验证集结果降低到0.0001。整个训练集共训练了120个epoches，每个批次大小为32，评价指标为平均绝对误差。

表1多模态数据模型的MAE对比

具体的实施步骤为：

(1)获取待预测分子的质谱图数据和图结构数据。从PubChem网站获取图结构信息以及实验数据，从HMDB数据库获取质谱图数据。

(2)利用数据增强方法增强数据真实性。如图3所示，(a)为HMDB中获得的分子质谱图的理论数据，对其进行数据增强，先添加随机噪声和高斯噪声得到(b)，再进行峰值偏移以及峰值强度随机变化得到(c)，使质谱数据更加接近实验真实数据。

(3)利用图神经网络和transformer结构提取两种模态的分子属性特征。图神经网络提取的是分子的图结构信息，transformer结构提取的是质谱图中的潜在分子属性信息

(4)利用特征融合模块实现多模态特征的信息融合，并根据融合后的特征对分子属性进行预测，得到预测属性的数值。

进一步地，将本实施例的基于质谱图和图结构的分子属性预测方法记为MT-GNN。为了证明本实施例提出的特征融合方法在提升分子属性预测准确率上的有效性，设置了三组实验为：仅使用图结构进行属性预测，使用的模型包括ene-s2s、GAT、GraphSage和SchNet；仅使用图谱数据进行属性预测，使用的模型包括XRD-CNN-1、XRD-CNN-2和Transformer；同时使用图谱数据和图结构，将两者融合构成MT-GNN模型。

表1的Transformer实验组首先进行了使用transformer结构进行分子属性预测的有效性验证，对模型的损失函数和误差进行对比，使用的两个对比模型是XRD-CNN-1和XRD-CNN-2，这两个模型均是以XRD图谱作为输入数据并输出晶体结构的晶系分类、空间群分类，修改其分类头为回归头进行实验，在数据预处理方面，XRD-CNN-1的输入数据为10001维的向量，XRD-CNN-2的输入为4501维的向量，为了尽量减少修改原模型，质谱图输入使用均匀添加噪声维度的方法将原输入向量扩充为对应模型的对应维度。图5展示了三个模型的MAE随着训练轮数的变化曲线，通过曲线可以发现，三个模型在处理图谱数据方面均有拟合能力且训练较为稳定，其中XRD-CNN-1和XRD-CNN-2两者在第30轮的时候已经收敛，而transformer在80轮的时候才开始收敛，并且收敛之后最小误差达到了0.26，比XRD-CNN-1低0.12，比XRD-CNN-2低0.1，表明transformer在图谱学习上的效果比使用单纯的使用一维卷积效果好，但是需要较长的训练时间，可以用来进行图谱信息的提取。

如表1所示，多个图神经网络添加到transformer模型之后，属性预测能力均提升了0.1到0.4左右的幅度，同时MT-GNN在多个图神经网络中获得最低的误差0.210，表明了结合图结构和图谱数据进行多模态特征融合的正确性。多模态融合确实在属性预测中起到了作用，但是存在一个问题，这样的提高幅度较小，并且是以多一个模态的数据大量数据处理为代价的。这样使得实验周期变长，这也是多模态数据融合需要考虑的关键因素之一。

综上，本实施例的方法将分子图谱数据特征与图结构特征相融合输入到网络模型中预测分子的属性。同时，为了更好的提升图神经网络的特征学习能力，引入了图谱数据进行特征学习并进行特征融合，提高了模型预测的准确率。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims

1.一种基于质谱图和图结构的分子属性预测方法，其特征在于，包括：

S1，获取待预测分子的质谱图数据和图结构数据；

S2，利用数据增强方法增强数据真实性以及扩充数据量；

2.如权利要求1所述的基于质谱图和图结构的分子属性预测方法，其特征在于，所述S1中，获取待预测分子的质谱图数据和图结构数据，包括：

3.如权利要求1所述的基于质谱图和图结构的分子属性预测方法，其特征在于，所述S2中，利用数据增强方法增强数据真实性以及扩充数据量，包括：

利用数据增强方法完善数据集，减少质谱图的实验数据与理论数据之间的差异性，增加数据的真实性。

4.如权利要求1所述的基于质谱图和图结构的分子属性预测方法，其特征在于，所述S3中，利用图神经网络和transformer结构提取两种模态的分子属性特征，包括：

5.如权利要求1所述的基于质谱图和图结构的分子属性预测方法，其特征在于，所述S4中，利用特征融合模块实现多模态特征的信息融合，并根据融合后的特征对分子属性进行预测，得到预测属性的数值，包括：

多模态数据学习可以实现材料属性的准确预测，模型中的特征融合模块可以实现多模态数据提取网络的信息融合，本模型在使用图谱的基础上融合图神经网络信息，可以实现特征的有效互补。

6.如权利要求1所述的基于质谱图和图结构的分子属性预测方法，其特征在于，所述S3中，图神经网络提取的是分子图结构中潜在分子属性信息，transformer结构提取的是质谱图中的潜在分子属性信息。