CN114724646A - 一种基于质谱图和图结构的分子属性预测方法 - Google Patents
一种基于质谱图和图结构的分子属性预测方法 Download PDFInfo
- Publication number
- CN114724646A CN114724646A CN202210483589.XA CN202210483589A CN114724646A CN 114724646 A CN114724646 A CN 114724646A CN 202210483589 A CN202210483589 A CN 202210483589A CN 114724646 A CN114724646 A CN 114724646A
- Authority
- CN
- China
- Prior art keywords
- data
- molecular
- graph
- information
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013528 artificial neural network Methods 0.000 claims abstract description 43
- 230000004927 fusion Effects 0.000 claims abstract description 28
- 238000000547 structure data Methods 0.000 claims abstract description 15
- 230000002708 enhancing effect Effects 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 27
- 239000000463 material Substances 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 12
- 238000001819 mass spectrum Methods 0.000 claims description 10
- 238000013075 data extraction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000005094 computer simulation Methods 0.000 description 2
- 239000013078 crystal Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003292 diminished effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于质谱图和图结构的分子属性预测方法,包括:S1,获取待预测分子的质谱图数据和图结构数据;S2,利用数据增强方法增强数据真实性以及扩充数据量;S3,利用图神经网络和transformer结构提取两种模态的分子属性特征;S4,利用特征融合模块实现多模态特征的信息融合,并根据融合后的特征对分子属性进行预测,得到预测属性的数值。本发明利用神经网络直接学习分子的质谱图信息,并将得到的特征和图结构特征进行融合,端到端地进行分子属性预测,两种模态数据信息互相补充,提升了分子属性预测的准确率,同时大大简化了前期的数据特征工程。
Description
技术领域
本发明涉及材料发和深度学习技术领域,特别涉及一种基于质谱图和图结构的分子属性预测方法。
背景技术
分子材料广泛应用于医疗卫生、食品、日常化工等领域。因此,加快新分子材料的发现对促进科学和社会的发展具有重要意义。目前,分子材料的研究非常耗时,需要大量的努力来确定一定的目标性质,优化分子的合成条件。理论高通量计算方法通常用于预测分子的性质。这种有合理解释的机制驱动的计算模型可以有效地加速新材料的发现。然而,机构驱动的计算模型是一个具有参数简化的理论模型。它忽略了材料缺陷、真实环境、设施、研究人员技能等因素的影响,而这些因素可能会导致预测的不准确。
近年来,大数据驱动的人工智能方法被广泛应用于计算机视觉、自然语言处理、医学和交通等领域。由于分子大数据的强大的非线性能力和可行性,基于机器学习和深度学习的材料特性预测受到了研究者的广泛关注。一种是基于描述符的机器学习预测,它需要找到与目标属性有很强相关性的描述符;另一种是基于图神经网络的端到端深度学习模型,它是一种利用分子图结构作为输入的神经网络,可以从分子图结构中提取抽象信息,映射到目标属性。然而,图神经网络与其他机器学习方法也存在同样的问题,即缺乏泛化,易于达到训练数据的极限,且当真实的分子被抽象为图结构时,它将失去部分三维结构信息和核外电子信息,这会导致对结果的预测不准确;而基于描述符的机器学习预测方法则需要在前期进行大量的特征工程工作。
图谱是材料领域经常出现的一种数据形式,它是通过微观粒子束、电磁波束等打到材料表面所产生的特定的响应,这样的相应包括电子、质子、粒子相应,通过捕捉这样的相应,可以判断材料的电子信息,原子信息以及结构信息,所以图谱被常常用来推测材料属性,并且和描述符不同的是,图谱不需要进行大量特征工程,图谱的识别主要是通过观察特征峰的位置关系和强度来判断材料的组成和结构。
因此,亟需一种基于质谱图和图结构的分子属性预测方法,利用神经网络直接学习分子的质谱图信息,并将得到的特征和图神经网络学习到的特征进行融合,进行分子属性预测,既能提升分子属性预测的准确率,又可以大大简化前期的数据特征工程。
发明内容
本发明提供了一种基于质谱图和图结构的分子属性预测方法,不仅能解决仅使用图神经网络进行材料属性预测性能较低的问题,而且能简化前期的特征工程。通过深度神经网络直接学习分子质谱图的潜在特征表示,通过图神经网络学习分子的图结构特征信息,并将质谱图特征和图结构特征进行融合,提升了分子属性预测的准确性。
为解决上述技术问题,本发明提供了如下技术方案:
一种基于质谱图和图结构的分子属性预测方法,包括:
S1,获取待预测分子的质谱图数据和图结构数据;
S2,利用数据增强方法增强数据真实性以及扩充数据量;
S3,利用图神经网络和transformer结构提取两种模态的分子属性特征;
S4,利用特征融合模块实现多模态特征的信息融合,并根据融合后的特征对分子属性进行预测,得到预测属性的数值。
进一步地,所述S1中,获取待预测分子的质谱图数据和图结构数据,包括:
每个分子的质谱图数据形式为一个长度固定的一维向量,图结构数据包括组成分子的原子特征矩阵、原子之间键的特征矩阵以及分子图结构的邻接矩阵。分子的图谱数据和图结构数据共同构成数据集。
进一步地,所述S2中,利用数据增强方法增强数据真实性和数据扩充,包括:
利用数据增强方法完善数据集,减少质谱图的实验数据与理论数据之间的差异性,增加数据的真实性。具体的数组增强方法如下:
添加噪声就是对图谱数据的每个位置添加一定的噪声,添加a到b的随机噪声和均值为μ方差为σ的高斯噪声,添加随机噪声的表达式如下:
y(x)=I(x)+random(a,b)
(1)
其中I(x)为图谱x位置的原强度,y(x)为添加噪声后的x位置的强度,random为随机函数。添加高斯噪声的表达式如下:
y(x)=I(x)+F(μ,σ) (2)
其中F(μ,σ)为高斯函数,表达式为:
峰值偏移是对明显的特征峰进行左右轻微偏移,此处设置两个随机数μ1和μ2,其中μ1为该峰值是否进行偏移,其取值范围为μ1∈[0,η]其中η∈[0,1],μ2为偏移数其取值范围为μ2∈[-m,m],m为偏移最大值,添加峰值偏移操作的表达式为:
exchange(y(x+μ2),y(x)) μ1∈[0,η]
(4)
其中为exchange表示两个值进行交换。
峰值增强和削弱操作和上面峰值偏移一些类似,设置一个随机数μ3,其中μ3决定该峰是否进行增强和削弱操作,其取值范围为μ3∈[0,θ]其中θ∈[0,1],设置一个随机数μ4,该随机数决定对峰值削弱或增强的幅度值,其取值范围为μ4∈[-kE,kE],其中E为该峰值的原始强度,k为峰增强或者减弱最大的峰值比例。峰值增强和削弱操作的表达式如下:
I(x)=I′(x)+μ4 μ3∈[0,θ] (5)
其中I′(x)为原始峰值强度。
进一步地,所述S3中,利用图神经网络和transformer结构提取两种模态的分子属性特征,包括:
构建图神经网络和transformer结构提取两种模态的分子属性特征,图神经网络提取的是分子的图结构信息,transformer结构提取的是质谱图中的潜在分子属性信息。
图神经网络可对分子中原子的邻据信息进行聚合,图神经网络中的注意力运算可以调整每个原子周围的邻据节点的权重。图神经网络的输入为三元组{V,E,A}的形式,其中,V表示组成分子的原子特征矩阵,E表示原子之间键的特征矩阵,A表示分子图结构的邻接矩阵。图卷积神经网络将图结构的邻接矩阵引入到卷积计算中,构造了消息传递和更新函数,公式如下:
在使用transformer进行图谱的特征学习之前,需要对分子图谱进行划分。将分子的质谱图视作长为L的一维向量,后将此向量均匀划分为等长的N个向量,构成transformer的输入序列,每个向量的长度P为L/N,然后进行输入序列的位置嵌入,使用一组可学习的向量序列和输入序列进行相加构成具有位置嵌入的输入序列,公式如下:
X=[p0+z0;p1+z1;...;pN+zN]
(8)
其中,X为输入序列矩阵,p1为位置嵌入向量,是模型可学习参数,其维度为P,z0为回归向量,用于进行模型最终的回归输出,z1到zN为图谱段嵌入向量,维度均为P。
将具有位置信息的输入序列输入transformer结构进行分子属性的特征学习,采用transformer的编码器部分,进行输入序列的自注意力运算,自注意力运算方法如下:
Output=Attention(Q,K,V) (9)
Q=Wq·Input (10)
K=Wk·Input (11)
V=Wv·Input (12)
其中Input表示网络的输入,Output表示网络的输出,Wq、Wk、Wv为网络的可学习参数矩阵,Q、K、V是由输出序列得到的、进行注意力运算的矩阵。
进一步地,所述S4中,利用特征融合模块实现多模态特征的信息融合,并根据融合后的特征对分子属性进行预测,得到预测属性的数值,包括:
多模态数据学习可以实现材料属性的准确预测,模型中的特征融合模块可以实现多模态数据提取网络的信息融合,本模型在使用图谱的基础上融合图神经网络信息,可以实现特征的有效互补。特征融合模块的表达式如下:
X=concat(Xspec,Xgraph)
(14)
y=MLP(X)
(15)
其中Xspec为transformer提取的特征,其维度为Dspec,Xgraph为图神经网络提取的特征,其维度为Dgraph,X为融合后的特征,其维度为Dspec+Dgraph,多层感知机MLP使用GELU激活函数做非线性映射。通过MLP之后得到模型的输出,利用该输出向量可对分子的属性进行预测。
进一步地,所述S3中,图神经网络提取的是分子图结构中潜在分子属性信息,transformer结构提取的是质谱图中的潜在分子属性信息。
本发明提供的技术方案带来的有益效果至少包括:
本发明的上述技术方案提供了待预测分子的质谱图数据和图结构数据的获取方法;利用数据增强方法增强数据真实性以及扩充数据量;利用图神经网络和transformer结构提取两种模态的分子属性特征;利用特征融合模块实现多模态特征的信息融合,并根据融合后的特征对分子属性进行预测,得到预测属性的数值;利用神经网络直接学习分子的质谱图信息,并将得到的特征和图结构特征进行融合,端到端地进行分子属性预测,提升了分子属性预测的准确率,大大简化了前期的数据特征工程。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于质谱图和图结构的分子属性预测方法的执行流程示意图;
图2是本发明实施例提供的基于质谱图和图结构的分子属性预测方法整体的网络结构示意图;
图3是本发明实施例提供的分子质谱图采用数据增强后的结果示意图;
图4是本发明实施例提供的自注意力机制示意图;
图5是本发明实施例提供的transformer模型有效性评估示意图;
图6是本发明实施例提供的图神经网络模型示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
如图1所示,本发明实施例提供了一种基于质谱图和图结构的分子属性预测方法,该方法包括:
S1,获取待预测分子的质谱图数据和图结构数据;
需要说明的是,由于分子图结构数据通常只包含分子的结构化特征,特征不够丰富,对分子的图谱数据进行特征提取后,可以很好的对分子的三维结构信息进行补充。因此,本实例为了解决单一图结构特征的局限性、提高属性预测的准确率,对图谱数据的潜在特征进行学习。
S2,利用数据增强方法增强数据真实性以及扩充数据量;
需要说明的是,本实施例是通过分析分子图谱的实验数据和理论数据之间的差异性,对原始的理论数据进行特征增强,使其接近实验真实数据。具体地,使用添加噪声、峰值偏移、峰值增强和削弱方法进行数据增强,得到用于模型训练的图谱数据集。具体的数组增强方法如下:
添加噪声就是对图谱数据的每个位置添加一定的噪声,添加a到b的随机噪声和均值为μ方差为σ的高斯噪声,添加随机噪声的表达式如下:
y(x)=I(x)+random(a,b)
(1)其中I(x)为图谱x位置的原强度,y(x)为添加噪声后的x位置的强度,random为随机函数。添加高斯噪声的表达式如下:
y(x)=I(x)+F(μ,σ) (2)
其中F(μ,σ)为高斯函数,表达式为:
峰值偏移是对明显的特征峰进行左右轻微偏移,此处设置两个随机数μ1和μ2,其中μ1为该峰值是否进行偏移,其取值范围为μ1∈[0,η]
其中η∈[0,1],μ2为偏移数其取值范围为μ2∈[-m,m],m为偏移最大值,添加峰值偏移操作的表达式为:
exchange(y(x+μ2),y(x)) μ1∈[0,η]
(4)
其中为exchange表示两个值进行交换。
峰值增强和削弱操作和上面峰值偏移一些类似,设置一个随机数μ3,其中μ3决定该峰是否进行增强和削弱操作,其取值范围为μ3∈[0,θ]其中θ∈[0,1],设置一个随机数μ4,该随机数决定对峰值削弱或增强的幅度值,其取值范围为μ4∈[-kE,kE],其中E为该峰值的原始强度,k为峰增强或者减弱最大的峰值比例。峰值增强和削弱操作的表达式如下:
I(x)=Iμ1(x)+μ4 μ3∈[0,θ] (5)
其中I′(x)为原始峰值强度。
S3,利用图神经网络和transformer结构提取两种模态的分子属性特征;其中,图神经网络提取的是分子图结构中潜在分子属性信息,transformer结构提取的是质谱图中的潜在分子属性信息;
具体地,在本实施例中,得到分子属性特征信息的方式为:图神经网络对分子中原子的邻据信息进行聚合,得到分子属性的预测向量;transformer结构将分子图谱进行划分,得到等长的N个向量,构成transformer的输入序列,然后进行输入序列的位置嵌入,使用一组可学习的向量序列和输入序列进行相加构成具有位置嵌入的输入序列,然后送transformer网络进行自注意力的运算,学习分子图谱潜在的特征信息,得到分子属性的预测向量。图神经网络可对分子中原子的邻居信息进行聚合,图神经网络中的注意力运算可以调整每个原子周围的邻居节点的权重。图神经网络的输入为三元组{V,E,A}的形式,其中,V表示组成分子的原子特征矩阵,E表示原子之间键的特征矩阵,A表示分子图结构的邻接矩阵。图卷积神经网络将图结构的邻接矩阵引入到卷积计算中,构造了消息传递和更新函数,公式如下:
在使用transformer进行图谱的特征学习之前,需要对分子图谱进行划分。将分子的质谱图视作长为L的一维向量,后将此向量均匀划分为等长的N个向量,构成transformer的输入序列,每个向量的长度P为L/N,然后进行输入序列的位置嵌入,使用一组可学习的向量序列和输入序列进行相加构成具有位置嵌入的输入序列,公式如下:
X=[p0+z0;p1+z1;...;pN+zN]
(8)
其中,X为输入序列矩阵,p1为位置嵌入向量,是模型可学习参数,其维度为P,z0为回归向量,用于进行模型最终的回归输出,z1到zN为图谱段嵌入向量,维度均为P。
将具有位置信息的输入序列输入transformer结构进行分子属性的特征学习,采用transformer的编码器部分,进行输入序列的自注意力运算,自注意力运算方法如下:
Output=Attention(Q,K,V) (9)
Q=Wq·Input (10)
K=Wk·Input (11)
V=Wv·Input (12)
其中Input表示网络的输入,Output表示网络的输出,Wq、Wk、Wv为网络的可学习参数矩阵,Q、K、V是由输出序列得到的、进行注意力运算的矩阵。
S4,利用特征融合模块实现多模态特征的信息融合,并根据融合后的特征对分子属性进行预测,得到预测属性的数值;
具体地,在本实施例中,得到多模态融合特征信息地方式为:将图神经网络和transformer得到的预测向量,按照相同的维度对特征进行拼接,并使用全连接层和非线性激活函数来更好的融合特征,实现特征的有效互补。最后得到经过特征融合的分子属性预测向量。特征融合模块的表达式如下:
X=concat(Xspec,Xgraph)
(14)
y=MLP(X)
(15)
其中Xspec为transformer提取的特征,其维度为Dspec,Xgraph为图神经网络提取的特征,其维度为Dgraph,X为融合后的特征,其维度为Dspec+Dgraph,多层感知机MLP使用GELU激活函数做非线性映射。通过MLP之后得到模型的输出,利用该输出向量可对分子的属性进行预测。
进一步地,本实施例的基于质谱图和图结构的分子属性预测方法所采用的网络模型的网络结构如图2所示。
实施例一
在本实施例中,使用分子图结构数据和图谱数据验证基于质谱图和图结构的分子属性预测方法的效果。
通过PubChem网站提供的api接口获取具有图结构数据和实验数据的json文件,其中图结构数据包括原子的属性和键的属性。通过HMDB开源数据库获取分子质谱图数据。分子图谱数据维度按照数据集最大质荷比设置为2000维,即每个图谱数据为一个2000维的向量,在数据增强的过程中,随机噪声a=0,b=1,使用均值为0,方差为1的高斯函数进行噪声添加,即μ=0,σ=1,并将添加噪声之后取值小于0的部分取绝对值。在进行峰值偏移时,设置偏移的最大范围为10个偏移单位,即峰值按照概率向左或者向右偏移最大十个单位,设m=10,在进行峰值增强和削弱操作时,设置k=0.1,即在预设概率之下,质谱图的峰值强度增强和削弱不能超过最大峰值的10%。
本模型训练的batch size的大小为32,使用Adam优化器进行参数优化并且设置其初始学习率为0.001,之后根据验证集结果降低到0.0001。整个训练集共训练了120个epoches,每个批次大小为32,评价指标为平均绝对误差。
表1多模态数据模型的MAE对比
具体的实施步骤为:
(1)获取待预测分子的质谱图数据和图结构数据。从PubChem网站获取图结构信息以及实验数据,从HMDB数据库获取质谱图数据。
(2)利用数据增强方法增强数据真实性。如图3所示,(a)为HMDB中获得的分子质谱图的理论数据,对其进行数据增强,先添加随机噪声和高斯噪声得到(b),再进行峰值偏移以及峰值强度随机变化得到(c),使质谱数据更加接近实验真实数据。
(3)利用图神经网络和transformer结构提取两种模态的分子属性特征。图神经网络提取的是分子的图结构信息,transformer结构提取的是质谱图中的潜在分子属性信息
(4)利用特征融合模块实现多模态特征的信息融合,并根据融合后的特征对分子属性进行预测,得到预测属性的数值。
进一步地,将本实施例的基于质谱图和图结构的分子属性预测方法记为MT-GNN。为了证明本实施例提出的特征融合方法在提升分子属性预测准确率上的有效性,设置了三组实验为:仅使用图结构进行属性预测,使用的模型包括ene-s2s、GAT、GraphSage和SchNet;仅使用图谱数据进行属性预测,使用的模型包括XRD-CNN-1、XRD-CNN-2和Transformer;同时使用图谱数据和图结构,将两者融合构成MT-GNN模型。
表1的Transformer实验组首先进行了使用transformer结构进行分子属性预测的有效性验证,对模型的损失函数和误差进行对比,使用的两个对比模型是XRD-CNN-1和XRD-CNN-2,这两个模型均是以XRD图谱作为输入数据并输出晶体结构的晶系分类、空间群分类,修改其分类头为回归头进行实验,在数据预处理方面,XRD-CNN-1的输入数据为10001维的向量,XRD-CNN-2的输入为4501维的向量,为了尽量减少修改原模型,质谱图输入使用均匀添加噪声维度的方法将原输入向量扩充为对应模型的对应维度。图5展示了三个模型的MAE随着训练轮数的变化曲线,通过曲线可以发现,三个模型在处理图谱数据方面均有拟合能力且训练较为稳定,其中XRD-CNN-1和XRD-CNN-2两者在第30轮的时候已经收敛,而transformer在80轮的时候才开始收敛,并且收敛之后最小误差达到了0.26,比XRD-CNN-1低0.12,比XRD-CNN-2低0.1,表明transformer在图谱学习上的效果比使用单纯的使用一维卷积效果好,但是需要较长的训练时间,可以用来进行图谱信息的提取。
如表1所示,多个图神经网络添加到transformer模型之后,属性预测能力均提升了0.1到0.4左右的幅度,同时MT-GNN在多个图神经网络中获得最低的误差0.210,表明了结合图结构和图谱数据进行多模态特征融合的正确性。多模态融合确实在属性预测中起到了作用,但是存在一个问题,这样的提高幅度较小,并且是以多一个模态的数据大量数据处理为代价的。这样使得实验周期变长,这也是多模态数据融合需要考虑的关键因素之一。
综上,本实施例的方法将分子图谱数据特征与图结构特征相融合输入到网络模型中预测分子的属性。同时,为了更好的提升图神经网络的特征学习能力,引入了图谱数据进行特征学习并进行特征融合,提高了模型预测的准确率。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
Claims (6)
1.一种基于质谱图和图结构的分子属性预测方法,其特征在于,包括:
S1,获取待预测分子的质谱图数据和图结构数据;
S2,利用数据增强方法增强数据真实性以及扩充数据量;
S3,利用图神经网络和transformer结构提取两种模态的分子属性特征;
S4,利用特征融合模块实现多模态特征的信息融合,并根据融合后的特征对分子属性进行预测,得到预测属性的数值。
2.如权利要求1所述的基于质谱图和图结构的分子属性预测方法,其特征在于,所述S1中,获取待预测分子的质谱图数据和图结构数据,包括:
每个分子的质谱图数据形式为一个长度固定的一维向量,图结构数据包括组成分子的原子特征矩阵、原子之间键的特征矩阵以及分子图结构的邻接矩阵。分子的图谱数据和图结构数据共同构成数据集。
3.如权利要求1所述的基于质谱图和图结构的分子属性预测方法,其特征在于,所述S2中,利用数据增强方法增强数据真实性以及扩充数据量,包括:
利用数据增强方法完善数据集,减少质谱图的实验数据与理论数据之间的差异性,增加数据的真实性。
4.如权利要求1所述的基于质谱图和图结构的分子属性预测方法,其特征在于,所述S3中,利用图神经网络和transformer结构提取两种模态的分子属性特征,包括:
构建图神经网络和transformer结构提取两种模态的分子属性特征,图神经网络提取的是分子的图结构信息,transformer结构提取的是质谱图中的潜在分子属性信息。
5.如权利要求1所述的基于质谱图和图结构的分子属性预测方法,其特征在于,所述S4中,利用特征融合模块实现多模态特征的信息融合,并根据融合后的特征对分子属性进行预测,得到预测属性的数值,包括:
多模态数据学习可以实现材料属性的准确预测,模型中的特征融合模块可以实现多模态数据提取网络的信息融合,本模型在使用图谱的基础上融合图神经网络信息,可以实现特征的有效互补。
6.如权利要求1所述的基于质谱图和图结构的分子属性预测方法,其特征在于,所述S3中,图神经网络提取的是分子图结构中潜在分子属性信息,transformer结构提取的是质谱图中的潜在分子属性信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210483589.XA CN114724646B (zh) | 2022-05-05 | 2022-05-05 | 一种基于质谱图和图结构的分子属性预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210483589.XA CN114724646B (zh) | 2022-05-05 | 2022-05-05 | 一种基于质谱图和图结构的分子属性预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114724646A true CN114724646A (zh) | 2022-07-08 |
CN114724646B CN114724646B (zh) | 2023-06-02 |
Family
ID=82231564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210483589.XA Active CN114724646B (zh) | 2022-05-05 | 2022-05-05 | 一种基于质谱图和图结构的分子属性预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114724646B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5959297A (en) * | 1996-10-09 | 1999-09-28 | Symyx Technologies | Mass spectrometers and methods for rapid screening of libraries of different materials |
US20130171677A1 (en) * | 2010-09-08 | 2013-07-04 | Board Of Supervisors Of The University Of Louisiana System | Recombinant phycobiliproteins with enhanced fluorescence and photochemical properties |
CN110320303A (zh) * | 2019-08-09 | 2019-10-11 | 东北大学 | 一种基于uplc-ms的土壤渗滤系统代谢组学分析方法 |
CN111081259A (zh) * | 2019-12-18 | 2020-04-28 | 苏州思必驰信息科技有限公司 | 基于说话人扩充的语音识别模型训练方法及系统 |
CN112255511A (zh) * | 2020-09-25 | 2021-01-22 | 广西大学 | 基于多元溶解化学特征参量的变压器纸绝缘老化评估方法 |
CN112288091A (zh) * | 2020-10-30 | 2021-01-29 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 基于多模态知识图谱的知识推理方法 |
WO2021091883A1 (en) * | 2019-11-04 | 2021-05-14 | The University Of Chicago | Deep imitation learning for molecular inverse problems |
CN113066537A (zh) * | 2021-04-19 | 2021-07-02 | 山西大学 | 基于图神经网络的化合物分类方法 |
CN113257369A (zh) * | 2021-05-18 | 2021-08-13 | 南京邮电大学 | 一种基于多任务图神经网络的分子毒性预测方法和装置 |
CN113362899A (zh) * | 2021-04-20 | 2021-09-07 | 厦门大学 | 一种基于深度学习的蛋白质质谱数据的分析方法及系统 |
CN113707235A (zh) * | 2021-08-30 | 2021-11-26 | 平安科技(深圳)有限公司 | 基于自监督学习的药物小分子性质预测方法、装置及设备 |
CN113707214A (zh) * | 2021-08-31 | 2021-11-26 | 平安科技(深圳)有限公司 | 代谢物标记方法、装置、计算机设备及存储介质 |
CN113948157A (zh) * | 2020-07-16 | 2022-01-18 | 腾讯科技(深圳)有限公司 | 化学反应分类方法、装置、电子设备及存储介质 |
-
2022
- 2022-05-05 CN CN202210483589.XA patent/CN114724646B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5959297A (en) * | 1996-10-09 | 1999-09-28 | Symyx Technologies | Mass spectrometers and methods for rapid screening of libraries of different materials |
US20130171677A1 (en) * | 2010-09-08 | 2013-07-04 | Board Of Supervisors Of The University Of Louisiana System | Recombinant phycobiliproteins with enhanced fluorescence and photochemical properties |
CN110320303A (zh) * | 2019-08-09 | 2019-10-11 | 东北大学 | 一种基于uplc-ms的土壤渗滤系统代谢组学分析方法 |
WO2021091883A1 (en) * | 2019-11-04 | 2021-05-14 | The University Of Chicago | Deep imitation learning for molecular inverse problems |
CN111081259A (zh) * | 2019-12-18 | 2020-04-28 | 苏州思必驰信息科技有限公司 | 基于说话人扩充的语音识别模型训练方法及系统 |
CN113948157A (zh) * | 2020-07-16 | 2022-01-18 | 腾讯科技(深圳)有限公司 | 化学反应分类方法、装置、电子设备及存储介质 |
CN112255511A (zh) * | 2020-09-25 | 2021-01-22 | 广西大学 | 基于多元溶解化学特征参量的变压器纸绝缘老化评估方法 |
CN112288091A (zh) * | 2020-10-30 | 2021-01-29 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 基于多模态知识图谱的知识推理方法 |
CN113066537A (zh) * | 2021-04-19 | 2021-07-02 | 山西大学 | 基于图神经网络的化合物分类方法 |
CN113362899A (zh) * | 2021-04-20 | 2021-09-07 | 厦门大学 | 一种基于深度学习的蛋白质质谱数据的分析方法及系统 |
CN113257369A (zh) * | 2021-05-18 | 2021-08-13 | 南京邮电大学 | 一种基于多任务图神经网络的分子毒性预测方法和装置 |
CN113707235A (zh) * | 2021-08-30 | 2021-11-26 | 平安科技(深圳)有限公司 | 基于自监督学习的药物小分子性质预测方法、装置及设备 |
CN113707214A (zh) * | 2021-08-31 | 2021-11-26 | 平安科技(深圳)有限公司 | 代谢物标记方法、装置、计算机设备及存储介质 |
Non-Patent Citations (9)
Title |
---|
ADITYA DIVYAKANT SHRIVASTAVA等: "MassGenie: A Transformer-Based Deep Learning Method for Identifying Small Molecules from Their Mass Spectra", 《BIOMOLECULES》 * |
ADITYA DIVYAKANT SHRIVASTAVA等: "MassGenie: A Transformer-Based Deep Learning Method for Identifying Small Molecules from Their Mass Spectra", 《BIOMOLECULES》, vol. 11, no. 12, 30 November 2021 (2021-11-30), pages 1 - 23 * |
DEVIN KREUZER等: "Rethinking Graph Transformers with Spectral Attention", 《ARXIV:2106.03893》, pages 1 - 18 * |
JINHUA ZHU等: "Dual-view molecule pre-training", ARXIV:2106.10234, pages 1 - 15 * |
PEILIANG ZHANG等: "DeepMGT-DTI:Transformer network incorporating multilayer graph information for Drug-Target interaction prediction", 《COMPUTERS IN BIOLOGY AND MEDICINE》 * |
PEILIANG ZHANG等: "DeepMGT-DTI:Transformer network incorporating multilayer graph information for Drug-Target interaction prediction", 《COMPUTERS IN BIOLOGY AND MEDICINE》, vol. 142, 31 March 2022 (2022-03-31), pages 1 - 10 * |
吕嘉玮等: "一种轻小型四极杆质谱仪射频电源的研制", 《质谱学报》, vol. 41, no. 06, pages 547 - 555 * |
张宝杰等: "基于分子嵌入的电离质谱预测研究", 《真空科学与技术学报》 * |
张宝杰等: "基于分子嵌入的电离质谱预测研究", 《真空科学与技术学报》, vol. 42, no. 03, 28 January 2022 (2022-01-28), pages 165 - 169 * |
Also Published As
Publication number | Publication date |
---|---|
CN114724646B (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113744799B (zh) | 一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法 | |
CN111223532B (zh) | 确定目标化合物的反应物的方法、设备、装置、介质 | |
WO2020211611A1 (zh) | 用于语言处理的循环神经网络中隐状态的生成方法和装置 | |
CN111429977B (zh) | 一种新的基于图结构注意力的分子相似性搜索算法 | |
CN115862751B (zh) | 基于边特征更新聚合注意力机制的量子化学性质计算方法 | |
CN113257357B (zh) | 蛋白质残基接触图预测方法 | |
CN117524353B (zh) | 一种基于多维度分子信息的分子大模型、构建方法及应用 | |
Zheng et al. | Ddpnas: Efficient neural architecture search via dynamic distribution pruning | |
CN112270950A (zh) | 一种基于网络增强和图正则的融合网络药物靶标关系预测方法 | |
Equer et al. | Multi-scale message passing neural pde solvers | |
Trask et al. | Probabilistic partition of unity networks: clustering based deep approximation | |
Shi et al. | An immunity-based time series prediction approach and its application for network security situation | |
CN112529057A (zh) | 一种基于图卷积网络的图相似性计算方法及装置 | |
Xu et al. | Multi-level self-adaptive prototypical networks for few-shot node classification on attributed networks | |
CN114724646B (zh) | 一种基于质谱图和图结构的分子属性预测方法 | |
CN116978450A (zh) | 蛋白质数据的处理方法、装置、电子设备及存储介质 | |
CN116580782A (zh) | 一种基于混合关系网络的小样本分子性质预测方法 | |
CN110866838A (zh) | 基于转移概率预处理的网络表示学习算法 | |
CN115525697A (zh) | 一种基于中药生产数据挖掘的工艺优化方法 | |
CN116486896A (zh) | 基于域自适应和图网络的配体特异性结合残基预测方法 | |
CN115458046A (zh) | 基于并行式深层细粒度模型预测药物靶标结合性的方法 | |
CN114783507A (zh) | 基于二级结构特征编码的药物-蛋白亲和力预测方法及装置 | |
Zhang et al. | Drug-Target Interaction Prediction Based on Knowledge Graph Embedding and BiLSTM Networks | |
CN115881220B (zh) | 一种抗体结构预测的处理方法和装置 | |
CN114742133A (zh) | 基于迭代深度图学习的网络对齐方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |