CN116705195A - 基于矢量量化的图神经网络的药物性质预测方法和装置 - Google Patents
基于矢量量化的图神经网络的药物性质预测方法和装置 Download PDFInfo
- Publication number
- CN116705195A CN116705195A CN202310673599.4A CN202310673599A CN116705195A CN 116705195 A CN116705195 A CN 116705195A CN 202310673599 A CN202310673599 A CN 202310673599A CN 116705195 A CN116705195 A CN 116705195A
- Authority
- CN
- China
- Prior art keywords
- graph
- drug
- original
- map
- drug molecule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 33
- 238000013139 quantization Methods 0.000 title claims abstract description 28
- 239000003814 drug Substances 0.000 claims abstract description 259
- 229940079593 drug Drugs 0.000 claims abstract description 230
- 238000010586 diagram Methods 0.000 claims abstract description 89
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 53
- 238000012545 processing Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000004071 biological effect Effects 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 5
- KBPLFHHGFOOTCA-UHFFFAOYSA-N 1-Octanol Chemical compound CCCCCCCCO KBPLFHHGFOOTCA-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 230000035495 ADMET Effects 0.000 description 1
- 238000010535 acyclic diene metathesis reaction Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 230000000144 pharmacologic effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/90—Programming languages; Computing architectures; Database systems; Data warehousing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Medicinal Chemistry (AREA)
- General Engineering & Computer Science (AREA)
- Crystallography & Structural Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Toxicology (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于矢量量化的图神经网络的药物性质预测方法,包括:获取药物分子原始图;构建图编码器,将药物分子原始图编码为隐变量特征;构建码本;计算各节点对应的隐变量特征与码本中各个向量的欧式距离,利用最近邻向量替换隐变量特征,得到矢量化的隐变量特征;构建图解码器,对矢量化的隐变量特征进行解码,得到药物分子增强图;构建药物分子原始图‑增强图实例对,将其对输入至药物分子图对比网络中,得到药物分子图实例对特征;构建损失函数,对药物分子增强图和药物分子图对比网络进行协同训练;将药物分子图进行图特征编码后得到的图特征输入至训练好的图对比网络进行预测,得到药物性质预测结果。
Description
技术领域
本发明主要涉及药物性质预测领域,具体涉及一种基于矢量量化的图神经网络的药物性质预测方法和装置。
背景技术
得益于图神经网络的快速发展及药物分子天然的图结构(以原子为节点,以化学键为边),以图数据为驱动的药物分子性质预测是加速药物研发的必然趋势。通过药物分子性质预测,可以对候选药物进行筛选,极大的减少药物研发的试错成本,缩短整个药物研发周期。图神经网络通过信息聚合机制和信息传递机制,对药物分子图中的每个节点进行特征更新,并最终聚合成整个药物分子图特征,从而进行药物分子性质预测。然而,当下的图神经网络进行药物分子性质预测时,存在以下的局限性:
(1)药物分子的真实性质数据量少,通常需要湿实验或由丰富药理学经验的专家标注获得,成本太高,这使得传统的有监督图神经网络效果不佳。
(2)现有的无监督图神经网络(如图对比网络),往往需要引入人为设计的训练策略,这使得无监督图神经网络的泛化能力差,对新的药物分子性质的预测准确率较低。
上述局限性使得图神经网络在药物分子性质预测上效果不佳,是以图数据为驱动的药物分子性质预测的巨大挑战。
因此,亟需提出一种药物性质预测方法来克服药物真实性质数据量少的问题,同时获取更准确的药物分子图表征,提高药物分子性质的预测准确率。
发明内容
针对现有技术不足,本发明提供了一种基于矢量量化的图神经网络的药物性质预测方法和装置。
根据本发明实施例的第一方面,提供了一种基于矢量量化的图神经网络的药物性质预测方法,所述方法包括:
获取药物分子原始图;
构建图编码器;
通过图编码器将药物分子原始图编码为隐变量特征;构建码本;计算药物分子原始图中各节点对应的隐变量特征与码本中各个向量的欧式距离,利用码本中的最近邻向量替换隐变量特征,得到矢量化的隐变量特征;构建图解码器,通过图解码器对矢量化的隐变量特征进行解码,重构得到药物分子增强图;
基于药物分子原始图和药物分子增强图构建药物分子原始图-增强图实例对;
构建药物分子图对比网络,将药物分子原始图-增强图实例对输入至药物分子图对比网络中,得到药物分子图实例对特征;
计算药物分子原始图和药物分子增强图之间的第一损失函数,通过药物分子图实例对特征计算药物分子图对比网络对应的第二损失函数,基于第一损失函数和第二损失函数对药物分子增强图和药物分子图对比网络进行协同训练;
将药物分子图进行图特征编码后得到的图特征输入至训练好的图对比网络进行预测,得到药物性质预测结果。
根据本发明实施例的第二方面,提供了一种基于矢量量化的图神经网络的药物性质预测装置,所述装置包括:存储模块、处理模块、预测模块;
存储模块包括:
药物分子原始图数据库,用于存储药物分子原始图;
药物分子增强图数据库,用于存储药物分子增强图;
处理模块包括:
药物分子原始图获取单元,用于从药物分子原始图数据库中或通过外部接口获取药物分子原始图;
药物分子增强图获取单元,用于通过图编码器将药物分子原始图编码为隐变量特征;构建码本;计算药物分子原始图中各节点对应的隐变量特征与码本中各个向量的欧式距离,利用码本中的最近邻向量替换隐变量特征,得到矢量化的隐变量特征;通过图解码器对矢量化的隐变量特征进行解码,重构得到药物分子增强图;
图实例对构建单元,基于药物分子原始图和药物分子增强图构建药物分子原始图-增强图实例对;
药物分子图对比网络单元,用于将药物分子原始图-增强图实例对转换为药物分子图实例对特征;
协同训练单元,计算药物分子原始图和药物分子增强图之间的第一损失函数,通过药物分子图实例对特征计算药物分子图对比网络对应的第二损失函数,基于第一损失函数和第二损失函数对药物分子增强图和药物分子图对比网络进行协同训练;
预测模块,用于将药物分子图进行图特征编码后得到的图特征输入至训练好的图对比网络进行预测,得到药物性质预测结果。
根据本发明实施例的第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的基于矢量量化的图神经网络的药物性质预测方法。
根据本发明实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的基于矢量量化的图神经网络的药物性质预测方法。
与现有技术相比,本发明的有益效果是:本发明提供了一种基于矢量量化的图神经网络的药物性质预测方法和装置。通过图编码器和码本对药物分子原始图进行数据增强,得到药物分子增强图,避免了人为设计的图增强方式所造成的泛化能力差的问题,并在数据增强的过程中引入了码本来将药物分子原始图的隐变量特征矢量化,避免了后验坍塌问题。其中,药物分子图对比网络中的图编码器与构建药物分子图增强网络过程中将药物分子原始图编码为隐变量特征的图编码器采用了同一个图编码器,这样可以更充分的提取药物分子图中的结构信息和语义信息,提高药物性质的预测准确率。计算药物分子原始图和药物分子增强图之间的第一损失函数,通过药物分子图实例对特征计算药物分子图对比网络对应的第二损失函数,将第一损失函数与第二损失函数之和作为整体损失函数对药物分子增强图和药物分子图对比网络进行协同训练,显著提高了药物分子图数据的特征提取效果,可以更好地对药物分子进行性质预测。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于矢量量化的图神经网络的药物性质预测方法的流程图;
图2为本发明实施例提供的药物分子增强图的示意图;
图3为本发明实施例提供的药物分子图对比网络的示意图;
图4为本发明实施例提供的基于矢量量化的图神经网络的药物性质预测装置的示意图;
图5为本发明实施例提供的一种电子设备的示意图。
具体实施例
下面根据附图详细说明本发明。但是应该理解,此处所描述的具体实施例仅用于解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明实施例提供了一种基于矢量量化的图神经网络的药物性质预测方法,
步骤S1,获取药物分子原始图。
进一步地,还包括:将药物分子原始图存储至药物分子原始图数据库中。
步骤S2,基于图同构网络构建图编码器。
进一步地,图同构网络的更新通过节点特征更新和边特征更新实现,表达式如下:
其中,节点特征更新方式如下:
其中,表示节点i在图同构网络中第k层的节点特征(/>表示节点i的初始特征),MLPr表示多层感知机,∈表示折扣系数,/>表示节点i在图同构网络中第k-1层的节点特征,
N(i)表示节点i的邻居节点集合,表示节点i和节点j之间的边在图同构网络中第k-1层的边特征(/>表示节点i和节点j之间的边的初始特征,可为空值),K表示图同构网络层数,在本实例中,设置K=3。
边特征更新方式如下:
其中,Sigmoid表示激活函数,"∥"表示Concat操作,和/>表示图同构网络参数。
步骤S3,通过图编码器将药物分子原始图编码为隐变量特征;构建码本;计算隐变量特征中各节点对应的隐变量子特征与码本中各个向量的欧式距离,利用码本中的最近邻向量替换隐变量子特征,得到矢量化的隐变量特征;构建图解码器,通过图解码器对矢量化的隐变量特征进行解码,重构得到药物分子增强图。
具体地,如图2所示,所述步骤S3具体包括以下子步骤:
步骤S301,通过图编码器将药物分子原始图G={V,E,H}编码为隐变量特征Z={z1,z2,…,zi,…,zN},Z∈RN×d。
式中,V表示节点集合(节点为原子),E表示边集合(边为化学键),H表示初始特征(初始特征为原子特征),zi表示各节点的隐变量特征,i=1,2,…N,N表示节点数量,d表示隐变量的特征维度,在本实例中,设置d=256。
需要说明的是,在对药物分子原始图进行编码的过程中,通过对药物分子原始图数据进行信息聚合、压缩,从而减少信息冗余,使得药物分子原始图映射到低维空间中。
步骤S302,构建码本,记为C={c1,c2,…,ck}。
步骤S303,将隐变量特征Z={z1,z2,…,zi,…,zN}中各节点对应的隐变量子特征zi与码本C={c1,c2,…,ck}中各个向量的欧式距离,利用码本C中的最近邻向量替换隐变量子特征,得到矢量化的隐变量特征表达式如下:
其中,Quantize表示量化函数,∥·∥2表示欧氏距离。
步骤S304,由全连接层和图重构层构建图解码器。
步骤S305,通过图解码器对矢量化的隐变量特征进行解码,依据矢量化的隐变量特征/>中的信息预测药物分子增强图G′中各个节点之间是否存在相应的边的概率重构得到药物分子增强图G′。表达式如下:
全连接层:
p(ei,j)=MLP(zi)T·MLP(zj)
图重构层:
Gi ′ ,j=ε(p(ei,j)-threshold)
其中,MLP(·)表示多层感知机,zi表示隐变量特征中第i个节点对应的隐变量子特征,zj表示隐变量特征中第j个节点对应的隐变量子特征,yhreshold表示图重构阈值,ε(t)表示单位阶跃函数,t=p(ei,j)-threshold。当ε(t)=1时,节点i和节点j之间存在边;当ε(t)=0时,节点i和节点j之间不存在边。
步骤S4,基于药物分子原始图和药物分子增强图构建药物分子原始图-增强图实例对;
获取药物分子原始图集合及其对应的药物分子增强图集合/>
对于药物分子原始图和药物分子增强图/>当i=j时,构建成正原始图-增强图实例对;而当i≠j时,则构建成负原始图-增强图实例对。
对每个药物分子图Gi都有相应的原始图-增强图实例对,其相应的集合表示为 当且仅当i=j时,(Gi,Gj ′)为图正例对。
步骤S5,构建药物分子图对比网络,将药物分子原始图-增强图实例对输入至药物分子图对比网络中,得到药物分子图实例对特征。
如图3所示,所述药物分子图对比网络包括图编码器和与其连接的信息映射层,其中,图编码器即步骤S2构建的图编码器。
将药物分子原始图-增强图实例对输入至图编码器中进行提取,得到药物分子原始图-增强图实例对的隐变量特征将隐变量特征输入至信息映射层中得到药物分子图实例对特征/>
表达式如下:
其中,N表示药物分子原始图-增强图实例对中对应的药物分子原始图中的节点数量,M表示药物分子原始图-增强图实例对中对应的药物分子增强图中的节点数量,i∈Gi表示药物分子原始图Gi中的所有节点i,j∈Gj ′表示药物分子增强图Gj ′中的所有节点j。
需要说明的是,药物分子图对比网络与构建药物分子图增强网络过程采用是同一个图编码器,可以更充分的提取药物分子图中的结构信息和语义信息,提高药物性质的预测准确率。
步骤S6,构建药物分子原始图G和药物分子增强图G′之间的第一损失函数,通过药物分子图实例对特征计算药物分子图对比网络对应的第二损失函数,基于第一损失函数和第二损失函数对药物分子增强图G′和药物分子图对比网络进行协同训练。
具体地,所述步骤S6包括以下子步骤:
步骤S601,构建药物分子原始图G和药物分子增强图G′之间的第一损失函数L(G,G′),表达式如下:
式中,sg(·)表示停止反向传播,β表示超参数。具体来说,为图重构损失,作用在图编码器和图解码器上;/>表示矢量量化损失,用于更新码本C;为传递损失,用来约束图编码器的输出。
步骤S602,通过药物分子图实例对特征计算药物分子图对比网络对应的第二损失函数/>
具体地,从步骤S5中得到药物分子图实例对特征并以此计算实例对内的相似性程度。对于药物分子原始图Gi,最大化与正实例Gi ′之间的相似性程度,同时减少与其他负实例之间相似性,依据药物分子图实例对内的相似性程度构建损失函数/>
其中,药物分子图实例对之间的相似性通过余弦相似度来衡量,损失函数的计算方式如下:
式中,表示药物分子图正实例对特征之间的余弦相似度,/>表示药物分子图负实例对特征之间的余弦相似度,τ表示温度控制参数。具体地,/>可以表示为:
步骤S603,基于第一损失函数和第二损失函数对药物分子增强图G′和药物分子图对比网络进行协同训练。
协同训练的损失函数的表达式如下:
步骤S7,将药物分子图进行图特征编码后得到的图特征输入至训练好的图对比网络进行预测,得到药物性质预测结果。
表达式如下:
HG=g(f(G))
Pred=Softmax(HG*W+b)
式中,g表示信息映射函数,f表示图编码器,G表示药物分子图,HG表示药物分子图特征,Softmax(·)表示激活函数,W和b表示训练好的图对比网络参数,Pred表示药物性质预测结果。
进一步地,所述药物性质预测结果包括药物生物性质预测结果(ADMET、毒性、副作用等)、药物物理化学性质预测结果(水溶性、极性表面积、生物利用度、辛醇溶解度、代谢稳定性等)和药物量子性质预测结果(原子坐标、能量和部分电荷)等。
如图4所示,本发明实施例还提供了一种基于矢量量化的图神经网络的药物性质预测装置,所述装置包括:存储模块、处理模块、预测模块;
存储模块包括:
药物分子原始图数据库,用于存储药物分子原始图;
药物分子增强图数据库,用于存储药物分子增强图;
处理模块包括:
药物分子原始图获取单元,用于从药物分子原始图数据库中或通过外部接口获取药物分子原始图;
药物分子增强图获取单元,用于通过图编码器将药物分子原始图编码为隐变量特征;构建码本;计算药物分子原始图中各节点对应的隐变量特征与码本中各个向量的欧式距离,利用码本中的最近邻向量替换隐变量特征,得到矢量化的隐变量特征;通过图解码器对矢量化的隐变量特征进行解码,重构得到药物分子增强图;
图实例对构建单元,基于药物分子原始图和药物分子增强图构建药物分子原始图-增强图实例对;
药物分子图对比网络单元,用于将药物分子原始图-增强图实例对转换为药物分子图实例对特征;
协同训练单元,计算药物分子原始图和药物分子增强图之间的第一损失函数,通过药物分子图实例对特征计算药物分子图对比网络对应的第二损失函数,基于第一损失函数和第二损失函数对药物分子增强图和药物分子图对比网络进行协同训练;
预测模块,用于将药物分子图进行图特征编码后得到的图特征输入至训练好的图对比网络进行预测,得到药物性质预测结果。
特别地,该装置在处理模块的输入端设置有输入控制接口,与输入接口相连,用来控制输入;在预测模块的输出端设置有输出控制接口,与外部接口相连,用来控制输出。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的基于矢量量化的图神经网络的药物性质预测方法。如图5所示,为本发明实施例提供的基于矢量量化的图神经网络的药物性质预测方法所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存以及网络接口之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
相应的,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述的基于矢量量化的图神经网络的药物性质预测方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
Claims (10)
1.一种基于矢量量化的图神经网络的药物性质预测方法,其特征在于,所述方法包括:
获取药物分子原始图;
构建图编码器;
通过图编码器将药物分子原始图编码为隐变量特征;构建码本;计算药物分子原始图中各节点对应的隐变量特征与码本中各个向量的欧式距离,利用码本中的最近邻向量替换隐变量特征,得到矢量化的隐变量特征;构建图解码器,通过图解码器对矢量化的隐变量特征进行解码,重构得到药物分子增强图;
基于药物分子原始图和药物分子增强图构建药物分子原始图-增强图实例对;
构建药物分子图对比网络,所述药物分子图对比网络包括图编码器和与其连接的信息映射层,将药物分子原始图-增强图实例对输入至图编码器中转化为对应的隐变量特征,再经信息映射层处理得到药物分子图实例对特征;
计算药物分子原始图和药物分子增强图之间的第一损失函数,通过药物分子图实例对特征计算药物分子图对比网络对应的第二损失函数,基于第一损失函数和第二损失函数对药物分子增强图和药物分子图对比网络进行协同训练;
将药物分子图进行图特征编码后得到的图特征输入至训练好的图对比网络进行预测,得到药物性质预测结果。
2.根据权利要求1所述的基于矢量量化的图神经网络的药物性质预测方法,其特征在于,构建码本;计算药物分子原始图中各节点对应的隐变量特征与码本中各个向量的欧式距离,利用码本中的最近邻向量替换隐变量特征,得到矢量化的隐变量特征包括:
记码本为C={c1,c2,…,ck};
将隐变量特征Z={z1,z2,…,zi,…,zN}中各节点对应的隐变量子特征zi与码本C={c1,c2,…,ck}中各个向量的欧式距离,利用码本C中的最近邻向量替换隐变量子特征,得到矢量化的隐变量特征表达式如下:
其中,Quantize表示量化函数,||·||2表示欧氏距离。
3.根据权利要求1所述的基于矢量量化的图神经网络的药物性质预测方法,其特征在于,构建图解码器,通过图解码器对矢量化的隐变量特征进行解码,重构得到药物分子增强图包括:
由全连接层和图重构层构建图解码器;
通过图解码器对矢量化的隐变量特征进行解码,依据矢量化的隐变量特征/>中的信息预测药物分子增强图G′中各个节点之间是否存在相应的边的概率重构得到药物分子增强图G′;表达式如下:
p(ei,j)=MLP(zi)T·MLP(zj)
G′i,j=ε(p(ei,j)-threshold)
其中,MLP(·)表示多层感知机,zi表示隐变量特征中第i个节点对应的隐变量子特征,zj表示隐变量特征中第j个节点对应的隐变量子特征,threshold表示图重构阈值,ε(t)表示单位阶跃函数,t=p(ei,j)-threshold;当ε(t)=1时,节点i和节点j之间存在边;当ε(t)=0时,节点i和节点j之间不存在边。
4.根据权利要求1所述的基于矢量量化的图神经网络的药物性质预测方法,其特征在于,基于药物分子原始图和药物分子增强图构建药物分子原始图-增强图实例对包括:
获取药物分子原始图集合及其对应的药物分子增强图集合/>
对于药物分子原始图和药物分子增强图/>当i=j时,构建成药物分子正原始图-增强图实例对;而当i≠j时,则构建成药物分子负原始图-增强图实例对。
5.根据权利要求1所述的基于矢量量化的图神经网络的药物性质预测方法,其特征在于,构建药物分子图对比网络,将药物分子原始图-增强图实例对输入至药物分子图对比网络中,得到药物分子图实例对特征包括:
将药物分子原始图-增强图实例对输入至图编码器中进行提取,得到药物分子原始图-增强图实例对的隐变量特征将隐变量特征输入至信息映射层中得到药物分子图实例对特征/>
表达式如下:
其中,N表示药物分子原始图-增强图实例对中对应的药物分子原始图中的节点数量,M表示药物分子原始图-增强图实例对中对应的药物分子增强图中的节点数量,i∈Gi表示药物分子原始图Gi中的所有节点i,j∈G′j表示药物分子增强图G′j中的所有节点。
6.根据权利要求1所述的基于矢量量化的图神经网络的药物性质预测方法,其特征在于,构建药物分子原始图和药物分子增强图之间的第一损失函数,通过药物分子图实例对特征计算药物分子图对比网络对应的第二损失函数,基于第一损失函数和第二损失函数对药物分子增强图和药物分子图对比网络进行协同训练包括:
计算药物分子原始图G和药物分子增强图G′之间的第一损失函数L(G,G′),表达式如下:
式中,sg(·)表示停止反向传播,β表示超参数,为图重构损失,/>表示矢量量化损失,/>为传递损失;
通过药物分子图实例对特征之间的相似性计算药物分子图对比网络对应的第二损失函数/>表达式如下:
式中,N表示药物分子图的节点数量,表示药物分子图正实例对特征之间的余弦相似度,/>表示药物分子图负实例对特征之间的余弦相似度,τ表示温度控制参数;
协同训练损失函数为第一损失函数和第二损失函数之和,基于协同训练损失函数对药物分子增强图和药物分子图对比网络进行协同训练。
7.根据权利要求1所述的基于矢量量化的图神经网络的药物性质预测方法,其特征在于,药物性质预测结果包括药物生物性质预测结果、药物物理化学性质预测结果、药物量子性质预测结果。
8.一种基于矢量量化的图神经网络的药物性质预测装置,其特征在于,所述装置包括:存储模块、处理模块、预测模块;
存储模块包括:
药物分子原始图数据库,用于存储药物分子原始图;
药物分子增强图数据库,用于存储药物分子增强图;
处理模块包括:
药物分子原始图获取单元,用于从药物分子原始图数据库中或通过外部接口获取药物分子原始图;
药物分子增强图获取单元,用于通过图编码器将药物分子原始图编码为隐变量特征;构建码本;计算药物分子原始图中各节点对应的隐变量特征与码本中各个向量的欧式距离,利用码本中的最近邻向量替换隐变量特征,得到矢量化的隐变量特征;通过图解码器对矢量化的隐变量特征进行解码,重构得到药物分子增强图;
图实例对构建单元,基于药物分子原始图和药物分子增强图构建药物分子原始图-增强图实例对;
药物分子图对比网络单元,用于将药物分子原始图-增强图实例对转换为药物分子图实例对特征;
协同训练单元,计算药物分子原始图和药物分子增强图之间的第一损失函数,通过药物分子图实例对特征计算药物分子图对比网络对应的第二损失函数,基于第一损失函数和第二损失函数对药物分子增强图和药物分子图对比网络进行协同训练;
预测模块,用于将药物分子图进行图特征编码后得到的图特征输入至训练好的图对比网络进行预测,得到药物性质预测结果。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述权利要求1-7任一项所述的基于矢量量化的图神经网络的药物性质预测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的基于矢量量化的图神经网络的药物性质预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310673599.4A CN116705195B (zh) | 2023-06-07 | 2023-06-07 | 基于矢量量化的图神经网络的药物性质预测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310673599.4A CN116705195B (zh) | 2023-06-07 | 2023-06-07 | 基于矢量量化的图神经网络的药物性质预测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116705195A true CN116705195A (zh) | 2023-09-05 |
CN116705195B CN116705195B (zh) | 2024-03-26 |
Family
ID=87830734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310673599.4A Active CN116705195B (zh) | 2023-06-07 | 2023-06-07 | 基于矢量量化的图神经网络的药物性质预测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116705195B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110970099A (zh) * | 2019-12-10 | 2020-04-07 | 北京大学 | 一种基于正则化变分自动编码器的药物分子生成方法 |
CN113707236A (zh) * | 2021-08-30 | 2021-11-26 | 平安科技(深圳)有限公司 | 基于图神经网络的药物小分子性质预测方法、装置及设备 |
CN114049541A (zh) * | 2021-08-27 | 2022-02-15 | 之江实验室 | 基于结构化信息特征解耦与知识迁移的视觉场景识别方法 |
CN114386694A (zh) * | 2022-01-11 | 2022-04-22 | 平安科技(深圳)有限公司 | 基于对比学习的药物分子性质预测方法、装置及设备 |
CN114496112A (zh) * | 2022-01-21 | 2022-05-13 | 内蒙古工业大学 | 一种基于多目标优化的抗乳腺癌药物成分智能量化方法 |
CN114974610A (zh) * | 2022-04-14 | 2022-08-30 | 湖南大学 | 基于图神经网络和自动编码器的抗癌药物敏感性预测方法 |
US20220318596A1 (en) * | 2021-03-31 | 2022-10-06 | Microsoft Technology Licensing, Llc | Learning Molecule Graphs Embedding Using Encoder-Decoder Architecture |
CN115859143A (zh) * | 2022-11-14 | 2023-03-28 | 之江实验室 | 基于邻域节点结构编码的图神经网络异常检测方法与装置 |
-
2023
- 2023-06-07 CN CN202310673599.4A patent/CN116705195B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110970099A (zh) * | 2019-12-10 | 2020-04-07 | 北京大学 | 一种基于正则化变分自动编码器的药物分子生成方法 |
US20220318596A1 (en) * | 2021-03-31 | 2022-10-06 | Microsoft Technology Licensing, Llc | Learning Molecule Graphs Embedding Using Encoder-Decoder Architecture |
CN114049541A (zh) * | 2021-08-27 | 2022-02-15 | 之江实验室 | 基于结构化信息特征解耦与知识迁移的视觉场景识别方法 |
CN113707236A (zh) * | 2021-08-30 | 2021-11-26 | 平安科技(深圳)有限公司 | 基于图神经网络的药物小分子性质预测方法、装置及设备 |
CN114386694A (zh) * | 2022-01-11 | 2022-04-22 | 平安科技(深圳)有限公司 | 基于对比学习的药物分子性质预测方法、装置及设备 |
CN114496112A (zh) * | 2022-01-21 | 2022-05-13 | 内蒙古工业大学 | 一种基于多目标优化的抗乳腺癌药物成分智能量化方法 |
CN114974610A (zh) * | 2022-04-14 | 2022-08-30 | 湖南大学 | 基于图神经网络和自动编码器的抗癌药物敏感性预测方法 |
CN115859143A (zh) * | 2022-11-14 | 2023-03-28 | 之江实验室 | 基于邻域节点结构编码的图神经网络异常检测方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116705195B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11468262B2 (en) | Deep network embedding with adversarial regularization | |
Chen et al. | Efficient approximation of deep relu networks for functions on low dimensional manifolds | |
US11393090B2 (en) | Online adaptation of neural networks | |
Ma et al. | Adaptive-step graph meta-learner for few-shot graph classification | |
Zhang et al. | Learning noise-aware encoder-decoder from noisy labels by alternating back-propagation for saliency detection | |
Kothari et al. | Trumpets: Injective flows for inference and inverse problems | |
CN110347932B (zh) | 一种基于深度学习的跨网络用户对齐方法 | |
WO2019157228A1 (en) | Systems and methods for training generative machine learning models | |
CN111724867B (zh) | 分子属性测定方法、装置、电子设备及存储介质 | |
CN110555881A (zh) | 一种基于卷积神经网络的视觉slam测试方法 | |
WO2018107414A1 (zh) | 压缩/解压缩神经网络模型的装置、设备和方法 | |
CN111210382B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN110674323A (zh) | 基于虚拟标签回归的无监督跨模态哈希检索方法及系统 | |
CN109741378A (zh) | 基于mrf模型的多模态医学图像配准方法、装置、平台及介质 | |
US10872087B2 (en) | Systems and methods for stochastic generative hashing | |
CN113257361B (zh) | 自适应蛋白质预测框架的实现方法、装置及设备 | |
Yu et al. | Toward faster and simpler matrix normalization via rank-1 update | |
CN116403730A (zh) | 一种基于图神经网络的药物相互作用预测方法及系统 | |
CN116188996A (zh) | 一种多尺度语义信息和边界信息的遥感图像语义分割方法 | |
CN111488498A (zh) | 基于图神经网络的“节点-图”跨层图匹配方法及系统 | |
CN112801138A (zh) | 基于人体拓扑结构对齐的多人姿态估计方法 | |
CN115424660A (zh) | 一种使用预测模型预测多源信息关系的方法、装置 | |
CN116450941A (zh) | 基于洛伦兹图卷积网络的书籍推荐方法及系统 | |
CN116010718A (zh) | 基于互信息解耦的公平个性化推荐方法、设备及存储介质 | |
CN113887698B (zh) | 基于图神经网络的整体知识蒸馏方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |