CN117095741B - 基于图自注意力的微生物-药物关联预测方法 - Google Patents
基于图自注意力的微生物-药物关联预测方法 Download PDFInfo
- Publication number
- CN117095741B CN117095741B CN202311355262.5A CN202311355262A CN117095741B CN 117095741 B CN117095741 B CN 117095741B CN 202311355262 A CN202311355262 A CN 202311355262A CN 117095741 B CN117095741 B CN 117095741B
- Authority
- CN
- China
- Prior art keywords
- node
- matrix
- microorganism
- drug
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000003814 drug Substances 0.000 title claims abstract description 151
- 229940079593 drug Drugs 0.000 title claims abstract description 125
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000008447 perception Effects 0.000 claims abstract description 6
- 238000012847 principal component analysis method Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 111
- 244000005700 microbiome Species 0.000 claims description 93
- 230000006870 function Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 230000000813 microbial effect Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 5
- 230000002906 microbiologic effect Effects 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 238000002790 cross-validation Methods 0.000 description 4
- 230000008406 drug-drug interaction Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241000894006 Bacteria Species 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000009545 invasion Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010059866 Drug resistance Diseases 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012258 culturing Methods 0.000 description 1
- 208000002925 dental caries Diseases 0.000 description 1
- 210000003074 dental pulp Anatomy 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003239 periodontal effect Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Biotechnology (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明属于生物信息学技术领域,具体涉及一种基于图自注意力的微生物‑药物关联预测方法,本发明使用主成分分析方法对微生物以及药物的综合相似性矩阵进行降维和特征提取,得到微生物和药物的特征矩阵,并建立微生物‑药物异构网络,然后输入到结构感知Transformer模型中,通过结构提取器获取节点局部信息并更新生成节点属性,然后通过结构感知自注意力计算注意力分数融合得到微生物嵌入和药物嵌入,最后通过多层感知机将微生物嵌入和药物嵌入连接起来,并得到最终的关联预测分数。本发明使用主成分分析方法降维,并通过结构感知自注意力改进Transformer,可提高微生物‑药物关联预测的准确性。
Description
技术领域
本发明涉及生物信息学技术领域,更具体地,涉及一种基于图自注意力的微生物-药物关联预测方法。
背景技术
微生物包含有细菌、真菌和病毒等,微生物对于人体的健康起着至关重要的作用,微生物的入侵会导致人体疾病出现,例如细菌入侵龋齿的开放空腔会导致人体牙髓和牙根周感染。近年来,随着医学领域研究药物种类的增加,微生物的耐药性越来越强。制药行业的研究涉及在温室条件下培养一些微生物物种,然后将其用于药物。然而,这个过程通常会耗费很多时间和金钱,迫切需要新的预测方法来发现微生物和药物之间的潜在关系。现有预测方法大概可以分为三类:基于路径的方法、基于随机游走的方法、和基于矩阵分解的方法,随着研究发展,图Transformer的预测方法也逐渐被人们重视,应用更加广泛。
发明内容
针对目前微生物和药物的潜在关联预测方法构建邻接矩阵稀疏导致特征不明显以及表达能力有限的问题,本发明提供一种基于图自注意力的微生物-药物关联预测方法,引入结构感知自注意力,扩充了从图结构中学习的信息量,并再此之前,使用主成分分析方法进行了特征提取,从而解决特征不明显和表达能力有限的问题,进一步提高微生物-药物关联预测的准确性。
为解决上述技术问题,本发明的技术方案如下:一种基于图自注意力的微生物-药物关联预测方法,包括步骤:
S1:计算药物的结构相似性和药物的高斯核相似性,并取二者平均值得到药物的综合相似性,各药物两两之间的综合相似性组成药物的综合相似性矩阵;计算微生物的功能相似性和微生物的高斯核相似性,取二者平均值得到微生物的综合相似性,各微生物两两之间的综合相似性组成微生物的综合相似性矩阵;
S2:使用主成分分析方法对微生物以及药物的综合相似性矩阵进行降维和特征提取,得到微生物特征矩阵和药物特征矩阵,组成微生物和药物的特征矩阵,并建立微生物-药物异构网络;
S3:将微生物-药物异构网络、微生物和药物的特征矩阵输入到结构感知Transformer模型中,结构感知Transformer模型包括结构提取器和结构感知Transformer层(结构感知图自注意力层),结构感知Transformer层由结构感知自注意力模块和多层感知机组成,通过结构提取器获取节点局部信息并更新生成节点属性,然后通过结构感知自注意力计算注意力分数融合得到微生物嵌入和药物嵌入,最后通过多层感知机将微生物嵌入和药物嵌入连接起来,并得到最终的关联预测分数;
将图称为,B为节点的集合,与微生物和药物的种类数量对应,微生物节点数量为/>,药物节点数量为/>;其中节点/>的节点属性由/>表示,并且对于具有多个节点的图,所有节点的节点属性存储在微生物和药物的特征矩阵中;所述结构提取器是k-子图GCN提取器,使用k-子图GCN提取器对图G进行提取,然后将提取的结果输入结构感知Transformer层进行处理;
所述结构感知Transformer层,通过结构感知自注意力模块替代Transformer层的自注意力模块,通过引入一组以每个节点为中心的子图,将内核平滑器定义为:
;
其中,表示结构感知自注意力的输出,/>表示图/>中以与节点特征相关联的节点/>为中心的子图,/>表示图/>中以与节点特征/>相关联的节点/>为中心的子图,/>表示图/>中以与节点特征/>相关联的节点/>为中心的子图,/>是比较一对子图的任何核;/>是节点/>的节点属性,/>是线性值函数。
进一步优选,;其中, />表示结构提取器提取以节点/>为中心的具有节点特征的子图,/>表示结构提取器提取以节点为中心的具有节点特征的子图,/>是由查询矩阵的参数矩阵/>和键矩阵的参数矩阵/>参数化的非对称指数核。
进一步优选,使用SIMCOMP2工具来计算药物的结构相似性。
进一步优选,所述降维和特征提取的过程为:对微生物或药物的综合相似性矩阵进行中心化,计算微生物或药物的协方差矩阵,然后微生物或药物的协方差矩阵做特征值分解,最后取最大的128个特征值所对应的特征向量,构成微生物或药物特征矩阵。
进一步优选,所述微生物-药物异构网络表示如下:
;
其中,A表示微生物-药物异构网络,表示微生物特征矩阵,/>表示药物特征矩阵,/>表示微生物-药物关联网络/>的转置。
进一步优选,微生物和药物的特征矩阵表示如下:
;
其中,为微生物和药物的特征矩阵,/>表示微生物特征矩阵,/>表示药物特征矩阵。
进一步优选,将图称为,B为节点的集合,与微生物和药物的种类数量对应,微生物节点数量为/>,药物节点数量为/>;其中节点/>的节点属性由/>表示,并且对于具有多个节点的图,所有节点的节点属性存储在微生物和药物的特征矩阵中。
进一步优选,使用的结构提取器是k-子图GCN提取器,使用k-子图GCN提取器直接计算以节点为中心的整个/>跳子图的表示;k-子图GCN提取器使用平均池化函数来聚合/>跳邻域内所有节点的更新节点表示;用/>表示节点/>的包括其自身的/>跳邻域,结构提取器的提取过程表示为:
;
式中,表示结构提取器提取以节点/>为中心的具有节点特征的子图,v为节点/>的/>跳邻域内的节点,/>为k-子图GCN提取器对节点v的提取;
通过级联将k-子图GCN提取器中的节点表示与原始节点特征进行扩充,表达式为:
;
其中,GCN表示图卷积神经网络, 表示用于训练的第1个图卷积神经网络层的参数矩阵,/>表示用于训练的第2个图卷积神经网络层的参数矩阵,并使用随机数为可学习矩阵的元素赋初值,在训练的过程中不断更新;/>是线性激活函数,/>是微生物-药物异构网络A对称归一化的邻接矩阵,对称归一化表达式为:/>,其中,D是微生物-药物异构网络A的度矩阵。
进一步优选,在使用结构感知自注意力计算注意力分数之后跳跃连接融合得到微生物嵌入和药物嵌入:
;
其中,表示节点/>的节点属性,/>表示跳跃连接得到的节点/>的新节点属性,即为微生物嵌入或药物嵌入。
进一步优选,将微生物嵌入和药物嵌入输入到多层感知机中,然后使用MLP连接微生物嵌入 和药物嵌入/>:/>,并预测微生物/>和药物/>潜在特征之间的关联,其被定义为:
;
;
其中,表示第/>层的嵌入,/>表示微生物和药物连接后的嵌入,/>表示第/>层的权重矩阵,/>表示第/>层的偏置向量,/>表示最后得到的关联分数矩阵,隐藏层激活选择,输出层使用/>函数限制结果在(0,1)。
本发明的有益效果:得到微生物以及药物的综合相似性矩阵后,使用主成分分析方法进行了特征提取,得到微生物特征矩阵和药物特征矩阵,从而解决特征不明显和表达能力有限的问题,并构建了微生物-药物异构网络,与微生物特征矩阵和药物特征矩阵一起输入结构感知Transformer模型进行关联预测,引入结构感知自注意力改进Transformer层,扩充了从图结构中学习的信息量,本发明可提高微生物-药物关联预测的准确性。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合实施例进一步详细阐明本发明。
本实施例的基于图自注意力的微生物-药物关联预测方法,使用主成分分析方法对微生物以及药物的综合相似性矩阵进行降维和特征提取,然后通过结构提取器获取微生物和药物节点局部信息并更新生成结构感知节点表示,最后通过Transformer层来预测未知的微生物-药物之间是否存在联系。
具体步骤如下:
步骤一、从数据库MDAD中下载已知微生物-药物关联,其可以表示为邻接矩阵,/>表示邻接矩阵的维数为Nd×Nm,Nm为微生物的种类总数,Nd为药物的种类总数,邻接矩阵Y的元素为/>,/>意味着第i种微生物/>与第j种药物相关联,相反,/>表示关联未知,即:
(1);
本实施例使用SIMCOMP2工具来计算药物的结构相似性。SIMCOMP2工具基于药物的化学结构信息来测量药物之间的结构相似性。本实施例 计算了药物两两之间的结构相似性,构建了药物的结构相似性矩阵,/>表示结构相似性矩阵维数为Nd×Nd,其中/>表示第p种药物/>和第j种药物/>之间的结构相似性,1≤p≤Nd,p≠j。另外,假设具有相似治疗效果的药物与相似的微生物密切相互作用,使用药物的高斯核相互作用来计算另一个相似性度量。用/>表示第j种药物/>的药物-药物相互作用谱,即表示第j种药物/>与所有其他药物相互作用的药物-药物相互作用矩阵的第j行;/>表示第p种药物/>的药物-药物相互作用谱,第p种药物/>和第j种药物/>之间的高斯核相似性/>公式如下:
(2);
其中,表示归一化的内核带宽,定义如下:
(3);
其中是原始内核带宽,并且通常被设置为1。
结合药物的结构相似性和药物的高斯核相似性以得到药物的综合相似性:
(4);
式中,表示第p种药物/>和第j种药物/>之间的综合相似性,各药物两两之间的综合相似性组成药物的综合相似性矩阵/>。
本实施例使用Kamneva工具计算得到微生物的功能相似性,构建了微生物的功能相似性矩阵, />表示微生物的功能相似性矩阵的维数为Nm×Nm 表示第i种微生物/>和第q种微生物/>之间的功能相似性,1≤q≤Nm,q≠i。
除此之外,用表示第i种微生物/>的微生物-微生物相互作用谱,即表示第i种微生物/>与所有其他微生物相互作用的微生物-微生物相互作用矩阵的第i行,第i种微生物/>和第q种微生物/>之间的高斯核相似性/>公式如下:
(5);
其中,表示归一化的内核带宽,定义如下:
(6);
其中是原始内核带宽,并且通常被设置为1。
结合微生物的功能相似性和微生物的高斯核相似性以得到微生物的综合相似性:
(7);
式中,表示第i种微生物/>和第q种微生物/>之间的综合相似性;
各微生物两两之间的综合相似性组成微生物的综合相似性矩阵。
步骤二、使用主成分分析方法(PCA)对微生物以及药物的综合相似性矩阵进行降维和特征提取,得到微生物特征矩阵和药物特征矩阵,组成微生物和药物的特征矩阵,并建立微生物-药物异构网络。对微生物和药物的综合相似性矩阵进行中心化,计算药物的协方差矩阵,然后药物微生物的协方差矩阵/>做特征值分解,最后取最大的128个特征值所对应的特征向量,构成药物特征矩阵/>;计算微生物的协方差矩阵/>,然后对微生物的协方差矩阵/>做特征值分解,最后取最大的128个特征值所对应的特征向量,构成微生物特征矩阵/>,由此得到了降维之后的微生物与药物的特征矩阵。为了将网络信息纳入数据集成中,建立一个微生物-药物异构网络A,包括微生物特征矩阵/>,药物特征矩阵/>,微生物-药物关联网络/>:
(8);
其中,表示微生物-药物关联网络/>的转置,/>,/>表示异构网络的维数为(Nd+ Nm)×(Nd+ Nm);
微生物和药物的特征矩阵如下:
(9);
步骤三、将微生物-药物异构网络、微生物和药物的特征矩阵输入到结构感知Transformer模型中,结构感知Transformer模型包括结构提取器和结构感知Transformer层(结构感知图自注意力层),结构感知Transformer层由结构感知自注意力模块和多层感知机组成,通过结构提取器获取节点局部信息并更新生成节点属性,然后通过结构感知自注意力计算注意力分数融合得到微生物嵌入和药物嵌入,最后通过多层感知机将微生物嵌入和药物嵌入连接起来,并得到最终的关联预测分数。
将图称为,B为节点的集合,与微生物和药物的种类数量对应,微生物节点数量为/>,药物节点数量为/>。其中节点/>的节点属性由/>表示,并且对于具有多个节点的图,所有节点的节点属性存储在微生物和药物的特征矩阵中。
为了提取微生物和药物节点处的局部结构信息,使用的结构提取器是k-子图GCN提取器,使用k-子图GCN提取器直接计算以节点为中心的整个/>跳子图的表示。k-子图GCN提取器使用平均池化函数来聚合/>跳邻域内所有节点的更新节点表示。形式上,如果用表示节点/>的包括其自身的/>跳邻域,则结构提取器的提取过程表示为:
(10);
式中,v为节点的/>跳邻域内的节点,/>为k-子图GCN提取器对节点v的提取;
为了捕获节点的属性相似性和结构信息(属性相似性包括了前面的高斯核相似性,药物的结构相似性,微生物的功能相似性;结构信息是指整个异构网络中的图结构信息),通过级联将k-子图GCN提取器中的节点表示与原始节点特征进行扩充,表达式为:
(11);
其中,GCN表示图卷积神经网络, 表示用于训练的第1个图卷积神经网络层的参数矩阵,/>表示用于训练的第2个图卷积神经网络层的参数矩阵,并使用随机数为可学习矩阵的元素赋初值,在训练的过程中不断更新;/>是线性激活函数,/>是微生物-药物异构网络A对称归一化的邻接矩阵,对称归一化表达式为:/>,其中,D是微生物-药物异构网络A的度矩阵。
Transformer没有显式使用图结构,而是通过利用节点属性来推断节点之间的关系。在这个意义上,Transformer忽略图结构,而是将图视为节点的集合,并使用自注意机制来推断节点之间的相似性。Transformer层由一个自注意力模块和一个多层感知机组成。在自注意力模块中,首先通过线性投影将输入的节点特征投影到查询矩阵/>、键矩阵/>和值矩阵/>,使得/>、/>和/>,/>是查询矩阵的参数矩阵,/>是键矩阵的参数矩阵,/>是值矩阵的参数矩阵,通过下式来计算自注意力:
(12);
其中,表示自注意力,/>为查询矩阵/>的维度,/>为键矩阵的转置,并且、/>、/>是可训练的参数矩阵。自注意力的输出之后是跳跃连接和多层感知机(MLP),它们共同组成了Transformer层,如下所示:
(13);
其中是跳跃连接的输出,/>是MLP的输出,W1是第一层Transformer层的权重,W2是第二层Transformer层的权重。
由于自注意力对输入节点的排列是等变的,因此Transformer将始终为具有相同属性的节点生成相同的表示,而不管在图中的位置和周围结构如何。Transformer中的自注意力模块可以被重写为内核平滑器,公式如下:
(14);
其中,是节点/>的节点属性,/>是节点/>的节点属性,/>是节点/>的节点属性,是线性值函数,/>是由/>和/>参数化的非对称指数核,公式如下:
(15);
其中和/>代表两个不同属性。
该内核平滑器中的内核是在节点特征上定义的可训练指数内核,并且其仅捕获一对节点之间的属性相似性。这个内核平滑器的问题是,当节点具有相同或相似的节点特征时,它无法过滤出与感兴趣节点结构不同的节点。为了结合节点之间的结构相似性,考虑一个更广义的核,它额外考虑了每个节点周围的局部子结构。本实施例的结构感知Transformer层与Transformer层不同的是,通过结构感知自注意力模块替代Transformer层的自注意力模块,通过引入一组以每个节点为中心的子图,将内核平滑器定义为:
(16);
其中,表示结构感知自注意力,/>表示图/>中以与节点特征/>相关联的节点/>为中心的子图,/>表示图/>中以与节点特征/>相关联的节点/>为中心的子图,/>表示图/>中以与节点特征/>相关联的节点/>为中心的子图,/>是比较一对子图的任何核。这种新的自注意力函数不仅考虑了子图之间的属性相似性,而且考虑了子图之间的结构相似性。因此,它比原始的自注意力产生了更具表达性的节点表征。
然后将考虑以下形式的,它已经包括了一大类表达和计算上易于处理的模型:
(17);
其中, 表示结构提取器提取以节点/>为中心的具有节点特征的子图,表示结构提取器提取以节点/>为中心的具有节点特征的子图。值得注意的是,结构感知自注意力足够灵活,可以与生成子图表示的任何模型相结合。假设没有边属性,但只要结构提取器可以考虑到它们,结构感知自注意力可以容易地合并边属性。
在使用结构感知自注意力计算注意力分数之后跳跃连接融合得到微生物嵌入和药物嵌入:
(18);
其中,表示节点/>的节点属性,/>表示跳跃连接得到的节点/>的新节点属性,即为微生物嵌入或药物嵌入。
将微生物嵌入和药物嵌入输入到多层感知机(MLP)中,然后使用MLP连接微生物嵌入 和药物嵌入/>:/>,并预测微生物/>和药物/>潜在特征之间的关联,其被定义为:
(19);
(20);
(21);
(22);
(23);
其中,、/>、/>分别为第1、2、3层的嵌入,W1、W2、W3分别为第1、2、3层的权重矩阵,b1、b2、b3分别为第1、2、3层的偏置向量,/>表示第/>层的嵌入,/>表示微生物和药物连接后的嵌入,/>表示第/>层的权重矩阵,/>表示第/>层的偏置向量,/>表示最后得到的关联分数矩阵,隐藏层激活选择/>,输出层使用/>函数限制结果在(0,1)。
在结构感知Transformer模型训练期间,用二进制交叉熵损失函数帮助模型改善其性能。二进制交叉熵损失函数可以评估显式和隐式反馈的可恢复性,而不仅仅是显式反馈。损失函数描述如下:
(24);
其中,是观察到的标签,/>是实际的标签,/>是正则化系数,/>是权重矩阵的L2范数。
交叉验证是一种广泛采用的自洽测试方法,用于证明方法的预测能力。其基本思想是采用重采样的方法从基准数据集中选取一部分作为训练集来训练模型,其余的样本用来验证模型。为了评估结构感知Transformer模型(PSATMDA)的性能,在实验中实施了五折交叉验证来评估预测性能。在五折交叉验证中,将微生物-药物关联随机分为五个集合,其中四个集合作为训练集,剩余的一个集合作为测试集。该过程重复5次,并根据5次重复验证中受试者工作特性曲线下的面积(AUC)的平均值计算最终AUC分数,以最终AUC分数做性能指标评估各方法的准确性,最终AUC分数越大,则方法的准确性越高。
为了验证PSATMDA的预测性能,将其分别与以下四种基于MDAD的计算方法进行比较:
表1 与其他先进方法的比较
从表中可以看出PSATMDA比其他方法的AUC值都高,说明PSATMDA解决了之前的方法中特征不明显以及表达能力有限的问题,相比于其他方法,PSATMDA的表达能力更好,得到的AUC值也更高。所以在微生物-药物关联预测的方法中,PSATMDA的性能是优于现有的最先进的预测方法的。
此外,为了全面评估PSATMDA的性能,计算了召回率(也称为灵敏度),特异性,准确度,精确度和F1-得分,计算结果如表2所示:
表2 PSATMDA五折交叉验证结果
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种基于图自注意力的微生物-药物关联预测方法,其特征在于,包括步骤:
S1:计算药物的结构相似性和药物的高斯核相似性,并取二者平均值得到药物的综合相似性,各药物两两之间的综合相似性组成药物的综合相似性矩阵;计算微生物的功能相似性和微生物的高斯核相似性,取二者平均值得到微生物的综合相似性,各微生物两两之间的综合相似性组成微生物的综合相似性矩阵;
S2:使用主成分分析方法对微生物以及药物的综合相似性矩阵进行降维和特征提取,得到微生物特征矩阵和药物特征矩阵,组成微生物和药物的特征矩阵,并建立微生物-药物异构网络;
S3:将微生物-药物异构网络、微生物和药物的特征矩阵输入到结构感知Transformer模型中,结构感知Transformer模型包括结构提取器和结构感知Transformer层,结构感知Transformer层由结构感知自注意力模块和多层感知机组成,通过结构提取器获取节点局部信息并更新生成节点属性,然后通过结构感知自注意力计算注意力分数融合得到微生物嵌入和药物嵌入,最后通过多层感知机将微生物嵌入和药物嵌入连接起来,并得到最终的关联预测分数;
将图称为,B为节点的集合,与微生物和药物的种类数量对应,A表示微生物-药物异构网络,微生物节点数量为/>,药物节点数量为/>;其中节点/>的节点属性由/>表示,并且对于具有多个节点的图,所有节点的节点属性存储在微生物和药物的特征矩阵中;所述结构提取器是k-子图GCN提取器,使用k-子图GCN提取器对图G进行提取,然后将提取的结果输入结构感知Transformer层进行处理;
使用k-子图GCN提取器直接计算以节点为中心的整个/>跳子图的表示;k-子图GCN提取器使用平均池化函数来聚合/>跳邻域内所有节点的更新节点表示;用/>表示节点/>的包括其自身的/>跳邻域,结构提取器的提取过程表示为:
;
式中,表示结构提取器提取以节点/>为中心的具有节点特征的子图,v为节点/>的/>跳邻域内的节点,/>为 k-子图GCN提取器对节点v的提取;
通过级联将k-子图GCN提取器中的节点表示与原始节点特征进行扩充,表达式为:
;
其中,GCN表示图卷积神经网络,表示用于训练的第1个图卷积神经网络层的参数矩阵,/>表示用于训练的第2个图卷积神经网络层的参数矩阵,并使用随机数为可学习矩阵的元素赋初值,在训练的过程中不断更新;/>是线性激活函数,/>是微生物-药物异构网络A对称归一化的邻接矩阵,对称归一化表达式为:/>,其中,D是微生物-药物异构网络A的度矩阵;
所述结构感知Transformer层,通过结构感知自注意力模块替代Transformer层的自注意力模块,通过引入一组以每个节点为中心的子图,将内核平滑器定义为:
;
其中,表示结构感知自注意力的输出,/>表示图/>中以与节点特征相关联的节点/>为中心的子图,/>表示图/>中以与节点特征/>相关联的节点/>为中心的子图,/>表示图/>中以与节点特征/>相关联的节点/>为中心的子图,/>是比较一对子图的任何核;/>是节点/>的节点属性,/>是线性值函数;;其中,/>表示结构提取器提取以节点/>为中心的具有节点特征的子图,/>表示结构提取器提取以节点/>为中心的具有节点特征的子图,/>是由查询矩阵的参数矩阵/>和键矩阵的参数矩阵/>参数化的非对称指数核。
2.根据权利要求1所述的基于图自注意力的微生物-药物关联预测方法,其特征在于,使用SIMCOMP2工具来计算药物的结构相似性。
3.根据权利要求1所述的基于图自注意力的微生物-药物关联预测方法,其特征在于,所述降维和特征提取的过程为:对微生物或药物的综合相似性矩阵进行中心化,计算微生物或药物的协方差矩阵,然后微生物或药物的协方差矩阵做特征值分解,最后取最大的128个特征值所对应的特征向量,构成微生物或药物特征矩阵。
4.根据权利要求1所述的基于图自注意力的微生物-药物关联预测方法,其特征在于,所述微生物-药物异构网络表示如下:
;
其中,表示微生物特征矩阵,/>表示药物特征矩阵,/>表示微生物-药物关联网络E的转置。
5.根据权利要求4所述的基于图自注意力的微生物-药物关联预测方法,其特征在于,微生物和药物的特征矩阵表示如下:
;
其中,为微生物和药物的特征矩阵,/>表示微生物特征矩阵,/>表示药物特征矩阵。
6.根据权利要求1所述的基于图自注意力的微生物-药物关联预测方法,其特征在于,在使用结构感知自注意力计算注意力分数之后跳跃连接融合得到微生物嵌入和药物嵌入:
;
其中,表示节点/>的节点属性,/>表示跳跃连接得到的节点/>的新节点属性,即为微生物嵌入或药物嵌入。
7.根据权利要求1所述的基于图自注意力的微生物-药物关联预测方法,其特征在于,将微生物嵌入和药物嵌入输入到多层感知机中,然后使用MLP连接微生物嵌入和药物嵌入/>:/>,并预测微生物/>和药物/>潜在特征之间的关联,其被定义为;
;
其中,表示第/>层的嵌入,/>表示微生物和药物连接后的嵌入,/>表示第/>层的权重矩阵,/>表示第/>层的偏置向量,/>表示最后得到的关联分数矩阵,隐藏层激活选择,输出层使用/>函数限制结果在(0,1)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311355262.5A CN117095741B (zh) | 2023-10-19 | 2023-10-19 | 基于图自注意力的微生物-药物关联预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311355262.5A CN117095741B (zh) | 2023-10-19 | 2023-10-19 | 基于图自注意力的微生物-药物关联预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117095741A CN117095741A (zh) | 2023-11-21 |
CN117095741B true CN117095741B (zh) | 2024-01-30 |
Family
ID=88772087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311355262.5A Active CN117095741B (zh) | 2023-10-19 | 2023-10-19 | 基于图自注意力的微生物-药物关联预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117095741B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011034263A1 (ko) * | 2009-09-18 | 2011-03-24 | 한국과학기술원 | 필수 대사산물을 이용한 병원성 미생물의 약물 표적 예측 방법 |
CN115148303A (zh) * | 2022-06-17 | 2022-10-04 | 广东工业大学 | 一种基于规范化图神经网络的微生物-药物关联预测方法 |
CN115472305A (zh) * | 2022-08-05 | 2022-12-13 | 广东工业大学 | 一种预测微生物-药物关联作用的方法及系统 |
CN115732077A (zh) * | 2022-11-17 | 2023-03-03 | 湖南电子科技职业学院 | 基于图注意力的微生物与药物关联关系预测方法及系统 |
WO2023093205A1 (zh) * | 2021-11-26 | 2023-06-01 | 中国银联股份有限公司 | 一种实体标签关联预测方法、装置及计算机可读存储介质 |
CN116580763A (zh) * | 2023-03-06 | 2023-08-11 | 常州大学 | 基于vae和gcn的药物-微生物关联预测方法 |
CN116798509A (zh) * | 2023-06-28 | 2023-09-22 | 元码基因科技(北京)股份有限公司 | 基于双重注意力图卷积预测微生物和药物关联的方法 |
-
2023
- 2023-10-19 CN CN202311355262.5A patent/CN117095741B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011034263A1 (ko) * | 2009-09-18 | 2011-03-24 | 한국과학기술원 | 필수 대사산물을 이용한 병원성 미생물의 약물 표적 예측 방법 |
WO2023093205A1 (zh) * | 2021-11-26 | 2023-06-01 | 中国银联股份有限公司 | 一种实体标签关联预测方法、装置及计算机可读存储介质 |
CN115148303A (zh) * | 2022-06-17 | 2022-10-04 | 广东工业大学 | 一种基于规范化图神经网络的微生物-药物关联预测方法 |
CN115472305A (zh) * | 2022-08-05 | 2022-12-13 | 广东工业大学 | 一种预测微生物-药物关联作用的方法及系统 |
CN115732077A (zh) * | 2022-11-17 | 2023-03-03 | 湖南电子科技职业学院 | 基于图注意力的微生物与药物关联关系预测方法及系统 |
CN116580763A (zh) * | 2023-03-06 | 2023-08-11 | 常州大学 | 基于vae和gcn的药物-微生物关联预测方法 |
CN116798509A (zh) * | 2023-06-28 | 2023-09-22 | 元码基因科技(北京)股份有限公司 | 基于双重注意力图卷积预测微生物和药物关联的方法 |
Non-Patent Citations (3)
Title |
---|
Deepak Perumal ; Chu Sing Lim ; Meena K. Sakharkar.Microbial drug target identification using different computational approaches: Specific application to Pseudomonas aeruginosa.IEEE.2009,全文. * |
基于分层注意力的信息级联预测模型;张志扬;张凤荔;陈学勤;王瑞锦;;计算机科学(第06期);全文 * |
贝叶斯方法的基因调控网络在医学领域的应用;刘飞;张庭;;自动化技术与应用(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117095741A (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11462304B2 (en) | Artificial intelligence engine architecture for generating candidate drugs | |
Grampurohit et al. | Disease prediction using machine learning algorithms | |
Bashir et al. | BagMOOV: A novel ensemble for heart disease prediction bootstrap aggregation with multi-objective optimized voting | |
Danjuma | Performance evaluation of machine learning algorithms in post-operative life expectancy in the lung cancer patients | |
Gupta et al. | Stacking ensemble-based intelligent machine learning model for predicting post-COVID-19 complications | |
Fang et al. | Feature Selection Method Based on Class Discriminative Degree for Intelligent Medical Diagnosis. | |
CN116364299B (zh) | 一种基于异构信息网络的疾病诊疗路径聚类方法及系统 | |
Thakkar et al. | Health care decision support system for swine flu prediction using naïve bayes classifier | |
Yan et al. | Selecting critical clinical features for heart diseases diagnosis with a real-coded genetic algorithm | |
CN109558493B (zh) | 一种基于疾病本体的疾病相似度计算方法 | |
Souza | Pruning fuzzy neural networks based on unineuron for problems of classification of patterns | |
Pekel Özmen et al. | Diagnosis of diabetes mellitus using artificial neural network and classification and regression tree optimized with genetic algorithm | |
CN116711016A (zh) | 用于使用实验验证和肽药物优化生成候选药物的人工智能引擎 | |
Shen et al. | Constructing node embeddings for human phenotype ontology to assist phenotypic similarity measurement | |
Kepner et al. | Mathematics of Big Data | |
CN117095741B (zh) | 基于图自注意力的微生物-药物关联预测方法 | |
Hosseinkhah et al. | Challenges in data mining on medical databases | |
Rampogu | A Review on the Use of Machine Learning Techniques in Monkeypox Disease Prediction | |
CN115472305A (zh) | 一种预测微生物-药物关联作用的方法及系统 | |
CN115148303A (zh) | 一种基于规范化图神经网络的微生物-药物关联预测方法 | |
Krishna et al. | AdaBoost with feature selection using IoT to bring the paths for somatic mutations evaluation in cancer | |
CN114662657A (zh) | 一种多项式树突神经网络及其预测方法 | |
Aravinthan et al. | A comparative study on prediction of heart disease using cluster and rank based approach | |
CN114822681A (zh) | 一种基于推荐系统的病毒-药物关联预测方法 | |
Song et al. | Prediction of drug-related diseases through integrating pairwise attributes and neighbor topological structures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |