CN110957002B - 一种基于协同矩阵分解的药物靶点相互作用关系预测方法 - Google Patents

一种基于协同矩阵分解的药物靶点相互作用关系预测方法 Download PDF

Info

Publication number
CN110957002B
CN110957002B CN201911301346.4A CN201911301346A CN110957002B CN 110957002 B CN110957002 B CN 110957002B CN 201911301346 A CN201911301346 A CN 201911301346A CN 110957002 B CN110957002 B CN 110957002B
Authority
CN
China
Prior art keywords
drug
similarity
matrix
target
target point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911301346.4A
Other languages
English (en)
Other versions
CN110957002A (zh
Inventor
刘勇国
李杨
李巧勤
杨尚明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201911301346.4A priority Critical patent/CN110957002B/zh
Publication of CN110957002A publication Critical patent/CN110957002A/zh
Application granted granted Critical
Publication of CN110957002B publication Critical patent/CN110957002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于协同矩阵分解的药物靶点相互作用关系预测方法,不仅考虑药物属性相似性和靶点属性相似性,同时结合药物拓扑结构相似性和靶点拓扑结构相似性,提高药物靶点相互作用关系预测准确率。包括:获取药物属性相似度和靶点属性相似度数据、药物靶点相互作用关系数据;构建药物属性特征相似度矩阵、靶点属性特征相似度矩阵、药物拓扑相似矩阵和靶点拓扑相似矩阵;对药物靶点关联矩阵进行基于图正则的协同矩阵分解,并整合药物和靶点的属性特征相似度和拓扑结构相似度信息,得到最终目标函数;用牛顿方法迭代更新得到药物和靶点的特征表示,重构药物‑靶点相互作用关系矩阵,进行药物靶点相互作用关系的预测。

Description

一种基于协同矩阵分解的药物靶点相互作用关系预测方法
技术领域
本发明涉及药物靶点相互作用关系预测技术领域,尤其涉及一种基于协同矩阵分解的药物靶点相互作用关系预测方法。
背景技术
药物靶点是药物与人体作用的结合位点,包括基因、受体、酶、离子通道、转运体、核酸等,通过药物与位点的结合影响生物学事件的改变,从而实现药物的治疗效果。药物-靶点相互作用(drug-target interactions,DTI)的鉴定是现代药物发现和开发的基础。药物-靶点相互作用预测对药物发现、药物副作用预测、药物重定位,以及发现与现有药物相互作用的新靶点的过程有重要的作用。传统用于鉴定新的DTI的生物化学实验方法所需设备极其昂贵且耗费时间较长。随着公开的化学生物数据库的出现,近些年出现的药物靶点数据库有PhID、Therapeutic Target Database(TTD)、DrugBank、Binding DB、PharmGKB、ChEMBL等,这些数据资源为DTI的预测提供了基础。近年来,结合计算机技术可以快速低成本地识别潜在的DTI。
目前的研究方法中,药物-靶点相互作用关系预测可以分为三种:基于配体的方法、基于分子对接的方法和基于化学基因组学的方法。基于配体的方法假设相似的药物具有相似的性质,也会结合相似的靶点蛋白,通过使用配体之间的相似性来预测新的DTI。基于分子对接方法通过利用药物和靶点的3D结构预测药物和靶标的相互作用,广泛用于生物学。化学基因组学是一门通过结合基因组学与化学资源来研究活性化合物与细胞内靶点的潜在关系,并应用于药物和靶点发现的新兴学科。基于化学基因组学的方法可以在短时间内进行大规模预测,为实验筛选提供候选药物或者靶点,根据采用的方法又可分为三类:基于分类的方法、基于网络扩散的方法和基于矩阵分解的方法。基于分类的方法一般使用药物-药物和靶点-靶点之间的相似性、药物和靶点的结构特征,利用机器学习的方法预测药物-靶点相互作用关系的有无;基于网络扩散的方法将药物和靶点看作节点,药物-靶点之间的关系看作边,增加药物-药物、靶点-靶点之间的相似性关系等构建网络,在网络上使用随机游走等网络传播方法预测未知的药物-靶点相互作用关系。
基于矩阵分解的方法利用矩阵分解将药物靶点关联关系矩阵分解为两个低秩矩阵,对应于药物和靶点的特征空间。SPLCMF模型[L.Y.Xia,Z.Y.Yang,H.Zhang,etal.Improved Prediction of Drug-Target Interactions Using Self-Paced Learningwith Collaborative Matrix Factorization[J].Journal of Chemical Informationand Modeling,2019]将自步学习集成到基于协同过滤的矩阵分解中,整合药物相似度网络、靶点相似度网络和已知DTI网络到正则最小二乘中,进一步提高模型的预测能力,并且在存在重噪声和丢失数据的情况下可以有效地避免不良的局部最小值。
上述的药物-靶点相互作用预测取得一定进展,但仍存在以下问题:1、基于配体的方法对于拥有少数已知配体的靶点效果不好;2、基于分子对接方法存在模拟过程耗时和许多靶点的3D结构未知的问题;3、目前存在的基于矩阵分解的方法只考虑到药物和靶点的属性特征,没有考虑DTI网络中药物和靶点节点的网络潜在特征,即忽略了药物和靶点的拓扑特征,不能准确的表示药物和靶点的特征,从而导致预测结果不准确。
发明内容
本发明所要解决的技术问题是现有的基于矩阵分解的方法药物和靶点的表示信息有限,并且没有考虑药物或者靶点的局部几何结构信息,导致很多情况下精确度不高的问题。本发明提供了解决上述问题的一种基于协同矩阵分解的药物靶点相互作用关系预测方法,提出图正则化约束来保持药物-靶点相互作用网络中的拓扑结构信息,使得在原始的数据空间中相似的药物或者靶点,在矩阵分解重构后也保持相似的特性,有效提高药物靶点相互作用关系预测精度。
本发明通过下述技术方案实现:
一种基于协同矩阵分解的药物靶点相互作用关系预测方法,该方法包括以下步骤:
步骤1:获取药物和靶点的属性相似度数据、药物-靶点相互作用关联关系数据;
步骤2:根据药物和药物之间的属性相似度数据构建药物的属性特征相似度矩阵,根据靶点和靶点之间的属性相似度数据构建靶点的属性特征相似度矩阵;
步骤3:根据药物-靶点相互作用关联关系数据构建药物-靶点关联矩阵,计算药物和靶点的拓扑特征信息,并构建药物的拓扑相似矩阵和靶点的拓扑相似矩阵;
步骤4:利用基于图正则的协同矩阵分解方法,将药物-靶点关联矩阵进行矩阵分解得到初步目标函数;并整合药物和靶点的属性特征相似度矩阵、药物和靶点的拓扑相似矩阵到初步目标函数中,得到最终目标函数;
步骤5:对最终目标函数使用牛顿方法迭代更新得到药物和靶点的特征表示,并重构药物-靶点相互作用矩阵得到最终的预测药物-靶点相互作用关系矩阵,用于进行药物-靶点相互作用关系的预测。
工作原理是:现有的基于矩阵分解的方法药物和靶点的表示信息有限,并且没有考虑药物或者靶点的局部几何结构信息,导致很多情况下精确度不高的问题。本发明方法不仅考虑药物-药物之间和靶点-靶点之间的属性相似性,同时结合药物-药物之间和靶点-靶点之间的拓扑结构相似性;本发明方法分别计算药物-药物之间和靶点-靶点之间的属性相似性和拓扑结构相似性,基于图正则的协同矩阵分解模型,不仅可以学习到药物和靶点的属性特征,还可以学习到DTI(即药物-靶点相互作用)网络中药物和靶点的拓扑特征,能够提高预测药物和靶点之间的相互作用关系的准确率。
进一步地,步骤2中根据药物和药物之间的属性相似度数据构建药物的属性特征相似度矩阵,具体地,所述药物-药物属性相似度矩阵中的两个药物之间的相似度计算公式为:
Figure BDA0002321868350000031
式中,|di∩dj|表示两个药物di和dj之间的最大公共子图中原子的数量,|di∪dj|表示di和dj数量之和减去di和dj之间的最大公共子图中原子的数量,即di和dj的并集;
为了便于计算机输入,将Nd个药物之间的相似度全部计算出来,使用药物-药物属性相似度矩阵
Figure BDA0002321868350000032
表示,Sd(i,j)∈[0,1)表示第i个药物和第j个药物之间的结构属性相似度,其值越高,表示两个药物之间的相似程度越大。
进一步地,步骤2中根据靶点和靶点之间的属性相似度数据构建靶点的属性特征相似度矩阵,具体地,靶点-靶点属性相似度矩阵中的两个靶点之间的相似度计算公式为:
Figure BDA0002321868350000033
式中,ti和tj表示靶点列表中第i个和第j个靶点,SW(·,·)表示原始的Smith–Waterman分数;
将Nt个靶点之间的相似度全部计算出来,使用靶点-靶点属性相似度矩阵
Figure BDA0002321868350000034
表示,St(i,j)表示第i个靶点和第j个靶点之间的序列属性相似度。
进一步地,由于目前仅利用药物的属性信息计算药物相似性,忽略了药物在药物-靶点网络中的拓扑信息的相似性,不能更准确的计算药物-药物的相似性。为了提取药物在药物-靶点相互作用网络中的拓扑特征,步骤3中药物和靶点的拓扑特征信息的提取均采用node2vec方法,具体地,药物拓扑特征计算包括:
(1)已知DTI矩阵Y,
Figure BDA0002321868350000035
Nd表示药物的总数,Nt表示靶点的总数,Y(i,j)表示第i个药物和第j个靶点之间的相互作用关系,当第i个药物和第j个靶点之间存在相互作用关系,Y(i,j)=1;当第i个药物和第j个靶点之间不存在相互作用关系,Y(i,j)=0;
(2)根据Y矩阵构建无权值无向的网络图G=(V,E),V是节点集合,其中|V|=Nd+Nt,|V|表示节点的数量;E是边集合,其中
Figure BDA0002321868350000036
|E|表示边的数量;当Y(i,j)=1时,存在边eij,使得vi与vj相连;为了获取药物的拓扑特征,在网络图G上进行二阶随机游走,给定源节点u,随机游走的固定长度l,ci表示游走过程中第i个节点,游走的起点是c0=u;节点ci由如下公式产生:
Figure BDA0002321868350000041
式中,Z是归一化常数,πvx是节点v和x之间的转移概率,指的是节点v下一步访问节点x的概率;πvx的取值情况:
Figure BDA0002321868350000042
式中,dvx表示节点v和节点x之间的最短路径,参数p和q用来控制随机游走的速度和距初始节点u的距离;
(3)目标函数表达的含义是,在存在特征表达f的条件下,最大化发现节点u的网络邻居Ns(u)的log概率,node2vec的目标函数为:
Figure BDA0002321868350000043
用f:V→Rd表示节点到拓扑特征表达的映射函数,d是拓扑特征空间的维度;对于任意一个节点u∈V,
Figure BDA0002321868350000047
表示节点u的在网络图G上的邻居节点,f(u)表示节点u的拓扑特征;
(4)使用随机梯度下降优化node2vec的目标函数,最后得到药物的d维拓扑特征,Nd个药物的d维拓扑特征矩阵表示为
Figure BDA0002321868350000044
进一步地,和计算药物的拓扑特征相同,采用node2vec方法来计算靶点拓扑特征,得到靶点的d维拓扑特征,Nt个靶点的d维拓扑特征矩阵表示为
Figure BDA0002321868350000045
进一步地,步骤3中构建药物和靶点的拓扑相似矩阵,计算药物-药物拓扑特征相似性、靶点-靶点拓扑特征相似性;具体地,药物-药物拓扑特征相似性计算是结合药物的拓扑特征信息,两个药物向量在拓扑特征空间下的相似度可通过余弦相似度表示;给定两个药物di和dj的拓扑特征向量表示xi和xj,使用余弦相似度计算药物-药物拓扑特征相似性:
Figure BDA0002321868350000046
将Nd个药物之间的相似度全部计算出来,使用药物-药物拓扑特征相似度矩阵
Figure BDA0002321868350000051
表示,Pd(i,j)表示第i个药物和第j个药物之间的拓扑特征相似度。
同时:和计算药物-药物拓扑特征相似性相同,最后得到靶点-靶点的拓扑特征相似度矩阵
Figure BDA0002321868350000052
进一步地,步骤4详细步骤如下:
为了充分利用药物-药物和靶点-靶点的相似信息,得到药物和靶点的潜在特征表示,进行协同矩阵分解,将已知药物-靶点相互作用关系矩阵Y分解成两个低秩矩阵A和B,分别对应药物和靶点的特征空间。用A和B的内积近似药物-靶点相互作用关系矩阵Y:
Y≈ABT
式中,A和B分别是Nd×K,Nt×K,K是特征空间的维度。
基于已知的药物-靶点相互作用关联关系,使用最小化重构误差来估计矩阵分解中的低秩矩阵A和B,矩阵分解初步目标函数为:
Figure BDA0002321868350000053
式中,
Figure BDA0002321868350000054
表示Frobenius范数。W是Nd和Nt的权重矩阵,Wij=1表示药物-靶点相互作用关系是已知的,否则表示是未知的。⊙表示元素积,为了区分已知药物-靶点对和未知药物-靶点对,对W和(Y-ABT)求元素积。λl是正则化参数,防止训练数据过拟合。
整合药物-药物属性特征相似度、靶点-靶点属性特征相似度到目标函数中,得到:
Figure BDA0002321868350000055
CMF(协同矩阵分解)的原理是让已知药物-靶点相互作用关系Y矩阵近似于A和B的内积。λl、λd、λt、λm、λn是正则化参数。属性特征相似度矩阵Sd和St的矩阵分解,其过程公式表示如下:
Sd≈AAT
St≈BBT
Pd矩阵描述了药物之间的结构相似关系,为了整合药物信息,在低维空间中保留药物图形结构,引入基于药物图形拓扑的正则化术语:
Figure BDA0002321868350000061
同理,Pt矩阵描述了靶点之间的结构相似关系,引入基于靶点图形拓扑的正则化术语:
Figure BDA0002321868350000062
最终目标函数为:
Figure BDA0002321868350000063
式中,Nd表示药物的数量,Nt表示靶点的数量;W是Nd和Nt的权重矩阵,Wij=1表示药物-靶点相互作用关系是已知的,否则表示是未知的;Y表示已知药物-靶点相互作用关系;λl、λd、λt、λm、λn是正则化参数;a和b分别表矩阵分解得到的药物和靶点的特征向量;Sd矩阵表示药物之间的属性特征相似度矩阵,St矩阵表示靶点之间的属性特征相似度矩阵;Pd矩阵描述了药物之间的结构相似关系,Pt矩阵描述了靶点之间的结构相似关系。
进一步地,步骤5中对最终目标函数使用牛顿方法迭代更新得到药物和靶点的特征表示,具体包括:
由于药物潜在特征向量ai和靶点潜在特征向量bj耦合在一起,不容易求解,因此使用牛顿方法更新ai和bj
首先,计算L相对于ai和bj的偏导数:
Figure BDA0002321868350000064
Figure BDA0002321868350000071
然后,计算L相对于ai和bj的二阶导数:
Figure BDA0002321868350000072
Figure BDA0002321868350000073
由于矩阵
Figure BDA0002321868350000074
Figure BDA0002321868350000075
是对称和正定的,这意味着
Figure BDA0002321868350000076
Figure BDA0002321868350000077
是可逆的。因此,通过使用偏导数和二阶导数,可以根据牛顿方法更新ai和bj
Figure BDA0002321868350000078
Figure BDA0002321868350000079
进一步地,步骤5中的DTI矩阵(即药物-靶点相互作用矩阵)得到的最终的预测药物-靶点相互作用关系矩阵F为:
F=ABT
式中,A和B为将已知药物-靶点相互作用关系矩阵分解成两个矩阵,A和B分别是Nd×K,Nt×K,K是特征空间的维度。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明一种基于协同矩阵分解的药物靶点相互作用关系预测方法,本发明给出了一种药物-靶点预测的框架,该方法不仅考虑了药物和靶点的属性特征,还考虑了药物和靶点的拓扑结构特征,通过提出的正则项对相关性进行约束;
2、本发明一种基于协同矩阵分解的药物靶点相互作用关系预测方法,本发明基于图正则协同矩阵分解模型,提出图正则化约束来保持药物-靶点相互作用网络中的拓扑结构信息,从而提高预测药物-靶点相互作用关系的精确度。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明一种基于协同矩阵分解的药物靶点相互作用关系预测方法流程图。
图2为本发明方法的基于图正则的协同矩阵分解模型图。
图3为本发明方法的基于图正则的协同矩阵分解过程图。
图4为本发明方法的属性特征相似度矩阵分解过程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
如图1至图4所示,本发明一种基于协同矩阵分解的药物靶点相互作用关系预测方法,该方法包括以下步骤:
步骤1:获取药物和靶点的属性相似度数据、药物-靶点相互作用关联关系数据;
步骤2:根据药物和药物之间的属性相似度数据构建药物的属性特征相似度矩阵,根据靶点和靶点之间的属性相似度数据构建靶点的属性特征相似度矩阵;
步骤3:根据药物-靶点相互作用关联关系数据构建药物-靶点关联矩阵,计算药物和靶点的拓扑特征信息,并构建药物的拓扑相似矩阵和靶点的拓扑相似矩阵;
步骤4:利用基于图正则的协同矩阵分解方法,将药物-靶点关联矩阵进行矩阵分解得到初步目标函数;并整合药物和靶点的属性特征相似度矩阵、药物和靶点的拓扑相似矩阵到初步目标函数中,得到最终目标函数;
步骤5:对最终目标函数使用牛顿方法迭代更新得到药物和靶点的特征表示,并重构药物-靶点相互作用矩阵得到最终的预测药物-靶点相互作用关系矩阵,用于进行药物-靶点相互作用关系的预测。
本发明技术方案使用的数据来自于Yamanishi的数据集[Yamanishi,Y.;Araki,M.;Gutteridge,A.;Honda,W.;Kanehisa,M.Prediction of Drug-Target InteractionNetworks from the Integration of Chemical and Genomic Spaces.Bioinformatics2008,24,i232-i240.],其中根据靶点类型分为核受体(NR)、G蛋白偶联受体(GPCR)、离子通道(IC)和酶(E)四个数据集。NR数据集包括54个药物、26个靶点和90条药物-靶点相互作用关联关系;GPCR数据集包括223个药物、95个靶点和635条药物-靶点相互作用关联关系;IC数据集包括210个药物、204个靶点和1476条药物-靶点相互作用关联关系;E数据集包括445个药物、664个靶点和2926条药物-靶点相互作用关联关系;
本发明技术方案的主流程图如图1所示,主要包括以下步骤:
(1)计算药物-药物属性相似性
从Yamanishi数据集中获取药物-药物属性相似度数据,Yamanishi数据集中药物-药物属性相似度数据使用SIMCOMP工具计算两个药物的相似性。SIMCOMP工具提供基于公共子结构的全局相似性分数计算,其原理是:
给定两个药物di和dj,分别表示药物列表中第i和第j个药物的化学结构,由原子作为顶点和共价键作为边缘的2D图形。首先从Yamanishi的数据集获得药物列表,即药物的名称列表;然后,在KEGG LIGAND数据库中查询药物的化合物编号;最后,在SIMCOMP工具中输入其中一个药物的化合物编号,该工具根据该化合物的2D图形计算与其他药物的最大公共子结构,最后按相似程度由高到低排列药物。
具体相似度计算方法是使用Jaccard相似度进行计算两个药物的相似度:
Figure BDA0002321868350000091
式中,|di∩dj|表示di和dj之间的最大公共子图中原子的数量,|di∪dj|表示di和dj数量之和减去di和dj之间的最大公共子图中原子的数量,即di和dj的并集。为了便于计算机输入,将Nd个药物之间的相似度全部计算出来,使用药物-药物属性相似度矩阵
Figure BDA0002321868350000092
表示,Sd(i,j)∈[0,1)表示第i个药物和第j个药物之间的结构属性相似度,其值越高,表示两个药物之间的相似程度越大。
(2)计算靶点-靶点属性相似性
从Yamanishi数据集中获取靶点-靶点属性相似度数据,由于原始的Smith–Waterman分数受到靶点序列长度的影响,导致原始的Smith–Waterman分数不能准确衡量靶点之间的属性相似度,因此使用归一化Smith–Waterman分数计算两个靶点之间的相似度。归一化Smith–Waterman分数的计算如下:
Figure BDA0002321868350000093
式中,ti和tj表示靶点列表中第i个和第j个靶点,SW(·,·)表示原始的Smith–Waterman分数。为了便于计算机输入,将Nt个靶点之间的相似度全部计算出来,使用靶点-靶点属性相似度矩阵
Figure BDA0002321868350000094
表示,St(i,j)表示第i个靶点和第j个靶点之间的序列属性相似度。
(3)计算药物拓扑特征
由于目前仅利用药物的属性信息计算药物相似性,忽略了药物在药物-靶点网络中的拓扑信息的相似性,不能更准确的计算药物-药物的相似性。为了提取药物在药物-靶点相互作用网络中的拓扑特征,本发明使用node2vec方法。
已知DTI矩阵Y,
Figure BDA0002321868350000101
Nd表示药物的总数,Nt表示靶点的总数。Y(i,j)表示第i个药物和第j个靶点之间的相互作用关系。当第i个药物和第j个靶点之间存在相互作用关系,Y(i,j)=1;当第i个药物和第j个靶点之间不存在相互作用关系,Y(i,j)=0。
根据Y矩阵构建无权值无向的网络图G=(V,E),V是节点集合,其中|V|=Nd+Nt,|V|表示节点的数量。E是边集合,其中
Figure BDA0002321868350000102
|E|表示边的数量。当Y(i,j)=1时,存在边eij,使得vi与vj相连。
为了获取药物的拓扑特征,在网络图G上进行二阶随机游走,给定源节点u,随机游走的固定长度l,ci表示游走过程中第i个节点,游走的起点是c0=u。节点ci由如下公式产生:
Figure BDA0002321868350000103
式中,Z是归一化常数,πvx是节点v和x之间的转移概率,指的是节点v下一步访问节点x的概率。πvx的取值情况:
Figure BDA0002321868350000104
式中,dvx表示节点v和节点x之间的最短路径。参数p和q用来控制随机游走的速度和距初始节点u的距离。
node2vec的目标函数为:
Figure BDA0002321868350000105
用f:V→Rd表示节点到拓扑特征表达的映射函数,d是拓扑特征空间的维度。对于任意一个节点u∈V,
Figure BDA0002321868350000108
表示节点u的在网络图G上的邻居节点,f(u)表示节点u的拓扑特征。目标函数表达的含义是,在存在特征表达f的条件下,最大化发现节点u的网络邻居Ns(u)的log概率。使用随机梯度下降优化node2vec的目标函数。
最后得到药物的d维拓扑特征,Nd个药物的d维拓扑特征矩阵表示为
Figure BDA0002321868350000106
(4)计算靶点拓扑特征
和计算药物的拓扑特征相同,最后得到靶点的d维拓扑特征,Nt个靶点的d维拓扑特征矩阵表示为
Figure BDA0002321868350000107
(5)计算药物-药物拓扑特征相似性
结合药物的拓扑特征信息,两个药物向量在拓扑特征空间下的相似度可通过余弦相似度表示。给定两个药物di和dj的拓扑特征向量表示xi和xj,使用余弦相似度计算药物-药物拓扑特征相似性:
Figure BDA0002321868350000111
将Nd个药物之间的相似度全部计算出来,使用药物-药物拓扑特征相似度矩阵
Figure BDA0002321868350000112
表示,Pd(i,j)表示第i个药物和第j个药物之间的拓扑特征相似度。
(6)计算靶点-靶点拓扑特征相似性
和计算药物-药物拓扑特征相似性相同,最后得到靶点-靶点的拓扑特征相似度矩阵
Figure BDA0002321868350000113
(7)基于图正则的协同矩阵分解
为了充分利用药物-药物和靶点-靶点的相似信息,得到药物和靶点的潜在特征表示,进行协同矩阵分解,将已知药物-靶点相互作用关系矩阵Y分解成两个低秩矩阵A和B,分别对应药物和靶点的特征空间。如图2所示,用A和B的内积近似药物-靶点相互作用关系矩阵Y:
Y≈ABT
式中,A和B分别是Nd×K,Nt×K,K是特征空间的维度。
基于已知的药物-靶点相互作用关联关系,使用最小化重构误差来估计矩阵分解中的低秩矩阵A和B,矩阵分解初步目标函数为:
Figure BDA0002321868350000114
式中,
Figure BDA0002321868350000115
表示Frobenius范数。W是Nd和Nt的权重矩阵,Wij=1表示药物-靶点相互作用关系是已知的,否则表示是未知的。⊙表示元素积,为了区分已知药物-靶点对和未知药物-靶点对,对W和(Y-ABT)求元素积。λl是正则化参数,防止训练数据过拟合。
整合药物-药物属性特征相似度、靶点-靶点属性特征相似度到目标函数中,得到:
Figure BDA0002321868350000121
CMF(协同矩阵分解)的原理是让已知药物-靶点相互作用关系Y矩阵近似于A和B的内积。λl、λd、λt、λm、λn是正则化参数。属性特征相似度矩阵Sd和St的矩阵分解如图4所示,其过程公式表示如下:
Sd≈AAT
St≈BBT
Pd矩阵描述了药物之间的结构相似关系,为了整合药物信息,在低维空间中保留药物图形结构,引入基于药物图形拓扑的正则化术语:
Figure BDA0002321868350000122
同理,Pt矩阵描述了靶点之间的结构相似关系,引入基于靶点图形拓扑的正则化术语:
Figure BDA0002321868350000123
最终目标函数为:
Figure BDA0002321868350000124
(8)优化目标函数
由于药物潜在特征向量ai和靶点潜在特征向量bj耦合在一起,不容易求解,因此使用牛顿方法更新ai和bj
首先,计算L相对于ai和bj的偏导数:
Figure BDA0002321868350000131
然后,计算L相对于ai和bj的二阶导数:
Figure BDA0002321868350000132
Figure BDA0002321868350000133
由于矩阵
Figure BDA0002321868350000134
Figure BDA0002321868350000135
是对称和正定的,这意味着
Figure BDA0002321868350000136
Figure BDA0002321868350000137
是可逆的。因此,通过使用偏导数和二阶导数,可以根据牛顿方法更新ai和bj
Figure BDA0002321868350000138
Figure BDA0002321868350000139
(9)药物-靶点相互作用关系预测
重构DTI矩阵得到最终的预测药物-靶点相互作用关系矩阵:
F=ABT
根据以上步骤,实施本发明方法,本发明方法不仅考虑药物-药物之间和靶点-靶点之间的属性相似性,同时结合药物-药物之间和靶点-靶点之间的拓扑结构相似性;本发明方法分别计算药物-药物之间和靶点-靶点之间的属性相似性和拓扑结构相似性,基于图正则的协同矩阵分解模型,考虑将网络的拓扑结构作为正则化项融入协同矩阵分解过程中,不仅可以学习到药物和靶点的属性特征,还可以学习到DTI(即药物-靶点相互作用)网络中药物和靶点的拓扑特征,充分利用了节点属性和网络拓扑互为补充的优势,能够提高预测药物和靶点之间的相互作用关系的准确率。
现有背景技术方案通常只使用药物和靶点属性相似度矩阵进行药物靶点相互作用关系预测,这种方法可以获得节点的潜在空间表示,但由于没有考虑网络的拓扑结构信息,影响预测精度。根据“guilt by association”假设,两种类似的药物往往具有共同的靶点,或者说两个具有类似拓扑结构的节点,往往体现着相似的功能。因此本发明将网络的拓扑结构也融入到模型中。这样,即使两个药物的属性不同,但如果它们在网络中共享相似的连接,它们也可能拥有共同的靶点;反之,药物和靶点之间即使缺乏连接,但如果两个药物有相似的属性,则也可能拥有共同的靶点。双方信息互补,从而提高药物和靶点之间的相互作用关系预测精度。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于协同矩阵分解的药物靶点相互作用关系预测方法,其特征在于,该方法包括以下步骤:
步骤1:获取药物和靶点的属性相似度数据、药物-靶点相互作用关联关系数据;
步骤2:根据药物和药物之间的属性相似度数据构建药物的属性特征相似度矩阵,根据靶点和靶点之间的属性相似度数据构建靶点的属性特征相似度矩阵;
步骤3:根据药物-靶点相互作用关联关系数据构建药物-靶点关联矩阵,计算药物和靶点的拓扑特征信息,并构建药物的拓扑相似矩阵和靶点的拓扑相似矩阵;
步骤4:利用基于图正则的协同矩阵分解方法,将药物-靶点关联矩阵进行矩阵分解得到初步目标函数;并整合药物和靶点的属性特征相似度矩阵、药物和靶点的拓扑相似矩阵到初步目标函数中,得到最终目标函数;
步骤5:对最终目标函数使用牛顿方法迭代更新得到药物和靶点的特征表示,并重构药物-靶点相互作用矩阵得到最终的预测药物-靶点相互作用关系矩阵,用于进行药物-靶点相互作用关系的预测;
步骤3中药物和靶点的拓扑特征信息的提取均采用node2vec方法,具体地,药物拓扑特征计算包括:
(1)已知DTI矩阵Y,
Figure FDA0004059875790000011
Nd表示药物的总数,Nt表示靶点的总数,Y(i,j)表示第i个药物和第j个靶点之间的相互作用关系,当第i个药物和第j个靶点之间存在相互作用关系,Y(i,j)=1;当第i个药物和第j个靶点之间不存在相互作用关系,Y(i,j)=0;
(2)根据Y矩阵构建无权值无向的网络图G=(V,E),V是节点集合,其中|V|=Nd+Nt,|V|表示节点的数量;E是边集合,其中
Figure FDA0004059875790000012
|E|表示边的数量;当Y(i,j)=1时,存在边eij,使得vi与vj相连;为了获取药物的拓扑特征,在网络图G上进行二阶随机游走,给定源节点u,随机游走的固定长度l,ci表示游走过程中第i个节点,游走的起点是c0=u;节点ci由如下公式产生:
Figure FDA0004059875790000013
式中,Z是归一化常数,πvx是节点v和x之间的转移概率,指的是节点v下一步访问节点x的概率;πvx的取值情况:
Figure FDA0004059875790000021
式中,dvx表示节点v和节点x之间的最短路径,参数p和q用来控制随机游走的速度和距初始节点u的距离;
(3)在存在特征表达f的条件下,最大化发现节点u的网络邻居Ns(u)的log概率,node2vec的目标函数为:
Figure FDA0004059875790000022
用f:V→Rd表示节点到拓扑特征表达的映射函数,d是拓扑特征空间的维度;对于任意一个节点u∈V,
Figure FDA0004059875790000028
表示节点u的在网络图G上的邻居节点,f(u)表示节点u的拓扑特征;
(4)使用随机梯度下降优化node2vec的目标函数,最后得到药物的d维拓扑特征,Nd个药物的d维拓扑特征矩阵表示为
Figure FDA0004059875790000023
采用node2vec方法来计算靶点拓扑特征,得到靶点的d维拓扑特征,Nt个靶点的d维拓扑特征矩阵表示为
Figure FDA0004059875790000024
步骤3中构建药物和靶点的拓扑相似矩阵,计算药物-药物拓扑特征相似性、靶点-靶点拓扑特征相似性;具体地,药物-药物拓扑特征相似性计算是结合药物的拓扑特征信息,两个药物向量在拓扑特征空间下的相似度可通过余弦相似度表示;给定两个药物di和dj的拓扑特征向量表示xi和xj,使用余弦相似度计算药物-药物拓扑特征相似性:
Figure FDA0004059875790000025
将Nd个药物之间的相似度全部计算出来,使用药物-药物拓扑特征相似度矩阵
Figure FDA0004059875790000026
表示,Pd(i,j)表示第i个药物和第j个药物之间的拓扑特征相似度。
2.根据权利要求1所述的一种基于协同矩阵分解的药物靶点相互作用关系预测方法,其特征在于,步骤2中根据药物和药物之间的属性相似度数据构建药物的属性特征相似度矩阵,具体地,药物-药物属性相似度矩阵中的两个药物之间的相似度计算公式为:
Figure FDA0004059875790000027
式中,|di∩dj|表示两个药物di和dj之间的最大公共子图中原子的数量,|di∪dj|表示di和dj数量之和减去di和dj之间的最大公共子图中原子的数量;
将Nd个药物之间的相似度全部计算出来,使用药物-药物属性相似度矩阵
Figure FDA0004059875790000031
表示,Sd(i,j)∈[0,1)表示第i个药物和第j个药物之间的结构属性相似度。
3.根据权利要求1或2所述的一种基于协同矩阵分解的药物靶点相互作用关系预测方法,其特征在于,步骤2中根据靶点和靶点之间的属性相似度数据构建靶点的属性特征相似度矩阵,具体地,靶点-靶点属性相似度矩阵中的两个靶点之间的相似度计算公式为:
Figure FDA0004059875790000032
式中,ti和tj表示靶点列表中第i个和第j个靶点,SW(·,·)表示原始的Smith–Waterman分数;
将Nt个靶点之间的相似度全部计算出来,使用靶点-靶点属性相似度矩阵
Figure FDA0004059875790000033
表示,St(i,j)表示第i个靶点和第j个靶点之间的序列属性相似度。
4.根据权利要求1所述的一种基于协同矩阵分解的药物靶点相互作用关系预测方法,其特征在于,步骤4中的最终目标函数的公式表示如下:
Figure FDA0004059875790000034
式中,Nd表示药物的数量,Nt表示靶点的数量;W是Nd和Nt的权重矩阵,Wij=1表示药物-靶点相互作用关系是已知的,否则表示是未知的;Y表示已知药物-靶点相互作用关系;λl、λd、λt、λm、λn是正则化参数;a和b分别表矩阵分解得到的药物和靶点的特征向量;Sd矩阵表示药物之间的属性特征相似度矩阵,St矩阵表示靶点之间的属性特征相似度矩阵;Pd矩阵描述了药物之间的结构相似关系,Pt矩阵描述了靶点之间的结构相似关系。
5.根据权利要求1所述的一种基于协同矩阵分解的药物靶点相互作用关系预测方法,其特征在于,步骤5中的重构药物-靶点相互作用矩阵得到的最终的预测药物-靶点相互作用关系矩阵F为:
F=ABT
式中,A和B为将已知药物-靶点相互作用关系矩阵分解成两个矩阵,A和B分别是Nd×K,Nt×K,K是特征空间的维度。
CN201911301346.4A 2019-12-17 2019-12-17 一种基于协同矩阵分解的药物靶点相互作用关系预测方法 Active CN110957002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911301346.4A CN110957002B (zh) 2019-12-17 2019-12-17 一种基于协同矩阵分解的药物靶点相互作用关系预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911301346.4A CN110957002B (zh) 2019-12-17 2019-12-17 一种基于协同矩阵分解的药物靶点相互作用关系预测方法

Publications (2)

Publication Number Publication Date
CN110957002A CN110957002A (zh) 2020-04-03
CN110957002B true CN110957002B (zh) 2023-04-28

Family

ID=69982109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911301346.4A Active CN110957002B (zh) 2019-12-17 2019-12-17 一种基于协同矩阵分解的药物靶点相互作用关系预测方法

Country Status (1)

Country Link
CN (1) CN110957002B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111477344B (zh) * 2020-04-10 2023-06-09 电子科技大学 一种基于自加权多核学习的药物副作用识别方法
CN112133367A (zh) * 2020-08-17 2020-12-25 中南大学 药物与靶点间的相互作用关系预测方法及装置
CN112270950B (zh) * 2020-11-04 2023-06-23 中山大学 一种基于网络增强和图正则的融合网络药物靶标关系预测方法
CN112652358A (zh) * 2020-12-29 2021-04-13 中国石油大学(华东) 基于三通道深度学习调控疾病靶点的药物推荐系统、计算机设备、存储介质
CN113517038A (zh) * 2021-03-02 2021-10-19 阿里巴巴新加坡控股有限公司 药物与靶点之间亲和力的预测方法、装置及设备
CN113327644B (zh) * 2021-04-09 2024-05-14 中山大学 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法
CN114530197B (zh) * 2022-02-15 2024-06-11 北京交通大学 基于矩阵补全的药物靶点预测方法及系统
CN114613452B (zh) * 2022-03-08 2023-04-28 电子科技大学 一种基于药物分类图神经网络的药物重定位方法及系统
CN114944191A (zh) * 2022-06-21 2022-08-26 湖南中医药大学 一种基于网络爬虫和多模态特征的成分-靶点相互作用预测方法
CN115359837A (zh) * 2022-08-18 2022-11-18 京东方科技集团股份有限公司 药物与靶标的相互作用预测方法、装置及存储介质
CN117079835B (zh) * 2023-08-21 2024-02-20 广东工业大学 一种基于多视图的药物-药物相互作用预测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529205A (zh) * 2016-11-03 2017-03-22 中南大学 一种基于药物子结构、分子字符描述信息的药物靶标关系预测方法
CN109887540A (zh) * 2019-01-15 2019-06-14 中南大学 一种基于异构网络嵌入的药物靶标相互作用预测方法
CN110136017A (zh) * 2019-04-08 2019-08-16 复旦大学 一种基于数据增强和非负矩阵稀疏分解的群组发现方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110191087A1 (en) * 2008-09-03 2011-08-04 Max-Planck-Gesellschaft Zur Forderung Der Wissenschaften E.V. Computer implemented model of biological networks
CN104021316B (zh) * 2014-06-27 2017-04-05 中国科学院自动化研究所 基于基因空间融合的矩阵分解对老药预测新适应症的方法
US11037684B2 (en) * 2014-11-14 2021-06-15 International Business Machines Corporation Generating drug repositioning hypotheses based on integrating multiple aspects of drug similarity and disease similarity
WO2016200681A1 (en) * 2015-06-08 2016-12-15 Georgetown University Predicting drug-target interactions and uses for drug repositioning and repurposing
CN105956413B (zh) * 2016-04-27 2019-08-06 王�忠 识别生物分子网络中关键模块或关键节点的方法
CN107480467B (zh) * 2016-06-07 2020-11-03 王�忠 一种判别或比较药物作用模块的方法
CN106296425A (zh) * 2016-08-03 2017-01-04 哈尔滨工业大学深圳研究生院 基于带权重联合非负矩阵分解的属性图聚类方法及系统
US11462303B2 (en) * 2016-09-12 2022-10-04 Cornell University Computational systems and methods for improving the accuracy of drug toxicity predictions
CN107679362B (zh) * 2017-09-19 2020-12-08 广东药科大学 化合物-蛋白质相互作用亲和力识别方法、系统和装置
CN107992720B (zh) * 2017-12-14 2021-08-03 浙江工业大学 基于共表达网络的癌症靶向标志物测绘方法
US20190295684A1 (en) * 2018-03-22 2019-09-26 The Regents Of The University Of Michigan Method and apparatus for analysis of chromatin interaction data
CN108520166B (zh) * 2018-03-26 2022-04-08 中山大学 一种基于多重相似性网络游走的药物靶标预测方法
CN109767809B (zh) * 2019-01-16 2023-06-06 中南大学 蛋白质相互作用网络的对齐方法
CN110415763B (zh) * 2019-08-06 2023-05-23 腾讯科技(深圳)有限公司 药物与靶标的相互作用预测方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529205A (zh) * 2016-11-03 2017-03-22 中南大学 一种基于药物子结构、分子字符描述信息的药物靶标关系预测方法
CN109887540A (zh) * 2019-01-15 2019-06-14 中南大学 一种基于异构网络嵌入的药物靶标相互作用预测方法
CN110136017A (zh) * 2019-04-08 2019-08-16 复旦大学 一种基于数据增强和非负矩阵稀疏分解的群组发现方法

Also Published As

Publication number Publication date
CN110957002A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
CN110957002B (zh) 一种基于协同矩阵分解的药物靶点相互作用关系预测方法
Paliy et al. Application of multivariate statistical techniques in microbial ecology
Pirim et al. Clustering of high throughput gene expression data
Pagel et al. Mixture models in phylogenetic inference.
CN103778349A (zh) 一种基于功能模块的生物分子网络分析的方法
Yu et al. Predicting protein complex in protein interaction network-a supervised learning based method
Thorne et al. Graph spectral analysis of protein interaction network evolution
Ma et al. A review of protein–protein interaction network alignment: From pathway comparison to global alignment
Wang et al. A novel graph clustering method with a greedy heuristic search algorithm for mining protein complexes from dynamic and static PPI networks
CN112420126A (zh) 一种基于多源数据融合和网络结构扰动的药物靶标预测方法
Weighill et al. Gene regulatory network inference as relaxed graph matching
SabziNezhad et al. DPCT: a dynamic method for detecting protein complexes from TAP-aware weighted PPI network
Sottosanti et al. Co-clustering of spatially resolved transcriptomic data
CN117423391A (zh) 一种基因调控网络数据库的建立方法、系统及设备
Alizadeh et al. A framework for cluster ensemble based on a max metric as cluster evaluator
Sathish et al. An effective identification of species from DNA sequence: a classification technique by integrating DM and ANN
Lee et al. Combining expression data and knowledge ontology for gene clustering and network reconstruction
Yang et al. Graph Contrastive Learning for Clustering of Multi-layer Networks
Wang et al. Identification of essential proteins based on local random walk and adaptive multi-view multi-label learning
Zhang Epistatic clustering: a model-based approach for identifying links between clusters
Cahill et al. Unsupervised pattern discovery in spatial gene expression atlas reveals mouse brain regions beyond established ontology
Lei et al. A random walk based approach for improving protein-protein interaction network and protein complex prediction
Nyman et al. Stratified Gaussian graphical models
Alinsaif Leveraging Random Forest and Graph-based Centralities to Predict Yeast Essential Genes
Shi et al. Semi-supervised learning protein complexes from protein interaction networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant