CN111370073B - 一种基于深度学习的药物互作规则预测方法 - Google Patents
一种基于深度学习的药物互作规则预测方法 Download PDFInfo
- Publication number
- CN111370073B CN111370073B CN202010122995.4A CN202010122995A CN111370073B CN 111370073 B CN111370073 B CN 111370073B CN 202010122995 A CN202010122995 A CN 202010122995A CN 111370073 B CN111370073 B CN 111370073B
- Authority
- CN
- China
- Prior art keywords
- drug
- interaction
- medicine
- model
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于深度学习的药物互作规则预测方法。使用大量具有药物互作规则的药物对标签训练基于图卷积以及全连的深度学习网络。网络首先训练三层权重共享的图卷积(GCNN)以及注意力池化来提取到输入药物对的高纬度特征,然后通过三层全连接(FN)神经网络进行进一步特征提取,最后通过一个多分类函数进行药物互作规则的预测。将训练好的网络应用到当前需要预测的药物对,在决策层即可获得输入药物对的互作结果。本发明中的网络可以有效地识别115种药物相互作用规则,不仅可以在药物发现过程中对候选分子可能药物互作的预测,而且同时可以指导合理地用药,促进用药安全。
Description
技术领域
本发明属于计算机视觉以及自然语言处理,药物设计和医药领域,具体涉及一种基于深度学习的药物互作规则预测方法。
背景技术
药物相互作用的识别和预测有助于用药安全以及药物研发,药物互作和药物不良反应的发生密切相关,此外药物互作也是致使药物在研发过程失败的一大重要因素。目前主要使用两种策略来预测药物互作,一种是实验鉴定,另一种是计算的方法挖掘。前者主要专注于生物学和临床的实验来确定药物间互作,但是这种鉴定方式非常耗时耗力,而且还不能鉴定出所有的药物间的互作。对于计算机预测识别的方式,近些年由于得益于大数据挖掘以及机器学习算法的提升,其在药物特征提取及副作用预测方面得到了很好地应用。此外,对于大数据的处理,采用机器学习中深度学习的方式,相比于其它机器学习方法(如逻辑回归,随机森林等),深度学习更能高效并且自动提取药物的特征(如代谢,结构,基因等)。
深度学习在不同领域也得到了很好的应用,针对不同的领域,有其对应的先进的算法,如卷积神经网络应用于图像处理领域,长短期记忆网络应用于自然语言处理领域。对于图像处理领域,卷积神经网络算法也在不断的进行优化,特别是在处理不规则的图结构(如分子结构,社交网络等)时,也提出了针对不规则图的卷积算法以实现更好的预测性能。
由于药物或化学物质的结构可以被理解成图的结构,因此研究化学结构和其性质的关系特别适合用图神经网络进行处理,可以提升其预测性能。此外在目前预测药物互作的模型,大多都结合了药物的各种性质(如代谢数据,表型数据,副作用数据等),但这些数据在大多数情况下时不可准确获得的。但是对于药物或者化学物质的化学结构,其有很好的易得性。因此本发明正是利用图卷积神经网络以及药物化学结构来实现对药物互作规则的识别的目的。
发明内容
本发明的目的在于提供一种基于深度学习的药物互作规则预测方法,结合孪生神经网络,图卷积神经网络,注意力机制,提高了模型的预测性能以及模型的鲁棒性,并且模型具有可解释性。
为实现上述目的,本发明的技术方案是:一种基于深度学习的药物互作规则预测方法,该方法基于大数据的智能学习方法,通过学习药物结构的特征来捕获其与相互作用间的关系,包括如下步骤:
步骤S1、获取到已知的药物-药物相互作用对及其相互作用规则的自然语言描述,建立药物互作与互作规则间的药物互作-互作规则类别标签的数据集;
步骤S2、预处理输入药物对的分子结构SMILES,并分别将分子结构处理成矩阵作为共享网络的输入;
步骤S3、利用图卷积层,注意力池化,全连接层,批归一化,激活函数为ReLu函数,决策函数SoftMax和孪生网络结构构建权重共享的图卷积神经深度网络GCNN;
步骤S4、将步骤S2中处理好的药物对分子分别输入到权重共享的GCNN中,通过若干轮的迭代训练,获得网络模型的权重参数;
步骤S5、使用步骤S4中训练好的GCNN模型,输入需要预测的药物对,待模型提取到药物对的结构特征后,通过决策函数输出药物对所对应的相互作用规则类别。
在本发明一实施例中,所述步骤S1具体实现过程为:从现有的知识数据中提取药物-药物互作的对应的药物分子名称和结构以及其互作规则,将提取到的药物互作规则分为115类作为药物相互作用的训练及预测标签;同时建立药物对-规则标签的对应关系并构建数据集;数据集分为训练样本和测试样本两类。
在本发明一实施例中,所述步骤S2具体实现过程为:共享网络模型有两个输入,即药物对,其中两个输入的形式是两种药物分子的分子线性输入规范,即分子结构SMILES,共享网络模型会自动对输入的分子结构SMILES进行拓扑结构的提取,将其转换成一个65×62的矩阵。
在本发明一实施例中,所述步骤S3的GCNN的建立中,池化方式采用注意力池化的方法,包括三层图卷积层以及三层全连接层,注意力池化定义为:
P=tan h(ATWB)
[aA]i=max1≤j≤LbPi,j及[aB]i=max1≤j≤LaPi,j
rA=P×soft max(aA)及rB=P×soft max(aB)
其中,A和B分别是药物对中两个药物通过权重共享的GCNN所提取的特征矩阵,P是A,B矩阵间的作用的注意力对齐矩阵,aA和aB分别对P做行和列的最大池化,最后通过SoftMax函数得到药物对间的注意力权重rA,rB。
在本发明一实施例中,所述步骤S4中GCNN训练过程中,使用预处理好的训练样本作为输入进行有监督的模型训练,通过反向传播更新权重,通过图形处理器GPU进行模型推理,在模型过程中采用五倍交叉验证帮助调整超参数及验证模型稳定性;预处理好的测试样本输入网络对网络性能进行测试;模型优化的目标函数为多分类交叉熵,其定义为:
Li=-∑iti,jlog(pi,j)
其中,p为预测值,t为真实值,i为数据点,j为数据所属的类别,L为损失值。
相较于现有技术,本发明具有以下有益效果:本发明只需要通过药物的化学结构,不需要其它的药物信息就可以推理出药物间是否具有相互作用以及其互作规则。结合孪生神经网络,图卷积神经网络,注意力机制,提高了模型的预测性能以及模型的鲁棒性,并且模型具有可解释性。
附图说明
图1为本发明的整体学习及预测示意图。
图2为本发明的深度神经网络结构示意图。
图3为本发明所能预测的药物互作规则。
具体实施方式
下面结合附图1-3,对本发明的技术方案进行具体说明。
如图1所示,本发明提供了一种基于深度学习的药物互作规则预测方法,该方法基于大数据的智能学习方法,通过学习药物结构的特征来捕获其与相互作用间的关系,包括如下步骤:
步骤S1、获取到已知的药物-药物相互作用对及其相互作用规则的自然语言描述,建立药物互作与互作规则间的药物互作-互作规则类别标签的数据集;
步骤S2、预处理输入药物对的分子结构SMILES,并分别将分子结构处理成矩阵作为共享网络的输入;
步骤S3、利用图卷积层,注意力池化,全连接层,批归一化,激活函数为ReLu,决策函数SoftMax和孪生网络结构构建权重共享的图卷积神经深度网络GCNN;
步骤S4、将步骤S2中处理好的药物对分子分别输入到权重共享的GCNN中,通过若干轮的迭代训练,获得网络模型的权重参数;
步骤S5、使用步骤S4中训练好的GCNN模型,输入需要预测的药物对,待模型提取到药物对的结构特征后,通过决策函数输出药物对所对应的相互作用规则类别。
以下为本发明一具体实例。
实施例1
如图1所示,本发明一种基于深度学习的药物互作规则预测方法,包括以下步骤:
(1)从现有的知识数据(数据库,文献)中提取药物-药物互作的对应的药物分子名称和结构以及其互作规则,将提取到的药物互作规则分为141类作为药物相互作用的训练及预测标签。同时建立药物对-规则标签的对应关系并构建数据集。并将数据集随机分为训练样本(90%)和测试样本(10%)两类。
(2)药物分子结构预处理:模型有两个输入(药物对),其中两个输入的形式是两种药物分子的分子线性输入规范(SMILES)(一种计算机可解码的分子结构形式),模型会自动对输入的分子结构经行拓扑结构的提取,将其转换成一个65×68的矩阵。对于每一个分子结构的输入,利用Python中的分子处理库RdKit进行化学结构的解码,在解码之前,先对分子中每个原子以及键进行one-hot化,每个原子及键分别对应62维和6维的特征。由于每个分子中原子个数不一致,因此将所有分子的原子个数通过零填充的方式填充到65。
(3)模型结构搭建:模型在搭建过程中使用了孪生神经网络来实现图卷积神经网络的权重共享。池化层采用了注意力池化的方法。其中包含三层图卷积层以及三层全连接层。如图2所示。
图卷积:每一个分子被认为是一张图的结构,网络正向传播过程中,图神经网络会随机选择一个原子作为中心,并将其输入的初始化特征作为第零层,第一层这是将离中心原子的最近的邻居原子的特征加和到中心原子身上,依次这样迭代,中心原子就获得了临近所有原子的所有特征并将其作为最终中心原子的特征。对于分子中的每一个原子,在获得其临近原子的所有特征后,再经过池化及以原子加和即可获得分子的特征。其过程可定义为:
注意力池化为:
P=tan h(ATWB)
[aA]i=max1≤j≤LbPi,j及[aB]i=max1≤j≤LaPi,j
rA=P×soft max(aA)及rB=P×soft max(aB)
其中,A和B分别是药物对中两个药物通过权重共享的GCNN所提取的特征矩阵,P是A,B矩阵间的作用的注意力对齐矩阵,aA和aB分别对P做行和列的最大池化,最后通过SoftMax函数得到药物对间的注意力权重rA,rB。
激活函数σ:
采用ReLu,其定义为f(x)=max(0,x)
(4)模型训练:训练使用预处理好的训练样本作为输入进行有监督的模型训练,通过反向传播更新权重,通过图形处理器(GPU)进行模型推理,在模型过程中采用五倍交叉验证帮助调整超参数及验证模型稳定性。预处理好的测试样本输入网络对网络性能进行测试。模型优化的目标函数为多分类交叉熵,其定义为:Li=-∑iti,jlog(pi,j),其中,p为预测值,t为真实值,i为数据点,j为数据所属的类别,L为损失值。
模型权重更新,采用梯度下降:
(5)未知药物对互作规则预测:模型训练完成后对测试集(约50000个药物对)进行预测,并将其归类到对应的类别。以预测准确度以及受试者工作特-曲线下面积(ROC-AUC)来衡量模型的性能。测试样本准确率达0.95,模型ROC-AUC达0.989。
如图3所示,从结果看,本发明构建的模型具有较好的预测效果以良好的性能。其证明此发明的可靠性。从输入为药物分子结构,通过图卷积神经网络及孪生神经网络来提取药物特征来预测药物间的互作规则(包括是否有药物间互作),最终得到预测结果。目前神经网络可预测115种药物间的相互作用规则类型。越来越多的相互作用规则类型将会纳入到本发明中。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (3)
1.一种基于深度学习的药物互作规则预测方法,该方法基于大数据的智能学习方法,通过学习药物结构的特征来捕获其与相互作用间的关系,其特征在于,包括如下步骤:
步骤S1、获取到已知的药物-药物相互作用对及其相互作用规则的自然语言描述,建立药物互作与互作规则间的药物互作-互作规则类别标签的数据集;
步骤S2、预处理输入药物对的分子结构SMILES,并分别将分子结构处理成矩阵作为共享网络的输入;
步骤S3、利用图卷积层,注意力池化,全连接层,批归一化,激活函数为ReLu,决策函数SoftMax和孪生网络结构构建权重共享的图卷积神经深度网络GCNN;
步骤S4、将步骤S2中处理好的药物对分子分别输入到权重共享的GCNN中,通过若干轮的迭代训练,获得网络模型的权重参数;
步骤S5、使用步骤S4中训练好的GCNN模型,输入需要预测的药物对,待模型提取到药物对的结构特征后,通过决策函数输出药物对所对应的相互作用规则类别;
所述步骤S3的GCNN的建立中,池化方式采用注意力池化的方法,包括三层图卷积层以及三层全连接层,注意力池化定义为:
P=tanh(ATWB)
[aA]i=max1≤j≤LbPi,j及[aB]i=max1≤j≤LaPi,j
rA=P×softmax(aA)及rB=P×softmax(aB)
其中,A和B分别是药物对中两个药物通过权重共享的GCNN所提取的特征矩阵,P是A,B矩阵间的作用的注意力对齐矩阵,aA和aB分别对P做行和列的最大池化,最后通过SoftMax函数得到药物对间的注意力权重rA,rB;
所述步骤S4中GCNN训练过程中,使用预处理好的训练样本作为输入进行有监督的模型训练,通过反向传播更新权重,通过图形处理器GPU进行模型推理,在模型过程中采用五倍交叉验证帮助调整超参数及验证模型稳定性;预处理好的测试样本输入网络对网络性能进行测试;模型优化的目标函数为多分类交叉熵,其定义为:
Li=-∑iti,jlog(pi,j)
其中,p为预测值,t为真实值,i为数据点,j为数据所属的类别,L为损失值。
2.根据权利要求1所述的一种基于深度学习的药物互作规则预测方法,其特征在于,所述步骤S1具体实现过程为:从现有的知识数据中提取药物-药物互作的对应的药物分子名称和结构以及其互作规则,将提取到的药物互作规则分为141类作为药物相互作用的训练及预测标签;同时建立药物对-规则标签的对应关系并构建数据集;数据集分为训练集和测试集两类。
3.根据权利要求1所述的一种基于深度学习的药物互作规则预测方法,其特征在于,所述步骤S2具体实现过程为:共享网络模型有两个输入,即药物对,其中两个输入的形式是两种药物分子的分子线性输入规范,即分子结构SMILES,共享网络模型会自动对输入的分子结构SMILES进行拓扑结构的提取,将其转换成一个65×62的矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010122995.4A CN111370073B (zh) | 2020-02-27 | 2020-02-27 | 一种基于深度学习的药物互作规则预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010122995.4A CN111370073B (zh) | 2020-02-27 | 2020-02-27 | 一种基于深度学习的药物互作规则预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111370073A CN111370073A (zh) | 2020-07-03 |
CN111370073B true CN111370073B (zh) | 2023-04-07 |
Family
ID=71210086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010122995.4A Active CN111370073B (zh) | 2020-02-27 | 2020-02-27 | 一种基于深度学习的药物互作规则预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111370073B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112070277B (zh) * | 2020-08-17 | 2024-04-09 | 杭州电子科技大学 | 基于超图神经网络的药物-标靶相互作用预测方法 |
CN112633481B (zh) * | 2020-12-30 | 2023-11-28 | 广州大学华软软件学院 | 一种多跳图卷积神经网络模型系统及训练方法 |
CN114765060B (zh) * | 2021-01-13 | 2023-12-08 | 四川大学 | 预测药物靶标相互作用的多注意力方法 |
CN112820375B (zh) * | 2021-02-04 | 2022-11-04 | 闽江学院 | 基于多图卷积神经网络的中药推荐方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959841A (zh) * | 2018-04-16 | 2018-12-07 | 华南农业大学 | 一种基于dbn算法的药物靶向蛋白作用预测方法 |
CN109033738A (zh) * | 2018-07-09 | 2018-12-18 | 湖南大学 | 一种基于深度学习的药物活性预测方法 |
CN110689965A (zh) * | 2019-10-10 | 2020-01-14 | 电子科技大学 | 一种基于深度学习的药物靶点亲和力预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11727282B2 (en) * | 2018-03-05 | 2023-08-15 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and methods for spatial graph convolutions with applications to drug discovery and molecular simulation |
-
2020
- 2020-02-27 CN CN202010122995.4A patent/CN111370073B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959841A (zh) * | 2018-04-16 | 2018-12-07 | 华南农业大学 | 一种基于dbn算法的药物靶向蛋白作用预测方法 |
CN109033738A (zh) * | 2018-07-09 | 2018-12-18 | 湖南大学 | 一种基于深度学习的药物活性预测方法 |
CN110689965A (zh) * | 2019-10-10 | 2020-01-14 | 电子科技大学 | 一种基于深度学习的药物靶点亲和力预测方法 |
Non-Patent Citations (2)
Title |
---|
《Graph-augmented Convolutional Networks on Drug-Drug Interactions Prediction》;翁祖铨等;《Machine Learning》;20191208;第1-10页 * |
《基于深度学习网络的剪接位点及蛋白质相互作用预测方法研究》;姚雨;《中国优秀硕士学位论文全文数据库医药卫生科技辑》;20190806;第1-73页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111370073A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111370073B (zh) | 一种基于深度学习的药物互作规则预测方法 | |
CN110021341B (zh) | 一种基于异构网络的gpcr药物和靶向通路的预测方法 | |
CN113393911B (zh) | 一种基于深度学习的配体化合物快速预筛选方法 | |
CN112599187B (zh) | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 | |
CN116092598A (zh) | 基于流形正则化非负矩阵分解的抗病毒药物筛选方法 | |
CN115798730A (zh) | 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质 | |
CN116580848A (zh) | 一种基于多头注意力机制的分析癌症多组学数据方法 | |
CN116798652A (zh) | 一种基于多任务学习的抗癌药物反应预测方法 | |
Kumar et al. | Prediction of Protein–Protein Interaction as Carcinogenic Using Deep Learning Techniques | |
CN114420201A (zh) | 一种多源数据高效融合的药物靶标相互作用的预测方法 | |
Chiu et al. | An evolutionary approach to compact dag neural network optimization | |
CN113223622B (zh) | 基于元路径的miRNA-疾病关联预测方法 | |
CN115083511A (zh) | 基于图表示学习与注意力的外围基因调控特征提取方法 | |
CN116978464A (zh) | 数据处理方法、装置、设备以及介质 | |
CN113921084B (zh) | 疾病相关非编码rna调控轴多维靶向预测方法及系统 | |
Chowdhury et al. | Cell type identification from single-cell transcriptomic data via gene embedding | |
CN114944191A (zh) | 一种基于网络爬虫和多模态特征的成分-靶点相互作用预测方法 | |
CN110739028B (zh) | 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法 | |
Liu et al. | Prediction of exosomal piRNAs based on deep learning for sequence embedding with attention mechanism | |
CN117198426B (zh) | 一种多尺度的药物-药物反应可解释预测方法和系统 | |
Cui et al. | Hyper-Mol: Molecular Representation Learning via Fingerprint-Based Hypergraph | |
CN115206423A (zh) | 基于标签指导的蛋白质作用关系预测方法 | |
Han et al. | Hessian Regularized L 2, 1-Nonnegative Matrix Factorization and Deep Learning for miRNA–Disease Associations Prediction | |
Sun et al. | An enhanced LRMC method for drug repositioning via gcn-based HIN embedding | |
Arowolo et al. | Optimized hybrid heuristic based dimensionality reduction methods for malaria vector using KNN classifier |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |