CN113345535A - 保持药物化学性质与功能一致性的药物靶标预测方法及系统 - Google Patents

保持药物化学性质与功能一致性的药物靶标预测方法及系统 Download PDF

Info

Publication number
CN113345535A
CN113345535A CN202110626082.0A CN202110626082A CN113345535A CN 113345535 A CN113345535 A CN 113345535A CN 202110626082 A CN202110626082 A CN 202110626082A CN 113345535 A CN113345535 A CN 113345535A
Authority
CN
China
Prior art keywords
drug
target
drugs
similarity
chemical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110626082.0A
Other languages
English (en)
Inventor
卫金茂
刘健
孙畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202110626082.0A priority Critical patent/CN113345535A/zh
Publication of CN113345535A publication Critical patent/CN113345535A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs

Landscapes

  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供一种保持药物化学性质与功能一致性的药物靶标预测方法及系统,属于计算机辅助药物研发技术领域,获取待预测的药物的化学指纹;利用训练好的特征选择模型,对药物的化学指纹进行处理,得到药物与靶标的相互作用评分矩阵;基于药物与靶标的相互作用评分矩阵,将评分最高的对应靶标,作为该药物的作用靶标。本发明同时考虑药物的化学属性和临床功能,预测药物的可能靶标;将药物的特征向量先投影到蛋白空间,再投影到疾病空间,将药物‑靶标相互作用预测任务由传统单标签分类任务改为了多标签任务,考虑了药物与蛋白质之间复杂的容斥关系;通过保持药物化学相似性、功能相似性的一致性,保持了药物化学性质、分子机制与临床功能的一致性。

Description

保持药物化学性质与功能一致性的药物靶标预测方法及系统
技术领域
本发明涉及计算机辅助药物研发技术领域,具体涉及一种保持药物化学 性质与功能一致性的药物靶标预测方法及系统。
背景技术
由于基于生物实验进行药物-靶标相互作用(DTI)鉴定具有耗时、费 力、成本高、失败率高等特点,基于计算学的方法预测药物的可能靶标成为 了药物研发领域的研究热点。然而,此前的大多数关于DTI预测的发明都没有 在预测过程中考虑到药物的化学性质和功能具有一致性。这种一致性的改变 可能会对预测结果的准确性造成严重的负面影响。
目前,传统的药物-靶标相互作用预测方法,主要可以分为对接模拟和基 于配体两类。对接模拟的方法需要模拟靶标的3D结构,这种方法非常耗时, 并且不是所有靶蛋白的结构信息都是已知的。基于配体的方法将要查询配体 的靶蛋白与一组已知配体的靶蛋白进行比较,然而,在已知配体数量很少的 情况下,这类方法的表现并不好。
针对上述问题,出现了基于深度神经网络的药物靶标相互作用预测方 法。基于相似的药物更可能和相似的靶标发生相互作用的假设,通过整合药 物-靶标异构网络中的多种信息来分析每一对药物与靶标发生相互作用的可能 性。
然而,目前的基于深度神经网络的方法,都将药物-靶标相互作用预测视 为单标签二分类任务,这使得每一对药物-靶标间的预测过程都是独立的。但 是,由于药物的化学性质和功能应该具有一致性,因此,具有相似化学结构 的药物也应具有相似的靶蛋白或相似的适应症。忽略药物和蛋白质之间复杂 的容斥关系,为每一对药物-靶标进行独立的预测,可能会将相互排斥的药物 视为相容的,这可能会导致在后续治疗中发生严重的药物误用。类似的,药 物与疾病间的关系预测也存在着同样的隐患。因此,除了考虑药物间的相似性关系和靶蛋白间的相似性关系,保持药物间化学属性相似性与功能相似性 的一致也尤为重要。
发明内容
本发明的目的在于提供一种保持药物化学性质与功能一致性的药物靶标 预测方法及系统,以解决上述背景技术中存在的至少一项技术问题。
为了实现上述目的,本发明采取了如下技术方案:
一方面,本发明提供一种保持药物化学性质与功能一致性的药物靶标预 测方法,包括:
获取待预测的药物的化学指纹;
利用训练好的特征选择模型,对药物的化学指纹进行处理,得到药物与 靶标的相互作用评分矩阵;所述特征选择模型将药物的靶标视为药物在蛋白 空间中的特征,将药物的适应症视为药物在疾病空间中的特征;其中,特征 选择模型在训练时,考虑靶标序列间的相似性和疾病间的相似性,以不同药 物间在药物空间、蛋白空间和疾病空间中相似性差异最小为目标,使药物化 学性质与功能保持一致;
基于药物与靶标的相互作用评分矩阵,将评分最高的对应靶标,作为该 药物的候选靶标。
优选的,训练所述特征选择模型包括:
提取每个药物的化学指纹、靶标序列信息和适应症信息,生成药物的化 学指纹特征矩阵、药物-靶标相互作用矩阵和药物-疾病关联矩阵;
基于药物的化学指纹特征矩阵、药物-靶标相互作用矩阵和药物-疾病关联 矩阵,分别计算药物的化学指纹相似性矩阵、靶标间的序列相似性矩阵和疾 病间的相似性矩阵;
基于药物的化学指纹相似性矩阵、靶标间的序列相似性矩阵和疾病间的 相似性矩阵,结合药物的化学指纹、作用的靶标和相关适应症分别计算药物 在药物、蛋白、疾病三个空间中的相似性,并以保持三种相似性的误差最小 为目标,训练所述特征选择模型。
优选的,基于药物的化学指纹相似性矩阵、靶标间的序列相似性矩阵和 疾病间的相似性矩阵,计算药物在靶标蛋白空间中的表示向量;
基于药物在靶标蛋白空间中的表示向量,获取药物在疾病空间中与各个 疾病的关联得分;
基于药物在靶标蛋白空间中的表示向量和药物在疾病空间中与各个疾病 的关联得分,计算每对药物分别在靶标蛋白空间中的相似性和疾病空间中的 相似性;
基于每对药物分别在靶标蛋白空间中的相似性和疾病空间中的相似性, 计算得到药物与靶标相互作用的评分矩阵。
优选的,将药物的化学指纹,通过一个由两层全连接神经网络构成的编 码器,将药物投影到靶标蛋白空间中,得到药物与各个靶标间的相互作用评 分;
将药物与各个靶标间的相互作用评分,通过解码器投影到疾病空间中, 得到药物与各个疾病的关联得分。
优选的,将药物ri的化学指纹
Figure BDA0003101173190000031
输入一个由两层全连接神经网络构成的 编码器,将ri投影到靶标蛋白空间中,得到ri在靶标蛋白空间中的表示向量
Figure BDA0003101173190000032
Figure BDA0003101173190000033
其中,σt
Figure BDA0003101173190000034
Wt
Figure BDA0003101173190000035
分别为第t层全连接层的激活函数、输出、权重矩 阵和偏执向量。
优选的,通过一个解码器,根据编码器的结果
Figure BDA0003101173190000041
计算预测药物疾病关联 得分
Figure BDA0003101173190000042
Figure BDA0003101173190000043
优选的,特征选择模型的损失函数为:
Figure BDA0003101173190000044
其中,对于编码器而言,λ#=λ3,k=q,S=Sp
Figure BDA0003101173190000045
对于解码器而 言,λ#=λ4,k=n,S=Sd
Figure BDA0003101173190000046
Figure BDA0003101173190000047
表示基于编码器预测结果计算的靶标 序列间的相似性,
Figure BDA0003101173190000048
则表示基于解码器预测结果计算的疾病间的相似性。
第二方面,本发明提供一种保持药物化学性质与功能一致性的药物靶标 预测系统,包括:
获取模块,用于获取待预测的药物的化学指纹;
计算模块,利用训练好的特征选择模型,对药物的化学指纹进行处理, 得到药物与靶标的相互作用评分矩阵;所述特征选择模型将药物的靶标视为 药物在蛋白空间中的特征,将药物的适应症视为药物在疾病空间中的特征; 其中,特征选择模型在训练时,考虑靶标序列间的相似性和疾病间的相似 性,以不同药物在化学指纹空间中的相似性差异、靶标蛋白空间中的相似性 差异和疾病空间中的相似性差异最小为目标,使药物化学性质与功能保持一 致;
判断模块,用于基于药物与靶标的相互作用评分矩阵,将评分最高的对 应靶标,作为该药物的候选靶标。
第三方面,本发明提供一种非暂态计算机可读存储介质,所述非暂态计 算机可读存储介质包括用于执行如上所述的保持药物化学性质与功能一致性 的药物靶标预测方法的指令。
第四方面,本发明提供一种电子设备,包括如上所述的非暂态计算机可 读存储介质;以及能够执行所述非暂态计算机可读存储介质的所述指令的一 个或多个处理器。
本发明有益效果:通过同时考虑药物的化学属性和临床功能,从两个角 度共同去预测药物的可能靶标;通过自动编码器模型将药物的特征向量先投 影到蛋白空间,再投影到疾病空间,将药物-靶标相互作用预测任务由传统的 单标签分类任务改为了多标签任务,考虑了药物与蛋白质之间复杂的容斥关 系;通过保持药物化学相似性、功能相似性的一致性,保持了药物化学性 质、分子机制与临床功能的一致性。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的 描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前 提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所述的数据集构建流程示意图。
图2为本发明实施例所述的自动编码器工作原理示意图。
图3为本发明实施例所述的20种药物在药物空间(左)、蛋白空间 (中)、疾病空间(右)的相关性分布示例图。
具体实施方式
下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出, 其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功 能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明, 而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语 (包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一 般理解相同的意义。
还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与 现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用 理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式 “一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发 明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元 件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、 操作、元件和/或它们的组。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、 “具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特 征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且, 描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中 以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以 将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结 合和组合。
为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释 说明,且具体实施例并不构成对本发明实施例的限定。
本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并 不一定是实施本发明所必须的。
实施例1
本发明实施例1提供一种保持药物化学性质与功能一致性的药物靶标预测 系统,该系统包括:
获取模块,用于获取待预测的药物的化学指纹;
计算模块,用于利用训练好的特征选择模型,对药物的化学指纹进行处 理,得到药物与靶标的相互作用评分矩阵;所述特征选择模型将药物的靶标 视为药物在蛋白空间中的特征,将药物的适应症视为药物在疾病空间中的特 征;其中,特征选择模型在训练时,考虑靶标序列间的相似性和疾病间的相 似性,以不同药物在化学指纹空间(维度)中的相似性、靶标蛋白空间(维 度)中的相似性和疾病(适应症)空间(维度)中的相似性误差最小为目 标,使药物化学性质与功能保持一致;
判断模块,用于基于药物与靶标的相互作用评分矩阵,将评分最高的对 应靶标,作为该药物的候选靶标。
在本实施例1中,利用上述的系统实现了一种保持药物化学性质与功能一 致性的药物靶标预测方法,包括:
使用获取模块获取待预测的药物的化学指纹;
使用计算模块,利用训练好的特征选择模型,对药物的化学指纹进行处 理,得到药物与靶标的相互作用评分矩阵;所述特征选择模型将药物的靶标 视为药物在蛋白空间中的特征,将药物的适应症视为药物在疾病空间中的特 征;其中,特征选择模型在训练时,考虑靶标序列间的相似性和疾病间的相 似性,以不同药物在化学指纹空间(维度)中的相似性、靶标蛋白空间(维 度)中的相似性差异和疾病空间(维度)中的相似性误差最小为目标,使药 物化学性质与功能保持一致;
使用判断模块,基于药物与靶标的相互作用评分矩阵,将评分最高的对 应靶标,作为该药物的候选靶标。
在本实施例1中,训练所述特征选择模型包括:
提取每个药物的化学指纹、靶标序列信息和适应症信息,生成药物的化 学指纹特征矩阵、药物-靶标相互作用矩阵和药物-疾病关联矩阵;
基于药物的化学指纹特征矩阵、药物-靶标相互作用矩阵和药物-疾病关联 矩阵,分别计算药物的化学指纹相似性矩阵、靶标间的序列相似性矩阵和疾 病间的相似性矩阵;
基于药物的化学指纹相似性矩阵、靶标间的序列相似性矩阵和疾病间的 相似性矩阵,结合药物的化学指纹、作用的靶标和相关适应症分别计算药物 在药物(化学指纹维度)、蛋白、疾病三个空间中的相似性,并以保持三种 相似性的误差最小为目标,训练所述特征选择模型。
其中,基于药物的化学指纹相似性矩阵、靶标间的序列相似性矩阵和疾 病间的相似性矩阵,计算药物在靶标蛋白空间中的表示向量;
基于药物在靶标蛋白空间中的表示向量,获取药物在疾病空间中与各个 疾病的关联得分;
基于药物在靶标蛋白空间中的表示向量和药物在疾病空间中与各个疾病 的关联得分,计算每对药物分别在靶标蛋白空间中的相似性和疾病空间中的 相似性;
基于每对药物分别在靶标蛋白空间中的相似性和疾病空间中的相似性, 计算得到药物与靶标相互作用的评分矩阵。
其中,将药物的化学指纹,通过一个由两层全连接神经网络构成的编码 器,将药物投影到靶标蛋白空间中,得到药物与各个靶标间的相互作用评 分;将药物与各个靶标间的相互作用评分,通过解码器投影到疾病空间中, 得到药物与各个疾病的关联得分。
实施例2
本实施例2中,提出一种新的药物-靶标相互作用预测方法,该方法侧重 于保持药物化学性质、分子机制与临床表现的一致性。
首先从几个相关的公共数据库中提取了药物-靶标相互作用预测的数据 集,通过构建药物-蛋白质-疾病异质网络,整合了药物的化学指纹、蛋白质的 氨基酸序列、药物-靶标相互作用数据和药物的适应症数据。
之后,为了考虑药物在不同空间中的相关性,药物-靶标相互作用预测任 务被视为了一个多标签分类任务。具体而言,将药物的靶标视为药物在蛋白 质空间中的特征,将适应症视为药物在疾病空间中的特征。通过构造一个基 于深度神经网络的自动编码器模型,药物的特征向量先从原始的特征空间 (药物空间/维度)中被投影到了嵌入空间(蛋白质空间/维度),再从嵌入空 间投影到了标签空间(疾病空间/维度)。
本实施例2中,根据药物的化学指纹,目标靶标和适应症,分别计算了药 物的三种相似性。通过在预测过程中最小化这三种相似性之间的误差,药物 自身的化学属性、分子机制和临床功能的一致性得到了保持。
首先从网络数据库中提取的药物-靶标相互作用预测所需的数据集,并据 此计算了药物、靶标和疾病相似性(如图1所示),作为各类节点在其原始特 征空间中的相关性度量,具体步骤如下:
步骤一:从公共数据库中为数据集中的每个药物提取其化学指纹、靶向 蛋白和适应症信息,生成药物的化学指纹特征矩阵Fr∈Rm×k、药物-靶标相互 作用矩阵YRP∈Rm×q与药物-疾病关联矩阵YRD∈Rm×n。集合R={r1,r2,...,rm}表示数据 集中的m个药物,集合D={d1,d2,...,dn}表示数据集中的n个疾病,集合 P={p1,p2,...,pq}表示数据集中的q个蛋白。如果药物ri具有特征fj,则
Figure BDA0003101173190000095
否则
Figure BDA0003101173190000096
类似地,如果ri与疾病dj(或蛋白pk)具有已知的关联(或相互 作用),则设置
Figure BDA0003101173190000091
(或
Figure BDA0003101173190000092
),否则设置
Figure BDA0003101173190000093
(或
Figure BDA0003101173190000094
)。
步骤二:基于药物的化学指纹信息与疾病的相关药物信息,分别计算了 药物的化学指纹相似性矩阵Sr∈Rm×m和疾病的相似性矩阵Sd∈Rn×n。基于蛋白 的序列信息,计算了蛋白间的序列相似性矩阵Sp=Rq×q。其中,s(i,j)∈[0,1],且 s(i,j)越接近于1,节点i和节点j就越相似。
步骤三:在保持药物化学性质与功能一致的前提下基于自动编码器模型 预测药物的潜在靶标。如图2所示,将ri的化学指纹
Figure BDA0003101173190000101
作为模型的输入,通过 一个由两层全连接神经网络构成的编码器,将ri投影到了蛋白空间中,得到了 ri与各个蛋白的相互作用评分,用向量
Figure BDA0003101173190000102
表示,
Figure BDA0003101173190000103
Figure BDA0003101173190000104
越接近 于1,ri和pj间存在相互作用的可能性就越大。为了引入药物的适应症信息来 辅助DTI预测,通过一个解码器,将ri在蛋白空间中的表示向量
Figure BDA0003101173190000105
投影到了疾 病空间中,得到了ri与各个疾病的关联得分,用向量
Figure BDA0003101173190000106
表示。
考虑到药物存在着未被观测到的靶蛋白与适应症,这导致了药物-靶标相 互作用矩阵YRP和药物-疾病关联矩阵YRD中存在着特征缺失的问题。如果根据 缺失的特征矩阵去优化编码器与解码器,可能会在蛋白空间与疾病空间中改 变药物间的相关性关系。
如图3所示,根据药物的化学指纹、靶标蛋白与适应症,从数据集中随机 抽取了20种药物,并模拟了这些药物在药物空间、蛋白空间与疾病空间中的 相关性分布。显而易见的,三种空间中的相关性分布情况都有着一定程度上 的改变。
基于药物的化学性质与功能应该具有一致性的假设,具有相似化学性质 的药物应该具有相似的靶标和适应症,因此药物在三种空间中的相关性应该 保持一致。对于药物而言,其化学结构是已知且完整的,而其靶标信息和适 应症信息都存在着一定程度上的缺失。特征缺失所导致的相关性关系的不确 定性会对模型的预测结果造成负面的影响。
因此,本实施例2中,最后保持药物在药物-蛋白-疾病空间中相关性的一 致性,即保持药物化学性质、分子机制、临床功能的一致性。
具体步骤如下:
将编码器关于两个药物ri和rj的输出结果
Figure BDA0003101173190000111
Figure BDA0003101173190000112
视为这两个药物在蛋白 空间中的特征向量,并计算ri和rj在蛋白空间中的相似性,记为
Figure BDA0003101173190000113
类似 地,计算ri和rj在疾病空间中的相似性
Figure BDA0003101173190000114
通过最小化ri和rj在三种空间中 相似性S(i,j)、
Figure BDA0003101173190000115
Figure BDA0003101173190000116
之间的误差,以达到保持药物化学性质、分子机 制和临床功能一致的目的。
本实施例2中,药物的化学指纹为:
根据药物的分子结构与化学性质,构建的0-1编码。对于药物ri的化学指 纹
Figure BDA0003101173190000117
来说,
Figure BDA0003101173190000118
表示ri具有第j种分子结构或化学性质。
靶标、靶蛋白为:
药物发挥药效所需要结合的物质成为药物的靶标,诸如蛋白质、基因等 都可以作为药物的靶标。可以作为靶标的蛋白质,称为靶蛋白。
药物的功能(适应症)为:
包括药物的分子机制和临床功能两部分。药物的分子机制指药物可以结 合的靶标。药物的临床功能指药物可以治疗的疾病(即适应症)。
在本实施例2中,相似性计算包括:
基于药物的化学指纹信息与疾病的相关药物信息,分别计算了药物和疾 病的相似性。基于蛋白的序列信息,计算了蛋白间的序列相似性。
基于药物的SMILE信息,为数据集中的所有药物分别构建了其化学指 纹,得到了药物的化学指纹矩阵Fr∈Rm×k。据此,药物ri和rj间的化学相似性 Sr(i,j)可以被计算得到。类似地,根据与疾病相关联的药物信息,可以计算每 对疾病间的相似性,得到了疾病的相似性矩阵Sd∈Rn×n
基于蛋白的序列信息,分别计算了每对蛋白间的序列相似性评分,得到 了蛋白的相似性矩阵Sp∈Rq×q
本实施例2中,设计的基于自动编码器的特征选择模型,如图2所示。具 体来说,将ri的化学指纹
Figure BDA0003101173190000119
作为模型的输入,通过一个由两层全连接神经网 络构成的编码器,将ri投影到了一个嵌入空间中,得到了ri在嵌入空间中的表 示向量
Figure BDA0003101173190000121
Figure BDA0003101173190000122
可以根据下面的公式计算得到:
Figure BDA0003101173190000123
其中,σt
Figure BDA0003101173190000124
Wt
Figure BDA0003101173190000125
分别为第t层全连接层的激活函数、输出、权重矩 阵和偏执向量。
为了引入药物的适应症信息来辅助DTI预测,通过一个解码器,根据编码 器的结果
Figure BDA0003101173190000126
计算预测药物疾病关联得分。根据下面的公式计算得到了ri与各个 疾病的关联得分
Figure BDA0003101173190000127
Figure BDA0003101173190000128
此外,为了防止模型产生过拟合,在每一个全连接层后都添加了一个 BatchNormalizing层,将全连接层的输出拟合到一个标准高斯分布上。
编码器的损失和解码器的损失可以根据下面的公式分别计算得到:
Figure BDA0003101173190000129
其中,对于编码器而言,
Figure BDA00031011731900001210
对于解码器而 言,
Figure BDA00031011731900001211
根据编码器与解码器的预测结果,药物ri和rj在蛋白空间 中和疾病空间中的相似性矩阵
Figure BDA00031011731900001212
Figure BDA00031011731900001213
可以计算得到。
据此,分别扩展了编码器和解码器的损失函数,如下所示:
Figure BDA00031011731900001214
其中,对于编码器而言,λ*=λ1
Figure BDA00031011731900001215
公式中的第2项是药物在蛋白 空间中相关性损失;对于解码器而言,λ*=λ2
Figure BDA00031011731900001216
公式中的第2项是药 物在疾病空间中相关性损失。λ1和λ2分别是调整损失项权重的参数。
基于相似的药物通常可以与相似的蛋白(疾病)存在相互作用(关联) 的假设,要在编(解)码器的预测结果中考虑到蛋白间(疾病间)的相似性 关系。因此,自动编码器模型的损失函数最终被定义为:
Figure BDA0003101173190000131
其中,对于编码器而言,λ#=λ3,k=q,S=Sp
Figure BDA0003101173190000132
对于解码器而 言,λ#=λ4,k=n,S=Sd
Figure BDA0003101173190000133
Figure BDA0003101173190000134
表示基于编码器预测结果计算的靶标 序列间的相似性,
Figure BDA0003101173190000135
则表示基于解码器预测结果计算的疾病间的相似性。
本实施例2中,通过最小化编码器与解码器的损失,得到了最终的药物- 蛋白相互作用的评分矩阵
Figure BDA0003101173190000136
为了评估预测模型的性能,本实施例2中,通过五倍交叉验证,证明了其 预测准确性在AUC和AUPR两种评价指标上优于几个最先进(state-of-the-art) 的DTI预测方法,包括:DTINet、GRMF、MolTrans、NGDTP和DeepDTNet。 两个公开的药物-靶标相互作用预测数据集被用来测试本方法的效果,在AUC 和AUPR两个评价指标上都优于几个基线方法。
综上,本实施例2中提供的药物-靶标相互作用预测方法,包括药物大数 据的提取、多种节点间相似性的计算、基于深度学习的药物-靶标相互作用预 测和保持药物化学性质相似性和功能相似性一致四部分。药物-靶标相互作用 的预测包括基于编深度神经网络的药物-靶标相互作用预测和基于药物-疾病关 联信息的辅助预测两部分。保持药物化学性质相似性和功能相似性则包括了 保持药物化学性质与分子机制的一致性以及保持药物化学性质和临床功能一 致性两部分。
本实施例2中,通过同时考虑药物的化学属性和临床功能,从两个角度共 同去预测药物的可能靶标;通过自动编码器模型将药物的特征向量先投影到 蛋白空间,再投影到疾病空间,将药物-靶标相互作用预测任务由传统的单标 签分类任务改为了多标签任务,考虑了药物与蛋白质之间复杂的容斥关系; 通过保持药物化学相似性、功能相似性的一致性,保持了药物化学属性、分 子机制与临床功能的一致性。
实施例3
本发明实施例3提供一种非暂态计算机可读存储介质,所述非暂态计算机 可读存储介质包括用于执行保持药物化学性质与功能一致性的药物靶标预测 方法的指令,该方法包括:
获取待预测的药物的化学指纹;
利用训练好的特征选择模型,对药物的化学指纹进行处理,得到药物与 靶标的相互作用评分矩阵;所述特征选择模型将药物的靶标视为药物在蛋白 空间中的特征,将药物的适应症视为药物在疾病空间中的特征;其中,特征 选择模型在训练时,考虑靶标序列间的相似性和疾病间的相似性,以不同药 物间在药物空间、蛋白空间和疾病空间中相似性差异最小为目标,使药物化 学性质与功能保持一致;
基于药物与靶标的相互作用评分矩阵,将评分最高的对应靶标,作为该 药物的候选靶标。
实施例4
本发明实施例4提供一种电子设备,该电子设备包括一种非暂态计算机可 读存储介质;以及能够执行所述非暂态计算机可读存储介质的所述指令的一 个或多个处理器。所述非暂态计算机可读存储介质包括用于执行保持药物化 学性质与功能一致性的药物靶标预测方法的指令,该方法包括:
获取待预测的药物的化学指纹;
利用训练好的特征选择模型,对药物的化学指纹进行处理,得到药物与 靶标的相互作用评分矩阵;所述特征选择模型将药物的靶标视为药物在蛋白 空间中的特征,将药物的适应症视为药物在疾病空间中的特征;其中,特征 选择模型在训练时,考虑靶标序列间的相似性和疾病间的相似性,以不同药 物间在药物空间、蛋白空间和疾病空间中相似性差异最小为目标,使药物化 学性质与功能保持一致;
基于药物与靶标的相互作用评分矩阵,将评分最高的对应靶标,作为该 药物的候选靶标。
综上所述,本发明实施例所述的保持药物化学性质与功能一致性的药物 靶标预测方法及系统,侧重于保持药物化学性质、分子机制与临床表现的一 致性。
首先从几个相关的公共数据库中提取了药物-靶标相互作用预测的数据 集,通过构建药物-蛋白质-疾病异质网络,整合了药物的化学指纹、蛋白质的 氨基酸序列、药物-靶标相互作用数据和药物的适应症数据。之后,为了考虑 药物在不同空间中的相关性,药物-靶标相互作用预测任务被视为了一个多标 签分类任务。
具体而言,将药物的靶标视为药物在蛋白质空间中的特征,将适应症视 为药物在疾病空间中的特征。通过构造一个基于深度神经网络的自动编码器 模型,药物的特征向量先从原始的特征空间(药物空间)中被投影到了嵌入 空间(蛋白质空间),再从嵌入空间投影到了标签空间(疾病空间)。
根据药物的化学指纹,目标靶标和适应症,分别计算了药物的三种相似 性。通过在预测过程中最小化这三种相似性之间的误差,药物自身的化学属 性、分子机制和临床功能的一致性得到了保持。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或 计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、 或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个 其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘 存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序 产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程 图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流 程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算 机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使 得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现 在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功 能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器 中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或 多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上, 在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一 个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本 领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护 范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公 开保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案 的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或 变形,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种保持药物化学性质与功能一致性的药物靶标预测方法,其特征在于,包括:
获取待预测的药物的化学指纹;
利用训练好的特征选择模型,对药物的化学指纹进行处理,得到药物与靶标的相互作用评分矩阵,所述特征选择模型将药物的靶标视为药物在蛋白空间中的特征,将药物的适应症视为药物在疾病空间中的特征;其中,特征选择模型在训练时,考虑靶标序列间的相似性和疾病间的相似性,以不同药物间在药物空间、蛋白空间和疾病空间中相似性差异最小为目标,使药物化学性质与功能保持一致;
基于药物与靶标的相互作用评分矩阵,将评分最高的对应靶标,作为该药物的候选靶标。
2.根据权利要求1所述的保持药物化学性质与功能一致性的药物靶标预测方法,其特征在于,训练所述特征选择模型包括:
提取每个药物的化学指纹、靶标序列信息和适应症信息,生成药物的化学指纹特征矩阵、药物-靶标相互作用矩阵和药物-疾病关联矩阵;
基于药物的化学指纹特征矩阵、药物-靶标相互作用矩阵和药物-疾病关联矩阵,分别计算药物的化学指纹相似性矩阵、靶标间的序列相似性矩阵和疾病间的相似性矩阵;
基于药物的化学指纹相似性矩阵、靶标间的序列相似性矩阵和疾病间的相似性矩阵,结合药物的化学指纹、作用的靶标和相关适应症分别计算药物在药物、蛋白、疾病三个空间中的相似性,并以保持三种相似性的误差最小为目标,训练所述特征选择模型。
3.根据权利要求2所述的保持药物化学性质与功能一致性的药物靶标预测方法,其特征在于:
基于药物的化学指纹相似性矩阵、靶标间的序列相似性矩阵和疾病间的相似性矩阵,计算药物在靶标蛋白空间中的表示向量;
基于药物在靶标蛋白空间中的表示向量,获取药物在疾病空间中与各个疾病的关联得分;
基于药物在靶标蛋白空间中的表示向量和药物在疾病空间中与各个疾病的关联得分,计算每对药物分别在靶标蛋白空间中的相似性和疾病空间中的相似性;
基于每对药物分别在靶标蛋白空间中的相似性和疾病空间中的相似性,计算得到药物与靶标相互作用的评分矩阵。
4.根据权利要求3所述的保持药物化学性质与功能一致性的药物靶标预测方法,其特征在于:
将药物的化学指纹,通过一个由两层全连接神经网络构成的编码器,将药物投影到靶标蛋白空间中,得到药物与各个靶标间的相互作用评分;
将药物与各个靶标间的相互作用评分,通过解码器投影到疾病空间中,得到药物与各个疾病的关联得分。
5.根据权利要求4所述的保持药物化学性质与功能一致性的药物靶标预测方法,其特征在于:
将药物ri的化学指纹fi r输入一个由两层全连接神经网络构成的编码器,将ri投影到靶标蛋白空间中,得到ri在靶标蛋白空间中的表示向量hi 3
Figure FDA0003101173180000021
其中,σt
Figure FDA0003101173180000022
Wt
Figure FDA0003101173180000023
分别为第t层全连接层的激活函数、输出、权重矩阵和偏执向量。
6.根据权利要求5所述的保持药物化学性质与功能一致性的药物靶标预测方法,其特征在于:
通过一个解码器,根据编码器的结果
Figure FDA0003101173180000031
计算预测药物疾病关联得分hi 6
Figure FDA0003101173180000032
7.根据权利要求6所述的保持药物化学性质与功能一致性的药物靶标预测方法,其特征在于:编码器的损失函数为:
Figure FDA0003101173180000033
其中,对于编码器而言,λ#=λ3,k=q,S=Sp
Figure FDA0003101173180000034
对于解码器而言,λ#=λ4,k=n,S=Sd
Figure FDA0003101173180000035
Figure FDA0003101173180000036
表示基于编码器预测结果计算的靶标序列间的相似性,
Figure FDA0003101173180000037
则表示基于解码器预测结果计算的疾病间的相似性。
8.一种保持药物化学性质与功能一致性的药物靶标预测系统,其特征在于,包括:
获取模块,用于获取待预测的药物的化学指纹;
计算模块,利用训练好的特征选择模型,对药物的化学指纹进行处理,得到药物与靶标的相互作用评分矩阵,所述特征选择模型将药物的靶标视为药物在蛋白空间中的特征,将药物的适应症视为药物在疾病空间中的特征;其中,特征选择模型在训练时,考虑靶标序列间的相似性和疾病间的相似性,以不同药物间在药物空间、蛋白空间和疾病空间中相似性差异最小为目标,使药物化学性质与功能保持一致;
判断模块,用于基于药物与靶标的相互作用评分矩阵,将评分最高的对应靶标,作为该药物的候选靶标。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质包括用于执行如权利要求1-7任一项所述的保持药物化学性质与功能一致性的药物靶标预测方法的指令。
10.一种电子设备,其特征在于,包括如权利要求9所述的非暂态计算机可读存储介质;以及能够执行所述非暂态计算机可读存储介质的所述指令的一个或多个处理器。
CN202110626082.0A 2021-06-04 2021-06-04 保持药物化学性质与功能一致性的药物靶标预测方法及系统 Pending CN113345535A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110626082.0A CN113345535A (zh) 2021-06-04 2021-06-04 保持药物化学性质与功能一致性的药物靶标预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110626082.0A CN113345535A (zh) 2021-06-04 2021-06-04 保持药物化学性质与功能一致性的药物靶标预测方法及系统

Publications (1)

Publication Number Publication Date
CN113345535A true CN113345535A (zh) 2021-09-03

Family

ID=77474015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110626082.0A Pending CN113345535A (zh) 2021-06-04 2021-06-04 保持药物化学性质与功能一致性的药物靶标预测方法及系统

Country Status (1)

Country Link
CN (1) CN113345535A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115458061A (zh) * 2022-10-13 2022-12-09 南开大学 一种药物-蛋白质相互作用预测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902848A (zh) * 2012-12-28 2014-07-02 深圳先进技术研究院 基于药物相互作用相似性识别药物靶标的系统及方法
CN107731309A (zh) * 2017-08-31 2018-02-23 武汉百药联科科技有限公司 一种药物活性的预测方法及其应用
CN110289050A (zh) * 2019-05-30 2019-09-27 湖南大学 一种基于图卷积和词向量的药物-靶标相互作用预测方法
CN111785320A (zh) * 2020-06-28 2020-10-16 西安电子科技大学 基于多层网络表示学习的药物靶标相互作用预测方法
CN112420126A (zh) * 2020-12-07 2021-02-26 湖南大学 一种基于多源数据融合和网络结构扰动的药物靶标预测方法
CN112863693A (zh) * 2021-02-04 2021-05-28 东北林业大学 基于多通道图卷积网络的药物靶标相互作用预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902848A (zh) * 2012-12-28 2014-07-02 深圳先进技术研究院 基于药物相互作用相似性识别药物靶标的系统及方法
CN107731309A (zh) * 2017-08-31 2018-02-23 武汉百药联科科技有限公司 一种药物活性的预测方法及其应用
CN110289050A (zh) * 2019-05-30 2019-09-27 湖南大学 一种基于图卷积和词向量的药物-靶标相互作用预测方法
CN111785320A (zh) * 2020-06-28 2020-10-16 西安电子科技大学 基于多层网络表示学习的药物靶标相互作用预测方法
CN112420126A (zh) * 2020-12-07 2021-02-26 湖南大学 一种基于多源数据融合和网络结构扰动的药物靶标预测方法
CN112863693A (zh) * 2021-02-04 2021-05-28 东北林业大学 基于多通道图卷积网络的药物靶标相互作用预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHANG SUN ET AL: "Autoencoder-based drug–target interaction prediction by preserving the consistency of chemical properties and functions of drugs", 《BIOINFORMATICS》 *
孙畅: "面向异构网络的药物与靶标相互作用预测方法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 医药卫生科技辑 》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115458061A (zh) * 2022-10-13 2022-12-09 南开大学 一种药物-蛋白质相互作用预测方法及系统
CN115458061B (zh) * 2022-10-13 2024-01-23 南开大学 一种药物-蛋白质相互作用预测方法及系统

Similar Documents

Publication Publication Date Title
Masoudi-Sobhanzadeh et al. Trader as a new optimization algorithm predicts drug-target interactions efficiently
Pauwels et al. Predicting drug side-effect profiles: a chemical fragment-based approach
CN112599187B (zh) 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法
CN113470741B (zh) 药物靶标关系预测方法、装置、计算机设备及存储介质
Yang et al. PDGNet: predicting disease genes using a deep neural network with multi-view features
Hu et al. A convolutional neural network system to discriminate drug-target interactions
Zhou et al. Knowledge-aware attention network for protein-protein interaction extraction
CN112562791A (zh) 基于知识图谱的药物靶标作用深度学习预测系统、计算机设备、存储介质
Cui et al. Boosting gene expression clustering with system-wide biological information: a robust autoencoder approach
CN116013428A (zh) 基于自监督学习的药物靶标通用预测方法、设备及介质
CN115472221A (zh) 一种基于深度学习的蛋白质适应度预测方法
CN116206688A (zh) 一种用于dta预测的多模态信息融合模型及方法
Sun et al. Protein function prediction using function associations in protein–protein interaction network
Zhao et al. A multi-graph deep learning model for predicting drug-disease associations
Zhao et al. Gifdti: prediction of drug-target interactions based on global molecular and intermolecular interaction representation learning
CN113345535A (zh) 保持药物化学性质与功能一致性的药物靶标预测方法及系统
Wang et al. LDS-CNN: A deep learning framework for drug-target interactions prediction based on large-scale drug screening
AU2021104604A4 (en) Drug target prediction method for keeping consistency of chemical properties and functions of drugs
CN116206775A (zh) 一种融合多维度特征的药物-靶点相互作用预测方法
Shi et al. ToxMVA: An end-to-end multi-view deep autoencoder method for protein toxicity prediction
Mathur Bioinformatics challenges: a review
Wang et al. Predicting polypharmacy side effects based on an enhanced domain knowledge graph
CN114999566A (zh) 基于词向量表征和注意力机制的药物重定位方法及系统
Min et al. Sequence-based deep learning frameworks on enhancer-promoter interactions prediction
Deng et al. Predict the protein-protein interaction between virus and host through hybrid deep neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210903