CN113345535A - 保持药物化学性质与功能一致性的药物靶标预测方法及系统 - Google Patents
保持药物化学性质与功能一致性的药物靶标预测方法及系统 Download PDFInfo
- Publication number
- CN113345535A CN113345535A CN202110626082.0A CN202110626082A CN113345535A CN 113345535 A CN113345535 A CN 113345535A CN 202110626082 A CN202110626082 A CN 202110626082A CN 113345535 A CN113345535 A CN 113345535A
- Authority
- CN
- China
- Prior art keywords
- drug
- target
- drugs
- similarity
- chemical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003814 drug Substances 0.000 title claims abstract description 308
- 229940079593 drug Drugs 0.000 title claims abstract description 288
- 239000000126 substance Substances 0.000 title claims abstract description 121
- 239000003596 drug target Substances 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 43
- 201000010099 disease Diseases 0.000 claims abstract description 106
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 106
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 86
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 85
- 239000011159 matrix material Substances 0.000 claims abstract description 83
- 230000003993 interaction Effects 0.000 claims abstract description 59
- 239000013598 vector Substances 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000009471 action Effects 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 42
- 238000003860 storage Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 239000013604 expression vector Substances 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000009456 molecular mechanism Effects 0.000 abstract description 12
- 238000012827 research and development Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 239000003446 ligand Substances 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 230000014759 maintenance of location Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 125000003275 alpha amino acid group Chemical group 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003032 molecular docking Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000144 pharmacologic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
Landscapes
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明提供一种保持药物化学性质与功能一致性的药物靶标预测方法及系统,属于计算机辅助药物研发技术领域,获取待预测的药物的化学指纹;利用训练好的特征选择模型,对药物的化学指纹进行处理,得到药物与靶标的相互作用评分矩阵;基于药物与靶标的相互作用评分矩阵,将评分最高的对应靶标,作为该药物的作用靶标。本发明同时考虑药物的化学属性和临床功能,预测药物的可能靶标;将药物的特征向量先投影到蛋白空间,再投影到疾病空间,将药物‑靶标相互作用预测任务由传统单标签分类任务改为了多标签任务,考虑了药物与蛋白质之间复杂的容斥关系;通过保持药物化学相似性、功能相似性的一致性,保持了药物化学性质、分子机制与临床功能的一致性。
Description
技术领域
本发明涉及计算机辅助药物研发技术领域,具体涉及一种保持药物化学 性质与功能一致性的药物靶标预测方法及系统。
背景技术
由于基于生物实验进行药物-靶标相互作用(DTI)鉴定具有耗时、费 力、成本高、失败率高等特点,基于计算学的方法预测药物的可能靶标成为 了药物研发领域的研究热点。然而,此前的大多数关于DTI预测的发明都没有 在预测过程中考虑到药物的化学性质和功能具有一致性。这种一致性的改变 可能会对预测结果的准确性造成严重的负面影响。
目前,传统的药物-靶标相互作用预测方法,主要可以分为对接模拟和基 于配体两类。对接模拟的方法需要模拟靶标的3D结构,这种方法非常耗时, 并且不是所有靶蛋白的结构信息都是已知的。基于配体的方法将要查询配体 的靶蛋白与一组已知配体的靶蛋白进行比较,然而,在已知配体数量很少的 情况下,这类方法的表现并不好。
针对上述问题,出现了基于深度神经网络的药物靶标相互作用预测方 法。基于相似的药物更可能和相似的靶标发生相互作用的假设,通过整合药 物-靶标异构网络中的多种信息来分析每一对药物与靶标发生相互作用的可能 性。
然而,目前的基于深度神经网络的方法,都将药物-靶标相互作用预测视 为单标签二分类任务,这使得每一对药物-靶标间的预测过程都是独立的。但 是,由于药物的化学性质和功能应该具有一致性,因此,具有相似化学结构 的药物也应具有相似的靶蛋白或相似的适应症。忽略药物和蛋白质之间复杂 的容斥关系,为每一对药物-靶标进行独立的预测,可能会将相互排斥的药物 视为相容的,这可能会导致在后续治疗中发生严重的药物误用。类似的,药 物与疾病间的关系预测也存在着同样的隐患。因此,除了考虑药物间的相似性关系和靶蛋白间的相似性关系,保持药物间化学属性相似性与功能相似性 的一致也尤为重要。
发明内容
本发明的目的在于提供一种保持药物化学性质与功能一致性的药物靶标 预测方法及系统,以解决上述背景技术中存在的至少一项技术问题。
为了实现上述目的,本发明采取了如下技术方案:
一方面,本发明提供一种保持药物化学性质与功能一致性的药物靶标预 测方法,包括:
获取待预测的药物的化学指纹;
利用训练好的特征选择模型,对药物的化学指纹进行处理,得到药物与 靶标的相互作用评分矩阵;所述特征选择模型将药物的靶标视为药物在蛋白 空间中的特征,将药物的适应症视为药物在疾病空间中的特征;其中,特征 选择模型在训练时,考虑靶标序列间的相似性和疾病间的相似性,以不同药 物间在药物空间、蛋白空间和疾病空间中相似性差异最小为目标,使药物化 学性质与功能保持一致;
基于药物与靶标的相互作用评分矩阵,将评分最高的对应靶标,作为该 药物的候选靶标。
优选的,训练所述特征选择模型包括:
提取每个药物的化学指纹、靶标序列信息和适应症信息,生成药物的化 学指纹特征矩阵、药物-靶标相互作用矩阵和药物-疾病关联矩阵;
基于药物的化学指纹特征矩阵、药物-靶标相互作用矩阵和药物-疾病关联 矩阵,分别计算药物的化学指纹相似性矩阵、靶标间的序列相似性矩阵和疾 病间的相似性矩阵;
基于药物的化学指纹相似性矩阵、靶标间的序列相似性矩阵和疾病间的 相似性矩阵,结合药物的化学指纹、作用的靶标和相关适应症分别计算药物 在药物、蛋白、疾病三个空间中的相似性,并以保持三种相似性的误差最小 为目标,训练所述特征选择模型。
优选的,基于药物的化学指纹相似性矩阵、靶标间的序列相似性矩阵和 疾病间的相似性矩阵,计算药物在靶标蛋白空间中的表示向量;
基于药物在靶标蛋白空间中的表示向量,获取药物在疾病空间中与各个 疾病的关联得分;
基于药物在靶标蛋白空间中的表示向量和药物在疾病空间中与各个疾病 的关联得分,计算每对药物分别在靶标蛋白空间中的相似性和疾病空间中的 相似性;
基于每对药物分别在靶标蛋白空间中的相似性和疾病空间中的相似性, 计算得到药物与靶标相互作用的评分矩阵。
优选的,将药物的化学指纹,通过一个由两层全连接神经网络构成的编 码器,将药物投影到靶标蛋白空间中,得到药物与各个靶标间的相互作用评 分;
将药物与各个靶标间的相互作用评分,通过解码器投影到疾病空间中, 得到药物与各个疾病的关联得分。
优选的,特征选择模型的损失函数为:
第二方面,本发明提供一种保持药物化学性质与功能一致性的药物靶标 预测系统,包括:
获取模块,用于获取待预测的药物的化学指纹;
计算模块,利用训练好的特征选择模型,对药物的化学指纹进行处理, 得到药物与靶标的相互作用评分矩阵;所述特征选择模型将药物的靶标视为 药物在蛋白空间中的特征,将药物的适应症视为药物在疾病空间中的特征; 其中,特征选择模型在训练时,考虑靶标序列间的相似性和疾病间的相似 性,以不同药物在化学指纹空间中的相似性差异、靶标蛋白空间中的相似性 差异和疾病空间中的相似性差异最小为目标,使药物化学性质与功能保持一 致;
判断模块,用于基于药物与靶标的相互作用评分矩阵,将评分最高的对 应靶标,作为该药物的候选靶标。
第三方面,本发明提供一种非暂态计算机可读存储介质,所述非暂态计 算机可读存储介质包括用于执行如上所述的保持药物化学性质与功能一致性 的药物靶标预测方法的指令。
第四方面,本发明提供一种电子设备,包括如上所述的非暂态计算机可 读存储介质;以及能够执行所述非暂态计算机可读存储介质的所述指令的一 个或多个处理器。
本发明有益效果:通过同时考虑药物的化学属性和临床功能,从两个角 度共同去预测药物的可能靶标;通过自动编码器模型将药物的特征向量先投 影到蛋白空间,再投影到疾病空间,将药物-靶标相互作用预测任务由传统的 单标签分类任务改为了多标签任务,考虑了药物与蛋白质之间复杂的容斥关 系;通过保持药物化学相似性、功能相似性的一致性,保持了药物化学性 质、分子机制与临床功能的一致性。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的 描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前 提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所述的数据集构建流程示意图。
图2为本发明实施例所述的自动编码器工作原理示意图。
图3为本发明实施例所述的20种药物在药物空间(左)、蛋白空间 (中)、疾病空间(右)的相关性分布示例图。
具体实施方式
下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出, 其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功 能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明, 而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语 (包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一 般理解相同的意义。
还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与 现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用 理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式 “一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发 明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元 件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、 操作、元件和/或它们的组。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、 “具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特 征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且, 描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中 以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以 将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结 合和组合。
为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释 说明,且具体实施例并不构成对本发明实施例的限定。
本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并 不一定是实施本发明所必须的。
实施例1
本发明实施例1提供一种保持药物化学性质与功能一致性的药物靶标预测 系统,该系统包括:
获取模块,用于获取待预测的药物的化学指纹;
计算模块,用于利用训练好的特征选择模型,对药物的化学指纹进行处 理,得到药物与靶标的相互作用评分矩阵;所述特征选择模型将药物的靶标 视为药物在蛋白空间中的特征,将药物的适应症视为药物在疾病空间中的特 征;其中,特征选择模型在训练时,考虑靶标序列间的相似性和疾病间的相 似性,以不同药物在化学指纹空间(维度)中的相似性、靶标蛋白空间(维 度)中的相似性和疾病(适应症)空间(维度)中的相似性误差最小为目 标,使药物化学性质与功能保持一致;
判断模块,用于基于药物与靶标的相互作用评分矩阵,将评分最高的对 应靶标,作为该药物的候选靶标。
在本实施例1中,利用上述的系统实现了一种保持药物化学性质与功能一 致性的药物靶标预测方法,包括:
使用获取模块获取待预测的药物的化学指纹;
使用计算模块,利用训练好的特征选择模型,对药物的化学指纹进行处 理,得到药物与靶标的相互作用评分矩阵;所述特征选择模型将药物的靶标 视为药物在蛋白空间中的特征,将药物的适应症视为药物在疾病空间中的特 征;其中,特征选择模型在训练时,考虑靶标序列间的相似性和疾病间的相 似性,以不同药物在化学指纹空间(维度)中的相似性、靶标蛋白空间(维 度)中的相似性差异和疾病空间(维度)中的相似性误差最小为目标,使药 物化学性质与功能保持一致;
使用判断模块,基于药物与靶标的相互作用评分矩阵,将评分最高的对 应靶标,作为该药物的候选靶标。
在本实施例1中,训练所述特征选择模型包括:
提取每个药物的化学指纹、靶标序列信息和适应症信息,生成药物的化 学指纹特征矩阵、药物-靶标相互作用矩阵和药物-疾病关联矩阵;
基于药物的化学指纹特征矩阵、药物-靶标相互作用矩阵和药物-疾病关联 矩阵,分别计算药物的化学指纹相似性矩阵、靶标间的序列相似性矩阵和疾 病间的相似性矩阵;
基于药物的化学指纹相似性矩阵、靶标间的序列相似性矩阵和疾病间的 相似性矩阵,结合药物的化学指纹、作用的靶标和相关适应症分别计算药物 在药物(化学指纹维度)、蛋白、疾病三个空间中的相似性,并以保持三种 相似性的误差最小为目标,训练所述特征选择模型。
其中,基于药物的化学指纹相似性矩阵、靶标间的序列相似性矩阵和疾 病间的相似性矩阵,计算药物在靶标蛋白空间中的表示向量;
基于药物在靶标蛋白空间中的表示向量,获取药物在疾病空间中与各个 疾病的关联得分;
基于药物在靶标蛋白空间中的表示向量和药物在疾病空间中与各个疾病 的关联得分,计算每对药物分别在靶标蛋白空间中的相似性和疾病空间中的 相似性;
基于每对药物分别在靶标蛋白空间中的相似性和疾病空间中的相似性, 计算得到药物与靶标相互作用的评分矩阵。
其中,将药物的化学指纹,通过一个由两层全连接神经网络构成的编码 器,将药物投影到靶标蛋白空间中,得到药物与各个靶标间的相互作用评 分;将药物与各个靶标间的相互作用评分,通过解码器投影到疾病空间中, 得到药物与各个疾病的关联得分。
实施例2
本实施例2中,提出一种新的药物-靶标相互作用预测方法,该方法侧重 于保持药物化学性质、分子机制与临床表现的一致性。
首先从几个相关的公共数据库中提取了药物-靶标相互作用预测的数据 集,通过构建药物-蛋白质-疾病异质网络,整合了药物的化学指纹、蛋白质的 氨基酸序列、药物-靶标相互作用数据和药物的适应症数据。
之后,为了考虑药物在不同空间中的相关性,药物-靶标相互作用预测任 务被视为了一个多标签分类任务。具体而言,将药物的靶标视为药物在蛋白 质空间中的特征,将适应症视为药物在疾病空间中的特征。通过构造一个基 于深度神经网络的自动编码器模型,药物的特征向量先从原始的特征空间 (药物空间/维度)中被投影到了嵌入空间(蛋白质空间/维度),再从嵌入空 间投影到了标签空间(疾病空间/维度)。
本实施例2中,根据药物的化学指纹,目标靶标和适应症,分别计算了药 物的三种相似性。通过在预测过程中最小化这三种相似性之间的误差,药物 自身的化学属性、分子机制和临床功能的一致性得到了保持。
首先从网络数据库中提取的药物-靶标相互作用预测所需的数据集,并据 此计算了药物、靶标和疾病相似性(如图1所示),作为各类节点在其原始特 征空间中的相关性度量,具体步骤如下:
步骤一:从公共数据库中为数据集中的每个药物提取其化学指纹、靶向 蛋白和适应症信息,生成药物的化学指纹特征矩阵Fr∈Rm×k、药物-靶标相互 作用矩阵YRP∈Rm×q与药物-疾病关联矩阵YRD∈Rm×n。集合R={r1,r2,...,rm}表示数据 集中的m个药物,集合D={d1,d2,...,dn}表示数据集中的n个疾病,集合 P={p1,p2,...,pq}表示数据集中的q个蛋白。如果药物ri具有特征fj,则否则类似地,如果ri与疾病dj(或蛋白pk)具有已知的关联(或相互 作用),则设置(或),否则设置(或)。
步骤二:基于药物的化学指纹信息与疾病的相关药物信息,分别计算了 药物的化学指纹相似性矩阵Sr∈Rm×m和疾病的相似性矩阵Sd∈Rn×n。基于蛋白 的序列信息,计算了蛋白间的序列相似性矩阵Sp=Rq×q。其中,s(i,j)∈[0,1],且 s(i,j)越接近于1,节点i和节点j就越相似。
步骤三:在保持药物化学性质与功能一致的前提下基于自动编码器模型 预测药物的潜在靶标。如图2所示,将ri的化学指纹作为模型的输入,通过 一个由两层全连接神经网络构成的编码器,将ri投影到了蛋白空间中,得到了 ri与各个蛋白的相互作用评分,用向量表示,且越接近 于1,ri和pj间存在相互作用的可能性就越大。为了引入药物的适应症信息来 辅助DTI预测,通过一个解码器,将ri在蛋白空间中的表示向量投影到了疾 病空间中,得到了ri与各个疾病的关联得分,用向量表示。
考虑到药物存在着未被观测到的靶蛋白与适应症,这导致了药物-靶标相 互作用矩阵YRP和药物-疾病关联矩阵YRD中存在着特征缺失的问题。如果根据 缺失的特征矩阵去优化编码器与解码器,可能会在蛋白空间与疾病空间中改 变药物间的相关性关系。
如图3所示,根据药物的化学指纹、靶标蛋白与适应症,从数据集中随机 抽取了20种药物,并模拟了这些药物在药物空间、蛋白空间与疾病空间中的 相关性分布。显而易见的,三种空间中的相关性分布情况都有着一定程度上 的改变。
基于药物的化学性质与功能应该具有一致性的假设,具有相似化学性质 的药物应该具有相似的靶标和适应症,因此药物在三种空间中的相关性应该 保持一致。对于药物而言,其化学结构是已知且完整的,而其靶标信息和适 应症信息都存在着一定程度上的缺失。特征缺失所导致的相关性关系的不确 定性会对模型的预测结果造成负面的影响。
因此,本实施例2中,最后保持药物在药物-蛋白-疾病空间中相关性的一 致性,即保持药物化学性质、分子机制、临床功能的一致性。
具体步骤如下:
将编码器关于两个药物ri和rj的输出结果和视为这两个药物在蛋白 空间中的特征向量,并计算ri和rj在蛋白空间中的相似性,记为类似 地,计算ri和rj在疾病空间中的相似性通过最小化ri和rj在三种空间中 相似性S(i,j)、和之间的误差,以达到保持药物化学性质、分子机 制和临床功能一致的目的。
本实施例2中,药物的化学指纹为:
靶标、靶蛋白为:
药物发挥药效所需要结合的物质成为药物的靶标,诸如蛋白质、基因等 都可以作为药物的靶标。可以作为靶标的蛋白质,称为靶蛋白。
药物的功能(适应症)为:
包括药物的分子机制和临床功能两部分。药物的分子机制指药物可以结 合的靶标。药物的临床功能指药物可以治疗的疾病(即适应症)。
在本实施例2中,相似性计算包括:
基于药物的化学指纹信息与疾病的相关药物信息,分别计算了药物和疾 病的相似性。基于蛋白的序列信息,计算了蛋白间的序列相似性。
基于药物的SMILE信息,为数据集中的所有药物分别构建了其化学指 纹,得到了药物的化学指纹矩阵Fr∈Rm×k。据此,药物ri和rj间的化学相似性 Sr(i,j)可以被计算得到。类似地,根据与疾病相关联的药物信息,可以计算每 对疾病间的相似性,得到了疾病的相似性矩阵Sd∈Rn×n。
基于蛋白的序列信息,分别计算了每对蛋白间的序列相似性评分,得到 了蛋白的相似性矩阵Sp∈Rq×q。
本实施例2中,设计的基于自动编码器的特征选择模型,如图2所示。具 体来说,将ri的化学指纹作为模型的输入,通过一个由两层全连接神经网 络构成的编码器,将ri投影到了一个嵌入空间中,得到了ri在嵌入空间中的表 示向量 可以根据下面的公式计算得到:
此外,为了防止模型产生过拟合,在每一个全连接层后都添加了一个 BatchNormalizing层,将全连接层的输出拟合到一个标准高斯分布上。
编码器的损失和解码器的损失可以根据下面的公式分别计算得到:
据此,分别扩展了编码器和解码器的损失函数,如下所示:
基于相似的药物通常可以与相似的蛋白(疾病)存在相互作用(关联) 的假设,要在编(解)码器的预测结果中考虑到蛋白间(疾病间)的相似性 关系。因此,自动编码器模型的损失函数最终被定义为:
为了评估预测模型的性能,本实施例2中,通过五倍交叉验证,证明了其 预测准确性在AUC和AUPR两种评价指标上优于几个最先进(state-of-the-art) 的DTI预测方法,包括:DTINet、GRMF、MolTrans、NGDTP和DeepDTNet。 两个公开的药物-靶标相互作用预测数据集被用来测试本方法的效果,在AUC 和AUPR两个评价指标上都优于几个基线方法。
综上,本实施例2中提供的药物-靶标相互作用预测方法,包括药物大数 据的提取、多种节点间相似性的计算、基于深度学习的药物-靶标相互作用预 测和保持药物化学性质相似性和功能相似性一致四部分。药物-靶标相互作用 的预测包括基于编深度神经网络的药物-靶标相互作用预测和基于药物-疾病关 联信息的辅助预测两部分。保持药物化学性质相似性和功能相似性则包括了 保持药物化学性质与分子机制的一致性以及保持药物化学性质和临床功能一 致性两部分。
本实施例2中,通过同时考虑药物的化学属性和临床功能,从两个角度共 同去预测药物的可能靶标;通过自动编码器模型将药物的特征向量先投影到 蛋白空间,再投影到疾病空间,将药物-靶标相互作用预测任务由传统的单标 签分类任务改为了多标签任务,考虑了药物与蛋白质之间复杂的容斥关系; 通过保持药物化学相似性、功能相似性的一致性,保持了药物化学属性、分 子机制与临床功能的一致性。
实施例3
本发明实施例3提供一种非暂态计算机可读存储介质,所述非暂态计算机 可读存储介质包括用于执行保持药物化学性质与功能一致性的药物靶标预测 方法的指令,该方法包括:
获取待预测的药物的化学指纹;
利用训练好的特征选择模型,对药物的化学指纹进行处理,得到药物与 靶标的相互作用评分矩阵;所述特征选择模型将药物的靶标视为药物在蛋白 空间中的特征,将药物的适应症视为药物在疾病空间中的特征;其中,特征 选择模型在训练时,考虑靶标序列间的相似性和疾病间的相似性,以不同药 物间在药物空间、蛋白空间和疾病空间中相似性差异最小为目标,使药物化 学性质与功能保持一致;
基于药物与靶标的相互作用评分矩阵,将评分最高的对应靶标,作为该 药物的候选靶标。
实施例4
本发明实施例4提供一种电子设备,该电子设备包括一种非暂态计算机可 读存储介质;以及能够执行所述非暂态计算机可读存储介质的所述指令的一 个或多个处理器。所述非暂态计算机可读存储介质包括用于执行保持药物化 学性质与功能一致性的药物靶标预测方法的指令,该方法包括:
获取待预测的药物的化学指纹;
利用训练好的特征选择模型,对药物的化学指纹进行处理,得到药物与 靶标的相互作用评分矩阵;所述特征选择模型将药物的靶标视为药物在蛋白 空间中的特征,将药物的适应症视为药物在疾病空间中的特征;其中,特征 选择模型在训练时,考虑靶标序列间的相似性和疾病间的相似性,以不同药 物间在药物空间、蛋白空间和疾病空间中相似性差异最小为目标,使药物化 学性质与功能保持一致;
基于药物与靶标的相互作用评分矩阵,将评分最高的对应靶标,作为该 药物的候选靶标。
综上所述,本发明实施例所述的保持药物化学性质与功能一致性的药物 靶标预测方法及系统,侧重于保持药物化学性质、分子机制与临床表现的一 致性。
首先从几个相关的公共数据库中提取了药物-靶标相互作用预测的数据 集,通过构建药物-蛋白质-疾病异质网络,整合了药物的化学指纹、蛋白质的 氨基酸序列、药物-靶标相互作用数据和药物的适应症数据。之后,为了考虑 药物在不同空间中的相关性,药物-靶标相互作用预测任务被视为了一个多标 签分类任务。
具体而言,将药物的靶标视为药物在蛋白质空间中的特征,将适应症视 为药物在疾病空间中的特征。通过构造一个基于深度神经网络的自动编码器 模型,药物的特征向量先从原始的特征空间(药物空间)中被投影到了嵌入 空间(蛋白质空间),再从嵌入空间投影到了标签空间(疾病空间)。
根据药物的化学指纹,目标靶标和适应症,分别计算了药物的三种相似 性。通过在预测过程中最小化这三种相似性之间的误差,药物自身的化学属 性、分子机制和临床功能的一致性得到了保持。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或 计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、 或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个 其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘 存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序 产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程 图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流 程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算 机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使 得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现 在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功 能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器 中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或 多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上, 在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一 个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本 领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护 范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公 开保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案 的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或 变形,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种保持药物化学性质与功能一致性的药物靶标预测方法,其特征在于,包括:
获取待预测的药物的化学指纹;
利用训练好的特征选择模型,对药物的化学指纹进行处理,得到药物与靶标的相互作用评分矩阵,所述特征选择模型将药物的靶标视为药物在蛋白空间中的特征,将药物的适应症视为药物在疾病空间中的特征;其中,特征选择模型在训练时,考虑靶标序列间的相似性和疾病间的相似性,以不同药物间在药物空间、蛋白空间和疾病空间中相似性差异最小为目标,使药物化学性质与功能保持一致;
基于药物与靶标的相互作用评分矩阵,将评分最高的对应靶标,作为该药物的候选靶标。
2.根据权利要求1所述的保持药物化学性质与功能一致性的药物靶标预测方法,其特征在于,训练所述特征选择模型包括:
提取每个药物的化学指纹、靶标序列信息和适应症信息,生成药物的化学指纹特征矩阵、药物-靶标相互作用矩阵和药物-疾病关联矩阵;
基于药物的化学指纹特征矩阵、药物-靶标相互作用矩阵和药物-疾病关联矩阵,分别计算药物的化学指纹相似性矩阵、靶标间的序列相似性矩阵和疾病间的相似性矩阵;
基于药物的化学指纹相似性矩阵、靶标间的序列相似性矩阵和疾病间的相似性矩阵,结合药物的化学指纹、作用的靶标和相关适应症分别计算药物在药物、蛋白、疾病三个空间中的相似性,并以保持三种相似性的误差最小为目标,训练所述特征选择模型。
3.根据权利要求2所述的保持药物化学性质与功能一致性的药物靶标预测方法,其特征在于:
基于药物的化学指纹相似性矩阵、靶标间的序列相似性矩阵和疾病间的相似性矩阵,计算药物在靶标蛋白空间中的表示向量;
基于药物在靶标蛋白空间中的表示向量,获取药物在疾病空间中与各个疾病的关联得分;
基于药物在靶标蛋白空间中的表示向量和药物在疾病空间中与各个疾病的关联得分,计算每对药物分别在靶标蛋白空间中的相似性和疾病空间中的相似性;
基于每对药物分别在靶标蛋白空间中的相似性和疾病空间中的相似性,计算得到药物与靶标相互作用的评分矩阵。
4.根据权利要求3所述的保持药物化学性质与功能一致性的药物靶标预测方法,其特征在于:
将药物的化学指纹,通过一个由两层全连接神经网络构成的编码器,将药物投影到靶标蛋白空间中,得到药物与各个靶标间的相互作用评分;
将药物与各个靶标间的相互作用评分,通过解码器投影到疾病空间中,得到药物与各个疾病的关联得分。
8.一种保持药物化学性质与功能一致性的药物靶标预测系统,其特征在于,包括:
获取模块,用于获取待预测的药物的化学指纹;
计算模块,利用训练好的特征选择模型,对药物的化学指纹进行处理,得到药物与靶标的相互作用评分矩阵,所述特征选择模型将药物的靶标视为药物在蛋白空间中的特征,将药物的适应症视为药物在疾病空间中的特征;其中,特征选择模型在训练时,考虑靶标序列间的相似性和疾病间的相似性,以不同药物间在药物空间、蛋白空间和疾病空间中相似性差异最小为目标,使药物化学性质与功能保持一致;
判断模块,用于基于药物与靶标的相互作用评分矩阵,将评分最高的对应靶标,作为该药物的候选靶标。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质包括用于执行如权利要求1-7任一项所述的保持药物化学性质与功能一致性的药物靶标预测方法的指令。
10.一种电子设备,其特征在于,包括如权利要求9所述的非暂态计算机可读存储介质;以及能够执行所述非暂态计算机可读存储介质的所述指令的一个或多个处理器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110626082.0A CN113345535A (zh) | 2021-06-04 | 2021-06-04 | 保持药物化学性质与功能一致性的药物靶标预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110626082.0A CN113345535A (zh) | 2021-06-04 | 2021-06-04 | 保持药物化学性质与功能一致性的药物靶标预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113345535A true CN113345535A (zh) | 2021-09-03 |
Family
ID=77474015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110626082.0A Pending CN113345535A (zh) | 2021-06-04 | 2021-06-04 | 保持药物化学性质与功能一致性的药物靶标预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113345535A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115458061A (zh) * | 2022-10-13 | 2022-12-09 | 南开大学 | 一种药物-蛋白质相互作用预测方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902848A (zh) * | 2012-12-28 | 2014-07-02 | 深圳先进技术研究院 | 基于药物相互作用相似性识别药物靶标的系统及方法 |
CN107731309A (zh) * | 2017-08-31 | 2018-02-23 | 武汉百药联科科技有限公司 | 一种药物活性的预测方法及其应用 |
CN110289050A (zh) * | 2019-05-30 | 2019-09-27 | 湖南大学 | 一种基于图卷积和词向量的药物-靶标相互作用预测方法 |
CN111785320A (zh) * | 2020-06-28 | 2020-10-16 | 西安电子科技大学 | 基于多层网络表示学习的药物靶标相互作用预测方法 |
CN112420126A (zh) * | 2020-12-07 | 2021-02-26 | 湖南大学 | 一种基于多源数据融合和网络结构扰动的药物靶标预测方法 |
CN112863693A (zh) * | 2021-02-04 | 2021-05-28 | 东北林业大学 | 基于多通道图卷积网络的药物靶标相互作用预测方法 |
-
2021
- 2021-06-04 CN CN202110626082.0A patent/CN113345535A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902848A (zh) * | 2012-12-28 | 2014-07-02 | 深圳先进技术研究院 | 基于药物相互作用相似性识别药物靶标的系统及方法 |
CN107731309A (zh) * | 2017-08-31 | 2018-02-23 | 武汉百药联科科技有限公司 | 一种药物活性的预测方法及其应用 |
CN110289050A (zh) * | 2019-05-30 | 2019-09-27 | 湖南大学 | 一种基于图卷积和词向量的药物-靶标相互作用预测方法 |
CN111785320A (zh) * | 2020-06-28 | 2020-10-16 | 西安电子科技大学 | 基于多层网络表示学习的药物靶标相互作用预测方法 |
CN112420126A (zh) * | 2020-12-07 | 2021-02-26 | 湖南大学 | 一种基于多源数据融合和网络结构扰动的药物靶标预测方法 |
CN112863693A (zh) * | 2021-02-04 | 2021-05-28 | 东北林业大学 | 基于多通道图卷积网络的药物靶标相互作用预测方法 |
Non-Patent Citations (2)
Title |
---|
CHANG SUN ET AL: "Autoencoder-based drug–target interaction prediction by preserving the consistency of chemical properties and functions of drugs", 《BIOINFORMATICS》 * |
孙畅: "面向异构网络的药物与靶标相互作用预测方法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 医药卫生科技辑 》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115458061A (zh) * | 2022-10-13 | 2022-12-09 | 南开大学 | 一种药物-蛋白质相互作用预测方法及系统 |
CN115458061B (zh) * | 2022-10-13 | 2024-01-23 | 南开大学 | 一种药物-蛋白质相互作用预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Masoudi-Sobhanzadeh et al. | Trader as a new optimization algorithm predicts drug-target interactions efficiently | |
Pauwels et al. | Predicting drug side-effect profiles: a chemical fragment-based approach | |
CN112599187B (zh) | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 | |
CN113470741B (zh) | 药物靶标关系预测方法、装置、计算机设备及存储介质 | |
Yang et al. | PDGNet: predicting disease genes using a deep neural network with multi-view features | |
Hu et al. | A convolutional neural network system to discriminate drug-target interactions | |
Zhou et al. | Knowledge-aware attention network for protein-protein interaction extraction | |
CN112562791A (zh) | 基于知识图谱的药物靶标作用深度学习预测系统、计算机设备、存储介质 | |
Cui et al. | Boosting gene expression clustering with system-wide biological information: a robust autoencoder approach | |
CN116013428A (zh) | 基于自监督学习的药物靶标通用预测方法、设备及介质 | |
CN115472221A (zh) | 一种基于深度学习的蛋白质适应度预测方法 | |
CN116206688A (zh) | 一种用于dta预测的多模态信息融合模型及方法 | |
Sun et al. | Protein function prediction using function associations in protein–protein interaction network | |
Zhao et al. | A multi-graph deep learning model for predicting drug-disease associations | |
Zhao et al. | Gifdti: prediction of drug-target interactions based on global molecular and intermolecular interaction representation learning | |
CN113345535A (zh) | 保持药物化学性质与功能一致性的药物靶标预测方法及系统 | |
Wang et al. | LDS-CNN: A deep learning framework for drug-target interactions prediction based on large-scale drug screening | |
AU2021104604A4 (en) | Drug target prediction method for keeping consistency of chemical properties and functions of drugs | |
CN116206775A (zh) | 一种融合多维度特征的药物-靶点相互作用预测方法 | |
Shi et al. | ToxMVA: An end-to-end multi-view deep autoencoder method for protein toxicity prediction | |
Mathur | Bioinformatics challenges: a review | |
Wang et al. | Predicting polypharmacy side effects based on an enhanced domain knowledge graph | |
CN114999566A (zh) | 基于词向量表征和注意力机制的药物重定位方法及系统 | |
Min et al. | Sequence-based deep learning frameworks on enhancer-promoter interactions prediction | |
Deng et al. | Predict the protein-protein interaction between virus and host through hybrid deep neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210903 |