CN112133367A - 药物与靶点间的相互作用关系预测方法及装置 - Google Patents

药物与靶点间的相互作用关系预测方法及装置 Download PDF

Info

Publication number
CN112133367A
CN112133367A CN202010824226.9A CN202010824226A CN112133367A CN 112133367 A CN112133367 A CN 112133367A CN 202010824226 A CN202010824226 A CN 202010824226A CN 112133367 A CN112133367 A CN 112133367A
Authority
CN
China
Prior art keywords
predicted
target
drug
similarity
medicine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010824226.9A
Other languages
English (en)
Inventor
曹东升
印明柱
陈翔
杨素青
程岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202010824226.9A priority Critical patent/CN112133367A/zh
Publication of CN112133367A publication Critical patent/CN112133367A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Abstract

本申请涉及一种药物与靶点间的相互作用关系预测方法及装置,所述方法包括:获取待预测药物‑靶点对,待预测药物‑靶点对包括待预测药物的药物特征,以及待预测靶点的靶点特征;根据药物特征确定待预测药物与已知药物的相似度,根据靶点特征确定待预测靶点与已知靶点的相似度;根据待预测药物与各已知药物的相似度、待预测靶点与各已知靶点的相似度,以及药物与靶点之间的已知相互作用关系,确定待预测药物‑靶点对的相互作用关系预测结果。上述方法通过药物特征、靶点特征以及已知的药物靶点之间相互作用关系来预测药物靶点之间的相互作用关系,无需提前知道靶点蛋白的结构,使得药物‑靶点关系对的预测在实际情况中更容易实现。

Description

药物与靶点间的相互作用关系预测方法及装置
技术领域
本申请涉及生物医药技术领域,特别是涉及一种药物与靶点间的相互作用关系预测方法、装置、计算机设备和存储介质。
背景技术
随着药物研发技术的迅速发展,包括基因组学、蛋白质组学以及系统生物学在内的多种手段已广泛应用于药物靶点的鉴别和创新药物的发现。但创新药物研发依然周期漫长,耗资巨大,而且风险较高,成功率低。现代的药物研发已经逐渐由以往的“单靶点,单药物”转变为现在倡导的“多靶点,多药物”的研发模式,即网络药理学。网络药理学旨在从已有的数据基础上鉴别更多的与疾病相关的样本靶点以及在此基础上进行新的药物实体的研发。不过,样本靶点的鉴别已经成为众多步骤中最为关键的环节。随着基因组测序计划的完成,海量的蛋白质序列数据在基因水平上是可以获得的,这为发现新颖的未知药物靶点提供了很好的机会。
分子对接方法是一种通过分子动力学方法来模拟药物和样本靶点之间的相互作用关系的方法。它最终可以通过一系列的能力得分来最终排序药物与靶点相互作用强度的大小。然而,分子对接方法的一个明显限制是必须知道蛋白质的三位立体结构;在实际中这种限制对于膜蛋白质来说是最为严重的,例如,大量的GPCR的三位结构是未知的。因此传统的研究药物与靶点间的相互作用的计算方法受到了一定程度上的限制。
发明内容
基于此,有必要针对上述技术问题,提供一种药物与靶点间的相互作用关系预测方法及装置,能够在未知蛋白质结构的情况下实现药物与靶点之间的相互作用关系预测。
一种药物与靶点间的相互作用关系预测方法,所述方法包括:
获取待预测药物-靶点对,所述待预测药物-靶点对包括待预测药物的药物特征,以及待预测靶点的靶点特征;
根据所述药物特征确定所述待预测药物与已知药物的相似度,根据所述靶点特征确定所述待预测靶点与已知靶点的相似度;
根据所述待预测药物与各已知药物的相似度、所述待预测靶点与各已知靶点的相似度,以及药物与靶点之间的已知相互作用关系,确定所述待预测药物-靶点对的相互作用关系预测结果。
一种药物与靶点间的相互作用关系预测装置,所述装置包括:
获取模块,用于获取待预测药物-靶点对,所述待预测药物-靶点对包括待预测药物的药物特征,以及待预测靶点的靶点特征;
相似度确定模块,用于根据所述药物特征确定所述待预测药物与已知药物的相似度,根据所述靶点特征确定所述待预测靶点与已知靶点的相似度;
预测模块,用于根据所述待预测药物与各已知药物的相似度、所述待预测靶点与各已知靶点的相似度,以及药物与靶点之间的已知相互作用关系,确定所述待预测药物-靶点对的相互作用关系预测结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待预测药物-靶点对,所述待预测药物-靶点对包括待预测药物的药物特征,以及待预测靶点的靶点特征;
根据所述药物特征确定所述待预测药物与已知药物的相似度,根据所述靶点特征确定所述待预测靶点与已知靶点的相似度;
根据所述待预测药物与各已知药物的相似度、所述待预测靶点与各已知靶点的相似度,以及药物与靶点之间的已知相互作用关系,确定所述待预测药物-靶点对的相互作用关系预测结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待预测药物-靶点对,所述待预测药物-靶点对包括待预测药物的药物特征,以及待预测靶点的靶点特征;
根据所述药物特征确定所述待预测药物与已知药物的相似度,根据所述靶点特征确定所述待预测靶点与已知靶点的相似度;
根据所述待预测药物与各已知药物的相似度、所述待预测靶点与各已知靶点的相似度,以及药物与靶点之间的已知相互作用关系,确定所述待预测药物-靶点对的相互作用关系预测结果。
上述药物与靶点间的相互作用关系预测方法及装置,获取到待预测药物-靶点对的药物特征和靶点特征,基于药物特征、靶点特征计算待预测药物与其它已知药物之间的相似度,待预测靶点与其它已知靶点之间的相似度,进一步根据上述相似度与药物和靶点之间的已知相互作用关系,确定待预测药物-靶点对中待预测药物和待预测靶点之间的相互作用预测结果。上述方法通过药物特征、靶点特征以及已知的药物靶点之间相互作用关系来实现对待预测药物、待预测靶点之间的相互作用关系的预测,无需提前知道靶点蛋白的结构,使得药物-靶点关系对的预测在实际情况中更容易实现。
附图说明
图1为一个实施例中药物与靶点间的相互作用关系预测方法的流程示意图;
图2为一个实施例中根据待预测药物与已知药物的相似度、待预测靶点与已知靶点的相似度,以及药物与靶点之间的已知相互作用关系,确定待预测药物-靶点对的相互作用关系预测结果的流程示意图;
图3为另一个实施例中药物与靶点间的相互作用关系预测方法的流程示意图;
图4为另一个实施例中药物与靶点间的相互作用关系预测方法的流程示意图;
图5为一个具体实施例中药物与靶点间的相互作用关系预测方法的流程示意图;
图6为一个实施例中的药物与靶点间的相互作用关系预测装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种药物与靶点间的相互作用关系预测方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括步骤S110至步骤S130。
步骤S110,获取待预测药物-靶点对,待预测药物-靶点对包括待预测药物的药物特征,以及待预测靶点的靶点特征。
待预测药物-靶点对包括一个药物分子(待预测药物)和一个靶点蛋白(待预测靶点),本实施例中对于药物分子与靶点蛋白之间是否具备相互作用关系进行预测。药物特征是指可以用于表征药物的一个信息;在一个实施例中,药物特征包括药物的化学结构、药物在治疗和化学的分类系统中的分类信息、与药物关联的疾病信息、药物基因表达谱,以及药物在已知药物-靶点关系网络中的邻接节点、节点度等等信息。与药物特征类似地,靶点特征则是表示靶点蛋白的一个信息;在一个实施例中,靶点特征包括靶点蛋白序列、靶点与其它靶点之间的相互作用紧密度、靶点蛋白的基因本体、靶点蛋白的氨基酸性质,以及靶点在已知药物-靶点关系网络中的邻接节点、节点度等等信息。在一个实施例中,药物特征包括多个预设尺度的药物特征,靶点特征包括多个预设尺度的靶点特征。
步骤S120,根据药物特征确定待预测药物与已知药物的相似度,根据靶点特征确定待预测靶点与已知靶点的相似度。
在本实施例中,在对待预测药物-靶点对的相互作用关系进行预测时,需要用到该药物与其它药物之间的相似性、该靶点与其它靶点之间的相似性,其中所用到的其它药物、其它靶点即为本实施例中的已知药物和已知靶点。在一个实施例中,已知药物为从预设数据库中获取的符合预设条件的药物分子,已知靶点为从预设数据库中获取的符合预设条件的靶点蛋白;进一步地符合预设条件的药物分子包括预设数据库中去除混合物药物、生物药物等之后剩余的药物分子,符合预设条件的靶点蛋白包括预设数据库中去除与代谢相关的蛋白质之后剩余的靶点蛋白。在一个具体实施例中,预设数据库为DrugBank数据库。
在一个实施例中,相似度表示两个事物之间的相似性得分。在一个实施例中,根据药物特征确定待预测药物与已知药物的药物相似度包括:获取已知药物的同一药物特征,计算待预测药物的药物特征与已知药物的同一药物特征之间的相似度;根据靶点特征确定待预测靶点与已知靶点的相似度包括:获取已知靶点的同一靶点特征,计算待预测靶点的靶点特征与已知靶点的同一靶点特征之间的相似度。例如在一个具体实施例中,待预测药物的药物特征为待预测药物的化学结构,在确定相似度时,获取已知药物的化学结果,计算待预测药物的化学结构与已知药物的化学结构的相似度,按照同样的方法分别计算待预测药物与各已知药物的相似度;其中,计算化学结构相似度可通过任意一种方式实现;在一个具体实施例中,可基于ECFP4指纹(Extended-Connectivity Fingerprints,ECFPs,一种圆形拓扑指纹;ECFP中的原子环境直径设置为4,即ECFP4指纹),计算药物与药物分子间的Tanimoto相似性计算化学结构的相似度。可以理解地,计算靶点的相似度与计算药物相似度类似。
在一个实施例中,药物特征包括三个以上,靶点特征包括三个以上;在本实施例中,根据药物特征确定待预测药物与已知药物之间的相似度包括分别以各药物特征作为选中特征,确定待预测药物与已知药物的选中特征的相似度;同理,根据靶点特征确定待预测靶点与已知靶点之间的相似度包括分别以各靶点特征作为选择特征,确定待预测靶点与已知靶点的选中特征的相似度;可以理解地,在本实施例中,有多少个药物特征对应有多少个对应的药物相似度,有多少个靶点特征即对应有多少个靶点相似度。
步骤S130,根据待预测药物与各已知药物的相似度、待预测靶点与各已知靶点的相似度,以及药物与靶点之间的已知相互作用关系,确定待预测药物-靶点对的相互作用关系预测结果。
其中,药物与靶点之间的已知相互作用关系是指已知药物和已知靶点之间已经被发现存在的相互作用关系;在一个实施例中,药物与靶点之间的已知相互作用关系可从预设数据库中获取。已知药物和已知靶点包括三个以上,从多个不同尺度计算待预测药物与同一已知药物的相似度,从多个不同尺度计算待预测靶点与同一靶点的相似度,可得到待预测药物与同一已知药物的多个相似度、待预测靶点与同一已知靶点的多个相似度;进一步地,分别计算待预测药物与多个已知药物之间的相似度,待预测靶点与多个已知靶点之间的相似度。
在一个实施例中,如图2所示,根据待预测药物与已知药物的相似度、待预测靶点与已知靶点的相似度,以及药物与靶点之间的已知相互作用关系,确定待预测药物-靶点对的相互作用关系预测结果,包括步骤S131至步骤S134。
步骤S131,根据待预测药物与已知药物的相似度确定与待预测药物的相似度高于药物相似度阈值的目标已知药物,根据待预测靶点与已知靶点的相似度确定与待预测靶点的相似度高于靶点相似度阈值的目标已知靶点。
在一个实施例中,根据一种尺度的相似度可确定与待预测药物相似度较高的已知药物,记为目标已知药物;可以理解地,相似度包括多种尺度时,根据多种尺度中的每一个尺度的相似度均可得到与待预测药物相似度较高的已知药物。其中,药物相似度阈值、靶点相似度阈值均可根据实际情况进行设置。
步骤S132,分别根据待预测药物与各目标已知药物的相似度,以及目标已知药物与待预测靶点的相互作用关系,确定待预测药物与待预测靶点的第一相互作用概率。
步骤S133,分别根据待预测靶点与各目标已知靶点的相似度,以及目标已知靶点与待预测药物的相互作用关系,确定待预测药物与待预测靶点的第二相互作用概率。
在一个实施例中,可通过协同过滤推荐系统实现上述确定第一相互作用概率和第二相互作用概率。协同过滤推荐系统确定第一相互作用概率和第二作用概率包括:针对同一尺度的相似度,确定待预测药物相似度高于对应阈值的目标已知药物,获取各目标已知药物与待预测靶点是否具备相互作用关系,将其中与待预测靶点具备相互作用关系的目标已知药物记为关联已知药物,对各关联已知药物与待预测药物的相似度求和,并除以关联已知药物的个数,得到第一相互作用概率。以药物相似度包括药物的化学结构相似度为例,假设根据化学结构相似度得到相似度大于阈值的目标已知药物包括2个,相似度分别为s1和s2,且该2个目标已知药物均与待预测靶点具备相互作用关系,待预测药物与待预测靶点之间的第一相互作用概率为(s1+s2)/2。同理,根据其他尺度的相似度同样可以确定各尺度下的第一相互作用概率。
与待预测药物类似地,针对同一尺度的相似度,确定待预测靶点相似度高于对应阈值的目标已知靶点,获取各目标已知靶点与待预测药物是否具备相互作用关系,将其中与待预测药物具备相互作用关系的目标已知靶点记为关联已知靶点,对各关联已知靶点与待预测药物的相似度求和,并除以关联已知靶点的个数,得到第二相互作用概率。
在一个具体实施例中,计算第一相互作用概率的过程可用以下公式表示:
Figure BDA0002635550220000071
其中,score(di,aj)表示待预测药物di和待预测靶点aj之间的第一相互作用概率,s(di,dm)为待预测药物di和已知药物dm间的相似度。N(i)为最相似于药物di的k个药物的集合(目标已知药物)。如果药物dm和靶点aj具备相互作用关系,tm,j=1,否则tm,j=0。
上述公式同样适用于计算第二相互作用概率:
Figure BDA0002635550220000072
其中,score(di,aj)表示待预测药物di和待预测靶点aj之间的第二相互作用概率,s(aj,am)为待预测靶点aj和已知靶点am间的相似度。N(i)为最相似于待预测靶点aj的k个靶点的集合(目标已知靶点)。如果已知靶点am和已知靶点aj具备相互作用关系,tm,j=1,否则tm,j=0。
步骤S134,基于各第一相互作用概率和各第二相互作用概率,确定待预测药物-靶点对的相互作用关系预测结果。
在一个实施例中,通过相互作用关系预测模型实现基于各第一相互作用概率和各第二相互作用概率,确定待预测药物-靶点对的相互作用关系预测结果。其中,相互作用关系预测模型是预先根据药物-靶点间的相互作用关系样本集训练确定的。
在一个实施例中,在确定待预测药物-靶点对的相互作用关系预测结果之前,还包括对各第一相互作用概率、各第二相互作用概率进行归一化处理,得到归一化结果,在确定待预测药物-靶点对的相互作用关系预测结果时,基于各第一相互作用概率和各第二相互作用概率分别对应的归一化结果确定药物-靶点对的相互作用关系预测结果。
上述药物与靶点间的相互作用关系预测方法,获取到待预测药物-靶点对的药物特征和靶点特征,基于药物特征、靶点特征计算待预测药物与其它已知药物之间的相似度,待预测靶点与其它已知靶点之间的相似度,进一步根据上述相似度与药物和靶点之间的已知相互作用关系,确定待预测药物-靶点对中待预测药物和待预测靶点之间的相互作用预测结果。上述方法通过药物特征、靶点特征以及已知的药物靶点之间相互作用关系来实现对待预测药物、待预测靶点之间的相互作用关系的预测,无需提前知道靶点蛋白的结构,使得药物-靶点关系对的预测在实际情况中更容易实现。
在一个实施例中,待预测药物的药物特征包括待预测药物的化学结构、待预测药物在解剖学治疗学及化学分类系统中的分类信息、待预测药物的关联疾病信息、待预测药物的基因表达谱,以及待预测药物在已知药物-靶点关系网络中的连接关系。
在一个实施例中,待预测药物的药物特征包括药物化学结构;在本实施例中,根据药物特征确定待预测药物与已知药物的相似度,包括:根据化学结构确定待预测药物与已知药物的化学结构相似度。可以理解地,在本实施例中,药物与药物之间的相似度包括化学结构相似度。
其中,药物的化学结构是指药物的SMILES结构式(Simplified molecular inputline entry specification,简化分子线性输入规范,是一种用ASCII字符串明确描述分子结构的规范),在一个具体实施例中,药物的SMILES结构式可从DrugBank数据库获得。
在一个具体实施例中,在获得待预测药物的化学结构之后,采用RDKit软件中的拓展连接性指纹(Extended-Connectivity Fingerprints,ECFPs,一种圆形拓扑指纹)用来表征药物的结构信息。在一个具体实施例中,ECFP中的原子环境直径设置为4,即ECFP4指纹。基于ECFP4指纹,采用Tanimoto相似度算法计算两个药物分子之间的相似度。
在另一个实施例中,待预测药物的药物特征包括药物在解剖学治疗学及化学分类系统中的分类信息;在本实施例中,根据药物特征确定待预测药物与已知药物的相似度,包括:根据分类信息确定待预测药物与已知药物的分类信息相似度。可以理解地,在本实施例中,药物与药物之间的相似度包括分类信息相似度。
其中,解剖学治疗学及化学分类系统(Anatomical Therapeutic Chemical,ATC),是指世界卫生组织对药品的官方分类系统;在一个具体实施例中,药物在解剖学治疗学及化学分类系统的分类信息可从DrugBank数据库和STITCH数据库中获取。进一步地,在一个实施例中,一个药物的分类信息包括三个层次:药物起作用的器官,药物的疗效以及药物的化学表征。
在一个具体实施例中,在获得待预测药物在解剖学治疗学及化学分类系统中的分类信息之后,基于分类信息使用Resnik的语义相似性算法计算两个药物分子之间的相似度。
在另一个实施例中,待预测药物的药物特征包括与待预测药物的关联疾病信息;在本实施例中,根据药物特征确定待预测药物与已知药物的相似度,包括:根据关联疾病信息确定待预测药物与已知药物的关联疾病相似度。可以理解地,在本实施例中,药物与药物之间的相似度包括关联疾病相似度。
在一个具体实施例中,与药物的关联疾病信息可从CTD数据库获取;进一步地,每种疾病识别代码可从人类孟德尔在线遗传(OMIM)数据库获得;不同疾病间的关系通过人类表型本体论(HPO)来刻画。
在一个具体实施例中,在获得待预测药物的关联疾病信息之后,基于关联疾病信息使用Resnik的语义相似性算法计算两个药物分子之间的相似度。
在另一个实施例中,待预测药物的药物特征包括药物的基因表达谱;在本实施例中,根据药物特征确定待预测药物与已知药物的相似度,包括:根据基因表达谱确定待预测药物与已知药物的基因表达谱相似度。可以理解地,在本实施例中,药物与药物之间的相似度包括基因表达谱相似度。
其中,基因表达谱(gene expression profile):指构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,通过大规模的cDN测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱。在一个具体实施例中,基因表达响应数据从Connectivity Map(CMap)数据库获得。
在一个具体实施例中,在获取到待预测药物和已知药物的基因表达谱之后,获取基于Pacini开发的DvD软件包计算得到500个表达差异最显著的基因(250个上调的基因和250个下调的基因),进而得到药物的基因表达谱。进一步地,采用Tanimoto相似性算法确定待预测药物与已知药物之间的相似性。
在另一个实施例,待预测药物的药物特征包括待预测药物在已知药物-靶点关系网络中的连接关系;在本实施例中,根据药物特征确定待预测药物与已知药物的相似度,包括:根据待预测药物在已知药物-靶点关系网络中的连接关系确定待预测药物与已知药物的相似度。可以理解地,在本实施例中,待预测药物与已知药物之间的相似度包括待预测药物与已知药物的相似度。
其中,待预测药物在已知药物-靶点关系网络中的连接关系包括待预测药物在该关系网络中的邻接节点、节点度等信息;其中,已知药物-靶点关系网络为根据已知药物和已知靶点之间已经被确认发现的相互作用关系构建的关系网络,分别将已知药物和已知靶点作为节点,将已知的相互作用关系作为节点之间的连接,构建得到已知药物-靶点关系网络。
进一步地,在一个实施例中,根据待预测药物在已知药物-靶点关系网络中的连接关系确定待预测药物与已知药物的相似度,包括:读取连接关系中待预测药物的邻接节点;根据待预测药物的邻接节点确定待预测药物与已知药物的相似度。
在一个具体实施例中,读取待预测药物在已知药物-靶点关系网络中的邻接列表(包括待预测药物的所有邻接节点),以及已知药物在已知药物-靶点关系网络中的邻接列表(包括已知药物的所有邻接节点),基于两药物分子的邻接列表采用Tanimoto相似性算法计算待预测药物与已知药物的相似度。在另一个具体实施例中,基于两药物分子的邻接节点,采用SimRank(一种基于图的拓扑结构信息来衡量任意两个对象间相似程度的模型)算法计算待预测药物与已知药物的相似度;根据由药物与靶点构成的二部图网络,具体计算方式可通过以下公式表示:
Figure BDA0002635550220000101
其中,a和b分别表示待预测药物和已知药物对应的节点,S(a,b)表示待预测药物和已知药物的相似度,N(a)和N(b)分别为节点a和b在已知药物-靶点关系网络中的邻接节点;在一个具体实施例中,C可根据实际情况设置为0.8。
在另一个实施例中,根据待预测药物在已知药物-靶点关系网络中的连接关系确定待预测药物与已知药物的相似度,包括:根据连接关系确定待预测药物与已知药物之间的路径距离;根据路径距离确定待预测药物与已知药物的相似度。
其中,待预测药物与已知药物之间的路径距离是指待预测药物与已知药物在已知药物-靶点关系网络中所在节点之间的路径;在一个具体实施例中,采用Katz指标来反映网络中路径距离;具体可用以下公式表示:
Figure BDA0002635550220000111
其中,x,y分别表示待预测药物和已知药物对应的节点,S(x,y)表示节点x,y之间的路径距离,
Figure BDA0002635550220000112
表示从节点x到节点y间的所有路径长度为l的路径集合。β根据实际情况可设置为0.0001。在本实施例中,利用待预测药物与已知药物在已知药物-靶点关系网络中的路径距离表征待预测药物与已知药物的相似度,路径距离越大相似度越低。
在一个实施例中,对于待预测药物和各已知药物,分别按照上述方法计算相似度,可根据各相似度确定与待预测药物较为相似的一种或多种已知药物。
在一个实施例中,待预测靶点的靶点特征包括待预测靶点的靶点序列、待预测靶点与已知靶点之间的相互作用关系、待检测靶点的基因本体信息、待检测靶点的氨基酸属性,以及待预测靶点在已知药物-靶点关系网络中的连接关系。
在一个实施例中,待预测靶点的靶点特征包括待预测靶点的靶点序列;在本实施例中,根据靶点特征确定待预测靶点与已知靶点的相似度,包括:根据靶点信息确定待预测靶点与已知靶点的靶点序列相似度。
在一个具体实施例中,靶点的靶点信息可从DrugBank、MATADOR和KEGG DRUG数据库获取;靶点蛋白序列从Uniprot数据库获取。在计算两靶点间相似性时,首先利用Smith-Waterman局部序列比对算法用来计算待预测靶点与已知靶点两序列间比对得分,然后将得分与两序列自身的比对得分并进行归一化处理,得到待预测靶点与已知靶点的相似度。
在另一个实施例中,待预测靶点的靶点特征包括待预测靶点与已知靶点之间的相互作用关系;在本实施例中,根据靶点特征确定待预测靶点与已知靶点的相似度,包括:根据待预测靶点与已知靶点之间的相互作用关系确定待预测靶点与已知靶点之间的最短路径。
在一个具体实施例中,人类蛋白质-蛋白质相互作用(PPI,protein proteininteraction network)数据从BioGRID数据库获取;通过在PPI网络上使用最短路径算法来计算两两靶点间的距离。进一步地,将通过最短路径法计算得到的待预测靶点与已知靶点间的距离转化为两靶点蛋白间的相似性:
Figure BDA0002635550220000121
其中,p1,p2分别表示待预测靶点和已知靶点,S(p1,p2)为两个靶点蛋白间相似性值,D(p1,p2)为在PPI网络中两个靶点间的最短路径,A根据实际情况可设置为0.9×e。其中,计算两个靶点间的最短路径的方法可通过任意一种方式实现。
在另一个实施例中,待预测靶点的靶点特征包括待检测靶点的基因本体信息;在本实施例中,根据靶点特征确定待预测靶点与已知靶点的相似度,包括:根据基因本体信息确定待预测靶点与已知靶点的基因本体相似度。
在本实施例中,用靶点的基因本体(GO)信息来表征靶点,在一个实施例中,基因本体信息包括生物过程、细胞成分和分子功能信息;在一个具体实施例中,靶点GO信息可从UniProt数据库获取。进一步地,计算靶点的基因本体相似度包括:计算靶点的基因本体信息的语义相似性;更进一步地,采用GOSemSim软件包计算靶点基因本体间的语义相似性。
在另一个实施例中,待预测靶点的靶点特征包括待检测靶点的氨基酸属性;在本实施例中,根据靶点特征确定待预测靶点与已知靶点的相似度,包括:根据氨基酸属性确定待预测靶点与已知靶点的氨基酸相似度。
其中,氨基酸属性包括氨基酸的物理化学属性信息。在本实施例中,用氨基酸物理化学属性信息来表征靶点,对于每个靶点可转化得到一个多维的特征向量;利用氨基酸物理化学属性信息表征靶点可通过任意一种方式实现。进一步地,在一个具体实施例中,靶点蛋白间的相似度包括:计算待预测靶点与已知靶点的氨基酸属性的cosine相似性,得到待预测靶点与已知靶点的氨基酸相似度。
在另一个实施例中,待预测靶点的靶点特征包括待预测靶点在已知药物-靶点关系网络中的连接关系;在本实施例中,根据靶点特征确定待预测靶点与已知靶点的相似度,包括:根据待预测靶点在已知药物-靶点关系网络中的连接关系确定待预测靶点与已知靶点的相似度。
其中,待预测靶点在已知药物-靶点关系网络中的连接关系包括待预测靶点在该关系网络中的邻接节点、节点度等信息。
进一步地,在一个实施例中,根据待预测靶点在已知药物-靶点关系网络中的连接关系确定待预测靶点与已知靶点的相似度,包括:读取连接关系中待预测靶点的邻接节点;根据待预测靶点的邻接节点确定待预测靶点与已知靶点的相似度。
读取待预测靶点在已知药物-靶点关系网络中的邻接列表(待预测靶点的所有邻接节点),以及已知靶点在已知药物-靶点关系网络中的邻接列表,基于两靶点的邻接列表采用Tanimoto相似性算法计算待预测靶点与已知靶点的相似度。在另一个具体实施例中,基于两靶点的邻接节点,采用SimRank算法计算待预测靶点与已知靶点的相似度;根据由药物和靶点构成的二部图网络,具体计算方式可通过以下公式表示:
Figure BDA0002635550220000131
其中,a和b分别表示待预测靶点和已知靶点对应的节点,S(a,b)表示待预测靶点和已知靶点的相似度,N(a)和N(b)分别为节点a和b在已知药物-靶点关系网络中的邻接节点;在一个具体实施例中,C可根据实际情况设置为0.8。
在另一个实施例中,根据待预测靶点在已知药物-靶点关系网络中的连接关系确定待预测靶点与已知靶点的相似度,包括:根据连接关系确定待预测靶点与已知靶点之间的路径距离;根据路径距离确定待预测靶点与已知靶点的相似度。
其中,待预测靶点与已知靶点之间的路径距离是指待预测靶点与已知靶点在已知药物-靶点关系网络中所在节点之间的路径;在一个具体实施例中,采用Katz指标来反映网络中路径距离;具体可用以下公式表示:
Figure BDA0002635550220000132
其中,x,y分别表示待预测靶点和已知靶点对应的节点,S(x,y)表示节点x,y之间的路径距离,
Figure BDA0002635550220000133
表示从节点x到节点y间的所有路径长度为l的路径集合。β根据实际情况可设置为0.0001。在本实施例中,利用待预测靶点与已知靶点在已知药物-靶点关系网络中的路径距离表征待预测靶点与已知靶点的相似度,路径距离越大相似度越低。
在一个实施例中,对于待预测靶点和各已知靶点,分别按照上述方法计算相似度,可根据各相似度确定与待预测靶点较为相似的一种或多种已知靶点。
在一个实施例中,如图3所示,上述方法在获取待预测药物-靶点对之后,还包括:
步骤S310,获取已知药物-靶点关系网络中待预测药物的连接关系、待预测靶点的连接关系。
在一个实施例中,待预测药物的连接关系、待预测靶点的连接关系包括待预测药物、待预测靶点在已知药物-靶点关系网络中的邻接节点。
步骤S320,读取待预测药物的连接关系中待预测药物的节点度、待预测靶点的连接关系中待预测靶点的节点度。
节点度是指和该节点相关联的边的条数,又称关联度。根据待预测药物以及待预测靶点的连接关系,可确定待预测药物和待预测靶点的节点度。
步骤S330,根据待预测药物的节点度和待预测靶点的节点度,确定待预测药物与待预测靶点的偏好连接得分。
在一个实施例中,根据待预测药物的节点度和待预测靶点的节点度,确定待预测药物与待预测靶点的偏好连接得分包括:将待预测药物的节点度和待预测靶点的节点度的乘积确定为待预测药物与待预测靶点的偏好连接得分。在本实施例中偏好连接得分表征的是待预测药物与待预测靶点之间具备相互作用关系的可能性,得分越大表明该待预测药物与待预测靶点具备相互作用关系的概率越大。
在本实施例中,确定待预测药物-靶点对的相互作用关系预测结果包括步骤S340:根据待预测药物与已知药物的相似度、待预测靶点与已知靶点的相似度,待预测药物与待预测靶点的偏好连接得分以及药物与靶点之间的已知相互作用关系确定待预测药物-靶点对的相互作用关系预测结果。
在上述实施例中,在预测药物和靶点之间是否存在潜在的相互作用关系时,不仅考虑到了药物和靶点各自本身的特征,还考虑了药物与靶点之间的关系,如此预测得到的结果更准确。
在一个实施例中,首先根据待预测药物与已知药物的相似度、待预测靶点与已知靶点的相似度,以及药物与靶点之间的已知相互作用关系确定待预测药物和待预测靶点之间的第一相互作用概率和第二相互作用概率,通过相互作用关系预测模型实现基于各第一相互作用概率、第二相互作用概率以及偏好连接得分,确定待预测药物-靶点对的相互作用关系预测结果。其中,相互作用关系预测模型是预先根据药物-靶点间的相互作用关系样本集训练确定的。
其中,预测模型的训练过程如下:从预设数据库中获取已知药物和已知靶点,并去除混合物药物、生物药物、与代谢等相关的蛋白质后,最后获得的药物分子、靶点蛋白和它们之间的相互作用关系,记为样本药物、样本靶点和样本相互作用关系。将样本相互作用关系作为正样本集,从非正样本集中选取样本药物和样本靶点之间的关系作为负样本集。正样本集和负样本集用于对模型进行训练。
基于不同尺度的药物表征计算各样本药物之间的相似度:以样本药物的化学结构表征样本药物,计算各样本药物之间的相似度;以ATC信息表征样本药物,计算各样本药物之间的相似度;以关联疾病表征样本药物,计算各样本药物之间的相似度;以基因表达谱表征样本药物,计算各样本药物之间的相似度。
基于不同尺度的靶点表征计算各样本靶点之间的相似度:以样本靶点的靶点序列表征样本靶点,计算各样本靶点之间的相似度;以蛋白质-蛋白质的相互作用表征样本靶点,计算各样本靶点之间的相似度;以样本靶点的基因本体表征样本靶点,计算各样本靶点之间的相似度;以氨基酸物理化学性质表征样本靶点,计算各样本靶点之间的相似度。
基于样本药物和样本靶点之间的相互作用网络计算样本药物节点和样本靶点节点之间的相似度:以网络近邻的相似度表征样本药物的相似度或样本靶点之间的相似度;基于SimRank算法计算样本药物节点基于结构内容的相似性,以及计算样本靶点节点基于结构内容的相似度。以网络路径的相似度表征样本药物的相似度或样本靶点之间的相似度。不同尺度下计算样本药物之间、样本靶点之间的相似度算法,与上面描述的预测过程中计算待预测药物与已知药物、待预测靶点与已知靶点中采用的算法相同,在此不再赘述。
进一步地,基于样本药物和样本靶点之间的相互作用网络,通过样本药物的节点度和样本靶点的节点度的乘积作为该样本药物和样本靶点之间的偏好连接得分。
基于各种样本药物之间的相似度、各种样本靶点之间的相似度,根据协同过滤推荐系统生成不同尺度下的分类特征。对于每一个相似度对应得到一个分类特征,与偏好连接得分一起,得到分类特征,用于与正样本集和负样本集一起训练得到相互作用关系预测模型。
在一个具体实施例中,对于一个药物-靶点关系对(di-aj),药物di和靶点aj间的关系可由预测得分确定:
Figure BDA0002635550220000161
其中,score(di,aj)表示待预测药物di和待预测靶点aj之间的第一相互作用概率,s(di,dm)为待预测药物di和已知药物dm间的相似度。N(i)为最相似于药物di的k个药物的集合(目标已知药物)。如果药物dm和靶点aj具备相互作用关系,tm,j=1,否则tm,j=0。score(di,aj)表示待预测药物di和待预测靶点aj之间的第二相互作用概率,s(aj,am)为待预测靶点aj和已知靶点am间的相似度。N(i)为最相似于待预测靶点aj的k个靶点的集合(目标已知靶点)。如果已知靶点am和已知靶点aj具备相互作用关系,tm,j=1,否则tm,j=0。进一步地,在一个具体实施例中,还采用ROC曲线下的面积对单个特征进行性能评估,观察不同尺度选取的用于表征药物或者靶点的信息对相互作用关系预测模型的预测性能的影响。
进一步地,在得到样本药物之间、样本靶点之间在不同尺度下的对应的分类特征之后,利用不同尺度下的分类特征与正样本集、负样本集一起采用机器学习算法进行构建并训练模型;具体基于多尺度的特征信息发展多尺度证据融合随机森林模型,进行训练后得到相互作用关系预测模型。
进一步地,对于训练好的相互作用关系预测模型,可采用ROC曲线进行性能评估。性能评估分内部交互检验和外部独立测试集验证。对于网络模型的内部验证,采取三种方法分别进行性能评估。三种方法都是基于留一交互验证方法;三种方法选择保留的对象不同:(a)药物-靶点相互作用关系对,即作为验证的每个样本为单独的药物-靶点相互作用关系对;(b)药物分子,即作为验证的每个样本为每个药物;(c)靶点蛋白,即作为验证的每个样本为每个靶点蛋白。其中,留一交互验证方法指把数据集分为训练集和测试集,其中1个样本作为测试集,剩下的作为训练集,训练集用于模型的训练,测试集用于模型的验证。然后选择下一个不同的样本作为测试集,剩下的作为训练集,以此类推。这个过程总共重复N次,使数据集中所有的样本挨个作为测试集,模型的性能由所有测试集样本的性能共同决定。
上述实施例中,采用模型实现药物-靶点之间的相互作用关系的预测,可提高预测效率和准确率。
进一步地,在一个实施例中,在确定待预测药物-靶点对的相互作用关系预测结果之后,如图4所示,还包括步骤S410至步骤S430。
步骤S410,根据待预测药物-靶点对的相互作用关系预测结果确定预测得分值大于预设阈值的目标待预测药物-靶点对。
步骤S420,获取对目标待预测药物-靶点对进行特定实验得到的实验结果。
步骤S430,根据实验结果确定待预测药物-靶点对中的待预测药物的重定向结果。
其中,预设阈值可根据实际情况进行设置。输出的相互作用关系预测结果中若大于预设阈值,则表明该对待预测药物-靶点对很有可能是潜在的具备相互作用关系的药物-靶点对,则对于该待预测药物-靶点对进行一定的实验得到实验结果,以确定待预测药物的重定向结果,其中,实验可通过任意一种方法实现。在一个具体实施例中,若实验结果证明该待预测药物-靶点对具备相互作用关系,则可得到该待预测药物新的重定向结果。
图5所示为一个具体实施例中药物与靶点间的相互作用关系预测方法的流程图,包括以下步骤:
获取样本数据:标准的药物-靶点相互作用数据来源于DrugBank数据库。DrugBank数据库包括1549个药物和4282个非冗余靶点蛋白质。去除混合物药物、生物药物、与代谢等相关的蛋白质后,最后获得的药物-靶点网络包括830个药物分子,362个靶点蛋白和它们之间的1994个相互作用关系。此数据作为金标准数据用来构建多尺度系统药理学模型来推断新的药物-靶点关系对,进而进行药物重定向分析。
构建样本集:①将由1994个药物-靶点关系对看作正样本集。②负样本集通过以下两步生成:(a)拆分正样本集中的1994个药物-靶点关系对成为830个药物和362个靶点;(b)随机地组合830个药物和362个靶点形成1994个新的药物-靶点关系对,不过要保证新生成的关系对不能出现在正样本集中。③10个类似负样本集被生成用来检查模型稳定性。
计算样本间的相似度:基于不同尺度的药物表征计算各样本药物之间的相似度;基于不同尺度的靶点表征计算各样本靶点之间的相似度;基于样本药物和样本靶点之间的相互作用网络计算样本药物节点和样本靶点节点之间的相似度。以及,基于样本药物和样本靶点之间的相互作用网络,通过样本药物的节点度和样本靶点的节点度的乘积作为该样本药物和样本靶点之间的偏好连接得分。
确定分类特征:基于获得的各尺度下的相似度,根据协同过滤推荐系统生成不同尺度下的分类特征。
构建并训练模型:整合多尺度特征信息发展多尺度证据融合随机森林模型,具体为将上述确定的分类特征以及正样本集、负样本集输入预设模型进行机器学习,得到药物-靶点的相互关系预测模型。
使用上述得到的相互关系预测模型对待预测药物-靶点对进行相互作用关系的预测:分别在不同尺度下计算待预测药物与各已知药物(即样本药物)的相似度,在不同尺度下计算待预测靶点与各已知靶点(样本靶点)的相似度,以及基于药物-靶点的相互作用网络计算待预测药物与待预测靶点之间的偏好连接得分。分别根据各尺度下的相似度得到对应的分类特征信息,将分类特征信息输入相互作用关系预测模型,由模型输出待预测药物-靶点对具备相互作用关系的预测结果。
上述方法,通过多尺度的特征药物与药物间的相似度、靶点与靶点间的相似度,并基于各尺度下的药物-药物相似度、靶点-靶点相似度以及药物-靶点的相互作用关系实现对待预测药物-靶点对的相互作用关系进行预测,首先无需提前明确靶点蛋白的结构即可实现药物与靶点之间的相互作用关系的预测,其次通过多尺度特征来表征药物和靶点,通过计算待预测药物与已知药物的相似度得分,待预测靶点与已知靶点的相似度,通过协同过滤推荐系统对于各尺度的特征计算得到一个对应的相互作用概率(第一相互作用概率、第二相互作用概率)作为分类特征;同时结合根据药物与靶点之间的相互作用关系构建的关系网络中待预测药物与待预测靶点所在节点的节点属性计算待预测药物与待预测靶点之间的偏好连接得分;将各分类特征与偏好连接得分输入到训练好的相互作用关系预测模型中,由模型输出待预测药物和待预测靶点之间的相互作用关系预测结果;其中相互作用关系预测模型为整合多尺度特征信息发展多尺度证据融合随机森林模型得到,模型经过一些列的训练和验证,可保证输出的相互作用关系预测结果的准确性,且对于待预测药物-靶点对的预测效率高。
进一步地,可通过以下方法对上述方法的实用性进行验证:采用随机森林(Randomforest)算法来证明其实用性。该实验采用上述简述的2个药物相关特征:ECFP4指纹,ATC相似性;3个靶标相关特征:靶点蛋白的序列比对ProSeq,GO注释ProGO和氨基酸物理化学ProAA属性信息;5个网络相关特征:基于网络近邻的药物相似(DNN,drug nearestneighbour),基于网络近邻的靶点相似性来获得(TNN,target nearest neighbour),基于网络的药物路径信息为DKatz,基于网络的靶点路径信息为TKatz,关系对的偏好连接得(PAS,preference association score)。
1.用于构建多尺度系统药理学模型的每个特征均具有良好的预测性能
内部数据的十折交互检验结果证明了每个证据特征都有一个适度的预测能力,并且在AUC曲线ROC在0.614至0.823之间(表1)。基于网络结构的功能可实现最佳性能:DNN和DKatz(DNN:0.848,DKatz:0.845),分别表示药物靶标网络中的最近邻相似性和路径长度。来自靶标的网络特征NN和Katz也获得了令人满意的预测性能(TNN:0.769,TKatz:0.755)。基于药物结构的网络特征表示比基于靶标的网络特征效果好。在基于节点属性的功能中,最佳的与药物相关及与目标相关的特征是ECFP4和ProSeq,AUC分别为0.822和0.818,表明药物结构和靶标序列信息对于预测药物-靶点相互作用关系(DTI,drug-targetinteraction)的重要性。
表1:基于10倍交叉验证的单一特征AUC分数和准确性
Figure BDA0002635550220000191
2.多尺度系统药理学模型具有良好的预测性能
然后,研究多证据特征的组合是否提高了预测精度。使用十倍交叉验证来训练基于所有特征的随机森林(RF)分类器。生长了1000棵分类树来构建RF分类器。为了避免容易预测的案例对性能评估造成的过优估计,我们保留了与90%的药物或靶标有关的关联,而不是90%的药物-靶点关联。剩下的10%作为验证集,用于验证模型的性能。基于药物的交叉验证得出的模型AUC得分为0.943±0.001,基于靶标的AUC得分为0.926±0.001。此外,RF正确分类了约为92.3%的药物-靶标相互作用关系,敏感性约为94.7%,特异性约为90.6%。上述结果表明,不同的数据源在药物靶标相关性的预测中相互补充,因为每个特征的覆盖不完全,不同特征之间的重叠程度低。通过对这些特征的集成,提高了DTIs的覆盖率,同时,这也证明了上述提出的药物与靶点间的相互作用关系预测方法对于药物-靶点预测的强有力性能。
3.多尺度系统药理学预测了抗癌药物和靶点之间的新联系
使用多尺度系统药理学扫描了89种抗癌药之间的362个靶标之间的关联,系统地探索新的抗癌药物的分子机制。研究发现根据药物-靶标关系预测的概率,这些关系得到了很大程度的富集。为了进一步的评估,使用替代的评分阈值来调整上述药物与靶点间的相互作用关系预测方法,以错误发现率(false discovery rate,FDR)为代价来预测一个高可能性的药物靶点对子集。可以从P-R(precision-recall)曲线精确中估算FDR。为了权衡精度和召回率,选择了RF截止值预测概率为0.92,获得30%的召回率。在在召回率为30%时,此临界值的精度约为98.0%,因此估计上述药物与靶点间的相互作用关系预测方法预测的FDR约为2%。
基于0.92的阈值,从筛选集总共预测了163个药物-靶点相互作用DTI,以及不存在于训练集中的84种新的药物-靶标相互作用。预计这82对相互作用关联为真正的药物-靶点相互作用DTI。这些相互作用仅占所有药物-靶点相互作用的0.3%。通过检查开放的DTI相关数据库,并确认发现了一些DTI作为上述药物与靶点间的相互作用关系预测方法对预测的支持。在84个预测的关联中(RF的概率>0.92),有47个药物-靶标相互作用DTI已经经过实验的测试,其中80.8%已成功从两个数据库验证。进一步检查与-nib类抗癌药有关的预测药物-靶点相互作用关联。在与4种-nib药物和10种靶标相关的11个预测的药物-靶点相互作用中,已经有10种DTI经过测试,其中8个被证明具有药物-靶点相互作用的体外结合测定(表2)。以上分析足够证明了上述药物与靶点间的相互作用关系预测方法可以有效地预测那些尚未确定的新的潜在DTI临床试验。
表2:预测与-nib类抗癌药物相关的药物-靶标相互作用关系得分和Kd值
Figure BDA0002635550220000211
应该理解的是,虽然图1-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-5中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种药物与靶点间的相互作用关系预测装置,包括:获取模块610、相似度确定模块620和预测模块630,其中:
获取模块610,用于获取待预测药物-靶点对,待预测药物-靶点对包括待预测药物的药物特征,以及待预测靶点的靶点特征;
相似度确定模块620,用于根据药物特征确定待预测药物与已知药物的相似度,根据靶点特征确定待预测靶点与已知靶点的相似度;
预测模块630,用于根据待预测药物与各已知药物的相似度、待预测靶点与各已知靶点的相似度,以及药物与靶点之间的已知相互作用关系,确定待预测药物-靶点对的相互作用关系预测结果。
上述药物与靶点间的相互作用关系预测装置,获取到待预测药物-靶点对的药物特征和靶点特征,基于药物特征、靶点特征计算待预测药物与其它已知药物之间的相似度,待预测靶点与其它已知靶点之间的相似度,进一步根据上述相似度与药物和靶点之间的已知相互作用关系,确定待预测药物-靶点对中待预测药物和待预测靶点之间的相互作用预测结果。上述装置中通过药物特征、靶点特征以及已知的药物靶点之间相互作用关系来实现对待预测药物、待预测靶点之间的相互作用关系的预测,无需提前知道靶点蛋白的结构,使得药物-靶点关系对的预测在实际情况中更容易实现。
在一个实施例中,待预测药物的药物特征包括待预测药物的化学结构、待预测药物在解剖学治疗学及化学分类系统中的分类信息、待预测药物的关联疾病信息、待预测药物的基因表达谱,以及待预测药物在已知药物-靶点关系网络中的连接关系;在本实施例中,上述相似度确定模块620包括以下至少一个单元:化学结构相似度确定单元,用于根据化学结构确定待预测药物与已知药物的化学结构相似度;分类信息相似度确定单元,用于根据分类信息确定待预测药物与已知药物的分类信息相似度;关联疾病相似度确定单元,用于根据关联疾病信息确定待预测药物与已知药物的关联疾病相似度;基因表达谱相似度确定单元,用于根据基因表达谱确定待预测药物与已知药物的基因表达谱相似度;以及,药物相似度确定单元,用于根据待预测药物在已知药物-靶点关系网络中的连接关系确定待预测药物与已知药物的相似度。
在一个实施例中,上述装置的药物相似度确定单元,包括:邻接节点读取子单元,用于读取连接关系中待预测药物的邻接节点;药物相似度确定单元具体用于根据待预测药物的邻接节点确定待预测药物与已知药物的相似度。
在另一个实施例中,上述装置的药物相似度确定单元,包括:路径距离确定子单元,用于根据连接关系确定待预测药物与已知药物之间的路径距离;药物相似度确定单元具体用于根据路径距离确定待预测药物与已知药物的相似度。
在一个实施例中,待预测靶点的靶点特征包括待预测靶点的靶点序列、待预测靶点与已知靶点之间的相互作用关系、待检测靶点的基因本体信息、待检测靶点的氨基酸属性,以及待预测靶点在已知药物-靶点关系网络中的连接关系;在本实施例中,在本实施例中,上述相似度确定模块620包括以下至少一个单元:靶点序列相似度确定单元,用于根据靶点信息确定待预测靶点与已知靶点的靶点序列相似度;最短路径确定单元,用于根据待预测靶点与已知靶点之间的相互作用关系确定待预测靶点与已知靶点之间的最短路径;基因本体相似度确定单元,用于根据基因本体信息确定待预测靶点与已知靶点的基因本体相似度;氨基酸相似度确定单元,用于根据氨基酸属性确定待预测靶点与已知靶点的氨基酸相似度;以及,靶点相似度确定单元,用于根据待预测靶点在已知药物-靶点关系网络中的连接关系确定待预测靶点与已知靶点的相似度。
在一个实施例中,上述装置的靶点相似度确定单元包括:邻接节点读取子单元,用于读取连接关系中待预测靶点的邻接节点;靶点相似度确定单元具体用于根据待预测靶点的邻接节点确定待预测靶点与已知靶点的相似度。
在另一个实施例中,上述装置的靶点相似度确定单元包括:路径距离确定子单元,用于根据连接关系确定待预测靶点与已知靶点之间的路径距离;靶点相似度确定单元具体用于根据路径距离确定待预测靶点与已知靶点的相似度。
在一个实施例中,上述装置还包括:连接关系获取模块,用于获取已知药物-靶点关系网络中待预测药物的连接关系、待预测靶点的连接关系;节点度读取模块,用于读取待预测药物的连接关系中待预测药物的节点度、待预测靶点的连接关系中待预测靶点的节点度;偏好连接得分确定模块,用于根据待预测药物的节点度和待预测靶点的节点度,确定待预测药物与待预测靶点的偏好连接得分;在本实施例中,上述预测模块630具体用于根据待预测药物与已知药物的相似度、待预测靶点与已知靶点的相似度,待预测药物与待预测靶点的偏好连接得分以及药物与靶点之间的已知相互作用关系确定待预测药物-靶点对的相互作用关系预测结果。
在一个实施例中,上述预测模块630,包括:目标确定单元,用于根据待预测药物与已知药物的相似度确定与待预测药物的相似度高于药物相似度阈值的目标已知药物,根据待预测靶点与已知靶点的相似度确定与待预测靶点的相似度高于靶点相似度阈值的目标已知靶点;概率计算单元,用于分别根据待预测药物与各目标已知药物的相似度,以及各目标已知药物与待预测靶点的相互作用关系,确定待预测药物与待预测靶点的第一相互作用概率;分别根据待预测靶点与各目标已知靶点的相似度,以及目标已知靶点与待预测药物的相互作用关系,确定待预测药物与待预测靶点的第二相互作用概率;以及,预测单元基于各第一相互作用概率和各第二相互作用概率,确定待预测药物-靶点对的相互作用关系预测结果。
关于药物与靶点间的相互作用关系预测装置的具体限定可以参见上文中对于药物与靶点间的相互作用关系预测方法的限定,在此不再赘述。上述药物与靶点间的相互作用关系预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种药物与靶点间的相互作用关系预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述任意一个实施例中的药物与靶点间的相互作用关系预测方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任意一个实施例中的药物与靶点间的相互作用关系预测方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种药物与靶点间的相互作用关系预测方法,其特征在于,所述方法包括:
获取待预测药物-靶点对,所述待预测药物-靶点对包括待预测药物的药物特征,以及待预测靶点的靶点特征;
根据所述药物特征确定所述待预测药物与已知药物的相似度,根据所述靶点特征确定所述待预测靶点与已知靶点的相似度;
根据所述待预测药物与各已知药物的相似度、所述待预测靶点与各已知靶点的相似度,以及药物与靶点之间的已知相互作用关系,确定所述待预测药物-靶点对的相互作用关系预测结果。
2.根据权利要求1所述的方法,其特征在于,所述待预测药物的药物特征包括待预测药物的化学结构、待预测药物在解剖学治疗学及化学分类系统中的分类信息、待预测药物的关联疾病信息、待预测药物的基因表达谱,以及所述待预测药物在已知药物-靶点关系网络中的连接关系;
所述根据所述药物特征确定所述待预测药物与已知药物的相似度,包括以下至少一项:
第一项,根据所述化学结构确定所述待预测药物与所述已知药物的化学结构相似度;
第二项,根据所述分类信息确定所述待预测药物与所述已知药物的分类信息相似度;
第三项,根据所述关联疾病信息确定所述待预测药物与所述已知药物的关联疾病相似度;
第四项,根据所述基因表达谱确定所述待预测药物与所述已知药物的基因表达谱相似度;
第五项,根据所述待预测药物在已知药物-靶点关系网络中的连接关系确定所述待预测药物与所述已知药物的相似度。
3.根据权利要求2所述的方法,其特征在于,所述根据所述待预测药物在已知药物-靶点关系网络中的连接关系确定所述待预测药物与所述已知药物的相似度,包括以下至少一项:
第一项,
读取所述连接关系中所述待预测药物的邻接节点;
根据所述待预测药物的邻接节点确定所述待预测药物与已知药物的相似度;
第二项,
根据所述连接关系确定所述待预测药物与已知药物之间的路径距离;
根据所述路径距离确定所述待预测药物与已知药物的相似度。
4.根据权利要求1所述的方法,其特征在于,所述待预测靶点的靶点特征包括待预测靶点的靶点序列、待预测靶点与已知靶点之间的相互作用关系、待检测靶点的基因本体信息、待检测靶点的氨基酸属性,以及所述待预测靶点在已知药物-靶点关系网络中的连接关系;
所述根据所述靶点特征确定所述待预测靶点与已知靶点的相似度,包括以下至少一项:
第一项,根据所述靶点信息确定所述待预测靶点与已知靶点的靶点序列相似度;
第二项,根据所述待预测靶点与已知靶点之间的相互作用关系确定所述待预测靶点与已知靶点之间的最短路径;
第三项,根据所述基因本体信息确定所述待预测靶点与已知靶点的基因本体相似度;
第四项,根据所述氨基酸属性确定所述待预测靶点与已知靶点的氨基酸相似度;
第五项,根据所述待预测靶点在已知药物-靶点关系网络中的连接关系确定所述待预测靶点与已知靶点的相似度。
5.根据权利要求4所述的方法,其特征在于,所述根据所述待预测靶点在已知药物-靶点关系网络中的连接关系确定所述待预测靶点与已知靶点的相似度,包括以下至少一项:
第一项,
读取所述连接关系中所述待预测靶点的邻接节点;
根据所述待预测靶点的邻接节点确定所述待预测靶点与已知靶点的相似度;
第二项,
根据所述连接关系确定所述待预测靶点与已知靶点之间的路径距离;
根据所述路径距离确定所述待预测靶点与已知靶点的相似度。
6.根据权利要求1所述的方法,其特征在于,获取待预测药物-靶点对之后,还包括:
获取已知药物-靶点关系网络中所述待预测药物的连接关系、所述待预测靶点的连接关系;
读取所述待预测药物的连接关系中所述待预测药物的节点度、所述待预测靶点的连接关系中所述待预测靶点的节点度;
根据所述待预测药物的节点度和所述待预测靶点的节点度,确定所述待预测药物与所述待预测靶点的偏好连接得分;
所述确定所述待预测药物-靶点对的相互作用关系预测结果包括:根据所述待预测药物与已知药物的相似度、所述待预测靶点与已知靶点的相似度,所述待预测药物与所述待预测靶点的偏好连接得分以及药物与靶点之间的已知相互作用关系确定所述待预测药物-靶点对的相互作用关系预测结果。
7.根据权利要求1所述的方法,其特征在于,所述根据所述待预测药物与已知药物的相似度、所述待预测靶点与已知靶点的相似度,以及药物与靶点之间的已知相互作用关系,确定所述待预测药物-靶点对的相互作用关系预测结果,包括:
根据所述待预测药物与已知药物的相似度确定与待预测药物的相似度高于药物相似度阈值的目标已知药物,根据所述待预测靶点与已知靶点的相似度确定与所述待预测靶点的相似度高于靶点相似度阈值的目标已知靶点;
分别根据所述待预测药物与各所述目标已知药物的相似度,以及各所述目标已知药物与所述待预测靶点的相互作用关系,确定所述待预测药物与所述待预测靶点的第一相互作用概率;
分别根据所述待预测靶点与各所述目标已知靶点的相似度,以及所述目标已知靶点与所述待预测药物的相互作用关系,确定所述待预测药物与所述待预测靶点的第二相互作用概率;
基于各所述第一相互作用概率和各所述第二相互作用概率,确定所述待预测药物-靶点对的相互作用关系预测结果。
8.一种药物与靶点间的相互作用关系预测装置,其特征在于,所述装置包括:
获取模块,用于获取待预测药物-靶点对,所述待预测药物-靶点对包括待预测药物的药物特征,以及待预测靶点的靶点特征;
相似度确定模块,用于根据所述药物特征确定所述待预测药物与已知药物的相似度,根据所述靶点特征确定所述待预测靶点与已知靶点的相似度;
预测模块,用于根据所述待预测药物与各已知药物的相似度、所述待预测靶点与各已知靶点的相似度,以及药物与靶点之间的已知相互作用关系,确定所述待预测药物-靶点对的相互作用关系预测结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010824226.9A 2020-08-17 2020-08-17 药物与靶点间的相互作用关系预测方法及装置 Pending CN112133367A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010824226.9A CN112133367A (zh) 2020-08-17 2020-08-17 药物与靶点间的相互作用关系预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010824226.9A CN112133367A (zh) 2020-08-17 2020-08-17 药物与靶点间的相互作用关系预测方法及装置

Publications (1)

Publication Number Publication Date
CN112133367A true CN112133367A (zh) 2020-12-25

Family

ID=73851309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010824226.9A Pending CN112133367A (zh) 2020-08-17 2020-08-17 药物与靶点间的相互作用关系预测方法及装置

Country Status (1)

Country Link
CN (1) CN112133367A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116246697A (zh) * 2023-05-11 2023-06-09 上海微观纪元数字科技有限公司 用于药物的靶点蛋白质预测方法及装置、设备、存储介质

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030092885A1 (en) * 2001-07-31 2003-05-15 President And Fellows Of Harvard College Solubility and stability enhancement tag for structural and ligand binding studies of proteins
CN102663214A (zh) * 2012-05-09 2012-09-12 四川大学 一种集成药物靶标预测系统的构建和预测方法
CN103150490A (zh) * 2013-02-20 2013-06-12 浙江大学 用于发现中药活性成分及其作用靶点的网络药理学方法
CN103902848A (zh) * 2012-12-28 2014-07-02 深圳先进技术研究院 基于药物相互作用相似性识别药物靶标的系统及方法
CN106529205A (zh) * 2016-11-03 2017-03-22 中南大学 一种基于药物子结构、分子字符描述信息的药物靶标关系预测方法
CN106709272A (zh) * 2016-12-26 2017-05-24 西安石油大学 基于决策模板预测药物‑靶蛋白相互作用关系的方法和系统
CN107111691A (zh) * 2014-10-27 2017-08-29 阿卜杜拉国王科技大学 识别配体‑蛋白质结合位点的方法和系统
US20190050538A1 (en) * 2017-08-08 2019-02-14 International Business Machines Corporation Prediction and generation of hypotheses on relevant drug targets and mechanisms for adverse drug reactions
CN109637596A (zh) * 2018-12-18 2019-04-16 广州市爱菩新医药科技有限公司 一种药物靶点预测方法
CN109887540A (zh) * 2019-01-15 2019-06-14 中南大学 一种基于异构网络嵌入的药物靶标相互作用预测方法
CN110415763A (zh) * 2019-08-06 2019-11-05 腾讯科技(深圳)有限公司 药物与靶标的相互作用预测方法、装置、设备及存储介质
CN110544506A (zh) * 2019-08-27 2019-12-06 上海源兹生物科技有限公司 基于蛋白互作网络的靶点PPIs可药性预测方法及装置
KR20200030769A (ko) * 2018-09-13 2020-03-23 한국과학기술원 랜덤 포레스트 모델을 활용한 약물의 다중 표적 예측 방법
CN110957002A (zh) * 2019-12-17 2020-04-03 电子科技大学 一种基于协同矩阵分解的药物靶点相互作用关系预测方法
CN111243659A (zh) * 2018-11-29 2020-06-05 中国科学院大连化学物理研究所 一种基于药物多维相似度的药物交互作用预测方法
CN111383708A (zh) * 2020-03-11 2020-07-07 中南大学 基于化学基因组学的小分子靶标预测算法及其应用
CN111477287A (zh) * 2020-06-28 2020-07-31 天云融创数据科技(北京)有限公司 一种药物靶点预测方法、装置、设备及介质

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030092885A1 (en) * 2001-07-31 2003-05-15 President And Fellows Of Harvard College Solubility and stability enhancement tag for structural and ligand binding studies of proteins
CN102663214A (zh) * 2012-05-09 2012-09-12 四川大学 一种集成药物靶标预测系统的构建和预测方法
CN103902848A (zh) * 2012-12-28 2014-07-02 深圳先进技术研究院 基于药物相互作用相似性识别药物靶标的系统及方法
CN103150490A (zh) * 2013-02-20 2013-06-12 浙江大学 用于发现中药活性成分及其作用靶点的网络药理学方法
CN107111691A (zh) * 2014-10-27 2017-08-29 阿卜杜拉国王科技大学 识别配体‑蛋白质结合位点的方法和系统
CN106529205A (zh) * 2016-11-03 2017-03-22 中南大学 一种基于药物子结构、分子字符描述信息的药物靶标关系预测方法
CN106709272A (zh) * 2016-12-26 2017-05-24 西安石油大学 基于决策模板预测药物‑靶蛋白相互作用关系的方法和系统
US20190050538A1 (en) * 2017-08-08 2019-02-14 International Business Machines Corporation Prediction and generation of hypotheses on relevant drug targets and mechanisms for adverse drug reactions
KR20200030769A (ko) * 2018-09-13 2020-03-23 한국과학기술원 랜덤 포레스트 모델을 활용한 약물의 다중 표적 예측 방법
CN111243659A (zh) * 2018-11-29 2020-06-05 中国科学院大连化学物理研究所 一种基于药物多维相似度的药物交互作用预测方法
CN109637596A (zh) * 2018-12-18 2019-04-16 广州市爱菩新医药科技有限公司 一种药物靶点预测方法
CN109887540A (zh) * 2019-01-15 2019-06-14 中南大学 一种基于异构网络嵌入的药物靶标相互作用预测方法
CN110415763A (zh) * 2019-08-06 2019-11-05 腾讯科技(深圳)有限公司 药物与靶标的相互作用预测方法、装置、设备及存储介质
CN110544506A (zh) * 2019-08-27 2019-12-06 上海源兹生物科技有限公司 基于蛋白互作网络的靶点PPIs可药性预测方法及装置
CN110957002A (zh) * 2019-12-17 2020-04-03 电子科技大学 一种基于协同矩阵分解的药物靶点相互作用关系预测方法
CN111383708A (zh) * 2020-03-11 2020-07-07 中南大学 基于化学基因组学的小分子靶标预测算法及其应用
CN111477287A (zh) * 2020-06-28 2020-07-31 天云融创数据科技(北京)有限公司 一种药物靶点预测方法、装置、设备及介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DIEGO GALEANO等: "Drug targets prediction using chemical similarity", IEEE, pages 1 - 7 *
DONGSHENG CAO等: "Computational Prediction of Drug Target Interactions Using Chemical, Biological, and Network Features", MOLECULAR INFORMAFICS, vol. 33, pages 669 - 681 *
曹东升: "化学生物信息学新方法及其在医药研究中的应用", 博士学位论文, 15 April 2015 (2015-04-15), pages 1 - 234 *
闫效莺;康磊;李润洲;: "基于异构网络的标签传播算法预测药物靶点关系", 计算机应用研究, vol. 34, no. 04, pages 57 - 59 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116246697A (zh) * 2023-05-11 2023-06-09 上海微观纪元数字科技有限公司 用于药物的靶点蛋白质预测方法及装置、设备、存储介质

Similar Documents

Publication Publication Date Title
Rifaioglu et al. MDeePred: novel multi-channel protein featurization for deep learning-based binding affinity prediction in drug discovery
US20210383890A1 (en) Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
Basith et al. Machine intelligence in peptide therapeutics: A next‐generation tool for rapid disease screening
Zhao et al. A similarity-based method for prediction of drug side effects with heterogeneous information
Rao et al. ACPred-Fuse: fusing multi-view information improves the prediction of anticancer peptides
CN108830045B (zh) 一种基于多组学的生物标记物系统筛选方法
JP6313757B2 (ja) 統合デュアルアンサンブルおよび一般化シミュレーテッドアニーリング技法を用いてバイオマーカシグネチャを生成するためのシステムおよび方法
CN109887540A (zh) 一种基于异构网络嵌入的药物靶标相互作用预测方法
Mahmud et al. PreDTIs: prediction of drug–target interactions based on multiple feature information using gradient boosting framework with data balancing and feature selection techniques
Khan et al. Genome-scale prediction of moonlighting proteins using diverse protein association information
Youngs et al. Parametric Bayesian priors and better choice of negative examples improve protein function prediction
Lin et al. Clustering methods in protein-protein interaction network
KR102316989B1 (ko) 신약 후보 물질의 발굴 시스템 및 그 방법
Zhang et al. Computational methods for analysing multiscale 3D genome organization
Alghushairy et al. Machine learning-based model for accurate identification of druggable proteins using light extreme gradient boosting
CN112133367A (zh) 药物与靶点间的相互作用关系预测方法及装置
Koyuturk Using protein interaction networks to understand complex diseases
Fu et al. Exploring the relationship between hub proteins and drug targets based on GO and intrinsic disorder
Zhang et al. Network motif-based identification of breast cancer susceptibility genes
Chen et al. Domain-based predictive models for protein-protein interaction prediction
Al Bkhetan et al. Machine learning polymer models of three-dimensional chromatin organization in human lymphoblastoid cells
CN112071439B (zh) 药物副作用关系预测方法、系统、计算机设备和存储介质
US20160378914A1 (en) Method of and apparatus for identifying phenotype-specific gene network using gene expression data
Li et al. Assumption weighting for incorporating heterogeneity into meta-analysis of genomic data
Huang et al. Chemical medicine classification through chemical properties analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination