CN116246697A - 用于药物的靶点蛋白质预测方法及装置、设备、存储介质 - Google Patents

用于药物的靶点蛋白质预测方法及装置、设备、存储介质 Download PDF

Info

Publication number
CN116246697A
CN116246697A CN202310525852.1A CN202310525852A CN116246697A CN 116246697 A CN116246697 A CN 116246697A CN 202310525852 A CN202310525852 A CN 202310525852A CN 116246697 A CN116246697 A CN 116246697A
Authority
CN
China
Prior art keywords
target protein
data
drug
binding
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310525852.1A
Other languages
English (en)
Other versions
CN116246697B (zh
Inventor
徐敏捷
耿威
李世博
吕川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Micro Era Digital Technology Co.,Ltd.
Original Assignee
Shanghai Micro Era Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Micro Era Digital Technology Co ltd filed Critical Shanghai Micro Era Digital Technology Co ltd
Priority to CN202310525852.1A priority Critical patent/CN116246697B/zh
Publication of CN116246697A publication Critical patent/CN116246697A/zh
Application granted granted Critical
Publication of CN116246697B publication Critical patent/CN116246697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供了用于药物的靶点蛋白质预测方法及装置、设备、存储介质,预测方法包括:获取药物数据、靶点蛋白质数据以及相互作用数据;根据相互作用数据,构建多个药物数据与多个靶点蛋白质数据的第一相互作用关系;对第一相互作用关系进行调整,以将不确定值调整为结合可能值,得到第二相互作用关系;根据第二相互作用关系中至少一个药物数据与靶点蛋白质数据的结合可能值,对靶点蛋白质数据进行排序,并将排名在预设范围内的靶点蛋白质数据作为第一靶点蛋白质数据。本发明通过第二相互作用关系中至少一个药物数据与多个靶点蛋白质数据的结合可能值,对多个靶点蛋白质数据进行排序,能够极大减少算力,从而提高对药物的靶点蛋白质的预测效率。

Description

用于药物的靶点蛋白质预测方法及装置、设备、存储介质
技术领域
本发明涉及计算机技术领域,具体涉及一种用于药物的靶点蛋白质预测方法及装置、设备、存储介质。
背景技术
目前,针对靶点蛋白质发现的相关研究中,仅利用实验方法寻找与药物具有相互作用的靶点蛋白质,进而制造新药是较为困难的。不仅因为药物通常影响人体上的相关通路,还因为靶点蛋白质的表达会随着基因和基因表达丰度的影响,在人体不同部位浓度不同。为了寻找能够抑制或者激活相关通路的靶点蛋白质,现有技术中主要采取以下方式:将已知药物分子与海量靶点蛋白质分别进行对接,以根据其结合情况来对药物分子的靶点蛋白质进行预测;但这种预测方式由于需要将已知药物分子与海量靶点蛋白质分别进行分子对接,其对接过程会耗费大量算力,造成药物的靶点蛋白质的预测效率低的问题。
针对上述相关预测方式中由于需要将已知药物分子与海量靶点蛋白质分别进行分子对接,其对接过程会耗费大量算力,造成药物的靶点蛋白质的预测效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种用于药物的靶点蛋白质预测方法及装置、设备、存储介质,用以克服相关预测药物的靶点蛋白质的方式中由于需要将已知药物分子与海量靶点蛋白质分别进行分子对接,其对接过程会耗费大量算力,造成药物的靶点蛋白质的预测效率低的问题。
为了实现上述目的,本发明实施例的第一方面,提供一种用于药物的靶点蛋白质预测方法,包括:
获取药物数据、靶点蛋白质数据以及相互作用数据;所述相互作用数据为药物分子与靶点蛋白质之间的相互作用的数据;
根据所述相互作用数据,构建多个所述药物数据与多个所述靶点蛋白质数据的第一相互作用关系;所述第一相互作用关系包括结合可能值和不确定值,所述结合可能值表示药物分子与靶点蛋白质结合的可能性,所述不确定值表示药物分子与靶点蛋白质结合的不确定性;
对所述第一相互作用关系进行调整,以将所述不确定值调整为结合可能值,得到第二相互作用关系;
根据所述第二相互作用关系中至少一个药物数据与多个所述靶点蛋白质数据的结合可能值,对多个所述靶点蛋白质数据进行排序,并将排名在预设范围内的靶点蛋白质数据作为第一靶点蛋白质数据。
本发明提供的用于药物的靶点蛋白质预测方法,通过第二相互作用关系中至少一个药物数据与靶点蛋白质数据的结合可能值,对靶点蛋白质数据进行排序,并将排名在预设范围内的靶点蛋白质数据作为第一靶点蛋白质数据,本发明只需要将排序得到的第一靶点蛋白质与至少一个药物数据进行对接,避免了海量计算问题,从而能够达到减少算力,提高了对药物的靶点蛋白质的预测效率。
可选地,在第一方面的一种可能实现方式中,所述根据所述相互作用数据,构建多个所述药物数据与多个所述靶点蛋白质数据的第一相互作用关系,包括:
根据所述药物数据、所述靶点蛋白质数据以及所述相互作用数据,构建第一矩阵;
其中,所述第一矩阵用于表示第一相互作用关系,所述第一矩阵的每一行表示一个所述药物数据与多个靶点蛋白质数据的相互关系,每一列表示一个所述靶点蛋白质数据与多个所述药物数据的相互关系。
可选地,在第一方面的一种可能实现方式中,所述对所述第一相互作用关系进行调整,以将所述不确定值调整为结合可能值,得到第二相互作用关系,包括:
将所述第一矩阵进行奇异值分解,得到药物特征矩阵和蛋白质特征矩阵;
对所述蛋白质特征矩阵的转置矩阵和所述药物特征矩阵进行聚合处理,得到第二矩阵;
其中,所述第二矩阵用于表示第二相互作用关系,所述第二矩阵的每一行表示一个所述药物数据与多个靶点蛋白质数据的相互关系,每一列表示一个所述靶点蛋白质数据与多个所述药物数据的相互关系。
本发明提供的用于药物的靶点蛋白质预测方法,通过对第一矩阵进行分解后聚合处理得到第二矩阵,能够对第一矩阵中的不确定值进行有效预测,为后续药物的靶点蛋白质的预测过程极大减少算力提供了可能,并且能够达到提高药物的靶点蛋白质的预测准确性。
可选地,在第一方面的一种可能实现方式中,所述方法还包括:
分别计算所述至少一个药物数据对应的药物分子与多个第一靶点蛋白质数据对应的靶点蛋白质的结合能;
根据所述结合能,从多个第一靶点蛋白质数据中筛选出第二靶点蛋白质数据。
本发明提供的用于药物的靶点蛋白质预测方法,根据第二相互作用关系中至少一个药物数据与靶点蛋白质数据的结合可能值,对靶点蛋白质数据进行排序,得到第一靶点蛋白质数据,以及根据结合能从多个第一靶点蛋白质数据中筛选出第二靶点蛋白质数据,能够通过两次排序筛选步骤,有效减少不必要的算力输出,从而提高对药物的靶点蛋白质的预测效率。
可选地,在第一方面的一种可能实现方式中,所述分别计算所述至少一个药物数据的药物分子与每个第一靶点蛋白质数据的靶点蛋白质的结合能之前,所述方法还包括:
判断是否识别出所述第一靶点蛋白质数据对应的靶点蛋白质的对接口袋;所述对接口袋表示靶点蛋白质表面或内部与药物分子结合的位置;
如果识别出所述靶点蛋白质的对接口袋,则计算药物分子与靶点蛋白质的结合能;
如果未识别出所述靶点蛋白质的对接口袋,则在确定所述靶点蛋白质的对接口袋后计算所述药物分子与所述靶点蛋白质的结合能。
本发明提供的用于药物的靶点蛋白质预测方法,通过在计算结合能之前确定靶点蛋白质是否存在对接口袋,能够有效确保分子对接以及结合能计算的可实施性,也间接提高了对药物的靶点蛋白质的预测效率。
可选地,在第一方面的一种可能实现方式中,分别计算所述至少一个药物数据的药物分子与每个第一靶点蛋白质数据的靶点蛋白质的结合能,包括:
在开源分子对接仿真场景下,利用至少一个药物数据构建药物分子的第一立体构象,以及利用第一靶点蛋白质数据构建靶点蛋白质的第二立体构象;
对所述第一立体构象与所述第二立体构象之间进行分子对接,并根据对接结果确定结合能。
可选地,在第一方面的一种可能实现方式中,所述方法还包括:
当对新加入的药物数据进行靶点蛋白质预测时,从药物分子数据库中查询与新加入的药物数据相似度最高的目标药物数据;并从所述第二相互作用关系中与所述目标药物数据对应的多个第一靶点蛋白质数据中筛选出第三靶点蛋白质数据;
当存在新加入的靶点蛋白质数据时,从靶点蛋白质数据库中查询与新加入的靶点蛋白质数据相似度最高的目标靶点蛋白质数据,并将所述新加入的靶点蛋白质数据与所述目标靶点蛋白质数据分为同一类别的靶点蛋白质数据集。
本发明提供的用于药物的靶点蛋白质预测方法,能够通过计算药物相似度的方式对新加入的药物分子同样进行靶点蛋白质的预测,在提高对新加入药物的靶点蛋白质的预测效率的基础上,也提高了用户体验。以及通过计算蛋白质相似度的方式,能够对新加入的蛋白质进行有效归类。
本发明实施例的第二方面,提供一种用于药物的靶点蛋白质预测装置,包括:
数据获取模块,用于获取药物数据、靶点蛋白质数据以及相互作用数据;所述相互作用数据为药物分子与靶点蛋白质之间的相互作用的数据;
第一构建模块,用于根据所述相互作用数据,构建多个所述药物数据与多个所述靶点蛋白质数据的第一相互作用关系;所述第一相互作用关系包括结合可能值和不确定值,所述结合可能值表示药物分子与靶点蛋白质结合的可能性,所述不确定值表示药物分子与靶点蛋白质结合的不确定性;
第二构建模块,用于对所述第一相互作用关系进行调整,以将所述不确定值调整为结合可能值,得到第二相互作用关系;
靶点蛋白质确定模块,用于根据所述第二相互作用关系中至少一个药物数据与多个所述靶点蛋白质数据的结合可能值,对多个所述靶点蛋白质数据进行排序,并将排名在预设范围内的靶点蛋白质数据作为第一靶点蛋白质数据。
本发明实施例的第三方面,提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。
本发明实施例的第四方面,提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述方法的步骤。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1的用于药物的靶点蛋白质预测方法的流程示意图。
图2为药物分子与靶点蛋白质的相互作用的示意图。
图3为本发明实施例1的用于药物的靶点蛋白质预测方法具体实施的流程示意图。
图4为本发明实施例2的用于药物的靶点蛋白质预测装置的原理框图。
图5为本发明实施例3中计算机设备的结构图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本实施例提供一种用于药物的靶点蛋白质预测方法,如图1所示,预测方法包括但不限于步骤S100至S400:
S100:获取药物数据、靶点蛋白质数据以及相互作用数据;所述相互作用数据为药物分子与靶点蛋白质之间的相互作用的数据。
具体地,如图2所示,药物数据可以包括记录药物分子的分子结构以及对应的分子描述符,是指分子在某一方面性质的度量,既可以是分子的物理化学性质,也可以是根据分子结构通过各种算法推导出来的数值指标;靶点蛋白质数据可以包括蛋白质结构的pdb文件(protein data bank,蛋白质三维结构数据文件)和氨基酸序列。相互作用数据为药物分子与靶点蛋白质之间的相互作用的数据,如图2中药物分子A和药物分子B与蛋白质A均有交互作用,药物分子C与蛋白质B有交互作用。其中药物分子该交互作用可以为抑制作用或者激活作用。其中,药物数据主要存储于药物分子数据库中,靶点蛋白质数据主要存储于靶点蛋白质数据库中,如图3所示。
S200:根据所述相互作用数据,构建多个所述药物数据与多个所述靶点蛋白质数据的第一相互作用关系。
具体地,第一相互作用关系主要包括结合可能值和不确定值,其中结合可能值表示药物分子与靶点蛋白质结合的可能性,所述不确定值表示药物分子与靶点蛋白质结合的不确定性。
更具体地,第一相互作用关系可以通过第一矩阵表示,具体如下:根据获取到的药物数据、靶点蛋白质数据以及相互作用数据,构建第一矩阵;其中,所述第一矩阵用于表示第一相互作用关系,所述第一矩阵的每一行表示一个所述药物数据与多个靶点蛋白质数据的相互关系,每一列表示一个所述靶点蛋白质数据与多个所述药物数据的相互关系。
其中,第一矩阵
Figure SMS_1
的每一行/>
Figure SMS_2
表示一个药物分子与多个靶点蛋白质的相互关系;每一列/>
Figure SMS_3
表示一个靶点蛋白质与多个药物分子的相互关系;/>
Figure SMS_4
表示药物i与靶点蛋白质j的关系值。当/>
Figure SMS_5
为“?”表示不确定药物与对应的蛋白质之间是否存在结合的可能,当/>
Figure SMS_6
为具体数值表示药物与对应的蛋白质之间存在结合的可能性,数值越大,结合的可能性越大,“0”表示药物与对应的蛋白质之间存在结合的可能性为0,即药物与对应的蛋白质之间无结合可能。
表1
Figure SMS_7
S300:对所述第一相互作用关系进行调整,以将所述不确定值调整为结合可能值,得到第二相互作用关系。
具体地,对第一相互作用关系进行调整的目的是为了将不确定值调整为结合可能值,例如将表1中的“?”调整为“0”或者具体数值,从而将原先稀疏的第一矩阵调整为稠密的第二矩阵(用于表示第二相互作用关系)。
步骤S300包括步骤S310至步骤S320,具体如下:
S310:将所述第一矩阵进行奇异值分解,得到药物特征矩阵和蛋白质特征矩阵;
S320:对所述蛋白质特征矩阵的转置矩阵和所述药物特征矩阵进行聚合处理,得到第二矩阵。
其中,所述第二矩阵用于表示第二相互作用关系,所述第二矩阵的每一行表示一个所述药物数据与多个靶点蛋白质数据的相互关系,每一列表示一个所述靶点蛋白质数据与多个所述药物数据的相互关系。
在上述步骤S310至步骤S320中,如图3所示,为了将原先稀疏的第一矩阵(存在不确定值)调整为稠密的第二矩阵(不存在不确定值),通过机器学习的方式将第一矩阵V奇异值分解(Singular Value Decomposition)为目标药物特征矩阵
Figure SMS_8
和目标蛋白质特征矩阵
Figure SMS_9
;然后通过将目标药物特征矩阵/>
Figure SMS_10
和目标蛋白质特征矩阵/>
Figure SMS_11
的转置矩阵进行聚合(相乘),即可得到稠密的第二矩阵。
其具体学习过程具体如下:
其损失函数为:
Figure SMS_12
上式中,
Figure SMS_15
表示药物对蛋白的预测,计算式为/>
Figure SMS_18
Figure SMS_21
,用来确定是否为空值;/>
Figure SMS_14
表示药物i与靶点蛋白质j的关系值,/>
Figure SMS_16
为目标药物特征矩阵的第i行,/>
Figure SMS_19
为目标蛋白质特征矩阵的第j列;/>
Figure SMS_22
和/>
Figure SMS_13
为正则项的范数,分别控制两个对应不同正则项;/>
Figure SMS_17
和/>
Figure SMS_20
是超参数,用于表示正则化率,正则化率越大,模型变简单,正则化率过小,模型会复杂。等式后两项L1正则,用来防止过拟合。
优化方法为常见的随机梯度下降:
计算梯度:
Figure SMS_23
Figure SMS_24
更新U,M
Figure SMS_25
Figure SMS_26
其中
Figure SMS_27
为学习率,默认为0.05。
当SVD(Singular Value Decomposition,奇异值分解)评价参数RMSE(Root meansquared error,均方根误差)达到目标要求或者不降反增时,学习结束。将学习得到的药物特征矩阵
Figure SMS_28
和蛋白质特征矩阵的转置矩阵/>
Figure SMS_29
相乘,即可得到不存在不确定值的稠密的第二矩阵。
S400:根据所述第二相互作用关系中至少一个药物数据与多个所述靶点蛋白质数据的结合可能值,对多个所述靶点蛋白质数据进行排序,并将排名在预设范围内的靶点蛋白质数据作为第一靶点蛋白质数据。
具体地,如图3所示:对靶点蛋白质数据进行排序的过程中,可以将与至少一个药物数据对应的多个靶点蛋白质数据,按照其结合可能值由大到小的顺序进行排列,可以根据实际需求设置预设范围,例如选择排名前10,或者前100的靶点蛋白质数据作为第一靶点蛋白质数据。以此可以很好地筛选掉与至少一个药物数据结合可能性较小的靶点蛋白质,从而节省大量算力,解决了预测方式中已知药物分子与海量靶点蛋白质分别进行分子对接,导致其过程会耗费大量算力的问题。
优选地,所述方法还包括步骤S500,具体如下:
S500:分别计算所述至少一个药物数据对应的药物分子与多个第一靶点蛋白质数据对应的靶点蛋白质的结合能,并根据所述结合能,从多个第一靶点蛋白质数据中筛选出第二靶点蛋白质数据。
具体地,通过分子对接方法,计算至少一个药物数据与每个第一靶点蛋白质数据的靶点蛋白质之间的结合能,结合能越大代表对应的靶点蛋白质与至少一个药物数据的结合可能性越大;根据其结合能将多个第一靶点蛋白质数据的靶点蛋白质按照由大到小的顺序进行排列,根据实际需求设置预设范围,选择排名在预设范围内的靶点蛋白质作为第二靶点蛋白质数据,例如前10或者前100的靶点蛋白质均作为第二靶点蛋白质数据。
在步骤S500之前,所述方法还包括:判断是否识别出所述第一靶点蛋白质数据对应的靶点蛋白质的对接口袋;所述对接口袋表示靶点蛋白质表面或内部与药物分子结合的位置;如果识别出所述靶点蛋白质的对接口袋,则计算药物分子与靶点蛋白质的结合能;如果未识别出所述靶点蛋白质的对接口袋,则在确定所述靶点蛋白质的对接口袋后计算所述药物分子与所述靶点蛋白质的结合能,如图3所示。
具体地,当无法识别靶点蛋白质的对接口袋时,可以通过以下方式确定靶点蛋白质的对接口袋:1、文献/数据库调研法:通过文献调研,从他人/前人的实验结果中获悉该蛋白质的主要功能和所属家族,找到它的活性位点信息;通过对已有较多研究的其他种属的同源蛋白进行比较研究,找到对应的口袋信息。2、实验预测法:例如定点突变(通常用在对计算结果的验证,而非相反)、荧光探针标记。3、软件预测法:通过特定软件预测靶点蛋白质的对接口袋。
优选地,通过分子对接方法,计算至少一个药物数据与每个第一靶点蛋白质数据的靶点蛋白质之间的结合能,包括:在开源分子对接仿真场景下,利用至少一个药物数据构建药物分子的第一立体构象,以及利用第一靶点蛋白质数据构建靶点蛋白质的第二立体构象;对所述第一立体构象与所述第二立体构象之间进行分子对接,并根据对接结果确定结合能。
具体地,利用至少一个药物数据构建药物分子的第一立体构象,包括:对药物分子进行加氢、分配键极处理,并生成药物分子配体的第一立体构象。利用第一靶点蛋白质数据构建靶点蛋白质的第二立体构象,包括:对所述靶点蛋白质进行能量最低优化处理(例如去除水分子、杂原子或其他非必要酶),以构建蛋白质受体的第二立体构象。
更具体地,对所述靶点蛋白质进行能量最低优化处理,构建蛋白质受体的立体构象的过程中,包括:准备蛋白质受体文件:从靶点蛋白质数据库中提取与第一靶点蛋白质数据对应的PDB文件,并且去除水分子、杂原子或其他非必要酶。完成之后,需要补充氢原子,分配键极、补充侧链、去除5 atom的水分子,进行能量最低优化。在对药物配体的立体构象与蛋白质受体的立体构象之间进行分子对接之前,还包括生成格点文件:对蛋白质受体上的口袋生成格点文件。在对所述蛋白质受体和所述药物配体进行分子对接的过程中,包括:根据格点文件,使用标准精度对蛋白质受体和药物配体进行分子对接。
优选地,如图3所示,在计算至少一个药物数据的药物分子与每个第一靶点蛋白质数据的靶点蛋白质的结合能之后,还包括根据其靶点蛋白质的结合能高低再次对第一靶点蛋白质数据进行精确排序,得到靶点蛋白质列表,即第二靶点蛋白质数据。
优选地,所述方法还包括:
当对新加入的药物数据进行靶点蛋白质预测时,从药物分子数据库中查询与新加入的药物数据相似度最高的目标药物数据;并从所述第二相互作用关系中与所述目标药物数据对应的多个第一靶点蛋白质数据中确定出第三靶点蛋白质数据。
具体地,当药物分子数据库中存在新加入药物小分子,且药物分子数据库中没有记录此药物的蛋白质靶点数据,则可以寻找与新加入药物小分子相似度最高的药物,作为新加入药物小分子的比对记录,然后根据相似度最高的药物小分子靶点数据,对新加入药物小分子进行蛋白质靶点预测。药物分子之间的相似度计算方法,可以通过Rdkit生成分子指纹并使用其计算分子的相似性,其中包括来源于MDL(MicroStation DevelopmentLanguage,开发语言)的化学结构数据库指纹;以及哈希指纹,这种分子指纹会计算介于上下限的分子路径,并且对分子图做哈希运算,速度非常快,并且非常适合做分子相似度计算。
当存在新加入的靶点蛋白质数据时,从靶点蛋白质数据库中查询与新加入的靶点蛋白质数据相似度最高的目标靶点蛋白质数据,并将所述新加入的靶点蛋白质数据与所述目标靶点蛋白质数据分为同一类别的靶点蛋白质数据集。
具体地,当存在新蛋白质加入靶点蛋白质数据库时,可以通过蛋白质相似性矩阵分别计算出靶点蛋白质数据库中每个靶点蛋白质与新蛋白质之间的相似度;并根据其相似度对新蛋白质进行划归对应的靶点蛋白质数据集中。本发明中对于蛋白质相似度计算实质上是对序列相似度进行对比,可选择全局对比或者局部对比,蛋白质相似性矩阵实质上是一种BLOSUM矩阵,即块置换矩阵,BLOSUM矩阵是一个log-odds矩阵,计算公式为:
Figure SMS_30
上式中,a、b分别表示两个碱基,
Figure SMS_31
表示相似度,/>
Figure SMS_32
匹配上的碱基对出现的联合概率,意为b有a演变而来的概率。/>
Figure SMS_33
和/>
Figure SMS_34
表示每个碱基出现的概率。
实施例2
本实施例提供一种用于药物的靶点蛋白质预测装置,如图4所示,包括:
数据获取模块,用于获取药物数据、靶点蛋白质数据以及相互作用数据;所述相互作用数据为药物分子与靶点蛋白质之间的相互作用的数据;
第一构建模块,用于根据所述相互作用数据,构建多个所述药物数据与多个所述靶点蛋白质数据的第一相互作用关系;所述第一相互作用关系包括结合可能值和不确定值,所述结合可能值表示药物分子与靶点蛋白质结合的可能性,所述不确定值表示药物分子与靶点蛋白质结合的不确定性;
第二构建模块,用于对所述第一相互作用关系进行调整,以将所述不确定值调整为结合可能值,得到第二相互作用关系;
靶点蛋白质确定模块,用于根据所述第二相互作用关系中至少一个药物数据与多个所述靶点蛋白质数据的结合可能值,对多个所述靶点蛋白质数据进行排序,并将排名在预设范围内的靶点蛋白质数据作为第一靶点蛋白质数据。
优选地,所述第一构建模块,包括:
第一矩阵构建单元,用于根据所述药物数据、所述靶点蛋白质数据以及所述相互作用数据,构建第一矩阵;其中,所述第一矩阵用于表示第一相互作用关系,所述第一矩阵的每一行表示一个所述药物数据与多个靶点蛋白质数据的相互关系,每一列表示一个所述靶点蛋白质数据与多个所述药物数据的相互关系。
优选地,第二构建模块,包括:
分解单元,用于将所述第一矩阵进行奇异值分解,得到药物特征矩阵和蛋白质特征矩阵;
聚合单元,用于对所述蛋白质特征矩阵的转置矩阵和所述药物特征矩阵进行聚合处理,得到第二矩阵;所述第二矩阵用于表示第二相互作用关系,所述第二矩阵的每一行表示一个所述药物数据与多个靶点蛋白质数据的相互关系,每一列表示一个所述靶点蛋白质数据与多个所述药物数据的相互关系。
优选地,所述用于药物的靶点蛋白质预测装置,包括:
结合能计算模块,用于分别计算所述至少一个药物数据对应的药物分子与多个第一靶点蛋白质数据对应的靶点蛋白质的结合能,并根据所述结合能,从多个第一靶点蛋白质数据中筛选出第二靶点蛋白质数据。
优选地,所述用于药物的靶点蛋白质预测装置,包括:
对接口袋判断模块,用于判断是否识别出所述第一靶点蛋白质数据对应的靶点蛋白质的对接口袋;所述对接口袋表示靶点蛋白质表面或内部与药物分子结合的位置;
第一计算模块,用于如果识别出所述靶点蛋白质的对接口袋,则计算药物分子与靶点蛋白质的结合能;
第二计算模块,用于如果未识别出所述靶点蛋白质的对接口袋,则在确定所述靶点蛋白质的对接口袋后计算所述药物分子与所述靶点蛋白质的结合能。
优选地,结合能计算模块,包括:
立体构象构建单元,用于在开源分子对接仿真场景下,利用至少一个药物数据构建药物分子的第一立体构象,以及利用第一靶点蛋白质数据构建靶点蛋白质的第二立体构象;
结合能计算单元,用于对所述第一立体构象与所述第二立体构象之间进行分子对接,并根据对接结果确定结合能。
优选地,所述用于药物的靶点蛋白质预测装置,包括:
药物相似度计算模块,用于当对新加入的药物数据进行靶点蛋白质预测时,从药物分子数据库中查询与新加入的药物数据相似度最高的目标药物数据;并从所述第二相互作用关系中与所述目标药物数据对应的多个第一靶点蛋白质数据中筛选出第三靶点蛋白质数据;
蛋白质相似度计算模块,用于当存在新加入的靶点蛋白质数据时,从靶点蛋白质数据库中查询与新加入的靶点蛋白质数据相似度最高的目标靶点蛋白质数据,并将所述新加入的靶点蛋白质数据与所述目标靶点蛋白质数据分为同一类别的靶点蛋白质数据集。
实施例3
本发明还提供一种计算机设备,如图5所示,包括存储器和处理器,存储器存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的各种实施方式提供的用于药物的靶点蛋白质预测方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的各种实施方式提供的用于药物的靶点蛋白质预测方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种用于药物的靶点蛋白质预测方法,其特征在于,包括:
获取药物数据、靶点蛋白质数据以及相互作用数据;所述相互作用数据为药物分子与靶点蛋白质之间相互作用的数据;
根据所述相互作用数据,构建多个所述药物数据与多个所述靶点蛋白质数据的第一相互作用关系;所述第一相互作用关系包括结合可能值和不确定值,所述结合可能值表示药物分子与靶点蛋白质结合的可能性,所述不确定值表示药物分子与靶点蛋白质结合的不确定性;
对所述第一相互作用关系进行调整,以将所述不确定值调整为结合可能值,得到第二相互作用关系;
根据所述第二相互作用关系中至少一个药物数据与多个所述靶点蛋白质数据的结合可能值,对多个所述靶点蛋白质数据进行排序,并将排名在预设范围内的靶点蛋白质数据作为第一靶点蛋白质数据。
2.根据权利要求1所述的用于药物的靶点蛋白质预测方法,其特征在于,所述根据所述相互作用数据,构建多个所述药物数据与多个所述靶点蛋白质数据的第一相互作用关系,包括:
根据所述药物数据、所述靶点蛋白质数据以及所述相互作用数据,构建第一矩阵;
其中,所述第一矩阵用于表示第一相互作用关系,所述第一矩阵的每一行表示一个所述药物数据与多个靶点蛋白质数据的相互关系,每一列表示一个所述靶点蛋白质数据与多个所述药物数据的相互关系。
3.根据权利要求2所述的用于药物的靶点蛋白质预测方法,其特征在于,所述对所述第一相互作用关系进行调整,以将所述不确定值调整为结合可能值,得到第二相互作用关系,包括:
将所述第一矩阵进行奇异值分解,得到药物特征矩阵和蛋白质特征矩阵;
对所述蛋白质特征矩阵的转置矩阵和所述药物特征矩阵进行聚合处理,得到第二矩阵;
其中,所述第二矩阵用于表示第二相互作用关系,所述第二矩阵的每一行表示一个所述药物数据与多个靶点蛋白质数据的相互关系,每一列表示一个所述靶点蛋白质数据与多个所述药物数据的相互关系。
4.根据权利要求1所述的用于药物的靶点蛋白质预测方法,其特征在于,所述方法还包括:
分别计算所述至少一个药物数据对应的药物分子与多个第一靶点蛋白质数据对应的靶点蛋白质的结合能;
根据所述结合能,从多个第一靶点蛋白质数据中筛选出第二靶点蛋白质数据。
5.根据权利要求4所述的用于药物的靶点蛋白质预测方法,其特征在于,所述分别计算所述至少一个药物数据对应的药物分子与多个第一靶点蛋白质数据对应的靶点蛋白质的结合能之前,所述方法还包括:
判断是否识别出所述第一靶点蛋白质数据对应的靶点蛋白质的对接口袋;所述对接口袋表示靶点蛋白质表面或内部与药物分子结合的位置;
如果识别出所述靶点蛋白质的对接口袋,则计算药物分子与靶点蛋白质的结合能;
如果未识别出所述靶点蛋白质的对接口袋,则在确定所述靶点蛋白质的对接口袋后计算所述药物分子与所述靶点蛋白质的结合能。
6.根据权利要求4所述的用于药物的靶点蛋白质预测方法,其特征在于,分别计算所述至少一个药物数据对应的药物分子与多个第一靶点蛋白质数据对应的靶点蛋白质的结合能,包括:
在开源分子对接仿真场景下,利用至少一个药物数据构建药物分子的第一立体构象,以及利用第一靶点蛋白质数据构建靶点蛋白质的第二立体构象;
对所述第一立体构象与所述第二立体构象之间进行分子对接,并根据对接结果确定结合能。
7.根据权利要求1或2所述的用于药物的靶点蛋白质预测方法,其特征在于,所述方法还包括:
当对新加入的药物数据进行靶点蛋白质预测时,从药物分子数据库中查询与新加入的药物数据相似度最高的目标药物数据;并从所述第二相互作用关系中与所述目标药物数据对应的多个第一靶点蛋白质数据中筛选出第三靶点蛋白质数据;
当存在新加入的靶点蛋白质数据时,从靶点蛋白质数据库中查询与新加入的靶点蛋白质数据相似度最高的目标靶点蛋白质数据,并将所述新加入的靶点蛋白质数据与所述目标靶点蛋白质数据分为同一类别的靶点蛋白质数据集。
8.一种用于药物的靶点蛋白质预测装置,其特征在于,包括:
数据获取模块,用于获取药物数据、靶点蛋白质数据以及相互作用数据;所述相互作用数据为药物分子与靶点蛋白质之间的相互作用的数据;
第一构建模块,用于根据所述相互作用数据,构建多个所述药物数据与多个所述靶点蛋白质数据的第一相互作用关系;所述第一相互作用关系包括结合可能值和不确定值,所述结合可能值表示药物分子与靶点蛋白质结合的可能性,所述不确定值表示药物分子与靶点蛋白质结合的不确定性;
第二构建模块,用于对所述第一相互作用关系进行调整,以将所述不确定值调整为结合可能值,得到第二相互作用关系;
靶点蛋白质确定模块,用于根据所述第二相互作用关系中至少一个药物数据与多个所述靶点蛋白质数据的结合可能值,对多个所述靶点蛋白质数据进行排序,并将排名在预设范围内的靶点蛋白质数据作为第一靶点蛋白质数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的用于药物的靶点蛋白质预测方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的用于药物的靶点蛋白质预测方法的步骤。
CN202310525852.1A 2023-05-11 2023-05-11 用于药物的靶点蛋白质预测方法及装置、设备、存储介质 Active CN116246697B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310525852.1A CN116246697B (zh) 2023-05-11 2023-05-11 用于药物的靶点蛋白质预测方法及装置、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310525852.1A CN116246697B (zh) 2023-05-11 2023-05-11 用于药物的靶点蛋白质预测方法及装置、设备、存储介质

Publications (2)

Publication Number Publication Date
CN116246697A true CN116246697A (zh) 2023-06-09
CN116246697B CN116246697B (zh) 2023-08-01

Family

ID=86631720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310525852.1A Active CN116246697B (zh) 2023-05-11 2023-05-11 用于药物的靶点蛋白质预测方法及装置、设备、存储介质

Country Status (1)

Country Link
CN (1) CN116246697B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150324546A1 (en) * 2012-06-21 2015-11-12 Georgetown University Method for predicting drug-target interactions and uses for drug repositioning
CN105160206A (zh) * 2015-10-08 2015-12-16 中国科学院数学与系统科学研究院 一种预测药物的蛋白质相互作用靶点的方法和系统
CN112133367A (zh) * 2020-08-17 2020-12-25 中南大学 药物与靶点间的相互作用关系预测方法及装置
CN113409897A (zh) * 2021-05-25 2021-09-17 电子科技大学长三角研究院(衢州) 药物-靶标相互作用的预测方法、装置、设备和存储介质
CN113421658A (zh) * 2021-07-06 2021-09-21 西北工业大学 基于近邻注意力网络的“药物-靶标”相互作用预测方法
CN114360639A (zh) * 2022-01-11 2022-04-15 平安科技(深圳)有限公司 基于人工智能的药物靶点作用关系确定方法及装置
US20220246251A1 (en) * 2020-03-18 2022-08-04 The Regents Of The University Of Michigan Coupled matrix-matrix and coupled tensor-matrix completion methods for predicting drug-target interactions
US20230098285A1 (en) * 2021-09-24 2023-03-30 Seoul National University R&Db Foundation Apparatus and method for generating a protein-drug interaction prediction model for predicting protein-drug interaction and determining its uncertainty, and protein-drug interaction prediction apparatus and method
CN115910196A (zh) * 2022-10-26 2023-04-04 广东技术师范大学 一种药物-靶点蛋白质相互作用预测的方法及系统
CN115985386A (zh) * 2022-12-28 2023-04-18 星希尔生物科技(上海)有限公司 一种多模态药物-蛋白质靶点相互作用预测方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150324546A1 (en) * 2012-06-21 2015-11-12 Georgetown University Method for predicting drug-target interactions and uses for drug repositioning
CN105160206A (zh) * 2015-10-08 2015-12-16 中国科学院数学与系统科学研究院 一种预测药物的蛋白质相互作用靶点的方法和系统
US20220246251A1 (en) * 2020-03-18 2022-08-04 The Regents Of The University Of Michigan Coupled matrix-matrix and coupled tensor-matrix completion methods for predicting drug-target interactions
CN112133367A (zh) * 2020-08-17 2020-12-25 中南大学 药物与靶点间的相互作用关系预测方法及装置
CN113409897A (zh) * 2021-05-25 2021-09-17 电子科技大学长三角研究院(衢州) 药物-靶标相互作用的预测方法、装置、设备和存储介质
CN113421658A (zh) * 2021-07-06 2021-09-21 西北工业大学 基于近邻注意力网络的“药物-靶标”相互作用预测方法
US20230098285A1 (en) * 2021-09-24 2023-03-30 Seoul National University R&Db Foundation Apparatus and method for generating a protein-drug interaction prediction model for predicting protein-drug interaction and determining its uncertainty, and protein-drug interaction prediction apparatus and method
CN114360639A (zh) * 2022-01-11 2022-04-15 平安科技(深圳)有限公司 基于人工智能的药物靶点作用关系确定方法及装置
CN115910196A (zh) * 2022-10-26 2023-04-04 广东技术师范大学 一种药物-靶点蛋白质相互作用预测的方法及系统
CN115985386A (zh) * 2022-12-28 2023-04-18 星希尔生物科技(上海)有限公司 一种多模态药物-蛋白质靶点相互作用预测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAIYANG WANG ET AL.: "Drug-Target Interaction Prediction with Graph Attention networks", 《HTTPS://ARXIV.ORG》, pages 1 - 9 *
赵佳福: "基于药物-靶点蛋白质相互作用的方法研究", 《CNKI硕士学位论文.信息科技》, no. 9 *

Also Published As

Publication number Publication date
CN116246697B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
Sułkowska et al. Genomics-aided structure prediction
Saha et al. Ensemble learning prediction of protein–protein interactions using proteins functional annotations
US20050278124A1 (en) Methods for molecular property modeling using virtual data
US20170277826A1 (en) System, method and software for robust transcriptomic data analysis
RU2607039C2 (ru) Устройство предсказания взаимодействия, способ предсказания взаимодействия и компьютерный программный продукт
CN105117618B (zh) 一种基于牵连犯罪原则和网络拓扑结构特征的药物‑靶标相互作用识别方法
Yue et al. Computational systems biology in disease modeling and control, review and perspectives
CN115240762B (zh) 多尺度小分子虚拟筛选方法及系统
Emami et al. Computational predictive approaches for interaction and structure of aptamers
US20060161407A1 (en) Modeling biological effects of molecules using molecular property models
Majhi et al. Bioinformatics for healthcare applications
CN112233200A (zh) 剂量确定方法及装置
He et al. NHGNN-DTA: a node-adaptive hybrid graph neural network for interpretable drug–target binding affinity prediction
Singh et al. Bioinformatics: methods and applications
CN110289055A (zh) 药物靶标的预测方法、装置、计算机设备和存储介质
CN116246697B (zh) 用于药物的靶点蛋白质预测方法及装置、设备、存储介质
Puigbò et al. Genome-wide comparative analysis of phylogenetic trees: the prokaryotic forest of life
Sulimov et al. Supercomputing, docking and quantum mechanics in quest for inhibitors of Papain-like protease of SARS-CoV-2
KR20230051051A (ko) 약학적 활성 성분의 특성 예측방법
KR101810527B1 (ko) 10,000개 이상 유전자 간의 전사조절 네트워크 구축 알고리즘과 이를 이용한 약물반응 원인 유전자 발굴 방법
Wu et al. Be-1DCNN: a neural network model for chromatin loop prediction based on bagging ensemble learning
CN110689919B (zh) 一种基于结构和等级分类的药物蛋白结合率预测方法及系统
CN113782121A (zh) 随机分组方法、装置、计算机设备及存储介质
RU2020135474A (ru) Способ и система для компьютерного моделирования и имитации, применяемые для определения характеристик и/или оптимизации лекарственных средств
Akbari et al. The revolutionizing impact of artificial intelligence on breast cancer management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 201306, Building C, No. 888 Huanxihu West 2nd Road, Lingang New Area, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai

Patentee after: Hefei Micro Era Digital Technology Co.,Ltd.

Address before: 201306, Building C, No. 888 Huanxihu West 2nd Road, Lingang New Area, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai

Patentee before: Shanghai Micro Era Digital Technology Co.,Ltd.

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: Room 220, Embedded R&D Building, Advanced Technology Research Institute, University of Science and Technology of China, No. 5089 Wangjiang West Road, High tech Zone, Hefei City, Anhui Province, 230000

Patentee after: Hefei Micro Era Digital Technology Co.,Ltd.

Address before: 201306, Building C, No. 888 Huanxihu West 2nd Road, Lingang New Area, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai

Patentee before: Hefei Micro Era Digital Technology Co.,Ltd.