CN116994671A - 一种基于点云数据快速筛选小分子药物的方法及装置 - Google Patents

一种基于点云数据快速筛选小分子药物的方法及装置 Download PDF

Info

Publication number
CN116994671A
CN116994671A CN202311242750.5A CN202311242750A CN116994671A CN 116994671 A CN116994671 A CN 116994671A CN 202311242750 A CN202311242750 A CN 202311242750A CN 116994671 A CN116994671 A CN 116994671A
Authority
CN
China
Prior art keywords
point
atomic
target
atomic point
point cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311242750.5A
Other languages
English (en)
Other versions
CN116994671B (zh
Inventor
马静
李劲松
王昱
周天舒
田雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202311242750.5A priority Critical patent/CN116994671B/zh
Publication of CN116994671A publication Critical patent/CN116994671A/zh
Application granted granted Critical
Publication of CN116994671B publication Critical patent/CN116994671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本说明书公开了一种基于点云数据快速筛选小分子药物的方法及装置。方法包括:获取靶蛋白对应的受体结构模型,并基于受体结构模型中各原子之间的空间几何关系,确定受体结构模型对应的第一点云数据;根据第一点云数据对受体结构模型进行裁剪,得到目标受体结构模型;针对每个药物分子,确定靶蛋白与该药物分子的复合物结构模型;确定复合物结构模型对应的第二点云数据,并根据第二点云数据中的每个原子点对应的位置信息、每个原子点对应原子的类型信息以及每个原子点对应原子的结构信息中的至少一种,构建预测模型的输入数据;将输入数据输入预先训练的预测模型中,确定结合亲和力;根据每个药物分子与靶蛋白之间的结合亲和力进行药物筛选。

Description

一种基于点云数据快速筛选小分子药物的方法及装置
技术领域
本说明书涉及生物工程领域,尤其涉及一种基于点云数据快速筛选小分子药物的方法及装置。
背景技术
在药物研究和开发的过程中,通常需要从确定预期治疗的生物分子目标开始,确定目标的生物活性化合物,以及相应的生物活性水平。进而筛选出与生物分子对应靶蛋白相匹配的药物,以实现药物的研究与开发。
在进行药物筛选的过程中,通常需要确定不同药物分子与靶蛋白之间的结合亲和力,然而,目前在确定结合亲和力的过程中需要进行大量的计算,消耗的时间较长,导致药物筛选效率过低,并且,现有亲和力确定方法的准确性较低,难以在不同的药物分子中进行精确的药物筛选。
因此,如何提高药物筛选的效率以及确定出的亲和力的准确性,从而进行精确的药物筛选,是一个亟待解决的问题。
发明内容
本说明书提供一种基于点云数据快速筛选小分子药物的方法及装置。以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种基于点云数据快速筛选小分子药物的方法,包括:
获取靶蛋白对应的受体结构模型,并基于所述受体结构模型中所述靶蛋白的各原子之间的空间几何关系,确定所述受体结构模型对应的第一点云数据,所述受体结构模型中的每个原子对应所述第一点云数据中的一个原子点;
根据所述第一点云数据对所述受体结构模型进行裁剪,得到目标受体结构模型;
针对每个药物分子,对所述目标受体结构模型与该药物分子的配体结构模型进行分子对接,得到所述靶蛋白与该药物分子的复合物对应的复合物结构模型;
确定所述复合物结构模型对应的第二点云数据,并根据所述第二点云数据中的每个原子点对应的位置信息、每个原子点对应原子的类型信息、每个原子点对应原子的结构信息以及每个原子点对应原子所属氨基酸在所述靶蛋白中的相对顺序中的至少一种,构建预测模型的输入数据;
将所述输入数据输入预先训练的所述预测模型中,确定该药物分子与所述靶蛋白之间的结合亲和力;
根据每个药物分子与所述靶蛋白之间的结合亲和力进行药物筛选。
可选地,根据所述第一点云数据对所述受体结构模型进行裁剪,得到目标受体结构模型,具体包括:
在所述第一点云数据中确定目标原子点;
根据所述目标原子点以及所述目标原子点周围指定数量的其他原子点,确定裁剪后第一点云;
根据所述裁剪后第一点云确定所述目标受体结构模型。
可选地,在所述第一点云数据中确定目标原子点,具体包括:
确定所述靶蛋白对应的相互作用热点残基;
根据所述热点残基在所述第一点云数据中对应的各原子点,确定所述目标原子点。
可选地,根据所述第二点云数据中的每个原子点对应的位置信息、每个原子点对应原子的类型信息、每个原子点对应原子的结构信息以及每个原子点对应原子所属氨基酸在所述靶蛋白中的相对顺序中的至少一种,构建预测模型的输入数据,具体包括:
在所述第二点云数据中确定目标原子点;
根据所述目标原子点以及所述目标原子点周围指定数量的其他原子点,确定目标点云;
根据所述目标点云中的每个原子点对应的位置信息、每个原子点对应原子的类型信息、每个原子点对应原子的结构信息以及每个原子点对应原子所属氨基酸在所述靶蛋白中的相对顺序中的至少一种,构建所述输入数据。
可选地,根据所述目标点云中的每个原子点对应的位置信息、每个原子点对应原子的类型信息、每个原子点对应原子的结构信息以及每个原子点对应原子所属氨基酸在所述靶蛋白中的相对顺序中的至少一种,构建所述输入数据,具体包括:
将所述目标点云中各原子点对应的初始坐标转换为齐次坐标;
针对每个原子点,将该原子点对应的齐次坐标移动到以所述目标点云的质心为原点的坐标系中,得到该原子点对应的目标齐次坐标;
计算所述目标点云与指定的参考点云之间的仿射变换矩阵,并根据所述仿射变换矩阵以及各原子点对应的目标齐次坐标,确定各原子点对应的齐次坐标向量;
将所述齐次坐标向量转化为笛卡尔坐标系中的坐标,得到所述位置信息。
可选地,所述结构信息包括:原子所属氨基酸的二级结构注释信息。
可选地,将所述输入数据输入预先训练的所述预测模型中,确定该药物分子与所述靶蛋白之间的结合亲和力,具体包括:
将所述输入数据输入所述预测模型的至少一个特征提取层,得到各特征提取层提取到的复合物特征;
将所述复合物特征输入所述预测模型的池化层,得到池化结果;
将所述池化结果输入所述预测模型的输出层,得到所述结合亲和力。
可选地,将所述输入数据输入所述预测模型的至少一个特征提取层中,得到各特征提取层提取到的复合物特征,具体包括:
将所述输入数据输入所述预测模型中的第一特征提取层,针对每个原子点,通过所述第一特征提取层,根据该原子点对应的位置信息以及该原子点的邻居原子点对应的位置信息,确定该原子点和所述邻居原子点对应的位置编码;
根据所述输入数据,以及各原子点和各原子点的邻居原子点对应的位置编码,确定所述第一特征提取层提取到的复合物特征。
可选地,将所述输入数据输入所述预测模型的至少一个特征提取层中,得到各特征提取层提取到的复合物特征,具体包括:
将所述输入数据输入所述预测模型中的第二特征提取层,针对每个原子点,通过所述第二特征提取层,根据该原子点对应的位置信息以及该原子点的邻居原子点对应的位置信息,确定该原子点与所述邻居原子点之间的径向距离和极角;
根据所述径向距离以及所述极角,确定该原子点与所述邻居原子点的极坐标;
根据该原子点与每个邻居原子点的极坐标,确定该原子点对应的极坐标聚合特征;
根据所述输入数据以及每个原子点对应的极坐标聚合特征,确定所述第二特征提取层提取到的复合物特征。
可选地,将所述输入数据输入所述预测模型的至少一个特征提取层中,得到各特征提取层提取到的复合物特征,具体包括:
将所述输入数据输入所述预测模型中的第三特征提取层,针对每个原子点,通过所述第三特征提取层,确定所述靶蛋白以及所述药物分子以单体的形式存在时,该原子点对应第一溶剂可及表面积以及该原子点的邻居原子点对应的第一溶剂可及表面积,以及,确定所述靶蛋白与所述药物分子以复合物的形式存在时,该原子点对应第二溶剂可及表面积以及所述邻居原子点对应的第二溶剂可及表面积;
根据该原子点对应第一溶剂可及表面积和第二溶剂可及表面积,以及所述邻居原子点对应的第一溶剂可及表面积和第二溶剂可及表面积,确定该原子点和所述邻居原子点之间的溶剂可及表面积变化特征;
根据所述输入数据,以及每个原子点和每个原子点的邻居原子点之间的溶剂可及表面积变化特征,确定所述第三特征提取层提取到的复合物特征。
可选地,训练所述预测模型,具体包括:
从预设复合物数据库中获取指定靶蛋白与目标分子对应复合物的实验结构模型;
确定所述实验结构模型对应的点云数据,并根据所述实验结构模型的点云数据中每个原子点对应的位置信息、每个原子点对应原子的类型信息、每个原子点对应原子的结构信息以及每个原子点对应原子所属氨基酸在所述靶蛋白中的相对顺序中的至少一种,构建待训练预测模型的目标输入数据;
将所述目标输入数据输入所述预测模型,以通过所述预测模型确定所述目标分子与所述指定靶蛋白的结合亲和力,作为预测结合亲和力;
以最小化所述预测结合亲和力与所述指定靶蛋白与目标分子的实际结合亲和力之间的偏差为优化目标,对所述预测模型进行训练。
可选地,在将所述目标输入数据输入所述预测模型之前,所述方法还包括:
根据所述实验结构模型,确定所述指定靶蛋白与所述目标分子的结合亲和力,作为所述药物分子和所述靶蛋白的实际结合亲和力。
本说明书提供了一种基于点云数据快速筛选小分子药物的装置,包括:
获取模块,获取靶蛋白对应的受体结构模型,并基于所述受体结构模型中所述靶蛋白的各原子之间的空间几何关系,确定所述受体结构模型对应的第一点云数据,所述受体结构模型中的每个原子对应所述第一点云数据中的一个原子点;
裁剪模块,根据所述第一点云数据对所述受体结构模型进行裁剪,得到目标受体结构模型;
对接模块,针对每个药物分子,对所述目标受体结构模型与该药物分子的配体结构模型进行分子对接,得到所述靶蛋白与该药物分子的复合物对应的复合物结构模型;
构建模块,确定所述复合物结构模型对应的第二点云数据,并根据所述第二点云数据中的每个原子点对应的位置信息、每个原子点对应原子的类型信息、每个原子点对应原子的结构信息以及每个原子点对应原子所属氨基酸在所述靶蛋白中的相对顺序中的至少一种,构建预测模型的输入数据;
输入模块,将所述输入数据输入预先训练的所述预测模型中,确定该药物分子与所述靶蛋白之间的结合亲和力;
筛选模块,根据每个药物分子与所述靶蛋白之间的结合亲和力进行药物筛选。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于点云数据快速筛选小分子药物的方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于点云数据快速筛选小分子药物的方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书提供的基于点云数据快速筛选小分子药物的方法中,获取靶蛋白对应的受体结构模型,并基于受体结构模型中各原子之间的空间几何关系,确定受体结构模型对应的第一点云数据;根据第一点云数据对受体结构模型进行裁剪,得到目标受体结构模型;针对每个药物分子,确定靶蛋白与该药物分子的复合物结构模型;确定复合物结构模型对应的第二点云数据,并根据第二点云数据中的每个原子点对应的位置信息、每个原子点对应原子的类型信息以及每个原子点对应原子的结构信息中的至少一种,构建预测模型的输入数据;将输入数据输入预先训练的预测模型中,确定结合亲和力;根据每个药物分子与靶蛋白之间的结合亲和力进行药物筛选。
从上述方法可以看出,本方案在进行分子对接之前会根据受体结构模型对应的点云数据对其进行裁剪,通过较小的受体结构模型可以减少对接过程中的计算量,缩短计算时间,进而提高药物筛选的整体效率,并且,本方案可以根据点云数据中每个原子点对应的位置信息、类型信息以及结构信息等多个维度的数据确定预测模型的输入,使得预测模型提取到的特征能够对复合物多个维度的信息进行准确表达,提高输出结果的准确性,进一步提高了药物筛选的准确性。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中提供的一种基于点云数据快速筛选小分子药物的方法的流程示意图;
图2为本说明书中提供的一种复合物的目标点云裁剪过程示意图;
图3为本说明书中提供的一种预测模型的模型结构示意图;
图4为本说明书提供的一种基于点云数据快速筛选小分子药物的装置的示意图;
图5为本说明书提供的一种对应于图1的电子设备示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
传统上,药物研究和开发从确定预期治疗的生物分子目标开始,然后进行高通量筛选实验,以确定目标的生物活性化合物,以及相应的生物活性水平。高通量筛选的目的是为了找到合适的候选药物。随着高通量筛选技术的发展,现在有可能进行扫描数千种不同化合物的实验,并检测它们对选定目标蛋白的生物活性水平。然而,设计高通量筛选实验是昂贵的,它是一个耗时的过程,而且它需要拥有化学和生物库的先进实验室。此外,对人类基因组中所有表达的蛋白质和所有已知化合物进行高通量筛选实验是不可行的。高通量筛选的另一个问题是其高失败率,这限制了新型药物的鉴定。为了解决上述的挑战和问题,在过去的几十年里,人们开发并使用了计算方法,也就是虚拟筛选。在药物开发管道中,虚拟筛选方法大多放在高通量筛选之前,可优先排除不可能的药物-靶蛋白对,仅潜在的活性组合可以进入高通量筛选实验程序,因此虚拟筛选有可能大大降低高通量筛选的成本和时间。
大多数虚拟筛选方法利用复合物和靶蛋白的生物学、拓扑学和物理化学特性等来预测未知的结合自由能,为此需要根据小分子和靶蛋白的分子特征,计算为定量向量。虚拟筛选方法使用这些特征向量作为输入来模拟复合物和目标分子之间的相互作用。然而,以往的虚拟筛选方法使用间接计算的特征,可能会损失一些重要信息。因此,利用间接计算特征进行的建模和预测可能会存在一定的偏差,且构建的模型不具有可解释性。间接特征对处理分子异构体和变形存在苦难,泛化能力弱。传统的虚拟筛选方法需要进行大量的计算和模拟,涉及到大量的计算资源和时间成本,且只能在CPU上运行,规模和效率受到限制。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书中提供的一种基于点云数据快速筛选小分子药物的方法的流程示意图,包括以下步骤:
S101:获取靶蛋白对应的受体结构模型,并基于所述受体结构模型中所述靶蛋白的各原子之间的空间几何关系,确定所述受体结构模型对应的第一点云数据,所述受体结构模型中的每个原子对应所述第一点云数据中的一个原子点。
在进行药物筛选的过程中,通常需要对不同药物对应的药物小分子与靶蛋白之间的结合自由能计算,从而确定不同药物分子与靶蛋白之间的结合亲和力,进而进行药物筛选,其中,药物分子与靶蛋白之间的结合亲和力表示蛋白质和小分子之间的结合作用的强度。这种结合作用可以通过实验方法测量,也可通过计算机辅助模拟方法和数据驱动学习算法预测。通常用解离常数Kd来衡量,Kd越小则说明蛋白质与小分子之间的结合越紧密,亲和力越强。
由于基于点云的深度学习策略可以更准确地捕捉分子的特征,将靶蛋白、小分子(药物分子)包含的原始结构信息直接作为输入特征,实现端到端的学习。经过训练的深度学习模型可以学习生物分子内或分子间的相互作用特征,包括氢键、π-π堆积、疏水相互作用或范德华力等,极大的促进对蛋白-药物分子亲和力的预测,从而提高虚拟筛选的效率和准确性。并且基于点云的深度学习模型可以在GPU上进行高效并行计算,提高计算效率和速度。基于此,本说明书提供了一种基于点云数据快速筛选小分子药物的方法,以根据靶蛋白和药物分子的点云数据来对不同药物分子与靶蛋白的结合亲和力进行预测。
在本说明书中,用于实现一种基于点云数据快速筛选小分子药物的方法的执行主体可以是服务器等指定设备,为了便于描述,本说明书仅以服务器作为执行主体为例,对基于点云数据快速筛选小分子药物的方法进行说明。
其中,服务器可以从蛋白质数据库(如UniProt知识库经人工审核的Swiss-Prot)中提取物种为“智人”的蛋白质作为靶蛋白,并获取对应的信息,包括登录号、基因名称、氨基酸序列和是否已有蛋白质三维实验结构等。
在实际应用中,靶蛋白的类型可以根据药用的作用对象(如其他动物、植物等)来进行确定,本说明书对此不做具体限定。
而后服务器可以从诸如蛋白质结构数据库(Protein Data Bank,PDB)等蛋白质的三维结构数据库中提取蛋白质数据库登录号(UniProt)对应的蛋白质(靶蛋白)三维实验结构相关信息,三维实验结构的原子坐标、三维实验结构的链、链对应的序列。对同一个蛋白质数据库登录号仅保留一个分辨率满足一定要求且最完整的三维实验结构模型。
而后服务器可以去除靶蛋白三维实验结构中的其他链、金属或溶剂,如小抑制剂、肽段、水等,仅保留单体结构,得到靶蛋白的受体结构模型。
S102:根据所述第一点云数据对所述受体结构模型进行裁剪,得到目标受体结构模型。
服务器可以基于受体结构模型中靶蛋白的各原子之间的空间几何关系,将靶蛋白的三维结构模型转换为点云,从而确定受体结构模型对应的第一点云数据,受体结构模型中的每个原子对应第一点云数据中的一个原子点,第一点云数据中每个原子点的坐标与受体结构模型中各原子的位置相对应。
进一步的,为了减少分子对接过程中的计算量,服务器可以根据第一点云数据,对受体结构模型进行裁剪。
具体的,服务器可以搜索蛋白质相互作用数据库(如HINT),或者使用工具(如InterProSurf、PIPSA等)计算靶蛋白的相互作用热点,并确定各热点残基。
而后服务器可以将其中任意一个热点残基的α碳对应的原子点作为目标原子点,并使用K近邻算法,裁剪该热点残基附近指定数量的原子点,根据目标原子点以及目标原子点周围指定数量的其他原子点,确定裁剪后第一点云。在本说明书中,裁剪后第一点云中原子点的数量可以为1024。
之后服务器可以确定裁剪后的第一点云(包含上述1024个原子点的点云)所对应的三维结构模型,作为目标受体结构模型。
S103:针对每个药物分子,对所述目标受体结构模型与该药物分子的配体结构模型进行分子对接,得到所述靶蛋白与该药物分子的复合物对应的复合物结构模型。
服务器可以从小分子数据库(如ZINC或PubChem等)中获取各药物分子对应的配体结构模型。为靶蛋白的受体结构模型和各药物分子的配体结构模型添加氢原子和电荷,修复残基和化学键。
而后将受体结构模型和配体结构模型的文件导入常用的分子对接软件(如AutoDock、Surflex-Dock等)进行分子对接,并设置分子对接参数(如对接算法、打分函数、搜索空间等),之后启动对接计算,根据打分值、能量值、键合模式等评价对接质量,筛选能量最低、交互位点面积最大、亲和力最高的对接结果,作为各药物分子与靶蛋白的复合物对应的复合物结构模型。
S104:确定所述复合物结构模型对应的第二点云数据,并根据所述第二点云数据中的每个原子点对应的位置信息、每个原子点对应原子的类型信息、每个原子点对应原子的结构信息以及每个原子点对应原子所属氨基酸在所述靶蛋白中的相对顺序中的至少一种,构建预测模型的输入数据。
针对靶蛋白与每个药物分子的复合物结构模型,服务器可以根据该复合物结构模型中碳、氮、氧等原子的三维坐标,构建一个三维原子点云,作为复合物模型对应的第二点云数据,该第二点云数据与上述第一点云数据的构建方法相同,本说明书在此处不做过多赘述。
进一步的,服务器可以对上述第二点云数据进行裁剪,如使用结合自由能计算工具(如MM-PBSA、MM-GBSA或PRODIGY等)识别对接结果中亲和力贡献最强的残基,使用K近邻算法裁剪该热点残基为中心的附近1024个原子点,经标准化预处理后,得到裁剪后的目标点云并确定裁剪后复合物结构模型。为了便于理解,本说明书中提供了一种复合物的目标点云裁剪过程示意图,如图2所示。
图2为本说明书中提供的一种复合物的目标点云裁剪过程示意图。
其中,服务器可以将复合物模型转换为第二点云数据,并进行标准化预处理,而后K近邻算法裁剪热点残基为中心的1024个原子点,得到目标点云,目标点云中原子点的数量要小于第二点云数据中原子点的数量。
服务器可以根据目标点云中的每个原子点对应的位置信息、每个原子点对应原子的类型信息以及每个原子点对应原子的结构信息中的至少一种,构建所述输入数据。
具体的,服务器可以先将第二点云表示为齐次坐标形式,即将第二点云中每个原子点的三维坐标点转化为一个四维向量/>,其中1表示齐次坐标参数。对于每个点云,计算其质心作为坐标原点,并将点云中的每个点的齐次坐标都减去质心坐标,从而将点云的坐标系移动到以质心为原点的坐标系中,得到各原子点对应的目标齐次坐标。
进一步的,服务器可以选择一个参考点云作为基准,将其坐标系定义为参考坐标系。通过诸如迭代最近点(Iterative Closest Point,ICP)算法,计算出点云与参考点云之间的仿射变换矩阵,并将该仿射变换矩阵与上述目标齐次坐标,得到新的齐次坐标向量,之后再将其转换回三维笛卡尔坐标系,也就是将四维向量转换为三维向量,得到各原子点的位置信息。上述过程的变换公式可以表示为:
公式中,P是一个三维坐标系下的原子点的齐次坐标,M是一个仿射变换矩阵,是转换后的目标齐次坐标,/>是预处理后转换为笛卡尔坐标系的原子点坐标(即原子点的位置信息)。
在本说明书中,预测模型的输入数据可以包含有n个维度,表示各原子点对应的n维的输入特征,原子点对应的输入特征除了包含有上述位置信息,还可以包括所属氨基酸在蛋白质中的相对顺序o(归一化处理后得到/>:将相对顺序o除以最大的氨基酸序数),原子类型A,原子点的结构信息d(α螺旋,β折叠和无规卷曲)等。
例如,若原子点为氮原子,则向量/>中/>
其中,C、O、N分别表示碳、氢、氧三种原子,CA为α碳。
上述原子点的结构信息可以为原子点所属氨基酸的二级结构注释信息,包括α螺旋(H),β折叠(E)和无规卷曲(C)等,针对原子点构建三维向量/>
例如原子点所属氨基酸的二级结构注释信息为α螺旋,则向量/>,/>
最终,原子点的b维输入特征/>可以表示为:
由每个原子点对应原子的b为输入特征共同构成了预测模型的输入数据。
当然,服务器也可以不对第二点云数据以及复合物结构模型以确定目标点云,而是直接根据第二点云数据中的每个原子点对应的位置信息、每个原子点对应原子的类型信息、每个原子点对应原子的结构信息以及每个原子点对应原子所属氨基酸在所述靶蛋白中的相对顺序,构建预测模型的输入数据。
S105:将所述输入数据输入预先训练的所述预测模型中,确定该药物分子与所述靶蛋白之间的结合亲和力。
在本说明书中预测模型可以包含有最大池化层、全连接层、输出层和多个特征提取层,其中,预测模型的每个特征提取层对应一个编码层,预测模型的输出层为全连接层。
特征提取层(编码层)由一个全连接层、多个转换器层和多个下采样层组成。转换器层由两个线性层和一个自注意层组成。不同特征提取层中的转换器层采用不同的自注意机制。为了便于理解,本说明书提供了一种预测模型的模型结构示意图,如图3所示。
图3为本说明书中提供的一种预测模型的模型结构示意图。
其中,该预测模型包含有三个特征提取层,分别为第一特征提取层、第二特征提取层以及第三特征提取层,由于不同特征提取层中转换器的自注意力机制不同,每个特征提取层提取到的复合物特征也有所不同。
服务器可以分别将输入数据输入预测模型中的第一特征提取层、第二特征提取层以及第三特征提取层,其中,第一特征提取层可以根据原子点对应的位置信息以及该原子点的邻居原子点对应的位置信息,确定该原子点和邻居原子点对应的位置编码,而后根据输入数据,以及各原子点和各原子点的邻居原子点对应的位置编码,确定第一特征提取层提取到的复合物特征。
具体的,第一特征提取层的转换器层的注意力机制可以为基于向量的自注意机制,通过公式可以表示为:
其中,为第一特征提取层提取到的复合物特征,X是原子点集,/>是其中任意一个原子点,包含有该原子点对应的n维输入特征,而/>是/>的局部邻居原子点,包含有该邻居原子点对应的n维输入特征,/>是一组/>的局部相邻原子点的集合。
是一个归一化函数(如softmax函数),用于将注意力权重进行归一化,使得所有的权重和为1。/>是一个映射函数,生成注意力向量。/>、/>和/>是点的特征变换,可以是线性层或者多层感知机层。/>和/>分别用于将点/>和邻居点/>映射到不同的空间中,以便计算它们之间的相似度。/>为原子点/>和邻居点/>的位置编码,其计算公式可以表示为:
其中,是位置编码函数(θ是一个具有两个线性层和一个ReLU非线性的MLP)。/>是哈达玛积操作,用于提取具有注意力权重的局部特征。
第二特征提取层可以根据原子点对应的位置信息以及该原子点的邻居原子点对应的位置信息,确定该原子点与所述邻居原子点之间的径向距离和极角,根据所述径向距离以及所述极角,确定该原子点与所述邻居原子点的极坐标,根据该原子点与每个邻居原子点的极坐标,确定该原子点对应的极坐标聚合特征,而后根据输入数据以及每个原子点对应的极坐标聚合特征,确定第二特征提取层提取到的复合物特征。
具体的,原子点间形成的化学键与原子点间的距离、角度具有重要的关系。因此转换器层可采用基于极坐标的注意力机制。位置编码替换为邻居点的极坐标聚合特征/>,通过公式可以表示为:
其中,为第二特征提取层提取到的复合物特征,/>为极坐标特征,该特征是以原子点/>为极坐标系中心,邻居原子点/>的极坐标可以定义为/>。/>是邻居原子点/>到中心点/>的径向距离,/>是邻居点点/>到中心点/>的的极角,都可以通过位置信息/>和/>计算得到。极坐标特征/>的计算公式可以表示为:
其中,为聚合函数(如最大值函数),可计算得到原子点/>的极坐标聚合特征。
第三特征提取层可以确定靶蛋白以及药物分子以单体的形式存在时,原子点对应第一溶剂可及表面积以及该原子点的邻居原子点对应的第一溶剂可及表面积,以及,确定靶蛋白与药物分子以复合物的形式存在时,该原子点对应第二溶剂可及表面积以及邻居原子点对应的第二溶剂可及表面积。
而后根据该原子点对应第一溶剂可及表面积和第二溶剂可及表面积,以及邻居原子点对应的第一溶剂可及表面积和第二溶剂可及表面积,确定该原子点和邻居原子点之间的溶剂可及表面积变化特征,进而根据输入数据,以及每个原子点和每个原子点的邻居原子点之间的溶剂可及表面积变化特征,确定第三特征提取层提取到的复合物特征。
具体的,靶蛋白与药物分子之间产生亲和力强的相互作用,则原子点的溶剂可及表面积则会改变。因此第三特征提取层中的转换器层可采用基于原子的溶剂可及表面积的注意力机制。位置编码替换为溶剂可及性的特征/>,通过公式可以表示为:
其中,,为第三特征提取层提取到的复合物特征,/>是原子点/>及邻居原子点之间溶剂可及表面积的变化特征。计算靶蛋白、药物分子单体存在时,原子点/>及邻居原子点/>的溶剂可及表面积/>和/>,再计算靶蛋白-药物分子复合物存在时,原子点/>及邻居原子点/>的溶剂可及表面积/>和/>。溶剂可及表面积的变化特征/>的计算公式可以表示为:
其中,是一个聚合函数(如方差函数),可计算得到原子点/>与邻居原子点/>的溶剂可及性表面积变化特征/>
各特征提取层中的下采样层首先执行最远点采样,然后通过KNN算法,找到每个原子点的k个最近邻原子点,进行局部最大池化,使得原子点的基数逐渐变少。在实施例中,下采样率为[1, 4, 4, 4, 4],因此,每个下采样层产生的原子点集基数为[N, N/4, N/16,N/64, N/256]。
不同特征提取层(编码层)的结果先进行全局平均池化,再汇聚到最大池化层,对称聚合函数(最大池化)应用于每一个相互作用热点残基(原子点),将池化结果输入全连接层,全连接层输出聚合后的特征向量,最终经过输出层,根据聚合后的特征向量确定各药物分子与靶蛋白之间的结合亲和力。
在使用上述预测模型之前,服务器可以先对预测模型进行训练,并将训练完成的预测模型进行部署。
具体的,服务器可以从靶蛋白-小分子复合物数据库(如PDBbind)中获取靶蛋白-小分子复合物的三维实验结构,选择不同的数据集用于训练模型(如General Set)、评估模型的准确性和精度(如Refined Set)或评估模型的泛化性和可靠性(如Core Set)。提取靶蛋白-小分子复合物三维实验结构中碳、氮、氧等原子的三维坐标,构建三维原子点云,经标准化预处理后,赋予每个原子点标签,靶蛋白的标签为0和小分子的标签为1。使用结合自由能计算工具(如MM-PBSA、MM-GBSA或PRODIGY等)识别靶蛋白-小分子复合物中亲和力贡献最强的残基,使用K近邻算法裁剪该残基为中心的附近1024个点的三维实验结构模型作为训练样本,将该三维实验结构对应的结合亲和力作为标签(实际结合亲和力)。
在训练模型的过程中,服务器可以确定实验结构模型对应的点云数据(该点云数据可以为经过裁剪并转换后的点云数据,裁剪以及坐标转换的方法已在上文进行描述,本说明书在此处不做过多赘述),并根据实验结构模型的点云数据中每个原子点对应的位置信息、每个原子点对应原子的类型信息、每个原子点对应原子的结构信息以及每个原子点对应原子所属氨基酸在所述靶蛋白中的相对顺序中的至少一种,构建待训练预测模型的目标输入数据。
而后将目标输入数据输入所述预测模型,以通过预测模型确定所述目标分子与所述指定靶蛋白的结合亲和力,作为预测结合亲和力。
服务器可以以最小化预测结合亲和力与指定靶蛋白与目标分子的实际结合亲和力之间的偏差为优化目标,对所述预测模型进行训练。
其中,预测模型的目标函数L可以包含损失函数和正则化项的惩罚项。预测误差的损失函数用于衡量实际值与预测值之间的误差,XGBoost中常用的损失函数包括平方损失函数、对数损失函数、指数损失函数等。在一个实施例中,损失函数使用平方误差损失函数:
其中是该靶蛋白与目标分子实际的结合亲和力,/>是靶蛋白与目标分子预测的结合亲和力。K为CART树的棵数,f表示一棵具体的CART树。
正则化项的惩罚项用于控制模型的复杂度,防止过拟合。XGBoost采用L1和L2正则化的结合方式,表示为:
其中,T是决策树的叶子节点数,是叶子节点j的权重,/>和/>是超参数,用于控制正则化项的强度和叶子节点的数量。
当预测模型满足预设训练条件(如收敛至预设范围或达到预设训练次数)后,方可将其进行部署,以用于对靶蛋白的目标药物进行筛选。
S106:根据每个药物分子与所述靶蛋白之间的结合亲和力进行药物筛选。
在实际应用中,服务器可以根据每个药物分子与靶蛋白之间的结合亲和力进行药物筛选,如将结合亲和力最大的药物分子作为目标药物分子,从而根据该目标药物分子进行药物研发。
从上述方法可以看出,本方案在进行分子对接之前会根据受体结构模型对应的点云数据对其进行裁剪,通过较小的受体结构模型可以减少对接过程中的计算量,缩短计算时间,进而提高药物筛选的整体效率,并且,本方案可以根据点云数据中每个原子点对应的位置信息、类型信息以及结构信息等多个维度的数据确定预测模型的输入,使得预测模型提取到的特征能够对复合物多个维度的信息进行准确表达,提高输出结果的准确性,进一步提高了药物筛选的准确性。
进一步的,本说明书中的预测模型能够生成可视化的分子结构图像,帮助研究人员理解分子的结构和亲和力预测结果,增强模型的可解释性;并且能够更好地处理分子的异构体和变形,具有更好的泛化能力,能够预测具有多种结构和构象的蛋白-分子的亲和力。基于点云的深度学习模型可以在GPU上进行高效并行计算,提高计算效率和速度。
以上为本说明书的一个或多个实施基于点云数据快速筛选小分子药物的方法,基于同样的思路,本说明书还提供了相应的基于点云数据快速筛选小分子药物的装置,如图4所示。
图4为本说明书提供的一种基于点云数据快速筛选小分子药物的装置的示意图,包括:
获取模块401,用于获取靶蛋白对应的受体结构模型,并基于所述受体结构模型中所述靶蛋白的各原子之间的空间几何关系,确定所述受体结构模型对应的第一点云数据,所述受体结构模型中的每个原子对应所述第一点云数据中的一个原子点;
裁剪模块402,用于根据所述第一点云数据对所述受体结构模型进行裁剪,得到目标受体结构模型;
对接模块403,用于针对每个药物分子,对所述目标受体结构模型与该药物分子的配体结构模型进行分子对接,得到所述靶蛋白与该药物分子的复合物对应的复合物结构模型;
构建模块404,用于确定所述复合物结构模型对应的第二点云数据,并根据所述第二点云数据中的每个原子点对应的位置信息、每个原子点对应原子的类型信息、每个原子点对应原子的结构信息以及每个原子点对应原子所属氨基酸在所述靶蛋白中的相对顺序中的至少一种,构建预测模型的输入数据;
输入模块405,用于将所述输入数据输入预先训练的所述预测模型中,确定该药物分子与所述靶蛋白之间的结合亲和力;
筛选模块406,用于根据每个药物分子与所述靶蛋白之间的结合亲和力进行药物筛选。
可选地,所述裁剪模块402具体用于,在所述第一点云数据中确定目标原子点;根据所述目标原子点以及所述目标原子点周围指定数量的其他原子点,确定裁剪后第一点云;根据所述裁剪后第一点云确定所述目标受体结构模型。
可选地,所述裁剪模块402具体用于,确定所述靶蛋白对应的相互作用热点残基;根据所述热点残基在所述第一点云数据中对应的各原子点,确定所述目标原子点。
可选地,所述构建模块404具体用于,在所述第二点云数据中确定目标原子点;根据所述目标原子点以及所述目标原子点周围指定数量的其他原子点,确定目标点云;根据所述目标点云中的每个原子点对应的位置信息、每个原子点对应原子的类型信息、每个原子点对应原子的结构信息以及每个原子点对应原子所属氨基酸在所述靶蛋白中的相对顺序中的至少一种,构建所述输入数据。
可选地,所述构建模块404具体用于,将所述目标点云中各原子点对应的初始坐标转换为齐次坐标;针对每个原子点,将该原子点对应的齐次坐标移动到以所述目标点云的质心为原点的坐标系中,得到该原子点对应的目标齐次坐标;计算所述目标点云与指定的参考点云之间的仿射变换矩阵,并根据所述仿射变换矩阵以及各原子点对应的目标齐次坐标,确定各原子点对应的齐次坐标向量;将所述齐次坐标向量转化为笛卡尔坐标系中的坐标,得到所述位置信息。
可选地,所述结构信息包括:原子所属氨基酸的二级结构注释信息。
可选地,所述输入模块405具体用于,将所述输入数据输入所述预测模型的至少一个特征提取层,得到各特征提取层提取到的复合物特征;将所述复合物特征输入所述预测模型的池化层,得到池化结果;将所述池化结果输入所述预测模型的输出层,得到所述结合亲和力。
可选地,所述输入模块405具体用于,将所述输入数据输入所述预测模型中的第一特征提取层,针对每个原子点,通过所述第一特征提取层,根据该原子点对应的位置信息以及该原子点的邻居原子点对应的位置信息,确定该原子点和所述邻居原子点对应的位置编码;根据所述输入数据,以及各原子点和各原子点的邻居原子点对应的位置编码,确定所述第一特征提取层提取到的复合物特征。
可选地,所述输入模块405具体用于,将所述输入数据输入所述预测模型中的第二特征提取层,针对每个原子点,通过所述第二特征提取层,根据该原子点对应的位置信息以及该原子点的邻居原子点对应的位置信息,确定该原子点与所述邻居原子点之间的径向距离和极角;根据所述径向距离以及所述极角,确定该原子点与所述邻居原子点的极坐标;根据该原子点与每个邻居原子点的极坐标,确定该原子点对应的极坐标聚合特征;根据所述输入数据以及每个原子点对应的极坐标聚合特征,确定所述第二特征提取层提取到的复合物特征。
可选地,所述输入模块405具体用于,将所述输入数据输入所述预测模型中的第三特征提取层,针对每个原子点,通过所述第三特征提取层,确定所述靶蛋白以及所述药物分子以单体的形式存在时,该原子点对应第一溶剂可及表面积以及该原子点的邻居原子点对应的第一溶剂可及表面积,以及,确定所述靶蛋白与所述药物分子以复合物的形式存在时,该原子点对应第二溶剂可及表面积以及所述邻居原子点对应的第二溶剂可及表面积;根据该原子点对应第一溶剂可及表面积和第二溶剂可及表面积,以及所述邻居原子点对应的第一溶剂可及表面积和第二溶剂可及表面积,确定该原子点和所述邻居原子点之间的溶剂可及表面积变化特征;根据所述输入数据,以及每个原子点和每个原子点的邻居原子点之间的溶剂可及表面积变化特征,确定所述第三特征提取层提取到的复合物特征。
可选地,所述装置还包括:
训练模块407,用于从预设复合物数据库中获取指定靶蛋白与目标分子对应复合物的实验结构模型;确定所述实验结构模型对应的点云数据,并根据所述实验结构模型的点云数据中每个原子点对应的位置信息、每个原子点对应原子的类型信息、每个原子点对应原子的结构信息以及每个原子点对应原子所属氨基酸在所述靶蛋白中的相对顺序中的至少一种,构建待训练预测模型的目标输入数据;将所述目标输入数据输入所述预测模型,以通过所述预测模型确定所述目标分子与所述指定靶蛋白的结合亲和力,作为预测结合亲和力;以最小化所述预测结合亲和力与所述指定靶蛋白与目标分子的实际结合亲和力之间的偏差为优化目标,对所述预测模型进行训练。
可选地,在将所述目标输入数据输入所述预测模型之前,所述训练模块407具体用于,根据所述实验结构模型,确定所述指定靶蛋白与所述目标分子的结合亲和力,作为所述药物分子和所述靶蛋白的实际结合亲和力。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的一种基于点云数据快速筛选小分子药物的方法。
本说明书还提供了图5所示的一种对应于图1的电子设备的示意结构图。如图5所述,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的基于点云数据快速筛选小分子药物的方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(ProgrammableLogic Device, PLD)(例如现场可编程门阵列(Field Programmable Gate Array,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(HardwareDescription Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(AdvancedBoolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(JavaHardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby HardwareDescription Language)等,目前最普遍使用的是VHDL(Very-High-Speed IntegratedCircuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (15)

1.一种基于点云数据快速筛选小分子药物的方法,其特征在于,包括:
获取靶蛋白对应的受体结构模型,并基于所述受体结构模型中所述靶蛋白的各原子之间的空间几何关系,确定所述受体结构模型对应的第一点云数据,所述受体结构模型中的每个原子对应所述第一点云数据中的一个原子点;
根据所述第一点云数据对所述受体结构模型进行裁剪,得到目标受体结构模型;
针对每个药物分子,对所述目标受体结构模型与该药物分子的配体结构模型进行分子对接,得到所述靶蛋白与该药物分子的复合物对应的复合物结构模型;
确定所述复合物结构模型对应的第二点云数据,并根据所述第二点云数据中的每个原子点对应的位置信息、每个原子点对应原子的类型信息、每个原子点对应原子的结构信息以及每个原子点对应原子所属氨基酸在所述靶蛋白中的相对顺序中的至少一种,构建预测模型的输入数据;
将所述输入数据输入预先训练的所述预测模型中,确定该药物分子与所述靶蛋白之间的结合亲和力;
根据每个药物分子与所述靶蛋白之间的结合亲和力进行药物筛选。
2.如权利要求1所述的方法,其特征在于,根据所述第一点云数据对所述受体结构模型进行裁剪,得到目标受体结构模型,具体包括:
在所述第一点云数据中确定目标原子点;
根据所述目标原子点以及所述目标原子点周围指定数量的其他原子点,确定裁剪后第一点云;
根据所述裁剪后第一点云确定所述目标受体结构模型。
3.如权利要求2所述的方法,其特征在于,在所述第一点云数据中确定目标原子点,具体包括:
确定所述靶蛋白对应的相互作用热点残基;
根据所述热点残基在所述第一点云数据中对应的各原子点,确定所述目标原子点。
4.如权利要求1所述的方法,其特征在于,根据所述第二点云数据中的每个原子点对应的位置信息、每个原子点对应原子的类型信息、每个原子点对应原子的结构信息以及每个原子点对应原子所属氨基酸在所述靶蛋白中的相对顺序中的至少一种,构建预测模型的输入数据,具体包括:
在所述第二点云数据中确定目标原子点;
根据所述目标原子点以及所述目标原子点周围指定数量的其他原子点,确定目标点云;
根据所述目标点云中的每个原子点对应的位置信息、每个原子点对应原子的类型信息、每个原子点对应原子的结构信息以及每个原子点对应原子所属氨基酸在所述靶蛋白中的相对顺序中的至少一种,构建所述输入数据。
5.如权利要求4所述的方法,其特征在于,根据所述目标点云中的每个原子点对应的位置信息、每个原子点对应原子的类型信息、每个原子点对应原子的结构信息以及每个原子点对应原子所属氨基酸在所述靶蛋白中的相对顺序中的至少一种,构建所述输入数据,具体包括:
将所述目标点云中各原子点对应的初始坐标转换为齐次坐标;
针对每个原子点,将该原子点对应的齐次坐标移动到以所述目标点云的质心为原点的坐标系中,得到该原子点对应的目标齐次坐标;
计算所述目标点云与指定的参考点云之间的仿射变换矩阵,并根据所述仿射变换矩阵以及各原子点对应的目标齐次坐标,确定各原子点对应的齐次坐标向量;
将所述齐次坐标向量转化为笛卡尔坐标系中的坐标,得到所述位置信息。
6.如权利要求1所述的方法,其特征在于,所述结构信息包括:原子所属氨基酸的二级结构注释信息。
7.如权利要求1所述的方法,其特征在于,将所述输入数据输入预先训练的所述预测模型中,确定该药物分子与所述靶蛋白之间的结合亲和力,具体包括:
将所述输入数据输入所述预测模型的至少一个特征提取层,得到各特征提取层提取到的复合物特征;
将所述复合物特征输入所述预测模型的池化层,得到池化结果;
将所述池化结果输入所述预测模型的输出层,得到所述结合亲和力。
8.如权利要求7所述的方法,其特征在于,将所述输入数据输入所述预测模型的至少一个特征提取层中,得到各特征提取层提取到的复合物特征,具体包括:
将所述输入数据输入所述预测模型中的第一特征提取层,针对每个原子点,通过所述第一特征提取层,根据该原子点对应的位置信息以及该原子点的邻居原子点对应的位置信息,确定该原子点和所述邻居原子点对应的位置编码;
根据所述输入数据,以及各原子点和各原子点的邻居原子点对应的位置编码,确定所述第一特征提取层提取到的复合物特征。
9.如权利要求7所述的方法,其特征在于,将所述输入数据输入所述预测模型的至少一个特征提取层中,得到各特征提取层提取到的复合物特征,具体包括:
将所述输入数据输入所述预测模型中的第二特征提取层,针对每个原子点,通过所述第二特征提取层,根据该原子点对应的位置信息以及该原子点的邻居原子点对应的位置信息,确定该原子点与所述邻居原子点之间的径向距离和极角;
根据所述径向距离以及所述极角,确定该原子点与所述邻居原子点的极坐标;
根据该原子点与每个邻居原子点的极坐标,确定该原子点对应的极坐标聚合特征;
根据所述输入数据以及每个原子点对应的极坐标聚合特征,确定所述第二特征提取层提取到的复合物特征。
10.如权利要求7所述的方法,其特征在于,将所述输入数据输入所述预测模型的至少一个特征提取层中,得到各特征提取层提取到的复合物特征,具体包括:
将所述输入数据输入所述预测模型中的第三特征提取层,针对每个原子点,通过所述第三特征提取层,确定所述靶蛋白以及所述药物分子以单体的形式存在时,该原子点对应第一溶剂可及表面积以及该原子点的邻居原子点对应的第一溶剂可及表面积,以及,确定所述靶蛋白与所述药物分子以复合物的形式存在时,该原子点对应第二溶剂可及表面积以及所述邻居原子点对应的第二溶剂可及表面积;
根据该原子点对应第一溶剂可及表面积和第二溶剂可及表面积,以及所述邻居原子点对应的第一溶剂可及表面积和第二溶剂可及表面积,确定该原子点和所述邻居原子点之间的溶剂可及表面积变化特征;
根据所述输入数据,以及每个原子点和每个原子点的邻居原子点之间的溶剂可及表面积变化特征,确定所述第三特征提取层提取到的复合物特征。
11.如权利要求1所述的方法,其特征在于,训练所述预测模型,具体包括:
从预设复合物数据库中获取指定靶蛋白与目标分子对应复合物的实验结构模型;
确定所述实验结构模型对应的点云数据,并根据所述实验结构模型的点云数据中每个原子点对应的位置信息、每个原子点对应原子的类型信息、每个原子点对应原子的结构信息以及每个原子点对应原子所属氨基酸在所述靶蛋白中的相对顺序中的至少一种,构建待训练预测模型的目标输入数据;
将所述目标输入数据输入所述预测模型,以通过所述预测模型确定所述目标分子与所述指定靶蛋白的结合亲和力,作为预测结合亲和力;
以最小化所述预测结合亲和力与所述指定靶蛋白与目标分子的实际结合亲和力之间的偏差为优化目标,对所述预测模型进行训练。
12.如权利要求11所述的方法,其特征在于,在将所述目标输入数据输入所述预测模型之前,所述方法还包括:
根据所述实验结构模型,确定所述指定靶蛋白与所述目标分子的结合亲和力,作为所述药物分子和所述靶蛋白的实际结合亲和力。
13.一种基于点云数据快速筛选小分子药物的装置,其特征在于,包括:
获取模块,获取靶蛋白对应的受体结构模型,并基于所述受体结构模型中所述靶蛋白的各原子之间的空间几何关系,确定所述受体结构模型对应的第一点云数据,所述受体结构模型中的每个原子对应所述第一点云数据中的一个原子点;
裁剪模块,根据所述第一点云数据对所述受体结构模型进行裁剪,得到目标受体结构模型;
对接模块,针对每个药物分子,对所述目标受体结构模型与该药物分子的配体结构模型进行分子对接,得到所述靶蛋白与该药物分子的复合物对应的复合物结构模型;
构建模块,确定所述复合物结构模型对应的第二点云数据,并根据所述第二点云数据中的每个原子点对应的位置信息、每个原子点对应原子的类型信息、每个原子点对应原子的结构信息以及每个原子点对应原子所属氨基酸在所述靶蛋白中的相对顺序中的至少一种,构建预测模型的输入数据;
输入模块,将所述输入数据输入预先训练的所述预测模型中,确定该药物分子与所述靶蛋白之间的结合亲和力;
筛选模块,根据每个药物分子与所述靶蛋白之间的结合亲和力进行药物筛选。
14.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~12任一项所述的方法。
15.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~12任一项所述的方法。
CN202311242750.5A 2023-09-25 2023-09-25 一种基于点云数据快速筛选小分子药物的方法及装置 Active CN116994671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311242750.5A CN116994671B (zh) 2023-09-25 2023-09-25 一种基于点云数据快速筛选小分子药物的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311242750.5A CN116994671B (zh) 2023-09-25 2023-09-25 一种基于点云数据快速筛选小分子药物的方法及装置

Publications (2)

Publication Number Publication Date
CN116994671A true CN116994671A (zh) 2023-11-03
CN116994671B CN116994671B (zh) 2024-01-02

Family

ID=88530444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311242750.5A Active CN116994671B (zh) 2023-09-25 2023-09-25 一种基于点云数据快速筛选小分子药物的方法及装置

Country Status (1)

Country Link
CN (1) CN116994671B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002079784A1 (en) * 2001-03-30 2002-10-10 Suntory Limited G protein-coupled receptor structural model and a method of designing ligand binding to g protein-coupled receptor by using the structural model
US20080215301A1 (en) * 2006-05-22 2008-09-04 Yeda Research And Development Co. Ltd. Method and apparatus for predicting protein structure
WO2022010646A1 (en) * 2020-07-09 2022-01-13 Tencent America LLC Point cloud geometry upsampling
WO2022161323A1 (zh) * 2021-01-28 2022-08-04 腾讯科技(深圳)有限公司 基于人工智能的药物分子处理方法、装置、设备、存储介质及计算机程序产品
CN115762662A (zh) * 2022-11-30 2023-03-07 苏州创腾软件有限公司 基于图神经网络的特定靶标药物生成方法、装置和MaxFlow平台
EP4181145A1 (en) * 2021-11-12 2023-05-17 Tata Consultancy Services Limited Method and system for structure-based drug design using a multi-modal deep learning model
CN116312752A (zh) * 2023-03-08 2023-06-23 浙江工业大学 一种基于等变图神经网络的刚体蛋白质对接方法
CN116779021A (zh) * 2023-03-29 2023-09-19 之江实验室 一种基于自动特征交叉的药物靶标结合亲和力预测方法和系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002079784A1 (en) * 2001-03-30 2002-10-10 Suntory Limited G protein-coupled receptor structural model and a method of designing ligand binding to g protein-coupled receptor by using the structural model
US20080215301A1 (en) * 2006-05-22 2008-09-04 Yeda Research And Development Co. Ltd. Method and apparatus for predicting protein structure
WO2022010646A1 (en) * 2020-07-09 2022-01-13 Tencent America LLC Point cloud geometry upsampling
WO2022161323A1 (zh) * 2021-01-28 2022-08-04 腾讯科技(深圳)有限公司 基于人工智能的药物分子处理方法、装置、设备、存储介质及计算机程序产品
EP4181145A1 (en) * 2021-11-12 2023-05-17 Tata Consultancy Services Limited Method and system for structure-based drug design using a multi-modal deep learning model
CN115762662A (zh) * 2022-11-30 2023-03-07 苏州创腾软件有限公司 基于图神经网络的特定靶标药物生成方法、装置和MaxFlow平台
CN116312752A (zh) * 2023-03-08 2023-06-23 浙江工业大学 一种基于等变图神经网络的刚体蛋白质对接方法
CN116779021A (zh) * 2023-03-29 2023-09-19 之江实验室 一种基于自动特征交叉的药物靶标结合亲和力预测方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
史海龙;赵云飞;惠媛;王瑞辉;郭新荣;: "基于药物靶点从传统中药库中高通量虚拟筛选EGFR-TK抑制剂", 时珍国医国药, no. 09 *
周凌云;: "基于集成支持向量机的蛋白质-蛋白质相互作用研究", 福建电脑, no. 01 *
林子峰;黄新安;徐培平;符林春;: "基于虚拟筛选的热毒宁抗HRV 3C蛋白酶抑制剂作用的研究", 中药药理与临床, no. 04 *

Also Published As

Publication number Publication date
CN116994671B (zh) 2024-01-02

Similar Documents

Publication Publication Date Title
Wang et al. Predicting protein–protein interactions from protein sequences by a stacked sparse autoencoder deep neural network
Cheng et al. Accurate prediction of protein disordered regions by mining protein structure data
WO2017196963A1 (en) Computational method for classifying and predicting protein side chain conformations
Zahiri et al. Protein complex prediction: A survey
WO2018213767A1 (en) Computational method for classifying and predicting ligand docking conformations
Long et al. Predicting protein phosphorylation sites based on deep learning
Wang et al. Machine learning-based methods for prediction of linear B-cell epitopes
Bongirwar et al. Different methods, techniques and their limitations in protein structure prediction: A review
Hoang et al. Splice sites detection using chaos game representation and neural network
Flot et al. StackSSSPred: a stacking-based prediction of supersecondary structure from sequence
Otovic et al. Sequential properties representation scheme for recurrent neural network-based prediction of therapeutic peptides
Chelur et al. Birds-binding residue detection from protein sequences using deep resnets
CN109086565B (zh) 一种基于残基间接触约束的蛋白质结构预测方法
Shi et al. Machine learning for chemistry: basics and applications
Ye et al. A comprehensive review of computation-based metal-binding prediction approaches at the residue level
CN116994671B (zh) 一种基于点云数据快速筛选小分子药物的方法及装置
Zhang et al. Equipocket: an e (3)-equivariant geometric graph neural network for ligand binding site prediction
Kabir et al. From molecular energy landscapes to equilibrium dynamics via landscape analysis and markov state models
CN116597892B (zh) 一种模型训练的方法以及分子结构信息的推荐方法及装置
Phan et al. A comprehensive revisit of the machine‐learning tools developed for the identification of enhancers in the human genome
Tarafder et al. RBSURFpred: modeling protein accessible surface area in real and binary space using regularized and optimized regression
Özçelik et al. Structure-based drug discovery with deep learning
Yuan et al. Sequence-based predictions of residues that bind proteins and peptides
Xu et al. DeepRank-GNN-esm: a graph neural network for scoring protein–protein models using protein language model
Görmez et al. ROSE: A novel approach for protein secondary structure prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant