CN114300067A - 筛选分子的方法、装置及其应用 - Google Patents

筛选分子的方法、装置及其应用 Download PDF

Info

Publication number
CN114300067A
CN114300067A CN202111639419.8A CN202111639419A CN114300067A CN 114300067 A CN114300067 A CN 114300067A CN 202111639419 A CN202111639419 A CN 202111639419A CN 114300067 A CN114300067 A CN 114300067A
Authority
CN
China
Prior art keywords
molecular
interaction
molecule
molecules
skeleton
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111639419.8A
Other languages
English (en)
Inventor
胡建星
吴楚楠
徐旻
庞丽雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jingtai Technology Co Ltd
Original Assignee
Shenzhen Jingtai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jingtai Technology Co Ltd filed Critical Shenzhen Jingtai Technology Co Ltd
Priority to CN202111639419.8A priority Critical patent/CN114300067A/zh
Publication of CN114300067A publication Critical patent/CN114300067A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本申请涉及了一种筛选分子的方法、装置及其应用。该筛选分子的方法包括:获得M个配体分子的简化分子线性式与N个分子结构之间的第一映射关系;对于M个配体分子的简化分子线性式中的至少部分,分别对简化分子线性式的结构信息进行骨架提取,得到O个分子骨架;聚合O个分子骨架,得到P个分子骨架类;基于第一映射关系确定P个分子骨架类与N个分子结构之间的第二映射关系,以便基于第二映射关系从包括M个配体分子的简化分子线性式的简化分子线性式集合中筛选与目标受体分子匹配的分子。本申请提供的方案,能够提升用户筛选分子的准确度和便捷度。

Description

筛选分子的方法、装置及其应用
技术领域
本申请涉及计算模拟技术领域,尤其涉及一种筛选分子的方法、装置及其应用。
背景技术
随着计算机技术和基础学科理论的快速发展,分子模拟的计算效率和精度都获得极大提高,使得分子模拟在多学科领域得到广泛应用。其中,筛选分子是分子模拟中的重要部分。
相关技术为了实现分子筛选,可以基于针对预设指标的阈值进行分子筛选。但是,这可能导致一些对后续开发有帮助的分子被过滤掉。
发明内容
为解决或部分解决相关技术中存在的问题,本申请提供一种筛选分子的方法、装置及其应用,能够降对后续开发有帮助的分子被过滤掉的概率。
本申请的第一个方面提供了一种筛选分子的方法,上述方法包括:获得M个配体分子的简化分子线性式与N个分子结构之间的第一映射关系,M个配体分子的简化分子线性式各自具有结构信息,M、N是大于或者等于1的整数;对于M个配体分子的简化分子线性式中的至少部分分子中的每个分子,分别对配体分子的结构信息进行骨架提取,得到O个分子骨架,O是大于或者等于1的整数,并且O小于或者等于M;聚合O个分子骨架,得到P个分子骨架类,P是大于或者等于1的整数,并且P小于或者等于O;基于第一映射关系确定P个分子骨架类与N个分子结构之间的第二映射关系,以便基于第二映射筛选与目标受体分子匹配的配体分子。
本申请的第二个方面提供了一种评估分子的方法,该方法包括:获得待筛选分子的简化分子线性式;基于待筛选分子的简化分子线性式确定待筛选分子的骨架;基于待筛选分子的骨架和如上方法确定的多种映射关系对待筛选分子进行评估,多种映射关系包括:第一映射关系至第六映射关系中至少一种。
本申请的第三个方面提供了一种设计方法,该设计方法包括:展示分子筛选结果,分子筛选结果是根据如上述方法得到的筛选结果;基于分子筛选结果进行药物设计或者材料设计。
本申请的第四方面提供了一种筛选分子的装置,包括:第一映射关系获得模块,用于获得M个配体分子的简化分子线性式与N个分子结构之间的第一映射关系,M个配体分子的简化分子线性式各自具有结构信息,M、N是大于或者等于1的整数;分子骨架提取模块,用于对于M个配体分子的简化分子线性式中的至少部分分子中的每个分子,分别对配体分子的结构信息进行骨架提取,得到O个分子骨架,O是大于或者等于1的整数,并且O小于或者等于M;分子骨架聚合模块,用于聚合O个分子骨架,得到P个分子骨架类,P是大于或者等于1的整数,并且P小于或者等于O;第二映射关系确定模块,用于基于第一映射关系确定P个分子骨架类与N个分子结构之间的第二映射关系,以便基于第二映射关系筛选与目标受体分子匹配的配体分子。
本申请的第五个方面提供了一种评估分子的装置。该装置包括:简化分子线性式获得模块,用于获得待筛选分子的简化分子线性式;待筛选分子骨架获得模块,用于基于待筛选分子的简化分子线性式确定待筛选分子的骨架;分子评估模块,用于基于待筛选分子的骨架和根据上述装置确定的多种映射关系对待筛选分子进行评估,多种映射关系包括:第一映射关系至第六映射关系中至少一种。
本申请的第六个方面提供了一种设计装置,该设计装置包括:筛选结果展示模块和设计模块。筛选结果展示模块用于展示分子筛选结果,分子筛选结果是根据如上述装置得到的筛选结果;设计模块用于基于分子筛选结果进行药物设计或者材料设计。
本申请的第七方面提供了一种电子设备,包括:处理器;存储器,其上存储有可执行代码,当上述可执行代码被处理器执行时,使得处理器执行上述方法。
本申请的第八方面还提供了一种计算机可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行上述方法。
本申请的第九方面还提供了一种计算机程序产品,包括可执行代码,可执行代码被处理器执行时实现上述方法。
本申请提供的筛选分子的方法、装置及其应用,基于配体分子的分子结构确定该配体分子的骨架,对多个配体分子的骨架进行聚类,得到骨架类,这样可以实现构建骨架类与分子结构之间的映射关系,使得可以基于待筛选分子的骨架来预测待筛选分子的分子结构等特征,提升筛选分子的准确度和便捷度,以便于辅助推荐合理的分子进入合成及测试阶段。
此外,本申请提供的技术方案还可以进一步确定分子结构与结构类和/或相互作用类之间的映射关系,便于用户基于更多维度的映射关系来进行分子筛选。
另外,本申请提供的技术方案还可以基于动力学模拟的结果来验证相互作用类中的相互作用是否稳定,便于用户基于相互作用是否稳定来进行分子筛选。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
通过结合附图对本申请示例性实施方式进行更详细地描述,本申请的上述以及其它目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
图1示意性示出了根据本申请实施例的筛选分子的过程示意图;
图2示意性示出了根据本申请实施例的可以应用筛选分子的方法、装置及其应用的一种示例性系统架构;
图3示意性示出了根据本申请实施例的一种筛选分子的方法的流程图;
图4至图6示意性示出了根据本申请实施例的提取分子骨架的过程示意图;
图7示意性示出了根据本申请实施例的骨架图的示意图;
图8A示意性示出了根据本申请实施例的一种骨架的结构示意图;
图8B示意性示出了根据本申请实施例的另一种骨架的结构示意图;
图9示意性示出了根据本申请实施例的分子评估方法的流程图;
图10示意性示出了根据本申请实施例的一种设计方法的流程图;
图11示意性示出了根据本申请实施例的一种筛选分子的装置的框图;
图12示意性示出了根据本申请实施例的一种评估分子的装置的框图;
图13示意性示出了根据本申请实施例的一种设计装置的框图;
图14示意性示出了实现本申请实施例的一种筛选分子的方法的电子设备的方框图。
具体实施方式
下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式,然而应该理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
应当理解,尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在对本申请的技术方案进行描述之前,先对本申请涉及的本领域的部分技术术语进行说明。
分子对接,是一种主要通过电场力分析受体、配体的性质特征以及相互作用,进而便于预测受体和配体的结合模式的分子模拟方法。
分子模拟,是指利用理论方法和计算机技术,模拟分子或分子体系的结构和物理化学性质。
为了解决相关技术中存在的问题,可以将基于分子结构的虚拟筛选应用于材料开发的早期阶段,如药物开发中。虚拟筛选的作用是在一个较大规模的(例如,分子的数量>108个)虚拟分子库中筛选出可与目标受体分子(如蛋白质)相结合的潜在配体分子(如药物分子)。
相关技术中可以采用虚拟筛选算法针对药物分子与蛋白质相互作用进行打分,得分高的分子意味着更有潜力成为候选药物分子进入下一阶段的开发,这类软件通常称之为分子对接(Docking)软件。例如,分子对接软件包括但不限于:AutoDockVina、ICMLeDock、rDock、UCSF DOCK等,以及商业软件包括Glide、LigandFit、GOLD、MOE Dock等。需要说明的是,基于分子结构的筛选方法已经成为相关技术中的早期小分子药物研发的范式之一,同时可供筛选的化合物库例如Enamine Real,Labnetworkx等。这些化合物库所包含的化合物规模过亿,而云计算的快速发展让大规模分子筛选计算成为可能。然而大规模的化合物筛选给后处理特别是挑选符合特定靶点结合口袋的苗头化合物带来挑战。相关技术中的药物分子筛选过程会通过一个或多个此类分子对接软件对被筛选化合物库中分子进行对接打分,设置一个相对可接受的阈值。对高于该阈值的分子进行保留,以便在后续开发流程中的使用。
具体地,首先,建立待筛选分子的三维立体(3D)结构,并进行能量优化。然后,在3D结构上添加氢原子,并分别添加力场和待筛选分子的原子电荷。接着,以预设半径的探针生成模板目标受体分子的分子表面。然后,确定目标受体分子的分子表面的合理结合位点。对于每个合理结合位点进行能量打分和评价。具体地,可以采用半柔性对接(semi-flexibledocking)等,生成指定个数的不同构象取向(orientation),获得待筛选分子与结合位点的静电和范德华相互作用,并由此计算得到针对待筛选分子的打分。该打分和预设阈值进行比较,以确定待筛选分子是否保留至后续开发流程。
然而,此类打分算法或软件在测试集上表现最佳的AUC不到80%,导致通过某一阈值界定过滤条件会造成可能对后续开发有帮助的分子过早的被过滤掉。其中,AUC(Areaunder curve)被定义为受试者工作特征曲线(receiver operating characteristiccurve,简称ROC)下与坐标轴围成的面积,AUC越接近1.0,检测方法真实性越高。
例如,申请人发现:相关技术中的基于对接的算法也能从大规模的化合物库中,通过选择特定的对接打分阈值进行分子筛选,但其整体阳性分子筛选的准确性(如AUC)往往与对接算法的准确度与用户选取的阈值相关,该筛选方法在早期药物研发应用中可能会因为对接算法打分不高(低于用户所选阈值或打算算法不准确)但骨架具有可优化空间的潜在苗头化合物。
综上,如何从仅考虑对接分数值的方法以外寻求一种有效的分子评估手段成为分子虚拟筛选过程中的有待改进的问题。
此外,早期药物筛选阶段,特别是针对同类型第一款药物(First-in-class,简称FIC)的早期药物研发,开发人员期望分子的评估结果能够对于分子推荐到合成及测试的策略有所帮助。基于结构的药物设计通常会建立起小分子结构信息与蛋白质结合模式间的假设关联,以此为依据推荐合成、测试、验证假设等,以便进行后续改进。然而,对接软件更多的是从小分子、蛋白质结构的角度进行评估,如何聚合众多小分子对接结果,将重要的结构、骨架、结合模式等差异信息聚合,以此为依据辅助分子推荐到接下来的合成、测试流程显得尤为重要。
相关技术中可以使用如量化构效关系评估(Quantitative structure-activityrelationship,简称QSAR)等评估算法或者软件,针对药物分子进行评估,并且考虑待筛选分子与蛋白质结合相关的部分因素。但是,评估结果未直接与小分子占据蛋白质口袋的三维空间结构建立关联,较难建立起基于小分子结构与结合模式间的假设关联,从而对于辅助推荐合成及测试的作用有限。
本申请旨在提供一种面向虚拟筛选过程的分子评估方法,基于分子结构、骨架及结合模式中至少一种对对接成功的分子进行信息聚合,以便于辅助推荐合理分子进入合成及测试阶段。
本申请的技术方案能够适配阳性化合物规模增加的情况,同时提供更符合药物开发经验的分子筛选方法。本申请的技术方案可以将复杂的高纬度的小分子蛋白空间结构信息分层次的投影到骨架、形状、结合模式上。并且可以以此为依据通过聚类算法挑选代表分子。实际情况中,药物化学家可根据具体项目所处阶段、风险、预算等客观因素选择适合的代表分子数来调控该方法的聚类及筛选算法,从而实现有效的从大规模虚拟筛选到管线分子推荐的辅助决策能力。需要说明的是,本申请的技术方案对于输入(分子库)的适用性更好,无论分子库的大小,均能适用。
此外,本申请实施例跳出以打分值为唯一参照值的筛选分子的方法,回归基于结构的理性设计,从结构的合理性角度出发挑选优势骨架分子供下游分子优化选择。
以下将通过图1至图13对本申请实施例的一种筛选分子的方法、装置及其应用进行详细描述。
图1示意性示出了根据本申请实施例的筛选分子的过程示意图。
参见图1,本实施例中将对接成功的配体分子的骨架类、结构类和相关作用类中至少一种与分子结构、简化分子线性式之间关联起来,使得用户可以辅以这些知识来对待筛选分子进行筛选,提升了分子筛选准确度。
图2示意性示出了根据本申请实施例的可以应用筛选分子的方法、装置及其应用的一种示例性系统架构。
需要注意的是,图2所示仅为可以应用本申请实施例的系统架构的示例,以帮助本领域技术人员理解本申请的技术内容,但并不意味着本申请实施例不可以用于其他设备、系统、环境或场景。
参见图2,根据该实施例的系统架构200可以包括终端设备201、202、203,网络204和服务器205。网络204用以在终端设备201、202、203和服务器205之间提供通信链路的介质。网络204可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备201、202、203通过网络204与其他终端设备和服务器205进行交互,以接收或发送信息等,如发送分子三维分子结构请求、筛选分子请求等和接收筛选结果、分子三维分子结构等。终端设备201、202、203可以安装有各种通讯客户端应用,例如,网页浏览器应用、药物开发类应用、数据库类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等应用等。
终端设备201、202、203包括但不限于智能台式电脑、平板电脑、膝上型便携计算机等可以支持上网、图像展示等功能的电子设备。
服务器205可以接收分子三维分子结构请求等,并且发送分子三维分子结构信息等给终端设备201、202、203。例如,服务器205可以为后台管理服务器、服务器集群等。
需要说明的是,终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和云端。
图3示意性示出了根据本申请实施例的一种筛选分子的方法的流程图。
参见图3,该实施例提供了一种筛选分子的方法,该方法包括操作S310~操作S340,具体如下:
在操作S310中,获得M个配体分子的简化分子线性式与N个分子结构之间的第一映射关系,M个配体分子的简化分子线性式各自具有结构信息,M、N是大于或者等于1的整数。
在本实施例中,配体分子是与受体分子相对应的分子。例如,小分子A和大分子B对接成功,则可以将小分子称为配体分子。结构信息可以是简化分子线性式中包含的结构信息。
分子对接是通过受体分子(如蛋白质分子)的特征以及受体分子和配体分子(如药物分子)之间的相互作用方式来进行药物设计的一种方法。分子对接研究分子间(如配体分子和受体分子之间)相互作用,并预测其结合模式和亲合力。
其中,药物分子与体内的蛋白质大分子之间会发生类似钥匙与锁的识别关系,这种识别关系可以依赖于两者的空间匹配和能量匹配。例如,以某病毒为例,该病毒的RNA依赖于某个RNA聚合酶蛋白,经证实该RNA聚合酶蛋白的某个特定部位是小分子药物的作用靶点。则可以利用分子对接来推测多个小分子和这个靶点的结合活性,从而预测这些小分子是否有成为候选药物的潜力。
简化分子线性式能够用文本表达分子的结构。具体地,简化分子线性式可以符合简化分子线性输入规范(Simplified Molecular-Input Line-Entry System,简称SMILES)。SMILES表示分子的方法是将结构编码为文本。通过将结构信息转换为文本信息,以便在机器学习输入管道中使用文本(编码字符串)进行输入。这样便于使用自然语言处理(NLP)的相关算法来进行药物开发。
一个简化分子线性式可以存在多个对应的分子结构。第一映射关系可以如下所示。简化分子线性式对应于smiles列,分子结构对应于sdf_index列。第一映射关系可以表示为:sdf_index,similes。
例如,第一映射关系1:
protein_ligand_02538_energy_0_split_0_pose_8,CCl(C)CC(C[NH2+]CC(=O)
第一映射关系2:
protein_ligand_02538_energy_0_split_0_pose_3,CCl(C)CC(C[NH2+]CC(=O)
第一映射关系3:
protein_ligand_02538_energy_0_split_0_pose_5,CCl(C)CC(C[NH2+]CC(=O)
其中,第一映射关系1、第一映射关系2的和第一映射关系3中的“,”之前是sdf_index列,“,”之后是smiles列。
在一个具体实施例中,从虚拟筛选过程中获取一系列化合物分子的分子结构(对接成功后的结构),以.sdf的格式存储于文件中,其中,可以仅存储配体小分子的结构)。此外,存在一个.csv文件,该.csv文件中存储有每个分子的SMILES式及其对应的分子结构的文件(.sdf)之间的映射关系,即第一映射关系。其中,一个分子的SMILES格式可以对应多个分子结构。
在操作S320中,对于M个配体分子的简化分子线性式中的至少部分,分别对简化分子线性式的结构信息进行骨架提取,得到O个分子骨架,O是大于或者等于1的整数,并且O小于或者等于M。
在某些实施例中,可以采用多种骨架提取方法从简化分子线性式中提取骨架。例如,对每个分子的SMILES式执行骨架提取算法,以得到各分子的Bemis-Murcko骨架。
图4至图6示意性示出了根据本申请实施例的提取分子骨架的过程示意图。
参见图4,可以将SMILES式1转换为图4所示的分子结构图。SMILES式和分子结构图之间的转换方法可以采用多种相关技术,在此不做详述。
参见图5,与图4不同的是,图5中的氮原子(N)和氧原子(O)被替换,如替换为碳原子(C)或者氢原子(H)。需要说明的是,图4中省略了针对碳原子(C)和氢原子(H)的元素符号标识。此外,也可以删除图4中的元素符号标识。然后,将图4中的双键替换为单键。通过以上操作即可得到图5所示的结构。以上仅为示例性说明,不能理解为对本申请的限定。
参见图6,与图5不同的是,图6中的支链或者悬挂键被去除。通过上述操作即可得到与SMILES式对应的骨架。例如,可以通过Bemis-Murcko framework得到与SMILES式对应的骨架。
在操作S330中,聚合O个分子骨架,得到P个分子骨架类,P是大于或者等于1的整数,并且P小于或者等于O。
在本实施例中,通过对多个分子骨架的聚合操作可以得到多个骨架类。例如,将相同的骨架分为一类。
在某些实施例中,在得到P个分子骨架类之后,上述方法还可以包括如下操作,对P个分子骨架类进行同类合并,得到多级分子骨架集合,其中,多级分子骨架集合中的父分子骨架对应至少一个子分子骨架,底层分子骨架对应至少一个配体分子,子分子骨架的骨架结构比父分子骨架的骨架结构复杂。
通过同类合并可以将至少部分配体分子融入到一个表中,使得各种骨架之间的父子关系更加清晰,以便用户基于该父子关系选取可能有用的骨架或分子。
在某些实施例中,在得到多级分子骨架集合之后,上述方法还可以包括如下操作,生成骨架图,其中,骨架图包括多个节点,多个节点中的非末端节点表示多级分子骨架集合中的至少部分分子骨架,多个节点中的末端节点表示M个配体分子的中的包括与该末端节点对应的骨架的分子簇,多个节点中的一个父节点对应至少一个子节点。
图7示意性示出了根据本申请实施例的骨架图的示意图。
参见图7,图7中每个节点可以表示一个骨架类,父节点对应至少一个子节点,底层节点可以对应一个具体的配体分子的分子式。如图7中左侧的两个虚线圆圈框住的两个节点,分别是两个配体分子的分子式。这两个配体分子具有相同的骨架类。但是,上方虚线圆圈框住的节点所在的骨架类,是下方虚线圆圈框住的节点所在的骨架类之间是子父关系。
例如,从图中可直观看到分子与骨架之间的隶属关系,同时每个末端叶子节点代表一类具有相同末端骨架的分子簇。对每个节点编号即可获得基于骨架聚类的骨架编号。例如,根节点是1,按照图遍历顺序依次按照阿拉伯数字对各节点进行编码,如1,2,3,4等。
此外,图7中的各节点可以具有填充色或者填充图案等。以填充色为例,填充色的颜色深浅标识的可以是当前骨架节点所包含的所有分子的打分均值。例如,如果打分代表活性,那么颜色越深的节点意味着其骨架所包含的分子的活性值越高,即与该节点对应的配体分子与目标受体分子之间的匹配度越高。这样便于用户直观地从骨架图中看到:包含哪个骨架的分子的活性更高,成为与目标受体分子对应的配体分子的概率更高。
图8A示意性示出了根据本申请实施例的一种骨架的结构示意图。图8B示意性示出了根据本申请实施例的另一种骨架的结构示意图。
参见图8A和图8B,图8A是针对标识为MOL0436的配体分子的骨架。图8B是针对标识为MOL0049的配体分子的骨架,两个骨架各自的被虚线圈框住的中间部分相同,这两个骨架具有同一个父骨架。
在操作S340中,基于第一映射关系确定P个分子骨架类与N个分子结构之间的第二映射关系,以便基于第二映射关系从包括M个配体分子的简化分子线性式的简化分子线性式集合中筛选与目标受体分子匹配的分子。
在本实施例中,通过构建第二映射关系,便于用户至少基于该第二映射关系进行分子筛选。
在某些实施例中,为了便于用户从更多维度进行分子筛选,上述方法还可以包括如下操作。
首先,对于P个分子骨架类中至少部分骨架类中的每个类,获取与该骨架类对应的至少部分配体分子各自对应的分子结构。参见图7,可以获取与某个节点对应的所有分子结构。
然后,基于至少部分配体分子各自对应的分子结构确定至少部分配体分子两两之间的体积差别。
接着,基于体积差别对与该骨架类对应的至少部分配体分子进行聚类,得到多个结构类。例如,体积差别小的聚为一类。
然后,基于第一映射关系确定多个结构类与分子结构之间的第三映射关系。
其中,基于至少部分配体分子各自对应的分子结构确定至少部分配体分子两两之间的体积差别可以包括如下操作。
首先,将目标受体分子的口袋区域划分为网格。
然后,确定至少部分配体分子各自对应的分子结构对网格的占据比例。
接着,基于占据比例构建至少部分配体分子各自对应的分子结构的网格空间占据向量。
然后,基于至少部分配体分子各自对应的分子结构的网格空间占据向量确定至少部分配体分子两两之间的体积差别。
例如,基于至少部分配体分子各自对应的分子结构的网格空间占据向量确定至少部分配体分子两两之间的体积差别可以包括如下操作。
首先,确定两个配体分子各自对应的分子结构的网格空间占据向量之间的距离。
然后,基于网格空间占据向量之间的距离确定两个配体分子各自对应的分子结构占据空间的体积差别。
重复以上操作直至确定至少部分配体分子中任意两个配体分子各自对应的分子结构之间的体积差别。
在一个具体实施例中,首先,提取一个骨架类中所有分子的三维分子结构,如提取一个.sdf文件。然后,分别计算两两分子的三维分子结构之间的空间占据体积差别。由于分子结构来自于对接后的三维分子结构,所以不必在此处做基于结构的对齐及平移变化操作。获得两两分子的空间占据体积差别后,作为其空间距离,即可进行基于三维形状差异的聚类分析。每个类别表示其空间占据体积相近的分子。例如,可以将空间距离小于预设距离阈值的分子聚到同一类别中,预设距离阈值可以取
Figure BDA0003442565770000131
~4埃,或者
Figure BDA0003442565770000132
等。其中,两两分子的三维分子结构之间的空间占据体积差别可以通过如下方式来确定:可通过将受体分子的分子结构(如蛋白结构)的口袋区域划分为等间距网格,通过确定分子结构对于网格的占据情况,构建网格空间占据向量,进而通过计算两个网格空间占据向量之间的距离(如谷本距离(Tanimoto Distance)、欧式距离等),得到两个分子的空间占据体积差别。
本实施例中,根据“锁钥原理”和“诱导契合”的理论基础,可以确定配体分子能够正确结合在蛋白口袋内。配体分子在形状上和静电分布上应当与口袋吻合(互补)。通过如上方式能够确定分子与目标受体分子之间的结构匹配度。
在某些实施例中,在得到多个结构类之后,上述方法还可以包括如下操作,以进一步分析结构类和/骨架类与分子结构之间的映射关系。
首先,对于多个结构类中至少部分结构类中的每个类,获取与该结构类对应的至少部分分子结构各自与目标受体分子之间的第一相互作用特征,和/或,对于P个分子骨架类中至少部分骨架类的每个类,获取与该骨架类对应的至少部分分子结构各自与目标受体分子之间的第二相互作用特征。
然后,确定至少部分分子结构各自的第一相互作用特征两两之间的第一相互作用差别,和/或,确定至少部分配体分子各自的第二相互作用特征两两之间的第二相互作用差别。
接着,对第一相互作用差别进行聚类,得到多个第一相互作用类,和/或,对第二相互作用差别进行聚类,得到多个第二相互作用类。
然后,至少基于第一映射关系确定多个第一相互作用类与分子结构之间的第四映射关系,和/或,基于第一映射关系确定多个第二相互作用类与分子结构之间的第五映射关系。
本实施例中可以实现基于分子与蛋白质分子结合模式指纹的聚类分析。其中,分子与蛋白质分子结合模式指纹是一种用于表征基于结构的小分子与蛋白质分子间的相互作用类型的编码。例如,作用指纹包括但不限于:作用类型、作用位点原子序号和蛋白质氨基酸残基的作用位点中至少一种。
需要说明的是,在得到骨架类之后,无需得到结构类,即可执行上述确定相互作用类的过程。
例如,在得到P个分子骨架类之后,上述方法还可以包括如下操作。
首先,对于P个分子骨架类中至少部分骨架类的每个类,获取与该骨架类对应的至少部分配体分子各自与目标受体分子之间的第二相互作用特征。
然后,确定至少部分配体分子各自的第二相互作用特征两两之间的第二相互作用差别。
接着,对第二相互作用差别进行聚类,得到多个第二相互作用类。
然后,至少基于第一映射关系确定多个第二相互作用类与分子结构之间的第五映射关系。
在某些实施例中,确定至少部分配体分子各自的第二相互作用特征两两之间的第二相互作用差别可以包括如下操作。
首先,确定与第二相互作用特征对应的相互作用特征向量。
然后,重复以下操作直至确定至少部分配体分子各自的第二相互作用特征中的任意两个之间的相互作用差别。例如,先确定与第二相互作用特征对应的相互作用特征向量之间的距离,再基于与第二相互作用特征对应的相互作用特征向量之间的距离确定两个配体分子各自的第二相互作用差别。
在一个具体实施例中,分子与蛋白质分子结合模式指纹的编码信息包括了相互作用类型(如氢键供体分子和受体分子、π-π相互作用等)、分子的作用位点原子序号及蛋白质氨基酸残基的作用位点。通过该信息能够快速识别出分子与蛋白质分子所形成的基于结构的相互作用。每个分子可与蛋白质分子形成多个此类的相互作用,进而每个分子可通过其对接后的分子结构提取到多个相互作用指纹(相互作用指纹是对分子的相互作用特征进行向量化后,得到一个1×n维的向量,相互作用指纹之间的距离可通过谷本距离等的方法进行计算得到)。依据该相互作用指纹可构建该分子结构的指纹特征向量。例如,可以针对某一骨架类和/或某一结构类下的所有分子三维分子结构信息,进行指纹提取,并计算两两指纹之间的指纹距离,进而进行基于指纹的聚类分析。同一类下的分子应当具备相似的骨架、形状和/或结合模式。指纹聚类可以看作是一种无监督聚类。
在某些实施例中,考虑到相互作用可以分为稳定相互作用和非稳定相互作用,在本实施例中,还可以进一步对相互作用的稳定性特征进行分析。
具体地,在得到多个第一相互作用类之后,或者在得到多个第二相互作用类之后,上述方法还可以包括如下操作。
首先,对于每个第一相互作用类或者每个第二相互作用类中的任意一类,确定当前类的代表分子。例如,代表分子可以是某个类的与类中心对应的分子等。
然后,对当前类的代表分子进行分子动力学模拟,得到代表分子的稳定性特征。稳定性特征可以包括:稳定和不稳定。
接着,基于代表分子的稳定性特征确定稳定性特征与第一相互作用类或者第二相互作用类之间的第六映射关系。
在一个具体实施例中,可以确定各种类中的代表分子进行动力学模拟。目的是为了验证相互作用在动力学模拟的结果中是否依旧保持稳定,若存在动力学模型下不稳定的相互作用应当在最终结果中进行标识提示。具体地,可以通过对对接成功的配体分子和受体分子的复合结构进行50ns的动力学模拟,收集采样得到的轨迹文件。基于轨迹文件分析提取出的配体分子与蛋白质分子之间的相互作用,是否能够在采样的稳定状态下也可以持续可观测到。如果可以持续可观测到,则说明在模拟情况下该代表分子所形成的相互作用依旧稳定可观测。其中,代表分子可以为聚类中心分子,聚类中心是某个对象到类中其余对象之间距离最均衡的点,聚类中心可以只有一个,且可通过聚类算法直接得到。
在某些实施例中,为了便于用户查看上述多种映射关系,上述方法还可以包括如下操作。
相关联地存储配体分子的简化分子线性式、分子结构以及以下至少一种:分子骨架类、结构类、第一相互作用类或者第二相互作用类,得到映射表。
具体地,可以汇总上述所有操作得到的信息,形成一张“分子(简化分子线性式)-分子结构-骨架类-结构类-相互作用类-稳定性”的汇总表,从而方便药物设计人员根据感兴趣的骨架、相互作用类(结合模式挑)来选取合适的分子作为假设,进行后续的合成及测试验证。
在一个具体实施例中,采用的数据有32k条映射关系,共记录4k个不同的简化分子线性式。可以通过Python Pandas库加载该.csv关系文件,并获取该表格中“smiles”列的所有数据,即为所有的简化分子线性式。通过如上所示的相关内容提取每个简化分子线性式的Bemis-Murcko骨架,并合并相同的骨架。此外,可以通过骨架图的方式表示和存储相关的节点信息以便实现可视化。例如,可以采用Python Networkx库对骨架图进行存储,并绘制如图7所示节点图。
从图7中可直观看到简化分子线性式与骨架之间的隶属关系,同时每个底层叶子节点代表一类具有相同末端骨架的分子簇。对骨架图中的每个节点进行编号即可获得基于骨架聚类的骨架编号。将该编号也一并更新至输入的.csv关系表中持久化,标记为“scaffold_cluster”。
接下来进行基于结构的聚类分析,针对图7中任意节点的骨架,提取其对应的簇中简化分子线性式和对应的分子结构的.sdf文件,通过如RDKit的Shape Protrude Distance计算方法,来计算两两分子结构之间的空间体积占据差距,作为两两分子结构之间的距离。进而通过如scikit-learn机器学习开发包的DBSCAN算法库对所有分子结构进行聚类,得到每个骨架类下所有分子的基于分子结构的结构类,将结构类顺序编号并更新至输入的.csv关系表中。例如,可以标记为“shape_cluster”。
基于相互作用指纹的聚类分析与基于结构聚类分析类似,获取各骨架类下的全部分子结构的.sdf文件,同时需要获取其对接时使用的蛋白质结构文件.pdb,通过结合模式指纹识别算法提取出配体分子与蛋白质分子之间的指纹信息,如下所示:
6UYB_500ns_frame_ligand_009433_energy_2_isomer_0_split_0_pose_0[0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,1,0,0,0]
其中,中括号中的每一位数字代表一维特征。特征的值可以通过独热编码的方式得到。例如,
编码信息包括了相互作用类型(如氢键供体受体,π-π相互作用等)、小分子的作用位点原子序号及蛋白质氨基酸残基的作用位点。
例如,如果当前小分子和蛋白质存在一个CYS260氨基酸上的氢键相互作用,且小分子为氢键受体,其对应的该相互作用编码为[CYS260_HB_Acceptor,…]。
如此,每个小分子都会和蛋白形成多种相互作用,即每个小分子都有一个如上的相互作用列表,如[CYS260_HB_Acceptor,…]。
将所有的相互作用收集起来,按任意确定顺序建立相互作用特征向量,则对任意小分子,存在的相互作用编码为1,不存在的编码为0。这样能够对所有分子构建相同长度的特征向量,如[0,0,1,0,…]。
接下来,将相互作用特征进行编码,得到特征向量后,可以通过聚类算法进行基于指纹间距离的聚类。将基于指纹的聚类簇编号存储于输入的.csv关系表中,可以标记为“ifp_cluster”。
对于每个指纹聚类簇中的代表分子(例如聚类中心),提取其小分子结构.sdf文件和对应的蛋白质结构.pdb文件,经由GROMACS运行指定时长(如100ns)的动力学模拟,并从模拟轨迹中采样若干帧,识别其相互作用结合模式,用于验证相互作用指纹的有效性。若指纹所示相互在模拟中作为仍稳定存在,标记为1;若不稳定存在,标记为0。将其记录在输入的.csv关系表中,可以标记“ifp_valid”。
汇总上述结果后的.csv表中的一个条目可以如表1所示。
表1
Figure BDA0003442565770000181
本申请的另一方面还提供了一种评估分子的方法。
图9示意性示出了根据本申请实施例的分子评估方法的流程图。
参见图9,用户可以通过如下方式使用映射表。上述方法还可以包括操作S910~操作S930。
在操作S910,获得待筛选分子的简化分子线性式。例如,用户可以在终端设备上输入简化分子线性式,还可以由终端设备把简化分子线性式发送给云端。
在操作S920,基于待筛选分子的简化分子线性式确定待筛选分子的骨架。可以在本地或者云端生成与该简化分子线性式对应的骨架。
在操作S930,基于待筛选分子的骨架和如上方法确定的多种映射关系对待筛选分子进行评估。其中,多种映射关系可以存储在映射表中,包括但不限于:第一映射关系至第六映射关系中至少一种。例如,可以通过骨架匹配等方式确定映射表中与该待筛选分子对应的条目。
又例如,用户可以挑选感兴趣的骨架、形状和相互作用簇,进而选择簇中代表分子进入后续合成于测试阶段,根据合成测试的结果来验证此类骨架、形状和相互作用是否对于该靶点蛋白质的药物设计有所帮助。同时,可以根据不同的骨架、形状、相互作用簇组合一批次分子,进行有针对性的对照实验从而加速基于结构的药物开发过程。
本实施例基于分子结构、骨架及相互作用对配体分子进行信息聚合,相比于通过单一对接打分及阈值过滤的方式,本实施例受到对接打分算法的准确性影响更小,并且能够综合考虑配体分子与受体分子相结合的结构信息,更符合药物设计人员推进药物开发的思路。
本实施例将分子筛选过程依次拆分为“骨架聚类”、“结构聚类”和“相互作用聚类”三个维度进行,相比于单一维度的对接打分,其信息量更多。
本实施例在进行多维度分类聚合的过程中,以“骨架聚类”为先,其目的是让整个筛选过程以分子骨架差异为根类目,更符合药物设计人员的开发习惯。需要说明的是,“结构聚类”和“相互作用聚类”这两个维度分类聚合的过程没有前后顺序要求。
本实施例以动力学模拟方式验证相互作用(结合模式)稳定性,保障了引入相互作用指纹的可靠性。
本申请的另一方面还提供了一种设计方法。
图10示意性示出了根据本申请实施例的一种设计方法的流程图。
如图10所示,上述设计方法包括操作S1010~操作S1020。
在操作S1010,展示分子筛选结果,分子筛选结果是根据如上述的方法得到的筛选结果。
在操作S1020,基于分子筛选结果进行药物设计或者材料设计。
需要说明的是,筛选分子的过程可以参考如上所示的相关内容,在此不再详述。
本申请的另一方面还提供了一种筛选分子的装置。
图11示意性示出了根据本申请实施例的一种筛选分子的装置的框图。
如图11所示,该筛选分子的装置1100可以包括:第一映射关系获得模块1110、分子骨架提取模块1120、分子骨架聚合模块1130和第二映射关系确定模块1140。
第一映射关系获得模块1110用于获得M个配体分子的简化分子线性式与N个分子结构之间的第一映射关系,M个配体分子的简化分子线性式各自具有结构信息,M、N是大于或者等于1的整数。
分子骨架提取模块1120用于对于M个配体分子的简化分子线性式中的至少部分,分别对简化分子线性式的结构信息进行骨架提取,得到O个分子骨架,O是大于或者等于1的整数,并且O小于或者等于M。
分子骨架聚合模块1130用于聚合O个分子骨架,得到P个分子骨架类,P是大于或者等于1的整数,并且P小于或者等于O。
第二映射关系确定模块1140用于基于第一映射关系确定P个分子骨架类与N个分子结构之间的第二映射关系,以便基于第二映射关系筛选与目标受体分子匹配的配体分子。
在某些实施例中,上述装置1100还包括:骨架类分子结构获取模块、体积差别确定模块、结构聚类模块和第三映射关系确定模块。
骨架类分子结构获取模块用于对于P个分子骨架类中至少部分骨架类中的每个类,获取与该骨架类对应的至少部分配体分子各自对应的分子结构。
体积差别确定模块用于基于至少部分配体分子各自对应的分子结构确定至少部分配体分子两两之间的体积差别。
结构聚类模块用于基于体积差别对与该骨架类对应的至少部分配体分子进行聚类,得到多个结构类。
第三映射关系确定模块用于基于第一映射关系确定多个结构类与分子结构之间的第三映射关系。
在某些实施例中,体积差别确定模块包括:网格划分单元、占据比例确定单元、占据向量构建单元和体积差别确定单元。
网格划分单元用于将目标受体分子的口袋区域划分为网格。
占据比例确定单元用于确定至少部分配体分子各自对应的分子结构对网格的占据比例。
占据向量构建单元用于基于占据比例构建至少部分配体分子各自对应的分子结构的网格空间占据向量。
体积差别确定单元用于基于至少部分配体分子各自对应的分子结构的网格空间占据向量确定至少部分配体分子两两之间的体积差别。
在某些实施例中,体积差别确定单元包括:距离确定子单元、体积差别确定子单元。
距离确定子单元用于确定两个配体分子各自对应的分子结构的网格空间占据向量之间的距离。
体积差别确定子单元用于基于网格空间占据向量之间的距离确定两个配体分子各自对应的分子结构占据空间的体积差别。
在某些实施例中,上述装置1100还包括:相互作用特征获取模块、相互作用差别确定模块、相互作用差别聚类模块和作用映射关系确定模块。
相互作用特征获取模块用于对于多个结构类中至少部分结构类中的每个类,获取与该结构类对应的至少部分分子结构各自与目标受体分子之间的第一相互作用特征,和/或,对于P个分子骨架类中至少部分骨架类的每个类,获取与该骨架类对应的至少部分分子结构各自与目标受体分子之间的第二相互作用特征。
相互作用差别确定模块用于确定至少部分分子结构各自的第一相互作用特征两两之间的第一相互作用差别,和/或,确定至少部分配体分子各自的第二相互作用特征两两之间的第二相互作用差别。
相互作用差别聚类模块用于对第一相互作用差别进行聚类,得到多个第一相互作用类,和/或,对第二相互作用差别进行聚类,得到多个第二相互作用类。
作用映射关系确定模块用于至少基于第一映射关系确定多个第一相互作用类与分子结构之间的第四映射关系,和/或,基于第一映射关系确定多个第二相互作用类与分子结构之间的第五映射关系。
在某些实施例中,相互作用差别确定模块包括:相互作用特征向量确定单元、相互作用差别确定单元。
相互作用特征向量确定单元用于确定与第二相互作用特征对应的相互作用特征向量。
相互作用差别确定单元用于重复以下操作直至确定至少部分配体分子各自的第二相互作用特征中的任意两个之间的相互作用差别:确定与第二相互作用特征对应的相互作用特征向量之间的距离;基于与第二相互作用特征对应的相互作用特征向量之间的距离确定两个配体分子各自的第二相互作用差别。
在某些实施例中,上述装置1100还包括:代表分子确定模块、稳定性特征获得模块和稳定性映射关系确定模块。
代表分子确定模块用于对于每个第一相互作用类或者每个第二相互作用类中的任意一类,确定当前类的代表分子。
稳定性特征获得模块用于对当前类的代表分子进行分子动力学模拟,得到代表分子的稳定性特征。
稳定性映射关系确定模块用于基于代表分子的稳定性特征确定稳定性特征与第一相互作用类或者第二相互作用类之间的第六映射关系。
在某些实施例中,上述装置1100还包括:关联存储模块,用于相关联地存储配体分子的简化分子线性式、分子结构以及以下至少一种:分子骨架类、结构类、第一相互作用类或者第二相互作用类,得到映射表。
在某些实施例中,上述装置1100还包括:同类合并模块,用于对P个分子骨架类进行同类合并,得到多级分子骨架集合,其中,多级分子骨架集合中的父分子骨架对应至少一个子分子骨架,底层分子骨架对应至少一个配体分子,子分子骨架的骨架结构比父分子骨架的骨架结构复杂。
在某些实施例中,上述装置1100还包括:骨架图生成模块,用于生成骨架图,其中,骨架图包括多个节点,多个节点中的非末端节点表示多级分子骨架集合中的至少部分分子骨架,多个节点中的末端节点表示M个配体分子的中的包括与该末端节点对应的骨架的分子簇,多个节点中的一个父节点对应至少一个子节点。
本申请的另一方面还提供了一种评估分子的装置。
图12示意性示出了根据本申请实施例的一种评估分子的装置的框图。
参见图12,上述评估分子的装置1200可以包括简化分子线性式获得模块1210、待筛选分子骨架获得模块1220和分子评估模块1230。
简化分子线性式获得模块1210用于获得待筛选分子的简化分子线性式。
待筛选分子骨架获得模块1220用于基于所述待筛选分子的简化分子线性式确定所述待筛选分子的骨架。
分子评估模块1230用于基于所述待筛选分子的骨架和根据上述装置1100确定的多种映射关系对所述待筛选分子进行评估,所述多种映射关系包括:第一映射关系至第六映射关系中至少一种。
本申请的另一方面还提供了一种设计装置。
图13示意性示出了根据本申请实施例的一种设计装置的框图。
参见图13,该设计装置1300可以包括:筛选结果展示模块1310和设计模块1320。
筛选结果展示模块1310用于展示分子筛选结果,分子筛选结果是基于上述的装置1100得到的筛选结果。
设计模块1320用于基于分子筛选结果进行药物设计或者材料设计。
关于上述实施例中的筛选分子的装置1100、评估分子的装置1200、设计装置1300,其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。
本申请的另一方面还提供了一种电子设备。
图14示意性示出了实现本申请实施例的一种筛选分子的方法的电子设备的方框图。
参见图14,电子设备1400包括存储器1410和处理器1420。
处理器1420可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器1410可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM)和永久存储装置。其中,ROM可以存储处理器1420或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器1410可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(例如DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器1410可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等)、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器1410上存储有可执行代码,当可执行代码被处理器1420处理时,可以使处理器1420执行上文述及的方法中的部分或全部。
此外,根据本申请的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。
或者,本申请还可以实施为一种计算机可读存储介质(或非暂时性机器可读存储介质或机器可读存储介质),其上存储有可执行代码(或计算机程序或计算机指令代码),当可执行代码(或计算机程序或计算机指令代码)被电子设备(或服务器等)的处理器执行时,使处理器执行根据本申请的上述方法的各个步骤的部分或全部。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。

Claims (18)

1.一种筛选分子的方法,其特征在于,所述方法包括:
获得M个配体分子的简化分子线性式与N个分子结构之间的第一映射关系,所述M个配体分子的简化分子线性式各自具有结构信息,M、N是大于或者等于1的整数;
对于所述M个配体分子的简化分子线性式中的至少部分,分别对所述简化分子线性式的结构信息进行骨架提取,得到O个分子骨架,O是大于或者等于1的整数,并且O小于或者等于M;
聚合所述O个分子骨架,得到P个分子骨架类,P是大于或者等于1的整数,并且P小于或者等于O;
基于所述第一映射关系确定所述P个分子骨架类与所述N个分子结构之间的第二映射关系,以便基于所述第二映射关系筛选与目标受体分子匹配的配体分子。
2.根据权利要求1所述的方法,其特征在于,在所述得到P个分子骨架类之后,所述方法还包括:
对于所述P个分子骨架类中至少部分骨架类中的每个类,获取与该骨架类对应的至少部分配体分子各自对应的分子结构;
基于所述至少部分配体分子各自对应的分子结构确定所述至少部分配体分子两两之间的体积差别;
基于所述体积差别对与该骨架类对应的至少部分配体分子进行聚类,得到多个结构类;
基于所述第一映射关系确定所述多个结构类与所述分子结构之间的第三映射关系。
3.根据权利要求2所述的方法,其特征在于,所述基于所述至少部分配体分子各自对应的分子结构确定所述至少部分配体分子两两之间的体积差别,包括:
将目标受体分子的口袋区域划分为网格;
确定所述至少部分配体分子各自对应的分子结构对所述网格的占据比例;
基于所述占据比例构建所述至少部分配体分子各自对应的分子结构的网格空间占据向量;
基于所述至少部分配体分子各自对应的分子结构的网格空间占据向量确定所述至少部分配体分子两两之间的体积差别。
4.根据权利要求3所述的方法,其特征在于,所述基于所述至少部分配体分子各自对应的分子结构的网格空间占据向量确定所述至少部分配体分子两两之间的体积差别,包括:
确定两个配体分子各自对应的分子结构的网格空间占据向量之间的距离;
基于所述网格空间占据向量之间的距离确定所述两个配体分子各自对应的分子结构占据空间的体积差别;
重复以上操作直至确定所述至少部分配体分子中任意两个配体分子各自对应的分子结构之间的体积差别。
5.根据权利要求2所述的方法,其特征在于,在所述得到多个结构类之后,所述方法还包括:
对于所述多个结构类中至少部分结构类中的每个类,获取与该结构类对应的至少部分分子结构各自与目标受体分子之间的第一相互作用特征,和/或,对于所述P个分子骨架类中至少部分骨架类的每个类,获取与该骨架类对应的至少部分分子结构各自与目标受体分子之间的第二相互作用特征;
确定至少部分分子结构各自的第一相互作用特征两两之间的第一相互作用差别,和/或,确定至少部分配体分子各自的第二相互作用特征两两之间的第二相互作用差别;
对所述第一相互作用差别进行聚类,得到多个第一相互作用类,和/或,对所述第二相互作用差别进行聚类,得到多个第二相互作用类;
至少基于所述第一映射关系确定所述多个第一相互作用类与所述分子结构之间的第四映射关系,和/或,基于所述第一映射关系确定所述多个第二相互作用类与所述分子结构之间的第五映射关系。
6.根据权利要求1所述的方法,其特征在于,在所述得到P个分子骨架类之后,所述方法还包括:
对于所述P个分子骨架类中至少部分骨架类的每个类,获取与该骨架类对应的至少部分配体分子各自与目标受体分子之间的第二相互作用特征;
确定至少部分配体分子各自的第二相互作用特征两两之间的第二相互作用差别;
对所述第二相互作用差别进行聚类,得到多个第二相互作用类;
至少基于所述第一映射关系确定所述多个第二相互作用类与所述分子结构之间的第五映射关系。
7.根据权利要求5或6所述的方法,其特征在于,所述确定至少部分配体分子各自的第二相互作用特征两两之间的第二相互作用差别,包括:
确定与所述第二相互作用特征对应的相互作用特征向量;
重复以下操作直至确定至少部分配体分子各自的第二相互作用特征中的任意两个之间的相互作用差别:
确定与所述第二相互作用特征对应的相互作用特征向量之间的距离;
基于与所述第二相互作用特征对应的相互作用特征向量之间的距离确定两个所述配体分子各自的第二相互作用差别。
8.根据权利要求5所述的方法,其特征在于,在所述得到多个第一相互作用类之后,或者在所述得到多个第二相互作用类之后,所述方法还包括:
对于每个第一相互作用类或者每个第二相互作用类中的任意一类,确定当前类的代表分子;
对所述当前类的代表分子进行分子动力学模拟,得到所述代表分子的稳定性特征;
基于所述代表分子的稳定性特征确定所述稳定性特征与所述第一相互作用类或者所述第二相互作用类之间的第六映射关系。
9.根据权利要求8所述的方法,其特征在于,还包括:
相关联地存储所述配体分子的简化分子线性式、所述分子结构以及以下至少一种:分子骨架类、结构类、第一相互作用类或者第二相互作用类,得到映射表。
10.根据权利要求1至9中任一项所述的方法,其特征在于,在所述得到P个分子骨架类之后,所述方法还包括:
对所述P个分子骨架类进行同类合并,得到多级分子骨架集合,其中,所述多级分子骨架集合中的父分子骨架对应至少一个子分子骨架,底层分子骨架对应至少一个配体分子,所述子分子骨架的骨架结构比所述父分子骨架的骨架结构复杂。
11.根据权利要求10所述的方法,其特征在于,在所述得到多级分子骨架集合之后,所述方法还包括:
生成骨架图,其中,所述骨架图包括多个节点,所述多个节点中的非末端节点表示所述多级分子骨架集合中的至少部分分子骨架,所述多个节点中的末端节点表示所述M个配体分子的中的包括与该末端节点对应的骨架的分子簇,所述多个节点中的一个父节点对应至少一个子节点。
12.一种评估分子的方法,其特征在于,包括:
获得待筛选分子的简化分子线性式;
基于所述待筛选分子的简化分子线性式确定所述待筛选分子的骨架;
基于所述待筛选分子的骨架和根据权利要求1至11任一项所述的方法确定的多种映射关系对所述待筛选分子进行评估,所述多种映射关系包括:第一映射关系至第六映射关系中至少一种。
13.一种设计方法,其特征在于,所述方法包括:
展示分子筛选结果,所述分子筛选结果是根据权利要求1至12中任一项所述的方法得到的筛选结果;
基于所述分子筛选结果进行药物设计或者材料设计。
14.一种筛选分子的装置,其特征在于,包括:
第一映射关系获得模块,用于获得M个配体分子的简化分子线性式与N个分子结构之间的第一映射关系,所述M个配体分子的简化分子线性式各自具有结构信息,M、N是大于或者等于1的整数;
分子骨架提取模块,用于对于所述M个配体分子的简化分子线性式中的至少部分,分别对所述简化分子线性式的结构信息进行骨架提取,得到O个分子骨架,O是大于或者等于1的整数,并且O小于或者等于M;
分子骨架聚合模块,用于聚合所述O个分子骨架,得到P个分子骨架类,P是大于或者等于1的整数,并且P小于或者等于O;
第二映射关系确定模块,用于基于所述第一映射关系确定所述P个分子骨架类与所述N个分子结构之间的第二映射关系,以便基于所述第二映射关系筛选与目标受体分子匹配的配体分子。
15.一种评估分子的装置,其特征在于,包括:
简化分子线性式获得模块,用于获得待筛选分子的简化分子线性式;
待筛选分子骨架获得模块,用于基于所述待筛选分子的简化分子线性式确定所述待筛选分子的骨架;
分子评估模块,用于基于所述待筛选分子的骨架和根据权利要求14所述的装置确定的多种映射关系对所述待筛选分子进行评估,所述多种映射关系包括:第一映射关系至第六映射关系中至少一种。
16.一种设计装置,其特征在于,包括:
筛选结果展示模块,用于展示分子筛选结果,所述分子筛选结果是根据权利要求14所述的装置得到的筛选结果;
设计模块,用于基于所述分子筛选结果进行药物设计或者材料设计。
17.一种电子设备,其特征在于,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-13中任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-13中任一项所述的方法。
CN202111639419.8A 2021-12-29 2021-12-29 筛选分子的方法、装置及其应用 Pending CN114300067A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111639419.8A CN114300067A (zh) 2021-12-29 2021-12-29 筛选分子的方法、装置及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111639419.8A CN114300067A (zh) 2021-12-29 2021-12-29 筛选分子的方法、装置及其应用

Publications (1)

Publication Number Publication Date
CN114300067A true CN114300067A (zh) 2022-04-08

Family

ID=80970833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111639419.8A Pending CN114300067A (zh) 2021-12-29 2021-12-29 筛选分子的方法、装置及其应用

Country Status (1)

Country Link
CN (1) CN114300067A (zh)

Similar Documents

Publication Publication Date Title
Sun et al. Graph convolutional networks for computational drug development and discovery
Emmert-Streib et al. Fifty years of graph matching, network alignment and network comparison
Baggio et al. Quantitative methods in tourism: A handbook
Hu et al. Predicting drug-target interactions from drug structure and protein sequence using novel convolutional neural networks
Abu-Aisheh et al. An exact graph edit distance algorithm for solving pattern recognition problems
Mahmud et al. PreDTIs: prediction of drug–target interactions based on multiple feature information using gradient boosting framework with data balancing and feature selection techniques
Dong et al. ChemSAR: an online pipelining platform for molecular SAR modeling
Xiong et al. Multi-instance learning of graph neural networks for aqueous p K a prediction
CN113535986B (zh) 一种应用于医学知识图谱的数据融合方法及装置
CN113409897A (zh) 药物-靶标相互作用的预测方法、装置、设备和存储介质
Velu et al. Data mining in predicting liver patients using classification model
Liu et al. Why can deep convolutional neural networks improve protein fold recognition? A visual explanation by interpretation
WO2023123023A1 (zh) 筛选分子的方法、装置及其应用
Richardson et al. The receiver operating characteristic curve accurately assesses imbalanced datasets
CN103914508B (zh) 文件管理装置以及文件管理方法
CN114300067A (zh) 筛选分子的方法、装置及其应用
Wang et al. Predicting potential drug–disease associations based on hypergraph learning with subgraph matching
Shahidinejad et al. 3D Cadastral Database Systems—A Systematic Literature Review
Mel et al. Fondue: A framework for node disambiguation and deduplication using network embeddings
Stadler Alignments of biomolecular contact maps
CN113010727A (zh) 直播平台画像的构建方法、装置、设备及存储介质
Liu et al. 2D-shapley: a framework for fragmented data valuation
Sawhney et al. Inter-helical residue contact prediction in α-helical Transmembrane proteins using structural features
Suarez et al. Bioinformatics software for genomic: a systematic review on github
Hristov et al. Geospatial Data Enrichment through Address Geocoding: Challenges and Solutions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination