CN114334037A

CN114334037A - 分子对接的处理方法、装置及电子设备

Info

Publication number: CN114334037A
Application number: CN202111590799.0A
Authority: CN
Inventors: 王果; 林志雄; 方栋
Original assignee: Shanghai Zhiyao Technology Co ltd
Current assignee: Shanghai Zhiyao Technology Co ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-04-12
Anticipated expiration: 2041-12-23
Also published as: CN114334037B

Abstract

本申请涉及一种分子对接的处理方法、装置及电子设备。该方法包括：分别获取模板分子和待对接分子的分子骨架，其中，模板分子的分子骨架具有对应的已知原子三维坐标；将模板分子及各待对接分子的分子骨架按照预设分组规则进行分组，形成分子对；按照对应的预设分子对接方法，分别将第二分子骨架参照对应的分子对中的第一分子骨架的原子三维坐标与受体蛋白进行对接，获得第二分子骨架的原子三维坐标，以将分子对中的第二分子骨架切换为对应的第一分子骨架；分别根据第一分子骨架的原子三维坐标，获得各待对接分子对应的对接后分子的构象信息。本申请提供的方案，能够提高处理效率，降低人工成本。

Description

分子对接的处理方法、装置及电子设备

技术领域

本申请涉及分子对接技术领域，尤其涉及分子对接的处理方法、装置及电子设备。

背景技术

分子对接技术是一种重要的分子建模方法，在计算机辅助的药物设计中有广泛的应用。在药物设计的场景下，分子对接算法的目的是预测一个潜在的小分子药物配体与受体蛋白的结合构象。药物研发人员可基于该构象分析配体-受体间的相互作用，或利用该构象作为输入，进一步用能量优化、分子模拟等高精度计算化学方法预测配体与受体间的结合亲和力。

相关技术中，随着大型计算机算力的提升和软件平台的发展，越来越多的药物研发人员采用FEP(Free Energy Perturbation，自由能微扰)方法预测小分子药物配体与受体蛋白间的结合亲和力。其中，FEP方法的计算即为预测两个结构相近的潜在药物分子(即小分子药物配体)分别与受体蛋白对接结合的亲和力之差，从而根据该差值判断这两个潜在药物分子中的哪个与受体蛋白结合后的复合物更稳定。因此，在采用FEP方法时，需要在众多小分子中将每两个结构相近的小分子进行配对，再输入配对后的两个小分子与受体蛋白对接的构象，以进行亲和力之差的计算。在输入两个结构相近的小分子之前，需要将两个小分子的分子骨架进行叠合，叠合度越高，计算结果的误差越小。

为了提高叠合度，需要将待对接的分子的构象进行优化，目前采用的方法一般是先人工确定一个已与受体蛋白完成对接的小分子作为模板分子，再手工指定各待对接分子中需要与模板分子叠合的原子，使待对接分子与模板分子的最大公共子结构上的原子一一对应。这样的方式对每个待对接分子进行调整，需要大量的人工操作，耗时较久，效率低下。

发明内容

为解决或部分解决相关技术中存在的问题，本申请提供一种分子对接的处理方法、装置及电子设备，能够批量调整并获得待对接分子的对接构象信息，提高待对接分子间的叠合度，且提高处理效率，降低人工成本。

本申请第一方面提供一种分子对接的处理方法方法，包括：

分别获取模板分子和待对接分子的分子骨架，其中，所述模板分子的分子骨架具有对应的已知原子三维坐标；

将所述模板分子及各所述待对接分子的分子骨架按照预设分组规则进行分组，形成分子对，其中，所述分子对包含一个第一分子骨架和一个第二分子骨架，所述第一分子骨架为所述模板分子或已获得原子三维坐标的待对接分子的分子骨架，所述第二分子骨架为未获得原子三维坐标的待对接分子的分子骨架；

按照对应的预设分子对接方法，分别将所述第二分子骨架参照对应的分子对中的第一分子骨架的原子三维坐标与受体蛋白进行对接，获得所述第二分子骨架的原子三维坐标，以将所述分子对中的所述第二分子骨架切换为对应的第一分子骨架；

分别根据所述第一分子骨架的原子三维坐标，获得各所述待对接分子对应的对接后分子的构象信息。

在一实施方式中，所述分别获取模板分子和待对接分子的分子骨架，包括：

分别获取模板分子和待对接分子的分子结构信息；

去掉所述模板分子和待对接分子的分子结构信息中的氢原子及隐藏所述分子结构信息中的重原子的元素信息，获得所述模板分子和待对接分子的分子骨架。

在一实施方式中，所述将所述模板分子及各所述待对接分子的分子骨架按照预设分组规则进行分组，形成分子对，其中，所述分子对包含一个第一分子骨架和一个第二分子骨架，包括：

根据预设特征，分别获取所述模板分子和每一待对接分子的分子骨架之间对应的特征分值，以及获取每两个不同的待对接分子的分子骨架之间对应的特征分值；

根据各所述特征分值的数值大小，将所述模板分子的分子骨架和各待对接分子的第二分子骨架之间特征分值最大的一组分子骨架配对形成分子对之后，分别将所述模板分子或对接后分子的第一分子骨架与剩余待对接分子的第二分子骨架之间特征分值最大的一组分子骨架配对形成分子对。

在一实施方式中，所述将所述模板分子及各所述待对接分子的分子骨架按照预设分组规则进行分组，形成多组分子对之后，还包括：

将每一所述分子对中的第一分子骨架和第二分子骨架进行结构匹配，确定所述第二分子骨架在与所述第一分子骨架的最大公共子结构之外是否含有可旋转二面角；

当所述第二分子骨架在所述最大公共子结构外含有可旋转二面角，则结合所述受体蛋白的结构对所述可旋转二面角进行优化；

当所述第二分子骨架在所述最大公共子结构外不含有可旋转二面角，则将所述分子对中的所述第二分子骨架向所述第一分子骨架叠合。

在一实施方式中，所述按照对应的预设分子对接方法，分别将所述第二分子骨架参照对应的分子对中的第一分子骨架的原子三维坐标与受体蛋白进行对接，获得所述第二分子骨架的原子三维坐标，包括：

当所述第二分子骨架在最大公共子结构外不含有可旋转二面角，获取所述分子对中的第一分子骨架和第二分子骨架在最大公共子结构上的各原子映射关系；

针对每一所述原子映射关系，分别根据第一分子骨架中的原子三维坐标获得第二分子骨架在最大公共子结构中对应的原子的三维坐标，及根据预设函数获得第二分子骨架在所述最大公共子结构以外的重原子的三维坐标。

在一实施方式中，所述针对每一所述原子映射关系，分别根据第一分子骨架中的原子三维坐标获得第二分子骨架在最大公共子结构中对应的原子的三维坐标，及根据预设函数获得第二分子骨架在所述最大公共子结构以外的重原子的三维坐标之后，还包括：

根据第二分子骨架在最大公共子结构中对应的原子和重原子的三维坐标，获得所述第二分子骨架对应的候选构象；

在各所述候选构象中选择几何中心与所述第一分子骨架的几何中心最接近的构象作为所述待对接分子的优选构象。

在一实施方式中，所述分别根据所述第一分子骨架的原子三维坐标，获得对应的对接后分子的构象信息，包括：

将所述第一分子骨架进行氢原子还原；

根据所述第一分子骨架的原子三维坐标估计各所述氢原子的坐标，获得对应的对接后分子的构象信息。

本申请第二方面提供一种分子对接构象的处理装置，其包括：

骨架获取模块，用于分别获取模板分子和待对接分子的分子骨架，其中，所述模板分子的分子骨架具有对应的已知原子三维坐标；

分组模块，用于将所述模板分子及各所述待对接分子的分子骨架按照预设分组规则进行分组，形成分子对，其中，所述分子对包含一个第一分子骨架和一个第二分子骨架，所述第一分子骨架为所述模板分子或已获得原子三维坐标的待对接分子的分子骨架，所述第二分子骨架为未获得原子三维坐标的待对接分子的分子骨架；

坐标获取模块，用于按照对应的预设分子对接方法，分别将所述第二分子骨架参照对应的分子对中的第一分子骨架的原子三维坐标与受体蛋白进行对接，获得所述第二分子骨架的原子三维坐标，以将所述分子对中的所述第二分子骨架切换为对应的第一分子骨架；

构象信息获取模块，分别根据所述第一分子骨架的原子三维坐标，获得各所述待对接分子对应的对接后分子的构象信息。

本申请第三方面提供一种电子设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

本申请第四方面提供一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上所述的方法。

本申请提供的技术方案可以包括以下有益效果：

通过将模板分子和待对接分子的分子骨架组成分子对，根据分子对中的第一分子骨架的已知原子三维坐标或已获得的原子三维坐标获取第二分子骨架的原子三维坐标，从而逐一获取每一待对接分子的原子三维坐标；这样的设计，可以在不限制待对接分子数量的前提下，批量化地调整获得需要的待对接分子的构象信息，减少人工干预，节约人力成本；且各获得的构象信息间具有较高的叠合度，满足FEP方法的计算需求，提高计算精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过结合附图对本申请示例性实施方式进行更详细地描述，本申请的上述以及其它目的、特征和优势将变得更加明显，其中，在本申请示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本申请实施例示出的分子对接的处理方法的流程示意图；

图2是本申请实施例示出的分子对接的处理方法的另一流程示意图；

图3是本申请实施例示出的模板分子及其对应的分子骨架示意图；

图4是本申请实施例示出的多个待对接分子对应的分子骨架示意图；

图5是图3和图4所示的模板分子和每一待对接分子的分子骨架的分子指纹相似度及每两个不同的待对接分子的分子骨架的分子指纹相似度的特征分值列表。

图6是各待对接分子的分子骨架与模板分子在受体蛋白中的叠合示意图；

图7是图4中的各待对接分子通过循环对接获得原子三维坐标后的结构示意图；

图8是本申请实施例示出的分子对接的处理方法的另一流程示意图；

图9是本申请实施例示出的分子对接的处理装置的结构示意图；

图10是本申请实施例示出的分子对接的处理装置的另一结构示意图；

图11是本申请实施例示出的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式，然而应该理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

相关技术中，在采用FEP方法计算两个结构相似的小分子分别对接受体蛋白的对接构象的亲和力之差前，需要提高两个小分子的对接构象的叠合度，从而降低计算结构的误差。目前一般需要人工逐一调整待对接分子的原子与最大公共子结构上的原子一一对应，需要大量的人工操作，耗时较久，效率低下。

针对上述问题，本申请实施例提供一种分子对接的处理方法，能够批量调整以获得待对接分子的构象信息，提高待对接分子间的叠合度，且提高处理效率，降低人工成本。

以下结合附图详细描述本申请实施例的技术方案。

图1是本申请实施例示出的分子对接的处理方法的流程示意图。

参见图1，本申请一实施例提供的分子对接的处理方法，包括：

S110，分别获取模板分子和待对接分子的分子骨架，其中，模板分子的分子骨架具有对应的已知原子三维坐标。

其中，模板分子可以是PDB(Protein Data Bank)蛋白质结构数据库中的小分子，也可以是已与受体蛋白完成对接后的对接构象的置信度高的小分子。待对接分子可以是针对受体蛋白具有潜在活性的小分子，也可以是小分子数据库，例如ZINC、Specs、ChemBridge等已知的数据库中的小分子。在本实施例中，针对同一模板分子，待对接分子的数量可以为一个或多个。也就是说，多个待对接分子只需参考一个模板分子进行对接构象的调整。

进一步地，为了减少不同元素的重原子的影响，在一实施方式中，分别获取模板分子和待对接分子的分子结构信息；去掉模板分子和待对接分子的分子结构信息中的氢原子及隐藏分子结构信息中的重原子的元素信息，获得模板分子和待对接分子的分子骨架。其中重原子为除去氢原子以外的原子，重原子可以在分子骨架中采用通配符的形式显示，从而消除不同元素引起的干扰，以便后续步骤可以处理相同分子骨架但元素不同的待对接分子。

可以理解，模板分子的分子骨架具有对应的已知原子三维坐标，即模板分子的分子骨架上的各原子的三维坐标已知。本步骤中，待对接分子的分子骨架上的各原子的三维坐标未知，即本步骤中的各待对接分子还未获得对应的分子骨架上的原子三维坐标。

S120，将模板分子及各待对接分子的分子骨架按照预设分组规则进行分组，形成分子对，其中，分子对包含一个第一分子骨架和一个第二分子骨架，第一分子骨架为模板分子或已获得原子三维坐标的待对接分子的分子骨架，第二分子骨架为未获得原子三维坐标的待对接分子的分子骨架。

在本步骤中，基于模板分子的原子三维坐标已知，可以按照预设分组规则，在各未获得原子三维坐标的待对接分子中，首先选择其中一个待对接分子的分子骨架与模板分子的分子骨架组成分子对。可以理解，此时的待对接分子的分子骨架基于未获得对应的原子三维坐标，即定义为第二分子骨架，而模板分子的分子骨架的原子三维坐标已知，则在分子对中即定义为第一分子骨架。也就是说，一组分子对中仅包括一个已知原子三维坐标的第一分子骨架和一个还未获得原子三维坐标的第二分子骨架。在组成分子对后，分子对中的第二分子骨架则可以根据后续步骤S130参考模板分子的原子三维坐标，获得该待对接分子的分子骨架的原子三维坐标，即使得该未获得原子三维坐标的第二分子骨架切换为已获得原子三维坐标的第一分子骨架。

进一步地，模板分子的分子骨架或上述已获得原子三维坐标的第一分子骨架则根据预设分组规则，与剩余的待对接分子中的其中一个第二分子骨架组成新的一组分子对，使得该第二分子骨架参照本分子对中的第一分子骨架的原子三维坐标获得对应的原子三维坐标，从而切换为第一分子骨架。以此类推，直至所有待对接分子的分子骨架切换为第一分子骨架，即各待对接分子的分子骨架均获得对应的原子三维坐标。

S130，按照对应的预设分子对接方法，分别将第二分子骨架参照对应的分子对中的第一分子骨架的原子三维坐标与受体蛋白进行对接，获得第二分子骨架的原子三维坐标，以将分子对中的第二分子骨架切换为对应的第一分子骨架。

可以理解，本步骤S130和步骤S120循环执行，在步骤S130每次执行获得一组分子对中的第二分子骨架的原子三维坐标后，步骤S120则根据模板分子的分子骨架或切换后的第一分子骨架与未获得原子三维坐标第二分子骨架形成新的分子对，并在本步骤S130中使第二分子骨架可以获得原子三维坐标并切换为对应的第一分子骨架。这样的设计，通过逐对地将第一分子骨架与第二分子骨架组成分子对，按照步骤S120和S130的循环顺序，每循环一次即获得当前分子对中的第二分子骨架的原子三维坐标，并切换为新的第一分子骨架，即可逐个获得各待对接分子的分子骨架的原子三维坐标。

需要理解的是，本申请中，针对同一个待对接分子的分子骨架，采用第一分子骨架和第二分子骨架的定义，仅用于区别该分子骨架是否获得原子三维坐标的状态。

S140，分别根据第一分子骨架的原子三维坐标，获得各待对接分子对应的对接后分子的构象信息。

可以理解，在上述步骤S130中完成每一待对接分子的分子对接，每个第二分子骨架获得原子三维坐标以切换为第一分子骨架后，待对接分子则转变为对应的对接后分子。在一实施方式中，通过将第一分子骨架进行氢原子还原；根据第一分子骨架的原子三维坐标估计各氢原子的坐标，获得对应的对接后分子的构象信息。可以理解，根据待对接分子的构象信息，即可明确该分子与受体蛋白的对接构象。

从该示例可知，本申请的分子对接的处理方法，通过将模板分子和待对接分子的分子骨架组成分子对，根据分子对中的第一分子骨架的已知原子三维坐标或已获得的原子三维坐标获取第二分子骨架的原子三维坐标，从而逐一获取每一待对接分子的原子三维坐标；这样的设计，可以在不限制待对接分子数量的前提下，批量化地调整获得需要的待对接分子的构象信息，减少人工干预，节约人力成本；且各获得的构象信息间具有较高的叠合度，满足FEP方法的计算需求，提高计算精度。

图2是本申请实施例示出的分子对接的处理方法的流程示意图。参见图2，本申请一实施例提供的分子对接的处理方法，包括：

S210，分别获取模板分子、待对接分子及受体蛋白的分子结构信息，模板分子的各原子具有已知原子三维坐标。

其中，可以参照步骤S110中的相关内容选取模板分子，模板分子的分子结构信息及已知原子三维坐标可以采用.mol格式进行表示。各待对接分子的分子结构信息可以采用SMILES文件(即.smi格式)进行表示。受体蛋白即靶点蛋白，其各原子的三维坐标已知，也可以采用.mol格式进行表示。

S220，去掉模板分子和待对接分子的分子结构信息中的氢原子及隐藏分子结构信息中的重原子的元素信息，获得模板分子和待对接分子的分子骨架。

如图3所示的模板分子及其对应的分子骨架，通过去除模板分子中的氢原子，并将所有重原子采用通配符进行隐藏，从而获得最为直观且精简的分子骨架，便于后续步骤不受元素种类的影响地处理分子骨架相同但元素不同的待对接分子，减少干扰因素，降低分子中的构象调整难度。例如，针对待对接分子中包含杂环、sp3杂化的C、N、O元素等结构时，通过隐藏重原子，即可使后续步骤中的分子对只需关注分子骨架的结构，而不受元素种类的影响。同理可知，如图4所示，以6个不同的待对接分子为例，每一待对接分子均去除氢原子和采用通配符隐藏重原子，图4即为6个待对接分子的分子骨架。为了便于后续步骤中举例说明，6个待对接分子分别以图中对应的数字标号作为代号。

S230，根据预设特征，分别获取模板分子和每一待对接分子的分子骨架之间对应的特征分值，以及获取每两个不同的待对接分子的分子骨架之间对应的特征分值。

本步骤中，预设特征可以包括分子指纹的相似性或最大公共子结构(MaximumCommon Substructure，MCS)等特征。当确定某一特征作为预设特征时，则以该预设特征为标准，获取模板分子和每一待对接分子的分子骨架之间对应的特征分值，以及获取每两个不同的待对接分子的分子骨架之间对应的特征分值。其中，可以采用特征分值计算器获取各特征分值，例如采用RDKit(一个用于化学信息学的开源工具包)算法库的相关函数计算特征分值，并以表格的形式将各特征分值进行汇总，获得特征分值列表。根据特征分值列表，即可直接对各特征分值的数值大小进行比较。需要理解的是，在计算特征分值时，与分子骨架是否已知原子三维坐标无关。

如图5所示的特征分值列表中，当预设特征采用分子指纹的相似性时，即可获得1个模板分子(0_ref)分别与6个待对接分子(即对应图中数字标号1～6)的分子骨架之间的分子指纹相似性(similarity)对应的特征分值，每一待对接分子与另外5个待对接分子的分子骨架之间的分子指纹相似性对应的特征分值，根据全排列组合，从而获得图5所示的行号0至20所示的共计21个特征分值。根据分子指纹相似性对应的特征分值，可以确定对应的每两个分子骨架之间的分子指纹的相似程度，分值的数值越大，两个分子骨架的相似程度越高，即结构越相似。在一实施方式中，特征分值符合预设数值阈值的两个待对接分子可用于作为FEP方法计算亲和力之差的分子对匹配方案。

S240，根据各特征分值的数值大小，将模板分子的分子骨架和各待对接分子的第二分子骨架之间特征分值最大的一组分子骨架配对形成分子对之后，分别将模板分子或对接后分子的第一分子骨架与剩余待对接分子的第二分子骨架之间特征分值最大的一组分子骨架配对形成分子对。

本步骤中，当待对接分子的数量大于一个时，需要结合步骤S250至步骤S260循环进行。每循环执行一次，可确定一组分子对。其中，第一组分子对则直接由模板分子的分子骨架和其中一个待对接分子的第二分子骨架组成，即由一个已知原子三维坐标的第一分子骨架和一个未获得原子三维坐标的第二分子骨架组成。

为了便于理解，如图5所示，在采用分子指纹的相似性计算获得特征分值时，模板分子与6个待对接分子的分子骨架具有对应的特征分值。比较各特征分值对应的数值大小，从特征分值列表的行号0至行号5可以看出，在模板分子与6个待对接分子的特征分值中，模板分子与标号为3的待对接分子的分子骨架的特征分值最大，即行号为2中的similarity特征分值(0_ref，3，1.000000)大于行号为0、1、3、4及5中的similarity特征分值。因此，选取模板分子与标号为3的待对接分子的分子骨架组成分子对，此时标号为3的待对接分子的分子骨架的原子三维坐标未知，即标号为3的待对接分子的分子骨架为第一组分子对中的第二分子骨架。

进一步地，在确定第一组分子对后，根据后续步骤S250至S260，可以获得第一组分子对中的待对接分子的第二分子骨架的原子三维坐标，使得该待对接分子的第二分子骨架切换为第一分子骨架。则在该待对接分子与其他待对接分子的分子骨架对应的特征分值中，确定特征分值最大的特的一组分子骨架配对形成新的一组分子对。

复参见图5，在根据上述介绍确定模板分子0_ref和标号为3的待对接分子组成第一组分子对后，在根据后续步骤计算获得标号为3的待对接分子的分子骨架的原子三维坐标后，确定标号3分别与标号1、2、4、5及6，模板分子0_ref分别与标号1、2、4、5及6中的特征分值中的数值最大的一组为第二组分子对。由图5可知，行号为0、1、3、4、5、7、11、15、16及17对应的特征分值中，行号0、1、7、11中的similarity特征分值最大(0.994681)，如果特征分值相同，例如行号0、1、7、11中的特征分值相同，则选择任意一个或行号最靠前的分子。本实施例中，选择行号最靠前的模板分子0_ref的第一分子骨架与标号为1的待对接分子的第二分子骨架组成第二组分子对。在确定第二组分子对后，即可根据后续步骤S250至S260确定标号为1的待对接分子的原子三维坐标，使其第二分子骨架切换为第一分子骨架，至此完成第二次循环。

进一步地，第三组分子对根据第三次循环步骤确定。第三次循环则确定模板分子0_ref分别与标号2、4、5、6，标号1分别与标号2、4、5、6，标号3分别与标号2、4、5、6中的任意一组分子中的特征分值中的数值最大的一组为第三组分子对，即在行号1、3、4、5、6、8、9、10、11、15、16、17的特征分值中选择数值最大的一组为第三组分子对。由图5可知，行号为1、3、4、5、6、8、9、10、11、15、16、17对应的特征分值中，行号6中的similarity特征分值最大(1.000000)，则标号为1的对接后分子的第一分子骨架与标号为2的待对接分子的第二分子骨架组成第三组分子对，进而根据后续步骤确定标号为2的待对接分子的分子骨架的原子三维坐标。可以理解，在第一次循环和第二次循环后，标号3和1已分别获得了对应的原子三维坐标，二者切换为第一分子骨架后，可以和模板分子0_ref参与后续循环中的分子对的确定。

以此类推，确定第四组分子对为标号3和标号5，根据后续步骤获得标号为5的待对接分子的分子骨架的原子三维坐标，完成第四次循环后，确定第五组分子对为标号5和标号6；根据后续步骤获得标号为6的待对接分子的分子骨架的原子三维坐标后，完成第五次循环后，确定第六组分子对为标号3和标号4，根据后续步骤获得标号为4的待对接分子的分子骨架的原子三维坐标，完成第六次循环。根据待对接分子的个数，可以确定循环次数。可以理解，每一次循环均可以获得对应的待对接分子的分子骨架的原子三维坐标，经过全部循环，即可获得全部待对接分子的分子骨架的原子三维坐标，从而实现批量化的处理。

在其他实施例中，当预先具有明确的分子对匹配方案时，即当具有预设分子对时，可以自定义模板分子和每一待对接分子的分子骨架之间对应的特征分值，相应地，也可以自定义每两个不同的待对接分子的分子骨架之间对应的特征分值。根据当前自定义特征分值中最大的两个分子骨架形成分子对，并执行后续步骤S250至S260。为了便于理解，以A、B、C三个分子举例，C为已知原子三维坐标的模板分子，A和B均为未获得原子三维坐标的待对接分子。当具有明确的分子对匹配方案时，例如明确将B和C形成分子对，将A和B形成分子对。即B参考C以获得B的原子三维坐标，A参考B以获得A的原子三维坐标。因此，即可将B和C的特征分值自定义设置高于A和B的特征分值，从而可以将B和C组成第一组分子对执行第一次循环，再将A和B组成第二组分子对执行第二次循环。

S250，将每一分子对中的第一分子骨架和第二分子骨架进行结构匹配，确定第二分子骨架在与第一分子骨架的最大公共子结构之外是否含有可旋转二面角，选择对应的预设分子对接方法。

在确定分子对后，本步骤中，为了更准确地获得分子对中的第二分子骨架的原子三维坐标，可以先将第一分子骨架和第二分子骨架进行结构匹配，以根据匹配结果对应选择更恰当的分子对接方法。其中，分子对接方法的选择第二分子骨架在与第一分子骨架的最大公共子结构之外是否含有可旋转二面角有关。两个分子骨架的最大公共子结构可以看作是两个分子骨架的公共骨架。

在一实施方式中，当第二分子骨架在最大公共子结构外含有可旋转二面角，则结合受体蛋白的结构对可旋转二面角进行优化。例如，预设对接方法可以是基于rDock进行对接，并通过rDock程序进行优化(rDock是一种快速且通用的开源对接程序，可用于小分子-蛋白对接，能够进行高通量虚拟筛选(HTVS)和结合模式预测的研究)。

当第二分子骨架在最大公共子结构外不含有可旋转二面角，则将分子对中的第二分子骨架向第一分子骨架叠合。例如，预设对接方法可以是align方法(即使用基于RDKit算法库开发的骨架叠合方法，并选择最优的叠合策略)。

S260，按照对应的预设分子对接方法，分别将第二分子骨架参照对应的分子对中的第一分子骨架的原子三维坐标与受体蛋白进行对接，获得每一分子对中第二分子骨架的原子三维坐标，以将分子对中的第二分子骨架切换为对应的第一分子骨架。

本步骤中，按照上述步骤中确定的预设分子对接方法将分子对中的具有第二分子骨架的待对接分子与受体蛋白进行对接，在对接的同时，需要参考分子对中具有第一分子骨架的待对接分子或模板分子，从而获得第二分子骨架的原子三维坐标。

当第二分子骨架在最大公共子结构外含有可旋转二面角，在一具体地实施方式中，则使用基于开源软件rdock进行开发的限制性对接方法，固定待对接分子的第二分子骨架中与第一分子骨架中重合的原子，并读取步骤S210输入的受体蛋白的分子结构信息；结合受体蛋白结构，对第二分子骨架中的最大公共子结构外的可旋转二面角进行优化。

当第二分子骨架在最大公共子结构外不含有可旋转二面角，在一具体地实施方式中，获取分子对中的第一分子骨架和第二分子骨架在最大公共子结构上的各原子映射关系；针对每一原子映射关系，分别根据第一分子骨架中的原子三维坐标获得第二分子骨架在最大公共子结构中对应的原子的三维坐标，及根据预设函数获得第二分子骨架在最大公共子结构以外的重原子的三维坐标。

为了便于理解，以具有第一分子骨架的A和具有第二分子骨架的B举例说明。例如A为氯乙烯，其分子骨架为ClC＝C，其重原子编号从左至右依次对应为1、2、3；B为乙烯，分子骨架为C＝C，其重原子编号从左至右依次对应为1、2。A和B的最大公共子结构以通配符表示即为*＝*，*是两个分子中2个重原子的通配符。假设将A和B的分子骨架重叠，并从左到右可知，2个*对应小分子A上的原子编号是2，3，对应小分子B上的编号是1，2，那么由于乙烯的对称性，叠合的时候一共有2种原子序号映射：即A(2,3)映射B(1,2)，和A(2,3)映射B(2,1)。在获得所有原子映射关系后，再分别针对每一种原子映射关系，均可以获得第二分子骨架在最大公共子结构中对应的原子的三维坐标，及根据预设函数例如RDKit算法库中的AllChem.ConstrainedEmbed函数获得第二子骨架在最大公共子结构中对应的原子的三维坐标。

进一步地，在一实施方式中，根据第二分子骨架在最大公共子结构中对应的原子和重原子的三维坐标，获得第二分子骨架对应的候选构象；在各候选构象中选择几何中心与第一分子骨架的几何中心最接近的构象作为待对接分子的优选构象。可以理解，本示例中，基于两种原子映射关系，B分子的第二分子骨架可以获得两组原子三维坐标，从而B可以获得两个候选构象。其中，在两个候选构象中，可以选择候选构象的几何中心与小分子A的第一分子骨架的几何中心最接近的构象作为待对接分子的优选构象。可以理解，确定的优选构象的分子骨架的原子三维坐标，即为本步骤最终确定的待对接分子的第二分子骨架的原子三维坐标。为了确保循环的准确执行，待对接分子的第二分子骨架切换为第一分子骨架。

可以理解，执行完本步骤后的待对接分子即更新为对接完成的分子，即下述步骤中的对接后分子。

S270，将第一分子骨架进行氢原子还原；根据第一分子骨架的原子三维坐标估计各氢原子的坐标，获得对应的对接后分子的构象信息。

可以理解，在经过上述步骤获得每一待对接分子的分子骨架的原子三维坐标后，获得的原子三维坐标仅为分子骨架上的原子的坐标。因此，为了获得对接后分子完整的原子三维坐标，需要将步骤S220去除的氢原子还原，进而根据与氢原子连接的重原子的三维坐标预估该氢原子的三维坐标，继而获得该对接后分子上的所有原子的三维坐标。

可以理解，各原子的三维坐标确定了该对接后分子的构象，继而得到对接后分子的构象信息。例如，输出带有原子三维坐标的分子结构信息，以.mol格式进行存储。

从该示例可知，本申请的分子对接的处理方法，在模板分子的原子三维坐标已知的前提下，根据利用上一组分子对中的第二分子骨架切换而来的第一分子骨架的原子三维坐标获取下一组分子对中对应的第二分子骨架的原子三维坐标，通过循环机制逐一确定所有待对接分子的分子骨架的原子三维坐标；另外，通过比较两个不同的分子骨架之间的特征分值的数值大小，可以作为在利用FEP方法时的分子对的匹配；于此同时，通过匹配确定分子对中的第二分子骨架与第一分子骨架的最大公共子结构之外是否含有可旋转二面角，从而确定更适合的分子对接方法，从而提高获得的原子三维坐标的准确性；这样的设计，即可批量化地逐一自动获得每一待对接分子与受体蛋白对接后的构象信息，提高处理效率，节约人力成本，且确保待对接分子的对接构象具有较高的叠合度，从而满足FEP计算的需求，提高计算结果的准确性。本申请的方法，可以直接在相关开源的软件上进行应用，降低应用成本。

参见图3至图8，以下将结合具体的实施例进一步介绍本申请的分子对接的处理方法。

如图3至图8所示，本实施例中的分子对接处理方法，包括：

S310，输入文件。

输入一个已知原子三维坐标的模板分子0_ref的分子结构文件，例如命名为0_ref.mol的文件，一个受体蛋白protein的分子结构文件，例如命名为protein.mol2的文件，及一个包含6个待对接分子的SMILES及各自对应命名为标号1至6的SMILE文件，例如命名为ligands.smi的文件。

S320，获取分子骨架。

如图3和图4所示，将模板分子和6个待对接分子的氢原子取出，并采用通配符隐藏重原子，得到对应的分子骨架。

S330，计算特征分值。

通过预设的特征分值计算器，本实施例以RDKFingerprintSimilarity(分子指纹的相似性)为特征，以RDKit算法库的相关函数，计算模板分子和各每一待对接分子，以及每两个待对接分子的分子骨架之间的特征分值。如图5所示，计算结果共计21个特征分值。

S340，初始化对接列表及根据后续步骤动态更新对接列表。

为了便于计算，预先设置两个对接列表，即第一列表和第二列表，两个列表中的内容根据后续的循环步骤动态更新。一个第一列表是包含第一分子骨架对应名单的列表，即该列表仅存储具有已知原子三维坐标的模板分子和已完成对接后的已获得原子三维坐标的对接后分子。另一个第二列表是包含第二分子骨架对应名单的列表，即还未对接，未获得原子三维坐标的待对接分子。

可以理解，在初次进行时，仅模板分子0_ref具有已知原子三维坐标，即初始化的第一列表中仅包含模板分子0_ref，初始化的第二列表包含6个待对接分子1～6，第二列表可以采用图5所示的列表。进一步地，考虑到六个待对接分子的任意两个之间均有可能组成分子对，及任一待对接分子与模板分子之间有可能组成分子对，在初始化时，如图5所示的特征分值列表中的每一组分子均可暂存于第二列表中。

S350，循环运行对接，获得所有待对接分子的分子骨架的原子三维坐标。

本步骤中，参见图6和图7，在图6中，受体蛋白的分子骨架在PyMOL软件中以卷曲的形式进行显示，模板分子的分子骨架在受体蛋白中与6个待对接分子的分子骨架叠合。由图6可以看出，各待对接分子与模板分子的分子骨架具有较高的叠合程度。图7中的第1列为对应标号的待对接分子获得原子三维坐标后并还原重原子后的结构，第2列为对应的每行中的第一分子骨架与第二分子骨架的最大公共子结构，第3列为对应的每行中的待对接分子参考的第一分子骨架。根据预设分组规则和预设分子对接方法，最终按照图7所示的第1行至第6行的顺序获得对应的对待对接分子的原子三维坐标。具体循环过程如下：

第一轮循环：

S351，根据特征分值的数值大小，确定本轮循环中的分子对。第一轮循环的分子对为模板分子0_ref与标号为3的待对接分子。

S352，如图7的第一行的第二列所示的模板分子与3号分子的MCS即最大公共子结构外没有可旋转二面角，选择预设对接方法align。

S353，用align方法得到标号为3的待对接分子的分子骨架的原子三维坐标，并将标号为3的待对接分子从第二列表转移至第一列表，且相应删除第二列表中的模板分子与标号3组成的分子对及其特征分值，第一列表和第二列表中的内容相应更新，即标号为3的待对接分子的分子骨架状态由第二分子骨架切换为第一分子骨架。

第二轮循环：

S351，根据特征分值的数值大小，确定本轮循环中的分子对。第二轮循环的分子对为模板分子和标号为1的待对接分子。

S352，如图7的第二行的第二列所示的模板分子与1号分子的MCS即最大公共子结构外没有可旋转二面角，选择预设对接方法align。

S353，用align方法得到标号为1的待对接分子的分子骨架的原子三维坐标，并将标号为1的待对接分子从第二列表转移至第一列表，且相应删除第二列表中的模板分子与标号1、标号1与标号3组成的分子对及对应的特征分值，第一列表和第二列表中的内容相应更新，即标号为1的待对接分子的分子骨架状态由第二分子骨架切换为第一分子骨架。

第三轮循环：

S351，第三轮循环的分子对为标号为1的待对接分子和标号为2的待对接分子。

S352，如图7的第三行的第二列所示的1号分子与2号分子的MCS即最大公共子结构外没有可旋转二面角，选择预设对接方法align。

S353，用align方法得到标号为2的待对接分子的分子骨架的原子三维坐标，并将标号为2的待对接分子从第二列表转移至第一列表，且相应删除第二列表中的标号2与标号1、标号2与标号3、标号2与模板分子组成的分子对及对应的特征分值，第一列表和第二列表中的内容相应更新，即标号为2的待对接分子的分子骨架状态由第二分子骨架切换为第一分子骨架。

第四轮循环：

S351，第四轮循环的分子对为标号为3的待对接分子和标号为5的待对接分子。

S352，如图7的第四行的第二列所示的3号分子与5号分子的MCS即最大公共子结构外没有可旋转二面角，选择预设对接方法align。

S353，用align方法得到标号为5的待对接分子的分子骨架的原子三维坐标，并将标号为5的待对接分子从第二列表转移至第一列表，且相应删除第二列表中的标号3与标号5、标号5与标号1、标号5与标号2、标号5与模板分子组成的分子对及对应的特征分值，第一列表和第二列表中的内容相应更新，即标号为5的待对接分子的分子骨架状态由第二分子骨架切换为第一分子骨架。

第五轮循环：

S351，第五轮循环的分子对为标号为5的待对接分子和标号为6的待对接分子。

S352，如图7的第五行的第二列所示的5号分子与6号分子的MCS即最大公共子结构外有可旋转二面角，选择预设对接方法rdock。

S353，用rdock方法得到标号为6的待对接分子的分子骨架的原子三维坐标，并将标号为6的待对接分子从第二列表转移至第一列表，且相应删除第二列表中的标号5与标号6、标号6与标号1、标号6与标号2、标号6与标号3、标号6与模板分子组成的分子对及其特征分值，第一列表和第二列表中的内容相应更新，即标号为6的待对接分子的分子骨架状态由第二分子骨架切换为第一分子骨架。

第六轮循环：

S351，第六轮循环的分子对为标号为3的待对接分子和标号为4的待对接分子。

S352，如图7的第六行的第二列所示的3号分子与4号分子的MCS即最大公共子结构外有可旋转二面角，选择预设对接方法rdock。

S353，用rdock方法得到标号为4的待对接分子的分子骨架的原子三维坐标，并将标号为4的待对接分子从第二列表转移至第一列表，且相应删除第二列表中的标号3与标号4、标号4与标号1、标号4与标号2、标号4与标号3、标号4与标号5、标号4与模板分子组成的分子对及其特征分值，第一列表和第二列表中的内容相应更新，即标号为4的待对接分子的分子骨架状态由第二分子骨架切换为第一分子骨架。

S360，为每一已获得分子骨架的原子三维坐标的对接后分子加氢还原，并根据原子三维坐标预估氢原子三维原子坐标。输出每一对接后分子的对接结构文件，例如.mol文件。

与前述应用功能实现方法实施例相对应，本申请还提供了一种分子对接的处理装置、电子设备及相应的实施例。

图9是本申请实施例示出的分子对接的处理装置的结构示意图。

参见图9，本申请实施例的分子对接的处理装置，包括骨架获取模块410、分组模块420、坐标获取模块430及构象信息获取模块440，其中：

骨架获取模块410用于分别获取模板分子和待对接分子的分子骨架，其中，模板分子的分子骨架具有对应的已知原子三维坐标；

分组模块420用于将模板分子及各待对接分子的分子骨架按照预设分组规则进行分组，形成分子对，其中，分子对包含一个第一分子骨架和一个第二分子骨架，第一分子骨架为模板分子或已获得原子三维坐标的待对接分子的分子骨架，第二分子骨架为未获得原子三维坐标的待对接分子的分子骨架；

坐标获取模块430用于按照对应的预设分子对接方法，分别将第二分子骨架参照对应的分子对中的第一分子骨架的原子三维坐标与受体蛋白进行对接，获得第二分子骨架的原子三维坐标，以将分子对中的第二分子骨架切换为对应的第一分子骨架；

构象信息获取模块440分别根据第一分子骨架的原子三维坐标，获得各待对接分子对应的对接后分子的构象信息。

图10是本申请实施例示出的分子对接的处理装置的结构示意图。

进一步地，参见图10，本申请实施例的分子对接的处理装置，包括信息获取模块450、骨架获取模块410、分组模块420、选择模块460、坐标获取模块430及构象信息获取模块440，其中：

信息获取模块450用于分别获取模板分子和待对接分子的分子结构信息，信息获取模块还用于获取受体蛋白的分子结构信息。

骨架获取模块410用于去掉根据信息获取模块获取的模板分子和待对接分子的分子结构信息中的氢原子及隐藏分子结构信息中的重原子的元素信息，获得模板分子和待对接分子的分子骨架。

分组模块420用于根据预设特征，分别获取模板分子和每一待对接分子的分子骨架之间对应的特征分值，以及获取每两个不同的待对接分子的分子骨架之间对应的特征分值；根据各特征分值的数值大小，将模板分子的分子骨架和各待对接分子的第二分子骨架之间特征分值最大的一组分子骨架配对形成分子对之后，分别将模板分子或对接后分子的第一分子骨架与剩余待对接分子的第二分子骨架之间特征分值最大的一组分子骨架配对形成分子对。

选择模块460用于将每一分子对中的第一分子骨架和第二分子骨架进行结构匹配，确定第二分子骨架在与第一分子骨架的最大公共子结构之外是否含有可旋转二面角；当第二分子骨架在最大公共子结构外含有可旋转二面角，则结合受体蛋白的结构对可旋转二面角进行优化；当第二分子骨架在最大公共子结构外不含有可旋转二面角，则将分子对中的第二分子骨架向第一分子骨架叠合。

坐标获取模块430用于当第二分子骨架在最大公共子结构外不含有可旋转二面角，获取分子对中的第一分子骨架和第二分子骨架在最大公共子结构上的各原子映射关系；针对每一原子映射关系，分别根据第一分子骨架中的原子三维坐标获得第二分子骨架在最大公共子结构中对应的原子的三维坐标，及根据预设函数获得第二分子骨架在最大公共子结构以外的重原子的三维坐标。坐标获取模块430还用于根据第二分子骨架在最大公共子结构中对应的原子和重原子的三维坐标，获得第二分子骨架对应的候选构象；在各候选构象中选择几何中心与第一分子骨架的几何中心最接近的构象作为待对接分子的优选构象。

构象信息获取模块440用于将第一分子骨架进行氢原子还原；根据第一分子骨架的原子三维坐标估计各氢原子的坐标，获得对应的对接后分子的构象信息。

本申请的分子对接的处理装置，可以在不限制待对接分子数量的前提下，批量化地调整获得需要的待对接分子的构象信息，减少人工干预，节约人力成本；且各获得的构象信息间具有较高的叠合度，满足FEP方法的计算需求，提高计算精度。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不再做详细阐述说明。

图11是本申请实施例示出的电子设备的结构示意图。

参见图11，电子设备1000包括存储器1010和处理器1020。

处理器1020可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器1010可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)和永久存储装置。其中，ROM可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器1010可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(例如DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器1010可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等)、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器1010上存储有可执行代码，当可执行代码被处理器1020处理时，可以使处理器1020执行上文述及的方法中的部分或全部。

此外，根据本申请的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。

或者，本申请还可以实施为一种计算机可读存储介质(或非暂时性机器可读存储介质或机器可读存储介质)，其上存储有可执行代码(或计算机程序或计算机指令代码)，当可执行代码(或计算机程序或计算机指令代码)被电子设备(或服务器等)的处理器执行时，使处理器执行根据本申请的上述方法的各个步骤的部分或全部。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。

Claims

1.一种分子对接的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述分别获取模板分子和待对接分子的分子骨架，包括：

分别获取模板分子和待对接分子的分子结构信息；

3.根据权利要求1所述的方法，其特征在于，所述将所述模板分子及各所述待对接分子的分子骨架按照预设分组规则进行分组，形成分子对，其中，所述分子对包含一个第一分子骨架和一个第二分子骨架，包括：

4.根据权利要求1-3任一所述的方法，其特征在于，所述将所述模板分子及各所述待对接分子的分子骨架按照预设分组规则进行分组，形成多组分子对之后，还包括：

5.根据权利要求4所述的方法，其特征在于，所述按照对应的预设分子对接方法，分别将所述第二分子骨架参照对应的分子对中的第一分子骨架的原子三维坐标与受体蛋白进行对接，获得所述第二分子骨架的原子三维坐标，包括：

6.根据权利要求5所述的方法，其特征在于，所述针对每一所述原子映射关系，分别根据第一分子骨架中的原子三维坐标获得第二分子骨架在最大公共子结构中对应的原子的三维坐标，及根据预设函数获得第二分子骨架在所述最大公共子结构以外的重原子的三维坐标之后，还包括：

7.根据权利要求1所述的方法，其特征在于，所述分别根据所述第一分子骨架的原子三维坐标，获得对应的对接后分子的构象信息，包括：

将所述第一分子骨架进行氢原子还原；

8.一种分子对接构象的处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-7中任一项所述的方法。