CN115631784B - 一种基于多尺度判别的无梯度柔性分子对接方法 - Google Patents

一种基于多尺度判别的无梯度柔性分子对接方法 Download PDF

Info

Publication number
CN115631784B
CN115631784B CN202211317095.0A CN202211317095A CN115631784B CN 115631784 B CN115631784 B CN 115631784B CN 202211317095 A CN202211317095 A CN 202211317095A CN 115631784 B CN115631784 B CN 115631784B
Authority
CN
China
Prior art keywords
module
scoring
descriptor
unit
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211317095.0A
Other languages
English (en)
Other versions
CN115631784A (zh
Inventor
蔡翔
刘雨松
岳石怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Limaoda Pharmaceutical Technology Co ltd
Original Assignee
Suzhou Limaoda Pharmaceutical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Limaoda Pharmaceutical Technology Co ltd filed Critical Suzhou Limaoda Pharmaceutical Technology Co ltd
Priority to CN202211317095.0A priority Critical patent/CN115631784B/zh
Publication of CN115631784A publication Critical patent/CN115631784A/zh
Application granted granted Critical
Publication of CN115631784B publication Critical patent/CN115631784B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种基于多尺度判别的无梯度柔性分子对接方法,包括步骤:S1,准备受体分子和配体分子的3D数据,对受体分子和配体分子进行预处理;S2,对预处理后的分子进行结构图数据化,得到统一的分子的描述子,再对所述描述参数进行归一化处理;S3,对预处理后的分子或/和归一化后的描述参数采用随机突变模块进行结合模拟及随机突变,获得突变后的描述参数;S4,突变后的描述参数输入优化模块,优化模块采用搜索模块和打分模块进行搜索和匹配度打分,终止条件模块判断打分分数符合终止条件,则得到打分最优的分子描述参数。

Description

一种基于多尺度判别的无梯度柔性分子对接方法
技术领域
本发明涉及计算机和生物医药技术领域,更具体地,涉及一种基于多尺度判别的无梯度柔性分子对接方法。
背景技术
分子对接(molecular docking)方法是利用计算机来预测受体分子与药物分子(配体)之间的结合模式和亲和力的一种理论模拟方法。它是一种基于结构的药物设计方法,主要通过研究受体的特征以及受体与药物分子之间的相互作用方式,来进行空间匹配(几何匹配)和能量匹配计算。近年来,分子对接方法已成为计算机辅助药物研究领域的一项重要技术,同时其在药物设计、材料设计等领域也有着广泛的应用。分子对接方法中的柔性分子对接,由于在对接过程中允许研究体系的构象发成自由变化,适合精确考察分子间识别情况。其中,分子对接的算法至关重要,直接影响结合模式预测效果的好坏以及是否易于解释相互作用的亲和力程度,还涉及成本以及速度。
传统的药物分子对接算法,主要采用基于如基因遗传学算法、模拟退火算法或梯度下降法等方式进行。这些方式在目前的工业界和学术界,都有着广泛的应用,但这些算法的缺点也同样显著。例如,基因遗传学算法的搜索性广泛,但是计算资源消耗巨大,迭代次数较多,不适用于大规模对接。梯度下降法收敛速度快,但是必须要求进行梯度计算,对于药物研发采用的打分函数,往往函数不是处处可导;即使可导,梯度计算的公式也很复杂,难以计算;如果使用导数近似等方式,如有限差分法,又容易引入误差导致搜索效率变低,同时又会受限于维度灾难的问题。
有鉴于此,本发明提供一种基于多尺度判别的无梯度柔性分子对接方法,引入无梯度柔性对接方式和多尺度判别方法,在搜索空间广的同时,对计算资源消耗极少、运算速度快,预测准确性高。
发明内容
本发明的目的在于,提供一种基于多尺度判别的无梯度柔性分子对接方法,引入无梯度柔性对接方式和多尺度判别方法,在搜索空间广的同时,搜索高效,对计算资源消耗极少、运算速度快,预测准确性高。
一种基于多尺度判别的无梯度柔性分子对接方法,包括步骤:
S1,准备受体分子和配体分子的3D数据,对受体分子和配体分子进行预处理;
S2,对预处理后的配体分子或/和受体分子进行结构图数据化,得到统一的配体分子或/和受体分子的描述子(描述参数),再对所述描述参数进行归一化处理;
S3,对S1中预处理后的分子或/和S2中归一化后的描述参数采用随机突变模块进行结合模拟并对描述参数进行随机突变,获得突变后的描述参数;
S4,将突变后的描述参数输入优化模块,优化模块包括搜索模块、打分模块和终止条件模块,采用搜索模块和打分模块进行搜索和匹配度打分,终止条件模块判断打分分数符合终止条件,则得到打分最优的分子描述参数。
在一些实施方式中,在步骤S1中,对受体分子和配体分子的预处理包括:去水分子、加极性氢、加电荷、选择可转动支链和确定扭矩中心中的一种或多种。
进一步的,对受体分子和配体分子进行预处理的软件包括:MGL Tools、ADFRSuite,预处理软件对受体分子和配体分子分别进行自动化的预处理。
在一些实施方式中,在步骤S2中,将预处理后的配体分子或/和受体分子描述成结构图模型,得到图连接的结构信息,再统一纳入配体分子或/和受体分子的描述参数。
进一步的,对预处理后的配体分子或/和受体分子,凡是非环,且连接的化学键两边的原子个数都大于1的化学键定义为可转动键,以配体分子任意原子为出发点,建立图结构的根,然后向其他原子搜索,当遇到可转动键时,建立新的子节点,否则,搜索到的新原子和之前原子均为同一节点,直到所有原子均被搜索,得到图连接结构信息,记录为描述参数。
进一步的,所述描述参数包括:所有原子的id号、所有原子的原子类型(即C,N,O等)、所有建立的节点(即转动键)和连接两个节点的原子的连接关系信息(对数信息),这些描述参数组成结构图。
进一步的,所述描述参数还包括:转动键角度信息(和节点个数相同)、配体分子或/和受体分子的中心坐标(x,y,z三轴)和配体分子朝向信息(使用四元数表示),这些用于表述配体分子或/和受体分子的3D构象的信息,改变这些信息代表着改变配体分子或/和受体分子的3D构象。
在一些实施方式中,在步骤S2中,对描述参数进行数值参数的归一化,将描述子中的数值除以相应的归一化的尺度数值,用于将数值区间映射到0到1之间。
进一步的,尺度数值设置为:转动角度360°、朝向为1(朝向向量)和空间位移为1埃(物理定义的埃,);将所有的转动键角度信息数值除以360,分子中心坐标三个坐标分别除以1,表示朝向的四元数除以1。例如,原始记录的转动键角度为180,归一化后为180/360=0.5。
在一些实施方式中,在步骤S1或S2中,并配置参数模块,参数模块用于为随机突变模块和优化模块提供相应的参数;所述参数模块包括:随机突变模块需要使用的搜索空间(该空间为长方体盒子,包括参数为空间中心点,x,y,z轴三个方向的长度,单位为埃)、最大突变个数以及每次迭代给出的所需的突变个数,和优化模块的终止条件模块需要使用的打分分数最小值阈值和描述子变化率绝对值阈值、压缩后的描述子值阈值和N个描述子均值的差的绝对值阈值以及内循环次数阈值,所述参数模块还包括最大迭代次数模块需要使用的对接最大迭代次数阈值。
在一些实施方式中,在步骤S3中,参数模块根据迭代次数随机给出此次突变所需的突变个数,最大突变个数为描述参数的个数,所需的突变个数为1到最大突变个数之间的任意整数值;再根据所需的突变个数对描述参数进行修改,在所有描述参数中随机选择所述所需的突变个数的描述参数进行修改/改变,描述参数进行改变的值的范围在0-1之间(由于描述子参数经过了归一化处理)。
例如,最大突变个数即描述参数的个数(即描述子长度,定义为转动键个数+朝向四元数+中心位移维度)为10个,那么,所需的突变个数为1到10之间的任意整数值,如果参数模块对本次迭代给出的需要的突变个数为3个,那么从10个描述参数中随机选择3个描述参数进行修改,修改的值的范围在0-1之间。
进一步的,所述随机的随机策略均服从均匀分布。
进一步的,所需的突变个数与迭代次数成反比,呈阶梯递减,从而保证构象搜索范围随着迭代次数的增加而逐渐减小,趋于稳定。
在一些实施方式中,在步骤S4中,(a)所述搜索模块包括描述子单元和无梯度算法单元,将突变后的描述参数输入描述子单元,描述子单元对突变后的描述参数进行处理后输出N个描述参数到打分模块进行受体分子与配体分子的匹配度打分,得到初步打分分数,N≥1;(b)将初步打分分数输入无梯度算法单元进行无梯度计算得到无梯度计算结果;(c)无梯度算法单元将计算结果输入打分模块进行打分,打分分数回到无梯度算法单元再次进行计算,计算结果输入终止条件模块进行判断是否符合终止条件,若不符合终止条件循环(c)直到符合终止条件(内循环)。
进一步的,所述描述子单元搜索分数最小的描述参数,根据给到的当前突变的描述子,复制N份,N的值大于等于描述子的长度,对第N个描述子的第N个数值加上1,再将N个描述参数输入打分模块进行初步匹配度打分。
进一步的,所述无梯度算法单元包括:末尾排序压缩单元、坐标下降单元、布谷鸟搜索单元、模式搜索单元或Nelder-Mead搜索单元中的一种。
进一步的,所述末尾排序压缩单元将初步打分分数使用排序算法进行排序,排序好后,在第一次迭代及后续的迭代中,永远只对排名最后的一个描述子进行值的压缩;末尾排序压缩单元将压缩后的描述子输入打分模块进行打分,打分分数再一次采用末尾排序压缩单元进行排序和对排名最后的一个描述子进行压缩,将压缩后的值输入终止条件模块进行判别是否符合终止条件,若符合终止条件,则输出最优解的匹配度分值,若不符合终止条件,循环该步进行新一轮的搜索(即末尾排序压缩单元再次将压缩后的描述子输入打分模块进行打分,打分后再次进行排序和压缩,压缩后的值再次判断是否符合终止条件),直到满足条件而终止。
进一步的,所述坐标下降单元采用坐标下降算法,布谷鸟搜索单元采用布谷鸟搜索算法,模式搜索单元采用模式搜索算法,Nelder-Mead搜索单元采用Nelder-Mead搜索算法。
进一步的,所述终止条件模块将打分分数最小值和描述子变化率绝对值与参数模块设定的打分分数最小值阈值和描述子变化率绝对值阈值进行比较,若小于打分分数最小值阈值和描述子变化率绝对值阈值,则第一条件合格;终止条件模块还将压缩后的描述子值和N个描述子均值的差的绝对值与参数模块设定的压缩后的描述子值阈值和N个描述子均值的差的绝对值阈值进行比较,若小于压缩后的描述子值阈值和N个描述子均值的差的绝对值阈值,则第二条件合格;终止条件模块还将内循环次数与参数模块设定的内循环次数阈值进行比较,内循环次数达到内循环次数阈值,则第三条件合格;只要其中一个条件合格,则符合终止条件。
在一些实施方式中,在步骤S4中,所述打分模块包括:预计算单元、打分函数单元和修正单元,预计算单元先进行预计算,若预计算有结果,则不进入打分函数单元,反之,进入打分函数单元对配体与受体的匹配度(空间匹配和能量匹配)通过打分函数进行打分,打分之后,再输入到修正单元进行分数修正,输出一个具体的分数数值。
进一步的,所述预计算单元为人为设定的打分规则,包括排除物理无意义数据和超出计算范围数据;所述打分函数包括:经典力场模型、半经验力场模型、(如AMBER、CHARMM、MMFF、Vina Score,进行能量计算)、机器学习打分函数、深度学习打分函数(如DeepFusion,进行亲和力预测)或自定义打分函数中的一种;修正单元对打分函数给出的值进行修正,让分数更加合理。
例如,配体分子的3D坐标在搜索盒子之外,超出搜索范围时,则预计算结果给出一个远远大于后面打分函数能够给出的值,例如1E10,具体单位无任何影响,只表示遇到了不合理情况。当预计算无具体值,没有结果,再进入打分函数单元。预计算单元的存在大大减少了搜索空间范围,很大程度减少了无效搜索,加快程序收敛。
修正单元的设计是因为,例如,在机器学习和深度学习模型中,经常遇到因为模型推广性不足,而导致配体和受体重叠,配体自身重叠等物理意义不合理等问题,对于这种情况,需要修正单元进行修正,打分函数值可以被修改为大值,和预计算一样即可。除了修改大值,用户还可以针对其他情况,自定义其他策略,具体情况需看具体任务,这里不做任何约束限定。修正单元的存在,让整体打分趋于更加合理,搜索结果更加准确,同时也能起到加速收敛,减少无效搜索等情况。
一种基于多尺度判别的无梯度柔性分子对接方法,还包括步骤:
S5,优化模块将得到的结果(打分最优的分子的描述参数,每次的输出结果在候选聚类模块称为候选描述子)输出到候选聚类模块和最大迭代次数模块,最大迭代次数模块计算优化模块输出结果的次数(即迭代次数)是否达到参数模块设定的对接最大迭代次数阈值(需要迭代的总次数),若未达到则循环S3-S4直到迭代次数超过对接最大迭代次数阈值为止,候选聚类模块对输入的数据进行聚类操作直到没有新的数据输入,然后输出最终结果。
在一些实施方式中,在步骤S5中,所述聚类操作的评判依据为配体分子空间坐标的RMSD大小,将新的候选描述子依次对已存在的所有候选描述子,计算两个配体分子之间的RMSD,直到没有新的数据输入候选聚类模块;当RMSD≤1.0(单位为埃)时,则表示重复,不是新的构象,该候选描述子被抛弃,不再纳入候选;若RMSD>1.0时,则表示为新的构象,纳入候选;所有纳入候选的描述子,均作为最终结果输出。
进一步的,首先,通过描述子转为3D构象,具体公式为:px=q°py+t,其中,px为原始坐标、py为转换后坐标、q为四元数、t为偏移坐标;当3D构象坐标得到后,进行RMSD计算,RMSD的计算公式定义为C1,C1为:
其中,vi、wi分别表示新候选描述子表达的某个原子坐标和已纳入候选描述子的某个原子坐标,n为配体分子的原子个数,即对配体分子的两种构象,对所有原子都进行一遍一一对应的欧氏距离计算。
在一些实施方式中,在步骤S5中,所述对接最大迭代次数阈值为250次,优选的,对接最大迭代次数阈值为500次。在搜索空间广的同时,搜索高效,对计算资源消耗极少、运算速度快,预测准确性高。
与现有技术相比,本申请的优点在于:
(1)本申请创新性的设计随机突变模块,随机突变的设计在经典无梯度优化基础上,引入了基因遗传学算法的初始化概念,对描述子进行概率突变,搜索空间广,但不使用遗传学算法的其他步骤,避免了遗传学算法多族群迭代导致的计算量极大,重复操作多等缺点,同时又打破了经典无梯度算法搜索空间局限且固定的局限。并且,设计了最大迭代次数模块来进行S3-S5的外循环(迭代)直到达到对接最大迭代次数阈值,同时,创新性的将每次迭代的突变个数与迭代次数相关联,成反比的阶梯递减,使得算法后期搜索可以趋于稳定。
(2)本申请的优化模块创新性的利用无梯度算法单元的无梯度算法进行对接结果的优化选择,无需了解打分函数的内部具体细节,只关注最后得到的打分值即可。而其他方案,需清楚了解打分函数具体公式细节,并且计算梯度,或者因为公式过于复杂,梯度难以求解进而采用近似的方式,引入误差,在本发明中,这些问题均不存在。
(3)本申请优化模块的打分模块增加设计了预计算单元和修正单元,能够方便的,高效率的进行搜索。这两个模块的存在,大大减少了无效搜索的可能性,减少了搜索空间,并且使得打分模块更加合理,自定义化且提高了可解释性,对于后期对对接结果的分析,起到了重要作用。
(4)本申请打分模块的打分函数单元,由于搜索模块的无梯度策略,除了现有的打分函数可以应用之外,还可以采用用户自定义的打分函数,不受限制。
(5)本申请的优化模块还创造性的设计了终止条件模块的多尺度的终止条件,进行内循环,针对不同的描述子,不同值的不同约束,满足实际对接过程的对不同物理变量的不同要求,且可以自定义化。
(6)本申请对于优化模块每次迭代输出的结果,采用候选聚类模块进行聚类操作,极大的减少了空间中接近的结果,从而最大限度的增加了对接结果的丰富度。
附图说明
结合以下附图一起阅读时,将会更加充分地描述本申请内容的上述和其他特征。可以理解,这些附图仅描绘了本申请内容的若干实施方式,因此不应认为是对本申请内容范围的限定。通过采用附图,本申请内容将会得到更加明确和详细地说明。
图1为本申请实施例的基于多尺度判别无梯度柔性分子对接方法的流程图。
图2为本申请的基于多尺度判别无梯度柔性分子对接方法的优化模块的结构示意图及流程图。
图3为预处理后的受体分子α凝血酶的3D构象图。
图4为预处理后的配体分子原黄素的3D结构图。
图5为输出的最终结果的对接结果图。
具体实施方式
描述以下实施例以辅助对本申请的理解,实施例不是也不应当以任何方式解释为限制本申请的保护范围。
在以下描述中,本领域的技术人员将认识到,在本论述的全文中,组件可描述为单独的功能单元(可包括子单元),但是本领域的技术人员将认识到,各种组件或其部分可划分成单独组件,或者可整合在一起(包括整合在单个的系统或组件内)。
同时,组件或系统之间的连接并不旨在限于直接连接。相反,在这些组件之间的数据可由中间组件修改、重格式化、或以其它方式改变。另外,可使用另外或更少的连接。还应注意,术语“联接”、“连接”、或“输入”“固定”应理解为包括直接连接、通过一个或多个中间媒介来进行的间接的连接或固定。
实施例1:对受体分子的预处理
准备α凝血酶受体分子的3D数据,在ADFRsuite中提供了受体分子处理脚本prepare_receptor.py,在得到受体分子的pdb文件后,直接运行指令进行预处理,将受体分子从pdb文件转换为pdbqt文件,得到预处理后的受体分子的3D结构图,如图3所示。
实施例2:对配体分子的预处理
准备原黄素配体分子的3D数据,在ADFRsuite中提供了配体分子处理脚本prepare_ligand.py,在得到配体分子的mol2文件后,直接运行指令进行预处理,将配体分子从mol2文件转换为pdbqt文件,得到预处理后的配体分子的3D结构图,如图4所示。
实施例3:对预处理后的配体分子进行结构图数据化
将预处理后的配体分子进行结构图数据化,预处理后的配体分子凡是非环,且连接的化学键两边的原子个数都大于1的化学键定义为可转动键,以配体分子任意原子为出发点,建立图结构的根,然后向其他原子搜索,当遇到可转动键时,建立新的子节点,否则,搜索到的新原子和之前原子均为同一节点,直到所有原子均被搜索,得到图连接结构信息,记录为描述参数。所述描述参数为:所有原子的id号、所有原子的原子类型(即C,N,O等)、所有建立的节点(即转动键)、连接两个节点的原子的连接关系信息(对数信息)、转动键角度信息(和节点个数相同)、配体分子的中心坐标(x,y,z三轴)和配体分子朝向信息(使用四元数表示),这些用于表述配体分子或/和受体分子的3D构象的信息,改变这些信息代表着改变配体分子或/和受体分子的3D构象。
实施例4:配体分子的描述子进行归一化处理
对描述参数进行数值参数的归一化,将描述子中的数值除以相应的归一化的尺度数值,用于将数值区间映射到0到1之间。尺度数值设置为:转动角度360°、朝向为1(朝向向量)和空间位移为1埃(物理定义的埃,);将所有的转动键角度信息数值除以360,分子中心坐标三个坐标分别除以1,表示朝向的四元数除以1,配体分子的描述子定义为可转动角数量+朝向向量+空间位移,得到描述参数的数值区间均为0-1之间。
实施例5:预处理后的受体分子和归一化的配体分子进行结合模拟以及配体分子的描述参数的随机突变
对预处理后的受体分子和中归一化后配体分子进行结合模拟,并对配体分子的描述参数进行随机突变,获得突变后的描述参数。其中,参数模块根据迭代次数随机(服从均匀分布)给出此次突变所需的突变个数,最大突变个数为描述参数的个数,所需的突变个数为1到最大突变个数之间的任意整数值;再根据所需的突变个数对描述参数进行修改,在所有描述参数中随机(服从均匀分布)选择所述所需的突变个数的描述参数进行修改/改变,描述参数进行改变的值的范围也在0-1之间。
原黄素配体分子在第一次迭代中,参数模块给出的突变个数是1-7之间的整数值,根据均匀分布给出所需突变的个数是3个,则在7个描述参数中随机选择3个描述参数进行修改,修改的值的也范围在0-1之间。在后续的迭代过程中,所需的突变个数与迭代次数成反比,呈阶梯递减,从而保证构象搜索范围随着迭代次数的增加而逐渐减小,趋于稳定。
实施例6:对突变后的描述参数在优化模块进行优化打分
突变后的描述参数输入优化模块,优化模块包括搜索模块、打分模块和终止条件模块,搜索模块包括描述子单元和无梯度算法单元。将突变后的描述参数输入描述子单元,所述描述子单元搜索分数最小的描述参数,根据给到的当前突变的描述子,复制N份,N的值大于等于描述子的长度,对第N个描述子的第N个数值加上1,再将N个描述参数输入打分模块进行初步匹配度打分。将初步打分分数输入末尾排序压缩单元进行无梯度计算得到初步的计算结果,将初步打分分数使用排序算法进行排序,排序好后,在第一次迭代及后续的迭代中,永远只对排名最后的一个描述子进行值的压缩。然后末尾排序压缩单元将压缩后的描述子输入打分模块进行打分,打分分数再一次采用末尾排序压缩单元进行排序和对排名最后的一个描述子进行压缩,将压缩后的值输入终止条件模块进行判别是否符合终止条件,若符合终止条件,则输出最优解的匹配度分值,若不符合终止条件,循环该步进行新一轮的搜索(即末尾排序压缩单元再次将压缩后的描述子输入打分模块进行打分,打分后再次进行排序和压缩,压缩后的值再次判断是否符合终止条件),直到满足条件而终止。
其中,终止条件的第一个终止条件为打分分数最小值和描述子变化率绝对值小于参数模块设定的打分分数最小值阈值和描述子变化率绝对值阈值,打分分数最小值阈值和描述子变化率绝对值阈值分别-100和0.01;第二个终止条件为压缩后的描述子值和N个描述子均值的差的绝对值小于参数模块设定的压缩后的描述子值阈值和N个描述子均值的差的绝对值阈值,压缩后的描述子值阈值和N个描述子均值的差的绝对值阈值为0.01;第三个条件为内循环次数达到参数模块设定的内循环次数阈值,内循环次数阈值500次。
其中,所述打分模块包括:预计算单元、打分函数单元和修正单元,预计算单元先进行预计算,预计算单元为人为设定的打分规则,如排除物理无意义和超出计算范围数据。若预计算有结果,则不进入打分函数单元,反之,进入打分函数单元对配体与受体的匹配度(空间匹配和能量匹配)通过打分函数进行打分。打分函数为半经验打分函数(VinaScore),其公式定义为:
E=∑epair(d)
总能量(分数)为所有配体原子和受体原子之间距离的函数,d表示一个受体分子原子,一个配体分子原子,两个原子间的距离。两个原子为一对,一对的能量由多个项组成,包括两个高斯项(Gauss),一个互斥项(Repulsion),一个疏水项(Hydrophobic)和一个氢键项(HBond),w1到w5分别为每一项的权重,对所有原子对计算能量的总和为最终分数。打分之后,再输入到修正单元,修正单元对打分函数给出的值进行修正,让分数更加合理,输出一个具体的分数数值,得到打分最优的分子描述参数,将打分最优的分子描述参数输出到候选聚类模块和最大迭代次数模块。
实施例7:候选描述子聚类和多次迭代
优化模块将得到的结果(打分最优的分子的描述参数,每次的输出结果在候选聚类模块称为候选描述子)输出到候选聚类模块和最大迭代次数模块,最大迭代次数模块计算优化模块输出结果的次数(即迭代次数)是否达到参数模块设定的对接最大迭代次数阈值(需要迭代的总次数),若未达到则循环S3-S4直到迭代次数超过对接最大迭代次数阈值为止,对接最大迭代次数阈值250次,候选聚类模块对输入的数据进行聚类操作直到没有新的数据输入,聚类操作的评判依据为配体分子空间坐标的RMSD大小,将新的候选描述子依次对已存在的所有候选描述子,计算两个配体分子之间的RMSD。首先,通过描述子转为3D构象,具体公式为:px=q°py+t,其中,px为原始坐标、py为转换后坐标、q为四元数、t为偏移坐标;当3D构象坐标得到后,进行RMSD计算,RMSD的计算公式定义为C1,C1为:
其中,vi、wi分别表示新候选描述子表达的某个原子坐标和已纳入候选描述子的某个原子坐标,n为配体分子的原子个数,即对配体分子的两种构象,对所有原子都进行一遍一一对应的欧氏距离计算。当RMSD≤1.0(单位为埃)时,则表示重复,不是新的构象,该候选描述子被抛弃,不再纳入候选;若RMSD>1.0时,则表示为新的构象,纳入候选。
不断进行聚类操作直到没有新的数据输入候选聚类模块,然后将所有纳入候选的描述子,均作为最终结果输出。其输出的最终结果如图5所示,输出了4个候选描述子(4个候选结果)作为输出的最终结果,即4个原黄素的不同构象,在彩色图中,还分别用4种颜色来表示4个不同的构象,从图5可以看出,这4个候选结果均能够很好的与受体分子进行结合,并且增加了对接结果的丰富度。
尽管本申请已公开了多个方面和实施方式,但是其它方面和实施方式对本领域技术人员而言将是显而易见的,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。本申请公开的多个方面和实施方式仅用于举例说明,其并非旨在限制本申请,本申请的实际保护范围以权利要求为准。

Claims (8)

1.一种基于多尺度判别的无梯度柔性分子对接方法,其特征在于,包括步骤:S1,准备受体分子和配体分子的3D数据,对受体分子和配体分子进行预处理;
S2,对预处理后的配体分子或/和受体分子进行结构图数据化,得到统一的配体分子或/和受体分子的描述子,再对描述参数进行归一化处理;
S3,对S1中预处理后的分子或/和S2中归一化后的描述参数采用随机突变模块进行结合模拟并对描述参数进行随机突变,获得突变后的描述参数,参数模块根据迭代次数随机给出此次突变所需的突变个数,最大突变个数为描述参数的个数,所需的突变个数为1到最大突变个数之间的任意整数值;再根据所需的突变个数对描述参数进行修改,在所有描述参数中随机选择所述所需的突变个数的描述参数进行修改/改变,描述参数进行改变的值的范围也在0-1之间;
S4,将突变后的描述参数输入优化模块,优化模块包括搜索模块、打分模块和终止条件模块,采用搜索模块和打分模块进行搜索和匹配度打分,终止条件模块判断打分分数符合终止条件,则得到打分最优的分子描述参数,(a)所述搜索模块包括描述子单元和无梯度算法单元,将突变后的描述参数输入描述子单元,描述子单元对突变后的描述参数进行处理后输出N个描述参数到打分模块进行受体分子与配体分子的匹配度打分,得到初步打分分数,N≥1;(b)将初步打分分数输入无梯度算法单元进行无梯度计算得到无梯度计算结果;(c)无梯度算法单元将计算结果输入打分模块进行打分,打分分数回到无梯度算法单元再次进行计算,计算结果输入终止条件模块进行判断是否符合终止条件,若不符合终止条件循环(c)直到符合终止条件,所述终止条件模块将打分分数最小值和描述子变化率绝对值与参数模块设定的打分分数最小值阈值和描述子变化率绝对值阈值进行比较,若小于打分分数最小值阈值和描述子变化率绝对值阈值,则第一条件合格;终止条件模块还将压缩后的描述子值和N个描述子均值的差的绝对值与参数模块设定的压缩后的描述子值阈值和N个描述子均值的差的绝对值阈值进行比较,若小于压缩后的描述子值阈值和N个描述子均值的差的绝对值阈值,则第二条件合格;终止条件模块还将内循环次数与参数模块设定的内循环次数阈值进行比较,内循环次数达到内循环次数阈值,则第三条件合格;只要其中一个条件合格,则符合终止条件。
2.如权利要求1所述的基于多尺度判别的无梯度柔性分子对接方法,其特征在于,在步骤S2中,将预处理后的配体分子或/和受体分子描述成结构图模型,得到图连接的结构信息,再统一纳入配体分子或/和受体分子的描述参数;对描述参数进行数值参数的归一化,将描述子中的数值除以相应的归一化的尺度数值,将数值区间映射到0到1之间。
3.如权利要求1所述的基于多尺度判别的无梯度柔性分子对接方法,其特征在于,在步骤S1中或S2中,配置参数模块,参数模块用于为随机突变模块和优化模块提供相应的参数;所述参数模块包括:随机突变模块需要使用的搜索空间、最大突变个数以及每次迭代给出的所需的突变个数,和优化模块的终止条件模块需要使用的打分分数最小值阈值和描述子变化率绝对值阈值、压缩后的描述子值阈值和N个描述子均值的差的绝对值阈值以及内循环次数阈值,所述参数模块还包括最大迭代次数模块需要使用的对接最大迭代次数阈值。
4.如权利要求1所述的基于多尺度判别的无梯度柔性分子对接方法,其特征在于,所需的突变个数与迭代次数成反比,呈阶梯递减。
5.如权利要求1所述的基于多尺度判别的无梯度柔性分子对接方法,其特征在于,包括选自下组的一个或多个特征:
(1)所述描述子单元搜索分数最小的描述参数,根据给到的当前突变的描述子,复制N份,N的值大于等于描述子的长度,对第N个描述子的第N个数值加上1,再将N个描述参数输入打分模块进行初步匹配度打分;
(2)所述无梯度算法单元包括:末尾排序压缩单元、坐标下降单元、布谷鸟搜索单元、模式搜索单元或Nelder-Mead搜索单元中的一种;
(3)所述打分模块包括:预计算单元、打分函数单元和修正单元,预计算单元先进行预计算,若预计算有结果,则不进入打分函数单元,反之,进入打分函数单元对配体与受体的匹配度通过打分函数进行打分,打分之后,再输入到修正单元进行分数修正,输出一个具体的分数数值。
6.如权利要求5所述的基于多尺度判别的无梯度柔性分子对接方法,其特征在于,包括选自下组的一个或多个特征:
(1)所述末尾排序压缩单元将初步打分分数使用排序算法进行排序,排序好后,在第一次迭代及后续的迭代中,永远只对排名最后的一个描述子进行值的压缩;末尾排序压缩单元将压缩后的描述子输入打分模块进行打分,打分分数再一次采用末尾排序压缩单元进行排序和对排名最后的一个描述子进行压缩,将压缩后的值输入终止条件模块进行判别是否符合终止条件,若符合终止条件,则输出最优解的匹配度分值,若不符合终止条件,循环该步进行新一轮的搜索(即末尾排序压缩单元再次将压缩后的描述子输入打分模块进行打分,打分后再次进行排序和压缩,压缩后的值再次判断是否符合终止条件),直到满足条件而终止;
(2)所述坐标下降单元采用坐标下降算法,布谷鸟搜索单元采用布谷鸟搜索算法,模式搜索单元采用模式搜索算法,Nelder-Mead搜索单元采用Nelder-Mead搜索算法;
(3)所述预计算单元为人为设定的打分规则,包括排除物理无意义数据和超出计算范围数据;所述打分函数包括:经典力场模型、半经验力场模型、机器学习打分函数、深度学习打分函数或自定义打分函数中的一种;修正单元对打分函数给出的值进行修正,让分数更加合理。
7.如权利要求1所述的基于多尺度判别的无梯度柔性分子对接方法,其特征在于,还包括步骤:
S5,优化模块将得到的结果输出到候选聚类模块和最大迭代次数模块,最大迭代次数模块计算优化模块输出结果的次数是否达到参数模块设定的对接最大迭代次数阈值,若未达到则循环S3-S4直到迭代次数超过对接最大迭代次数阈值为止,候选聚类模块对输入的数据进行聚类操作直到没有新的数据输入,然后输出最终结果。
8.如权利要求7所述的基于多尺度判别的无梯度柔性分子对接方法,其特征在于,所述聚类操作的评判依据为配体分子空间坐标的RMSD大小,将新的候选描述子依次对已存在的所有候选描述子,计算两个配体分子之间的RMSD,直到没有新的数据输入候选聚类模块;当RMSD≤1.0埃时,则表示重复,不是新的构象,该候选描述子被抛弃,不再纳入候选;若RMSD>1.0埃时,则表示为新的构象,纳入候选;所有纳入候选的描述子,均作为最终结果输出;RMSD的计算公式定义为C1,C1为:
(C1)
其中,vi、wi分别表示新候选描述子表达的某个原子坐标和已纳入候选描述子的某个原子坐标,n为配体分子的原子个数。
CN202211317095.0A 2022-10-26 2022-10-26 一种基于多尺度判别的无梯度柔性分子对接方法 Active CN115631784B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211317095.0A CN115631784B (zh) 2022-10-26 2022-10-26 一种基于多尺度判别的无梯度柔性分子对接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211317095.0A CN115631784B (zh) 2022-10-26 2022-10-26 一种基于多尺度判别的无梯度柔性分子对接方法

Publications (2)

Publication Number Publication Date
CN115631784A CN115631784A (zh) 2023-01-20
CN115631784B true CN115631784B (zh) 2024-04-23

Family

ID=84907201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211317095.0A Active CN115631784B (zh) 2022-10-26 2022-10-26 一种基于多尺度判别的无梯度柔性分子对接方法

Country Status (1)

Country Link
CN (1) CN115631784B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930181A (zh) * 2012-11-07 2013-02-13 四川大学 基于分子描述符的蛋白质-配体亲和力预测方法
CN105814573A (zh) * 2013-09-27 2016-07-27 科德克希思公司 基于结构的预测性建模
CN107992718A (zh) * 2017-11-28 2018-05-04 江苏理工学院 分子对接方法及系统
CN111095422A (zh) * 2017-06-19 2020-05-01 琼格拉有限责任公司 通过综合计算和实验深度突变学习框架解释基因和基因组变体
CN111788485A (zh) * 2017-12-22 2020-10-16 加利福尼亚太平洋生物科学股份有限公司 用于固定化的修饰型生物素结合蛋白
CN113196404A (zh) * 2018-12-19 2021-07-30 格瑞尔公司 利用无细胞dna样本中的小变异的多层分析的癌症组织来源预测
CN113393911A (zh) * 2021-06-23 2021-09-14 石家庄鲜虞数字生物科技有限公司 一种基于深度学习的配体化合物快速预筛选模型
CN114155918A (zh) * 2021-11-22 2022-03-08 中国科学院大学 基于分子对接和分子动力模拟筛选的药物化合物库中的潜在fasn抑制剂试验方法
CN114678082A (zh) * 2022-03-08 2022-06-28 南昌立德生物技术有限公司 一种计算机辅助虚拟高通量筛选算法
CN114842924A (zh) * 2022-04-15 2022-08-02 大连理工大学 一种优化的从头药物设计方法
CN114927174A (zh) * 2022-05-19 2022-08-19 袁龙啸 一种小分子药物共价虚拟筛选方法、设备及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020133297A1 (en) * 2001-01-17 2002-09-19 Jinn-Moon Yang Ligand docking method using evolutionary algorithm
US20110144966A1 (en) * 2009-11-11 2011-06-16 Goddard Iii William A Methods for prediction of binding poses of a molecule
US20210102197A1 (en) * 2019-10-07 2021-04-08 The Broad Institute, Inc. Designing sensitive, specific, and optimally active binding molecules for diagnostics and therapeutics

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930181A (zh) * 2012-11-07 2013-02-13 四川大学 基于分子描述符的蛋白质-配体亲和力预测方法
CN105814573A (zh) * 2013-09-27 2016-07-27 科德克希思公司 基于结构的预测性建模
CN111095422A (zh) * 2017-06-19 2020-05-01 琼格拉有限责任公司 通过综合计算和实验深度突变学习框架解释基因和基因组变体
CN107992718A (zh) * 2017-11-28 2018-05-04 江苏理工学院 分子对接方法及系统
CN111788485A (zh) * 2017-12-22 2020-10-16 加利福尼亚太平洋生物科学股份有限公司 用于固定化的修饰型生物素结合蛋白
CN113196404A (zh) * 2018-12-19 2021-07-30 格瑞尔公司 利用无细胞dna样本中的小变异的多层分析的癌症组织来源预测
CN113393911A (zh) * 2021-06-23 2021-09-14 石家庄鲜虞数字生物科技有限公司 一种基于深度学习的配体化合物快速预筛选模型
CN114155918A (zh) * 2021-11-22 2022-03-08 中国科学院大学 基于分子对接和分子动力模拟筛选的药物化合物库中的潜在fasn抑制剂试验方法
CN114678082A (zh) * 2022-03-08 2022-06-28 南昌立德生物技术有限公司 一种计算机辅助虚拟高通量筛选算法
CN114842924A (zh) * 2022-04-15 2022-08-02 大连理工大学 一种优化的从头药物设计方法
CN114927174A (zh) * 2022-05-19 2022-08-19 袁龙啸 一种小分子药物共价虚拟筛选方法、设备及介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A New Lamarckian Genetic Algorithm for Flexible Ligand-Receptor Docking;JAN FUHRMANN等;《Journal of Computational Chemistry》;20100115;第31卷(第9期);第1911-1918页 *
GC376抑制α属动物冠状病毒复制的分子机制研究;王潇葳;《中国优秀硕士学位论文全文数据库 基础科学辑》;20210215(第2期);第A006-1027页 *
HPV16/18 E6蛋白与小分子抑制剂RITA和姜黄素的结合模式研究;张天一等;《生命科学研究》;20191031;第23卷(第5期);第267-376页 *
新型分子检测技术在肝胆肿瘤中的初步应用;肖潇;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;20210615(第6期);第E072-312页 *

Also Published As

Publication number Publication date
CN115631784A (zh) 2023-01-20

Similar Documents

Publication Publication Date Title
Eidhammer et al. Structure comparison and structure patterns
US6636849B1 (en) Data search employing metric spaces, multigrid indexes, and B-grid trees
Liu et al. ProtDec-LTR3. 0: protein remote homology detection by incorporating profile-based features into learning to rank
Malebary et al. Identification of Antimicrobial Peptides Using Chou's 5 Step Rule.
CN109637579B (zh) 一种基于张量随机游走的关键蛋白质识别方法
Attique et al. Prediction of therapeutic peptides using machine learning: computational models, datasets, and feature encodings
Wang et al. Imbalance data processing strategy for protein interaction sites prediction
Yao et al. A linear time approach to computing time series similarity based on deep metric learning
Wang et al. Essential protein prediction based on node2vec and XGBoost
Qian et al. SPP-CPI: Predicting compound–protein interactions based on neural networks
Ephzibah Cost effective approach on feature selection using genetic algorithms and LS-SVM classifier
CN115631784B (zh) 一种基于多尺度判别的无梯度柔性分子对接方法
CN117198408A (zh) 一种多模型综合集成药物重定位系统及方法
Li et al. ABM-SpConv-SIMD: Accelerating convolutional neural network inference for industrial IoT applications on edge devices
Mani Sekhar et al. Identification of essential proteins in yeast using mean weighted average and recursive feature elimination
Jiang et al. Structure-based prediction of nucleic acid binding residues by merging deep learning-and template-based approaches
Acharya et al. A refined 3-in-1 fused protein similarity measure: application in threshold-free hub detection
Hamdi-Cherif Integrating machine learning in intelligent bioinformatics
Liu et al. Conditional graphical models for protein structural motif recognition
Busa-Fekete et al. Tree-based algorithms for protein classification
Wu et al. Parallel niche gene expression programming based on general multi-core processor
Wang et al. Fast algorithms for computing path-difference distances
Lipinski-Paes et al. MASTERS: A general sequence-based MultiAgent System for protein TERtiary Structure prediction
Lin et al. Disulfide connectivity prediction based on structural information without a prior knowledge of the bonding state of cysteines
Nassiri et al. Learning the transfer function in binary metaheuristic algorithm for feature selection in classification problems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant