CN115083539A - 分子结构的重建方法、装置、设备及可读存储介质 - Google Patents
分子结构的重建方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN115083539A CN115083539A CN202110260462.7A CN202110260462A CN115083539A CN 115083539 A CN115083539 A CN 115083539A CN 202110260462 A CN202110260462 A CN 202110260462A CN 115083539 A CN115083539 A CN 115083539A
- Authority
- CN
- China
- Prior art keywords
- fragment
- fragments
- molecule
- molecular
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/90—Programming languages; Computing architectures; Database systems; Data warehousing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Databases & Information Systems (AREA)
- Medicinal Chemistry (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
Abstract
本申请公开了一种分子结构的重建方法、装置、设备及可读存储介质,涉及机器学习领域。该方法包括:获取参考分子;对参考分子进行结构拆分,得到与参考分子对应的至少一组分子片段组;对分子片段组进行特征处理,得到用于替换碎片片段的候选片段;基于候选片段和侧链片段生成重建分子。通过对参考分子进行结构拆分,得到碎片片段和侧链片段,从而以侧链片段作为结构条件对替换碎片片段的新分子片段结构进行预测,得到候选片段,也即将分子切分开并学习相关片段的构造规律,利用新生成的候选片段来替换掉原有分子上的碎片片段来达到分子的修改,其生成的分子有可观的概率跳出已有分子结构的结构规律,从而提高了分子重构的成功率。
Description
技术领域
本申请实施例涉及机器学习领域,特别涉及一种分子结构的重建方法、装置、设备及可读存储介质。
背景技术
分子生成是指在现有分子结构的基础上进行改变,从而生成与现有分子结构不同而保持相同活性的分子结构。如:参考分子为针对目标靶点的分子,即参考分子用于在目标靶点处产生活性,则分子生成用于在参考分子的基础上生成在目标靶点处产生同样活性的其他结构分子。
相关技术中,通过人工智能(Artificial Intelligence,AI)方式进行分子生成,而AI分子生成技术通常是在参考分子的基础上结合分子重构能力和分子重构合法性进行新结构分子的生成。
然而,上述方式在重构分子时,是基于规则对分子进行重构,难以跳出分子结构设计的主要思路,从而导致重构后的分子难以规避已存在的分子结构,分子重构的成功率较低。
发明内容
本申请实施例提供了一种分子结构的重建方法、装置、设备及可读存储介质,能够提高分子重构的成功率和效率。所述技术方案如下:
一方面,提供了一种分子结构的重建方法,所述方法包括:
获取参考分子,所述参考分子为针对目标靶点产生活性的分子;
对所述参考分子进行结构拆分,得到与所述参考分子对应的至少一组分子片段组,所述分子片段组中包括所述参考分子的碎片片段以及与所述碎片片段对应的侧链片段;
对所述分子片段组进行特征分析,得到用于替换所述碎片片段的候选片段;
基于所述候选片段和所述侧链片段生成重建分子,所述重建分子为新生成的针对所述目标靶点产生活性的分子。
另一方面,提供了一种分子结构的重建装置,所述装置包括:
获取模块,用于获取参考分子,所述参考分子为针对目标靶点产生活性的分子;
拆分模块,用于对所述参考分子进行结构拆分,得到与所述参考分子对应的至少一组分子片段组,所述分子片段组中包括所述参考分子的碎片片段以及与所述碎片片段对应的侧链片段;
生成模块,用于对所述分子片段组进行特征分析,得到用于替换所述碎片片段的候选片段;
所述生成模块,还用于基于所述候选片段和所述侧链片段生成重建分子,所述重建分子为新生成的针对所述目标靶点产生活性的分子。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如上述本申请实施例中任一所述的分子结构的重建方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的分子结构的重建方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的分子结构的重建方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过对参考分子进行结构拆分,得到碎片片段和侧链片段,从而以侧链片段作为结构条件对替换碎片片段的新分子片段结构进行预测,得到候选片段,也即将分子切分开并学习相关片段的构造规律,利用新生成的候选片段来替换掉原有分子上的碎片片段来达到分子的修改,由于根据结构条件所能够生成的候选片段的数量较大,故提高了新生成的分子与已有分子结构不同的概率,从而提高了分子重构的成功率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的分子结构的重建方法的流程图;
图2是基于图1示出的实施例提供的骨架拆分过程示意图;
图3是基于图1示出的实施例提供的骨架拆分结果示意图;
图4是基于图3示出的实施例提供的骨架拆分结果示意图;
图5是基于图3示出的实施例提供的碎片拆分结果示意图;
图6是本申请一个示例性实施例提供的模型训练过程的示意图;
图7是本申请一个示例性实施例提供的分子重构过程示意图;
图8是本申请另一个示例性实施例提供的分子结构的重建方法的流程图;
图9是本申请另一个示例性实施例提供的分子结构的重建方法的流程图;
图10是基于图9示出的实施例提供的分子位点拼接方式示意图;
图11是本申请一个示例性实施例提供的分子重构方法的整体流程图;
图12是本申请一个示例性实施例提供的分子结构的重建装置的结构框图;
图13是本申请另一个示例性实施例提供的分子结构的重建装置的结构框图;
图14是本申请一个示例性实施例提供的计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,针对本申请实施例中涉及的名词进行简单介绍:
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。本申请实施例中,主要涉及自然语言处理技术,在智能医疗领域,以自然语言处理的算法对分子结构进行重建,从而在针对目标靶点的参考分子的基础上进行重建,生成同样针对目标靶点的新结构分子。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
分子重构:是指在现有分子结构的基础上进行改变,从而生成与现有分子结构不同而保持相同活性的分子结构。如:参考分子为针对目标靶点的分子,即参考分子用于在目标靶点处产生活性,则分子生成用于在参考分子的基础上生成在目标靶点处产生同样活性的其他结构分子。其中,以药物领域为例,参考分子在目标靶点处产生活性是指参考分子在目标靶点处能够产生药物作用。
相关技术中,AI分子生成技术是在参考分子的基础上结合分子重构能力和分子重构合法性进行新结构分子的生成,主要关注点在于如何建立基于高斯分布的分子隐空间,导致重构的分子与目标靶点的分子结构非常相似,无法跳出参考分子的结构规则。
本申请实施例提供了一种能够针对目标靶点的参考分子进行片段修改的AI分子设计方法,通过对参考分子进行拆分得到需要修改替换的碎片片段以及对应的侧链片段,从而在基于碎片片段生成新的片段后,将侧链片段与生成的新的片段拼接,得到重建后的分子结构。
值得注意的是,本申请实施例中,以替换碎片片段为例进行说明,在一些实施例中,还可以通过替换侧链片段,或者替换侧链片段和碎片片段实现,本申请实施例对此不加以限定。
首先,对本申请实施例中提供的分子结构的重建方法进行说明。图1是本申请一个示例性实施例提供的分子结构的重建方法的流程图,以该方法由计算机设备(如:终端或者服务器)执行为例进行说明,如图1所示,该方法包括:
步骤101,获取参考分子,参考分子为针对目标靶点产生活性的分子。
在一些实施例中,参考分子为当前已存在的分子结构。可选地,参考分子为预设分子库中保护的分子结构;或者,参考分子为结构待简化的分子;或者,参考分子为药物代谢动力学性质待改善的分子。
本实施例中,以医疗领域为例进行说明,参考分子为针对目标靶点的分子,也即参考分子能够在目标靶点处产生活性,从而在目标靶点产生药物作用。而本申请实施例中,需要在参考分子的基础上进行结构上的重建,从而生成与参考分子在结构上不同,而活性作用上相同或者相似的分子,即,重构后的分子也是针对目标靶点产生活性的分子。
步骤102,对参考分子进行结构拆分,得到与参考分子对应的至少一组分子片段组。
分子片段组中包括参考分子的碎片片段以及与碎片片段对应的侧链片段。
在一些实施例中,在对参考分子进行结构拆分时,需要基于预设拆分规则。
也即,首先获取预设拆分规则,该预设拆分规则中包括骨架拆分规则和可旋转键拆分规则中的至少一种。基于预设拆分规则对参考分子进行结构拆分,得到与参考分子对应的至少一组分子片段组。其中,一组分子片段组中包括一个碎片片段和至少一个侧链片段,碎片片段是根据上述预设拆分规则拆分得到的,而将碎片片段从参考分子中删除后,剩下的结构即为与被删除的碎片片断对应的侧链片段。
其中,由于预设拆分规则中包括两种拆分规则中的至少一种,也即当通过骨架拆分规则拆分得到a组分子片段组,通过可旋转键拆分规则拆分得到b组分子片段组时,通过a组分子片段组进行分子重建或者,通过b组分子片段组进行分子重建,或者通过a+b组分子片段组进行分子重建。其中,a,b皆为正整数。在一些实施例中,当通过a+b组分子片段组进行分子重建时,增加了分子重构模型的泛化性。下面针对上述两种预设拆分规则分别进行说明。
第一、骨架拆分规则
也即预设拆分规则中包括骨架拆分规则,则在对参考分子进行结构拆分时,从参考分子中抽出符合骨架要求的骨架结构,将骨架结构从参考分子中删除,得到与骨架结构对应的侧链结构,将骨架结构作为碎片片段,将侧链结构作为侧链片段,得到与参考分子对应的至少一组分子片段组。
其中,根据骨架拆分规则对参考分子进行拆分时,首先从参考分子中抽出对应的一级骨架,并在得到一级骨架的基础上,根据不同的环状结构在分出更小的二级骨架结构。基于骨架拆分规则拆分得到的碎片片段可以是参考分子中的一级骨架结构,也可以是一级骨架结构基础上拆分得到的二级骨架结构。
示意性的,请参考图2,其示出了本申请一个示例性实施例提供的骨架拆分过程示意图,如图2所示,针对参考分子210首先进行骨架拆分得到一级骨架220,从而在一级骨架220的基础上进行一次或者多次拆分,得到更小的二级骨架结构230。
在得到上述一级骨架220以及各个二级骨架230后,从一级骨架220和二级骨架230中选出满足骨架要求的骨架结构,作为用于拆分参考分子的骨架结构。在一些实施例中,当存在多个骨架结构满足骨架要求时,将其中一个满足骨架要求的骨架结构从参考分子中删除后,参考分子会碎成1到多个侧链,将被删除的骨架结构与碎裂得到的侧链作为一组,得到一组分子片段组,也即,一组分子片段组中包括一个骨架结构和至少一个侧链。
针对每个满足骨架要求的骨架结构进行上述处理后,即得到至少一组分子片段组。在一些实施例中,骨架结构被删除后,若得到的侧链数量为至少两个,则将该骨架结构和至少两个侧链作为一组分子片段组。示意性的,请参考图3,从分子310中将二级骨架320删除后,得到两个侧链330,其中包括侧链331和侧链332。则将二级骨架320和两个侧链330作为分子310对应的一组分子片段组。
在一些实施例中,分子片段组中包括骨架结构以及与骨架结构对应的侧链片段。而在另一些实施例中,分子片段组中也可以包括参考分子和骨架结构,而分子重构模型能够根据参考分子和骨架结构直接确定侧链片段
其中,上述骨架要求包括环数要求、重原子数要求和可旋转键要求中的至少一种;其中,响应于骨架要求包括环数要求,从参考分子中抽出环数在环数要求范围内的骨架结构;响应于骨架要求包括重原子数要求,从参考分子中抽出重原子数在重原子数要求范围内的骨架结构;响应于骨架要求包括可旋转键要求,从参考分子中抽出可旋转键数量在要求范围内的骨架结构。
示意性的,骨架要求具体包括如下要求。
1.骨架结构内环数大于等于2;
2.骨架结构内重原子数小于20;
3.骨架结构内可旋转键的数量小于3。
示意性的,请参考图4,其示出了本申请一个示例性实施例提供的骨架拆分结果示意图,如图4所示,对参考分子400进行拆分后,至少包括两种拆分结果,第一种拆分结果410中,从参考分子400中拆分得到骨架结构411和侧链412;第二种拆分结果420中,从参考分子400中拆分得到骨架结构421和侧链422。则骨架结构411和侧链412构成一组分子片段组,骨架结构421和侧链422构成一组分子片段组。
第二、可旋转键拆分规则
也即预设拆分规则中包括可旋转键拆分规则,则在对参考分子进行结构拆分时,将参考分子从可旋转键处断开,得到符合碎片要求的碎片片段,并基于碎片片段得到与参考分子对应的至少一组分子片段组。
其中,在从可旋转键处断开参考分子时,针对断开后的碎片需要符合碎片要求。在一些实施例中,碎片要求包括碎片基础要求和碎片骨架要求中的至少一种。从可旋转键处将参考分子断开时,断开后的部分称为碎片(fragment),每个碎片中都包括骨架(scaffold)。碎片基础要求是指针对整个碎片的要求,碎片骨架要求是指针对碎片中所包含的骨架的要求。
在一些实施例中,碎片基础要求包括碎片环数要求、碎片原子数要求、碎片可旋转键要求以及碎片结构要求中的至少一种;碎片骨架要求中包括对碎片骨架的骨架原子数要求和骨架可旋转键要求中的至少一种。
示意性的,碎片要求中具体包括如下要求。
1.碎片片段仅包括一个环;
2.碎片片段中的非H原子数大于5且小于30;
3.碎片片段内部的环大小小于8;
4.碎片片段的可旋转键数量小于9;
5.碎片片段中存在碎片骨架;
6.碎片骨架的非H原子数小于20;
7.碎片骨架的可旋转键数量小于3;
8.碎片片段的非H原子数与碎片骨架的非H原子数之差小于10;
9.碎片片段不能只包括一个单环结构。
示意性的,请参考图5,其示出了本申请一个示例性实施例提供的碎片拆分结果示意图,如图5所示,对参考分子500进行拆分后,至少包括四种拆分结果,第一种拆分结果中,从参考分子500中拆分得到碎片片段511;第二种拆分结果中,从参考分子500中拆分得到碎片片段521;第三种拆分结果中,从参考分子500中拆分得到碎片片段531;第四种拆分结果中,从参考分子500中拆分得到碎片片段541。其中,将每种拆分方式中的碎片片段从参考分子中删除后,即得到侧链片段。每种拆分方式对应一组分子片段组。
步骤103,对分子片段组进行特征分析,得到用于替换碎片片段的候选片段。
在一些实施例中,将分子片段组输入至分子重构模型中,通过分子重构模型对分子片段组进行特征分析,并得到用于替换碎片片段的候选片段。可选地,针对一个参考分子存在至少一组分子片段组,则将至少一组分子片段组依次输入至分子重构模型,由分子重构模型对至少一组分子片段组中的每组分子片段组进行依次分析,得到每组分子片段组对应的多个候选片段。
在一些实施例中,基于侧链片段对分子片段组进行编码,生成片段特征,对片段特征进行解码,生成用于替换碎片片段的候选片段。
分子重构模型中包编码器和解码器,首先基于侧链片段通过编码器对碎片片段进行编码,得到片段特征;通过预设扰动规则对片段特征施加扰动,得到扰动特征,从而通过解码器对扰动特征进行解码,生成用于替换碎片片段的候选片段。其中,施加扰动的过程为增加生成的候选片段的多样性的过程。也即,通过施加扰动,使候选片段在初始的碎片片段的基础上进行改变,在初始的碎片片段对应的特征空间附近确定候选片段,从而提高候选片段的多样性。
其中,编码得到片段特征的过程中,将侧链片段映射至特征空间,得到侧链空间特征,从而以侧链空间特征作为结构条件,通过编码器对碎片片段进行编码,得到片段特征。在一些实施例中,通过编码器对碎片片段进行编码后,首先得到编码特征,以侧链空间特征作为结构条件,将编码特征映射至特征空间得到片段特征。
其中,编码器、解码器和特征空间是预先训练得到的,也即,碎片片段和侧链片段在特征空间的映射过程是根据预先训练的分子重构模型实现的。其中,特征空间实现为满足高斯分布条件的高斯空间。分子重构模型的训练和应用在后续实施例中进行具体说明。
步骤104,基于候选片段和侧链片段生成重建分子。
在一些实施例中,将候选片段上的氢原子位与侧链片段进行拼接,得到重建分子。其中,重建分子为新生成的针对目标靶点产生活性的分子。
其中,候选片段和侧链片段拼接后,得到的重建分子还需要进行分子结构筛选,筛选过程是预先设定的。
综上所述,本申请实施例提供的分子结构的重建方法,通过对参考分子进行结构拆分,得到碎片片段和侧链片段,从而以侧链片段作为结构条件对替换碎片片段的新分子片段结构进行预测,得到候选片段,也即将分子切分开并学习相关片段的构造规律,利用新生成的候选片段来替换掉原有分子上的碎片片段来达到分子的修改,由于根据结构条件所能够生成的候选片段的数量较大,故提高了新生成的分子与已有分子结构不同的概率,从而提高了分子重构的成功率。
针对上述步骤103中的分子重构模型,对分子重构模型的训练过程和应用过程分别进行说明。其中,无论是在模型训练过程中的样本分子还是实际重建中的参考分子,都需要对分子结构进行拆分,将分子结构拆分为碎片片段和侧链片段。针对训练过程和应用过程中的模型处理过程分别进行如下说明。
(一)训练过程
训练过程包括预训练过程和微调过程。
其中,预训练过程主要是通过对公共数据库中的分子结构进行学习,从而使模型能够学习分子的向量表达。也即,预训练过程为模型学习将分子转换为向量特征的过程。
在一些实施例中,候选片段是通过分子重构模型预测得到的。
示意性的,请参考图6,其示出了本申请一个示例性实施例提供的模型训练过程的示意图,以一个样本分子拆分得到的其中一组分子片段组为例进行说明,如图6所示,从样本分子中拆分得到碎片片段601和侧链片段602,分子重构模型610中包括编码器611和解码器612,通过编码器611对碎片片段601和侧链片段602进行编码,得到与碎片片段601对应的第一片段向量621以及与侧链片段602对应的第二片段向量622,将第一片段向量621和第二片段向量622通过解码器612进行解码后,以还原碎片片段601和侧链片段602为目标对编解码器进行训练。
在一些实施例中,本申请实施例中的分子重构模型在条件变分自编码器(Conditional Variational Autoencoders,CVAE)的基础上进行了改进。相关技术中,CVAE的训练条件参数是量化的向量,而本申请实施例中将分子拆分成了碎片与侧链,然后将侧链作为一个结构条件输入到模型中。具体地,就是将侧链结构映射到一个嵌入(embedding)空间后,将映射后的结构embedding作为条件输入。具体的优化条件请参考如下公式一:
ELBO(θ,Θ;x,y)=logpθ(x|f(y))-KL[qΘ(z|x,F(y))||pθ(z|x,F(y))]≤logpθ(x|f(y))-KL[qΘ(z|x,F(y))||pθ(z|f(y))]
其中,f(·)表示本申请实施例中的简化分子线性输入规范(SimplifiedMolecular Input Line Entry System,SMILES)编码器,在一些实施例中,SMILES编码器与CVAE编码器在初始时共享参数。通过f(·)将侧链y映射到embedding空间,并与碎片x进行SMILES解码计算。相对熵(KullbackLeibler,KL)表示散度计算。θ和Θ为模型参数,也即在训练过程中待优化的参数。pθ(x|f(y))表示以f(y)为条件的条件概率分布,KL[qΘ(z|x,F(y))||p8(z|x,f(y))]表示qΘ高斯分布和pθ高斯分布之间的离散度,z表示特征映射的特征空间,通过拉近qΘ高斯分布和pθ高斯分布实现对模型参数的训练。
在样本分子输入至分子重构模型610后,根据输出的分子片段与样本分子的碎片片段之间的散度对模型参数进行训练,从而优化分子重构模型610从分子结构中提取的向量表达,即上述第一片段向量621和第二片段向量622,即优化编码器;以及优化由向量表达转化为分子片段的过程,即优化解码器。
值得注意的是,上述预训练过程中应用的样本分子是无靶点约束的分子。
而在微调过程中,是基于目标靶点进行有针对性的训练,也即输入对目标靶点有活性的分子进行拆分并对模型进行进一步训练,使得分子重构模型610重构得到的分子更倾向于与目标靶点的活性分子相像的分子。其中,微调过程中对模型参数的调整方式与预训练过程中对模型参数的调整方式相同,区别在于数据集由公共数据库切换为对目标靶点具有活性的分子数据集。
(二)应用过程
示意性的,请参考图7,其示出了本申请一个示例性实施例提供的分子重构过程示意图,如图7所示,首先将参考分子700输入至训练好的分子重构模型710中,其中,参考分子700中包括碎片片段721和侧链片段722,在输入分子重构模型710前对参考分子700进行拆分,或者由分子重构模型710对参考分子700进行拆分,从而通过编码器711对参考分子700中的碎片片段721进行编码,得到碎片片段721对应的片段向量730,并由解码器712对片段向量730进行解码,得到用于替换碎片片段721的候选片段740。其中,在编码器711对参考分子700进行编码的过程中,以侧链片段722作为结构条件对碎片片段721的特征映射进行约束,从而得到片段向量730,而片段向量730还需要通过预设扰动规则施加扰动,从而进行片段结构上的改变,在片段向量730在高斯空间中的附近确定扰动后的向量,示意性的,预设扰动规则为在预设的扰动范围内对片段向量730的特征值进行调整。将侧链片段722与候选片段740拼接后,得到最终的重构分子750。
其中,在一些实施例中,应用过程中还包括候选片段740的筛选过程,以及重构分子750的筛选过程,在后续实施例中进行说明。
值得注意的是,上述分子重构模型还可以实现为基于自然语言处理的模型,或者基于图结构的模型等,本申请实施例对模型的具体实现方式不加以限定。
值得注意的是,在一些实施例中,上述针对片段向量施加的扰动是在应用过程中执行的,在对分子重构模型的训练过程中,不针对片段向量施加扰动。
在一些实施例中,分子重构模型预测得到候选片段后,还需要对候选片段进行筛选。图8是本申请另一个示例性实施例提供的分子结构的重建方法的流程图,以该方法由计算机设备执行为例进行说明,如图8所示,该方法包括:
步骤801,获取参考分子,参考分子为针对目标靶点产生活性的分子。
本实施例中,以医疗领域为例进行说明,参考分子为针对目标靶点的分子,也即参考分子能够在目标靶点处产生活性,从而在目标靶点产生药物作用。而本申请实施例中,需要在参考分子的基础上进行结构上的重建,从而生成与参考分子在结构上不同,而活性作用上相同或者相似的分子,即,重构后的分子也是针对目标靶点产生活性的分子。
步骤802,对参考分子进行结构拆分,得到与参考分子对应的至少一组分子片段组。
在一些实施例中,在对参考分子进行结构拆分时,需要基于预设拆分规则。
也即,首先获取预设拆分规则,该预设拆分规则中包括骨架拆分规则和可旋转键拆分规则中的至少一种。其中,预设拆分规则对应的拆分方式在上述步骤102中已进行了详细说明,此处不再赘述。
步骤803,对分子片段组进行特征分析,得到用于替换碎片片段的候选片段。
将分子片段组输入至分子重构模型后,由分子重构模型中的编码器以侧链片段编码后的特征作为结构条件,对分子片段组中的碎片片段进行编码,得到编码向量,并对编码向量进行扰动后,由分子重构模型中的解码器对编码向量进行解码,得到用于替换碎片片段的候选片段。
步骤804,基于预设筛选规则对候选片段进行筛选。
在一些实施例中,预设筛选规则中包括合法性筛选规则、唯一性筛选规则、重原子数筛选规则、环筛选规则中的至少一种。
其中,合法性筛选规则是指保留符合SMILES合法性的候选片段,删除不合法的候选片段。其中,SMILES规范是一种用美国信息交换标准代码(American Standard Code forInformation Interchange,ASCII)字符串明确描述分子结构的规范,也即生成的候选片段需要符合SMILES规范。在一些实施例中,SMILES规范规定了分子结构的语法规则,示意性的,4价态的氮(N)原子位,拼接了5个键时,则不符合SMILES规范。
唯一性筛选规则是指将多个候选片段中重复的片段进行去重,确保每个候选片段与其他候选片段之间不存在重复情况。在一些实施例中,由于基于一组分子片段组能够得到一个或者多个候选片段,当一组分子片段组能够得到多个候选片段时,唯一性筛选规则针对一组分子片段组预测得到的候选片段进行;或者,针对所有分子片段组预测得到的候选片段进行。
重原子数筛选规则是指根据需要重构的分子选定重原子数范围,从而对生成的候选片段进行筛选。通常,重原子数范围是根据参考分子本身具有的重原子数确定的,示意性的,参考分子中包括12个重原子数,则在一些实施例中,将需要重构的分子的重原子数范围定位9-15个,根据重原子数范围的要求对候选片段进行筛选,滤除重原子数不符合重原子数范围的候选片段。
在一些实施例中,还需要通过环筛选规则对候选片段进行筛选。示意性的,在上述筛选结束后,可选择地进对生成片段集合中的候选片段进行进一步筛选,包括只保留包含有环(ring)或者芳香环(aromatic ring)的片段。可选地,在环筛选规则中还包括对ring数量的要求,或者对aromatic ring数量的要求等等。
步骤805,基于筛选后得到的留存片段和侧链片段生成重建分子。
重建分子为新生成的针对目标靶点产生活性的分子。在一些实施例中,由于结构相似的分子能够针对同一个靶点产生活性的概率较大,故还需要获取留存片段与碎片片段的片段相似度,保留相似度最高的q个留存片段,与侧链片段生成重建分子,q为正整数。
其中,片段相似度是指留存片段与碎片片段在三维(3-Dimension,3D)结构上的相似度。也即,在获得生成的候选片段并筛选得到大量留存片段后,需要确保留存片段尽量与参考分子中需要修改的部分(即碎片片段部分)接近,从而分子保持活性。在一些实施例中,使用化学信息软件包RDKit工具或者其他3D相似度计算工具计算候选片段(或者筛选后得到的留存片段)与参考片段(也即参考分子中的碎片片段)的3D相似度,并提取相似度最高的q个进行进一步的拼接,最终得到重建分子。
综上所述,本申请实施例提供的分子结构的重建方法,通通过对参考分子进行结构拆分,得到碎片片段和侧链片段,从而以侧链片段作为结构条件对替换碎片片段的新分子片段结构进行预测,得到候选片段,也即将分子切分开并学习相关片段的构造规律,利用新生成的候选片段来替换掉原有分子上的碎片片段来达到分子的修改,由于根据结构条件所能够生成的候选片段的数量较大,故提高了新生成的分子与已有分子结构不同的概率,从而提高了分子重构的成功率。
本实施例提供的方法,通过对候选片段的筛选,过滤掉不合法或者重复的片段,以及根据重原子范围要求过滤掉不符合重原子数要求的片段,通过一步步的筛选将候选片段中符合基础要求的片段保留,从而删除不符合要求的片段,避免了后续生成的重建分子的数量过大而其中存在片段不合法的分子无法过滤导致的分子重建效率低的问题。
本实施例提供的方法,通过对候选片段与碎片片段进行3D相似度的计算,确保保留的候选片段与参考分子中需要修改的碎片片段在3D结构上尽量接近,易保持活性。
在一些实施例中,在基于候选片段和侧链片段生成重建分子时,还需要进行分子筛选。图9是本申请另一个示例性实施例提供的分子结构的重建方法的流程图,以该方法由计算机设备执行为例进行说明,如图9所示,该方法包括:
步骤901,获取参考分子,参考分子为针对目标靶点产生活性的分子。
本实施例中,以医疗领域为例进行说明,参考分子为针对目标靶点的分子,也即参考分子能够在目标靶点处产生活性,从而在目标靶点产生药物作用。而本申请实施例中,需要在参考分子的基础上进行结构上的重建,从而生成与参考分子在结构上不同,而活性作用上相同或者相似的分子,即,重构后的分子也是针对目标靶点产生活性的分子。
步骤902,对参考分子进行结构拆分,得到与参考分子对应的至少一组分子片段组。
在一些实施例中,在对参考分子进行结构拆分时,需要基于预设拆分规则。
也即,首先获取预设拆分规则,该预设拆分规则中包括骨架拆分规则和可旋转键拆分规则中的至少一种。其中,预设拆分规则对应的拆分方式在上述步骤302中已进行了详细说明,此处不再赘述。
步骤903,对分子片段组进行特征分析,得到用于替换碎片片段的候选片段。
将分子片段组输入至分子重构模型后,由分子重构模型中的编码器以侧链片段作为结构条件,对分子片段组中的碎片片段进行编码,得到编码向量,从而由分子重构模型中的解码器以侧链片段作为结构条件对编码向量进行解码,得到用于替换碎片片段的候选片段。
值得注意的是,本实施例中,以候选片段为例进行说明,在一些实施例中,候选片段也可以结合如图8示出的实施例提供的方案,实现为经过筛选后得到的留存片段,也即先对候选片段进行筛选后,将留存片段与后续侧链片段进行拼接,本申请实施例对此不加以限定。
步骤904,将候选片段和侧链片段进行拼接,得到n个候选分子,n为正整数。
在一些实施例中,将参考分子中需要修改的部分(如:原始的骨架)删除后,将原先与骨架连接的部分与候选片段上的任意H原子位进行对接,并保证其SMILES合法性,从而生成新的分子,即上述n个候选分子。
示意性的,请参考图10,其示出了本申请一个示例性实施例提供的分子位点拼接方式示意图,如图10所示,针对参考分子1000拆分得到碎片片段1010和侧链片段1020,通过分子重构模型生成候选片段1030后,将候选片段1030与侧链片段1020进行拼接,得到拼接结果1040,其中,包括侧链片段1020与候选片段1030中不同可拼接氢键拼接的结果。
步骤905,基于预设分子库对n个候选分子进行筛选,得到重建分子。
重建分子为新生成的针对目标靶点产生活性的分子。
在一些实施例中,基于预设分子库对n个候选分子进行筛选,得到预设分子库中不包含的m个候选分子,0≤m≤n;从而从m个候选分子中确定重建分子。
在一些实施例中,对拼接好的候选分子以规避预设分子库中的已有分子为目标进行筛选,将被包含在预设分子库中的分子去掉,可选地,该预设分子库包括专利库或者专利骨架集合,在一些实施例中,预设分子库还可以是针对目标靶点设置的分子库,本申请实施例对筛选方式不加以限定。
在一些实施例中,对候选分子的筛选过程还包括通过计算机设备实现的药化性质的筛选过程。也即,对生成的候选分子进行药化性质的筛选,示意性的,具体的筛选细节包括:1、迷你型囊式过滤器(Mini Capsule Filter,MCF),主要除去含有活泼基团或者毒性基团的候选分子;2、候选分子的理化性质,例如:候选分子需要符合分子重量(MolecularWeight,MW)≤550,水溶性在[-5,6]区间内,分子拓扑极性表面积≤120,可旋转键数<10,氢键受体数量在[0,10]区间内,氢键供体数量在[0,5]区间内等条件。
在一些实施例中,从m个候选分子中确定重建分子时,获取m个候选分子与参考分子分别对应的m个分子相似度,其中,第i个候选分子对应第i个分子相似度,i为正整数;从分子相似度最高的k个候选分子中确定出重建分子,0<k<m。
也即,在获得过滤后的候选分子后,为了有更高的概率能够筛选出有活性的分子,故要求候选分子与参考分子需要尽量接近,从而更易保持活性。因此,使用RDKit工具或者其他3D相似度计算工具计算候选分子与参考分子的3D相似度,并提取相似度最高的k个候选分子进行后续生成重建分子的流程。
在一些实施例中,对于候选分子的筛选还可以利用蛋白质口袋信息提取生成的候选分子的关键作用力,筛选掉不包含参考分子作用力的分子;接着利用分子活性预测模型,输入蛋白质口袋信息和生成的候选分子,输出PIC50活性数值,对候选分子进行排序,从而达到筛选的目的。
综上所述,本申请实施例提供的分子结构的重建方法,通过对参考分子进行结构拆分,得到碎片片段和侧链片段,从而以侧链片段作为结构条件对替换碎片片段的新分子片段结构进行预测,得到候选片段,也即将分子按照环结构切分开并学习相关片段的构造规律,利用新生成的候选片段来替换掉原有分子上的碎片片段来达到分子的修改,其生成的分子能够大概率跳出已有分子结构的结构规律,从而提高了分子重构的成功率。
本实施例提供的方法,在生成候选分子后,通过多层筛选机制对候选分子进行筛选,从而在筛选后得到的候选分子中确定出重构分子,避免从大量候选分子中确定重构分子而导致的人工筛选过程较为繁琐的问题。
示意性的,图11是本申请一个示例性实施例提供的分子重构方法的整体流程图,如图11所示,该过程中包括:
步骤1101,预训练过程。
预训练过程是指通过对公共数据库中的分子对结构条件变分自编码器模型进行学习,从而令模型能够更好地学习到一个分子的向量表达。公共数据库以SMILES形式记录类药分子。
预训练过程中,通过两种拆分方法中的至少一种对样本分子进行拆分并获得骨架与侧链对。将拆分后的骨架与侧链对作为训练数据输入到结构条件变分自编码器模型中,从而完成一个模型训练的任务。
步骤1102,微调过程。
在微调过程中,输入对目标靶点有活性的样本分子进行拆分并进一步的对模型进行训练(训练方式与预训练过程相同,输入数据集由公共数据库变成了对目标靶点有活性的分子数据集),令生成的分子更倾向于是与目标靶点活性分子相像的分子。
微调过程结束后,通过训练得到的模型即可以对参考分子进行片段预测,得到候选片段。
步骤1103,片段大小筛选过程。
可选地,对生成的候选片段集合进行SMILES合法化和唯一化处理,去掉不合法的和重复的片段,接着根据选定的重原子范围,对生成的候选片段进行筛选,去掉在重原子范围外的候选片段。
步骤1104,分子环数、结构性质筛选过程。
根据分子环数或者芳香环数对候选分子进行筛选;或者,根据分子结构的性质对候选分子进行筛选。
步骤1105,片段3D相似度计算过程。
获得大量候选片段后,要求候选片段与参考分子中需要修改的部分尽量接近,这样更容易保持活性。因此,使用RDKit计算生成片段与参考片段的3D相似度,并提取q个相似度最高的候选片段进行进一步的拼接。
步骤1106,分子片段拼接过程。
将参考分子中需要修改的部分(原始骨架)删除后,将原先与原始骨架链接的部分与候选片段上的任意H原子位进行对接,并保证其SMILES合法性,从而生成新的分子。
步骤1107,预设分子库过滤过程。
对拼接好的候选分子进行规避预设分子库的筛选,将被包含在预设分子库中的分子去掉。
步骤1108,药化性质参数筛选过程。
对生成的候选分子进行药化性质的筛选,示意性的,具体的筛选细节包括:1、迷你型囊式过滤器(Mini Capsule Filter,MCF),主要除去含有活泼基团或者毒性基团的候选分子;2、候选分子的理化性质,例如:候选分子需要符合MW≤550,水溶性在[-5,6]区间内,分子拓扑极性表面积≤120,可旋转键数<11,氢键受体数量在[0,11]区间内,氢键供体数量在[0,5]区间内等条件。
步骤1109,分子3D相似度计算过程。
在获得过滤后的候选分子后,为了有更高的概率能够筛选出有活性的分子,故要求候选分子与参考分子需要尽量接近,从而更易保持活性。使用RDKit工具或者其他3D相似度计算工具计算候选分子与参考分子的3D相似度,并提取top k个候选分子进行后续生成重建分子的流程。
步骤1110,关键作用力筛选和虚拟筛选过程。
对于候选分子的筛选还可以利用蛋白质口袋信息提取生成的候选分子的关键作用力,筛选掉不包含参考分子作用力的分子;接着利用分子活性预测模型,输入蛋白质口袋信息和生成的候选分子,输出PIC50活性数值,对候选分子进行排序,从而达到筛选的目的。
步骤1111,虚拟检查过程。
在一些实施例中,对经过层层筛选留下的候选分子进行手动筛选。
步骤1112,得到重构的优选分子。
通常,从候选分子中筛选得到几十个候选分子作为优选分子。
综上所述,本申请实施例提供的分子结构的重建方法,通过对参考分子进行结构拆分,得到碎片片段和侧链片段,从而以侧链片段作为结构条件对替换碎片片段的新分子片段结构进行预测,得到候选片段,也即将分子切分开并学习相关片段的构造规律,利用新生成的候选片段来替换掉原有分子上的碎片片段来达到分子的修改,由于根据结构条件所能够生成的候选片段的数量较大,故提高了新生成的分子与已有分子结构不同的概率,从而提高了分子重构的成功率。
图12是本申请一个示例性实施例提供的分子结构的重建装置的结构示意图,如图12所示,该装置包括:
获取模块1210,用于获取参考分子,所述参考分子为针对目标靶点产生活性的分子;
拆分模块1220,用于对所述参考分子进行结构拆分,得到与所述参考分子对应的至少一组分子片段组,所述分子片段组中包括所述参考分子的碎片片段以及与所述碎片片段对应的侧链片段;
生成模块1230,用于对所述分子片段组进行特征分析,得到用于替换所述碎片片段的候选片段;
所述生成模块1230,还用于基于所述候选片段和所述侧链片段生成重建分子,所述重建分子为新生成的针对所述目标靶点产生活性的分子。
在一个可选的实施例中,所述获取模块1210,还用于获取预设拆分规则,所述预设拆分规则中包括骨架拆分规则和可旋转键拆分规则中的至少一种;
所述拆分模块1220,还用于基于预设拆分规则对所述参考分子进行结构拆分,得到与所述参考分子对应的至少一组分子片段组。
在一个可选的实施例中,所述预设拆分规则中包括所述骨架拆分规则;
所述拆分模块1220,还用于从所述参考分子中抽出符合骨架要求的骨架结构;将所述骨架结构从所述参考分子中删除,得到与所述骨架结构对应的侧链结构;将所述骨架结构作为所述碎片片段,将所述侧链结构作为所述侧链片段,得到与所述参考分子对应的所述至少一组分子片段组。
在一个可选的实施例中,所述拆分模块1220,还用于从所述参考分子中抽出一级骨架结构,所述一级骨架结构为所述参考分子中的最大骨架结构;从所述一级骨架结构中抽出二级骨架结构;从所述一级骨架结构和所述二级骨架结构中确定出符合所述骨架要求的所述骨架结构。
在一个可选的实施例中,所述骨架要求包括环数要求、重原子数要求和可旋转键要求中的至少一种;
所述拆分模块1220,还用于响应于所述骨架要求包括所述环数要求,从所述参考分子中抽出环数在环数要求范围内的所述骨架结构;
所述拆分模块1220,还用于响应于所述骨架要求包括所述重原子数要求,从所述参考分子中抽出重原子数在重原子数要求范围内的所述骨架结构;
所述拆分模块1220,还用于响应于所述骨架要求包括所述可旋转键要求,从所述参考分子中抽出可旋转键数量在可旋转键数要求范围内的所述骨架结构。
在一个可选的实施例中,所述预设拆分规则中包括所述可旋转键拆分规则;
所述拆分模块1220,还用于将所述参考分子从所述可旋转键处断开,得到符合碎片要求的所述碎片片段;将所述碎片片段从所述参考分子中删除,得到所述侧链片段;基于所述碎片片段和所述侧链片段得到与所述参考分子对应的至少一组分子片段组。
在一个可选的实施例中,每个碎片片段中包括碎片骨架,所述碎片要求中包括碎片基础要求和碎片骨架要求中的至少一种;
所述碎片基础要求中包括碎片环数要求、碎片原子数要求、碎片可旋转键要求以及碎片结构要求中的至少一种;
所述碎片骨架要求中包括对所述碎片骨架的骨架原子数要求和骨架可旋转键要求中的至少一种。
在一个可选的实施例中,如图13所示,所述生成模块1230,包括:
筛选单元1231,用于基于预设筛选规则对所述候选片段进行筛选,所述预设筛选规则中包括合法性筛选规则、唯一性筛选规则、重原子数筛选规则、环筛选规则中的至少一种;
生成单元1232,用于基于筛选后得到的留存片段和所述侧链片段生成所述重建分子。
在一个可选的实施例中,所述获取模块1210,还用于获取所述留存片段和所述碎片片段的片段相似度;
所述生成单元1232,还用于保留片段相似度最高的q个留存片段,与所述侧链片段生成所述重建分子,q为正整数。
在一个可选的实施例中,所述生成模块1230,还用于将所述分子片段组输入分子重构模型;通过所述分子重构模型对所述分子片段组进行特征分析,输出得到用于替换所述碎片片段的所述候选片段。
在一个可选的实施例中,所述分子重构模型中包括编码器和解码器;
所述生成模块1230,还用于基于所述侧链片段通过所述编码器对所述碎片片段进行编码,得到片段特征;通过预设扰动规则对所述片段特征施加扰动,得到扰动特征;通过所述解码器对所述扰动特征进行解码,生成用于替换所述碎片片段的所述候选片段。
在一个可选的实施例中,所述生成模块1230,还用于将所述侧链片段映射至特征空间,得到侧链空间特征;以所述侧链空间特征作为结构条件,通过所述编码器对所述碎片片段进行编码,得到所述片段特征。
在一个可选的实施例中,所述生成模块1230,还用于对所述碎片片段进行编码,得到编码特征;以所述侧链空间特征作为结构条件,将所述编码特征映射至所述特征空间,得到片段特征。
在一个可选的实施例中,所述分子重构模型中包括模型参数;
所述获取模块1210,还用于获取样本分子,所述样本分子能够拆分为至少一组样本碎片和样本侧链;
所述装置还包括:
训练模块1240,用于通过所述分子重构模型对所述样本分子进行特征分析,输出得到用于替换所述样本碎片的重构碎片;以所述样本碎片与所述重构碎片之间的差异度对所述模型参数进行调整。
在一个可选的实施例中,训练模块1240,还用于以所述样本碎片与所述重构碎片在特征空间中映射的离散度,对所述模型参数进行调整,所述特征空间是由所述模型参数确定的。
在一个可选的实施例中,所述生成模块1230,包括:
拼接单元1233,用于将所述候选片段上的氢原子位与所述侧链片段进行拼接,得到n个候选分子,n为正整数;
筛选单元1231,用于基于预设分子库对所述n个候选分子进行筛选,得到所述重建分子。
在一个可选的实施例中,所述筛选单元1231,还用于基于所述预设分子库对所述n个候选分子进行筛选,得到所述预设分子库中不包含的m个候选分子,0≤m≤n;
所述生成模块1230,还包括:
生成单元1232,用于从所述m个候选分子中确定所述重建分子。
在一个可选的实施例中,所述生成单元1232,还用于获取所述m个候选分子与所述参考分子分别对应的m个分子相似度,其中,第i个候选分子对应第i个分子相似度,i为正整数;从分子相似度最高的k个所述候选分子中确定出所述重建分子,0<k<m。
综上所述,本申请实施例提供的分子结构的重建装置,通过对参考分子进行结构拆分,得到碎片片段和侧链片段,从而以侧链片段作为结构条件对替换碎片片段的新分子片段结构进行预测,得到候选片段,也即将分子切分开并学习相关片段的构造规律,利用新生成的候选片段来替换掉原有分子上的碎片片段来达到分子的修改,由于根据结构条件所能够生成的候选片段的数量较大,故提高了新生成的分子与已有分子结构不同的概率,从而提高了分子重构的成功率。
需要说明的是:上述实施例提供的分子结构的重建装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的分子结构的重建装置,与分子结构的重建方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图14示出了本申请一个示例性实施例提供的计算机设备的结构示意图,该计算机设备可以实现为服务器或者终端。具体来讲:
计算机设备1400包括中央处理单元(Central Processing Unit,CPU)1401、包括随机存取存储器(Random Access Memory,RAM)1402和只读存储器(Read Only Memory,ROM)1403的系统存储器1404,以及连接系统存储器1404和中央处理单元1401的系统总线1405。计算机设备1400还包括用于存储操作系统1413、应用程序1414和其他程序模块1415的大容量存储设备1406。
大容量存储设备1406通过连接到系统总线1405的大容量存储控制器(未示出)连接到中央处理单元1401。大容量存储设备1406及其相关联的计算机可读介质为计算机设备1400提供非易失性存储。也就是说,大容量存储设备1406可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1404和大容量存储设备1406可以统称为存储器。
根据本申请的各种实施例,计算机设备1400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1400可以通过连接在系统总线1405上的网络接口单元1411连接到网络1412,或者说,也可以使用网络接口单元1411来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的分子结构的重建方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的分子结构的重建方法。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的分子结构的重建方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (21)
1.一种分子结构的重建方法,其特征在于,所述方法包括:
获取参考分子,所述参考分子为针对目标靶点产生活性的分子;
对所述参考分子进行结构拆分,得到与所述参考分子对应的至少一组分子片段组,所述分子片段组中包括所述参考分子的碎片片段以及与所述碎片片段对应的侧链片段;
对所述分子片段组进行特征分析,得到用于替换所述碎片片段的候选片段;
基于所述候选片段和所述侧链片段生成重建分子,所述重建分子为新生成的针对所述目标靶点产生活性的分子。
2.根据权利要求1所述的方法,其特征在于,所述对所述参考分子进行结构拆分,得到与所述参考分子对应的至少一组分子片段组,包括:
获取预设拆分规则,所述预设拆分规则中包括骨架拆分规则和可旋转键拆分规则中的至少一种;
基于预设拆分规则对所述参考分子进行结构拆分,得到与所述参考分子对应的至少一组分子片段组。
3.根据权利要求2所述的方法,其特征在于,所述预设拆分规则中包括所述骨架拆分规则;
所述基于预设拆分规则对所述参考分子进行结构拆分,得到与所述参考分子对应的至少一组分子片段组,包括:
从所述参考分子中抽出符合骨架要求的骨架结构;
将所述骨架结构从所述参考分子中删除,得到与所述骨架结构对应的侧链结构;
将所述骨架结构作为所述碎片片段,将所述侧链结构作为所述侧链片段,得到与所述参考分子对应的所述至少一组分子片段组。
4.根据权利要求3所述的方法,其特征在于,所述从所述参考分子中抽出符合骨架要求的骨架结构,包括:
从所述参考分子中抽出一级骨架结构,所述一级骨架结构为所述参考分子中的最大骨架结构;
从所述一级骨架结构中抽出二级骨架结构;
从所述一级骨架结构和所述二级骨架结构中确定出符合所述骨架要求的所述骨架结构。
5.根据权利要求3所述的方法,其特征在于,所述骨架要求包括环数要求、重原子数要求和可旋转键要求中的至少一种;
所述从所述参考分子中抽出符合骨架要求的骨架结构,包括:
响应于所述骨架要求包括所述环数要求,从所述参考分子中抽出环数在环数要求范围内的所述骨架结构;
响应于所述骨架要求包括所述重原子数要求,从所述参考分子中抽出重原子数在重原子数要求范围内的所述骨架结构;
响应于所述骨架要求包括所述可旋转键要求,从所述参考分子中抽出可旋转键数量在可旋转键数要求范围内的所述骨架结构。
6.根据权利要求2所述的方法,其特征在于,所述预设拆分规则中包括所述可旋转键拆分规则;
所述基于预设拆分规则对所述参考分子进行结构拆分,得到与所述参考分子对应的至少一组分子片段组,包括:
将所述参考分子从所述可旋转键处断开,得到符合碎片要求的所述碎片片段;
将所述碎片片段从所述参考分子中删除,得到所述侧链片段;
基于所述碎片片段和所述侧链片段得到与所述参考分子对应的至少一组分子片段组。
7.根据权利要求6所述的方法,其特征在于,每个碎片片段中包括碎片骨架,所述碎片要求中包括碎片基础要求和碎片骨架要求中的至少一种;
所述碎片基础要求中包括碎片环数要求、碎片原子数要求、碎片可旋转键要求以及碎片结构要求中的至少一种;
所述碎片骨架要求中包括对所述碎片骨架的骨架原子数要求和骨架可旋转键要求中的至少一种。
8.根据权利要求1至7任一所述的方法,其特征在于,所述对所述分子片段组进行特征分析,得到用于替换所述碎片片段的候选片段,包括:
将所述分子片段组输入分子重构模型;
通过所述分子重构模型对所述分子片段组进行特征分析,输出得到用于替换所述碎片片段的所述候选片段。
9.根据权利要求8所述的方法,其特征在于,所述分子重构模型中包括编码器和解码器;
所述通过所述分子重构模型对所述分子片段组进行特征分析,输出得到用于替换所述碎片片段的所述候选片段,包括:
基于所述侧链片段通过所述编码器对所述碎片片段进行编码,得到片段特征;
通过预设扰动规则对所述片段特征施加扰动,得到扰动特征;
通过所述解码器对所述扰动特征进行解码,生成用于替换所述碎片片段的所述候选片段。
10.根据权利要求9所述的方法,其特征在于,所述基于所述侧链片段通过所述编码器对所述碎片片段进行编码,得到片段特征,包括:
将所述侧链片段映射至特征空间,得到侧链空间特征;
以所述侧链空间特征作为结构条件,通过所述编码器对所述碎片片段进行编码,得到所述片段特征。
11.根据权利要求10所述的方法,其特征在于,所述以所述侧链空间特征作为结构条件,通过所述编码器对所述碎片片段进行编码,得到所述片段特征,包括:
对所述碎片片段进行编码,得到编码特征;
以所述侧链空间特征作为结构条件,将所述编码特征映射至所述特征空间,得到片段特征。
12.根据权利要求8所述的方法,其特征在于,所述分子重构模型中包括模型参数;
所述分子重构模型的训练过程包括:
获取样本分子,所述样本分子能够拆分为至少一组样本碎片和样本侧链;
通过所述分子重构模型对所述样本分子进行特征分析,输出得到用于替换所述样本碎片的重构碎片;
以所述样本碎片与所述重构碎片之间的差异度对所述模型参数进行调整。
13.根据权利要求12所述的方法,其特征在于,所述以所述样本碎片与所述重构碎片之间的差异度对所述模型参数进行调整,包括:
以所述样本碎片与所述重构碎片在特征空间中映射的离散度,对所述模型参数进行调整,所述特征空间是由所述模型参数确定的。
14.根据权利要求1至7任一所述的方法,其特征在于,所述基于所述候选片段和所述侧链片段生成重建分子,包括:
基于预设筛选规则对所述候选片段进行筛选,所述预设筛选规则中包括合法性筛选规则、唯一性筛选规则、重原子数筛选规则、环筛选规则中的至少一种;
基于筛选后得到的留存片段和所述侧链片段生成所述重建分子。
15.根据权利要求14所述的方法,其特征在于,所述基于筛选得到后的留存片段和所述侧链片段生成所述重建分子,包括:
获取所述留存片段和所述碎片片段的片段相似度;
保留片段相似度最高的q个留存片段,与所述侧链片段生成所述重建分子,q为正整数。
16.根据权利要求1至7任一所述的方法,其特征在于,所述基于所述候选片段和所述侧链片段生成重建分子,包括:
将所述候选片段上的氢原子位与所述侧链片段进行拼接,得到n个候选分子,n为正整数;
基于预设分子库对所述n个候选分子进行筛选,得到所述重建分子。
17.根据权利要求16所述的方法,其特征在于,所述基于预设分子库对所述n个候选分子进行筛选,得到所述重建分子,包括;
基于所述预设分子库对所述n个候选分子进行筛选,得到所述预设分子库中不包含的m个候选分子,0≤m≤n;
从所述m个候选分子中确定所述重建分子。
18.根据权利要求17所述的方法,其特征在于,所述从所述m个候选分子中确定所述重建分子,包括:
获取所述m个候选分子与所述参考分子分别对应的m个分子相似度,其中,第i个候选分子对应第i个分子相似度,i为正整数;
从分子相似度最高的k个所述候选分子中确定出所述重建分子,0<k<m。
19.一种分子结构的重建装置,其特征在于,所述装置包括:
获取模块,用于获取参考分子,所述参考分子为针对目标靶点产生活性的分子;
拆分模块,用于对所述参考分子进行结构拆分,得到与所述参考分子对应的至少一组分子片段组,所述分子片段组中包括所述参考分子的碎片片段以及与所述碎片片段对应的侧链片段;
生成模块,用于对所述分子片段组进行特征分析,得到用于替换所述碎片片段的候选片段;
所述生成模块,还用于基于所述候选片段和所述侧链片段生成重建分子,所述重建分子为新生成的针对所述目标靶点产生活性的分子。
20.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如权利要求1至18任一所述的分子结构的重建方法。
21.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如权利要求1至18任一所述的分子结构的重建方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110260462.7A CN115083539A (zh) | 2021-03-10 | 2021-03-10 | 分子结构的重建方法、装置、设备及可读存储介质 |
EP22766169.1A EP4266317A1 (en) | 2021-03-10 | 2022-02-28 | Method and apparatus for reconstructing molecular structure, and device, storage medium and program product |
PCT/CN2022/078182 WO2022188643A1 (zh) | 2021-03-10 | 2022-02-28 | 分子结构的重建方法、装置、设备、存储介质及程序产品 |
JP2023538920A JP2024500246A (ja) | 2021-03-10 | 2022-02-28 | 分子構造の再構成方法、装置、デバイス及びコンピュータプログラム |
US18/073,521 US20230098398A1 (en) | 2021-03-10 | 2022-12-01 | Molecular structure reconstruction method and apparatus, device, storage medium, and program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110260462.7A CN115083539A (zh) | 2021-03-10 | 2021-03-10 | 分子结构的重建方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115083539A true CN115083539A (zh) | 2022-09-20 |
Family
ID=83226351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110260462.7A Pending CN115083539A (zh) | 2021-03-10 | 2021-03-10 | 分子结构的重建方法、装置、设备及可读存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230098398A1 (zh) |
EP (1) | EP4266317A1 (zh) |
JP (1) | JP2024500246A (zh) |
CN (1) | CN115083539A (zh) |
WO (1) | WO2022188643A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409888A (zh) * | 2023-12-15 | 2024-01-16 | 宁德时代新能源科技股份有限公司 | 一种分子结构设计方法、装置、电子设备及存储介质 |
CN117831646A (zh) * | 2023-11-29 | 2024-04-05 | 重庆大学 | 一种基于分子片段化学空间解构的分子定向智能生成方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118197509B (zh) * | 2024-05-17 | 2024-08-06 | 烟台国工智能科技有限公司 | 一种聚合物建模分析方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010056329A1 (en) * | 1997-06-24 | 2001-12-27 | Andrew S. Smellie | Method and apparatus for conformationally analyzing molecular fragments |
TWI611053B (zh) * | 2012-02-27 | 2018-01-11 | 曾宇鳳 | 為先導藥物最適化之以結構為基礎的片段遷越及合成可行性之改良 |
CN109741798B (zh) * | 2018-12-25 | 2022-03-15 | 深圳晶泰科技有限公司 | 有机分子的立体异构全集自动化生成方法 |
CN111354424B (zh) * | 2020-02-27 | 2023-06-23 | 北京晶泰科技有限公司 | 一种潜在活性分子的预测方法、装置和计算设备 |
CN112116963A (zh) * | 2020-09-24 | 2020-12-22 | 深圳智药信息科技有限公司 | 自动药物设计方法、系统、计算设备及计算机可读存储介质 |
-
2021
- 2021-03-10 CN CN202110260462.7A patent/CN115083539A/zh active Pending
-
2022
- 2022-02-28 JP JP2023538920A patent/JP2024500246A/ja active Pending
- 2022-02-28 EP EP22766169.1A patent/EP4266317A1/en active Pending
- 2022-02-28 WO PCT/CN2022/078182 patent/WO2022188643A1/zh active Application Filing
- 2022-12-01 US US18/073,521 patent/US20230098398A1/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117831646A (zh) * | 2023-11-29 | 2024-04-05 | 重庆大学 | 一种基于分子片段化学空间解构的分子定向智能生成方法 |
CN117831646B (zh) * | 2023-11-29 | 2024-09-03 | 重庆大学 | 一种基于分子片段化学空间解构的分子定向智能生成方法 |
CN117409888A (zh) * | 2023-12-15 | 2024-01-16 | 宁德时代新能源科技股份有限公司 | 一种分子结构设计方法、装置、电子设备及存储介质 |
CN117409888B (zh) * | 2023-12-15 | 2024-04-16 | 宁德时代新能源科技股份有限公司 | 一种分子结构设计方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP4266317A1 (en) | 2023-10-25 |
US20230098398A1 (en) | 2023-03-30 |
WO2022188643A1 (zh) | 2022-09-15 |
JP2024500246A (ja) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115083539A (zh) | 分子结构的重建方法、装置、设备及可读存储介质 | |
CN112084331B (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN112734634B (zh) | 换脸方法、装置、电子设备和存储介质 | |
US11907675B2 (en) | Generating training datasets for training neural networks | |
JP6207733B2 (ja) | 人工知的エージェントまたはシステムを作成および実装するためのシステムおよび方法 | |
CN112348911B (zh) | 基于语义约束的堆叠文本生成细粒度图像方法及系统 | |
CN110929806B (zh) | 基于人工智能的图片处理方法、装置及电子设备 | |
CN116310667B (zh) | 联合对比损失和重建损失的自监督视觉表征学习方法 | |
CN116230074B (zh) | 蛋白质结构预测方法、模型训练方法、装置、设备及介质 | |
CN114550223B (zh) | 人物交互检测方法、装置及电子设备 | |
CN111783457A (zh) | 一种基于多模态图卷积网络的语义视觉定位方法及装置 | |
CN114201406B (zh) | 基于开源组件的代码检测方法、系统、设备及存储介质 | |
CN117371514A (zh) | 一种工控系统迁移学习模型建立方法、装置及存储介质 | |
CN114510609B (zh) | 结构数据的生成方法、装置、设备、介质及程序产品 | |
CN116975357A (zh) | 视频生成方法、装置、电子设备、存储介质及程序产品 | |
CN117648950A (zh) | 神经网络模型的训练方法、装置、电子设备及存储介质 | |
CN118018260A (zh) | 网络攻击的检测方法、系统、设备及介质 | |
Fatkhulin et al. | Analysis of the Basic Image Generation Methods by Neural Networks | |
US20220300807A1 (en) | Systems and methods for applying a transformer network to spatial data | |
CN116977502A (zh) | 运动重定向方法、装置、电子设备及计算机可读存储介质 | |
Wei et al. | NIDA-CLIFGAN: natural infrastructure damage assessment through efficient classification combining contrastive learning, information fusion and generative adversarial networks | |
CN114332561A (zh) | 超分辨率模型的训练方法、装置、设备及介质 | |
CN117787248B (zh) | 量子自注意力文本处理方法、装置、量子设备及存储介质 | |
Voeten et al. | The influence of context on the learning of metrical stress systems using finite-state machines | |
CN114373522B (zh) | 分子生成模型的训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40073631 Country of ref document: HK |