CN114171126A - 分子训练集的构建方法、训练方法及相关装置 - Google Patents
分子训练集的构建方法、训练方法及相关装置 Download PDFInfo
- Publication number
- CN114171126A CN114171126A CN202111250091.0A CN202111250091A CN114171126A CN 114171126 A CN114171126 A CN 114171126A CN 202111250091 A CN202111250091 A CN 202111250091A CN 114171126 A CN114171126 A CN 114171126A
- Authority
- CN
- China
- Prior art keywords
- force field
- training set
- target
- target molecule
- molecules
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000010276 construction Methods 0.000 title abstract description 10
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims description 14
- 239000000126 substance Substances 0.000 claims description 12
- 150000001875 compounds Chemical class 0.000 claims description 11
- 125000000524 functional group Chemical group 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 14
- 125000004429 atom Chemical group 0.000 description 28
- 238000010586 diagram Methods 0.000 description 7
- YNQLUTRBYVCPMQ-UHFFFAOYSA-N Ethylbenzene Chemical compound CCC1=CC=CC=C1 YNQLUTRBYVCPMQ-UHFFFAOYSA-N 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- ISWSIDIOOBJBQZ-UHFFFAOYSA-N Phenol Chemical compound OC1=CC=CC=C1 ISWSIDIOOBJBQZ-UHFFFAOYSA-N 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- RTZKZFJDLAIYFH-UHFFFAOYSA-N Diethyl ether Chemical compound CCOCC RTZKZFJDLAIYFH-UHFFFAOYSA-N 0.000 description 4
- 238000009510 drug design Methods 0.000 description 4
- UHOVQNZJYSORNB-UHFFFAOYSA-N Benzene Chemical compound C1=CC=CC=C1 UHOVQNZJYSORNB-UHFFFAOYSA-N 0.000 description 3
- YXFVVABEGXRONW-UHFFFAOYSA-N Toluene Chemical compound CC1=CC=CC=C1 YXFVVABEGXRONW-UHFFFAOYSA-N 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000000302 molecular modelling Methods 0.000 description 2
- 125000004430 oxygen atom Chemical group O* 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical group O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 1
- 150000001335 aliphatic alkanes Chemical group 0.000 description 1
- 150000001336 alkenes Chemical group 0.000 description 1
- 150000001345 alkine derivatives Chemical group 0.000 description 1
- 125000003118 aryl group Chemical group 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000002619 bicyclic group Chemical group 0.000 description 1
- 125000002915 carbonyl group Chemical group [*:2]C([*:1])=O 0.000 description 1
- 125000003178 carboxy group Chemical group [H]OC(*)=O 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 125000004093 cyano group Chemical group *C#N 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000012912 drug discovery process Methods 0.000 description 1
- 230000009881 electrostatic interaction Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- OUUQCZGPVNCOIJ-UHFFFAOYSA-N hydroperoxyl Chemical group O[O] OUUQCZGPVNCOIJ-UHFFFAOYSA-N 0.000 description 1
- ZHUXMBYIONRQQX-UHFFFAOYSA-N hydroxidodioxidocarbon(.) Chemical group [O]C(O)=O ZHUXMBYIONRQQX-UHFFFAOYSA-N 0.000 description 1
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 1
- 150000002466 imines Chemical class 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000324 molecular mechanic Methods 0.000 description 1
- 238000012900 molecular simulation Methods 0.000 description 1
- 125000002950 monocyclic group Chemical group 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 230000005610 quantum mechanics Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- -1 sulfo, amino Chemical group 0.000 description 1
- KBMBVTRWEAAZEY-UHFFFAOYSA-N trisulfane Chemical compound SSS KBMBVTRWEAAZEY-UHFFFAOYSA-N 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C10/00—Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/90—Programming languages; Computing architectures; Database systems; Data warehousing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种用于拟合通用力场的分子训练集的构建方法、训练方法及相关装置,该方法包括:获取目标分子库,所述目标分子库中包含多个目标分子;对所述目标分子库中的每个目标分子进行骨架分析,并将具有相同骨架的所述目标分子进行聚类;从每个所述骨架下挑选至少一个所述目标分子以构建所述分子训练集。通过上述方式,本申请能够避免通用力场拟合过程中大量冗余数据带来的噪音,提高了拟合的质量,同时也降低了计算资源和时间的消耗。
Description
技术领域
本申请涉及分子力场技术领域,特别是涉及一种分子训练集的构建方法、训练方法及其相关装置。
背景技术
使用分子模拟预测药物分子的理化性质,如结合自由能,透膜性,溶解度,已经成为现代药物设计中的一个强大工具。由于背后严格的物理模型以及能够模拟复杂的生物体系,分子模拟所带来的高精度预测能力已经吸引了人们越来越多的兴趣。在计算机辅助药物设计领域,无论是基于配体的药物设计,还是基于结构的药物设计,分子模拟都提供了完善的解决方案来加速药物发现过程。
本申请的发明人在长期的研发过程中发现复杂分子体系的模拟离不开高精度可靠的分子力场。生物分子体系的模拟往往需要模拟成千上万个原子,并且模拟的时间尺度需要从纳秒级到秒级。即使模拟最小的生物体系,纯量子力学虽然精度较高,但也由于及其昂贵的计算量而难以胜任。因此分子力场的开发是计算生物学及计算化学的重要目标。分子力场通过一些经验性的方程,如谐振子模型模拟键的伸缩,点电荷模型来模拟静电相互作用,来平衡计算精度与高计算量之间的矛盾。这些经验方程依赖于许多经验参数,通过调节这些经验参数,我们就能准确地描述生物分子体系的许多理化性质。现代的高精度通用力场,如薛定谔公司的OPLS3e,往往需要大量的训练集分子和计算资源来拟合力场,会消耗大量计算资源及时间。而其他学术力场,如GAFF(General Amber Force Field,通用Amber力场)、CHARMM(Chemistry at HARvard Macromolecular Mechanics,哈佛大学高分子化学力场),虽然训练集分子较少,但覆盖的化学空间不大,精度不高。
发明内容
本申请提供一种分子训练集的构建方法、训练方法及相关装置,能够通过选择更有代表性的分子来达到通过少量分子覆盖尽量大化化学空间,降低了通用力场拟合过程中大量计算资源及时间的消耗。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种分子训练集的构建方法,包括:
获取目标分子库,所述目标分子库中包含多个目标分子;对所述目标分子库中的每个目标分子进行骨架分析,并将具有相同骨架的所述目标分子进行聚类;从每个所述骨架下挑选至少一个所述目标分子以构建所述分子训练集。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种分子训练集,所述分子训练集为采用所述分子训练集的构建方法获得的。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种通用力场模型训练方法,采用所述分子训练集对所述通用力场模型进行训练。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种通用力场模型,所述通用力场模型为采用所述通用力场模型训练方法进行模型训练得到的。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种分子训练集的构建装置,包括:获取模块,用于获取目标分子库,所述目标分子库中包含多个目标分子;处理模块,与获取模块连接,用于对所述目标分子库中的每个目标分子进行骨架分析,并将具有相同骨架的所述目标分子进行聚类;挑选模块,与所述处理模块连接,用于从每个所述骨架下挑选至少一个所述目标分子以构建所述分子训练集。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种电子设备,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现上述任一实施例中所述的分子训练集的构建方法,或所述的通用力场模型训练方法。
为解决上述技术问题,本申请采用的又一技术方案是:提供一种存储装置,存储有能够被处理器运行的程序指令,所述程序指令用于实现上述任一实施例中所述的分子训练集的构建方法,或所述的通用力场模型训练方法。
区别于现有技术的情况,本申请的有益效果是:本申请通过获得目标分子库后,会对目标分子库中的每个分子进行骨架分析,且会将具有相同骨架的分子进行聚类;后续可以从每个骨架下挑选部分分子以构建训练集。上述构建方法可以在目标分子库中挑选更具有代表性的分子以构成训练集,实现以少量分子覆盖尽量大化学空间的目的,降低了通用力场拟合过程中大量计算资源及时间的消耗。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请分子训练集的构建方法一实施方式的流程示意图;
图2是图1中步骤S103之后对分子训练集进行更新的一实施方式流程示意图;
图3是本申请分子训练集的构建装置一实施方式的框架结构示意图;
图4是本申请电子设备一实施方式的结构示意图;
图5是本申请存储装置一实施方式的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1是本申请分子训练集的构建方法一实施方式的流程示意图,该方法包括:
步骤S101:获取目标分子库。
具体地,在本实施例中,上述步骤S101的具体实现过程可以包括:从网络数据库中随机选择部分化合物分子构建目标分子库,目标分子库中包含多个目标分子。可选地,在本实施例中,网络数据库可以为ChEMBL、eMolecule、PubChem等其他公开化合物库,挑选作为目标分子库的目标分子数量小于该公开化合物库中分子的总数量。
进一步,为了使目标分子库中所包含的目标分子尽可能包含多个原子类型,上述从网络数据库中随机选择部分化合物分子构建目标分子库的过程包括:根据预设化学官能团确定当前通用力场所需的原子类型;根据原子类型从网络数据库中选取部分化合物分子构建目标分子库。其中,原子类型是某种元素处在某一化学环境中的描述,原子类型可以通过被定义的中心原子及其周边有键连关系的其他原子共同描述定义。例如,常见化学官能团包括:烷烃,烯烃,炔烃,芳香基团,羟基,羰基,醚,羧基,巯基,硫醚,磺基,氨基,亚胺,氰基等。以氧原子为例,其原子类型包括羧基氧原子、羰基氧原子、羟基氧原子、醚键氧原子等。其中,一个分子中可以包括一个或多个原子类型。
可选地,根据原子类型来选取目标分子,可以是根据分子中包含的原子类型数量来选取目标分子。例如,可以从网络数据库中选取包含预设个数以上的原子类型的分子来作为目标分子,以构建目标分子库,即目标分子库中的每个目标分子均包含至少预设个数的原子类型。其中,预设个数可以是一固定值,如2、3、4或其他值;预设个数也可以根据实际应用需求进行适应性调整。
可选地,也可以将网络数据库中的分子按照原子类型划分为多个类别,从每个类别中随机挑选部分分子构建目标分子库。例如,可以从每个类别中随机挑选5个、10个等分子构建目标分子库。由于一个分子中可能包括多个原子类型,此时该分子可以被归类至多个类别下,从而可能会造成重复选取。进一步地,为了降低目标分子库中的分子重复率,当类别A下已经挑选出分子a,并且类别B中也含有分子a与其他分子,此时挑选类别B下分子a之外的分子放入目标分子库中;若当类别A下已经挑选出分子a,并且类别B中仅含有分子a时,此时将类别B中的a分子也放入目标分子库中。
步骤S102:对目标分子库中每个目标分子进行骨架分析,并将具有相同骨架的目标分子进行聚类。
其中,分子骨架可以看作是分子中的环结构以及连接环与环之间的链状结构的原子的集合。例如,当分子为单环结构时,该分子的骨架由环结构上的原子构成;当分子为双环结构时,该分子的骨架由两个环结构上的原子以及连接这两个环的原子构成;当分子包含不止两个环结构时,可以根据预设骨架获取策略从该分子中提取由单环结构构成的骨架,或者由双环结构构成的骨架,或者由三环结构构成的骨架,或者由全部环结构构成的骨架等等。
其中,不同的分子可以拥有相同骨架。相同骨架表示骨架结构相同,即构成骨架的原子集合相同。
具体地,上述步骤S102的具体实施过程可以为:
调用开源化学信息软件ScaffoldGraph,使用其中的scaffoldgraph.ScaffoldNetwork.from_smiles_file对目标分子进行骨架分析,该方法将目标分子聚类为一个分子骨架网络,该网络包括两种节点,一种为骨架节点,包含目标分子的基本骨架信息,可以通过ScaffoldNetwork.get_scaffold_nodes方法获得。另一种为分子节点,是将目标分子库中的所有目标分子按照其所含骨架聚类到所对应的骨架节点之下,可以通过ScaffoldNetwork.get_molecule_nodes方法获得。
其中,ScaffoldGraph软件可以用Rdkit、Scaffold Network Generator(SNG)或Scaffold Hunter软件替代。ScaffoldGraph支持smiles(Simplified Molecular InputLine Entry System,简化分子线性输入规范)格式,也支持sdf文件;Scaffold Hunter支持CSV文件,sdf文件和SQL数据库,以及其他用户自定义的方式输入分子;SNG支持smiles或者sdf文件;Rdkit支持smiles,sdf,mol,mol2,pdb等格式。
此外,若步骤S102所选用的软件不能支持步骤S101中获得的目标分子的格式,则在上述步骤S102之前还包括:将目标分子库中的目标分子转化为步骤S102中所选用的软件能够支持的相应的格式。例如,利用Rdkit工具,将数据库中的分子三维结构转化为smiles格式,简化了分子结构的描述,并支持相应的软件。如果从CheMBL中下载的分子本身是sdf文件,若采用的是支持sdf格式的软件,则可以直接使用而无需转化。
此外,在上述步骤S102之前,还可对目标分子库中的每个目标分子设置身份标识,其中,不同目标分子的身份标识不同。例如,使用Inchi Trust工具将3d化学结构转化为InChiKey,分子的身份标识,用来与其他目标分子做区分。后续在存储过程中可以直接存储分子的标识,以降低存储容量。可选地,也可以采用其他方式来区分不同目标分子,例如直接采用数字和/或字母进行编号来区分。
步骤S103:从每个骨架下挑选至少一个目标分子以构建分子训练集。
具体地,上述步骤S103的具体实现过程可以为:在骨架分析步骤完成后,目标分子库中的所有目标分子根据它们所包含的骨架被分配到对应的骨架节点下。因此,一个骨架节点下会包含多个目标分子,随机从骨架节点下挑选部分目标分子以构建分子训练集。其中,挑选目标分子的数量可以根据分子训练集的实际需求,从骨架节点下挑选一个或多个目标分子以构建分子训练集。
上述构建方法实现了建立目标分子库,并从目标分子库中挑选更具有代表性的分子以构成分子训练集,实现以少量分子覆盖尽量大化学空间的目的,降低了通用力场拟合过程中大量计算资源及时间的消耗。
请参阅图2,图2是图1中步骤S103之后对分子训练集进行更新的一实施方式流程示意图,该方法包括:
步骤S201:获取目标分子库所含的所有目标分子的第一力场参数合集,以及获取分子训练集中所包含的所有目标分子的第二力场参数合集。
具体地,力场参数合集由多个力场参数项组成,力场参数包括二面角、键长和键角中至少一种,力场参数是通过定义的原子类型,再分析分子中每个原子对应的原子类型所组成的键长和/或键角和/或二面角得到的。
此外,在本实施例中,分子训练集中所包含的分子属于目标分子库,故第二力场参数合集与第一力场参数合集相同,或者,第二力场参数合集与第一力场参数合集不同,且第二力场参数合集为第一力场参数合集的子集。
步骤S202:获取第一力场参数合集与第二力场参数合集之间的差异力场参数合集。
具体地,将步骤S201中的第二力场参数合集与第一力场参数合集进行比较,获得第二力场参数合集与第一力场参数合集之间的差异力场参数合集,差异力场参数合集中包含至少一个差异力场参数。
步骤S203:针对每个差异力场参数,从目标分子库中获取具有差异力场参数的目标分子添加至分子训练集中,以更新分子训练集。
其中,针对每个差异力场参数,从目标分子库中获取具有差异力场参数的目标分子添加至分子训练集中的步骤之前,还包括:针对每个第一力场参数,从目标分子库中获得具有第一力场参数的至少一个目标分子形成分子合集。
具体地,针对每个差异力场参数,获取与差异力场参数对应的分子合集,从分子合集中随机挑选部分目标分子添加至分子训练集中。其中,上述随机挑选的目标分子数量可以根据实际通用力场的拟合需求选取一个或多个目标分子。
上述步骤S201-步骤S203的方法,完成了对上述步骤S101-步骤S103中构建的分子训练集的进一步更新与完善,获得了最终用于通用力场拟合的代表性分子训练集。区别于现有技术,该代表性分子训练集避免了通用力场拟合过程中大量冗余数据带来的噪音,提高了拟合的质量,同时也降低了计算资源和计算时间的消耗。
举例而言,假设目标分子库包括了四个分子:苯、甲苯、乙基苯和苯酚。根据原子类型定义,目标分子库的第一力场参数集包括:c_3a/c_3a/c_4/h_1,c_3a/c_3a/c_4/c_4,c_3a/c_3a/o_2/h_1;假设经过步骤S103后分子训练集中仅有一个乙基苯分子,此时分子训练集的第二力场参数合集包括:c_3a/c_3a/c_4/h_1,c_3a/c_3a/c_4/c_4。经比对发现,第二力场参数合集相比第一力场参数合集缺少了力场参数c_3a/c_3a/o_2/h_1,这一参数项即为差异力场参数。为了使得代表性分子训练集能通过少量的分子来覆盖尽量大化学空间的目的,需要将从目标分子库中挑选包含差异力场参数项的分子放入代表性分子训练集中。目标分子库中的苯酚分子包含上述差异力场参数项,因此需要将苯酚分子也放入代表性分子训练集中,最终获得用于通用力场拟合的代表性分子训练集,包含乙基苯分子和苯酚分子。
在一个应用场景中,通过图1和图2的步骤获得代表性分子训练集,为了验证代表性分子训练集的拟合效果,请参阅下表1,表1为代表性分子训练集的拟合效果与目标分子库的拟合效果对比表。
具体地,分别在目标分子库和代表性分子训练集上做了通用力场拟合,并且在同一个测试集上进行验证。请参阅下表1,目标分子库有10万个分子,而代表性分子训练集仅使用了41775个分子。从拟合时间上来看,使用代表性分子训练集的拟合时间远少于使用目标分子库的拟合时间。从验证集上的表现来看,使用代表性分子训练集拟合的通用力场总体QM/MM能量偏差Edev只有0.99kcal/mol,优于目标分子库的1.02kcal/mol。在测试集上的QM/MM RMSE也显示,虽然只使用40%的分子来训练通用力场,得到的RMSE 1.21kcal/mol表现也好于使用全部目标分子库的1.23kcal/mol。最后,从QM/MM相关性R2来看,两者表现相当。总体来说,使用本发明的用于拟合通用力场的分子训练集的构建方法可以大大减少需要训练的分子数,从而减少拟合计算开销,同时仍然保证了力场的拟合效果。
表1:代表性分子训练集的拟合效果与目标分子库的拟合效果对比表
本发明还提出一种分子训练集,该分子训练集为采用本申请提出的分子训练集的构建方法获得的。其中,该分子训练集可以用于训练通用力场模型。
本发明还提出一种通用力场模型训练方法,该方法采用本申请提出的分子训练集对通用力场模型进行训练。
本发明还提出一种通用力场模型,该通用力场模型为采用本申请提出的通用力场模型训练方法进行模型训练得到的。
请参阅图3,图3为本申请分子训练集的构建装置一实施方式的框架结构示意图,该分子训练集的构建装置包括获取模块11、处理模块12和挑选模块13。其中,获取模块11用于获取目标分子库,该目标分子库中包含多个目标分子;处理模块12与获取模块11连接,用于对目标分子库中的每个目标分子进行骨架分析,并将具有相同骨架的目标分子进行聚类;挑选模块13与处理模块12连接,用于从每个骨架下挑选至少一个目标分子以构建分子训练集。
具体地,目标分子库是由获取模块11从网络数据库中随机挑选部分化合物分子构建而成的,其中随机选择部分化合物分子的过程可以包括:根据预设化学官能团确定当前通用力场所需的原子类型;根据原子类型从网络数据库中选取部分化合物分子构建目标分子库。
具体地,处理模块12在对目标分子库中的每个目标分子进行骨架分析的步骤之前还包括:对目标分子库中的每个目标分子设置身份标识,其中不同目标分子的身份标识不同。可选地,处理模块12在对目标分子进行骨架分析之前还可以对目标分子库中的至少部分目标分子进行格式转换。
在一个实施例中,请继续参阅图3,该分子训练集的构建装置还可以包括更新模块15,更新模块15与获取模块11和挑选模块13连接。该更新模块15完成了对通过挑选模块13构建的分子训练集进行更新完善的过程。其中具体步骤包括:获取在当前通用力场的原子类型定义下目标分子库所包含的所有目标分子的第一力场参数合集,以及获取分子训练集中所包含的所有目标分子的第二力场参数合集;将第二力场参数合集与第一力场参数合集进行对比,获取第二力场参数合集与第一力场参数合集之间的差异力场参数合集,该差异力场参数合集中包含至少一个差异力场参数;针对每个差异力场参数,从目标分子库中获取具有差异力场参数的目标分子添加至分子训练集中,以更新分子训练集。其中,第一力场参数合集和第二力场参数合集中的力场参数包括二面角、键长和键角中至少一种,第一力场参数合集包括多个第一力场参数,差异力场参数属于第一力场参数合集。
具体地,更新模块15在对分子训练集进行更新的步骤之前还包括,针对每个第一力场参数,从目标分子库中获取具有第一力场参数的至少一个目标分子形成分子合集。更新模块15对分子训练集进行更新的步骤还包括,针对每个差异力场参数,获取与差异力场参数对应的分子合集,从分子合集中挑选出一个目标分子添加至分子训练集中。
请参阅图4,图4为本申请电子设备一实施方式的结构示意图,该电子设备包括:相互耦接的存储器30和处理器20,存储器30中存储有程序指令,处理器20用于执行程序指令以实现上述任一构建分子训练集方法中的步骤,或者处理器20用于执行程序指令以实现上述通用力场模型训练方法。具体地,电子设备包括但不限于:台式计算机、笔记本电脑、平板电脑、服务器等,在此不做限定。此外,处理器20还可以称为CPU(Center Processing Unit,中央处理单元)。处理器20可能是一种集成电路芯片,具有信号处理能力。处理器20还可以是、通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器20可以由集成电路芯片共同实现。
请参阅图5,图5为本申请存储装置一实施方式的结构示意图,该存储装置50存储有能够被处理器运行的程序指令60,程序指令60用于实现上述任一构建分子训练集方法中的步骤,或上述通用力场模型训练方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (14)
1.一种分子训练集的构建方法,其特征在于,包括:
获取目标分子库,所述目标分子库中包含多个目标分子;
对所述目标分子库中的每个目标分子进行骨架分析,并将具有相同骨架的所述目标分子进行聚类;
从每个所述骨架下挑选至少一个所述目标分子以构建所述分子训练集。
2.根据权利要求1所述的方法,其特征在于,所述从每个所述骨架下挑选至少一个所述目标分子以构建所述分子训练集的步骤之后,所述方法还包括:
获取在当前通用力场的原子类型定义下所述目标分子库所包含的所有目标分子的第一力场参数合集,以及获取所述分子训练集中所包含的所有目标分子的第二力场参数合集;
将所述第二力场参数合集与所述第一力场参数合集进行比较,获取所述第二力场参数合集与所述第一力场参数合集之间的差异力场参数合集,所述差异力场参数合集中包含至少一个差异力场参数;
针对每个所述差异力场参数,从所述目标分子库中获取具有所述差异力场参数的目标分子添加至所述分子训练集中,以更新所述分子训练集。
3.根据权利要求2所述的方法,其特征在于,
所述第一力场参数合集和所述第二力场参数合集中的力场参数包括二面角、键长和键角中至少一种。
4.根据权利要求2所述的方法,其特征在于,所述第一力场参数合集包括多个第一力场参数,所述差异力场参数属于所述第一力场参数合集;
所述针对每个所述差异力场参数,从所述目标分子库中获取具有所述差异力场参数的目标分子添加至所述分子训练集中,以更新所述分子训练集的步骤之前,所述方法还包括:
针对每个所述第一力场参数,从所述目标分子库中获取具有所述第一力场参数的至少一个目标分子形成分子合集;
所述针对每个所述差异力场参数,从所述目标分子库中获取具有所述差异力场参数的目标分子添加至所述分子训练集中,以更新所述分子训练集的步骤,包括:
针对每个所述差异力场参数,获取与所述差异力场参数对应的分子合集,从所述分子合集中挑选出至少一个目标分子添加至所述分子训练集中。
5.根据权利要求1所述的方法,其特征在于,所述对所述目标分子库中的每个目标分子进行骨架分析的步骤之前,所述方法还包括:
对所述目标分子库中的至少部分目标分子进行格式转换。
6.根据权利要求1所述的方法,其特征在于,所述对所述目标分子库中的每个目标分子进行骨架分析的步骤之前,所述方法还包括:
对所述目标分子库中的每个目标分子设置身份标识,其中,不同目标分子的身份标识不同。
7.根据权利要求1-6任一所述的方法,其特征在于,所述获取目标分子库的步骤,包括:
从网络数据库中随机选择部分化合物分子构建目标分子库。
8.根据权利要求7所述的方法,其特征在于,所述从网络数据库中随机选择部分化合物分子构建目标分子库的步骤,包括:
根据预设化学官能团确定当前通用力场所需的原子类型;
根据所述原子类型从网络数据库中选取部分化合物分子构建目标分子库。
9.一种分子训练集,其特征在于,所述分子训练集为采用权利要求1-8中任一项所述的分子训练集的构建方法获得的。
10.一种通用力场模型训练方法,其特征在于,所述方法采用权利要求9所述的分子训练集对所述通用力场模型进行训练。
11.一种通用力场模型,其特征在于,所述通用力场模型为采用权利要求10所述的通用力场模型训练方法进行模型训练得到的。
12.一种分子训练集的构建装置,其特征在于,包括:
获取模块,用于获取目标分子库,所述目标分子库中包含多个目标分子;
处理模块,与所述获取模块连接,用于对所述目标分子库中的每个目标分子进行骨架分析,并将具有相同骨架的所述目标分子进行聚类;
挑选模块,与所述处理模块连接,用于从每个所述骨架下挑选至少一个所述目标分子以构建所述分子训练集。
13.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至8任一项所述的分子训练集的构建方法,或权利要求10所述的通用力场模型训练方法。
14.一种存储装置,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至8任一项所述的分子训练集的构建方法,或权利要求10所述的通用力场模型训练方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111250091.0A CN114171126B (zh) | 2021-10-26 | 2021-10-26 | 分子训练集的构建方法、训练方法及相关装置 |
PCT/CN2021/131259 WO2023070767A1 (zh) | 2021-10-26 | 2021-11-17 | 分子训练集的构建方法、训练方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111250091.0A CN114171126B (zh) | 2021-10-26 | 2021-10-26 | 分子训练集的构建方法、训练方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114171126A true CN114171126A (zh) | 2022-03-11 |
CN114171126B CN114171126B (zh) | 2024-10-01 |
Family
ID=80477361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111250091.0A Active CN114171126B (zh) | 2021-10-26 | 2021-10-26 | 分子训练集的构建方法、训练方法及相关装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114171126B (zh) |
WO (1) | WO2023070767A1 (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050214788A1 (en) * | 2003-09-09 | 2005-09-29 | Irm, Llc | Method and system for clustering and rescaling for molecular analysis |
CN1725222A (zh) * | 2004-07-23 | 2006-01-25 | 中国科学院上海药物研究所 | 组合化学集中库设计与优化方法 |
WO2018120964A1 (zh) * | 2016-12-30 | 2018-07-05 | 山东大学 | 一种基于深度信息和骨骼信息的姿势矫正方法 |
CN108804869A (zh) * | 2018-05-04 | 2018-11-13 | 深圳晶泰科技有限公司 | 基于神经网络的分子结构和化学反应能量函数构建方法 |
CN109492098A (zh) * | 2018-10-24 | 2019-03-19 | 北京工业大学 | 基于主动学习和语义密度的目标语料库构建方法 |
CN111653320A (zh) * | 2020-04-21 | 2020-09-11 | 深圳晶泰科技有限公司 | 分子力场拟合方法 |
CN112201313A (zh) * | 2020-09-15 | 2021-01-08 | 北京晶派科技有限公司 | 一种自动化的小分子药物筛选方法和计算设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11443834B2 (en) * | 2018-05-09 | 2022-09-13 | Shenzhen Jingtai Technology Co., Ltd. | Automatic conformation analysis method for quasi-drug organic molecules |
CN111863141B (zh) * | 2020-07-08 | 2022-06-10 | 深圳晶泰科技有限公司 | 分子力场多目标拟合算法库系统及工作流程方法 |
CN112233733B (zh) * | 2020-11-05 | 2023-04-07 | 深圳晶泰科技有限公司 | 分子力场质量控制系统及其控制方法 |
CN113160894B (zh) * | 2021-04-23 | 2023-10-24 | 平安科技(深圳)有限公司 | 药物与靶标的相互作用预测方法、装置、设备及存储介质 |
-
2021
- 2021-10-26 CN CN202111250091.0A patent/CN114171126B/zh active Active
- 2021-11-17 WO PCT/CN2021/131259 patent/WO2023070767A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050214788A1 (en) * | 2003-09-09 | 2005-09-29 | Irm, Llc | Method and system for clustering and rescaling for molecular analysis |
CN1725222A (zh) * | 2004-07-23 | 2006-01-25 | 中国科学院上海药物研究所 | 组合化学集中库设计与优化方法 |
WO2018120964A1 (zh) * | 2016-12-30 | 2018-07-05 | 山东大学 | 一种基于深度信息和骨骼信息的姿势矫正方法 |
CN108804869A (zh) * | 2018-05-04 | 2018-11-13 | 深圳晶泰科技有限公司 | 基于神经网络的分子结构和化学反应能量函数构建方法 |
CN109492098A (zh) * | 2018-10-24 | 2019-03-19 | 北京工业大学 | 基于主动学习和语义密度的目标语料库构建方法 |
CN111653320A (zh) * | 2020-04-21 | 2020-09-11 | 深圳晶泰科技有限公司 | 分子力场拟合方法 |
CN112201313A (zh) * | 2020-09-15 | 2021-01-08 | 北京晶派科技有限公司 | 一种自动化的小分子药物筛选方法和计算设备 |
Non-Patent Citations (2)
Title |
---|
BROOKE E. HUSIC ET AL.: "A Minimum Variance Clustering Approach Produces Robust and Interpretable Coarse-Grained Models", J. CHEM. THEORY COMPUT., no. 14, 18 December 2017 (2017-12-18), pages 1071 - 1082 * |
任译等: "分子力场进展", 化学研究与应用, vol. 10, no. 1, 28 February 1998 (1998-02-28), pages 1 - 14 * |
Also Published As
Publication number | Publication date |
---|---|
CN114171126B (zh) | 2024-10-01 |
WO2023070767A1 (zh) | 2023-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nguyen et al. | Mathematical deep learning for pose and binding affinity prediction and ranking in D3R Grand Challenges | |
Hulovatyy et al. | Exploring the structure and function of temporal networks with dynamic graphlets | |
US11176462B1 (en) | System and method for prediction of protein-ligand interactions and their bioactivity | |
Li et al. | Computational approaches for detecting protein complexes from protein interaction networks: a survey | |
Nguyen et al. | MathDL: mathematical deep learning for D3R Grand Challenge 4 | |
Lenselink et al. | Beyond the hype: deep neural networks outperform established methods using a ChEMBL bioactivity benchmark set | |
Neyshabur et al. | NETAL: a new graph-based method for global alignment of protein–protein interaction networks | |
Murugan et al. | A review on parallel virtual screening softwares for high-performance computers | |
Grafahrend-Belau et al. | Modularization of biochemical networks based on classification of Petri net t-invariants | |
Sharma et al. | DeepFeature: feature selection in nonimage data using convolutional neural network | |
Chikhi et al. | On the representation of de Bruijn graphs | |
Aguilera-Mendoza et al. | Automatic construction of molecular similarity networks for visual graph mining in chemical space of bioactive peptides: an unsupervised learning approach | |
Shih et al. | A single source k-shortest paths algorithm to infer regulatory pathways in a gene network | |
Kim et al. | Network motif detection: Algorithms, parallel and cloud computing, and related tools | |
Hong et al. | An in silico ensemble method for lead discovery: decision forest | |
CN111627494B (zh) | 基于多维特征的蛋白质性质预测方法、装置和计算设备 | |
US20240055071A1 (en) | Artificial intelligence-based compound processing method and apparatus, device, storage medium, and computer program product | |
Liu et al. | Persistent path-spectral (PPS) based machine learning for protein–ligand binding affinity prediction | |
Burke et al. | A biochemical network modeling of a whole-cell | |
Teng et al. | Network inference from AP-MS data: computational challenges and solutions | |
Cho et al. | An integrative approach to inferring biologically meaningful gene modules | |
Bayat et al. | VariantSpark: Cloud-based machine learning for association study of complex phenotype and large-scale genomic data | |
Li et al. | Identification of protein complexes from multi-relationship protein interaction networks | |
MacKinnon et al. | Proteome‐Scale Drug‐Target Interaction Predictions: Approaches and Applications | |
Chen et al. | ClusterX: a novel representation learning-based deep clustering framework for accurate visual inspection in virtual screening |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |