CN112634992A - 分子性质预测方法及其模型的训练方法及相关装置、设备 - Google Patents
分子性质预测方法及其模型的训练方法及相关装置、设备 Download PDFInfo
- Publication number
- CN112634992A CN112634992A CN202011592593.7A CN202011592593A CN112634992A CN 112634992 A CN112634992 A CN 112634992A CN 202011592593 A CN202011592593 A CN 202011592593A CN 112634992 A CN112634992 A CN 112634992A
- Authority
- CN
- China
- Prior art keywords
- molecular
- prediction model
- property
- property prediction
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012549 training Methods 0.000 title claims abstract description 199
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000000605 extraction Methods 0.000 claims abstract description 132
- 230000004927 fusion Effects 0.000 claims abstract description 41
- 238000002372 labelling Methods 0.000 claims abstract description 17
- 238000012795 verification Methods 0.000 claims description 56
- 238000000547 structure data Methods 0.000 claims description 48
- 238000012360 testing method Methods 0.000 claims description 46
- 238000012545 processing Methods 0.000 claims description 34
- 230000005540 biological transmission Effects 0.000 claims description 17
- 210000002569 neuron Anatomy 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 239000003574 free electron Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010200 validation analysis Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 12
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 238000011176 pooling Methods 0.000 description 6
- 102000004190 Enzymes Human genes 0.000 description 5
- 108090000790 Enzymes Proteins 0.000 description 5
- 125000004429 atom Chemical group 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004617 QSAR study Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000004071 biological effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005094 computer simulation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 125000004432 carbon atom Chemical group C* 0.000 description 1
- 239000011203 carbon fibre reinforced carbon Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 125000000524 functional group Chemical group 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 150000002611 lead compounds Chemical class 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000002062 molecular scaffold Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 125000004430 oxygen atom Chemical group O* 0.000 description 1
- 125000001997 phenyl group Chemical group [H]C1=C([H])C([H])=C(*)C([H])=C1[H] 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C10/00—Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Abstract
本申请公开了一种分子性质预测方法及其模型的训练方法及相关装置、设备,其中,分子性质预测模型的训练方法包括:获取训练样本,训练样本包含分子的结构数据和标注性质;利用初始的分子性质预测模型对结构数据进行特征提取,得到第一可变分子特征;获取基于结构数据得到的第一固定分子特征,并结合第一可变分子特征和第一固定分子特征,得到训练样本的融合分子特征;利用分子性质预测模型对融合分子特征进行分类处理,得到训练样本的第一预测性质;基于第一预测性质和标注性质,调整分子性质预测模型的网络参数。上述方案,能够准确地预测分子性质。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种分子性质预测方法及其模型的训练方法及相关装置、设备。
背景技术
近年来,随着神经网络、深度学习等人工智能技术的发展,人工智能技术开始广泛应用于诸如安防、家电、物流等各行各业。此外,由于人工智能技术相较于传统人工所表现出的高效、稳定等优异性能,在基础研究中也逐渐得到了使用。
目前,在化学研究中,在进行生物活性筛选之前预测分子性质,能够降低实际筛选化合物数目,同时提高发现先导化合物发现效率,故具有重要意义。有鉴于此,如何准确地预测分子性质成为亟待解决的问题。
发明内容
本申请提供一种分子性质预测方法及其模型的训练方法及相关装置、设备。
本申请第一方面提供了一种分子性质预测模型的训练方法,包括:获取训练样本,训练样本包含分子的结构数据和标注性质;利用初始的分子性质预测模型对结构数据进行特征提取,得到第一可变分子特征;获取基于结构数据得到的第一固定分子特征,并结合第一可变分子特征和第一固定分子特征,得到训练样本的融合分子特征;利用分子性质预测模型对融合分子特征进行分类处理,得到训练样本的第一预测性质;基于第一预测性质和标注性质,调整分子性质预测模型的网络参数。
因此,通过利用初始的分子性质预测模型对训练样本的结构数据进行特征提取,得到第一可变分子特征,获取基于结构数据得到的第一固定分子特征,并结合第一可变分子特征和第一固定分子特征,得到训练样本的融合分子特征,从而使得融合分子特征能够兼具分子的全局特征和局部特征,进而在利用分子性质预测模型对融合分子特征进行分类处理时,能够提高训练样本的第一预测性质的准确性,从而能够基于第一预测性质和标注性质,准确地调整分子性质预测模型的网络参数,提高训练得到的分子性质预测模型的准确性,进而能够有利于提高分子性质预测的准确性。
其中,分子性质预测模型包括特征提取子模型和性质分类子模型;利用分子性质预测模型对结构数据进行特征提取,得到可变分子特征之前,方法还包括:利用训练样本对初始的分子性质预测模型中的特征提取子模型和性质分类子模型进行预训练;利用初始的分子性质预测模型对结构数据进行特征提取,得到第一可变分子特征包括:利用预训练后的特征提取子模型对结构数据进行特征提取,得到第一可变分子特征;利用分子性质预测模型对融合分子特征进行分类处理,得到训练样本的第一预测性质包括:利用预训练后的性质分类子模型对融合分子特征进行分类处理,得到训练样本的第一预测性质。
因此,在利用初始的分子性质预测模型对结构数据进行特征提取,得到第一可变分子特征,从而结合第一固定分子特征得到融合分子特征,并基于融合分子特征进一步训练之前,先利用训练样本对初始的分子性质预测模型中的特征提取子模型和性质分类子模型进行预训练,能够提高分子性质预测模型对可变分子特征的学习效果,进而能够有利于提高分子性质预测模型的准确性。
其中,利用训练样本对初始的分子性质预测模型中的特征提取子模型和性质分类子模型进行预训练包括:利用特征提取子模型对结构数据进行特征提取,得到第二可变分子特征;利用性质分类子模型对第二可变分子特征进行分类处理,得到训练样本的第二预测性质;基于第二预测性质和标注性质,调整特征提取子模型和性质分类子模型的网络参数。
因此,利用特征提取子模型对结构数据进行特征提取,得到第二可变分子特征,并利用性质分类子模型对第二可变分子特征进行分类处理,得到训练样本的第二预测性质,从而基于第二预测性质和标注性质,调整特征提取子模型和性质分类子模型的网络参数,进而能够有利于提高分子性质预测模型的准确性。
其中,结构数据包括点、点之间的邻边以及点的属性特征、邻边的属性特征,点用于表示分子中的原子,邻边用于表示分子中的原子键;利用初始的分子性质预测模型对结构数据进行特征提取,得到第一可变分子特征包括:对于每个点,利用点的属性特征和点的相邻点和/或邻边的属性特征,对点的属性特征进行更新;对结构数据中的点的属性特征进行编码处理,得到第一可变分子特征。
因此,通过对每个点,利用点的属性特征和点的相邻点和/或邻边的属性特征,对点的属性特征进行更新,从而对结构数据中点的属性特征进行编码,得到第一可变分子特征,能够使分子性质预测模型准确性地学习到分子的局部特征,从而能够有利于提高分子性质预测模型的准确性。
其中,点的属性包括以下至少一者:原子种类、原子度、自由电子数;和/或,邻边的属性包括以下至少一者:原子键种类、是否为环。
因此,将点的属性设置为包括原子种类、原子度、自由电子数中的至少一者,将邻边的属性设置为包括原子键种类、是否为环中的至少一者,能够提高学习到的第一可变分子特征的准确性,从而能够有利于提高分子性质预测模型的准确性。
其中,分子性质预测模型包括用于特征提取的特征提取子模型,特征提取子模型为消息传递网络;对结构数据中的点的属性特征进行编码处理,得到第一可变分子特征之前,方法还包括:若每一点的当前更新次数小于特征提取子模型的消息传递次数,则重新执行对于每个点,利用点的属性特征和点的相邻点和/或邻边的属性特征,对点的属性特征进行更新的步骤,否则,执行对结构数据中的点的属性特征进行编码处理,得到第一可变分子特征的步骤。
因此,特征提取子模型为消息传递网络,且当每一点的当前更新次数小于特征提取子模型的消息传递次数时,重新执行对于每个点,利用点的属性特征和点的相邻点和/或邻边的属性特征,对点的属性特征进行更新的步骤,否则执行对结构数据中的点的属性特征进行编码处理,得到第一可变分子特征的步骤,故能够通过多次传递,扩大点的感受视野,从而使得分子性质预测模型能够准确地学习到分子的局部特征,从而能够有利于提高分子性质预测模型的准确性。
其中,利用初始的分子性质预测模型对结构数据进行特征提取之前,方法还包括:按照分子性质预测模型的超参数,调整分子性质预测模型;基于第一预测性质和标注性质,调整分子性质预测模型的网络参数之后,方法还包括:获取验证样本,并利用验证样本对分子性质预测模型进行验证,确定分子性质预测模型的验证损失值,基于验证损失值,生成新的超参数;重新执行按照分子性质预测模型的超参数,调整分子性质预测模型的步骤以及后续步骤,直至满足预设条件为止;按照最小的验证损失值对应的超参数,调整分子性质预测模型;其中,验证样本包含分子的结构数据和标注性质。
因此,通过按照分子性质预测模型的超参数,调整分子性质预测模型,并在此基础上进行训练,从而利用验证样本对分子性质预测模型进行验证,确定分子性质预测模型的验证损失值,进而基于验证损失值,生成新的超参数,如此循环,并按照最小的验证损失值对应的超参数,调整分子性质预测模型,能够针对特定分子性质的预测任务,训练得到对应的分子性质预测模型。
其中,按照最小的验证损失值对应的超参数,调整分子性质预测模型之后,方法还包括:利用测试样本对调整后的分子性质预测模型进行测试,确定调整后的分子性质预测模型的测试损失值;利用测试损失值,确定调整后的分子性质预测模型的预测性能;和/或,利用训练样本重新对调整后的分子性质预测模型进行训练。
因此,利用测试样本对调整后的分子性质预测模型进行测试,确定调整后的分子性质预测模型的测试损失值,并利用测试损失值,能够确定调整后的分子性质预测模型的预测性能,能够有利于对分子性质预测模型的性能进行评估;而利用训练样本重新对调整后的分子性质预测模型进行训练能够进一步优化分子性质预测模型的性能。
其中,超参数包括以下至少一者:分子性质预测模型中的特征提取子模型的消息传递次数、特征提取子模型的隐层维度数、特征提取子模型的特征读出方式、分子性质预测模型中的性质分类子模型的前向传播层数、神经元去除系数。
因此,将超参数设置为包括分子性质预测模型中的特征提取子模型的消息传递次数、特征提取子模型的隐层维度数、特征提取子模型的特征读出方式、分子性质预测模型中的性质分类子模型的前向传播层数、神经元去除系数中的至少一者,能够有利于调整分子性质预测模型,故能够针对特定分子性质的预测任务,训练得到对应的分子性质预测模型。
其中,结构数据为图结构数据;获取训练样本之前,方法还包括:对图结构数据进行分子骨架分析,得到图结构数据对应的分子骨架;将分子骨架之间的相似度满足预设相似度条件的图结构数据,作为训练样本、测试样本、验证样本中的任一者。
因此,通过对图结构数据进行分子骨架分析,得到图结构数据对应的分子骨架,并将分子骨架之间的相似度满足预设相似度条件的图结构数据,作为训练样本、测试样本、验证样本中的任一者,故能够确保训练样本和测试样本之间的分子骨架不相似,从而能够提高分子性质预测模型的泛化能力。
其中,预设相似度条件包括:相似度大于一相似度阈值;和/或,训练样本、测试样本和验证样本三者样本数量之间的样本比例为一预设比例。
因此,预设相似度条件包括:相似度大于一相似度阈值,能够使得相似度高的图结构数据归为一类,故能够确保训练样本和测试样本之间的分子骨架不相似,从而能够提高分子性质预测模型的泛化能力;通过将训练样本、测试样本和验证样本三者样本数量之间的样本比例设置为一预设比例,能够控制训练样本、测试样本和验证样本的数量,从而能够有利于提高分子性质预测模型的准确性。
其中,获取基于结构数据得到的第一固定分子特征,包括:利用分子指纹计算模型对结构数据进行特征提取,得到第一固定分子特征。
因此,通过利用分子指纹计算模型对结构数据进行特征提取,能够得到分子的全局特征,即第一固定分子特征,从而能够有利于在与学习到的可变分子特征结合后,提高分子性质预测模型的准确性。
本申请第二方面提供了一种分子性质预测方法,包括:获取待识别分子的结构数据;利用分子性质预测模型对结构数据进行特征提取,得到可变分子特征;获取基于结构数据得到的固定分子特征,并结合可变分子特征和固定分子特征,得到待识别分子的融合分子特征;利用分子性质预测模型对融合分子特征进行分类处理,得到待识别分子的预测性质。
因此,通过利用分子性质预测模型对分子的结构数据进行特征提取,得到可变分子特征,从而获取基于结构数据得到的固定分子特征,并结合可变分子特征和固定分子特征,得到分子的融合分子特征,从使得融合分子特征能够兼具分子的全局特征和局部特征,进而在利用分子性质预测模型对融合分子特征进行分类处理时,能够提高预测得到的分子性质的准确性。
其中,分子性质预测模型是利用上述第一方面中的分子性质预测模型的训练方法得到的。
因此,在分子性质预测过程中,采用上述第一方面中的分子性质预测模型的训练方法得到的分子性质预测模型,能够提高得到的可变分子特征的准确性,从而够提高预测得到的分子性质的准确性。
本申请第三方面提供了一种分子性质预测模型的训练装置,包括样本获取模块、特征提取模块、特征结合模块、分类处理模块和参数调整模块,样本获取模块用于获取训练样本,训练样本包含分子的结构数据和标注性质;特征提取模块用于利用初始的分子性质预测模型对结构数据进行特征提取,得到第一可变分子特征;特征结合模块用于获取基于结构数据得到的第一固定分子特征,并结合第一可变分子特征和第一固定分子特征,得到训练样本的融合分子特征;分类处理模块用于利用分子性质预测模型对融合分子特征进行分类处理,得到训练样本的第一预测性质;参数调整模块用于基于第一预测性质和标注性质,调整分子性质预测模型的网络参数。
本申请第四方面提供了一种分子性质预测装置,包括数据获取模块、特征提取模块、特征结合模块和分类处理模块,数据获取模块用于获取待识别分子的结构数据;特征提取模块用于利用分子性质预测模型对结构数据进行特征提取,得到可变分子特征;特征结合模块用于获取基于结构数据得到的固定分子特征,并结合可变分子特征和固定分子特征,得到待识别分子的融合分子特征;分类处理模块用于利用分子性质预测模型对融合分子特征进行分类处理,得到待识别分子的预测性质。
本申请第五方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的分子性质预测模型的训练方法,或实现上述第二方面中的分子性质预测方法。
本申请第六方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令在被处理器执行时实现上述第一方面中的分子性质预测模型的训练方法,或实现上述第二方面中的分子性质预测方法。
上述方案,能够使得融合分子特征能够兼具分子的全局特征和局部特征,从而能够提高分子性质预测的准确性。
附图说明
图1是本申请分子性质预测模型的训练方法一实施例的流程示意图;
图2是本申请分子性质预测模型的训练方法另一实施例的流程示意图;
图3是本申请分子性质预测模型的训练方法又一实施例的流程示意图;
图4是本申请分子性质预测方法一实施例的流程示意图;
图5是本申请分子性质预测模型的训练装置一实施例的框架示意图;
图6是本申请分子性质预测装置一实施例的框架示意图;
图7是本申请电子设备一实施例的框架示意图;
图8是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请分子性质预测模型的训练方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S11:获取训练样本,训练样本包含分子的结构数据和标注性质。
在一个实施场景中,分子的结构数据包括点、点之间的邻边,以及点的属性特征、邻边的属性特征,其中,点表示分子中的原子,例如,碳原子、氢原子、氧原子等,邻边表示分子中的原子键,例如,碳碳键、碳氧键、碳氮键等。在一个具体的实施场景中,为了丰富点的属性特征,点的属性特征可以包括原子种类、原子度、自由电子数中的至少一者。在另一个实施场景中,为了丰富邻边的属性特征,邻边的属性特征可以包括原子键种类、是否为环(如,苯环等)中的至少一者。
在一个实施场景中,分子的结构数据为图结构数据,为了提高分子性质预测模型的泛化能力,还可以对收集得到的分子的图结构数据进行分子骨架分析,得到图结构数据对应的分子骨架(Molecular Scaffold),并将分子骨架之间的相似度满足预设相似度条件的图结构数据,作为训练样本、测试样本、验证样本中的任一者,从而能够确保训练样本和测试样本之间的分子骨架不相似,故能够提高分子性质预测模型的泛化能力。在一个具体的实施场景中,为了控制训练样本、测试样本、验证样本的数量,还可以将训练样本、测试样本、验证样本三者样本数量之间的样本比例设置为一预设比例(如7:2:1),在此不做限定。在另一个具体的实施场景中,预设相似度条件包括相似度大于一相似度阈值(如80%、85%、90%等)。在又一个具体的实施场景中,通过检测分子骨架之间的相似度是否满足预设相似度条件,可以将采集得到的图结构数据划分为多个数据集合,且每个数据集合中包括若干图结构数据,例如,将采集得到的图结构数据划分为数据集合A(包含200个图结构数据)、数据集合B(包含100个图结构数据)、数据集合C(包含300个图结构数据)、数据集合D(包含100个图结构数据)、数据集合E(包含200个图结构数据)、数据集合F(包含100个图结构数据),则可以按照样本比例,将数据集合A~数据集合D作为训练样本,将数据集合E作为测试样本,将数据集合F作为验证样本,其他实施场景,可以以此类推,在此不做限定。
分子的标注性质为预先对训练样本所标注的分子性质,具体可以属于水溶性、酶活性等等中的任一者,例如,以水溶性为例,训练样本所包含的分子的标注性质可以包括:难溶(不溶)、微溶、可溶、易溶,其他场景可以以此类推,在此不做限定。
步骤S12:利用初始的分子性质预测模型对结构数据进行特征提取,得到第一可变分子特征。
初始的分子性质预测模型尚未经训练样本进行训练,其网络参数仍然是初始数值。具体地,分子性质预测模型可以对训练样本所含结构数据中的点、邻边的属性特征进行特征提取,得到第一可变分子特征。在一个实施场景中,为了使分子性质预测模型能够准确地学习到分子的局部特征,对于结构数据中的每个点,可以利用点的属性特征和点的相邻点和/或邻边的属性特征,对点的属性特征进行更新,例如,可以采用点的属性特征、点的相邻点的属性特征,对点的属性特征进行更新;或者,还可以采用点的属性特征、点的邻边的属性特征,对点的属性特征进行更新;或者,还可以采用点的属性特征、点的相邻点的属性特征、点的邻边的属性特征,对点的属性特征进行更新,在此不做限定,从而对结构数据中的点的属性特征进行编码处理,能够得到分子的局部特征,即第一可变分子特征。在一个具体的实施场景中,为了能够扩大点的感受视野,使得分子性质预测模型能够更加准确地学习到分子的局部特征,分子性质预测模型中可以包括用于特征提取的特征提取子模型,特征提取子模型为消息传递网络(Message Passing Neural Networks,MPNNs),消息传递网络预先设置有消息传递次数(例如,20次、50次、100次等),则可以对结构数据中的每个点,利用点的属性特征和点的相邻点和/或邻边的属性特征,对点的属性特征进行更新,具体地,可以获取邻居属性特征的均值特征,然后将均值特征与点本身的属性特征结合,最后通过激活函数,将点的属性特征进行更新,并判断每一点当前更次数是否小于预先设置的消息传递次数,若小于预先设置的消息传递次数,则可以重新执行对于每个点,利用点的属性特征和点的相邻点和/或邻边的属性特征,对点的属性特征进行更新的步骤,直至每一点当前更次数不小于预先设置的消息传递次数为止,若不小于预先设置的消息传递次数,则可以对结构数据中的点的属性特征进行编码处理,得到第一可变分子特征,具体地,可以对结构数据中的点的属性特征进行平均池化(Mean Pooling)或最大池化(Max Pooling),得到第一可变分子特征,在此不做限定。
步骤S13:获取基于结构数据得到的第一固定分子特征,并结合第一可变分子特征和第一固定分子特征,得到训练样本的融合分子特征。
需要说明的是,固定分子特征趋向于表示分子的全局特征(如分子内部所包含的官能团、化学键等子结构),其生成过程往往基于固定的计算模型。具体地,可以利用分子指纹计算模型对结构数据进行特征提取,得到第一固定分子特征。在一个实施场景中,可以采用RDKit生成结构数据的第一固定分子特征,RDKit为开源化学信息学工具之一,具体在此不再赘述;在另一个实施场景中,还可以采用诸如Dragon描述符、Morgan指纹等传统QSAR(Quantitative structure–activity relationship,定量构效关系)模型得到第一固定分子特征,QSAR模型是利用数学模型来描述分子结构和分子的某种生物活性之间的关系,具体在此不再赘述。
在一个实施场景中,可以将第一可变分子特征和第一固定分子特征进行拼接,从而得到训练样本的融合分子特征。例如,第一可变分子特征为M维向量,第一固定分子特征为N维向量,则可以将第一可变分子特征和第一固定分子特征进行拼接处理,得到(M+N)维的融合分子特征。
步骤S14:利用分子性质预测模型对融合分子特征进行分类处理,得到训练样本的第一预测性质。
利用分子性质预测模型可以对融合分子特征进行进一步的分类处理,从而得到训练样本的第一预测性质。例如,训练样本01,其分子关于水溶性的标注性质为“易溶”,分子性质预测模型预测得到的第一预测性质可以为“难溶(不溶)”;或者,训练样本02,其分子关于水溶性的标注性质为“微溶”,分子性质预测模型预测得到的第一预测性质可以为“可溶”;或者,训练样本03,其分子关于水溶性的标注性质为“可溶”,分子性质预测模型预测得到的第一预测性质可以为“可溶”。其他应用场景可以以此类推,在此不再一一举例。
在一个实施场景中,分子性质预测模型还可以包括一性质分类子模型,用于对融合分子特征进行分类处理,从而得到训练样本的第一预测性质。在一个具体的实施场景中,性质分类子模型为一前馈神经网络,如可以包含一全连接层,在此不做限定。
步骤S15:基于第一预测性质和标注性质,调整分子性质预测模型的网络参数。
具体地,可以利用训练样本其分子的标注性质和第一预测性质,确定分子性质预测模型的损失值,从而利用损失值,调整分子性质预测模型的网络参数。在一个具体的实施场景中,可以利用交叉熵损失函数对标注性质和第一预测性质进行处理,得到分子性质预测模型的交叉熵损失值。在一个具体的实施场景中,可以采用随机梯度下降(StochasticGradient Descent,SGD)、批量梯度下降(Batch Gradient Descent,BGD)、小批量梯度下降(Mini-Batch Gradient Descent,MBGD)等方式,利用损失值对分子性质预测模型的网络参数进行调整,其中,批量梯度下降是指在每一次迭代时,使用所有样本来进行参数更新;随机梯度下降是指在每一次迭代时,使用一个样本来进行参数更新;小批量梯度下降是指在每一次迭代时,使用一批样本来进行参数更新,在此不再赘述。
在一个实施场景中,分子性质预测模型的网络参数可以包括神经元隐层权重、偏置等。在一个实施场景中,还可以设置一训练结束条件,当满足训练结束条件时,可以结束对分子性质预测模型的训练。具体地,训练结束条件可以包括:损失值小于一预设损失阈值,且损失值不再减小;当前训练次数达到预设次数阈值(例如,500次、1000次等),在此不做限定。
上述方案,通过利用初始的分子性质预测模型对训练样本的结构数据进行特征提取,得到第一可变分子特征,获取基于结构数据得到的第一固定分子特征,并结合第一可变分子特征和第一固定分子特征,得到训练样本的融合分子特征,从而使得融合分子特征能够兼具分子的全局特征和局部特征,进而在利用分子性质预测模型对融合分子特征进行分类处理时,能够提高训练样本的第一预测性质的准确性,从而能够基于第一预测性质和标注性质,准确地调整分子性质预测模型的网络参数,提高训练得到的分子性质预测模型的准确性,进而能够有利于提高分子性质预测的准确性。
请参阅图2,图2是本申请分子性质预测模型的训练方法另一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S21:获取训练样本,训练样本包含分子的结构数据和标注性质。
具体可以参阅前述实施例中的相关步骤。
步骤S22:利用训练样本对初始的分子性质预测模型中的特征提取子模型和性质分类子模型进行预训练。
分子性质预测模型可以包括特征提取子模型和性质分类子模型,其中,特征提取子模型用于对结构数据进行特征提取,得到结构数据的可变分子特征,性质分类子模型用于对可变分子特征进行分类处理,得到结构数据的预测性质。
在一个实施场景中,可以利用特征提取子模型对结构数据进行特征提取,得到第二可变分子特征,从而利用性质分类子模型对第二可变分子特征进行分类处理,得到训练样本的第二预测性质,进而基于第二预测性质和标注性质,调整特征提取子模型和性质分类子模型的网络参数。在一个具体的实施场景中,结构数据可以包括点、点之间的邻边以及点的属性特征、邻边的属性特征,且点用于表示分子中的原子、邻边用于表示分子中的原子键,从而对于每个点,可以利用点的属性特征和点的相邻点和/或邻边的属性特征,对点的属性特征进行更新,从而对结构数据中的点的属性特征进行编码处理,可以得到第二可变分子特征,具体可以参阅前述实施例中的相关步骤,在此不再赘述。在另一个具体的实施场景中,可以利用第二预测性质和真实,确定分子性质预测模型的损失值,从而基于损失值,调整分子性质预测模型的特征提取子模型和性质分类子模型的网络参数,具体可以参阅前述实施例中的相关步骤,在此不再赘述。
步骤S23:利用预训练后的特征提取子模型对结构数据进行特征提取,得到第一可变分子特征。
具体可以参阅前述实施例中的相关步骤。
步骤S24:获取基于结构数据得到的第一固定分子特征,并结合第一可变分子特征和第一固定分子特征,得到训练样本的融合分子特征。
具体可以参阅前述实施例中的相关步骤。
步骤S25:利用预训练后的性质分类子模型对融合分子特征进行分类处理,得到训练样本的第一预测性质。
具体可以参阅前述实施例中的相关步骤。
步骤S26:基于第一预测性质和标注性质,调整分子性质预测模型的网络参数。
具体可以参阅前述实施例中的相关步骤。
区别于前述实施例,在利用初始的分子性质预测模型对结构数据进行特征提取,得到第一可变分子特征,从而结合第一固定分子特征得到融合分子特征,并基于融合分子特征进一步训练之前,先利用训练样本对分子性质预测模型中的特征提取子模型和性质分类子模型进行预训练,能够提高分子性质预测模型对可变分子特征的学习效果,进而能够有利于提高分子性质预测模型的准确性。
请参阅图3,图3是本申请分子性质预测模型的训练方法又一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S301:获取训练样本,训练样本包含分子的结构数据和标注性质。
具体可以参阅前述实施例中的相关步骤。
根据分子性质预测模型的特定预测任务,可以为训练样本标注与特定预测任务对应的标注性质,例如,当特定预测任务为预测分子的水溶性时,分子的标注性质可以包括:难溶(不溶)、微溶、可溶、易溶;其他特定预测任务(如,酶活性等)可以以此类推,在此不再一一举例。
步骤S302:按照分子性质预测模型的超参数,调整分子性质预测模型。
不同于分子性质预测模型的网络参数,分子性质预测模型的超参数具体可以包括:分子性质预测模型中的特征提取子模型的消息传递次数、特征提取子模型的隐层维度数、特征提取子模型的特征读出方式(如,平均池化、最大池化)、分子性质预测模型中的性质分类子模型的前向传播层数、神经元去除系数(dropout)。具体地,还可以为上述超参数设置一可调范围,上述超参数的具体范围均在预先设置的可调范围之内。在一个具体的实施场景中,可以按照超参数中的特征提取子模型的隐层维度数,调整分子性质预测模型中的特征提取子模型的隐层维度数;或者,还可以按照超参数中的特征提取子模型的特征读出方式,调整特征提取子模型的特征读出方式,其他实施场景,可以以此类推,在此不再一一举例。
步骤S303:利用初始的分子性质预测模型对结构数据进行特征提取,得到第一可变分子特征。
具体可以参阅前述实施例中的相关步骤。
在一个实施场景中,在利用初始的分子性质预测模型对结构数据进行特征提取,得到第一可变分子特征之前,还可以利用训练样本对分子性质预测模型中的特征提取子模型和性质分类子模型进行预训练,从而能够提高分子性质预测模型对可变分子特征的学习效果,进而能够有利于提高分子性质预测模型的准确性。预训练的具体过程可以参阅前述实施例中的步骤,在此不再赘述。
步骤S304:获取基于结构数据得到的第一固定分子特征,并结合第一可变分子特征和第一固定分子特征,得到训练样本的融合分子特征。
具体可以参阅前述实施例中的相关步骤。
步骤S305:利用分子性质预测模型对融合分子特征进行分类处理,得到训练样本的第一预测性质。
具体可以参阅前述实施例中的相关步骤。
步骤S306:基于第一预测性质和标注性质,调整分子性质预测模型的网络参数。
具体可以参阅前述实施例中的相关步骤。
步骤S307:获取验证样本,并利用验证样本对分子性质预测模型进行验证,确定分子性质预测模型的验证损失值。
验证样本包含分子的结构数据和标注性质,具体可以参考前述实施例中的训练样本。验证样本的获取方式具体可以参阅前述实施例中的步骤,在此不再赘述。
步骤S308:基于验证损失值,生成新的超参数。
具体地,可以基于验证损失值,调整上述超参数中的至少一者,从而生成新的超参数。在一个具体的实施场景中,可以通过模型优化器(如,贝叶斯优化、遗传算法、简单随机搜索等)生成新的超参数。
步骤S309:重新执行步骤S302以及后续步骤。
在生成新的超参数之后,重新根据新的超参数,调整分子性质预测模型,并重新对调整后的分子性质预测模型进行训练,并在训练结束之后,得到其对应的验证损失值,从而完成新一轮的训练以及验证,以此循环,可以得到若干组超参数以及超参数所对应的验证损失。
在一个实施场景中,在检测到满足预设条件的情况下,可以结束上述循环,执行下述步骤S310。具体地,预设条件可以设置为包括:验证次数大于预设优化轮数(如,5次、8次等),即如果当前所生成的超参数对应的验证次数大于优化轮数,则不再重新调整分子性质预测模型,而直接执行步骤S310。
步骤S310:按照最小的验证损失值对应的超参数,调整分子性质预测模型。
最小的验证损失值对应的超参数能够使分子性质预测模型获取最优的性能,故按照最小的验证损失值对应的超参数,调整分子性质预测模型。故针对特定预测任务(如,水溶性、酶活性等),可以得到专用于特定预测任务的分子性质预测模型。
在一个实施场景中,为了评价分子性质预测模型的性能,还可以利用测试样本对调整后的分子性质预测模型进行测试,确定调整后的分子性质预测模型的测试损失值,从而利用测试损失值,确定调整后的分子性质预测模型的预测性。在一个具体的实施场景中,可以利用调整后的分子性质预测模型对测试样本进行预测,得到测试样本的预测性质,从而利用预测性质与测试样本的标注性质,得到调整后的分子性质预测模型的预测损失值。具体可以参阅前述实施例中的相关步骤。
在一个实施场景中,为了进一步提高分子性质预测模型的准确性,还可以利用训练样本重新对调整后的分子性质预测模型的进行训练,以进一步优化调整后的分子性质预测模型。
在一个实施场景中,还可以在云平台上,基于公开的数据集或企业提供的数据集,完成分子性质预测模型的训练,并存储训练后的分子性质预测模型,从而可以为通常的分子性质预测提供服务。用户只需上传分子的结构数据,即可利用云平台上针对特定预测任务训练得到的分子性质预测模型,对分子的结构数据进行预测处理,得到分子的多种性质,从而能够提高分子的初步筛选效率。
在一个实施场景中,用户还可以采用内部或私密的数据集,利用本申请实施例中的分子性质预测模型的训练方法,训练得到分子性质预测模型,从而能够得到相较于采用公开数据集训练得到的普通模型更优的模型,进而能够得到更准确的预测效果。此外,当内部或私密的数据集进一步更新之后,还可以利用本申请实施例中的分子性质预测模型的训练方法重新进行训练,以对分子性质预测模型进行相应的改进与升级。
区别于前述实施例,通过按照分子性质预测模型的超参数,调整分子性质预测模型,并在此基础上进行训练,从而利用验证样本对分子性质预测模型进行验证,确定分子性质预测模型的验证损失值,进而基于验证损失值,生成新的超参数,如此循环,并按照最小的验证损失值对应的超参数,调整分子性质预测模型,能够针对特定分子性质的预测任务,训练得到对应的分子性质预测模型。
请参阅图4,图4是本申请分子性质预测方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S41:获取待识别分子的结构数据。
待识别分子可以已有的常规分子,也可以是新合成的分子,在此不做限定。待识别分子的结构数据具体可以参阅前述实施例,在此不再赘述。
步骤S42:利用分子性质预测模型对结构数据进行特征提取,得到可变分子特征。
在一个实施场景中,分子性质预测模型可以包括特征提取子模型(如,消息传递网络),用于对结构数据进行特征提取,得到可变分子特征。在另一个实施场景中,分子性质预测模型可以为通过上述任一分子性质预测模型的训练方法实施例中的分子性质预测模型的训练方法得到的,具体可以参阅前述实施例中的步骤,在此不再赘述。
在一个实施场景中,可以根据待识别分子所需预测的分子性质,确定所要采用的分子性质预测模型,例如,待识别分子需要预测其水溶性,则可以采用用于预测水溶性的分子性质预测模型;或者,待识别分子需要预测其酶活性,则可以采用预测酶活性的分子性质预测模型,其他应用场景,可以以此类推,在此不再一一举例。
步骤S43:获取基于结构数据得到的固定分子特征,并结合可变分子特征和固定分子特征,得到待识别分子的融合分子特征。
在一个实施场景中,可以采用RDKit生成待识别分子的结构数据的固定分子特征,具体可以参阅前述实施例中的相关步骤,在此不再赘述。
在一个实施场景中,可以将可变分子特征和固定分子特征进行拼接,从而得到待识别分子的融合分子特征,具体可以参阅前述实施例中的相关步骤,在此不再赘述。
步骤S44:利用分子性质预测模型对融合分子特征进行分类处理,得到待识别分子的预测性质。
在一个实施场景中,分子性质预测模型还可以包括性质分类子模型,从而利用性质分类子模型对融合分子特征进行分类处理,得到待识别分子的预测性质。例如,当采用用于预测水溶性的分子性质预测模型对待识别分子进行预测时,可以得到待识别分子关于水溶性的预测性质,如:难溶(不溶)、微溶、可溶、易溶中的任一者,其他应用场景可以以此类推,在此不再一一举例。
上述方案,通过利用分子性质预测模型对分子的结构数据进行特征提取,得到可变分子特征,从而获取基于结构数据得到的固定分子特征,并结合可变分子特征和固定分子特征,得到分子的融合分子特征,从使得融合分子特征能够兼具分子的全局特征和局部特征,进而在利用分子性质预测模型对融合分子特征进行分类处理时,能够提高预测得到的分子性质的准确性。
请参阅图5,图5是本申请分子性质预测模型的训练装置50一实施例的框架示意图。分子性质预测模型的训练装置50包括样本获取模块51、特征提取模块52、特征结合模块53、分类处理模块54和参数调整模块55,样本获取模块51用于获取训练样本,训练样本包含分子的结构数据和标注性质;特征提取模块52用于利用初始的分子性质预测模型对结构数据进行特征提取,得到第一可变分子特征;特征结合模块53用于获取基于结构数据得到的第一固定分子特征,并结合第一可变分子特征和第一固定分子特征,得到训练样本的融合分子特征;分类处理模块54用于利用分子性质预测模型对融合分子特征进行分类处理,得到训练样本的第一预测性质;参数调整模块55用于基于第一预测性质和标注性质,调整分子性质预测模型的网络参数。
上述方案,通过利用初始的分子性质预测模型对训练样本的结构数据进行特征提取,得到第一可变分子特征,获取基于结构数据得到的第一固定分子特征,并结合第一可变分子特征和第一固定分子特征,得到训练样本的融合分子特征,从而使得融合分子特征能够兼具分子的全局特征和局部特征,进而在利用分子性质预测模型对融合分子特征进行分类处理时,能够提高训练样本的第一预测性质的准确性,从而能够基于第一预测性质和标注性质,准确地调整分子性质预测模型的网络参数,提高训练得到的分子性质预测模型的准确性,进而能够有利于提高分子性质预测的准确性。
在一些实施例中,分子性质预测模型包括特征提取子模型和性质分类子模型,分子性质预测模型的训练装置50还包括预训练模块,用于利用训练样本对初始的分子性质预测模型中的特征提取子模型和性质分类子模型进行预训练,特征提取模块52具体用于利用预训练后的特征提取子模型对结构数据进行特征提取,得到第一可变分子特征,特征结合模块53具体用于利用预训练后的性质分类子模型对融合分子特征进行分类处理,得到训练样本的第一预测性质。
区别于前述实施例,在利用初始的分子性质预测模型对结构数据进行特征提取,得到第一可变分子特征,从而结合第一固定分子特征得到融合分子特征,并基于融合分子特征进一步训练之前,先利用训练样本对分子性质预测模型中的特征提取子模型和性质分类子模型进行预训练,能够提高分子性质预测模型对可变分子特征的学习效果,进而能够有利于提高分子性质预测模型的准确性。
在一些实施例中,预训练模块包括特征提取子模块,用于利用特征提取子模型对结构数据进行特征提取,得到第二可变分子特征,预训练模块包括分类处理子模块,用于利用性质分类子模型对第二可变分子特征进行分类处理,得到训练样本的第二预测性质,预训练模块包括参数调整子模块,用于基于第二预测性质和标注性质,调整特征提取子模型和性质分类子模型的网络参数。
区别于前述实施例,利用特征提取子模型对结构数据进行特征提取,得到第二可变分子特征,并利用性质分类子模型对第二可变分子特征进行分类处理,得到训练样本的第二预测性质,从而基于第二预测性质和标注性质,调整特征提取子模型和性质分类子模型的网络参数,进而能够有利于提高分子性质预测模型的准确性。
在一些实施例中,结构数据包括点、点之间的邻边以及点的属性特征、邻边的属性特征,点用于表示分子中的原子,邻边用于表示分子中的原子键,特征提取模块52包括特征更新子模块,用于对于每个点,利用点的属性特征和点的相邻点和/或邻边的属性特征,对点的属性特征进行更新,特征提取模块52包括编码处理子模块,用于对结构数据中的点的属性特征进行编码处理,得到第一可变分子特征。
区别于前述实施例,通过对每个点,利用点的属性特征和点的相邻点和/或邻边的属性特征,对点的属性特征进行更新,从而对结构数据中点的属性特征进行编码,得到第一可变分子特征,能够使分子性质预测模型准确性地学习到分子的局部特征,从而能够有利于提高分子性质预测模型的准确性。
在一些实施例中,点的属性包括以下至少一者:原子种类、原子度、自由电子数;和/或,邻边的属性包括以下至少一者:原子键种类、是否为环。
区别于前述实施例,将点的属性设置为包括原子种类、原子度、自由电子数中的至少一者,将邻边的属性设置为包括原子键种类、是否为环中的至少一者,能够提高学习到的第一可变分子特征的准确性,从而能够有利于提高分子性质预测模型的准确性。
在一些实施例中,分子性质预测模型包括用于特征提取的特征提取子模型,特征提取子模型为消息传递网络,特征提取模块52包括次数判断子模块,用于判断每一点的当前更新次数是否小于特征提取子模型的消息传递次数,特征更新子模块具体用于在小于消息传递次数时,重复执行对于每个点,利用点的属性特征和点的相邻点和/或邻边的属性特征,对点的属性特征进行更新的步骤,编码处理子模块具体用于在不小于消息传递次数时,执行对结构数据中的点的属性特征进行编码处理,得到第一可变分子特征的步骤。
区别于前述实施例,特征提取子模型为消息传递网络,且当每一点的当前更新次数小于特征提取子模型的消息传递次数时,重新执行对于每个点,利用点的属性特征和点的相邻点和/或邻边的属性特征,对点的属性特征进行更新的步骤,否则执行对结构数据中的点的属性特征进行编码处理,得到第一可变分子特征的步骤,故能够通过多次传递,扩大点的感受视野,从而使得分子性质预测模型能够准确地学习到分子的局部特征,从而能够有利于提高分子性质预测模型的准确性。
在一些实施例中,分子性质预测模型的训练装置50还包括模型调整模块,用于按照分子性质预测模型的超参数,调整分子性质预测模型,分子性质预测模型的训练装置50还包括模型验证模块,用于获取验证样本,并利用验证样本对分子性质预测模型进行验证,确定分子性质预测模型的验证损失值,分子性质预测模型的训练装置50还包括参数生成模块,用于基于验证损失值,生成新的超参数,分子性质预测模型的训练装置50还包括重复执行模块,用于重新执行按照分子性质预测模型的超参数,调整分子性质预测模型的步骤以及后续步骤,直至满足预设条件为止,分子性质预测模型的训练装置50还包括模型优化模块,用于按照最小的验证损失值对应的超参数,调整分子性质预测模型,其中,验证样本包含分子的结构数据和标注性质。
区别于前述实施例,通过按照分子性质预测模型的超参数,调整分子性质预测模型,并在此基础上进行训练,从而利用验证样本对分子性质预测模型进行验证,确定分子性质预测模型的验证损失值,进而基于验证损失值,生成新的超参数,如此循环,并按照最小的验证损失值对应的超参数,调整分子性质预测模型,能够针对特定分子性质的预测任务,训练得到对应的分子性质预测模型。
在一些实施例中,分子性质预测模型的训练装置50还包括模型测试模块,用于利用测试样本对调整后的分子性质预测模型进行测试,确定调整后的分子性质预测模型的测试损失值,分子性质预测模型的训练装置50还包括性能确定模块,用于利用测试损失值,确定调整后的分子性质预测模型的预测性能;和/或,分子性质预测模型的训练装置50还包括重新训练模块,用于利用训练样本重新对调整后的分子性质预测模型进行训练。
区别于前述实施例,利用测试样本对调整后的分子性质预测模型进行测试,确定调整后的分子性质预测模型的测试损失值,并利用测试损失值,能够确定调整后的分子性质预测模型的预测性能,能够有利于对分子性质预测模型的性能进行评估;而利用训练样本重新对调整后的分子性质预测模型进行训练能够进一步优化分子性质预测模型的性能。
在一些实施例中,超参数包括以下至少一者:分子性质预测模型中的特征提取子模型的消息传递次数、特征提取子模型的隐层维度数、特征提取子模型的特征读出方式、分子性质预测模型中的性质分类子模型的前向传播层数、神经元去除系数。
区别于前述实施例,将超参数设置为包括分子性质预测模型中的特征提取子模型的消息传递次数、特征提取子模型的隐层维度数、特征提取子模型的特征读出方式、分子性质预测模型中的性质分类子模型的前向传播层数、神经元去除系数中的至少一者,能够有利于调整分子性质预测模型,故能够针对特定分子性质的预测任务,训练得到对应的分子性质预测模型。
在一些实施例中,分子性质预测模型的训练装置50还包括骨架分子模块,用于对图结构数据进行分子骨架分析,得到图结构数据对应的分子骨架,分子性质预测模型的训练装置50还包括样本划分模块,用于将分子骨架之间的相似度满足预设相似度条件的图结构数据,作为训练样本、测试样本、验证样本中的任一者。
区别于前述实施例,通过对图结构数据进行分子骨架分析,得到图结构数据对应的分子骨架,并将分子骨架之间的相似度满足预设相似度条件的图结构数据,作为训练样本、测试样本、验证样本中的任一者,故能够确保训练样本和测试样本之间的分子骨架不相似,从而能够提高分子性质预测模型的泛化能力。
在一些实施例中,预设相似度条件包括:相似度大于一相似度阈值;和/或,训练样本、测试样本和验证样本三者样本数量之间的样本比例为一预设比例。
区别于前述实施例,预设相似度条件包括:相似度大于一相似度阈值,能够使得相似度高的图结构数据归为一类,故能够确保训练样本和测试样本之间的分子骨架不相似,从而能够提高分子性质预测模型的泛化能力;通过将训练样本、测试样本和验证样本三者样本数量之间的样本比例设置为一预设比例,能够控制训练样本、测试样本和验证样本的数量,从而能够有利于提高分子性质预测模型的准确性。
在一些实施例中,特征结合模块53包括分子指纹子模块,用于利用分子指纹计算模型对结构数据进行特征提取,得到第一固定分子特征。
区别于前述实施例,通过利用分子指纹计算模型对结构数据进行特征提取,能够得到分子的全局特征,即第一固定分子特征,从而能够有利于在与学习到的可变分子特征结合后,提高分子性质预测模型的准确性。
请参阅图6,图6是本申请分子性质预测装置60一实施例的框架示意图。分子性质预测装置60包括数据获取模块61、特征提取模块62、特征结合模块63和分类处理模块64,数据获取模块61用于获取待识别分子的结构数据;特征提取模块62用于利用分子性质预测模型对结构数据进行特征提取,得到可变分子特征;特征结合模块63用于获取基于结构数据得到的固定分子特征,并结合可变分子特征和固定分子特征,得到待识别分子的融合分子特征;分类处理模块64用于利用分子性质预测模型对融合分子特征进行分类处理,得到待识别分子的预测性质。
上述方案,通过利用分子性质预测模型对分子的结构数据进行特征提取,得到可变分子特征,从而获取基于结构数据得到的固定分子特征,并结合可变分子特征和固定分子特征,得到分子的融合分子特征,从使得融合分子特征能够兼具分子的全局特征和局部特征,进而在利用分子性质预测模型对融合分子特征进行分类处理时,能够提高预测得到的分子性质的准确性。
在一些实施例中,分子性质预测模型是利用上述任一分子性质预测模型的训练装置实施例中的分子性质预测模型的训练装置得到的。
区别于前述实施例,在分子性质预测过程中,采用上述任一分子性质预测模型的训练装置实施例中的分子性质预测模型的训练装置,能够提高得到的可变分子特征的准确性,从而够提高预测得到的分子性质的准确性。
请参阅图7,图7是本申请电子设备70一实施例的框架示意图。电子设备70包括相互耦接的存储器71和处理器72,处理器72用于执行存储器71中存储的程序指令,以实现上述任一分子性质预测模型的训练方法实施例的步骤,或实现上述任一分子性质预测方法实施例中的步骤。在一个具体的实施场景中,电子设备70可以包括但不限于:微型计算机、服务器,此外,电子设备70还可以包括笔记本电脑、平板电脑等移动设备,在此不做限定。
具体而言,处理器72用于控制其自身以及存储器71以实现上述任一分子性质预测模型的训练方法实施例的步骤,或实现上述任一分子性质预测方法实施例中的步骤。处理器72还可以称为CPU(Central Processing Unit,中央处理单元)。处理器72可能是一种集成电路芯片,具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器72可以由集成电路芯片共同实现。
上述方案,能够使得融合分子特征能够兼具分子的全局特征和局部特征,从而能够提高分子性质预测的准确性。
请参阅图8,图8为本申请计算机可读存储介质80一实施例的框架示意图。计算机可读存储介质80存储有能够被处理器运行的程序指令801,程序指令801用于实现上述任一分子性质预测模型的训练方法实施例的步骤,或实现上述任一分子性质预测方法实施例中的步骤。
上述方案,能够使得融合分子特征能够兼具分子的全局特征和局部特征,从而能够提高分子性质预测的准确性。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (17)
1.一种分子性质预测模型的训练方法,其特征在于,所述训练方法包括:
获取训练样本,所述训练样本包含分子的结构数据和标注性质;
利用初始的分子性质预测模型对所述结构数据进行特征提取,得到第一可变分子特征;
获取基于所述结构数据得到的第一固定分子特征,并结合所述第一可变分子特征和所述第一固定分子特征,得到所述训练样本的融合分子特征;
利用所述分子性质预测模型对所述融合分子特征进行分类处理,得到所述训练样本的第一预测性质;
基于所述第一预测性质和所述标注性质,调整所述分子性质预测模型的网络参数。
2.根据权利要求1所述的训练方法,其特征在于,所述分子性质预测模型包括特征提取子模型和性质分类子模型;所述利用初始的分子性质预测模型对所述结构数据进行特征提取,得到第一可变分子特征之前,所述方法还包括:
利用所述训练样本对初始的分子性质预测模型中的所述特征提取子模型和所述性质分类子模型进行预训练;
所述利用初始的分子性质预测模型对所述结构数据进行特征提取,得到第一可变分子特征包括:
利用预训练后的特征提取子模型对所述结构数据进行特征提取,得到所述第一可变分子特征;
所述利用所述分子性质预测模型对所述融合分子特征进行分类处理,得到所述训练样本的第一预测性质包括:
利用预训练后的性质分类子模型对所述融合分子特征进行分类处理,得到所述训练样本的第一预测性质。
3.根据权利要求2所述的训练方法,其特征在于,所述利用所述训练样本对初始的分子性质预测模型中的所述特征提取子模型和所述性质分类子模型进行预训练包括:
利用所述特征提取子模型对所述结构数据进行特征提取,得到第二可变分子特征;
利用所述性质分类子模型对所述第二可变分子特征进行分类处理,得到所述训练样本的第二预测性质;
基于所述第二预测性质和所述标注性质,调整所述特征提取子模型和所述性质分类子模型的网络参数。
4.根据权利要求1至3任一项所述的训练方法,其特征在于,所述结构数据包括点、点之间的邻边以及点的属性特征、邻边的属性特征,所述点用于表示分子中的原子,所述邻边用于表示分子中的原子键;
所述利用初始的分子性质预测模型对所述结构数据进行特征提取,得到第一可变分子特征包括:
对于每个所述点,利用所述点的属性特征和所述点的相邻点和/或邻边的属性特征,对所述点的属性特征进行更新;
对所述结构数据中的所述点的属性特征进行编码处理,得到所述第一可变分子特征。
5.根据权利要求4所述的训练方法,其特征在于,所述点的属性包括以下至少一者:原子种类、原子度、自由电子数;
和/或,所述邻边的属性包括以下至少一者:原子键种类、是否为环;
和/或,所述分子性质预测模型包括用于特征提取的特征提取子模型,所述特征提取子模型为消息传递网络;所述对所述结构数据中的所述点的属性特征进行编码处理,得到所述第一可变分子特征之前,所述方法还包括:
若每一所述点的当前更新次数小于所述特征提取子模型的消息传递次数,则重新执行所述对于每个所述点,利用所述点的属性特征和所述点的相邻点和/或邻边的属性特征,对所述点的属性特征进行更新的步骤,否则,执行所述对所述结构数据中的所述点的属性特征进行编码处理,得到所述第一可变分子特征的步骤。
6.根据权利要求1至5任一项所述的训练方法,其特征在于,所述利用初始的分子性质预测模型对所述结构数据进行特征提取之前,所述方法还包括:
按照所述分子性质预测模型的超参数,调整所述分子性质预测模型;
所述基于所述第一预测性质和所述标注性质,调整所述分子性质预测模型的网络参数之后,所述方法还包括:
获取验证样本,并利用验证样本对所述分子性质预测模型进行验证,确定所述分子性质预测模型的验证损失值,
基于所述验证损失值,生成新的所述超参数;
重新执行所述按照所述分子性质预测模型的超参数,调整所述分子性质预测模型的步骤以及后续步骤,直至满足预设条件为止;
按照最小的所述验证损失值对应的所述超参数,调整所述分子性质预测模型;
其中,所述验证样本包含分子的结构数据和标注性质。
7.根据权利要求6所述的训练方法,其特征在于,所述按照最小的所述验证损失值对应的所述超参数,调整所述分子性质预测模型之后,所述方法还包括:
利用测试样本对调整后的所述分子性质预测模型进行测试,确定调整后的分子性质预测模型的测试损失值;
利用所述测试损失值,确定调整后的分子性质预测模型的预测性能;
和/或,
利用所述训练样本重新对调整后的所述分子性质预测模型进行训练。
8.根据权利要求6所述的训练方法,其特征在于,所述超参数包括以下至少一者:所述分子性质预测模型中的特征提取子模型的消息传递次数、所述特征提取子模型的隐层维度数、所述特征提取子模型的特征读出方式、所述分子性质预测模型中的性质分类子模型的前向传播层数、神经元去除系数。
9.根据权利要求1所述的训练方法,其特征在于,所述结构数据为图结构数据;所述获取训练样本之前,所述方法还包括:
对所述图结构数据进行分子骨架分析,得到所述图结构数据对应的分子骨架;
将所述分子骨架之间的相似度满足预设相似度条件的所述图结构数据,作为所述训练样本、测试样本、验证样本中的任一者。
10.根据权利要求9所述的训练方法,其特征在于,所述预设相似度条件包括:所述相似度大于一相似度阈值;
和/或,所述训练样本、所述测试样本和所述验证样本三者样本数量之间的样本比例为一预设比例。
11.根据权利要求1至10任一项所述的训练方法,其特征在于,所述获取基于所述结构数据得到的第一固定分子特征,包括:
利用分子指纹计算模型对所述结构数据进行特征提取,得到所述第一固定分子特征。
12.一种分子性质预测方法,其特征在于,包括:
获取待识别分子的结构数据;
利用分子性质预测模型对所述结构数据进行特征提取,得到可变分子特征;
获取基于所述结构数据得到的固定分子特征,并结合所述可变分子特征和所述固定分子特征,得到所述待识别分子的融合分子特征;
利用所述分子性质预测模型对所述融合分子特征进行分类处理,得到所述待识别分子的预测性质。
13.根据权利要求12所述的方法,其特征在于,
所述分子性质预测模型是利用权利要求1至11任一项所述的分子性质预测模型的训练方法得到的。
14.一种分子性质预测模型的训练装置,其特征在于,包括:
样本获取模块,用于获取训练样本,所述训练样本包含分子的结构数据和标注性质;
特征提取模块,用于利用初始的分子性质预测模型对所述结构数据进行特征提取,得到第一可变分子特征;
特征结合模块,用于获取基于所述结构数据得到的第一固定分子特征,并结合所述第一可变分子特征和所述第一固定分子特征,得到所述训练样本的融合分子特征;
分类处理模块,用于利用所述分子性质预测模型对所述融合分子特征进行分类处理,得到所述训练样本的第一预测性质;
参数调整模块,用于基于所述第一预测性质和所述标注性质,调整所述分子性质预测模型的网络参数。
15.一种分子性质预测装置,其特征在于,包括:
数据获取模块,用于获取待识别分子的结构数据;
特征提取模块,用于利用分子性质预测模型对所述结构数据进行特征提取,得到可变分子特征;
特征结合模块,用于获取基于所述结构数据得到的固定分子特征,并结合所述可变分子特征和所述固定分子特征,得到所述待识别分子的融合分子特征;
分类处理模块,用于利用所述分子性质预测模型对所述融合分子特征进行分类处理,得到所述待识别分子的预测性质。
16.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至11任一项所述的分子性质预测模型的训练方法,或权利要求12至13任一项所述的分子性质预测方法。
17.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至11任一项所述的分子性质预测模型的训练方法,或权利要求12至13任一项所述的分子性质预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011592593.7A CN112634992A (zh) | 2020-12-29 | 2020-12-29 | 分子性质预测方法及其模型的训练方法及相关装置、设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011592593.7A CN112634992A (zh) | 2020-12-29 | 2020-12-29 | 分子性质预测方法及其模型的训练方法及相关装置、设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112634992A true CN112634992A (zh) | 2021-04-09 |
Family
ID=75286084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011592593.7A Withdrawn CN112634992A (zh) | 2020-12-29 | 2020-12-29 | 分子性质预测方法及其模型的训练方法及相关装置、设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112634992A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114937478A (zh) * | 2022-05-18 | 2022-08-23 | 北京百度网讯科技有限公司 | 用于训练模型的方法、用于生成分子的方法和装置 |
WO2022222492A1 (zh) * | 2021-04-23 | 2022-10-27 | 中国科学院深圳先进技术研究院 | 药物分子特征属性的预测方法及预测装置 |
CN116486938A (zh) * | 2023-06-15 | 2023-07-25 | 苏州创腾软件有限公司 | 一种双钙钛矿化合物形成性的预测方法和装置 |
WO2024045957A1 (zh) * | 2022-09-01 | 2024-03-07 | 腾讯科技(深圳)有限公司 | 属性模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008116495A1 (en) * | 2007-03-26 | 2008-10-02 | Molcode Ltd | Method and apparatus for the design of chemical compounds with predetermined properties |
CN110321964A (zh) * | 2019-07-10 | 2019-10-11 | 重庆电子工程职业学院 | 识别模型更新方法及相关装置 |
CN110957012A (zh) * | 2019-11-28 | 2020-04-03 | 腾讯科技(深圳)有限公司 | 化合物的性质分析方法、装置、设备及存储介质 |
CN111710375A (zh) * | 2020-05-13 | 2020-09-25 | 中国科学院计算机网络信息中心 | 一种分子性质预测方法及系统 |
CN111768815A (zh) * | 2020-07-07 | 2020-10-13 | 扬州大学 | 基于理论线性溶解能关系模型预测POPs在PUF膜-空气的分配系数的方法 |
CN111816264A (zh) * | 2020-07-21 | 2020-10-23 | 中南大学 | 一种基于机器学习的有机朗肯循环工质设计方法 |
CN112052949A (zh) * | 2020-08-21 | 2020-12-08 | 北京市商汤科技开发有限公司 | 目标模型的获取方法及装置、电子设备和存储介质 |
CN112102899A (zh) * | 2020-09-15 | 2020-12-18 | 北京晶派科技有限公司 | 一种分子预测模型的构建方法和计算设备 |
-
2020
- 2020-12-29 CN CN202011592593.7A patent/CN112634992A/zh not_active Withdrawn
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008116495A1 (en) * | 2007-03-26 | 2008-10-02 | Molcode Ltd | Method and apparatus for the design of chemical compounds with predetermined properties |
CN110321964A (zh) * | 2019-07-10 | 2019-10-11 | 重庆电子工程职业学院 | 识别模型更新方法及相关装置 |
CN110957012A (zh) * | 2019-11-28 | 2020-04-03 | 腾讯科技(深圳)有限公司 | 化合物的性质分析方法、装置、设备及存储介质 |
CN111710375A (zh) * | 2020-05-13 | 2020-09-25 | 中国科学院计算机网络信息中心 | 一种分子性质预测方法及系统 |
CN111768815A (zh) * | 2020-07-07 | 2020-10-13 | 扬州大学 | 基于理论线性溶解能关系模型预测POPs在PUF膜-空气的分配系数的方法 |
CN111816264A (zh) * | 2020-07-21 | 2020-10-23 | 中南大学 | 一种基于机器学习的有机朗肯循环工质设计方法 |
CN112052949A (zh) * | 2020-08-21 | 2020-12-08 | 北京市商汤科技开发有限公司 | 目标模型的获取方法及装置、电子设备和存储介质 |
CN112102899A (zh) * | 2020-09-15 | 2020-12-18 | 北京晶派科技有限公司 | 一种分子预测模型的构建方法和计算设备 |
Non-Patent Citations (3)
Title |
---|
KYUNGPYO HAM; JEONGNOH YOON; LEE SAEL: "Towards Accurate and Certain Molecular Properties Prediction", IEEE, pages 1621 - 1624 * |
宋衡;: "药物分子设计中定量结构-药代动力学关系研究进展", 天津药学, no. 05, pages 60 - 63 * |
秦琦枫;曾斌;刘思莹;: "深度神经网络在化学中的应用研究", 江西化工, no. 03, pages 1 - 5 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022222492A1 (zh) * | 2021-04-23 | 2022-10-27 | 中国科学院深圳先进技术研究院 | 药物分子特征属性的预测方法及预测装置 |
CN114937478A (zh) * | 2022-05-18 | 2022-08-23 | 北京百度网讯科技有限公司 | 用于训练模型的方法、用于生成分子的方法和装置 |
CN114937478B (zh) * | 2022-05-18 | 2023-03-10 | 北京百度网讯科技有限公司 | 用于训练模型的方法、用于生成分子的方法和装置 |
WO2024045957A1 (zh) * | 2022-09-01 | 2024-03-07 | 腾讯科技(深圳)有限公司 | 属性模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品 |
CN116486938A (zh) * | 2023-06-15 | 2023-07-25 | 苏州创腾软件有限公司 | 一种双钙钛矿化合物形成性的预测方法和装置 |
CN116486938B (zh) * | 2023-06-15 | 2023-09-29 | 苏州创腾软件有限公司 | 一种双钙钛矿化合物形成性的预测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657805B (zh) | 超参数确定方法、装置、电子设备及计算机可读介质 | |
EP3711000B1 (en) | Regularized neural network architecture search | |
CN110366734B (zh) | 优化神经网络架构 | |
CN112634992A (zh) | 分子性质预测方法及其模型的训练方法及相关装置、设备 | |
US11544536B2 (en) | Hybrid neural architecture search | |
Chen et al. | A heuristic feature selection approach for text categorization by using chaos optimization and genetic algorithm | |
CN111406267A (zh) | 使用性能预测神经网络的神经架构搜索 | |
CN111612134B (zh) | 神经网络结构搜索方法、装置、电子设备及存储介质 | |
CN108985335B (zh) | 核反应堆包壳材料辐照肿胀的集成学习预测方法 | |
CN112069310B (zh) | 基于主动学习策略的文本分类方法及系统 | |
US20200167659A1 (en) | Device and method for training neural network | |
US8019593B2 (en) | Method and apparatus for generating features through logical and functional operations | |
Zhao et al. | Ensemble classification based on feature selection for environmental sound recognition | |
CN111582341B (zh) | 用户异常操作预测方法及装置 | |
CN116822651A (zh) | 基于增量学习的大模型参数微调方法、装置、设备及介质 | |
CN110738362A (zh) | 一种基于改进的多元宇宙算法构建预测模型的方法 | |
CN116010793A (zh) | 分类模型训练方法及装置、类别检测方法 | |
US11941867B2 (en) | Neural network training using the soft nearest neighbor loss | |
CN116129888A (zh) | 一种音频数据分类方法、装置、设备及介质 | |
KR20200063041A (ko) | 아키텍처 변이 기반 비지도 학습 및 선택적 오류 전파 기반 지도 학습을 이용한 신경망 학습 방법 및 장치 | |
Benmeziane et al. | Multi-objective hardware-aware neural architecture search with Pareto rank-preserving surrogate models | |
CN113223502A (zh) | 语音识别系统优化方法、装置、设备及可读存储介质 | |
CN115812210A (zh) | 用于增强机器学习分类任务的性能的方法和设备 | |
Zhang et al. | Learning to binarize convolutional neural networks with adaptive neural encoder | |
CN114332469A (zh) | 模型训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210409 |