CN117153294B - 一种单一体系的分子生成方法 - Google Patents
一种单一体系的分子生成方法 Download PDFInfo
- Publication number
- CN117153294B CN117153294B CN202311422597.4A CN202311422597A CN117153294B CN 117153294 B CN117153294 B CN 117153294B CN 202311422597 A CN202311422597 A CN 202311422597A CN 117153294 B CN117153294 B CN 117153294B
- Authority
- CN
- China
- Prior art keywords
- molecular
- generation model
- model
- molecule
- smiles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000014509 gene expression Effects 0.000 claims abstract description 73
- 238000012549 training Methods 0.000 claims abstract description 40
- 230000002787 reinforcement Effects 0.000 claims abstract description 15
- 238000012216 screening Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 43
- 230000007246 mechanism Effects 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 150000001875 compounds Chemical class 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 4
- 239000010410 layer Substances 0.000 description 34
- 230000008569 process Effects 0.000 description 7
- 238000012827 research and development Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- CZZYITDELCSZES-UHFFFAOYSA-N diphenylmethane Chemical compound C=1C=CC=CC=1CC1=CC=CC=C1 CZZYITDELCSZES-UHFFFAOYSA-N 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 101000801295 Homo sapiens Protein O-mannosyl-transferase TMTC3 Proteins 0.000 description 1
- 102100033736 Protein O-mannosyl-transferase TMTC3 Human genes 0.000 description 1
- 229920001872 Spider silk Polymers 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 125000001997 phenyl group Chemical group [H]C1=C([H])C([H])=C(*)C([H])=C1[H] 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/40—Searching chemical structures or physicochemical data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/90—Programming languages; Computing architectures; Database systems; Data warehousing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Crystallography & Structural Chemistry (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Medicinal Chemistry (AREA)
- Medical Informatics (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种单一体系的分子生成方法,属于深度学习及分子生成技术领域,要解决的技术问题为如何准确高效的生成分子。包括如下步骤:基于目标分子和相似分子组成分子数据集,分子数据集中分子由SMILES表达式组成;从SMILES表达式中筛选出分子包含的元素,元素之间通过空格间隔,并以预处理后的分子SMILES表达式作为样本构建样本数据集;构建分子生成模型,并基于样本数据集、通过Next Token Prediction训练任务对所述分子生成模型进行模型训练;基于微调数据集、通过强化学习方法对训练后分子生成模型进行参数调整,得到最终分子生成模型,通过最终分子生成模型预测输出分子SMILES表达式中每个元素。
Description
技术领域
本发明涉及深度学习技术领域,具体地说是一种单一体系的分子生成方法。
背景技术
在化学研发领域,关于如何去设计、生成新的分子,一直以来都在不断困扰着相关的研发人员。虽然在各自领域中,研发人员都是带着各自的约束条件来设计分子,但是面对庞大化学空间,研发专家也会面临重重困难。只能通过通过文献查询,来获取蛛丝马迹。随着深度学习技术不断发展,AI+化学的研发手段也变得越来越重要。借助深度学习技术的分子生成课题也变得越来越成熟。随着各研发工厂的信息化程度越来越高,相应的分子结构数据也得到了大量的积累,这也给分子生成的课题带来极大助益。
如何准确高效的生成分子,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供一种单一体系的分子生成方法,来解决如何准确高效的生成分子的问题。
第一方面,本发明一种单一体系的分子生成方法,包括如下步骤:
以目标单一体系的分子为目标分子,基于分子结构相似度、从公开的化合物分子数据库中检索与目标分子结构相似的分子作为相似分子,基于目标分子和相似分子组成分子数据集,分子数据集中分子由SMILES表达式组成;
对于分子数据集中每个分子,对分子进行预处理,从SMILES表达式中筛选出分子包含的元素,元素之间通过空格间隔,并以预处理后的分子SMILES表达式作为样本构建样本数据集;
构建分子生成模型,并基于样本数据集、通过Next Token Prediction训练任务对所述分子生成模型进行模型训练,得到训练后分子生成模型,所述分子生成模型为含有双通道注意力机制的Transformer模型,训练后分子生成模型用于预测输出分子SMILES表达式中每个元素以及元素概率值;
对于目标分子,对分子进行预处理,从SMILES表达式中筛选出分子包含的元素,元素之间通过空格间隔,并以预处理后的分子SMILES表达式作为样本构建微调数据集;
基于微调数据集、通过强化学习方法对训练后分子生成模型进行参数调整,得到最终分子生成模型,通过最终分子生成模型预测输出目标单一体系下分子SMILES表达式中每个元素以及元素概率值;
对于预测输出的目标单一体系下分子SMILES表达式,通过人工验证的方式对每个分子进行验证筛选。
作为优选,通过正则化方法从SMILES表达式中筛选出分子包含的元素,元素之间通过空格间隔。
作为优选,所述分子生成模型包括输入层、嵌入层、位置编码层、编码器、解码器、softmax层以及全连接层,编码器和解码器的多头注意力机制模块中均配置有双通道;
基于样本数据集、通过Next Token Prediction训练任务对所述分子生成模型进行模型训练时,执行如下操作:
将预处理后的分子SMILES表达式输入输入层;
以预处理后的分子SMILES表达式为输入,通过嵌入层进行元素提取,输出元素向量;
以预处后的分子SMILES表达式为输入,通过位置编码层计算元素在分子SMILES表达式中的位置,得到元素位置向量,并将元素位置向量和元素向量相加,得到元素矩阵作为输入矩阵;
将输入矩阵输入编码器,基于多头注意力机制模块中双通道进行编码计算,得到编码后元素向量;
将编码后元素向量输入解码器,基于多头注意力机制模块中双通道进行解码计算,并与softmax层和全连接层配合预测输出分子SMILES表达式中每个元素以及元素概率值;
将输入矩阵中元素作为真实值,将解码器预测输出的元素作为预测值,基于真实值和预测值之间的loss值构建损失函数,通过反向传播算法对分子生成模型的参数进行更新,得到分子生成模型的最终参数文件,基于参数文件构建的分子生成模型,以解码器、softmax层和全连接层组成的网络结构作为训练后分子生成模型;
其中,将编码后元素向量输入解码器,基于多头注意力机制中双通道进行解码计算时,对输入的编码后元素向量进行遮蔽处理,对于当前被预测的第n个元素,将解码器中第一个多头注意力机制模块中第n个元素之后的元素向量使用Mask字符进行代替。
作为优选,通过位置编码层计算元素在分子SMILES表达式中的位置时,位置编码计算公式为:
,
,
其中,为元素所在分子SMILES表达式中的位置,/>为元素向量的维度,/>为元素向量的位置。
作为优选,基于多头注意力机制模块中双通道进行编码计算时,计算公式如下:
,
,
其中,Q、K、V三个变量分别表示query、 key 和value向量矩阵,则表示key向量矩阵的维度;
其中一个通道通过atten1获取分子中元素之间相似性信息,另一个通道通过atten2获取分子中元素之间差异性信息。
作为优选,基于微调数据集、通过强化学习方法对训练后分子生成模型进行参数调整时,将训练后分子生成模型中的解码器的参数冻结,对训练后分子生成模型中softmax层和全连接层的参数进行微调。
作为优选,基于微调数据集、通过强化学习方法对训练后分子生成模型进行参数调整,包括如下步骤:
通过训练后分子生成模型预测生成多个分子的分子SMILES表达式;
基于预配置的评分规则、从有效性和单一体系相似性对生成的分子进行评价,得到评分;
将评分作为训练后分子生成模型的奖励,将评分和训练后分子生成模型的损失值进行融合得到奖励损失函数,通过反向传播算法对训练后分子生成模型的权重进行更新,得到最终分子生成模型;
构建奖励损失,对训练后分子生成模型进行模型权重的训练,奖励损失计算公式如下:
,
,
其中,表示训练后分子生成模型的loss值,/>用于更新训练后分子生成模型的权重,validity表示生成分子的分子SMILES表达式的有效性,similarity表示生成分子的分子SMILES表达式与单一体系分子的相似性;
对于训练后分子生成模型预测输出的分子SMILES表达式,对应的值为分子SMILES表达式中每个元素的元素概率值相加求均值得到。
本发明的一种单一体系的分子生成方法具有以下优点:
1、将待生成的分子作为目标分子,结合目标分子和与目标分子结构相近的近似分子构建样本数据集,实现了样本的多样性,基于该样本数据集对构建的分子生成模型进行模型训练 ,提高了模型的准确性;
2、构建的分子生成模型为含有双通道注意力机制的Transformer模型,该模型的解码器和编码器中通过双通道进行编码和解码计算,两个通道配合,其中一个通道进行相似性计算,另一个通道进行差异性计算,通过不同的注意力通道来获取分子SMILES式中原子与原子之间的联系,提高了模型预测的准确性;
3、对于训练后的分子生成模型,以目标分子作为微调数据集,基于微调数据集、通过强化学习算法对训练后的分子生成模型进行权重训练,强化学习主要通过奖励机制帮助模型有效的学习到该体系分子中每个原子的概率分布,以及该体系原子与原子的相互关联,通过小量单体系数据集对预训练模型进行微调,有助于模型能够学习到该体系分子的合理结构,大幅提高了分子生成的成功率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
图1为实施例一种单一体系的分子生成方法的流程框图;
图2为实施例一种单一体系的分子生成方法中二苯甲烷2D结构图;
图3为实施例一种单一体系的分子生成方法中双通道注意力机制的原理示意图;
图4为实施例一种单一体系的分子生成方法中强化学习的原理框图;
其中,softmax层通过softmax激活函数将一个数值向量归一化为一个概率分布向量,且各个概率之和为1;
Q、K、V三个变量分别表示query、 key 和value向量矩阵。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
本发明实施例提供一种单一体系的分子生成方法,用于解决如何准确高效的生成分子的技术问题。
实施例1:
本发明一种单一体系的分子生成方法,如图1所示包括如下步骤:
S100、以目标单一体系的分子为目标分子,基于分子结构相似度、从公开的化合物分子数据库中检索与目标分子结构相似的分子作为相似分子,基于目标分子和相似分子组成分子数据集,分子数据集中分子由SMILES表达式组成;
S200、对于分子数据集中每个分子,对分子进行预处理,从SMILES表达式中筛选出分子包含的元素,元素之间通过空格间隔,并以预处理后的分子SMILES表达式作为样本构建样本数据集;
S300、构建分子生成模型,并基于样本数据集、通过Next Token Prediction训练任务对所述分子生成模型进行模型训练,得到训练后分子生成模型,所述分子生成模型为含有双通道注意力机制的Transformer模型,训练后分子生成模型用于预测输出分子SMILES表达式中每个元素以及元素概率值;
S400、对于目标分子,对分子进行预处理,从SMILES表达式中筛选出分子包含的元素,元素之间通过空格间隔,并以预处理后的分子SMILES表达式作为样本构建微调数据集;
S500、基于微调数据集、通过强化学习方法对训练后分子生成模型进行参数调整,得到最终分子生成模型,通过最终分子生成模型预测输出目标单一体系下分子SMILES表达式中每个元素以及元素概率值;
S600、对于预测输出的目标单一体系下分子SMILES表达式,通过人工验证的方式对每个分子进行验证筛选。
本实施例步骤S100获取样本数据集。针对要生成的分子,首先确定要探索分子的结构体系,例如二苯甲烷SMILES式为c1ccc(Cc2ccccc2)cc1,2D结果如图2所示,同一分子体系指的是保持两侧苯环不变的情况下,只在中间碳的位置进行结构的改变。
然后将要探索分子为目标分子,检索与目标分子结构相似的分子作为相似分子。该检索过程中,首先通过历史文献找到已有的该体系结构,构成一个小型体系数据库A;然后通过大型化合物分子结构数据库pubchem对该体系数据库中的分子进行检索,利用数据库pubchem中的分子结构相似度选项进行设定,将得到的分子SMILES数据进行去重,即可得到几十万的分子数据库B。该数据即可满足预训练模型的需求。
步骤S200对样本数据集进行数据预处理。作为数据预处理具体实施,采用正则化的方法对分子SMILES表达式进行数据处理。正则化规则:对输入的分子SMILE表达式筛选出分子所包含的元素,然后元素之间用空格分割,得到正则化处理结果,即:满足模型的输入规则的数据。
结果示例如下: C C 1 = C C = C ( C = C 1 ) Cl。
步骤S300为分子生成模型的构建和训练。本实施例构建的分子生成模型包括输入层、嵌入层、位置编码层、编码器、解码器、softmax层以及全连接层,编码器和解码器的多头注意力机制模块中均配置有双通道。
作为模型训练的具体实施,基于样本数据集、通过Next Token Prediction训练任务对所述分子生成模型进行模型训练时,执行如下操作:
(1)将预处理后的分子SMILES表达式输入输入层;
(2)以预处理后的分子SMILES表达式为输入,通过嵌入层进行元素提取,输出元素向量;
(3)以预处后的分子SMILES表达式为输入,通过位置编码层计算元素在分子SMILES表达式中的位置,得到元素位置向量,并将元素位置向量和元素向量相加,得到元素矩阵作为输入矩阵;
(4)将输入矩阵输入编码器,基于多头注意力机制模块中双通道进行编码计算,得到编码后元素向量;
(5)将编码后元素向量输入解码器,基于多头注意力机制模块中双通道进行解码计算,并与softmax层和全连接层配合预测输出分子SMILES表达式中每个元素以及元素概率值;
(6)将输入矩阵中元素作为真实值,将解码器预测输出的元素作为预测值,基于真实值和预测值之间的loss值构建损失函数,通过反向传播算法对分子生成模型的参数进行更新,得到分子生成模型的最终参数文件,基于参数文件构建的分子生成模型,以解码器、softmax层和全连接层组成的网络结构作为训练后分子生成模型。
其中,将编码后元素向量输入解码器,基于多头注意力机制中双通道进行解码计算时,对输入的编码后元素向量进行遮蔽处理,对于当前被预测的第n个元素,将解码器中第一个多头注意力机制模块中第n个元素之后的元素向量使用Mask字符进行代替。
其中,通过位置编码层计算元素在分子SMILES表达式中的位置时,位置编码计算公式为:
(1),
其中,为元素所在分子SMILES表达式中的位置,/>为元素向量的维度,/>为元素向量的位置。
如图3所示,基于多头注意力机制模块中双通道进行编码计算时,计算公式如下:
(2),
(3),
其中,Q、K、V三个变量分别表示query、 key 和value向量矩阵,则表示key向量矩阵的维度。其中一个通道通过atten1获取分子中元素之间相似性信息,另一个通道通过atten2获取分子中元素之间差异性信息。
本实施例搭建一个含有双通道注意力机制的Transformer的模型,与传统的双通道注意力机制不同,这两个注意力机制模块分别从输入序列中获取不同信息。模型训练过程中采用的Next Token Prediction的训练任务。其主要过程如下:将编码后的分子SMILES表达式的矩阵输入到编码器的多头注意力模块处理得到其编码表示;然后将其输入到解码器中,而解码器主要工作则是对该分子SMILES表达式进行每个元素进行预测,为了防止信息泄露,需要对当前元素到元素结尾进行遮蔽处理;最后采用交叉熵损失函数计算预测输出的元素与真实分子SMILES表达式中元素之间的loss值,采用反向传播算法对网络模型参数进行更新;经过多轮训练之后,当loss值趋于稳定,进行模型参数prior_model存储,训练完成。
遮蔽处理规则:假设当前预测第n个元素,则将解码器第一个模块中第n个元素之后向量使用Mask字符进行代替。主要原因在于防止在预测过程中造成信息泄露,而使用Mask代替有效的防止信息提前透露给解码器。
在模型训练执行过程中,模型参数的设定如下:多头注意力层的头数设定为8,优化器使用的自适应调整的Adam,采用warm启动方式参数设定为500,损失函数使用的是交叉熵损失函数,batch_size为256,dropout为0.1,序列最大长度设置为140。
步骤S400对目标分子构成的微调数据集进行数据预处理,其处理方式与步骤S200对于样本数据集的处理一致。在具体执行过程中,步骤S200和步骤S400可同时执行。
步骤S500对训练后的分子生成模型进行微调。本实施例中,基于微调数据集、通过强化学习方法对训练后分子生成模型进行参数调整时,将训练后分子生成模型中的解码器的参数冻结,对训练后分子生成模型中softmax层和全连接层的参数进行微调。
如图4所示,作为微调的具体实施,基于微调数据集、通过强化学习方法对训练后分子生成模型进行参数调整,包括如下步骤:
(1)通过训练后分子生成模型预测生成多个分子的分子SMILES表达式;
(2)基于预配置的评分规则、从有效性和单一体系相似性对生成的分子进行评价,得到评分;
(3)将评分作为训练后分子生成模型的奖励,将评分和训练后分子生成模型的损失值进行融合得到奖励损失函数,通过反向传播算法对训练后分子生成模型的权重进行更新,得到最终分子生成模型;
(4)构建奖励损失,对训练后分子生成模型进行模型权重的训练,奖励损失计算公式如下:
(4),
(5),
其中,表示训练后分子生成模型的loss值,/>用于更新训练后分子生成模型的权重,validity表示生成分子的分子SMILES表达式的有效性,similarity表示生成分子的分子SMILES表达式与单一体系分子的相似性。
Validity可有rdkit工具包直接得到、similarity可以通过余弦相似性计算,对于训练后分子生成模型预测输出的分子SMILES表达式,对应的值为分子SMILES表达式中每个元素的元素概率值相加求均值得到。例如,训练后分子生成模型生成了一个含有三个元素的CCCl分子,该模型需要从左到右依次预测第一个元素C的概率为0.92,第二个元素C的概率0.9第三个元素Cl的概率为0.88,则 loss=(0.92+0.9+0.88)/3 。此loss计算方式为生成模型常用方法。
本实施例该步骤冻结训练后分子生成模型的核心层(解码器),仅保留softmax层以及全连接层。将数据库A(目标分子的分子SMILES表达式构成)中的数据集作为训练集对模型进行微调,当loss趋于稳定之后,进行模型参数finetune_model的存储。该操作中,模型微调是模型借助数据库A中的分子数据来帮助模型学习该体系分子元素的分布概率,以便在强化学习模块中,能够尽量多的产生符合该体系分子,以便于强化学习模块快速收敛。
在具体实施过程中,首先设定模型训练参数与步骤S300分子生成模型训练时保持一致,设定step为500,通过batchsize为128控制模型每次生成的SMILES的数量为128个。然后载入模型finetune_model生成128个分子的分子SMILES表达式;然后利用评分规则对该批次的分子SMILES,从有效性和体系相似性进行评分;最后,将评分score与模型p11进行融合,loss的融合机制公式(5)所示,然后通过反向传播对模型的权重进行更新,基于以上一个训练周期,进行多轮次训练直至训练完成。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。
Claims (5)
1.一种单一体系的分子生成方法,其特征在于,包括如下步骤:
以目标单一体系的分子为目标分子,基于分子结构相似度、从公开的化合物分子数据库中检索与目标分子结构相似的分子作为相似分子,基于目标分子和相似分子组成分子数据集,分子数据集中分子由SMILES表达式组成;
对于分子数据集中每个分子,对分子进行预处理,从SMILES表达式中筛选出分子包含的元素,元素之间通过空格间隔,并以预处理后的分子SMILES表达式作为样本构建样本数据集;
构建分子生成模型,并基于样本数据集、通过Next Token Prediction训练任务对所述分子生成模型进行模型训练,得到训练后分子生成模型,所述分子生成模型为含有双通道注意力机制的Transformer模型,训练后分子生成模型用于预测输出分子SMILES表达式中每个元素以及元素概率值;
对于目标分子,对分子进行预处理,从SMILES表达式中筛选出分子包含的元素,元素之间通过空格间隔,并以预处理后的分子SMILES表达式作为样本构建微调数据集;
基于微调数据集、通过强化学习方法对训练后分子生成模型进行参数调整,得到最终分子生成模型,通过最终分子生成模型预测输出目标单一体系下分子SMILES表达式中每个元素以及元素概率值;
对于预测输出的目标单一体系下分子SMILES表达式,通过人工验证的方式对每个分子进行验证筛选;
所述分子生成模型包括输入层、嵌入层、位置编码层、编码器、解码器、softmax层以及全连接层,编码器和解码器的多头注意力机制模块中均配置有双通道;
基于样本数据集、通过Next Token Prediction训练任务对所述分子生成模型进行模型训练时,执行如下操作:
将预处理后的分子SMILES表达式输入输入层;
以预处理后的分子SMILES表达式为输入,通过嵌入层进行元素提取,输出元素向量;
以预处后的分子SMILES表达式为输入,通过位置编码层计算元素在分子SMILES表达式中的位置,得到元素位置向量,并将元素位置向量和元素向量相加,得到元素矩阵作为输入矩阵;
将输入矩阵输入编码器,基于多头注意力机制模块中双通道进行编码计算,得到编码后元素向量;
将编码后元素向量输入解码器,基于多头注意力机制模块中双通道进行解码计算,并与softmax层和全连接层预测输出分子SMILES表达式中每个元素以及元素概率值;
将输入矩阵中元素作为真实值,将解码器预测输出的元素作为预测值,基于真实值和预测值之间的loss值构建损失函数,通过反向传播算法对分子生成模型的参数进行更新,得到分子生成模型的最终参数文件,基于参数文件构建的分子生成模型,以解码器、softmax层和全连接层组成的网络结构作为训练后分子生成模型;
其中,将编码后元素向量输入解码器,基于多头注意力机制中双通道进行解码计算时,对输入的编码后元素向量进行遮蔽处理,对于当前被预测的第n个元素,将解码器中第一个多头注意力机制模块中第n个元素之后的元素向量使用Mask字符进行代替;
基于多头注意力机制模块中双通道进行编码计算时,计算公式如下:
其中,Q、K、V三个变量分别表示query、key和value向量矩阵,dk则表示key向量矩阵的维度;
其中一个通道通过atten1获取分子中元素之间相似性信息,另一个通道通过atten2获取分子中元素之间差异性信息。
2.根据权利要求1所述的单一体系的分子生成方法,其特征在于,通过正则化方法从SMILES表达式中筛选出分子包含的元素,元素之间通过空格间隔。
3.根据权利要求1所述的单一体系的分子生成方法,其特征在于,通过位置编码层计算元素在分子SMILES表达式中的位置时,位置编码计算公式为:
其中,pos为元素所在分子SMILES表达式中的位置,d为元素向量的维度,i为元素向量的位置。
4.根据权利要求3所述的单一体系的分子生成方法,其特征在于,基于微调数据集、通过强化学习方法对训练后分子生成模型进行参数调整时,将训练后分子生成模型中的解码器的参数冻结,对训练后分子生成模型中softmax层和全连接层的参数进行微调。
5.根据权利要求1所述的单一体系的分子生成方法,其特征在于,基于微调数据集、通过强化学习方法对训练后分子生成模型进行参数调整,包括如下步骤:
通过训练后分子生成模型预测生成多个分子的分子SMILES表达式;
基于预配置的评分规则、从有效性和单一体系相似性对生成的分子进行评价,得到评分;
将评分作为训练后分子生成模型的奖励,将评分和训练后分子生成模型的损失值进行融合得到奖励损失函数,通过反向传播算法对训练后分子生成模型的权重进行更新,得到最终分子生成模型;
构建奖励损失,对训练后分子生成模型进行模型权重的训练,奖励损失计算公式如下:
lossreward=score*lossmodel,
lossreward=score*lossmodel,
其中,lossmodel表示训练后分子生成模型的loss值,lossreward用于更新训练后分子生成模型的权重,validity表示生成分子的分子SMILES表达式的有效性,similarity表示生成分子的分子SMILES表达式与单一体系分子的相似性;
对于训练后分子生成模型预测输出的分子SMILES表达式,对应的lossmodel值为分子SMILES表达式中每个元素的元素概率值相加求均值得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311422597.4A CN117153294B (zh) | 2023-10-31 | 2023-10-31 | 一种单一体系的分子生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311422597.4A CN117153294B (zh) | 2023-10-31 | 2023-10-31 | 一种单一体系的分子生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117153294A CN117153294A (zh) | 2023-12-01 |
CN117153294B true CN117153294B (zh) | 2024-01-26 |
Family
ID=88903070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311422597.4A Active CN117153294B (zh) | 2023-10-31 | 2023-10-31 | 一种单一体系的分子生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117153294B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117594157B (zh) * | 2024-01-19 | 2024-04-09 | 烟台国工智能科技有限公司 | 基于强化学习的单一体系的分子生成方法及装置 |
CN118072861B (zh) * | 2024-04-17 | 2024-07-23 | 烟台国工智能科技有限公司 | 一种基于多模态特征融合的分子优化方法、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112786108A (zh) * | 2021-01-21 | 2021-05-11 | 北京百度网讯科技有限公司 | 分子理解模型的训练方法、装置、设备和介质 |
CN113838536A (zh) * | 2021-09-13 | 2021-12-24 | 烟台国工智能科技有限公司 | 翻译模型构建方法、产物预测模型构建方法及预测方法 |
WO2022007871A1 (zh) * | 2020-07-09 | 2022-01-13 | 中国科学院上海药物研究所 | 一种用于有机化合物的化学结构和命名双向自动转化的处理方法及装置 |
CN114974461A (zh) * | 2022-06-15 | 2022-08-30 | 烟台国工智能科技有限公司 | 基于策略学习的多目标属性分子生成方法及系统 |
CN115565622A (zh) * | 2022-09-06 | 2023-01-03 | 中国海洋大学 | 基于深度学习及化学反应规则的海洋化合物分子生成方法 |
CN115719622A (zh) * | 2022-11-28 | 2023-02-28 | 烟台国工智能科技有限公司 | 一种化学分子性质预测的方法、系统及介质 |
CN115762659A (zh) * | 2022-10-19 | 2023-03-07 | 清华大学 | 融合smiles序列和分子图的分子预训练表示方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220172802A1 (en) * | 2020-11-30 | 2022-06-02 | Insilico Medicine Ip Limited | Retrosynthesis systems and methods |
-
2023
- 2023-10-31 CN CN202311422597.4A patent/CN117153294B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022007871A1 (zh) * | 2020-07-09 | 2022-01-13 | 中国科学院上海药物研究所 | 一种用于有机化合物的化学结构和命名双向自动转化的处理方法及装置 |
CN112786108A (zh) * | 2021-01-21 | 2021-05-11 | 北京百度网讯科技有限公司 | 分子理解模型的训练方法、装置、设备和介质 |
CN113838536A (zh) * | 2021-09-13 | 2021-12-24 | 烟台国工智能科技有限公司 | 翻译模型构建方法、产物预测模型构建方法及预测方法 |
CN114974461A (zh) * | 2022-06-15 | 2022-08-30 | 烟台国工智能科技有限公司 | 基于策略学习的多目标属性分子生成方法及系统 |
CN115565622A (zh) * | 2022-09-06 | 2023-01-03 | 中国海洋大学 | 基于深度学习及化学反应规则的海洋化合物分子生成方法 |
CN115762659A (zh) * | 2022-10-19 | 2023-03-07 | 清华大学 | 融合smiles序列和分子图的分子预训练表示方法及系统 |
CN115719622A (zh) * | 2022-11-28 | 2023-02-28 | 烟台国工智能科技有限公司 | 一种化学分子性质预测的方法、系统及介质 |
Non-Patent Citations (4)
Title |
---|
MOIGPT:molecular generation using a transformer-decoder model;V Bagai等;ACS publications;全文 * |
Molecular Transformer: A Model for Uncertainty-Calibrated Chemical Reaction Prediction;Schwaller, P等;ACS CNTRAL SCIENCE;全文 * |
Transformer-convolutional neural network for surface charge density profile prediction: Enabling high-throughput solvent screening with COSMO-SAC;Guzhong Chen等;Chemical Engineering Science;全文 * |
基于深度学习的单步逆合成反应预测方法研究;李思徵;中国优秀硕士学位论文全文数据库医药卫生科技辑(第01期);E079-57 * |
Also Published As
Publication number | Publication date |
---|---|
CN117153294A (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117153294B (zh) | 一种单一体系的分子生成方法 | |
Tian et al. | Synchronous transformers for end-to-end speech recognition | |
JP2021060992A (ja) | マシンラーニングシステム及び方法 | |
CN113838536B (zh) | 翻译模型构建方法、产物预测模型构建方法及预测方法 | |
CN114757432B (zh) | 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统 | |
Mi et al. | Memory augmented neural model for incremental session-based recommendation | |
CN116959613B (zh) | 基于量子力学描述符信息的化合物逆合成方法及装置 | |
CN117334271B (zh) | 一种基于指定属性生成分子的方法 | |
US20220383994A1 (en) | Target-to-catalyst translation networks | |
CN117576910A (zh) | 一种基于循环时空注意力机制的交通流量预测方法 | |
CN113076545A (zh) | 一种基于深度学习的内核模糊测试序列生成方法 | |
CN116661797A (zh) | 一种词元粒度下基于加强Transformer的代码补全方法 | |
Wang et al. | Human mitochondrial genome compression using machine learning techniques | |
CN117275609A (zh) | 一种基于变分自编码器和Transformer模型的分子设计方法 | |
Xu et al. | Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting | |
CN114936723B (zh) | 一种基于数据增强的社交网络用户属性预测方法及系统 | |
WO2023132881A1 (en) | Model quantization for software engineering tasks | |
CN115600656A (zh) | 一种基于分段策略与多成分分解算法的多元时间序列预测方法 | |
WO2023063880A2 (en) | System and method for training a transformer-in-transformer-based neural network model for audio data | |
CN115422329A (zh) | 一种基于知识驱动的多路筛选融合对话生成方法 | |
Schambach et al. | Scaling Experiments in Self-Supervised Cross-Table Representation Learning | |
CN116417062B (zh) | 酶-底物亲和力常数预测方法、存储介质和装置 | |
CN117010459B (zh) | 基于模块化和序列化自动生成神经网络的方法 | |
WO2022196301A1 (ja) | 候補アイディアを生成するシステム及び方法 | |
CN118072861B (zh) | 一种基于多模态特征融合的分子优化方法、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: Floor 27, Zhenghai Building, No. 66, the Pearl River Road, Yantai Economic and Technological Development Zone, Shandong 265599 Patentee after: Yantai Guogong Intelligent Technology Co.,Ltd. Country or region after: China Address before: 265599 room 517, floor 5, No. 1 Wuzhishan Road, Yantai Economic and Technological Development Zone, Shandong Province Patentee before: Yantai Guogong Intelligent Technology Co.,Ltd. Country or region before: China |