CN115359856A - 一种分子生成模型的训练方法及装置 - Google Patents
一种分子生成模型的训练方法及装置 Download PDFInfo
- Publication number
- CN115359856A CN115359856A CN202210877250.8A CN202210877250A CN115359856A CN 115359856 A CN115359856 A CN 115359856A CN 202210877250 A CN202210877250 A CN 202210877250A CN 115359856 A CN115359856 A CN 115359856A
- Authority
- CN
- China
- Prior art keywords
- molecular
- sample
- training
- molecule
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 223
- 238000000034 method Methods 0.000 title claims abstract description 103
- 230000014509 gene expression Effects 0.000 claims abstract description 69
- 230000008569 process Effects 0.000 claims abstract description 59
- 238000012545 processing Methods 0.000 claims abstract description 27
- 239000012634 fragment Substances 0.000 claims description 45
- 150000002894 organic compounds Chemical class 0.000 claims description 39
- 239000013598 vector Substances 0.000 claims description 26
- 238000012163 sequencing technique Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 150000001875 compounds Chemical class 0.000 abstract description 24
- 238000004458 analytical method Methods 0.000 abstract description 23
- 230000006870 function Effects 0.000 description 23
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 22
- 229910052799 carbon Inorganic materials 0.000 description 21
- 238000001228 spectrum Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 15
- 238000003860 storage Methods 0.000 description 9
- 230000009471 action Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000005481 NMR spectroscopy Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000302 molecular modelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012916 structural analysis Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000004896 high resolution mass spectrometry Methods 0.000 description 1
- 238000002329 infrared spectrum Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000001819 mass spectrum Methods 0.000 description 1
- 229930014626 natural product Natural products 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
Landscapes
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本申请实施例提供了一种分子生成模型的训练方法及装置。所述方法包括:获取训练数据,所述训练数据包括:分子的表达信息样本和分子结构表示样本;采用待训练分子生成模型,对所述分子的表达信息样本进行处理,以得到训练输出;根据所述训练输出和所述分子结构表示样本构建损失函数值,在所述损失函数值或训练轮数处于预设范围内的情况下,将训练后的待训练分子生成模型作为所述分子生成模型。本申请实施例可以提高未知化合物的分子结构解析的准确度,降低未知化合物的分子结构解析过程的耗时,提高分子结构的解析效率。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种分子生成模型的训练方法及装置。
背景技术
有机化合物的结构解析是化学研究的重要领域。核磁共振碳谱从二十世纪七十年代开始被应用于化合物的结构表征,迄今已经长达五十余年。碳谱的化学位移数值是有机化合物碳骨架结构的特征,这是其他光谱难以提供的信息,因此碳谱被广泛地应用在化合物的结构解析中。
通常对于未知化合物,专家会凭借核磁共振碳谱及其他分子谱图,如质谱、红外等结合自己的经验,并手工查阅文献资料,解析出分子结构。然而,有机分子的结构复杂多样,数量庞大,而科研人员积累经验是个长时间的过程,结构解析存在着非常大的主观局限性。因此,未知化合物的分子结构解析过程往往耗时较长,效率低,且时常出现解错分子结构的现象,导致分子结构解析结果的准确度较低。
发明内容
本申请实施例所要解决的技术问题是提供一种分子生成模型的训练方法及装置,以降低未知化合物的分子结构解析过程的耗时,提高解析效率,同时可以提高分子结构解析结果的准确度。
第一方面,本申请实施例提供了一种分子生成模型的训练方法,所述方法包括:
获取训练数据,所述训练数据包括:分子的表达信息样本和分子结构表示样本;
采用待训练分子生成模型,对所述分子的表达信息样本进行处理,以得到训练输出;
根据所述训练输出和所述分子结构表示样本构建损失函数值,在所述损失函数值或训练轮数处于预设范围内的情况下,将训练后的待训练分子生成模型作为所述分子生成模型。
可选地,在所述将训练后的待训练分子生成模型作为所述分子生成模型之后,还包括:
将待确定结构的有机化合物的分子的表达信息输入所述分子生成模型,得到所述待确定结构的有机化合物的预测分子结构表示。
可选地,所述分子的表达信息样本为:分子谱图数据样本、分子式样本和分子片段样本中的至少一种;
其中,所述分子式样本和所述分子片段样本为根据所述分子结构表示样本生成的,所述分子谱图数据样本为真实分子谱图数据样本和模拟分子谱图数据样本中的至少一种。
可选地,所述待训练分子生成模型包括编码器和解码器;
所述采用待训练分子生成模型,对所述分子的表达信息样本进行处理,以得到训练输出,包括:
将所述分子表达信息样本转换为向量;
采用所述编码器对所述向量进行处理,以得到编码输出;
采用所述解码器对所述编码输出进行处理,以得到所述训练输出。
可选地,所述待训练分子生成模型是通过多种训练任务训练而成的,所述多种训练任务包括:对分子结构表示进行部分遮挡,基于输入的部分遮挡后的分子结构表示生成完整的分子结构表示;基于分子的第一结构表示生成所述分子的第二结构表示,所述第一结构表示和第二结构表示为同一个分子的两种不同的结构表示。
可选地,所述得到所述待确定结构的有机化合物的预测分子结构表示进一步经由过滤处理,所述过滤处理为过滤掉所述预测分子结构表示中与所述分子的表达信息不一致的预测分子结构表示。
可选地,所述得到所述待确定结构的有机化合物的预测分子结构表示进一步经由重排序处理;
所述重排序处理为基于排序模型计算得到所述预测分子结构表示与所述待确定结构的有机化合物的分子谱图数据之间的相似度,按照所述相似度由高到低的顺序对所述预测分子结构表示进行重排序;
所述排序模型为由分子谱图数据与分子结构表示的对应数据训练得到的跨模态相似度排序模型。
第二方面,本申请实施例提供了一种分子生成模型的训练装置,所述装置包括:
训练数据获取模块,用于获取训练数据,所述训练数据包括:分子的表达信息样本和分子结构表示样本;
训练输出获取模块,用于采用待训练分子生成模型,对所述分子的表达信息样本进行处理,以得到训练输出;
分子生成模型获取模块,用于根据所述训练输出和所述分子结构表示样本构建损失函数值,在所述损失函数值或训练轮数处于预设范围内的情况下,将训练后的待训练分子生成模型作为所述分子生成模型。
可选地,所述装置还包括:
预测分子结构表示获取模块,用于将待确定结构的有机化合物的分子的表达信息输入所述分子生成模型,得到所述待确定结构的有机化合物的预测分子结构表示。
可选地,所述分子的表达信息样本为:分子谱图数据样本、分子式样本和分子片段样本中的至少一种;
其中,所述分子式样本和所述分子片段样本为根据所述分子结构表示样本生成的,所述分子谱图数据样本为真实分子谱图数据样本和模拟分子谱图数据样本中的至少一种。
可选地,所述待训练分子生成模型包括编码器和解码器;
所述训练输出获取模块包括:
向量转换单元,用于将所述分子表达信息样本转换为向量;
编码输出获取单元,用于采用所述编码器对所述向量进行处理,以得到编码输出;
训练输出获取单元,用于采用所述解码器对所述编码输出进行处理,以得到所述训练输出。
可选地,所述待训练分子生成模型是通过多种训练任务训练而成的,所述多种训练任务包括:对分子结构表示进行部分遮挡,基于输入的部分遮挡后的分子结构表示生成完整的分子结构表示;基于分子的第一结构表示生成所述分子的第二结构表示,所述第一结构表示和第二结构表示为同一个分子的两种不同的结构表示。
可选地,所述得到所述待确定结构的有机化合物的预测分子结构表示进一步经由过滤处理,所述过滤处理为过滤掉所述预测分子结构表示中与所述分子的表达信息不一致的预测分子结构表示。
可选地,所述得到所述待确定结构的有机化合物的预测分子结构表示进一步经由重排序处理;
所述重排序处理为基于排序模型计算得到所述预测分子结构表示与所述待确定结构的有机化合物的分子谱图数据之间的相似度,按照所述相似度由高到低的顺序对所述预测分子结构表示进行重排序;
所述排序模型为由分子谱图数据与分子结构表示的对应数据训练得到的跨模态相似度排序模型。
第三方面,本申请实施例提供了一种电子设备,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述的分子生成模型的训练方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一项所述的分子生成模型的训练方法。
与现有技术相比,本申请实施例包括以下优点:
本申请实施例中,通过获取训练数据,该训练数据包括:分子的表达信息样本和分子结构表示样本,采用待训练分子生成模型,对分子的表达信息样本进行处理,以得到训练输出,根据训练输出和分子结构表示样本构建损失函数值,在损失函数值或训练轮数处于预设范围内的情况下,将训练后的待训练分子生成模型作为分子生成模型。本申请实施例通过分子的表达信息样本训练得到用于预测分子结构的分子生成模型,通过该分子生成模型可以预测未知化合物的分子结构,相较于现有的分子结构解析方式,可以提高未知化合物分子结构解析的准确度,同时可以降低未知化合物的分子结构解析过程的耗时,提高了分子结构的解析效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
图1为本申请实施例提供的一种分子生成模型的训练方法的步骤流程图;
图2为本申请实施例提供的一种分子smiles序列的示意图;
图3为本申请实施例提供的一种模型训练流程的示意图;
图4为本申请实施例提供的一种分子生成模型解析流程的示意图;
图5为本申请实施例提供的一种分子结构解析流程的示意图;
图6为本申请实施例提供的一种分子生成模型的训练装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端中还存在另外的相同要素。
参照图1,示出了本申请实施例提供的一种分子生成模型的训练方法的步骤流程图,如图1所示,该分子生成模型的训练方法可以包括以下步骤:
步骤101:获取训练数据,所述训练数据包括:分子的表达信息样本和分子结构表示样本。
本申请实施例可以应用于结合分子的表达信息样本训练得到用于预测分子结构的分子生成模型的场景中。
训练数据是指用于训练得到分子生成模型的样本数据,在本示例中,训练数据可以包括:分子的表达信息样本和分子结构表示样本。
其中,分子的表达信息样本可以为:分子谱图数据样本、分子式样本和分子片段样本中的至少一种。
分子式样本和分子片段样本为根据分子结构标识样本生成的,分子谱图数据样本为真实分子谱图数据样本和模拟分子谱图数据样本中的至少一种。
在本实施例中,同一分子式对应的分子结构数量极为庞大,再加上分子片段的条件限制,将能够更加精准地生成目标分子。基于分子式序列样本或分子片段表示序列样本生成分子表示序列样本可以作为分子生成模型的预训练任务之一。
核磁碳谱数据是化合物结构的有效表征方式,可以用于分子结构解析。基于核磁碳谱数据生成分子表示序列样本可以作为分子生成模型的微调任务之一。此外,分子式和结构片段在某些情况下也是关于未知化合物的先验信息。分子结构解析本质上是一个多约束分子生成问题,其目标是生成满足核磁碳谱数据及其它先验信息,如分子式及结构片段等这些约束条件的分子结构。通过灵活可调整的多项输入形式,可输入如核磁碳谱数据、分子式、结构片段等控制项,生成满足约束条件的分子结构,可以作为分子生成模型的微调任务。
在进行分子生成模型的训练时,可以获取训练数据,具体地,可以获取多个(如3000个、5000个等)分子,并获取分子的分子结构表示样本。在得到多个分子的分子结构表示样本之后,可以根据每个分子的分子结构表示样本生成每个分子的分子式样本和分子片段样本。
在获取到分子的分子结构之后,可以根据分子结构获取分子的SMILES表达式,分子片段样本可以是采用Recap和BRICS两种算法对分子的SMILES表达式进行切割得到的。分子谱图数据可以为采用核磁碳谱模拟工具对分子结构进行碳谱模拟得到的。
在具体实现中,同一个分子可以具有多个SMILES序列表示方法,如图2所示,对应同一个分子401,可以获取到多种该分子401对应的SMILES序列402。进一步地,在这多种SMILES序列中随机选择两种不同的SMILES序列。例如,对应图2所示的分子401,获取的两种SMILES序列可以是第三种和第五种,即:C1C=CC(N2CCC(C=C)CC2)CC1,以及,C1CC(C=C)CCN1C1C=CCCC1。对于经天然产物提取或有机合成的未知化合物,可以通过高分辨质谱获得其分子式,分子式可以被视作由ASCII字符串组成的字符序列,如图2所示,对应分子401,可以获取到该分子401对应的分子式序列样本403。
在本实施例中,进行模型训练的训练数据可以包括以下几种形式:
1、仅以分子的分子式作为训练数据;
2、仅以分子的分子片段作为训练数据;
3、仅以分子的分子谱图数据作为训练数据;
4、以分子的分子式和分子片段作为训练数据;
5、以分子的分子式和分子谱图数据作为训练数据;
6、以分子的分子片段和分子谱图数据作为训练数据;
7、以分子的分子式、分子片段和分子谱图数据作为训练数据。
在上述几种形式的训练数据中,在训练数据中包含分子谱图数据时,训练数据中可以仅包含分子的真实分子谱图数据,也可以仅包含分子的模拟分子谱图数据,还可以同时包含分子的真实分子谱图数据和模拟分子谱图数据。
在获取到训练数据之后,执行步骤102。
步骤102:采用待训练分子生成模型,对所述分子的表达信息样本进行处理,以得到训练输出。
待训练分子生成模型构建的还未开始进行训练的用于预测分子结构的模型。在本示例中,可以预先搭建待训练分子生成模型,该模型以自然语言生成模型(如BART模型等)为主干,该模型包括:输入层和隐层,其中,输入层即为嵌入层,用于将输入序列转换为向量。隐层可以包括:多个编码器encoder和多个解码器decoder(如解码器和编码器各6层等),编码器可以采用双向自注意力机制,解码器可以采用单向自注意力机制。其中,编码器和解码器均可以基于Transformer实现。
在获取到待训练分子生成模型的训练数据之后,可以将训练数据输入至待训练分子生成模型,以采用待训练分子生成魔心对分子的表达信息样本进行处理,以得到训练输出。在本示例中,模型输入是分子的表达信息,该模型输入均视为字符串进行分词嵌入后输入编码器;输出为分子的SMILES表达式(即分子结构表示)。
在本示例中,待训练分子生成模型可以是通过多种训练任务训练而成的,其中,多种训练任务可以包括:对分子结构表示进行部分遮挡,基于输入的部分遮挡后的分子结构表示生成完整的分子结构表示。并基于分子的第一结构表示生成分子的第二结构表示,其中,第一结构表示和第二结构表示为同一个分子的两种不同的结构表示。
在本实施例中,待训练分子生成模型可以包括编码器和解码器,对于待训练分子生成模型对模型输入进行处理得到训练输出的过程可以结合下述具体实现方式进行详细描述。
在本申请的一种具体实现方式中,上述步骤102可以包括:
子步骤S1:将所述分子表达信息样本转换为向量。
在本实施例中,在将分子的分子表达信息样本输入至待训练分子生成模型之后,可以对分子表达信息样本进行向量转换处理,以将分子表达信息样本转换为向量。如图3所示,对于输入的训练数据(如核磁碳谱数据、分子式、分子片段等)可以由嵌入层进行向量转换处理,以得到对应的向量。
在将分子表达信息样本转换为向量之后,执行子步骤S2。
子步骤S2:采用所述编码器对所述向量进行处理,以得到编码输出。
在将分子表达信息样本转换为向量之后,可以采用编码器对转换得到的向量进行处理,以得到编码输出。
在采用编码器对向量进行处理得到编码输出之后,执行子步骤S3。
子步骤S3:采用所述解码器对所述编码输出进行处理,以得到所述训练输出。
在采用编码器对向量进行处理得到编码输出之后,可以采用解码器对编码输出进行处理,以得到分子的训练输出。如图3所示,在得到训练数据对应的向量之后,可以通过编码器和解码器进行相应处理,进而可以得到训练输出。
在采用待训练分子生成模型对分子的表达信息样本进行处理得到训练输出之后,执行步骤103。
步骤103:根据所述训练输出和所述分子结构表示样本构建损失函数值,在所述损失函数值或训练轮数处于预设范围内的情况下,将训练后的待训练分子生成模型作为所述分子生成模型。
预设范围是指预先设置的用于判定待训练分子生成模型是否收敛的数值范围,在本示例中,预设范围可以分为两种,一种是损失函数值范围,另一种是训练轮数范围。对于预设范围的具体数值可以根据业务需求而定,本实施例对此不加以限制。
在本实施例中,待训练分子生成模型的训练过程结束的方式包括两种,一种是判断构建的损失函数值是否处于预设范围内,另一种是判断训练轮数是否在预设训练轮数范围内。
在采用待训练分子生成模型对分子的表达信息样本进行处理得到训练输出之后,可以根据训练输出和分子的分子结构表示样本构建得到待训练分子生成模型的损失函数值,在该损失函数值处于预设范围内时,表示待训练分子生成模型已收敛,此时可以将训练后的待训练分子生成模型作为最终的用于预测未知化合物的分子结构的分子生成模型。在本示例中,模型训练时将解码器的输出和真实值之间的交叉熵Cross Entropy作为Loss。如图3所示,在得到训练输出之后,通过训练输出与分子表示序列样本(即分子结构表示样本)可以计算得到交叉熵损失函数。
在训练轮数处于预设范围内时,则表示待训练分子生成模型已训练结束,此时,可以将训练后的待训练分子生成模型作为最终的用于预测未知化合物的分子结构的分子生成模型。
在本实施例中,对于待训练分子生成模型的训练方式可以包括以下几种:
1、仅以分子谱图数据样本、分子式样本和分子片段样本中的任意一种作为训练样本。
在训练过程中,可以将分子的分子谱图数据样本、分子式样本和分子片段样本的样本中的任一种作为待训练分子生成模型的输入,以由待训练分子生成模型对分子谱图数据样本或分子式样本或分子片段样本进行处理,以得到训练输出。迭代执行该训练过程,直至待训练分子生成模型收敛。
2、以分子谱图数据样本和分子式样本作为训练样本。
在训练过程中,可以将分子的分子谱图数据样本和分子式样本作为待训练分子生成模型的输入,具体地,获取的训练数据中包含第一分子的分子谱图数据样本和第二分子的分子式样本,在进行训练数据的输入时,每个分子的表达信息样本(即分子谱图数据样本和分子式样本)均单独作为待训练分子生成模型的输入,以得到对应分子的训练输出。迭代执行该训练过程,直至待训练分子生成模型收敛。
在该训练过程中,分子谱图数据样本可以包括:模拟分子谱图数据样本和真实分子谱图数据样本中的至少一种。
在分子谱图数据样本仅包含模拟分子谱图数据样本或真实分子谱图数据样本时,模型训练过程可以分为两个阶段:第一阶段为通过分子的分子式样本进行第一阶段的模型训练,得到预训练分子生成模型。然后通过分子的模拟分子谱图数据样本或真实分子谱图数据样本进行第二阶段的模型训练,以得到分子生成模型。
在分子谱图数据样本同时包含模拟分子谱图数据样本和真实分子谱图数据样本时,模型训练过程可以分为三个阶段:第一阶段为通过分子的分子式样本进行第一阶段的模型训练,得到预训练分子生成模型。然后通过分子的模拟分子谱图数据样本进行第二阶段的模型训练,得到第二阶段的分子生成模型。最后通过分子的真实分子图谱数据样本对第二阶段的分子生成模型进行第三阶段的模型训练,以得到分子生成模型。当然,在此训练过程中,第二阶段的训练可以为采用分子的真实分子谱图数据样本进行训练,第三阶段的训练为采用分子的模拟分子谱图数据样本进行训练等。
3、以分子谱图数据样本和分子片段样本作为训练样本。
在训练过程中,可以将分子的分子谱图数据样本和分子片段样本作为待训练分子生成模型的输入,具体地,获取的训练数据中包含第一分子的分子谱图数据样本和第二分子的分子片段样本,在进行训练数据的输入时,每个分子的表达信息样本(即分子谱图数据样本和分子片段样本)均单独作为待训练分子生成模型的输入,以得到对应分子的训练输出。迭代执行该训练过程,直至待训练分子生成模型收敛。
在该训练过程中,分子谱图数据样本可以包括:模拟分子谱图数据样本和真实分子谱图数据样本中的至少一种。
在分子谱图数据样本仅包含模拟分子谱图数据样本或真实分子谱图数据样本时,模型训练过程可以分为两个阶段:第一阶段为通过分子的分子片段样本进行第一阶段的模型训练,得到预训练分子生成模型。然后通过分子的模拟分子谱图数据样本或真实分子谱图数据样本进行第二阶段的模型训练,以得到分子生成模型。
在分子谱图数据样本同时包含模拟分子谱图数据样本和真实分子谱图数据样本时,模型训练过程可以分为三个阶段:第一阶段为通过分子的分子片段样本进行第一阶段的模型训练,得到预训练分子生成模型。然后通过分子的模拟分子谱图数据样本进行第二阶段的模型训练,得到第二阶段的分子生成模型。最后通过分子的真实分子图谱数据样本对第二阶段的分子生成模型进行第三阶段的模型训练,以得到分子生成模型。当然,在此训练过程中,第二阶段的训练可以为采用分子的真实分子谱图数据样本进行训练,第三阶段的训练为采用分子的模拟分子谱图数据样本进行训练等。
4、以分子的分子式样本和分子片段样本作为训练样本。
在训练过程中,可以将分子的分子式样本和分子片段样本作为待训练分子生成模型的输入,具体地,获取的训练数据中包含第一分子的分子式样本和第二分子的分子片段样本,在进行训练数据的输入时,每个分子的表达信息样本(即分子式样本和分子片段样本)均单独作为待训练分子生成模型的输入,以得到对应分子的训练输出。迭代执行该训练过程,直至待训练分子生成模型收敛。
5、以分子的分子式样本、分子片段样本和分子谱图数据样本作为训练样本。
在训练过程中,可以将分子的分子式样本、分子片段样本和分子谱图数据样本作为待训练分子生成模型的输入,具体地,获取的训练数据中包含第一分子的分子式样本、第二分子的分子片段样本和第三分子的分子谱图数据样本,在进行训练数据的输入时,每个分子的表达信息样本(即分子式样本和分子片段样本)均单独作为待训练分子生成模型的输入,以得到对应分子的训练输出。迭代执行该训练过程,直至待训练分子生成模型收敛。
在该训练过程中,分子谱图数据样本可以包括:模拟分子谱图数据样本和真实分子谱图数据样本中的至少一种。
在分子谱图数据样本仅包含模拟分子谱图数据样本或真实分子谱图数据样本时,模型训练过程可以分为两个阶段:第一阶段为通过分子的分子式样本和分子片段样本进行第一阶段的模型训练,得到预训练分子生成模型。然后通过分子的模拟分子谱图数据样本或真实分子谱图数据样本进行第二阶段的模型训练,以得到分子生成模型。
在分子谱图数据样本同时包含模拟分子谱图数据样本和真实分子谱图数据样本时,模型训练过程可以分为三个阶段:第一阶段为通过分子的分子式样本和分子片段样本进行第一阶段的模型训练,得到预训练分子生成模型。然后通过分子的模拟分子谱图数据样本进行第二阶段的模型训练,得到第二阶段的分子生成模型。最后通过分子的真实分子图谱数据样本对第二阶段的分子生成模型进行第三阶段的模型训练,以得到分子生成模型。当然,在此训练过程中,第二阶段的训练可以为采用分子的真实分子谱图数据样本进行训练,第三阶段的训练为采用分子的模拟分子谱图数据样本进行训练等。
在本实施例中,深度学习模型的性能与训练数据量呈正相关的关系,训练数据量越多,模型的性能越好。然而,实测的核磁碳谱数据可以通过人工收集,非常耗时耗力,因此,可收集到的实测的核磁碳谱数据有限。相比起来,借助核磁碳谱预测工具模拟的核磁碳谱数据收集成本低廉,且当前基于分子结构预测核磁碳谱数据的领域发展成熟,模拟的核磁碳谱数据准确度良好。综合这些因素,可以基于大量模拟的核磁碳谱数据对分子生成模型进行第一微调训练,然后再基于数据质量更高的实测的核磁碳谱数据对分子生成模型进行第二微调训练。
在训练得到分子生成模型之后,可以将该分子生成模型应用于预测未知化合物的分子结构的场景中,对于该过程可以结合下述具体实现方式进行详细描述。
在本申请的一种具体实现方式中,在上述步骤103之后,还可以包括:
步骤M:将待确定结构的有机化合物的分子的表达信息输入所述分子生成模型,得到所述待确定结构的有机化合物的预测分子结构表示。
在本实施例中,待确定结构的有机化合物是指未知分子结构的有机化合物。
在对待确定结构的有机化合物的分子结构进行预测时,可以将待确定结构的有机化合物的分子的表达信息输入分子生成模型,得到待确定结构的有机化合物的预测分子结构表示。如图4所示,可以将未知化合物的已知信息,如核磁碳谱数据、分子式、分子结构片段等已知信息中的至少一种,作为分子生成模型的输入,通过编码器、解码器等处理,可以得到待确定结构的有机化合物的分子表示,即预测分子结构表示。
在模型推理过程中,可以结合集束搜索生成满足输入条件的多个SMILES表达式(即预测分子结构表示),如图6所示。本实施例通过采用分子生成模型结合集束搜索,可以生成满足核磁碳谱数据、分子式及结构片段等多个约束条件的分子结构,从而更准确地解析未知化合物的分子结构。
在得到待确定结构的有机化合物的预测分子结构表示之后,可以对预测分子结构表示进一步进行过滤处理,以过滤掉预测分子结构表示中与分子的表达信息不一致的预测分子结构表示。
在得到待确定结构的有机化合物的预测分子结构表示之后,还可以对待确定结构的有机化合物的预测分子结构表示进一步经由重排序处理,该重排序处理为基于排序模型计算得到预测分子结构表示与待确定结构的有机化合物的分子谱图数据之间的相似度,按照相似度由高到低的顺序对预测分子结构表示进行重排序。
本申请实施例提供的分子生成模型的训练方法,通过获取训练数据,该训练数据包括:分子的表达信息样本和分子结构表示样本,采用待训练分子生成模型,对分子的表达信息样本进行处理,以得到训练输出,根据训练输出和分子结构表示样本构建损失函数值,在损失函数值或训练轮数处于预设范围内的情况下,将训练后的待训练分子生成模型作为分子生成模型。本申请实施例通过分子的表达信息样本训练得到用于预测分子结构的分子生成模型,通过该分子生成模型可以预测未知化合物的分子结构,相较于现有的分子结构解析方式,可以提高未知化合物分子结构解析的准确度,同时可以降低未知化合物的分子结构解析过程的耗时,提高了分子结构的解析效率。
参照图6,示出了本申请实施例提供的一种分子生成模型的训练装置的结构示意图,如图6所示,该分子生成模型的训练装置600可以包括以下模块:
训练数据获取模块610,用于获取训练数据,所述训练数据包括:分子的表达信息样本和分子结构表示样本;
训练输出获取模块620,用于采用待训练分子生成模型,对所述分子的表达信息样本进行处理,以得到训练输出;
分子生成模型获取模块630,用于根据所述训练输出和所述分子结构表示样本构建损失函数值,在所述损失函数值或训练轮数处于预设范围内的情况下,将训练后的待训练分子生成模型作为所述分子生成模型。
可选地,所述装置还包括:
预测分子结构表示获取模块,用于将待确定结构的有机化合物的分子的表达信息输入所述分子生成模型,得到所述待确定结构的有机化合物的预测分子结构表示。
可选地,所述分子的表达信息样本为:分子谱图数据样本、分子式样本和分子片段样本中的至少一种;
其中,所述分子式样本和所述分子片段样本为根据所述分子结构表示样本生成的,所述分子谱图数据样本为真实分子谱图数据样本和模拟分子谱图数据样本中的至少一种。
可选地,所述待训练分子生成模型包括编码器和解码器;
所述训练输出获取模块包括:
向量转换单元,用于将所述分子表达信息样本转换为向量;
编码输出获取单元,用于采用所述编码器对所述向量进行处理,以得到编码输出;
训练输出获取单元,用于采用所述解码器对所述编码输出进行处理,以得到所述训练输出。
可选地,所述待训练分子生成模型是通过多种训练任务训练而成的,所述多种训练任务包括:对分子结构表示进行部分遮挡,基于输入的部分遮挡后的分子结构表示生成完整的分子结构表示;基于分子的第一结构表示生成所述分子的第二结构表示,所述第一结构表示和第二结构表示为同一个分子的两种不同的结构表示。
可选地,所述得到所述待确定结构的有机化合物的预测分子结构表示进一步经由过滤处理,所述过滤处理为过滤掉所述预测分子结构表示中与所述分子的表达信息不一致的预测分子结构表示。
可选地,所述得到所述待确定结构的有机化合物的预测分子结构表示进一步经由重排序处理;
所述重排序处理为基于排序模型计算得到所述预测分子结构表示与所述待确定结构的有机化合物的分子谱图数据之间的相似度,按照所述相似度由高到低的顺序对所述预测分子结构表示进行重排序;
所述排序模型为由分子谱图数据与分子结构表示的对应数据训练得到的跨模态相似度排序模型。
本申请实施例提供的分子生成模型的训练装置,通过获取训练数据,该训练数据包括:分子的表达信息样本和分子结构表示样本,采用待训练分子生成模型,对分子的表达信息样本进行处理,以得到训练输出,根据训练输出和分子结构表示样本构建损失函数值,在损失函数值或训练轮数处于预设范围内的情况下,将训练后的待训练分子生成模型作为分子生成模型。本申请实施例通过分子的表达信息样本训练得到用于预测分子结构的分子生成模型,通过该分子生成模型可以预测未知化合物的分子结构,相较于现有的分子结构解析方式,可以提高未知化合物分子结构解析的准确度,同时可以降低未知化合物的分子结构解析过程的耗时,提高了分子结构的解析效率。
实施例三
本申请实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述分子生成模型的训练方法。
图7示出了本发明实施例的一种电子设备700的结构示意图。如图7所示,电子设备700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令,来执行各种适当的动作和处理。在RAM703中,还可存储电子设备700操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
电子设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标、麦克风等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,可由处理单元701执行。例如,上述任一实施例的方法可被实现为计算机软件程序,其被有形地包含于计算机可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序被加载到RAM703并由CPU701执行时,可以执行上文描述的方法中的一个或多个动作。
实施例四
本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述分子生成模型的训练方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端上,使得在计算机或其他可编程终端上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
以上对本申请所提供的一种分子生成模型的训练方法、装置、电子设备和计算机可读存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种分子生成模型的训练方法,其特征在于,所述方法包括:
获取训练数据,所述训练数据包括:分子的表达信息样本和分子结构表示样本;
采用待训练分子生成模型,对所述分子的表达信息样本进行处理,以得到训练输出;
根据所述训练输出和所述分子结构表示样本构建损失函数值,在所述损失函数值或训练轮数处于预设范围内的情况下,将训练后的待训练分子生成模型作为所述分子生成模型。
2.根据权利要求1所述的方法,其特征在于,在所述将训练后的待训练分子生成模型作为所述分子生成模型之后,还包括:
将待确定结构的有机化合物的分子的表达信息输入所述分子生成模型,得到所述待确定结构的有机化合物的预测分子结构表示。
3.根据权利要求1所述的方法,其特征在于,所述分子的表达信息样本为:分子谱图数据样本、分子式样本和分子片段样本中的至少一种;
其中,所述分子式样本和所述分子片段样本为根据所述分子结构表示样本生成的,所述分子谱图数据样本为真实分子谱图数据样本和模拟分子谱图数据样本中的至少一种。
4.根据权利要求1所述的方法,其特征在于,所述待训练分子生成模型包括编码器和解码器;
所述采用待训练分子生成模型,对所述分子的表达信息样本进行处理,以得到训练输出,包括:
将所述分子表达信息样本转换为向量;
采用所述编码器对所述向量进行处理,以得到编码输出;
采用所述解码器对所述编码输出进行处理,以得到所述训练输出。
5.根据权利要求1所述的方法,其特征在于,所述待训练分子生成模型是通过多种训练任务训练而成的,所述多种训练任务包括:对分子结构表示进行部分遮挡,基于输入的部分遮挡后的分子结构表示生成完整的分子结构表示;基于分子的第一结构表示生成所述分子的第二结构表示,所述第一结构表示和第二结构表示为同一个分子的两种不同的结构表示。
6.根据权利要求2所述的方法,其特征在于,所述得到所述待确定结构的有机化合物的预测分子结构表示进一步经由过滤处理,所述过滤处理为过滤掉所述预测分子结构表示中与所述分子的表达信息不一致的预测分子结构表示。
7.根据权利要求2所述的方法,其特征在于,所述得到所述待确定结构的有机化合物的预测分子结构表示进一步经由重排序处理;
所述重排序处理为基于排序模型计算得到所述预测分子结构表示与所述待确定结构的有机化合物的分子谱图数据之间的相似度,按照所述相似度由高到低的顺序对所述预测分子结构表示进行重排序;
所述排序模型为由分子谱图数据与分子结构表示的对应数据训练得到的跨模态相似度排序模型。
8.一种分子生成模型的训练装置,其特征在于,所述装置包括:
训练数据获取模块,用于获取训练数据,所述训练数据包括:分子的表达信息样本和分子结构表示样本;
训练输出获取模块,用于采用待训练分子生成模型,对所述分子的表达信息样本进行处理,以得到训练输出;
分子生成模型获取模块,用于根据所述训练输出和所述分子结构表示样本构建损失函数值,在所述损失函数值或训练轮数处于预设范围内的情况下,将训练后的待训练分子生成模型作为所述分子生成模型。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
预测分子结构表示获取模块,用于将待确定结构的有机化合物的分子的表达信息输入所述分子生成模型,得到所述待确定结构的有机化合物的预测分子结构表示;
在得到所述预测分子结构表示之后,对所述预测分子结构表示进行以下处理:
所述得到所述待确定结构的有机化合物的预测分子结构表示进一步经由过滤处理,所述过滤处理为过滤掉所述预测分子结构表示中与所述分子的表达信息不一致的预测分子结构表示;和/或
所述得到所述待确定结构的有机化合物的预测分子结构表示进一步经由重排序处理;所述重排序处理为基于排序模型计算得到所述预测分子结构表示与所述待确定结构的有机化合物的分子谱图数据之间的相似度,按照所述相似度由高到低的顺序对所述预测分子结构表示进行重排序;所述排序模型为由分子谱图数据与分子结构表示的对应数据训练得到的跨模态相似度排序模型。
10.根据权利要求8所述的装置,其特征在于,所述分子的表达信息样本为:分子谱图数据样本、分子式样本和分子片段样本中的至少一种;其中,所述分子式样本和所述分子片段样本为根据所述分子结构表示样本生成的,所述分子谱图数据样本为真实分子谱图数据样本和模拟分子谱图数据样本中的至少一种;
所述待训练分子生成模型包括编码器和解码器;
所述训练输出获取模块包括:
向量转换单元,用于将所述分子表达信息样本转换为向量;
编码输出获取单元,用于采用所述编码器对所述向量进行处理,以得到编码输出;
训练输出获取单元,用于采用所述解码器对所述编码输出进行处理,以得到所述训练输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210877250.8A CN115359856A (zh) | 2022-07-25 | 2022-07-25 | 一种分子生成模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210877250.8A CN115359856A (zh) | 2022-07-25 | 2022-07-25 | 一种分子生成模型的训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115359856A true CN115359856A (zh) | 2022-11-18 |
Family
ID=84032663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210877250.8A Pending CN115359856A (zh) | 2022-07-25 | 2022-07-25 | 一种分子生成模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115359856A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117334271A (zh) * | 2023-09-25 | 2024-01-02 | 江苏运动健康研究院 | 一种基于指定属性生成分子的方法 |
-
2022
- 2022-07-25 CN CN202210877250.8A patent/CN115359856A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117334271A (zh) * | 2023-09-25 | 2024-01-02 | 江苏运动健康研究院 | 一种基于指定属性生成分子的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109587713B (zh) | 一种基于arima模型的网络指标预测方法、装置及存储介质 | |
CN108899051B (zh) | 一种基于联合特征表示的语音情感识别模型及识别方法 | |
CN110674604A (zh) | 基于多维时序帧卷积lstm的变压器dga数据预测方法 | |
US8977551B2 (en) | Parametric speech synthesis method and system | |
CN113838536B (zh) | 翻译模型构建方法、产物预测模型构建方法及预测方法 | |
CN112289391B (zh) | 一种基于机器学习的阳极铝箔性能预测系统 | |
CN105895082A (zh) | 声学模型训练方法、语音识别方法及装置 | |
CN112489616A (zh) | 一种语音合成方法 | |
CN115359856A (zh) | 一种分子生成模型的训练方法及装置 | |
CN110263829A (zh) | 基于ceemdan与随机森林的中长期径流预测方法 | |
CN111312228A (zh) | 一种基于端到端的应用于电力企业客服的语音导航方法 | |
CN115171712A (zh) | 适用于瞬态噪声抑制的语音增强方法 | |
Vovk et al. | Fast Grad-TTS: Towards Efficient Diffusion-Based Speech Generation on CPU. | |
CN114219027A (zh) | 一种基于离散小波变换的轻量级时间序列预测方法 | |
CN117852686A (zh) | 基于多元自编码器的电力负荷预测方法 | |
CN115619999A (zh) | 电力设备实时监测方法、装置、电子设备及可读介质 | |
CN113343590B (zh) | 一种基于组合模型的风速预测方法及系统 | |
CN110705373B (zh) | 一种基于小波包分析和残差网络的槽电压信号分类方法 | |
CN114141316A (zh) | 一种基于谱图分析的有机物生物毒性预测方法及系统 | |
CN116636815B (zh) | 基于脑电信号的水下作业人员睡眠质量评估方法及系统 | |
CN116125922B (zh) | 一种基于平行式字典学习的复杂工业过程监测方法和系统 | |
CN117117860B (zh) | 一种多频率时间模式渐进解缠的电力负载预测方法 | |
CN112395832B (zh) | 一种基于序列到序列的文本量化分析与生成方法及系统 | |
Liang et al. | Adaptive focal loss with data augmentation for semi-supervised sound event detection | |
Bhanbhro et al. | Speech Emotion Recognition Using Deep Learning Hybrid Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |