CN117877622B - 基于化合物质谱信息预测化合物结构的装置、方法和计算机可读存储介质 - Google Patents

基于化合物质谱信息预测化合物结构的装置、方法和计算机可读存储介质 Download PDF

Info

Publication number
CN117877622B
CN117877622B CN202410268461.0A CN202410268461A CN117877622B CN 117877622 B CN117877622 B CN 117877622B CN 202410268461 A CN202410268461 A CN 202410268461A CN 117877622 B CN117877622 B CN 117877622B
Authority
CN
China
Prior art keywords
compound
ions
ion
parent
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410268461.0A
Other languages
English (en)
Other versions
CN117877622A (zh
Inventor
王东红
刘权震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research Center for Eco Environmental Sciences of CAS
Original Assignee
Research Center for Eco Environmental Sciences of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research Center for Eco Environmental Sciences of CAS filed Critical Research Center for Eco Environmental Sciences of CAS
Priority to CN202410268461.0A priority Critical patent/CN117877622B/zh
Publication of CN117877622A publication Critical patent/CN117877622A/zh
Application granted granted Critical
Publication of CN117877622B publication Critical patent/CN117877622B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开了化学信息学领域中基于化合物质谱信息预测化合物结构的装置、方法和计算机可读存储介质。本发明所要解决的技术问题是如何基于化合物质谱信息预测化合物的结构。本发明将首先通过对已知化合物的质谱信息进行收集处理,构建母离子分子式预测模型;然后构建母离子的子离子虚拟库,通过质量数匹配子离子虚拟库和已知质谱信息中的真实子离子得到已知化合物的靶标子离子及其对应的化学式,然后基于靶标离子的数据构建化合物分子结构深度学习模型,通过高分辨质谱信息预测化合物的结构。本发明的方法能够基于高分辨质谱信息进行非靶向分析,快速准确的预测化合物的结构,可应用于预测环境中的污染物如地表水中的污染物。

Description

基于化合物质谱信息预测化合物结构的装置、方法和计算机 可读存储介质
技术领域
本发明属于化学信息学领域中基于化合物质谱信息预测化合物结构的装置、方法和计算机可读存储介质。
背景技术
现有商业的高分辨质谱库数量的局限性以及现有结构解析方法对化合物结构预测准确率低。
在分析化学领域,如何识别化合物的结构是一直以来的研究热点。靶向分析、可疑物分析和非靶向分析成为目前最常用的分析策略。靶向分析能够借助标准品验证的方法实现化合物的结构验证,在所有分析策略中具有最高的置信度,但是靶向分析的标准品通常很难获得,特别是对于一些商业不可利用的未知化合物,有时甚至需要进行化学合成,分析成本也随之提高。随着分析技术的进步,可疑物分析和非靶向分析成为近来使用最频繁的分析手段。其中,非靶向分析由于能够不依赖标准品实现未知污染物的识别而成为目前研究趋势,但是由于非靶向分析可参考谱库体量的扩大,化合物结构的识别准确率也随之下降,最终仍然可能需要借助标准品验证,造成大量人力物力成本的浪费。而如何提高非靶向分析的准确率也成为目前分析化学领域所需要解决的瓶颈问题。
高分辨质谱技术能够通过与色谱联用的方法获取复杂基质中化合物的二级质谱信息,进而通过数据处理、重构以及谱库检索的手段实现对未知化合物的非靶向识别。目前高分辨质谱技术已在环境污染物分析、代谢物分析等领域发挥着重要作用。现有的高分辨质谱的结构预测方法更多地依赖于UNIFI(Waters, USA)和TraceFinder(ThermoScientific,USA)等商业软件。商业软件通过线性匹配和谱库检索的手段辅助实现对未知化合物的预测。然而,现有商业软件的操作复杂、准确率过低,造成大量的假阳性或假阴性结果的出现,严重影响了对化合物结构的正确判别。这主要由以下两方面原因导致,一是依靠简单的线性匹配方法,例如正确匹配峰数量、丰度比等,但是由于在高分辨质谱信息的测定中往往存在一定的波动,所以依靠线性匹配注定难以获得可靠的准确率;二是谱库检索范围有限,商业谱库在每次测定中只能分析一类化合物,而在进行非靶向分析时,谱库外的化合物同样可能是候选化合物。因此,现有的商业软件技术严重滞后于科学研究的需求,亟需发明一种快速准确的高分辨质谱化合物结构预测的方法。
发明内容
本发明所要解决的技术问题是如何基于化合物质谱信息预测化合物结构和/或如何准确预测化合物的结构和/或如何预测环境中污染物和/或如何预测环境中污染物的化学结构和/或如何制备预测环境中污染物的产品和/或如何制备预测环境中污染物的化学结构的产品。
为了解决上述技术问题,本发明首先提供了基于化合物质谱信息预测或辅助预测化合物结构的装置。所述装置可包括如下模块:
1)母离子分子式预测模型构建模块:用于根据已知化合物二级质谱数据中母离子的子离子的质量数和所述子离子的丰度获得模型输入数据,根据所述母离子的化学式获得模型输出数据,(训练)构建得到母离子分子式预测模型;
所述模型输入数据为矩阵向量A1,所述矩阵向量A1的行可依据所述母离子的子离子建立,所述矩阵向量A1的列可依据每一所述行对应的子离子的质量数和丰度建立;所述矩阵向量A1中的每一个元素可为该行对应的所述子离子的质量数或该行对应的所述子离子的丰度;
所述母离子分子式预测模型的输出数据为矩阵向量B1,所述矩阵向量B1的列可依据9种化学元素建立,所述矩阵向量B1的行可依据所述母离子的化学式(分子式)中所述9种化学元素的有无和O(氧)元素的数目建立;所述9种化学元素可为O、N、P、S、Cl、Br、I、Si和F;
2)化合物分子结构预测模型构建模块,用于根据所述已知化合物的靶标子离子的质量数、丰度和化学式获得模型输入数据,根据所述已知化合物的分子结构IsomericSMILES获得模型输出数据,(训练)构建化合物分子结构预测模型;所述靶标子离子依据简称为真实子离子的所述已知化合物二级质谱数据中的母离子的子离子,与所述母离子的子离子虚拟库中的虚拟子离子基于子离子的质量数(质荷比,m/z)进行匹配后获得;
所述母离子的子离子虚拟库按照包括如下步骤的方法获得:
根据所述母离子对应的所述已知化合物是否含有C、Cl和/或Br元素,将所述母离子的子离子虚拟库分为含C、Cl和/或Br的母离子的子离子虚拟库和不含C、Cl和/或Br的母离子的子离子虚拟库;所述含C、Cl和/或Br的母离子的子离子虚拟库按照包括如下步骤的方法获得:
A11、将所述已知化合物的母离子化学式中的所有元素中除C、Cl和Br之外的元素统称为非引入同位素元素,将所述非引入同位素元素依据该元素的个数进行取值,所述非引入同位素元素设有0至tn共计tn+1个取值,所述tn为所述母离子化学式中的所述非引入同位素元素的个数,是大于0的一个自然数;将C元素设置为12C 和13C ,其中,12C 设有0至tc的tc+1个取值,所述tc为所述含C、Cl和/或Br的母离子的化学式中C元素的个数,是大于0的一个自然数;13C设有0、1和2这3个取值;将Cl元素设置为35Cl和37Cl ,其中,35Cl和37Cl均设有0至tCl的tCl+1个取值,所述tCl为所述含C、Cl和/或Br的母离子的化学式中Cl元素的个数;将Br元素设置为79Br和81Br ,其中,79Br和81Br均设有0至tBr的tBr+1个取值,所述tBr为所述含C、Cl和/或Br的母离子的化学式中Br元素的个数;
A12、将所述母离子化学式中的所有元素的所有取值进行随机组合得到由各种可能的子离子即虚拟子离子组成的所述含C、Cl和/或Br的母离子的子离子虚拟库;
所述不含C、Cl和/或Br的母离子的子离子虚拟库按照包括如下步骤的方法获得:
B11、将所述已知化合物的母离子化学式中的所有元素依据该元素的个数进行取值,所述元素设有0至tn共计tn+1个取值,所述tn为所述母离子化学式中的所述元素的个数,是大于0的一个自然数;
B12、将所述母离子化学式中的所有元素的所有取值进行随机组合得到由各种可能的子离子即虚拟子离子组成的所述不含C、Cl和/或Br的母离子的子离子虚拟库;
所述靶标子离子可由与所述虚拟子离子的质量数之差的绝对值小于等于10 ppm的所述真实子离子组成。所述靶标子离子的分子式(化学式)为与其质量数之差的绝对值小于等于10 ppm的虚拟子离子的化学式。
3)化合物结构预测模块,用于将待测化合物的质谱数据中的母离子的质量数、子离子的质量数和子离子的丰度输入所述母离子分子式预测模型,得到待测化合物的母离子分子式;根据所述待测化合物的母离子分子式,使用2)中所述母离子的子离子虚拟库的构建方法构建得到待测化合物的子离子虚拟库,所述待测化合物的子离子虚拟库中包含所述待测化合物的所有虚拟子离子的分子式和所述虚拟子离子的质量数;将所述待测化合物的质谱数据中的子离子与所述待测化合物的子离子虚拟库中的虚拟子离子,基于质量数进行匹配得到所述待测化合物的靶标子离子;将所述待测化合物的靶标子离子的质量数、丰度和分子式作为输入数据输入所述化合物分子结构预测模型,得到所述待测化合物的分子结构Isomeric SMILES。
上述装置中,所述靶标子离子可由与所述虚拟子离子的质量数之差的绝对值小于等于10 ppm的所述真实子离子组成。所述靶标子离子的分子式(化学式)为与其质量数之差的绝对值小于等于10 ppm的虚拟子离子的化学式。
上述装置中,所述母离子化学式可为将所述已知化合物的分子式中的个数为1的元素的个数写明是1,1不省略,其它同分子式。如化学式为C11H13O3N3S的化合物,其母离子化学式为C11H13O3N3S1。
上述装置中,所述目标候选化合物质谱信息可通过所述已知化合物二级质谱数据获得。
上述装置还可包括化合物分子结构精确预测模块,所述化合物分子结构精确预测模块用于检索已知化合物数据库中每种化合物同一分子式所有的同分异构体的IsomericSMILES,作为已知化合物的候选Isomeric SMILES;将所述待测化合物的Isomeric SMILES与所述候选Isomeric SMILES进行分子指纹的相关性匹配,依据所述分子指纹的权重获得所述候选Isomeric SMILES的分子指纹得分,取所述分子指纹得分由高到低排序的前n个候选物作为目标候选化合物;所述n为大于0的自然数;检索已知化合物数据库中所述目标候选化合物的名称和分子结构获得所述目标候选化合物的名称和分子结构;基于所述目标候选化合物的名称和分子结构、以及所述目标候选化合物质谱信息确认所述待测化合物的结构。
上述装置中,所述母离子分子式预测模型构建模块和/或所述化合物分子结构预测模型构建模块可采用学习率预热(Warmup)和余弦退火(COS函数)联用进行训练模型。
上述装置中,所述母离子分子式预测模型构建模块可包括数据增强子模块M;所述数据增强子模块M用于对1)中所述模型输入数据通过添加高斯噪声(Aug_shift)和添加随机遮盖(Aug_mask)进行数据增强。所述高斯噪声的参数randin_like可设定为200,所述随机遮盖的参数mask_number可设定为2;
所述化合物分子结构预测模型构建模块可包括数据增强子模块N,所述数据增强子模块N用于对2)中所述模型输入数据通过随机调整对比度(Aug_scale)和添加高斯噪声(Aug_shift)进行数据增强。所述高斯噪声的参数randin_like可设定为200,所述随机调整对比度的参数uniform可设定为0.1。
上述装置中,所述学习率预热可为30个EPOCH,初始学习率可设定为0,可预热到学习率设定为0.002,可从第31个EPOCH开始余弦函数衰减直到学习率在第300个EPOCH开始学习率降为0。
所述EPOCH(批次)可指将整个数据集迭代一遍的过程。
上述装置中,所述母离子分子式预测模型可采用Transformer机器翻译算法构建获得。所述化合物分子结构预测模型可采用Transformer机器翻译算法构建获得。
为了解决上述技术问题,本发明还提供了基于化合物质谱信息预测或辅助预测化合物结构的方法,所述方法可包括如下步骤:
S1)母离子分子式预测模型构建:根据已知化合物二级质谱数据中母离子的子离子的质量数和所述子离子的丰度获得模型输入数据,根据所述母离子的化学式获得模型输出数据,(训练)构建得到母离子分子式预测模型;
所述模型输入数据为矩阵向量A1,所述矩阵向量A1的行可依据所述母离子的子离子建立,所述矩阵向量A1的列可依据每一所述行对应的子离子的质量数和丰度建立;所述矩阵向量A1中的每一个元素可为该行对应的所述子离子的质量数或该行对应的所述子离子的丰度;
所述母离子分子式预测模型的输出数据为矩阵向量B1,所述矩阵向量B1的列可依据9种化学元素建立,所述矩阵向量B1的行可依据所述母离子的化学式(分子式)中所述9种化学元素的有无和O(氧)元素的数目建立;所述9种化学元素可为O、N、P、S、Cl、Br、I、Si和F;
S2)化合物分子结构预测模型构建:根据所述已知化合物的靶标子离子的质量数、丰度和化学式获得模型输入数据,根据所述已知化合物的分子结构Isomeric SMILES获得模型输出数据,(训练)构建化合物分子结构预测模型;所述靶标子离子依据简称为真实子离子的所述已知化合物二级质谱数据中的母离子的子离子,与所述母离子的子离子虚拟库中的虚拟子离子,基于子离子的质量数(质荷比,m/z)进行匹配后获得;
所述母离子的子离子虚拟库可按照包括如下步骤的方法获得:
根据所述母离子对应的所述已知化合物是否含有C、Cl和/或Br元素,将所述母离子的子离子虚拟库分为含C、Cl和/或Br的母离子的子离子虚拟库和不含C、Cl和/或Br的母离子的子离子虚拟库;所述含C、Cl和/或Br的母离子的子离子虚拟库按照包括如下步骤的方法获得:
A11、将所述已知化合物的母离子化学式中的所有元素中除C、Cl和Br之外的元素统称为非引入同位素元素,将所述非引入同位素元素依据该元素的个数进行取值,所述非引入同位素元素设有0至tn共计tn+1个取值,所述tn为所述母离子化学式中的所述非引入同位素元素的个数,是大于0的一个自然数;将C元素设置为12C 和13C ,其中,12C 设有0至tc的tc+1个取值,所述tc为所述含C、Cl和/或Br的母离子的化学式中C元素的个数,是大于0的一个自然数;13C设有0、1和2这3个取值;将Cl元素设置为35Cl和37Cl ,其中,35Cl和37Cl均设有0至tCl的tCl+1个取值,所述tCl为所述含C、Cl和/或Br的母离子的化学式中Cl元素的个数;将Br元素设置为79Br和81Br ,其中,79Br和81Br均设有0至tBr的tBr+1个取值,所述tBr为所述含C、Cl和/或Br的母离子的化学式中Br元素的个数;
A12、将所述母离子化学式中的所有元素的所有取值进行随机组合得到由各种可能的子离子即虚拟子离子组成的所述含C、Cl和/或Br的母离子的子离子虚拟库;
所述不含C、Cl和/或Br的母离子的子离子虚拟库可按照包括如下步骤的方法获得:
B11、将所述已知化合物的母离子化学式中的所有元素依据该元素的个数进行取值,所述元素设有0至tn共计tn+1个取值,所述tn为所述母离子化学式中的所述元素的个数,是大于0的一个自然数;
B12、将所述母离子化学式中的所有元素的所有取值进行随机组合得到由各种可能的子离子即虚拟子离子组成的所述不含C、Cl和/或Br的母离子的子离子虚拟库;
所述靶标子离子可由与所述虚拟子离子的质量数之差的绝对值小于等于10 ppm的所述真实子离子组成。所述靶标子离子的分子式(化学式)可为与其质量数之差的绝对值小于等于10 ppm的虚拟子离子的化学式。
3)化合物结构预测:将待测化合物的质谱数据中的母离子的质量数、子离子的质量数和子离子的丰度输入所述母离子分子式预测模型,得到待测化合物的母离子分子式;根据所述待测化合物的母离子分子式,使用S2)中所述母离子的子离子虚拟库的构建方法构建得到待测化合物的子离子虚拟库,所述待测化合物的子离子虚拟库中包含所述待测化合物的所有虚拟子离子的分子式和所述虚拟子离子的质量数;将所述待测化合物的质谱数据中的子离子与所述待测化合物的子离子虚拟库中的虚拟子离子基于质量数进行匹配得到所述待测化合物的靶标子离子,将所述待测化合物的靶标子离子的质量数、丰度和分子式作为输入数据输入所述化合物分子结构预测模型,得到所述待测化合物的分子结构Isomeric SMILES。
上述方法中,所述靶标子离子可由与所述虚拟子离子的质量数之差的绝对值小于等于10 ppm的所述真实子离子组成。所述靶标子离子的分子式(化学式)可为与其质量数之差的绝对值小于等于10 ppm的虚拟子离子的化学式。
上述方法中,所述母离子化学式可为将所述已知化合物的分子式中的个数为1的元素的个数写明是1,1不省略,其它同分子式。如化学式为C11H13O3N3S的化合物,其母离子化学式为C11H13O3N3S1。
上述方法还可包括化合物分子结构精确预测的步骤:检索已知化合物数据库中每种化合物同一分子式所有的同分异构体的Isomeric SMILES,作为已知化合物的候选Isomeric SMILES;将所述待测化合物的Isomeric SMILES与所述候选Isomeric SMILES进行分子指纹的相关性匹配,依据所述分子指纹的权重获得所述候选Isomeric SMILES的分子指纹得分,取所述分子指纹得分由高到低排序的前n个候选物作为目标候选化合物;所述n为大于0的自然数;检索已知化合物数据库中所述目标候选化合物的名称和分子结构获得所述目标候选化合物的名称和分子结构;基于所述目标候选化合物的名称和分子结构、以及所述目标候选化合物质谱信息确认所述待测化合物的结构。
上述方法中,所述目标候选化合物质谱信息可通过所述已知化合物二级质谱数据获得。
上述方法中,所述母离子分子式预测模型构建和/或所述化合物分子结构预测模型构建可采用学习率预热(Warmup)和余弦退火(COS函数)联用进行训练模型;
所述母离子分子式预测模型构建可包括数据增强的步骤:对S1)中所述模型输入数据可通过添加高斯噪声(Aug_shift)和添加随机遮盖(Aug_mask)进行数据增强;所述高斯噪声的参数randin_like可设定为200,所述随机遮盖的参数mask_number可设定为2;
所述化合物分子结构预测模型构建可包括数据增强的步骤:对S2)中所述模型输入数据可通过随机调整对比度(Aug_scale)和添加高斯噪声(Aug_shift)进行数据增强。所述高斯噪声的参数randin_like可设定为200,所述随机调整对比度的参数uniform可设定为0.1。
上述方法中,所述学习率预热可为30个EPOCH,初始学习率可设定为0,可预热到学习率设定为0.002,可从第31个EPOCH开始余弦函数衰减直到学习率在第300个EPOCH开始学习率降为0。
上述方法中,所述EPOCH(批次)可指将整个数据集迭代一遍的过程。
上述方法中,所述母离子分子式预测模型可采用Transformer机器翻译算法构建获得。所述化合物分子结构预测模型可采用Transformer机器翻译算法构建获得。
为了解决上述技术问题,本发明还提供了存储有计算机程序的计算机可读存储介质或包括计算机程序的计算机程序产品。所述计算机程序被处理器执行时实现上文所述方法的步骤。
上文所述装置和/或上文所述方法和/或上文所述计算机可读存储介质或计算机程序产品的下述任一种应用也属于本发明的保护范围:
C1)预测环境中的污染物中的应用;
C2)制备预测环境中污染物的产品中的应用。
上文所述分子指纹的方法可具体包括如下步骤:
基于PubChem指纹、MACC指纹、Klekota–Roth指纹以及三个设计指纹(CN1C=CN=C1、N1C=CN=C1和CCN1C=CN=C1),建立所述预测Isomeric SMILES指纹向量、所述候选IsomericSMILES的指纹向量和分子指纹权重;基于所述预测Isomeric SMILES指纹向量和所述分子指纹权重获得预测值指纹权重;基于所述候选Isomeric SMILES的指纹向量和所述分子指纹权重获得候选物指纹权重,基于所述预测值指纹权重和所述候选物指纹权重获得预测值候选物得分,选择所述预测值候选物得分最高的预测值候选物得分对应的所述候选Isomeric SMILES为所述待测样品中化合物的最终Isomeric SMILES;
所述预测值指纹权重的计算公式可为如下式(1):
式(1)中A为预测值的分子指纹,向量维度2190 × 1;aij表示预测值的单个分子指纹的存在情况,具体为0或1;F为分子指纹权重,向量维度2190 × 1;fij表示单个分子指纹的权重,具体为0.2,0.4,0.6,0.8,1.0,1.2,1.4,1.6,1.8或2.0;P为预测值指纹权重,向量维度2190 × 1;i和j分别表示矩阵的第i行和第j列;T表示矩阵的转置。
所述候选物指纹权重的计算公式如下式(2):
式(2)中为单个候选物的分子指纹,向量维度2190 × 1;bij表示候选物的单个分子指纹的存在情况,具体为0或1;F为分子指纹权重,向量维度2190 × 1;fij表示单个分子指纹的权重,具体为0.2,0.4,0.6,0.8,1.0,1.2,1.4,1.6,1.8或2.0;/>为候选物指纹权重,向量维度2190 × 1;i和j分别表示矩阵的第i行和第j列;T表示矩阵的转置。
所述预测值候选物得分的计算公式如下式(3):
式(3)中P为预测值指纹权重,向量维度2190 × 1;为候选物指纹权重,向量维度2190 × 1。/>为单个候选物得分;/>为最终预测值候选物得分。
本申请中的化学式又称为分子式。
上文所述计算机程序产品可为主要通过计算机程序实现其解决方案的软件产品。
上文所述计算机可读存储介质是指存储数据的载体,可为磁带、磁盘、软盘、光盘、磁光盘、ROM、PROM、VCD、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒(MemoryStick)或xD卡等。
鉴于现有商业的高分辨质谱库数量的局限性以及现有结构解析方法对化合物结构预测准确率低的问题。本发明旨在建立一种人工智能辅助高分辨质谱信息的化合物结构预测方法,将首先通过对质谱信息收集以及预处理,构建深度学习模型,预测分子结构,进而检索同分子式的全部同分异构体,并对同分子式的全部同分异构体进行分子指纹匹配,并给出候选物得分以及得分排序,实现非靶向分析。同时,本发明也提供了相同分子结构的谱库比对方法,用于辅助判断化合物结构。
附图说明
图1为本发明基于化合物质谱信息预测化合物结构的流程示意图。
图2为已知化合物Isomeric SMILES二级质谱数据库中的部分有效数据中的数据信息。
图3为化合物结构预测模型的输入数据集中的部分模型输入数据信息。
图4为已知二级质谱数据中某一特定化合物的真实子离子和对化合物的母离子构建的子离子虚拟库中虚拟子离子的部分数据信息。A为已知二级质谱数据中化合物的真实子离子数据;B为化合物对应的母离子的子离子虚拟库中虚拟子离子的数据信息。
图5为指数型学习率和warmup和COS联用学习率的准确率对比。
图6为替米沙坦的总离子流图。纵坐标为丰度;横坐标为保留时间 (min)。
图7为替米沙坦的分子结构图。
图8为替米沙坦的二级质谱对比图。纵坐标为相对丰度(%);横坐标为质荷比。
图9为预测化合物和候选物分子指纹及结构信息表。“得分”代表候选物与预测化合物的分子指纹得分;“是否为预测值”代表候选物的是否与预测化合物的IsomericSMILES一样;“分子指纹”代表候选物与预测化合物相似的分子指纹,中间由于分子指纹太多省略,用“...”表示。
具体实施方式
下面结合具体实施方式对本发明进行进一步的详细描述,给出的实施例仅为了阐明本发明,而不是为了限制本发明的范围。以下提供的实施例可作为本技术领域普通技术人员进行进一步改进的指南,并不以任何方式构成对本发明的限制。
下述实施例中的实验方法,如无特殊说明,均为常规方法,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
实施例1、人工智能辅助转换水中污染物高分辨质谱信息为化合物结构的方法及应用(不限于水质样本)。
1. 数据预处理。
1.1数据搜集和过滤。
通过开源网站(MassBank(https://mona.fiehnlab.ucdavis.edu/)和GNPS(https://gnps-external.ucsd.edu/gnpslibrary)等)收集化合物的IUPAC命名、分子式和结构简化分子线性输入规范(SMILES,Simplified molecular Input Line Entry System)信息以及二级质谱数据(母离子的质量数(质荷比,m/z)、母离子的丰度、子离子的质量数和子离子的丰度)。总共收集105280条数据,化合物类型包括药品、个人护理品、农药、天然物质及植物化学物质等。对该105280条数据进行加和离子筛选、错误数据剔除等得到77851条有效数据。
1.2 数据转换和标准化。
1.2.1 数据转换。
将1.1获得的77851条有效数据使用Python 3.7中PubChemPy包(https://pubchempy.readthedocs.io/en/latest/guide/pandas.html#usage)将化合物的SMILES转换为Isomeric SMILES。
1.2.2 分子式格式标准化。
使用Python 3.7将经过1.2.1处理的77851条有效数据的化合物的分子式进行标准化得到标准化分子式,然后获得已知化合物Isomeric SMILES二级质谱数据库。该已知化合物Isomeric SMILES二级质谱数据库由77851条有效数据组成。每条有效数据的组成如下:化合物的IUPAC命名、分子式、标准化分子式(母离子分子式)、SMILES、IsomericSMILES、母离子的质量数、子离子的质量数和子离子的丰度。其中77851条有效数据的信息举例如图2。
分子式标准化的方法如下:将化合物的分子式中的元素个数为1时,写明1,其它不变。标准化分子式便于后续子离子分子式(化学式)转换。
2. 子离子虚拟库的构建。
通过如图2所示的每个化合物的标准化母离子分子式,构建生成每个化合物可能通过质谱生成的引入同位素的所有虚拟子离子的标准化分子式,得到每个化合物对应母离子的子离子虚拟库(特定分子式库)。
将母离子的子离子虚拟库根据所述母离子对应的所述已知化合物是否含有C、Cl和/或Br元素,将所述母离子的子离子虚拟库分为含C、Cl和/或Br的母离子的子离子虚拟库和不含C、Cl和/或Br的母离子的子离子虚拟库。
含C、Cl和/或Br的母离子的子离子虚拟库按照包括如下步骤的方法获得:
基于步骤1.2.2得到的已知化合物Isomeric SMILES二级质谱数据库中的每种化合物的标准化母离子分子式,将标准化母离子分子式中每种元素的个数作为子离子中该元素个数的上限t,根据同位素的天然丰度以及在质谱上的呈现规律,选择13C、37Cl和81Br作为引入候选同位素(候选同位素13C的元素个数的上限t设最大为2,候选同位素37Cl和81Br的元素个数的上限t为化学式中Cl和Br元素数量的最大值)。具体为
A11、将已知化合物的母离子化学式中的所有元素中除C、Cl和Br之外的元素统称为非引入同位素元素,将非引入同位素元素依据该元素的个数进行取值,非引入同位素元素设有0至tn共计tn+1个取值, tn为所述母离子化学式中的非引入同位素元素的个数,是大于0的一个自然数;将C元素设置为12C 和13C ,其中,12C 设有0至tc的tc+1个取值,tc为含C、Cl和/或Br的母离子的化学式中C元素的个数,是大于0的一个自然数;13C设有0、1和2这3个取值;将Cl元素设置为35Cl和37Cl ,其中,35Cl和37Cl均设有0至tCl的tCl+1个取值,tCl为含C、Cl和/或Br的母离子的化学式中Cl元素的个数;将Br元素设置为79Br和81Br ,其中,79Br和81Br均设有0至tBr的tBr+1个取值,tBr为所述含C、Cl和/或Br的母离子的化学式中Br元素的个数;
A12、将母离子化学式中的所有元素的所有取值进行随机组合得到由各种可能的子离子即虚拟子离子组成的含C、Cl和/或Br的母离子的子离子虚拟库。
不含C、Cl和/或Br的母离子的子离子虚拟库按照包括如下步骤的方法获得:
B11、将已知化合物的母离子化学式中的所有元素依据该元素的个数进行取值,元素设有0至tn共计tn+1个取值,tn为所述母离子化学式中的元素的个数,是大于0的一个自然数;
B12、将母离子化学式中的所有元素的所有取值进行随机组合得到由各种可能的子离子即虚拟子离子组成的不含C、Cl和/或Br的母离子的子离子虚拟库。
在构建子离子虚拟库的过程中,例如对于化学式为C11H13O3N3S的化合物,其母离子化学式为C11H13O3N3S1,C、H、O、N、S的元素个数分别是11、13、3、3、1,因此,该化合物的子离子虚拟库中,子离子化学式中12C的个数上限tc为11(虚拟库中子离子的化学式中C的个数为0-11中的任一自然数:即为没有12C元素(12C0)、12C1、12C2、……或12C11);引入的候选同位素13C个数的上限为2(虚拟库中子离子化学式中13C个数可为0-2中的任一自然数:即可为没有13C(Cx代表)元素(13C0)、Cx1或Cx2);虚拟库中子离子化学式中H的个数上限tH为13(虚拟库中子离子的化学式中H的个数可为0-13中的任一自然数:即可为没有H元素、H1、H2、……或H13);虚拟库中子离子化学式中O的个数上限tO为3(虚拟库中子离子的化学式中O的个数可为0-3中的任一自然数:即可为没有O元素、O1、O2或O3);虚拟库中子离子化学式中N的个数上限tN为3(虚拟库中子离子的化学式中N的个数可为0-3中的任一自然数:即可为没有N元素、N1、N2或N3);虚拟库中子离子化学式中S的个数上限tS为1(虚拟库中子离子的化学式中S的个数可为0或1:即可为没有S元素或S1)。将该化合物化学式所有元素中每一种元素的从0至上限tn的tn+1个元素个数随机组合获得C11H13O3N3S1的引入同位素的子离子虚拟库,所述tn为大于0的一个自然数。
每个虚拟库由图2所示的每条数据可能产生的所有虚拟子离子标准化分子式和其对应的质荷比(质量数,m/z)数据组成。
3.母离子分子式预测模型的构建。
3.1 模型构建训练集输入数据的获得。
对步骤1.2.2得到的已知化合物Isomeric SMILES二级质谱数据库中69774条有效数据作为模型构建的训练集。对训练集进行数据提取得到模型输入数据(包括已知化合物二级质谱数据中母离子的子离子的质量数和子离子的丰度):将该69774条有效数据的每条有效数据按照子离子丰度由高到低排列,选取该条有效数据中子离子丰度排名最高的50个子离子质量数及其丰度,得到该条有效数据对应的母离子分子式预测模型的预输入数据;将每一条预输入数据转换为一个矩阵形式向量(50×2矩阵),总共得到69774个矩阵形式向量作为模型训练的输入数据。每个矩阵形式向量的行数均为50(丰度排名最高的50个子离子)行,依据不同的子离子建立,一行对应一种子离子的数据;每个矩阵形式向量的列数均为2,依据每一行对应的同一子离子的质量数和丰度建立,每一行包括2列子离子的数据:第1列是子离子质量数,第2列是子离子丰度。矩阵形式向量中的每一个点为该行对应的子离子的质量数或该行对应的所述子离子的丰度。
3.2 模型构建训练集输出数据的获得。
将步骤3.1中的训练集(69774条)数据中每一条数据的母离子分子式转换为 1 ×10的矩阵向量(1行×10列),总共得到69774个1 × 10矩阵形式向量的模型的输出数据,将其命名为母离子分子式预测模型输出矩阵。输出矩阵的列依据9种化学元素建立,每一个矩阵向量的10列代表10个元素,矩阵的行依据母离子分子式(化学式)中1行数据为10个元素的取值,前9列的元素取值依次为母离子分子式中O、N、P、S、Cl、Br、I、Si和F的有无的取值(有该元素(记为27)无该元素(记为28)),第10列元素取值为元素O的数目(取值为0-26))。
3.3 母离子分子式数据库建立。
基于步骤1.2.2得到的已知化合物Isomeric SMILES二级质谱数据库,使用Python3.7建立二级质谱数据库中母离子分子式与母离子精确分子量的对应关系,获得母离子分子式数据库。母离子分子式数据库含有8365个母离子分子式的.json文件(每个文件中含此母离子分子式的全部同分异构体的Isomeric SMILES)。
3.4 母离子分子式预测模型的构建。
使用Transformer机器翻译算法搭建母离子分子式预测模型,训练集(69774条 )和验证集(127条,CASMI 2016)(CASMI 2017 Team, 2017, http://www.casmi-contest.org/2017/results.shtml),损失函数选择标签平滑的交叉熵损失(smoothing =0.1)。模型训练过程中的输入数据为使用训练集数据获得的步骤3.1中的69774个50×2矩阵形式向量,输出数据为使用训练集数据获得的步骤3.2中的69774个1×10矩阵形式向量。模型验证优化过程中使用的输入数据为使用步骤3.1同样的方法转换验证集数据得到的127个50×2矩阵形式向量,输出数据为使用步骤3.2同样的方法转换验证集数据得到的127个1×10矩阵形式向量。
3.5学习率优化及数据增强算法的优化。
在分子式预测模型训练过程中,与后续化合物结构预测类似,由于学习率过低可能导致模型陷入局部最小值。本发明将指数学习率调整为学习率预热(Warmup)和余弦退火(COS函数)联用(图5中“warmup+余弦衰减”代表),其中学习率预热为30个EPOCH,初始学习率设定为0,预热到学习率设定为0.002,从第31个EPOCH开始余弦函数衰减直到学习率在第300个EPOCH开始学习率降为0。EPOCH(批次)是指将整个数据集迭代一遍的过程。
此外,与后续化合物结构预测类似,本发明以图像领域数据增强算法为原型,构建了包括随机调整对比度(Aug_scale)、添加高斯噪声(Aug_shift)和随机遮盖(Aug_mask)在内的多种数据增强算法。综合学习率优化和数据增强算法优化结果,在CASMI 2016中127种化合物分子式预测中(质量偏差≤10 ppm),Aug_shift+Aug_mask(添加高斯噪声与随机遮盖联合)的准确率最高为94.49%(高斯噪声的参数randin_like设定为200,随机遮盖的参数mask_number设定为2),高于原始模型(89.76%)和其他组合数据增强算法(如Aug_scale+Aug_shift(90.55%),Aug_scale+Aug_shift+Aug_mask(92.91%))。在同类型软件的对比中,高于SIRIUS 4(93.8%)和MSThunder V1.0(90%)。准确率计算方法:针对每种化合物,若预测结果与目标结果母离子分子式完全一样,则判断预测结果为正确值(1),否则判断为错误值(0),准确率为所有正确值之和与化合物总数(127)的比值。
3.6最终母离子分子式的预测。
使用母离子分子式预测模型获得预测母离子分子式(化学式)结果后,还需使用母离子精确质量数和确定最终母离子分子式。具体步骤为:将步骤3.3建立的母离子分子式数据库中的数据使用步骤3.2同样的方法转换建立每个母离子分子式的1×10转换矩阵以及对应的该母离子精确分子量,得到母离子分子式检索库;然后将预测母离子分子式(化学式)结果的预测母离子分子式的分子量与母离子分子式检索库中的检索母离子分子量进行比较,在两者质量偏差为10 ppm(小于等于10 ppm)条件下,若检索得到的候选母离子分子量有且仅对应一个母离子分子式,则该母离子分子式为最终预测值;若检索得到的候选母离子分子量对应多个候选母离子分子式,则将预测母离子分子式(化学式)结果(1×10输出矩阵)与候选母离子分子式的转换矩阵(1×10转换矩阵)进行点积计算,以得分最高的候选母离子分子式作为最终母离子分子式预测值。
4. 化合物结构深度学习模型构建。
4.1 模型构建训练集和验证集的获得。
对步骤1.2.2得到的已知化合物Isomeric SMILES二级质谱数据库中77851条数据的每一条数据(图4中A所示示例)中母离子的子离子(真实子离子)通过子离子的质量数(质荷比)与步骤2构建获得的该条数据的子离子虚拟库中的虚拟子离子的质量数和虚拟子离子的分子式进行匹配,只保留该条数据虚拟库中与虚拟子离子质量数偏差≤10 ppm的m/z对应的真实子离子(将质量偏差≤10 ppm的m/z对应的子离子简称为靶标子离子)的质荷比(质量数m/z)、靶标子离子的标准化分子式(显示同位素)和丰度,得到该条有效数据的匹配筛选数据(靶标子离子数据)(图4中B所示示例),总共获得77851条匹配筛选数据(靶标子离子数据)作为化合物结构深度学习模型构建的训练集。
例如:将已知化合物Isomeric SMILES二级质谱数据库中77851条数据中的一条数据(磺胺氯吡嗪)中有1000个左右的子离子的质荷比(m/z)和其对应的丰度信息,该条数据(磺胺氯吡嗪)构建的子离子虚拟库中有2万多条子离子的质荷比和其对应的子离子分子式(化学式)信息,通过将1000个左右的子离子的质荷比与虚拟库中2万多条子离子的质荷比进行匹配,以质量偏差的绝对值≤10 ppm的质荷比作为匹配成功的条件,共匹配出26个该条数据(磺胺氯吡嗪)的靶标子离子,得到该条数据(磺胺氯吡嗪)的匹配筛选数据,该条数据(磺胺氯吡嗪)的匹配筛选数据中包含26个靶标子离子的分子式(化学式)、质荷比和丰度数据信息。
验证集数据为127条匹配筛选数据,该127条匹配筛选数据为同样使用来源于CASMI 2016的数据使用步骤1.2中的方法进行转换和标准化后与同样使用步骤2的方法构建获得的每条数据的虚拟库进行子离子质量数和子离子分子式的匹配后只保留虚拟库中质量偏差≤10 ppm的m/z对应的子离子的质荷比(质量数m/z)、靶标子离子的标准化分子式(显示同位素)获得的。
4.2 模型训练输入数据的获得。
将步骤4.1获得的训练集数据中的每一条数据转换为一个矩阵形式向量,总共得到77851个矩阵形式向量作为模型训练输入数据(图3)。每个矩阵形式向量的行依据训练集中每一条数据的由步骤4.1获得的不同靶标子离子建立,每个矩阵形式向量的列依据不同靶标子离子中14种元素的数目建立。每个矩阵形式向量具体为50×14矩阵,行数均为50(大于每一条模型输入数据的靶标子离子的个数)行,一行对应一种靶标子离子;列数为14列,每一列分别是该行靶标子离子分子式(化学式)中如下14种元素的个数:C、Cx(13C)、H、O、N、P、S、C1、C1x(37Cl)、Br、Brx(81Br)、I、Si和F;每个矩阵形式向量中的点为该行靶标子离子分子式(化学式)中该列元素的个数与该行靶标子离子的丰度的乘积。
例如,模型输入数据1的靶标子离子的个数为10,模型输入数据1的矩阵是50×14,第11-50行的所有列的数据均为0。第1行的第1列是第一个靶标子离子丰度与该靶标子离子中C元素个数的积,第2列是第一个靶标子离子丰度与该靶标子离子中Cx元素个数的积,……,第14列是第一个靶标子离子丰度与该靶标子离子中F元素个数的积;……,第10行的第1列是第十个靶标子离子丰度与该靶标子离子中C元素个数的积,第2列是第十个靶标子离子丰度与该靶标子离子中Cx元素个数的积,……,第14列是第十个靶标子离子丰度与该靶标子离子中F元素个数的积。
4.3 化合物结构深度学习模型构建。
模型训练的输出数据为将步骤4.1获得的训练集数据中的化合物的IsomericSMILES,模型的输入数据为步骤4.1和4.2获得(包括已知化合物的靶标子离子的质量数、丰度和化学式),使用Transformer机器翻译算法(Vaswani, Ashish; Shazeer, Noam;Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser,Lukasz; Polosukhin, Illia of Conference. Attention Is All You Need [C] //Advances in Neural Information Processing Systems, 2017, Long Beach, CA)搭建预测化合物结构的深度学习模型,损失函数选择交叉熵损失(参数默认值)和余弦损失(margin = 0.2)。保证每个质谱信息能够输出一个准确的分子结构(Isomeric SMILES),即通过输入母离子分子式和二级质谱数据到分子结构的Transformer深度学习模型,可预测获得二级质谱数据对应的分子结构(Isomeric SMILES)。将步骤4.1获得的验证集数据中的Isomeric SMILES作为输出数据,将验证集数据使用步骤4.2同样的方法获得127个矩阵形式向量(50×14矩阵)作为输出数据对模型进行验证。
4.4 模型超参数学习率的优化。
步骤4.3模型训练的超参数学习率按照如下方法设置进行优化:将初始学习率设定为0,预热(Warmup)的步数为30个EPOCH进行预热,预热到学习率设定为0.002。从第31个EPOCH将学习率由0.002开始采用余弦函数退火进行衰减,使学习率的最大迭代次数为300,即学习率在第300个EPOCH降为0。EPOCH(批次)是指将整个数据集迭代一遍的过程。
采用上述使用学习率预热(Warmup)和余弦退火(COS函数)联用(图5中warmup+余弦衰减代表)优化的学习率作为模型超参数与未经上述优化的学习率(学习率固定为0.001,图5中“指数衰减”代表)构建的模型相比,训练集(图5中的“原始模型”中的训练集代表)准确率从37.10%上升到81.55%,准确率提高了119%,验证集(Top 1)准确率(图5中的“原始模型”中的验证集代表)从34.65%上升到54.33%,准确率提高了57%。
4.5 采用数据增强算法优化模型。
由于原始数据体量的局限性产生的过拟合问题,本发明以图像领域数据增强算法为原型,构建了包括数据翻转(Aug_flip)、随机调整对比度(Aug_scale)、添加高斯噪声(Aug_shift)、随机裁剪(Aug_crop)和随机遮盖(Aug_mask)在内的多种数据增强算法(图5),并进行了交叉试验,结果表明Aug_scale+Aug_shift(随机调整对比度与添加高斯噪声联合)的Top 1准确率最高为59.06%(图5中的“warmup+余弦衰减”组的“对+噪”一项的验证集柱状图所示),高于原始模型(54.33%)和其他数据增强算法(如Aug_scale(55.12%,图5中“warmup+余弦衰减”组的“对比度”一项的验证集),Aug_shift(51.18%,“warmup+余弦衰减”组的“高斯噪声”一项的验证集),Aug_scale+Aug_shift+Aug_flip(46.46%),Aug_scale+Aug_shift+Aug_mask(54.33%,“warmup+余弦衰减”组的“对+噪+遮”一项的验证集),Aug_scale+Aug_shift+Aug_mask+Aug_crop(54.33%))。
其中,随机调整对比度(Aug_scale)中的参数uniform = 0.1。
其中,添加高斯噪声中的参数randin_like = 200。
5.化合物结构精确预测。
使用PubChemPy检索在Pubchem中同一分子式所有的同分异构体的IsomericSMILES,作为预测分子结构的候选Isomeric SMILES。
针对使用步骤4预测出的化合物的分子结构,首先匹配候选Isomeric SMILES中是否有相同的Isomeric SMILES:如果有相同的Isomeric SMILES,则判定该预测分子结构为最终的化合物结构Isomeric SMILES;如果在候选Isomeric SMILES中未匹配到相同的Isomeric SMILES,则对预测Isomeric SMILES和Isomeric 候选SMILES做相关性匹配,具体方法采用分子指纹,本发明搜索来自PubChem指纹(449种,ftp://ftp.ncbi.nlm.nih.gov/pubchem/specifications/pubchem_fingerprints.pdf)、MACC指纹(105种,https://github.com/openbabel/openbabel/blob/master/data/MACCS.txt)、Klekota–Roth指纹(1633种,相关文献:Klekota, Justin; Roth, Frederick P.; Chemical substructuresthat enrich for biological activity. Bioinformatics, 2008, 24: 2518-2525)以及本专利设计的指纹(3种,包括CN1C=CN=C1、N1C=CN=C1和CCN1C=CN=C1),共计2190个,通过Python 3.7编码,建立指纹匹配方法并赋予每个指纹一个权重,使得预测Isomeric SMILES和候选Isomeric SMILES均为1 × 2190维的向量,根据式(1)-(4)计算每种候选物得分,将得分最高的作为最终预测化合物。
具体为建立预测Isomeric SMILES指纹向量、候选Isomeric SMILES的指纹向量和分子指纹权重;基于预测Isomeric SMILES指纹向量和分子指纹权重获得预测值指纹权重;基于候选Isomeric SMILES的指纹向量和分子指纹权重获得候选物指纹权重,基于预测值指纹权重和候选物指纹权重获得预测值候选物得分,选择预测值候选物得分最高的预测值候选对应的候选Isomeric SMILES待测样品中化合物的最终Isomeric SMILES。
所述预测值指纹权重的计算公式为如下式(1):
式(1)中A为预测值的分子指纹,向量维度2190 × 1;aij表示预测值的单个分子指纹的存在情况,具体为0或1;F为分子指纹权重,向量维度2190 × 1;fij表示单个分子指纹的权重,具体为0.2,0.4,0.6,0.8,1.0,1.2,1.4,1.6,1.8或2.0;P为预测值指纹权重,向量维度2190 × 1;i和j分别表示矩阵的第i行和第j列;T表示矩阵的转置。
所述候选物指纹权重的计算公式如下式(2):
式(2)中为单个候选物的分子指纹,向量维度2190 × 1;bij表示候选物的单个分子指纹的存在情况,具体为0或1;F为分子指纹权重,向量维度2190 × 1;fij表示单个分子指纹的权重,具体为0.2,0.4,0.6,0.8,1.0,1.2,1.4,1.6,1.8或2.0;/>为候选物指纹权重,向量维度2190 × 1;I和j分别表示矩阵的第i行和第j列;T表示矩阵的转置。
所述预测值候选物得分的计算公式如下式(3):
式(3)中P为预测值指纹权重,向量维度2190 × 1;为候选物指纹权重,向量维度2190 × 1。 />为单个候选物得分;/>为最终预测值候选物得分。
目前本发明(MSThunder V2.0)对于CASMI 2016中127种化合物的准确率(top1)预测结果为59.06%,高于行业的其他模型,如SIRIUS 4(55.1%),MSThunder V1.0 (35%),MSNovelist(26%)和Naïve(24%),为目前准确率最高的模型。准确率计算方法:针对每种化合物,若预测结果与目标结果Isomeric SMILES完全一样,则判断预测结果为正确值(1),否则判断为错误值(0),准确率为所有正确值之和与化合物总数(127)的比值。
6. 二级高分辨质谱库的建立。
根据步骤3.1中训练集中的69774条高分辨质谱信息,构建化合物的二级高分辨质谱数据库,共计构建了14259种化合物的二级高分辨质谱信息,将每一种化合物存储为一个文本文件(.txt),文件内容包括加合离子、母离子精确质量数、母离子分子式、精确分子质量、Isomeric SMILES以及子离子精确质量数和相应的丰度,二级高分辨质谱数据库将为后续实际质谱比对提供辅助,进而辅助判断化合物结构。
实施例2、本发明的方法转换水中污染物高分辨质谱信息(替米沙坦C33H30O2N4)为化合物结构的应用实例。
1. 样品前处理及仪器分析。
采集地表水样品2 L,使用亲水疏水平衡柱(HLB,Waters)作为固相萃取小柱进行过滤和富集,使用甲醇作为洗脱溶剂对地表水样品进行洗脱提取,最终将样品浓缩在2 mL的棕色瓶中,由此获得处理后样品,以便后续分析。
通过超高效液相色谱-四级杆轨道离子阱质谱对处理后样品进行测定获得替米沙坦(telmisartan)的高分辨质谱信息以及总离子流图(图6)得到样本原始质谱数据。具体为使用梯度洗脱,ESI电离源在正模式下,数据采集模式为数据依赖采集模式,详细色谱以及质谱参数如下:
超高效液相色谱仪:Vanquish,ThermoFisher Scientific(美国);
四极杆/静电场轨道阱高分辨质谱仪:Orbitrap Exploris 120,ThermoFisherScientific(美国);
液相色谱条件:Zorbax RRHD Eclipse Plus C18柱(100 mm × 3.0 mm,1.8 μm,Agilent,美国),柱温35 °C,进样量5 μL;
流动相:A为含0.1% (体积分数)的甲酸水溶液,B为甲醇,流速为0.3 mL min-1
梯度洗脱条件:0-3.0 min,10%-26% B;3.0-10.5 min,26%-60% B;10.5-13.5min,60%B;13.5-14.5 min,60%-95% B;14.5-17.0 min,95% B;17.0-18.0 min,95%-10% B;18.0-21.0 min,10%B。
质谱条件:加热电喷雾离子源(HESI) 温度为300 °C;毛细管电压为3.2 kV;离子传输管温度为320 °C;鞘气为35 Arb,辅助气为10 Arb。full scan /ddms2 扫描模式:采集范围为66.7-1000 Da,正离子采集;一级质谱分辨率为120000 FWHM,二级质谱分辨率为15000 FWHM;碰撞池能量为30 eV。
2. 数据处理。
使用MSConvert软件将步骤1获得的替米沙坦的样本原始质谱数据格式(.raw)导出为文本格式质谱数据文件(.txt),其中第一行为母离子分子精确质量数值,第二行开始每一行为子离子精确质量数和丰度,最后一行为终止符。使用python提取文本格式质谱数据文件中所有质谱数据的二级质谱数据、质谱峰数据(转换为百分比)、母离子(精确)质量数以及保留时间、子离子的(精确)质量数等,并存储为文本格式样品二级质谱数据文件(.txt);然后对丰度信息进行归一化处理,并按照实施例中步骤1.2的方法对质谱数据进行数据转换和标准化,得到样本有效质谱数据(包含样本的标准化母离子分子式、SMILES、Isomeric SMILES、母离子的质量数、子离子的质量数和子离子的丰度),以待后续应用模型进行预测化合物分子结构。注:这些质谱信息仅有母离子精确质量数和质谱信息,不包含任何替米沙坦的分子式或质谱信息等前置信息。
3. 母离子分子式预测。
将步骤2获得的样本有效质谱数据使用实施例1步骤3.1中的方法转换为矩阵形式向量(50×2矩阵)作为输入数据,输入实施例1步骤3.4构建获得的母离子分子式预测模型预测获得样本化合物的预测母离子分子式(与实施例1步骤3.4中相同的1×10矩阵向量)。
然后使用实施例1步骤3.6同样的方法,将实施例1步骤3.3获得的母离子分子式数据库建立母离子分子式检索库;然后将样本预测母离子分子式(化学式)与母离子分子式检索库中的检索母离子分子量进行比较:在两者质量偏差为10 ppm(小于等于10 ppm)条件下,若检索得到的候选母离子分子量有且仅对应一个母离子分子式,则该母离子分子式为最终样本母离子分子式预测结果;若检索得到的候选母离子分子量对应多个候选母离子分子式,则将预测母离子分子式(化学式)结果(1×10输出矩阵)与候选母离子分子式的转换矩阵(1×10转换矩阵)进行点积计算,以得分最高的候选母离子分子式作为最终样本母离子分子式预测结果。最终预测获得的样本母离子分子式为C33H30O2N4
4. 分子式匹配。
使用实施例1步骤2同样的方法,构建步骤3获得的样本母离子分子式C33H30O2N4的含同位素的子离子虚拟库;然后使用实施例1步骤4.1同样的方法,将步骤2得到的样本有效质谱数据与C33H30O2N4的含同位素的子离子虚拟库通过子离子的质量数(质荷比)进行匹配,得到C33H30O2N4的匹配筛选数据(靶标子离子数据,包含33个含同位素的子离子分子式),以待后续使用深度学习模型预测化合物结构。
5. 污染物结构预测。
将步骤4获得C33H30O2N4的靶标子离子数据作为模型预测输入数据,转换成50×14矩阵(转换方法同实施例1步骤4.2)后输入到实施例1步骤4.2构建的化合物结构Transformer深度学习模型中,得到预测的污染物样本的Isomeric SMILE(CCCC1=NC2=C(N1CC3=CC=C(C=C3)C4=CC=CC=C4C(=O)O)C=C(C=C2C)C5=NC6=CC=CC=C6N5C)。
6. 分子指纹相似度匹配。
利用通过Python 3.7中PubChemPy获得同一母离子分子式的全部同分异构体Isomeric SMILES;使用实施例1步骤5相同的方法,计算预测的Isomeric SMILE的分子指纹,进而依照实施例1步骤5对两个Isomeric SMILES(步骤5预测的Isomeric SMILE和PubChemPy获得的全部同分异构体中每一个同分异构体的Isomeric SMILES)进行分子指纹的相关性匹配,并依据分子指纹权重获得各个候选同分异构体的分子指纹得分,取分子指纹得分最高的10个(由高到低排序的前10个)候选物作为预测可能性最高的目标候选化合物(图9)。
7.候选物信息搜索和谱库比对。
使用Python 3.7中的PubChemPy对步骤6中10个候选物进行信息检索,获得相应的化合物名称;对步骤6中10个候选物进行分子结构图检索,获得相应的化合物结构图(图7);对步骤6中10个候选物在依实施例1步骤6中构建的二级高分辨质谱库中检索,获得质谱信息比对图(图8),整合所有的候选物信息,形成候选物信息表(图9)。
8. 化合物结构确认。
候选物信息表(图9)、化合物结构图(图7)和质谱信息比对表(图8)均用于帮助使用者辅助判断化合物结构,候选物信息表也给出了候选物的分子指纹得分,候选物是否与预测Isomeric SMILES一致(Pre)以及候选物与预测值相似的分子指纹。本应用步骤中由于Top 1候选物与预测Isomeric SMILES已知,因此判断该化合物为替米沙坦(Telmisartan)。
本发明还提供了一种基于化合物质谱信息预测或辅助预测化合物结构的计算机装置,该计算机装置包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现实施例1中转换水中污染物高分辨质谱信息为化合物结构的方法步骤。
以上对本发明进行了详述。对于本领域技术人员来说,在不脱离本发明的宗旨和范围,以及无需进行不必要的实验情况下,可在等同参数、浓度和条件下,在较宽范围内实施本发明。虽然本发明给出了特殊的实施例,应该理解为,可以对本发明作进一步的改进。总之,按本发明的原理,本申请欲包括任何变更、用途或对本发明的改进,包括脱离了本申请中已公开范围,而用本领域已知的常规技术进行的改变。

Claims (10)

1.基于化合物质谱信息预测或辅助预测化合物结构的装置,其特征在于:所述装置包括如下模块:
1)母离子分子式预测模型构建模块,用于根据已知化合物二级质谱数据中母离子的子离子的质量数和所述子离子的丰度获得模型输入数据,根据所述母离子的化学式获得模型输出数据,构建得到母离子分子式预测模型;
2)化合物分子结构预测模型构建模块,用于根据所述已知化合物的靶标子离子的质量数、丰度和化学式获得模型输入数据,根据所述已知化合物的分子结构Isomeric SMILES获得模型输出数据,构建化合物分子结构预测模型;所述靶标子离子依据简称为真实子离子的所述已知化合物二级质谱数据中的母离子的子离子,与所述母离子的子离子虚拟库中的虚拟子离子基于子离子的质量数进行匹配后获得;
所述母离子的子离子虚拟库按照包括如下步骤的方法获得:
根据所述母离子对应的所述已知化合物是否含有C、Cl和/或Br元素,将所述母离子的子离子虚拟库分为含C、Cl和/或Br的母离子的子离子虚拟库和不含C、Cl和/或Br的母离子的子离子虚拟库;所述含C、Cl和/或Br的母离子的子离子虚拟库按照包括如下步骤的方法获得:
A11、将所述已知化合物的母离子化学式中的所有元素中除C、Cl和Br之外的元素统称为非引入同位素元素,将所述非引入同位素元素依据该元素的个数进行取值,所述非引入同位素元素设有0至tn共计tn+1个取值,所述tn为所述母离子化学式中的所述非引入同位素元素的个数,是大于0的一个自然数;将C元素设置为12C 和13C ,其中,12C 设有0至tc的tc+1个取值,所述tc为所述含C、Cl和/或Br的母离子的化学式中C元素的个数,是大于0的一个自然数;13C设有0、1和2这3个取值;将Cl元素设置为35Cl和37Cl ,其中,35Cl和37Cl均设有0至tCl的tCl +1个取值,所述tCl为所述含C、Cl和/或Br的母离子的化学式中Cl元素的个数;将Br元素设置为79Br和81Br ,其中,79Br和81Br均设有0至tBr的tBr +1个取值,所述tBr为所述含C、Cl和/或Br的母离子的化学式中Br元素的个数;
A12、将所述母离子化学式中的所有元素的所有取值进行随机组合得到由各种可能的子离子即虚拟子离子组成的所述含C、Cl和/或Br的母离子的子离子虚拟库;
所述不含C、Cl和/或Br的母离子的子离子虚拟库按照包括如下步骤的方法获得:
B11、将所述已知化合物的母离子化学式中的所有元素依据该元素的个数进行取值,所述元素设有0至t'n共计t'n+1个取值,所述t'n为所述母离子化学式中的所述元素的个数,是大于0的一个自然数;
B12、将所述母离子化学式中的所有元素的所有取值进行随机组合得到由各种可能的子离子即虚拟子离子组成的所述不含C、Cl和/或Br的母离子的子离子虚拟库;
3)化合物结构预测模块,用于将待测化合物的质谱数据中的母离子的质量数、子离子的质量数和子离子的丰度输入所述母离子分子式预测模型,得到待测化合物的母离子分子式;根据所述待测化合物的母离子分子式,使用2)中所述母离子的子离子虚拟库的构建方法构建得到待测化合物的子离子虚拟库,所述待测化合物的子离子虚拟库中包含所述待测化合物的所有虚拟子离子的分子式和所述虚拟子离子的质量数;将所述待测化合物的质谱数据中的子离子与所述待测化合物的子离子虚拟库中的虚拟子离子基于质量数进行匹配得到所述待测化合物的靶标子离子,将所述待测化合物的靶标子离子的质量数、丰度和分子式作为输入数据输入所述化合物分子结构预测模型,得到所述待测化合物的分子结构Isomeric SMILES。
2.根据权利要求1所述的装置,其特征在于:所述装置还包括化合物分子结构精确预测模块,所述化合物分子结构精确预测模块用于检索已知化合物数据库中每种化合物同一分子式所有的同分异构体的Isomeric SMILES,作为已知化合物的候选Isomeric SMILES;将所述待测化合物的Isomeric SMILES与所述候选Isomeric SMILES进行分子指纹的相关性匹配,依据所述分子指纹的权重获得所述候选Isomeric SMILES的分子指纹得分,取所述分子指纹得分由高到低排序的前n个候选物作为目标候选化合物;所述n为大于0的自然数;检索已知化合物数据库中所述目标候选化合物的名称和分子结构获得所述目标候选化合物的名称和分子结构;基于所述目标候选化合物的名称和分子结构、以及所述目标候选化合物质谱信息,确认所述待测化合物的结构。
3.根据权利要求1或2所述的装置,其特征在于:
所述母离子分子式预测模型构建模块和/或所述化合物分子结构预测模型构建模块采用学习率预热和余弦退火联用进行训练模型;
所述母离子分子式预测模型构建模块包括数据增强子模块M;所述数据增强子模块M用于对1)中所述模型输入数据通过添加高斯噪声和添加随机遮盖进行数据增强,所述高斯噪声的参数randin_like设定为200,所述随机遮盖的参数mask_number设定为2;
所述化合物分子结构预测模型构建模块包括数据增强子模块N,所述数据增强子模块N用于对2)中所述模型输入数据通过随机调整对比度和添加高斯噪声进行数据增强,所述高斯噪声的参数randin_like设定为200,所述随机调整对比度的参数uniform设定为0.1。
4.根据权利要求1或2所述的装置,其特征在于:所述母离子分子式预测模型采用Transformer机器翻译算法构建获得;所述化合物分子结构预测模型采用Transformer机器翻译算法构建获得。
5.基于化合物质谱信息预测或辅助预测化合物结构的方法,其特征在于:所述方法包括如下步骤:
S1)母离子分子式预测模型构建:根据已知化合物二级质谱数据中母离子的子离子的质量数和所述子离子的丰度获得模型输入数据,根据所述母离子的化学式获得模型输出数据,构建得到母离子分子式预测模型;
S2)化合物分子结构预测模型构建:根据所述已知化合物的靶标子离子的质量数、丰度和化学式获得模型输入数据,根据所述已知化合物的分子结构Isomeric SMILES获得模型输出数据,构建化合物分子结构预测模型;所述靶标子离子依据简称为真实子离子的所述已知化合物二级质谱数据中的母离子的子离子,与所述母离子的子离子虚拟库中的虚拟子离子基于子离子的质量数进行匹配后获得;
所述母离子的子离子虚拟库按照包括如下步骤的方法获得:
根据所述母离子对应的所述已知化合物是否含有C、Cl和/或Br元素,将所述母离子的子离子虚拟库分为含C、Cl和/或Br的母离子的子离子虚拟库和不含C、Cl和/或Br的母离子的子离子虚拟库;所述含C、Cl和/或Br的母离子的子离子虚拟库按照包括如下步骤的方法获得:
A11、将所述已知化合物的母离子化学式中的所有元素中除C、Cl和Br之外的元素统称为非引入同位素元素,将所述非引入同位素元素依据该元素的个数进行取值,所述非引入同位素元素设有0至tn共计tn+1个取值,所述tn为所述母离子化学式中的所述非引入同位素元素的个数,是大于0的一个自然数;将C元素设置为12C 和13C ,其中,12C 设有0至tc的tc+1个取值,所述tc为所述含C、Cl和/或Br的母离子的化学式中C元素的个数,是大于0的一个自然数;13C设有0、1和2这3个取值;将Cl元素设置为35Cl和37Cl ,其中,35Cl和37Cl均设有0至tCl的tCl +1个取值,所述tCl为所述含C、Cl和/或Br的母离子的化学式中Cl元素的个数;将Br元素设置为79Br和81Br ,其中,79Br和81Br均设有0至tBr的tBr +1个取值,所述tBr为所述含C、Cl和/或Br的母离子的化学式中Br元素的个数;
A12、将所述母离子化学式中的所有元素的所有取值进行随机组合得到由各种可能的子离子即虚拟子离子组成的所述含C、Cl和/或Br的母离子的子离子虚拟库;
所述不含C、Cl和/或Br的母离子的子离子虚拟库按照包括如下步骤的方法获得:
B11、将所述已知化合物的母离子化学式中的所有元素依据该元素的个数进行取值,所述元素设有0至t'n共计t'n+1个取值,所述t'n为所述母离子化学式中的所述元素的个数,是大于0的一个自然数;
B12、将所述母离子化学式中的所有元素的所有取值进行随机组合得到由各种可能的子离子即虚拟子离子组成的所述不含C、Cl和/或Br的母离子的子离子虚拟库;
3)化合物结构预测:将待测化合物的质谱数据中的母离子的质量数、子离子的质量数和子离子的丰度输入所述母离子分子式预测模型,得到待测化合物的母离子分子式;根据所述待测化合物的母离子分子式,使用S2)中所述母离子的子离子虚拟库的构建方法构建得到待测化合物的子离子虚拟库,所述待测化合物的子离子虚拟库中包含所述待测化合物的所有虚拟子离子的分子式和所述虚拟子离子的质量数;将所述待测化合物的质谱数据中的子离子与所述待测化合物的子离子虚拟库中的虚拟子离子基于质量数进行匹配得到所述待测化合物的靶标子离子,将所述待测化合物的靶标子离子的质量数、丰度和分子式作为输入数据输入所述化合物分子结构预测模型,得到所述待测化合物的分子结构IsomericSMILES。
6.根据权利要求5所述的方法,其特征在于:所述方法还包括化合物分子结构精确预测的步骤:检索已知化合物数据库中每种化合物同一分子式所有的同分异构体的IsomericSMILES,作为已知化合物的候选Isomeric SMILES;将所述待测化合物的Isomeric SMILES与所述候选Isomeric SMILES进行分子指纹的相关性匹配,依据所述分子指纹的权重获得所述候选Isomeric SMILES的分子指纹得分,取所述分子指纹得分由高到低排序的前n个候选物作为目标候选化合物;所述n为大于0的自然数;检索已知化合物数据库中所述目标候选化合物的名称和分子结构获得所述目标候选化合物的名称和分子结构;基于所述目标候选化合物的名称和分子结构、以及所述目标候选化合物质谱信息,确认所述待测化合物的结构。
7.根据权利要求5或6所述的方法,其特征在于:
所述母离子分子式预测模型构建和/或所述化合物分子结构预测模型构建采用学习率预热和余弦退火联用进行训练模型;
所述母离子分子式预测模型构建包括数据增强的步骤:对S1)中所述模型输入数据通过添加高斯噪声和添加随机遮盖进行数据增强;所述高斯噪声的参数randin_like设定为200,所述随机遮盖的参数mask_number设定为2;
所述化合物分子结构预测模型构建包括数据增强的步骤:对S2)中所述模型输入数据通过随机调整对比度和添加高斯噪声进行数据增强,所述高斯噪声的参数randin_like设定为200,所述随机调整对比度的参数uniform设定为0.1。
8.根据权利要求5或6所述的方法,其特征在于:所述母离子分子式预测模型采用Transformer机器翻译算法构建获得;所述化合物分子结构预测模型采用Transformer机器翻译算法构建获得。
9.存储有计算机程序的计算机可读存储介质或包括计算机程序的计算机程序产品,其特征在于:所述计算机程序被处理器执行时实现权利要求5-8中任一权利要求所述方法的步骤。
10.权利要求1-4中任一权利要求所述装置和/或权利要求5-8中任一权利要求所述方法和/或权利要求9所述存储有计算机程序的计算机可读存储介质或包括计算机程序的计算机程序产品的下述任一种应用:
C1)预测环境中的污染物中的应用;
C2)制备预测环境中污染物的产品中的应用。
CN202410268461.0A 2024-03-11 2024-03-11 基于化合物质谱信息预测化合物结构的装置、方法和计算机可读存储介质 Active CN117877622B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410268461.0A CN117877622B (zh) 2024-03-11 2024-03-11 基于化合物质谱信息预测化合物结构的装置、方法和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410268461.0A CN117877622B (zh) 2024-03-11 2024-03-11 基于化合物质谱信息预测化合物结构的装置、方法和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN117877622A CN117877622A (zh) 2024-04-12
CN117877622B true CN117877622B (zh) 2024-06-04

Family

ID=90594978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410268461.0A Active CN117877622B (zh) 2024-03-11 2024-03-11 基于化合物质谱信息预测化合物结构的装置、方法和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN117877622B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107085049A (zh) * 2017-04-17 2017-08-22 中国检验检疫科学研究院 一种食用农产品农药残留非靶标、多指标、快速侦测的电子化方法
CN109725072A (zh) * 2017-10-27 2019-05-07 中国医学科学院药物研究所 一种基于lc-ms/ms技术的筛查癌症生物标志物的靶向定性定量代谢组学分析方法
CN115656403A (zh) * 2022-11-08 2023-01-31 中国科学院生态环境研究中心 氧化应激效应化合物的分析方法
CN116046949A (zh) * 2023-01-17 2023-05-02 中国农业科学院农业基因组研究所 群体感应小分子代谢组定量检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107085049A (zh) * 2017-04-17 2017-08-22 中国检验检疫科学研究院 一种食用农产品农药残留非靶标、多指标、快速侦测的电子化方法
CN109725072A (zh) * 2017-10-27 2019-05-07 中国医学科学院药物研究所 一种基于lc-ms/ms技术的筛查癌症生物标志物的靶向定性定量代谢组学分析方法
CN115656403A (zh) * 2022-11-08 2023-01-31 中国科学院生态环境研究中心 氧化应激效应化合物的分析方法
CN116046949A (zh) * 2023-01-17 2023-05-02 中国农业科学院农业基因组研究所 群体感应小分子代谢组定量检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
超高效液相色谱串联质谱快速测定饮用水中9种N-亚硝胺的新方法;罗茜;王东红;王炳一;张子秋;王子健;;中国科学:化学;20110115(第01期);全文 *

Also Published As

Publication number Publication date
CN117877622A (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
Xu et al. Pretreatments of chromatographic fingerprints for quality control of herbal medicines
CN110110743B (zh) 一种七类质谱谱图自动识别系统与方法
Tziotis et al. Kendrick-analogous network visualisation of ion cyclotron resonance Fourier transform mass spectra: improved options for the assignment of elemental compositions and the classification of organic molecular complexity
CN103109345B (zh) 产物离子光谱的数据独立获取及参考光谱库匹配
US20140297201A1 (en) Computer-assisted structure identification
WO2020014767A1 (en) Systems and methods for de novo peptide sequencing from data-independent acquisition using deep learning
Streun et al. A machine learning approach for handling big data produced by high resolution mass spectrometry after data independent acquisition of small molecules–Proof of concept study using an artificial neural network for sample classification
CN112712108A (zh) 一种拉曼光谱多元数据分析方法
Kharyuk et al. Employing fingerprinting of medicinal plants by means of LC-MS and machine learning for species identification task
CN114414689A (zh) 一种基于超高效液相色谱高分辨率质谱的全氟化合物非靶向定量方法
CN117273151B (zh) 基于大语言模型的科学仪器使用分析方法、装置及系统
Fan et al. Deep learning-based method for automatic resolution of gas chromatography-mass spectrometry data from complex samples
CN117877622B (zh) 基于化合物质谱信息预测化合物结构的装置、方法和计算机可读存储介质
Butler et al. MS2Mol: A transformer model for illuminating dark chemical space from mass spectra
Dubroca et al. Weighted NMF for high-resolution mass spectrometry analysis
Wang et al. Feature selection of gas chromatography/mass spectrometry chemical profiles of basil plants using a bootstrapped fuzzy rule-building expert system
CN112151109B (zh) 用于评价生物分子交联质谱鉴定随机性的半监督学习方法
EP4078600B1 (en) Method and system for the identification of compounds in complex biological or environmental samples
Holub et al. Analysis of Laser-Induced Breakdown Spectroscopy Data Acquired from Boundary of Two Matrices
Woldegebriel et al. A new Bayesian approach for estimating the presence of a suspected compound in routine screening analysis
CN118067897A (zh) 基于深度学习鉴定或辅助鉴定水中新污染物的方法、装置和计算机可读存储介质
Franzen Automatic pre-interpretation of analytical information of GC/MS systems
CN109190713A (zh) 基于血清质谱自适应稀疏特征选择的卵巢癌微创快检技术
CN111220754A (zh) 一种人参识别平台和利用该平台的人参识别方法
Martínez et al. MASS Studio: A novel software utility to simplify LC-MS analyses of large sets of samples for metabolomics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant