CN112634997A

CN112634997A - 一种甾醇数据库建立及甾醇分析方法

Info

Publication number: CN112634997A
Application number: CN202011282362.6A
Authority: CN
Inventors: 朱正江; 李彤洲
Original assignee: Shanghai Institute of Organic Chemistry of CAS
Current assignee: Shanghai Institute of Organic Chemistry of CAS
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-04-09

Abstract

本申请公开了一种甾醇数据库建立，以及基于甾醇数据库的甾醇分析方法。该方法可以具体通过液相色谱‑串联离子淌度质谱，获取第一甾醇的四维信息，四维信息包括碰撞截面面积信息、色谱保留时间、一级质谱信息和二级质谱信息，并分别建立第一甾醇的四维信息中每一维度信息的预测模型，接着，根据每一维度信息的预测模型，确定第二甾醇的四维信息，并根据第一甾醇的四维信息和第二甾醇的四维信息，构建甾醇数据库，通过甾醇数据库对待测样品中的目标甾醇进行分析，确定与目标甾醇对应的鉴定结果信息。由此，通过液相色谱‑串联离子淌度质谱技术，获取甾醇的四维信息，以实现甾醇同分异构体高分离，而且可实现高准确、高覆盖的甾醇鉴定。

Description

一种甾醇数据库建立及甾醇分析方法

技术领域

本申请涉及数据分析技术领域，尤其涉及一种高覆盖的甾醇数据库建立，以及基于甾醇数据库的甾醇分析方法。

背景技术

甾醇具有重要的生理功能，与心血管疾病、癌症和神经退行性疾病等重大疾病密切相关。甾醇组学(Sterolomics)主要是通过检测机体内各类甾醇代谢水平，全面的分析甾醇代谢通路和代谢网络的变化，以揭示其对于疾病的意义。

目前，甾醇组学的分析对象主要是依赖于有限的、可购买的甾醇标准品。这样，只能测定少量的甾醇，覆盖度低，不能满足甾醇组学的分析要求。并且，在甾醇组学的分析过程中，一般通过色谱柱分离和二级谱图的差异的方式对甾醇进行分离。然而，该方式会影响一些甾醇的鉴定结果的准确性，例如，一些甾醇具有相同四元环状核心，同分异构体的结构差异小，而在色谱柱分离过程中，无法实现甾醇同分异构体的高分离；或者，甾醇的同分异构体二级质谱图碎片相似度高无法用于准确的鉴定具体甾醇的种类，假阳性高。

发明内容

为解决上述问题，本申请提供一种甾醇数据库建立，以及基于甾醇数据库的甾醇分析方法，能够解决目前甾醇鉴定准确性低的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种甾醇数据库建立方法，该方法可以包括：

通过液相色谱-串联离子淌度质谱，获取第一甾醇的四维信息，四维信息包括碰撞截面面积信息、色谱保留时间、一级质谱信息和二级质谱信息；

分别建立第一甾醇的四维信息中每一维度信息的预测模型；

根据每一维度信息的预测模型，确定第二甾醇的四维信息；

基于第一甾醇的四维信息和第二甾醇的四维信息，构建甾醇数据库。

在一种可能的实施例中，上述涉及的“分别建立第一甾醇的四维信息中每一维度信息的预测模型”的步骤中，具体可以包括：

在第一甾醇的四维信息为碰撞截面面积信息的情况下，获取训练数据集，训练数据集包括与第一甾醇对应的第一碰撞截面面积信息；

通过第一甾醇的简化分子线性输入规范参数和二维空间结构信息，确定与第一碰撞截面面积信息对应的第一组分子描述符；

在第一组分子描述符中，筛选出第二组分子描述符；其中，第二组分子描述符对应的第一目标碰撞截面面积信息与第一预设碰撞截面面积信息的相关度高于第一预设阈值；

根据第二组分子描述符和第一目标碰撞截面面积信息，对第一预设支持向量机预测模型进行训练，直至满足第一预设训练条件，得到第一目标支持向量机预测模型。

基于此，上述涉及的“根据每一维度信息的预测模型，确定第二甾醇的四维信息”的步骤中，具体可以包括：

根据第二甾醇的简化分子线性输入规范参数和二维空间结构信息，确定与第二甾醇对应的第三组分子描述符；

将第三组分子描述符输入到第一目标支持向量机预测模型，得到第二甾醇的碰撞截面面积信息。

在另一种可能的实施例中，上述涉及的“分别建立第一甾醇的四维信息中每一维度信息的预测模型”的步骤中，具体可以包括：

在第一甾醇的四维信息为色谱保留时间的情况下，

获取训练数据集，训练数据集包括与第一甾醇对应的色谱保留时间；

通过第一甾醇的简化分子线性输入规范参数和二维空间结构信息，确定与色谱保留时间对应的第四组分子描述符；

在第四组分子描述符中，筛选出第五组的分子描述符；其中，第五组分子描述符对应的色谱保留时间与预设色谱保留时间的相关度高于第二预设阈值；

根据第五组分子描述符和与第一甾醇对应的色谱保留时间，对第二预设支持向量机预测模型进行训练，直至满足第二预设训练条件，得到第二目标支持向量机预测模型。

根据第二甾醇的简化分子线性输入规范参数和二维空间结构信息，确定与第二甾醇对应的第六组分子描述符；

将第六组分子描述符输入到第二目标支持向量机预测模型，得到第二甾醇的色谱保留时间。

在又一种可能的实施例中，上述涉及的“分别建立第一甾醇的四维信息中每一维度信息的预测模型”的步骤中，具体可以包括：

在第一甾醇的四维信息为一级质谱信息的情况下，根据第一甾醇的一级质谱信息，得到第一甾醇的母离子质量数信息；

通过衍生化反应对第一甾醇进行处理，得到第一甾醇的分子式计算精确质量数信息、第一甾醇的甾醇羟基数目信息与母离子质量数信息的第一关联信息；

根据第一关联信息对预设线性预测模型进行训练，直至满足第三预设训练条件，得到目标线性预测模型。

获取第二甾醇的目标信息，目标信息包括下述中的至少一项：第二甾醇的母离子质量数信息、第二甾醇的甾醇羟基数目信息、第二甾醇的精确质量数信息；

将第二甾醇的目标信息输入到目标线性预测模型中，得到第二甾醇的一级质谱信息。

在再一种可能的实施例中，上述涉及的“分别建立第一甾醇的四维信息中每一维度信息的预测模型”的步骤中，具体可以包括：

在第一甾醇的四维信息为二级质谱信息的情况下，根据第一甾醇的二级质谱信息，确定一类衍生化集团子离子和一类含有母核集团的子离子的第二关联关系；

根据第二关联关系对预设二级质谱信息预测模型进行训练，直至满足第四预设训练条件，得到目标二级质谱信息预测模型。

获取第二甾醇的一类衍生化集团子离子和/或一类含有母核集团的子离子；

将一类衍生化集团子离子和/或一类含有母核集团的子离子输入到目标二级质谱信息预测模型中，得到第二甾醇的二级质谱信息。

第二方面，本申请实施例提供了一种基于第一方面所示的甾醇数据库的甾醇分析方法，该方法可以包括：

获取待测样品，待测样品包括目标甾醇；

通过液相色谱-串联离子淌度质谱，确定目标甾醇的四维信息，四维信息包括碰撞截面面积信息、色谱保留时间、一级质谱信息和二级质谱信息；

将目标甾醇的四维信息与甾醇数据库中的四维信息进行匹配，得到匹配成功结果；

根据匹配成功结果，生成鉴定结果信息，鉴定结果信息包括下述中的至少一项：目标甾醇的名称、目标甾醇在待测样品中的浓度、目标甾醇对应的种类信息、目标甾醇的精确质量数。

第三方面，本申请实施例提供了一种甾醇数据库建立装置，该装置可以包括：

获取模块，用于通过液相色谱-串联离子淌度质谱，获取第一甾醇的四维信息，四维信息包括碰撞截面面积信息、色谱保留时间、一级质谱信息和二级质谱信息；

建立模块，用于分别建立第一甾醇的四维信息中每一维度信息的预测模型；

确定模块，用于根据每一维度信息的预测模型，确定第二甾醇的四维信息；

构建模块，用于基于第一甾醇的四维信息和第二甾醇的四维信息，构建甾醇数据库。

在一种可能的实施例中，上述涉及的“建立模块”具体可以用于，在第一甾醇的四维信息为碰撞截面面积信息的情况下，获取训练数据集，训练数据集包括与第一甾醇对应的第一碰撞截面面积信息；

基于此，上述涉及的“确定模块”具体可以用于，根据第二甾醇的简化分子线性输入规范参数和二维空间结构信息，确定与第二甾醇对应的第三组分子描述符；将第三组分子描述符输入到第一目标支持向量机预测模型，得到第二甾醇的碰撞截面面积信息。

在另一种可能的实施例中，上述涉及的“建立模块”具体可以用于，在第一甾醇的四维信息为色谱保留时间的情况下，

基于此，上述涉及的“确定模块”具体可以用于，根据第二甾醇的简化分子线性输入规范参数和二维空间结构信息，确定与第二甾醇对应的第六组分子描述符；将第六组分子描述符输入到第二目标支持向量机预测模型，得到第二甾醇的色谱保留时间。

在又一种可能的实施例中，上述涉及的“建立模块”具体可以用于，在第一甾醇的四维信息为一级质谱信息的情况下，根据第一甾醇的一级质谱信息，得到第一甾醇的母离子质量数信息；通过衍生化反应对第一甾醇进行处理，得到第一甾醇的分子式计算精确质量数信息、第一甾醇的甾醇羟基数目信息与母离子质量数信息的第一关联信息；

基于此，上述涉及的“确定模块”具体可以用于，获取第二甾醇的目标信息，目标信息包括下述中的至少一项：第二甾醇的母离子质量数信息、第二甾醇的甾醇羟基数目信息、第二甾醇的质量数信息；将第二甾醇的目标信息输入到目标线性预测模型中，得到第二甾醇的一级质谱信息。

在再一种可能的实施例中，上述涉及的“建立模块”具体可以用于，在第一甾醇的四维信息为二级质谱信息的情况下，根据第一甾醇的二级质谱信息，确定一类衍生化集团子离子和一类含有母核集团的子离子的第二关联关系；

基于此，上述涉及的“确定模块”具体可以用于，获取第二甾醇的一类衍生化集团子离子和/或一类含有母核集团的子离子；将一类衍生化集团子离子和/或一类含有母核集团的子离子输入到目标二级质谱信息预测模型中，得到第二甾醇的二级质谱信息。

第四方面，本申请实施例提供了一种基于第一方面或者第二方面所示的甾醇数据库的甾醇分析装置，该装置可以包括：

获取模块，用于获取待测样品，待测样品包括目标甾醇；

确定模块，用于通过液相色谱-串联离子淌度质谱，确定目标甾醇的四维信息，四维信息包括碰撞截面面积信息、色谱保留时间、一级质谱信息和二级质谱信息；

匹配模块，用于将目标甾醇的四维信息与甾醇数据库中的四维信息进行匹配，得到匹配成功结果；

生成模块，用于根据匹配成功结果，生成鉴定结果信息，鉴定结果信息包括下述中的至少一项：目标甾醇的名称、目标甾醇在待测样品中的浓度、目标甾醇对应的种类信息、目标甾醇的精确质量数。

第五方面，本申请实施例提供了一种计算机设备，该计算机设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如第一方面所示的甾醇数据库建立方法的步骤，或者，实现如第二方面所示的基于甾醇数据库的甾醇分析方法的步骤。

第六方面，本申请实施例提供了一种计算机可读存储介质，可读存储介质上存储程序或指令，程序或指令被处理器执行时实现如第一方面所示的甾醇数据库建立方法的步骤，或者，实现如第二方面所示的基于甾醇数据库的甾醇分析方法的步骤。

第七方面，本申请实施例提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现如第一方面所示的甾醇数据库建立方法的步骤，或者，实现如第二方面所示的基于甾醇数据库的甾醇分析方法的步骤。

由此，本申请提供一种基于甾醇结构的甾醇数据库建立，以及基于甾醇数据库的甾醇分析方法，通过液相色谱-串联离子淌度质谱技术，实现采集和收集甾醇的四维信息，即碰撞截面面积信息、色谱保留时间、一级质谱信息和二级质谱信息。这样，甾醇的四维信息不仅可以实现甾醇同分异构体高分离，而且可实现高准确、高覆盖的甾醇鉴定。

另外，本申请实施例中，通过第一甾醇的四维信息中每一维度信息的预测模型确定第二甾醇的四维信息，并基于第一甾醇的四维信息和第二甾醇的四维信息，构建甾醇数据库，以基于四维信息构建数据库进行甾醇鉴定，能够解决目前甾醇鉴定准确性低的问题。

附图说明

图1为本申请实施例提供的一种构建甾醇数据库方法以及基于甾醇数据库的甾醇分析方法的架构示意图；

图2为本申请实施例提供的一种构建甾醇数据库方法的流程图；

图3为本申请实施例提供的一种基于甾醇数据库的甾醇分析方法的流程图；

图4为本申请实施例提供的一种甾醇数据库建立装置的结构示意图；

图5为本申请实施例提供的一种基于甾醇数据库的甾醇分析装置的结构示意图；

图6为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

目前，生物体内复杂的生化反应产生的甾醇具有生理浓度低、数目多和同分异构体多的特征。液相色谱-串联质谱法(Liquid chromatography-tandem massspectrometry，LC-MS/MS)是目前甾醇组学主要的研究方法。但是，目前甾醇分析主要依赖于有限的可购买的甾醇标准品，这样，只能测定特定种类的甾醇，生物样品内鉴定到的甾醇不超过50种。然而，公共脂质数据库(LIPID MAPS Structure Database，LMSD)中包括多达2832种甾醇。由此，现有的甾醇分析方法明显不能满足甾醇组学的分析要求。这里，涉及的LC-MS/MS可以包括即不结合衍生化方法的技术和结合衍生化方法的技术。

其中，LC-MS/MS不结合衍生化方法的技术是最为传统的方法，其主要是将可购买甾醇标准品，配置成溶液后直接对其进行质谱分析，通过标准品样品优化色谱条件和质谱二级参数，记录每种甾醇的一级质谱信息(MS1)、二级质谱信息(MS/MS)和色谱保留时间(retention time RT)。这里，色谱保留时间，指的是溶液中的溶质通过色谱柱所需时间，即被分离样品组分从进样开始到柱后出现该组分浓度极大值时的时间，也即从进样开始到出现某组分色谱峰的顶点时为止所经历的时间，称为此组分的保留时间，常以分(min)为时间单位。

接着，生物样品经过液液萃取和液相色谱分离提取甾醇，并对其进行质谱分析，比对MS1、RT和MS/MS。这里，MS1比对阈值范围为1-30百万分率(ppm)，RT比对阈值范围是3-60秒，MS/MS相似度通过dot product或改进算法计算相似分数，MS/MS比对阈值范围是0.4-1。该方法使用了APCI离子源和ESI离子源，共收录了62种可购买的甾醇标准品信息，在生物样本中常规可检测到22种甾醇。但是，由于甾醇离子化效率差导致此类方法灵敏度低，上述方法为了提高覆盖度，需要通过多种类型离子源和多平台仪器，操作繁琐。

另外，LC-MS/MS结合衍生化方法，即为进行特殊的化学反应产生目的化合物的衍生产物。因为衍生化反应所以可以结合易于离子化的化学集团，提高了甾醇的离子化效率，有利于低浓度甾醇的分析和检测。此方法的主要的过程包括对可购买的甾醇标准品，进行衍生化反应，将甾醇衍生化产物通过LC-MS/MS进行分析，记录MS1、RT和MS/MS。

由于，衍生化可产生易于碎裂的衍生化集团，此类方法可以进一步整理和归纳子离子碎裂规律，记录特征子离子质量数和信号。生物样品经过液液萃取和液相色谱分离提取目的甾醇，经过衍生化反应，直接上质谱分析，比对MS1、RT和MS/MS。这里，MS1比对阈值范围为5-30ppm，RT比对阈值范围是3-60秒，通过特征离子进行MS/MS比对。由此，通过上述方式，收录了55种可购买的甾醇标准品信息，在生物样本中常规可检测到34种甾醇。但是，上述方式依赖标准品，检测覆盖度低，色谱分离条件有限。

另外，在甾醇组学中涉及的甾醇鉴定过程中，现有的甾醇分离主要依赖于色谱柱分离和二级谱图的差异，而甾醇具有相同四元环状核心，同分异构体的结构差异小，色谱无法实现甾醇同分异构体的高分离；以及，甾醇的同分异构体二级质谱图碎片相似度高无法用于准确的鉴定具体甾醇的种类，假阳性高。这些现状导致现有的甾醇分离方式对没有标准品的甾醇来说，鉴定结果的准确性较低。

由此，为解决上述问题，下面结合附图1-图3，通过具体的实施例及其应用场景对本申请实施例提供的甾醇数据库方法以及基于甾醇数据库的甾醇分析方法进行详细地说明。

首先，结合图1对构建甾醇数据库方法以及基于甾醇数据库的甾醇分析方法进行详细说明。

图1为本申请实施例提供的一种构建甾醇数据库方法以及基于甾醇数据库的甾醇分析方法的架构示意图。

首先，构建甾醇数据库，具体如下所示：

本申请通过液相色谱-串联离子淌度质谱(liquid chromatography-ionmobility-mass spectrometry，LC-IM-MS)，获取第一甾醇的四维信息，四维信息包括碰撞截面面积信息、色谱保留时间、一级质谱信息和二级质谱信息；分别建立第一甾醇的四维信息中每一维度信息的预测模型；根据每一维度信息的预测模型，确定第二甾醇的四维信息；基于第一甾醇的四维信息和第二甾醇的四维信息，构建甾醇数据库。

其中，第一甾醇可以包括可购买的甾醇标准品如97个可购买的甾醇标准品，第二甾醇可以包括LMSD中涉及的除第一甾醇之外的甾醇。然后，基于上述甾醇数据库进行甾醇分析，具体过程如下所示：

获取待测样品，待测样品包括目标甾醇；

通过平行采集甾醇数据库中的第一甾醇和待测样品对所述匹配成功结构进行调整，确定目标匹配成功结果；

根据目标匹配成功结果，生成鉴定结果信息，鉴定结果信息包括下述中的至少一项：目标甾醇的名称、目标甾醇在待测样品中的浓度、目标甾醇对应的种类信息、目标甾醇的精确质量数。

以及，本申请实施例中通过第一甾醇的四维信息中每一维度信息的预测模型确定第二甾醇的四维信息，并基于第一甾醇的四维信息和第二甾醇的四维信息，构建甾醇数据库，以基于四维信息构建数据库进行甾醇鉴定，能够解决目前甾醇鉴定准确性低的问题。

另外，通过将目标甾醇的四维信息与甾醇数据库中的四维信息进行匹配，以确定鉴定结果信息。由此，可以在实现高精度鉴定甾醇的同时，提供更为全面的甾醇信息，无需用户借用其他的设备进行获取，减少用户的操作时间，提高获取甾醇信息的效率，以提高用户体验感。

这里，本申请实施例中通过LC-IM-MS方式确定四维信息，是考虑到在离子淌度质谱内气相条件下根据化合物的结构大小、电荷数目和空间形状分离化合物，有利于同分异构体的分离。该，LC-IM-MS方式可以直接检测离子迁移率，并且确定新的物化常数即碰撞截面积(Collision cross section，CCS)信息。

本申请实施例通过对2832种甾醇建立基于四维信息的甾醇数据库，该甾醇数据库不仅可以实现甾醇同分异构体的高分离，而且可以实现高准确高覆盖的甾醇鉴定，为目前的甾醇鉴定提供了新的分析方法。因此，本申请实施例中提供的联合使用液相色谱和LC-IM-MS方式确定基于四维信息的甾醇数据库，并通过甾醇数据库确定新甾醇分析方法对于大规模地甾醇组学分析具有重要的研究意义。

根据上架构，下面结合图2对本申请实施例提供的甾醇数据库建立方法进行详细说明。

如图2所示，该甾醇数据库建立方法包括步骤210-步骤240。

首先，步骤210，通过液相色谱-串联离子淌度质谱，获取第一甾醇的四维信息；其次，步骤220，分别建立第一甾醇的四维信息中每一维度信息的预测模型；接着，步骤230，根据每一维度信息的预测模型，确定第二甾醇的四维信息；然后，步骤240，基于第一甾醇的四维信息和第二甾醇的四维信息，构建甾醇数据库。

由此，下面对上述步骤进行详细说明，具体如下所示：

首先，涉及步骤210，本申请实施例中涉及的甾醇四维数据包括甾醇的碰撞截面面积信息、色谱保留时间、一级质谱信息和二级质谱信息。

这里，本申请实施例中的四维信息可以实现更准确的甾醇组学分析。由此，在本申请实施例中，可以获取97个甾醇标准品即第一甾醇，通过了，LC-IM-MS收集了第一甾醇的MS1、RT、CCS和MS/MS。并根据四维信息中每一维度信息建立预测模型，即与CCS对应的第一目标支持向量机预测模型，与RT对应的第二目标支持向量机预测模型、与MS1对应的目标线性预测模型以及与MS/MS对应的目标二级质谱信息预测模型，下面结合步骤220进行详细描述。

其次，涉及步骤220，本申请实施例的第一甾醇的四维信息包括上述4个信息。由此，下面分别对确定第一甾醇的四维信息中每一维度信息的预测模型进行详细说明。

(1)第一甾醇的四维信息为碰撞截面面积信息。

目前，CCS对应的数据库的构建一般包括两种方式，即通过实验测量化学标准品构建数据库和计算机方法模拟构建数据库。

第一种方式，实验测量化学标准品构建CCS数据库的方式是最为传统的方案之一。主要是通过离子淌度质谱检测可购买的甾醇标准品，以获取实验的CCS数值，以便构建CCS数据库。这里，可购买的甾醇标准品大概是300种甾醇脂质，根据其300种甾醇脂质构建了CCS数据库。但是，由于可购买的甾醇标准品数目有限，不超过500种，没有标准品的甾醇就无法收集齐信息，并且目前甾醇CCS检测实验室间没有统一标准，信息无法交互验证和使用，不利于用户使用。

第二种方式是通过计算机理论计算甾醇CCS值，主要过程包括：获取甾醇的三维结构，计算二级物理化学参数，并通过量子力学的算法(比如分子动力学方法，密度能量函数)对该化合物的空间结构进行几何优化，获取能量最低态。然后借助理论算法(projectionapproximation，Trajectory method，Exact hard sphere scattering)，计算得到CCS值，构建CCS数据库。但是，该方式过于依赖于计算机的计算，需要高配置的计算设备，导致费用成本较高，计算速度慢，耗时，计算的理论CCS值和实验检测CCS值存在较大偏差，最大偏差可达30％。总体计算的甾醇CCS值的数目较少，无法实用。

由此，本申请实施例提供了一种新型的构建CCS对应的数据库，具体方式主要包括通过索套算法(Least absolute shrinkage and selection operator，LASSO)确定分子描述符，并根据分子描述符构建与CCS对应的第一目标支持向量机(Support VectorMachine，SVR)预测模型，以根据该第一目标支持向量机预测模型实现数据库的功能。

这样，步骤220具体可以包括S2201-S2204，具体如下所示：

S2201，获取训练数据集，训练数据集包括与第一甾醇对应的第一碰撞截面面积信息；

S2202，通过第一甾醇的简化分子线性输入规范参数和二维空间结构信息，确定与第一碰撞截面面积信息对应的具有第一组分子描述符；

S2203，在第一组分子描述符中，利用LASSO算法筛选出第二组分子描述符；其中，第二组分子描述符对应的第一目标碰撞截面面积信息与第一预设碰撞截面面积信息的相关度高于第一预设阈值；

其中，第一预设阈值可以是相关度最高的值，也可以是预设的值。

S2204，根据第二组分子描述符和第一目标碰撞截面面积信息，对第一预设支持向量机预测模型进行训练，直至满足第一预设训练条件，得到第一目标支持向量机预测模型。

其中，上述涉及的S2202，在一种可能的实施例中具体可以包括：

根据第一甾醇的简化分子线性输入规范参数和二维空间结构信息，通过R化学工具包(rcdk)和每个甾醇的SMILES计算与第一碰撞截面面积信息对应的第一组分子描述符。

另外，上述涉及的S2203，在一种可能的实施例中具体可以包括：

通过套索算法在第一组分子描述符中，筛选出具有第二组分子描述符。

下面通过一个例子对上述S2201-S2204进行说明。

首先，将采集的第一甾醇即97个甾醇的CCS信息分为2个数据集，即4/5数据为训练数据集，1/5数据为验证数据集。

其次，根据97个甾醇的简化分子线性输入规范(SMILES，simplified molecularinput line entry specification)参数、二维空间结构信息、通过R化学工具包(rcdk)和每个甾醇的SMILES计算出甾醇对应的分子描述符(MD)，每个甾醇对应第一组即221个MD。这里，rcdk可用于化学结构式的生成和化学性质的计算。

接下来，通过套索算法(least absolute shrinkage and selection operator，LASSO)在训练数据集中对应的221个MD中选出了具有第二组即12个和CCS值相关度最高的MD。

然后，将选择的12个MD和与12个MD对应的CCS值输入到第一预设支持向量机预测模型即第一预设SVR模型中，第一预设SVR模型通过核函数(kernel)构建高维度的回归模型，并对第一预设支持向量机预测模型进行训练，第一预设支持向量机预测模型用于预测训练数据集中的甾醇的CCS，并通过留一法计算计算预测出的CCS值和实际的CCS值的最小均方误差MSE，在MSE满足于一定预设条件如MSE满足1.5％时，确定第一预设支持向量机满足第一预设训练条件。基于此，通过第一目标支持向量机预测模型确定验证数据集，计算外部验证MSE，外部验证MSE可达1.75％，由此，通过SVR的第一目标支持向量机预测模型实现了高精度的预测效果。

(2)第一甾醇的四维信息为色谱保留时间。

步骤220具体可以包括：

举例说明，与构建第一目标支持向量机预测模型过程相似。首先，将采集的97个甾醇的RT值分为2个数据集，即4/5数据为训练数据集，1/5数据为验证数据集。接着，通过套索算法(LASSO)在训练数据集中对应的221个MD中选出了24个和RT相关度最高的MD。

然后，将选择的12个MD和与12个MD对应的RT输入到第二预设支持向量机预测模型即第二预设SVR模型中，SVR模型通过核函数(kernel)构建高维度的回归模型。并对第二预设支持向量机预测模型进行训练，第二预设支持向量机预测模型用于预测训练数据集中的甾醇的RT，并通过留一法计算计算预测出的RT值和实际的RT值的最小均方误差MSE，在MSE满足于一定预设条件如MSE满足22秒时，确定第一预设支持向量机满足第一预设训练条件。基于此，通过第二目标支持向量机预测模型确定验证数据集，计算外部验证MSE，外部验证MSE可达23秒，由此，通过SVR的第二目标支持向量机预测模型实现了高精度的预测效果。

(3)第一甾醇的四维信息为一级质谱信息。

步骤220具体可以包括：

根据第一甾醇的一级质谱信息，得到第一甾醇的母离子质量数信息；

举例说明，首先，基于LMSD提供的甾醇分子式计算精确质量数，将采集第一甾醇的一级质谱信息进行分析，得到第一甾醇的母离子质量数信息。接着，根据衍生化反应原理找到了甾醇精确质量数信息、甾醇羟基数目信息与一级质谱母离子信息的第一关联信息，根据第一关联信息建立了基于甾醇精确质量数信息和羟基数目预测母离子质量数信息的线性数学模型。

其中，本申请实施例提供了一种确定精确质量数的方式，下面通过一个例子进行说明。若甾醇精确质量数E，甾醇羟基数n，吡啶甲酸精确质量数Pa1，水的精确质量数W1，钠的精确质量数为NM，则甾醇衍生化产物的加钠加合物的精确质量数为P＝E+n(Pa1-W1)+NM。

(4)第一甾醇的四维信息为二级质谱信息

步骤220具体可以包括：

根据第一甾醇的二级质谱信息，确定一类衍生化集团子离子和一类含有母核集团的子离子的第二关联关系；

举例说明，根据97个甾醇的二级质谱信息，确定甾醇的二级碎裂规律即产生一类衍生化集团子离子和一类含有母核集团的子离子的第二关联关系，建立了目标二级质谱信息预测模型。

其中，本申请实施例提供了一种确定目标二级质谱信息预测模型的方式，下面通过一个例子进行说明。若甾醇精确质量数E，甾醇羟基数n，吡啶甲酸精确质量数Pa1，钠的精确质量数为NM，甾醇衍生化产物的加钠加合物的精确质量数P，一类衍生化集团子离子质量数为PAn，则线性数学模型为PAn＝Pa1+NM，母核集团的子离子质量数SKe，目标二级质谱信息预测模型为SKe＝P-Pa1。

接着，涉及步骤230，基于步骤220中的4种可能，步骤230与之对应的提供根据每一维度信息的预测模型，确定第二甾醇的四维信息。其中，第二甾醇的四维信息也包括碰撞截面面积信息、色谱保留时间、一级质谱信息和二级质谱信息。

由此，基于步骤220中的(1)可能，步骤230具体可以包括：

例如：通过第一目标支持向量机预测模型预测含有羟基的2183个甾醇的CCS值。

基于步骤220中的(2)可能，步骤230具体可以包括：

例如：通过第二目标支持向量机预测模型预测2183个甾醇的RT。

基于步骤220中的(3)可能，步骤230具体可以包括：

例如：通过目标线性预测模型预测2183个甾醇的MS1信息。

基于步骤220中的(4)可能，步骤230具体可以包括：

例如：通过目标二级质谱信息预测模型预测了MS/MS。

由此，整合四维信息对应的每个模型，建立了涵盖2183甾醇的四维信息的甾醇数据库，该甾醇数据库是目前涵盖甾醇数目最多的四维信息的甾醇数据库。

基于上述构建的甾醇数据库，本发明实施例还提供了一种基于甾醇数据库的甾醇分析方法。结合图3进行详细说明。

如图3所示，该甾醇数据库的甾醇分析方法包括步骤310-步骤350。具体如下所示：

步骤310，获取待测样品，待测样品包括目标甾醇；

步骤320，通过液相色谱-串联离子淌度质谱，确定目标甾醇的四维信息，四维信息包括碰撞截面面积信息、色谱保留时间、一级质谱信息和二级质谱信息；

步骤330，将目标甾醇的四维信息与甾醇数据库中的四维信息进行匹配，得到匹配成功结果。

步骤340，通过平行采集甾醇数据库中的第一甾醇和待测样品，对匹配成功结构进行调整，得到目标匹配成功结果。

其中，为了保证最后匹配结果的准确性，本申请实施例中通过平行采集甾醇数据库中的第一甾醇和待测样品，将同一批次采集的甾醇标准品和待测样品再采集并对比至少一次，以保证甾醇标准品和待测样品处于使用同一根色谱柱和质谱状态。然后，将比对后的匹配结果确定为目标匹配成功结果。

步骤350，根据目标匹配成功结果，生成鉴定结果信息，鉴定结果信息包括下述中的至少一项：目标甾醇的名称、目标甾醇在待测样品中的浓度、目标甾醇对应的种类信息、目标甾醇的精确质量数。

基于此，本申请实施例提供了一种甾醇的四维信息匹配方法规则，其主要包括MS1匹配、RT匹配、CCS匹配和MS/MS匹配，并且根据上述甾醇数据库的结构，涉及2种匹配模式，即甾醇数据库中包括标准品数据库(即第一甾醇对应的四维信息构成的数据库)匹配模式和预测数据库(即第二甾醇对应的四维信息构成的数据库)匹配模式，具体如下所示。

第一种匹配模式，基于第一甾醇对应的四维信息构成的数据库，通过本地97个甾醇标准品优化了标准品数据库的四维匹配参数，最优参数即MS1比对阈值范围为25ppm，RT匹配并打分阈值范围是0-12秒对应1分-0分，CCS匹配通过梯形计算方式，范围1％-1.5％，分数1分-0分，MS/MS相似度通过dot product算法计算相似分数。整合RT、CCS和MS/MS计算综合分数阈值0.6，各自的权重是0.2，0.2，0.4。此参数可以实现85％-89％的正确度。

第二种匹配模式，基于第二甾醇对应的四维信息构成的数据库，通过上述4种模型的误差值，确定了甾醇预测数据库的匹配参数，MS1比对阈值范围为25ppm，RT匹配并打分阈值范围是0-30秒，对应1分-0分，CCS匹配通过梯形计算方式，范围1％-3％，分数1分-0分，MS/MS相似度通过改进的dot product算法，只考虑精确质量数匹配，整合RT、CCS和MS/MS计算综合分数阈值0.6，各自的权重是0.2，0.2，0.4。

这里，对步骤310-步骤350进行举例说明，具体如下所示：

首先，通过吡啶二甲酸picolinic acid的衍生化对待测样品处理，得到处理后的样本。

接着，通过优化的LC-IM-MS进行全离子碎裂(AIF，All ion fragmentation)模式的数据采集，设置碰撞能量0伏特，以采集一级质谱，碰撞能量20伏特，以采集二级质谱。

进行四维信息的标准品数据库匹配和预测数据库匹配，同时输出2种数据库的匹配成功结果。

再者，通过平行采集甾醇数据库中的标准品和待测样品，对匹配成功结构进行调整，得到目标匹配成功结果。

然后，根据目标匹配成功结果，生成鉴定结果信息，该鉴定结果信息可以包括下述中的至少一项：甾醇的注释名字，精确质量数，保留时间(可结合定量分析软件skyline中确定)，导出峰面积用于相对定量分析通过相对定量分析结果进行显著性分析、聚类分析和代谢网络分析，以便基于鉴定结果信息获取甾醇全面的种类信息。

基于相同的发明构思，本申请还提供了一种甾醇数据库建立装置。具体结合图4进行详细说明。

图4为本申请实施例提供的一种甾醇数据库建立装置的结构示意图。

如图4所示，该甾醇数据库建立装置400应用于电子设备，具体可以包括：

获取模块401，用于通过液相色谱-串联离子淌度质谱，获取第一甾醇的四维信息，四维信息包括碰撞截面面积信息、色谱保留时间、一级质谱信息和二级质谱信息；

建立模块402，用于分别建立第一甾醇的四维信息中每一维度信息的预测模型；

确定模块403，用于根据每一维度信息的预测模型，确定第二甾醇的四维信息；

构建模块404，用于基于第一甾醇的四维信息和第二甾醇的四维信息，构建甾醇数据库。

由此，通过液相色谱-串联离子淌度质谱技术，实现采集和收集甾醇的四维信息，即碰撞截面面积信息、色谱保留时间、一级质谱信息和二级质谱信息。这样，甾醇的四维信息不仅可以实现甾醇同分异构体高分离，而且可实现高准确、高覆盖的甾醇鉴定。另外，本申请实施例中，通过第一甾醇的四维信息中每一维度信息的预测模型确定第二甾醇的四维信息，并基于第一甾醇的四维信息和第二甾醇的四维信息，构建甾醇数据库，以基于四维信息构建数据库进行甾醇鉴定，能够解决目前甾醇鉴定准确性低的问题。

下面分别对本申请实施例提供的甾醇数据库建立装置400进行详细说明。

在一种可能的实施例中，建立模块402具体可以用于，在第一甾醇的四维信息为碰撞截面面积信息的情况下，获取训练数据集，训练数据集包括与第一甾醇对应的第一碰撞截面面积信息；

基于此，确定模块403具体可以用于，根据第二甾醇的简化分子线性输入规范参数和二维空间结构信息，确定与第二甾醇对应的第三组分子描述符；

在另一种可能的实施例中，建立模块402具体可以用于，在第一甾醇的四维信息为色谱保留时间的情况下，获取训练数据集，训练数据集包括与第一甾醇对应的色谱保留时间；

根据第五组分子描述符和与第一甾醇对应的色谱保留时间，对第二预设支持向量机预测模型进行训练，直至满足第二预设训练条件，得到第二目标支持向量机预测模型。。

基于此，确定模块403具体可以用于，根据第二甾醇的简化分子线性输入规范参数和二维空间结构信息，确定与第二甾醇对应的第六组分子描述符；

在又一种可能的实施例中，建立模块402具体可以用于，在第一甾醇的四维信息为一级质谱信息的情况下，根据第一甾醇的一级质谱信息，得到第一甾醇的母离子质量数信息；

基于此，确定模块403具体可以用于，获取第二甾醇的目标信息，目标信息包括下述中的至少一项：第二甾醇的母离子质量数信息、第二甾醇的甾醇羟基数目信息、第二甾醇的质量数信息；

在再一种可能的实施例中，建立模块402具体可以用于，在第一甾醇的四维信息为二级质谱信息的情况下，根据第一甾醇的二级质谱信息，确定一类衍生化集团子离子和一类含有母核集团的子离子的第二关联关系；

基于此，确定模块403具体可以用于，获取第二甾醇的一类衍生化集团子离子和/或一类含有母核集团的子离子；

基于相同的发明构思，本申请还提供了一种基于甾醇数据库的甾醇分析装置。具体结合图5进行详细说明。

图5为本申请实施例提供的一种基于甾醇数据库的甾醇分析装置的结构示意图。

如图5所示，该基于甾醇数据库的甾醇分析装置500应用于电子设备，具体可以包括：

获取模块501，用于获取待测样品，待测样品包括目标甾醇；

确定模块502，用于通过液相色谱-串联离子淌度质谱，确定目标甾醇的四维信息，四维信息包括碰撞截面面积信息、色谱保留时间、一级质谱信息和二级质谱信息；

匹配模块503，用于将目标甾醇的四维信息与甾醇数据库中的四维信息进行匹配，得到匹配成功结果；

调整模块504，用于通过平行采集所述甾醇数据库中的第一甾醇和所述待测样品，对所述匹配成功结构进行调整，得到目标匹配成功结果；

生成模块505，用于根据目标匹配成功结果，生成鉴定结果信息，鉴定结果信息包括下述中的至少一项：目标甾醇的名称、目标甾醇在待测样品中的浓度、目标甾醇对应的种类信息、目标甾醇的精确质量数。

本申请实施例中的甾醇数据库建立装置或者甾醇分析装置可以是装置，也可以是电子设备中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的甾醇数据库建立装置或者甾醇分析装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的甾醇数据库建立装置或者甾醇分析装置能够实现图1至图3的方法实施例实现的各个过程，为避免重复，这里不再赘述。

综上，本申请提供一种基于甾醇结构的甾醇数据库建立，以及基于甾醇数据库的甾醇分析方法，通过液相色谱-串联离子淌度质谱技术，实现采集和收集甾醇的四维信息，即碰撞截面面积信息、色谱保留时间、一级质谱信息和二级质谱信息。这样，甾醇的四维信息不仅可以实现甾醇同分异构体高分离，而且可实现高准确、高覆盖的甾醇鉴定。

可选的，如图6所示，本申请实施例还提供一种计算机设备600，包括处理器601，存储器602，存储在存储器602上并可在处理器601上运行的程序或指令，该程序或指令被处理器601执行时实现上述甾醇数据库建立方法或者甾醇分析方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述甾醇数据库建立方法或者甾醇分析方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，处理器为上述实施例中的电子设备中的处理器。其中，可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

另外，本申请实施例另提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述甾醇数据库建立方法或者甾醇分析方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种甾醇数据库建立方法，其特征在于，包括：

通过液相色谱-串联离子淌度质谱，获取第一甾醇的四维信息，所述四维信息包括碰撞截面面积信息、色谱保留时间、一级质谱信息和二级质谱信息；

分别建立所述第一甾醇的四维信息中每一维度信息的预测模型；

根据所述每一维度信息的预测模型，确定第二甾醇的四维信息；

基于所述第一甾醇的四维信息和所述第二甾醇的四维信息，构建甾醇数据库。

2.根据权利要求1所述的方法，其特征在于，所述第一甾醇的四维信息为碰撞截面面积信息；

所述分别建立所述第一甾醇的四维信息中每一维度信息的预测模型，包括：

获取训练数据集，所述训练数据集包括与所述第一甾醇对应的第一碰撞截面面积信息；

通过所述第一甾醇的简化分子线性输入规范参数和二维空间结构信息，确定与所述第一碰撞截面面积信息对应的第一组分子描述符；

在所述第一组分子描述符中，筛选出第二组的分子描述符；其中，所述第二组分子描述符对应的第一目标碰撞截面面积信息与第一预设碰撞截面面积信息的相关度高于第一预设阈值；

根据所述第二组分子描述符和所述第一目标碰撞截面面积信息，对第一预设支持向量机预测模型进行训练，直至满足第一预设训练条件，得到第一目标支持向量机预测模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述每一维度信息的预测模型，确定第二甾醇的四维信息，包括：

根据所述第二甾醇的简化分子线性输入规范参数和二维空间结构信息，确定与所述第二甾醇对应的第三组分子描述符；

将所述第三组分子描述符输入到所述第一目标支持向量机预测模型，得到所述第二甾醇的碰撞截面面积信息。

4.根据权利要求1所述的方法，其特征在于，所述第一甾醇的四维信息为色谱保留时间；

获取训练数据集，所述训练数据集包括与所述第一甾醇对应的色谱保留时间；

通过所述第一甾醇的简化分子线性输入规范参数和二维空间结构信息，确定与所述色谱保留时间对应的第四组分子描述符；

在所述第四组分子描述符中，筛选出第五组的分子描述符；其中，所述第五组分子描述符对应的色谱保留时间与预设色谱保留时间的相关度高于第二预设阈值；

根据所述第五组分子描述符和与所述第一甾醇对应的色谱保留时间，对第二预设支持向量机预测模型进行训练，直至满足第二预设训练条件，得到第二目标支持向量机预测模型。

5.根据权利要求4所述的方法，其特征在于，所述根据所述每一维度信息的预测模型，确定第二甾醇的四维信息，包括：

根据所述第二甾醇的简化分子线性输入规范参数和二维空间结构信息，确定与所述第二甾醇对应的第六组分子描述符；

将所述第六组分子描述符输入到所述第二目标支持向量机预测模型，得到所述第二甾醇的色谱保留时间。

6.根据权利要求1所述的方法，其特征在于，所述第一甾醇的四维信息为一级质谱信息；

根据所述第一甾醇的一级质谱信息，得到所述第一甾醇的母离子质量数信息；

通过衍生化反应对所述第一甾醇进行处理，得到所述第一甾醇的分子式计算精确质量数信息、所述第一甾醇的甾醇羟基数目信息与所述母离子质量数信息的第一关联信息；

根据所述第一关联信息对预设线性预测模型进行训练，直至满足第三预设训练条件，得到目标线性预测模型。

7.根据权利要求6所述的方法，其特征在于，所述根据所述每一维度信息的预测模型，确定第二甾醇的四维信息，包括：

获取所述第二甾醇的目标信息，所述目标信息包括下述中的至少一项：所述第二甾醇的母离子质量数信息、所述第二甾醇的甾醇羟基数目信息、所述第二甾醇的质量数信息；

将所述第二甾醇的目标信息输入到所述目标线性预测模型中，得到所述第二甾醇的一级质谱信息。

8.根据权利要求1所述的方法，其特征在于，所述第一甾醇的四维信息为二级质谱信息；

根据所述第一甾醇的二级质谱信息，确定一类衍生化集团子离子和一类含有母核集团的子离子的第二关联关系；

根据所述第二关联关系对预设二级质谱信息预测模型进行训练，直至满足第四预设训练条件，得到目标二级质谱信息预测模型。

9.根据权利要求8所述的方法，其特征在于，所述根据所述每一维度信息的预测模型，确定第二甾醇的四维信息，包括：

获取所述第二甾醇的一类衍生化集团子离子和/或一类含有母核集团的子离子；

将所述一类衍生化集团子离子和/或一类含有母核集团的子离子输入到所述目标二级质谱信息预测模型中，得到所述第二甾醇的二级质谱信息。

10.一种基于权利要求1-9中任一项所述的甾醇数据库的甾醇分析方法，其特征在于，包括：

获取待测样品，所述待测样品包括目标甾醇；

通过液相色谱-串联离子淌度质谱，确定所述目标甾醇的四维信息，所述四维信息包括碰撞截面面积信息、色谱保留时间、一级质谱信息和二级质谱信息；

将所述目标甾醇的四维信息与所述甾醇数据库中的四维信息进行匹配，得到匹配成功结果；

通过平行采集所述甾醇数据库中的第一甾醇和所述待测样品，对所述匹配成功结构进行调整，得到目标匹配成功结果；

根据目标匹配成功结果，生成鉴定结果信息，所述鉴定结果信息包括下述中的至少一项：所述目标甾醇的名称、所述目标甾醇在所述待测样品中的浓度、所述目标甾醇对应的种类信息、所述目标甾醇的精确质量数。