CN113567605B

CN113567605B - 质量色谱图的自动化解释模型构建方法、装置和电子设备

Info

Publication number: CN113567605B
Application number: CN202110935751.2A
Authority: CN
Inventors: 苏恺明
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2024-09-20
Anticipated expiration: 2041-08-16
Also published as: CN113567605A

Abstract

本申请提供一种质量色谱图的自动化解释模型构建方法、装置和电子设备，通过获取多个样品分别对应的质量色谱图，对各质量色谱图进行处理获得对应的特征数据，并计算得到各特征数据的样本标签，利用携带样本标签的特征数据对构建的神经网络模型进行训练，直至满足预设要求时得到解释模型，该解释模型可用于对待处理的质量色谱图进行自动化信息解析分析。该方案采用机器学习的方式，通过获得特征数据和样本标签以训练得到解释模型，从而可用于自动化地实现质量色谱资料的分析和解释，可以支持提取质量色谱图的更多特征、反映更全面信息、实现高维度的分析的目的。

Description

质量色谱图的自动化解释模型构建方法、装置和电子设备

技术领域

本发明涉及自动化处理技术领域，具体而言，涉及一种质量色谱图的自动化解释模型构建方法、装置和电子设备。

背景技术

气象色谱-质谱分析(GC-MS)是石油勘探重要的分析测试手段。GC-MS系统通过色谱仪对混合有机物的分离、质谱仪对分子结构的鉴定从而实现对石油中许多化合物的识别和定量。质量色谱图是GC-MS分析获得的原始资料，它由一根波动起伏的曲线构成，各种凸起峰反映着仪器对于不同化合物的响应，峰的面积(或高度)则反映化合物的含量。以这一资料为依据，石油地球化学工作者能够分析出石油及沉积物中有机质的年代、母质类型、热成熟度等信息，进而为石油勘探过程中的成熟度评价、油源对比等工作提供重要的参考。

在现有的技术方法下，质量色谱图无法直接用于石油勘探的相关工作，它们需要经过地球化学或分析化学技术人员人工地处理和解释，一般的流程包含峰标注、识别化合物、积分计算峰面积、形成分析报告等一系列繁琐的操作，最终算得诸如甾烷C₂₉αα20S/(20S+20R)、萜烷Ts/Tm及Ga/C₃₀αβ等用于描述样品石油地球化学特征的参数。因此，在现有的技术方法下，质量色谱图严重地依赖专业人员的人工解读，处理流程繁琐费时，具有很高的技术和使用门槛，一定程度上限制了这种资料的广泛使用。并且，由于受限于人工分析方式，对于石油这类非常复杂的混合物，在实际工作和研究中往往只能使用其中较少数量的典型的化合物，导致降低了解释结果以及后续研究的准确性的缺陷。

发明内容

本发明的目的包括，例如，提供了一种质量色谱图的自动化解释模型构建方法、装置和电子设备，其能够针对质量色谱图实现提取更多特征、反映更全面信息和实现高维度分析的目的。

本发明的实施例可以这样实现：

第一方面，本发明提供一种质量色谱图的自动化解释模型构建方法，所述方法包括：

获取多个样品分别对应的质量色谱图；

对各所述质量色谱图进行处理，获得对应的特征数据；

计算得到各所述特征数据的样本标签；

利用携带样本标签的特征数据对构建的神经网络模型进行训练，直至满足预设要求时得到解释模型，该解释模型可用于对待处理的质量色谱图进行自动化信息解析分析。

在可选的实施方式中，各所述质量色谱图中包含色谱曲线；

所述对各所述质量色谱图进行处理，获得对应的特征数据的步骤，包括：

针对各所述质量色谱图中的色谱曲线，提取所述色谱曲线中包含的各曲线点的坐标数据；

基于所述色谱曲线的多个坐标数据构成相应的特征数据。

在可选的实施方式中，所述提取所述色谱曲线中包含的各曲线点的坐标数据的步骤，包括：

遍历所述色谱曲线包含的各个曲线点，并获得各所述曲线点的灰度值；

提取出灰度值满足预设要求的曲线点，并获得提取出的曲线点的纵轴方向的坐标数据。

在可选的实施方式中，各所述样品对应的质量色谱图包含多张质量子色谱图，各所述质量子色谱图具有不同的质荷比；

所述针对各所述质量色谱图中的色谱曲线，提取所述色谱曲线中包含的各曲线点的坐标数据的步骤，包括：

针对各所述质量色谱图包含的各所述质量子色谱图，按预设规则截取所述质量子色谱图中包含的目标色谱曲线段；

提取各所述质量子色谱图中目标色谱曲线段包含的各曲线点的坐标数据。

在可选的实施方式中，所述基于所述色谱曲线的多个坐标数据构成相应的特征数据的步骤，包括：

针对各所述质量色谱图，将所述质量色谱图包含的所有质量子色谱图像的、目标色谱曲线段的曲线点的坐标数据进行组合，得到所述质量色谱图的特征数据。

在可选的实施方式中，所述计算得到各所述特征数据的样本标签的步骤，包括：

针对各所述特征数据，获得所述特征数据对应的生物标志物参数；

根据所述生物标志物参数的数值以及对应的因子得分系数，计算得到所述特征数据对应的样本标签，所述样本标签包括成熟度指标和母源类型指标。

在可选的实施方式中，所述利用携带样本标签的特征数据对构建的神经网络模型进行训练，直至满足预设要求时得到解释模型的步骤，包括：

将携带样本标签的特征数据导入构建的神经网络模型，得到模型输出标签；

根据特征数据的样本标签、模型输出标签以及构建的损失函数，对所述神经网络模型的模型参数进行调整后继续训练，直至满足预设要求时，得到由所述神经网络模型训练得到的解释模型。

在可选的实施方式中，所述多个样品包括训练样品和测试样品，所述方法还包括：

将各所述测试样品的特征数据导入训练得到的解释模型，得到各所述测试样品的测试输出标签；

根据测试样品的数量、测试输出标签和测试真实标签，计算得到模型性能评估值。

第二方面，本发明提供一种质量色谱图的自动化解释模型构建装置，所述装置包括：

获取模块，用于获取多个样品分别对应的质量色谱图；

处理模块，用于对各所述质量色谱图进行处理，获得对应的特征数据；

计算模块，用于计算得到各所述特征数据的样本标签；

训练模块，用于利用携带样本标签的特征数据对构建的神经网络模型进行训练，直至满足预设要求时得到解释模型，该解释模型可用于对待处理的质量色谱图进行自动化信息解析分析。

第三方面，本发明提供一种电子设备，包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当电子设备运行时，处理器执行所述机器可执行指令，以执行前述实施方式中任意一项所述的方法步骤。

本发明实施例的有益效果包括，例如：

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的构建方法的流程图；

图2为图1中步骤S120包含的子步骤的流程图；

图3为图2中步骤S121包含的子步骤的流程图；

图4为本申请实施例提供的质量色谱图中曲线点提取的示意图；

图5为图1中步骤S120包含的子步骤的另一流程图；

图6为本申请实施例提供的质量子色谱图的截取和拼接示意图；

图7为图1中步骤S130包含的子步骤的流程图；

图8为图1中步骤S140包含的子步骤的流程图；

图9为本申请实施例提供的测试方法的流程图；

图10为本申请实施例提供的样品的实际值和解释值的比对示意图；

图11为本申请实施例提供的样品的实际值和解释值的另一比对示意图；

图12为本申请实施例提供的电子设备的结构框图；

图13为本申请实施例提供的构建装置的功能模块框图。

图标：110-处理器；120-存储器；130-多媒体组件；140-I/O接口；150-通信组件；200-质量色谱图的自动化解释模型构建装置；210-获取模块；220-处理模块；230-计算模块；240-训练模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。

请参阅图1，为本申请实施例提供的质量色谱图的自动化解释模型构建方法的流程图，该构建方法有关的流程所定义的方法步骤可以由具备图像、数据分析处理功能的电子设备所实现。下面将对图1所示的具体流程进行详细阐述。

步骤S110，获取多个样品分别对应的质量色谱图。

步骤S120，对各所述质量色谱图进行处理，获得对应的特征数据。

步骤S130，计算得到各所述特征数据的样本标签。

步骤S140，利用携带样本标签的特征数据对构建的神经网络模型进行训练，直至满足预设要求时得到解释模型，该解释模型可用于对待处理的质量色谱图进行自动化信息解析分析。

本实施例中，可首先进行解释模型的训练优化。可预先准备多个样品的质量色谱图，此外还可获得各个样品对应的质量色谱定性、定量结果的分析报告。其中，相同质荷比的质量色谱图具有统一的比例尺、横向范围及分辨率。

由于获得的质量色谱图为图片形式，不便于直接用于解释模型的训练，因此，本实施例中，可首先对各个质量色谱图进行处理，获得相应的特征数据，以数值形式的数据用于后续的模型训练优化。

要实现解释模型的训练优化，需要利用样本的样本标签，结合样本标签和模型输出的差异，从而以尽可能降低差异的训练方向进行模型的训练。因此，本实施例中，可计算得到各特征数据的样本标签。

在此基础上，可以利用携带样本标签的特征数据对构建的神经网络模型进行训练，直至训练达到预设要求，该预设要求可以是如训练迭代次数达到设定次数、损失函数收敛不再减小、训练时长达到预设时长等不限。

训练优化得到的解释模型可以用于对后续待处理的质量色谱图进行自动化信息解析分析。

本实施例中，采用机器学习的方式，通过获得特征数据和样本标签以训练得到解释模型，从而可用于自动化地实现质量色谱资料的分析和解释，可以支持提取质量色谱图的更多特征、反映更全面信息、实现高维度的分析的目的。

本实施例中，质量色谱图包含的主要内容为质量色谱曲线，质量色谱曲线可体现组成样品的化合物情况。请参阅图2，本实施例中，上述对于质量色谱图进行处理获得对应的特征数据的步骤，包括通过以下方式实现：

步骤S121，针对各所述质量色谱图中的色谱曲线，提取所述色谱曲线中包含的各曲线点的坐标数据。

步骤S122，基于所述色谱曲线的多个坐标数据构成相应的特征数据。

对于各个质量色谱图，质量色谱图中包含的色谱曲线由多个曲线点所构成。而各个曲线点在色谱图所在的坐标系上具有对应的坐标数据。可将样品对应的色谱曲线包含的多个曲线点的坐标数据构成特征数据，特征数据可以是数组形式。

本实施例中，通过以上方式，将图片形式的信息转换为以坐标数据表示的数值形式的信息，可便于模型的处理和训练。

本实施例中，考虑到色谱曲线中纵向坐标可以表示石油样品中化合物的含量高低情况，因此，可以主要获取曲线点的纵轴方向上的坐标数据。此外，考虑到色谱曲线同样也是以像素点的形式所构成，而在纵轴方向上，同一横向坐标下的曲线点可能并不只占据一个像素点，而其中有些像素点可能由于灰色值的差异，存在显示不清楚等问题。因此，请参阅图3，在本实施例中，在上述提取色谱曲线中各曲线点的坐标数据的步骤中，可以通过以下方式实现：

步骤S1211，遍历所述色谱曲线包含的各个曲线点，并获得各所述曲线点的灰度值；

步骤S1212，提取出灰度值满足预设要求的曲线点，并获得提取出的曲线点的纵轴方向的坐标数据。

在图像显示中，可将白色与黑色之间按对数关系分成若干级，称为灰度等级。灰度值一般从0到255，其中，白色像素点的灰度值为255，黑色像素点的灰度值为0。

质量色谱图实质为若干个灰度值在0-255之间的像素点所构成的图片。其中，灰色值为0以及靠近0的多个像素点，可从其他灰色值为255的白色像素点中凸显出来，从而构成色谱曲线。

而色谱曲线中可能有些曲线点的灰度值较高，也即在视觉上呈现为灰色。因此，对于色谱曲线中的各个曲线点，可分别获得各个曲线点的灰度值，可将灰度值低于预设值的曲线点判定为满足预设要求的曲线点，其中，该预设值可根据需求进行设定，例如预设值可以为1、2、3等不限。

如此，对于各个横向坐标值下提取出的曲线点可准确表征该横向坐标值下相应的纵向坐标值。本实施例中，获得提取出的曲线点的纵轴方向的坐标数据。

例如，如图4中所示，对于一色谱曲线中局部放大的曲线段，以横向坐标轴一一遍历，其中，第一个横向单位下提取的曲线点为纵向坐标为5的曲线点、第二个横向单位下提取的曲线点为纵向坐标为4的曲线点、第三个横向单位下提取的曲线点为纵向坐标为3的曲线点。后面所提取的曲线点可如图4中所示。

如此，则可以将提取出的曲线点的纵轴方向的坐标数据构成的特征数据，可为一个一维数组。

为了统一不同样品之间坐标数据的标准，在本实施例中，在获得各个样品的一维数组形式的特征数据后，可以对数组进行归一化处理，从而使得各个数组的元素均处于0～1之间。详细地，可按以下公式执行归一化处理：

其中，x和x’分别表示归一化处理之前和之后的特征数据中的元素，min(x)和max(x)分别表示同一样品的特征数据中的元素的最小值和最大值。

本实施例中，针对同一个样品，在采用不同的质荷比进行处理时，得到的质量色谱图呈现不同结果。为了更为全面地进行石油化合物成分分析，本实施例中，每个样品对应的质量色谱图包含多张质量子色谱图，各质量子色谱图具有不同的质荷比。

为了便于后续模型的统一处理，可以将同一个样品的多张质量子色谱图进行拼接，以导入到模型对模型进行训练。作为一种可能的实现方式，请参阅图5，上述在提取色谱曲线中包含的各曲线点的坐标数据时，可以通过以下方式实现：

步骤S123，针对各所述质量色谱图包含的各所述质量子色谱图，按预设规则截取所述质量子色谱图中包含的目标色谱曲线段。

步骤S124，提取各所述质量子色谱图中目标色谱曲线段包含的各曲线点的坐标数据。

请结合参阅图6，本实施例中，针对每个样品，以该样品具有两个质量子色谱图为例进行说明。其中，包括质荷比m/z＝217、质荷比m/z＝191的两张质量子色谱图。针对每张质量子色谱图，可以按预设规则截取出其中一段目标色谱曲线段。所述的预设规则可以是截取出质量子色谱图中可以集中体现化合物成分情况的曲线段，例如，质量子色谱图中包含主要的波峰、波谷等部分的曲线段。

例如，如图6中所示，对于质荷比为217的质量子色谱图，截取的目标色谱曲线段为虚线框中的曲线段，该曲线段包含主要的波峰部分，详细地，该质量子色谱图截取的是C₂₇甾烷(αα20S)峰的左侧起始至C₂₉甾烷(αα20R)峰的右侧结束的曲线段。对于质荷比为191的质量子色谱图，同样地，截取的是包含主要的波峰部分的曲线段。详细地，该质量子色谱图截取的是由Ts峰的左侧起始至C₃₀βα峰的右侧结束的曲线段。

将截取的各个目标色谱曲线段按顺序拼接起来，则可以得到如图6中第二排中间所示的拼接图像。

对于样品的质量色谱图包含的各个质量子色谱图均进行曲线段的截取后，可通过以下方式构成特征数据：

将质量色谱图包含的所有质量子色谱图的、目标色谱曲线段的曲线点的坐标数据进行组合，得到质量色谱图的特征数据。

本实施例中，可以基于上述获得坐标数据的方式，获得目标色谱曲线段中各个曲线点的坐标数据。将所有的曲线点的坐标数据进行组合，则可以得到一个集成的一组数组形式的特征数据。

例如，以上述为例，质荷比为217的质量子色谱图截取的目标色谱曲线段可包含横向像素点为900个的曲线点，而质荷比为191的质量子色谱图截图的目标色谱曲线段可包含横向像素点为300个的曲线点。在拼接完成后，则可以得到包含1300个元素的一维数组形成的特征数据。

通过以上方式可以实现对样品的质量色谱图的数据的处理，此外，还需要对导入到模型中的特征数据进行样本标签的计算，才能基于标签实现模型训练优化。

请参阅图7，本实施例中，可以通过以下方式计算得到各样品的特征数据的样本标签：

步骤S131，针对各所述特征数据，获得所述特征数据对应的生物标志物参数。

步骤S132，根据所述生物标志物参数的数值以及对应的因子得分系数，计算得到所述特征数据对应的样本标签，所述样本标签包括成熟度指标和母源类型指标。

本实施例中，可通过因子分析法对具有相同石油地球化学含义的生物标志物参数进行降维，并使用降维得到的综合指标作为输入特征的标签。

本实施例中，示例性地，可以采用15种典型的生物标志物参数，如表1中所示。对于各个样品，其特征数据对应的生物标志物参数可以是该15种典型的生物标志物参数中的其中几种。

表1

序号	对应的生物标志物参数	MI	PMI
				1	C₃₀*/C₂₉Ts	0.195	0.041
2	C₃₀*/C₃₀αβ	0.139	-0.004
				3	C₂₉ββ/(αα+ββ)	0.231	0.188
4	C₂₉αα20S/(20S+20R)	0.273	0.036
				5	C₃₀βα/C₃₀αβ	-0.083	0.116
6	Ts/(Ts+Tm)	0.24	-0.029
				7	规则甾烷C₂₇/C_27-29	-0.038	-0.349
8	规则甾烷C₂₈/C_27-29	-0.03	0.065
				9	规则甾烷C₂₉/C_27-29	0.074	0.376
10	重排甾烷/规则甾烷	0.118	-0.214
				11	ΣC₁₉–C₂₆TT/C₃₀αβ	-0.083	-0.024
12	C₂₄TET/C₃₀αβ	0.024	0.04
				13	Ga/C₃₀αβ	-0.015	-0.028
14	C₂₃TT/C₃₀αβ	-0.075	-0.029
				15	C₂₉αβ/C₃₀αβ	-0.16	0.136

而样本标签可包括成熟度指标MI和母源类型指标PMI，可以基于生物标志物参数的数值以及对应的因子得分系数，分别计算得到成熟度指标MI和母源类型指标PMI。其中，表1中第三列和第四列，则分别表示各个生物标志物参数的因子得分系数，而生物标志物参数的数值可以基于预先获得的质量色谱定性、定量结果的分析报告中获得。

例如，针对某个样品，可以主要通过表1中的C₂₉αα20S/(20S+20R)、Ts/(Ts+Tm)、C₃₀*/C₂₉Ts、C₂₉ββ/(αα+ββ)等六个具有成熟度含义的生物标志物参数降维得到的因子得分计算其成熟度指标(MI)。此外，可主要通过规则甾烷C₂₇/C_27-29、规则甾烷C₂₉/C_27-29、重排甾烷/规则甾烷三个具有母源类型含义的生物标志物参数降维得到的因子得分计算得到母源类型指标(PMI)。

本实施例中，成熟度指标和母源类型指标的计算公式可分别如下所示：

其中，j表示生物标志物参数的序号(参见表1)，n表示对应的生物标志物参数的总数，α、β分别表示生物标志物参数在MI和PMI上的因子得分系数，x表示对应的生物标志物参数的数值。

此外，为了统一各个样品的样本标签的标准，计算得到的各个样本标签也可以进行归一化处理，从而消除标尺的差异性。

在处理得到特征数据并计算得到样本标签后，可将携带样本标签的特征数据导入构建的神经网络模型对执行对模型的训练。本实施例中，所构建的神经网络模型可为一维卷积神经网络(1D-CNN)模型，该神经网络模型包括依次连接的卷积层、池化层和全连接层。

其中，卷积层由一组参数可训练的卷积核组成，卷积核在输入模型的特征数据上按一定方向滑动，对所覆盖的数据执行卷积运算：

其中，f为激活函数，*表示卷积运算，y表示卷积层的输出，xⁱ为第i个局部输入数据，kⁱ为对应的卷积核，b为偏置。

本实施例中，激活函数f可使用线性函数(RFLU)，可以达到避免梯度爆炸和梯度消失的问题，其表达式如下所示：

在经过卷积层后达到池化层，池化层可对卷积层运算结果进行采样，其作用在于缩减数据量，提升运算速度。本实施例中，池化层采样最大池化法(Max-pooling)，可表示为：

y＝max(x₁,x₂,...,x_n)

其中，x为输入数据，n是卷积核的尺寸，y是池化运算的输出。

模型最后还包括一个全连接层，全连接层可用于整合差异化的局部信息，实现全局优化。

请参阅图8，本实施例中，对于神经网络模型的训练可以通过以下方式实现：

步骤S141，将携带样本标签的特征数据导入构建的神经网络模型，得到模型输出标签。

步骤S142，根据特征数据的样本标签、模型输出标签以及构建的损失函数，对所述神经网络模型的模型参数进行调整后继续训练，直至满足预设要求时，得到由所述神经网络模型训练得到的解释模型。

本实施例中，可以将采集的样品划分为训练样品和测试样品，例如，将采集的样品的70％划分为训练样品，剩余的30％为测试样品。其中，训练样品和测试样品随机进行划分，以保证二者的数据特征不存在差异。

模型训练时，可以利用训练样品对应的特征数据进行训练，将携带样本标签的特征数据导入神经网络模型，神经网络模型按照上述的处理方式对特征数据进行处理，得到模型输出标签。

对于模型进行训练的目的，即为对模型进行优化，以尽可能地达到特征数据的样本标签与模型输出标签一致的目的。模型的优劣可以通过构建的损失函数进行判断。该损失函数由样本标签和模型输出标签所构建，对模型的训练过程，即为实现损失函数的最小化的过程。

在每次迭代后可对神经网络模型的模型参数进行调整并继续训练，直至满足预设要求时停止训练得到解释模型，预设要求可以是损失函数收敛不再减小，或者达到设置的最大迭代次数，或者迭代的时长达到设定时长等不限。

其中，模型训练时，批量Batch size可设置为32，循环次数Epoch可设置为1000，梯度下降采用具有自适应调整学习速率能力的Adagrad算法。

此外，请参阅图9，对于得到的解释模型可利用测试样品进行评估，也即，本实施例所提供的方法还可包括以下步骤：

步骤S210，将各所述测试样品的特征数据导入训练得到的解释模型，得到各所述测试样品的测试输出标签。

步骤S220，根据测试样品的数量、测试输出标签和测试真实标签，计算得到模型性能评估值。

同理，各个测试样品可以通过以上方式获得相应的特征数据和测试真实标签。在将测试样品的特征数据导入到解释模型，经过解释模型的处理后，可以输出测试输出标签。

通过比对测试输出标签和测试真实标签的差异可以实现解释模型的评估。具体地，本实施例中，可以以决定系数评估模型来进行评估，其中，决定系数可以通过以下方式计算得到：

其中，m是表示测试样品的数量，y_i是第i个测试样品的测试真实标签，p_i表示相应的测试输出标签，表示所有测试真实标签的平均值。

上述得到的决定系数即可作为模型性能评估值，在模型性能评估值达到设定值以上，可确定解释模型可满足要求，例如达到设定值0.8以上。

本实施例中，测试真实标签包括成熟度指标和母源类型指标，相应地测试输出标签包括成熟度指标和母源类型指标。

通过实验证明，通过本实施例上述方式训练得到的解释模型，在成熟度指标和母源类型指标上的模型性能评估值可达到0.85和0.8，如图10中所示，其中，实际值则为测试样本标签，解释值为测试输出标签。此外，本实施例的解释模型得到的成熟度指标与实际测量的成熟度指标，二者具有显著的线性关系，如图11中所示，并且，模型性能评估值达到0.98，表明本实施例的解释模型的自动解释结果具有良好的准确性。

本实施例所提供的质量色谱图的自动化解释模型构建方案，可实现对石油勘探领域中质量色谱资料的自动化分析、解释的功能，其结果具有良好的准确性，能够为石油地质勘探工作和研究带来便利。更重要的是，本发明能够提取质量色谱图的更多特征，反映石油样品的信息更全面，能够实现高维度的分析，为该领域提供一种更加精确且高效的研究方法。

图12是根据一示例性实施例示出的一种电子设备的框图。如图12所示，该电子设备可以包括：处理器110，存储器120，多媒体组件130，I/O接口140，以及通信组件150。

其中，处理器110用于控制该电子设备的整体操作，以完成上述的构建方法的全部或部分步骤。存储器120用于存储各种类型的数据以支持在该电子设备的操作，这些数据例如可以包括用于在该电子设备上操作的任何处理软件或方法的指令，以及处理软件相关的数据。

该存储器120可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-OnlyMemory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

多媒体组件130可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器120或通过通信组件150发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口140为处理器110和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件150用于该电子设备与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件150可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器110(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器110或其他电子元件实现，用于执行上述的构建方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，例如包括程序指令的存储器120，上述程序指令可由电子设备的处理器110执行以完成上述的构建方法。

请参阅图13，本申请实施例还提供一种质量色谱图的自动化解释模型构建装置200，该构建装置可以理解为上述电子设备，或电子设备的处理器110，也可以理解为独立于上述电子设备或处理器110之外的在电子设备控制下实现上述质量色谱图的自动化解释模型构建方法的软件功能模块。

如图13所示，上述质量色谱图的自动化解释模型构建装置200可以包括获取模块210、处理模块220、计算模块230和训练模块240。下面分别对该构建装置的各个功能模块的功能进行详细阐述。

获取模块210，用于获取多个样品分别对应的质量色谱图；

可以理解，该获取模块210可以用于执行上述步骤S110，关于该获取模块210的详细实现方式可以参照上述对步骤S110有关的内容。

处理模块220，用于对各所述质量色谱图进行处理，获得对应的特征数据；

可以理解，该处理模块220可以用于执行上述步骤S120，关于该处理模块220的详细实现方式可以参照上述对步骤S120有关的内容。

计算模块230，用于计算得到各所述特征数据的样本标签；

可以理解，该计算模块230可以用于执行上述步骤S130，关于该计算模块230的详细实现方式可以参照上述对步骤S130有关的内容。

训练模块240，用于利用携带样本标签的特征数据对构建的神经网络模型进行训练，直至满足预设要求时得到解释模型，该解释模型可用于对待处理的质量色谱图进行自动化信息解析分析。

可以理解，该训练模块240可以用于执行上述步骤S140，关于该训练模块240的详细实现方式可以参照上述对步骤S140有关的内容。

在一种可能的实现方式中，各所述质量色谱图中包含色谱曲线；上述处理模块220具体可以用于：

基于所述色谱曲线的多个坐标数据构成相应的特征数据。

在一种可能的实现方式中，上述处理模块220具体可以用于通过以下方式提取得到坐标数据：

遍历所述色谱曲线包含的各个曲线点，并获得各所述曲线点的像素灰度值；

提取出像素灰度值超过预设阈值的曲线点，并获得提取出的曲线点的纵轴方向的坐标数据。

在一种可能的实现方式中，各所述样品对应的质量色谱图包含多张质量子色谱图，各所述质量子色谱图具有不同的质荷比；上述处理模块220具体可以用于通过以下方式获得坐标数据：

在一种可能的实现方式中，上述处理模块220具体可以用于：

在一种可能的实现方式中，上述计算模块230具体可以用于：

在一种可能的实现方式中，上述训练模块240具体可以用于：

在一种可能的实现方式中，所述多个样品包括训练样品和测试样品，所述构建装置还包括评估模块，该评估模块可以用于：

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

综上所述，本申请实施例提供一种质量色谱图的自动化解释模型构建方法、装置和电子设备，通过获取多个样品分别对应的质量色谱图，对各质量色谱图进行处理获得对应的特征数据，并计算得到各特征数据的样本标签，利用携带样本标签的特征数据对构建的神经网络模型进行训练，直至满足预设要求时得到解释模型，该解释模型可用于对待处理的质量色谱图进行自动化信息解析分析。该方案采用机器学习的方式，通过获得特征数据和样本标签以训练得到解释模型，从而可用于自动化地实现质量色谱资料的分析和解释，可以支持提取质量色谱图的更多特征、反映更全面信息、实现高维度的分析的目的。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种质量色谱图的自动化解释模型构建方法，其特征在于，所述方法包括：

获取多个样品分别对应的质量色谱图；

对各所述质量色谱图进行处理，获得对应的特征数据；

计算得到各所述特征数据的样本标签；

利用携带样本标签的特征数据对构建的神经网络模型进行训练，直至满足预设要求时得到解释模型，该解释模型可用于对待处理的质量色谱图进行自动化信息解析分析；

各所述质量色谱图中包含色谱曲线，所述对各所述质量色谱图进行处理，获得对应的特征数据的步骤，包括：

针对各所述质量色谱图中的色谱曲线，提取所述色谱曲线中包含的各曲线点的坐标数据；基于所述色谱曲线的多个坐标数据构成相应的特征数据；

所述提取所述色谱曲线中包含的各曲线点的坐标数据的步骤，包括：

遍历所述色谱曲线包含的各个曲线点，并获得各所述曲线点的灰度值；提取出灰度值满足预设要求的曲线点，并获得提取出的曲线点的纵轴方向的坐标数据；

每个样品对应的质量色谱图包含多张质量子色谱图，各所述质量子色谱图具有不同的质荷比；所述针对各所述质量色谱图中的色谱曲线，提取所述色谱曲线中包含的各曲线点的坐标数据的步骤，包括：

针对各所述质量色谱图包含的各所述质量子色谱图，按预设规则截取所述质量子色谱图中包含的目标色谱曲线段；提取各所述质量子色谱图中目标色谱曲线段包含的各曲线点的坐标数据；

所述基于所述色谱曲线的多个坐标数据构成相应的特征数据的步骤，包括：

针对各所述质量色谱图，将所述质量色谱图包含的所有质量子色谱图像的、目标色谱曲线段的曲线点的坐标数据进行组合，得到所述质量色谱图的特征数据；

所述计算得到各所述特征数据的样本标签的步骤，包括：

针对各所述特征数据，获得所述特征数据对应的生物标志物参数；根据所述生物标志物参数的数值以及对应的因子得分系数，计算得到所述特征数据对应的样本标签，所述样本标签包括成熟度指标和母源类型指标，所述成熟度指标和母源类型指标通过生物标志物参数的数值以及对应的因子得分系数计算得到。

2.根据权利要求1所述的质量色谱图的自动化解释模型构建方法，其特征在于，所述利用携带样本标签的特征数据对构建的神经网络模型进行训练，直至满足预设要求时得到解释模型的步骤，包括：

3.根据权利要求1或2所述的质量色谱图的自动化解释模型构建方法，其特征在于，所述多个样品包括训练样品和测试样品，所述方法还包括：

4.一种质量色谱图的自动化解释模型构建装置，其特征在于，用于实现权利要求1-3任意一项所述的质量色谱图的自动化解释模型构建方法，所述装置包括：

获取模块，用于获取多个样品分别对应的质量色谱图；

计算模块，用于计算得到各所述特征数据的样本标签；

5.一种电子设备，其特征在于，包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当电子设备运行时，处理器执行所述机器可执行指令，以执行权利要求1-3中任意一项所述的方法步骤。