CN111580179B

CN111580179B - 一种有机碳含量确定方法、装置及系统

Info

Publication number: CN111580179B
Application number: CN201910091323.9A
Authority: CN
Inventors: 张成龙; 高诗婷; 陶士振; 白斌
Original assignee: Petrochina Co Ltd
Current assignee: Petrochina Co Ltd
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2023-02-28
Anticipated expiration: 2039-01-30
Also published as: CN111580179A

Abstract

本说明书实施例公开了一种有机碳含量确定方法、装置及系统，所述方法包括获取待测工区的预设测井数据类型的测井数据；将所述测井数据输入构建的有机碳含量集成预测模型中进行有机碳含量预测，获得所述待测工区的有机碳含量数据，其中，所述有机碳含量集成预测模型采用下述方式预先构建：获取所述预设测井数据类型对应的测井数据以及对应的实测有机碳含量数据作为第一样本数据；分别利用支持向量机模型、ΔlogR模型对所述第一样本数据中的测井数据进行处理，获得第一预测结果以及第二预测结果；将所述第一预测结果、第二预测结果以及所述实测有机碳含量数据作为第二样本数据，利用所述第二样本数据训练决策树模型，获得所述有机碳含量集成预测模型。

Description

一种有机碳含量确定方法、装置及系统

技术领域

本发明涉及石油勘探技术领域，特别地，涉及一种有机碳含量确定方法、装置及系统。

背景技术

致密油是当今全球非常规油气勘探的重点领域。致密油的发育具有源储一体的特点，优质源岩是其富集的前提，目前认为有机碳含量大于2％的地区是致密油发育的潜在有利区，因此对未知地区有机碳含量的准确预测意义重大。

目前，有机碳的预测主要利用易于获取的测井数据来计算，但是不同地区各个曲线相关关系的大小不尽相同，难以形成统一的计算方法。现今采用的方法包括多元线性回归法以及神经网络法。

多元线性回归法为线性模型，考虑的是测井数据和有机碳含量之间的线性相关关系，过于简单，准确度太低。而神经网络法对参数选择敏感，容易过拟合，影响结果准确性，且计算速度太慢。因此，如何提高TOC计算方法的准确度和普适性一直是重要难题。

发明内容

本说明书实施例的目的在于提供一种有机碳含量确定方法、装置及系统，提高有机碳含量预测的准确性。

本说明书提供一种有机碳含量确定方法、装置及系统是包括如下方式实现的：

一种有机碳含量确定方法，包括：

获取待测工区的预设测井数据类型的测井数据；

将所述测井数据输入构建的有机碳含量集成预测模型中进行有机碳含量预测，获得所述待测工区的有机碳含量数据，其中，所述有机碳含量集成预测模型采用下述方式预先构建：

获取所述预设测井数据类型对应的测井数据以及对应的实测有机碳含量数据作为第一样本数据；

分别利用支持向量机模型、ΔlogR模型对所述第一样本数据中的测井数据进行处理，获得第一预测结果以及第二预测结果；

将所述第一预测结果、第二预测结果以及所述实测有机碳含量数据作为第二样本数据，利用所述第二样本数据训练决策树模型，获得所述有机碳含量集成预测模型。

本说明书提供的所述方法的另一个实施例中，所述预设测井数据类型包括第一测井数据类型以及第二测井数据类型，其中，所述第一测井数据类型根据所述待测工区的测井数据对有机碳含量的响应特征确定，所述第二测井数据类型包括电阻率以及声波时差。

本说明书提供的所述方法的另一个实施例中，所述第一测井数据类型根据测井数据与有机碳含量之间的相关系数确定。

本说明书提供的所述方法的另一个实施例中，所述分别利用支持向量机模型、ΔlogR模型对所述第一样本数据中的测井数据进行处理，获得第一预测结果以及第二预测结果，包括：

利用支持向量机模型对所述第一样本数据中的第一测井数据类型对应的测井数据进行处理，获得第一预测结果；

利用ΔlogR模型对所述第一样本数据中的第二测井数据类型对应的测井数据进行处理，获得第二预测结果。

本说明书提供的所述方法的另一个实施例中，所述支持向量机模型采用下述方式构建：

根据所述第一样本数据中的第一测井数据类型对应的测井数据以及实测有机碳含量数据确定训练数据、交叉验证数据以及测试数据；

预先设定超参数值，利用所述训练数据对初始支持向量机模型进行训练；

利用所述交叉验证数据对训练后的支持向量机模型的超参数值进行优化，获得优化后的支持向量机模型；

利用所述测试数据对优化后的支持向量机模型进行测试，根据测试结果确定用于待测工区有机碳含量预测的支持向量机模型。

以两个基础模型的结果作为决策树的输入，对第二层决策树进行训练拟合，作为最终的有机质含量集成预测模型。通过使用第一阶段的预测作为下一层预测的特征，比起相互独立的预测模型有更强的非线性表述能力，误差更小。

本说明书提供的所述方法的另一个实施例中，所述获取待测工区的预设测井数据类型的测井数据之前，还包括：

对测井数据和/或有机碳含量数据进行预处理，所述预处理包括数据清洗以及沿地层纵向上的移动平均滤波去除异常点处理。

另一方面，本说明书实施例还提供一种有机碳含量确定装置，所述装置包括：

数据获取模块，用于获取待测工区的预设测井数据类型的测井数据；

含量预测模块，用于将所述测井数据输入构建的有机碳含量集成预测模型进行有机碳含量预测，获得所述待测工区的有机碳含量数据，其中，所述有机碳含量集成预测模型利用模型构建模块预先构建，相应的，所述模块构建模块包括：

样本数据获取单元，用于获取所述预设测井数据类型对应的测井数据以及对应的实测有机碳含量数据作为第一样本数据；

模型构建单元，用于分别利用支持向量机模型、ΔlogR模型对所述第一样本数据中的测井数据进行处理，获得第一预测结果以及第二预测结果，将所述第一预测结果、第二预测结果以及所述实测有机碳含量数据作为第二样本数据，利用所述第二样本数据训练决策树模型，获得所述有机碳含量集成预测模型。

本说明书提供的所述装置的另一个实施例中，所述数据获取模块包括：

测井数据类型确定单元，用于确定所述预设测井数据类型包括第一测井数据类型以及第二测井数据类型，其中，所述第一测井数据类型根据所述待测工区的测井数据对有机碳含量的响应特征确定，所述第二测井数据类型包括电阻率测井以及声波时差测井。

本说明书提供的所述装置的另一个实施例中，所述模型构建单元包括：

第一预测结果确定子单元，用于利用支持向量机模型对所述第一样本数据中的第一测井数据类型对应的测井数据进行处理，获得第一预测结果；

第二预测结果确定子单元，用于利用ΔlogR模型对所述第一样本数据中的第二测井数据类型对应的测井数据进行处理，获得第二预测结果。

本说明书提供的所述装置的另一个实施例中，所述模型构建模块还包括支持向量机模型构建单元，所述支持向量机模型构建单元包括：

样本数据划分子单元，用于根据所述第一样本数据中的第一测井数据类型对应的测井数据以及实测有机碳含量数据确定训练数据、交叉验证数据以及测试数据；

模型训练子单元，用于预先设定超参数值，利用所述训练数据对初始支持向量机模型进行训练；

模型优化子单元，用于利用所述交叉验证数据对训练后的支持向量机模型的超参数值进行优化，获得优化后的支持向量机模型；

模型测试子单元，用于利用所述测试数据对优化后的支持向量机模型进行测试，根据测试结果确定用于待测工区有机碳含量预测的支持向量机模型。

本说明书提供的所述装置的另一个实施例中，所述装置还包括：

预处理模块，用于对测井数据和/或有机碳含量数据进行预处理，所述预处理包括数据清洗以及沿地层纵向上的移动平均滤波去除异常点处理。

另一方面，本说明书实施例还提供一种有机碳含量确定设备，包括处理器及用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现包括以下步骤：

获取待测工区的预设测井数据类型的测井数据；

另一方面，本说明书实施例还提供一种有机碳含量确定系统，包括至少一个处理器以及存储计算机可执行指令的存储器，所述处理器执行所述指令时实现上述任意一个实施例所述方法的步骤。

本说明书一个或多个实施例提供的一种有机碳含量确定方法、装置及系统，可以通过先获取待测工区的预设测井数据类型对应的测井数据以及对应的实测有机碳含量数据作为第一样本数据，分别基于预先构建的支持向量机模型以及ΔlogR模型进行有机碳含量预测。然后，将基于两种模型的预测结果以及第一样本数据中的实测有机碳含量作为第二样本数据，进一步训练决策树模型，从而构建获得有机碳含量集成预测模型。将待测工区的预设测井数据类型对应的测井数据输入上述构建的有机碳含量集成预测模型中，可以获得有机碳含量预测结果。利用本说明书各个实施例，可以进一步提高有机碳含量预测的准确性。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本说明书提供的一种有机碳含量确定方法实施例的流程示意图；

图2为本说明书提供的一个实施例中的有机碳含量预测流程示意图；

图3为本说明书提供的另一个实施例中的对模型进行集成的可视化视图；

图4为本说明书提供的另一个实施例中的测井数据与TOC含量的相关关系示意图；

图5为本说明书提供的另一个实施例中的集成模型有机碳含量预测值与实测值相关关系示意图；

图6为本说明书提供的另一个实施例中的ΔlogR模型的有机碳含量TOC预测值与实测值关系示意图；

图7是本说明书提供的一种有机碳含量确定装置实施例的模块结构示意图；

图8是本说明书提供的另一种有机碳含量确定装置实施例的模块结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是说明书一部分实施例，而不是全部的实施例。基于说明书一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书实施例方案保护的范围。

致密油是当今全球非常规油气勘探的重点领域。致密油的发育具有源储一体的特点，优质源岩是其富集的前提，目前认为有机碳含量大于2％的地区是致密油发育的潜在有利区，因此对未知地区有机碳含量的准确预测意义重大。目前，有机碳的预测主要利用易于获取的测井数据来计算，但是不同地区各个曲线相关关系的大小不尽相同，不同算法的侧重点和拟合能力不同，难以形成统一的计算方法。

相应的，本说明书实施例提供了一种有机碳含量确定方法，可以通过先获取待测工区的预设测井数据类型对应的测井数据以及对应的实测有机碳含量数据作为第一样本数据，分别基于预先构建的支持向量机模型以及ΔlogR模型进行有机碳含量预测。然后，将基于两种模型的预测结果以及第一样本数据中的实测有机碳含量作为第二样本数据，进一步训练决策树模型，从而构建获得有机碳含量集成预测模型。将待测工区的预设测井数据类型对应的测井数据输入上述构建的有机碳含量集成预测模型中，可以获得有机碳含量预测结果。利用本说明书各个实施例，可以进一步提高有机碳含量预测的准确性。

图1是本说明书提供的所述一种有机碳含量确定方法实施例流程示意图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置、服务器或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。

具体的一个实施例如图1所示，本说明书提供的有机碳含量确定方法的一个实施例中，所述方法可以包括：

S2：获取待测工区的预设测井数据类型的测井数据。

所述测井数据类型可以包括声波时差、电阻率、伽马、中子密度和自然电位等，各类型的测井数据可以根据工区相应类型的测井测量获得。待测工区的预设测井数据类型可以预先通过综合分析待测工区的实际地质情况以及所使用的有机碳含量集成预测模型中所需要的测井数据类型来确定。

然后，可以获取预先确定的预设测井数据类型对应的测井数据，作为有机碳含量预测的输入数据。如，预先确定的待测工区的预设测井数据类型为声波时差、电阻率、伽马，则可以获取声波时差、电阻率、伽马对应的测井数据作为后续有机碳含量预测的输入数据。

本说明书的一个实施例中，所述预设测井数据类型可以包括第一测井数据类型以及第二测井数据类型，其中，所述第一测井数据类型可以根据所述待测工区的测井数据对有机碳含量的响应特征确定，所述第二测井数据类型可以包括电阻率测井以及声波时差测井。

通常，致密油烃源岩具有很强的非均质性，同一层段的不同部位，TOC(有机碳)含量有很大变化，这种变化可以反映在测井数据上。一些实施方式中，可以通过综合分析多种类型的测井数据，筛选出待测工区与TOC含量具有良好关系的测井数据类型，作为待测工区有机碳含量预测的测井曲线类型。利用上述实施例的方案，可以使得筛选的测井数据类型更符合待测工区的实际地质情况，从而可以提高有机碳含量预测的准确性。

一些实施方式中，可以根据实际地质情况，明确不同测井曲线和TOC含量之间的响应特征，筛选出响应良好的测井数据类型。所述响应特征如可以包括岩性特征，电阻率特征，放射性特征，磁性特征等。本说明书的一个实施例中，可以计算测井数据与实测TOC数据的相关系数矩阵，如皮尔森矩阵，通过分析相关系数筛选响应良好的测井数据类型，从而进一步提高测井数据类型确定的准确性。

另一些实施方式中，还可以通过分析实际地质情况，进一步参考与待测工区具有相同或者相似地质情况的区域的测井数据类型，确定待测工区的测井数据类型。一些实施方式中，如可以将沉积相带相同，岩性、矿物组成相似的区域确定为地质情况相同或者相抵的区域。可以获取与待测工区地质条件相似的已开发区域数据，已开发区域的测井数据类型与有机碳含量的响应特征关系比较明确，进一步作为参考，可以更为准确的确定相对有机碳含量敏感的测井数据类型。

相应的，可以将根据待测工区的测井数据对有机碳含量的相应特征确定的测井数据类型作为第一测井数据类型。

另一些实施方式中，为了适应于有机碳含量集成预测模型中的ΔlogR数据模拟处理的要求，所述预设数据类型还可以包括第二测井数据类型，相应的，所述第二测井数据类型可以包括电阻率以及声波时差。

需要说明的是，所述第一测井数据类型与第二测井数据类型只是本说明书实施例中为了区分表述而做的定义，并不限定二者所包含的具体测井数据类型是否存在差异性。所述第一测井数据类型与第二测井数据类型所包含的具体测井数据类型可以相同，也可以不同，这里不做限定。

如通过上述实施例给的方案确定的第一测井数据类型包括声波时差、密度和电阻率，则第一测井数据类型与第二测井数据类型即存在声波时差、电阻率两种相同的测井数据类型。

本说明书的一个或者多个实施例中，获取待测工区的预设测井数据类型的测井数据之前，所述方法还可以包括：

对测井数据和/或有机碳含量数据进行预处理，所述预处理可以包括数据清洗以及沿地层纵向上的移动平均滤波去除异常点处理。

所述数据清洗可以包括：分析选择的测井数据和/或有机碳含量数据，删除无效点和非研究层段等。然后，可以对数据清洗后的测井数据和/或有机碳含量数据进行去除异常点处理。可以以纵向上相邻多个点的测井数据平均值作为中心点的值，其中，所述相邻多个点的个数根据实测TOC数据的采样间隔确定。从而消除测井数据异常点的同时，还可以保证测井数据的数据间隔与TOC实测样品的采样间隔一致，便于后续数据分析处理。

一些实施方式中，在对测井数据去除异常点处理之前，还可以先对TOC实测数据进行沿地层纵向上的移动平均滤波处理，消除异常点。然后，可以以移动平均滤波处理后的TOC数据的采样间隔为步长，对测井数据进行沿地层纵向上的移动平均滤波处理。

测井数据在采集中难免受环境和随机因素的干扰而产生噪声，这些噪声对利用测井数据进行的地质参数的计算带来很大误差。TOC的测定往往只取数十毫克样品，所取样品测出的TOC可能无法表示该点TOC的真实水平产生异常点。而直接人为去除异常点主观性较大，又容易破坏数据的完整性。利用本说明实施例上述方案，对测井数据以及有机碳含量数据进行预处理，可以在保持数据整体完整性的基础上，进一步消除噪声数据对后续数据分析的影响，减小随机误差，提高最终有机碳含量预测结果的准确性。

S4：将所述测井数据输入构建的有机碳含量集成预测模型中进行有机碳含量预测，获得所述待测工区的有机碳含量数据。

可以根据步骤S2的方案，预先确定待测工区的预设测井数据类型，然后，获取预设测井数据类型对应的测井数据。将获取的测井数据作为输入数据，输入预先构建的有机碳含量集成预测模型中进行有机碳含量预测，输出待测工区的有机碳含量预测结果。

图2表示本说明书一个或者多个实施例中提供的有机碳含量预测流程示意图。如图2所示，本说明书的一个或者多个实施例中，所述方法还可以包括：

S1：构建有机碳含量集成预测模型。

其中，所述有机碳含量集成预测模型可以采用下述方式构建：S102：获取所述预设测井数据类型对应的测井数据以及对应的实测有机碳含量数据作为第一样本数据；

S104：分别利用支持向量机模型、ΔlogR模型对所述第一样本数据中的测井数据进行处理，获得第一预测结果以及第二预测结果；

S106：将所述第一预测结果、第二预测结果以及所述实测有机碳含量数据作为第二样本数据，利用所述第二样本数据训练决策树模型，获得所述有机碳含量集成预测模型。

可以获取待测工区的预设测井数据类型对应的测井数据、以及相应的实测有机碳含量数据，作为第一样本数据。如预先确定的待测工区的预设测井数据类型为声波时差、电阻率、伽马，则可以获取与待测工区具有相似地质特征的工区的声波时差测井数据、电阻率测井数据、伽马测井数据，以及该地区的实测有机碳含量数据作为样本数据。或者，对于区域内具有相同或相似地质特征的目标工区，也可以对测井周围进行采样，获得测井附近区域的实测有机碳含量数据，然后同测井数据一起作为目标工区内带预测区域的样本数据。

在获取模型构建的样本数据之前，可以先确定待测工区的预设测井数据类型，相应的，预设测井数据类型可以根据步骤S202中给的方式实施，这里不做赘述。

然后，可以分别利用支持向量机模型、ΔlogR模型对所述第一样本数据中的测井数据进行处理，获得第一预测结果以及第二预测结果。

可以将第一样本数据中预设测井数据类型对应的测井数据作为输入数据，分别输入支持向量机模型以及ΔlogR模型中，获得有机碳含量预测结果，将支持向量机模型对应的TOC预测结果标记为第一预测结果、以及将ΔlogR模型对应的TOC预测结果标记为第二预测结果。其中，所述支持向量机模型以及ΔlogR模型可以预先进行构建。

本说明书的一个实施例中，可以利用支持向量机模型对所述第一样本数据中的第一测井数据类型对应的测井数据进行处理，获得第一预测结果；利用ΔlogR模型对所述第一样本数据中的第二测井数据类型对应的测井数据进行处理，获得第二预测结果。

可以预先根据目标工区的测井数据对有机碳含量的响应特征确定第一测井数据类型，具体实施方式可以参考步骤S202中的方案实施，这里不做赘述。受地质条件的影响，不同类型的测井数据对TOC含量的敏感程度不同，通过优选出对TOC含量比较敏感的测井数据类型，以进行TOC含量预测，可以进一步提高TOC含量预测的准确性。

然后，可以利用支持向量机模型对所述第一样本数据中的第一测井数据类型对应的测井数据进行处理，获得第一预测结果。

同时，还可以利用ΔlogR模型对第一样本数据中的电阻率测井数据以及声波时差测井数据型进行处理，获得第二预测结果。

然后，一些实施方式中，可以将两组TOC预测值及实测TOC数据作为第二样本数据，利用所述第二样本数据对决策树模型进行训练。

使用决策树对输入的两个模型的结果进行划分(决策)，找到最优的切分变量j和最优的切分点s，将输入空间划分为两个子集，使得子集的总误差最小，并在输入数据的子集重复进行划分。如图3的可视化结果，划分结果形如“ΔlogR模型预测结果小于1.8，支持向量机预测模型结果小于1.7的综合结果为1.9”。

其中，每个划分子集的预测值(f(x_i))等于该子集中样本的实测结果(y_i)平均值P_m：

子集的误差通过最小二乘法(mse)来衡量，即：

其中，c_m表示子集，m表示子集数，x_i表示各子集中的样本，n表示各子集中的样本数。

通过上述实施例的方式，可以获得最终用于待测工区有机碳含量预测的有机碳含量集成预测模型。

具体实施时，可以将第一样本数据划分为训练数据，交叉验证数据和测试数据。训练数据用于建立初始模型；交叉验证数据用于检验不同参数模型的准确度，从而筛选出准确度最好的模型；测试数据用于测试模型的准确度。通过划分数据，测试数据既不会参与建立模型，也不会参与筛选模型，因而其测试出的准确度，可以较好的反映模型应用的真实准确度。

本说明书上述各个实施例提供的方案，通过先利用支持向量机数据处理方法以及ΔlogR数据模拟方法对测井数据进行处理，初步获得两种TOC预测结果。然后，再将两种TOC预测结果以及对应的实测TOC数据作为样本数据，利用决策树算法对所述样本数据进行学习训练，进而构建获得有机碳含量集成预测模型。

然后，可以将待测工区的预设测井数据类型对应的测井数据输入有机碳含量集成预测模型中进行数据处理，获得输出结果。所述输出结果可以为根据模型预测的待测工区的有机碳含量数据以及准确率等。对于未知地区，获取其常规测井数据，输入有机碳含量集成预测模型，可以获得该未知地区的TOC含量以及准确度。对于同一个地区来说地质条件相似，只需要建立一个模型，即可预测全区的TOC含量。

本说明书的一个实施例中，所述支持向量机模型可以采用下述方式构建：

可以获取所述第一样本数据中的第一测井数据类型对应的测井数据以及相应的实测有机碳含量数据，作为支持向量机模型构建的第一子样本数据。

然后，也可以将第一子样本数据划分为训练数据，交叉验证数据和测试数据，如划分比例可以为6:2:2。

一些实施方式中，可以预先设定不同超参数值，利用训练数据训练支持向量机模型。再使用交叉验证集进行验证，从而选择最优参数的模型，进一步提高准确度，最后，利用测试数据进一步验证模型，结果的正确率作为准确度参考。如果正确率达不到预设要求，则可以进一步重复上述步骤，重新筛选测井数据类型、对测井数据进行预处理或者重新样本数据，对模型进行训练，以保证构建的模型的准确性。

对于样本(X⁽ⁱ⁾,y⁽ⁱ⁾)，预测值由w^TX-b所定义，w^T是法向量，b是偏移量。目标是将回归误差限定在一定的间隔ε内，同时引入惩罚项δ_i，δ_i ^*，C是正则化系数。

即：

考虑约束条件，使用拉格朗日乘数法，引入拉格朗日算子α_i，α_i ^*，τ_i，τ_i ^*：

可简化为

核函数选用高斯核，令

高斯核相比于线性核，更适合于非线性拟合，从而利用高斯核可以更加准确的预测TOC含量。高斯核中σ也是模型的超参数，超参数σ和C共同控制了模型的欠拟合和过拟合。进一步的，可以通过交叉验证的方法来选择准确度高的参数下的模型，以及利用测试数据进一步验证优选的模型。

本说明书的另一个实施例中，可以使用声波时差测井数据和电阻率测井数据的差值，确定ΔlogR经验公式，获得ΔlogR预测模型。

一些实施方式中，可以利用上述清洗后的声波时差数据和电阻率数据，以及实测的TOC数据，输入ΔlogR模型经验公式，可以获得得到ΔlogR模型。

根据有机质的变化引起声波时差和电阻率的的增加，将声波时差曲线和电阻率曲线在非烃源岩层段重合，作为TOC为零的基线值，通过两条曲线的差异(Δ值)反映有机质丰度。其中，

而TOC与ΔlogR成线性关系：

TOC＝ΔlogR*10^{2.297-0.1699lom} (8)

其中，Rt为电阻率测井数值；Δt为声波时差测井数值；Rt_基线和Δt_基线分别是基线，即重合段的读数；lom为有机质热变指数，反映有机质成熟度，可以通过测井数据和实测TOC数据确定该系数。

本说明书实施例提供的上述方案，在模型构建以及实际预测之前先对测井及实测有机碳含量数据分别进行清洗。然后，再根据不同地区测井响应特点预先筛选测井数据类型，以适应不同地区的地质特征，提高后续TOC预测的准确性。

之后，再分别构建支持向量机模型和ΔlogR模型，两种模型使用的测井曲线不同，对测井数据响应的敏感程度不同，侧重的响应特征也不同。从而可以对更多维度的测井特征进行表征，进一步综合考虑了各种类型的测井对岩性、孔隙的响应，不管是对高值的响应还是对低值的响应都更加准确。

再以两个基础模型的结果作为决策树的输入，对决策树进行训练拟合，构建获得最终的有机质含量预测模型。通过使用第一阶段的预测作为下一层预测的特征，构建两层集成型模型作为有机质含量预测模型，比起相互独立的预测模型有更强的非线性表述能力，误差更小。

从而，利用本说明书上述实施例构建获得的TOC集成型预测模型，相对于传统的单一性模型，或者将多个单一模型进行简单的组合分析而言，具备更强的表达能力及普适性，可以更为准确的预测出TOC的含量。

本说明书还提供了一个应用上述实施例方案的具体实例，以更好的说明本申请实施例方案的可行性及实用性。如下：

鄂尔多斯盆地是我国第二大沉积盆地，位于我国中西部地区，中生代为一大型内陆坳陷湖盆，长7油层组时期，湖盆强烈坳陷，湖盆面积达到最大，发育了大量暗色泥岩和富有机质页岩，是鄂尔多斯盆地主力油源岩。优质烃源岩大面积展布，主要分布于盆地中部及南部的定边、志丹、吴起、富县、黄陵等地区，厚度一般为30～90m。本实例中以地区烃源岩为例，进行TOC含量的预测。

鄂尔多斯盆地长7烃源岩总有机碳含量一般为2％～20.5％，镜质组反射率为0.7％～1.1％，处于主力生油窗。以盐池地区a井为例，先清洗测井数据进行预测。图4表示测井数据与TOC含量的相关关系示意图，其中，图4中的(a)图表示声波时差数据与TOC含量的相关关系示意图，图4中的(b)图表示密度数据与TOC含量的相关关系示意图，图4中的(c)图表示电阻率数据与TOC含量的相关关系示意图。如图4所示，该地区声波时差曲线、密度曲线和电阻率曲线对TOC响应特征较好。

使用以上三条测井数据，以及实测TOC数据，可建立有支持向量机预测模型。确定模型最优超参数γ值为0.1，σ值为0.03。同时使用声波时差曲线、电阻率曲线及实测TOC数据，可建立有机碳含量ΔlogR预测模型。进一步输入决策树，得到有机碳含量预测集成模型。

总体来说，盐池地区长7₃段TOC含量较高，对于高TOC段，预测精度略有下降。结果表明目前广泛使用的ΔlogR方法准确度低于本说明书的有机碳含量集成预测模型。原因主要是ΔlogR仅考虑了有机质对声波时差和电阻率的影响，忽略了岩性、矿物等因素，难以反映其他潜在因素引起的TOC含量的突变。相比之下，本说明书的有机碳含量集成预测模型可以对更多维度的测井特征进行表征，考虑了密度测井对岩性、孔隙的响应，不管是对高值的响应还是对低值的响应都更加准确。

根据该模型的预测，对结果进行分析。图5表示集成模型有机碳含量预测值与实测值相关关系示意图。如图5所示，预测值与实测值关系为y＝0.9834x+0.0762，相关系数为0.8499。图6表示目前使用最多的ΔlogR模型预测值与实测值相关关系示意图，如图所示，预测值与实测值关系为y＝0.9954x，相关系数为0.4825，集成模型的预测误差更小。表1是两种不同模型的平方和误差，表明集成模型在TOC高值部分和低值部分对TOC的预测结果都更为准确。

表1不同模型误差对比表

TOC范围	ΔlogR-平方和误差	集成模型-平方和误差	样品点个数
				<3％	1.12	0.74	25
3％-6％	0.58	0.24	120
				>6％	1.74	0.41	5
总	0.71	0.33	150

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。具体的可以参照前述相关处理相关实施例的描述，在此不做一一赘述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书一个或多个实施例提供的一种有机碳含量确定方法，可以通过先获取待测工区的预设测井数据类型对应的测井数据以及对应的实测有机碳含量数据作为第一样本数据，分别基于预先构建的支持向量机模型以及ΔlogR模型进行有机碳含量预测。然后，将基于两种模型的预测结果以及第一样本数据中的实测有机碳含量作为第二样本数据，进一步训练决策树模型，从而构建获得有机碳含量集成预测模型。将待测工区的预设测井数据类型对应的测井数据输入上述构建的有机碳含量集成预测模型中，可以获得有机碳含量预测结果。利用本说明书各个实施例，可以进一步提高有机碳含量预测的准确性。

基于上述所述的有机碳含量确定方法，本说明书一个或多个实施例还提供一种有机碳含量确定装置。所述的装置可以包括使用了本说明书实施例所述方法的系统、软件(应用)、模块、组件、服务器等并结合必要的实施硬件的装置。基于同一创新构思，本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似，因此本说明书实施例具体的装置的实施可以参见前述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。具体的，图7表示说明书提供的一种有机碳含量确定装置实施例的模块结构示意图，如图7所示，所述装置可以包括：

数据获取模块602，可以用于获取待测工区的预设测井数据类型的测井数据；

含量预测模块604，可以用于将所述测井数据输入构建的有机碳含量集成预测模型进行有机碳含量预测，获得所述待测工区的有机碳含量数据，其中，所述有机碳含量集成预测模型利用模型构建模块601预先构建，相应的，所述模块构建模块601可以包括：

样本数据获取单元，可以用于获取所述预设测井数据类型对应的测井数据以及对应的实测有机碳含量数据作为第一样本数据；

模型构建单元，可以用于分别利用支持向量机模型、ΔlogR模型对所述第一样本数据中的测井数据进行处理，获得第一预测结果以及第二预测结果，将所述第一预测结果、第二预测结果以及所述实测有机碳含量数据作为第二样本数据，利用所述第二样本数据训练决策树模型，获得所述有机碳含量集成预测模型。

利用上述实施例中的方案，可以预先根据不同地区测井响应特点预先筛选测井数据，能够适应不同地区的地质特征，提高TOC含量预测的准确性。

本说明书的另一个实施例中，所述数据获取模块602可以包括：

测井数据类型确定单元，可以用于确定所述预设测井数据类型包括第一测井数据类型以及第二测井数据类型，其中，所述第一测井数据类型根据所述待测工区的测井数据对有机碳含量的响应特征确定，所述第二测井数据类型包括电阻率测井以及声波时差测井。

本说明书的另一个实施例中，所述模型构建单元601可以包括：

第一预测结果确定子单元，可以用于利用支持向量机模型对所述第一样本数据中的第一测井数据类型对应的测井数据进行处理，获得第一预测结果；

第二预测结果确定子单元，可以用于利用ΔlogR模型对所述第一样本数据中的第二测井数据类型对应的测井数据进行处理，获得第二预测结果。

本说明书的另一个实施例中，所述模型构建模块601还可以包括支持向量机模型构建单元，所述支持向量机模型构建单元可以包括：

样本数据划分子单元，可以用于根据所述第一样本数据中的第一测井数据类型对应的测井数据以及实测有机碳含量数据确定训练数据、交叉验证数据以及测试数据；

模型训练子单元，可以用于预先设定超参数值，利用所述训练数据对初始支持向量机模型进行训练；

模型优化子单元，可以用于利用所述交叉验证数据对训练后的支持向量机模型的超参数值进行优化，获得优化后的支持向量机模型；

模型测试子单元，可以用于利用所述测试数据对优化后的支持向量机模型进行测试，根据测试结果确定用于待测工区有机碳含量预测的支持向量机模型。

图8表示说明书提供的另一种有机碳含量确定装置实施例的模块结构示意图。如图8所示，所述装置还可以包括：

预处理模块600，可以用于对测井数据和/或有机碳含量数据进行预处理，所述预处理包括数据清洗以及沿地层纵向上的移动平均滤波去除异常点处理。

利用上述实施例中的方案，可以降低随机误差对预测结果的影响，提高预测结果的准确性。

需要说明的，上述所述的装置根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本说明书一个或多个实施例提供的一种有机碳含量确定装置，可以通过先获取待测工区的预设测井数据类型对应的测井数据以及对应的实测有机碳含量数据作为第一样本数据，分别基于预先构建的支持向量机模型以及ΔlogR模型进行有机碳含量预测。然后，将基于两种模型的预测结果以及第一样本数据中的实测有机碳含量作为第二样本数据，进一步训练决策树模型，从而构建获得有机碳含量集成预测模型。将待测工区的预设测井数据类型对应的测井数据输入上述构建的有机碳含量集成预测模型中，可以获得有机碳含量预测结果。利用本说明书各个实施例，可以进一步提高有机碳含量预测的准确性。

本说明书提供的上述实施例所述的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上，所述的存储介质可以计算机读取并执行，实现本说明书实施例所描述方案的效果。因此，本说明书还提供一种有机碳含量确定设备，包括处理器及存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现包括以下步骤：

获取待测工区的预设测井数据类型的测井数据；

所述存储介质可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括：利用电能方式存储信息的装置如，各式存储器，如RAM、ROM等；利用磁能方式存储信息的装置如，硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置如，CD或DVD。当然，还有其他方式的可读存储介质，例如量子存储器、石墨烯存储器等等。

需要说明的，上述所述的设备根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

上述实施例所述的一种有机碳含量确定设备，可以通过先获取待测工区的预设测井数据类型对应的测井数据以及对应的实测有机碳含量数据作为第一样本数据，分别基于预先构建的支持向量机模型以及ΔlogR模型进行有机碳含量预测。然后，将基于两种模型的预测结果以及第一样本数据中的实测有机碳含量作为第二样本数据，进一步训练决策树模型，从而构建获得有机碳含量集成预测模型。将待测工区的预设测井数据类型对应的测井数据输入上述构建的有机碳含量集成预测模型中，可以获得有机碳含量预测结果。利用本说明书各个实施例，可以进一步提高有机碳含量预测的准确性。

本说明书还提供一种有机碳含量确定系统，所述系统可以为单独的有机碳含量确定系统，也可以应用在多种石油勘探系统中。所述的系统可以为单独的服务器，也可以包括使用了本说明书的一个或多个所述方法或一个或多个实施例装置的服务器集群、系统(包括分布式系统)、软件(应用)、实际操作装置、逻辑门电路装置、量子计算机等并结合必要的实施硬件的终端装置。所述有机碳含量确定系统可以包括至少一个处理器以及存储计算机可执行指令的存储器，所述处理器执行所述指令时实现上述任意一个或者多个实施例中所述方法的步骤。

需要说明的，上述所述的系统根据方法或者装置实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

上述实施例所述的一种有机碳含量确定系统，可以通过先获取待测工区的预设测井数据类型对应的测井数据以及对应的实测有机碳含量数据作为第一样本数据，分别基于预先构建的支持向量机模型以及ΔlogR模型进行有机碳含量预测。然后，将基于两种模型的预测结果以及第一样本数据中的实测有机碳含量作为第二样本数据，进一步训练决策树模型，从而构建获得有机碳含量集成预测模型。将待测工区的预设测井数据类型对应的测井数据输入上述构建的有机碳含量集成预测模型中，可以获得有机碳含量预测结果。利用本说明书各个实施例，可以进一步提高有机碳含量预测的准确性。

需要说明的是，本说明书上述所述的装置或者系统根据相关方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照方法实施例的描述，在此不作一一赘述。本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类、存储介质+程序实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

尽管本说明书实施例内容中提到的测井数据类型确定、有机碳含量集成预测模型构建等获取、定义、交互、计算、判断等操作和数据描述，但是，本说明书实施例并不局限于必须是符合标准数据模型/模板或本说明书实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例，仍然可以属于本说明书的可选实施方案范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本说明书一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述并不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种有机碳含量确定方法，其特征在于，包括：

获取待测工区的预设测井数据类型的测井数据；所述预设测井数据类型包括第一测井数据类型以及第二测井数据类型，其中，所述第一测井数据类型根据所述待测工区的测井数据对有机碳含量的响应特征确定，所述第二测井数据类型包括电阻率以及声波时差；

分别利用支持向量机模型、ΔlogR模型对所述第一样本数据中的测井数据进行处理，获得第一预测结果以及第二预测结果；其中，包括：利用支持向量机模型对所述第一样本数据中的第一测井数据类型对应的测井数据进行处理，获得第一预测结果；利用ΔlogR模型对所述第一样本数据中的第二测井数据类型对应的测井数据进行处理，获得第二预测结果；

2.根据权利要求1所述的方法，其特征在于，所述第一测井数据类型根据测井数据与有机碳含量之间的相关系数确定。

3.根据权利要求1所述的方法，其特征在于，所述支持向量机模型采用下述方式构建：

4.根据权利要求1所述的方法，其特征在于，所述获取待测工区的预设测井数据类型的测井数据之前，还包括：

5.一种有机碳含量确定装置，其特征在于，所述装置包括：

数据获取模块，用于获取待测工区的预设测井数据类型的测井数据；所述数据获取模块包括：测井数据类型确定单元，用于确定所述预设测井数据类型包括第一测井数据类型以及第二测井数据类型，其中，所述第一测井数据类型根据所述待测工区的测井数据对有机碳含量的响应特征确定，所述第二测井数据类型包括电阻率测井以及声波时差测井；

含量预测模块，用于将所述测井数据输入构建的有机碳含量集成预测模型进行有机碳含量预测，获得所述待测工区的有机碳含量数据，其中，所述有机碳含量集成预测模型利用模型构建模块预先构建，相应的，所述模型构建模块包括：

模型构建单元，用于分别利用支持向量机模型、ΔlogR模型对所述第一样本数据中的测井数据进行处理，获得第一预测结果以及第二预测结果，将所述第一预测结果、第二预测结果以及所述实测有机碳含量数据作为第二样本数据，利用所述第二样本数据训练决策树模型，获得所述有机碳含量集成预测模型；所述模型构建单元包括：第一预测结果确定子单元，用于利用支持向量机模型对所述第一样本数据中的第一测井数据类型对应的测井数据进行处理，获得第一预测结果；第二预测结果确定子单元，用于利用ΔlogR模型对所述第一样本数据中的第二测井数据类型对应的测井数据进行处理，获得第二预测结果。

6.根据权利要求5所述的装置，其特征在于，所述模型构建模块还包括支持向量机模型构建单元，所述支持向量机模型构建单元包括：

7.根据权利要求5所述的装置，其特征在于，所述装置还包括：

8.一种有机碳含量确定设备，其特征在于，包括处理器及用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现包括以下步骤：

9.一种有机碳含量确定系统，其特征在于，包括至少一个处理器以及存储计算机可执行指令的存储器，所述处理器执行所述指令时实现权利要求1-4中任意一项所述方法的步骤。