CN110866551A

CN110866551A - 一种基于高相关滤波算法和pca算法的钻井数据降维方法

Info

Publication number: CN110866551A
Application number: CN201911076241.3A
Authority: CN
Inventors: 沈文建; 魏庆阳; 毛敏; 方振东; 谢洪路
Original assignee: China France Bohai Geoservices Co Ltd
Current assignee: China France Bohai Geoservices Co Ltd
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2020-03-06
Anticipated expiration: 2039-11-06
Also published as: CN110866551B

Abstract

本发明公开一种基于高相关滤波算法和PCA算法的钻井数据降维方法，通过对获取的钻井工程数据进行常量列的判断；将常量列的维度进行去除，非常量列的维度进行归一化处理，归一化后的数据各个维度样本之间进行相关系数求解，将相关系数组成第一相关系数矩阵；将第一相关系数矩阵通过高相关滤波法进行降维，得到降维后的第二相关系数矩阵；将降维后的第二相关系数矩阵进行PCA法降维，得到降维后的钻井工程数据矩阵。本发明具有保留原始钻井数据的特点，降低数据之间的信息冗余的优点。

Description

一种基于高相关滤波算法和PCA算法的钻井数据降维方法

技术领域

本发明涉及石油勘探以及钻井工程领域，更具体的是，本发明涉及一种基于高相关滤波算法和PCA算法的钻井数据降维方法。

背景技术

目前，越来越多的石油单位将数字化、信息化的油田研究与建设提上了议程。由于钻井是石油行业总成本里占较大比重的一环，因此，勘探钻井科技的进一步研究与创新，对于控制钻井成本，提高开采效率，具有十分重要的意义。随着传感器技术和计算机技术的快速发展，大量的钻井参数数据可以被检测并记录，因此，油气钻井行业拥有越来越多的钻井参数数据。影响钻井速度的因素十分繁杂，一般在钻井现场，可以采集的钻井目标参数大约有30种，其包括井深、层位、悬重、钻压、扭矩、排量、钻时、钻速、泵压、气压测值、钻井液总量等等。鉴于钻井参数数量众多，且不同的钻井参数有着不同方面的特征体现，比如出口密度、入口密度、钻井液总量、钻井液变化量等都是钻井液性能指标，设计垂深、设计井深、井口坐标、井斜等参数为等下钻前需要决定好的参数，如果以钻速为优化设计目标的话，需要排除与钻速无关的参数和其他参数之间相关性比较大的参数，以减少数据之间的信息冗余度，降低钻井工程数据传输、存储的负担，单从人工经验来看，钻井液总量等钻井液性能指标参数是出于安全钻井的需要而设计的，并不是以提高钻井速度为目标；悬重等参数也看似和钻速无关，然而这些参数是否与钻速参数相关，以及参数与参数之间是否存在一定的关联性，都需要我们运用科学的方法进行分析、验证。

另外，从机器学习领域的角度来讲，在应用机器学习算法建立相应的模型时，面临的最大问题之一就是维度诅咒，维度的诅咒是指，当数据集中的特征参数维度很高时，某些机器学习算法可能表现不佳。如果以钻速为优化设计目标的话，需要建立其他钻井参数与钻速之间的相关预测模型，休斯效应指出，在训练样本的数量固定的情况下，模型的预测能力随着维度的增加而降低。因此，为达到一个很好的钻速模型预测的效果，也有必要对原始的钻井参数数据样本进行参数降维。

目前，在钻井工程参数领域，尚未公开有一种相关的专利方法，来对钻井参数数据进行降维，选择高效的钻井工程数据降维方法，能有效降低钻井工程参数的维数，减少数据之间的信息冗余度，对钻井工程数据的分析和挖掘利用具有十分重要的意义。

主成分分析算法(PCA)，是一种统计方法，通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分；高相关滤波算法和PCA算法能够将高维度的数据进行降维。

发明内容

本发明的目的是设计开发了一种基于高相关滤波算法和PCA算法的钻井数据降维方法，通过将高相关滤波算法和主成分分析算法两种参数约简方法相结合，能够有效地对钻井数据进行参数降维，减低数据之间的信息冗余。

本发明提供的技术方案为：

一种基于高相关滤波算法和PCA算法的钻井数据降维方法，包括如下步骤：

步骤1、获取钻井工程数据；

步骤2、对钻井工程数据的每一列进行循环判断是否为常量列：

若为常量列，将常数列所处的维度去除；

若为非常量列，对所有非常量列的维度进行归一化处理；

步骤3、对归一化后的数据各个维度样本之间进行相关系数求解，将相关系数组成第一相关系数矩阵；

步骤4、将第一相关系数矩阵通过高相关滤波算法进行降维，得到降维后的第二相关系数矩阵；

步骤5、将降维后的第二相关系数矩阵进行PCA算法降维，得到降维后的钻井工程数据矩阵。

优选的是，所述高相关滤波算法包括如下步骤：

步骤1、设定相关系数的实际第一判定阈值，实际第一判定阈值满足：

当T1≤0.5时，取T＝0.5；当T1＞0.5时，取T＝T1；

式中，T1表示理想第一判定阈值，T表示实际第一判定阈值；

所述理想第一判定阈值满足：

式中，T1表示理想第一判定阈值，Ft表示高相关滤波算法的变量因子，t₀表示第一相关系数矩阵的基准数值，ξ表示第一相关系数矩阵的权重系数；

其中，第一相关系数矩阵的基准数值满足：

式中，i₁表示第一相关系数矩阵中的第i₁行，i₂表示第一相关系数矩阵中的第i₂列，n₁表示第一相关系数矩阵中的总行数，n₂表示第一相关系数矩阵中的总列数，x_i1表示第i₁行的某个样本值，x_i1+1表示样本值x_i1后一行的样本值，y_i1表示i₁列的某个样本值，y_i1+1表示样本值y_i1后一列的样本值；

步骤2、对第一相关系数矩阵的第一行相关系数进行判定：

若某个相关系数值大于第一判定阈值，将相对应的维数保存在第一维数矩阵中；

若某个相关系数值小于第一判定阈值，对第一行下一个相关系数进行判断，直至第一行相关系数全部判定完毕；

步骤3、对第一相关系数矩阵的下一行进行相关系数判定，直至相关系数矩阵的所有行相关系数判定完成；

步骤4、去除第一维数矩阵中重复的相同元素，得到最终要去除的第二维数矩阵；

步骤5、将第二维数矩阵中元素所对应的列，从钻井工程数据和第一相关系数矩阵中去掉，得到最终降维后的第二相关系数矩阵,以及高相关滤波法降维的钻井工程参数数据矩阵。

优选的是，所述PCA算法包括如下步骤：

步骤1、设置主成分信息保留率的第二判定阈值，第二判定阈值满足：

式中，T2表示第二判定阈值，i₃表示第二相关系数矩阵中的第i₃行，i₄表示第二相关系数矩阵中的第i₄列，n₃表示第二相关系数矩阵中的总行数，n₄表示第二相关系数矩阵中的总列数，x_i3表示第i₃行的某个样本值，x_i3+1表示样本值x_i3后一行的样本值，y_i4表示i₄列的某个样本值，y_i4+1表示样本值y_i4后一列的样本值，k表示第二相关系数矩阵的总行数与总列数之比，χ表示PCA算法的变量因子，t_p表示第二相关系数矩阵的基准数值，λ表示第二相关系数矩阵的权重系数，β表示第二相关系数矩阵的校正系数；Q_i表示第二相关系数矩阵的维数；

步骤2、将第二相关系数矩阵进行特征值分解，得到满足条件的所有特征值和对应的特征向量；

步骤3、将所有的特征值按照降序排序保存在特征值矩阵中，特征向量按照与特征值相对应的保存在特征向量矩阵中；

步骤4、对所有特征值求贡献率和累积贡献率；

步骤5、将特征值的累计贡献率与第二判定阈值进行比较，直至第一个累积贡献率大于等于第二判定阈值的特征值λ_j，提取该特征值之前的所有特征值，将提取的所有特征值对应的特征向量保存到特征向量矩阵中；

步骤6、通过特征向量矩阵得到降维后的最终数据，满足如下公式：

N＝M*Y；

式中，N表示降维后的钻井工程数据，Y表示提取的特征向量矩阵，M表示钻井工程参数数据矩阵。

优选的是，所述常数列为所有样本均为固定值。

优选的是，所述归一化处理是将各个维度上的样本值均转换到相同的数值区间范围内。

优选的是，所述各维度间的相关系数满足：

式中，n表示样本量，

表示随机变量X的平均值，

表示随机变量Y的平均值，X_i表示随机变量X的某个样本值，Y_i表示随机变量Y的某个样本值；

其中，ρ的取值越接近于1时，说明两个随机变量的线性相关程度越大，呈正相关。

优选的是，所述相关系数矩阵为：

式中，P表示总的相关系数矩阵，n表示原始钻井工程数据总的维数，ρ_ij表示维度i和维度j所代表的两个随机变量之间的相关系数。

优选的是，所述特征值的贡献率满足如下公式：

式中，λ_i为某一个特征值的大小，P为特征值的全部个数，con表示该特征值的贡献率。

优选的是，所述特征值的累计贡献率为所述特征值的贡献率和排在其前面的所有特征值的贡献率相加。

优选的是，所述第二相关系数矩阵的基准数值满足：

本发明所述的有益效果：

(1)本发明设计开发的基于高相关滤波算法和PCA算法的钻井数据降维方法，高相关滤算波和主成分分析算法两种参数约简方法相结合的方法，相对于单一的检测方法而言，能以较少的数据维度，保留住较多的原始数据特性的特点。

(2)本发明方法对含有多维数据的钻井数据进行双重降维，能有效地降低原始钻井工程数据的维度，以达到较好的数据降维效果，并且能够减低数据之间的信息冗余，降低原始数据的复杂度。

附图说明

图1为本发明所述基于高相关滤波算法和PCA算法的钻井数据降维方法的整体流程图。

图2为本发明所述高相关滤波算法的具体流程图。

图3为本发明所述PCA算法的具体流程图。

具体实施方式

下面结合对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

本发明提供一种基于高相关滤波算法和PCA算法的钻井数据降维方法，如图1所示，首先在步骤S101中先对获取的钻井工程数据的每一维度进行循环判断，判断某个维度是否为常量列，即判断该列的所有样本是否为一固定值，如果为固定值，则转向步骤S102，将该列所处的维度予以去除。

在步骤S103中，对剩余的非常量列的维度所重新组成的样本矩阵进行归一化处理，即将各个参数维度上的样本值都转换到相同的数值区间范围内，以避免各个维度的数据因为数量级不同，而给后续的求解相关系数和PCA降维带来影响。

在步骤S104中，使用如下公式计算相关系数：

其中，ρ表示相关系数，X和Y表示两个不同的随机变量，n表示样本量，

表示随机变量X的平均值，

表示随机变量Y的平均值，x_i表示随机变量X的i个样本值，y_i表示随机变量Y的i个样本值。

相关系数值反映的是两个随机变量之间的线性相关的关系，当相关系数的取值越接近于1时，说明两个随机变量的线性相关程度越大，并且呈正相关，任意一个随机变量与其自身的相关系数值为1。

计算完各个维度之间的相关系数后，将所得到的所有相关系数组成第一相关系数矩阵如下所示：

其中，P表示总的第一相关系数矩阵，n表示原始钻井工程数据总的维数，ρ_ij表示维度i和维度j所代表的两个随机变量之间的相关系数。

求解得到第一相关系数矩阵后，进入到步骤S106中，使用高相关滤波算法进行钻井工程参数维度的约简，其详细步骤由附图2示出。

如图2所示，为本发明所述高相关滤波算法的具体流程图，首先设定相关系数的实际第一判定阈值，实际第一判定阈值满足：

当T1≤0.5时，取T＝0.5；当T1＞0.5时，取T＝T1；

式中，T1表示理想第一判定阈值，T表示实际第一判定阈值；

所述理想第一判定阈值满足：

其中，第一相关系数矩阵的基准数值满足：

然后执行步骤S202，对第一相关系数矩阵的某行相关系数进行判定。

在本实施例中，先对第一相关系数矩阵的第一行进行相关系数的判定，因为一个随机变量与其自身的相关系数值为1，因此，对于第一相关系数矩阵对角线处的元素不做判定。

在步骤S203中，判断某个相关系数值是否大于第一判定阈值，若该相关系数值大于第一判定阈值，认为对应的两个随机变量高度相关，进而执行步骤S209，将相对应的维数保存在第一维数矩阵中。

在本实施例中，以相关矩阵第一行的相关系数判定为例：

假设两个相关系数的数值大于第一判定阈值，则将对应的维数，即两个列向量，保存在第一维数矩阵中，即：

D＝[i,j] (4)

式中，D表示第一维数矩阵，i表示相关系数的第i列列向量，j表示相关系数的第j列列向量；

若相关系数的值小于第一判定阈值，则认为对应的两个随机变量之间的相关性较小，进而执行步骤S204，继续对第一行下一个相关系数进行判断。

在步骤S205中，如果某行相关系数没有全部判定完毕，则继续执行步骤S204，如果该行相关系数判定完毕，则执行步骤S206，继续执行下一行相关系数的判定，在该步骤中，为了保证任何两两相关的钻井参数维度变量里，有其中一个维度变量能保留在最终的相关系数矩阵中，阈值判定应该从该行所处的对角线元素为1的下一个相关系数元素开始。

在步骤S207中，判断所有行的相关系数是否判定完毕，如果没有判定完毕，则继续执行步骤S206，继续对下一行的相关系数进行判断；如果所有行的相关系数判定完毕，则执行步骤S208，去除第一维数矩阵中重复的相同元素，得到最终要去除的第二维数矩阵，执行步骤S208和步骤S209的目的，是为了得到一个最终要进行维数约简的第二维数矩阵。

在步骤S107中，根据高相关滤波法得到的第二维数矩阵表示为：

D2＝[x₁,x₂,x₃···x_j] (5)

其中，D2表示第二维数矩阵，X表示第二维数矩阵中的元素，j表示第二维数矩阵中元素的总个数。

将第二维数矩阵中元素所对应的列，从原始钻井工程数据和第一相关系数矩阵中去掉，得到初步降维后的第二相关系数矩阵，以及经过高相关滤波法降维的钻井工程参数数据矩阵。

执行完步骤S107后，执行步骤S108，使用主成分分析法(PCA法)对经过高相关滤波法维数约简后的钻井工程参数数据矩阵进行降维，其详细步骤由附图3示出。

如图3所示，为本发明所述的PCA法的具体流程图，首先设置主成分信息保留率的第二判定阈值，第二判定阈值满足：

其中，第二相关系数矩阵的基准数值满足：

在步骤S302中，对第二相关系数矩阵进行特征值分解，求特征值和特征向量，特征值和特征向量满足如下关系式：

Q·ξ＝λξ (6)

其中，λ表示特征值，ξ表示特征值对应的特征向量；

求得所有满足关系式(6)的特征值和对应的特征向量，并将其分别保存在特征值矩阵和特征向量矩阵里，即：

W＝[λ ₁λ₂ … λ_p] (7)

U＝[ξ₁ ξ₂ … ξ_p] (8)

其中，W表示特征值矩阵，U表示特征向量矩阵，P为特征值的个数。

根据求解出来的特征值矩阵，执行步骤S304，对特征值进行降序排序，得到降序后的特征值矩阵。

在本实施例中，假定特征值矩阵是经过降序排序好的特征值矩阵，而特征值向量矩阵是特征值矩阵经过降序排序后，根据特征值所对应的特征向量组成的特征矩阵。

在步骤S305中，求排序后的特征值的贡献率和累计贡献率，特征值的贡献率由下式进行求解，具体为：

其中，λ_i为某一个特征值，P为特征值的全部个数，con(i)表示该特征值的贡献率，即某个特征值的贡献率等于该特征值占全部特征值和的比重。

将某一个特征值的贡献率和排在其前面的所有特征值的贡献率相加，即可得到该特征值所对应的累计特征贡献率。

在步骤S306中，寻找第一个累积贡献率大于等于第二判定阈值的特征值，第二判定阈值的作用主要是用来决定选取特征值和对应得特征向量的个数，用于提取钻井工程参数数据矩阵中的主成分，以实现钻井工程参数数据矩阵的降维。

在步骤S307中，当找到了第一个累积贡献率大于第二判定阈值的特征值λ_j后，提取主成分对应的特征向量，即

Y＝[ξ₁ ξ₂ … ξj] (10)

其中，Y表示提取的特征向量矩阵，ξ_j为特征值λ_j所对应的特征向量，根据求得的特征向量矩阵，可以执行步骤S308，即根据提取的特征向量矩阵，求得降维后的最终数据：

N＝M·Y (11)

其中，N表示最终数据矩阵；M表示钻井工程参数数据矩阵；Y表示特征向量矩阵。

至此，步骤S109执行完毕，最终数据矩阵即是经过本发明所提供的，基于高相关滤波和主成分分析法降维后的钻井工程数据矩阵，可以将该矩阵进行保存以及用于后续的钻井工程数据处理分析工作。

本发明设计开发的基于高相关滤波算法和PCA算法的钻井数据降维方法，相对于单一的检测方法而言，能以较少的数据维度，保留住较多的原始数据特性的特点。并且能够有效地降低原始钻井工程数据的维度，以达到较好的数据降维效果，能够减低数据之间的信息冗余，降低原始数据的复杂度。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的实施例。

Claims

1.一种基于高相关滤波算法和PCA算法的钻井数据降维方法，其特征在于，包括如下步骤：

步骤1、获取钻井工程数据；

若为常量列，将常数列所处的维度去除；

若为非常量列，对所有非常量列的维度进行归一化处理；

2.如权利要求1所述的基于高相关滤波算法和PCA算法的钻井数据降维方法，其特征在于，所述高相关滤波算法包括如下步骤：

当T1≤0.5时，取T＝0.5；当T1＞0.5时，取T＝T1；

式中，T1表示理想第一判定阈值，T表示实际第一判定阈值；

所述理想第一判定阈值满足：

其中，第一相关系数矩阵的基准数值满足：

步骤2、对第一相关系数矩阵的第一行相关系数进行判定：

3.如权利要求2所述的基于高相关滤波算法和PCA算法的钻井数据降维方法，其特征在于，所述PCA算法包括如下步骤：

步骤4、对所有特征值求贡献率和累积贡献率；

步骤5、将特征值的累计贡献率与第二判定阈值进行比较，直至第一个累积贡献率大于等于第二判定阈值的特征值，提取该特征值之前的所有特征值，将提取的所有特征值对应的特征向量保存到特征向量矩阵中；

N＝M*Y；

4.如权利要求3所述的基于高相关滤波算法和PCA算法的钻井数据降维方法，其特征在于，所述常数列为所有样本均为固定值。

5.如权利要求4所述的基于高相关滤波算法和PCA算法的钻井数据降维方法，其特征在于，所述归一化处理是将各个维度上的样本值均转换到相同的数值区间范围内。

6.如权利要求5所述的基于高相关滤波算法和PCA算法的钻井数据降维方法，其特征在于，所述各维度间的相关系数满足：

式中，n表示样本量，

表示随机变量X的平均值，

7.如权利要求6所述的基于高相关滤波算法和PCA算法的钻井数据降维方法，其特征在于，所述相关系数矩阵为：

8.如权利要求7所述的基于高相关滤波算法和PCA算法的钻井数据降维方法，其特征在于，所述特征值的贡献率满足如下公式：

9.如权利要求8所述的基于高相关滤波算法和PCA算法的钻井数据降维方法，其特征在于，所述特征值的累计贡献率为所述特征值的贡献率和排在其前面的所有特征值的贡献率相加。

10.如权利要求3所述的基于高相关滤波算法和PCA算法的钻井数据降维方法，其特征在于，所述第二相关系数矩阵的基准数值满足：