CN110866551A - 一种基于高相关滤波算法和pca算法的钻井数据降维方法 - Google Patents

一种基于高相关滤波算法和pca算法的钻井数据降维方法 Download PDF

Info

Publication number
CN110866551A
CN110866551A CN201911076241.3A CN201911076241A CN110866551A CN 110866551 A CN110866551 A CN 110866551A CN 201911076241 A CN201911076241 A CN 201911076241A CN 110866551 A CN110866551 A CN 110866551A
Authority
CN
China
Prior art keywords
matrix
correlation
dimension
representing
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911076241.3A
Other languages
English (en)
Other versions
CN110866551B (zh
Inventor
沈文建
魏庆阳
毛敏
方振东
谢洪路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China France Bohai Geoservices Co Ltd
Original Assignee
China France Bohai Geoservices Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China France Bohai Geoservices Co Ltd filed Critical China France Bohai Geoservices Co Ltd
Priority to CN201911076241.3A priority Critical patent/CN110866551B/zh
Publication of CN110866551A publication Critical patent/CN110866551A/zh
Application granted granted Critical
Publication of CN110866551B publication Critical patent/CN110866551B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2133Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on naturality criteria, e.g. with non-negative factorisation or negative correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开一种基于高相关滤波算法和PCA算法的钻井数据降维方法,通过对获取的钻井工程数据进行常量列的判断;将常量列的维度进行去除,非常量列的维度进行归一化处理,归一化后的数据各个维度样本之间进行相关系数求解,将相关系数组成第一相关系数矩阵;将第一相关系数矩阵通过高相关滤波法进行降维,得到降维后的第二相关系数矩阵;将降维后的第二相关系数矩阵进行PCA法降维,得到降维后的钻井工程数据矩阵。本发明具有保留原始钻井数据的特点,降低数据之间的信息冗余的优点。

Description

一种基于高相关滤波算法和PCA算法的钻井数据降维方法
技术领域
本发明涉及石油勘探以及钻井工程领域,更具体的是,本发明涉及一种基于高相关滤波算法和PCA算法的钻井数据降维方法。
背景技术
目前,越来越多的石油单位将数字化、信息化的油田研究与建设提上了议程。由于钻井是石油行业总成本里占较大比重的一环,因此,勘探钻井科技的进一步研究与创新,对于控制钻井成本,提高开采效率,具有十分重要的意义。随着传感器技术和计算机技术的快速发展,大量的钻井参数数据可以被检测并记录,因此,油气钻井行业拥有越来越多的钻井参数数据。影响钻井速度的因素十分繁杂,一般在钻井现场,可以采集的钻井目标参数大约有30种,其包括井深、层位、悬重、钻压、扭矩、排量、钻时、钻速、泵压、气压测值、钻井液总量等等。鉴于钻井参数数量众多,且不同的钻井参数有着不同方面的特征体现,比如出口密度、入口密度、钻井液总量、钻井液变化量等都是钻井液性能指标,设计垂深、设计井深、井口坐标、井斜等参数为等下钻前需要决定好的参数,如果以钻速为优化设计目标的话,需要排除与钻速无关的参数和其他参数之间相关性比较大的参数,以减少数据之间的信息冗余度,降低钻井工程数据传输、存储的负担,单从人工经验来看,钻井液总量等钻井液性能指标参数是出于安全钻井的需要而设计的,并不是以提高钻井速度为目标;悬重等参数也看似和钻速无关,然而这些参数是否与钻速参数相关,以及参数与参数之间是否存在一定的关联性,都需要我们运用科学的方法进行分析、验证。
另外,从机器学习领域的角度来讲,在应用机器学习算法建立相应的模型时,面临的最大问题之一就是维度诅咒,维度的诅咒是指,当数据集中的特征参数维度很高时,某些机器学习算法可能表现不佳。如果以钻速为优化设计目标的话,需要建立其他钻井参数与钻速之间的相关预测模型,休斯效应指出,在训练样本的数量固定的情况下,模型的预测能力随着维度的增加而降低。因此,为达到一个很好的钻速模型预测的效果,也有必要对原始的钻井参数数据样本进行参数降维。
目前,在钻井工程参数领域,尚未公开有一种相关的专利方法,来对钻井参数数据进行降维,选择高效的钻井工程数据降维方法,能有效降低钻井工程参数的维数,减少数据之间的信息冗余度,对钻井工程数据的分析和挖掘利用具有十分重要的意义。
主成分分析算法(PCA),是一种统计方法,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分;高相关滤波算法和PCA算法能够将高维度的数据进行降维。
发明内容
本发明的目的是设计开发了一种基于高相关滤波算法和PCA算法的钻井数据降维方法,通过将高相关滤波算法和主成分分析算法两种参数约简方法相结合,能够有效地对钻井数据进行参数降维,减低数据之间的信息冗余。
本发明提供的技术方案为:
一种基于高相关滤波算法和PCA算法的钻井数据降维方法,包括如下步骤:
步骤1、获取钻井工程数据;
步骤2、对钻井工程数据的每一列进行循环判断是否为常量列:
若为常量列,将常数列所处的维度去除;
若为非常量列,对所有非常量列的维度进行归一化处理;
步骤3、对归一化后的数据各个维度样本之间进行相关系数求解,将相关系数组成第一相关系数矩阵;
步骤4、将第一相关系数矩阵通过高相关滤波算法进行降维,得到降维后的第二相关系数矩阵;
步骤5、将降维后的第二相关系数矩阵进行PCA算法降维,得到降维后的钻井工程数据矩阵。
优选的是,所述高相关滤波算法包括如下步骤:
步骤1、设定相关系数的实际第一判定阈值,实际第一判定阈值满足:
当T1≤0.5时,取T=0.5;当T1>0.5时,取T=T1;
式中,T1表示理想第一判定阈值,T表示实际第一判定阈值;
所述理想第一判定阈值满足:
Figure BDA0002262543760000031
式中,T1表示理想第一判定阈值,Ft表示高相关滤波算法的变量因子,t0表示第一相关系数矩阵的基准数值,ξ表示第一相关系数矩阵的权重系数;
其中,第一相关系数矩阵的基准数值满足:
Figure BDA0002262543760000032
式中,i1表示第一相关系数矩阵中的第i1行,i2表示第一相关系数矩阵中的第i2列,n1表示第一相关系数矩阵中的总行数,n2表示第一相关系数矩阵中的总列数,xi1表示第i1行的某个样本值,xi1+1表示样本值xi1后一行的样本值,yi1表示i1列的某个样本值,yi1+1表示样本值yi1后一列的样本值;
步骤2、对第一相关系数矩阵的第一行相关系数进行判定:
若某个相关系数值大于第一判定阈值,将相对应的维数保存在第一维数矩阵中;
若某个相关系数值小于第一判定阈值,对第一行下一个相关系数进行判断,直至第一行相关系数全部判定完毕;
步骤3、对第一相关系数矩阵的下一行进行相关系数判定,直至相关系数矩阵的所有行相关系数判定完成;
步骤4、去除第一维数矩阵中重复的相同元素,得到最终要去除的第二维数矩阵;
步骤5、将第二维数矩阵中元素所对应的列,从钻井工程数据和第一相关系数矩阵中去掉,得到最终降维后的第二相关系数矩阵,以及高相关滤波法降维的钻井工程参数数据矩阵。
优选的是,所述PCA算法包括如下步骤:
步骤1、设置主成分信息保留率的第二判定阈值,第二判定阈值满足:
Figure BDA0002262543760000041
式中,T2表示第二判定阈值,i3表示第二相关系数矩阵中的第i3行,i4表示第二相关系数矩阵中的第i4列,n3表示第二相关系数矩阵中的总行数,n4表示第二相关系数矩阵中的总列数,xi3表示第i3行的某个样本值,xi3+1表示样本值xi3后一行的样本值,yi4表示i4列的某个样本值,yi4+1表示样本值yi4后一列的样本值,k表示第二相关系数矩阵的总行数与总列数之比,χ表示PCA算法的变量因子,tp表示第二相关系数矩阵的基准数值,λ表示第二相关系数矩阵的权重系数,β表示第二相关系数矩阵的校正系数;Qi表示第二相关系数矩阵的维数;
步骤2、将第二相关系数矩阵进行特征值分解,得到满足条件的所有特征值和对应的特征向量;
步骤3、将所有的特征值按照降序排序保存在特征值矩阵中,特征向量按照与特征值相对应的保存在特征向量矩阵中;
步骤4、对所有特征值求贡献率和累积贡献率;
步骤5、将特征值的累计贡献率与第二判定阈值进行比较,直至第一个累积贡献率大于等于第二判定阈值的特征值λj,提取该特征值之前的所有特征值,将提取的所有特征值对应的特征向量保存到特征向量矩阵中;
步骤6、通过特征向量矩阵得到降维后的最终数据,满足如下公式:
N=M*Y;
式中,N表示降维后的钻井工程数据,Y表示提取的特征向量矩阵,M表示钻井工程参数数据矩阵。
优选的是,所述常数列为所有样本均为固定值。
优选的是,所述归一化处理是将各个维度上的样本值均转换到相同的数值区间范围内。
优选的是,所述各维度间的相关系数满足:
Figure BDA0002262543760000051
式中,n表示样本量,
Figure BDA0002262543760000052
表示随机变量X的平均值,
Figure BDA0002262543760000053
表示随机变量Y的平均值,Xi表示随机变量X的某个样本值,Yi表示随机变量Y的某个样本值;
其中,ρ的取值越接近于1时,说明两个随机变量的线性相关程度越大,呈正相关。
优选的是,所述相关系数矩阵为:
Figure BDA0002262543760000054
式中,P表示总的相关系数矩阵,n表示原始钻井工程数据总的维数,ρij表示维度i和维度j所代表的两个随机变量之间的相关系数。
优选的是,所述特征值的贡献率满足如下公式:
Figure BDA0002262543760000055
式中,λi为某一个特征值的大小,P为特征值的全部个数,con表示该特征值的贡献率。
优选的是,所述特征值的累计贡献率为所述特征值的贡献率和排在其前面的所有特征值的贡献率相加。
优选的是,所述第二相关系数矩阵的基准数值满足:
Figure BDA0002262543760000056
本发明所述的有益效果:
(1)本发明设计开发的基于高相关滤波算法和PCA算法的钻井数据降维方法,高相关滤算波和主成分分析算法两种参数约简方法相结合的方法,相对于单一的检测方法而言,能以较少的数据维度,保留住较多的原始数据特性的特点。
(2)本发明方法对含有多维数据的钻井数据进行双重降维,能有效地降低原始钻井工程数据的维度,以达到较好的数据降维效果,并且能够减低数据之间的信息冗余,降低原始数据的复杂度。
附图说明
图1为本发明所述基于高相关滤波算法和PCA算法的钻井数据降维方法的整体流程图。
图2为本发明所述高相关滤波算法的具体流程图。
图3为本发明所述PCA算法的具体流程图。
具体实施方式
下面结合对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
本发明提供一种基于高相关滤波算法和PCA算法的钻井数据降维方法,如图1所示,首先在步骤S101中先对获取的钻井工程数据的每一维度进行循环判断,判断某个维度是否为常量列,即判断该列的所有样本是否为一固定值,如果为固定值,则转向步骤S102,将该列所处的维度予以去除。
在步骤S103中,对剩余的非常量列的维度所重新组成的样本矩阵进行归一化处理,即将各个参数维度上的样本值都转换到相同的数值区间范围内,以避免各个维度的数据因为数量级不同,而给后续的求解相关系数和PCA降维带来影响。
在步骤S104中,使用如下公式计算相关系数:
Figure BDA0002262543760000071
其中,ρ表示相关系数,X和Y表示两个不同的随机变量,n表示样本量,
Figure BDA0002262543760000072
表示随机变量X的平均值,
Figure BDA0002262543760000073
表示随机变量Y的平均值,xi表示随机变量X的i个样本值,yi表示随机变量Y的i个样本值。
相关系数值反映的是两个随机变量之间的线性相关的关系,当相关系数的取值越接近于1时,说明两个随机变量的线性相关程度越大,并且呈正相关,任意一个随机变量与其自身的相关系数值为1。
计算完各个维度之间的相关系数后,将所得到的所有相关系数组成第一相关系数矩阵如下所示:
Figure BDA0002262543760000074
其中,P表示总的第一相关系数矩阵,n表示原始钻井工程数据总的维数,ρij表示维度i和维度j所代表的两个随机变量之间的相关系数。
求解得到第一相关系数矩阵后,进入到步骤S106中,使用高相关滤波算法进行钻井工程参数维度的约简,其详细步骤由附图2示出。
如图2所示,为本发明所述高相关滤波算法的具体流程图,首先设定相关系数的实际第一判定阈值,实际第一判定阈值满足:
当T1≤0.5时,取T=0.5;当T1>0.5时,取T=T1;
式中,T1表示理想第一判定阈值,T表示实际第一判定阈值;
所述理想第一判定阈值满足:
Figure BDA0002262543760000075
式中,T1表示理想第一判定阈值,Ft表示高相关滤波算法的变量因子,t0表示第一相关系数矩阵的基准数值,ξ表示第一相关系数矩阵的权重系数;
其中,第一相关系数矩阵的基准数值满足:
Figure BDA0002262543760000081
式中,i1表示第一相关系数矩阵中的第i1行,i2表示第一相关系数矩阵中的第i2列,n1表示第一相关系数矩阵中的总行数,n2表示第一相关系数矩阵中的总列数,xi1表示第i1行的某个样本值,xi1+1表示样本值xi1后一行的样本值,yi1表示i1列的某个样本值,yi1+1表示样本值yi1后一列的样本值;
然后执行步骤S202,对第一相关系数矩阵的某行相关系数进行判定。
在本实施例中,先对第一相关系数矩阵的第一行进行相关系数的判定,因为一个随机变量与其自身的相关系数值为1,因此,对于第一相关系数矩阵对角线处的元素不做判定。
在步骤S203中,判断某个相关系数值是否大于第一判定阈值,若该相关系数值大于第一判定阈值,认为对应的两个随机变量高度相关,进而执行步骤S209,将相对应的维数保存在第一维数矩阵中。
在本实施例中,以相关矩阵第一行的相关系数判定为例:
假设两个相关系数的数值大于第一判定阈值,则将对应的维数,即两个列向量,保存在第一维数矩阵中,即:
D=[i,j] (4)
式中,D表示第一维数矩阵,i表示相关系数的第i列列向量,j表示相关系数的第j列列向量;
若相关系数的值小于第一判定阈值,则认为对应的两个随机变量之间的相关性较小,进而执行步骤S204,继续对第一行下一个相关系数进行判断。
在步骤S205中,如果某行相关系数没有全部判定完毕,则继续执行步骤S204,如果该行相关系数判定完毕,则执行步骤S206,继续执行下一行相关系数的判定,在该步骤中,为了保证任何两两相关的钻井参数维度变量里,有其中一个维度变量能保留在最终的相关系数矩阵中,阈值判定应该从该行所处的对角线元素为1的下一个相关系数元素开始。
在步骤S207中,判断所有行的相关系数是否判定完毕,如果没有判定完毕,则继续执行步骤S206,继续对下一行的相关系数进行判断;如果所有行的相关系数判定完毕,则执行步骤S208,去除第一维数矩阵中重复的相同元素,得到最终要去除的第二维数矩阵,执行步骤S208和步骤S209的目的,是为了得到一个最终要进行维数约简的第二维数矩阵。
在步骤S107中,根据高相关滤波法得到的第二维数矩阵表示为:
D2=[x1,x2,x3···xj] (5)
其中,D2表示第二维数矩阵,X表示第二维数矩阵中的元素,j表示第二维数矩阵中元素的总个数。
将第二维数矩阵中元素所对应的列,从原始钻井工程数据和第一相关系数矩阵中去掉,得到初步降维后的第二相关系数矩阵,以及经过高相关滤波法降维的钻井工程参数数据矩阵。
执行完步骤S107后,执行步骤S108,使用主成分分析法(PCA法)对经过高相关滤波法维数约简后的钻井工程参数数据矩阵进行降维,其详细步骤由附图3示出。
如图3所示,为本发明所述的PCA法的具体流程图,首先设置主成分信息保留率的第二判定阈值,第二判定阈值满足:
Figure BDA0002262543760000091
式中,T2表示第二判定阈值,i3表示第二相关系数矩阵中的第i3行,i4表示第二相关系数矩阵中的第i4列,n3表示第二相关系数矩阵中的总行数,n4表示第二相关系数矩阵中的总列数,xi3表示第i3行的某个样本值,xi3+1表示样本值xi3后一行的样本值,yi4表示i4列的某个样本值,yi4+1表示样本值yi4后一列的样本值,k表示第二相关系数矩阵的总行数与总列数之比,χ表示PCA算法的变量因子,tp表示第二相关系数矩阵的基准数值,λ表示第二相关系数矩阵的权重系数,β表示第二相关系数矩阵的校正系数;Qi表示第二相关系数矩阵的维数;
其中,第二相关系数矩阵的基准数值满足:
Figure BDA0002262543760000101
在步骤S302中,对第二相关系数矩阵进行特征值分解,求特征值和特征向量,特征值和特征向量满足如下关系式:
Q·ξ=λξ (6)
其中,λ表示特征值,ξ表示特征值对应的特征向量;
求得所有满足关系式(6)的特征值和对应的特征向量,并将其分别保存在特征值矩阵和特征向量矩阵里,即:
W=[λ 1λ2 … λp] (7)
U=[ξ1 ξ2 … ξp] (8)
其中,W表示特征值矩阵,U表示特征向量矩阵,P为特征值的个数。
根据求解出来的特征值矩阵,执行步骤S304,对特征值进行降序排序,得到降序后的特征值矩阵。
在本实施例中,假定特征值矩阵是经过降序排序好的特征值矩阵,而特征值向量矩阵是特征值矩阵经过降序排序后,根据特征值所对应的特征向量组成的特征矩阵。
在步骤S305中,求排序后的特征值的贡献率和累计贡献率,特征值的贡献率由下式进行求解,具体为:
Figure BDA0002262543760000102
其中,λi为某一个特征值,P为特征值的全部个数,con(i)表示该特征值的贡献率,即某个特征值的贡献率等于该特征值占全部特征值和的比重。
将某一个特征值的贡献率和排在其前面的所有特征值的贡献率相加,即可得到该特征值所对应的累计特征贡献率。
在步骤S306中,寻找第一个累积贡献率大于等于第二判定阈值的特征值,第二判定阈值的作用主要是用来决定选取特征值和对应得特征向量的个数,用于提取钻井工程参数数据矩阵中的主成分,以实现钻井工程参数数据矩阵的降维。
在步骤S307中,当找到了第一个累积贡献率大于第二判定阈值的特征值λj后,提取主成分对应的特征向量,即
Y=[ξ1 ξ2 … ξj] (10)
其中,Y表示提取的特征向量矩阵,ξj为特征值λj所对应的特征向量,根据求得的特征向量矩阵,可以执行步骤S308,即根据提取的特征向量矩阵,求得降维后的最终数据:
N=M·Y (11)
其中,N表示最终数据矩阵;M表示钻井工程参数数据矩阵;Y表示特征向量矩阵。
至此,步骤S109执行完毕,最终数据矩阵即是经过本发明所提供的,基于高相关滤波和主成分分析法降维后的钻井工程数据矩阵,可以将该矩阵进行保存以及用于后续的钻井工程数据处理分析工作。
本发明设计开发的基于高相关滤波算法和PCA算法的钻井数据降维方法,相对于单一的检测方法而言,能以较少的数据维度,保留住较多的原始数据特性的特点。并且能够有效地降低原始钻井工程数据的维度,以达到较好的数据降维效果,能够减低数据之间的信息冗余,降低原始数据的复杂度。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的实施例。

Claims (10)

1.一种基于高相关滤波算法和PCA算法的钻井数据降维方法,其特征在于,包括如下步骤:
步骤1、获取钻井工程数据;
步骤2、对钻井工程数据的每一列进行循环判断是否为常量列:
若为常量列,将常数列所处的维度去除;
若为非常量列,对所有非常量列的维度进行归一化处理;
步骤3、对归一化后的数据各个维度样本之间进行相关系数求解,将相关系数组成第一相关系数矩阵;
步骤4、将第一相关系数矩阵通过高相关滤波算法进行降维,得到降维后的第二相关系数矩阵;
步骤5、将降维后的第二相关系数矩阵进行PCA算法降维,得到降维后的钻井工程数据矩阵。
2.如权利要求1所述的基于高相关滤波算法和PCA算法的钻井数据降维方法,其特征在于,所述高相关滤波算法包括如下步骤:
步骤1、设定相关系数的实际第一判定阈值,实际第一判定阈值满足:
当T1≤0.5时,取T=0.5;当T1>0.5时,取T=T1;
式中,T1表示理想第一判定阈值,T表示实际第一判定阈值;
所述理想第一判定阈值满足:
Figure FDA0002262543750000011
式中,T1表示理想第一判定阈值,Ft表示高相关滤波算法的变量因子,t0表示第一相关系数矩阵的基准数值,ξ表示第一相关系数矩阵的权重系数;
其中,第一相关系数矩阵的基准数值满足:
Figure FDA0002262543750000021
式中,i1表示第一相关系数矩阵中的第i1行,i2表示第一相关系数矩阵中的第i2列,n1表示第一相关系数矩阵中的总行数,n2表示第一相关系数矩阵中的总列数,xi1表示第i1行的某个样本值,xi1+1表示样本值xi1后一行的样本值,yi1表示i1列的某个样本值,yi1+1表示样本值yi1后一列的样本值;
步骤2、对第一相关系数矩阵的第一行相关系数进行判定:
若某个相关系数值大于第一判定阈值,将相对应的维数保存在第一维数矩阵中;
若某个相关系数值小于第一判定阈值,对第一行下一个相关系数进行判断,直至第一行相关系数全部判定完毕;
步骤3、对第一相关系数矩阵的下一行进行相关系数判定,直至相关系数矩阵的所有行相关系数判定完成;
步骤4、去除第一维数矩阵中重复的相同元素,得到最终要去除的第二维数矩阵;
步骤5、将第二维数矩阵中元素所对应的列,从钻井工程数据和第一相关系数矩阵中去掉,得到最终降维后的第二相关系数矩阵,以及高相关滤波法降维的钻井工程参数数据矩阵。
3.如权利要求2所述的基于高相关滤波算法和PCA算法的钻井数据降维方法,其特征在于,所述PCA算法包括如下步骤:
步骤1、设置主成分信息保留率的第二判定阈值,第二判定阈值满足:
Figure FDA0002262543750000022
式中,T2表示第二判定阈值,i3表示第二相关系数矩阵中的第i3行,i4表示第二相关系数矩阵中的第i4列,n3表示第二相关系数矩阵中的总行数,n4表示第二相关系数矩阵中的总列数,xi3表示第i3行的某个样本值,xi3+1表示样本值xi3后一行的样本值,yi4表示i4列的某个样本值,yi4+1表示样本值yi4后一列的样本值,k表示第二相关系数矩阵的总行数与总列数之比,χ表示PCA算法的变量因子,tp表示第二相关系数矩阵的基准数值,λ表示第二相关系数矩阵的权重系数,β表示第二相关系数矩阵的校正系数;Qi表示第二相关系数矩阵的维数;
步骤2、将第二相关系数矩阵进行特征值分解,得到满足条件的所有特征值和对应的特征向量;
步骤3、将所有的特征值按照降序排序保存在特征值矩阵中,特征向量按照与特征值相对应的保存在特征向量矩阵中;
步骤4、对所有特征值求贡献率和累积贡献率;
步骤5、将特征值的累计贡献率与第二判定阈值进行比较,直至第一个累积贡献率大于等于第二判定阈值的特征值,提取该特征值之前的所有特征值,将提取的所有特征值对应的特征向量保存到特征向量矩阵中;
步骤6、通过特征向量矩阵得到降维后的最终数据,满足如下公式:
N=M*Y;
式中,N表示降维后的钻井工程数据,Y表示提取的特征向量矩阵,M表示钻井工程参数数据矩阵。
4.如权利要求3所述的基于高相关滤波算法和PCA算法的钻井数据降维方法,其特征在于,所述常数列为所有样本均为固定值。
5.如权利要求4所述的基于高相关滤波算法和PCA算法的钻井数据降维方法,其特征在于,所述归一化处理是将各个维度上的样本值均转换到相同的数值区间范围内。
6.如权利要求5所述的基于高相关滤波算法和PCA算法的钻井数据降维方法,其特征在于,所述各维度间的相关系数满足:
Figure FDA0002262543750000031
式中,n表示样本量,
Figure FDA0002262543750000032
表示随机变量X的平均值,
Figure FDA0002262543750000033
表示随机变量Y的平均值,Xi表示随机变量X的某个样本值,Yi表示随机变量Y的某个样本值;
其中,ρ的取值越接近于1时,说明两个随机变量的线性相关程度越大,呈正相关。
7.如权利要求6所述的基于高相关滤波算法和PCA算法的钻井数据降维方法,其特征在于,所述相关系数矩阵为:
Figure FDA0002262543750000041
式中,P表示总的相关系数矩阵,n表示原始钻井工程数据总的维数,ρij表示维度i和维度j所代表的两个随机变量之间的相关系数。
8.如权利要求7所述的基于高相关滤波算法和PCA算法的钻井数据降维方法,其特征在于,所述特征值的贡献率满足如下公式:
Figure FDA0002262543750000042
式中,λi为某一个特征值的大小,P为特征值的全部个数,con表示该特征值的贡献率。
9.如权利要求8所述的基于高相关滤波算法和PCA算法的钻井数据降维方法,其特征在于,所述特征值的累计贡献率为所述特征值的贡献率和排在其前面的所有特征值的贡献率相加。
10.如权利要求3所述的基于高相关滤波算法和PCA算法的钻井数据降维方法,其特征在于,所述第二相关系数矩阵的基准数值满足:
Figure FDA0002262543750000043
CN201911076241.3A 2019-11-06 2019-11-06 一种基于高相关滤波算法和pca算法的钻井数据降维方法 Active CN110866551B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911076241.3A CN110866551B (zh) 2019-11-06 2019-11-06 一种基于高相关滤波算法和pca算法的钻井数据降维方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911076241.3A CN110866551B (zh) 2019-11-06 2019-11-06 一种基于高相关滤波算法和pca算法的钻井数据降维方法

Publications (2)

Publication Number Publication Date
CN110866551A true CN110866551A (zh) 2020-03-06
CN110866551B CN110866551B (zh) 2022-11-15

Family

ID=69653254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911076241.3A Active CN110866551B (zh) 2019-11-06 2019-11-06 一种基于高相关滤波算法和pca算法的钻井数据降维方法

Country Status (1)

Country Link
CN (1) CN110866551B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111980688A (zh) * 2020-09-01 2020-11-24 中国石油集团渤海钻探工程有限公司 一种基于集成学习算法的井斜角度预测方法
CN115730592A (zh) * 2022-11-30 2023-03-03 贵州电网有限责任公司信息中心 电网冗余数据剔除方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544499A (zh) * 2013-10-12 2014-01-29 江南大学 一种基于机器视觉的表面瑕疵检测的纹理特征降维方法
CN107273917A (zh) * 2017-05-26 2017-10-20 电子科技大学 一种基于并行化主成分分析算法的数据降维方法
CN108537288A (zh) * 2018-04-19 2018-09-14 辽宁大学 一种基于互信息的实时特征提取方法
CN108564116A (zh) * 2018-04-02 2018-09-21 深圳市安软慧视科技有限公司 一种摄像头场景图像的成分智能分析方法
CN109190979A (zh) * 2018-09-03 2019-01-11 深圳市智物联网络有限公司 一种工业物联网数据分析方法、系统及相关设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544499A (zh) * 2013-10-12 2014-01-29 江南大学 一种基于机器视觉的表面瑕疵检测的纹理特征降维方法
CN107273917A (zh) * 2017-05-26 2017-10-20 电子科技大学 一种基于并行化主成分分析算法的数据降维方法
CN108564116A (zh) * 2018-04-02 2018-09-21 深圳市安软慧视科技有限公司 一种摄像头场景图像的成分智能分析方法
CN108537288A (zh) * 2018-04-19 2018-09-14 辽宁大学 一种基于互信息的实时特征提取方法
CN109190979A (zh) * 2018-09-03 2019-01-11 深圳市智物联网络有限公司 一种工业物联网数据分析方法、系统及相关设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AIU76089: "数据分析领域中最为人称道的七种降维方法", 《HTTPS://BLOG.CSDN.NET/AIU76089/ARTICLE/DETAILS/102054196?SPM=1001.2014.3001.5501》 *
单燕: "数据流降维算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111980688A (zh) * 2020-09-01 2020-11-24 中国石油集团渤海钻探工程有限公司 一种基于集成学习算法的井斜角度预测方法
CN111980688B (zh) * 2020-09-01 2021-11-23 中国石油集团渤海钻探工程有限公司 一种基于集成学习算法的井斜角度预测方法
CN115730592A (zh) * 2022-11-30 2023-03-03 贵州电网有限责任公司信息中心 电网冗余数据剔除方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110866551B (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
Filzmoser et al. Outlier identification in high dimensions
CN107122861B (zh) 一种基于pca-pso-elm的瓦斯涌出量预测方法
EP1370983B1 (en) Image retrieval using distance measure
CN110866551B (zh) 一种基于高相关滤波算法和pca算法的钻井数据降维方法
CN110807544B (zh) 一种基于机器学习的油田剩余油饱和度分布的预测方法
CN110674865B (zh) 面向软件缺陷类分布不平衡的规则学习分类器集成方法
CN110493221B (zh) 一种基于聚簇轮廓的网络异常检测方法
CN112668688B (zh) 一种入侵检测方法、系统、设备及可读存储介质
CN112633328A (zh) 一种基于深度学习的致密油藏改造效果评价方法
CN111472765A (zh) 目标井的地层划分方法和装置
EP2909656A2 (en) System, method and computer program product for multivariate statistical validation of well treatment and stimulation data
CN112800590B (zh) 一种机器学习辅助的两相流油藏随机建模的网格粗化方法
CN107220346B (zh) 一种高维不完整数据特征选择方法
Dutta et al. Value of information of time-lapse seismic data by simulation-regression: comparison with double-loop Monte Carlo
CN115809411A (zh) 一种基于测井数据的改进型决策树岩性识别方法
CN116432891A (zh) 一种钻头应用效能的综合评估方法及系统
CN112149311B (zh) 一种基于数量规约的非线性多元统计回归测井曲线预测方法
CN103488997B (zh) 基于各类重要波段提取的高光谱图像波段选择方法
CN110956388A (zh) 一种海上油气藏增产方案生成方法
CN114282585A (zh) 基于天文光谱数据的离群天体分类方法
CN111488903A (zh) 基于特征权重的决策树特征选择方法
Tsang Enhancement of a genetic algorithm for affine invariant planar object shape matching using the migrant principle
CN113378165B (zh) 一种基于Jaccard系数的恶意样本相似性判定方法
CN113515623B (zh) 基于词频差值因子的特征选择方法
CN113377911B (zh) 一种文本信息提取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant