CN113378469B - 一种基于卡尔曼滤波与支持向量机的测井曲线预测方法 - Google Patents
一种基于卡尔曼滤波与支持向量机的测井曲线预测方法 Download PDFInfo
- Publication number
- CN113378469B CN113378469B CN202110686961.2A CN202110686961A CN113378469B CN 113378469 B CN113378469 B CN 113378469B CN 202110686961 A CN202110686961 A CN 202110686961A CN 113378469 B CN113378469 B CN 113378469B
- Authority
- CN
- China
- Prior art keywords
- state
- matrix
- curve
- establishing
- transformation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000001914 filtration Methods 0.000 title claims abstract description 19
- 238000012706 support-vector machine Methods 0.000 title claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims abstract description 77
- 230000009466 transformation Effects 0.000 claims abstract description 49
- 230000007704 transition Effects 0.000 claims abstract description 46
- 239000013598 vector Substances 0.000 claims abstract description 36
- 238000005070 sampling Methods 0.000 claims abstract description 21
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 55
- 230000008569 process Effects 0.000 claims description 16
- 238000012546 transfer Methods 0.000 claims description 7
- 230000001174 ascending effect Effects 0.000 claims description 6
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 241000764238 Isis Species 0.000 claims description 3
- 238000003491 array Methods 0.000 claims description 3
- 238000005309 stochastic process Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000007689 inspection Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 4
- 238000005553 drilling Methods 0.000 description 3
- 238000005315 distribution function Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 102100027611 Rho-related GTP-binding protein RhoB Human genes 0.000 description 1
- 101150054980 Rhob gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 108010051489 calin Proteins 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
- G06T11/203—Drawing of straight lines or curves
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Operations Research (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及一种基于卡尔曼滤波与支持向量机的测井曲线预测方法,包括以下步骤:首先选择足够数量的完备井作为标准井,并对测井曲线进行标准化采样处理,建立状态空间模型,其次,基于熵离散化测井曲线,建立状态迁移变换矩阵和服从高斯分布的概率密度函数,接着,基于支持向量回归方法建立三次多项式非线性观测函数,并建立服从高斯分布的概率密度函数,最后,基于状态空间模型和卡尔曼滤波算法预测测井曲线。本发明方法具有快速有效、预测测井曲线准确性更高的优点,有效解决了常规利用回归方法无法有效预测测井曲线空间序列所蕴含的特征和结构等问题。
Description
技术领域:
本发明涉及油气井的测井曲线数据预测方法,尤其是一种快速有效、预测准确性更高的的基于卡尔曼滤波与支持向量机的测井曲线预测方法。
背景技术:
随着油气开采技术的不断进步,在钻井过程中一般采用专业设备测量采集包括声波曲线AC、自然伽马曲线GR、中子曲线CNL、电阻率曲线RT、井径曲线CAL等相关测井曲线数据,以便后期对油气田所处区域地质结构、油气储层以及油气开采研究提供基础数据。然而,一个油气田的老井,可能没有获取收集测井曲线数据,或者由于技术条件限制,获取收集的测井曲线数据不全,又由于老井在钻井过程中,都基本采用三层套管,套管之间采用砼浇筑,在钻井过程中没有采集的测井曲线数据,后期无法再进行采集。面对如此情况,现在一般基于测井曲线完备的井使用回归方法建立预测模型,实现对缺失曲线的预测,然而这些预测模型没有太多地关注测井曲线作为空间序列所蕴含的特征与结构,预测效果不是特别的理想,因此需要一种更加有效的方法提高预测缺失测井曲线的准确性。
发明内容:
为了解决上述技术问题,本发明提供了一种基于卡尔曼滤波与支持向量机的测井曲线预测方法,包括以下步骤:
(1)选择足够数量的完备井为标准井,并对测井曲线进行标准化采样处理。标准井的曲线被划分为两组,一组对应目标井中缺失的,需要进行预测的曲线列表,设为X,另一组对应目标井中已知的,作为预测参数的曲线列表,设为Y。X与Y是2维数组,每列代表一条曲线,每行代表每条曲线的一个采样点,X与Y的行数必须相同,但列数可以不同,Y的列数要大于或等于X的列数。X与Y的每行代表一个特征向量,特征向量的值为在一定值域范围内的连续变量。
所述标准井为测井曲线较全的完备井,这些完备井的测井曲线为常规测井曲线,常规测井曲线是指声波曲线AC、自然伽马曲线GR、中子曲线CNL、电阻率曲线RT、井径曲线CAL等具体测井曲线;缺失井与标准井相比,缺少我们需要的曲线,设此曲线为X。
(2)建立状态空间模型。状态空间模型是动态时域模型,以隐含着的时间为自变量。使用标准井的两组曲线X、Y建立状态空间模型,如式(1)和式(2)所示:
Xt=ft(Xt-1)+Qt (1)
Yt=ot(Xt)+Rt (2)
其中,t代表时序指标,也就是测井曲线的采样位置指标,Xt代表X曲线列表的第t个采样点特征向量,一个特征向量就代表一种状态;ft为状态转移函数,代表从第t-1个采样点的状态向地第t个采样点的状态转移的规律;ot为观测函数,代表从状态Xt观测到Yt的规律;Yt代表Y曲线列表第t个采样点的特征向量;Qt,Rt是服从于零均值正态分布的扰动向量,Qt代表状态转移规律的随机性,Rt代表观测规律的随机性。建立状态空间模型的目标是利用标准井的两组曲线X和Y作为样本,通过某种方法推断或生成函数ft、ot、以及随机变量Qt、Rt分布函数。
将方程(1)称为“状态”或“转移”方程(2)称为“信号”或“测量”方程。扰动向量,Qt,Rt,ft,ot被称为系统矩阵。系统矩阵Qt、Rt、ft、ot可以依赖于一个未知参数的集合。状态空间模型的一个主要的任务就是估计这些参数。为了便于表述,设θ=(Qt、Rt、ft、ot)为模型的参数。基于状态空间模型,任何测井曲线预测工作可表述为:在给定模型参数θ及批量观测数据y={yt-n+1,yt-n+2,...,yt-1,yt}的条件下,求模型的状态序列x={xt-n+1,xt-n+2,...,xt-1,xt},其中n为批量观测数据y的长度。基于贝叶斯框架,可建立随机变量Xt的后验概率密度函数p(Xt|y,θ)=c*p(y|Xt,θ)*p(Xt|θ),在此后验概率密度函数p(Xt|y,θ)确定之后,建立随机序列X={Xt-n+1,Xt-n+2,...,Xt-1,Xt}的联合后验概率密度函数:p(X|Y,θ)=p(Xt-n+1Xt -n+2,...,Xt-1,Xt|Y,θ)=p(Xt-n+1|Y,θ)p(Xt-n+2|Xt-n+1,Y,θ)p(Xt-n+3|Xt-n+2,Y,θ)...p(Xt|Xt-1,Y,θ)。
(3)基于熵离散化测井曲线。
由于Xt表示的特征值是连续变量,代表了无限的状态空间,使用有限的样本推断或生成连续状态转移函数ft特别困难,使用有限的离散化状态空间可以极大地降低推断或生成状态转移函数的难度,基于离散状态的状态空间模型可调整为如下式(3)至式(6):
St=S(Xt) (3)
St=Ft(St-1) (4)
Xt=Ft(S-1(st-1))+Qt (5)
Yt=ot(Xt)+Rt (6)
其中,St为第t个连续型特征值(连续状态)对应的离散型特征值(离散状态),S为基于熵的离散化函数,代表从连续状态到离散状态的转换,S-1为逆离散化函数,代表从离散状态到连续状态的转换,Ft为离散状态转移函数,称为状态转移矩阵。任何离散化都会有信息的损失,基于熵的离散化可以最大地保留原始数据的有效信息,损失无效信息。基于熵的离散化是一种监督的、自顶向下的分裂技术。它在计算和确定分裂点时利用数据的分布信息。例如,为了离散化属性A,该方法选择A中最小熵的值作为分裂点,并递归地划分结果区间,得到分层离散化。
为了度量某一划分之后得到完全的分类还需要信息,引入期望信息需求的概念,期望信息需求由下式给出:其中D1和D2分别对应于D中满足条件A≤split_point和A≥split_point的元组,|D|是D中的元组的个数,如此等等。集合中的熵函数根据下式来计算,假设集合D1中的元素分别属于m个类,它们分别为C1,C2,...,Cm,D1的熵是其中,pi是D1中元组属于Ci的概率,由D1中的Ci类元组数除以D1中的元组总数|D1|确定。这样在选择属性A的分裂点时,我们希望产生使得期望信息需求最小的属性值split_point作为分裂点,使得用A≤split_point和A>split_point划分之后,对元组完全分类还需要的信息量最小。确定分裂点的过程递归地作用于所得到的每个划分,直到满足某个终止标准,如当所有候选点上的最小信息需求小于一个阈值,或者当区间的个数大于阈值max_interval时终止。本发明方法把上述基于熵离散化样本数据过程记为S()。设Xt=ft(Xt-1)+Qt,其中Xt∈Rn为模型状态,R为实数,n为状态Xt的维度,如我们需要同时预测声波曲线AC、自然伽马曲线GR、中子曲线CNL,可令n=3,Xt∈R3,其中为声波曲线AC,为自然伽马曲线GR,为中子曲线CNL。
(4)建立状态迁移变换矩阵。
根据式(3)对连续状态Xt进行离散化后,得到状态空间{1、2、3...k},St∈{1、2、3...k}为状态空间的一个状态,k为大于1的整数,根据式(3)的逆变换可得其中S为基于熵离散化样本数据的函数,称为离散化变换,S-1为离散化逆变换。根据式(3)、式(4)和式(5)可得式(7)
用{St}表示建立在状态空间{1、2、3...k}上的平稳马尔可夫链随机过程,Ft为随机过程{St}的状态迁移变换矩阵,是一个与时间无关的变换方阵,因此Ft可写为F,F是一个k阶方阵,是一个马尔可夫链状态迁移概率矩阵,Fij矩阵F中的一个元素,代表从状态i向状态j转移的概率。建立状态迁移变换矩阵F的过程就是使用标准井的曲线列表X分组,首先用离散化变换S对样本进行离散化处理,即{st}=S(X),其中{st}为样本数据的离散状态序列,作为马尔可夫链状态迁移概率矩阵F的统计数据样本,统计出F的每个元素Fii=P(st=j|st-1=i),其中P(st=j|st-1=i)表示在第t-1个状态为i的条件下第t个状态为j的概率。
(5)为状态残差随机变量建立服从高斯分布的概率密度函数。
根据式(7)可得其中Qt为状态残差随机变量,由于St-1为离散随机变量,St=Ft(St-1)亦为离散随机变量,作为状态St的对应连续随机变量Xt的期望值,把Xt看作k维高斯分布,即其中ε2为Xt的协方差阵,是一个k阶方阵,因为所以Qt也为k维高斯分布,即得到式(8):
Qt~N(0,ε2) (8)
其中0为其均值,ε2为其协方差阵,与Xt的协方差阵相同。根据充分的样本数据{xt}与步骤(1)和步骤(2)中建立的状态迁移变换矩阵F、离散化变换S以及离散化逆变换S-1,计算得到数据残差序列{qt},其中qt=xt-S-1(st),st=S(xt),即qt=xt-S-1(S(xt)),即{qt}={xt-S-1(S(xt))}。因为{qt}为充分的样本数据,又因Qt~N(0,ε2),可根据{qt}方便地统计推断出ε2。
(6)基于支持向量回归方法建立三次多项式非线性观测函数。
支持向量回归(support vector regression)简称SVR,是SVM(支持向量机support vector machine)对回归问题的一种运用。根据式(6)状态空间模型观测函数Yt=ot(Xt)+Rt,其中ot,代表状态观测函数,令即得{xt}为样本中得状态数据序列,{yt}为对应得观测数据序列,{xt}与{yt}组成状态观测对序列{(xtyt)},使用SVR可以从{(xt,yt)}学习出ot。学习得过程如下:1)对Xt进行升维处理,即把原有得n元1次的随机变量升维为n元3次随机变量;假如令Xt为2维随机变量,即设升级后的随机变量为即即为9维向量;设Yt为4维的随机变量,显然Rt亦同为4为向量,本发明方法把其中的ot看作线性变换,即ot为4行9列的矩阵,记为W,即称W为观测矩阵。因此样本数据{(xt,yt)}可表示为即可根据样本数据可建立SVR的目标函数其中即目标函数为式(9):
其中|W|为矩阵W行向量的模的和,c为正则化因子。通过SVR学习方法,求得W。
(7)为观测误差随机变量建立服从高斯分布的概率密度函数。
Rt~N(0,μ2) (10)
其中,0为其均值,ε2为其协方差阵,与Yt的协方差阵相同。根据充分的样本数据{yt}与步骤(2)~步骤(5)中建立的状态迁移变换矩阵F、离散化变换S、离散化逆变换S-1以及观测矩阵W,计算得到观测数据残差序列{rt},其中 为从样本状态数据xt升维得到的数据,即即因为{rt}为充分的样本数据,又因Rt~N(0,μ2),可根据{rt}方便地统计推断出μ2。(8)基于状态空间模型利用卡尔曼滤波算法进行测井曲线预测。
状态空间模型为:Xt=ft(Xt-1)+Qt,Yt=ot(Xt)+Rt,本发明方法把其中的Xt、Qt、Yt、Rt看作服从于高斯分布的随机向量,把ot()看作非线性变换矩阵,又根据步骤(6),低维的非线性变换转变为高维的线性变换,因此模型为升维的线性高斯状态空间模型,通过前面的步骤与计算,ft、Qt、Rt,ot为已知量,把缺失井的相应的源曲线作为Yt的输入参数,调用卡尔曼滤波算法,可求解状态序列即为目标预测曲线。
本发明的基于卡尔曼滤波与支持向量机的测井曲线预测方法特点是:本方法运用状态空间模型与支持向量机等机器学习技术建立预测模型,并把低维的非线性高斯状态空间模型通过多项式升维,变为线性高斯状态空间模型,最后调用卡尔曼滤波算法对缺失的测井曲线进行预测。
本发明与上述背景技术相比较可具有如下有益效果:
(1)常规做法是基于测井曲线完备的井使用回归方法建立预测模型,实现对缺失曲线的预测这些预测模型,但没有太多地关注测井曲线作为空间序列所蕴含的特征与结构,预测效果不理想。
(2)将本发明“一种基于卡尔曼滤波与支持向量机的测井曲线预测方法”应用于测井曲线预测中,包含所要预测的缺失曲线的井(称为缺失井)和与这些井所处同一油气田的至少一口测井曲线完备的井(称为完备井),己知完备井的多条测井曲线,运用线性高斯模型与支持向量机等机器学习技术建立预测模型,并把低维的非线性高斯状态空间模型通过多项式升维,变为线性高斯状态空间模型,然后利用该预测模型和己知完备井的测井曲线调用卡尔曼滤波算法对缺失井进行测井曲线预测。
附图说明:
图1为本发明的完备井实测的声波曲线和预测的声波曲线示意图。
图2为本发明的缺失井的待预测的声波曲线示意图。
具体实施方式:
下面结合附图及实施例对本发明作进一步说明:
为使本发明的目的、技术方案和优点更加清楚,下面将以大庆探区松辽盆地古龙凹陷为例,结合附图对本发明实施方式作进一步地详细描述。
一种基于卡尔曼滤波与支持向量机的测井曲线预测方法,包括以下步骤:
(1)工区内选择足够数量的完备井为标准井,本例中选择213口,并对测井曲线进行标准化采样处理。标准井的曲线被划分为两组,一组对应目标井中缺失的,需要进行预测的曲线列表,设为X,另一组对应目标井中现存的,作为预测参数的曲线列表,设为Y。X与Y是2维数组,每列代表一条曲线,每行代表每条曲线的一个采样点,X与Y的行数必须相同,但列数可以不同,Y的列数要大于或等于X的列数。X与Y的每行代表一个特征向量,特征向量的值为在一定值域范围内的连续变量。
所述标准井为测井曲线较全的完备井,这些完备井的测井曲线为常规测井曲线,常规测井曲线是指声波曲线AC、自然伽马曲线GR、中子曲线CNL、电阻率曲线RT、井径曲线CAL等具体测井曲线;缺失井与标准井相比,缺少我们需要的曲线,设此曲线为X。
本例中,所用的输入Y=[RHOB、CALI、GR、LLD];输出为X=ttt(DT),ttt为声波测井曲线DT,用有声波曲线的井建立了基于卡尔曼滤波与支持向量机的预测模型。
(2)建立状态空间模型。状态空间模型是动态时域模型,以隐含着的时间为自变量。使用标准井的两组曲线X、Y建立状态空间模型的数学表达式(1)、(2)所示。
Xt=ft(Xt-1)+Qt (1)
Yt=ot(Xt)+Rt (2)
其中,t代表时序指标,也就是测井曲线的采样位置指标,Xt代表X曲线列表的第t个采样点特征向量,一个特征向量就代表一种状态;ft为状态转移函数,代表从第t-1个采样点的状态向地第t个采样点的状态转移的规律;ot为观测函数,代表从状态Xt观测到Yt的规律;Yt代表Y曲线列表第t个采样点的特征向量;Qt,Rt是服从于零均值正态分布的扰动向量,Qt代表状态转移规律的随机性,Rt代表观测规律的随机性。建立状态空间模型的目标是利用标准井的两组曲线X和Y作为样本,通过某种方法推断或生成函数ft、ot、以及随机变量Qt、Rt分布函数。
将方程(1)称为“状态”或“转移”方程(2)称为“信号”或“测量”方程。扰动向量,Qt、Rt、ft、ot被称为系统矩阵。系统矩阵Qt、Rt、ft、ot可以依赖于一个未知参数的集合。状态空间模型的一个主要的任务就是估计这些参数。为了便于表述,设θ=(Qt、Rt、ft、ot)为模型的参数。基于状态空间模型,任何测井曲线预测工作可表述为:在给定模型参数θ及批量观测数据y={yt-n+1,yt-n+2,...,yt-1,yt}的条件下,求模型的状态序列x={xt-n+1,xt-n+2,...,xt-1,xt},其中n为批量观测数据y的长度。基于贝叶斯框架,可建立随机变量Xt的后验概率密度函数p(Xt|y,θ)=c*p(y|Xt,θ)*p(Xt|θ),在此后验概率密度函数p(Xt|y,θ)确定之后,建立随机序列X={Xt-n+1,Xt-n+2,...,Xt-1,Xt}的联合后验概率密度函数:p(X|Y,θ)=p(Xt-n+1,Xt -n+2,...,Xt-1,Xt|Y,θ)=p(Xt-n+1|Y,θ)p(Xt-n+2|Xt-n+1,Y,θ)p(Xt-n+3|Xt-n+2,Y,θ)...p(Xt|Xt-1,Y,θ)。
(3)基于熵离散化测井曲线。
由于Xt表示的特征值是连续变量,代表了无限的状态空间,使用有限的样本推断或生成连续状态转移函数ft特别困难,使用有限的离散化状态空间可以极大地降低推断或生成状态转移函数的难度,基于离散状态的状态空间模型可调整为如下式(3)、式(4)、式(5)、式(6):
St=S(Xt) (3)
St=Ft(St-1) (4)
Xt=Ft(S-1(st-1))+Qt (5)
Yt=ot(Xt)+Rt (6)
其中,St为第t个连续型特征值(连续状态)对应的离散型特征值(离散状态),S为基于熵的离散化函数,代表从连续状态到离散状态的转换,S-1为逆离散化函数,代表从离散状态到连续状态的转换,Ft为离散状态转移函数,称为状态转移矩阵。任何离散化都会有信息的损失,基于熵的离散化可以最大地保留原始数据的有效信息,损失无效信息。基于熵的离散化是一种监督的、自顶向下的分裂技术。它在计算和确定分裂点时利用数据的分布信息。例如,为了离散化属性A,该方法选择A的具有最小熵的值作为分裂点,并递归地划分结果区间,得到分层离散化。
为了度量某一划分之后得到完全的分类还需要信息,引入期望信息需求的概念,期望信息需求由下式给出:其中D1和D2分别对应于D中满足条件A≤split_point和A≥split_point的元组,|D|是D中的元组的个数,如此等等。集合中的熵函数根据下式来计算,假设集合D1中的元素分别属于m个类,它们分别为C1,C2,...,Cm,D1的熵是其中,pi是D1中元组属于Ci的概率,由D1中的Ci类元组数除以D1中的元组总数|D1|确定。这样在选择属性A的分裂点时,我们希望产生使得期望信息需求最小的属性值split_point作为分裂点,使得用A≤splitpoint和A>split_point划分之后,对元组完全分类还需要的信息量最小。确定分裂点的过程递归地作用于所得到的每个划分,直到满足某个终止标准,如当所有候选点上的最小信息需求小于一个阈值,或者当区间的个数大于阈值max_interval时终止。本发明方法把上述基于熵离散化样本数据过程记为S()。设Xt=ft(Xt-1)+Qt,其中Xt∈Rn为模型状态,R为实数,n为状态Xt的维度,如我们需要同时预测声波曲线AC、自然伽马曲线GR、中子曲线CNL,可令n=3,Xt∈R3,其中为声波曲线AC,为自然伽马曲线GR,为中子曲线CNL。
(4)建立状态迁移变换矩阵。
根据式(3)对连续状态Xt进行离散化后,得到状态空间{1、2、3...k},St∈{1、2、3...k}为状态空间的一个状态,k为大于1的整数,根据式(3)的逆变换可得其中S为基于熵离散化样本数据的函数,称为离散化变换,S-1为离散化逆变换。根据式(3)、(4)、(5)可得式(7):
用{St}表示建立在状态空间{1、2、3...k}上的平稳马尔可夫链随机过程,Ft为随机过程{St}的状态迁移变换矩阵,是一个与时间无关的变换方阵,因此Ft可写为F,F是一个k阶方阵,是一个马尔可夫链状态迁移概率矩阵,Fij矩阵F中的一个元素,代表从状态i向状态j转移的概率。建立状态迁移变换矩阵F的过程就是使用标准井的曲线列表X分组,首先用离散化变换S对样本进行离散化处理,即{st}=S(X),其中{st}为样本数据的离散状态序列,作为马尔可夫链状态迁移概率矩阵F的统计数据样本,统计出F的每个元素Fij=P(st=j|st-1=i),其中P(st=j|st-1=i)表示在第t-1个状态为i的条件下第t个状态为j的概率。
(5)为状态残差随机变量建立服从高斯分布的概率密度函数。
根据式(7)可得其中Qt为状态残差随机变量,由于St-1为离散随机变量,St=Ft(St-1)亦为离散随机变量,作为状态St的对应连续随机变量Xt的期望值,把Xt看作k维高斯分布,即其中ε2为Xt的协方差阵,是一个k阶方阵,因为所以Qt也为k维高斯分布,即得到式(8):
Qt~N(0,ε2) (8)
其中0为其均值,ε2为其协方差阵,与Xt的协方差阵相同。根据充分的样本数据{xt}与步骤(1)和步骤(2)中建立的状态迁移变换矩阵F、离散化变换S以及离散化逆变换S-1,计算得到数据残差序列{qt},其中qt=xt-S-1(st),st=S(xt),即qt=xt-S-1(S(xt)),即{qt}={xt-S-1(S(xt))}。因为{qt}为充分的样本数据,又因Qt~N(0,ε2),可根据{qt}方便地统计推断出ε2。
(6)基于支持向量回归方法建立三次多项式非线性观测函数。
支持向量回归(support vector regression)简称SVR,是SVM(支持向量机support vector machine)对回归问题的一种运用。根据式(6)状态空间模型观测函数Yt=ot(Xt)+Rt,其中ot代表状态观测函数,令即得{xt}为样本中得状态数据序列,{yt}为对应得观测数据序列,{xt}与{yt}组成状态观测对序列{(xt,yt))},使用SVR可以从{(xt,yt)}学习出ot。学习得过程如下:1)对Xt进行升维处理,即把原有得n元1次的随机变量升维为n元3次随机变量;假如令Xt为2维随机变量,即设升级后的随机变量为即即为9维向量;设Yt为4维的随机变量,显然Rt亦同为4为向量,本发明方法把其中的ot看作线性变换,即ot为4行9列的矩阵,记为W,即称W为观测矩阵。因此样本数据{(xt,yt)}可表示为即可根据样本数据可建立SVR的目标函数其中即目标函数为式(9):
其中|W|为矩阵W行向量的模的和,c为正则化因子。通过SVR学习方法,求得W。
(7)为观测误差随机变量建立服从高斯分布的概率密度函数。
Rt~N(0,μ2) (10)
其中,0为其均值,ε2为其协方差阵,与Yt的协方差阵相同。根据充分的样本数据{yt}与步骤(2)~步骤(5)中建立的状态迁移变换矩阵F、离散化变换S、离散化逆变换S-1以及观测矩阵W,计算得到观测数据残差序列{rt},其中 为从样本状态数据xt升维得到的数据,即即因为{rt}为充分的样本数据,又因Rt~N(0,μ2),可根据{rt}方便地统计推断出μ2。(8)基于状态空间模型利用卡尔曼滤波算法进行测井曲线预测。
状态空间模型为:Xt=ft(Xt-1)+Qt,Yt=ot(Xt)+Rt,本发明方法把其中的Xt、Qt、Yt、Rt看作服从于高斯分布的随机向量,把ot()看作非线性变换矩阵,又根据步骤(6),低维的非线性变换转变为高维的线性变换,因此模型为升维的线性高斯状态空间模型,通过前面的步骤与计算,ft、Qt、Rt,ot为已知量,把缺失井的相应的源曲线作为Yt的输入参数,调用卡尔曼滤波算法,可求解状态序列即为目标预测曲线。
图1中波峰较低(即数字2表示的曲线)的曲线是实测的声波曲线,波峰较高的曲线(即数字1表示的曲线)是预测的声波曲线,图2为预测的目标井的声波曲线(即目标井缺失的声波曲线)。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于卡尔曼滤波与支持向量机的测井曲线预测方法,包括以下步骤:
(1)选择足够数量的完备井为标准井,并对测井曲线进行标准化采样处理,标准井的曲线被划分为两组,一组对应目标井中缺失的,需要进行预测的曲线列表,设为X,另一组对应目标井中已知的,作为预测参数的曲线列表,设为Y,X与Y是2维数组,每列代表一条曲线,每行代表每条曲线的一个采样点,X与Y的行数必须相同,但列数不同,Y的列数要大于或等于X的列数,X与Y的每行代表一个特征向量,特征向量的值为在一定值域范围内的连续变量;
(2)建立状态空间模型:状态空间模型是动态时域模型,以隐含着的时间为自变量,使用标准井的两组曲线X、Y建立状态空间模型的数学表达式(1)、(2)所示,
Xt=ft(Xt-1)+Qt (1)
Yt=ot(Xt)+Rt (2)
其中,t代表时序指标,也就是测井曲线的采样位置指标,Xt代表X曲线列表的第t个采样点特征向量,一个特征向量就代表一种状态;ft为状态转移函数,代表从第t-1个采样点的状态向地第t个采样点的状态转移的规律;ot为观测函数,代表从状态Xt观测到Yt的规律;Yt代表Y曲线列表第t个采样点的特征向量;Qt,Rt是服从于零均值正态分布的扰动向量,Qt代表状态转移规律的随机性,Rt代表观测规律的随机性;
(3)基于熵离散化测井曲线:
由于Xt表示的特征值是连续变量,代表了无限的状态空间,使用有限的样本推断或生成连续状态转移函数ft特别困难,使用有限的离散化状态空间极大地降低推断或生成状态转移函数的难度,基于离散状态的状态空间模型调整为如下式(3)至式(6):
St=S(Xt) (3)
St=Ft(St-1) (4)
Xt=Ft(S-1(st-1))+Qt (5)
Yt=ot(Xt)+Rt (6)
其中,St为第t个连续型特征值对应的离散型特征值,S为基于熵的离散化函数,代表从连续状态到离散状态的转换,S-1为逆离散化函数,代表从离散状态到连续状态的转换,Ft为离散状态转移函数,称为状态转移矩阵;
(4)建立状态迁移变换矩阵:
根据式(3)对连续状态Xt进行离散化后,得到状态空间{1、2、3...k},St∈{1、2、3…k}为状态空间的一个状态,k为大于1的整数,根据式(3)的逆变换得其中S为基于熵离散化样本数据的函数,称为离散化变换,S-1为离散化逆变换,根据式(3)、(4)、(5)得式(7):
用{St}表示建立在状态空间{1、2、3...k}上的平稳马尔可夫链随机过程,Ft为随机过程{St}的状态迁移变换矩阵,是一个与时间无关的变换方阵,因此Ft写为F,F是一个k阶方阵,是一个马尔可夫链状态迁移概率矩阵,Fij矩阵F中的一个元素,代表从状态i向状态j转移的概率,建立状态迁移变换矩阵F的过程就是使用标准井的曲线列表X分组,首先,用离散化变换S对样本进行离散化处理,即{st}=S(X),其中{st}为样本数据的离散状态序列,作为马尔可夫链状态迁移概率矩阵F的统计数据样本,统计出F的每个元素Fij=P(st=j|st-1=i),其中P(st=j|st-1=i)表示在第t-1个状态为i的条件下第t个状态为j的概率;
(5)为状态残差随机变量建立服从高斯分布的概率密度函数:
根据式(7)得其中Qt为状态残差随机变量,由于St-1为离散随机变量,St=Ft(St-1)亦为离散随机变量,作为状态St的对应连续随机变量Xt的期望值,把Xt看作k维高斯分布,即其中ε2为Xt的协方差阵,是一个k阶方阵,因为所以Qt也为k维高斯分布,即得到式(8):
Qt~N(0,ε2) (8)
其中0为其均值,ε2为其协方差阵,与Xt的协方差阵相同,根据充分的样本数据{xt}与步骤(1)和步骤(2)中建立的状态迁移变换矩阵F、离散化变换S以及离散化逆变换S-1,计算得到数据残差序列{qt},其中qt=xt-S-1(st),st=S(xt),即qt=xt-S-1(S(xt)),即{qt}={xt-S-1(S(xt))},因为{qt}为充分的样本数据,又因Qt~N(0,ε2),根据{qt}统计推断出ε2;
(6)基于支持向量回归方法建立三次多项式非线性观测函数:
根据式(6)状态空间模型观测函数Yt=ot(Xt)+Rt,其中ot,代表状态观测函数,令即得{xt}为样本中得状态数据序列,{yt}为对应得观测数据序列,{xt}与{yt}组成状态观测对序列{(xt,yt)},使用SVR从{(xt,yt)}学习出ot;
(7)为观测误差随机变量建立服从高斯分布的概率密度函数:
Rt~N(0,μ2) (10)
其中,0为其均值,ε2为其协方差阵,与Yt的协方差阵相同;根据充分的样本数据{yt}与步骤(2)~步骤(5)中建立的状态迁移变换矩阵F、离散化变换S、离散化逆变换S-1以及观测矩阵W,计算得到观测数据残差序列{rt},其中 为从样本状态数据xt升维得到的数据,即即因为{rt}为充分的样本数据,又因Rt~N(0,μ2),可根据{rt}方便地统计推断出μ2;
(8)基于状态空间模型利用卡尔曼滤波算法进行测井曲线预测:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110686961.2A CN113378469B (zh) | 2021-06-21 | 2021-06-21 | 一种基于卡尔曼滤波与支持向量机的测井曲线预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110686961.2A CN113378469B (zh) | 2021-06-21 | 2021-06-21 | 一种基于卡尔曼滤波与支持向量机的测井曲线预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113378469A CN113378469A (zh) | 2021-09-10 |
CN113378469B true CN113378469B (zh) | 2022-04-08 |
Family
ID=77578146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110686961.2A Active CN113378469B (zh) | 2021-06-21 | 2021-06-21 | 一种基于卡尔曼滤波与支持向量机的测井曲线预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378469B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106487358B (zh) * | 2016-09-30 | 2019-05-10 | 西南大学 | 一种机动目标转弯跟踪方法 |
EP3622328A4 (en) * | 2017-05-08 | 2021-02-17 | Services Pétroliers Schlumberger | INTEGRATION OF GEO-SCIENTIFIC DATA TO PREDICT FORMATION PROPERTIES |
CN106991509A (zh) * | 2017-05-27 | 2017-07-28 | 重庆科技学院 | 基于径向基函数神经网络模型的测井曲线预测方法 |
CN111582292B (zh) * | 2019-02-18 | 2024-03-05 | 中国石油天然气股份有限公司 | 夹层识别方法和装置 |
-
2021
- 2021-06-21 CN CN202110686961.2A patent/CN113378469B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113378469A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Keshavarzi et al. | Application of ANFIS-based subtractive clustering algorithm in soil cation exchange capacity estimation using soil and remotely sensed data | |
McBratney et al. | From pedotransfer functions to soil inference systems | |
Singh et al. | A comparative study of generalized regression neural network approach and adaptive neuro-fuzzy inference systems for prediction of unconfined compressive strength of rocks | |
Li et al. | A FCM-based deterministic forecasting model for fuzzy time series | |
Nourafkan et al. | Shear wave velocity estimation from conventional well log data by using a hybrid ant colony–fuzzy inference system: A case study from Cheshmeh–Khosh oilfield | |
Yan et al. | An adaptive surrogate modeling based on deep neural networks for large-scale Bayesian inverse problems | |
Bai et al. | Sequential Gaussian simulation for geosystems modeling: A machine learning approach | |
CN111242206A (zh) | 一种基于层次聚类和随机森林的高分辨率海洋水温计算方法 | |
CN113378939B (zh) | 基于物理驱动神经网络的结构数字孪生建模与参数识别法 | |
Pled et al. | A robust solution of a statistical inverse problem in multiscale computational mechanics using an artificial neural network | |
Nguyen et al. | Novel approach for soil classification using machine learning methods | |
Xu et al. | A fuzzy process neural network model and its application in process signal classification | |
CN113988357A (zh) | 基于深度学习的高层建筑风致响应预测方法及装置 | |
Ba et al. | A two-stage ensemble Kalman filter based on multiscale model reduction for inverse problems in time fractional diffusion-wave equations | |
Hou et al. | Estimating elastic parameters from digital rock images based on multi-task learning with multi-gate mixture-of-experts | |
Li et al. | A comparative study of pre-screening strategies within a surrogate-assisted multi-objective algorithm framework for computationally expensive problems | |
Khodkari et al. | Predicting the small strain shear modulus of sands and sand-fines binary mixtures using machine learning algorithms | |
CN113378469B (zh) | 一种基于卡尔曼滤波与支持向量机的测井曲线预测方法 | |
Verma et al. | Quantification of sand fraction from seismic attributes using Neuro-Fuzzy approach | |
Bai et al. | Debris flow prediction with machine learning: smart management of urban systems and infrastructures | |
CN113419278B (zh) | 一种基于状态空间模型与支持向量回归的井震联合多目标同时反演方法 | |
Zheng et al. | A noise-eliminated gradient boosting model for short-term traffic flow forecasting | |
Marulasiddappa et al. | Prediction of scour depth around bridge abutments using ensemble machine learning models | |
Wang et al. | Physics‐Informed Convolutional Decoder (PICD): A Novel Approach for Direct Inversion of Heterogeneous Subsurface Flow | |
Hossain et al. | Epistemic Uncertainty and Model Transparency in Rock Facies Classification using Monte Carlo Dropout Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |