CN113378469B - 一种基于卡尔曼滤波与支持向量机的测井曲线预测方法 - Google Patents

一种基于卡尔曼滤波与支持向量机的测井曲线预测方法 Download PDF

Info

Publication number
CN113378469B
CN113378469B CN202110686961.2A CN202110686961A CN113378469B CN 113378469 B CN113378469 B CN 113378469B CN 202110686961 A CN202110686961 A CN 202110686961A CN 113378469 B CN113378469 B CN 113378469B
Authority
CN
China
Prior art keywords
state
matrix
curve
establishing
transformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110686961.2A
Other languages
English (en)
Other versions
CN113378469A (zh
Inventor
何文渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Petrochina Co Ltd
Daqing Oilfield Co Ltd
Original Assignee
Petrochina Co Ltd
Daqing Oilfield Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Petrochina Co Ltd, Daqing Oilfield Co Ltd filed Critical Petrochina Co Ltd
Priority to CN202110686961.2A priority Critical patent/CN113378469B/zh
Publication of CN113378469A publication Critical patent/CN113378469A/zh
Application granted granted Critical
Publication of CN113378469B publication Critical patent/CN113378469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/203Drawing of straight lines or curves

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Operations Research (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及一种基于卡尔曼滤波与支持向量机的测井曲线预测方法,包括以下步骤:首先选择足够数量的完备井作为标准井,并对测井曲线进行标准化采样处理,建立状态空间模型,其次,基于熵离散化测井曲线,建立状态迁移变换矩阵和服从高斯分布的概率密度函数,接着,基于支持向量回归方法建立三次多项式非线性观测函数,并建立服从高斯分布的概率密度函数,最后,基于状态空间模型和卡尔曼滤波算法预测测井曲线。本发明方法具有快速有效、预测测井曲线准确性更高的优点,有效解决了常规利用回归方法无法有效预测测井曲线空间序列所蕴含的特征和结构等问题。

Description

一种基于卡尔曼滤波与支持向量机的测井曲线预测方法
技术领域:
本发明涉及油气井的测井曲线数据预测方法,尤其是一种快速有效、预测准确性更高的的基于卡尔曼滤波与支持向量机的测井曲线预测方法。
背景技术:
随着油气开采技术的不断进步,在钻井过程中一般采用专业设备测量采集包括声波曲线AC、自然伽马曲线GR、中子曲线CNL、电阻率曲线RT、井径曲线CAL等相关测井曲线数据,以便后期对油气田所处区域地质结构、油气储层以及油气开采研究提供基础数据。然而,一个油气田的老井,可能没有获取收集测井曲线数据,或者由于技术条件限制,获取收集的测井曲线数据不全,又由于老井在钻井过程中,都基本采用三层套管,套管之间采用砼浇筑,在钻井过程中没有采集的测井曲线数据,后期无法再进行采集。面对如此情况,现在一般基于测井曲线完备的井使用回归方法建立预测模型,实现对缺失曲线的预测,然而这些预测模型没有太多地关注测井曲线作为空间序列所蕴含的特征与结构,预测效果不是特别的理想,因此需要一种更加有效的方法提高预测缺失测井曲线的准确性。
发明内容:
为了解决上述技术问题,本发明提供了一种基于卡尔曼滤波与支持向量机的测井曲线预测方法,包括以下步骤:
(1)选择足够数量的完备井为标准井,并对测井曲线进行标准化采样处理。标准井的曲线被划分为两组,一组对应目标井中缺失的,需要进行预测的曲线列表,设为X,另一组对应目标井中已知的,作为预测参数的曲线列表,设为Y。X与Y是2维数组,每列代表一条曲线,每行代表每条曲线的一个采样点,X与Y的行数必须相同,但列数可以不同,Y的列数要大于或等于X的列数。X与Y的每行代表一个特征向量,特征向量的值为在一定值域范围内的连续变量。
所述标准井为测井曲线较全的完备井,这些完备井的测井曲线为常规测井曲线,常规测井曲线是指声波曲线AC、自然伽马曲线GR、中子曲线CNL、电阻率曲线RT、井径曲线CAL等具体测井曲线;缺失井与标准井相比,缺少我们需要的曲线,设此曲线为X。
(2)建立状态空间模型。状态空间模型是动态时域模型,以隐含着的时间为自变量。使用标准井的两组曲线X、Y建立状态空间模型,如式(1)和式(2)所示:
Xt=ft(Xt-1)+Qt (1)
Yt=ot(Xt)+Rt (2)
其中,t代表时序指标,也就是测井曲线的采样位置指标,Xt代表X曲线列表的第t个采样点特征向量,一个特征向量就代表一种状态;ft为状态转移函数,代表从第t-1个采样点的状态向地第t个采样点的状态转移的规律;ot为观测函数,代表从状态Xt观测到Yt的规律;Yt代表Y曲线列表第t个采样点的特征向量;Qt,Rt是服从于零均值正态分布的扰动向量,Qt代表状态转移规律的随机性,Rt代表观测规律的随机性。建立状态空间模型的目标是利用标准井的两组曲线X和Y作为样本,通过某种方法推断或生成函数ft、ot、以及随机变量Qt、Rt分布函数。
将方程(1)称为“状态”或“转移”方程(2)称为“信号”或“测量”方程。扰动向量,Qt,Rt,ft,ot被称为系统矩阵。系统矩阵Qt、Rt、ft、ot可以依赖于一个未知参数的集合。状态空间模型的一个主要的任务就是估计这些参数。为了便于表述,设θ=(Qt、Rt、ft、ot)为模型的参数。基于状态空间模型,任何测井曲线预测工作可表述为:在给定模型参数θ及批量观测数据y={yt-n+1,yt-n+2,...,yt-1,yt}的条件下,求模型的状态序列x={xt-n+1,xt-n+2,...,xt-1,xt},其中n为批量观测数据y的长度。基于贝叶斯框架,可建立随机变量Xt的后验概率密度函数p(Xt|y,θ)=c*p(y|Xt,θ)*p(Xt|θ),在此后验概率密度函数p(Xt|y,θ)确定之后,建立随机序列X={Xt-n+1,Xt-n+2,...,Xt-1,Xt}的联合后验概率密度函数:p(X|Y,θ)=p(Xt-n+1Xt -n+2,...,Xt-1,Xt|Y,θ)=p(Xt-n+1|Y,θ)p(Xt-n+2|Xt-n+1,Y,θ)p(Xt-n+3|Xt-n+2,Y,θ)...p(Xt|Xt-1,Y,θ)。
(3)基于熵离散化测井曲线。
由于Xt表示的特征值是连续变量,代表了无限的状态空间,使用有限的样本推断或生成连续状态转移函数ft特别困难,使用有限的离散化状态空间可以极大地降低推断或生成状态转移函数的难度,基于离散状态的状态空间模型可调整为如下式(3)至式(6):
St=S(Xt) (3)
St=Ft(St-1) (4)
Xt=Ft(S-1(st-1))+Qt (5)
Yt=ot(Xt)+Rt (6)
其中,St为第t个连续型特征值(连续状态)对应的离散型特征值(离散状态),S为基于熵的离散化函数,代表从连续状态到离散状态的转换,S-1为逆离散化函数,代表从离散状态到连续状态的转换,Ft为离散状态转移函数,称为状态转移矩阵。任何离散化都会有信息的损失,基于熵的离散化可以最大地保留原始数据的有效信息,损失无效信息。基于熵的离散化是一种监督的、自顶向下的分裂技术。它在计算和确定分裂点时利用数据的分布信息。例如,为了离散化属性A,该方法选择A中最小熵的值作为分裂点,并递归地划分结果区间,得到分层离散化。
为了度量某一划分之后得到完全的分类还需要信息,引入期望信息需求的概念,期望信息需求由下式给出:
Figure GDA0003501637200000041
其中D1和D2分别对应于D中满足条件A≤split_point和A≥split_point的元组,|D|是D中的元组的个数,如此等等。集合中的熵函数根据下式来计算,假设集合D1中的元素分别属于m个类,它们分别为C1,C2,...,Cm,D1的熵是
Figure GDA0003501637200000042
其中,pi是D1中元组属于Ci的概率,由D1中的Ci类元组数除以D1中的元组总数|D1|确定。这样在选择属性A的分裂点时,我们希望产生使得期望信息需求最小的属性值split_point作为分裂点,使得用A≤split_point和A>split_point划分之后,对元组完全分类还需要的信息量最小。确定分裂点的过程递归地作用于所得到的每个划分,直到满足某个终止标准,如当所有候选点上的最小信息需求小于一个阈值,或者当区间的个数大于阈值max_interval时终止。本发明方法把上述基于熵离散化样本数据过程记为S()。设Xt=ft(Xt-1)+Qt,其中Xt∈Rn为模型状态,R为实数,n为状态Xt的维度,如我们需要同时预测声波曲线AC、自然伽马曲线GR、中子曲线CNL,可令n=3,Xt∈R3
Figure GDA0003501637200000043
其中
Figure GDA0003501637200000044
为声波曲线AC,
Figure GDA0003501637200000045
为自然伽马曲线GR,
Figure GDA0003501637200000046
为中子曲线CNL。
(4)建立状态迁移变换矩阵。
根据式(3)对连续状态Xt进行离散化后,得到状态空间{1、2、3...k},St∈{1、2、3...k}为状态空间的一个状态,k为大于1的整数,根据式(3)的逆变换可得
Figure GDA0003501637200000047
其中S为基于熵离散化样本数据的函数,称为离散化变换,S-1为离散化逆变换。根据式(3)、式(4)和式(5)可得式(7)
Figure GDA0003501637200000051
用{St}表示建立在状态空间{1、2、3...k}上的平稳马尔可夫链随机过程,Ft为随机过程{St}的状态迁移变换矩阵,是一个与时间无关的变换方阵,因此Ft可写为F,F是一个k阶方阵,是一个马尔可夫链状态迁移概率矩阵,Fij矩阵F中的一个元素,代表从状态i向状态j转移的概率。建立状态迁移变换矩阵F的过程就是使用标准井的曲线列表X分组,首先用离散化变换S对样本进行离散化处理,即{st}=S(X),其中{st}为样本数据的离散状态序列,作为马尔可夫链状态迁移概率矩阵F的统计数据样本,统计出F的每个元素Fii=P(st=j|st-1=i),其中P(st=j|st-1=i)表示在第t-1个状态为i的条件下第t个状态为j的概率。
(5)为状态残差随机变量建立服从高斯分布的概率密度函数。
根据式(7)可得
Figure GDA0003501637200000052
其中Qt为状态残差随机变量,由于St-1为离散随机变量,St=Ft(St-1)亦为离散随机变量,
Figure GDA0003501637200000053
作为状态St的对应连续随机变量Xt的期望值,把Xt看作k维高斯分布,即
Figure GDA0003501637200000054
其中ε2为Xt的协方差阵,是一个k阶方阵,因为
Figure GDA0003501637200000055
所以Qt也为k维高斯分布,即得到式(8):
Qt~N(0,ε2) (8)
其中0为其均值,ε2为其协方差阵,与Xt的协方差阵相同。根据充分的样本数据{xt}与步骤(1)和步骤(2)中建立的状态迁移变换矩阵F、离散化变换S以及离散化逆变换S-1,计算得到数据残差序列{qt},其中qt=xt-S-1(st),st=S(xt),即qt=xt-S-1(S(xt)),即{qt}={xt-S-1(S(xt))}。因为{qt}为充分的样本数据,又因Qt~N(0,ε2),可根据{qt}方便地统计推断出ε2
(6)基于支持向量回归方法建立三次多项式非线性观测函数。
支持向量回归(support vector regression)简称SVR,是SVM(支持向量机support vector machine)对回归问题的一种运用。根据式(6)状态空间模型观测函数Yt=ot(Xt)+Rt,其中ot,代表状态观测函数,令
Figure GDA0003501637200000061
即得
Figure GDA0003501637200000062
{xt}为样本中得状态数据序列,{yt}为对应得观测数据序列,{xt}与{yt}组成状态观测对序列{(xtyt)},使用SVR可以从{(xt,yt)}学习出ot。学习得过程如下:1)对Xt进行升维处理,即把原有得n元1次的随机变量升维为n元3次随机变量;假如令Xt为2维随机变量,即
Figure GDA0003501637200000063
设升级后的随机变量为
Figure GDA0003501637200000064
Figure GDA0003501637200000065
Figure GDA0003501637200000066
为9维向量;设Yt为4维的随机变量,显然
Figure GDA0003501637200000067
Rt亦同为4为向量,
Figure GDA0003501637200000068
本发明方法把其中的ot看作线性变换,即ot为4行9列的矩阵,记为W,即
Figure GDA0003501637200000069
称W为观测矩阵。因此样本数据{(xt,yt)}可表示为
Figure GDA00035016372000000610
即可根据样本数据可建立SVR的目标函数
Figure GDA00035016372000000611
其中
Figure GDA00035016372000000612
即目标函数为式(9):
Figure GDA00035016372000000613
其中|W|为矩阵W行向量的模的和,c为正则化因子。通过SVR学习方法,求得W。
(7)为观测误差随机变量建立服从高斯分布的概率密度函数。
根据
Figure GDA00035016372000000614
可得
Figure GDA00035016372000000615
其中
Figure GDA00035016372000000616
Rt为观测残差随机变量,
Figure GDA00035016372000000617
作为状态
Figure GDA00035016372000000618
对应的观测随机变量Yt的期望值,把Yt看作m维高斯分布,即
Figure GDA00035016372000000619
其中μ2为Yt的协方差阵,是一个m阶方阵,因为
Figure GDA00035016372000000620
所以Rt也为m维高斯分布,即得式(10):
Rt~N(0,μ2) (10)
其中,0为其均值,ε2为其协方差阵,与Yt的协方差阵相同。根据充分的样本数据{yt}与步骤(2)~步骤(5)中建立的状态迁移变换矩阵F、离散化变换S、离散化逆变换S-1以及观测矩阵W,计算得到观测数据残差序列{rt},其中
Figure GDA0003501637200000071
Figure GDA0003501637200000072
为从样本状态数据xt升维得到的数据,即
Figure GDA0003501637200000073
Figure GDA0003501637200000074
因为{rt}为充分的样本数据,又因Rt~N(0,μ2),可根据{rt}方便地统计推断出μ2。(8)基于状态空间模型利用卡尔曼滤波算法进行测井曲线预测。
状态空间模型为:Xt=ft(Xt-1)+Qt,Yt=ot(Xt)+Rt,本发明方法把其中的Xt、Qt、Yt、Rt看作服从于高斯分布的随机向量,把ot()看作非线性变换矩阵,又根据步骤(6),低维的非线性变换转变为高维的线性变换,因此模型为升维的线性高斯状态空间模型,通过前面的步骤与计算,ft、Qt、Rt,ot为已知量,把缺失井的相应的源曲线作为Yt的输入参数,调用卡尔曼滤波算法,可求解状态序列
Figure GDA0003501637200000075
即为目标预测曲线。
本发明的基于卡尔曼滤波与支持向量机的测井曲线预测方法特点是:本方法运用状态空间模型与支持向量机等机器学习技术建立预测模型,并把低维的非线性高斯状态空间模型通过多项式升维,变为线性高斯状态空间模型,最后调用卡尔曼滤波算法对缺失的测井曲线进行预测。
本发明与上述背景技术相比较可具有如下有益效果:
(1)常规做法是基于测井曲线完备的井使用回归方法建立预测模型,实现对缺失曲线的预测这些预测模型,但没有太多地关注测井曲线作为空间序列所蕴含的特征与结构,预测效果不理想。
(2)将本发明“一种基于卡尔曼滤波与支持向量机的测井曲线预测方法”应用于测井曲线预测中,包含所要预测的缺失曲线的井(称为缺失井)和与这些井所处同一油气田的至少一口测井曲线完备的井(称为完备井),己知完备井的多条测井曲线,运用线性高斯模型与支持向量机等机器学习技术建立预测模型,并把低维的非线性高斯状态空间模型通过多项式升维,变为线性高斯状态空间模型,然后利用该预测模型和己知完备井的测井曲线调用卡尔曼滤波算法对缺失井进行测井曲线预测。
附图说明:
图1为本发明的完备井实测的声波曲线和预测的声波曲线示意图。
图2为本发明的缺失井的待预测的声波曲线示意图。
具体实施方式:
下面结合附图及实施例对本发明作进一步说明:
为使本发明的目的、技术方案和优点更加清楚,下面将以大庆探区松辽盆地古龙凹陷为例,结合附图对本发明实施方式作进一步地详细描述。
一种基于卡尔曼滤波与支持向量机的测井曲线预测方法,包括以下步骤:
(1)工区内选择足够数量的完备井为标准井,本例中选择213口,并对测井曲线进行标准化采样处理。标准井的曲线被划分为两组,一组对应目标井中缺失的,需要进行预测的曲线列表,设为X,另一组对应目标井中现存的,作为预测参数的曲线列表,设为Y。X与Y是2维数组,每列代表一条曲线,每行代表每条曲线的一个采样点,X与Y的行数必须相同,但列数可以不同,Y的列数要大于或等于X的列数。X与Y的每行代表一个特征向量,特征向量的值为在一定值域范围内的连续变量。
所述标准井为测井曲线较全的完备井,这些完备井的测井曲线为常规测井曲线,常规测井曲线是指声波曲线AC、自然伽马曲线GR、中子曲线CNL、电阻率曲线RT、井径曲线CAL等具体测井曲线;缺失井与标准井相比,缺少我们需要的曲线,设此曲线为X。
本例中,所用的输入Y=[RHOB、CALI、GR、LLD];输出为X=ttt(DT),ttt为声波测井曲线DT,用有声波曲线的井建立了基于卡尔曼滤波与支持向量机的预测模型。
(2)建立状态空间模型。状态空间模型是动态时域模型,以隐含着的时间为自变量。使用标准井的两组曲线X、Y建立状态空间模型的数学表达式(1)、(2)所示。
Xt=ft(Xt-1)+Qt (1)
Yt=ot(Xt)+Rt (2)
其中,t代表时序指标,也就是测井曲线的采样位置指标,Xt代表X曲线列表的第t个采样点特征向量,一个特征向量就代表一种状态;ft为状态转移函数,代表从第t-1个采样点的状态向地第t个采样点的状态转移的规律;ot为观测函数,代表从状态Xt观测到Yt的规律;Yt代表Y曲线列表第t个采样点的特征向量;Qt,Rt是服从于零均值正态分布的扰动向量,Qt代表状态转移规律的随机性,Rt代表观测规律的随机性。建立状态空间模型的目标是利用标准井的两组曲线X和Y作为样本,通过某种方法推断或生成函数ft、ot、以及随机变量Qt、Rt分布函数。
将方程(1)称为“状态”或“转移”方程(2)称为“信号”或“测量”方程。扰动向量,Qt、Rt、ft、ot被称为系统矩阵。系统矩阵Qt、Rt、ft、ot可以依赖于一个未知参数的集合。状态空间模型的一个主要的任务就是估计这些参数。为了便于表述,设θ=(Qt、Rt、ft、ot)为模型的参数。基于状态空间模型,任何测井曲线预测工作可表述为:在给定模型参数θ及批量观测数据y={yt-n+1,yt-n+2,...,yt-1,yt}的条件下,求模型的状态序列x={xt-n+1,xt-n+2,...,xt-1,xt},其中n为批量观测数据y的长度。基于贝叶斯框架,可建立随机变量Xt的后验概率密度函数p(Xt|y,θ)=c*p(y|Xt,θ)*p(Xt|θ),在此后验概率密度函数p(Xt|y,θ)确定之后,建立随机序列X={Xt-n+1,Xt-n+2,...,Xt-1,Xt}的联合后验概率密度函数:p(X|Y,θ)=p(Xt-n+1,Xt -n+2,...,Xt-1,Xt|Y,θ)=p(Xt-n+1|Y,θ)p(Xt-n+2|Xt-n+1,Y,θ)p(Xt-n+3|Xt-n+2,Y,θ)...p(Xt|Xt-1,Y,θ)。
(3)基于熵离散化测井曲线。
由于Xt表示的特征值是连续变量,代表了无限的状态空间,使用有限的样本推断或生成连续状态转移函数ft特别困难,使用有限的离散化状态空间可以极大地降低推断或生成状态转移函数的难度,基于离散状态的状态空间模型可调整为如下式(3)、式(4)、式(5)、式(6):
St=S(Xt) (3)
St=Ft(St-1) (4)
Xt=Ft(S-1(st-1))+Qt (5)
Yt=ot(Xt)+Rt (6)
其中,St为第t个连续型特征值(连续状态)对应的离散型特征值(离散状态),S为基于熵的离散化函数,代表从连续状态到离散状态的转换,S-1为逆离散化函数,代表从离散状态到连续状态的转换,Ft为离散状态转移函数,称为状态转移矩阵。任何离散化都会有信息的损失,基于熵的离散化可以最大地保留原始数据的有效信息,损失无效信息。基于熵的离散化是一种监督的、自顶向下的分裂技术。它在计算和确定分裂点时利用数据的分布信息。例如,为了离散化属性A,该方法选择A的具有最小熵的值作为分裂点,并递归地划分结果区间,得到分层离散化。
为了度量某一划分之后得到完全的分类还需要信息,引入期望信息需求的概念,期望信息需求由下式给出:
Figure GDA0003501637200000111
其中D1和D2分别对应于D中满足条件A≤split_point和A≥split_point的元组,|D|是D中的元组的个数,如此等等。集合中的熵函数根据下式来计算,假设集合D1中的元素分别属于m个类,它们分别为C1,C2,...,Cm,D1的熵是
Figure GDA0003501637200000112
其中,pi是D1中元组属于Ci的概率,由D1中的Ci类元组数除以D1中的元组总数|D1|确定。这样在选择属性A的分裂点时,我们希望产生使得期望信息需求最小的属性值split_point作为分裂点,使得用A≤splitpoint和A>split_point划分之后,对元组完全分类还需要的信息量最小。确定分裂点的过程递归地作用于所得到的每个划分,直到满足某个终止标准,如当所有候选点上的最小信息需求小于一个阈值,或者当区间的个数大于阈值max_interval时终止。本发明方法把上述基于熵离散化样本数据过程记为S()。设Xt=ft(Xt-1)+Qt,其中Xt∈Rn为模型状态,R为实数,n为状态Xt的维度,如我们需要同时预测声波曲线AC、自然伽马曲线GR、中子曲线CNL,可令n=3,Xt∈R3
Figure GDA0003501637200000113
其中
Figure GDA0003501637200000114
为声波曲线AC,
Figure GDA0003501637200000115
为自然伽马曲线GR,
Figure GDA0003501637200000116
为中子曲线CNL。
(4)建立状态迁移变换矩阵。
根据式(3)对连续状态Xt进行离散化后,得到状态空间{1、2、3...k},St∈{1、2、3...k}为状态空间的一个状态,k为大于1的整数,根据式(3)的逆变换可得
Figure GDA0003501637200000117
其中S为基于熵离散化样本数据的函数,称为离散化变换,S-1为离散化逆变换。根据式(3)、(4)、(5)可得式(7):
Figure GDA0003501637200000118
用{St}表示建立在状态空间{1、2、3...k}上的平稳马尔可夫链随机过程,Ft为随机过程{St}的状态迁移变换矩阵,是一个与时间无关的变换方阵,因此Ft可写为F,F是一个k阶方阵,是一个马尔可夫链状态迁移概率矩阵,Fij矩阵F中的一个元素,代表从状态i向状态j转移的概率。建立状态迁移变换矩阵F的过程就是使用标准井的曲线列表X分组,首先用离散化变换S对样本进行离散化处理,即{st}=S(X),其中{st}为样本数据的离散状态序列,作为马尔可夫链状态迁移概率矩阵F的统计数据样本,统计出F的每个元素Fij=P(st=j|st-1=i),其中P(st=j|st-1=i)表示在第t-1个状态为i的条件下第t个状态为j的概率。
(5)为状态残差随机变量建立服从高斯分布的概率密度函数。
根据式(7)可得
Figure GDA0003501637200000121
其中Qt为状态残差随机变量,由于St-1为离散随机变量,St=Ft(St-1)亦为离散随机变量,
Figure GDA0003501637200000122
作为状态St的对应连续随机变量Xt的期望值,把Xt看作k维高斯分布,即
Figure GDA0003501637200000123
其中ε2为Xt的协方差阵,是一个k阶方阵,因为
Figure GDA0003501637200000124
所以Qt也为k维高斯分布,即得到式(8):
Qt~N(0,ε2) (8)
其中0为其均值,ε2为其协方差阵,与Xt的协方差阵相同。根据充分的样本数据{xt}与步骤(1)和步骤(2)中建立的状态迁移变换矩阵F、离散化变换S以及离散化逆变换S-1,计算得到数据残差序列{qt},其中qt=xt-S-1(st),st=S(xt),即qt=xt-S-1(S(xt)),即{qt}={xt-S-1(S(xt))}。因为{qt}为充分的样本数据,又因Qt~N(0,ε2),可根据{qt}方便地统计推断出ε2
(6)基于支持向量回归方法建立三次多项式非线性观测函数。
支持向量回归(support vector regression)简称SVR,是SVM(支持向量机support vector machine)对回归问题的一种运用。根据式(6)状态空间模型观测函数Yt=ot(Xt)+Rt,其中ot代表状态观测函数,令
Figure GDA0003501637200000131
即得
Figure GDA0003501637200000132
{xt}为样本中得状态数据序列,{yt}为对应得观测数据序列,{xt}与{yt}组成状态观测对序列{(xt,yt))},使用SVR可以从{(xt,yt)}学习出ot。学习得过程如下:1)对Xt进行升维处理,即把原有得n元1次的随机变量升维为n元3次随机变量;假如令Xt为2维随机变量,即
Figure GDA0003501637200000133
设升级后的随机变量为
Figure GDA0003501637200000134
Figure GDA0003501637200000135
Figure GDA0003501637200000136
为9维向量;设Yt为4维的随机变量,显然
Figure GDA0003501637200000137
Rt亦同为4为向量,
Figure GDA0003501637200000138
本发明方法把其中的ot看作线性变换,即ot为4行9列的矩阵,记为W,即
Figure GDA0003501637200000139
称W为观测矩阵。因此样本数据{(xt,yt)}可表示为
Figure GDA00035016372000001310
即可根据样本数据可建立SVR的目标函数
Figure GDA00035016372000001311
其中
Figure GDA00035016372000001312
即目标函数为式(9):
Figure GDA00035016372000001313
其中|W|为矩阵W行向量的模的和,c为正则化因子。通过SVR学习方法,求得W。
(7)为观测误差随机变量建立服从高斯分布的概率密度函数。
根据
Figure GDA00035016372000001314
可得
Figure GDA00035016372000001315
其中
Figure GDA00035016372000001316
Rt为观测残差随机变量,
Figure GDA00035016372000001317
作为状态
Figure GDA00035016372000001318
对应的观测随机变量Yt的期望值,把Yt看作m维高斯分布,即
Figure GDA00035016372000001319
其中μ2为Yt的协方差阵,是一个m阶方阵,因为
Figure GDA00035016372000001320
所以Rt也为m维高斯分布,即得式(10):
Rt~N(0,μ2) (10)
其中,0为其均值,ε2为其协方差阵,与Yt的协方差阵相同。根据充分的样本数据{yt}与步骤(2)~步骤(5)中建立的状态迁移变换矩阵F、离散化变换S、离散化逆变换S-1以及观测矩阵W,计算得到观测数据残差序列{rt},其中
Figure GDA0003501637200000141
Figure GDA0003501637200000142
为从样本状态数据xt升维得到的数据,即
Figure GDA0003501637200000143
Figure GDA0003501637200000144
因为{rt}为充分的样本数据,又因Rt~N(0,μ2),可根据{rt}方便地统计推断出μ2。(8)基于状态空间模型利用卡尔曼滤波算法进行测井曲线预测。
状态空间模型为:Xt=ft(Xt-1)+Qt,Yt=ot(Xt)+Rt,本发明方法把其中的Xt、Qt、Yt、Rt看作服从于高斯分布的随机向量,把ot()看作非线性变换矩阵,又根据步骤(6),低维的非线性变换转变为高维的线性变换,因此模型为升维的线性高斯状态空间模型,通过前面的步骤与计算,ft、Qt、Rt,ot为已知量,把缺失井的相应的源曲线作为Yt的输入参数,调用卡尔曼滤波算法,可求解状态序列
Figure GDA0003501637200000145
即为目标预测曲线。
图1中波峰较低(即数字2表示的曲线)的曲线是实测的声波曲线,波峰较高的曲线(即数字1表示的曲线)是预测的声波曲线,图2为预测的目标井的声波曲线(即目标井缺失的声波曲线)。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于卡尔曼滤波与支持向量机的测井曲线预测方法,包括以下步骤:
(1)选择足够数量的完备井为标准井,并对测井曲线进行标准化采样处理,标准井的曲线被划分为两组,一组对应目标井中缺失的,需要进行预测的曲线列表,设为X,另一组对应目标井中已知的,作为预测参数的曲线列表,设为Y,X与Y是2维数组,每列代表一条曲线,每行代表每条曲线的一个采样点,X与Y的行数必须相同,但列数不同,Y的列数要大于或等于X的列数,X与Y的每行代表一个特征向量,特征向量的值为在一定值域范围内的连续变量;
(2)建立状态空间模型:状态空间模型是动态时域模型,以隐含着的时间为自变量,使用标准井的两组曲线X、Y建立状态空间模型的数学表达式(1)、(2)所示,
Xt=ft(Xt-1)+Qt (1)
Yt=ot(Xt)+Rt (2)
其中,t代表时序指标,也就是测井曲线的采样位置指标,Xt代表X曲线列表的第t个采样点特征向量,一个特征向量就代表一种状态;ft为状态转移函数,代表从第t-1个采样点的状态向地第t个采样点的状态转移的规律;ot为观测函数,代表从状态Xt观测到Yt的规律;Yt代表Y曲线列表第t个采样点的特征向量;Qt,Rt是服从于零均值正态分布的扰动向量,Qt代表状态转移规律的随机性,Rt代表观测规律的随机性;
(3)基于熵离散化测井曲线:
由于Xt表示的特征值是连续变量,代表了无限的状态空间,使用有限的样本推断或生成连续状态转移函数ft特别困难,使用有限的离散化状态空间极大地降低推断或生成状态转移函数的难度,基于离散状态的状态空间模型调整为如下式(3)至式(6):
St=S(Xt) (3)
St=Ft(St-1) (4)
Xt=Ft(S-1(st-1))+Qt (5)
Yt=ot(Xt)+Rt (6)
其中,St为第t个连续型特征值对应的离散型特征值,S为基于熵的离散化函数,代表从连续状态到离散状态的转换,S-1为逆离散化函数,代表从离散状态到连续状态的转换,Ft为离散状态转移函数,称为状态转移矩阵;
(4)建立状态迁移变换矩阵:
根据式(3)对连续状态Xt进行离散化后,得到状态空间{1、2、3...k},St∈{1、2、3…k}为状态空间的一个状态,k为大于1的整数,根据式(3)的逆变换得
Figure FDA0003501637190000021
其中S为基于熵离散化样本数据的函数,称为离散化变换,S-1为离散化逆变换,根据式(3)、(4)、(5)得式(7):
Figure FDA0003501637190000022
用{St}表示建立在状态空间{1、2、3...k}上的平稳马尔可夫链随机过程,Ft为随机过程{St}的状态迁移变换矩阵,是一个与时间无关的变换方阵,因此Ft写为F,F是一个k阶方阵,是一个马尔可夫链状态迁移概率矩阵,Fij矩阵F中的一个元素,代表从状态i向状态j转移的概率,建立状态迁移变换矩阵F的过程就是使用标准井的曲线列表X分组,首先,用离散化变换S对样本进行离散化处理,即{st}=S(X),其中{st}为样本数据的离散状态序列,作为马尔可夫链状态迁移概率矩阵F的统计数据样本,统计出F的每个元素Fij=P(st=j|st-1=i),其中P(st=j|st-1=i)表示在第t-1个状态为i的条件下第t个状态为j的概率;
(5)为状态残差随机变量建立服从高斯分布的概率密度函数:
根据式(7)得
Figure FDA0003501637190000031
其中Qt为状态残差随机变量,由于St-1为离散随机变量,St=Ft(St-1)亦为离散随机变量,
Figure FDA0003501637190000032
作为状态St的对应连续随机变量Xt的期望值,把Xt看作k维高斯分布,即
Figure FDA0003501637190000033
其中ε2为Xt的协方差阵,是一个k阶方阵,因为
Figure FDA0003501637190000034
所以Qt也为k维高斯分布,即得到式(8):
Qt~N(0,ε2) (8)
其中0为其均值,ε2为其协方差阵,与Xt的协方差阵相同,根据充分的样本数据{xt}与步骤(1)和步骤(2)中建立的状态迁移变换矩阵F、离散化变换S以及离散化逆变换S-1,计算得到数据残差序列{qt},其中qt=xt-S-1(st),st=S(xt),即qt=xt-S-1(S(xt)),即{qt}={xt-S-1(S(xt))},因为{qt}为充分的样本数据,又因Qt~N(0,ε2),根据{qt}统计推断出ε2
(6)基于支持向量回归方法建立三次多项式非线性观测函数:
根据式(6)状态空间模型观测函数Yt=ot(Xt)+Rt,其中ot,代表状态观测函数,令
Figure FDA0003501637190000035
即得
Figure FDA0003501637190000036
{xt}为样本中得状态数据序列,{yt}为对应得观测数据序列,{xt}与{yt}组成状态观测对序列{(xt,yt)},使用SVR从{(xt,yt)}学习出ot
(7)为观测误差随机变量建立服从高斯分布的概率密度函数:
根据
Figure FDA0003501637190000037
可得
Figure FDA0003501637190000038
其中
Figure FDA0003501637190000039
Rt为观测残差随机变量,
Figure FDA00035016371900000310
作为状态
Figure FDA00035016371900000311
对应的观测随机变量Yt的期望值,把Yt看作m维高斯分布,即
Figure FDA00035016371900000312
其中μ2为Yt的协方差阵,是一个m阶方阵,因为
Figure FDA00035016371900000313
所以Rt也为m维高斯分布,即得式(10):
Rt~N(0,μ2) (10)
其中,0为其均值,ε2为其协方差阵,与Yt的协方差阵相同;根据充分的样本数据{yt}与步骤(2)~步骤(5)中建立的状态迁移变换矩阵F、离散化变换S、离散化逆变换S-1以及观测矩阵W,计算得到观测数据残差序列{rt},其中
Figure FDA0003501637190000041
Figure FDA0003501637190000042
为从样本状态数据xt升维得到的数据,即
Figure FDA0003501637190000043
Figure FDA0003501637190000044
因为{rt}为充分的样本数据,又因Rt~N(0,μ2),可根据{rt}方便地统计推断出μ2
(8)基于状态空间模型利用卡尔曼滤波算法进行测井曲线预测:
状态空间模型为:Xt=ft(Xt-1)+Qt,Yt=ot(Xt)+Rt,其中的Xt、Qt、Yt、Rt看作服从于高斯分布的随机向量,把ot()看作非线性变换矩阵,又根据步骤(6),低维的非线性变换转变为高维的线性变换,因此,是升维的线性高斯状态空间模型,通过前面的步骤与计算,ft、Qt、Rt,ot为已知量,把缺失井的相应的源曲线作为Yt的输入参数,调用卡尔曼滤波算法,可求解状态序列
Figure FDA0003501637190000045
得到目标预测曲线。
2.根据权利要求1所述的测井曲线预测方法,其特征在于,步骤(6)中的学习过程如下:1)对Xt进行升维处理,即把原有得n元1次的随机变量升维为n元3次随机变量;假如令Xt为2维随机变量,即
Figure FDA0003501637190000046
设升级后的随机变量为
Figure FDA0003501637190000047
Figure FDA0003501637190000048
Figure FDA0003501637190000049
为9维向量;设Yt为4维的随机变量,
Figure FDA00035016371900000410
Rt亦同为4为向量,
Figure FDA00035016371900000411
其中的ot看作线性变换,即ot为4行9列的矩阵,记为W,即
Figure FDA00035016371900000412
Figure FDA00035016371900000413
称W为观测矩阵,因此样本数据{(xt,yt)}表示为
Figure FDA00035016371900000414
根据样本数据可建立SVR的目标函数
Figure FDA00035016371900000415
其中
Figure FDA00035016371900000416
即目标函数为式(9):
Figure FDA00035016371900000417
其中|W|为矩阵W行向量的模的和,c为正则化因子,通过SVR学习方法,求得W。
CN202110686961.2A 2021-06-21 2021-06-21 一种基于卡尔曼滤波与支持向量机的测井曲线预测方法 Active CN113378469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110686961.2A CN113378469B (zh) 2021-06-21 2021-06-21 一种基于卡尔曼滤波与支持向量机的测井曲线预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110686961.2A CN113378469B (zh) 2021-06-21 2021-06-21 一种基于卡尔曼滤波与支持向量机的测井曲线预测方法

Publications (2)

Publication Number Publication Date
CN113378469A CN113378469A (zh) 2021-09-10
CN113378469B true CN113378469B (zh) 2022-04-08

Family

ID=77578146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110686961.2A Active CN113378469B (zh) 2021-06-21 2021-06-21 一种基于卡尔曼滤波与支持向量机的测井曲线预测方法

Country Status (1)

Country Link
CN (1) CN113378469B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106487358B (zh) * 2016-09-30 2019-05-10 西南大学 一种机动目标转弯跟踪方法
EP3622328A4 (en) * 2017-05-08 2021-02-17 Services Pétroliers Schlumberger INTEGRATION OF GEO-SCIENTIFIC DATA TO PREDICT FORMATION PROPERTIES
CN106991509A (zh) * 2017-05-27 2017-07-28 重庆科技学院 基于径向基函数神经网络模型的测井曲线预测方法
CN111582292B (zh) * 2019-02-18 2024-03-05 中国石油天然气股份有限公司 夹层识别方法和装置

Also Published As

Publication number Publication date
CN113378469A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
Keshavarzi et al. Application of ANFIS-based subtractive clustering algorithm in soil cation exchange capacity estimation using soil and remotely sensed data
McBratney et al. From pedotransfer functions to soil inference systems
Singh et al. A comparative study of generalized regression neural network approach and adaptive neuro-fuzzy inference systems for prediction of unconfined compressive strength of rocks
Li et al. A FCM-based deterministic forecasting model for fuzzy time series
Nourafkan et al. Shear wave velocity estimation from conventional well log data by using a hybrid ant colony–fuzzy inference system: A case study from Cheshmeh–Khosh oilfield
Yan et al. An adaptive surrogate modeling based on deep neural networks for large-scale Bayesian inverse problems
Bai et al. Sequential Gaussian simulation for geosystems modeling: A machine learning approach
CN111242206A (zh) 一种基于层次聚类和随机森林的高分辨率海洋水温计算方法
CN113378939B (zh) 基于物理驱动神经网络的结构数字孪生建模与参数识别法
Pled et al. A robust solution of a statistical inverse problem in multiscale computational mechanics using an artificial neural network
Nguyen et al. Novel approach for soil classification using machine learning methods
Xu et al. A fuzzy process neural network model and its application in process signal classification
CN113988357A (zh) 基于深度学习的高层建筑风致响应预测方法及装置
Ba et al. A two-stage ensemble Kalman filter based on multiscale model reduction for inverse problems in time fractional diffusion-wave equations
Hou et al. Estimating elastic parameters from digital rock images based on multi-task learning with multi-gate mixture-of-experts
Li et al. A comparative study of pre-screening strategies within a surrogate-assisted multi-objective algorithm framework for computationally expensive problems
Khodkari et al. Predicting the small strain shear modulus of sands and sand-fines binary mixtures using machine learning algorithms
CN113378469B (zh) 一种基于卡尔曼滤波与支持向量机的测井曲线预测方法
Verma et al. Quantification of sand fraction from seismic attributes using Neuro-Fuzzy approach
Bai et al. Debris flow prediction with machine learning: smart management of urban systems and infrastructures
CN113419278B (zh) 一种基于状态空间模型与支持向量回归的井震联合多目标同时反演方法
Zheng et al. A noise-eliminated gradient boosting model for short-term traffic flow forecasting
Marulasiddappa et al. Prediction of scour depth around bridge abutments using ensemble machine learning models
Wang et al. Physics‐Informed Convolutional Decoder (PICD): A Novel Approach for Direct Inversion of Heterogeneous Subsurface Flow
Hossain et al. Epistemic Uncertainty and Model Transparency in Rock Facies Classification using Monte Carlo Dropout Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant