CN115222019B

CN115222019B - 基于测井数据的深度Transformer迁移学习储层参数预测方法

Info

Publication number: CN115222019B
Application number: CN202210783129.9A
Authority: CN
Inventors: 汪敏; 郭鑫平; 于魏铭; 唐浩轩; 杨桃; 闫建平; 钟光海; 石学文
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2023-07-28
Anticipated expiration: 2042-06-27
Also published as: CN115222019A

Abstract

本发明公开了一种基于测井数据的深度Transformer迁移学习储层参数预测方法，包括：对源域测井数据进行异常值处理，筛选出异常的测井数据。对测井数据进行标准化预处理，有效消除参数间的数量级和量纲影响，减小网络误差，加速收敛及提高模型预测精度。将标准化的数据输入到Transformer迁移学习网络，在特征空间中找到源域与目标域的相关性。最后设计整体网络的损失函数。通过计算源域与目标域测井特征数据分布差异，以及模型对源域测井数据输出预处值和岩心数据的误差。基于损失值反向传播，通过链式法则对网络参数求导，使用随机梯度下降算法更新网络参数。本发明能找到源域和目标域的相似性，将源域的知识传递给目标域，有效解决储层参数预测误差大的难题。

Description

基于测井数据的深度Transformer迁移学习储层参数预测方法

技术领域

本发明涉及页岩储层勘探技术领域，特别涉及一种基于测井数据的深度Transformer迁移学习储层参数预测方法。

背景技术

孔隙度、总有机碳含量和总含气量等是页岩储层评价的重要参数，它的准确表征可以为储层评价提供可靠的参考依据，是建立精确油气藏地质模型、估算油气储量、确立合理开发方案提供技术支撑。目前利用测井数据对储层核心参数的研究分为两个方向。第一，常规地质方法。国内外学者针对不同地质场景，设计各类多元回归经验公式，对储层参数预测开展了大量研究。常规地质方法是在岩心与测井特征分析基础上(李军等，2014；徐壮等，2017)，构建体积模型，利用测井资料计算储层参数。第二，机器学习方法。杨柳青等(2020)基于测井数据和岩心数据构建深度神经网络(Deep Neural Networks，DNN)，预测岩心孔隙度。Ouadfeul等(2016)利用测井数据、三维地震数据构建多层感知器(Multi-LayerPerceptron，MLP)，反演总有机碳含量。

常规地质方法使用简单的经验公式(如线性拟合)计算得到的储层参数不够精确，因为这种粗略的经验关系会导致预测值与真实值相差较大，模型难以推广到新的工区难以保证精度。常规地质方法是在岩心与测井响应特征分析基础上建模，利用测井资料计算储层参数，建模流程复杂。为提高精度，需要目标井岩心等数据校准模型。获取岩心数据成本昂贵，校正模型耗费人力，效率低下。

机器学习算法存在两个基本假设：(1)训练样本与测试样本默认满足独立同分布的条件。(2)必须有足够可利用的训练样本才能学习得到一个好的分类模型。但实际场景下，建模工区的数据与预测工区的数据不满足独立同分布的假设，且预测新工区缺乏足够的标签数据。由此可知，基于已有工区数据训练的机器学习储层参数预测模型，推广到其他新的工区会存在较大的预测误差。

常规地质方法和机器学习方法建模难以推广应用，精度难以保证。针对这一现实难题，本发明提出一种基于测井数据的深度Transformer迁移学习储层参数预测方法，将已有工区的经验形成知识，有效迁移到新的工区，减小储层预测误差，实现目标储层参数(包括孔隙度、总有机碳含量和总含气量等)的快速准确预测。

2021年Transformer(Vaswani et al.，2017)在计算机视觉、NLP等领域达到了前所未有的高度，刷新了各大研究领域的排名，是当前机器学习领域最热的研究点。Transformer是一种基于自注意力机制、并行化处理数据的深度神经网络，拥有极强的特征提取能力(Zhao et al.，2021)。其可以用来替代传统的卷积神经网络(ConvolutionalNeural Networks,CNN)与循环神经网络(Recurrent Neural Network,RNN)。但目前主要用于自然语言处理任务和计算机视觉。因此，本发明针对储层参数预测，对Transformer网络优化重构，实现非线性特征的有效提取。

迁移学习(Aneja et al.，2021)有效借鉴了人类具有的将一种环境下学习的知识转移到另一种环境下的特殊能力。Razak等(2021)设计迁移学习模型，改进循环神经网络实现对非常规油藏生产的准确预测。其设计具体算法模型，通过一些策略找到不同任务之间的相关性，有效地将已有工区的数据知识，转移到当前任务的新领域。本发明借鉴迁移学习的思路(Long et al.，2014；Musgrave et al.，2021)，减小源域(已有的工区知识)到目标域(新的工区知识)的分布差异，找到任务之间的相关性，进行知识的迁移。

参考文献

Aneja S，Aneja N，Abas P E，et al.2021.Transfer learning for cancerdiagnosis in histopathological images.IAES International Journal ofArtificial Intelligence，11(1):129-136，doi:10.11591/ijai.v11.i1.pp129-136；

Borgwardt K M，Gretton A，Rasch M J，et al.2006.Integrating structuredbiological data by Kernel Maximum Mean Discrepancy.Bioinformatics，22(14):e49-e57，doi:10.1093/bioinformatics/btl242；

Gretton A，Borgwardt K M，Rasch M J.2012.A Kernel Two-SampleTest.Journal of Machine Learning Research，12(2012):723-773；

Gupta I，Samandarli O，Burks A，et al.2021.Autoregressive and MachineLearning Driven Production Forecasting-Midland Basin CaseStudy.Unconventional Resources Technology Conference，doi:10.15530/urtec-2021-5184；

He K，Zhang X，Ren S，et al.2016.Deep Residual Learning for ImageRecognition.IEEE；

Hinton G E，Osindero S，Teh Y.2006.A Fast Learning Algorithm for DeepBelief Nets.Neural Computation，18(7):1527-1554，doi:10.1162/neco.2006.18.7.1527；

Karsten M B，Arthur G，Malte J R，et al.2006.Integrating structuredbiological data by Kernel Maximum Mean Discrepancy.Bioinformatics(Oxford,England)，22(14)，doi:10.1093/bioinformatics/btl242；

Liu F T，Ting K M，Zhou Z H.2012.Isolation-Based Anomaly Detection.AcmTransactions on Knowledge Discovery from Data，6(1):1-39；

Long M，Wang J，Ding G，et al.2014.Transfer Joint Matching forUnsupervised Domain Adaptation.In CVPR:1410-1417；

Mohaghegh S，Arefi R，Ameri S，et al.1996.Petroleum reservoircharacterization with the aid of artificial neural networks.Journal ofpetroleum science&engineering，16(4):263-274，doi:10.1016/S0920-4105(96)00028-9；

Musgrave K，Belongie S，Lim S.2021.Unsupervised Domain Adaptation:AReality Check；

Ouadfeul S，Aliouane L.2016.Total organic carbon estimation in shale-gas reservoirs using seismic genetic inversion with an example from theBarnett Shale.The Leading Edge，35(9):790-794，doi:10.1190/tle35090790.1；

Razak S M，Cornelio J，Cho Y，et al.2021.Transfer Learning withRecurrent Neural Networks for Long-term Production Forecasting inUnconventional Reservoirs.Unconventional Resources Technology Conference2021,URTC 2021:2021-5687；

Steinwart I.2002.On the Influence of the Kernel on the Consistency ofSupport Vector Machines.Journal of Machine Learning Research，2(2001):67-93，doi:10.1162/153244302760185252；

Vaswani A，Shazeer N，Parmar N，et al.2017.Attention Is All YouNeed.31st Conference on Neural Information Processing Systems(NIPS 2017)；

Zhao，Yucheng，Wang，et al.2021.A Battle of Network Structures:AnEmpirical Study of CNN,Transformer,and MLP；

徐壮，石万忠，翟刚毅等.2017.涪陵地区页岩总孔隙度测井预测.石油学报，38(05):533-543，doi:10.7623/syxb20180506；

赵金洲，沈骋，任岚等.2017.页岩储层不同赋存状态气体含气量定量预测——以四川盆地焦石坝页岩气田为例.天然气工业，37(04):27-33，doi:10.3787/j.issn.1000-0976.2017.04.004；

钟光海，陈丽清，廖茂杰等.2020.页岩气储层品质测井综合评价.天然气工业，40(02):54-60，doi:10.3787/j.issn.1000-0976.2020.02.006；

林年添，张栋，张凯等.2018.地震油气储层的小样本卷积神经网络学习与预测.地球物理学报，61(10):4110-4125，doi:10.6038/cjg2018J0775；

杨柳青，查蓓，陈伟.2020.基于深度神经网络的砂岩储层孔隙度预测方法.中国科技论文，15(1):73-80，doi:10.3969/j.issn.2095-2783.2020.01.011；

付超，林年添，张栋等.2018.多波地震深度学习的油气储层分布预测案例.地球物理学报，61(01):293-303，doi:10.6038/cjg2018L0193；

何治亮，聂海宽，胡东风等.2020.深层页岩气有效开发中的地质问题——以四川盆地及其周缘五峰组—龙马溪组为例.石油学报，41(04):379-391，doi:10.7623/syxb20200400；

李军，路菁，李争等.2014.页岩气储层“四孔隙”模型建立及测井定量表征方法.石油与天然气地质，35(2):266-271，doi:10.11743/ogg20140214；

龙胜祥，冯动军，李凤霞等.2018.四川盆地南部深层海相页岩气勘探开发前景.天然气地球科学，29(04):443-451，doi:10.11764/j.issn.1672-1926.2018.03.00；

马新华，谢军.2018.川南地区页岩气勘探开发进展及发展前景.石油勘探与开发，45(01):161-169，doi:10.11698/PED.2020.05.01；

马新华，谢军，雍锐等.2020.四川盆地南部龙马溪组页岩气储集层地质特征及高产控制因素.石油勘探与开发，47(05):841-855，doi:10.11698/PED.2020.05.01；

宋欢，毛伟建，唐欢欢.2021.基于深层神经网络压制多次波.地球物理学报，64(08):2795-2808，doi:10.6.38/cjg2021O0369；

张素荣，董大忠，廖群山等.2021.四川盆地南部深层海相页岩气地质特征及资源前景.天然气工业，41(09):35-45，doi:10.3787/j.issn.1000-0976.2021.09.004；

赵峦啸，刘金水，姚云霞等.2021.基于随机森林算法的陆相沉积烃源岩定量地震刻画:以东海盆地长江坳陷为例.地球物理学报，64(02):700-715，doi:10.6038/cjg2021O0123；

钟光海，谢冰，周肖等.2016.四川盆地页岩气储层含气量的测井评价方法.天然气工业，36(08):43-51，doi:10.3787/j.issn.1000-0976.2016.08.006。

发明内容

本发明针对现有技术的缺陷，提供了一种基于测井数据的深度Transformer迁移学习储层参数预测方法。

为了实现以上发明目的，本发明采取的技术方案如下：

一种基于测井数据的深度Transformer迁移学习储层参数预测方法，包括以下步骤：

步骤1：选取工区已有的测井曲线和岩心数据作为建模数据(以下简称源域)，源域测井参数选取：自然伽马(GR)、无铀伽马(KTH)、声波(AC)、补偿密度(DEN)、铀(U)，测井参数选择应保证不少于3个。源域选取井来源可以不同，但需要保证建模数据数量不低于600，各井层位必须相同。依据实际需求选择岩心数据作为建模岩心标签数据，岩心数据包括：孔隙度(POR)、总有机碳含量(TOC)、总含气量(GAST)和脆性指数(BI)。需要预测储层参数的井区(以下简称目标域)仅包含测井曲线，目标域选取和源域同样的测井参数，层位与源域对应。

步骤2：将源域测井数据使用孤立森林异常值处理，剔除异常分数大于预设值的测井数据剔除，异常分数小于等于预设值的测井数据作为源域建模数据，目标域测井数据属于测试数据，不做异常值处理。

步骤3：对源域和目标域测井数据分别标准化处理。将测井数据变换为均值为0，标准差为1的正态分布数据。有效消除参数间的数量级和量纲影响，加速收敛及提高模型预测精度。数据标准化公式如下式(1)所示：

是标准化后的测井数据；x是标准化前的测井数据；μ是测井数据的均值；σ是测井数据的标准差。

步骤4：源域与目标域测井数据经过标准化处理后，输入Transformer迁移学习网络训练模型。首先对网络参数进行初始化，源域与目标域测井数据在Transformer迁移学习网络结构中进行前向计算，Transformer迁移学习网络结构由Transformer Block特征提取网络和全连接神经网络构成。源域和目标域测井数据通过Transformer Block和全连接神经网络前向计算，将数据映射到高维空间。通过网络损失函数计算损失值，利用最大均值差异分别计算不同特征层的分布差异。源域有岩心标签，源域前向计算分支输出储层预测值，计算预测值与真实岩心数据的均方损失。基于损失值反向传播，调优网络参数。计算的损失值通过链式法则对网络参数求导，使用随机梯度下降算法更新网络参数。最后通过记录模型每一次计算的损失值曲线，当损失值收敛后，停止网络训练，保存网络损失值最小的网络参数。

步骤5：模型完成训练后，模型获取到了源域和目标域的数据知识，模型能自动找到了源域与目标域的相似性，目标域数据经过源域分支前向计算，即可获得目标域储层预测结果。

进一步地，步骤2中将源域测井数据使用孤立森林异常值处理具体如下：

用一个随机的超平面分割数据空间，将其分为两个子空间，再对子空间进行分割，直到每个子空间里只有一个数据点，由此形成孤立树。每个叶子节点都只包含一个数据节点，异常的数据密度低，因此会很快停留在一个子空间。根据叶子节点到根节点的路径长度，判断数据是否是离群点。

构建包括两个部分。首先，设置孤立树量为125，组成孤立森林模型。其次，将源域建模测井数据遍历孤立树，计算出测井数据异常分值。测井数据x遍历所有孤立树后，记录x每棵孤立树的高度h(x)，计算x的平均深度，对平均深度进行归一化得到数据点x的异常分值。为了保证异常分值能准确表示数据的异常程度，采用式(4)计算。

其中E(.)是x在多个孤立树高度h(x)的期望。用作归一化，是二叉树平均高度，如式(5)和式(6)所示，H为调和数，其中ξ为欧拉常数。

测井数据由式(4)计算出异常分值，s(x)越接近1，表示数据异常可能性大。越接近0，表示样本是正常样本可能性大。当所有数据的s(x)接近0.5时，则表示数据集无异常数据。将s(x)大于0.5的测井数据剔除，其余测井数据作为源域建模数据。

进一步地，步骤4中Transformer Block特征提取网络结构中进行前向计算过程如下：

步骤4.1、输入测井数据X＝[x₁,x₂,x₃...x_n]，简写为其中n代表测井数据数量，其中d代表数据的维度，输入测井数据通过线性映射，得到X_Embedding，其中m代表数据的维度，即将每个测井特征映射到高维空间中。线性映射使用1×1的卷积，卷积通道数设置为m。进一步对数据X_Ebedding进行LayerNormalization，得到X_LN，Layer Normalization公式(7)所示。

其中x代表输入数据，E代表均值，Var代表方差。

步骤4.2、构建矩阵向量Q,K,V。通过创建三个权重矩阵，将X_LN映射到3个不同的空间中，即使用3个全连接神经网络对X_LN做线性映射，形成三个新的向量形式Q,K,V。其中V代表从X_LN中提取得到的信息，Q与K是特征相关性信息。计算公式如式(8)、式(9)和式(10)所示。

Q＝Linear(X_LN)＝X_LNW_Q (8)

K＝Linear(X_LN)＝X_LNW_K (9)

V＝Linear(X_LN)＝X_LNW_V (10)

全连接神经网络如计算公式(11)所示。其中为l层第i个神经元的输入，/>为连接到/>的权重，/>为l层第i个神经元的输出，/>为第l层第i个神经元的输入对应偏置。

步骤4.3、对Q,K,V进行平均分组，并进行注意力机制计算。将Q,K,V均分成h组，即均分为h个头部(Q0,K_0,V₀),...,(Q_h,K_h,V_h)，每个头部在不同的空间中计算注意力机制。对单个头部的注意力机制计算公式如下式(12)所示。

其中V代表从X_LN中提取得到的信息，d_k代表X的维度d。Q与K^T点乘计算两者的相关性，softmax函数将Q与K^T点乘后的矩阵映射到0～1之间。softmax计算公式如下式(13)。

其中a_i代表输入的第i个变量，k表示类别。

步骤4.4、融合不同头部提取更丰富的特征信息。多头融合特征如下公式(14)所示。

X_Attention＝MultiHead(Q,K,V)＝Concat(Attention(Q₁,K₁,V₁),...,Attention(Q_h,K_h,V_h))W^O (14)

其中Concat代表将不同组的注意力机制特征进行拼接，W^O矩阵作用是将多个注意力机制获得的特征进行融合，由全连接神经网络实现。

残差连接直接将X_Embedding与经过Layer Normalization和MultiHead(Q,K,V)运算后的X_Attention进行矩阵相加得到X′_Attention，如下公式(15)所示。

X′_Attention＝X_Embedding+X_Attention (15)

前馈神经网络由全连接神经网络、GELU激活函数和神经元丢弃率组成，设置的第一个全连接神经网络神经元数量为256，是第二个全连接神经网络神经元数量的4倍，神经元丢弃率设置为20％。

X_hidden＝Linear(GELU(Linear(X′_Attention))) (16)

其中Linear计算过程如式(11)所示，GELU激活函数给神经元网络引入非线性因数，使得神经网络可以逼近任何非线性函数，近似计算如下式(17)所示。

最后将X′_Attention与经过前馈神经网络计算后的X_hidden进行残差连接，得到输出X_out。

X_out＝X′_Attention+X_hidden (18)。

进一步地，所述Transformer迁移学习模型架构的构建如下：

基于Transformer Block特征提取网络和全连接神经网络前向计算，分两步构建迁移学习架构。第一，引入度量源域与目标域数据差异的准则—最大均值差异。第二，融入最大均值差异，构建迁移学习网络架构。

第一，最大均值差异度量计算如下式(19)。

x和y为输入空间不同分布的数据，即分别代表源域和目标域的测井特征数据。n和m为样本数量，H表示为再生希尔伯特空间，为映射函数，将输入空间数据映射到再生希尔伯特空间。

将式(19)平方项展开，得如下式(20)所示：

公式(20)中出现与核函数k(·)相联系简化运算。选用高斯核函数作为最大均值差异的核函数。高斯核函数如式(21)所示，带入式(20)中，即可得最终计算公式(22)：

其中k(u,v)为空间中任一点u到某一中心v之间欧氏距离的单调函数。σ是带宽，控制径向作用范围。

第二，融入最大均值差异。经过Transformer Block特征提取网络和全连接神经网络前向计算，获得各层源域和目标域特征数据，使用最大均值差异计算特征数据分布差异。源域有岩心数据，源域测井数据前向计算，获得储层预测输出。目标域没有岩心数据，目标域与源域各层特征数据计算最大均值差异。源域和目标域网络保持权重共享，即共用权重系数矩阵w和偏置向量b。

进一步地，步骤4中所述整体损失函数如下式(23)所示：

其中f为最大均值差异损失，如公式(22)所示，均方损失计算过程如下式(24)，代表源域预测的储层参数，y_s代表源域实际的储层参数。s_i＝1,2,3代表源域数据经过Transformer Block网络、全连接神经网络提取的隐藏层特征，t_j＝1,2,3代表目标域数据经过Transformer Block特征提取网络、全连接神经网络提取的隐藏层特征。λ_k＝1,2,3是0到1之间的超参数。

式中：是预测值向量，Y是真实值向量，/>为L2范数。

利用式(23)算出损失值。

进一步地，步骤4中反向传播，更新网络参数具体如下：

基于公式(23)计算出损失值，通过链式法则对网络权重系数矩阵w和偏置向量b进行求导，最后使用随机梯度下降算法，调整网络w和b。

其中w^*是使用随机梯度下降算法后优化的权重系数矩阵，b^*是使用随机梯度下降算法后优化的偏置向量。η是学习率，用来调节w和b优化速度，本发明方法学习率为0.001。

与现有技术相比，本发明的优点在于：

1.能有效减小模型推广误差，实现对新工区储层参数准确预测

本发明设计的深度Transformer迁移学习算法，通过减小训练数据与预测数据的分布差异，找到源域样本与目标域样本的相似性，将源域知识有效传递给目标域，最终实现目标工区储层参数准确预测。

2.构建Transformer特征提取网络，深入挖掘出测井参数和储层参数的内在关联

本发明构建Transformer Block特征提取网络，通过加入多头注意力机制，使其在不同的子空间中寻找测井资料与储层参数的关联。基于这种关联通过前馈神经网络(FeedForword)前向计算，实现不同层次特征提取，深入挖掘出测井参数和储层参数的内在关联。这是一次全新的尝试，并取得了较好的应用效果。

3.精度高成本低，建模速度快

为了模型计算的准确性，常规地质方法会利用目标井岩心数据和地层压力等数据对模型进行校正。本发明无需测井响应特征分析，建模过程无需岩心数据校正模型，建模流程快速简单。获取岩心数据成本高昂，本发明在保证精度的同时，极大节约了开发成本。

附图说明

图1是本发明实施例深度Transformer迁移学习储层参数预测方法流程图；

图2是本发明实施例Transformer迁移学习网络结构图；

图3是本发明实施例Transformer Block特征提取网络结构图；

图4是本发明实施例训练损失曲线图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下根据附图并列举实施例，对本发明做进一步详细说明。

一种基于测井数据的深度Transformer迁移学习储层参数预测方法，减小模型推广到新工区会存在的预测误差，提升储层预测精度。本发明根据迁移学习的理念构建源域和目标域。源域是指已有大量的测井资料和岩心资料的成熟工区，目标域是指待预测的新工区，仅具有测井资料。

如图1所示，首先对源域测井数据进行异常值处理，筛选出异常的测井数据，避免模型学习错误的源域数据知识。

对测井数据进行标准化预处理，实际的测井数据，各个特征量纲不一致，特征值分布差异大。

测井数据的标准化处理，可以有效消除参数间的数量级和量纲影响，减小网络误差，加速收敛及提高模型预测精度。

然后将标准化的数据输入到Transformer迁移学习网络，在特征空间中找到源域与目标域的相关性。

最后设计整体网络的损失函数。通过计算源域与目标域测井特征数据分布差异，以及模型对源域测井数据输出预处值和岩心数据的误差。反向传播，基于计算的损失值，通过链式法则对网络参数w和b求导，使用随机梯度下降算法更新网络参数。优化后的模型能找到源域和目标域的相似性，将源域的知识传递给目标域，能有效解决模型推广到新工区，储层参数预测误差大的难题。

Transformer迁移学习模型总体架构

本发明设计深度Transformer迁移学习网络，通过取心工区已有储层数据经验，找到工区间数据的相似性，进行知识迁移，实现对新工区储层参数准确预测。对比常规地质方法，本发明方法建模流程简单快速，建模成本低，无需岩心数据作相关性分析，建模过程无需对模型参数进行校正。对比主流机器学习模型，本发明方法考虑了建模工区与预测工区测井数据分布差异。通过找到数据间的相似性，将建模工区知识迁移给待预测的新工区，保证模型对预测工区的精度。

本发明构建Transformer迁移学习网络包含以下3个核心部分：

(1)构建Transformer Block特征提取网络

储层受构造运动、成岩作用和沉积环境等多种地质因素影响，储层参数与测井参数之间具有复杂的非线性映射关系(Mohaghegh et al.，1996)。本发明将对Transformer网络进行重构和优化，构建Transformer Block特征提取网络，深入挖掘测井数据与储层数据的隐藏关联特征。

原始Transformer采用编码器—解码器架构(Vaswani et al.，2017)，如图3(A)所示。由于Transformer的原始网络结构是针对自然语言处理任务，与储层核心参数预测任务有较大差异，故需对Transformer结构进行重构，设计新的特征提取网络。针对储层核心参数预测，本发明重新设计了Transformer结构，重构的Tranformer Block结构如图3(B)所示。本发明构建的Transformer Block主要包含两部分，多头注意力机制(Multi-HeadAttention)和前馈神经网络(Feed Forward)，并在每部分加入了残差连接(ResidualConnection)和正则化层(Layer Normalization)。

下面将对改进后的Tranformer Block结构(图3(B))进行解析。输入测井数据X，经过Transformer Block前向计算，最终输出特征数据X_out。

假定输入测井数据X＝[x₁,x₂,x₃...x_n]，简写为其中n代表测井数据数量，其中d代表数据的维度，例如：x₁₁代表测井参数铀，x₁₂代表测井参数声波。输入测井数据通过线性映射，得到X_Embedding，/>其中m代表数据的维度，即将每个测井特征映射到高维空间中。线性映射使用1×1的卷积，卷积通道数设置为m。进一步对数据X_Ebedding进行Layer Normalization，得到X_LN，将数据在维度方向归一化为正态分布，可以加快网络训练速度，加速网络收敛。Layer Normalization公式(1)所示。

其中x代表输入数据，E代表均值，Var代表方差。

多头注意力机制(Mutil-head Attention)使网络更擅长捕获数据或特征的相关性，由多个独立的头部来关注不同的信息，从而提取更加全面丰富的特征(Zhao et al.，2021)。多头注意力机制分三步构建。

第一，构建矩阵向量Q,K,V。通过创建三个权重矩阵，将X_LN映射到3个不同的空间中，即使用3个全连接神经网络对X_LN做线性映射，形成三个新的向量形式Q,K,V。其中V代表从X_LN中提取得到的信息，Q与K是特征相关性信息。计算公式如式(2)、式(3)和式(4)所示。

Q＝Linear(X_LN)＝X_LNW_Q (2)

K＝Linear(X_LN)＝X_LNW_K (3)

V＝Linear(X_LN)＝X_LNW_V (4)

全连接神经网络如计算公式(5)所示。其中为l层第i个神经元的输入，/>为连接到/>的权重，/>为l层第i个神经元的输出，/>为第l层第i个神经元的输入对应偏置。

第二，对Q,K,V进行平均分组，并进行注意力机制计算。将Q,K,V均分成h组，即均分为h个头部(Q_0,K_0,V₀),...,(Q_h,K_h,V_h)，每个头部在不同的空间中计算注意力机制。不同空间中经过注意力机制计算得到的特征是不同的。对单个头部的注意力机制(AttentionMechanism)计算公式如下式(6)所示。

其中V代表从X_LN中提取得到的信息，d_k代表X的维度d。Q与K^T点乘计算两者的相关性，softmax函数将Q与K^T点乘后的矩阵映射到0～1之间。softmax计算公式如下式(7)。

其中a_i代表输入的第i个变量，k表示类别。

第三，融合不同头部提取更丰富的特征信息。多头注意力通过不同的头部提取不同的特征信息，将这些特征进行拼接，可以获得更丰富的语义特征。这有助于网络深入挖取出数据的隐藏信息。多头融合特征如下公式(8)所示。

X_Attention＝MultiHead(Q,K,V)＝Concat(Attention(Q₁,K₁,V₁),...,Attention(Q_h,K_h,V_h))W^O (8)

残差连接(Residual Connection)可以获得更好的特征(He et al.，2016)，同时防止网络训练过程中梯度消失，避免模型训练失败。直接将X_Embedding与经过LayerNormalization和MultiHead(Q,K,V)运算后的X_Attention进行矩阵相加得到X_A′_ttention，如下公式(9)所示。

X′_Attention＝X_Embedding+X_Attention (9)

前馈神经网络(Feed Forward)由全连接神经网络(图3(B)中的Linear)、GELU激活函数和神经元丢弃率(Dropout)组成，如图3(B)右边所示。本发明设置的第一个全连接神经网络神经元数量为256，是第二个全连接神经网络神经元数量的4倍，神经元丢弃率设置为20％。

X_hidden＝Linear(GELU(Linear(X′_Attention))) (10)

其中Linear计算过程如式(5)所示，GELU激活函数给神经元网络引入非线性因数，使得神经网络可以逼近任何非线性函数，近似计算如下式(11)所示。

最后将X_A′_ttention与经过前馈神经网络计算后的X_hidden进行残差连接，得到输出X_out。

X_out＝X′_Attention+X_hidden (12)

通过式(1)至(12)即完成Transformer Block的构建，如图3(B)所示。

(2)设计Transformer迁移学习模型架构

充分考虑横纵向非匀质性，设计Transformer迁移学习模型架构，解决源域与目标域数据不满足独立同分布，模型预测误差大的问题。如图2所示，D_s代表源域，D_s＝(x_s,y_s)。D_t代表目标域，D_t＝(x_s)。其中x代表测井数据，y代表储层参数，如孔隙度等。源域包含测井数据和储层数据，目标域没有储层参数。两者数据概率分布不同，P(x_s)≠P(x_t)。本发明设计Transformer迁移学习模型架构，使得前向计算输出预测结果和数据分布差异。具体分两步构建迁移学习架构。第一，引入度量源域与目标域数据差异的准则—最大均值差异。第二，融入最大均值差异，构建迁移学习网络架构。

第一，本发明利用最大均值差异度量(Maximum Mean Discrepancy，MMD)寻找源域与目标域的差异。差异越小，相似性越大。最大均值差异是对两个样本概率分布之间差异的度量。如果均值差异较大，则说明两个样本来自不同的分布。最大均值差异度量计算如下式(13)。

/>

x和y为输入空间不同分布的数据，即本发明中分别代表源域和目标域的测井特征数据。n和m为样本数量，H表示为再生希尔伯特空间(RKHS)(Borgwardt et al.，2006)，为映射函数，将输入空间数据映射到再生希尔伯特空间。

最大均值差异的关键在于如何找到合适的来作为映射函数。将式(13)平方项展开，得如下式(14)所示：

公式(14)中出现与核函数k(·)相联系简化运算。本发明选用高斯核函数作为最大均值差异的核函数(Gretton et al.，2012；Steinwart.，2002)。高斯核函数如式(15)所示，带入式(14)中，即可得最终计算公式(16)：

第二，基于Transformer Block特征提取网络结构和全连接神经网络，融入最大均值差异，设计迁移模型。整体迁移架构如下图2所示，图2中f代表最大均值差异。训练过程中，源域测井数据与目标域测井数据经过不同的Transformer Block和全连接神经网络前向计算，获得不同的特征数据。前向计算过程见式(1)至式(12)。对源域和目标域特征，使用最大均值差异计算其数据分布差异。图2中上半部分为源域前向计算分支，源域有岩心数据，源域测井数据前向计算，获得储层预测输出。图2中下半部份为目标域前向计算分支，没有岩心数据，目标域特征数据仅与源域特征数据计算数据分布差异。源域和目标域网络保持权重共享，即共用权重系数矩阵w和偏置向量b。

(3)设计迁移学习网络优化准则—损失函数

基于构建的Transformer迁移学习模型架构，设计指导模型训练的准则—损失函数。指导模型训练，调优模型参数，最终实现知识迁移。即优化迁移学习网络参数权重矩阵w和偏置向量b，使得模型预测误差最小。本发明损失函数由均方误差与最大均值差异构成。损失函数反映模型与实际数据差距，并将这种差异反向传播，调节模型权重系数矩阵w和偏置向量b，实现源域与目标域知识的迁移。

均方损失为源域数据预测值与源域储层真实值的均方差异，最大分布差异损失为源域与目标域测井特征分布差异，总体损失函数设计如下式(17)所示。

其中f为最大均值差异损失，如公式(16)所示，均方损失计算过程如下式(18)，代表源域预测的储层参数，y_s代表源域实际的储层参数。s_i＝1,2,3代表源域数据经过Transformer Block网络、全连接神经网络提取的隐藏层特征，t_j＝1,2,3代表目标域数据经过Transformer Block特征提取网络、全连接神经网络提取的隐藏层特征。λ_k＝1,2,3是0到1之间的超参数。/>

式中：是预测值向量，Y是真实值向量，/>为L2范数。

利用式(17)算出损失值反向传播，利用随机梯度下降算法最小化损失函数，最终目标是调整网络权重系数矩阵w和偏置向量b。使网络在训练过程中不仅实现准确预测，并将源域和目标领域特征数据分布拉近，数据分布越接近，数据间相似性增加。通过训练，网络不仅利用源域知识学会储层预测，而且找到了源域与目标域数据相似性，此时目标域经过红色网络分支前向计算，会获得准确的计算结果。

反向传播，基于公式(17)计算出损失值，通过链式法则对w和b进行求导，最后使用随机梯度下降算法，调整网络w和b。

如图2所示，网络的训练过程如下。

首先，将源域测井数据经过Transformer Block特征提取网络与全连接神经网络(Linear Layer)前向计算。获得源域储层参数预测结果，并与源域实测岩心储层参数计算均方误差。其次，目标域测井数据经过Transformer Block特征提取网络和全连接神经网络前向计算。目标域没有岩心标签，通过训练模型找到与源域数据的相似性，并实现源域知识的迁移。本发明使用最大均值差异计算源域与目标域特征数据分布差异。将均方误差与最大均值差异作为网络损失函数，基于损失值反向传播，使用链式法则对网络参数w和b求导，通过随机梯度下降算法，优化网络参数。网络训练完成后，目标域和源域实现了知识交互，网络找到了源域与目标域的数据相似性。最后将目标域测井数据输入源域网络，即可获得目标域储层预测结果。

测井曲线异常值处理

在网络训练之前，需要对源域测井数据异常进行预处理，防止模型训练的过程学到错误信息，误导目标域学到源域错误的数据知识。测井数据采集过程中不可避免会存在一些扰动，生成少量异常的错误数据。异常数据占总样本量的比例很小，异常点的特征值与正常点的差异很大。本发明采用孤立森林算法实现测井数据异常值检测和处理。孤立森林(Isolation Forest)(Liu et al.，2012)是一种无监督的快速异常检测方法，具有线性时间复杂度和高精准度，适用于连续的结构化数据处理异常值。

本发明用一个随机的超平面分割数据空间，将其分为两个子空间，再对子空间进行分割，直到每个子空间里只有一个数据点，由此形成孤立树。每个叶子节点都只包含一个数据节点，异常的数据密度低，因此会很快停留在一个子空间。根据叶子节点到根节点的路径长度，判断数据是否是离群点。

算法构建包括两个部分。首先，本发明设置孤立树量为125，组成孤立森林模型。其次，将源域建模测井数据遍历孤立树，计算出测井数据异常分值。源域测井参数本发明选用自然伽马(GR)、无铀伽马(KTH)、声波(AC)、补偿密度(DEN)、铀(U)。测井数据x遍历所有孤立树后，记录x每棵孤立树的高度h(x)，计算x的平均深度，对平均深度进行归一化得到数据点x的异常分值。为了保证异常分值能准确表示数据的异常程度，采用式(21)计算。

其中E(.)是x在多个孤立树高度h(x)的期望。用作归一化，是二叉树平均高度，如式(22)和式(23)所示，H为调和数，其中ξ为欧拉常数。

测井数据由式(21)计算出异常分值，s(x)越接近1，表示数据异常可能性大。越接近0，表示样本是正常样本可能性大。当所有数据的s(x)接近0.5时，则表示数据集无异常数据。因此本发明将s(x)大于0.5的测井数据剔除，其余测井数据作为源域建模数据。

实施例1

步骤1：选取已开发工区A1井、A2井和A3井五峰组—龙马溪组测井曲线和岩心数据作为源域建模数据，建模源域测井参数选用自然伽马(GR)、无铀伽马(KTH)、声波(AC)、补偿密度(DEN)、铀(U)，也可以选择其他测井参数，但测井参数选择应保证不少于3个。源域井的数量不限，但需要保证建模数据数量不低于600。依据实际需求选择岩心数据作为建模岩心标签数据，岩心数据包含孔隙度(POR)、总有机碳含量(TOC)、总含气量(GAST)和脆性指数(BI)等。目标域B井仅包含测井曲线，需要预测五峰组—龙马溪组储层核心参数，B井选取和源域同样的测井参数。

步骤2：将源域测井数据使用孤立森林异常值处理，剔除异常分数大于0.5的测井数据剔除，异常分数小于等于0.5的测井数据作为源域建模数据，目标域测井数据属于测试数据，不做异常值处理。

步骤3：对源域和目标域测井数据分别标准化处理。实际的测井数据，各个特征量纲不一致，特征值分布差异大。测井数据的标准化处理，将其变换为均值为0，标准差为1的正态分布数据。可以有效消除参数间的数量级和量纲影响，加速收敛及提高模型预测精度。数据标准化公式如下式(24)所示：

步骤4：源域与目标域测井数据经过标准化处理后，输入Transformer迁移学习网络训练模型。首先对网络参数进行初始化，源域与目标域测井数据在Transformer迁移学习网络结构中进行前向计算，Transformer迁移学习网络结构由Transformer Block特征提取网络和全连接神经网络构成。源域和目标域测井数据通过Transformer Block(计算过程见式1至式12)和全连接神经网络(计算过程见式5)前向计算，将数据映射到高维空间。通过网络损失函数(式17)计算损失值，利用最大均值差异分别计算不同特征层的数据分布差异。源域有岩心标签，源域前向计算分支输出储层预测值，计算预测值与真实岩心数据的均方损失。基于损失值然反向传播，调优网络参数。基于计算的损失值通过链式法则对网络参数求导，使用随机梯度下降算法更新网络参数(式19和式20)。最后通过记录模型每一次计算的损失值曲线(如图4所示)，当损失值收敛后，停止网络训练，保存网络损失值最小的网络参数。

步骤5：模型完成训练后，模型获取到了源域和目标域的数据知识，模型能自动找到了源域与目标域的相似性，目标域测井数据经过源域分支前向计算，即可获得目标域B井储层预测结果。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的实施方法，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于测井数据的深度Transformer迁移学习储层参数预测方法，其特征在于，包括以下步骤：

步骤1：选取工区已有的测井曲线和岩心数据作为建模数据，建模数据以下简称源域，源域测井参数选取：自然伽马(GR)、无铀伽马(KTH)、声波(AC)、补偿密度(DEN)、铀(U)，测井参数选择应保证不少于3个，源域选取井来源可以不同，但需要保证建模数据数量不低于600，各井层位选取相同，依据实际需求选择岩心数据作为建模岩心标签数据，岩心数据包括：孔隙度(POR)、总有机碳含量(TOC)、总含气量(GAST)和脆性指数(BI)，需要预测储层参数的井区，以下简称目标域，仅包含测井曲线，目标域选取和源域同样的测井参数，层位与源域对应；

步骤2：将源域测井数据使用孤立森林异常值处理，剔除异常分数大于预设值的测井数据剔除，异常分数小于等于预设值的测井数据作为源域建模数据，目标域测井数据属于测试数据，不做异常值处理；

步骤3：对源域和目标域测井数据分别标准化处理；将测井数据变换为均值为0，标准差为1的正态分布数据；有效消除参数间的数量级和量纲影响，加速收敛及提高模型预测精度；数据标准化公式如下式(1)所示：

是标准化后的测井数据；x是标准化前的测井数据；μ是测井数据的均值；σ是测井数据的标准差；

步骤4：源域与目标域测井数据经过标准化处理后，输入Transformer迁移学习网络训练模型，首先对网络参数进行初始化，源域与目标域测井数据在Transformer迁移学习网络结构中进行前向计算，Transformer迁移学习网络结构由Transformer Block特征提取网络和全连接神经网络构成，源域和目标域测井数据通过Transformer Block和全连接神经网络前向计算，将数据映射到高维空间，通过网络损失函数计算损失值，利用最大均值差异分别计算不同特征层的分布差异，源域有岩心标签，源域前向计算分支输出储层预测值，计算预测值与真实岩心数据的均方损失，基于损失值反向传播，调优网络参数，计算的损失值通过链式法则对网络参数求导，使用随机梯度下降算法更新网络参数，最后通过记录模型每一次计算的损失值曲线，当损失值收敛后，停止网络训练，保存网络损失值最小的网络参数，

2.根据权利要求1所述的深度Transformer迁移学习储层参数预测方法，其特征在于：步骤2中将源域测井数据使用孤立森林异常值处理具体如下：

用一个随机的超平面分割数据空间，将其分为两个子空间，再对子空间进行分割，直到每个子空间里只有一个数据点，由此形成孤立树；每个叶子节点都只包含一个数据节点，异常的数据密度低，因此会很快停留在一个子空间；根据叶子节点到根节点的路径长度，判断数据是否是离群点；

构建包括两个部分；首先，设置孤立树量为125，组成孤立森林模型；其次，将源域建模测井数据遍历孤立树，计算出测井数据异常分值；测井数据x遍历所有孤立树后，记录x每棵孤立树的高度h(x)，计算x的平均深度，对平均深度进行归一化得到数据点x的异常分值；为了保证异常分值能准确表示数据的异常程度，采用式(4)计算；

其中E(.)是x在多个孤立树高度h(x)的期望；用作归一化，是二叉树平均高度，如式(5)和式(6)所示，H为调和数，其中ξ为欧拉常数；

测井数据由式(4)计算出异常分值，s(x)越接近1，表示数据异常可能性大；越接近0，表示样本是正常样本可能性大；当所有数据的s(x)接近0.5时，则表示数据集无异常数据；将s(x)大于0.5的测井数据剔除，其余测井数据作为源域建模数据。

3.根据权利要求1所述的深度Transformer迁移学习储层参数预测方法，其特征在于：步骤4中Transformer Block网络结构中进行前向计算过程如下：

步骤4.1、输入测井数据X＝[x₁,x₂,x₃...x_n]，简写为其中n代表测井数据数量，其中d代表数据的维度，输入测井数据通过线性映射，得到X_Embedding，其中m代表数据的维度，即将每个测井特征映射到高维空间中，线性映射使用1×1的卷积，卷积通道数设置为m，进一步对数据X_Ebedding进行LayerNormalization，得到X_LN，Layer Normalization公式(7)所示：

其中x代表输入数据，E代表均值，Var代表方差；

步骤4.2、构建矩阵向量Q,K,V，通过创建三个权重矩阵，将X_LN映射到3个不同的空间中，即W_Q,W_K,使用3个全连接神经网络对X_LN做线性映射，形成三个新的向量形式Q,K,V，其中V代表从X_LN中提取得到的信息，Q与K是特征相关性信息，计算公式如式(8)、式(9)和式(10)所示：

Q＝Linear(X_LN)＝X_LNW_Q (8)

K＝Linear(X_LN)＝X_LNW_K (9)

V＝Linear(X_LN)＝X_LNW_V (10)

全连接神经网络如计算公式(11)所示，其中为l层第i个神经元的输入，/>为/>连接到/>的权重，/>为l层第i个神经元的输出，/>为第l层第i个神经元的输入对应偏置；

步骤4.3、对Q,K,V进行平均分组，并进行注意力机制计算，将Q,K,V均分成h组，即均分为h个头部(Q₀,K_0,V₀),...,(Q_h,K_h,V_h)，每个头部在不同的空间中计算注意力机制，对单个头部的注意力机制计算公式如下式(12)所示：

其中V代表从X_LN中提取得到的信息，d_k代表X的维度d，Q与K^T点乘计算两者的相关性，softmax函数将Q与K^T点乘后的矩阵映射到0～1之间，softmax计算公式如下式(13)：

其中a_i代表输入的第i个变量，k表示类别；

步骤4.4、融合不同头部提取更丰富的特征信息，多头融合特征如下公式(14)所示：

X_Attention＝MultiHead(Q,K,V)＝

Concat(Attention(Q₁,K₁,V₁),...,Attention(Q_h,K_h,V_h))W^O (14)

其中Concat代表将不同组的注意力机制特征进行拼接，W^O矩阵作用是将多个注意力机制获得的特征进行融合，由全连接神经网络实现，

残差连接直接将X_Embedding与经过Layer Normalization和MultiHead(Q,K,V)运算后的X_Attention进行矩阵相加得到X′_Attention，如下公式(15)所示：

X′_Attention＝X_Embedding+X_Attention (15)

前馈神经网络由全连接神经网络、GELU激活函数和神经元丢弃率组成，设置的第一个全连接神经网络神经元数量为256，是第二个全连接神经网络神经元数量的4倍，神经元丢弃率设置为20％，

X_hidden＝Linear(GELU(Linear(X′_Attention))) (16)

其中Linear计算过程如式(11)所示，GELU激活函数给神经元网络引入非线性因数，使得神经网络可以逼近任何非线性函数，近似计算如下式(17)所示：

最后将X′_Attention与经过前馈神经网络计算后的X_hidden进行残差连接，得到输出X_out，

X_out＝X′_Attention+X_hidden (18)。

4.根据权利要求1所述的深度Transformer迁移学习储层参数预测方法，其特征在于：所述Transformer迁移学习模型架构的构建如下：

基于Transformer Block特征提取网络和全连接神经网络前向计算，分两步构建迁移学习架构，第一，引入度量源域与目标域数据差异的准则—最大均值差异，第二，融入最大均值差异，构建迁移学习网络架构，

第一，最大均值差异度量计算如下式(19)：

x和y为输入空间不同分布的数据，即分别代表源域和目标域的测井特征数据，n和m为样本数量，H表示为再生希尔伯特空间，为映射函数，将输入空间数据映射到再生希尔伯特空间，

将式(19)平方项展开，得如下式(20)所示：

公式(20)中出现与核函数k(·)相联系简化运算，选用高斯核函数作为最大均值差异的核函数，高斯核函数如式(21)所示，带入式(20)中，即可得最终计算公式(22)：

其中k(u,v)为空间中任一点u到某一中心v之间欧氏距离的单调函数，σ是带宽，控制径向作用范围，

第二，融入最大均值差异，经过Transformer Block特征提取网络和全连接神经网络前向计算，获得各层源域和目标域特征数据，使用最大均值差异计算特征数据分布差异，源域有岩心数据，源域测井数据前向计算，获得储层预测输出，目标域没有岩心数据，仅与源域各层特征数据计算最大均值差异，源域和目标域网络保持权重共享，即共用权重系数矩阵w和偏置向量b。

5.根据权利要求4所述的深度Transformer迁移学习储层参数预测方法，其特征在于：步骤4中所述整体损失计算如下式(23)所示：

其中f为最大均值差异损失，如公式(22)所示，均方损失计算过程如下式(24)，代表源域预测的储层参数，y_s代表源域实际的储层参数，s_i＝1,2,3代表源域数据经过TransformerBlock网络、全连接神经网络提取的隐藏层特征，t_j＝1,2,3代表目标域数据经过TransformerBlock特征提取网络、全连接神经网络提取的隐藏层特征，λ_k＝1,2,3是0到1之间的超参数，

式中：是预测值向量，Y是真实值向量，/>为L2范数，

利用式(23)算出损失值。

6.根据权利要求5所述的深度Transformer迁移学习储层参数预测方法，其特征在于：步骤4中反向传播，使用随机梯度下降算法更新网络参数具体如下：

基于公式(23)计算出损失值，通过链式法则对网络权重系数矩阵w和偏置向量b进行求导，最后使用随机梯度下降算法，调整网络w和b，

其中w^*是使用随机梯度下降算法后优化的权重系数矩阵，b^*是使用随机梯度下降算法后优化的偏置向量，η是学习率，用来调节w和b优化速度，本发明方法学习率为0.001。