CN105426626B

CN105426626B - 基于相似数据样式聚类的多点地质统计学建模方法

Info

Publication number: CN105426626B
Application number: CN201510903204.0A
Authority: CN
Inventors: 喻思羽; 李少华; 段太忠
Original assignee: Yangtze University
Current assignee: Yangtze University
Priority date: 2015-12-08
Filing date: 2015-12-08
Publication date: 2018-09-25
Anticipated expiration: 2035-12-08
Also published as: CN105426626A

Abstract

本发明公开了一种基于相似数据样式聚类的多点地质统计学建模方法，它对样式数据库的所有数据样式做了降维计算，把相同的降维数据样式所对应的数据样式归为同一类即相似数据样式聚类，并计算相似数据样式聚类的数据样式代表，在模拟过程中，将待估点u处的数据事件与数据样式代表进行相似性计算，再与最相似的数据样式代表对应的相似数据样式聚类中所有数据样式进行相似性计算，得到最相似数据样式。而SIMPAT算法在模拟过程中，需将待估点u处的数据事件与样式数据库中所有数据样式进行相似性计算。因此，相比SIMPAT算法，本发明大大提高了多点地质统计学建模算法的效率。

Description

基于相似数据样式聚类的多点地质统计学建模方法

技术领域

本发明涉及储层地质建模技术领域，具体是指一种基于相似数据样式聚类的多点地质统计学建模方法。

背景技术

多点地质统计学是相对于基于变差函数的两点地质统计学而言的。在两点统计里，储集层相关性通过空间两点协方差(变差函数)进行描述。在多点统计里，则是利用空间多个点组合模式进行描述。空间多点组合样式称为数据样板，如果在空间点赋予了值，则为一个特定的空间多点组合模式，称为数据事件。在建模时，对每一个未知点，估计在其处满足给定条件的数据事件出现的概率，随后抽样获得未知点处值或者数据事件，即完成单次模拟。一旦所有节点得到访问，即完成一次模拟实现。

基于多点地质统计学建模算法对油田高效开发具有重要支持作用。Arpat在2003年Stanford油藏预测中心会议上提出基于样式的多点地质统计学算法SIMPAT。SIMPAT是一种完全不同于传统建模的多点统计方法，它结合了计算机视觉及图像处理方面的理论，将地下储集层建模作为储集层图像的恢复过程。采用相似性方法对地下储集层进行图像恢复和再现。数据事件与数据样式之间的相似性由曼哈顿距离函数来表述：

其中，dev_T(u)表示待估点u处的数据事件，pat_T为训练图像内的数据样式，n_T为数据事件的样板框架包含的点的个数，h是节点的向量。选择训练图像中最相似的数据样式替换待估点处数据事件。直至所有待估点都访问并模拟，完成一次随机模拟实现。

随着油田开发的不断深入，地质研究的精度越来越高，从而地质模型的尺度越来越小，例如很多开发中后期的老油田，地质建模的精度达到平面网格划分为10m×10m，纵向0.5m，甚至更小。目前普遍采用随机模拟技术建立地质模型，通常需要建立多个地质模型实现(如100个)，甚至是三维模型。因此，地质建模的效率逐渐成为关注的热点问题。计算热点是程序代码需要耗费大量时间运行的部分，通常是计算性能瓶颈。SIMPAT算法的计算热点主要是数据事件与数量庞大的样式数据库中所有数据样式的相似性计算，因此，计算性能成为普及基于数据样式建模算法的瓶颈。

因此，亟需研究一种针对SIMPAT算法的加速计算改进方法，从而能高效地使用样式相似度匹配策略进行多点地质统计建模。

发明内容

本发明的目的在于提供一种基于相似数据样式聚类的多点地质统计学建模方法，相比SIMPAT算法，本发明大大提高了多点地质统计学建模算法的效率。

为实现上述目的，本发明采用以下技术方案：本发明基于相似数据样式聚类的多点地质统计学建模方法，包括以下步骤：

1)将数据样板扫描训练图像，得到由多个数据样式组成的样式数据库；

2)将样式数据库中的所有数据样式进行等间距取样，得到降维数据样式；将相同的降维数据样式对应的数据样式归位同一类，得到相似数据样式聚类；

3)计算相似数据样式聚类的数据样式代表；

4)构建模拟实现的随机路径；

5)遍历随机路径中的待估点u，将数据样板扫描模拟实现获得待估点u处的数据事件；

6)将待估点u处的数据事件与数据样式代表进行相似性计算，得到与待估点u处的数据事件最相似的数据样式代表，再计算待估点u处的数据事件与最相似的数据样式代表对应的相似数据样式聚类中所有数据样式进行相似性计算，得到最相似数据样式；

7)最相似数据样式替换待估点u处的数据事件；

8)重复步骤5)至步骤7)的操作，直至随机路径中所有待估点都访问完毕；

在步骤3)中，对相似数据样式聚类中所有数据样式进行点对点取平均值得到数据样式代表，数据样式代表的节点计算公式为：

其中，G_repat为数据样式代表的网格体，G_pat为相似数据样式聚类中任一个数据样式的网格体，N是相似数据样式聚类中数据样式的总数，i、j、k分别表示数据样式或数据样式代表的数据载体网格体的网格单元的X方向索引、Y方向索引、Z方向索引。

优选地，在步骤2)中，采用等间距取样法对样式数据库中任一数据样式的网格单元进行等间距取样，得到降维数据样式，等间距取样的公式为

G_ThumPat(i,j,k)＝G_Pat(i×r_i,j×r_j,k×r_k)，

其中r_i＝I_Pat/I_ThumPat，r_j＝J_Pat/J_ThumPat，r_k＝K_Pat/K_ThumPat，G_ThumPat为降维数据样式的网格体，G_Pat为数据样式的网格体，I_Pat、J_Pat、K_Pat表示数据样式的数据载体网格体在X方向、Y方向和Z方向的维度，I_ThumPat、J_ThumPat、K_ThumPat表示降维数据样式的数据载体网格体在X方向、Y方向和Z方向的维度，i、j、k分别表示数据样式或降维数据样式的数据网格体的网格单元的X方向索引、Y方向索引、Z方向索引。

再进一步地，在步骤6)中，待估点u处的数据事件与数据样式代表之间、待估点u处的数据事件与数据样式之间的相似性通过曼哈顿距离函数来计算，曼哈顿距离函数为

或

其中，其中，dev_T(u+h_α)表示待估点u处的数据事件，repat_T(h_α)、pat_T(h_α)分别表示数据样式代表、数据样式。

本发明的有益效果在于：本发明对样式数据库的所有数据样式做了降维计算，把相同的降维数据样式所对应的数据样式归为同一类即相似数据样式聚类，并计算相似数据样式聚类的数据样式代表，在模拟过程中，将待估点u处的数据事件与数据样式代表进行相似性计算，再与最相似的数据样式代表对应的相似数据样式聚类中所有数据样式进行相似性计算，得到最相似数据样式。而SIMPAT算法在模拟过程中，需将待估点u处的数据事件与样式数据库中所有数据样式进行相似性计算。因此，相比SIMPAT算法，本发明大大提高了多点地质统计学建模算法的效率。

附图说明

图1为数据样板扫描训练图像建立样式数据库的原理图；

图2为数据样式进行等间距取样得到降维数据样式的原理图；

图3为相似数据样式聚类、降维数据样式和数据样式代表的关系图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步的详细描述，但该实施例不应该理解为对本发明的限制。

为了很好地理解本发明，下面给出相关术语解释：

1、网格单元C：沿着X方向、Y方向和Z方向上具有指定长(ISize)、宽(JSize)、高(KSize)的矩形立方单元，网格单元C存储具体数值代表其属性。

2、网格体G：由若干网格单元C构成的三维结构体，在X方向、Y方向和Z方向的维度是I×J×K，本质是三维矩阵。G(i，j，k)的含义是网格体中X方向的索引为i、Y方向索引为j、Z方向索引为k的网格单元。

3、训练图像TI：是指先验地质概念模型，其采用网格体G_TI作为数据载体，是能够表述实际储层结构、几何形态及其分布模式的数字化模型。

4、模拟实现R：是指模拟的模型结果，其采用网格体G_R作为数据载体，是能够表述实际储层结构、几何形态及其分布模式的数字化模型。

5、数据样板T：是指围绕中心单元对称的结构体，其采用网格体G_T作为数据载体，是能够表述实际储层结构、结合形态及其分布模式的局部数字化模型，是基于样式的多点地质统计学建模方法的基本结构单元。

6、数据样式Pat：是指将数据样板T为框架扫描训练图像TI得到的局部空间数据组合体，其采用网格体G_Pat作为数据载体。

7、数据事件Dev：是指将数据样板T为框架扫描模拟实现R得到的局部空间数据组合体，其采用网格体G_Dev作为数据载体。

6、样式数据库PatDB：是指将数据样板T扫描训练图像TI获取的所有数据样式Pat的集合。

8、降维数据样式ThumPat：将样式数据库PatDB中的所有数据样式Pat进行等间距取样，得到降维数据样式。

9、相似数据样式聚类PatC：将样式数据库PatDB中的所有数据样式Pat进行等间距取样，得到降维数据样式，然后将相同的降维数据样式所对应的数据样式归位同一类，得到相似数据样式聚类。

10、数据样式代表RepPat：是采用点对点计算平均值方法对某一相似数据样式聚类PatC内所有数据样式Pat做计算处理，得到表示该相似数据样式聚类PatC主要特点的数据样式。

本发明提供一种基于相似数据样式聚类的多点地质统计学建模方法，包括以下步骤：

1)将数据样板扫描训练图像，得到由多个数据样式组成的样式数据库，图1所示；

2)将样式数据库中的所有数据样式进行等间距取样，得到降维数据样式，如图2所示；将相同的降维数据样式对应的数据样式归位同一类，得到相似数据样式聚类，如图3所示。其中，采用等间距取样法对样式数据库中任一数据样式的网格单元进行等间距取样，得到降维数据样式，等间距取样的公式为

G_ThumPat(i,j,k)＝G_Pat(i×r_i,j×r_j,k×r_k)

其中r_i＝I_Pat/I_ThumPat，r_j＝J_Pat/J_ThumPat，r_k＝K_Pat/K_ThumPat，G_ThumPat为降维数据样式的网格体，G_Pat为数据样式的网格体，I_Pat、J_Pat、K_Pat表示数据样式的数据载体网格体的X方向、Y方向和Z方向的维度，I_ThumPat、J_ThumPat、K_ThumPat表示降维数据样式的数据载体网格体的X方向、Y方向和Z方向的维度，i、j、k分别表示数据样式或降维数据样式的数据载体网格体的网格单元的X方向索引、Y方向索引、Z方向索引。

3)计算相似数据样式聚类的数据样式代表，如图3所示。其中，对相似数据样式聚类中所有数据样式进行点对点取平均值得到数据样式代表，数据样式代表的节点计算公式为：

4)构建模拟实现的随机路径；

6)将待估点u处的数据事件与数据样式代表进行相似性计算，得到与待估点u处的数据事件最相似的数据样式代表，再计算待估点u处的数据事件与最相似的数据样式代表对应的相似数据样式聚类中所有数据样式进行相似性计算，得到最相似数据样式。其中，待估点u处的数据事件与数据样式代表之间、待估点u处的数据事件与数据样式之间的相似性通过曼哈顿距离函数来计算，曼哈顿距离函数为

或

其中，dev_T(u+h_α)表示待估点u处的数据事件，repat_T(h_α)、pat_T(h_α)分别表示数据样式代表、数据样式。

7)最相似数据样式替换待估点u处的数据事件；

8)重复步骤5)至步骤7)的操作，直至随机路径中所有待估点都访问完毕。

下面分别采用SIMPAT算法和本发明算法对以两幅二值图像作为训练图像计算100个非条件模拟实现，比较两者算法的计算耗时来检验本发明算法在提高建模效率方面的改进效果。其一是二维Largetrain河流相数字模型，其维度为250×250，网格单元尺寸为1m×1m。另一个是三维fluvsim河流相数字模型，其维度为69×69×39，网格单元尺寸是1m×1m×1m。

参见表1，采用SIMPAT算法和本发明算法计算100个非条件模拟实现的计算耗时对比：(1)以二维Largetrain河流相数字模型作为训练图像，模拟实现的网格体维度为250×250，数据样板的维度为9×9，降维数据样式的维度为5×5，SIMPAT的计算耗时是5245秒，本发明算法的计算耗时是204秒，本发明算法的计算效率相比SIMPAT算法提高25倍；(2)以三维fluvsim河流相数字模型作为训练图像，模拟实现的网格体维度为69×69×39，数据样板的维度为11×11×5，降维数据样式的维度为5×5×3，SIMPAT的计算耗时是96588秒，本发明算法的计算耗时是1498秒，本发明算法的计算效率相比SIMPAT算法提高64倍。

表1SIMPAT算法和本发明算法计算100个模拟实现的计算耗时对比表

从表1可以看出，本发明大大提高了多点地质统计学建模算法的效率。

本说明书中未作详细描述的内容，属于本专业技术人员公知的现有技术。

Claims

1.一种基于相似数据样式聚类的多点地质统计学建模方法，其特征在于：包括以下步骤：

3)计算相似数据样式聚类的数据样式代表；

4)构建模拟实现的随机路径；

7)最相似数据样式替换待估点u处的数据事件；

其中，G_repat(i,j,k)为数据样式代表的网格体，G_pat(i,j,k)为相似数据样式聚类中任一个数据样式，N是相似数据样式聚类中数据样式的总数，i、j、k分别表示数据样式或数据样式代表的数据载体网格体的网格单元的X方向索引、Y方向索引、Z方向索引。

2.根据权利要求1所述的基于相似数据样式聚类的多点地质统计学建模方法，其特征在于：在步骤2)中，采用等间距取样法对样式数据库中任一数据样式的网格单元进行等间距取样，得到降维数据样式，等间距取样的公式为

G_ThumPat(i,j,k)＝G_Pat(i×r_i,j×r_j,k×r_k)，

3.根据权利要求1所述的基于相似数据样式聚类的多点地质统计学建模方法，其特征在于：在步骤6)中，待估点u处的数据事件与数据样式代表之间、待估点u处的数据事件与数据样式之间的相似性通过曼哈顿距离函数来计算，曼哈顿距离函数为

或