CN112102322A

CN112102322A - 一种基于多模态U-Net的断层识别方法

Info

Publication number: CN112102322A
Application number: CN202010970839.3A
Authority: CN
Inventors: 姚兴苗; 汪雅婷; 胡光岷
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2020-12-18

Abstract

本发明公开一种基于多模态U‑Net的断层识别方法，应用于断层识别领域，针对现有技术的研究基本上都是单一输入，而单一属性通常存在多解性问题，对于刻画异常体的边缘细节难以保证准确性；本发明通过提取断层原始振幅数据的相干体属性和蚂蚁体属性，将包括原始地震数据在内的三种属性作为输入数据，构建多输入的U‑Net卷积神经网络，在网络中使用密集连接来进行三种属性的特征融合，最后实现断层识别；本发明通过实验分析证明了多模态融合和U‑Net网络识别断层技术二者的结合很好的实现了断层的分割。

Description

一种基于多模态U-Net的断层识别方法

技术领域

本发明属于地震数据处理领域，特别涉及一种断层识别技术。

背景技术

在地质勘探研究中，断层解释是地震资料解释的核心，它直接影响到油气田勘探开采的准确性。断层本身形态复杂，分布无规律，采用传统人工标注的方法会耗费大量的人力物力。因此，业界学术界将目光逐渐转向对断层进行智能解释。基于深度学习的计算机视觉方法可以挖掘数据中的高维信息，且能完成目标特征的自动提取，是目前的科学研究热点。将地震数据看作图像，可以利用深度学习的方法去解决断层识别问题。

目前对断层的识别和解释多是基于单一属性进行的，虽然存在多模态融合的方法，但都是利用算法进行多模态融合，依赖于人工并且需要花费大量时间，难以满足当前勘探开发需求。另一方面，随着人工智能技术的发展，基于卷积神经网络进行断层识别研究逐渐成为研究热点，但目前的研究基本上都是单一输入，而单一属性通常存在多解性问题，对于刻画异常体的边缘细节难以保证准确性。

相关技术的研究情况如下：

1U-Net模型

图像分割把图像按照区域差异性分割为多个互不重叠的子区域。它在宏观层面上可以理解为把图像分割为多个区域并赋予每个分割区域以内容，在微观层面上可以理解为对图像中每一个像素点进行分类，并确定每个点的类别，从而进行区域划分。整个分割要求是像素级别的精确分割。U-Net卷积神经网络是用于图像分割的经典网络，网络模型如图1所示。

U-Net网络是一种具有独特的对称结构的语义分割模型。分为左右两个部分，左半部分是编码即下采样部分，重复使用2个卷积层和一个最大池化层的结构进行特征提取；右半部分是解码即上采样部分，在这个过程中，U-Net通过4个跳层连接构建了多条特征通道来实现高层特征图与底层特征图的拼接、结合，从而极大地提高了对图像像素级定位的精度，接着通过多次反卷积和卷积将特征图还原。

目前地震勘探领域有使用U-Net网络进行断层识别的，但是输入数据一般都是断层的原始数据。2019年，X.M.Wu提出以U-Net为基础的faultSeg3D神经网络模型，通过学习大量的理论数据样本实现了对实际工区断层分布的预测，并对比了多种断层识别方法，识别准确率达到了业界较高水平。但是该方法识别的断层细化程度不够高，仍存在改进的空间，没有考虑到地震属性与深度学习的结合以及地震属性对于断层识别的影响。

2地震属性融合方法

随着获取的地震属性越来越丰富，其中包含的信息也越来越多，一方面，由于地下结构的复杂以及目前技术的限制，基于单一属性的地震数据解释存在多解性和对地质构造刻画不准确的问题；另一方面，许多地震属性得到的信息有些会彼此联系甚至产生冗余的信息。为了解决以上问题，地震属性融合技术应运而生，常用的地震属性融合方法有以下几种：

1)、基于RGB的地震属性融合方法

RGB模型实际上指的是通过混合红、绿、蓝三种颜色生成各种色彩的模型，其中任意一种颜色都可以由这三种颜色通过一定的百分比混合而成。在传统的地震数据解释中，地震数据的显示是黑白的，或者是灰度图显示。Balsh在1917年首次通过彩色图像显示地震数据，其目的是更加直观的利用地震资料。这种彩色显示是通过将单一属性映射成彩色图像，为异常体解释提供了一种有效手段。然而，单一属性的分别彩色显示对于地震数据的整体趋势难以明显反映，对于地质构造的特征也不能准确刻画。因此，为了解决单一属性带来的弊端，地质学家提出了将RGB颜色模型应用到多模态融合中。基于RGB的多模态融合技术主要思路主要为：首先对属性进行优选，选出三种对于异常体较为敏感的属性；然后将选出的三种地震属性通过RGB模型映射到RGB颜色空间，再对其进行异常体解释。

2)、基于ISOLLE的属性融合方法

基于改进的局部线性嵌入(Isometric Locally Linear Embedding，ISOLLE)的属性融合方法是姚兴苗等提出的一种利用ISOLLE算法进行三维数据的多模态融合方法。由于地震属性与地质特征的关系通常是非线性的，基于线性变换的PCA方法不能充分地反映这种非线性关系，降低了预测识别的精度。Liu首次使用非线性的局部线性嵌入降维算法(Locally Linear Embedding，LLE)实现了层间属性特征提取。但LLE降维算法采用的是欧式距离计算点与点之间的距离，并不能反映点之间的真实结构，且对近邻个数的选择十分敏感。因此，ISOLLE算法引入了等距映射的思想，没有采用欧氏距离，而是使用了测地距离。这样，该算法既保留了LLE算法处理高维流形数据的优势，又提高了在相应低维空间中数据的紧密性和局部邻域数据的线性特征。基于ISOLLE算法的属性融合方法将ISOLLE方法首次应用到三维河道地震数据的多模态融合中，选取几种属性融合成为新的属性体，扩展到三维空间。

设数据集为X＝{x₁,x₂,…,x_N}∈R^M×N，其中第i个点的属性值为

则两点之间的欧式距离d_E(x_i,x_j)表示为公式(1)。

假设在样本点x_i和x_j之间存在一条路径U＝{x_i,…,x_j}，|U|表示该路径中的元素个数，则两点之间的路径长度

如公式(2)所示。

因此，对于存在多条路径{U₁,U₂,…,U_m}的两点x_i和x_j，他们的测地距离d_G(x_i,x_j)如公式(3)所示。

虽然存在多模态融合的方法识别地震数据，但是目前尚未有将断层多模态融合与深度学习相结合的技术。

发明内容

针对传统深度学习模型不能充分利用地震数据属性的问题，本发明从地震属性多模态的角度出发，探索了利用深度学习方法实现地震多模态融合以更加自动化和准确地分割断层目标。

本发明采用的技术方案为：一种基于多模态U-Net的断层识别方法，包括：

S1、对原始断层数据进行处理，提取原始断层数据中的若干种属性；

S2、构建基于U-Net的多模态卷积神经网络；

S3、将步骤S1中提取的原始断层数据的这若干种属性作为输入，对多模态卷积神经网络进行训练；

S4、采用经步骤S3训练好的多模态卷积神经网络进行断层解释。

步骤S1具体为：提取原始断层数据中的原始振幅属性、相干体属性和蚂蚁体属性；并对原始振幅属性进行归一化处理，将归一化后的振幅属性、相干体属性、蚂蚁体属性作为多模态卷积神经网络的输入。

步骤S2所述基于U-Net的多模态卷积神经网络结构具体为：在卷积神经网络的基础上，在包含同一路径内的层对之间和跨不同路径、不同层之间建立密集连接。

所述多模态卷积神经网络包括多个输入流，所述输入流个数与步骤S1中提取的属性种树相同；不同输入流之间按照密集连接方式进行融合。

步骤S3进行断层解释时采用交叉熵的损失函数与Dice损失函数混合的损失函数，记为Bce_Dice损失函数；表达式如下：

其中，n表示元素个数，p表示元素x被识别为一类的概率，q表示元素x被识别为另一类的概率，|X∩Y|是计算X和Y之间的交集，|X|和|Y|分别表示X和Y的元素个数。

本发明的有益效果：本发明提出了一种基于多模态U-Net的断层识别方法，通过提取原始振幅数据的属性特征，喂入多模态融合的U-Net网络模型训练，实现了传统地震数据多模态融合技术和深度学习技术的结合。实验结果表明：

(1)该断层识别方法充分利用了地震数据多模态的特征实现了断层端到端的识别，较好地解决了传统多模态融合技术费时费力与地震领域未将断层多模态融合与深度学习技术结合的问题。

(2)本发明提出的多模态融合U-Net模型在准确率和AUC两个常用的深度学习评价标准上均取得了良好的成绩。

(3)本发明所提出的完整流程并不存在过拟合的问题，本发明使用生成的ROC曲线对提出的模型进行验证，证明了提出的多模态融合U-Net网络在断层数据集中具有一定的泛化能力。

附图说明

图1为现有的U-Net网络结构；

图2为本发明实施例提供的基于U-Net的地震相图语义分割方法；

图3为本发明实施例提供的原始断层振幅数据及其属性示意图；

其中，图3(a)为原始振幅数据，图3(b)为相干体数据，图3(c)为蚂蚁体数据；

图4为本发明实施例提供的密集连接示意图；

图5为本发明实施例提供的多模态U-Net网络预测结果示意图；

其中，图5(a)为原始振幅数据，图5(b)为识别结果，图5(c)为标签数据；

图6为本发明实施例提供的多模态U-Net网络断层预测结果ROC曲线。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

断层解释是研究断层构造的基础，也是地震资料解释的关键。因为断层的形态、规模及分布的位置对于油井的定位、开采意义重大。对断层进行精确划分，有利于实现对油气勘探的精确指导，减少勘探风险。本发明基于U-Net深度网络对断层进行分割，在传统U-Net网络识别地震数据的基础上加上对数据进行多模态融合，使U-Net的识别结果更加准确。

本发明提出了一种基于多模态U-Net的断层识别方法，该方法通过对原始断层数据进行相干体和蚂蚁体两种属性的提取，再针对断层的特点对数据进行预处理操作。模型设计了批量归一化来提高模型的鲁棒性，本方法引入Bce_Dice为目标损失函数，大幅度提升了断层识别的准确率。经过上述处理后，本发明将理论断层地震数据以及相对应得属性数据喂入构建好地网络中，得到的分割结果精确且符合地质规律，验证了方法的有效性和实用性。

本发明提出的算法流程框架如图2所示。具体包括制作断层属性和断层数据处理、U-Net多模态网络构建和训练及断层识别三个部分：

第一部分，首先对原始断层数据进行处理，得到其相干体属性和蚂蚁体属性。接着，针对不同属性数据计算量纲不同的问题，对数据进行归一化处理。将归一化后的振幅数据，计算得到的断层属性以及它们的标签数据共同作为网络的输入，并划分训练、验证及测试集；

第二部分，构建基于U-Net的多模态卷积神经网络。该网络具有多输入和多连接，使得多模态数据能够同时输入网络并在网络中融合。对构建好的网络配置参数后，喂入处理后的数据进行训练；

第三部分，用训练好的网络模型对测试集中的断层数据进行断层解释，得到算法分割结果。

第一部分具体包括以下内容：

本发明所用到的数据处理技术主要包括以下几个方面：根据断层的特征，选取了两种较为敏感的属性及特征：相干体属性和蚂蚁体属性。相干体属性可以由地震振幅体数据进行计算得到，蚂蚁体属性由相干体属性计算得到。每个属性体所包含的信息不同，但又能从不同的方面互补的表现断层在地震中的特征；采用归一化技术对输入数据进行处理，这样可以对不同输入进行统一，同时减少地震数据中的冗余信息，提高识别的准确性。

1、计算属性数据

地震属性分析技术是指通过一系列的数学变换，从地震数据中导出能表征地震波动力学和运动学特性的特殊度量值。断层属性作为地震属性的一种，相对来说，使用推广率高，识别效果好，算法稳定成熟的是相干体属性，蚂蚁体属性和混沌体属性。本发明根据属性的类别和对断层特征的敏感性，从中选取了相干体属性和蚂蚁体属性两种地震属性进行融合。每个属性都会反映出不同的物理或者几何特征，相对独立且对断层敏感。

相干体属性主要是通过对相邻地震道数据计算其相干属性，突出不相干的地震数据，从而可以检测到断层、裂隙等引起的地震道波形变化并确定这些构造的位置。相干体的实现思想是估计主测线和联络测线方向上的波形相似性。一般来说，相干体的相干特征会在断层切割的地震道波形之间体现出相干性的差异，尤其是走向平行于地层的断层在相干属性中体现的更为明显。相干属性的代表作之一第三代相干体(C3)是利用构造地震道与道之间的协方差矩阵的主成分来计算相干体属性值。

蚂蚁体属性是借鉴了蚂蚁追踪技术，在地震数据中散播大量的人工蚂蚁进行追踪，当人工蚂蚁判定出断层时，会召集该区域其他的蚂蚁对该断层进行追踪，直至完成断层的追踪识别。通过蚂蚁追踪，可以检测到地震数据的不连续性，最终能够获得一个低噪音、具有清晰断裂痕迹的新属性数据体。

本发明采用的是伍新明制作的理论断层数据，选取了原始振幅属性，相干体属性和蚂蚁体属性进行多模态融合来研究断层识别问题。图3为断层数据在Inline＝2290坐标处不同属性的切片图。从图3中可以看出，原始的振幅属性虽然能看到断层的大体轮廓，但是很难精确得到断层的具体位置，因此需要计算其他属性来共同识别断层。

2、归一化

本发明选取了两种地震属性体作为基于多模态融合的U-Net断层识别方法输入数据，但是，由于不同属性的计算方法不同，因此每个属性体求得的量纲是不一样的，数据范围也相差很大。如果直接将三种类别的数据输入到网络结构中，会造成输入数据混乱，难以学习到断层数据的特点，最终导致难以得到分割断层效果较好的网络模型。同时，采用未归一化过的振幅数据参与训练，得到的网络模型鲁棒性较差。另外，数据归一化也可以加快模型的收敛速度。由于相干体和蚂蚁体属性已经是归一化后的数据，因此需要对原始振幅数据进行归一化处理，归一化公式如式1，其中x_max为样本数据的最大值，x_min为样本数据的最小值，x_mean为样本数据的最大值。归一化后的振幅值介于-1到1之间。

第二部分具体包括以下内容：

在原有U-Net网络结构的基础上，构建基于多模态融合的U-Net网络。该网络具有多输入，并在下采样部分的层与层之间，不同的输入之间都具有连接，更好地模拟了多模态融合的关系。本发明采用的多模态融合方法是基于Jose等提出的HyperDenseNet多模态融合结构，该结构是在卷积神经网络的基础上，在包含同一路径内的层对之间和跨不同路径、不同层之间建立密集连接。地震数据虽然没有多模态，但是每个地震数据体可以计算得到多个属性体，每个属性体都携带有该地震数据的不同信息，与多模态有异曲同工之妙。

为了实现网络中的密集连接，本发明首先创建了一个由多个流组成的编码路径，每个流处理不同的地震属性，如图4所示，图中展示了两个流之间的密集连接。该密集连接包含同一路径内不同层之间的密集连接，而且还包含跨不同路径、不同层之间的密集连接。这种密集连接的方式对于多输入网络有很多益处：第一，多个流之间的紧密连接可以更好地模拟不同属性之间非线性的关系；第二，利用各层之间的直接连接，促进了整个网络信息和梯度的流动，缓解了梯度消失的问题；第三，在网络中包含所有特征映射的短路径引入了一种隐式的深度监控；第四，密集的连接有一个规则化的效果，减少了在训练集较小的任务上过度拟合的风险。

最后构建基于U-Net的多模态网络模型，在U-Net网络的基础上，将原本的单一输入流扩充为三个输入流，将原始振幅属性、相干体属性和蚂蚁体属性三个属性作为网络的输入数据。不同的输入流之间按照密集连接的方式实现特征之间的融合，最终实现多输入(三个输入)，单输出的网络结构。

伍新明制作的地震数据大小为128×128×128，将三个地震属性体按照Inline切片后大小为128×128，再输入构建好的网络中。

第三部分具体包括以下内容：

断层识别是为了确定断层数据每个点是断层或者不是断层的概率，本质上属于二分类问题。深度学习中用于解决二分类问题常用的损失函数是交叉熵，如式(5)：

其中，L代表损失函数，N代表输入地震空间体上待预测点的个数，y代表断层标签，

表示预测结果的概率。

但是，当损失函数设定为经典的二元交叉熵时，断层识别会出现类别不均衡的问题。这是因为在实际的地质环境中，断层点的类别占比是远远小于非断层点的。数据样本本身分布的不均衡会影响到神经网络模型的训练，并且严重样本比例失衡的情况会导致神经网络模型性能下降，甚至于因为类别判断上的倾斜最终做出错误诊断。深度学习中类别不均衡问题的解决方法有对数据样本有条件的采样，代价敏感策略，核函数的主动学习选择，类别权重的损失函数等。

针对断层样本不均衡的问题，本发明采用对数据不均衡较敏感的Bce_Dice损失函数。其中，交叉熵的损失函数计算方式如式(6)所示，其中，n表示元素个数，p表示元素x被识别为一类的概率，q表示元素x被识别为另一类的概率。其实际上是单独评估每个像素矢量的类预测，然后对所有像素求平均值，可以认为图像中的像素被平等的学习了。但是，当图像中出现类别不均衡的问题，由此导致训练会被像素较多的类主导，对于较小的物体很难学习到其特征，从而降低网络的有效性；本质上是衡量两个样本的重叠部分，为了计算预测的分割图的Dice系数，其计算方式如式(7)所示，其中，|X∩Y|是计算X和Y之间的交集；|X∩Y|近似为预测图和label之间的点乘，并将结果函数中的元素相加。|X|和|Y|分别表示X和Y的元素个数，分子中的系数2，是因为分母存在重复计算X和Y之间的共同元素的原因。将分子近似为预测图每个类别概率和标签之间的点乘，并将结果函数中的元素相加。因为训练的目标是二进制的，因而可以有效地将预测中未在目标区域中“激活”的所有像素清零，而只关注目标区域。因此，Dice损失函数针对于解决样本不平衡问题有很大帮助。

将交叉熵损失函数和Dice损失函数混合使用，既能够避免梯度消失，学习速率下降，又能够很好的解决样本不平衡问题。

x表示输入样本中的元素，X表示输入样本的集合；x和X没有直接关系，分别属于两种损失函数，本发明采用的方法是将这两种损失函数相加结合使用。

本发明选取伍新明2019年论文(X.M.Wu,L.M.Liang,Y.Z.Shi,et al.FaultSeg3D:using synthetic datasets to train an end-to-end convolutional neural networkfor 3D seismic fault segmentation[J].Geophysics,2019.链接：https://github.com/xinwucwp/faultSeg)中公开的断层理论数据的80％作为训练数据，剩余20％作为测试数据。在使用petrel软件得到原始振幅数据的相干体属性和蚂蚁体属性之后，将原本的128×128×128的数据按inline方向切割为128×128，喂入构造好的U-Net多模态网络中进行训练，得到参数训练完成的网络，再对测试数据进行预测，预测结果如下：

由图5预测结果中可以定性的分析出：多模态U-Net网络总体上较为出色的完成了断层识别任务。

为了进一步评判分割结果的好坏，本发明通过预测的准确度对识别结果进行评价，在二分类问题中，通常是通过判断正负类别的分类正确与否来统计数据并进行计算。在断层识别问题中，样本被分为四类：真正类TP，假正类FP，假负类FN，真负类TN，其具体意义如表1所示。

表1断层识别结果的统计矩阵

	目标是断层	目标非断层
			预测是断层	真正类TP(True positive)	假正类FP(False positive)
预测非断层	假负类FN(False negative)	真负类TN(True negative)

断层识别的准确率A(Accuracy)实际上是指神经网络模型中分类器正确识别的采样点数占总采样点数的比率，其计算方法如公式(8)所示。

本方法共测试了10组数据，平均准确率在95.91％。

值得注意的是，在数据正负样本数量严重失衡的情况，即便存在大量甚至是全部的误判，最终得到的准确率仍然可能取得高值。因此，断层识别的效果评判并不能完全以准确率作为可信标准。

可靠的神经网络模型是既能够正确识别断层采样点，也能够正确识别非断层采样点。假真类率FPR(False Positive Rate)和真正类率TPR(True Positive Rate)的公式定义如下：

为了正确评价断层识别准确程度这一指标，以FPR为横坐标，以TPR为纵坐标，给出一个综合指标：ROC曲线，又称接收者操作特征曲线(receiver operating characteristiccurve)，它是能反映敏感性和特异性连续变量的综合指标，ROC曲线上每个点反映着对同一信号刺激的感受性。采用ROC能够很好地克服样本数量比例失衡条件下出现的伪准确率问题。即当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。

AUC(Area Under Curve)是ROC曲线下的面积，计算公式如式(11)：

其中，rank_i表示第i条样本的序号，概率得分从小到大排。M、N分别对应正样本的个数和负样本的个数。

AUC表示模型将某个随机正类别样本排列在某个随机负类别样本之上的概率。一般来说，AUC的理想值是1。如果连接对角线，AUC的面积正好是0.5。对角线的实际含义是：随机判断响应与不响应，正负样本覆盖率应该都是50％，表示随机效果。

本发明的ROC曲线如图6所示，计算得到的AUC＝0.95，看出模型的断层识别能力优秀。ROC是光滑的，那么可以判断没有出现过拟合。

由此可以得出结论，本发明所提出的基于多模态的U-Net网络识别断层效果良好，能较好地完成地震领域断层识别任务，具有一定的实践意义和价值。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于多模态U-Net的断层识别方法，其特征在于，包括：

S2、构建基于U-Net的多模态卷积神经网络；

2.根据权利要求1所述的一种基于多模态U-Net的断层识别方法，其特征在于，步骤S1具体为：提取原始断层数据中的原始振幅属性、相干体属性和蚂蚁体属性；并对原始振幅属性进行归一化处理，将归一化后的振幅属性、相干体属性、蚂蚁体属性作为多模态卷积神经网络的输入。

3.根据权利要求1所述的一种基于多模态U-Net的断层识别方法，其特征在于，步骤S2所述基于U-Net的多模态卷积神经网络结构具体为：在卷积神经网络的基础上，在包含同一路径内的层对之间和跨不同路径、不同层之间建立密集连接。

4.根据权利要求3所述的一种基于多模态U-Net的断层识别方法，其特征在于，所述多模态卷积神经网络包括多个输入流，所述输入流个数与步骤S1中提取的属性种树相同；不同输入流之间按照密集连接方式进行融合。

5.根据权利要求1所述的一种基于多模态U-Net的断层识别方法，其特征在于，步骤S3进行断层解释时采用交叉熵的损失函数与Dice损失函数混合的损失函数。

6.根据权利要求5所述的一种基于多模态U-Net的断层识别方法，其特征在于，记交叉熵的损失函数与Dice损失函数混合的损失函数为Bce_Dice损失函数；表达式如下：