CN112001480A

CN112001480A - 基于生成对抗网络的滑动定向数据小样本扩增方法

Info

Publication number: CN112001480A
Application number: CN202010802807.2A
Authority: CN
Inventors: 刘伟; 白璟; 谭东; 张德军; 陈东; 连太炜; 汪洋; 张宇; 李中权; 冯思恒; 张鑫; 孙铭椿; 王钰豪
Original assignee: China National Petroleum Corp; CNPC Chuanqing Drilling Engineering Co Ltd
Current assignee: China National Petroleum Corp; CNPC Chuanqing Drilling Engineering Co Ltd
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2020-11-27
Anticipated expiration: 2040-08-11
Also published as: CN112001480B

Abstract

本发明公开了一种基于生成对抗网络的滑动定向数据小样本扩增方法，包括如下步骤：（1）数据剪裁；（2）多数据块叠合；（3）提取类别标签；（4）训练生成对抗网络；（5）获得多类别的生成数据；（6）获得有效扩增数据。本发明实现了多系统数据直接比较分析，即通过现有小样本库数据进行训练，通过生成器和判别器的不断“博弈”使生成器生成足够以假乱真的序列数据，以达到扩充钻探参数样本库的目的。

Description

基于生成对抗网络的滑动定向数据小样本扩增方法

技术领域

本发明涉及一种基于生成对抗网络的滑动定向数据小样本扩增方法，属于油气钻井(钻探)工程技术领域

背景技术

对于滑动定向数据，由于录井、MWD、扭摆三个系统相互独立，采集频率各异，数据的完整性、准确性、及时性等方面存在较大差距，各系统产生的大量数据无法提炼升华为有效数据，不能直接比较分析。同时由于采集软件重启、通信故障等因素易造成丢失乱码等问题，给数据的准确定和可靠性造成了很大的影响。直接导致经数据清洗整合后的有效数据集数据含量过低，如果直接应用于神经网络模型训练，容易导致模型的过拟合，使模型泛化程度大大降低，无法满足神经网络模型的需求。

滑动定向数据集属于典型的小样本学习问题，为了有效解决此类学习问题，第一种常见思路是通过改进算法来使其更适应于滑动定向数据的小样本环境。有研究者提出了一种融合专业知识和机器学习算法的引导学习方法，利用可表示的专业知识和经验，指导学习器对样本数据进行训练，优化学习模型参数，从而减少对海量样本数据的依赖。但是该方法在先验知识与机器学习算法融合的机理研究以及具体的经验知识提取和封装等方面还需要进行进一步深入研究。第二种常见方法是将深度学习技术与迁移学习相结合再应用于滑动定向数据集，先在相关领域的大数据集中对卷积神经网络模型进行预训练，提取出预训练模型的权重和样本特征，用于目标小数据集中对模型进行初始化，以帮助模型对目标小数据集展开训练。该方法需要目标小数据集在相关领域中有可以辅助的大规模数据集，而在石油钻探行业中缺少可辅助的大数据集，因此该方法无法很好地在石油进行应用。第三种常用方法是通过对已有滑动定向数据样本进行一定的处理来增加样本的数量。有研究者利用支持向量机结合网格搜索法对原始小样本数据进行预测扩充。但是支持向量机对缺失数据、参数和核函数的选择比较敏感，目前还没有好的方法来解决核函数的选取问题。

发明内容

本发明的目的在于克服现有技术存在的上述问题，提供一种基于生成对抗网络的滑动定向数据小样本扩增方法。本发明实现了多系统数据直接比较分析，即通过现有小样本库数据进行训练，通过生成器和判别器的不断“博弈”使生成器生成足够以假乱真的序列数据，以达到扩充钻探参数样本库的目的。

为实现上述目的，本发明采用的技术方案如下：

一种基于生成对抗网络的滑动定向数据小样本扩增方法，其特征在于，包括如下步骤：

(1)数据剪裁：在不影响滑动定向数据特征表示的前提下，对训练数据集中的数据进行剪裁；

(2)多数据块叠合：在输入的通道维度上对数据块按顺序进行叠合，使其适应生成对抗网络的多维输入；

(3)提取类别标签：分别对步骤(2)中的数据块按对应的类别标签序列进行编码；

(4)训练生成对抗网络：用划分好的数据块、标签序列和随机高维噪声训练生成对抗网络；

(5)获得多类别的生成数据；输入目标类别的随机噪声，获得该类别的生成数据，调整标签信息，获得不同参数类别的生成数据；

(6)获得有效扩增数据：将步骤(5)中的生成数据重新剪裁为相应的数据块，并按数据表尺寸进行拼接扩增，成为与原数据集同规格的数据。

步骤(1)中，根据其数据结构，可将其划分为多个n m维的“数据块”，其中m代表预输入数据的维度，n代表每批次输入的行数。

步骤(1)中，采取设置数据块最大及最小尺寸的方式对数据裁剪行为进行规范和限定。

步骤(1)中，按照划分的“数据块”类型，为“数据块”添加类别标签序。

步骤(2)中，为适应生成对抗网络的多维输入，多维输入应满足的条件即符合生成对抗网络中生成器卷积神经网络的数据输入形式。

步骤(4)中，通过多轮次博弈训练使生成对抗网络的生成器掌握滑动定向数据规律并将高维随机噪声生成目标数据，判别器对于生成数据和真实数据的判断能力消失，即判别器准确率稳定在50％上下，生成器与判别器误差稳定，即达到标准，完成测试。

步骤(4)中，随机高维噪声即从正态分布(0-1分布)中抽取的随机样本。

步骤(4)中，训练生成对抗网络流程如下：

a、用可微分函数D和G来分别表示判别器和生成器，D输入为真实数据x和G(z)，G的输入为随机变量z。其中，G(z)则为由G生成的尽量服从真实数据分布的数据样本；

b、如果判别器的输入来自真实数据，标注为1，如果输入样本为G(z)，标注为0；

c、D的目标是实现对数据来源的二分类判别，判断数据是真(真实数据x的分布)或者伪(生成器的伪数据G(z))；而G的目标是使自己生成的伪数据G(z)在D上的表现D(G(z))和真实数据x在D上的表现D(x)一致；

d、D和G相互对抗并迭代优化，使D和G的性能不断提升，当最终D的判别能力提升到无法正确判别数据来源时，认为这个生成器G已经学到了真实数据的分布，该生成器G即为滑动定向参数的生成器。

所述生成器除输出层之外的其他层均使用ReLU激活函数，ReLU激活函数表示形式如下：

输出层采用Tanh激活函数代替ReLU激活函数，其表示形式如下：

采用本发明的优点在于：

1、本发明中，生成式对抗网络作为典型的生成式模型，为解决滑动定向数据的小样本学习问题提供了新的框架。即通过现有小样本库数据进行训练，通过生成器和判别器的不断“博弈”使生成器生成足够以假乱真的序列数据，已达到扩充钻探参数样本库的目的。

2、对于特定的滑动定向数据集，相对于其他数据扩增方法，基于生成对抗网络的数据扩增方法无需掌握先验知识与机器学习算法融合的机理，无需其他辅助的大规模数据集，也无需通过支持向量机，避免其核函数选取无依据的问题。同时这样训练出的模型通常会更加“健壮”，减少过拟合及欠拟合问题，模型泛化能力大大增强。

附图说明

图1为本发明流程示意图；

图2为本发明中GAN的计算流程与结构图；

图3为训练生成对抗网络得到扩增数据的流程与结构图；

图4为生成对抗网络的训练过程示例；

图5为XX2井的原始数与模拟数据图；

图6为XX2井原始数与模拟数据对比图；

图7为XX2井小样本滑动扩增数据集；

图8为生成对抗网络示意图；

图9为生成模型网络结构图；

图10为判别模型的网络结构图。

具体实施方式

实施例1

本发明涉及的一种基于生成对抗网络的滑动定向数据小样本扩增方法，包括以下步骤：

(1)数据剪裁；

(2)多数据块叠合；

(3)提取类别标签；

(4)训练生成对抗网络；

(5)获得多类别的生成数据；

(6)获得有效扩增数据。

步骤(1)中，在不影响滑动定向数据特征表示的前提下，对训练数据集中的数据进行剪裁，根据其数据结构，可将其划分为多个nm维的“数据块”，其中m代表预输入数据的维度，n代表每批次输入的行数。

进一步地，步骤(1)中，为了使数据剪裁不影响滑动定向数据的特征，采取设置数据块最大及最小尺寸的方式对数据裁剪行为进行规范和限定，保证滑动定向数据的完整性。

进一步地，步骤(1)中，按照划分的“数据块”类型，为“数据块”添加类别标签序。

步骤(2)中，在输入的通道维度上对步骤(2)中的数据块按顺序进行叠合，使其适应生成对抗网络的多维输入。

进一步地，步骤(2)中，为适应生成对抗网络的多维输入，多维输入应满足的条件即符合生成对抗网络中生成器卷积神经网络的数据输入形式。

步骤(3)中，分别对步骤(2)中的数据块按对应的类别标签序列进行编码。

步骤(4)中，用划分好的数据块、标签序列和随机高维噪声训练生成对抗网络，通过多轮次博弈训练使生成对抗网络的生成器可以隐式地掌握滑动定向数据规律并将高维随机噪声生成目标数据，判别器对于生成数据和真实数据的判断能力消失，即判别器准确率稳定在50％上下，生成器与判别器误差稳定，即达到标准，完成测试。

进一步地，步骤(4)中，随机高维噪声即从正态分布(0-1分布)中抽取的随机样本。

步骤(5)中，输入目标类别的随机噪声，获得该类别的生成数据；调整标签信息，可获得不同参数类别的生成数据。

步骤(6)将步骤5中的生成数据重新剪裁为相应的数据块，并按数据表尺寸进行拼接扩增，成为与原数据集同规格的数据。

步骤(4)中，训练生成对抗网络流程如下：

把取滑动定向训练数据集看作由多个数据点组成，在处理取滑动定向训练数据集时，可将由处理过的有效数据集中划分的n×m维的“数据块”类比为图片的像素点矩阵，数据块中每个数据为一个数据步长。再通过卷积神经网络与生成对抗网络相结合的网络模型进行训练，即可达到扩充序列数据样本集的目的。生成对抗网络如图8所示。

生成对抗网络的生成器网络结构如图9所示。生成器G中输入一个高维的随机噪声向量，经过3层微步幅卷积层进行空间上采样，输入数据的通道数减半，“数据块”尺寸加倍，最终生成一个64×64×3的样本。3层微步幅卷积层的卷积核大小均为5×5数据步长，步幅大小均设置为2数据步长。

除输出层之外，生成器的其他层均使用ReLU激活函数，以解决梯度消失的问题，并加快收敛速度。ReLU激活函数表示形式如下：

输出层则采用Tanh激活函数代替ReLU激活函数，其表示形式如下：

判别器的网络结构如图10所示，判别器可等效为一个没有池化层的全卷积网络。输入样本通过3层带步长的卷积层进行空间下采样，提取出输入样本的数据特征，并对输入样本的真实性进行判断。与生成器相同，3层卷积层的卷积核大小均为5×5数据步长，步幅大小均设置为2数据步长。判别器的输出是一维向量，用以表示输入样本为真实样本的概率。

判别器中所有网络层均采用LeakyReLU激活函数，其表示形式如下：

为了克服神经网络层数加深，收敛速度变慢，常常导致梯度消失或梯度爆炸的情况，通过引入批标准化(batch normalization)来规范某些层或者所有层的输入，从而固定每层输入信号的均值与方差，以保障网络模型的稳定训练。由于直接将标准化方法应用到所有层中会导致样本震荡和模型不稳定，在生成器的输出层和判别器的输入层将不采用批标准化，生成器和判别器其他层均加入了批标准化处理。该方法可以解决初始化效果差的问题，帮助梯度传播到网络的每一层，加速模型收敛。批标准化处理还可以有效减缓模型过拟合问题，可以避免生成器崩溃，防止生成的样本收敛到同一个点，即生成相同的样本。

生成对抗网络模型的优化：在生成对抗网络模型序列数据生成训练的过程中，为了保持对抗训练平衡，应通过不断试验，寻找判别器模型与生成器模型的更新次数的最佳比例，以确保判别器损失值不会为0。生产对抗网络的训练中采用Adam优化器，能基于训练数据迭代地更新神经网络权重，使判别器和生成器的损失值最小化。对模型的优化过程中Adam算法的实现流程如下：

(1)初始化各参数

a)Require：步长(建议默认为：0.001)

b)Require；矩估计的指数衰减速率，ρ₁和ρ₂在区间[0,1)内。(建议默认为：分别为0.9和0.999)

c)Require：用于数值稳定的小常数(建议默认为：10^-8)

d)Require：初始参数θ

e)初始化一阶和二阶矩变量s＝0，r＝0。初始化时间步t＝0。

(2)更新算法参数

a)从训练集中采样包含m个分量{x⁽¹⁾,x⁽²⁾,…,x^(m)}的小批量样本，对应目标为y(i)。

b)计算梯度：

c)更新有偏一阶矩估计：s←ρ₁s+(1-ρ₁)g

d)更新有偏二阶矩估计：r←ρ₂r+(1-ρ₂)g×g

e)修正一阶矩的偏差：

f)修正二阶矩的偏差：

更新计算：

(逐元素应用操作)

应用更新：θ←θ+Δθ

Adam算法会一直执行上述更新参数操作，直到优化效果达标，达到其停止准则算法才会停止更新参数。因此，在生成对抗网络训练过程中使用Adam算法对其神经网络模型进行优化调整，可以有效地优化模型预测的效果。

生成对抗网络的效果评估：损失函数(loss function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。一方面，生成器G网络的输入和输出是相同尺寸的“数据块”。和常规的自编码器一祥，输入和输出数据块逐数据点的L₂距离作为G网络损失函数的一部分。

L₂距离定义为：

L₂＝‖x-G(x)‖₂

其中，x表示输入G网络的数据块，G(x)表示G网络输出的数据块，它与输入的数据块尺寸相同，即x与G(x)拥有相同的维数，‖.‖₂表示L₂范数，以此来作为样本空间中两个点之间距离的度量。

另一方面，引入额外的生成对抗网络(GAN)损失函数：

L_g＝|D(G(x))-0.9|

其中，x表示输入数据块。对上述两者进行加权后，训练G网络的联合损失函数为：

其中，

和λ_g是超参数，分别为L₂范数和L_g损失函数所占权重。需通过多次实验调整得最优值。

类似传统生成对抗网络，鉴别器D网络的损失函数定义如下：

LD＝|D(G(x))-0|+|D(x)-0.9|

在实际的生成对抗网络训练中，训练开始时，判别器随机生成结果，判别器和生成器学习真实样本分布，进行对抗训练，互相博弈使对方损失值最大化，导致误差波动较大。随着训练次数的增加，生成器损失值整体呈下降趋势，生成样本分布与真实样本分布的差别逐渐减小，判别器基本学习到样本特征，对样本的判断误差趋于稳定。即表示判别器已成功训练，生成器可以生成足以“以假乱真”的数据，用于扩充样本数据集。

实施例2

纳什均衡(Nash equilibrium)是指在一个博弈过程中，每个博弈者的平衡策略都是为了达到自己期望收益的最大值，与此同时，其他所有博弈者也遵循这样的策略。GAN的核心思想来源于博弈论中的纳什均衡，它设定参与游戏双方分别为一个生成器(Generator)和一个判别器(Discriminator)，生成器的目的是尽量去学习真实的数据分布，而判别器的目的是尽量正确判别输入数据是来自真实数据还是来自生成器，为了取得游戏胜利，这两个游戏参与者需要不断优化，各自提高自己的生成能力和判别能力，这个学习优化过程就是寻找二者之间的一个纳什均衡。GAN的计算流程与结构如图2所示。

任意可微分的函数都可以用来表示GAN的生成器和判别器，用可微分函数D和G来分别表示判别器和生成器，它们的输入分别为真实数据x和随机变量z。G(z)则为由G生成的尽量服从真实数据分布p_data的样本。如果判别器的输入来自真实数据，标注为1。如果输入样本为G(z)，标注为0。

这里D的目标是实现对数据来源的二分类判别：真(来源于真实数据x的分布)或者伪(来源于生成器的伪数据G(z))；而G的目标是使自己生成的伪数据G(z)在D上的表现D(G(z))和真实数据x在D上的表现G(x)一致。这两个相互对抗并迭代优化的过程使得D和G的性能不断提升。当最终D的判别能力提升到一定程度，并且无法正确判别数据来源时，可以认为这个生成器G已经学到了真实数据的分布。如图3所示。

整个生成对抗网络的训练过程的一个简单的例子如图4所示，假设在训练开始时，真实样本分布、生成样本分布以及判别器分别是图中的三种线条。在训练开始时，判别器是无法很好地区分真实样本和生成样本的。接下来当生成器固定，优化判别器时，优化结果如图4中的第二幅图所示，这个时候判别器已经可以较好的区分生成数据和真实数据了。最后是固定判别器，改进生成器，试图让判别器无法区分生成曲线与真实曲线。在这个过程中，由模型生成的曲线分布与真曲线片分布更加接近，这样的迭代不断进行，直到最终收敛，生成分布和真实分布重合。这样，一个完整的生成对抗网络训练过程就完成了。

一种基于生成对抗网络的滑动定向数据小样本扩增方法主要用于平台井模拟数据生成与融合。模拟数据生成时，可实现同一钻井平台模拟井数据生成和针对工具面调整段的作业井扭摆定向数据扩充。数据样本融合是将模拟数据样本的融合，以实现扩充样本数量，同时，可进行频率间隔调整，调整数据样本间隔，提高数据质量。

目前GAN最常使用的地方就是图像生成，如超分辨率任务、语义分割、样本库扩充等。在图像处理领域，该方法相较于旋转、缩放等方法，不仅正确识别率有所提升，而且在制作扩增样本库的过程中更加快捷，不同方法的识别性能对比如表1所示。从表中可以看出，采取生成对抗网络(GAN)扩增样本集后，训练样本正确识别率和测试样本正确识别率明显提高，说明该方法对于小样本库的扩增具有较高的应用价值。

表1不同方法识别性能对比表

本实例截取XX2井的部分原始数与模拟数据如图5所示，原始数据与模拟数据对比图如图6所示，原始数与模拟数据的吻合度达95％以上，表明采用本方法模拟生成滑动数据具有较高可靠性与稳定性。

数据扩增前，拟合效果偏差大，数据扩增后，由于提高了滑动数据样本规模、增加了数据特征性，拟合程度较高，人工智能的模型训练效果显著提高。

如图7所示，针对采集数据样本有限，采用生成对抗网络(GAN)技术形成了XX2井的小样本滑动扩增数据集，实现了模拟数据生成与扩增，XX2井的原始数据由45593条扩增至129660条，为提高滑动数据样本集规模、有效解决现有样本数据缺乏问题提供理了论与技术支撑，为人工智能模型进行大规模奠定了数据基础。

Claims

1.一种基于生成对抗网络的滑动定向数据小样本扩增方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于生成对抗网络的滑动定向数据小样本扩增方法，其特征在于：步骤(1)中，根据其数据结构，可将其划分为多个n m维的“数据块”，其中m代表预输入数据的维度，n代表每批次输入的行数。

3.根据权利要求2所述的基于生成对抗网络的滑动定向数据小样本扩增方法，其特征在于：步骤(1)中，采取设置数据块最大及最小尺寸的方式对数据裁剪行为进行规范和限定。

4.根据权利要求3所述的基于生成对抗网络的滑动定向数据小样本扩增方法，其特征在于：步骤(1)中，按照划分的“数据块”类型，为“数据块”添加类别标签序。

5.根据权利要求4所述的基于生成对抗网络的滑动定向数据小样本扩增方法，其特征在于：步骤(2)中，为适应生成对抗网络的多维输入，多维输入应满足的条件即符合生成对抗网络中生成器卷积神经网络的数据输入形式。

6.根据权利要求5所述的基于生成对抗网络的滑动定向数据小样本扩增方法，其特征在于：步骤(4)中，通过多轮次博弈训练使生成对抗网络的生成器掌握滑动定向数据规律并将高维随机噪声生成目标数据，判别器对于生成数据和真实数据的判断能力消失，即判别器准确率稳定在50％上下，生成器与判别器误差稳定，即达到标准，完成测试。

7.根据权利要求6所述的基于生成对抗网络的滑动定向数据小样本扩增方法，其特征在于：步骤(4)中，随机高维噪声即从正态分布(0-1分布)中抽取的随机样本。

8.根据权利要求7所述的基于生成对抗网络的滑动定向数据小样本扩增方法，其特征在于：步骤(4)中，训练生成对抗网络流程如下：

9.根据权利要求8所述的基于生成对抗网络的滑动定向数据小样本扩增方法，其特征在于：所述生成器除输出层之外的其他层均使用ReLU激活函数，ReLU激活函数表示形式如下：