CN109031421B

CN109031421B - 一种基于深度强化学习的叠加速度谱拾取方法及处理终端

Info

Publication number: CN109031421B
Application number: CN201810571640.6A
Authority: CN
Inventors: 顾元
Original assignee: Guangzhou Marine Geological Survey
Current assignee: Guangzhou Marine Geological Survey
Priority date: 2018-06-05
Filing date: 2018-06-05
Publication date: 2019-09-27
Anticipated expiration: 2038-06-05
Also published as: CN109031421A

Abstract

本发明涉及一种基于深度强化学习的叠加速度谱拾取方法及处理终端，所述方法包括以下步骤：步骤S1：获取包括地震反射波的原始共中心点地震道集数据并计算出以各个时刻下的最优扫描速度组成的叠加速度谱；步骤S2：将叠加速度谱输入至自编码网络，得到编码后的高阶能量团特征；步骤S3：将高阶能量团特征编码输入至策略网络，拾取各个时刻下的最优扫描速度，输出速度序列；步骤S4：对速度序列进行评价，输出奖励值；步骤S5：根据奖励值来训练策略网络；步骤S6：迭代执行步骤S3至步骤S5直至步骤S4获取到设定的最大奖励值时，输出最优速度序列。本发明无需人工干预，实现智能化的速度谱拾取；拾取过程中能够消除多次波的干扰，拾取叠加速度曲线更准确。

Description

一种基于深度强化学习的叠加速度谱拾取方法及处理终端

技术领域

本发明涉及地震数据处理技术领域，具体是一种基于深度强化学习的叠加速度谱拾取方法及处理终端。

背景技术

地震波速是地震数据处理和地震成像中重要的参数之一，特别是基于速度差异的多次波压制及基于波动方程理论的叠前时间(或深度)偏移对速度模型的合理性有比较高的要求，其精度直接影响处理结果及地震成像的质量，因此，在地震数据处理过程中要尽可能地求取最接近实际的速度模型。

目前主要采用人工速度谱拾取的方法，采用人工方法，不仅受到人为因素影响，速度谱拾取的结果在很大程度上依赖于人的经验和学识等不可控因素，而且人工方法导致效率低下；而采用其他的方法，比如公开号为“CN105445788A”和“CN105572733A”的两项专利，其操作复杂、受干扰波影响较大、拾取准确率不高，而且由于在应用过程中还需要大量的人工干预，并没有实现速度谱拾取的智能化，其效率并没有得到质的提高，实际工作中仅作为辅助工具使用。

实际地震数据的速度谱中，有效速度谱能量团的聚焦性差，而现有的速度谱拾取方法都是基于有着对速度谱能量团的高识别度，因此导致现有的速度谱拾取方法很难满足实际应用的要求；

目前的速度谱拾取方法或多或少都还需要人工干预，且操作复杂，没有实现智能化；

对于海上地震数据而言，其受到多次波干扰严重，多次波是一种在海面和地质界面之间经历多次反射后被检波器接收的相干干扰，主要包括全程多次波和层间多次波，严重地干扰甚至屏蔽了有效反射，使得速度谱中有效波能量团不聚焦而难以识别和追踪，现有的速度谱拾取方法对多次波的影响几乎无能为力。

发明内容

针对现有技术的不足，本发明提供一种基于深度强化学习的叠加速度谱拾取方法及处理终端，其能够解决对地震速度谱智能化拾取，且对多次波干扰也仍然能够获取准确拾取结果。

本发明的技术方案为：一种基于深度强化学习的叠加速度谱拾取方法，其特征在于：所述方法包括以下步骤：

步骤S1：获取包括地震反射波的原始共中心点地震道集数据；

步骤S2：根据步骤S1中的共中心点地震道集数据经预设算法计算出以各个时刻下的最优扫描速度组成的叠加速度谱，输出为用二维数组表示的叠加速度谱；

步骤S3：将步骤S2中的二维数组输入至自编码网络，自编码网络通过编码器和解码器学习提取出叠加速度谱的能量团特征，编码器输出经对叠加速度谱编码后的能量团特征；

步骤S4：将步骤S3的能量团特征编码输入至策略网络，策略网络对能量团特征进行处理，使得输入经编码的能量团特征编码与步骤S2的叠加速度谱中各个时刻下对应的最优扫描速度对应起来，以此输出速度序列；

步骤S5：应用步骤S4输出的速度序列对共中心点地震道集进行动校正，动校正量按正常时差公式计算：

式中，x_j表示第j个炮检距，Δt_i,j为t_i时刻第j个炮检距处的动校正量，t_i,0为t_i时刻垂直反射时间，v为步骤S4输出的速度序列；

步骤S6：将经过步骤S5动校正后的共中心点地震道集进行多次波压制，经过多次波压制后，将多次波进行剔除，提取出一次反射波；

步骤S7：对经过步骤S6提取出的一次反射波的共中心点地震道集计算出基于拉东变换公式的剩余速度谱，输出为用二维数组表示的剩余速度谱；

步骤S8：在步骤S7计算出的剩余速度谱中，对剩余速度谱的幅度值进行时间t方向上的叠加，得到q方向上的叠加曲线图，根据所述叠加曲线图的最大幅度值到q＝0轴的距离，按从大至小设置相应的从小到大的奖励值；

步骤S9：根据步骤S8计算出的奖励值采用策略梯度的方法来训练步骤S4中的策略网络；

步骤S10：迭代执行步骤S4至步骤S9，当叠加曲线图的最大幅度值到q＝0轴的距离为0时，获取的奖励值为最大，即判断对应所述步骤S4输出的速度序列为最优，否则继续对策略网络进行训练；以获取最大奖励值对应的速度序列经过插值后输出即为最终所需要拾取的共中心点道集的叠加速度曲线。

进一步地，所述步骤S2中的预设算法按以下步骤进行：

a.将步骤S1中的地震反射波放入以横坐标为炮检距X、纵坐标为时间T的X-T坐标；

b.确定时刻t_0i和扫描速度v_i参数，包括t_0i的最大值t_0max和最小值t₀，扫描速度v_i的最大值v_max和最小值v_min，根据公式①来确定在X-T坐标下的固定某个时刻t_0i下的扫描速度v_i对应的双曲线路径，沿双曲线路径对地震反射波振幅进行叠加，得到时刻t_0i下扫描速度v_i对应的地震反射波叠加能量，当扫描速度v_i从最小值v_min到最大值v_max完成扫描后，得到时刻t_0i下扫描速度v_min到v_max范围内对应的地震反射波叠加能量曲线；当时刻t_0i下某个扫描速度v_i对应的双曲线路径经过地震反射波能量曲线的峰值最多时，叠加能量值最大，则判断该扫描速度v_i为对应时刻t_0i的最优扫描速度：

式中，t_0i＝t₀+iΔt(i＝1,2,3,...,n)，t₀≤t_0i≤t_0max，v_i＝v_min+iΔv(i＝1,2,3,...,n)，v_min≤v_i≤v_max，v_max＝7000m/s,v_min＝1400m/s,Δt和Δv为常数值；

c.将b步骤中每个时刻t_0i下对应的最优扫描速度下的地震反射波叠加能量曲线按顺序进行拼接，经插值后形成在v-T坐标下的连续的地震反射波叠加能量变化曲面，v表示地震波速度，其取值为扫描速度v_i的集合，所述地震反射波叠加能量变化曲面为叠加速度谱，并采用二维数组来表示；

d.将叠加速度谱中的叠加能量值进行归一化处理，归一化后的数值范围均在0-1之间；预先设置阈值α，如果归一化后的叠加能量值小于该阈值α，则将叠加能量值置于0，如果归一化后的叠加能量值大于该阈值α，则将叠加能量值置于1。

进一步地，所述阈值α为0.2。

进一步地，所述步骤S3中的自编码网络为全连接神经网络，包括输入层、隐藏层和输出层，输入层的维度与输入数据叠加速度谱二维数组的个数相同，输入层、隐藏层和输出层的维度依次减小，设置3层以上的隐藏层；所述自编码网络采用BP神经网络算法、卷积神经网络算法或循环神经网络算法。

进一步地，所述步骤S4中的策略网络为全连接神经网络，包括输入层、隐藏层和输出层，其中，隐藏层设置3层以上，策略网络的输入层的维度与自编码网络的编码器输出维度相同，策略网络的输出层的维度与公式①中的速度采样点个数相同；所述策略网络采用BP神经网络算法、卷积神经网络算法或循环神经网络算法。

一种处理终端，包括，

存储器，用于存储程序指令；

处理器，用于运行所述程序指令，以执行如下步骤：

进一步地，所述步骤S2中，计算叠加速度谱按以下步骤进行：

进一步地，所述阈值α为0.2。

进一步地，所述步骤S4中的策略网络为全连接神经网络，包括输入层、隐藏层和输出层，其中，隐藏层设置3层以上，策略网络的输入层的维度与自编码网络的编码器输出维度相同，策略网络的输出层的维度与公式①中时刻t_0i方向上速度采样点个数相同；所述策略网络采用BP神经网络算法、卷积神经网络算法或循环神经网络算法。

本发明的有益效果为：

1、只需要输入原始共中心点地震道集数据，能够进行自行计算拾取出速度谱，无需人工干预，实现智能化的速度谱拾取；

2、本发明经过对原始数据经过处理后，输入至自编码网络和策略网络进行深度强化学习，能够消除多次波的干扰，更加准确地拾取叠加速度曲线。

附图说明

图1为本发明较佳实施例的流程图；

图2为本发明在X-T坐标下的固定某个时刻t_0i下的扫描速度v_i曲线(包括地震反射波)的示意图；

图3为本发明每个时刻t_0i下对应的最优扫描速度v_i下的叠加能量的峰值连接过程的示意图；

图4为本发明一种处理终端的结构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述：

如图1所示，本实施例公开了一种基于深度强化学习的叠加速度谱拾取方法，其包括以下步骤：

步骤S2：根据步骤S1中的共中心点地震道集数据经预设算法计算出以各个时刻下通过扫描速度扫描得到的叠加速度谱，叠加速度谱由最优扫描速度组成，输出为用二维数组表示的叠加速度谱；

具体地，计算叠加速度谱按以下步骤进行：

a.将步骤S1中的地震反射波放入X-T坐标下的相应位置，如图2中的“波浪曲线”所示；

b.确定时刻t_0i和扫描速度v_i参数，包括t_0i的最大值t_0max和最小值t₀，扫描速度v_i的最大值v_max和最小值v_min，根据公式(1)来确定在X-T坐标下的固定某个时刻t_0i下的扫描速度v_i对应的双曲线路径，也即确定了扫描速度v_i的趋势走向，如图2所示为t₀时刻下，X-T坐标下的三个不同扫描速度(v₁,v₂,v₃)的曲线，沿该双曲线路径对地震反射波振幅进行叠加，得到时刻t_0i下扫描速度v_i对应的地震反射波叠加能量，当扫描速度v_i从最小值v_min到最大值v_max完成扫描后，得到时刻t_0i下扫描速度v_min到v_max范围内对应的地震反射波叠加能量曲线；当时刻t_0i下某扫描速度v_i对应的双曲线路径经过地震反射波能量曲线的峰值最多时，叠加能量值最大，即所述的地震反射波叠加能量曲线的最大峰值位置对应横坐标中的扫描速度v_i，则判断该扫描速度v_i为对应该时刻t_0i下的最优扫描速度，也即选取经过地震波的峰值最多的扫描速度，这样我们认为该扫描速度是对应该固定时刻t_0i下的最优速度，如图2所示，该t₀时刻下的最优扫描速度为v₂；这样经过以扫描速度v_i和时刻t_0i两个变量的循环计算，即可以计算出在t₀～t_0max时间内任意时刻下的最优扫描速度v_i。

式中，t_0i＝t₀+iΔt(i＝1,2,3,...,n)，t₀≤t_0i≤t_0max，v_i＝v_min+iΔv(i＝1,2,3,...,n)，v_min≤v_i≤v_max，通常v_max＝7000m/s,v_min＝1400m/s,Δt和Δv预先设置的一个合理值，这两个值如果选择太大，导致计算出的扫描速度曲线精度不高，如果选择调小，则增加计算量。

c.如图3所示，将b步骤下每个时刻t_0i下在最小值v_min到最大值v_max范围内的扫描速度v_i得到的地震反射波叠加能量曲线按顺序拼接起来，则地震反射波叠加能量曲线在所有时刻t_0i下就形成曲面，即经过插值后连接成了一条在v-T坐标下的连续的地震反射波叠加能量变化曲面，所述地震反射波叠加能量变化曲面即为叠加速度谱，该叠加速度谱可以采用二维数组表示；图2中A表示叠加能量的幅度值；

d.将叠加速度谱中的叠加能量值，即图2中v-A坐标下的幅度值A，进行归一化处理，归一化后的数值范围均在0-1之间(包括0和1)；预先设置阈值α，如果归一化后的叠加能量值小于该阈值α，则将叠加能量值置于0，如果归一化后的叠加能量值大于该阈值α，则将叠加能量值置于1；

在本实施例中，阈值α为0.2；

步骤S3：将步骤S2中的二维数组作为叠加速度谱输入至自编码网络，自编码网络通过编码器和解码器学习提取出叠加速度谱的能量团特征，编码器输出能量团特征编码，能量团特征编码为经过编码后的高阶能量团特征，通过该能量团特征编码输入至解码器后，解码器输出为重构的叠加速度谱，重构的叠加速度谱用于自编码网络学习并以此验证自编码网络的学习能力；

G.E.Hinton和R.R.Salakhutdinov于2006年在《Science》期刊上发表了名为“Reducing the Dimensionality of Data with Neural Networks”的文章，该文章指出了可通过自编码网络的对数据进行降维的方法来提取经编码后的高阶特征，可以应用在图像识别、人脸识别等领域，并得到了实际的应用，所以本申请可以采用自编码网络来学习提取出叠加速度谱的能量团特征。

在本实施例中，自编码网络采用全连接神经网络，包括输入层、隐藏层和输出层，输入层的维度(神经元个数)与输入数据叠加速度谱二维数组的个数相同，从输入层、隐藏层和输出层的维度依次减小，设置3层以上的隐藏层；当然，具体的隐藏层的层数可以根据需要的计算效率和计算精度进行调整。

自编码网络采用最小化损失函数作为约束条件，最小化损失函数可以用下列公式(2)表示：

其中，x为输入的叠加速度谱，f(x)为输出的编码，为解码器重构的叠加速度谱，当损失函数值最小时，编码器f(x)能尝试将叠加速度谱进行压缩编码，然后通过解码器g(f(x))还原到原始叠加速度谱。

步骤S4：将步骤S3得到的能量团特征编码输入至策略网络，策略网络对能量团特征编码进行处理，使得输入经编码后的能量团特征与步骤S2中的各个时刻t_0i下对应的最优扫描速度v_i对应起来，这样使得每个最优扫描速度都与其对应的时刻t_0i建立起来一一对应，以此输出速度序列；

策略网络执行从环境状态到行为的映射，用π表示公式(3)，

π(a|s)＝P(A_t＝a|S_t＝s)(3)

其中，t＝0,1,2,3，......，表示是时间点，S_t∈S是“环境状态”的集合中t时刻的状态，s代表其中某个特定的状态，为策略网络输入的步骤S3得到的能量团特征编码。A_t∈A(S_t)，A(S_t)是在S_t下的“行为”集合，A_t代表t时刻的行为，a代表其中某个特定的行为，为策略网络输出的速度序列v，速度序列v为策略网络中每个节点的输出值按照顺序分别对应t_i时刻的速度值v_i形成的速度序列。

在本实施例中，策略网络为全连接神经网络，具体可以采用BP神经网络、卷积神经网络等来实现，包括输入层、隐藏层和输出层，其中，隐藏层设置3层以上，策略网络的输入层的维度与自编码网络的编码器输出维度相同，策略网络的输出层的维度与速度采样点个数相同。

步骤S5：应用步骤S4输出的速度序列对共中心点地震道集进行动校正，动校正量按正常时差公式(4)计算：

式中，x_j表示第j个炮检距，Δt_i,j为t_i时刻第j个炮检距处的动校正量，t_i,0为t_i时刻垂直反射时间，v为步骤S4输出的速度序列。

步骤S6：经过动校正后，有效一次反射波被校平，而多次波由于视速度的差异没有校平，利用所述有效一次反射波和多次波的视速度差异进行多次波压制。经过多次波压制后，将多次波进行剔除，从而提取出一次反射波，再应用于后续多次迭代进行的速度谱拾取步骤，这使得多次波不会干扰到本发明速度谱的拾取；

步骤S7：对经过步骤S6提取出的一次反射波的共中心点地震道集基于拉东变换公式计算出拉东变换谱(τ-p谱)的剩余速度谱，输出为用二维数组表示的剩余速度谱；

步骤S8：在步骤S7计算出的剩余速度谱中，对剩余速度谱的幅度值进行时间t方向上的叠加，得到q方向上对应的叠加曲线图，从而获取t-q曲线图，根据该曲线图的最大幅度值到q＝0轴的距离，根据距离值按从大至小设置相应的从小到大的奖励值，所述叠加曲线图的最大幅度值到q＝0轴的距离越小获得的奖励值越大。本实施例中，按从1到0给予对应的值为10至30的奖励值，比如t-q曲线图上某点的最大幅度值为0.4，也即到q＝0轴的距离为0.4，则给予本次步骤S4输出序列对应的奖励值为22，当有计算出奖励值等于30，此时，判断对应所述步骤S4中该速度序列为最优。

判断最优速度序列是基于以下原理：根据下列公式(5)可知，当动校正速度v越接近实际地层的真实叠加速度v₀时，t₀时刻同相轴的能量团越接近q＝0处，当v＝v₀时，也即q＝0时，奖励值为最大。

步骤S9：根据步骤S8计算出的奖励值采用策略梯度的方法来训练步骤S4中的策略网络，直至获取最大奖励值；在训练过程中，网络模型会接触到好的速度序列及估值器给出的高奖励值，和较差速度序列及估值器给出的低奖励值，通过对这些样本的学习，策略网络会逐渐增加输出好的速度序列的概率，逐渐完成策略学习的目标；

步骤S10：迭代执行步骤S4至步骤S9，直至获取最大的奖励值，在本实施中奖励值达到30，即为最大的奖励值，。以获取最大奖励值对应的速度序列经过插值后输出即为我们最终所需要拾取的该共中心点道集的叠加速度曲线。

进一步地，将经过上述所有步骤后的神经网络模型以文件的形式保存，保存的文件格式为二进制文件，使得下次读取以指定的格式读取二进制文件即可实现神经网络模型的重复利用，减少学习的开销。

另外，如图4所示，本发明还涉及一种处理终端，所述处理终端100还包括，

存储器101，用于存储程序指令；

处理器102，用于运行所述程序指令，以执行如下步骤：

步骤S2：根据步骤S1中的共中心点地震道集数据经预设算法计算出以以各个时刻下通过速度扫描得到的叠加速度谱，输出为用二维数组表示的叠加速度谱；

具体地，计算叠加速度谱按以下步骤进行：

式中，t_0i＝t₀+iΔt(i＝1,2,3,...,n)，t₀≤t_0i≤t_0max，v_i＝v_min+iΔv(i＝1,2,3,...,n)，v_min≤v_i≤v_max，通常v_max＝7000m/s,v_min＝1400m/s,Δt和Δv预先设置的一个合理值，这两个值如果选择太大，导致计算出的扫描速度曲线容易不经过地震波的峰值，精度不高，如果选择调小，则增加计算量。

c.如图3所示，将b步骤下每个时刻t_0i下对应的在最小值v_min到最大值v_max范围内的扫描速度v_i得到的地震反射波叠加能量曲线按顺序拼接起来，则地震反射波叠加能量曲线在所有时刻t_0i下就形成曲面，即经过插值后连接成了一条在v-T坐标下的连续的地震反射波叠加能量变化曲面，所述地震反射波叠加能量变化曲面即为叠加速度谱，该叠加速度谱可以采用二维数组表示；图2中A表示叠加能量的幅度值；

在本实施例中，阈值α为0.2；

策略网络执行从环境状态到行为的映射，用π表示公式(3)，

π(a|s)＝P(A_t＝a|S_t＝s)(3)

步骤S5：应用步骤S4输出的速度序列对共中心点地震道集进行动校正，经过动校正后，动校正量按正常时差公式(4)计算：

步骤S10：迭代执行步骤S4至步骤S9，直至获取最大的奖励值，在本实施中奖励值达到30，即为最大的奖励值。以获取最大奖励值对应的速度序列经过插值后输出即为我们最终所需要拾取的该共中心点道集的叠加速度曲线。

将经过上述所有步骤后的神经网络模型以文件的形式保存，保存的文件格式为二进制文件，使得下次读取以指定的格式读取二进制文件即可实现神经网络模型的重复利用，减少学习的开销。

对于本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及变形，而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

Claims

1.一种基于深度强化学习的叠加速度谱拾取方法，其特征在于：所述方法包括以下步骤：

步骤S4：将步骤S3经对叠加速度谱编码后的能量团特征编码输入至策略网络，策略网络对能量团特征进行处理，使得输入经编码的能量团特征编码与步骤S2的叠加速度谱中各个时刻下对应的最优扫描速度对应起来，以此输出速度序列；

式中，x_j表示第j个炮检距，△t_i,j为t_i时刻第j个炮检距处的动校正量，t_i,0为t_i时刻垂直反射时间，v为步骤S4输出的速度序列，速度序列由各个时刻下对应的最优扫描速度v_i组成；

2.根据权利要求1所述的基于深度强化学习的叠加速度谱拾取方法，其特征在于：所述步骤S2中的预设算法按以下步骤进行：

式中，t_0i＝t₀+i△t(i＝1,2,3,...,n)，t₀≤t_0i≤t_0max，v_i＝v_min+i△v(i＝1,2,3,...,n)，v_min≤v_i≤v_max，v_max＝7000m/s,v_min＝1400m/s,△t和△v为常数值；

3.根据权利要求2所述的基于深度强化学习的叠加速度谱拾取方法，其特征在于：所述阈值α为0.2。

4.根据权利要求1所述的基于深度强化学习的叠加速度谱拾取方法，其特征在于：所述步骤S3中的自编码网络为全连接神经网络，包括输入层、隐藏层和输出层，输入层的维度与输入数据叠加速度谱二维数组的个数相同，输入层、隐藏层和输出层的维度依次减小，设置3层以上的隐藏层；所述自编码网络采用BP神经网络算法、卷积神经网络算法或循环神经网络算法。

5.根据权利要求2所述的基于深度强化学习的叠加速度谱拾取方法，其特征在于：所述步骤S4中的策略网络为全连接神经网络，包括输入层、隐藏层和输出层，其中，隐藏层设置3层以上，策略网络的输入层的维度与自编码网络的编码器输出维度相同，策略网络的输出层的维度与公式①中的速度采样点个数相同；所述策略网络采用BP神经网络算法、卷积神经网络算法或循环神经网络算法。

6.一种处理终端，包括，

存储器，用于存储程序指令；

处理器，用于运行所述程序指令，以执行如下步骤：

7.根据权利要求6所述的处理终端，其特征在于：所述步骤S2中，计算叠加速度谱按以下步骤进行：

8.根据权利要求7所述的处理终端，其特征在于：所述阈值α为0.2。

9.根据权利要求6所述的处理终端，其特征在于：所述步骤S3中的自编码网络为全连接神经网络，包括输入层、隐藏层和输出层，输入层的维度与输入数据叠加速度谱二维数组的个数相同，输入层、隐藏层和输出层的维度依次减小，设置3层以上的隐藏层；所述自编码网络采用BP神经网络算法、卷积神经网络算法或循环神经网络算法。

10.根据权利要求7所述的处理终端，其特征在于：所述步骤S4中的策略网络为全连接神经网络，包括输入层、隐藏层和输出层，其中，隐藏层设置3层以上，策略网络的输入层的维度与自编码网络的编码器输出维度相同，策略网络的输出层的维度与公式①中时刻t_0i方向上速度采样点个数相同；所述策略网络采用BP神经网络算法、卷积神经网络算法或循环神经网络算法。