CN109031421B - 一种基于深度强化学习的叠加速度谱拾取方法及处理终端 - Google Patents

一种基于深度强化学习的叠加速度谱拾取方法及处理终端 Download PDF

Info

Publication number
CN109031421B
CN109031421B CN201810571640.6A CN201810571640A CN109031421B CN 109031421 B CN109031421 B CN 109031421B CN 201810571640 A CN201810571640 A CN 201810571640A CN 109031421 B CN109031421 B CN 109031421B
Authority
CN
China
Prior art keywords
stack
value
network
scanning speed
velocity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810571640.6A
Other languages
English (en)
Other versions
CN109031421A (zh
Inventor
顾元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Marine Geological Survey
Original Assignee
Guangzhou Marine Geological Survey
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Marine Geological Survey filed Critical Guangzhou Marine Geological Survey
Priority to CN201810571640.6A priority Critical patent/CN109031421B/zh
Publication of CN109031421A publication Critical patent/CN109031421A/zh
Application granted granted Critical
Publication of CN109031421B publication Critical patent/CN109031421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01VGEOPHYSICS; GRAVITATIONAL MEASUREMENTS; DETECTING MASSES OR OBJECTS; TAGS
    • G01V1/00Seismology; Seismic or acoustic prospecting or detecting
    • G01V1/28Processing seismic data, e.g. for interpretation or for event detection
    • G01V1/36Effecting static or dynamic corrections on records, e.g. correcting spread; Correlating seismic signals; Eliminating effects of unwanted energy
    • G01V1/362Effecting static or dynamic corrections; Stacking

Landscapes

  • Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Environmental & Geological Engineering (AREA)
  • Geology (AREA)
  • General Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Geophysics (AREA)
  • Geophysics And Detection Of Objects (AREA)

Abstract

本发明涉及一种基于深度强化学习的叠加速度谱拾取方法及处理终端,所述方法包括以下步骤:步骤S1:获取包括地震反射波的原始共中心点地震道集数据并计算出以各个时刻下的最优扫描速度组成的叠加速度谱;步骤S2:将叠加速度谱输入至自编码网络,得到编码后的高阶能量团特征;步骤S3:将高阶能量团特征编码输入至策略网络,拾取各个时刻下的最优扫描速度,输出速度序列;步骤S4:对速度序列进行评价,输出奖励值;步骤S5:根据奖励值来训练策略网络;步骤S6:迭代执行步骤S3至步骤S5直至步骤S4获取到设定的最大奖励值时,输出最优速度序列。本发明无需人工干预,实现智能化的速度谱拾取;拾取过程中能够消除多次波的干扰,拾取叠加速度曲线更准确。

Description

一种基于深度强化学习的叠加速度谱拾取方法及处理终端
技术领域
本发明涉及地震数据处理技术领域,具体是一种基于深度强化学习的叠加速度谱拾取方法及处理终端。
背景技术
地震波速是地震数据处理和地震成像中重要的参数之一,特别是基于速度差异的多次波压制及基于波动方程理论的叠前时间(或深度)偏移对速度模型的合理性有比较高的要求,其精度直接影响处理结果及地震成像的质量,因此,在地震数据处理过程中要尽可能地求取最接近实际的速度模型。
目前主要采用人工速度谱拾取的方法,采用人工方法,不仅受到人为因素影响,速度谱拾取的结果在很大程度上依赖于人的经验和学识等不可控因素,而且人工方法导致效率低下;而采用其他的方法,比如公开号为“CN105445788A”和“CN105572733A”的两项专利,其操作复杂、受干扰波影响较大、拾取准确率不高,而且由于在应用过程中还需要大量的人工干预,并没有实现速度谱拾取的智能化,其效率并没有得到质的提高,实际工作中仅作为辅助工具使用。
实际地震数据的速度谱中,有效速度谱能量团的聚焦性差,而现有的速度谱拾取方法都是基于有着对速度谱能量团的高识别度,因此导致现有的速度谱拾取方法很难满足实际应用的要求;
目前的速度谱拾取方法或多或少都还需要人工干预,且操作复杂,没有实现智能化;
对于海上地震数据而言,其受到多次波干扰严重,多次波是一种在海面和地质界面之间经历多次反射后被检波器接收的相干干扰,主要包括全程多次波和层间多次波,严重地干扰甚至屏蔽了有效反射,使得速度谱中有效波能量团不聚焦而难以识别和追踪,现有的速度谱拾取方法对多次波的影响几乎无能为力。
发明内容
针对现有技术的不足,本发明提供一种基于深度强化学习的叠加速度谱拾取方法及处理终端,其能够解决对地震速度谱智能化拾取,且对多次波干扰也仍然能够获取准确拾取结果。
本发明的技术方案为:一种基于深度强化学习的叠加速度谱拾取方法,其特征在于:所述方法包括以下步骤:
步骤S1:获取包括地震反射波的原始共中心点地震道集数据;
步骤S2:根据步骤S1中的共中心点地震道集数据经预设算法计算出以各个时刻下的最优扫描速度组成的叠加速度谱,输出为用二维数组表示的叠加速度谱;
步骤S3:将步骤S2中的二维数组输入至自编码网络,自编码网络通过编码器和解码器学习提取出叠加速度谱的能量团特征,编码器输出经对叠加速度谱编码后的能量团特征;
步骤S4:将步骤S3的能量团特征编码输入至策略网络,策略网络对能量团特征进行处理,使得输入经编码的能量团特征编码与步骤S2的叠加速度谱中各个时刻下对应的最优扫描速度对应起来,以此输出速度序列;
步骤S5:应用步骤S4输出的速度序列对共中心点地震道集进行动校正,动校正量按正常时差公式计算:
式中,xj表示第j个炮检距,Δti,j为ti时刻第j个炮检距处的动校正量,ti,0为ti时刻垂直反射时间,v为步骤S4输出的速度序列;
步骤S6:将经过步骤S5动校正后的共中心点地震道集进行多次波压制,经过多次波压制后,将多次波进行剔除,提取出一次反射波;
步骤S7:对经过步骤S6提取出的一次反射波的共中心点地震道集计算出基于拉东变换公式的剩余速度谱,输出为用二维数组表示的剩余速度谱;
步骤S8:在步骤S7计算出的剩余速度谱中,对剩余速度谱的幅度值进行时间t方向上的叠加,得到q方向上的叠加曲线图,根据所述叠加曲线图的最大幅度值到q=0轴的距离,按从大至小设置相应的从小到大的奖励值;
步骤S9:根据步骤S8计算出的奖励值采用策略梯度的方法来训练步骤S4中的策略网络;
步骤S10:迭代执行步骤S4至步骤S9,当叠加曲线图的最大幅度值到q=0轴的距离为0时,获取的奖励值为最大,即判断对应所述步骤S4输出的速度序列为最优,否则继续对策略网络进行训练;以获取最大奖励值对应的速度序列经过插值后输出即为最终所需要拾取的共中心点道集的叠加速度曲线。
进一步地,所述步骤S2中的预设算法按以下步骤进行:
a.将步骤S1中的地震反射波放入以横坐标为炮检距X、纵坐标为时间T的X-T坐标;
b.确定时刻t0i和扫描速度vi参数,包括t0i的最大值t0max和最小值t0,扫描速度vi的最大值vmax和最小值vmin,根据公式①来确定在X-T坐标下的固定某个时刻t0i下的扫描速度vi对应的双曲线路径,沿双曲线路径对地震反射波振幅进行叠加,得到时刻t0i下扫描速度vi对应的地震反射波叠加能量,当扫描速度vi从最小值vmin到最大值vmax完成扫描后,得到时刻t0i下扫描速度vmin到vmax范围内对应的地震反射波叠加能量曲线;当时刻t0i下某个扫描速度vi对应的双曲线路径经过地震反射波能量曲线的峰值最多时,叠加能量值最大,则判断该扫描速度vi为对应时刻t0i的最优扫描速度:
式中,t0i=t0+iΔt(i=1,2,3,...,n),t0≤t0i≤t0max,vi=vmin+iΔv(i=1,2,3,...,n),vmin≤vi≤vmax,vmax=7000m/s,vmin=1400m/s,Δt和Δv为常数值;
c.将b步骤中每个时刻t0i下对应的最优扫描速度下的地震反射波叠加能量曲线按顺序进行拼接,经插值后形成在v-T坐标下的连续的地震反射波叠加能量变化曲面,v表示地震波速度,其取值为扫描速度vi的集合,所述地震反射波叠加能量变化曲面为叠加速度谱,并采用二维数组来表示;
d.将叠加速度谱中的叠加能量值进行归一化处理,归一化后的数值范围均在0-1之间;预先设置阈值α,如果归一化后的叠加能量值小于该阈值α,则将叠加能量值置于0,如果归一化后的叠加能量值大于该阈值α,则将叠加能量值置于1。
进一步地,所述阈值α为0.2。
进一步地,所述步骤S3中的自编码网络为全连接神经网络,包括输入层、隐藏层和输出层,输入层的维度与输入数据叠加速度谱二维数组的个数相同,输入层、隐藏层和输出层的维度依次减小,设置3层以上的隐藏层;所述自编码网络采用BP神经网络算法、卷积神经网络算法或循环神经网络算法。
进一步地,所述步骤S4中的策略网络为全连接神经网络,包括输入层、隐藏层和输出层,其中,隐藏层设置3层以上,策略网络的输入层的维度与自编码网络的编码器输出维度相同,策略网络的输出层的维度与公式①中的速度采样点个数相同;所述策略网络采用BP神经网络算法、卷积神经网络算法或循环神经网络算法。
一种处理终端,包括,
存储器,用于存储程序指令;
处理器,用于运行所述程序指令,以执行如下步骤:
步骤S1:获取包括地震反射波的原始共中心点地震道集数据;
步骤S2:根据步骤S1中的共中心点地震道集数据经预设算法计算出以各个时刻下的最优扫描速度组成的叠加速度谱,输出为用二维数组表示的叠加速度谱;
步骤S3:将步骤S2中的二维数组输入至自编码网络,自编码网络通过编码器和解码器学习提取出叠加速度谱的能量团特征,编码器输出经对叠加速度谱编码后的能量团特征;
步骤S4:将步骤S3的能量团特征编码输入至策略网络,策略网络对能量团特征进行处理,使得输入经编码的能量团特征编码与步骤S2的叠加速度谱中各个时刻下对应的最优扫描速度对应起来,以此输出速度序列;
步骤S5:应用步骤S4输出的速度序列对共中心点地震道集进行动校正,动校正量按正常时差公式计算:
式中,xj表示第j个炮检距,Δti,j为ti时刻第j个炮检距处的动校正量,ti,0为ti时刻垂直反射时间,v为步骤S4输出的速度序列;
步骤S6:将经过步骤S5动校正后的共中心点地震道集进行多次波压制,经过多次波压制后,将多次波进行剔除,提取出一次反射波;
步骤S7:对经过步骤S6提取出的一次反射波的共中心点地震道集计算出基于拉东变换公式的剩余速度谱,输出为用二维数组表示的剩余速度谱;
步骤S8:在步骤S7计算出的剩余速度谱中,对剩余速度谱的幅度值进行时间t方向上的叠加,得到q方向上的叠加曲线图,根据所述叠加曲线图的最大幅度值到q=0轴的距离,按从大至小设置相应的从小到大的奖励值;
步骤S9:根据步骤S8计算出的奖励值采用策略梯度的方法来训练步骤S4中的策略网络;
步骤S10:迭代执行步骤S4至步骤S9,当叠加曲线图的最大幅度值到q=0轴的距离为0时,获取的奖励值为最大,即判断对应所述步骤S4输出的速度序列为最优,否则继续对策略网络进行训练;以获取最大奖励值对应的速度序列经过插值后输出即为最终所需要拾取的共中心点道集的叠加速度曲线。
进一步地,所述步骤S2中,计算叠加速度谱按以下步骤进行:
a.将步骤S1中的地震反射波放入以横坐标为炮检距X、纵坐标为时间T的X-T坐标;
b.确定时刻t0i和扫描速度vi参数,包括t0i的最大值t0max和最小值t0,扫描速度vi的最大值vmax和最小值vmin,根据公式①来确定在X-T坐标下的固定某个时刻t0i下的扫描速度vi对应的双曲线路径,沿双曲线路径对地震反射波振幅进行叠加,得到时刻t0i下扫描速度vi对应的地震反射波叠加能量,当扫描速度vi从最小值vmin到最大值vmax完成扫描后,得到时刻t0i下扫描速度vmin到vmax范围内对应的地震反射波叠加能量曲线;当时刻t0i下某个扫描速度vi对应的双曲线路径经过地震反射波能量曲线的峰值最多时,叠加能量值最大,则判断该扫描速度vi为对应时刻t0i的最优扫描速度:
式中,t0i=t0+iΔt(i=1,2,3,...,n),t0≤t0i≤t0max,vi=vmin+iΔv(i=1,2,3,...,n),vmin≤vi≤vmax,vmax=7000m/s,vmin=1400m/s,Δt和Δv为常数值;
c.将b步骤中每个时刻t0i下对应的最优扫描速度下的地震反射波叠加能量曲线按顺序进行拼接,经插值后形成在v-T坐标下的连续的地震反射波叠加能量变化曲面,v表示地震波速度,其取值为扫描速度vi的集合,所述地震反射波叠加能量变化曲面为叠加速度谱,并采用二维数组来表示;
d.将叠加速度谱中的叠加能量值进行归一化处理,归一化后的数值范围均在0-1之间;预先设置阈值α,如果归一化后的叠加能量值小于该阈值α,则将叠加能量值置于0,如果归一化后的叠加能量值大于该阈值α,则将叠加能量值置于1。
进一步地,所述阈值α为0.2。
进一步地,所述步骤S3中的自编码网络为全连接神经网络,包括输入层、隐藏层和输出层,输入层的维度与输入数据叠加速度谱二维数组的个数相同,输入层、隐藏层和输出层的维度依次减小,设置3层以上的隐藏层;所述自编码网络采用BP神经网络算法、卷积神经网络算法或循环神经网络算法。
进一步地,所述步骤S4中的策略网络为全连接神经网络,包括输入层、隐藏层和输出层,其中,隐藏层设置3层以上,策略网络的输入层的维度与自编码网络的编码器输出维度相同,策略网络的输出层的维度与公式①中时刻t0i方向上速度采样点个数相同;所述策略网络采用BP神经网络算法、卷积神经网络算法或循环神经网络算法。
本发明的有益效果为:
1、只需要输入原始共中心点地震道集数据,能够进行自行计算拾取出速度谱,无需人工干预,实现智能化的速度谱拾取;
2、本发明经过对原始数据经过处理后,输入至自编码网络和策略网络进行深度强化学习,能够消除多次波的干扰,更加准确地拾取叠加速度曲线。
附图说明
图1为本发明较佳实施例的流程图;
图2为本发明在X-T坐标下的固定某个时刻t0i下的扫描速度vi曲线(包括地震反射波)的示意图;
图3为本发明每个时刻t0i下对应的最优扫描速度vi下的叠加能量的峰值连接过程的示意图;
图4为本发明一种处理终端的结构示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述:
如图1所示,本实施例公开了一种基于深度强化学习的叠加速度谱拾取方法,其包括以下步骤:
步骤S1:获取包括地震反射波的原始共中心点地震道集数据;
步骤S2:根据步骤S1中的共中心点地震道集数据经预设算法计算出以各个时刻下通过扫描速度扫描得到的叠加速度谱,叠加速度谱由最优扫描速度组成,输出为用二维数组表示的叠加速度谱;
具体地,计算叠加速度谱按以下步骤进行:
a.将步骤S1中的地震反射波放入X-T坐标下的相应位置,如图2中的“波浪曲线”所示;
b.确定时刻t0i和扫描速度vi参数,包括t0i的最大值t0max和最小值t0,扫描速度vi的最大值vmax和最小值vmin,根据公式(1)来确定在X-T坐标下的固定某个时刻t0i下的扫描速度vi对应的双曲线路径,也即确定了扫描速度vi的趋势走向,如图2所示为t0时刻下,X-T坐标下的三个不同扫描速度(v1,v2,v3)的曲线,沿该双曲线路径对地震反射波振幅进行叠加,得到时刻t0i下扫描速度vi对应的地震反射波叠加能量,当扫描速度vi从最小值vmin到最大值vmax完成扫描后,得到时刻t0i下扫描速度vmin到vmax范围内对应的地震反射波叠加能量曲线;当时刻t0i下某扫描速度vi对应的双曲线路径经过地震反射波能量曲线的峰值最多时,叠加能量值最大,即所述的地震反射波叠加能量曲线的最大峰值位置对应横坐标中的扫描速度vi,则判断该扫描速度vi为对应该时刻t0i下的最优扫描速度,也即选取经过地震波的峰值最多的扫描速度,这样我们认为该扫描速度是对应该固定时刻t0i下的最优速度,如图2所示,该t0时刻下的最优扫描速度为v2;这样经过以扫描速度vi和时刻t0i两个变量的循环计算,即可以计算出在t0~t0max时间内任意时刻下的最优扫描速度vi
式中,t0i=t0+iΔt(i=1,2,3,...,n),t0≤t0i≤t0max,vi=vmin+iΔv(i=1,2,3,...,n),vmin≤vi≤vmax,通常vmax=7000m/s,vmin=1400m/s,Δt和Δv预先设置的一个合理值,这两个值如果选择太大,导致计算出的扫描速度曲线精度不高,如果选择调小,则增加计算量。
c.如图3所示,将b步骤下每个时刻t0i下在最小值vmin到最大值vmax范围内的扫描速度vi得到的地震反射波叠加能量曲线按顺序拼接起来,则地震反射波叠加能量曲线在所有时刻t0i下就形成曲面,即经过插值后连接成了一条在v-T坐标下的连续的地震反射波叠加能量变化曲面,所述地震反射波叠加能量变化曲面即为叠加速度谱,该叠加速度谱可以采用二维数组表示;图2中A表示叠加能量的幅度值;
d.将叠加速度谱中的叠加能量值,即图2中v-A坐标下的幅度值A,进行归一化处理,归一化后的数值范围均在0-1之间(包括0和1);预先设置阈值α,如果归一化后的叠加能量值小于该阈值α,则将叠加能量值置于0,如果归一化后的叠加能量值大于该阈值α,则将叠加能量值置于1;
在本实施例中,阈值α为0.2;
步骤S3:将步骤S2中的二维数组作为叠加速度谱输入至自编码网络,自编码网络通过编码器和解码器学习提取出叠加速度谱的能量团特征,编码器输出能量团特征编码,能量团特征编码为经过编码后的高阶能量团特征,通过该能量团特征编码输入至解码器后,解码器输出为重构的叠加速度谱,重构的叠加速度谱用于自编码网络学习并以此验证自编码网络的学习能力;
G.E.Hinton和R.R.Salakhutdinov于2006年在《Science》期刊上发表了名为“Reducing the Dimensionality of Data with Neural Networks”的文章,该文章指出了可通过自编码网络的对数据进行降维的方法来提取经编码后的高阶特征,可以应用在图像识别、人脸识别等领域,并得到了实际的应用,所以本申请可以采用自编码网络来学习提取出叠加速度谱的能量团特征。
在本实施例中,自编码网络采用全连接神经网络,包括输入层、隐藏层和输出层,输入层的维度(神经元个数)与输入数据叠加速度谱二维数组的个数相同,从输入层、隐藏层和输出层的维度依次减小,设置3层以上的隐藏层;当然,具体的隐藏层的层数可以根据需要的计算效率和计算精度进行调整。
自编码网络采用最小化损失函数作为约束条件,最小化损失函数可以用下列公式(2)表示:
其中,x为输入的叠加速度谱,f(x)为输出的编码,为解码器重构的叠加速度谱,当损失函数值最小时,编码器f(x)能尝试将叠加速度谱进行压缩编码,然后通过解码器g(f(x))还原到原始叠加速度谱。
步骤S4:将步骤S3得到的能量团特征编码输入至策略网络,策略网络对能量团特征编码进行处理,使得输入经编码后的能量团特征与步骤S2中的各个时刻t0i下对应的最优扫描速度vi对应起来,这样使得每个最优扫描速度都与其对应的时刻t0i建立起来一一对应,以此输出速度序列;
策略网络执行从环境状态到行为的映射,用π表示公式(3),
π(a|s)=P(At=a|St=s)(3)
其中,t=0,1,2,3,......,表示是时间点,St∈S是“环境状态”的集合中t时刻的状态,s代表其中某个特定的状态,为策略网络输入的步骤S3得到的能量团特征编码。At∈A(St),A(St)是在St下的“行为”集合,At代表t时刻的行为,a代表其中某个特定的行为,为策略网络输出的速度序列v,速度序列v为策略网络中每个节点的输出值按照顺序分别对应ti时刻的速度值vi形成的速度序列。
在本实施例中,策略网络为全连接神经网络,具体可以采用BP神经网络、卷积神经网络等来实现,包括输入层、隐藏层和输出层,其中,隐藏层设置3层以上,策略网络的输入层的维度与自编码网络的编码器输出维度相同,策略网络的输出层的维度与速度采样点个数相同。
步骤S5:应用步骤S4输出的速度序列对共中心点地震道集进行动校正,动校正量按正常时差公式(4)计算:
式中,xj表示第j个炮检距,Δti,j为ti时刻第j个炮检距处的动校正量,ti,0为ti时刻垂直反射时间,v为步骤S4输出的速度序列。
步骤S6:经过动校正后,有效一次反射波被校平,而多次波由于视速度的差异没有校平,利用所述有效一次反射波和多次波的视速度差异进行多次波压制。经过多次波压制后,将多次波进行剔除,从而提取出一次反射波,再应用于后续多次迭代进行的速度谱拾取步骤,这使得多次波不会干扰到本发明速度谱的拾取;
步骤S7:对经过步骤S6提取出的一次反射波的共中心点地震道集基于拉东变换公式计算出拉东变换谱(τ-p谱)的剩余速度谱,输出为用二维数组表示的剩余速度谱;
步骤S8:在步骤S7计算出的剩余速度谱中,对剩余速度谱的幅度值进行时间t方向上的叠加,得到q方向上对应的叠加曲线图,从而获取t-q曲线图,根据该曲线图的最大幅度值到q=0轴的距离,根据距离值按从大至小设置相应的从小到大的奖励值,所述叠加曲线图的最大幅度值到q=0轴的距离越小获得的奖励值越大。本实施例中,按从1到0给予对应的值为10至30的奖励值,比如t-q曲线图上某点的最大幅度值为0.4,也即到q=0轴的距离为0.4,则给予本次步骤S4输出序列对应的奖励值为22,当有计算出奖励值等于30,此时,判断对应所述步骤S4中该速度序列为最优。
判断最优速度序列是基于以下原理:根据下列公式(5)可知,当动校正速度v越接近实际地层的真实叠加速度v0时,t0时刻同相轴的能量团越接近q=0处,当v=v0时,也即q=0时,奖励值为最大。
步骤S9:根据步骤S8计算出的奖励值采用策略梯度的方法来训练步骤S4中的策略网络,直至获取最大奖励值;在训练过程中,网络模型会接触到好的速度序列及估值器给出的高奖励值,和较差速度序列及估值器给出的低奖励值,通过对这些样本的学习,策略网络会逐渐增加输出好的速度序列的概率,逐渐完成策略学习的目标;
步骤S10:迭代执行步骤S4至步骤S9,直至获取最大的奖励值,在本实施中奖励值达到30,即为最大的奖励值,。以获取最大奖励值对应的速度序列经过插值后输出即为我们最终所需要拾取的该共中心点道集的叠加速度曲线。
进一步地,将经过上述所有步骤后的神经网络模型以文件的形式保存,保存的文件格式为二进制文件,使得下次读取以指定的格式读取二进制文件即可实现神经网络模型的重复利用,减少学习的开销。
另外,如图4所示,本发明还涉及一种处理终端,所述处理终端100还包括,
存储器101,用于存储程序指令;
处理器102,用于运行所述程序指令,以执行如下步骤:
步骤S1:获取包括地震反射波的原始共中心点地震道集数据;
步骤S2:根据步骤S1中的共中心点地震道集数据经预设算法计算出以以各个时刻下通过速度扫描得到的叠加速度谱,输出为用二维数组表示的叠加速度谱;
具体地,计算叠加速度谱按以下步骤进行:
a.将步骤S1中的地震反射波放入X-T坐标下的相应位置,如图2中的“波浪曲线”所示;
b.确定时刻t0i和扫描速度vi参数,包括t0i的最大值t0max和最小值t0,扫描速度vi的最大值vmax和最小值vmin,根据公式(1)来确定在X-T坐标下的固定某个时刻t0i下的扫描速度vi对应的双曲线路径,也即确定了扫描速度vi的趋势走向,如图2所示为t0时刻下,X-T坐标下的三个不同扫描速度(v1,v2,v3)的曲线,沿该双曲线路径对地震反射波振幅进行叠加,得到时刻t0i下扫描速度vi对应的地震反射波叠加能量,当扫描速度vi从最小值vmin到最大值vmax完成扫描后,得到时刻t0i下扫描速度vmin到vmax范围内对应的地震反射波叠加能量曲线;当时刻t0i下某扫描速度vi对应的双曲线路径经过地震反射波能量曲线的峰值最多时,叠加能量值最大,即所述的地震反射波叠加能量曲线的最大峰值位置对应横坐标中的扫描速度vi,则判断该扫描速度vi为对应该时刻t0i下的最优扫描速度,也即选取经过地震波的峰值最多的扫描速度,这样我们认为该扫描速度是对应该固定时刻t0i下的最优速度,如图2所示,该t0时刻下的最优扫描速度为v2;这样经过以扫描速度vi和时刻t0i两个变量的循环计算,即可以计算出在t0~t0max时间内任意时刻下的最优扫描速度vi
式中,t0i=t0+iΔt(i=1,2,3,...,n),t0≤t0i≤t0max,vi=vmin+iΔv(i=1,2,3,...,n),vmin≤vi≤vmax,通常vmax=7000m/s,vmin=1400m/s,Δt和Δv预先设置的一个合理值,这两个值如果选择太大,导致计算出的扫描速度曲线容易不经过地震波的峰值,精度不高,如果选择调小,则增加计算量。
c.如图3所示,将b步骤下每个时刻t0i下对应的在最小值vmin到最大值vmax范围内的扫描速度vi得到的地震反射波叠加能量曲线按顺序拼接起来,则地震反射波叠加能量曲线在所有时刻t0i下就形成曲面,即经过插值后连接成了一条在v-T坐标下的连续的地震反射波叠加能量变化曲面,所述地震反射波叠加能量变化曲面即为叠加速度谱,该叠加速度谱可以采用二维数组表示;图2中A表示叠加能量的幅度值;
d.将叠加速度谱中的叠加能量值,即图2中v-A坐标下的幅度值A,进行归一化处理,归一化后的数值范围均在0-1之间(包括0和1);预先设置阈值α,如果归一化后的叠加能量值小于该阈值α,则将叠加能量值置于0,如果归一化后的叠加能量值大于该阈值α,则将叠加能量值置于1;
在本实施例中,阈值α为0.2;
步骤S3:将步骤S2中的二维数组作为叠加速度谱输入至自编码网络,自编码网络通过编码器和解码器学习提取出叠加速度谱的能量团特征,编码器输出能量团特征编码,能量团特征编码为经过编码后的高阶能量团特征,通过该能量团特征编码输入至解码器后,解码器输出为重构的叠加速度谱,重构的叠加速度谱用于自编码网络学习并以此验证自编码网络的学习能力;
G.E.Hinton和R.R.Salakhutdinov于2006年在《Science》期刊上发表了名为“Reducing the Dimensionality of Data with Neural Networks”的文章,该文章指出了可通过自编码网络的对数据进行降维的方法来提取经编码后的高阶特征,可以应用在图像识别、人脸识别等领域,并得到了实际的应用,所以本申请可以采用自编码网络来学习提取出叠加速度谱的能量团特征。
在本实施例中,自编码网络采用全连接神经网络,包括输入层、隐藏层和输出层,输入层的维度(神经元个数)与输入数据叠加速度谱二维数组的个数相同,从输入层、隐藏层和输出层的维度依次减小,设置3层以上的隐藏层;当然,具体的隐藏层的层数可以根据需要的计算效率和计算精度进行调整。
自编码网络采用最小化损失函数作为约束条件,最小化损失函数可以用下列公式(2)表示:
其中,x为输入的叠加速度谱,f(x)为输出的编码,为解码器重构的叠加速度谱,当损失函数值最小时,编码器f(x)能尝试将叠加速度谱进行压缩编码,然后通过解码器g(f(x))还原到原始叠加速度谱。
步骤S4:将步骤S3得到的能量团特征编码输入至策略网络,策略网络对能量团特征编码进行处理,使得输入经编码后的能量团特征与步骤S2中的各个时刻t0i下对应的最优扫描速度vi对应起来,这样使得每个最优扫描速度都与其对应的时刻t0i建立起来一一对应,以此输出速度序列;
策略网络执行从环境状态到行为的映射,用π表示公式(3),
π(a|s)=P(At=a|St=s)(3)
其中,t=0,1,2,3,......,表示是时间点,St∈S是“环境状态”的集合中t时刻的状态,s代表其中某个特定的状态,为策略网络输入的步骤S3得到的能量团特征编码。At∈A(St),A(St)是在St下的“行为”集合,At代表t时刻的行为,a代表其中某个特定的行为,为策略网络输出的速度序列v,速度序列v为策略网络中每个节点的输出值按照顺序分别对应ti时刻的速度值vi形成的速度序列。
在本实施例中,策略网络为全连接神经网络,具体可以采用BP神经网络、卷积神经网络等来实现,包括输入层、隐藏层和输出层,其中,隐藏层设置3层以上,策略网络的输入层的维度与自编码网络的编码器输出维度相同,策略网络的输出层的维度与速度采样点个数相同。
步骤S5:应用步骤S4输出的速度序列对共中心点地震道集进行动校正,经过动校正后,动校正量按正常时差公式(4)计算:
式中,xj表示第j个炮检距,Δti,j为ti时刻第j个炮检距处的动校正量,ti,0为ti时刻垂直反射时间,v为步骤S4输出的速度序列。
步骤S6:经过动校正后,有效一次反射波被校平,而多次波由于视速度的差异没有校平,利用所述有效一次反射波和多次波的视速度差异进行多次波压制。经过多次波压制后,将多次波进行剔除,从而提取出一次反射波,再应用于后续多次迭代进行的速度谱拾取步骤,这使得多次波不会干扰到本发明速度谱的拾取;
步骤S7:对经过步骤S6提取出的一次反射波的共中心点地震道集基于拉东变换公式计算出拉东变换谱(τ-p谱)的剩余速度谱,输出为用二维数组表示的剩余速度谱;
步骤S8:在步骤S7计算出的剩余速度谱中,对剩余速度谱的幅度值进行时间t方向上的叠加,得到q方向上对应的叠加曲线图,从而获取t-q曲线图,根据该曲线图的最大幅度值到q=0轴的距离,根据距离值按从大至小设置相应的从小到大的奖励值,所述叠加曲线图的最大幅度值到q=0轴的距离越小获得的奖励值越大。本实施例中,按从1到0给予对应的值为10至30的奖励值,比如t-q曲线图上某点的最大幅度值为0.4,也即到q=0轴的距离为0.4,则给予本次步骤S4输出序列对应的奖励值为22,当有计算出奖励值等于30,此时,判断对应所述步骤S4中该速度序列为最优。
判断最优速度序列是基于以下原理:根据下列公式(5)可知,当动校正速度v越接近实际地层的真实叠加速度v0时,t0时刻同相轴的能量团越接近q=0处,当v=v0时,也即q=0时,奖励值为最大。
步骤S9:根据步骤S8计算出的奖励值采用策略梯度的方法来训练步骤S4中的策略网络,直至获取最大奖励值;在训练过程中,网络模型会接触到好的速度序列及估值器给出的高奖励值,和较差速度序列及估值器给出的低奖励值,通过对这些样本的学习,策略网络会逐渐增加输出好的速度序列的概率,逐渐完成策略学习的目标;
步骤S10:迭代执行步骤S4至步骤S9,直至获取最大的奖励值,在本实施中奖励值达到30,即为最大的奖励值。以获取最大奖励值对应的速度序列经过插值后输出即为我们最终所需要拾取的该共中心点道集的叠加速度曲线。
将经过上述所有步骤后的神经网络模型以文件的形式保存,保存的文件格式为二进制文件,使得下次读取以指定的格式读取二进制文件即可实现神经网络模型的重复利用,减少学习的开销。
对于本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及变形,而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

Claims (10)

1.一种基于深度强化学习的叠加速度谱拾取方法,其特征在于:所述方法包括以下步骤:
步骤S1:获取包括地震反射波的原始共中心点地震道集数据;
步骤S2:根据步骤S1中的共中心点地震道集数据经预设算法计算出以各个时刻下的最优扫描速度组成的叠加速度谱,输出为用二维数组表示的叠加速度谱;
步骤S3:将步骤S2中的二维数组输入至自编码网络,自编码网络通过编码器和解码器学习提取出叠加速度谱的能量团特征,编码器输出经对叠加速度谱编码后的能量团特征;
步骤S4:将步骤S3经对叠加速度谱编码后的能量团特征编码输入至策略网络,策略网络对能量团特征进行处理,使得输入经编码的能量团特征编码与步骤S2的叠加速度谱中各个时刻下对应的最优扫描速度对应起来,以此输出速度序列;
步骤S5:应用步骤S4输出的速度序列对共中心点地震道集进行动校正,动校正量按正常时差公式计算:
式中,xj表示第j个炮检距,△ti,j为ti时刻第j个炮检距处的动校正量,ti,0为ti时刻垂直反射时间,v为步骤S4输出的速度序列,速度序列由各个时刻下对应的最优扫描速度vi组成;
步骤S6:将经过步骤S5动校正后的共中心点地震道集进行多次波压制,经过多次波压制后,将多次波进行剔除,提取出一次反射波;
步骤S7:对经过步骤S6提取出的一次反射波的共中心点地震道集计算出基于拉东变换公式的剩余速度谱,输出为用二维数组表示的剩余速度谱;
步骤S8:在步骤S7计算出的剩余速度谱中,对剩余速度谱的幅度值进行时间t方向上的叠加,得到q方向上的叠加曲线图,根据所述叠加曲线图的最大幅度值到q=0轴的距离,按从大至小设置相应的从小到大的奖励值;
步骤S9:根据步骤S8计算出的奖励值采用策略梯度的方法来训练步骤S4中的策略网络;
步骤S10:迭代执行步骤S4至步骤S9,当叠加曲线图的最大幅度值到q=0轴的距离为0时,获取的奖励值为最大,即判断对应所述步骤S4输出的速度序列为最优,否则继续对策略网络进行训练;以获取最大奖励值对应的速度序列经过插值后输出即为最终所需要拾取的共中心点道集的叠加速度曲线。
2.根据权利要求1所述的基于深度强化学习的叠加速度谱拾取方法,其特征在于:所述步骤S2中的预设算法按以下步骤进行:
a.将步骤S1中的地震反射波放入以横坐标为炮检距X、纵坐标为时间T的X-T坐标;
b.确定时刻t0i和扫描速度vi参数,包括t0i的最大值t0max和最小值t0,扫描速度vi的最大值vmax和最小值vmin,根据公式①来确定在X-T坐标下的固定某个时刻t0i下的扫描速度vi对应的双曲线路径,沿双曲线路径对地震反射波振幅进行叠加,得到时刻t0i下扫描速度vi对应的地震反射波叠加能量,当扫描速度vi从最小值vmin到最大值vmax完成扫描后,得到时刻t0i下扫描速度vmin到vmax范围内对应的地震反射波叠加能量曲线;当时刻t0i下某个扫描速度vi对应的双曲线路径经过地震反射波能量曲线的峰值最多时,叠加能量值最大,则判断该扫描速度vi为对应时刻t0i的最优扫描速度:
式中,t0i=t0+i△t(i=1,2,3,...,n),t0≤t0i≤t0max,vi=vmin+i△v(i=1,2,3,...,n),vmin≤vi≤vmax,vmax=7000m/s,vmin=1400m/s,△t和△v为常数值;
c.将b步骤中每个时刻t0i下对应的最优扫描速度下的地震反射波叠加能量曲线按顺序进行拼接,经插值后形成在v-T坐标下的连续的地震反射波叠加能量变化曲面,v表示地震波速度,其取值为扫描速度vi的集合,所述地震反射波叠加能量变化曲面为叠加速度谱,并采用二维数组来表示;
d.将叠加速度谱中的叠加能量值进行归一化处理,归一化后的数值范围均在0-1之间;预先设置阈值α,如果归一化后的叠加能量值小于该阈值α,则将叠加能量值置于0,如果归一化后的叠加能量值大于该阈值α,则将叠加能量值置于1。
3.根据权利要求2所述的基于深度强化学习的叠加速度谱拾取方法,其特征在于:所述阈值α为0.2。
4.根据权利要求1所述的基于深度强化学习的叠加速度谱拾取方法,其特征在于:所述步骤S3中的自编码网络为全连接神经网络,包括输入层、隐藏层和输出层,输入层的维度与输入数据叠加速度谱二维数组的个数相同,输入层、隐藏层和输出层的维度依次减小,设置3层以上的隐藏层;所述自编码网络采用BP神经网络算法、卷积神经网络算法或循环神经网络算法。
5.根据权利要求2所述的基于深度强化学习的叠加速度谱拾取方法,其特征在于:所述步骤S4中的策略网络为全连接神经网络,包括输入层、隐藏层和输出层,其中,隐藏层设置3层以上,策略网络的输入层的维度与自编码网络的编码器输出维度相同,策略网络的输出层的维度与公式①中的速度采样点个数相同;所述策略网络采用BP神经网络算法、卷积神经网络算法或循环神经网络算法。
6.一种处理终端,包括,
存储器,用于存储程序指令;
处理器,用于运行所述程序指令,以执行如下步骤:
步骤S1:获取包括地震反射波的原始共中心点地震道集数据;
步骤S2:根据步骤S1中的共中心点地震道集数据经预设算法计算出以各个时刻下的最优扫描速度组成的叠加速度谱,输出为用二维数组表示的叠加速度谱;
步骤S3:将步骤S2中的二维数组输入至自编码网络,自编码网络通过编码器和解码器学习提取出叠加速度谱的能量团特征,编码器输出经对叠加速度谱编码后的能量团特征;
步骤S4:将步骤S3经对叠加速度谱编码后的能量团特征编码输入至策略网络,策略网络对能量团特征进行处理,使得输入经编码的能量团特征编码与步骤S2的叠加速度谱中各个时刻下对应的最优扫描速度对应起来,以此输出速度序列;
步骤S5:应用步骤S4输出的速度序列对共中心点地震道集进行动校正,动校正量按正常时差公式计算:
式中,xj表示第j个炮检距,△ti,j为ti时刻第j个炮检距处的动校正量,ti,0为ti时刻垂直反射时间,v为步骤S4输出的速度序列,速度序列由各个时刻下对应的最优扫描速度vi组成;
步骤S6:将经过步骤S5动校正后的共中心点地震道集进行多次波压制,经过多次波压制后,将多次波进行剔除,提取出一次反射波;
步骤S7:对经过步骤S6提取出的一次反射波的共中心点地震道集计算出基于拉东变换公式的剩余速度谱,输出为用二维数组表示的剩余速度谱;
步骤S8:在步骤S7计算出的剩余速度谱中,对剩余速度谱的幅度值进行时间t方向上的叠加,得到q方向上的叠加曲线图,根据所述叠加曲线图的最大幅度值到q=0轴的距离,按从大至小设置相应的从小到大的奖励值;
步骤S9:根据步骤S8计算出的奖励值采用策略梯度的方法来训练步骤S4中的策略网络;
步骤S10:迭代执行步骤S4至步骤S9,当叠加曲线图的最大幅度值到q=0轴的距离为0时,获取的奖励值为最大,即判断对应所述步骤S4输出的速度序列为最优,否则继续对策略网络进行训练;以获取最大奖励值对应的速度序列经过插值后输出即为最终所需要拾取的共中心点道集的叠加速度曲线。
7.根据权利要求6所述的处理终端,其特征在于:所述步骤S2中,计算叠加速度谱按以下步骤进行:
a.将步骤S1中的地震反射波放入以横坐标为炮检距X、纵坐标为时间T的X-T坐标;
b.确定时刻t0i和扫描速度vi参数,包括t0i的最大值t0max和最小值t0,扫描速度vi的最大值vmax和最小值vmin,根据公式①来确定在X-T坐标下的固定某个时刻t0i下的扫描速度vi对应的双曲线路径,沿双曲线路径对地震反射波振幅进行叠加,得到时刻t0i下扫描速度vi对应的地震反射波叠加能量,当扫描速度vi从最小值vmin到最大值vmax完成扫描后,得到时刻t0i下扫描速度vmin到vmax范围内对应的地震反射波叠加能量曲线;当时刻t0i下某个扫描速度vi对应的双曲线路径经过地震反射波能量曲线的峰值最多时,叠加能量值最大,则判断该扫描速度vi为对应时刻t0i的最优扫描速度:
式中,t0i=t0+i△t(i=1,2,3,...,n),t0≤t0i≤t0max,vi=vmin+i△v(i=1,2,3,...,n),vmin≤vi≤vmax,vmax=7000m/s,vmin=1400m/s,△t和△v为常数值;
c.将b步骤中每个时刻t0i下对应的最优扫描速度下的地震反射波叠加能量曲线按顺序进行拼接,经插值后形成在v-T坐标下的连续的地震反射波叠加能量变化曲面,v表示地震波速度,其取值为扫描速度vi的集合,所述地震反射波叠加能量变化曲面为叠加速度谱,并采用二维数组来表示;
d.将叠加速度谱中的叠加能量值进行归一化处理,归一化后的数值范围均在0-1之间;预先设置阈值α,如果归一化后的叠加能量值小于该阈值α,则将叠加能量值置于0,如果归一化后的叠加能量值大于该阈值α,则将叠加能量值置于1。
8.根据权利要求7所述的处理终端,其特征在于:所述阈值α为0.2。
9.根据权利要求6所述的处理终端,其特征在于:所述步骤S3中的自编码网络为全连接神经网络,包括输入层、隐藏层和输出层,输入层的维度与输入数据叠加速度谱二维数组的个数相同,输入层、隐藏层和输出层的维度依次减小,设置3层以上的隐藏层;所述自编码网络采用BP神经网络算法、卷积神经网络算法或循环神经网络算法。
10.根据权利要求7所述的处理终端,其特征在于:所述步骤S4中的策略网络为全连接神经网络,包括输入层、隐藏层和输出层,其中,隐藏层设置3层以上,策略网络的输入层的维度与自编码网络的编码器输出维度相同,策略网络的输出层的维度与公式①中时刻t0i方向上速度采样点个数相同;所述策略网络采用BP神经网络算法、卷积神经网络算法或循环神经网络算法。
CN201810571640.6A 2018-06-05 2018-06-05 一种基于深度强化学习的叠加速度谱拾取方法及处理终端 Active CN109031421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810571640.6A CN109031421B (zh) 2018-06-05 2018-06-05 一种基于深度强化学习的叠加速度谱拾取方法及处理终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810571640.6A CN109031421B (zh) 2018-06-05 2018-06-05 一种基于深度强化学习的叠加速度谱拾取方法及处理终端

Publications (2)

Publication Number Publication Date
CN109031421A CN109031421A (zh) 2018-12-18
CN109031421B true CN109031421B (zh) 2019-09-27

Family

ID=64612082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810571640.6A Active CN109031421B (zh) 2018-06-05 2018-06-05 一种基于深度强化学习的叠加速度谱拾取方法及处理终端

Country Status (1)

Country Link
CN (1) CN109031421B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348624B (zh) * 2019-07-04 2020-12-29 内蒙古工业大学 一种基于Stacking集成策略的沙尘暴等级预测方法
CN110471111B (zh) * 2019-09-06 2020-04-14 中国海洋大学 一种基于卷积神经网络的速度谱自动拾取方法
CN112540404B (zh) * 2019-09-20 2024-04-12 中国石油化工股份有限公司 一种基于深度学习的自动速度分析方法及系统
CN111239802B (zh) * 2020-01-19 2021-05-28 中国海洋大学 基于地震反射波形和速度谱的深度学习速度建模方法
CN111239828B (zh) * 2020-03-09 2021-07-30 吉林大学 基于最优双曲线积分路径叠加的多次波压制方法
CN112285776B (zh) * 2020-10-23 2021-07-13 中国矿业大学(北京) 一种基于深度学习的地震速度自动拾取方法
CN112464728B (zh) * 2020-11-03 2024-10-01 中国石油天然气集团有限公司 基于无监督学习的地震速度谱自动拾取方法及装置
CN113341461B (zh) * 2021-06-10 2023-09-01 中国石油大学(北京) 地震速度预测方法、装置及服务器

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105445788B (zh) * 2014-08-27 2018-03-09 中国石油化工股份有限公司 一种基于模型和全局寻优的速度谱自动解释方法
CN107643541B (zh) * 2016-07-21 2019-02-01 中国石油化工股份有限公司 基于速度模型的速度谱解释方法

Also Published As

Publication number Publication date
CN109031421A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109031421B (zh) 一种基于深度强化学习的叠加速度谱拾取方法及处理终端
CN112364779B (zh) 信号处理与深-浅网络多模型融合的水声目标识别方法
CN112052886B (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN109765053B (zh) 利用卷积神经网络和峭度指标的滚动轴承故障诊断方法
CN110097053B (zh) 一种基于改进Faster-RCNN的电力设备外观缺陷检测方法
CN104103033B (zh) 图像实时处理方法
CN107154024A (zh) 基于深度特征核相关滤波器的尺度自适应目标跟踪方法
CN108985252B (zh) 改进的脉冲深度神经网络的图像分类方法
CN108509910A (zh) 基于fmcw雷达信号的深度学习手势识别方法
CN110175560A (zh) 一种雷达信号脉内调制识别方法
CN107688856A (zh) 基于深度强化学习的室内机器人场景主动识别方法
CN108520213A (zh) 一种基于多尺度深度的人脸美丽预测方法
CN110456332A (zh) 一种基于自动编码器的水声信号增强方法
CN104143102B (zh) 在线图像数据处理方法
CN113627472A (zh) 基于分层深度学习模型的智慧园林食叶害虫识别方法
WO2023284070A1 (zh) 基于位姿自监督对抗生成网络的弱配对图像风格迁移方法
CN112949089B (zh) 一种基于离散卷积残差网络的含水层结构反演识别方法
CN105631899A (zh) 一种基于灰度纹理特征的超声图像运动目标跟踪方法
CN111401226A (zh) 一种辐射源快速识别方法
CN112686817A (zh) 一种基于不确定性估计的图像补全方法
CN106446804A (zh) 一种基于elm的多粒度虹膜识别方法
CN110471111A (zh) 一种基于卷积神经网络的速度谱自动拾取方法
CN116883364A (zh) 一种基于CNN和Transformer的苹果叶片病害识别方法
CN110135435B (zh) 一种基于广度学习系统的显著性检测方法及装置
CN107133579A (zh) 基于CSGF(2D)2PCANet卷积网络的人脸识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant