CN112051611A

CN112051611A - 基于深度强化学习的地下浅层起爆点定位方法

Info

Publication number: CN112051611A
Application number: CN202010928937.0A
Authority: CN
Inventors: 李剑; 李传坤; 曹凤虎; 韩焱; 王黎明; 韩星程
Original assignee: North University of China
Current assignee: North University of China
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2020-12-08
Anticipated expiration: 2040-09-07
Also published as: CN112051611B

Abstract

本发明涉及一种基于深度强化学习的地下浅层起爆点定位方法，通过布设震动传感器阵列、生成基于能量信息的学习样本、设计深度学习网络，后，直接在三维能量场图设定一个初始搜索框，经过上采样输入训练好的深度决策网络中，输出最大价值对应的动作，然后在三维能量场图中，找到该动作对应的新区域，重新作为初始搜索框，并经上采样再次输入到深度决策网络，以此类推，直到停止动作时，最后一个区域的中心点为预测震源位置。本发明提高了定位的精度和定位的稳定性。同时极大了减少了传统浅层震源定位过程中定位参数提取、定位模型建模和定位模型解算等步骤，极大提高了震源定位效率。

Description

基于深度强化学习的地下浅层起爆点定位方法

技术领域

本发明属于爆破震动测试技术、无源定位技术领域，具体涉及一种基于深度强化学习的地下浅层起爆点定位方法。

背景技术

地下浅层分布式震源定位技术是一种集传感、组网、传输、定位于一体的位置测量新方法。该方法将大量无线震动传感器节点布设于地表，用该节点群获取爆炸产生的震动信号，爆炸事件结束后，利用无线传输网络将传感器节点的数据汇聚至控制中心，在控制中心经过数据预处理、特征提取、定位建模、定位解算等过程，最终实现震源定位。该方法可以实现地下炸点定位、引信起爆点位置测量、岩爆、突水等超前预报、地下硐室爆破监测等领域。

与深层地震、煤矿深层开采、石油勘探等大区域、大深度、长时间震源定位相比较，本发明涉及的浅层震源定位具有以下特点：(1)浅层定位时传感器数量少，布设方式随机，不同于天然地震定位时高密度布设方式；(2)地下震源深度较浅，一般不超过100m，浅层地质结构复杂且未知，无法借鉴深层地壳结构模型建立浅层速度场模型；(3)震动波波群混叠复杂，爆炸近场土壤本构特性呈弹塑性，弹性波受地面反射、折射影响较大，震相特征不明显。因此，常规的天然地震定位方法不适用于浅层震源定位。

随着地震勘探学和计算成像理论的不断发展，基于能量场成像的定位技术成为地下震源定位领域研究的热点。它不依赖于震相特征参数的提取精度，通过扫描地下能量场聚焦点的位置，最终实现震源定位。它是解决地下起爆点定位问题的最优方法之一。但采用现有技术进行起爆点定位时，存在如下问题：

由于浅层震源定位时，地下介质复杂，传感器数量较少且布设随机，造成地下能量场成像精度不高，震源定位精度低；

2、研究人员采用QPSO量子粒子群算法等群智能算法对能量聚焦点进行快速定位，该方法对聚焦点进行搜索时存在一定的盲目性、随机性，导致聚焦点识别效果不稳定，震源定位鲁棒性差，定位精度不能保证，最终导致无法实现有效地时空场重建。

发明内容

本发明提供一种基于深度强化学习的地下浅层起爆点定位方法，要解决的技术问题是：解决地下浅层震源定位精度低、稳定性差的问题。

为了解决以上技术问题，本发明提供了一种基于深度强化学习的地下浅层起爆点定位方法，其特征在于，包括以下步骤：

S1、布设震动传感器阵列；

S2、生成基于能量信息的学习样本，具体如下：

S2.1获取预设震源信号

在水平XOY坐标系的四个象限分别预设一发震源弹，利用所述的震动传感器阵列获取爆炸产生的震动信号；

S2.2对监测区域划分网格

S2.3将每个震动传感器分别作为虚拟震源进行逆向传播，得到逆时反传波场；

S2.4能量场逆时成像，得到瞬时三维能量场图像；

S3、设计由深度决策网络、目标深度决策网络、搜索策略模型、强化学习模块组成的深度学习网络，

其中深度决策网络与目标深度决策网络是同样的网络，深度决策网络会把训练参数拷贝到目标深度决策网络，目标深度决策网络用于估计目标价值，并将目标价值作为深度决策网络标签的一部分；

搜索策略模型用于把三维能量场图看作震源位置的整体搜索区域，把中心位置对应的区域作为初始搜索框，将初始搜索框的中心点作为初始震源坐标；设置初始搜索框移动步长，定义9种有效动作，分别为搜索框向上移动(a)，搜索框向下移动(b)，搜索框向左移动(c)，搜索框向右移动(d)，搜索框向前移动(e)，搜索框向后移动(f)，搜索框收缩(g)，搜索框放大(h)，搜索区域确定并停止(I)；

强化学习模块用于定义当前动作是积极的还是消极的，并在交互的过程中反馈一个立刻的奖励函数值；

S4、深度学习网络训练完成后，直接在三维能量场图设定一个初始搜索框，经过上采样输入训练好的深度决策网络中，输出最大价值对应的动作，然后在三维能量场图中，找到该动作对应的新区域，重新作为初始搜索框，并经上采样再次输入到深度决策网络，以此类推，直到停止动作时，最后一个区域的中心点为预测震源位置。

有益效果：1)本发明将传感器阵列信号进行分组能量场成像，将震源定位过程等效于马尔科夫决策过程，利用强化学习对能量聚焦点进行搜索定位。结合自相关成像技术消除震动信号的噪声，提高每一时刻能量场成像的分辨率，利用互相关成像技术，消除逆时反传产生的成像干扰。利用爆炸震动信号的时变特性，设定时窗长度，将时窗长度内的能量场信息进行线性叠加。与现有能量场图像重建方法相比，本发明提高瞬时能量场的能量聚焦强度，将空间域的三维能量场图像转换为时间-空间域的三维能量场图像序列，提高能量场图像的数量和质量。2)本发明将监测区域作为黑匣子，将传感器获取信号重建的三维能量场作为输入，利用深度强化学习进行浅层震源位置的扫描，把震源探测的过程看作马尔科夫过程，通过深度强化学习进行震源中心搜索策略学习，并设计一个基于注意力机制的三维全连接卷积网络作为深度决策网络，提高能量聚焦点的识别定位精度。与现有定位技术相比，本方法提高了定位的精度和定位的稳定性。同时极大了减少了传统浅层震源定位过程中定位参数提取、定位模型建模和定位模型解算等步骤，极大提高了震源定位效率。

附图说明

图1传感器布设示意图

图2三维能量场图像成像示意图

图3瞬时三维能量场图像的重建示意图

图4网络总体框图

图5基于注意力机制的3D-DenseNet结构示意图

图6强化学习的动作示意图。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面对本发明的具体实施方式作进一步详细描述。

本发明提出的一种基于深度强化学习的地下浅层起爆点定位方法，其特征在于，包括以下步骤：

S1、布设震动传感器阵列

在监测区域中心位置选取一点作为坐标原点，建立直角坐标系，将n＝168个传感器，以坐标原点为中心，以1m为间距，将震动传感器布设于地表，形成等间距方形阵列，利用高精度北斗获取每个传感器坐标信息X_i＝(x_i,y_i,z_i)(i＝1,2,3,...,n)；

S2、生成基于能量信息的学习样本，具体如下：

S2.1获取预设震源信号

S2.2对监测区域划分网格

根据所监测范围，定义一个地下三维震源定位区域，并对监测区域进行网格划分，(按定位精度要求)将空间划分为N个大小相同的立方体网格，得到每个网格坐标X_j＝(x_j,y_j,z_j)(j＝1,2,3,...,N)；

根据声波方程，将第i个传感器获取的信号D(X_i,t)作为虚拟震源，逆向朝地下空间传播，在地下任意位置处形成的逆时反传波场R_i(X_j,t)可表示为

采用最佳层匹配法作为边界条件，使用三维高阶有限差分算法求解上述方程；

其中，v表示地下介质的传播速度，T为传感器记录的震动信号的总时间长度，t为逆推波场传播时间；X_j＝(x_j,y_j,z_j)表示地下空间位置，第i个传感器位置X_i＝(x_i,y_i,z_i)记录的信号为D(X_i,t)；

S2.4能量场逆时成像

本发明提出了一种瞬时自适应相关成像条件。利用高维空间相似性原则(如相似性测度、马氏距离)，将n＝168个传感器进行分组，按照相似性，分为M＝8组，每组由L＝21个传感器组成；其次，对传感器组内对应的震动传感器在地下任意位置处形成的逆时反传波场的进行自相关运算和线性振幅叠加运算，得到传感器组内对应的自相关三维能量场图像，用以消除震动信号的噪声，提高每一时刻能量场成像的分辨率；

再次，对传感器组间的自相关三维能量场图像进行互相关运算，最终得到每一时刻的互相关三维能量场图像，消除逆时反传产生的成像干扰，如图2所示；

最后对每一时刻的互相关三维能量场图像进行二次处理，得到瞬时三维能量场图像，具体如下：

在时间域内，按照信号的瞬时频率特性设置时窗长度T，将时窗长度内的互相关三维能量场图像进行线性叠加，叠加后的图像加权融合后作为该时刻的瞬时三维能量场图像，如图3所示。

具体公式如3所示：

其中，Im age(X_j,t)为地下空间瞬时三维能量场图像，R_i(X_j,t)是第i个传感器逆时传播形成的信号，L为组内传感器个数，M为传感器组的个数，t₁，t₂为时窗的起始和终止时间，T为时窗长度。

不同时刻T是自适应变化的，在t时刻对应的时窗长度T用T(t)来表示，定义为：

其中，Ω(t)表示瞬时频率，可以将R_i(X_j,t)进行时频变换(如希尔伯特黄、S变换)得到。

S3、设计深度学习网络

如图4所示，本发明深度学习网络由深度决策网络、目标深度决策网络、搜索策略模型、强化学习模块组成；

强化学习模块包括奖励函数和价值函数；

其中深度决策网络与目标深度决策网络是同样的网络，深度决策网络会把训练参数拷贝到目标深度决策网络，目标深度决策网络用于估计目标价值，并将目标价值作为深度决策网络标签的一部分。

如图5所示，深度决策网络将三维能量场作为环境，三维能量场图像大小为96×192×192。

深度决策网络分为两个分支：trunk branch(主分支)和soft mask brunch(软掩码分支)。其中三维能量场图像作为深度决策网络的输入，融入权重信息的特征图作为输出。

在主分支采用3D-DenseNet，共有10层网络，包括8个卷积层，2个池化层。输入的三维能量场图像大小为96×192×192，卷积层C1的卷积核大小为7×7×7，卷积核个数为64；池化层P1的池化窗口大小为2×2×2；卷积层C2、C3、C4的卷积核大小均为3×3×3，卷积核个数均为32，通过稠密连接搭建为密连模块1；卷积层C5的卷积核大小为3×3×3，卷积核个数为32；卷积层C6、C7、C8的卷积核大小均为3×3×3，卷积核个数均为64，通过稠密连接搭建为密连模块2；池化层P2的池化窗口大小为2×2×2，最终输出的特征图尺寸为21×45×45×192。3D-DenseNet的结构如表1所示。

表1 3D-DenseNet的结构

软掩码分支中，卷积层C9的卷积核大小为7×7×7，卷积核个数为64；池化层P3的池化窗口大小为2×2×2；卷积层C10的卷积核大小为3×3×3，卷积核个数为192；池化层P4的池化窗口大小为2×2×2。经过上述操作后，执行下采样(down sample)，通过最大池化操作扩大接受域，直到达到最低分辨率。紧接着执行上采样(up sample)线性插值(interpolation)，直到特征图尺寸与输入下采样时的相等。然后在两个连续的1×1卷积层之后，sigmoid层将输出标准化为[0,1]，即权重为[0,1]，最终输出的注意力权重特征图尺寸为21×45×45×192。

综上，基于注意力机制的3D-DenseNet网络模型的输出为：

H_i,c(x)＝(1+M_i,c(x))*T_i,c(x) (5)

H为注意力模块的输出，M为soft mask分支输出的注意力权重特征图，T为trunk分支经过一系列特征提取得到的特征图，i为单个通道特征图的某个位置，c是特征图通道的索引。之后使用全连接层，输出9个动作执行的概率。因为网络的输入大小都是固定的，所以每次都将输入数据放大到96×192×192，然后再进行输入。

搜索策略模型：把三维能量场图(96×192×192)看作震源位置的整体搜索区域，把中心位置对应的(5×5×5)的区域作为初始搜索框，将初始搜索框的中心点作为初始震源坐标；

如图6所示，设置初始搜索框移动步长为2，定义9种有效动作，分别为搜索框向上移动(a)，搜索框向下移动(b)，搜索框向左移动(c)，搜索框向右移动(d)，搜索框向前移动(e)，搜索框向后移动(f)，搜索框收缩(g)，搜索框放大(h)，搜索区域确定并停止(I)；其中，搜索框的初始化大小5×5×5，当搜索框需要放大时，将搜索框大小设定为7×7×7；当搜索框需要收缩时，将搜索框大小设定为3×3×3。

奖励函数定义了当前动作是积极的还是消极的。将搜索框内的能量场数据作为当前位置，输入到搜索策略模型中，搜索策略模型会根据输入的位置预测输出相应的动作，并产生下一个新位置。将当前震源坐标基于真实震源坐标的距离变化作为目标函数，当前震源坐标与震源点的距离设为E(x,y,z)，下一个位置对应的震源坐标与震源点的距离设为E(x′,y′,z′)，则目标函数f(E)＝E(x,y,z)-E(x′,y′,z′)。

奖励函数设为r，设定的奖励函数如下所示：

当f(E)＜0时，我们设置奖励为-1；当f(E)＞0时，我们设置奖励为1；当E(x′,y′,z′)＝0时，我们设置奖励为+5并停止搜索。

设计价值函数和决策网络中的损失(loss)函数：

当前震源位置通过执行动作与爆炸场进行交互，在交互的过程中环境会反馈一个当前的奖励函数值，同时当前震源位置通过与环境的交互获得了一个新的爆炸场位置s_t。强化学习是马尔科夫决策过程，在位置s_t时，采取的动作a_t后的位置s_t+1和奖励函数值r_t+1与历史位置无关，只与当前位置和动作有关。即在位置s_t下，采取动作a_t的长期期望收益Q_*(s_t,a_t)作为价值函数，可以表示为：

其中γ是长期收益的折扣因子，a_t+1为下一时刻采取的动作。为了能使得Q的学习能够带有预测能力，用深度决策网络去拟合Q_*(s_t,a_t)：

Q(s,a,θ)≈Q_*(s,a) (8)

深度决策网络的loss函数可以看成：

通过该loss函数去优化训练深度决策网络。θ代表的是模型参数。

S3.6训练网络

a、对每一个瞬时三维能量场图像，进行线性插值，变成一个尺寸为96×192×192(图像的高度*图像的长度*图像的宽度)的三维能量场图。

把三维能量场图(96×192×192)看作震源位置的整体搜索区域，把中心位置对应的(5×5×5)的区域作为初始搜索框，将其中心点作为当前震源坐标；

b、根据搜索策略模型，以真实震源坐标作为初始搜索框的最终目标，初始搜索框随机执行定义的9种有效动作中的一种，得到该动作对应的新区域，同时根据初始搜索框相对真实震源坐标的移动方向，得到对应动作下的奖励函数值；

c、将上述步骤a中的初始搜索框经上采样后生成(96×192×192)的图像，将该图像输入深度决策网络，输出对应步骤b中对应执行动作的预测价值；

d、把深度决策网络的参数拷贝给目标深度决策网络，并把步骤b中搜索后的新区域输入到目标深度决策网络，获得最大的价值，与步骤b得到的对应动作的奖励函数值相加作为目标值标签；

e、通过步骤c的预测价值与步骤d得到的目标值标签优化深度决策网络；

f、把步骤b搜索后的新区域作为新的初始搜索框，重复步骤b-e，直到寻找到震源位置，网络优化完成。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于深度强化学习的地下浅层起爆点定位方法，其特征在于，包括以下步骤：

S1、布设震动传感器阵列；

S2、生成基于能量信息的学习样本，具体如下：

S2.1获取预设震源信号

S2.2对监测区域划分网格

S2.4能量场逆时成像，得到瞬时三维能量场图像；

2.根据权利要求1所述的一种基于深度强化学习的地下浅层起爆点定位方法，其特征在于，S1中，在监测区域中心位置选取一点作为坐标原点，建立直角坐标系，将n个传感器，以坐标原点为中心，均匀布设于地表，形成等间距方形阵列，并获取每个传感器坐标信息X_i＝(x_i,y_i,z_i)(i＝1,2,3,...,n)。

3.根据权利要求1所述的一种基于深度强化学习的地下浅层起爆点定位方法，其特征在于，S2.2中，根据所监测范围，定义一个地下三维震源定位区域，并对监测区域进行网格划分，将空间划分为N个大小相同的立方体网格，得到每个网格坐标X_j＝(x_j,y_j,z_j)(j＝1,2,3,...,N)。

4.根据权利要求1所述的一种基于深度强化学习的地下浅层起爆点定位方法，其特征在于，S2.3具体为：将第i个传感器获取的信号D(X_i,t)作为虚拟震源，逆向朝地下空间传播，在地下任意位置处形成的逆时反传波场R_i(X_j,t)可表示为

其中，v表示地下介质的传播速度，T为传感器记录的震动信号的总时间长度，t为逆推波场传播时间；X_j＝(x_j,y_j,z_j)表示地下空间位置，第i个传感器位置X_i＝(x_i,y_i,z_i)记录的信号为D(X_i,t)。

5.根据权利要求1所述的一种基于深度强化学习的地下浅层起爆点定位方法，其特征在于，S2.4具体为：首先将n个传感器进行分组，按照相似性，分为M组，每组由L个传感器组成；其次，对传感器组内对应的震动传感器在地下任意位置处形成的逆时反传波场进行自相关运算和线性振幅叠加运算，得到传感器组内对应的自相关三维能量场图像；再次，对传感器组间的自相关三维能量场图像进行互相关运算，最终得到每一时刻的互相关三维能量场图像，消除逆时反传产生的成像干扰；最后对每一时刻的互相关三维能量场图像进行二次处理，得到瞬时三维能量场图像。

6.根据权利要求5所述的一种基于深度强化学习的地下浅层起爆点定位方法，其特征在于，S2.4中，对每一时刻的互相关三维能量场图像进行二次处理，得到瞬时三维能量场图像，具体如下：在时间域内，按照信号的瞬时频率特性设置时窗长度T，将时窗长度内的互相关三维能量场图像进行线性叠加，叠加后的图像加权融合后作为该时刻的瞬时三维能量场图像，具体公式如下：

其中，Image(X_j,t)为地下空间瞬时三维能量场图像，R_i(X_j,t)是第i个传感器逆时传播形成的信号，L为组内传感器个数，M为传感器组的个数，t₁，t₂为时窗的起始和终止时间，T为时窗长度；

其中，Ω(t)表示瞬时频率，通过将R_i(X_j,t)进行时频变换得到。

7.根据权利要求1所述的一种基于深度强化学习的地下浅层起爆点定位方法，其特征在于，深度决策网络分为主分支和软掩码分支，其中三维能量场图像作为模型的输入，融入权重信息的特征图作为输出，深度决策网络模型的输出为：

H_i,c(x)＝(1+M_i,c(x))*T_i,c(x)

H为注意力模块的输出，M为软掩码分支输出的注意力权重特征图，T为主分支经过一系列特征提取得到的特征图，i为单个通道特征图的某个位置，c是特征图通道的索引。

8.根据权利要求1所述的一种基于深度强化学习的地下浅层起爆点定位方法，其特征在于，强化学习模块包括奖励函数；将搜索框内的能量场数据作为位置，输入到搜索策略模型中，搜索策略模型会根据输入的位置预测输出相应的动作，并产生下一个新位置，将当前震源坐标基于真实震源坐标的距离变化作为目标函数，当前震源坐标与震源点的距离设为E(x,y,z)，下一个位置对应的震源坐标与震源点的距离设为E(x′,y′,z′)，则目标函数f(E)＝E(x,y,z)-E(x′,y′,z′)，设定的奖励函数R如下所示：

当f(E)＜0时，设置奖励为-1；当f(E)＞0时，设置奖励为1；当E(x′,y′,z′)＝0时，设置奖励为+5并停止搜索。

9.根据权利要求8所述的一种基于深度强化学习的地下浅层起爆点定位方法，其特征在于，强化学习模块还包括价值函数：

当前震源位置通过执行动作与爆炸场进行交互，在交互的过程中反馈一个当前的奖励函数值，同时当前震源位置通过与环境的交互获得了一个新的爆炸场位置s_t；在位置s_t时，采取动作a_t的长期期望收益Q_*(s_t,a_t)作为价值函数，表示为：

其中γ是长期收益的折扣因子，a_t+1为下一时刻采取的动作；为了能使得Q的学习能够带有预测能力，用深度决策网络去拟合Q_*(s_t,a_t)：

Q(s,a,θ)≈Q_*(s,a)

深度决策网络的loss函数可以看成：

通过该loss函数去优化训练深度决策网络；θ代表的是模型参数。

10.根据权利要求1所述的一种基于深度强化学习的地下浅层起爆点定位方法，其特征在于，训练S3中的深度学习网络包括以下步骤：

a、对每一个瞬时三维能量场图像，进行线性插值，变成一定尺寸的三维能量场图；

把该一定尺寸的三维能量场图看作震源位置的整体搜索区域，把中心位置对应的区域作为初始搜索框，将其中心点作为当前震源坐标；

c、将上述步骤a中的初始搜索框经上采样后生成的图像输入深度决策网络，输出步骤b中对应执行动作的预测价值；