CN106407649A

CN106407649A - 基于时间递归神经网络的微震信号到时自动拾取方法

Info

Publication number: CN106407649A
Application number: CN201610743156.8A
Authority: CN
Inventors: 郑晶; 陆继任; 彭苏萍
Original assignee: China University of Mining and Technology Beijing CUMTB
Current assignee: China University of Mining and Technology Beijing CUMTB
Priority date: 2016-08-26
Filing date: 2016-08-26
Publication date: 2017-02-15
Anticipated expiration: 2036-08-26
Also published as: CN106407649B

Abstract

本发明公开一种基于时间递归神经网络的微震信号到时拾取方法。本方法把每一个微震记录按照统一固定的维数采样，再人为的拾取部分记录的到时作为对应记录的标签信息，已拾取信息的记录及其标签作为网络构建时的总数据集，分成三个部分：训练数据集、验证数据集、测试数据集；通过把数据输入到深度信念神经网络中进行训练和测试，构建时间递归神经网络；把未经过到时拾取数据输入到的训练好的网络模型中，网络输出为一个对应于输入数据的序列，序列中第一个不为零的点即为微震数据的到时点。

Description

基于时间递归神经网络的微震信号到时自动拾取方法

技术领域

本发明属于地球物理探测技术领域，涉及一种基于时间递归神经网络的微震信号到时自动拾取方法。

背景技术

随着电子技术和计算机技术的不断发展，微震事件自动实时检测和定位已被成功应用于各类工程应用中，比如水力压裂开采石油、页岩气，矿山动力灾害监测，深部岩体开挖卸载扰动预警预测等。

岩石破裂事件产生的微震信号的到时自动拾取，是确保定位结果的准确性及高效性的前提条件，拾取结果准确与否直接影响到最终结果的精确度，其处理速度直接影响到整体工作的效率。

经典的短长时窗能量比拾取法过多的依赖于人工的干预调节，信噪比对其影响较大，算法的鲁棒性不强。一般的神经网络需要增加网络的隐层个数和神经元节点个数才能学习到复杂的数据特征，但其网络很难训练，且随着网络模型的复杂度增加，训练时出现“过拟合”现象也随之增加。时间递归神经网络在不增加网络隐层个数的情况下，通过建立隐层间神经元节点之间的联系，从而学习到微震信号到时前后的关系特征，完成到时拾取任务，既降低了训练“过拟合”的风险，又充分利用了数据间的特征。

发明内容

本发明是为了解决微震信号到时拾取时，传统的短长时窗能量比方法在拾取时过程中需要一定的人为干预从而导致拾取方法性能不够稳健，以及传统的神经网络在大量监测数据中识别微震事件时网络模型难以训练的问题。

本发明通过构建一种基于时间递归神经网络的到时自动拾取模型，对微震事件进行自动检测和到时拾取。

基于时间递归神经网络方法的微震信号到时拾取基本实现步骤如下：

步骤一：对微震数据按照固定的维数进行采样；

步骤二：对用于网络模型训练的数据进行人工到时拾取，作为对应样本数据的标签信息；

步骤三：把数据和标签放到同一数据集中，并把数据集划分为训练数据集、验证数据集和测试数据集；

步骤四：搭建具有输入层、隐层和逻辑回归层的三层时间递归神经网络模型；

步骤五：获取时间总数T，并设置时间步长t；

步骤六：数据按照时间步长t依次输入时间递归神经网络模型，进行模型训练；

步骤七：求取隐层每一个节点在所有时刻输出的最大值，并通过逻辑回归层得到网络输出；

步骤八：计算网络输出与输入样本对应的标签之间的误差，通过随时间变化的误差反向传播来完成网络参数的更新；

步骤九：设置一个验证参数N，当迭代训练N次后，进行一次交叉验证和测试，当验证误差趋于某值长期不变，且测试误差高于验证误差，即到达设定的准确率时停止网络训练，即基于时间递归神经网络的微震信号到时自动拾取模型构建完成，否则返回步骤六，继续利用输入数据进行模型训练；

步骤十：把未经过到时拾取的数据集输入到训练好的网络模型中，网络输出为对应于输入数据维度的一个序列；

步骤十一：输出序列中第一个不为0的值即为波到时点。

进一步地，所述步骤一中，原始数据按照统一长度，切割为相同维度的数据。

进一步地，所述步骤二中，把每一个样本数据中的微震事件视为有效信号，其他部分视为噪声，样本对应的标签是一个和样本数据长度一致的二值向量，向量中有效信号部分对应点位设置为1，其他部分设置为0。

进一步地，所述步骤三中，测试数据集占总数据集的75％，验证数据集和测试数据集各占15％。

进一步地，所述步骤四中，网络分为三部分，分别是输入层、隐层和逻辑回归层；层与层之间的神经元全连接，隐层的每一个神经元分别与它临近的神经元连接；输入层的神经元个数与每一个样本数据的长度一致，隐层的神经元个数小于或者等于输入层的神经元个数，逻辑回归层神经元个数与隐层神经元个数一致，逻辑回归层构成网络的输出层。

进一步地，所述步骤五中，时间总数T的大小等于每一个输入样本数据的长度n，数据样本X＝(x₁,x₂,...,x_n)，T＝n；时间步长t∈T，取t＝1。

进一步地，所述步骤六中，把网络的隐层视为一个长短期记忆模型，记忆模型包含m个神经元，一个神经元中包含一个输入门、一个遗忘门、一个输出门和一个元胞。每个神经元有8组输入权重和4组偏置项，4组权重用于t时刻输入数据x^t与该神经元的连接权重，分别为：W_i∈R^m、W_f∈R^m、W_c∈R^m、W_o∈R^m；另外4组权重用于t时刻，上一个时间t-1的输出h^t-1与该神经元的连接权重，分别为：U_i∈R^m×m、U_f∈R^m×m、U_c∈R^m×m、U_o∈R^m×m；4组偏置项分别为：b_i∈R^m、b_f∈R^m、b_c∈R^m、b_o∈R^m。

其中，W∈R^m表示1×m维欧式空间，U∈R^m×m表示m×m维欧式空间，b∈R^m表示1×m维欧式空间；下标i、f、c、o分别表示该值用于输入门、遗忘门、元胞、输出门。

在t＝1时刻，所有的权值W都初始为一个1×m维的服从均值为范围在(-a,a)之间的向量；所有的权值U都初始为一个m×m维的正交矩阵；所有的偏置项b都初始为一个1×m维的全为0的向量。

长短期记忆模型在每个时间步长t接受一个输入层的值x^t和一个t-1时刻长短期记忆模型的输出h^t-1。其中x^t为样本第t个元素，h^t-1在t＝1时为0。长短期记忆模型参数的连接和计算方法如下：

首先，通过遗忘门决定从元胞状态中丢弃什么信息，该门输入x^t和h^t-1，输出一个在0和1之间的数值给每个元胞状态，1表示“完全保留”，0表示“完全舍弃”：

f^t＝σ(W_fx^t+U_fh^t-1+b_f)

其中，f^t为t时刻遗忘门的激活值。

其次，通过输入门确定什么样的新信息被存放到元胞状态中，这里包括两部分，第一为σ层决定什么值是将要更新的，第二是一个tanh层创建一个新的候选元胞值

i^t＝σ(W_ix^t+U_ih^t-1+b_i)

其中i^t为t时刻输入门的激活值。

然后，把旧状态C^t-1与f^t相乘，丢弃掉确定更新的信息，接着加上i^t乘以来决定更新每个状态的变化程度，从而把旧状态C^t-1更新为新状态C^t：

最后，需要确定输出什么值，这个值基于元胞状态，这里包括两部分，第一为运行一个σ层来确定元胞状态的哪个部分将作为输出，第二是把元胞状态通过tanh层进行处理，并将它与σ层的输出相乘，这样输出的仅仅为确定要输出的那部分：

o^t＝σ(W_ox^t+U_oh^t-1+b_o)

h^t＝o^t×tanh(C^t)

其中，o^t表示t时刻输出门的激活值，h^t为t时刻对应于输入x^t在长短期记忆模型中的一个神经元的输出。

进一步地，所述步骤七中，在不同的时间t中，每次的输入和输出都是不一样，但用到的参数W、U、b都是一样，参数共享；t时刻x^t在长短记忆模型中的输出为h^t，则所有时刻的输出为：H＝(h¹,h²,...,hⁿ)，求取该向量的最大值作为隐层的输出，通过逻辑回归函数得出网络的预测输出h_θ(x_i)，逻辑回归方程为：

其中θ为隐层与输出层之间连接权值和偏置项两个参数，h_θ(x_i)表示一个数据样本中第i个特征对应的预测输出。

进一步地，所述步骤八中，通过网络预测输出h_θ(x_i)与期望输出y_i(其中，y∈{0,1})之间的误差建立损失函数：

其中n为一个样本中特征维数的大小。

相应的建立目标函数：

求取目标函数对参数的梯度：

通过梯度下降的方法更新参数θ：

.

其中为参数θ更新后的状态，α为学习率。

误差反向传播，通过更新后的参数通过它的转置和转换函数得到隐层的重构值：

其中为样本第i个特征x_i在隐层输出的重构值。

依次从t＝n时刻到t＝1时刻计算重构值与每一个时刻长短期记忆模型的输出之间的误差，通过上述的方法计算得到对应的梯度，通过梯度下降的方法更新参数W、U、b。

进一步地，所述步骤十一中，网络的输出是一个二值n维的向量，只有0和1，n是每一个样本的长度。

进一步地，所述步骤十二中，网络的输出是一个二值向量，向量中第一个值为1的点即为微震信号的到时点

附图说明

图1为应用时间递归神经网络拾取微震信号到时的流程框图；

图2为时间递归神经网络模型图；

图3为长短期记忆模型图。

具体实施方式

以下结合具体的方法实施过程对本发明的原理进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

一种基于时间递归神经网络的微震信号到时拾取方法，实施例可以为：

步骤一：对原始数据按照固定的维数进行采样，选取维度为1024。

步骤二：对部分数据进行人工到时拾取，作为对应样本数据的标签信息，具体做法为：把每一个样本数据中的微震事件视为有效信号，其他部分视为噪声，样本对应的标签是一个和样本数据长度一致的二值向量，向量中有效信号部分对应点位设置为1，其他部分设置为0。

步骤三：把数据和标签放到同一数据集中，并把数据集划分为训练数据集、验证数据集和测试数据集：样本总数为10万，其中训练数据集占总数据集的70％，验证数据集和测试数据集分别占15％。

步骤四：搭建时间递归神经网络，具体做法为：网络分为三部分，分别是输入层、隐层和逻辑回归层；层与层之间的神经元全连接，隐层的每一个神经元分别与它临近的神经元连接；输入层的神经元个数与每一个样本数据的长度一致，隐层的神经元个数小于或者等于输入层的神经元个数，逻辑回归层神经元个数与隐层神经元个数一致，逻辑回归层构成网络的输出层。

步骤五：获取时间总数T，网络按照时间步长t依次输入数据：时间总数T的大小等于每一个输入样本数据的长度1024，数据样本X＝(x₁,x₂,...,x₁₀₂₄)，T＝1024；时间步长t∈T，取t＝1。

步骤六：把网络的隐层视为一个长短期记忆模型，数据按照时间步长依次输入，具体做法为：把网络隐层视为一个一个长短期记忆模型，记忆模型包含m＝1024个神经元，一个神经元中包含一个输入门、一个遗忘门、一个输出门和一个元胞。每个神经元有8组输入权重和4组偏置项，4组权重用于t时刻输入数据x^t与该神经元的连接权重，分别为：W_i∈R^m、W_f∈R^m、W_c∈R^m、W_o∈R^m；另外4组权重用于t时刻，上一个时间t-1的输出h^t-1与该神经元的连接权重，分别为：U_i∈R^m×m、U_f∈R^m×m、U_c∈R^m×m、U_o∈R^m×m；4组偏置项分别为：b_i∈R^m、b_f∈R^m、b_c∈R^m、b_o∈R^m。

其中，W∈R^m表示1×m维欧式空间，U∈R^m×m表示m×m维欧式空间，b∈R^m表示1×m维欧式空间；下标i、f、c、o分别表示用于输入门、遗忘门、元胞、输出门。

f^t＝σ(W_fx^t+U_fh^t-1+b_f)，其中，f^t为t时刻遗忘门的激活值；

i^t＝σ(W_ix^t+U_ih^t-1+b_i)

其中i^t为t时刻输入门的激活值；

o^t＝σ(W_ox^t+U_oh^t-1+b_o)

h^t＝o^t×tanh(C^t)，其中h^t为t时刻对应于输入x^t在长短期记忆模型中的一个神经元的输出。

步骤七：求取长短期记忆模型在所有时间步长的输出中的最大值，并通过逻辑回归层得到网络输出，具体做法为：在不同的时间步长t中，每次的输入和输出都是不一样，但用到的参数W、U、b都是一样，参数共享；t时刻x^t在长短记忆模型中的输出为h^t，则所有时刻的输出为：H＝(h¹,h²,...,hⁿ)，求取该向量的均值作为隐层的输出，通过逻辑回归函数得出网络的预测输出h_θ(x_i)，逻辑回归方程为：

步骤八：计算网络的误差，通过误差反向传播来完成网络参数的更新，具体做法为：通过网络预测输出h_θ(x_i)与期望输出y_i(其中，y∈{0,1})之间的误差建立损失函数：

其中n为一个样本中特征维数的大小。

相应的建立目标函数：

求取目标函数对参数的梯度：

通过梯度下降的方法更新参数θ：

其中为参数θ更新后的状态，α为学习率。

误差反向传播，通过更新后的参数通过它的转置和转换函数得到隐层的重构值：其中为样本第i个特征x_i在隐层输出的重构值；计算重构值与每一个时刻长短期记忆模型的输出之间的误差，通过上述的方法计算得到对应的梯度，通过梯度下降的方法更新参数W、U、b。

步骤九：设置一个验证参数N，当迭代训练N次后，进行一次交叉验证和测试，具体做法为：总迭代次数为100000，设置N＝50。

步骤十：当验证误差趋于某值长期不变，且测试误差高于验证误差时，停止网络训练。

步骤十一：把未经过到时拾取的数据集输入到训练好的网络模型中，网络输出为对应于输入数据维度的一个序列，具体做法为：网络的输出是一个二值n维的向量，只有0和1，n是每一个样本的长度n＝1024。

步骤十二：输出序列中第一个不为0的值即为波到时点，具体做法为：网络的输出是一个二值向量，向量中第一个值为1的点即为微震信号的到时点。

下面分别采用短长时窗能量比拾取法(简称：比值法)和本发明方法对不同信噪比下声发射数据进行波达拾取比较，并分别用具有相同隐层个数和相同隐层神经元个数的常规误差反向传播神经网络模型(简称：常规网络)和时间递归神经网络模型对不同的数据维度进行训练和测试：

一、拾取精度比较

对同样的数据样本，分别用比值法和时间递归神经网络法对数据进行处理：在比值法中设置一个合适的波达阈值，当大于这个值时认为该点为波达点；在时间递归神经网络法中，把数据样本直接输入到已经训练好的网络模型中，网络模型输出一个仅含0和1的二值向量，向量中第一个不为0的点即为波到时点。对数据样本添加不同强度的高斯噪声，再用两种方法进行比较，结果如下表(表1)：

表1不同拾取方法对比

二、模型训练比较

构建两个具有相同的隐层个数且隐层的神经元个数相同的神经网络模型，前者用标准的误差反向传播算法进行迭代训练，后者用本发明方法进行训练。对于同样的数据样本，改变样本的特征维数n(一个样本中有多少个数据)，用两种网络模型进行训练。常规网络模型的输入为n个特征维数，其输出为一个单值并作为波到时点，本发明方法的网络模型输入为n个特征维数，输出一个长度为n、只含0和1的二值向量，取向量第一个不为0的点位作为波到时点，它们对微震信号到时拾取精度对比结果如下(表2)：

表2不同神经网络模型对不同数据维度训练比较

总结分析：

如表1所示，对于信噪比较高的数据，传统的拾取方法更容易实现，但在信噪比低情况下，时间递归神经网络具有更高的识别精度，性能更加稳健；

如表2所示，对于相同的输入特征维数，常规神经网络在小维数时表现良好，但随着数据的增加和输出类别的增加，网络模型难以训练，结果导致测试误差非常高，而时间递归神经网络在大特征维数上表现良好，测试误差低。

此外，时间递归神经网络可以对维度较大的数据进行训练，能对应输出相同维度的数据。

综上，基于时间递归神经网络的微震信号到时拾取方法是一种有效改善低信噪比下微震信号到时拾取精度的方法，且有效地解决了神经网络对大特征维数难以训练的问题。

以上所述仅为实现本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于时间递归神经网络的微震信号到时自动拾取方法，其特征在于，通过构建时间递归神经网络模型实现微震信号的识别及到时自动拾取，具体实现步骤如下：

步骤一：对微震数据按照固定的维数进行采样；

步骤五：获取时间总数T，并设置时间步长t；

步骤十一：输出序列中第一个不为0的值即为波到时点。

2.如权利要求1所述的方法，其特征在于，所述步骤一中，原始数据按照统一长度，切割为相同维度的数据。

3.如权利要求1所述的方法，其特征在于，所述步骤二中，把每一个样本数据中的微震事件视为有效信号，其他部分视为噪声，样本对应的标签是一个和样本数据长度一致的二值向量，向量中有效信号部分对应点位设置为1，其他部分设置为0。

4.如权利要求1所述的方法，其特征在于，所述步骤三中，测试数据集占总数据集的75％，验证数据集和测试数据集各占15％。

5.如权利要求1所述的方法，其特征在于，所述步骤四中，时间递归神经网络分为三部分，分别是输入层、隐层和逻辑回归层；层与层之间的神经元全连接，隐层的每一个神经元分别与它临近的神经元连接；输入层的神经元个数与每一个样本数据的长度一致，隐层的神经元个数小于或者等于输入层的神经元个数，逻辑回归层神经元个数与隐层神经元个数一致，逻辑回归层构成网络的输出层。

6.如权利要求1所述的方法，其特征在于，所述步骤五中，时间总数T的大小等于每一个输入样本数据的长度n，数据样本X＝(x₁,x₂,...,x_n)，T＝n；时间步长t∈T，取t＝1。

7.如权利要求1所述的方法，其特征在于，所述步骤六中，把时间递归神经网络的隐层视为一个长短期记忆模型，记忆模型包含m个神经元，一个神经元中包含一个输入门、一个遗忘门、一个输出门和一个元胞。每个神经元有8组输入权重和4组偏置项，4组权重用于t时刻输入数据x^t与该神经元的连接权重，分别为：W_i∈R^m、W_f∈R^m、W_c∈R^m、W_o∈R^m；另外4组权重用于t时刻，上一个时间t-1的输出h^t-1与该神经元的连接权重，分别为：U_i∈R^m×m、U_f∈R^m×m、U_c∈R^m×m、U_o∈R^m×m；4组偏置项分别为：b_i∈R^m、b_f∈R^m、b_c∈R^m、b_o∈R^m。

长短期记忆模型在每个时刻t接受一个输入层的值x^t和一个t-1时刻长短期记忆模型的输出h^t-1。其中x^t为样本第t个元素，h^t-1在t＝1时为0。长短期记忆模型参数的连接和计算方法如下：

f^t＝σ(W_fx^t+U_fh^t-1+b_f)，其中，f^t为t时刻遗忘门的激活值；

i^t＝σ(W_ix^t+U_ih^t-1+b_i)

其中i^t为t时刻输入门的激活值；

C^{t} = C^{t - 1} \times f^{t} + i^{t} \times {\tilde{C}}^{t}

o^t＝σ(W_ox^t+U_oh^t-1+b_o)

h^t＝o^t×tanh(C^t)，其中，o^t为t时刻输出门的激活值，h^t为t时刻对应于输入x^t在长短期记忆模型中的一个神经元的输出。

8.如权利要求1所述的方法，其特征在于，所述步骤七中，在不同的时间步长t中，每次的输入和输出都是不一样，但用到的参数W、U、b都是一样，参数共享；t时刻x^t在长短记忆模型中的输出为h^t，则所有时刻的输出为：H＝(h¹,h²,...,hⁿ)，求取该向量的最大值作为隐层的输出，通过逻辑回归函数得出网络的预测输出h_θ(x_i)，逻辑回归方程为：

9.如权利要求1所述的方法，其特征在于，所述步骤八中，通过网络预测输出h_θ(x_i)与期望输出y_i(其中，y∈{0,1})之间的误差建立损失函数：

其中n为一个样本中特征维数的大小。

相应的建立目标函数：

J (θ) = - [Σ_{i = 1}^{n} y_{i} \log h_{θ} (x_{i}) + (1 - y_{i}) l o g (1 - h_{θ} (x_{i}))]

求取目标函数对参数的梯度：

{&dtri;}_{θ} J = \frac{\partial J (θ)}{\partial θ} = \frac{1}{n} Σ_{i = 1}^{n} (h_{θ} (x_{i}) - y_{i}) x_{i}

通过梯度下降的方法更新参数θ：

其中为参数θ更新后的状态，α为学习率。

随时间变化的误差反向传播，通过更新后的参数通过它的转置和转换函数得到隐层的重构值：其中为样本第i个特征x_i在隐层输出的重构值；依次从t＝n时刻到t＝1时刻计算重构值与每一个时刻长短期记忆模型的输出之间的误差，通过上述的方法计算得到对应的梯度，通过梯度下降的方法更新参数W、U、b。