CN113158792A

CN113158792A - 一种基于改进模型迁移学习的微震事件识别方法

Info

Publication number: CN113158792A
Application number: CN202110276110.0A
Authority: CN
Inventors: 丁琳琳; 曹鲁杰; 于海友; 潘一山; 张翰林
Original assignee: Liaoning University
Current assignee: Liaoning University
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-07-23
Anticipated expiration: 2041-03-15
Also published as: CN113158792B

Abstract

一种基于改进模型迁移学习的微震事件识别方法，步骤1)时间序列数据的预处理；步骤2)CNN特征提取；步骤3)LSTM特征提取；步骤4)源域特征及时间序列特征迁移；步骤5)微震分类器生成与识别。本发明通过上述方法，提供了一种基于改进模型迁移学习的微震事件识别方法，在考虑微震数据图像特征的同时，迁移源域和原始时间序列数据的特征，最终实现微震事件的有效识别。

Description

一种基于改进模型迁移学习的微震事件识别方法

技术领域

本发明属于微震事件数据处理领域，涉及一种微震事件的识别方法，发明具体始终涉及一种基于改进模型迁移学习的微震事件识别方法。

背景技术

矿山微震监测系统运用于大部分矿区中，其源源不断地产生大量的微震数据。由于这些数据有混入噪声及其他干扰信号的可能性，使得微震数据及其复杂。微震数据一般具有数据量大、维度高、更新快等特点。微震事件识别问题是微震大数据处理领域中的重点问题，具有较高的应用价值。微震事件识别任务中，基于深度学习的CNN和LSTM等神经网络技术是解决微震事件识别问题的有效方法。基于神经网络的识别方法具有以下优势：模型针对微震事件数据自动提取特征，特征逐层传递；通过参数共享机制大大减小了参数的数量，显著提高了计算机的处理效率；参数系统随机设置并通过反向误差回传机制被逐步修改，提高分类的准确性。CNN主要通过卷积操作对微震事件图像数据进行特征提取，共享权重并且网络结构加深；LSTM通过对微震事件时间序列数据进行特征提取，能够解决长期依赖关系，可以防止梯度消失并使时间序列数据在较长的时间跨度内充分利用时间信息。

现有的微震事件识别方法主要存在两方面的问题。一方面，由于微震事件数据量过小，在训练神经网络模型时容易出现过拟合等问题；另一方面，基于神经网络的微震事件识别模型效率和精度不高。因此，本发明基于神经网络和迁移学习的方法，首先构建CNN和LSTM模型，利用CNN和LSTM分别对图像和时间序列数据进行特征提取；然后结合迁移学习的思想，对源域数据进行特征迁移学习来解决数据量小的问题，同时对时间序列数据的特征进行迁移学习，最终提出一种基于改进模型迁移学习的微震事件识别方法。

发明内容

为了解决现有微震事件识别方法的不足，本发明提供一种基于改进模型迁移学习的微震事件识别方法，能够快速有效地处理微震事件数据准确识别的问题。

为了实现上述目的，本发明创造采用了如下技术方案：

一种基于改进模型迁移学习的微震事件识别方法，其步骤为：

步骤1)时间序列数据的预处理：把源域和目标域时间序列数据转化为图像，并对目标域进行选取有效时间序列数据操作；

步骤2)CNN特征提取过程：通过卷积层、池化层和全连接层的特征提取，得到每层对应的权重w和偏置值b；

步骤3)LSTM特征提取过程：添加注意力机制评估，使得数据对应权值改变，通过LSTM的输入门、忘记门、内部记忆单元和输出门进行时间序列数据的特征提取；

步骤4)源域特征及时间序列特征迁移：大样本源域特征对卷积层、池化层和第一层全连接层的迁移，图像所对应原始时间序列数据通过LSTM循环神经网络处理后进行第二层全连接层的特征迁移；

步骤5)微震分类器生成与识别：通过数据标签与特征的对应关系，训练模型生成分类器，最终实现微震事件的识别。

所述的步骤1)中，具体步骤为：

1.1)时间序列数据转化为图像：利用MATLAB对源域和目标域时间序列数据的xyz三分量数值求平均值，画出微震数据图像；

1.2)选取有效时间序列数据：

1.2.1)长短时窗法选取：设定两个时窗，一个较长的叫长时窗，一个较短的叫短时窗，他们合二为一叫一个大的滑动窗口，该滑动窗口在时间序列的起始点进行滑动，每次滑动点数K，每次滑动后按照如下公式计算：阈值T＝短时窗内点幅值之和average/长时窗内点幅值之和average，当阈值T大于某个经验值时，认为长时窗与短时窗接壤的点为P波到时点，该时间序列数据就为有效时间序列数据；

1.2.2)时间序列数据对齐：从原始震源事件文件中读取的原始时间序列记录长度并不一致，需对原始时间序列的长度作对齐操作，对于不足设定长度采样点的时间序列，在原观测时间序列数据前补0，使其整段时间序列长度统一。

所述的步骤2)中，具体步骤为：

2.1)卷积层特征提取：在离散的三维彩色原始数据图像空间中，图像和卷积核分别定义为(H,W,C)和(k₁,k₂,c)的三维张量，其中H、W、C分别表示图像的长度、宽度和通道数，c表示通道数对应卷积核个数；m、n为空间坐标，分别表示第c个图像通道上第m行和第n列的像素点；当一个卷积核在彩色图像I上滑动运算时，多维张量的卷积运算可以表示为：

其中K_m,m,c表示第c个图像通道坐标为mn的卷积核的值大小，I_i+m,j+n,c表示第c个图像中i+m和j+n所对应的区域大小；

当一个卷积核

在彩色图像上滑动到I_m,n位置上，卷积层

的特征图可以表示为：

其中u、v表示图像所滑动的横纵坐标步长，p、q表示卷积核中所对应的横纵坐标，b^p,q为输出特征图所对应的偏置值，σ为ReLU激活函数；

2.2)池化层特征提取：使用最大池化函数

进行池化，p、q、m、n表示所选定池化的区域；

2.3)全连接层特征提取：全连接层中的每个神经元与其前一层的所有神经元进行全连接；全连接层可以整合卷积层和池化层中具有类别区分性的局部信息，并负责对特征进行进一步的降维和提纯；用l表示全连接层的个数，每层有n个神经元，激活后全连接层的计算过程如公式如下：

其中σ为激活函数，

表示激活后的全连接层的值，

表示下标为ij的全连接层权重的大小，

表示该层全连接层的值，

表示对应层的偏置值。

所述的步骤3)中，具体步骤为：

3.1)注意力机制评估：由微震事件时间序列数据特点得出P波到时之后的特征相对明显，因此引入注意力机制进行权值评估；

3.1.1)运用softmax()函数归一化计算权重的大小，使有用时间序列数据信息权值变大，无用时间序列数据信息权值变小；

3.1.2)计算权值与原始时间序列数据的值得到注意力机制评估后的值，作为LSTM的输入，使有用时间序列数据信息增大；

3.2)LSTM特征提取：LSTM由忘记门、输入门、内部记忆单元和输出门来控制细胞状态，通过这些门控功能来进行信息传递，提取时间序列数据的特征，公式如下：

遗忘门f_t＝σ(W_f·[h_t-1,x_t]+b_f)

输入门i_t＝σ(W_i·[h_t-1,x_t]+b_i)

内部记忆单元

输出门o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

其中x_t为时间序列数据的输入，h_t为时间序列数据的输出，W和b分别为权重和偏置值，σ表示sigmoid()激活函数，tanh表示tanh()激活函数；经过LSTM对时间序列数据的处理之后，输入到全连接层。

所述的步骤4)中，具体步骤为：

4.1)对源域数据的特征迁移学习：源域数据为大地震数据集，目标数据为小微震数据集，地震领域与矿山微震领域相似；源域数据集定义为(x^s,y^s)，目标数据集定义为(x^t,y^t)，其中x和y分别为数据和相应的标签；用源域数据集训练好一个完整的CNN模型，得到每层的权重w和偏置b，把得到的特征迁移到第一层全连接层和之前的卷积、池化层，把源域的特征迁移到模型中去；

4.2)对时间序列数据的特征迁移学习：时间序列数据经过LSTM的特征提取之后，连接一层全连接层，得到相应的特征；此时每个LSTM中的时间序列数据与CNN中的图像数据一一对应，把LSTM中的第一层全连接层的特征迁移到CNN的第二层全连接层，保持节点数目保持不变；通过对时间序列数据的特征迁移学习，综合考虑图像数据和时间序列数据的特征。

所述的步骤5)中，具体步骤为：

5.1)微震分类器生成：分类器的生成主要包括以下几个过程：

5.1.1)模型的构建：构建微震分类器的模型结构，依次包括输入层、卷积层1、池化层1、卷积层2、池化层2、全连接层123和输出分类层；

5.1.2)参数特征迁移：参数特征迁移包括两个部分的特征迁移：第一个是基于CNN的源域特征迁移，迁移卷积层1、池化层1、卷积层2、池化层2和全连接层1的参数，迁移的是大数据样本地震的特征；第二个是基于LSTM的时序特征迁移，迁移LSTM的全连接层参数到CNN的全连接层2，迁移的是微震时间序列数据的时序特征；

5.1.3)模型的训练：用目标域的微震图像数据集(x^t,y^t)作为训练集，运用前向传播与反向传播算法对模型进行反复训练，固定模型中迁移层的参数，主要训练第三层全连接层的参数；

5.1.4)生成分类器：经过上一步模型的训练之后模型表现出良好的分类能力，那么此时的模型就作为最终的微震事件识别模型，并保存为EQfinder.h5模型；

5.2)微震事件识别：

5.2.1)模型加载：加载训练并测试好的T-SimCNN的EQfinder.h5模型；

5.2.2)数据初始化：首先将待识别的微震数据图像转化为100*100像素大小的图像，再把图像转化为numpy数组的形式，作为微震事件识别的数据形式；

5.2.3)概率函数设置：把事件和噪声这两种类别的数据概率的值，设置为百分制的格式，使得概率的值清晰明了；

5.2.4)概率输出：对应于概率设置函数的格式，运用predict()函数输出对应微震数据类别的概率；

5.2.5)事件识别：输出概率值较高的波形类别，如果微震事件的概率大于噪声的概率，则该波形数据为事件数据，运用微震事件识别模型实现了微震事件的识别。

本发明创造的有益效果：

本发明提出一种基于改进模型迁移学习的微震事件识别方法，设计高效的基于CNN和LSTM两种神经网络的模型，通过CNN和LSTM的特征提取以及对源域数据和时间序列数据的特征迁移学习，进而通过训练得出完整的微震事件识别模型，最终实现微震事件的有效识别。

附图说明

图1：本发明提出的基于改进模型迁移学习的微震事件识别方法流程图。

图2a：本发明提出的矿山微震事件数据示意图。

图2b：本发明提出的矿山微震噪声数据示意图。

图3：本发明提出的基于改进模型迁移学习的微震事件识别方法模型图。

图4：本发明提出的长短时窗法示意图。

图5：本发明提出的注意力机制评估示意图。

图6：本发明实验中对源域数据集的微震事件识别模型训练结果。

图7：本发明实验中对目标域数据集的微震事件识别模型训练结果。

图8：本发明实验中对目标域数据集的微震事件识别模型测试结果。

具体实施方式

下面将结合本发明创造实施例中的附图，对本发明创造实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明创造一部分实施例，而不是全部的实施例。

定义1给出ReLU函数的表示方法，定义2给出交叉熵损失函数的表示方法，定义3给出softmax函数的表示方法。

定义1：ReLU函数：ReLU函数是一种非线性激活函数，由公式σ(x)＝max(0,x)计算，其中x为神经元的大小；该函数的提出很大程度的解决了BP算法在优化深层神经网络时的梯度弥散问题，主要运用在卷积层和全连接层特征值的激活。

定义2：交叉熵损失函数：分类问题中通常使用交叉熵损失函数作为loss函数，由公式

计算，其中

分别为样本标签和预测值；交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度，在深度学习中就表示为真实概率分布与预测概率分布之间的差异。

定义3：softmax函数：softmax函数由

计算，其中z_i和z_j是向量z的元素，softmax函数可以将上一层的原始数据进行归一化，转化为一个(0,1)之间的概率数值。

步骤1)时间序列数据的预处理：把源域和目标域时间序列数据转化为图像，并把目标域时间序列数据对齐操作；

1.1)时间序列数据转化为图像：利用MATLAB对源域和目标域时间序列数据的xyz三分量数值求平均值，画出微震数据波形图像；

1.2)选取有效时间序列数据：

1.2.1)长短时窗法选取：设定两个时窗，一个较长的叫长时窗，一个较短的叫短时窗，他们合二为一叫一个大的滑动窗口，该滑动窗口在时间序列的起始点进行滑动，每次滑动点数(跳数)K，每次滑动后按照如下公式计算：阈值T＝average(短时窗内点幅值之和)/average(长时窗内点幅值之和)，当阈值T大于某个经验值时，我们认为长时窗与短时窗接壤的点为P波到时点，该时间序列数据就为有效时间序列数据；

2.1)在离散的三维彩色原始数据图像空间中，图像和卷积核分别定义为(H,W,C)和(k₁,k₂,c)的三维张量，其中H、W、C分别表示图像的长度、宽度和通道数，c表示通道数对应卷积核个数。m、n为空间坐标，分别表示第c个图像通道上第m行和第n列的像素点。当一个卷积核在彩色图像I上滑动运算时，多维张量的卷积运算可以表示为：

其中K_m,m,c表示第c个图像通道坐标为mn的卷积核的值大小，I_i+m,j+n,c表示第c个图像中i+m和j+n所对应的区域大小。

当一个卷积核

在彩色图像上滑动到I_m,n位置上，卷积层

的特征图可以表示为：

2.2)池化层特征提取：使用最大池化函数

进行池化，p、q、m、n表示所选定池化的区域；

其中σ为激活函数，

表示激活后的全连接层的值，

表示下标为ij的全连接层权重的大小，

表示该层全连接层的值，

表示对应层的偏置值。

3.1.1)：运用softmax()函数归一化计算权重的大小，使得有用时间序列数据信息权值变大，无用时间序列数据信息权值变小；

3.1.2)：计算权值与原始时间序列数据的值得到注意力机制评估后的值，作为LSTM的输入，使得有用时间序列数据信息增大，增强提取时间序列特征的能力。

3.2)LSTM特征提取：LSTM是一种特殊的循环神经网络，能够解决长期依赖关系，可以防止梯度消失并使时间序列数据在较长的时间跨度内充分利用时间信息；LSTM由忘记门、输入门、内部记忆单元和输出门来控制细胞状态，通过这些门控功能来进行信息传递，提取时间序列数据的特征，公式如下：

遗忘门f_t＝σ(W_f·[h_t-1,x_t]+b_f)

输入门i_t＝σ(W_i·[h_t-1,x_t]+b_i)

内部记忆单元

输出门o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

4.1)对源域数据的特征迁移学习：源域数据为大地震数据集，目标数据为小微震数据集，地震领域与矿山微震领域相似；源域数据集定义为(x^s,y^s)，目标数据集定义为(x^t,y^t)，其中x和y分别为数据和相应的标签；用源域数据集训练好一个完整的CNN模型，得到每层的权重w和偏置b，把得到的特征迁移到第一层全连接层和之前的卷积、池化层，这样就把源域的特征迁移到模型中去；

4.2)对时间序列数据的特征迁移学习：时间序列数据经过LSTM的特征提取之后，连接一层全连接层，得到相应的特征；此时每个LSTM中的时间序列数据与CNN中的图片数据一一对应，把LSTM中的第一层全连接层的特征迁移到CNN的第二层全连接层，保持节点数目保持不变；通过对时间序列数据的特征迁移学习，综合考虑图像数据和时间序列数据的特征。

步骤5)微震分类器生成与识别：通过数据标签与特征的对应关系，训练模型生成分类器，最终实现微震事件的识别；

5.1)微震分类器生成：分类器的生成主要包括以下几个过程：(1)模型的构建。构建微震分类器的模型结构，依次包括输入层、卷积层1、池化层1、卷积层2、池化层2、全连接层123和输出分类层。(2)参数特征迁移。参数特征迁移包括两个部分的特征迁移：第一个是基于CNN的源域特征迁移，迁移卷积层1、池化层1、卷积层2、池化层2和全连接层1的参数，迁移的是大数据样本地震的特征；第二个是基于LSTM的时序特征迁移，迁移LSTM的全连接层参数到CNN的全连接层2，迁移的是微震时间序列数据的时序特征。(3)模型的训练。用目标域的微震图像数据集(x^t,y^t)作为训练集，运用前向传播与反向传播算法对模型进行反复训练，固定模型中迁移层的参数，主要训练第三层全连接层的参数。(4)生成分类器。经过上一步模型的训练之后模型表现出良好的分类能力，那么此时的模型就作为最终的微震事件识别模型，并保存为EQfinder.h5模型。

5.2)微震事件识别：(1)模型加载。加载训练并测试好的EQfinder.h5模型。(2)数据初始化。首先将待识别的微震数据图像转化为100*100像素大小的图像，再把图像转化为numpy数组的形式，作为微震事件识别的数据形式。(3)概率函数设置。把事件和噪声这两种类别的数据概率的值，设置为百分制的格式，使得概率的值清晰明了。(4)概率输出。对应于概率设置函数的格式，运用predict()函数输出对应微震数据类别的概率。(5)事件识别。输出概率值较高的波形类别，如果微震事件的概率大于噪声的概率，则该波形数据为事件数据，运用微震事件识别模型实现了微震事件的识别。

实施例1：

(1)数据预处理：数据分为源域数据和目标域数据。源域地震数据集采用国家地震科学数据中心所提供的地震数据，分为事件和噪声两类。目标域微震数据集采用山西某矿监测系统的连续波形记录，数据分为事件和噪声两个类别。长短时窗法由图4所示，图中左侧大方框A区域表示长时窗，右边小方框B区域表示短时窗，跳数k的值设为50，经验值λ设为1.5，计算阈值T，得到P波到时的点如图所示，事件类别运用长短时窗法截取P波到时前5s至到时后5s的波形片段，每个片段包含50000个采样点；噪声类别采用随机截取筛选的方法截取10s的数据，与事件数据长度统一。微震数据包含xyz三分量数值，首先把原始微震数据通过MATLAB编程求xyz三分量的平均值，并绘出微震图像；然后把像素值大小为875*656的原始图像转化为100*100大小，得到如图2a-图2b所示的微震数据集。给数据打上相应的标签，微震事件数据的标签设为“1,”，噪声数据的标签设为“0”。

(2)构建微震事件识别模型：基于模型迁移学习的微震事件识别模型如图3所示，模型主要分为卷积神经网络CNN和循环神经网络LSTM两个部分。

CNN包括输入层、卷积层、池化层、全连接层和输出层。输入层是经过数据预处理得到的大小为100*100*3的三通道RGB图像，用于CNN的输入。卷积层用于获取微震图像的局部特征，卷积层1使用32个大小为3*3、步长为1的卷积核，对图像数据进行卷积运算，卷积层2使用64个大小为3*3、步长为1的卷积核，对池化层的特征图进行卷积运算。池化层1和卷积层2都使用最大池化函数进行操作，所有最大池化操作都使用大小为2*2、步长为2的滤波器进行下采样。全连接层用于将全部局部特征重新通过权值矩阵连接成完整的图像，三层全连接层分别包含1024、512、256个神经元，其中每个神经元都分别与前后两层相连接。输出层与最后一层全连接层相连接，两个神经元分别输出两类波形数据的预测概率。

LSTM以原始时间序列数据为输入，时间序列与生成的图像一一对应，事件序列数据大小为50000个采样点，对应神经元个数为5000；LSTM前添加注意力机制评估，如图5所示，首先计算softmax()函数归一化权值的大小，使得有用数据部分的权重变大，再通过计算y_t＝x_t*w_t得到注意力机制评估后的值，作为LSTM的输入；LSTM采取单层结构，LSTM后接一层大小为512全连接层，最后为两个神经元的输出层。LSTM依据其在时序上具有记忆性，能准确提取时间序列特征，模型损失函数使用均方误差并引入L2正则化来解决过拟合问题。

(3)特征迁移学习：特征迁移学习包括源域特征迁移学习和时间序列特征迁移学习，如图3中①和②所示。对源域数据的特征迁移学习：地震波形特征与微震波形特征有一定的相似性且源域地震数据集比较大，尽管微震数据集比较小，也能从地震数据中提取特征应用到微震数据特征中去；源域数据集定义为(x^s,y^s)，目标数据集定义为(x^t,y^t)，其中x和y分别为数据和相应的标签；用源域数据集训练CNN模型，得到CNN每层的权重w和偏置b，把得到的特征迁移到第一层全连接层和之前的卷积、池化层，这样就把源域的特征迁移到我们的模型中去。

对时间序列数据的特征迁移学习：首先LSTM对时间序列数据进行特征提取，训练完整的LSTM模型，得到全连接层的权重w和偏置b，此时每个LSTM中的时间序列数据与CNN中的图片数据一一对应，把所得到的权重w和偏置b迁移到CNN中相对应的512全连接层。通过对时间序列数据和图像数据的特征迁移学习，综合考虑微震波形数据的时序特征和图像特征。

(4)分类器构建与识别

首先对模型进行训练，首先将194组微震数据集分为150组训练集和44组测试集，同时运用原始时间序列训练集对LSTM进行学习训练，提取数据的时序特征。其中训练模型时，激活函数为ReLU函数、使用交叉熵损失函数作为loss函数、使用softmax函数进行分类；主要设置参数学习率为0.0005、epoch设置为50和100，通过训练微震数据获得最后一层全连接层的参数，得到最终的微震事件识别模型。本发明主要从3个方面对上述方法进行了测试，下面分别进行说明：

对源域数据的模型训练结果

图6为源域数据模型训练准确率和损失函数的变化，实线的Train ACC曲线表示训练集的准确率，虚线的Train Loss曲线表示训练集的损失函数。模型迭代100次，当迭代次数小于10时，准确率曲线呈现明显的上升趋势，无明显波动；迭代次数大于10时，准确率的曲线慢慢趋于平稳，保持在0.95以上。同样，损失函数在迭代次数小于30次时，损失函数的曲线存在明显下降现象；当迭代次数大于30次时，曲线慢慢趋于平稳。

对目标域数据的模型训练结果

图7为目标域数据模型训练准确率和损失函数的变化，实线的Train ACC曲线表示训练集的准确率，虚线的Train Loss曲线表示训练集的损失函数。模型迭代50次，从图中可以看出，迭代次数小于5次时，整个曲线中准确率呈现明显的上升趋势；迭代次数大于5次时，准确率的曲线趋于平稳，保持在0.95以上。同样，损失函数在迭代次数小于5次时，曲线下降明显大于5次开始有波动并在35次时趋于稳定，损失函数保持在0.05左右。

对目标域数据的模型测试结果

图8显示了对目标域数据模型的测试准确率。从44组测试集中随机选取25组数据进行交叉验证，准确率可达95％以上。从实验结果可以看出本发明的有效性，通过对CNN的特征提取以及对源域和时间序列数据的特征迁移，提高了模型的识别准确率，可以有效地识别微震事件。