CN110501742A

CN110501742A - 一种采用Boosting集成学习算法对地震事件进行区分的方法

Info

Publication number: CN110501742A
Application number: CN201910776934.7A
Authority: CN
Inventors: 刘子榆; 任涛; 王英男; 丁匀泰; 李天鹏
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2019-11-26

Abstract

本发明公开一种采用Boosting集成学习算法对地震事件进行区分的方法，属于地震学与机器学习交叉技术领域，该方法使用决策树作为Boosting框架下弱分类器的分类算法，通过更新权重，重视误差样本在训练弱分类器中的作用，训练产生多个弱分类器，然后使用线性结合策略得到一个强分类器，最后使用强分类器对地震信号进行分类识别，在识别时采用记录到该事件的多个台站投票的方式决定该地震事件是天然地震还是非天然震动事件，识别准确率可达90％以上。该方法不仅提高了对天然地震和非天然震动事件的分类识别准确率，还提高了对地震事件进行区分的效率。

Description

一种采用Boosting集成学习算法对地震事件进行区分的方法

技术领域

本发明涉及地震学与机器学习交叉技术领域，尤其涉及一种采用Boosting集成学习算法对地震事件进行区分的方法。

背景技术

地震是一种由板块运动引起的自然现象，在地震监测的过程中，我们记录到了许多天然地震事件，同时也记录到了许多由于人类活动而引起的地表震动事件，如：爆炸、塌陷、滑坡、飞行物坠落等。二者的震源性质有所不同，天然地震大多发生于地下几公里至几十公里的地壳深处，其震源是非对称剪切源，而非天然震动事件种类多样，其中，爆破事件为膨胀源，滑坡事件主要为单力偶源，塌陷事件随着不同塌陷方式又有区别等，由于地表震动事件的复杂性，加大了从其中识别出天然地震事件的难度。

在地震事件性质分类过程中，如何提取出有效特征是分类的关键自上世纪50年代开始，国内外在地震事件性质识别方面进行了广泛和深入的研究，并提出了多种识别判据，主要有，P波初动、震源深度、体波震级与面波震级之比、P波初动振幅与P波最大振幅比、勒夫波和瑞利波振幅比、P波与S波谱振幅比、P波与勒夫波谱振幅比、倒谱、小波变换，但是由于地震信号本身的复杂性，有些识别判据的识别效果或适用性仍有不足，造成某些判据仅仅适用于一些特定的地区和台站记录，因此提出一种快速、准确对天然地震与非天然震动事件进行区分的方法就显得尤为重要。

近年来机器学习方法开始被用来对地震波形数据进行分析和处理。黄汉明等提取地震事件的特征值作为输入数据，使用支持向量机的方法对天然地震与爆破进行识别；Dowla等利用多层感知器神经网络识别天然地震与地下爆炸；任涛等使用Bagging集成学习方法对地震天然非天然震动事件进行识别；陈润航等利用卷积神经网络对天然地震与人工爆破地震波形的实时分类，上述方法虽然能做到区别天然地震与非天然震动事件，但分类的准确率不是很高，在提高分类的准确率工作上还有待进一步研究。

发明内容

针对上述现有技术的不足，本发明提供一种采用Boosting集成学习算法对地震事件进行区分的方法。

本发明所采取的技术方案是一种采用Boosting集成学习算法对地震事件进行区分的方法，其流程如图1所示，包括如下步骤：

步骤1：从不同的地震台站采集震动事件波形历史数据，形成样本集；

步骤2：采用人工筛选择优就近的的方法对样本集进行预处理，去除样本中断记、信噪比低的地震波形数据；

步骤2.1：首先用人工观察的方式去除样本集中存在断记、信噪比低的样本；

步骤2.2：选取震中距在150km范围内的波形数据；

步骤2.3：采用AIC算法进行P波到时拾取，并以拾取到的P波到时作为地震信号的起点；

步骤2.4：从起点开始，截取之后169秒时间段的波形数据作为新的样本集X，其中样本总数计为N。

步骤3：对预处理后的数据样本进行特征提取，以波形复杂度C，谱比值SR，自相关系数R，波形复杂度和自相关系数的比值Z作为波形特征；再将特征提取后的样本划分成训练集和测试集；

步骤3.1：计算波形复杂度C：

其中，y(t)为时域波形中t时刻的幅值，积分上限中的0代表P波到达该台站的时刻，5为经验系数，代表使用从P波初至开始5s的波形段，x为S波与P波的到时差；

步骤3.2：计算谱比值SR：

其中，x(f)为傅里叶频谱中频率为f处幅值的模；H₁、L₁为波形频谱中频率较低部分的频率上限值和下限值；

步骤3.3：由于非天然震动事件震级一般不会大于4级，且P波衰减时间一般在5s左右，选择用当前波形数据与5s前的波形数据做自相关，通过P波衰减的速度反映非天然震动事件与天然地震的差异，计算自相关系数R：

其中，n为采样点个数，h为计算自相关系数时波形时间差，η为全部波形数据的均值，X_i为计算区间内第i个采样点的数值；

分别求出地震信号BHZ、BHE、BHN三个分量的自相关系数，然后将三分量的自相关系数计算结果求和；

步骤3.4：为了提高模型识别准确率，综合考虑波形复杂度和自相关系数，对同一事件的波形复杂度和自相关系数求比值Z：

Z＝C/R

步骤3.5：将求得的波形复杂度C，谱比值SR，自相关系数R，波形复杂度和自相关系数的比值Z作为波形特征。

步骤4：搭建基于Boosting的集成识别模型，其中包含待训练的T个弱分类器，其结构示意图如图2所示；

步骤5：采用决策树作为弱分类器的基本分类算法，用基于Boosting方式在训练集上训练T个弱分类器，对T个弱分类器线性加权组合，得到组合后的集成模型；

步骤5.1：初始化权重；

对于整个训练集，每个样本在初始被选中的权重均等，即1/M，M代表训练集样本数量；

步骤5.2：将训练集输入决策树中用初始权重训练出一个弱学习器1；

步骤5.3：根据弱学习器1的学习误差率表现来更新训练样本的权重，使得之前弱学习器1学习误差率高的训练样本点的权重变高，使得这些误差率高的点在后面的弱学习器中得到更多的重视；

步骤5.3.1：计算若学习器m在训练集上的分类误差率e_m；

步骤5.3.2：定义弱学习器m的系数：

步骤5.3.3：计算训练样本在弱学习器m+1中的权重；

其中，w_m+1,i为第i个样本在弱学习器m+1中的权重，a_m代表计算得到的弱学习器m的系数，G_m(x_i)表示第i个样本在弱学习器m中的分类结果，y_i表示实际结果，Z_m是弱学习器m的规范化因子，其计算方式为：

步骤5.4：基于调整权重后的训练集来训练弱学习器2；

步骤5.5：重复执行步骤5.2和步骤5.4，直到弱学习器数达到事先指定的数目T；

步骤5.6：对T个弱学习器得到的分类结果采用线性加权的方式进行组合，最后得到集成模型。其中权值的设定由类误差率而定，如果第i个弱分类器准确率越高，权值越大，如果第i个弱分类器准确率越低，权值越小。

步骤6：将测试集输入到步骤5训练好的模型中，得到测试集的分类结果，对模型的分类准确率进行验证。

步骤6.1：将测试集输入到步骤5训练好的模型中，在判定时，采用记录到该事件的多个台站进行少数服从多数投票的方式决定该地震事件是天然地震还是非天然震动事件。

步骤6.2：在投票时，如果存在正反例相同票数时，采用震中距小的的台站的判定结果为最终结果。

步骤6.3：最后得到测试集的分类结果，从而对模型的分类准确率进行验证。

采用上述技术方案所产生的有益效果在于：本发明提出一种采用Boosting集成学习算法对地震事件进行区分的方法，使用决策树为基本分类方法，运用Boosting的框架进行训练产生多个弱分类器，运用线性加权的结合策略得到强分类器，外加使用记录到该地震信号的多个台站投票的的方式判定该地震信号的性质，提高了使用机器学习的方法对地震信号识别的准确率，可达90％以上，此外使用机器学习的方法提高了对地震事件进行区分的效率，可实现对天然地震和非天然震动事件的快速准确判定。

附图说明

图1为本发明一种采用Boosting集成学习算法对地震事件进行区分的方法的流程图；

图2为本发明Boosting集成学习算法的结构示意图；

图3为本发明实施例非天然震动事件NM.LCH台站地震信号BHZ、BHE、BHN三个分量波形图；

(a)BHE分量波形图；

(b)BHN分量波形图；

(c)BHZ分量波形图；

图4为本发明实施例非天然震动事件SX.SHZ台站地震信号BHZ、BHE、BHN三个分量波形图；

(a)BHE分量波形图；

(b)BHN分量波形图；

(c)BHZ分量波形图；

图5为本发明实施例非天然震动事件NM.HLG台站地震信号BHZ、BHE、BHN三个分量波形图；

(a)BHE分量波形图；

(b)BHN分量波形图；

(c)BHZ分量波形图；

图6为本发明实施例天然地震事件LN.XYN台站地震信号BHZ、BHE、BHN三个分量波形图；

(a)BHE分量波形图；

(b)BHN分量波形图；

(c)BHZ分量波形图；

图7为本发明实施例天然地震事件LN.LYN台站地震信号BHZ、BHE、BHN三个分量波形图；

(a)BHE分量波形图；

(b)BHN分量波形图；

(c)BHZ分量波形图；

图8为本发明实施例天然地震事件LN.FXI台站地震信号BHZ、BHE、BHN三个分量波形图；

(a)BHE分量波形图；

(b)BHN分量波形图；

(c)BHZ分量波形图；

图9为本发明实施例天然地震事件LN.YKO台站地震信号BHZ、BHE、BHN三个分量波形图；

(a)BHE分量波形图；

(b)BHN分量波形图；

(c)BHZ分量波形图；

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本实施例的方法如下所述。

步骤1：从中国地震台网中心获取到2012-2015年和2017年1-7月间的M_L≥2.0级震动事件的台站纪录作为本实验的数据集；

步骤2.2：选取震中距在150km范围内的波形数据；

步骤2.4：从起点开始，截取之后169秒时间段的波形数据作为新的样本集X，其中样本总数N＝7025条，其中包含1443次震动事件。

步骤3：对预处理后的数据样本进行特征提取，以波形复杂度C，谱比值SR，自相关系数R，波形复杂度和自相关系数的比值Z作为波形特征；再从特征提取后的7025条记录样本中随机选择1950条天然震动波形(包含天然地震事件349次)，随机选择1950条非天然震动波形(包含非天然地震事件849次)作为本实验的训练集；剩余486条天然震动波形(包含天然地震事件237次)，剩余2639条非天然震动波形(包含非天然地震事件959次)作为本实验的测试集；

步骤3.1：计算波形复杂度C：

本实施例选择中国地区P波和S波传播的平均速度为6km·s^-1和3.5km·s^-1进行计算，则x＝Dist/3.5-Dist/6。其中Dist选择震中距在150km之间的台站进行计算。

步骤3.2：计算谱比值SR：

其中，x(f)为傅里叶频谱中频率为f处幅值的模；H₁、L₁为波形频谱中频率较低部分的频率上限值和下限值；本实施例中取L₁＝0，H₁＝1，L₂＝1，H₂＝+∞。

Z＝C/R

步骤4：搭建基于Boosting的集成识别模型，其中包含有T＝3000个弱分类器和经过弱分类器组合得到的1个强分类器；

步骤5：采用决策树作为弱分类器的基本分类算法，用基于Boosting方式在训练集上训练3000个弱分类器，对3000个弱分类器采用简单投票法进行组合，得到组合后的集成模型；

步骤5.1：初始化权重；

对于整个训练集，每个样本在初始被选中的权重均等，即1/3900；

步骤5.2：将训练集输入决策树中用初始权重训练出一个弱学习器1；本实施例单个决策树最大深度deep＝10，随机数种子数为6600，每棵决策树使用特征的比例80％，建立每棵决策树所需样本比例90％。

步骤5.3.1：计算若学习器m在训练集上的分类误差率e_m；

步骤5.3.2：定义弱学习器m的系数：

步骤5.3.3：计算训练样本在弱学习器m+1中的权重；

步骤5.4：基于调整权重后的训练集来训练弱学习器2；

步骤5.5：重复执行步骤5.2和步骤5.4，直到弱学习器数达到3000个；

步骤5.6：对3000个弱学习器根据分类结果采用线性加权的方式进行组合，最后得到集成模型。其中权值的设定由类误差率而定，如果第i个弱分类器准确率越高，权值越大，如果第i个弱分类器准确率越低，权值越小。

本实施例测试集中选取非天然震动事件样例：山西大同市2017/06/21 00:07:28发生的塌陷事件，震中距为150km内的台站的记录如下：

1)台站名：NM.LCH

BHE分量波形如图3(a)所示，BHN分量波形如图3(b)所示，BHZ分量波形如图3(c)所示，提取的特征值如下：

C＝2.999782457528204

SR＝0.0746084903751

R＝2.9999982295358185

Z＝0.9999280759550155

经本发明的方法判定结果为：非天然；

2)台站名：SX.SHZ

BHE分量波形如图4(a)所示，BHN分量波形如图4(b)所示，BHZ分量波形如图4(c)所示，提取的特征值如下：

C＝114.43008130840407

SR＝2571.35872589

R＝2.909643409444961

Z＝39.32787122193526

经本发明的方法判定结果为：非天然；

3)台站名：NM.HLG

BHE分量波形如图5(a)所示，BHN分量波形如图5(b)所示，BHZ分量波形如图5(c)所示，提取的特征值如下：

C＝3.6515853598995776

SR＝23.6152723233

R＝2.5077873672762614

Z＝1.4560984745152494

经本发明的方法判定结果为：非天然；

3个台站的分类结果都为非天然震动信号，最后输出判定结果为非天然震动信号，与实际相符。

本实施例测试集中选取天然地震事件样例：辽宁灯塔2013/01/23 12:18:15发生5.1级的地震，震中距为150km内的台站的记录如下：

1)台站名：LN.XYN

BHE分量波形如图6(a)所示，BHN分量波形如图6(b)所示，BHZ分量波形如图出(c)所示，提取的特征值如下：

C＝17.88367725942679

SR＝128958.247472

R＝0.1366777607044717

Z＝130.84555356518717

经本发明的方法判定结果为：天然；

2)台站名：LN.LYN

BHE分量波形如图7(a)所示，BHN分量波形如图7(b)所示，BHZ分量波形如图7(c)所示，提取的特征值如下：

C＝30.65691164568084

SR＝28686.5785546

R＝2.7655223892015606

Z＝11.085396294524976

经本发明的方法判定结果为：天然；

3)台站名：LN.FXI

BHE分量波形如图8(a)所示，BHN分量波形如图8(b)所示，BHZ分量波形如图8(c)所示，提取的特征值如下：

C＝18.641550186721513

SR＝4960.00400872

R＝0.33569956728766054

Z＝55.530456405824296

经本发明的方法判定结果为：天然；

4)台站名：LN.YKO

BHE分量波形如图9(a)所示，BHN分量波形如图9(b)所示，BHZ分量波形如图9(c)所示，提取的特征值如下：

C＝22.189334133120568

SR＝30543.3449104

R＝0.22713580872187047

Z＝97.69192386697412

经本发明的方法判定结果为：非天然；

根据投票原则4个台站有3个台站分类结果都为天然地震事件，最后输出判定结果为天然地震事件，与实际相符。

步骤6.3：最后得到整个测试集的分类结果如表1所示。

表1测试集的分类结果

类别	测试集中的次数	分类准确次数	分类准确率
				天然地震	237次	200次	84.39％
非天然震动	959次	878次	91.55％
				合计	1196次	1078次	90.13％

可以看出本实施例中，对非天然震动事件的分类准确率要明显高于天然地震的分类准确率，本实施例对总的测试集的分类准确率高达90.13％，说明本方法可以有效提高对地震事件的识别精度。

Claims

1.一种采用Boosting集成学习算法对地震事件进行区分的方法，其特征在于包括如下步骤：

步骤3：对预处理后的数据样本进行特征提取，以波形复杂度C，频谱比值SR，自相关系数R，波形复杂度和自相关系数的比值Z作为波形特征；再将特征提取后的样本划分成训练集和测试集；

步骤4：搭建基于Boosting的集成识别模型，其中包含待训练的T个弱分类器；

2.根据权利要求1所述的一种采用Boosting集成学习算法对地震事件进行区分的方法，其特征在于所述步骤2中采用人工筛选择优就近的方法对样本集进行预处理的过程如下：

步骤2.2：选取震中距在150km范围内的波形数据；

3.根据权利要求1所述的一种采用Boosting集成学习算法对地震事件进行区分的方法，其特征在于所述步骤3中对预处理后的数据样本进行特征提取的过程如下：

步骤3.1：计算波形复杂度C：

步骤3.2：计算频谱比值SR：

Z＝C/R

步骤3.5：将求得的波形复杂度C，频谱比值SR，自相关系数R，波形复杂度和自相关系数的比值Z作为波形特征。

4.根据权利要求1所述的一种采用Boosting集成学习算法对地震事件进行区分的方法，其特征在于所述步骤5的过程如下：

步骤5.1：初始化权重；

步骤5.3.1：计算若学习器m在训练集上的分类误差率e_m；

步骤5.3.2：定义弱学习器m的系数：

步骤5.3.3：计算训练样本在弱学习器m+1中的权重；

步骤5.4：基于调整权重后的训练集来训练弱学习器2；

步骤5.6：对T个弱学习器得到的分类结果采用线性加权的方式进行组合，最后得到集成模型；其中权值的设定由类误差率而定，如果第i个弱分类器准确率越高，权值越大，如果第i个弱分类器准确率越低，权值越小。

5.根据权利要求1所述的一种采用Boosting集成学习算法对地震事件进行区分的方法，其特征在于所述步骤6的过程如下：

步骤6.1：将测试集输入到步骤5训练好的模型中，在判定时，采用记录到该事件的多个台站进行少数服从多数投票的方式决定该地震事件是天然地震还是非天然震动事件；

步骤6.2：在投票时，如果存在正反例相同票数时，采用震中距小的的台站的判定结果为最终结果；