CN113837116A

CN113837116A - 一种用于微震信号识别模型的迁移学习方法及系统

Info

Publication number: CN113837116A
Application number: CN202111140034.7A
Authority: CN
Inventors: 唐世斌; 王嘉戌; 李佳明; 张磊涛; 唐春安
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2021-12-24

Abstract

本发明涉及一种用于微震信号识别模型的迁移学习方法及系统，其中方法包括：对基模型中的特征提取器和与所述特征提取器连接的分类器分别进行初始化；在所述特征提取器和所述分类器的最下层分别配置第一鉴别器和第二鉴别器，得到两级对抗域自适应模型；分别将源域数据和目标域数据输入至所述两级对抗域自适应模型中进行训练，得到多个损失函数；将各个所述损失函数沿着所述两级对抗域自适应模型进行反向传播，更新所述两级对抗域自适应模型的网络参数；更新后的所述两级对抗域自适应模型为迁移后的识别模型。本发明将由卷积层组成的特征提取器和由全连接层组成的分类器分开分别进行自适应，从而能够高效的实现领域迁移。

Description

一种用于微震信号识别模型的迁移学习方法及系统

技术领域

本发明涉及岩体工程灾害智能监测技术领域，特别是涉及一种用于微震信号识别模型的迁移学习方法及系统。

背景技术

虽然深度学习模型在微震信号识别方面的广泛使用大幅度提高了微震监测数据的处理效率，但是如何重复运用一个训练好的模型仍然是一个问题，而且目前对于该方面还缺少相应的研究。众所周知，大量的非结构化数据对于训练模型至关重要，网络的性能也很大程度上取决于这些标记数据的质量。当标记的数据不足时，深度学习模型的表现会出现不可避免的退化。在现实工程中，多数情况下都无法获得如此多的标记数据，因为收集许多高质量的数据并标注非常耗费人力和时间。而且在一些刚开始建造的工程中，根本没有监测数据可以使用。

此外，因为不同项目中的信号特征是不相同的，信号的数据分布差异很大，因此在某个项目上训练好的模型通常不能直接部署到其他项目进行使用。不同工程之间的地质条件，施工方法，传感器埋置方式和监测设置都会影响相应监测信号的特征，例如，大理岩和花岗岩破碎所激发的监测信号一定是不同的，钻爆法和盾构机施工所造成的噪声也是不相同的，另外，传感器信号截断阈值和相应频率的设置将会直接影响数据的长度和分辨率。因此，两个不同工程的数据集一定存在域差异。这就是无法将训练好的模型直接部署到新工程的原因。

综上所述，在模型迁移方面的挑战有：

1)标注成本大和数据缺乏。当在工程刚开始时，监测数据库里没有太多的数据可以供给模型训练，即便是工程数据足够，对数据进行精细的挑选和标注也需要大量时间。

2)模型迁移。深度学习模型对数据非常敏感，因此工程数据集之间的域差异导致了模型迁移的困难。

发明内容

为了克服现有技术的不足，本发明的目的是提供一种用于微震信号识别模型的迁移学习方法及系统，能够高效的实现领域迁移。

为实现上述目的，本发明提供了如下方案：

一种用于微震信号识别模型的迁移学习方法，包括：

对基模型中的特征提取器和与所述特征提取器连接的分类器分别进行初始化；

在所述特征提取器和所述分类器的最下层分别配置第一鉴别器和第二鉴别器，得到两级对抗域自适应模型；

分别将源域数据和目标域数据输入至所述两级对抗域自适应模型中进行训练，得到多个损失函数；

将各个所述损失函数沿着所述两级对抗域自适应模型进行反向传播，更新所述两级对抗域自适应模型的网络参数；更新后的所述两级对抗域自适应模型为迁移后的识别模型。

优选地，所述根据所述第一对抗损失、所述第二对抗损失和所述交叉熵损失在所述两级对抗域自适应模型进行反向传播，更新所述两级对抗域自适应模型的网络参数之后，还包括：

对未标注工程数据集中的未标注数据进行间歇性提取；

判断提取到的所述未标注数据的不确定性得分是否大于预设阈值，若是，则将所述未标注数据进行专家标注，得到标注数据；

将标注数据添加至标注数据集中；所述标注数据集用于对所述识别模型进行训练。

优选地，所述基模型基于卷积神经网络构建的，所述基模型用于进行微震信号的识别。

优选地，所述对基模型中的特征提取器和与所述特征提取器连接的分类器分别进行初始化，包括：

将所述特征提取器的第一层卷积层的参数替换为所述基模型的参数；

冻结所述第一层卷积层的参数，以使所述第一层卷积层的参数不参与训练；

将所述特征提取器的第二个残差块的参数替换为所述基模型的参数；所述第二个残差块的参数为激活状态并参与训练；

采用He Uniform方法对除所述第一层卷积层和所述第二个残差块之外的所述特征提取器的其他所有卷积层进行初始化。

将所述分类器的全连接层的参数替换为所述基模型的全连接层的参数；

在所述分类器的全连接层的输出端连接一层自适应层；所述自适应层为全连接层；

采用He normal方法对所述自适应层进行初始化。

优选地，所述在所述特征提取器和所述分类器的最下层分别配置第一鉴别器和第二鉴别器，得到两级对抗域自适应模型，包括：

在所述特征提取器的输出端连接所述第一鉴别器；

在所述分类器的自适应层的输出端连接所述第二鉴别器；所述两级对抗域自适应模型包括所述特征提取器、所述分类器、所述第一鉴别器和所述第二鉴别器。

优选地，所述分别将源域数据和目标域数据输入至所述两级对抗域自适应模型中进行训练，得到多个损失函数，包括：

当训练数据为所述源域数据时，获取所述两级对抗域自适应模型中的特征提取器的第一输出数据、所述分类器输出的第二输出数据和交叉熵损失；

当训练数据为所述目标域数据时，获取所述两级对抗域自适应模型中的特征提取器的第三输出数据和所述分类器输出的第四输出数据；

将所述第一输出数据和所述第三输出数据输入所述第一鉴别器中，生成第一对抗损失；

将所述第二输出数据和所述第四输出数据输入所述第二鉴别器中，生成第二对抗损失；所述损失函数为交叉熵损失、第一对抗损失或第二对抗损失中任一种。

一种用于微震信号识别模型的迁移学习系统，包括：

初始化模块，用于对基模型中的特征提取器和与所述特征提取器连接的分类器分别进行初始化；

配置模块，用于在所述特征提取器和所述分类器的最下层分别配置第一鉴别器和第二鉴别器，得到两级对抗域自适应模型；

损失函数确定模块，用于分别将源域数据和目标域数据输入至所述两级对抗域自适应模型中进行训练，得到多个损失函数；

迁移模块，用于将各个所述损失函数沿着所述两级对抗域自适应模型进行反向传播，更新所述两级对抗域自适应模型的网络参数；更新后的所述两级对抗域自适应模型为迁移后的识别模型。

优选地，所述迁移模块之后还包括：

提取模块，用于对未标注工程数据集中的未标注数据进行间歇性提取；

判断模块，用于判断提取到的所述未标注数据的不确定性得分是否大于预设阈值，若是，则将所述未标注数据进行专家标注，得到标注数据；

添加模块，用于将标注数据添加至标注数据集中；所述标注数据集用于对所述识别模型进行训练。

优选地，所述初始化模块具体包括：

第一拷贝单元，用于将所述特征提取器的第一层卷积层的参数替换为所述基模型的参数；

冻结单元，用于冻结所述第一层卷积层的参数，以使所述第一层卷积层的参数不参与训练；

第二拷贝单元，用于将所述特征提取器的第二个残差块的参数替换为所述基模型的参数；所述第二个残差块的参数为激活状态并参与训练；

初始化单元，用于采用He Uniform方法对除所述第一层卷积层和所述第二个残差块之外的所述特征提取器的其他所有卷积层进行初始化。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种用于微震信号识别模型的迁移学习方法及系统，其中方法包括：对基模型中的特征提取器和与所述特征提取器连接的分类器分别进行初始化；在所述特征提取器和所述分类器的最下层分别配置第一鉴别器和第二鉴别器，得到两级对抗域自适应模型；分别将源域数据和目标域数据输入至所述两级对抗域自适应模型中进行训练，得到多个损失函数；将各个所述损失函数沿着所述两级对抗域自适应模型进行反向传播，更新所述两级对抗域自适应模型的网络参数；更新后的所述两级对抗域自适应模型为迁移后的识别模型。本发明将由卷积层组成的特征提取器和由全连接层组成的分类器分开分别进行自适应，从而能够高效的实现领域迁移。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的实施例中的迁移方法流程图；

图2为本发明提供的实施例中的基模型示意图；

图3为本发明提供的实施例中的TADA完整结构示意图；

图4为本发明提供的实施例中的辨别器结构图；

图5为本发明提供的实施例中的主动学习概念图；

图6为本发明提供的实施例中的EADA结构图；

图7为本发明提供的实施例中的CADA结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种用于微震信号识别模型的迁移学习方法及系统，能够高效的实现领域迁移。。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明提供的实施例中的迁移方法流程图，如图1所示，本实施例中的一种用于微震信号识别模型的迁移学习方法，包括：

步骤100：对基模型中的特征提取器和与所述特征提取器连接的分类器分别进行初始化；

步骤200：在所述特征提取器和所述分类器的最下层分别配置第一鉴别器和第二鉴别器，得到两级对抗域自适应模型；

步骤300：分别将源域数据和目标域数据输入至所述两级对抗域自适应模型中进行训练，得到多个损失函数；

步骤400：将各个所述损失函数沿着所述两级对抗域自适应模型进行反向传播，更新所述两级对抗域自适应模型的网络参数；更新后的所述两级对抗域自适应模型为迁移后的识别模型。

图2为本发明提供的实施例中的基模型示意图，如图2所示，基模型的构成包括依次连接的输入层、特征提取器、分类器和输出层。该模型用来在某一特定工程上完成微震信号识别的任务。值得一提，本发明所涉及的迁移学习框架，与具体选择何种基模型无关，只要基模型是基于卷积神经网络来进行微震信号识别均可以使用。

可选地，基本残差块由两个卷积层组成，瓶颈残差块由三个卷积层组成。本实施例中主要对前两层即第一个卷积层和第一个基本残差块用了特殊的初始化策略，剩余不管有几层，都做统一的初始化。

具体的，该基模型和其他以卷积为主的模型一样，包含两个部分，第一个部分是主要由卷积层组成的特征提取器，用来从原始输入数据中提取高阶特征，第二个部分为一个简单的单层全连接层，用来将提取的高阶特征映射到分类空间当中从而完成波形的分类。

采用He normal方法对所述自适应层进行初始化。

具体的，本发明提出了一种无监督的迁移学习策略，命名为两级对抗域自适应(TADA)框架，即本实施例中的两级对抗域自适应模型，如图3所示，图3中可以直接认为是一套网络，因为每一层的参数都是完全一样的，也就是说这一个网络，分别接收并处理源域和目标域的数据。就先处理一批源域数据，再处理一批目标域数据，把这两次处理的结果保存下来，然后生成损失，反向传播更新网络参数。

本实施例中，迁移框架的第一个操作步骤为初始化，基模型分为两部分，第一部分为特征提取器，第二部分为分类器。首先要对每一层进行不同的初始化。完整的迁移学习框架如图1所示。总体来说，通过拷贝基模型的部分参数，并对基模型进行一些修改来获得最终的迁移框架，该迁移框架在训练中分别接收来自源域和目标域的样本，并且所有处理源域和目标域的层都参数共享，这是因为信号数据差异不大，共享特征的数量多，即使是完全不同的两个信号，也会有很多用来判别的共享特征。

在具体应用过程中，首先进行特征提取器初始化：第一层卷积层直接拷贝基模型参数并冻结参数不参与训练。第二个残差块也直接拷贝基模型参数，但是不冻结参数，使其参与训练。特征提取器其他的所有卷积层都采用He Uniform初始化，这是因为我们希望通过随机初始化来使在源域上的训练不那么顺利，从而防止掉入源域的最优解。

其次对于分类器而言，除了拷贝全连接层参数外，在该层后面需要新加入一层全连接层作为自适应层，并用He normal方法进行初始化。该层是为了加强在分类器中的领域对齐。

可选地，本发明中一个最大的特点是将由卷积层组成的特征提取器和由全连接层组成的分类器分开分别进行自适应。所以可以从图3中看到，在特征提取器后面有一个鉴别器(判别器1)，在分类器后面有另一个鉴别器(判别器2)，这两个鉴别器负责分别给特征提取器和分类器提供梯度。由于要防止新网络会掉入源域数据的局部最优解，所以不能每一层都从原始模型拷贝过来，因此对于分类器来说，也只有第一个全连接层是从原始模型拷贝过来的。然后在该层后面又加了一个新的全连接层叫做适应层，该层是为了增强分类器的非线性能力，能让他更好的把源域数据投影到公共空间当中，该层由于是新加入的层，很自然的采用常见的He Normal进行初始化。

在所述特征提取器的输出端连接所述第一鉴别器；

进一步地，本实施例中迁移框架的第二个操作步骤为配置鉴别器，在进行初始化之后，需要在特征提取器后面和分类器中自适应层的后面分别配置一个神经网络作为鉴别器，来指导主干神经网络的训练。两个鉴别器的结构如图4所示。两鉴别器均为具有两个隐藏层的小神经网络，除了输入层的维度不同，其余层维度均相同。鉴别器的目的是为了区分输出数据是来自源域还是目标域，而主干神经网络的目的是为了迷惑鉴别器，使其无法分辨数据是来自哪个域，通过这样的方式鼓励主干网络对两个域抽取域不变特征。其中，鉴别器的损失函数为普通的二分类损失函数，具体的，二分类损失函数为

而主干网络所用损失函数为

其中，E为求期望，D为鉴别器，G为特征生成器或分类器，具体是哪个只需看该鉴别器的安装位置即可确认。X_s为源域数据，X_T为目标域数据。

如图3所示，除了在判别器1和2处分别反向传播一个梯度，在最终源域分类层后面同样也反向传播一个梯度，该梯度为在源域上训练的分类结果，采用普通的交叉熵损失函数。因此，主干网络的训练同时由三个损失函数所驱动，即判别器1提供的，判别器2提供的和在源域上的分类训练提供的。优化过程为

其中β和γ为正则系数(超参数)，用来放缩三种损失函数尺度。其中L_advG1为特征提取器后面的鉴别器(即图2中的鉴别器1)提供的损失，具体形式为式2，L_advG2为鉴别器2提供的损失，具体形式也为式2。L_clf为普通的二分类损失。由于源域数据是有标签的，所以在网络处理源域数据的时候会同时对源域数据进行信号分类的训练。

进一步地，在本实施例中，经过实验得知β和γ分别为1.8，1.6时能获得较好的效果。

对未标注工程数据集中的未标注数据进行间歇性提取；

可选地，上述无监督领域自适应保证了在不需要任何目标工程上的标注数据的前提下即可完成模型的跨工程部署。在部署到新工程后，随着工程的推进，急需进一步的通过间歇式的获得一小部分标记数据继续对模型进行微调，进而进一步提升模型的性能。因此，本发明在该框架中集成并实现了一个主动学习机制，用来在迁移学习之后，以尽可能小的样本标注成本再进一步对模型进行提升。

具体的，主动学习是一种机器学习概念，在这种概念中，学习算法可以和人类工程师交互式地选择真正有必要标注的数据进行标记。主动学习的动机是我们有大量未标记的数据，考虑训练一个模型来区分微震事件的问题，每天都有很多信号被监测并存储在数据池中，但是训练一个好的模型可能并不需要标注所有的信号。一些信号可能比其他信号提供更多的信息。如图5所示，该算法基于某个值度量反复选择信息最丰富的示例，并将那些未标记的示例发送给值班操作员，值班操作员将那些被查询的示例的真实标签返回给该算法。很明显，度量函数决定了哪些数据点是最有信息的数据点。

在该任务中，只有两个候选类别(微震信号或噪声信号)，因此度量函数被定义为1减去两个类别的预测概率之差。在实际实现中，我们预先设置一个阈值，一旦不确定性得分大于给定的阈值，相应的例子将由专家标注，并添加到下一轮学习的训练集中。在该研究中，实验设定阈值为0.75。在选择样本后，模型按照x^*＝argmax_x(1-(P_θ(y₁|x)-P_θ(y₂|x)))进行训练。其中argmax为取极大值点的操作，P为神经网络输出的预测概率。

进一步地，通过迭代地增加标记的训练集的大小，可以获得与完全监督训练下相近的性能，而标注成本和时间成本却大大减少。通过这种方式与本发明提出的两级无监督领域自适应方法进行结合，可以在施工开始时迅速部署模型，并在施工过程中进行微调，而无需构建任何大规模数据集。

本实施例在应用过程中，能够高效的实现领域迁移，并且极大的节省训练一个微震信号识别模型所需的标注成本。首先，本实施例公开的基模型在一个名为HW的工程训练集上进行了训练，取得了97％的准确度，但是该训练好的模型在直接用于其他工程数据集的时候却不能取得良好的效果，如表1所示，表1显示出初始模型在不同数据集上的表现。其中SJK，JP-2，JP-1均为不同工程的数据集。由于这几个新的工程和源工程数据的相似程度不同，所以在源数据集上训练好的模型会在新工程上有不同的表现。当相似程度高的时候，该模型易取得较好的效果，如JP-1；当两工程相似程度低的时候，该模型的表现将会非常的差(如SJK)。

表1

表2给出了所有实验精度，表2显示出不同迁移方法表现对比。这些方法具有相同的训练配置，例如学习率、优化器、批大小和鉴别器的结构。值得注意的是，我们的目标不是最大化绝对性能，而是在一个标准环境中研究迁移策略，因此并没有非常精细的调整超参数。学习率设置为1e-5，均采用Adam优化算法。

表2

表2中除了后三行以外，每一项都为目前在计算机视觉中常用的迁移学习方法，从该实验可以看到他们在用于信号识别问题上并不能取得在图像处理中显著的效果。此外，EADA和CADA为TADA的两种变体，如图6和图7所示，分别对应只是用一个判别器的情况，这两种情况没有TADA复杂，但是训练起来更为简洁。由表2可以看出，EADA对所有任务都相当有效，它总能达到第二高的精度。它在JP-1和JP-2上提供了与TADA基本相同的结果。CADA只在分类器后面提供域对齐损失。显然，CADA比EADA表现差，这说明分类器的自适应不能传播足够的梯度来更新随机初始化的提取器层。因此，应该优先对特征提取器进行域对齐，即应优先执行EADA。

根据以上分析，本实施例获得了一个用于执行具有不同难度的任务的无监督迁移学习策略。也就是说，TADA可以分部分，分情况进行。如果这两个项目在地质条件和监测配置方面相似，则域差异将比较小。在这种情况下，只需要对提取器进行适当的初始化，并在新的空间中重新训练源分类器，即进行EADA。当两个项目不太相似时，应执行整个TADA，同时对提取器和分类器进行域对齐以获得次优决策边界。

在无监督适应之后，随着工程的推进不断的获取数据进行训练会使得模型的精度进一步提高。随着获取的数据越来越多，通过主动学习策略，微地震专家可以从记录的数据中选择一小部分数据进行标注，用于再次校准已经完成迁移的模型。我们模拟施工早期阶段一个常见的应用场景，并评估使用主动学习技术可以减少多少样本标注成本。我们从各个工程数据库前两个月的监控数据中随机选择了500–1000个实例，分别用于SJK和JP-2(对于JP-1，仅无监督领域自适应取得的效果就足够了，可以通过一些任意标记的实例进行微调)。实验结果见表3，表3为利用主动学习进一步训练的结果。相比于随机抽样，主动学习算法选择那些“信息量最大”的实例，并随后询问人类专家其真实标签是什么。从结果中我们可以发现，对这两个工程，主动学习策略都显著减小了能达到同一准确度的标注成本。有一点区别是初始准确度越高，对于标注成本的降低越显著。这表明先进行无监督从而提升基础准确度是非常有必要的。这种现象的原因可能是对于更困难的任务，模型需要学习一些更加通用的基本表示，因此需要更多的样本。总之，从提出的两种算法和技术来看，一个广义的微震事件识别模型只需要几十个或几百个有标签的例子就可以有效地完成迁移，所提出的方法成功地解决了微震监测中模型的可移植性和可重用性的问题。

表3

本实施例还提供了一种用于微震信号识别模型的迁移学习系统，应用于上述迁移学习方法，所述系统包括：

优选地，所述迁移模块之后还包括：

优选地，所述初始化模块具体包括：

本发明的有益效果如下：

(1)本发明通过迭代地增加标记的训练集的大小，可以获得与完全监督训练下相近的性能，而标注成本和时间成本却大大减少。通过这种方式与本发明提出的两级无监督领域自适应方法进行结合，可以在施工开始时迅速部署模型，并在施工过程中进行微调，而无需构建任何大规模数据集。

(2)本发明通过由卷积层组成的特征提取器和由全连接层组成的分类器分开分别进行自适应，降低了模型迁移的困难程度，从而能够高效的实现领域迁移。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种用于微震信号识别模型的迁移学习方法，其特征在于，包括：

2.根据权利要求1所述的迁移学习方法，其特征在于，所述根据所述第一对抗损失、所述第二对抗损失和所述交叉熵损失在所述两级对抗域自适应模型进行反向传播，更新所述两级对抗域自适应模型的网络参数之后，还包括：

对未标注工程数据集中的未标注数据进行间歇性提取；

3.根据权利要求1所述的迁移学习方法，其特征在于，所述基模型基于卷积神经网络构建的，所述基模型用于进行微震信号的识别。

4.根据权利要求1所述的迁移学习方法，其特征在于，所述对基模型中的特征提取器和与所述特征提取器连接的分类器分别进行初始化，包括：

5.根据权利要求1所述的迁移学习方法，其特征在于，所述对基模型中的特征提取器和与所述特征提取器连接的分类器分别进行初始化，包括：

采用He normal方法对所述自适应层进行初始化。

6.根据权利要求5所述的迁移学习方法，其特征在于，所述在所述特征提取器和所述分类器的最下层分别配置第一鉴别器和第二鉴别器，得到两级对抗域自适应模型，包括：

在所述特征提取器的输出端连接所述第一鉴别器；

7.根据权利要求1所述的迁移学习方法，其特征在于，所述分别将源域数据和目标域数据输入至所述两级对抗域自适应模型中进行训练，得到多个损失函数，包括：

8.一种用于微震信号识别模型的迁移学习系统，其特征在于，包括：

9.根据权利要求8所述的迁移学习系统，其特征在于，所述迁移模块之后还包括：

10.根据权利要求8所述的迁移学习系统，其特征在于，所述初始化模块具体包括：