CN114676778A

CN114676778A - 用于盾构装备数据协同互馈的异常数据检测方法及装置

Info

Publication number: CN114676778A
Application number: CN202210311536.XA
Authority: CN
Inventors: 宁焕生; 高大智; 毛凌锋; 王洪泊; 李荣洋
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-06-28

Abstract

本发明公开了一种用于盾构装备数据协同互馈的异常数据检测方法及装置，所述方法包括：收集盾构装备的历史正常数据、历史异常数据与运行段的地质数据，并根据文本时间序列数据、数值时间序列数据、地质数据的类型分别进行预处理；将历史正常数据与对应的地质数据相匹配，并分割为训练集和验证集；将训练集输入基于LSTM和VAE的模型中进行训练；对训练后的模型进行测试，准确率达标后放入数据收集终端中；后续接收的数据输入模型进行测试，记录异常数据的位置与数值；之后将异常数据删除，进行数据补全后返回数据库中，对模型进行迭代更新训练。本发明能够解决多维数据的异常检测问题，对于不同种类的数据具有较高的鲁棒性。

Description

用于盾构装备数据协同互馈的异常数据检测方法及装置

技术领域

本发明涉及盾构装备数据协同互馈技术领域，特别涉及一种用于盾构装备数据协同互馈的异常数据检测方法及装置。

背景技术

在盾构场景下，各个装备之间并不是孤立存在，而是需要各个装备之间相互协同，互相反馈才可以平稳的运行。在此过程中需要数据采集终端设备将数据采集完毕后，交由服务器整合存储，每个装备的数据都经历了数据采集和数据存储的过程。但服务器中的数据来自于地理位置互不相同、组织结构互相独立且功能应用多样的各种装备，因此这些数据在使用目的和最终结果相互之间具有差异，由此而产生的装备数据具有多源性、异构性和分布性的特点。同时，由于装备运行环境较为复杂，各个装备的耐久度、准确度和操作技术难度不尽相同，以及通信质量等问题很容易造成某些装备或某个装备群组出现异常情况，这些异常情况包括设备异常、操作异常和通信异常等，这些异常情况往往可以在装备运行数据的变化中得到展现，即为异常数据。

如果任由异常数据进入数据库，不仅会导致服务端产生错误的判断，也会在后期分析时遇到各种各样的问题，且在海量数据中寻找少量的错误数据会消耗大量的成本。如果可以在数据输入时对异常进行检测，将异常数据标出并做出相应的处理，就可以提高数据使用、存储效率，减少人工损耗。

目前，在盾构领域下没有相近技术。但在机械群组的其他领域有一些相关研究。在风力发电机领域[徐鹤,曹彬,岳文彦.风力发电机组异常数据检测研究[J].中国设备工程,2021(16):163-166]使用基于统计学的方法，如组内最优方差法，即通过滑动窗口来计算方差值，并由此计算阈值来划分异常点和非异常点；四分位法，即通过箱型图寻找远离正常数值的分位数。还有基于机器学习的方法，如聚类法，即通过聚类算法提取特征，实现分类。还有基于机器学习的方法，如门控循环单元和深度神经网络。门控循环单元是一种类似于LSTM(长短期记忆网络)的循环深度学习网络，可以学习长距离的序列特征。深度神经网络即多个隐藏层的神经网络，中间多个隐藏层用来提取特征，最后进行输出分类。在数控机床领域[胡炜,陈传海,郭劲言,刘志峰,申桂香,于春明.考虑工况变化的数控刀架运行状态异常检测方法[J].吉林大学学报(工学版),2022,52(02):329-337]，使用了广义神经网络，在传统神经网络的基础上加入了加和层，如图1所示。除了使用上述的统计学方法和聚类方法以外，在导弹装备信息化领域[冯尚聪,杨保华,黄冬.导弹装备测试数据异常域检测方法研究[J/OL].计算机测量与控制:1-9；2022-03-09]，提出了采用隔离树的方法进行检测，即初始化出多个孤立树，计算每个样本在孤立树中的高度的均值，人为设定出高度的限定值，认为高于此限定值即为异常点。在机械设备领域中[张聪,朱永生,杨敏燕,任智军,闫柯,洪军.采用多变量耦合网络与变分图自编码器的机械设备异常检测方法[J].西安交通大学学报,2021,55(04):20-28]，提出了变分图自编码模型，如图2所示，即在VAE(变分自编码器)的输入和输出中加入图卷积网络。

上述方法分别在各自领域有各自的优点，但在盾构装备群组领域中却存在一定的问题。首先，基于统计学和机器学习的方法无法适应于大样本，且对于不同的输入在识别效果上差距可能较大，无法适用于所有的装备中。基于BP(误差逆向传播)神经网络的方法拟合速度可能较慢，且可能存在局部最小化、过拟合等问题。基于图卷积网络的算法在实际应用中对于超参数较为敏感，同时对于地质数据的融合能力较弱。其次，在装备群组中各个装备因装备不同因此会产生不同的输出数据，这些数据可能是时间序列、文本等数据样式，而上述方法并没有涉及到协同互馈中。再次，盾构设备在运行时运行数据的变化产生的原因与以上领域中的并不同，除了时间因素以外也会有地质因素的影响，因此在讨论数据健康性时不可忽略地质因素而带来的影响。

因此，通过统计学的方法检验异常数据大多只局限于单维数据，且不适用于大型数据集中。通过机器学习的方法检验异常数据对于输入数据的形式和密度分布较为敏感，对于大规模异常和多维异常检测效果不好。又因为传统方案中对于异常数据的判断大多只基于时间变化，而忽略了盾构运行过程中地质变化的问题，会导致在检测时因地质急剧变化而导致的数据大幅度变化丧失判断力。同时，在常规的模型中对于数据的输入大多局限于一种数据，并没有对多种类数据输入的普适性研究。

发明内容

本发明的目的在于提供一种用于盾构装备数据协同互馈的异常数据检测方法及装置，以解决盾构装备数据协同互馈中因数据种类不同而导致的异常数据难以检测的技术问题。

为解决上述技术问题，本发明的实施例提供如下方案：

一方面，提供了一种用于盾构装备数据协同互馈的异常数据检测方法，包括以下步骤：

S1、收集每一种盾构装备的历史正常数据、历史异常数据与运行段的地质数据，并根据数据类型分别进行预处理；其中，历史正常数据和历史异常数据均包括文本时间序列数据和数值时间序列数据；

S2、将历史正常数据与对应的地质数据相匹配，并按照预设比例分割为训练集和验证集；

S3、将训练集输入基于LSTM和VAE的模型中进行训练，得到训练后的模型；

S4、将历史异常数据与其前后预定时间段的历史正常数据一起输入模型中进行测试，若经过模型输出的数据与原始数据之间的差值超过阈值，则认定为异常数据；

S5、模型准确率达到预设标准后，将模型放入数据收集终端中；

S6、对于后续接收的数据，输入模型进行测试，记录异常数据的位置与数值，输出至前端；

S7、记录异常数据的位置与数值后，将异常数据删除，并采用平均值法进行数据补全，将补全后的健康数据与对应的地质数据返回数据库中，对模型进行迭代更新训练。

优选地，步骤S1中，对文本时间序列数据进行预处理的步骤包括：

采用正则表达式方法去除文本时间序列数据中的停用词；

将未采集到数据的时间列填充为0；

提取文本时间序列数据中所有字，采用One-hot编码的方式进行编码，即使用N个行列长度为1×N的一维矩阵将字进行矩阵化，其中N为字的种类数；每个字的矩阵中只有一列为1，其他列均为0，且不同字为1的位置不重复；

使用BERT模型生成相应的词向量。

优选地，步骤S1中，对数值时间序列数据进行预处理的步骤包括：

提取设备运行状态，若非运行状态则直接将数据输入，否则删除反应运行状态的向量后对缺失值q_i使用平均值法补全，公式如下：

对数值时间序列数据采用如下公式进行归一化处理：

其中X′为归一化结果，X为原始时间序列，X_max和X_min分别为原始时间序列的最大值和最小值；

采用滑动窗口法扩增数据集，即设定窗口大小，每次提取固定长度的数据集作为训练样本，设原始时间序列为X＝{x₀，x₁…x_n}，n为时间序列长度，窗口大小为Window_Size，使用滑动窗口法后扩增为：

X_k＝{[x₀，x₁…x_{Window_Size}]，[x₁，x₂…x_{Window_Size+1}]…[x_{n-Window_Size}，x_{n-Window_Size+1}…x_n]}。

优选地，步骤S1中，对地质数据进行预处理的步骤包括：

对缺失数据采用与数值时间序列数据相同的方法进行补全；

与输入的文本时间序列数据或数值时间序列数据进行匹配。

优选地，步骤S2中，将历史正常数据与对应的地质数据相匹配后，按照8：2的比例分割为训练集和验证集。

优选地，步骤S3中，所述模型的输入层接收两项输入，一方面接收作为主数据的文本时间序列数据或数值时间序列数据进入LSTM层提取特征，一方面接收作为辅数据的地质数据，并与提取特征后的文本时间序列数据或数值时间序列数据进行合并，合并后再经过一层LSTM层将主数据与辅数据特征融合，之后经过全连接层铺平，进入编码器中。

优选地，所述模型中的编码器和解码器采用VAE模型的处理方式，根据输入数据X＝{x₁，x₂，……x_n}拟合输入分布构建隐变量z，并从隐变量z生成目标数据X′＝{x′₁，x′₂，……x′_n}，使得X′尽可能接近X；

μ_k＝μ(x_k)

logσ²＝σ(x_k)

其中，μ()与σ()为两个全连接层；

由此，可知此样本的专属分布，然后从此专属分布中采样出z；为防止模型反向传播无法回传至编码器，采用重参数化的方法，即从高斯分布中采样得到z_k改为从标准正态分布中采样得到ε，之后使用z_k＝μ+ε×σ公式得到z_k，这使得采样结果可以参与梯度下降；最后，解码器对此进行重构，即：x′_k＝d(z_k)，其中d()为解码器，X的数据维度为主数据的数据维度。

优选地，使用q(z|x)去近似P(z|x)，由此引入额外的损失函数去衡量两者之间的近似度，这里采用KL散度进行计算，即：

其中，σ²为方差，μ为均值；

同时加入交叉熵损失：

l_n＝-w_k[x′_klog x_k+(1-x′_k)log(1-x_k)]

其中N为样本个数，w_k为超参数；

两者之和为最终的损失函数，即：

loss＝loss_kl+loss_BCE。

优选地，LSTM层采用tanh激活函数

其中x为输入层的值；输出全连接层采用Sigmoid激活函数

其中x为输入层的值；μ()与σ()层不设置激活函数，其余层均采用Relu激活函数g(x)＝max(0，x)，其中x为输入层的值；模型中的优化器采用Adam优化器，公式如下：

其中，α为步长，

为指数衰弱速率，θ_t，θ_t-1为参数向量，m_t，v_t为一阶和二阶矩向量，t为时间步，

为epsilon，取极小值，目的是避免除数为0。

一方面，提供了一种用于盾构装备数据协同互馈的异常数据检测装置，包括：

数据预处理模块，用于收集每一种盾构装备的历史正常数据、历史异常数据与运行段的地质数据，并根据数据类型分别进行预处理；其中，历史正常数据和历史异常数据均包括文本时间序列数据和数值时间序列数据；以及将历史正常数据与对应的地质数据相匹配，并按照预设比例分割为训练集和验证集；

模型训练模块，用于将训练集输入基于LSTM和VAE的模型中进行训练，得到训练后的模型；

测试模块，用于将历史异常数据与其前后预定时间段的历史正常数据一起输入模型中进行测试，若经过模型输出的数据与原始数据之间的差值超过阈值，则认定为异常数据；以及当模型准确率达到预设标准后，将模型放入数据收集终端中；

异常数据检测模块，用于对于后续接收的数据，输入模型进行测试，记录异常数据的位置与数值，输出至前端；以及记录异常数据的位置与数值后，将异常数据删除，并采用平均值法进行数据补全，将补全后的健康数据与对应的地质数据返回数据库中，对模型进行迭代更新训练。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例中，针对盾构装备数据的多源性、异构性单独设计了输入层，可以适应于不同的装备输出；同时，将影响因素较高的地质数据作为辅输入融入模型中，能够更好的适应于真实的任务过程，提高了模型的准确率。此外，该模型使用多维数据作为输入，相比于单维输入来说，多维数据可以更加准确的反应异常情况，因此训练后的模型可以处理多维数据综合异常的情况，同时模型在检测时可以快速完成数据的异常检测，且对于不同种类的数据有较高的鲁棒性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有数控机床领域广义神经网络的结构示意图；

图2是现有机械设备领域变分图自编码模型示意图；

图3是本发明实施例提供的一种用于盾构装备数据协同互馈的异常数据检测方法的流程图；

图4是本发明实施例提供的一种用于盾构装备数据协同互馈的异常数据检测方法的原理示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例提供了一种用于盾构装备数据协同互馈的异常数据检测方法，如图3所示，所述方法包括以下步骤：

S1、收集每一种盾构装备的历史正常数据、历史异常数据与运行段的地质数据，并根据数据类型分别进行预处理；其中，历史正常数据和历史异常数据均包括文本时间序列数据和数值时间序列数据。

本发明实施例中，输入网络模型的数据分为从主输入中输入的主数据和从辅输入中输入的辅数据两种。其中主数据为文本时间序列数据或数值时间序列数据，这是装备群组运行中产生的数据。辅数据为地质数据，属于先验知识，在设备运行前即可获知。针对不同的数据，处理方式只在数据预处理过程中有所区别。

其中，对文本时间序列数据进行预处理的步骤包括：

(1)采用正则表达式方法去除文本时间序列数据中的停用词，例如“”，“，”等；

(2)将未采集到数据的时间列填充为0；

(3)提取文本时间序列数据中所有字，采用One-hot编码的方式进行编码，即使用N个行列长度为1×N的一维矩阵将字进行矩阵化，其中N为字的种类数；每个字的矩阵中只有一列为1，其他列均为0，且不同字为1的位置不重复；

(4)使用BERT模型生成相应的词向量。

对数值时间序列数据进行预处理的步骤包括：

(1)提取设备运行状态，若非运行状态则直接将数据输入，否则删除反应运行状态的向量后对缺失值q_i使用平均值法补全，公式如下：

(2)对数值时间序列数据采用如下公式进行归一化处理：

(3)采用滑动窗口法扩增数据集，即设定窗口大小，每次提取固定长度的数据集作为训练样本，设原始时间序列为X＝{x₀，x₁…x_n}，n为时间序列长度，窗口大小为Window_Size，使用滑动窗口法后扩增为：

对地质数据进行预处理的步骤包括：

(1)对缺失数据采用与数值时间序列数据相同的方法进行补全；

(2)与输入的文本时间序列数据或数值时间序列数据进行匹配，例如，按照环号相匹配。

S2、将历史正常数据与对应的地质数据相匹配，并按照预设比例分割为训练集和验证集。

作为本发明的一种优选实施方式，将历史正常数据与对应的地质数据相匹配后，按照8∶2的比例分割为训练集和验证集。

S3、将训练集输入基于LSTM和VAE的模型中进行训练，得到训练后的模型。

如图4所示，所述模型的输入层接收两项输入，一方面接收作为主数据的文本时间序列数据或数值时间序列数据进入LSTM层提取特征，LSTM可以很好的处理序列类数据，且可以实现长距离记忆和缓解梯度爆炸、梯度消失的问题；一方面接收作为辅数据的地质数据，并与提取特征后的文本时间序列数据或数值时间序列数据进行合并，合并后再经过一层LSTM层将主数据与辅数据特征融合，之后经过全连接层铺平，进入编码器中。

所述模型中的编码器和解码器采用VAE模型的处理方式，VAE模型的目的是尽可能根据输入数据X＝{x₁，x₂，……x_n}拟合输入分布构建隐变量z，并从隐变量z生成目标数据X′＝{x′₁，x′₂，……x′_n}，使得X′尽可能接近X。但在此模型中，目标数据X′的拟合数据并不是编码器的输入，而是输入层中的主输入。

μ_k＝μ(x_k)

logσ²＝σ(x_k)

其中，μ()与σ()为两个全连接层。

在上文中，提到使用q(z|x)去近似P(z|x)，由此引入额外的损失函数去衡量两者之间的近似度，这里采用KL散度进行计算，即：

其中，σ²为方差，μ为均值。

同时加入交叉熵损失：

l_n＝-w_k[x′_klog x_k+(1-x′_k)log(1-x_k)]

其中N为样本个数，w_k为超参数。

两者之和为最终的损失函数，即：

loss＝loss_kl+loss_BCE。

本发明实施例中，LSTM层采用tanh激活函数

其中x为输入层的值；输出全连接层采用Sigmoid激活函数

其中，α为步长，

为epsilon，取极小值，目的是避免除数为0。

S4、将历史异常数据与其前后预定时间段的历史正常数据一起输入模型中进行测试，若经过模型输出的数据与原始数据之间的差值超过阈值，则认定为异常数据。

S5、模型准确率达到预设标准后，将模型放入数据收集终端中。

S6、对于后续接收的数据，输入模型进行测试，记录异常数据的位置与数值，输出至前端。

本发明针对盾构装备数据的多源性、异构性单独设计了输入层，可以适应于不同的装备输出；同时，将影响因素较高的地质数据作为辅输入融入模型中，能够更好的适应于真实的任务过程，提高了模型的准确率。此外，该模型使用多维数据作为输入，相比于单维输入来说，多维数据可以更加准确的反应异常情况，因此训练后的模型可以处理多维数据综合异常的情况，同时模型在检测时可以快速完成数据的异常检测，且对于不同种类的数据有较高的鲁棒性。

相应地，本发明的实施例还提供了一种用于盾构装备数据协同互馈的异常数据检测装置，所述装置包括：

本实施例的装置，可以用于执行图3所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于盾构装备数据协同互馈的异常数据检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的异常数据检测方法，其特征在于，步骤S1中，对文本时间序列数据进行预处理的步骤包括：

采用正则表达式方法去除文本时间序列数据中的停用词；

将未采集到数据的时间列填充为0；

使用BERT模型生成相应的词向量。

3.根据权利要求1所述的异常数据检测方法，其特征在于，步骤S1中，对数值时间序列数据进行预处理的步骤包括：

对数值时间序列数据采用如下公式进行归一化处理：

4.根据权利要求1所述的异常数据检测方法，其特征在于，步骤S1中，对地质数据进行预处理的步骤包括：

对缺失数据采用与数值时间序列数据相同的方法进行补全；

与输入的文本时间序列数据或数值时间序列数据进行匹配。

5.根据权利要求1所述的异常数据检测方法，其特征在于，步骤S2中，将历史正常数据与对应的地质数据相匹配后，按照8∶2的比例分割为训练集和验证集。

6.根据权利要求1所述的异常数据检测方法，其特征在于，步骤S3中，所述模型的输入层接收两项输入，一方面接收作为主数据的文本时间序列数据或数值时间序列数据进入LSTM层提取特征，一方面接收作为辅数据的地质数据，并与提取特征后的文本时间序列数据或数值时间序列数据进行合并，合并后再经过一层LSTM层将主数据与辅数据特征融合，之后经过全连接层铺平，进入编码器中。

7.根据权利要求6所述的异常数据检测方法，其特征在于，所述模型中的编码器和解码器采用VAE模型的处理方式，根据输入数据X＝{x₁，x₂，……x_n}拟合输入分布构建隐变量z，并从隐变量z生成目标数据X′＝{x′₁，x′₂，……x′_n}，使得X′尽可能接近X；

μ_k＝μ(x_k)

logσ²＝σ(x_k)

其中，μ( )与σ( )为两个全连接层；

由此，可知此样本的专属分布，然后从此专属分布中采样出z；为防止模型反向传播无法回传至编码器，采用重参数化的方法，即从高斯分布中采样得到z_k改为从标准正态分布中采样得到ε，之后使用z_k＝μ+ε×σ公式得到z_k，这使得采样结果可以参与梯度下降；最后，解码器对此进行重构，即：x′_k＝d(z_k)，其中d( )为解码器，X的数据维度为主数据的数据维度。

8.根据权利要求7所述的异常数据检测方法，其特征在于，使用q(z|x)去近似P(z|x)，由此引入额外的损失函数去衡量两者之间的近似度，这里采用KL散度进行计算，即：