CN114266201B

CN114266201B - 一种基于深度学习的自注意力电梯困人预测方法

Info

Publication number: CN114266201B
Application number: CN202210192632.7A
Authority: CN
Inventors: 王黎斌; 汪宏; 李伟忠; 邓丽芬; 许卫全; 张宇; 周东; 王启洲; 王陆嘉; 朱俊超; 周原冰; 吴斌; 马舜
Original assignee: Hangzhou Special Equipment Testing And Research Institute Hangzhou Special Equipment Emergency Response Center
Current assignee: Hangzhou Special Equipment Testing And Research Institute Hangzhou Special Equipment Emergency Response Center
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-07-22
Anticipated expiration: 2042-03-01
Also published as: CN114266201A

Abstract

本发明公开了一种基于深度学习的自注意力电梯困人预测方法，其中深度学习模型接受电梯静态信息和历史动态信息，对输入特征做归一化处理，将处理后的特征传入长短期记忆网络，获得时序抽象特征；将时序抽象特征序列放入自注意力机制层，计算不同时间点的特征对于当前时间点特征的相似性，并加权求和，得到综合全时段信息的当前时间点特征；将综合后的当前时间点特征传入二层全连接层，将特征转换为二元的困人/不困人概率预测；本发明可以在不使用电梯组件具体运行数据的前提下，仅使用电梯的静态数据与历史动态数据，预测电梯在下一个时间点的困人概率，解决电梯在当前物联网设备安装不足的情况下直接有效数据不足的问题。

Description

一种基于深度学习的自注意力电梯困人预测方法

技术领域

本发明涉及深度学习领域，特别是涉及一种基于深度学习的自注意力电梯困人预测方法。

背景技术

电梯困人时间序列预测，是指根据现有的电梯静态信息与动态信息，预测电梯在下一个时间点的困人概率，是一种典型的复杂设备故障预测。预测电梯困人概率，提前检修高风险电梯，能够有效降低电梯困人事件的发生，保障人民群众的生命财产安全，提高经济生活的运行效率。

现有的故障预测方法大多面向组件级的退化过程，这类退化过程表现为规则性很强的变化形态，并且能够被单一模型很好地建模和预测。然而，对于复杂装备，由于其系统组成及故障机理的复杂性，不同组件之间存在较强的耦合性，难以分别对其单独建模进行故障预测，已有的单一模型很难得到理想的预测效果。为此，部分学者提出组合的故障预测方法，针对现有的变电设备故障率预测模型，往往会出现不同时期的预测数值不尽统一的现象，研究了基于累积失效规律结合灰色线性回归模型的故障率组合预测方法，得到了较单一模型更好的预测效果。然而，组合方法的构建过程复杂、人工依赖性强，且不利于在实际中推广和应用。

实践证明，多数系统的失效率符合浴盆曲线规律，在系统投入使用的早期磨合过程中，其故障可通过试运转或系统联调等方式解决。经过磨合期后系统进入平稳运行阶段，该阶段的故障诱因多为非规程的不当操作，因此在平稳运行阶段具有失效率低、运行稳定等特点。随着运行年限的增长，其组件表现出明显的退化状态，系统进入损耗失效期，该时期故障多为渐变故障。复杂装备兼具电气和机械双重特性，并且长期处于复杂多变的工作环境，零部件容易磨损和老化，其性能退化至完全失效往往要经历较长时间，因此渐变故障所占的比重更大。

随着系统安全性与可靠性要求的进一步提高，人们更希望根据装备实时状态监测信息，对其渐变故障的演变过程进行分析，从而预测装备未来的运行状况。因此，一种基于深度学习的自注意力电梯困人时间序列预测模型是迫切需要的。

发明内容

本发明的目的是解决现有技术的不足，提供一种基于深度学习的自注意力电梯困人预测方法。

为了解决上述问题，本发明采用如下技术方案：

一种基于深度学习的自注意力电梯困人预测方法，包括如下步骤：

步骤1：根据电梯相关的静态信息及动态信息，结合困人记录以及故障记录，作为模型训练过程的输入，传入深度学习模型；

步骤2：将输入信息分类连接，并对同一类型的输入信息完成归一化处理；

步骤 3：根据时间序列拼接静态信息和动态信息；将拼接后的特征信息传入长短期记忆网络，获得时序抽象特征；

步骤4：将获取的时序抽象特征传入自注意力机制层，计算不同时间点的特征对于当前时间点特征的相似性，并加权求和，得到综合全时段信息的当前时间点特征；

步骤5：将综合时序特征传入两层全连接层，并将特征转换为困人预测概率；

步骤6：判断模型是否已完成训练；若模型未完成训练，则进入步骤7；否则，进入步骤8；

步骤7：模型未完成训练，则将模型预测困人概率与真实困人情况传入交叉熵损失函数，计算预测损失，并通过反向传播更新神经网络参数，完成模型训练，返回步骤1；

步骤8：模型已完成训练，则根据多个模型输出的困人预测概率，获得公认困人概率作为最终预测结果。

进一步的，所述步骤2中的归一化处理按照如下算式进行：

其中，

表示经过归一化处理后获得的数据；

表示归一化处理前的数据；

表示在输入信息中该类型数据中的最小值；

在输入信息中该类型数据的最大值。

进一步的，所述步骤3获得时序抽象特征的过程如下所示：

其中，

表示输出门中输出的权重；

表示当前LSTM单元的输出；

表示神经网络中的长期记忆；tanh表示tanh激活函数；

通过下式获得：

其中，

代表上一个LSTM单元的输出；

代表在当前时间点的当前单元输入；

表示输出门的权重矩阵；

表示输出门的偏置。

进一步的，所述神经网络中的长期记忆

的获取方法如下式所示：

其中，

表示遗忘门的遗忘权重；

表示上一时刻的长期记忆；

表示输入门的输入权重；

表示候选特征；

输入权重

和候选特征

的获取方式如下：

其中，

表示输入门的权重矩阵；

表示输入门的偏置；

表示Sigmoid激活函数，为设定值，取值范围为0到1之间；

表示输入门第二部分权重矩阵；

表示输入门第二部分偏置；

表示遗忘门的遗忘权重的获取方式如下：

其中，

表示遗忘门的权重矩阵，

表示遗忘门的偏置。

进一步的，其中，

表示遗忘门的权重矩阵，

表示遗忘门的偏置。

其中，

为步骤3中输出的特征；

为特征转换矩阵；

为特征转换偏置；

为转换后特征；

为语义向量；

为转换函数；

为自注意力权重；

表示综合时序特征。

进一步的，所述步骤5中，通过综合时序特征

获得困人概率的过程如下式所示：

其中，

表示第一层全连接层的权重矩阵；

表示第一层全连接层的偏置；

表示第一层全连接层的输出；

表示第二层全连接层的权重矩阵；

表示第二层全连接层的偏置；

表示预测获得的困人概率。

进一步的，所述步骤7中，交叉熵损失函数如下所示：

其中，

表示电梯困人的实际概率；

表示预测的困人概率；

表示获取的交叉损失函数。

进一步的，所述电梯困人的实际概率通过统计采集的数据中困人次数占据总次数的比例获得。

进一步的，所述步骤8中，多个模型表示经过步骤1-7获得的结构一致，使用训练数据相同，采用同一数据序列，但其权重参数不同，训练获得的模型。

进一步的，所述公认困人概率的获取方法包括取多个模型输出的困人预测概率的平均值和最小值。

本发明的有益效果为：

通过将原始数据输入到深度学习模型后，先经过LSTM网络和自注意力机制，能够有效从时间序列中提取出时序特征，并通过全连接层预测出电梯在下一个时间点的困人概率，在不使用电梯组件具体运行数据的前提下，仅使用电梯的静态数据与历史动态数据，抽取电梯的时序特征，预测电梯在下一个时间点的困人概率，有效地解决了电梯在当前物联网设备安装不足的情况下直接有效数据不足的问题。

附图说明

图1为本发明实施例一的方法流程图；

图2为本发明实施例一的LSTM网络的结构图；

图 3为本发明实施例一的预测精确率随偏差阈值变化的波形图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

实施例一：

如图1所示，一种基于深度学习的自注意力电梯困人预测方法，包括如下步骤：

步骤1：根据电梯相关的静态信息及动态信息，结合困人记录以及故障记录，作为模型训练过程的输入，传入深度学习模型；其中静态信息包括电梯所在位置、场所类型、场所名称等，动态信息包括气压、湿度、气温等；

步骤2：将输入信息分类，并对同一类型的输入信息完成归一化处理；

步骤 3：根据时间序列拼接静态信息和动态信息；将拼接后的特征信息传入长短期记忆网络（long short-term memory，LSTM），获得时序抽象特征；

步骤4：将获取的时序抽象特征传入自注意力机制层，计算不同时间点的特征对于当前时间点特征的相似性，并加权求和，得到综合全时段信息的当前时间点特征，表示为综合时序特征

；

步骤8：模型已完成训练，则根据多个模型输出的困人预测概率，获得公认困人概率作为最终预测结果；其中公认困人概率的获取方法包括取平均值和取最小值等。

所述步骤2中的归一化处理按照如下算式进行：

其中，

表示经过归一化处理后获得的数据；

表示归一化处理前的数据；

表示在输入信息中该类型数据中的最小值；

在输入信息中该类型数据的最大值。经过归一化处理，能够使不同类型的数据处于相同的数值量级，减少方差较大的特征数据的影响，使训练获得的模型更加准确，并且能够加快学习算法的收敛速度，提高模型的训练效率。

如图2所示，在步骤3中静态信息归一化处理后的形状为[batch_size, seq_len,static_feature_size]，其中batch_size为输入模型的时间序列数量，seq_len为时间序列的长度，static_feature_size为静态信息的特征数；动态信息归一化处理后的形状为[batch_size, seq_len, dynamic_feature_size]，其中dynamic_feature_size为动态信息的特征数，batch_size为输入模型的时间序列数量，seq_len为时间序列的长度；根据batch_size和seq_len参数，将batch_size和seq_len参数相同的静态信息和动态信息拼接起来，拼接后特征的形状为[batch_size, seq_len, static_feature_size +dynamic_feature_size]。

另一方面，在步骤3中采用长短期记忆网络的目的，是因为传统的神经网络不具备获取其他特征信息的能力，而传统的循环神经网络随着运行时间的增长，传回的残差会按照指数下降，导致神经网络的权重更新缓慢，失去获取长距离依赖的能力，因此采用LSTM通过使用遗忘门和记忆门，控制残差信息。所述步骤3获得时序抽象特征的过程包括：

采用上一个LSTM单元的输出

和当前单元的输入

两部分作为当前单元的输入；首先通过遗忘门控制需要去除的信息，如下式所示：

其中，

表示Sigmoid激活函数，为设定值，取值范围为0到1之间，用于增减非线性变换；

表示遗忘门的权重矩阵，

表示遗忘门的偏置；

同时并行计算输入门以控制需要传入LSTM单元长期记忆的信息，如下式所示：

其中，输入门包括两部分，第一部分是结合短期记忆，也就是上一个LSTM单元的输出

和当前单元的输入

，通过输入门的权重矩阵

，和输入门偏置

，结合Sigmoid激活函数，表示为

，生成输入权重

；输入权重

用于确定新获得的特征传输到长期记忆的比例；第二部分结合上一单元的输出

和当前输入

，使用第二部分权重矩阵

和第二部分偏置

计算特征，通过tanh激活函数，表示为tanh，产生一个候选特征

；在本例中，候选特征的每一个值均在-1到1之间；

通过遗忘门的遗忘权重

、上一时刻的长期记忆

、输入门的输入权重

和候选特征

，在LSTM网络中，更新长期记忆

，如下式所示：

在输出门中，将上一个LSTM单元的输出

和当前单元的输入

混合，共同计算获得当前输出

，如下式所示：

其中，

表示输出门中输出的权重；

表示上一个时间点的短期记忆，在本例中为上一个LSTM单元的输出；

表示在当前时间点的当前单元输入；

表示输出门的权重矩阵；

表示输出门的偏置；

表示Sigmod激活函数；

表示当前时间点的短期记忆，即当前LSTM 单元的输出；

表示神经网络中的长期记忆；tanh表示tanh激活函数。

在获取当前单元的输出

后，根据时序顺序，依次输出各个单元提取的特征。

所述步骤4中，自注意力机制的公式如下所示：

其中，

为步骤3中输出的特征；

为特征转换矩阵；

为特征转换偏置；在本例中，将双曲正切函数

作为激活函数，将自注意力机制中的输入转换到-1到1之间，

为转换后特征；

为语义向量；

为转换函数，用于将输入的向量转换为0到1之间的数值，和为1的函数，为不同时间点的特征赋予权重；

为自注意力权重，不同的自注意力权重的和为1；在实施过程中，通过将每一时刻的特征

按自注意力权重加权求和，即得到综合时序特征

。

所述步骤5中，通过综合时序特征

获得困人概率的过程如下式所示：

其中，

表示第一层全连接层的权重矩阵；

表示第一层全连接层的偏置；

表示第一层全连接层的输出；

表示第二层全连接层的权重矩阵；

表示第二层全连接层的偏置；

表示预测获得的困人概率；为了便于模型训练，在本例中，困人和不困人的概率和为 1，在获取预测的困人概率后，能够推算出不困人概率。

所述步骤7中，交叉熵损失函数如下所示：

其中，

表示电梯困人的实际概率，取值为0或1，在本例中通过统计采集的数据中困人次数占据总次数的比例获得；

表示预测的困人概率；

表示获取的交叉损失函数。交叉损失函数用于计算实际概率与预测的困人概率之间的差异，用于对模型训练的输出结果进行修正，确保结果的准确性。

所述步骤8中，多个模型表示经过步骤1-7获得的结构一致，使用训练数据相同，采用同一数据序列但其权重参数不同，训练出的模型，其中权重参数包括权重矩阵

、

、

、

、

、

、

以及

；需要说明的是在本例中，模型的权重矩阵和偏置通过模型的训练过程获得。由于本实例中的深度学习模型难以获取归纳出困人特征，以预测困人概率，因此需要多个不同电梯困人特征侧重的模型，在下一个阶段得到的模型是对上一个阶段模型的微调，其特征提取的侧重点不同，优势点也不同，将其串联起来，可以综合不同模型的预测优势，得到准确的综合困人概率。

如图3所示，在实施过程中，通过采集21,196台正在使用中的电梯数据，作为数据源，在本例中采集一个月的数据作为测试训练数据集。通过上述步骤1-8，获取预测的电梯困人概率后，设置多个偏差值，对电梯困人概率预测性能评估，获取性能对比表1，并根据对比表1，获得精确率随偏差阈值的变化，如图3所示。

表 1

根据表1显示，可以看出电梯困人预测模型在有限数据的前提下，能够获得较高的预测性能。当偏差阈值为0.01时，电梯困人的召回率为41.4%，说明本文提出的电梯困人预测模型具有较好的召回性能。当偏差阈值为0.0004时，电梯困人的精确率为14.48%，说明本文提出的电梯困人预测模型具有较好的预测性能；同时，由于在实际电梯检修中，大量未装有物联网设备的电梯所获取的信息详细度与本模型使用的信息详细度一致，因此，本文提出的模型具有较高的可行性。

以上描述仅是本发明的一个具体实例，不构成对本发明的任何限制。显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。