CN113283452B

CN113283452B - 一种大型设备安拆步骤检测方法

Info

Publication number: CN113283452B
Application number: CN202110646769.0A
Authority: CN
Inventors: 简易成; 宁德奎; 张巨会; 姚林; 赵世范; 奚正茂; 杨峰; 施昌平
Original assignee: Sinohydro Bureau 7 Co Ltd
Current assignee: Sinohydro Bureau 7 Co Ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2023-07-25
Anticipated expiration: 2041-06-10
Also published as: CN113283452A

Abstract

本发明公开了一种跨模态大型设备安拆步骤检测方法。包括：跨模态数据集建立、SENet网络和文本模块应用、检测；检测是对包括安拆步骤图像的数据库进行检索，初步确定安拆步骤，然后利用基于深度学习的图像标注技术，对安拆工作图像进行文字化描述，将文字化描述在文本数据库中进行相似度计算，以确定该安拆步骤属于的步骤，最后结合图像和文本的结果进行判定，如果同时确定属于其中的某个步骤，则确认该安拆工作所属的步骤，否则，重新进行检测判定。本发明构建特定的大型特种设备安拆中的图像与文本数据集，采用SENet网络与图像文本描述技术，能很好的适应大型特种设备施工的场景，并能根据识别结果对安拆步骤进行检测，判断安拆步骤的正确性。

Description

一种大型设备安拆步骤检测方法

技术领域

本发明涉及一种大型设备安拆方法，具体涉及一种跨模态大型设备安拆步骤检测方法。

背景技术

目前，随着我国经济的高速发展，基建项目越来越多，在工地上大型特种设备是一种常见的建筑施工设备，同时项目工地上大型特种设备结构复杂，工地安全性要求高。但目前在大型特种设备在安装拆卸过程中的安全问题易被忽略，目前施工现场对安拆过程中的监管通常采用人工的方式，而监管人员需要有丰富的安拆经验，一旦监管人员出现疏漏容易造成重大的安全事故。

公开号为CN109626224A的中国专利公开了“有限空间中桥式起重机安拆装施工方法”，根据桥式起重机的具体参数在考虑有限的空间的情况下，设计了一种桥式起重机安拆方法。但通过该专利可以看出，在设计设备安拆过程中并有对人为失误或可能出现的误操作进行检测或者预警，一旦出现人为失误会造成严重后果。

发明内容

本发明针对现有技术的以上缺陷或改进需求提供了一种跨模态大型设备安拆步骤检测方法，本发明目的在于检测在大型特种设备安拆过程步骤，以人工智能代替监管人员，实现对大型特种设备安拆步骤的智能管控。

本发明通过以下技术方案实现：

一种大型设备安拆步骤检测方法，其特征在于：针对检测的安拆步骤，利用安拆设备的包括安拆步骤图像的工作图像数据库的进行检索，初步确定安拆步骤属于整个步骤的哪一个步骤，然后利用基于深度学习的图像标注技术，对安拆工作图像进行文字化描述，将文字化描述在文本数据库中进行相似度计算，以确定该安拆步骤属于文本数据库步骤中的哪一个步骤，最后结合图像和文本的结果进行判定，如果同时确定属于其中的某个步骤，则确认该安拆工作所属的步骤，否则，重新进行检测判定。

进一步本发明大型设备安拆步骤检测方法，包括：跨模态数据集建立、SENet网络和文本模块应用、检测。

跨模态数据集建立是：收集大型特征设备安拆步骤过程中图像数据和文本数据，并依据安拆步骤对图像进行标注；确实每张图像对应的安拆步骤顺序，为后续训练深度学习模型进行数据集构建；

SENet网络是对大型特种设备安拆过程中的图像信息进行识别；文本模块是利用深度网络对安拆图像进行文本描述。

最后结合图像和文本所得的编标进行决策，如果都是正确的，那么就确定该安拆过程所属的步骤编号，否则进一步微调网络，再重复进行以上结果。

所述跨模态数据集包括两部分，一个部分是图像数据集，另一个部分是文本数据集；图像数据集和文本数据集是相关的，大型设备的安拆步骤同时用图像和文本描述，其中，图像按照安拆步骤的顺序进行编号，每一张图像下面都有其文本描述。

所述SENet网络是作为提取特征的卷积神经网络。

进一步所述SENet网络和文本模块应用是：

将训练集中的每一张图像都用SENet转换成特征向量，对于一张输入的安拆过程图像，同样利用SENet将其转换为特征向量，然后将其与训练集中的特征向量进行比较，选取结果最接近的即为当前安拆过程所属的编号；

同样是使用SENet提取图像的特征向量，将该特征向量输入到LSTM中得到该图像的文本描述，将文本数据库中的文本用Word2Vec转换为文本向量；将安拆操作的文本描述转换成Word2Vec向量，计算该向量与数据库中的每一个步骤文本向量的距离，选取结果最接近的即为当前安拆步骤所属的编号。

相比现有技术，构建特定的大型特种设备安拆中的图像与文本数据集，采用SENet网络与图像文本描述技术，能很好的适应大型特种设备施工的场景，并能根据识别结果对安拆步骤进行检测，判断安拆步骤的正确性。

本发明提供了一种跨模态大型设备安拆步骤检测方法。本发明基础方法在设备安拆过程中对人为失误或可能出现的误操作进行检测或者预警，能够有效避免出现人为失误造成的严重损失和后果。

附图说明

图1是本发明实施例提供的用于检测大型特种设备安拆过程中图像信息的SENet网络的核心模块；

图2是本发明实施例提供的对安拆图像进行文本描述的LSTM模块的核心门机制算法；

图3是本发明实施例提供的对安拆步骤过程中图像信息与文本信息的比对，对最后安拆步骤的检测的最终核对。

具体实施方式

下面结合具体实施方式对本发明进一步说明，具体实施方式是对本发明原理的进一步说明，不以任何方式限制本发明，与本发明相同或类似技术均没有超出本发明保护的范围。同时，以下所描述的实施方式中所涉及到的技术只要彼此之间未构成冲突还可以相互组合。

结合附图。

本发明提出了一种跨模态大型设备安拆步骤检测方法。大型设备的安拆过程是一个十分复杂的过程，不仅要求安拆中的各组件匹配的精确度，同时，安拆也需要按照一定的步骤进行。其中一些安拆工作是在之前已经完成的安拆工作基础上进行的，也就是说如果安拆的顺序不正确，整个大型设备的安拆工作就难以成功完成，而且需要调整至正确的顺序需要耗费大量的人力和物力。

本发明提出了一种跨模态大型设备安拆步骤检测方法，首先利用正在进行的安拆工作图像和安拆步骤图像数据库中图像进行检索，初步确定该工作属于整个步骤的哪一个步骤，然后利用基于深度学习的图像标注技术，对安拆图像进行文字化描述，将文字化描述在文本数据库中进行相似度计算，以确定该工作属于步骤中的哪一个步骤，最后结合图像和文本的结果进行判定，如果同时确定属于其中的某个步骤，则确认该安拆工作所属的步骤，否则，调整模型重新进行检测判定。本发明提出的方法能够有效地检测大型设备安拆的整个过程，不仅能够节约成本，同时也能确保整个大型设备安拆工作的正常进行。

本发明跨模态大型设备安拆步骤检测方法具体分为三个部分：

(1)模型的训练和测试需要标注的数据集。数据集分为两个部分，一个部分是图像数据集，另一个部分是文本数据集。图像数据集和文本数据集是相关的。大型设备的安拆步骤同时用图像和文本描述，其中图像按照安拆步骤的顺序进行编号，每一张图像下面都有其文本描述。

(2)为了使得提取的图像特征能够较好的描述安拆操作，本发明使用SENet的网络作为提取特征的卷积神经网络。将训练集中的每一张图像都用SENet转换成特征向量，对于一张输入的安拆图像，同样利用SENet将其转换为特征向量，然后将其与训练集中的特征向量进行比较，选取结果最接近的即为当前安拆过程所属的编号。

(3)同样是使用SENet提取图像的特征向量，然后将该特征向量输入到LSTM中得到该图像的文本描述。首先将文本数据库中的文本用Word2Vec转换为文本向量，然后将安拆操作的文本描述转换成Word2Vec向量，计算该向量与数据库中的每一个步骤文本向量的距离，选取结果最接近的即为当前安拆步骤所属的编号。最后结合图像和文本所得的编标进行决策，如果都是正确的，那么就确定该安拆过程所属的步骤编号，否则进一步微调网络，再重复进行以上结果。

本发明跨模态大型设备安拆步骤检测方法中，对于提取图像特征而言，目前已经有各种优秀的卷积神经网络，为了平衡网络的复杂度和网络的识别准确率，本发明采用SENet作为图像特征提取网络，SENet的核心如图1所示。

首先利用全局平均池化获取每一个通道的表示，然后经过两个全连接层，使用一个sigmoid函数将每一个值转换成0-1之间的概率值，用于表示每一个通道的重要程度，最后将权重和原始特征图相乘后再传给下一层，其用公式表示如公式(1)所示：

整个网络就是使用了激励挤压模块的残差网络，为了减少计算复杂度，将网络得到的2048维的特征向量用1×1卷积减少为512维。将图像数据库中的同一设备的安拆步骤对应的每一张图都输入到网络中得到特征向量，然后对于测试的安拆图像，同样输入到网络中得到该图像的特征向量，最后计算出该向量和数据库中每一个向量的距离，选择距离最小的图像对应的编号作为该操作的编号。这里，向量间的距离计算使用欧式距离，如公式(2)所示。

也就是将两两向量间的每一个位置上的元素计算其差值的平方，最后将其相加起来，再对其进行开平方根。

将上述得到的测试图像的图像特征向量保存下来，然后将其输入到LSTM中。LSTM是长短时记忆网络的简称，它是一种特殊的循环神经网络，能够解决长序列训练过程中的梯度消失和梯度爆炸问题。LSTM的核心是三个门机制，分别是输入门、遗忘门和输出门。对于遗忘门，公式如(3)所示。

f_t＝σ(W_f[h_t-1，x_t]+b_f) (3)

其中b_f表示上一个细胞的输出，x_t表示当前细胞的输入，σ表示sigmoid函数。LSTM能够决定从细胞中丢弃和保留什么信息。图像特征向量经过LSTM之后，最终可以获得关于该图像的文本描述，总体架构如图2所示。

首先将文本数据库中的文本用Word2Vec转换为文本向量，然后将安拆测试图像的生成文本也用Word2Vec也转换成文本向量，同样的，也需要计算出该文本向量和数据库中每一个文本向量的距离，为了计算准确，这里使用余弦相似度，如公式(4)所示。

最后取与该测试向量最相似的编号作为该操作步骤的编号。当使用图像信息和文本信息得出的编号都一致时，就确定该安拆操作在整个安拆步骤中所处的位置，并与真实步骤进行比较，确定其是否是正确的，反馈给操作人员。决策过程如图3所示。

Claims

1.一种大型设备安拆步骤检测方法，其特征在于：

针对检测的安拆步骤，利用安拆设备包括安拆步骤图像的工作图像数据库的进行检索，初步确定安拆步骤属于整个步骤的哪一个步骤，然后利用基于深度学习的图像标注技术，对安拆工作图像进行文字化描述，将文字化描述在文本数据库中进行相似度计算，以确定该安拆步骤属于文本数据库步骤中的哪一个步骤，最后结合图像和文本的结果进行判定，如果同时确定属于其中的某个步骤，则确认该安拆工作所属的步骤，否则，重新进行检测判定；

具体包括：跨模态数据集建立，SENet网络应用，文本模块应用，检测；

跨模态数据集建立是：收集大型特种设备安拆过程中图像数据和文本数据，并依据安拆步骤对图像进行标注，图像数据和文本数据是相关的，大型特种设备的安拆步骤同时用图像和文本描述，其中，图像按照安拆步骤的顺序进行编号，每一张图像下面都有其文本描述；确定每张图像对应的安拆步骤顺序，为后续训练深度学习模型进行数据集构建；

SENet网络应用是：作为提取特征的卷积神经网络对大型特种设备安拆过程中的图像信息进行识别，包括：将训练集中的每一张图像都用SENet转换成特征向量；对于一张输入的安拆过程图像，同样利用SENet将其转换为第一特征向量，使用欧氏距离计算出第一特征向量和图像数据库中每一个特征向量的距离，选择距离最小的图像对应的编号即为当前安拆过程所属的编号；

文本模块应用是：利用深度网络对安拆图像进行文本描述，包括：使用SENet提取安拆过程图像的第一特征向量，将第一特征向量输入到LSTM中得到安拆过程图像的文本描述；

将文本数据库中的文本用Word2Vec转换为文本向量；将安拆过程图像的文本描述用Word2Vec转换为第一文本向量；使用余弦相似度计算第一文本向量与文本数据库中的每一个步骤文本向量的相似度，选取与第一文本向量最相似的编号即为当前安拆步骤所属的编号；

检测是：结合图像和文本所得的编号进行决策，如果都是正确的，那么就确定该安拆过程所属的步骤编号，否则，调整或重新调用SENet网络和文本模块，再重复进行检测步骤。