CN113869290A

CN113869290A - 一种基于人工智能技术的消防通道占用识别方法和装置

Info

Publication number: CN113869290A
Application number: CN202111455510.4A
Authority: CN
Inventors: 申永利; 周岐文; 李新刚
Original assignee: China National Chemical Communications Construction Group Coltd
Current assignee: China National Chemical Communications Construction Group Coltd
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2021-12-31
Anticipated expiration: 2041-12-01
Also published as: CN113869290B

Abstract

本公开公开了基于人工智能技术的消防通道占用识别方法和装置，涉及建筑工程施工技术领域。具体实现方案为：实时采集视频数据；其中，视频数据中包括消防通道区域的图像；从视频数据中截取至少一张待识别图像；将待识别图像输入至训练好的Vision transformer网络模型，生成带有表示消防通道占用的正标签或未占用的负标签的预测图像；将预测图像输入至训练好的分类识别模型，以生成待识别图像的消防通道占用的检测结果。由此，能够实现对消防通道占用的识别，提升识别消防通道占用的准确度，同时能够减少安全隐患，提高安全保障。

Description

一种基于人工智能技术的消防通道占用识别方法和装置

技术领域

本公开涉及建筑工程施工技术领域，尤其涉及一种基于人工智能技术的消防通道占用识别方法和装置。

背景技术

消防通道在人群遇到紧急事件时是非常有效的逃生途径，如遇消防通道被占用，则可能引起极大的安全事故，引起人们的恐慌，增加危险性。

发明内容

本公开提供了一种基于人工智能技术的消防通道占用识别方法和装置。

根据本公开的一方面，提供一种基于人工智能技术的消防通道占用识别方法，包括：实时采集视频数据；其中，视频数据中包括消防通道区域的图像；从视频数据中截取至少一张待识别图像；将待识别图像输入至训练好的Vision transformer网络模型，生成带有表示消防通道占用的正标签或未占用的负标签的预测图像；将预测图像输入至训练好的分类识别模型，以生成待识别图像的消防通道占用的检测结果。

根据本公开的第二方面，提供了一种基于人工智能技术的消防通道占用识别装置，包括：视频采集单元，用于实时采集视频数据；其中，视频数据中包括消防通道区域的图像；图像获取单元，用于从视频数据中截取至少一张待识别图像；标签预测单元，用于将待识别图像输入至训练好的Vision transformer网络模型，生成带有表示消防通道占用的正标签或未占用的负标签的预测图像；分类识别单元，用于将预测图像输入至训练好的分类识别模型，以生成待识别图像的消防通道占用的检测结果。

本公开的实施例提供的技术方案至少带来以下有益效果：

实时采集视频数据；其中，视频数据中包括消防通道区域的图像；从视频数据中截取至少一张待识别图像；将待识别图像输入至训练好的Vision transformer网络模型，生成带有表示消防通道占用的正标签或未占用的负标签的预测图像；将预测图像输入至训练好的分类识别模型，以生成待识别图像的消防通道占用的检测结果。由此，能够获取视频数据中消防通道区域的图像，进一步对消防通道区域的图像进行分类识别，以实现对消防通道占用的识别，采用这样的方式能够提升识别消防通道占用的准确度，同时能够减少安全隐患，提高安全保障。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的流程图；

图2是根据本公开第二实施例的流程图；

图3是根据本公开第二实施例的另一种流程图；

图4是根据本公开第二实施例的S100的子步骤的流程图；

图5是根据本公开第三实施例的一种结构图；

图6是根据本公开第三实施例的标签预测单元的结构图；

图7是根据本公开第三实施例的另一种结构图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供一种基于人工智能技术的消防通道占用识别方法，图1是根据本公开第一实施例的流程图。

如图1所示，该方法包括但不限于如下步骤：

S1：实时采集视频数据；其中，视频数据中包括消防通道区域的图像。

本公开实施例中，可以在能够采集到消防通道图像的特定位置，设置视频采集装置，实时采集包括消防通道区域的图像的视频数据，示例性的，视频采集装置可以为监控设备，例如：摄像头。

本公开实施例中，在能够获取消防通道区域的图像的特定位置设置图像采集装置，以通过图像采集装置获取包括消防通道区域的图像的视频数据。

可以理解的是，消防通道区域很大，可能一个图像采集装置获取的视频数据无法获取到完整的消防通道区域的图像，或者可能通过视频数据获取到消防通道区域的图像不清晰。基于此，本公开实施例中，可以设置多个图像采集装置，每个图像采集装置采集包括一部分消防通道区域的图像的视频数据，从而能够获取到清晰完整的消防通道区域的图像，方便后续对消防通道是否占用进行检测识别。

S2：从视频数据中截取至少一张待识别图像。

本公开实施例中，从视频数据中截取至少一张含有消防通道区域的待识别图像。

可以理解的是，通过设置在能够采集到消防通道图像的特定位置处的视频采集装置采集的视频数据中，可以至少包括消防通道的图像。

示例性实施例中，在视频采集装置为固定拍摄角度的设备的情况下，视频采集装置能够采集到消防通道图像的视频数据，其获取的视频数据中，随便截取的一张图像中，均包括消防通道的图像。

另一示例性实施例中，在视频采集装置为非固定拍摄角度的设备的情况下，即视频采集装置能够采集到消防通道图像的视频数据，但由于其拍摄角度是可调节的，或者说是按照一定的移动范围旋转拍摄的视频数据，基于此，视频采集装置采集的视频数据中，可能存在不包括消防通道的视频数据，从视频数据中截取的图像，可能不包括消防通道。

其中，从视频数据中截取至少一张待识别图像，可以为按帧截取，获取每一帧视频的图像数据，作为待识别图像，或者，还可以间隔多帧图像截取，本公开实施例对此不作具体限制。

示例性的，可以从视频数据中截取一张包括消防通道区域的待识别图像，或者可以从视频数据中截取两张均包括消防通道区域的待识别图像，或者还可以从视频数据中截取三张或三张以上的包括消防通道区域的待识别图像。

S3：将待识别图像输入至训练好的Vision transformer网络模型，生成带有表示消防通道占用的正标签或未占用的负标签的预测图像。

本公开实施例中，可以预先设置有Vision transformer网络模型，通过对Visiontransformer网络模型进行训练，得到训练好的Vision transformer网络模型，使得能够使用训练好的Vision transformer网络模型，对待识别图像进行识别，得到带有表示消防通道占用的正标签或未占用的负标签的预测图像。

其中，带有表示消防通道占用的正标签或未占用的负标签的预测图像，可以包括：带有表示消防通道占用的正标签的预测图像，或者带有表示消防通道未占用的负标签的预测图像。

需要说明的是，生成的带有表示消防通道占用的正标签或未占用的负标签的预测图像可以为多个，本公开实施例中，训练好的Vision transformer网络模型对待识别图像进行识别时，会将待识别图像进行分块，进而对分块后的图像进行识别，进一步得到每个图像块的识别结果得到多个预测图像。

可以理解的是，本公开实施例中，待识别图像中可能包括消防通道图像，但是，由于待识别图像拍摄的范围比较大，其在包括消防通道的同时，可能还会包括消防通道外的其他环境部分的图像，在训练好的Vision transformer网络模型对待识别图像进行识别，将待识别图像进行分块，划分成多个图像块进行识别的情况下，针对待识别图像分成的不同图像块，可能存在不同的识别结果，进而，将包含消防通道部分的图像块，进一步识别，输出为带有表示消防通道占用的正标签的预测图像，或者输出为带有表示消防通道未占用的负标签的预测图像；而对于不包含消防通道部分的图像块，不作为输出结果或者输出为其他标识等，本公开实施例对此不作具体限制。

S4：将预测图像输入至训练好的分类识别模型，以生成待识别图像的消防通道占用的检测结果。

本公开实施例中，可以预先设置有分类识别模型，预先通过标记过消防通道占用和未占用的多张图像，生成分类样本数据集，将分类样本数据集输入至分类识别模型，对分类识别模型进行训练，以生成训练好的分类识别模型，使得训练好的分类识别模型能够识别图像中消防通道占用的检测结果。

可以理解的是，本公开实施例中，通过训练好的Vision transformer网络模型对待识别图像进行识别得到的带有表示消防通道占用的正标签或未占用的负标签的预测图像，预测图像为带有表示消防通道占用的正标签或未占用的负标签的图像块，将预测图像输入至训练好的分类识别模型，将带有表示消防通道占用的正标签的预测图像和/或带有表示消防通道未占用的负标签的预测图像，进行拼接，从而能够获取消防通道区域的完整图像，之后通过训练好的分类识别模型对消防通道区域的图像进行分类识别，能够生成待识别图像的消防通道占用的检测结果。

通过实施本公开实施例，实时采集视频数据；其中，视频数据中包括消防通道区域的图像；从视频数据中截取至少一张待识别图像；将待识别图像输入至训练好的Visiontransformer网络模型，生成带有表示消防通道占用的正标签或未占用的负标签的预测图像；将预测图像输入至训练好的分类识别模型，以生成待识别图像的消防通道占用的检测结果。由此，能够获取视频数据中消防通道区域的图像，进一步对消防通道区域的图像进行分类识别，以实现对消防通道占用的识别，采用这样的方式能够提升识别消防通道占用的准确度，同时能够减少安全隐患，提高安全保障。

图2为本公开第二实施例的流程图。

如图2所示，本公开实施例提供的基于人工智能技术的消防通道占用识别方法，包括但不限于如下步骤：

S10：实时采集视频数据；其中，视频数据中包括消防通道区域的图像。

本公开实施例中S10的描述说明可以参见上述实施例中的S1中的描述，此处不再赘述。

S20：从视频数据中截取至少一张待识别图像。

本公开实施例中S20的描述说明可以参见上述实施例中的S2中的描述，此处不再赘述。

S30：对待识别图像进行处理，生成图像块序列。

可以理解的是，标准的训练好的Vision transformer模型的输入是词语的1维D嵌入（embedding）的序列，为了适应这个结构，对待识别图像进行处理，具体为将HxWxC(高x宽x通道)大小的图像切成一系列PxP的2D块(patch)，然后再将2D块展平，形成长度为N=HW/P^2的图像块序列。

S40：将图像块序列加上位置信息输入至训练好的Vision transformer模型的编码器encoder中，得到编码后的图像块特征。

本公开实施例中，训练好的Vision transformer模型的编码器encoder由MSA（multi-head self-attention，多头自注意力）和MLP（multilayer perceptron，多层感知机）块的层组成，其中，MLP包含具有GELU（gaussian error linear units，高斯误差线性单元）非线性的两个全连接层。在每个图像块之前应用LN（layernorm）根据图像块的数量做归一化处理，在每个图像块之后应用残差连接。

本公开实施例中，将图像块序列加上位置信息输入至训练好的Visiontransformer模型的编码器encoder时，根据预先训练的位置嵌入在原始图像中的位置执行2D插值。请注意，只有在分辨率调整和色块提取中，将有关图像2D结构的感应偏差手动注入到训练好的Vision transformer中。

本公开实施例中，在实际训练过程中，将图像分割成相同大小的尺寸，之后每个通道每个像素点构成的二维数组会被展开成一维数组输入训练好的Vision transformer模型中，使每一张都足够抽象包含更多的全局信息。

S50：将编码后的图像块特征经过一个零初始化的D*K前馈层，输出每个图像块的类别为消防通道的概率分布；其中，K为2，D是encoder每层输出的特征维度大小。

本公开实施例中，将MLP的预测head，换成一个零初始化的D*K前馈层，其中，K是下游任务的类别数，D是encoder每层输出的特征维度大小，对于本公开实施例中，K为2，D是encoder每层输出的特征维度大小。

可以理解的是，将编码后的图像块特征输入至一个零初始化的D*K前馈层，能够得到每个图像块特征的类别的概率分布，从而能够得到每个图像块的类别。

本公开实施例中，用一个零初始化的D*K 前馈层替换标准的训练好的Visiontransformer模型的预训练的预测head，可以处理更高分辨率的图像，并且训练时占用的资源更少。

S60：根据每个图像块的类别为消防通道的概率分布，生成带有表示消防通道占用的正标签或未占用的负标签的预测图像。

本公开实施例中，根据前馈层输出的每个图像块的类别为消防通道的概率分布，得到带有表示消防通道占用的正标签或未占用的负标签的预测图像。

示例性的，可以将概率大于或等于预设阈值的图像块确定为消防通道占用，将概率小于预设阈值的图像块确定为消防通道未占用，进而将消防通道占用的图像块生成带有表示消防通道占用的正标签的预测图像，将消防通道未占用的图像块生成带有表示消防通道未占用的负标签的预测图像。

本公开实施例中，预设阈值可以为60%、或65%、或70%、或75%、或80%等，可以根据需要进行设置，本公开实施例对此不作具体限制。

S70：将预测图像进行拼接，获取完整的消防通道区域的目标图像；将目标图像输入至训练好的分类识别模型，生成待识别图像的消防通道占用的检测结果。

可以理解的是，预测图像带有表示消防通道占用的正标签或者带有表示消防通道未占用的负标签，说明预测图像中至少包含一部分消防通道图像，将得到的预测图像进行拼接，能够得到完整的消防通道区域的图像。

进一步的，将完整的消防通道区域的图像作为目标图像输入至训练好的分类识别模型，以生成消防通道占用的检测结果。

示例性实施例中，将目标图像输入至训练好的分类识别模型，根据目标图像的带有表示消防通道占用的正标签，来获取待识别图像的消防通道占用的检测结果。例如，在存在带有表示消防通道占用的正标签的情况下，输出为待识别图像为消防通道已占用，在不存在带有表示消防通道占用的正标签的情况下，输出为待识别图像为消防通道未占用。

另一示例性实施例中，将目标图像输入至训练好的分类识别模型，训练好的分类识别模型对目标图像进行识别，根据识别结果，来获取待识别图像的消防通道占用的检测结果。其中，训练好的分类识别模型对目标图像进行识别，训练好的分类识别模型可以为VGG网络模型，能够对目标图像进行识别得到待识别图像为消防通道已占用或者为消防通道未占用的识别结果。

在一些实施例中，如图3所示，本公开实施例中提供的基于人工智能技术的消防通道占用识别方法，还包括：

S100：获取训练数据集。

可以理解的是，本公开实施例中，可以预先设置有Vision transformer网络模型，通过对Vision transformer网络模型进行训练，得到训练好的Vision transformer网络模型，使得能够使用训练好的Vision transformer网络模型，对待识别图像进行识别，得到带有表示消防通道占用的正标签或未占用的负标签的预测图像。

其中，对Vision transformer网络模型进行训练，需要获取训练数据集，训练数据集中包括标记好的训练图像，示例性的，标记为消防通道占用的正训练图像和标记为消防通道未占用的负训练图像，分别输入至Vision transformer网络模型，得到预测结果，根据预测结果，以及预先标记的结果进行对比，对Vision transformer网络模型的参数进行调整，使Vision transformer网络模型能够输出准确的预测结果，从而生成训练好的Visiontransformer网络模型。

在一些实施例中，如图4所示，本公开实施例中S100包括但不限于如下子步骤：

S101：从监控设备所拍摄的视频中提取多张样本图像。

本公开实施例中，从监控设备所拍摄的视频中提取多张样本图像，其中，监控设备可以为在能够获取样本图像的位置设置的图像采集装置。

可以理解的是，样本图像中包括消防通道区域的图像。

S102：将消防通道占用的样本图像标记为正训练样本，以及将消防通道未占用的样本图像标记为负训练样本，生成训练数据集。

本公开实施例中，从监控设备所拍摄的视频中提取多张样本图像，将消防通道已占用的样本图像标记为正训练样本，以及将消防通道未占用的样本图像标记为负训练样本，得到训练数据集。

请继续参见图3，本公开实施例中，在S100之后执行S200：将训练数据集输入至Vision transformer网络模型，对Vision transformer网络模型进行训练，生成训练好的Vision transformer网络模型。

本公开实施例中，可以预先设置有Vision transformer网络模型，通过使用训练数据集对Vision transformer网络模型进行训练，得到训练好的Vision transformer网络模型。

在一些实施例中，本公开实施例中提供的基于人工智能技术的消防通道占用识别方法，还包括：

通过图像采集装置获取消防通道占用的补充图像并标记为正训练样本，或者，将消防通道占用的样本图像和/或补充图像通过数据增强，获取消防通道占用的增强样本图像并标记为正训练样本。

本公开实施例中，由于消防通道占用情况较消防通道未占用情况少，可以通过图像采集装置获取消防通道占用的补充图像并标记为正训练样本，或者，将消防通道占用的样本图像和/或补充图像通过数据增强，获取消防通道占用的增强样本图像并标记为正训练样本，以增加消防通道占用的样本图像的数量。

可以理解的是，数据增强可以为手动增加消防通道占用的样本图像的数量，或者可以将样本图像和/或补充图像进行平移、翻转、裁剪等，以增加消防通道占用的样本图像的数量。

图5是根据本公开第三实施例的一种结构图。

如图5所示，本公开实施例提供的一种基于人工智能技术的消防通道占用识别装置10。该消防通道占用识别装置10包括：视频采集单元11、图像获取单元12、标签预测单元13和分类识别单元14。

其中，视频采集单元11，用于实时采集视频数据；其中，视频数据中包括消防通道区域的图像。

图像获取单元12，用于从视频数据中截取至少一张待识别图像。

标签预测单元13，用于将待识别图像输入至训练好的Vision transformer网络模型，生成带有表示消防通道占用的正标签或未占用的负标签的预测图像。

分类识别单元14，用于将预测图像输入至训练好的分类识别模型，以生成待识别图像的消防通道占用的检测结果。

在一些实施例中，如图6所示，本公开实施例中，标签预测单元13，包括：

处理模块131，用于对待识别图像进行处理，生成图像块序列。

编码模块132，用于将图像块序列加上位置信息输入至训练好的Visiontransformer模型的编码器encoder中，得到编码后的图像块特征。

概率计算模块133，用于将编码后的图像块特征经过一个零初始化的D*K前馈层，输出每个图像块的类别为消防通道的概率分布；其中，K为2，D是encoder每层输出的特征维度大小。

预测模块134，用于根据每个图像块的类别为消防通道的概率分布，生成带有表示消防通道占用的正标签或未占用的负标签的预测图像。

在一些实施例中，本公开实施例中，分类识别单元14，包括：

将预测图像输入至训练好的分类识别模型，根据预测图像的带有表示消防通道占用的正标签或未占用的负标签，在存在带有表示消防通道占用的正标签的情况下，输出为待识别图像为消防通道已占用，在存在带有表示消防通道未占用的负标签的情况下，输出为待识别图像为消防通道未占用。

图7是根据本公开第三实施例的另一种结构图。

如图7所示，本公开实施例提供的一种基于人工智能技术的消防通道占用识别装置10，还包括：

训练数据集获取单元100，用于获取训练数据集。

模型训练单元200，用于将训练数据集输入至Vision transformer网络模型，对Vision transformer网络模型进行训练，生成训练好的Vision transformer网络模型。

需要说明的是，前述对基于人工智能技术的消防通道占用识别方法的解释说明也适用于本实施例的基于人工智能技术的消防通道占用识别装置，此处不再赘述。

通过实施本公开实施例中，视频采集单元11用于实时采集视频数据；其中，视频数据中包括消防通道区域的图像，图像获取单元12用于从视频数据中截取至少一张待识别图像，标签预测单元13用于将待识别图像输入至训练好的Vision transformer网络模型，生成带有表示消防通道占用的正标签或未占用的负标签的预测图像，分类识别单元14用于将预测图像输入至训练好的分类识别模型，以生成待识别图像的消防通道占用的检测结果。由此，能够获取视频数据中消防通道区域的图像，进一步对消防通道区域的图像进行分类识别，以实现对消防通道占用的识别，采用这样的方式能够提升识别消防通道占用的准确度，同时能够减少安全隐患，提高安全保障。

除非上下文另有要求，否则，在整个说明书和权利要求书中，术语“包括被解释为开放、包含的意思，即为“包含，但不限于”。在说明书的描述中，术语“一些实施例”、“示例性实施例”、“示例”等旨在表明与该实施例或示例相关的特定特征、结构、材料或特性包括在本公开的至少一个实施例或示例中。上述术语的示意性表示不一定是指同一实施例或示例。此外，所述的特定特征、结构、材料或特点可以以任何适当方式包括在任何一个或多个实施例或示例中。

除非另有说明，“多个”的含义是两个或两个以上。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

本文中“用于”的使用意味着开放和包容性的语言，其不排除适用于或被配置为执行额外任务或步骤的设备。

另外，“基于”的使用意味着开放和包容性，因为“基于”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种基于人工智能技术的消防通道占用识别方法，其特征在于，包括：

实时采集视频数据；其中，所述视频数据中包括消防通道区域的图像；

从所述视频数据中截取至少一张待识别图像；

将所述待识别图像输入至训练好的Vision transformer网络模型，生成带有表示消防通道占用的正标签或未占用的负标签的预测图像；

将所述预测图像输入至训练好的分类识别模型，以生成所述待识别图像的消防通道占用的检测结果。

2.根据权利要求1所述的方法，其特征在于，所述将所述待识别图像输入至训练好的Vision transformer网络模型，生成带有表示消防通道占用的正标签或未占用的负标签的预测图像，包括：

对所述待识别图像进行处理，生成图像块序列；

将所述图像块序列加上位置信息输入至训练好的Vision transformer模型的编码器encoder中，得到编码后的图像块特征；

将编码后的图像块特征经过一个零初始化的D*K前馈层，输出每个图像块的类别为消防通道的概率分布；其中，K为2，D是encoder每层输出的特征维度大小；

根据每个图像块的类别为消防通道的概率分布，生成带有表示消防通道占用的正标签或未占用的负标签的预测图像。

3.根据权利要求1所述的方法，其特征在于，所述将所述预测图像输入至训练好的分类识别模型，以生成所述待识别图像的消防通道占用的检测结果，包括：

将所述预测图像进行拼接，获取完整的消防通道区域的目标图像；

将所述目标图像输入至训练好的分类识别模型，生成所述待识别图像的消防通道占用的检测结果。

4.根据权利要求1所述的方法，其特征在于，所述方法，还包括：

获取训练数据集；

将所述训练数据集输入至Vision transformer网络模型，对所述Vision transformer网络模型进行训练，生成训练好的Vision transformer网络模型。

5.根据权利要求4所述的方法，其特征在于，所述获取训练数据集，包括：

从监控设备所拍摄的视频中提取多张样本图像；

将消防通道占用的样本图像标记为正训练样本，以及将消防通道未占用的样本图像标记为负训练样本，生成训练数据集。

6.根据权利要求5所述的方法，其特征在于，所述方法，还包括：

7.一种基于人工智能技术的消防通道占用识别装置，其特征在于，包括：

视频采集单元，用于实时采集视频数据；其中，所述视频数据中包括消防通道区域的图像；

图像获取单元，用于从所述视频数据中截取至少一张待识别图像；

标签预测单元，用于将所述待识别图像输入至训练好的Vision transformer网络模型，生成带有表示消防通道占用的正标签或未占用的负标签的预测图像；

分类识别单元，用于将所述预测图像输入至训练好的分类识别模型，以生成所述待识别图像的消防通道占用的检测结果。

8.根据权利要求7所述的装置，其特征在于，所述标签预测单元，包括：

处理模块，用于对所述待识别图像进行处理，生成图像块序列；

编码模块，用于将所述图像块序列加上位置信息输入至训练好的Vision transformer模型的编码器encoder中，得到编码后的图像块特征；

概率计算模块，用于将编码后的图像块特征经过一个零初始化的D*K前馈层，输出每个图像块的类别为消防通道的概率分布；其中，K为2，D是encoder每层输出的特征维度大小；

预测模块，用于根据每个图像块的类别为消防通道的概率分布，生成带有表示消防通道占用的正标签或未占用的负标签的预测图像。

9.根据权利要求7所述的装置，其特征在于，所述分类识别单元，具体用于：

将所述预测图像进行拼接，获取完整的消防通道区域的目标图像；将所述目标图像输入至训练好的分类识别模型，生成所述待识别图像的消防通道占用的检测结果。

10.根据权利要求7所述的装置，其特征在于，所述装置，还包括：

训练数据集获取单元，用于获取训练数据集；

模型训练单元，用于将所述训练数据集输入至Vision transformer网络模型，对所述Vision transformer网络模型进行训练，生成训练好的Vision transformer网络模型。