CN117036778A

CN117036778A - 一种基于图文转换模型的安全隐患识别标注方法

Info

Publication number: CN117036778A
Application number: CN202310826971.0A
Authority: CN
Inventors: 李晓飞; 戴亚婷
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-11-10

Abstract

本发明公开了一种基于图文转换模型的安全隐患识别标注方法，包括：获取安全生产监管场景中的待识别图像；利用图文转换模型，根据输入的待识别图像生成图像的文本描述；其中所述图文转换模型包括内存增强的编码器和网格注意力解码器；将图像的文本描述与预构建的安全隐患描述列表中的场景文本描述进行相似度匹配，获取匹配到的场景文本描述对应的安全隐患的文字描述和关键词；其中所述安全隐患描述列表包括存在安全隐患的场景文本描述以及对应的安全隐患的文字描述和关键词；利用条件目标检测模型，根据匹配到的关键词在待识别图像中安全隐患位置添加目标框并标注安全隐患的文字描述。能够为安全生产监管提供一种智能识别和标注手段。

Description

一种基于图文转换模型的安全隐患识别标注方法

技术领域

本发明属于图像语言交互领域，具体涉及一种基于图文转换模型的安全隐患识别标注方法。

背景技术

近年来，安全生产监管中，安全管理人员普遍专业安全隐患发现的能力参差不齐，对安全问题发现不到位，与此同时，巨大的巡检工作量极易造成安全工作人员的疲劳，从而出现隐患检查疏漏的情况。因此，安全生产监管存在现状看不见、过程管不住和风险想不到之类的亟待解决的痛点。随着深度学习技术不断发展，安全管理技术也在升级，针对安全生产监管场景，通过摄像头实时监控，从而及时预警违规、危险等异常情况。

目前的安全生产管理大多是采用图像分类方法，通过截图或视频中的图像直接检测和判断安全隐患的存在。然而，这种方法对于场景的针对性很强，只适用于特定的安全生产管理的场景，而且只识别图像有时准确性不高，此外，多数情况中存在安全管理专业人员缺乏和普通工作人员无法判断复杂安全隐患的类型问题。

发明内容

为克服现有技术中的不足，本发明提供一种基于图文转换模型的安全隐患识别标注方法，通过使用基于Transformer的图像文字转换方法生成图像中场景的文字描述，并通过文本相似度匹配和条件目标检测来实现场景内是否存在安全隐患的判断和在对应部件位置添加目标框和文本标注，以提醒工作人员及时修复隐患，提高安全生产监管场景中的安全系数。

为达到上述目的，本发明所采用的技术方案是：

第一方面，提供一种基于图文转换模型的安全隐患识别标注方法，包括：获取安全生产监管场景中的待识别图像；

利用图文转换模型，根据输入的待识别图像生成图像的文本描述；其中所述图文转换模型包括内存增强的编码器和网格注意力解码器；

将图像的文本描述与预构建的安全隐患描述列表中的场景文本描述进行相似度匹配，获取匹配到的场景文本描述对应的安全隐患的文字描述和关键词；其中所述安全隐患描述列表包括存在安全隐患的场景文本描述以及对应的安全隐患的文字描述和关键词；

利用条件目标检测模型，根据匹配到的关键词在待识别图像中安全隐患位置添加目标框并标注安全隐患的文字描述。

在一些实施例中，所述内存增强的编码器E由多个内存增强编码层按顺序堆叠而成，其中每个内存增强编码层依次包括内存增强注意力和位置前馈层；所述内存增强的编码器用于处理输入图像中的区域并处理区域之间的关系，具体包括：

S1：原始的注意力对查询Q、键K和值V三组向量进行的处理，如公式(1)所示：

其中，Q为由n_q个查询向量组成的矩阵，矩阵K和V都包含n_k个键和值且维数相同，d_k为一比例因子；

所述内存增强注意力，为用于自我注意的键和值扩展了额外的“槽”，如公式(2)～(4)所示：

M_mau(X)＝Attention(W_qX，K′，V′) (2)

K′＝[W_kX，L_k] (3)

V′＝[W_vX，L_v] (4)

其中X为输入的图像，M_mau(X)为内存增强注意力的输出，Attention()表示注意力操作，K′，V′为包含扩展的槽的键和值，W_q、W_k、W_v为可学习权值矩阵，L_k、L_v为行数n_s的可学习矩阵，[·，·]为串联运算表示；

S2：将内存增强注意力的输出应用于一由两个具有单一非线性的仿射变换组成的位置前馈层F_f，位置前馈层形式上的表示如公式(5)所示：

F_f(X)_i＝Uσ(VX_i+b)+d (5)

其中，F_f(X)_i为前馈层输出的第i个向量，X_i为输入集中第i个向量，σ(·)为ReLU激活函数，V、U为可学习权重矩阵，b、d为偏置项；

S3：将每个内存增强注意力和位置前馈层通过残差连接和层归一化操作进行封装，得到完整的内存增强编码层，定义如公式(6)～(7)所示：

Z＝AddNorm(M_mau(X)) (6)

其中，AddNorm(·)为残差连接和层归一化的组合，为内存增强编码层的输出；

S4：多个内存增强编码层按顺序堆叠，得到所述内存增强的编码器E，其中，N个编码层的堆栈的多级输出为

进一步地，在一些实施例中，所述网格注意力解码器D包括多个网格注意力解码层堆栈，每个网格注意力解码层均包括遮掩的自注意力、网格交叉注意和位置前馈层，用于读取每个编码层的输出并生成输出描述的下一个标记，具体包括：

S1：解码层中的网格交叉注意在句子生成过程中利用所有编码层输出，如公式(8)所示：

其中，为网格交叉注意力的输出；Y为给定的输入序列的词向量，C(·，·)为编码器-解码器交叉注意，α_i为与交叉注意结果大小相同的权重矩阵，/>为编码器E的输出；

编码器-解码器交叉注意，如公式(9)所示：

权重矩阵α_i中的权重值通过衡量每个编码层的交叉注意的结果和输入序列之间的相关性得到，如公式(10)所示：

其中，σ为sigmoid激活，W_i为2d×d大小的权重矩阵，b_i为可学习偏差向量；

网格注意力解码层中的位置前馈层形式上和编码层中的一样，如公式(5)所示；

综上可得，所述网格注意力解码层的整体结构，如公式(11)～(12)所示：

其中，S_mask为随时间推移的遮掩self-attention，为网格注意力解码层的输出；

S2：所述网格注意力解码器D是将多个解码器层堆叠在一起，最终得到输入图像的文本描述。

在一些实施例中，所述图文转换模型训练的损失函数为：

其中k为样本数量，ωⁱ为波束中第i个句子，p(ωⁱ)为波束中第i个句子的概率，r(·)为奖励函数，b＝(∑_ir(ωⁱ))/k为基线，为梯度计算。

在一些实施例中，所述相似度匹配采用SBERT模型，具体包括：

将图像的文本描述和安全隐患描述列表中的场景文本描述组成的句子对输入到参数共享的两个BERT模型中，进行文本序列编码；对编码后得到的句子的所有字向量执行平均池化操作，获得固定长度的句子嵌入向量；

对所得到的两个句子嵌入向量u和v计算余弦相似度，如公式(14)所示：

将计算得到的余弦相似度高于设定阈值的句子视为匹配成功，输出与图像的文本描述匹配成功的场景文本描述在安全隐患描述列表中对应的安全隐患的文字描述和关键词。

进一步地，所述SBERT模型训练的损失函数L^P为：

其中，L_MSE为均方误差损失，N为样本数量，y_i为样本标签，为样本预测概率。

在一些实施例中，所述条件目标检测网络AOD采用Grounding DINO模型，具体包括：

S1：基于匹配到的关键词得到提示语，将待识别图像和所述提示语输入GroundingDINO模型中；

S2：所述Grounding DINO模型包括：图像骨干、文本骨干、特征增强器、语言引导查询选择模块和跨模态解码器；

S2.1：使用的提示语为分句级表征，其引入了注意力遮掩，既保留了每个单词特征，又消除不相关单词间相互作用；

S2.2：特征增强器包括多个特征增强层，每个特征增强层中，利用可变形的自注意力增强图像特征和原始自注意力增强文本特征，并增加image-to-text的交叉注意力和text-to-image的交叉注意力来帮助对齐不同模态特征，从而进行特征融合；

S2.3：语言引导的查询选择模块，通过输出查询索引，基于选择的索引提取特征，从而初始化查询，以选择与输入提示语文本更相关的特征作为解码器查询；

S2.4：跨模态解码器包括：自注意力层，用于组合图像特征的图像交叉注意力层，用来组合文本特征的文本交叉注意力层以及前馈层；跨模态解码器从两个模态特征中提取期望的特征并更新跨模态查询；

S3：最终，为给定的图像-文本对添加目标对象框和标注该安全隐患的文字描述。

进一步地，Grounding DINO模型采用L1损失和GIoU损失用作边框回归，从而计算预测目标和提示语文本token之间的对比损失，如公式(16)～(18)所示：

其中，A为真值框，B为预测框，C为这两个区域的闭包(闭包取的是包围这两个矩形区域的平行于坐标轴的最小矩形)，N是样本数量，y_i为目标框，f(x_i)为模型输出的预测框。

进一步地，图文转换模型、相似度匹配网络与Grounding DINO模型的训练方法，包括：收集并准备足够多的安全生产监管场景图像，包括存在安全隐患的和不存在安全隐患，并划分为训练集样本和测试集样本；构建一个安全隐患描述列表，包括存在安全隐患的场景文本描述、该安全隐患的文字描述和关键词；然后将训练集图像输入整体模型进行训练，包括：制定网络训练方式，图文转换模型、相似度匹配网络与Grounding DINO模型按照各自的损失函数进行整体训练，直至得到的图像中的目标框和相应文本都为期望值；使用测试集中的图像对训练好的识别安全隐患图像的图文转换模型进行测试，获得在输入图像中存在安全隐患的位置准确添加目标框和该安全隐患的文字描述标注的图像。

第二方面，提供一种基于图文转换模型的安全隐患识别标注装置，包括：

图像获取模块，获取安全生产监管场景中的待识别图像；

图像文字转换模块，利用图文转换模型，根据输入的待识别图像生成图像的文本描述；其中所述图文转换模型包括内存增强的编码器和网格注意力解码器；

相似度匹配模块，用于将图像的文本描述与预构建的安全隐患描述列表中的场景文本描述进行相似度匹配，获取匹配到的场景文本描述对应的安全隐患的文字描述和关键词；其中所述安全隐患描述列表包括存在安全隐患的场景文本描述以及对应的安全隐患的文字描述和关键词；

条件目标检测模块，用于利用条件目标检测模型，根据匹配到的关键词在待识别图像中安全隐患位置添加目标框并标注安全隐患的文字描述。

第三方面，本发明提供了一种设备，包括，

存储器；

处理器；

以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现上述第一方面所述的方法。

第四方面，本发明提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的方法。

与现有技术相比，本发明所达到的有益效果：本发明将图像文字转换算法、相似度匹配算法和Grounding DINO算法与传统的安全生产监管相结合，为其提供了一种智能识别和标注手段，具有重要的实际意义。

结合图像字幕来实现识别安全生产监管场景中是否存在安全隐患并进行标注的方法，可以使整个模型对场景的理解更充分，鲁棒性和普适性更好，也拓宽了智能识别安全隐患技术的使用群体。

本发明通过将存在安全隐患的安全生产场景的图像输入构建的识别安全隐患图像的图文转换模型，输出在隐患位置添加目标框和该安全隐患文本描述标注的图像，能够快速捕捉到图像中存在安全隐患的位置，为实现智能安全生产监管提供技术支持。

附图说明

图1是本发明实施例中安全隐患识别标注方法的流程示意图；

图2是本发明实施例中识别安全隐患的图文转换网络结构示意图；

图3是本发明实施例中图像字幕生成网络结构示意图；

图4是本发明实施例中相似度匹配网络结构示意图；

图5是本发明实施例中条件目标检测网络的结构示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1：

一种基于图文转换模型的安全隐患识别标注方法，包括：

获取安全生产监管场景中的待识别图像；

在一些实施例中，如图1所示，本实施例的主要步骤如下：

构建数据集，包括：

(1)收集并准备足够多的安全生产监管场景图像，包括存在安全隐患的和不存在安全隐患，并划分为训练集样本和测试集样本；

(2)构建一个安全隐患描述列表，包括存在安全隐患的场景文本描述、该安全隐患的文字描述和关键词；

构建识别安全隐患图像的图文转换模型并训练，包括：

(3)构建内存增强的编码器，用于处理从输入图像中提取的图像区域集并设计区域之间的关系；

(4)构建网格注意力解码器，用于从每个编码层的输出中读取，逐字生成图像文本描述；

(5)构建相似度匹配网络，用于对生成的文本与所构建的安全隐患描述列表中存在安全隐患的场景描述文本进行相似度匹配，输出匹配到的安全隐患的描述和关键词；

(6)构建条件目标检测网络，用于根据得到的关键词在目标位置加框标记并添加该安全隐患的文字描述；

(7)定义损失函数，将包含内存增强的编码器和网格注意力解码器的图像字幕模型、相似度匹配网络与Grounding DINO模型按照各自的损失函数进行整体训练，直至得到的图像中的目标框和相应文本都为期望值；

(8)测试阶段，将测试集中图像输入训练好的识别安全隐患图像的图文转换模型进行测试，获得在输入图像中存在安全隐患的位置准确添加目标框和文本标注的图像。

步骤1：收集制作安全生产监管场景下存在安全隐患的数据集，分为训练集和测试集。

采用网站提取真实安全生产监管场景内存在安全隐患和不存在安全隐患的的图像、摄像机拍摄、佩戴AR眼镜实时抓取等方式，构建有250张(尺寸至少1000×1000)的图像数据集，通过调整亮度、调整对比度、图像随机方向旋转等方式，将数据集进行扩充到2000张，分为80％的训练集(图像编号0001～1600)和20％的测试集(图像编号1601～2000)。

步骤2：构建图文转换模型，包含内存增强的编码器和网格注意力解码器，用于生成输入图像对应的文字描述，如图3所示。

步骤2.1：内存增强的编码器，用于处理从输入图像中提取的图像区域集并设计区域之间的关系；其中，内存增强注意力，为用于自我注意的键和值扩展了额外的“槽”，以编码先验信息，并且，通过输入图像区域集X的线性投影获得查询、键和值，如公式(2)～(4)所示：

M_mau(X)＝Attention(W_qX，K′，V′) (2)

K′＝[W_kX，L_k] (3)

V′＝[W_vX，L_v] (4)

其中，K′，V′为包含扩展的槽的键和值，W_q、W_k、W_v为可学习权值矩阵，L_k、L_v为行数n_s的可学习矩阵，[·，·]为串联运算表示。

将内存增强注意力的输出应用于仿射变换组成的位置前馈层，并将每个内存增强注意力和位置前馈层通过残差连接和层归一化操作进行封装，得到完整的内存增强编码层，如公式(5)～(7)所示：

F_f(X)_i＝Uσ(VX_i+b)+d (5)

Z＝AddNorm(M_mau(X)) (6)

其中，AddNorm(·)为残差连接和层归一化的组合，为内存增强编码层的输出，F_f(X)_i为前馈层输出的第i个向量，X_i为输入集中第i个向量，σ(·)为ReLU激活函数，V、U为可学习权重矩阵，b、d为偏置项；

之后，将多个内存增强的编码层按顺序堆叠，得到所述内存增强的编码器，其中，N个编码层的堆栈的多级输出为

步骤2.2：网格注意力解码器，读取每个编码层的输出，逐字生成图像文本描述。其中，网格交叉注意通过门控交叉注意将给定的输入序列的词向量Y的连接到编码器的输出中的每个元素上，如公式(8)所示：

其中，Y为给定的输入序列的词向量，C(·，·)为编码器-解码器交叉注意，α_i为与交叉注意结果大小相同的权重矩阵，为编码器E的输出；

编码器-解码器交叉注意，如公式(9)所示：

由于单词的预测只依赖于先前预测的词，因此，网格注意力解码层包括一遮掩的self-attention，它把从输入序列的词向量Y的第t个元素派生的查询与从第t个元素的左侧子序列获得的键和值连接；同时，所述解码层也包括位置前馈层，形式上和编码层中的一样，如公式(5)所示；

其中，S_mask为随时间推移的遮掩self-attention；

最终，得到逐字生成的图像的文本描述。

步骤3：构建相似度匹配网络。

相似度匹配网络的构成如图4所示，本实施例中采用SBERT模型，进行匹配用到的数据库句子为所述安全隐患描述列表中的存在安全隐患的场景描述文本，根据SBERT模型，需预先离线处理数据库句子，将其转换为高维向量；然后将经过处理的输入句子和数据库句子组成的句子对输入到参数共享的两个BERT模型中，进行文本序列编码；对编码后得到的句子的所有字向量执行平均池化操作，获得一个固定长度的句子嵌入向量。然后，对所得到的两个句子嵌入向量u和v计算余弦相似度，如公式(13)所示：

预先设置一个恰当的相似度阈值，将相似度高于阈值的句子视为匹配成功，并输出匹配成功的句子在所构建的安全隐患描述列表中对应的安全隐患的描述和关键词。

步骤4：构建条件目标检测网络。

条件目标检测网络的构成如图5所示，本实施例中采用Grounding DINO模型。

将得到的关键词文本填入文本prompt，然后将输入图像和得到的提示语输入Grounding DINO模型中。所述Grounding DINO模型包括：用于图像特征提取的图像骨干，用于文本特征提取的文本骨干，用于图像和文本特征融合的特征增强器，用于query初始化的语言引导query选择模块和用于盒子细化的跨模态解码器。

步骤4.1：使用的文本prompt为sub-sentence级表征，引入了attention mask，既保留了每个单词特征，又消除不相关单词间相互作用，以便进行细粒度的理解；

步骤4.2：特征增强器包括多个特征增强层，每个特征增强层中，利用Deformableself-attention增强图像特征和原始self-attention增强文本特征，并增加image-to-text的交叉注意力和text-to-image的交叉注意力来帮助对齐不同模态特征，从而进行特征融合；

步骤4.3：语言引导的query选择模块，通过输出query索引，基于选择的索引提取特征，从而初始化query，以选择与输入提示语文本更相关的特征作为解码器query；

步骤4.4：跨模态解码器包括：self-attention层，用于组合图像特征的imagecross-attention层，用来组合文本特征的text cross-attention层以及FFN层；跨模态解码器从两个模态特征中提取期望的特征并更新跨模态query，输出query用于预测目标框并提取对应的短语；

步骤4.5：最终，为给定的(图像，文本)对输出目标对象框和相应短语文本。

步骤5：制定网络的训练方式。

步骤5.1：进行模型迭代训练，迭代次数为epoch＝200，每一个epoch分批次处理训练数据集图像，每一批处理batch_size＝16个图像，更新网络参数，直至所有批次图像处理完成。

图文转换模型、相似度匹配网络与Grounding DINO模型按照各自的损失函数进行整体训练，直至得到的图像中的目标框和相应文本都为期望值。

步骤5.2：定义网络训练的损失函数。

步骤5.2.1：图像文字转换网络的损失函数包括：

其中，ωⁱ为波束中第i个句子，r(·)为奖励函数，b＝(∑_ir(ωⁱ))/k为baseline；

步骤5.2.2：相似度匹配网络的损失函数包括：

其中，L_MSE为均方误差损失，N为样本数量，y_i为样本标签，为样本预测概率；

步骤5.2.3：Grounding DINO模型的损失函数包括：

其中，A为ground truth，B为预测框，C为这两个区域的闭包(闭包取的是包围这两个矩形区域的平行于坐标轴的最小矩形)，y_i为目标框，f(x_i)为模型输出预测框。

步骤6：将测试集中图像输入训练好的识别安全隐患图像的图文转换模型进行测试，获得在输入图像中存在安全隐患的位置准确添加目标框和该安全隐患的描述文本标注的图像。

本发明通过将存在安全隐患的安全生产监管场景图像输入构建的识别安全隐患图像的图文转换模型，输出在隐患位置添加目标框和文本标注的图像，能够快速捕捉到图像中存在安全隐患的位置，为实现智能安全生产监管提供技术支持。

实施例2：

基于实施例1所述的基于图文转换模型的安全隐患识别标注方法，本实施例提供一种基于图文转换模型的安全隐患识别标注系统，包括：

图像获取模块，获取安全生产监管场景中的待识别图像；

实施例3

第三方面，基于实施例1，本实施例提供了一种设备，包括，

存储器；

处理器；

以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现实施例1所述的方法。

实施例4

第四方面，基于实施例1，本实施例提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1所述的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于图文转换模型的安全隐患识别标注方法，其特征是，包括：

获取安全生产监管场景中的待识别图像；

2.根据权利要求1所述的基于图文转换模型的安全隐患识别标注方法，其特征是，所述内存增强的编码器E由多个内存增强编码层按顺序堆叠而成，其中每个内存增强编码层依次包括内存增强注意力和位置前馈层；所述内存增强的编码器用于处理输入图像中的区域并处理区域之间的关系，具体包括：

M_mau(X)＝Attention(W_qX，K′，V′) (2)

K′＝[W_kX，L_k] (3)

V′＝[W_vX，L_v] (4)

F_f(X)_i＝Uσ(VX_i+b)+d (5)

Z＝AddNorm(M_mau(X)) (6)

3.根据权利要求2所述的基于图文转换模型的安全隐患识别标注方法，其特征是，所述网格注意力解码器D包括多个网格注意力解码层堆栈，每个网格注意力解码层均包括遮掩的自注意力、网格交叉注意和位置前馈层，用于读取每个编码层的输出并生成输出描述的下一个标记，具体包括：

其中，为网格交叉注意力的输出；Y为给定的输入序列的词向量，C(·,·)为编码器-解码器交叉注意，α_i为与交叉注意结果大小相同的权重矩阵，/>为编码器E的输出；

编码器-解码器交叉注意，如公式(9)所示：

4.根据权利要求1所述的基于图文转换模型的安全隐患识别标注方法，其特征是，所述图文转换模型训练的损失函数为：

其中k为样本数量，ωⁱ为波束中第i个句子，p(ωⁱ)为波束中第i个句子的概率，r(·)为奖励函数，b＝(∑_ir(ωⁱ))/为基线，为梯度计算。

5.根据权利要求1所述的基于图文转换模型的安全隐患识别标注方法，其特征是，所述相似度匹配采用SBERT模型，具体包括：

6.根据权利要求5所述的基于图文转换模型的安全隐患识别标注方法，其特征是，所述SBERT模型训练的损失函数L^P为：

7.根据权利要求1所述的基于图文转换模型的安全隐患识别标注方法，其特征是，所述条件目标检测网络AOD采用Grounding DINO模型，具体包括：

8.根据权利要求7所述的基于图文转换模型的安全隐患识别标注方法，其特征是，Grounding DINO模型采用L1损失和GIoU损失用作边框回归，从而计算预测目标和提示语文本token之间的对比损失，如公式(16)～(18)所示：

9.一种基于图文转换模型的安全隐患识别标注装置，其特征是，包括：

图像获取模块，获取安全生产监管场景中的待识别图像；

10.一种存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至8任一项所述的方法。