CN117253196B

CN117253196B - 钢铁行业中基于视频的安全风险监控方法及装置

Info

Publication number: CN117253196B
Application number: CN202311532305.2A
Authority: CN
Inventors: 孙闻初; 邵剑超; 王爱平
Original assignee: Benxi Steel Group Information Automation Co ltd
Current assignee: Benxi Steel Group Information Automation Co ltd
Priority date: 2023-11-17
Filing date: 2023-11-17
Publication date: 2024-02-02
Anticipated expiration: 2043-11-17
Also published as: CN117253196A

Abstract

本发明提供一种钢铁行业中基于视频的安全风险监控方法及装置，通过预训练的语言模型的码本生成多个样本视频流的样本视频帧中包含的对象的对象标签以及各个对象标签在样本视频帧中对应的位置，并基于预设风险对应的待监控对象的描述语料库以及样本视频帧中包含的对象的对象标签，确定样本视频帧的风险标签，获取样本视频帧中待监控对象的风险位置，实现了视频标注数据的自动生成，大大提升了视频标注数据的标注效率，因此可以收集大量标注数据，从而训练出模型性能更佳的安全风险监控模型；再基于该已训练的安全风险监控模型对预设区域拍摄的实时视频进行风险识别，并在识别出预设风险时进行预警，可以实现钢铁行业安全风险的精准识别和预警。

Description

钢铁行业中基于视频的安全风险监控方法及装置

技术领域

本发明涉及视频监控技术领域，尤其涉及一种钢铁行业中基于视频的安全风险监控方法及装置。

背景技术

现代钢铁行业生产正在朝着智能化、无人化转变，但部分岗位仍然无法通过自动化手段替代。如何保障这些人工操作岗位的生产安全是每个钢铁企业安生产的第一要务，通过信息化手段对物的不安全因素、人的不安全行为做出快速准确的分析并及时预警是解决安全生产问题的重要技防手段。

目前对钢铁行业的生产区域进行视频监控并自动进行安全预警的主流方法是通过机器学习方式进行视频分析，甚至可以引入大模型（即具有巨大参数量和复杂结构的机器学习模型）进行视频分析，以提升视频监控预警的精度。然而，当前机器学习模型（尤其是大模型）需要大量的标注样本供模型学习，而视频数据的数据量极为庞大且标注时通常需要勾画出单帧中的待标注对象，因此需要耗费巨大的人力成本且标注效率低下，导致难以获取大量的高质量标注数据，从而造成训练得到的机器学习模型的性能欠佳。

发明内容

本发明提供一种钢铁行业中基于视频的安全风险监控方法及装置，用以解决现有技术中样本标注需要耗费巨大的人力成本且标注效率低下，导致难以获取大量的高质量标注数据，从而造成训练得到的机器学习模型的性能欠佳的缺陷。

本发明提供一种钢铁行业中基于视频的安全风险监控方法，包括：

基于预设区域设置的摄像头，采集所述预设区域的实时视频；

基于已训练的安全风险监控模型对所述实时视频进行风险识别，并在识别出预设风险时进行预警；

其中，所述安全风险监控模型是基于样本视频流以及所述样本视频流中样本视频帧的风险标签及风险位置训练得到的，所述风险标签和所述风险位置是基于如下步骤获取的：

基于预训练的语言模型的码本生成多个样本视频流的样本视频帧中包含的对象的对象标签以及所述对象标签在样本视频帧中对应的位置；

基于所述预设风险对应的待监控对象的描述语料库以及所述样本视频帧中包含的对象的对象标签，确定所述样本视频帧的风险标签，并在所述样本视频帧的风险标签为所述预设风险时获取所述样本视频帧中所述待监控对象的风险位置。

根据本发明提供的一种钢铁行业中基于视频的安全风险监控方法，所述基于预训练的语言模型的码本生成多个样本视频流的样本视频帧中包含的对象的对象标签以及所述对象标签在样本视频帧中对应的位置，包括：

基于标签生成模型的编码器对所述样本视频帧进行图特征提取，得到所述样本视频帧对应的不同尺度的特征图；

基于标签生成模型的词量化层，针对所述样本视频帧对应的任一尺度的特征图，基于所述预训练的语言模型的码本和所述任一尺度的特征图中各特征点的特征向量，确定所述任一尺度的特征图中各特征点对应的描述词；

基于标签生成模型的标签位置确定层，结合最小尺度的特征图中各特征点对应的描述词，确定所述样本视频帧中包含的对象的对象标签，并基于各个尺度的特征图中各特征点对应的描述词以及各特征点在所述样本视频帧中对应的图像区域，确定所述对象标签在相应样本视频帧中对应的位置。

根据本发明提供的一种钢铁行业中基于视频的安全风险监控方法，所述基于各个尺度的特征图中各特征点对应的描述词以及各特征点在所述样本视频帧中对应的图像区域，确定所述对象标签在相应样本视频帧中对应的位置，包括：

基于所述各个尺度的特征图中各特征点在所述样本视频帧中对应的图像区域，确定最小尺度的特征图中各特征点在最大尺度的特征图中映射的特征点；其中，最小尺度的特征图中任一特征点在最大尺度的特征图中映射的特征点在所述样本视频帧中对应的图像区域与所述最小尺度的特征图中所述任一特征点在所述样本视频帧中对应的图像区域相交；

基于所述最小尺度的特征图中任一特征点在最大尺度的特征图中映射的特征点对应的描述词以及所述映射的特征点在所述样本视频帧中对应的图像区域，确定描述词相同或与所述最小尺度的特征图中所述任一特征点对应的对象标签相关联的所述映射的特征点作为待合并特征点；

将所述待合并特征点在所述样本视频帧中对应的图像区域合并，得到所述最小尺度的特征图中所述任一特征点对应的对象标签在所述样本视频帧中对应的位置。

根据本发明提供的一种钢铁行业中基于视频的安全风险监控方法，所述标签生成模型是基于通过样本图像计算得到的图文相似度损失进行参数调整得到的；其中，所述图文相似度损失是基于所述样本图像与所述标签生产模型输出的所述样本图像中包含的对象的对象标签之间的相似度确定的。

根据本发明提供的一种钢铁行业中基于视频的安全风险监控方法，所述样本图像与所述标签生产模型输出的所述样本图像中包含的对象的对象标签之间的相似度是基于CLIP模型计算的。

根据本发明提供的一种钢铁行业中基于视频的安全风险监控方法，所述基于所述预设风险对应的待监控对象的描述语料库以及所述样本视频帧中包含的对象的对象标签，确定所述样本视频帧的风险标签，并在所述样本视频帧的风险标签为所述预设风险时获取所述样本视频帧中所述待监控对象的风险位置，包括：

将所述样本视频帧中的每一对象标签与所述预设风险对应的待监控对象的描述语料库中的每一预设词两两进行匹配，得到所述样本视频帧中的每一对象标签的匹配结果；

若所述样本视频帧中的每一对象标签的匹配结果均为匹配失败，则确定所述样本视频帧的风险标签为无风险；

否则，确定所述样本视频帧的风险标签为所述预设风险，获取所述样本视频帧中匹配结果为匹配成功的对象标签以及所述匹配成功的对象标签在所述样本视频帧中对应的位置，并将所述匹配成功的对象标签在所述样本视频帧中对应的位置合并，得到所述样本视频帧中所述待监控对象的风险位置。

根据本发明提供的一种钢铁行业中基于视频的安全风险监控方法，所述基于已训练的安全风险监控模型对所述实时视频进行风险识别，包括：

若所述预设风险对应的待监控对象为可移动对象，则基于所述预设区域设置的摄像头的拍摄角度，确定所述摄像头拍摄的实时视频的视频帧中的固定物体区域；

裁切掉所述实时视频的视频帧中的固定物体区域，得到所述实时视频的裁剪视频帧；

基于所述已训练的安全风险监控模型对所述实时视频的裁剪视频帧进行风险识别。

本发明还提供一种钢铁行业中基于视频的安全风险监控装置，包括：

视频采集单元，用于基于预设区域设置的摄像头，采集所述预设区域的实时视频；

安全风险监控单元，用于基于已训练的安全风险监控模型对所述实时视频进行风险识别，并在识别出预设风险时进行预警；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述钢铁行业中基于视频的安全风险监控方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述钢铁行业中基于视频的安全风险监控方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述钢铁行业中基于视频的安全风险监控方法。

本发明提供的钢铁行业中基于视频的安全风险监控方法及装置，通过预训练的语言模型的码本生成多个样本视频流的样本视频帧中包含的对象的对象标签以及各个对象标签在样本视频帧中对应的位置，并基于预设风险对应的待监控对象的描述语料库以及样本视频帧中包含的对象的对象标签，确定样本视频帧的风险标签，并在样本视频帧的风险标签为预设风险时获取样本视频帧中待监控对象的风险位置，实现了视频标注数据的自动生成，大大提升了视频标注数据的标注效率，因此可以收集大量的样本视频流以及样本视频流中各样本视频帧的风险标签及风险位置，从而训练出模型性能更佳的安全风险监控模型；再基于该已训练的安全风险监控模型对预设区域拍摄的实时视频进行风险识别，并在识别出预设风险时进行预警，可以实现钢铁行业安全风险的精准识别和预警。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的钢铁行业中基于视频的安全风险监控方法的流程示意图；

图2是本发明提供的标签位置确定方法的流程示意图之一；

图3是本发明提供的标签位置确定方法的流程示意图之二；

图4是本发明提供的钢铁行业中基于视频的安全风险监控装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的钢铁行业中基于视频的安全风险监控方法的流程示意图，如图1所示，该方法包括：

步骤110，基于预设区域设置的摄像头，采集所述预设区域的实时视频；

步骤120，基于已训练的安全风险监控模型对所述实时视频进行风险识别，并在识别出预设风险时进行预警；

其中，如图2所示，所述安全风险监控模型是基于样本视频流以及所述样本视频流中样本视频帧的风险标签及风险位置训练得到的，所述风险标签和所述风险位置是基于如下步骤获取的：

步骤210，基于预训练的语言模型的码本生成多个样本视频流的样本视频帧中包含的对象的对象标签以及所述对象标签在样本视频帧中对应的位置；

步骤220，基于所述预设风险对应的待监控对象的描述语料库以及所述样本视频帧中包含的对象的对象标签，确定所述样本视频帧的风险标签，并在所述样本视频帧的风险标签为所述预设风险时获取所述样本视频帧中所述待监控对象的风险位置。

具体地，可以预先在车间、工艺关键区域等预设区域的不同角度设置高清工业摄像头，以采集相应预设区域的实时视频。随后，将该实时视频输入至已训练的安全风险监控模型进行风险识别，得到风险识别结果。其中，风险识别结果可以指示该实时视频中是否记录了存在预设风险的行为或现象，该预设风险可以是根据实际监控场地和监控要求设定的违规情况，例如可以是火灾、违规饮食、禁入区域闯入、人员受伤等，本发明实施例对此不作具体限定。若风险识别结果指示该实时视频中记录了存在安全风险的行为或现象，即安全风险监控模型识别出预设风险时，可以进行预警，例如触发视觉和声音预警等。此处，安全风险监控模型可以是3D CNN模型，还可以为目标检测模型、目标跟踪模型以及行为识别模型组合而成的融合模型，本发明实施例对此不作具体限定。

在一些实施例中，为了降低安全风险监控模型的运算量，从而提升安全监控的效率，可以在预设风险对应的待监控对象为可移动对象（例如人）时，基于预设区域设置的摄像头的拍摄角度，确定该摄像头拍摄的实时视频的视频帧中的固定物体区域。该固定物体区域中拍摄的对象均为固定对象，例如机械设备等。随后，基于图像处理函数批量裁切掉实时视频的视频帧中的固定物体区域，得到实时视频的裁剪视频帧。接着基于已训练的安全风险监控模型对实时视频的裁剪视频帧进行风险识别，可以降低安全风险监控模型的运算时间，提升其识别安全风险的效率。

无论安全风险监控模型是3D CNN这样的单一模型，还是目标检测模型、目标跟踪模型以及行为识别模型组合而成的融合模型，均可以基于样本视频流以及样本视频流中样本视频帧的风险标签（用于指示样本视频帧中是否存在预设风险）及风险位置（即预设风险对应的待监控对象在样本视频帧中的位置，其可以表现为一个圈住待监控对象的矩形框，而待监控对象为表示预设风险的视觉对象，例如预设风险为火灾时，待监控对象为火，预设风险为禁入区域闯入时，待监控对象为人，预设风险为违规饮食时，待监控对象为正在饮食的人）训练得到。可见，大量的标注数据在其训练过程中是必不可少的。然而，视频数据的数据量极为庞大且标注时需要勾画出单帧中的待标注对象，标注的工作量过于庞大导致标注效率低下，从而难以获取大量的高质量标注数据，进而影响了模型性能。为了克服此问题，本发明实施例提供一种视频标签自动生成方式，大大提升了安全风险监控模型所需标注数据的标注效率，从而保障了安全风险监控模型的风险监控能力。

具体而言，可以基于预训练的语言模型的码本（codebook）生成多个样本视频流的样本视频帧中包含的对象的对象标签以及各个对象标签在样本视频帧中对应的位置。其中，码本保存了分词与该语言模型提取的相应分词的词嵌入（word embedding）之间的映射关系。该语言模型可以是BERT、GPT或大语言模型（Large Language Model，LLM）等任一种已经具备自然语言处理能力的预训练语言模型，本发明实施例对此不作具体限定。基于该语言模型的码本以及样本视频帧的特征图，通过量化自然语言对应的词嵌入与图像对应的特征图之间的相似度，可以确定码本中与样本视频帧高度相关的分词，得到该样本视频帧中包含的对象的对象标签。此处，基于该语言模型的码本以及样本视频帧的特征图，可以量化码本中各分词对应的词嵌入与样本视频帧对应的特征图中各特征点的特征向量之间的相似度，从而确定码本中与样本视频帧的特征图中各特征点相关的分词，作为该样本视频帧中包含的对象的对象标签（即各特征点对应的对象标签）。另外，根据样本视频帧的特征图中各特征点，可以确定各特征点在原始的样本视频帧中对应的图像区域，并为该图像区域和相应特征点对应的对象标签建立关联，得到各个对象标签在样本视频帧中对应的位置。

在一些实施例中，如图3所示，可以采用如下方式生成多个样本视频流的样本视频帧中包含的对象的对象标签以及各个对象标签在样本视频帧中对应的位置：

步骤310，基于标签生成模型的编码器对所述样本视频帧进行图特征提取，得到所述样本视频帧对应的不同尺度的特征图；

步骤320，基于标签生成模型的词量化层，针对所述样本视频帧对应的任一尺度的特征图，基于所述预训练的语言模型的码本和所述任一尺度的特征图中各特征点的特征向量，确定所述任一尺度的特征图中各特征点对应的描述词；

步骤330，基于标签生成模型的标签位置确定层，结合最小尺度的特征图中各特征点对应的描述词，确定所述样本视频帧中包含的对象的对象标签，并基于各个尺度的特征图中各特征点对应的描述词以及各特征点在所述样本视频帧中对应的图像区域，确定所述对象标签在相应样本视频帧中对应的位置。

具体而言，标签生产模型包含编码器、词量化层和标签位置确定层。其中，编码器可以基于卷积神经网络构建得到，用于对样本视频帧进行图特征提取，得到该样本视频帧对应的不同尺度的特征图。此处，由于卷积神经网络中有多个卷积层，而每个卷积层由于感受野不同，故而提取出的特征图的尺度也不同，因此可以随机抽取多个卷积层输出的特征图作为该样本视频帧对应的不同尺度的特征图，且越浅层的卷积层输出的特征图的尺度越大。需要说明的是，至少应当抽取最后一层卷积层输出的特征图（因为该层输出的特征图具备更高级的图像语义，有助于区分样本视频帧中的不同对象），且至少应当抽取前3层卷积层中的一个卷积层输出的特征图（因为该层输出的特征图中保留了更丰富的空间位置信息），以保障后续词量化层和标签位置确定层的准确性。每个特征图中包含每个特征点对应的图特征向量，该图特征向量中包含了标签生产模型能够理解的样本视频帧中某局部区域的图像语义。

词量化层用于确定上述各个尺度的特征图中各特征点对应的描述词。其中，针对样本视频帧对应的任一尺度的特征图，可以基于上述预训练的语言模型的码本和该尺度的特征图中各特征点的特征向量，计算该尺度的特征图中各特征点的特征向量与码本中各分词的词嵌入之间的相似度，筛选出词嵌入与任一特征点的特征向量相似度最高且相似度高于预设相似度阈值的分词，作为该特征点对应的描述词，从而得到该尺度的特征图中各特征点对应的描述词。此处，考虑到特征图中各特征点的特征向量的维度与码本中各分词的词嵌入的维度不同，为了更准确地量化特征图中各特征点与码本中各分词的相似度，可以先基于该尺度的特征图对应的线性转换矩阵（该线性转换矩阵可以在标签生产模型的训练过程中学习得到）对该特征图中各特征点的特征向量进行转换，使得转换后的特征向量的维度与码本中分词的词嵌入一致，进而计算转换后的特征向量与码本中分词的词嵌入之间的相似度。

标签位置确定层用于基于最小尺度的特征图中各特征点对应的描述词，确定该样本视频帧中包含的对象的对象标签。即可以将最小尺度的特征图中各特征点对应的描述词作为该样本视频帧中包含的对象的对象标签，样本视频帧的每个对象标签均与最小尺度的特征图中的某个特征点对应。需要说明的是，即使最小尺度的特征图中各特征点对应的描述词存在重复现象，此时也不进行去重操作。此外，为了获取样本视频帧中每个对象标签对应的最小包围框作为其在样本视频帧中对应的位置，以提升安全风险监控模型的训练效果，标签位置确定层还用于基于各个尺度的特征图中各特征点对应的描述词以及各特征点在样本视频帧中对应的图像区域，确定各个对象标签在该样本视频帧中对应的位置。其中，可以通过对该尺度的特征图进行上采样和插值处理，使其尺度与原始的样本视频帧一致后，根据上述处理后的特征图中每个特征点的位置以及每个特征点与处理前的特征图（即该尺度的特征图）中每个特征点的对应关系，确定该尺度的特征图中每个特征点在样本视频帧中对应的图像区域。

在一些实施例中，在基于各个尺度的特征图中各特征点对应的描述词以及各特征点在样本视频帧中对应的图像区域，确定各个对象标签在相应样本视频帧中对应的位置时，可以基于各个尺度的特征图中各特征点在样本视频帧中对应的图像区域，确定最小尺度的特征图中各特征点在最大尺度的特征图中映射的特征点。其中，最小尺度的特征图A中任一特征点Ai在最大尺度的特征图B中映射的特征点Bj在样本视频帧中对应的图像区域与最小尺度的特征图中该特征点Ai在样本视频帧中对应的图像区域相交，即存在重叠区域。由于最小尺度的特征图中的任一特征点在样本视频帧中对应的图像区域比该特征点在最大尺度的特征图中映射的特征点在样本视频帧中对应的图像区域大很多，因此最小尺度的特征图中任一特征点在最大尺度的特征图中存在多个映射的特征点。

随后，基于最小尺度的特征图A中任一特征点Ai在最大尺度的特征图B中映射的多个特征点Bj、Bj+1、...、Bn分别对应的描述词，以及上述映射的特征点Bj、Bj+1、...、Bn各自在样本视频帧中对应的图像区域，确定上述映射的特征点Bj、Bj+1、...、Bn中描述词相同或均与最小尺度的特征图中该特征点Ai对应的对象标签相关联（例如多个特征点的描述词都是该特征点Ai对应的对象标签所指示对象的组成部分）的特征点作为待合并特征点。接着将上述待合并特征点在样本视频帧中对应的图像区域合并，将该合并区域对应的最小包围框作为最小尺度的特征图A中该特征点Ai对应的对象标签在样本视频帧中对应的位置。

在另一些实施例中，标签生成模型可以根据基于样本图像计算得到的图文相似度损失进行参数调整，以实现模型训练。其中，图文相似度损失是基于样本图像与标签生产模型输出的该样本图像中包含的对象的对象标签之间的相似度确定的。例如，可以计算数值1以及任一样本图像与标签生产模型输出的该样本图像中包含的对象的对象标签之间的相似度（即为sim）的差值（即1－sim），作为该样本图像的单样本损失，随后累加各个样本图像的单样本损失，作为上述图文相似度损失。可选地，任一样本图像与该标签生产模型输出的该样本图像中包含的对象的对象标签之间的相似度可以基于CLIP（ContrastiveLanguage-Image Pre-Training，对比语言-图像预训练）模型计算，运用其图文匹配能力计算上述相似度。

在获取得到各个样本视频帧中包含的对象的对象标签以及各个对象标签在相应样本视频帧中对应的位置之后，可以基于预设风险对应的待监控对象的描述语料库以及样本视频帧中包含的对象的对象标签，确定该样本视频帧的风险标签，并在该样本视频帧的风险标签为预设风险时获取该样本视频帧中待监控对象的风险位置。其中，预设风险对应的待监控对象的描述语料库可以全面描述该待监控对象的视觉特征。将预设风险对应的待监控对象的描述语料库与样本视频帧中包含的对象的对象标签进行匹配，能快速确定该样本视频帧中是否包含待监控对象，从而得到该样本视频帧的风险标签。

具体而言，可以将该样本视频帧中的每一对象标签与上述预设风险对应的待监控对象的描述语料库中的每一预设词两两进行匹配，得到该样本视频帧中的每一对象标签的匹配结果。若该样本视频帧中的每一对象标签的匹配结果均为匹配失败，则确定该样本视频帧的风险标签为无风险。否则，确定该样本视频帧的风险标签为预设风险。在此情形下，可以获取样本视频帧中匹配结果为匹配成功的对象标签以及匹配成功的对象标签在该样本视频帧中对应的位置，并将上述匹配成功的对象标签在该样本视频帧中对应的位置进行合并，得到该样本视频帧中待监控对象的风险位置。此外，还可以在确定样本视频帧的风险标签为预设风险之后，设置人工复核程序，以确保数据标注的准确性。

综上所述，本发明实施例提供的方法，通过预训练的语言模型的码本生成多个样本视频流的样本视频帧中包含的对象的对象标签以及各个对象标签在样本视频帧中对应的位置，并基于预设风险对应的待监控对象的描述语料库以及样本视频帧中包含的对象的对象标签，确定样本视频帧的风险标签，并在样本视频帧的风险标签为预设风险时获取样本视频帧中待监控对象的风险位置，实现了视频标注数据的自动生成，大大提升了视频标注数据的标注效率，因此可以收集大量的样本视频流以及样本视频流中各样本视频帧的风险标签及风险位置，从而训练出模型性能更佳的安全风险监控模型；再基于该已训练的安全风险监控模型对预设区域拍摄的实时视频进行风险识别，并在识别出预设风险时进行预警，可以实现钢铁行业安全风险的精准识别和预警。

下面对本发明提供的钢铁行业中基于视频的安全风险监控装置进行描述，下文描述的钢铁行业中基于视频的安全风险监控装置与上文描述的钢铁行业中基于视频的安全风险监控方法可相互对应参照。

基于上述任一实施例，图4是本发明提供的钢铁行业中基于视频的安全风险监控装置的结构示意图，如图4所示，该装置包括：

视频采集单元410，用于基于预设区域设置的摄像头，采集所述预设区域的实时视频；

安全风险监控单元420，用于基于已训练的安全风险监控模型对所述实时视频进行风险识别，并在识别出预设风险时进行预警；

本发明实施例提供的装置，通过预训练的语言模型的码本生成多个样本视频流的样本视频帧中包含的对象的对象标签以及各个对象标签在样本视频帧中对应的位置，并基于预设风险对应的待监控对象的描述语料库以及样本视频帧中包含的对象的对象标签，确定样本视频帧的风险标签，并在样本视频帧的风险标签为预设风险时获取样本视频帧中待监控对象的风险位置，实现了视频标注数据的自动生成，大大提升了视频标注数据的标注效率，因此可以收集大量的样本视频流以及样本视频流中各样本视频帧的风险标签及风险位置，从而训练出模型性能更佳的安全风险监控模型；再基于该已训练的安全风险监控模型对预设区域拍摄的实时视频进行风险识别，并在识别出预设风险时进行预警，可以实现钢铁行业安全风险的精准识别和预警。

基于上述任一实施例，所述基于预训练的语言模型的码本生成多个样本视频流的样本视频帧中包含的对象的对象标签以及所述对象标签在样本视频帧中对应的位置，包括：

基于上述任一实施例，所述基于各个尺度的特征图中各特征点对应的描述词以及各特征点在所述样本视频帧中对应的图像区域，确定所述对象标签在相应样本视频帧中对应的位置，包括：

基于上述任一实施例，所述标签生成模型是基于通过样本图像计算得到的图文相似度损失进行参数调整得到的；其中，所述图文相似度损失是基于所述样本图像与所述标签生产模型输出的所述样本图像中包含的对象的对象标签之间的相似度确定的。

基于上述任一实施例，所述样本图像与所述标签生产模型输出的所述样本图像中包含的对象的对象标签之间的相似度是基于CLIP模型计算的。

基于上述任一实施例，所述基于所述预设风险对应的待监控对象的描述语料库以及所述样本视频帧中包含的对象的对象标签，确定所述样本视频帧的风险标签，并在所述样本视频帧的风险标签为所述预设风险时获取所述样本视频帧中所述待监控对象的风险位置，包括：

基于上述任一实施例，所述基于已训练的安全风险监控模型对所述实时视频进行风险识别，包括：

图5是本发明提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、存储器(memory)520、通信接口(Communications Interface)530和通信总线540，其中，处理器510，存储器520，通信接口530通过通信总线540完成相互间的通信。处理器510可以调用存储器520中的逻辑指令，以执行钢铁行业中基于视频的安全风险监控方法，该方法包括：基于预设区域设置的摄像头，采集所述预设区域的实时视频；基于已训练的安全风险监控模型对所述实时视频进行风险识别，并在识别出预设风险时进行预警；其中，所述安全风险监控模型是基于样本视频流以及所述样本视频流中样本视频帧的风险标签及风险位置训练得到的，所述风险标签和所述风险位置是基于如下步骤获取的：基于预训练的语言模型的码本生成多个样本视频流的样本视频帧中包含的对象的对象标签以及所述对象标签在样本视频帧中对应的位置；基于所述预设风险对应的待监控对象的描述语料库以及所述样本视频帧中包含的对象的对象标签，确定所述样本视频帧的风险标签，并在所述样本视频帧的风险标签为所述预设风险时获取所述样本视频帧中所述待监控对象的风险位置。

此外，上述的存储器520中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的钢铁行业中基于视频的安全风险监控方法，该方法包括：基于预设区域设置的摄像头，采集所述预设区域的实时视频；基于已训练的安全风险监控模型对所述实时视频进行风险识别，并在识别出预设风险时进行预警；其中，所述安全风险监控模型是基于样本视频流以及所述样本视频流中样本视频帧的风险标签及风险位置训练得到的，所述风险标签和所述风险位置是基于如下步骤获取的：基于预训练的语言模型的码本生成多个样本视频流的样本视频帧中包含的对象的对象标签以及所述对象标签在样本视频帧中对应的位置；基于所述预设风险对应的待监控对象的描述语料库以及所述样本视频帧中包含的对象的对象标签，确定所述样本视频帧的风险标签，并在所述样本视频帧的风险标签为所述预设风险时获取所述样本视频帧中所述待监控对象的风险位置。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的钢铁行业中基于视频的安全风险监控方法，该方法包括：基于预设区域设置的摄像头，采集所述预设区域的实时视频；基于已训练的安全风险监控模型对所述实时视频进行风险识别，并在识别出预设风险时进行预警；其中，所述安全风险监控模型是基于样本视频流以及所述样本视频流中样本视频帧的风险标签及风险位置训练得到的，所述风险标签和所述风险位置是基于如下步骤获取的：基于预训练的语言模型的码本生成多个样本视频流的样本视频帧中包含的对象的对象标签以及所述对象标签在样本视频帧中对应的位置；基于所述预设风险对应的待监控对象的描述语料库以及所述样本视频帧中包含的对象的对象标签，确定所述样本视频帧的风险标签，并在所述样本视频帧的风险标签为所述预设风险时获取所述样本视频帧中所述待监控对象的风险位置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种钢铁行业中基于视频的安全风险监控方法，其特征在于，包括：

基于预设风险对应的待监控对象的描述语料库以及所述样本视频帧中包含的对象的对象标签以及所述对象标签在样本视频帧中对应的位置，确定所述样本视频帧的风险标签及风险位置；

所述基于预训练的语言模型的码本生成多个样本视频流的样本视频帧中包含的对象的对象标签以及所述对象标签在样本视频帧中对应的位置，包括：

2.根据权利要求1所述的钢铁行业中基于视频的安全风险监控方法，其特征在于，所述基于各个尺度的特征图中各特征点对应的描述词以及各特征点在所述样本视频帧中对应的图像区域，确定所述对象标签在相应样本视频帧中对应的位置，包括：

3.根据权利要求1所述的钢铁行业中基于视频的安全风险监控方法，其特征在于，所述标签生成模型是基于通过样本图像计算得到的图文相似度损失进行参数调整得到的；其中，所述图文相似度损失是基于所述样本图像与所述标签生产模型输出的所述样本图像中包含的对象的对象标签之间的相似度确定的。

4.根据权利要求3所述的钢铁行业中基于视频的安全风险监控方法，其特征在于，所述样本图像与所述标签生产模型输出的所述样本图像中包含的对象的对象标签之间的相似度是基于CLIP模型计算的。

5.根据权利要求1所述的钢铁行业中基于视频的安全风险监控方法，其特征在于，所述基于预设风险对应的待监控对象的描述语料库以及所述样本视频帧中包含的对象的对象标签以及所述对象标签在样本视频帧中对应的位置，确定所述样本视频帧的风险标签及风险位置，包括：

将所述样本视频帧中的每一对象标签与预设风险对应的待监控对象的描述语料库中的每一预设词两两进行匹配，得到所述样本视频帧中的每一对象标签的匹配结果；

否则，确定所述样本视频帧的风险标签为预设风险，获取所述样本视频帧中匹配结果为匹配成功的对象标签以及所述匹配成功的对象标签在所述样本视频帧中对应的位置，并将所述匹配成功的对象标签在所述样本视频帧中对应的位置合并，得到所述样本视频帧的风险位置。

6.根据权利要求1所述的钢铁行业中基于视频的安全风险监控方法，其特征在于，所述基于已训练的安全风险监控模型对所述实时视频进行风险识别，包括：

7.一种钢铁行业中基于视频的安全风险监控装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述钢铁行业中基于视频的安全风险监控方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述钢铁行业中基于视频的安全风险监控方法。