CN111325347A

CN111325347A - 基于可解释视觉推理模型的危险预警描述自动生成方法

Info

Publication number: CN111325347A
Application number: CN202010106747.0A
Authority: CN
Inventors: 聂礼强; 战新刚; 何建明; 赵振兵; 甘甜; 董兴宁
Original assignee: Zhejiang Huibo Electric Power Equipment Manufacturing Co ltd; Shandong University; North China Electric Power University; Zhiyang Innovation Technology Co Ltd
Current assignee: Zhejiang Huibo Electric Power Equipment Manufacturing Co ltd; Shandong University; North China Electric Power University; Zhiyang Innovation Technology Co Ltd
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2020-06-23
Anticipated expiration: 2040-02-19
Also published as: CN111325347B

Abstract

一种基于可解释视觉推理模型的危险预警描述自动生成方法，包括建立特定场景的先验知识库和训练数据库，通过迁移学习微调模型以得到针对该场景下的平面目标检测器和三维目标检测器；然后针对某一帧视频信息，通过平面目标检测器检测出所有目标类型和目标的平面位置特征，再并行地通过三维目标检测器得到所有目标的三维空间特征，并根据检测出的目标类型、结合先验知识库构造该帧视频下的关系任务图，将其通过图神经网络抽取特征后，融合上述的平面空间特征和三维空间特征，送入模块化的多层感知机中进行推理学习，最终得到该帧视频图像下存在的危险等级和具有危险关系的对象，最后结合先验知识库中的语义转换生成该帧视频图像所对应的中文描述。

Description

基于可解释视觉推理模型的危险预警描述自动生成方法

技术领域

本发明公开一种基于可解释视觉推理模型的危险预警描述自动生成方法，属于智能电力的技术领域。

背景技术

随着经济的发展和科技的进步，我国正在逐步发展成为一个现代化、信息化的社会。在工业领域，视频摄像头也被广泛应用于各种生产实践，以完成相关安全监控，危险预测等任务；

然而，在工业领域大规模铺设视频摄像头的背景下，并没有一套成熟、经济、准确、高效的方法去利用这些庞大的视频数据去进行危险预测和安全监控的任务。目前主流的危险预测方法主要采用人工盯防或传统的图像描述生成的方式，前者将所有摄像头的实时监控数据传送到安全保障室，由安全员负责监督并给出预警；该模式不仅耗费大量人力，而且受制于人的注意力、精力、观察范围等因素，既容易忽视存在的危险，又无法实现对潜在风险的及时预警。而传统的图像描述生成(image caption) 方法基于简单的图像目标检测技术来实现，这只能给出图中存在的目标信息，无法根据其对应的空间位置关系给出预警，从而导致对危险预测的正确率不尽如人意；例如，在输变电场景中，吊车位于高压电线下是存在安全隐患的，而吊车远离高压电线则认为是安全的，而现有的视频目标检测预警技术只能告诉安全员该场景中存在吊车和高压电线，却很难通过他们的关系给出危险与否的判断。

近年来，在人工智能和深度学习领域，关于机器是否能够“思考”的问题，学术界一直存在争议；2016年，随着AlphaGo在围棋领域战胜了人类的顶尖高手，许多学者相信，机器也能具备逻辑和推理能力，从而开启了对视觉推理研究的热潮。所谓视觉推理问题，相较之前其他与视觉相关的任务，最大的区别在于输入和输出之间不具备直接的联系，必须通过推理才能回答；即给定一个任务，需要机器学会将其划分为若干个子任务，并依次调用这些子任务模块进行处理，最终得到相应的输出。

中国专利文献CN110110043A公开了一种多跳视觉问题推理模型及其推理方法，所述模型包括：多跳视觉问题推理数据集建立单元，用于通过将场景图和知识库相融合成知识图，利用知识图构造包含多跳知识推理问答对的数据集；卷积神经网络，用于提取输入图像的图像特征；长短期记忆网络，用于提取问题特征；知识路由模块化网络，用于将问题解析为查询树，其中查询树是问题的推理过程的符号化表达，并结合查询树和知识库，在知识图中提取出正确的关系或实体，进行多跳推理以给出最终的回答。

但该专利文献对输入图像视觉特征的提取，及知识图的应用手段较为简单；对于前者，该专利文献只是简单的用卷积神经网络进行提取，没有充分考虑图中物体与物体之间的平面空间位置关系和三维空间位置关系；对于后者，该专利文献只是将知识图用于最后的检索任务回答问题，并没有将知识图作为输入，即未对知识图中的实体及关系进行符号化表示，也未做进一步的传播处理和特征提取；基于这两点，在将该专利提出的模型运用于本发明的视觉预警描述任务上时，既无法准确描述存在危险关系的配对，又无法指明产生该危险的具体原因，因此较难获得满意的成果。

中国专利文献CN110414684A公开了一种基于知识感知的模块化视觉推理方法及装置，其中，该方法包括：获取图片，并获取图片对应的提问文本；对提问文本进行动态解析生成多个神经网络模块；将多个神经网络模块变换为树状结构神经网络模块，并对树状结构神经网络模块进行实例化处理生成知识感知神经网络模型；对图片进行视觉特征处理得到图片特征，将图片特征输入知识感知神经网络模型，并输出提问文本对应的答案。该方法针对特定的问题来进行动态组装，形成自下而上的树状模块化结构，可用于在真实图片上进行动态的视觉推理。

但该专利文献没有涉及先验的知识库，因此在进行危险预警推理任务时，既无法指明具有危险关系的物体组合，又无法根据应用场景、动作的变换，进行不同的推理；同时，在对图片进行视觉特征处理时，该模型也较为简单，并未充分考虑图中物体之间的相互平面位置关系和三维位置关系。因此该专利文献提出的模型既无法准确描述存在危险关系的配对，又无法指明产生该危险的具体原因，难以迁移运用于本专利的视觉预警描述任务。

因此，现有技术缺乏对复杂电力场景进行视觉推理并给出危险预警的中文描述的技术方案。

发明内容

针对现有技术的不足，本发明公开一种基于可解释视觉推理模型的危险预警描述自动生成方法。

发明概述：

首先建立针对特定场景的先验知识库和训练数据库，并通过迁移学习微调模型以得到针对该场景下的平面目标检测器和三维目标检测器；然后针对某一帧视频信息，通过平面目标检测器检测出所有目标类型和目标的平面位置特征，再并行地通过三维目标检测器得到所有目标的三维空间特征，并根据检测出的目标类型、结合先验知识库构造该帧视频下的关系任务图，将其通过图神经网络抽取特征后，融合上述的平面空间特征和三维空间特征，送入模块化的多层感知机中进行推理学习，最终得到该帧视频图像下存在的危险等级和具有危险关系的对象，最后结合先验知识库中的语义转换生成该帧视频图像所对应的中文描述。

技术术语解释：

SSD300：单点多盒探测器(Single Shot MultiBox Detector)，是一种目标检测算法，能够得到输入图像的所有目标类型和平面位置，其中平面位置用限界框 (BoundingBox)表示；

SSD-6D：基于SSD的基本思想和处理流程，增加预测目标被观测视角和平面旋转的得分，从而构建目标的三维模型，并给出目标的六自由度位姿；

GraphSage：一种图神经网络算法，采用的是归纳式学习而非直接学习，通过聚合周围邻居节点学习自身节点特征；

MLP：多层感知机，即多层全连接神经网络。

综上，本发明要解决的技术问题如下：

(1)大部分用于预警的视频目标检测方法只能检测图像中目标的平面位置关系，而当摄像头视角变换时，同一场景的物体往往会给出不同位置的错误判断。本发明改进了现有的平面目标检测模型，使之能够根据视频图像推断摄像头的视角和目标的平面旋转，从而描述目标的三维区位特征。

(2)现有的基于视觉的危险预警系统往往只根据图中目标的有/无状态进行预警，而不考虑目标之间的空间关系所隐含的危险。本发明在此基础上，既引入了先验知识图构造目标间的语义关系，同时考虑了目标在图上的空间关系，从而能够使机器结合目标的语义关系和空间关系，进行对视频场景的危险推理和预警描述。

本发明详细的技术方案如下：

一种基于可解释视觉推理模型的危险预警描述自动生成方法，其特征在于，包括以下步骤：

S1：建立先验知识库：包括但不限于，定义目标种类，定义关系种类，定义对应语义等；

S2：建立数据集：包括建立平面目标检测数据集、三维目标检测数据集和危险推理模型数据集；

S3：训练平面目标检测器；

S4：训练三维目标检测器；

S5：使用平面目标检测器检测视频帧中所有目标类型，并结合三维目标检测器提取物体的平面空间关系特征和三维空间关系特征；

S6：结合步骤S1中的先验知识库和步骤S5中检测出的目标类型构建该视频帧的目标语义关系图，并通过图卷积网络提取视频帧中目标物体的语义关系特征；

S7：融合步骤S5和步骤S6中得到的空间关系特征和语义特征，并通过模块化的推理模型进行训练；

S8：将步骤S7中推理结果，结合步骤S1中先验知识库，给出该视频帧中的危险等级和/或预警描述。

根据本发明优选的，所述步骤S1中建立先验知识库具体包括：

S11：定义该场景下所可能包含的所有目标类别：以输变电施工场景为例，可以定义电工、吊车、高压电线等目标实体；设定义的目标总数为P；并定义第i类目标的语义为O_object(i)；

S12：定义目标彼此之间的空间位置关系类别：如目标与另一目标相重叠，目标位于另一目标下/上方等，目标与另一目标平行等空间关系；设定义的空间关系总数为N；并定义第i类关系的语义为O_action(i)；

S13：对步骤S12中定义的每种空间位置关系，根据实际场景，标注出所有可能存在危险的目标配对：以输变电施工场景为例，在目标重叠的场景下，电工操作高压电线(即电工与高压电线部分重叠)会存在危险，故向该场景添加(电工，高压电线) 的实体对；

S14：将步骤S11中的所有目标用one-hot向量表示，得到一个P维的目标向量；再根据步骤S13中每种关系的危险配对，构建在空间关系r下大小为P*P的图邻接矩阵A^r，其中

代表目标i与目标j是危险配对，

代表目标i与目标j的配对不会产生危险；

S15：整合步骤S11中定义的目标向量、步骤S12中定义的空间位置关系、步骤 S13和步骤S14中定义的危险配对矩阵，最终得到大小为N*P*P的一组先验知识图谱作为先验知识库。

根据本发明优选的，所述步骤S2具体包括：

S21：对视频数据取帧并保存为图片并做预处理，所述预处理包括但不限于，对所保存的图片做去重复，去模糊；

S22：对步骤S21中经预处理后的图片，进行人工标注；优选的，仿照Microsoft 公司所开源的数据集MSCOCO，对步骤S21中经预处理后的图片，进行人工标注；优选的，并仿照MSCOCO的格式进行保存，保存所有在步骤S1中定义的目标的矩形框坐标信息；

S23：丰富数据集；随机改变步骤S22中所得到图片的亮度和对比度，并进行其他图像增强的操作，这是为了丰富数据集，并用来训练后面的平面目标检测器；

至此，经步骤S21，S22，S23建立的数据集，将用于步骤S3中的平面目标检测模型的迁移学习；

S24：继续针对图中的危险等级D，以及存在危险的空间关系类别r′，和存在危险的目标配对

进行标注；并定义第i个危险等级的语义为O_danger(i)；上述标注将使用三维数组

保存，其中ψ(r,i,j)＝D(D>0)代表关系r下目标i和目标j 之间存在危险，其中所述D为危险等级，对应分为无危险，轻度危险，中度危险，重度危险或特大危险；这是为了训练后面的危险预警推理模型；

至此，经步骤S21，S22，S23，S24建立的数据集，将用于步骤S7中的危险推理模型的训练；

S25：复制步骤S23中的图像集，使用OpenGL命令对图中目标进行随机转换，并计算边界框与目标掩膜的IoU值(Intersection over Union，一种在特定数据集中检测相应物体准确度的测量标准)，将IoU值大于0.5的作为正样本，其余的作为负样本，并确定每种变换所最可能使用的采样视点和平面旋转；所述采样视点在现有技术中被称为“viewpoint”，所述平面旋转在现有技术中被称为“in-plane rotation”；这个图像集将用于训练后面的三维目标检测器。

至此，经步骤S21，S22，S23，S25步建立的数据集，将用于步骤S4中的三维目标检测模型的迁移学习。

根据本发明优选的，所述步骤S3训练平面目标检测器的方法包括：

S31：使用在数据集MSCOCO上预训练好的SSD300模型作为平面目标检测器的原始模型；单点多盒探测器(Single Shot MultiBox Detector，下文简称SSD)利用预训练好的分类网络来获得多尺度的特征映射，并通过聚合回归以获得最后的限界框 (boundingbox)；具体而言，SSD抽取了传统VGG16网络的部分特征图(feature map)，并在每张特征图上设置了多个先验框(prior box)，以自适应目标的形状；最后将这些特征图组成金字塔结构，同时进行softmax分类和位置回归，以判断先验框是否包含目标，并确定目标的最终位置；相比传统的目标检测算法，SSD300兼顾了检测精度和检测速度，在MSCOCO上有较好的表现；

S32：使用步骤S23中建立的数据集对预训练的SSD300模型进行迁移学习，通过对其参数的微调，所述微调包含在迁移学习中，英文术语为“fine-tune”，本意是将已习得的强大技能迁移到相关的的问题上，因此只要针对特定数据集，微调参数，即可得到较好的识别结果；该步骤使该模型能较好的完成在该场景下对所有目标的二维空间类别检测和位置检测的任务；

S33：训练完成后，固定SSD300的模型参数，使之作为后续检测目标和提取图像平面特征的处理模型。

根据本发明优选的，所述步骤S4训练三维目标检测器的具体方法包括：

S41：复制步骤S3中的模型，将其作为训练三维目标检测器的原始模型，即SSD-6D模型；由于步骤S3中的SSD300模型仅能检测出图中目标类别和平面位置，而在实际应用中，随着视角的变换，相同位置的目标可能具有不同的平面区位，这会对后面推理模型的训练带来很大的干扰；同时注意到SSD300模型实质上就是对图像的不同特征进行采样，并通过一系列假设获得先验框，再从其中输出最优解；因而可以利用这些先验框，在预测目标在图上的区位时，同时预测拍摄目标的视角和目标所进行的平面旋转，并通过非极大值抑制(non-maximum suppression)，选取最优的预测结果，从而构建目标的三维立体模型；

S42：基于训练好的SSD300模型，并使用步骤S25中建立的数据集对其进行训练；具体而言，SSD-6D模型不仅会输出目标的二维限界框，并且还会给出最有可能的视角和平面旋转得分；根据所得到的视角和旋转，计算机将结合限界框的对角线长度和物体的射影比，从而推导出物体的质心位置，再反演重构物体的三维模型，并给出物体的六自由度位姿；

S43：训练完成后，固定SSD-6D的模型参数，使之作为后续提取图像三维特征的处理模型。

根据本发明优选的，所述步骤S5具体包括：

S51：使用步骤S3中训练好的SSD300模型对视频帧进行目标检测和平面限界框标注；并将检测出的目标保存为P维的向量，其中P_i＝1代表在图中检测到目标i，P_i＝0代表图中未发现目标i，设检测到的目标数为l；

S52：将步骤S51中标注的所有限界框依次保存到l张新图像上，抽取预训练好的ResNet101模型的部分特征图，对这l张新图像和包含所有限界框的原图像进一步提取特征，设最终提取的特征通道数为c_2D，特征图为一个q*q维的矩阵，则最终得到大小为

的二维空间特征；

S53：使用步骤S4中训练好的SSD-6D模型对视频帧进行三维限界框标注；并将标注的所有限界框依次保存到l张新图像上，同时抽取预训练好的ResNet101模型的部分特征图，进一步对上述l张图片和包含所有限界框的原图像提取特征，设最终提取的特征通道数为c_3D，特征图为一个q*q维的矩阵，则最终得到大小为

的三维空间特征。

根据本发明优选的，所述步骤S6具体包括：

S61：根据步骤S51中检测到的l个目标，并结合S15中得到的先验知识图谱，构建相应的N*P*P维的任务图谱；由于检测出的目标数不会超过该场景下所定义的目标总数，故该图谱为先验知识图谱的子图；

S62：对于步骤S61中所得到的N张P*P大小的子图，使用GraphSage方法对其提取两次特征；GraphSage相比于其他图神经网络(Graph Neural Network，GNN)模型，采用的是归纳式学习而非直接学习，它对于图中每一个节点，先通过聚合器函数获取所有邻居节点的特征表示，再加上节点自身的特征，并乘以相应的可学习的缩放矩阵，最后通过激活函数进行非线性化处理，其中，采用平均聚合器作为聚合函数，其公式如下：

其中为v为中心节点，N(v)为节点v的所有邻居集合,u为节点v的某一邻居节点，

为第k-1次GraphSage所得到的邻居节点u的特征矩阵，

为第k次GraphSage 所得到的节点v的特征矩阵，其中

即为原始任务图的邻接矩阵，W为一个可学习参数矩阵，用来将

的输入维度映射到

的输出维度，MEAN为求均值函数，σ为激活函数；

设最终提取的特征通道数为c_graph，则通过两次GraphSage聚合特征后，得到大小为

的特征表示。

根据本发明优选的，所述步骤S7具体包括：

S71：针对每种空间关系r，从步骤S62中抽出该关系下的语义图H_r，并根据步骤S52和S53中得到的二维空间特征图T^2D和三维空间特征图T^3D，将其拼接成一组新的特征表示X_r＝H_r+T^2D+T^3D；最终得到大小为

的拼接特征矩阵，作为后续推理模型的输入；

S72：将步骤S71中每组特征表示X_r，通过模块化的多层感知机(MultilayerPerceptron，MLP)进行学习，最后输出在该场景关系r下的危险预测矩阵

并与标签值ψ(r)计算交叉熵损失，其中，

代表机器预测在关系r下，目标i和目标j之间存在危险D；具体而言，一个MLP模块包含k个隐藏层，每个隐藏层含有若干的神经元，并通过ReLU激活函数做非线性化处理，整体模型包含N个MLP子模块，并使用Adam优化器更新梯度；须注意的是，虽然每个MLP模块的结构相同，但其参数是彼此独立更新的，即每种关系所对应的MLP模块的参数并不一致；这种设计使神经网络模块化，并让机器自主学习调用哪个模块以完成危险预测任务；

S73：至此，整体模型训练完成。

根据本发明优选的，所述步骤S8具体包括：

S81：根据输入的一帧视频对应图片，首先根据步骤S5和步骤S6得到融合了语义特征，平面特征和三维特征的多元特征，输入到步骤S7中的多层MLP模型中，最终得到一个三维的危险预测矩阵

其中N为步骤S1中定义的关系总数，P为步骤S1中定义的目标总数；

S82：依次检查预测矩阵

的每一项，对不为0的值进行输出，并根据步骤S1中定义的目标类型、关系类型进行转译，以生成文字；设

则转译规则为：“O_object(i)(主语)+O_action(r)(谓语)+O_object(j)(宾语)，O_danger(D)(危险等级)”，如

则描述为“电工接触高压电线，重度危险”。

在最后推理模型的训练中，使用强化学习模型加入奖惩机制，如Q-learning等，以提升整体模型的评估效果和泛化能力。

本发明的有益效果如下：

本发明利用SDD300模型提取目标平面位置特征，SSD-6D模型提取目标空间位置特征，并结合先验知识库生成相应的目标语义关系子图，将其通过GraphSage提取特征后与上述两种位置特征进行特征融合，送入后续MLP模块中进行推理并给出预警信息。

本发明能够自主的根据视频信息实时给出危险描述和相关信息，辅助或主导相应的安全预警工作；

本发明能够基于视频帧中的物体空间位置关系和语义关系进行推理，而不是简单的基于目标有/无进行推理，其推理的合理性，所得到结果的准确性都有进一步的提升；

本发明还可用于弱监督学习或无监督学习，通过该模型，可能能够发现一些先验未标注的，潜在的危险，从而能够给相关施工人员和安保人员提供一定的借鉴，增强相关工程作业的安全性。

附图说明

图1是本发明所述预警描述自动生成方法的整体流程图；

图2是本发明中步骤S2-S4流程图；

图3是本发明中步骤S1-S8流程图；

图4是本发明实施例和应用例对应的流程图。

具体实施方式

下面结合实施例和说明书附图做详细的说明，但不限于此。

实施例、

如图1-4所示。

一种基于可解释视觉推理模型的危险预警描述自动生成方法，以输电下存在山火的情况为例，包括以下步骤：

S1：建立先验知识库；首先针对特定场景，构建相应的先验知识库；具体的，如室外场景，先定义若干种空间关系，如上/下关系，重叠/分离关系等；针对每种关系，定义可能存在危险的物体组合，如上/下关系中的(高压电线，山火发生位置)，重叠/ 分散关系中的(山火发生未知，高压电线)等；

S3：训练平面目标检测器，对采样的视频帧，使用SSD300模型进行目标检测；并只保留限界框信息，然后使用ResNet101网络进行二维平面特征提取；

S4：训练三维目标检测器，对采样的视频帧，使用SSD-6D模型进行目标检测；并只保留限界框信息，然后使用ResNet101网络进行三维空间特征提取；

S6：结合步骤S1中的先验知识库和步骤S5中检测出的目标类型构建该视频帧的目标语义关系图，并通过图卷积网络提取视频帧中目标物体的语义关系特征；根据检测得到的目标类型，对应先验知识库中预定义的知识，构建该场景下的任务图；然后使用GraphSage网络进行语义特征提取；

S8：将步骤S7中推理结果，结合步骤S1中先验知识库，给出该视频帧中的危险等级和/或预警描述。融合二维平面特征，三维空间特征和语义特征，并送入多层MLP 网络中，得到最终该场景下的危险预测输出，并转化为相应预警信息。

所述步骤S1中建立先验知识库具体包括：

S11：定义该场景下所可能包含的所有目标类别：以输变电施工场景为例，可以定义电工、吊车、高压电线等目标实体，此处再增加山火为新的目标实体；设定义的目标总数为P；并定义第i类目标的语义为O_object(i)；

S13：对步骤S12中定义的每种空间位置关系，根据实际场景，标注出所有可能存在危险的目标配对：以输变电施工场景为例，在目标重叠的场景下，高压电线下存在山火(即山火烟雾与高压电线部分重叠)会存在危险，故向该场景添加(山火烟雾，高压电线)的实体对；

代表目标i与目标j是危险配对，

代表目标i与目标j的配对不会产生危险；

所述步骤S2具体包括：

保存，其中ψ(r,i,j)＝D(D>0)代表关系r下目标i和目标j 之间存在危险，其中所述D为危险等级，对应分为无危险，轻度危险，中度危险，重度危险或特大危险，其中所述在高压线下存在山火烟雾属于重度危险；这是为了训练后面的危险预警推理模型；

所述步骤S3训练平面目标检测器的方法包括：

所述步骤S4训练三维目标检测器的具体方法包括：

所述步骤S5具体包括：

的二维空间特征；

的三维空间特征。

所述步骤S6具体包括：

为第k-1次GraphSage所得到的邻居节点u的特征矩阵，

为第k次GraphSage 所得到的节点v的特征矩阵，其中

的输入维度映射到

的输出维度，MEAN为求均值函数，σ为激活函数；

的特征表示。

所述步骤S7具体包括：

的拼接特征矩阵，作为后续推理模型的输入；

并与标签值ψ(r)计算交叉熵损失，其中

S73：至此，整体模型训练完成。

所述步骤S8具体包括：

S82：依次检查预测矩阵

则描述为“山火在高压线下方，重度危险”。

Claims

1.一种基于可解释视觉推理模型的危险预警描述自动生成方法，其特征在于，包括以下步骤：

S1：建立先验知识库；

S3：训练平面目标检测器；

S4：训练三维目标检测器；

2.根据权利要求1所述的一种基于可解释视觉推理模型的危险预警描述自动生成方法，其特征在于，所述步骤S1中建立先验知识库具体包括：

S11：定义该场景下所可能包含的所有目标类别：设定义的目标总数为P；并定义第i类目标的语义为O_object(i)；

S12：定义目标彼此之间的空间位置关系类别：设定义的空间关系总数为N；并定义第i类关系的语义为O_action(i)；

S13：对步骤S12中定义的每种空间位置关系，根据实际场景，标注出所有可能存在危险的目标配对；

代表目标i与目标j是危险配对，

代表目标i与目标j的配对不会产生危险；

S15：整合步骤S11中定义的目标向量、步骤S12中定义的空间位置关系、步骤S13和步骤S14中定义的危险配对矩阵，最终得到大小为N*P*P的一组先验知识图谱作为先验知识库。

3.根据权利要求1所述的一种基于可解释视觉推理模型的危险预警描述自动生成方法，其特征在于，所述步骤S2具体包括：

S21：对视频数据取帧并保存为图片并做预处理；

S22：对步骤S21中经预处理后的图片，进行人工标注；优选的，仿照Microsoft公司所开源的数据集MSCOCO，对步骤S21中经预处理后的图片，进行人工标注；优选的，并仿照MSCOCO的格式进行保存，保存所有在步骤S1中定义的目标的矩形框坐标信息；

S23：丰富数据集；

S24：继续针对图中的危险等级D，以及存在危险的空间关系类别r^′，和存在危险的目标配对

保存，其中ψ(r,i,j)＝D(D>0)代表关系r下目标i和目标j之间存在危险；

S25：复制步骤S23中的图像集，使用OpenGL命令对图中目标进行随机转换，并计算边界框与目标掩膜的IoU值，将IoU值大于0.5的作为正样本，其余的作为负样本，并确定每种变换所最可能使用的采样视点和平面旋转；

4.根据权利要求3所述的一种基于可解释视觉推理模型的危险预警描述自动生成方法，其特征在于，所述步骤S3训练平面目标检测器的方法包括：

S31：使用在数据集MSCOCO上预训练好的SSD300模型作为平面目标检测器的原始模型；

S32：使用步骤S23中建立的数据集对预训练的SSD300模型进行迁移学习，通过对其参数的微调；

5.根据权利要求4所述的一种基于可解释视觉推理模型的危险预警描述自动生成方法，其特征在于，所述步骤S4训练三维目标检测器的具体方法包括：

S41：复制步骤S3中的模型，将其作为训练三维目标检测器的原始模型，即SSD-6D模型；

S42：基于训练好的SSD300模型，并使用步骤S25中建立的数据集对其进行训练；

6.根据权利要求4所述的一种基于可解释视觉推理模型的危险预警描述自动生成方法，其特征在于，所述步骤S5具体包括：

的二维空间特征；

的三维空间特征。

7.根据权利要求6所述的一种基于可解释视觉推理模型的危险预警描述自动生成方法，其特征在于，所述步骤S6具体包括：

S61：根据步骤S51中检测到的l个目标，并结合S15中得到的先验知识图谱，构建相应的N*P*P维的任务图谱；

S62：对于步骤S61中所得到的N张P*P大小的子图，使用GraphSage方法对其提取两次特征；其中，采用平均聚合器作为聚合函数，其公式如下：

为第k-1次GraphSage所得到的邻居节点u的特征矩阵，

为第k次GraphSage所得到的节点v的特征矩阵，其中

的输入维度映射到

的输出维度，MEAN为求均值函数，σ为激活函数；

的特征表示。

8.根据权利要求7所述的一种基于可解释视觉推理模型的危险预警描述自动生成方法，其特征在于，所述步骤S7具体包括：

的拼接特征矩阵，作为后续推理模型的输入；

S72：将步骤S71中每组特征表示X_r，通过模块化的多层感知机进行学习，最后输出在该场景关系r下的危险预测矩阵

并与标签值ψ(r)计算交叉熵损失，其中，

代表机器预测在关系r下，目标i和目标j之间存在危险D；

S73：至此，整体模型训练完成。

9.根据权利要求8所述的一种基于可解释视觉推理模型的危险预警描述自动生成方法，其特征在于，所述步骤S8具体包括：

S82：依次检查预测矩阵

则转译规则为：“O_object(i)(主语)+O_action(r)(谓语)+O_object(j)(宾语)，O_danger(D)(危险等级)”。