CN110675469A

CN110675469A - 一种施工场景中检测目标之间空间关系的图像描述方法

Info

Publication number: CN110675469A
Application number: CN201910841957.1A
Authority: CN
Inventors: 李宁; 徐守坤; 吉晨晨; 庄丽华; 石林; 李博; 袁宝华; 杨千里; 刘俊; 顾玉宛
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2020-01-10

Abstract

本发明公开了一种施工场景下识别目标之间空间关系的图像描述方法，包括以下步骤：对施工场景图片进行目标检测，获得施工场景中各目标类别；基于获得施工场景中各目标类别，对施工场景图片进行关系检测，获得各目标之间的空间关系；基于各目标之间的空间关系生成图像描述。本发明方法实现基于各目标之间的空间关系生成图像描述，可以更精确的判断施工人员施工工作场景的安全性和可操作性，以排除安全隐患。

Description

一种施工场景中检测目标之间空间关系的图像描述方法

技术领域

本发明属于图像处理技术领域，具体涉及一种施工场景中检测目标之间空间关系的图像描述方法。

背景技术

化工厂、建筑工地等施工场景环境多变，存在着许多不安全因素。其中人在塔吊机的机臂下方或人在脚手架上方，或者建筑工地上的工人没戴安全帽是不安全的，如果能及时提示场景中是左边的人还是右边的人没戴安全帽，就可以降低风险，而研究上下、左右关系属于空间关系的范畴。因此研究施工场景图像中的空间关系，有助于减少安全隐患，提高施工场景中的安全系数，对象之间的空间关系在图像理解中起着至关重要的作用。

图像理解，是在图像识别的基础上，运用自然语言处理的方法表达出图片中的内容，是对图像识别的进一步认识。近年来，随着深度学习方法在图像理解方面的应用与发展，特别是卷积神经网络(CNNs)在许多识别任务中具有出色的表现，使得在图像理解方面深度学习方法取得了比传统方法更好的效果，但是没有一种方法能够很好地处理底层细节，而且这些模型几乎都包含了数个完全连接层，模型计算量大，并且容易丢失输入图像的空间信息。

融合施工场景与空间关系来生成图像描述，可以更精确的判断施工人员施工工作场景的安全性和可操作性，以排除安全隐患，也可以为机器人智能监控提供有力的支撑。现如今有关施工安全方面的研究，大多是针对图像识别这一任务进行的。无论是利用传统算法还是深度学习技术对目标对象进行检测，均已取得了可观的研究成果，但尚未使用自然语言对作业人员的施工情况进行描述。

发明内容

本发明的目的在于克服现有技术的不足，提供了一种施工场景中检测目标之间空间关系的图像描述方法，基于各目标之间的空间关系生成图像描述，可以更精确的判断施工人员施工工作场景的安全性和可操作性，以排除安全隐患。

为解决上述技术问题，本发明提供了一种施工场景中检测目标之间空间关系的图像描述方法，其特征是，包括以下步骤：

对施工场景图片进行目标检测，获得施工场景中各目标类别；

基于获得施工场景中各目标类别，对施工场景图片进行关系检测，获得各目标之间的空间关系；

基于各目标之间的空间关系生成图像描述。

进一步的，对施工场景图片进行目标检测包括：

采用YOLOv3算法对施工场景图片进行目标检测。

进一步的，目标类别包括：人、安全帽和危险源。

进一步的，对施工场景图片进行关系检测包括：

采用转换嵌入TransE算法对施工场景图片进行关系检测。

进一步的，目标之间的空间关系表达式为<主语,谓语,宾语>，采用三元组<s,p,o>表示，其中s、p和o分别表示主语、谓词和宾语，p是一个动作或者相对位置。

进一步的，目标之间空间关系包括上、下、左、右，具体为：

对象o_i的几何中心，计算公式为：

其中(x_i1，y_i1)和(x_i2，y_i2)分别是对象左上角和右下角的坐标；

定义l_x(o_i)和l_x(o_j)分别为对象o_i和o_j边界框在x方向上的长度，若

|center_x(o_i)-center_x(o_j)|＜ε(l_x(o_i)+l_x(o_j))

则定义两对象在x方向上在同一位置，否则，若

center(o_i)＜center(o)-ε(l_x(o_i)+l_x(o_j))

则认为对象o_i在o_j的左边，否则为右边；

定义l_y(o_i)和l_y(o_j)分别为对象o_i和o_j边界框在y方向上的长度，若

|center_y(o_i)-center_y(o_j)|＜ε(l_y(o_i)+l_y(o_j))

则定义两对象在y方向上在同一位置，否则，若

center(o_i)＜center(o_j)-ε(l_y(o_i)+l_y(o_j))

则认为对象o_i在o_j的上边，否则为下边；

ε表示一个无限接近于0的一个无限小的正数。

进一步的，基于各目标之间的空间关系生成图像描述包括：

基于各目标之间的空间关系，采用基于规则和模板的空间关系描述方法生成图像描述。

进一步的，空间关系描述方法中空间关系规则的定义如下：

根据人和危险源的上下、左右关系来确定施工场景中是否存在安全隐患；根据各对象间的左右关系以及目标对象是否佩戴安全帽来确定到底是左边的人没戴安全帽还是右边的人没戴安全帽；规则的定义细节如下：

(a)上下关系：

关系检测的结果为人在危险源的上方，则施工场景中存在安全隐患；如人站在脚手架上时，若是没站稳就容易掉下来，这就是安全隐患。

关系检测的结果为人在危险源的下方，则施工场景中存在安全隐患。

(b)左右关系

规则从左右关系角度考虑，由于单人情况下不存在左右关系，所以规则表只制定了两人和多人情况下的规则，根据各对象间的左右关系以及目标对象是否佩戴安全帽确定左边、右边的人是否佩戴安全帽。

a)两人情况

关系检测的结果包含人1戴着安全帽2、人1在人3的左边、人3在人1的右边，则左边的人戴着安全帽；

关系检测的结果包含人1戴着安全帽2、人3在人1的左边、人1在人3的右边，则右边的人戴着安全帽；

关系检测的结果为人1在人2的左边、人2在人1的右边，则没有人戴着安全帽。

b)多人情况

关系检测的结果包含人1戴着安全帽2、人1在人3的左边、人3在人1的右边、人4在人3的右边，则左边的人戴着安全帽；

关系检测的结果包含人1戴着安全帽2、人3在人1的左边、人1在人3的右边、人4在人1的左边，则右边的人戴着安全帽；

关系检测的结果为人1在人2的左边、人2在人1的右边、人3在人1的右边，则没有人戴着安全帽。

多人情况中仅仅以三个人的情况来说明了，其他超过三人的情况以此类推即可。

与现有技术相比，本发明所达到的有益效果是：本发明采用YOLOV3进行目标检测，采用关系检测模型结合对象坐标框信息进行关系检测，利用关系检测网络生成的短语，以及规则与模板相结合的方法生成关于空间关系的图像描述。方法简单，使用自然语言进行图像描述，可以更精确的判断施工人员施工工作场景的安全性和可操作性，以排除安全隐患，也可以为机器人智能监控提供有力的支撑。

附图说明

图1为本发明方法的流程示意图；

图2为YOLOv3网络训练流程图；

图3为关系检测网络结构图；

图4为本发明实施例方法与NIC方法对图像描述的结果对比图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明实施例为一种施工场景中检测目标之间空间关系的图像描述方法，参见图1所示，具体包括以下过程：

步骤(1)数据集的制作

通过自行现场采集图片、网络爬虫技术搜集图片等方式获得包含不同分辨率和不同质量的各种施工场景图片(作为原始数据)，共5000张图片，使得图片数据集(施工场景图片)的丰富性得到一定的保证，并且能够较为完备的反映真实施工场景的情况。

对各施工场景图片样本进行标注(可以采用标注软件或人工标注方式)，图片的标注工作分为三个步骤：

1)目标检测数据集制作

根据目标检测实验需求，将所有图片转换成VOC2007数据集格式，用labelimg进行标注，标注信息包含目标类别及目标边界框的坐标并保存，保存后生成与所标注图片文件名相同的xml文件，所有图片对应标注生成的xml文件即构成目标检测数据集。

标注的目标类别为：人、安全帽和危险源(如：起重机、脚手架等)等。人、安全帽和危险源等均是目标。

2)关系检测数据集制作

在目标检测数据集的基础上，首先将目标检测数据集格式转换成VRD数据集格式，然后标注目标之间的关系，包括人与危险源的关系(人在危险源的上方或下方)，人和人的左右关系，以及人与安全帽的关系(人戴或没戴安全帽)，生成的文件格式为json文件。

3)图像字幕数据集制作

将目标检测数据集中的5000张图片进行标注：

(a)目标检测数据集里的图片采用统一命名和统一格式处理(统一命名格式如：train2018_00XXXX.jpg的格式，其中X是任意数字)，并且自动获取图片文件名、高度、宽度的信息；

(b)手工为每张图片标注五句英文描述，检查英文描述中语句和语法是否有误，确保描述准确；

这里五句英语描述是模仿的公共数据集COCO数据集制作的，五句英文描述语句保存在captions_train2018.json这个文件里了，此文件里包含了图片文件名、id号(每个图片有唯一的id号，第一张图片的id号是1，依次类推)、图片的宽度、高度信息以及五句英文描述语句。

关于五句英文描述语句，需要注意的内容有：

1.图上有安全帽的：5句话中，3或4句都要提到安全帽(helmet/safty helmet)

2.超过一个人：人数具体到几人，几人没戴helmet、几人戴了

3.描述的角度：男女(man/women)、人数(there persons)、颜色、姿势(站/坐......)、穿着什么、拿着什么、在干吗、在哪里、方位(behind/in front of..........)等等........每句话覆盖的描述点不全相同

4.句子结构要完整，要有谓语动词，避免复杂句，简单句就好，不需要文笔。

(c)所有图片在完成a、b步骤之后，检查captions_train2018.json文件里的五句英文描述内容是否是规范的json文件。所有图片的json文件构成图像字幕数据集。

步骤(2)目标检测

1)目标检测模型的选择

YOLOv3算法的思想是仅使用一个CNN网络直接预测不同目标的类别与位置，YOLOv3的网络结构包含了由DBL层和res_unit构成的Darknet-53特征提取层，以及13×13×255、26×26×255、52×52×25三种尺度的YOLO层。YOLOv3提高了对不同大小物体以及遮挡物体检测的精准度，选取YOLOv3作为本发明专利的目标检测模型更有优势)，同时可以更好地应用于工程中。

2)目标检测数据集预处理

上述依据VOC格式自制的目标检测数据集中，标注信息包含目标类别及边界框的坐标(边界框是用labelimg软件标注的，标注此坐标框是为了获得目标的坐标信息)，但若要用于YOLOv3训练，则需将标注信息进行归一化处理(即将标住信息的数据除以图像的宽度和高度，将最终的数据控制在0-1之间)，转换成YOLOv3可用的训练格式(txt文件)。

修改YOLOv3配置文件的参数：修改filters参数，filters参数表示输出特征图的数量。修改anchors参数，该参数值由kmeans聚类算法得到(在目标检测数据集上进行聚类分析得到这些数据的)。

3)目标检测模型训练与测试

YOLOv3进行目标检测训练时，除了需要定位检测目标坐标信息，还需要预测边界框的置信度以及预定义的目标类别的得分。

目标检测流程图如图2所示。目标检测模型训练与测试步骤如下：

(a)输入目标检测数据集图像并对图像进行预处理生成YOLO格式的数据集；

(b)将预处理后的图像数据集送入YOLOv3网络(目标检测网络模型)进行模型训练；此网络输入的是标注好的目标检测数据集图片，输出是权重文件，权重文件包含目标类别对应的权重系数。

训练此网络的目的是为了能检测图片中的人、安全帽等目标对象。测试时，将未标注的图片输入训练好的网络，获得对应的权重文件。

(c)测试图像，将未标注(未标注安全帽、人等目标)的测试图片送入训练好的YOLOv3网络中，框出图像中检测到的目标及输出目标类别。

训练时的批处理大小(batch)设置为64，即每轮迭代随机选取64个样本数据参与训练，分组(subdivision)设为8，即将样本分为8组送至网络训练，以减轻内存占用的压力。动量(momentum)设置为0.9，权重衰减(decay)设置为0.0005，以防止模型过拟合，初始学习率(learning rate)设置为0.001，每迭代5000次学习率衰减为原来的1/10。模型最终迭代20000次，耗时8个小时，试验表明随着迭代次数的增加，模型的损失在逐渐下降。在前4000次的迭代过程中模型迅速拟合，损失值下降速度快，当迭代10000次后损失值趋于稳定，只有些许振荡。

检测结果使用mAP(mean Average Precision，平均准确率)作为评价指标，mAP是多个类别的平均准确率均值，mAP的大小在[0,1]区间，值越大越好。目标检测实验训练过程中一开始损失率达到6000，当训练次数达到5000次以后损失率趋于平缓接近零。自制的施工场景图片数据集的检测精度良好，mAP值达到0.9，精准度已经很高。

步骤(3)关系检测

关系检测的任务是从给定的图像中定位所检测到的目标之间的关系，并推断任何两个检测目标之间所有可能的空间关系，空间关系的一般表达式为<主语,谓语,宾语>，采用三元组<s,p,o>表示，其中s、p和o分别表示主语、谓词和宾语，p可以是一个动作(例如，戴着、穿着等)，或者相对位置(例如：上面、下面、左面、右面等)。

1)关系检测模型的选择

转换嵌入(TransE)算法：是一种三元组(head，relation，tail)翻译算法，其中的关系relation被看做是实体head到实体tail的翻译，通过在低维空间里将目标和谓词进行建模视觉关系，低维空间里的关系三元组被解释为一种向量转换，如“人+上方≈危险源”。通过避免使用大量变量来学习大量主谓宾表示关系，这里仅仅需要学习关系空间里的“上方”转换向量，即使主语或者宾语有巨大的变换。利用TransE算法在低维空间中映射目标和谓词的特征来对可视化关系建模，并且加入特征提取层以全卷积的方式实现目标关系知识迁移。该模型融合了语言先验知识提高了关系检测准确率，可以很好的与YOLOv3衔接，便于预测出对象之间的空间关系。

关系中的知识转换：将关系检测网络中的对象和谓词之间的知识转移结合起来。具体来说，一种特征提取层，它提取了转换嵌入中使用的三种类型的对象特征：分类(即，类概率)，位置(即边界框坐标和比例)以及视觉特征。

类别信息：表示目标的类概率(表示此目标对象属于某一个类别的概率)，类概率在各种视觉任务中被广泛地用作语义属性。

位置：一个四维向量，边界框的参数。前两个参数表示一个比例不变的平移，后两个参数表示相对于主体或者目标对数空间的高或宽的变换。如下式所示：

其中，(x,y,w,h)，(x’,y’,w’,h’)分别是主体(是一个对象)和目标的坐标。x,y分别表示x轴和y轴的坐标，w,h分别表示宽度和高度。视觉特征：一个从空间卷积特征转换而来的d维向量(d的大小由卷积特征的尺寸决定的)。特别地，对象的视觉特征使用线性插值从最后的卷积特征映射提取出来。因此，对象间的信息、位置、视觉特征可以单一的前向或后向传递。

2)关系检测数据集预处理

在目标检测数据集的基础上进一步加工，将数据集转换成VRD格式的数据集，标注人在危险源的上方或下方，人和人的左右关系以及人戴安全帽的关系，生成的文件格式为json文件。

3)空间关系上下左右的定义

对象o_i的几何中心，计算公式为：

其中(x_i1，y_i1)和(x_i2，y_i2)分别是对象左上角和右下角的坐标。

|center_x(o_i)-center_x(o_j)|＜ε(l_x(o_i)+l_x(o_j))

则定义两对象在x方向上在同一位置，否则，若

center(o_i)＜center(o_j)-ε(l_x(o_i)+l_x(o_j))

则认为对象o_i在o_j的左边，否则为右边。

|center_y(o_i)-center_y(o_j)|＜ε(l_y(o_i)+l_y(oj))

则定义两对象在y方向上在同一位置，否则，若

center(o_i)＜center(o_j)-ε(l_y(o_i)+l_y(o_j))

则认为对象o_i在o_j的上边，否则为下边。

ε表示一个无限接近于0的一个无限小的正数。

4)关系检测模型训练与测试

关系模型：使用TransE作为关系检测模型的基础，并加入特征提取层，其中，TransE算法通过在低维空间中映射对象和谓词的特征来对可视化关系建模，特征提取层以全卷积的方式实现目标关系知识迁移。

模型的输入是：自制关系数据集以及由目标检测模型训练得到的权重文件；模型测试输出的是：图中对象间的关系短语，并将有关系的对象框注出来。

关系检测模型训练与测试步骤如下：

(a)将关系检测数据集和目标检测模块得到的权重文件输入关系检测模型进行训练，通过TransE算法学习主语到宾语之间的转换嵌入，通过特征提取层提取对象的类别信息、位置和视觉特征，预测目标(对象)之间的关系；

(b)测试图像，将未标注测试图片送入训练好的关系检测网络模型中，测试得到图片中的目标关系三元组。

在训练阶段，图像的尺寸设置为600但最大不能超过1000，一个图像和128个随机选择的三元组(从关系检测数据集中选取的)作为每个批次的输入。优化器采用Adam，Adam算法是计算每个参数的自适应学习率的方法。实验先通过VRD数据集进行初步训练和调试，然后在自制关系检测数据集进行训练和参数调整，learning_rate表示初始学习率，其值设置为0.00001，一般根据训练轮数设置为动态变化的学习率；batch表示一批训练样本数量，其参数设置为50，每50个样本更新一次参数；Decay表示权重衰减量，其参数设置为0.005，权重衰减正则项用于防止过拟合。每一次学习过程中，将学习后的参数按照固定比例进行降低，为了防止过拟合，衰减系数越大对过拟合的抑制能力越强。

检测结果使用Recall@N作为评价指标，Recall@N计算每个图像的前N个预测中包含的正确关系实例的比例，其计算公式为：

其中：TP(true positive)表示被模型预测为正值的正样本；FN(false negative)表示被模型预测为负值的正样本。

利用检测出图像中的对象和对象之间的关系短语(统称为视觉概念)，结合预先定义的空间关系上下左右规则，(将视觉概念和空间关系)填充到句子模板(自定义的语言模板，如<变量1>位置的人<变量2>安全帽)中，最后生成安全帽佩戴的描述语句。

步骤(4)空间关系的图像描述。

1)空间关系规则的定义

根据检测出的方向关系满足的规则条件输出对应的结果。根据人和危险源的上下、左右关系来确定施工场景中是否存在安全隐患；根据各对象间的左右关系以及目标对象是否佩戴安全帽来确定到底是左边的人没戴安全帽还是右边的人没戴安全帽。规则的定义细节如下：

(a)上下关系：

(b)左右关系

a)两人情况

关系检测的结果包含人1戴着安全帽2、人1在人3(3只是对象人的一个下标索引，不代表第三个人)的左边、人3在人1的右边，则左边的人戴着安全帽；

b)多人情况

关系检测的结果包含人1戴着安全帽2、人1在人3的左边、人3在人1的右边、人4(4只是对象人的一个下标索引)在人3的右边，则左边的人戴着安全帽；

2)空间关系模板的定义

采用模板生成生成空间关系描述，模板生成技术可以根据当前需求设计几种可能出现的语言情况，制定相应情况的模板，模板中有常量也有变量。由于空间关系描述的表达具有一定的规律，可以根据描述空间关系的固有规律来规定一个描述的固定模板“<变量1>位置的人<变量2>安全帽”。这种固定模板以检测到的信息作为字符串嵌入到模板中替换变量，其处理停留在变量替换基础上，缺乏深层次的语言处理，导致描述不完整，因此需要结合空间关系的规则来完善图像描述。

3)融合场景及空间关系的图像描述

将图像中对象之间存在的空间关系以自然语言的形式描述出来，其中空间关系既包括人戴安全帽这种隐性的空间关系也包括人在参考对象的某个位置这种显现的空间关系。通常情况下为了使一幅图像描述的贴切详细，需要将隐性和显现的空间关系结合起来描述。融合场景及空间关系的图像描述步骤如下：

(a)检测图像中存在的对象；

(b)检测每组对象对之间存在的空间关系；

(c)采用基于规则和模板的空间关系描述方法生成图像描述。

关系检测模型检测的空间关系短语如：person1 wear helmet2，person1 on theleft of person3，person3 on the right of person1等，根据规则表中定义的规则：关系检测的结果包含人1戴着安全帽2，人1在人3的左边，人3在人1的右边时则是左边的人戴着安全帽。句子模板为The<region1>man<region2>helmet，结合关系检测的结果信息以及定义的规则，将<region1>替换成”left”，<region2>替换成”wear”，最后基于规则和模板的空间关系描述方法生成的语句为”The left man wear helmet.”。

总之，本发明的施工场景中检测目标之间空间关系的图像描述方法。其整体实现模型分为三步，第一步采用YOLOV3进行目标检测，第二步采用关系检测模型结合对象坐标框信息进行关系检测。第三步利用关系检测网络生成的短语，以及规则与模板相结合的方法生成关于空间关系的图像描述。

图4为本发明实施例方法与NIC方法对图像描述的结果对比，从图中可以看出NIC模型对空间关系的描述存在欠缺，本发明采用的图像描述模型先进行目标检测，再进行关系检测最后基于规则和模板的方法生成图像描述，生成的描述语句包含了人与人、人与物之间的空间关系。结果表明，本文图像描述模型可以准确的生成包含空间关系图像的自然语言描述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种施工场景中检测目标之间空间关系的图像描述方法，其特征是，包括以下步骤：

基于各目标之间的空间关系生成图像描述。

2.根据权利要求1所述的一种施工场景中检测目标之间空间关系的图像描述方法，其特征是，对施工场景图片进行目标检测包括：

采用YOLOv3算法对施工场景图片进行目标检测。

3.根据权利要求1所述的一种施工场景中检测目标之间空间关系的图像描述方法，其特征是，目标类别包括：人、安全帽和危险源。

4.根据权利要求1所述的一种施工场景中检测目标之间空间关系的图像描述方法，其特征是，对施工场景图片进行关系检测包括：

采用转换嵌入TransE算法对施工场景图片进行关系检测。

5.根据权利要求1所述的一种施工场景中检测目标之间空间关系的图像描述方法，其特征是，目标之间的空间关系表达式为<主语,谓语,宾语>，采用三元组<s,p,o>表示，其中s、p和o分别表示主语、谓词和宾语，p是一个动作或者相对位置。

6.根据权利要求1所述的一种施工场景中检测目标之间空间关系的图像描述方法，其特征是，目标之间空间关系包括上、下、左、右，具体为：

对象o_i的几何中心，计算公式为：

其中(x_i1,y_i1)和(x_i2,y_i2)分别是对象左上角和右下角的坐标；

|center_x(o_i)-center_x(o_j)|＜ε(l_x(o_i)+l_x(o_j))

则定义两对象在x方向上在同一位置，否则，若

center(o_i)＜center(o_j)-ε(l_x(o_i)+l_x(o_j))

则认为对象o_i在o_j的左边，否则为右边；

|center_y(o_i)-center_y(o_j)|＜ε(l_y(o_i)+l_y(o_j))

则定义两对象在y方向上在同一位置，否则，若

centerx(o_i)＜center(o_j)-ε(l_y(o_i)+l_y(o_j))

则认为对象o_i在o_j的上边，否则为下边；

ε表示一个无限接近于0的一个无限小的正数。

7.根据权利要求1所述的一种施工场景中检测目标之间空间关系的图像描述方法，其特征是，基于各目标之间的空间关系生成图像描述包括：

8.根据权利要求1所述的一种施工场景中检测目标之间空间关系的图像描述方法，其特征是，空间关系描述方法中空间关系规则的定义如下：

根据人和危险源的上下、左右关系来确定施工场景中是否存在安全隐患；

根据各对象间的左右关系以及目标对象是否佩戴安全帽来确定到底是左边的人没戴安全帽还是右边的人没戴安全帽；规则的定义细节如下：

(a)上下关系：

(b)左右关系

a)两人情况

b)多人情况