CN116311361B

CN116311361B - 一种基于像素级标注的危险源室内工作人员定位方法

Info

Publication number: CN116311361B
Application number: CN202310192131.3A
Authority: CN
Inventors: 张文; 李想; 郭亮亮
Original assignee: Beijing Bangand Information Technology Co ltd; Beijing University of Chemical Technology
Current assignee: Beijing Bangand Information Technology Co ltd; Beijing University of Chemical Technology
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-09-15
Anticipated expiration: 2043-03-02
Also published as: CN116311361A

Abstract

本发明公开了一种基于像素级标注的危险源室内工作人员定位方法，包括以下步骤：从工厂监控系统中获取车间监控视频‑给出危险源区域的坐标范围‑给出员工的二维坐标‑实时获取每位员工在车间中的移动路线‑获取该危险源区域的二维坐标‑得到角度标定物与画面底部的夹角α‑根据夹角α对员工及危险源在y轴方向和x轴方向上的坐标进行修正‑根据修正的二维坐标，采用欧几里得距离公式计算员工到危险源区域的空间距离。本发明采用上述基于像素级标注的危险源室内工作人员定位方法，通过计算车间内员工实时位置及员工与危险源的实时距离，减轻了管理人员的工作量，提高了工厂车间安全管理的效率，对企业的安全和可持续发展有重要意义。

Description

一种基于像素级标注的危险源室内工作人员定位方法

技术领域

本发明涉及一种工厂车间安全管理技术，尤其涉及一种基于像素级标注的危险源室内工作人员定位方法。

背景技术

工厂车间安全管理指的是为了在生产过程中保护劳动者的安全和健康，改善劳动条件，预防工伤事故和职业危害，实现劳逸结合，加强安全生产，使劳动者安全顺利地进行生产所采取的一系列法制措施。因而，基于车间监控视频画面，对其中的人员进行实时识别及追踪，并实时计算人员与车间内危险源的距离(即人员定位)，是工厂车间安全管理中的重要工作。

可知，对车间内人员实时识别、追踪及定位的精度直接影响了工厂车间安全管理的效率，准确的识别、追踪及定位可以有效降低安全管理成本，并有效辅助安全管理人员及时发现安全隐患，并采取措施消除安全隐患，避免因安全事故而导致重大资金损失甚至人员伤亡，保证工厂车间安全生产。

发明内容

为解决上述问题，本发明提供了一种基于像素级标注的危险源室内工作人员定位方法，可根据车间监控系统中的监控视频，采用多种人工智能算法，快速、准确地对车间中的人员进行实时识别、追踪，并实时进行人员定位。辅助安全管理人员及时发现安全隐患，提升工厂车间安全管理的水平。

为实现上述目的，本发明提供了一种基于像素级标注的危险源室内工作人员定位方法，包括以下步骤：

S1、从工厂监控系统中获取车间监控视频；

S2、根据对车间的现场实测，对监控视频画面中的危险源区域进行标注，给出危险源区域的坐标范围；

S3、基于深度学习的厂房人员检测模型对监控视频画面中的员工进行识别，给出员工的二维坐标；

S4、根据S3中识别出的车间员工的二维坐标，采用基于卡尔曼滤波的抗遮挡人员轨迹追踪算法，实时获取每位员工在车间中的移动路线，并给每位员工加上唯一编号；

S5、根据S2中得到的危险源区域坐标范围，使用其左上角和右下角坐标的均值，作为该危险源区域的二维坐标；

S6、以车间地面中一条与监控视频头一侧墙面垂直的皮质刻度尺作为角度标定物，使用角度测量仪得到监控视频画面中的角度标定物与画面底部的夹角α；

S7、根据S6中得到的夹角，使用正弦定理对员工/危险源区域在y轴方向上的坐标进行修正；

S8、根据S6中得到的夹角，使用正切定理对员工/危险源区域在x轴方向上的坐标进行修正；

S9、根据S7、S8中得到的员工/危险源区域在x、y轴上修正的二维坐标，采用欧几里得距离公式计算员工到危险源区域的空间距离。

优选的，步骤S3所述的深度学习的厂房人员检测模型包括主干网络backbone和4个输出网络head；

其中，backbone组件为特征提取网络，用于从输入的图像中构建4个不同分辨率下的特征图；

4个输出网络head分别用于识别输入图像中不同大小尺度的人员；最上层第一个head输出大小为(30,30,24)的张量，从输入图像中识别尺寸最大的人员，第二个head和第三个head分别输出大小为(60,60,24)和(120,120,24)的张量，从输入图像中识别尺寸居中的人员，最底层的head输出大小为(240,240,24)的张量，从输入图像中识别尺寸较小的人员；

head组件为输出网络，用于有效地刻画输入图片中的语义信息和位置信息，且head组件采用自顶向下的FPN金字塔结构与自底向上的PAN金字塔结构对输入图片中的信息进行多尺度特征融合，FPN金字塔结构通过自定向下进行上采样，并与下层特征图进行融合，从而将上层特征图较强的人员特征语义信息传递给下层特征图，实现人员的精准识别；PAN金字塔结构通过自底向上进行下采样，并与上层特征图进行融合，从而将底层特征图较强的位置信息传递到高层特征图，实现图像中人员的精准定位；综合FPN和PAN结构，使得不同尺寸的特征图都包含较强的人员语义信息和位置信息，保证了对输入图片中不同尺寸大小的人员的精准识别和定位。

优选的，步骤S3具体包括以下步骤：

S31、基于深度学习的厂房人员检测模型的输入是尺寸为(960,960)的RBG图像，通过多层卷积对图片中的信息进行提取和抽象得到底层大小为(240,240)的特征图，即将输入图片通过多次卷积新型抽象，从而划分为240*240个大小为4*4个像素的方格，在每个方格内进行预测，判断每个方格内是否存在一个中心点在该方格中的人物；

S32、基于深度学习的厂房人员检测模型的输出为(240,240,24)的张量，其前两个维度标识切分得到的240*240个方格，通过这两个维度能够唯一确定输入图像中的一个方格，并将第三个维度的信息拆解为4个6维向量(x,y,w,h,o,p)，其中，x,y为人员边界框中心对于所处的方格的相对位置，w为人员边界框的宽度，h为人员边界框的高度，o为预测的人员边界框的置信度，其表示模型预测的当前边界框的可信程度，置信度越大，则表明该边界框约接近目标的真实最小边界，p为预测的边界框内是一名人员图像的估计概率；

其中，考虑在人员较为密集的情况下，出现多个人员边界框中心落在同一个方格内的情况，在每个抽象划分得到的方格内预测4个边界中心，也即每个方框内预测4个6维向量，从而得到基于深度学习的厂房人员检测模型中head输出的第三阶。

优选的，基于深度学习的厂房人员检测模型中的权重参数通过训练误差的反向传播进行更新，其中4个输出网络head，应用了相同的损失函数计算每个head的损失值，得到如下损失函数：

L＝L_box+L_obj+L_class (1)

公式(1)中，L_box为定位损失，L_obj为置信度损失，L_class为分类损失。

优选的，分类损失L_class用于计算基于深度学习的厂房人员检测模型给出的边界框中的图像是否为人员的概率p的损失，由于其为二分类问题，故采用二元交叉熵计算损失值：

公式(2)中，为模型预测的该边界框内的对象为一个人员的概率；y_i为实际的标签，y_i∈{0，1}，y_i＝0表示该边界框内没有人员，y_i＝1表示该边界框内是一名人员，N为head输出的总边界框数量。

优选的，定位损失L_box用于计算基于深度学习的厂房人员检测模型预测的人员边界框与实际人员边界框之间的损失，其采用一种改进的交并比函数计算损失值：

公式(3)中，B＝(x,y,w,h)表示实际的人员边界框；B^gt＝(x^gt,y^gt,w^gt,h^gt)表示模型预测的人员边界框；C为真实边界框B^gt和预测边界框B的最小外接矩形，且其计算公式为：

公式(4)中，分别表示最小外接矩形C的左x坐标，右x坐标，下y坐标，上y坐标；

IoU(B,B^gt)表示真实边界框和预测边界框的公共区域面积与两者的并集的面积的比值，且其计算公式为：

表示真实边界框B^gt和预测边界框B中心点距离的平方与两者最小外接矩形框C的对角线长度平方的比值，ρ²(B,B^gt)为真实边界框B^gt与预测边界框B的中心点距离，且其计算公式为：

公式(6)中，分别表示预测边界框B的左x坐标，右x坐标，下y坐标，上y坐标；类似的，/>分别表示真实边界框B^gt的左x坐标，右x坐标，下y坐标，上y坐标；

αv表示预测边界框B与真实边界框B^gt的长宽比例，即要求预测边框B的长宽比例尽可能接近B^gt的长宽比例，其中，v为真实边界框B^gt和预测边界框B长宽比例差值的归一化值，其计算方式如下所示：

公式(7)中，通过乘以/>归一化至[0,1]区间范围内；

α为平衡因子，用于权衡L_box中由长宽比例差异引入的损失值和IoU部分引入的损失值，其计算方式如下所示：

优选的，置信度损失L_obj用于计算基于深度学习的厂房人员检测模型给出的人员边界框的置信度损失，置信度表示模型预测的当前边界框的可信程度，置信度越大，则表明该边界框越接近目标的真实最小边界；

L_obj的计算采用二元交叉熵计算，其计算方式如下所示：

公式(9)中，o_i表示为实际人员边界框B^gt与预测边界框B的CIOU值，表示模型预测得到的当前边界框置B信度。

优选的，步骤S4具体包括以下步骤：

S41、人员检测：

通过基于深度学习的厂房人员检测模型获取第i帧视频图像中的人员定位信息，B_i,j表示第i帧图像中人员j的定位信息，即图像中模型检测得到的每个人员的边界框；

S42、移动位置估计：

基于得到的第i帧视频图像中的人员定位信息，采用卡尔曼滤波算法估计每个人员在i+1帧移动后的定位信息，表示由卡尔曼滤波估计得到的人员j在第i+1帧图像中的位置信息，利用卡尔曼滤波对的人员的移动过程进行线性建模，从而利用图像模型检测的人员位置信息和估计得到的人员位置信息对每个人员在下一帧视频出现的位置进行最优估计；

其中，用于人员移动位置估计的卡尔曼滤波中的人员观测向量采用如下公式：

z＝[u,v,s,r]^T (10)

公式(10)和(11)中，(u,v)表示人员边界框的中西坐标，s表示人员边界框的面积，其通过归一化的宽w和高h相乘计算得出，r表示人员边界框的宽高比例，边界框信息B＝[x,y,w,h]；

卡尔曼滤波中的状态向量采用如下公式：

公式(12)中，分别是u，v，s的帧变化率；

卡尔曼滤波中的状态过度矩阵F采用如下公式：

卡尔曼滤波中的观测矩阵H将状态向量x转换为观测向量z，即z＝Hx，矩阵H采用如下公式：

卡尔曼滤波中测量噪声的协方差矩阵R用于估计基于深度学习的厂房人员检测模型对人员定位的不确定性或误差，其采用如下公式：

卡尔曼滤波中的估计协方差矩阵P用于度量滤波结果的不确定性和误差，随着滤波的迭代进行，不断更新，初始化矩阵P其采用如下公式：

卡尔曼滤波中过程噪声的不确定性矩阵Q衡量卡尔曼滤波过程中噪声的大小，其采用如下公式：

S43、人员位置关联：

将基于深度学习的厂房人员检测模型在i+1帧图像中检测得到的每个人员定位信息B_i+1,j与卡尔曼滤波算法估计得到的第i+1帧图像中的人员定位信息进行相互对应关联，从而进行连续的人员轨迹追踪；

其中关联公式如下：

公式(18)所示在匈牙利算法中通过计算两个B_i+1,j和之间的IoU距离衡量匹配成本，从而将卡尔曼滤波估计的i+1帧图像中人员j的位置，与模型检测到得到的i+1帧中人员的位置进行对应关联，进而将人员检测模型在第i帧和第i+1帧识别得到同一人员进行关联，得到人员j在连续帧上的移动轨迹B_i,j→B_i+1,j；在此过程中，当与所有B_i+1,j的IoU值都小于给定的最小阈值IoU^min时，说明第i帧边界框B_i,k中的人员k在第i+1帧视频中被遮挡或离开厂房；

S44、轨迹更新：

将监控视频图像中的人员轨迹信息根据S43中得到的人员在相邻视频帧之间位置的连续关系，对每个人员的移动轨迹进行更新。

优选的，在步骤S43中为了保证人员轨迹的连续性，避免由于建筑物遮挡或人员重叠等因素导致的人员追踪中断或丢失，在所提出的基于卡尔曼滤波的抗遮挡人员轨迹追踪算法中加入延迟帧数M，且在后续M帧视频中，采用如下判定方法：

当时，表明人员k在第i+1帧图像中未被检测到，则采用人员k在i时刻的卡尔曼滤波状态向量/>对后续M帧视频中人员k所在的位置进行迭代估计，其中u_i,k依据其帧变化率/>进行迭代更新；v_i,k依据其帧变化率/>进行迭代更新；s_i,k依据其帧变化率/>进行迭代更新；r_i,k是人员边界框的长宽比例，在后续短暂的M帧视频中视可为常量，无需更新；变化率/>在后续短暂的M帧视频中均视为常量，无需更新；据此，能够在基于深度学习的厂房人员检测模型检测不到人员k的情况下，估算出其在接下来M帧监控视频中的大致位置/>

在后续的M帧监控视频内，将估计的人员k所处的位置纳入S43中的位置关联，若在后续M帧以内，得出相邻帧轨迹/>存在，则说明人员k被障碍物遮挡导致短期的跟踪丢失，将其轨迹补全为/>其中[B_start,k,…,B_i,k]和B_i+m+1,k是厂房人员检测模型从监控视频中实际检测到的人员k的移动轨迹，B_start,k表示人员k第一次出现在监控视频中时间为第start帧，，/>是人员k被遮挡期间，通过其在第i帧时刻的状态向量z_i,k估计得到的近似轨迹；若在后续M帧视频中，没有重新追踪到人员k，则判定其离开监控视频画面，不再继续跟追踪。

优选的，在步骤S7中采用如下公式进行修正：

在步骤步骤S8中采用如下公式进行修正：

在公式(19)和公式(20)中，(x₁,y₁)为员工的二维坐标，(x₂,y₂)为危险源区域的二维坐标；

在步骤S9中所述的空间距离采用如下计算公式：

因此，本发明采用上述一种基于像素级标注的危险源室内工作人员定位方法，可根据车间监控系统中的监控视频，采用多种人工智能算法，快速、准确地对车间中的人员进行实时识别、追踪，并实时进行人员定位。辅助安全管理人员及时发现安全隐患，提升工厂车间安全管理的水平。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的整体流程框图；

图2为本发明的遮挡人员轨迹连续追踪流程图；

图3为本发明的厂房人员检测示意图；

图4为本发明的基于深度学习的厂房人员检测模型结构图；

图5为本发明的模型损失计算示意图；

图6为本发明的人员轨迹追踪算法步骤图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

图1为本发明的整体流程框图，如图1所示，一种基于像素级标注的危险源室内工作人员定位方法，包括以下步骤：

S1、从工厂监控系统中获取车间监控视频；

S2、根据对车间的现场实测，对监控视频画面中的危险源区域进行标注，给出危险源区域的坐标范围；在本实施例中所述的所述“危险源”指的是车间内静态的原材料或关键设备。

S3、基于深度学习的厂房人员检测模型对监控视频画面中的员工进行识别，给出员工的二维坐标；需要说明的是于深度学习的厂房人员检测模型是一种基于深度卷积神经网络的多目标实时检测模型，已经在大规模数据上进行了训练，其识别精度和速度优于大部分同类模型。

图3为本发明的厂房人员检测示意图，如图3所示，算法的目的是从输入图片中找出人员所处的位置，也即方框的边界。算法的输入是大小为960*960的RGB图片。算法的输出是若干个不同大小的3阶张量，用于判定图片中人员的位置及其边界。

图4为本发明的基于深度学习的厂房人员检测模型结构图，如图4所示，优选的，步骤S3所述的深度学习的厂房人员检测模型包括主干网络backbone和4个输出网络head；

4个输出网络head分别用于识别输入图像中不同大小尺度的人员；最上层第一个head输出大小为(30,30,24)的张量，从输入图像中识别尺寸最大的人员(实际场景中距离摄像头较近的人员)，第二个head和第三个head分别输出大小为(60,60,24)和(120,120,24)的张量(实际场景中距离摄像头稍远的人员)，从输入图像中识别尺寸居中的人员，最底层的head输出大小为(240,240,24)的张量，从输入图像中识别尺寸较小的人员(实际场景中距离摄像头较远的人员，从摄像头远端进入或离开画面的人员)。通过设计4个不同尺度的head，所提出的模型能够有效地从监控视频每一帧的图片中识别出画面中的人员及其所处的位置；

head组件为输出网络，用于有效地刻画输入图片中的语义信息和位置信息，且head组件采用自顶向下的FPN金字塔结构与自底向上的PAN金字塔结构对输入图片中的信息进行多尺度特征融合，其中，上层特征由于网络层数较深，信息的抽象程度更高，从而包含凸显中人员特征的语义信息更加明确，而下层特征由于经过的卷积层数较少，图片中人员的位置信息损失较少。FPN金字塔结构通过自顶向下进行上采样(UpSample结构)，并与下层特征图进行融合，从而将上层特征图较强的人员特征语义信息传递给下层特征图，实现人员的精准识别；底层特征图包含更强的人员语义信息，PAN金字塔结构通过自底向上进行下采样(MP-2结构)，并与上层特征图进行融合，从而将底层特征图较强的位置信息传递到高层特征图，实现图像中人员的精准定位；综合FPN和PAN结构，使得不同尺寸的特征图都包含较强的人员语义信息和位置信息，保证了对输入图片中不同尺寸大小的人员的精准识别和定位。

在本实施例中，厂房人员检测模型中每个head的输出结构相似，此处以最底层head输出大小为(240,240,24)的三阶张量为例，介绍模型的基本原理以及输出信息构成，其他head的输出及运算过程相同：

优选的，步骤S3具体包括以下步骤：

S31、基于深度学习的厂房人员检测模型的输入是尺寸为(960,960)的RBG图像，通过多层卷积(CBS结构，MP-1结构，ELAN结构)对图片中的信息进行提取和抽象得到底层大小为(240,240)的特征图，即将输入图片通过多次卷积新型抽象，从而划分为240*240个大小为4*4个像素的方格，在每个方格内进行预测，判断每个方格内是否存在一个中心点在该方格中的人物；如附图3所示，矩形为人物边界框，矩形框的中心(边界框对角线的交点)落在某一个方格内。

S32、基于深度学习的厂房人员检测模型的输出为(240,240,24)的张量(矩阵)，其前两个维度标识切分得到的240*240个方格，通过这两个维度能够唯一确定输入图像中的一个方格，并将第三个维度的信息拆解为4个6维向量(x,y,w,h,o,p)，其中，x,y为人员边界框中心对于所处的方格的相对位置，w为人员边界框的宽度，h为人员边界框的高度，o为预测的人员边界框的置信度，其表示模型预测的当前边界框的可信程度，置信度越大，则表明该边界框约接近目标的真实最小边界，p为预测的边界框内是一名人员图像的估计概率；

图5为本发明的模型损失计算示意图，如图5所示，优选的，基于深度学习的厂房人员检测模型中的权重参数通过训练误差的反向传播进行更新，其中4个输出网络head，应用了相同的损失函数计算每个head的损失值，得到如下损失函数：

L＝L_box+L_obj+L_class (1)

公式(7)中，通过乘以/>归一化至[0,1]区间范围内；

/>

L_obj的计算采用二元交叉熵计算，其计算方式如下所示：

图6为本发明的人员轨迹追踪算法步骤图，如图6所示，S4、根据S3中识别出的车间员工的二维坐标，采用基于卡尔曼滤波的抗遮挡人员轨迹追踪算法，实时获取每位员工在车间中的移动路线，并给每位员工加上唯一编号；算法的目的是根据前述基于深度学习的厂房人员检测模型在实时监控视频每一帧图像中得出的人员定位信息，对连续视频帧之间的人员定位信息进行关联，从而实时追踪厂房内人员的移动轨迹。需要说明的是“每位员工在车间中的移动路线”指的是每位员工在连续时间点上二维坐标的变化组成的序列。

优选的，步骤S4具体包括以下步骤：

S41、人员检测：

S42、移动位置估计：

基于得到的第i帧视频图像中的人员定位信息，每个视频帧的时间极短(约为1/31～1/28秒)，因而我们可以认为视频中的人员在连续若干帧时间内为匀速运动，故采用卡尔曼滤波算法估计每个人员在i+1帧移动后的定位信息，表示由卡尔曼滤波估计得到的人员j在第i+1帧图像中的位置信息，利用卡尔曼滤波对的人员的移动过程进行线性建模，从而利用图像模型检测的人员位置信息和估计得到的人员位置信息对每个人员在下一帧视频出现的位置进行最优估计；

z＝[u,v,s,r]^T (10)

公式(10)和(11)中，(u,v)表示人员边界框的中西坐标(归一化)，s表示人员边界框的面积，其通过归一化的宽w和高h相乘计算得出，r表示人员边界框的宽高比例，边界框信息B＝[x,y,w,h]；

卡尔曼滤波中的状态向量采用如下公式：

公式(12)中，分别是u，v，s的帧变化率；

卡尔曼滤波中的状态过度矩阵F采用如下公式：

卡尔曼滤波中的估计协方差矩阵P用于度量滤波结果的不确定性和误差，随着滤波的迭代进行，不断更新，初始化矩阵P其采用如下公式(考虑到滤波过程迭代初期人员移动速度未知，因而初始化设置较大的估计误差)：

/>

S43、人员位置关联：

其中关联公式如下：

公式(18)所示在匈牙利算法中通过计算两个B_i+1,j和之间的IoU距离衡量匹配成本，从而将卡尔曼滤波估计的i+1帧图像中人员j的位置，与模型检测到得到的i+1帧中人员的位置进行对应关联，进而将人员检测模型在第i帧和第i+1帧识别得到同一人员进行关联，得到人员j在连续帧上的移动轨迹B_i,j→B_i+1,j；在此过程中，当/>与所有B_i+1,j的IoU值都小于给定的最小阈值IoU^min时，说明第i帧边界框B_i,k中的人员k在第i+1帧视频中被遮挡或离开厂房；

S44、轨迹更新：

图2为本发明的遮挡人员轨迹连续追踪流程图，如图2所示，优选的，在步骤S43中为了保证人员轨迹的连续性，避免由于建筑物遮挡或人员重叠等因素导致的人员追踪中断或丢失，在所提出的基于卡尔曼滤波的抗遮挡人员轨迹追踪算法中加入延迟帧数M(一般取值为15～30，约为0.5～1.5秒)，且在后续M帧视频中，采用如下判定方法：

可知，通过引入M帧的判定延迟，能够确保人员轨迹追踪的连续性，减少人员追踪过程中人员离开厂房的误判，从而有效地追踪被建筑物或障碍物短时遮挡的人员轨迹。

S7、根据S6中得到的夹角，使用正弦定理对员工/危险源区域在y轴方向上的坐标进行修正；需要说明的是，所述“正弦定理”指的是夹角α的正弦值等于其对边长度比上其斜边长度。

优选的，在步骤S7中采用如下公式进行修正：

S8、根据S6中得到的夹角，使用正切定理对员工/危险源区域在x轴方向上的坐标进行修正；需要说明的是，所述“正切定理”指的是夹角α的正切值等于其对边长度比上其临边长度。

在步骤步骤S8中采用如下公式进行修正：

S9、根据S7、S8中得到的员工/危险源区域在x、y轴上修正的二维坐标，采用欧几里得距离公式计算员工到危险源区域的空间距离。需要说明的是，所述“欧几里得距离公式”是计算两点之间距离的常用公式，分别对两个二维点在x、y轴上的值做差，求两个差的平方和之后再开平方，即得到两点之间的距离。

在步骤S9中所述的空间距离采用如下计算公式：

因此，本发明采用上述基于像素级标注的危险源室内工作人员定位方法，通过计算车间内员工实时位置及员工与危险源的实时距离，减轻了管理人员对现场作业进行安全管理的工作量，提高了工厂车间安全管理的效率，对企业的安全和可持续发展有重要意义。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于像素级标注的危险源室内工作人员定位方法，其特征在于：包括以下步骤：

S1、从工厂监控系统中获取车间监控视频；

S9、根据S7、S8中得到的员工/危险源区域在x、y轴上修正的二维坐标，采用欧几里得距离公式计算员工到危险源区域的空间距离；

步骤S3所述的深度学习的厂房人员检测模型包括主干网络backbone和4个输出网络head；

head组件为输出网络，用于有效地刻画输入图片中的语义信息和位置信息，且head组件采用自顶向下的FPN金字塔结构与自底向上的PAN金字塔结构对输入图片中的信息进行多尺度特征融合，FPN金字塔结构通过自顶向下进行上采样，并与下层特征图进行融合，从而将上层特征图较强的人员特征语义信息传递给下层特征图，实现人员的精准识别；PAN金字塔结构通过自底向上进行下采样，并与上层特征图进行融合，从而将底层特征图较强的位置信息传递到高层特征图，实现图像中人员的精准定位；综合FPN和PAN结构，使得不同尺寸的特征图都包含较强的人员语义信息和位置信息，保证了对输入图片中不同尺寸大小的人员的精准识别和定位；

步骤S3具体包括以下步骤：

2.根据权利要求1所述的一种基于像素级标注的危险源室内工作人员定位方法，其特征在于：基于深度学习的厂房人员检测模型中的权重参数通过训练误差的反向传播进行更新，其中4个输出网络head，应用了相同的损失函数计算每个head的损失值，得到如下损失函数：

L＝L_box+L_obj+L_class (1)

3.根据权利要求2所述的一种基于像素级标注的危险源室内工作人员定位方法，其特征在于：分类损失L_class用于计算基于深度学习的厂房人员检测模型给出的边界框中的图像是否为人员的概率p的损失，由于其为二分类问题，故采用二元交叉熵计算损失值：

4.根据权利要求2所述的一种基于像素级标注的危险源室内工作人员定位方法，其特征在于：定位损失L_box用于计算基于深度学习的厂房人员检测模型预测的人员边界框与实际人员边界框之间的损失，其采用一种改进的交并比函数计算损失值：

公式(7)中，通过乘以/>归一化至[0,1]区间范围内；

5.根据权利要求2所述的一种基于像素级标注的危险源室内工作人员定位方法，其特征在于：置信度损失L_obj用于计算基于深度学习的厂房人员检测模型给出的人员边界框的置信度损失，置信度表示模型预测的当前边界框的可信程度，置信度越大，则表明该边界框越接近目标的真实最小边界；

L_obj的计算采用二元交叉熵计算，其计算方式如下所示：

6.根据权利要求1所述的一种基于像素级标注的危险源室内工作人员定位方法，其特征在于：步骤S4具体包括以下步骤：

S41、人员检测：

S42、移动位置估计：

z＝[u,v,s,r]^T (10)

卡尔曼滤波中的状态向量采用如下公式：

公式(12)中，分别是u，v，s的帧变化率；

卡尔曼滤波中的状态过度矩阵F采用如下公式：

S43、人员位置关联：

其中关联公式如下：

S44、轨迹更新：

7.根据权利要求6所述的一种基于像素级标注的危险源室内工作人员定位方法，其特征在于：在步骤S43中为了保证人员轨迹的连续性，避免由于建筑物遮挡或人员重叠等因素导致的人员追踪中断或丢失，在所提出的基于卡尔曼滤波的抗遮挡人员轨迹追踪算法中加入延迟帧数M，且在后续M帧视频中，采用如下判定方法：

当时，表明人员k在第i+1帧图像中未被检测到，则采用人员k在i时刻的卡尔曼滤波状态向量/>对后续M帧视频中人员k所在的位置进行迭代估计，其中u_i,k依据其帧变化率/>进行迭代更新；v_i,k依据其帧变化率进行迭代更新；s_i,k依据其帧变化率/>进行迭代更新；r_i,k是人员边界框的长宽比例，在后续短暂的M帧视频中视可为常量，无需更新；变化率/>在后续短暂的M帧视频中均视为常量，无需更新；据此，能够在基于深度学习的厂房人员检测模型检测不到人员k的情况下，估算出其在接下来M帧监控视频中的大致位置/>

8.根据权利要求6所述的一种基于像素级标注的危险源室内工作人员定位方法，其特征在于：在步骤S7中采用如下公式进行修正：

在步骤步骤S8中采用如下公式进行修正：

在步骤S9中所述的空间距离采用如下计算公式：