CN113743406A - 一种基于深度学习的用于生产安全的人员检测方法 - Google Patents

一种基于深度学习的用于生产安全的人员检测方法 Download PDF

Info

Publication number
CN113743406A
CN113743406A CN202111049205.5A CN202111049205A CN113743406A CN 113743406 A CN113743406 A CN 113743406A CN 202111049205 A CN202111049205 A CN 202111049205A CN 113743406 A CN113743406 A CN 113743406A
Authority
CN
China
Prior art keywords
class
classes
invisible
word
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111049205.5A
Other languages
English (en)
Inventor
司徒轩
胡哲
苗升展
施孙阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingyang Ruihua Energy Co ltd
Original Assignee
Qingyang Ruihua Energy Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingyang Ruihua Energy Co ltd filed Critical Qingyang Ruihua Energy Co ltd
Priority to CN202111049205.5A priority Critical patent/CN113743406A/zh
Publication of CN113743406A publication Critical patent/CN113743406A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于深度学习的用于生产安全的人员检测方法,具体步骤如下:S1:数据采集;S2:数据增强;S3:训练模型;S4:实验对比;S5:服务器部署;所述S3:训练模型具体步骤如下:SS1、训练基础网络模型;SS2、提取语义信息;SS3、基于零样本学习的模型迁移;本发明通过RetinaNet网络模型在通用数据集上进行目标检测任务的训练,结合零样本学习的方法将模型迁移到天然气生产工人类或其他生产环境下的人员类的检测中,无需进行重新训练。

Description

一种基于深度学习的用于生产安全的人员检测方法
技术领域
本发明涉及一种人员检测技术领域,具体涉及一种基于深度学习的用于生产安全的人员检测方法。
背景技术
近年来,随着人工智能与计算机视觉技术的发展与推广,计算机视觉技术已广泛应用于工业生产的各个环节中,而其中安全生产是现代工业中非常重要的一环。
以天然气生产工厂产业为例,生产运维人员的违章行为,如未按照规定要求佩戴安全帽、违规进入作业区域、在非法区域吸烟、打电话等等,严重威胁着工厂生产安全。因此安全生产的一个核心任务就是人员安全行为检测,即通过视觉信息对天然气生产工厂场景下的人员进行实时检测,确定其位置和状态。此外,许多相似的生产场景下也存在着类似的安全需求,例如火灾现场、地震救援现场、石油化工生产现场等等,它们都需要在模糊背景下进行人员的检测。
在计算机视觉领域中,目标检测一直是一个热门研究方向,并且被广泛应用在工业安全领域。基于深度学习的端到端目标检测方法在过去几年中取得了巨大的突破。无论是更注重准确度的两阶段检测方法,如Faster R-CNN等,还是更注重效率的单阶段检测方法,如YOLO、SSD等,它们都能在通用数据集上达到比较好的检测效果。然而在实际应用中,需要检测的类别数量成千上万,纷繁复杂,但标记好的训练集的目标类别却极其有限,因此通用目标检测方法有一定的局限性,无法被直接用于复杂生产场景下的人员检测。
与通常场景下的目标检测相比,天然气工厂生产场景下的人员检测主要存在以下三个问题:(1)工厂设备布置综合环境复杂,设备分布密集、人像比例较小。(2)天然气工厂生产场景下的人员,主要是生产运维工人,与通常场景下人类别的视觉差异较大,如头戴安全帽、与背景中设备融合严重等等,因此需要作为一种新的类别目标来看待。(3)天然气工厂生产背景下的真实图像数据较为缺乏,不足以用于专门训练,而仅能作为测试集来进行检测效果的测试。
发明内容
本发明所要解决的技术问题是提供了一种基于深度学习的用于生产安全的人员检测方法;通过RetinaNet网络模型在通用数据集上进行目标检测任务的训练,结合零样本学习的方法将模型迁移到天然气生产工人类或其他生产环境下的人员类的检测中,无需进行重新训练。
本发明基于深度学习的用于生产安全的人员检测方法是通过以下技术方案来实现的,具体步骤如下:
S1:数据采集;
S2:数据增强;
S3:训练模型;
S4:实验对比;
S5:服务器部署;
S3:训练模型具体步骤如下:
SS1、训练基础网络模型;
SS2、提取语义信息;
SS3、基于零样本学习的模型迁移。
作为优选的技术方案,SS1、训练基础网络模型,选用RetinaNet作为目标检测的基础网络模型;RetinaNet由骨干网络和金字塔网络FPN以及两个子网络构成;两个子网络构成包括分类子网络和框回归子网络;
骨干网络采用ResNet;ResNet依次连接金字塔网络FPN、分类子网络以及框回归子网络。
作为优选的技术方案,SS2、提取语义信息,通过采用word2vec算法中的skip-gram模型对维基英文语料库进行无监督训练,得到词库中每个词的词向量;skip-gram模型是一个神经网络模型,它以词对应的独热向量作为输入层,词向量作为隐藏层,词库中其他词可能为上下文的概率作为输出层,通过训练使最终得到的概率最为接近词库中的真实概率,这样训练得到输出层到隐藏层的参数,然后再据此计算每个词的词向量;对于每个类
Figure BDA0003252258730000031
计算得到d维词向量w(c),两个词向量之间的欧式距离d(w(ci),w(cj))代表两个类在语义空间中的接近程度,距离越小表示这两个类越接近。
作为优选的技术方案,SS3、基于零样本学习的模型迁移,将要检测的目标类别分为可见类和不可见类;
其中可见类在训练阶段存在标记好的目标实例,而不可见类在训练阶段则不存在标记好的目标实例;
可见类的集合用
Figure BDA0003252258730000032
表示,不可见类的集合用
Figure BDA0003252258730000033
表示,
Figure BDA0003252258730000034
表示所有类的集合,其中
Figure BDA0003252258730000035
Figure BDA0003252258730000036
模型迁移的目标是使得训练出的模型既能检测训练集中存在的可见类,又能很好地检测训练集中不存在的不可见类;
由于基础目标检测模型的分类子网络中最后一层的参数个数是固定的,与目标类别的个数绑定,因此训练中针对的是什么类别,模型就只能预测出这些类别的分数,而对不可见类的分数预测无能为力;针对分类子网络的结构和语义信息,我们提出了逐步递进的三种方法来改进原始网络,从而使其可以检测训练集中不存在的目标类,具体如下:
SSS1:借助词向量进行逆预测;
SSS2:增加语义嵌入层;
SSS3:增加关联类来辅助检测;
SSS1:借助词向量进行逆预测对于每个预测框b=(x1,y1,x2,y2),我们根据原始模型得到了每个可见类的预测分数p(s|b),其中
Figure BDA0003252258730000037
向量Mp(s|b)=[p(s1|b),p(s2|b)...p(sS|b)]是指所有可见类的预测分数组成的向量;每个可见类的词向量为w(s),矩阵
Figure BDA0003252258730000041
表示所有可见类的词向量组成的矩阵;所有可见类的词向量矩阵与它们的预测分数向量相乘即可得到预测词向量w(b):
w(b)=Mp(s|b)×Mw(s)
将预测词向量w(b)与所有不可见类词向量w(u)组成的矩阵Mw(u)的伪逆矩阵相乘,其中
Figure BDA0003252258730000042
从而得到各不可见类的预测分数组成的向量Mp(u|b),其中Mp(u|b)=[p(u1|b),p(u2|b)...p(uU|b)],其计算公式如下所示:
Figure BDA0003252258730000043
之所以是伪逆矩阵,我们可以考虑可见类,按照此方法得到的各可见类的分数矩阵为:
Figure BDA0003252258730000044
即可见类在经过计算后仍能还原到原始的分数,说明使用伪逆矩阵有一定的数学根据;我们在实验中也尝试了使用词向量矩阵的转置,即
Figure BDA0003252258730000045
效果确实要比使用伪逆矩阵差很多;反映在模型中,就是在分类子网络的最后加入了两个固定参数的全连接层;第一层的固定参数为所有可见类词向量组成的矩阵Mw(s),第二层的固定参数为所有不可见类词向量组成的矩阵的伪逆矩阵
Figure BDA0003252258730000046
最终的输出即是各不可见类的分数组成的向量:Mp(u|b)
SSS2:增加语义嵌入层,在模型的最后加入了对不可见类分数的计算,而在预测可见类时并没有加入语义信息;为了更多地利用语义信息来帮助检测,我们在预测可见类分数时也加入语义嵌入层;思路如下:可见类分类的最后一步不是直接预测出类分数,而是先预测出词向量,然后再转换为类分数;
SSS3:增加关联类来辅助检测,用到的辅助语义信息只有单个类别的词向量,反映的信息量十分有限;在此方法中我们希望增加与要检测的不可见类相关联类别的词向量,来降低语义噪声;这里的关联类,是指与目标类别常常同时出现的目标,有三种情况:
SSSS1:目标类身上附着的物体,如安全帽之于天然气生产工人;SSSS2:目标类的通常背景,如天空之于飞盘;SSSS3:常常与目标类伴随出现的相关物体,如刀之于叉子;
我们用
Figure BDA0003252258730000051
表示不可见类u的关联类集合,
Figure BDA0003252258730000052
即表示类r是不可见类u的一个关联类,w(r)表示关联类r的词向量,Mw(r)表示所有不可见类的关联类词向量组成的矩阵,即
Figure BDA0003252258730000053
与上一种方法类似地,我们可以预测得到各不可见类的分数向量Mp(u|b),同样我们也可以得到各关联类的预测分数向量:
Figure BDA0003252258730000054
其中,Mp(r|b)定义为Mp(r|b)=[p(r1|b),p(r2|b)...p(rR|b)];
最后我们将不可见类和它们关联类的预测分数相结合,得到最终的预测分数:
Figure BDA0003252258730000055
其中,q(r,u)为不可见类u和其关联类r之间的关联系数;
采用模型表示,即是在分类子网络的最后加入了四个固定参数的全连接层,新增的四个全连接层;第一层的固定参数为所有可见类词向量组成的矩阵Mw(s),然后分别连接并行的第二层和第三层;第二层的固定参数为所有不可见类词向量组成的矩阵的伪逆矩阵
Figure BDA0003252258730000056
它的输出即是所有不可见类的初始分数组成的向量Mp(u|b);第三层的固定参数为所有不可见类的关联类词向量组成的矩阵的伪逆矩阵
Figure BDA0003252258730000057
它的输出即是所有关联类的分数组成的向量Mp(r|b);接下来将二三层的输出进行连接再输入到第四层,第四层的固定参数为所有不可见类与它自身以及其关联类的关联系数矩阵Mq(r,u),最终输出为所有不可见类的最终分数组成的矩阵Mp'(u|b)
本发明的有益效果是:通过RetinaNet网络模型在通用数据集上进行目标检测任务的训练,结合零样本学习的方法将模型迁移到天然气生产工人类或其他生产环境下的人员类的检测中,无需进行重新训练。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1:RetinaNet模型网络结构图;
图2:通过词向量进行逆预测方法的分类子网络结构图;
图3:增加语义嵌入层方法的分类子网络结构图;
图4:增加关联类方法的分类子网络结构图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
在本发明的描述中,需要理解的是,术语“一端”、“另一端”、“外侧”、“上”、“内侧”、“水平”、“同轴”、“中央”、“端部”、“长度”、“外端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本发明使用的例如“上”、“上方”、“下”、“下方”等表示空间相对位置的术语是出于便于说明的目的来描述如附图中所示的一个单元或特征相对于另一个单元或特征的关系。空间相对位置的术语可以旨在包括设备在使用或工作中除了图中所示方位以外的不同方位。例如,如果将图中的设备翻转,则被描述为位于其他单元或特征“下方”或“之下”的单元将位于其他单元或特征“上方”。因此,示例性术语“下方”可以囊括上方和下方这两种方位。设备可以以其他方式被定向(旋转90度或其他朝向),并相应地解释本文使用的与空间相关的描述语。
在本发明中,除非另有明确的规定和限定,术语“设置”、“套接”、“连接”、“贯穿”、“插接”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
如图1-图4所示,本发明的一种基于深度学习的用于生产安全的人员检测方法,具体步骤如下:
S1:数据采集;
S2:数据增强;
S3:训练模型;
S4:实验对比;
S5:服务器部署;
S3:训练模型具体步骤如下:
SS1、训练基础网络模型;
SS2、提取语义信息;
SS3、基于零样本学习的模型迁移。
本实施例中,SS1、训练基础网络模型,选用RetinaNet作为目标检测的基础网络模型;RetinaNet由骨干网络1和金字塔网络FPN2以及两个子网络构成;两个子网络构成包括分类子网络3和框回归子网络4;
骨干网络采用ResNet1;ResNet1依次连接金字塔网络FPN2、分类子网络3以及框回归子网络4;ResNet1即深度残差网络,基本思路是在原始映射F(x)的基础上增加一个自身映射x,从而得到新的映射函数H(x)=F(x)+x,来解决退化问题;金字塔网络FPN2则通过自顶向下的有效路径和横向连接来强化原始深度卷积网络,因此可以从原始单分辨率的输入图像上构建出多尺度的特征金字塔,并且每个金字塔等级可以用来检测不同大小、比例的目标;分类子网络3在每个FPN等级上进行框类别的预测,每个等级之间的参数是共享的。它是一个小型全卷积(FCN)网络,具体来说,使用FPN得到的C个通道的特征图,这里C是256,应用4个3×3的卷积层,卷积核的个数为C,每个卷积层后面都跟一个ReLU激活函数,然后再应用1个3×3的卷积层,卷积核的个数为K×A,K是目标类别的个数,A是锚框的个数,最后再跟一个sigmoid激活函数;框回归子网络4,与分类子网络3并行进行,在每个FPN等级上进行框坐标的预测。它与分类子网络结构基本相似,都是将一个小型全卷积网络附加到每个金字塔等级上,只是将最后一个卷积层的卷积核个数变为4×A,从而能够预测出相对锚框的4个坐标的偏移值。
我们在通用目标检测数据集COCO2014上训练我们的基础网络模型,得到能够检测80个类的目标检测模型。但是该模型无法检测训练集中不存在的天然气生产工人类,或者将天然气生产工人类视作普通的人员类的检测效果不佳。因此我们提出了基于语义信息的零样本方法,使得模型也能够检测训练集中不存在的目标类别。
本实施例中,SS2、提取语义信息,通过采用word2vec算法中的skip-gram模型对维基英文语料库进行无监督训练,得到词库中每个词的词向量;skip-gram模型是一个神经网络模型,它以词对应的独热向量作为输入层,词向量作为隐藏层,词库中其他词可能为上下文的概率作为输出层,通过训练使最终得到的概率最为接近词库中的真实概率,这样训练得到输出层到隐藏层的参数,然后再据此计算每个词的词向量;对于每个类
Figure BDA0003252258730000091
计算得到d维词向量w(c),两个词向量之间的欧式距离d(w(ci),w(cj))代表两个类在语义空间中的接近程度,距离越小表示这两个类越接近。
本实施例中,SS3、基于零样本学习的模型迁移,将要检测的目标类别分为可见类和不可见类;
其中可见类在训练阶段存在标记好的目标实例,而不可见类在训练阶段则不存在标记好的目标实例;
可见类的集合用
Figure BDA0003252258730000092
表示,不可见类的集合用
Figure BDA0003252258730000093
表示,
Figure BDA0003252258730000094
表示所有类的集合,其中
Figure BDA0003252258730000095
Figure BDA0003252258730000096
模型迁移的目标是使得训练出的模型既能检测训练集中存在的可见类,又能很好地检测训练集中不存在的不可见类;
由于基础目标检测模型的分类子网络中最后一层的参数个数是固定的,与目标类别的个数绑定,因此训练中针对的是什么类别,模型就只能预测出这些类别的分数,而对不可见类的分数预测无能为力;针对分类子网络的结构和语义信息,我们提出了逐步递进的三种方法来改进原始网络,从而使其可以检测训练集中不存在的目标类,具体如下:
SSS1:借助词向量进行逆预测;
SSS2:增加语义嵌入层;
SSS3:增加关联类来辅助检测;
SSS1:借助词向量进行逆预测对于每个预测框b=(x1,y1,x2,y2),我们根据原始模型得到了每个可见类的预测分数p(s|b),其中
Figure BDA0003252258730000097
向量Mp(s|b)=[p(s1|b),p(s2|b)...p(sS|b)]是指所有可见类的预测分数组成的向量;每个可见类的词向量为w(s),矩阵
Figure BDA0003252258730000098
表示所有可见类的词向量组成的矩阵;所有可见类的词向量矩阵与它们的预测分数向量相乘即可得到预测词向量w(b):
w(b)=Mp(s|b)×Mw(s)
将预测词向量w(b)与所有不可见类词向量w(u)组成的矩阵Mw(u)的伪逆矩阵相乘,其中
Figure BDA0003252258730000101
从而得到各不可见类的预测分数组成的向量Mp(u|b),其中Mp(u|b)=[p(u1|b),p(u2|b)...p(uU|b)],其计算公式如下所示:
Figure BDA0003252258730000102
之所以是伪逆矩阵,我们可以考虑可见类,按照此方法得到的各可见类的分数矩阵为:
Figure BDA0003252258730000103
即可见类在经过计算后仍能还原到原始的分数,说明使用伪逆矩阵有一定的数学根据;我们在实验中也尝试了使用词向量矩阵的转置,即
Figure BDA0003252258730000104
效果确实要比使用伪逆矩阵差很多;反映在模型中,就是在分类子网络的最后加入了两个固定参数的全连接层;第一层的固定参数为所有可见类词向量组成的矩阵Mw(s),第二层的固定参数为所有不可见类词向量组成的矩阵的伪逆矩阵
Figure BDA0003252258730000105
最终的输出即是各不可见类的分数组成的向量:Mp(u|b);虚线框内为新添加的预测不可见类分数的两个全连接层。图中的S表示可见类的个数,d表示词向量的维数,U表示不可见类的个数
SSS2:增加语义嵌入层,在模型的最后加入了对不可见类分数的计算,而在预测可见类时并没有加入语义信息;为了更多地利用语义信息来帮助检测,我们在预测可见类分数时也加入语义嵌入层;思路如下:可见类分类的最后一步不是直接预测出类分数,而是先预测出词向量,然后再转换为类分数;具体来说,就是将原始分类子网络的最后一个卷积层的卷积核个数修改为d×A,d是词向量的维数,然后再增加一个参数固定的全连接层,参数为可见类的词向量w(s)组成的矩阵的转置
Figure BDA0003252258730000106
从而输出可见类的分数向量Mp(s|b)。后续预测不可见类分数的步骤与前面的方法相同。
SSS3:增加关联类来辅助检测,用到的辅助语义信息只有单个类别的词向量,反映的信息量十分有限;在此方法中我们希望增加与要检测的不可见类相关联类别的词向量,来降低语义噪声;这里的关联类,是指与目标类别常常同时出现的目标,有三种情况:
SSSS1:目标类身上附着的物体,如安全帽之于天然气生产工人;SSSS2:目标类的通常背景,如天空之于飞盘;SSSS3:常常与目标类伴随出现的相关物体,如刀之于叉子;
我们用
Figure BDA0003252258730000111
表示不可见类u的关联类集合,
Figure BDA0003252258730000112
即表示类r是不可见类u的一个关联类,w(r)表示关联类r的词向量,Mw(r)表示所有不可见类的关联类词向量组成的矩阵,即
Figure BDA0003252258730000113
与上一种方法类似地,我们可以预测得到各不可见类的分数向量Mp(u|b),同样我们也可以得到各关联类的预测分数向量:
Figure BDA0003252258730000114
其中,Mp(r|b)定义为Mp(r|b)=[p(r1|b),p(r2|b)...p(rR|b)];
最后我们将不可见类和它们关联类的预测分数相结合,得到最终的预测分数:
Figure BDA0003252258730000115
其中,q(r,u)为不可见类u和其关联类r之间的关联系数;
采用模型表示,即是在分类子网络的最后加入了四个固定参数的全连接层,新增的四个全连接层;第一层的固定参数为所有可见类词向量组成的矩阵Mw(s),然后分别连接并行的第二层和第三层;第二层的固定参数为所有不可见类词向量组成的矩阵的伪逆矩阵
Figure BDA0003252258730000116
它的输出即是所有不可见类的初始分数组成的向量Mp(u|b);第三层的固定参数为所有不可见类的关联类词向量组成的矩阵的伪逆矩阵
Figure BDA0003252258730000121
它的输出即是所有关联类的分数组成的向量Mp(r|b);接下来将二三层的输出进行连接再输入到第四层,第四层的固定参数为所有不可见类与它自身以及其关联类的关联系数矩阵Mq(r,u),最终输出为所有不可见类的最终分数组成的矩阵Mp'(u|b)
工作过程如下:
1、数据采集,我们在天然气工厂场景下部署了3路网络摄像头,分别在压缩机房、脱盐泵房和P203泵房等关键区域。共采集了858张图片作为测试集,包含1647个天然气生产工人目标实例框。
2、数据增强。初始的天然气工厂测试集中的图片和目标框的数量过少,进行数据增强可以扩充测试集,提高测试结果的稳定性,更能如实地反映实际应用的效果。我们用到的数据增强的方法如下,有水平翻转、随机裁剪、随机亮度调整和高斯滤波。
3、训练模型,我们使用COCO2014数据集来训练网络模型。训练集包含64480张图片和474173个实例框,对应80个目标类别。我们在两块NVIDIARTX2080Ti显卡上进行并行训练,批大小为4,每轮进行16120次迭代,共训练25轮。优化器采用标准Adam优化器,梯度裁剪参数clipnorm为0.001,β1为0.9,β2为0.999。初始学习率为10-5,利用回调函数监测损失,据此自动降低学习率。总的训练时间约为90个小时。
4、实验对比,我们使用目标检测中最常用的评价指标检测准确度AP,AP即不同召回率下精度的平均。对于天然气生产工人类,我们对比的目标是将其视作普通的人员类别来进行检测的方法,我们将该方法命名为normal。normal方法和我们的方法在不同场景下对天然气生产工人的检测准确度以及平均准确度如下表所示:
Figure BDA0003252258730000122
Figure BDA0003252258730000131
可以看到,normal方法检测的平均准确度AP为0.41,而我们的方法将AP提升到了0.47。
5、服务器部署,通过Flask服务,将训练好的模型部署到服务器上,通过目标检测算法,在视频上标记检测天然气生产工人的结果。并根据设置的报警区域和报警阈值,判断是否报警,并将报警结果通知给安全负责人。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims (4)

1.一种基于深度学习的用于生产安全的人员检测方法,其特征在于,具体步骤如下:
S1:数据采集;
S2:数据增强;
S3:训练模型;
S4:实验对比;
S5:服务器部署;
所述S3:训练模型具体步骤如下:
SS1、训练基础网络模型;
SS2、提取语义信息;
SS3、基于零样本学习的模型迁移。
2.根据权利要求1所述的基于深度学习的用于生产安全的人员检测方法,其特征在于:所述训练基础网络模型,选用RetinaNet作为目标检测的基础网络模型;所述RetinaNet由骨干网络和金字塔网络FPN(2)以及两个子网络构成;所述两个子网络构成包括分类子网络(3)和框回归子网络(4);
所述骨干网络采用ResNet(1);所述ResNet(1)依次连接金字塔网络FPN(2)、分类子网络(3)以及框回归子网络(4)。
3.根据权利要求1所述的基于深度学习的用于生产安全的人员检测方法,其特征在于:SS2提取语义信息,通过采用word2vec算法中的skip-gram模型对维基英文语料库进行无监督训练,得到词库中每个词的词向量;skip-gram模型是一个神经网络模型,它以词对应的独热向量作为输入层,词向量作为隐藏层,词库中其他词可能为上下文的概率作为输出层,通过训练使最终得到的概率最为接近词库中的真实概率,这样训练得到输出层到隐藏层的参数,然后再据此计算每个词的词向量;对于每个类
Figure FDA0003252258720000011
计算得到d维词向量w(c),两个词向量之间的欧式距离d(w(ci),w(cj))代表两个类在语义空间中的接近程度,距离越小表示这两个类越接近。
4.根据权利要求1所述的基于深度学习的用于生产安全的人员检测方法,其特征在于:基于零样本学习的模型迁移,将要检测的目标类别分为可见类和不可见类;
其中可见类在训练阶段存在标记好的目标实例,而不可见类在训练阶段则不存在标记好的目标实例;
可见类的集合用
Figure FDA0003252258720000021
表示,不可见类的集合用
Figure FDA0003252258720000022
表示,
Figure FDA0003252258720000023
表示所有类的集合,其中
Figure FDA0003252258720000024
Figure FDA0003252258720000025
模型迁移的目标是使得训练出的模型既能检测训练集中存在的可见类,又能很好地检测训练集中不存在的不可见类;
由于基础目标检测模型的分类子网络中最后一层的参数个数是固定的,与目标类别的个数绑定,因此训练中针对的是什么类别,模型就只能预测出这些类别的分数,而对不可见类的分数预测无能为力;针对分类子网络的结构和语义信息,提出逐步递进的三种方法来改进原始网络,从而使其可以检测训练集中不存在的目标类,具体如下:
SSS1:借助词向量进行逆预测;
SSS2:增加语义嵌入层;
SSS3:增加关联类来辅助检测;
SSS1借助词向量进行逆预测对于每个预测框b=(x1,y1,x2,y2),根据原始模型得到了每个可见类的预测分数p(s|b),其中
Figure FDA0003252258720000026
向量Mp(s|b)=[p(s1|b),p(s2|b)...p(sS|b)]是指所有可见类的预测分数组成的向量;每个可见类的词向量为w(s),矩阵
Figure FDA0003252258720000027
表示所有可见类的词向量组成的矩阵;所有可见类的词向量矩阵与它们的预测分数向量相乘即可得到预测词向量w(b):
w(b)=Mp(s|b)×Mw(s)
将预测词向量w(b)与所有不可见类词向量w(u)组成的矩阵Mw(u)的伪逆矩阵相乘,其中
Figure FDA0003252258720000031
从而得到各不可见类的预测分数组成的向量Mp(u|b),其中Mp(u|b)=[p(u1|b),p(u2|b)...p(uU|b)],其计算公式如下所示:
Figure FDA0003252258720000032
按照此方法得到的各可见类的分数矩阵为:
Figure FDA0003252258720000033
可见类在经过计算后仍能还原到原始的分数,说明使用伪逆矩阵有一定的数学根据;如果使用词向量矩阵的转置,即
Figure FDA0003252258720000034
效果要比使用伪逆矩阵差;反映在模型中,就是在分类子网络的最后加入了两个固定参数的全连接层;第一层的固定参数为所有可见类词向量组成的矩阵Mw(s),第二层的固定参数为所有不可见类词向量组成的矩阵的伪逆矩阵
Figure FDA0003252258720000035
最终的输出即是各不可见类的分数组成的向量:Mp(u|b)
SSS2增加语义嵌入层,在模型的最后加入对不可见类分数的计算,而在预测可见类时并没有加入语义信息;为了更多地利用语义信息来帮助检测,在预测可见类分数时也加入语义嵌入层,可见类分类的最后一步不是直接预测出类分数,而是先预测出词向量,然后再转换为类分数;
SSS3增加关联类来辅助检测,用到的辅助语义信息只有单个类别的词向量,反映的信息量十分有限;在此方法中增加与要检测的不可见类相关联类别的词向量,来降低语义噪声;这里的关联类,是指与目标类别常常同时出现的目标,有三种情况:
SSSS1:目标类身上附着的物体;SSSS2:目标类的通常背景;SSSS3:常常与目标类伴随出现的相关物体;
Figure FDA0003252258720000036
表示不可见类u的关联类集合,
Figure FDA0003252258720000037
即表示类r是不可见类u的一个关联类,w(r)表示关联类r的词向量,Mw(r)表示所有不可见类的关联类词向量组成的矩阵,即
Figure FDA0003252258720000041
与上一种方法类似地,可以预测得到各不可见类的分数向量Mp(u|b),同样也可以得到各关联类的预测分数向量:
Figure FDA0003252258720000042
其中,Mp(r|b)定义为Mp(r|b)=[p(r1|b),p(r2|b)...p(rR|b)];
最后将不可见类和关联类的预测分数相结合,得到最终的预测分数:
Figure FDA0003252258720000043
其中,q(r,u)为不可见类u和其关联类r之间的关联系数;
采用模型表示,即是在分类子网络的最后加入了四个固定参数的全连接层,新增的四个全连接层;第一层的固定参数为所有可见类词向量组成的矩阵Mw(s),然后分别连接并行的第二层和第三层;第二层的固定参数为所有不可见类词向量组成的矩阵的伪逆矩阵
Figure FDA0003252258720000044
它的输出即是所有不可见类的初始分数组成的向量Mp(u|b);第三层的固定参数为所有不可见类的关联类词向量组成的矩阵的伪逆矩阵
Figure FDA0003252258720000045
它的输出即是所有关联类的分数组成的向量Mp(r|b);接下来将二三层的输出进行连接再输入到第四层,第四层的固定参数为所有不可见类与它自身以及其关联类的关联系数矩阵Mq(r,u),最终输出为所有不可见类的最终分数组成的矩阵Mp'(u|b)
CN202111049205.5A 2021-09-08 2021-09-08 一种基于深度学习的用于生产安全的人员检测方法 Pending CN113743406A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111049205.5A CN113743406A (zh) 2021-09-08 2021-09-08 一种基于深度学习的用于生产安全的人员检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111049205.5A CN113743406A (zh) 2021-09-08 2021-09-08 一种基于深度学习的用于生产安全的人员检测方法

Publications (1)

Publication Number Publication Date
CN113743406A true CN113743406A (zh) 2021-12-03

Family

ID=78736967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111049205.5A Pending CN113743406A (zh) 2021-09-08 2021-09-08 一种基于深度学习的用于生产安全的人员检测方法

Country Status (1)

Country Link
CN (1) CN113743406A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106895975A (zh) * 2017-01-17 2017-06-27 苏州大学 基于Stacked SAE深度神经网络的轴承故障诊断方法
CN111259523A (zh) * 2020-01-09 2020-06-09 浙江理工大学 基于kpca-cva模型和随机算法的过程监测方法
CN111274872A (zh) * 2020-01-08 2020-06-12 哈尔滨融智爱科智能科技有限公司 基于模板匹配的视频监控动态不规则多监管区域判别方法
CN112036447A (zh) * 2020-08-11 2020-12-04 复旦大学 零样本目标检测系统及可学习语义和固定语义融合方法
US20210133670A1 (en) * 2019-11-05 2021-05-06 Strong Force Vcn Portfolio 2019, Llc Control tower and enterprise management platform with a machine learning/artificial intelligence managing sensor and the camera feeds into digital twin

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106895975A (zh) * 2017-01-17 2017-06-27 苏州大学 基于Stacked SAE深度神经网络的轴承故障诊断方法
US20210133670A1 (en) * 2019-11-05 2021-05-06 Strong Force Vcn Portfolio 2019, Llc Control tower and enterprise management platform with a machine learning/artificial intelligence managing sensor and the camera feeds into digital twin
CN111274872A (zh) * 2020-01-08 2020-06-12 哈尔滨融智爱科智能科技有限公司 基于模板匹配的视频监控动态不规则多监管区域判别方法
CN111259523A (zh) * 2020-01-09 2020-06-09 浙江理工大学 基于kpca-cva模型和随机算法的过程监测方法
CN112036447A (zh) * 2020-08-11 2020-12-04 复旦大学 零样本目标检测系统及可学习语义和固定语义融合方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郝存明;朱继军;张伟平;: "基于深度学习的安全帽检测方法研究", 河北省科学院学报, no. 03 *

Similar Documents

Publication Publication Date Title
CN109522819B (zh) 一种基于深度学习的火灾图像识别方法
Sharma et al. Deep convolutional neural networks for fire detection in images
CN106295502B (zh) 一种人脸检测方法及装置
CN109450845B (zh) 一种基于深度神经网络的算法生成恶意域名检测方法
CN111626188B (zh) 一种室内不可控明火监测方法及系统
CN111626116B (zh) 基于融合多注意力机制和Graph的视频语义分析方法
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN111126293A (zh) 一种火焰和烟雾异常情况检测方法及系统
CN110852222A (zh) 一种基于目标检测的校园走廊场景智能监控方法
CN108446605B (zh) 复杂背景下双人交互行为识别方法
CN110728186B (zh) 一种基于多网融合的火灾检测方法
CN114419346B (zh) 一种模型的鲁棒性检测方法、装置、设备及介质
CN109543744B (zh) 一种基于龙芯派的多类别深度学习图像识别方法及其应用
CN112836608B (zh) 森林火灾源头的估计模型训练方法、估计方法及系统
Mwedzi et al. Machine learning applications for fire detection in a residential building
CN116310922A (zh) 石化厂区监控视频风险识别方法、系统、电子设备及存储介质
CN116405310B (zh) 一种网络数据安全监测方法及系统
CN117435999A (zh) 一种风险评估方法、装置、设备以及介质
CN112163494A (zh) 一种视频虚假人脸检测方法及电子装置
CN113743406A (zh) 一种基于深度学习的用于生产安全的人员检测方法
CN116543333A (zh) 电力系统的目标识别方法、训练方法、装置、设备和介质
Sridhar et al. Wildfire Detection and Avoidance of false Alarm Using Densenet
KU et al. Subduing Crime and Threat in Real-Time by Detecting Weapons Using Yolov8
CN112633142A (zh) 一种输电线路违章建筑物识别方法及相关装置
Williams et al. Further extensions to robust parameter design: three factor interactions with an application to hyperspectral imagery

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination