CN113033481B

CN113033481B - 基于一阶全卷积目标检测算法的手持棍棒的检测方法

Info

Publication number: CN113033481B
Application number: CN202110424841.5A
Authority: CN
Inventors: 谢红刚; 杨明; 严伯伦; 万湘奎; 丰励
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2023-06-02
Anticipated expiration: 2041-04-20
Also published as: CN113033481A

Abstract

本发明公开了一种结合长宽比优先的一阶全卷积目标检测(FCOS)算法的手持棍棒的检测方法，用于实时监控视频，对人手持棍棒情况进行检测与识别并及时预警。本方法包括以下步骤：①获取现场视频图像；②用人体形态检测模型对图像进行检测；③用基于长宽比优先的FCOS模型对图像进行检测；④根据手持棍棒联合检测方法来判定并生成消息；⑤将检测识别结果进行展示。本发明用人工标注的人体站立、坐着、蹲着三种不同形态下图像训练的YOLOv4人体检测模型，有助于检测人体的手部位置，除此之外，采用结合长宽比优先的FCOS网络结构来训练模型，有助于改善棍棒这类细长物体检测的准确性，最后，通过手持棍棒联合检测方法来判定，在一定程度上降低了本发明对手持棍棒的误检率。

Description

基于一阶全卷积目标检测算法的手持棍棒的检测方法

技术领域

本发明涉及视频识别检测领域，更具体的说，涉及一种基于一阶全卷积目标检测算法的手持棍棒的检测方法。

背景技术

目前，机器视觉对大目标与人体的检测效果还是不错的，但是它对棍棒这一类细长物体及细长物体与人手部相结合的形态行为的检测效果欠佳，为此，本发明提供一种结合长宽比优先的一阶全卷积目标检测(FCOS)算法的手持棍棒的检测方法，旨在解决这些问题。

本发明首先利用摄像头实时监控并采集图像，在采集到图像之后，用人工标注的人体站立、坐着或蹲着三种不同形态下图像学习训练建立的人体检测模型来对图像进行检测，与传统的人体检测方法相比，有助于检测人体的手部位置。然后采用结合长宽比优先的FCOS网络结构来训练模型，再加载FCOS棍棒检测模型对图像进行检测，与传统的棍棒检测方法相比，有助于提高棍棒这类细长物体检测的准确性。最后，提出了手持棍棒联合检测判定方法，通过双条件来联合判定，在一定程度上降低了对手持棍棒的误检率。

发明内容

本发明的目的就在于提供一种结合长宽比优先的一阶全卷积目标检测(FCOS)算法的手持棍棒的检测方法。

本发明的目的是这样实现的：

一种结合长宽比优先的一阶全卷积目标检测(FCOS)算法的手持棍棒的检测方法，包括以下步骤：

步骤1、取现场视频图像：通过摄像头对现场进行视频监控，然后对现场的监控视频进行图像采样；

步骤2、用人体形态检测模型对图像进行检测：通过训练学习建立的人体检测模型对现场视频图像进行检测，判断图像里面是否有人；

步骤3、用基于长宽比优先的FCOS模型对图像进行检测；

步骤4、根据手持棍棒联合检测方法来判定并生成消息；

步骤5、将检测识别结果进行展示。

在上述的一种结合长宽比优先的一阶全卷积目标检测(FCOS)算法的手持棍棒的检测方法，步骤2具体包括

步骤2.1、训练学习建立人体检测模型，包括

b、从数据集里面挑选出不同形态下的人体图像；

从COCO、ImageNet、PASCAL VOC数据集选取含有人体站立、坐着、蹲着三种不同形态下图像数据，并补充部分收集图像数据；

b、人工标注出人体站立、坐着、蹲着三种不同形态的图像内容和格式；

c、基于YOLOv4网络训练学习人体形态检测模型；

用人工标注的图像训练YOLOv4人体形态检测模型，其中YOLOv4算法使用的损失函数如下所示：

式(1)中，L_CIOU为损失函数，IOU是交并比(图像预测框和真实框重叠区域的比值)，d代表的是计算两个中心点之间的欧式距离，κ代表的是闭包的对角线距离；式(2)中，σ是衡量长宽比一致性的参数，w^gt和h^gt为真实框的宽、高，w和h为预测框的宽、高；式(3)中，

用于做权衡的参数；

d、获得训练优化后的YOLOv4人体形态检测模型；

步骤2.2、加载人体形态检测模型对图像进行检测，并获得检测结果，根据获得的检测结果判断是否有人，是则将图像进行步骤3的处理，否则返回重新图像采样。

在上述的一种结合长宽比优先的一阶全卷积目标检测(FCOS)算法的手持棍棒的检测方法，步骤3具体包括

步骤3.1、训练优化后的FCOS棍棒检测模型，包括

b、从数据集里面挑选出含有各种长条形棍棒样式的图像；

从COCO、ImageNet、PASCAL VOC数据集选取含有各种长条形棍棒样式的图像数据，并补充部分收集图像数据；

b、人工标注出各种长条形棍棒样式的图像内容和格式；

c、采用结合长宽比优先的FCOS网络结构，训练模型；

FCOS的模型结构由主干网络CNN、特征金字塔网络和head(获取网络输出内容的网络)这三部分组成；

FCOS模型用到的损失函数公式为：

L_reg＝1-IOU (6)

式(4)中，L_FCOS为损失函数，p(x,y)为预测分类概率，t(x,y)为预测框的回归信息，L_cls是分类损失，L_reg是回归损失，N_pos表示正样本数量(点(x,y)落在棍棒对应的真实目标框中称为正样本),λ是回归损失L_reg的平衡系数，可将λ设为1；两个求和

是指对特征图上的所有点(x,y)所对应的损失进行求和；β是/>

指示函数：当点(x,y)落在棍棒对应的真实目标框中,指示函数取1，否则取0；式(5)中，ξ>0为可调节因子，式(6)中，IOU为交并比；

为了提高损失函数的回归精度，将FCOS算法扩展至长宽比优先，该调整参数计算公式为：

式(7)中，l、r、t、b分别是到预测边界框左边界、右边界、上边界和下边界的距离,τ是物体的长宽比，其计算公式为：

τ＝min(w,h)/max(w,h) (8)

式(8)中，w和h是真实物体标注矩形框的宽度和高度；

d、获得训练优化后的FCOS棍棒检测模型；

步骤3.2、

加载FCOS棍棒检测模型对图像进行检测并获得检测结果，根据获得的检测结果判断是否有棍棒，是则将图像上传到下一模块，否则返回重新图像采样。

在上述的一种结合长宽比优先的一阶全卷积目标检测(FCOS)算法的手持棍棒的检测方法，步骤4具体包括

b、用轮廓跟踪参数从图像中提取棍棒和人体的轮廓；

图像中的人体和棍棒在之前的YOLOv4人体检测模型和FCOS棍棒检测模型都已经分别被检测过了，可以得到对应的矩形检测框，再用轮廓跟踪参数从图像中提取棍棒和人体的轮廓；轮廓跟踪的方法是：先根据“探测准则”找出目标物体轮廓上的第一个像素，再根据这些像素的某些特征用一定的“跟踪准则”找出目标物体上的其它像素；提取到人体站立、坐着、蹲着三种不同形态下的轮廓是不一样的，其中人体站立和蹲着对应的这两者轮廓差别最大；

b、得到棍棒和人体这两个四边形的四个顶点坐标；

用轮廓跟踪参数，把棍棒和人体的轮廓从图像中提取出来，棍棒和人体的轮廓都是不规则的四边形，进而得到对应四边形的四个凹点以及对应的顶点坐标；

c、用四边形的重心公式算出棍棒重心和人体重心；

四边形的重心坐标(X_g，Y_g)计算公式为：

式中(x_i,y_j)(i＝1,2,3,4)为四边形的四个顶点坐标，通过公式(9)、(10)计算可得棍棒对应的重心坐标(X_g1,Y_g1)，同理可得人体对应的重心坐标(X_g2,Y_g2)；

d、用欧式公式算出两个重心之间的距离差；

棍棒重心和人体重心的欧式距离计算公式是：

式(11)中，将棍棒重心坐标(X_g1,Y_g1)和人体重心坐标(X_g2,Y_g2)代入进去计算可得棍棒重心和人体重心之间的距离差d(X_g,Y_g)，将d(X_g,Y_g)的阈值记为γ，γ数值的具体大小应该结合实际情况而定，只有检测过程中的人体重心和棍棒重心之间的距离差数值小于阈值γ才算满足要求；

c、计算棍棒检测框和人体检测框相并部分的面积；

矩形框A为棍棒的检测框，矩形框B为人体的检测框，两个矩形框的位置关系图如图5所示；矩形框A和B相并部分面积为：

S_并＝S₂+S₃-S₁ (12)

其中S₁为矩形框A和B相交的阴影部分的面积，S₂为矩形框A的面积，S₃为矩形框B的面积；

d、计算人体棍棒联合比例系数(422)；

根据所述人体区域和棍棒区域的相并部分面积和重叠面积来计算人体棍棒联合比例系数，对应公式为：

Φ_union为人体棍棒联合比例系数，其中Φ_union的阈值记为

只有检测过程中的人体棍棒联合比例系数的数值大于/>

才算满足要求；

是否人体棍棒联合比例系数大于预设阈值

并且棍棒重心和人体重心之间的距离差小于所述预设阈值γ(401)，是则手持棍棒(402)，否则未手持棍棒(403)，最后生成消息(404)。

在上述的一种结合长宽比优先的一阶全卷积目标检测(FCOS)算法的手持棍棒的检测方法，步骤5中将检测识别结果进行展示的具体方法是框定手持棍棒发生的区域，并给出报警信息。

本发明具有下列优点和有益效果：

①本发明的人体检测模型是用人工标注的人体站立、坐着或蹲着三种不同形态下图像学习训练建立的；传统的人体检测模型只是用含有站立形态的人体图像进行学习训练，形态单一，不利于检测人体的手部位置，但用多形态下的人体图像学习训练建立的人体检测模型，有助于检测人体的手部位置。

②采用结合长宽比优先的FCOS网络结构来训练模型，再用基于长宽比优先的FCOS模型对棍棒这类细长物体进行检测；传统的FCOS模型是基于中心优先来对细长物体进行检测，由于细长物体的长边衰减较慢，而短边的衰减较快，会导致细长物体定位不准，但用基于长宽比优先的FCOS棍棒检测模型，有助于提高棍棒这类细长物体检测的准确性。

③提出了手持棍棒联合检测判定方法，即人体棍棒联合比例系数大于预设阈值

并且棍棒重心和人体重心之间的距离差小于所述预设阈值γ时，才算满足要求；传统的判定只需要单一的条件，不够严谨并且容易出现误检的情况，但用手持棍棒联合检测判定方法，用双条件来联合判定，在一定程度上降低了对手持棍棒的误检率。/>

附图说明

图1为本发明的检测流程图；

图2为本发明的人体形态检测模型检测流程图；

图3为基于长宽比优先的FCOS棍棒模型检测流程图；

图4为手持棍棒联合状态方法检测流程图；

图5为棍棒和人体的检测框的位置关系图。

具体实施方式

一、方法

1、本方法的步骤

如图1，本方法包括以下步骤：

步骤一、获取现场视频图像—101；

步骤二、用人体形态检测模型对图像进行检测—102；

步骤三、用基于长宽比优先的FCOS模型对图像进行检测—103；

步骤四、根据手持棍棒联合检测方法来判定并生成消息—104；

步骤五、将检测识别结果进行展示—105。

2、工作机理

传统的人体检测模型只是用含有站立形态的人体图像进行学习训练，形态单一，不利于检测人体的手部位置，因此需要用人工标注的人体站立、坐着或蹲着三种不同形态下的图像学习训练，有助于检测人体的手部位置。检测到人体后，将图像传到基于长宽比优先的FCOS棍棒检测模型做进一步检测，检测到棍棒后，再用手持棍棒联合检测判定并生成消息，最后将检测识别结果进行展示。

首先通过摄像头对现场进行视频监控，然后对现场的监控视频进行图像采样。

采样图像后，把图像上传到基于YOLOv4网络训练学习建立的人体形态检测模型，来对图像进行检测，其中人体形态检测模型是是用人工标注的人体站立、坐着或蹲着三种不同形态下的图像学习训练建立的，采用多形态下的人体图像学习建立的人体形态检测模型，有助于检测人体的手部位置。若检测不到人体，则返回重新图像采样，若检测到人体，则将图像上传到基于长宽比优先的FCOS棍棒检测模型。

然后，用基于长宽比优先的FCOS棍棒检测模型对检测到人体的图像做进一步检测。在检测过程中，由于细长物体的长边衰减较慢，而短边的衰减较快，会导致细长物体定位不准，而提出的FCOS模型长宽比优先的概念，有助于解决这一问题。若检测不到棍棒，则返回重新图像采样，若检测到棍棒，则再用手持棍棒联合检测方法来判定并生成消息。

之后，用手持棍棒联合检测方法来判定并生成消息。即只有所述人体棍棒联合比例系数大于预设阈值

和所述人体区域和棍棒区域的距离小于所述预设阈值γ时，才判定为手持棍棒，其它情况视为未手持棍棒，并生成对应的消息。通过双条件来判定，降低了检测的误检率。

3、子步骤

1)获取现场视频图像101

通过摄像头对现场进行视频监控，然后对现场的监控视频进行图像采样。

2)用人体检测模型对图像进行检测102

用人工标注的人体站立、坐着或蹲着三种不同形态下图像学习训练基于YOLOv4网络结构的人体形态检测模型，再用学习训练建立的人体形态检测模型对图像进行检测，若检测不到人体，则返回重新图像采样，若检测到人体，则将图像上传到基于长宽比优先的FCOS棍棒检测模型。

如图2，其流程如下：

a、从数据集里面挑选出不同形态下的人体图像201；

c、人工标注出人体站立、坐着、蹲着三种不同形态的图像内容和格式202；

c、基于YOLOv4网络训练学习人体形态检测模型203；

d、获得训练优化后的YOLOv4人体形态检测模型204；

e、加载人体形态检测模型对图像进行检测205；

f、获得检测结果206；

g、根据获得的检测结果206，判断是否有人207，是则将图像进行步骤3的处理208，否则返回重新图像采样209。

3)用基于长宽比优先的FCOS模型对图像进行检测103

采用结合长宽比优先的FCOS网络结构来训练模型，再用基于长宽比优先的FCOS棍棒检测模型对已检测到人体的图像做进一步检测，若检测不到棍棒，则返回重新图像采样，若检测到棍棒，则再用手持棍棒联合检测方法来判定并生成消息。

其中l、r、t、b分别是到预测边界框左边界、右边界、上边界和下边界的距离,τ是物体的长宽比，其计算公式为：

τ＝min(w,h)/max(w,h)

w和h是真实物体标注矩形框的宽度和高度。

如图3，其流程如下：

a、从数据集里面挑选出含有各种长条形棍棒样式的图像301；

b、人工标注出各种长条形棍棒样式的图像内容和格式302；

c、采用结合长宽比优先的FCOS网络结构，训练模型303；

d、获得训练优化后的FCOS棍棒检测模型304；

e、加载FCOS棍棒检测模型对图像进行检测305；

f、获得检测结果306；

g、根据获得的检测结果306判断是否有棍棒307，是则将图像上传到下一模块308，否则返回重新图像采样309。

4)根据手持棍棒联合检测方法来判定并生成消息104

用轮廓跟踪参数从图像中提取棍棒和人体的轮廓，并进一步得到对应棍棒和人体的顶点坐标，然后通过重心公式和欧式距离公式计算出人体区域和棍棒区域的距离；根据棍棒预测框和人体预测框的重叠面积和相并部分面积的比值来计算人体棍棒联合比例系数。只有所述人体棍棒联合比例系数大于预设阈值

和所述人体区域和棍棒区域的距离小于所述预设阈值γ时，才判定为手持棍棒，其它情况视为未手持棍棒，并生成对应的消息。

如图4，其流程如下：

a、用轮廓跟踪参数从图像中提取棍棒和人体的轮廓411；

b、得到棍棒和人体这两个四边形的四个顶点坐标412；

c、用四边形的重心公式算出棍棒重心和人体重心413；

d、用欧式公式算出两个重心之间的距离差414；

a、计算棍棒检测框和人体检测框相并部分的面积421；

b、计算人体棍棒联合比例系数422；

Ⅰ、是否人体棍棒联合比例系数大于预设阈值

并且棍棒重心和人体重心之间的距离差小于所述预设阈值γ401，是则手持棍棒402，否则未手持棍棒403；

Ⅱ、生成消息(404)。

4)将检测识别结果进行展示105

框定手持棍棒发生的区域，并给出报警信息。

二、创新点

1：本发明的人体形态检测模型是用人工标注的人体站立、坐着、蹲着三种不同形态下图像学习训练建立的，用多形态下的人体图像学习建立的人体形态检测模型，有助于检测人体的手部位置。

2：采用结合长宽比优先的FCOS网络结构来训练模型，用基于长宽比优先的FCOS模型对棍棒进行检测，有助于提高棍棒这类细长物体检测的准确性。

3：提出了手持棍棒联合检测判定方法，即人体棍棒联合比例系数大于预设阈值

并且棍棒重心和人体重心之间的距离差小于所述预设阈值γ时，才算满足要求。用双条件来联合判定，在一定程度上降低了对手持棍棒的误检率。/>

Claims

1.一种结合长宽比优先的一阶全卷积目标检测算法的手持棍棒的检测方法，包括以下步骤：

步骤1、取现场视频图像(101)：通过摄像头对现场进行视频监控，然后对现场的监控视频进行图像采样；

步骤2、用人体形态检测模型对图像进行检测(102)：通过训练学习建立的人体检测模型对现场视频图像进行检测，判断图像里面是否有人；

步骤3、用基于长宽比优先的FCOS模型对图像进行检测(103)；

步骤4、根据手持棍棒联合检测方法来判定并生成消息(104)；

步骤5、将检测识别结果进行展示(105)；

步骤3具体包括

步骤3.1、训练优化后的FCOS棍棒检测模型，包括

a、从数据集里面挑选出含有各种长条形棍棒样式的图像(301)；

b、人工标注出各种长条形棍棒样式的图像内容和格式(302)；

c、采用结合长宽比优先的FCOS网络结构，训练模型(303)；

FCOS的模型结构由主干网络CNN、特征金字塔网络和head这三部分组成，head指获取网络输出内容的网络；

FCOS模型用到的损失函数公式为：

L_reg＝1-IOU (6)

式(4)中，L_FCOS为损失函数，p(x,y)为预测分类概率，t(x,y)为预测框的回归信息，L_cls是分类损失，L_reg是回归损失，N_pos表示正样本数量，点(x,y)落在棍棒对应的真实目标框中称为正样本,λ是回归损失L_reg的平衡系数，可将λ设为1；两个求和

是指对特征图上的所有点(x,y)所对应的损失进行求和；β是指示函数：当点(x,y)落在棍棒对应的真实目标框中,指示函数取1，否则取0；式(5)中，ξ>0为可调节因子，式(6)中，IOU为交并比；

为了提高损失函数的回归精度，将FCOS算法扩展至长宽比优先，调整参数计算公式为：

τ＝min(w,h)/max(w,h) (8)

式(8)中，w和h是真实物体标注矩形框的宽度和高度；

d、获得训练优化后的FCOS棍棒检测模型(304)；

步骤3.2、

加载FCOS棍棒检测模型对图像进行检测(305)并获得检测结果(306)，根据获得的检测结果(306)判断是否有棍棒(307)，是则将图像上传到下一模块(308)，否则返回重新图像采样(309)。

2.根据权利要求1所述的一种结合长宽比优先的一阶全卷积目标检测算法的手持棍棒的检测方法，其特征在于：步骤2具体包括

步骤2.1、训练学习建立人体检测模型，包括

a、从数据集里面挑选出不同形态下的人体图像(201)；

b、人工标注出人体站立、坐着、蹲着三种不同形态的图像内容和格式(202)；

c、基于YOLOv4网络训练学习人体形态检测模型(203)；

式(1)中，L_CIOU为损失函数，IOU是交并比，交并比是图像预测框和真实框重叠区域的比值，d代表的是计算两个中心点之间的欧式距离，κ代表的是闭包的对角线距离；式(2)中，σ是衡量长宽比一致性的参数，w^gt和h^gt为真实框的宽、高，w′和h′为预测框的宽、高；式(3)中，

用于做权衡的参数；

d、获得训练优化后的YOLOv4人体形态检测模型(204)；

步骤2.2、加载人体形态检测模型对图像进行检测(205)，并获得检测结果(206)，根据获得的检测结果(206)判断是否有人(207)，是则将图像进行步骤3的处理(208)，否则返回重新图像采样(209)。

3.根据权利要求1所述的一种结合长宽比优先的一阶全卷积目标检测算法的手持棍棒的检测方法，其特征在于：步骤4具体包括

a、用轮廓跟踪参数从图像中提取棍棒和人体的轮廓(411)；

b、得到棍棒和人体这两个四边形的四个顶点坐标(412)；

c、用四边形的重心公式算出棍棒重心和人体重心(413)；

四边形的重心坐标(X_g，Y_g)计算公式为：

d、用欧式公式算出两个重心之间的距离差(414)；

棍棒重心和人体重心的欧式距离计算公式是：

a、计算棍棒检测框和人体检测框相并部分的面积(421)；

矩形框A为棍棒的检测框，矩形框B为人体的检测框；矩形框A和B相并部分面积为：

S_并＝S₂+S₃-S₁ (12)

b、计算人体棍棒联合比例系数(422)；

Φ_union为人体棍棒联合比例系数，其中Φ_union的阈值记为

只有检测过程中的人体棍棒联合比例系数的数值大于/>

才算满足要求；

是否人体棍棒联合比例系数大于预设阈值

4.根据权利要求1所述的一种结合长宽比优先的一阶全卷积目标检测算法的手持棍棒的检测方法，其特征在于：步骤5中将检测识别结果进行展示(105)的具体方法是框定手持棍棒发生的区域，并给出报警信息。