CN112381021B

CN112381021B - 一种基于深度学习的人员检测计数方法

Info

Publication number: CN112381021B
Application number: CN202011309515.1A
Authority: CN
Inventors: 唐义平; 颜宋宋; 汪斌; 吴刚; 李帷韬
Original assignee: Anhui Yishi Technology Co ltd
Current assignee: Anhui Yishi Technology Co ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2022-07-12
Anticipated expiration: 2040-11-20
Also published as: CN112381021A

Abstract

本发明公开了一种基于深度学习的人员检测计数方法，包括：1、对视频监控图像进行周期采集，基于FiarMot算法对人员进行检测；2、提取检测人员感兴趣区域并计算其与监控区域交并比；3、构建自适应尺度LSTM神经网络，融合全连接层和小波变换特征并使用SCN分类器进行分类，根据检测结果的熵损失值评价自动调节网络尺度。本发明能根据检测结果的熵损失值评价自动调节网络尺度，从而能实现视频人员检测模型的自寻优调节和重构，进而提高不同环境下指定区域视频人员检测率，满足准确化快速化的实际需求。

Description

一种基于深度学习的人员检测计数方法

技术领域

本发明属于计算机视觉，图像识别技术，深度学习技术领域，具体的说是一种基于深度学习的人员检测计数方法。

背景技术

人员检测计数在一些特定场合对管理具有指导意义，例如在商场中对消费者的人员估计可以分析，制定相应的消费策略，对景点的人员检测计数可以调控游客数量，避免拥挤和危险区域的进入，提升安全性和游客满意度。

然而环境信息多种多样，目前的人员检测计数模型无法适应各类复杂场景，例如煤井矿场景，由于煤矿的安全规定，副井上下井口处人员只能从单侧进入罐笼，从另一侧离开罐笼。井口环境复杂，视频无法进行人员的准确检测。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于深度学习的人员检测计数方法，以期能解决复杂场景下人员检测计数误识率高的问题，能根据检测结果的熵损失值评价自动调节网络尺度，实现自动调整检测模型并进行人员检测计数，从而提高复杂背景下人员检测率和计数精度，并满足准确化快速化的实际需求。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于深度学习的人员检测计数方法的特点是按如下步骤进行：

步骤1、利用FiarMot算法对视频图像中的人员进行检测，并根据所设置的人员置信度阈值P₀，得到人员预测矩形边界框的坐标位置信息cls＝(tx,ty,tw,th)；其中，tx,ty分别表示预测矩形边界框cls的中心点的横坐标和纵坐标，tw,th分别表示预测矩形边界框cls的宽与高；

步骤2、按照采样周期提取所述人员矩形边界框的坐标位置信息cls中感兴趣区域集合，记为A＝{A₁,A₂,···,A_i,···,A_N}；其中，A_i表示第i张视频图像中的感兴趣区域，并有：A_i＝{cls′_i,1,cls′_i,2，···,cls′_i,j,···,cls′_i,m)，cls′_i,j表示第i张视频图像里预测出的第j个人预测边界框的感兴趣区域；m表示视频图像里所检测的人员个数，N表示一个采样周期内的总视频图像数；

步骤3、设置视频采集图像中的指定区域R，实时计算感兴趣区域集合A和指定区域R的交并比iou值，从而得到交并比序列集合S＝{S₁,S₂,···,S_i,···,S_N}；其中，S_i表示所述第i张视频图像中的感兴趣区域A_i和指定区域R的交并比iou值；

步骤4、构建LSTM神经网络，包括：卷积层，池化层，LSTM层、全连接层、特征融合层以及SCN分类器；其中，第一部分为x×x的卷积层，卷积核的个数是M个，第二部分为y×y的最大池化层，第三部分为长短期记忆网络层，长短期记忆结点个数是N个，并初始化长短期记忆网络层级q＝1；第四部分为全连接层，令全连接结点个数为C，第五部分为特征融合层，并初始化小波变化尺度a＝1，第六部分为SCN分类器，且节点个数为E；

步骤5、定义LSTM神经网络的当前迭代次数为μ，并初始化μ＝1；最大迭代次数为μ_max；定义LSTM神经网络的期望输出为t，定义人工设定的熵损失值为h，对所述LSTM深度学习网络中各层的参数进行随机初始化；

步骤6、将所述交并比序列数据集合S输入第μ次迭代的LSTM神经网络中，并提取第四部分的全连接层的特征输出为F_1,μ，其维度为C×1；

步骤7、将所述交并比序列数据集合S在尺度a上进行一维离散小波变换，用于在不同尺度上提取交并比序列数据集合S的特征，并得到小波变换特征输出F_2,μ，其维度为N×1；

步骤8、第μ次迭代的LSTM神经网络中第五部分的特征融合层将所述特征输出F_1,μ和小波变换特征输出F_2,μ进行特征拼接，得到第μ次迭代的组合后的特征输出F_μ＝[F_1,μ,F_2,μ],其维数为(N+C)×1；

步骤9、将组合后的特征输出F_μ输入到第μ次迭代的LSTM神经网络中第六部分的SCN分类器，得到第μ次迭代的输出结果t′_μ，将输出结t′_μ与期望输出t作差，得到第μ次迭代的深度为q时的熵损失值

步骤10、判断μ＜μ_max是否成立，若成立，则继续执行步骤11，否则，表示得到第μ次迭代的LSTM神经网络模型，并将所述第μ次迭代的输出结果t′_μ作为人员检测计数的结果；

步骤11、判断

是否成立；若成立，则表示得到第μ次迭代的LSTM神经网络模型，并将所述第μ次迭代的输出结果t′_μ作为人员检测计数的结果，否则，利用式(1)和式(2)计算更新后的深度Δq和小波变换添加尺度Δa：

式(1)和式(2)中，τ和l为波形控制系数，且τ＞1，l＞1；

步骤12；将q+Δq赋值给q，将a+Δa赋值给a，将μ+1赋值给μ后返回步骤6。

与现有技术相比，本发明的有益效果在于：

1、本发明通过采用融合神经网络和离散小波变换特征的方法，克服了传统人员检测计数系统中对深层特征提取不足的问题，并融合了频域信息，从而提升了识别精度。

2、本发明通过采用对检测结果的熵损失值评价的方法，对LSTM网络进行尺度自动寻优调节，克服了传统认知系统中对不同的场景采用相同认知方法完成人员检测对象特征空间的建立和检测，并且一旦建立就不再更新的缺陷，从而显著提高了模型在复杂场景的适应度。

3、本发明基于广泛部署的普通视频监控设备和嵌入式设备，不需要增加特殊设备，成本低，易部署。能广泛安装在各种应用场景。

具体实施方式

本实施例中，一种基于深度学习的人员检测计数方法，能实现视频人员检测模型的自寻优调节和重构，以提高不同环境下指定区域视频人员检测率，具体的说是按如下步骤进行：

步骤1、利用FiarMot算法对视频图像中的人员进行检测，并根据所设置的人员置信度阈值P₀＝0.8，得到置信度大于80％的人员预测矩形边界框的坐标位置信息cls＝(tx,ty,tw,th)；其中，tx,ty分别表示预测矩形边界框cls的中心点的横坐标和纵坐标，tw,th分别表示预测矩形边界框cls的宽与高；

步骤2、根据场景需求，选取头部，腿部或其他为感兴趣区域，按照5s为一个采样周期提取人员矩形边界框的坐标位置信息cls中感兴趣区域集合，记为A＝{A₁,A₂,···,A_i,···,A_N}；其中，A_i表示第i张视频图像中的感兴趣区域，并有：A_i＝{cls′_i,1,cls′_i,2，···,cls′_i,j,···,cls′_i,m)，cls′_i，j表示第i张视频图像里预测出的第j个人预测边界框的感兴趣区域；m表示视频图像里所检测的人员个数，N表示一个采样周期内的总视频图像数；

步骤3、根据场景监控区域，设置视频采集图像中的指定区域R，实时计算感兴趣区域集合A和指定区域R的交并比iou值，从而得到交并比序列集合S＝{S₁,S₂,···,S_i,···,S_N}；其中，S_i表示第i张视频图像中的感兴趣区域A_i和指定区域R的交并比iou值；

步骤4、构建LSTM神经网络，包括：卷积层，池化层，LSTM层、全连接层、特征融合层以及SCN分类器；其中，第一部分为x×x的卷积层，卷积核的个数是M个，第二部分为y×y的最大池化层，第三部分为长短期记忆网络层，长短期记忆结点个数是N个，并初始化长短期记忆网络层级q＝1；第四部分为全连接层，令全连接结点个数为C，第五部分为特征融合层，并初始化小波变化尺度a＝1，第六部分为SCN分类器，且节点个数为E；(这里需要参数实例化，确定一个网络结构)

步骤5、定义LSTM神经网络的当前迭代次数为μ，并初始化μ＝1；最大迭代次数为μ_max＝500；定义LSTM神经网络的期望输出为t，定义人工设定的熵损失值为h，对LSTM深度学习网络中各层的参数进行随机初始化；

步骤6、将交并比序列数据集合S输入第μ次迭代的LSTM神经网络中，并提取第四部分的全连接层的特征输出为F_1,μ，其维度为C×1；

步骤7、将交并比序列数据集合S在尺度a上进行一维离散小波变换，用于在不同尺度上提取交并比序列数据集合S的特征，并得到小波变换特征输出F_2,μ，其维度为N×1；

步骤8、第μ次迭代的LSTM神经网络中第五部分的特征融合层将特征输出F_1,μ和小波变换特征输出F_2,μ进行特征拼接，得到第μ次迭代的组合后的特征输出F_μ＝[F_1,μ,F_2,μ],其维数为(N+C)×1；

步骤10、判断μ＜μ_max是否成立，若成立，则继续执行步骤11，否则，表示得到第μ次迭代的LSTM神经网络模型，并将第μ次迭代的输出结果t′_μ作为人员检测计数的结果；

步骤11、判断

是否成立；若成立，则表示得到第μ次迭代的LSTM神经网络模型，并将第μ次迭代的输出结果t′_μ作为人员检测计数的结果，否则，利用式(1)和式(2)计算更新后的深度Δq和小波变换添加尺度Δa：

式(1)和式(2)中，τ和l是波形控制系数，且τ＞1，l＞1；

基于深度学习的人员检测计数模型，对其进行可信性评估：

h＝0.1，满足阈值条件停止反馈调节网络尺度过程，并将该视频流的最终认知结果进行输出。

上述的反馈调节网络尺度过程是本发明的一个具体实施过程，在面对各类复杂场景下，设置人员检测感兴趣区域和监控区域，根据检测结果的熵损失值对LSTM网络进行尺度自动调节，实现特征空间的重构，从而显著提高了计数精度，满足不同场景的监控需求。

Claims

1.一种基于深度学习的人员检测计数方法，其特征是按如下步骤进行：

步骤1、利用Fiar Mot算法对视频图像中的人员进行检测，并根据所设置的人员置信度阈值P₀，得到人员预测矩形边界框的坐标位置信息cls＝(tx,ty,tw,th)；其中，tx,ty分别表示预测矩形边界框cls的中心点的横坐标和纵坐标，tw,th分别表示预测矩形边界框cls的宽与高；

步骤2、按照采样周期提取所述人员预测矩形边界框的坐标位置信息cls中感兴趣区域集合，记为A＝{A₁,A₂,···,A_i,···,A_N}；其中，A_i表示第i张视频图像中的感兴趣区域，并有：A_i＝{cls′_i,1,cls′_i,2，···,cls′_i,j,···,cls′_i,m} ，cls′_i,j表示第i张视频图像里预测出的第j个人预测边界框的感兴趣区域；m表示视频图像里所检测的人员个数，N表示一个采样周期内的总视频图像数；

步骤4、构建LSTM神经网络，包括：卷积层，池化层，LSTM层、全连接层、特征融合层以及SCN分类器；其中，第一部分为x×x的卷积层，卷积核的个数是M个，第二部分为y×y的最大池化层，第三部分为长短期记忆网络层，长短期记忆结点个数是N′个，并初始化长短期记忆网络层级q＝1；第四部分为全连接层，令全连接结点个数为C，第五部分为特征融合层，并初始化小波变化尺度a＝1，第六部分为SCN分类器，且节点个数为E；

步骤7、将所述交并比序列数据集合S在尺度a上进行一维离散小波变换，用于在不同尺度上提取交并比序列数据集合S的特征，并得到小波变换特征输出F_2,μ，其维度为N″×1；

步骤8、第μ次迭代的LSTM神经网络中第五部分的特征融合层将所述特征输出F_1,μ和小波变换特征输出F_2,μ进行特征拼接，得到第μ次迭代的组合后的特征输出F_μ＝[F_1,μ,F_2,μ],其维数为(N″+C)×1；

步骤9、将组合后的特征输出F_μ输入到第μ次迭代的LSTM神经网络中第六部分的SCN分类器，得到第μ次迭代的输出结果t′_μ，将输出结果t′_μ与期望输出t作差，得到第μ次迭代的深度为q时的熵损失值

步骤11、判断

式(1)和式(2)中，τ和l为波形控制系数，且τ＞1，l＞1；

步骤12、将q+Δq赋值给q，将a+Δa赋值给a，将μ+1赋值给μ后返回步骤6。