CN109241952B

CN109241952B - 拥挤场景下人物计数方法及装置

Info

Publication number: CN109241952B
Application number: CN201811258836.6A
Authority: CN
Inventors: 尤安升; 张默
Original assignee: Beijing Moshanghua Technology Co ltd
Current assignee: Beijing Moshanghua Technology Co ltd
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2021-09-07
Anticipated expiration: 2038-10-26
Also published as: CN109241952A

Abstract

本申请公开了一种拥挤场景下人物计数方法及装置。方法包括：获取监控场景下的视频信息；标注视频信息中人物的头像；构建卷积神经网络模型，并设置卷积神经网络模型的结构及训练参数；通过生成网络消除视频信息中的复杂场景的影响，并得到当前帧特征；通过卷积神经网络对图像信息中的连续视频帧提取特征；通过LSTM网络串联连续视频帧特征，并加强当前帧特征的鲁棒性；利用加强了鲁棒性的当前帧特征，使用LSTM网络连续回归出最终的人物的位置坐标；根据最终的人物的位置坐标，得到最终的检测和计数结果。因而达到了能够通过使用生成网络消除不利影响和考虑视频帧的时序信息，并且利用LSTM设计并实现了目标检测和人群计数方法的目的。

Description

拥挤场景下人物计数方法及装置

技术领域

本申请涉及图像识别技术领域，具体而言，涉及一种拥挤场景下人物计数方法及装置。

背景技术

人物检测是计算机视觉和数字图像处理的一个热门方向，广泛应用于机器人导航、智能视频监控等诸多领域。同时人物检测也是泛身份识别领域的一个基础性的算法，对后续的人脸识别、步态识别、人群计数等任务起着至关重要的作用。人群计数作为智能视频监控系统的重要课题之一，具有重要的社会意义。对高密度人群的智能检测和计数，能够减少对人力资本的消耗，预防人群安全事故，有助于保障重点区域(比如：广场、体育场、人行道、机场等)人群的人身安全。此外，大多数的人群状态模型以及其他更高层次的群体行为研究也是建立在人群计数的基础之上，因此，人群计数也有着不可忽视的研究价值。

目前人物检测和人群计数已经取得了较好的结果，但是在某些复杂场景下的应用效果却不尽如人意，如在监控视频场景下，由于景深、分辨率、天气、光照等复杂条件和场景变换多样性等问题，使得人物检测和人群计数任务变得困难，利用相关技术解决复杂场景影响变得尤为重要，具有重要的研究意义。

针对相关技术中人物检测和人群计数在某些复杂场景下的应用效果不佳的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种拥挤场景下人物计数方法及装置，以解决人物检测和人群计数在某些复杂场景下的应用效果不佳的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种拥挤场景下人物计数方法。

根据本申请的拥挤场景下人物计数方法包括：

获取监控场景下的视频信息；

标注所述视频信息中人物的头像；

构建卷积神经网络模型，并设置所述卷积神经网络模型的结构及训练参数；

通过生成网络消除所述视频信息中的复杂场景的影响，并得到当前帧特征；其中，所述复杂场景的影响为降低所述视频信息中图像质量的不利影响因素；

通过所述卷积神经网络对所述图像信息中的连续视频帧提取特征；通过LSTM网络串联连续视频帧特征，并加强当前帧特征的鲁棒性；

利用加强了鲁棒性的所述当前帧特征，使用LSTM网络连续回归出最终的人物的位置坐标；

根据所述最终的人物的位置坐标，得到最终的检测和计数结果。

进一步的，如前述的拥挤场景下人物计数方法，所述设置所述卷积神经网络模型的结构及训练参数，包括：

设置所述所述卷积神经网络模型中的生成网络为U-Net网络结构；

设置所述所述卷积神经网络模型中的特征提取网络为ResNet网络结构；

通过LSTM网络串联所述卷积神经网络模型进行特征提取的连续视频帧的时序信息；

通过LSTM网络进行人物检测和计数；

对所述U-Net网络、ResNet网络和LSTM网络训练参数。

进一步的，如前述的拥挤场景下人物计数方法，所述通过所述卷积神经网络对所述图像信息中的连续视频帧提取特征；通过LSTM网络串联连续视频帧特征，并加强当前帧特征的鲁棒性，包括：

输入连续的视频帧，对每一帧用GoogLeNet网络提取特征；所述连续的视频帧包括当前帧以及在所述当前帧之前连续的若干帧；

通过LSTM网络并根据所述当前帧之前连续的若干帧进行预测，并得到预测当前帧特征；

将所述预测当前帧特征与当前帧特征进行线性组合，并连接所述当前帧以及当前帧之前连续的若干帧的信息，加强所述当前帧特征的鲁棒性。

进一步的，如前述的拥挤场景下人物计数方法，所述使用LSTM网络连续回归出最终的人物的位置坐标，包括：

将当前帧的整个图片划分为若干个感受野相互重叠的单元格；

将每个所述单元格编码为一个多维的高层特征描述子；

将每个单元格都与一个与之对应的长短期记忆网络LSTM相连，每个LSTM的长度为N，即输出N个检测目标和对应的置信度；其中，N为大于等于1的整数。

进一步的，如前述的拥挤场景下人物计数方法，所述对所述最终的人物的位置坐标进行后处理策略生成最终的检测和计数结果，包括：

通过NMS策略并根据所述最终的人物的位置坐标，对人物进行去重；

根据去重后的所有人物的位置坐标得到最终的检测和计数结果。

为了实现上述目的，根据本申请的另一方面，提供了一种拥挤场景下人物计数装置。

根据本申请的拥挤场景下人物计数装置包括：

信息获取单元，用于获取监控场景下的视频信息；

头像标注单元，用于标注所述视频信息中人物的头像；

模型构建单元，用于构建卷积神经网络模型，并设置所述卷积神经网络模型的结构及训练参数；

当前帧特征获取单元，用于通过生成网络消除所述视频信息中的复杂场景的影响，并得到当前帧特征；其中，所述复杂场景的影响为降低所述视频信息中图像质量的不利影响因素；

当前帧特征处理单元，用于通过所述卷积神经网络对所述图像信息中的连续视频帧提取特征；通过LSTM网络串联连续视频帧特征，并加强当前帧特征的鲁棒性；

位置确定单元，用于利用加强了鲁棒性的所述当前帧特征，使用LSTM网络连续回归出最终的人物的位置坐标；

检测及计数单元，用于根据所述最终的人物的位置坐标，得到最终的检测和计数结果。

进一步的，如前述的拥挤场景下人物计数装置，所述模型构建单元，包括：

生成网络设置模块，用于设置所述所述卷积神经网络模型中的生成网络为U-Net网络结构；

特征提取网络设置模块，用于设置所述所述卷积神经网络模型中的特征提取网络为ResNet网络结构；

LSTM网络模块，用于通过LSTM网络串联所述卷积神经网络模型进行特征提取的连续视频帧的时序信息；以及通过LSTM网络进行人物检测和计数；

参数训练模块，用于对所述U-Net网络、ResNet网络和LSTM网络训练参数。

进一步的，如前述的拥挤场景下人物计数装置，所述当前帧特征处理单元，包括：

特征提取模块，用于输入连续的视频帧，对每一帧用GoogLeNet网络提取特征；所述连续的视频帧包括当前帧以及在所述当前帧之前连续的若干帧；

预测模块，用于通过LSTM网络并根据所述当前帧之前连续的若干帧进行预测，并得到预测当前帧特征；

鲁棒性加强模块，用于将所述预测当前帧特征与当前帧特征进行线性组合，并连接所述当前帧以及当前帧之前连续的若干帧的信息，加强所述当前帧特征的鲁棒性。

进一步的，如前述的拥挤场景下人物计数装置，所述位置确定单元，包括：

单元格划分模块，用于将当前帧的整个图片划分为若干个感受野相互重叠的单元格；

编码模块，用于将每个所述单元格编码为一个多维的高层特征描述子；

目标确定模块，用于将每个单元格都与一个与之对应的长短期记忆网络LSTM相连，每个LSTM的长度为N，即输出N个检测目标和对应的置信度；其中，N为大于等于1的整数。

进一步的，如前述的拥挤场景下人物计数装置，所述检测及计数单元，包括：

去重模块，用于通过NMS策略并根据所述最终的人物的位置坐标，对人物进行去重；

结果确定模块，用于根据去重后的所有人物的位置坐标得到最终的检测和计数结果。

在本申请实施例中，采用提供了一种拥挤场景下人物计数方法及装置。方法包括：获取监控场景下的视频信息；标注所述视频信息中人物的头像；构建卷积神经网络模型，并设置所述卷积神经网络模型的结构及训练参数；通过生成网络消除所述视频信息中的复杂场景的影响，并得到当前帧特征；其中，所述复杂场景的影响为降低所述视频信息中图像质量的不利影响因素；通过所述卷积神经网络对所述图像信息中的连续视频帧提取特征；通过LSTM网络串联连续视频帧特征，并加强当前帧特征的鲁棒性；利用加强了鲁棒性的所述当前帧特征，使用LSTM网络连续回归出最终的人物的位置坐标；对所述最终的人物的位置坐标进行后处理策略生成最终的检测和计数结果。因而达到了能够通过使用生成网络消除光照、低分辨率等复杂场景的影响和考虑视频帧的时序信息，并且巧妙利用LSTM设计并实现了面向拥挤场景视频的基于连续帧时序信息的目标检测和人群计数方法的目的。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请一种实施例的拥挤场景下人物计数方法流程示意图；

图2为根据本申请一种实施例的人物检测和计数方法示意图；

图3为生成网络示意图；

图4为人物检测和计数效果图；

图5是根据本申请一种实施例的拥挤场景下人物计数装置的功能模块结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了实现上述目的，根据本申请的一个方面，提供了一种拥挤场景下人物计数方法。如图1及图2所示，根据本申请的拥挤场景下人物计数方法包括如下的步骤S1至步骤S7：

S1.获取监控场景下的视频信息；具体的，在获取监控场景下的视频信息后，对监控场景视频并进行标注，区分训练集、验证集和测试集。

S2.标注所述视频信息中人物的头像；之所以只对所述视频信息中每个人物只标注头部，是为了在拥挤场景下能有效防止因场景中人物过多造成检测和计数困难的情况。

S3.构建卷积神经网络模型，并设置所述卷积神经网络模型的结构及训练参数；具体的，所述卷积神经网络中包括：生成网络、特征提取网络和长短期记忆网络；且对上述三个网络进行结构上处理，以及对所述生成网络、特征提取网络和长短期记忆网络分别进行参数训练。

S4.通过生成网络消除所述视频信息中的复杂场景的影响，并得到当前帧特征；其中，所述复杂场景的影响为降低所述视频信息中图像质量的不利影响因素；

具体的，所述复杂场景的影响包括：如光照、低分辨率、恶劣天气等。通过模拟光照、低分辨率以及恶劣天气情况获得复杂场景下的视频帧，并通过该视频帧训练生成还原网络，进而能够通过该还原网络对包括光照、低分辨率、恶劣天气等情况下的视频帧进行处理进而消除复杂场景影响。

S5.通过所述卷积神经网络对所述图像信息中的连续视频帧提取特征；通过LSTM网络串联连续视频帧特征，并加强当前帧特征的鲁棒性；

具体的，通过对输入所述卷积神经网络中的连续的视频帧，对每一帧用GoogLeNet网络提取特征；所述连续的视频帧包括当前帧以及在所述当前帧之前连续的若干帧；优选的，输入的所述连续的视频帧共包括九帧，具体为当前帧以及当前帧之前连续的八帧。

具体的，在对每一帧用GoogLeNet网络提取特征后，将特征输入所述LSTM网络中，所述LSTM网络将所述前八帧的特征进行串联，预测得到所述预测当前帧特征；

将所述预测当前帧特征与当前帧特征进行线性组合，并连接所述当前帧以及当前帧之前连续的若干帧的信息，加强所述当前帧特征的鲁棒性。将所述预测当前帧特征预所述当前帧进行线性组合的方式，可以将所述当前帧特征与前八帧特征相互关联，因而可以得到的加强了鲁棒性的当前帧特征；

S6.利用所述加强了鲁棒性的当前帧特征，使用LSTM网络连续回归出最终的人物的位置坐标；

S7.根据所述最终的人物的位置坐标，得到最终的检测和计数结果。

因而达到了能够通过使用生成网络消除光照、低分辨率等复杂场景的影响和考虑视频帧的时序信息，并且巧妙利用LSTM设计并实现了面向拥挤场景视频的基于连续帧时序信息的目标检测和人群计数方法的目的，且人物检测和计数效果显著如图4所示。

在一些实施例中，如前述的拥挤场景下人物计数方法，所述设置所述卷积神经网络模型的结构及训练参数，包括：

设置所述所述卷积神经网络模型中的生成网络为U-Net网络结构(如图3所示)；

通过LSTM网络进行人物检测和计数；

对所述U-Net网络、ResNet网络和LSTM网络训练参数。

在一些实施例中，如前述的拥挤场景下人物计数方法，所述使用LSTM网络连续回归出最终的人物的位置坐标，包括：

将当前帧的整个图片划分为若干个感受野相互重叠的单元格；具体的，每个单元格的所述感受野区域在所述单元格本身区域的基础上能够覆盖原图的很大一片区域，因此不同的单元格的感受野会出现相互重叠的情况；

将每个所述单元格编码为一个多维的高层特征描述子；

将每个单元格都与一个与之对应的长短期记忆网络LSTM相连，每个LSTM的长度为N，即输出N个检测目标和对应的置信度。即，能够检测并得到每个所述检测目标(图像中的人物)的置信度分数，进而可以在之后的处理中判断相同的人物在不同的检测框中时，会得到不同的置信度分数，进而便于选择出最佳的检测框中的人物，并进行筛选去重。

具体的，可以将整个图片划分为300(20x15)个感受野相互重叠的单元格，将每个单元格编码为一个1024维的高层特征描述子，即每个单元格对应的特征维度为1024，通过该单元格编码的特征检测最终的检测框；每个单元格都与一个与之对应的长短期记忆网络LSTM相连，且优选的，每个LSTM的长度为5，即输出5个检测目标和对应的置信度。

在一些实施例中，如前述的拥挤场景下人物计数方法，所述对所述最终的人物的位置坐标进行后处理策略生成最终的检测和计数结果，包括：

具体的，将检测出来的所有检测框从大到小进行排序，当两个或多个检测框的重叠度高的时候，即很有可能检测到了同一个人物；然后对两个或多个检测框中的人物都进行评分，选择评分分数比较高的检测框，进而将评分低的检测框中的人物删除，进而达到去重的目的。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例，还提供了一种用于实施上述拥挤场景下人物计数方法的拥挤场景下人物计数装置，如图5所示，该装置包括：

信息获取单元1，用于获取监控场景下的视频信息；

头像标注单元2，用于标注所述视频信息中人物的头像；

模型构建单元3，用于构建卷积神经网络模型，并设置所述卷积神经网络模型的结构及训练参数；

当前帧特征获取单元4，用于通过生成网络消除所述视频信息中的复杂场景的影响，并得到当前帧特征；其中，所述复杂场景的影响为降低所述视频信息中图像质量的不利影响因素；

当前帧特征处理单元5，用于通过所述卷积神经网络对所述图像信息中的连续视频帧提取特征；通过LSTM网络串联连续视频帧特征，并加强当前帧特征的鲁棒性；

位置确定单元6，用于利用加强了鲁棒性的所述当前帧特征，使用LSTM网络连续回归出最终的人物的位置坐标；

检测及计数单元7，用于根据所述最终的人物的位置坐标，得到最终的检测和计数结果。

具体的，本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述，此处不再赘述。

在一些实施例中，如前述的拥挤场景下人物计数装置，所述模型构建单元，包括：

生成网络设置模块，用于设置所述所述卷积神经网络模型中的生成网络为U-Net网络结构；其中，U-Net网络如图3所示；

在一些实施例中，如前述的拥挤场景下人物计数装置，所述当前帧特征处理单元，包括：

在一些实施例中，如前述的拥挤场景下人物计数装置，所述位置确定单元，包括：

目标确定模块，用于将每个单元格都与一个与之对应的长短期记忆网络LSTM相连，每个LSTM的长度为5，即输出5个检测目标和对应的置信度。

在一些实施例中，如前述的拥挤场景下人物计数装置，所述检测及计数单元，包括：

结果确定模块，用于根据去重后的所有人物的位置坐标得到最终的检测和计数结果

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种拥挤场景下人物计数方法，其特征在于，包括：

获取监控场景下的视频信息；

标注所述视频信息中人物的头像；

通过所述卷积神经网络对所述视频信息中的连续视频帧提取特征；通过LSTM网络串联连续视频帧特征，并加强当前帧特征的鲁棒性；

利用加强了鲁棒性的当前帧特征，使用LSTM网络连续回归出最终的人物的位置坐标；

根据所述最终的人物的位置坐标，得到最终的检测和计数结果；

所述通过所述卷积神经网络对所述视频信息中的连续视频帧提取特征；通过LSTM网络串联连续视频帧特征，并加强当前帧特征的鲁棒性，包括：

将所述预测当前帧特征与当前帧特征进行线性组合，并连接所述当前帧以及当前帧之前连续的若干帧的信息，加强所述当前帧特征的鲁棒性；

所述使用LSTM网络连续回归出最终的人物的位置坐标，包括：

将每个所述单元格编码为一个多维的高层特征描述子；

将每个单元格都与一个与之对应的长短期记忆网络LSTM相连，每个LSTM 的长度为N，即输出N个检测目标和对应的置信度；其中，N为大于等于1的整数。

2.根据权利要求1所述的拥挤场景下人物计数方法，其特征在于，所述设置所述卷积神经网络模型的结构及训练参数，包括：

设置所述卷积神经网络模型中的生成网络为U-Net网络结构；

设置所述卷积神经网络模型中的特征提取网络为ResNet网络结构；

通过LSTM网络进行人物检测和计数；

对所述U-Net网络、ResNet网络和LSTM网络训练参数。

3.根据权利要求1所述的拥挤场景下人物计数方法，其特征在于，对所述最终的人物的位置坐标进行去重，得到最终的检测和计数结果，包括：

通过NMS策略并根据所述最终的人物的位置坐标，对人物进行去重，得到最终的检测和计数结果。

4.一种拥挤场景下人物计数装置，其特征在于，包括：

信息获取单元，用于获取监控场景下的视频信息；

头像标注单元，用于标注所述视频信息中人物的头像；

当前帧特征处理单元，用于通过所述卷积神经网络对所述视频信息中的连续视频帧提取特征；通过LSTM网络串联连续视频帧特征，并加强当前帧特征的鲁棒性；

检测及计数单元，用于根据所述最终的人物的位置坐标，得到最终的检测和计数结果；

所述使用LSTM网络连续回归出最终的人物的位置坐标，包括：

将每个所述单元格编码为一个多维的高层特征描述子；

5.根据权利要求4所述的拥挤场景下人物计数装置，其特征在于，所述模型构建单元，包括：

生成网络设置模块，用于设置所述卷积神经网络模型中的生成网络为U-Net网络结构；

特征提取网络设置模块，用于设置所述卷积神经网络模型中的特征提取网络为ResNet网络结构；

6.根据权利要求4所述的拥挤场景下人物计数装置，其特征在于，所述检测及计数单元，包括：