CN111445442A

CN111445442A - 基于神经网络的人群计数方法、装置、服务器及存储介质

Info

Publication number: CN111445442A
Application number: CN202010146269.6A
Authority: CN
Inventors: 易苗
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2020-07-24
Anticipated expiration: 2040-03-05
Also published as: CN111445442B

Abstract

本发明涉及人工智能领域，公开了一种基于神经网络的人群计数方法、装置、服务器及存储介质，用于通过神经网络得到目标人头检测框，提高了统计多个人头对象数量的准确率，并获取多个人头对象的具体位置。本发明方法包括：获取需要计算人群数量的人群图片；对人群图片进行预处理，得到预处理后的人群图片；根据预置卷积神经网络，对预处理后的人群图片进行缩放和融合提取特征；判断每个初始检测框对应的初始检测框置信值是否大于或等于第一阈值；若初始检测框置信值大于或等于第一阈值，则将初始检测框确定为待选择检测框，并对待选择检测框去重，得到多个目标人头检测框；统计多个目标人头检测框的数量。

Description

基于神经网络的人群计数方法、装置、服务器及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及基于神经网络的人群计数方法、装置、服务器及存储介质。

背景技术

随着社会的城镇化发展，城市人口数量急剧上升，智能安防成为一项重要的任务，而智能安防的关键在于人群计数，人群计数可以为人流管理、资源管理决策提供关键的依据。例如在地铁站，可以通过行人计数实时了解各个站点的人流量大小，灵活调度列车密度，可在人流量高峰期时加强人员运输效率，保证人群安全出行，也可在低峰期时节约运输成本；监测公共场所的人流量，可实现有效控制场内人员数量，避免踩踏、推挤等情况发生。

现有的人群计数方法主要是使用回归的算法思路，即直接根据图像回归出拥挤人群密度图，再根据密度图估算场景整体的拥挤指数，或者使用目标检测的方法，即使用快速深度卷积神经网络等通用方法检测人群中的行人，再根据行人进行人群计数。

但是现有的人群计数方法由于人头对象过小会发生漏检的情况，并且无法获知人群个体的具体位置，不适用于人群拥挤的情况。

发明内容

本发明实施例提供了一种基于神经网络的人群计数方法、装置、服务器及存储介质，用于使用轻量级神经网络对图片进行缩放并将低层特征和高层特征融合，得到多个目标人头检测框，能够准确的检测到多个人头对象，从而准确的统计多个人头对象的数量。

为本发明实施例的第一方面提供一种基于神经网络的人群计数方法，包括：获取需要计算人群数量的人群图片，所述人群图片中包括多个人头对象；对所述人群图片进行预处理，得到预处理后的人群图片；根据预置卷积神经网络，对所述预处理后的人群图片进行缩放和融合提取特征，得到多个初始检测信息，所述初始检测信息包括初始检测框、对应的初始检测框坐标和对应的初始检测框置信值；判断每个初始检测框对应的初始检测框置信值是否大于或等于第一阈值；若所述初始检测框置信值大于或等于所述第一阈值，则将所述初始检测框置信值对应的初始检测框确定为待选择检测框，并根据预置去重算法和所述初始检测框置信值对所述待选择检测框去重，得到多个目标人头检测框；统计所述多个目标人头检测框的数量，所述多个目标人头检测框的数量与所述多个人头对象的数量相同。

可选的，在本发明实施例第一方面的第一种实现方式中，所述根据预置卷积神经网络，对所述预处理后的人群图片进行缩放和融合提取特征，得到多个初始检测信息，所述初始检测信息包括初始检测框、对应的初始检测框坐标和对应的初始检测框置信值包括：在预置卷积神经网络中采用预置深度卷积与预置缩放标准，对所述预处理后的人群图片进行处理，得到多个候选信息图片，多个所述候选信息图片包括深度候选信息图片、第一候选信息图片、第二候选信息图片、第三候选信息图片和第四候选信息图片；采用预置融合函数对多个所述候选信息图片进行信息融合，得到多融合信息图片；根据所述多融合信息图片，确定初始检测框、对应的初始检测框坐标和对应的初始检测框置信值，所述初始检测框坐标为每个人头对象的地理坐标，所述初始检测框置信值为所述初始检测框中的物品为人头对象的概率。

可选的，在本发明实施例第一方面的第二种实现方式中，所述根据所述多融合信息图片，确定初始检测框、对应的初始检测框坐标和对应的初始检测框置信值，所述初始检测框坐标为每个人头对象的地理坐标，所述初始检测框置信值为所述初始检测框中的物品为人头对象的概率包括：使用预置算法在所述多融合信息图片中提取多个候选检测框；提取预置特征图，并将所述候选检测框映射到所述预置特征图上，得到感兴趣区域块；将感兴趣区域块输入池化层，得到特征向量，所述特征向量包括初始检测框坐标、对应的初始检测框尺度和对应的初始检测框置信值；基于所述初始检测框坐标、所述初始检测框尺度和所述初始检测框置信值，确定初始检测框。

可选的，在本发明实施例第一方面的第三种实现方式中，所述采用预置融合函数对多个所述候选信息图片进行信息融合，得到多融合信息图片包括：将所述第四候选图片信息输入预置融合层，得到第一融合信息图片；将所述第一融合信息图片与所述第三候选信息图片输入预置融合层，得到第二融合信息图片；将所述第二融合信息图片与所述第二候选信息图片输入预置融合层，得到第三融合信息图片；将所述第三融合信息图片与所述第一候选信息图片输入预置融合层，得到第四融合信息图片；将所述第四融合信息图片与所述深度候选信息图片输入预置融合层，得到第五融合信息图片；采用预置融合函数将所述第一融合信息图片、所述第二融合信息图片、所述第三融合信息图片、所述第四融合信息图片和所述第五融合信息图片进行融合，得到多融合信息图片。

可选的，在本发明实施例第一方面的第四种实现方式中，所述在预置卷积神经网络中采用预置深度卷积与预置缩放标准，对所述预处理后的人群图片进行处理，得到多个候选信息图片，多个所述候选信息图片包括深度候选信息图片、第一候选信息图片、第二候选信息图片、第三候选信息图片和第四候选信息图片包括：将所述预处理后的人群图片输入预置深度可分离特征层，采用所述预置深度卷积对所述预处理后的人群图片进行卷积，得到深度候选信息图片；将所述预处理后的人群图片按照预置缩放标准进行缩放，得到第一人群图片，并将所述第一人群图片输入第一预置特征层，采用所述预置深度卷积对所述第一人群图片进行卷积，得到第一候选信息图片；将所述第一人群图片按照预置缩放标准进行缩放，得到第二人群图片，并将所述第二人群图片输入第二预置特征层，采用所述预置深度卷积对所述第二人群图片进行卷积，得到第二候选信息图片；将所述第二人群图片按照预置缩放标准进行缩放，得到第三人群图片，并将所述第三人群图片输入第三预置特征层，采用所述预置深度卷积对所述第三人群图片进行卷积，得到第三候选信息图片；将所述第三人群图片按照预置缩放标准进行缩放，得到第四人群图片，并将所述第四人群图片输入第四预置特征层，采用所述预置深度卷积对所述第二人群图片进行卷积，得到第四候选信息图片。

可选的，在本发明实施例第一方面的第五种实现方式中，所述若所述初始检测框置信值大于或等于所述第一阈值，则将所述初始检测框置信值对应的初始检测框确定为待选择检测框，并根据预置去重算法和所述初始检测框置信值对所述待选择检测框去重，得到多个目标人头检测框包括：若所述初始检测框置信值大于或等于所述第一阈值，则将所述初始检测框置信值对应的初始检测框确定为待选择检测框；针对所述多个人头对象中的任意一个人头对象，搜寻所述初始检测框置信值最大的待选择检测框，得到最大置信值待选择检测框；根据其他置信值待选择检测框与所述最大置信值待选择检测框，得到检测框重叠度；判断所述检测框重叠度是否大于第二阈值；若所述检测框重叠度大于所述第二阈值，则删除所述其他置信值待选择检测框并标记所述最大置信值待选择检测框，得到一个目标人头检测框，所述目标人头检测框为所述最大置信值待选择检测框；针对所述多个人头对象中的其他人头对象确定对应的目标人头检测框，得到多个目标人头检测框。

可选的，在本发明实施例第一方面的第六种实现方式中，所述对所述人群图片进行预处理，得到预处理后的人群图片包括：将所述人群图片进行灰度化处理，得到灰度化人群图片；将所述灰度化人群图片进行归一化处理，得到归一化人群图片；将所述归一化人群图片进行灰度直方均衡化处理，得到预处理后的人群图片。

本发明实施例的第二方面提供一种基于神经网络的人群计数装置，包括：获取单元，用于获取需要计算人群数量的人群图片，所述人群图片中包括多个人头对象；预处理单元，用于对所述人群图片进行预处理，得到预处理后的人群图片；第一处理单元，用于根据预置卷积神经网络，对所述预处理后的人群图片进行缩放和融合提取特征，得到多个初始检测信息，所述初始检测信息包括初始检测框、对应的初始检测框坐标和对应的初始检测框置信值；判断单元，用于判断每个初始检测框对应的初始检测框置信值是否大于或等于第一阈值；第二处理单元，若所述初始检测框置信值大于或等于所述第一阈值，则用于将所述初始检测框置信值对应的初始检测框确定为待选择检测框，并根据预置去重算法和所述初始检测框置信值对所述待选择检测框去重，得到多个目标人头检测框；统计单元，用于统计所述多个目标人头检测框的数量，所述多个目标人头检测框的数量与所述多个人头对象的数量相同。

可选的，在本发明实施例第二方面的第一种实现方式中，第一处理单元具体包括：处理模块，用于在预置卷积神经网络中采用预置深度卷积与预置缩放标准，对所述预处理后的人群图片进行处理，得到多个候选信息图片，多个所述候选信息图片包括深度候选信息图片、第一候选信息图片、第二候选信息图片、第三候选信息图片和第四候选信息图片；融合模块，用于采用预置融合函数对多个所述候选信息图片进行信息融合，得到多融合信息图片；确定模块，用于根据所述多融合信息图片，确定初始检测框、对应的初始检测框坐标和对应的初始检测框置信值，所述初始检测框坐标为每个人头对象的地理坐标，所述初始检测框置信值为所述初始检测框中的物品为人头对象的概率。

可选的，在本发明实施例第二方面的第二种实现方式中，所述确定模块具体用于：使用预置算法在所述多融合信息图片中提取多个候选检测框；提取预置特征图，并将所述候选检测框映射到所述预置特征图上，得到感兴趣区域块；将感兴趣区域块输入池化层，得到特征向量，所述特征向量包括初始检测框坐标、对应的初始检测框尺度和对应的初始检测框置信值；基于所述初始检测框坐标、所述初始检测框尺度和所述初始检测框置信值，确定初始检测框。

可选的，在本发明实施例第二方面的第三种实现方式中，所述融合模块具体用于：将所述第四候选图片信息输入预置融合层，得到第一融合信息图片；将所述第一融合信息图片与所述第三候选信息图片输入预置融合层，得到第二融合信息图片；将所述第二融合信息图片与所述第二候选信息图片输入预置融合层，得到第三融合信息图片；将所述第三融合信息图片与所述第一候选信息图片输入预置融合层，得到第四融合信息图片；将所述第四融合信息图片与所述深度候选信息图片输入预置融合层，得到第五融合信息图片；采用预置融合函数将所述第一融合信息图片、所述第二融合信息图片、所述第三融合信息图片、所述第四融合信息图片和所述第五融合信息图片进行融合，得到多融合信息图片。

可选的，在本发明实施例第二方面的第四种实现方式中，所述处理模块具体用于：将所述预处理后的人群图片输入预置深度可分离特征层，采用所述预置深度卷积对所述预处理后的人群图片进行卷积，得到深度候选信息图片；将所述预处理后的人群图片按照预置缩放标准进行缩放，得到第一人群图片，并将所述第一人群图片输入第一预置特征层，采用所述预置深度卷积对所述第一人群图片进行卷积，得到第一候选信息图片；将所述第一人群图片按照预置缩放标准进行缩放，得到第二人群图片，并将所述第二人群图片输入第二预置特征层，采用所述预置深度卷积对所述第二人群图片进行卷积，得到第二候选信息图片；将所述第二人群图片按照预置缩放标准进行缩放，得到第三人群图片，并将所述第三人群图片输入第三预置特征层，采用所述预置深度卷积对所述第三人群图片进行卷积，得到第三候选信息图片；将所述第三人群图片按照预置缩放标准进行缩放，得到第四人群图片，并将所述第四人群图片输入第四预置特征层，采用所述预置深度卷积对所述第四人群图片进行卷积，得到第四候选信息图片。

可选的，在本发明实施例第二方面的第五种实现方式中，所述第二处理单元具体用于：若所述初始检测框置信值大于或等于所述第一阈值，则将所述初始检测框置信值对应的初始检测框确定为待选择检测框；针对所述多个人头对象中的任意一个人头对象，搜寻所述初始检测框置信值最大的待选择检测框，得到最大置信值待选择检测框；根据其他置信值待选择检测框与所述最大置信值待选择检测框，得到检测框重叠度；判断所述检测框重叠度是否大于第二阈值；若所述检测框重叠度大于所述第二阈值，则删除所述其他置信值待选择检测框并标记所述最大置信值待选择检测框，得到一个目标人头检测框，所述目标人头检测框为所述最大置信值待选择检测框；针对所述多个人头对象中的其他人头对象确定对应的目标人头检测框，得到多个目标人头检测框。

可选的，在本发明实施例第二方面的第六种实现方式中，所述预处理单元具体用于：将所述人群图片进行灰度化处理，得到灰度化人群图片；将所述灰度化人群图片进行归一化处理，得到归一化人群图片；将所述归一化人群图片进行灰度直方均衡化处理，得到预处理后的人群图片。

本发明实施例的第三方面提供了一种服务器，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施方式所述的基于基于神经网络的人群计数方法。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明的提供一种基于神经网络的人群计数方法、装置、服务器及存储介质，获取需要计算人群数量的人群图片，所述人群图片中包括多个人头对象；对所述人群图片进行预处理，得到预处理后的人群图片；根据预置卷积神经网络，对所述预处理后的人群图片进行缩放和融合提取特征，得到多个初始检测信息，所述初始检测信息包括初始检测框、对应的初始检测框坐标和对应的初始检测框置信值；判断每个初始检测框对应的初始检测框置信值是否大于或等于第一阈值；若所述初始检测框置信值大于或等于所述第一阈值，则将所述初始检测框置信值对应的初始检测框确定为待选择检测框，并根据预置去重算法和所述初始检测框置信值对所述待选择检测框去重，得到多个目标人头检测框；统计所述多个目标人头检测框的数量，所述多个目标人头检测框的数量与所述多个人头对象的数量相同。本发明实施例对预处理后的人群图片进行缩放与特征融合，得到多个初始检测框，根据多个初始检测框得到待选择检测框，根据多个待选择检测框得到多个目标人头检测框，提高了统计多个人头对象数量的准确率。

附图说明

图1为本发明中基于神经网络的人群计数方法的一个实施例示意图；

图2为本发明中基于神经网络的人群计数方法的另一个实施例示意图；

图3为本发明中基于神经网络的人群计数装置的一个实施例示意图；

图4为本发明中基于神经网络的人群计数装置的另一个实施例示意图；

图5为本发明中服务器的一个实施例示意图。

具体实施方式

本发明的提供一种基于神经网络的人群计数方法，用于使用轻量级神经网络对图片进行缩放并将低层特征和高层特征融合，得到多个目标人头检测框，能够准确的检测到多个人头对象，并且准确的统计多个人头对象的数量。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或服务器固有的其它步骤或单元。

请参阅图1，本发明实施例中基于神经网络的人群计数方法一个实施例包括：

101、获取需要计算人群数量的人群图片，人群图片中包括多个人头对象。

服务器获取需要计算人群数量的人群图片，人群图片中包括多个人头对象。

服务器通过监控或者摄像机等服务器获取需要识别人群数量的人群图片。

需要说明的是，本实施例并不对人群图片的格式进行限定，人群图片的大小为常规大小(长为24CM，宽为14CM)，本实施例对人群图片的大小不做限定。

102、对人群图片进行预处理，得到预处理后的人群图片。

服务器对人群图片进行预处理，得到预处理后的人群图片。

服务器采用灰度化、归一化和灰度直方图均衡化处理人群图片，得到预处理后的人群图片。

103、根据预置卷积神经网络，对预处理后的人群图片进行缩放和融合提取特征，得到多个初始检测信息，初始检测信息包括初始检测框、对应的初始检测框坐标和对应的初始检测框置信值。

根据预置卷积神经网络，对预处理后的人群图片进行缩放和融合提取特征，得到多个初始检测信息，初始检测信息包括初始检测框、对应的初始检测框坐标和对应的初始检测框置信值。

在本实施例中，采用轻量级的卷积神经网络MobileNetV2作为预置卷积神经网络。服务器通过采用深度可分离卷积得到多少个候选信息图片，得到候选信息图片之后，再对这些候选信息图片进行信息融合，得到多融合信息图片，最终服务器根据多融合信息图片，确定初始检测框、初始检测框坐标和初始检测框置信值，初始检测框用于框住预处理后的人群图片中的物体，初始检测框置信值用于检测初始检测框中的物体为人头对象的概率。

104、判断每个初始检测框对应的初始检测框置信值是否大于或等于第一阈值。

服务器判断每个初始检测框对应的初始检测框置信值是否大于或等于第一阈值。

需要说明的是，服务器对于一个人头对象可以得到很多初始检测框，有些初始检测框只框住了一半人头对象，有些检测框完全框住了人头对象，前者的初始检测框置信值小于后者的初始检测框置信值。服务器将初始检测框置信值与第一阈值进行对比，能够剔除初始框置信值小于第一阈值的初始检测框，保留初始框置信值大于或等于第一预置的初始检测框，从而实现对初始检测框的筛选。

例如，假设第一阈值为0.6，初始检测框1的初始检测框置信值为0.7、初始检测框2的初始检测框置信值为0.4、初始检测框3的初始检测框置信值为0.9和初始检测框4的初始检测框置信值为0.3。服务器经过判断之后，将初始检测框2和初始检测框4剔除，将初始检测框1和初始检测框3作为待选择检测框。

105、若初始检测框置信值大于或等于第一阈值，则将初始检测框置信值对应的初始检测框确定为待选择检测框，并根据预置去重算法和初始检测框置信值对待选择检测框去重，得到多个目标人头检测框。

若初始检测框置信值大于或等于第一阈值，服务器则将初始检测框置信值对应的初始检测框确定为待选择检测框，并根据预置去重算法和初始检测框置信值对待选择检测框去重，得到多个目标人头检测框。

本实施例采用的预置去重算法为非极大值抑制算法(Non-maximumsuppression,NMS)，可以将非极大值抑制算法的本质思想理解为，搜索最大置信值初始检测框，过滤掉其他置信值初始检测框。

106、统计多个目标人头检测框的数量，多个目标人头检测框的数量与多个人头对象的数量相同。

服务器统计多个目标人头检测框的数量，多个目标人头检测框的数量与多个人头对象的数量相同。

服务器统计目标人头检测框的数量等同于统计预处理后的人群图片中的人头对象的数量，服务器再根据目标人头检测框左上角的坐标或者右下角的坐标确定与目标人头检测框相对应的人头对象的具体位置。

本发明实施例对预处理后的人群图片进行缩放与特征融合，得到多个初始检测框，根据多个初始检测框得到待选择检测框，根据多个待选择检测框得到多个目标人头检测框，提高了统计多个人头对象数量的准确率。

请参阅图2，本发明实施例中基于神经网络的人群计数方法另一个实施例包括：

201、获取需要计算人群数量的人群图片，人群图片中包括多个人头对象。

202、对人群图片进行预处理，得到预处理后的人群图片。

服务器对人群图片进行预处理，得到预处理后的人群图片。

具体的，服务器将人群图片进行灰度化处理，得到灰度化人群图片；服务器将灰度化人群图片进行归一化处理，得到归一化人群图片；服务器将归一化人群图片进行灰度直方均衡化处理，得到预处理后的人群图片。

服务器将人群图片输入至RGB模型中进行灰度化处理，使得图片中红色的像素值＝绿色的像素值＝蓝色的像素值，即R＝G＝B，得到灰度化人群图片。为了数据处理方便，服务器采用归一化的方法把将灰度化人群图片的像素映射到0～1范围内，得到归一化人群图片。为了使归一化人群图片的颜色分布均匀，服务器要使用灰度直方图均衡化对归一化人群图片进行非线性拉伸，重新分配归一化人群图片的灰度值，使一定范围内归一化人群图片的灰度值大致相等，从而得到预处理后的人群图片。

203、在预置卷积神经网络中采用预置深度卷积与预置缩放标准，对预处理后的人群图片进行处理，得到多个候选信息图片，多个候选信息图片包括深度候选信息图片、第一候选信息图片、第二候选信息图片、第三候选信息图片和第四候选信息图片。

服务器在预置卷积神经网络中采用预置深度卷积与预置缩放标准，对预处理后的人群图片进行处理，得到多个候选信息图片，多个候选信息图片包括深度候选信息图片、第一候选信息图片、第二候选信息图片、第三候选信息图片和第四候选信息图片。

具体的，服务器将预处理后的人群图片输入预置深度可分离特征层，采用预置深度卷积对预处理后的人群图片进行卷积，得到深度候选信息图片；服务器将预处理后的人群图片按照预置缩放标准进行缩放，得到第一人群图片，并将第一人群图片输入第一预置特征层，采用预置深度卷积对第一人群图片进行卷积，得到第一候选信息图片；服务器将第一人群图片按照预置缩放标准进行缩放，得到第二人群图片，并将第二人群图片输入第二预置特征层，采用预置深度卷积对第二人群图片进行卷积，得到第二候选信息图片；服务器将第二人群图片按照预置缩放标准进行缩放，得到第三人群图片，并将第三人群图片输入第三预置特征层，采用预置深度卷积对第三人群图片进行卷积，得到第三候选信息图片；服务器将第三人群图片按照预置缩放标准进行缩放，得到第四人群图片，并将第四人群图片输入第四预置特征层，采用预置深度卷积对第四人群图片进行卷积，得到第四候选信息图片。

需要说明的是，在本实施例中，预置深度卷积为深度可分离卷积。

由于在一个预处理后的人群图片中包括多个人头对象，多个人头对象可能存在尺度变化大(距离镜头近的人头与远离镜头的人头比例差异大)的问题。服务器将预处理后的人群图片进行缩放，得到不同比例的第一人群图片、第二人群图片、第三人群图片和第四人群图片。将这五个人群图片分别输入预置深度可分离特征层、第一预置特征层、第二预置特征层、第三预置特征层和第四预置特征层进行卷积，得到深度候选信息图片、第一候选信息图片、第二候选信息图片、第三候选信息图片和第四候选信息图片。通过这样的方式，能够实现对不同尺度的人头对象进行特征提取。

例如，假设预置缩放标准为0.5，待处理后的人群图片的尺寸为10×10，将待处理后的人群图片进行缩放后，得到第一人群图片为5×5，将第一人群图片进行缩放后，得到第二人群图片为2.5×2.5，将第二人群图片进行缩放后，得到第三人群图片为1.25×1.25，将第三人群图片进行缩放后，得到第四人群图片为0.625×0.625。

204、采用预置融合函数对多个候选信息图片进行信息融合，得到多融合信息图片。

服务器采用预置融合函数对多个候选信息图片进行信息融合，得到多融合信息图片。

具体的，服务器将第四候选图片信息输入预置融合层，得到第一融合信息图片；服务器将第一融合信息图片与第三候选信息图片输入预置融合层，得到第二融合信息图片；服务器将第二融合信息图片与第二候选信息图片输入预置融合层，得到第三融合信息图片；服务器将第三融合信息图片与第一候选信息图片输入预置融合层，得到第四融合信息图片；服务器将第四融合信息图片与深度候选信息图片输入预置融合层，得到第五融合信息图片；服务器采用预置融合函数将第一融合信息图片、第二融合信息图片、第三融合信息图片、第四融合信息图片和第五融合信息图片进行融合，得到多融合信息图片。

服务器在获取到多个候选信息图片之后，由于第一特征层这种较低特征层提取的特征语义信息不够丰富，服务器将通过第四特征层这种较高层获取的候选信息图片，与通过低层获取的候选信息图片进行信息融合，得到多个融合信息图片。服务器采用addWeighted函数作为预置融合函数，融合候选信息图片。add Weighted函数具体公式如下：

g(x)＝(1-α)f₀(x)+αf₁(x)

式中，α表示融合信息图片之间的融合比例，g(x)表示多融合图片中的像素点，f₀(x)和f₁(x)分别表示被融合的融合信息图片和融合的融合信息图片中的像素点。

205、根据多融合信息图片，确定初始检测框、对应的初始检测框坐标和对应的初始检测框置信值，初始检测框坐标为每个人头对象的地理坐标，初始检测框置信值为初始检测框中的物品为人头对象的概率。

根据多融合信息图片，确定初始检测框、对应的初始检测框坐标和对应的初始检测框置信值，初始检测框坐标为每个人头对象的地理坐标，初始检测框置信值为初始检测框中的物品为人头对象的概率。

具体的，服务器使用预置算法在多融合信息图片中提取多个候选检测框；服务器提取预置特征图，并将候选检测框映射到预置特征图上，得到感兴趣区域块；服务器将感兴趣区域块输入池化层，得到特征向量，特征向量包括初始检测框坐标、对应的初始检测框尺度和对应的初始检测框置信值；服务器基于初始检测框坐标、初始检测框尺度和初始检测框置信值，确定初始检测框。

例如，服务器获取候选检测框之后，将候选检测框映射到预置特征图上，得到感兴趣区域块，将感兴趣区域块输入池化层，得到一组特征向量，特征向量包括(E114°，N22°，10，10)四个参数，其中，x和y为初始检测框的在预置特征图上左上角的坐标或者右下角的坐标，h和w是初始检测框的长度和宽度。服务器再利用Softmax函数计算初始检测框置信值，假如计算得出三个最大的置信值为(0.8，0.05，0.15)，那么服务器得到(0.8，0.05，0.15，E114°，N22°，10，10)的特征向量，最终根据计算得到的特征向量中的初始检测框尺度、初始检测框坐标和初始检测框置信值获取初始检测框。

206、判断每个初始检测框对应的初始检测框置信值是否大于或等于第一阈值。

207、若初始检测框置信值大于或等于第一阈值，则将初始检测框置信值对应的初始检测框确定为待选择检测框，并根据预置去重算法和初始检测框置信值对待选择检测框去重，得到多个目标人头检测框。

具体的，若初始检测框置信值大于或等于第一阈值，服务器则将初始检测框置信值对应的初始检测框确定为待选择检测框；服务器针对多个人头对象中的任意一个人头对象，搜寻初始检测框置信值最大的待选择检测框，得到最大置信值待选择检测框；服务器根据其他置信值待选择检测框与最大置信值待选择检测框，得到检测框重叠度；服务器判断检测框重叠度是否大于第二阈值；若检测框重叠度大于第二阈值，服务器则删除其他置信值待选择检测框并标记最大置信值待选择检测框，得到一个目标人头检测框，目标人头检测框为最大置信值待选择检测框；针对多个人头对象中的其他人头对象确定对应的目标人头检测框，得到多个目标人头检测框。

例如，将初始检测框置信值与第一阈值对比后，得到六个待选择检测框，分别为A、B、C、D、E和F，初始检测框置信值分别为0.6、0.62、0.65、0.75、0.85和0.9，根据数值可以看出待选择检测框F的初始检测框置信值最大，服务器则令F为最大置信值待选择检测框。服务器根据待选择检测框A、B、C、D、E与最大置信值待选择检测框F，得到多个检测框重叠度分别为0.1、0.7、0.2、0.8、0.4，然后服务器判断待选择检测框A-E与待选择检测框F的重叠度是否大于第二阈值，假设第二阈值为0.5，可以看出待选择检测框B、D与F的重叠度大于第二阈值，服务器则删除待选择检测框B和D。并标记最大置信值待选择检测框F，最大置信值待选择检测框F为需要保留的一个目标人头检测框。服务器从剩下的待选择检测框A、C、E中，选择初始检测框置信值最大的E作为最大置信值待选择检测框。然后根据待选择检测框E和待选择检测框A、C，获取两个重叠度为0.8和0.9，重叠度大于第二阈值，服务器则删除待选择检测框A和C，并标记最大置信值待选择检测框E，最大置信值待选择检测框E为另一个目标人头检测框；一直重复这个过程，标记需要保留下来的待选择检测框，得到多个目标人头检测框。

208、统计目标人头检测框的数量，多个目标人头检测框的数量与人头对象的数量相同。

上面对本发明实施例中基于神经网络的人群计数方法进行了描述，下面对本发明实施例中基于神经网络的人群计数装置进行描述，请参阅图3，本发明实施例中基于神经网络的人群计数装置一个实施例包括：

获取单元301，用于获取需要计算人群数量的人群图片，人群图片中包括多个人头对象；

预处理单元302，用于对人群图片进行预处理，得到预处理后的人群图片；

第一处理单元303，用于根据预置卷积神经网络，对预处理后的人群图片进行缩放和融合提取特征，得到多个初始检测信息，初始检测信息包括初始检测框、对应的初始检测框坐标和对应的初始检测框置信值；

判断单元304，用于判断每个初始检测框对应的初始检测框置信值是否大于或等于第一阈值；

第二处理单元305，若初始检测框置信值大于或等于第一阈值，则用于将初始检测框确定为待选择检测框，并根据预置去重算法和初始检测框置信值对待选择检测框去重，得到多个目标人头检测框；

统计单元306，用于统计多个目标人头检测框的数量，多个目标人头检测框的数量与多个人头对象的数量相同。

请参阅图4，本发明实施例中基于神经网络的人群计数装置另一个实施例包括：

第二处理单元305，若初始检测框置信值大于或等于第一阈值，则用于将初始检测框置信值对应的初始检测框确定为待选择检测框，并根据预置去重算法和初始检测框置信值对待选择检测框去重，得到多个目标人头检测框；

可选的，第一处理单元303具体包括：

处理模块3031，用于在预置卷积神经网络中采用预置深度卷积与预置缩放标准，对预处理后的人群图片进行处理，得到多个候选信息图片，多个候选信息图片包括深度候选信息图片、第一候选信息图片、第二候选信息图片、第三候选信息图片和第四候选信息图片；

融合模块3032，用于采用预置融合函数对多个候选信息图片进行信息融合，得到多融合信息图片；

确定模块3033，用于根据多融合信息图片，确定初始检测框、对应的初始检测框坐标和对应的初始检测框置信值，初始检测框坐标为每个人头对象的地理坐标，初始检测框置信值为初始检测框中的物品为人头对象的概率。

可选的，确定模块3033具体用于：

使用预置算法在多融合信息图片中提取多个候选检测框；提取预置特征图，并将候选检测框映射到预置特征图上，得到感兴趣区域块；将感兴趣区域块输入池化层，得到特征向量，特征向量包括初始检测框坐标、初始检测框尺度和初始检测框置信值；基于初始检测框坐标、对应的初始检测框尺度和对应的初始检测框置信值，确定初始检测框。

可选的，融合模块3032具体用于：

将第四候选图片信息输入预置融合层，得到第一融合信息图片；将第一融合信息图片与第三候选信息图片输入预置融合层，得到第二融合信息图片；将第二融合信息图片与第二候选信息图片输入预置融合层，得到第三融合信息图片；将第三融合信息图片与第一候选信息图片输入预置融合层，得到第四融合信息图片；将第四融合信息图片与深度候选信息图片输入预置融合层，得到第五融合信息图片；采用预置融合函数将第一融合信息图片、第二融合信息图片、第三融合信息图片、第四融合信息图片和第五融合信息图片进行融合，得到多融合信息图片。

可选的，处理模块3031具体用于：

将预处理后的人群图片输入预置深度可分离特征层，采用预置深度卷积对预处理后的人群图片进行卷积，得到深度候选信息图片；将预处理后的人群图片按照预置缩放标准进行缩放，得到第一人群图片，并将第一人群图片输入第一预置特征层，采用预置深度卷积对第一人群图片进行卷积，得到第一候选信息图片；将第一人群图片按照预置缩放标准进行缩放，得到第二人群图片，并将第二人群图片输入第二预置特征层，采用预置深度卷积对第二人群图片进行卷积，得到第二候选信息图片；将第二人群图片按照预置缩放标准进行缩放，得到第三人群图片，并将第三人群图片输入第三预置特征层，采用预置深度卷积对第三人群图片进行卷积，得到第三候选信息图片；将第三人群图片按照预置缩放标准进行缩放，得到第四人群图片，并将第四人群图片输入第四预置特征层，采用预置深度卷积对第四人群图片进行卷积，得到第四候选信息图片。

可选的，第二处理单元305具体用于：

若初始检测框置信值大于或等于第一阈值，则将初始检测框置信值对应的初始检测框确定为待选择检测框；

针对多个人头对象中的任意一个人头对象，搜寻初始检测框置信值最大的待选择检测框，得到最大置信值待选择检测框；根据其他置信值待选择检测框与最大置信值待选择检测框，得到检测框重叠度；判断检测框重叠度是否大于第二阈值；若检测框重叠度大于第二阈值，则删除其他置信值待选择检测框并标记最大置信值待选择检测框，得到一个目标人头检测框，目标人头检测框为最大置信值待选择检测框；针对多个人头对象中的其他人头对象确定对应的目标人头检测框，得到多个目标人头检测框。

可选的，预处理单元302具体用于：

将人群图片进行灰度化处理，得到灰度化人群图片；将灰度化人群图片进行归一化处理，得到归一化人群图片；将归一化人群图片进行灰度直方均衡化处理，得到预处理后的人群图片。

上面图3至图4从模块化功能实体的角度对本发明实施例中的基于神经网络的人群计数装置进行详细描述，下面从硬件处理的角度对本发明实施例中服务器进行详细描述。

下面结合图5对服务器的各个构成部件进行具体的介绍：

图5是本发明实施例提供的一种服务器的结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)501(例如，一个或一个以上处理器)和存储器509，一个或一个以上存储应用程序507或数据506的存储介质508(例如一个或一个以上海量存储服务器)。其中，存储器509和存储介质508可以是短暂存储或持久存储。存储在存储介质508的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，处理器501可以设置为与存储介质508通信，在服务器500上执行存储介质508中的一系列指令操作。

服务器500还可以包括一个或一个以上电源502，一个或一个以上有线或无线网络接口503，一个或一个以上输入输出接口504，和/或，一个或一个以上操作系统505，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图5对服务器的各个构成部件进行具体的介绍：

处理器501是服务器的控制中心，可以按照基于神经网络的人群计数方法进行处理。处理器501利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器509内的软件程序和/或模块，以及调用存储在存储器509内的数据，利用神经网络得到初始检测框，提高了检测多个人头对象的准确率，并且能够获取多个人头对象的具体位置。存储介质508和存储器509都是存储数据的载体，本发明实施例中，存储介质508可以是指储存容量较小，但速度快的内存储器，而存储器509可以是储存容量大，但储存速度慢的外存储器。

存储器509可用于存储软件程序以及模块，处理器501通过运行存储在存储器509的软件程序以及模块，从而执行服务器500的各种功能应用以及数据处理。存储器509可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器509可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在本发明实施例中提供的基于神经网络的人群计数程序和接收到的数据流存储在存储器中，当需要使用时，处理器501从存储器509中调用。

在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、双绞线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储服务器。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，光盘)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于神经网络的人群计数方法，其特征在于，包括：

获取需要计算人群数量的人群图片，所述人群图片中包括多个人头对象；

对所述人群图片进行预处理，得到预处理后的人群图片；

根据预置卷积神经网络，对所述预处理后的人群图片进行缩放和融合提取特征，得到多个初始检测信息，所述初始检测信息包括初始检测框、对应的初始检测框坐标和对应的初始检测框置信值；

判断每个初始检测框对应的初始检测框置信值是否大于或等于第一阈值；

若所述初始检测框置信值大于或等于所述第一阈值，则将所述初始检测框置信值对应的初始检测框确定为待选择检测框，并根据预置去重算法和所述初始检测框置信值对所述待选择检测框去重，得到多个目标人头检测框；

统计所述多个目标人头检测框的数量，所述多个目标人头检测框的数量与所述多个人头对象的数量相同。

2.根据权利要求1所述的基于神经网络的人群计数方法，其特征在于，所述根据预置卷积神经网络，对所述预处理后的人群图片进行缩放和融合提取特征，得到多个初始检测信息，所述初始检测信息包括初始检测框、对应的初始检测框坐标和对应的初始检测框置信值包括：

在预置卷积神经网络中采用预置深度卷积与预置缩放标准，对所述预处理后的人群图片进行处理，得到多个候选信息图片，多个所述候选信息图片包括深度候选信息图片、第一候选信息图片、第二候选信息图片、第三候选信息图片和第四候选信息图片；

采用预置融合函数对多个所述候选信息图片进行信息融合，得到多融合信息图片；

根据所述多融合信息图片，确定初始检测框、对应的初始检测框坐标和对应的初始检测框置信值，所述初始检测框坐标为每个人头对象的地理坐标，所述初始检测框置信值为所述初始检测框中的物品为人头对象的概率。

3.根据权利要求2所述的基于神经网络的人群计数方法，其特征在于，所述根据所述多融合信息图片，确定初始检测框、对应的初始检测框坐标和对应的初始检测框置信值，所述初始检测框坐标为每个人头对象的地理坐标，所述初始检测框置信值为所述初始检测框中的物品为人头对象的概率包括：

使用预置算法在所述多融合信息图片中提取多个候选检测框；

提取预置特征图，并将所述候选检测框映射到所述预置特征图上，得到感兴趣区域块；

将感兴趣区域块输入池化层，得到特征向量，所述特征向量包括初始检测框坐标、对应的初始检测框尺度和对应的初始检测框置信值；

基于所述初始检测框坐标、所述初始检测框尺度和所述初始检测框置信值，确定初始检测框。

4.根据权利要求2所述的基于神经网络的人群计数方法，其特征在于，所述采用预置融合函数对多个所述候选信息图片进行信息融合，得到多融合信息图片包括：

将所述第四候选图片信息输入预置融合层，得到第一融合信息图片；

将所述第一融合信息图片与所述第三候选信息图片输入预置融合层，得到第二融合信息图片；

将所述第二融合信息图片与所述第二候选信息图片输入预置融合层，得到第三融合信息图片；

将所述第三融合信息图片与所述第一候选信息图片输入预置融合层，得到第四融合信息图片；

将所述第四融合信息图片与所述深度候选信息图片输入预置融合层，得到第五融合信息图片；

采用预置融合函数将所述第一融合信息图片、所述第二融合信息图片、所述第三融合信息图片、所述第四融合信息图片和所述第五融合信息图片进行融合，得到多融合信息图片。

5.根据权利要求2所述的基于神经网络的人群计数方法，其特征在于，所述在预置卷积神经网络中采用预置深度卷积与预置缩放标准，对所述预处理后的人群图片进行处理，得到多个候选信息图片，多个所述候选信息图片包括深度候选信息图片、第一候选信息图片、第二候选信息图片、第三候选信息图片和第四候选信息图片包括：

将所述预处理后的人群图片输入预置深度可分离特征层，采用所述预置深度卷积对所述预处理后的人群图片进行卷积，得到深度候选信息图片；

将所述预处理后的人群图片按照预置缩放标准进行缩放，得到第一人群图片，并将所述第一人群图片输入第一预置特征层，采用所述预置深度卷积对所述第一人群图片进行卷积，得到第一候选信息图片；

将所述第一人群图片按照预置缩放标准进行缩放，得到第二人群图片，并将所述第二人群图片输入第二预置特征层，采用所述预置深度卷积对所述第二人群图片进行卷积，得到第二候选信息图片；

将所述第二人群图片按照预置缩放标准进行缩放，得到第三人群图片，并将所述第三人群图片输入第三预置特征层，采用所述预置深度卷积对所述第三人群图片进行卷积，得到第三候选信息图片；

将所述第三人群图片按照预置缩放标准进行缩放，得到第四人群图片，并将所述第四人群图片输入第四预置特征层，采用所述预置深度卷积对所述第四人群图片进行卷积，得到第四候选信息图片。

6.根据权利要求1所述的基于神经网络的人群计数方法，其特征在于，所述若所述初始检测框置信值大于或等于所述第一阈值，则将所述初始检测框置信值对应的初始检测框确定为待选择检测框，并根据预置去重算法和所述初始检测框置信值对所述待选择检测框去重，得到多个目标人头检测框包括：

若所述初始检测框置信值大于或等于所述第一阈值，则将所述初始检测框置信值对应的初始检测框确定为待选择检测框；

针对所述多个人头对象中的任意一个人头对象，搜寻所述初始检测框置信值最大的待选择检测框，得到最大置信值待选择检测框；

根据其他置信值待选择检测框与所述最大置信值待选择检测框，得到检测框重叠度；

判断所述检测框重叠度是否大于第二阈值；

若所述检测框重叠度大于所述第二阈值，则删除所述其他置信值待选择检测框并标记所述最大置信值待选择检测框，得到一个目标人头检测框，所述目标人头检测框为所述最大置信值待选择检测框；

针对所述多个人头对象中的其他人头对象确定对应的目标人头检测框，得到多个目标人头检测框。

7.根据权利要求1-6中任一项所述的基于神经网络的人群计数方法，其特征在于，所述对所述人群图片进行预处理，得到预处理后的人群图片包括：

将所述人群图片进行灰度化处理，得到灰度化人群图片；

将所述灰度化人群图片进行归一化处理，得到归一化人群图片；

将所述归一化人群图片进行灰度直方均衡化处理，得到预处理后的人群图片。

8.一种基于神经网络的人群计数装置，其特征在于，包括：

获取单元，用于获取需要计算人群数量的人群图片，所述人群图片中包括多个人头对象；

预处理单元，用于对所述人群图片进行预处理，得到预处理后的人群图片；

第一处理单元，用于根据预置卷积神经网络，对所述预处理后的人群图片进行缩放和融合提取特征，得到多个初始检测信息，所述初始检测信息包括初始检测框、对应的初始检测框坐标和对应的初始检测框置信值；

判断单元，用于判断每个初始检测框对应的初始检测框置信值是否大于或等于第一阈值；

第二处理单元，若所述初始检测框置信值大于或等于所述第一阈值，则用于将所述初始检测框置信值对应的初始检测框确定为待选择检测框，并根据预置去重算法和所述初始检测框置信值对所述待选择检测框去重，得到多个目标人头检测框；

统计单元，用于统计所述多个目标人头检测框的数量，所述多个目标人头检测框的数量与所述多个人头对象的数量相同。

9.一种服务器，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述的基于神经网络的人群计数方法。

10.一种计算机可读存储介质，其特征在于，包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-7中任意一项所述的基于神经网络的人群计数方法的步骤。