CN110163140A - 人群密度图获取方法及装置 - Google Patents
人群密度图获取方法及装置 Download PDFInfo
- Publication number
- CN110163140A CN110163140A CN201910403159.0A CN201910403159A CN110163140A CN 110163140 A CN110163140 A CN 110163140A CN 201910403159 A CN201910403159 A CN 201910403159A CN 110163140 A CN110163140 A CN 110163140A
- Authority
- CN
- China
- Prior art keywords
- image
- sub
- prediction
- images
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000013528 artificial neural network Methods 0.000 claims description 51
- 230000008569 process Effects 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 abstract description 9
- 230000008859 change Effects 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 16
- 238000005070 sampling Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010606 normalization Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 239000011800 void material Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0007—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种人群密度图获取方法及装置,将待测图像对应的多个子图像及待测图像分别输入至人群密度图预测模型的第一预测通道和第二预测通道;其中,第一预测通道使多个子图像分别对应的预测人群子密度图趋于实际人群子密度图;第二预测通道使待测图像对应的预测人群密度图趋于实际人群密度图;基于第一预测图以及第二预测图,获得待测图像的人群密度图;第一预测图是指多个预测人群子密度图拼接得到的待测图像的整体人群密度图;第二预测图是指预测人群密度图。由于每一子图像尺寸变化小,使得子图像中人的尺寸变化小,人群子密度图预测的更准确;通过两个通道分别预测第一预测图、第二预测图,然后结合该两个预测图得到的人群密度图更准确。
Description
技术领域
本申请涉及信息处理技术领域,更具体的说,是涉及一种人群密度图获取方法及装置。
背景技术
目前,大规模集会活动的人数和频率急剧增加,例如,法定假日的旅游、运动会、大型中心商业区等。人山人海、熙熙攘攘的背后却隐藏着巨大的安全隐患,例如踩踏事故。
通过监控人群活动场景中人群密度图,可以预测出可能发生的安全隐患,因此,需要一种准确的人群密度图获取方法。
发明内容
有鉴于此,本申请提供了一种人群密度图获取方法及装置,用于预测人群活动场景中可能发生的安全隐患。
为实现上述目的,本申请提供如下技术方案:
第一方面,一种人群密度图获取方法,包括:
将待测图像划分为多个子图像;
将所述多个子图像以及所述待测图像输入至预构建的人群密度图预测模型;
其中,所述人群密度图预测模型包括第一预测通道以及第二预测通道;所述第一预测通道具有将多个子图像分别对应的预测人群子密度图趋于相应子图像对应的实际人群子密度图的能力;所述第二预测通道具有将所述待测图像对应的预测人群密度图趋于所述待测图像对应的实际人群密度图的能力;
基于第一预测图以及第二预测图,获得所述待测图像的人群密度图;所述第一预测图是指所述人群密度图预测模型的所述第一预测通道预测的多个子图像分别对应的预测人群子密度图拼接得到的所述待测图像的整体人群密度图;所述第二预测图是指所述第二预测通道预测的所述待测图像对应的预测人群密度图。
第二方面,一种人群密度图获取装置,包括:
图像划分模块,用于将待测图像划分为多个子图像;
输入模块,用于将所述多个子图像以及所述待测图像输入至预构建的人群密度图预测模型;
其中,所述人群密度图预测模型包括第一预测通道以及第二预测通道;所述第一预测通道具有将多个子图像分别对应的预测人群子密度图趋于相应子图像对应的实际人群子密度图的能力;所述第二预测通道具有将所述待测图像对应的预测人群密度图趋于所述待测图像对应的实际人群密度图的能力;
获取模块,用于基于第一预测图以及第二预测图,获得所述待测图像的人群密度图;所述第一预测图是指所述人群密度图预测模型的所述第一预测通道预测的多个子图像分别对应的预测人群子密度图拼接得到的所述待测图像的整体人群密度图;所述第二预测图是指所述第二预测通道预测的所述待测图像对应的预测人群密度图。
经由上述的技术方案可知,本申请提供的一种人群密度图获取方法,将待测图像对应的多个子图像以及待测图像分别输入至人群密度图预测模型的第一预测通道和第二预测通道;其中,第一预测通道具有将多个子图像分别对应的预测人群子密度图趋于相应子图像对应的实际人群子密度图的能力;第二预测通道具有将待测图像对应的预测人群密度图趋于待测图像对应的实际人群密度图的能力;基于第一预测图以及第二预测图,获得待测图像的人群密度图;第一预测图是指人群密度图预测模型的第一预测通道预测的多个子图像分别对应的预测人群子密度图拼接得到的待测图像的整体人群密度图;第二预测图是指第二预测通道预测的待测图像对应的预测人群密度图。通过将待测图像划分为多个子图像的方式,降低了第一预测通道处理的每个图像的尺寸,使得一个图像中不同位置的人的尺寸变化较小,不会出现由于待测图像尺寸较大导致的不同位置的人的尺寸变化较大的现象,避免了由于这种现象导致的人群密度图预测的不准确的情况;通过两个通道,即两种不同的预测方式,分别预测出第一预测图以及第二预测图,然后结合第一预测图以及第二预测图得到最终的人群密度图,可以使得待测图像对应的人群密度图更加准确。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示例了由图像采集终端和电子设备所构成的硬件环境示意图;
图2为本申请实施例公开的一种人群密度图获取方法流程图;
图3a-3c示例了人群密度图预测模型输入端的两种可选结构;
图4a-4c示例了人群密度图预测模型输出端的三种可选结构;
图5示例了基于多个子图像的标识得到第一预测图的示意图;
图6a-6b示例了卷积核为3*3的卷积层与空洞卷积层示意图;
图7示例了下采样的过程示意图;
图8示例了编码层与解码层跳跃连接的过程示意图;
图9为本申请实施例公开的一种人群密度图获取装置结构示意图;
图10为本申请实施例公开的一种人群密度图获取设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了引用和清楚起见,下文中使用的技术名词的说明、简写或缩写总结如下:
待测图像:用于获取人群密度图的图像。
子图像:由待测图像划分得到。
预测人群子密度图:由人群密度图预测模型中第一预测通道预测得到的多个子图像分别对应的子密度图。
实际人群子密度图:多个子图像分别对应的实际子密度图。
整体人群密度图:由多个预测人群子密度图拼接得到。
第一预测图:即整体人群密度图。
预测人群密度图:由人群密度图预测模型中第二预测通道预测得到的待测图像对应的密度图。
实际人群密度图:待测图像对应的实际密度图。
第二预测图:即待测图像对应的预测人群密度图。
本申请公开了人群密度图获取方法、装置、电子设备以及可读存储介质,接下来分别介绍。
上述人群密度图获取装置可包括运行于电子设备中的人群密度图获取装置和运行于后台服务器/平台中的人群密度图获取装置。
上述电子设备可以是诸如台式机、移动终端(例如智能手机)、ipad等电子设备。在一个示例中,运行于电子设备中的人群密度图获取装置可为运行在终端中的客户端。该客户端可以是应用程序客户端,也可以是网页客户端。
运行于后台服务器/平台中的人群密度图获取装置可为服务器/平台的一个硬件组成部分,也可为功能模块或组件。
上述后台服务器或平台可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
在一可选实施例中,上述人群密度图获取方法可以应用于图1所示的由图像采集终端11和电子设备12所构成的硬件环境中。如图1所示,图像采集终端11可以通过无线方式与电子设备12进行连接。该无线方式包括但不限于:广域网、城域网、局域网、蓝牙或NFC(Near Field Communication,近距离无线通讯技术)。图像采集终端11还可以通过有线方式与电子设备12进行连接。
图像采集终端11可以用于监控人群活动场景中人群,并采集人群图像111。图像采集终端11还可以将采集的人群图像111发送至电子设备12。
电子设备12可以基于得到的人群图像111,利用本申请提供的人群密度图获取方法,获取与该人群图像111对应的人群密度图121。电子设备12可以基于人群密度图121,预测出可能发生的安全隐患,例如踩踏事故。
可选的,电子设备12可以基于人群密度图121,统计当前采集的人群图像111中的人数,例如若人群密度图121中一个黑点代表一个人,则图1所示的人群密度图121中共10人。
当然,上述仅仅示例了一种可选的人群密度图121的展示方式,除此之外还可以有其他展示方式,例如人群密度图121中一个黑点还可以代表十个人。
接下来,请参阅附图2,为本申请公开的人群密度图获取方法的一种实现方式的流程图。如图2所示,该方法可以包括:
步骤S200、将待测图像划分为多个子图像。
可选的,可以理解的是,对于同一待测图像而言,待测图像中的人距离图像采集终端11的距离越近,其尺寸越大;反之,距离图像采集终端11的距离越远,其尺寸越小。
本申请实施例可以将待测图像划分为多个子图像,该每一子图像的尺寸相对待测图像较小,从而每一子图像中包含的人的尺寸变化相对待测图像包含的人的尺寸变化较小。针对该每一子图像获取其预测人群子密度图的准确度更高。
可选的,针对一个待测图像,可以将其划分为多个相同尺寸且互不重叠的子图像。针对不同待测图像,其划分的多个子图像的尺寸可以不同。例如,待测图像1可以划分为9个且互不重叠的64*64像素的子图像,而待测图像2可以划分为16个且互不重叠的32*32像素的子图像。可选的,针对不同待测图像,其划分的多个子图像的尺寸相同,例如,待测图像1可以划分为18个且互不重叠的32*32像素的子图像,而待测图像2可以划分为16个且互不重叠的32*32像素的子图像。
可选的,本申请实施例还可以在划分待测图像之前,先对待测图像进行预处理,例如去均值归一化处理,以加快梯度下降的速度,进而加快训练神经网络的速度。
下面对去均值归一化进行介绍。
若待测图像为灰度图像,则首先计算待测图像中各像素的平均灰度值,这里用μ表示,然后计算待测图像中像素最大值与像素最小值的差值,这里差值用S表示,则针对待测图像中任一像素值X,对其进行去均值归一化处理后得到的像素值为:X'=(X-μ)/S。
若待测图像为彩色图像,则可以针对其中每一维度的像素分别执行如上述计算公式所述的去均值归一化的操作,从而得到去均值归一化后的三维的彩色图像。
步骤S210、将所述多个子图像以及所述待测图像输入至预构建的人群密度图预测模型。
其中,所述人群密度图预测模型包括第一预测通道以及第二预测通道;所述第一预测通道具有将多个子图像分别对应的预测人群子密度图趋于相应子图像对应的实际人群子密度图的能力;所述第二预测通道具有将所述待测图像对应的预测人群密度图趋于所述待测图像对应的实际人群密度图的能力。
可选的,可以预先构建人群密度图预测模型,该人群密度图预测模型可以包括第一预测通道以及第二预测通道。
本步骤可以将多个子图像分别输入至第一预测通道,该第一预测通道可以用于预测多个子图像分别对应的预测人群子密度图,该多个预测人群子密度图更加趋近于相应子图像对应的实际人群子密度图。
本步骤还可以将待测图像输入至第二预测通道,该第二预测通道可以用于预测待测图像对应的预测人群密度图,该预测人群密度图更加趋近于待测图像对应的实际人群密度图。
当然,上述人群密度图预测模型包括第一预测通道以及第二预测通道仅为一种可选的示例,除此之外还可以有其他预测通道,例如人群密度图预测模型还可以包括第一预测通道、第二预测通道以及第三预测通道。
步骤S220、基于第一预测图以及第二预测图,获得所述待测图像的人群密度图。
其中,所述第一预测图是指所述人群密度图预测模型的所述第一预测通道预测的多个子图像分别对应的预测人群子密度图拼接得到的所述待测图像的整体人群密度图;所述第二预测图是指所述第二预测通道预测的所述待测图像对应的预测人群密度图。
可选的,可以将人群密度图预测模型中第一预测通道预测的多个子图像分别对应的预测人群子密度图进行拼接,得到待测图像的整体人群密度图。本步骤还可以将该整体人群密度图作为第一预测图,并将人群密度图预测模型中第二预测通道预测的待测图像对应的预测人群密度图作为第二预测图。
可以理解的是,上述整体人群密度图以及预测人群密度图均趋近于待测图像对应的实际人群密度图,因此本步骤可以基于第一预测图以及第二预测图,得到最终的待测图像的人群密度图。
可选的,本申请还可以基于最终得到的人群密度图,统计人数。
本申请采用人群密度图预测安全隐患的方式,能够精确地获得待测图像包含的人数。
可选的,本申请还可以基于最终得到的人群密度图,获得热度图。通过热度图可视化人群的密度分布,从而更加有利于安全隐患事件的判断。
综上,本申请提供的一种人群密度图获取方法,将待测图像对应的多个子图像以及待测图像分别输入至人群密度图预测模型的第一预测通道和第二预测通道;其中,第一预测通道具有将多个子图像分别对应的预测人群子密度图趋于相应子图像对应的实际人群子密度图的能力;第二预测通道具有将待测图像对应的预测人群密度图趋于待测图像对应的实际人群密度图的能力;基于第一预测图以及第二预测图,获得待测图像的人群密度图;第一预测图是指人群密度图预测模型的第一预测通道预测的多个子图像分别对应的预测人群子密度图拼接得到的待测图像的整体人群密度图;第二预测图是指第二预测通道预测的待测图像对应的预测人群密度图。通过将待测图像划分为多个子图像的方式,降低了第一预测通道处理的每个图像的尺寸,使得一个图像中不同位置的人的尺寸变化较小,不会出现由于待测图像尺寸较大导致的不同位置的人的尺寸变化较大的现象,避免了由于这种现象导致的人群密度图预测的不准确的情况;通过两个通道,即两种不同的预测方式,分别预测出第一预测图以及第二预测图,然后结合第一预测图以及第二预测图得到最终的人群密度图,可以使得待测图像对应的人群密度图更加准确。
本申请预先构建的人群密度图预测模型可以有多种结构。接下来,本申请的多个实施例结合人群密度图预测模型的多种结构对上述步骤S210以及步骤S220进行介绍,具体可以参见图3a-3c,以及图4a-4c。
参见图3a-3c,本申请的一个实施例对上述步骤S210,将所述多个子图像以及所述待测图像输入至预构建的人群密度图预测模型的过程进行说明。
可以理解的是,在将多个子图像以及待测图像输入至预构建的人群密度图预测模型前,首先需要区分多个子图像以及待测图像。进而可以将多个子图像输入至人群密度图预测模型中第一预测通道,将待测图像输入至人群密度图预测模型中第二预测通道。
基于此,基于人群密度图预测模型的输入,本申请实施例中人群密度图预测模型的输入端至少可以包括两种结构。基于该两种结构,上述步骤S210,将所述多个子图像以及所述待测图像输入至预构建的人群密度图预测模型的过程可以包括下述几种实现方式中任一种。
第一种:人群密度图预测模型具有至少两个输入端。
可以首先区分多个子图像及待测图像,然后再输入人群密度图预测模型中,该过程具体可以包括:
将所述多个子图像输入至所述人群密度图预测模型中所述第一预测通道对应的第一输入口,以使得所述多个子图像输入至所述第一预测通道;将所述待测图像输入至所述人群密度图预测模型中所述第二预测通道对应的第二输入口,以使得所述待测图像输入至所述第二预测通道。
参见图3a-3b,为人群密度图预测模型1的一种可选结构。其中,人群密度图预测模型1可以包括第一预测通道以及第二预测通道,并且第一预测通道对应有第一输入口S1,第二预测通道对应有第二输入口S2。
本申请可以人为区分多个子图像以及待测图像,还可以由图像分类层2区分多个子图像以及待测图像。
若多个子图像以及待测图像通过人为进行区分,则可以参见图3a,人为区分多个子图像以及待测图像完毕后,可以将多个子图像输入至人群密度图预测模型1中第一预测通道对应的第一输入口S1,以使得多个子图像输入至第一预测通道;将待测图像输入至人群密度图预测模型1中第二预测通道对应的第二输入口S2,以使得待测图像输入至第二预测通道。
若多个子图像以及待测图像通过图像分类层2进行区分,则可以参见图3b,可以将所有图像输入至图像分类层2,由该图像分类层2对多个子图像以及待测图像进行区分,进而将区分完毕后的多个子图像输入至人群密度图预测模型1中第一预测通道对应的第一输入口S1,以使得多个子图像输入至第一预测通道;将待测图像输入至人群密度图预测模型1中第二预测通道对应的第二输入口S2,以使得待测图像输入至第二预测通道。
第二种:人群密度图预测模型具有一个输入端。
具体可以参见图3c,为人群密度图预测模型1的另一种可选结构。人群密度图预测模型1可以包括图像分类层、第一预测通道以及第二预测通道。
多个子图像以及待测图像通过人群密度图预测模型1中的图像分类层进行区分,进而将区分完毕后的多个子图像输入至第一预测通道;将待测图像输入第二预测通道。
下面针对上述第一种和第二种中涉及的图像分类层区分待测图像和多个子图像的过程进行说明。图像分类层区分待测图像和多个子图像的方式包括但不限于以下几种方式。
第一种方式:所述多个子图像的尺寸均为预设尺寸,所述待测图像的尺寸大于任一子图像的尺寸;将所述多个子图像以及所述待测图像输入至图像分类层;利用所述图像分类层,基于输入的各图像分别对应的尺寸特征,区分所述多个子图像以及所述待测图像。
可选的,对于不同待测图像而言,其分别对应的子图像的尺寸均为预设尺寸。
可以理解的是,多个子图像是划分待测图像得到,因此任一子图像的尺寸小于待测图像的尺寸。则图3b或图3c所示的图像分类层可以基于输入的各图像分别对应的尺寸特征,将所有图像区分为多个子图像以及待测图像。这里所有图像包括多个子图像以及待测图像。
上述多个子图像的尺寸均为预设尺寸,本申请可以预先设置图像分类层中的分类规则,进而图像分类层可以基于预设的分类规则,将所有图像区分为多个子图像以及待测图像。可选的,预设的分类规则可以包括:针对所有图像中任一图像,将图像尺寸大于第一尺寸的图像确定为待测图像,将图像尺寸小于或等于第一尺寸的图像确定为子图像;或,针对所有图像中任一图像,将图像尺寸等于所述预设尺寸的图像确定为子图像,将图像尺寸为非所述预设尺寸的图像确定为待测图像。其中,第一尺寸大于或等于所述预设尺寸。
第二种方式:所述多个子图像被标识有子图参数,所述待测图像被标识有整图参数,将所述多个子图像以及所述待测图像输入至图像分类层;利用所述图像分类层,基于输入的各图像分别对应的参数特征,区分所述多个子图像以及所述待测图像。
仍参见图3b或图3c所示的图像分类层可以基于输入的各图像分别对应的参数特征,将所有图像区分为多个子图像以及待测图像。这里所有图像包括多个子图像以及待测图像。
本申请实施例中,所有图像均可以具有参数,例如表征图像为待测图像的整图参数、表征图像为子图像的子图参数等。本申请实施例中,图像分类层可以基于输入的各图像分别对应的参数特征,将所有图像区分为子图像以及待测图像。例如,针对所有图像中任一图像,若该图像具有“1-001”子图参数,表征该图像是待测图像1对应的001号子图像;若该图像具有“1”整图参数,表征该图像是待测图像1。
参见图4a-4c,本申请的一个实施例对上述步骤S220,基于第一预测图以及第二预测图,获得所述待测图像的人群密度图的过程进行说明。
本申请实施例中,人群密度图预测模型可以分别输出多个子图像分别对应的预测人群子密度图以及第二预测图,还可以输出第一预测图以及第二预测图,除此之外还可以输出待测图像的人群密度图。
基于此,基于人群密度图预测模型的输出,本申请实施例中人群密度图预测模型的输出端至少可以包括三种结构。基于该三种结构,上述步骤S220,基于第一预测图以及第二预测图,获得所述待测图像的人群密度图的过程可以包括下述几种实现方式中任一种。
第一种:人群密度图预测模型包括至少两个输出端。
可以从人群密度图预测模型1的第一预测通道获取多个子图像分别对应的预测人群子密度图,从第二预测通道获取第二预测图,并基于多个子图像分别对应的预测人群子密度图以及第二预测图,得到人群密度图,该过程具体可以包括:
获取所述第一预测通道输出的多个子图像分别对应的预测人群子密度图;将多个子图像分别对应的预测人群子密度图进行关联,获得所述第一预测图;获取所述第二预测通道输出的第二预测图;基于所述第一预测图、第二预测图、所述第一预测图对应的第一权重以及所述第二预测图对应的第二权重,获得所述待测图像的人群密度图。
具体可以参见图4a-4b,人群密度图预测模型1至少可以包括第一预测通道以及第二预测通道,其中第一预测通道可以输出多个子图像分别对应的预测人群子密度图,第二预测通道可以输出第二预测图,即待测图像对应的预测人群密度图。
本申请可以获取第一预测通道输出的多个子图像分别对应的预测人群子密度图,进而可以将多个子图像分别对应的预测人群子密度图进行关联,以得到第一预测图。可选的,上述关联的过程可以在人群密度图预测模型1之外,由人为或除人群密度图预测模型1外的软件关联得到第一预测图,即图4a所示人为或除人群密度图预测模型1外的软件关联多个子图像分别对应的预测人群子密度图得到第一预测图,还可以由图4b所示的人群密度图预测模型1中图像拼接层关联得到第一预测图。
本申请还可以获取第二预测通道输出的第二预测图,该第二预测图即为上述本申请提及的待测图像对应的预测人群密度图。
可以理解的是,基于第一预测通道得到的第一预测图的准确度与基于第二预测通道得到的第二预测图的准确度可能不同。基于此,本申请还可以为第一预测图与第二预测图分别分配不同的权重,其中权重越大表征该预测图的准确度更高。进而在人群密度图预测模型1之外,本申请可以基于第一预测图、第二预测图、第一预测图对应的第一权重以及第二预测图对应的第二权重,获得待测图像的人群密度图。例如若第一权重与第二权重均为二分之一,则相当于将第一预测图与第二预测图求平均,得到待测图像的人群密度图。
第二种:人群密度图预测模型包括一个输出端。
人群密度图预测模型可以直接输出人群密度图,该过程具体可以包括:
获取所述第一预测通道输出的多个子图像分别对应的预测人群子密度图;通过所述人群密度图预测模型中的图像拼接层,将多个子图像分别对应的预测人群子密度图进行关联,获得所述第一预测图;获取所述第二预测通道输出的第二预测图;通过所述人群密度图预测模型中的全连接层,将所述第一预测图以及所述第二预测图进行关联,得到所述待测图像的人群密度图。
具体可以参见图4c,人群密度图预测模型1可以包括第一预测通道、第二预测通道、图像拼接层以及全连接层。其中,图像拼接层用于在获取第一预测通道输出的多个子图像分别对应的预测人群子密度图后,将该多个预测人群子密度图进行关联,得到第一预测图;全连接层用于将图像拼接层输出的第一预测图以及获取的第二预测通道输出的待测图像对应的第二预测图进行关联,得到待测图像的人群密度图。
一种可选的全连接层关联第一预测图与第二预测图的方式下,第一预测图可以对应第一权重,第二预测图对应第二权重,则可以基于第一预测图、第二预测图、第一预测图对应的第一权重以及第二预测图对应的第二权重,获得待测图像的人群密度图。例如,将第一预测图用“a1”表示,第二预测图用“a2”表示,第一权重用“k1”表示,第二权重用“k2”表示,则获得的待测图像的人群密度图可以为k1a1+k2a2。
可以理解的是,可以结合上述图3a-3c,以及图4a-4c,得到本申请实施例提供的人群密度图预测模型的多种结构,但是上述结合得到的多种结果仅仅示例了人群密度图预测模型的几种可选结构,除此之外根据实际需要,人群密度图预测模型还可以有其他结构。
可以理解的是,多个子图像中任一子图像均在待测图像中具有特定位置。则前述本申请提及的“将多个子图像分别对应的预测人群子密度图进行关联,获得所述第一预测图”中,在将多个子图像分别对应的预测人群子密度图进行关联时,可能未按照子图像所在待测图像的特定位置顺序进行关联。当然,一种可选的情况下,在将多个子图像分别对应的预测人群子密度图进行关联时,可以按照子图像所在待测图像的特定位置顺序进行关联,从而得到的第一预测图更加趋于待测图像对应的实际人群密度图。
综上,本申请提及的“将多个子图像分别对应的预测人群子密度图进行关联,获得所述第一预测图”的过程可以包括:将具有所述待测图像对应的所有者参数的多个子图像分别对应的预测人群子密度图进行关联,获得所述第一预测图。
在一可选实施例中,多个子图像都可以具有所有者参数。可选的,针对多个子图像中任一子图像,该所有者参数可以表征该子图像自身所属待测图像的参数,可选的,一个子图像的所有者参数可以表征该子图像位于待测图像的位置参数,或者,一个子图像的所有者参数可以仅表征该子图像属于哪个待测图像。
若一个子图像的所有者参数可以仅表征该子图像属于哪个待测图像,那么,可选的,一个子图像的所有者参数可以与一个子图像的子图参数相同,例如,待测图像1包含的子图像1的所有者参数(或子图参数)为“1-001”,待测图像1包含的子图像2的所有者参数(或子图参数)为“1-002”;待测图像2包含的子图像1的所有者参数(或子图参数)为“2-001”。上述所有者参数(或子图参数)是以格式“所属待测图像标识-子图像标识”为例进行说明的,本申请并不限定所有者参数(或子图参数)的格式。
可选的,一个子图像的所有者参数可以与一个子图像的子图参数不同。
若一个子图像的所有者参数可以仅表征该子图像属于哪个待测图像,那么,在将多个子图像分别对应的预测人群子密度图进行关联时,可以在不考虑多个子图像在待测图像中的位置的情况下,将多个子图像进行拼接,由于在考虑安全隐患的时候,一般是基于待测图像包含的人数或人群密度,考虑安全隐患,所以可以不需要考虑多个子图像在待测图像中的位置。
若一个子图像的所有者参数可以表征该子图像位于待测图像的位置参数,可选的,一个子图像的所有者参数的表现格式可以如下:“所属待测图像标识-子图像位置标识”,可选的,一个子图像的子图像位置标识可以为该子图像的第一个像素(位于该子图像的左上角的像素)在待测图像中的位置。例如,待测图像1包含的子图像1的所有者参数(或子图参数)为“1-(x1,y1)”,待测图像1包含的子图像2的所有者参数(或子图参数)为“1-(x2,y2)”;待测图像2包含的子图像1的所有者参数(或子图参数)为“2-(x3,y3)”。
若一个子图像的所有者参数可以表征该子图像位于待测图像的位置参数,那么,在将多个子图像分别对应的预测人群子密度图进行关联时,可以在考虑多个子图像在待测图像中的位置的情况下,将多个子图像进行拼接,这样可以基于最终得到的人群密度图,以得到待测图像中哪个位置区域的人数最多,在有安全隐患的前提下,可以优先驱散人数最多的位置区域的人群。
本申请提及的“基于多个子图像分别在待测图像中的位置,将多个子图像分别对应的预测人群子密度图进行关联,获得所述第一预测图”的过程可以包括:
获取具有所述待测图像对应的所有者参数的多个子图像;
基于所述多个子图像分别对应的所有者参数包含的子图像位置标识,将所述多个子图像进行拼接,以得到所述第一预测图。
如图5所示,若一个待测图像1被划分为9个子图像,且其中每一子图像的所有者参数如图5所示“1-(x1,y1)”至“1-(x9,y9)”。则针对个子图像中任一子图像,所有者参数中(x1,y1)至(x9,y9)为子图像位置标识,假设,各子图像在待测图像中的位置如图5所示,则可以将9个子图像对应的预测人群子密度图进行拼接。例如,子图像1-(x1,y1)的预测人群子密度图的右侧相邻子密度图为子图像1-(x2,y2)的预测人群子密度图,依次类推,以得到第一预测图。
本申请的一个实施例中,人群密度图预测模型中第一预测通道可以包括编码层和解码层,其中编码层包括至少一层卷积层和至少一层下采样层,可选的,第一预测通道中编码层可以包括6层卷积层,从而充分提取特征,且计算量在可接受范围内。这里的卷积层可以是正常卷积层或空洞卷积层,例如图6a所示卷积核为3*3的正常卷积层。采用正常卷积层可以获取多个子图像的整体信息。
人群密度图预测模型中第二预测通道可以包括编码层和解码层,其中编码层包括至少一层卷积层和至少一层下采样层。
可选的,第二预测通道中编码层可以包括6层卷积层,这里的卷积层可以是空洞卷积层,例如图6b所示的空洞为2且卷积核为3*3的空洞卷积层。采用空洞卷积层可以在不增大计算量的前提下,增大了卷积核的感受野。
编码层包括的下采样层可以用于降低特征的维度并保留有效信息,一定程度上可以避免过拟合。下采样原理可以包括:对于一幅图像I尺寸为M*N,对其进行s倍下采样,即得到(M/s)*(N/s)尺寸的分辨率图像,即下采样的过程会使得原始图像I的分辨率降低。例如图7所示,图7左图为下采样之前的图像I,该图像I的尺寸为20*20,则对其进行10倍的下采样,即可得到图7右图所示的下采样之后的图像。下采样层也叫池化层,其卷积核为对应位置的最大值(最大池化)或平均值(平均池化)等,并且下采样不经过反向传播的修改。
可以理解的是,对待测图像进行下采样可能导致待测图像的细节丢失。因此,第二预测通道包括的编码层和解码层可以跳跃连接,以帮助解码层更好地修复待测图像的细节信息。
下面对跳跃连接进行说明。
参见图8,若原始的待测图像为e11。第二预测通道中编码层经空洞卷积层以及下采样层,使得待测图像由高分辨率的e11逐步变为低分辨率的e14,可以理解的是,在待测图像由高分辨率的e11逐步变为低分辨率的e14的过程中存在信息丢失。因此,若解码层直接基于低分辨率的e14进行解码,则最终恢复的待测图像d14的分辨率可能低于待测图像e11的分辨率。
需要说明的是,上述编码层包括的空洞卷积层以及下采样层可以交替工作,从而捕获更多的上下文信息。
本申请编码层和解码层之间可以存在跳跃连接,从而将低分辨率的图像与高分辨率的图像结合起来,例如图8所示将分辨率的e13与高分辨率的e11结合得到e15,由于高分辨率的e11可以包括更长的距离信息以及更多的细节信息,从而e15相对e14包括更多的细节信息。本申请将e15发送至解码层进行解码,从而可以更好地修复待测图像的细节信息。当然,本申请还可以将e15以及e14同时发送至解码层进行解码。
本申请实施例中,第二预测通道中解码层可以包括至少一层反卷积层。这里反卷积层主要用于对图像进行上采样,以使用编码层阶段的信息(例如e15和e14)来帮助恢复高分辨率的待测图像的细节信息,由于能够帮助恢复高分辨率的待测图像的细节信息,所以能够解决对于人群密集的情况下,人和人之间的严重遮挡导致的未提取到被遮挡的人的信息的情况。
本申请中第二预测通道的编码层采用空洞卷积层,能够获得更大的感受野,且第二预测通道中的编码层与解码层之间跳跃连接,能够帮助恢复高分辨率的待测图像的细节信息,从而基于第二预测通道能够得到高分辨率和高质量的人群密度图。
本申请的又一个实施例,可以对上述步骤S200,将待测图像划分为多个子图像的过程进行说明。
可以理解的是,上述多个子图像的尺寸可以为预设尺寸,则对待测图像进行划分时,可能出现待测图像的尺寸不是预设尺寸的整数倍的情况。基于此,根据待测图像的尺寸是否为预设尺寸的整数倍,上述步骤S200,将待测图像划分为多个子图像的过程可以包括至少以下两种情况。
第一种情况下,若所述待测图像的尺寸不是所述预设尺寸的整数倍,在所述待测图像的边缘填充人群密度为零的像素,以使得填充后的所述待测图像是所述预设尺寸的整数倍,将填充后的所述待测图像划分为多个尺寸为所述预设尺寸的子图像。
可以理解的是,由于本申请将待测图像划分为多个尺寸相同的子图像,因此若待测图像的尺寸不是预设尺寸的整数倍,则无法进行上述划分。因此可以在待测图像的边缘填充人群密度为零的像素,以使得填充后的待测图像是预设尺寸的整数倍。由于填充的像素人群密度为零,因此不会影响最终得到的待测图像对应的人群密度图。进一步,填充像素完毕后,可以将填充后的待测图像划分为多个尺寸为预设尺寸的子图像。
第二种情况下,若所述待测图像的尺寸是所述预设尺寸的整数倍,将所述待测图像划分为多个尺寸为所述预设尺寸的子图像。
可选的,若待测图像的尺寸是预设尺寸的整数倍,则无需填充人群密度为零的像素,即可直接将待测图像划分为多个尺寸为预设尺寸的子图像。
上述实施例详细介绍了基于预先构建的人群密度图预测模型,得到待测图像对应的人群密度图的过程。接下来,本申请实施例可以对人群密度图预测模型的构建方法进行详细说明。
本申请的又一实施例中,人群密度图预测模型的构建方法可以包括:
A1、获取多个样本图像分别对应的子图像集合,一个子图像集合包括多个子图像。
可以理解的是,在训练神经网络得到人群密度图预测模型的过程中,需要使用至少多个样本图像。本申请可以获取多个样本图像,并获取多个样本图像分别对应的子图像集合,其中一个子图像集合包括一个样本图像对应的多个子图像。
A2、将各样本图像分别对应的子图像集合以及各样本图像作为神经网络的训练输入,训练得到所述人群密度图预测模型。
前述已经说明了,人群密度图预测模型可以具有多种结构,即对应的神经网络也可以具有多种结构。则可以基于人群密度图预测模型的输入和输出,分别训练神经网络,以得到具有不同结构的人群密度图预测模型。接下来,本申请分别介绍。
第一种:人群密度图预测模型包括两个输入端,以及,两个输出端。
若人群密度图预测模型的输入端的结构如图3a或3b所示,输出端的结构如图4a所示,则可以将各样本图像分别对应的子图像集合以及各样本图像作为神经网络的输入,将各子图像集合分别对应的预测人群子密度图以及各样本图像分别对应的第二预测图作为神经网络的输出,来训练神经网络,以得到第一种结构的人群密度图预测模型。
第二种:人群密度图预测模型包括一个输入端,以及,两个输出端。
若人群密度图预测模型的输入端的结构如图3c所示,输出端的结构如图4a所示,则可以将各样本图像分别对应的子图像集合以及各样本图像作为神经网络的输入,将各子图像集合分别对应的预测人群子密度图以及各样本图像分别对应的第二预测图作为神经网络的输出,来训练神经网络,以得到第二种结构的人群密度图预测模型。这里的所有样本图像包括各样本图像分别对应的子图像集合以及各样本图像。
第三种:人群密度图预测模型包括两个输入端,以及,两个输出端(与第一种的输出不同)。
若人群密度图预测模型的输入端的结构如图3a或3b所示,输出端的结构如图4b所示,则可以将各样本图像分别对应的子图像集合以及各样本图像作为神经网络的输入,将各子图像集合分别对应的预测人群子密度图拼接得到的第一预测图以及各样本图像分别对应的第二预测图作为神经网络的输出,来训练神经网络,以得到第三种结构的人群密度图预测模型。
第四种:人群密度图预测模型包括一个输入端,以及,两个输出端(与第二种的输出不同)。
若人群密度图预测模型的输入端的结构如图3c所示,输出端的结构如图4b所示,则可以将各样本图像分别对应的子图像集合以及各样本图像作为神经网络的输入,将各子图像集合分别对应的预测人群子密度图拼接得到的第一预测图以及各样本图像分别对应的第二预测图作为神经网络的输出,来训练神经网络,以得到第四种结构的人群密度图预测模型。
第五种:人群密度图预测模型包括两个输入端,以及,一个输出端。
若人群密度图预测模型的输入端的结构如图3a或3b所示,输出端的结构如图4c所示,则可以将各样本图像分别对应的子图像集合以及各样本图像作为神经网络的输入,将各样本图像分别对应的人群密度图作为神经网络的输出,来训练神经网络,以得到第五种结构的人群密度图预测模型。
第六种:人群密度图预测模型包括一个输入端,以及,一个输出端。
若人群密度图预测模型的输入端的结构如图3c所示,输出端的结构如图4c所示,则可以将各样本图像分别对应的子图像集合以及各样本图像作为神经网络的输入,将各样本图像分别对应的人群密度图作为神经网络的输出,来训练神经网络,以得到第六种结构的人群密度图预测模型。
上述实施例系统介绍了基于多个样本图像,训练神经网络,从而得到人群密度图预测模型的过程。本申请实施例可以对利用每一样本图像训练神经网络的过程进行详细介绍。
可选的,利用每一样本图像训练所述神经网络的过程具体可以包括:
B1、将该样本图像划分为多个预设尺寸的样本子图像。
针对任一样本图像,本申请可以将该样本图像划分为多个具有预设尺寸的样本子图像。
上述划分的具体过程可以包括至少以下两种情况。
第一种情况下,若样本图像的尺寸不是预设尺寸的整数倍,则可以在该样本图像的边缘填充人群密度为零的像素,以使得填充后的样本图像是预设尺寸的整数倍,进而将填充后的样本图像划分为多个尺寸为预设尺寸的样本子图像。
第二种情况下,若样本图像的尺寸是预设尺寸的整数倍,则可以将样本图像划分为多个尺寸为预设尺寸的样本子图像。
可选的,在划分样本图像之前,可以先对样本图像进行与上述步骤S200相同的预处理,例如去均值归一化处理。
B2、将所述多个样本子图像输入至所述神经网络中的第一预测通道,将该样本图像输入至所述神经网络中的第二预测通道。
可选的,可以将样本图像划分后得到的多个样本子图像分别输入至神经网络中的第一预测通道,以基于多个样本子图像训练第一预测通道,从而可以得到多个样本子图像的整体信息。这里,多个样本子图像即可以作为一个子图像集合。
可选将样本图像输入至神经网络中的第二预测通道,以基于样本图像训练第二预测通道,从而可以得到样本图像的细节信息。
B3、获取所述第一预测通道输出的多个样本子图像分别对应的预测人群子密度图;获取所述第二预测通道输出的该样本图像对应的预测人群密度图。
可选的,将多个样本子图像输入至第一预测通道后,本步骤可以获取第一预测通道输出的多个样本子图像分别对应的预测人群子密度图。
将样本图像输入至第二预测通道后,本步骤还可以获取第二预测通道输出的该样本图像对应的预测人群密度图。
B4、获取多个样本子图像分别对应的第一比较结果,一个样本子图像对应的第一比较结果是指通过第一损失函数,将所述第一预测通道预测的该样本子图像的预测人群子密度图与实际人群子密度图进行比较,获得的比较结果。
第一损失函数用于评估第一预测通道的预测人群子密度图与实际人群子密度图,可以基于该第一损失函数,更新神经网络中的参数。第一损失函数是神经网络中优化的目标函数之一,神经网络训练或者优化的过程之一就是最小化第一损失函数的过程,第一损失函数越小,说明人群密度图预测模型输出的预测人群子密度图就越接近实际人群子密度图,说明人群密度图预测模型的准确性也就越好。
可选的,可以基于打点标记的方式得到实际人群子密度图,具体可以包括:使用工具对每一人群图像中的人的头部分别进行打点标记,生成人群位置的真实点集数据。进而针对每一人群图像,基于标记的各人头位置,通过高斯卷积最终生成实际人群子密度图。一种可选的计算公式为:
其中,xi表示人头标记位置,δ(x-xi)表示人头位置的冲击函数,N表示样本子图像中人的总数,G为高斯核。
还可以基于第一预测通道得到样本子图像的预测人群子密度图。进而可以通过第一损失函数,将第一预测通道预测的该样本子图像的预测人群子密度图与实际人群子密度图进行比较,以获得第一比较结果。
可选的,上述第一比较结果可以是基于预测人群子密度图与实际人群子密度图对应像素值相减得到,也可以是预测人群子密度图与实际人群子密度图中分别包含的人的数目相减得到的。
B5、通过第二损失函数,将所述预测人群密度图与所述待测图像的实际人群密度图进行比较,获得第二比较结果。
B5获得第二比较结果的过程与上述B4获得第一比较结果的过程相同,详细可参照B4中介绍,此处不再详细赘述。
B6、通过第三损失函数,将第一预测图与第二预测图进行比较,获得的第三比较结果。
其中,所述第一预测图是指所述人群密度图预测模型的第一预测通道预测的多个子图像分别对应的预测人群子密度图拼接得到的所述待测图像的整体人群密度图;所述第二预测图是指所述第二预测通道预测的所述待测图像对应的预测人群密度图。
可以理解的是,若多个样本子图像分别对应的预测人群子密度图趋于实际人群子密度图,则多个预测人群子密度图拼接得到的第一预测图可以趋于实际人群密度图。还可以理解的是,第一预测图趋于实际人群密度图,且第二预测图趋于实际人群密度图,并不表征第一预测图趋于第二预测图。因此还可以获得第三比较结果,以使第一预测图可以趋于第二预测图,从而基于第一预测图和第二预测图得到的人群密度图更准确。
这里B6获得第三比较结果的过程与上述B4获得第一比较结果的过程相同,详细可参照B4中介绍,此处不再详细赘述。
B6、基于所述第二比较结果、所述第三比较结果以及所述多个样本子图像分别对应的第一比较结果,更新所述神经网络的参数。
可选的,可以通过优化第一比较结果、第二比较结果以及第三比较结果,来更新神经网络的参数,使得上述三个比较结果趋于零,也即使多个样本子图像分别对应的预测人群子密度图趋于实际人群子密度图,且样本图像对应的预测人群密度图趋于实际人群密度图,且第一预测图趋于第二预测图。
本申请的又一个实施例,对上述提及的“基于所述第二比较结果、所述第三比较结果以及所述多个样本子图像分别对应的第一比较结果,更新所述神经网络的参数”的过程进行介绍。
可以理解的是,人群密度图预测模型中第一预测通道以及第二预测通道均包括至少一个参数。更新神经网络的参数,即相当于更新第一预测通道以及第二预测通道中的参数。因此,上述更新神经网络的参数的过程具体可以包括:
C1、基于所述第二比较结果更新所述第二预测通道的参数。
前述已经说明了,更新神经网络的参数的目的之一为使第二比较结果趋于零,也即使样本图像对应的预测人群密度图趋于实际人群密度图。因此,可以基于第二比较结果,更新第二预测通道的参数,从而使样本图像对应的预测人群密度图可以更准确。
C2、基于所述多个样本子图像分别对应的第一比较结果,更新所述第一预测通道的参数。
前述已经说明了,更新神经网络的参数的目的之二为使第一比较结果趋于零,也即使多个样本子图像分别对应的预测人群子密度图趋于实际人群子密度图。因此,可以基于第一比较结果,更新第一预测通道的参数,从而使多个样本子图像分别对应的预测人群子密度图可以更准确。
C3、基于所述第三比较结果更新所述第一预测通道以及所述第二预测通道的参数。
前述已经说明了,更新神经网络的参数的目的之三为使第三比较结果趋于零,也即使第一预测图趋于第二预测图。因此,可以基于第三比较结果,更新第一预测通道的参数以及第二预测通道的参数,从而使第一预测图以及第二预测图可以更准确。
上述本申请公开的实施例中详细描述了方法,对于本申请的方法可采用多种形式的装置实现,因此本申请还公开了一种装置,下面给出具体的实施例进行详细说明。
参见附图9,图9为本申请实施例公开的一种人群密度图获取装置的结构示意图。
如图9所示,该装置可以包括:
图像划分模块91,用于将待测图像划分为多个子图像;
输入模块92,用于将所述多个子图像以及所述待测图像输入至预构建的人群密度图预测模型;
其中,所述人群密度图预测模型包括第一预测通道以及第二预测通道;所述第一预测通道具有将多个子图像分别对应的预测人群子密度图趋于相应子图像对应的实际人群子密度图的能力;所述第二预测通道具有将所述待测图像对应的预测人群密度图趋于所述待测图像对应的实际人群密度图的能力;
第一获取模块93,用于基于第一预测图以及第二预测图,获得所述待测图像的人群密度图;所述第一预测图是指所述人群密度图预测模型的所述第一预测通道预测的多个子图像分别对应的预测人群子密度图拼接得到的所述待测图像的整体人群密度图;所述第二预测图是指所述第二预测通道预测的所述待测图像对应的预测人群密度图。
在一可选实施例中,上述输入模块,可以包括:
第一输入单元,用于将所述多个子图像输入至所述人群密度图预测模型中所述第一预测通道对应的第一输入口,以使得所述多个子图像输入至所述第一预测通道;第二输入单元,用于将所述待测图像输入至所述人群密度图预测模型中所述第二预测通道对应的第二输入口,以使得所述待测图像输入至所述第二预测通道;
在一可选实施例中,上述输入模块,可以包括:
所述多个子图像的尺寸均为预设尺寸,所述待测图像的尺寸大于任一子图像的尺寸;第三输入单元,用于将所述多个子图像以及所述待测图像输入至所述人群密度图预测模型中的图像分类层;第一区分单元,用于利用所述图像分类层,基于输入的各图像分别对应的尺寸特征,区分所述多个子图像以及所述待测图像;第四输入单元,用于将所述多个子图像输入至所述第一预测通道,将所述待测图像输入至所述第二预测通道;
在一可选实施例中,上述输入模块,可以包括:
所述多个子图像被标识有子图参数,所述待测图像被标识有整图参数;第五输入单元,用于将所述多个子图像以及所述待测图像输入至所述人群密度图预测模型中的图像分类层;第二区分单元,用于利用所述图像分类层,基于输入的各图像分别对应的标识,区分所述多个子图像以及所述待测图像;第六输入单元,用于将所述多个子图像输入至所述第一预测通道,将所述待测图像输入至所述第二预测通道。
在一可选实施例中,上述第一获取模块,可以包括:
第一获取单元,用于获取所述第一预测通道输出的多个子图像分别对应的预测人群子密度图;第一关联单元,用于将多个子图像分别对应的预测人群子密度图进行关联,获得所述第一预测图;第二获取单元,用于获取所述第二预测通道输出的第二预测图;第三获取单元,用于基于所述第一预测图、第二预测图、所述第一预测图对应的第一权重以及所述第二预测图对应的第二权重,获得所述待测图像的人群密度图;
在一可选实施例中,上述第一获取模块,可以包括:
第四获取单元,用于获取所述第一预测通道输出的多个子图像分别对应的预测人群子密度图;第二关联单元,用于通过所述人群密度图预测模型中的图像拼接层,将多个子图像分别对应的预测人群子密度图进行关联,获得所述第一预测图;第五获取单元,用于获取所述第二预测通道输出的第二预测图;第六获取单元,用于通过所述人群密度图预测模型中的全连接层,将所述第一预测图以及所述第二预测图进行关联,得到所述待测图像的人群密度图。
在一可选实施例中,每一子图像被标识有表征自身所属待测图像的所有者参数,不同待测图像对应的子图像的所有者参数不同,上述第一关联单元或第二关联单元,可以包括:
拼接子单元,用于将具有所述待测图像对应的所有者参数的多个子图像分别对应的预测人群子密度图进行关联,获得所述第一预测图。
在一可选实施例中,上述第二预测通道包括编码层以及解码层,所述编码层包括至少一层空洞卷积层,所述解码层包括至少一层反卷积层;所述编码层与所述编码层跳跃连接。
在一可选实施例中,上述多个子图像的尺寸均为预设尺寸,上述图像划分模块,可以包括:
第一图像划分单元,用于若所述待测图像的尺寸不是所述预设尺寸的整数倍,在所述待测图像的边缘填充人群密度为零的像素,以使得填充后的所述待测图像是所述预设尺寸的整数倍,将填充后的所述待测图像划分为多个尺寸为所述预设尺寸的子图像;
第二图像划分单元,用于若所述待测图像的尺寸是所述预设尺寸的整数倍,将所述待测图像划分为多个尺寸为所述预设尺寸的子图像。
在一可选实施例中,还包括:
第二获取模块,用于获取多个样本图像分别对应的子图像集合,一个子图像集合包括多个子图像;
训练模块,用于将各样本图像分别对应的子图像集合以及各样本图像作为神经网络的训练输入,训练得到所述人群密度图预测模型。
在一可选实施例中,针对每一样本图像,所述训练模块包括:
第三图像划分单元,用于将该样本图像划分为多个预设尺寸的样本子图像;
第七输入单元,用于将所述多个样本子图像输入至所述神经网络中的第一预测通道,将该样本图像输入至所述神经网络中的第二预测通道;
第七获取单元,用于获取所述第一预测通道输出的多个样本子图像分别对应的预测人群子密度图;
第八获取单元,用于获取所述第二预测通道输出的该样本图像对应的预测人群密度图;
第九获取单元,用于获取多个样本子图像分别对应的第一比较结果,一个样本子图像对应的第一比较结果是指通过第一损失函数,将所述第一预测通道预测的该样本子图像的预测人群子密度图与实际人群子密度图进行比较,获得的比较结果;
第十获取单元,用于通过第二损失函数,将所述预测人群密度图与所述待测图像的实际人群密度图进行比较,获得第二比较结果;
第十一获取单元,用于通过第三损失函数,将第一预测图与第二预测图进行比较,获得的第三比较结果;其中,所述第一预测图是指所述人群密度图预测模型的第一预测通道预测的多个子图像分别对应的预测人群子密度图拼接得到的所述待测图像的整体人群密度图;所述第二预测图是指所述第二预测通道预测的所述待测图像对应的预测人群密度图;
更新单元,用于基于所述第二比较结果、所述第三比较结果以及所述多个样本子图像分别对应的第一比较结果,更新所述神经网络的参数,以得到所述人群密度图预测模型。
在一可选实施例中,更新单元可以包括:
第一更新子单元,用于基于所述第二比较结果更新所述第二预测通道的参数;
第二更新子单元,用于基于所述多个样本子图像分别对应的第一比较结果,更新所述第一预测通道的参数;
第三更新子单元,用于基于所述第三比较结果更新所述第一预测通道以及所述第二预测通道的参数。
本申请实施例提供的人群密度图获取装置可应用于人群密度图获取设备,如PC终端、云平台、服务器及服务器集群等。可选的,图10示出了人群密度图获取设备的硬件结构框图,参照图10,人群密度图获取设备的硬件结构可以包括:至少一个处理器101,至少一个通信接口102,至少一个存储器103和至少一个通信总线104;
在本申请实施例中,处理器101、通信接口102、存储器103、通信总线104的数量为至少一个,且处理器101、通信接口102、存储器103通过通信总线104完成相互间的通信;
处理器101可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器103可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器103存储有程序,处理器101可调用存储器3存储的程序,所述程序用于:
将待测图像划分为多个子图像;
将所述多个子图像以及所述待测图像输入至预构建的人群密度图预测模型;
其中,所述人群密度图预测模型包括第一预测通道以及第二预测通道;所述第一预测通道具有将多个子图像分别对应的预测人群子密度图趋于相应子图像对应的实际人群子密度图的能力;所述第二预测通道具有将所述待测图像对应的预测人群密度图趋于所述待测图像对应的实际人群密度图的能力;
基于第一预测图以及第二预测图,获得所述待测图像的人群密度图;所述第一预测图是指所述人群密度图预测模型的所述第一预测通道预测的多个子图像分别对应的预测人群子密度图拼接得到的所述待测图像的整体人群密度图;所述第二预测图是指所述第二预测通道预测的所述待测图像对应的预测人群密度图。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述人群密度图获取方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置或系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种人群密度图获取方法,其特征在于,包括:
将待测图像划分为多个子图像;
将所述多个子图像以及所述待测图像输入至预构建的人群密度图预测模型;
其中,所述人群密度图预测模型包括第一预测通道以及第二预测通道;所述第一预测通道具有将多个子图像分别对应的预测人群子密度图趋于相应子图像对应的实际人群子密度图的能力;所述第二预测通道具有将所述待测图像对应的预测人群密度图趋于所述待测图像对应的实际人群密度图的能力;
基于第一预测图以及第二预测图,获得所述待测图像的人群密度图;所述第一预测图是指所述人群密度图预测模型的所述第一预测通道预测的多个子图像分别对应的预测人群子密度图拼接得到的所述待测图像的整体人群密度图;所述第二预测图是指所述第二预测通道预测的所述待测图像对应的预测人群密度图。
2.根据权利要求1所述人群密度图获取方法,其特征在于,所述将所述多个子图像以及所述待测图像输入至预构建的人群密度图预测模型,包括以下至少一种:
将所述多个子图像输入至所述人群密度图预测模型中所述第一预测通道对应的第一输入口,以使得所述多个子图像输入至所述第一预测通道;将所述待测图像输入至所述人群密度图预测模型中所述第二预测通道对应的第二输入口,以使得所述待测图像输入至所述第二预测通道;
或者,
所述多个子图像的尺寸均为预设尺寸,所述待测图像的尺寸大于任一子图像的尺寸;将所述多个子图像以及所述待测图像输入至所述人群密度图预测模型中的图像分类层;利用所述图像分类层,基于输入的各图像分别对应的尺寸特征,区分所述多个子图像以及所述待测图像;并将所述多个子图像输入至所述第一预测通道,将所述待测图像输入至所述第二预测通道;
或者,
所述多个子图像被标识有子图参数,所述待测图像被标识有整图参数,将所述多个子图像以及所述待测图像输入至所述人群密度图预测模型中的图像分类层;利用所述图像分类层,基于输入的各图像分别对应的参数特征,区分所述多个子图像以及所述待测图像;并将所述多个子图像输入至所述第一预测通道,将所述待测图像输入至所述第二预测通道。
3.根据权利要求1或2所述人群密度图获取方法,其特征在于,所述基于第一预测图以及第二预测图,获得所述待测图像的人群密度图,包括以下任一种:
获取所述第一预测通道输出的多个子图像分别对应的预测人群子密度图;将多个子图像分别对应的预测人群子密度图进行关联,获得所述第一预测图;获取所述第二预测通道输出的第二预测图;基于所述第一预测图、第二预测图、所述第一预测图对应的第一权重以及所述第二预测图对应的第二权重,获得所述待测图像的人群密度图;
或者,
获取所述第一预测通道输出的多个子图像分别对应的预测人群子密度图;通过所述人群密度图预测模型中的图像拼接层,将多个子图像分别对应的预测人群子密度图进行关联,获得所述第一预测图;获取所述第二预测通道输出的第二预测图;通过所述人群密度图预测模型中的全连接层,将所述第一预测图以及所述第二预测图进行关联,得到所述待测图像的人群密度图。
4.根据权利要求3所述人群密度图获取方法,其特征在于,每一子图像被标识有表征自身所属待测图像的所有者参数,不同待测图像对应的子图像的所有者参数不同,所述将多个子图像分别对应的预测人群子密度图进行关联,获得所述第一预测图,包括:
将具有所述待测图像对应的所有者参数的多个子图像分别对应的预测人群子密度图进行关联,获得所述第一预测图。
5.根据权利要求1或2所述人群密度图获取方法,其特征在于,所述第二预测通道包括编码层以及解码层,所述编码层包括至少一层空洞卷积层,所述解码层包括至少一层反卷积层;所述编码层与所述解码层跳跃连接。
6.根据权利要求1或2所述人群密度图获取方法,其特征在于,所述多个子图像的尺寸均为预设尺寸,所述将待测图像划分为多个子图像,包括:
若所述待测图像的尺寸不是所述预设尺寸的整数倍,在所述待测图像的边缘填充人群密度为零的像素,以使得填充后的所述待测图像是所述预设尺寸的整数倍,将填充后的所述待测图像划分为多个尺寸为所述预设尺寸的子图像;
若所述待测图像的尺寸是所述预设尺寸的整数倍,将所述待测图像划分为多个尺寸为所述预设尺寸的子图像。
7.根据权利要求1所述人群密度图获取方法,其特征在于,所述人群密度图预测模型的构建方法包括:
获取多个样本图像分别对应的子图像集合,一个子图像集合包括多个子图像;
将各样本图像分别对应的子图像集合以及各样本图像作为神经网络的训练输入,训练得到所述人群密度图预测模型。
8.根据权利要求7所述人群密度图获取方法,其特征在于,利用每一样本图像训练所述神经网络的过程,包括:
将该样本图像划分为多个预设尺寸的样本子图像;
将所述多个样本子图像输入至所述神经网络中的第一预测通道,将该样本图像输入至所述神经网络中的第二预测通道;
获取所述第一预测通道输出的多个样本子图像分别对应的预测人群子密度图;
获取所述第二预测通道输出的该样本图像对应的预测人群密度图;
获取多个样本子图像分别对应的第一比较结果,一个样本子图像对应的第一比较结果是指通过第一损失函数,将所述第一预测通道预测的该样本子图像的预测人群子密度图与实际人群子密度图进行比较,获得的比较结果;
通过第二损失函数,将所述预测人群密度图与所述待测图像的实际人群密度图进行比较,获得第二比较结果;
通过第三损失函数,将第一预测图与第二预测图进行比较,获得的第三比较结果;其中,所述第一预测图是指所述人群密度图预测模型的第一预测通道预测的多个子图像分别对应的预测人群子密度图拼接得到的所述待测图像的整体人群密度图;所述第二预测图是指所述第二预测通道预测的所述待测图像对应的预测人群密度图;
基于所述第二比较结果、所述第三比较结果以及所述多个样本子图像分别对应的第一比较结果,更新所述神经网络的参数。
9.根据权利要求8所述人群密度图获取方法,其特征在于,所述基于所述第二比较结果、所述第三比较结果以及所述多个样本子图像分别对应的第一比较结果,更新所述神经网络的参数,包括:
基于所述第二比较结果更新所述第二预测通道的参数;
基于所述多个样本子图像分别对应的第一比较结果,更新所述第一预测通道的参数;
基于所述第三比较结果更新所述第一预测通道以及所述第二预测通道的参数。
10.一种人群密度图获取装置,其特征在于,包括:
图像划分模块,用于将待测图像划分为多个子图像;
输入模块,用于将所述多个子图像以及所述待测图像输入至预构建的人群密度图预测模型;
其中,所述人群密度图预测模型包括第一预测通道以及第二预测通道;所述第一预测通道具有将多个子图像分别对应的预测人群子密度图趋于相应子图像对应的实际人群子密度图的能力;所述第二预测通道具有将所述待测图像对应的预测人群密度图趋于所述待测图像对应的实际人群密度图的能力;
第一获取模块,用于基于第一预测图以及第二预测图,获得所述待测图像的人群密度图;所述第一预测图是指所述人群密度图预测模型的所述第一预测通道预测的多个子图像分别对应的预测人群子密度图拼接得到的所述待测图像的整体人群密度图;所述第二预测图是指所述第二预测通道预测的所述待测图像对应的预测人群密度图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910403159.0A CN110163140B (zh) | 2019-05-15 | 2019-05-15 | 人群密度图获取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910403159.0A CN110163140B (zh) | 2019-05-15 | 2019-05-15 | 人群密度图获取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110163140A true CN110163140A (zh) | 2019-08-23 |
CN110163140B CN110163140B (zh) | 2024-09-06 |
Family
ID=67634895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910403159.0A Active CN110163140B (zh) | 2019-05-15 | 2019-05-15 | 人群密度图获取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110163140B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027387A (zh) * | 2019-11-11 | 2020-04-17 | 北京百度网讯科技有限公司 | 人数评估及评估模型获取方法、装置及存储介质 |
CN112560829A (zh) * | 2021-02-25 | 2021-03-26 | 腾讯科技(深圳)有限公司 | 人群数量确定方法、装置、设备及存储介质 |
CN113536996A (zh) * | 2021-06-30 | 2021-10-22 | 大连海事大学 | 一种基于大量真实人群运动视频的人群运动仿真方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004178358A (ja) * | 2002-11-28 | 2004-06-24 | Meidensha Corp | イベント警備監視方法及びイベント警備監視装置 |
CN104700099A (zh) * | 2015-03-31 | 2015-06-10 | 百度在线网络技术(北京)有限公司 | 识别交通标志的方法和装置 |
CN107615272A (zh) * | 2015-05-18 | 2018-01-19 | 北京市商汤科技开发有限公司 | 用于预测人群属性的系统和方法 |
CN108615027A (zh) * | 2018-05-11 | 2018-10-02 | 常州大学 | 一种基于长短期记忆-加权神经网络对视频人群计数的方法 |
CN109359520A (zh) * | 2018-09-04 | 2019-02-19 | 汇纳科技股份有限公司 | 人群计数方法、系统、计算机可读存储介质及服务器 |
CN112767451A (zh) * | 2021-02-01 | 2021-05-07 | 福州大学 | 一种基于双流卷积神经网络的人群分布预测方法及其系统 |
-
2019
- 2019-05-15 CN CN201910403159.0A patent/CN110163140B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004178358A (ja) * | 2002-11-28 | 2004-06-24 | Meidensha Corp | イベント警備監視方法及びイベント警備監視装置 |
CN104700099A (zh) * | 2015-03-31 | 2015-06-10 | 百度在线网络技术(北京)有限公司 | 识别交通标志的方法和装置 |
CN107615272A (zh) * | 2015-05-18 | 2018-01-19 | 北京市商汤科技开发有限公司 | 用于预测人群属性的系统和方法 |
CN108615027A (zh) * | 2018-05-11 | 2018-10-02 | 常州大学 | 一种基于长短期记忆-加权神经网络对视频人群计数的方法 |
CN109359520A (zh) * | 2018-09-04 | 2019-02-19 | 汇纳科技股份有限公司 | 人群计数方法、系统、计算机可读存储介质及服务器 |
CN112767451A (zh) * | 2021-02-01 | 2021-05-07 | 福州大学 | 一种基于双流卷积神经网络的人群分布预测方法及其系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027387A (zh) * | 2019-11-11 | 2020-04-17 | 北京百度网讯科技有限公司 | 人数评估及评估模型获取方法、装置及存储介质 |
CN111027387B (zh) * | 2019-11-11 | 2023-09-26 | 北京百度网讯科技有限公司 | 人数评估及评估模型获取方法、装置及存储介质 |
CN112560829A (zh) * | 2021-02-25 | 2021-03-26 | 腾讯科技(深圳)有限公司 | 人群数量确定方法、装置、设备及存储介质 |
CN113536996A (zh) * | 2021-06-30 | 2021-10-22 | 大连海事大学 | 一种基于大量真实人群运动视频的人群运动仿真方法 |
CN113536996B (zh) * | 2021-06-30 | 2022-04-15 | 大连海事大学 | 一种基于大量真实人群运动视频的人群运动仿真方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110163140B (zh) | 2024-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109858461B (zh) | 一种密集人群计数的方法、装置、设备以及存储介质 | |
CN108830145B (zh) | 一种基于深度神经网络的人数统计方法及存储介质 | |
CN110929569B (zh) | 人脸识别方法、装置、设备及存储介质 | |
JP5846517B2 (ja) | 画像構図変更の品質評価 | |
CN108304835A (zh) | 文字检测方法和装置 | |
CN111310518B (zh) | 图片特征提取方法、目标重识别方法、装置及电子设备 | |
CN110163140A (zh) | 人群密度图获取方法及装置 | |
CN110246148B (zh) | 多模态的深度信息融合和注意力学习的显著性检测方法 | |
CN109740424A (zh) | 交通违规识别方法及相关产品 | |
CN109657600B (zh) | 一种视频区域移除篡改检测方法和装置 | |
CN112580558A (zh) | 红外图像目标检测模型构建方法、检测方法、装置及系统 | |
JP2017033197A (ja) | 変化領域検出装置、方法、及びプログラム | |
CN110222726A (zh) | 图像处理方法、装置及电子设备 | |
CN110942456B (zh) | 篡改图像检测方法、装置、设备及存储介质 | |
CN106204551A (zh) | 一种图像显著性检测方法及装置 | |
CN112597995B (zh) | 车牌检测模型训练方法、装置、设备及介质 | |
CN111784658B (zh) | 一种用于人脸图像的质量分析方法和系统 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
CN108229240A (zh) | 一种确定图像质量的方法及装置 | |
CN115953330B (zh) | 虚拟场景图像的纹理优化方法、装置、设备和存储介质 | |
CN110738229B (zh) | 一种细粒度图像分类方法、装置及电子设备 | |
CN116543333A (zh) | 电力系统的目标识别方法、训练方法、装置、设备和介质 | |
CN106203266B (zh) | 图像极值点的提取方法和装置 | |
CN113792671B (zh) | 人脸合成图像的检测方法、装置、电子设备及介质 | |
CN111144612B (zh) | 一种加油站位置点预测方法、装置、存储介质及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |