CN112001274A

CN112001274A - 人群密度确定方法、装置、存储介质和处理器

Info

Publication number: CN112001274A
Application number: CN202010785484.0A
Authority: CN
Inventors: 王昌安
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2020-11-27
Anticipated expiration: 2040-08-06
Also published as: CN112001274B

Abstract

本发明公开了一种人群密度确定方法、装置、存储介质和处理器。其中，该方法包括：基于训练人群密度估计模型所使用的目标域数据对源域数据进行迁移获得迁移数据，根据源域数据和迁移数据训练得到图像语义分割模型；获取待检测图片；将待检测图片分别输入图像语义分割模型和人群密度估计模型，获得待检测图片的前景预测信息和密度热力图；根据前景预测信息和密度热力图，确定待检测图片的人群密度预测结果。本发明抑制了人群密度估计网络在背景区域的错误响应，解决了人群密度估计网络计数误差大的技术问题。

Description

人群密度确定方法、装置、存储介质和处理器

技术领域

本发明涉及信息处理技术领域，具体而言，涉及一种人群密度确定方法、装置、存储介质和处理器。

背景技术

人群密度估计能够自动推理出图像中的总人数，在视频监控、公共安全等领域发挥着重要的作用。目前的相关的技术方法分为两类，第一类是在网络内部使用独立的子网络进行前景和背景区域的预测，该语义分割子网络和原有的人群密度估计网络一起进行联合优化；第二类是直接使用在其他数据集上训练得到的语义分割模型进行前景区域预测。这两类方法都是直接在人群密度数据即目标域数据上进行图像语义分割网络的训练，将人头点周围固定大小的区域作为前景目标，其余区域作为背景区域进行训练，分别存在如下缺陷。

第一类方法的缺点：由于需要同时优化语义分割子网络和人群密度估计网络，虽然这两个任务都是像素级预测任务，但是二者在预测时所需的上下文信息和局部细节信息的比例是完全不同的，联合优化会使得两个任务都只能达到局部最优，从而限制了整体精度的提升。

第二类方法的缺点：由于源域数据和目标域数据分布不一致，直接将源域训练得到的图像语义分割网络用在目标域数据前景预测任务上，会导致较差的预测精度，从而将部分前景目标错误地预测为背景，考虑到人群分布密集，这类错误预测会使得最终估计出的人数少于实际人数，增大了计数误差。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种人群密度确定方法、装置、存储介质和处理器，以至少解决人群密度估计网络计数误差大的技术问题。

根据本发明实施例的一个方面，提供了一种人群密度确定方法，包括：

获取待检测图片，所述待检测图片中包含至少一个人头图像；

将所述待检测图片输入图像语义分割模型，以使所述图像语义分割模型根据所述待检测图片中的人头图像确定前景预测信息，所述前景预测信息用于指示所述待检测图片中各像素点属于前景图像的前景置信度；

将所述待检测图片输入人群密度估计模型，通过所述人群密度估计模型确定与所述待检测图片对应的密度热力图；

根据所述前景预测信息和所述密度热力图，确定所述待检测图片的人群密度预测结果；

其中，所述图像语义分割模型是根据源域数据和迁移数据联合训练得到的，所述源域数据选自自然场景下用于人头检测任务的公开的数据集，所述迁移数据是基于训练所述人群密度估计模型所使用的目标域数据对所述源域数据进行迁移获得的。

根据本发明实施例的另一方面，还提供了一种人群密度确定装置，包括：

获取单元，用于获取待检测图片，所述待检测图片中包含至少一个人头图像；

第一预测单元，用于将所述待检测图片输入图像语义分割模型，以使所述图像语义分割模型根据所述待检测图片中的人头图像确定前景预测信息，所述前景预测信息用于指示所述待检测图片中各像素点属于前景图像的前景置信度；

确定单元，用于将所述待检测图片输入人群密度估计模型，通过所述人群密度估计模型确定与所述待检测图片对应的密度热力图；

第二预测单元，用于根据所述前景预测信息和所述密度热力图，确定所述待检测图片的人群密度预测结果；

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令或者至少一段程序，所述至少一条指令或者至少一段程序由处理器加载并执行以实现上述的人群密度确定方法。

根据本发明实施例的另一方面，还提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述的人群密度确定方法。

在本发明实施例中，采用对源域数据进行迁移的方式获得迁移数据，根据源域数据和迁移数据联合训练得到图像语义分割模型，通过图像语义分割模型对前景和背景区域进行预测，有效地利用了语义分割领域充足的公开数据，可以一定程度上改善由于人群密度估计数据稀缺带来的背景鲁棒性问题；同时利用域适应来提升图像语义分割网络在目标域图像上的预测精度，有效地抑制了人群密度估计网络在背景区域的错误响应，从而实现了提升密度估计的准确性的技术效果，进而解决了人群密度估计网络计数误差大的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的人群密度确定方法的硬件环境的示意图；

图2是根据本发明实施例的数据共享系统；

图3是根据本发明实施例的一种可选的人群密度确定方法的流程图；

图4是根据本发明实施例的一种可选的确定图像语义分割模型的方法的流程图；

图5是根据本发明实施例的一种可选的获取迁移图片的方法的流程图；

图6是根据本发明实施例的源域数据与目标域数据的比对示意图；

图7是根据本发明实施例的域适应示意图；

图8是根据本发明实施例的一种可选的图像语义分割模型训练方法的流程图；

图9是根据本发明实施例的一种可选的使用图像语义分割模型预测前景和背景的示意图；

图10是根据本发明实施例的一种可选的人群密度确定装置的示意图；

图11是根据本发明实施例的一种终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种人群密度确定方法的实施例。

可选地，在本实施例中，上述人群密度确定方法可以应用于如图1所示的由采集设备10、终端20和服务器30构成的硬件环境中。如图1所示，服务器30通过网络与终端20及采集设备10进行连接，上述网络包括但不限于：广域网、城域网或局域网，终端20并不限定于PC、手机、平板电脑等，采集设备10可以是图像或视频采集设备，包括但不限于摄像头, 摄像机、相机、扫描仪、其他带有拍照功能的设备(手机、平板电脑等)。采集设备10用于采集视频流或图像；终端20用于显示任务配置界面，该任务配置界面用于提供触发人群聚集检测请求的配置控件；服务器30用于响应用户通过终端20发起的人群聚集监测请求，从采集设备10获取待检测的视频流或图像，进而针对该待检测的视频流或图像执行本申请实施例提供的人群密度确定方法，对视频帧或图像上的人群密度进行估计，并向终端20发送视频帧或图像对应的人群密度估计结果。本发明实施例的人群密度确定方法可以由服务器30来执行，也可以由终端20来执行，还可以是由服务器30和终端20共同执行。其中，终端20执行本发明实施例的人群密度处理方法也可以是由安装在其上的客户端来执行。

本发明实施例的人群密度确定方法的场景中涉及的服务器可以是由多个节点(接入网络中的任意形式的计算设备，如服务器、客户端)通过网络通信的形式连接形成的数据共享系统。

参见图2所示的数据共享系统，数据共享系统400是指用于进行节点与节点之间数据共享的系统，该数据共享系统中可以包括多个节点101，多个节点101可以是指数据共享系统中各个客户端。每个节点101在进行正常工作可以接收到输入信息，并基于接收到的输入信息维护该数据共享系统内的共享数据。为了保证数据共享系统内的信息互通，数据共享系统中的每个节点之间可以存在信息连接，节点之间可以通过上述信息连接进行信息传输。例如，当数据共享系统中的任意节点接收到输入信息时，数据共享系统中的其他节点便根据共识算法获取该输入信息，将该输入信息作为共享数据中的数据进行存储，使得数据共享系统中全部节点上存储的数据均一致。

对于数据共享系统中的每个节点，均具有与其对应的节点标识，而且数据共享系统中的每个节点均可以存储有数据共享系统中其他节点的节点标识，以便后续根据其他节点的节点标识，将生成的区块广播至数据共享系统中的其他节点。每个节点中可维护一个如下表所示的节点标识列表，将节点名称和节点标识对应存储至该节点标识列表中。其中，节点标识可为IP(Internet Protocol，网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息。

当然，本发明实施例提供的方法并不限用于图1所示的应用场景中，还可以用于其它可能的应用场景，本申请实施例并不进行限制。对于图1 所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。

图3是根据本发明实施例的一种数据的处理方法的流程图，如图3所示，该方法可以包括以下步骤。

步骤S302，获取待检测图片，所述待检测图片中包含至少一个人头图像。

本发明实施例中的待检测图片可以是监控场景下通过监控设备采集获得的图片，例如为监控视频流中的视频帧图片或者通过摄像头拍摄的图片。当然，非监控场景下通过图像采集设备获取的图片仍然可以使用本发明方法以预测图片中人群密度。

本发明实施例的目的在于以图片作为输入，输出图片中的人群密度数据，人群密度数据可表现为图片中的总人数以及图片中各区域的人群密集程度，其中，人数以人头中心点在图像中来统计。

步骤S304，将所述待检测图片输入图像语义分割模型，以使所述图像语义分割模型根据所述待检测图片中的人头图像确定前景预测信息，所述前景预测信息用于指示所述待检测图片中各像素点属于前景图像的前景置信度。

人群密度估计算法大多结合热力图回归，利用深度学习技术进行端到端的训练与推理，来提高计数精度。但是，由于很多人群密度估计算法应用于监控场景，监控场景下人群分布的模式相比于背景变化更容易学习，因此容易将背景区域计入前景区域，产生计数误差。相关技术中，会先将图片进行前景和背景区别，然后对前景中人数进行统计。为使图像语义分割模型与人群密度估计模型适配，现有技术使用用于人群密度估计模型训练的人群密度数据(即目标域数据)来训练图像语义分割模型，然而，由于大量的真实监控数据是非公开的，用于训练人群密度估计模型的人群密度数据处于稀缺状态，导致图像语义分割模型在前景和背景预测上的表现不佳，进而限制了人群密度预测精度的提升。

本发明实施例使用独立的图像语义分割模型对图片的前景和背景进行预测。基于训练所述人群密度估计模型所使用的目标域数据对所述源域数据进行迁移，获得迁移数据，根据源域数据和迁移数据联合训练得到图像语义分割模型，能够提升图像语义分割模型在目标域上的预测精度。

图9是根据本发明实施例的一种可选的使用图像语义分割模型预测前景和背景的示意图。请参见图9，将待检测图片输入图像语义分割模型，输出得到右侧的前景和背景分布图，根据输出图片可以确定每个像素点属于前景的置信度。

图4是根据本发明实施例的一种可选的确定图像语义分割模型的方法的流程图。请参见图4，确定图像语义分割模型的方法可以包括以下步骤。

步骤S402，获取源域数据和目标域数据，源域数据包括至少一张源域图片，源域图片标注有人头检测框，目标域数据包括在监控场景下采集获得的至少一张目标域图片。

具体的，可以采用公开的人头检测数据集作为源域数据，例如 CrowdHuman数据集、CityPersons数据集等。CrowdHuman数据集的数据规模非常大，同时包含了丰富的注释和很高的多样性。该数据集拥有15000张用于训练的图像，4370张用于验证的图像和5000张用于测试的图像，总共有470K个来自训练和验证子集的人类实例，数据集里的每张图片包含多个人，同时存在着各种各样的遮挡。每个人类实例都用头部边界框、人类可见区域边界框和人体全身边界框注释。

图6是根据本发明实施例的源域数据与目标域数据的比对示意图，图 6中左侧图片选自CrowdHuman数据集，右侧图片为室外场景下的监控采集图片，显然的，左侧图片相较于右侧图片具有更高的亮度，以及更鲜明的颜色，左侧图片的前景和背景相较于右侧图片更容易辨识。

由于监控数据一般不对外公开，不容易获得大量监控数据，但获取不同场景下的少量图片是容易做到的，这里，目标域数据并非用于直接训练图像分割模型，其重要性在于可以提供不同监控场景下的场景信息，包括亮度、色调等，以便于学习这些场景信息，将源域数据转换为具有目标域场景特点的迁移数据，从而使基于迁移数据训练获得的图像语义分割模型在目标域数据上具有更好的表现。

步骤S404，根据人头检测框标注各源域图片的语义分割信息。

本发明实施例中，可以将各源域图片中的人头检测框扩大预设倍数，将源域图片中位于检测框内的图像标注为前景、位于检测框外的图像标注为背景。源域图片的语义分割信息包括该源域图片的前景信息和背景信息。

步骤S406，将源域图片和目标域图片输入到迁移单元中，以使迁移单元根据目标域图片的场景特征对源域图片进行迁移，得到迁移图片，迁移图片中的图像内容与源域图片中的图像内容一致。

图5是根据本发明实施例的一种可选的获取迁移图片的方法的流程图。请参见图5，获取迁移图片的方法包括以下步骤。

步骤S502，构建包含生成网络和逆变换网络的迁移单元。

在一个可行的实施例中，所述迁移单元可以通过如下方法获得：

构建生成网络和逆变换网络，将生成网络的输出作为逆变换网络的输入；获取训练样本，所述训练样本包括源域图片和目标域图片；根据源域图片和目标域图片训练生成网络；将源域图片输入训练后的生成网络中，输出与源域图片对应的目标域预测图片；将目标域预测图片输入逆变换网络中，输出得到与所述目标域预测图片对应的逆变换图片；根据逆变换图片与源域图片之间的损失，调整逆变换网络的参数，直至满足预设的第三收敛条件时停止对逆变换网络的参数调整。其中，第三收敛条件可以是参数更新次数达到预设次数或者逆变换图片与源域图片之间的损失达到预设阈值。

具体的，生成网络的训练方法包括：将源域图片输入生成网络，得到预测图片；将目标域图片作为真实图片；将预测图片及真实图片作为判别网络的输入，输出得到该输入属于真实数据的概率，然后根据得到的概率计算损失函数；根据判别网络和生成网络的损失函数，利用反向传播算法，更新判别网络的参数，然后通过再次输入源域图片进行训练来更新生成网络的参数，直至更新次数达到预设次数或者损失值达到预设阈值时，停止对生成网络的参数更新，即得到训练后的生成网络。

步骤S504，将源域图片输入迁移单元的生成网络中，输出携带目标域场景特征的目标域预测图片，目标域场景特征包括与目标域图片匹配的亮度和色调。

生成网络从本质上是一种极大似然估计，用于产生指定分布数据的模型，生成模型的作用是捕捉样本数据的分布、将原输入信息的分布情况经过极大似然估计中参数的转化来将训练偏向转换为指定分布的样本。本发明实施例，以目标与图片作为生成网络的输入，通过生成模型捕捉目标域图片中的场景特征，训练模型输出具有场景特征的图片。如此，将源域图片作为训练好的生成网络的输入，可以输出获得具有场景特征的图片，此过程即是将源域图片变换到目标域的过程，具体实施时，可使用 CycleGAN或者CycleGAN的各种改进算法将源域图片变换到目标域。

作为一个优选的实施方式，可以针对不同监控场景训练不同的生成网络，利用不同的生成网络获得携带不同场景特征的图片，以丰富图片的场景信息。

步骤S506，将目标域预测图片输入迁移单元的逆变换网络中，通过逆变换网络将目标域预测图片逆变换到源域得到与源域图片的图像内容一致的迁移图片。

为了保证目标域预测图片的图像内容与源域图片的图像内容之间的一致性，本发明实施例引入逆变换网络，将目标域预测图片输入逆变换网络，通过逆变换网络将目标域预测图片逆变换到源域，输出获得与源域图片的图像内容一致的迁移图片，迁移图片的图像内容与源域图片的图像内容接近或相同，如此，可以将源域图片的语义分割信息作为迁移图片的语义分割信息，不需要对由源域图像变换得到的迁移图片重新标注语义分割信息。

具体的，逆变换网络可以为空间变换网络(Spatial Transform Networks，STN)，空间变换网络用于将输入的图片进行空间变换和对齐 (包括平移、缩放、旋转以及其它几何变换等)，使输出的图片符合期望。本发明实施例主要是通过空间变换网络以源域图片为基准对目标域预测图片的内容布局进行纠正，使纠正得到的迁移图片的图像内容与源域图片的图像内容尽可能接近。空间变换网络的工作原理为现有技术，在此不赘述。

图7是根据本发明实施例的域适应示意图。请参见图7，X表示源域图片，选自CrowdHuman数据集，Y表示目标域图片，即用于人群密度估计的数据，生成网络G以源域图片X作为输入，输出位于目标域的图片 Y，为了能保证图片Y的内容与图片X的内容完全一致(比如人头的位置)，引入了一个逆变换网络F，通过逆变换网络F再将图片Y逆变换到源域，得到图片X’并使得图片X’与图片X尽可能接近。图7以亮度和色调为场景特征，通过域适应的方法，将源域图片迁移到目标域，变换后的图片与目标域图片在亮度和色调上的分布更加接近，同时变换后图片内容完全没有发生变化，无需重新标注，基于变换后的图片进行语义分割模型的训练，能够提升模型在目标域数据上的表现。

步骤S408，根据源域图片和对应的语义分割信息对初始深度学习模型进行训练，得到预训练深度学习模型。

步骤S410，根据源域图片的语义分割信息和与该源域图片对应的迁移图片对预训练深度学习模型进行训练，获得图像语义分割模型。

图8是根据本发明实施例的一种可选的图像语义分割模型训练方法的流程图。请参见图8，训练图像语义分割模型时，首先可以基于源域图片训练一个预训练深度学习模型(参见步骤S408)，然后基于迁移图片对该预训练深度学习模型进行训练，得到图像语义分割模型(参见步骤 S410)。

其中，预训练深度学习模型的训练方法可以包括以下步骤：

步骤S802，将源域图片输入到初始深度学习模型中，得到源域图片的语义分割预测结果。

步骤S804，根据源域图片的语义分割预测结果与对应的语义分割信息之间的损失，调整初始深度学习模型的参数，直至满足预设的第一收敛条件时停止对初始深度学习模型的参数调整，得到预训练深度学习模型。

训练时，将源域图片和该源域图片的语义分割信息输入初始深度学习模型；对源域图片进行前向计算，得到源域图片的语义分割预测结果；将语义分割预测结果与语义分割信息进行对比，计算得到语义分割损失值；将语义分割损失值反向传播到初始深度学习模型中，通过随机梯度下降法调整初始深度学习模型的参数；将源域图片和源域图片的语义分割信息输入更新参数后的初始深度学习模型，重复上述调整参数步骤直至达到预期(即满足第一收敛条件)时停止训练，得到预训练深度学习模型。

在本发明实施例中，在初始深度学习模型的效果达到预期后，停止训练。其中，达到预期是指初始深度学习模型的预测准确率较高，比如，达到90％以上，并且不再有显著增长，也即，初始深度学习模型已经稳定，比如，对初始深度学习模型训练100轮，预测准确率仅仅从90％上升到了 90.01％，则训练的模型的效果已经达到预期，可以停止对初始深度学习模型的训练。又或者，初始深度学习模型输出的语义分割预测结果与源域图片的语义分割预测结果之间的损失值达到预设的损失阈值，也即，初始深度学习模型的预测准确率已经达到较高水平，可以停止对初始深度学习模型参数的调整，并将该初始深度学习模型作为预训练深度学习模型。

图像语义分割模型的训练方法可以包括以下步骤：

步骤S806，将源域图片对应的迁移图片输入到预训练深度学习模型中，得到迁移图片的语义分割预测结果。

步骤S808，根据迁移图片的语义分割预测结果与源域图片对应的语义分割信息之间的损失，调整预训练深度学习模型的参数，直至满足预设的第二收敛条件时停止对预训练深度学习模型的参数调整，得到图像语义分割模型。

训练时，将源域图片对应的迁移图片和该源域图片的语义分割信息输入预训练深度学习模型；对迁移图片进行前向计算，得到迁移图片的语义分割预测结果；将语义分割预测结果与语义分割信息进行对比，计算得到语义分割损失值；将语义分割损失值反向传播到预训练深度学习模型中，通过随机梯度下降法调整预训练深度学习模型的参数；将迁移图片和对应的语义分割信息输入更新参数后的预训练深度学习模型，重复上述调整参数步骤，直至达到第二收敛条件时停止训练，得到图像语义分割模型。

同样的，达到第二收敛条件即满足对模型的效果预期，指示预训练深度学习模型的预测准确率较高，第二收敛条件可以通过预设的损失阈值和 /或训练次数来表达。

步骤S306，将所述待检测图片输入人群密度估计模型，通过所述人群密度估计模型确定与所述待检测图片对应的密度热力图。

密度热力图是用不同颜色的区块实时描述人群分布的图示。热力图能表示图片中各区域的人群的疏密程度，一般来说，颜色越深表示人群越密集，颜色越浅表示人群越稀疏。

人群密度估计模型可以根据预先标定的样本图片以及各样本图片对应的热力图训练获得，具体地，该样本图片可以为任意一张包含人群的监控图片，该预先标定的样本图片可以为对该样本图片进行标记后的图片，例如：根据主观判断人数疏密程度，标定人群密集区域和人群稀疏区域，记录图片中的总人数及各区域的人数。

具体的，将预先标定的样本图片输入热力图转换模型，输出预测的热力图，根据预测的热力图与样本图片对应的热力图之间的损失，更新热力图转换模型的参数，使得根据该预测的热力图统计的人数无限逼近该热力图中的人数，从而获得人群密度估计模型。

步骤S308，根据前景预测信息和密度热力图，确定待检测图片的人群密度预测结果。

具体包括：提取前景预测信息中前景置信度小于预设阈值的像素点作为目标像素点；根据目标像素点对密度热力图进行背景抑制；根据抑制背景后的密度热力图进行人群密度预测。其中，对密度热力图进行背景抑制的方法为：遍历密度热力图中的每个像素点，将与目标像素点匹配的像素点所对应的热力值置为预设值，具体实施时，该预设值可以设为0。

进一步的，根据抑制背景后的密度热力图进行人群密度预测可以包括：对抑制背景后的密度热力图进行积分，得到与待检测图片对应的人群密度预测结果。密度热力图反映了单位像素在实际场景中对应位置的平均人数，可以通过对抑制背景后的密度热力图进行积分确定总人数，或者，使用高斯核对抑制背景后的密度热力图进行卷积操作来获得密度图，对密度图进行积分确定总人数。

通过上述步骤S302至步骤S308，采用对源域数据进行迁移的方式获得迁移数据，根据源域数据和迁移数据联合训练得到图像语义分割模型，通过图像语义分割模型对前景和背景区域进行预测，有效地利用了语义分割领域充足的公开数据，可以一定程度上改善由于人群密度估计数据稀缺带来的背景鲁棒性问题；同时利用域适应来提升图像语义分割网络在目标域图像上的预测精度，有效地抑制了人群密度估计网络在背景区域的错误响应，解决了人群密度估计网络计数误差大的技术问题，进而达到提升密度估计的准确性的技术效果。

实施例2

下面结合优选的实施例对本发明的技术方案进行说明。

人群密度估计能够自动推理出图像中的总人数，在视频监控、公共安全等领域发挥着重要的作用。相比于传统的基于检测和直接回归的方法，现阶段的人群密度估计算法大多结合热力图回归，利用深度学习技术进行端到端地训练与推理，可以较好地解决人群密度分布范围大、人头尺度变化范围大的问题，极大地提高了计数精度。但是由于很多密度估计算法应用于监控场景，在这种场景下，人群分布的模式相比多种多样的背景变化更容易学习，因此在背景上更容易出现计数误差(即将背景区域误计数为人群)，同时由于当前评测人群密度估计精度的主流指标是全图人数的绝对统计误差，忽略了不同区域的统计误差，因此背景区域的预测错误会对最终指标产生很大的影响。

本发明实施例基于在其他数据集上训练得到的图像语义分割模型进行前景区域预测，通过使用域适应的方法缓解源域和目标域数据分布不一致的问题，从而在目标域数据上达到更高的前景预测精度，能够更准确地抑制背景区域的误计数，最终提升计数精度。

本发明实施例以单张图片作为输入，输出图片中的总人数(人数以人头中心点在图像中来统计)，以及图片各个区域的人群密集程度，热力图中颜色越深代表人群密集程度越高。

下面介绍本发明实施例涉及的网络结构。

1、主任务网络—人群密度估计网络

基于深度学习技术的人群密度估计算法一般都是以单张图像为输入，通过深度卷积网络提取图像特征，由于人群密度估计任务既需要具有高语义信息的上下文特征，也需要局部的细节信息，因此为了获得同时具有高级语义信息和细节信息的高分辨率特征图，主流网络通常使用先下采样然后上采样的U形网络结构，并引入跳跃链接来为上采样引入细节信息，最后使用预测输出人群密度分布热力图。

人群密度分布热力图反映了单位像素在实际场景中对应位置的平均人数，其生成方式如下：对某个人头中心点x_i，可以将其表示为与原图同样大小的一张图δ(x-x_i)，即只有位置x_i为1，其余位置均为0，那么N个人头可表示为

对该图进行积分就可以得到总人数，然后使用一个高斯核G_σ对该图进行卷积操作即可得到密度图D＝G_σ*H(x)。由于高斯核是归一化的，因此对卷积后得到的密度图D进行积分同样也可以得到总人数。人群密度估计网络的任务就是通过网络来预测密度图，然后对预测的密度图进行积分从而得到预测出的总人数。

尽管使用了深度卷积网络，但由于实际应用中的背景环境复杂多样，因此绝大多数模型在背景上的计数误差会偏高，从而使得最终预测出的总人数多于实际人数，为了缓解该问题，本发明实施例使用独立的图像语义分割网络来辅助密度估计网络降低在背景区域的预测误差，同时使用域适应方法来提升图像语义分割网络在目标域上的预测精度。

2、辅助任务网络—图像语义分割网络

本发明实施例使用图像语义分割网络作为辅助任务网络，图像语义分割网络可以为FCN(Fully Convolutional Networks)，还可以是其他更新的图像语义分割网络，如DeepLab等。为了便于叙述，此处使用经典的 FCN图像语义分割网络进行算法的介绍，为了训练得到一个能对前景背景进行准确预测的图像语义分割网络，本发明实施例利用了公开的人头检测数据集CrowdHuman，CrowdHuman数据集是一个自然场景下的用于人头检测任务的公开的数据集，本领域技术人员能够获取，但是，该数据集只提供了人头检测框，因而无法直接用于人群密度估计模型的训练。

本发明实施例将CrowdHuman数据集中的人头标注框扩大两倍作为前景，图像其他区域均当做背景，然后进行网络训练。训练完毕后，将模型在目标域即人群密度图像上进行预测，得到每个像素属于前景目标的置信度。

图像语义分割网络的训练可以使用大规模的公开数据集，不会受限于人群密度数据的不足，因此学习到的模型具有很好的泛化性，相比于人群密度估计网络能够应对各种复杂的背景。

3、基于域适应提升辅助任务网络在目标数据集上的泛化能力

目标域数据集(用于人群密度估计的数据)没有提供人头大小的信息，辅助任务网络(即图像语义分割网络)无法使用目标域数据进行训练，此外，即使人工标记人头信息，由于目标域数据一般通过监控设备采集，具有私密性，公开的目标域数据的数据量不充足，难以获得足够的样本进行网络模型训练，故只能使用源域数据训练图像语义分割网络。

然而，目标域数据往往选自监控人群密集程度的监控场景，监控场景下的目标域数据和公开的源域数据之间由于各自用途不同，图像数据的差异也很明显，比如CrowdHuman中的数据更加多样化，场景清晰明亮，而监控场景下的数据往往较为模糊昏暗，尤其是室内监控场景。因此，根据源域数据训练得到的图像语义分割网络往往在目标域数据上的表现很差。

为了提升图像语义分割网络在目标域的表现，本发明实施例使用 CycleGAN将源域图像变换到目标域，当然，用于域适应的CycleGAN可以替换为CycleGAN的各种改进算法，从而获得更好的效果。如图7所示， X表示源域图片，Y表示目标域图片，生成网络G以源域图片X作为输入，输出位于目标域的图片Y，为了能保证图片Y的内容与图片X完全一致(比如人头的位置)，引入了一个逆变换网络F，通过再将目标域图片Y逆变换到源域得到图片X’并使得X与X’尽可能接近，利用这种循环一致性约束，保证在将源域图片变换到目标域后不需要重新调整图片中的标注框。

以亮度和色调迁移为例，由图7可见，通过域适应的方法，可以将源域图像迁移到目标域，变换后图像如图7中所示，变换后的图像与目标域图像分布更加接近，同时变换后图像内容完全没有发生变化，无需重新标注，在变换后的图像上进行语义分割模型的训练能够提升模型在目标域数据上的表现。进一步的，获取变换到目标域的图像后，可以将变换后图像与源域图像通过其他自适应的方式进行混合，比如调整二者的比例，从而能够进一步提升在目标域的效果。

本发明实施例中，首先将所有源域数据迁移到目标域，然后将变换后的数据与源域数据融合在一起，对语义分割模型进行训练，能显著提升模型在目标域的表现。

4、利用辅助任务网络进行更准确地人群密度估计

利用训练得到的语义分割模型，在对待进行人群密度估计的图像进行前景预测，同时将该图像送入密度估计网络中得到预测的密度热力图，然后遍历热力图中的每个像素，将对应的前景置信度小于某一阈值(例如可以为0.1)的像素点对应的热力值置为0，最后对抑制背景后的热力图积分得出总人数。

本发明实施例通过独立的图像语义分割网络对前景和背景建模，有效地利用了语义分割领域充足的公开数据集数据，可以一定程度上改善由于人群密度估计数据稀缺带来的背景鲁棒性问题，同时利用域适应来提升图像语义分割网络在目标域图像上的预测精度，本方案可以有效地抑制人群密度估计网络在背景区域的错误响应，从而提升密度估计的准确性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例3

根据本发明实施例，还提供了一种用于实施上述人群密度确定方法的人群密度确定装置。图10是根据本发明实施例的一种可选的人群密度确定装置的示意图，如图10所示，该装置可以包括：

获取单元1020，用于获取待检测图片，所述待检测图片中包含至少一个人头图像；

第一预测单元1040，用于将所述待检测图片输入图像语义分割模型，以使所述图像语义分割模型根据所述待检测图片中的人头图像确定前景预测信息，所述前景预测信息用于指示所述待检测图片中各像素点属于前景图像的前景置信度；

确定单元1060，用于将所述待检测图片输入人群密度估计模型，通过所述人群密度估计模型确定与所述待检测图片对应的密度热力图；

第二预测单元1080，用于根据所述前景预测信息和所述密度热力图，确定所述待检测图片的人群密度预测结果；

需要说明的是，该实施例中的获取单元1020可以用于执行本申请实施例1中的步骤S302，该实施例中的第一预测单元1040可以用于执行本申请实施例1中的步骤S304，该实施例中的确定单元1060可以用于执行本申请实施例1中的步骤S306，该实施例中的第二预测单元1080可以用于执行本申请实施例1中的步骤S308。

此处需要说明的是，上述单元与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

通过上述装置，可以解决了人群密度估计网络计数误差大的技术问题，进而达到提升密度估计的准确性的技术效果。

可选地，图像语义分割模型通过如下方法训练得到：获取源域数据和目标域数据，所述源域数据包括至少一张源域图片，所述源域图片标注有人头检测框，所述目标域数据包括在监控场景下采集获得的至少一张目标域图片；根据所述人头检测框标注各源域图片的语义分割信息；将所述源域图片和所述目标域图片输入到迁移单元中，以使所述迁移单元根据所述目标域图片的场景特征对所述源域图片进行迁移，得到迁移图片，所述迁移图片中的图像内容与所述源域图片中的图像内容一致；根据所述源域图片和对应的语义分割信息对初始深度学习模型进行训练，得到预训练深度学习模型；以及根据所述源域图片的语义分割信息和与该源域图片对应的迁移图片对所述预训练深度学习模型进行训练，获得所述图像语义分割模型。

此处需要说明的是，本发明实施例的人群密度确定装置与实施例1中人群密度确定方法基于相同的发明构思，对于图像语义分割模型的详细训练过程，请参照实施例1的记载，在此不赘述。

实施例4

根据本发明实施例，还提供了一种用于实施上述人群密度确定方法的电子装置。

图11是根据本发明实施例的一种电子装置的结构框图，如图11所示，该的电子装置可以包括：一个或多个(图中仅示出一个)处理器111、存储器113。可选地，如图11所示，该电子装置还可以包括传输装置115、输入输出设备117。

其中，存储器113可用于存储软件程序以及模块，如本发明实施例中的人群密度确定方法和装置对应的程序指令/模块，处理器111通过运行存储在存储器113内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的人群密度确定方法。存储器113可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器113可进一步包括相对于处理器111远程设置的存储器，这些远程存储器可以通过网络连接至电子装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置115用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置115包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置115为射频 (Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器113用于存储应用程序。

处理器111可以通过传输装置115调用存储器113存储的应用程序，以执行下述步骤：

根据所述前景预测信息和所述密度热力图，确定所述待检测图片的人群密度预测结果。

处理器111还用于执行下述步骤：

获取源域数据和目标域数据，所述源域数据包括至少一张源域图片，所述源域图片标注有人头检测框，所述目标域数据包括在监控场景下采集获得的至少一张目标域图片；

根据所述人头检测框标注各源域图片的语义分割信息；

将所述源域图片和所述目标域图片输入到迁移单元中，以使所述迁移单元根据所述目标域图片的场景特征对所述源域图片进行迁移，得到迁移图片，所述迁移图片中的图像内容与所述源域图片中的图像内容一致；

根据所述源域图片和对应的语义分割信息对初始深度学习模型进行训练，得到预训练深度学习模型；以及

根据所述源域图片的语义分割信息和与该源域图片对应的迁移图片对所述预训练深度学习模型进行训练，获得所述图像语义分割模型。

采用本发明实施例，提供了一种人群密度确定的方案。通过图像语义分割模型对前景和背景区域进行预测，有效地利用了语义分割领域充足的公开数据，可以一定程度上改善由于人群密度估计数据稀缺带来的背景鲁棒性问题；同时利用域适应来提升图像语义分割网络在目标域图像上的预测精度，有效地抑制了人群密度估计网络在背景区域的错误响应，从而实现了提升密度估计的准确性的技术效果，进而解决了人群密度估计网络计数误差大的技术问题。

可选地，本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图11所示的结构仅为示意，电子装置可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等电子装置。图11其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图11中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图11所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令电子装置相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器 (Read-Only Memory，ROM)、随机存取器(RandomAccess Memory， RAM)、磁盘或光盘等。

实施例5

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行人群密度确定方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S11，获取待检测图片，所述待检测图片中包含至少一个人头图像；

S12，将所述待检测图片输入图像语义分割模型，以使所述图像语义分割模型根据所述待检测图片中的人头图像确定前景预测信息，所述前景预测信息用于指示所述待检测图片中各像素点属于前景图像的前景置信度；

S13，将所述待检测图片输入人群密度估计模型，通过所述人群密度估计模型确定与所述待检测图片对应的密度热力图；

S14，根据所述前景预测信息和所述密度热力图，确定所述待检测图片的人群密度预测结果。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：

S21，获取源域数据和目标域数据，所述源域数据包括至少一张源域图片，所述源域图片标注有人头检测框，所述目标域数据包括在监控场景下采集获得的至少一张目标域图片；

S22，根据所述人头检测框标注各源域图片的语义分割信息；

S23，将所述源域图片和所述目标域图片输入到迁移单元中，以使所述迁移单元根据所述目标域图片的场景特征对所述源域图片进行迁移，得到迁移图片，所述迁移图片中的图像内容与所述源域图片中的图像内容一致；

S24，根据所述源域图片和对应的语义分割信息对初始深度学习模型进行训练，得到预训练深度学习模型；以及

S25，根据所述源域图片的语义分割信息和与该源域图片对应的迁移图片对所述预训练深度学习模型进行训练，获得所述图像语义分割模型。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

实施例6

本发明的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的人群密度确定方法。

本发明实施例提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令和至少一段程序，所述至少一条指令或者至少一段程序由处理器加载并执行以实现如图3对应的人群密度确定方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种人群密度确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述前景预测信息和所述密度热力图，确定所述待检测图片的人群密度预测结果，包括：

提取所述前景预测信息中前景置信度小于预设阈值的像素点作为目标像素点；

根据所述目标像素点对所述密度热力图进行背景抑制；

根据抑制背景后的密度热力图进行人群密度预测。

3.根据权利要求2所述的方法，其特征在于，

所述根据所述目标像素点对所述密度热力图进行背景抑制包括：遍历所述密度热力图中的每个像素点，将与所述目标像素点匹配的像素点所对应的热力值置为预设值；

所述根据抑制背景后的密度热力图进行人群密度预测，包括：对抑制背景后的密度热力图进行积分，得到与所述待检测图片对应的人群密度预测结果。

4.根据权利要求1所述的方法，其特征在于，所述图像语义分割模型通过如下方法训练得到：

根据所述人头检测框标注各源域图片的语义分割信息；

5.根据权利要求4所述的方法，其特征在于，所述根据所述人头检测框标注各源域图片的语义分割信息，包括：

将各源域图片中的人头检测框扩大预设倍数，并将源域图片中位于检测框内的图像标注为前景、位于检测框外的图像标注为背景。

6.根据权利要求4所述的方法，其特征在于，所述将所述源域图片和所述目标域图片输入到迁移单元中，以使所述迁移单元根据所述目标域图片的场景特征对所述源域图片进行迁移，得到迁移图片，包括：

构建包含生成网络和逆变换网络的迁移单元；

将所述源域图片输入所述迁移单元的生成网络中，输出携带目标域场景特征的目标域预测图片，所述目标域场景特征包括与所述目标域图片匹配的亮度和色调；

将所述目标域预测图片输入所述迁移单元的逆变换网络中，通过所述逆变换网络将所述目标域预测图片逆变换到源域，得到与所述源域图片的图像内容一致的所述迁移图片。

7.根据权利要求4所述的方法，其特征在于，

所述根据所述源域图片和对应的语义分割信息对初始深度学习模型进行训练，得到预训练深度学习模型，包括：

将所述源域图片输入到初始深度学习模型中，得到所述源域图片的语义分割预测结果；

根据所述源域图片的语义分割预测结果与对应的语义分割信息之间的损失，调整所述初始深度学习模型的参数，直至满足预设的第一收敛条件时停止对所述初始深度学习模型的参数调整，得到预训练深度学习模型；

所述根据所述源域图片的语义分割信息和与该源域图片对应的迁移图片对所述预训练深度学习模型进行训练，获得所述图像语义分割模型，包括：

将所述源域图片对应的迁移图片输入到预训练深度学习模型中，得到所述迁移图片的语义分割预测结果；

根据所述迁移图片的语义分割预测结果与所述源域图片对应的语义分割信息之间的损失，调整所述预训练深度学习模型的参数，直至满足预设的第二收敛条件时停止对所述预训练深度学习模型的参数调整，得到所述图像语义分割模型。

8.一种人群密度确定装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令或者至少一段程序，所述至少一条指令或者至少一段程序由处理器加载并执行以实现如权利要求1-7任一所述的人群密度确定方法。

10.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7任一所述的人群密度确定方法。