CN111295689A

CN111295689A - 深度感知对象计数

Info

Publication number: CN111295689A
Application number: CN201780096479.5A
Authority: CN
Inventors: 姜晓恒
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2017-11-01
Filing date: 2017-11-01
Publication date: 2020-06-16
Anticipated expiration: 2037-11-01
Also published as: US11270441B2; CN111295689B; WO2019084854A1; US20200242777A1; EP3704558A1; EP3704558A4

Abstract

提供了用于深度感知对象计数的方法和装置，包括计算机程序产品。在一些示例实施例中，可以提供一种方法，该方法包括通过经训练的机器学习模型来处理图像的第一分段和图像的第二分段，第一分段使用基于深度信息而选择的第一滤波器被处理以使得能够形成第一密度图，并且第二分段使用基于深度信息而选择的第二滤波器被处理以使得能够形成第二密度图；通过经训练的机器学习模型将第一密度图和第二密度图组合以形成针对图像的密度图；以及通过经训练的机器学习模型基于密度图来提供输出。还描述了相关的系统、方法和制品。

Description

深度感知对象计数

技术领域

本文中描述的主题涉及机器学习。

背景技术

机器学习技术使得计算机能够学习任务。例如，机器学习可以允许计算机在训练阶段期间学习执行任务。稍后，在操作阶段期间，计算机可以能够执行所学习到的任务。机器学习可以采用神经网络的形式，诸如深度学习神经网络、卷积神经网络(CNN)、状态矢量机、贝叶斯分类器和其他类型的机器学习模型。

发明内容

提供了用于深度感知对象计数的方法和装置，包括计算机程序产品。

在一些示例实施例中，可以提供一种方法，该方法包括通过经训练的机器学习模型来处理图像的第一分段和图像的第二分段，第一分段使用基于深度信息而选择的第一滤波器被处理以使得能够形成第一密度图，并且第二分段使用基于深度信息而选择的第二滤波器被处理以使得能够形成第二密度图；通过经训练的机器学习模型将第一密度图和第二密度图组合以形成图像的密度图；以及通过经训练的机器学习模型基于密度图来提供输出，该输出表示图像中的对象的数量的估计。

在一些变体中，本文中公开的包括以下特征在内的特征中的一个或多个特征可以可选地以任何可行的组合被包括。经训练的机器学习模型可以接收包括多个对象的图像，其中图像基于深度信息被至少分段为第一分段和第二分段。深度信息可以从被训练为从图像输出深度信息的另一机器学习模型来接收。经训练的机器学习模型可以包括多列卷积神经网络，该多列卷积神经网络包括第一卷积神经网络和第二卷积神经网络。第一卷积网络可以包括第一滤波器。第二卷积网络可以包括第二滤波器。第一滤波器和第二滤波器每个均包括卷积层。深度信息可以指示第一分段和/或第二分段的位置。深度信息可以指示归因于距相机的距离的对象大小。深度信息可以指示第一滤波器的第一滤波器大小和第二滤波器的第二滤波器大小。经训练的机器学习模型可以基于深度信息来选择第一滤波器的第一滤波器大小和第二滤波器的第二滤波器大小。训练可以基于参考图像，使得机器学习模型训练以学习密度图的生成。多个对象可以包括多个人、多个车辆和/或一群人。第一密度图可以估计第一分段中的对象的密度。第二密度图可以估计第二分段中的对象的密度。密度图可以估计图像中的对象的密度。

上述方面和特征可以根据期望配置在系统、装置、方法和/或制品中实现。本文中描述的主题的一个或多个变体的细节在附图和以下描述中阐述。根据说明书和附图以及根据权利要求书，本文中描述的主题的特征和优点将是明显的。

附图说明

在附图中，

图1描绘了根据一些示例实施例的包括人群和对应的密度图的图像的示例；

图2A描绘了根据一些示例实施例的卷积神经网络(CNN)的示例；

图2B描绘了根据一些示例实施例的CNN的另一示例；

图3A描绘了根据一些示例实施例的用于神经网络的神经元的示例；

图3B描绘了根据一些示例实施例的包括至少一个神经元的神经网络的示例；

图4描绘了根据一些示例实施例的多列卷积神经网络(MCCNN)；

图5A至图5D描绘了根据一些示例实施例的用于确定对象计数的过程流程；

图6描绘了根据一些示例实施例的装置的示例；以及

图7描绘了根据一些示例实施例的装置的另一示例；

在附图中，相似的附图标记用于指代相同或相似的项。

具体实施方式

机器学习可以用于执行一个或多个任务，诸如对至少一个图像内的对象的数量进行计数。例如，可以训练诸如神经网络、卷积神经网络(CNN)、多列CNN(MCCNN)和/或其他类型的机器学习等机器学习模型以学习如何处理至少一个图像以确定至少一个图像中的诸如人或其他类型的对象等对象的数量的估计(其可以是视频帧的形式)。为了通过另一示例进一步说明，公共安全官员可能想知道给定位置的人群计数，这可能由于多种原因而是有用的，包括人群控制、限制某个位置的人员数量、使蜂拥的风险最小化、和/或使某种其他大型团体相关混乱的风险最小化。为了通过另一示例进一步说明，交通安全官员可能想知道道路上(或某个位置)的车辆计数，并且出于各种原因(包括交通拥堵控制和管理)，该计数可能是有用的。根据一些示例实施例，经训练的机器学习模型可以用于对至少一个图像中的诸如人、车辆或其他对象等对象进行计数。

当对图像中的对象进行计数时，经训练的机器学习模型可以提供被估计为在图像中的对象的数量的实际计数，或者可以提供密度图，该密度图提供每平方单位距离的对象的数量的估计，诸如每平方米的对象的数量。在密度图可以估计图像中的对象的数量和对象在图像上的分布或密度的意义上，密度图可以提供较多的信息。

尽管本文中描述的一些示例涉及对图像中的人进行计数，但这仅是可以被计数的对象的类型的示例，因为诸如车辆等其他类型的对象也可以被计数。

图1描绘了根据一些示例实施例的包括待计数对象100和对应的密度图105的图像100的示例。在图1的示例中，对象表示人，尽管如所述，对象也可以表示其他类型的对象。

密度图105可以提供有关图像100中的诸如人等对象的信息，诸如每平方米的人的密度、图像中的人的分布、和/或图像的至少一部分中的人的数量的计数。在人群计数示例中，图像中的诸如人等对象的比例可能由于由相机相对于人的视角而引起的大小(例如，比例)变化而改变。例如，当与背景中的类似大小的人进行比较并且因此离相机较远时，图像100的前景中的人随着该人较靠近相机而显得较大。这种由视角引起的大小变化可能会影响至少一个图像100中的对象的计数的准确性以及对应的密度图105的准确性。

在一些示例实施例中，可以使用诸如神经网络、CNN、MCCNN等机器学习模型来确定图像中的诸如人等对象的数量的估计。该估计可以是图像的密度图的形式。在一些示例实施例中，机器学习模型可以被实现为MCCNN，尽管也可以使用其他类型的机器学习模型。在MCCNN的情况下，2016年的IEEE计算机视觉与模式识别会议论文集中的Y.Zhang等人的论文“Single-image crowd counting via multi-column convolutional neural network”中描述了人群计数。

在一些示例实施例中，图像100的密度图105可以通过基于诸如人等对象到相机视点的相对距离至少将整个图像分段为至少两个区域来确定，尽管图像也可以被分段为其他数量(例如，3、4或更多个分段区域)。根据一些示例实施例，对于每个分段区域，机器学习模型(诸如配置有被选择以处理对应区域中的对象大小(例如，头部或人大小)的至少一个滤波器的MCCNN)可以确定密度图。根据一些示例实施例，然后可以对每个分段区域的密度图进行组合以形成整个图像100的密度图105。在不以任何方式限制下面出现的权利要求的范围、解释或应用的情况下，本文中公开的一个或多个示例实施例的技术效果可以是与处理整个图像相比由于图像的分段而产生的提高的处理速度，和/或本文中公开的一个或多个示例实施例的另一技术效果可以是较精确的计数，因为每个分段利用专门用于考虑该区域和该区域中的对象的大小引起的透视效果的滤波器被处理。

图2A描绘了根据一些示例实施例的CNN 200的示例。CNN可以包括至少一个卷积层210、230、至少一个池化层220、240和全连接层250。

卷积层210可以称为滤波器，并且可以包括对输入图像100的至少一部分进行卷积的矩阵。如上所述，该滤波器或矩阵的大小可以改变以检测并且过滤对象。在该示例中，在210处选择7×7矩阵作为滤波器以与图像100进行卷积，因此待计数对象需要小于7×7像素以便被正确捕获(而大于7×7的对象将被滤除)。池化层220可以用于对由卷积层210输出的卷积图像进行下采样。为了将卷积图像下采样为较小图像，可以通过在由卷积层210输出的卷积图像上滑动的滑动窗口(或矢量)来形成池化层。池化层可以具有表示以像素为单位的窗口的宽度的跨步长度。全连接层250可以生成输出204。

图2B描绘了根据一些示例实施例的CNN 299的另一示例。CNN299可以被配置为基于深度图来确定如何对输入图像进行分段。深度图提供有关诸如人、头部等对象到相机的相对距离的信息。例如，CNN299可以基于深度图277确定输入图像100的分段298A-C。给定分段中的基于大小的透视效果可以相同或相似，因此对该分段进行卷积的滤波器可以能够较好地检测诸如头部、人等感兴趣对象。

在图2B的示例中，根据一些示例实施例，可以训练CNN 299以确定深度图277。如所述，深度图277可以提供对象(例如，人、头部等)到相机的相对距离的指示。这样，深度图可以提供图像中的由视角引起的大小差异的指示。在深度图277中，与距离相机较近的对象相比，距离相机较远的对象可以具有较亮的像素。这样，深度图277可以用于基于基于视角的大小差异来将图像100分段为两个或更多分段区域，诸如298A-C。尽管前面的示例针对距离较远的对象使用具有较亮像素的深度图，但是这些像素可能较暗或具有其他值来表示深度。

为了进一步说明，与第二分段区域298B相比，第一分段区域298A可以具有看起来大小较小(由于视角)的对象。并且，与第三分段区域298C相比，第二分段区域298B可以具有看起来大小较小(由于视角)的对象。尽管先前的示例将图像100分段为三个分段，但是也可以使用其他数量的分段。

在一些示例实施例中，可以使用参考图像来对CNN 299进行训练。这些参考图像可以包括诸如人群中的人等对象、以及指示基于由视角引起的相对大小差异而先验确定的分段的标签。此外，参考图像的这些分段可以对应于每个分段中的特定大小的对象，并且因此对应于对应的滤波器大小。然后，可以对CNN进行训练，直到CNN可以学习对参考图像进行分段，这也可以决定要用于该分段的滤波器大小。根据一些示例实施例，一旦被训练，经训练的CNN 299可以用于确定其他输入图像中的分段。在一些示例实施例中，CNN的训练

在图2B的示例中，CNN 299可以包括7×7卷积层210(这是初始过滤层)，之后是3×3池化层220，之后是5×5卷积层230，之后是3×3池化层240，之后是3×3卷积层265，之后是3×3卷积层267，之后是3×3池化层268，并且然后耦合到全连接层250(也称为激活层)。全连接层可以生成输出，输出在该示例中为深度图277。尽管CNN 299被描绘为具有一定配置的层，但是也可以实现其他类型和数量的层以提供生成深度图277和相关联的分段298A-C的机器学习。在一些示例实施例中，一个或多个阈值可以用于形成分段298A-C。例如，比某个阈值亮的像素可以被指派给分段298A，而比某个阈值暗的像素可以被指派给分段298C。而且，如所述，每个分段298A-C可以具有一定大小的对象，并且因此如下面关于图4所解释的，在410A、410B和410C处映射到给定大小的滤波器。

图3A描绘了根据一些示例实施例的可以在诸如CNN、MCCNN等神经网络中实现的人工神经元Aj 350的示例。应当理解，图3A表示人工神经元350的模型，并且神经元350可以具有其他配置，包括输入数量和/或输出数量。例如，神经元350可以包括多个输入以接收图像的像素相关值。

参考图3A，神经元350可以基于激活值A_i(t-1)(其对应于A₀-A₇)360A-H、连接权重w_ij 365A-H(其被标记为w_0j至w_7j)和输入值310A-H(标记为S₀-S₇)来生成输出A_j(t)370。在给定时间t，激活值360A-H中的每个可以乘以对应权重365A-H之一。例如，连接权重w_0j 365A乘以激活值A₀ 360A，连接权重w_1j 365B乘以激活值A₁ 360B，以此类推。然后，将乘积(即，连接和激活值的乘积)相加，并且通过基函数K对所得到的和进行运算以在时间t生成节点A_j350的输出A_j(t)370。输出370可以在后续时间(例如，在t+1)用作激活值，或者被提供给另一节点。

神经元350可以根据诸如以下神经模型来实现：

其中K对应于基函数(其示例包括sigmoid、小波和任何其他基函数)，A_j(t)对应于由给定神经元(例如，第j神经元)在给定时间t提供的输出值，A_i(t-1)对应于在先前时间t-1指派给第j神经元的连接i的先前输出值(或激活值)，w_ij表示第j神经元的第i连接值，其中j根据神经元的数量而变化，其中i的值在0到n之间变化，并且其中n对应于与神经元的连接数。

图3B描绘了根据一些示例实施例的形成神经网络399的互连神经元350。神经网络399可以被配置为提供诸如CNN 200、299等CNN、MCCNN、或者诸如神经网络的层等部分(例如，卷积层210可以使用多个互连神经元350来实现)。包括神经网络399的神经元350可以使用代码、电路系统和/或其组合来实现。在一些示例实施例中，神经元350和/或神经网络399(其包括神经元350)可以使用专用电路系统来实现，包括例如至少一个图形处理单元(GPU，与传统的中央处理单元相比，其被配置为较好地处理并行处理、矩阵运算等)或专用神经网络电路系统。

在图3B的示例中，神经网络399可以包括输入层360A、一个或多个隐藏层360B、以及输出层360C。尽管未示出，但是也可以实现其他层，诸如池化层。应当理解，神经网络的3-2-3节点结构用于促进说明，并且因此，神经网络399也可以以其他配置来构造，诸如3×3结构(具有或没有(多个)隐藏层)、5×5结构(具有或没有(多个)隐藏层)、7×7结构(具有或没有(多个)隐藏层)和/或其他结构(具有或没有(多个)隐藏层)。

在诸如神经网络399等神经网络的训练期间，可以随着时间(例如，t、t+1等)将诸如具有标签(例如，指示分段、深度图、人群计数等)的参考图像等训练数据作为输入馈送到输入层360A神经元，直到神经网络399学会执行任务。例如，在图3B的示例中，CNN 399可以接收标记的训练数据，诸如标记有适当分段的参考图像，使得CNN 299可以迭代地训练，直到它学会形成图像的深度图和/或分段。为了进一步说明，网络的神经元可以通过使用梯度下降等优化到均方误差(例如，在输入层360A处的标记训练数据与在输出层360C的输出处生成的训练数据之间)来进行学习。在训练神经网络时，可以将诸如权重值、激活值、基函数等神经网络的配置保存到存储装置中。所保存的配置表示经训练的神经网络。

再次参考图2B，CNN 299可以用于将图像100分段为区域298A-C。如上所述，每个分段区域298A-C可以具有大约相同大小的对象(例如，头部或人大小)，并且因此在410A、410B和410C处映射到给定大小的滤波器。此外，根据一些示例实施例，分段区域298A-C(和/或该区域的滤波器大小)可以被提供给另一机器学习模型，诸如图4所示的MCCNN 400。

根据一些示例实施例，对于在图像中分段的每个区域，MCCNN400可以包括CNN405A-C。在图4的示例中，存在三个分段区域298A-C，因此在MCCNN中存在三列，每一列包括CNN 405A-C中的对应的CNN。

第一CNN 405A可以包括提供例如3×3像素的滤波器的第一卷积层410A。该滤波器可以基于分段区域298A中的对象的大小来选择。如上所述，分段区域298A可以具有大约相同大小的对象(例如，头部或人大小)，因此例如，分段区域298A可以在410A处映射到3×3像素的滤波器大小。换言之，定义分段在图像100中的位置的深度信息还可以使得MCCNN能够为每个分段298A-C选择适当的滤波器大小。第一卷积层410A之后可以是卷积层412A、池化层414A、卷积层418A、池化层417A、卷积层418A和全连接层420A。尽管第一CNN 405A包括某种配置的中间层412A-418A，但是也可以实现其他类型和/或数量的层。

第二CNN 405B可以包括提供例如5×5像素的滤波器的第一卷积层410B。该5×5像素的滤波器可以基于分段区域298B中的对象的大小来选择。如以上关于滤波器410A所述，分段区域298B可以具有大约相同大小的对象(例如，头部或人大小)，因此例如，分段区域298B可以在410B处映射到5×5像素的滤波器大小。第一卷积层410B之后可以是卷积层412B、池化层414B、卷积层418B、池化层417B、卷积层418B和全连接层420B。尽管第二CNN405B包括某种配置的中间层412B-418B，但是也可以实现其他类型和/或数量的层。

第三CNN 405C可以包括提供例如7×7像素的滤波器的第一卷积层410C。该滤波器可以基于分段区域298C中的对象的大小来选择。分段区域298C也可以具有大约相同大小的对象(例如，头部或人大小)，因此例如，分段区域298C可以在410C处映射到7×7像素的滤波器大小。换言之，定义分段在图像100中的位置的深度信息还可以使得能够为每个分段选择适当的滤波器大小。第一卷积层410C之后可以是卷积层412C、池化层414C、卷积层418C、池化层417C、卷积层418C和全连接层420C。尽管第三CNN 405C包括某种配置的中间层412C-418C，但是也可以实现其他类型和/或数量的层。

根据一些示例实施例，MCCNN 400(在该示例中包括3个CNN列)可以包括第一CNN405A、第二CNN 405B和第三CNN 298C，第一CNN 405A可以具有对第一分段区域298A进行采样并且输出第一区域的第一密度图498A的滤波器410A，第二CNN 405B可以具有对图像的第二分段区域298B进行采样并且输出第二区域的第二密度图498B的滤波器410B，并且第三CNN 298C可以具有对图像的第二分段区域298C进行采样并且输出第三区域的第三密度图498C的滤波器410C。根据一些示例实施例，为了生成整个图像100的密度图499，可以对第一密度图498A、第二密度图498B和第三密度图498C进行组合。如所述，密度图499可以提供每平方单位距离的对象的数量的估计，从其可以确定图像中的对象的数量和对象在图像上的分布。在该示例中，对象是人，尽管也可以对图像中的其他类型的对象进行计数。

在一些示例实施例中，如所述，列CNN 405A-C中的每个中的滤波器410A-C可以基于对应区域中的对象的大小并且尤其是图像中的大小引起的视角差异来选择。例如，在图像的给定分段区域298A-C中，人(或其头部)的大小可以具有相同的相似视角，并且因此具有相同或相似的大小。这样，与用于较靠近相机(并且因此需要较大滤波器)的区域298B的滤波器410B相比，用于第一CNN 405A的滤波器410A可以是较小的滤波器以考虑距离相机较远的区域298A中的相似的人/头部大小。同样，与用于处理区域298B的第三CNN 405C的滤波器410C相比，用于处理区域298B的第二CNN 405B的滤波器410B可以是较小的滤波器。以这种方式，MCCNN 400可以在410A-C处基于三个区域298A-C中的每个区域的深度信息来选择滤波器，并且每个区域可以使用针对对应区域中的对象(例如，头部或人)的近似大小而专门配置的对应列CNN 405A、405B或405B C之一来处理。因此，MCCNN 400可以基于指示分段的深度信息和分段中的对象大小来选择对应的初始滤波器410A、410B或410C的大小，使得该区域中的对象可以通过对应的滤波器。

在一些示例实施例中，MCCNN 400可以使用图像的参考集合进行训练。这些参考图像可以包括已经被分段并且对于每个分段具有已知密度图的参考图像。在(多个)图像(或(多个)分段)(或其密度图)中的人的数量以一定程度的确定性已知的意义上，参考图像可以表示基本事实。然后，可以训练MCCNN 400，直到MCCNN可以学习生成参考图像的密度图。根据一些示例实施例，一旦被训练，经训练的MCCNN可以用于确定其他输入图像的密度图。

再次参考图1，图像100(其正在被处理以确定对象计数)可以表示由至少一个相机(诸如全向或多视图相机等)捕获的视频流。全向多视图相机的一个示例是诺基亚OzO相机，它可以在多个平面中生成360全景图像。在全向多视图相机的情况下，来自相机的图像可以被输入到CNN 299和/或MCCNN 400，以便生成密度图和每个图像中的对应的人群计数。为了进一步说明，OzO相机可以包括多个相机，并且来自这些相机中的每个相机的图像可以被处理以实现分段和/或确定可以从其确定人群计数的密度图。参考图4，OzO相机的每个相机可以被输入到MCCNN的单独的CNN中，并且然后输出密度图可以被组合以形成聚合密度图499。

图5A描绘了根据一些示例实施例的用于训练诸如CNN 299等机器学习模型以学习如何生成诸如深度图等深度信息以实现图像分段的过程流程。图5A的描述参考图1和2B。

根据一些示例实施例，在502处，可以接收利用深度信息标记的至少一个参考图像。例如，CNN 299可以接收具有标签的参考图像，该标签指示每个图像的深度。为了进一步说明，每个参考图像可以具有对应的深度图和/或图像内的分段的位置。(多个)参考图像中的分段中的对象可以距相机大约相同的距离，并且因此具有大约相同的大小以使得能够利用相同大小的滤波器进行过滤。

根据一些示例实施例，在504处，可以训练机器学习模型以基于所接收的参考图像来学习。例如，CNN 299可以基于所接收的图像进行训练以学习如何生成深度信息(诸如深度图)、所接收的参考图像的分段的位置、和/或每个分段的对象的大小(或滤波器大小)。使用梯度下降等，该训练可以是迭代的。根据一些示例实施例，在训练CNN时，在506处，可以将CNN的配置(例如，权重值、激活值、基函数等)保存到存储装置。所保存的配置表示经训练的CNN，其可以在操作阶段用于确定除参考图像以外的图像的深度信息(诸如深度图、分段)、和/或每个分段的对象的大小(或滤波器大小)。

图5B描绘了根据一些示例实施例的用于训练诸如MCCNN等机器学习模型以提供对象计数信息的过程流程。图5A的描述参考图1和图4。

根据一些示例实施例，在512处，可以接收利用密度信息标记的至少一个参考图像。例如，MCCNN 400可以接收参考图像，该参考图像具有指示每个图像中的分段的标签、以及分段中的对象的密度，诸如每平方米的人/头部、对象计数等。例如，参考图像100(图4)可以被先验地分段，并且每个分段可以具有对应的密度图以使得能够进行训练。此外，每个分段可以具有大约相同大小的对象(关于视角)，因此可以在对应分段中的对象上使用给定滤波器。

根据一些示例实施例，在514处，可以训练机器学习模型以学习确定密度图。例如，MCCNN 400可以基于所接收的参考图像进行训练以学习如何生成对象密度信息，诸如密度图、计数等。在一些示例实施例中，可以使用第一卷积层来训练MCCNN的每列CNN 405A-C，该第一卷积层具有专门选择的滤波器以考虑由该列CNN处理的区域的大小引起的透视效果。根据一些示例实施例，在训练MCCNN时，在516处，可以将MCCNN的配置(例如，权重值、激活值、基函数等)保存到存储装置。所保存的配置表示经训练的MCCNN，其可以在操作阶段用于确定除参考图像以外的图像的密度信息(诸如深度图和分段)。

图5C描绘了根据一些示例实施例的在操作阶段用于经训练的机器学习模型的过程流程。图5A的描述参考图1和2B。

根据一些示例实施例，在522处，可以通过经训练的机器学习模型接收至少一个图像。例如，经训练的CNN 299可以接收需要对象计数的估计的至少一个图像100。根据一些示例实施例，经训练的CNN可以处理至少一个输入图像100以在524处确定深度信息，该深度信息可以是深度图的形式、和/或至少一个图像应当在哪里被分段的指示。深度信息还可指示(多个)分段中的对象的大小、和/或(多个)分段的对应滤波器大小。根据一些示例实施例，在526处，诸如经训练的CNN 299等经训练的机器学习模型可以将深度信息输出到诸如MCCNN 400等另一机器学习模型。

图5D描绘了根据一些示例实施例的在操作阶段用于经训练的机器学习模型的过程流程。图5A的描述参考图1和4。

根据一些示例实施例，在532处，可以通过经训练的机器学习模型接收至少一个图像。例如，经训练的MCCNN 400可以接收至少一个图像。此外，可以接收具有深度信息的图像以使得能够将图像100分段为多个部分。在图4的示例中，图像100被分段为3个部分298A-C，尽管也可以使用其他数量的分段。此外，深度信息可以使得MCCNN能够在410A-C处选择被设定大小以处理在每个分段298A-C中发现的对象大小的滤波器。

根据一些示例实施例，在534处，可以通过MCCNN 400的CNN405A-C来处理每个分段区域298A-C。具体地，可以基于深度信息对分段进行分段以考虑视角引起的大小差异。这使得CNN 405A-C中的每个能够具有较适合于由对应CNN处理的对应分段中的对象(诸如头部、人等)的大小的滤波器。例如，CNN 405A在背景中包括对象(其由于视角而导致对象看起来较小)，因此卷积层410A滤波器例如是3×3矩阵以容纳相对较小大小的头部和/或人。如上所述，可以选择滤波器的大小(其在该示例中为3×3)以使感兴趣对象(在该示例中为人)通过。相比之下，CNN 405C在前景中具有对象(其由于视角而导致对象看起来较大)，因此卷积层的410C滤波器例如是7×7矩阵以容纳相对较大大小的头部和/或人。

根据一些示例实施例，在536处，经训练的机器学习模型可以为图像的每个分段区域生成密度图。如图4所示，每列CNN 405A-C生成密度图498A-C。

根据一些示例实施例，在538处，经训练的机器学习模型可以对每个区域的密度图进行组合以形成在输入处接收的整个图像的密度图。例如，MCCNN 400可以将密度图498A-C组合成密度图499，其表示整个图像100的密度图499。

根据一些示例实施例，在540处，经训练的机器学习模型可以输出对象计数的指示。例如，MCCNN 400可以输出密度图499，或者进一步处理密度图以提供整个图像的计数(诸如人计数)、或图像的一部分的计数。

图6描绘了根据一些示例实施例的示出计算系统600的框图。根据一些示例实施例，计算系统600可以用于实现机器学习模型，诸如本文中包括图5A至5D在内所公开的CNN200、CNN 299、MCCNN400等，以执行图像中的对象的计数。例如，根据一些示例实施例，系统600可以包括装置或被包括在装置中，诸如移动电话、智能电话、相机(例如，OzO、闭路电视、网络摄像头)、无人机、自动驾驶车辆、汽车、无人驾驶飞行器、自主车辆、和/或物联网(IoT传感器，诸如交通传感器、工业传感器等)以使得能够对对象进行计数。

如图6所示，计算系统600可以包括处理器610、存储器620、存储设备630、输入/输出设备640、和/或相机660(根据一些示例实施例，其可以用于捕获包括要计数的对象的图像)。处理器610、存储器620、存储设备630和输入/输出设备640可以经由系统总线650互连。处理器610可以能够处理用于在计算系统600内执行的指令。这样的执行的指令可以实现机器学习模型的一个或多个方面，诸如CNN 200、CNN 299、MCCNN 400等。处理器610可以能够处理存储在存储器620和/或存储设备630中的指令以显示经由输入/输出设备640提供的用户接口的图形信息。存储器620可以是计算机可读介质，诸如在计算系统600内存储信息的易失性或非易失性介质。存储器620可以存储指令，诸如计算机程序代码。存储设备630可以能够为计算系统600提供持久存储。存储设备630可以是软盘设备、硬盘设备、光盘设备或磁带设备、或者其他合适的持久存储机制。输入/输出设备640为计算系统600提供输入/输出操作。在一些示例实施例中，输入/输出设备640包括键盘和/或指示设备。在各种实现中，输入/输出设备640包括用于显示图形用户接口的显示单元。备选地或附加地，输入/输出设备640可以包括无线和/或有线接口以使得能够与诸如其他网络节点等其他设备通信。例如，输入/输出设备640可以包括以太网接口、WiFi接口、蜂窝接口和/或其他有线和/或无线接口以允许与一个或多个有线和/或无线网络和/或设备通信。

图7示出了根据一些示例实施例的装置10的框图。装置10可以表示诸如无线设备等用户设备，其示例包括智能电话、平板电脑等。根据一些示例实施例，装置10可以用于实现机器学习模型，诸如本文中包括图5A至图5D在内所公开的CNN 200、CNN 299、MCCNN400等，以执行图像中的对象的计数。此外，装置10可以包括相机799，并且处理器20可以包括GPU或其他专用处理器以处理机器学习模型的处理。类似于图6的系统，根据一些示例实施例，装置10可以包括装置或被包括在装置中，诸如移动电话、智能电话、相机(例如，OzO、闭路电视、网络摄像头)、无人机、自动驾驶车辆、汽车、无人驾驶飞行器、自主车辆、和/或物联网(IoT传感器，诸如交通传感器、工业传感器等)以使得能够对对象进行计数。

装置10可以包括与传输器14和接收器16通信的至少一个天线12。备选地，传输天线和接收天线可以是分开的。装置10还可以包括处理器20，该处理器20被配置为分别向传输器和接收器提供信号以及从传输器和接收器接收信号并且控制装置的功能。处理器20可以被配置为通过经由到传输器和接收器的电引线实现控制信令来控制传输器和接收器的功能。同样地，处理器20可以被配置为通过经由将处理器20连接到诸如显示器或存储器等其他元件的电引线实现控制信令来控制装置10的其他元件。处理器20可以例如以多种方式来实施，包括电路系统、至少一个处理核、具有(多个)伴随的数字信号处理器的一个或多个微处理器、没有伴随的数字信号处理器的一个或多个处理器、一个或多个协处理器、一个或多个多核处理器、一个或多个控制器、处理电路系统、一个或多个计算机、各种其他处理元件(包括集成电路(例如，专用集成电路(ASIC)、现场可编程控制器门阵列(FPGA)等))或其某种组合。因此，尽管在图7中被示出为单个处理器，但是在一些示例实施例中，处理器20可以包括多个处理器或处理核。

装置10可以能够以一种或多种空中接口标准、通信协议、调制类型、接入类型等来操作。由处理器20发送和接收的信号可以包括根据适用的蜂窝系统的空中接口标准和/或任何数目的不同的有线或无线联网技术的信令信息，这些技术包括但不限于Wi-Fi、无线本地接入网络(WLAN)技术，诸如电气和电子工程师协会(IEEE)802.11、802.16、802.3、ADSL、DOCSIS等。另外，这些信号可以包括语音数据、用户生成的数据、用户请求的数据等。

例如，装置10和/或其中的蜂窝调制解调器可以能够根据各种第一代(1G)通信协议、第二代(2G或2.5G)通信协议、第三代(3G)通信协议、第四代(4G)通信协议、第五代(5G)通信协议、互联网协议多媒体子系统(IMS)通信协议(例如，会话发起协议(SIP))等进行操作。例如，装置10可以能够根据2G无线通信协议IS-136、时分多址TDMA、全球移动通信系统、GSM、IS-95、码分多址、CDMA等进行操作。另外，例如，装置10可以能够根据2.5G无线通信协议通用分组无线电服务(GPRS)、增强型数据GSM环境(EDGE)等进行操作。另外，例如，装置10可以能够根据3G无线通信协议进行操作，诸如通用移动电信系统(UMTS)、码分多址2000(CDMA2000)、宽带码分多址(WCDMA)、时分同步码分多址(TD-SCDMA)等。附加地，装置10可以能够根据3.9G无线通信协议进行操作，诸如长期演进(LTE)、演进型通用陆地无线电接入网(E-UTRAN)等。附加地，例如，装置10可以能够根据诸如高级LTE等4G无线通信协议、5G等、以及后续可以开发的类似的无线通信协议进行操作。

应当理解，处理器20可以包括用于实现装置10的音频/视频和逻辑功能的电路系统。例如，处理器20可以包括数字信号处理器设备、微处理器设备、模数转换器、数模转换器等。装置10的控制和信号处理功能可以根据其相应能力在这些设备之间分配。处理器20可以附加地包括内部语音编码器(VC)20a、内部数据调制解调器(DM)20b等。此外，处理器20可以包括用于操作可以存储在存储器中的一个或多个软件程序的功能。通常，处理器20和所存储的软件指令可以被配置为使装置10执行动作。例如，处理器20可以能够操作连接程序，诸如网络浏览器。连接程序可以允许装置10根据诸如无线应用协议WAP、超文本传输协议HTTP等协议来传输和接收诸如基于位置的内容等网络内容。

装置10还可以包括用户接口，包括例如耳机或扬声器24、振铃器22、麦克风26、显示器28、用户输入接口等，其可以在操作上耦合到处理器20。如上所述，显示器28可以包括触敏显示器，其中用户可以触摸和/或做出手势以进行选择、输入值，等等。处理器20还可以包括用户接口电路系统，该用户接口电路系统被配置为控制诸如扬声器24、振铃器22、麦克风26、显示器28等用户接口的一个或多个元件的至少一些功能。处理器20和/或包括处理器20的用户接口电路系统可以被配置为通过存储在处理器20可访问的存储器(例如，易失性存储器40、非易失性存储器42等)上的计算机程序指令(例如，软件和/或固件)来控制用户接口的一个或多个元件的一个或多个功能。装置10可以包括电池，该电池用于向与移动终端有关的各种电路(例如，用于提供机械振动作为可检测输出的电路)供电。用户输入接口可以包括允许装置20接收数据的设备，诸如小键盘30(其可以是呈现在显示器28上的虚拟键盘、或外部耦合的键盘)和/或其他输入设备。

如图7所示，装置10还可以包括用于共享和/或获取数据的一种或多种机制。例如，装置10可以包括短程射频(RF)收发器和/或询问器64，因此根据RF技术，可以与电子设备共享数据和/或从电子设备获取数据。装置10可以包括其他短程收发器，诸如红外(IR)收发器66、使用Bluetooth^TM无线技术进行操作的Bluetooth^TM(BT)收发器68、无线通用串行总线(USB)收发器70、Bluetooth^TM低能耗收发器、ZigBee收发器、ANT收发器、蜂窝设备到设备收发器、无线局域链路收发器、和/或任何其他短程无线电技术。例如，装置10并且尤其是短程收发器可以能够在装置附近(诸如在10米以内)向电子设备传输数据和/或从电子设备接收数据。包括Wi-Fi或无线局域网联网调制解调器的装置10还可以能够根据各种无线联网技术从电子设备传输和/或接收数据，包括6LoWpan、Wi-Fi、Wi-Fi低功率、WLAN技术，诸如IEEE802.11技术、IEEE 802.15技术、IEEE 802.16技术等。

装置10可以包括可以存储与移动订户有关的信息元素的存储器，诸如订户身份模块(SIM)38、可移动用户身份模块(R-UIM)、eUICC、UICC等。除了SIM，装置10可以包括其他可移动和/或固定存储器。装置10可以包括易失性存储器40和/或非易失性存储器42。例如，易失性存储器40可以包括随机存取存储器(RAM)，其包括动态和/或静态RAM、片上或片外高速缓存存储器等。可以被嵌入和/或可移动的非易失性存储器42可以包括例如只读存储器、闪存、磁存储设备(例如，硬盘、软盘驱动器、磁带)、光盘驱动器和/或介质、非易失性随机存取存储器(NVRAM)等。像易失性存储器40一样，非易失性存储器42可以包括用于临时存储数据的高速缓存区域。易失性和/或非易失性存储器的至少一部分可以被嵌入在处理器20中。存储器可以存储可以由装置使用以执行本文中公开的操作的一个或多个软件程序、指令、信息、数据等，包括例如：通过经训练的机器学习模型处理图像的第一分段和图像的第二分段，第一分段使用基于深度信息而选择的第一滤波器被处理以使得能够形成第一密度图，并且第二分段使用基于深度信息而选择的第二滤波器被处理以使得能够形成第二密度图；通过经训练的机器学习模型将第一密度图和第二密度图组合以形成图像的密度图；通过经训练的机器学习模型基于密度图提供输出，该输出表示图像中的对象的数量的估计，和/或本文中关于用于对图像中的对象进行计数的CNN、MCCNN 400等而公开的其他方面。

存储器可以包括能够唯一地标识装置10的标识符，诸如国际移动设备标识(IMEI)代码。存储器可以包括能够唯一地标识装置10的标识符，诸如国际移动设备标识(IMEI)代码。在示例实施例中，处理器20可以使用存储在存储器40和/或42处的计算机代码被配置为控制和/或提供本文中公开的一个或多个方面(例如，参见过程600、700、和/或本文中公开的其他操作)。例如，处理器20可以使用存储在存储器40和/或42处的计算机代码被配置为至少包括例如：通过经训练的机器学习模型处理图像的第一分段和图像的第二分段，第一分段使用基于深度信息而选择的第一滤波器被处理以使得能够形成第一密度图，并且第二分段使用基于深度信息而选择的第二滤波器被处理以使得能够形成第二密度图；通过经训练的机器学习模型将第一密度图和第二密度图组合以形成图像的密度图；和/或本文中关于用于对图像中的对象进行计数的CNN、MCCNN 400等而公开的其他方面。

本文中公开的一些实施例可以以软件、硬件、应用逻辑、或软件、硬件和应用逻辑的组合来实现。例如，软件、应用逻辑和/或硬件可以驻留在存储器40、控制装置20或电子组件上。在一些示例实施例中，应用逻辑、软件或指令集被维持在各种常规计算机可读介质中的任何一种上。在本文档的上下文中，“计算机可读介质”可以是任何非瞬态介质，其可以包含、存储、传送、传播或传输用于由指令执行系统、装置或设备(诸如计算机或数据处理器电路系统)使用或与其相结合使用的指令，其示例在图7描绘，计算机可读介质可以包括非瞬态计算机可读存储介质，非瞬态计算机可读存储介质可以是可以包含或存储用于由指令执行系统、装置或设备(诸如计算机)使用或与其相结合使用的指令的任何介质。

根据期望的配置，本文中描述的主题可以实施在系统、装置、方法和/或制品中。例如，本文中描述的基站和用户设备(或其中的一个或多个组件)和/或过程可以使用以下中的一项或多项来实现：执行程序代码的处理器、专用集成电路(ASIC)、数字信号处理器(DSP)、嵌入式处理器、现场可编程门阵列(FPGA)和/或其组合。这些各种实现可以包括在一个或多个计算机程序中的实现，该一个或多个计算机程序在包括至少一个可编程处理器的可编程系统上是可执行的和/或可解译的，该可编程处理器可以是专用的或通用的，该可编程处理器被耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令并且向其传输数据和指令。这些计算机程序(也称为程序、软件、软件应用、应用、组件、程序代码或代码)包括用于可编程处理器的机器指令，并且可以以高级过程和/或面向对象的编程语言和/或以汇编/机器语言来实现。如本文中使用的，术语“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、机器可读介质、计算机可读存储介质、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑器件(PLD))，包括接收机器指令的机器可读介质。类似地，本文中还描述了可以包括处理器和耦合到处理器的存储器的系统。存储器可以包括使处理器执行本文中描述的一个或多个操作的一个或多个程序。

尽管上面已经详细描述了一些变体，但是其他修改或添加是可能的。特别地，除了本文中阐述的特征和/或变化，还可以提供另外的特征和/或变化。此外，上述实现可以涉及所公开的特征的各种组合和子组合、和/或以上公开的若干另外的特征的组合和子组合。其他实施例可以在所附权利要求的范围内。

如果需要，本文中讨论的不同功能可以以不同的顺序和/或彼此并发地执行。此外，如果需要，上述功能中的一个或多个可以是可选的，或者可以被组合。尽管在独立权利要求中陈述了一些实施例的各个方面，但是一些实施例的其他方面包括来自所描述的实施例和/或从属权利要求的特征与独立权利要求的特征的其他组合，而不仅仅是权利要求中明确列出的组合。本文中还应当注意，尽管以上描述了示例实施例，但是这些描述不应当以限制性的意义来理解。而是，在不脱离如所附权利要求书中限定的一些实施例的范围的情况下，可以进行若干变化和修改。其他实施例可以在所附权利要求的范围内。术语“基于”包括“至少基于”。除非另外指出，否则短语“诸如”的使用表示“诸如例如”。

Claims

1.一种方法，包括：

通过经训练的机器学习模型来处理图像的第一分段和所述图像的第二分段，所述第一分段使用基于深度信息而选择的第一滤波器被处理以使得能够形成第一密度图，并且所述第二分段使用基于所述深度信息而选择的第二滤波器被处理以使得能够形成第二密度图；

通过所述经训练的机器学习模型将所述第一密度图和所述第二密度图组合以形成针对所述图像的密度图；以及

通过所述经训练的机器学习模型基于所述密度图来提供输出，所述输出表示所述图像中的对象的数量的估计。

2.根据权利要求1所述的方法，还包括：

通过所述经训练的机器学习模型接收包括多个对象的所述图像，其中所述图像基于所述深度信息被至少分段为所述第一分段和所述第二分段。

3.根据权利要求2所述的方法，其中所述深度信息从另一机器学习模型被接收，所述另一机器学习模型被训练为从所述图像输出所述深度信息。

4.根据权利要求1至3中任一项所述的方法，其中所述经训练的机器学习模型包括多列卷积神经网络，所述多列卷积神经网络包括第一卷积神经网络和第二卷积神经网络。

5.根据权利要求4所述的方法，其中所述第一卷积网络包括所述第一滤波器，其中所述第二卷积网络包括所述第二滤波器，并且其中所述第一滤波器和所述第二滤波器每个均包括卷积层。

6.根据权利要求1至5中任一项所述的方法，其中所述深度信息指示所述第一分段和/或所述第二分段的位置。

7.根据权利要求1至6中任一项所述的方法，其中所述深度信息指示归因于距相机的距离的对象大小，并且/或者其中所述深度信息指示所述第一滤波器的第一滤波器大小和所述第二滤波器的第二滤波器大小。

8.根据权利要求7所述的方法，还包括：

通过所述经训练的机器学习模型并且基于所述深度信息来选择所述第一滤波器的所述第一滤波器大小和所述第二滤波器的所述第二滤波器大小。

9.根据权利要求1至8中任一项所述的方法，还包括：

基于参考图像来训练所述机器学习模型以学习密度图的生成。

10.根据权利要求1至9中任一项所述的方法，其中所述多个对象包括多个人、多个车辆和/或一群人。

11.根据权利要求1至10中任一项所述的方法，其中所述第一密度图估计所述第一分段中的对象的密度，其中所述第二密度图估计所述第二分段中的对象的密度，并且其中所述密度图估计所述图像中的对象的密度。

12.一种装置，包括：

至少一个处理器；以及

包括程序代码的至少一个存储器，所述程序代码在被执行时使得所述装置至少：

13.根据权利要求12所述的装置，其中所述装置还被使得至少：

14.根据权利要求13所述的装置，其中所述深度信息从另一机器学习模型被接收，所述另一机器学习模型被训练为从所述图像输出所述深度信息。

15.根据权利要求12至14中任一项所述的装置，其中所述经训练的机器学习模型包括多列卷积神经网络，所述多列卷积神经网络包括第一卷积神经网络和第二卷积神经网络。

16.根据权利要求15所述的装置，其中所述第一卷积网络包括所述第一滤波器，其中所述第二卷积网络包括所述第二滤波器，并且其中所述第一滤波器和所述第二滤波器每个均包括卷积层。

17.根据权利要求12至16中任一项所述的装置，其中所述深度信息指示所述第一分段和/或所述第二分段的位置。

18.根据权利要求12至17中任一项所述的装置，其中所述深度信息指示归因于距相机的距离的对象大小，并且/或者其中所述深度信息指示所述第一滤波器的第一滤波器大小和所述第二滤波器的第二滤波器大小。

19.根据权利要求18所述的装置，其中所述装置还被使得至少：

20.根据权利要求12至19中任一项所述的装置，其中所述装置还被使得至少：

21.根据权利要求12至20中任一项所述的装置，其中所述多个对象包括多个人、多个车辆和/或一群人。

22.根据权利要求12至21中任一项所述的装置，其中所述第一密度图估计所述第一分段中的对象的密度，其中所述第二密度图估计所述第二分段中的对象的密度，并且其中所述密度图估计所述图像中的对象的密度。

23.一种装置，包括：

用于通过经训练的机器学习模型来处理图像的第一分段和所述图像的第二分段的部件，所述第一分段使用基于深度信息而选择的第一滤波器被处理以使得能够形成第一密度图，并且所述第二分段使用基于所述深度信息而选择的第二滤波器被处理以使得能够形成第二密度图；

用于通过所述经训练的机器学习模型将所述第一密度图和所述第二密度图组合以形成针对所述图像的密度图的部件；以及

用于通过所述经训练的机器学习模型基于所述密度图来提供输出的部件，所述输出表示所述图像中的对象的数量的估计。

24.根据权利要求23所述的装置，还包括用于执行根据权利要求2至11中任一项所述的方法的部件。

25.一种包括程序代码的非瞬态计算机可读介质，所述程序代码在被执行时引起操作，所述操作包括：

26.一种计算机程序产品，包括用于执行根据权利要求1至11中任一项所述的方法的部件。