CN114641800A

CN114641800A - 用于预报人群动态的方法和系统

Info

Publication number: CN114641800A
Application number: CN202080075759.XA
Authority: CN
Inventors: 米谷竜; 黑濑真衣
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2019-11-20
Filing date: 2020-11-13
Publication date: 2022-06-17
Also published as: JP2023501690A; US20210150196A1; JP7276607B2; EP4062363A1; EP4062363A4; WO2021099904A1; US11106904B2

Abstract

一种用于对人群运动进行建模的方法，包括：获得物理场馆的图像的时间序列；以及针对图像的每一个，根据预定映射将相应图像细分成相应逻辑像素集。对于每个图像的每个逻辑像素，该方法计算相应的人群密度，该人群密度表示在逻辑像素处的物理场馆中每单位面积的移动对象的相应数量，从而形成对应于图像的时间序列的人群密度图的时间序列。然后，该方法使用连续的人群密度图对来训练关于物理场馆处人群密度的时空变化的模型。还公开了一种使用物理场馆的当前图像和经训练的模型来预测物理场馆处的未来人群密度图的方法。

Description

用于预报人群动态的方法和系统

技术领域

所公开的实现方式一般涉及人群动态，并且更具体地涉及用于预测人群密度行为的系统和方法。

背景技术

预报人群行为可以用于许多辅助技术，例如避免碰撞、驾驶员辅助和引导视障人士等。当前可用的用于预报人群行为的技术通常包括识别和跟踪个体的精确位置。然而，这引起了对隐私的担忧，跟踪个体的确切位置或轨迹可能会被用来揭示个体的身份和/或个体的个人和私人信息。因此，当前的技术在预报人群行为时不能保护个体的私人信息和位置。

发明内容

为了有效地预报人群行为，重要的是检测和映射视场中的运动和变化，以便理解和正确地预测人群行为。然而，现有技术需要跟踪个体的轨迹和/或精确位置，这可能导致无数的隐私问题。

因此，需要能够预报人群行为同时保护人群中每个个体的隐私和个人信息的工具。还需要采用这种预测的工具，以允许系统有效地引导或帮助其用户导航人群。该问题的一个解决方案是将人群可视化为密度图，而不是跟踪人群中的每个个体。密度图允许该技术可视化人群密度随时间的移动和变化，同时为人群中的个体提供匿名性。因此，该技术的身份匿名方面允许在保护个体隐私的同时概括结果(例如，不特定于某些个体及其特定行为)。

根据一些实现方式，一种用于对物理场馆处的人群运动建模的方法在具有显示器、一个或多个处理器和存储器的电子设备处执行。例如，电子设备可以是智能电话、平板、笔记本计算机或台式计算机。设备获得物理场馆的图像的时间序列。对于每个图像，设备根据预定映射将相应的图像细分为相应的逻辑像素集。对于每个图像的每个逻辑像素，该设备计算相应的人群密度，该人群密度表示在逻辑像素处的物理场馆中每单位面积的移动对象的相应数量，从而形成对应于图像的时间序列的人群密度图的时间序列。然后，该设备使用连续的人群密度图对来训练关于物理场馆处人群密度的时空变化的模型。

在一些实例中，时间序列中的连续图像之间的时间增量(例如，时间差)在图像上是一致的(例如，连续图像之间为100毫秒)。在其他情况下，时间增量根据连续图像对而不同(例如，第一连续图像对之间50毫秒，第二连续图像对之间125毫秒)。当图像不是以固定间隔捕获时，一些实现方式使用插值来生成具有一致时间增量的图像集。

在一些实例中，移动对象是人。在一些实例中，移动对象是非人类动物。在一些实例中，移动对象是机动车辆，如汽车，或非机动车辆，如自行车。在一些实例中，移动对象是飞机或无人驾驶飞机。在一些实例中，移动对象是移动机器人。通常，移动对象可以是能够自主移动的任何物体。在一些实例中，移动对象都是相同类型的(例如，所有移动对象都是人)。在其他实例中，移动对象具有两种或更多种不同类型(例如，行人和自行车上的人)。

在一些实现方式中，物理场馆是公园、机场、火车站、竞技场、大型购物中心、工厂、家、水体、天空或街角的一部分。物理场馆可以是任何室内或室外物理场馆，其中存在许多自主移动对象。

在一些实现方式中，每个逻辑像素对应于图像中的相应单个物理像素。

在一些实现方式中，每个逻辑像素对应于图像中的相应多个物理像素。

在一些实现方式中，进一步包括获得与图像的每一个相关联的附加信息并且使用附加信息来训练模型。

在一些实现方式中，附加信息包括以下信息中的一种或多种：(i)图像的每一个的时间戳，(ii)与图像的每一个相关联的一个或多个天气参数，(iii)图像的每一个的星期几指示，以及(iv)图像的每一个中的每个逻辑像素的场景上下文注释；(v)图像的每一个的场景上下文注释(例如，“家”、“室内”、“室外”、“公园”或“游乐园”)；(vi)距离信息；以及(vii)热信息。

在一些实现方式中，计算每个逻辑像素处的人群密度包括将每个图像的每一个与一个或多个高斯图卷积。

在一些实现方式中，计算每个逻辑像素处的人群密度包括下采样。

在一些实现方式中，时间增量(例如，图像序列中的连续图像之间的时间差)是介于一毫秒和一周之间的值。相关的时间增量取决于移动对象的类型和这些对象的速度。如上所述，一些实现方式使用一致的时间增量，而其他实现方式根据选择哪对连续图像而具有变化的时间增量。

在一些实现方式中，训练模型包括：将每个连续对分类为容易、中等或困难，最初使用分类为容易的连续对来训练模型，使用分类为中等的连续对来继续训练模型，并使用分类为困难的连续对来完成训练模型。

在一些实现方式中，经训练的模型根据输入图像和来自输入图像的所请求的时间偏移来提供人群密度的时空变化的预测。

在一些实现方式中，提供人群密度的时空变化的预测使用场景信息。例如，场景信息可以包括场景类型和/或天气条件。

在一些实现方式中，经训练的模型还为所提供的预测提供准确度估计。

在一些实现方式中，图像的时间序列包括多个时间子序列，其中用于训练模型的连续人群密度图对中的每一对包括单个相应时间子序列内的相应人群密度图对。

图像的时间序列由能够捕获图像的各种相机和设备捕获。例如，可以通过以下设备中的一个或多个来捕获图像：(i)静态监视相机，(ii)PTZ(平移/倾斜/变焦)监视相机，(iii)数字相机，(iv)智能电话的图像传感器，(v)航拍相机(vi)车载相机，或(vii)测距仪联动相机。

根据一些实施方式，一种预测物理场馆处的未来人群密度图的方法在具有显示器、一个或多个处理器和存储器的电子设备处执行。例如，电子设备可以是智能电话、平板、笔记本计算机或台式计算机。设备获得物理场馆的人群运动的经训练的模型。根据物理场馆的图像的时间序列来训练模型。设备获得物理场馆的当前图像，并根据在模型训练期间使用的预定映射将当前图像细分为逻辑像素集。对于每个逻辑像素，设备计算表示在逻辑像素处的物理场馆中每单位面积的移动对象的相应数量的相应人群密度，从而形成对应于当前图像的人群密度图。然后，该设备接收从对应于当前图像的时间起的、指定的未来时间偏移，并将经训练的模型适用于当前人群密度图和指定的未来时间偏移，以预测在指定的未来时间偏移处的物理场馆处的人群密度图。

在一些情况下，时间序列中的连续图像之间的时间增量(例如，时间差)在图像上是一致的(例如，连续图像之间为200毫秒)。在其他情况下，时间增量取决于连续图像对而不同(例如，第一连续图像对之间25毫秒，第二连续图像对之间200毫秒)。当图像不是以固定间隔捕获时，一些实现方式使用插值来生成具有一致时间增量的图像集。

在一些实现方式中，附加信息包括以下信息中的一种或多种：(i)当前图像的时间戳，(ii)与当前图像相关联的一个或多个天气参数，(iii)当前图像的星期几指示符，(iv)当前图像中的每个逻辑像素的场景上下文注释，(v)当前图像的场景上下文注释(例如，“家”、“室内”、“室外”、“公园”或“游乐园”)，(vi)当前图像的距离信息，以及(vii)当前图像的热信息。

在一些实现方式中，计算每个逻辑像素处的人群密度包括将当前图像与一个或多个高斯图卷积。

在一些实现方式中，时间增量(例如，图像序列中的连续图像之间的时间差)介于一毫秒和一周之间。

在一些实现方式中，将经训练的模型适用于当前人群密度图包括将指定的未来时间偏移表示为Δt的整数倍N，并且设备从当前人群密度图开始顺序地适用经训练的模型N次。

在一些实现方式中，适用经训练的模型提供了根据当前图像和指定的未来时间偏移的人群密度的时空变化的预测。

在一些实现方式中，提供人群密度的时空变化的预测进一步包括根据场景信息来提供预测，包括场景类型和/或天气状况。

在一些实现方式中，适用经训练的模型还为所提供的预测提供准确度估计。

典型地，电子设备包括一个或多个处理器、存储器、显示器和存储在存储器中的一个或多个程序。程序配置为由一个或多个处理器执行，并且配置为执行这里描述的任何方法。

在一些实现方式中，非瞬态计算机可读存储介质存储配置为由具有一个或多个处理器、存储器和显示器的计算设备执行的一个或多个程序。一个或多个程序配置为执行这里描述的任何方法。

因此，公开了提供人群动态预报同时保持人群中个体个人隐私和匿名的方法和系统。

前述一般描述和以下详细描述都是示例性和解释性的，并且旨在提供对所要求保护的本发明的进一步解释。

附图说明

为了更好地理解上述系统、方法和图形用户界面以及提供数据可视化分析的其他系统、方法和图形用户界面，应结合以下附图来参考以下实现方式的描述，其中相同的符号在所有附图中指代相应的部分。

图1示出了根据一些实现方式的人群动态预报。

图2是说明根据一些实现方式的计算设备的框图。

图3A说明了根据一些实现方式如何将图像转换成密度图。

图3B和3C说明了根据一些实现方式的逻辑像素和图像像素之间的映射的示例。

图4A-4C说明了根据一些实现方式训练动态模型的状况。

图4D-4E说明了根据一些实现方式的用于训练动态模型的图像的时间序列的示例。

图4F说明了根据一些实现方式的注释图像的示例。

图5A说明了根据一些实现方式使用用于预报人群密度的动态模型的状况。

图5B是根据一些实现方式的人群密度图预报的示例。

图5C是根据一些实现方式的人群密度图的示例。

图6A-6C提供了根据一些实现方式的用于对人群运动建模的方法的流程图。

图7A-7C提供了根据一些实现方式的用于预测未来人群密度图的方法的流程图。

现在将参考实现方式，其示例在附图中图示。在下文的描述中，给出了大量具体的细节以便提供对本发明彻底的理解。然而，对于本领域普通技术人员来说显而易见的是，可以在不需要这些具体细节的情况下实施本发明。

具体实施方式

图1示出了使用物理场馆的当前图像110(例如，在当前时间拍摄的图像，T＝T0)生成人群密度图预报。物理场馆可以是公共区域，例如公园、交叉路口、街角，或机场、火车站或大型购物中心的一部分。当前图像110可以使用相机拍摄，并且可以是捕获的图片或来自物理场馆的视频(例如，安全视频监视)的帧。计算机系统120接收当前图像110，并使用密度图模块122将当前图像110转换为人群密度图112，人群密度图表示当前图像110中所示的物理场馆的人群密度。下面参考图3A-3C描述将图像转换为人群密度图的过程，其中人群密度图中的每个逻辑像素对应于(例如，映射到)图像中的一个或多个像素。因此，人群密度图是每单位面积的个体数目的表示。在将当前图像110转换成人群密度图112之后，动态模型124使用来自人群密度图112的信息，并提供未来时间T>T0的预测人群密度图114。为了提供准确的预测，需要训练动态模型124。下面参考图4B和4C描述的动态模型124的训练过程包括向动态模型124提供人群密度图(从图像导出)的时间序列，使得动态模型124可以学习人群密度和人群行为的时间变化。下面会参考图5A描述生成预测人群密度图114的过程，图5B提供了预测人群密度图114的详细示例。

通过将捕获的图像转换为人群密度图，该系统和方法允许动态模型124学习和预报人群行为，而无需识别和跟踪个体的运动，从而保护他们的个人信息和隐私。

图2A是说明根据一些实现方式的可以训练和/或执行动态模型124的对应于计算机系统120的计算设备200的框图。计算设备200的各种示例包括台式计算机、膝上型计算机、平板计算机以及具有能够训练和/或运行动态模型124的处理器的其他计算设备。计算设备200还可以是托管一个或多个数据库(例如，图像或视频的数据库)、模型或模块的数据服务器，或者可以提供各种可执行的适用程序或模块。计算设备200典型地包括一个或多个处理单元(处理器或核)202、一个或多个网络或其他通信接口204、存储器206、以及用于互连这些部件的一个或多个通信总线208。通信总线208可选地包括互连并控制系统部件之间的通信的电路(有时称为芯片组)。计算设备200典型地包括用户接口210。用户接口210通常包括显示设备212(例如，屏幕或监视器)。在一些实现方式中，计算设备200包括诸如键盘、鼠标和/或其他输入按钮216的输入设备。可替代地或另外地，在一些实现方式中，显示设备212包括触敏表面214，在这种情况下，显示设备212是触敏显示器。在一些实施方式中，触敏表面214配置为检测各种滑动手势(例如，在垂直和/或水平方向上的连续手势)和/或其他手势(例如，单击/双击)。在具有触敏表面214(例如，触敏显示器)的计算设备中，物理键盘是可选的(例如，当需要键盘输入时，可以显示软键盘)。用户接口210还包括音频输出设备218，诸如扬声器或连接到扬声器、耳机或头戴式耳机的音频输出连接。此外，一些计算设备200使用麦克风220和语音识别软件来补充或替换键盘。音频输入设备220(例如，麦克风)捕获音频(例如，来自用户的语音)。

存储器206包括高速随机存取存储器，例如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备；并且可以包括非易失性存储器，例如一个或多个磁盘存储设备、光盘存储设备、闪存设备或其他非易失性固态存储设备。在一些实现方式中，存储器206包括远离处理器202的一个或多个存储设备。存储器206或者存储器206内的非易失性存储器设备包括非瞬态计算机可读存储介质。在一些实现方式中，存储器206或存储器206的计算机可读存储介质存储以下程序、模块和数据结构，或其子集或超集：

·操作系统222，其包括用于处理各种基本系统服务和用于执行硬件相关任务的过程；

·通信模块224，其用于将计算设备200通过一个或多个通信网络接口204(有线或无线)，如互联网、其他广域网、局域网、城域网等，连接到其他计算机和设备；

·网络浏览器226(或能够显示网页的其他应用)，其使用户能够通过网络与远程计算机或设备通信；

·音频输入模块228(例如，麦克风模块)，其用于处理由音频输入设备220捕获的音频。所捕获的音频可以被发送到远程服务器和/或由在计算设备200上执行的应用程序(例如，数据可视化应用程序230)来处理；

·密度图模块122，其用于将图像(例如，如来自视频的帧的照片的实像)转换为密度图。密度图模块122可以包括识别图像内的个体的检测模块232。个体可以包括人、非人类动物、机动车辆和非机动车辆。检测模块232还可以识别移动的(例如，可移动)和非移动的(例如，静止的)对象，例如移动的汽车或停在人行横道上的行人。密度图模块122还可以包含人群密度估计模块234，人群密度估计模块计算人群密度图112的每个逻辑像素的人群密度值。人群密度值表示如捕获图像中所示的物理场馆的每单位面积的个体或对象的数目。密度图模块122还可以包含全球定位系统(GPS)映射模块236，全球定位系统(GPS)映射模块可以将GPS信息映射到捕获的图像或视频帧；

·编码模块240，其将图像的时间序列转换为从过去到当前时间的人群动态的特征图；

·动态模型124，其生成未来时间的预测人群密度图114。使用图像的一个或多个时间序列来训练动态模型124。动态模型124可以包括一个或多个动态子模型250-1、250-2……250-n，单独地或共同地称为动态子模型250-n。动态子模型250-n可以包括特定于场馆的信息，如竞技场的音乐会或比赛时间表，或火车站的火车时间表。或者，动态子模型250-n可以包括诸如天气(历史天气和/或天气预报)、星期几、一天中的时间、或上下文注释的信息；以及

·解码模块260，其将从当前时间到未来时间的人群动态的预测特征图转换成一个或多个预测人群密度图114。

在一些实现方式中，存储器206存储由动态模型124确定的度量和/或分数。此外，存储器206可以存储阈值和其他标准，它们与由动态模型124确定的度量和/或分数进行比较。例如，动态模型124可以确定(例如，计算)每个生成的预测人群密度图114的置信水平或准确度分数。在另一示例中，动态模型124可以用关于其预报的准确性的反馈来更新，并且动态模型124可以将计算出的置信水平与存储在存储器206中的关于先前预报的反馈进行比较，并相应地调整置信水平。

以上标识的可执行模块、应用程序或过程集中的每一个可以存储在一个或多个先前提到的存储器设备中，并且对应于用于执行上述功能的指令集。以上标识的模块或程序(即，指令集)不需要被实现为单独的软件程序、过程或模块，并且因此这些模块的各种子集可以在各种实现方式中被组合或以其他方式重新布置。在一些实现方式中，存储器206存储以上标识的模块和数据结构的子集。此外，存储器206可以存储上面没有描述的附加模块或数据结构。

虽然图2A示出了计算设备200，但是图2A更旨在作为可能存在的各种特征的功能描述，而不是作为本文所述实现方式的结构示意图。在实践中，并且如本领域普通技术人员所认识到的，单独示出的项目可以被组合并且一些项目可以被分离。

图3A说明了根据一些实现方式如何将图像转换成密度图。密度图模块122接收一个或多个图像并将一个或多个图像中的每个图像310转换成密度图312。对于给定图像310，密度图模块122标识图像310中的个体和/或对象。密度图模块122基于预定映射将图像310细分为相应的逻辑像素集。预定映射指定了逻辑像素和图像310的像素之间的映射，下面会参考图3B和3C进行描述。密度图模块122然后计算密度图312中的每个逻辑像素的人群密度值(例如，估计每个图像中的每个位置有多拥挤)。使用针对每个逻辑像素计算的人群密度值来生成人群密度图，并且因此表示每单位面积的个体和/或对象的数目。

在一些实施方式中，一个或多个图像310是从诸如监控视频的视频中获得的。例如，数据集可以包括在15个具有独特相机方位和位置的不同地点捕获的人群的100个视频。每个视频可以包括每秒30帧(fps)的150帧，并且行人的位置可以在每个帧中被完全注释。在另一示例中，数据集可以包括由类似的倾斜视点捕获的人群的不同场景。数据集可以包括每10帧行人的注释(例如，稀疏注释)。数据集可以被分成用于训练动态模型的多个训练集(其过程会在下面参考图4B描述)。训练集可以包括一个或多个不同的场景。

参考图3B，图像310包括多个个体和/或对象330。在该示例中，每个个体和/或对象330由圆圈表示，并且图像310被细分为多个像素320。对应于图像310的密度图312也被分成多个逻辑像素322。每个逻辑像素322具有计算的人群密度值，其通过颜色、阴影或色调在密度图312中可视地表示。在该示例中，具有高人群密度值的逻辑像素322由暗图案表示，而具有低人群密度值的逻辑像素322由亮图案表示。在一些情况下，密度图312可以是热图，并且人群密度值可以由例如颜色、色调或饱和度的差异来表示。

在一些实现方式中，密度图312中的每个逻辑像素322对应于图像310的一个或多个像素320。例如，图3B示出了密度图312中的逻辑像素322与图像310中的像素320之间的一对一映射(例如，密度图312中的一个逻辑像素322对应于图像310中的一个像素320)。或者，如图3C中所示，密度图312中的每个逻辑像素322可对应于图像310中的超过一个的像素320(在该示例中，密度图312中的每个逻辑像素322对应于图像310中的四个像素320)。

在一些实现方式中，为了计算人群密度值，密度图模块122将图像310与一个或多个高斯图卷积以计算估计的人群密度值。

在一些实现方式中，为了计算人群密度值，密度图模块122对图像310进行下采样(例如，收缩，从其中移除数据的一部分)，以便计算估计的人群密度值。

在一些实现中，例如当图像310是从视频中提取的帧时，每个图像可以覆盖不同的位置，具有重叠覆盖的可能性。在这种情况下，密度图模块122可以将GPS信息映射到每个图像310，从而用精确位置对每个图像进行地理标记。

密度图模块122可以将任意数量的图像310转换成相应数量的密度图312。例如，密度图模块可用于将单个图像310转换成单个密度图312。可替换地，密度图模块122可以将作为图像的时间序列的一部分的多个图像310转换成形成密度图的时间序列的多个密度图312。

图4A-4C说明了根据一些实现方式的用于预报人群密度的训练深度神经网络。在一些实现方式中，深度神经网络包括以下任何一种：密度图模块122、动态模型124、编码模块240和解码模块260。密度图模块122配置为将一个或多个实像转换为一个或多个密度图。下面会参照图4A描述关于密度图模块122的功能的细节。编码模块240配置(例如，训练)为将多个人群密度图转换为特征图。动态模型124配置(例如，训练)为在给定初始人群密度图的情况下在未来时间提供人群密度的预报。解码模块260配置(例如，训练)为将预测特征图(从动态模型124输出)转换为一个或多个预测人群密度图。以下会参考图4B和4C描述关于编码模块240、动态模型124和解码模块260中的每一个的训练和功能的细节。

图4A示出了物理场馆的图像401的时间序列。图像401的时间序列包括历史图像集401-1和未来图像集401-2。历史图像集401-1中的每个图像具有对应于T≤T0的时间，而未来图像集401-2中的每个图像具有对应于T>T0的时间。历史图像集401-1用于训练动态模型124，未来图像集401-2用于验证在未来时间(例如，T>T0)的人群密度图的预测。

历史图像集401-1被转换(例如，由密度图模块122)成密度图410的时间序列。在一些实现方式中，历史图像集401-1中的每个图像被转换成相应的密度图410。密度图410的时间序列被用作训练集以训练动态模型124。在一些实例中，密度图410的时间序列用于训练编码模块240和解码模块260。

未来图像集401-2被转换(例如，由密度图模块122)成地面真实密度图402的集。在一些实现方式中，未来图像集401-2中的每个图像被转换成相应的地面真实人群密度图。地面真实密度图402用于评估从动态模型124输出的预测人群密度图的准确性。基于来自评估的反馈，模型可以被修改为更精确。

参看图4B，编码模块240接收物理场馆的密度图410的时间序列，且(i)将密度图410的时间序列转换为物理场馆的特征图412。可以将从视频的第t个输入视频帧中提取的密度图410的时间序列的密度图或从具有尺寸W×H(例如，宽度乘高度)的图像401的时间序列中提取的第t个图像的密度图表示为c_t∈[0,1]^W×H。长度为T_in的人群密度图的输入序列(对应于密度图410的时间序列)可以表示为

由ε表示的编码模块240被适用于密度图410的时间序列，由此将密度图410的时间序列转换为具有K维的特征图412(例如z_t＝ε(t))。因此，具有尺寸W'×H'(其中W'<W且H'<H)×K×T_in的特征图412可以表示为

密度图410和对应的特征图412的时间序列覆盖物理场馆处的时间范围T≤T0(例如T_in)。动态模型124接收特征图412，并且使用特征图412中的连续的密度图410的对，动态模型124学习物理场馆处人群密度的时空变化。随着训练的进行，动态模型124能够(ii)输出在物理场馆的未来的一个或多个时间(例如，T>T0)的预测特征图414。具有尺寸W'×H'(其中W'<W且H'<H)×K×T_out的预测特征图414可表示为：

在一些情况下，T_out具有与T_in不同的值。通过最小化K维特征图序列(Z)的输入小批量的均方误差(MSE)来训练动态模型124：

将由D表示的解码模块260适用于预测特征图414(例如D(Z_t)∈[0,1]^W×H)，从而(iii)将预测特征图414转换为预测密度图416。预测密度图416是长度为T_out的人群密度图的序列，表示为

每个预测密度图416是在物理场馆的未来时间(例如，T>T0)的人群密度的预报。

使用人群密度图的集合联合训练编码模块240和解码模块260。例如，给定小批量的大小为B的输入序列，表示为

编码模块240(ε)和解码模块260(D)的可训练参数通过最小化以下的二进制交叉熵(BCE)损失L(C)来训练：

有关训练过程的其他细节如图4C所示。编码模块240将密度图410的时间序列的每个密度图410分解为空间上彼此重叠的多个补丁(patch)420(例如，多个空间部分)。补丁420可以被认为是时间序列，其包括密度图410的时间序列的每个密度图的相应部分，而不是全部。例如，表示第一时间(T’)处的人群密度的连续密度图对的第一密度图包括多个空间重叠部分(例如，部分422-1、422-2)。每个部分覆盖比第一密度图所覆盖的物理区域小的物理(例如地理)区域。表示不同于第一时间(例如，T’≠T”)的第二时间(T”)处的人群密度的连续密度图对中的第二密度图包括多个空间上重叠的部分(例如，部分424-1、424-2)。部分422-1和424-1示出了在不同时间(分别为T’和T”)在相同物理区域中的人群密度，并且形成提供该区域的人群动态的时间信息的补丁420(例如，由连续的图像对形成)。特征图412包括每个补丁420的紧凑特征表示。编码模块240在空间上将补丁420重叠到K维潜在空间中，这允许观察人群密度图的一部分区域(例如，一小部分、少于全部)中的时空图案。这将整个密度图410的集的复杂人群动态简化为更简单的时空图案。因此，动态模型124学习紧凑的潜在空间中的补丁式密度动态(与试图学习包含许多组和个体的大面积上的复杂密度动态相反)。例如，与其尝试在诸如自助餐厅这样的大范围内学习人群动态，其中可能包括许多不同的个体和群组(如坐着吃饭的人，排队缓慢移动的人，以及徘徊寻找座位的人)，动态模型124可以学习简化的时空模式，如第一区域中的人(例如，在桌子旁)是静止的，而第二区域中的人(如，排队)正在以可预测的路径缓慢移动(例如，直线)。

在一些实现方式中，K维潜在特征空间是多维潜在特征空间(例如，K>1，而不是单维特征)。如上所述，人群动态可能非常复杂，尤其是当有多个个体或群组彼此独立地行动或移动时。因此，在训练动态模型124以学习时空图案以便在潜在空间中执行预报时，允许动态模型彼此独立地处理每个补丁420，从而简化复杂人群动态的问题。

在一些情况下，编码模块240是完全卷积编码器。在一些情况下，解码模块260是完全卷积补丁解码器。

在一些实现方式中，通过将由动态模型124生成的预报密度图(例如，预测密度图416)与地面真实人群密度图进行比较来评估动态模型124的性能。例如，如果动态模型124输出时间T_未来>T0的预测密度图416，则将预测密度图416与对应于时间T_未来的地面真实密度图(例如，来自地面真实密度图402的集的地面真实密度图，从以上参照图4A描述的未来图像集401-2获得)进行比较。

在一些实现方式中，将预测密度图416与对应的地面真实密度图402进行比较包括对输入到动态模型124(例如，经由编码模块240间接输入到动态模型124)的密度图410、从动态模型124输出的预测密度图416、以及对应的地面真实密度图402中的每一个进行平滑。例如，将具有预定内核大小(σ)的时空高斯滤波器适用于这些密度图(例如，人群密度图410、预测密度图416和地面真实密度图402)中的每一个，以便平滑密度图中的每一个。内核大小(σ)确定期望动态模型124执行得有多精确。内核大小(σ)可以被认为是动态模型124将做的“多近似”，较大内核大小(σ)对应于“更多近似”，较小内核大小(σ)对应于“较少近似”。因此，当预定内核大小(σ)小时，与较大的预定内核大小(σ)相比，预测的结果(例如，预测密度图416)预期更严格地拟合地面真实密度图402。

在一些实现方式中，如图4E所示，图像401的时间序列中的连续图像(并且因此密度图的时间序列中的连续密度图410)之间的时间增量(例如，时间差)具有在图像401的时间序列上一致的值(Δt)。例如，图像的时间序列可以包括间隔10分钟拍摄的10个连续图像。在另一个示例中，从视频中提取的图像的时间序列可以包括从二小时长的视频中获取的间隔1分钟的120个帧。在一些实现方式中，时间增量具有介于1毫秒和一周之间的值(Δt)(例如，在图像的时间序列中的连续图像在彼此间隔1毫秒到彼此间隔1周的任何地方被捕获)。

在一些实施方式中，如图4F所示，图像401的时间序列中的连续图像之间的时间增量(例如，时间差)具有在图像401的时间序列上不一致的值(Δt)(例如，Δt1≠Δt2)。在这种情况下，可以去除图像401的时间序列中的一个或多个图像，以创建具有与值(Δt)一致的时间增量的图像集。可替换地，图像401的时间序列可以被内插以生成具有与值(Δt)一致的时间增量的图像集。在任一情况下，所得到的具有一致的值(Δt)的时间增量的图像集然后可用于获得具有一致的值(Δt)的时间增量的密度图410的时间序列。

在一些实现方式中，根据难度级别对特征图412中的连续密度图对中的每一个进行分类。例如，连续的密度图对可以被分类为容易的、中等的或困难的。在一些实现方式中，动态模型124最初使用被分类为容易的密度图的连续对来训练。在使用被分类为容易的连续密度图对进行训练之后，然后使用被分类为中等的连续密度图对，接着是被分类为困难的连续密度图对对动态模型124进行训练。训练过程的这种进展被设计为使得动态模型124在训练过程的早期不被提供困难的训练集，可能导致动态模型124不能提供预报或导致动态模型124中的误差。

在一些实现方式中，使用与图像401的时间序列中的每个图像(并且因此与密度图的时间序列中的对应密度图410)相关联的附加信息来训练动态模型124。附加信息可以包括以下信息中的一种或多种：(i)图像401/密度图410的每一个的时间戳；(ii)与图像401/密度图410的每一个相关联的一个或多个天气参数；(iii)图像401/密度图410的每一个的星期几指示符；以及(iv)图像401/密度图410的每一个中的每个逻辑像素的场景上下文注释。在一些实现方式中，与图像的时间序列中的每个图像相关联的附加信息可以自动估计或由用户或注释者手动提供。图4F提供了已经用行人的位置(示为圆圈)注释的图像430的示例。

在一些实现方式中，动态模型124可以经历第一次训练(例如，动态模型124最初未被训练)。可替代地，动态模型124可以经受附加的训练以便改进或更新模型。

图5A说明了根据一些实现方式使用经训练的动态模型124来预报人群密度。对应于计算机系统120和/或计算设备200的计算机系统在当前时间(例如，T＝T0)接收物理场馆的当前图像510。计算机系统将当前图像510转换(例如，经由编码模块240)为表示当前图像510的人群密度的当前人群密度图512。响应于接收到当前人群密度图512，动态模型124生成一个或多个预测人群密度图520。一个或多个预测人群密度图520的每个预测人群密度图(例如，预测人群密度图520-1、520-2、520-3、……、520-n)是在未来特定时间(例如，T>T0)在物理场馆的人群密度的预报。

在一些实现方式中，计算机系统可以接收从对应于当前图像510的时间(T0)起的、指定的未来时间偏移(T1)，并且由动态模型124生成的预测人群密度图520是根据当前图像510和指定的未来时间偏移(T1)的人群密度的时空变化的预测。

在一些实现方式中，计算机系统可以接收从对应于当前图像510的时间(T0)起的、指定的未来时间偏移(T1)，并且将动态模型124适用于当前人群密度图512和指定的未来时间偏移(例如，T＝T0+T1)，使得由动态模型124生成的预测人群密度图520是在指定的未来时间偏移(T＝T0+T1)处的物理场馆处的人群密度图预报。

在一些实现方式中，指定的未来时间偏移被表示(例如，提供)为时间增量值(Δt)的整数倍(N)。在这种情况下，从当前人群密度图512开始，顺序地适用动态模型124N次。例如，如果指定的未来时间偏移T1等于2Δt，则动态模型124被适用于当前人群密度图512以生成中间预测人群密度图，并且动态模型124随后被适用于中间预测人群密度图，以生成针对指定的未来时间偏移T＝T0+T1的预测人群密度图520，或者换言之，T＝T0+2Δt。

在一些实现方式中，预报的难度取决于时间偏移。例如，近期的人群密度比远期的人群密度更容易预报。

在一些实现方式中，预报的难度取决于人群的空间模式。例如，在不规则交叉处行走的人比并排行走的人表现出更复杂的人群动态。

在一些实现方式中，动态模型124可以基于时间偏移和空间模式(例如，在特定时间或时间偏移处的特定位置或物理场馆)来预测在预报特定未来方面的难度水平。该难度预测可用于动态模型124的进一步训练。难度预测可以以多种方式训练，例如，通过基于当前预报准确度估计或关于当前预报精度的反馈来预测难度。

图5B是根据一些实现方式的人群密度图预报的示例。预测人群密度图520-1被细分为多个逻辑像素530(对应于密度图312的逻辑像素322)。每个逻辑像素530具有人群密度值，人群密度值代表当前图像510中对应于各个逻辑像素530的物理位置处的预期或预报人群密度。在图5B所示的示例中，通过暗图案和亮图案来可视地表示预报人群密度，其中暗图案对应于较密集的区域，而亮图案对应于物理场馆的较不密集(例如，较稀疏)的部分。

在一些实现方式中，预测人群密度图520-1可以包括附加信息，附加信息可以作为预测人群密度图520-1的一部分被可视地显示，作为对预测人群密度图520-1的注释，或者附加信息作为预测人群密度图520-1的元数据的一部分被包括。附加信息包括以下信息中的一个或多个：(i)表示指定的未来时间偏移的日期和/或时间戳；(ii)在未来时间偏移处指定的物理场馆的一个或多个天气预报；(iii)指定未来时间偏移的星期几指示符；以及(iv)预测人群密度图520-1中的一个或多个逻辑像素530的一个或多个场景上下文注释。例如，如图5B所示，预测人群密度图520-1包括时间偏移处的预报置信水平540(例如，估计的预报准确度)和预报天气542。

图5C示出了人群密度图的示例，在该示例中，示出了人群密度热图。人群密度图覆盖在图像(例如，真实图像)的顶部，以说明人群密度图如何表示图像中的移动对象(在这种情况下是人)的数量。

图6A-6C提供了根据一些实现方式的用于对人群运动建模的方法600的流程图。方法600的步骤可以由对应于计算设备200的计算机系统120来执行。在一些实现方式中，计算机包括一个或多个处理器和存储器。图6A-6C对应于存储在计算机存储器或计算机可读存储介质(例如，计算设备200的存储器206)中的指令。存储器存储配置为由一个或多个处理器执行的一个或多个程序。例如，方法600的操作至少部分地由密度图模块122、编码模块240、动态模型124和/或解码模块260来执行。

根据一些实现方式，计算机系统120或计算设备200(610)获得物理场馆的图像(例如，图像310)的时间序列。

在一些实现方式中，时间序列中的连续图像之间的时间增量(Δt)在图像上是一致的。例如，图像的时间序列可以包括48个分离的图像，每个图像是以一小时间隔从两天长的视频中提取的帧。

在一些实现方式中，时间序列中的连续图像之间的时间增量(Δt)在图像上不一致。例如，图像的时间序列可以包括48个分离的图像，其中每个帧以随机时间拍摄，使得连续帧之间的时间间隔不一致(例如，不相同)。

对于每个图像，(620)计算机根据预定映射将相应的图像细分为相应的逻辑像素集(例如，逻辑像素322、530)。对于每个图像的每个逻辑像素，(630)计算机计算相应的人群密度(例如，人群密度值)，人群密度表示在逻辑像素处的物理场馆中的每单位面积的移动对象的相应数量，从而形成对应于图像的时间序列的人群密度图的时间序列(例如，密度图312)。例如，每个人群密度图可以是用颜色编码的热图(例如，红色用于非常高密度，黄色用于高密度，绿色用于中等密度，以及蓝色用于低密度)，以可视地表示每单位面积的个体和/或对象的数量。

然后，(640)计算机使用连续的人群密度图对来训练关于物理场馆的人群密度的时空变化的模型(例如，动态模型124)。

在一些实现方式中，(612)物理场馆是公园、机场、火车站、竞技场、大型购物中心、工厂、家、水体、天空或街角的一部分。

在一些实施方式中，(614)时间增量介于一毫秒和一周之间。例如，图像的时间序列的两个连续图像(例如，图像310)被间隔30分钟捕获。

在一些实现方式中，(622)每个逻辑像素(例如，逻辑像素322)对应于图像(例如，图像310)中的相应单个物理像素(例如，像素320)。提供了关于图3B的示例。

在一些实现方式中，(624)每个逻辑像素(例如，逻辑像素322)对应于图像(例如，图像310)中的相应多个物理像素(例如，像素320)。提供了关于图3C的示例。

在一些实现方式中，(632)移动对象是人、非人、机动车辆、非机动车辆、飞机、无人驾驶飞机和移动机器人。在一些实现方式中，(634)计算每个逻辑像素处的人群密度值包括将每个图像与一个或多个高斯图卷积。

在一些实现方式中，(636)计算每个逻辑像素处的人群密度值包括下采样(例如，收缩、移除数据的一部分)。

在一些实现方式中，(650)计算机获得与每个图像相关联的附加信息，并且计算机使用附加信息来训练动态模型124。关于图5B提供了附加信息的示例。

在一些实现方式中，(652)附加信息包括以下信息中的一个或多个：(i)每个图像的时间戳，(ii)与每个图像相关联的一个或多个天气参数，(iii)每个图像的星期几指示，以及(iv)每个图像中的每个逻辑像素的场景上下文注释。

在一些实现方式中，计算机训练动态模型124。这可以是与执行步骤610-650的计算机系统/计算设备相同的计算机系统/计算设备或不同的计算机系统/计算设备。为了训练动态模型124，计算机将每个连续的图像对分类为容易的、中等的或困难的。计算机首先使用被分类为容易的连续对来训练动态模型124，然后继续使用被分类为中等的连续对来训练模型，并使用被分类为困难的连续对来完成对动态模型124的训练。

在一些实现方式中，(660)经训练的动态模型124根据一个或多个输入图像510和来自输入图像510的所请求的时间偏移(例如，T1、T2、T3、……、Tn)来提供人群密度的时空变化的预测。

在一些实现方式中，(662)提供人群密度的时空变化的预测还包括根据场景信息(包括场景类型和/或天气状况)来提供预测。

在一些实现方式中，(670)经训练的动态模型124为所提供的预测(例如，预测人群密度图520)提供准确度估计(例如，估计置信水平540)。

在一些实现方式中，(680)图像的时间序列(例如，图像310)包括多个时间子序列。用于训练动态模型124的连续人群密度图对中的每一对包括在单个相应时间子序列内的相应人群密度图对。

在一些实现方式中，(690)通过以下中的一个或多个设备来捕获图像的时间序列：(i)静态监视相机，(ii)平移-倾斜-变焦(PTZ)监视相机，(iii)数字相机，(iv)智能电话的图像传感器，(v)航拍相机(vi)车载相机，或(vii)测距仪联动相机。

图7A-7C提供了根据一些实现方式的用于预测未来人群密度图的方法的流程图。方法700的步骤可以由对应于计算设备200的计算机系统120来执行。在一些实现方式中，计算机包括一个或多个处理器和存储器。图7A-7C对应于存储在计算机存储器或计算机可读存储介质(例如，计算设备200的存储器206)中的指令。存储器存储配置为由一个或多个处理器执行的一个或多个程序。例如，方法700的操作至少部分地由密度图模块122、编码模块240、动态模型124和/或解码模块260来执行。

根据一些实现方式，(710)计算机系统120或计算设备200获得物理场馆的人群运动的经训练的动态模型124。根据物理场馆的图像(例如，图像310)的时间序列来训练经训练的动态模型124。

在一些实现方式中，时间序列中的连续图像之间的时间增量(Δt)在图像上是一致的。例如，图像的时间序列可以包括60个分离的图像，每个图像以一分钟的间隔被捕获。

然后，(720)计算机获得物理场馆的当前图像，并且(730)根据在动态模型124的训练期间使用的预定映射将当前图像细分为逻辑像素530的集。提供了关于图5B的示例。

对于每个逻辑像素，(740)计算机计算表示逻辑像素530处的物理场馆中的每单位面积的移动对象(例如，个体和/或对象)的相应数量的相应人群密度，从而形成对应于当前图像510的人群密度图520。

然后(750)，计算机接收从对应于当前图像510的时间T0起的、未来时间偏移(例如，时间偏移T1、T2、……、Tn)，并且(760)将经训练的动态模型124适用于当前人群密度图512和指定的未来时间偏移，以预测在特定未来时间偏移(例如，在时间T＝T0+T1)处的物理场馆处的人群密度图520。

在一些实现方式中，(712)物理场馆是公园、机场、火车站、竞技场、大型购物中心、工厂、家、水体、天空或街角的一部分。

在一些实施方式中，(714)时间增量介于一毫秒和一周之间。

在一些实现方式中，(732)每个逻辑像素530对应于图像(例如，图像510)中的相应单个物理像素。

在一些实现方式中，(734)每个逻辑像素530对应于图像(例如，图像510)中的相应多个物理像素。

在一些实现方式中，(742)移动对象是人、非人、机动车辆、非机动车辆、飞机、无人驾驶飞机和移动机器人。

在一些实现方式中，(744)计算每个逻辑像素530处的人群密度值包括将当前图像510与一个或多个高斯图卷积。

在一些实现方式中，(746)计算每个逻辑像素530处的人群密度值包括下采样(例如，收缩、移除当前图像510中的数据的一部分)。

在一些实现方式中，(762)将训练的动态模型124适用于当前人群密度图512包括将指定的未来时间偏移表示为Δt的整数倍N，并且从当前人群密度图512开始顺序地适用经训练的动态模型124N次。提供了关于图5A的示例。

在一些实现方式中，(764)经训练的动态模型124提供根据当前图像510和指定的时间偏移(例如，时间偏移T1、T2、……、Tn)的人群密度的时空变化的预测。

在一些实现方式中，(766)经训练的动态模型124为所提供的预测(例如，预测人群密度图520)提供准确度估计(例如，估计置信水平540)。

在一些实现方式中，(768)经训练的模型根据场景信息提供预测，场景信息包括场景类型和/或天气状况。

在一些实现方式中，(770)计算机获得与图像(例如，图像510)相关联的附加信息，并且当将经训练的动态模型12适用于当前人群密度图512时，计算机使用附加信息。

在一些实现方式中，(772)附加信息包括以下信息中的一种或多种：(i)当前图像510的时间戳，(ii)与当前图像510相关联的一个或多个天气参数，(iii)当前图像510的星期几指示，(iv)当前图像中的每个逻辑像素530的场景上下文注释，(v)当前图像的场景注释，(vi)当前图像的距离信息，以及(vii)当前图像的热信息。

在一些实现方式中，(780)图像的时间序列通过以下设备中的一个或多个来捕获：(i)静态监视相机，(ii)PTZ监视相机，(iii)数字相机，(iv)智能电话的图像传感器，(v)航拍相机(vi)车载相机，或(vii)测距仪联动相机。

在训练了模型之后，它可以用于进行预测。例如，在一些实现方式中，一种预测物理场馆处的未来人群密度图的方法，包括：获得物理场馆的人群运动的经训练的模型，根据物理场馆的图像的时间序列进行训练；获得物理场馆的当前图像；根据在模型训练期间使用的预定映射将当前图像细分为逻辑像素集；对于每个逻辑像素，计算表示在逻辑像素处的物理场馆中每单位面积的移动对象的相应数量的相应人群密度，从而形成对应于当前图像的人群密度图；接收从对应于当前图像的时间起的、指定的未来时间偏移；以及将经训练的模型适用于当前人群密度图和指定的未来时间偏移，以预测在指定的未来时间偏移处的物理场馆处的人群密度图。

在一些实现方式中，移动对象选自由人、非人动物、机动车辆、非机动车辆、飞机、无人驾驶飞机和移动机器人组成的组。

在一些实现方式中，物理场馆是公园、机场、火车站、竞技场、大型购物中心、工厂、家、水体、天空或街角的一部分。

在一些实现方式中，该方法进一步包括获得与当前图像相关联的附加信息，并且当将经训练的模型适用于当前人群密度图时使用附加信息。在一些实现方式中，附加信息包括以下信息中的一种或多种：(i)当前图像的时间戳；(ii)与当前图像相关联的一个或多个天气参数；(iii)当前图像的星期几指示符；(iv)当前图像中的每个逻辑像素的场景上下文注释；(v)当前图像中的场景上下文注释；(vi)当前图像的距离信息；以及(vii)当前图像的热信息。

在一些实现方式中，时间增量介于一毫秒和一周之间。

在一些实现方式中，将经训练的模型适用于当前人群密度图包括将指定的未来时间偏移表示为Δt的整数倍N，并且从当前人群密度图开始顺序地适用经训练的模型N次。

在一些实现方式中，适用经训练的模型提供了根据当前图像和指定的未来时间偏移的人群密度的时空变化的预测。在一些实现方式中，提供人群密度的时空变化的预测是进一步根据场景信息，包括场景类型和/或天气状况。

在一些实现方式中，图像的时间序列通过以下设备中的一个或多个来捕获：(i)静态监视相机，(ii)PTZ监视相机，(iii)数字相机，(iv)智能电话的图像传感器，(v)航拍相机(vi)车载相机，或(vii)测距仪联动相机。

在一些实现方式中，时间序列中的连续图像之间的时间增量在图像上是一致的。

在一些实现方式中，时间序列中的连续图像之间的时间增量在图像上是不同的。

根据一些实现方式，一种用于对物理场馆处的人群运动进行建模的计算机系统，包括：一个或多个处理器；存储器；以及存储在存储器中并配置为由一个或多个处理器执行的一个或多个程序，一个或多个程序包括用于以下操作的指令：获得物理场馆的人群运动的经训练的模型，根据物理场馆的图像的时间序列进行训练；获得物理场馆的当前图像；根据在模型训练期间使用的预定映射将当前图像细分为逻辑像素集；对于每个逻辑像素，计算表示在逻辑像素处的物理场馆中每单位面积的移动对象的相应数量的相应人群密度，从而形成对应于当前图像的人群密度图；接收从对应于当前图像的时间起的、指定的未来时间偏移；以及将经训练的模型适用于当前人群密度图和指定的未来时间偏移，以预测在指定的未来时间偏移处的物理场馆处的人群密度图。

根据一些实现方式，非瞬态计算机可读存储介质存储配置为由具有一个或多个处理器、存储器和显示器的计算机系统执行的一个或多个程序，一个或多个程序包括用于以下各项的指令：获得物理场馆的人群运动的经训练的模型，根据物理场馆的图像的时间序列进行训练；获得物理场馆的当前图像；根据在模型训练期间使用的预定映射将当前图像细分为逻辑像素集；对于每个逻辑像素，计算表示在逻辑像素处的物理场馆中每单位面积的移动对象的相应数量的相应人群密度，从而形成对应于当前图像的人群密度图；接收从对应于当前图像的时间起、的指定的未来时间偏移；以及将经训练的模型适用于当前人群密度图和指定的未来时间偏移，以预测在指定的未来时间偏移处的物理场馆处的人群密度图。

这里在本发明的描述中使用的术语仅用于描述特定实现方式的目的，而不旨在限制本发明。如在本发明的说明书和所附权利要求书中所使用的，单数形式“一”和“该”也旨在包括复数形式，除非上下文另外清楚地指示。还将理解，如本文所用的术语“和/或”是指涵盖一个或多个相关联的所列项目的任何和所有可能的组合。还将理解，当在本说明书中使用时，术语“包括”指定存在所述特征、步骤、操作、元件和/或部件，但不排除存在或添加一个或多个其他特征、步骤、操作、元件、部件和/或其组合。

出于解释的目的，已经参考具体实现方式描述了上述说明。然而，以上的说明性讨论并不旨在穷举或将本发明限制为所公开的精确形式。鉴于上述教导，许多修改和变化都是可能的。选择和描述实现方式是为了最好地解释本发明的原理及其实际应用，从而使本领域的其他技术人员能够最好地利用本发明和具有适合于预期的特定用途的各种修改的各种实现方式。

Claims

1.一种重构流程图的方法，包括：

在具有一个或多个处理器的计算机系统处，存储器存储配置为由所述一个或多个处理器执行的一个或多个程序：

获得物理场馆的图像的时间序列；

对于每个图像，根据预定映射将相应的图像细分为相应的逻辑像素集；

对于每个图像的每个逻辑像素，计算相应的人群密度，所述人群密度表示所述逻辑像素处的物理场馆中的每单位面积的移动对象的相应数量，从而形成与所述图像的时间序列相对应的人群密度图的时间序列；以及

使用连续的人群密度图对来训练关于所述物理场馆处人群密度的时空变化的模型。

2.根据权利要求1所述的重构流程图的方法，其中所述移动对象选自由人、非人动物、机动车辆、非机动车辆、飞机、无人驾驶飞机和移动机器人组成的组。

3.根据权利要求1所述的重构流程图的方法，其中所述物理场馆是公园、机场、火车站、竞技场、大型购物中心、工厂、家、水体、天空或街角的一部分。

4.根据权利要求1所述的重构流程图的方法，其中每个逻辑像素对应于所述图像中的相应单个物理像素。

5.根据权利要求1所述的重构流程图的方法，其中每个逻辑像素对应于所述图像中的相应多个物理像素。

6.根据权利要求1所述的重构流程图的方法，进一步包括获得与所述图像的每一个相关联的附加信息并使用所述附加信息来训练所述模型。

7.根据权利要求6所述的重构流程图的方法，其中所述附加信息包括如下信息中的一个或多个：(i)所述图像的每一个的时间戳；(ii)与所述图像的每一个相关联的一个或多个天气参数；(iii)所述图像的每一个的星期几指示符；(iv)所述图像的每一个中的每个逻辑像素的场景上下文注释；(v)所述图像的每一个的场景上下文注释；

(vi)距离信息；以及(vii)热信息。

8.根据权利要求1所述的重构流程图的方法，其中计算每个逻辑像素处的人群密度包括将所述图像的每一个与一个或多个高斯图卷积。

9.根据权利要求1所述的重构流程图的方法，其中计算每个逻辑像素处的人群密度包括下采样。

10.根据权利要求1所述的重构流程图的方法，其中时间增量是介于一毫秒和一周之间的值Δt。

11.根据权利要求1所述的重构流程图的方法，其中经训练的所述模型根据输入图像和来自所述输入图像的所请求时间偏移来提供对人群密度的时空变化的预测。

12.根据权利要求11所述的重构流程图的方法，其中提供人群密度的时空变化的预测进一步根据包括场景类型和/或天气条件的场景信息来进行。

13.根据权利要求11所述的重构流程图的方法，其中经训练的所述模型还为所提供的预测提供准确度估计。

14.根据权利要求1所述的重构流程图的方法，其中所述图像的时间序列包括多个时间子序列，其中用于训练所述模型的连续人群密度图对中的每一对包括单个相应时间子序列内的相应人群密度图对。

15.根据权利要求1所述的重构流程图的方法，其中所述图像的时间序列由如下设备中的一个或多个捕获：(i)静态监视相机，(ii)PTZ监视相机，(iii)数字相机，(iv)智能电话的图像传感器，(v)航拍相机(vi)车载相机，或(vii)测距仪联动相机。

16.根据权利要求1所述的重构流程图的方法，其中所述时间序列中的连续图像之间的时间增量在所述图像上是一致的。

17.根据权利要求1所述的重构流程图的方法，其中所述时间序列中的连续图像之间的时间增量在所述图像上是不同的。

18.一种计算机系统，用于在物理场馆建模人群运动，所述计算机系统包括：

一个或多个处理器；

存储器；以及

存储在所述存储器中并配置为由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于如下步骤的指令：

获得物理场馆的图像的时间序列；

19.根据权利要求18所述的计算机系统，其中经训练的所述模型根据输入图像和来自所述输入图像的所请求时间偏移来提供对人群密度的时空变化的预测。

20.一种非瞬态计算机可读存储介质，存储有一个或多个程序，所述一个或多个程序配置为由具有一个或多个处理器、存储器和显示器的计算机系统执行，所述一个或多个程序包括用于如下步骤的指令：

获得物理场馆的图像的时间序列；