CN109684604B

CN109684604B - 一种基于上下文感知的非负张量分解的城市动态分析方法

Info

Publication number: CN109684604B
Application number: CN201811488497.0A
Authority: CN
Inventors: 王静远; 陈超; 熊璋
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2020-06-30
Anticipated expiration: 2038-12-06
Also published as: CN109684604A

Abstract

本发明涉及一种基于上下文感知的非负张量分解的城市动态分析方法，采用张量因子分解作为模型的基础，该模型不仅能够发现城市中人类活动空间和时间模式，而且能够模拟这些模式之间的相互作用；另外将城市上下文信息引入到张量因子分解模型中，使得模型更加精确；并提出了一种分析张量序列的流水线初始化方法，使得该非负张量分解模型能够分析城市动态的长期演化。该方法提出了上下文感知非负张量分解模型(cNTF),利用居民流动数据和城市环境信息，基于张量Tucker分解，发现城市中人类活动的潜在模式。本发明提供的方法克服了现有模型无法拟合模式间相互作用以及无法分析动态模式的长期演化等问题，同时引入城市上下文信息，使得结果更加准确。

Description

一种基于上下文感知的非负张量分解的城市动态分析方法

技术领域

本发明涉及数据挖掘技术领域以及智慧城市技术领域，特别涉及一种基于上下文感知的非负张量分解的城市动态分析方法。

背景技术

在智能交通系统(ITS)和城市计算中，张量分解(因子分解)是对时空数据建模的有效工具。基于张量分解，现有的时空建模技术均以分解后得到的因子为基础，尝试揭示各个模式潜在的物理意义。例如用二阶张量矩阵来拟合城市出租车出行数据，并利用非负矩阵分解(NMF)挖掘出与居民日常生活节奏相对应的潜在因子；利用张量cp分解分析日本大地震中居民的手机数据，发现不同的人类活动模式；利用概率张量分解来分析新加坡的公交智能卡的交易模式等。

类似的研究均存在以下几方面的不足：1)现有研究一般仅注重单方面模式的挖掘，而忽略不同模式之间的相互作用；2)忽略城市上下文环境；3)无法分析城市动态模式的长期演化。

发明内容

鉴于上述问题，本发明提出了上下文感知非负张量分解模型(cNTF)，本发明旨在利用居民流动数据和城市环境信息，基于张量Tucker分解，发现城市中人类活动的潜在模式。本发明所创模型克服了现有模型无法拟合模式间相互作用以及无法分析动态模式的长期演化等问题，同时引入城市上下文信息，使得结果更加准确。

本发明实施例提供一种基于上下文感知的非负张量分解的城市动态分析方法，包括：

S1、将待分析城市划分为M个区域，将每天划分为N个时间片；

S2、从人类活动相关的轨迹数据中提取出出发地、到达地以及时间信息；将所述出发地、到达地信息匹配到对应区域中，并将时间信息匹配到对应时间片中；

S3、统计不同区域时间片、不同区域间的流量大小，生成数据张量；

S4、根据城市上下文环境数据，统计出所述区域的上下文相似性矩阵；

S5、选取合适的参数出发地模式I，到达地模式J，时间模式K以及参数集合Ω，根据预设公式解决对应的优化问题，得到分解结果动态模式张量C、出发地映射矩阵O、到达地映射矩阵D和时间映射矩阵T。

进一步地，所述方法还包括：

S6、选取L个时期，根据流水线初始化张量序列的方法对所述L个时期进行张量分解；

S7、对动态模式张量C、出发地映射矩阵0、到达地映射矩阵D和时间映射矩阵T进行统计分析与可视化，进而进行城市动态模式的分析。

进一步地，所述步骤S5中预设公式为上下文感知的非负张量分解模型；

其中

α，β为上下文正则系数，γ，δ，∈，ε为稀疏化正则系数；

表示数据张量，C表示动态模式张量，O表示出发地映射矩阵，D表示到达地映射矩阵，T表示时间映射矩阵。

进一步地，所述生成数据张量包括：

表示数据构建的张量，

r_xyz表示

中的第x，y，z个元素，表示在时间片z中由区域x到区域y的人流密度；

表示不同时间片下不同区域之间的流量大小。

进一步地，所述S4包括：

利用每个区域所对应的POI标签来衡量区域间的相似度，并根据所述公式(1)从而生成城市上下文相似度矩阵W。

进一步地，所述S6包括：获取一个长度为L的动态模式序列，即

在每期做张量分解前，使用上一期的分解结果初始化参数。

本发明的优点在于，本发明提出了上下文感知非负张量分解模型(cNTF)，1)采用张量因子分解作为模型的基础，该模型不仅能够发现城市中人类活动空间和时间模式，而且能够模拟这些模式之间的相互作用；2)将城市上下文信息引入到张量因子分解模型中，使得模型更加精确；3)提出了一种分析张量序列的流水线初始化方法，使得该非负张量分解模型能够分析城市动态的长期演化。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明提供的基于上下文感知的非负张量分解的城市动态分析方法的流程图。

图2a为本发明提供的非负张量分解示意图。

图2b为本发明提供的上下文感知非负矩阵分解示意图。

图3为本发明提供的流水线初始化张量序列示意图。

图4为本发明提供的北京市五环内交通分析单元示意图。

图5为本发明提供的均方根误差与各参数的关系示意图。

图6为本发明提供的2008年与2015年时间模式的挖掘结果示意图。

图7为本发明提供的2008年与2015年北京市人流时间模式对比示意图。

图8为本发明提供的2008与2015北京市人流空间模式示意图。

图9为本发明提供的2008与2015年北京市人流动态模式示意图。

图10为本发明提供的2008与2015年北京市动态模式对比分析示意图。

图11为本发明提供的2008与2015年北京市CBD出发到达模式对比示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供一种基于上下文感知的非负张量分解的城市动态分析方法，参照图1所示，包括：

S1、将待分析城市划分为M个区域，将每天划分为N个时间片；

其中，步骤S2人类活动相关的轨迹数据，是可反映城市人口流动特征的GPS轨迹序列，例如出租车、私家车和手机信令等GPS轨迹序列。对于出租车等专门以载客形式运营的车辆，数据中除GPS坐标，时间外，须提供是否载客的标志位，以区分无目的漫游与有目的运行。

步骤S4中城市上下文环境数据为城市区域的上下文信息，例如兴趣点(Point ofInterest，POI)等反应城市区域特征的数据。

本发明中的城市动态分析技术可以抽象为上下文感知的非负张量分解模型(cNTF)。模型利用人口流动数据构建张量，利用城市上下文数据构建城市语义矩阵，使用非负张量分解来进行模式的挖掘与分析。

表1模型变量定义

如上表所示，模型所用变量由两大部分组成：数据空间的变量与模式空间的变量。

数据空间变量：数据空间的主要变量是数据张量。假设城市中有M个区域，一天有N个时间片。令r_xyz表示在时间片z中由区域x到区域y的人流密度，由此可生产三阶张量

其中区域x即某个轨迹的出发地所在的区域，y为该轨迹到达地所在的区域，z为出发时间所在的时间片。另一个重要变量是城市语义矩阵W，其用于描述城市区域间的相似性。

模式空间变量：模式空间的变量主要包括一个动态模式张量和3个模式映射矩阵。假设在

中隐含I个出发地模式，J个到达地模式以及K个时间模式。则定义

为将M个区域映射到I个出发地模式的矩阵，D、T同理。动态模式张量

描述了不同时间模式下不同空间模式之间的人流密度的变化。

下面对上述步骤进行详细说明。

数据张量构建

利用人口流动数据构建数据张量。比如，本发明所使用的数据为北京市的出租车数据。首先将北京市地图成M个区域，每天划分为N个时间片。之后提取出载客期间的出租车数据，将每次载客旅程的出发地与到达地匹配到对应的区域，将出发时间匹配到对应的时间片。由此可以获得一段时间内，不同时间片下不同区域之间的流量大小

最后利用对数来降低尺度的影响，即令，由此可以构建数据张量

城市上下文获取

城市上下文空间可以描述城市区域的特殊属性。而不同区域的属性可以反映不同区域间的相似度。利用这个特点，可以构建城市上下文相似度矩阵。一个城市上下文矩阵W中第p，q个元素表示区域p与q之间特定上下文环境下的相似性。

另外，本发明所使用的城市上下文数据主要为城市POI(PointofInterest)数据。POI每个城市区域一个属性标注，例如学校、商场、餐饮、金融等等。每个区域可能对应多个POI标注。利用每个区域所对应的POI标签来衡量区域间的相似度，从而获取城上下文相似度矩阵。

模式定义

空间模式：一个空间模式是一个分布在所有城市区域上的向量，向量维度等同于区域个数。向量中的每个元素代表对应区域属于该模式的权重大小。假设有I个出发地模式与J个到达地模式。则利用一个M×I的模式映射矩阵O即可将M个区域映射到I个出发地模式上，利用一个M×J的模式映射矩阵D即可将M个区域映射到J个出发地模式上

时间模式：一个时间模式是一个分部在所有时间片上的向量。向量维度等同于时间模式的个数。向量中的每个元素代表对应的时间片数据该模式的权重大小。则利用一个N×K的模式映射矩阵T即可将N个时间片映射到K个时间模式上。

动态模式张量：动态模式张量

描述了不同空间模式与时间模式下区域间人流密度的变化。其中第i，j，k个元素表示在时间模式k下，出发地模式i与到达地模式j之间的人流密度。

如上所述，本发明中的城市动态分析技术可以抽象为上下文感知的非负张量分解模型。模型框架如图2中(a)所示，其中数据张量

动态模式张量C、出发地映射矩阵O、到达地映射矩阵D以及时间映射矩阵T有如下关系：

是一个随机误差张量，×_n表示张量与矩阵的模积(Mode-n Product)。

此外，城市上下文可以作为先验来衡量区域间的相似度。事实上，如果两个区域相似度越高，则其属于同一个出发地模式或者到达地模式的概率应该越大。因此如图2中(b)所示，上下文相似度矩阵W、出发地映射矩阵O以及到达地映射矩阵D有如下关系：

W＝OO^T+E_O，W＝DD^T+E_D (3)

其中E_O和E_D是随机误差矩阵。

在该模型框架中，数据张量与上下文相似度矩阵是已知量。模型的目标是推断出动态模式张量C、出发地映射矩阵O、到达地映射矩阵D以及时间映射矩阵T。

模型概率化表示

以概率的角度重新表示模型，以获得需要具体优化的目标函数。下文中σ表示其对应的各个分布的参数。

非负张量分解

假设随机误差张量ε符合参数为

的高斯分布，由公式(2)可知，可观测变量

的条件概率分布可定义为：

可以利用稀疏性来进一步约束模型。此处稀疏性是指一个城市区域理论上只可以属于少数空间模式，同样一个时间片也只属于少数时间模式。因此各个映射矩阵在行向量上应该存在稀疏的性质。因此引入零均值的拉普拉斯先验到映射矩阵中：

同时假设模式张量C也符合稀疏性：

综合公式(4)(5)(6)，则有：

取对数展开，则有：

则C、O、D、T的极大后验估计等同于最小化如下目标函数：

其中||.||_F表示Frobenius norm(弗罗贝尼乌斯范数)，||.||₁表示L1范数。

引入上下文信息

用一个向量u_p来表示区域p的POI，向量维度为POI种类个数+1。最后一个元素表示该区域所对应P0I标注的个数，其余元素表示该区域属于各POI的概率。用如下公式定义城市上下文相似度：

假设公式(3)中E_O与E_D遵从零均值的高斯分布，则有：

假设参数集合

根据公式(7)、(11)、(12)，则有：

从而有：

最终，极大后验估计等同于最小化带混合二次正则项的平方误差和：

其中

其中α，β可视为上下文正则系数，γ，δ，∈，ε可视为稀疏化(L1)正则系数。此外，为映射矩阵引入非负约束，以使结果更符合物理意义，增强可解释性。公式(15)所描述的模型即所提出的上下文感知的非负张量分解(cNTF)。

该优化问题的求解可以利用块坐标梯度下降优化方法。公式(15)中，需要同时优化C、O、D、T，此时损失函数

是非凸(nonconvex)的。因此，不能直接使用梯度下降法进行优化。但是对于C、O、D、T，而言，当固定其中三个变量时，

函数在另一个变量上是凸的。因此优化算法可以选用块坐标梯度下降优化算法。该算法交替更新C、O、D、T，在更新每个变量时，保持其他三个变量不变。

长期演化

基于cNTF，可以分别获取城市不同时期的动态模式。假设考察L个时期，则可以获取一个长度为L的动态模式序列，即

实际上，每次张量分解后模式序号与其对应的物理意义不是确定的，例如某时期的时间模式1对应早高峰，为另一时期的时间模式1对应晚高峰。类似的问题在出发地模式与到达地模式中同样存在，如果直接对比每个时期的动态模式，则长期演化是很难分析的。

因此，本实施例还提出了一个流水线初始化张量序列的分析方法，示意如图3。其核心思想为，在每期做张量分解前，使用上一期的分解结果初始化参数。如此便可保证每期所得到的动态模式与物理空间的映射一致。

下面通过一个具体实施例来说明本发明提供的方法实现对城市的动态分析。

北京市城市动态演化的分析

数据准备

北京市交通分析单元，Traffiic Analysis Zone(TAZ)。TAZ实际上是对地理空间的人为划分，主要根据交通等区域的特性。TAZ分区由北京市交通委员会提供。如图4所示，五环内越有651个TAZ单元，即按TAZ将北京划分成了651个区域。此外，将每天划分为24个时间片，每个时间片代表一个小时。此步对应技术方案的步骤S1。

2008与2015年11月北京市约2万辆出租车的轨迹数据，主要包含是位置(经纬度)、时间与是否载客等信息。从该数据中提取出的载客轨迹超过600万条。根据技术方案的步骤S2将轨迹匹配到区域即时间片上，并根据步骤S3生成数据张量。

北京市POI数据，包含至少40万条POI标注记录。根据POI信息与公式(1)，生成上下文相似性矩阵W。此步为技术方案的步骤S4。

模型参数选取

对应技术方案步骤S5，基于cNTF，可以将数据张量分解为三个映射矩阵与一个模式张量。在此过程中，需要设置的参数有分解时所需要指定的维度I，J，K、上下文(POI)正则系数α，β以及稀疏化(L1)正则系数γ，δ，∈，ε。为了选取参数，使用均方根误差(RMSE)来评估cNTF的分解效果：

表示使用分解后的矩阵和张量重构数据张量的结果。RMSE越小，则代表分解效果越好。实验中，RMSE与各参数的关系如图5所示。

由RMSE与各参数关系，选取I＝J＝20，K＝4，α＝β＝0.01，γ＝δ＝∈＝ε＝2.5。根据步骤S6，2015年的初始化C、O、D、T选用2008年的分解结果，以进行长期演化的分析。

步骤S7，对分解生成的C、O、D、T进行统计分析与可视化，结果如下。

时间模式T

将分解结果中映射矩阵T(N×K)可视化。本例中N＝24，K＝4，即时间模式有4种，分布在24个小时上。将时间作为横坐标，每个小时对应4个模式的系数作为纵坐标，可以将时间模式进行可视化。图6为2008年与2015年时间模式的挖掘结果。

从图6中可看出，2008与2015年均包含4个时间模式。早高峰(6:00～8:00)，午平峰(9:00～18:00)，晚高峰(16:00～24:00)以及夜平峰(20:00～3:00)。为了分析2008年到2015年的演化，我们将每个模式抽取出来作出对比，如图7所示为2008与2015北京市人流时间模式对比。

从图7中可以看出，2015年早高峰峰值明显小于2008年，这得益于北京市这段时间内加速增长和完善的公共交通工具，例如增加了两倍多的地铁里程。公交系统的扩张与完善有效得分流了出租车的客流。不同的是，午平峰在2015年反而高于2008年。中午的乘车需求大多数是从工作地到工作地，这反应出北京市这段时期内增长的商业旅程需求。晚高峰与晚平峰基本保持不变，但是时间均后移。这反应出北京市夜生活需求的增加。

空间模式O、D

实验中我们取每个TAZ区域在O或D矩阵中的最大系数对应的模式为该区域的模式。模式总共有20中，有3种没有包含任何区域，因此可视化后有17个模式。

如图8所示，同一模式的TAZ基本呈团状分布，这表明模型所挖掘出的空间模式的实际上对应了真实的局部地理区域。模式环绕北京市中心分布，这与市内环线主干道与放射状主干道的分布有关。此外，模式有内环大、外环小，南边大、北边小的特点，这一定程度上代表北京市不同地区的发展程度。发展程度越高，则其所需要的交通距离就越短。因此模式的特点符合北京市中心与北部发展较快的特点。

相比于2008，图中由红色边框标注的模式在2015扩张了许多。经过与北京城市规划者的讨论，他们给出了这个现象的答案：2008年后，由于对南部区域的欠投资(奥运会大力投资北部区域)，政府决定实施了南部振兴计划，加大对北京市南部地区的投资。然而，投资也存在不平衡，红框模式东边的模式仍然属于投资较少的地区，由此导致其中的居民向红框区域迁徙，最终使得红框区域扩张。这个结论对北京市政府调整投资政策也是很有价值的。

动态模式C

动态模式由分解结果中的模式张量C来反映。切片C_：：k总的元素表示在时间模式k下，每个出发地模式到每个到达地模式的交通流量。

图9为2008与2015年动态模式的可视化图。横坐标为到达地模式，纵坐标为出发地模式，从左至右一次是早高峰、午平峰、晚高峰以及夜平峰时的动态模式。

从图中可以看出，大部分能量集中在对角线。也就是说北京市大部分的交通都发生在模式(局部地理区域)内。此外，早高峰时，人流从许多模式流向少数模式，而在晚高峰时由少数模式流向许多模式。这说明北京市的居民区分布较为分散，而工作地比较集中。

对比2015年与2008年可以发现，2015年空间模式之间的人流交通明显增加。为了量化增长趋势，我们以模式为横坐标，模式对应的互交通量、互交通量增长率与内交通量为纵坐标分别作图，如图10。

从图10中可以看出，2015模式间的互交通量整体上均大于2008年，尤其是13号模式(CBD)与17号模式(金融街)，这两个模式均为北京市最重要的商业区域。而增长率最高的区域为中关村，其为北京市的科技园区，被称为中国的“硅谷”。此外，模式内交通量显著增加的两个模式均属于北京市南部振兴计划所涵盖的区域，这从另一方面反映出政府政策对城市交通的影响。

我们选取CBD所对应的模式进行具体分析。如图11所示，相比2008年，2015年CBD模式在早晚高峰与更多模式有人流交互。这反映出北京市内商业需求与交通建设在这几年内的积极发展。本发明在北京市动态模式分析上取得了有效的成果。该结果的合理性证明了所提模型的有效性，同时结果也为北京市的城市规划者提供了参考意见和辅助指导。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。