CN111382224A

CN111382224A - 一种基于多源数据融合的城市区域功能智能识别方法

Info

Publication number: CN111382224A
Application number: CN202010151262.3A
Authority: CN
Inventors: 林琛; 翁宇游
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-07-07
Anticipated expiration: 2040-03-06
Also published as: CN111382224B

Abstract

本发明的一种基于多源数据融合的城市区域功能智能识别方法，包括：获取城市的地图数据，根据主要道路将城市划分为若干个城市区域；从互联网网站中搜集每个城市区域包含的兴趣点元数据和文本数据并进行归一化处理；搜集出租车的轨迹数据并量化；建立基于贝叶斯层次模型的无监督聚类模型，根据变分推断法求解该模型参数；产生每个城市区域的主题分布，以及每个主题与各种功能的相关性，概率最大的主题最相关的几个城市功能为该区域的主要功能；产生该区域每个功能最相关的城市特征词。本发明方法融合多源多模态数据，对城市区域功能进行智能识别和划分，从数值和文本形式产生了功能分布和城市特征两种解释方式，增强城市区域功能识别的可靠性和可解释性。

Description

一种基于多源数据融合的城市区域功能智能识别方法

技术领域

本发明涉及机器学习领域，特别是指一种基于多源数据融合的城市区域功能智能识别方法。

背景技术

城市计算是一个获取、集成和分析城市空间中由不同来源产生的大数据和异构数据的过程。实现高效城市计算的一个关键步骤是确定功能区域，这是城市中支持城市功能的某些需求的区域。

以前的功能区识别(FRI)系统大多对人的移动数据使用聚类方法，包括对电信数据的分析，谱聚类分析，隐狄利克雷分配(LDA)分析等。然而，现有研究存在一个严重缺陷。由于近年来研究的模型比较复杂，缺少识别区域的语义解释，这些聚类方法只提供了一个可能的区域划分，而用户不知道这些划分意味着什么样的功能。

研究表明，借助于大量的在线地理标记文本数据，如评论和兴趣点(POI)的性质，城市区域的功能可以实现自我解释。

尽管人们对可解释的人工智能越来越感兴趣，但在地理系统中，可解释系统仍处于初级阶段。构建一个可解释的城市计算系统面临着移动轨迹数据和语义文本存在巨大差异性的独特挑战。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷，提出一种基于多源数据融合的城市区域功能智能识别方法，分别从数值和文本形式产生了功能分布和城市特征两种解释方式，以增强城市区域功能识别的可靠性和可解释性。

本发明采用如下技术方案：

一种基于多源数据融合的城市区域功能智能识别方法，其特征在于，包括如下步骤：

1)获取城市的地图数据，根据主要道路将城市划分为若干个城市区域；

2)从互联网网站中搜集每个城市区域包含的兴趣点元数据以及文本数据并进行归一化处理得到POI特征矩阵和城市特征的信息；

3)搜集出租车的轨迹数据并量化得到轨迹移动矩阵；

4)建立一个基于贝叶斯层次模型的无监督聚类模型，将POI特征矩阵、城市特征的信息和轨迹移动矩阵作为输入，根据变分推断法求解该无监督聚类模型的参数；

5)根据参数得到每个城市区域的主题分布，以及每个主题与各种功能的相关性，概率最大的主题最相关的几个城市功能即为该城市区域的主要功能；

6)根据参数得到该城市区域每个城市功能最相关的城市特征词。

优选的，所述步骤1)中，具体包括：设定一个城市市区范围为目标范围；对于地图数据，先根据城市的地理位置，从地图软件ArcMAP中抓取经纬度范围落在目标范围内的所有道路，根据道路的属性从中过滤筛选留下主要道路；对地图进行处理将道路变化成相同粗细的线条作为区域边界，从而将目标范围划分成若干个所述城市区域。

优选的，所述步骤2)中，所述兴趣点元数据包括POI类别和POI所属城市区域；统计每个城市区域r包含有各个POI类别的数量，得到向量x_r′＝[x′_r，0，x′_r，1，…，x′_r，15]；该向量除以所有POI类别总数y_r＝x′_r，0+x′_r，1+…+x′_r，15，得到各个POI特征所占比重x_r＝[x_r，0，x_r，1，...，x_r，15]＝[x′_r，0/y_r，x′_r，1/y_r，...，x′_r，15/y_r]，R个城市区域的POI特征向量合并成POI特征矩阵X，即：

优选的，在步骤2)中，互联网网站中，每个在线评论m都被且仅被一个城市功能q标记，即l(m)＝q；每个城市区域r中出现在评论m的第d个位置的城市特征记为v(d)，计算一个数值h(r，m，d)来记录城市特征的信息，

其中W_v，q＝∑_l(m)＝q n(v，m)，n(v，m)是评论m中城市特征v的出现次数，

表示位置d前后位置d′的城市特征v(d′)最可能的城市功能q。

优选的，在步骤3)中，每一条出租车移动轨迹包含起点、终点的经纬度和时间戳；先统计城市区域r的流入量和流出量得到轨迹移动向量

t′_r是一个48维的向量，分别表示一天划分的12个区间在工作日、周末两种流动模式下分别对流入量和流出量的统计量；其中，第1-12个元素代表工作日流入量，13-24代表周末流入量，25-36代表工作日流出量，37-48代表周末流出量。每个元素取值范围是自然数，表示对应区间在对应流动模式下对应统计量的统计数值；R个城市区域的轨迹移动向量合并成

再计算T′每一列的加和s＝[s₀，s₁，...，s₄₇]，其中s_n＝t′_1，n+t′_2，n+…+t′_R，n，n＝0，1，2，...，47，对于每一个城市区域r，都构建向量

t_r，n＝t′_r，n/s_n，n＝0，1，2，...，47，其中t′_r，n表示轨迹移动向量t′_r的第n个元素，t_r，n表示标准化的轨迹移动向量t_r的第n个元素，除以对应s_n后等比例变换后成t_r，n且满足

最后R个移动轨迹向量合并成轨迹移动矩阵T，即：

优选的，在步骤4)中，根据变分推断法求解该无监督聚类模型的参数,具体如下：

4a)初始化超参数；

4b)开始EM算法迭代循环直到收敛：

4b.1)初始化所有的变分超参数，进行E步迭代循环,直到所有变分超参数收敛；

4b.2)进行M步迭代循环，直到所有变分参数均已收敛；

4c)若所有的变分参数均收敛，则结束，得到的参数为主题分布Θ，城市功能的词向量Φ以及城市特征的词向量Ψ，否则回到第2)。

优选的，在步骤5)中，根据主题分布Θ得到每个城市区域的主题分布，主题分布Θ代表该城市区域对各个城市主题的概率分布，每个主题分类包含至少一个最相关的城市功能。

优选的，在步骤6)中，根据城市功能的词向量Φ以及城市特征的词向量Ψ得到该城市区域每个城市功能最相关的城市特征词。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

本发明方法融合了多源多模态数据，对城市区域功能进行智能识别和划分，分别从数值和文本形式产生了功能分布和城市特征两种解释方式，以增强城市区域功能识别的可靠性和可解释性。

本发明的方法，对于系统设计者来说，可靠的解释有助于他们更好地判断系统状态并提高系统性能。对于终端用户来说，解释不仅有利于聚类结果的解释，而且还提高了用户的信任度。

本发明的方法，应用广泛，例如交通流预测、个性化轨迹推荐、城市规划等。

附图说明

图1是本发明实施例的流程图。

图2是本发明提出的EFRI模型的贝叶斯网络框架图。

图3是构造文本数据的向量形式。

以下结合附图和具体实施例对本发明作进一步详述。

具体实施方式

以下通过具体实施方式对本发明作进一步的描述。

本发明的一种基于多源数据融合的城市区域功能智能识别方法，提出一个基于贝叶斯层次模型的无监督聚类模型EFRI来对区域功能进行划分并添加解释。如图2所示，h、t、x是可观测的各区域属性，也就是模型的输入。而模型的输出包括该区域的功能分布Θ，城市功能的词向量Φ以及城市特征的词向量Ψ。

实验中使用的数据集是从地图软件、出租车公司、大型点评推荐平台、大型社交平台、楼盘介绍中介等多种来源获得的。图1本发明的城市区域功能识别方法的流程图，下面结合图1对本发明进行详细说明。

1)获取城市的地图数据，根据主要道路将城市划分为若干个城市区域。

对于每一个给定的城市获取该城市地图数据，根据城市的地理位置，从地图软件ArcMAP中抓取经纬度范围落在城市市区范围内的所有道路，根据道路的属性从中过滤筛选留下主要道路(包括高速公路、一级公路、二级公路等)。

将道路信息通过栅栏化映射到一个0-1矩阵中表示地图，0-1矩阵中某个值若为0则表示该值对应地图上的坐标点为道路，否则地图坐标点表示空区域。

为了更精确地通过主要道路划分城市区域，填充地图上道路、十字路口等极小空隙，然后缩放线条，将道路变化成相同粗细的线条。处理过的道路可作为区域边界，将目标范围划分成若干个小区域。

2)从互联网网站中搜集每个城市区域包含的兴趣点元数据以及文本数据并进行归一化处理得到POI特征矩阵X和城市特征的信息h(r，m，d)。

对于兴趣点元数据，先从对应的数据中抽取出POI元数据，其包括POI类别和POI所属城市区域。根据建筑物的不同用途，把POI分为K歌、丽人、休闲娱乐、医疗健康、周边游、学习培训、宠物、爱车、生活服务、电影演出赛事、美食、购物、运动健身、未开盘的住宅、普通住宅、企业16种类别。

兴趣点元数据x按照以下方式得到。统计区域内r包含有各个POI的数量，得到一个16维的向量x_r＇＝[x＇_r，0，x＇_r，1，…，x＇_r，15]。将该向量除以所有POI总数y_r＝x＇_r，0+x＇_r，1+…+x＇_r，15，得到各个POI特征所占比重x_r＝[x_r，0，x_r，1，...，x_r，15][x′_r，0/y_r，x′_r，1/y_r，...，x′_r，15/y_r]，也是一个16维的向量，即单个区域的POI特征向量。R个区域的POI特征向量合并成POI特征矩阵X，即：

从系统监控的互联网网站中抽取出兴趣点文本数据。在监控的互联网网站中，每个在线评论m都被且仅被一个城市功能q标记，即l(m)＝q。共定义有“教育”，“医疗”，“住宅”，“商业”，“旅游”和“工业”六大类城市功能。

首先对文本分词并过滤掉停用词，剩下的词语作为城市特征。将区域r中出现在评论m的第d个位置的城市特征记为v(d)，计算一个数值h(r，m，d)来记录城市特征v(d)的信息。通过以下步骤操作得到h(r，m，d)的值。

之后，构造一个相关矩阵W∈R^V×Q，其中V是所有城市特征的个数，Q是城市功能的个数，以捕捉城市功能下每个城市特征V的相关性。根据已有的六大类城市功能，定义Q＝6。矩阵W是累积频率的集合，即W_v，q＝∑_l(m)＝q n(v，m)，其中n(v，m)是评论m中城市特征v的出现次数。然后，对W中的每列进行归一化，W_v，q＝W_v，q/(∑_v，W_v′，q)。

根据W，本申请构造了一个分类矩阵

来表示每个城市特征的最可能功能，其中非零元素表示与特征最常关联的功能，即

同时，必须考虑语境，将位置d上下文其他城市特征的统计量加入计算。对于每一个位置d，在它的周边设置一个大小为4的窗口捕捉位置d前后位置d′的城市特征v(d′)最可能的城市功能q，由

表示；

即上下文中城市特征v(d′)同样属于城市功能q。

最后，

其中v(d′)是出现在d位置的城市特征。

3)搜集出租车的轨迹数据并量化得到轨迹移动矩阵。

搜集出租车移动轨迹数据，其中每一条出租车移动轨迹包含起点、终点的经纬度和时间戳等关键元素。把一天划分为12个区间，每两个小时为1个区间。同时把每周划分为两部分，周一到周五为工作日，周六和周日为周末。则得到12*2＝24个时间区间。

出租车轨迹拥有起点和终点，若在第n₁个时间区间中共有p₁条轨迹的起点位于区域r，则统计r区域的流出量p₁，即

同理，若在第n₂个时间区间中共有p₂条轨迹的终点位于区域r，则认为区域r的流入量为p₂，即

因此，每个区域r可以对应一个48维的向量

其中前24个分量代表24个时间区间的流入量，后24个分量代表各时间区间的流出量。

若新增一条轨迹在第n₃个时间区间流入区域r，则

若该轨迹在第n₄个时间区间流出区域r，流出量对应t′_r中的第n₂+24个数，则

R个区域的轨迹移动向量合并成

之后，在每个时间区间之内做归一化。即，计算T′每一列的加和s＝[s₀，s₁，...，s₄₇]，其中s_j＝t′_1，j+t′_2，j+…+t′_R，j。对于每一个区域，都有t_r，n＝t′_r，n/s_n。最后R个移动轨迹向量合并成轨迹移动矩阵T。即：

4)建立一个基于贝叶斯层次模型的无监督聚类模型，将POI特征矩阵、城市特征的信息和轨迹移动矩阵作为输入，根据变分推断法求解该无监督聚类模型的参数。

首先，建立无监督聚类模型EFRI。该模型是整个系统的关键步骤，其通过融合兴趣点POI特征矩阵，城市特征的信息，移动轨迹矩阵，提高城市区域功能识别与划分的效果。EFRI假设所有城市区域可以被划分为若干个组别，其中每个组别叫做一个主题，一个主题对应若干个城市区域功能，不同的城市区域功能会产生不同的评论文本和移动轨迹分布。

EFRI模型的整体结构如图2所示。其中K表示主题个数；V表示所有单词的个数；Q表示城市功能的个数；G表示词嵌入向量的长度；R表示所划分的城市区域的个数；M表示单个区域中的评论文本个数，在不同区域中取不同的值；N表示区域中移动轨迹数据输入的维度；I表示将轨迹移动矩阵T的取值范围0～1划分成I个区间，将T连续的数值离散化；F表示POI向量x的长度，也就是POI特征向量的个数；D表示单条评论中词语的个数。

EFRI包括三个输入：兴趣点POI特征矩阵X、城市特征的信息h和移动轨迹矩阵T。：

EFRI含有β，E，σ²，b等多个超参数，其值由系统使用人员指定。模型每一部分解释如下：

λ_k～N(0，σ²I)且λ_k∈R^F，λ_k表示功能k中各个不同兴趣点的权重。λ_k∈R^F表示λ_k是一个F维的向量，F是兴趣点的个数。λ_k中的每一个元素都由超参数σ²I生成，即它们都服从期望为0，方差为σ²的高斯分布。

且θ_r∈R^K，θ_r表示区域r的主题分布。

是模型的一个输入，区域r兴趣点POI特征向量x_r的转置。δ_r，k表示原POI特征向量x_r经过λ_k加权后的POI特征向量。

z_r，n～Mult(θ_r)且z_r，n∈R^K，z_r，n表示区域r内第n个时间区间所对应的主题分布，是一个K维的one-hot向量。z_r，n～Mult(θ_r)表示z_r，n服从参数为θ_r的多项式分布。

y_r，m～Mult(θ_r)且y_r，m∈R^K，y_r，m表示区域r内评论m所对应的主题分布，是一个K维的one-hot向量。y_r，m～Mult(θ_r)表示y_r，m服从参数为θ_r的多项式分布。

ξ_k～Dir(β)且ξ_k∈R^I，ξ_k表示主题k下，移动轨迹向量的数值在I个区间的分布概率。ξ_k～Dir(β)表示ξ_k服从参数为β的Dirichlet分布。

t_r，n是一个标量且t_r，n∈[0，1]，t_r，n表示在第n个时间区间观察到区域r的流入量或流出量占当前时间区间的总量的比例。

表示t_r，n服从参数为

的多项式分布。z_r，n表示区域r内第n个时间区间所对应的主题分布，是一个K维的one-hot向量。若z_r，n的第k个元素为1，其他元素都为0，则

表示为ξ_k。

π_k～Dir(β)且π_k∈R^Q，π_k表示第k个城市主题下各个城市功能的分布。π_k～Dir(β)表示π_k服从参数为β的Dirichlet分布。

ψ_v～N(0，σ²I)且ψ_v∈R^G，ψ_v表示第v个城市特征的词嵌入向量。ψ_v∈R^G表示λ_k是一个G维的向量，G是设定的嵌入向量的维度。ψ_v中的每一个元素都由超参数σ²I生成，即它们都服从期望为0，方差为σ²的高斯分布。

φ_q～Laplace(0，b)且φ_q∈R^G，表示第q个城市功能的词嵌入向量。φ_q∈R^G表示φ_q是一个G维的向量，G是设定的嵌入向量的维度。φ_q中的每一个元素都服从期望为0，方差为2b²的Laplace分布。

c_r，m，d～N(Φψ_v，σ²I)且c_r，m，d∈R^Q，c_r，m，d表示在区域r内评论m中的词语d与各个城市功能的相关性。c_r，m，d～N(Φψ_v，σ²I)表示c_r，m，d中的每一个元素服从期望为Φψ_v，方差为σ²的高斯分布。Φ是Q个城市功能的嵌入词向量φ_q的集合，为Q×G矩阵。ψ_v表示c_r，m，d对应的城市特征的嵌入词向量，为G维向量。

且h_r，m，d∈Z⁺，表示在区域r内评论m中的词语d对应的词频统计值。

表示h_r，m，d服从期望为

方差为σ²的高斯分布。其中π_k表示第k个城市主题下各个城市功能的分布。c_r，m，d表示在区域r内评论m中的词语d与各个城市功能的相关性。y_r，m表示区域r内评论m所对应的主题分布，是一个K维的one-hot向量。若y_r，m的第k个元素为1，其他元素都为0，则

表示为π_k。

对于EFRI模型的求解，涉及在连续隐藏变量的整合，因此采用变分推理来求解。首先假设每个参数都是由一个独立的分布生成的，该分布的参数为对应的变分参数。为了便于区分和识别，若隐变量的变分分布为只有一个参数的Dirichlet分布或Laplace分布，则把变分参数命名为对应的隐变量符号加上单引号，如y～Dir(y′)。隐变量y对应的变分参数可表示为y′；若变分分布为高斯分布，则该隐变量有两个对应的变分参数，则在对应的隐变量符号后分别加一个新的符号μ和σ²表示它的均值和方差，如ψ～N(ψμ，ψσ²)。根据贝叶斯网络列出模型的似然函数。

L(π′，ξ′，φμ，φσ²，ψμ，ψσ²，λviμ，λviσ²，δ′，θ′，z′，y′；x，t，w，β，σ²，E，b)

＝E_q[ln p(π，ξ，φ，ψ，λ，δ，θ，z，y，c|x，t，w，β，σ²，E，b)]

-E_q[ln q(π，ξ，φ，ψ，λ，δ，θ，z，y，c)]#(1)

求解模型的目标是最小化模型的KL散度，相当于最大化似然函数。通过对似然函数的各个变分参数分别求导并令偏导数为0，则可得到各个偏导数的迭代表达式，多次迭代收敛后即为最佳变分参数。

主要潜在变量的更新迭代方程如下。

E步：变分参数的迭代

其中t_r，n表示在第n个时间区间观察到区域r的流入量或流出量占当前时间区间的总量的比例。t_r，n ⁱ＝1当且仅当t_r，n的值落在I个区间中的第i个时成立，否则t_r，n ⁱ＝0。z′_r，n，k是隐变量z_r，n，k对应的变分多项式分布的参数；β_ξ是隐变量ξ对应的Dirichlet分布的超参数，是一个I维向量，(β_ξ)_i表示β_ξ的第i个元素。

其中，π′_k，q是隐变量π_k，q对应的变分Dirichlet参数；β_π是隐变量π对应的Dirichlet分布的超参数，是一个Q维向量，(β_π)_q表示β_π的第q个元素；y′_r，m，k是隐变量y_r，m，k对应的变分参数。h_r，m，d ^v＝1当且仅当区域r内评论m中的词语d对应的h_r，m，d的城市特征是v时成立，否则h_r，m，d ^v＝0。

其中，φμ_q，g和φσ² _q，g是隐变量φ_q，g对应的变分Laplace分布的参数，φμ_q，g表示φ_q，g的期望，φσ² _q，g表示φ_q，g的方差的二分之一；ψμ_v，g和ψσ² _v，g是隐变量ψ_v，g对应的变分高斯分布的参数，ψμ_v，g表示ψ_v，g的期望，ψσ² _v，g表示φ_q，g的方差；

是观测到的城市特征的信息h对应的超参数；b是隐变量φ对应的超参数，是一个G维向量。

其中，λμ_k，f和λσ² _k，f是隐变量λ_k，f对应的变分高斯分布的参数，λμ_k，f表示λ_k，f的期望，λσ² _k，f表示λ_k，f的方差；δ′_r，k是原POI特征向量x_r经过λ_k加权后的POI特征向量δ_r，k对应的变分分布的参数；σ_λ是隐变量λ对应的超参数，是一个F维向量；x_r是区域r兴趣点POI特征向量，是一个可观测的F维向量；Ψ(·)表示Γ(·)函数的二阶导数，Ψ′(·)表示Γ(·)函数的三阶导数。

其中，区域r的主题分布向量是θ_r，θ′_r，k是θ_r的第k个元素θ_r，k对应的变分指数分布的参数；区域r内评论m所对应的主题分布是y_r，m，y′_r，m，k是y_r，m向量的第k个元素y_r，m，k对应的变分多项式分布的参数；区域r内第n个时间区间所对应的主题分布向量是z_r，n，z′_r，n，k是z_r，n的第k个元素z_r，n，k对应的变分多项式分布的参数。

M步：超参数的迭代

求解模型的方法步骤如下：

输入：兴趣点POI特征矩阵X、城市特征的信息h和移动轨迹矩阵T。

4a)初始化超参数β，∈，σ²，b。

4b)开始EM算法迭代循环直到收敛。

4b.1)初始化所有的变分超参数π′，ξ′，φμ，φσ²，ψμ，ψσ²，λμ，λσ²，δ′，θ′，z′，y′，进行LDA的E步迭代循环，直到所有超参数收敛。

(a)For k from 1 to K：

For i from 1 to I：

按照公式(2)式用迭代更新ξ′_k，i。

(b)For k from 1 to K：

For q from 1 to Q：

按照公式(3)式用迭代更新π′_k，q。

(c)For q from 1 to Q：

For g from 1 to G：

按照公式(4)式用迭代更新φμ_q，g。

(d)For q from 1 to Q：

For g from 1 to G：

按照公式(5)式用迭代更新φσ² _q，g。

(e)For v from 1 to V：

For g from 1 tO G：

按照公式(6)式用迭代更新ψμ_v，g。

(f)For v from 1 to V:

For g from 1 to G:

按照公式(7)式用迭代更新ψσ² _v，g。

(g)For k from 1 to K:

For f from 1 to F:

按照公式(8)式用迭代更新λμ_k，f。

(h)For k from 1 to K:

For f from 1 to F:

按照公式(9)式用迭代更新λσ² _k.f。

(i)For r from 1 to R:

For k from 1 to K:

按照公式(10)式用迭代更新δ′_r，k。

(j)For r from 1 to R:

For k from 1 to K:

按照公式(11)式用迭代更新θ′_r，k。

(k)For r from 1 to R:

For m from 1 to M:

For k from 1 to K:

按照公式(12)式用迭代更新y′_r，m，k。(l)For r from 1 to R:

For n from 1 to N:

For k from 1 to K:

按照公式(13)式用迭代更新z′_r，n，k。

(m)如果π′，ξ′，φμ，φσ²，ψμ，ψσ²，λμ，λσ²，δ′，θ′，z′，y′均已收敛，

则跳出4b.1)步，否则回到(a)步。

4b.2)进行LDA的M步迭代循环：

(a)For g from 1 to G:

按照公式(14)式用迭代更新b_g。

(b)For f from 1 to F:

按照公式(15)式用迭代更新

(c)For v from 1 to V:

按照公式(16)式用迭代更新

(d)按照公式(17)式用迭代更新

(e)For q from 1 to Q:

按照公式(18)式用迭代更新

(f)For i from 1 to I:

按照公式(19)式用迭代更新

(g)若所有变分参数均已收敛，则跳出4b.2)步，否则回到(a)步。

4b.3)如果所有的参数均收敛，则算法结束，否则回到步骤4b)。

算法结束后，可得到需要的该城市区域的主题分布Θ，城市功能的词向量以及城市特征的词向量Ψ。

5)根据参数得到每个城市区域的主题分布，以及每个主题与各种功能的相关性，概率最大的主题最相关的几个城市功能即为该城市区域的主要功能。

产生了每个城市区域的主题分布。每个区域对应的迭代的隐变量Θ是一个K维向量，K为城市主题分类的总数。当迭代趋于收敛时，Θ所代表的是该区域对各个城市主题的概率分布。概率越高，则该区域越有可能属于这个主题分类。每个主题分类包含一个或几个最相关的城市功能。

产生了城市功能最相关的城市特征，并通过区域内高频特征词来解释所产生的功能概率分布。最直观的解释方式是语言，我通过高频词语与城市功能分布对应起来，增强城市区域识别与划分的说服力和可靠性。

应用举例

给定某城市区域A的POI特征向量为x_A，轨迹特征向量为t_A，文本数据为h_A；某区域B的POI特征向量为x_A，轨迹特征向量为t_A，文本数据为h_B。将不同区域的观测数据输入EFRI模型，得到它们包含的城市功能概率分布如下表：

表1：区域包含各个城市功能的概率分布

	商业	医疗	旅游	教育	住宅	工业
							区域A	0.433	0.032	0.322	0.081	0.061	0.071
区域B	0.101	0.187	0.024	0.531	0.144	0.013

根据表1可以得到结论，区域A最可能包含的城市功能是“商业”和“旅游”，而区域B最可能包含的城市功能是“教育”。

同时生成的还有各个城市功能最相关的城市特征词。每个城市功能选取前十个最相关的特征词，集合如下表：

表2:各个城市功能最相关的城市特征

为了验证本发明方法在城市区域功能识别与划分上的准确性，增强识别结果的可信度，对区域内的高频词汇进行清洗、筛选和排序。结果显示，区域A中高频出现的词汇如“便捷”、“银行”、“驾驶”等，从日常语言习惯的角度解释了该区域可能进行的城市功能，对区域A可能包含“商业”和“旅游”这两个城市功能给出了可靠的解释。而区域B中频繁出现的“学科”、“少儿”等特征词则表明这里很可能是一个包含“教育”城市功能的区域。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.一种基于多源数据融合的城市区域功能智能识别方法，其特征在于，包括如下步骤：

3)搜集出租车的轨迹数据并量化得到轨迹移动矩阵；

2.如权利要求1所述的一种基于多源数据融合的城市区域功能智能识别方法，其特征在于，所述步骤1)中，具体包括：设定一个城市市区范围为目标范围；对于地图数据，先根据城市的地理位置，从地图软件ArcMAP中抓取经纬度范围落在目标范围内的所有道路，根据道路的属性从中过滤筛选留下主要道路；对地图进行处理将道路变化成相同粗细的线条作为区域边界，从而将目标范围划分成若干个所述城市区域。

3.如权利要求1所述的一种基于多源数据融合的城市区域功能智能识别方法，其特征在于，所述步骤2)中，所述兴趣点元数据包括POI类别和POI所属城市区域；统计每个城市区域r包含有各个POI类别的数量，得到向量x_r′＝[x′_r，0，x′_r，1，...，x′_r，15]；该向量除以所有POI类别总数y_r＝x′_r，0+x′_r，1+...+x′_r，15，得到各个POI特征所占比重x_r＝[x_r，0，x_r，1，…，x_r，15]＝[x′_r，0/y_r，x′_r，1/y_r，...，x′_r，15/y_r]，R个城市区域的POI特征向量合并成POI特征矩阵X，即：

4.如权利要求1所述的一种基于多源数据融合的城市区域功能智能识别方法，其特征在于，在步骤2)中，互联网网站中，每个在线评论m都被且仅被一个城市功能q标记，即l(m)＝q；每个城市区域r中出现在评论m的第d个位置的城市特征记为v(d)，计算一个数值h(r，m，d)来记录城市特征的信息，

其中W_v，q＝∑_l(m)＝qn(v，m)，n(v，m)是评论m中城市特征v的出现次数，

表示位置d前后位置d′的城市特征v(d′)最可能的城市功能q。

5.如权利要求1所述的一种基于多源数据融合的城市区域功能智能识别方法，其特征在于，在步骤3)中，每一条出租车移动轨迹包含起点、终点的经纬度和时间戳；先统计城市区域r的流入量和流出量得到轨迹移动向量

再计算T′每一列的加和s＝[s₀，s₁，...，s₄₇]，其中s_n＝t′_1，n+t′_2，n+...+t′_R，n，n＝0，1，2，...，47，对于每一个城市区域r，都构建向量

t_r，n=t′_r，n/s_n，n＝0，1，2，...，47，其中t′_r，n表示轨迹移动向量t′_r的第n个元素，t_r，n表示标准化的轨迹移动向量t_r的第n个元素，除以对应s_n后等比例变换后成t_r，n且满足

最后R个移动轨迹向量合并成轨迹移动矩阵T，即：

6.如权利要求1所述的一种基于多源数据融合的城市区域功能智能识别方法，其特征在于，在步骤4)中，根据变分推断法求解该无监督聚类模型的参数,具体如下：

4a)初始化超参数；

4b)开始EM算法迭代循环直到收敛：

4b.2)进行M步迭代循环，直到所有变分参数均已收敛；

7.如权利要求6所述的一种基于多源数据融合的城市区域功能智能识别方法，其特征在于，在步骤5)中，根据主题分布Θ得到每个城市区域的主题分布，主题分布Θ代表该城市区域对各个城市主题的概率分布，每个主题分类包含至少一个最相关的城市功能。

8.如权利要求6所述的一种基于多源数据融合的城市区域功能智能识别方法，其特征在于，在步骤6)中，根据城市功能的词向量Φ以及城市特征的词向量Ψ得到该城市区域每个城市功能最相关的城市特征词。