CN111382224A - 一种基于多源数据融合的城市区域功能智能识别方法 - Google Patents

一种基于多源数据融合的城市区域功能智能识别方法 Download PDF

Info

Publication number
CN111382224A
CN111382224A CN202010151262.3A CN202010151262A CN111382224A CN 111382224 A CN111382224 A CN 111382224A CN 202010151262 A CN202010151262 A CN 202010151262A CN 111382224 A CN111382224 A CN 111382224A
Authority
CN
China
Prior art keywords
city
urban
area
function
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010151262.3A
Other languages
English (en)
Other versions
CN111382224B (zh
Inventor
林琛
翁宇游
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202010151262.3A priority Critical patent/CN111382224B/zh
Publication of CN111382224A publication Critical patent/CN111382224A/zh
Application granted granted Critical
Publication of CN111382224B publication Critical patent/CN111382224B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的一种基于多源数据融合的城市区域功能智能识别方法,包括:获取城市的地图数据,根据主要道路将城市划分为若干个城市区域;从互联网网站中搜集每个城市区域包含的兴趣点元数据和文本数据并进行归一化处理;搜集出租车的轨迹数据并量化;建立基于贝叶斯层次模型的无监督聚类模型,根据变分推断法求解该模型参数;产生每个城市区域的主题分布,以及每个主题与各种功能的相关性,概率最大的主题最相关的几个城市功能为该区域的主要功能;产生该区域每个功能最相关的城市特征词。本发明方法融合多源多模态数据,对城市区域功能进行智能识别和划分,从数值和文本形式产生了功能分布和城市特征两种解释方式,增强城市区域功能识别的可靠性和可解释性。

Description

一种基于多源数据融合的城市区域功能智能识别方法
技术领域
本发明涉及机器学习领域,特别是指一种基于多源数据融合的城市区域功能智能识别方法。
背景技术
城市计算是一个获取、集成和分析城市空间中由不同来源产生的大数据和异构数据的过程。实现高效城市计算的一个关键步骤是确定功能区域,这是城市中支持城市功能的某些需求的区域。
以前的功能区识别(FRI)系统大多对人的移动数据使用聚类方法,包括对电信数据的分析,谱聚类分析,隐狄利克雷分配(LDA)分析等。然而,现有研究存在一个严重缺陷。由于近年来研究的模型比较复杂,缺少识别区域的语义解释,这些聚类方法只提供了一个可能的区域划分,而用户不知道这些划分意味着什么样的功能。
研究表明,借助于大量的在线地理标记文本数据,如评论和兴趣点(POI)的性质,城市区域的功能可以实现自我解释。
尽管人们对可解释的人工智能越来越感兴趣,但在地理系统中,可解释系统仍处于初级阶段。构建一个可解释的城市计算系统面临着移动轨迹数据和语义文本存在巨大差异性的独特挑战。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于多源数据融合的城市区域功能智能识别方法,分别从数值和文本形式产生了功能分布和城市特征两种解释方式,以增强城市区域功能识别的可靠性和可解释性。
本发明采用如下技术方案:
一种基于多源数据融合的城市区域功能智能识别方法,其特征在于,包括如下步骤:
1)获取城市的地图数据,根据主要道路将城市划分为若干个城市区域;
2)从互联网网站中搜集每个城市区域包含的兴趣点元数据以及文本数据并进行归一化处理得到POI特征矩阵和城市特征的信息;
3)搜集出租车的轨迹数据并量化得到轨迹移动矩阵;
4)建立一个基于贝叶斯层次模型的无监督聚类模型,将POI特征矩阵、城市特征的信息和轨迹移动矩阵作为输入,根据变分推断法求解该无监督聚类模型的参数;
5)根据参数得到每个城市区域的主题分布,以及每个主题与各种功能的相关性,概率最大的主题最相关的几个城市功能即为该城市区域的主要功能;
6)根据参数得到该城市区域每个城市功能最相关的城市特征词。
优选的,所述步骤1)中,具体包括:设定一个城市市区范围为目标范围;对于地图数据,先根据城市的地理位置,从地图软件ArcMAP中抓取经纬度范围落在目标范围内的所有道路,根据道路的属性从中过滤筛选留下主要道路;对地图进行处理将道路变化成相同粗细的线条作为区域边界,从而将目标范围划分成若干个所述城市区域。
优选的,所述步骤2)中,所述兴趣点元数据包括POI类别和POI所属城市区域;统计每个城市区域r包含有各个POI类别的数量,得到向量xr′=[x′r,0,x′r,1,…,x′r,15];该向量除以所有POI类别总数yr=x′r,0+x′r,1+…+x′r,15,得到各个POI特征所占比重xr=[xr,0,xr,1,...,xr,15]=[x′r,0/yr,x′r,1/yr,...,x′r,15/yr],R个城市区域的POI特征向量合并成POI特征矩阵X,即:
Figure BDA0002402516560000031
优选的,在步骤2)中,互联网网站中,每个在线评论m都被且仅被一个城市功能q标记,即l(m)=q;每个城市区域r中出现在评论m的第d个位置的城市特征记为v(d),计算一个数值h(r,m,d)来记录城市特征的信息,
Figure BDA0002402516560000032
Figure BDA0002402516560000033
其中Wv,q=∑l(m)=q n(v,m),n(v,m)是评论m中城市特征v的出现次数,
Figure BDA0002402516560000034
表示位置d前后位置d′的城市特征v(d′)最可能的城市功能q。
优选的,在步骤3)中,每一条出租车移动轨迹包含起点、终点的经纬度和时间戳;先统计城市区域r的流入量和流出量得到轨迹移动向量
Figure BDA0002402516560000035
t′r是一个48维的向量,分别表示一天划分的12个区间在工作日、周末两种流动模式下分别对流入量和流出量的统计量;其中,第1-12个元素代表工作日流入量,13-24代表周末流入量,25-36代表工作日流出量,37-48代表周末流出量。每个元素取值范围是自然数,表示对应区间在对应流动模式下对应统计量的统计数值;R个城市区域的轨迹移动向量合并成
Figure BDA0002402516560000036
再计算T′每一列的加和s=[s0,s1,...,s47],其中sn=t′1,n+t′2,n+…+t′R,n,n=0,1,2,...,47,对于每一个城市区域r,都构建向量
Figure BDA0002402516560000037
tr,n=t′r,n/sn,n=0,1,2,...,47,其中t′r,n表示轨迹移动向量t′r的第n个元素,tr,n表示标准化的轨迹移动向量tr的第n个元素,除以对应sn后等比例变换后成tr,n且满足
Figure BDA0002402516560000038
最后R个移动轨迹向量合并成轨迹移动矩阵T,即:
Figure BDA0002402516560000041
优选的,在步骤4)中,根据变分推断法求解该无监督聚类模型的参数,具体如下:
4a)初始化超参数;
4b)开始EM算法迭代循环直到收敛:
4b.1)初始化所有的变分超参数,进行E步迭代循环,直到所有变分超参数收敛;
4b.2)进行M步迭代循环,直到所有变分参数均已收敛;
4c)若所有的变分参数均收敛,则结束,得到的参数为主题分布Θ,城市功能的词向量Φ以及城市特征的词向量Ψ,否则回到第2)。
优选的,在步骤5)中,根据主题分布Θ得到每个城市区域的主题分布,主题分布Θ代表该城市区域对各个城市主题的概率分布,每个主题分类包含至少一个最相关的城市功能。
优选的,在步骤6)中,根据城市功能的词向量Φ以及城市特征的词向量Ψ得到该城市区域每个城市功能最相关的城市特征词。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
本发明方法融合了多源多模态数据,对城市区域功能进行智能识别和划分,分别从数值和文本形式产生了功能分布和城市特征两种解释方式,以增强城市区域功能识别的可靠性和可解释性。
本发明的方法,对于系统设计者来说,可靠的解释有助于他们更好地判断系统状态并提高系统性能。对于终端用户来说,解释不仅有利于聚类结果的解释,而且还提高了用户的信任度。
本发明的方法,应用广泛,例如交通流预测、个性化轨迹推荐、城市规划等。
附图说明
图1是本发明实施例的流程图。
图2是本发明提出的EFRI模型的贝叶斯网络框架图。
图3是构造文本数据的向量形式。
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
以下通过具体实施方式对本发明作进一步的描述。
本发明的一种基于多源数据融合的城市区域功能智能识别方法,提出一个基于贝叶斯层次模型的无监督聚类模型EFRI来对区域功能进行划分并添加解释。如图2所示,h、t、x是可观测的各区域属性,也就是模型的输入。而模型的输出包括该区域的功能分布Θ,城市功能的词向量Φ以及城市特征的词向量Ψ。
实验中使用的数据集是从地图软件、出租车公司、大型点评推荐平台、大型社交平台、楼盘介绍中介等多种来源获得的。图1本发明的城市区域功能识别方法的流程图,下面结合图1对本发明进行详细说明。
1)获取城市的地图数据,根据主要道路将城市划分为若干个城市区域。
对于每一个给定的城市获取该城市地图数据,根据城市的地理位置,从地图软件ArcMAP中抓取经纬度范围落在城市市区范围内的所有道路,根据道路的属性从中过滤筛选留下主要道路(包括高速公路、一级公路、二级公路等)。
将道路信息通过栅栏化映射到一个0-1矩阵中表示地图,0-1矩阵中某个值若为0则表示该值对应地图上的坐标点为道路,否则地图坐标点表示空区域。
为了更精确地通过主要道路划分城市区域,填充地图上道路、十字路口等极小空隙,然后缩放线条,将道路变化成相同粗细的线条。处理过的道路可作为区域边界,将目标范围划分成若干个小区域。
2)从互联网网站中搜集每个城市区域包含的兴趣点元数据以及文本数据并进行归一化处理得到POI特征矩阵X和城市特征的信息h(r,m,d)。
对于兴趣点元数据,先从对应的数据中抽取出POI元数据,其包括POI类别和POI所属城市区域。根据建筑物的不同用途,把POI分为K歌、丽人、休闲娱乐、医疗健康、周边游、学习培训、宠物、爱车、生活服务、电影演出赛事、美食、购物、运动健身、未开盘的住宅、普通住宅、企业16种类别。
兴趣点元数据x按照以下方式得到。统计区域内r包含有各个POI的数量,得到一个16维的向量xr'=[x'r,0,x'r,1,…,x'r,15]。将该向量除以所有POI总数yr=x'r,0+x'r,1+…+x'r,15,得到各个POI特征所占比重xr=[xr,0,xr,1,...,xr,15][x′r,0/yr,x′r,1/yr,...,x′r,15/yr],也是一个16维的向量,即单个区域的POI特征向量。R个区域的POI特征向量合并成POI特征矩阵X,即:
Figure BDA0002402516560000061
从系统监控的互联网网站中抽取出兴趣点文本数据。在监控的互联网网站中,每个在线评论m都被且仅被一个城市功能q标记,即l(m)=q。共定义有“教育”,“医疗”,“住宅”,“商业”,“旅游”和“工业”六大类城市功能。
首先对文本分词并过滤掉停用词,剩下的词语作为城市特征。将区域r中出现在评论m的第d个位置的城市特征记为v(d),计算一个数值h(r,m,d)来记录城市特征v(d)的信息。通过以下步骤操作得到h(r,m,d)的值。
之后,构造一个相关矩阵W∈RV×Q,其中V是所有城市特征的个数,Q是城市功能的个数,以捕捉城市功能下每个城市特征V的相关性。根据已有的六大类城市功能,定义Q=6。矩阵W是累积频率的集合,即Wv,q=∑l(m)=q n(v,m),其中n(v,m)是评论m中城市特征v的出现次数。然后,对W中的每列进行归一化,Wv,q=Wv,q/(∑v,Wv′,q)。
根据W,本申请构造了一个分类矩阵
Figure BDA0002402516560000071
来表示每个城市特征的最可能功能,其中非零元素表示与特征最常关联的功能,即
Figure BDA0002402516560000072
同时,必须考虑语境,将位置d上下文其他城市特征的统计量加入计算。对于每一个位置d,在它的周边设置一个大小为4的窗口捕捉位置d前后位置d′的城市特征v(d′)最可能的城市功能q,由
Figure BDA0002402516560000073
表示;
Figure BDA0002402516560000074
即上下文中城市特征v(d′)同样属于城市功能q。
最后,
Figure BDA0002402516560000075
其中v(d′)是出现在d位置的城市特征。
3)搜集出租车的轨迹数据并量化得到轨迹移动矩阵。
搜集出租车移动轨迹数据,其中每一条出租车移动轨迹包含起点、终点的经纬度和时间戳等关键元素。把一天划分为12个区间,每两个小时为1个区间。同时把每周划分为两部分,周一到周五为工作日,周六和周日为周末。则得到12*2=24个时间区间。
出租车轨迹拥有起点和终点,若在第n1个时间区间中共有p1条轨迹的起点位于区域r,则统计r区域的流出量p1,即
Figure BDA0002402516560000076
同理,若在第n2个时间区间中共有p2条轨迹的终点位于区域r,则认为区域r的流入量为p2,即
Figure BDA0002402516560000081
因此,每个区域r可以对应一个48维的向量
Figure BDA0002402516560000082
其中前24个分量代表24个时间区间的流入量,后24个分量代表各时间区间的流出量。
若新增一条轨迹在第n3个时间区间流入区域r,则
Figure BDA0002402516560000083
若该轨迹在第n4个时间区间流出区域r,流出量对应t′r中的第n2+24个数,则
Figure BDA0002402516560000084
R个区域的轨迹移动向量合并成
Figure BDA0002402516560000085
之后,在每个时间区间之内做归一化。即,计算T′每一列的加和s=[s0,s1,...,s47],其中sj=t′1,j+t′2,j+…+t′R,j。对于每一个区域,都有tr,n=t′r,n/sn。最后R个移动轨迹向量合并成轨迹移动矩阵T。即:
Figure BDA0002402516560000086
4)建立一个基于贝叶斯层次模型的无监督聚类模型,将POI特征矩阵、城市特征的信息和轨迹移动矩阵作为输入,根据变分推断法求解该无监督聚类模型的参数。
首先,建立无监督聚类模型EFRI。该模型是整个系统的关键步骤,其通过融合兴趣点POI特征矩阵,城市特征的信息,移动轨迹矩阵,提高城市区域功能识别与划分的效果。EFRI假设所有城市区域可以被划分为若干个组别,其中每个组别叫做一个主题,一个主题对应若干个城市区域功能,不同的城市区域功能会产生不同的评论文本和移动轨迹分布。
EFRI模型的整体结构如图2所示。其中K表示主题个数;V表示所有单词的个数;Q表示城市功能的个数;G表示词嵌入向量的长度;R表示所划分的城市区域的个数;M表示单个区域中的评论文本个数,在不同区域中取不同的值;N表示区域中移动轨迹数据输入的维度;I表示将轨迹移动矩阵T的取值范围0~1划分成I个区间,将T连续的数值离散化;F表示POI向量x的长度,也就是POI特征向量的个数;D表示单条评论中词语的个数。
EFRI包括三个输入:兴趣点POI特征矩阵X、城市特征的信息h和移动轨迹矩阵T。:
EFRI含有β,E,σ2,b等多个超参数,其值由系统使用人员指定。模型每一部分解释如下:
λk~N(0,σ2I)且λk∈RF,λk表示功能k中各个不同兴趣点的权重。λk∈RF表示λk是一个F维的向量,F是兴趣点的个数。λk中的每一个元素都由超参数σ2I生成,即它们都服从期望为0,方差为σ2的高斯分布。
Figure BDA0002402516560000091
且θr∈RK,θr表示区域r的主题分布。
Figure BDA0002402516560000092
是模型的一个输入,区域r兴趣点POI特征向量xr的转置。δr,k表示原POI特征向量xr经过λk加权后的POI特征向量。
zr,n~Mult(θr)且zr,n∈RK,zr,n表示区域r内第n个时间区间所对应的主题分布,是一个K维的one-hot向量。zr,n~Mult(θr)表示zr,n服从参数为θr的多项式分布。
yr,m~Mult(θr)且yr,m∈RK,yr,m表示区域r内评论m所对应的主题分布,是一个K维的one-hot向量。yr,m~Mult(θr)表示yr,m服从参数为θr的多项式分布。
ξk~Dir(β)且ξk∈RI,ξk表示主题k下,移动轨迹向量的数值在I个区间的分布概率。ξk~Dir(β)表示ξk服从参数为β的Dirichlet分布。
Figure BDA0002402516560000101
tr,n是一个标量且tr,n∈[0,1],tr,n表示在第n个时间区间观察到区域r的流入量或流出量占当前时间区间的总量的比例。
Figure BDA0002402516560000102
表示tr,n服从参数为
Figure BDA0002402516560000103
的多项式分布。zr,n表示区域r内第n个时间区间所对应的主题分布,是一个K维的one-hot向量。若zr,n的第k个元素为1,其他元素都为0,则
Figure BDA0002402516560000104
表示为ξk
πk~Dir(β)且πk∈RQ,πk表示第k个城市主题下各个城市功能的分布。πk~Dir(β)表示πk服从参数为β的Dirichlet分布。
ψv~N(0,σ2I)且ψv∈RG,ψv表示第v个城市特征的词嵌入向量。ψv∈RG表示λk是一个G维的向量,G是设定的嵌入向量的维度。ψv中的每一个元素都由超参数σ2I生成,即它们都服从期望为0,方差为σ2的高斯分布。
φq~Laplace(0,b)且φq∈RG,表示第q个城市功能的词嵌入向量。φq∈RG表示φq是一个G维的向量,G是设定的嵌入向量的维度。φq中的每一个元素都服从期望为0,方差为2b2的Laplace分布。
cr,m,d~N(Φψv,σ2I)且cr,m,d∈RQ,cr,m,d表示在区域r内评论m中的词语d与各个城市功能的相关性。cr,m,d~N(Φψv,σ2I)表示cr,m,d中的每一个元素服从期望为Φψv,方差为σ2的高斯分布。Φ是Q个城市功能的嵌入词向量φq的集合,为Q×G矩阵。ψv表示cr,m,d对应的城市特征的嵌入词向量,为G维向量。
Figure BDA0002402516560000105
且hr,m,d∈Z+,表示在区域r内评论m中的词语d对应的词频统计值。
Figure BDA0002402516560000106
表示hr,m,d服从期望为
Figure BDA0002402516560000107
方差为σ2的高斯分布。其中πk表示第k个城市主题下各个城市功能的分布。cr,m,d表示在区域r内评论m中的词语d与各个城市功能的相关性。yr,m表示区域r内评论m所对应的主题分布,是一个K维的one-hot向量。若yr,m的第k个元素为1,其他元素都为0,则
Figure BDA0002402516560000111
表示为πk
对于EFRI模型的求解,涉及在连续隐藏变量的整合,因此采用变分推理来求解。首先假设每个参数都是由一个独立的分布生成的,该分布的参数为对应的变分参数。为了便于区分和识别,若隐变量的变分分布为只有一个参数的Dirichlet分布或Laplace分布,则把变分参数命名为对应的隐变量符号加上单引号,如y~Dir(y′)。隐变量y对应的变分参数可表示为y′;若变分分布为高斯分布,则该隐变量有两个对应的变分参数,则在对应的隐变量符号后分别加一个新的符号μ和σ2表示它的均值和方差,如ψ~N(ψμ,ψσ2)。根据贝叶斯网络列出模型的似然函数。
L(π′,ξ′,φμ,φσ2,ψμ,ψσ2,λviμ,λviσ2,δ′,θ′,z′,y′;x,t,w,β,σ2,E,b)
=Eq[ln p(π,ξ,φ,ψ,λ,δ,θ,z,y,c|x,t,w,β,σ2,E,b)]
-Eq[ln q(π,ξ,φ,ψ,λ,δ,θ,z,y,c)]#(1)
求解模型的目标是最小化模型的KL散度,相当于最大化似然函数。通过对似然函数的各个变分参数分别求导并令偏导数为0,则可得到各个偏导数的迭代表达式,多次迭代收敛后即为最佳变分参数。
主要潜在变量的更新迭代方程如下。
E步:变分参数的迭代
Figure BDA0002402516560000112
其中tr,n表示在第n个时间区间观察到区域r的流入量或流出量占当前时间区间的总量的比例。tr,n i=1当且仅当tr,n的值落在I个区间中的第i个时成立,否则tr,n i=0。z′r,n,k是隐变量zr,n,k对应的变分多项式分布的参数;βξ是隐变量ξ对应的Dirichlet分布的超参数,是一个I维向量,(βξ)i表示βξ的第i个元素。
Figure BDA0002402516560000121
其中,π′k,q是隐变量πk,q对应的变分Dirichlet参数;βπ是隐变量π对应的Dirichlet分布的超参数,是一个Q维向量,(βπ)q表示βπ的第q个元素;y′r,m,k是隐变量yr,m,k对应的变分参数。hr,m,d v=1当且仅当区域r内评论m中的词语d对应的hr,m,d的城市特征是v时成立,否则hr,m,d v=0。
Figure BDA0002402516560000122
Figure BDA0002402516560000123
Figure BDA0002402516560000124
Figure BDA0002402516560000125
其中,φμq,g和φσ2 q,g是隐变量φq,g对应的变分Laplace分布的参数,φμq,g表示φq,g的期望,φσ2 q,g表示φq,g的方差的二分之一;ψμv,g和ψσ2 v,g是隐变量ψv,g对应的变分高斯分布的参数,ψμv,g表示ψv,g的期望,ψσ2 v,g表示φq,g的方差;
Figure BDA0002402516560000129
是观测到的城市特征的信息h对应的超参数;b是隐变量φ对应的超参数,是一个G维向量。
Figure BDA0002402516560000126
Figure BDA0002402516560000127
Figure BDA0002402516560000128
其中,λμk,f和λσ2 k,f是隐变量λk,f对应的变分高斯分布的参数,λμk,f表示λk,f的期望,λσ2 k,f表示λk,f的方差;δ′r,k是原POI特征向量xr经过λk加权后的POI特征向量δr,k对应的变分分布的参数;σλ是隐变量λ对应的超参数,是一个F维向量;xr是区域r兴趣点POI特征向量,是一个可观测的F维向量;Ψ(·)表示Γ(·)函数的二阶导数,Ψ′(·)表示Γ(·)函数的三阶导数。
Figure BDA0002402516560000131
Figure BDA0002402516560000132
Figure BDA0002402516560000133
其中,区域r的主题分布向量是θr,θ′r,k是θr的第k个元素θr,k对应的变分指数分布的参数;区域r内评论m所对应的主题分布是yr,m,y′r,m,k是yr,m向量的第k个元素yr,m,k对应的变分多项式分布的参数;区域r内第n个时间区间所对应的主题分布向量是zr,n,z′r,n,k是zr,n的第k个元素zr,n,k对应的变分多项式分布的参数。
M步:超参数的迭代
Figure BDA0002402516560000134
Figure BDA0002402516560000135
Figure BDA0002402516560000136
Figure BDA0002402516560000137
Figure BDA0002402516560000138
Figure BDA0002402516560000141
求解模型的方法步骤如下:
输入:兴趣点POI特征矩阵X、城市特征的信息h和移动轨迹矩阵T。
4a)初始化超参数β,∈,σ2,b。
4b)开始EM算法迭代循环直到收敛。
4b.1)初始化所有的变分超参数π′,ξ′,φμ,φσ2,ψμ,ψσ2,λμ,λσ2,δ′,θ′,z′,y′,进行LDA的E步迭代循环,直到所有超参数收敛。
(a)For k from 1 to K:
For i from 1 to I:
按照公式(2)式用迭代更新ξ′k,i
(b)For k from 1 to K:
For q from 1 to Q:
按照公式(3)式用迭代更新π′k,q
(c)For q from 1 to Q:
For g from 1 to G:
按照公式(4)式用迭代更新φμq,g
(d)For q from 1 to Q:
For g from 1 to G:
按照公式(5)式用迭代更新φσ2 q,g
(e)For v from 1 to V:
For g from 1 tO G:
按照公式(6)式用迭代更新ψμv,g
(f)For v from 1 to V:
For g from 1 to G:
按照公式(7)式用迭代更新ψσ2 v,g
(g)For k from 1 to K:
For f from 1 to F:
按照公式(8)式用迭代更新λμk,f
(h)For k from 1 to K:
For f from 1 to F:
按照公式(9)式用迭代更新λσ2 k.f
(i)For r from 1 to R:
For k from 1 to K:
按照公式(10)式用迭代更新δ′r,k
(j)For r from 1 to R:
For k from 1 to K:
按照公式(11)式用迭代更新θ′r,k
(k)For r from 1 to R:
For m from 1 to M:
For k from 1 to K:
按照公式(12)式用迭代更新y′r,m,k。(l)For r from 1 to R:
For n from 1 to N:
For k from 1 to K:
按照公式(13)式用迭代更新z′r,n,k
(m)如果π′,ξ′,φμ,φσ2,ψμ,ψσ2,λμ,λσ2,δ′,θ′,z′,y′均已收敛,
则跳出4b.1)步,否则回到(a)步。
4b.2)进行LDA的M步迭代循环:
(a)For g from 1 to G:
按照公式(14)式用迭代更新bg
(b)For f from 1 to F:
按照公式(15)式用迭代更新
Figure BDA0002402516560000161
(c)For v from 1 to V:
按照公式(16)式用迭代更新
Figure BDA0002402516560000162
(d)按照公式(17)式用迭代更新
Figure BDA0002402516560000163
(e)For q from 1 to Q:
按照公式(18)式用迭代更新
Figure BDA0002402516560000164
(f)For i from 1 to I:
按照公式(19)式用迭代更新
Figure BDA0002402516560000165
(g)若所有变分参数均已收敛,则跳出4b.2)步,否则回到(a)步。
4b.3)如果所有的参数均收敛,则算法结束,否则回到步骤4b)。
算法结束后,可得到需要的该城市区域的主题分布Θ,城市功能的词向量以及城市特征的词向量Ψ。
5)根据参数得到每个城市区域的主题分布,以及每个主题与各种功能的相关性,概率最大的主题最相关的几个城市功能即为该城市区域的主要功能。
产生了每个城市区域的主题分布。每个区域对应的迭代的隐变量Θ是一个K维向量,K为城市主题分类的总数。当迭代趋于收敛时,Θ所代表的是该区域对各个城市主题的概率分布。概率越高,则该区域越有可能属于这个主题分类。每个主题分类包含一个或几个最相关的城市功能。
6)根据参数得到该城市区域每个城市功能最相关的城市特征词。
产生了城市功能最相关的城市特征,并通过区域内高频特征词来解释所产生的功能概率分布。最直观的解释方式是语言,我通过高频词语与城市功能分布对应起来,增强城市区域识别与划分的说服力和可靠性。
应用举例
给定某城市区域A的POI特征向量为xA,轨迹特征向量为tA,文本数据为hA;某区域B的POI特征向量为xA,轨迹特征向量为tA,文本数据为hB。将不同区域的观测数据输入EFRI模型,得到它们包含的城市功能概率分布如下表:
表1:区域包含各个城市功能的概率分布
商业 医疗 旅游 教育 住宅 工业
区域A 0.433 0.032 0.322 0.081 0.061 0.071
区域B 0.101 0.187 0.024 0.531 0.144 0.013
根据表1可以得到结论,区域A最可能包含的城市功能是“商业”和“旅游”,而区域B最可能包含的城市功能是“教育”。
同时生成的还有各个城市功能最相关的城市特征词。每个城市功能选取前十个最相关的特征词,集合如下表:
表2:各个城市功能最相关的城市特征
Figure BDA0002402516560000171
Figure BDA0002402516560000181
为了验证本发明方法在城市区域功能识别与划分上的准确性,增强识别结果的可信度,对区域内的高频词汇进行清洗、筛选和排序。结果显示,区域A中高频出现的词汇如“便捷”、“银行”、“驾驶”等,从日常语言习惯的角度解释了该区域可能进行的城市功能,对区域A可能包含“商业”和“旅游”这两个城市功能给出了可靠的解释。而区域B中频繁出现的“学科”、“少儿”等特征词则表明这里很可能是一个包含“教育”城市功能的区域。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (8)

1.一种基于多源数据融合的城市区域功能智能识别方法,其特征在于,包括如下步骤:
1)获取城市的地图数据,根据主要道路将城市划分为若干个城市区域;
2)从互联网网站中搜集每个城市区域包含的兴趣点元数据以及文本数据并进行归一化处理得到POI特征矩阵和城市特征的信息;
3)搜集出租车的轨迹数据并量化得到轨迹移动矩阵;
4)建立一个基于贝叶斯层次模型的无监督聚类模型,将POI特征矩阵、城市特征的信息和轨迹移动矩阵作为输入,根据变分推断法求解该无监督聚类模型的参数;
5)根据参数得到每个城市区域的主题分布,以及每个主题与各种功能的相关性,概率最大的主题最相关的几个城市功能即为该城市区域的主要功能;
6)根据参数得到该城市区域每个城市功能最相关的城市特征词。
2.如权利要求1所述的一种基于多源数据融合的城市区域功能智能识别方法,其特征在于,所述步骤1)中,具体包括:设定一个城市市区范围为目标范围;对于地图数据,先根据城市的地理位置,从地图软件ArcMAP中抓取经纬度范围落在目标范围内的所有道路,根据道路的属性从中过滤筛选留下主要道路;对地图进行处理将道路变化成相同粗细的线条作为区域边界,从而将目标范围划分成若干个所述城市区域。
3.如权利要求1所述的一种基于多源数据融合的城市区域功能智能识别方法,其特征在于,所述步骤2)中,所述兴趣点元数据包括POI类别和POI所属城市区域;统计每个城市区域r包含有各个POI类别的数量,得到向量xr′=[x′r,0,x′r,1,...,x′r,15];该向量除以所有POI类别总数yr=x′r,0+x′r,1+...+x′r,15,得到各个POI特征所占比重xr=[xr,0,xr,1,…,xr,15]=[x′r,0/yr,x′r,1/yr,...,x′r,15/yr],R个城市区域的POI特征向量合并成POI特征矩阵X,即:
Figure FDA0002402516550000021
4.如权利要求1所述的一种基于多源数据融合的城市区域功能智能识别方法,其特征在于,在步骤2)中,互联网网站中,每个在线评论m都被且仅被一个城市功能q标记,即l(m)=q;每个城市区域r中出现在评论m的第d个位置的城市特征记为v(d),计算一个数值h(r,m,d)来记录城市特征的信息,
Figure FDA0002402516550000022
其中Wv,q=∑l(m)=qn(v,m),n(v,m)是评论m中城市特征v的出现次数,
Figure FDA0002402516550000023
表示位置d前后位置d′的城市特征v(d′)最可能的城市功能q。
5.如权利要求1所述的一种基于多源数据融合的城市区域功能智能识别方法,其特征在于,在步骤3)中,每一条出租车移动轨迹包含起点、终点的经纬度和时间戳;先统计城市区域r的流入量和流出量得到轨迹移动向量
Figure FDA0002402516550000024
t′r是一个48维的向量,分别表示一天划分的12个区间在工作日、周末两种流动模式下分别对流入量和流出量的统计量;其中,第1-12个元素代表工作日流入量,13-24代表周末流入量,25-36代表工作日流出量,37-48代表周末流出量。每个元素取值范围是自然数,表示对应区间在对应流动模式下对应统计量的统计数值;R个城市区域的轨迹移动向量合并成
Figure FDA0002402516550000025
再计算T′每一列的加和s=[s0,s1,...,s47],其中sn=t′1,n+t′2,n+...+t′R,n,n=0,1,2,...,47,对于每一个城市区域r,都构建向量
Figure FDA0002402516550000026
tr,n=t′r,n/sn,n=0,1,2,...,47,其中t′r,n表示轨迹移动向量t′r的第n个元素,tr,n表示标准化的轨迹移动向量tr的第n个元素,除以对应sn后等比例变换后成tr,n且满足
Figure FDA0002402516550000031
最后R个移动轨迹向量合并成轨迹移动矩阵T,即:
Figure FDA0002402516550000032
6.如权利要求1所述的一种基于多源数据融合的城市区域功能智能识别方法,其特征在于,在步骤4)中,根据变分推断法求解该无监督聚类模型的参数,具体如下:
4a)初始化超参数;
4b)开始EM算法迭代循环直到收敛:
4b.1)初始化所有的变分超参数,进行E步迭代循环,直到所有变分超参数收敛;
4b.2)进行M步迭代循环,直到所有变分参数均已收敛;
4c)若所有的变分参数均收敛,则结束,得到的参数为主题分布Θ,城市功能的词向量Φ以及城市特征的词向量Ψ,否则回到第2)。
7.如权利要求6所述的一种基于多源数据融合的城市区域功能智能识别方法,其特征在于,在步骤5)中,根据主题分布Θ得到每个城市区域的主题分布,主题分布Θ代表该城市区域对各个城市主题的概率分布,每个主题分类包含至少一个最相关的城市功能。
8.如权利要求6所述的一种基于多源数据融合的城市区域功能智能识别方法,其特征在于,在步骤6)中,根据城市功能的词向量Φ以及城市特征的词向量Ψ得到该城市区域每个城市功能最相关的城市特征词。
CN202010151262.3A 2020-03-06 2020-03-06 一种基于多源数据融合的城市区域功能智能识别方法 Expired - Fee Related CN111382224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010151262.3A CN111382224B (zh) 2020-03-06 2020-03-06 一种基于多源数据融合的城市区域功能智能识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010151262.3A CN111382224B (zh) 2020-03-06 2020-03-06 一种基于多源数据融合的城市区域功能智能识别方法

Publications (2)

Publication Number Publication Date
CN111382224A true CN111382224A (zh) 2020-07-07
CN111382224B CN111382224B (zh) 2022-06-21

Family

ID=71222645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010151262.3A Expired - Fee Related CN111382224B (zh) 2020-03-06 2020-03-06 一种基于多源数据融合的城市区域功能智能识别方法

Country Status (1)

Country Link
CN (1) CN111382224B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966770A (zh) * 2020-07-21 2020-11-20 中国地质大学(武汉) 一种基于地理语义词嵌入的城市街道功能识别方法和系统
CN112487298A (zh) * 2020-12-17 2021-03-12 深圳市城市规划设计研究院有限公司 基于机场客流来源地数据的城市职能识别方法及装置
CN112836121A (zh) * 2021-01-28 2021-05-25 北京市城市规划设计研究院 一种出行目的识别方法及系统
CN113205042A (zh) * 2021-04-30 2021-08-03 武汉大学 一种城市多层次边界的识别方法及系统
CN114202039A (zh) * 2022-02-17 2022-03-18 深圳消安科技有限公司 一种基于cim模型的城市信息多源数据融合方法
CN114897444A (zh) * 2022-07-12 2022-08-12 苏州大学 一种城市分区域内服务设施需求识别方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278291A1 (en) * 2013-03-14 2014-09-18 Microsoft Corporation Discovering functional groups
CN105183870A (zh) * 2015-09-17 2015-12-23 武汉大学 一种利用微博位置信息的城市功能区探测方法及系统
CN106991142A (zh) * 2017-03-22 2017-07-28 湖州师范学院 一种基于微信数据和兴趣点数据识别城市功能区的方法
CN109523186A (zh) * 2018-11-28 2019-03-26 杭州中奥科技有限公司 城市区域划分方法及装置
CN110176141A (zh) * 2019-05-09 2019-08-27 中电海康集团有限公司 一种基于poi及流量特征的交通小区划分方法和系统
CN110766589A (zh) * 2019-10-28 2020-02-07 电子科技大学 一种基于通信数据与兴趣点数据推断城市功能的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278291A1 (en) * 2013-03-14 2014-09-18 Microsoft Corporation Discovering functional groups
CN105183870A (zh) * 2015-09-17 2015-12-23 武汉大学 一种利用微博位置信息的城市功能区探测方法及系统
CN106991142A (zh) * 2017-03-22 2017-07-28 湖州师范学院 一种基于微信数据和兴趣点数据识别城市功能区的方法
CN109523186A (zh) * 2018-11-28 2019-03-26 杭州中奥科技有限公司 城市区域划分方法及装置
CN110176141A (zh) * 2019-05-09 2019-08-27 中电海康集团有限公司 一种基于poi及流量特征的交通小区划分方法和系统
CN110766589A (zh) * 2019-10-28 2020-02-07 电子科技大学 一种基于通信数据与兴趣点数据推断城市功能的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张慧杰 等: "基于轨迹和兴趣点数据的城市功能区动态识别与时变规律可视分析", 《计算机辅助设计与图形学学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966770A (zh) * 2020-07-21 2020-11-20 中国地质大学(武汉) 一种基于地理语义词嵌入的城市街道功能识别方法和系统
CN112487298A (zh) * 2020-12-17 2021-03-12 深圳市城市规划设计研究院有限公司 基于机场客流来源地数据的城市职能识别方法及装置
CN112487298B (zh) * 2020-12-17 2023-12-08 深圳市城市规划设计研究院股份有限公司 基于机场客流来源地数据的城市职能识别方法及装置
CN112836121A (zh) * 2021-01-28 2021-05-25 北京市城市规划设计研究院 一种出行目的识别方法及系统
CN112836121B (zh) * 2021-01-28 2022-02-25 北京市城市规划设计研究院 一种出行目的识别方法及系统
CN113205042A (zh) * 2021-04-30 2021-08-03 武汉大学 一种城市多层次边界的识别方法及系统
CN113205042B (zh) * 2021-04-30 2022-07-19 武汉大学 一种城市多层次边界的识别方法及系统
CN114202039A (zh) * 2022-02-17 2022-03-18 深圳消安科技有限公司 一种基于cim模型的城市信息多源数据融合方法
CN114202039B (zh) * 2022-02-17 2022-06-14 深圳消安科技有限公司 一种基于cim模型的城市信息多源数据融合方法
CN114897444A (zh) * 2022-07-12 2022-08-12 苏州大学 一种城市分区域内服务设施需求识别方法及系统

Also Published As

Publication number Publication date
CN111382224B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN111382224B (zh) 一种基于多源数据融合的城市区域功能智能识别方法
CN107992531A (zh) 基于深度学习的新闻个性化智能推荐方法与系统
CN107562812A (zh) 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN113378891B (zh) 基于轨迹分布表示的城市区域关系可视分析方法
Chen et al. CEM: A convolutional embedding model for predicting next locations
CN114896512B (zh) 基于学习者偏好与群体偏好的学习资源推荐方法及系统
CN116257759A (zh) 一种深度神经网络模型的结构化数据智能分类分级系统
CN116681176A (zh) 一种基于聚类和异构图神经网络的交通流预测方法
CN115238197A (zh) 一种基于专家思维模型的领域业务辅助分析方法
Chen et al. Next Location Prediction with a Graph Convolutional Network Based on a Seq2seq Framework.
CN112650949B (zh) 基于多源特征融合协同过滤的区域poi需求识别方法
CN113221547B (zh) 基于信息抽取和知识图谱的试题推荐方法
Liang et al. Enhancing scenic recommendation and tour route personalization in tourism using UGC text mining
Sun et al. Urban region function mining service based on social media text analysis
CN113362034A (zh) 一种职位推荐方法
Liu Research on personalized minority tourist route recommendation algorithm based on deep learning
CN111966770A (zh) 一种基于地理语义词嵌入的城市街道功能识别方法和系统
Rong et al. Exploring network behavior using cluster analysis
CN113344747A (zh) 一种基于潜分类Logit模型的旅游景点吸引力评估方法
Yang et al. Differentiated analysis for music traffic in software defined networks: A method of deep learning
Alghalibi et al. Deep Tweets Analyzer Model for Twitter Mood Visualization and Prediction Based Deep Learning Approach
CN116994743B (zh) 基于序贯三支的置信图卷积神经网络的自闭症分类方法
Ou et al. Introduction to Data Science
Fan et al. Deep Learning-Based Dynamic Traffic Assignment With Incomplete Origin–Destination Data
Youzhi Research and application of hidden Markov model in data mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220621