CN112801340B - 一种基于多层级城市信息单元画像的人群密度预测方法 - Google Patents
一种基于多层级城市信息单元画像的人群密度预测方法 Download PDFInfo
- Publication number
- CN112801340B CN112801340B CN202011489874.XA CN202011489874A CN112801340B CN 112801340 B CN112801340 B CN 112801340B CN 202011489874 A CN202011489874 A CN 202011489874A CN 112801340 B CN112801340 B CN 112801340B
- Authority
- CN
- China
- Prior art keywords
- information unit
- level
- city information
- city
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000002776 aggregation Effects 0.000 claims abstract description 22
- 238000004220 aggregation Methods 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 230000015654 memory Effects 0.000 claims abstract description 5
- 230000004931 aggregating effect Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 23
- 230000005012 migration Effects 0.000 claims description 10
- 238000013508 migration Methods 0.000 claims description 10
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 7
- 230000007613 environmental effect Effects 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000000379 polymerizing effect Effects 0.000 claims description 2
- 238000007726 management method Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 235000019580 granularity Nutrition 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000006424 Flood reaction Methods 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003915 air pollution Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于多层级城市信息单元画像的人群密度预测方法。该方法包括:从城市管理层级出发,定义多层级城市信息单元和城市信息单元包含的数据;对城市信息单元数据进行预处理,利用长短期记忆网络LSTM、图嵌入算法分别提取城市信息单元的时间和空间特征,通过塔式聚合结构聚合多层级城市信息单元包含的特征,在多层级城市信息单元画像的基础上构建多任务决策模型;根据多层级城市信息单元画像的多任务决策模型进行城市各网格、区域的人群密度预测。本发明提出“城市信息单元”的概念,通过塔式聚合结构聚合多层级城市信息单元的特征,然后对多层级城市信息单元进行多任务联合学习,最终建立多层级城市信息单元画像的模型。
Description
技术领域
本发明涉及智慧城市、政务大数据领域,尤其涉及一种基于多层级城市信息单元画像的人群密度预测方法。
背景技术
画像的概念最早由交互设计之父A.Cooper提出,主要针对用户建立画像,他在研究中将画像定义为“基于用户真实数据的虚拟代表”,是从大众用户中抽象出来的能代表群体行为、目标和动机的“用户代表”,通常指描述用户属性的标签如年龄、性别、职业、收入和兴趣等。
经过发展后用户画像不再局限于使用标签的形式来描述用户,根据表现形式分为两类:一是显式的用户画像,表现为用户属性特征或者标签集合,比较直观;二是隐式的用户画像,表现为隐式的用户特征表示,通过基于主题模型的方法或矩阵分解等方法得到的抽象的特征信息,易于后续的量化计算。用户画像建模的核心是对用户潜在的意图和兴趣进行表示和存储,依据用户画像的表现形式,现有技术中的用户画像建模方法分为显式和隐式画像建模两类。
(1)显式画像建模方法
显式的用户画像,主要是对用户属性进行抽取与加工,以标签形式得到人口统计信息(如年龄、性别、职业等)和行为特征,维度比较直观,容易理解。网站和APP在用户注册时,通常要求用户填写个人信息,以获取人口统计信息。现有技术的显式画像建模方法一般是基于机器学习尤其是有监督学习的技术。这类方法从用户数据中抽取特征来作为用户的表示向量,并利用有用户属性标签的数据作为有标注数据来训练用户画像,预测模型,从而对更多的没有标签的用户的属性进行预测。有方案提出了包含协同信息的话题模型,同时考虑到时间变化的用户画像建模算法,从短文本流中预测动态的用户兴趣分布,但使用了较多人力手工抽取关键词。随着深度学习技术的发展和成熟,利用深层神经网络从用户原始数据中自动抽取深层次的、有信息量的特征来构建用户的特征表示能够有助于更加充分地利用用户数据并有效提升用户画像的精度。
(2)隐式画像建模方法
隐式的用户画像,即用户的特征表示向量,隐含了对用户历史交互的深度解析,表示了用户的潜在的意图和兴趣,难于直观解释。传统的隐式画像建模主要是基于主题模型和矩阵分解(matrix factorization的方法。现有技术中的基于主题模型的用户画像建模方法通过从用户所发表的文本数据中抽取隐含的主题信息,进而将用户兴趣刻画为主题集合上的概率分布,作为用户画像的量化表示。主题模型的用户画像构建方法主要是在LDA(Latent Dirichlet Allocation,隐迪利克雷分配)模型上进行改进与扩展的。矩阵分解是对用户物品的交互矩阵进行分解,分布得到用户和物品的隐因子向量。有方案通过LDA从与用户访问的POIs(Point_of_Interests,兴趣点)相关的标记和类别中学习用户的document-topic文本话题分布(代表用户兴趣)和topic-word话题词分布,然后用贝叶斯理论从这个两个分布推断兴趣点的话题分布,接着通过用户去过的兴趣点的话题分布精炼代表用户兴趣的话题分布。最后用精炼后的用户话题分布和候选兴趣点的话题分布求余弦,结果作为兴趣点推荐。
隐式画像建模获取的是隐式的用户特征表示,体现了用户的偏好,特征向量不像标签直观,但便于量化计算,可以帮助推荐系统准确地分析出用户的偏好,因此隐式画像建模常应用于推荐系统。
城市画像借鉴“用户画像”的概念,抽取城市的特征、标签。现有技术中的一种城市用户画像的建模方法包括:从标签频次、时间、语义相似度分析城市特征的评价指标:标签关注度、新颖度、创新度,并用TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆文本频率指数)、余弦的方法计算这三个指标;然后利用最小最大标准化方法将评价指标归一化处理,进而采用线性加权和法构造综合指标评价模型;最后用爬虫获取知乎平台中与中部六省省会城市相关的问答数据,识别出不同时期这些城市特征。
上述现有技术中的城市用户画像的建模方法的缺点为:
(1)现有的智慧城市政务数据管理,仅是对城市网格、路段按照地理上进行划分,并对划分后的单元进行数据的采集、存储和可视化。
(2)现有城市单元画像研究较少,大都是基于自然语言处理的方法对已有基础政务数据进行城市标签的抽取,没有利用城市运行中产生的社会传感数据,比如交通流、气象数据、移动轨迹、道路网等城市大数据。
(3)与画像建模的一般应用领域不同,对城市信息单元的画像建模需要抽取的特征除了时间序列刻画的时间特征,还要考虑不同单元之间的空间关联所表现出来的城市单元的空间结构特征。
(4)现有的城市画像建模方法缺乏对城市信息整体架构的设计,没有考虑城市的区、地、市等层次化信息,难以支持智慧城市中省市联动的政务业务。
(5)面对各层级不同粒度的决策服务等学习任务时,现有的画像建模方法通常需要在不同层次的结构上多次运行类似的算法,每个层级的画像向量的训练过程是完全独立的,忽略了城市的多层级之间的信息单元的隐含关联。然而城市的多层级信息是密切相关的,因此在一个学习任务上的改进可能会使其他任务受益。
发明内容
本发明的实施例提供了一种基于多层级城市信息单元画像的人群密度预测方法,以实现有效地预测城市各网格、区域的人流密度。
为了实现上述目的,本发明采取了如下技术方案。
一种基于多层级城市信息单元画像的人群密度预测方法,包括:
从城市管理层级出发,定义多层级城市信息单元和城市信息单元包含的数据;
对城市信息单元数据进行预处理,利用长短期记忆网络LSTM、图嵌入算法分别提取城市信息单元的时间和空间特征,通过塔式聚合结构聚合多层级城市信息单元包含的特征,在多层级城市信息单元画像的基础上构建多任务决策模型;
根据多层级城市信息单元画像的多任务决策模型进行城市各网格、区域的人群密度预测。
优选地,所述的从城市管理层级出发,定义多层级城市信息单元和城市信息单元包含的数据,包括:
设置城市按管理层级包括市、行政区、街道、区域和网格,不同管理层级形成包含关系,根据城市按管理层级将城市划分为在地理上相互独立的多个城市信息单元,每个城市信息单元包含城市管理中积累的基础政务数据以及社会传感数据,每一层的城市信息单元包含目标变量的时间特征和空间特征,本层单元内部所有下一层单元的联合特征,以及本区域的外部变量天气特征,节假日特征,基于多层级城市信息单元构建城市信息的整体架构。
优选地,所述城市信息单元中包含的基础政务数据和社会传感数据包括:交通数据、环境数据、统计数据和地理位置数据,所述交通数据包括:交通流量、道路和时刻表,所述环境数据包括:天气、气温、空气质量和水质,所述统计数据包括:人口普查和社会经济指标,所述地理位置数据包括:地图制作、路面和建筑。
优选地,对城市信息单元数据进行预处理,利用长短期记忆网络LSTM、图嵌入算法分别提取城市信息单元的时间和空间特征,通过塔式聚合结构聚合多层级城市信息单元包含的特征,在多层级城市信息单元画像的基础上构建多任务决策模型,包括:
利用LSTM学习城市信息单元的时间特征,采用图嵌入算法node2vec学习城市信息单元之间的空间特征,通过人工提取城市信息单元的外部数据特征,将所述时间特征、空间特征和外部数据特征进行拼接,作为城市信息单元的联合特征,通过塔式聚合结构从下至上聚合多层级城市信息单元包含的数据,所述塔式聚合结构中从下至上依次为:输入层、网格层、区域层和街道层,对城市信息单元的各层的特征分配权重,得到对应层级的画像;
在多层级城市信息单元画像的基础上构建多任务决策模型,在各层级之间构建加权的多任务损失函数,利用多任务损失函数进行多任务决策模型的训练,建立多层级城市信息单元画像的多任务决策模型,针对多层级城市信息单元的不同层级画像模型分别构建不同的任务损失函数,多层级城市信息单元画像的模型的损失函数为各层级画像模型的损失函数的加权和;
所述多任务损失函数如下所示:
多层级城市信息单元画像的模型中包含多个层级城市信息单元的时间特征、空间特征、迁徙指数、天气特征和节假日特征,各个特征均通过向量进行表示。
优选地,所述的塔式聚合结构的输入层xn包含第n个网格的目标变量的时间序列,与其他网格联系强度,以及外部变量的天气和节假日信息;
网格层Gn代表第n个网格,包含第n个网格的目标变量的时间特征,空间特征,以及外部变量的天气特征,节假日特征;
区域层An代表第n个区域,包含第n个区域的目标变量的时间特征,空间特征,区域内部所有网格的联合特征,以及本区域的外部变量天气特征,节假日特征;
街道层Sn代表第n条街道,包含第n条街道的目标变量的时间特征,空间特征,街道内部所有区域的联合特征,以及本街道的外部变量天气特征,节假日特征。
优选地,所述的根据多层级城市信息单元画像的多任务决策模型进行城市各网格、区域的人群密度预测,包括:
(1)对城市信息单元网格、对应区域包含的原始数据进行数据预处理,得到人流量指数时间序列、迁徙指数、天气特征和节假日特征,通过图嵌入算法node2vec学习空间特征,构建多层级城市信息单元画像的模型;
(2)对多层级城市信息单元画像的模型中包含网格层、区域层城市信息单元的人流量指数时间特征、空间特征、迁徙指数、天气特征和节假日特征分别进行拼接操作;
(3)通过LSTM分别对网格、对应区域的数据联合学习,提取网格、对应区域的人流量指数的全局趋势特征;
(4)通过注意力机制对通过LSTM学习得到的多个历史时期的特征进行加权聚合,得到各层级城市信息单元画像的向量,其中,包括各个网格和区域的画像向量;
(5)通过MLP全连接层分别对网格、对应区域的画像向量进行维度转换,预测城市各层次下个时间点的人流量指数,所述层次包括网格和对应区域。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例提出“城市信息单元”的概念,从城市的管理层级出发,设计了城市信息的整体架构,构建多层级城市信息单元,考虑到多层级信息单元的相关性,通过塔式聚合结构聚合多层级城市信息单元的特征,然后对多层级城市信息单元进行多任务联合学习,最终建立多层级城市信息单元画像的模型。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于多层级城市信息单元的人群密度预测方法的处理流程图;
图2为本发明实施例提供的一种多层级城市信息单元的示意图;
图3为本发明实施例提供的一种对城市信息单元数据进行预处理的示意图。
图4为本发明实施例提供的一种城市信息单元之间存在空间联系的示意图;
图5为本发明实施例提供的一种通过塔式聚合结构从下至上聚合多层级城市信息单元包含的数据示意图;
图6为本发明实施例提供的一种建立多层级城市信息单元画像的模型示意图;
图7为本发明实施例提供的一种LSTM模型结构示意图;
图8为本发明实施例提供的一种人群密度预测算法的实现原理图;
图9为本发明实施例提供的一种人群密度预测算法的具体处理流程图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明实施例提出“城市信息单元”,指按一定方式将城市地理上划分为多个城市信息单元,每个单元包含基础政务信息和社会传感信息。本发明实施例通过这些信息提出信息单元的时间、空间特征抽取方法,同时,在纵向上构建多层级的城市信息单元,实现多层级画像联合学习,从而建立起多层级城市信息单元画像,为同一层级、不同层级智慧城市政务业务的决策支持提供支持。
随着移动互联网、传感器网络和定位系统等技术的快速发展和广泛应用,城市市民生活和各行各业运行产生的数据呈爆发式增长,如移动轨迹、交通流、气象数据、道路网等数据,形成城市大数据。这些数据可以及时反应城市中出现的如空气污染、交通拥堵、群体性事件等问题。
人群密度预测对城市的治安、日常管理和应急指挥都具有重要作用。例如2015年上海跨年庆祝活动,大批人群涌入一个地带,导致灾难性的踩踏事故。如果能及时感知、预警人群异常聚集,将能极大的辅助城市应急指挥决策,减少悲剧的发生。
本发明实施例提供的一种基于多层级城市信息单元的人群密度预测方法的处理流程图如图1所示,包括如下的处理步骤:
步骤S10、构建城市信息单元。
从城市管理层级出发,定义多层级城市信息单元,以及信息单元包含的数据。
步骤S20、基于多层级城市信息单元建立多层级城市信息单元画像的模型,主要是先对城市信息单元数据进行预处理,利用LSTM(Long Short-Term Memory,长短期记忆网络)、图嵌入算法分别提取城市信息单元的时间和空间特征,通过塔式聚合结构聚合多层级城市信息单元包含的特征,在多层级城市信息单元画像的基础上构建了多任务决策模型。
步骤S30、根据多层级城市信息单元画像的多任务决策模型进行城市网格、区域的人群密度预测。
具体的,上述的步骤S10包括:
城市单元:政府管理城市的行政划分,在地理上从小到大分为网格、区域、街道、行政区和市等单元。
城市信息单元:每个城市单元层面的信息,每个城市信息单元包含基础政务数据和社会传感数据。
城市信息单元画像:城市信息单元的特征表示,表现形式如向量。
城市信息单元画像建模:挖掘城市信息单元特征表示的过程、方法。
城市信息单元的构建
智慧城市是指利用各种信息技术或创新概念,将城市的系统和服务打通、集成,以提升资源运用的效率,优化城市管理和服务,以及改善市民生活质量。改进社会治理方式,创新社会治理体制,以网格化管理、社会化服务为方向,健全基层综合服务管理平台。城市信息单元就是将城区行政性地划分为在地理上相互独立的若干个单元。利用信息单元的基础政务信息和社会传感信息,通过数字化手段建立一套精细、准确、规范的综合管理服务系统,政府通过这一系统整合政务资源,为辖区内的居民提供主动、高效、有针对性地服务,从而提高公共管理、综合服务的效率。
图2为本发明实施例提供的一种多层级城市信息单元的示意图。城市按管理层级通常划分为市、行政区、街道、区域和网格,这些层级形成包含关系,比如一条街道可能包含了社区、学校、景点等区域,区域可能包含一个或多个网格。同一层级间相互影响,比如学生放学会使得学校人群密度下降,学校周边的人流量、人群密度增加。不同层级间也存在关联,某条街道聚集很多企业,上下班高峰时的人流量、人群密度会有显著变化。在不同层级或者粒度上进行计算,既能精确到区域、街道,又能概括到行政区、市,总揽全局。
城市信息单元包含城市管理中积累的基础政务数据以及社会传感数据:
(1)交通数据:交通流量,道路,时刻表等;
(2)环境数据:天气,气温,空气质量,水质等与自然环境有关的数据;
(3)统计数据:人口普查,社会经济指标等由统计部门产出的数据;
(4)地理位置数据:地图制作,路面,建筑等
图3为本发明实施例提供的一种对城市信息单元数据进行预处理的示意图。城市大数据多源异构,可能存在一定的缺失值,包含数值型、字符型等多种类型的数据。城市信息单元中包含的原始数据相对于人来说直观易懂,但不利于计算机建模分析。因此,需要先对城市信息单元中包含的原始数据进行预处理,填充缺失值,对字符型数据进行编码,将数值型数据进行归一化处理。
数据预处理完成后,对城市信息单元进行空间特征提取。图4为本发明实施例提供的一种城市信息单元之间存在空间联系的示意图,如图4所示,信息单元A、B、C之间有箭头相连,箭头为信息单元之间的联系强度,可以表示人群在A、B、C之间的流动。本发明实施例采用图嵌入算法node2vec学习城市信息单元之间的空间特征。Node2vec用来产生网络中节点的向量表示,是一种综合考虑深度优先搜索邻域和广度优先搜索邻域的图嵌入算法。它的优化目标是给定所有顶点V,使得每个顶点的近邻顶点出现概率最大,并且基于条件独立性假设和特征空间对称性假设,得到目标函数表示为:
f(u)是将顶点u映射为嵌入(embedding)向量的映射函数。Ns(u)为通过一种有偏向的随机游走策略S采样出的顶点u的近邻顶点的集合。
城市按管理层级通常划分为市、行政区、街道、区域、网格,这些层级形成包含关系,图5为本发明实施例提供的一种通过塔式聚合结构从下至上聚合多层级城市信息单元包含的数据示意图。上述塔式聚合结构中从下至上依次为:输入层、网格层、区域层和街道层。
利用LSTM学习城市信息单元的时间特征,采用图嵌入算法node2vec学习城市信息单元之间的空间特征,通过人工提取城市信息单元的外部数据特征,将所述时间特征、空间特征和外部数据特征进行拼接,作为城市信息单元的联合特征。城市信息单元之间的空间特征主要包括:每一层的城市信息单元包含目标变量的时间特征和空间特征,本层单元内部所有下一层单元的联合特征,以及本区域的外部变量天气特征,节假日特征。比如一个区域包含多个网格,该区域将包含目标变量的时间特征,空间特征,区域内部所有网格的联合特征,以及本区域的外部变量天气特征,节假日特征。
塔式聚合结构的输入层:xn包含第n个网格的目标变量的时间序列,与其他网格联系强度,以及外部变量的天气信息,节假日信息。
网格层:Gn代表第n个网格,包含第n个网格的目标变量的时间特征、空间特征,以及外部变量的天气特征,节假日特征。虚线矩形内网格属于同一个区域。同一区域内网格的目标变量的时间序列数据求和作为该区域的时间序列,联系强度数据求和作为该区域的联系强度,外部变量不作处理。
区域层:An代表第n个区域,包含第n个区域的目标变量的时间特征、空间特征,区域内部所有网格的联合特征,,以及本区域的外部变量天气特征,节假日特征。虚线矩形内区域属于同一个街道。同一街道内区域的目标变量的时间序列数据求和作为该街道的时间序列,联系强度数据求和作为该街道的联系强度,外部变量不作处理。
街道层:以此类推,Sn代表第n条街道,包含第n条街道的目标变量的时间特征,与其他街道的空间特征,以及外部变量天气特征,节假日特征。
为了精准地刻画城市多层次信息,对多层级信息单元进行建模,获得不同层级信息单元的各种特征的表示向量。此外,城市不同层级信息单元之间密切相关,在一个学习任务上的改进可能会使其他任务受益。因此,利用各层级城市信息单元学习得到的联合特征作为不同的任务进行联合学习,在多层级城市信息单元画像的基础上构建多任务决策模型,通过在各层级之间构建加权的多任务损失函数,利用多任务损失函数进行多任务决策模型的训练,最终建立多层级城市信息单元画像的多任务决策模型。图6为本发明实施例提供的一种建立多层级城市信息单元画像的模型示意图。上述多任务损失函数如下所示:
以三个层级,即网格、区域、街道的城市信息单元为例,其中,G为网格数量;gi是真实值;是预测值;A为区域数量;ai是真实值;/>是预测值;S为街道数量;si是真实值;/>是预测值;α,β,γ∈[0,1]分别指网格层、区域层以及街道层预测任务的损失权重。
图7是LSTM模型结构示意图。LSTM是一种改进后的循环神经网络,解决了原来无法处理长距离依赖的问题。LSTM的核心是细胞状态,用贯穿细胞的水平线表示,细胞状态像传送带一样,它贯穿整个细胞却只有很少的分支,这样能保证在信息不变的情况下流过整个网络。LSTM通过输入门(公式3)、遗忘门(公式4)和输出门(公式5)来改变细胞状态。输入门用于控制输入细胞单元中的信息,遗忘门用于控制忘记前一时刻的信息,输出门用于控制细胞单元传输给下一时刻的信息。
it=σ(Wi[ht-1;xt]+bi) (3)
ft=σ(Wf[ht-1;xt]+bf) (4)
ot=σ(Wo[ht-1;xt]+bo) (5)
st为记忆状态记忆了对预测未来数据有利的历史信息,其中[ht-1;xt],表示的是前一时刻的隐藏层状态ht-1和当前输入xt的拼接向量,通过公式7得到当前隐藏层状态ht。
区域、街道的输入层包含对应单元的目标变量的时间序列、空间特征、天气特征和节假日特征。输入层gn、an、sn分别为网格、区域和街道第n时间的输入。每层城市信息单元通过LSTM获得时间特征,然后通过注意力(“+”表示注意力)分配特征权重,得到对应层级的画像。
多层级城市信息单元画像的模型中包含多个层级城市信息单元的时间特征、空间特征、迁徙指数、天气特征和节假日特征,各个特征均通过向量进行表示。考虑到多层级之间的联系,针对多层级城市信息单元的不同层级画像模型分别构建不同的任务损失函数,多层级城市信息单元画像的模型的损失函数为各层级画像模型的损失函数的加权和。
人群密度预测的数据包含各区域的属性,区域人流量指数的时间序列,区域所属网格的人流量指数的时间序列,网格间的联系强度,城市间的迁徙指数,天气,节假日等信息。
原始数据先通过数据预处理、特征提取,获得时间序列,空间特征,天气特征,节假日特征。将这些特征联合学习得到各层级信息单元画像。城市信息单元画像通过MLP(Multilayer Perceptron,多层感知机)层预测城市各网格、区域下个时间点的人流量指数,损失函数为每个层级人流量指数的平方损失的加权和。
为本发明实施例提供的一种人群密度预测算法的实现原理图如图8所示。对城市人群密度的预测,以便提前启动预警机制,及早疏导人群和车流,保障区域内短时人群密度在安全范围内,从而防范重大交通事故和城市安全事件(如踩踏)的发生。除此之外,在新冠疫情时期,预测人群密度可以进一步掌握人员流动聚集动向,为疫情做好防控工作。
为本发明实施例提供的一种人群密度预测算法的具体处理流程如图9所示,具体处理过程包括:
(1)首先对城市信息单元网格、对应区域包含的原始数据进行数据预处理,得到人流量指数时间序列、迁徙指数、天气特征和节假日特征,通过图嵌入算法node2vec学习空间特征,构建多层级城市信息单元画像的模型。
(2)然后对多层级城市信息单元画像的模型中包含网格层、区域层城市信息单元的人流量指数时间特征、空间特征、迁徙指数、天气特征和节假日特征分别进行拼接(Concatenation)操作。
(3)通过LSTM分别对网格、对应区域的数据联合学习,提取网格、对应区域的人流量指数的全局趋势特征。
(4)然后通过注意力(Attention)机制对通过LSTM学习得到的多个历史时期的特征进行加权聚合,得到各层级城市信息单元画像的向量,其中,包括各个网格和区域的画像向量。
(5)最后通过MLP全连接层分别对网格、对应区域的画像向量进行维度转换,预测城市各层次(如,网格、对应区域)下个时间点的人流量指数。
预测是一个回归问题,各层级的特征通过MLP全连接层加上非线性激活函数,即可输出具体预测数值。MLP中的超参,通过不同层级构成不同任务的损失函数加权来进行训练。
综上所述,本发明实施例提出“城市信息单元”的概念,从城市的管理层级出发,设计了城市信息的整体架构,构建多层级城市信息单元,考虑到多层级信息单元的相关性,通过塔式聚合结构聚合多层级城市信息单元的特征,然后对多层级城市信息单元进行多任务联合学习,最终建立多层级城市信息单元画像的模型。
本发明方法的设计,考虑了城市大数据的时间特征和空间特征,充分利用了天气、温度、节假日等外部因素,同时多层级信息单元联合学习,获得更准确的预测,为不同层级信息单元提供决策支持。
城市信息单元画像的模型除了用于预测人群密度之外,还可以用于交通流量、电力服务、水务服务等时空数据的预测。例如,针对节假日等特殊日期的城市交通动态信息构建城市信息单元画像,进行交通流量的时空过程模拟、智能预测,构建面向公共交通出行的地理场景分析和实时防控;根据电力、水务服务区域内居民、企业的用电、用水的需求特征,进行跨时空数据挖掘、对特征进行深度融合,构建城市信息单元画像,满足需求侧驱动的用电、用水预报,对业务部门制定电力、用水供应策略提供决策支持。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (4)
1.一种基于多层级城市信息单元画像的人群密度预测方法,其特征在于,包括:
从城市管理层级出发,定义多层级城市信息单元和城市信息单元包含的数据;
对城市信息单元数据进行预处理,利用长短期记忆网络LSTM、图嵌入算法分别提取城市信息单元的时间和空间特征,通过塔式聚合结构聚合多层级城市信息单元包含的特征,在多层级城市信息单元画像的基础上构建多任务决策模型;
根据多层级城市信息单元画像的多任务决策模型进行城市各网格、区域的人群密度预测;
所述的从城市管理层级出发,定义多层级城市信息单元和城市信息单元包含的数据,包括:
设置城市按管理层级包括市、行政区、街道、区域和网格,不同管理层级形成包含关系,根据城市按管理层级将城市划分为在地理上相互独立的多个城市信息单元,每个城市信息单元包含城市管理中积累的基础政务数据以及社会传感数据,每一层的城市信息单元包含目标变量的时间特征和空间特征,本层单元内部所有下一层单元的联合特征,以及本区域的外部变量天气特征,节假日特征,基于多层级城市信息单元构建城市信息的整体架构;
对城市信息单元数据进行预处理,利用长短期记忆网络LSTM、图嵌入算法分别提取城市信息单元的时间和空间特征,通过塔式聚合结构聚合多层级城市信息单元包含的特征,在多层级城市信息单元画像的基础上构建多任务决策模型,包括:
利用LSTM学习城市信息单元的时间特征,采用图嵌入算法node2vec学习城市信息单元之间的空间特征,通过人工提取城市信息单元的外部数据特征,将所述时间特征、空间特征和外部数据特征进行拼接,作为城市信息单元的联合特征,通过塔式聚合结构从下至上聚合多层级城市信息单元包含的数据,所述塔式聚合结构中从下至上依次为:输入层、网格层、区域层和街道层,对城市信息单元的各层的特征分配权重,得到对应层级的画像;
在多层级城市信息单元画像的基础上构建多任务决策模型,在各层级之间构建加权的多任务损失函数,利用多任务损失函数进行多任务决策模型的训练,建立多层级城市信息单元画像的多任务决策模型,针对多层级城市信息单元的不同层级画像模型分别构建不同的任务损失函数,多层级城市信息单元画像模型的损失函数为各层级画像模型的损失函数的加权和;
所述多任务损失函数如下所示:
多层级城市信息单元画像的模型中包含多个层级城市信息单元的时间特征、空间特征、迁徙指数、天气特征和节假日特征,各个特征均通过向量进行表示。
2.根据权利要求1所述的方法,其特征在于,所述城市信息单元中包含的基础政务数据和社会传感数据包括:交通数据、环境数据、统计数据和地理位置数据,所述交通数据包括:交通流量、道路和时刻表,所述环境数据包括:天气、空气质量和水质,所述统计数据包括:人口普查和社会经济指标,所述地理位置数据包括:地图制作、路面和建筑。
3.根据权利要求1所述的方法,其特征在于,所述的塔式聚合结构的输入层xn包含第n个网格的目标变量的时间序列,与其他网格联系强度,以及外部变量的天气和节假日信息;
网格层Gn代表第n个网格,包含第n个网格的目标变量的时间特征,空间特征,以及外部变量的天气特征,节假日特征;
区域层An代表第n个区域,包含第n个区域的目标变量的时间特征,空间特征,区域内部所有网格的联合特征,以及本区域的外部变量天气特征,节假日特征;
街道层Sn代表第n条街道,包含第n条街道的目标变量的时间特征,空间特征,街道内部所有区域的联合特征,以及本街道的外部变量天气特征,节假日特征。
4.根据权利要求1所述的方法,其特征在于,所述的根据多层级城市信息单元画像的多任务决策模型进行城市各网格、区域的人群密度预测,包括:
(1)对城市信息单元网格、对应区域包含的原始数据进行数据预处理,得到人流量指数时间序列、迁徙指数、天气特征和节假日特征,通过图嵌入算法node2vec学习空间特征,构建多层级城市信息单元画像的模型;
(2)对多层级城市信息单元画像的模型中包含网格层、区域层城市信息单元的人流量指数时间特征、空间特征、迁徙指数、天气特征和节假日特征分别进行拼接操作;
(3)通过LSTM分别对网格、对应区域的数据联合学习,提取网格、对应区域的人流量指数的全局趋势特征;
(4)通过注意力机制对通过LSTM学习得到的多个历史时期的特征进行加权聚合,得到各层级城市信息单元画像的向量,其中,包括各个网格和区域的画像向量;
(5)通过MLP全连接层分别对网格、对应区域的画像向量进行维度转换,预测城市各层次下个时间点的人流量指数,所述层次包括网格和对应区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011489874.XA CN112801340B (zh) | 2020-12-16 | 2020-12-16 | 一种基于多层级城市信息单元画像的人群密度预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011489874.XA CN112801340B (zh) | 2020-12-16 | 2020-12-16 | 一种基于多层级城市信息单元画像的人群密度预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112801340A CN112801340A (zh) | 2021-05-14 |
CN112801340B true CN112801340B (zh) | 2024-04-26 |
Family
ID=75806866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011489874.XA Active CN112801340B (zh) | 2020-12-16 | 2020-12-16 | 一种基于多层级城市信息单元画像的人群密度预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112801340B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092164A (zh) * | 2022-01-24 | 2022-02-25 | 亿景智联(北京)科技有限公司 | 一种基于联邦学习的门店销量预测方法及装置 |
CN116307757B (zh) * | 2023-01-18 | 2024-02-20 | 辽宁荣科智维云科技有限公司 | 一种数据智能交互方法、交互系统、计算机设备及应用 |
CN117151322B (zh) * | 2023-06-21 | 2024-06-04 | 中国联合网络通信有限公司深圳市分公司 | 城市属性的获取方法、装置及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101938491B1 (ko) * | 2017-08-30 | 2019-01-14 | 가톨릭대학교 산학협력단 | 딥 러닝 기반의 거리 안전도 점수 예측 방법 |
CN109376969A (zh) * | 2018-12-14 | 2019-02-22 | 中南大学 | 基于深度学习的城市精细化人口分布动态预测方法及装置 |
CN111488834A (zh) * | 2020-04-13 | 2020-08-04 | 河南理工大学 | 一种基于多层级特征融合的人群计数方法 |
CN111832413A (zh) * | 2020-06-09 | 2020-10-27 | 天津大学 | 基于时空多尺度网络的人流密度图估计、定位和跟踪方法 |
-
2020
- 2020-12-16 CN CN202011489874.XA patent/CN112801340B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101938491B1 (ko) * | 2017-08-30 | 2019-01-14 | 가톨릭대학교 산학협력단 | 딥 러닝 기반의 거리 안전도 점수 예측 방법 |
CN109376969A (zh) * | 2018-12-14 | 2019-02-22 | 中南大学 | 基于深度学习的城市精细化人口分布动态预测方法及装置 |
CN111488834A (zh) * | 2020-04-13 | 2020-08-04 | 河南理工大学 | 一种基于多层级特征融合的人群计数方法 |
CN111832413A (zh) * | 2020-06-09 | 2020-10-27 | 天津大学 | 基于时空多尺度网络的人流密度图估计、定位和跟踪方法 |
Non-Patent Citations (1)
Title |
---|
张成才 ; 王瑞刚.《区域内人群聚集行为分析与预测》.《计算机与数字工程》.2020,第1-4页. * |
Also Published As
Publication number | Publication date |
---|---|
CN112801340A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112801340B (zh) | 一种基于多层级城市信息单元画像的人群密度预测方法 | |
Tang et al. | Multi-community passenger demand prediction at region level based on spatio-temporal graph convolutional network | |
Chen et al. | Fine-grained prediction of urban population using mobile phone location data | |
Li et al. | Notice of retraction: intelligent transportation system in Macao based on deep self-coding learning | |
Niu et al. | Real-time taxi-passenger prediction with L-CNN | |
Wang et al. | Towards automated urban planning: When generative and chatgpt-like ai meets urban planning | |
Roy et al. | Modeling the dynamics of hurricane evacuation decisions from twitter data: An input output hidden markov modeling approach | |
Deng et al. | The pulse of urban transport: Exploring the co-evolving pattern for spatio-temporal forecasting | |
Wang et al. | Zooming into mobility to understand cities: A review of mobility-driven urban studies | |
Xiong et al. | DCAST: a spatiotemporal model with DenseNet and GRU based on attention mechanism | |
Rahman et al. | Attention based deep hybrid networks for traffic flow prediction using google maps data | |
Silva et al. | Hard and soft data integration in geocomputation: Mixed methods for data collection and processing in urban planning | |
Sheng et al. | Deep spatial-temporal travel time prediction model based on trajectory feature | |
Zhou et al. | Deep flexible structured spatial–temporal model for taxi capacity prediction | |
CN116976702A (zh) | 基于大场景gis轻量化引擎的城市数字孪生平台及方法 | |
Yao et al. | Predicting mobile users' next location using the semantically enriched geo-embedding model and the multilayer attention mechanism | |
Wang et al. | St-expertnet: A deep expert framework for traffic prediction | |
Luan et al. | An efficient target tracking approach through mobile crowdsensing | |
Song et al. | Sparse trip demand prediction for shared E-scooter using spatio-temporal graph neural networks | |
Zhang et al. | Situational-aware multi-graph convolutional recurrent network (sa-mgcrn) for travel demand forecasting during wildfires | |
Zhao et al. | Exploring the impact of trip patterns on spatially aggregated crashes using floating vehicle trajectory data and graph Convolutional Networks | |
Chen | Graph Neural Network Based Spatial-Temporal Traffic Flow Prediction Approaches | |
Li et al. | HDSTF: A Hybrid Deep Spatio-Temporal Framework for Traffic Prediction | |
Zettsu | Transforming sensing data into smart data for smart sustainable cities | |
AU2021100003A4 (en) | A deep transportation model to predict the human mobility for autonomous vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |