CN111062555B - 城市画像的构建方法、装置、介质及电子设备 - Google Patents
城市画像的构建方法、装置、介质及电子设备 Download PDFInfo
- Publication number
- CN111062555B CN111062555B CN201910812587.9A CN201910812587A CN111062555B CN 111062555 B CN111062555 B CN 111062555B CN 201910812587 A CN201910812587 A CN 201910812587A CN 111062555 B CN111062555 B CN 111062555B
- Authority
- CN
- China
- Prior art keywords
- data
- index
- scene
- city
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title description 10
- 238000000034 method Methods 0.000 claims abstract description 57
- 238000010801 machine learning Methods 0.000 claims abstract description 18
- 230000007613 environmental effect Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 230000009193 crawling Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 11
- 238000007726 management method Methods 0.000 description 10
- 230000006399 behavior Effects 0.000 description 8
- 238000011161 development Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 239000003086 colorant Substances 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000809 air pollutant Substances 0.000 description 3
- 231100001243 air pollutant Toxicity 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Primary Health Care (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Operations Research (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Game Theory and Decision Science (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
Abstract
本发明提供一种城市画像的构建方法、装置、介质及电子设备,该方法包括:获取原始数据,根据第一场景以及原始数据,获取第一场景对应的统计类指标、推断类指标以及模型类指标,统计类指标是对原始数据中第一场景对应的数据统计得到的指标,推断类指标是对原始数据中第一场景对应的数据根据预设规则计算得到的指标,模型类指标是对原始数据中第一场景对应的数据利用机器学习模型进行学习得到的指标。根据第一场景对应的统计类指标、推断类指标以及模型类指标,生成对应的第一城市画像。本方案结合具体的应用场景,对数据指标进行分析处理,得到的城市画像更为精准。
Description
技术领域
本发明涉及大数据分析技术领域,尤其涉及一种城市画像的构建方法、装置、介质及电子设备。
背景技术
随着城市发展越来越迅速,也面临诸多问题,人口、环境、交通、资源等,为了能够对城市的情况更加的了解,在信息技术与互联网技术结合的基础上,对于城市的智慧管理和服务显得尤为重要。
在对城市进行管理和服务过程中,物联网、云计算以及大数据等技术发挥着越来越重要的作用,在城市中,物联网中的基础设备具备被感知以及被监控的功能,也能够采集到大量的数据,这些数据来源广泛,结构多样,覆盖着城市的各个领域,而这些数据也时时刻刻体现城市的管理和运作的各个方面的情况,目前可以通过对这些数据进行收集和汇总统计,最终对城市的各种特征进行量化,从而可以基于大数据对城市的管理进行指导。
然而,现有技术的方案,主要是基于历史数据的统计和汇总,没有对城市的各种场景进行精确分析,导致数据在指挥城市管理过程中容易出现偏差,统计结果较为简略其指导性较低。
发明内容
本发明实施例提供一种城市画像的构建方法、装置、介质及电子设备,以解决现有技术中主要是基于历史数据的统计和汇总,没有对城市的各种场景进行精确分析,导致数据在指挥城市管理过程中容易出现偏差,统计结果较为简略其指导性较低的问题。
第一方面,本发明实施例提供一种城市画像的构建方法,所述方法包括:
获取原始数据,所述原始数据包括结构化或非结构化的多种类型的数据;
根据第一场景以及所述原始数据,获取所述第一场景对应的统计类指标、推断类指标以及模型类指标;
根据所述第一场景对应的所述统计类指标、所述推断类指标以及所述模型类指标,生成对应的第一城市画像;
其中,所述统计类指标是对所述原始数据中所述第一场景对应的数据统计得到的指标,所述推断类指标是对所述原始数据中所述第一场景对应的数据根据预设规则计算得到的指标,所述模型类指标是对所述原始数据中第一场景对应的数据利用机器学习模型进行学习得到的指标。
在一种具体的实施方式中,第一城市画像包括以下至少一种:消费画像、人口画像、环境画像、工商画像。
在一种具体的实施方式中,所述方法还包括:
根据所述第一城市画像,获取在所述第一场景下的属于同一个类型的至少两个城市;其中,属于同一个类型包括所述第一城市画像中的至少一个指标的在同一预设范围。
在一种具体的实施方式中,所述根据第一场景以及所述原始数据,获取所述第一场景对应的统计类指标、推断类指标以及模型类指标,包括:
从所述原始数据中,获取所述第一场景对应的第一数据,所述第一数据包括至少一个类型的数据;
对所述第一数据中的至少一个类型的数据进行统计,得到所述统计类指标;
对所述第一数据中的至少一个类型的数据根据预设规则计算得到的所述推断类指标;
对所述第一数据中的至少一个类型的数据采用机器学习模型进行学习和预测,得到所述模型类指标。
在一种具体的实施方式中,所述原始数据包括以下至少一种数据:消费数据、工商数据、政务数据、交通数据以及环境数据;
所述获取原始数据,包括:
根据至少一个消费平台以及税务平台采集获取消费数据;
通过网络爬取企业的工商数据;
根据政府平台获取政务数据;
根据汽车记录、网约车平台、铁路平台以及航空平台获取交通数据;
根据预设时间段内城市空气检测结果和污染浓度变化,获取环境数据。
在一种具体的实施方式中,所述方法还包括:
将所述原始数据通过Hive或者MySQL进行存储。
第二方面,本发明实施例提供一种城市画像的构建装置,包括:
获取模块,用于获取原始数据,所述原始数据包括结构化或非结构化的多种类型的数据;
处理模块,用于根据第一场景以及所述原始数据,获取所述第一场景对应的统计类指标、推断类指标以及模型类指标;
所述处理模块还用于根据所述第一场景对应的所述统计类指标、所述推断类指标以及所述模型类指标,生成对应的第一城市画像;
其中,所述统计类指标是对所述原始数据中所述第一场景对应的数据统计得到的指标,所述推断类指标是对所述原始数据中所述第一场景对应的数据根据预设规则计算得到的指标,所述模型类指标是对所述原始数据中第一场景对应的数据利用机器学习模型进行学习得到的指标。
可选的,第一城市画像包括以下至少一种:消费画像、人口画像、环境画像、工商画像。
可选的,所述处理模块还用于:
根据所述第一城市画像,获取在所述第一场景下的属于同一个类型的至少两个城市;其中,属于同一个类型包括所述第一城市画像中的至少一个指标的在同一预设范围。
可选的,所述处理模块具体用于:
从所述原始数据中,获取所述第一场景对应的第一数据,所述第一数据包括至少一个类型的数据;
对所述第一数据中的至少一个类型的数据进行统计,得到所述统计类指标;
对所述第一数据中的至少一个类型的数据根据预设规则计算得到的所述推断类指标;
对所述第一数据中的至少一个类型的数据采用机器学习模型进行学习和预测,得到所述模型类指标。
可选的,所述原始数据包括以下至少一种数据:消费数据、工商数据、政务数据、交通数据以及环境数据;
所述获取模块具体用于:
根据至少一个消费平台以及税务平台采集获取消费数据;
通过网络爬取企业的工商数据;
根据政府平台获取政务数据;
根据汽车记录、网约车平台、铁路平台以及航空平台获取交通数据;
根据预设时间段内城市空气检测结果和污染浓度变化,获取环境数据。
可选的,所述装置还包括:
存储模块,用于将所述原始数据通过Hive或者MySQL进行存储。
第三方面,本发明实施例提供一种电子设备,包括:
显示器、处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行第一方面任一实现方式所述的城市画像的构建方法。
第四方面,本发明实施例一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面任一实现方式所述的城市画像的构建方法。
本发明实施例提供的城市画像的构建方法、装置、设备和存储介质,电子设备获取原始数据,根据第一场景以及原始数据,获取第一场景对应的统计类指标、推断类指标以及模型类指标,统计类指标是对原始数据中第一场景对应的数据统计得到的指标,推断类指标是对原始数据中第一场景对应的数据根据预设规则计算得到的指标,模型类指标是对原始数据中第一场景对应的数据利用机器学习模型进行学习得到的指标,然后再根据第一场景对应的统计类指标、推断类指标以及模型类指标,生成对应的第一城市画像,结合具体的应用场景,对数据指标进行分析处理,得到的城市画像更为精准。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明根据一示例实施例示出的城市画像的构建方法实施例一的流程示意图;
图2为本申请提供的一种城市画像的构建系统示意图;
图3a-3b为本申请实施例提供的一种城市的消费画像;
图4a-4c为本申请实施例提供的一种城市的人口画像;
图5为本申请提供的一种城市画像的构建装置实施例一的结构示意图;
图6为本申请提供的一种城市画像的构建装置实施例二的结构示意图;
图7为本申请提供的一种城市画像的构建装置实施例三的结构示意图;
图8是本发明根据一示例实施例示出的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在根据本实施例的启示下作出的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
针对现有技术提供的两种滚动视图的方案,存在至少两个技术问题,第一,在进行城市画像时内容不够具体,没有结合具体的应用场景,同时也缺少针对具体应用场景的数据和指标处理。第二,对于城市画像中指标数据的使用,主要是基于历史数据的统计类指标,没有包括基于实际场景进行的数据推断和预测。
针对上述存在的问题,本申请提供的一种城市画像的构建方法,构建一套系统的、完整的城市指标体系。从数据出发,结合具体的业务场景,做到对数据的深入理解。构建一套系统的,完整的城市指标体系。并提出一种基于指标体系的城市画像流程。该流程的主要目的是基于构建的城市指标系统,选择部分可以直接用于城市画像的指标,并基于已有的指标组合计算得到部分复杂的城市画像指标,完成精准的城市画像。下面通过几个具体实施方式对该方案进行说明。
图1是本发明根据一示例实施例示出的城市画像的构建方法实施例一的流程示意图。如图1所示,该方案应用在服务器、电脑、智能手机等具备数据处理功能电子设备中,根据需要的场景,对数据进行分析处理,得到需要的城市画像,本实施例提供的城市画像的构建方法,包括:
步骤S101:获取原始数据,原始数据包括结构化或非结构化的多种类型的数据。
在本步骤中,电子设备可以通过互联网、物联网、政府平台等平台获取需要的各种类型的数据,这些数据可以是结构化数据,也可以是非结构化数据,具体的数据类型本方案不做限制。为了能够对城市有全面的分析和了解,数据的类型越多,数据量越全面则得到的城市画像越精确。
在该方案的一种具体实现中,原始数据包括以下至少一种数据:消费数据、工商数据、政务数据、交通数据以及环境数据。
消费数据是城市居民生活的体现,这里的消费数据包括了各网络电商平台的消费数据,各企业提供的税务数据,以及通过各种方式获得的城市零售商铺的消费数据。
工商数据反映了城市发展现状,数据包括了通过网络爬取的各企业公布的基本信息数据、企业公开的年报数据、各政府部门公开的企业相关的司法数据、企业间产生的关联数据等。
政务数据反映了政府部门的工作职责履行状况,和居民日常生活紧密相关。数据包括了地方政府公开的各部门政务数据等。
交通数据包括了汽车记录的全球定位系统(Global Positioning System,GPS)轨迹数据,铁路运送旅客的票务数据,航空旅客的票务数据等。
环境数据包括了各地方检测占地检测的历史空气质量数据,各种空气污染物的浓度变化数据等。
在上述基础上,服务器等电子设备获取上述这些原始数据的方式是可以从专门的数据存储空间中读取,或者直接从各个平台获取获取,专用于存储数据的存储空间可以是该电子设备本身的存储空间,也可以是云服务器或者其他的存储设备,对此本方案不做具体限制。
在一种具体的实现方案中,获取原始数据,至少包括以下这些方式:
(1)、根据至少一个消费平台以及税务平台采集获取消费数据。
(2)、通过网络爬取企业的工商数据。
(3)、根据政府平台获取政务数据。
(4)、根据汽车记录、网约车平台、铁路平台以及航空平台等交通行驶平台获取交通数据。
(5)、根据预设时间段内城市空气检测结果和污染浓度变化,获取环境数据。
在通过上述实现方式获取到数据之后,可以直接按照后续的方案进行分析处理,得到需要的城市画像,也可以对数据进行存储,本方案还包括:将所述原始数据通过Hive或者关系型的结构化查询语言(Management System structured query language,MySQL)进行存储。
步骤S102:根据第一场景以及原始数据,获取第一场景对应的统计类指标、推断类指标以及模型类指标。
其中,所述统计类指标是对所述原始数据中所述第一场景对应的数据统计得到的指标,所述推断类指标是对所述原始数据中所述第一场景对应的数据根据预设规则计算得到的指标,所述模型类指标是对所述原始数据中第一场景对应的数据利用机器学习模型进行学习得到的指标。
在本步骤中,在获取到原始数据之后,电子设备可以根据实际需要进行画像的场景,对数据进行分析处理,得到几个不同类型的指标,然后再根据这些指标生成城市画像。
一般来说,该第一场景可以是用户输入的场景,也可以是在系统平台上提供的多个展示场景中,用户通过点击选择的场景。对于城市的了解应该是方方面面的,因此该场景可以是例如人口,消费,环境等等。
在该步骤的具体实现中,指标体系的构建需要根据已有数据并结合具体的业务场景,分析每个指标的含义、指标的计算公式、指标的口径等。根据指标计算的难易程度,将指标分为统计类指标、推断类指标和模型类指标三类。具体获取这几种指标的方式为:
(1)统计类指标。统计类指标是对原始数据的直接统计,通常通过对原始数据进行sum,count等统计即可得到统计类指标的结果。此外,在对消费、人口等画像指标进行计算时,有时会关注用户画像对于各类指标的作用;在进行工商画像时,有时会关注企业画像对于各类指标的作用;于是在对不同类型指标数据进行设计时,需要考虑具体场景的影响,根据场景需要的数据进行统计。
(2)推断类指标。推断类指标是对原始数据的加工后形成的指标,基本的处理逻辑是根据一些场景中预定义的规则,完成数据的统计计算。例如,根据用户消费数据或用户出行数据进行用户常住地址推断时,需要根据用户在连续的一段时间内的地址分布,判断用户是否发生过地址的变更。基于此,可以进行用户迁移行为的推断等。
(3)模型类指标。模式类指标是通过机器学习、人工智能和深度学习等方法,对目标的标签内容进行学习和拟合。以消费场景中的用户属性为例,实际业务中对于用户属性的统计可能会存在一定的缺失,而用户的消费行为可以帮助完成用户画像的建模。利用机器学习模型,根据已知用户属性的消费行为学习用户的消费模式,从而当一个用户的某些属性未知时,可以根据其消费行为进行模型预测。
根据上述描述,在该方案的一种具体实现中,根据原始数据以及第一场景,获取上述各种指标的方案为:
从所述原始数据中,获取所述第一场景对应的第一数据,所述第一数据包括至少一个类型的数据;
对所述第一数据中的至少一个类型的数据进行统计,得到所述统计类指标,本步骤的含义是,第一场景对应的第一数据中,还是包括多种类型的数据,其中能够直接进行统计的数据也可能包括一种或者多种,因此可以将需要统计的各个类型的数据进行统计。
对所述第一数据中的至少一个类型的数据根据预设规则计算得到的所述推断类指标;同样的本步骤的含义是,第一场景对应的第一数据中包括多种类型的数据,其中需要进行计算推断的数据也可能包括一种或者多种,因此可以将各个类型的数据分别按照各自的规则进行分析计算,得到上述的推断类指标。
对所述第一数据中的至少一个类型的数据采用机器学习模型进行学习和预测,得到所述模型类指标。同样的本步骤的含义是,第一场景对应的第一数据中包括多种类型的数据,其中需要进行模型预测的数据也可能包括一种或者多种,因此可以将各个类型的数据分别按照各自的模型进行预测分析,得到上述的模型类指标。
步骤S103:根据第一场景对应的统计类指标、推断类指标以及模型类指标,生成对应的第一城市画像。
在本步骤中,在根据上述步骤得到了第一场景对应的各个指标之后,则可以根据这些指标生成该第一场景对应的第一城市画像,具体的,该第一城市画像包括以下至少一种:消费画像、人口画像、环境画像、工商画像。
在得到了城市画像之后,需要将该第一城市画像进行推送或者展示,也可以存储在该电子设备中,等待别的终端或者客户端调用。
可选的,在一种实现方式中,电子设备可以在得到第一城市画像之后,在系统中对该第一城市画像进行显示。又或者,该电子设备可以将所述第一城市画像发送至客户端进行显示。
本实施例提供的城市画像的构建方法,在获取到原始数据之后,根据具体的应用场景,将数据进行统计、分析处理,得到统计类指标、推断类指标以及模型类指标,然后再根据第一场景对应的统计类指标、推断类指标以及模型类指标,生成对应的第一城市画像,结合具体的应用场景,对数据指标进行分析处理,得到的城市画像更为精准。
在上述实施例的基础上,本方案提出一种基于指标体系的城市画像流程。该流程的主要目的是基于构建的城市指标系统,选择部分可以直接用于城市画像的指标,并基于已有的指标组合计算得到部分复杂的城市画像指标,完成精准的城市画像。该方案提供的是一种基于城市大数据的指标体系构建和城市画像方法,图2为本申请提供的一种城市画像的构建系统示意图,如图2所示,该系统包括了数据层,指标层和画像层三个部分。其中数据层包括了数据采集和数据存储;指标层包括了统计类指标构建、推断类指标构建和模型类指标构建;画像层包括了城市消费画像,城市人口画像,城市环境画像,城市工商画像等,图中只是示意。
如图2所示,该图中包括以下几个阶段:
第一阶段,数据采集阶段。城市画像的内容涉及到了城市的方方面面,城市画像中采集和使用的数据包括但不限于:
消费数据,消费数据是城市居民生活的体现,数据包括了各网络电商平台的消费数据,各企业提供的税务数据,以及通过各种方式获得的城市零售商铺的消费数据;工商数据,工商数据反映了城市发展现状,数据包括了通过网络爬取的各企业公布的基本信息数据、企业公开的年报数据、各政府部门公开的企业相关的司法数据、企业间产生的关联数据等;政务数据,政务数据反映了政府部门的工作职责履行状况,和居民日常生活紧密相关。数据包括了地方政府公开的各部门政务数据;交通数据,交通数据包括了汽车记录的GPS轨迹数据,铁路运送旅客的票务数据,航空旅客的票务数据等;环境数据,环境数据包括了各地方检测占地检测的历史空气质量数据,各种空气污染物的浓度变化数据等。
第二阶段,数据存储阶段。原始数据包括了各种结构化和非结构化的数据内容,如图像,文本等形式。数据存储阶段使用Hive存储数据采集阶段的各种数据。
第三阶段,指标体系构建。指标体系的构建需要根据已有数据并结合具体的业务场景,分析每个指标的含义、指标的计算公式、指标的口径等。根据指标计算的难易程度,将指标分为统计类指标、推断类指标和模型类指标三类。
统计类指标是对原始数据的直接统计,通常通过对原始数据进行sum,count等统计即可得到统计类指标的结果。此外,在对消费、人口等画像指标进行计算时,有时会关注用户画像对于各类指标的作用;在进行工商画像时,有时会关注企业画像对于各类指标的作用;于是在对不同类型指标数据进行设计时,需要考虑具体场景的影响;推断类指标是对原始数据的加工后形成的指标,基本的处理逻辑是根据一些场景中预定义的规则,完成数据的统计计算。例如,根据用户消费数据或用户出行数据进行用户常住地址推断时,需要根据用户在连续的一段时间内的地址分布,判断用户是否发生过地址的变更。基于此,可以进行用户迁移行为的推断等;模式类指标是通过机器学习、人工智能和深度学习等方法,对目标的标签内容进行学习和拟合。以消费场景中的用户属性为例,实际业务中对于用户属性的统计可能会存在一定的缺失,而用户的消费行为可以帮助完成用户画像的建模。利用机器学习模型,根据已知用户属性的消费行为学习用户的消费模式,从而当一个用户的某些属性未知时,可以根据其消费行为进行模型预测。
第四阶段,城市画像阶段。城市画像的内容涉及到城市中的方方面面,需要根据上述得到的各种类型的指标生成各种类型的城市画像,系统以消费画像、人口画像、环境画像为例:
一般来说消费画像是对城市用户消费水平的刻画,消费画像中的指标包括了全国城市消费指数热力图,城市消费指数相似性对比、区县消费指数排名等。消费画像从城市的角度,刻画了城市消费水平的发展状况,为了对城市消费能力和水平具有感性的认识,通过全国城市消费热力图的方式进行对比分析。为分析城市消费发展的潜力,使用邻近算法(k-NearestNeighbor,KNN)和聚类算法将城市消费能力和最相似的城市进行对比,探索城市发展的潜力。此外,消费画像还关注了城市中各区县的发展状况,例如:图3a-3b为本申请实施例提供的一种城市的消费画像。如图3a所示,图中示出的是北京市的城市消费热力图,如图3b所示,其中示出了城市消费指数的对比,以及北京市的区县消费指数的排名等。
在上述实施例的基础上,可以根据需要的具体场景得到对应的城市画像,该城市画像可以用来体现该城市在某个场景下的具体情况,也可以在多个不同城市之间进行比对,以了解各个城市之间的区别和相似,特别是应用在对城市的问题分析和管理时,可以根据相似的城市的政策进行参考,也可以对相似的城市遇到的问题对将要遇到的问题进行预测和预防。在具体应用过程中,可以根据本实施例提供的技术方案得到特定场景例如第一场景下的第一城市画像,并进一步的根据该第一城市画像,获取在该第一场景下的属于同一个类型的至少两个城市,然后依据同一个类型的至少两个城市的情况。应理解,在该方案中,属于同一个类型的含义是指在第一城市画像中的至少一个指标的在同一预设范围。
以上述图3a所示的城市消费热力图为例,图中不同颜色的标识不同的城市的消费指数,一般来说热力图中消费指数逐渐变化,对应图中的颜色也在逐渐变化,越是接近的颜色对应的城市消费指数越接近,根据该规律可以根据消费热力图中每个城市的颜色,将颜色相似的多个城市作为同一个类型。类似的,也可以直接根据处理后的数据中的消费指数的数值,来确定同一个类型的城市,例如消费指数的差距在预设范围内的城市,可以作为同一个类型的城市互相参考管理政策等,对此本方案不做限制。
人口画像刻画了城市中人口的流动情况。人口画像的内容包括了区域的人口流入流出分布、流入流出人口的性别、年龄、职业、学历等分布、城市间人口流入流出的分布以及外来人口的特征分布。城市间人口流入流出的分布刻画了不同城市对于劳动力的吸引能力,例如:图4a-4c为本申请实施例提供的一种城市的人口画像。如图4a所示,图中示出的是北京市的流动人口迁徙图,如图4b所示,其中示出了北京市的流动人口特征的画像,具体的如地区,年龄,性别,教育程度等特征均可以在画像中进行展示,如图4c所示,示出了北京市的外来人口画像,其中示出了这类人口的年龄,性别,教育程度等特征的画像。
环境画像刻画了城市中空气质量的变化情况。环境画像包括了城市网格化空气质量实时预测,城市空气质量优良天数分布,城市空气污染物浓度历年变化,短时和长时空气质量预测、城市空气质量排名等。
与上述方案中描述的消费画像类似,无论是哪种场景下的城市画像,均可以用来根据画像中的至少一个指标将不同的城市区分为不同的类型,以便在后续对城市画像的应用过程中,能够根据该城市画像进行城市管理和问题预警。
本申请提供的城市画像的构建方案,基于构建的城市指标系统,选择部分可以直接用于城市画像的指标,并基于已有的指标组合计算得到部分复杂的城市画像指标,完成精准的城市画像。
该基于城市大数据构建指标体系和城市画像,可以帮助提升城市基础设施的运作效率,提升城市运行管理和公共服务水平,提升城市居民的生活质量。随着物联网、云计算、大数据等技术的发展和落地,更多的设备被投入到城市的各个角落,去监控和感知城市数据。这些数据包括了城市交通、环境、医疗等方面,通过去已有数据的挖掘和利用,构建城市指标体系,从而能够建立针对城市的消费画像、人口画像、环境画像、工商画像等,这些画像数据可以有效地辅助政府决策。
图5为本申请提供的一种城市画像的构建装置实施例一的结构示意图,如图5所示,该城市画像的构建装置10包括:
获取模块11,用于获取原始数据,所述原始数据包括结构化或非结构化的多种类型的数据;
处理模块12,用于根据第一场景以及所述原始数据,获取所述第一场景对应的统计类指标、推断类指标以及模型类指标;
所述处理模块12还用于根据所述第一场景对应的所述统计类指标、所述推断类指标以及所述模型类指标,生成对应的第一城市画像;
其中,所述统计类指标是对所述原始数据中所述第一场景对应的数据统计得到的指标,所述推断类指标是对所述原始数据中所述第一场景对应的数据根据预设规则计算得到的指标,所述模型类指标是对所述原始数据中第一场景对应的数据利用机器学习模型进行学习得到的指标。
可选的,第一城市画像包括以下至少一种:消费画像、人口画像、环境画像、工商画像。
本实施例提供的城市画像的构建装置,用于执行前述任一方法实施例的技术方案,其实现原理和技术效果类似,通过考虑具体的应用场景,对数据指标进行分析处理,得到的城市画像更为精准。
图6为本申请提供的一种城市画像的构建装置实施例二的结构示意图,如图6所示,该城市画像的构建装置10还包括:
显示模块13,用于将所述第一城市画像进行显示;或者,
发送模块14,用于将所述第一城市画像发送至客户端进行显示。
在上述任一实施例的基础上,在该城市画像的构建装装置10的具体实现中,所述处理模块12具体用于:
从所述原始数据中,获取所述第一场景对应的第一数据,所述第一数据包括至少一个类型的数据;
对所述第一数据中的至少一个类型的数据进行统计,得到所述统计类指标;
对所述第一数据中的至少一个类型的数据根据预设规则计算得到的所述推断类指标;
对所述第一数据中的至少一个类型的数据采用机器学习模型进行学习和预测,得到所述模型类指标。
可选的,所述原始数据包括以下至少一种数据:消费数据、工商数据、政务数据、交通数据以及环境数据;
所述获取模块11具体用于:
根据至少一个消费平台以及税务平台采集获取消费数据;
通过网络爬取企业的工商数据;
根据政府平台获取政务数据;
根据汽车记录、网约车平台、铁路平台以及航空平台获取交通数据;
根据预设时间段内城市空气检测结果和污染浓度变化,获取环境数据。
图7为本申请提供的一种城市画像的构建装置实施例三的结构示意图,如图7所示,该城市画像的构建装置10还包括:
存储模块15,用于将所述原始数据通过Hive或者关系型数据管理系统MySQL进行存储。
上述任一实施例提供的城市画像的构建装置,用于实现前述任一方法实施例的技术方案,其实现原理和技术效果类似,在此不再赘述。
图8是本发明根据一示例实施例示出的电子设备的结构示意图。如图8所示,本实施例提供的一种电子设备20包括:
显示器21、处理器22;以及,
存储器23,用于存储所述处理器的可执行指令,该存储器23还可以是flash(闪存);
其中,所述处理器22配置为经由执行所述可执行指令来执行上述方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
可选地,存储器23既可以是独立的,也可以跟处理器22集成在一起。
当所述存储器23是独立于处理器22之外的器件时,所述电子设备还可以包括:
总线24,用于连接所述处理器22以及所述存储器23。
本实施例还提供一种可读存储介质,可读存储介质中存储有计算机程序,当电子设备的至少一个处理器执行该计算机程序时,电子设备执行上述的各种实施方式提供的城市画像的构建方法。
本实施例还提供一种程序产品,该程序产品包括计算机程序,该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得电子设备实施上述的各种实施方式提供的城市画像的构建方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (14)
1.一种城市画像的构建方法,其特征在于,所述方法包括:
获取原始数据,所述原始数据包括结构化或非结构化的多种类型的数据;
根据第一场景以及所述原始数据,获取所述第一场景对应的统计类指标、推断类指标以及模型类指标;
根据所述第一场景对应的所述统计类指标、所述推断类指标以及所述模型类指标,生成对应的第一城市画像;
其中,所述统计类指标是对所述原始数据中所述第一场景对应的数据统计得到的指标,所述推断类指标是对所述原始数据中所述第一场景对应的数据根据预设规则计算得到的指标,所述模型类指标是对所述原始数据中第一场景对应的数据利用机器学习模型进行学习得到的指标。
2.根据权利要求1所述的方法,其特征在于,第一城市画像包括以下至少一种:消费画像、人口画像、环境画像、工商画像。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据所述第一城市画像,获取在所述第一场景下的属于同一个类型的至少两个城市;其中,属于同一个类型包括所述第一城市画像中的至少一个指标的在同一预设范围。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据第一场景以及所述原始数据,获取所述第一场景对应的统计类指标、推断类指标以及模型类指标,包括:
从所述原始数据中,获取所述第一场景对应的第一数据,所述第一数据包括至少一个类型的数据;
对所述第一数据中的至少一个类型的数据进行统计,得到所述统计类指标;
对所述第一数据中的至少一个类型的数据根据预设规则计算得到的所述推断类指标;
对所述第一数据中的至少一个类型的数据采用机器学习模型进行学习和预测,得到所述模型类指标。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述原始数据包括以下至少一种数据:消费数据、工商数据、政务数据、交通数据以及环境数据;
所述获取原始数据,包括:
根据至少一个消费平台以及税务平台采集获取消费数据;
通过网络爬取企业的工商数据;
根据政府平台获取政务数据;
根据汽车记录、网约车平台、铁路平台以及航空平台获取交通数据;
根据预设时间段内城市空气检测结果和污染浓度变化,获取环境数据。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
将所述原始数据通过Hive或者关系型的结构化查询语言MySQL进行存储。
7.一种城市画像的构建装置,其特征在于,包括:
获取模块,用于获取原始数据,所述原始数据包括结构化或非结构化的多种类型的数据;
处理模块,用于根据第一场景以及所述原始数据,获取所述第一场景对应的统计类指标、推断类指标以及模型类指标;
所述处理模块还用于根据所述第一场景对应的所述统计类指标、所述推断类指标以及所述模型类指标,生成对应的第一城市画像;
其中,所述统计类指标是对所述原始数据中所述第一场景对应的数据统计得到的指标,所述推断类指标是对所述原始数据中所述第一场景对应的数据根据预设规则计算得到的指标,所述模型类指标是对所述原始数据中第一场景对应的数据利用机器学习模型进行学习得到的指标。
8.根据权利要求7所述的装置,其特征在于,第一城市画像包括以下至少一种:消费画像、人口画像、环境画像、工商画像。
9.根据权利要求8所述的装置,其特征在于,所述处理模块还用于:
根据所述第一城市画像,获取在所述第一场景下的属于同一个类型的至少两个城市;其中,属于同一个类型包括所述第一城市画像中的至少一个指标的在同一预设范围。
10.根据权利要求7至9任一项所述的装置,其特征在于,所述处理模块具体用于:
从所述原始数据中,获取所述第一场景对应的第一数据,所述第一数据包括至少一个类型的数据;
对所述第一数据中的至少一个类型的数据进行统计,得到所述统计类指标;
对所述第一数据中的至少一个类型的数据根据预设规则计算得到的所述推断类指标;
对所述第一数据中的至少一个类型的数据采用机器学习模型进行学习和预测,得到所述模型类指标。
11.根据权利要求7至9任一项所述的装置,其特征在于,所述原始数据包括以下至少一种数据:消费数据、工商数据、政务数据、交通数据以及环境数据;
所述获取模块具体用于:
根据至少一个消费平台以及税务平台采集获取消费数据;
通过网络爬取企业的工商数据;
根据政府平台获取政务数据;
根据汽车记录、网约车平台、铁路平台以及航空平台获取交通数据;
根据预设时间段内城市空气检测结果和污染浓度变化,获取环境数据。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
存储模块,用于将所述原始数据通过Hive或者关系型的结构化查询语言MySQL进行存储。
13.一种电子设备,其特征在于,包括:
显示器、处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至6任一项所述的城市画像的构建方法。
14.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6任一项所述的城市画像的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910812587.9A CN111062555B (zh) | 2019-08-30 | 2019-08-30 | 城市画像的构建方法、装置、介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910812587.9A CN111062555B (zh) | 2019-08-30 | 2019-08-30 | 城市画像的构建方法、装置、介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111062555A CN111062555A (zh) | 2020-04-24 |
CN111062555B true CN111062555B (zh) | 2023-09-26 |
Family
ID=70298352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910812587.9A Active CN111062555B (zh) | 2019-08-30 | 2019-08-30 | 城市画像的构建方法、装置、介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062555B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949997A (zh) * | 2021-02-04 | 2021-06-11 | 上海营邑城市规划设计股份有限公司 | 用于城市规划设计中的社区画像的系统和方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005331896A (ja) * | 2004-05-20 | 2005-12-02 | Kankou:Kk | 地理データの抜き取り検査方法 |
CN102750363A (zh) * | 2012-06-13 | 2012-10-24 | 天津市规划信息中心 | 一种城市地理信息数据仓库的构建方法 |
CN103116825A (zh) * | 2013-01-29 | 2013-05-22 | 江苏省邮电规划设计院有限责任公司 | 智慧城市管理系统 |
CN104820863A (zh) * | 2015-03-27 | 2015-08-05 | 北京智慧图科技有限责任公司 | 一种消费者画像生成方法及装置 |
CN105931068A (zh) * | 2015-12-30 | 2016-09-07 | 中国银联股份有限公司 | 一种持卡人消费画像的生成方法及装置 |
CN108596679A (zh) * | 2018-04-27 | 2018-09-28 | 中国联合网络通信集团有限公司 | 用户画像的构建方法、装置、终端及计算机可读存储介质 |
-
2019
- 2019-08-30 CN CN201910812587.9A patent/CN111062555B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005331896A (ja) * | 2004-05-20 | 2005-12-02 | Kankou:Kk | 地理データの抜き取り検査方法 |
CN102750363A (zh) * | 2012-06-13 | 2012-10-24 | 天津市规划信息中心 | 一种城市地理信息数据仓库的构建方法 |
CN103116825A (zh) * | 2013-01-29 | 2013-05-22 | 江苏省邮电规划设计院有限责任公司 | 智慧城市管理系统 |
CN104820863A (zh) * | 2015-03-27 | 2015-08-05 | 北京智慧图科技有限责任公司 | 一种消费者画像生成方法及装置 |
CN105931068A (zh) * | 2015-12-30 | 2016-09-07 | 中国银联股份有限公司 | 一种持卡人消费画像的生成方法及装置 |
CN108596679A (zh) * | 2018-04-27 | 2018-09-28 | 中国联合网络通信集团有限公司 | 用户画像的构建方法、装置、终端及计算机可读存储介质 |
Non-Patent Citations (3)
Title |
---|
从大数据分析看我国城市设计走向;王耀武;孙宇;王丹;戴冬晖;;城市建筑(第15期);31-34 * |
王非 ; 姚园园 ; 李佩琦 ; .基于大数据的城市空间重构研究初探.城市发展研究.2018,(02),第61-67页. * |
郑宇.城市计算: 用大数据和AI打造未来城市.卫星与网络.2016,(第undefined期),第32-35页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111062555A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112766607B (zh) | 出行路线的推荐方法、装置、电子设备及可读存储介质 | |
US9123259B2 (en) | Discovering functional groups of an area | |
Coombes | From city-region concept to boundaries for governance: The English case | |
Long et al. | Mapping block-level urban areas for all Chinese cities | |
US9870596B2 (en) | Predicting community development trends | |
Praveen et al. | RETRACTED ARTICLE: smart traffic management system in metropolitan cities | |
Ma et al. | Public transportation big data mining and analysis | |
Kırdar et al. | A design proposal of integrated smart mobility application for travel behavior change towards sustainable mobility | |
Lansley et al. | Challenges to representing the population from new forms of consumer data | |
Tlili | In Search of Museum Professional Knowledge Base: Mapping the professional knowledge debate onto museum work | |
Zhu et al. | Navigation application programming interface route fuel saving opportunity assessment on large-scale real-world travel data for conventional vehicles and hybrid electric vehicles | |
CN111062555B (zh) | 城市画像的构建方法、装置、介质及电子设备 | |
Chaudhuri et al. | Spatio-temporal modeling of traffic accidents incidence on urban road networks based on an explicit network triangulation | |
Huang | Simulating individual work trips for transit-facilitated accessibility study | |
US11107099B2 (en) | Brand penetration determination system using image semantic content | |
Batista et al. | Analysing the influence of a farmers’ market on spatial behaviour in shared spaces | |
Yuan et al. | Rethinking the destination marketing organization management in the big data era | |
Rodriguez et al. | JamVis: exploration and visualization of traffic jams | |
Priyanka et al. | A comparative study of classification algorithm using accident data | |
Orłowski et al. | High-level model for the design of KPIs for smart cities systems | |
Xu et al. | [Retracted] Tourist Attraction Recommendation Method and Data Management Based on Big Data Analysis | |
Mathew et al. | Using stochastic variation of cyclic green distributions to populate SAE J2735 message confidence values along a signalized corridor | |
Li et al. | Driving cycle prediction based on Markov chain combined with driving information mining | |
De Luca et al. | Google Trends data and transfer function models to predict tourism demand in Italy | |
Abdelrahman et al. | Research trends in the application of big data in smart cities—A literature review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200722 Address after: Room 806, 8 / F, Zhongguancun International Innovation Building, Haidian District, Beijing 100080 Applicant after: Beijing Jingdong intelligent city big data research institute Address before: 100086 No.76 Zhichun Road, Haidian District, Beijing, Building No.1, Building No.9, Floor 1-7-5 Applicant before: Jingdong City (Beijing) Digital Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |