CN114386529B - 基于大数据的社区服务分析方法、系统和可读存储介质 - Google Patents
基于大数据的社区服务分析方法、系统和可读存储介质 Download PDFInfo
- Publication number
- CN114386529B CN114386529B CN202210058105.7A CN202210058105A CN114386529B CN 114386529 B CN114386529 B CN 114386529B CN 202210058105 A CN202210058105 A CN 202210058105A CN 114386529 B CN114386529 B CN 114386529B
- Authority
- CN
- China
- Prior art keywords
- community service
- data
- characteristic value
- community
- circle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 47
- 238000007405 data analysis Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims description 30
- 238000007689 inspection Methods 0.000 claims description 18
- 238000004891 communication Methods 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 12
- 238000003066 decision tree Methods 0.000 claims description 8
- 238000007637 random forest analysis Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 abstract description 5
- 230000001737 promoting effect Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开的一种基于大数据的社区服务分析方法、系统和可读存储介质,其中方法包括:对各社区服务圈进行大数据分析识别以提取目标特征值;基于预设模型对所述社区服务圈进行分类,并对所述社区服务圈进行评级;待所述社区服务圈评级结束后,识别各所述社区服务圈的所述目标特征值,结合预设的关联规则输出对应的分析结果。本发明建立于大数据分析的基础上,结合社区POI数据,利用各社区服务圈的设施数据以及对应的用户数据进行分析,可以有效改善优化社区服务圈设施建设,提升居民生活便利度,并且在一定程度上能够给政府管理部门提供辅助参考。
Description
技术领域
本发明涉及社区服务技术领域,更具体的,涉及一种基于大数据的社区服务分析方法、系统和可读存储介质。
背景技术
各地都在积极响应“一刻钟社区服务圈”,而目前国内学者的研究主要分为两类,一类是对于“一刻钟服务圈”的意义探究和具体应用领域扩展;一类是通过问卷调查的形式对服务圈建设质量和服务功能做出评价,因此由于依靠的是调查问卷形式,无法进行量化精准评价,存在相应地弊端。
发明内容
本发明的目的是提供一种基于大数据的社区服务分析方法、系统和可读存储介质,可以有效改善优化社区服务圈设施建设,提升居民生活便利度,并且在一定程度上能够给政府管理部门提供辅助参考。
本发明第一方面提供了一种基于大数据的社区服务分析方法,包括以下步骤:
对各社区服务圈进行大数据分析识别以提取目标特征值;
基于预设模型对所述社区服务圈进行分类,并对所述社区服务圈进行评级;
待所述社区服务圈评级结束后,识别各所述社区服务圈的所述目标特征值,结合预设的关联规则输出对应的分析结果。
本方案中,所述对各社区服务圈进行大数据分析识别以提取目标特征值,具体包括:
基于空间聚类的各所述社区服务圈的基础设施识别,以得到设施特征值;
基于各社区中居民人群的特征进行划分,以得到用户特征值。
本方案中,所述基于空间聚类的各所述社区服务圈的基础设施识别,以得到设施特征值,具体包括:
获取设施源数据,并进行预处理,其中预处理包括数据筛选以及数据归类;
利用空间聚类模型对各所述社区服务圈内的所述基础设施汇总得到设施分布密度,并将所述设施分布密度作为所述设施特征值。
本方案中,所述基于各社区中居民人群的特征进行划分,以得到用户特征值,具体包括:
获取用户源数据,并进行预处理,其中预处理包括清楚无效数据、推算无手机用户数据以及数据去重;
通过手机通信数据对人群动态特征进行画像以得到所述用户特征值。
本方案中,所述基于预设模型对所述社区服务圈进行分类,并对所述社区服务圈进行评级,具体包括:
基于决策树模型、KNN模型以及随机森林模型对各所述社区服务圈进行测试检验,并获取对应的检验准确率;
提取所述检验准确率降序排列第一位的所述预设模型对所述社区服务圈进行实际评级,其中,评级标准包括服务圈建成时间以及服务圈兴趣点数量级。
本方案中,基于所述设施特征值以及所述用户特征值得到所述目标特征值,基于所述目标特征值,识别各所述社区服务圈中出现次数超过预设阈值的变量,进而提取该变量与所述社区服务圈的相关关系,其中,提取各所述相关关系作为所述分析结果进行输出。
本发明第二方面还提供一种基于大数据的社区服务分析系统,包括存储器和处理器,所述存储器中包括基于大数据的社区服务分析方法程序,所述基于大数据的社区服务分析方法程序被所述处理器执行时实现如下步骤:
对各社区服务圈进行大数据分析识别以提取目标特征值;
基于预设模型对所述社区服务圈进行分类,并对所述社区服务圈进行评级;
待所述社区服务圈评级结束后,识别各所述社区服务圈的所述目标特征值,结合预设的关联规则输出对应的分析结果。
本方案中,所述对各社区服务圈进行大数据分析识别以提取目标特征值,具体包括:
基于空间聚类的各所述社区服务圈的基础设施识别,以得到设施特征值;
基于各社区中居民人群的特征进行划分,以得到用户特征值。
本方案中,所述基于空间聚类的各所述社区服务圈的基础设施识别,以得到设施特征值,具体包括:
获取设施源数据,并进行预处理,其中预处理包括数据筛选以及数据归类;
利用空间聚类模型对各所述社区服务圈内的所述基础设施汇总得到设施分布密度,并将所述设施分布密度作为所述设施特征值。
本方案中,所述基于各社区中居民人群的特征进行划分,以得到用户特征值,具体包括:
获取用户源数据,并进行预处理,其中预处理包括清楚无效数据、推算无手机用户数据以及数据去重;
通过手机通信数据对人群动态特征进行画像以得到所述用户特征值。
本方案中,所述基于预设模型对所述社区服务圈进行分类,并对所述社区服务圈进行评级,具体包括:
基于决策树模型、KNN模型以及随机森林模型对各所述社区服务圈进行测试检验,并获取对应的检验准确率;
提取所述检验准确率降序排列第一位的所述预设模型对所述社区服务圈进行实际评级,其中,评级标准包括服务圈建成时间以及服务圈兴趣点数量级。
本方案中,基于所述设施特征值以及所述用户特征值得到所述目标特征值,基于所述目标特征值,识别各所述社区服务圈中出现次数超过预设阈值的变量,进而提取该变量与所述社区服务圈的相关关系,其中,提取各所述相关关系作为所述分析结果进行输出。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括机器的一种基于大数据的社区服务分析方法程序,所述基于大数据的社区服务分析方法程序被处理器执行时,实现如上述任一项所述的一种基于大数据的社区服务分析方法的步骤。
本发明公开的一种基于大数据的社区服务分析方法、系统和可读存储介质,建立于大数据分析的基础上,结合社区POI数据,利用各社区服务圈的设施数据以及对应的用户数据进行分析,可以有效改善优化社区服务圈设施建设,提升居民生活便利度,并且在一定程度上能够给政府管理部门提供辅助参考。
附图说明
图1示出了本发明一种基于大数据的社区服务分析方法的流程图;
图2示出了本发明一种基于大数据的社区服务分析方法的人口密度分布图;
图3示出了本发明一种基于大数据的社区服务分析方法的设施密度分布图;
图4示出了本发明一种基于大数据的社区服务分析方法的KNN模型示意图;
图5示出了本发明一种基于大数据的社区服务分析方法的可视化示意图;
图6示出了本发明一种基于大数据的社区服务分析系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本申请一种基于大数据的社区服务分析方法的流程图。
如图1所示,本申请公开了一种基于大数据的社区服务分析方法,包括以下步骤:
S102,对各社区服务圈进行大数据分析识别以提取目标特征值;
S104,基于预设模型对所述社区服务圈进行分类,并对所述社区服务圈进行评级;
S106,待所述社区服务圈评级结束后,识别各所述社区服务圈的所述目标特征值,结合预设的关联规则输出对应的分析结果。
根据本发明实施例,所述对各社区服务圈进行大数据分析识别以提取目标特征值,具体包括:
基于空间聚类的各所述社区服务圈的基础设施识别,以得到设施特征值;
基于各社区中居民人群的特征进行划分,以得到用户特征值。
需要说明的是,利用空间聚类模型对各所述社区服务圈的基础设施进行识别汇总得到设施分布密度,并将其作为所述设施特征值;对不同活动特性的人群进行区分,如图2所示,以得到各社区人口分布密度,并将其作为所述用户特征值。
根据本发明实施例,所述基于空间聚类的各所述社区服务圈的基础设施识别,以得到设施特征值,具体包括:
获取设施源数据,并进行预处理,其中预处理包括数据筛选以及数据归类;
利用空间聚类模型对各所述社区服务圈内的所述基础设施汇总得到设施分布密度,并将所述设施分布密度作为所述设施特征值。
需要说明的是,所述设施源数据包括来源于百度、极海等开放位置数据服务平台,使用网络爬虫技术获取社区POI设施“90”余万条数据,其数据字段包括名称、地址、经纬度、所属区、所属类别等信息;或者社区地理数据来源于海淀区统计局人调办课题项目,其中字段包含社区名称、社区经纬度信息;而后对数据进行预处理,以北京海淀区为例,具体包括:(1)数据筛选,为了解海淀各社区目前周围配套设施情况,以爬取的某 年底的各类POI数据为基础,将设施所属地区为海淀区以外的设施过滤掉;(2)数据归类,由于原始的数据分类存在重复交叉,因此需对含公交站、餐饮店、洗衣店、理发店、银行网点等多个小类的原始POI 数据剔重归类,将其分成生活服务、健康服务、交通服务、体育娱乐休闲服务、餐饮服务、文化服务六类;而后利用空间聚类模型,根据各社区配套设施数量汇总可得到所述设施分布密度作为所述设施特征值,其中,如图3所示,颜色越深代表该地区设施密度越高。
根据本发明实施例,所述基于各社区中居民人群的特征进行划分,以得到用户特征值,具体包括:
获取用户源数据,并进行预处理,其中预处理包括清楚无效数据、推算无手机用户数据以及数据去重;
通过手机通信数据对人群动态特征进行画像以得到所述用户特征值。
需要说明的是,以北京海淀区为例,所述用户源数据包括海淀区某年度人口抽样调查数据,共涉及“17.3”万人,或者某 年人口动态监测全年数据,通过移动手机通信大数据对全区人口进行补充;而后对数据进行预处理,具体包括:(1)无效数据清除,通信大数据采集过程中存在不完全或存储丢失的无效数据,在数据预处理阶段需将此部分无效数据清除;(2)无手机用户数据推算,根据某年度人口抽样调查数据分析,折算出全区“一老一小”占比,并在移动通信数据中推算出全区人口数据,其中,该推算技术为本领域技术人员常规手段,在此不做赘述;(3)多卡去重技术,针对“一机多卡”、“多机多卡”等现象通过轨迹去重的方式进行去重,可还原真实人口数量。
进一步地,通过手机通信数据反映居民出行轨迹,对不同活动特性人群加以区分,以一千米范围内居住人数、离开居住地一千米以外途经扇区次数、离开居住地一千米以外的驻留时长、离开居住地不足一千米的驻留时长等作为图2的生成指标,分别反映社区居民密度,活动强度,出行强度等,间接反映居民多样化需求和社区服务功能定位,其中,图2表示海淀区各社区人口的分布密度,颜色越深表示密度越大。
值得一提的是,通过所述设施分布密度以及所述社区居民密度,可以得出现有服务设施的分布和人口集中度基本保持一致,但其在数量和密度上还并不能够与居民的数量和密度完全匹配。
根据本发明实施例,所述基于预设模型对所述社区服务圈进行分类,并对所述社区服务圈进行评级,具体包括:
基于决策树模型、KNN模型以及随机森林模型对各所述社区服务圈进行测试检验,并获取对应的检验准确率;
提取所述检验准确率降序排列第一位的所述预设模型对所述社区服务圈进行实际评级,其中,评级标准包括服务圈建成时间以及服务圈兴趣点数量级。
需要说明的是,分别利用所述决策树模型、所述KNN模型以及所述随机森林模型对所述社区服务圈进行测试检验,以获取对应的所述检验准确率,其中,将每个所述社区服务圈内的数据进行拆分,“90%”作为训练集,“10%”作为测试集,于本实施例中,以所述KNN模型为例,在KNN 算法中,K值会对算法的结果产生重大影响,K值较小意味着只有输入与实例较近的训练实例才会对预测结果起作用,容易发生过拟合;K值较大,优点是可以减少学习的估计误差,缺点是学习的近似误差增大;建模前首先对原始数据进行标准化处理消除量纲的影响,在本例中不同K 值对应的精确度见图4,横轴表示的是K的个数,纵轴表示的是精确度,从图中可以看出,在k取值为“3”时,训练集精确度和测试集精确度都处于一个相对较高的水平,据此选择参数“K=3”。
进一步地,于发明一实施例中,三种模型对应的所述检验准确率依次为“58%”、“60%”以及“53%”,故可以选取所述KNN模型对所述社区服务圈进行实际评级,其中,所述评级标准包括服务圈建成时间以及服务圈兴趣点数量级等,其中, 以服务圈建成时间为例,评级结果如下表1所示。
表1. “一刻钟社区服务圈”评级结果
根据本发明实施例,基于所述设施特征值以及所述用户特征值得到所述目标特征值,基于所述目标特征值,识别各所述社区服务圈中出现次数超过预设阈值的变量,进而提取该变量与所述社区服务圈的相关关系,其中,提取各所述相关关系作为所述分析结果进行输出。
需要说明的是,所述关联规则可以显示出给定数据集中频繁出现的同一变量,即对于各所述社区服务圈中出现次数超过预设阈值的变量,进而可以用于找出数据集中关联或者相关的关系,其中,不同的变量对应的所述预设阈值也是不同的,例如居民年龄对应的所述预设阈值就包括“18岁”以及“60岁”;居民活动强度对应的所述预设阈值就包括“时长阈值”以及“人数阈值”。
进一步地,通过关联分析结果显示在人均设施拥有量处于全区前“25%”水平的服务圈中,服务设施与居民出行强度时长、人口年龄结构、活动强度人次具有较强的相关性;各类设施人均拥有量均处于全区前“25%”水平的服务圈中,同时满足出行强度时长介于“272.5 min - 285min”之间的服务圈,占海淀区全部服务圈的“9%”左右;在出行强度时长介于“272.5 min - 285min”之间的服务圈中,各类设施人均拥有量处于全区“25%”水平的服务圈约占“21%”;各类设施人均拥有量均处于全区前“25%”水平的服务圈中,同时满足活动强度时长在“5”个小时以上(大于“315.5 min”)的服务圈,占海淀区全部服务圈的“18%”左右。
值得一提的是,所述方法还包括对所述分析结果进行可视化。
需要说明的是,以海淀区为例,以青少年比和老年比两个变量对全区所有的服务圈聚类,海淀区社区服务圈的人口结构呈现出一定的差异性,部分社区人口偏向于年轻化,而部分社区老年比重则相对较大,考虑到不同服务圈的人口结构并不相同,依据每个社区的不同需求匹配服务设施,针对“特色服务圈”提升优化服务,将有助于切实提高各个社区的居民幸福感,如图5所示,选取支持度和置信度相对较高、提升度颜色较浅的点,其中,点的颜色深浅表示提升度的高低,从图5中可以看出提升度较高的关联规则支持度较低。
值得一提的是,所述方法还包括增添其他所述目标特征值。
需要说明的是,除了本申请提出的所述设施特征值以及所述用户特征值,还可以将服务圈人均设施占地面积、人均使用设施频次、使用设施时长、受众群体满意度等变量来增加评估维度,提高研究的精准度和准确性。
图6示出了本发明一种基于大数据的社区服务分析系统的框图。
如图6所示,本发明公开了一种基于大数据的社区服务分析系统,包括存储器和处理器,所述存储器中包括基于大数据的社区服务分析方法程序,所述基于大数据的社区服务分析方法程序被所述处理器执行时实现如下步骤:
对各社区服务圈进行大数据分析识别以提取目标特征值;
基于预设模型对所述社区服务圈进行分类,并对所述社区服务圈进行评级;
待所述社区服务圈评级结束后,识别各所述社区服务圈的所述目标特征值,结合预设的关联规则输出对应的分析结果。
根据本发明实施例,所述对各社区服务圈进行大数据分析识别以提取目标特征值,具体包括:
基于空间聚类的各所述社区服务圈的基础设施识别,以得到设施特征值;
基于各社区中居民人群的特征进行划分,以得到用户特征值。
需要说明的是,利用空间聚类模型对各所述社区服务圈的基础设施进行识别汇总得到设施分布密度,并将其作为所述设施特征值;对不同活动特性的人群进行区分,如图2所示,以得到各社区人口分布密度,并将其作为所述用户特征值。
根据本发明实施例,所述基于空间聚类的各所述社区服务圈的基础设施识别,以得到设施特征值,具体包括:
获取设施源数据,并进行预处理,其中预处理包括数据筛选以及数据归类;
利用空间聚类模型对各所述社区服务圈内的所述基础设施汇总得到设施分布密度,并将所述设施分布密度作为所述设施特征值。
需要说明的是,所述设施源数据包括来源于百度、极海等开放位置数据服务平台,使用网络爬虫技术获取社区POI设施“90”余万条数据,其数据字段包括名称、地址、经纬度、所属区、所属类别等信息;或者社区地理数据来源于海淀区统计局人调办课题项目,其中字段包含社区名称、社区经纬度信息;而后对数据进行预处理,以北京海淀区为例,具体包括:(1)数据筛选,为了解海淀各社区目前周围配套设施情况,以爬取的某 年底的各类POI数据为基础,将设施所属地区为海淀区以外的设施过滤掉;(2)数据归类,由于原始的数据分类存在重复交叉,因此需对含公交站、餐饮店、洗衣店、理发店、银行网点等多个小类的原始POI 数据剔重归类,将其分成生活服务、健康服务、交通服务、体育娱乐休闲服务、餐饮服务、文化服务六类;而后利用空间聚类模型,根据各社区配套设施数量汇总可得到所述设施分布密度作为所述设施特征值,其中,如图3所示,颜色越深代表该地区设施密度越高。
根据本发明实施例,所述基于各社区中居民人群的特征进行划分,以得到用户特征值,具体包括:
获取用户源数据,并进行预处理,其中预处理包括清楚无效数据、推算无手机用户数据以及数据去重;
通过手机通信数据对人群动态特征进行画像以得到所述用户特征值。
需要说明的是,以北京海淀区为例,所述用户源数据包括海淀区某年度人口抽样调查数据,共涉及“17.3”万人,或者某 年人口动态监测全年数据,通过移动手机通信大数据对全区人口进行补充;而后对数据进行预处理,具体包括:(1)无效数据清除,通信大数据采集过程中存在不完全或存储丢失的无效数据,在数据预处理阶段需将此部分无效数据清除;(2)无手机用户数据推算,根据某年度人口抽样调查数据分析,折算出全区“一老一小”占比,并在移动通信数据中推算出全区人口数据,其中,该推算技术为本领域技术人员常规手段,在此不做赘述;(3)多卡去重技术,针对“一机多卡”、“多机多卡”等现象通过轨迹去重的方式进行去重,可还原真实人口数量。
进一步地,通过手机通信数据反映居民出行轨迹,对不同活动特性人群加以区分,以一千米范围内居住人数、离开居住地一千米以外途经扇区次数、离开居住地一千米以外的驻留时长、离开居住地不足一千米的驻留时长等作为图2的生成指标,分别反映社区居民密度,活动强度,出行强度等,间接反映居民多样化需求和社区服务功能定位,其中,图2表示海淀区各社区人口的分布密度,颜色越深表示密度越大。
值得一提的是,通过所述设施分布密度以及所述社区居民密度,可以得出现有服务设施的分布和人口集中度基本保持一致,但其在数量和密度上还并不能够与居民的数量和密度完全匹配。
根据本发明实施例,所述基于预设模型对所述社区服务圈进行分类,并对所述社区服务圈进行评级,具体包括:
基于决策树模型、KNN模型以及随机森林模型对各所述社区服务圈进行测试检验,并获取对应的检验准确率;
提取所述检验准确率降序排列第一位的所述预设模型对所述社区服务圈进行实际评级,其中,评级标准包括服务圈建成时间以及服务圈兴趣点数量级。
需要说明的是,分别利用所述决策树模型、所述KNN模型以及所述随机森林模型对所述社区服务圈进行测试检验,以获取对应的所述检验准确率,其中,将每个所述社区服务圈内的数据进行拆分,“90%”作为训练集,“10%”作为测试集,于本实施例中,以所述KNN模型为例,在KNN 算法中,K值会对算法的结果产生重大影响,K值较小意味着只有输入与实例较近的训练实例才会对预测结果起作用,容易发生过拟合;K值较大,优点是可以减少学习的估计误差,缺点是学习的近似误差增大;建模前首先对原始数据进行标准化处理消除量纲的影响,在本例中不同K 值对应的精确度见图4,横轴表示的是K的个数,纵轴表示的是精确度,从图中可以看出,在k取值为“3”时,训练集精确度和测试集精确度都处于一个相对较高的水平,据此选择参数“K=3”。
进一步地,于发明一实施例中,三种模型对应的所述检验准确率依次为“58%”、“60%”以及“53%”,故可以选取所述KNN模型对所述社区服务圈进行实际评级,其中,所述评级标准包括服务圈建成时间以及服务圈兴趣点数量级等,其中, 以服务圈建成时间为例,评级结果如下表1所示。
表1. “一刻钟社区服务圈”评级结果
根据本发明实施例,基于所述设施特征值以及所述用户特征值得到所述目标特征值,基于所述目标特征值,识别各所述社区服务圈中出现次数超过预设阈值的变量,进而提取该变量与所述社区服务圈的相关关系,其中,提取各所述相关关系作为所述分析结果进行输出。
需要说明的是,所述关联规则可以显示出给定数据集中频繁出现的同一变量,即对于各所述社区服务圈中出现次数超过预设阈值的变量,进而可以用于找出数据集中关联或者相关的关系,其中,不同的变量对应的所述预设阈值也是不同的,例如居民年龄对应的所述预设阈值就包括“18岁”以及“60岁”;居民活动强度对应的所述预设阈值就包括“时长阈值”以及“人数阈值”。
进一步地,通过关联分析结果显示在人均设施拥有量处于全区前“25%”水平的服务圈中,服务设施与居民出行强度时长、人口年龄结构、活动强度人次具有较强的相关性;各类设施人均拥有量均处于全区前“25%”水平的服务圈中,同时满足出行强度时长介于“272.5 min - 285min”之间的服务圈,占海淀区全部服务圈的“9%”左右;在出行强度时长介于“272.5 min - 285min”之间的服务圈中,各类设施人均拥有量处于全区“25%”水平的服务圈约占“21%”;各类设施人均拥有量均处于全区前“25%”水平的服务圈中,同时满足活动强度时长在“5”个小时以上(大于“315.5 min”)的服务圈,占海淀区全部服务圈的“18%”左右。
值得一提的是,所述方法还包括对所述分析结果进行可视化。
需要说明的是,以海淀区为例,以青少年比和老年比两个变量对全区所有的服务圈聚类,海淀区社区服务圈的人口结构呈现出一定的差异性,部分社区人口偏向于年轻化,而部分社区老年比重则相对较大,考虑到不同服务圈的人口结构并不相同,依据每个社区的不同需求匹配服务设施,针对“特色服务圈”提升优化服务,将有助于切实提高各个社区的居民幸福感,如图5所示,选取支持度和置信度相对较高、提升度颜色较浅的点,其中,点的颜色深浅表示提升度的高低,从图5中可以看出提升度较高的关联规则支持度较低。
值得一提的是,所述方法还包括增添其他所述目标特征值。
需要说明的是,除了本申请提出的所述设施特征值以及所述用户特征值,还可以将服务圈人均设施占地面积、人均使用设施频次、使用设施时长、受众群体满意度等变量来增加评估维度,提高研究的精准度和准确性。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于大数据的社区服务分析方法程序,所述基于大数据的社区服务分析方法程序被处理器执行时,实现如上述任一项所述的一种基于大数据的社区服务分析方法的步骤。
本发明公开的一种基于大数据的社区服务分析方法、系统和可读存储介质,建立于大数据分析的基础上,结合社区POI数据,利用各社区服务圈的设施数据以及对应的用户数据进行分析,可以有效改善优化社区服务圈设施建设,提升居民生活便利度,并且在一定程度上能够给政府管理部门提供辅助参考。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (3)
1.一种基于大数据的社区服务分析方法,其特征在于,包括以下步骤:
对各社区服务圈进行大数据分析识别以提取目标特征值;
基于预设模型对所述社区服务圈进行分类,并对所述社区服务圈进行评级;
待所述社区服务圈评级结束后,识别各所述社区服务圈的所述目标特征值,结合预设的关联规则输出对应的分析结果;
所述对各社区服务圈进行大数据分析识别以提取目标特征值,具体包括:
基于空间聚类的各所述社区服务圈的基础设施识别,以得到设施特征值;
基于各社区中居民人群的特征进行划分,以得到用户特征值;
所述基于空间聚类的各所述社区服务圈的基础设施识别,以得到设施特征值,具体包括:
获取设施源数据,并进行预处理,其中预处理包括数据筛选以及数据归类;
利用空间聚类模型对各所述社区服务圈内的所述基础设施汇总得到设施分布密度,并将所述设施分布密度作为所述设施特征值;
所述基于各社区中居民人群的特征进行划分,以得到用户特征值,具体包括:
获取用户源数据,并进行预处理,其中预处理包括清楚无效数据、推算无手机用户数据以及数据去重;
通过手机通信数据对人群动态特征进行画像以得到所述用户特征值;
所述基于预设模型对所述社区服务圈进行分类,并对所述社区服务圈进行评级,具体包括:
基于决策树模型、KNN模型以及随机森林模型对各所述社区服务圈进行测试检验,并获取对应的检验准确率;
提取所述检验准确率降序排列第一位的所述预设模型对所述社区服务圈进行实际评级,其中,评级标准包括服务圈建成时间以及服务圈兴趣点数量级;
基于所述设施特征值以及所述用户特征值得到所述目标特征值,基于所述目标特征值,识别各所述社区服务圈中出现次数超过预设阈值的变量,进而提取该变量与所述社区服务圈的相关关系,其中,提取各所述相关关系作为所述分析结果进行输出;还包括对所述分析结果进行可视化;
还包括增添其他所述目标特征值。
2.一种基于大数据的社区服务分析系统,其特征在于,包括存储器和处理器,所述存储器中包括基于大数据的社区服务分析方法程序,所述基于大数据的社区服务分析方法程序被所述处理器执行时实现如下步骤:
对各社区服务圈进行大数据分析识别以提取目标特征值;
基于预设模型对所述社区服务圈进行分类,并对所述社区服务圈进行评级;
待所述社区服务圈评级结束后,识别各所述社区服务圈的所述目标特征值,结合预设的关联规则输出对应的分析结果;
所述对各社区服务圈进行大数据分析识别以提取目标特征值,具体包括:
基于空间聚类的各所述社区服务圈的基础设施识别,以得到设施特征值;
基于各社区中居民人群的特征进行划分,以得到用户特征值;
所述基于空间聚类的各所述社区服务圈的基础设施识别,以得到设施特征值,具体包括:
获取设施源数据,并进行预处理,其中预处理包括数据筛选以及数据归类;
利用空间聚类模型对各所述社区服务圈内的所述基础设施汇总得到设施分布密度,并将所述设施分布密度作为所述设施特征值;
所述基于各社区中居民人群的特征进行划分,以得到用户特征值,具体包括:
获取用户源数据,并进行预处理,其中预处理包括清楚无效数据、推算无手机用户数据以及数据去重;
通过手机通信数据对人群动态特征进行画像以得到所述用户特征值;
所述基于预设模型对所述社区服务圈进行分类,并对所述社区服务圈进行评级,具体包括:
基于决策树模型、KNN模型以及随机森林模型对各所述社区服务圈进行测试检验,并获取对应的检验准确率;
提取所述检验准确率降序排列第一位的所述预设模型对所述社区服务圈进行实际评级,其中,评级标准包括服务圈建成时间以及服务圈兴趣点数量级;
基于所述设施特征值以及所述用户特征值得到所述目标特征值,基于所述目标特征值,识别各所述社区服务圈中出现次数超过预设阈值的变量,进而提取该变量与所述社区服务圈的相关关系,其中,提取各所述相关关系作为所述分析结果进行输出;还包括对所述分析结果进行可视化;
还包括增添其他所述目标特征值。
3.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种基于大数据的社区服务分析方法程序,所述基于大数据的社区服务分析方法程序被处理器执行时,实现如权利要求1所述的一种基于大数据的社区服务分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210058105.7A CN114386529B (zh) | 2022-01-19 | 2022-01-19 | 基于大数据的社区服务分析方法、系统和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210058105.7A CN114386529B (zh) | 2022-01-19 | 2022-01-19 | 基于大数据的社区服务分析方法、系统和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114386529A CN114386529A (zh) | 2022-04-22 |
CN114386529B true CN114386529B (zh) | 2023-04-07 |
Family
ID=81203441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210058105.7A Active CN114386529B (zh) | 2022-01-19 | 2022-01-19 | 基于大数据的社区服务分析方法、系统和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114386529B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103606123A (zh) * | 2013-12-06 | 2014-02-26 | 因为科技无锡有限公司 | 一种社区服务端及社区服务系统 |
CN106846218A (zh) * | 2016-12-27 | 2017-06-13 | 航天科工智慧产业发展有限公司 | 一种社区服务端和社区服务系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7660740B2 (en) * | 2000-10-16 | 2010-02-09 | Ebay Inc. | Method and system for listing items globally and regionally, and customized listing according to currency or shipping area |
CN108597224B (zh) * | 2018-05-02 | 2020-05-19 | 深圳市数字城市工程研究中心 | 一种基于时空轨迹数据的待改善交通设施识别方法及系统 |
CN111369089A (zh) * | 2018-12-25 | 2020-07-03 | 北京融信数联科技有限公司 | 基于大数据的城市居民需求供给双向评估方法 |
CN110705843A (zh) * | 2019-09-16 | 2020-01-17 | 中电科新型智慧城市研究院有限公司 | 一种以人为本的社区发展水平评价指标体系 |
CN112288311A (zh) * | 2020-11-12 | 2021-01-29 | 河北工程大学 | 一种基于poi数据的居住区配套设施便捷度计量方法 |
-
2022
- 2022-01-19 CN CN202210058105.7A patent/CN114386529B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103606123A (zh) * | 2013-12-06 | 2014-02-26 | 因为科技无锡有限公司 | 一种社区服务端及社区服务系统 |
CN106846218A (zh) * | 2016-12-27 | 2017-06-13 | 航天科工智慧产业发展有限公司 | 一种社区服务端和社区服务系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114386529A (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245981B (zh) | 一种基于手机信令数据的人群类型识别方法 | |
Venerandi et al. | Measuring urban deprivation from user generated content | |
CN105184315B (zh) | 一种质检处理方法及系统 | |
CN111199322A (zh) | 房价预测方法及计算机可读存储介质 | |
CN115759640B (zh) | 一种智慧城市的公共服务信息处理系统及方法 | |
CN111797188B (zh) | 一种基于开源地理空间矢量数据的城市功能区定量识别方法 | |
CN110826623B (zh) | 基于气象数据的分类方法、装置、计算机设备及存储介质 | |
CN114386529B (zh) | 基于大数据的社区服务分析方法、系统和可读存储介质 | |
Kocakoç et al. | Exploring decision rules for election results by classification trees | |
CN113011503B (zh) | 一种电子设备的数据取证方法、存储介质及终端 | |
CN112100165B (zh) | 基于质量评估的交通数据处理方法、系统、设备和介质 | |
CN115392351A (zh) | 风险用户识别方法、装置、电子设备及存储介质 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
KR100539148B1 (ko) | 성적 정보 제공 방법 및 장치 | |
Khanom et al. | The News Crawler: A Big Data Approach to Local Information Ecosystems | |
CN111382343A (zh) | 一种标签体系生成方法及装置 | |
KR102473115B1 (ko) | 신고 데이터 분석 시스템 및 방법 | |
Carbonetti et al. | New perspectives for the quality of sub-municipal data with the Italian permanent population and housing census | |
Yang et al. | Resident activity pattern recognition and comparison of six Sino‐American metropolises | |
CN116467610B (zh) | 基于5g消息的数据拓扑分析方法、装置、设备及存储介质 | |
CN115905968A (zh) | 用户贬损根因分析方法、装置,及电子设备 | |
CN113205270A (zh) | 一种满意度评价表自动生成和评价得分计算的方法及系统 | |
CN116782230A (zh) | Goip设备识别方法及装置 | |
Daddi et al. | Chapter New perspectives for the quality of sub-municipal data with the Italian permanent population and housing census | |
CN111242821A (zh) | 一种基于大数据的物联人口管理方法、系统和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |