CN114386529B

CN114386529B - 基于大数据的社区服务分析方法、系统和可读存储介质

Info

Publication number: CN114386529B
Application number: CN202210058105.7A
Authority: CN
Inventors: 成立立; 张广志; 于笑博; 徐伟
Original assignee: Beiling Rongxin Datalnfo Science and Technology Ltd
Current assignee: Beiling Rongxin Datalnfo Science and Technology Ltd
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2023-04-07
Anticipated expiration: 2042-01-19
Also published as: CN114386529A

Abstract

本发明公开的一种基于大数据的社区服务分析方法、系统和可读存储介质，其中方法包括：对各社区服务圈进行大数据分析识别以提取目标特征值；基于预设模型对所述社区服务圈进行分类，并对所述社区服务圈进行评级；待所述社区服务圈评级结束后，识别各所述社区服务圈的所述目标特征值，结合预设的关联规则输出对应的分析结果。本发明建立于大数据分析的基础上，结合社区POI数据，利用各社区服务圈的设施数据以及对应的用户数据进行分析，可以有效改善优化社区服务圈设施建设，提升居民生活便利度，并且在一定程度上能够给政府管理部门提供辅助参考。

Description

基于大数据的社区服务分析方法、系统和可读存储介质

技术领域

本发明涉及社区服务技术领域，更具体的，涉及一种基于大数据的社区服务分析方法、系统和可读存储介质。

背景技术

各地都在积极响应“一刻钟社区服务圈”，而目前国内学者的研究主要分为两类，一类是对于“一刻钟服务圈”的意义探究和具体应用领域扩展；一类是通过问卷调查的形式对服务圈建设质量和服务功能做出评价，因此由于依靠的是调查问卷形式，无法进行量化精准评价，存在相应地弊端。

发明内容

本发明的目的是提供一种基于大数据的社区服务分析方法、系统和可读存储介质，可以有效改善优化社区服务圈设施建设，提升居民生活便利度，并且在一定程度上能够给政府管理部门提供辅助参考。

本发明第一方面提供了一种基于大数据的社区服务分析方法，包括以下步骤：

对各社区服务圈进行大数据分析识别以提取目标特征值；

基于预设模型对所述社区服务圈进行分类，并对所述社区服务圈进行评级；

待所述社区服务圈评级结束后，识别各所述社区服务圈的所述目标特征值，结合预设的关联规则输出对应的分析结果。

本方案中，所述对各社区服务圈进行大数据分析识别以提取目标特征值，具体包括：

基于空间聚类的各所述社区服务圈的基础设施识别，以得到设施特征值；

基于各社区中居民人群的特征进行划分，以得到用户特征值。

本方案中，所述基于空间聚类的各所述社区服务圈的基础设施识别，以得到设施特征值，具体包括：

获取设施源数据，并进行预处理，其中预处理包括数据筛选以及数据归类；

利用空间聚类模型对各所述社区服务圈内的所述基础设施汇总得到设施分布密度，并将所述设施分布密度作为所述设施特征值。

本方案中，所述基于各社区中居民人群的特征进行划分，以得到用户特征值，具体包括：

获取用户源数据，并进行预处理，其中预处理包括清楚无效数据、推算无手机用户数据以及数据去重；

通过手机通信数据对人群动态特征进行画像以得到所述用户特征值。

本方案中，所述基于预设模型对所述社区服务圈进行分类，并对所述社区服务圈进行评级，具体包括：

基于决策树模型、KNN模型以及随机森林模型对各所述社区服务圈进行测试检验，并获取对应的检验准确率；

提取所述检验准确率降序排列第一位的所述预设模型对所述社区服务圈进行实际评级，其中，评级标准包括服务圈建成时间以及服务圈兴趣点数量级。

本方案中，基于所述设施特征值以及所述用户特征值得到所述目标特征值，基于所述目标特征值，识别各所述社区服务圈中出现次数超过预设阈值的变量，进而提取该变量与所述社区服务圈的相关关系，其中，提取各所述相关关系作为所述分析结果进行输出。

本发明第二方面还提供一种基于大数据的社区服务分析系统，包括存储器和处理器，所述存储器中包括基于大数据的社区服务分析方法程序，所述基于大数据的社区服务分析方法程序被所述处理器执行时实现如下步骤：

对各社区服务圈进行大数据分析识别以提取目标特征值；

本发明第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中包括机器的一种基于大数据的社区服务分析方法程序，所述基于大数据的社区服务分析方法程序被处理器执行时，实现如上述任一项所述的一种基于大数据的社区服务分析方法的步骤。

本发明公开的一种基于大数据的社区服务分析方法、系统和可读存储介质，建立于大数据分析的基础上，结合社区POI数据，利用各社区服务圈的设施数据以及对应的用户数据进行分析，可以有效改善优化社区服务圈设施建设，提升居民生活便利度，并且在一定程度上能够给政府管理部门提供辅助参考。

附图说明

图1示出了本发明一种基于大数据的社区服务分析方法的流程图；

图2示出了本发明一种基于大数据的社区服务分析方法的人口密度分布图；

图3示出了本发明一种基于大数据的社区服务分析方法的设施密度分布图；

图4示出了本发明一种基于大数据的社区服务分析方法的KNN模型示意图；

图5示出了本发明一种基于大数据的社区服务分析方法的可视化示意图；

图6示出了本发明一种基于大数据的社区服务分析系统的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本申请一种基于大数据的社区服务分析方法的流程图。

如图1所示，本申请公开了一种基于大数据的社区服务分析方法，包括以下步骤：

S102，对各社区服务圈进行大数据分析识别以提取目标特征值；

S104，基于预设模型对所述社区服务圈进行分类，并对所述社区服务圈进行评级；

S106，待所述社区服务圈评级结束后，识别各所述社区服务圈的所述目标特征值，结合预设的关联规则输出对应的分析结果。

根据本发明实施例，所述对各社区服务圈进行大数据分析识别以提取目标特征值，具体包括：

需要说明的是，利用空间聚类模型对各所述社区服务圈的基础设施进行识别汇总得到设施分布密度，并将其作为所述设施特征值；对不同活动特性的人群进行区分，如图2所示，以得到各社区人口分布密度，并将其作为所述用户特征值。

根据本发明实施例，所述基于空间聚类的各所述社区服务圈的基础设施识别，以得到设施特征值，具体包括：

需要说明的是，所述设施源数据包括来源于百度、极海等开放位置数据服务平台，使用网络爬虫技术获取社区POI设施“90”余万条数据，其数据字段包括名称、地址、经纬度、所属区、所属类别等信息；或者社区地理数据来源于海淀区统计局人调办课题项目，其中字段包含社区名称、社区经纬度信息；而后对数据进行预处理，以北京海淀区为例，具体包括：（1）数据筛选，为了解海淀各社区目前周围配套设施情况，以爬取的某年底的各类POI数据为基础，将设施所属地区为海淀区以外的设施过滤掉；（2）数据归类，由于原始的数据分类存在重复交叉，因此需对含公交站、餐饮店、洗衣店、理发店、银行网点等多个小类的原始POI 数据剔重归类，将其分成生活服务、健康服务、交通服务、体育娱乐休闲服务、餐饮服务、文化服务六类；而后利用空间聚类模型，根据各社区配套设施数量汇总可得到所述设施分布密度作为所述设施特征值，其中，如图3所示，颜色越深代表该地区设施密度越高。

根据本发明实施例，所述基于各社区中居民人群的特征进行划分，以得到用户特征值，具体包括：

需要说明的是，以北京海淀区为例，所述用户源数据包括海淀区某年度人口抽样调查数据，共涉及“17.3”万人，或者某年人口动态监测全年数据，通过移动手机通信大数据对全区人口进行补充；而后对数据进行预处理，具体包括：（1）无效数据清除，通信大数据采集过程中存在不完全或存储丢失的无效数据，在数据预处理阶段需将此部分无效数据清除；（2）无手机用户数据推算，根据某年度人口抽样调查数据分析，折算出全区“一老一小”占比，并在移动通信数据中推算出全区人口数据，其中，该推算技术为本领域技术人员常规手段，在此不做赘述；（3）多卡去重技术，针对“一机多卡”、“多机多卡”等现象通过轨迹去重的方式进行去重，可还原真实人口数量。

进一步地，通过手机通信数据反映居民出行轨迹，对不同活动特性人群加以区分，以一千米范围内居住人数、离开居住地一千米以外途经扇区次数、离开居住地一千米以外的驻留时长、离开居住地不足一千米的驻留时长等作为图2的生成指标，分别反映社区居民密度，活动强度，出行强度等，间接反映居民多样化需求和社区服务功能定位，其中，图2表示海淀区各社区人口的分布密度，颜色越深表示密度越大。

值得一提的是，通过所述设施分布密度以及所述社区居民密度，可以得出现有服务设施的分布和人口集中度基本保持一致，但其在数量和密度上还并不能够与居民的数量和密度完全匹配。

根据本发明实施例，所述基于预设模型对所述社区服务圈进行分类，并对所述社区服务圈进行评级，具体包括：

需要说明的是，分别利用所述决策树模型、所述KNN模型以及所述随机森林模型对所述社区服务圈进行测试检验，以获取对应的所述检验准确率，其中，将每个所述社区服务圈内的数据进行拆分，“90%”作为训练集，“10%”作为测试集，于本实施例中，以所述KNN模型为例，在KNN 算法中，K值会对算法的结果产生重大影响，K值较小意味着只有输入与实例较近的训练实例才会对预测结果起作用，容易发生过拟合；K值较大，优点是可以减少学习的估计误差，缺点是学习的近似误差增大；建模前首先对原始数据进行标准化处理消除量纲的影响，在本例中不同K 值对应的精确度见图4，横轴表示的是K的个数，纵轴表示的是精确度，从图中可以看出，在k取值为“3”时，训练集精确度和测试集精确度都处于一个相对较高的水平，据此选择参数“K=3”。

进一步地，于发明一实施例中，三种模型对应的所述检验准确率依次为“58%”、“60%”以及“53%”，故可以选取所述KNN模型对所述社区服务圈进行实际评级，其中，所述评级标准包括服务圈建成时间以及服务圈兴趣点数量级等，其中，以服务圈建成时间为例，评级结果如下表1所示。

表1. “一刻钟社区服务圈”评级结果

根据本发明实施例，基于所述设施特征值以及所述用户特征值得到所述目标特征值，基于所述目标特征值，识别各所述社区服务圈中出现次数超过预设阈值的变量，进而提取该变量与所述社区服务圈的相关关系，其中，提取各所述相关关系作为所述分析结果进行输出。

需要说明的是，所述关联规则可以显示出给定数据集中频繁出现的同一变量，即对于各所述社区服务圈中出现次数超过预设阈值的变量，进而可以用于找出数据集中关联或者相关的关系，其中，不同的变量对应的所述预设阈值也是不同的，例如居民年龄对应的所述预设阈值就包括“18岁”以及“60岁”；居民活动强度对应的所述预设阈值就包括“时长阈值”以及“人数阈值”。

进一步地，通过关联分析结果显示在人均设施拥有量处于全区前“25%”水平的服务圈中，服务设施与居民出行强度时长、人口年龄结构、活动强度人次具有较强的相关性；各类设施人均拥有量均处于全区前“25%”水平的服务圈中，同时满足出行强度时长介于“272.5 min - 285min”之间的服务圈，占海淀区全部服务圈的“9%”左右；在出行强度时长介于“272.5 min - 285min”之间的服务圈中，各类设施人均拥有量处于全区“25%”水平的服务圈约占“21%”；各类设施人均拥有量均处于全区前“25%”水平的服务圈中，同时满足活动强度时长在“5”个小时以上（大于“315.5 min”）的服务圈，占海淀区全部服务圈的“18%”左右。

值得一提的是，所述方法还包括对所述分析结果进行可视化。

需要说明的是，以海淀区为例，以青少年比和老年比两个变量对全区所有的服务圈聚类，海淀区社区服务圈的人口结构呈现出一定的差异性，部分社区人口偏向于年轻化，而部分社区老年比重则相对较大，考虑到不同服务圈的人口结构并不相同，依据每个社区的不同需求匹配服务设施，针对“特色服务圈”提升优化服务，将有助于切实提高各个社区的居民幸福感，如图5所示，选取支持度和置信度相对较高、提升度颜色较浅的点，其中，点的颜色深浅表示提升度的高低，从图5中可以看出提升度较高的关联规则支持度较低。

值得一提的是，所述方法还包括增添其他所述目标特征值。

需要说明的是，除了本申请提出的所述设施特征值以及所述用户特征值，还可以将服务圈人均设施占地面积、人均使用设施频次、使用设施时长、受众群体满意度等变量来增加评估维度，提高研究的精准度和准确性。

如图6所示，本发明公开了一种基于大数据的社区服务分析系统，包括存储器和处理器，所述存储器中包括基于大数据的社区服务分析方法程序，所述基于大数据的社区服务分析方法程序被所述处理器执行时实现如下步骤：

对各社区服务圈进行大数据分析识别以提取目标特征值；

表1. “一刻钟社区服务圈”评级结果

值得一提的是，所述方法还包括增添其他所述目标特征值。

本发明第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中包括一种基于大数据的社区服务分析方法程序，所述基于大数据的社区服务分析方法程序被处理器执行时，实现如上述任一项所述的一种基于大数据的社区服务分析方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种基于大数据的社区服务分析方法，其特征在于，包括以下步骤：

对各社区服务圈进行大数据分析识别以提取目标特征值；

待所述社区服务圈评级结束后，识别各所述社区服务圈的所述目标特征值，结合预设的关联规则输出对应的分析结果；

所述对各社区服务圈进行大数据分析识别以提取目标特征值，具体包括：

基于各社区中居民人群的特征进行划分，以得到用户特征值；

所述基于空间聚类的各所述社区服务圈的基础设施识别，以得到设施特征值，具体包括：

利用空间聚类模型对各所述社区服务圈内的所述基础设施汇总得到设施分布密度，并将所述设施分布密度作为所述设施特征值；

所述基于各社区中居民人群的特征进行划分，以得到用户特征值，具体包括：

通过手机通信数据对人群动态特征进行画像以得到所述用户特征值；

所述基于预设模型对所述社区服务圈进行分类，并对所述社区服务圈进行评级，具体包括：

提取所述检验准确率降序排列第一位的所述预设模型对所述社区服务圈进行实际评级，其中，评级标准包括服务圈建成时间以及服务圈兴趣点数量级；

基于所述设施特征值以及所述用户特征值得到所述目标特征值，基于所述目标特征值，识别各所述社区服务圈中出现次数超过预设阈值的变量，进而提取该变量与所述社区服务圈的相关关系，其中，提取各所述相关关系作为所述分析结果进行输出；还包括对所述分析结果进行可视化；

还包括增添其他所述目标特征值。

2.一种基于大数据的社区服务分析系统，其特征在于，包括存储器和处理器，所述存储器中包括基于大数据的社区服务分析方法程序，所述基于大数据的社区服务分析方法程序被所述处理器执行时实现如下步骤：

对各社区服务圈进行大数据分析识别以提取目标特征值；

还包括增添其他所述目标特征值。

3.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括一种基于大数据的社区服务分析方法程序，所述基于大数据的社区服务分析方法程序被处理器执行时，实现如权利要求1所述的一种基于大数据的社区服务分析方法的步骤。