CN113393149A

CN113393149A - 城市民宿选址优化方法、系统、计算机设备及存储介质

Info

Publication number: CN113393149A
Application number: CN202110724547.6A
Authority: CN
Inventors: 林宇栋; 魏宗财; 张懿媛; 潘镛圳; 马宇乔; 潘逸炀
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-09-14
Anticipated expiration: 2041-06-29
Also published as: CN113393149B

Abstract

本发明公开了一种城市民宿选址优化方法、系统、计算机设备及存储介质，方法包括：获取第一样本数据集；进行数据清洗和预处理，得到第二样本数据集；对第二样本数据集进行统计和进一步处理，计算出每个网格内的民宿数量以及民宿相关数据，使民宿相关数据形成城市民宿相关指标；对民宿数量进行密度分级，使分级后的数据以及民宿相关数据构成第三样本数据集；构建随机森林模型，使用交叉验证训练随机森林模型并且参数调优，得到城市民宿测度模型；利用城市民宿测度模型，对待测区域每个网格内的民宿密度进行预测分析。本发明结合随机森林模型和城市民宿测度模型，能够根据城市民宿相关指标识别待测区域的民宿密度，并判断待测区域是否适合开设民宿。

Description

城市民宿选址优化方法、系统、计算机设备及存储介质

技术领域

本发明涉及一种城市民宿选址优化方法、系统、计算机设备及存储介质，属于大数据应用于城市民宿选址技术领域。

背景技术

目前，随着人们物质生活条件的丰富，对精神文化和个性化的需求逐渐增加，住宿需求也呈现多样化态势。在旅游业态中，相较于酒店宾馆“流水线”般的标准化布局，装修风格多样化的民宿越来越多地成为很多人出游的优先选择项，可以更好地体验到当地的人文特色和自然风光。在建成环境复杂的城市中，民宿选址则是民宿成败的关键，业内素来也有“民宿选址定生死”的说法。

当前的民宿选址从房东的角度来看，更多是通过个人主观经验的多因素考虑与房租价格等客观经济因素的影响，对于各因素的影响权重和多因素相互的关系并不能通过主观的选择去判断，这可能导致了选址的失败。现有的研究一般是通过ArcGIS工具，利用最邻近指数、核密度分析、缓冲区分析等空间分析方法探讨了民宿的空间分布格局从而研究其影响因素，且大部分是讲城市民宿与乡村民宿一起研究，忽略了城市民宿和乡村民宿二者面向的消费者对民宿在空间上想不同需求。

发明内容

有鉴于此，本发明提供了一种城市民宿选址优化方法、系统、计算机设备及存储介质，其运用具有多维特征的数据集，能够有效预测待测区域的城市民宿密度级别，从而判断待测区域是否适合开设民宿，通过城市民宿测度模型的测度，能够辅助民宿经营者更加科学客观地对民宿选址进行初步范围的选择，也为文化广电旅游局的民宿旅游专项规划中重点发展片区的划定提供决策咨询。

本发明的第一个目的在于提供一种城市民宿选址优化方法。

本发明的第二个目的在于提供一种城市民宿选址优化系统。

本发明的第三个目的在于提供一种计算机设备。

本发明的第四个目的在于提供一种存储介质。

本发明的第一个目的可以通过采取如下技术方案达到：

一种城市民宿选址优化方法，所述方法包括：

获取目标城市的手机信令数据、兴趣点数据、网络开源数据、城市水域数据和城市道路数据，构成第一样本数据集；

对第一样本数据集进行数据清洗和预处理，得到第二样本数据集；

将目标城市中目标区域的地图划分为多个网格，对第二样本数据集中的数据进行统计和进一步处理，计算出每个网格内的民宿数量以及民宿相关数据，使民宿相关数据形成城市民宿相关指标；

对民宿数量进行密度分级，使分级后的数据以及民宿相关数据构成第三样本数据集；

根据第三样本数据集，构建随机森林模型，使用交叉验证训练随机森林模型并且参数调优，得到城市民宿测度模型；

利用城市民宿测度模型，对待测区域每个网格内的民宿密度进行预测分析。

进一步的，所述对第一样本数据集进行数据清洗和预处理，具体包括：

基于第一样本数据集建立回归方程模型，对于包含空值的对象，将已知值代入回归方程模型估计未知值，从而将估计结果插入到缺失值位置；

针对第一样本数据集中每个特征的数据值进行折线图表绘制，判断每个特征中是否存在远偏离正常区间的异常值，对异常值进行删除；

对第一样本数据集中的相同数据进行去重操作。

进一步的，所述将目标城市中目标区域的地图划分为多个网格，对第二样本数据集中的数据进行统计和进一步处理，计算出每个网格内的民宿数量以及民宿相关数据，使民宿相关数据形成城市民宿相关指标，具体包括：

将目标城市中目标区域的地图进行网格划分，划分为多个N×N的网格并标注网格序号；

对第二样本数据集中的手机信令数据、兴趣点数据、网络开源数据、城市水域数据和城市道路数据进行统计和进一步处理，计算出每个网格内的民宿数量以及民宿相关数据，使民宿相关数据形成城市民宿相关指标；

其中，所述民宿相关数据包括道路密度、公共交通设施站点数量、景点覆盖数量、水景覆盖数量、美食点数量、人口密度、娱乐人口密度、生活配套设施覆盖数量、商业广场覆盖数量、酒店公寓数量、酒店平均价格和房屋平均租金。

进一步的，所述对第二样本数据集中的手机信令数据、兴趣点数据、网络开源数据、城市水域数据和城市道路数据进行统计和进一步处理，计算出每个网格内的民宿数量以及民宿相关数据，使民宿相关数据形成城市民宿相关指标，具体包括：

根据网络开源数据中目标城市各地区的民宿数据，得到目标区域的民宿坐标、价格和相关信息，并连接到各个网格中，得到每个网格内的民宿数量；

根据城市道路数据，计算每个网格内的道路长度数据，并除以该网格面积，得到该网格内的道路密度，作为道路密度指标；

根据兴趣点数据中的公共交通设施站点位置数据，统计每个网格内的公共交通设施站点数量，作为公共交通设施指标；

根据兴趣点数据中的景点位置数据，构建第一预设缓冲区，计算每个网格被第一预设缓冲区所覆盖的景点数量，得到风景名胜指标；

根据城市水域数据，构建第二预设缓冲区，计算每个网格被第二预设缓冲区所覆盖的水域面积，并除以该网格面积，得到水域景观指标；

根据网络开源数据中的美食数据，统计每个网格内的美食点数量，作为美食指标；

根据手机信令数据，统计每个网格内的人口密度，作为人口密度指标；

根据手机信令数据，统计每个网格内的娱乐人口密度，作为街区活力指标；

根据兴趣点数据中的生活配套设施位置数据，统计每个网格内的生活配套设施数量，作为生活配套指标；

根据兴趣点数据中的商业广场位置数据，构建第三预设缓冲区，计算每个网格被第三预设缓冲区所覆盖的商业广场数量，得到商业广场指标；

根据兴趣点数据中的商业居住位置数据，统计每个网格内的酒店公寓数量，作为商业居住指标；

根据网络开源数据中的酒店数据，将每个网格内的酒店消费数据求取平均值，得到该网格的酒店平均价格，作为酒店价格指标；

根据网络开源数据中的租房数据，将每个网格内的租房消费数据求取平均值，得到该网格的房屋平均租金，作为房屋租金指标；

针对网络开源数据中目标区域的遥感影像数据，裁剪掉大面积非建筑用地栅格，得到最终的目标区域。

进一步的，所述对民宿数量进行密度分级，具体包括：

将民宿数量特征从低到高分为一级、二级、三级和四级，从而将连续型数据转换成离散型数据；

进行自然断裂点划分分级，通过迭代比较每个分组和分组中元素的均值与观测值之间的平方差之和，以确定值在分组中的最佳排列，完成民宿数量的密度分级。

进一步的，所述进行自然断裂点划分分级，通过迭代比较每个分组和分组中元素的均值与观测值之间的平方差之和，以确定值在分组中的最佳排列，具体包括：

将民宿数量数据转换成数组D，且D＝[x₁,x₂,...,x_n]；

计算数组D平均值的偏差平方和SDAM，如下式：

其中，x_i∈D，

为数组D的均值，n为数组D的长度；

迭代每个范围组合，计算类别均值的平方偏差平方和SDCM_ALL，并找到最小值，假设当前的范围组合为数组d₁、数组d₂和数组d₃，如下式：

其中，a_i∈d₁，b_i∈d₂，c_i∈d₃，

和c_i分别为数组d₁、数组d₂和数组d₃的均值，n₁、n₂和n₃分别为数组d₁、数组d₂和数组d₃的长度；

将最小的SDCM_ALL标注为SDCM_ALL_MIN，使此时的范围组合标注为数组d_{1_min}、数组d_{2_min}和数组d_{3_min}，以确定值在分组中的最佳排列。

进一步的，所述根据第三样本数据集，构建随机森林模型，使用交叉验证训练随机森林模型并且参数调优，得到城市民宿测度模型，具体包括：

将第三样本数据集划分为特征属性数据集和标签属性数据集；其中，道路密度、公共交通设施站点数量、景点覆盖数量、水景覆盖数量、美食点数量、人口密度、娱乐人口密度、生活配套设施覆盖数量、商业广场覆盖数量、酒店公寓数量、酒店平均价格和房屋平均租金为特征属性，用字母X表示，且X＝{X₁,X₂,X₃,...,X₁₂}，民宿密度为标签属性，用字母Y表示；

调用随机森林分类器，构建初步的随机森林分类预测模型；

将标签属性数据集Y和特征属性数据集X代入到初步的随机森林分类预测模型中，调用交叉验证评分进行交叉验证；

分别对初步的随机森林分类预测模型中n_estimators、max_depth、max_features、min_samples_leaf、min_samples_split、criterion参数进行迭代调优，寻找交叉验证评分中最高得分所对应的最佳参数值，形成最佳参数组合，得到最终的随机森林分类预测模型，作为城市民宿测度模型；

其中，n_estimators表示随机森林中决策树的数目，max_depth表示树的最大深度，max_features表示最佳分割时需要考虑的特征数目，min_samples_leaf表示在叶子结点上的最小样本数量，min_samples_split表示分割内部节点所需要的最小样本数量，criterion表示决策树分裂使用信息增益的参数。

本发明的第二个目的可以通过采取如下技术方案达到：

一种城市民宿选址优化系统，所述系统包括：

获取模块，用于获取目标城市的手机信令数据、兴趣点数据、网络开源数据、城市水域数据和城市道路数据，构成第一样本数据集；

预处理模块，用于对第一样本数据集进行数据清洗和预处理，得到第二样本数据集；

计算模块，用于将目标城市中目标区域的地图划分为多个网格，对第二样本数据集中的数据进行统计和进一步处理，计算出每个网格内的民宿数量以及民宿相关数据，使民宿相关数据形成城市民宿相关指标；

分级模块，用于对民宿数量进行密度分级，使分级后的数据以及民宿相关数据构成第三样本数据集；

训练模块，用于根据第三样本数据集，构建随机森林模型，使用交叉验证训练随机森林模型并且参数调优，得到城市民宿测度模型；

预测模块，用于利用城市民宿测度模型，对待测区域每个网格内的民宿密度进行预测分析。

本发明的第三个目的可以通过采取如下技术方案达到：

一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的城市民宿选址优化方法。

本发明的第四个目的可以通过采取如下技术方案达到：

一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的城市民宿选址优化方法。

本发明相对于现有技术具有如下的有益效果：

本发明结合随机森林模型和城市民宿测度模型，能够根据城市民宿相关指标识别城市民宿密度级别，能够识别出城市不同地块的城市民宿选址潜力，并判断该地块是否适合开设民宿，通过城市民宿测度模型的测度，能够辅助民宿经营者更加科学客观地对民宿选址进行初步范围的选择，也为城市文化广电旅游局的民宿旅游专项规划中重点发展片区的划定提供决策咨询。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例1的城市民宿选址优化方法的简易流程图。

图2为本发明实施例1的城市民宿选址优化方法的详细流程图。

图3为本发明实施例1的广州城市民宿测度图。

图4为本发明实施例1的广州城市民宿真实分布图。

图5为本发明实施例1的城市民宿测度模型中各个特征的重要程度图。

图6为本发明实施例2的城市民宿选址优化系统的结构框图。

图7为本发明实施例3的计算机设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

如图1和图2所示，本实施例针对的目标城市为广州市，提供了一种城市民宿选址优化方法，该方法包括以下步骤：

S201、获取目标城市的手机信令数据、兴趣点数据、网络开源数据、城市水域数据和城市道路数据，构成第一样本数据集。

1)获取手机信令数据：向联通智慧足迹申请相关手机信令数据。

2)获取兴趣点数据：获取高德地图兴趣点数据，包括：景点、商业中心、商业居住、生活配套设施、公共交通设施站点的兴趣点数据。

3)获取网络开源数据：获取从途家网站公示的广州市各地区(天河区、海珠区、番禺区、黄浦区、越秀区、荔湾区)的民宿数据；获取大众点评网站的美食数据；获取安居客网站的租房数据；获取携程网站的酒店数据；从地理国情监测云下载广州市目标区域(研究范围所在区域)的landsat8遥感影像数据；从国家地理信息公共服务平台获取基础行政地图。

4)获取城市水域数据和城市道路数据：从OSM开源wiki地图获取水域面要素数据和道路线要素数据。

S202、对第一样本数据集进行数据清洗和预处理，得到第二样本数据集。

其中，对第一样本数据集进行数据清洗和预处理，具体包括：

S2021、对第一样本数据集的缺失值进行多重插补法：基于第一样本数据集建立回归方程模型，对于包含空值的对象，将已知值代入回归方程模型估计未知值，从而将估计结果插入到缺失值位置。

S2022、针对第一样本数据集中每个特征的数据值进行折线图表绘制，通过观察判断每个特征中是否存在远偏离正常区间的异常值，对异常值进行删除。

S2023、第一样本数据集中除了手机信令数据，都是从网络上进行爬虫获取的，爬取得到的第一样本数据集中包含多条重复数据，这些数据的存在会导致最终模型的过拟合，因此需要对第一样本数据集中的相同数据进行去重操作，确保数据集中无重复数据，减小模型误差。

进一步地，该步骤S2023具体包括：

S20231、在浏览器中打开目标网页，进入开发者模式，使用“页面内的元素选择器”，先看一下内页中的结构，找到所需要的数据所在“标签”，根据找到的标签，运用Python中字符串的内置函数，来编写得到相应数据的函数。

S20232、使用Python中的request库发送GET请求获取网页的源代码。

S20233、调用Python中的Beautiful Soup库结合所述步骤S20231的函数，来解析所述步骤S20232获取的网页源代码，从网页中提取目标数据。

S20234、最终将目标数据保存成兼容性较好的txt文件。

为了方便后续的数据处理，本实施例的对第一样本数据集进行数据清洗和预处理还可包括：

S2024、对手机信令数据中人口数为“<5”的网格进行随机赋值处理，取0-5中的随机值。

S2025、将基础行政地图按照手机信令数据的中心点划分500m×500m的网格，并对每个网格进行编号。

S2026、将2000*2000m精度的手机信令数据赋值入已编号的网格，并除以16，即将原手机信令数据2000*2000m网格等分为16个500m×500m网格。

S2027、对第一样本数据集中所有数据的坐标统一转换为WGS1984地理坐标系。

S203、将目标城市中目标区域的地图划分为多个网格，对第二样本数据集中的数据进行统计和进一步处理，计算出每个网格内的民宿数量以及民宿相关数据，使民宿相关数据形成城市民宿相关指标。

进一步地，该步骤S203具体包括：

S2031、将目标城市中目标区域的地图进行网格划分，划分为多个N×N的网格并标注网格序号。

本实施例中，通过ArcGIS的渔网工具，将广州市各地区的行政边界矢量数据变成网格，使广州市目标区域的地图划分为多个500m×500m的网格并标注网格序号，每个网格为一个地块。

S2032、对第二样本数据集中的手机信令数据、兴趣点数据、网络开源数据、城市水域数据和城市道路数据进行统计和进一步处理，计算出每个网格内的民宿数量以及民宿相关数据，使民宿相关数据形成城市民宿相关指标。

其中，民宿相关数据包括道路密度、公共交通设施站点数量、景点覆盖数量、水景覆盖数量、美食点数量、人口密度、娱乐人口密度、生活配套设施覆盖数量、商业广场覆盖数量、酒店公寓数量、酒店平均价格和房屋平均租金，所形成的城市民宿相关指标分别为道路密度指标、公共交通设施指标、风景名胜指标、美食指标、人口密度指标、街区活力指标、生活配套指标、商业广场指标、商业居住指标、酒店价格指标和房屋租金指标；该步骤S2032具体包括：

S203201、根据网络开源数据中目标城市各地区的民宿数据，得到目标区域的民宿坐标、价格和相关信息，并连接到各个网格中，得到每个网格内的民宿数量。

本实施例中，根据网络开源数据中广州市天河区、海珠区、番禺区、黄浦区、越秀区、荔湾区的民宿数据，得到目标区域的民宿坐标、价格和相关信息，再利用ArcGIS的空间连接工具，将目标区域的民宿坐标、价格和相关信息连接到各个网格中，得到每个网格的民宿数量来反映该网格内的民宿聚集度(民宿密度)，记为民宿数量特征。

S203202、根据城市道路数据，计算每个网格内的道路长度数据，并除以该网格面积，得到该网格内的道路密度，作为道路密度指标。

本实施例中，根据道路线要素数据，利用ArcGIS计算每个网格内的道路长度数据，并除以该网格面积，得到该网格内的道路密度，作为道路密度指标。

S203203、根据兴趣点数据中的公共交通设施站点位置数据，统计每个网格内的公共交通设施站点数量，作为公共交通设施指标。

本实施例中，将兴趣点数据中的公共交通设施站点(公交、地铁站点)位置数据在ArcGIS中显示XY坐标，统计每个网格内的公共交通设施站点数量，作为公共交通设施指标。

S203204、根据兴趣点数据中的景点位置数据，构建第一预设缓冲区，计算每个网格被第一预设缓冲区所覆盖的景点数量，得到风景名胜指标。

本实施例中，将兴趣点数据中的景点位置数据在ArcGIS中显示XY坐标，构建1000m缓冲区，计算每个网格被1000m缓冲区所覆盖的景点数量，得到风景名胜指标。

S203205、根据城市水域数据，构建第二预设缓冲区，计算每个网格被第二预设缓冲区所覆盖的水域面积，并除以该网格面积，得到水域景观指标。

本实施例中，将城市水域数据在ArcGIS中显示，构建500m缓冲区，计算每个网格被500m缓冲区所覆盖的水域面积，并除以该网格面积，得到水域景观指标。

S203206、根据网络开源数据中的美食数据，统计每个网格内的美食点数量，作为美食指标。

S203207、根据手机信令数据，统计每个网格内的人口密度，作为人口密度指标。

S203208、根据手机信令数据，统计每个网格内的娱乐人口密度，作为街区活力指标。

S203209、根据兴趣点数据中的生活配套设施位置数据，统计每个网格内的生活配套设施数量，作为生活配套指标。

本实施例中，将兴趣点数据中的生活配套设施位置数据在ArcGIS中显示XY坐标，统计每个网格内的生活配套设施数量，作为生活配套指标。

S203210、根据兴趣点数据中的商业广场位置数据，构建第三预设缓冲区，计算每个网格被第三预设缓冲区所覆盖的商业广场数量，得到商业广场指标。

本实施例中，将兴趣点数据中的商业广场位置数据在ArcGIS中显示XY坐标，构建1000m缓冲区，计算每个网格被1000m缓冲区所覆盖的商业广场数量，得到商业广场指标。

S203211、根据兴趣点数据中的商业居住位置数据，统计每个网格内的酒店公寓数量，作为商业居住指标。

S203212、根据网络开源数据中的酒店数据，将每个网格内的酒店消费数据求取平均值，得到该网格的酒店平均价格，作为酒店价格指标。

本实施例中，将网络开源数据中的酒店数据在ArcGIS中显示XY坐标，将落在同一个网格内的酒店消费数据求取平均值，得到该网格的酒店平均价格，记为

其中i为所在的网格序号，作为酒店价格指标。

S203213、根据网络开源数据中的租房数据，将每个网格内的租房消费数据求取平均值，得到该网格的房屋平均租金，作为房屋租金指标。

本实施例中，将网络开源数据中的租房数据在ArcGIS中显示XY坐标，将落在同一个网格内的租房消费数据求取平均值，得到该网格的房屋平均租金，记为

其中i为所在的网格序号，作为房屋租金指标。

S203214、针对网络开源数据中目标区域的遥感影像数据，裁剪掉水田、有林地等大面积非建筑用地栅格，得到最终的目标区域。

城市民宿相关指标的体系表如下表1所示。

表1 城市民宿相关指标的体系表

S204、对民宿数量进行密度分级，使分级后的数据以及民宿相关数据构成第三样本数据集。

其中，对民宿数量进行密度分级，具体包括：

S2041、将民宿数量特征从低到高分为一级、二级、三级和四级，从而将连续型数据转换成离散型数据。

本实施例中，可以对民宿数量特征的数据集进行观察，根据数据集的特点确定将民宿数量特征从低到高分为一级、二级、三级和四级，共四级，从而将连续型数据转换成离散型数据。

S2042、进行自然断裂点划分分级，通过迭代比较每个分组和分组中元素的均值与观测值之间的平方差之和，以确定值在分组中的最佳排列，完成民宿数量的密度分级，计算出来的最佳分类，可确定值在有序分布中的中断点，以最大程度地减少组内平方差之和。

其中，进行自然断裂点划分分级，通过迭代比较每个分组和分组中元素的均值与观测值之间的平方差之和，以确定值在分组中的最佳排列，具体包括：

S20421、将民宿数量数据转换成数组D，且D＝[x₁,x₂,...,x_n]。

S20422、计算数组D平均值的偏差平方和SDAM，如下式：

其中，x_i∈D，

为数组D的均值，n为数组D的长度；

S20423、迭代每个范围组合，计算类别均值的平方偏差平方和SDCM_ALL，并找到最小值，假设当前的范围组合为数组d₁、数组d₂和数组d₃，如下式：

其中，a_i∈d₁，b_i∈d₂，c_i∈d₃，

和c_i分别为数组d₁、数组d₂和数组d₃的均值，n₁、n₂和n₃分别为数组d₁、数组d₂和数组d₃的长度。

S20424、将最小的SDCM_ALL标注为SDCM_ALL_MIN，使此时的范围组合标注为数组d_{1_min}、数组d_{2_min}和数组d_{3_min}，以确定值在分组中的最佳排列。

为了验证数组d_{1_min}、数组d_{2_min}和数组d_{3_min}为最好的划分方式，进一步计算方差拟合优度GVF，如下式：

GVF＝(SDAM-SDCM)/SDAM

可以看到数组d_{1_min}、数组d_{2_min}和数组d_{3_min}的GVF最高，即拟合优度最佳；因此，确认此时自然断裂点法的分组结果为d_{1_min}、d_{2_min}和d_{3_min}。

S205、根据第三样本数据集，构建随机森林模型，使用交叉验证训练随机森林模型并且参数调优，得到城市民宿测度模型。

进一步地，该步骤S205具体包括：

S2051、将第三样本数据集划分为特征属性数据集和标签属性数据集。

本实施例将第三样本数据集的70％作为训练集，30％作为测试集，其中训练集划分为特征属性数据集和标签属性数据集，道路密度、公共交通设施站点数量、景点覆盖数量、水景覆盖数量、美食点数量、人口密度、娱乐人口密度、生活配套设施覆盖数量、商业广场覆盖数量、酒店公寓数量、酒店平均价格和房屋平均租金为特征属性，用字母X表示，且X＝[X₁,X₂,X₃,...,X₁₂}，民宿密度为标签属性，用字母Y表示。

S2052、调用随机森林分类器，构建初步的随机森林分类预测模型。

本实施例中，使用Python中的sklearn库，调用RandomForestClassifier(随机森林分类器)方法，来构建初步的随机森林分类预测模型，如下：

RandomForestClassifier(n_estimators，random_state,max_depth,

max_features,min_samples_leaf,min_samples_split,criterion)

其中，n_estimators代表随机森林中决策树的数目，random_state代表伪随机数种子，max_depth代表树的最大深度，max_features代表最佳分割时需要考虑的特征数目，min_samples_leaf代表在叶子结点上的最小样本数量，min_samples_split代表分割内部节点所需要的最小样本数量，criterion代表决策树分裂使用信息增益的参数。

S2053、将标签属性数据集Y和特征属性数据集X代入到初步的随机森林分类预测模型中，调用交叉验证评分进行交叉验证。

本实施例中，将标签属性数据集Y和特征属性数据集X代入到初步的随机森林分类预测模型中，调用cross_val_score(交叉验证评分)方法进行交叉验证。此时，随机森林分类器的参数均为默认参数，记录下此时cross_val_score得到分类器准确度得分为Score＝0.931753，作为后续参数调优的参照指标值。

S2054、分别对初步的随机森林分类预测模型中n_estimators、max_depth、max_features、min_samples_leaf、min_samples_split、criterion参数进行迭代调优，寻找交叉验证评分中最高得分所对应的最佳参数值，形成最佳参数组合，达到分类预测的准确率最大化，得到最终的随机森林分类预测模型，作为城市民宿测度模型。

其中，分别对初步的随机森林分类预测模型中n_estimators、max_depth、max_features、min_samples_leaf、min_samples_split、criterion参数进行迭代调优，寻找交叉验证评分中最高得分所对应的最佳参数值，形成最佳参数组合，具体包括：

S20541、确定迭代次数n_estimators；将learning_rate设置为0.1，其他参数设置为默认参数，n_estimators参数迭代空间设置为{0,10,20,30,...,600}，使用栅格搜索法(Grid Search)来确定最佳的迭代次数n_estimators；最终发现，n_estimators＝451时的cross_val_score得分最高，为Score1＝0.933035。

S20542、确定max_depth；将max_depth的搜索空间设置为{1,2,3,4,...,20}，使用栅格搜索法(Grid Search)来确定最佳的max_depth值；最终发现，max_depth＝4时的cross_val_score得分最高，为Score2＝0.933036。

S20543、确定max_features；将max_features的搜索空间设置为{5,6,7,8,...,30}，使用栅格搜索法(Grid Search)来确定最佳的max_features值；最终发现，max_features＝8时的cross_val_score得分最高，为Score3＝0.934316。

S20544、确定min_samples_leaf；将min_samples_leaf的搜索空间设置为{1,2,3,4,...,10}，使用栅格搜索法(Grid Search)来确定最佳的min_samples_leaf值；最终发现，min_samples_leaf＝7时的cross_val_score得分最高，为Score4＝0.934316。

S20545、确定min_samples_split；将min_samples_split的搜索空间设置为{2,3,4,5,...,21}，使用栅格搜索法(Grid Search)来确定最佳的min_samples_split值；最终发现，min_samples_split＝2时的cross_val_score得分最高，为Scor5＝0.934638。

S20546、确定criterion；将criterion的搜索空间设置为{'gini','entropy'}，使用栅格搜索法(Grid Search)来确定最佳的criterion值；最终发现，criterion＝"gini"时的cross_val_score得分最高，为Score6＝0.934638。

S20547、将上述得到的最佳参数值进行汇总形成最佳参数组合，代入特征数据集X和标签数据集Y，得到参数调优后的新得分为Score_new＝0.934638。

S206、利用城市民宿测度模型，对待测区域每个网格内的民宿密度进行预测分析。

本实施例将测试集作为待测区域每个网格内的待测数据，该步骤S2061具体包括：

S2061、将测试集代入城市民宿测度模型进行预测，得到预测数据集，如图3所示，真实数据集如图4所示。

S2062、调用sklearn库中的accuracy_score(分类准确率)方法，输入预测数据集和真实数据集来计算城市民宿测度模型的准确率，证实随机森林分类器的有效性。

城市民宿测度模型的分类准确率为0.934638，证实了随机森林模型预测城市民宿选址的有效性。

S2063、调用RandomForestClassifier(随机森林分类器)中的feature_importances_方法，来计算在交叉验证过程中每个特征属性对城市民宿测度模型的特征重要程度。

每个特征属性对城市民宿测度模型的特征重要程度，如图5和下表2所示；可以看到，酒店平均价格、人口密度、景点数量三者的特征重要程度最高，分别为0.4125、0.1338、0.109；地铁站点数量的特征重要程度最低，趋近于0。

表2 特征重要程度表

特征属性	特征重要程度
		酒店平均价格	0.41249149
人口密度	0.13376477
		景点数量	0.10897114
商业广场数量	0.0940969
		房屋平均租金	0.06401152
道路密度	0.05443629
		生活配套设施数量	0.03134645
美食点数量	0.02900202
		水域面积	0.02150669
娱乐人口密度	0.01903662
		酒店公寓数量	0.01643345
公交站点数量	0.01034334
		地铁站点数量	0.00455931

总的来说，本实施例通过多源数据的使用，提供了在复杂的城市环境中对民宿选址的依据。根据现有的民宿空间分布特征来看，城市民宿的影响主要因素为酒店价钱、人口密度、景点覆盖数，这也说明城市民宿与酒店的竞争关系对民宿的选址影响最大。在人口密度大的地方，城市民宿的数量也就会越多，说明城市民宿对于人气的需求同样不小。而住民宿的消费者大多是前往城市旅游的，风景名胜附件有着民宿有更高的聚集度(密度)也是处理之中，而在公共交通体系成熟的广州城区，公共交通设施站点的影响因素反而并不明显。

本实施例的城市民宿选址优化方法具体可以应用于房东选址和政府推动，如下：

房东选址：该方法在现有民宿的分布特征的基础上，可以预测出城市民宿的潜力地块和劣势地块，给了房东在民宿选址前有参考的依据。

政府推动：随着个性化旅游的推广，城市民宿的消费群体增长，城市文化广电旅游局也开始重视民宿的规划，该方法有助于旅游局在制定城市民宿的重点发展片区时不单纯只考虑文化和景点的因素，对于城市民宿的客观环境有一定的把握。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，相应的程序可以存储于计算机可读取存储介质中。

应当注意，尽管在附图中以特定顺序描述了上述实施例的方法操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

实施例2：

如图6所示，本实施例提供了一种城市民宿选址优化系统，该系统包括获取模块601、预处理模块602、计算模块603、分级模块604、训练模块605和预测模块606，各个模块的具体功能如下：

获取模块601，用于获取目标城市的手机信令数据、兴趣点数据、网络开源数据、城市水域数据和城市道路数据，构成第一样本数据集。

预处理模块602，用于对第一样本数据集进行数据清洗和预处理，得到第二样本数据集。

计算模块603，用于将目标城市中目标区域的地图划分为多个网格，对第二样本数据集中的数据进行统计和进一步处理，计算出每个网格内的民宿数量以及民宿相关数据，使民宿相关数据形成城市民宿相关指标。

分级模块604，用于对民宿数量进行密度分级，使分级后的数据以及民宿相关数据构成第三样本数据集。

训练模块605，用于根据第三样本数据集，构建随机森林模型，使用交叉验证训练随机森林模型并且参数调优，得到城市民宿测度模型。

预测模块606，用于利用城市民宿测度模型，对待测区域每个网格内的民宿密度进行预测分析。

本实施例中各个模块的具体实现可以参见上述实施例1，在此不再一一赘述；需要说明的是，本实施例提供的系统仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配给不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例3：

如图7所示，本实施例提供了一种计算机设备，该计算机设备可以是服务器、计算机等，包括通过系统总线701连接的处理器702、存储器、输入装置703、显示装置704和网络接口705。其中，处理器702用于提供计算和控制能力，存储器包括非易失性存储介质706和内存储器707，该非易失性存储介质706存储有操作系统、计算机程序和数据库，该内存储器1007为非易失性存储介质706中的操作系统和计算机程序的运行提供环境，计算机程序被处理器702执行时，实现上述实施例1的重获取视频检测方法，如下：

实施例4：

本实施例提供一种存储介质，该存储介质为计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时，实现上述实施例1的重获取视频检测方法，如下：

需要说明的是，本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

综上所述，本发明结合随机森林模型和城市民宿测度模型，能够识别出城市不同单元地块的城市民宿选址潜力，得到城市民宿选址的主要影响因素和影响权重，能够辅助民宿经营者更加科学客观地对民宿选址进行初步范围的选择，也为文化广电旅游局的民宿旅游专项规划中重点发展片区的划定提供决策咨询。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种城市民宿选址优化方法，其特征在于，所述方法包括：

2.根据权利要求1所述的城市民宿选址优化方法，其特征在于，所述对第一样本数据集进行数据清洗和预处理，具体包括：

对第一样本数据集中的相同数据进行去重操作。

3.根据权利要求1所述的城市民宿选址优化方法，其特征在于，所述将目标城市中目标区域的地图划分为多个网格，对第二样本数据集中的数据进行统计和进一步处理，计算出每个网格内的民宿数量以及民宿相关数据，使民宿相关数据形成城市民宿相关指标，具体包括：

4.根据权利要求3所述的城市民宿选址优化方法，其特征在于，所述对第二样本数据集中的手机信令数据、兴趣点数据、网络开源数据、城市水域数据和城市道路数据进行统计和进一步处理，计算出每个网格内的民宿数量以及民宿相关数据，使民宿相关数据形成城市民宿相关指标，具体包括：

5.根据权利要求1所述的城市民宿选址优化方法，其特征在于，所述对民宿数量进行密度分级，具体包括：

6.根据权利要求5所述的城市民宿选址优化方法，其特征在于，所述进行自然断裂点划分分级，通过迭代比较每个分组和分组中元素的均值与观测值之间的平方差之和，以确定值在分组中的最佳排列，具体包括：

将民宿数量数据转换成数组D，且D＝[x₁，x₂，...，x_n]；

计算数组D平均值的偏差平方和SDAM，如下式：

其中，x_i∈D，

为数组D的均值，n为数组D的长度；

其中，a_i∈d₁，b_i∈d₂，c_i∈d₃，

7.根据权利要求1-6任一项所述的城市民宿选址优化方法，其特征在于，所述根据第三样本数据集，构建随机森林模型，使用交叉验证训练随机森林模型并且参数调优，得到城市民宿测度模型，具体包括：

将第三样本数据集划分为特征属性数据集和标签属性数据集；其中，道路密度、公共交通设施站点数量、景点覆盖数量、水景覆盖数量、美食点数量、人口密度、娱乐人口密度、生活配套设施覆盖数量、商业广场覆盖数量、酒店公寓数量、酒店平均价格和房屋平均租金为特征属性，用字母X表示，且X＝{X₁，X₂，X₃，...，X₁₂}，民宿密度为标签属性，用字母Y表示；

调用随机森林分类器，构建初步的随机森林分类预测模型；

8.一种城市民宿选址优化系统，其特征在于，所述系统包括：

9.一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-7任一项所述的城市民宿选址优化方法。

10.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-7任一项所述的城市民宿选址优化方法。