CN106548367A - 多源数据的选址模型及其应用研究 - Google Patents
多源数据的选址模型及其应用研究 Download PDFInfo
- Publication number
- CN106548367A CN106548367A CN201610890504.4A CN201610890504A CN106548367A CN 106548367 A CN106548367 A CN 106548367A CN 201610890504 A CN201610890504 A CN 201610890504A CN 106548367 A CN106548367 A CN 106548367A
- Authority
- CN
- China
- Prior art keywords
- addressing
- site selection
- selection model
- source data
- data collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0204—Market segmentation
- G06Q30/0205—Location or geographical consideration
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
多源数据的选址模型及其应用研究主要基于三个数据集:公交IC乘客刷卡数据集、电信用户通话数据集、信息点数据集。结合多源数据集,提出了一种基于多源数据集的选址模型建立方法,从多源数据集提取出一些可能对选址产生影响的特征指标,引入支持向量机技术对这些特征指标进行学习得出选址模型,最终确定候选位置是否适合选址。设计并实现了基于支持向量机的选址建模系统,并通过实际案例验证了该方法的可行:本发明详细描述了基于多源数据集建立选址模型这一方法,然后具体开发设计了一个支持向量机选址建模系统,并通过一个实际案例对所提方案进行了测试评估,测试结果说明,使用SVM支持向量机得出的选址模型准确性较高。
Description
技术领域
本发明提出了一种基于多源数据集的选址模型建立方法。结合相关数据集,从中选择出一些可能对选址产生影响的特征指标,使用支持向量机(Support Vector Machine)技术对这些特征指标进行学习,得出选址模型,然后使用该模型确定在候选区域中哪些位置选址可能使商业店铺有较好的发展前景。
背景技术
随着智慧城市和大数据技术的发展,多源数据深刻地改变了商业行为。其中,对商业店铺的选址影响也尤为明显。由于消费者对商家的需求逐渐上升为对购物便利性的需求,为更好的服务大众,商家在改善经营技术外,主要依赖于商业店铺的选址技术。针对商业店铺的选址问题,目前使用较多的方法是基于专家咨询的层次分析法,这种方法通过把总是和决策相关联的元素划分为不同的层次,凭借专家的个人经验和专业知识对不同的元素进行重要性打分,最终得出相关决策。由于该方法需要利用专家打分对各个指标因子进行评价,专家的个人主观因素较强。因此,如何设计一种无需引入人为因素的方法显得尤为重要。
目前大多数对选址问题的研究集中于专家咨询选址法,即通过相关领域专家根据其经验对选址相关因素的重要性做出评价,结合层次分析法,最终得到各个候选地点的选址适合程度的综合得分。这种方法虽然可行,但是方法中掺杂的专家的个人主观因素较强。因此,如何找到一种不引入人为因素且更为准确的方法具有很高的研究价值。
本发明从数据挖掘的角度提出了一种基于多源数据集的选址模型建立方法,结合相关数据集,首先从数据集中提取出一系列可能对选址产生影响的特征指标,然后使用支持向量机技术对这些特征指标进行学习,通过支持向量学习得到相应的选址模型,然后根据得出的选址模型来确定备选地点是否适合选址。该方法为选址问题的研究提出了新的方法和思路。
本发明通过对商业店铺选址问题的国内外研究现状进行调研,了解了零售企业选址的理论基础以及常用的商业店铺选址的模型和方法,并基于调研确立了基于多源数据的选址问题研究方向。
本发明通过对机器学习领域的相关方法和算法进行研究,掌握了机器学习中对数据集的一些典型的处理方法,并由此确定了基于多源数据集解决选址问题的技术路线。
发明内容
本发明的研究主要基于三个数据集:公交IC乘客刷卡数据集、电信用户通话数据集、信息点(Point of Interest)数据集。结合这三个数据集展开了如下几个方面的研究:
通过对商业店铺选址问题的国内外研究现状进行调研,了解了零售企业选址的理论基础以及常用的商业店铺选址的模型和方法,并基于调研确立了基于多源数据的选址问题研究方向。
通过对机器学习领域的相关方法和算法进行研究,掌握了机器学习中对数据集的一些典型的处理方法,并由此确定了基于多源数据集解决选址问题的技术路线。
目前对大数据的研究,大多集中于对单一数据集的研究,对多个数据集结合起来的研究较少。本文把公交IC刷卡数据、电信用户通话数据、城市POI数据这三个数据集结合起来,通过对多源数据集进行综合分析和研究,从数据挖掘的角度提出了一种新的商业店铺选址模型建立方法。
提出了一种基于多源数据集的选址模型建立方法,避免了传统的基于专家咨询的层次分析选址方法中专家个人主观性过强的缺点,从定量而不只是简单定性的研究层面上提出了一种基于多源数据集建立选址模型的方法。并通过实际例子验证了所提方法的可行性。
附图说明
图1是影响选址的三大因素示意图;
图2是评估备选地址的解释变量图;
图3是输入流特征描述示意图;
图4是不均衡数据集中出现的样本偏斜情况示意图;
图5是支持向量机训练处理流程图;
图6半径r=200m的候选点覆盖区域示意图。
具体实施方式
由于数据集的多样性,从数据集中反映出的信息也是多样化的。如果把从数据集中得到的数目很多的测量值全部当做分类的特征来使用,得到的结果将会非常不理想。这是由于在原始的数据中,有一部分数据是不包含分类信息或是仅仅包含极少量的分类信息,还有一部分数据包含的信息是重复的,这些重复的数据其实并没有对分类起到实质性的作用。
经过特征选择,能够形成用于训练的特征向量,为后续工作提供支撑。被识别对象的一个特征可以通过特征向量的一个分量表示,由于同一种类别的相似性和不同种类别之间的差异性主要体现在这些分量表示的特征上。因此,正确地确定识别选址对象的特征是建立选址模型的一个重要步骤,它将直接影响分类的最终结果,即训练得出的选址模型最终的准确性。
对影响备选区域选址的三大主要因素:人口因素、交通因素、环境因素进行了进一步的分析。首先对可能影响商业店铺选址结果的因素进行了调研与分析;然后结合已有的相关多源数据集,从中选择了一些可能对商业店铺选址产生影响的特征指标,给出了选址决策评价指标体系;最后,对这些选址特征指标进行详细描述。
在对选址特征指标进行描述时,首先要选择一片候选区域,在候选区域中包含了很多可供选址的备选点l,在描述候选点l对应的各个的选址特征时,首先需要定义一个范围。具体地说,就是在测量人流量、话务量、竞争力等选址特征时,应该分析与测量的一个区域范围。
因此,定义一个以候选位置l为中心,以r为半径的范围区域,圆点表示的是各个候选位置l,灰色区域表示以l为中心,以r为半径的范围P,p表示灰色区域P中的任意位置,故有p∈P。这个范围如下:
p∈P:dist(p,l)<r
在式中,p表示以l为中心,以r为半径的范围内的某一位置;dist函数表示两个地点之间的地理距离。
在使用支持向量机技术建立选址模型时,由于选址问题的特殊性,首先应该明确在建模过程对以下三个问题的处理方法。即对模型性能度量标准的选择、非平衡数据的处理方法以及核函数的选取及其参数调整方法。通过对比这两种对非平衡样本数据集进行处理的方法,选择分类算法的代价敏感性学习法,即通过调整敏感性参数cost的值来达到分类性能的最优。
在实际的训练过程中,由于选址特征指标数据的特殊性,线性分类器已经不足以满足实际业务的要求,因此需要引入核函数对其进行分类。
在支持向量机技术中,把分类算法通过的函数映定义为为核函数。其基本思想是:将核函数用一个Hilbert空间中的内积来解释。基于核函数的理论,在高维特征空间无需直接计算内积,只需计算出相应的核函数就可以了。通过引入核函数的思想,支持向量机技术将最优分类超平面的概念引入到非线性的分类问题之中,为解决“维数灾难”这一难题提供了理论支撑。
最后,具体实现一个基于多源数据的选址建模系统,并通过一个实际应用—成都市电信营业厅选址案例来对上述方法的可行性进行验证。
Claims (3)
1.基于多源数据集的选址模型建立方法:
该方法结合相关数据集,从中选择出一些可能对选址产生影响的特征指标,使用支持向量机(Support Vector Machine)技术对这些特征指标进行学习,得出选址模型,然后使用该模型确定在候选区域中哪些位置选址可能使商业店铺有较好的发展前景。
2.基于支持向量机技术的选址建模系统:
根据选址建模方法的功能需求,设计了一个基于支持向量机技术的选址建模系统并对各个功能模块进行了具体实现,然后通过一个实际的应用案例对上述选址方法进行了测试评估。测试的结果表明,使用支持向量机得出的选址模型具有较高的准确性。由此证明了基于多源数据集建立选址模型这一方法的可行性和有效性。
3.如权利要求1所述,基于国内外零售企业在进行企业选址时主要参考的如下几个理论:零售引力理论、中心地理论、商圈理论和商圈饱和理论,避免了传统的基于专家咨询的层次分析选址方法中专家个人主观性过强的缺点,从定量而不只是简单定性的研究层面上提出了一种基于多源数据集建立选址模型的方法。并通过实际例子验证了所提方法的可行性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610890504.4A CN106548367A (zh) | 2016-10-12 | 2016-10-12 | 多源数据的选址模型及其应用研究 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610890504.4A CN106548367A (zh) | 2016-10-12 | 2016-10-12 | 多源数据的选址模型及其应用研究 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106548367A true CN106548367A (zh) | 2017-03-29 |
Family
ID=58368740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610890504.4A Pending CN106548367A (zh) | 2016-10-12 | 2016-10-12 | 多源数据的选址模型及其应用研究 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106548367A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446800A (zh) * | 2018-03-12 | 2018-08-24 | 西北工业大学 | 一种跨城市连锁企业的选址方法及系统 |
CN109242580A (zh) * | 2018-11-28 | 2019-01-18 | 北京腾云天下科技有限公司 | 确定目标品牌在指定城市的推荐入驻商场的方法 |
CN109359162A (zh) * | 2018-08-28 | 2019-02-19 | 浙江工业大学 | 一种基于gis的学校选址方法 |
CN109657883A (zh) * | 2019-01-28 | 2019-04-19 | 重庆邮电大学 | 一种基于多源数据驱动的银行网点选址推荐方法 |
CN109961344A (zh) * | 2017-12-26 | 2019-07-02 | 中国移动通信集团内蒙古有限公司 | 一种汽车服务选址方法和装置 |
CN110458589A (zh) * | 2019-02-01 | 2019-11-15 | 吉林大学 | 基于轨迹大数据的路侧式出租车停靠站选址优选方法 |
CN111539764A (zh) * | 2020-04-17 | 2020-08-14 | 南京邮电大学 | 基于次模函数的大数据多址选择方法 |
-
2016
- 2016-10-12 CN CN201610890504.4A patent/CN106548367A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961344A (zh) * | 2017-12-26 | 2019-07-02 | 中国移动通信集团内蒙古有限公司 | 一种汽车服务选址方法和装置 |
CN109961344B (zh) * | 2017-12-26 | 2022-07-01 | 中国移动通信集团内蒙古有限公司 | 一种汽车服务选址方法和装置 |
CN108446800A (zh) * | 2018-03-12 | 2018-08-24 | 西北工业大学 | 一种跨城市连锁企业的选址方法及系统 |
CN109359162A (zh) * | 2018-08-28 | 2019-02-19 | 浙江工业大学 | 一种基于gis的学校选址方法 |
CN109359162B (zh) * | 2018-08-28 | 2022-07-26 | 浙江工业大学 | 一种基于gis的学校选址方法 |
CN109242580A (zh) * | 2018-11-28 | 2019-01-18 | 北京腾云天下科技有限公司 | 确定目标品牌在指定城市的推荐入驻商场的方法 |
CN109242580B (zh) * | 2018-11-28 | 2020-12-29 | 北京腾云天下科技有限公司 | 确定目标品牌在指定城市的推荐入驻商场的方法 |
CN109657883A (zh) * | 2019-01-28 | 2019-04-19 | 重庆邮电大学 | 一种基于多源数据驱动的银行网点选址推荐方法 |
CN110458589A (zh) * | 2019-02-01 | 2019-11-15 | 吉林大学 | 基于轨迹大数据的路侧式出租车停靠站选址优选方法 |
CN110458589B (zh) * | 2019-02-01 | 2023-02-10 | 吉林大学 | 基于轨迹大数据的路侧式出租车停靠站选址优选方法 |
CN111539764A (zh) * | 2020-04-17 | 2020-08-14 | 南京邮电大学 | 基于次模函数的大数据多址选择方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106548367A (zh) | 多源数据的选址模型及其应用研究 | |
Çakır et al. | A comparative analysis of global and national university ranking systems | |
Murat et al. | An application for measuring performance quality of schools by using the PROMETHEE multi-criteria decision making method | |
CN103632168B (zh) | 一种机器学习中的分类器集成方法 | |
Rosenthal et al. | The attenuation of human capital spillovers | |
CN104462611B (zh) | 信息排序模型的建模方法、排序方法及建模装置、排序装置 | |
CN105117460A (zh) | 学习资源推荐方法和系统 | |
Meedech et al. | Prediction of student dropout using personal profile and data mining approach | |
CN103325122B (zh) | 基于双向排序的行人检索方法 | |
CN109936582A (zh) | 构建基于pu学习的恶意流量检测模型的方法及装置 | |
CN106650763A (zh) | 一种电力缴费渠道分析的指标选择、权值优化与渠道规划的计算方法 | |
Li et al. | Cluster analysis of the relationship between carbon dioxide emissions and economic growth | |
CN102902981A (zh) | 基于慢特征分析的暴力视频检测方法 | |
CN106815198A (zh) | 模型训练方法及装置和语句业务类型的识别方法及装置 | |
CN109903053B (zh) | 一种基于传感器数据进行行为识别的反欺诈方法 | |
CN109242552B (zh) | 一种基于大数据的商铺定位方法 | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
Reddy | Fake profile identification using machine learning | |
Rodrigues et al. | Automatic classification of points-of-interest for land-use analysis | |
CN106708971A (zh) | 一种复习试题生成方法及系统 | |
CN110147504A (zh) | 区域教育资源满足度评价方法及系统 | |
Rodrigues et al. | Estimating disaggregated employment size from points-of-interest and census data: From mining the web to model implementation and visualization | |
CN106295574A (zh) | 基于神经网络的人脸特征提取建模、人脸识别方法及装置 | |
CN106295957A (zh) | 职业胜任力模型系统及分析方法 | |
Wang et al. | Temperature forecast based on SVM optimized by PSO algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170329 |