CN104899660A

CN104899660A - 基于奇异值分解的商铺受欢迎度预测方法

Info

Publication number: CN104899660A
Application number: CN201510329542.8A
Authority: CN
Inventors: 於志文; 田苗; 郭斌; 王柱; 周兴社
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2015-06-15
Filing date: 2015-06-15
Publication date: 2015-09-09
Anticipated expiration: 2035-06-15
Also published as: CN104899660B

Abstract

本发明公开了一种基于奇异值分解的商铺受欢迎度预测方法，用于解决现有门店选址系统及方法效率低的技术问题。技术方案是以用户偏好为中介，在奇异值分解的基础上，加入商铺特征融合和商铺偏好学习，利用社交媒体和基于位置的服务，获取有效信息，包括商铺周围商圈的信息，商铺周围的交通信息，商铺周围人流量的信息等。由于采用奇异值分解的方法进行欢迎度预测，不仅考虑了隐性特征，同时包含了提取出的显性特征。在矩阵分解的过程中，迭代计算左奇异向量、右奇异向量和商铺特征向量。同时利用商铺计算新开商铺的邻居商铺，拟合得到新开商铺的向量参数值，解决了由于矩阵稀疏带来的新开商铺参数不准确的问题，提高了商铺受欢迎度预测方法的效率。

Description

基于奇异值分解的商铺受欢迎度预测方法

技术领域

本发明涉及一种商铺受欢迎度预测方法，特别是涉及一种基于奇异值分解的商铺受欢迎度预测方法。

背景技术

文献“门店选址系统及方法”公开了一种门店选址系统及方法。该方法通过新开店的业态确定商圈范围，进而确定已有门店和居住小区，并找出这些门店的吸引力影响因素信息，利用回归分析，分析销售额和各影响因素的关系，确定各影响因素对吸引力的影响程度，进一步通过获得的影响因素和其相应的调节指数利用多因素吸引力模型计算出新开店的吸引力。文献所述方法虽然从商业智能的角度出发，解决之前需要通过调查问卷和专家系统的传统性问题，但是影响门店吸引力的因素错综复杂，从吸引力的角度出发，涉及到的很多因素都难以获取。如，销售额、营业面积、销售品类、停车场台数等。文献所述方法中很多因素需要实地取值，适应性不强；当周围环境变化时，不能动态获取和调整相关因素的值，而是需要人工获取，重新进行评估，工程量巨大且效率不高。

发明内容

为了克服现有门店选址系统及方法效率低的不足，本发明提供一种基于奇异值分解的商铺受欢迎度预测方法。该方法以用户偏好为中介，在奇异值分解的基础上，加入商铺特征融合和商铺偏好学习，利用社交媒体和基于位置的服务，获取有效的信息，包括商铺周围商圈的信息，商铺周围的交通信息，商铺周围人流量的信息等。采用这种方式，当商铺周围的环境信息等发生变化时，不需要通过人工实地调研更新信息，采用发明方法能够较快地预测商铺受欢迎度。由于采用奇异值分解的方法进行欢迎度预测，不仅考虑了隐性特征，同时包含了提取出的显性特征。在矩阵分解的过程中，迭代计算左奇异向量、右奇异向量和商铺特征向量。同时利用商铺计算新开商铺的邻居商铺，拟合得到新开商铺的向量参数值，解决了由于矩阵稀疏带来的新开商铺参数不准确的问题，提高了商铺受欢迎度预测方法的效率。

本发明解决其技术问题所采用的技术方案是：一种基于奇异值分解的商铺受欢迎度预测方法，其特点是采用以下步骤：

S1、利用网络爬虫抓取商铺数据，结合基于位置的服务上提供的地点经纬度和交通信息，补全商铺信息。将商铺数据整理成<s,t,p>的三元组格式，并将全部数据按8:2的比例划分为训练数据和测试数据。

其中，s代表商铺，t代表类型，p代表欢迎度。

S2、从商铺信息中提取的特征如下：

距所在商业区中心的距离，定义F_s＝logD_s，其中D_s为商铺s到所在商业区中心的距离，F_s表示商铺距商业区的远近程度。

交通便利性，定义T_c表示商铺交通便利程度。考虑公交车和地铁两种常用的交通工具，并从两个角度分别对商铺s所在地的交通便利性进行刻画：距离和多样性。

T_{c} = \frac{\log_{2} (N_{bus} (s, r) + 1)}{\lg D_{bus}} + \frac{\log_{2} (N_{sub} (s, r) + 1)}{\lg D_{sub}}

其中，N_bus(s,r)和N_sub(s,r)分别表示商铺s所在区域中公交车、地铁的种类，D_bus和D_sub分别表示商铺s到公交站和地铁站的最近距离。

竞争性，表示同类型商铺之间的关系。其中，C_s为商铺竞争力大小，t表示商铺s所属类型，N_ts(s,r)为商铺s所在区域内同类型商铺个数。N(s,r)为商铺s所在区域内所有商铺个数。

多样性，描述了新开商铺所在区域的商业格局。其中，N_diver表示多样性值，T表示所有商铺类型，N_t(s,r)表示商铺s周围类型为t的商铺数，N(s,r)表示商铺s周围的所有商铺数。

互补性，表示不同类型商铺之间的关系。引入商铺吸引因子ρ_t->t'来刻画商铺类型t和t'间的耦合度。其中N_set(t,t')为集合(t,t')出现的次数；N_T表示商铺类型数，N_T×(N_T-1)/2为N_T种商铺的所有组合数，因此ρ_t→t'反映了集合(t,t')出现的概率。

对特征进行量化后，量化后的特征取值构成向量F。

S3、以<s,t,p>和F为输入，构建奇异值分解矩阵p＝S^TT+ΛF，通过迭代学习过程，得到参数S、T、Λ。

其中，原始矩阵中行代表商铺，列代表类型，矩阵内的值代表商铺和类型对应的受欢迎度。获得的分解向量S，T，Λ，分别代表奇异值分解的左奇异向量、右奇异向量和商铺特征向量。

S4、根据商铺特征计算新开商铺和训练数据中的同类型商铺集合中所有商铺之间的相似度，从训练数据中找出与目标商铺相似的邻居商铺集合neighbor。

采用欧式距离计算商铺之间的相似度。

{dis}_{ij} = \sqrt{{(f_{s 1} - f_{j 1})}^{2} + . . . + {(f_{sk} - f_{jk})}^{2}}

其中，dis_ij表示新开商铺i与商铺j之间的距离，dis_ij值越大，代表商铺i与商铺j之间的相似度越低。<f_s1…f_sk>和<f_j1…f_jk>分别为商铺i和商铺j的显性特征向量F中的对应值。

S5、根据商铺特征F计算新开商铺和训练数据中的同类型商铺集合中所有商铺之间的相似度，从训练数据中找出与目标商铺相似的邻居商铺集合neighbor，拟合邻居商铺的训练参数得到新开商铺的参数Λ。

S6、按照公式p＝S^TT+ΛF，计算新开商铺的受欢迎度，完成受欢迎度预测。

本发明的有益效果是：该方法以用户偏好为中介，在奇异值分解的基础上，加入商铺特征融合和商铺偏好学习，利用社交媒体和基于位置的服务，获取有效的信息，包括商铺周围商圈的信息，商铺周围的交通信息，商铺周围人流量的信息等。采用这种方式，当商铺周围的环境信息等发生变化时，不需要通过人工实地调研更新信息，采用发明方法能够较快地预测商铺受欢迎度。由于采用奇异值分解的方法进行欢迎度预测，不仅考虑了隐性特征，同时包含了提取出的显性特征。在矩阵分解的过程中，迭代计算左奇异向量、右奇异向量和商铺特征向量。同时利用商铺计算新开商铺的邻居商铺，拟合得到新开商铺的向量参数值，解决了由于矩阵稀疏带来的新开商铺参数不准确的问题，提高了商铺受欢迎度预测方法的效率。

下面结合附图和具体实施方式对本发明作详细说明。

附图说明

图1是本发明基于奇异值分解的商铺受欢迎度预测方法的流程图。

具体实施方式

参照图1。本发明基于奇异值分解的商铺受欢迎度预测方法具体步骤如下：

1、商铺数据抓取。

利用网络爬虫抓取上海市的所有商铺数据，结合基于位置的服务上提供的信息(地点的经纬度、交通信息)，补全商铺信息。将商铺数据整理成<商铺，类型，欢迎度>的三元组格式，并将全部数据按8:2的比例划分为训练数据和测试数据。

2、商铺特征提取及量化。

从商铺信息中提取的特征如下：

交通便利性，定义T_c表示商铺交通便利程度。考虑公交车和地铁两种常用的交通工具，并从2个角度分别对商铺s所在地的交通便利性进行刻画：距离和多样性。

T_{c} = \frac{\log_{2} (N_{bus} (s, r) + 1)}{\lg D_{bus}} + \frac{\log_{2} (N_{sub} (s, r) + 1)}{\lg D_{sub}}

对特征进行量化后，量化后的特征取值构成向量F。

3、奇异值分解。

以<s,t,p>和F为输入，构建奇异值分解矩阵p＝S^TT+ΛF，通过迭代学习过程，得到参数S、T、Λ。

4、邻居商铺集合。

根据商铺特征计算新开商铺和训练数据中的同类型商铺集合中所有商铺之间的相似度，从训练数据中找出与目标商铺相似的邻居商铺集合neighbor。

本发明中采用欧式距离计算商铺之间的相似度。

{dis}_{ij} = \sqrt{{(f_{s 1} - f_{j 1})}^{2} + . . . + {(f_{sk} - f_{jk})}^{2}}

5、参数学习。

根据商铺特征F计算新开商铺和训练数据中的同类型商铺集合中所有商铺之间的相似度，从训练数据中找出与目标商铺相似的邻居商铺集合neighbor。拟合邻居商铺的训练参数得到新开商铺的参数Λ。

6、受欢迎度预测。

按照公式p＝S^TT+ΛF，计算新开商铺的受欢迎度，完成受欢迎度预测。

Claims

1.一种基于奇异值分解的商铺受欢迎度预测方法，其特征在于包括以下步骤：

S1、利用网络爬虫抓取商铺数据，结合基于位置的服务上提供的地点经纬度和交通信息，补全商铺信息；将商铺数据整理成<s,t,p>的三元组格式，并将全部数据按8:2的比例划分为训练数据和测试数据；

其中，s代表商铺，t代表类型，p代表欢迎度；

S2、从商铺信息中提取的特征如下：

距所在商业区中心的距离，定义F_s＝logD_s，其中D_s为商铺s到所在商业区中心的距离，F_s表示商铺距商业区的远近程度；

交通便利性，定义T_c表示商铺交通便利程度；考虑公交车和地铁两种常用的交通工具，并从两个角度分别对商铺s所在地的交通便利性进行刻画：距离和多样性；

T_{c} = \frac{\log_{2} (N_{bus} (s, r) + 1)}{\lg D_{bus}} + \frac{\log_{2} (N_{sub} (s, r) + 1)}{\lg D_{sub}}

其中，N_bus(s,r)和N_sub(s,r)分别表示商铺s所在区域中公交车、地铁的种类，D_bus和D_sub分别表示商铺s到公交站和地铁站的最近距离；

竞争性，表示同类型商铺之间的关系；其中，C_s为商铺竞争力大小，t表示商铺s所属类型，N_ts(s,r)为商铺s所在区域内同类型商铺个数；N(s,r)为商铺s所在区域内所有商铺个数；

多样性，描述了新开商铺所在区域的商业格局；其中，N_diver表示多样性值，T表示所有商铺类型，N_t(s,r)表示商铺s周围类型为t的商铺数，N(s,r)表示商铺s周围的所有商铺数；

互补性，表示不同类型商铺之间的关系；引入商铺吸引因子ρ_t->t'来刻画商铺类型t和t'间的耦合度；其中N_set(t,t')为集合(t,t')出现的次数；N_T表示商铺类型数，N_T×(N_T-1)/2为N_T种商铺的所有组合数，因此ρ_t→t'反映了集合(t,t')出现的概率；

对特征进行量化后，量化后的特征取值构成向量F；

S3、以<s,t,p>和F为输入，构建奇异值分解矩阵p＝S^TT+ΛF，通过迭代学习过程，得到参数S、T、Λ；

其中，原始矩阵中行代表商铺，列代表类型，矩阵内的值代表商铺和类型对应的受欢迎度；获得的分解向量S，T，Λ，分别代表奇异值分解的左奇异向量、右奇异向量和商铺特征向量；

S4、根据商铺特征计算新开商铺和训练数据中的同类型商铺集合中所有商铺之间的相似度，从训练数据中找出与目标商铺相似的邻居商铺集合neighbor；

采用欧式距离计算商铺之间的相似度；

{dis}_{ij} = \sqrt{{(f_{s 1} - f_{j 1})}^{2} + . . . + {(f_{sk} - f_{jk})}^{2}}

其中，dis_ij表示新开商铺i与商铺j之间的距离，dis_ij值越大，代表商铺i与商铺j之间的相似度越低；<f_s1…f_sk>和<f_j1…f_jk>分别为商铺i和商铺j的显性特征向量F中的对应值；

S5、根据商铺特征F计算新开商铺和训练数据中的同类型商铺集合中所有商铺之间的相似度，从训练数据中找出与目标商铺相似的邻居商铺集合neighbor，拟合邻居商铺的训练参数得到新开商铺的参数Λ；