CN112418445A

CN112418445A - 一种基于机器学习的智能选址融合方法

Info

Publication number: CN112418445A
Application number: CN202011244753.9A
Authority: CN
Inventors: 李林渡; 邓方华; 张衍彬; 李进彬
Original assignee: Shenzhen Hongbao Wisdom Food And Drink Technology Co ltd
Current assignee: Shenzhen Hongbao Wisdom Food And Drink Technology Co ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-02-26

Abstract

本发明涉及人工智能下的机器学习技术领域，具体为一种基于机器学习的智能选址融合方法，该方法的步骤如下：步骤一、数据清洗，数据整合；步骤二、基于特征工程对数据分析处理；步骤三、数据分割训练得到结果；步骤四、基于LR模型对步骤三得到的结果进行训练，并预测得到最终的结果。本发明提供的基于机器学习的智能选址融合方法通过融合多种算法和模型，可大大提高商家店铺地址选择中的判断准确率。

Description

一种基于机器学习的智能选址融合方法

技术领域

本发明涉及人工智能下的机器学习技术领域，具体为一种基于机器学习的智能选址融合方法。

背景技术

美团商家越来越多，开店铺的人也越来越多，如何选址开店的地址成为了商家关心的地方，随着科技的发展，智能选址的融合方法被越来越多的应用到店铺地址的智能化选择中，智能选址的融合方法基于机器学习从数据空间中发现规律，从而推测出新地址的开店类型，为商家开端选址做辅助，一般的智能选址的融合方法采用的是单独的模型基础，这种方法对于较佳位置的地址选择判断的准确率较低。鉴于此，我们提出一种基于机器学习的智能选址融合方法。

发明内容

本发明的目的在于提供一种基于机器学习的智能选址融合方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于机器学习的智能选址融合方法，该方法的步骤如下：

步骤一、数据清洗，数据整合；

步骤二、基于特征工程对数据分析处理；

步骤三、数据分割训练得到结果；

步骤四、基于LR模型对步骤三得到的结果进行训练，并预测得到最终的结果。

作为本发明优选的技术方案，步骤一中的数据清洗包括：数据集成处理、数据类型转换处理、缺失值处理处理、重复值处理处理、异常值处理处理、特征修改处理以及数据抽样处理。

作为本发明优选的技术方案，步骤一中的数据整合的操作为：基于pandas 数据分析包对清洗后的数据进行加载、清理、转换以及重塑，从而实现数据规整化。

作为本发明优选的技术方案，步骤二的具体操作为：对原始数据进行各种特征分析处理，在原有的数据基础上得到大量的人工处理数据，包括统计特征数据、时序特征数据以及排序特征数据；其中，统计特征数据包括各项数据的数量、各项数据的均值、各项数据的方差以及各项数据的极值；时序特征数据包括3天和 8天的人流量、人流均值数及概率；排序特征数据包括人流量前20占比以及前 10餐厅数量占比。

作为本发明优选的技术方案，步骤三的具体操作为：基于xgboost、支持向量机、GBDT、LGB对不同数据分割20次后训练并得到80个结果。

作为本发明优选的技术方案，xgboost技术的实现步骤：

1)根据数据集初始化一棵树；

2)确定损失函数；

回归问题，损失函数是均方误差函数：

分类问题，常用的是损失函数是对数函数:

3)拿出一棵树来作为推导“样本上的遍历计算”这个过程，然后通过函数变换得到“叶子节点上的遍历计算”这个过程，之后求解模型0：

K就是树的棵数，F表示所有可能的CART树，f表示一棵具体的CART树；

4)根据计算得到的模型复杂度设置复杂度阈值、从而减少计算资源。

作为本发明优选的技术方案，支持向量机技术的实现步骤：

1)将原问题转化为凸优化问题：

a、原始问题：

b、支持向量间隔为1，原问题转化为：

y_i((w·x_i)+b)≥1，i＝1，...，l；

2)凸优化问题求解：

a、构建拉格朗日函数：

b、根据拉格朗日函数的对偶性，将原问题转换为：

s.t.α_i≥0，i＝1，2，...，n

c、利用SMO算法求解a*；

d、求解W和b：

e、最终决策函数：

作为本发明优选的技术方案，GBDT技术的实现步骤：

1)回归问题：

a、所有样本值都初始化为均值，算出来第一轮残差值；

b、误差和特征值带进去构建树，划分标准为平方误差减少最多的那个特征值，然后划分到叶子节点，用均值作为这一轮的预测值，然后更新目标值和残差值，加上学习率；

c、重复第2步，直至满足终止条件，可能是达到最大树的个数，可能是最终的目标值变化幅度不大了；

d、更新累积目标值作为最终的预测结果；

2)二分类问题：

a、二分类问题，损失函数形式是对数形式；

b、拿残差去拟合一颗CART树，CART树划分的标准是均方损失最小，先用梯度当估计值，然后根据牛顿法，算出来一个叶子节点得分值，然后采用和回归一样的加法原理，继续计算残差继续拟合；

c、用sigmoid函数计算最后的预测类别；

3)多分类问题：

a、一轮拟合k颗树，k等于要分出来的类别，多分类问题用log损失作为损失函数，用MSE作为树的分裂准则；

b、设置目标函数，直接构建三棵树，构建完以后算出类别；

c、继续以残差为目标函数拟合树，拟合方案跟回归树一样，然后算函数得分值；

d、计算三棵树的得分值，用softmax函数计算最后的分类。

作为本发明优选的技术方案，LGB技术的实现步骤：

1)输入：训练数据，迭代步数d，大梯度数据的采样率a，小梯度数据的采样率b，损失函数和若学习器的类型；

2)输出：训练好的强学习器：

a、根据样本点的梯度的绝对值对它们进行降序排序；

b、对排序后的结果选取前a*100％的样本生成一个大梯度样本点的子集；

c、对剩下的样本集合(1-a)*100％的样本，随机的选取b*(1-a)*100％个样本点，生成一个小梯度样本点的集合；

d、将大梯度样本和采样的小梯度样本合并；

e、将小梯度样本乘上一个权重系数\frac{1-a}{b}；

f、使用上述的采样的样本，学习一个新的弱学习器；

g、不断地重复a～f步骤直到达到规定的迭代次数或者收敛为止。

与现有技术相比，本发明的有益效果是：

本发明提供的基于机器学习的智能选址融合方法通过融合多种算法和模型，可大大提高商家店铺地址选择中的判断准确率。

附图说明

图1为本发明的主流程图。

具体实施方式

下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

步骤一、数据清洗，数据整合；

步骤二、基于特征工程对数据分析处理；

步骤三、数据分割训练得到结果；

作为本实施例的优选，步骤一中的数据整合的操作为：基于pandas数据分析包对清洗后的数据进行加载、清理、转换以及重塑，从而实现数据规整化。

作为本实施例的优选，步骤二的具体操作为：对原始数据进行各种特征分析处理，在原有的数据基础上得到大量的人工处理数据，包括统计特征数据、时序特征数据以及排序特征数据；其中，统计特征数据包括各项数据的数量、各项数据的均值、各项数据的方差以及各项数据的极值；时序特征数据包括3天和8 天的人流量、人流均值数及概率；排序特征数据包括人流量前20占比以及前10 餐厅数量占比。

作为本实施例的优选，步骤三的具体操作为：基于xgboost、支持向量机、 GBDT、LGB对不同数据分割20次后训练并得到80个结果。

作为本实施例的优选，xgboost技术的实现步骤：

1)根据数据集初始化一棵树；

2)确定损失函数；

回归问题，损失函数是均方误差函数：

分类问题，常用的是损失函数是对数函数:

作为本实施例的优选，支持向量机技术的实现步骤：

1)将原问题转化为凸优化问题：

a、原始问题：

b、支持向量间隔为1，原问题转化为：

y_i((w·x_i)+b)≥1，i＝1，...，l；

2)凸优化问题求解：

a、构建拉格朗日函数：

b、根据拉格朗日函数的对偶性，将原问题转换为：

s.t.α_i≥0，i＝1，2，...，n

c、利用SMO算法求解a*；

d、求解W和b：

e、最终决策函数：

作为本实施例的优选，GBDT技术的实现步骤：

1)回归问题：

a、所有样本值都初始化为均值，算出来第一轮残差值；

d、更新累积目标值作为最终的预测结果；

2)二分类问题：

a、二分类问题，损失函数形式是对数形式；

c、用sigmoid函数计算最后的预测类别；

3)多分类问题：

b、设置目标函数，直接构建三棵树，构建完以后算出类别；

d、计算三棵树的得分值，用softmax函数计算最后的分类。

作为本实施例的优选，LGB技术的实现步骤：

2)输出：训练好的强学习器：

a、根据样本点的梯度的绝对值对它们进行降序排序；

d、将大梯度样本和采样的小梯度样本合并；

e、将小梯度样本乘上一个权重系数\frac{1-a}{b}；

f、使用上述的采样的样本，学习一个新的弱学习器；

对比例1

步骤一、数据清洗，数据整合；

步骤二、基于特征工程对数据分析处理；

步骤三、数据分割训练得到结果；

作为本对比例的优选，步骤一中的数据清洗包括：数据集成处理、数据类型转换处理、缺失值处理处理、重复值处理处理、异常值处理处理、特征修改处理以及数据抽样处理。

作为本对比例的优选，步骤一中的数据整合的操作为：基于pandas数据分析包对清洗后的数据进行加载、清理、转换以及重塑，从而实现数据规整化。

作为本对比例的优选，步骤二的具体操作为：对原始数据进行各种特征分析处理，在原有的数据基础上得到大量的人工处理数据，包括统计特征数据、时序特征数据以及排序特征数据；其中，统计特征数据包括各项数据的数量、各项数据的均值、各项数据的方差以及各项数据的极值；时序特征数据包括3天和8 天的人流量、人流均值数及概率；排序特征数据包括人流量前20占比以及前10 餐厅数量占比。

作为本对比例的优选，步骤三的具体操作为：基于xgboost对不同数据分割 20次后训练并得到80个结果。

作为本对比例的优选，xgboost技术的实现步骤：

1)根据数据集初始化一棵树；

2)确定损失函数；

回归问题，损失函数是均方误差函数：

分类问题，常用的是损失函数是对数函数:

对比例2

步骤一、数据清洗，数据整合；

步骤二、基于特征工程对数据分析处理；

步骤三、数据分割训练得到结果；

作为本对比例的优选，步骤三的具体操作为：基于支持向量机对不同数据分割20次后训练并得到80个结果。

作为本对比例的优选，支持向量机技术的实现步骤：

1)将原问题转化为凸优化问题：

a、原始问题：

b、支持向量间隔为1，原问题转化为：

y_i((w·x_i)+b)≥1，i＝1，...，l；

2)凸优化问题求解：

a、构建拉格朗日函数：

b、根据拉格朗日函数的对偶性，将原问题转换为：

s.t.α_i≥0，i＝1，2，...，n

c、利用SMO算法求解a*；

d、求解W和b：

e、最终决策函数：

对比例3

步骤一、数据清洗，数据整合；

步骤二、基于特征工程对数据分析处理；

步骤三、数据分割训练得到结果；

作为本对比例的优选，步骤三的具体操作为：基于GBDT对不同数据分割20 次后训练并得到80个结果。

作为本对比例的优选，GBDT技术的实现步骤：

1)回归问题：

a、所有样本值都初始化为均值，算出来第一轮残差值；

d、更新累积目标值作为最终的预测结果；

2)二分类问题：

a、二分类问题，损失函数形式是对数形式；

c、用sigmoid函数计算最后的预测类别；

3)多分类问题：

b、设置目标函数，直接构建三棵树，构建完以后算出类别；

d、计算三棵树的得分值，用softmax函数计算最后的分类。

对比例4

步骤一、数据清洗，数据整合；

步骤二、基于特征工程对数据分析处理；

步骤三、数据分割训练得到结果；

作为本对比例的优选，步骤三的具体操作为：基于xgboost、支持向量机对不同数据分割20次后训练并得到80个结果。

作为本对比例的优选，xgboost技术的实现步骤：

1)根据数据集初始化一棵树；

2)确定损失函数；

回归问题，损失函数是均方误差函数：

分类问题，常用的是损失函数是对数函数:

作为本对比例的优选，支持向量机技术的实现步骤：

1)将原问题转化为凸优化问题：

a、原始问题：

b、支持向量间隔为1，原问题转化为：

y_i((w·x_i)+b)≥1，i＝1，...，l；

2)凸优化问题求解：

a、构建拉格朗日函数：

b、根据拉格朗日函数的对偶性，将原问题转换为：

s.t.α_i≥0，i＝1，2，...，n

c、利用SMO算法求解a*；

d、求解W和b：

e、最终决策函数：

对比例5

步骤一、数据清洗，数据整合；

步骤二、基于特征工程对数据分析处理；

步骤三、数据分割训练得到结果；

作为本对比例的优选，步骤三的具体操作为：基于xgboost、支持向量机、 GBDT对不同数据分割20次后训练并得到80个结果。

作为本对比例的优选，xgboost技术的实现步骤：

1)根据数据集初始化一棵树；

2)确定损失函数；

回归问题，损失函数是均方误差函数：

分类问题，常用的是损失函数是对数函数:

作为本对比例的优选，支持向量机技术的实现步骤：

1)将原问题转化为凸优化问题：

a、原始问题：

b、支持向量间隔为1，原问题转化为：

y_i((w·x_i)+b)≥1，i＝1，...，l；

2)凸优化问题求解：

a、构建拉格朗日函数：

b、根据拉格朗日函数的对偶性，将原问题转换为：

s.t.α_i≥0，i＝1，2，...，n

c、利用SMO算法求解a*；

d、求解W和b：

e、最终决策函数：

作为本对比例的优选，GBDT技术的实现步骤：

1)回归问题：

a、所有样本值都初始化为均值，算出来第一轮残差值；

d、更新累积目标值作为最终的预测结果；

2)二分类问题：

a、二分类问题，损失函数形式是对数形式；

c、用sigmoid函数计算最后的预测类别；

3)多分类问题：

b、设置目标函数，直接构建三棵树，构建完以后算出类别；

d、计算三棵树的得分值，用softmax函数计算最后的分类。

将本发明的实施例提供的基于机器学习的智能选址融合方法和上述五个对比例提供的基于机器学习的智能选址融合方法进行实验数据对比，得到如下数据：

基础方法	准确率	基础方法
			xgboost	88.65％	xgboost
支持向量机	72.55％	支持向量机
			GBDT	81.24％	GBDT

融合方法	准确率
		xgboost+支持向量机	91.65％
xgboost+支持向量机+GBDT	88.55％
		xgboost+支持向量机+GBDT+LDB	95.24％

通过上述表格的数据可知，通过本发明提供的基于机器学习的智能选址融合方法的预测准确率相比较其它五种方法更为准确。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于机器学习的智能选址融合方法，其特征在于：该方法的步骤如下：

步骤一、数据清洗，数据整合；

步骤二、基于特征工程对数据分析处理；

步骤三、数据分割训练得到结果；

2.根据权利要求1所描述的基于机器学习的智能选址融合方法，其特征在于：步骤一中的数据清洗包括：数据集成处理、数据类型转换处理、缺失值处理处理、重复值处理处理、异常值处理处理、特征修改处理以及数据抽样处理。

3.根据权利要求1所描述的基于机器学习的智能选址融合方法，其特征在于：步骤一中的数据整合的操作为：基于pandas数据分析包对清洗后的数据进行加载、清理、转换以及重塑，从而实现数据规整化。

4.根据权利要求1所描述的基于机器学习的智能选址融合方法，其特征在于：步骤二的具体操作为：对原始数据进行各种特征分析处理，在原有的数据基础上得到大量的人工处理数据，包括统计特征数据、时序特征数据以及排序特征数据；其中，统计特征数据包括各项数据的数量、各项数据的均值、各项数据的方差以及各项数据的极值；时序特征数据包括3天和8天的人流量、人流均值数及概率；排序特征数据包括人流量前20占比以及前10餐厅数量占比。

5.根据权利要求1所描述的基于机器学习的智能选址融合方法，其特征在于：步骤三的具体操作为：基于xgboost、支持向量机、GBDT、LGB对不同数据分割20次后训练并得到80个结果。

6.根据权利要求5所描述的基于机器学习的智能选址融合方法，其特征在于：xgboost技术的实现步骤：

1)根据数据集初始化一棵树；

2)确定损失函数；

回归问题，损失函数是均方误差函数：