CN112418445A - 一种基于机器学习的智能选址融合方法 - Google Patents

一种基于机器学习的智能选址融合方法 Download PDF

Info

Publication number
CN112418445A
CN112418445A CN202011244753.9A CN202011244753A CN112418445A CN 112418445 A CN112418445 A CN 112418445A CN 202011244753 A CN202011244753 A CN 202011244753A CN 112418445 A CN112418445 A CN 112418445A
Authority
CN
China
Prior art keywords
data
value
processing
function
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011244753.9A
Other languages
English (en)
Inventor
李林渡
邓方华
张衍彬
李进彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Hongbao Wisdom Food And Drink Technology Co ltd
Original Assignee
Shenzhen Hongbao Wisdom Food And Drink Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Hongbao Wisdom Food And Drink Technology Co ltd filed Critical Shenzhen Hongbao Wisdom Food And Drink Technology Co ltd
Priority to CN202011244753.9A priority Critical patent/CN112418445A/zh
Publication of CN112418445A publication Critical patent/CN112418445A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0204Market segmentation
    • G06Q30/0205Location or geographical consideration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及人工智能下的机器学习技术领域,具体为一种基于机器学习的智能选址融合方法,该方法的步骤如下:步骤一、数据清洗,数据整合;步骤二、基于特征工程对数据分析处理;步骤三、数据分割训练得到结果;步骤四、基于LR模型对步骤三得到的结果进行训练,并预测得到最终的结果。本发明提供的基于机器学习的智能选址融合方法通过融合多种算法和模型,可大大提高商家店铺地址选择中的判断准确率。

Description

一种基于机器学习的智能选址融合方法
技术领域
本发明涉及人工智能下的机器学习技术领域,具体为一种基于机器学习的智能选址融合方法。
背景技术
美团商家越来越多,开店铺的人也越来越多,如何选址开店的地址成为了商家关心的地方,随着科技的发展,智能选址的融合方法被越来越多的应用到店铺地址的智能化选择中,智能选址的融合方法基于机器学习从数据空间中发现规律,从而推测出新地址的开店类型,为商家开端选址做辅助,一般的智能选址的融合方法采用的是单独的模型基础,这种方法对于较佳位置的地址选择判断的准确率较低。鉴于此,我们提出一种基于机器学习的智能选址融合方法。
发明内容
本发明的目的在于提供一种基于机器学习的智能选址融合方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于机器学习的智能选址融合方法,该方法的步骤如下:
步骤一、数据清洗,数据整合;
步骤二、基于特征工程对数据分析处理;
步骤三、数据分割训练得到结果;
步骤四、基于LR模型对步骤三得到的结果进行训练,并预测得到最终的结果。
作为本发明优选的技术方案,步骤一中的数据清洗包括:数据集成处理、数据类型转换处理、缺失值处理处理、重复值处理处理、异常值处理处理、特征修改处理以及数据抽样处理。
作为本发明优选的技术方案,步骤一中的数据整合的操作为:基于pandas 数据分析包对清洗后的数据进行加载、清理、转换以及重塑,从而实现数据规整化。
作为本发明优选的技术方案,步骤二的具体操作为:对原始数据进行各种特征分析处理,在原有的数据基础上得到大量的人工处理数据,包括统计特征数据、时序特征数据以及排序特征数据;其中,统计特征数据包括各项数据的数量、各项数据的均值、各项数据的方差以及各项数据的极值;时序特征数据包括3天和 8天的人流量、人流均值数及概率;排序特征数据包括人流量前20占比以及前 10餐厅数量占比。
作为本发明优选的技术方案,步骤三的具体操作为:基于xgboost、支持向量机、GBDT、LGB对不同数据分割20次后训练并得到80个结果。
作为本发明优选的技术方案,xgboost技术的实现步骤:
1)根据数据集初始化一棵树;
2)确定损失函数;
回归问题,损失函数是均方误差函数:
Figure RE-GDA0002894167190000021
分类问题,常用的是损失函数是对数函数:
Figure RE-GDA0002894167190000022
3)拿出一棵树来作为推导“样本上的遍历计算”这个过程,然后通过函数变换得到“叶子节点上的遍历计算”这个过程,之后求解模型0:
Figure RE-GDA0002894167190000023
Figure RE-GDA0002894167190000024
K就是树的棵数,F表示所有可能的CART树,f表示一棵具体的CART树;
4)根据计算得到的模型复杂度设置复杂度阈值、从而减少计算资源。
作为本发明优选的技术方案,支持向量机技术的实现步骤:
1)将原问题转化为凸优化问题:
a、原始问题:
Figure RE-GDA0002894167190000025
Figure RE-GDA0002894167190000026
b、支持向量间隔为1,原问题转化为:
Figure RE-GDA0002894167190000031
yi((w·xi)+b)≥1,i=1,...,l;
2)凸优化问题求解:
a、构建拉格朗日函数:
Figure RE-GDA0002894167190000032
b、根据拉格朗日函数的对偶性,将原问题转换为:
Figure RE-GDA0002894167190000033
s.t.αi≥0,i=1,2,...,n
Figure RE-GDA0002894167190000034
c、利用SMO算法求解a*;
d、求解W和b:
Figure RE-GDA0002894167190000035
Figure RE-GDA0002894167190000036
e、最终决策函数:
Figure RE-GDA0002894167190000037
作为本发明优选的技术方案,GBDT技术的实现步骤:
1)回归问题:
a、所有样本值都初始化为均值,算出来第一轮残差值;
b、误差和特征值带进去构建树,划分标准为平方误差减少最多的那个特征值,然后划分到叶子节点,用均值作为这一轮的预测值,然后更新目标值和残差值,加上学习率;
c、重复第2步,直至满足终止条件,可能是达到最大树的个数,可能是最终的目标值变化幅度不大了;
d、更新累积目标值作为最终的预测结果;
2)二分类问题:
a、二分类问题,损失函数形式是对数形式;
b、拿残差去拟合一颗CART树,CART树划分的标准是均方损失最小,先用梯度当估计值,然后根据牛顿法,算出来一个叶子节点得分值,然后采用和回归一样的加法原理,继续计算残差继续拟合;
c、用sigmoid函数计算最后的预测类别;
3)多分类问题:
a、一轮拟合k颗树,k等于要分出来的类别,多分类问题用log损失作为损失函数,用MSE作为树的分裂准则;
b、设置目标函数,直接构建三棵树,构建完以后算出类别;
c、继续以残差为目标函数拟合树,拟合方案跟回归树一样,然后算函数得分值;
d、计算三棵树的得分值,用softmax函数计算最后的分类。
作为本发明优选的技术方案,LGB技术的实现步骤:
1)输入:训练数据,迭代步数d,大梯度数据的采样率a,小梯度数据的采样率b,损失函数和若学习器的类型;
2)输出:训练好的强学习器:
a、根据样本点的梯度的绝对值对它们进行降序排序;
b、对排序后的结果选取前a*100%的样本生成一个大梯度样本点的子集;
c、对剩下的样本集合(1-a)*100%的样本,随机的选取b*(1-a)*100%个样本点,生成一个小梯度样本点的集合;
d、将大梯度样本和采样的小梯度样本合并;
e、将小梯度样本乘上一个权重系数\frac{1-a}{b};
f、使用上述的采样的样本,学习一个新的弱学习器;
g、不断地重复a~f步骤直到达到规定的迭代次数或者收敛为止。
与现有技术相比,本发明的有益效果是:
本发明提供的基于机器学习的智能选址融合方法通过融合多种算法和模型,可大大提高商家店铺地址选择中的判断准确率。
附图说明
图1为本发明的主流程图。
具体实施方式
下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
一种基于机器学习的智能选址融合方法,该方法的步骤如下:
步骤一、数据清洗,数据整合;
步骤二、基于特征工程对数据分析处理;
步骤三、数据分割训练得到结果;
步骤四、基于LR模型对步骤三得到的结果进行训练,并预测得到最终的结果。
作为本发明优选的技术方案,步骤一中的数据清洗包括:数据集成处理、数据类型转换处理、缺失值处理处理、重复值处理处理、异常值处理处理、特征修改处理以及数据抽样处理。
作为本实施例的优选,步骤一中的数据整合的操作为:基于pandas数据分析包对清洗后的数据进行加载、清理、转换以及重塑,从而实现数据规整化。
作为本实施例的优选,步骤二的具体操作为:对原始数据进行各种特征分析处理,在原有的数据基础上得到大量的人工处理数据,包括统计特征数据、时序特征数据以及排序特征数据;其中,统计特征数据包括各项数据的数量、各项数据的均值、各项数据的方差以及各项数据的极值;时序特征数据包括3天和8 天的人流量、人流均值数及概率;排序特征数据包括人流量前20占比以及前10 餐厅数量占比。
作为本实施例的优选,步骤三的具体操作为:基于xgboost、支持向量机、 GBDT、LGB对不同数据分割20次后训练并得到80个结果。
作为本实施例的优选,xgboost技术的实现步骤:
1)根据数据集初始化一棵树;
2)确定损失函数;
回归问题,损失函数是均方误差函数:
Figure RE-GDA0002894167190000061
分类问题,常用的是损失函数是对数函数:
Figure RE-GDA0002894167190000062
3)拿出一棵树来作为推导“样本上的遍历计算”这个过程,然后通过函数变换得到“叶子节点上的遍历计算”这个过程,之后求解模型0:
Figure RE-GDA0002894167190000063
Figure RE-GDA0002894167190000064
K就是树的棵数,F表示所有可能的CART树,f表示一棵具体的CART树;
4)根据计算得到的模型复杂度设置复杂度阈值、从而减少计算资源。
作为本实施例的优选,支持向量机技术的实现步骤:
1)将原问题转化为凸优化问题:
a、原始问题:
Figure RE-GDA0002894167190000065
Figure RE-GDA0002894167190000066
b、支持向量间隔为1,原问题转化为:
Figure RE-GDA0002894167190000067
yi((w·xi)+b)≥1,i=1,...,l;
2)凸优化问题求解:
a、构建拉格朗日函数:
Figure RE-GDA0002894167190000068
b、根据拉格朗日函数的对偶性,将原问题转换为:
Figure RE-GDA0002894167190000071
s.t.αi≥0,i=1,2,...,n
Figure RE-GDA0002894167190000072
c、利用SMO算法求解a*;
d、求解W和b:
Figure RE-GDA0002894167190000073
Figure RE-GDA0002894167190000074
e、最终决策函数:
Figure RE-GDA0002894167190000075
作为本实施例的优选,GBDT技术的实现步骤:
1)回归问题:
a、所有样本值都初始化为均值,算出来第一轮残差值;
b、误差和特征值带进去构建树,划分标准为平方误差减少最多的那个特征值,然后划分到叶子节点,用均值作为这一轮的预测值,然后更新目标值和残差值,加上学习率;
c、重复第2步,直至满足终止条件,可能是达到最大树的个数,可能是最终的目标值变化幅度不大了;
d、更新累积目标值作为最终的预测结果;
2)二分类问题:
a、二分类问题,损失函数形式是对数形式;
b、拿残差去拟合一颗CART树,CART树划分的标准是均方损失最小,先用梯度当估计值,然后根据牛顿法,算出来一个叶子节点得分值,然后采用和回归一样的加法原理,继续计算残差继续拟合;
c、用sigmoid函数计算最后的预测类别;
3)多分类问题:
a、一轮拟合k颗树,k等于要分出来的类别,多分类问题用log损失作为损失函数,用MSE作为树的分裂准则;
b、设置目标函数,直接构建三棵树,构建完以后算出类别;
c、继续以残差为目标函数拟合树,拟合方案跟回归树一样,然后算函数得分值;
d、计算三棵树的得分值,用softmax函数计算最后的分类。
作为本实施例的优选,LGB技术的实现步骤:
1)输入:训练数据,迭代步数d,大梯度数据的采样率a,小梯度数据的采样率b,损失函数和若学习器的类型;
2)输出:训练好的强学习器:
a、根据样本点的梯度的绝对值对它们进行降序排序;
b、对排序后的结果选取前a*100%的样本生成一个大梯度样本点的子集;
c、对剩下的样本集合(1-a)*100%的样本,随机的选取b*(1-a)*100%个样本点,生成一个小梯度样本点的集合;
d、将大梯度样本和采样的小梯度样本合并;
e、将小梯度样本乘上一个权重系数\frac{1-a}{b};
f、使用上述的采样的样本,学习一个新的弱学习器;
g、不断地重复a~f步骤直到达到规定的迭代次数或者收敛为止。
对比例1
一种基于机器学习的智能选址融合方法,该方法的步骤如下:
步骤一、数据清洗,数据整合;
步骤二、基于特征工程对数据分析处理;
步骤三、数据分割训练得到结果;
步骤四、基于LR模型对步骤三得到的结果进行训练,并预测得到最终的结果。
作为本对比例的优选,步骤一中的数据清洗包括:数据集成处理、数据类型转换处理、缺失值处理处理、重复值处理处理、异常值处理处理、特征修改处理以及数据抽样处理。
作为本对比例的优选,步骤一中的数据整合的操作为:基于pandas数据分析包对清洗后的数据进行加载、清理、转换以及重塑,从而实现数据规整化。
作为本对比例的优选,步骤二的具体操作为:对原始数据进行各种特征分析处理,在原有的数据基础上得到大量的人工处理数据,包括统计特征数据、时序特征数据以及排序特征数据;其中,统计特征数据包括各项数据的数量、各项数据的均值、各项数据的方差以及各项数据的极值;时序特征数据包括3天和8 天的人流量、人流均值数及概率;排序特征数据包括人流量前20占比以及前10 餐厅数量占比。
作为本对比例的优选,步骤三的具体操作为:基于xgboost对不同数据分割 20次后训练并得到80个结果。
作为本对比例的优选,xgboost技术的实现步骤:
1)根据数据集初始化一棵树;
2)确定损失函数;
回归问题,损失函数是均方误差函数:
Figure RE-GDA0002894167190000091
分类问题,常用的是损失函数是对数函数:
Figure RE-GDA0002894167190000092
3)拿出一棵树来作为推导“样本上的遍历计算”这个过程,然后通过函数变换得到“叶子节点上的遍历计算”这个过程,之后求解模型0:
Figure RE-GDA0002894167190000093
Figure RE-GDA0002894167190000094
K就是树的棵数,F表示所有可能的CART树,f表示一棵具体的CART树;
4)根据计算得到的模型复杂度设置复杂度阈值、从而减少计算资源。
对比例2
一种基于机器学习的智能选址融合方法,该方法的步骤如下:
步骤一、数据清洗,数据整合;
步骤二、基于特征工程对数据分析处理;
步骤三、数据分割训练得到结果;
步骤四、基于LR模型对步骤三得到的结果进行训练,并预测得到最终的结果。
作为本对比例的优选,步骤一中的数据清洗包括:数据集成处理、数据类型转换处理、缺失值处理处理、重复值处理处理、异常值处理处理、特征修改处理以及数据抽样处理。
作为本对比例的优选,步骤一中的数据整合的操作为:基于pandas数据分析包对清洗后的数据进行加载、清理、转换以及重塑,从而实现数据规整化。
作为本对比例的优选,步骤二的具体操作为:对原始数据进行各种特征分析处理,在原有的数据基础上得到大量的人工处理数据,包括统计特征数据、时序特征数据以及排序特征数据;其中,统计特征数据包括各项数据的数量、各项数据的均值、各项数据的方差以及各项数据的极值;时序特征数据包括3天和8 天的人流量、人流均值数及概率;排序特征数据包括人流量前20占比以及前10 餐厅数量占比。
作为本对比例的优选,步骤三的具体操作为:基于支持向量机对不同数据分割20次后训练并得到80个结果。
作为本对比例的优选,支持向量机技术的实现步骤:
1)将原问题转化为凸优化问题:
a、原始问题:
Figure RE-GDA0002894167190000101
Figure RE-GDA0002894167190000102
b、支持向量间隔为1,原问题转化为:
Figure RE-GDA0002894167190000103
yi((w·xi)+b)≥1,i=1,...,l;
2)凸优化问题求解:
a、构建拉格朗日函数:
Figure RE-GDA0002894167190000111
b、根据拉格朗日函数的对偶性,将原问题转换为:
Figure RE-GDA0002894167190000112
s.t.αi≥0,i=1,2,...,n
Figure RE-GDA0002894167190000113
c、利用SMO算法求解a*;
d、求解W和b:
Figure RE-GDA0002894167190000114
Figure RE-GDA0002894167190000115
e、最终决策函数:
Figure RE-GDA0002894167190000116
对比例3
一种基于机器学习的智能选址融合方法,该方法的步骤如下:
步骤一、数据清洗,数据整合;
步骤二、基于特征工程对数据分析处理;
步骤三、数据分割训练得到结果;
步骤四、基于LR模型对步骤三得到的结果进行训练,并预测得到最终的结果。
作为本对比例的优选,步骤一中的数据清洗包括:数据集成处理、数据类型转换处理、缺失值处理处理、重复值处理处理、异常值处理处理、特征修改处理以及数据抽样处理。
作为本对比例的优选,步骤一中的数据整合的操作为:基于pandas数据分析包对清洗后的数据进行加载、清理、转换以及重塑,从而实现数据规整化。
作为本对比例的优选,步骤二的具体操作为:对原始数据进行各种特征分析处理,在原有的数据基础上得到大量的人工处理数据,包括统计特征数据、时序特征数据以及排序特征数据;其中,统计特征数据包括各项数据的数量、各项数据的均值、各项数据的方差以及各项数据的极值;时序特征数据包括3天和8 天的人流量、人流均值数及概率;排序特征数据包括人流量前20占比以及前10 餐厅数量占比。
作为本对比例的优选,步骤三的具体操作为:基于GBDT对不同数据分割20 次后训练并得到80个结果。
作为本对比例的优选,GBDT技术的实现步骤:
1)回归问题:
a、所有样本值都初始化为均值,算出来第一轮残差值;
b、误差和特征值带进去构建树,划分标准为平方误差减少最多的那个特征值,然后划分到叶子节点,用均值作为这一轮的预测值,然后更新目标值和残差值,加上学习率;
c、重复第2步,直至满足终止条件,可能是达到最大树的个数,可能是最终的目标值变化幅度不大了;
d、更新累积目标值作为最终的预测结果;
2)二分类问题:
a、二分类问题,损失函数形式是对数形式;
b、拿残差去拟合一颗CART树,CART树划分的标准是均方损失最小,先用梯度当估计值,然后根据牛顿法,算出来一个叶子节点得分值,然后采用和回归一样的加法原理,继续计算残差继续拟合;
c、用sigmoid函数计算最后的预测类别;
3)多分类问题:
a、一轮拟合k颗树,k等于要分出来的类别,多分类问题用log损失作为损失函数,用MSE作为树的分裂准则;
b、设置目标函数,直接构建三棵树,构建完以后算出类别;
c、继续以残差为目标函数拟合树,拟合方案跟回归树一样,然后算函数得分值;
d、计算三棵树的得分值,用softmax函数计算最后的分类。
对比例4
一种基于机器学习的智能选址融合方法,该方法的步骤如下:
步骤一、数据清洗,数据整合;
步骤二、基于特征工程对数据分析处理;
步骤三、数据分割训练得到结果;
步骤四、基于LR模型对步骤三得到的结果进行训练,并预测得到最终的结果。
作为本对比例的优选,步骤一中的数据清洗包括:数据集成处理、数据类型转换处理、缺失值处理处理、重复值处理处理、异常值处理处理、特征修改处理以及数据抽样处理。
作为本对比例的优选,步骤一中的数据整合的操作为:基于pandas数据分析包对清洗后的数据进行加载、清理、转换以及重塑,从而实现数据规整化。
作为本对比例的优选,步骤二的具体操作为:对原始数据进行各种特征分析处理,在原有的数据基础上得到大量的人工处理数据,包括统计特征数据、时序特征数据以及排序特征数据;其中,统计特征数据包括各项数据的数量、各项数据的均值、各项数据的方差以及各项数据的极值;时序特征数据包括3天和8 天的人流量、人流均值数及概率;排序特征数据包括人流量前20占比以及前10 餐厅数量占比。
作为本对比例的优选,步骤三的具体操作为:基于xgboost、支持向量机对不同数据分割20次后训练并得到80个结果。
作为本对比例的优选,xgboost技术的实现步骤:
1)根据数据集初始化一棵树;
2)确定损失函数;
回归问题,损失函数是均方误差函数:
Figure RE-GDA0002894167190000131
分类问题,常用的是损失函数是对数函数:
Figure RE-GDA0002894167190000141
3)拿出一棵树来作为推导“样本上的遍历计算”这个过程,然后通过函数变换得到“叶子节点上的遍历计算”这个过程,之后求解模型0:
Figure RE-GDA0002894167190000142
Figure RE-GDA0002894167190000143
K就是树的棵数,F表示所有可能的CART树,f表示一棵具体的CART树;
4)根据计算得到的模型复杂度设置复杂度阈值、从而减少计算资源。
作为本对比例的优选,支持向量机技术的实现步骤:
1)将原问题转化为凸优化问题:
a、原始问题:
Figure RE-GDA0002894167190000144
Figure RE-GDA0002894167190000145
b、支持向量间隔为1,原问题转化为:
Figure RE-GDA0002894167190000146
yi((w·xi)+b)≥1,i=1,...,l;
2)凸优化问题求解:
a、构建拉格朗日函数:
Figure RE-GDA0002894167190000147
b、根据拉格朗日函数的对偶性,将原问题转换为:
Figure RE-GDA0002894167190000148
s.t.αi≥0,i=1,2,...,n
Figure RE-GDA0002894167190000149
c、利用SMO算法求解a*;
d、求解W和b:
Figure RE-GDA0002894167190000151
Figure RE-GDA0002894167190000152
e、最终决策函数:
Figure RE-GDA0002894167190000153
对比例5
一种基于机器学习的智能选址融合方法,该方法的步骤如下:
步骤一、数据清洗,数据整合;
步骤二、基于特征工程对数据分析处理;
步骤三、数据分割训练得到结果;
步骤四、基于LR模型对步骤三得到的结果进行训练,并预测得到最终的结果。
作为本对比例的优选,步骤一中的数据清洗包括:数据集成处理、数据类型转换处理、缺失值处理处理、重复值处理处理、异常值处理处理、特征修改处理以及数据抽样处理。
作为本对比例的优选,步骤一中的数据整合的操作为:基于pandas数据分析包对清洗后的数据进行加载、清理、转换以及重塑,从而实现数据规整化。
作为本对比例的优选,步骤二的具体操作为:对原始数据进行各种特征分析处理,在原有的数据基础上得到大量的人工处理数据,包括统计特征数据、时序特征数据以及排序特征数据;其中,统计特征数据包括各项数据的数量、各项数据的均值、各项数据的方差以及各项数据的极值;时序特征数据包括3天和8 天的人流量、人流均值数及概率;排序特征数据包括人流量前20占比以及前10 餐厅数量占比。
作为本对比例的优选,步骤三的具体操作为:基于xgboost、支持向量机、 GBDT对不同数据分割20次后训练并得到80个结果。
作为本对比例的优选,xgboost技术的实现步骤:
1)根据数据集初始化一棵树;
2)确定损失函数;
回归问题,损失函数是均方误差函数:
Figure RE-GDA0002894167190000161
分类问题,常用的是损失函数是对数函数:
Figure RE-GDA0002894167190000162
3)拿出一棵树来作为推导“样本上的遍历计算”这个过程,然后通过函数变换得到“叶子节点上的遍历计算”这个过程,之后求解模型0:
Figure RE-GDA0002894167190000163
Figure RE-GDA0002894167190000164
K就是树的棵数,F表示所有可能的CART树,f表示一棵具体的CART树;
4)根据计算得到的模型复杂度设置复杂度阈值、从而减少计算资源。
作为本对比例的优选,支持向量机技术的实现步骤:
1)将原问题转化为凸优化问题:
a、原始问题:
Figure RE-GDA0002894167190000165
Figure RE-GDA0002894167190000166
b、支持向量间隔为1,原问题转化为:
Figure RE-GDA0002894167190000167
yi((w·xi)+b)≥1,i=1,...,l;
2)凸优化问题求解:
a、构建拉格朗日函数:
Figure RE-GDA0002894167190000168
b、根据拉格朗日函数的对偶性,将原问题转换为:
Figure RE-GDA0002894167190000171
s.t.αi≥0,i=1,2,...,n
Figure RE-GDA0002894167190000172
c、利用SMO算法求解a*;
d、求解W和b:
Figure RE-GDA0002894167190000173
Figure RE-GDA0002894167190000174
e、最终决策函数:
Figure RE-GDA0002894167190000175
作为本对比例的优选,GBDT技术的实现步骤:
1)回归问题:
a、所有样本值都初始化为均值,算出来第一轮残差值;
b、误差和特征值带进去构建树,划分标准为平方误差减少最多的那个特征值,然后划分到叶子节点,用均值作为这一轮的预测值,然后更新目标值和残差值,加上学习率;
c、重复第2步,直至满足终止条件,可能是达到最大树的个数,可能是最终的目标值变化幅度不大了;
d、更新累积目标值作为最终的预测结果;
2)二分类问题:
a、二分类问题,损失函数形式是对数形式;
b、拿残差去拟合一颗CART树,CART树划分的标准是均方损失最小,先用梯度当估计值,然后根据牛顿法,算出来一个叶子节点得分值,然后采用和回归一样的加法原理,继续计算残差继续拟合;
c、用sigmoid函数计算最后的预测类别;
3)多分类问题:
a、一轮拟合k颗树,k等于要分出来的类别,多分类问题用log损失作为损失函数,用MSE作为树的分裂准则;
b、设置目标函数,直接构建三棵树,构建完以后算出类别;
c、继续以残差为目标函数拟合树,拟合方案跟回归树一样,然后算函数得分值;
d、计算三棵树的得分值,用softmax函数计算最后的分类。
将本发明的实施例提供的基于机器学习的智能选址融合方法和上述五个对比例提供的基于机器学习的智能选址融合方法进行实验数据对比,得到如下数据:
基础方法 准确率 基础方法
xgboost 88.65% xgboost
支持向量机 72.55% 支持向量机
GBDT 81.24% GBDT
融合方法 准确率
xgboost+支持向量机 91.65%
xgboost+支持向量机+GBDT 88.55%
xgboost+支持向量机+GBDT+LDB 95.24%
通过上述表格的数据可知,通过本发明提供的基于机器学习的智能选址融合方法的预测准确率相比较其它五种方法更为准确。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (9)

1.一种基于机器学习的智能选址融合方法,其特征在于:该方法的步骤如下:
步骤一、数据清洗,数据整合;
步骤二、基于特征工程对数据分析处理;
步骤三、数据分割训练得到结果;
步骤四、基于LR模型对步骤三得到的结果进行训练,并预测得到最终的结果。
2.根据权利要求1所描述的基于机器学习的智能选址融合方法,其特征在于:步骤一中的数据清洗包括:数据集成处理、数据类型转换处理、缺失值处理处理、重复值处理处理、异常值处理处理、特征修改处理以及数据抽样处理。
3.根据权利要求1所描述的基于机器学习的智能选址融合方法,其特征在于:步骤一中的数据整合的操作为:基于pandas数据分析包对清洗后的数据进行加载、清理、转换以及重塑,从而实现数据规整化。
4.根据权利要求1所描述的基于机器学习的智能选址融合方法,其特征在于:步骤二的具体操作为:对原始数据进行各种特征分析处理,在原有的数据基础上得到大量的人工处理数据,包括统计特征数据、时序特征数据以及排序特征数据;其中,统计特征数据包括各项数据的数量、各项数据的均值、各项数据的方差以及各项数据的极值;时序特征数据包括3天和8天的人流量、人流均值数及概率;排序特征数据包括人流量前20占比以及前10餐厅数量占比。
5.根据权利要求1所描述的基于机器学习的智能选址融合方法,其特征在于:步骤三的具体操作为:基于xgboost、支持向量机、GBDT、LGB对不同数据分割20次后训练并得到80个结果。
6.根据权利要求5所描述的基于机器学习的智能选址融合方法,其特征在于:xgboost技术的实现步骤:
1)根据数据集初始化一棵树;
2)确定损失函数;
回归问题,损失函数是均方误差函数:
Figure RE-FDA0002894167180000011
分类问题,常用的是损失函数是对数函数:
Figure RE-FDA0002894167180000021
3)拿出一棵树来作为推导“样本上的遍历计算”这个过程,然后通过函数变换得到“叶子节点上的遍历计算”这个过程,之后求解模型0:
Figure RE-FDA0002894167180000022
Figure RE-FDA0002894167180000023
K就是树的棵数,F表示所有可能的CART树,f表示一棵具体的CART树;
4)根据计算得到的模型复杂度设置复杂度阈值、从而减少计算资源。
7.根据权利要求5所描述的基于机器学习的智能选址融合方法,其特征在于:支持向量机技术的实现步骤:
1)将原问题转化为凸优化问题:
a、原始问题:
Figure RE-FDA0002894167180000024
Figure RE-FDA0002894167180000025
b、支持向量间隔为1,原问题转化为:
Figure RE-FDA0002894167180000026
yi((w·xi)+b)≥1,i=1,...,l;
2)凸优化问题求解:
a、构建拉格朗日函数:
Figure RE-FDA0002894167180000027
b、根据拉格朗日函数的对偶性,将原问题转换为:
Figure RE-FDA0002894167180000031
s.t.αi≥0,i=1,2,...,n
Figure RE-FDA0002894167180000032
c、利用SMO算法求解a*;
d、求解W和b:
Figure RE-FDA0002894167180000033
Figure RE-FDA0002894167180000034
e、最终决策函数:
Figure RE-FDA0002894167180000035
8.根据权利要求5所描述的基于机器学习的智能选址融合方法,其特征在于:GBDT技术的实现步骤:
1)回归问题:
a、所有样本值都初始化为均值,算出来第一轮残差值;
b、误差和特征值带进去构建树,划分标准为平方误差减少最多的那个特征值,然后划分到叶子节点,用均值作为这一轮的预测值,然后更新目标值和残差值,加上学习率;
c、重复第2步,直至满足终止条件,可能是达到最大树的个数,可能是最终的目标值变化幅度不大了;
d、更新累积目标值作为最终的预测结果;
2)二分类问题:
a、二分类问题,损失函数形式是对数形式;
b、拿残差去拟合一颗CART树,CART树划分的标准是均方损失最小,先用梯度当估计值,然后根据牛顿法,算出来一个叶子节点得分值,然后采用和回归一样的加法原理,继续计算残差继续拟合;
c、用sigmoid函数计算最后的预测类别;
3)多分类问题:
a、一轮拟合k颗树,k等于要分出来的类别,多分类问题用log损失作为损失函数,用MSE作为树的分裂准则;
b、设置目标函数,直接构建三棵树,构建完以后算出类别;
c、继续以残差为目标函数拟合树,拟合方案跟回归树一样,然后算函数得分值;
d、计算三棵树的得分值,用softmax函数计算最后的分类。
9.根据权利要求5所描述的基于机器学习的智能选址融合方法,其特征在于:LGB技术的实现步骤:
1)输入:训练数据,迭代步数d,大梯度数据的采样率a,小梯度数据的采样率b,损失函数和若学习器的类型;
2)输出:训练好的强学习器:
a、根据样本点的梯度的绝对值对它们进行降序排序;
b、对排序后的结果选取前a*100%的样本生成一个大梯度样本点的子集;
c、对剩下的样本集合(1-a)*100%的样本,随机的选取b*(1-a)*100%个样本点,生成一个小梯度样本点的集合;
d、将大梯度样本和采样的小梯度样本合并;
e、将小梯度样本乘上一个权重系数\frac{1-a}{b};
f、使用上述的采样的样本,学习一个新的弱学习器;
g、不断地重复a~f步骤直到达到规定的迭代次数或者收敛为止。
CN202011244753.9A 2020-11-09 2020-11-09 一种基于机器学习的智能选址融合方法 Pending CN112418445A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011244753.9A CN112418445A (zh) 2020-11-09 2020-11-09 一种基于机器学习的智能选址融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011244753.9A CN112418445A (zh) 2020-11-09 2020-11-09 一种基于机器学习的智能选址融合方法

Publications (1)

Publication Number Publication Date
CN112418445A true CN112418445A (zh) 2021-02-26

Family

ID=74781154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011244753.9A Pending CN112418445A (zh) 2020-11-09 2020-11-09 一种基于机器学习的智能选址融合方法

Country Status (1)

Country Link
CN (1) CN112418445A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990382A (zh) * 2021-05-11 2021-06-18 桔帧科技(江苏)有限公司 一种基于大数据的基站共站址识别方法
CN113360788A (zh) * 2021-05-07 2021-09-07 深圳依时货拉拉科技有限公司 一种地址推荐方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636482A (zh) * 2015-02-16 2015-05-20 百度在线网络技术(北京)有限公司 用于确定目标地址的方法和装置
US20180316571A1 (en) * 2017-04-28 2018-11-01 Sap Se Enhanced data collection and analysis facility
CN110516818A (zh) * 2019-05-13 2019-11-29 南京江行联加智能科技有限公司 一种基于集成学习技术的高维度数据预测方法
CN110837930A (zh) * 2019-11-07 2020-02-25 腾讯科技(深圳)有限公司 一种选址方法、装置、设备及存储介质
CN111539764A (zh) * 2020-04-17 2020-08-14 南京邮电大学 基于次模函数的大数据多址选择方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636482A (zh) * 2015-02-16 2015-05-20 百度在线网络技术(北京)有限公司 用于确定目标地址的方法和装置
US20180316571A1 (en) * 2017-04-28 2018-11-01 Sap Se Enhanced data collection and analysis facility
CN110516818A (zh) * 2019-05-13 2019-11-29 南京江行联加智能科技有限公司 一种基于集成学习技术的高维度数据预测方法
CN110837930A (zh) * 2019-11-07 2020-02-25 腾讯科技(深圳)有限公司 一种选址方法、装置、设备及存储介质
CN111539764A (zh) * 2020-04-17 2020-08-14 南京邮电大学 基于次模函数的大数据多址选择方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHEN洋: "支持向量机(SVM)必备概念(凸集和凸函数,凸优化问题,软间隔,核函数,拉格朗日乘子法,对偶问题,slater条件、KKT条件)", pages 1 - 11, Retrieved from the Internet <URL:https://www.cnblogs.com/cy0628/p/13819896.html> *
CODE__ONLINE: "LightGBM原理详解", pages 1 - 12, Retrieved from the Internet <URL:https://blog.csdn.net/code__online/article/details/89947938> *
DATAWHALE: "深入理解XGBoost,优缺点分析,原理推导及工程实现", pages 146 - 299, Retrieved from the Internet <URL:https://blog.csdn.net/Datawhale/article/details/103725122> *
MICROSTRONG: "深入理解GBDT二分类算法", pages 1 - 13, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/89549390> *
何龙: "《深入理解XGBoost 高效机器学习算法与进阶》", 机械工业出版社, pages: 146 - 299 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360788A (zh) * 2021-05-07 2021-09-07 深圳依时货拉拉科技有限公司 一种地址推荐方法、装置、设备及存储介质
CN112990382A (zh) * 2021-05-11 2021-06-18 桔帧科技(江苏)有限公司 一种基于大数据的基站共站址识别方法
CN112990382B (zh) * 2021-05-11 2023-11-21 桔帧科技(江苏)有限公司 一种基于大数据的基站共站址识别方法

Similar Documents

Publication Publication Date Title
WO2022083624A1 (zh) 一种模型的获取方法及设备
CN111079931A (zh) 一种基于图神经网络的状态空间概率性多时间序列预测方法
CN111785014B (zh) 一种基于dtw-rgcn的路网交通数据修复的方法
CN109741341B (zh) 一种基于超像素和长短时记忆网络的图像分割方法
CN108647691B (zh) 一种基于点击特征预测的图像分类方法
CN107392919B (zh) 基于自适应遗传算法的灰度阈值获取方法、图像分割方法
CN112418445A (zh) 一种基于机器学习的智能选址融合方法
CN111899254A (zh) 基于半监督学习自动标注工业产品外观缺陷图像的方法
CN111506835A (zh) 一种融合用户时间特征和个性特征的数据特征提取方法
CN112885415B (zh) 基于分子表面点云的雌激素活性快速筛查方法
CN112785694A (zh) 一种基于深度学习的bim三维重建方法
CN109145685B (zh) 基于集成学习的果蔬高光谱品质检测方法
CN113052373A (zh) 一种基于改进elm模型的月径流变化趋势预测方法
CN113673482A (zh) 基于动态标签分配的细胞抗核抗体荧光识别方法及系统
CN113505225A (zh) 一种基于多层注意力机制的小样本医疗关系分类方法
CN110688484B (zh) 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法
CN113255366A (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN110796260B (zh) 一种基于类扩张学习的神经网络模型优化方法
CN109685823B (zh) 一种基于深度森林的目标跟踪方法
CN110619311A (zh) 一种基于eemd-ica-svm的数据分类方法
CN110738239A (zh) 一种基于鼠标交互序列区域行为联合建模的搜索引擎用户满意度评估方法
CN114743133A (zh) 一种轻量化的小样本视频分类识别方法及系统
CN113255543A (zh) 基于图卷积网络的面部表情识别方法
CN109635008B (zh) 一种基于机器学习的设备故障检测方法
CN116883746A (zh) 一种基于分区池化超图神经网络的图节点分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination