CN112418445A - 一种基于机器学习的智能选址融合方法 - Google Patents
一种基于机器学习的智能选址融合方法 Download PDFInfo
- Publication number
- CN112418445A CN112418445A CN202011244753.9A CN202011244753A CN112418445A CN 112418445 A CN112418445 A CN 112418445A CN 202011244753 A CN202011244753 A CN 202011244753A CN 112418445 A CN112418445 A CN 112418445A
- Authority
- CN
- China
- Prior art keywords
- data
- value
- processing
- function
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 31
- 238000010801 machine learning Methods 0.000 title claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 89
- 230000010354 integration Effects 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000004140 cleaning Methods 0.000 claims abstract description 18
- 230000011218 segmentation Effects 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 86
- 238000000034 method Methods 0.000 claims description 42
- 238000005457 optimization Methods 0.000 claims description 22
- 238000012706 support-vector machine Methods 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 208000025174 PANDAS Diseases 0.000 claims description 8
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 claims description 8
- 235000016496 Panda oleosa Nutrition 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000007405 data analysis Methods 0.000 claims description 8
- 230000004048 modification Effects 0.000 claims description 8
- 238000012986 modification Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 240000000220 Panda oleosa Species 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000000052 comparative effect Effects 0.000 description 31
- 240000004718 Panda Species 0.000 description 7
- 238000005406 washing Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0204—Market segmentation
- G06Q30/0205—Location or geographical consideration
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及人工智能下的机器学习技术领域,具体为一种基于机器学习的智能选址融合方法,该方法的步骤如下:步骤一、数据清洗,数据整合;步骤二、基于特征工程对数据分析处理;步骤三、数据分割训练得到结果;步骤四、基于LR模型对步骤三得到的结果进行训练,并预测得到最终的结果。本发明提供的基于机器学习的智能选址融合方法通过融合多种算法和模型,可大大提高商家店铺地址选择中的判断准确率。
Description
技术领域
本发明涉及人工智能下的机器学习技术领域,具体为一种基于机器学习的智能选址融合方法。
背景技术
美团商家越来越多,开店铺的人也越来越多,如何选址开店的地址成为了商家关心的地方,随着科技的发展,智能选址的融合方法被越来越多的应用到店铺地址的智能化选择中,智能选址的融合方法基于机器学习从数据空间中发现规律,从而推测出新地址的开店类型,为商家开端选址做辅助,一般的智能选址的融合方法采用的是单独的模型基础,这种方法对于较佳位置的地址选择判断的准确率较低。鉴于此,我们提出一种基于机器学习的智能选址融合方法。
发明内容
本发明的目的在于提供一种基于机器学习的智能选址融合方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于机器学习的智能选址融合方法,该方法的步骤如下:
步骤一、数据清洗,数据整合;
步骤二、基于特征工程对数据分析处理;
步骤三、数据分割训练得到结果;
步骤四、基于LR模型对步骤三得到的结果进行训练,并预测得到最终的结果。
作为本发明优选的技术方案,步骤一中的数据清洗包括:数据集成处理、数据类型转换处理、缺失值处理处理、重复值处理处理、异常值处理处理、特征修改处理以及数据抽样处理。
作为本发明优选的技术方案,步骤一中的数据整合的操作为:基于pandas 数据分析包对清洗后的数据进行加载、清理、转换以及重塑,从而实现数据规整化。
作为本发明优选的技术方案,步骤二的具体操作为:对原始数据进行各种特征分析处理,在原有的数据基础上得到大量的人工处理数据,包括统计特征数据、时序特征数据以及排序特征数据;其中,统计特征数据包括各项数据的数量、各项数据的均值、各项数据的方差以及各项数据的极值;时序特征数据包括3天和 8天的人流量、人流均值数及概率;排序特征数据包括人流量前20占比以及前 10餐厅数量占比。
作为本发明优选的技术方案,步骤三的具体操作为:基于xgboost、支持向量机、GBDT、LGB对不同数据分割20次后训练并得到80个结果。
作为本发明优选的技术方案,xgboost技术的实现步骤:
1)根据数据集初始化一棵树;
2)确定损失函数;
分类问题,常用的是损失函数是对数函数:
3)拿出一棵树来作为推导“样本上的遍历计算”这个过程,然后通过函数变换得到“叶子节点上的遍历计算”这个过程,之后求解模型0:
K就是树的棵数,F表示所有可能的CART树,f表示一棵具体的CART树;
4)根据计算得到的模型复杂度设置复杂度阈值、从而减少计算资源。
作为本发明优选的技术方案,支持向量机技术的实现步骤:
1)将原问题转化为凸优化问题:
a、原始问题:
b、支持向量间隔为1,原问题转化为:
yi((w·xi)+b)≥1,i=1,...,l;
2)凸优化问题求解:
a、构建拉格朗日函数:
b、根据拉格朗日函数的对偶性,将原问题转换为:
s.t.αi≥0,i=1,2,...,n
c、利用SMO算法求解a*;
d、求解W和b:
e、最终决策函数:
作为本发明优选的技术方案,GBDT技术的实现步骤:
1)回归问题:
a、所有样本值都初始化为均值,算出来第一轮残差值;
b、误差和特征值带进去构建树,划分标准为平方误差减少最多的那个特征值,然后划分到叶子节点,用均值作为这一轮的预测值,然后更新目标值和残差值,加上学习率;
c、重复第2步,直至满足终止条件,可能是达到最大树的个数,可能是最终的目标值变化幅度不大了;
d、更新累积目标值作为最终的预测结果;
2)二分类问题:
a、二分类问题,损失函数形式是对数形式;
b、拿残差去拟合一颗CART树,CART树划分的标准是均方损失最小,先用梯度当估计值,然后根据牛顿法,算出来一个叶子节点得分值,然后采用和回归一样的加法原理,继续计算残差继续拟合;
c、用sigmoid函数计算最后的预测类别;
3)多分类问题:
a、一轮拟合k颗树,k等于要分出来的类别,多分类问题用log损失作为损失函数,用MSE作为树的分裂准则;
b、设置目标函数,直接构建三棵树,构建完以后算出类别;
c、继续以残差为目标函数拟合树,拟合方案跟回归树一样,然后算函数得分值;
d、计算三棵树的得分值,用softmax函数计算最后的分类。
作为本发明优选的技术方案,LGB技术的实现步骤:
1)输入:训练数据,迭代步数d,大梯度数据的采样率a,小梯度数据的采样率b,损失函数和若学习器的类型;
2)输出:训练好的强学习器:
a、根据样本点的梯度的绝对值对它们进行降序排序;
b、对排序后的结果选取前a*100%的样本生成一个大梯度样本点的子集;
c、对剩下的样本集合(1-a)*100%的样本,随机的选取b*(1-a)*100%个样本点,生成一个小梯度样本点的集合;
d、将大梯度样本和采样的小梯度样本合并;
e、将小梯度样本乘上一个权重系数\frac{1-a}{b};
f、使用上述的采样的样本,学习一个新的弱学习器;
g、不断地重复a~f步骤直到达到规定的迭代次数或者收敛为止。
与现有技术相比,本发明的有益效果是:
本发明提供的基于机器学习的智能选址融合方法通过融合多种算法和模型,可大大提高商家店铺地址选择中的判断准确率。
附图说明
图1为本发明的主流程图。
具体实施方式
下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
一种基于机器学习的智能选址融合方法,该方法的步骤如下:
步骤一、数据清洗,数据整合;
步骤二、基于特征工程对数据分析处理;
步骤三、数据分割训练得到结果;
步骤四、基于LR模型对步骤三得到的结果进行训练,并预测得到最终的结果。
作为本发明优选的技术方案,步骤一中的数据清洗包括:数据集成处理、数据类型转换处理、缺失值处理处理、重复值处理处理、异常值处理处理、特征修改处理以及数据抽样处理。
作为本实施例的优选,步骤一中的数据整合的操作为:基于pandas数据分析包对清洗后的数据进行加载、清理、转换以及重塑,从而实现数据规整化。
作为本实施例的优选,步骤二的具体操作为:对原始数据进行各种特征分析处理,在原有的数据基础上得到大量的人工处理数据,包括统计特征数据、时序特征数据以及排序特征数据;其中,统计特征数据包括各项数据的数量、各项数据的均值、各项数据的方差以及各项数据的极值;时序特征数据包括3天和8 天的人流量、人流均值数及概率;排序特征数据包括人流量前20占比以及前10 餐厅数量占比。
作为本实施例的优选,步骤三的具体操作为:基于xgboost、支持向量机、 GBDT、LGB对不同数据分割20次后训练并得到80个结果。
作为本实施例的优选,xgboost技术的实现步骤:
1)根据数据集初始化一棵树;
2)确定损失函数;
分类问题,常用的是损失函数是对数函数:
3)拿出一棵树来作为推导“样本上的遍历计算”这个过程,然后通过函数变换得到“叶子节点上的遍历计算”这个过程,之后求解模型0:
K就是树的棵数,F表示所有可能的CART树,f表示一棵具体的CART树;
4)根据计算得到的模型复杂度设置复杂度阈值、从而减少计算资源。
作为本实施例的优选,支持向量机技术的实现步骤:
1)将原问题转化为凸优化问题:
a、原始问题:
b、支持向量间隔为1,原问题转化为:
yi((w·xi)+b)≥1,i=1,...,l;
2)凸优化问题求解:
a、构建拉格朗日函数:
b、根据拉格朗日函数的对偶性,将原问题转换为:
s.t.αi≥0,i=1,2,...,n
c、利用SMO算法求解a*;
d、求解W和b:
e、最终决策函数:
作为本实施例的优选,GBDT技术的实现步骤:
1)回归问题:
a、所有样本值都初始化为均值,算出来第一轮残差值;
b、误差和特征值带进去构建树,划分标准为平方误差减少最多的那个特征值,然后划分到叶子节点,用均值作为这一轮的预测值,然后更新目标值和残差值,加上学习率;
c、重复第2步,直至满足终止条件,可能是达到最大树的个数,可能是最终的目标值变化幅度不大了;
d、更新累积目标值作为最终的预测结果;
2)二分类问题:
a、二分类问题,损失函数形式是对数形式;
b、拿残差去拟合一颗CART树,CART树划分的标准是均方损失最小,先用梯度当估计值,然后根据牛顿法,算出来一个叶子节点得分值,然后采用和回归一样的加法原理,继续计算残差继续拟合;
c、用sigmoid函数计算最后的预测类别;
3)多分类问题:
a、一轮拟合k颗树,k等于要分出来的类别,多分类问题用log损失作为损失函数,用MSE作为树的分裂准则;
b、设置目标函数,直接构建三棵树,构建完以后算出类别;
c、继续以残差为目标函数拟合树,拟合方案跟回归树一样,然后算函数得分值;
d、计算三棵树的得分值,用softmax函数计算最后的分类。
作为本实施例的优选,LGB技术的实现步骤:
1)输入:训练数据,迭代步数d,大梯度数据的采样率a,小梯度数据的采样率b,损失函数和若学习器的类型;
2)输出:训练好的强学习器:
a、根据样本点的梯度的绝对值对它们进行降序排序;
b、对排序后的结果选取前a*100%的样本生成一个大梯度样本点的子集;
c、对剩下的样本集合(1-a)*100%的样本,随机的选取b*(1-a)*100%个样本点,生成一个小梯度样本点的集合;
d、将大梯度样本和采样的小梯度样本合并;
e、将小梯度样本乘上一个权重系数\frac{1-a}{b};
f、使用上述的采样的样本,学习一个新的弱学习器;
g、不断地重复a~f步骤直到达到规定的迭代次数或者收敛为止。
对比例1
一种基于机器学习的智能选址融合方法,该方法的步骤如下:
步骤一、数据清洗,数据整合;
步骤二、基于特征工程对数据分析处理;
步骤三、数据分割训练得到结果;
步骤四、基于LR模型对步骤三得到的结果进行训练,并预测得到最终的结果。
作为本对比例的优选,步骤一中的数据清洗包括:数据集成处理、数据类型转换处理、缺失值处理处理、重复值处理处理、异常值处理处理、特征修改处理以及数据抽样处理。
作为本对比例的优选,步骤一中的数据整合的操作为:基于pandas数据分析包对清洗后的数据进行加载、清理、转换以及重塑,从而实现数据规整化。
作为本对比例的优选,步骤二的具体操作为:对原始数据进行各种特征分析处理,在原有的数据基础上得到大量的人工处理数据,包括统计特征数据、时序特征数据以及排序特征数据;其中,统计特征数据包括各项数据的数量、各项数据的均值、各项数据的方差以及各项数据的极值;时序特征数据包括3天和8 天的人流量、人流均值数及概率;排序特征数据包括人流量前20占比以及前10 餐厅数量占比。
作为本对比例的优选,步骤三的具体操作为:基于xgboost对不同数据分割 20次后训练并得到80个结果。
作为本对比例的优选,xgboost技术的实现步骤:
1)根据数据集初始化一棵树;
2)确定损失函数;
分类问题,常用的是损失函数是对数函数:
3)拿出一棵树来作为推导“样本上的遍历计算”这个过程,然后通过函数变换得到“叶子节点上的遍历计算”这个过程,之后求解模型0:
K就是树的棵数,F表示所有可能的CART树,f表示一棵具体的CART树;
4)根据计算得到的模型复杂度设置复杂度阈值、从而减少计算资源。
对比例2
一种基于机器学习的智能选址融合方法,该方法的步骤如下:
步骤一、数据清洗,数据整合;
步骤二、基于特征工程对数据分析处理;
步骤三、数据分割训练得到结果;
步骤四、基于LR模型对步骤三得到的结果进行训练,并预测得到最终的结果。
作为本对比例的优选,步骤一中的数据清洗包括:数据集成处理、数据类型转换处理、缺失值处理处理、重复值处理处理、异常值处理处理、特征修改处理以及数据抽样处理。
作为本对比例的优选,步骤一中的数据整合的操作为:基于pandas数据分析包对清洗后的数据进行加载、清理、转换以及重塑,从而实现数据规整化。
作为本对比例的优选,步骤二的具体操作为:对原始数据进行各种特征分析处理,在原有的数据基础上得到大量的人工处理数据,包括统计特征数据、时序特征数据以及排序特征数据;其中,统计特征数据包括各项数据的数量、各项数据的均值、各项数据的方差以及各项数据的极值;时序特征数据包括3天和8 天的人流量、人流均值数及概率;排序特征数据包括人流量前20占比以及前10 餐厅数量占比。
作为本对比例的优选,步骤三的具体操作为:基于支持向量机对不同数据分割20次后训练并得到80个结果。
作为本对比例的优选,支持向量机技术的实现步骤:
1)将原问题转化为凸优化问题:
a、原始问题:
b、支持向量间隔为1,原问题转化为:
yi((w·xi)+b)≥1,i=1,...,l;
2)凸优化问题求解:
a、构建拉格朗日函数:
b、根据拉格朗日函数的对偶性,将原问题转换为:
s.t.αi≥0,i=1,2,...,n
c、利用SMO算法求解a*;
d、求解W和b:
e、最终决策函数:
对比例3
一种基于机器学习的智能选址融合方法,该方法的步骤如下:
步骤一、数据清洗,数据整合;
步骤二、基于特征工程对数据分析处理;
步骤三、数据分割训练得到结果;
步骤四、基于LR模型对步骤三得到的结果进行训练,并预测得到最终的结果。
作为本对比例的优选,步骤一中的数据清洗包括:数据集成处理、数据类型转换处理、缺失值处理处理、重复值处理处理、异常值处理处理、特征修改处理以及数据抽样处理。
作为本对比例的优选,步骤一中的数据整合的操作为:基于pandas数据分析包对清洗后的数据进行加载、清理、转换以及重塑,从而实现数据规整化。
作为本对比例的优选,步骤二的具体操作为:对原始数据进行各种特征分析处理,在原有的数据基础上得到大量的人工处理数据,包括统计特征数据、时序特征数据以及排序特征数据;其中,统计特征数据包括各项数据的数量、各项数据的均值、各项数据的方差以及各项数据的极值;时序特征数据包括3天和8 天的人流量、人流均值数及概率;排序特征数据包括人流量前20占比以及前10 餐厅数量占比。
作为本对比例的优选,步骤三的具体操作为:基于GBDT对不同数据分割20 次后训练并得到80个结果。
作为本对比例的优选,GBDT技术的实现步骤:
1)回归问题:
a、所有样本值都初始化为均值,算出来第一轮残差值;
b、误差和特征值带进去构建树,划分标准为平方误差减少最多的那个特征值,然后划分到叶子节点,用均值作为这一轮的预测值,然后更新目标值和残差值,加上学习率;
c、重复第2步,直至满足终止条件,可能是达到最大树的个数,可能是最终的目标值变化幅度不大了;
d、更新累积目标值作为最终的预测结果;
2)二分类问题:
a、二分类问题,损失函数形式是对数形式;
b、拿残差去拟合一颗CART树,CART树划分的标准是均方损失最小,先用梯度当估计值,然后根据牛顿法,算出来一个叶子节点得分值,然后采用和回归一样的加法原理,继续计算残差继续拟合;
c、用sigmoid函数计算最后的预测类别;
3)多分类问题:
a、一轮拟合k颗树,k等于要分出来的类别,多分类问题用log损失作为损失函数,用MSE作为树的分裂准则;
b、设置目标函数,直接构建三棵树,构建完以后算出类别;
c、继续以残差为目标函数拟合树,拟合方案跟回归树一样,然后算函数得分值;
d、计算三棵树的得分值,用softmax函数计算最后的分类。
对比例4
一种基于机器学习的智能选址融合方法,该方法的步骤如下:
步骤一、数据清洗,数据整合;
步骤二、基于特征工程对数据分析处理;
步骤三、数据分割训练得到结果;
步骤四、基于LR模型对步骤三得到的结果进行训练,并预测得到最终的结果。
作为本对比例的优选,步骤一中的数据清洗包括:数据集成处理、数据类型转换处理、缺失值处理处理、重复值处理处理、异常值处理处理、特征修改处理以及数据抽样处理。
作为本对比例的优选,步骤一中的数据整合的操作为:基于pandas数据分析包对清洗后的数据进行加载、清理、转换以及重塑,从而实现数据规整化。
作为本对比例的优选,步骤二的具体操作为:对原始数据进行各种特征分析处理,在原有的数据基础上得到大量的人工处理数据,包括统计特征数据、时序特征数据以及排序特征数据;其中,统计特征数据包括各项数据的数量、各项数据的均值、各项数据的方差以及各项数据的极值;时序特征数据包括3天和8 天的人流量、人流均值数及概率;排序特征数据包括人流量前20占比以及前10 餐厅数量占比。
作为本对比例的优选,步骤三的具体操作为:基于xgboost、支持向量机对不同数据分割20次后训练并得到80个结果。
作为本对比例的优选,xgboost技术的实现步骤:
1)根据数据集初始化一棵树;
2)确定损失函数;
分类问题,常用的是损失函数是对数函数:
3)拿出一棵树来作为推导“样本上的遍历计算”这个过程,然后通过函数变换得到“叶子节点上的遍历计算”这个过程,之后求解模型0:
K就是树的棵数,F表示所有可能的CART树,f表示一棵具体的CART树;
4)根据计算得到的模型复杂度设置复杂度阈值、从而减少计算资源。
作为本对比例的优选,支持向量机技术的实现步骤:
1)将原问题转化为凸优化问题:
a、原始问题:
b、支持向量间隔为1,原问题转化为:
yi((w·xi)+b)≥1,i=1,...,l;
2)凸优化问题求解:
a、构建拉格朗日函数:
b、根据拉格朗日函数的对偶性,将原问题转换为:
s.t.αi≥0,i=1,2,...,n
c、利用SMO算法求解a*;
d、求解W和b:
e、最终决策函数:
对比例5
一种基于机器学习的智能选址融合方法,该方法的步骤如下:
步骤一、数据清洗,数据整合;
步骤二、基于特征工程对数据分析处理;
步骤三、数据分割训练得到结果;
步骤四、基于LR模型对步骤三得到的结果进行训练,并预测得到最终的结果。
作为本对比例的优选,步骤一中的数据清洗包括:数据集成处理、数据类型转换处理、缺失值处理处理、重复值处理处理、异常值处理处理、特征修改处理以及数据抽样处理。
作为本对比例的优选,步骤一中的数据整合的操作为:基于pandas数据分析包对清洗后的数据进行加载、清理、转换以及重塑,从而实现数据规整化。
作为本对比例的优选,步骤二的具体操作为:对原始数据进行各种特征分析处理,在原有的数据基础上得到大量的人工处理数据,包括统计特征数据、时序特征数据以及排序特征数据;其中,统计特征数据包括各项数据的数量、各项数据的均值、各项数据的方差以及各项数据的极值;时序特征数据包括3天和8 天的人流量、人流均值数及概率;排序特征数据包括人流量前20占比以及前10 餐厅数量占比。
作为本对比例的优选,步骤三的具体操作为:基于xgboost、支持向量机、 GBDT对不同数据分割20次后训练并得到80个结果。
作为本对比例的优选,xgboost技术的实现步骤:
1)根据数据集初始化一棵树;
2)确定损失函数;
分类问题,常用的是损失函数是对数函数:
3)拿出一棵树来作为推导“样本上的遍历计算”这个过程,然后通过函数变换得到“叶子节点上的遍历计算”这个过程,之后求解模型0:
K就是树的棵数,F表示所有可能的CART树,f表示一棵具体的CART树;
4)根据计算得到的模型复杂度设置复杂度阈值、从而减少计算资源。
作为本对比例的优选,支持向量机技术的实现步骤:
1)将原问题转化为凸优化问题:
a、原始问题:
b、支持向量间隔为1,原问题转化为:
yi((w·xi)+b)≥1,i=1,...,l;
2)凸优化问题求解:
a、构建拉格朗日函数:
b、根据拉格朗日函数的对偶性,将原问题转换为:
s.t.αi≥0,i=1,2,...,n
c、利用SMO算法求解a*;
d、求解W和b:
e、最终决策函数:
作为本对比例的优选,GBDT技术的实现步骤:
1)回归问题:
a、所有样本值都初始化为均值,算出来第一轮残差值;
b、误差和特征值带进去构建树,划分标准为平方误差减少最多的那个特征值,然后划分到叶子节点,用均值作为这一轮的预测值,然后更新目标值和残差值,加上学习率;
c、重复第2步,直至满足终止条件,可能是达到最大树的个数,可能是最终的目标值变化幅度不大了;
d、更新累积目标值作为最终的预测结果;
2)二分类问题:
a、二分类问题,损失函数形式是对数形式;
b、拿残差去拟合一颗CART树,CART树划分的标准是均方损失最小,先用梯度当估计值,然后根据牛顿法,算出来一个叶子节点得分值,然后采用和回归一样的加法原理,继续计算残差继续拟合;
c、用sigmoid函数计算最后的预测类别;
3)多分类问题:
a、一轮拟合k颗树,k等于要分出来的类别,多分类问题用log损失作为损失函数,用MSE作为树的分裂准则;
b、设置目标函数,直接构建三棵树,构建完以后算出类别;
c、继续以残差为目标函数拟合树,拟合方案跟回归树一样,然后算函数得分值;
d、计算三棵树的得分值,用softmax函数计算最后的分类。
将本发明的实施例提供的基于机器学习的智能选址融合方法和上述五个对比例提供的基于机器学习的智能选址融合方法进行实验数据对比,得到如下数据:
基础方法 | 准确率 | 基础方法 |
xgboost | 88.65% | xgboost |
支持向量机 | 72.55% | 支持向量机 |
GBDT | 81.24% | GBDT |
融合方法 | 准确率 |
xgboost+支持向量机 | 91.65% |
xgboost+支持向量机+GBDT | 88.55% |
xgboost+支持向量机+GBDT+LDB | 95.24% |
通过上述表格的数据可知,通过本发明提供的基于机器学习的智能选址融合方法的预测准确率相比较其它五种方法更为准确。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (9)
1.一种基于机器学习的智能选址融合方法,其特征在于:该方法的步骤如下:
步骤一、数据清洗,数据整合;
步骤二、基于特征工程对数据分析处理;
步骤三、数据分割训练得到结果;
步骤四、基于LR模型对步骤三得到的结果进行训练,并预测得到最终的结果。
2.根据权利要求1所描述的基于机器学习的智能选址融合方法,其特征在于:步骤一中的数据清洗包括:数据集成处理、数据类型转换处理、缺失值处理处理、重复值处理处理、异常值处理处理、特征修改处理以及数据抽样处理。
3.根据权利要求1所描述的基于机器学习的智能选址融合方法,其特征在于:步骤一中的数据整合的操作为:基于pandas数据分析包对清洗后的数据进行加载、清理、转换以及重塑,从而实现数据规整化。
4.根据权利要求1所描述的基于机器学习的智能选址融合方法,其特征在于:步骤二的具体操作为:对原始数据进行各种特征分析处理,在原有的数据基础上得到大量的人工处理数据,包括统计特征数据、时序特征数据以及排序特征数据;其中,统计特征数据包括各项数据的数量、各项数据的均值、各项数据的方差以及各项数据的极值;时序特征数据包括3天和8天的人流量、人流均值数及概率;排序特征数据包括人流量前20占比以及前10餐厅数量占比。
5.根据权利要求1所描述的基于机器学习的智能选址融合方法,其特征在于:步骤三的具体操作为:基于xgboost、支持向量机、GBDT、LGB对不同数据分割20次后训练并得到80个结果。
8.根据权利要求5所描述的基于机器学习的智能选址融合方法,其特征在于:GBDT技术的实现步骤:
1)回归问题:
a、所有样本值都初始化为均值,算出来第一轮残差值;
b、误差和特征值带进去构建树,划分标准为平方误差减少最多的那个特征值,然后划分到叶子节点,用均值作为这一轮的预测值,然后更新目标值和残差值,加上学习率;
c、重复第2步,直至满足终止条件,可能是达到最大树的个数,可能是最终的目标值变化幅度不大了;
d、更新累积目标值作为最终的预测结果;
2)二分类问题:
a、二分类问题,损失函数形式是对数形式;
b、拿残差去拟合一颗CART树,CART树划分的标准是均方损失最小,先用梯度当估计值,然后根据牛顿法,算出来一个叶子节点得分值,然后采用和回归一样的加法原理,继续计算残差继续拟合;
c、用sigmoid函数计算最后的预测类别;
3)多分类问题:
a、一轮拟合k颗树,k等于要分出来的类别,多分类问题用log损失作为损失函数,用MSE作为树的分裂准则;
b、设置目标函数,直接构建三棵树,构建完以后算出类别;
c、继续以残差为目标函数拟合树,拟合方案跟回归树一样,然后算函数得分值;
d、计算三棵树的得分值,用softmax函数计算最后的分类。
9.根据权利要求5所描述的基于机器学习的智能选址融合方法,其特征在于:LGB技术的实现步骤:
1)输入:训练数据,迭代步数d,大梯度数据的采样率a,小梯度数据的采样率b,损失函数和若学习器的类型;
2)输出:训练好的强学习器:
a、根据样本点的梯度的绝对值对它们进行降序排序;
b、对排序后的结果选取前a*100%的样本生成一个大梯度样本点的子集;
c、对剩下的样本集合(1-a)*100%的样本,随机的选取b*(1-a)*100%个样本点,生成一个小梯度样本点的集合;
d、将大梯度样本和采样的小梯度样本合并;
e、将小梯度样本乘上一个权重系数\frac{1-a}{b};
f、使用上述的采样的样本,学习一个新的弱学习器;
g、不断地重复a~f步骤直到达到规定的迭代次数或者收敛为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011244753.9A CN112418445A (zh) | 2020-11-09 | 2020-11-09 | 一种基于机器学习的智能选址融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011244753.9A CN112418445A (zh) | 2020-11-09 | 2020-11-09 | 一种基于机器学习的智能选址融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112418445A true CN112418445A (zh) | 2021-02-26 |
Family
ID=74781154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011244753.9A Pending CN112418445A (zh) | 2020-11-09 | 2020-11-09 | 一种基于机器学习的智能选址融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112418445A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990382A (zh) * | 2021-05-11 | 2021-06-18 | 桔帧科技(江苏)有限公司 | 一种基于大数据的基站共站址识别方法 |
CN113360788A (zh) * | 2021-05-07 | 2021-09-07 | 深圳依时货拉拉科技有限公司 | 一种地址推荐方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636482A (zh) * | 2015-02-16 | 2015-05-20 | 百度在线网络技术(北京)有限公司 | 用于确定目标地址的方法和装置 |
US20180316571A1 (en) * | 2017-04-28 | 2018-11-01 | Sap Se | Enhanced data collection and analysis facility |
CN110516818A (zh) * | 2019-05-13 | 2019-11-29 | 南京江行联加智能科技有限公司 | 一种基于集成学习技术的高维度数据预测方法 |
CN110837930A (zh) * | 2019-11-07 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 一种选址方法、装置、设备及存储介质 |
CN111539764A (zh) * | 2020-04-17 | 2020-08-14 | 南京邮电大学 | 基于次模函数的大数据多址选择方法 |
-
2020
- 2020-11-09 CN CN202011244753.9A patent/CN112418445A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636482A (zh) * | 2015-02-16 | 2015-05-20 | 百度在线网络技术(北京)有限公司 | 用于确定目标地址的方法和装置 |
US20180316571A1 (en) * | 2017-04-28 | 2018-11-01 | Sap Se | Enhanced data collection and analysis facility |
CN110516818A (zh) * | 2019-05-13 | 2019-11-29 | 南京江行联加智能科技有限公司 | 一种基于集成学习技术的高维度数据预测方法 |
CN110837930A (zh) * | 2019-11-07 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 一种选址方法、装置、设备及存储介质 |
CN111539764A (zh) * | 2020-04-17 | 2020-08-14 | 南京邮电大学 | 基于次模函数的大数据多址选择方法 |
Non-Patent Citations (5)
Title |
---|
CHEN洋: "支持向量机(SVM)必备概念(凸集和凸函数,凸优化问题,软间隔,核函数,拉格朗日乘子法,对偶问题,slater条件、KKT条件)", pages 1 - 11, Retrieved from the Internet <URL:https://www.cnblogs.com/cy0628/p/13819896.html> * |
CODE__ONLINE: "LightGBM原理详解", pages 1 - 12, Retrieved from the Internet <URL:https://blog.csdn.net/code__online/article/details/89947938> * |
DATAWHALE: "深入理解XGBoost,优缺点分析,原理推导及工程实现", pages 146 - 299, Retrieved from the Internet <URL:https://blog.csdn.net/Datawhale/article/details/103725122> * |
MICROSTRONG: "深入理解GBDT二分类算法", pages 1 - 13, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/89549390> * |
何龙: "《深入理解XGBoost 高效机器学习算法与进阶》", 机械工业出版社, pages: 146 - 299 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360788A (zh) * | 2021-05-07 | 2021-09-07 | 深圳依时货拉拉科技有限公司 | 一种地址推荐方法、装置、设备及存储介质 |
CN112990382A (zh) * | 2021-05-11 | 2021-06-18 | 桔帧科技(江苏)有限公司 | 一种基于大数据的基站共站址识别方法 |
CN112990382B (zh) * | 2021-05-11 | 2023-11-21 | 桔帧科技(江苏)有限公司 | 一种基于大数据的基站共站址识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022083624A1 (zh) | 一种模型的获取方法及设备 | |
CN111079931A (zh) | 一种基于图神经网络的状态空间概率性多时间序列预测方法 | |
CN111785014B (zh) | 一种基于dtw-rgcn的路网交通数据修复的方法 | |
CN109741341B (zh) | 一种基于超像素和长短时记忆网络的图像分割方法 | |
CN108647691B (zh) | 一种基于点击特征预测的图像分类方法 | |
CN107392919B (zh) | 基于自适应遗传算法的灰度阈值获取方法、图像分割方法 | |
CN112418445A (zh) | 一种基于机器学习的智能选址融合方法 | |
CN111899254A (zh) | 基于半监督学习自动标注工业产品外观缺陷图像的方法 | |
CN111506835A (zh) | 一种融合用户时间特征和个性特征的数据特征提取方法 | |
CN112885415B (zh) | 基于分子表面点云的雌激素活性快速筛查方法 | |
CN112785694A (zh) | 一种基于深度学习的bim三维重建方法 | |
CN109145685B (zh) | 基于集成学习的果蔬高光谱品质检测方法 | |
CN113052373A (zh) | 一种基于改进elm模型的月径流变化趋势预测方法 | |
CN113673482A (zh) | 基于动态标签分配的细胞抗核抗体荧光识别方法及系统 | |
CN113505225A (zh) | 一种基于多层注意力机制的小样本医疗关系分类方法 | |
CN110688484B (zh) | 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法 | |
CN113255366A (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN110796260B (zh) | 一种基于类扩张学习的神经网络模型优化方法 | |
CN109685823B (zh) | 一种基于深度森林的目标跟踪方法 | |
CN110619311A (zh) | 一种基于eemd-ica-svm的数据分类方法 | |
CN110738239A (zh) | 一种基于鼠标交互序列区域行为联合建模的搜索引擎用户满意度评估方法 | |
CN114743133A (zh) | 一种轻量化的小样本视频分类识别方法及系统 | |
CN113255543A (zh) | 基于图卷积网络的面部表情识别方法 | |
CN109635008B (zh) | 一种基于机器学习的设备故障检测方法 | |
CN116883746A (zh) | 一种基于分区池化超图神经网络的图节点分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |