CN110990784A - 一种基于梯度提升回归树的烟支通风率预测方法 - Google Patents
一种基于梯度提升回归树的烟支通风率预测方法 Download PDFInfo
- Publication number
- CN110990784A CN110990784A CN201911144816.0A CN201911144816A CN110990784A CN 110990784 A CN110990784 A CN 110990784A CN 201911144816 A CN201911144816 A CN 201911144816A CN 110990784 A CN110990784 A CN 110990784A
- Authority
- CN
- China
- Prior art keywords
- cigarette
- model
- ventilation rate
- data
- regression tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 235000019504 cigarettes Nutrition 0.000 title claims abstract description 102
- 238000009423 ventilation Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012360 testing method Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000005457 optimization Methods 0.000 claims abstract description 30
- 230000035699 permeability Effects 0.000 claims abstract description 8
- 238000012795 verification Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 description 24
- 238000009826 distribution Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 241000208125 Nicotiana Species 0.000 description 1
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computational Mathematics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Evolutionary Computation (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Manufacturing Of Cigar And Cigarette Tobacco (AREA)
Abstract
本发明提供了一种基于梯度提升回归树的烟支通风率预测方法,包括数据预处理形成原始数据集Dataset,所述数据包括特征数据:卷烟纸透气度、接装纸透气度、滤棒吸阻、烟支长度、烟支圆周、烟支硬度、烟支质量和烟支吸阻;把原始数据集Dataset划分成训练集Traning set和测试集Test set;采用最大信息系数进行特征选择;采用贝叶斯优化法对基于梯度提升回归树的烟支通风率预测模型进行参数寻优;根据参数寻优的结果,利用测试集Test set中的数据进行模型验证,利用验证后的模型实现烟支通风率预测。本发明建立的模型具有高精度的优点,能够准确实现烟支通风率预测。
Description
技术领域
本发明涉及烟支通风率预测技术领域,具体说是一种基于梯度提升回归树的烟支通风率预测方法。
背景技术
烟支通风率是卷烟生产制造中的一项重要指标,卷烟生产过程中通过调节烟支通风率作为调控香烟制品焦油等有害气体成分含量的一种方式。准确的预测烟支通风率,不仅可以帮助卷烟制造商合理规划产品原料配方,还可以简化香烟制品的质检流程,提高烟草制造效率。然而,目前尚未发现有烟支通风率预测相关的研究。
发明内容
本发明针对现有技术缺陷,提出了一种基于梯度提升回归树的烟支通风率预测方法。其中,采用最大信息系数进行特征选择,降低了对烟支通风率影响程度较低的特征对模型预测准确性的影响,采用贝叶斯优化方法进行模型参数寻优降低了人工调参繁琐和耗时的工作,降低了最佳模型的预测误差。
方法本发明采用的技术方案是一种基于梯度提升回归树的烟支通风率预测方法,包括以下步骤:
步骤1,数据预处理形成原始数据集Dataset,所述数据包括特征数据:卷烟纸透气度、接装纸透气度、滤棒吸阻、烟支长度、烟支圆周、烟支硬度、烟支质量和烟支吸阻;
步骤2,把原始数据集Dataset划分成训练集Traning set和测试集Test set;
步骤3,采用最大信息系数进行特征选择;
步骤4,采用贝叶斯优化法对基于梯度提升回归树的烟支通风率预测模型进行参数寻优;
步骤5,根据参数寻优的结果,利用测试集Test set中的数据进行模型验证,利用验证后的模型实现烟支通风率预测。
而且,步骤1的实现包括以下子步骤,
步骤1.1,去除存在缺失值和数据明显不符合实际标准的数据记录;
步骤1.2,把所有特征的数据归一化;
步骤1.3,将不同类型的烟支数据集成,形成原始数据集Dataset。
而且,步骤2的实现过程为,
步骤2.1,设定训练集Traning set和测试集Test set占原始数据集Dataset的比例,并计算训练集和测试集的数据量;
步骤2.2,根据训练集数据量从原始数据集Dataset中随机挑选训练集的样本,形成训练集Traning set,没被挑选的原始数据集Dataset中的样本形成测试集Testset。
而且,步骤3的实现过程为,
步骤3.1,计算各特征与烟支通风率的最大信息系数MIC;
步骤3.2,采用最大信息系数倒叙排列的方式得到各特征对烟支通风率的影响程度大小关系;
步骤3.3,依次按照最大信息系数从小到大的顺序去掉对应的特征,建立其他所有特征关于烟支通风率的梯度提升回归树模型,并记录对应最佳模型的均方误差;
步骤3.4,统计每去掉一个特征导致均方误差降低的量,从全部特征中依次删去对降低均方误差不明显的特征;
步骤3.5,结合步骤3.2中各特征对烟支通风率的影响程度大小关系和步骤3.4中剩下的特征选择构建烟支通风率的模型的最佳特征。
而且,步骤4实现过程为,
步骤4.1,根据梯度提升回归树模型的特点,选择对梯度提升回归树模型影响程度较大的若干参数作为需要采用贝叶斯优化法进行优化的超参数;
步骤4.2,根据数据和梯度提升回归树模型的特点确定需要进行优化的超参数的范围;
步骤4.3,设置初始点数量和最大迭代次数;
步骤4.4,选择目标函数;
步骤4.5,基于贝叶斯优化方法,利用训练集Traning set的数据得到一组模型最优的参数;
步骤4.6,基于得到的超参数,利用测试集Test set中的数据计算目标函数的值,并记录超参组合和其对应的损失函数结果的样本对;
步骤4.7,利用贝叶斯定理得到关于目标函数的后验概率模型,把基于目前的后验概率模型使得目标函数的函数值最小的参数组合作为下一个尝试参数组合样本;
步骤4.8,重复步骤4.5-4.7直到达到预设的最大迭代次数。
而且,步骤5中,验证模型实现过程为,
步骤5.1;以测试集的数据为输入,基于训练集得到的最佳模型参数得到最佳预测模型,根据最佳预测模型预测测试集所有样本的烟支通风率预测值;
步骤5.2,计算测试集样本的预测值与真实值的误差;
步骤5.3,计算测试集样本的预测值与真实值的均方误差;
步骤5.4,根据步骤5.2得到的各数据样本的误差和步骤5.3得到的整体测试集的均方误差判断预测误差是否在烟支通风率能够接受的误差范围内,且均方误差是否达到了预期的要求,在误差允许范围内得到预测效果最好的烟支通风率预测模型。
本发明的优点或有益效果是:首先从众多的特征中采用最大信息系数筛选了对烟支通风率模型影响程度较大的特征作为训练最终模型的特征,避免了对模型影响程度不大的特征对建模的影响;然后采用贝叶斯优化方法自动确定模型的最佳参数,不仅可以节省人工调参过程繁琐和耗时的过程,还可以使模型达到相对最佳的预测效果;最后,基于梯度提升回归树方法建立的预测模型相对回归、SVM等传统的预测模型具有更高的精度,能够准确实现烟支通风率预测。
附图说明
图1是本发明实施例方法的流程示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。
本发明提出的基于梯度提升树的烟支通风率预测模型,首先采用最大信息系数进行特征选择,然后采用贝叶斯优化方法进行参数寻优,最后根据得到的最优参数确定烟支通风率的最佳预测模型。
本发明考虑到:最大信息系数是一种分析变量间相关关系的方法,与常用的相关系数相比,最大信息系数不仅适用于分析变量间的线性关系,还可以用于分析变量间的非线性关系。贝叶斯优化方法是机器学习中自动寻找模型最佳参数的方法。该方法基于已有的参数和对应参数的评估结果,自动寻找可能使模型获得更加性能的下一组参数,并对下一组参数进行模型训练和评估,节省了人工调参繁琐而又耗时的工作。与网格搜索和随机搜索优化方法相比,贝叶斯优化方法优化的模型不仅预测精度更高,而且迭代次数更少,得到最优模型的参数所需要的时间更少。
而梯度提升回归树方法是一种既适用于分类又适用于回归的方法,具有较强的学习能力。在回归问题中,梯度提升回归树方法通过学习多个弱学习器的方式获得较强的预测效果,在每次迭代中使损失函数沿梯度的负方向降低,从而使每个学习器都尽可能达到最优效果,最终整合所有的弱学习器预测的结果得到最终的预测结果。由于梯度提升回归树方法在构造弱学习器的过程中是通过构造多个弱学习器的方式进行的,并且下一个弱学习器是在前面所有弱学习器的预测误差的基础上学习的,因此基于梯度提升回归树方法构建的预测模型远胜传统的回归模型。
因此,本发明实施例提出一种采用贝叶斯优化方法进行模型参数寻优的基于梯度提升回归树的烟支通风率预测模型,首先数据预处理形成原始数据集Dataset;其次把原始数据集Dataset划分成训练集Traning set和测试集Test set;然后进行特征选择;接着采用贝叶斯优化法对基于梯度提升回归树的烟支通风率预测模型进行参数寻优;最后,根据参数寻优的结果,利用测试集Test set中的数据进行模型验证。
参见图1,本发明实施例提出的一种基于梯度提升回归树的烟支通风率预测方法,包括以下步骤:
步骤1:数据预处理形成原始数据集Dataset,主要特征包括:卷烟纸透气度、接装纸透气度、滤棒吸阻、烟支长度、烟支圆周、烟支硬度、烟支质量、烟支吸阻;
步骤1.1:去除样本中存在缺失值和数据明显不符合实际的数据记录;
步骤1.2:把所有数据样本中所有特征的数据归一化;
步骤1.3:把不同类型的烟支数据集成在同一个文件中,形成原始数据集Dataset。
实施例具体的实施过程说明如下:
对数据集中每个数据记录中每个属性的值x按照以下方式
y=(x-MinValue)/(MaxValue-Minvalue)
得到归一化之后的值y,把计算得到的每一个y值作为对应属性的值,从而组成新的n×m的数据集。
步骤2:把原始数据集Dataset划分成训练集Traning set和测试集Test set;
步骤2.1:设定训练集Traning set和测试集Test set占原始数据集Dataset的比例,并计算训练集和测试集的数据量;
步骤2.2:根据训练集数据量从原始数据集Dataset中随机挑选训练集的样本,形成训练集Traning set,没被挑选的原始数据集Dataset中的样本形成测试集Test set。
实施例具体的实施过程说明如下:
一般的,数据集中2/3-4/5的数据记录划分到训练集,剩下的数据划分到测试集。在划分训练集和测试的过程中采用随机划分的方式,以避免数据集划分过程中人为因素对实验结果的影响。
步骤3:特征选择;
步骤3.1:计算各特征与烟支通风率的最大信息系数MIC;
步骤3.2:采用最大信息系数倒叙排列的方式得到各特征对烟支通风率的影响程度大小关系;
步骤3.3:依次按照最大信息系数从小到大的顺序去掉对应的特征,建立其他所有特征关于烟支通风率的梯度提升回归树模型,并记录对应最佳模型的均方误差;
步骤3.4:统计每去掉一个特征导致均方误差降低的量,从全部特征中依次删去对降低均方误差不明显的特征;
步骤3.5:结合步骤3.2中各特征对烟支通风率的影响程度大小关系和步骤3.4中剩下的特征选择构建烟支通风率的模型的最佳特征。
实施例具体的实施过程说明如下:
最大信息系数MIC不仅可以得到变量间线性相关关系,还可以发现变量间非线性相关关系,比常用的相关系数的适用范围更广泛。在计算最大信息系数的过程中需要用到互信息的概念。设两个随机变量(x,y)的联合分布为p(x,y),边缘分布分别为p(x),p(y),互信息I(x;y)是联合分布p(x,y)与乘积分布p(x)p(y)的相对熵,即:
然而,联合概率计算相对比较麻烦。MIC是针对两个变量之间的关系描述的,这两个变量通常是二维空间中的离散变量,并使用散点图表示。将当前二维空间在x、y方向分别划分为一定的区间数,然后查看当前的散点在各个方格中落入的情况,这样就解决互信息中联合概率不好计算的问题。具体的,最大信息系数MIC的计算公式如下:
其中,a、b是在x、y方向上的划分格子的个数,本质上就是网格分布,B是变量,B的大小优选设置为数据量的0.6次方左右。
把最大信息系数按照倒序的方式排列,可以在不考虑建模结果的情况下初步确定特征对烟支通风率模型预测误差的影响程度大小关系,一般选择影响程度大的特征进行建模可以得到更好的预测模型。
依次按照最大信息系数从小到大的顺序去掉对应的特征,建立其他所有特征关于烟支通风率的梯度提升回归树模型,根据所删除的特征建模所得的模型误差,可以得到删掉的特征对烟支通风率模型的影响程度。
按照最大信息系数从大到小排列的顺序依次选择对烟支通风率预测模型影响最大的特征,同时观察去掉这一特征对模型预测的误差,若去掉这一特征对预测模型的预测误差影响不大,则该特征不作为构建烟支通风率模型的特征;否则,该特征作为构建烟支通风率模型的特征之一。最终选用的全部特征将用于训练烟支通风率预测模型。
步骤4:采用贝叶斯优化法对基于梯度提升回归树的烟支通风率预测模型进行参数寻优。
步骤4.1:根据梯度提升回归树模型的特点,选择对梯度提升回归树模型影响程度较大的几个参数作为需要采用贝叶斯优化法进行优化的超参数;
步骤4.2:根据数据和梯度提升回归树模型的特点确定需要进行优化的超参数的具体范围;
步骤4.3:设置初始点数量和最大迭代次数;
步骤4.4:选择合适的目标函数;
步骤4.5:基于贝叶斯优化方法,利用训练集Traning set的数据得到一组模型最优的参数;
步骤4.6:基于得到的超参数,利用测试集Test set中的数据计算目标函数的值,并记录超参组合和其对应的损失函数结果的样本对;
步骤4.7:利用贝叶斯定理得到关于目标函数的后验概率模型,把基于目前的后验概率模型使得目标函数的函数值最小的参数组合作为下一个尝试参数组合样本;
步骤4.8:重复步骤4.5-4.7直到达到预设的最大迭代次数。
实施例具体的实施过程说明如下:
对于梯度提升回归树模型而言,影响该模型的预测误差的参数主要有:学习率(learning_rate)、最大迭代次数(n_estimators)、子采样(subsample)、最大深度(max_depth)、分裂节点所需最小样本数(min_samples_split)。根据经验和模型的特点对这些参数设置的范围如下:
学习率(learning_rate):0.001-0.5;
最大迭代次数(n_estimators)100--2000;
子采样(subsample);0.1--1
最大深度(max_depth);5--10
分裂节点所需最小样本数(min_samples_split):1--8
由于烟支通风率是连续型变量,因此可以使用均方根误差作为目标函数,具体公式如下:
其中,xj表示第j个特征的真实值,x′j表示第j个特征的预测值。
基于贝叶斯优化方法,利用训练集Traning set的数据得到一组模型最优的参数的过程,可以把最终的模型看作一个黑盒模型。具体的,假设模型的参数的组合是X={x1,x2,...,xn},其中xi表示基于数据训练得到的最佳梯度提升回归树模型的参数,目标函数与各参数之间具有映射关系,比如:
RMSE=f(x)
其中,函数f(x)表示均方根误差RMSE与参数x的映射关系。
此时,采用贝叶斯优化方法自动调参的过程就转化为一个优化问题:寻找最优参数x*,使其满足下面的关系:
x*=argmin(f(x))
即使目标函数RMSE的值最小化的参数组合就是基于梯度提升回归树的烟支通风率预测模型的最佳参数组合。
而函数f(x)f(x)相当于一个黑盒函数,它的具体表达式未知,不过可以采用初始化数据和先验假设结合贝叶斯理论解决这个问题。假设已经积累了一些参数组合和其对应的目标函数的样本,记为:
D1:n={x1:t,f(x1:t)}
其中,x1:t表示一组梯度提升回归树的参数组合,f(x1:t)表示目标函数与各参数之间具有映射关系。
在已知P(D1:t,f)和先验概率P(f)的前提下,可以运用贝叶斯理论得到关于f的后验概率,基于这个概率可以得到继续进行下一轮训练的最佳参数。针对这个问题的贝叶斯公式可以具体表示为:
其中,f是目标函数与各参数之间具有映射关系,P(D1:n)表示参数组合为x1:n的样本的先验概率,P(f)表示目标函数f的先验概率,P(D1:n|f)表示在目标函数是f的前提下,参数组合为x1∶n的样本的后验概率。
步骤5:利用测试集Test set中的数据进行模型验证,利用验证后的模型实现烟支通风率预测。
实施例中的模型验证如下:
步骤5.1;以测试集的数据为输入,基于训练集得到的最佳模型参数得到最佳预测模型,根据最佳预测模型预测测试集所有样本的烟支通风率预测值;
步骤5.2:计算测试集样本的预测值与真实值的误差;
步骤5.3:计算测试集样本的预测值与真实值的均方误差。
步骤5.4:根据步骤5.2得到的各数据样本的误差和步骤5.3得到的整体测试集的均方误差判断预测误差是否在烟支通风率可接受的误差范围内,且均方误差是否达到了预期的要求,在误差允许范围内得到预测效果最好的烟支通风率预测模型。
实施例具体的实施过程说明如下:
假定训练集Test set中的数据为:
(X,Y)={xij,yi|i=1,2,...,m;j=1,2,...,n},其中m表示样本总数,n表示特征总数,xij表示第i个数据样本的第j个特征,yi表示第i个数据样本的真实值。
(1)利用训练好的梯度提升回归树模型f(X)预测样本的值Y_predi:
Y_predi=f(xij),i∈[1,m],j∈[1,n]
(2)计算样本的预测误差errori:
(3)计算测试集的均方误差MSE:
根据计算得到的每个样本的预测误差和烟支通风率误差标准判断当前模型对单个样本的预测误差是否在可接受的误差范围,若在可接受范围内,根据均方误差判断模型的预测效果是否在达到了预期的要求。若要提升模型的预测效果,可以通过增加特征和增大超参数的参数空间的方式进行优化。
利用最终的模型,对任何输入的待检测烟支特征数据,都可以方便地实现烟支通风率预测。
具体实施时,以上流程可采用计算机软件技术实现自动运行。运行本发明方法的装置也应当在本发明的保护范围内。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的结构关系及原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (6)
1.一种基于梯度提升回归树的烟支通风率预测方法,其特征在于,包括以下步骤:
步骤1,数据预处理形成原始数据集Dataset,所述数据包括特征数据:卷烟纸透气度、接装纸透气度、滤棒吸阻、烟支长度、烟支圆周、烟支硬度、烟支质量和烟支吸阻;
步骤2,把原始数据集Dataset划分成训练集Traning set和测试集Test set;
步骤3,采用最大信息系数进行特征选择;
步骤4,采用贝叶斯优化法对基于梯度提升回归树的烟支通风率预测模型进行参数寻优;
步骤5,根据参数寻优的结果,利用测试集Test set中的数据进行模型验证,利用验证后的模型实现烟支通风率预测。
2.根据权利要求1所述的一种基于梯度提升回归树的烟支通风率预测方法,其特征在于:步骤1的实现包括以下子步骤,
步骤1.1,去除存在缺失值和数据明显不符合实际标准的数据记录;
步骤1.2,把所有特征的数据归一化;
步骤1.3,将不同类型的烟支数据集成,形成原始数据集Dataset。
3.根据权利要求2所述的一种基于梯度提升回归树的烟支通风率预测方法,其特征在于:步骤2的实现过程为,
步骤2.1,设定训练集Traning set和测试集Test set占原始数据集Dataset的比例,并计算训练集和测试集的数据量;
步骤2.2,根据训练集数据量从原始数据集Dataset中随机挑选训练集的样本,形成训练集Traning set,没被挑选的原始数据集Dataset中的样本形成测试集Test set。
4.根据权利要求3所述的一种基于梯度提升回归树的烟支通风率预测方法,其特征在于:步骤3的实现过程为,
步骤3.1,计算各特征与烟支通风率的最大信息系数MIC;
步骤3.2,采用最大信息系数倒叙排列的方式得到各特征对烟支通风率的影响程度大小关系;
步骤3.3,依次按照最大信息系数从小到大的顺序去掉对应的特征,建立其他所有特征关于烟支通风率的梯度提升回归树模型,并记录对应最佳模型的均方误差;
步骤3.4,统计每去掉一个特征导致均方误差降低的量,从全部特征中依次删去对降低均方误差不明显的特征;
步骤3.5,结合步骤3.2中各特征对烟支通风率的影响程度大小关系和步骤3.4中剩下的特征选择构建烟支通风率的模型的最佳特征。
5.根据权利要求4所述的一种基于梯度提升回归树的烟支通风率预测方法,其特征在于:步骤4实现过程为,
步骤4.1,根据梯度提升回归树模型的特点,选择对梯度提升回归树模型影响程度较大的若干参数作为需要采用贝叶斯优化法进行优化的超参数;
步骤4.2,根据数据和梯度提升回归树模型的特点确定需要进行优化的超参数的范围;
步骤4.3,设置初始点数量和最大迭代次数;
步骤4.4,选择目标函数;
步骤4.5,基于贝叶斯优化方法,利用训练集Traning set的数据得到一组模型最优的参数;
步骤4.6,基于得到的超参数,利用测试集Test set中的数据计算目标函数的值,并记录超参组合和其对应的损失函数结果的样本对;
步骤4.7,利用贝叶斯定理得到关于目标函数的后验概率模型,把基于目前的后验概率模型使得目标函数的函数值最小的参数组合作为下一个尝试参数组合样本;
步骤4.8,重复步骤4.5-4.7直到达到预设的最大迭代次数。
6.根据权利要求5所述的一种基于梯度提升回归树的烟支通风率预测方法,其特征在于:步骤5中,验证模型实现过程为,
步骤5.1;以测试集的数据为输入,基于训练集得到的最佳模型参数得到最佳预测模型,根据最佳预测模型预测测试集所有样本的烟支通风率预测值;
步骤5.2,计算测试集样本的预测值与真实值的误差;
步骤5.3,计算测试集样本的预测值与真实值的均方误差;
步骤5.4,根据步骤5.2得到的各数据样本的误差和步骤5.3得到的整体测试集的均方误差判断预测误差是否在烟支通风率能够接受的误差范围内,且均方误差是否达到了预期的要求,在误差允许范围内得到预测效果最好的烟支通风率预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911144816.0A CN110990784B (zh) | 2019-11-19 | 2019-11-19 | 一种基于梯度提升回归树的烟支通风率预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911144816.0A CN110990784B (zh) | 2019-11-19 | 2019-11-19 | 一种基于梯度提升回归树的烟支通风率预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110990784A true CN110990784A (zh) | 2020-04-10 |
CN110990784B CN110990784B (zh) | 2024-01-26 |
Family
ID=70085356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911144816.0A Active CN110990784B (zh) | 2019-11-19 | 2019-11-19 | 一种基于梯度提升回归树的烟支通风率预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110990784B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111612427A (zh) * | 2020-05-25 | 2020-09-01 | 青岛海大新星软件咨询有限公司 | 一种基于深度学习的烟支吸阻智能控制系统及其控制方法 |
CN112287601A (zh) * | 2020-10-23 | 2021-01-29 | 红云红河烟草(集团)有限责任公司 | 利用r语言构建烟叶质量预测模型的方法、介质及应用 |
CN112800828A (zh) * | 2020-12-18 | 2021-05-14 | 零八一电子集团有限公司 | 地面栅格占有概率目标轨迹方法 |
CN112884215A (zh) * | 2021-02-02 | 2021-06-01 | 国网甘肃省电力公司信息通信公司 | 一种基于梯度增强树人口预测模型的参数优化方法 |
CN113256021A (zh) * | 2021-06-16 | 2021-08-13 | 北京德风新征程科技有限公司 | 基于集成学习的产品质量报警方法、装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080133434A1 (en) * | 2004-11-12 | 2008-06-05 | Adnan Asar | Method and apparatus for predictive modeling & analysis for knowledge discovery |
CN106108107A (zh) * | 2016-07-29 | 2016-11-16 | 中国烟草总公司郑州烟草研究院 | 一种基于卷烟结构与物性参数的卷烟总通风率、滤嘴通风率以及吸阻的模型化设计方法 |
WO2017059022A1 (en) * | 2015-09-30 | 2017-04-06 | Inform Genomics, Inc. | Systems and methods for predicting treatment-regiment-related outcomes |
CN107348563A (zh) * | 2017-07-24 | 2017-11-17 | 湖北中烟工业有限责任公司 | 一种新型卷烟 |
CN108563829A (zh) * | 2018-03-14 | 2018-09-21 | 天津大学 | 一种基于贝叶斯鲁棒函数回归的多步风速预报方法 |
CN109222208A (zh) * | 2018-10-30 | 2019-01-18 | 杭州安脉盛智能技术有限公司 | 面向卷烟生产指标控制的制丝工艺分析优化方法及系统 |
CN110245802A (zh) * | 2019-06-20 | 2019-09-17 | 杭州安脉盛智能技术有限公司 | 基于改进梯度提升决策树的卷烟空头率预测方法及系统 |
CN110443417A (zh) * | 2019-07-05 | 2019-11-12 | 上海电力大学 | 基于小波变换的多模型集成负荷预测方法 |
-
2019
- 2019-11-19 CN CN201911144816.0A patent/CN110990784B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080133434A1 (en) * | 2004-11-12 | 2008-06-05 | Adnan Asar | Method and apparatus for predictive modeling & analysis for knowledge discovery |
WO2017059022A1 (en) * | 2015-09-30 | 2017-04-06 | Inform Genomics, Inc. | Systems and methods for predicting treatment-regiment-related outcomes |
CN106108107A (zh) * | 2016-07-29 | 2016-11-16 | 中国烟草总公司郑州烟草研究院 | 一种基于卷烟结构与物性参数的卷烟总通风率、滤嘴通风率以及吸阻的模型化设计方法 |
CN107348563A (zh) * | 2017-07-24 | 2017-11-17 | 湖北中烟工业有限责任公司 | 一种新型卷烟 |
CN108563829A (zh) * | 2018-03-14 | 2018-09-21 | 天津大学 | 一种基于贝叶斯鲁棒函数回归的多步风速预报方法 |
CN109222208A (zh) * | 2018-10-30 | 2019-01-18 | 杭州安脉盛智能技术有限公司 | 面向卷烟生产指标控制的制丝工艺分析优化方法及系统 |
CN110245802A (zh) * | 2019-06-20 | 2019-09-17 | 杭州安脉盛智能技术有限公司 | 基于改进梯度提升决策树的卷烟空头率预测方法及系统 |
CN110443417A (zh) * | 2019-07-05 | 2019-11-12 | 上海电力大学 | 基于小波变换的多模型集成负荷预测方法 |
Non-Patent Citations (2)
Title |
---|
徐兵等: "采用梯度提升决策树的车辆换道融合决策模型", vol. 53, no. 6, pages 1171 - 1181 * |
李国;江晓东;: "基于提升回归树与随机森林的风电功率集成预测方法", 电力系统及其自动化学报, no. 11, pages 74 - 78 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111612427A (zh) * | 2020-05-25 | 2020-09-01 | 青岛海大新星软件咨询有限公司 | 一种基于深度学习的烟支吸阻智能控制系统及其控制方法 |
CN111612427B (zh) * | 2020-05-25 | 2023-07-11 | 青岛海大新星软件咨询有限公司 | 一种基于深度学习的烟支吸阻智能控制系统及其控制方法 |
CN112287601A (zh) * | 2020-10-23 | 2021-01-29 | 红云红河烟草(集团)有限责任公司 | 利用r语言构建烟叶质量预测模型的方法、介质及应用 |
CN112287601B (zh) * | 2020-10-23 | 2023-08-01 | 红云红河烟草(集团)有限责任公司 | 利用r语言构建烟叶质量预测模型的方法、介质及应用 |
CN112800828A (zh) * | 2020-12-18 | 2021-05-14 | 零八一电子集团有限公司 | 地面栅格占有概率目标轨迹方法 |
CN112884215A (zh) * | 2021-02-02 | 2021-06-01 | 国网甘肃省电力公司信息通信公司 | 一种基于梯度增强树人口预测模型的参数优化方法 |
CN113256021A (zh) * | 2021-06-16 | 2021-08-13 | 北京德风新征程科技有限公司 | 基于集成学习的产品质量报警方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110990784B (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110990784B (zh) | 一种基于梯度提升回归树的烟支通风率预测方法 | |
CN110245802B (zh) | 基于改进梯度提升决策树的卷烟空头率预测方法及系统 | |
CN110851645B (zh) | 一种基于深度度量学习下相似性保持的图像检索方法 | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN109242149B (zh) | 一种基于教育数据挖掘的学生成绩早期预警方法及系统 | |
CN112613536B (zh) | 一种基于smote和深度学习的近红外光谱柴油牌号识别方法 | |
CN110807760B (zh) | 一种烟叶分级方法及系统 | |
CN106228185A (zh) | 一种基于神经网络的通用图像分类识别系统及方法 | |
CN110728656A (zh) | 基于元学习的无参考图像质量数据处理方法、智能终端 | |
CN112101430A (zh) | 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法 | |
CN110866134B (zh) | 一种面向图像检索的分布一致性保持度量学习方法 | |
CN110533588B (zh) | 基于生成对抗网络的根系图像修复方法 | |
CN108710576B (zh) | 基于异构迁移的数据集扩充方法及软件缺陷预测方法 | |
CN110689523A (zh) | 基于元学习个性化图像信息评价方法、信息数据处理终端 | |
CN109754122A (zh) | 一种基于随机森林特征提取的bp神经网络的数值预测方法 | |
CN117454255B (zh) | 一种智慧建筑能耗数据优化存储方法 | |
CN110956277A (zh) | 一种交互式的迭代建模系统及方法 | |
CN113011559A (zh) | 基于kubernetes的自动机器学习方法及系统 | |
CN108596118B (zh) | 一种基于人工蜂群算法的遥感影像分类方法及系统 | |
CN113705110A (zh) | 一种基于双重随机森林回归方法的爆破振动速度预测方法 | |
CN113393051A (zh) | 基于深度迁移学习的配电网投资决策方法 | |
CN113377991A (zh) | 一种基于最难正负样本的图像检索方法 | |
CN111680740A (zh) | 神经网络的训练方法、装置及用电负荷的判别方法、装置 | |
CN117392450A (zh) | 一种基于进化多尺度特征学习的钢铁材料质量解析方法 | |
CN111948561A (zh) | 基于实测大数据和人工智能学习算法的电池寿命预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |