CN113488113B - 一种复烤片烟的工业使用价值识别方法 - Google Patents
一种复烤片烟的工业使用价值识别方法 Download PDFInfo
- Publication number
- CN113488113B CN113488113B CN202110786242.8A CN202110786242A CN113488113B CN 113488113 B CN113488113 B CN 113488113B CN 202110786242 A CN202110786242 A CN 202110786242A CN 113488113 B CN113488113 B CN 113488113B
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- tobacco
- conventional chemical
- sensory evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 241000208125 Nicotiana Species 0.000 title claims abstract description 84
- 235000002637 Nicotiana tabacum Nutrition 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000000126 substance Substances 0.000 claims abstract description 42
- 230000001953 sensory effect Effects 0.000 claims abstract description 41
- 238000007637 random forest analysis Methods 0.000 claims abstract description 40
- 238000011156 evaluation Methods 0.000 claims abstract description 39
- 238000012360 testing method Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000010845 search algorithm Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000012795 verification Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000005070 sampling Methods 0.000 claims abstract description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 238000003066 decision tree Methods 0.000 claims description 20
- 239000003513 alkali Substances 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 14
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- NMLQNVRHVSWEGS-UHFFFAOYSA-N [Cl].[K] Chemical compound [Cl].[K] NMLQNVRHVSWEGS-UHFFFAOYSA-N 0.000 claims description 9
- 239000003205 fragrance Substances 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 7
- ZAMOUSCENKQFHK-UHFFFAOYSA-N Chlorine atom Chemical compound [Cl] ZAMOUSCENKQFHK-UHFFFAOYSA-N 0.000 claims description 6
- 206010013911 Dysgeusia Diseases 0.000 claims description 6
- 241000196324 Embryophyta Species 0.000 claims description 6
- ZLMJMSJWJFRBEC-UHFFFAOYSA-N Potassium Chemical compound [K] ZLMJMSJWJFRBEC-UHFFFAOYSA-N 0.000 claims description 6
- 239000000460 chlorine Substances 0.000 claims description 6
- 229910052801 chlorine Inorganic materials 0.000 claims description 6
- 239000007789 gas Substances 0.000 claims description 6
- 230000007794 irritation Effects 0.000 claims description 6
- 229910052757 nitrogen Inorganic materials 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 239000011591 potassium Substances 0.000 claims description 6
- 229910052700 potassium Inorganic materials 0.000 claims description 6
- 230000035699 permeability Effects 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 235000009508 confectionery Nutrition 0.000 claims description 4
- 238000010162 Tukey test Methods 0.000 claims description 3
- 230000000630 rising effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000011426 transformation method Methods 0.000 claims 2
- 230000035515 penetration Effects 0.000 claims 1
- 235000019504 cigarettes Nutrition 0.000 description 4
- 238000002790 cross-validation Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- A—HUMAN NECESSITIES
- A24—TOBACCO; CIGARS; CIGARETTES; SIMULATED SMOKING DEVICES; SMOKERS' REQUISITES
- A24B—MANUFACTURE OR PREPARATION OF TOBACCO FOR SMOKING OR CHEWING; TOBACCO; SNUFF
- A24B3/00—Preparing tobacco in the factory
- A24B3/10—Roasting or cooling tobacco
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/40—Searching chemical structures or physicochemical data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Manufacture Of Tobacco Products (AREA)
Abstract
本发明提供一种复烤片烟的工业使用价值识别方法,该方法包括如下步骤:S1:采集各等级复烤片烟样本,获取其感官评价数据和复烤片烟常规化学数据,并对所述数据进行预处理;S2:将预处理后的数据压缩在[0,1]区间内;S3:按照分层抽样的方法将压缩后的数据划分为训练集和测试集,并确定最优特征测试集;S4:采用带交叉验证的网格搜索算法,优化随机森林分类模型的参数组合,选择平均分类精度最高的随机森林分类模型作为复烤片烟工业使用价值预测模型;S5:将最优特征测试集中的数据输入到复烤片烟工业使用价值预测模型中,预测复烤片烟工业使用价值的使用属性。该方法尤其适合处理高维度数据,可有效提高分类的精确度,提升烟叶使用效率。
Description
技术领域
本发明涉及食品质量分析检测领域,具体地说,是涉及一种对复烤片烟工业使用价值的识别方法,特别涉及一种通过隶属度函数变换及极差法分别对片烟常规化学数据和感官评价分值进行处理,进而消除量纲影响转变为单调数据,同时基于随机森林算法建立复烤片烟工业使用价值识别的方法。
背景技术
复烤片烟是卷烟企业叶组配方的直接组成部分。复烤片烟工业使用价值的识别对卷烟工业企业的烟叶资源采购规划、叶组配方设计及潜在烟叶资源挖掘都起到了关键性的作用。有效的片烟归类有助于提升烟叶的使用效率,简化配方设计工作,为挖掘潜在的烟叶资源提供了基础。
目前,复烤片烟的工业使用属性的主要识别方式是借助于评吸人员进行感官鉴定,依据风格品质、常规化学成分以及“配方经验”等对复烤片烟的使用属性进行识别。相关技术中,也有Fisher判别法,Bayes判别法,logistics有序回归分类、支持向量机、BP神经网络模型等。由于烟叶感官指标具备极强的自相关性,烟叶常规化学指标之间又存在不确定性和非线性关系等,导致模型出现不稳定、泛化能力较差、准确率较低的现象。因此,建立一套稳定、精确的识别模型对复烤片烟的工业使用价值归类具有重要意义。
已有大量研究表明,烟叶化学成分与烟叶品质的关系并不是单调递增的。直接采用原始数据进行分裂判断则明显不合适。基于此,如何在感官评价数据的基础上,对复烤片烟常规化学数据有效处理后,建立稳定、精准的复烤片烟工业使用价值识别模型是目前本领域内的技术难点之一。
发明内容
为了解决上述技术问题,本发明的目的是提供一种复烤片烟的工业使用价值识别方法,该方法尤其适合处理高维度数据,可有效提高分类的精确度,提升烟叶使用效率。
基于上述目的,本发明的一个方面,提供一种复烤片烟的工业使用价值识别方法,该方法包括如下步骤:
S1:采集各等级复烤片烟样本,获取其感官评价数据和复烤片烟常规化学数据,并对所述感官评价数据和复烤片烟常规化学数据进行预处理;
S2:对预处理后的感官评价数据进行极差变换并压缩在[0,1]区间内,同时,对预处理后的复烤片烟常规化学数据进行隶属度函数变换,转化成单调性数据,并压缩在[0,1]区间内;
S3:按照分层抽样的方法将压缩后的数据划分为训练集和测试集,并采用Boruta算法结合随机森林算法确定最优特征测试集;
S4:采用带交叉验证的网格搜索算法,优化随机森林分类模型的参数组合,选择平均分类精度最高的随机森林分类模型作为复烤片烟工业使用价值预测模型;
S5:将最优特征测试集中的数据输入到复烤片烟工业使用价值预测模型中,预测复烤片烟工业使用价值的使用属性。
作为优选,所述感官评价数据包括优雅感、甜香、透发性、成团性、刺激性、余味、香气量、细腻感、清晰度、柔和性、杂气、润感;所述复烤片烟常规化学数据包括总糖、还原糖、总植物碱、总氮、含钾量、含氯量、糖碱比、氮碱比及钾氯比。
作为优选,对所述感官评价数据和片烟常规化学数据进行预处理包括空值处理、异常值剔除;
其中,空值处理具体包括采用平均值替换缺失值;
所述异常值处理具体包括采用Tukey’s test方法对异常值进行直接删除。
作为优选,步骤S2中对感官评价数据进行极差变换并压缩在[0,1]区间内的具体方法为:
通过极差变换法将感官评价数据无量纲化并压缩在[0,1]区间内,所述极差法公式如下:
式中:Rjc为参评指标j的压缩结果,xij为i样品感官参评指标j打分值。
作为优选,对片烟常规化学数据进行隶属度函数变换,转化成单调性数据,并压缩在[0,1]区间内的具体方法为:
采用隶属度函数将片烟常规化学成分数据转化成单调性数据,并将所述单调性数据压缩在[0,1]的区间内,其中:
……中间梯形隶属度函数;
……升半梯形隶属度函数;
其中:f(x)为隶属度函数,x1、x2、x3和x4分别表示复烤片烟常规化学指标的下临界值、最优值下限、最优值上限和上临界值;所述复烤片烟常规化学数据中的总糖、还原糖、氯、总氮、糖碱比、氮碱比的隶属度函数类型为中间梯形,钾氯比和钾的隶属度函数类型为升半梯形。
作为优选,步骤S3中,利用Boruta算法采用Boruta算法结合随机森林算法确定最优特征测试集的具体方法为:
S31:复制原始特征集R,对每个原始特征随机混合构造具有随机性的阴影特征集S。将原始特征集与阴影特征集合并构成新的特征矩阵D=[R,S],为给定的数据集增加随机性;
S32:采用随机森林方法训练新特征集合D,计算真实特征和阴影特征的重要性;
S33:比较真实特征矩阵重要性与阴影特征矩阵中重要性的最大值shadowMax;若真实特征矩阵R中的重要性大于shadowMax的特征,记录1次命中,结合真实特征累计命中次数,标记特征重要或不重要;
S34:删除不重要的特征,重复步骤S31-S33,当所有特征得到确认或拒绝时,算法停止;
S35:选取以阴影特征重要性的最大值shadowMax为筛选指标,当特征变量重要性大于shadowMax的均值时,则该特征被选入,最终形成最优特征测试集。
作为优选,最优特征测试集包括15维度:优雅感、甜香、透发性、成团性、刺激性、余味、香气量、细腻感、清晰度、柔和性、杂气、润感、总糖、钾氯比、总植物碱。
作为优选,步骤S4中,随机森林分类模型优化中,采用带交叉验证的网格搜索算法并结合分类精度对随机森林参数进行优化。
作为优选,随机森林分类模型优化中采用的参数包括决策树的数量n_estimators和决策树节点分裂时候选特征子集中最大特征数max_features。
作为优选,所述步骤S4中优化的随机森林参数为决策树的数量范围n_estimators∈[50,410],步长为20、决策树分裂最大特征数范围max_features∈[1,6],步长为1;参数包括:决策树的数量和决策树分裂最大特征数。
与现有技术相比,本发明的有益效果为:
本发明通过隶属度函数变换将片烟常规化学数据转化为单调数据,再结合感官评价数据建立原始特征数据集,采用Boruta算法结合随机森林算法确定最优特征集合,使用采用带交叉验证的网格搜索算法优化了随机森林的超参数组合,最终得到了最优的随机森林分类预测模型。基于此,本发明可有效提高分类的精确度,且该方法受数据的共线性影响低,适合处理高维度数据。相较于传统的距离判别、线性判别、贝叶斯判别、支持向量机、BP神经网络等模型,该方法具备更高的预测精度,有利于复烤片烟工业使用价值在等级识别中的精准判定。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的限定。
图1是本发明实施例中复烤片烟的工业使用识别方法的逻辑框图;
图2是本发明实施例中各指标重要性得分图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本实施例提供一种复烤片烟的工业使用价值识别方法,参考图1,该方法包括如下步骤:
S1:采集各等级复烤片烟样本,获取其感官评价数据和复烤片烟常规化学数据,并对所述感官评价数据和复烤片烟常规化学数据进行预处理;具体地:
对在近5年内库片烟数据进行采集,收集包括感官质量评价和片烟常规化学的数据集,优选地,采集某一卷烟工业企业库存近5年所有等级复烤片烟样品数据,包工业使用属性,其中分别均分为2份,1份由感官评定专家组的感官评价数据,1份是样品对应的片烟常规化学数据;优选地,所述感官评价数据包括优雅感、甜香、透发性、成团性、刺激性、余味、香气量、细腻感、清晰度、柔和性、杂气及润感等;所述复烤片烟常规化学数据包括总糖、还原糖、总植物碱、总氮、含钾量、含氯量、糖碱比、氮碱比及钾氯比等。
S2:对预处理后的感官评价数据进行极差变换并压缩在[0,1]区间内,同时,对预处理后的复烤片烟常规化学数据进行隶属度函数变换,转化成单调性数据,并压缩在[0,1]区间内;
S3:按照分层抽样的方法将压缩后的数据划分为训练集和测试集,并采用Boruta算法结合随机森林算法确定最优特征测试集;
S4:采用带交叉验证的网格搜索算法,优化随机森林分类模型的参数组合,选择平均分类精度最高的随机森林分类模型作为复烤片烟工业使用价值预测模型;
S5:将最优特征测试集中的数据输入到复烤片烟工业使用价值预测模型中,预测复烤片烟工业使用价值的使用属性。
作为优选,对所述感官评价数据和片烟常规化学数据进行预处理包括空值处理、异常值剔除;
其中,空值处理具体包括采用平均值替换缺失值;
所述异常值处理具体包括采用Tukey’s test方法对异常值进行直接删除。
作为一种较优的实施方案,步骤S2中对感官评价数据进行极差变换并压缩在[0,1]区间内的具体方法为:
通过极差变换法将感官评价数据无量纲化并压缩在[0,1]区间内,所述极差法公式如下:
式中:Rjc为参评指标j的压缩结果,xij为i样品感官参评指标j打分值。
作为一种较优的实施方案,对片烟常规化学数据进行隶属度函数变换,转化成单调性数据,并压缩在[0,1]区间内的具体方法为:
采用隶属度函数将片烟常规化学成分数据转化成单调性数据,并将所述单调性数据压缩在[0,1]的区间内,其中:
……中间梯形隶属度函数;
……升半梯形隶属度函数;
其中:f(x)为隶属度函数,x1、x2、x3和x4分别表示复烤片烟常规化学指标的下临界值、最优值下限、最优值上限和上临界值;所述复烤片烟常规化学数据中的总糖、还原糖、氯、总氮、糖碱比、氮碱比的隶属度函数类型为中间梯形,钾氯比和钾的隶属度函数类型为升半梯形。
作为一种较优的实施方案,步骤S3中,采用Boruta算法结合随机森林算法确定最优特征测试集的具体方法为:
S31:复制原始特征集R,对每个原始特征随机混合构造具有随机性的阴影特征集S。将原始特征集与阴影特征集合并构成新的特征矩阵D=[R,S],为给定的数据集增加随机性;
S32:采用随机森林方法训练新特征集合D,计算真实特征和阴影特征的重要性;
S33:比较真实特征矩阵重要性与阴影特征矩阵中重要性的最大值shadowMax;若真实特征矩阵R中的重要性大于shadowMax的特征,记录1次命中,结合真实特征累计命中次数,标记特征重要或不重要;
S34:删除不重要的特征,重复步骤S31-S33,当所有特征得到确认或拒绝时,算法停止;
S35:选取以阴影特征重要性的最大值shadowMax为筛选指标,当特征变量重要性大于shadowMax的均值时,则该特征被选入,最终形成最优特征测试集。
作为一种较优的实施方案,如图2所示,用箱线图表示其特征重要性得分,当特征变量重要性大于shadowMax的均值时,则该特征被选入,最终形成最优特征集合。最优特征测试集包括15维度:优雅感、甜香、透发性、成团性、刺激性、余味、香气量、细腻感、清晰度、柔和性、杂气、润感、总糖、钾氯比、总植物碱。
作为一种较优的实施方案,步骤S4中,采用带交叉验证的网格搜索算法并结合分类精度对随机森林参数进行优化。
优选地,随机森林分类模型优化中采用的参数包括决策树的数量n_estimators和决策树节点分裂时候选特征子集中最大特征数max_features。
优选地,所述步骤S4中优化的随机森林参数为决策树的数量范围n_estimators∈[50,410],步长为20、决策树分裂最大特征数范围max_features∈[1,6],步长为1;参数包括:决策树的数量和决策树分裂最大特征数。
随机森林分类模型优化中,基于5折交叉验证,采用网格搜索算法对随机森林参数进行优化,确定随机森林决策树个数、决策树分裂最大特征数。得到多组参数组合下的模型平均预测准确率,选择平均分类精度最高的参数组合作为随机森林分类的预测模型的参数。根据以上步骤得到最优参数组合n_estimators:270,max_features:3。
步骤S5中,复烤片烟工业使用价值预测:利用训练好的复烤片烟工业使用价值预测模型,在程序的输入端口输入设置的15个感官评定得分和片烟常规化学成分含量的指标、步骤4中随机森林的最优参数组合,模型的输出即为该复烤片烟的工业使用价值识别情况。
综上,本发明通过隶属度函数变换将片烟常规化学数据转化为单调数据,再结合感官评价数据建立原始特征数据集,采用Boruta算法结合随机森林算法确定最优特征集合,使用采用带交叉验证的网格搜索算法优化了随机森林的超参数组合,最终得到了最优的随机森林分类预测模型。基于此,本发明可有效提高分类的精确度,且该方法受数据的共线性影响低,适合处理高维度数据。相较于传统的距离判别、线性判别、贝叶斯判别、支持向量机、BP神经网络等模型,该方法具备更高的预测精度,有利于复烤片烟工业使用价值在等级识别中的精准判定。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (3)
1.一种复烤片烟的工业使用价值识别方法,其特征在于,包括如下步骤:
S1:采集各等级复烤片烟样本,获取其感官评价数据和复烤片烟常规化学数据,并对所述感官评价数据和复烤片烟常规化学数据进行预处理;
S2:对预处理后的感官评价数据进行极差变换并压缩在[0,1]区间内,同时,对预处理后的复烤片烟常规化学数据进行隶属度函数变换,转化成单调性数据,并压缩在[0,1]区间内;
S3:按照分层抽样的方法将压缩后的数据划分为训练集和测试集,并采用Boruta算法结合随机森林算法确定最优特征测试集;
S4:采用带交叉验证的网格搜索算法,优化随机森林分类模型的参数组合,选择平均分类精度最高的随机森林分类模型作为复烤片烟工业使用价值预测模型;
S5:将最优特征测试集中的数据输入到复烤片烟工业使用价值预测模型中,预测复烤片烟工业使用价值的使用属性;
对所述感官评价数据和片烟常规化学数据进行预处理包括空值处理、异常值剔除;
其中,空值处理具体包括采用平均值替换缺失值;
所述异常值剔除具体包括采用Tukey’s test方法对异常值进行直接删除;
步骤S2中对感官评价数据进行无量纲化并压缩在[0,1]区间内的具体方法为:
通过极差变换法将感官评价数据进行极差变换并压缩在[0,1]区间内,所述极差变换法公式如下:
式中:Rjc为参评指标j的压缩结果,xij为i样品感官参评指标j打分值;
步骤S2中,对片烟常规化学数据进行隶属度函数变换,转化成单调性数据,并压缩在[0,1]区间内的具体方法为:
采用隶属度函数将片烟常规化学成分数据转化成单调性数据,并将所述单调性数据压缩在[0,1]的区间内,其中:
其中:f(x)为隶属度函数,x1、x2、x3和x4分别表示复烤片烟常规化学指标的下临界值、最优值下限、最优值上限和上临界值;所述复烤片烟常规化学数据中的总糖、还原糖、氯、总氮、糖碱比、氮碱比的隶属度函数类型为中间梯形,钾氯比和钾的隶属度函数类型为升半梯形;
步骤S3中,采用Boruta算法结合随机森林算法确定最优特征测试集的具体方法为:
S31:复制原始特征集R,对每个原始特征随机混合构造具有随机性的阴影特征集S,将原始特征集与阴影特征集合并构成新的特征矩阵D=[R,S],为给定的数据集增加随机性;
S32:采用随机森林方法训练新特征集合D,计算真实特征和阴影特征的重要性;
S33:比较真实特征矩阵重要性与阴影特征矩阵中重要性的最大值shadowMax;若真实特征矩阵R中的重要性大于shadowMax的特征,记录1次命中,结合真实特征累计命中次数,标记特征重要或不重要;
S34:删除不重要的特征,重复步骤S31-S33,当所有特征得到确认或拒绝时,算法停止;
S35:选取以阴影特征重要性的最大值shadowMax为筛选指标,当特征变量重要性大于shadowMax的均值时,则该特征被选入,最终形成最优特征测试集;
步骤S4中,随机森林分类模型优化中,采用带交叉验证的网格搜索算法并结合分类精度对随机森林参数进行优化;
随机森林分类模型优化中采用的参数包括决策树的数量n_estimators和决策树节点分裂时候选特征子集中最大特征数max_features;
所述步骤S4中优化的随机森林参数为决策树的数量范围n_estimators∈[50,410],步长为20、决策树分裂最大特征数范围max_features∈[1,6],步长为1;参数包括:决策树的数量和决策树分裂最大特征数。
2.根据权利要求1所述的一种复烤片烟的工业使用价值识别方法,其特征在于,所述感官评价数据包括优雅感、甜香、透发性、成团性、刺激性、余味、香气量、细腻感、清晰度、柔和性、杂气、润感;所述复烤片烟常规化学数据包括总糖、还原糖、总植物碱、总氮、含钾量、含氯量、糖碱比、氮碱比及钾氯比。
3.根据权利要求1所述的一种复烤片烟的工业使用价值识别方法,其特征在于,最优特征测试集包括15维度:优雅感、甜香、透发性、成团性、刺激性、余味、香气量、细腻感、清晰度、柔和性、杂气、润感、总糖、钾氯比、总植物碱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110786242.8A CN113488113B (zh) | 2021-07-12 | 2021-07-12 | 一种复烤片烟的工业使用价值识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110786242.8A CN113488113B (zh) | 2021-07-12 | 2021-07-12 | 一种复烤片烟的工业使用价值识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113488113A CN113488113A (zh) | 2021-10-08 |
CN113488113B true CN113488113B (zh) | 2024-02-23 |
Family
ID=77938758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110786242.8A Active CN113488113B (zh) | 2021-07-12 | 2021-07-12 | 一种复烤片烟的工业使用价值识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113488113B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222164A (zh) * | 2011-05-30 | 2011-10-19 | 中国标准化研究院 | 一种食品感官质量评价方法及系统 |
CN103344713A (zh) * | 2013-06-18 | 2013-10-09 | 湖南中烟工业有限责任公司 | 一种基于随机森林法分析致香物在烤烟香型分类中的重要性及预测香型的方法 |
CN104931574A (zh) * | 2015-06-05 | 2015-09-23 | 浙江中烟工业有限责任公司 | 一种烟叶中重金属含量地域性分布的可视化方法 |
CN106529584A (zh) * | 2016-10-25 | 2017-03-22 | 福建农林大学 | 一种烤烟香型和品质判定的智能评价方法 |
CN107392399A (zh) * | 2017-08-30 | 2017-11-24 | 桂林电子科技大学 | 一种基于改进遗传算法的svm卷烟感官质量预测方法 |
CN109145965A (zh) * | 2018-08-02 | 2019-01-04 | 深圳辉煌耀强科技有限公司 | 基于随机森林分类模型的细胞识别方法和装置 |
CN111160425A (zh) * | 2019-12-17 | 2020-05-15 | 湖北中烟工业有限责任公司 | 一种基于神经网络的烤烟舒适性分类评价方法 |
CN111596010A (zh) * | 2020-05-21 | 2020-08-28 | 福建中烟工业有限责任公司 | 一种烟草工业可用性的量化评价和分类方法 |
CN112287601A (zh) * | 2020-10-23 | 2021-01-29 | 红云红河烟草(集团)有限责任公司 | 利用r语言构建烟叶质量预测模型的方法、介质及应用 |
-
2021
- 2021-07-12 CN CN202110786242.8A patent/CN113488113B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222164A (zh) * | 2011-05-30 | 2011-10-19 | 中国标准化研究院 | 一种食品感官质量评价方法及系统 |
CN103344713A (zh) * | 2013-06-18 | 2013-10-09 | 湖南中烟工业有限责任公司 | 一种基于随机森林法分析致香物在烤烟香型分类中的重要性及预测香型的方法 |
CN104931574A (zh) * | 2015-06-05 | 2015-09-23 | 浙江中烟工业有限责任公司 | 一种烟叶中重金属含量地域性分布的可视化方法 |
CN106529584A (zh) * | 2016-10-25 | 2017-03-22 | 福建农林大学 | 一种烤烟香型和品质判定的智能评价方法 |
CN107392399A (zh) * | 2017-08-30 | 2017-11-24 | 桂林电子科技大学 | 一种基于改进遗传算法的svm卷烟感官质量预测方法 |
CN109145965A (zh) * | 2018-08-02 | 2019-01-04 | 深圳辉煌耀强科技有限公司 | 基于随机森林分类模型的细胞识别方法和装置 |
CN111160425A (zh) * | 2019-12-17 | 2020-05-15 | 湖北中烟工业有限责任公司 | 一种基于神经网络的烤烟舒适性分类评价方法 |
CN111596010A (zh) * | 2020-05-21 | 2020-08-28 | 福建中烟工业有限责任公司 | 一种烟草工业可用性的量化评价和分类方法 |
CN112287601A (zh) * | 2020-10-23 | 2021-01-29 | 红云红河烟草(集团)有限责任公司 | 利用r语言构建烟叶质量预测模型的方法、介质及应用 |
Non-Patent Citations (1)
Title |
---|
基于熵值法和突变级数法的陕西省烟叶质量综合评价研究;徐泽桐;刘亚相;袁帅;李本晟;吴薇;李司童;毛凯伦;韦成才;张立新;;河南农业大学学报(第04期);第657-664页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113488113A (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112990284B (zh) | 一种基于XGBoost算法的个体出行行为预测方法、系统及终端 | |
CN101387625A (zh) | 烤烟产区综合评价方法 | |
CN107796782A (zh) | 基于烟叶特征光谱一致性度量的复烤质量稳定性评价方法 | |
CN101419209A (zh) | 卷烟感官评吸和烟气指标的免疫神经网络预测方法 | |
CN108647729B (zh) | 一种用户画像获取方法 | |
CN107767079A (zh) | 一种烟叶风格特征的客观综合评价方法 | |
CN110598129B (zh) | 基于两级信息熵的跨社交网络用户身份识别方法 | |
CN107784452A (zh) | 一种烟叶风格特征相似性的客观综合评价方法 | |
CN111126865A (zh) | 一种基于科技大数据的技术成熟度判断方法和系统 | |
CN1525394A (zh) | 卷烟感官评吸和烟气指标的神经网络预测方法 | |
CN113488113B (zh) | 一种复烤片烟的工业使用价值识别方法 | |
CN110134710B (zh) | 一种基于贝叶斯网络的卷烟配方规则提取和配方维护的方法 | |
CN113537336A (zh) | 基于XGBoost的短临雷雨大风的预测方法 | |
CN110489665B (zh) | 一种基于情景建模和卷积神经网络的微博个性化推荐方法 | |
CN114091794A (zh) | 专利价值评估模型训练方法、评估方法、装置及其设备 | |
Deng | Research on the applicability of weather forecast model—based on logistic regression and decision tree | |
Ma | The Research of Stock Predictive Model based on the Combination of CART and DBSCAN | |
CN114003638A (zh) | 一种智能互联大数据处理系统 | |
Zheng et al. | Evaluation model construction of automobile appearance design based on random forest algorithm | |
CN112685562A (zh) | 一种基于XGBoost模型的多维指标集成的技术评价方法 | |
CN103020864A (zh) | 玉米良种选育方法 | |
CN114282875A (zh) | 流程审批确定性规则和语义自学习结合判定方法及装置 | |
Dalimunthe et al. | Study of C45 Algorithm In Predicting New Employee Acception | |
CN104572854A (zh) | 一种基于决策树的译员分类方法 | |
Li et al. | Near infrared spectroscopy detection of the content of wheat based on improved deep belief network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |