CN105651941B - 一种基于分解-聚合策略的卷烟感官智能评估系统 - Google Patents
一种基于分解-聚合策略的卷烟感官智能评估系统 Download PDFInfo
- Publication number
- CN105651941B CN105651941B CN201511024742.9A CN201511024742A CN105651941B CN 105651941 B CN105651941 B CN 105651941B CN 201511024742 A CN201511024742 A CN 201511024742A CN 105651941 B CN105651941 B CN 105651941B
- Authority
- CN
- China
- Prior art keywords
- cigarette
- sensory
- sensory quality
- evaluation
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 235000019504 cigarettes Nutrition 0.000 title claims abstract description 89
- 238000011156 evaluation Methods 0.000 title claims abstract description 45
- 238000004220 aggregation Methods 0.000 title claims abstract description 23
- 230000002776 aggregation Effects 0.000 title claims abstract description 11
- 210000000697 sensory organ Anatomy 0.000 title abstract description 3
- 238000000354 decomposition reaction Methods 0.000 title description 3
- 230000001953 sensory effect Effects 0.000 claims abstract description 97
- 238000000034 method Methods 0.000 claims description 55
- 238000013441 quality evaluation Methods 0.000 claims description 26
- 238000012706 support-vector machine Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 18
- 239000000126 substance Substances 0.000 claims description 14
- 239000002585 base Substances 0.000 claims description 10
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 claims description 8
- 206010013911 Dysgeusia Diseases 0.000 claims description 8
- 239000003513 alkali Substances 0.000 claims description 8
- 238000007418 data mining Methods 0.000 claims description 8
- 238000006116 polymerization reaction Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000003066 decision tree Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 5
- 239000007789 gas Substances 0.000 claims description 5
- SNICXCGAKADSCV-JTQLQIEISA-N (-)-Nicotine Chemical compound CN1CCC[C@H]1C1=CC=CN=C1 SNICXCGAKADSCV-JTQLQIEISA-N 0.000 claims description 4
- ZAMOUSCENKQFHK-UHFFFAOYSA-N Chlorine atom Chemical compound [Cl] ZAMOUSCENKQFHK-UHFFFAOYSA-N 0.000 claims description 4
- ZLMJMSJWJFRBEC-UHFFFAOYSA-N Potassium Chemical compound [K] ZLMJMSJWJFRBEC-UHFFFAOYSA-N 0.000 claims description 4
- WFZUGQHZHVPZHZ-UHFFFAOYSA-N [N].N1=CC=CC(=C1)C1N(C)CCC1 Chemical compound [N].N1=CC=CC(=C1)C1N(C)CCC1 WFZUGQHZHVPZHZ-UHFFFAOYSA-N 0.000 claims description 4
- 239000000460 chlorine Substances 0.000 claims description 4
- 229910052801 chlorine Inorganic materials 0.000 claims description 4
- 230000007794 irritation Effects 0.000 claims description 4
- 229960002715 nicotine Drugs 0.000 claims description 4
- SNICXCGAKADSCV-UHFFFAOYSA-N nicotine Natural products CN1CCCC1C1=CC=CN=C1 SNICXCGAKADSCV-UHFFFAOYSA-N 0.000 claims description 4
- 229910052757 nitrogen Inorganic materials 0.000 claims description 4
- 239000011591 potassium Substances 0.000 claims description 4
- 229910052700 potassium Inorganic materials 0.000 claims description 4
- 102000004169 proteins and genes Human genes 0.000 claims description 4
- 108090000623 proteins and genes Proteins 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000007635 classification algorithm Methods 0.000 claims description 2
- 238000012423 maintenance Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 11
- 241000208125 Nicotiana Species 0.000 description 8
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012795 verification Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000000391 smoking effect Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000004913 activation Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000000638 stimulation Effects 0.000 description 3
- QGZKDVFQNNGYKY-UHFFFAOYSA-N Ammonia Chemical compound N QGZKDVFQNNGYKY-UHFFFAOYSA-N 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 239000003205 fragrance Substances 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 229910021529 ammonia Inorganic materials 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000036967 uncompetitive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/0001—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00 by organoleptic means
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- Physics & Mathematics (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明开发了一种基于分解‑聚合策略的卷烟感官智能评估系统,该系统将卷烟智能感官评估中涉及的多分类问题分解成多个便于建模的两分类问题,然后对每个子问题分别建立分类器,接着采用聚合策略将两类分类器组合成多分类器。该系统预测精度明显高于经典的多分类器,运用本发明的系统,可以为卷烟企业在新产品的开发和产品维护过程中,辅助卷烟感官评估专家进行卷烟感官评估。
Description
技术领域
本发明涉及数据挖掘及专家评吸领域,具体涉及一种基于分解-聚合策略的卷烟感官智能评估系统
背景技术
在卷烟生产过程中,很难针对烟草的物理化学指标与卷烟的感官质量的复杂关系建立起有效的数学模型,因此在烟草及其制品的新产品开发和产品维护过程中,主要通过品烟专家的人工感官评吸对卷烟产品感官质量指标进行评价。显然,这种完全依赖人工反复评吸的生产方式会极大地影响评价结果的效率性,无法满足企业对生产快速性的要求。
为了解决评吸过程中主观性强、效率低下的问题,学者们开始使用数据挖掘的方法来对卷烟感官质量进行评价,力求从大量烟草数据中提取出物理化学指标和感官质量的映射规则,以辅助或代替品烟专家完成对卷烟的感官预测评价。当前主要以BP神经网络方法或支持向量机方法来解决成品卷烟的智能化感官评估问题。
然而,卷烟感官评估历史数据复杂,卷烟感官质量具有多个类别,涉及多分类问题,而现有的分类器在处理多分类问题时往往不能获得预期的效果。将多分类问题分解成一对一的两分类问题是数据挖掘领域针对解决多分类问题的有效途径。因此,本发明利用数据挖掘技术结合卷烟感官评估实践,将卷烟智能感官评估中涉及的多分类问题分解成多个便于建模的两分类问题,然后对每个子问题分别建立分类器,接着采用聚合策略将两类分类器组合成多分类器。具体地,本发明采用三种不同的分类器建立两分类模型,包括决策树,神经网络和支持向量机;采用多种聚合策略组合两类分类器,包括投票法,加权投票法,学习权值偏好法,非支配准则,基于距离加权法以及动态搜索法。该发明的创新点可以归纳为以下几点:
(1)本发明将卷烟智能感官评估中涉及的多分类问题分解成多个便于建模的两分类子问题,可以有效解决多分类问题模型复杂,难于求解的问题;
(2)本发明采用多种聚合策略组合两类分类器,从而建立多分类器。
(3)本发明设计了完整的实验来验证该策略的有效性。
实验结果表明,相比较于经典的多分类器,采用本发明的策略,不管采用何种基本分类器,其预测精度都明显高于经典的多分类器。因此,运用本发明的系统,可以为卷烟企业在新产品的开发和产品维护过程中,辅助卷烟感官评估专家进行卷烟感官评估。
发明内容
针对现有研究和实际应用中存在的问题,本发明设计了一种基于分解-聚合策略的卷烟感官智能评估系统
本发明的技术方案是:
基于分解-聚合策略的卷烟感官智能评估系统,具体包括以下步骤:
步骤1:采集成品烟感官待评估数据,即卷烟化学成分指标;
卷烟化学成分指标包括:总糖量、还原糖、烟碱量、总挥发碱、总氮量、烟碱氮、蛋白质、施木克值、氮碱比、含氯量、含钾量、糖碱比、氨态碱;
步骤2:对成品卷烟的感官评估结果进行离散化处理,获得卷烟感官质量的分类问题数据集;
步骤3:利用基于分解-聚合的多分类方法建立卷烟感官质量评估模型;
所述基于分解-聚类的多分类方法建立的卷烟感官质量评估模型为:根据成品烟感官评估的历史数据,根据感官指标的数据特点(类别数)获得多个成对的两分类问题,再针对每个子问题,利用数据挖掘技术建立分类器,最后采用聚合方法将子分类器组合成多分类器;
所述感官质量指标包括:光泽、香气、杂气、刺激、余味;
步骤4:得到卷烟感官质量评估结果。
针对未知样本,每个分类器给出预测结果,获得分值表,然后采用聚合策略将两分类器组合成多分类器,输出预测结果,本发明采用的聚合策略包括Vote,WV,LVPC,ND,DRCW和DCS;
本发明的有益效果如下:
本发明基于分解-聚合的多分类方法预测卷烟感官质量,帮助烟草企业建立智能感官评估系统。对于卷烟设计专家,可以利用本发明的方法,将卷烟配方的物化指标作为模型的输入变量,模型将自动输出卷烟各个感官指标的分值,可以较高精度地预测卷烟的感官质量,帮助卷烟设计专家在卷烟产品的开发和设计中进行更好的决策。
本发明所提的分解-聚合策略能够有效地处理智能感官评吸中多分类问题。相比较于基本的分类器,分解-聚合策略能够取得更好的预测精度,因此该方法可以帮助烟草企业在进行智能感官评估中提高工作效率,帮助烟草企业科学高效地进行产品维护和新产品开发。
附图说明
图1是本发明中具体实施方式的分解策略的示例图
图2是本发明中实验验证中各感官指标值分布情况
图3是本发明中实验验证中效果比较图(CART)
图4是本发明中实验验证中效果比较图(BPNN)
图5是本发明中实验验证中效果比较图(SVM)
具体实施方式
下面结合附图对本发明的具体实施方式做详细说明。
根据成品烟感官评估的工艺要求和质量要求,本实施方式基于总糖量、还原糖、烟碱量、总挥发碱、总氮量、烟碱氮、蛋白质、施木克值、氮碱比、含氯量、含钾量、糖碱比、和氨态碱这13种物理化学指标作为输入变量;基于光泽、香气、杂气、刺激、余味五种感官评吸指标作为输出变量建立基于分解-聚合的多分类方法的卷烟感官质量评估模型并进行了实验验证。
本实施方式建立基于分解-聚合策略的卷烟感官智能评估系统,包括如下步骤:
步骤1:采集成品烟感官待评估数据,即卷烟物化指标数据和相应的感官指标数据;
卷烟物化指标包括:总糖量、还原糖、烟碱量、总挥发碱、总氮量、烟碱氮、蛋白质、施木克值、氮碱比、含氯量、含钾量、糖碱比、氨态碱;感官指标包括:光泽、香气、杂气、刺激、余味;
步骤2:对历史数据进行预处理,包括输入变量的归一化处理和输出变量的离散化处理;
步骤3:利用基于分解-聚合的多分类方法建立卷烟感官质量评估模型;
所述基于分解-聚类的多分类方法建立的卷烟感官质量评估模型为:根据成品烟感官评估的历史数据,根据感官指标的数据特点(类别数)获得多个成对的两分类问题,再针对每个子问题,利用数据挖掘技术建立分类器,最后采用聚合方法将子分类器组合成多分类器;
所述感官质量指标包括:光泽、香气、杂气、刺激、余味;
所述的基于分解-聚合的多分类方法建立卷烟感官质量评估模型按如下步骤建立:
步骤3-1:采集成品烟感官评估的历史数据,建立卷烟感官质量评估训练数据样本集;
卷烟感官质量评估训练数据样本集包括卷烟化学成分指标和感官评吸指标的专家评分结果;
所述卷烟感官质量评估数据样本集中的感官评吸指标的专家评分结果是由多个专家打分后求平均值得到的。
收集来自烟草企业的卷烟专家人工感官评估的成品烟感官评估的历史数据以建立进行分类预测的卷烟感官质量评估训练数据样本集,对历史数据进行整理,删除一些重复的或是存在缺失的数据,最后所得到的每一组历史数据均包括13种化学成分指标和5种感官评吸指标,本实施方式的卷烟感官质量评估训练数据样本集中包括某烟草企业2010~2012三年的成品烟数据,共计684组数据。
数据均通过多个专家打分后求平均值得到的,每一项指标分别作为分类使用的决策属性,根据六组不同项目进行六组不同实验。专家打分依据的感官质量评判标准如表1所示。
表1 卷烟感官质量评判标准
步骤3-2:对卷烟感官质量评估训练数据样本集进行预处理:根据感官质量评判标准和数据的具体特征,分别对5种感官评吸指标的专家评分结果进行离散化;同时对卷烟化学成分指标进行归一化处理;
步骤3-2-1:分别对5种感官评吸指标的专家评分结果进行离散化;
离散化方法如表2所示,其中离散区间长度等于0.5。以光泽为例,打分评判标准为3-5,而实际数据中不存在小于3.75的数据,因此将[3.75,4.25]归为第1类,(4.25,4.75]归为第2类,(4.75,5.25]归为第3类。
表2 专家评分结果离散方法
步骤3-2-2:卷烟化学成分指标的归一化;
定义集合X={x1,x2,...,x684}为条件属性的取值,max(X)为该集合中的最大取值,min(X)为该集合中的最小取值,则对xn,n∈{1,2,...,684}有归一化后的结果x′n;
步骤3-3:根据成品烟感官评估的历史数据,根据感官指标的数据特点(类别数)获得多个成对的两分类问题,如图1所示;
步骤3-4:利用数据挖掘技术对各个子问题建立分类器,本发明采用三种不同的分类算法,包括决策树(Classification and Regression Tree,CART),支持向量机(SupportVector Machine,SVM)和反馈神经网络(Back-propagation neural network,BPNN);
步骤3-4-1:决策树(CART)
步骤3-4-1-1:生成树
在CART中,利用Gini指标来计算节点D的纯净度。Gini指标的计算方式如下:
其中,pi是节点D中属于类别Ci的概率,m是类别数,另外,pi=|Ci,D|/|D且|·|是子集中的样本数。
在CART中,指标Gini被用来分割各个属性。如果属性A具有n个离散值{a1,a2,…an},那么该属性则有2n个可能的子集。但是,整个集合和空集不能作为一个分割点,所以只有2n-2个可能的子集。另一方面,如果属性A是连续的,潜在的分割点就在每两个连续点的中间。如果在属性A上的分割点将D分割成D1和D2,那么节点D的Gini值为如下:
这样,在属性A上分割点的纯净度下降量为:
ΔGini(A)=Gini(D)-GiniA(D)
最大化上述公式的属性和分割点将被选为相应的分割属性和分割点。这个过程反复执行直到达到停止准则。
步骤3-4-1-2:剪枝
由于存在噪声的影响,为了防止过拟合现象的出现,剪枝是必不可少的步骤。在CART中,错误率被用来确定是否剪枝的标准。
步骤3-4-1-3:对于给定待评估数据,依据决策树自顶向下地输出即可得到叶结点的分类。
步骤3-4-2:支持向量机(SVM)
步骤3-4-2-1:给定训练数据样本集(x1,y1),(x2,y2)...,(xl,yl),给定SVM方法核函数、惩罚参数c、核参数g;
SVM的核函数选取径向基(RBF)函数,惩罚参数c(调节特征子空间中SVM模型的置信范围与经验风险的比例使支持向量机的泛化能力达到最好)选取c=2,核参数g(影响样本数据在高维特征空间中分布的复杂程度)选取g=1;
步骤3-4-2-2:通过引入Lagrange函数,将SVM算法归结为一个有约束的二次型规划(QP)问题:
s.t. yi[(xi·ω)+b]-1+ξi≥0,i=1,2,...,l
其中xgω+b=0为超平面,ξi>0代表对分类错误样本进行惩罚的松弛变量,A>0为用来维持样本误分类导致的惩罚水平和算法复杂度之间平衡的常数,ω为输入变量的权重向量,b为超平面的阈值标量,SVM旨在寻找一个最优的超平面使得超平面两侧点与超平面距离最大化;
步骤3-4-2-3:基于最优化问题的求解,将该问题转化为QP问题的对偶问题:
其中αi表示Lagrange乘子,K(xi·xj)为核函数,那些αi>0对应的训练数据样本点称为支持向量;
步骤3-4-2-4:对于给定的待评估数据样本x,基于得到的支持向量,计算分类结果,分类函数定义为
其中αi *表示>0的Lagrange乘子,b*为对应的分类阈值标量。
步骤3-4-3:反馈神经网络(BPNN)
步骤3-4-3-1:神经网络初始化,给定训练数据样本集(X,Y)给定输入层节点数M、隐含层节点数P、输出层节点数N,初始化权重值vij和ωjk,初始化隐含层阈值αj、输出层阈值βk,给定学习率t,给定神经元激活函数,给定迭代次数S;
BP神经网络采用单隐层结构,选取迭代次数S为100,隐层节点数P为10,给定学习率t为0.001,初始权重值和阈值均为0~1之间的随机数;激活函数为Sigmoid函数。
步骤3-4-3-2:由权值和激活函数计算隐含层输出H和输出层输出O;
步骤3-4-3-3:计算输出层输出O与训练数据样本实际输出Y之间的误差,定义误差E为
ek=yk-ok k=1,2,...,N
步骤3-4-3-4:根据网络误差更新权重值vij和ωjk
ωjk=ωjk+thjek j=1,2,...,P;k=1,2,...,N
步骤3-4-3-5:根据误差向量E和权重值更新阈值αj和βk
βk=βk+ek k=1,2,...,N
步骤3-4-3-6:判断是否达到迭代次数,达到则完成训练过程,对于待评估数据直接代入步骤3.4.2计算输出分类结果;若未达到则返回步骤3.4.2继续训练,直至迭代次数达到S。
步骤4:得到卷烟感官质量评估结果。针对未知样本,每个分类器给出预测结果,获得分值表,然后采用聚合策略将两分类器组合成多分类器,输出预测结果,采用的聚合策略包括Vote,WV,LVPC,ND,DRCW和DCS;
步骤4-1:投票法(Vote)
该方法利用投票机制获得最终类别标识。具体是:每个成对的分类器对未知样本给出预测类别,获得最多投票的类别最终获胜,作为输出结果。预测类别如下:
其中,rij是分类器对未知样本相对于类别j预测为类别i的概率。
步骤4-2:加权投票法(WV)
不同于投票法,每个两分类器给出“是”或“否”的预测结果,在加权投票法中,每个分类器给出的结果以置信度的形式出现。预测类别为如下公式所示:
步骤4-3:学习权值偏好法(LVPC)
这种方法将模糊偏好关系引入到分值表中。绝对偏好,冲突和未知被引入到最终类别的识别过程中。最终类别的决策规则如下:
其中Ni是类别i在训练集中的样本数,pij和pji分别是对类别i和类别j的绝对偏好,cij是冲突程度以及Iij是未知程度。相应的计算规则如下:
pij=rij-min{rij,rji}
pji=rji-min{rij,rji}
cij=min{rij,rji}
Iij=1-max{rij,rji}
步骤4-4:非支配准则(ND)
该方法的分值表引入了正规化模糊偏好关系。最大程度不受支配的类别视作最终的输出结果。类别判断规则如下:
其中r′ji是相应的正规化分值表,r′ij和Rij的计算方法如下:
步骤4-5:基于距离加权法(DRCW)
该方法将距离引入到权值的计算中。对于待预测的样本,训练集中与其越接近的样本所对应的类将获得更大的权值。对于样本集中的每一类,计算与待测样本最邻近的k个样本,并计算出该类与待测样本的平均距离。然后对于训练集中m个类别都进行如上操作,获得平均距离向量d=(d1,...,dm)。新的分值表就由rij·wij构成,最后采用WV获得最终的输出类别。
其中
步骤4-6:动态搜索法(DCS)
这种方法考虑避免没有竞争力的子分类器对最终结果的负面影响。首先,在训练集中确定待测样本的k个最近邻,然后获得最近邻中包含的类别,最后将原始分值表中删去最近邻中没有的类别的信息从而获得新的分值表。这里我们采用的最近邻数为类别数的3倍,如果所有的最近邻只有一个类别,则扩大到6倍。最后采用WV获得最终的输出结果。
实验验证:
为了验证本发明的性能,将企业提供的684组数据样本(感官质量指标分布如图2所示)经过预处理后采用五次五折交叉验证的方式进行实验:实验时将全部数据样本随机分为五份,每次取其中的四份共同作为训练数据样本集,剩下的一份作为待评估数据样本集,采用分类方法计算分类结果并与其实际结果进行比较,得到分类正确率。重复进行五次这样的实验,并平均五次的结果得到最终分类预测正确率。基本分类器和采用分解-聚合方法的五次五折交叉验证实验的分类预测正确率如表3-表5所示。其中,Vote,WV,LVPC,ND,DRCW,DCS表示采用不同的聚合策略的结果,另外,对于支持向量机,目前还没有直接可以用支持向量机进行多分类的算法,因此表中不包含基本分类器的实验结果且Vote是其原始分类器。
在表3-表5中,加粗的部分表明每一行的最优值,由此我们可以很清楚地看出,在三种不同的基本分类器的测试环境下,本发明的方法明显优于经典的分类器。无论是针对每一个感官指标的预测效果,还是总体的平均结果,本发明的预测效果都明显优于传统的方法。另外,不同的组合策略所产生的效果也不尽相同:当CART作为基本分类器时,DRCW的效果最好,其平均结果比经典的分类器(Base)提高了5.32%;当BPNN作为基本分类器时,虽然DRCW取得了最好的平均结果,但是ND在香气和余味指标上胜过DRCW,另外,DRCW的平均结果比经典分类器提高了11.13%;当SVM作为基本分类器时,DRCW平均结果比传统的方法提高了1.46%。因此,本发明的预测精度明显优于传统的方法。
表3 卷烟感官质量评估预测准确率(CART)
数据集 | Base | Vote | WV | LVPC | ND | DRCW | DCS |
余味 | 63.27 | 62.36 | 63.30 | 63.89 | 62.31 | 66.67 | 62.51 |
香气 | 53.05 | 54.45 | 55.73 | 56.84 | 54.92 | 60.51 | 54.59 |
刺激 | 64.85 | 62.98 | 64.24 | 64.85 | 64.18 | 68.74 | 63.98 |
光泽 | 86.50 | 86.44 | 86.49 | 86.64 | 86.61 | 88.13 | 86.35 |
杂气 | 82.63 | 81.99 | 82.67 | 82.78 | 82.32 | 84.89 | 82.55 |
平均结果 | 70.06 | 69.64 | 70.49 | 71.00 | 70.07 | 73.79 | 70.00 |
表4 卷烟感官质量评估预测准确率(BPNN)
表5 卷烟感官质量评估预测准确率(SVM)
数据集 | Vote | WV | LVPC | ND | DRCW | DCS |
余味 | 70.41 | 70.44 | 70.82 | 70.50 | 71.44 | 70.20 |
香气 | 59.83 | 60.04 | 60.56 | 59.95 | 60.47 | 59.25 |
刺激 | 71.67 | 72.05 | 72.67 | 71.85 | 73.81 | 70.76 |
光泽 | 88.19 | 88.22 | 87.26 | 88.16 | 89.56 | 88.02 |
杂气 | 85.61 | 85.73 | 84.97 | 85.64 | 85.91 | 85.14 |
平均结果 | 75.14 | 75.30 | 75.26 | 75.22 | 76.24 | 74.67 |
为了更加清晰地展示实验结果,图3-图5表示实验结果的柱形图,从图中也可以看出,相比较于基本分类方法,基于本发明的方案在卷烟感官智能评估中具有明显的优势,可以作为烟草企业进行智能感官评估的有效方法。
Claims (2)
1.一种基于分解‐聚合策略的卷烟感官智能评估系统,其特征在于,包括以下几个步骤:
步骤1:采集成品烟感官待评估数据,即卷烟化学成分指标;
卷烟化学成分指标包括:总糖量、还原糖、烟碱量、总挥发碱、总氮量、烟碱氮、蛋白质、施木克值、氮碱比、含氯量、含钾量、糖碱比、氨态碱;
步骤2:对成品卷烟的感官评估结果进行离散化处理,获得卷烟感官质量的分类问题数据集;
步骤3:利用基于分解-聚合的多分类方法建立卷烟感官质量评估模型;
所述基于分解-聚类的多分类方法建立的卷烟感官质量评估模型为:根据成品烟感官评估的历史数据,根据感官质量指标的数据特点获得多个成对的两分类问题,再针对每个子问题,利用数据挖掘技术建立分类器,最后采用聚合方法将子分类器组合成多分类器;
所述感官质量指标包括:光泽、香气、杂气、刺激、余味;
步骤4:得到卷烟感官质量评估结果,针对未知样本,每个分类器给出预测结果,获得分值表,然后采用聚合策略将两分类器组合成多分类器,输出预测结果,采用的聚合策略包括Vote,WV,LVPC,ND,DRCW和DCS。
2.根据权利要求1所述的一种基于分解‐聚合策略的卷烟感官智能评估系统,其特征在于,步骤3所述的利用基于分解‐聚合的多分类方法建立卷烟感官质量评估模型,具体是:
步骤3-1:采集成品烟感官评估的历史数据,建立卷烟感官质量评估训练数据样本集;
卷烟感官质量评估训练数据样本集包括卷烟化学成分指标和感官质量指标的专家评分结果;
所述卷烟感官质量评估数据样本集中的感官质量指标的专家评分结果是由多个专家打分后求平均值得到的;
步骤3-2:对卷烟感官质量评估训练数据样本集进行预处理:根据感官质量评判标准和数据的具体特征,分别对5种感官质量指标的专家评分结果进行离散化;同时对卷烟化学成分指标进行归一化处理;
步骤3-3:根据成品烟感官评估的历史数据,根据感官质量指标的数据特点获得多个成对的两分类问题;
步骤3-4:利用数据挖掘技术对各个子问题建立分类器,采用三种不同的分类算法,包括决策树、支持向量机和反馈神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511024742.9A CN105651941B (zh) | 2015-12-31 | 2015-12-31 | 一种基于分解-聚合策略的卷烟感官智能评估系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511024742.9A CN105651941B (zh) | 2015-12-31 | 2015-12-31 | 一种基于分解-聚合策略的卷烟感官智能评估系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105651941A CN105651941A (zh) | 2016-06-08 |
CN105651941B true CN105651941B (zh) | 2018-05-18 |
Family
ID=56489968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511024742.9A Active CN105651941B (zh) | 2015-12-31 | 2015-12-31 | 一种基于分解-聚合策略的卷烟感官智能评估系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105651941B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110907591B (zh) * | 2019-12-13 | 2021-12-03 | 云南中烟工业有限责任公司 | 一种加热卷烟感官质量评价方法 |
CN112190269B (zh) * | 2020-12-04 | 2024-03-12 | 兰州大学 | 基于多源脑电数据融合的抑郁症辅助识别模型构建方法 |
CN112699239A (zh) * | 2020-12-31 | 2021-04-23 | 杭州电子科技大学 | 基于集成分类器动态选择策略的文本情感分类方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101517602A (zh) * | 2006-09-22 | 2009-08-26 | 皇家飞利浦电子股份有限公司 | 使用基于分类器集成的遗传算法进行特征选择的方法 |
CN101419209A (zh) * | 2008-12-04 | 2009-04-29 | 哈尔滨工程大学 | 卷烟感官评吸和烟气指标的免疫神经网络预测方法 |
CN101833607B (zh) * | 2010-05-11 | 2012-05-23 | 天津大学 | 双馈风力发电机多目标混合粒子群优化设计方法 |
CN102647391A (zh) * | 2012-03-30 | 2012-08-22 | 南京邮电大学 | 一种基于决策层数据融合的协作调制信号识别方法 |
CN102737508B (zh) * | 2012-06-19 | 2014-03-26 | 银江股份有限公司 | 一种融合svm与bp神经网络的城市道路交通状态检测方法 |
CN103336090B (zh) * | 2013-05-14 | 2015-10-28 | 湖南中烟工业有限责任公司 | 一种预测卷烟感官质量指标的支持向量机svm方法 |
CN103424542A (zh) * | 2013-08-23 | 2013-12-04 | 贵州省烟草科学研究院 | 一种基于感官评吸的烟叶质量评价方法 |
CN104636493A (zh) * | 2015-03-04 | 2015-05-20 | 浪潮电子信息产业股份有限公司 | 一种基于多分类器融合的动态数据分级方法 |
CN104809230A (zh) * | 2015-05-08 | 2015-07-29 | 东北大学 | 一种基于多分类器集成的卷烟感官质量评估方法 |
-
2015
- 2015-12-31 CN CN201511024742.9A patent/CN105651941B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN105651941A (zh) | 2016-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cadenas et al. | Feature subset selection filter–wrapper based on low quality data | |
You et al. | Feature selection for high-dimensional multi-category data using PLS-based local recursive feature elimination | |
CN108595913A (zh) | 鉴别mRNA和lncRNA的有监督学习方法 | |
Wu et al. | Sode: Self-adaptive one-dependence estimators for classification | |
Tripoliti et al. | Modifications of the construction and voting mechanisms of the random forests algorithm | |
CN104809230A (zh) | 一种基于多分类器集成的卷烟感官质量评估方法 | |
CN105651941B (zh) | 一种基于分解-聚合策略的卷烟感官智能评估系统 | |
CN113657452B (zh) | 基于主成分分析和超级学习的烟叶质量等级分类预测方法 | |
Zhang et al. | On fairness-aware learning for non-discriminative decision-making | |
Alfaro et al. | Ensemble classification methods with applications in R | |
CN113344615A (zh) | 一种基于gbdt和dl融合模型的营销活动预测方法 | |
Favieiro et al. | Paraconsistent random forest: An alternative approach for dealing with uncertain data | |
da Silva et al. | Validity index-based vigilance test in adaptive resonance theory neural networks | |
Dey et al. | Genetic expression analysis to detect type of leukemia using machine learning | |
Bama et al. | Efficient classification using average weighted pattern score with attribute rank based feature selection | |
Dyvak et al. | Artificial bee colony algorithm with modified operators of determining the profitable food sources for identification the models of atmospheric pollution by nitrogen dioxide | |
Bemani-N et al. | A hybrid adaptive granular approach to Takagi–Sugeno–Kang fuzzy rule discovery | |
Dal Pozzolo et al. | Comparison of data mining techniques for insurance claim prediction | |
CN113553896B (zh) | 一种基于多特征深度森林的脑电情绪识别方法 | |
CN112580606B (zh) | 基于聚类分组的大规模人体行为识别方法 | |
CN108508149A (zh) | 一种基于污染源溯源的药效提升空气检测系统 | |
da Silva et al. | Clustering of the self-organizing map using particle swarm optimization and validity indices | |
Fan et al. | Non-parametric power-law data clustering | |
Gopika et al. | A novel approach on ensemble classifiers with fast rotation forest algorithm | |
CN114649065B (zh) | 基于BPMLP-XGBoost的产品活性值和ADMET性质的预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |