CN105651941B

CN105651941B - 一种基于分解-聚合策略的卷烟感官智能评估系统

Info

Publication number: CN105651941B
Application number: CN201511024742.9A
Authority: CN
Inventors: 乔丹娜; 雒兴刚; 汤建国; 张忠良; 廖晓祥; 岳衡; 汪惠; 苏明红; 徐玉琼; 拔丽; 蒋新红; 杨海英; 王晓辉; 李中昌
Original assignee: China Tobacco Yunnan Industrial Co Ltd
Current assignee: China Tobacco Yunnan Industrial Co Ltd
Priority date: 2015-12-31
Filing date: 2015-12-31
Publication date: 2018-05-18
Anticipated expiration: 2035-12-31
Also published as: CN105651941A

Abstract

本发明开发了一种基于分解‑聚合策略的卷烟感官智能评估系统，该系统将卷烟智能感官评估中涉及的多分类问题分解成多个便于建模的两分类问题，然后对每个子问题分别建立分类器，接着采用聚合策略将两类分类器组合成多分类器。该系统预测精度明显高于经典的多分类器，运用本发明的系统，可以为卷烟企业在新产品的开发和产品维护过程中，辅助卷烟感官评估专家进行卷烟感官评估。

Description

一种基于分解-聚合策略的卷烟感官智能评估系统

技术领域

本发明涉及数据挖掘及专家评吸领域，具体涉及一种基于分解-聚合策略的卷烟感官智能评估系统

背景技术

在卷烟生产过程中，很难针对烟草的物理化学指标与卷烟的感官质量的复杂关系建立起有效的数学模型，因此在烟草及其制品的新产品开发和产品维护过程中，主要通过品烟专家的人工感官评吸对卷烟产品感官质量指标进行评价。显然，这种完全依赖人工反复评吸的生产方式会极大地影响评价结果的效率性，无法满足企业对生产快速性的要求。

为了解决评吸过程中主观性强、效率低下的问题，学者们开始使用数据挖掘的方法来对卷烟感官质量进行评价，力求从大量烟草数据中提取出物理化学指标和感官质量的映射规则，以辅助或代替品烟专家完成对卷烟的感官预测评价。当前主要以BP神经网络方法或支持向量机方法来解决成品卷烟的智能化感官评估问题。

然而，卷烟感官评估历史数据复杂，卷烟感官质量具有多个类别，涉及多分类问题，而现有的分类器在处理多分类问题时往往不能获得预期的效果。将多分类问题分解成一对一的两分类问题是数据挖掘领域针对解决多分类问题的有效途径。因此，本发明利用数据挖掘技术结合卷烟感官评估实践，将卷烟智能感官评估中涉及的多分类问题分解成多个便于建模的两分类问题，然后对每个子问题分别建立分类器，接着采用聚合策略将两类分类器组合成多分类器。具体地，本发明采用三种不同的分类器建立两分类模型，包括决策树，神经网络和支持向量机；采用多种聚合策略组合两类分类器，包括投票法，加权投票法，学习权值偏好法，非支配准则，基于距离加权法以及动态搜索法。该发明的创新点可以归纳为以下几点：

(1)本发明将卷烟智能感官评估中涉及的多分类问题分解成多个便于建模的两分类子问题，可以有效解决多分类问题模型复杂，难于求解的问题；

(2)本发明采用多种聚合策略组合两类分类器，从而建立多分类器。

(3)本发明设计了完整的实验来验证该策略的有效性。

实验结果表明，相比较于经典的多分类器，采用本发明的策略，不管采用何种基本分类器，其预测精度都明显高于经典的多分类器。因此，运用本发明的系统，可以为卷烟企业在新产品的开发和产品维护过程中，辅助卷烟感官评估专家进行卷烟感官评估。

发明内容

针对现有研究和实际应用中存在的问题，本发明设计了一种基于分解-聚合策略的卷烟感官智能评估系统

本发明的技术方案是：

基于分解-聚合策略的卷烟感官智能评估系统，具体包括以下步骤：

步骤1：采集成品烟感官待评估数据，即卷烟化学成分指标；

卷烟化学成分指标包括：总糖量、还原糖、烟碱量、总挥发碱、总氮量、烟碱氮、蛋白质、施木克值、氮碱比、含氯量、含钾量、糖碱比、氨态碱；

步骤2：对成品卷烟的感官评估结果进行离散化处理，获得卷烟感官质量的分类问题数据集；

步骤3：利用基于分解-聚合的多分类方法建立卷烟感官质量评估模型；

所述基于分解-聚类的多分类方法建立的卷烟感官质量评估模型为：根据成品烟感官评估的历史数据，根据感官指标的数据特点(类别数)获得多个成对的两分类问题，再针对每个子问题，利用数据挖掘技术建立分类器，最后采用聚合方法将子分类器组合成多分类器；

所述感官质量指标包括：光泽、香气、杂气、刺激、余味；

步骤4：得到卷烟感官质量评估结果。

针对未知样本，每个分类器给出预测结果，获得分值表，然后采用聚合策略将两分类器组合成多分类器，输出预测结果，本发明采用的聚合策略包括Vote,WV,LVPC,ND,DRCW和DCS；

本发明的有益效果如下：

本发明基于分解-聚合的多分类方法预测卷烟感官质量，帮助烟草企业建立智能感官评估系统。对于卷烟设计专家，可以利用本发明的方法，将卷烟配方的物化指标作为模型的输入变量，模型将自动输出卷烟各个感官指标的分值，可以较高精度地预测卷烟的感官质量，帮助卷烟设计专家在卷烟产品的开发和设计中进行更好的决策。

本发明所提的分解-聚合策略能够有效地处理智能感官评吸中多分类问题。相比较于基本的分类器，分解-聚合策略能够取得更好的预测精度，因此该方法可以帮助烟草企业在进行智能感官评估中提高工作效率，帮助烟草企业科学高效地进行产品维护和新产品开发。

附图说明

图1是本发明中具体实施方式的分解策略的示例图

图2是本发明中实验验证中各感官指标值分布情况

图3是本发明中实验验证中效果比较图(CART)

图4是本发明中实验验证中效果比较图(BPNN)

图5是本发明中实验验证中效果比较图(SVM)

具体实施方式

下面结合附图对本发明的具体实施方式做详细说明。

根据成品烟感官评估的工艺要求和质量要求，本实施方式基于总糖量、还原糖、烟碱量、总挥发碱、总氮量、烟碱氮、蛋白质、施木克值、氮碱比、含氯量、含钾量、糖碱比、和氨态碱这13种物理化学指标作为输入变量；基于光泽、香气、杂气、刺激、余味五种感官评吸指标作为输出变量建立基于分解-聚合的多分类方法的卷烟感官质量评估模型并进行了实验验证。

本实施方式建立基于分解-聚合策略的卷烟感官智能评估系统，包括如下步骤：

步骤1：采集成品烟感官待评估数据，即卷烟物化指标数据和相应的感官指标数据；

卷烟物化指标包括：总糖量、还原糖、烟碱量、总挥发碱、总氮量、烟碱氮、蛋白质、施木克值、氮碱比、含氯量、含钾量、糖碱比、氨态碱；感官指标包括：光泽、香气、杂气、刺激、余味；

步骤2：对历史数据进行预处理，包括输入变量的归一化处理和输出变量的离散化处理；

所述感官质量指标包括：光泽、香气、杂气、刺激、余味；

所述的基于分解-聚合的多分类方法建立卷烟感官质量评估模型按如下步骤建立：

步骤3-1：采集成品烟感官评估的历史数据，建立卷烟感官质量评估训练数据样本集；

卷烟感官质量评估训练数据样本集包括卷烟化学成分指标和感官评吸指标的专家评分结果；

所述卷烟感官质量评估数据样本集中的感官评吸指标的专家评分结果是由多个专家打分后求平均值得到的。

收集来自烟草企业的卷烟专家人工感官评估的成品烟感官评估的历史数据以建立进行分类预测的卷烟感官质量评估训练数据样本集，对历史数据进行整理，删除一些重复的或是存在缺失的数据，最后所得到的每一组历史数据均包括13种化学成分指标和5种感官评吸指标，本实施方式的卷烟感官质量评估训练数据样本集中包括某烟草企业2010～2012三年的成品烟数据，共计684组数据。

数据均通过多个专家打分后求平均值得到的，每一项指标分别作为分类使用的决策属性，根据六组不同项目进行六组不同实验。专家打分依据的感官质量评判标准如表1所示。

表1 卷烟感官质量评判标准

步骤3-2：对卷烟感官质量评估训练数据样本集进行预处理：根据感官质量评判标准和数据的具体特征，分别对5种感官评吸指标的专家评分结果进行离散化；同时对卷烟化学成分指标进行归一化处理；

步骤3-2-1：分别对5种感官评吸指标的专家评分结果进行离散化；

离散化方法如表2所示，其中离散区间长度等于0.5。以光泽为例，打分评判标准为3-5，而实际数据中不存在小于3.75的数据，因此将[3.75,4.25]归为第1类，(4.25,4.75]归为第2类，(4.75,5.25]归为第3类。

表2 专家评分结果离散方法

步骤3-2-2：卷烟化学成分指标的归一化；

定义集合X＝{x₁,x₂,...,x₆₈₄}为条件属性的取值，max(X)为该集合中的最大取值，min(X)为该集合中的最小取值，则对x_n，n∈{1,2,...,684}有归一化后的结果x′_n；

步骤3-3：根据成品烟感官评估的历史数据，根据感官指标的数据特点(类别数)获得多个成对的两分类问题，如图1所示；

步骤3-4：利用数据挖掘技术对各个子问题建立分类器，本发明采用三种不同的分类算法，包括决策树(Classification and Regression Tree,CART)，支持向量机(SupportVector Machine,SVM)和反馈神经网络(Back-propagation neural network,BPNN)；

步骤3-4-1：决策树(CART)

步骤3-4-1-1：生成树

在CART中，利用Gini指标来计算节点D的纯净度。Gini指标的计算方式如下：

其中，p_i是节点D中属于类别C_i的概率，m是类别数，另外，p_i＝|C_i,D|/|D且|·|是子集中的样本数。

在CART中，指标Gini被用来分割各个属性。如果属性A具有n个离散值{a₁,a₂,…a_n}，那么该属性则有2_n个可能的子集。但是，整个集合和空集不能作为一个分割点，所以只有2ⁿ-2个可能的子集。另一方面，如果属性A是连续的，潜在的分割点就在每两个连续点的中间。如果在属性A上的分割点将D分割成D₁和D₂，那么节点D的Gini值为如下：

这样，在属性A上分割点的纯净度下降量为：

ΔGini(A)＝Gini(D)-Gini_A(D)

最大化上述公式的属性和分割点将被选为相应的分割属性和分割点。这个过程反复执行直到达到停止准则。

步骤3-4-1-2：剪枝

由于存在噪声的影响，为了防止过拟合现象的出现，剪枝是必不可少的步骤。在CART中，错误率被用来确定是否剪枝的标准。

步骤3-4-1-3：对于给定待评估数据，依据决策树自顶向下地输出即可得到叶结点的分类。

步骤3-4-2：支持向量机(SVM)

步骤3-4-2-1：给定训练数据样本集(x₁,y₁),(x₂,y₂)...,(x_l,y_l)，给定SVM方法核函数、惩罚参数c、核参数g；

SVM的核函数选取径向基(RBF)函数，惩罚参数c(调节特征子空间中SVM模型的置信范围与经验风险的比例使支持向量机的泛化能力达到最好)选取c＝2，核参数g(影响样本数据在高维特征空间中分布的复杂程度)选取g＝1；

步骤3-4-2-2：通过引入Lagrange函数，将SVM算法归结为一个有约束的二次型规划(QP)问题：

s.t. y_i[(x_i·ω)+b]-1+ξ_i≥0,i＝1,2,...,l

其中xgω+b＝0为超平面，ξ_i＞0代表对分类错误样本进行惩罚的松弛变量，A＞0为用来维持样本误分类导致的惩罚水平和算法复杂度之间平衡的常数，ω为输入变量的权重向量，b为超平面的阈值标量，SVM旨在寻找一个最优的超平面使得超平面两侧点与超平面距离最大化；

步骤3-4-2-3：基于最优化问题的求解，将该问题转化为QP问题的对偶问题：

其中α_i表示Lagrange乘子，K(x_i·x_j)为核函数，那些α_i＞0对应的训练数据样本点称为支持向量；

步骤3-4-2-4：对于给定的待评估数据样本x，基于得到的支持向量，计算分类结果，分类函数定义为

其中α_i ^*表示＞0的Lagrange乘子，b^*为对应的分类阈值标量。

步骤3-4-3：反馈神经网络(BPNN)

步骤3-4-3-1：神经网络初始化，给定训练数据样本集(X,Y)给定输入层节点数M、隐含层节点数P、输出层节点数N，初始化权重值v_ij和ω_jk，初始化隐含层阈值α_j、输出层阈值β_k，给定学习率t，给定神经元激活函数，给定迭代次数S；

BP神经网络采用单隐层结构，选取迭代次数S为100，隐层节点数P为10，给定学习率t为0.001，初始权重值和阈值均为0～1之间的随机数；激活函数为Sigmoid函数。

步骤3-4-3-2：由权值和激活函数计算隐含层输出H和输出层输出O；

步骤3-4-3-3：计算输出层输出O与训练数据样本实际输出Y之间的误差，定义误差E为

e_k＝y_k-o_k k＝1,2,...,N

步骤3-4-3-4：根据网络误差更新权重值v_ij和ω_jk

ω_jk＝ω_jk+th_je_k j＝1,2,...,P；k＝1,2,...,N

步骤3-4-3-5：根据误差向量E和权重值更新阈值α_j和β_k

β_k＝β_k+e_k k＝1,2,...,N

步骤3-4-3-6：判断是否达到迭代次数，达到则完成训练过程，对于待评估数据直接代入步骤3.4.2计算输出分类结果；若未达到则返回步骤3.4.2继续训练，直至迭代次数达到S。

步骤4：得到卷烟感官质量评估结果。针对未知样本，每个分类器给出预测结果，获得分值表，然后采用聚合策略将两分类器组合成多分类器，输出预测结果，采用的聚合策略包括Vote,WV,LVPC,ND,DRCW和DCS；

步骤4-1：投票法(Vote)

该方法利用投票机制获得最终类别标识。具体是：每个成对的分类器对未知样本给出预测类别，获得最多投票的类别最终获胜，作为输出结果。预测类别如下：

其中，r_ij是分类器对未知样本相对于类别j预测为类别i的概率。

步骤4-2：加权投票法(WV)

不同于投票法，每个两分类器给出“是”或“否”的预测结果，在加权投票法中，每个分类器给出的结果以置信度的形式出现。预测类别为如下公式所示：

步骤4-3：学习权值偏好法(LVPC)

这种方法将模糊偏好关系引入到分值表中。绝对偏好，冲突和未知被引入到最终类别的识别过程中。最终类别的决策规则如下：

其中N_i是类别i在训练集中的样本数，p_ij和p_ji分别是对类别i和类别j的绝对偏好，c_ij是冲突程度以及I_ij是未知程度。相应的计算规则如下：

p_ij＝r_ij-min{r_ij,r_ji}

p_ji＝r_ji-min{r_ij,r_ji}

c_ij＝min{r_ij,r_ji}

I_ij＝1-max{r_ij,r_ji}

步骤4-4：非支配准则(ND)

该方法的分值表引入了正规化模糊偏好关系。最大程度不受支配的类别视作最终的输出结果。类别判断规则如下：

其中r′_ji是相应的正规化分值表，r′_ij和R_ij的计算方法如下：

步骤4-5：基于距离加权法(DRCW)

该方法将距离引入到权值的计算中。对于待预测的样本，训练集中与其越接近的样本所对应的类将获得更大的权值。对于样本集中的每一类，计算与待测样本最邻近的k个样本，并计算出该类与待测样本的平均距离。然后对于训练集中m个类别都进行如上操作，获得平均距离向量d＝(d₁,...,d_m)。新的分值表就由r_ij·w_ij构成，最后采用WV获得最终的输出类别。

其中

步骤4-6：动态搜索法(DCS)

这种方法考虑避免没有竞争力的子分类器对最终结果的负面影响。首先，在训练集中确定待测样本的k个最近邻，然后获得最近邻中包含的类别，最后将原始分值表中删去最近邻中没有的类别的信息从而获得新的分值表。这里我们采用的最近邻数为类别数的3倍，如果所有的最近邻只有一个类别，则扩大到6倍。最后采用WV获得最终的输出结果。

实验验证：

为了验证本发明的性能，将企业提供的684组数据样本(感官质量指标分布如图2所示)经过预处理后采用五次五折交叉验证的方式进行实验：实验时将全部数据样本随机分为五份，每次取其中的四份共同作为训练数据样本集，剩下的一份作为待评估数据样本集，采用分类方法计算分类结果并与其实际结果进行比较，得到分类正确率。重复进行五次这样的实验，并平均五次的结果得到最终分类预测正确率。基本分类器和采用分解-聚合方法的五次五折交叉验证实验的分类预测正确率如表3-表5所示。其中，Vote,WV,LVPC,ND,DRCW,DCS表示采用不同的聚合策略的结果，另外，对于支持向量机，目前还没有直接可以用支持向量机进行多分类的算法，因此表中不包含基本分类器的实验结果且Vote是其原始分类器。

在表3-表5中，加粗的部分表明每一行的最优值，由此我们可以很清楚地看出，在三种不同的基本分类器的测试环境下，本发明的方法明显优于经典的分类器。无论是针对每一个感官指标的预测效果，还是总体的平均结果，本发明的预测效果都明显优于传统的方法。另外，不同的组合策略所产生的效果也不尽相同：当CART作为基本分类器时，DRCW的效果最好，其平均结果比经典的分类器(Base)提高了5.32％；当BPNN作为基本分类器时，虽然DRCW取得了最好的平均结果，但是ND在香气和余味指标上胜过DRCW，另外，DRCW的平均结果比经典分类器提高了11.13％；当SVM作为基本分类器时，DRCW平均结果比传统的方法提高了1.46％。因此，本发明的预测精度明显优于传统的方法。

表3 卷烟感官质量评估预测准确率(CART)

数据集	Base	Vote	WV	LVPC	ND	DRCW	DCS
								余味	63.27	62.36	63.30	63.89	62.31	66.67	62.51
香气	53.05	54.45	55.73	56.84	54.92	60.51	54.59
								刺激	64.85	62.98	64.24	64.85	64.18	68.74	63.98
光泽	86.50	86.44	86.49	86.64	86.61	88.13	86.35
								杂气	82.63	81.99	82.67	82.78	82.32	84.89	82.55
平均结果	70.06	69.64	70.49	71.00	70.07	73.79	70.00

表4 卷烟感官质量评估预测准确率(BPNN)

表5 卷烟感官质量评估预测准确率(SVM)

数据集	Vote	WV	LVPC	ND	DRCW	DCS
							余味	70.41	70.44	70.82	70.50	71.44	70.20
香气	59.83	60.04	60.56	59.95	60.47	59.25
							刺激	71.67	72.05	72.67	71.85	73.81	70.76
光泽	88.19	88.22	87.26	88.16	89.56	88.02
							杂气	85.61	85.73	84.97	85.64	85.91	85.14
平均结果	75.14	75.30	75.26	75.22	76.24	74.67

为了更加清晰地展示实验结果，图3-图5表示实验结果的柱形图，从图中也可以看出，相比较于基本分类方法，基于本发明的方案在卷烟感官智能评估中具有明显的优势，可以作为烟草企业进行智能感官评估的有效方法。

Claims

1.一种基于分解‐聚合策略的卷烟感官智能评估系统，其特征在于，包括以下几个步骤：

步骤1：采集成品烟感官待评估数据，即卷烟化学成分指标；

所述基于分解-聚类的多分类方法建立的卷烟感官质量评估模型为：根据成品烟感官评估的历史数据，根据感官质量指标的数据特点获得多个成对的两分类问题，再针对每个子问题，利用数据挖掘技术建立分类器，最后采用聚合方法将子分类器组合成多分类器；

所述感官质量指标包括：光泽、香气、杂气、刺激、余味；

步骤4：得到卷烟感官质量评估结果,针对未知样本，每个分类器给出预测结果，获得分值表，然后采用聚合策略将两分类器组合成多分类器，输出预测结果，采用的聚合策略包括Vote,WV,LVPC,ND,DRCW和DCS。

2.根据权利要求1所述的一种基于分解‐聚合策略的卷烟感官智能评估系统，其特征在于，步骤3所述的利用基于分解‐聚合的多分类方法建立卷烟感官质量评估模型，具体是：

卷烟感官质量评估训练数据样本集包括卷烟化学成分指标和感官质量指标的专家评分结果；

所述卷烟感官质量评估数据样本集中的感官质量指标的专家评分结果是由多个专家打分后求平均值得到的；

步骤3-2：对卷烟感官质量评估训练数据样本集进行预处理：根据感官质量评判标准和数据的具体特征，分别对5种感官质量指标的专家评分结果进行离散化；同时对卷烟化学成分指标进行归一化处理；

步骤3-3：根据成品烟感官评估的历史数据，根据感官质量指标的数据特点获得多个成对的两分类问题；

步骤3-4：利用数据挖掘技术对各个子问题建立分类器，采用三种不同的分类算法，包括决策树、支持向量机和反馈神经网络。