CN106975617A

CN106975617A - 一种基于色选机的物料分类方法

Info

Publication number: CN106975617A
Application number: CN201710234932.6A
Authority: CN
Inventors: 李慧琦; 张延军; 佟志钰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2017-04-12
Filing date: 2017-04-12
Publication date: 2017-07-25
Anticipated expiration: 2037-04-12
Also published as: CN106975617B

Abstract

本发明公开了一种基于色选机的物料分类方法，首先，向色选机中分别投入有价值的一类物料样本和无价值的二类物料样本，利用阈值法和中值滤波的方法，对色选机采集的图像进行预处理，即消除背景和噪声，有利于提高后续分类筛选的正确率；利用C4.5决策树和代价敏感学习相结合的优化算法，构建决策树模型，能够高效、实时地实现物料的分类，并且能够在保证分类正确率不受到较大影响的前提下，尽可能的提高有价值的一类物料的纯度，即其精确度，也可以在人工模式下根据个人需求进行不同纯度品级的产品筛选。

Description

一种基于色选机的物料分类方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于色选机的物料分类方法。

背景技术

传统的塑料、矿石、小麦等分拣利用人工或操作半自动设备将异物或品质较差的物体分拣出来。但是由于人眼对物体的选择具有局限性，且卫生质量得不到保障，不能满足人们对产品质量和卫生的追求，所以色选技术应运产生。色选技术是指利用产品自身的光学特性，在光源的照射下，其反光特性或透光特性随农产品好坏的不同而不同，通过光学镜头后，产品的图像信息被CCD或光电二极管接收，利用控制芯片及微处理器进行信号进行放大处理、转换与传输等，并与标准信号进行对比，分析出该产品的品质优劣，再利用喷气阀将不合格、劣质产品进行分级剔除。

决策树是一种应用比较广泛的数据挖掘分类方法，因其具有分类精度高、速度快、生成的决策规则易于理解等优点而受到广泛关注。决策树的概念最早出现在概念学习系统(CLS,Concept learning system)中，后来许多决策树算法都是对CLS算法的改进，在决策树的发展中，ID3算法最有影响、作用最大，根据信息增益进行特征的选择。以ID3算法为基础，很多研究人员提出了对ID3的更新的算法。

在1993年Quinlan提出的C4.5算法是最有影响的一种决策树生成算法，其思想是先把整个数据集作为树的根节点，利用信息论中的信息增益率来寻找数据集中具有最大信息增益率的特征作为节点分裂的依据，而后根据特征的不同取值进行分裂，建立节点的分枝，并在每个子节点中重复该操作，直至生成一棵完整的决策树。

经典的分类问题是在假设为各种分类错误所要付出的代价相同的情况下，要求达到高的分类正确率。然而这种假设在实际应用中很难满足，如在矿石分类问题中，将有价值的一类矿石判断为无价值的二类矿石与将二类矿石判断为一类矿石，这两种错误的分类所要付出的代价一定是不相同的。

发明内容

本发明所要解决的关键问题是，针对不同误判代价的分类错误，在两分类问题中，保证分类正确率不受到较大影响的前提下，尽可能的减少误分类代价大的分类错误。为解决已有色选机系统的缺陷，本发明提出了一种基于色选机的物料分类方法，能够自动确定分类错误的最优误判代价，在保证分类正确率不受到较大影响的前提下，减少误分类代价较大的分类错误，也可以在人工模式下根据个人需求进行不同纯度品级的产品筛选。

本发明的一种基于色选机的物料分类方法，包括如下步骤：

步骤一：向色选机中分别投入有价值的一类物料和无价值的二类物料，采集物料样本图像，并对图像进行预处理，得到图像特征以及特征值，将形成的样本数据添加样本类别标签，构建训练集；

步骤二：选择工作模式，根据上一步处理得到物料训练集，利用C4.5决策树和代价敏感学习相结合的优化算法，构建决策树模型，具体步骤包括：

第1步、选择工作模式：当选择自动模式时，执行第2步至第12步；当选择人工模式时，手动输入代价值cost后，执行第13步到第14步；

第2步、假设将样本类别u₂误判为样本类别u₁是误判代价较大的错误，设定代价值C(i)表示将其他样本类别误判为样本类别u_i的代价，i＝1，2；设定样本类别u₁的误判代价初始值为；C(1)＝1；样本类别u₂的误判代价初始值为C(2)＝1；

第3步、将训练集中的样本数据作为决策树当前节点的数据集D；

第4步、计算第j个类别的类别权值w(j)，j＝1,2，公式如下：

其中，N_i为训练集中样本类别u_i的个数；

第5步、计算数据集D的熵Info(D)，公式如下：

Info(D)＝-∑_ip(j)log₂(p(j))

其中，p(j)的计算公式如下：

第6步、假设样本数量为total，针对于样本对应的每个特征，将当前节点上的对应于该特征的数据样本的特征值，按从小到大进行排序，得到特征的取值序列{A1，A2，...，Atotal}，分别以A1，A2，...，A(total-1)为分割点对数据集D进行分割，每一次分割均得到两个数据子集D₁和D₂，计算每个分割点的熵，则第k个分割点Ak的熵Info_Ak(D)表示为：

其中，k＝1，2，...，total-1,|D|为数据集D中的样本个数，|D_j|为样本子集D_j中的样本个数，j＝1,2；

第7步、计算分割点Ak的信息增益率GainRatio(Ak)，公式如下：

其中，

第8步、针对所有特征对应的所有分割点，找到信息增益率最大的分割点，作为当前层节点的分裂特征和分裂数值，将训练集按照该分裂特征并基于该分裂数值分为两个子集；

第9步、对第8步产生的所述两个子集分别进行判断：

当两个子集的样本个数过少或只有一类样本时，当前两个子集即作为决策树的最终分类结果，执行步骤10；

当其中一个子集的样本个数过少或只有一类样本，但另一个子集的样本个数较多，判定该另一个子集需要继续进行分裂，并将该另一个子集为新的训练集，形成决策树当前层节点的下一层节点，决策树当前节点的一个分支，重复第3步到第9步，直至所有分支均已得到分类结果，得到决策树模型，执行第10步；

当两个子集的样本个数均较多时，则两个子集均需要继续分裂，两个子集分别形成新训练集，并形成决策树当前层节点的下一层的两个节点，即当前节点的两个分支，该两个节点分别重复第3步到第9步，直至所有分支均已得到分类结果，得到决策树模型，执行第10步；

第10步、利用生成的决策树模型对训练集进行测试，计算分类正确率Accuracy和准确率Precision，综合考虑两个评估指标，并认为准确率Precision的重要性为正确率Accuracy的两倍，计算该模型得分Score：

第11步、令误判代价C(1)增大0.1，C(2)保持不变，使用步骤一得到的训练集，执行第3步到第10步，建立新的决策树模型并获得其得分Score；

第12步、重复第3步到第11步，直到得分Score较C(1)＝1的得分Score有明显下降，取目前获得的所有得分Score中最大值对应的决策树模型为最终结果，执行步骤三；

第13步、假设样本数量为total，假设将样本类别u₂误判为样本类别u₁是误判代价较大的错误，设定代价值C(i)表示将其他样本类别误判为样本类别u_i的代价，i＝1，2；设定样本类别u₁的误判代价值为C(1)＝cost；样本类别u₂的误判代价初始值为C(2)＝1；

第14步、执行步骤3至步骤9，得到决策树模型，执行步骤三；

步骤三：根据上一步得到的决策树模型，对后续的混合物料进行分类，分类筛选出有价值的一类物料和无价值的二类物料。

较佳的，步骤一具体步骤包括：

第1步、取部分物料，进行人工分类筛选，分为有价值的一类物料样本和无价值的二类物料样本；

第2步、将两类物料样本分别投入色选机中，采集图像数据；

第3步、将图像的R、G、B三个通道的值作为特征，根据物料与背景色在R、G、B三个通道的较大差异，利用阈值法去除背景，并利用中值滤波去噪；

第4步、为得到的物料数据添加类别标签，构建训练集。

较佳的，步骤三中，得到分类结果后，将分类结果传输给喷气阀的控制电路，通过控制各个喷气阀的开闭完成对物料的分类。

本发明具有如下有益效果：

本发明是基于色选机的物料分类方法，首先，向色选机中分别投入有价值的一类物料样本和无价值的二类物料样本，利用阈值法和中值滤波的方法，对色选机采集的图像进行预处理，即消除背景和噪声，有利于提高后续分类筛选的正确率。利用C4.5决策树和代价敏感学习相结合的优化算法，构建决策树模型，能够高效、实时地实现物料的分类，并且能够在保证分类正确率不受到较大影响的前提下，尽可能的提高有价值的一类物料的纯度，即其精确度，也可以在人工模式下根据个人需求进行不同纯度品级的产品筛选。

本发明还具有较高的商业使用价值，实现了对有价值物料纯度的提高，从而提高产品的质量和价值，节省了大量人力资源和时间成本。

附图说明

图1为本发明实施例的分类方法流程示意图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了一种基于色选机的物料分类方法，用于解决对物料的分类筛选问题，包含如下步骤：

步骤一：向色选机中分别投入有价值的一类物料和无价值的二类物料，采集集物料样本图像，利用阈值法和中值滤波的方法，对色选机的图像进行预处理，即消除背景和噪声，对两类物料数据添加类别标签，构建训练集，具体步骤包括：

第2步、将两类物料样本分别投入色选机中，采集图像数据；

第3步、根据物料与背景色在R、G、B三个通道的较大差异，利用阈值法去除背景，并利用中值滤波去噪；

第4步、为得到的物料数据添加标签，构建训练集。

第1步、选择工作模式，共自动模式和人工模式两种。自动模式可以自动完成代价值确定和决策树模型构建；人工模式手动输入代价值，可根据需求更进一步地提高筛选纯度，输入代价值越高，获得纯度越高。例如，一千吨物料自动模式可筛选出一百吨有价值的一类物料，而在输入高代价值时，人工模式仅能筛选出十吨有价值的一类物料，但纯度更高，从而是筛选出的物料具有更高的价值。用户可根据需求自行选择。选择自动模式进行第2步到第12步，选择人工模式，手动输入代价值cost，进行第13步到第14步；

第2步、假设将样本类别u₂误判为样本类别u₁是误判代价较大的错误，即不希望出现的错误，设定代价值C(i)(i＝1，2)表示将其他样本类别误判为样本类别u_i的代价，设定初始值为C(1)＝1，C(2)＝1，即两种误判代价相同；

第3步、将训练集中的样本数据作为决策树的节点数据集D；

第4步、计算类别权值w(j)，公式如下：

其中，N_i为训练集中样本类别u_i的个数，j＝1,2；

第5步、计算D的熵Info(D)，公式如下：

Info(D)＝-∑_ip(j)log₂(p(j))

其中，p(j)的计算公式如下：

第6步、假设样本数量为total，将该节点上的所有数据样本按照该特征的具体数值，按从小到大进行排序，得到该特征的取值序列{A1，A2，...，Atotal}，分别以A1，A2，...，A(total-1)为分割点，将D分割为D₁和D₂，计算分割点Ai(i＝1，2，...，total-1)的熵Info_Ai(D)，公式如下：

其中，|D|为D中的样本个数，|D_j|为D_j中的样本个数，j＝1,2；

第7步、计算分割点Ai(i＝1，2，...，total-1)的信息增益率GainRatio(Ai)，公式如下：

其中，Gain(Ai)＝Info(D)-InfoAi(D)，

第8步、针对所有特征对应的所有分割点，找到信息增益率最大的分割点，作为当前层节点的分裂特征和分裂数值，将训练集按照该分裂特征并基于该分裂数值分为两个子集；如果最大分割点是特征R对应的，确定特征值以后，对训练集中R值大于或等于该特征值的数据分成一个子集，R值小于该特征值的数据分成另一个子集，分裂时并不考虑另外两个特征的特征值，即只按R特征进行分裂。

第9步、对第8步产生的所述两个子集分别进行判断：

当两个子集的样本个数过少或只有一类样本时，说明数据分裂到当前程度时，已经基本将两类物料区分开来，不再需要继续分裂了；则当前两个子集即作为决策树的最终分类结果，执行步骤10；

当其中一个子集的样本个数过少或只有一类样本，说明该子集不再需要继续分裂，但另一个子集的样本个数较多，说明该子集中不止包含一种物料，还将其它物料错误分裂到该子集中，因此，判定该另一个子集需要继续进行分裂，并将该另一个子集为新的训练集，形成决策树当前层节点的下一层节点，决策树当前节点的一个分支，重复第3步到第9步，直至所有分支均已得到分类结果，得到决策树模型，执行第10步；

第10步、利用生成决策树模型对训练集进行测试，计算分类正确率Accuracy和准确率Precision，综合考虑两个评估指标，并认为准确率Precision的重要性为正确率Accuracy的两倍，计算该模型得分Score，公式如下：

第11步、令误判代价C(1)增大0.1，C(2)不变，使用步骤一得到的训练集，重复第4步到第10步，建立新的决策树模型并获得其得分Score；

第12步、重复第4步到第11步，直到得分Score较C(1)＝1时有明显下降，取得分Score最高的代价值对应的决策树模型为最终结果。

第13步、假设样本数量为total，假设将样本类别u₂误判为样本类别u₁是误判代价较大的错误，设定代价值C(i)(i＝1，2)表示将其他样本类别误判为样本类别u_i的代价，设定样本类别u₁的误判代价值为C(1)＝cost；样本类别u₂的误判代价初始值为C(2)＝1；

第14步、执行步骤3至步骤9，得到决策树模型，执行步骤三；

实施例：

步骤一：向色选机中分别投入有价值的一类矿石样本和无价值的二类矿石样本，利用阈值法和中值滤波的方法，对色选机采集的图像进行预处理，即消除背景和噪声。

第1步、取部分混合石料，进行人工分类筛选，分为有价值的一类矿石样本和无价值的二类矿石样本；

第2步、将两类矿石样本分别投入色选机料斗中，采集图像数据；

第3步、调节背景板，取背景色为黑色，设定阈值宽度为50，利用阈值法去除背景，即R、G、B三个通道数值与平均值差异均小于50的像素点判断为背景，否则为矿石，并利用中值滤波去噪；

第4步、为得到的矿石数据添加标签，以R、G、B三个通道数值为特征，构建训练集。

步骤二：选择自动模式，根据上一步处理得到矿石训练集，利用C4.5决策树和代价敏感学习相结合的优化算法，构建决策树模型。

第1步、二类矿石u₂误判为一类矿石u₁是误判代价较大的错误，即不希望出现的错误，令C(1)＝1，C(2)＝1，即两种误判代价相同，C(1)为将二类矿石u₂误判为一类矿石u₁的误判代价，C(2)为将一类矿石u₁误判为二类矿石u₂的误判代价；

第2步、将训练集中的样本数据作为决策树的节点数据集D；

第3步、计算类别权值w(j)，公式如下：

其中，N_i为训练集中样本类别u_i的个数；

第4步、计算D的熵Info(D)，公式如下：

Info(D)＝-∑_ip(j)log₂(p(j))

其中，p(j)的计算公式如下：

第5步、假设样本数量为total，将该节点上的所有数据样本按照该特征的具体数值，按从小到大进行排序，得到该特征的取值序列{A1，A2，...，Atotal}，分别以A1，A2，...，A(total-1)为分割点，将D分割为D₁和D₂，计算分割点Ai(i＝1，2，...，total-1)的熵Info_Ai(D)，公式如下：

其中，|D|为D中的样本个数，|D_j|为D_j中的样本个数，j＝1,2；

第6步、计算分割点Ai(i＝1，2，...，total-1)的信息增益率GainRatio(Ai)，公式如下：

其中，Gain(Ai)＝Info(D)-InfoAi(D)，

第7步、取各特征各分割点中信息增益率最大的点为该节点的分裂特征和数值，将训练集分为两个子集；

第8步、对产生的子集进行判断，若其中样本个数过少或只有一类样本，则以个数较多的一类为该分支的分类结果，否则，以子集为新的训练集，形成新的叶节点，重复第2步到第7步。当所有分支均已得到分类结果，得到决策树模型，进行第9步；

第9步、利用生成决策树模型对训练集进行测试，计算分类正确率Accuracy和准确率Precision，综合考虑两个评估指标，并认为准确率Precision的重要性为正确率Accuracy的两倍，计算该模型得分Score，公式如下：

第10步、令误判代价C(1)增大0.1，C(2)不变，使用步骤一得到的训练集，重复第2步到第9步，建立新的决策树模型并获得其得分Score；

第11步、重复第3步到第10步，直到得分Score较C(1)＝1时下降0.2，取得分Score最高的代价值对应的决策树模型为最终结果。

步骤三：根据上一步得到的决策树模型，对后续大量的混合石料进行分类，分类筛选出有价值的一类矿石和无价值的二类矿石，将分类结果传输给喷气阀的控制电路，通过控制各个喷气阀的开闭完成对石料的分类。

自此，就实现了色选机分类筛选矿石的全部过程。实验验证，本发明能够高效、实时地实现混合的分类筛选，并且能够在保证分类正确率不受到较大影响的前提下，尽可能的提高有价值的一类矿石的纯度，从而提高产品的质量和价值。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于色选机的物料分类方法，其特征在于，包括如下步骤：

第4步、计算第j个类别的类别权值w(j)，j＝1,2，公式如下：

w (j) = \frac{C (j) Σ_{i} N_{i}}{Σ_{i} C (i) N_{i}}

其中，N_i为训练集中样本类别u_i的个数；

第5步、计算数据集D的熵Info(D)，公式如下：

Info(D)＝-∑_ip(j)log₂(p(j))

其中，p(j)的计算公式如下：

p (j) = \frac{w (j) N_{j}}{Σ_{i} w (i) N_{i}}

{Info}_{A k} (D) = Σ_{j} (\frac{| D_{j} |}{| D |} \times I n f o (D_{j}))

第7步、计算分割点A_k的信息增益率GainRatio(Ak)，公式如下：

G a i n R a t i o (A k) = \frac{G a i n (A k)}{S p l i t I n f o (A k)}

其中，

Gain (Ak) = Info (D) - In {fo}_{Ak} (D), SplitInfo (Ak) = - Σ_{j} (\frac{{| D}_{j} |}{| D |} \times \log_{2} (\frac{{| D}_{j} |}{| D |}));

第9步、对第8步产生的所述两个子集分别进行判断：

S c o r e = (1 + {0.5}^{2}) \frac{\Pr e c i s i o n \times A c c u r a c y}{{0.5}^{2} \times \Pr e c i s i o n + A c c u r a c y}

第14步、执行步骤3至步骤9，得到决策树模型，执行步骤三；

2.如权利要求1所述的一种基于色选机的物料分类方法，其特征在于，步骤一具体步骤包括：

第2步、将两类物料样本分别投入色选机中，采集图像数据；

第4步、为得到的物料数据添加类别标签，构建训练集。

3.如权利要求1所述的一种基于色选机的物料分类方法，其特征在于，步骤三中，得到分类结果后，将分类结果传输给喷气阀的控制电路，通过控制各个喷气阀的开闭完成对物料的分类。