CN113295625B

CN113295625B - 基于极端梯度提升的机器视觉染料浓度光谱检测方法

Info

Publication number: CN113295625B
Application number: CN202110483183.7A
Authority: CN
Inventors: 张彤; 金楠; 朱磊; 姬文江; 刘娇娇
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2023-04-18
Anticipated expiration: 2041-04-30
Also published as: CN113295625A

Abstract

本发明提出了一种基于极端梯度提升的机器视觉染料浓度光谱检测方法，首先需要将实际工业生产中的染液分别配制出来，取样将其滴在工业相机设备下的玻璃皿上，在三种背光光源以及九种曝光时间的照射下采集图像信息，即采集R、G、B值作为原始数据，并将原始数据进行去噪点、归一化、曝光时间独热编码、特征选择以及差分等一系列预处理后，加入XGboost算法进行反复训练及优化，训练出能够达到标准的最优模型。于此，在今后的染液浓度检测中就可以应用此方法，不仅提高了检测精度，而且环保高效，方便未来的染料工业，促进未来染料行业的发展，符合国家对染料行业的要求。

Description

基于极端梯度提升的机器视觉染料浓度光谱检测方法

技术领域

本发明属于人工智能领域的一个重要方向，具体涉及一种基于极端梯度提升的机器视觉染料浓度光谱检测方法。

背景技术

众所周知，染料是我国的传统优势产业,也是关乎基本民生的重要行业。近年来,我国经济高速发展，与此同时，中国的染料工业也取得了巨大成就,已经是世界染料生产、贸易以及消费的第一大国,据统计，染料行业成为我国经济发展的重要增长点。虽然中国染料行业已发展为全球第一，但是染料行业作为传统精细化工产业,"三废"(废水,废气,废渣)排放量大,尤其是废水污染最为严重,随着环保标准的提升，大量中小企业产能被迫停产整顿，制约着整个行业的发展，能否有效地减少生产过程中产生的"三废"已经成为染料行业能否继续发展的关键问题。因此染料的浓度检测至关重要，高精度高效率的染料浓度检测会使企业在生产过程中避免了许多浪费与污染。作为精细化学品行业的一个重要分支,虽然染料工业的GDP在整个化工行业中所占比例不高,但它覆盖了国民经济90％以上的领域,除用于传统的纺织印染行业外,在塑料,汽车,轨道交通,建筑,航空,电子信息,医疗卫生以及军工装备等行业的发展中,染料行业都扮演着不可或缺的重要角色.而中国染料产能更是占到了全球总产能的60％以上,可以说中国染料发展影响着世界染料行业的格局。

实验证明，染色效果虽然受温度、PH、湿度等因素的影响，但其最关键的因素还是染料本身的浓度。因此，染料浓度的检测至关重要。传统的染料浓度检测方法有电位滴定法和光学分析法，但是就拿我们所熟知的电位滴定法来说，这种方法不仅破坏了原有的染液，而且对仪器的精度要求很高，设备投入的成本更高。所以我们在寻求一种基于高效、环保、省力的机器学习染料浓度光谱检测方法。

发明内容

本发明的目的是提出一种基于机器视觉的染液浓度快速检测方法，解决了传统的染料检测方法造成的污染程度大、检测精度不高、效率低的问题。

具体方法是从染液中取出一部分样本滴在工业相机镜头下的玻璃皿上，玻璃皿下会有设置有背光光源，通过调节不同的光源及曝光时间，并通过已经设计好的算法，即本次发明中所提出的基于极端梯度提升的机器视觉染料浓度光谱检测方法，检测出样本染液的浓度。

本次发明所提出的方法具体包括以下步骤：

步骤1：根据现有配方配置染液。

步骤2：将配置好的染液分成不同的水平及配比。

步骤3：调节光源以及曝光时间，将采集到的R、G、B值记录下来以便训练模型。

步骤4：将步骤3收集到的数据划分为训练集与测试集。

步骤5：将步骤4划分好的训练集数据进行预处理，采用某种数据预处理方法分析或者处理原始数据。

步骤6：分析数据集，选择合适的机器学习方法，本次发明采用的机器学习方法为极端梯度提升XGboost算法。

步骤7：通过步骤6选择好的机器学习方法，对步骤5已经处理好的数据集进行训练，试寻求最优的模型。

本次发明的特点还在于：

步骤1.1：根据实际染料工业所需的现有配方，选取染料3BF、3RF、2GF进行配置一定浓度的染液。

步骤1.2：针对单组分染液，选取染料2GF进行配制；针对双组分染液，选取染料2GF、3RF进行配制；同样地，针对三组分染液，选取染料2GF、3RF、3BF进行配制。

步骤2.1：将每种组分染料各配制10种不同浓度档次的母液。

步骤2.2：配制好的三类母液各有10种不同浓度档次相互组合，形成本次发明中的100种不同染料配比，用来收集原始数据。

步骤3.1：将配制好的染液滴在工业相机设备下的玻璃皿上，采用R100、B100、G100这三个背光光源来进行照射染液。

步骤3.2：针对步骤3.1所采用的光源，分别调整曝光时间，选取9组曝光时间，这9组曝光时间分别为1000μs、2500μs、5000μs、10000μs、20000μs、40000μs、80000μs、120000μs、200000μs。

步骤3.3：经过步骤3.1与步骤3.2，采集每种背光光源下每个曝光时间下的图像信息，收集图像中R、G、B值，于是将采集到的R、G、B值以及曝光时间作为原始数据记录下来，事实上，每条染料浓度配比在工业相机设备的照射下得到81个数据。

步骤4.1：分析步骤1与步骤2所配比的浓度值，选择一种合适的方法或按照一定的规则来划分训练集与测试集。

步骤4.2：在经过步骤4.1的分析过后，我们发现测试集的浓度范围应该在训练集的浓度范围之内，即测试集的最大浓度不能超过训练集的最大浓度，测试集的最小浓度不能低于训练集的最小浓度，基于此原则，从原始数据中选择了10组数据作为测试集，剩余的数据作为本次发明的训练集。

步骤5：在经过步骤4的样本划分之后，观察并分析数据集，寻求合适的数据预处理方法，对原始数据进行预处理以方便之后步骤6的机器学习方法的选择以及步骤7的训练数据。

步骤5具体做法如下：

步骤5.1：分析数据发现原始数据存在如下情况，即在同一光源下并且同一曝光时间下R、G、B的值相同且均为255时，其对应的染料浓度值却不相同，这类数据不仅无效更是会对模型的训练起到干扰作用，于是对原始数据进行去噪点处理，即删除R、G、B值均为255的这类数据。

步骤5.2：针对曝光时间的非连续性，对所有曝光时间进行独热编码，曝光时间1000μs、2500μs、5000μs、10000μs、20000μs、40000μs、80000μs、120000μs、200000μs经过独热编码后分别变成0、1、2、3、4、5、6、7、8，方便处理，也加速模型的训练。

步骤5.3：因为原始数据的特征间具有不同的值范围，所以为了防止梯度更新时会来回震荡，所以对步骤5.1去噪点以及步骤5.2曝光时间独热编码过后的数据进行归一化，使特征具有相同的度量尺度。即将数据按照最小值中心化后再按极差(最大值-最小值)进行缩放。最终的数据移动了最小值个单位，并且会被收敛到[0,1]之间。以此将不同规格的数据转换到同一规格，对于之后步骤7模型的训练起到加速作用。

步骤5.4：从已有的R100-R、R100-G、R100-B、G100-R、G100-G、G100-B、B100-R、B100-G、B100-B以及EX这10个特征进行特征选择，留下评分最高的K(1≤K≤10)个特征，从而减少特征数量、降维，使模型泛化能力更强，减少过拟合。

具体采用三种不同的方法进行特征选择:

步骤5.4.1：基于方差进行特征选择，计算单个特征和目标变量线性回归测试的f值，调整所要选择的特征数量，根据评分标准从高往低依次进行特征选择。

步骤5.4.2:基于互信息进行特征选择，基于互信息的特征选择，使用离散的特征集或者连续的特征集，对于连续的特征集，会采用分箱的方法进行二元离散化，然后计算各个特征集与目标变量的互信息值(也是信息增益值)，根据互信息的值降序排列后，用Top-k的特征选择策略完成特征的选择。

步骤5.4.3：基于选择的模型本身进行特征选择，直接使用你要用的机器学习算法，针对每个单独的特征和响应变量建立预测模型，调整自己所要选择的特征数量K,根据计算出来的评分标准进行特征选择。

步骤5.5：使用差分法对同一光源下相邻曝光时间的R、G、B值依次相减得到各自光源下的八组数据，加入到原始特征当中增加特征维度。

步骤6.1:由于染料浓度的检测属于回归问题，所以本次发明选择极端梯度提升即XGboost算法，准备将步骤5中预处理过后的数据进行训练。

步骤7.1：为了探索每种背光光源下收集到的R、G、B值与染料浓度的关系，首先将原始数据根据光源划分，用每种光源下的R、G、B值、曝光时间以及浓度分别单独训练模型，探索其之间的关系。

具体训练过程如下：

步骤7.1.1：首先将数据集按光源划分开，经过步骤5.1的去噪点、步骤5.2的曝光时间独热编码以及步骤5.3的数据归一化的预处理后，进行调整参数即步骤7.1.2。

步骤7.1.2：调整XGboost算法中的通用参数、Boost参数、以及学习目标参数，其中最主要还是调试算法中的Boost参数。通用参数中，包括参数booster、silent以及nthread,将参数booster保持默认值gbtree,参数silent同样保持默认值silent＝0，nthread同样保持默认值；Boost参数中，主要调试参数n_estimators,learning_rate,subsample,gamma,max_depth,min_child_weight,reg_alpha,reg_lambda这八个参数；学习目标参数也保持其默认值。

步骤7.2：将步骤5.4特征选择后的特征拿出来进行模型训练，具体做法与步骤7.1.1以及步骤7.1.2类似，即先进行步骤5.1的去噪点、步骤5.2的曝光时间独热编码以及步骤5.3的数据归一化的预处理后，再进行步骤7.1.2参数的调试。

步骤7.3：将步骤5.5差分法得到的八个特征拿出来进行模型训练，具体做法与步骤7.1.1以及步骤7.1.2类似，此处不再叙述。

本发明的有益效果是：

本发明针对染料溶液的检测问题提出了一种更加简洁、高效、环保的基于XGboost的机器视觉染料浓度光谱检测方法，使用在特定光源及不同曝光时间测得的R、G、B值，经过一系列数据预处理，通过选择好的XGboost算法计算后得到染液浓度值。本次发明有效的解决了染液浓度在检测时所造成的污染、所需检测仪器的高精度或者高成本、检测效率低等一系列问题。相较于传统的溶液检测方法，不论是单组分、双组分还是多组分染液，提出了一种更加新颖更加科学的机器视觉检测方法。

附图说明

图1为本发明基于极端梯度提升的机器视觉染料浓度光谱检测方法总体流程图；

图2为本发明基于极端梯度提升的机器视觉染料浓度光谱检测方法数据预处理流程图；

图3为本发明基于极端梯度提升的机器视觉染料浓度光谱检测方法中极端梯度提升算法原理图；

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于极端梯度提升的机器视觉染料浓度光谱检测方法，如图1，具体方法，具体包括以下步骤：

步骤1：根据实际染料工业所需的现有配方，选取染料3BF、3RF、2GF进行配置一定浓度的染液；针对染液组分，分别配制单组分染液、双组分染液以及三组分染液。

步骤2：将每种组分染料各配制10种不同浓度档次的母液。配制好的三类母液(各有10种不同浓度档次)相互组合，形成本次发明中的100种不同染料配比。

步骤3.3：经过步骤3.1与步骤3.2，采集每种背光光源下每个曝光时间下的图像信息，收集图像中R、G、B值，于是将采集到的R、G、B值以及曝光时间作为原始数据记录下来，事实上，每条染料浓度配比在实验仪器的照射下得到81个数据。

步骤4：分析步骤1与步骤2所配比的浓度值，选择一种合适的方法或按照一定的规则来划分训练集与测试集。将测试集的浓度范围控制在训练集的浓度范围之内，即测试集的最大浓度不能超过训练集的最大浓度，测试集的最小浓度不能低于训练集的最小浓度。基于此原则，从原始数据中选择了10组数据作为测试集，剩余的数据作为本次发明过程中的训练集。

步骤5：在经过步骤4的样本划分之后，由于原始数据存在某些局限问题，所以要对原始数据进行预处理，具体处理过程如图2所示。

具体做法如下：

步骤5.2：针对曝光时间的非连续性，对所有曝光时间进行独热编码。独热编码，又称one-hot编码，用来解决类别型数据的离散值问题，使用one-hot编码，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码，会让特征之间的距离计算更加合理。离散特征进行one-hot编码后，编码后的特征，其实每一维度的特征都可以看作是连续的特征。

于是曝光时间1000μs、2500μs、5000μs、10000μs、20000μs、40000μs、80000μs、120000μs、200000μs经过独热编码后分别变成0、1、2、3、4、5、6、7、8，方便处理，也加速模型的训练。

步骤5.3：在经过步骤5.1的去噪点以及5.2的曝光时间独热编码后，需要对特征进行归一化处理，数据的归一化作用主要有两个：第一，去掉量纲，使得指标之间具有可比性；第二，将数据限制到一定区间，使得运算更为便捷。经过归一化后，数据会被收敛到[0,1]之间。具体处理的数据公式为公式(1)：

具体采用三种不同的方法进行特征选择:

步骤6:由于染料浓度的检测属于回归问题，所以本次发明选择极端梯度提升即XGboost算法。

结合图3，可知极端梯度提升算法的算法思想为不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数f(x)，去拟合上次预测的残差。当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数。最后只需要将每棵树对应的分数加起来就是该样本的预测值。算法实现过程公式如下：

目标函数(损失函数揭示训练误差+正则化定义复杂度+常数项)为公式(2)：

其中l为损失函数，Ω(f_t)为正则项，constant为常数项用泰勒公式展开来近似原来的目标，如公式(3)：

对于f(x)，XGBoost利用泰勒公式展开三项，做一个近似f(x)表示的是其中一棵回归树。

并做如下定义，即公式(4)与公式(5)

因此目标公式化简为公式(6)：

其中正则项(用来表示树的复杂度)为公式(7)：

其中T表示叶子节点的个数，w为叶子节点的得分。正则化项是表示树的复杂度的函数，值越小复杂度越低，泛化能力越强。

具体训练过程如下：

步骤7.1.1：将按光源划分开的数据集经过步骤5.1的去噪点、步骤5.2的曝光时间独热编码以及步骤5.3的数据归一化的预处理后，进行调整参数即步骤7.1.2。

步骤7.1.2：调整XGboost算法中的通用参数、Boost参数、以及学习目标参数，其中最主要还是调试算法中的Boost参数。通用参数中，包括参数booster、silent以及nthread,将参数booster保持默认值gbtree,参数silent同样保持默认值silent＝0，nthread同样保持默认值；Boost参数中，主要调试参数n_estimators,learning_rate,subsample,gamma,max_depth,min_child_weight,reg_alpha,reg_lambda这八个参数；学习目标参数也保持其默认。

步骤7.2：将步骤5.4特征选择后的特征拿出来进行模型训练，具体做法与步骤7.1.1以及步骤7.1.2类似，即先进行步骤5.1的去噪点、步骤5.2的曝光时间独热编码以及步骤5.3的数据归一化的预处理后，再进行步骤7.1.2参数的调整。

Claims

1.基于极端梯度提升的机器视觉染料浓度光谱检测方法，其特征在于，首先利用工业相机设备采集训练模型的必要前提即原始数据，即不同光源不同曝光时间下采集的R、G、B值，再经过一系列的数据预处理，选出适合的光谱训练数据，将其导入选择好的算法中反复调整参数及模型优化，最终训练出达到评价标准的最优模型，用于今后的染料浓度检测；实现过程具体包括以下步骤：

步骤1：根据实际工业生产要求，配制所需染液；

步骤2：将配制好染液根据均匀设计原则进行稀释；

步骤3：将步骤2配制好的染液取样滴在工业相机设备下的玻璃皿上，调整背光光源及曝光时间，采集每次的图像信息，收集原始数据；

步骤4：将步骤3收集的原始数据划分成训练集与测试集；

步骤5：将步骤3中原始数据进行一系列的数据预处理，减少干扰项，加速模型的训练；

步骤6：从支持向量机算法SVM、反向传播神经网络算法BP、极端梯度提升算法XGBoost以及最佳邻近法KNN中选择一种或几种作为机器学习算法；

步骤7：将步骤5预处理后的数据导入算法中，进行反复训练及模型优化，最终得出最优的光谱检测方法；

所述步骤3具体如下：

步骤3.1：将配制好的染液滴在工业相机仪器的玻璃皿上，玻璃皿底部采用R100、B100、G100这三个背光光源来进行照射染液；

步骤3.2：针对步骤3.1所采用的光源，分别调整曝光时间，选取9组曝光时间，曝光时间的选择范围在1000微秒到200000微秒之间，本次发明选取的9组曝光时间分别为1000μs、2500μs、5000μs、10000μs、20000μs、40000μs、80000μs、120000μs、200000μs

步骤3.3：经过步骤3.1与步骤3.2，在工业相机设备下，采集每种背光光源下每个曝光时间下的图像信息，收集图像信息中所包含的R、G、B值；因此使用每种光源下每个曝光时间下R、G、B值以及曝光时间作为原始数据；

所述步骤5具体如下：

步骤5.1：去除噪点数据，即去除同一光源下并且同一曝光时间下R、G、B的值相同但染料浓度值却不相同的数据，这类数据会对模型的训练起到干扰作用；

步骤5.2：因为原始数据的特征具有不同的数值范围，为了使特征具有相同的度量尺度，方便训练模型，所以将步骤5.1去除噪点后的数据进行归一化处理，处理后的数据会被收敛到 [0,1] 之间；

步骤5.3：针对曝光时间的非连续性，更是为了加速模型的训练，因此对所有曝光时间进行独热编码，曝光时间1000μs、2500μs、5000μs、10000μs、20000μs、40000μs、80000μs、120000μs、200000μs经过独热编码后分别变成0、1、2、3、4、5、6、7、8；

步骤5.4：从已有的R100-R、R100-G、R100-B、G100-R、G100-G、G100-B、B100-R、B100-G、B100-B以及EX这10个特征进行特征选择，留下评分最高的K个特征，1≤K≤10，从而减少特征数量、降维，使模型泛化能力更强，减少过拟合；所述步骤5.4中，具体采用三种不同的方法进行特征选择:

步骤5.4.1：基于方差进行特征选择，计算单个特征和目标变量线性回归测试的f值，调整所要选择的特征数量，根据评分标准从高往低依次进行特征选择；

步骤5.4.2:基于互信息进行特征选择，基于互信息的特征选择，使用离散的特征集或者连续的特征集，对于连续的特征集，会采用分箱的方法进行二元离散化，然后计算各个特征集与目标变量的互信息值,也是信息增益值，根据互信息的值降序排列后，用Top-k的特征选择策略完成特征的选择；

步骤5.4.3：基于选择的模型本身进行特征选择，使用机器学习算法，针对每个单独的特征和响应变量建立预测模型，调整自己所要选择的特征数量K,根据计算出来的评分标准进行特征选择；

步骤5.5：使用差分法对同一光源下相邻曝光时间的R、G、B值依次相减得到各自光源下的八组数据，加入到原始特征当中增加特征维度；

所述步骤6具体如下：

由于染料浓度的检测属于回归问题，所以选择极端梯度提升即XGboost算法，XGboost的算法思想正是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数f(x)，去拟合上次预测的残差，最后只需要将每棵树对应的分数加起来就是该样本的预测值；

所述步骤7具体如下：

步骤7.1：为了探索每种背光光源下收集到的R、G、B值与染料浓度的关系，首先将原始数据根据光源划分，用每种光源下的R、G、B值、曝光时间以及浓度分别单独训练模型，探索其之间的关系；

步骤7.1.1：将按光源划分开的数据集经过步骤5.1的去噪点、步骤5.2的数据归一化以及步骤5.3的曝光时间独热编码的预处理后，进行调整参数即步骤7.1.2；

步骤7.1.2：调整XGboost算法中的通用参数、Boost参数、以及学习目标参数，其中最主要还是调试算法中的Boost参数；通用参数中，包括参数booster、silent以及nthread,将参数booster保持默认值gbtree,参数silent同样保持默认值silent=0，nthread同样保持默认值；Boost参数中，主要调试参数n_estimators, learning_rate, subsample,gamma,max_depth, min_child_weight, reg_alpha, reg_lambda这八个参数；学习目标参数也保持其默认值；

步骤7.2：将步骤5.4特征选择后的特征拿出来进行模型训练，具体做法与步骤7.1.1以及步骤7.1.2类似，即先进行步骤5.1的去噪点、步骤5.2的数据归一化以及步骤5.3的曝光时间独热编码的预处理后，再进行步骤7.1.2参数的调试；

步骤7.3：将步骤5.5差分法得到的八个特征拿出来进行模型训练，具体做法与步骤7.1.1以及步骤7.1.2相同。

2.根据权利要求1所述的基于极端梯度提升的机器视觉染料浓度光谱检测方法；其特征在于，所述步骤1具体如下：

步骤1.1：根据实际生产过程中的要求，选择出所需的染料2GF、3RF、3BF；

步骤1.2：针对单组分染液，选取染料2GF进行配制，针对双组分染液，选取染料2GF、3RF进行配制，同样地，针对三组分染液，选取染料2GF、3RF、3BF进行配制。

3.根据权利要求1所述的基于极端梯度提升的机器视觉染料浓度光谱检测方法；其特征在于，所述步骤2具体如下：

步骤2.1：将每种组分染料各配制10种不同浓度档次的母液；

步骤2.2：配制好的三类母液各有10种不同浓度档次相互组合，形成100种不同染料配比，用来收集原始数据。

4.根据权利要求1所述的基于极端梯度提升的机器视觉染料浓度光谱检测方法；其特征在于，所述步骤4具体如下：

步骤4.1：分析步骤1与步骤2所配比的浓度值，为了保证模型训练的有效性及泛化性，所以测试集的浓度范围应该在训练集的浓度范围之内，即测试集的最大浓度不能超过训练集的最大浓度，测试集的最小浓度不能低于训练集的最小浓度，基于此原则，从原始数据中选择了10组数据作为测试集，剩余的数据作为训练集。