CN117548234B

CN117548234B - 一种用于泡沫浮选工况预估的级联特征选择方法

Info

Publication number: CN117548234B
Application number: CN202311558727.7A
Authority: CN
Inventors: 谢永芳; 钱志强; 谢世文; 唐朝晖
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-11-22
Filing date: 2023-11-22
Publication date: 2024-07-02
Anticipated expiration: 2043-11-22
Also published as: CN117548234A

Abstract

本发明公开了一种用于泡沫浮选工况预估的级联特征选择方法，主要包括如下步骤：按照fisher分数从大到小的顺序对原特征集排名后，依次从特征集中删除排名集中最后一名对应的特征，分别评估所得特征数目递减的特征集，将评估结果最好的特征集作为中间特征子集，在中间特征子集的基础上，以特征子集编码二值向量为输入、模型准确率均值为输出，采用BGSA求解最优值，综合考虑目标值以及特征数目得到最终特征子集。本发明的特点是在原始特征数目众多时对于特征选择效果与计算代价之间的关系有一定协调能力，以在有限时间内达到特征选择减少不相关和冗余特征的基本目标，找到能使模型效率和最终表现均有所提升的合适特征子集。

Description

一种用于泡沫浮选工况预估的级联特征选择方法

技术领域

本发明主要涉及泡沫浮选过程自动化感知预测领域、模式识别与特征工程领域，具体涉及一种用于泡沫浮选工况预估的级联特征选择方法。

背景技术

泡沫浮选是一种重要的选矿手段，原理是利用破碎后不同种矿粒在药剂作用下表现出的不同亲水性，将目标矿物从低品位矿物中分离出来并富集。泡沫浮选作为在获取高品位有色金属时应用广泛的方法之一，对我国有色金属的利用率和产量的提高有重大意义。在浮选过程中，存在很多对浮选效果好坏有重要影响的过程变量，如矿浆液位、加药量等，目前主要依靠人工对浮选过程中的泡沫视频进行观察以识别当前工况并据此及时调整操作。然而，人工观察存在着主观性、随机性较强，劳动强度较大的缺陷。因而通过机器视觉提取特征进而判断工况和进行生产指标预测是浮选过程自动化的重要研究方向。目前，泡沫图像特征提取方法繁多，提取出的特征各有不同，特征集往往存在较大的不相关性和冗余性，即某些特征对工况或指标不敏感、表现能力弱和不同特征之间存在较大的信息冗余。这些不相关和冗余的特征不仅为机器学习模型的训练增加了很多不必要的计算代价和时间代价，而且还很有可能使模型过拟合而泛化能力降低。特征选择是应对该问题常用的数据预处理策略，它的思想是从特征集合中选出合适的特征子集，以期在性能不退化的情况下减少模型训练消耗、降低模型复杂度。目前特征选择算法主要分为三类：过滤式(filtermethod)、封装式(wrapper method)和嵌入式(embedded method)。过滤式算法只以预测变量和目标变量为参考，与具体选用的模型无关，结果清晰稳定且速度较快；封装式算法基于模型在不同特征子集上表现好坏来对特征子集做出取舍，而寻找使模型表现最好的特征子集问题可归结为一种优化问题，并存在着遍历复杂度随特征维数呈指数上升的NP难现象。

名词解释：

RBM：Restricted Boltzmann Machine，受限玻尔兹曼机

BGSA：Binary Gravitational Search Algorithm，二值引力搜索算法

发明内容

为解决现有技术的不足，本发明采用如下的技术方案：

一种用于泡沫浮选工况预估的级联特征选择方法，包括如下步骤：

步骤一，从浮选现场采集各时刻的预设检测特征的原始数据构成原始数据集并构建机器学习模型；

所述预设检测特征包括泡沫图像特征和工况类型特征；原始数据集中将当前时刻的去除尾矿品味数据的原始数据和前两个时刻的原始数据的集合作为一个样本；原始数据集划分为训练集和测试集；

步骤二、计算训练集中每个预设检测特征的fisher分数，并按照fisher分数从大到小的顺序对预设检测特征进行排序形成检测特征序列；

步骤三、依次删除训练集中检测特征序列中的最后一名预设检测特征对应的数据，直至训练集中仅有一个预设检测特征，每删除一个检测特征序列形成一个训练数据集，训练集也作为一个训练数据集；将所有训练数据集分别输入机器学习模型进行重复训练，统计每次模型训练完成后最终在测试集上的准确率的均值；将平均准确率最高的训练数据集包含的预设检测特征的集合作为中间特征子集；

步骤四、采用BGSA优化算法对中间特征子集中的预设检测特征寻优求解，得到预测准确率最高的预设检测特征的集合作为当前历史最优解，非预测准确率最高的预设检测特征的集合为候选解，若某一候选解中含有的预设检测特征种类数少于当前历史最优解的预设检测特征种类，且所述某一候选解的预设准确率与当前历史最优解的差值的绝对值小于预设阈值ε，则将所述某一候选解作为历史最优解，否则将当前历史最优解作为历史最优解；历史最优解中包含的预设检测特征即为选择出的最终的检测特征。

进一步的改进，所述泡沫图像特征包括气泡尺寸平均值、气泡尺寸方差、对比度、相关性、能量、均匀性、气泡速度平均值、气泡速度方差、气泡平均爆裂面积和气泡平均爆裂体积方差；所述工况类型特征包括矿石入矿品位特征包括粗选入矿中铅、锌和铁的品位以及粗选尾矿中锌的品位。

进一步的改进，所述机器学习模型为选择受限玻尔兹曼机。

进一步的改进，所述步骤二中，fisher分数的计算方法如下：

S21，设所有样本的第i维预设检测特征的数据集合为a_i；将a_i按照样本所属的工况类型特征分成4个子集，第j个子集表示为设第j个子集包含的数据量为n_j，则第i维预设检测特征的fisher分数F_i的计算式为：

其中l为工况类型数，表示第j个子集中第i维预设检测特征的第k个数据，表示第i维预设检测特征的数据集合的均值；表示第j个子集中第i维预设检测特征的数据集合的均值。

进一步的改进，所述步骤四中，采用BGSA优化算法对中间特征子集中的预设检测特征寻优求解的具体方法如下：

S1，将中间特征子集包含的预设检测特征进行任意组合得到所有可能的特征子集组合，分别将各个特征子集组合编码为n维二值向量其中n表示优化前特征集的特征数目即中间特征子集的特征数目；用各维x_i的0,1取值表示对应的特征子集是否包含该维预设检测特征，这样n维二值向量的所有形式就与预设检测特征选择的所有可能结果一一对应；

S2，以为输入变量，以RBM基于对应特征子集训练后在测试集上准确率的均值为输出变量，将从中间特征子集进一步选择出合适最终特征子集的过程转化为采用BGSA优化算法寻求最优解的过程；BGSA在解决二值问题时，方法如下：设时刻t的质点i在第d维上的速度为则t时刻的跳变概率的计算式为：

根据跳变概率，质点各维位置的移动描述为：

其中rand是0到1上均匀分布的随机数，代表对x取反；

为了更好地收敛，设定速度绝对值的上限v_max，即在BGSA中计算引力时，原来用于表示质点位置间欧式距离的R更变为质点位置间的Hanmming距离；

S3.设置BGSA的离子数目N，迭代次数iter，精英选取策略中精英数目K_best和万有引力常数G；其中K_best在精英策略中的意义是只有前K_best个最优质点发挥引力作用；

其中N表示质点总数，t表示当前时刻，T表示总时长，G(t₀)为1；

S4历史最优解的更新条件具体表示为：

x_best＝x,

if

|fit(x_oldbest)-fit(x)|＜ε,

or

fit(x)-fit(x_oldbest)＞ε

其中x_best表示历史最优解，x表示某一候选解，x_oldbest表示当前历史最优解，表示向量x各维之和，即向量x中含1的个数，也就是特征子集中特征的维数，ε表示对模型性能指标随机性的考虑和为了追求更小特征子集愿意牺牲性能的最大程度的预设值，当候选解和当前历史最优解的适应度之差在此范围内时，选择更小的特征子集作为历史最优解；fit(x)表示候选解x对应的适应度即候选解x对应的模型准确率均值；当候选解对应的适应度超出当前历史最优解的适应度的值大于ε时，视为候选解对应的模型表现有显著提升，所以将历史最优解更新为候选解。

进一步的改进，v_max＝6，质点数目N＝10，迭代次数iter＝50，精英选取策略为精英数目K_best随迭代次数线性衰减至1；万有引力常数G随指数迭代次数线性衰减至0。

本发明的优势和有益效果在于：

本发明在原始特征数目众多时对于特征选择效果与计算代价之间的关系有一定协调能力，以在有限时间内达到特征选择减少不相关和冗余特征的基本目标，找到能使模型效率和最终表现均有所提升的合适特征子集。

附图说明

图1是本发明的方法流程图

图2是本发明实施例的序贯后向选择算法评估结果图

图3是本发明中BGSA算法流程图

图4是本发明实施例的BGSA历史最优解迭代情况图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明，应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

本发明的实施例所采用的数据集是浮选过程中由不同时刻的泡沫静态特征、动态特征和铅、锌、铁粗选入矿品位、目标矿物锌的粗选尾矿品位所构成的。依据目标矿物的尾矿品位和回收率趋近于绝对负相关的关系，可由尾矿品位的相对值大致推算出回收率相对高低，从而以回收率为指标将工况分为区分浮选效果好坏的4类：坏(Bad)、劣(Poor)、良(Good)、好(Perfect)。本发明在该场景中的目的在于从数据集展示的14种特征中选择出对工况类型预测任务的真正有用且彼此相对独立的特征，以简化分类模型，提高训练效率和最终模型的泛化能力。

具体实施时，包含以下步骤：

S1，从浮选现场获取泡沫图像、矿石品位等原始数据并从图像中提取泡沫特征，基于锌尾矿品位对工况进行分类，构建包含图像特征、矿石入矿品位以及工况类型的数据集。该数据集包含按时间排列的4503个样本，每个样本包含14维预测变量(特征)和1维目标变量(4种工况类别)。这14维预测变量具体为：10种泡沫图像特征(气泡尺寸平均值、气泡尺寸方差、对比度、相关性、能量、均匀性、气泡速度平均值、气泡速度方差、气泡平均爆裂面积、气泡平均爆裂体积方差)；粗选入矿中铅、锌、铁的品位；粗选尾矿中锌的品位。考虑数据时序性和生产实际，实际模型的输入变量为所有预测变量的过往值和除去尾矿品位外其他所有预测变量的当前值。设当前时刻为t，当取时滞为2个时间步，即取t-1、t-2时刻所有预测变量取值和t时刻除去尾矿品位外其他所有预测变量取值为输入时，输入变量共14×2+13＝41维。选择受限玻尔兹曼机(Restricted Boltzmann machine,RBM)作为分类器，该RBM以多维特征向量为输入，包含10个节点组成的单隐层，以对比散度(ContrastiveDivergence,CD)作为训练时的迭代优化算法。在训练过程中，网络分别选取75％、15％、15％的样本作为训练集、验证集和测试集，以网络在测试集上的准确率为反映模型真实性能的指标。

S2，计算数据集中每个特征的fisher分数，按照fisher分数从大到小的顺序得到特征集对应的排名。采用序贯后向选择算法对不同尺寸特征子集进行评估，将评估结果最好的特征子集作为中间特征子集。

S21，设所有样本的第i维特征数据集合为a_i,i＝1,2,...,14,其中第k个样本对应数据表示为将a_i按照样本类型分成4个子集，表示为设第j子集包含的数据量(即第j个类型的样本量)为n_j。则第i维特征的fisher分数的计算式为：

其中l表示类型数4，表示第j个子集中第i维预设检测特征的第k个数据。该计算式表明，Fisher分数以不同类型子集的方差和作为分母，类型子集均值和总体均值之差的平方和作为分子。

S22，按照fisher分数从大到小的顺序，得到特征集对应的排名。

S23，根据序贯后向选择算法，从整个原特征集开始，依次从特征集中删除排名集中最后一名对应的特征，并分别评估所得特征数目递减的特征集。对于包含一定随机性的RBM算法而言，具体评估方法为重复进行模型基于某特征集的训练过程，取每次训练后模型准确率的平均值作为对该特征集好坏的评估指标。重复训练次数应当足够大以保证准确率平均值稳定在一定范围内。此案例中取重复训练次数为25，此时准确率平均值的标准差不大于0.5％。序贯后向选择所得特征数目不同的特征集评估结果如图2所示。

S24，将S23中评估结果最好的特征集作为中间特征子集。在本案例中，中间特征子集的特征数目为26，即取排名靠前的26个特征组成中间特征子集。

S3，在S2所得中间特征子集的基础上，采用BGSA优化算法对最终特征子集寻优求解。具体算法流程如图3所示。

S31，将中间特征子集可能的特征子集(即可能的最终特征子集)编码为n维二值向量

其中n表示优化前特征集的特征数目，本案例中n＝26。用各维x_i的0,1取值表示对应的特征子集是否包含该维特征，这样n维二值向量的所有形式就与特征选择的所有可能结果一一对应。

S32，以为输入变量，以RBM基于对应特征子集训练后在测试集上准确率的均值为输出变量，将从中间特征子集进一步选择出合适最终特征子集的过程转化为采用BGSA优化算法寻求最优解的过程。BGSA在解决二值问题时，各质点(各解的代理)迭代运动的方式由在多维空间的连续运动更变为在各维上遵循一定概率地进行0,1之间的跳变。设时刻t的质点i在第d维上的速度为则跳变概率的计算式为：

根据跳变概率，质点各维位置的移动描述为：

其中rand是0到1上均匀分布的随机数，代表对x取反。

为了更好地收敛，设定速度绝对值的上限v_max，即根据实验情况，v_max设定为6为宜。还需注意的是，在BGSA中计算引力时，R代表的是质点位置间的Hanmming距离而不再是欧式距离。

S33，在本案例中，BGSA各参数设定如下：质点数目N＝10；迭代次数iter＝50；精英选取策略为精英数目K_best随迭代次数线性衰减至1；万有引力常数G随指数迭代次数线性衰减至0。K_best和G具体计算式分别如下：

其中N表示质点总数，t表示当前时刻，T表示总时长，G(t₀)设为1。

S34，与一般优化问题中单纯以最佳目标值对应解为最优解不同的是，本案例中BGSA最终所得历史最优解是综合考虑目标值以及特征数目后的结果。历史最优解的更新条件具体表示为：

x_best＝x,

if

|fit(x_oldbest)-fit(x)|＜ε,

or

fit(x)-fit(x_oldbest)＞ε

其中x_best表示历史最优解，x表示某一候选解，x_oldbest表示原本的历史最优解，表示向量各维之和，即向量x中含1的个数，也就是特征子集中特征的维数。ε是一个根据具体问题而定的小正数，代表了对模型性能指标随机性的考虑和为了追求更小特征子集愿意牺牲性能的最大程度。当候选解和当前历史最优解的适应度之差在此范围内时，视为模型表现差不多，选择更小的特征子集作为历史最优解；当候选解对应的适应度超出当前历史最优解的适应度的值大于ε时，视为候选解对应的模型表现有显著提升，所以将历史最优解更新为候选解。本案例中，ε＝0.004。

S35，根据图3所示的流程迭代优化，取BGSA算法所得历史最优解对应的特征子集作为最终特征选择结果。BGSA历史最优解的模型准确率和用时的迭代情况大致如图4所示。考虑到RBM的随机性，为了真实评估不同特征集的模型准确率，重复训练25次并对25个样本的均值进行区间估计(设样本满足正态分布且显著性水平α＝0.05)，最终得到本实施例的结果总结如表1所示：

表1基于Fisher-BGSA的级联特征选择前后RBM模型相关指标对照表

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种用于泡沫浮选工况预估的级联特征选择方法，其特征在于，包括如下步骤：

步骤二、计算训练集中每个预设检测特征的fisher分数，并按照fisher分数从大到小的顺序对预设检测特征进行排序形成检测特征序列；fisher分数的计算方法如下：

其中l为工况类型数，表示第j个子集中第i维预设检测特征的第k个数据，表示第i维预设检测特征的数据集合的均值；表示第j个子集中第i维预设检测特征的数据集合的均值；

步骤四、采用BGSA优化算法对中间特征子集中的预设检测特征寻优求解，得到预测准确率最高的预设检测特征的集合作为当前历史最优解，非预测准确率最高的预设检测特征的集合为候选解，若某一候选解中含有的预设检测特征种类数少于当前历史最优解的预设检测特征种类，且所述某一候选解的预设准确率与当前历史最优解的差值的绝对值小于预设阈值ε，则将所述某一候选解作为历史最优解，否则将当前历史最优解作为历史最优解；历史最优解中包含的预设检测特征即为选择出的最终的检测特征；

具体方法如下：

根据跳变概率，质点各维位置的移动描述为：

其中rand是0到1上均匀分布的随机数，代表对x取反；

S4历史最优解的更新条件具体表示为：

x_best＝x,

if

or

fit(x)-fit(x_oldbest)＞ε

2.如权利要求1所述的用于泡沫浮选工况预估的级联特征选择方法，其特征在于，所述泡沫图像特征包括气泡尺寸平均值、气泡尺寸方差、对比度、相关性、能量、均匀性、气泡速度平均值、气泡速度方差、气泡平均爆裂面积和气泡平均爆裂体积方差；所述工况类型特征包括矿石入矿品位特征包括粗选入矿中铅、锌和铁的品位以及粗选尾矿中锌的品位。

3.如权利要求1所述的用于泡沫浮选工况预估的级联特征选择方法，其特征在于，所述机器学习模型为选择受限玻尔兹曼机。

4.如权利要求1所述的用于泡沫浮选工况预估的级联特征选择方法，其特征在于，v_max＝6，质点数目N＝10，迭代次数iter＝50，精英选取策略为精英数目K_best随迭代次数线性衰减至1；万有引力常数G随指数迭代次数线性衰减至0。