CN117548234B - 一种用于泡沫浮选工况预估的级联特征选择方法 - Google Patents
一种用于泡沫浮选工况预估的级联特征选择方法 Download PDFInfo
- Publication number
- CN117548234B CN117548234B CN202311558727.7A CN202311558727A CN117548234B CN 117548234 B CN117548234 B CN 117548234B CN 202311558727 A CN202311558727 A CN 202311558727A CN 117548234 B CN117548234 B CN 117548234B
- Authority
- CN
- China
- Prior art keywords
- feature
- preset detection
- subset
- optimal solution
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000009291 froth flotation Methods 0.000 title claims abstract description 12
- 238000010187 selection method Methods 0.000 title claims abstract description 9
- 239000013598 vector Substances 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 238000001514 detection method Methods 0.000 claims description 52
- 238000012549 training Methods 0.000 claims description 36
- 238000000034 method Methods 0.000 claims description 27
- 239000002245 particle Substances 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 18
- 238000005457 optimization Methods 0.000 claims description 14
- 238000005188 flotation Methods 0.000 claims description 9
- 239000006260 foam Substances 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 claims description 8
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 claims description 8
- 229910052725 zinc Inorganic materials 0.000 claims description 8
- 239000011701 zinc Substances 0.000 claims description 8
- 238000010801 machine learning Methods 0.000 claims description 7
- 230000006872 improvement Effects 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 5
- 229910052742 iron Inorganic materials 0.000 claims description 4
- 239000011133 lead Substances 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 4
- 230000003247 decreasing effect Effects 0.000 abstract description 2
- 229910052500 inorganic mineral Inorganic materials 0.000 description 5
- 239000011707 mineral Substances 0.000 description 5
- 238000011084 recovery Methods 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 229910052751 metal Inorganic materials 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 150000002739 metals Chemical class 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B03—SEPARATION OF SOLID MATERIALS USING LIQUIDS OR USING PNEUMATIC TABLES OR JIGS; MAGNETIC OR ELECTROSTATIC SEPARATION OF SOLID MATERIALS FROM SOLID MATERIALS OR FLUIDS; SEPARATION BY HIGH-VOLTAGE ELECTRIC FIELDS
- B03D—FLOTATION; DIFFERENTIAL SEDIMENTATION
- B03D1/00—Flotation
- B03D1/02—Froth-flotation processes
- B03D1/028—Control and monitoring of flotation processes; computer models therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2115—Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种用于泡沫浮选工况预估的级联特征选择方法,主要包括如下步骤:按照fisher分数从大到小的顺序对原特征集排名后,依次从特征集中删除排名集中最后一名对应的特征,分别评估所得特征数目递减的特征集,将评估结果最好的特征集作为中间特征子集,在中间特征子集的基础上,以特征子集编码二值向量为输入、模型准确率均值为输出,采用BGSA求解最优值,综合考虑目标值以及特征数目得到最终特征子集。本发明的特点是在原始特征数目众多时对于特征选择效果与计算代价之间的关系有一定协调能力,以在有限时间内达到特征选择减少不相关和冗余特征的基本目标,找到能使模型效率和最终表现均有所提升的合适特征子集。
Description
技术领域
本发明主要涉及泡沫浮选过程自动化感知预测领域、模式识别与特征工程领域,具体涉及一种用于泡沫浮选工况预估的级联特征选择方法。
背景技术
泡沫浮选是一种重要的选矿手段,原理是利用破碎后不同种矿粒在药剂作用下表现出的不同亲水性,将目标矿物从低品位矿物中分离出来并富集。泡沫浮选作为在获取高品位有色金属时应用广泛的方法之一,对我国有色金属的利用率和产量的提高有重大意义。在浮选过程中,存在很多对浮选效果好坏有重要影响的过程变量,如矿浆液位、加药量等,目前主要依靠人工对浮选过程中的泡沫视频进行观察以识别当前工况并据此及时调整操作。然而,人工观察存在着主观性、随机性较强,劳动强度较大的缺陷。因而通过机器视觉提取特征进而判断工况和进行生产指标预测是浮选过程自动化的重要研究方向。目前,泡沫图像特征提取方法繁多,提取出的特征各有不同,特征集往往存在较大的不相关性和冗余性,即某些特征对工况或指标不敏感、表现能力弱和不同特征之间存在较大的信息冗余。这些不相关和冗余的特征不仅为机器学习模型的训练增加了很多不必要的计算代价和时间代价,而且还很有可能使模型过拟合而泛化能力降低。特征选择是应对该问题常用的数据预处理策略,它的思想是从特征集合中选出合适的特征子集,以期在性能不退化的情况下减少模型训练消耗、降低模型复杂度。目前特征选择算法主要分为三类:过滤式(filtermethod)、封装式(wrapper method)和嵌入式(embedded method)。过滤式算法只以预测变量和目标变量为参考,与具体选用的模型无关,结果清晰稳定且速度较快;封装式算法基于模型在不同特征子集上表现好坏来对特征子集做出取舍,而寻找使模型表现最好的特征子集问题可归结为一种优化问题,并存在着遍历复杂度随特征维数呈指数上升的NP难现象。
名词解释:
RBM:Restricted Boltzmann Machine,受限玻尔兹曼机
BGSA:Binary Gravitational Search Algorithm,二值引力搜索算法
发明内容
为解决现有技术的不足,本发明采用如下的技术方案:
一种用于泡沫浮选工况预估的级联特征选择方法,包括如下步骤:
步骤一,从浮选现场采集各时刻的预设检测特征的原始数据构成原始数据集并构建机器学习模型;
所述预设检测特征包括泡沫图像特征和工况类型特征;原始数据集中将当前时刻的去除尾矿品味数据的原始数据和前两个时刻的原始数据的集合作为一个样本;原始数据集划分为训练集和测试集;
步骤二、计算训练集中每个预设检测特征的fisher分数,并按照fisher分数从大到小的顺序对预设检测特征进行排序形成检测特征序列;
步骤三、依次删除训练集中检测特征序列中的最后一名预设检测特征对应的数据,直至训练集中仅有一个预设检测特征,每删除一个检测特征序列形成一个训练数据集,训练集也作为一个训练数据集;将所有训练数据集分别输入机器学习模型进行重复训练,统计每次模型训练完成后最终在测试集上的准确率的均值;将平均准确率最高的训练数据集包含的预设检测特征的集合作为中间特征子集;
步骤四、采用BGSA优化算法对中间特征子集中的预设检测特征寻优求解,得到预测准确率最高的预设检测特征的集合作为当前历史最优解,非预测准确率最高的预设检测特征的集合为候选解,若某一候选解中含有的预设检测特征种类数少于当前历史最优解的预设检测特征种类,且所述某一候选解的预设准确率与当前历史最优解的差值的绝对值小于预设阈值ε,则将所述某一候选解作为历史最优解,否则将当前历史最优解作为历史最优解;历史最优解中包含的预设检测特征即为选择出的最终的检测特征。
进一步的改进,所述泡沫图像特征包括气泡尺寸平均值、气泡尺寸方差、对比度、相关性、能量、均匀性、气泡速度平均值、气泡速度方差、气泡平均爆裂面积和气泡平均爆裂体积方差;所述工况类型特征包括矿石入矿品位特征包括粗选入矿中铅、锌和铁的品位以及粗选尾矿中锌的品位。
进一步的改进,所述机器学习模型为选择受限玻尔兹曼机。
进一步的改进,所述步骤二中,fisher分数的计算方法如下:
S21,设所有样本的第i维预设检测特征的数据集合为ai;将ai按照样本所属的工况类型特征分成4个子集,第j个子集表示为设第j个子集包含的数据量为nj,则第i维预设检测特征的fisher分数Fi的计算式为:
其中l为工况类型数,表示第j个子集中第i维预设检测特征的第k个数据,表示第i维预设检测特征的数据集合的均值;表示第j个子集中第i维预设检测特征的数据集合的均值。
进一步的改进,所述步骤四中,采用BGSA优化算法对中间特征子集中的预设检测特征寻优求解的具体方法如下:
S1,将中间特征子集包含的预设检测特征进行任意组合得到所有可能的特征子集组合,分别将各个特征子集组合编码为n维二值向量 其中n表示优化前特征集的特征数目即中间特征子集的特征数目;用各维xi的0,1取值表示对应的特征子集是否包含该维预设检测特征,这样n维二值向量的所有形式就与预设检测特征选择的所有可能结果一一对应;
S2,以为输入变量,以RBM基于对应特征子集训练后在测试集上准确率的均值为输出变量,将从中间特征子集进一步选择出合适最终特征子集的过程转化为采用BGSA优化算法寻求最优解的过程;BGSA在解决二值问题时,方法如下:设时刻t的质点i在第d维上的速度为则t时刻的跳变概率的计算式为:
根据跳变概率,质点各维位置的移动描述为:
其中rand是0到1上均匀分布的随机数,代表对x取反;
为了更好地收敛,设定速度绝对值的上限vmax,即在BGSA中计算引力时,原来用于表示质点位置间欧式距离的R更变为质点位置间的Hanmming距离;
S3.设置BGSA的离子数目N,迭代次数iter,精英选取策略中精英数目Kbest和万有引力常数G;其中Kbest在精英策略中的意义是只有前Kbest个最优质点发挥引力作用;
其中N表示质点总数,t表示当前时刻,T表示总时长,G(t0)为1;
S4历史最优解的更新条件具体表示为:
xbest=x,
if
|fit(xoldbest)-fit(x)|<ε,
or
fit(x)-fit(xoldbest)>ε
其中xbest表示历史最优解,x表示某一候选解,xoldbest表示当前历史最优解,表示向量x各维之和,即向量x中含1的个数,也就是特征子集中特征的维数,ε表示对模型性能指标随机性的考虑和为了追求更小特征子集愿意牺牲性能的最大程度的预设值,当候选解和当前历史最优解的适应度之差在此范围内时,选择更小的特征子集作为历史最优解;fit(x)表示候选解x对应的适应度即候选解x对应的模型准确率均值;当候选解对应的适应度超出当前历史最优解的适应度的值大于ε时,视为候选解对应的模型表现有显著提升,所以将历史最优解更新为候选解。
进一步的改进,vmax=6,质点数目N=10,迭代次数iter=50,精英选取策略为精英数目Kbest随迭代次数线性衰减至1;万有引力常数G随指数迭代次数线性衰减至0。
本发明的优势和有益效果在于:
本发明在原始特征数目众多时对于特征选择效果与计算代价之间的关系有一定协调能力,以在有限时间内达到特征选择减少不相关和冗余特征的基本目标,找到能使模型效率和最终表现均有所提升的合适特征子集。
附图说明
图1是本发明的方法流程图
图2是本发明实施例的序贯后向选择算法评估结果图
图3是本发明中BGSA算法流程图
图4是本发明实施例的BGSA历史最优解迭代情况图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明,应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明的实施例所采用的数据集是浮选过程中由不同时刻的泡沫静态特征、动态特征和铅、锌、铁粗选入矿品位、目标矿物锌的粗选尾矿品位所构成的。依据目标矿物的尾矿品位和回收率趋近于绝对负相关的关系,可由尾矿品位的相对值大致推算出回收率相对高低,从而以回收率为指标将工况分为区分浮选效果好坏的4类:坏(Bad)、劣(Poor)、良(Good)、好(Perfect)。本发明在该场景中的目的在于从数据集展示的14种特征中选择出对工况类型预测任务的真正有用且彼此相对独立的特征,以简化分类模型,提高训练效率和最终模型的泛化能力。
具体实施时,包含以下步骤:
S1,从浮选现场获取泡沫图像、矿石品位等原始数据并从图像中提取泡沫特征,基于锌尾矿品位对工况进行分类,构建包含图像特征、矿石入矿品位以及工况类型的数据集。该数据集包含按时间排列的4503个样本,每个样本包含14维预测变量(特征)和1维目标变量(4种工况类别)。这14维预测变量具体为:10种泡沫图像特征(气泡尺寸平均值、气泡尺寸方差、对比度、相关性、能量、均匀性、气泡速度平均值、气泡速度方差、气泡平均爆裂面积、气泡平均爆裂体积方差);粗选入矿中铅、锌、铁的品位;粗选尾矿中锌的品位。考虑数据时序性和生产实际,实际模型的输入变量为所有预测变量的过往值和除去尾矿品位外其他所有预测变量的当前值。设当前时刻为t,当取时滞为2个时间步,即取t-1、t-2时刻所有预测变量取值和t时刻除去尾矿品位外其他所有预测变量取值为输入时,输入变量共14×2+13=41维。选择受限玻尔兹曼机(Restricted Boltzmann machine,RBM)作为分类器,该RBM以多维特征向量为输入,包含10个节点组成的单隐层,以对比散度(ContrastiveDivergence,CD)作为训练时的迭代优化算法。在训练过程中,网络分别选取75%、15%、15%的样本作为训练集、验证集和测试集,以网络在测试集上的准确率为反映模型真实性能的指标。
S2,计算数据集中每个特征的fisher分数,按照fisher分数从大到小的顺序得到特征集对应的排名。采用序贯后向选择算法对不同尺寸特征子集进行评估,将评估结果最好的特征子集作为中间特征子集。
S21,设所有样本的第i维特征数据集合为ai,i=1,2,...,14,其中第k个样本对应数据表示为将ai按照样本类型分成4个子集,表示为设第j子集包含的数据量(即第j个类型的样本量)为nj。则第i维特征的fisher分数的计算式为:
其中l表示类型数4,表示第j个子集中第i维预设检测特征的第k个数据。该计算式表明,Fisher分数以不同类型子集的方差和作为分母,类型子集均值和总体均值之差的平方和作为分子。
S22,按照fisher分数从大到小的顺序,得到特征集对应的排名。
S23,根据序贯后向选择算法,从整个原特征集开始,依次从特征集中删除排名集中最后一名对应的特征,并分别评估所得特征数目递减的特征集。对于包含一定随机性的RBM算法而言,具体评估方法为重复进行模型基于某特征集的训练过程,取每次训练后模型准确率的平均值作为对该特征集好坏的评估指标。重复训练次数应当足够大以保证准确率平均值稳定在一定范围内。此案例中取重复训练次数为25,此时准确率平均值的标准差不大于0.5%。序贯后向选择所得特征数目不同的特征集评估结果如图2所示。
S24,将S23中评估结果最好的特征集作为中间特征子集。在本案例中,中间特征子集的特征数目为26,即取排名靠前的26个特征组成中间特征子集。
S3,在S2所得中间特征子集的基础上,采用BGSA优化算法对最终特征子集寻优求解。具体算法流程如图3所示。
S31,将中间特征子集可能的特征子集(即可能的最终特征子集)编码为n维二值向量
其中n表示优化前特征集的特征数目,本案例中n=26。用各维xi的0,1取值表示对应的特征子集是否包含该维特征,这样n维二值向量的所有形式就与特征选择的所有可能结果一一对应。
S32,以为输入变量,以RBM基于对应特征子集训练后在测试集上准确率的均值为输出变量,将从中间特征子集进一步选择出合适最终特征子集的过程转化为采用BGSA优化算法寻求最优解的过程。BGSA在解决二值问题时,各质点(各解的代理)迭代运动的方式由在多维空间的连续运动更变为在各维上遵循一定概率地进行0,1之间的跳变。设时刻t的质点i在第d维上的速度为则跳变概率的计算式为:
根据跳变概率,质点各维位置的移动描述为:
其中rand是0到1上均匀分布的随机数,代表对x取反。
为了更好地收敛,设定速度绝对值的上限vmax,即根据实验情况,vmax设定为6为宜。还需注意的是,在BGSA中计算引力时,R代表的是质点位置间的Hanmming距离而不再是欧式距离。
S33,在本案例中,BGSA各参数设定如下:质点数目N=10;迭代次数iter=50;精英选取策略为精英数目Kbest随迭代次数线性衰减至1;万有引力常数G随指数迭代次数线性衰减至0。Kbest和G具体计算式分别如下:
其中N表示质点总数,t表示当前时刻,T表示总时长,G(t0)设为1。
S34,与一般优化问题中单纯以最佳目标值对应解为最优解不同的是,本案例中BGSA最终所得历史最优解是综合考虑目标值以及特征数目后的结果。历史最优解的更新条件具体表示为:
xbest=x,
if
|fit(xoldbest)-fit(x)|<ε,
or
fit(x)-fit(xoldbest)>ε
其中xbest表示历史最优解,x表示某一候选解,xoldbest表示原本的历史最优解,表示向量各维之和,即向量x中含1的个数,也就是特征子集中特征的维数。ε是一个根据具体问题而定的小正数,代表了对模型性能指标随机性的考虑和为了追求更小特征子集愿意牺牲性能的最大程度。当候选解和当前历史最优解的适应度之差在此范围内时,视为模型表现差不多,选择更小的特征子集作为历史最优解;当候选解对应的适应度超出当前历史最优解的适应度的值大于ε时,视为候选解对应的模型表现有显著提升,所以将历史最优解更新为候选解。本案例中,ε=0.004。
S35,根据图3所示的流程迭代优化,取BGSA算法所得历史最优解对应的特征子集作为最终特征选择结果。BGSA历史最优解的模型准确率和用时的迭代情况大致如图4所示。考虑到RBM的随机性,为了真实评估不同特征集的模型准确率,重复训练25次并对25个样本的均值进行区间估计(设样本满足正态分布且显著性水平α=0.05),最终得到本实施例的结果总结如表1所示:
表1基于Fisher-BGSA的级联特征选择前后RBM模型相关指标对照表
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
Claims (4)
1.一种用于泡沫浮选工况预估的级联特征选择方法,其特征在于,包括如下步骤:
步骤一,从浮选现场采集各时刻的预设检测特征的原始数据构成原始数据集并构建机器学习模型;
所述预设检测特征包括泡沫图像特征和工况类型特征;原始数据集中将当前时刻的去除尾矿品味数据的原始数据和前两个时刻的原始数据的集合作为一个样本;原始数据集划分为训练集和测试集;
步骤二、计算训练集中每个预设检测特征的fisher分数,并按照fisher分数从大到小的顺序对预设检测特征进行排序形成检测特征序列;fisher分数的计算方法如下:
S21,设所有样本的第i维预设检测特征的数据集合为ai;将ai按照样本所属的工况类型特征分成4个子集,第j个子集表示为设第j个子集包含的数据量为nj,则第i维预设检测特征的fisher分数Fi的计算式为:
其中l为工况类型数,表示第j个子集中第i维预设检测特征的第k个数据,表示第i维预设检测特征的数据集合的均值;表示第j个子集中第i维预设检测特征的数据集合的均值;
步骤三、依次删除训练集中检测特征序列中的最后一名预设检测特征对应的数据,直至训练集中仅有一个预设检测特征,每删除一个检测特征序列形成一个训练数据集,训练集也作为一个训练数据集;将所有训练数据集分别输入机器学习模型进行重复训练,统计每次模型训练完成后最终在测试集上的准确率的均值;将平均准确率最高的训练数据集包含的预设检测特征的集合作为中间特征子集;
步骤四、采用BGSA优化算法对中间特征子集中的预设检测特征寻优求解,得到预测准确率最高的预设检测特征的集合作为当前历史最优解,非预测准确率最高的预设检测特征的集合为候选解,若某一候选解中含有的预设检测特征种类数少于当前历史最优解的预设检测特征种类,且所述某一候选解的预设准确率与当前历史最优解的差值的绝对值小于预设阈值ε,则将所述某一候选解作为历史最优解,否则将当前历史最优解作为历史最优解;历史最优解中包含的预设检测特征即为选择出的最终的检测特征;
具体方法如下:
S1,将中间特征子集包含的预设检测特征进行任意组合得到所有可能的特征子集组合,分别将各个特征子集组合编码为n维二值向量 其中n表示优化前特征集的特征数目即中间特征子集的特征数目;用各维xi的0,1取值表示对应的特征子集是否包含该维预设检测特征,这样n维二值向量的所有形式就与预设检测特征选择的所有可能结果一一对应;
S2,以为输入变量,以RBM基于对应特征子集训练后在测试集上准确率的均值为输出变量,将从中间特征子集进一步选择出合适最终特征子集的过程转化为采用BGSA优化算法寻求最优解的过程;BGSA在解决二值问题时,方法如下:设时刻t的质点i在第d维上的速度为则t时刻的跳变概率的计算式为:
根据跳变概率,质点各维位置的移动描述为:
其中rand是0到1上均匀分布的随机数,代表对x取反;
为了更好地收敛,设定速度绝对值的上限vmax,即在BGSA中计算引力时,原来用于表示质点位置间欧式距离的R更变为质点位置间的Hanmming距离;
S3.设置BGSA的离子数目N,迭代次数iter,精英选取策略中精英数目Kbest和万有引力常数G;其中Kbest在精英策略中的意义是只有前Kbest个最优质点发挥引力作用;
其中N表示质点总数,t表示当前时刻,T表示总时长,G(t0)为1;
S4历史最优解的更新条件具体表示为:
xbest=x,
if
or
fit(x)-fit(xoldbest)>ε
其中xbest表示历史最优解,x表示某一候选解,xoldbest表示当前历史最优解,表示向量x各维之和,即向量x中含1的个数,也就是特征子集中特征的维数,ε表示对模型性能指标随机性的考虑和为了追求更小特征子集愿意牺牲性能的最大程度的预设值,当候选解和当前历史最优解的适应度之差在此范围内时,选择更小的特征子集作为历史最优解;fit(x)表示候选解x对应的适应度即候选解x对应的模型准确率均值;当候选解对应的适应度超出当前历史最优解的适应度的值大于ε时,视为候选解对应的模型表现有显著提升,所以将历史最优解更新为候选解。
2.如权利要求1所述的用于泡沫浮选工况预估的级联特征选择方法,其特征在于,所述泡沫图像特征包括气泡尺寸平均值、气泡尺寸方差、对比度、相关性、能量、均匀性、气泡速度平均值、气泡速度方差、气泡平均爆裂面积和气泡平均爆裂体积方差;所述工况类型特征包括矿石入矿品位特征包括粗选入矿中铅、锌和铁的品位以及粗选尾矿中锌的品位。
3.如权利要求1所述的用于泡沫浮选工况预估的级联特征选择方法,其特征在于,所述机器学习模型为选择受限玻尔兹曼机。
4.如权利要求1所述的用于泡沫浮选工况预估的级联特征选择方法,其特征在于,vmax=6,质点数目N=10,迭代次数iter=50,精英选取策略为精英数目Kbest随迭代次数线性衰减至1;万有引力常数G随指数迭代次数线性衰减至0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311558727.7A CN117548234B (zh) | 2023-11-22 | 2023-11-22 | 一种用于泡沫浮选工况预估的级联特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311558727.7A CN117548234B (zh) | 2023-11-22 | 2023-11-22 | 一种用于泡沫浮选工况预估的级联特征选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117548234A CN117548234A (zh) | 2024-02-13 |
CN117548234B true CN117548234B (zh) | 2024-07-02 |
Family
ID=89821466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311558727.7A Active CN117548234B (zh) | 2023-11-22 | 2023-11-22 | 一种用于泡沫浮选工况预估的级联特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117548234B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260805A (zh) * | 2015-11-16 | 2016-01-20 | 中南大学 | 一种基于异构分类器选择性融合的锑矿品位软测量方法 |
CN110918266A (zh) * | 2019-12-10 | 2020-03-27 | 中南大学 | 一种提升浮选泡沫质量的控制装置及方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7921068B2 (en) * | 1998-05-01 | 2011-04-05 | Health Discovery Corporation | Data mining platform for knowledge discovery from heterogeneous data types and/or heterogeneous data sources |
CN110942104B (zh) * | 2019-12-06 | 2023-08-25 | 中南大学 | 用于泡沫浮选工况识别过程的混合特征选择方法及系统 |
CN111343171B (zh) * | 2020-02-19 | 2022-08-05 | 重庆邮电大学 | 一种基于支持向量机的混合特征选择的入侵检测方法 |
CN116152581A (zh) * | 2022-11-30 | 2023-05-23 | 中南大学 | 基于多目标混合特征选择的泡沫浮选工况识别方法 |
CN115861672B (zh) * | 2022-12-20 | 2023-09-19 | 中南大学 | 一种基于图像特征联合分布的泡沫浮选运行性能评估方法 |
-
2023
- 2023-11-22 CN CN202311558727.7A patent/CN117548234B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260805A (zh) * | 2015-11-16 | 2016-01-20 | 中南大学 | 一种基于异构分类器选择性融合的锑矿品位软测量方法 |
CN110918266A (zh) * | 2019-12-10 | 2020-03-27 | 中南大学 | 一种提升浮选泡沫质量的控制装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117548234A (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111414942B (zh) | 一种基于主动学习和卷积神经网络的遥感图像分类方法 | |
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
CN111144496B (zh) | 一种基于混合卷积神经网络的垃圾分类方法 | |
CN110322445B (zh) | 基于最大化预测和标签间相关性损失函数的语义分割方法 | |
CN107292097B (zh) | 基于特征组的中医主症选择方法 | |
CN108921047B (zh) | 一种基于跨层融合的多模型投票均值动作识别方法 | |
CN109685653A (zh) | 一种融合深度信念网络和孤立森林算法的信贷风险监测的方法 | |
CN110188816B (zh) | 基于多流多尺度交叉双线性特征的图像细粒度识别方法 | |
CN113032613B (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
CN110287985B (zh) | 一种基于带变异粒子群算法的可变拓扑结构的深度神经网络图像识别方法 | |
CN108846047A (zh) | 一种基于卷积特征的图片检索方法及系统 | |
CN112270355A (zh) | 基于大数据技术与sae-gru的主动安全预测方法 | |
CN110717103B (zh) | 基于堆栈降噪编码器改进的协同过滤方法 | |
CN106548041A (zh) | 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法 | |
CN110796260B (zh) | 一种基于类扩张学习的神经网络模型优化方法 | |
Wayahdi et al. | Evaluation of the K-Nearest Neighbor Model With K-Fold Cross Validation on Image Classification | |
CN115812210A (zh) | 用于增强机器学习分类任务的性能的方法和设备 | |
Kawamura et al. | A hybrid approach for optimal feature subset selection with evolutionary algorithms | |
CN109871379B (zh) | 一种基于数据块学习的在线哈希最近邻查询方法 | |
CN117548234B (zh) | 一种用于泡沫浮选工况预估的级联特征选择方法 | |
Liu et al. | A quantitative study of the effect of missing data in classifiers | |
CN113298142B (zh) | 一种基于深度时空孪生网络的目标跟踪方法 | |
Huang et al. | A Model for Legal Judgment Prediction Based on Multi-model Fusion | |
CN115565078A (zh) | 基于加权交叉熵损失的遥感图像场景分类和语义分割方法 | |
CN115100694A (zh) | 一种基于自监督神经网络的指纹快速检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |