CN116484745A - 物理冶金指导工业大数据挖掘的热轧低合金钢设计方法 - Google Patents

物理冶金指导工业大数据挖掘的热轧低合金钢设计方法 Download PDF

Info

Publication number
CN116484745A
CN116484745A CN202310541074.5A CN202310541074A CN116484745A CN 116484745 A CN116484745 A CN 116484745A CN 202310541074 A CN202310541074 A CN 202310541074A CN 116484745 A CN116484745 A CN 116484745A
Authority
CN
China
Prior art keywords
data
model
data set
algorithm
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310541074.5A
Other languages
English (en)
Inventor
王晨充
任冰涛
李虎威
张玉琪
徐伟
张朕
潘成博
刘晓琪
Original Assignee
东北大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 东北大学 filed Critical 东北大学
Priority to CN202310541074.5A priority Critical patent/CN116484745A/zh
Publication of CN116484745A publication Critical patent/CN116484745A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种物理冶金指导工业大数据挖掘的热轧低合金钢设计方法,涉及热轧低合金钢和深度学习应用技术领域。本发明首先将与目标性能高度相关的物理冶金学参数添加到数据集中,并参与模型训练及设计过程。同时使用遗传算法(GA)对成分和工艺进行优化设计,最终使用大数据性能预测模型对设计结果进行有效筛选。本发明相对于纯粹的设计结果,采用物理冶金指导下的机器学习预,测精度更高,设计结果更加符合物理冶金原理。

Description

物理冶金指导工业大数据挖掘的热轧低合金钢设计方法
技术领域
本发明涉及热轧低合金钢和深度学习应用技术领域,尤其涉及一种物理冶金指导工业大数据挖掘的热轧低合金钢设计方法。
背景技术
在实际的工业生产中,钢铁产品的生产规模庞大,生产工艺流程中参数复杂,且涉及到炼钢、连铸、控轧控冷等多段生产工序,受到环境、设备以及人为等多种因素的影响,使得工业数据库具有数量多、维度高和质量低的特点。针对庞大的工业数据信息,人工经验或传统物理冶金方法均难以从其中的复杂关系中有效分析和挖掘出可靠的数据关联性和机理信息,从而造成其中有效信息的浪费和生产工艺优化的低效。同时由于钢铁生产工艺流程长而复杂的特点,采用正交试错法在工业生产线上开发新型合金需要经过繁琐的流程操作和耗时较长的验证周期,使得合金开发的效率较低,难以推动新材料新工艺的快速研发。
随着人工智能技术与大数据的接轨,目前在材料领域有着广泛的应用。使用人工智能算法建立的多种机器学习模型在材料领域表现出了强大的优势,例如能够深度挖掘数据内在的关联信息,实现高效的材料优化设计,所建立模型的预测精度高且其参数具有较好的泛化性等,能够为钢铁生产领域的研究和应用提供高效可行的技术手段,如Wu等人基于人工神经网络(ANN)建立铌钛微合金钢的力学性能预测模型,对拉伸性能实现了准确预测,并结合多目标优化算法实现了S360钢的热轧工艺设计。因此基于计算方法实现钢铁材料实验室合金设计和工业产品转化的开发设计理念有利于缩短产品开发的时间和资金成本,对加速钢铁材料研发具有极其重要的研究意义。
在金属热成形加工过程中,微观组织的调控会对材料力学性能的优化产生至关重要的影响,迄今为止通过物理冶金学原理建立成分-工艺-组织-性能之间的关系已被广泛应用于钢铁材料的力学性能预测。钢材力学性能主要受到其合金成分、生产工艺以及微观组织的影响,基于目前已形成较为成熟的物理冶金学理论来建立物理模型能够较为准确的描述材料组织演变和预测力学性能。
钢铁工业生产中大多数热轧、冷轧等钢铁板材产品生产工艺流程复杂、且各工序中涉及到多个操作流程及大量关键工艺参数,另一方面,工业生产线上钢铁产量巨大且仍在不断增长。面对数量庞大且参数复杂的工业数据,传统的建模策略对工业大数据的利用率较低且数据分析效果较差,因此难以实现对工业热轧钢板力学性能的准确预测。为了解决机理模型所带来的问题,采用数据分析能力突出的人工智能技术进行工业大数据分析得到了广泛关注。Adel等人根据X70管线钢的化学成分开发了一种ANN模型,以元素的重量百分比作为输入对其拉伸和冲击性能实现了准确预测。Kisi等人利用多层感知器(MLP)等多种方法开发了分析公式来预测钢梁的超强度。但目前基于人工智能算法的建模方式虽然能够实现钢材性能的准确预测,但其对材料的性能预测和设计只是一个数学过程,设计过程很少涉及物理冶金参数,这大大浪费了物理冶金学在材料设计中的独特优势。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种物理冶金指导工业大数据挖掘的热轧低合金钢设计方法,本方法将物理冶金机制引入到工业大数据分析中,同时结合优化算法形成完备的设计平台,设计结果更加符合物理冶金学原理。
为了实现本发明的上述目的,本发明所采取的技术方案是:
一种物理冶金指导工业大数据挖掘的热轧低合金钢设计方法,包括以下步骤:
步骤1将一段历史年份的工业产线数据提取出来,建立为工业数据集,并对工业数据集进行预处理,得到标准数据集。
步骤具体包括:
步骤1.1提取一段历史年份的热轧低合金钢h种材料的成分、工艺及其对应的目标性能。使用提取的h组数据共同组成原始数据集,其中所述成分为材料的元素及含量,所述工艺为材料的工艺参数。将原始数据集作为材料目标性能预测的有效数据并对原始数据集中的所有数据进行标准化处理,形成初始数据集。数据标准化公式为:
其中X为待转换的数值,Xscale为转换后的数值,max和min分别为参数在数据集中的最大值和最小值。
步骤1.2通过计算Pearson相关性系数对初始数据集中成分、工艺与目标性能的相关性进行分析,删除其中相关性低于设定阈值的特征,形成标准数据集。
步骤2根据标准数据集中的数据特点,建立基于KNN算法的KNN分类模型并对标准数据集进行分类。
步骤具体包括:
步骤2.1KNN算法中包括两个参数,分别为用来描述两个样本点相似程度的距离和所选取的相邻样本的数量k。使用欧几里德距离作为上述的距离,在设定的范围内使用KNN算法对k的每个取值进行逐个测试,根据分类结果的准确率来确定参数k的最优值。
步骤2.2将工业数据集的前三年数据按设定比例划分为训练集和测试集,将工业数据集的第四年数据作为验证集,建立KNN分类模型。通过主成分分析PCA将高维数据投影到较低维空间中,将高维数据降低到设定维度,使用KNN分类模型完成数据分类并形成若干个子数据集。
步骤3依据各子数据集的成分和工艺数据特点和Pearson相关性系数,选择相应类别的输入特征。
步骤4根据步骤2.2中分类得到的子数据集,构建基于多种回归策略的大数据性能预测模型。同时根据热轧低合金钢的力学性能,引入性能相关的物理冶金参数PM,指导基于多种回归策略的大数据性能预测模型的机器学习过程。上述基于多种回归策略的大数据性能预测模型包括SVR-PM模型,MLP-PM模型,RF-PM模型,XGB-PM模型,GBR-PM模型,CNN-PM模型。其中上述SVR-PM模型中包含两种不同模型,分别由线性核函数及高斯核函数作为其核函数建立。
上述SVR-PM模型是基于SVR算法建立的并在其中加入了物理冶金参数PM。
设置其核函数为高斯核函数并优化参数C和γ,其中高斯核函数的表达式如下所示:
其中x'为核函数中心,||x-x'||2为向量x和向量x'的欧氏距离,σ是带宽,用来控制径向作用范围。
设置其核函数为线性核函数并优化参数C和γ,其中线性核函数的表达式如下所示:
k(x,x')=xTx'+c
其中x'为核函数中心,c为常数。
上述MLP-PM模型是基于MLP算法建立的并在其中加入了物理冶金参数PM。将Adam作为优化器,优化其隐藏层层数和神经元个数。
上述RF-PM模型是基于RF算法建立的并在其中加入了物理冶金参数PM。优化其中的参数n_estimators和max_features。
上述XGB-PM模型和GBR-PM模型是分别基于XGB算法和GBR算法建立的并加入了物理冶金参数PM。优化其learning_rate和n_estimators参数,其他参数均设置为固定值。上述其他参数包括n_estimators、subsample、colsample_bytree、max_depth、及min_child_weight。
上述CNN-PM模型是基于CNN算法建立的并加入了物理冶金参数PM。设定其激活函数为ReLU,优化器为Adam,对CNN-PM模型进行训练,周期为10000次。激活函数ReLU的表达式如下所示:
relu(x)=max(x,0)
其中x为输入特征,relu(x)为上述激活函数,max(x,0)为一个取大值函数,比较x与0的大小并输出其中较大值。
步骤5对分类后的每个子数据集都根据步骤4建立模型,并针对每个模型选择最优的算法。
步骤具体包括:
步骤5.1将工业数据集的前三年数据按设定比例划分为训练集和测试集,将工业数据集的第四年数据作为验证集,进行了设定次数的数据随机划分以保证预测结果的稳定性;
步骤5.2根据基于多种回归策略的大数据性能预测模型的预测结果,计算平均绝对误差MAE和有效率Er,平均绝对误差MAE和有效率Er的表达式如下所示:
其中n是样本总数,f(xi)和yi分别代表第i个数据点的预测值和实测值,Ne为在规定误差范围内的数据量,Nall为数据集的总数据量;
步骤5.3通过计算在训练集和测试集中预测结果的MAE和Er来进行不同模型预测效果的对比,筛选出各类别中的最优回归算法,筛选原则为:首先根据训练集结果,从七个模型中排除MAE最大的两个模型,再根据测试集结果,从剩下的五个模型中排除MAE最大的两个模型,从而筛选出了三个在训练集和测试集中预测效果均较好的模型。最后通过对比这三个模型在验证集中预测结果的MAE以及在所有数据中预测结果的有效率,挑选出各类别中效果最好的模型;
步骤6使用低合金钢实验得到的热轧低合金钢数据建立数据集,对其进行数据标准化,建立实验小样本数据集,然后进一步基于所建立的实验小样本数据集使用RF算法建立性能预测模型,并对RF算法的参数进行优化。最后选取最优模型用于后续的实验合金优化设计。
步骤具体包括:
步骤6.1使用低合金钢实验得到的热轧低合金钢的数据建立数据集,对其进行数据标准化,形成实验小样本数据集。
步骤6.2计算表示实验小样本数据集中成分和工艺与目标性能之间相关性的Pearson相关性系数,删除其中相关性低于设定阈值的特征形成实验小样本标准数据集,依据数据集的自身特点和Pearson相关性系数,选择输入参数。
步骤6.3将实验小样本标准数据集按设定比例划分为训练集和测试集,并对训练集和测试集进行设定次数的随机划分;
步骤6.4然后根据Pearson相关性系数判断特征重要性程度并选择不同维度的输入项建立基于RF算法的实验小样本预测模型,根据预测结果的平均绝对误差MAE和决定系数R2筛选出模型的最佳输入维度和输入特征参数,平均绝对误差MAE和决定系数R2的表达式如下所示:
其中n为样本个数,f(xi)和yi分别代表第i个数据点的预测值和实测值;
其中n是样本总数,f(xi)和yi分别代表第i个数据点的预测值和实测值,ymean为原数据的平均值。
步骤6.5优化RF算法中的参数“max_features”和“n_estimators”,其他参数均为默认参数值;
步骤7将实验小样本预测模型和遗传算法相结合进行合金成分工艺的优化设计;采用目标性能的高低作为遗传算法的适应度函数,将遗传算法用于优化设计成分及工艺来获得最佳目标性能的材料;
具体步骤包括:
步骤7.1在实验小样本标准数据集上,采用遗传算法将数据随机产生M条染色体,构成染色体组L,每个染色体都包含了成分和工艺;
步骤7.2将各染色体个体中的成分及工艺,通过物理冶金模型计算得到其对应的冶金参数,并将各染色体的成分、工艺及其相应的冶金参数构成第v代数据集,其中v代表目前的迭代次数;将第v代数据集中的数据进行标准化处理,将标准化后的数据作为输入参数带入最优模型,然后计算出目标性能;
步骤7.3由适应度函数计算出各个染色体个体的适应度,将所有适应度按照从高到低的顺序排列;判断目前迭代次数是否为第一次迭代,若是,那么保留目前染色体组中适应度高的90%的染色体个体,删除剩余10%,然后执行步骤7.4;若否,保留目前染色体组中适应度高的90%的染色体个体,而将剩余10%的染色体个体进行选择、交叉、变异操作来产生新的染色体,从而获得新的染色体组Kv,该染色体组Kv由染色体组Kv-1中适应度高的90%的染色体个体和新生成的染色体组成,然后执行步骤7.4;
步骤7.4按照步骤7.3得到的结果判断是否达到终止条件,若是,则输出合金的成分、工艺及其目标性能,并将该结果放入设计结果集F中,;若否,则执行步骤7.2。所述的终止条件为当前染色体组中的全部染色体个体都收敛至同一结果,并且连续十次以上迭代的结果都相同;
步骤8对所建立的实验小样本预测模型进行筛选,筛选准则为:R2在0.8以上且训练集和测试集R2偏差在0.2以内的模型,得到准确性较高的模型指导合金优化设计;根据成分工艺及目标性能对设计结果进行筛选以获得较优的设计方案;
步骤9采用建立的基于多种回归策略的大数据性能预测模型,对实验设计结果进行有效的性能验证和方案筛选,得到满足目标性能热轧低合金钢的成分和工艺。
采用上述技术方案所产生的有益效果在于:
本发明提供一种物理冶金指导工业大数据挖掘的热轧低合金钢设计方法,该方法应用物理冶金学指导的各种模型建立起成分、工艺与目标性能之间的关系,使用遗传算法GA迅速准确的在数据集范围内对目标性能进行优化设计,采用建立的基于多种回归策略的大数据性能预测模型对得到的大量设计结果进行筛选,甄别出可靠性较高的设计结果,形成完备的热轧低合金钢设计平台。本发明中首次利用物理冶金原理指导工业大数据分析,使工业大数据分析富有了物理冶金学含义,并且该方法可以提升模型的泛化能力,使设计更为高效,设计结果更加符合物理冶金学原理。
附图说明
图1为本发明实施例中的设计流程图;
图2为本发明实施例中的预测结果图;
图3为本发明实施例中的验证集的预测结果图;
图4为本发明实施例中的合金设计结果的工业验证图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
在本发明中,将与目标性能高度相关的物理冶金学参数添加到数据集中,并参与模型训练及设计过程。同时使用遗传算法(GA)对成分和工艺进行优化设计,最终使用大数据性能预测模型对设计结果进行有效筛选,设计流程如图1所示。相对于纯粹的设计结果,物理冶金指导下的机器学习预测精度更高,设计结果更加符合物理冶金原理。本实施例的方法如下所述。
步骤1建立数据集;首先将2017-2020年的工业产线数据提取出来,建立为工业数据集。随后对工业数据集进行处理,除去不可用数据,得到初始数据集,然后再进行降维处理,得到标准数据集。
步骤具体包括:
步骤1.1提取热轧低合金钢h种材料的成分、工艺及其对应的目标性能。使用提取的h组数据共同组成原始数据集,其中所述成分为材料的元素及含量,所述工艺为材料的工艺参数。将原始数据集作为材料目标性能预测的有效数据并对原始数据集中的所有数据进行标准化处理,形成初始数据集。数据标准化公式为:
其中X为待转换的数值,Xscale为转换后的数值,max和min分别为参数在数据集中的最大值和最小值。
在本实施例中各种热轧低合金钢的总数据量为54527,处理之后得到初始数据集的数据量为27418,目标性能为屈服强度;
步骤1.2通过计算Pearson相关性系数对初始数据集中成分、工艺与目标性能的相关性进行分析,删除其中相关性低于设定阈值的特征,降低数据维度并形成标准数据集。
本实施例中是将Pearson相关性系数绝对值最大的三个特征保留下来,其余删除;
本实施例中标准数据集内的数据分布情况如表1所示:
表1标准数据集中数据分布情况
步骤2根据标准数据集中的数据特点,建立基于KNN算法的KNN分类模型对标准数据集中的2017-2019和2020年的数据分别进行分类。
本实施例中采用KNN算法将七个钢种分为五类;
步骤具体包括:
步骤2.1KNN算法中包括两个参数,分别为用来描述两个样本点相似程度的距离和所选取的相邻样本的数量k。使用欧几里德距离作为上述的距离,在1~30的范围内使用KNN算法对k的每个取值进行逐个测试,根据分类结果的准确率确定参数k的最优值。
步骤2.2将2017-2019年数据按8:2划分为训练集和测试集,将2020年数据作为验证集,建立KNN分类模型。通过主成分分析PCA将高维数据投影到较低维空间中,将高维数据降低到设定维度,使用KNN分类模型完成数据分类并形成若干个子数据集。
步骤3依据各子数据集的成分和工艺数据特点和Pearson相关性系数,选择相应类别的输入特征。
在本实施例中类别一输入特征中的成分参数有C,Mn,Si,S,P,Ti,V,Nb;类别二输入特征中的成分参数有C,Mn,Si,S,P;类别三输入特征中的成分参数有C,Mn,Si,S,P,V,Cu,Ti;类别四输入特征中的成分参数有C,Mn,Si,S,P,Ni,Ti,Nb;类别五输入特征中的成分参数有C,Mn,Si,S,P,Cr,Ni;
步骤4根据步骤2.2中分类得到的子数据集,构建基于多种回归策略的大数据性能预测模型。同时根据热轧低合金钢的力学性能,引入性能相关的物理冶金参数PM,指导基于多种回归策略的大数据性能预测模型的机器学习过程。上述基于多种回归策略的大数据性能预测模型包括SVR-PM模型,MLP-PM模型,RF-PM模型,XGB-PM模型,GBR-PM模型,CNN-PM模型。其中上述SVR-PM模型中包含两种不同模型,分别由线性核函数及高斯核函数作为其核函数建立。
上述SVR-PM模型是基于SVR算法建立的并在其中加入了物理冶金参数PM。设置其核函数为高斯核函数并优化参数C和γ,其中高斯核函数的表达式如下所示:
其中x'为核函数中心,||x-x'||2为向量x和向量x'的欧氏距离,σ是带宽,用来控制径向作用范围。
设置其核函数为线性核函数并优化参数C和γ,其中线性核函数的表达式如下所示:
k(x,x')=xTx'+c
其中x'为核函数中心,c为常数。
上述MLP-PM模型是基于MLP算法建立的并在其中加入了物理冶金参数PM。将Adam作为优化器,优化其隐藏层层数和神经元个数。
上述RF-PM模型是基于RF算法建立的并在其中加入了物理冶金参数PM。优化其中的参数n_estimators和max_features。
上述XGB-PM模型和GBR-PM模型是分别基于XGB算法和GBR算法建立的并加入了物理冶金参数PM。优化其learning_rate和n_estimators参数,其他参数均设置为固定值。上述其他参数包括n_estimators、subsample、colsample_bytree、max_depth、及min_child_weight。
上述CNN-PM模型是基于CNN算法建立的并加入了物理冶金参数PM。设定其激活函数为ReLU,优化器为Adam,对CNN-PM模型进行训练,周期为10000次。激活函数ReLU的表达式如下所示:
relu(x)=max(x,0)
其中x为输入特征,relu(x)为上述激活函数,max(x,0)为一个取较大值函数,比较x与0的大小并输出其中较大值。
本实例中将Ac1温度、Ac3温度和变形抗力作为物理冶金参数加入到输入端,指导机器学习过程;
本实施例中SVR算法,MLP算法,RF算法和GBR算法是基于python语言环境下的sklearn库调用的,CNN算法基于keras库调用,XGB算法通过xgboost工具包进行调用;主要以网格寻优的方式在一定范围内搜索模型的最优参数;对于SVR算法参数C和γ的取值范围为2^-10~2^8;对于MLP算法,隐藏层层数和神经元个数的范围分别为1~4和50~400;对于RF算法参数n_estimators和max_features的取值范围分别为100~900和1~9;对于XGB和GBR算法,参数learning_rate和n_estimators的取值范围分别为0.001~0.1和100~900;
步骤5对分类后的每个子数据集都根据步骤4建立模型,并针对每个模型选择最优的算法。
步骤具体包括:
步骤5.1将2017-2019年数据按8:2划分为训练集和测试集,将2020年数据作为验证集进行5次数据随机划分以保证预测结果的稳定性;
步骤5.2根据基于多种回归策略的大数据性能预测模型的预测结果,计算平均绝对误差MAE和有效率Er,平均绝对误差(MAE)和有效率(Er)来分别衡量模型的准确性和可靠性,平均绝对误差(MAE)和有效率(Er)的表达式如下所示:
其中n是样本总数,f(xi)和yi分别代表第i个数据点的预测值和实测值,Ne为在规定误差范围内的数据量,Nall为数据集的总数据量;
步骤5.3通过计算在训练集和测试集中预测结果的MAE和Er来进行不同模型预测效果的对比,筛选出各类别中的最优回归算法,筛选原则为:首先根据训练集结果,从七个模型中排除MAE最大的两个模型,再根据测试集结果,从剩下的五个模型中排除MAE最大的两个模型,从而筛选出了三个在训练集和测试集中预测效果均较好的模型。最后通过对比这三个模型在验证集中预测结果的MAE以及在所有数据中预测结果的有效率,挑选出各类别中效果最好的模型;
在本实施例中,当数据量超过10000条时,直接选用CNN算法进行性能预测,因此类别一选用CNN算法;其余类别根据预测结果的MAE值选择最优算法,类别二选择RF模型,类别三选择XGB模型,类别四选择RF模型,类别五选择RF模型;本实施例的性能预测模型训练集和测试集的预测结果如图2所示,验证集的结果如图3所示,从图中可以看出,预测结果均在误差范围之内;
步骤6使用低合金钢实验得到的热轧低合金钢的60条数据建立数据集,对其进行数据标准化,建立实验小样本数据集,然后进一步基于所建立的实验小样本数据集使用RF算法建立性能预测模型,并对RF算法的参数进行了优化。最后选取最优模型用于后续的实验合金优化设计。
步骤具体包括:
步骤6.1使用低合金钢实验得到的热轧低合金钢的数据建立数据集,对其进行数据标准化,形成实验小样本数据集。
步骤6.2计算表示实验小样本数据集中成分和工艺与目标性能之间的相关性的Pearson相关性系数,删除其中相关性低于设定阈值的特征形成实验小样本标准数据集,依据数据集的自身特点和Pearson相关性系数,选择输入参数。
本实施例中选择的输入参数有Ti、V、Nb、C、Mn、Si、FET;
步骤6.3将实验小样本标准数据集按8:2划分为训练集和测试集,并对训练集和测试集进行设定次数的随机划分;
本实施例中,对数据集进行500次划分;
步骤6.4然后根据Pearson相关性系数判断特征重要性程度并选择不同维度的输入项建立基于RF算法的实验小样本预测模型,根据预测结果的平均绝对误差MAE和决定系数R2筛选出模型的最佳输入维度和输入特征参数,平均绝对误差MAE和决定系数R2的表达式如下所示:
其中n为样本个数,f(xi)和yi分别代表第i个数据点的预测值和实测值;
其中n是样本总数,f(xi)和yi分别代表第i个数据点的预测值和实测值,ymean为原数据的平均值。
本实施例中最佳输入维度为7维;
步骤6.5优化RF算法中的参数“max_features”和“n_estimators”,其他参数均为默认参数值;
步骤7将实验小样本预测模型和遗传算法相结合进行合金成分工艺的优化设计;采用目标性能的高低作为遗传算法的适应度函数,将遗传算法用于优化设计成分及工艺来获得最佳目标性能的材料;
遗传算法优化过程的具体步骤为:
步骤7.1在实验小样本标准数据集上,采用遗传算法将数据随机产生M条染色体,构成染色体组L,每个染色体都包含了成分和工艺;
步骤7.2将各染色体个体中的成分及工艺,通过物理冶金模型计算得到其对应的冶金参数,并将各染色体的成分、工艺及其相应的冶金参数构成第v代数据集,其中v代表目前的迭代次数;将第v代数据集中的数据进行标准化处理,将标准化后的数据作为输入参数带入最优模型,然后计算出目标性能;
步骤7.3由适应度函数计算出各个染色体个体的适应度,将所有适应度按照从高到低的顺序排列;判断目前迭代次数是否为第一次迭代,若是,那么保留目前染色体组中适应度高的90%的染色体个体,删除剩余10%,然后执行步骤7.4;若否,还是保留目前染色体组中适应度高的90%的染色体个体,而将剩余10%的染色体个体进行选择、交叉、变异操作来产生新的染色体,从而获得新的染色体组Kv,该染色体组Kv由染色体组Kv-1中适应度高的90%的染色体个体和新生成的染色体组成,然后执行步骤7.4;
步骤7.4按照步骤7.3得到的结果判断是否达到终止条件,若是,则输出合金的成分、工艺及其目标性能,并将该结果放入设计结果集F中;若否,则执行步骤7.2。所述的终止条件为当前染色体组中的全部染色体个体都收敛至同一结果,并且连续十次以上迭代的结果都相同;
步骤8对所建立的实验小样本预测模型进行筛选,得到准确性较高的模型指导合金优化设计;根据成分工艺及目标性能对设计结果进行筛选以获得较优的设计方案;
本实例筛选准则为:R2在0.8以上且训练集和测试集R2偏差在0.2以内的模型;
步骤9采用建立的基于多种回归策略的大数据性能预测模型,对实验设计结果进行有效的性能验证和方案筛选,得到满足目标性能热轧低合金钢的成分和工艺。
本实施例中基于小样本数据建立的预测模型,经过500次随机划分,得到500个模型的预测结果,在设计部分筛选出R2在0.8以上且训练集和测试集R2偏差在0.2以内的模型,一共得到289组预测准确性较高的模型,然后将这些模型与遗传算法相结合指导合金设计,最终得到289个设计结果。所有设计结果中,超过90%设计结果的屈服强度达到了500MPa以上,超过了原数据集中93%以上的合金屈服强度。为快速甄别设计结果的数据质量,从遗传算法优化得到的合金设计结果中进一步筛选出和这两条较优数据性能相近的合金设计方案,共得到40组屈服强度达到510MPa以上的较优设计结果。大部分合金设计结果的元素成分得到了素化,具有较低的冶炼成本。
对实验合金设计结果进行成分工艺参数的填充来进行工业验证。使用KNN分类模型对成分参数填补后的实验设计结果进行数据分类,选择分类后对应类别数据集中预测误差较小的数据,以其对应的工艺参数对实验设计结果的其余21维工艺参数进行填补。然后使用对应类别的工业预测模型进行实验合金方案的性能验证。图4为在两种工业生产工艺下的工业模型对实验设计合金的预测情况,通过工业模型对实验合金的性能预测可以看到,合金在实验模型和工业模型中的预测性能存在较大的差异。部分实验合金设计结果在实验研发过程中表现出的性能较低,而通过工业模型的预测结果发现屈服强度能够达到较高的水平,这表明其在工业产线上试生产的热轧钢板能够表现出较高的屈服强度,因此所得到的这些设计结果和生产工艺的组合方案值得进一步进行产线验证。
通过以上工业验证过程发现,基于工业大数据预测模型能够对实验设计结果进行有效的性能验证和方案筛选,根据模型计算结果能够快速得到在工业生产线上性能较优的实验合金设计方案和工业生产工艺组合,从而减少工业产品研发的试错成本和研发周期。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (7)

1.一种物理冶金指导工业大数据挖掘的热轧低合金钢设计方法,其特征在于,包括以下步骤:
步骤1将一段历史年份的工业产线数据提取出来,建立为工业数据集,并对工业数据集进行预处理,得到标准数据集;
步骤2根据标准数据集中的数据特点,建立基于KNN算法的KNN分类模型并对标准数据集进行分类;
步骤3依据各子数据集的成分和工艺数据特点和Pearson相关性系数,选择相应类别的输入特征;
步骤4根据步骤2.2中分类得到的子数据集,构建基于多种回归策略的大数据性能预测模型,同时根据热轧低合金钢的力学性能,引入性能相关的物理冶金参数PM,指导基于多种回归策略的大数据性能预测模型的机器学习过程;
步骤5对分类后的每个子数据集都根据步骤4建立模型,并针对每个模型选择最优的算法;
步骤6使用低合金钢实验得到的热轧低合金钢数据建立数据集,对其进行数据标准化,建立实验小样本数据集,然后进一步基于所建立的实验小样本数据集使用RF算法建立性能预测模型,并对RF算法的参数进行优化,最后选取最优模型用于后续的实验合金优化设计;
步骤7将实验小样本预测模型和遗传算法相结合进行合金成分工艺的优化设计;采用目标性能的高低作为遗传算法的适应度函数,将遗传算法用于优化设计成分及工艺来获得最佳目标性能的材料;
步骤8对所建立的实验小样本预测模型进行筛选,筛选准则为:R2在0.8以上且训练集和测试集R2偏差在0.2以内的模型,得到准确性较高的模型指导合金优化设计;根据成分工艺及目标性能对设计结果进行筛选以获得较优的设计方案;
步骤9采用建立的基于多种回归策略的大数据性能预测模型,对实验设计结果进行有效的性能验证和方案筛选,得到满足目标性能热轧低合金钢的成分和工艺。
2.根据权利要求1所述的一种物理冶金指导工业大数据挖掘的热轧低合金钢设计方法,其特征在于,所述步骤1具体包括以下步骤:
步骤1.1提取一段历史年份的热轧低合金钢h种材料的成分、工艺及其对应的目标性能,使用提取的h组数据共同组成原始数据集,其中所述成分为材料的元素及含量,所述工艺为材料的工艺参数,将原始数据集作为材料目标性能预测的有效数据并对原始数据集中的所有数据进行标准化处理,形成初始数据集,数据标准化公式为:
其中X为待转换的数值,Xscale为转换后的数值,max和min分别为参数在数据集中的最大值和最小值;
步骤1.2通过计算Pearson相关性系数对初始数据集中成分、工艺与目标性能的相关性进行分析,删除其中相关性低于设定阈值的特征,形成标准数据集。
3.根据权利要求1所述的一种物理冶金指导工业大数据挖掘的热轧低合金钢设计方法,其特征在于,所述步骤2具体包括以下步骤:
步骤2.1 KNN算法中包括两个参数,分别为用来描述两个样本点相似程度的距离和所选取的相邻样本的数量k,使用欧几里德距离作为上述的距离,在设定的范围内使用KNN算法对k的每个取值进行逐个测试,根据分类结果的准确率来确定参数k的最优值;
步骤2.2将工业数据集的前三年数据按设定比例划分为训练集和测试集,将工业数据集的第四年数据作为验证集,建立KNN分类模型,通过主成分分析PCA将高维数据投影到较低维空间中,将高维数据降低到设定维度,使用KNN分类模型完成数据分类并形成若干个子数据集。
4.根据权利要求1所述的一种物理冶金指导工业大数据挖掘的热轧低合金钢设计方法,其特征在于,所述步骤4中基于多种回归策略的大数据性能预测模型包括SVR-PM模型,MLP-PM模型,RF-PM模型,XGB-PM模型,GBR-PM模型,CNN-PM模型,其中上述SVR-PM模型中包含两种不同模型,分别由线性核函数及高斯核函数作为其核函数建立;
上述SVR-PM模型是基于SVR算法建立的并在其中加入了物理冶金参数PM;
设置其核函数为高斯核函数并优化参数C和γ,其中高斯核函数的表达式如下所示:
其中x'为核函数中心,||x-x′||2为向量x和向量x'的欧氏距离,σ是带宽,用来控制径向作用范围;
设置其核函数为线性核函数并优化参数C和γ,其中线性核函数的表达式如下所示:
k(x,x′)=xTx′+c
其中x'为核函数中心,c为常数;
上述MLP-PM模型是基于MLP算法建立的并在其中加入了物理冶金参数PM,将Adam作为优化器,优化其隐藏层层数和神经元个数;
上述RF-PM模型是基于RF算法建立的并在其中加入了物理冶金参数PM,优化其中的参数n_estimators和max_features;
上述XGB-PM模型和GBR-PM模型是分别基于XGB算法和GBR算法建立的并加入了物理冶金参数PM,优化其learning_rate和n_estimators参数,其他参数均设置为固定值,上述其他参数包括n_estimators、subsample、colsample_bytree、max_depth、及min_child_weight;
上述CNN-PM模型是基于CNN算法建立的并加入了物理冶金参数PM,设定其激活函数为ReLU,优化器为Adam,对CNN-PM模型进行训练,周期为10000次,激活函数ReLU的表达式如下所示:
relu(x)=max(x,0)
其中x为输入特征,relu(x)为上述激活函数,max(x,0)为一个取大值函数,比较x与0的大小并输出其中较大值。
5.根据权利要求1所述的一种物理冶金指导工业大数据挖掘的热轧低合金钢设计方法,其特征在于,所述步骤5具体包括以下步骤:
步骤5.1将工业数据集的前三年数据按设定比例划分为训练集和测试集,将工业数据集的第四年数据作为验证集,进行了设定次数的数据随机划分以保证预测结果的稳定性;
步骤5.2根据基于多种回归策略的大数据性能预测模型的预测结果,计算平均绝对误差MAE和有效率Er,平均绝对误差MAE和有效率Er的表达式如下所示:
其中n是样本总数,f(xi)和yi分别代表第i个数据点的预测值和实测值,Ne为在规定误差范围内的数据量,Nall为数据集的总数据量;
步骤5.3通过计算在训练集和测试集中预测结果的MAE和Er来进行不同模型预测效果的对比,筛选出各类别中的最优回归算法,筛选原则为:首先根据训练集结果,从七个模型中排除MAE最大的两个模型,再根据测试集结果,从剩下的五个模型中排除MAE最大的两个模型,从而筛选出了三个在训练集和测试集中预测效果均较好的模型,最后通过对比这三个模型在验证集中预测结果的MAE以及在所有数据中预测结果的有效率,挑选出各类别中效果最好的模型。
6.根据权利要求1所述的一种物理冶金指导工业大数据挖掘的热轧低合金钢设计方法,其特征在于,所述步骤6具体包括以下步骤:
步骤6.1使用低合金钢实验得到的热轧低合金钢的数据建立数据集,对其进行数据标准化,形成实验小样本数据集;
步骤6.2计算表示实验小样本数据集中成分和工艺与目标性能之间相关性的Pearson相关性系数,删除其中相关性低于设定阈值的特征形成实验小样本标准数据集,依据数据集的自身特点和Pearson相关性系数,选择输入参数;
步骤6.3将实验小样本标准数据集按设定比例划分为训练集和测试集,并对训练集和测试集进行设定次数的随机划分;
步骤6.4然后根据Pearson相关性系数判断特征重要性程度并选择不同维度的输入项建立基于RF算法的实验小样本预测模型,根据预测结果的平均绝对误差MAE和决定系数R2筛选出模型的最佳输入维度和输入特征参数,平均绝对误差MAE和决定系数R2的表达式如下所示:
其中n为样本个数,f(xi)和yi分别代表第i个数据点的预测值和实测值;
其中n是样本总数,f(xi)和yi分别代表第i个数据点的预测值和实测值,ymean为原数据的平均值;
步骤6.5优化RF算法中的参数“max_features”和“n_estimators”,其他参数均为默认参数值。
7.根据权利要求1所述的一种物理冶金指导工业大数据挖掘的热轧低合金钢设计方法,其特征在于,所述步骤7具体包括以下步骤:
步骤7.1在实验小样本标准数据集上,采用遗传算法将数据随机产生M条染色体,构成染色体组L,每个染色体都包含了成分和工艺;
步骤7.2将各染色体个体中的成分及工艺,通过物理冶金模型计算得到其对应的冶金参数,并将各染色体的成分、工艺及其相应的冶金参数构成第v代数据集,其中v代表目前的迭代次数;将第v代数据集中的数据进行标准化处理,将标准化后的数据作为输入参数带入最优模型,然后计算出目标性能;
步骤7.3由适应度函数计算出各个染色体个体的适应度,将所有适应度按照从高到低的顺序排列;判断目前迭代次数是否为第一次迭代,若是,那么保留目前染色体组中适应度高的90%的染色体个体,删除剩余10%,然后执行步骤7.4;若否,保留目前染色体组中适应度高的90%的染色体个体,而将剩余10%的染色体个体进行选择、交叉、变异操作来产生新的染色体,从而获得新的染色体组Kv,该染色体组Kv由染色体组Kv-1中适应度高的90%的染色体个体和新生成的染色体组成,然后执行步骤7.4;
步骤7.4按照步骤7.3得到的结果判断是否达到终止条件,若是,则输出合金的成分、工艺及其目标性能,并将该结果放入设计结果集F中;若否,则执行步骤7.2;所述的终止条件为当前染色体组中的全部染色体个体都收敛至同一结果,并且连续十次以上迭代的结果都相同。
CN202310541074.5A 2023-05-15 2023-05-15 物理冶金指导工业大数据挖掘的热轧低合金钢设计方法 Pending CN116484745A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310541074.5A CN116484745A (zh) 2023-05-15 2023-05-15 物理冶金指导工业大数据挖掘的热轧低合金钢设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310541074.5A CN116484745A (zh) 2023-05-15 2023-05-15 物理冶金指导工业大数据挖掘的热轧低合金钢设计方法

Publications (1)

Publication Number Publication Date
CN116484745A true CN116484745A (zh) 2023-07-25

Family

ID=87226845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310541074.5A Pending CN116484745A (zh) 2023-05-15 2023-05-15 物理冶金指导工业大数据挖掘的热轧低合金钢设计方法

Country Status (1)

Country Link
CN (1) CN116484745A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117265214A (zh) * 2023-11-22 2023-12-22 张家港广大特材股份有限公司 一种特种钢生产的优化控制方法及系统
CN117840232A (zh) * 2024-03-05 2024-04-09 东北大学 一种基于增量学习的热轧过程宽度预测方法
CN117840232B (zh) * 2024-03-05 2024-05-31 东北大学 一种基于增量学习的热轧过程宽度预测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117265214A (zh) * 2023-11-22 2023-12-22 张家港广大特材股份有限公司 一种特种钢生产的优化控制方法及系统
CN117265214B (zh) * 2023-11-22 2024-04-02 张家港广大特材股份有限公司 一种特种钢生产的优化控制方法及系统
CN117840232A (zh) * 2024-03-05 2024-04-09 东北大学 一种基于增量学习的热轧过程宽度预测方法
CN117840232B (zh) * 2024-03-05 2024-05-31 东北大学 一种基于增量学习的热轧过程宽度预测方法

Similar Documents

Publication Publication Date Title
CN110428876B (zh) 一种基于物理指导的机器学习算法的钢铁材料设计方法
CN112100745B (zh) 基于lda理论的汽车大梁钢力学性能预测方法
CN110739031B (zh) 一种冶金烧结过程的有监督预测方法、装置及存储介质
CN114897227A (zh) 基于改进随机森林算法的多钢种力学性能预报方法
CN112949005B (zh) 一种基于机器学习指导下的高强韧钢设计方法
CN110442954B (zh) 基于物理冶金学指导下机器学习的超高强不锈钢设计方法
CN108460213A (zh) 基于多聚类原型的t-s模型对炉腹煤气量的预测方法及程序
CN113128124B (zh) 基于改进神经网络的多牌号C-Mn钢力学性能预测方法
CN110472349A (zh) 一种基于eemd和深度卷积网络的热轧钢性能预测方法
CN116484745A (zh) 物理冶金指导工业大数据挖掘的热轧低合金钢设计方法
CN111651929A (zh) 一种基于Dynaform与智能算法融合的多目标优化方法
CN114662406A (zh) 机器学习辅助建立岩石节理峰值抗剪强度预测模型的方法
Wang et al. Strip hardness prediction in continuous annealing using multiobjective sparse nonlinear ensemble learning with evolutionary feature selection
CN112214933A (zh) 一种基于机器学习的疲劳性能预测方法
CN116825253B (zh) 基于特征选择的热轧带钢力学性能预测模型的建立方法
Ciancio et al. Design of a high performance predictive tool for forging operation
CN110415769B (zh) 基于物理冶金学指导下机器学习的低活化钢的设计方法
CN112488188A (zh) 一种基于深度强化学习的特征选择方法
CN116502455A (zh) 一种激光选区熔化技术的工艺参数确定方法及系统
CN110442953B (zh) 基于物理冶金学指导下机器学习的q&p钢的设计方法
Dong et al. Just-in-time learning-based soft sensor for mechanical properties of strip steel via multi-block weighted semisupervised models
CN111797574A (zh) 聚合物分子量分布的集成高斯过程回归模型方法
da Silva et al. Ensemble of Artificial Neural Networks and AutoML for Predicting Steel Properties
Wang et al. A deep learning model for the accurate prediction of the microstructure performance of hot rolled steel
Wang et al. Evolutionary modeling approach based on multiobjective genetic programming for strip quality prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination