CN110442954A

CN110442954A - 基于物理冶金学指导下机器学习的超高强不锈钢设计方法

Info

Publication number: CN110442954A
Application number: CN201910698771.5A
Authority: CN
Inventors: 徐伟; 徐宁; 黄健; 王晨充; 原家华; 沈春光
Original assignee: Northeastern University China; Bengang Steel Plates Co Ltd
Current assignee: Northeastern University China; Bengang Steel Plates Co Ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-11-12
Anticipated expiration: 2039-07-31
Also published as: CN110442954B

Abstract

本发明提供一种基于物理冶金学指导下机器学习的超高强不锈钢设计方法，涉及钢铁材料设计技术领域。本发明首先采集数据,采用多次留出法将数据划分训练集及测试集；根据训练集建立基于物理冶金学指导的集成学习算法模型；将集成学习算法模型的相关系数大于90％的作为遗传算法中的目标函数；遗传算法被用于优化设计成分及工艺获得超高强不锈钢，对不锈钢的成分及热处理条件进行设计；对于得到的大量设计结果采用SVC分类器进行分类筛选，输出其典型合金的成分、工艺、硬度。该方法可以提升模型泛化能力，使设计更为高效，设计结果更加符合物理冶金学原理。

Description

基于物理冶金学指导下机器学习的超高强不锈钢设计方法

技术领域

本发明涉及钢铁材料设计技术领域，尤其涉及一种基于物理冶金学指导下机器学习的超高强不锈钢设计方法。

背景技术

超高强不锈钢因其具有高强度、良好的耐蚀性等优良特性被广泛应用于核电，军工等高端装备行业。传统的超高强钢的性能优化主要是基于系统实验，虽然很多具有优良性能的超高强不锈钢已经被成功开发，但是随着合金体系和加工工艺的复杂化，系统实验的传统研发方式暴露出研发周期长，资金耗费大等劣势，同时低研发效率也难以满足人们对高效研发的要求，难以满足当今社会对科技发展的要求。

为了提升材料的研发效率，避免传统试错法低效的研发效率，一些以物理冶金学为基础的性能预测和材料设计也被广泛应用到高性能材料的研发中。对于强度的预测，已经形成了一些经典的物理模型，比如，析出强化计算所需的Orowan模型和Friedel模型，固溶强化计算所需的Fleischer模型，位错强化计算所需的Kocks-Mecking模型以及细晶强化计算所需的Hall-Petch模型。基于以上模型，很多学者已经成功预测了超高强钢的强度。在Olson的研究中，上述强化模型被用来计算各部分的强度贡献，最后累加各部分强度贡献计算得到超高强钢的强度。虽然基于物理模型成功设计出一些先进材料，但是在进一步应用中一些缺点也不断暴露出来：(1)PM模型存在大量物理冶金参数，这些参数对于模型的精度至关重要。但是这些重要参数的获取往往需要复杂的显微组织表征，大幅增加建模所需实验量，降低了PM模型的研发效率。(2)一些复杂的相变机制仍然在学术界存在争议，这限制了模型的进一步优化。(3)随着人们对相变中物理机制的理解更为深入，物理模型被不断优化，这大幅增加了PM模型的复杂程度，限制了模型的普适性。

随着材料研发进入大数据时代，擅长处理大数据的机器学习算法越来越得到人们的重视。机器学习作为近几年兴起的一门热门学科，在材料设计的方面具有独特的优势，其可以以相对较高的预测精度，低成本及高效率设计出具有优良性能的先进材料。机器学习通过大量的实验数据学习得到输入与输出之间的关系，例如成分工艺与强度之间的关系，基于此回归模型可以对材料的性能进行预测。在此基础之上，将机器学习模型与启发式算法结合可以完成对未知参数组合对应性能的预测，即进行材料设计。近些年来，一些学者利用机器学习回归或分类工具成功预测了多种材料性能。比如：马氏体时效钢的强度﹑海洋钢在耐蚀性能及混凝土的强度。近年来，众多学者将机器学习算法与优化算法如遗传算法结合以设计所需钢种。印度CSIR国家冶金实验室ChowdhuryS使用此方法设计API等级微合金化管线钢。并对ANN模型各输入参数进行分析，以研究成分工艺等参数对管线钢性能的影响，而Pareto前沿则揭示了最佳目标性能下的成分、工艺参数范围，这些都有助于设计具有更佳综合性能的管线钢。但是，当前基于纯机器学习方法对材料的性能预测和设计只是一个纯数学过程，很少有物理冶金参量涉及到设计过程中，这大幅浪费了物理冶金学在材料设计中的独特优势。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于物理冶金学指导下机器学习的超高强不锈钢设计方法，使基于统计学的机器学习富有了物理冶金学含义，并且相比于单纯机器学习算法，该方法可以提升模型泛化能力，使设计更为高效，设计结果更加符合物理冶金学原理。

为解决上述技术问题，本发明所采取的技术方案是：

本发明提供一种基于物理冶金学指导下机器学习的超高强不锈钢设计方法，包括如下步骤：

步骤1：数据采集；

步骤1.1：获取g种超高强不锈钢的成分、工艺及其对应的硬度，每一种超高强不锈钢的成分、工艺、硬度为一组原始数据，g组原始数据形成原数据集；所述成分为组成超高强不锈钢的元素及含量，所述工艺为热处理温度以及时间；原数据集用于作为超高强不锈钢硬度预测的有效数据；对原数据集中的所有数据进行标准化处理，形成初始数据集；

步骤1.2：根据热动力学软件ThermoCalc计算原始数据集中每一种超高强不锈钢的析出相体积分数VF和驱动力DF，VF和DF进行标准化处理后，将VF和DF各作为一维变量添加到数据集中，形成标准数据集；

步骤2：令划分比例为8：2，将标准数据集采用多次留出法第i次划分成训练集及测试集；其中划分次数i∈F，F为根据实验需求设置的划分总次数；

步骤3：根据步骤2中的训练集建立基于物理冶金学指导的集成学习算法模型，即GBR-PM模型；

步骤3.1：设定集成学习算法中回归器的数量H的范围以及深度D的范围，将范围内的回归器的数量和深度取正整数随机组合，获得U种回归器数量和深度的组合形式，形成参数集；所述回归器的数量根据原数据集的规模设定，所述深度根据原数据集的数据维数设定；

步骤3.2：对参数集内的每种组合形式都根据步骤2中的训练集建立GBR-PM模型；该模型为将成分、工艺、VF、DF作为GBR-PM模型的输入，硬度作为GBR-PM模型的输出；最终得到U个GBR-PM模型；分别求出U个模型的平方相关系数R²；

第u个GBR-PM模型的平方相关系数的计算公式如下：

其中u∈U，n代表测试集的数据组总量，x_a代表由测试集内第a组数据中成分、工艺、VF、DF组成的向量，f(x_a)为x_a的GBR-PM模型预测的硬度值，y_a为x_a所对应的硬度的实际值；

步骤3.3：对每个模型的平方相关系数R²进行比较，将平方相关系数R²最大的模型设定为第i次划分下的最优GBR-PM模型，将该模型下回归器的数量和深度的组合形式设定为最优组合参数；

步骤4：判断第i次划分下的最优GBR-PM模型的相关系数是否大于90％，若否，则删除该模型，执行步骤6；若是，则执行步骤5，将该模型作为遗传算法中的目标函数；

步骤5：在原数据集的范围内，采用GBR-PM模型作为遗传算法的目标函数，遗传算法被用于优化设计成分及工艺获得最佳硬度的超高强不锈钢，对超高强不锈钢的成分及工艺进行设计；通过遗传算法得到合金成分、工艺及其硬度，并将该结果放入设计结果集M中；

步骤6：令i＝i+1，判断i是否小于等于F，若是，则将标准数据集内的数据随机打乱，执行步骤2重新划分训练集和数据集；若否，则执行步骤7，并输出设计结果集M＝{e₁、e₂、…、e_m}，其中e_m代表划分次数为第m次的设计结果数据组，该数据组包括成分、工艺、硬度，m∈F；

步骤7：利用原数据集对初始SVC分类器进行训练，采用网格搜索法对初始SVC分类器参数进行优化，得到SVC分类器，通过SVC分类器对设计结果集M中的每组数据进行评价，SVC分类器通过成分及工艺来共同确定设计结果的类别，将每组数据中硬度数值小于等于49HRC给予的标签为：-1，其中-1代表低可靠性，屈服强度数值大于49HRC给予的标签为：1，其中1代表高可靠性；输出所有高可靠性的设计结果数据组，形成结果集K＝{e₁、e₂、…、e_k}，其中e_k代表第k次划分下的带有高可靠性标签的设计结果数据组，k∈F；求出结果集内成分中每一维变量的均值，选择结果集内与均值最相近的数据组作为最终的典型合金，输出其典型合金的成分、工艺、硬度。

所述步骤1.1中的标准化公式为：z＝(x-μ)/σ，其中z是标准化数据，x是原始数据，μ是原始数据中每一维变量的均值，σ是原始数据中每一维变量的标准差。

所述步骤5的具体步骤为：

步骤5.1：根据遗传算法将原数据集中的数据随机生成W个染色体,组成染色体组Q,每个染色体由成分及其工艺组成；

步骤5.2：根据每个染色体个体中的成分及其工艺通过ThermoCalc软件得到其对应的DF和VF，将每个染色体的成分、工艺及其对应的DF和VF组成第o代数据集，其中o代表当前的迭代次数；对第o代数据集内的数据进行标准化处理，将标准化后的数据作为输入参数带入最优GBR-PM模型，计算出硬度；

步骤5.3:根据适应度函数计算每一个染色体个体的适应度，将所有适应度按照由大到小的顺序排列；判断当前迭代次数是否为第一次迭代，若是，则保留当前染色体组中适应度高的90％的染色体个体，将其余10％的染色体个体删除，执行步骤5.4；若否，则保留当前染色体组中适应度高的90％的染色体个体，将适应度低的10％的染色体个体进行选择、交叉、变异操作,生成新的染色体,得到新的染色体组M_o,所述染色体组M_o包括染色体组M_o-1中适应度高的90％的染色体个体和新生成的染色体；

所述适应度函数FitnV为：

其中，Nind为种群中个体数量，sp为选择的压差，sp的取值范围为[1,2]；Pos为个体在排序种群中的位置；

步骤5.4：判断是否达到终止条件，若是，则输出合金成分、工艺及其硬度，并将该结果放入设计结果集M中；若否，则执行步骤5.2；

所述终止条件为当前染色体组内的所有染色体个体都收敛至同一结果，且连续十次迭代的结果都一致。

所述步骤5.3中从第二次迭代以后的每个染色体组内的染色体个数都是一致的。

采用上述技术方案所产生的有益效果在于：本发明提供的一种基于物理冶金学指导下机器学习的超高强不锈钢设计方法，该方法应用物理冶金学指导的集成学习算法(GBR-PM)建立起成分、工艺与硬度之间的关系，应用遗传算法(GA)快速精准的在原有数据集范围内对硬度进行优化设计。对于得到的大量设计结果创新性采用支持向量分类器(SVC)对其进行分类筛选，甄别出高可靠性的设计结果，形成了完整的先进材料理性设计平台。本发明中首次将物理冶金学融入到机器学习中，使基于统计学的机器学习富有了物理冶金学含义，并且该方法可以提升模型泛化能力，使设计更为高效，设计结果更加符合物理冶金学原理。

附图说明

图1为本发明实施例提供的方法流程图；

图2为本发明实施例提供的硬度预测结果示意图，其中，a为500组模型训练集的平均预测结果示意图，b为500组模型测试集的平均预测结果示意图，c为500组模型中训练集最优预测结果示意图，d为500组模型测试集的最优结果示意图；

图3为本发明实施例提供的Alloy1实验验证结果图,其中，a为硬度随时效温度的变化，b为硬度随时效时间的变化；

图4为本发明实施例提供的设计流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本方法应用物理冶金学指导的集成学习算法(GBR-PM)建立起成分、工艺与超高强不锈钢之间的关系，应用遗传算法(GA)快速精准的在原有数据集范围内对材料进行优化设计，对于得到的大量设计结果创新性采用支持向量分类器(SVC)对其进行分类筛选，甄别出高可靠性的设计结果，形成了完整的材料理性设计平台，如图4所示。基于此平台成功设计出具有低Ni含量以R相为强化相的新型超高强不锈钢，同时时效温度和时效时间也被精准设计，经实验验证材料硬度得到提升，优于原始数据集。值得强调的是，本发明中首次将物理冶金学融入到机器学习中，使基于统计学的机器学习富有了物理冶金学含义，并且该方法可以提升模型泛化能力，使设计更为高效，设计结果更加符合物理冶金学原理。

如图1所示，本实施例的方法如下所述。

步骤1：数据采集；

首先采集大量R相强化的超高强不锈钢文献，建立起包含102条数据的数据库，数据分布情况如表1所示。在超高强钢中析出强化是最重要的强化机制，而析出强化的贡献又与析出相的尺寸和体积分数紧密相关，并且析出相的尺寸一定程度上又取决于驱动力，因而选择析出相的平衡体积分数和驱动力作为特征值添加数据集中参与模型构建，进而使机器学习模型具有物理含义。

表1标准数据集中数据分布情况

具体步骤为：

步骤1.1：获取g＝102种超高强不锈钢的成分、工艺及其对应的硬度，每一种超高强不锈钢的成分、工艺、硬度为一组原始数据，g组原始数据形成原数据集；所述成分为组成超高强不锈钢的元素及含量，所述工艺为热处理温度以及时间；原数据集用于作为超高强不锈钢硬度预测的有效数据；对原数据集中的所有数据进行标准化处理，形成初始数据集；标准化公式为：z＝(x-μ)/σ，其中z是标准化数据，x是原始数据，μ是原始数据中每一维变量的均值，σ是原始数据中每一维变量的标准差；

步骤1.2：根据热动力学软件ThermoCalc计算原始数据集中每一种超高强不锈钢的析出相体积分数VF和驱动力DF，VF和DF进行标准化处理后，将VF和DF各作为一维变量添加到数据集中，形成标准数据集；标准数据集中每组数据都包括成分、工艺、硬度、VF和DF；

本实施例中F＝500；

步骤3.2：对参数集内的每种组合形式都根据步骤2中的训练集建立GBR-PM模型；GBR(Gradient boosting regression)算法属于集成学习算法，其将不同的学习器结合起来，以期提高总体的预测效果。具体做法为：假定样本数为k，最开始算法会给每一训练样本赋予一个权值，而且可以在每轮提升过程结束时自动地调整权值。开始时，所有的样本都赋予相同的权值1/k，从而使得它们被选作训练的可能性都是一样的。根据训练样本的抽样分布来抽取样本，得到新的样本集。然后，由该训练集归纳一个回归器，并用它对原始数据集中的所有样本进行回归。每轮提升结束时，更新训练集样本的权值。增加被预测误差大的样本权值，减小被预测精度高的样本权值，这使得回归模型在随后的迭代中关注那些很难预测的样本，最终提高整体精度。

该模型为将成分、工艺、VF、DF作为GBR-PM模型的输入，硬度作为GBR-PM模型的输出；最终得到U个GBR-PM模型；分别求出U个模型的平方相关系数R²；

第u个GBR-PM模型的平方相关系数的计算公式如下：

步骤5：在原数据集的范围内，通过结合GBR-PM模型和遗传算法，采用GBR-PM模型作为遗传算法的目标函数，遗传算法(GA)被用于优化设计成分及时效条件获得最佳硬度的超高强不锈钢，对超高强不锈钢的成分及热处理条件进行设计；通过遗传算法得到合金成分、工艺及其硬度，并将该结果放入设计结果集M中；

遗传算法的具体步骤为：

步骤5.3:根据适应度函数计算每一个染色体个体的适应度，将所有适应度按照由大到小的顺序排列；判断当前迭代次数是否为第一次迭代，若是，则保留当前染色体组中适应度高的90％的染色体个体，将其余10％的染色体个体删除，执行步骤5.4；若否，则保留当前染色体组中适应度高的90％的染色体个体，将适应度低的10％的染色体个体进行选择、交叉、变异操作,生成新的染色体,得到新的染色体组M_o,所述染色体组M_o包括染色体组M_o-1中适应度高的90％的染色体个体和新生成的染色体；从第二次迭代以后的每个染色体组内的染色体个数都是一致的；

所述适应度函数FitnV为：

所述终止条件为当前染色体组内的所有染色体个体都收敛至同一结果，且连续十次迭代的结果都一致；

在本实施例中对上述得到的F种最优GBR-PM模型进行强度预测；

采用平方相关系数(R²)和平均绝对误差(MAE)的500组均值及最大值来评价GBR-PM模型性能。预测结果如图2所示，训练集和测试集中的绝大多数数据点都十分接近图中对角线，这充分反映了大多数预测值与实验值非常一致。说明SVR-PM模型具有较高的预测精度。为了指导下一步设计，模型的泛化能力十分重要，因而需要关注模型测试集的性能。预测平均值如图2(a)所示，102个试样中有70个样品的绝对偏差小于1HRC，最大的偏差也仅为4.5HRC。最优结果如图2(b)所示，22样品点中有16个样品的偏差小于1HRC，最大偏差也仅为1.9HRC。并且在整个数据区间中实验硬度和预测的硬度之间偏差较小，说明GBR-PM模型适用于整个数据集。

步骤7：利用原数据集对初始SVC分类器进行训练，采用网格搜索法对初始SVC分类器参数进行优化，得到SVC分类器，通过SVC分类器对设计结果集M中的每组数据进行评价，SVC分类器通过成分及工艺来共同确定设计结果的类别，将每组数据中硬度数值小于等于49HRC给予的标签为“-1”代表“低可靠性”，屈服强度数值大于49HRC给予的标签为“1”代表“高可靠性”；输出所有高可靠性的设计结果数据组，形成结果集K＝{e₁、e₂、…、e_k}，其中e_k代表第k次划分下的带有高可靠性标签的设计结果数据组，k∈F；求出结果集内成分中每一维变量的均值，选择结果集内与均值最相近的数据组作为最终的典型合金，输出其典型合金的成分、工艺、硬度；

本实施例中硬度预测部分使用500组不同的GBR-PM模型，在设计部分选取其中171个R2>90％的模型，将选取好的模型结合GA进行设计，其中应用ThermoCalc软件计算每一个遗传算法个体的物理冶金学参数，最终得到171个设计结果。所有设计结果中101个设计结果的硬度优于原始数据集，性能优化，为快速甄别设计结果的数据质量，采用SVC分类器对101个设计结果进行评价，将其分为“高可靠性”和“低可靠性”。SVC分类器根据成分及工艺确定设计结果的类别。在数据集中硬度小于等于49HRC赋予的标签为“-1”代表“低可靠性”，数值大于49HRC给予的标签为“1”代表“高可靠性”。利用原始数据集作为训练集对SVC分类器进行训练，采用网格搜索法对SVC分类器参数进行优化，最后成功构建SVC分类器，其分类精度达99.01％。为了验证设计结果可靠性，以116个设计结果作为测试集，采用SVC分类器将设计结果分为“高可靠性”和“低可靠性”两类。

经过分类器甄别，101个设计结果中有15个被划分为“高可靠性”，其他设计结果被确定为“低可靠性”。选择结果集内与均值最相近的数据组作为典型合金，输出其典型合金的成分、工艺、硬度，如表2所示。Alloy1与原始合金体系比较接近，具有较高的合金元素含量。而Alloy2是一个全新的设计结果。原始数据集中合金均具有较高的Ni含量，均值为4.4wt％，而当前设计的Alloy 1中Ni含量仅为1.5wt％，表明设计得到节Ni型超高强不锈钢。

表2设计合金体系，时效工艺以及Alloy 1冶炼结果

	Fe	C	Cr	Ni	Co	Mo	T<sub>Age</sub>	T<sub>Time</sub>
									Alloy 1	Balance	0.002	13.00	1.50	13.00	5.30	560	4.0
Actual	Balance	0.004	13.20	1.54	12.90	5.49	-	-

实验验证

将Alloy1熔炼成约5kg的锭，化学分析结果见表2。材料在1050℃下锻造成方坯，截面尺寸为20mm×20mm,然后将方坯加工成厚度为5mm的薄片进行热处理。为了与数据集中试样的硬度进行比较，时效处理前加工工艺与文献中热处理方式保持一致。

实验验证结果如图3所示，给出了硬度随时效温度和时效时间的变化情况，图中五角星表示的为设计结果，其他方块表示的为补充实验点。Alloy1在设计时效条件下硬度为52.9HRC，优于数据集中原始最大硬度(51HRC)。并且值得注意的是材料最优的时效温度和时效时间均被精准设计。结果表明该材料设计方法可以精准高效设计材料。

且区别于数据集中合金成分，设计合金体系最显著特点是具有低Ni含量，其含量范围为1.5～2.0wt％。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于物理冶金学指导下机器学习的超高强不锈钢设计方法，其特征在于：包括如下步骤：

步骤1：数据采集；

第u个GBR-PM模型的平方相关系数的计算公式如下：

2.根据权利要求1所述的一种基于物理冶金学指导下机器学习的超高强不锈钢设计方法，其特征在于：所述步骤1.1中的标准化公式为：z＝(x-μ)/σ，其中z是标准化数据，x是原始数据，μ是原始数据中每一维变量的均值，σ是原始数据中每一维变量的标准差。

3.根据权利要求1所述的一种基于物理冶金学指导下机器学习的超高强不锈钢设计方法，其特征在于：所述步骤5的具体步骤为：

所述适应度函数FithV为：

4.根据权利要求3所述的一种基于物理冶金学指导下机器学习的超高强不锈钢设计方法，其特征在于：所述步骤5.3中从第二次迭代以后的每个染色体组内的染色体个数都是一致的。