CN110428876A

CN110428876A - 一种基于物理指导的机器学习算法的钢铁材料设计方法

Info

Publication number: CN110428876A
Application number: CN201910698739.7A
Authority: CN
Inventors: 徐伟; 沈春光; 黄健; 王晨充; 原家华
Original assignee: Northeastern University China; Bengang Steel Plates Co Ltd
Current assignee: Northeastern University China; Bengang Steel Plates Co Ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-11-08
Anticipated expiration: 2039-07-31
Also published as: CN110428876B

Abstract

本发明提供一种基于物理指导的机器学习算法的钢铁材料设计方法，涉及钢铁材料的设计和机器学习应用技术领域。本发明首先采集数据,采用多次留出法将数据划分训练集及测试集；根据训练集建立基于物理冶金学指导的支持向量机模型；将基于物理冶金学指导的支持向量机模型的相关系数大于90％的作为遗传算法中的目标函数；得到优化后的成分、工艺及最佳目标性能的材料；对于得到的大量设计结果采用SVC分类器进行分类筛选，输出其典型合金的成分、工艺、目标性能。本方法将物理冶金机制引入到机器学习中，同时结合优化算法形成完备的设计平台，设计结果更加符合物理冶金学原理。

Description

一种基于物理指导的机器学习算法的钢铁材料设计方法

技术领域

本发明涉及钢铁材料的设计和机器学习应用技术领域，尤其涉及一种基于物理指导的机器学习算法的钢铁材料设计方法。

背景技术

随着材料研发进入大数据时代，应用新方法加速新材料的研发已成为现在材料研发的主流趋势。材料研发一般是随着社会需求而发展起来的，形成了多种基础理论及设计方法。传统的材料研发基于传统试错法进行开发设计，对符合实际要求的钢种通过大量的正交实验研究，确定出符合要求的成分及热处理工艺。而这种实验为指导的材料设计方法被广泛认为是一种耗时长﹑低效率﹑成本高及受到实验设备及条件的限制。

为了提升材料的研发效率，避免传统试错法低效的研发效率，一些以物理冶金学为基础的性能预测和材料设计方法也被广泛应用到高性能材料的研发中。以强度预测为例，已经形成了许多经典的物理模型，比如，析出强化计算所需的Orowan模型和Friedel模型，固溶强化计算所需的Fleischer模型，位错强化计算所需的Kocks-Mecking模型以及细晶强化计算所需的Hall-Petch模型。基于以上模型，很多学者已经成功预测了材料的强度。在Olson的研究中，上述强化模型被用来计算各部分的强度贡献，最后累加各部分强度贡献计算得到材料的强度。虽然基于物理模型成功设计出一些先进材料，但是在进一步应用中一些缺点也不断暴露出来：(1)PM模型存在大量物理冶金参数，这些参数对于模型的精度至关重要。但是这些重要参数的获取往往需要复杂的显微组织表征，大幅增加建模所需实验量，降低了PM模型的研发效率。(2)一些复杂的相变机制仍然在学术界存在争议，这限制了模型的进一步优化。(3)随着人们对相变中物理机制的理解更为深入，物理模型被不断优化，这大幅增加了PM模型的复杂程度，限制了模型的普适性。

机器学习作为近几年兴起的一门热门学科，在材料设计的方面具有独特的优势，其目的是以相对较低的错误率，低成本及高效率，获得先进的材料的性能。机器学习通过大量的实验数据和其他相关的计算机技术，如数据挖掘和图像识别，对材料的性能进行预测及设计。近些年来，一些学者利用机械学习回归或分类工具成功预测了多种材料性能和微观结构信息。比如：马氏体时效钢﹑海洋钢及混凝土等方面。近年来，众多学者将机器学习算法与优化算法如遗传算法结合以设计所需钢种。印度CSIR国家冶金实验室ChowdhuryS使用此方法设计API等级微合金化管线钢。并对ANN模型各输入参数进行分析，以研究成分工艺等参数对管线钢性能的影响，而Pareto前沿则揭示了最佳目标性能下的成分、工艺参数范围，这些都有助于设计具有更佳综合性能的管线钢。但是，当前基于纯机器学习方法对材料的性能预测和设计只是一个纯数学过程，很少有物理冶金参量涉及到设计过程中，这大幅浪费了物理冶金学在材料设计中的独特优势。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于物理指导的机器学习算法的钢铁材料设计方法，本方法将物理冶金机制引入到机器学习中，同时结合优化算法形成完备的设计平台，设计结果更加符合物理冶金学原理；

为解决上述技术问题，本发明所采取的技术方案是：

本发明提供一种基于物理指导的机器学习算法的钢铁材料设计方法，包括如下步骤：

步骤1：建立数据集；

步骤1.1：获取某类材料中g种材料的成分、工艺及其对应的目标性能，每一种材料的成分、工艺、目标性能为一组原始数据；g组原始数据形成原数据集；所述成分为材料的元素及含量，所述工艺为材料的工艺参数；原数据集用于作为材料目标性能预测的有效数据；对原数据集中的所有数据进行标准化处理，形成初始数据集；

步骤1.2：根据某类材料的力学性能，在该类材料的所有物理冶金参数中选取与该类材料关联度大于S的冶金参数，所述S根据材料的类别决定，根据热动力学软件ThermoCalc或者物理模型计算原始数据集中每一组数据的冶金参数，将这些冶金参数进行标准化处理后，将其各作为一维变量添加到数据集中，形成标准数据集；

步骤2：令划分比例为8：2，将标准数据集采用多次留出法第i次划分成训练集及测试集；其中划分次数i∈F，F为根据实验需求设置的划分总次数；

步骤3：根据步骤2中的训练集建立基于物理冶金学指导的支持向量机模型，即SVR-PM模型；

步骤3.1：SVR算法中包括径向基核函数中的自由参数γ和SVR模型中的惩罚参数C，径向基核函数的表达式如下所示：

其中,为训练集中第μ个数据,为训练集第j个数据，γ为自由参数，是函数的宽度参数，控制了函数的径向作用范围；

SVR模型转化为二次凸规划如下式所示：

s.t.y_μ(w·x_μ+b)≥1-ξ

其中C为惩罚函数，W为法向量，ξ为松弛变量，b为截距，y_μ为测试集中x_μ的目标性能；

设定SVR算法中惩罚参数C的范围以及自由参数γ的范围，将范围内的参数C和自由参数γ以2^1/2为步长进行随机组合，获得U种惩罚参数C和自由参数γ的组合形式，形成参数集；

步骤3.2：对参数集内的每种组合形式都根据步骤2中的训练集建立SVR-PM模型；该模型为将成分、工艺、冶金参数作为SVR-PM模型的输入，目标性能作为SVR-PM模型的输出；最终得到U个SVR-PM模型；分别求出U个模型的平方相关系数R²；

第u个SVR-PM模型的平方相关系数的计算公式如下：

其中u∈U，n代表测试集中的数据总量，x_a为测试集中第a个数据，f(x_a)为x_a的SVR-PM模型预测的目标性能值，y_a为x_a所对应的目标性能的真实值；

步骤3.3：对每个模型的平方相关系数R²进行比较，将平方相关系数R²最大的模型设定为第i次划分下的最优SVR-PM模型，将该模型下惩罚参数C和自由参数γ的组合形式设定为最优组合参数；

步骤4：判断第i次划分下的最优SVR-PM模型的相关系数是否大于90％，若否，则删除该模型，执行步骤6；若是，则执行步骤5，将该模型作为遗传算法中的目标函数；

步骤5：在原数据集的范围内，通过结合SVR-PM模型和遗传算法，对材料的成分及工艺进行设计；采用SVR-PM模型作为遗传算法的目标函数，遗传算法被用于优化设计成分及工艺获得最佳目标性能的材料；

步骤6：令i＝i+1，判断i是否小于等于F，若是，则将标准数据集内的数据随机打乱，执行步骤2重新划分训练集和数据集；若否，则执行步骤7，并输出设计结果集M＝{e₁、e₂、…、e_m}，其中e_m代表划分次数为第m次的设计结果数据组，该数据组包括成分、工艺、目标性能，m∈F；

步骤7：利用原数据集对初始SVC分类器进行训练，采用网格搜索法对初始SVC分类器参数进行优化，得到SVC分类器，通过SVC分类器对设计结果集M中的每组数据进行评价，SVC分类器通过成分及工艺共同确定设计结果的类别，将数据按照目标性能从劣到优的顺序排列，每组数据中目标性能数值位于前80％的给予标签为：-1，其中-1代表低可靠性，目标性能数值位于后20％的给予标签为：1，其中1代表高可靠性；输出所有高可靠性的设计结果数据组，形成结果集K′＝{e₁、e₂、…、e_k}，其中e_k代表第k次划分下的带有高可靠性标签的设计结果数据组，k∈F；求出结果集内成分中每一维变量的均值，选择结果集内与均值最相近的数据组作为最终的典型合金，输出其典型合金的成分、工艺、目标性能。

所述步骤1.1中的标准化公式为：z＝(x-μ)/σ，其中z是标准化数据，x是原始数据，μ是原始数据中每一维变量的均值，σ是原始数据中每一维变量的标准差。

所述步骤3.1中惩罚参数C和自由参数γ的取值范围均为[2^-10,2¹⁰]。

所述步骤5的具体步骤为：

步骤5.1:根据遗传算法将原数据集中的数据随机生成W个染色体,组成染色体组Q,每个染色体由成分及其工艺组成；

步骤5.2：根据每个染色体个体中的成分及其工艺通过ThermoCalc软件或者物理冶金模型计算得到其对应的冶金参数，将每个染色体的成分、工艺及其对应的冶金参数组成第o代数据集，其中o代表当前的迭代次数；对第o代数据集内的数据进行标准化处理，将标准化后的数据作为输入参数带入最优SVR-PM模型，计算出目标性能；

步骤5.3:根据适应度函数计算每一个染色体个体的适应度，将所有适应度按照由大到小的顺序排列；判断当前迭代次数是否为第一次迭代，若是，则保留当前染色体组中适应度高的90％的染色体个体，将其余10％的染色体个体删除，执行步骤5.4；若否，则保留当前染色体组中适应度高的90％的染色体个体，将适应度低的10％的染色体个体进行选择、交叉、变异操作,生成新的染色体,得到新的染色体组M_o,所述染色体组M_o包括染色体组M_o-1中适应度高的90％的染色体个体和新生成的染色体，；

所述适应度函数FitnV为：

其中，Nind为种群中个体数量，sp为选择的压差，sp的取值范围为[1,2]；Pos为个体在排序种群中的位置；

步骤5.4：判断是否达到终止条件，若是，则输出合金成分、工艺及其目标性能，并将该结果放入设计结果集M中；若否，则执行步骤5.2；

所述终止条件为当前染色体组内的所有染色体个体都收敛至同一结果，且连续十次迭代的结果都一致。

采用上述技术方案所产生的有益效果在于：本发明提供的本发明提供的一种基于物理指导的机器学习算法的钢铁材料设计方法，该方法应用物理冶金学指导的支持向量回归(SVR-PM)建立起成分、工艺与目标性能之间的关系，应用遗传算法(GA)快速精准的在原有数据集范围内对强度进行优化设计。对于得到的大量设计结果创新性采用支持向量分类器(SVC)对其进行分类筛选，甄别出高可靠性的设计结果，形成了完整的先进材料理性设计平台。本发明中首次将物理冶金学融入到机器学习中，使基于统计学的机器学习富有了物理冶金学含义，并且该方法可以提升模型泛化能力，使设计更为高效，设计结果更加符合物理冶金学原理。

附图说明

图1为本发明实施例提供的设计流程图；

图2为本发明实施例提供的预测结果图；

图3为本发明实施例提供的测试集的预测结果。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

在本发明中，与目标性能高度相关的物理冶金学参量被添加数据集中参与模型训练及设计过程，使机器学习过程富有物理意义。同时应用遗传算法对成分工艺进行优化设计，最终使用分类器对设计结果进行高效筛选看，设计流程如图1所示。相比于单纯的机器学习设计结果，物理冶金指导下的机器学习预测精度更高，设计结果更为符合物理冶金原理。基于该理性设计方法成功优化设计了超高强不锈钢的关键力学性能。本实施例的方法如下所述。

本发明提供一种基于物理指导的机器学习算法的钢铁材料设计方法，如图1所述，包括如下步骤：

步骤1：建立数据集；首先采集大量目标材料的文献，建立起不低于100条数据的数据库。随后找到与目标力学性能关联最为紧密的物理冶金过程，在选取该物理冶金过程中最为关键的物理冶金参数，选择这些物理冶金参数作为特征值添加数据集中参与模型构建，进而使机器学习模型具有物理含义。具体步骤如下：

步骤1.1：获取某类材料中g种材料的成分、工艺及其对应的目标性能，每一种材料的成分、工艺、目标性能为一组原始数据；g组原始数据形成原数据集；所述成分为材料的元素及含量，所述工艺为材料的工艺参数；原数据集用于作为材料目标性能预测的有效数据；对原数据集中的所有数据进行标准化处理，形成初始数据集；标准化公式为：z＝(x-μ)/σ，其中z是标准化数据，x是原始数据，μ是原始数据中每一维变量的均值，σ是原始数据中每一维变量的标准差；

在本实施例中采用不锈钢类材料，获取不锈钢类材料中g＝102种材料的成分、工艺及其对应的硬度，即102组不锈钢的成分、工艺及其对应的硬度；

步骤1.2：根据某类材料的力学性能，在该类材料的所有物理冶金参数中选取与该类材料关联度大于S的冶金参数，所述S根据材料的类别决定，根据热动力学软件ThermoCalc或者物理模型计算原始数据集中每一种材料与关键力学性能最为关联的冶金参数，将这些冶金参数进行标准化处理后，将其各作为一维变量添加到数据集中，形成标准数据集；此时标准数据集内每组数据都包括一种材料的成分、工艺、目标性能、冶金参数；

本实施例中根据不锈钢类材料的力学性能，选择出析出相体积分数VF和驱动力DF作为冶金参数，根据热动力学软件ThermoCalc计算原始数据集中每一种不锈钢的析出相体积分数VF和驱动力DF；

本实施例中标准数据集内数据分布情况如表1所示；

表1标准数据集中数据分布情况

本实施例中F＝500；

步骤3：根据步骤2中的训练集建立基于物理冶金学指导的支持向量机模型，即SVR-PM模型；当前数据集仅包括百条数据，属于小样本问题，因而选择了擅长处理小样本的支持向量机模型(SVR)。由于在小样本问题中，模型性能对于数据集划分方法很敏感，单一数据集划分的结果并不能准确评价模型性能，采用多次留出法可以客观准确评价模型的泛化能力。并且将物理冶金参量添加数据集后，通过升维处理丰富数据集信息，充分数据内在信息，同样有利于解决小样本问题。

步骤3.1：SVR算法中包括径向基核函数(RBF)中的自由参数γ和SVR模型中的惩罚参数C，径向基核函数的表达式如下所示：

SVR模型转化为二次凸规划如下式所示：

s.t.y_μ(w·x_μ+b)≥1-ξ

其中C为惩罚函数，C值越大对误分类点的惩罚越大，反之则越小。W为法向量，ξ为松弛变量，b为截距，y_μ为测试集中x_μ的目标性能；

设定SVR算法中惩罚参数C的范围以及参数γ的范围，将范围内的参数C和γ以2^1/2为步长进行随机组合，获得U种惩罚参数C和γ的组合形式，形成参数集；所述惩罚参数C和γ的取值范围均为[2^-10,2¹⁰]；

采用多次留出法(500组随机数据集划分下平方相关系数R²均值及最大值)来评价SVR-PM模型性能。最优预测结果如图2-3所示，训练集和测试集中的绝大多数数据点都十分接近图中对角线，这充分反映了大多数预测值与实验值非常一致。说明SVR-PM模型具有较高的预测精度。

第u个SVR-PM模型的平方相关系数的计算公式如下：

其中u∈U，n代表测试集的数据组总量，x_a代表由测试集内第a组数据中成分、工艺、VF、DF组成的向量，f(x_a)为x_a的SVR-PM模型预测的目标性能值，y_a为x_a所对应的目标性能的真实值；

步骤4：步骤4：判断第i次划分下的最优SVR-PM模型的相关系数是否大于90％，若否，则删除该模型，执行步骤6；若是，则执行步骤5，将该模型作为遗传算法中的目标函数；

步骤5：在原数据集的范围内，通过结合SVR-PM模型和遗传算法，对材料的成分及工艺进行设计；采用SVR-PM模型作为遗传算法的目标函数，遗传算法(GA)被用于优化设计成分及工艺获得最佳目标性能的材料；

遗传算法优化过程的具体步骤为：

步骤5.3:根据适应度函数计算每一个染色体个体的适应度，将所有适应度按照由大到小的顺序排列；判断当前迭代次数是否为第一次迭代，若是，则保留当前染色体组中适应度高的90％的染色体个体，将其余10％的染色体个体删除，执行步骤5.4；若否，则保留当前染色体组中适应度高的90％的染色体个体，将适应度低的10％的染色体个体进行选择、交叉、变异操作,生成新的染色体,得到新的染色体组M_o,所述染色体组M_o包括染色体组M_o-1中适应度高的90％的染色体个体和新生成的染色体；

所述适应度函数FitnV为：

所述终止条件为当前染色体组内的所有染色体个体都收敛至同一结果，且连续十次迭代的结果都一致；

步骤7：利用原数据集对初始SVC分类器进行训练，采用网格搜索法对初始SVC分类器参数进行优化，得到SVC分类器，通过SVC分类器对设计结果集M中的每组数据进行评价，SVC分类器通过成分及工艺条件来共同确定设计结果的类别，将数据按照目标性能从劣到优的顺序排列，每组数据中目标性能数值位于前80％的给予标签为：-1，其中-1代表低可靠性，目标性能数值位于后20％的给予标签为：1，其中1代表高可靠性；输出所有高可靠性的设计结果数据组，形成结果集K′＝{e₁、e₂、…、e_k}，其中e_k代表第k次划分下的带有高可靠性标签的设计结果数据组，k∈F；求出结果集内成分中每一维变量的均值，选择结果集内与均值最相近的数据组作为最终的典型合金，输出其典型合金的成分、工艺、目标性能；

本实施例中使用500组不同的SVR-PM模型，在设计部分选取其中201个R2>90％的模型，将选取好的模型结合GA进行设计，其中应用ThermoCalc软件计算每一个遗传算法个体的物理冶金学参数，最终得到201个设计结果。所有设计结果中101个设计结果的硬度优于原始数据集，性能优化，为快速甄别设计结果的数据质量，采用SVC分类器对101个设计结果进行评价，将其分为“高可靠性”和“低可靠性”。SVC分类器根据成分及工艺确定设计结果的类别。在数据集中硬度小于等于49HRC赋予的标签为“-1”代表“低可靠性”，数值大于49HRC给予的标签为“1”代表“高可靠性”。利用原始数据集作为训练集对SVC分类器进行训练，采用网格搜索法对SVC分类器参数进行优化，最后成功构建SVC分类器，其分类精度达96.01％。为了验证设计结果可靠性，以101个设计结果作为测试集，采用SVC分类器将设计结果分为“高可靠性”和“低可靠性”两类。

经过分类器甄别，101个设计结果中有15个被划分为“高可靠性”，其他设计结果被确定为“低可靠性”。选择结果集内与均值最相近的数据组作为典型合金，输出其典型合金的成分、工艺、硬度，如表2所示。Alloy1与原始合金体系比较接近，具有较高的合金元素含量。而Alloy2是一个全新的设计结果。原始数据集中合金均具有较高的Ni含量，均值为4.4wt％，而当前设计的Alloy 1中Ni含量仅为1.5wt％，表明设计得到节Ni型超高强不锈钢。

表2设计合金体系，时效工艺以及Alloy 1冶炼结果

	Fe	C	Cr	Ni	Co	Mo	T<sub>Age</sub>	T<sub>Time</sub>
									Alloy 1	Balance	0.09	12	4.5	12	5	520	4.0
Actual	Balance	0.07	12.7	4.1	12.90	5.49	-	-

实验验证

将Alloy1熔炼成约5kg的锭，化学分析结果见表2。材料在1050℃下锻造成方坯，截面尺寸为20mm×20mm,然后将方坯加工成厚度为5mm的薄片进行热处理。为了与数据集中试样的硬度进行比较，时效处理前加工工艺与文献中热处理方式保持一致。

实验验证结果如表3所示，给出了硬度随时效温度和时效时间的变化情况，Alloy1在设计时效条件下硬度为53.7HRC，优于数据集中原始最大硬度(51HRC)。并且值得注意的是材料最优的时效温度和时效时间均被精准设计。结果表明该材料设计方法可以精准高效设计材料。

表3硬度随时效温度和时效时间的变化情况

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于物理指导的机器学习算法的钢铁材料设计方法，其特征在于：包括如下步骤：

步骤1：建立数据集；

SVR模型转化为二次凸规划如下式所示：

s.t.y_μ(w·x_μ+b)≥1-ξ

第u个SVR-PM模型的平方相关系数的计算公式如下：

2.根据权利要求1所述的一种基于物理指导的机器学习算法的钢铁材料设计方法，其特征在于：所述步骤1.1中的标准化公式为：z＝(x-μ)/σ，其中z是标准化数据，x是原始数据，μ是原始数据中每一维变量的均值，σ是原始数据中每一维变量的标准差。

3.根据权利要求1所述的一种基于物理指导的机器学习算法的钢铁材料设计方法，其特征在于：所述步骤3.1中惩罚参数C和自由参数γ的取值范围均为[2^-10,2¹⁰]。

4.根据权利要求1所述的一种基于物理指导的机器学习算法的钢铁材料设计方法，其特征在于：所述步骤5的具体步骤为：

所述适应度函数FitnV为：