CN110415769A

CN110415769A - 基于物理冶金学指导下机器学习的低活化钢的设计方法

Info

Publication number: CN110415769A
Application number: CN201910698854.4A
Authority: CN
Inventors: 王晨充; 崔晴; 黄健; 徐伟; 沈春光
Original assignee: Northeastern University China; Bengang Steel Plates Co Ltd
Current assignee: Northeastern University China; Bengang Steel Plates Co Ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-11-05
Anticipated expiration: 2039-07-31
Also published as: CN110415769B

Abstract

本发明提供一种基于物理冶金学指导下机器学习的低活化钢的设计方法，涉及材料计算设计技术领域。本发明首先采集数据,采用多次留出法将数据划分训练集及测试集；根据训练集建立基于物理冶金学指导的集成学习算法模型；将集成学习算法模型的相关系数大于90％的作为遗传算法中的目标函数；遗传算法被用于优化设计成分及工艺获得最佳强度的低活化钢，对低活化钢的成分及工艺进行设计；对于得到的大量设计结果采用SVC分类器进行分类筛选，输出其典型合金的成分、工艺、屈服强度。该方法使基于统计学的机器学习富有了物理冶金学含义，并且该方法可以提升模型泛化能力，使设计更为高效，设计结果更加符合物理冶金学原理。

Description

基于物理冶金学指导下机器学习的低活化钢的设计方法

技术领域

本发明涉及材料计算设计技术领域，尤其涉及一种基于物理冶金学指导下机器学习的低活化钢的设计方法。

背景技术

面对日益严峻的能源危机问题，开发清洁的聚变能源是解决能源短缺的重要途径。然而，由于需要承受长时间的中子辐照，聚变堆的结构材料问题亟待解决。由于低活化钢(RAFM)具有良好的耐高温、组织构成稳定性、抗辐照性能，因此被认为是最具工程应用前景的聚变堆的结构材料之一。根据我国核聚变工程实验堆的发展路线，计划在30年内将我们的结构材料抗辐照性能从5个dpa提升到20个dpa，这对低活化钢的强度提出了更高的要求。低活化钢的强化设计一般依托于工程实践，通过大量的实验研究，确定出优化的合金成分及热处理工艺参数。然而，这种实验为指导的材料设计方法耗时长﹑效率低﹑成本高且易受到实验设备及条件的限制，不能满足CFETR的要求。

通过新兴的机器学习，能够显著提升提高低活化钢强化设计效率。机器学习的方法在材料设计与研发领域具有重要的应用前景，其目的是以相对较低的错误率，低成本及高效率，获得先进的材料的性能。在更全面、完善的数据库，更深入的人工智能算法支撑下，机器学习方法能够为科研人员提供更准确的信息，对材料的性能进行预测及设计，加速材料的研发过程。目前，集成学习算法对于高维非线性问题具有很好的处理效果，如GBR算法，通过构建多个回归器来协同预测性能，并取得了较好的结果，并且该算法也被广泛应用到材料科学领域。然而，对于大多数的机器学习只是对数据库进行统计推断及优化计算，其结果极大依赖数据的可靠性。实际上，纯机器学习方法对材料的性能预测和设计只是一个纯数学过程，其对材料的预测和设计过程很少有物理冶金参数的参与，无法体现出物理冶金在材料设计中的独特优势。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于物理冶金学指导下机器学习的低活化钢的设计方法，使基于统计学的机器学习富有了物理冶金学含义，并且该方法可以提升模型泛化能力，使设计更为高效，设计结果更加符合物理冶金学原理。

为解决上述技术问题，本发明所采取的技术方案是：

本发明提供一种基于物理冶金学指导下机器学习的低活化钢的设计方法，包括如下步骤：

步骤1：数据采集；

步骤1.1：获取g种低活化钢的成分、工艺及其对应的屈服强度，每一种低活化钢的成分、工艺、屈服强度为一组原始数据，g组原始数据形成原数据集；所述成分为组成低活化钢的元素及含量，所述工艺为热处理温度以及时间；原数据集用于作为低活化钢强度预测的有效数据；对原数据集中的所有数据进行标准化处理，形成初始数据集；标准化公式为：z＝(x-μ)/σ，其中z是标准化数据，x是原始数据，μ是原始数据中每一维变量的均值，σ是原始数据中每一维变量的标准差；

步骤1.2：根据热动力学软件ThermoCalc计算原始数据集中每一种低活化钢的析出相体积分数VF和驱动力DF，VF和DF进行标准化处理后，将VF和DF各作为一维变量添加到数据集中，形成标准数据集；

步骤2：令划分比例为8：2，将标准数据集采用多次留出法第i次划分成训练集及测试集；其中划分次数i∈F，F为根据实验需求设置的划分总次数；

步骤3：根据步骤2中的训练集建立基于物理冶金学指导的集成学习算法模型，即GBR-PM模型；

步骤3.1：设定集成学习算法中回归器的数量H的范围以及深度D的范围，将范围内的回归器的数量和深度取正整数随机组合，获得U种回归器数量和深度的组合形式，形成参数集；所述回归器的数量根据原数据集的规模设定，所述深度根据原数据集的数据维数设定；

步骤3.2：对参数集内的每种组合形式都根据步骤2中的训练集建立GBR-PM模型；该模型为将成分、工艺、VF、DF作为GBR-PM模型的输入，屈服强度作为GBR-PM模型的输出；最终得到U个GBR-PM模型；分别求出U个模型的平方相关系数R²；

第u个GBR-PM模型的平方相关系数的计算公式如下：

其中u∈U，n代表测试集的数据组总量，x_a代表由测试集内第a组数据中成分、工艺、VF、DF组成的向量，f(x_a)为x_a的GBR-PM模型预测的屈服强度值，y_a为x_a所对应的屈服强度的实际值；

步骤3.3：对每个模型的平方相关系数R²进行比较，将平方相关系数R²最大的模型设定为第i次划分下的最优GBR-PM模型，将该模型下回归器的数量和深度的组合形式设定为最优组合参数；

步骤4：判断第i次划分下的最优GBR-PM模型的相关系数是否大于90％，若否，则删除该模型，执行步骤6；若是，则执行步骤5，将该模型作为遗传算法中的目标函数；

步骤5：在原数据集的范围内，采用GBR-PM模型作为遗传算法的目标函数，遗传算法被用于优化设计成分及工艺获得最佳强度的低活化钢，对低活化钢的成分及工艺进行设计；通过遗传算法得到合金成分、工艺及其屈服强度，并将该结果放入设计结果集M中；

步骤6：令i＝i+1，判断i是否小于等于F，若是，则将标准数据集内的数据随机打乱，执行步骤2重新划分训练集和数据集；若否，输出设计结果集M＝{e₁、e₂、…、e_m}，并则执行步骤7，其中e_m代表划分次数为第m次的设计结果数据组，该数据组包括成分、工艺、屈服强度，m∈F；

步骤7：利用原数据集对初始SVC分类器进行训练，采用网格搜索法对初始SVC分类器参数进行优化，得到SVC分类器，通过SVC分类器对设计结果集M中的每组数据进行评价，SVC分类器通过成分及工艺来共同确定设计结果的类别，将每组数据中屈服强度数值小于等于750MPa给予的标签为：-1，所述-1代表低可靠性，屈服强度数值大于750MPa给予的标签为：1，所述1代表高可靠性；输出所有高可靠性的设计结果数据组，形成结果集K＝{e₁、e₂、…、e_k}，其中e_k代表第k次划分下的带有高可靠性标签的设计结果数据组，k∈F；求出结果集内成分中每一维变量的均值，选择结果集内与均值最相近的数据组作为最终的典型合金，输出其典型合金的成分、工艺、屈服强度。

所述步骤5的具体步骤为：

步骤5.1:根据遗传算法将原数据集中的数据随机生成W个染色体,组成染色体组Q,每个染色体由成分及其工艺组成；

步骤5.2：根据每个染色体个体中的成分及其工艺通过ThermoCalc软件得到其对应的DF和VF，将每个染色体的成分、工艺及其对应的DF和VF组成第o代数据集，其中o代表当前的迭代次数；对第o代数据集内的数据进行标准化处理，将标准化后的数据作为输入参数带入最优GBR-PM模型，计算出屈服强度；

步骤5.3:根据适应度函数计算每一个染色体个体的适应度，将所有适应度按照由大到小的顺序排列；判断当前迭代次数是否为第一次迭代，若是，则保留当前染色体组中适应度高的90％的染色体个体，将其余10％的染色体个体删除，执行步骤5.4；若否，则保留当前染色体组中适应度高的90％的染色体个体，将适应度低的10％的染色体个体进行选择、交叉、变异操作,生成新的染色体,得到新的染色体组M_o,所述染色体组M_o包括染色体组M_o-1中适应度高的90％的染色体个体和新生成的染色体；

所述适应度函数FitnV为：

其中，Nind为种群中个体数量，sp为选择的压差，sp的取值范围为[1,2]；Pos为个体在排序种群中的位置；

步骤5.4：判断是否达到终止条件，若是，则输出合金成分、工艺及其屈服强度，并将该结果放入设计结果集M中；若否，则执行步骤5.2；

所述终止条件为当前染色体组内的所有染色体个体都收敛至同一结果，且连续十次迭代的结果都一致。

所述步骤5.3中从第二次迭代以后的每个染色体组内的染色体个数都是一致的。

采用上述技术方案所产生的有益效果在于：本发明提供的一种基于物理冶金学指导下机器学习的低活化钢的设计方法，该方法应用物理冶金学指导的集成学习算法(GBR-PM)建立起成分、工艺与强度之间的关系，应用遗传算法(GA)快速精准的在原有数据集范围内对强度进行优化设计。对于得到的大量设计结果创新性采用支持向量分类器(SVC)对其进行分类筛选，甄别出高可靠性的设计结果，形成了完整的先进材料理性设计平台。本发明中首次将物理冶金学融入到机器学习中，使基于统计学的机器学习富有了物理冶金学含义，并且该方法可以提升模型泛化能力，使设计更为高效，设计结果更加符合物理冶金学原理。

附图说明

图1为本发明实施例提供的方法流程图；

图2为本发明实施例提供的强度预测结果；

图3为本发明实施例提供的实验钢的实验验证结果图；其中，a代表屈服强度与时效温度之间的关系示意图，b代表屈服强度与时效时间之间的关系示意图；

图4为本发明实施例提供的TEM表征结果图；其中，a代表晶界析出形貌示意图，b代表标记处能谱结果示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本实施例的方法如下所述。

步骤1：数据采集；

步骤1.1：首先通过文献调研，在大量文献中获取g种低活化钢的成分、工艺及其对应的屈服强度，每一种低活化钢的成分、工艺、屈服强度为一组原始数据，g组原始数据形成原数据集；所述成分为组成低活化钢的元素及含量，所述工艺为热处理温度以及时间；原数据集用于作为低活化钢强度预测的有效数据；对初始数据集中的所有数据进行标准化处理，形成初始数据集；标准化公式为：z＝(x-μ)/σ，其中z是标准化数据，x是原始数据，μ是原始数据中每一维变量的均值，σ是原始数据中每一维变量的标准差；例如当x取成分中元素C时，μ则代表原数据集中所有C元素的均值，σ代表初始数据集中所有C元素的标准差；当x取热处理温度时，μ则代表初始数据集中所有热处理温度的均值，σ代表初始数据集中所有热处理温度的标准差；

步骤1.2：根据热动力学软件ThermoCalc计算原始数据集中每一种低活化钢的将析出相体积分数VF和驱动力DF，VF和DF进行标准化处理后，将VF和DF各作为一维变量添加到数据集中，形成标准数据集；热动力学软件ThermoCalc基于大量物理冶金学经典模型，通过物理冶金模型描述材料显微组织信息随成分工艺变化的演变规律，因而该软件可以计算材料在不同成分工艺下的组织信息，比如本研究中用到的VF和DF；经上述处理将物理冶金参量添加至数据集中在后续过程中参与模型构建，成功将物理冶金信息融入进机器学习模型中，使基于统计学的机器学习模型赋予物理意义；

本实施例中获取n＝61种低活化钢的成分、工艺及其对应的屈服强度；

步骤2：令划分比例为8：2，将标准数据集采用多次留出法第i次划分成训练集及测试集；其中划分次数i∈F，F为根据实验需求设置的划分总次数；由于在小样本问题中，模型性能对于数据集划分方法很敏感，单一数据集划分的结果并不能准确评价模型性能，采用多次留出法可以客观准确评价模型的泛化能力。

本实施例中F＝100；

步骤3：根据步骤2中的训练集建立基于物理冶金学指导的集成学习算法模型，即GBR-PM模型；在GBR-PM的建模过程中，通过不断尝试不同参数组合(回归器数量H和最优深度(depth)D)下模型的性能，找到使模型具有最优性能的回归器数量n和最优深度(depth)组合；最终基于回归器数量H和最优深度D构建GBR-PM模型；

步骤3.1：设定集成学习算法中回归器的数量H的范围以及深度D的范围，将范围内的回归器的数量和深度取正整数随机组合，获得U种回归器数量和深度的组合形式，形成参数集；所述回归器的数量根据原数据集的规模设定，最好不要大过于原数据集内的数据上限，所述深度根据原数据集的数据维数设定；

本实施例中回归器的数量的范围为1<H<50；深度的范围为1<D<8；

步骤3.2：对参数集内的每种组合形式都根据步骤2中的训练集建立GBR-PM模型，GBR(Gradient boosting regression)算法属于集成学习算法，其将不同的学习器结合起来，以期提高总体的预测效果。具体做法为：假定样本数为k，最开始算法会给每一训练样本赋予一个权值，而且可以在每轮提升过程结束时自动地调整权值。开始时，所有的样本都赋予相同的权值1/k，从而使得它们被选作训练的可能性都是一样的。根据训练样本的抽样分布来抽取样本，得到新的样本集。然后，由该训练集归纳一个回归器，并用它对原始数据集中的所有样本进行回归。每轮提升结束时，更新训练集样本的权值。增加被预测误差大的样本权值，减小被预测精度高的样本权值，这使得回归模型在随后的迭代中关注那些很难预测的样本，最终提高整体精度。

在材料制备过程中，成分决定组织，组织影响性能。因此物理冶金参数在材料设计中具有独特的优势。调研文献可知，析出强化对低活化钢强度具有至关重要的影响，因而本专利中将析出相体积分数VF和驱动力DF选为物理参量添加至机器学习参与模型训练，以建立活化钢的成分、工艺与屈服强度之间的关系；该模型为将成分、工艺、VF、DF作为GBR-PM模型的输入，屈服强度作为GBR-PM模型的输出；最终得到U个GBR-PM模型；分别求出U个模型的平方相关系数R²；将物理冶金学引入到机器学习模型中，不仅有利于模型泛化能力，更重要的是可以使模型富有物理冶金学含义，一定程度解决机器学习模型‘黑匣子’的问题。

第u个GBR-PM模型的平方相关系数的计算公式如下：

步骤5：在原数据集的范围内，通过结合GBR-PM模型和遗传算法(GA)，对低活化钢的成分及工艺(即热处理条件)进行设计；采用GBR-PM模型作为遗传算法(GA)的目标函数，遗传算法(GA)被用于优化设计成分及工艺获得最佳强度的低活化钢。遗传算法(GeneticAlgorithm,GA)是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型，是一种通过模拟自然进化过程搜索最优解的方法。遗传算法优化的成分工艺范围与原数据集中成分工艺范围一致，遗传算法中种群个体数设置为40，首先随机生成40个初始种群个体，这些个体由成分工艺构成。随后应用ThermoCalc软件计算每一个个体的DF和VF，并将计算结果作为新的维数加入到原数据中构建初始数据集。对初始数据集进行标准化处理，将标准化后的数据作为输入参数带入GBR-PM模型计算屈服强度。随后计算每一个数据的适应度函数，对适应度较低的数据进行选择，交叉，变异操作，形成新的种群个体。对新种群个体继续计算适应度函数，随后对低适应度数据进行选择、交叉、变异操作，反复循环直至当前染色体组内的所有染色体个体都收敛至同一结果，且连续五次迭代的结果都一致；(即染色体组内每个染色体中的同一维度的值都趋近于相同)，最终得到最佳合金成分和工艺，以获得高屈服强度，并将该结果放入设计结果集M中；

遗传算法的具体步骤为：

本实施例中随机生成40个染色体，

步骤5.2：根据每个染色体个体中的成分及其工艺通过ThermoCalc软件得到其对应的DF和VF，将每个染色体的成分、工艺及其对应的DF和VF组成第o代数据集，其中o代表当前的迭代次数，；对第o代数据集内的数据进行标准化处理，将标准化后的数据作为输入参数带入GBR-PM模型，计算出屈服强度；

步骤5.3:根据适应度函数计算每一个染色体个体的适应度，将所有适应度按照由大到小的顺序排列；判断当前迭代次数是否为第一次迭代，若是，则保留当前染色体组中适应度高的90％的染色体个体，将其余10％的染色体个体删除，执行步骤5.3；若否，则保留当前染色体组中适应度高的90％的染色体个体，将适应度低的10％的染色体个体进行选择、交叉、变异操作,生成新的染色体,得到新的染色体组M_o,所述染色体组M_o包括染色体组M_o-1中适应度高的90％的染色体个体和新生成的染色体，染色体组M_o内的染色体个数w＝W*90％，从第二次迭代以后的每个染色体组内的染色体个数都是一致的；

所述适应度函数FitnV为：

本实施例中第一次迭代为输出36个适应度高的染色体，删除4个适应度低的染色体，以后的每一次迭代的染色体组内的的染色体个数都为36个；

步骤5.4：重复步骤5.2-步骤5.3，直至达到终止条件后循环结束，输出合金成分、工艺及其屈服强度，并将该结果放入设计结果集M中；

所述终止条件为当前染色体组内的所有染色体个体都收敛至同一结果，且连续五次迭代的结果都一致；即染色体组内每个染色体中的同一维度的值都趋近于相同；

步骤6：令i＝i+1，判断i是否小于等于F，若是，则将标准数据集内的数据随机打乱，执行步骤2重新划分训练集和数据集；若否，则执行步骤7，并输出设计结果集M＝{e₁、e₂、…、e_m}，其中e_m代表划分次数为第m次的设计结果数据组，该数据组包括成分、工艺、屈服强度，m∈F；

在本实施例中对上述得到的F种最优GBR-PM模型进行强度预测；

根据训练好的模型对训练集和测试集中的数据进行预测，输入成分、工艺、VF和DF，模型预测出相应的屈服强度，如步骤2中所示，本研究中采用多次留出法(F次)划分训练集和测试集，在每种划分情况下均训练相应的GBR-PM模型，最终获得F个模型。为了客观评价模型的性能，采用F组模型的平方相关系数R²的均值及最大值评价GBR-PM模型，平方相关系数计算公式如下式所示，该公式用来表征两个变量之间的线性相关系数，以此反应变量之间的密切程度，广泛被应用于回归模型性能的评价中；

最优模型的预测结果如图2所示，当数据点都位于或者趋于图中对角线时则表明预测值与实际值更为接近。根据图中结果可以看出该模型具有较高的预测精度。同时在整个强度范围内，并没有出现偏差很大的数据点则说明该模型适用于整个数据集；

这充分反映了大多数预测值与数据集中的实验值较吻合。说明GBR-PM模型具有良好的泛化的能力和较高的预测精度。我们就可以通过GBR-PM模型可以进一步设计低活化钢。平均值和最大值的实验强度和预测的强度之间偏差较小，说明GBR-PM模型适用于整个数据集。且应用集成学习算法建立成分/工艺-强度之间的可靠关系，将该模型作为遗传算法中目标函数在原始成分工艺范围内进行优化设计，最终应用分类器(SVC)对大量设计结果进行快速甄别，挑选出高可靠性的设计结果进行实验验证，形成了GBR耦合GA，SVC的多算法设计。

步骤7：利用原数据集对初始SVC分类器进行训练，采用网格搜索法对初始SVC分类器参数进行优化，得到SVC分类器，训练得到的SVC模型的分类精度达94％。通过SVC分类器对设计结果集M中的每组数据进行评价，SVC分类器通过成分及工艺(即时效条件)来共同确定设计结果的类别，将每组数据分为“高可靠性”和“低可靠性”，将每组数据中屈服强度数值小于750MPa给予的标签为“-1”代表“低可靠性”，屈服强度数值大于750MPa给予的标签为“1”代表“高可靠性”；输出所有高可靠性的设计结果数据组，形成结果集K＝{e₁、e₂、…、e_k}，其中e_k代表第k次划分下的带有高可靠性标签的设计结果数据组，k∈F；求出结果集内成分中每一维变量的均值，选择结果集内与均值最相近的数据组作为最终的典型合金，输出其典型合金的成分、工艺、屈服强度；

本实施例中低活化钢在设计的成分工艺下屈服强度为750-760MPa；表1给出了该合金的成分，与传统的低活化钢EUROFER97相比，其C含量降低、Ta含量增高，易粗化相M₂₃C₆体积分数降低，MX体积分数增加，且晶界处有VC析出钉扎晶界以细化晶粒，得到高强度的低活化钢。

表1设计合金1成分、时效条件和实际合金1

	Fe	C	N	Cr	Mn	V	W	Ta	Si	T<sub>Temp</sub>	T<sub>Time</sub>
												Alloy1	Bal	0.06	0.04	9.00	0.5	0.20	2	0.25	0.12	750	30
Actual	Bal	0.07	0.05	9.20	0.5	0.22	1.97	0.24	0.12	750	30

本实施例的实验验证；

将合金1熔炼成约75kg的锭，化学分析结果见表1。合金在1050℃下锻造成一个正方形钢坯断面尺寸的200毫米×200毫米,然后将方坯加工成厚度为15mm的钢板，切割成适当的尺寸进行热处理。为了与数据集中试样的强度进行比较，回火处理前及过程都要和文献中处理方式一致。

首先分别在710、730、750、770、790℃进行30min回火处理，发现750℃时合金1的强度最高，然后在750℃分别时效20、30、40、50、60min，确定最佳回火时间，发现回火处理条件为750℃30min时，合金1具有最高的强度值。1合金的设计时效温度和时效时间与实验结果得到的最佳时效温度和时效时间有很大的一致性，最高强度为758PMa，实验结果如图3所示。以上设计结果表明，GBR-PM&GA模型具有较强的精度和效率。

本实施例中除了对实验钢的强度进行验证，还在透射电镜下观察到合金1中标记方框处的晶界处有VC析出钉扎晶界以细化晶粒，得到高强度的低活化钢，达到预先的设计目的，表征结果如图4所示。基于该设计方法成功设计出高屈服强度低活化钢对于得到的大量设计结果创新性采用支持向量分类器(SVC)对其进行分类筛选，甄别出高可靠性的设计结果，形成了完整的先进材料理性设计平台。基于此平台成功设计出具有低C高Ta含量以MX相为强化相的新型高强度低活化钢，同时时效温度和时效时间也被精准设计，经实验验证材料强度得到提升，优于原始数据集。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于物理冶金学指导下机器学习的低活化钢的设计方法，其特征在于：包括如下步骤：

步骤1：数据采集；

第u个GBR-PM模型的平方相关系数的计算公式如下：

2.根据权利要求1所述的一种基于物理冶金学指导下机器学习的低活化钢的设计方法，其特征在于：所述步骤5的具体步骤为：

所述适应度函数FitnV为：

3.根据权利要求2所述的一种基于物理冶金学指导下机器学习的低活化钢的设计方法，其特征在于：所述步骤5.3中从第二次迭代以后的每个染色体组内的染色体个数都是一致的。