CN114596924A

CN114596924A - 一种生物医用β钛合金的杨氏模量的机器学习预测方法

Info

Publication number: CN114596924A
Application number: CN202210242347.1A
Authority: CN
Inventors: 刘兴军; 彭清华; 王翠萍; 于金鑫; 韩佳甲; 张锦彬; 黄艺雄; 郭毅慧; 杨水源; 卢勇
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-06-07

Abstract

本发明公开了一种生物医用β钛合金的杨氏模量的机器学习预测方法，构建了三层结构，第一层机器学习模型用于预测生物医用钛合金的微观组织相组成，筛选β钛合金数据作为下一层模型的输入；第二层机器学习模型包括多个不同的基模型，输出β钛合金杨氏模量的初步预测结果；第三层机器学习模型以第二层机器学习模型的结果作为输入，得到β钛合金杨氏模量的最终预测结果。本发明提出的多层机器学习模型结构，快速、准确预测了生物医用β钛合金的杨氏模量，可代替大量的重复试验，降低了时间成本和研发成本。

Description

一种生物医用β钛合金的杨氏模量的机器学习预测方法

技术领域

本发明涉及材料性能预测技术领域，特别是指一种多层机器学习模型的生物医用β钛合金的杨氏模量的机器学习预测方法。

背景技术

目前临床中应用的生物医用材料主要包括纯金属钛、钽、铌、锆、生物医用不锈钢、钴基及钛基合金等，主要用于各种人工关节、颅骨缺损修补面以及冠脉搭桥支架等(何宝明，王玉林，戴正宏.生物医用钛及其合金材料的开发应用进展，市场状况及问题分析[J].钛工业进展,2003(5):82-87)。钛及钛合金在生物医学领域获得了广泛的应用，这主要是因其密度低，在大气和腐蚀液体环境中具有良好的耐腐蚀性。由于钛合金的无磁性，在核磁共振成像中较不锈钢和钴铬基合金具有良好的成像能力。钛及钛合金具有良好的力学性能、耐腐蚀性能以及生物相容性，成为植入人体的首选材料。

杨氏模量是生物医用材料的一项重要的性能指标，植入人体的金属虽需要一定的结构强度。如果植入材料的杨氏模量远高于人体骨骼模量，即会产生应力屏蔽效应(即两个弹性模量不同的材料一起受力的时候，杨氏模量大的会承受较多的应力，杨氏模量低的骨骼几乎不承受应力)，导致术后骨骼不能得到锻炼而渐渐萎缩。

钛合金按室温下的组织形态，主要分为α、α+β和β型钛合金。最早用于生物医用的钛合金主要以纯钛(α型)和Ti-6Al-4V(α+β型)合金为代表。但纯钛和Ti-6Al-4V合金的模量(≈110GPa)远高于人体骨骼(<35GPa)，植入人体后会产生应力屏蔽效应，使得植入物附近骨骼异常退化。相较于α和α+β钛合金，β型钛合金能具有出优异的生物相容性、高强度以及低模量等特性，生物医用方面存在巨大潜力。在设计新型低模量钛合金的过程中，人们普遍认为在简单的合金体系中很难实现保证低模量以及高β稳定性。并且，合金元素对杨氏模量的影响，必须通过机械测试来确定，仍然很复杂，基本上没有确定。因此，人们渴望开发出无毒以及与天然骨骼模量相匹配的钛基材料作为人体植入物。近年来，添加钽、铌、锆、和钼等无毒、β稳定合金元素设计低模量钛合金引起了研究人员的极大关注。

新型研制的生物体用β型钛合金的杨氏模量值普遍较低,包括美国开发的Ti-13Nb-13Zr、Ti-35Nb-7Zr-5Ta、Ti-12Mo-6Zr-2Fe、Ti-15Nb、Ti-35.3Nb-5.1Ta-7.1Zr合金，日本开发的Ti-29Nb-13Ta-4.6Zr合金，以及中科院金属所研制的Ti-24Nb-4Zr-7.5Sn合金等等。这些合金的杨氏模量在55-85GPa之间。

杨氏模量往往需要通过力学性能试验来测得。在设计新型β钛合金材料时，合金成分以及热处理工艺的变化都导致杨氏模量变化。然而，基于这些经验计算以及理论指导的实验性试错方法很难有效得到合金元素成分与杨氏模量之间的关系。通过传统的实验方法需要花费巨大的科研成本，且耗费时间长，急需提供一种新的材料预测方法，快速、准确预测其杨氏模量。

机器学习(Machine Learning)方法已逐步应用于材料建模来更准确地预测材料特性，其关键是针对一类问题找到一个将输入空间投影到输出空间的映射模型。通过使用机器学习模型，可以加速实现材料的研发。在机器学习领域，常用的机器学习方法模型有随机森林(Random Forest)、支持向量机(Support Vector Machine)等模型，这些方法为材料的成分优化、热处理工艺研究以及性能研究等提供了先进有效手段。

在材料科学领域，能够收集到的实验数据往往较少，通过某一种机器学习建模方法并不能取得好的预测结果。在实际的材料预测过程中，单一的机器学习方法在建模过程中存在过拟合、泛化能力差等问题。

文献1(Yuan et al.Accelerated Search for BaTi-OB3ased Ceramics withLarge E nergy Storage at Low Fields Using Machine Learning and ExperimentalDesign[J].Advanced Science,2019,6(21).)提出一种以数据驱动，通过集成的机器学习模型预测的不确定性迭代来探索高性能材料。

文献2(Wen et al.Accelerated Search for BaTi-OB3ased Ceramics withLarge Energy Storage at Low Fields Using Machine Learning and ExperimentalDesign[J].Advanced Science,2019,6(21).)提出了一种结合机器学习、实验设计和实验反馈的数据驱动方法，以加速寻找具有目标特性的多组分合金。该机器学习方法通过自助采样的方法生成500个模型，通过实验进行主动学习反馈循环，成功预测的合金比原始训练的合金的性能高出10％。

上述集成学习框架的特点是，不同机器学习模型对同一数据集做出预测时，有着不同的预测偏向性。对于钛合金的杨氏模量的预测，具有组织形态多样、特征复杂、数据集维度较大等特点，难以保证预测结果的准确性和稳健性。

发明内容

本发明要解决的技术问题是提供一种生物医用β钛合金的杨氏模量的机器学习预测方法，通过多层模型的架构，提高了模型的预测的准确性和稳健性，使得预测结果更加准确。

为了实现以上目的，本发明的技术方案为：

一种生物医用β钛合金的杨氏模量的机器学习预测方法，包括：

步骤A：收集钛合金的相组成相关的第一原始数据集和杨氏模量相关的第二原始数据集，分别将第一原始数据集和第二原始数据集中的数据一部分作为训练集，另一部分作为测试集；

步骤B：分别对第一原始数据集和第二原始数据集生成皮尔逊相关性热力图查看特征之间的关联程度；

步骤C：分别对第一原始数据集和第二原始数据集进行归一化处理得到第一数据集和第二数据集；

步骤D：利用特征选择方法，剔除不相关或冗余的特征；

步骤E：生成第一层机器学习模型用来预测钛合金的微观组织相组成，采用第一数据集进行模型训练；

步骤F：使用第一层机器学习模型预测第二数据集中的钛合金的微观组织是否为β相，筛选后的第二数据集将作为第二层机器学习模型的输入；

步骤G：生成第二层机器学习模型用来初步预测β钛合金的杨氏模量，该第二层包括N个不同的基模型；第二层交叉验证的折数为K₂，初始化k₂＝1，n＝1；

步骤H：对第n个模型进行第k₂折交叉验证训练；

步骤I：判断k₂是否小于等于K₂，如果是，执行步骤J；否则，执行步骤K；

步骤J：k₂＝k₂+1，回到步骤H；

步骤K：判断n是否小于等于N，如果是，继续执行步骤L；如果否，执行步骤M：

步骤L：n＝n+1，回到步骤H；

步骤M：生成第三层机器学习模型用来预测β钛合金的杨氏模量，将第二层机器学习模型的输出结果作为第三层机器学习模型的输入数据；

步骤N：输出第三层机器学习模型的预测结果；至此，模型训练完成。

进一步改进，所述步骤C采用下式的归一化处理：

其中，X代表特征列中样本点的原始初值，X_min代表样本点所在特征列中的最小值，X_max代表样本点所在特征列中的最大值，X′代表原始数据集经过归一化处理后的数据集。

进一步改进，所述步骤D中的特征选择方法包括递归消除法和顺序选择向前法。

进一步改进，步骤E中，所述训练过程为：

步骤E₁、第一层机器学习模型交叉验证的折数为K₁，初始化k₁＝1；

步骤E₂：进行第k₁折交叉验证训练；

步骤E₃：判断k₁是否小于等于K₁，如果是，执行步骤E₄；否则，执行步骤F；

步骤E₄：k₁＝k₁+1，回到步骤E₂。

进一步改进，所述步骤E中的第一层机器学习模型为随机森林(Random Forest)。

进一步改进，K₁＝5～10。

进一步改进，K₂＝5～10，N＝5。

进一步改进，所述步骤G中第二层的基模型分别为随机森林(Random Forest)、极限随机树(Extra Tree)、支持向量机(SVM)、梯度提升(Gradient Boost)和岭回归(Ridge)。进一步改进，所述步骤M中第三层机器学习模型为LightGBM。

本发明的有益效果为：

1.本发明预测方法为三层机器学习模型结构，通过第一层机器学习模型过滤掉非β钛合金，第二层机器学习模型的预测结果由多个不同机器学习模型的预测产生，第三层机器学习模型将第二层模型的预测结果进行拟合回归，提高了预测准确度以及泛化性，与实验测得的结果更加吻合；

2.本发明构建了多层集成学习模型，使用集成的机器学习算法预测合金杨氏模量，代替了大量的重复试验，降低了时间成本和研发成本；

3.本发明提出的机器学习方法，得到了杨氏模量与合金成分、热处理工艺温度等影响因素之间的函数关系，加速了新型生物医用β钛合金的研发。

附图说明

图1为本发明实施例的生物医用β钛合金的杨氏模量的机器学习预测方法流程图；

图2为本发明实施例中钛合金微观组织相组成数据集特征值之间的皮尔逊相关热图；

图3为本发明实施例中钛合金杨氏模量数据集特征值之间的皮尔逊相关热图；

图4为本发明实施例中第一层机器学习模型在测试集上的预测结果；

图5为本发明实施例中第三层机器学习模型在测试集上的预测结果。

具体实施方式

以下结合附图和具体实施例对本发明做进一步解释。

本发明针对现有生物医用β钛合金领域，合金成分以及热处理工艺的变化都导致杨氏模量变化。通过传统的实验方法设计低杨氏模量钛合金需要花费巨大的科研成本，且耗费时间长，急需提供一种新的材料预测方法，快速、准确预测其杨氏模量。

参考图1，实施例的生物医用β钛合金的杨氏模量的机器学习预测方法，包括：

步骤A：收集钛合金的相组成相关的第一原始数据集和杨氏模量相关的第二原始数据集，分别将第一原始数据集和第二原始数据集中的数据一部分作为训练集，另一部分作为测试集。第一原始数据集包括特征和微观组织相组成，第二原始数据集包括特征和杨氏模量值。特征包括合金的化学成分、热处理工艺以及合金的物理化学性质，总共有34个。第一原始数据集总共350条，第二原始数据集总共242条，按7：3的比例划分训练集和测试集。

步骤B：分别对第一原始数据集和第二原始数据集生成皮尔逊相关性热力图查看特征之间的关联程度。

图2和图3分别为本发明的第一原始数据集和第二原始数据集的特征值之间的皮尔逊相关热图。颜色的深浅代表着两个特征值之间的相关性大小，颜色越深，特征值之间的正相关性越大；颜色越浅，特征值之间的负相关性越大。如图2和图3所示，特征之间的相关性明显，存在冗余的特征，会导致模型预测误差偏大，有必要剔除这些特征。

步骤C：分别对第一原始数据集和第二原始数据集进行归一化处理得到第一数据集和第二数据集。

本步骤中，可以采用各种归一化处理方式，例如，原始数据集的每列数据的每个样本点分别进行下式的归一化处理：

步骤D：利用特征选择方法，剔除不相关或冗余的特征；

特征选择方法包括递归消除法和顺序选择向前法。由于所述的特征选择方法为本领域公知常识，故此处不再赘述。使用特征选择方法后，第一数据集和第二数据集的特征个数分别为12和9。

步骤E：生成第一层机器学习模型，采用第一数据集建立模型。该第一层机器学习器模型为随机森林模型，用来预测钛合金的微观组织相组成。模型训练步骤包括：

步骤E₁、第一层机器学习模型交叉验证的折数为K₁＝10，初始化k₁＝1；

步骤E₂：进行第k₁折交叉验证训练；

步骤E₄：k₁＝k₁+1，执行步骤E₂。

步骤F：使用第一层机器学习模型预测杨氏模量数据集中的钛合金微观组织是否为β相，若为β相则通过筛选。经过筛选后的杨氏模量数据集将作为第二层机器学习模型的输入。第一层机器学习模型为随机森林(Random Forest)。

步骤G：生成第二层机器学习模型。该第二层包括5个不同的基模型，分别为随机森林(Random Forest)、极限随机树(Extra Tree)、支持向量机(SVM)、梯度提升(GradientBoost)和岭回归(Ridge)；第二层交叉验证的折数为K₂＝10，初始化k₂＝1，n＝1；

步骤H：对第n个模型进行第k₂折交叉验证训练；

步骤L：判断k是否小于等于K₂，如果是，执行步骤M；否则，执行步骤N；

步骤M：k＝k+1，回到步骤H；

步骤N：判断n是否小于等于N，如果是，继续执行步骤O；如果否，执行步P：

步骤O：n＝n+1，回到步骤H；

步骤P：生成第三层机器学习模型用来预测β钛合金的杨氏模量，将第二层机器学习模型的输出结果作为第三层机器学习模型的输入数据。第三层机器学习模型为LightGBM；

步骤Q：输出第三层机器学习模型的预测结果；至此，模型训练完成。

步骤R：模型训练后，对测试集进行预测；至此，模型的测试完成。

图4为本发明中第一层模型在测试集上得到的ROC曲线。ROC曲线用来评估机器学习模型的泛化性能。通过计算ROC曲线与坐标轴围成的面积值AUC具体量化模型的分辨能力好坏。如图4所示，模型在测试集上预测的准确度AUC为0.96(AUC的取值范围为0～1，越接近1，预测越准确)，在测试集上的预测准确度较高。

图5为本发明中第三层机器学习模型测试集上的预测值与实际值对比图。模型的预测精度采用确定系数R²、均方根误差RMSE来衡量(确定系数R²越接近1，模型预测越准确；均方根误差RMSE越小，模型预测越准确)。如图5所示，在测试集上的R²和RMSE分别为4.79GPa和0.92。可以得出，模型在测试集上的误差较低，预测效果很好。

上述实施例仅用来进一步说明本发明的一种生物医用β钛合金的杨氏模量的机器学习预测方法，但本发明并不局限于实施例，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均落入本发明技术方案的保护范围内。

Claims

1.一种生物医用β钛合金的杨氏模量的机器学习预测方法，其特征在于，包括：

步骤D：利用特征选择方法，剔除不相关或冗余的特征；

步骤H：对第n个模型进行第k₂折交叉验证训练；

步骤J：k₂＝k₂+1，回到步骤H；

步骤L：n＝n+1，回到步骤H；

2.根据权利要求1所述的生物医用β钛合金的杨氏模量的机器学习预测方法，其特征在于，所述步骤C采用下式的归一化处理：

3.根据权利要求1所述的生物医用β钛合金的杨氏模量的机器学习预测方法，其特征在于，所述步骤D中的特征选择方法包括递归消除法和顺序选择向前法。

4.根据权利要求1所述的生物医用β钛合金的杨氏模量的机器学习预测方法，其特征在于，步骤E中，所述训练过程为：

步骤E₂：进行第k₁折交叉验证训练；

步骤E₄：k₁＝k₁+1，回到步骤E₂。

5.根据权利要求1所述的生物医用β钛合金的杨氏模量的机器学习预测方法，其特征在于，所述步骤E中的第一层机器学习模型为随机森林(Random Forest)。

6.根据权利要求4所述的生物医用β钛合金的杨氏模量的机器学习预测方法，其特征在于，K₁＝5～10。

7.根据权利要求1所述的生物医用β钛合金的杨氏模量的机器学习预测方法，其特征在于，K₂＝5～10，N＝5。

8.根据权利要求7所述的生物医用β钛合金的杨氏模量的机器学习预测方法，其特征在于，所述步骤G中第二层的基模型分别为随机森林(Random Forest)、极限随机树(ExtraTree)、支持向量机(SVM)、梯度提升(Gradient Boost)和岭回归(Ridge)。

9.根据权利要求1所述的生物医用β钛合金的杨氏模量的机器学习预测方法，其特征在于，所述步骤M中第三层机器学习模型为LightGBM。