CN113537597A

CN113537597A - 一种基于隐私保护的材料性能预测方法及系统

Info

Publication number: CN113537597A
Application number: CN202110807209.9A
Authority: CN
Inventors: 钱权; 方昊堃; 张瑞; 韩越兴
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-10-22

Abstract

本发明公开了一种基于隐私保护的材料性能预测方法及系统。本发明首先利用学习端内部的数据完成各自子模型的训练，然后利用各个子模型的输出结果完成集成模型的训练，本发明既实现了各个学习端的数据的应用，又避免了数据及子模型在不同学习端之间的传输，实现了在数据不出域的情况下完成学习过程，避免数据泄露与模型泄露。

Description

一种基于隐私保护的材料性能预测方法及系统

技术领域

本发明涉及材料性能研究技术领域，特别涉及一种基于隐私保护的材料性能预测方法及系统。

背景技术

目前的数据驱动材料研究一直受限于数据量不足的问题，由于数据样本较少导致很难训练出泛化能力出众的模型，无法运用于实际生产。目前解决该问题的主要手段是通过数据增强的方法扩充数据集，在样本充足的情况下往往能够使模型获得更好的效果。然而材料数据常常是花费大量人力和物力通过制备和表征得到的真实数据，扩充出的数据集准确性无法得到保证。例如在材料领域，实验得出的数据一般较为可靠，通过数据增强方式扩充得到的数据往往与实验得到的数据相差较大。在极高的时间与费用成本下，实验数据通常数据量不大且都具有较高的隐私性。这种情况下，一家单位希望与其他单位合作，利用各自手中少量的实验数据共同学习就成了一种可行的方式。因此，参与者们希望在保证各方数据的隐私不被侵犯下高效训练出共享模型，并运用于实际生产。

正是由于材料数据的高价值和隐私性，在各参与方通信的情况下，数据的交换往往涉及版权问题。所以合作学习的前提是保护数据拥有者拥有的数据隐私。

由于合作学习的最终目的是结合多方数据在不泄露数据本身的情况下，将数据训练出的结果反映在模型上。因此除了数据的安全需要被关注，模型本身的安全也需要被关注。在多方共同机器学习的过程中，为了不让参与方获取数据，因此本发明设计了一个集成服务节点负责对各方训练的子模型结果进行集成，这种方式能够在数据不出域的情况下完成学习过程，并避免数据泄露与模型泄露的问题。

发明内容

本发明的目的是提供一种基于隐私保护的材料性能预测方法及系统，以实现在数据不出域的情况下完成学习过程，避免数据泄露与模型泄露。

为实现上述目的，本发明提供了如下方案：

一种基于隐私保护的材料性能预测方法，所述材料性能预测方法基于材料性能预测平台，所述材料性能预测平台包括：多个学习端和集成服务器，不同学习端分别与不同参与者连接，用于从不同参与者获取材料的不同工序的工艺参数，不同参与者分别研究材料生产过程中的不同工序，每个所述学习端分别与所述集成服务器连接；所述材料性能预测方法包括如下步骤：

每个学习端分别利用每个学习端所获取的工艺参数训练每个学习端的子模型，获得每个学习端的训练后的子模型；

将每个学习端的训练后的子模型的输出作为所述集成服务器中的集成模型的输入，对集成服务器中的集成模型进行训练，获得集成服务器中的训练后的集成模型；

每个学习端分别获取每个参与者对待生产材料设计的工艺参数作为每个学习端的待测工艺参数；

分别将每个学习端的待测工艺参数输入每个学习端的训练后的子模型的输入，将每个学习端的训练后的子模型的输出作为集成服务器中的训练后的集成模型的输入，并获取集成服务器中的训练后的集成模型的输出，作为预测得到的待生成材料的性能。

可选的，所述每个学习端分别利用每个学习端所获取的工艺参数训练每个学习端的子模型，获得每个学习端的训练后的子模型，之前还包括：

每个学习端分别从每个参与者获取已知性能的材料的每个工序的工艺参数，构建每个学习端的样本子集；

每个学习端分别对每个学习端的样本子集进行数据清理，获得每个学习端的清理后的样本子集；

每个学习端采用多渠道沟通的方式对每个学习端的清理后的样本子集进行数据对齐，使同一材料的不同工序的工艺参数在不同样本子集中具有相同的索引且位于不同样本子集中的相同位置，获得每个学习端的对齐后的样本子集。

可选的，所述每个学习端分别利用每个学习端所获取的工艺参数训练每个学习端的子模型，获得每个学习端的训练后的子模型，具体包括：

第i个学习端利用第i个学习端的对齐后的样本子集，对子模型候选集中的每个候选子模型进行预训练，获得预训练后的候选子模型；i＝1,2,...,n，n表示学习端的数量；

第i个学习端计算每个预训练后的候选子模型的模型衡量指标，所述模型衡量指标为准确率和/或召回率；

第i个学习端选取模型衡量指标最优的预训练后的候选子模型作为第i个学习端的待训练的子模型；

第i个学习端利用第i个学习端的对齐后的样本子集，采用反复交叉验证的方式，对第i个学习端的待训练的子模型中的超参数进行调参，获得第i个学习端的训练后的子模型。

可选的，将每个学习端的训练后的子模型的输出作为所述集成服务器中的集成模型的输入，对集成服务器中的集成模型进行训练，获得集成服务器中的训练后的集成模型，之后还包括：

将每个学习端的训练后的子模型采用二进制文件的形式固化到每个所述学习端；

将集成服务器中的训练后的集成模型采用二进制文件的形式固化到所述集成服务器中。

一种基于隐私保护的材料性能预测系统，所述材料性能预测系统基于材料性能预测平台，所述材料性能预测平台包括：多个学习端和集成服务器，不同学习端分别与不同参与者连接，用于从不同参与者获取材料的不同工序的工艺参数，不同参与者分别研究材料生产过程中的不同工序，每个所述学习端分别与所述集成服务器连接；所述材料性能预测系统包括：

子模型训练模块，用于通过每个学习端分别利用每个学习端所获取的工艺参数训练每个学习端的子模型，获得每个学习端的训练后的子模型；

集成模型训练模块，用于将每个学习端的训练后的子模型的输出作为所述集成服务器中的集成模型的输入，对集成服务器中的集成模型进行训练，获得集成服务器中的训练后的集成模型；

待测工艺参数获取模块，用于通过每个学习端分别获取每个参与者对待生产材料设计的工艺参数作为每个学习端的待测工艺参数；

材料性能预测模块，用于分别将每个学习端的待测工艺参数输入每个学习端的训练后的子模型的输入，将每个学习端的训练后的子模型的输出作为集成服务器中的训练后的集成模型的输入，并获取集成服务器中的训练后的集成模型的输出，作为预测得到的待生成材料的性能。

可选的，所述材料性能预测系统还包括：

样本子集构建模块，用于通过每个学习端分别从每个参与者获取已知性能的材料的每个工序的工艺参数，构建每个学习端的样本子集；

数据清理模块，用于通过每个学习端分别对每个学习端的样本子集进行数据清理，获得每个学习端的清理后的样本子集；

数据对齐模块，用于通过每个学习端采用多渠道沟通的方式对每个学习端的清理后的样本子集进行数据对齐，使同一材料的不同工序的工艺参数在不同样本子集中具有相同的索引且位于不同样本子集中的相同位置，获得每个学习端的对齐后的样本子集。

可选的，所述子模型训练模块，具体包括：

预训练子模块，用于通过第i个学习端利用第i个学习端的对齐后的样本子集，对子模型候选集中的每个候选子模型进行预训练，获得预训练后的候选子模型；i＝1,2,...,n，n表示学习端的数量；

模型衡量指标计算子模块，用于通过第i个学习端计算每个预训练后的候选子模型的模型衡量指标，所述模型衡量指标为准确率和/或召回率；

子模型选取子模块，用于通过第i个学习端选取模型衡量指标最优的预训练后的候选子模型作为第i个学习端的待训练的子模型；

子模型训练子模块，用于通过第i个学习端利用第i个学习端的对齐后的样本子集，采用反复交叉验证的方式，对第i个学习端的待训练的子模型中的超参数进行调参，获得第i个学习端的训练后的子模型。

可选的，所述材料性能预测系统还包括：

第一模型固化模块，用于将每个学习端的训练后的子模型采用二进制文件的形式固化到每个所述学习端；

第二模型固化模块，用于将集成服务器中的训练后的集成模型采用二进制文件的形式固化到所述集成服务器中。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种基于隐私保护的材料性能预测方法，所述材料性能预测方法包括如下步骤：每个学习端分别利用每个学习端所获取的工艺参数训练每个学习端的子模型，获得每个学习端的训练后的子模型；将每个学习端的训练后的子模型的输出作为所述集成服务器中的集成模型的输入，对集成服务器中的集成模型进行训练，获得集成服务器中的训练后的集成模型；每个学习端分别获取每个参与者对待生产材料设计的工艺参数作为每个学习端的待测工艺参数；分别将每个学习端的待测工艺参数输入每个学习端的训练后的子模型的输入，并获取集成服务器中的训练后的集成模型的输出，作为预测得到的待生成材料的性能。本发明首先利用学习端内部的数据完成各自子模型的训练，然后利用各个子模型的输出结果完成集成模型的训练，本发明既实现了各个学习端的数据的应用，又避免了数据及子模型在不同学习端之间的传输，实现了在数据不出域的情况下完成学习过程，避免数据泄露与模型泄露。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于隐私保护的材料性能预测方法的流程图；

图2为本发明提供的一种基于隐私保护的材料性能预测方法的原理图；

图3为本发明提供的材料性能预测平台的结构图；

图4为本发明提供的样本数据处理的原理图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对发明作进一步详细的说明。

本发明的目的是为了解决在材料领域如何多方合作学习的问题，以及当数据隐私存在泄露隐患的情况下如何保证学习过程中数据的安全，提供了一种基于隐私保护的材料隐私数据多方合作学习的方法。该方法是一种基于模型融合的材料领域隐私数据合作学习方法，它能够保证参与者的数据不被泄露给其他合作参与者，并利用模型与模型间的关系完成机器学习。由于每个参与者的数据仅在本地训练，不会泄露给其他参与者。并且由于该方法基于模型融合，在各参与者之间只需要传递模型间的关系就可以完成训练，不需要将模型的具体参数传递给其他参与者或节点，因此模型的安全可以得到保证。

具体的，如图1-3所示，本发明提供了一种基于隐私保护的材料性能预测方法，所述材料性能预测方法基于材料性能预测平台，如图3所示，所述材料性能预测平台包括：多个学习端和集成服务器，不同学习端分别与不同参与者(图3中的参与者A、参与者B和参与者C)连接，用于从不同参与者获取材料的不同工序的工艺参数，不同参与者分别研究材料生产过程中的不同工序，每个所述学习端分别与所述集成服务器连接；所述材料性能预测方法包括如下步骤：

步骤101，每个学习端分别利用每个学习端所获取的工艺参数训练每个学习端的子模型，获得每个学习端的训练后的子模型。

如图4所示，步骤101所述每个学习端分别利用每个学习端所获取的工艺参数训练每个学习端的子模型，获得每个学习端的训练后的子模型，之前还包括：

每个学习端分别从每个参与者获取已知性能的材料的每个工序的工艺参数，构建每个学习端的样本子集。

每个学习端分别对每个学习端的样本子集进行数据清理，获得每个学习端的清理后的样本子集。即，数据清理的作用是清除疑似错误或异常的数据样本，清除偏离样本整体分布的离群样本。

每个学习端采用多渠道沟通的方式对每个学习端的清理后的样本子集进行数据对齐，使同一材料的不同工序的工艺参数在不同样本子集中具有相同的索引且位于不同样本子集中的相同位置，获得每个学习端的对齐后的样本子集。即，数据对齐的作用是各机器学习的参与者(学习端)通过多渠道沟通的方式，商定学习中需要用到的样本集，其中包括样本的唯一索引及其对应位置。

对于每一个参与者(学习端)，用准确率、召回率等指标衡量模型效果，根据数据的特征或经验选择一种效果较好的模型作为本地子模型，并对自己拥有的材料数据进行本地子模型训练。每一位参与者选取本地子模型后，进行反复交叉验证，对子模型中的超参数进行调参，选出相对满意的超参数。

假设共有N个学习端，每个学习参与者根据自己的数据Data_i(i∈[1,N])选用恰当的模型并在本地完成子模型φ_i(i∈[1,N])的初始化，并将自己的子模型输出发送给集成服务器。集成服务端根据各学习参与者反馈的模型输出Output_i(i∈[1,N])作为集成模型的输入，并依此选择合适的模型φ_integration在本地进行初始化。

其中，模型φ的超参数选择，用于构建共同学习的初始化模型。

由于子模型已经在之前一步中被学习端选择并初始化，所以各学习端需要在本地进行第一轮子模型训练。每个学习参与者根据自己拥有的隐私数据，对初始化的模型进行多轮迭代，直至模型的损失低于ε。此时可以认为这个学习端的子模型已收敛，并具有较优的效果。

步骤101所述每个学习端分别利用每个学习端所获取的工艺参数训练每个学习端的子模型，获得每个学习端的训练后的子模型，具体包括：

步骤102，将每个学习端的训练后的子模型的输出作为所述集成服务器中的集成模型的输入，对集成服务器中的集成模型进行训练，获得集成服务器中的训练后的集成模型。

各学习端完成本地子模型φ_i(i∈[1,N])训练后，需要将多个子模型进行集成后形成一个完整的集成模型。各参与端将自己拥有的隐私数据从各自子模型输入至子模型中，子模型前向传播，并在输出层输出模型的结果。对于集成服务器上的集成模型，其输入为各子模型的输出结果Output_i(i∈[1,N])，其输出为模型最终预测的结果。经过反复多轮迭代后，集成模型输出的结果与真实值之间的损失小于ε，此时集成模型收敛，并且达到了预期的效果。

当集成模型训练出预期的效果时，各学习端与集成服务器对本地模型进行固化，将模型在本地保存成一个二进制文件，供未来使用时加载。

步骤102所示将每个学习端的训练后的子模型的输出作为所述集成服务器中的集成模型的输入，对集成服务器中的集成模型进行训练，获得集成服务器中的训练后的集成模型，之后还包括：

将每个学习端的训练后的子模型采用二进制文件的形式固化到每个所述学习端。

为了便于本发明的实施，本发明提供了如下的方案，参与者A的工序能使材料的性能参数(疲劳强度)达到a％×M，参与者B的工序能使材料的性能参数(疲劳强度)达到(a％+b％)×M，增加b％，参与者C的功能能使材料的性能参数(疲劳强度)达到(a％+b％+c％)×M，增加c％。

训练与参与者A连接的学习端的子模型的目的是，使该子模型输出与a％×M的差值小于一定阈值。训练与B和C连接的学习端的子模型的方法类似在此不再赘述。

训练集成模型的目的是，在输入分别为a％×M+α₁、b％×M+α₂和c％×M+α₃的情况下，使集成模型的输出与M的差值小于一定阈值。

步骤103，每个学习端分别获取每个参与者对待生产材料设计的工艺参数作为每个学习端的待测工艺参数。

步骤104，分别将每个学习端的待测工艺参数输入每个学习端的训练后的子模型的输入，将每个学习端的训练后的子模型的输出作为集成服务器中的训练后的集成模型的输入，并获取集成服务器中的训练后的集成模型的输出，作为预测得到的待生成材料的性能。

即，步骤103和步骤104模型的使用过程为：

步骤一、各学习端根据自己拥有的数据作为输入数据，并在其本地的子模型中根据前向传播生成子模型输出。各子模型的输出产生后，学习端将子模型的输出发送给集成服务器。

步骤二、集成服务端收到来自各学习端的输出后，将所有输出作为集成模型的输入，并进行集成模型的前向传播，最终得到的输出就是最终期望结果。

本发明还提供一种基于隐私保护的材料性能预测系统，所述材料性能预测系统基于材料性能预测平台，所述材料性能预测平台包括：多个学习端和集成服务器，不同学习端分别与不同参与者连接，用于从不同参与者获取材料的不同工序的工艺参数，不同参与者分别研究材料生产过程中的不同工序，每个所述学习端分别与所述集成服务器连接；所述材料性能预测系统包括：

子模型训练模块，用于通过每个学习端分别利用每个学习端所获取的工艺参数训练每个学习端的子模型，获得每个学习端的训练后的子模型。

集成模型训练模块，用于将每个学习端的训练后的子模型的输出作为所述集成服务器中的集成模型的输入，对集成服务器中的集成模型进行训练，获得集成服务器中的训练后的集成模型。

待测工艺参数获取模块，用于通过每个学习端分别获取每个参与者对待生产材料设计的工艺参数作为每个学习端的待测工艺参数。

作为一种优选的实施方式，所述材料性能预测系统还包括：

样本子集构建模块，用于通过每个学习端分别从每个参与者获取已知性能的材料的每个工序的工艺参数，构建每个学习端的样本子集。

数据清理模块，用于通过每个学习端分别对每个学习端的样本子集进行数据清理，获得每个学习端的清理后的样本子集。

所述子模型训练模块，具体包括：预训练子模块，用于通过第i个学习端利用第i个学习端的对齐后的样本子集，对子模型候选集中的每个候选子模型进行预训练，获得预训练后的候选子模型；i＝1,2,...,n，n表示学习端的数量。模型衡量指标计算子模块，用于通过第i个学习端计算每个预训练后的候选子模型的模型衡量指标，所述模型衡量指标为准确率和/或召回率。子模型选取子模块，用于通过第i个学习端选取模型衡量指标最优的预训练后的候选子模型作为第i个学习端的待训练的子模型。子模型训练子模块，用于通过第i个学习端利用第i个学习端的对齐后的样本子集，采用反复交叉验证的方式，对第i个学习端的待训练的子模型中的超参数进行调参，获得第i个学习端的训练后的子模型。

所述材料性能预测系统还包括：第一模型固化模块，用于将每个学习端的训练后的子模型采用二进制文件的形式固化到每个所述学习端。第二模型固化模块，用于将集成服务器中的训练后的集成模型采用二进制文件的形式固化到所述集成服务器中。

本发明的有益之处在于：本发明的各子模型可以是任何机器学习算法对应的模型，且各子模型本身可以用于对材料的性能的预测。由于各参与者(学习端)拥有的数据无法完全覆盖所有特征域或数据分布，因此使用集成策略将多个子模型进行集成，使性能较弱的弱模型集成为性能较优的强模型。因为学习过程中，数据可能被其他参与者获取，且交互过程中网络也无法保证安全。因此，为了保证数据的安全，本发明在保证数据不出域的情况下，在各数据拥有者本地训练子模型，且从子模型输出的结果中无法逆推出原始数据，因此数据的安全性可得到保障。这种方法可以打破数据拥有者之间的壁垒，让所有参与者在不泄露数据的情况下完成合作式学习。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种基于隐私保护的材料性能预测方法，其特征在于，所述材料性能预测方法基于材料性能预测平台，所述材料性能预测平台包括：多个学习端和集成服务器，不同学习端分别与不同参与者连接，用于从不同参与者获取材料的不同工序的工艺参数，不同参与者分别研究材料生产过程中的不同工序，每个所述学习端分别与所述集成服务器连接；所述材料性能预测方法包括如下步骤：

2.根据权利要求1所述的基于隐私保护的材料性能预测方法，其特征在于，所述每个学习端分别利用每个学习端所获取的工艺参数训练每个学习端的子模型，获得每个学习端的训练后的子模型，之前还包括：

3.根据权利要求2所述的基于隐私保护的材料性能预测方法，其特征在于，所述每个学习端分别利用每个学习端所获取的工艺参数训练每个学习端的子模型，获得每个学习端的训练后的子模型，具体包括：

4.根据权利要求1所述的基于隐私保护的材料性能预测方法，其特征在于，将每个学习端的训练后的子模型的输出作为所述集成服务器中的集成模型的输入，对集成服务器中的集成模型进行训练，获得集成服务器中的训练后的集成模型，之后还包括：

5.一种基于隐私保护的材料性能预测系统，其特征在于，所述材料性能预测系统基于材料性能预测平台，所述材料性能预测平台包括：多个学习端和集成服务器，不同学习端分别与不同参与者连接，用于从不同参与者获取材料的不同工序的工艺参数，不同参与者分别研究材料生产过程中的不同工序，每个所述学习端分别与所述集成服务器连接；所述材料性能预测系统包括：

6.根据权利要求5所述的基于隐私保护的材料性能预测系统，其特征在于，所述材料性能预测系统还包括：

7.根据权利要求6所述的基于隐私保护的材料性能预测系统，其特征在于，所述子模型训练模块，具体包括：

8.根据权利要求5所述的基于隐私保护的材料性能预测系统，其特征在于，所述材料性能预测系统还包括：