CN113704776A

CN113704776A - 基于联邦学习的机器学习方法

Info

Publication number: CN113704776A
Application number: CN202110803150.6A
Authority: CN
Inventors: 林博; 张豫元; 王涛; 董科雄; 王德健
Original assignee: Hangzhou Yikang Huilian Technology Co ltd
Current assignee: Hangzhou Yikang Huilian Technology Co ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-11-26

Abstract

本申请公开了一种基于联邦学习的机器学习方法，包括如下步骤：参与联邦学习的各个训练节点输入训练数据；所述训练节点对所述训练数据进行特征处理已获得特征数据；所述训练节点采用所述特征数据进行一个机器学习模型的基于泊松回归算法的模型训练；在一次迭代过程中，参与训练的各个所述训练节点向转发节点发送梯度信息，再从转发节点得到其他节点的梯度信息，更新计算本地的梯度信息；所述训练节点通过更新后的梯度信息更新本地节点的模型权重；所述训练节点判断所述机器学习模型是否收敛，如果收敛则退出迭代。本申请的有益之处在于提供了一种通过转发节点的方式有效使各个训练节点交互中间数据的基于联邦学习的机器学习方法。

Description

基于联邦学习的机器学习方法

技术领域

本申请涉及数据处理领域，具体而言，涉及一种基于联邦学习的机器学习方法。

背景技术

在不久的将来医疗行业将融入更多人工智能、传感技术等高科技，使医疗服务走向真正意义的智能化，推动医疗事业的繁荣发展。在中国新医改的大背景下，智慧医疗正在走进寻常百姓的生活。医疗行业数据存在隐私保护的需要，因此将人工智能应用于医疗领域进行研究、模型训练和数据预测时，往往需要多个医疗机构通过联网和数据协同的方式进行。

现有技术中，进行基于联邦学习的机器学习模型训练时，在训练中产生的数据并不能很好进行交互从而导致模型无法收敛，进而影响平台模型训练的效率。

发明内容

为了解决现有技术的不足之处，本申请提供了一种基于联邦学习的机器学习方法，包括如下步骤：参与联邦学习的各个训练节点输入训练数据；所述训练节点对所述训练数据进行特征处理已获得特征数据；所述训练节点采用所述特征数据进行一个机器学习模型的基于泊松回归算法的模型训练；在一次迭代过程中，参与训练的各个所述训练节点向转发节点发送梯度信息，再从转发节点得到其他节点的梯度信息，更新计算本地的梯度信息；所述训练节点通过更新后的梯度信息更新本地节点的模型权重；所述训练节点判断所述机器学习模型是否收敛，如果收敛则退出迭代。

进一步地，参与联邦学习的各个训练节点均在本地进行所述机器学习模型的训练。

进一步地，每次迭代后参与联邦学习的各个所述训练节点将训练所述机器学习模型生成的中间数据进行加密并发送至所述转发节点。

进一步地，所述转发节点将加密后的中间数据分发至各个所述训练节点。

进一步地，所述训练节点将接收的加密后的中间数据与本地生成的中间数据进行计算后进行下一次迭代。

进一步地，所述训练节点包括联邦学习的发起节点和参与节点。

进一步地，所述训练节点中的发起节点选择参与联邦学习的参与节点。

进一步地，所述中间数据的加密方法为哈希加密算法。

进一步地，所述训练数据为技术数据的数据集。

进一步地，所述训练数据包含医疗数据。

本申请的有益之处在于：提供了一种通过转发节点的方式有效使各个训练节点交互中间数据的基于联邦学习的机器学习方法。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请一种实施例的基于联邦学习的机器学习方法的步骤示意图；

图2是根据本申请一种实施例的基于联邦学习的机器学习方法的一个操作界面的示意图；

图3是根据本申请一种实施例的基于联邦学习的机器学习方法中节点架构的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

参照图1和图3所示，基于联邦学习的机器学习方法，包括如下步骤：参与联邦学习的各个训练节点输入训练数据；训练节点对训练数据进行特征处理已获得特征数据；训练节点采用特征数据进行一个机器学习模型的基于泊松回归算法的模型训练；在一次迭代过程中，参与训练的各个训练节点向转发节点发送梯度信息，再从转发节点得到其他节点的梯度信息，更新计算本地的梯度信息；训练节点通过更新后的梯度信息更新本地节点的模型权重；训练节点判断机器学习模型是否收敛，如果收敛则退出迭代。

作为具体方案，本申请中参与联邦学习的训练方可以通过在计算机设备安装对应的软件，并通过申请账户和密码等方式获取相应权限，作为优选方案，系统的数据交互和存储除了训练方的计算机外，还设置一个服务器从而提供数据的存储、交互和计算的功能。服务器和各个计算机即可以构成有限的通讯连接也可以进行无线的通讯连接。

作为一种具体方案，训练数据为医疗数据，这些数据仅能保存在各个训练节点的本地，避免隐私泄露，但是其中一个训练节点可以通过系统获知这些数据的索引或数据概况，而不能获知具体的数据内容，这样一来，如图2所示，训练节点用户可以通过选择所需训练数据范围从而选定参与联邦学习的其他训练节点作为参与节点。即参与联邦学习的各个训练节点均在本地进行机器学习模型的训练，并且训练节点包括联邦学习的发起节点和参与节点，训练节点中的发起节点选择参与联邦学习的参与节点。

作为具体方案，每次迭代后参与联邦学习的各个训练节点将训练机器学习模型生成的中间数据进行加密并发送至转发节点。转发节点将加密后的中间数据分发至各个训练节点。训练节点将接收的加密后的中间数据与本地生成的中间数据进行计算后进行下一次迭代。

作为更具体方案，服务器可以作为转发节点进行数据交互的加密以及数据分发等功能，作为其中一种优选方案，中间数据的加密方法为哈希加密算法。训练数据为标签为技术数据的数据集。

作为更进一步地方案，如果机器学习模型没有收敛，则可以转入下一次迭代处理。

作为一种优选方案，即使在机器学习模型收敛后，仍可以在训练发起方不使用该机器学习模型时，按照选定的参与方继续进行训练从而更加完善的模型。作为进一步的方案，可以按照发起方的设定数据条件，动态选择训练的参与方，并在条件满足时进行以上方法的模型训练。

采用泊松算法可以对计数数据进行计算，弥补线性回归和逻辑回归的不足。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于联邦学习的机器学习方法，其特征在于：

所述基于联邦学习的机器学习方法包括如下步骤：

参与联邦学习的各个训练节点输入训练数据；

所述训练节点对所述训练数据进行特征处理已获得特征数据；

所述训练节点采用所述特征数据进行一个机器学习模型的基于泊松回归算法的模型训练；

在一次迭代过程中，参与训练的各个所述训练节点向转发节点发送梯度信息，再从转发节点得到其他节点的梯度信息，更新计算本地的梯度信息；

所述训练节点通过更新后的梯度信息更新本地节点的模型权重；

所述训练节点判断所述机器学习模型是否收敛，如果收敛则退出迭代。

2.根据权利要求1所述的基于联邦学习的机器学习方法，其特征在于：

参与联邦学习的各个训练节点均在本地进行所述机器学习模型的训练。

3.根据权利要求2所述的基于联邦学习的机器学习方法，其特征在于：

每次迭代后参与联邦学习的各个所述训练节点将训练所述机器学习模型生成的中间数据进行加密并发送至所述转发节点。

4.根据权利要求3所述的基于联邦学习的机器学习方法，其特征在于：

所述转发节点将加密后的中间数据分发至各个所述训练节点。

5.根据权利要求4所述的基于联邦学习的机器学习方法，其特征在于：

所述训练节点将接收的加密后的中间数据与本地生成的中间数据进行计算后进行下一次迭代。

6.根据权利要求5所述的基于联邦学习的机器学习方法，其特征在于：

所述训练节点包括联邦学习的发起节点和参与节点。

7.根据权利要求6所述的基于联邦学习的机器学习方法，其特征在于：

所述训练节点中的发起节点选择参与联邦学习的参与节点。

8.根据权利要求7所述的基于联邦学习的机器学习方法，其特征在于：

所述中间数据的加密方法为哈希加密算法。

9.根据权利要求8所述的基于联邦学习的机器学习方法，其特征在于：

所述训练数据为计数数据的数据集。

10.根据权利要求9所述的基于联邦学习的机器学习方法，其特征在于：

所述训练数据包含医疗数据。