CN113704776A - 基于联邦学习的机器学习方法 - Google Patents

基于联邦学习的机器学习方法 Download PDF

Info

Publication number
CN113704776A
CN113704776A CN202110803150.6A CN202110803150A CN113704776A CN 113704776 A CN113704776 A CN 113704776A CN 202110803150 A CN202110803150 A CN 202110803150A CN 113704776 A CN113704776 A CN 113704776A
Authority
CN
China
Prior art keywords
training
node
machine learning
data
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110803150.6A
Other languages
English (en)
Inventor
林博
张豫元
王涛
董科雄
王德健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yikang Huilian Technology Co ltd
Original Assignee
Hangzhou Yikang Huilian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yikang Huilian Technology Co ltd filed Critical Hangzhou Yikang Huilian Technology Co ltd
Priority to CN202110803150.6A priority Critical patent/CN113704776A/zh
Publication of CN113704776A publication Critical patent/CN113704776A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种基于联邦学习的机器学习方法,包括如下步骤:参与联邦学习的各个训练节点输入训练数据;所述训练节点对所述训练数据进行特征处理已获得特征数据;所述训练节点采用所述特征数据进行一个机器学习模型的基于泊松回归算法的模型训练;在一次迭代过程中,参与训练的各个所述训练节点向转发节点发送梯度信息,再从转发节点得到其他节点的梯度信息,更新计算本地的梯度信息;所述训练节点通过更新后的梯度信息更新本地节点的模型权重;所述训练节点判断所述机器学习模型是否收敛,如果收敛则退出迭代。本申请的有益之处在于提供了一种通过转发节点的方式有效使各个训练节点交互中间数据的基于联邦学习的机器学习方法。

Description

基于联邦学习的机器学习方法
技术领域
本申请涉及数据处理领域,具体而言,涉及一种基于联邦学习的机器学习方法。
背景技术
在不久的将来医疗行业将融入更多人工智能、传感技术等高科技,使医疗服务走向真正意义的智能化,推动医疗事业的繁荣发展。在中国新医改的大背景下,智慧医疗正在走进寻常百姓的生活。医疗行业数据存在隐私保护的需要,因此将人工智能应用于医疗领域进行研究、模型训练和数据预测时,往往需要多个医疗机构通过联网和数据协同的方式进行。
现有技术中,进行基于联邦学习的机器学习模型训练时,在训练中产生的数据并不能很好进行交互从而导致模型无法收敛,进而影响平台模型训练的效率。
发明内容
为了解决现有技术的不足之处,本申请提供了一种基于联邦学习的机器学习方法,包括如下步骤:参与联邦学习的各个训练节点输入训练数据;所述训练节点对所述训练数据进行特征处理已获得特征数据;所述训练节点采用所述特征数据进行一个机器学习模型的基于泊松回归算法的模型训练;在一次迭代过程中,参与训练的各个所述训练节点向转发节点发送梯度信息,再从转发节点得到其他节点的梯度信息,更新计算本地的梯度信息;所述训练节点通过更新后的梯度信息更新本地节点的模型权重;所述训练节点判断所述机器学习模型是否收敛,如果收敛则退出迭代。
进一步地,参与联邦学习的各个训练节点均在本地进行所述机器学习模型的训练。
进一步地,每次迭代后参与联邦学习的各个所述训练节点将训练所述机器学习模型生成的中间数据进行加密并发送至所述转发节点。
进一步地,所述转发节点将加密后的中间数据分发至各个所述训练节点。
进一步地,所述训练节点将接收的加密后的中间数据与本地生成的中间数据进行计算后进行下一次迭代。
进一步地,所述训练节点包括联邦学习的发起节点和参与节点。
进一步地,所述训练节点中的发起节点选择参与联邦学习的参与节点。
进一步地,所述中间数据的加密方法为哈希加密算法。
进一步地,所述训练数据为技术数据的数据集。
进一步地,所述训练数据包含医疗数据。
本申请的有益之处在于:提供了一种通过转发节点的方式有效使各个训练节点交互中间数据的基于联邦学习的机器学习方法。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请一种实施例的基于联邦学习的机器学习方法的步骤示意图;
图2是根据本申请一种实施例的基于联邦学习的机器学习方法的一个操作界面的示意图;
图3是根据本申请一种实施例的基于联邦学习的机器学习方法中节点架构的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
参照图1和图3所示,基于联邦学习的机器学习方法,包括如下步骤:参与联邦学习的各个训练节点输入训练数据;训练节点对训练数据进行特征处理已获得特征数据;训练节点采用特征数据进行一个机器学习模型的基于泊松回归算法的模型训练;在一次迭代过程中,参与训练的各个训练节点向转发节点发送梯度信息,再从转发节点得到其他节点的梯度信息,更新计算本地的梯度信息;训练节点通过更新后的梯度信息更新本地节点的模型权重;训练节点判断机器学习模型是否收敛,如果收敛则退出迭代。
作为具体方案,本申请中参与联邦学习的训练方可以通过在计算机设备安装对应的软件,并通过申请账户和密码等方式获取相应权限,作为优选方案,系统的数据交互和存储除了训练方的计算机外,还设置一个服务器从而提供数据的存储、交互和计算的功能。服务器和各个计算机即可以构成有限的通讯连接也可以进行无线的通讯连接。
作为一种具体方案,训练数据为医疗数据,这些数据仅能保存在各个训练节点的本地,避免隐私泄露,但是其中一个训练节点可以通过系统获知这些数据的索引或数据概况,而不能获知具体的数据内容,这样一来,如图2所示,训练节点用户可以通过选择所需训练数据范围从而选定参与联邦学习的其他训练节点作为参与节点。即参与联邦学习的各个训练节点均在本地进行机器学习模型的训练,并且训练节点包括联邦学习的发起节点和参与节点,训练节点中的发起节点选择参与联邦学习的参与节点。
作为具体方案,每次迭代后参与联邦学习的各个训练节点将训练机器学习模型生成的中间数据进行加密并发送至转发节点。转发节点将加密后的中间数据分发至各个训练节点。训练节点将接收的加密后的中间数据与本地生成的中间数据进行计算后进行下一次迭代。
作为更具体方案,服务器可以作为转发节点进行数据交互的加密以及数据分发等功能,作为其中一种优选方案,中间数据的加密方法为哈希加密算法。训练数据为标签为技术数据的数据集。
作为更进一步地方案,如果机器学习模型没有收敛,则可以转入下一次迭代处理。
作为一种优选方案,即使在机器学习模型收敛后,仍可以在训练发起方不使用该机器学习模型时,按照选定的参与方继续进行训练从而更加完善的模型。作为进一步的方案,可以按照发起方的设定数据条件,动态选择训练的参与方,并在条件满足时进行以上方法的模型训练。
采用泊松算法可以对计数数据进行计算,弥补线性回归和逻辑回归的不足。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于联邦学习的机器学习方法,其特征在于:
所述基于联邦学习的机器学习方法包括如下步骤:
参与联邦学习的各个训练节点输入训练数据;
所述训练节点对所述训练数据进行特征处理已获得特征数据;
所述训练节点采用所述特征数据进行一个机器学习模型的基于泊松回归算法的模型训练;
在一次迭代过程中,参与训练的各个所述训练节点向转发节点发送梯度信息,再从转发节点得到其他节点的梯度信息,更新计算本地的梯度信息;
所述训练节点通过更新后的梯度信息更新本地节点的模型权重;
所述训练节点判断所述机器学习模型是否收敛,如果收敛则退出迭代。
2.根据权利要求1所述的基于联邦学习的机器学习方法,其特征在于:
参与联邦学习的各个训练节点均在本地进行所述机器学习模型的训练。
3.根据权利要求2所述的基于联邦学习的机器学习方法,其特征在于:
每次迭代后参与联邦学习的各个所述训练节点将训练所述机器学习模型生成的中间数据进行加密并发送至所述转发节点。
4.根据权利要求3所述的基于联邦学习的机器学习方法,其特征在于:
所述转发节点将加密后的中间数据分发至各个所述训练节点。
5.根据权利要求4所述的基于联邦学习的机器学习方法,其特征在于:
所述训练节点将接收的加密后的中间数据与本地生成的中间数据进行计算后进行下一次迭代。
6.根据权利要求5所述的基于联邦学习的机器学习方法,其特征在于:
所述训练节点包括联邦学习的发起节点和参与节点。
7.根据权利要求6所述的基于联邦学习的机器学习方法,其特征在于:
所述训练节点中的发起节点选择参与联邦学习的参与节点。
8.根据权利要求7所述的基于联邦学习的机器学习方法,其特征在于:
所述中间数据的加密方法为哈希加密算法。
9.根据权利要求8所述的基于联邦学习的机器学习方法,其特征在于:
所述训练数据为计数数据的数据集。
10.根据权利要求9所述的基于联邦学习的机器学习方法,其特征在于:
所述训练数据包含医疗数据。
CN202110803150.6A 2021-07-15 2021-07-15 基于联邦学习的机器学习方法 Pending CN113704776A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110803150.6A CN113704776A (zh) 2021-07-15 2021-07-15 基于联邦学习的机器学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110803150.6A CN113704776A (zh) 2021-07-15 2021-07-15 基于联邦学习的机器学习方法

Publications (1)

Publication Number Publication Date
CN113704776A true CN113704776A (zh) 2021-11-26

Family

ID=78648725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110803150.6A Pending CN113704776A (zh) 2021-07-15 2021-07-15 基于联邦学习的机器学习方法

Country Status (1)

Country Link
CN (1) CN113704776A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340247A (zh) * 2020-02-12 2020-06-26 深圳前海微众银行股份有限公司 纵向联邦学习系统优化方法、设备及可读存储介质
CN111507481A (zh) * 2020-04-17 2020-08-07 腾讯科技(深圳)有限公司 一种联邦学习系统
CN112328617A (zh) * 2020-11-19 2021-02-05 杭州趣链科技有限公司 纵向联邦学习的学习模式参数更新方法和电子装置
CN112949866A (zh) * 2021-03-25 2021-06-11 深圳前海微众银行股份有限公司 泊松回归模型的训练方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340247A (zh) * 2020-02-12 2020-06-26 深圳前海微众银行股份有限公司 纵向联邦学习系统优化方法、设备及可读存储介质
CN111507481A (zh) * 2020-04-17 2020-08-07 腾讯科技(深圳)有限公司 一种联邦学习系统
CN112328617A (zh) * 2020-11-19 2021-02-05 杭州趣链科技有限公司 纵向联邦学习的学习模式参数更新方法和电子装置
CN112949866A (zh) * 2021-03-25 2021-06-11 深圳前海微众银行股份有限公司 泊松回归模型的训练方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111368319B (zh) 一种联邦学习环境下基于区块链的数据安全访问方法
CN109165725B (zh) 基于迁移学习的神经网络联邦建模方法、设备及存储介质
TWI732226B (zh) 分類模型生成方法及裝置、資料識別方法及裝置
CN113505882B (zh) 基于联邦神经网络模型的数据处理方法、相关设备及介质
CN116745780A (zh) 用于去中心化联邦学习的方法和系统
WO2010042411A2 (en) Transient networks
CN107360064A (zh) 智能设备分享方法、装置及计算机可读存储介质
CN103843281B (zh) 改进社交网络环境中的信息交换的方法、系统及计算系统
Babar et al. A secured data management scheme for smart societies in industrial internet of things environment
CN108062243A (zh) 执行计划的生成方法、任务执行方法及装置
Qasem et al. Multi-agent system combined with distributed data mining for mutual collaboration classification
CN112182399A (zh) 一种联邦学习的多方安全计算方法及装置
CN104468764B (zh) 一种策略调度方法、装置及系统
CN114168295A (zh) 混合架构系统及基于历史任务效果的任务调度方法
Babu et al. Machine learning in IoT security performance analysis of outage probability of link selection for cognitive networks
Zhang et al. Multiaccess edge integrated networking for Internet of Vehicles: A blockchain-based deep compressed cooperative learning approach
Hsu et al. A genetic algorithm for the maximum edge-disjoint paths problem
CN114168293A (zh) 混合架构系统及基于数据传输耗时的任务调度方法
CN110610098A (zh) 数据集生成方法及装置
CN113704776A (zh) 基于联邦学习的机器学习方法
CN116745782A (zh) 具有使用异构标签分布的新标签的分布式机器学习
CN116975018A (zh) 一种数据处理方法、装置、计算机设备以及可读存储介质
CN113704777A (zh) 基于同构机器学习框架的数据处理方法
CN106209984A (zh) 一种信息处理方法和智能家居开放平台
CN108156194A (zh) 一种表单数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination