CN113704776A - 基于联邦学习的机器学习方法 - Google Patents
基于联邦学习的机器学习方法 Download PDFInfo
- Publication number
- CN113704776A CN113704776A CN202110803150.6A CN202110803150A CN113704776A CN 113704776 A CN113704776 A CN 113704776A CN 202110803150 A CN202110803150 A CN 202110803150A CN 113704776 A CN113704776 A CN 113704776A
- Authority
- CN
- China
- Prior art keywords
- training
- node
- machine learning
- data
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 85
- 238000000034 method Methods 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000000977 initiatory effect Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000003999 initiator Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种基于联邦学习的机器学习方法,包括如下步骤:参与联邦学习的各个训练节点输入训练数据;所述训练节点对所述训练数据进行特征处理已获得特征数据;所述训练节点采用所述特征数据进行一个机器学习模型的基于泊松回归算法的模型训练;在一次迭代过程中,参与训练的各个所述训练节点向转发节点发送梯度信息,再从转发节点得到其他节点的梯度信息,更新计算本地的梯度信息;所述训练节点通过更新后的梯度信息更新本地节点的模型权重;所述训练节点判断所述机器学习模型是否收敛,如果收敛则退出迭代。本申请的有益之处在于提供了一种通过转发节点的方式有效使各个训练节点交互中间数据的基于联邦学习的机器学习方法。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及一种基于联邦学习的机器学习方法。
背景技术
在不久的将来医疗行业将融入更多人工智能、传感技术等高科技,使医疗服务走向真正意义的智能化,推动医疗事业的繁荣发展。在中国新医改的大背景下,智慧医疗正在走进寻常百姓的生活。医疗行业数据存在隐私保护的需要,因此将人工智能应用于医疗领域进行研究、模型训练和数据预测时,往往需要多个医疗机构通过联网和数据协同的方式进行。
现有技术中,进行基于联邦学习的机器学习模型训练时,在训练中产生的数据并不能很好进行交互从而导致模型无法收敛,进而影响平台模型训练的效率。
发明内容
为了解决现有技术的不足之处,本申请提供了一种基于联邦学习的机器学习方法,包括如下步骤:参与联邦学习的各个训练节点输入训练数据;所述训练节点对所述训练数据进行特征处理已获得特征数据;所述训练节点采用所述特征数据进行一个机器学习模型的基于泊松回归算法的模型训练;在一次迭代过程中,参与训练的各个所述训练节点向转发节点发送梯度信息,再从转发节点得到其他节点的梯度信息,更新计算本地的梯度信息;所述训练节点通过更新后的梯度信息更新本地节点的模型权重;所述训练节点判断所述机器学习模型是否收敛,如果收敛则退出迭代。
进一步地,参与联邦学习的各个训练节点均在本地进行所述机器学习模型的训练。
进一步地,每次迭代后参与联邦学习的各个所述训练节点将训练所述机器学习模型生成的中间数据进行加密并发送至所述转发节点。
进一步地,所述转发节点将加密后的中间数据分发至各个所述训练节点。
进一步地,所述训练节点将接收的加密后的中间数据与本地生成的中间数据进行计算后进行下一次迭代。
进一步地,所述训练节点包括联邦学习的发起节点和参与节点。
进一步地,所述训练节点中的发起节点选择参与联邦学习的参与节点。
进一步地,所述中间数据的加密方法为哈希加密算法。
进一步地,所述训练数据为技术数据的数据集。
进一步地,所述训练数据包含医疗数据。
本申请的有益之处在于:提供了一种通过转发节点的方式有效使各个训练节点交互中间数据的基于联邦学习的机器学习方法。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请一种实施例的基于联邦学习的机器学习方法的步骤示意图;
图2是根据本申请一种实施例的基于联邦学习的机器学习方法的一个操作界面的示意图;
图3是根据本申请一种实施例的基于联邦学习的机器学习方法中节点架构的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
参照图1和图3所示,基于联邦学习的机器学习方法,包括如下步骤:参与联邦学习的各个训练节点输入训练数据;训练节点对训练数据进行特征处理已获得特征数据;训练节点采用特征数据进行一个机器学习模型的基于泊松回归算法的模型训练;在一次迭代过程中,参与训练的各个训练节点向转发节点发送梯度信息,再从转发节点得到其他节点的梯度信息,更新计算本地的梯度信息;训练节点通过更新后的梯度信息更新本地节点的模型权重;训练节点判断机器学习模型是否收敛,如果收敛则退出迭代。
作为具体方案,本申请中参与联邦学习的训练方可以通过在计算机设备安装对应的软件,并通过申请账户和密码等方式获取相应权限,作为优选方案,系统的数据交互和存储除了训练方的计算机外,还设置一个服务器从而提供数据的存储、交互和计算的功能。服务器和各个计算机即可以构成有限的通讯连接也可以进行无线的通讯连接。
作为一种具体方案,训练数据为医疗数据,这些数据仅能保存在各个训练节点的本地,避免隐私泄露,但是其中一个训练节点可以通过系统获知这些数据的索引或数据概况,而不能获知具体的数据内容,这样一来,如图2所示,训练节点用户可以通过选择所需训练数据范围从而选定参与联邦学习的其他训练节点作为参与节点。即参与联邦学习的各个训练节点均在本地进行机器学习模型的训练,并且训练节点包括联邦学习的发起节点和参与节点,训练节点中的发起节点选择参与联邦学习的参与节点。
作为具体方案,每次迭代后参与联邦学习的各个训练节点将训练机器学习模型生成的中间数据进行加密并发送至转发节点。转发节点将加密后的中间数据分发至各个训练节点。训练节点将接收的加密后的中间数据与本地生成的中间数据进行计算后进行下一次迭代。
作为更具体方案,服务器可以作为转发节点进行数据交互的加密以及数据分发等功能,作为其中一种优选方案,中间数据的加密方法为哈希加密算法。训练数据为标签为技术数据的数据集。
作为更进一步地方案,如果机器学习模型没有收敛,则可以转入下一次迭代处理。
作为一种优选方案,即使在机器学习模型收敛后,仍可以在训练发起方不使用该机器学习模型时,按照选定的参与方继续进行训练从而更加完善的模型。作为进一步的方案,可以按照发起方的设定数据条件,动态选择训练的参与方,并在条件满足时进行以上方法的模型训练。
采用泊松算法可以对计数数据进行计算,弥补线性回归和逻辑回归的不足。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于联邦学习的机器学习方法,其特征在于:
所述基于联邦学习的机器学习方法包括如下步骤:
参与联邦学习的各个训练节点输入训练数据;
所述训练节点对所述训练数据进行特征处理已获得特征数据;
所述训练节点采用所述特征数据进行一个机器学习模型的基于泊松回归算法的模型训练;
在一次迭代过程中,参与训练的各个所述训练节点向转发节点发送梯度信息,再从转发节点得到其他节点的梯度信息,更新计算本地的梯度信息;
所述训练节点通过更新后的梯度信息更新本地节点的模型权重;
所述训练节点判断所述机器学习模型是否收敛,如果收敛则退出迭代。
2.根据权利要求1所述的基于联邦学习的机器学习方法,其特征在于:
参与联邦学习的各个训练节点均在本地进行所述机器学习模型的训练。
3.根据权利要求2所述的基于联邦学习的机器学习方法,其特征在于:
每次迭代后参与联邦学习的各个所述训练节点将训练所述机器学习模型生成的中间数据进行加密并发送至所述转发节点。
4.根据权利要求3所述的基于联邦学习的机器学习方法,其特征在于:
所述转发节点将加密后的中间数据分发至各个所述训练节点。
5.根据权利要求4所述的基于联邦学习的机器学习方法,其特征在于:
所述训练节点将接收的加密后的中间数据与本地生成的中间数据进行计算后进行下一次迭代。
6.根据权利要求5所述的基于联邦学习的机器学习方法,其特征在于:
所述训练节点包括联邦学习的发起节点和参与节点。
7.根据权利要求6所述的基于联邦学习的机器学习方法,其特征在于:
所述训练节点中的发起节点选择参与联邦学习的参与节点。
8.根据权利要求7所述的基于联邦学习的机器学习方法,其特征在于:
所述中间数据的加密方法为哈希加密算法。
9.根据权利要求8所述的基于联邦学习的机器学习方法,其特征在于:
所述训练数据为计数数据的数据集。
10.根据权利要求9所述的基于联邦学习的机器学习方法,其特征在于:
所述训练数据包含医疗数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110803150.6A CN113704776A (zh) | 2021-07-15 | 2021-07-15 | 基于联邦学习的机器学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110803150.6A CN113704776A (zh) | 2021-07-15 | 2021-07-15 | 基于联邦学习的机器学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113704776A true CN113704776A (zh) | 2021-11-26 |
Family
ID=78648725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110803150.6A Pending CN113704776A (zh) | 2021-07-15 | 2021-07-15 | 基于联邦学习的机器学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704776A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340247A (zh) * | 2020-02-12 | 2020-06-26 | 深圳前海微众银行股份有限公司 | 纵向联邦学习系统优化方法、设备及可读存储介质 |
CN111507481A (zh) * | 2020-04-17 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 一种联邦学习系统 |
CN112328617A (zh) * | 2020-11-19 | 2021-02-05 | 杭州趣链科技有限公司 | 纵向联邦学习的学习模式参数更新方法和电子装置 |
CN112949866A (zh) * | 2021-03-25 | 2021-06-11 | 深圳前海微众银行股份有限公司 | 泊松回归模型的训练方法、装置、电子设备及存储介质 |
-
2021
- 2021-07-15 CN CN202110803150.6A patent/CN113704776A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340247A (zh) * | 2020-02-12 | 2020-06-26 | 深圳前海微众银行股份有限公司 | 纵向联邦学习系统优化方法、设备及可读存储介质 |
CN111507481A (zh) * | 2020-04-17 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 一种联邦学习系统 |
CN112328617A (zh) * | 2020-11-19 | 2021-02-05 | 杭州趣链科技有限公司 | 纵向联邦学习的学习模式参数更新方法和电子装置 |
CN112949866A (zh) * | 2021-03-25 | 2021-06-11 | 深圳前海微众银行股份有限公司 | 泊松回归模型的训练方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368319B (zh) | 一种联邦学习环境下基于区块链的数据安全访问方法 | |
CN109165725B (zh) | 基于迁移学习的神经网络联邦建模方法、设备及存储介质 | |
TWI732226B (zh) | 分類模型生成方法及裝置、資料識別方法及裝置 | |
CN113505882B (zh) | 基于联邦神经网络模型的数据处理方法、相关设备及介质 | |
CN116745780A (zh) | 用于去中心化联邦学习的方法和系统 | |
WO2010042411A2 (en) | Transient networks | |
CN107360064A (zh) | 智能设备分享方法、装置及计算机可读存储介质 | |
CN103843281B (zh) | 改进社交网络环境中的信息交换的方法、系统及计算系统 | |
Babar et al. | A secured data management scheme for smart societies in industrial internet of things environment | |
CN108062243A (zh) | 执行计划的生成方法、任务执行方法及装置 | |
Qasem et al. | Multi-agent system combined with distributed data mining for mutual collaboration classification | |
CN112182399A (zh) | 一种联邦学习的多方安全计算方法及装置 | |
CN104468764B (zh) | 一种策略调度方法、装置及系统 | |
CN114168295A (zh) | 混合架构系统及基于历史任务效果的任务调度方法 | |
Babu et al. | Machine learning in IoT security performance analysis of outage probability of link selection for cognitive networks | |
Zhang et al. | Multiaccess edge integrated networking for Internet of Vehicles: A blockchain-based deep compressed cooperative learning approach | |
Hsu et al. | A genetic algorithm for the maximum edge-disjoint paths problem | |
CN114168293A (zh) | 混合架构系统及基于数据传输耗时的任务调度方法 | |
CN110610098A (zh) | 数据集生成方法及装置 | |
CN113704776A (zh) | 基于联邦学习的机器学习方法 | |
CN116745782A (zh) | 具有使用异构标签分布的新标签的分布式机器学习 | |
CN116975018A (zh) | 一种数据处理方法、装置、计算机设备以及可读存储介质 | |
CN113704777A (zh) | 基于同构机器学习框架的数据处理方法 | |
CN106209984A (zh) | 一种信息处理方法和智能家居开放平台 | |
CN108156194A (zh) | 一种表单数据处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |