CN109952582B - 一种强化学习模型的训练方法、节点、系统及存储介质 - Google Patents
一种强化学习模型的训练方法、节点、系统及存储介质 Download PDFInfo
- Publication number
- CN109952582B CN109952582B CN201880002439.4A CN201880002439A CN109952582B CN 109952582 B CN109952582 B CN 109952582B CN 201880002439 A CN201880002439 A CN 201880002439A CN 109952582 B CN109952582 B CN 109952582B
- Authority
- CN
- China
- Prior art keywords
- training
- objective function
- optimal sub
- node
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000002787 reinforcement Effects 0.000 title claims abstract description 50
- 230000006870 function Effects 0.000 claims abstract description 264
- 238000013528 artificial neural network Methods 0.000 claims abstract description 45
- 230000009471 action Effects 0.000 claims description 34
- 238000005457 optimization Methods 0.000 claims description 30
- 230000004044 response Effects 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000035945 sensitivity Effects 0.000 claims description 6
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 35
- 238000010586 diagram Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N99/00—Subject matter not provided for in other groups of this subclass
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种强化学习模型的训练方法、节点、系统及存储介质。该训练方法包括:训练节点获取局部数据,并将该局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数;接收来自邻居节点的第二最优子目标函数的参数;将第二最优子目标函数的参数代入第一最优子目标函数中,得到第二最优子目标函数;将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数。通过上述方式,本申请能够改善强化学习模型训练过程中的数据泄露问题。
Description
技术领域
本申请涉及机器学习技术领域,特别是涉及一种强化学习模型的训练方法、节点、系统及存储介质。
背景技术
强化学习算法是一种根据环境状态到动作映射的机器学习算法,以使得动作从环境中获得的累积奖励值最大。随着算力和算法的演进,强化学习在机器人控制、集群管理、网络流量控制中获得了大量应用。
然而在训练强化学习算法模型时需要大量的数据,这也给数据泄漏带来隐患。特别是在开放式网络集群中训练强化学习算法中,训练数据的直接泄漏以及利用训练完的模型间接推导出训练数据的泄漏隐忧更甚。
发明内容
本申请主要提供一种强化学习模型的训练方法、节点、系统及存储介质,能够改善强化学习模型训练过程中的数据泄露问题。
为了解决上述问题,本申请采用的第一个技术方案是:提供一种强化学习模型的训练方法,包括:训练节点获取局部数据,并将该局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数;接收来自邻居节点的第二最优子目标函数的参数;将第二最优子目标函数的参数代入第一最优子目标函数中,得到第二最优子目标函数;将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数。
为了解决上述问题,本申请采用的第二个技术方案是:提供一种强化学习模型的训练方法,包括:第一训练节点获取第一局部数据,并将第一局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数;第二训练节点获取第二局部数据,并将第二局部数据作为样本输入第二神经网络中训练,以得到第二最优子目标函数,其中第二训练节点是第一训练节点的邻居节点,第一局部数据与第二局部数据不同;第一训练节点将第一最优子目标函数的参数广播给第二训练节点,第二训练节点将第二最优子目标函数的参数广播给第一训练节点;第一训练节点将第二最优子目标函数的参数代入第一最优子目标函数中,得到第二最优子目标函数,第二训练节点将第一最优子目标函数的参数代入第二最优子目标函数中,得到第一最优子目标函数;第一训练节点和第二训练节点分别将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数。
为了解决上述问题,本申请采用的第三个技术方案是:提供一种强化学习模型的训练系统,包括:第一训练节点和第二训练节点,第二训练节点为第一训练节点的邻居节点;第一训练节点用于获取第一局部数据,并将第一局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数,将第一最优子目标函数的参数广播给第二训练节点,并接收来自第二训练节点的第二最优子目标函数的参数,将第二最优子目标函数的参数代入第一最优子目标函数中,得到第二最优子目标函数,将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数;第二训练节点用于获取第二局部数据,并将第二局部数据作为样本输入第二神经网络中训练,以得到第二最优子目标函数,将第二最优子目标函数的参数广播给第一训练节点,并接收来自第一训练节点的第一最优子目标函数的参数,将第一最优子目标函数的参数代入第二最优子目标函数中,得到第一最优子目标函数,将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数;其中,第一局部数据与第二局部数据不同。
为了解决上述问题,本申请采用的第四个技术方案是:提供一种强化学习模型的训练节点,包括:相互连接的通信电路和处理器;处理器用于通过该通信电路与邻居节点通信,并执行指令以实现如上所述的训练方法。
为了解决上述问题,本申请采用的第五个技术方案是:提供一种强化学习模型的训练节点,包括:网络训练模块,用于获取局部数据,并将局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数;参数获取模块,用于接收来自邻居节点的第二最优子目标函数的参数;参数代入模块,用于将第二最优子目标函数的参数代入第一最优子目标函数中,得到第二最优子目标函数;函数生成模块,用于将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数。
为了解决上述问题,本申请采用的第五个技术方案是:提供一种存储介质,内部存储有程序,该程序被执行以实现如上所述的训练方法。
本申请的有益效果是:区别于现有技术的情况,本申请的实施例中,训练节点获取局部数据,并利用自身的局部数据作为样本训练得到第一最优子目标函数后,利用来自邻居节点的第二最优子目标函数的参数,得到第二最优子目标函数,最后将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数,从而使得每个训练节点均只采用自身能够获取的局部数据进行训练,不能得到全局数据,因此可以解决单个或部分训练节点数据泄露导致的全局数据直接泄露的问题;此外,每个训练节点无需采集全局数据,可以简化每个训练节点的训练过程,提高训练速度。
附图说明
图1是本申请去中心化的全分布式强化学习系统的示意图;
图2是本申请强化学习模型的训练方法第一实施例的流程示意图;
图3是本申请强化学习模型的训练方法第二实施例的流程示意图;
图4是图3中步骤S112的具体流程示意图;
图5是本申请强化学习模型的训练方法第三实施例的流程示意图;
图6是图5中步骤S21的具体流程示意图;
图7是图6中步骤S211和S212的具体流程示意图;
图8是本申请强化学习模型的训练方法第四实施例的流程示意图;
图9是本申请强化学习模型的训练系统一实施例的结构示意图;
图10是本申请强化学习模型的训练节点第一实施例的结构示意图;
图11是本申请强化学习模型的训练节点第二实施例的结构示意图;
图12是本申请存储介质一实施例的结构示意图。
具体实施方式
下面结合附图和实施例对本申请进行详细说明。
本申请描述了一种强化学习系统的节点训练过程,尤其是如图1所示的去中心化的全分布式强化学习系统10中的节点101的训练过程。该强化学习系统10中每个节点101可以选择待由与环境进行交互的强化学习节点101执行的动作。该强化学习系统10包括多个节点101,为了使节点101与环境进行交互,每个节点101接收表征环境的当前状态的数据,并且从响应于接收到的数据待由节点101执行的动作空间的集合中选择动作。每个节点101在执行上述过程前,会进行训练,以得到执行上述过程的强化学习模型。
如图2所示,本申请一种强化学习模型的训练方法第一实施例,本实施例包括:
S11:训练节点获取局部数据,并将该局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数。
其中,该局部数据是该训练节点自身能够获取的训练数据,该训练数据可以包括环境的训练状态、来自由训练节点响应于接收到训练状态而执行的动作的集合中的训练动作、由于训练节点执行训练动作而接收到的训练奖励、以及环境的下一训练状态。
具体地,在一个应用例中,该第一神经网络为深度神经网络,该深度神经网络具有由参数确定的第一子目标函数,该第一神经网络可以将根据该第一神经网络的参数的当前值,通过使用该第一子目标函数来处理局部数据中的训练状态和训练动作以确定当前状态下的累积奖励,然后从该动作的集合中选择动作,所选择的动作在由该第一神经网络结合下一训练状态被处理时使该第一神经网络生成最高估计的累积奖励,更新该第一子目标函数,并重复上述过程,直到训练结束,可以得到该第一子目标函数的最终参数,该参数所确定的第一子目标函数即为该第一最优子目标函数。该第一最优子目标函数可以响应接收到的环境的状态,执行动作的集合中的动作,最终得到最大的累积奖励。
S12:接收来自邻居节点的第二最优子目标函数的参数。
S13:将第二最优子目标函数的参数代入第一最优子目标函数中,得到第二最优子目标函数。
S14:将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数。
结合图1所示,训练节点101a通过上述步骤S11获得第一最优子目标函数后,由于该第一最优子目标函数仅是由该训练节点101a自身可以获取的局部数据训练得到的,该第一最优子目标函数并不是最终的最优目标函数。本实施例中,每个节点101(包括训练节点101a和其邻居节点101b)可以将其自身的最优子目标函数的参数广播给其邻居节点,从而利用邻居节点101b的参数获取邻居节点101b的第二最优子目标函数,最终将训练节点101a自身的第一最优子目标函数和第二最优子目标函数进行加权平均运算,可以得到最终的最优目标函数。
在一个具体实施例中,可以利用如下公式(1)计算该最优目标函数:
节点包括当前训练节点和其邻居节点,当节点是当前训练节点时,该最优子函数对应该第一最优子目标函数,该最优子函数的参数对应第一最优子函数的参数,当该节点是邻居节点时,该最优子函数对应该第二最优子目标函数,该最优子函数的参数对应第二最优子函数的参数。
每个节点的最优子函数可以定义为累积奖励的平方的期望值,训练得到上述最优子函数的过程中,该最优子函数的参数可以采用迭代方式进行更新。
该最优子函数如下公式(2)所示:
其中,为第k个节点的最优子函数,E[.]为求期望计算,vξ(st)为第t步迭代时通过第一神经网络训练得到的节点状态st时的值函数,yk,t为第t步迭代时通过第一神经网络训练得到的第k个节点的折扣奖励。该yk,t可以采用如下公式(3)计算得到
其中,γ为折扣因子,S为该第一神经网络训练状态的集合,θk为第k个节点定义参数族MDP(Markov Decision Process,马尔可夫决策过程)问题的超参数,为第t步迭代时第k个节点采用动作at从状态st转变到状态s'的平均概率,vξ(s')为通过该第一神经网络得到的状态s'下的值函数,/>为第t步迭代时第k个节点在状态st时采用动作at得到的反馈。
经过上述训练过程,所有节点的平均折扣奖励可以如下公式(4)所示:
本实施例中,每个训练节点均只采用自身能够获取的局部数据进行训练,不能得到全局数据,因此可以解决单个或部分训练节点数据泄露导致的全局数据直接泄露的问题;此外,每个训练节点无需采集全局数据,可以简化每个训练节点的训练过程,提高训练速度,而且所有训练节点上的解都可以收敛到同一个最优目标函数解的附近邻域,得到近似解。
在其他实施例中,为防止各节点训练完的模型具有抗成员推断攻击等间接数据泄漏的可能,本申请可以在参数更新时遵循差分隐私的训练机制。
具体如图3所示,本申请强化学习模型的训练方法第二实施例是在本申请强化学习模型的训练方法第一实施例的基础上,进一步限定步骤S11包括:
S111:接收来自邻居节点的第一优化参数,该第一优化参数是第二训练节点对第二最优子目标函数进行梯度下降并叠加拉普拉斯随机噪声后获得的参数。
其中,每个节点对其最优子目标函数进行梯度下降可以是随机梯度下降,也可以是其他类型的梯度下降方式。该拉普拉斯随机噪声遵循差分隐私机制。
S112:将该第一优化参数进行加权和运算,得到更新参数。
其中,对第一优化参数进行加权和运算时,每个第一优化参数的权值可以相同也可以不同,具体可以根据每个邻居节点对当前训练节点的影响而定。
可选地,如图4所示,步骤S112可以包括:
S1121:获取第一优化参数的权重。
S1122:利用如下公式(5)计算该更新参数:
其中,ξk,t+1为第t步迭代时第k个训练节点的更新参数,Nk为第k个训练节点的邻居节点的集合,为第t步迭代时第k个训练节点获取的第l个邻居节点的第一优化参数,clk为第k个训练节点接收第l个邻居节点的第一优化参数的权重。
S113:将该更新参数作为第一最优子目标函数的当前参数值,更新该第一最优子目标函数。
每次迭代更新后,训练节点的子目标函数的当前参数值会被更新为邻居节点的第一优化参数的加权和。训练节点对该子目标函数进行多次优化更新后,最终可以得到符合第一神经网络识别需求的第一最优子目标函数。每次优化更新过程均可以参考上述参数更新过程。
每个节点训练其神经网络过程中,需要对神经网络的参数,即自身的最优子目标函数的参数进行迭代更新,由于每个节点的参数迭代更新过程均类似,若某个节点被攻击,则该迭代更新和训练过程被泄露后,极易导致节点间推断攻击等间接数据泄漏。为了避免出现上述间接数据泄露,本实施例中,每个节点在参数迭代更新的过程中,叠加一拉普拉斯随机噪声,由于该拉普拉斯随机噪声是随机的,且遵循差分隐私机制,每个节点的参数迭代更新过程均不相同,可以使得单个/部分节点被攻击时,攻击者无法通过节点间的推断得到其他节点的迭代更新过程,也就无法得到其他节点的数据,从而可以避免出现节点间推断攻击等间接数据泄漏。
为了让该训练节点的邻居节点也能够进行类似的参数更新过程,如图5所示,本申请强化学习模型的训练方法第三实施例中,训练节点还可以执行如下步骤:
S21:将第一最优子目标函数进行梯度下降后获得第一最优子目标函数的第二优化参数。
S22:将该第二优化参数广播给其邻居节点。
具体地,训练节点对其第一最优子目标函数进行随机梯度下降过程中,可以叠加一拉普拉斯随机噪声,以得到该第二优化参数,之后将该第二优化参数广播给其邻居节点,以使得该邻居节点可以进行参数的迭代更新过程。
可选地,如图6所示,本实施中,步骤S21具体包括:
S211:计算第一最优子目标函数的梯度值,该梯度值为第一最优子目标函数的梯度叠加拉普拉斯随机噪声。
其中,该拉普拉斯随机噪声遵循差分隐私机制。该第一最优子目标函数的梯度是针对该第一最优子目标函数的参数进行的求梯度运算。
在一个具体实施例中,如图7所示,步骤S211包括:
S2111:获取第一神经网络针对第一最优子目标函数的差分隐私敏感性,差分隐私参数,以及训练节点和邻居节点组成的集群中邻居节点的最大数量。
其中,差分隐私机制可以保证攻击者能获取的目标数据几乎和他们从没有这个目标数据记录的数据集中能获取的相差无几,从而可以防止差分攻击导致的数据泄露。该差分隐私参数值越大,则隐私保证力度越小,该差分隐私参数具体取值可以根据隐私保护力度而定。
由于迭代过程中,每个节点的参数更新为邻居节点参数的加权组合,因此,本实施例中直接采用第一最优子目标函数作为该差分隐私敏感性,并将对应的拉普拉斯随机噪声调整为基于第一最优子目标函数和该差分隐私参数的拉普拉斯随机噪声与集群中邻居节点的最大数量的比值。
S2112:利用如下公式(6)计算该第一最优子目标函数的梯度值:
其中,为第t步迭代时第k个训练节点的第一最优子目标函数,Tk,t为第t步迭代时第k个训练节点的样本长度,vξ,t(sk,t)为第t步迭代时通过第一神经网络训练得到的第k个训练节点状态sk,t时的值函数,vξ,t(sk,j)为第t步迭代时通过第一神经网络训练得到的第k个训练节点状态sk,j时的值函数,yk,t为第t步迭代时通过第一神经网络训练得到的第k个训练节点的折扣奖励,/>为第一最优子目标函数针对参数ξ的求梯度运算,L(F,ε)为基于差分隐私敏感性F和差分隐私参数ε的拉普拉斯随机噪声,I为邻居节点的最大数量。
S212:将该梯度值和第一最优子目标函数的当前参数进行迭代计算获得第二优化参数。
在一个具体实施例中,该迭代计算过程遵循随机梯度下降算法,随机梯度下降可以使得目标函数沿关于该目标函数的参数的梯度方向上升最快。在优化该目标函数时,只需要将参数沿着梯度相反的方向前进一个步长,就可以实现目标函数的下降。
具体地,继续参阅图7,步骤S212包括:
S2121:获取迭代步长。
其中,该迭代步长可以控制每次迭代过程该梯度值的下降速度,在每次迭代过程中该迭代步长可以相同,也可以不同。
S2122:利用如下公式(7)计算该第二优化参数:
通过上述公式(7)的迭代计算,每个训练节点可以得到自身的优化参数,之后每个训练节点可以将自身的优化参数广播给邻居节点,从而使得邻居节点可以更新其自身目标子函数的参数。
本实施例中,由于每个训练节点在参数迭代更新的过程中,叠加一拉普拉斯随机噪声,由于该拉普拉斯随机噪声是随机的,且遵循差分隐私机制,每个训练节点的参数迭代更新过程均不相同,可以使得单个/部分节点被攻击时,攻击者无法通过节点间的推断得到其他节点的迭代更新过程,也就无法得到其他节点的数据,从而可以避免出现节点间推断攻击等间接数据泄漏。
如图8所示,本申请强化学习模型的训练方法第四实施例是应用于强化学习系统,该强化学习系统包括第一训练节点和第二训练节点,该第二训练节点是第一训练节点的邻居节点。其中,第一训练节点和第二训练节点的数量分别可以是多个。本实施例的训练方法包括:
S31:第一训练节点获取第一局部数据,并将第一局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数。
S32:第二训练节点获取第二局部数据,并将第二局部数据作为样本输入第二神经网络中训练,以得到第二最优子目标函数,其中第一局部数据与第二局部数据不同。
S33:第一训练节点将第一最优子目标函数的参数广播给第二训练节点。
S34:第二训练节点将第二最优子目标函数的参数广播给第一训练节点。
S35:第一训练节点将第二最优子目标函数的参数代入第一最优子目标函数中,得到第二最优子目标函数。
S36:第二训练节点将第一最优子目标函数的参数代入第二最优子目标函数中,得到第一最优子目标函数。
S37:第一训练节点将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数。
S38:第二训练节点将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到该最优目标函数。
该第一训练节点和该第二训练节点的训练过程相同,但采用的训练数据不同,每个训练节点只用自身能够获取的局部数据进行训练,例如第一训练节点只能得到第一局部数据,第二训练节点只能得到第二局部数据,且第一局部数据和第二局部数据不同。
每个训练节点通过自身的局部数据训练之后,可以得到自身的最优子目标函数,例如第一训练节点得到第一最优子目标函数,第二训练节点得到第二最优子目标函数。其中每个训练节点的最优子目标函数具有对应的参数,每个训练节点得到该参数后,会将该参数广播到邻居节点,例如第一训练节点将第一最优子目标函数的参数广播给第二训练节点,而第二训练节点则将第二最优子目标函数的参数广播给第一训练节点。然后,每个训练节点都可以将接收到的邻居节点的参数代入其自身的最优子目标函数中,可以得到每个邻居节点的最优子目标函数,最后将自身的最优子目标函数和邻居节点的最优子目标函数求平均运算,即可以得到最终的全局最优目标函数。
本实施例中,上述步骤的具体执行过程可以参考本申请强化学习模型的训练方法第一至第三任一实施例或其不冲突的组合所提供的训练方法,此处不再重复。
本实施例中,每个训练节点均只采用自身能够获取的局部数据进行训练,不能得到全局数据,因此可以解决单个或部分训练节点数据泄露导致的全局数据直接泄露的问题;此外,每个训练节点无需采集全局数据,可以简化每个训练节点的训练过程,提高训练速度。
如图9所示,本申请强化学习模型的训练系统一实施例中,该强化学习模型的训练系统40包括:第一训练节点401和第二训练节点402,该第二训练节点402为第一训练节点401的邻居节点。
第一训练节点401用于获取第一局部数据,并将第一局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数,将第一最优子目标函数的参数广播给第二训练节点402,并接收来自第二训练节点402的第二最优子目标函数的参数,将第二最优子目标函数的参数代入第一最优子目标函数中,得到第二最优子目标函数,将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数。
第二训练节点402用于获取第二局部数据,并将第二局部数据作为样本输入第二神经网络中训练,以得到第二最优子目标函数,将第二最优子目标函数的参数广播给第一训练节点401,并接收来自第一训练节点401的第一最优子目标函数的参数,将第一最优子目标函数的参数代入第二最优子目标函数中,得到第一最优子目标函数,将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数。
其中,第一局部数据与第二局部数据不同。
本实施例中,该第一训练节点401和第二训练节点402的数量可以是多个,该第一训练节点401和第二训练节点402是相对的,针对一个训练节点,其自身可以是第一训练节点401,其邻居节点是第二训练节点402,当然,该训练节点自身也可以是第二训练节点402,其邻居节点是第一训练节点401。
该第一训练节点401和第二训练节点402可以是被配置为与环境进行交互的代理设备或智能体。当环境是虚拟环境(例如虚拟游戏)时,该第一训练节点401和第二训练节点402可以是一个或多个计算机程序。当环境是真实环境(例如某个特定区域的真实世界)时,第一训练节点401和第二训练节点402可以是机械代理(例如机器人)。
第一训练节点401和第二训练节点402的具体功能可以参考本申请强化学习模型的训练方法第四实施例所提供的训练方法,此处不再重复。
本实施例中,每个训练节点均只采用自身能够获取的局部数据进行训练,不能得到全局数据,因此可以解决单个或部分训练节点数据泄露导致的全局数据直接泄露的问题;此外,每个训练节点无需采集全局数据,可以简化每个训练节点的训练过程,提高训练速度。
如图10所示,本申请强化学习模型的训练节点第一实施例中,该强化学习模型的训练节点50包括:相互连接的通信电路501和处理器502。
通信电路501用于发送和接收数据,并作为训练节点50与其他训练节点通信的接口。
处理器502可以控制训练节点50的操作,也可以称为中央处理器(CentralProcessing Unit,CPU)。处理器502可以是具有信号处理能力的集成电路芯片,如通用处理器、数字信号处理器(Digital Signal Processor,DSP)、应用专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable GateArray,FPGA)或任何其他可编程逻辑器件、分立门、晶体管逻辑器件或分立硬件元件。通用处理器可以是微处理器或任何常规处理器。
处理器502用于通过该通信电路501与邻居节点通信,并执行指令以实现如本申请强化学习模型的训练方法第一至第三任一实施例所提供的训练方法。
训练节点50还可以包括用于存储处理器502操作所需的命令和数据的存储器(未显示)。存储器还可以存储通信电路501接收到的数据。
本实施例中,训练节点50只采用自身能够获取的局部数据进行训练,不能得到全局数据,因此可以解决单个或部分训练节点50数据泄露导致的全局数据直接泄露的问题;此外,每个训练节点50无需采集全局数据,可以简化每个训练节点的训练过程,提高训练速度。
如图11所示,本申请强化学习模型的训练节点第二实施例中,训练节点60包括:
网络训练模块601,用于获取局部数据,并将局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数。
参数获取模块602,用于接收来自邻居节点的第二最优子目标函数的参数。
参数代入模块603,用于将第二最优子目标函数的参数代入第一最优子目标函数中,得到第二最优子目标函数。
函数生成模块604,用于将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数。
上述各个模块的具体功能可以参考本申请相应方法实施例的相关说明,此处不再详细说明。
如图12所示,本申请存储介质一实施例中,该存储介质70内部存储有程序701,该程序701被执行可以实现如本申请强化学习模型的训练方法第一至第四任一实施例所提供的训练方法。
存储介质70可以是能够存储程序代码的各种介质,例如USB闪存盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁盘或光盘等。
此外,该存储介质70也可以是包括上述介质的具有存储功能的设备,例如移动终端、服务器、电脑或者芯片等。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (14)
1.一种强化学习模型的训练方法,其特征在于,包括:
训练节点获取局部数据,并将所述局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数;其中,所述局部数据包括环境的训练状态、来自由训练节点响应于接收到训练状态而执行的动作的集合中的训练动作、由于训练节点执行训练动作而接收到的训练奖励、以及环境的下一训练状态;
接收来自邻居节点的第二最优子目标函数的参数;所述邻居节点与环境进行交互;
将所述第二最优子目标函数的参数代入所述第一最优子目标函数中,得到所述第二最优子目标函数;
将所述第一最优子目标函数和所述第二最优子目标函数进行加权平均运算,以得到最优目标函数,具体包括:利用如下公式计算所述最优目标函数:
2.根据权利要求1所述的训练方法,其特征在于,所述训练方法进一步包括:
所述训练节点将所述第一最优子目标函数的参数广播给所述邻居节点。
3.根据权利要求1所述的训练方法,其特征在于,所述将所述局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数包括:
接收来自所述邻居节点的第一优化参数,所述第一优化参数是第二训练节点对所述第二最优子目标函数进行梯度下降并叠加拉普拉斯随机噪声后获得的参数;
将所述第一优化参数进行加权和运算,得到更新参数;
将所述更新参数作为所述第一最优子目标函数的当前参数值,更新所述第一最优子目标函数。
5.根据权利要求3所述的训练方法,其特征在于,所述训练方法进一步包括:
对所述第一最优子目标函数进行梯度下降后获得所述第一最优子目标函数的第二优化参数;
将所述第二优化参数广播给所述邻居节点。
6.根据权利要求5所述的训练方法,其特征在于,所述对所述第一最优子目标函数进行梯度下降后获得所述第一最优子目标函数的第二优化参数包括:
计算所述第一最优子目标函数的梯度值,所述梯度值为所述第一最优子目标函数的梯度叠加拉普拉斯随机噪声;
将所述梯度值和所述第一最优子目标函数的当前参数进行迭代计算获得所述第二优化参数。
7.根据权利要求6所述的训练方法,其特征在于,所述计算所述第一最优子目标函数的梯度值,所述梯度值为所述第一最优子目标函数的梯度叠加拉普拉斯随机噪声包括:
获取所述第一神经网络针对所述第一最优子目标函数的差分隐私敏感性,差分隐私参数,以及所述训练节点和所述邻居节点组成的集群中邻居节点的最大数量;
利用如下公式计算所述梯度值:
8.根据权利要求7所述的训练方法,其特征在于,所述获取所述第一神经网络针对所述第一最优子目标函数的差分隐私敏感性包括:
将所述第一最优子目标函数作为所述差分隐私敏感性。
10.一种强化学习模型的训练方法,其特征在于,包括:
第一训练节点获取第一局部数据,并将所述第一局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数;其中,所述第一局部数据包括环境的训练状态、来自由第一训练节点响应于接收到训练状态而执行的动作的集合中的训练动作、由于第一训练节点执行训练动作而接收到的训练奖励、以及环境的下一训练状态;第二训练节点获取第二局部数据,并将所述第二局部数据作为样本输入第二神经网络中训练,以得到第二最优子目标函数,其中所述第二训练节点是所述第一训练节点的邻居节点,所述第一局部数据与所述第二局部数据不同;其中,所述第二局部数据包括环境的训练状态、来自由第二训练节点响应于接收到训练状态而执行的动作的集合中的训练动作、由于第二训练节点执行训练动作而接收到的训练奖励、以及环境的下一训练状态;所述邻居节点与环境进行交互;
所述第一训练节点将所述第一最优子目标函数的参数广播给所述第二训练节点,所述第二训练节点将所述第二最优子目标函数的参数广播给所述第一训练节点;
所述第一训练节点将所述第二最优子目标函数的参数代入所述第一最优子目标函数中,得到所述第二最优子目标函数,所述第二训练节点将所述第一最优子目标函数的参数代入所述第二最优子目标函数中,得到所述第一最优子目标函数;
所述第一训练节点和所述第二训练节点分别将所述第一最优子目标函数和所述第二最优子目标函数进行加权平均运算,以得到最优目标函数,具体包括:利用如下公式计算所述最优目标函数:
11.一种强化学习模型的训练系统,其特征在于,包括:第一训练节点和第二训练节点,所述第二训练节点为所述第一训练节点的邻居节点;所述邻居节点与环境进行交互;
所述第一训练节点用于获取第一局部数据,并将所述第一局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数,将所述第一最优子目标函数的参数广播给所述第二训练节点,并接收来自所述第二训练节点的第二最优子目标函数的参数,将所述第二最优子目标函数的参数代入所述第一最优子目标函数中,得到所述第二最优子目标函数,将所述第一最优子目标函数和所述第二最优子目标函数进行加权平均运算,以得到最优目标函数;其中,所述第一局部数据包括环境的训练状态、来自由第一训练节点响应于接收到训练状态而执行的动作的集合中的训练动作、由于第一训练节点执行训练动作而接收到的训练奖励、以及环境的下一训练状态;
所述第二训练节点用于获取第二局部数据,并将所述第二局部数据作为样本输入第二神经网络中训练,以得到第二最优子目标函数,将第二最优子目标函数的参数广播给所述第一训练节点,并接收来自所述第一训练节点的所述第一最优子目标函数的参数,将所述第一最优子目标函数的参数代入所述第二最优子目标函数中,得到所述第一最优子目标函数,将所述第一最优子目标函数和所述第二最优子目标函数进行加权平均运算,以得到最优目标函数;其中,所述第二局部数据包括环境的训练状态、来自由第二训练节点响应于接收到训练状态而执行的动作的集合中的训练动作、由于第二训练节点执行训练动作而接收到的训练奖励、以及环境的下一训练状态;所述邻居节点与环境进行交互;
其中,所述第一局部数据与所述第二局部数据不同。
12.一种强化学习模型的训练节点,其特征在于,包括:相互连接的通信电路和处理器;
所述处理器用于通过所述通信电路与邻居节点通信,并执行指令以实现如权利要求1-10任一项所述的训练方法。
13.一种强化学习模型的训练节点,其特征在于,包括:
网络训练模块,用于获取局部数据,并将所述局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数;其中,所述局部数据包括环境的训练状态、来自由训练节点响应于接收到训练状态而执行的动作的集合中的训练动作、由于训练节点执行训练动作而接收到的训练奖励、以及环境的下一训练状态;
参数获取模块,用于接收来自邻居节点的第二最优子目标函数的参数;所述邻居节点与环境进行交互;
参数代入模块,用于将所述第二最优子目标函数的参数代入所述第一最优子目标函数中,得到所述第二最优子目标函数;
函数生成模块,用于将所述第一最优子目标函数和所述第二最优子目标函数进行加权平均运算,以得到最优目标函数,具体包括:利用如下公式计算所述最优目标函数:
14.一种计算机存储介质,内部存储有程序,其特征在于,所述程序被执行以实现如权利要求1-11任一项所述的训练方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2018/108766 WO2020062165A1 (zh) | 2018-09-29 | 2018-09-29 | 一种强化学习模型的训练方法、节点、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109952582A CN109952582A (zh) | 2019-06-28 |
CN109952582B true CN109952582B (zh) | 2023-07-14 |
Family
ID=67006573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880002439.4A Active CN109952582B (zh) | 2018-09-29 | 2018-09-29 | 一种强化学习模型的训练方法、节点、系统及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109952582B (zh) |
WO (1) | WO2020062165A1 (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3993959A1 (de) * | 2019-07-01 | 2022-05-11 | KUKA Deutschland GmbH | Durchführen einer applikation mithilfe wenigstens eines roboters |
CN110399730B (zh) * | 2019-07-24 | 2021-05-04 | 上海交通大学 | 智能合约漏洞的检查方法、系统及介质 |
CN110874471B (zh) * | 2019-11-19 | 2021-02-23 | 支付宝(杭州)信息技术有限公司 | 保护隐私安全的神经网络模型的训练方法和装置 |
CN111027717A (zh) * | 2019-12-11 | 2020-04-17 | 支付宝(杭州)信息技术有限公司 | 一种模型训练方法和系统 |
CN111079946A (zh) * | 2019-12-20 | 2020-04-28 | 支付宝(杭州)信息技术有限公司 | 模型训练方法、成员探测装置的训练方法及其系统 |
CN113206786B (zh) * | 2020-01-31 | 2022-12-27 | 华为技术有限公司 | 训练智能体的方法和装置 |
CN111814189B (zh) * | 2020-08-21 | 2022-10-18 | 安徽大学 | 一种基于差分隐私的分布式学习隐私保护方法 |
CN112037800B (zh) * | 2020-09-22 | 2024-07-12 | 平安科技(深圳)有限公司 | 声纹核身模型训练方法、装置、介质及电子设备 |
CN111916210A (zh) * | 2020-09-30 | 2020-11-10 | 平安科技(深圳)有限公司 | 辅助诊断方法、装置、服务器及存储介质 |
CN112491971B (zh) * | 2020-11-09 | 2022-05-31 | 苏州浪潮智能科技有限公司 | 一种计算集群节点调度方法、装置、设备、产品 |
CN113762456A (zh) * | 2020-11-26 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种模型参数调节方法和系统 |
CN112540620B (zh) * | 2020-12-03 | 2022-10-14 | 西湖大学 | 足式机器人的强化学习方法、装置和电子设备 |
CN112580801B (zh) * | 2020-12-09 | 2021-10-15 | 广州优策科技有限公司 | 一种强化学习训练方法及基于强化学习的决策方法 |
CN115965093B (zh) * | 2021-10-09 | 2024-10-11 | 抖音视界有限公司 | 模型训练方法、装置、存储介质及电子设备 |
CN114327399B (zh) * | 2021-11-25 | 2024-07-26 | 腾讯科技(深圳)有限公司 | 分布式训练方法、装置、计算机设备、存储介质和产品 |
CN114367988B (zh) * | 2022-02-11 | 2023-11-17 | 煤炭科学研究总院有限公司 | 一种煤矿自主巡检平台上的机械臂运动规划方法和装置 |
CN114580578B (zh) * | 2022-05-06 | 2022-08-23 | 鹏城实验室 | 具有约束的分布式随机优化模型训练方法、装置及终端 |
CN117195705B (zh) * | 2023-08-30 | 2024-06-21 | 西安科技大学 | 基于强化学习的器件自动设计方法、装置及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105637540A (zh) * | 2013-10-08 | 2016-06-01 | 谷歌公司 | 用于强化学习的方法和设备 |
CN108427891A (zh) * | 2018-03-12 | 2018-08-21 | 南京理工大学 | 基于差分隐私保护的邻域推荐方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017044842A1 (en) * | 2015-09-11 | 2017-03-16 | Google Inc. | Training reinforcement learning neural networks |
CN107659444A (zh) * | 2017-09-25 | 2018-02-02 | 深圳大学 | 隐私保护协同Web服务质量的差分隐私预测系统及方法 |
CN108520303A (zh) * | 2018-03-02 | 2018-09-11 | 阿里巴巴集团控股有限公司 | 一种推荐系统构建方法及装置 |
-
2018
- 2018-09-29 CN CN201880002439.4A patent/CN109952582B/zh active Active
- 2018-09-29 WO PCT/CN2018/108766 patent/WO2020062165A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105637540A (zh) * | 2013-10-08 | 2016-06-01 | 谷歌公司 | 用于强化学习的方法和设备 |
CN108427891A (zh) * | 2018-03-12 | 2018-08-21 | 南京理工大学 | 基于差分隐私保护的邻域推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109952582A (zh) | 2019-06-28 |
WO2020062165A1 (zh) | 2020-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109952582B (zh) | 一种强化学习模型的训练方法、节点、系统及存储介质 | |
Dong et al. | A supervised learning and control method to improve particle swarm optimization algorithms | |
CN110520868B (zh) | 用于分布式强化学习的方法、程序产品和存储介质 | |
US12067491B2 (en) | Multi-agent reinforcement learning with matchmaking policies | |
WO2020025633A1 (en) | Incentive control for multi-agent systems | |
Malik et al. | New particle swarm optimizer with sigmoid increasing inertia weight | |
CN111612126A (zh) | 强化学习的方法和装置 | |
CN112119406A (zh) | 利用快速更新循环神经网络和慢速更新循环神经网络的深度强化学习 | |
US11366433B2 (en) | Reinforcement learning method and device | |
Fu et al. | Learning reduced systems via deep neural networks with memory | |
EP3568810A1 (en) | Action selection for reinforcement learning using neural networks | |
WO2018083669A1 (en) | Recurrent neural networks | |
JP7448683B2 (ja) | マルチタスク強化学習におけるメタ勾配を用いたアクション選択のための学習オプション | |
CN114815840A (zh) | 基于深度强化学习的多智能体路径规划方法 | |
CN107145937A (zh) | 基于弹性scad罚函数的回声状态网络时间序列预测方法 | |
CN112446462B (zh) | 目标神经网络模型的生成方法和装置 | |
Cornelius et al. | Estimating and leveraging uncertainties in deep learning for remaining useful life prediction in mechanical systems | |
Martínez et al. | Distortion based potential game for distributed coverage control | |
Zabidi et al. | Comparison between binary particles swarm optimization (BPSO) and binary artificial bee colony (BABC) for nonlinear autoregressive model structure selection of chaotic data | |
CN115542901B (zh) | 基于近端策略训练的可变形机器人避障方法 | |
Tripathi et al. | A nature inspired hybrid optimisation algorithm for dynamic environment with real parameter encoding | |
Molina-Markham et al. | Positioning, navigation, and timing trust inference engine | |
KhalafAnsar et al. | Adaptive Inverse Deep Reinforcement Lyapunov learning control for a floating wind turbine | |
KR20230079804A (ko) | 상태 전이를 선형화하는 강화 학습에 기반한 전자 장치 및 그 방법 | |
Yusof et al. | Formulation of a lightweight hybrid ai algorithm towards self-learning autonomous systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |