CN109952582B - 一种强化学习模型的训练方法、节点、系统及存储介质 - Google Patents

一种强化学习模型的训练方法、节点、系统及存储介质 Download PDF

Info

Publication number
CN109952582B
CN109952582B CN201880002439.4A CN201880002439A CN109952582B CN 109952582 B CN109952582 B CN 109952582B CN 201880002439 A CN201880002439 A CN 201880002439A CN 109952582 B CN109952582 B CN 109952582B
Authority
CN
China
Prior art keywords
training
objective function
optimal sub
node
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880002439.4A
Other languages
English (en)
Other versions
CN109952582A (zh
Inventor
袁振南
朱鹏新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quliantong Network Co ltd
Original Assignee
Quliantong Network Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quliantong Network Co ltd filed Critical Quliantong Network Co ltd
Publication of CN109952582A publication Critical patent/CN109952582A/zh
Application granted granted Critical
Publication of CN109952582B publication Critical patent/CN109952582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种强化学习模型的训练方法、节点、系统及存储介质。该训练方法包括:训练节点获取局部数据,并将该局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数;接收来自邻居节点的第二最优子目标函数的参数;将第二最优子目标函数的参数代入第一最优子目标函数中,得到第二最优子目标函数;将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数。通过上述方式,本申请能够改善强化学习模型训练过程中的数据泄露问题。

Description

一种强化学习模型的训练方法、节点、系统及存储介质
技术领域
本申请涉及机器学习技术领域,特别是涉及一种强化学习模型的训练方法、节点、系统及存储介质。
背景技术
强化学习算法是一种根据环境状态到动作映射的机器学习算法,以使得动作从环境中获得的累积奖励值最大。随着算力和算法的演进,强化学习在机器人控制、集群管理、网络流量控制中获得了大量应用。
然而在训练强化学习算法模型时需要大量的数据,这也给数据泄漏带来隐患。特别是在开放式网络集群中训练强化学习算法中,训练数据的直接泄漏以及利用训练完的模型间接推导出训练数据的泄漏隐忧更甚。
发明内容
本申请主要提供一种强化学习模型的训练方法、节点、系统及存储介质,能够改善强化学习模型训练过程中的数据泄露问题。
为了解决上述问题,本申请采用的第一个技术方案是:提供一种强化学习模型的训练方法,包括:训练节点获取局部数据,并将该局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数;接收来自邻居节点的第二最优子目标函数的参数;将第二最优子目标函数的参数代入第一最优子目标函数中,得到第二最优子目标函数;将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数。
为了解决上述问题,本申请采用的第二个技术方案是:提供一种强化学习模型的训练方法,包括:第一训练节点获取第一局部数据,并将第一局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数;第二训练节点获取第二局部数据,并将第二局部数据作为样本输入第二神经网络中训练,以得到第二最优子目标函数,其中第二训练节点是第一训练节点的邻居节点,第一局部数据与第二局部数据不同;第一训练节点将第一最优子目标函数的参数广播给第二训练节点,第二训练节点将第二最优子目标函数的参数广播给第一训练节点;第一训练节点将第二最优子目标函数的参数代入第一最优子目标函数中,得到第二最优子目标函数,第二训练节点将第一最优子目标函数的参数代入第二最优子目标函数中,得到第一最优子目标函数;第一训练节点和第二训练节点分别将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数。
为了解决上述问题,本申请采用的第三个技术方案是:提供一种强化学习模型的训练系统,包括:第一训练节点和第二训练节点,第二训练节点为第一训练节点的邻居节点;第一训练节点用于获取第一局部数据,并将第一局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数,将第一最优子目标函数的参数广播给第二训练节点,并接收来自第二训练节点的第二最优子目标函数的参数,将第二最优子目标函数的参数代入第一最优子目标函数中,得到第二最优子目标函数,将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数;第二训练节点用于获取第二局部数据,并将第二局部数据作为样本输入第二神经网络中训练,以得到第二最优子目标函数,将第二最优子目标函数的参数广播给第一训练节点,并接收来自第一训练节点的第一最优子目标函数的参数,将第一最优子目标函数的参数代入第二最优子目标函数中,得到第一最优子目标函数,将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数;其中,第一局部数据与第二局部数据不同。
为了解决上述问题,本申请采用的第四个技术方案是:提供一种强化学习模型的训练节点,包括:相互连接的通信电路和处理器;处理器用于通过该通信电路与邻居节点通信,并执行指令以实现如上所述的训练方法。
为了解决上述问题,本申请采用的第五个技术方案是:提供一种强化学习模型的训练节点,包括:网络训练模块,用于获取局部数据,并将局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数;参数获取模块,用于接收来自邻居节点的第二最优子目标函数的参数;参数代入模块,用于将第二最优子目标函数的参数代入第一最优子目标函数中,得到第二最优子目标函数;函数生成模块,用于将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数。
为了解决上述问题,本申请采用的第五个技术方案是:提供一种存储介质,内部存储有程序,该程序被执行以实现如上所述的训练方法。
本申请的有益效果是:区别于现有技术的情况,本申请的实施例中,训练节点获取局部数据,并利用自身的局部数据作为样本训练得到第一最优子目标函数后,利用来自邻居节点的第二最优子目标函数的参数,得到第二最优子目标函数,最后将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数,从而使得每个训练节点均只采用自身能够获取的局部数据进行训练,不能得到全局数据,因此可以解决单个或部分训练节点数据泄露导致的全局数据直接泄露的问题;此外,每个训练节点无需采集全局数据,可以简化每个训练节点的训练过程,提高训练速度。
附图说明
图1是本申请去中心化的全分布式强化学习系统的示意图;
图2是本申请强化学习模型的训练方法第一实施例的流程示意图;
图3是本申请强化学习模型的训练方法第二实施例的流程示意图;
图4是图3中步骤S112的具体流程示意图;
图5是本申请强化学习模型的训练方法第三实施例的流程示意图;
图6是图5中步骤S21的具体流程示意图;
图7是图6中步骤S211和S212的具体流程示意图;
图8是本申请强化学习模型的训练方法第四实施例的流程示意图;
图9是本申请强化学习模型的训练系统一实施例的结构示意图;
图10是本申请强化学习模型的训练节点第一实施例的结构示意图;
图11是本申请强化学习模型的训练节点第二实施例的结构示意图;
图12是本申请存储介质一实施例的结构示意图。
具体实施方式
下面结合附图和实施例对本申请进行详细说明。
本申请描述了一种强化学习系统的节点训练过程,尤其是如图1所示的去中心化的全分布式强化学习系统10中的节点101的训练过程。该强化学习系统10中每个节点101可以选择待由与环境进行交互的强化学习节点101执行的动作。该强化学习系统10包括多个节点101,为了使节点101与环境进行交互,每个节点101接收表征环境的当前状态的数据,并且从响应于接收到的数据待由节点101执行的动作空间的集合中选择动作。每个节点101在执行上述过程前,会进行训练,以得到执行上述过程的强化学习模型。
如图2所示,本申请一种强化学习模型的训练方法第一实施例,本实施例包括:
S11:训练节点获取局部数据,并将该局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数。
其中,该局部数据是该训练节点自身能够获取的训练数据,该训练数据可以包括环境的训练状态、来自由训练节点响应于接收到训练状态而执行的动作的集合中的训练动作、由于训练节点执行训练动作而接收到的训练奖励、以及环境的下一训练状态。
具体地,在一个应用例中,该第一神经网络为深度神经网络,该深度神经网络具有由参数确定的第一子目标函数,该第一神经网络可以将根据该第一神经网络的参数的当前值,通过使用该第一子目标函数来处理局部数据中的训练状态和训练动作以确定当前状态下的累积奖励,然后从该动作的集合中选择动作,所选择的动作在由该第一神经网络结合下一训练状态被处理时使该第一神经网络生成最高估计的累积奖励,更新该第一子目标函数,并重复上述过程,直到训练结束,可以得到该第一子目标函数的最终参数,该参数所确定的第一子目标函数即为该第一最优子目标函数。该第一最优子目标函数可以响应接收到的环境的状态,执行动作的集合中的动作,最终得到最大的累积奖励。
S12:接收来自邻居节点的第二最优子目标函数的参数。
S13:将第二最优子目标函数的参数代入第一最优子目标函数中,得到第二最优子目标函数。
S14:将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数。
结合图1所示,训练节点101a通过上述步骤S11获得第一最优子目标函数后,由于该第一最优子目标函数仅是由该训练节点101a自身可以获取的局部数据训练得到的,该第一最优子目标函数并不是最终的最优目标函数。本实施例中,每个节点101(包括训练节点101a和其邻居节点101b)可以将其自身的最优子目标函数的参数广播给其邻居节点,从而利用邻居节点101b的参数获取邻居节点101b的第二最优子目标函数,最终将训练节点101a自身的第一最优子目标函数和第二最优子目标函数进行加权平均运算,可以得到最终的最优目标函数。
在一个具体实施例中,可以利用如下公式(1)计算该最优目标函数:
Figure BDA0001903157850000051
其中,
Figure BDA0001903157850000052
为该最优目标函数,N为训练节点的数量和,/>
Figure BDA0001903157850000053
为第k个节点的最优子函数,ξk为第k个节点的最优子函数的参数。
节点包括当前训练节点和其邻居节点,当节点是当前训练节点时,该最优子函数对应该第一最优子目标函数,该最优子函数的参数对应第一最优子函数的参数,当该节点是邻居节点时,该最优子函数对应该第二最优子目标函数,该最优子函数的参数对应第二最优子函数的参数。
每个节点的最优子函数可以定义为累积奖励的平方的期望值,训练得到上述最优子函数的过程中,该最优子函数的参数可以采用迭代方式进行更新。
该最优子函数如下公式(2)所示:
Figure BDA0001903157850000061
其中,
Figure BDA0001903157850000062
为第k个节点的最优子函数,E[.]为求期望计算,vξ(st)为第t步迭代时通过第一神经网络训练得到的节点状态st时的值函数,yk,t为第t步迭代时通过第一神经网络训练得到的第k个节点的折扣奖励。该yk,t可以采用如下公式(3)计算得到
Figure BDA0001903157850000063
其中,γ为折扣因子,S为该第一神经网络训练状态的集合,θk为第k个节点定义参数族MDP(Markov Decision Process,马尔可夫决策过程)问题的超参数,
Figure BDA0001903157850000064
为第t步迭代时第k个节点采用动作at从状态st转变到状态s'的平均概率,vξ(s')为通过该第一神经网络得到的状态s'下的值函数,/>
Figure BDA0001903157850000065
为第t步迭代时第k个节点在状态st时采用动作at得到的反馈。
经过上述训练过程,所有节点的平均折扣奖励可以如下公式(4)所示:
Figure BDA0001903157850000066
其中,
Figure BDA0001903157850000067
为第t步迭代时所有节点的平均折扣奖励,N为节点的数量,yk,t为第t步迭代时通过第一神经网络训练得到的第k个节点的折扣奖励。
本实施例中,每个训练节点均只采用自身能够获取的局部数据进行训练,不能得到全局数据,因此可以解决单个或部分训练节点数据泄露导致的全局数据直接泄露的问题;此外,每个训练节点无需采集全局数据,可以简化每个训练节点的训练过程,提高训练速度,而且所有训练节点上的解都可以收敛到同一个最优目标函数解的附近邻域,得到近似解。
在其他实施例中,为防止各节点训练完的模型具有抗成员推断攻击等间接数据泄漏的可能,本申请可以在参数更新时遵循差分隐私的训练机制。
具体如图3所示,本申请强化学习模型的训练方法第二实施例是在本申请强化学习模型的训练方法第一实施例的基础上,进一步限定步骤S11包括:
S111:接收来自邻居节点的第一优化参数,该第一优化参数是第二训练节点对第二最优子目标函数进行梯度下降并叠加拉普拉斯随机噪声后获得的参数。
其中,每个节点对其最优子目标函数进行梯度下降可以是随机梯度下降,也可以是其他类型的梯度下降方式。该拉普拉斯随机噪声遵循差分隐私机制。
S112:将该第一优化参数进行加权和运算,得到更新参数。
其中,对第一优化参数进行加权和运算时,每个第一优化参数的权值可以相同也可以不同,具体可以根据每个邻居节点对当前训练节点的影响而定。
可选地,如图4所示,步骤S112可以包括:
S1121:获取第一优化参数的权重。
S1122:利用如下公式(5)计算该更新参数:
Figure BDA0001903157850000071
其中,ξk,t+1为第t步迭代时第k个训练节点的更新参数,Nk为第k个训练节点的邻居节点的集合,
Figure BDA0001903157850000072
为第t步迭代时第k个训练节点获取的第l个邻居节点的第一优化参数,clk为第k个训练节点接收第l个邻居节点的第一优化参数的权重。
S113:将该更新参数作为第一最优子目标函数的当前参数值,更新该第一最优子目标函数。
每次迭代更新后,训练节点的子目标函数的当前参数值会被更新为邻居节点的第一优化参数的加权和。训练节点对该子目标函数进行多次优化更新后,最终可以得到符合第一神经网络识别需求的第一最优子目标函数。每次优化更新过程均可以参考上述参数更新过程。
每个节点训练其神经网络过程中,需要对神经网络的参数,即自身的最优子目标函数的参数进行迭代更新,由于每个节点的参数迭代更新过程均类似,若某个节点被攻击,则该迭代更新和训练过程被泄露后,极易导致节点间推断攻击等间接数据泄漏。为了避免出现上述间接数据泄露,本实施例中,每个节点在参数迭代更新的过程中,叠加一拉普拉斯随机噪声,由于该拉普拉斯随机噪声是随机的,且遵循差分隐私机制,每个节点的参数迭代更新过程均不相同,可以使得单个/部分节点被攻击时,攻击者无法通过节点间的推断得到其他节点的迭代更新过程,也就无法得到其他节点的数据,从而可以避免出现节点间推断攻击等间接数据泄漏。
为了让该训练节点的邻居节点也能够进行类似的参数更新过程,如图5所示,本申请强化学习模型的训练方法第三实施例中,训练节点还可以执行如下步骤:
S21:将第一最优子目标函数进行梯度下降后获得第一最优子目标函数的第二优化参数。
S22:将该第二优化参数广播给其邻居节点。
具体地,训练节点对其第一最优子目标函数进行随机梯度下降过程中,可以叠加一拉普拉斯随机噪声,以得到该第二优化参数,之后将该第二优化参数广播给其邻居节点,以使得该邻居节点可以进行参数的迭代更新过程。
可选地,如图6所示,本实施中,步骤S21具体包括:
S211:计算第一最优子目标函数的梯度值,该梯度值为第一最优子目标函数的梯度叠加拉普拉斯随机噪声。
其中,该拉普拉斯随机噪声遵循差分隐私机制。该第一最优子目标函数的梯度是针对该第一最优子目标函数的参数进行的求梯度运算。
在一个具体实施例中,如图7所示,步骤S211包括:
S2111:获取第一神经网络针对第一最优子目标函数的差分隐私敏感性,差分隐私参数,以及训练节点和邻居节点组成的集群中邻居节点的最大数量。
其中,差分隐私机制可以保证攻击者能获取的目标数据几乎和他们从没有这个目标数据记录的数据集中能获取的相差无几,从而可以防止差分攻击导致的数据泄露。该差分隐私参数值越大,则隐私保证力度越小,该差分隐私参数具体取值可以根据隐私保护力度而定。
由于迭代过程中,每个节点的参数更新为邻居节点参数的加权组合,因此,本实施例中直接采用第一最优子目标函数作为该差分隐私敏感性,并将对应的拉普拉斯随机噪声调整为基于第一最优子目标函数和该差分隐私参数的拉普拉斯随机噪声与集群中邻居节点的最大数量的比值。
S2112:利用如下公式(6)计算该第一最优子目标函数的梯度值:
Figure BDA0001903157850000091
其中,
Figure BDA0001903157850000092
为第t步迭代时第k个训练节点的第一最优子目标函数,Tk,t为第t步迭代时第k个训练节点的样本长度,vξ,t(sk,t)为第t步迭代时通过第一神经网络训练得到的第k个训练节点状态sk,t时的值函数,vξ,t(sk,j)为第t步迭代时通过第一神经网络训练得到的第k个训练节点状态sk,j时的值函数,yk,t为第t步迭代时通过第一神经网络训练得到的第k个训练节点的折扣奖励,/>
Figure BDA0001903157850000093
为第一最优子目标函数针对参数ξ的求梯度运算,L(F,ε)为基于差分隐私敏感性F和差分隐私参数ε的拉普拉斯随机噪声,I为邻居节点的最大数量。
S212:将该梯度值和第一最优子目标函数的当前参数进行迭代计算获得第二优化参数。
在一个具体实施例中,该迭代计算过程遵循随机梯度下降算法,随机梯度下降可以使得目标函数沿关于该目标函数的参数的梯度方向上升最快。在优化该目标函数时,只需要将参数沿着梯度相反的方向前进一个步长,就可以实现目标函数的下降。
具体地,继续参阅图7,步骤S212包括:
S2121:获取迭代步长。
其中,该迭代步长可以控制每次迭代过程该梯度值的下降速度,在每次迭代过程中该迭代步长可以相同,也可以不同。
S2122:利用如下公式(7)计算该第二优化参数:
Figure BDA0001903157850000101
其中,
Figure BDA0001903157850000102
为经过第t步迭代后第k个训练节点的第二优化参数,ξk,t为迭代前第一最优子目标函数的当前参数,αk+1为迭代步长,/>
Figure BDA0001903157850000103
为第t步迭代时第k个训练节点的第一最优子目标函数。
通过上述公式(7)的迭代计算,每个训练节点可以得到自身的优化参数,之后每个训练节点可以将自身的优化参数广播给邻居节点,从而使得邻居节点可以更新其自身目标子函数的参数。
本实施例中,由于每个训练节点在参数迭代更新的过程中,叠加一拉普拉斯随机噪声,由于该拉普拉斯随机噪声是随机的,且遵循差分隐私机制,每个训练节点的参数迭代更新过程均不相同,可以使得单个/部分节点被攻击时,攻击者无法通过节点间的推断得到其他节点的迭代更新过程,也就无法得到其他节点的数据,从而可以避免出现节点间推断攻击等间接数据泄漏。
如图8所示,本申请强化学习模型的训练方法第四实施例是应用于强化学习系统,该强化学习系统包括第一训练节点和第二训练节点,该第二训练节点是第一训练节点的邻居节点。其中,第一训练节点和第二训练节点的数量分别可以是多个。本实施例的训练方法包括:
S31:第一训练节点获取第一局部数据,并将第一局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数。
S32:第二训练节点获取第二局部数据,并将第二局部数据作为样本输入第二神经网络中训练,以得到第二最优子目标函数,其中第一局部数据与第二局部数据不同。
S33:第一训练节点将第一最优子目标函数的参数广播给第二训练节点。
S34:第二训练节点将第二最优子目标函数的参数广播给第一训练节点。
S35:第一训练节点将第二最优子目标函数的参数代入第一最优子目标函数中,得到第二最优子目标函数。
S36:第二训练节点将第一最优子目标函数的参数代入第二最优子目标函数中,得到第一最优子目标函数。
S37:第一训练节点将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数。
S38:第二训练节点将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到该最优目标函数。
该第一训练节点和该第二训练节点的训练过程相同,但采用的训练数据不同,每个训练节点只用自身能够获取的局部数据进行训练,例如第一训练节点只能得到第一局部数据,第二训练节点只能得到第二局部数据,且第一局部数据和第二局部数据不同。
每个训练节点通过自身的局部数据训练之后,可以得到自身的最优子目标函数,例如第一训练节点得到第一最优子目标函数,第二训练节点得到第二最优子目标函数。其中每个训练节点的最优子目标函数具有对应的参数,每个训练节点得到该参数后,会将该参数广播到邻居节点,例如第一训练节点将第一最优子目标函数的参数广播给第二训练节点,而第二训练节点则将第二最优子目标函数的参数广播给第一训练节点。然后,每个训练节点都可以将接收到的邻居节点的参数代入其自身的最优子目标函数中,可以得到每个邻居节点的最优子目标函数,最后将自身的最优子目标函数和邻居节点的最优子目标函数求平均运算,即可以得到最终的全局最优目标函数。
本实施例中,上述步骤的具体执行过程可以参考本申请强化学习模型的训练方法第一至第三任一实施例或其不冲突的组合所提供的训练方法,此处不再重复。
本实施例中,每个训练节点均只采用自身能够获取的局部数据进行训练,不能得到全局数据,因此可以解决单个或部分训练节点数据泄露导致的全局数据直接泄露的问题;此外,每个训练节点无需采集全局数据,可以简化每个训练节点的训练过程,提高训练速度。
如图9所示,本申请强化学习模型的训练系统一实施例中,该强化学习模型的训练系统40包括:第一训练节点401和第二训练节点402,该第二训练节点402为第一训练节点401的邻居节点。
第一训练节点401用于获取第一局部数据,并将第一局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数,将第一最优子目标函数的参数广播给第二训练节点402,并接收来自第二训练节点402的第二最优子目标函数的参数,将第二最优子目标函数的参数代入第一最优子目标函数中,得到第二最优子目标函数,将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数。
第二训练节点402用于获取第二局部数据,并将第二局部数据作为样本输入第二神经网络中训练,以得到第二最优子目标函数,将第二最优子目标函数的参数广播给第一训练节点401,并接收来自第一训练节点401的第一最优子目标函数的参数,将第一最优子目标函数的参数代入第二最优子目标函数中,得到第一最优子目标函数,将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数。
其中,第一局部数据与第二局部数据不同。
本实施例中,该第一训练节点401和第二训练节点402的数量可以是多个,该第一训练节点401和第二训练节点402是相对的,针对一个训练节点,其自身可以是第一训练节点401,其邻居节点是第二训练节点402,当然,该训练节点自身也可以是第二训练节点402,其邻居节点是第一训练节点401。
该第一训练节点401和第二训练节点402可以是被配置为与环境进行交互的代理设备或智能体。当环境是虚拟环境(例如虚拟游戏)时,该第一训练节点401和第二训练节点402可以是一个或多个计算机程序。当环境是真实环境(例如某个特定区域的真实世界)时,第一训练节点401和第二训练节点402可以是机械代理(例如机器人)。
第一训练节点401和第二训练节点402的具体功能可以参考本申请强化学习模型的训练方法第四实施例所提供的训练方法,此处不再重复。
本实施例中,每个训练节点均只采用自身能够获取的局部数据进行训练,不能得到全局数据,因此可以解决单个或部分训练节点数据泄露导致的全局数据直接泄露的问题;此外,每个训练节点无需采集全局数据,可以简化每个训练节点的训练过程,提高训练速度。
如图10所示,本申请强化学习模型的训练节点第一实施例中,该强化学习模型的训练节点50包括:相互连接的通信电路501和处理器502。
通信电路501用于发送和接收数据,并作为训练节点50与其他训练节点通信的接口。
处理器502可以控制训练节点50的操作,也可以称为中央处理器(CentralProcessing Unit,CPU)。处理器502可以是具有信号处理能力的集成电路芯片,如通用处理器、数字信号处理器(Digital Signal Processor,DSP)、应用专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable GateArray,FPGA)或任何其他可编程逻辑器件、分立门、晶体管逻辑器件或分立硬件元件。通用处理器可以是微处理器或任何常规处理器。
处理器502用于通过该通信电路501与邻居节点通信,并执行指令以实现如本申请强化学习模型的训练方法第一至第三任一实施例所提供的训练方法。
训练节点50还可以包括用于存储处理器502操作所需的命令和数据的存储器(未显示)。存储器还可以存储通信电路501接收到的数据。
本实施例中,训练节点50只采用自身能够获取的局部数据进行训练,不能得到全局数据,因此可以解决单个或部分训练节点50数据泄露导致的全局数据直接泄露的问题;此外,每个训练节点50无需采集全局数据,可以简化每个训练节点的训练过程,提高训练速度。
如图11所示,本申请强化学习模型的训练节点第二实施例中,训练节点60包括:
网络训练模块601,用于获取局部数据,并将局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数。
参数获取模块602,用于接收来自邻居节点的第二最优子目标函数的参数。
参数代入模块603,用于将第二最优子目标函数的参数代入第一最优子目标函数中,得到第二最优子目标函数。
函数生成模块604,用于将第一最优子目标函数和第二最优子目标函数进行加权平均运算,以得到最优目标函数。
上述各个模块的具体功能可以参考本申请相应方法实施例的相关说明,此处不再详细说明。
如图12所示,本申请存储介质一实施例中,该存储介质70内部存储有程序701,该程序701被执行可以实现如本申请强化学习模型的训练方法第一至第四任一实施例所提供的训练方法。
存储介质70可以是能够存储程序代码的各种介质,例如USB闪存盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁盘或光盘等。
此外,该存储介质70也可以是包括上述介质的具有存储功能的设备,例如移动终端、服务器、电脑或者芯片等。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (14)

1.一种强化学习模型的训练方法,其特征在于,包括:
训练节点获取局部数据,并将所述局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数;其中,所述局部数据包括环境的训练状态、来自由训练节点响应于接收到训练状态而执行的动作的集合中的训练动作、由于训练节点执行训练动作而接收到的训练奖励、以及环境的下一训练状态;
接收来自邻居节点的第二最优子目标函数的参数;所述邻居节点与环境进行交互;
将所述第二最优子目标函数的参数代入所述第一最优子目标函数中,得到所述第二最优子目标函数;
将所述第一最优子目标函数和所述第二最优子目标函数进行加权平均运算,以得到最优目标函数,具体包括:利用如下公式计算所述最优目标函数:
Figure QLYQS_1
其中,
Figure QLYQS_2
为所述最优目标函数,/>
Figure QLYQS_3
为所述训练节点和其邻居节点的数量和,/>
Figure QLYQS_4
为第/>
Figure QLYQS_5
个节点的最优子函数,包括所述第一最优子目标函数和所述第二最优子目标函数,/>
Figure QLYQS_6
为所述第/>
Figure QLYQS_7
个节点的最优子函数的参数。
2.根据权利要求1所述的训练方法,其特征在于,所述训练方法进一步包括:
所述训练节点将所述第一最优子目标函数的参数广播给所述邻居节点。
3.根据权利要求1所述的训练方法,其特征在于,所述将所述局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数包括:
接收来自所述邻居节点的第一优化参数,所述第一优化参数是第二训练节点对所述第二最优子目标函数进行梯度下降并叠加拉普拉斯随机噪声后获得的参数;
将所述第一优化参数进行加权和运算,得到更新参数;
将所述更新参数作为所述第一最优子目标函数的当前参数值,更新所述第一最优子目标函数。
4.根据权利要求3所述的训练方法,其特征在于,所述将所述第一优化参数进行加权和运算,得到更新参数包括:
获取所述第一优化参数的权重;
利用如下公式计算所述更新参数:
其中,
Figure QLYQS_11
为第/>
Figure QLYQS_16
步迭代时第/>
Figure QLYQS_19
个所述训练节点的所述更新参数,/>
Figure QLYQS_10
为第/>
Figure QLYQS_14
个所述训练节点的邻居节点的集合,/>
Figure QLYQS_17
为第/>
Figure QLYQS_20
步迭代时第/>
Figure QLYQS_9
个所述训练节点获取的第/>
Figure QLYQS_13
个所述邻居节点的所述第一优化参数,/>
Figure QLYQS_15
为第/>
Figure QLYQS_18
个所述训练节点接收第/>
Figure QLYQS_12
个所述邻居节点的所述第一优化参数的权重。
5.根据权利要求3所述的训练方法,其特征在于,所述训练方法进一步包括:
对所述第一最优子目标函数进行梯度下降后获得所述第一最优子目标函数的第二优化参数;
将所述第二优化参数广播给所述邻居节点。
6.根据权利要求5所述的训练方法,其特征在于,所述对所述第一最优子目标函数进行梯度下降后获得所述第一最优子目标函数的第二优化参数包括:
计算所述第一最优子目标函数的梯度值,所述梯度值为所述第一最优子目标函数的梯度叠加拉普拉斯随机噪声;
将所述梯度值和所述第一最优子目标函数的当前参数进行迭代计算获得所述第二优化参数。
7.根据权利要求6所述的训练方法,其特征在于,所述计算所述第一最优子目标函数的梯度值,所述梯度值为所述第一最优子目标函数的梯度叠加拉普拉斯随机噪声包括:
获取所述第一神经网络针对所述第一最优子目标函数的差分隐私敏感性,差分隐私参数,以及所述训练节点和所述邻居节点组成的集群中邻居节点的最大数量;
利用如下公式计算所述梯度值:
Figure QLYQS_21
其中,
Figure QLYQS_34
为第/>
Figure QLYQS_25
步迭代时第/>
Figure QLYQS_41
个所述训练节点的所述第一最优子目标函数,/>
Figure QLYQS_28
为第/>
Figure QLYQS_32
步迭代时第/>
Figure QLYQS_26
个所述训练节点的样本长度,/>
Figure QLYQS_33
为第/>
Figure QLYQS_27
步迭代时通过所述第一神经网络训练得到的第/>
Figure QLYQS_30
个所述训练节点状态/>
Figure QLYQS_22
时的值函数,/>
Figure QLYQS_31
为第/>
Figure QLYQS_24
步迭代时通过所述第一神经网络训练得到的第/>
Figure QLYQS_43
个所述训练节点状态/>
Figure QLYQS_36
时的值函数,/>
Figure QLYQS_39
为第/>
Figure QLYQS_29
步迭代时通过所述第一神经网络训练得到的第/>
Figure QLYQS_42
个所述训练节点的折扣奖励,/>
Figure QLYQS_35
为所述第一最优子目标函数针对参数/>
Figure QLYQS_37
的求梯度运算,/>
Figure QLYQS_23
为基于所述差分隐私敏感性/>
Figure QLYQS_44
和所述差分隐私参数/>
Figure QLYQS_38
的拉普拉斯随机噪声,/>
Figure QLYQS_40
为所述邻居节点的最大数量。
8.根据权利要求7所述的训练方法,其特征在于,所述获取所述第一神经网络针对所述第一最优子目标函数的差分隐私敏感性包括:
将所述第一最优子目标函数作为所述差分隐私敏感性。
9.根据权利要求6所述的训练方法,其特征在于,所述将所述梯度值和所述第一最优子目标函数的当前参数进行迭代计算获得所述第二优化参数包括:
获取迭代步长;
利用如下公式计算所述第二优化参数:
Figure QLYQS_45
其中,
Figure QLYQS_47
为经过第/>
Figure QLYQS_49
步迭代后第/>
Figure QLYQS_53
个训练节点的所述第二优化参数,/>
Figure QLYQS_48
为迭代前所述第一最优子目标函数的当前参数,/>
Figure QLYQS_50
为所述迭代步长,/>
Figure QLYQS_51
为第/>
Figure QLYQS_52
步迭代时第/>
Figure QLYQS_46
个所述训练节点的所述第一最优子目标函数。
10.一种强化学习模型的训练方法,其特征在于,包括:
第一训练节点获取第一局部数据,并将所述第一局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数;其中,所述第一局部数据包括环境的训练状态、来自由第一训练节点响应于接收到训练状态而执行的动作的集合中的训练动作、由于第一训练节点执行训练动作而接收到的训练奖励、以及环境的下一训练状态;第二训练节点获取第二局部数据,并将所述第二局部数据作为样本输入第二神经网络中训练,以得到第二最优子目标函数,其中所述第二训练节点是所述第一训练节点的邻居节点,所述第一局部数据与所述第二局部数据不同;其中,所述第二局部数据包括环境的训练状态、来自由第二训练节点响应于接收到训练状态而执行的动作的集合中的训练动作、由于第二训练节点执行训练动作而接收到的训练奖励、以及环境的下一训练状态;所述邻居节点与环境进行交互;
所述第一训练节点将所述第一最优子目标函数的参数广播给所述第二训练节点,所述第二训练节点将所述第二最优子目标函数的参数广播给所述第一训练节点;
所述第一训练节点将所述第二最优子目标函数的参数代入所述第一最优子目标函数中,得到所述第二最优子目标函数,所述第二训练节点将所述第一最优子目标函数的参数代入所述第二最优子目标函数中,得到所述第一最优子目标函数;
所述第一训练节点和所述第二训练节点分别将所述第一最优子目标函数和所述第二最优子目标函数进行加权平均运算,以得到最优目标函数,具体包括:利用如下公式计算所述最优目标函数:
Figure QLYQS_54
其中,
Figure QLYQS_55
为所述最优目标函数,/>
Figure QLYQS_56
为所述第一训练节点或第二训练节点和其邻居节点的数量和,/>
Figure QLYQS_57
为第/>
Figure QLYQS_58
个节点的最优子函数,包括所述第一最优子目标函数和所述第二最优子目标函数,/>
Figure QLYQS_59
为所述第/>
Figure QLYQS_60
个节点的最优子函数的参数。
11.一种强化学习模型的训练系统,其特征在于,包括:第一训练节点和第二训练节点,所述第二训练节点为所述第一训练节点的邻居节点;所述邻居节点与环境进行交互;
所述第一训练节点用于获取第一局部数据,并将所述第一局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数,将所述第一最优子目标函数的参数广播给所述第二训练节点,并接收来自所述第二训练节点的第二最优子目标函数的参数,将所述第二最优子目标函数的参数代入所述第一最优子目标函数中,得到所述第二最优子目标函数,将所述第一最优子目标函数和所述第二最优子目标函数进行加权平均运算,以得到最优目标函数;其中,所述第一局部数据包括环境的训练状态、来自由第一训练节点响应于接收到训练状态而执行的动作的集合中的训练动作、由于第一训练节点执行训练动作而接收到的训练奖励、以及环境的下一训练状态;
所述第二训练节点用于获取第二局部数据,并将所述第二局部数据作为样本输入第二神经网络中训练,以得到第二最优子目标函数,将第二最优子目标函数的参数广播给所述第一训练节点,并接收来自所述第一训练节点的所述第一最优子目标函数的参数,将所述第一最优子目标函数的参数代入所述第二最优子目标函数中,得到所述第一最优子目标函数,将所述第一最优子目标函数和所述第二最优子目标函数进行加权平均运算,以得到最优目标函数;其中,所述第二局部数据包括环境的训练状态、来自由第二训练节点响应于接收到训练状态而执行的动作的集合中的训练动作、由于第二训练节点执行训练动作而接收到的训练奖励、以及环境的下一训练状态;所述邻居节点与环境进行交互;
其中,所述第一局部数据与所述第二局部数据不同。
12.一种强化学习模型的训练节点,其特征在于,包括:相互连接的通信电路和处理器;
所述处理器用于通过所述通信电路与邻居节点通信,并执行指令以实现如权利要求1-10任一项所述的训练方法。
13.一种强化学习模型的训练节点,其特征在于,包括:
网络训练模块,用于获取局部数据,并将所述局部数据作为样本输入第一神经网络中训练,以得到第一最优子目标函数;其中,所述局部数据包括环境的训练状态、来自由训练节点响应于接收到训练状态而执行的动作的集合中的训练动作、由于训练节点执行训练动作而接收到的训练奖励、以及环境的下一训练状态;
参数获取模块,用于接收来自邻居节点的第二最优子目标函数的参数;所述邻居节点与环境进行交互;
参数代入模块,用于将所述第二最优子目标函数的参数代入所述第一最优子目标函数中,得到所述第二最优子目标函数;
函数生成模块,用于将所述第一最优子目标函数和所述第二最优子目标函数进行加权平均运算,以得到最优目标函数,具体包括:利用如下公式计算所述最优目标函数:
Figure QLYQS_61
其中,
Figure QLYQS_62
为所述最优目标函数,/>
Figure QLYQS_63
为所述训练节点和其邻居节点的数量和,/>
Figure QLYQS_64
为第/>
Figure QLYQS_65
个节点的最优子函数,包括所述第一最优子目标函数和所述第二最优子目标函数,/>
Figure QLYQS_66
为所述第/>
Figure QLYQS_67
个节点的最优子函数的参数。
14.一种计算机存储介质,内部存储有程序,其特征在于,所述程序被执行以实现如权利要求1-11任一项所述的训练方法。
CN201880002439.4A 2018-09-29 2018-09-29 一种强化学习模型的训练方法、节点、系统及存储介质 Active CN109952582B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/108766 WO2020062165A1 (zh) 2018-09-29 2018-09-29 一种强化学习模型的训练方法、节点、系统及存储介质

Publications (2)

Publication Number Publication Date
CN109952582A CN109952582A (zh) 2019-06-28
CN109952582B true CN109952582B (zh) 2023-07-14

Family

ID=67006573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880002439.4A Active CN109952582B (zh) 2018-09-29 2018-09-29 一种强化学习模型的训练方法、节点、系统及存储介质

Country Status (2)

Country Link
CN (1) CN109952582B (zh)
WO (1) WO2020062165A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3993959A1 (de) * 2019-07-01 2022-05-11 KUKA Deutschland GmbH Durchführen einer applikation mithilfe wenigstens eines roboters
CN110399730B (zh) * 2019-07-24 2021-05-04 上海交通大学 智能合约漏洞的检查方法、系统及介质
CN110874471B (zh) * 2019-11-19 2021-02-23 支付宝(杭州)信息技术有限公司 保护隐私安全的神经网络模型的训练方法和装置
CN111027717A (zh) * 2019-12-11 2020-04-17 支付宝(杭州)信息技术有限公司 一种模型训练方法和系统
CN111079946A (zh) * 2019-12-20 2020-04-28 支付宝(杭州)信息技术有限公司 模型训练方法、成员探测装置的训练方法及其系统
CN113206786B (zh) * 2020-01-31 2022-12-27 华为技术有限公司 训练智能体的方法和装置
CN111814189B (zh) * 2020-08-21 2022-10-18 安徽大学 一种基于差分隐私的分布式学习隐私保护方法
CN112037800B (zh) * 2020-09-22 2024-07-12 平安科技(深圳)有限公司 声纹核身模型训练方法、装置、介质及电子设备
CN111916210A (zh) * 2020-09-30 2020-11-10 平安科技(深圳)有限公司 辅助诊断方法、装置、服务器及存储介质
CN112491971B (zh) * 2020-11-09 2022-05-31 苏州浪潮智能科技有限公司 一种计算集群节点调度方法、装置、设备、产品
CN113762456A (zh) * 2020-11-26 2021-12-07 北京沃东天骏信息技术有限公司 一种模型参数调节方法和系统
CN112540620B (zh) * 2020-12-03 2022-10-14 西湖大学 足式机器人的强化学习方法、装置和电子设备
CN112580801B (zh) * 2020-12-09 2021-10-15 广州优策科技有限公司 一种强化学习训练方法及基于强化学习的决策方法
CN115965093B (zh) * 2021-10-09 2024-10-11 抖音视界有限公司 模型训练方法、装置、存储介质及电子设备
CN114327399B (zh) * 2021-11-25 2024-07-26 腾讯科技(深圳)有限公司 分布式训练方法、装置、计算机设备、存储介质和产品
CN114367988B (zh) * 2022-02-11 2023-11-17 煤炭科学研究总院有限公司 一种煤矿自主巡检平台上的机械臂运动规划方法和装置
CN114580578B (zh) * 2022-05-06 2022-08-23 鹏城实验室 具有约束的分布式随机优化模型训练方法、装置及终端
CN117195705B (zh) * 2023-08-30 2024-06-21 西安科技大学 基于强化学习的器件自动设计方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105637540A (zh) * 2013-10-08 2016-06-01 谷歌公司 用于强化学习的方法和设备
CN108427891A (zh) * 2018-03-12 2018-08-21 南京理工大学 基于差分隐私保护的邻域推荐方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017044842A1 (en) * 2015-09-11 2017-03-16 Google Inc. Training reinforcement learning neural networks
CN107659444A (zh) * 2017-09-25 2018-02-02 深圳大学 隐私保护协同Web服务质量的差分隐私预测系统及方法
CN108520303A (zh) * 2018-03-02 2018-09-11 阿里巴巴集团控股有限公司 一种推荐系统构建方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105637540A (zh) * 2013-10-08 2016-06-01 谷歌公司 用于强化学习的方法和设备
CN108427891A (zh) * 2018-03-12 2018-08-21 南京理工大学 基于差分隐私保护的邻域推荐方法

Also Published As

Publication number Publication date
CN109952582A (zh) 2019-06-28
WO2020062165A1 (zh) 2020-04-02

Similar Documents

Publication Publication Date Title
CN109952582B (zh) 一种强化学习模型的训练方法、节点、系统及存储介质
Dong et al. A supervised learning and control method to improve particle swarm optimization algorithms
CN110520868B (zh) 用于分布式强化学习的方法、程序产品和存储介质
US12067491B2 (en) Multi-agent reinforcement learning with matchmaking policies
WO2020025633A1 (en) Incentive control for multi-agent systems
Malik et al. New particle swarm optimizer with sigmoid increasing inertia weight
CN111612126A (zh) 强化学习的方法和装置
CN112119406A (zh) 利用快速更新循环神经网络和慢速更新循环神经网络的深度强化学习
US11366433B2 (en) Reinforcement learning method and device
Fu et al. Learning reduced systems via deep neural networks with memory
EP3568810A1 (en) Action selection for reinforcement learning using neural networks
WO2018083669A1 (en) Recurrent neural networks
JP7448683B2 (ja) マルチタスク強化学習におけるメタ勾配を用いたアクション選択のための学習オプション
CN114815840A (zh) 基于深度强化学习的多智能体路径规划方法
CN107145937A (zh) 基于弹性scad罚函数的回声状态网络时间序列预测方法
CN112446462B (zh) 目标神经网络模型的生成方法和装置
Cornelius et al. Estimating and leveraging uncertainties in deep learning for remaining useful life prediction in mechanical systems
Martínez et al. Distortion based potential game for distributed coverage control
Zabidi et al. Comparison between binary particles swarm optimization (BPSO) and binary artificial bee colony (BABC) for nonlinear autoregressive model structure selection of chaotic data
CN115542901B (zh) 基于近端策略训练的可变形机器人避障方法
Tripathi et al. A nature inspired hybrid optimisation algorithm for dynamic environment with real parameter encoding
Molina-Markham et al. Positioning, navigation, and timing trust inference engine
KhalafAnsar et al. Adaptive Inverse Deep Reinforcement Lyapunov learning control for a floating wind turbine
KR20230079804A (ko) 상태 전이를 선형화하는 강화 학습에 기반한 전자 장치 및 그 방법
Yusof et al. Formulation of a lightweight hybrid ai algorithm towards self-learning autonomous systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant