CN116521584B - 一种基于多智能体的mpc缓存更新方法及系统 - Google Patents

一种基于多智能体的mpc缓存更新方法及系统 Download PDF

Info

Publication number
CN116521584B
CN116521584B CN202310753510.5A CN202310753510A CN116521584B CN 116521584 B CN116521584 B CN 116521584B CN 202310753510 A CN202310753510 A CN 202310753510A CN 116521584 B CN116521584 B CN 116521584B
Authority
CN
China
Prior art keywords
cache
agent
participant
data
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310753510.5A
Other languages
English (en)
Other versions
CN116521584A (zh
Inventor
李明柱
李文敏
刘淳于
陈飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinlian Technology Nanjing Co ltd
Original Assignee
Xinlian Technology Nanjing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinlian Technology Nanjing Co ltd filed Critical Xinlian Technology Nanjing Co ltd
Priority to CN202310753510.5A priority Critical patent/CN116521584B/zh
Publication of CN116521584A publication Critical patent/CN116521584A/zh
Application granted granted Critical
Publication of CN116521584B publication Critical patent/CN116521584B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/12Replacement control
    • G06F12/121Replacement control using replacement algorithms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

本发明涉及一种基于多智能体的MPC缓存更新方法及系统,采用全新逻辑设计,综合考虑各智能体缓存序列分别关于其待缓存数据的整体缺失,通过中心化训练方法,针对各智能体分别用于更新其缓存序列的缓存策略模型进行训练,获得各智能体分别所对应已训练完成的缓存策略模型,并应用去中心化执行方法,在数据不泄露的情况下,使用本地数据进行决策,对各智能体的缓存序列进行准确更新,减少应用中缓存序列置换次数,增加缓存命中率,进而降低了各智能体在数据加载阶段的平均用时,提高各智能体整体在实际应用中对数据调用的响应效率,与传统的基于经验的启发式缓存替换策略相比,本发明设计效率更高,更加适合复杂和多样化的访问序列场景。

Description

一种基于多智能体的MPC缓存更新方法及系统
技术领域
本发明涉及一种基于多智能体的MPC缓存更新方法及系统,属于多方缓存处理技术领域。
背景技术
安全多方计算(Secure Multi-Party Computation,MPC)研究的内容是如何在没有可信第三方的情况下设计函数,让多方可以在不泄露信息的情况下安全地获取输出,在进行计算操作时,根据MPC节点的计算,查询本地数据,根据计算操作计算数据。在整个过程中数据都存储在本地数据库中,因此不存在数据泄露问题,输入数据的隐私性得到了保证。如果多方本身的数据非常大,那么在数据集从本地服务器加载的过程中会占用大量的时间和计算资源,可以采用缓存替换的方法,减少重复数据的传输。
缓存技术是提高数据执行效率的主要方法,当处理器正在处理一个具有较高延迟的事件时,如果可以并行处理其他事件,那么数据访问的时间将会大大降低。数据访问速度主要依赖于缓存命中的概率,缓存命中率高的数据访问速度会比缓存命中率低的快上几个数量级,因此,在插入新缓存行时选择删除哪条缓存行,这在高效的缓存替换策略中显得尤为重要。缓存会将数据访问频率较高的内容保存到缓存中,利用算法总是访问相同缓存内容的特点,当算法再次访问时就可以快速获取,大量减少重复数据的传输,缩短了程序的执行时间。
目前,缓存替换策略可分为两种,一种是基于经验的启发式缓存替换策略,另一种是基于机器学习的缓存替换策略;基于经验的启发式缓存替换策略,FIFO (First InFirst Out)算法每次替换最先进入的数据,而不考虑之前被访问的频率;LRU(The LeastRecently Used)算法每次替换最久未被访问的数据,动态地调整数据记录之间的先后顺序,在实际应用使用较广;LFU(Least Frequently Used)算法每次替换访问次数最小的数据,是对数据访问频率单一维度的考虑。这些方法在一定程度上解决了如何进行缓存替换的问题,但是它们在特定的访问模式上表现良好,遇到多样化和复杂的访问序列则表现不佳。
许多研究人员将机器学习引入缓存策略,以帮助实现高效的缓存替换。L2LRU算法利用深度学习来学习缓存页面的再访问距离,从而减少重访页面时的指令调用,提高缓存效率。LeCaR是基于机器学习的缓存替换算法,通过强化在线学习和遗憾最小化方法应用于LRU和LFU策略,实现了高性能缓存替换。虽然这些方法都可以提升单一缓存的替换效率,但面对安全多方计算这样需要多方参与,基于单一节点的机器学习方法就不适应MPC节点协同缓存的场景了。
发明内容
本发明所要解决的技术问题是提供一种基于多智能体的MPC缓存更新方法,采用全新设计策略,综合各智能体对缓存数据的需求,提高各智能体缓存序列的应用效率。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种基于多智能体的MPC缓存更新方法,基于各智能体分别所对应已训练完成的缓存策略模型,各智能体分别实时执行如下步骤A至步骤C,实现各智能体分别所对应缓存序列的更新;
其中,缓存策略模型以智能体所对应缓存序列、待缓存数据构成的观测数据为输入,以该缓存序列中替换对象为输出;
步骤A. 基于智能体当前所对应的缓存序列、待缓存数据,判断该缓存序列中是否存在该待缓存数据,是则该智能体关于该待缓存数据的处理结束;否则进入步骤B;
步骤B. 以该智能体当前所对应的缓存序列、待缓存数据构成观测数据,并应用该智能体所对应的缓存策略模型,获得该缓存序列中替换对象,并进入步骤C;
步骤C. 若该缓存序列中替换对象为非空,则应用该待缓存数据对该缓存序列中的替换对象进行替换更新,该智能体关于该待缓存数据的处理结束;若该缓存序列中替换对象为空,则不对该缓存序列进行替换更新,该智能体关于该待缓存数据的处理结束。
作为本发明的一种优选技术方案:基于各智能体分别所对应的价值模型,初始化各智能体分别所对应缓存策略模型中的参数组、各智能体分别所对应价值模型中的参数组/>,以及初始化迭代次数/>,执行如下步骤i至步骤vii,完成各智能体分别所对应缓存策略模型的训练;
其中,,/>表示智能体的数量,/>表示第/>个智能体所对应缓存策略模型中的参数组;/>表示第/>个智能体所对应价值模型中的参数组;
步骤i. 首先初始化各智能体分别所对应的奖励为预设值,然后分别针对各智能体,基于智能体当前时刻所对应的缓存序列、待缓存数据,判断该缓存序列中是否存在该待缓存数据,是则对该智能体所对应的奖励不做处理,否则对该智能体所对应的奖励进行减1更新,并将该智能体定义为第/>次迭代参与方;进而更新获得各智能体当前时刻分别所对应的奖励,再进入步骤ii;其中,/>表示第/>个智能体所对应的奖励;
步骤ii. 判断全部智能体所对应的奖励之和是否大于预设奖励阈值,是则完成各智能体分别所对应缓存策略模型的训练,即获得各智能体分别所对应已训练完成的缓存策略模型;否则进入步骤iii;
步骤iii. 分别针对各个第次迭代参与方,以第/>次迭代参与方当前时刻所对应的缓存序列、待缓存数据构成观测数据/>,获得各第/>次迭代参与方当前时刻分别所对应的观测数据,然后进入步骤iv;/>,/>表示第/>次迭代参与方的数量,表示第/>个第/>次迭代参与方当前时刻所对应的观测数据;
步骤iv. 分别针对各个第次迭代参与方,基于第/>次迭代参与方当前时刻所对应的观测数据/>,应用该第/>次迭代参与方对应的缓存策略模型/>,获得该第/>次迭代参与方当前时刻所对应缓存序列中替换对象/>,进而获得各第/>次迭代参与方当前时刻分别所对应的其缓存序列中替换对象,然后进入步骤v;其中,/>表示第个第/>次迭代参与方所对应缓存策略模型中的参数组,/>表示第/>个第/>次迭代参与方当前时刻所对应其缓存序列中替换对象;
步骤v. 获得全部第次迭代参与方当前时刻分别所对应观测数据的集合/>,以及获得全部第/>次迭代参与方当前时刻所对应缓存序列中替换对象的集合/>,然后进入步骤vi;
步骤vi. 分别针对各第次迭代参与方,以集合/>、集合/>为输入,应用第/>次迭代参与方对应的价值模型/>,获得该第/>次迭代参与方所对应评分,进而获得各第/>次迭代参与方分别所对应评分,然后进入步骤vii;其中,/>表示第/>个第次迭代参与方所对应价值模型中的参数组;
步骤vii. 分别针对各个第次迭代参与方,根据第/>次迭代参与方所对应评分,更新该第/>次迭代参与方所对应缓存策略模型中的参数组/>,同时根据该第/>次迭代参与方所对应奖励/>,更新该第/>次迭代参与方所对应价值模型中的参数组/>;然后针对/>的值进行加1更新,并等待进入下一时刻时,再返回步骤i;其中,/>表示第/>个第/>次迭代参与方所对应的奖励。
作为本发明的一种优选技术方案:所述步骤vii中,分别针对各个第次迭代参与方,根据第/>次迭代参与方所对应评分,应用梯度上升方式更新该第/>次迭代参与方所对应缓存策略模型中的参数组/>,同时根据该第/>次迭代参与方所对应奖励/>,应用时序差分误差方法更新该第/>次迭代参与方所对应价值模型中的参数组/>
与上述相对应,本发明所要解决的技术问题是提供一种基于多智能体的MPC缓存更新方法的系统,针对各智能体进行模块化设计,提高各智能体缓存序列的应用效率。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种基于多智能体的MPC缓存更新方法的系统,包括各智能体分别所对应的缓存提取模块、缓存分析模块、缓存更新模块;其中,缓存提取模块用于提取对应智能体的缓存序列、待缓存数据,并发送至对应的缓存分析模块;缓存分析模块用于执行步骤A至步骤B,并将执行步骤B所获对应智能体的缓存序列中替换对象输出至缓存更新模块;缓存更新模块用于执行步骤C。
作为本发明的一种优选技术方案:还包括中央控制器、以及各智能体分别所对应的策略训练模块,基于中央控制器与各策略训练模块共同执行步骤i至步骤vii,完成各智能体分别所对应缓存策略模型的训练,其中,各智能体的策略训练模块共同执行步骤i、步骤iii、步骤iv、步骤vii,中央控制器执行步骤ii、步骤v、步骤vi。
本发明所述一种基于多智能体的MPC缓存更新方法及系统,采用以上技术方案与现有技术相比,具有以下技术效果:
(1)本发明所设计一种基于多智能体的MPC缓存更新方法及系统,采用全新逻辑设计,综合考虑各智能体缓存序列分别关于其待缓存数据的整体缺失,通过中心化训练方法,针对各智能体分别用于更新其缓存序列的缓存策略模型进行训练,获得各智能体分别所对应已训练完成的缓存策略模型,并应用去中心化执行方法,在数据不泄露的情况下,使用本地数据进行决策,对各智能体的缓存序列进行准确更新,减少应用中缓存序列置换次数,增加缓存命中率,进而降低了各智能体在数据加载阶段的平均用时,提高各智能体整体在实际应用中对数据调用的响应效率,与传统的基于经验的启发式缓存替换策略相比,本发明设计效率更高,更加适合复杂和多样化的访问序列场景。
附图说明
图1是本发明设计基于多智能体的MPC缓存更新方法的流程图;
图2是本发明设计中多智能体关于缓存策略模型的训练架构图;
图3是本发明设计中多智能体关于缓存策略模型的训练流程图;
图4是本发明设计中多智能体关于缓存策略模型的应用架构图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
针对MPC任务需要一方多次导入数据集,当数据很大的时候,会消化大量的时间,并且整个MPC过程需要多方参与,每个参与方提供的数据集大小不同,并且数据集不能泄露等特点。本发明提出一种高效、自适应的基于多智能体的MPC缓存更新方法,具体思路如下:
(1)本发明将MPC的多方看作多个智能体,使用进行中心化训练,去中心化执行的方法更新各智能体的神经网络参数,在保证数据隐私的情况下,达到各MPC节点协同缓存的效果。
(2)针对每一方的缓存替换策略,本发明首先提取了缓存序列,并将其作为输入,通过改进后的深度强化学习算法输出删除缓存数据的动作来完成缓存替换过程。
(3)通过时序差分误差进行梯度算法更新网络参数,让模型能够学习到针对复杂数据的缓存替换策略,同时策略网络只需本地数据就可做出决策,保证参与方数据不泄露。
具体设计中,本发明所设计基于多智能体的MPC缓存更新方法,基于各智能体分别所对应已训练完成的缓存策略模型,如图1和图4所示,各智能体分别实时执行如下步骤A至步骤C,实现各智能体分别所对应缓存序列的更新;其中,缓存策略模型以智能体所对应缓存序列、待缓存数据构成的观测数据为输入,以该缓存序列中替换对象为输出。
步骤A. 基于智能体当前所对应的缓存序列、待缓存数据,判断该缓存序列中是否存在该待缓存数据,是则该智能体关于该待缓存数据的处理结束;否则进入步骤B。
步骤B. 以该智能体当前所对应的缓存序列、待缓存数据构成观测数据,并应用该智能体所对应的缓存策略模型,获得该缓存序列中替换对象,并进入步骤C。
步骤C. 若该缓存序列中替换对象为非空,则应用该待缓存数据对该缓存序列中的替换对象进行替换更新,该智能体关于该待缓存数据的处理结束;若该缓存序列中替换对象为空,则不对该缓存序列进行替换更新,该智能体关于该待缓存数据的处理结束。
关于上述设计,本发明进一步设计了基于多智能体的MPC缓存更新方法的系统,具体包括各智能体分别所对应的缓存提取模块、缓存分析模块、缓存更新模块;其中,缓存提取模块用于提取对应智能体的缓存序列、待缓存数据,并发送至对应的缓存分析模块;缓存分析模块用于执行步骤A至步骤B,并将执行步骤B所获对应智能体的缓存序列中替换对象输出至缓存更新模块;缓存更新模块用于执行步骤C。
关于各智能体分别所对应已训练完成的缓存策略模型,进一步设计还包括中央控制器、以及各智能体分别所对应的策略训练模块,实际应用当中,基于各智能体分别所对应的价值模型,初始化各智能体分别所对应缓存策略模型中的参数组、各智能体分别所对应价值模型中的参数组/>,以及初始化迭代次数/>,按图2和图3所示,执行如下步骤i至步骤vii,完成各智能体分别所对应缓存策略模型的训练;其中,/>,/>表示智能体的数量,/>表示第/>个智能体所对应缓存策略模型中的参数组;/>表示第/>个智能体所对应价值模型中的参数组。
步骤i. 首先初始化各智能体分别所对应的奖励为预设值,然后分别针对各智能体,基于智能体当前时刻所对应的缓存序列、待缓存数据,判断该缓存序列中是否存在该待缓存数据,是则对该智能体所对应的奖励不做处理,否则对该智能体所对应的奖励进行减1更新,并将该智能体定义为第/>次迭代参与方;进而更新获得各智能体当前时刻分别所对应的奖励,再进入步骤ii;其中,/>表示第/>个智能体所对应的奖励。
步骤ii. 中央控制器判断全部智能体所对应的奖励之和是否大于预设奖励阈值,是则完成各智能体分别所对应缓存策略模型的训练,即获得各智能体分别所对应已训练完成的缓存策略模型;否则进入步骤iii。
步骤iii. 分别针对各个第次迭代参与方,第/>次迭代参与方的策略训练模块以第/>次迭代参与方当前时刻所对应的缓存序列、待缓存数据构成观测数据/>,获得各第/>次迭代参与方当前时刻分别所对应的观测数据,然后进入步骤iv;/>表示第/>次迭代参与方的数量,/>表示第/>个第/>次迭代参与方当前时刻所对应的观测数据。
步骤iv. 分别针对各个第次迭代参与方,第/>次迭代参与方的策略训练模块,基于第/>次迭代参与方当前时刻所对应的观测数据/>,发送至中央控制器,并应用该第/>次迭代参与方对应的缓存策略模型/>,获得该第/>次迭代参与方当前时刻所对应缓存序列中替换对象/>,进而获得各第/>次迭代参与方当前时刻分别所对应的其缓存序列中替换对象,发送至中央控制器,然后进入步骤v;其中,/>表示第/>个第/>次迭代参与方所对应缓存策略模型中的参数组,/>表示第/>个第/>次迭代参与方当前时刻所对应其缓存序列中替换对象。
步骤v. 中央控制器获得全部第次迭代参与方当前时刻分别所对应观测数据的集合/>,以及获得全部第/>次迭代参与方当前时刻所对应缓存序列中替换对象的集合/>,然后进入步骤vi。
步骤vi. 中央控制器分别针对各第次迭代参与方,以集合/>、集合/>为输入,应用第/>次迭代参与方对应的价值模型/>,获得该第/>次迭代参与方所对应评分,进而获得各第/>次迭代参与方分别所对应评分,分别返回至各第/>次迭代参与方的策略训练模块,然后进入步骤vii;其中,/>表示第/>个第/>次迭代参与方所对应价值模型中的参数组。
步骤vii. 分别针对各个第次迭代参与方,第/>次迭代参与方的策略训练模块根据第/>次迭代参与方所对应评分,应用梯度上升方式更新该第/>次迭代参与方所对应缓存策略模型中的参数组/>,同时第/>次迭代参与方的策略训练模块根据该第/>次迭代参与方所对应奖励/>,应用时序差分误差方法更新该第/>次迭代参与方所对应价值模型中的参数组/>;然后针对/>的值进行加1更新,并等待进入下一时刻时,再返回步骤i;其中,表示第/>个第/>次迭代参与方所对应的奖励。
上述技术方案所设计一种基于多智能体的MPC缓存更新方法及系统,采用全新逻辑设计,综合考虑各智能体缓存序列分别关于其待缓存数据的整体缺失,通过中心化训练方法,针对各智能体分别用于更新其缓存序列的缓存策略模型进行训练,获得各智能体分别所对应已训练完成的缓存策略模型,并应用去中心化执行方法,在数据不泄露的情况下,使用本地数据进行决策,对各智能体的缓存序列进行准确更新,减少应用中缓存序列置换次数,增加缓存命中率,进而降低了各智能体在数据加载阶段的平均用时,提高各智能体整体在实际应用中对数据调用的响应效率,与传统的基于经验的启发式缓存替换策略相比,本发明设计效率更高,更加适合复杂和多样化的访问序列场景。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (4)

1.一种基于多智能体的MPC缓存更新方法,其特征在于:基于各智能体分别所对应已训练完成的缓存策略模型,各智能体分别实时执行如下步骤A至步骤C,实现各智能体分别所对应缓存序列的更新;
其中,缓存策略模型以智能体所对应缓存序列、待缓存数据构成的观测数据为输入,以该缓存序列中替换对象为输出;
步骤A.基于智能体当前所对应的缓存序列、待缓存数据,判断该缓存序列中是否存在该待缓存数据,是则该智能体关于该待缓存数据的处理结束;否则进入步骤B;
步骤B.以该智能体当前所对应的缓存序列、待缓存数据构成观测数据,并应用该智能体所对应的缓存策略模型,获得该缓存序列中替换对象,并进入步骤C;
步骤C.若该缓存序列中替换对象为非空,则应用该待缓存数据对该缓存序列中的替换对象进行替换更新,该智能体关于该待缓存数据的处理结束;若该缓存序列中替换对象为空,则不对该缓存序列进行替换更新,该智能体关于该待缓存数据的处理结束;
关于各智能体分别所对应已训练完成的缓存策略模型,基于各智能体分别所对应的价值模型,初始化各智能体分别所对应缓存策略模型中的参数组θi、各智能体分别所对应价值模型中的参数组wi,以及初始化迭代次数k=1,执行如下步骤i至步骤vii,完成各智能体分别所对应缓存策略模型的训练;
其中,1≤i≤I,I表示智能体的数量,θi表示第i个智能体所对应缓存策略模型中的参数组;wi表示第i个智能体所对应价值模型中的参数组;
步骤i.首先初始化各智能体分别所对应的奖励ri为预设值,然后分别针对各智能体,基于智能体当前时刻所对应的缓存序列、待缓存数据,判断该缓存序列中是否存在该待缓存数据,是则对该智能体所对应的奖励不做处理,否则对该智能体所对应的奖励进行减1更新,并将该智能体定义为第k次迭代参与方;进而更新获得各智能体当前时刻分别所对应的奖励,再进入步骤ii;其中,ri表示第i个智能体所对应的奖励;
步骤ii.判断全部智能体所对应的奖励之和是否大于预设奖励阈值,是则完成各智能体分别所对应缓存策略模型的训练,即获得各智能体分别所对应已训练完成的缓存策略模型;否则进入步骤iii;
步骤iii.分别针对各个第k次迭代参与方,以第k次迭代参与方当前时刻所对应的缓存序列、待缓存数据构成观测数据获得各第k次迭代参与方当前时刻分别所对应的观测数据,然后进入步骤iv;0≤jk≤Jk,Jk表示第k次迭代参与方的数量,/>表示第jk个第k次迭代参与方当前时刻所对应的观测数据;
步骤iv.分别针对各个第k次迭代参与方,基于第k次迭代参与方当前时刻所对应的观测数据应用该第k次迭代参与方对应的缓存策略模型/>获得该第k次迭代参与方当前时刻所对应缓存序列中替换对象/>进而获得各第k次迭代参与方当前时刻分别所对应的其缓存序列中替换对象,然后进入步骤v;其中,/>表示第jk个第k次迭代参与方所对应缓存策略模型中的参数组,/>表示第jk个第k次迭代参与方当前时刻所对应其缓存序列中替换对象;
步骤v.获得全部第k次迭代参与方当前时刻分别所对应观测数据的集合ok,以及获得全部第k次迭代参与方当前时刻所对应缓存序列中替换对象的集合ak,然后进入步骤vi;
步骤vi.分别针对各第k次迭代参与方,以集合ok、集合ak为输入,应用第k次迭代参与方对应的价值模型获得该第k次迭代参与方所对应评分,进而获得各第k次迭代参与方分别所对应评分,然后进入步骤vii;其中,/>表示第jk个第k次迭代参与方所对应价值模型中的参数组;
步骤vii.分别针对各个第k次迭代参与方,根据第k次迭代参与方所对应评分,更新该第k次迭代参与方所对应缓存策略模型中的参数组同时根据该第k次迭代参与方所对应奖励/>更新该第k次迭代参与方所对应价值模型中的参数组/>然后针对k的值进行加1更新,并等待进入下一时刻时,再返回步骤i;其中,/>表示第jk个第k次迭代参与方所对应的奖励。
2.根据权利要求1所述一种基于多智能体的MPC缓存更新方法,其特征在于:所述步骤vii中,分别针对各个第k次迭代参与方,根据第k次迭代参与方所对应评分,应用梯度上升方式更新该第k次迭代参与方所对应缓存策略模型中的参数组同时根据该第k次迭代参与方所对应奖励/>应用时序差分误差方法更新该第k次迭代参与方所对应价值模型中的参数组/>
3.实现权利要求1至2中任意一项所述一种基于多智能体的MPC缓存更新方法的系统,其特征在于:包括各智能体分别所对应的缓存提取模块、缓存分析模块、缓存更新模块;其中,缓存提取模块用于提取对应智能体的缓存序列、待缓存数据,并发送至对应的缓存分析模块;缓存分析模块用于执行步骤A至步骤B,并将执行步骤B所获对应智能体的缓存序列中替换对象输出至缓存更新模块;缓存更新模块用于执行步骤C。
4.根据权利要求3所述一种基于多智能体的MPC缓存更新方法的系统,其特征在于:还包括中央控制器、以及各智能体分别所对应的策略训练模块,基于中央控制器与各策略训练模块共同执行步骤i至步骤vii,完成各智能体分别所对应缓存策略模型的训练,其中,各智能体的策略训练模块共同执行步骤i、步骤iii、步骤iv、步骤vii,中央控制器执行步骤ii、步骤v、步骤vi。
CN202310753510.5A 2023-06-26 2023-06-26 一种基于多智能体的mpc缓存更新方法及系统 Active CN116521584B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310753510.5A CN116521584B (zh) 2023-06-26 2023-06-26 一种基于多智能体的mpc缓存更新方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310753510.5A CN116521584B (zh) 2023-06-26 2023-06-26 一种基于多智能体的mpc缓存更新方法及系统

Publications (2)

Publication Number Publication Date
CN116521584A CN116521584A (zh) 2023-08-01
CN116521584B true CN116521584B (zh) 2023-10-13

Family

ID=87394445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310753510.5A Active CN116521584B (zh) 2023-06-26 2023-06-26 一种基于多智能体的mpc缓存更新方法及系统

Country Status (1)

Country Link
CN (1) CN116521584B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113676513A (zh) * 2021-07-15 2021-11-19 东北大学 一种深度强化学习驱动的网内缓存优化方法
CN114786200A (zh) * 2022-04-21 2022-07-22 重庆邮电大学 一种基于协作感知的数据智能缓存方法
CN115714814A (zh) * 2022-05-11 2023-02-24 重庆大学 一种基于多智能体强化学习的边缘缓存替换方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113676513A (zh) * 2021-07-15 2021-11-19 东北大学 一种深度强化学习驱动的网内缓存优化方法
CN114786200A (zh) * 2022-04-21 2022-07-22 重庆邮电大学 一种基于协作感知的数据智能缓存方法
CN115714814A (zh) * 2022-05-11 2023-02-24 重庆大学 一种基于多智能体强化学习的边缘缓存替换方法

Also Published As

Publication number Publication date
CN116521584A (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN109948029B (zh) 基于神经网络自适应的深度哈希图像搜索方法
CN113905391B (zh) 集成学习网络流量预测方法、系统、设备、终端、介质
CN109934332A (zh) 基于评论家和双经验池的深度确定性策略梯度学习方法
CN110852448A (zh) 一种基于多智能体强化学习的合作型智能体的学习方法
CN113449864B (zh) 用于图像数据分类的反馈型脉冲神经网络模型训练方法
CN109284812B (zh) 一种基于改进dqn的视频游戏模拟方法
CN112717415B (zh) 一种基于信息瓶颈理论的强化学习对战游戏ai训练方法
CN112699247A (zh) 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN113570039B (zh) 一种基于强化学习的优化共识的区块链系统
CN106980650A (zh) 一种面向Twitter观点分类的情感增强词嵌入学习方法
CN105427241A (zh) 一种大视场显示设备的畸变校正方法
CN112700326A (zh) 一种基于灰狼算法优化bp神经网络的信贷违约预测方法
CN114065929A (zh) 一种深度强化学习模型的训练方法、装置及存储介质
CN112818588A (zh) 一种电力系统的最优潮流计算方法、装置及存储介质
CN115437795A (zh) 一种异构gpu集群负载感知的显存重计算优化方法及系统
CN116841317A (zh) 一种基于图注意力强化学习的无人机集群协同对抗方法
CN116521584B (zh) 一种基于多智能体的mpc缓存更新方法及系统
CN112651110B (zh) 基于多阶段动态博弈的恶性数据注入攻击防御方法
CN113987203A (zh) 一种基于仿射变换与偏置建模的知识图谱推理方法与系统
CN115599918B (zh) 一种基于图增强的互学习文本分类方法及系统
CN116151409A (zh) 基于神经网络的城市日需水量预测的方法
CN113780577B (zh) 一种分层决策的完全合作多智能体强化学习方法和系统
CN109816530A (zh) 一种基于深度强化学习a3c算法的金融交易方法
Zheng Evaluation of Sino-foreign Cooperative Education Model by Big Data and Deep Learning
CN117875397B (zh) 一种待更新参数选择方法、装置、计算设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant