CN116521584B

CN116521584B - 一种基于多智能体的mpc缓存更新方法及系统

Info

Publication number: CN116521584B
Application number: CN202310753510.5A
Authority: CN
Inventors: 李明柱; 李文敏; 刘淳于; 陈飞
Original assignee: Xinlian Technology Nanjing Co ltd
Current assignee: Xinlian Technology Nanjing Co ltd
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-10-13
Anticipated expiration: 2043-06-26
Also published as: CN116521584A

Abstract

本发明涉及一种基于多智能体的MPC缓存更新方法及系统，采用全新逻辑设计，综合考虑各智能体缓存序列分别关于其待缓存数据的整体缺失，通过中心化训练方法，针对各智能体分别用于更新其缓存序列的缓存策略模型进行训练，获得各智能体分别所对应已训练完成的缓存策略模型，并应用去中心化执行方法，在数据不泄露的情况下，使用本地数据进行决策，对各智能体的缓存序列进行准确更新，减少应用中缓存序列置换次数，增加缓存命中率，进而降低了各智能体在数据加载阶段的平均用时，提高各智能体整体在实际应用中对数据调用的响应效率，与传统的基于经验的启发式缓存替换策略相比，本发明设计效率更高，更加适合复杂和多样化的访问序列场景。

Description

一种基于多智能体的MPC缓存更新方法及系统

技术领域

本发明涉及一种基于多智能体的MPC缓存更新方法及系统，属于多方缓存处理技术领域。

背景技术

安全多方计算（Secure Multi-Party Computation，MPC）研究的内容是如何在没有可信第三方的情况下设计函数，让多方可以在不泄露信息的情况下安全地获取输出，在进行计算操作时，根据MPC节点的计算，查询本地数据，根据计算操作计算数据。在整个过程中数据都存储在本地数据库中，因此不存在数据泄露问题，输入数据的隐私性得到了保证。如果多方本身的数据非常大，那么在数据集从本地服务器加载的过程中会占用大量的时间和计算资源，可以采用缓存替换的方法，减少重复数据的传输。

缓存技术是提高数据执行效率的主要方法，当处理器正在处理一个具有较高延迟的事件时，如果可以并行处理其他事件，那么数据访问的时间将会大大降低。数据访问速度主要依赖于缓存命中的概率，缓存命中率高的数据访问速度会比缓存命中率低的快上几个数量级，因此，在插入新缓存行时选择删除哪条缓存行，这在高效的缓存替换策略中显得尤为重要。缓存会将数据访问频率较高的内容保存到缓存中，利用算法总是访问相同缓存内容的特点，当算法再次访问时就可以快速获取，大量减少重复数据的传输，缩短了程序的执行时间。

目前，缓存替换策略可分为两种，一种是基于经验的启发式缓存替换策略，另一种是基于机器学习的缓存替换策略；基于经验的启发式缓存替换策略，FIFO （First InFirst Out）算法每次替换最先进入的数据，而不考虑之前被访问的频率；LRU（The LeastRecently Used）算法每次替换最久未被访问的数据，动态地调整数据记录之间的先后顺序，在实际应用使用较广；LFU（Least Frequently Used）算法每次替换访问次数最小的数据，是对数据访问频率单一维度的考虑。这些方法在一定程度上解决了如何进行缓存替换的问题，但是它们在特定的访问模式上表现良好，遇到多样化和复杂的访问序列则表现不佳。

许多研究人员将机器学习引入缓存策略，以帮助实现高效的缓存替换。L2LRU算法利用深度学习来学习缓存页面的再访问距离，从而减少重访页面时的指令调用，提高缓存效率。LeCaR是基于机器学习的缓存替换算法，通过强化在线学习和遗憾最小化方法应用于LRU和LFU策略，实现了高性能缓存替换。虽然这些方法都可以提升单一缓存的替换效率，但面对安全多方计算这样需要多方参与，基于单一节点的机器学习方法就不适应MPC节点协同缓存的场景了。

发明内容

本发明所要解决的技术问题是提供一种基于多智能体的MPC缓存更新方法，采用全新设计策略，综合各智能体对缓存数据的需求，提高各智能体缓存序列的应用效率。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种基于多智能体的MPC缓存更新方法，基于各智能体分别所对应已训练完成的缓存策略模型，各智能体分别实时执行如下步骤A至步骤C，实现各智能体分别所对应缓存序列的更新；

其中，缓存策略模型以智能体所对应缓存序列、待缓存数据构成的观测数据为输入，以该缓存序列中替换对象为输出；

步骤A. 基于智能体当前所对应的缓存序列、待缓存数据，判断该缓存序列中是否存在该待缓存数据，是则该智能体关于该待缓存数据的处理结束；否则进入步骤B；

步骤B. 以该智能体当前所对应的缓存序列、待缓存数据构成观测数据，并应用该智能体所对应的缓存策略模型，获得该缓存序列中替换对象，并进入步骤C；

步骤C. 若该缓存序列中替换对象为非空，则应用该待缓存数据对该缓存序列中的替换对象进行替换更新，该智能体关于该待缓存数据的处理结束；若该缓存序列中替换对象为空，则不对该缓存序列进行替换更新，该智能体关于该待缓存数据的处理结束。

作为本发明的一种优选技术方案：基于各智能体分别所对应的价值模型，初始化各智能体分别所对应缓存策略模型中的参数组、各智能体分别所对应价值模型中的参数组/>，以及初始化迭代次数/>，执行如下步骤i至步骤vii，完成各智能体分别所对应缓存策略模型的训练；

其中，，/>表示智能体的数量，/>表示第/>个智能体所对应缓存策略模型中的参数组；/>表示第/>个智能体所对应价值模型中的参数组；

步骤i. 首先初始化各智能体分别所对应的奖励为预设值，然后分别针对各智能体，基于智能体当前时刻所对应的缓存序列、待缓存数据，判断该缓存序列中是否存在该待缓存数据，是则对该智能体所对应的奖励不做处理，否则对该智能体所对应的奖励进行减1更新，并将该智能体定义为第/>次迭代参与方；进而更新获得各智能体当前时刻分别所对应的奖励，再进入步骤ii；其中，/>表示第/>个智能体所对应的奖励；

步骤ii. 判断全部智能体所对应的奖励之和是否大于预设奖励阈值，是则完成各智能体分别所对应缓存策略模型的训练，即获得各智能体分别所对应已训练完成的缓存策略模型；否则进入步骤iii；

步骤iii. 分别针对各个第次迭代参与方，以第/>次迭代参与方当前时刻所对应的缓存序列、待缓存数据构成观测数据/>，获得各第/>次迭代参与方当前时刻分别所对应的观测数据，然后进入步骤iv；/>，/>表示第/>次迭代参与方的数量，表示第/>个第/>次迭代参与方当前时刻所对应的观测数据；

步骤iv. 分别针对各个第次迭代参与方，基于第/>次迭代参与方当前时刻所对应的观测数据/>，应用该第/>次迭代参与方对应的缓存策略模型/>，获得该第/>次迭代参与方当前时刻所对应缓存序列中替换对象/>，进而获得各第/>次迭代参与方当前时刻分别所对应的其缓存序列中替换对象，然后进入步骤v；其中，/>表示第个第/>次迭代参与方所对应缓存策略模型中的参数组，/>表示第/>个第/>次迭代参与方当前时刻所对应其缓存序列中替换对象；

步骤v. 获得全部第次迭代参与方当前时刻分别所对应观测数据的集合/>，以及获得全部第/>次迭代参与方当前时刻所对应缓存序列中替换对象的集合/>，然后进入步骤vi；

步骤vi. 分别针对各第次迭代参与方，以集合/>、集合/>为输入，应用第/>次迭代参与方对应的价值模型/>，获得该第/>次迭代参与方所对应评分,进而获得各第/>次迭代参与方分别所对应评分，然后进入步骤vii；其中，/>表示第/>个第次迭代参与方所对应价值模型中的参数组；

步骤vii. 分别针对各个第次迭代参与方，根据第/>次迭代参与方所对应评分，更新该第/>次迭代参与方所对应缓存策略模型中的参数组/>，同时根据该第/>次迭代参与方所对应奖励/>，更新该第/>次迭代参与方所对应价值模型中的参数组/>；然后针对/>的值进行加1更新，并等待进入下一时刻时，再返回步骤i；其中，/>表示第/>个第/>次迭代参与方所对应的奖励。

作为本发明的一种优选技术方案：所述步骤vii中，分别针对各个第次迭代参与方，根据第/>次迭代参与方所对应评分，应用梯度上升方式更新该第/>次迭代参与方所对应缓存策略模型中的参数组/>，同时根据该第/>次迭代参与方所对应奖励/>，应用时序差分误差方法更新该第/>次迭代参与方所对应价值模型中的参数组/>。

与上述相对应，本发明所要解决的技术问题是提供一种基于多智能体的MPC缓存更新方法的系统，针对各智能体进行模块化设计，提高各智能体缓存序列的应用效率。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种基于多智能体的MPC缓存更新方法的系统，包括各智能体分别所对应的缓存提取模块、缓存分析模块、缓存更新模块；其中，缓存提取模块用于提取对应智能体的缓存序列、待缓存数据，并发送至对应的缓存分析模块；缓存分析模块用于执行步骤A至步骤B，并将执行步骤B所获对应智能体的缓存序列中替换对象输出至缓存更新模块；缓存更新模块用于执行步骤C。

作为本发明的一种优选技术方案：还包括中央控制器、以及各智能体分别所对应的策略训练模块，基于中央控制器与各策略训练模块共同执行步骤i至步骤vii，完成各智能体分别所对应缓存策略模型的训练，其中，各智能体的策略训练模块共同执行步骤i、步骤iii、步骤iv、步骤vii，中央控制器执行步骤ii、步骤v、步骤vi。

本发明所述一种基于多智能体的MPC缓存更新方法及系统，采用以上技术方案与现有技术相比，具有以下技术效果：

（1）本发明所设计一种基于多智能体的MPC缓存更新方法及系统，采用全新逻辑设计，综合考虑各智能体缓存序列分别关于其待缓存数据的整体缺失，通过中心化训练方法，针对各智能体分别用于更新其缓存序列的缓存策略模型进行训练，获得各智能体分别所对应已训练完成的缓存策略模型，并应用去中心化执行方法，在数据不泄露的情况下，使用本地数据进行决策，对各智能体的缓存序列进行准确更新，减少应用中缓存序列置换次数，增加缓存命中率，进而降低了各智能体在数据加载阶段的平均用时，提高各智能体整体在实际应用中对数据调用的响应效率，与传统的基于经验的启发式缓存替换策略相比，本发明设计效率更高，更加适合复杂和多样化的访问序列场景。

附图说明

图1是本发明设计基于多智能体的MPC缓存更新方法的流程图；

图2是本发明设计中多智能体关于缓存策略模型的训练架构图；

图3是本发明设计中多智能体关于缓存策略模型的训练流程图；

图4是本发明设计中多智能体关于缓存策略模型的应用架构图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

针对MPC任务需要一方多次导入数据集，当数据很大的时候，会消化大量的时间，并且整个MPC过程需要多方参与，每个参与方提供的数据集大小不同，并且数据集不能泄露等特点。本发明提出一种高效、自适应的基于多智能体的MPC缓存更新方法，具体思路如下：

（1）本发明将MPC的多方看作多个智能体，使用进行中心化训练，去中心化执行的方法更新各智能体的神经网络参数，在保证数据隐私的情况下，达到各MPC节点协同缓存的效果。

（2）针对每一方的缓存替换策略，本发明首先提取了缓存序列，并将其作为输入，通过改进后的深度强化学习算法输出删除缓存数据的动作来完成缓存替换过程。

（3）通过时序差分误差进行梯度算法更新网络参数，让模型能够学习到针对复杂数据的缓存替换策略，同时策略网络只需本地数据就可做出决策，保证参与方数据不泄露。

具体设计中，本发明所设计基于多智能体的MPC缓存更新方法，基于各智能体分别所对应已训练完成的缓存策略模型，如图1和图4所示，各智能体分别实时执行如下步骤A至步骤C，实现各智能体分别所对应缓存序列的更新；其中，缓存策略模型以智能体所对应缓存序列、待缓存数据构成的观测数据为输入，以该缓存序列中替换对象为输出。

步骤A. 基于智能体当前所对应的缓存序列、待缓存数据，判断该缓存序列中是否存在该待缓存数据，是则该智能体关于该待缓存数据的处理结束；否则进入步骤B。

步骤B. 以该智能体当前所对应的缓存序列、待缓存数据构成观测数据，并应用该智能体所对应的缓存策略模型，获得该缓存序列中替换对象，并进入步骤C。

关于上述设计，本发明进一步设计了基于多智能体的MPC缓存更新方法的系统，具体包括各智能体分别所对应的缓存提取模块、缓存分析模块、缓存更新模块；其中，缓存提取模块用于提取对应智能体的缓存序列、待缓存数据，并发送至对应的缓存分析模块；缓存分析模块用于执行步骤A至步骤B，并将执行步骤B所获对应智能体的缓存序列中替换对象输出至缓存更新模块；缓存更新模块用于执行步骤C。

关于各智能体分别所对应已训练完成的缓存策略模型，进一步设计还包括中央控制器、以及各智能体分别所对应的策略训练模块，实际应用当中，基于各智能体分别所对应的价值模型，初始化各智能体分别所对应缓存策略模型中的参数组、各智能体分别所对应价值模型中的参数组/>，以及初始化迭代次数/>，按图2和图3所示，执行如下步骤i至步骤vii，完成各智能体分别所对应缓存策略模型的训练；其中，/>，/>表示智能体的数量，/>表示第/>个智能体所对应缓存策略模型中的参数组；/>表示第/>个智能体所对应价值模型中的参数组。

步骤i. 首先初始化各智能体分别所对应的奖励为预设值，然后分别针对各智能体，基于智能体当前时刻所对应的缓存序列、待缓存数据，判断该缓存序列中是否存在该待缓存数据，是则对该智能体所对应的奖励不做处理，否则对该智能体所对应的奖励进行减1更新，并将该智能体定义为第/>次迭代参与方；进而更新获得各智能体当前时刻分别所对应的奖励，再进入步骤ii；其中，/>表示第/>个智能体所对应的奖励。

步骤ii. 中央控制器判断全部智能体所对应的奖励之和是否大于预设奖励阈值，是则完成各智能体分别所对应缓存策略模型的训练，即获得各智能体分别所对应已训练完成的缓存策略模型；否则进入步骤iii。

步骤iii. 分别针对各个第次迭代参与方，第/>次迭代参与方的策略训练模块以第/>次迭代参与方当前时刻所对应的缓存序列、待缓存数据构成观测数据/>，获得各第/>次迭代参与方当前时刻分别所对应的观测数据，然后进入步骤iv；/>，表示第/>次迭代参与方的数量，/>表示第/>个第/>次迭代参与方当前时刻所对应的观测数据。

步骤iv. 分别针对各个第次迭代参与方，第/>次迭代参与方的策略训练模块，基于第/>次迭代参与方当前时刻所对应的观测数据/>，发送至中央控制器，并应用该第/>次迭代参与方对应的缓存策略模型/>，获得该第/>次迭代参与方当前时刻所对应缓存序列中替换对象/>，进而获得各第/>次迭代参与方当前时刻分别所对应的其缓存序列中替换对象，发送至中央控制器，然后进入步骤v；其中，/>表示第/>个第/>次迭代参与方所对应缓存策略模型中的参数组，/>表示第/>个第/>次迭代参与方当前时刻所对应其缓存序列中替换对象。

步骤v. 中央控制器获得全部第次迭代参与方当前时刻分别所对应观测数据的集合/>，以及获得全部第/>次迭代参与方当前时刻所对应缓存序列中替换对象的集合/>，然后进入步骤vi。

步骤vi. 中央控制器分别针对各第次迭代参与方，以集合/>、集合/>为输入，应用第/>次迭代参与方对应的价值模型/>，获得该第/>次迭代参与方所对应评分,进而获得各第/>次迭代参与方分别所对应评分，分别返回至各第/>次迭代参与方的策略训练模块，然后进入步骤vii；其中，/>表示第/>个第/>次迭代参与方所对应价值模型中的参数组。

步骤vii. 分别针对各个第次迭代参与方，第/>次迭代参与方的策略训练模块根据第/>次迭代参与方所对应评分，应用梯度上升方式更新该第/>次迭代参与方所对应缓存策略模型中的参数组/>，同时第/>次迭代参与方的策略训练模块根据该第/>次迭代参与方所对应奖励/>，应用时序差分误差方法更新该第/>次迭代参与方所对应价值模型中的参数组/>；然后针对/>的值进行加1更新，并等待进入下一时刻时，再返回步骤i；其中，表示第/>个第/>次迭代参与方所对应的奖励。

上述技术方案所设计一种基于多智能体的MPC缓存更新方法及系统，采用全新逻辑设计，综合考虑各智能体缓存序列分别关于其待缓存数据的整体缺失，通过中心化训练方法，针对各智能体分别用于更新其缓存序列的缓存策略模型进行训练，获得各智能体分别所对应已训练完成的缓存策略模型，并应用去中心化执行方法，在数据不泄露的情况下，使用本地数据进行决策，对各智能体的缓存序列进行准确更新，减少应用中缓存序列置换次数，增加缓存命中率，进而降低了各智能体在数据加载阶段的平均用时，提高各智能体整体在实际应用中对数据调用的响应效率，与传统的基于经验的启发式缓存替换策略相比，本发明设计效率更高，更加适合复杂和多样化的访问序列场景。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于多智能体的MPC缓存更新方法，其特征在于：基于各智能体分别所对应已训练完成的缓存策略模型，各智能体分别实时执行如下步骤A至步骤C，实现各智能体分别所对应缓存序列的更新；

步骤A.基于智能体当前所对应的缓存序列、待缓存数据，判断该缓存序列中是否存在该待缓存数据，是则该智能体关于该待缓存数据的处理结束；否则进入步骤B；

步骤B.以该智能体当前所对应的缓存序列、待缓存数据构成观测数据，并应用该智能体所对应的缓存策略模型，获得该缓存序列中替换对象，并进入步骤C；

步骤C.若该缓存序列中替换对象为非空，则应用该待缓存数据对该缓存序列中的替换对象进行替换更新，该智能体关于该待缓存数据的处理结束；若该缓存序列中替换对象为空，则不对该缓存序列进行替换更新，该智能体关于该待缓存数据的处理结束；

关于各智能体分别所对应已训练完成的缓存策略模型，基于各智能体分别所对应的价值模型，初始化各智能体分别所对应缓存策略模型中的参数组θ_i、各智能体分别所对应价值模型中的参数组w_i，以及初始化迭代次数k＝1，执行如下步骤i至步骤vii，完成各智能体分别所对应缓存策略模型的训练；

其中，1≤i≤I，I表示智能体的数量，θ_i表示第i个智能体所对应缓存策略模型中的参数组；w_i表示第i个智能体所对应价值模型中的参数组；

步骤i.首先初始化各智能体分别所对应的奖励r_i为预设值，然后分别针对各智能体，基于智能体当前时刻所对应的缓存序列、待缓存数据，判断该缓存序列中是否存在该待缓存数据，是则对该智能体所对应的奖励不做处理，否则对该智能体所对应的奖励进行减1更新，并将该智能体定义为第k次迭代参与方；进而更新获得各智能体当前时刻分别所对应的奖励，再进入步骤ii；其中，r_i表示第i个智能体所对应的奖励；

步骤ii.判断全部智能体所对应的奖励之和是否大于预设奖励阈值，是则完成各智能体分别所对应缓存策略模型的训练，即获得各智能体分别所对应已训练完成的缓存策略模型；否则进入步骤iii；

步骤iii.分别针对各个第k次迭代参与方，以第k次迭代参与方当前时刻所对应的缓存序列、待缓存数据构成观测数据获得各第k次迭代参与方当前时刻分别所对应的观测数据，然后进入步骤iv；0≤j_k≤J_k，J_k表示第k次迭代参与方的数量，/>表示第j_k个第k次迭代参与方当前时刻所对应的观测数据；

步骤iv.分别针对各个第k次迭代参与方，基于第k次迭代参与方当前时刻所对应的观测数据应用该第k次迭代参与方对应的缓存策略模型/>获得该第k次迭代参与方当前时刻所对应缓存序列中替换对象/>进而获得各第k次迭代参与方当前时刻分别所对应的其缓存序列中替换对象，然后进入步骤v；其中，/>表示第j_k个第k次迭代参与方所对应缓存策略模型中的参数组，/>表示第j_k个第k次迭代参与方当前时刻所对应其缓存序列中替换对象；

步骤v.获得全部第k次迭代参与方当前时刻分别所对应观测数据的集合o_k，以及获得全部第k次迭代参与方当前时刻所对应缓存序列中替换对象的集合a_k，然后进入步骤vi；

步骤vi.分别针对各第k次迭代参与方，以集合o_k、集合a_k为输入，应用第k次迭代参与方对应的价值模型获得该第k次迭代参与方所对应评分，进而获得各第k次迭代参与方分别所对应评分，然后进入步骤vii；其中，/>表示第j_k个第k次迭代参与方所对应价值模型中的参数组；

步骤vii.分别针对各个第k次迭代参与方，根据第k次迭代参与方所对应评分，更新该第k次迭代参与方所对应缓存策略模型中的参数组同时根据该第k次迭代参与方所对应奖励/>更新该第k次迭代参与方所对应价值模型中的参数组/>然后针对k的值进行加1更新，并等待进入下一时刻时，再返回步骤i；其中，/>表示第j_k个第k次迭代参与方所对应的奖励。

2.根据权利要求1所述一种基于多智能体的MPC缓存更新方法，其特征在于：所述步骤vii中，分别针对各个第k次迭代参与方，根据第k次迭代参与方所对应评分，应用梯度上升方式更新该第k次迭代参与方所对应缓存策略模型中的参数组同时根据该第k次迭代参与方所对应奖励/>应用时序差分误差方法更新该第k次迭代参与方所对应价值模型中的参数组/>

3.实现权利要求1至2中任意一项所述一种基于多智能体的MPC缓存更新方法的系统，其特征在于：包括各智能体分别所对应的缓存提取模块、缓存分析模块、缓存更新模块；其中，缓存提取模块用于提取对应智能体的缓存序列、待缓存数据，并发送至对应的缓存分析模块；缓存分析模块用于执行步骤A至步骤B，并将执行步骤B所获对应智能体的缓存序列中替换对象输出至缓存更新模块；缓存更新模块用于执行步骤C。

4.根据权利要求3所述一种基于多智能体的MPC缓存更新方法的系统，其特征在于：还包括中央控制器、以及各智能体分别所对应的策略训练模块，基于中央控制器与各策略训练模块共同执行步骤i至步骤vii，完成各智能体分别所对应缓存策略模型的训练，其中，各智能体的策略训练模块共同执行步骤i、步骤iii、步骤iv、步骤vii，中央控制器执行步骤ii、步骤v、步骤vi。