CN118012906A - 基于机器学习的多级缓存自适应系统及策略 - Google Patents
基于机器学习的多级缓存自适应系统及策略 Download PDFInfo
- Publication number
- CN118012906A CN118012906A CN202311702325.XA CN202311702325A CN118012906A CN 118012906 A CN118012906 A CN 118012906A CN 202311702325 A CN202311702325 A CN 202311702325A CN 118012906 A CN118012906 A CN 118012906A
- Authority
- CN
- China
- Prior art keywords
- data
- cache
- task
- strategy
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000006978 adaptation Effects 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 10
- 238000012544 monitoring process Methods 0.000 claims description 9
- 230000009471 action Effects 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 230000002787 reinforcement Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 230000003139 buffering effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24552—Database cache management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Memory System Of A Hierarchy Structure (AREA)
Abstract
本发明涉及数据缓存技术领域,具体涉及基于机器学习的多级缓存自适应系统及策略,该系统包括:公有云、私有云、缓存区和决策器;私有云用于所有数据的存储及部分低时延任务的执行工作;缓存区挂载于公有云上,缓存区存储有私有云中的部分或全部数据作为初始缓存数据,并定期根据缓存策略更新存储数据;公有云用于根据待执行任务确定待查询数据并获取目标数据以执行待执行任务;决策器内存储有3个预测模型并进行预先训练,用于输出缓存区的缓存策略。本发明通过在选择缓存区内的数据时,能根据待执行的任务列表,服务器能力等多种条件,灵活的选择缓存数据,并建立弹性的缓存区层级结构,以保证数据的高命中率,节约空间资源的同时,有效降低数据中心带宽,提升任务执行效率。
Description
技术领域
本发明涉及数据缓存技术领域,具体而言,涉及基于机器学习的多级缓存自适应系统及策略。
背景技术
随着云计算的快速发展,各大企业对于云的稳定性、安全性和敏捷性有了更高的标准,而混合云将私有云和公有云结合互通,提供了更加灵活的部署模式。用户可以将数据库等需要高可靠、低时延的业务搭建于私有云,而将常访问、快速迭代的业务,或是超出私有云服务能力的业务拓展搭建于公有云上,通过云间的连接互通,大大提高了业务的高可用性。
然而在混合云的广泛应用中,当公有云上的敏捷业务在处理多并发的请求时,会对私有云中的数据库发起密集型的读写任务,而受网络带宽影响,私有云中的处理速度跟不上,会造成一定的拥堵而影响整体业务效率。
现有的缓存策略主要有以下两方面的缺陷:不适于频繁执行新任务;缓存层级划分固定,适配性不高。
因此,如何通过调整缓存策略,进而节约缓存区空间资源同时提高任务执行效率成为技术发展的新趋势。
发明内容
鉴于此,本发明提出了基于机器学习的多级缓存自适应系统及策略,主要是为了解决如何通过调整缓存策略,进而节约缓存区空间资源同时提高任务执行效率的问题。
一个方面,本发明提出了基于机器学习的多级缓存自适应系统,该系统包括:
公有云、私有云、缓存区和决策器;
所述缓存区挂载于所述公有云上,所述缓存区存储有所述私有云中的部分或全部数据作为初始缓存数据,并定期根据缓存策略更新存储数据;
所述公有云用于根据待执行任务确定待查询数据,并根据所述待查询数据向所述缓存区发送查询请求获取目标数据以执行待执行任务;
所述决策器内存储有3个预测模型并进行预先训练,在所述公有云根据所述待查询数据向所述缓存区发送查询请求获取目标数据以执行待执行任务时,所述决策器还用于实时监控所述公有云对所述缓存区的访问情况,当所述公有云对所述缓存区进行访问时,获取访问数据并将其输入所述预测模型,根据所述预测模型输出结果更新所述缓存区的优先级分层结构和更新策略;
其中,所述预测模型包括:缓存预测模型、任务预测模型和数据预测模型。
在本申请的一些实施例中,在所述公有云用于根据待执行任务确定待查询数据,并根据所述待查询数据向所述缓存区发送查询请求获取目标数据以执行待执行任务前,包括:
所述决策器获取所述初始缓存数据并将其输入所述缓存预测模型,所述缓存预测模型基于所述初始缓存数据输出初始缓存策略,所述初始缓存策略用于所述缓存区的初始化搭建;
所述初始缓存策略包括:初始缓存层数量、初始分层策略和初始更新策略。
在本申请的一些实施例中,当所述公有云对所述缓存区进行访问,所述决策器获取访问数据并将其输入所述预测模型,根据所述预测模型输出结果更新所述缓存区的层级缓存结构时,包括:
所述决策器获取访问数据并将其输入所述任务预测训练模型,所述任务预测训练模型基于所述访问数据输出相关任务列表和各相关任务对应出现次数;
所述访问数据包括:访问用户特征数据、访问服务器数据和访问执行任务。
在本申请的一些实施例中,在所述任务预测训练模型基于所述访问数据输出相关任务列表和各相关任务对应出现次数后,包括:
所述决策器将所述相关任务列表输入到所述数据预测训练模型中,所述数据预测训练模型基于所述相关任务列表输出各相关任务对应数据标识和各对应数据标识的出现次数,并根据所述各相关任务对应数据标识和各对应数据标识计算得到各对应数据标识出现概率,将各所述数据标识出现概率进行降序排序,并根据所述初始缓存策略将各所述相关任务对应数据标识与各所述初始缓存层进行匹配,将匹配结果记录在数据表中,所述决策器将所述数据表发送至所述缓存区进行数据缓存。
在本申请的一些实施例中,所述决策器将所述数据表发送至所述缓存区进行数据缓存时,包括:
根据数据标识从内存中读取数据,并按照数据表中的存放路径将数据存放在不同的缓存层中。
在本申请的一些实施例中,所述公有云用于根据待执行任务确定待查询数据,并根据所述待查询数据向所述缓存区发送查询请求获取目标数据以执行待执行任务时,包括:
所述决策器根据所述缓存区的更新策略更新数据表,所述缓存区根据最新数据表调整所述缓存区的数据,当存在所述数据表中的数据不存在于所述缓存区内,则向所述私有云进行访问获取,当存在所述缓存区中的数据不存在于所述数据表内,则在所述缓存区中删除该数据。
在本申请的一些实施例中,在所述决策器对3个预测模型进行预先训练时,包括:
所述缓存预测模型采用强化学习模型,将所述缓存区的初始缓存资源作为输入获取输入反馈,所述缓存模型基于所述输入反馈进行行动决策;
其中,所述输入反馈包括:惩罚反馈和奖励反馈,所述惩罚反馈为缓存命中节约的资源量和时间,所述奖励反馈为空间、资源占用和对内存访问量;
所述行动决策包括:分层策略和更新策略;
所述分层策略包括:缓存区内的缓存层数量和各缓存层对应数据占比;
所述更新策略包括:数据更新时间周期阈值Ttask和数据更新比例阈值αnew。
在本申请的一些实施例中,所述分层策略具体包括:
预先设定缓存预测更新周期Tcache,在缓存预测更新周期Tcache内获取并根据因数据缓存命中而节约的时间和资源以及因数据概率更新而调整数据缓存区存储地址的资源消耗计算得到平均奖惩值Feedback;
缓存预测更新周期Tcache的计算公式如下:
Tcache=max(24h,10Ttask);
其中,T为距离上次分层策略预测的时间;
平均奖惩值Feedback的计算公式如下:
当T在缓存预测更新周期Tcache内,则将推测出的所述分层策略和缓存策略保存在所述决策器内获取对应的平均奖惩值,而不对所述缓存区的结构进行调整,当T不在缓存预测更新周期Tcache内,则获取上一轮执行的更新策略得到的奖赏时间均值FeedbacK/T,其中T为距离上次分层策略预测的时间;
当平均奖惩值Feedback小于上一轮分层监控阈值σcache时,在下一轮所述更新策略更新时更新所述分层策略;
在本申请的一些实施例中,所述更新策略具体包括:
在时间阈值Ttask后,将当前最新的执行任务作为最新输入,获取最新的数据标识和数据概率,将最新数据标识和数据概率与上一数据表中信息做对比,更新数据的概率值的计算公式如下:
Pupdate=αnew×Pnew+(1-αnew)×Pold;
其中,Pnew和Pold分别是该数据标识的最新概率和上一轮的概率,而αnew为新概率对于待更新概率的决定因子,由缓存预测模型的更新策略来决定;
将新的数据标识和数据概率更新到数据表中,再发送到缓存区执行数据变更。
在本申请的一些实施例中,在所述决策器对3个预测模型进行预先训练时,还包括:
所述任务预测模型以数据更新时间周期阈值Ttask作为可变周期,输入当前任务输出数据更新时间周期阈值Ttask时间内其他相关任务列表,通过对比模型预测出的任务列表和实际发生的任务列表做对比,通过返回误差值以纠正模型。
在本申请的一些实施例中,在所述决策器对3个预测模型进行预先训练时,还包括:
所述数据预测模型在所述任务预测模型的每次更新时同步更新训练一次,在数据更新时间周期阈值Ttask内,所述数据预测模型将每个执行任务作为输入,预测该执行任务最常出现的数据以及出现的次数。
另一个方面,本发明提出了基于机器学习的多级缓存自适应策略,该策略包括:
将缓存区存储的私有云中的部分或全部数据作为初始缓存数据;
公有云根据待执行任务确定待查询数据,并根据所述待查询数据向所述缓存区发送查询请求获取目标数据以执行待执行任务;
通过在决策器内存储有3个预测模型并进行预先训练,在所述公有云根据所述待查询数据向所述缓存区发送查询请求获取目标数据以执行待执行任务时,所述决策器还用于实时监控所述公有云对所述缓存区的访问情况,当所述公有云对所述缓存区进行访问时,获取访问数据并将其输入所述预测模型,根据所述预测模型输出结果更新所述缓存区的层级缓存结构;
其中,所述预测模型包括:缓存预测模型、任务预测模型和数据预测模型。
与现有技术相比,本发明存在以下有益效果:本发明通过在选择缓存区内的数据时,能根据待执行的任务,用户的行为习惯等多种条件,灵活的选择缓存数据,并建立弹性的层级结构,以保证数据的高命中率,节约空间资源的同时,有效降低数据中心带宽,提升任务执行效率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。在附图中:
图1为本发明实施例提供的基于机器学习的多级缓存自适应系统的功能框图;
图2为本发明实施例提供的基于机器学习的多级缓存自适应策略的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
参阅图1所示,本实施例提供了基于机器学习的多级缓存自适应系统,包括:
公有云、私有云、缓存区和决策器;
所述缓存区挂载于所述公有云上,所述缓存区存储有所述私有云中的部分或全部数据作为初始缓存数据,并定期根据缓存策略更新存储数据;
所述公有云用于根据待执行任务确定待查询数据,并根据所述待查询数据向所述缓存区发送查询请求获取目标数据以执行待执行任务;
所述决策器内存储有3个预测模型并进行预先训练,在所述公有云根据所述待查询数据向所述缓存区发送查询请求获取目标数据以执行待执行任务时,所述决策器还用于实时监控所述公有云对所述缓存区的访问情况,当所述公有云对所述缓存区进行访问时,获取访问数据并将其输入所述预测模型,根据所述预测模型输出结果更新所述缓存区的层级缓存结构;
其中,所述预测模型包括:缓存预测模型、任务预测模型和数据预测模型。
可以理解的是,本实施例中通过将缓存区挂载于公有云上,可以实现对私有云中的部分或全部数据的初始缓存,提高了数据查询的效率和速度,公有云可以根据待执行任务确定待查询数据,并发送查询请求获取目标数据以执行待执行任务,使得数据处理更加精准和高效,决策器内存储有3个预测模型并进行预先训练,可以实时监控公有云对缓存区的访问情况,获取访问数据并将其输入预测模型,根据预测模型输出结果更新缓存区的优先级层级缓存结构,从而进一步优化数据的查询和处理效率,预测模型包括缓存预测模型、任务预测模型和数据预测模型,可以更加全面地考虑影响数据查询和处理的各种因素,从而更加精准地预测和优化数据的查询和处理。
进一步地,本实施例中通过使用了缓存层对数据预提取,减少对数据中心的高频访问,以减轻网络带宽压力;利用机器学习训练,明确了缓存区内的数据存放规则,结合服务器特性和用户使用习惯,根据业务逻辑推理出最常使用的数据列表保存到缓存区内,并根据任务进展实时更新数据内容,极大提高了缓存区内的数据命中率,能够更高效、更准确的提取到目标数据;利用机器学习训练,根据服务器资源调度情况,推理出资源成本和缓存效果达到最优平衡的缓存层分布策略,能够有针对性的最大化利用服务器的资源空间以达到最优缓存效果。
在本申请的一些实施例中,在所述公有云用于根据待执行任务确定待查询数据,并根据所述待查询数据向所述缓存区发送查询请求获取目标数据以执行待执行任务前,包括:
所述决策器获取所述初始缓存数据并将其输入所述缓存预测模型,所述缓存预测模型基于所述初始缓存数据输出初始缓存策略,所述初始缓存策略用于所述缓存区的初始化搭建;
所述初始缓存策略包括:初始缓存层数量、初始分层策略和初始更新策略。
在本申请的一些实施例中,当所述公有云对所述缓存区进行访问,所述决策器获取访问数据并将其输入所述预测模型,根据所述预测模型输出结果更新所述缓存区的层级缓存结构时,包括:
所述决策器获取访问数据并将其输入所述任务预测训练模型,所述任务预测训练模型基于所述访问数据输出相关任务列表和各相关任务对应出现次数;
所述访问数据包括:访问用户特征数据、访问服务器数据和访问执行任务。
在本申请的一些实施例中,在所述任务预测训练模型基于所述访问数据输出相关任务列表和各相关任务对应出现次数后,包括:
所述决策器将所述相关任务列表输入到所述数据预测训练模型中,所述数据预测训练模型基于所述相关任务列表输出各相关任务对应数据标识和各对应数据标识的出现次数,并根据所述各相关任务对应数据标识和各对应数据标识计算得到各对应数据标识出现概率,将各所述数据标识出现概率进行降序排序,并根据所述初始缓存策略将各所述相关任务对应数据标识与各所述初始缓存层进行匹配,将匹配结果记录在数据表中,所述决策器将所述数据表发送至所述缓存区进行数据缓存。
在本申请的一些实施例中,所述决策器将所述数据表发送至所述缓存区进行数据缓存时,包括:
根据数据标识从内存中读取数据,并按照数据表中的存放路径将数据存放在不同的缓存层中。
在本申请的一些实施例中,所述公有云用于根据待执行任务确定待查询数据,并根据所述待查询数据向所述缓存区发送查询请求获取目标数据以执行待执行任务时,包括:
所述决策器根据所述缓存区的更新策略更新数据表,所述缓存区根据最新数据表调整所述缓存区的数据,当存在所述数据表中的数据不存在于所述缓存区内,则向所述私有云进行访问获取,当存在所述缓存区中的数据不存在于所述数据表内,则在所述缓存区中删除该数据。
可以理解的是,本实施例中通过将缓存预测模型与任务预测训练模型、数据预测训练模型相结合,实现了缓存区的自动化搭建与更新,提高了缓存区数据命中率,降低了数据访问延迟,提高了公有云的性能。此外,通过获取访问数据、任务数据等,并利用相关模型预测分析,为每个任务提供对应的数据标识及存放路径,使得公有云可以根据待执行任务快速确定待查询数据并获取目标数据以执行任务,提高了公有云的执行效率。
在本申请的一些实施例中,在所述决策器对3个预测模型进行预先训练时,包括:
所述缓存预测模型采用强化学习模型,将所述缓存区的初始缓存资源作为输入获取输入反馈,所述缓存模型基于所述输入反馈进行行动决策;
其中,所述输入反馈包括:惩罚反馈和奖励反馈,所述惩罚反馈为缓存命中节约的资源量和时间,所述奖励反馈为空间、资源占用和对内存访问量;
所述行动决策包括:分层策略和更新策略;
所述分层策略包括:缓存区内的缓存层数量和各缓存层对应数据占比;
所述更新策略包括:数据更新时间周期阈值Ttask和数据更新比例阈值αnew。
在本申请的一些实施例中,所述分层策略具体包括:
预先设定缓存预测更新周期Tcache,在缓存预测更新周期Tcache内获取并根据因数据缓存命中而节约的时间和资源以及因数据概率更新而调整数据缓存区存储地址的资源消耗计算得到平均奖惩值Feedback;
缓存预测更新周期Tcache的计算公式如下:
Tcachemax(24h,10Ttask);
其中,T为距离上次分层策略预测的时间;
平均奖惩值Feedback的计算公式如下:
当T在缓存预测更新周期Tcache内,则将推测出的所述分层策略和缓存策略保存在所述决策器内获取对应的平均奖惩值,而不对所述缓存区的结构进行调整,当T不在缓存预测更新周期Tcache内,则获取上一轮执行的更新策略得到的奖赏时间均值Feedback/T,其中T为距离上次分层策略预测的时间;
当平均奖惩值Feedback小于上一轮分层监控阈值σcache时,在下一轮所述更新策略更新时更新所述分层策略;
在本申请的一些实施例中,所述更新策略具体包括:
在时间阈值Ttask后,将当前最新的执行任务作为最新输入,获取最新的数据标识和数据概率,将最新数据标识和数据概率与上一数据表中信息做对比,更新数据的概率值的计算公式如下:
Pupdate=αnew×Pnew+(1-αnew)×Pold;
其中,Pnew和Pold分别是该数据标识的最新概率和上一轮的概率,而αnew为新概率对于待更新概率的决定因子,由缓存预测模型的更新策略来决定;
将新的数据标识和数据概率更新到数据表中,再发送到缓存区执行数据变更。
可以理解的是,本实施例通过采用强化学习模型进行缓存预测,能够根据输入反馈进行行动决策,从而有效地提高了缓存命中率和资源利用率,通过将惩罚反馈和奖励反馈作为输入反馈,可以更加全面地考虑缓存命中节约的资源量、时间、空间、资源占用和对内存访问量等因素,从而更加准确地指导缓存模型的行动决策,通过分层策略和更新策略的结合使用,可以在保证缓存命中率的同时,更好地处理缓存数据的更新和维护问题,从而提高了缓存的可靠性和稳定性,通过设定缓存预测更新周期和计算平均奖惩值,可以更加灵活地调整缓存策略,从而更好地适应不同的应用场景和需求,通过更新数据的概率值并更新到数据表中,可以更加准确地反映最新数据标识和数据概率的变化,从而提高了缓存预测的准确性和可靠性。
在本申请的一些实施例中,在所述决策器对3个预测模型进行预先训练时,还包括:
所述任务预测模型以数据更新时间周期阈值Ttask作为可变周期,输入当前任务输出数据更新时间周期阈值Ttask时间内其他相关任务列表,通过对比模型预测出的任务列表和实际发生的任务列表做对比,通过返回误差值以纠正模型。
在本申请的一些实施例中,在所述决策器对3个预测模型进行预先训练时,还包括:
所述数据预测模型在所述任务预测模型的每次更新时同步更新训练一次,在数据更新时间周期阈值Ttask内,所述数据预测模型将每个执行任务作为输入,预测该执行任务最常出现的数据以及出现的次数。
可以理解的是,本实施例中通过将任务预测模型与实际发生的任务列表进行比较,并使用返回的误差值来纠正模型,可以大大提高任务预测的准确性,由于数据更新时间周期阈值Ttask是可变的,因此该模型可以适应不同的时间尺度和不同的任务类型,使得模型能够更好地适应动态变化的环境,提高预测的准确性。
具体而言,数据预测模型在任务预测模型的每次更新时同步更新训练一次,这有助于保证模型的新鲜度和准确性,通过在数据更新时间周期阈值Ttask内对每个执行任务进行预测,可以更好地捕捉到任务的最新变化。决策器可以对多个预测模型进行预先训练,这可以提高预测的全面性和准确性。通过集成不同的预测模型,可以获得更全面和准确的预测结果。
进一步地,通过将模型预测结果与实际任务列表进行比较,可以实时获得预测误差反馈,这有助于及时纠正模型的错误,提高模型的准确性。这种实时反馈机制可以持续优化模型的性能,使其更好地适应实际应用场景。
参阅图2所示,另一个方面,本发明提出了基于机器学习的多级缓存自适应策略,该策略包括:
S101:将缓存区存储的私有云中的部分或全部数据作为初始缓存数据;
S102:公有云根据待执行任务确定待查询数据,并根据所述待查询数据向所述缓存区发送查询请求获取目标数据以执行待执行任务,并定期根据缓存策略更新存储数据;
S103:通过在决策器内存储有3个预测模型并进行预先训练,在所述公有云根据所述待查询数据向所述缓存区发送查询请求获取目标数据以执行待执行任务时,所述决策器还用于实时监控所述公有云对所述缓存区的访问情况,当所述公有云对所述缓存区进行访问时,获取访问数据并将其输入所述预测模型,根据所述预测模型输出结果更新所述缓存区的优先级分层结构和更新策略;
其中,所述预测模型包括:缓存预测模型、任务预测模型和数据预测模型。
可以理解的是,本实施例中通过将私有云中的部分或全部数据作为初始缓存数据存储在缓存区,可以提供初始的数据源,从而在公有云需要查询数据时,能够立即得到响应,公有云根据待执行任务确定待查询数据,并向缓存区发送查询请求以获取目标数据以执行待执行任务,使得任务执行更加高效,因为公有云可以根据实际需要直接查询缓存区中的数据,通过在决策器内存储有3个预测模型并进行预先训练,可以实时监控公有云对缓存区的访问情况。当公有云对缓存区进行访问时,获取访问数据并将其输入预测模型,根据预测模型输出结果更新缓存区的层级缓存结构。这种设计能够有效地预测并调整公有云对缓存区的访问,优化数据查询和任务执行的效率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (9)
1.基于机器学习的多级缓存自适应系统,其特征在于,包括:
公有云、私有云、缓存区和决策器;
所述私有云用于所有数据的存储及部分低时延任务的执行工作;
所述缓存区挂载于所述公有云上,所述缓存区存储有所述私有云中的部分或全部数据作为初始缓存数据,并定期根据缓存策略更新存储数据;
所述公有云用于根据待执行任务确定待查询数据,并根据所述待查询数据向所述缓存区发送查询请求获取目标数据以执行待执行任务;
所述决策器内存储有3个预测模型并进行预先训练,在所述公有云根据所述待查询数据向所述缓存区发送查询请求获取目标数据以执行待执行任务时,所述决策器还用于实时监控所述公有云对所述缓存区的访问情况,当所述公有云对所述缓存区进行访问时,获取访问数据并将其输入所述预测模型,根据所述预测模型输出结果更新所述缓存区的优先级分层结构和更新策略;
其中,所述预测模型包括:缓存预测模型、任务预测模型和数据预测模型。
2.根据权利要求1所述的基于机器学习的多级缓存自适应系统,其特征在于,在所述公有云用于根据待执行任务确定待查询数据,并根据所述待查询数据向所述缓存区发送查询请求获取目标数据以执行待执行任务前,包括:
所述决策器获取所述初始缓存数据并将其输入所述缓存预测模型,所述缓存预测模型基于所述初始缓存数据输出初始缓存策略,所述初始缓存策略用于所述缓存区的初始化搭建;
所述初始缓存策略包括:初始缓存层数量和每层数据占比的缓存分层策略和初始数据更新时间和新旧数据比例的缓存更新策略;
当所述公有云对所述缓存区进行访问时,获取访问数据并将其输入所述预测模型,根据所述预测模型输出结果更新所述缓存区的优先级分层结构和更新策略时,包括:
所述决策器获取访问数据并将其输入所述任务预测训练模型,所述任务预测训练模型基于所述访问数据输出相关任务列表和各相关任务对应出现次数;
所述访问数据包括:访问用户特征数据、访问服务器能力和访问执行任务。
3.根据权利要求2所述的基于机器学习的多级缓存自适应系统,其特征在于,在所述任务预测训练模型基于所述访问数据输出相关任务列表和各相关任务对应出现次数后,包括:
所述决策器将所述相关任务列表输入到所述数据预测训练模型中,所述数据预测训练模型基于所述任务预测模型输出各相关任务对应数据标识和各对应数据标识的出现次数,并根据所述各相关任务对应数据标识和各对应数据标识计算得到各对应数据标识出现概率,将各所述数据标识出现概率进行降序排序,并根据所述初始缓存策略将各所述相关任务对应数据标识与各所述初始缓存层进行匹配,将匹配结果记录在数据表中,所述决策器将所述数据表发送至所述缓存区进行数据缓存更新,根据数据标识从内存中读取数据,并按照数据表中匹配的存放路径将数据存放在不同的缓存层中。
4.根据权利要求3所述的基于机器学习的多级缓存自适应系统,其特征在于,所述公有云用于根据待执行任务确定待查询数据,并根据所述待查询数据向所述缓存区发送查询请求获取目标数据以执行待执行任务时,包括:
所述决策器根据所述缓存区的更新策略更新数据表,所述缓存区根据最新数据表调整所述缓存区的数据,当存在所述数据表中的数据不存在于所述缓存区内,则向所述私有云进行访问获取,当存在所述缓存区中的数据不存在于所述数据表内,则在所述缓存区中删除该数据。
5.根据权利要求4所述的基于机器学习的多级缓存自适应系统,其特征在于,在所述决策器对3个预测模型进行预先训练时,包括:
所述缓存预测模型采用强化学习模型,将所述缓存区的初始缓存资源作为输入获取输入反馈,所述缓存模型基于所述输入的环境反馈进行行动决策;
其中,所述输入反馈包括:惩罚反馈和奖励反馈,所述惩罚反馈为缓存命中节约的资源量和时间,所述奖励反馈为空间、资源占用和对内存访问量;
所述行动决策包括:分层策略和更新策略;
所述分层策略包括:缓存区内的缓存层数量和各缓存层对应数据占比;
所述更新策略包括:数据更新时间周期阈值Ttask和数据更新比例阈值αnew。
6.根据权利要求5所述的基于机器学习的多级缓存自适应系统,其特征在于,所述分层策略具体包括:
预先设定缓存预测更新周期Tcache,在缓存预测更新周期Tcache内获取并根据因数据缓存命中而节约的时间和资源以及因数据概率更新而调整数据缓存区存储地址的资源消耗计算得到平均奖惩值Feedback;
缓存预测更新周期Tcache的计算公式如下:
Tcache=max(24h,10Ttask);
其中,T为距离上次分层策略预测的时间;
平均奖惩值Feedback的计算公式如下:
当T在缓存预测更新周期Tcache内,则将推测出的所述分层策略和缓存策略保存在所述决策器内获取对应的平均奖惩值,而不对所述缓存区的结构进行调整,当T不在缓存预测更新周期Tcache内,则获取上一轮执行的更新策略得到的奖赏时间均值Feedback/T,其中T为距离上次分层策略预测的时间;
当平均奖惩值Feedback小于上一轮分层监控阈值σcache时,在下一轮所述更新策略更新时更新所述分层策略;
7.根据权利要求6所述的基于机器学习的多级缓存自适应系统,其特征在于,所述更新策略具体包括:
在时间阈值Ttask后,将当前最新的执行任务作为最新输入,获取最新的数据标识和数据概率,将最新数据标识和数据概率与上一数据表中信息做对比,更新数据的概率值的计算公式如下:
Pupdate=αnew×Pnew+(1-αnew)×Pold;
其中,Pnew和Pold分别是该数据标识的最新概率和上一轮的概率,而αnew为新概率对于待更新概率的决定因子,由缓存预测模型的更新策略来决定;
将新的数据标识和数据概率更新到数据表中,再发送到缓存区执行数据变更。
8.根据权利要求7所述的基于机器学习的多级缓存自适应系统,其特征在于,在所述决策器对3个预测模型进行预先训练时,还包括:
所述任务预测模型以数据更新时间周期阈值Ttask作为可变周期,输入当前任务输出数据更新时间周期阈值Ttask时间内其他相关任务列表,通过对比模型预测出的任务列表和实际发生的任务列表做对比,通过返回误差值以纠正模型;
所述数据预测模型在所述任务预测模型的每次更新时同步更新训练一次,在数据更新时间周期阈值Ttask内,所述数据预测模型将每个执行任务作为输入,预测该执行任务最常出现的数据以及出现的次数。
9.一种基于机器学习的多级缓存自适应策略,其特征在于,应用于如权利要求1-8任一项所述的基于机器学习的多级缓存自适应系统中,包括:
将缓存区存储的私有云中的部分或全部数据作为初始缓存数据;
公有云根据待执行任务确定待查询数据,并根据所述待查询数据向所述缓存区发送查询请求获取目标数据以执行待执行任务;
通过在决策器内存储有3个预测模型并进行预先训练,在所述公有云根据所述待查询数据向所述缓存区发送查询请求获取目标数据以执行待执行任务时,所述决策器还用于实时监控所述公有云对所述缓存区的访问情况,当所述公有云对所述缓存区进行访问时,获取访问数据并将其输入所述预测模型,根据所述预测模型输出结果更新所述缓存区的优先级分层结构和更新策略;
其中,所述预测模型包括:缓存预测模型、任务预测模型和数据预测模型。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311702325.XA CN118012906A (zh) | 2023-12-12 | 2023-12-12 | 基于机器学习的多级缓存自适应系统及策略 |
PCT/CN2023/142728 WO2024207834A1 (zh) | 2023-12-12 | 2023-12-28 | 基于机器学习的多级缓存自适应系统及策略 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311702325.XA CN118012906A (zh) | 2023-12-12 | 2023-12-12 | 基于机器学习的多级缓存自适应系统及策略 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118012906A true CN118012906A (zh) | 2024-05-10 |
Family
ID=90943636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311702325.XA Pending CN118012906A (zh) | 2023-12-12 | 2023-12-12 | 基于机器学习的多级缓存自适应系统及策略 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN118012906A (zh) |
WO (1) | WO2024207834A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118626685A (zh) * | 2024-08-09 | 2024-09-10 | 杭州新视窗信息技术有限公司 | 一种多层级数据节点存储索引方法和系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334036A (zh) * | 2019-06-28 | 2019-10-15 | 京东数字科技控股有限公司 | 一种实现缓存数据调度的方法和装置 |
CN110674173A (zh) * | 2019-09-24 | 2020-01-10 | 支付宝(杭州)信息技术有限公司 | 一种风控云上的数据缓存的方法和系统 |
CN112565317B (zh) * | 2019-09-25 | 2022-04-08 | 阿里巴巴集团控股有限公司 | 混合云系统及其数据处理方法、设备及存储介质 |
US11218421B1 (en) * | 2021-04-07 | 2022-01-04 | Wanclouds Inc. | Methods and systems for migrating virtual private cloud (VPC) resources across public cloud environments |
CN116684491A (zh) * | 2023-06-27 | 2023-09-01 | 浙江极氪智能科技有限公司 | 一种基于深度学习的动态缓存方法、装置、设备和介质 |
CN116931838A (zh) * | 2023-08-02 | 2023-10-24 | 武汉汇迪森信息技术有限公司 | 一种固态盘缓存管理方法、系统、电子设备及存储介质 |
CN117056250A (zh) * | 2023-08-14 | 2023-11-14 | 平安银行股份有限公司 | 一种缓存替换方法、装置、电子设备及存储介质 |
-
2023
- 2023-12-12 CN CN202311702325.XA patent/CN118012906A/zh active Pending
- 2023-12-28 WO PCT/CN2023/142728 patent/WO2024207834A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118626685A (zh) * | 2024-08-09 | 2024-09-10 | 杭州新视窗信息技术有限公司 | 一种多层级数据节点存储索引方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2024207834A1 (zh) | 2024-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20110161294A1 (en) | Method for determining whether to dynamically replicate data | |
He et al. | QoE-driven content-centric caching with deep reinforcement learning in edge-enabled IoT | |
CN108958916B (zh) | 一种移动边缘环境下工作流卸载优化方法 | |
CN113989561B (zh) | 基于异步联邦学习的参数聚合更新方法、设备及系统 | |
US20130232310A1 (en) | Energy efficiency in a distributed storage system | |
CN118012906A (zh) | 基于机器学习的多级缓存自适应系统及策略 | |
CN113822456A (zh) | 一种云雾混构环境下基于深度强化学习的服务组合优化部署方法 | |
CN113422812B (zh) | 一种服务链部署方法及装置 | |
CN116069512B (zh) | 一种基于强化学习的Serverless高效资源分配方法及系统 | |
CN107566535B (zh) | 基于Web地图服务并发访问时序规则的自适应负载均衡方法 | |
CN112463337B (zh) | 一种用于移动边缘计算环境下的工作流任务迁移方法 | |
KR102010414B1 (ko) | 라이브 스트리밍을 위한 프리패칭 기반 클라우드 중계 장치 및 방법 | |
CN107370807B (zh) | 基于透明服务平台数据访问的服务端及其缓存优化方法 | |
US11379375B1 (en) | System and method for cache management | |
CN107608781A (zh) | 一种负载预测方法、装置以及网元 | |
CN116185584A (zh) | 一种基于深度强化学习的多租户数据库资源规划与调度方法 | |
CN111629218A (zh) | 一种vanet中基于时变线性的加速强化学习边缘缓存方法 | |
CN117539648A (zh) | 一种电子政务云平台的服务质量管理方法及装置 | |
Koh et al. | Efficient data retrieval for large-scale smart city applications through applied Bayesian inference | |
Chen et al. | Darwin: Flexible learning-based cdn caching | |
Ben Slimane et al. | Mjolnir: A framework agnostic auto-tuning system with deep reinforcement learning | |
CN112882917A (zh) | 一种基于贝叶斯网络迁移的虚拟机服务质量动态预测方法 | |
Sidhanta et al. | Infra: SLO Aware Elastic Auto-scaling in the Cloud for Cost Reduction | |
CN118467186B (zh) | 多租户无服务器平台资源管理方法及系统 | |
CN111050195B (zh) | 流媒体缓存方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |