CN113703688B - 一种基于大数据和文件热度的分布式存储节点负载调整方法 - Google Patents

一种基于大数据和文件热度的分布式存储节点负载调整方法 Download PDF

Info

Publication number
CN113703688B
CN113703688B CN202111102564.2A CN202111102564A CN113703688B CN 113703688 B CN113703688 B CN 113703688B CN 202111102564 A CN202111102564 A CN 202111102564A CN 113703688 B CN113703688 B CN 113703688B
Authority
CN
China
Prior art keywords
file
access
user
heat
storage node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111102564.2A
Other languages
English (en)
Other versions
CN113703688A (zh
Inventor
张永昌
韩会峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Fenghe Jiaxing Information Technology Co ltd
Original Assignee
Anhui Fenghe Jiaxing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Fenghe Jiaxing Information Technology Co ltd filed Critical Anhui Fenghe Jiaxing Information Technology Co ltd
Priority to CN202111102564.2A priority Critical patent/CN113703688B/zh
Publication of CN113703688A publication Critical patent/CN113703688A/zh
Application granted granted Critical
Publication of CN113703688B publication Critical patent/CN113703688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0643Management of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms
    • G06F3/0649Lifecycle management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0653Monitoring storage devices or systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据和文件热度的分布式存储节点负载调整方法及系统,包括:根据服务器获取到的每个文件的访问情况,获取每个文件在当前周期内老用户和新用户的访问量;根据每个文件当前周期内老用户和新用户的访问量,预测其在下个周期内老用户访问量;获取服务器中当前周期内文件的搜索量,并根据被搜索文件的搜索量预测下个周期该被搜索文件的访问量,将该被搜索文件的访问量作为下个周期预测的新用户访问量;根据预测的每个文件在下个周期内老用户访问量和新用户的访问量,得到文件的预测热度,并对每个文件所在的存储节点进行热度平衡调整。使得各存储节点热度均匀,提高文件位置调整的合理性和准确性,同时确保系统的稳定性及效率。

Description

一种基于大数据和文件热度的分布式存储节点负载调整方法
技术领域
本申请涉及人工智能领域,具体涉及一种基于大数据和文件热度的分布式存储节点负载调整方法。
背景技术
随着社会的发展以及计算机存储和数据处理能力的提高,数据呈现爆炸式增长,对大数据的处理成为目前的主要方向。目前的存储方式大部分采用分布式存储,但由于每个文件受到的关注度、使用度不同,因此分布式存储服务器中的存储文件具有不同热度,使得存储节点的总热度不同。若各存储节点之间的总热度差异较大,则不利于系统的稳定以及数据存储和读取的效率。因此需要动态地调整存储文件的位置,使得每个服务器上各存储节点总的热度尽可能均匀,从而增加整个系统的稳定性并提升系统效率。
对于上述问题,现阶段大部分方法是,通过计算现阶段的文件热度,将当前的存储节点热度作为后续文件位置调整的依据。但该方法计算得到的是当前的文件热度和存储节点热度,据此对文件位置进行调整后适用于当前各文件的热度情况,与调整后发生变化的实际的文件热度和存储节点热度存在时间差,因此其文件位置的调整结果并不十分准确。
发明内容
本发明针对现有技术的不足,提出了一种基于大数据和文件热度的分布式存储节点负载调整方法,根据用户在当前周期内对文件访问情况,预测得到下个周期内文件的热度,根据文件热度进行存储节点负载动态调整,使各存储节点负载适应下个周期实际情况。
第一方面,本发明实施例提供了一种基于大数据和文件热度的分布式存储节点负载调整方法,包括以下内容:
根据服务器获取到的每个文件的访问情况,获取每个文件在当前周期内老用户和新用户的访问量;
根据每个文件当前周期内老用户和新用户的访问量,预测其在下个周期内老用户访问量;
获取服务器中当前周期内文件的搜索量,并根据被搜索文件的搜索量预测下个周期该被搜索文件的访问量,将该被搜索文件的访问量作为下个周期预测的新用户访问量;
根据预测的每个文件在下个周期内老用户访问量和新用户的访问量,得到文件的预测热度,并对每个文件所在的存储节点进行热度平衡调整。
进一步地,所述每个文件在下个周期内老用户的访问量预测方法包括:
根据用户对每个文件的总访问次数判断该文件性质,利用对文件性质判断的结果获得老用户对每个文件的平均访问次数Mi和平均访问间隔Gi
根据每个文件的平均访问次数Mi、平均访问间隔Gi和老用户的访问情况,得到下个周期内所有老用户对该文件的总访问次数Ni
进一步地,所述文件性质判断方法为:
若到当前时刻为止对所述文件的访问次数mi超过第一阈值的用户数占总用户数占比超过第二阈值时,将该文件视为高频访问文件,并将mi平均值向上取整后记为平均访问次数Mi,反之将该文件视为低频访问文件,此时平均访问次数Mi=1。
进一步地,所述下个周期内所有老用户对该文件的总访问次数Ni获取方法为:
当mi≥Mi时,该用户在下个周期对该文件访问次数为0,当mi<Mi时,该用户对该文件后续访问次数为nik=Mi-mi,通过平均访问间隔Gi和该用户对该文件的最后一次访问时间tik计算该用户对该文件的后续nik次的访问时间:
设下个周期的时间范围为[(w-1)T,wT],其中所述下个周期为截至目前时序上第w个周期,T为周期长度,则对于用户k的上述nik个访问时间,分别判断上述nik次访问时间点是否落在时间范围[(w-1)T,wT]内,将在该时间范围内的访问时间的个数记为Nik,即为用户k在下个周期内对文件i的访问次数Nik
下个周期内老用户对该文件的总访问次数其中K为所有mi<Mi的用户数量。
进一步地,所述下个周期新用户访问量的预测方法为:
根据当前周期所述文件被搜索量与下个周期新用户对所述文件的访问量之间的数据拟合关系,得到下个周期内新用户对所述文件的访问次数Ni′。
进一步地,所述热度平衡调整方法为:
通过累加同一存储节点内所有文件的所述预测热度得到该存储节点的预测热度,计算各存储节点之间预测热度的方差及均值,当各存储节点之间预测热度的方差超过第三阈值时,对范围外的存储节点按照存储节点预测热度进行排序,将第一个和最后一个存储节点组对,第二个和倒数第二个组对,以此类推得到组合节点;
计算组合节点内两存储节点的平均热度后将热度高的存储节点中的文件移动到热度低的存储节点中,使得该组合节点中两个存储节点热度一致。
第二方面,本发明提供了一种基于大数据和文件热度的分布式存储节点负载调整系统,其特征在于,包括:
数据获取单元,用于获取服务器中每个文件的访问情况,并根据该访问情况获取每个文件在当前周期内老用户和新用户的访问量;
老用户访问量预测单元,用于根据每个文件当前周期内老用户和新用户的访问量,预测每个文件在下个周期内老用户的访问量;
新用户访问量预测单元,用于获取服务器中当前周期内被搜索文件的搜索量,并根据被搜索文件的搜索量预测下个周期该被搜索文件的访问量,将该被搜索文件的访问量作为下个周期预测的新用户访问量;
文件热度计算及调整单元,用于根据预测的每个文件在下个周期文件的老用户访问量和新用户的访问量,得到下个周期内每个文件的预测热度,并对每个文件所在的存储节点进行调整。
本发明所述的种一种基于大数据和文件热度的分布式存储节点负载调整方法及系统与现有技术相比,具有如下有益效果:针对老用户及新用户,分别预测其在下个周期内对文件的访问次数,相较于传统技术方案更具有针对性和科学性;采用预测的方式根据当前周期内文件访问情况预测下个周期内文件访问情况,使得调整后的存储节点热度和实际的存储节点热度之间无时间差,提高了文件位置调整的合理性和准确性;调整文件过程中针对预测热度方差超过阈值的进行调整,能够在减少系统开支的前提下,实现存储节点之间文件热度的平衡调整,通过调整后使得服务器内各存储节点之间热度一致,降低服务器负载。
附图说明
图1是本发明所提供的一种基于大数据和文件热度的分布式存储节点负载调整方法的框图。
图2是本发明所提供的一种基于大数据和文件热度的分布式存储节点负载调整系统的框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
在本实施例中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
参见图1,图1是本实施例提供的基于大数据和文件热度的分布式存储节点负载调整方法的框图,如图1所示基于大数据和文件热度的分布式存储节点负载调整方法以包括以下步骤:
步骤S001:获取服务器中每个文件的访问情况,并根据该访问情况获取每个文件在当前周期内老用户和新用户的访问量;
考虑到调整文件位置会造成额外的系统成本,本实施例中对文件的位置调整不是实时的,而是周期性的,即在一个周期内调整一次,保证在增加系统稳定性的同时所述额外的系统成本尽量少。令调整周期为T,易得调整周期T的大小随系统的可支配成本变化,可支配成本越多,周期T越小。
在本实施例所述的系统中包含a个存储节点和b个文件,该系统中主管理服务器可获取用户对所有文件的访问情况以及每个文件在每个周期T内的访问量L。
利用主管服务器可以获得所有文件在每个周期区间内的搜索量,所有用户对所有文件的平均访问间隔以及对所有文件的最后一次访问时间。
本步骤中获得的数据将作为本实施例后续进行预测的数据支撑。
步骤S002:根据每个文件当前周期内老用户和新用户的访问量,预测每个文件在下个周期内老用户的访问量;
在本实施例中,将用户人群分为两类:老用户和新用户,其中老用户指在过去已经对所述文件进行过访问的用户,新用户指之前未对所述文件进行过访问的用户,所述老用户及所述新用户共同组成所述所有用户。
根据用户对每个文件的总访问次数判断该文件性质:高频访问文件或低频访问文件。并在此基础上得到老用户对每个文件的平均访问次数Mi和平均访问间隔Gi
判断文件性质的方法为:
每个用户截止至当前时刻对文件i的累计访问次数为mi
首先,若mi>1的用户数占总用户数的1/10及以上,则该文件属于高频访问文件。
因此,其平均访问次数Mi和平均访问间隔Gi的计算基础均为老用户的访问情况,排除mi=1的用户即第一次访问文件i的用户,将mi>1的所有用户的访问次数mi的平均值向上取整,得到文件i的平均访问次数Mi
同时,根据mi>1的所有老用户对该文件的访问时间,得到每个用户对该文件的访问间隔的平均值将所有用户对应的/>的平均值记为用户对文件i的平均访问间隔Gi
其次,若mi>1的用户数较少,占总用户数的1/10以下,则该文件属于低频访问文件,此时文件i的平均访问次数Mi=1。
即该文件在下个周期内的访问用户中没有老用户,只有新用户。根据该文件的平均访问次数Mi、平均访问间隔Gi和老用户的访问情况,可得到下个周期内所有老用户对该文件的总访问次数Ni,具体表达式为:
对于mi≥Mi的老用户,该用户后续不再对该文件进行访问,其在下个周期内对文件i的访问次数为0。
对于mi<Mi的老用户,该用户后续还会对该文件进行访问,且用户k对文件i的访问次数为nik=Mi-mi
进一步地,通过平均访问间隔Gi和用户k的最后一次访问时间tik计算该用户对文件i的后续nik次访问时间:tik1=tik+Gi,tik2=tik+2Gi,…,tikn=tik+nGi
设下个周期的时间范围为[(w-1)T,wT],其中所述下个周期为截至目前时序上第w个周期,T为周期长度,则对于用户k的上述nik个访问时间,则分别判断上述nik次访问时间点是否落在时间范围[(w-1)T,wT]内,将在该时间范围内的访问时间的个数记为Nik,即为用户k在下个周期内对文件i的访问次数Nik
将所有mi<Mi的用户数量记为K,则可得到每个mi<Mi的用户在下个周期内对文件i的访问次数,则K个用户对应的访问次数之和即为所有老用户在下个周期内对文件i的访问次数Ni,即
步骤S003:获取服务器中当前周期内被搜索文件的搜索量,并根据被搜索文件的搜索量预测下个周期该被搜索文件的访问量,将该被搜索文件的访问量作为下个周期预测的新用户访问量;
本实施例中将之前未对该文件进行过访问的用户可看作是潜在的新用户。因为用户进行访问查询的基础是文件的关键词,故当用户对关键词进行搜索时,即该用户对与搜索的关键词相关的文件有访问需求,因此每个文件在当前周期的搜索量与其在下个周期的新用户访问次数呈正比。
则下个周期内新用户对文件i的访问次数Ni′的具体获得方法为:
首先根据每个文件的标题获得其语义信息,从而得到该文件对应的所有关键词;
其次通过关键词查询工具站得到每个周期内每个关键词的搜索量,该文件的搜索量等于与其对应的所有关键词的搜索量之和,从而得到每个文件在每个周期内的搜索量S。
文件i前一周期的搜索量Si与其在后一周期的新用户访问次数Ni′呈正比关系。因此可根据上个周期的Si得到下个周期的Ni′,两者相关关系获得方法为:
首先得到每个周期中新用户的访问数量:已知文件i在每个周期对应的总访问次数Ci,并可根据步骤S001中得到老用户在每个周期内对文件i的访问次数Ni,则新用户在每个周期内对文件i的访问次数Ni′=Ci-Ni
然后以文件i在第p-1个周期对应的搜索量Sip为横坐标,以其在第p个周期对应的访问次数Nip′为纵坐标,拟合得到访问次数Ni′随Si单调变化的曲线。
最后根据文件i在上个周期的搜索量Si得到其在下个周期的新用户访问次数Ni′。
步骤S004:根据预测的每个文件在下个周期文件的老用户访问量和新用户的访问量,得到下个周期内每个文件的预测热度,并对每个文件所在的存储节点进行调整。
根据上述步骤S001至步骤S003可预测得到文件i在下个周期内的总访问次数为Ci′=Ni+Ni′,其中Ni和Ni′分别为老用户和新用户在下个周期内对文件i访问次数。
进而可预测得到存储节点上其他文件在该周期下的访问次数。
在本实施例中,该服务器下存在a个存储节点,需要存储b个文件,且由于文件对应的访问次数相对其他文件越多,其文件热度Ri越高。因此,对访问次数进行归一化即可得到每个文件在该周期下相应的预测热度R。
根据下个周期内各存储节点的预测热度,判断是否需要进行文件的位置移动使得各存储节点热度平衡,若需要进行文件的位置移动,为了降低系统的开支,应在保证存储节点的热度平衡的前提下尽量少地移动文件位置,热度平衡具体方法为:
首先将每个存储节点内所有文件的预测热度R相加得到该存储节点的预测热度r。
然后计算a个存储节点之间预测热度r的方差,若该方差超过基于系统性能设定的阈值,则节点之间的热度不平衡,需要对其进行文件的位置移动。
计算a个存储节点预测热度r的均值为了降低系统的开支,只对/> 范围外的存储节点进行文件移动。
将热度的存储节点和热度/>的存储节点按热度由大到小的顺序进行排序,第一个和最后一个组对,第二个和倒数第二个组对,以此类推。
最后对于每组存储节点,计算其平均热度,将热度高的存储节点中的文件移到热度低的存储节点中,使得每组中两个存储节点的热度一致。
参见图2,图2为本申请实施例提供的一种基于大数据和文件热度的分布式存储节点负载调整系统的框图,所述基于大数据和文件热度的分布式存储节点负载调整系统包括:
数据获取单元1001,用于获取服务器中每个文件的访问情况,并根据该访问情况获取每个文件在当前周期内老用户和新用户的访问量;
老用户访问量预测单元1002,用于根据每个文件当前周期内老用户和新用户的访问量,预测每个文件在下个周期内老用户的访问量;
新用户访问量预测单元1003,用于获取服务器中当前周期内被搜索文件的搜索量,并根据被搜索文件的搜索量预测下个周期该被搜索文件的访问量,将该被搜索文件的访问量作为下个周期预测的新用户访问量;
文件热度计算及调整单元1004,用于根据预测的每个文件在下个周期文件的老用户访问量和新用户的访问量,归一化处理得到下个周期内每个文件的预测热度,根据文件预测热度对每个文件所在的存储节点进行热度平衡调整。
综上所述,本发明可以根据各存储节点内文件历史访问情况及搜索情况,分别预测新用户及老用户在下个周期内对每个文件的访问情况,并通过归一化处理得到每个文件热度,利用得到的每个文件热度对各存储节点进行平衡调整处理,最后使得各存储节点热度一致,从而达到平衡各界点负载进而降低系统负载的目的;与此同时避免因常规技术手段造成的时间滞后性,使得文件位置的调整更具合理性和准确性;在文件位置调整过程中,针对预测方差热度以外的存储节点进行平衡处理,可以提高文件移动的效率,减少系统支出。
以上实施例仅仅是对本发明的举例说明,并不构成对本发明的保护范围的限制,凡是与本发明相同或相似的设计均属于本发明的保护范围之内。
还需要指出的是,在本公开方法和系统中,各部件或各步骤是可以分解和/或重新组合的,这些分解和/或重新组合应视为本公开的等效方案。

Claims (7)

1.一种基于大数据和文件热度的分布式存储节点负载调整方法,其特征在于,包括:
根据服务器获取到的每个文件的访问情况,获取每个文件在当前周期内老用户和新用户的访问量;
根据每个文件当前周期内老用户和新用户的访问量,预测其在下个周期内老用户访问量;
获取服务器中当前周期内文件的搜索量,并根据被搜索文件的搜索量预测下个周期该被搜索文件的访问量,将该被搜索文件的访问量作为下个周期预测的新用户访问量;
根据预测的每个文件在下个周期内老用户访问量和新用户的访问量,得到文件的预测热度,并对每个文件所在的存储节点进行热度平衡调整。
2.如权利要求1中所述的一种基于大数据和文件热度的分布式存储节点负载调整方法,其特征在于,所述每个文件在下个周期内老用户的访问量预测方法包括:
根据用户对每个文件的总访问次数判断该文件性质,利用对文件性质判断的结果获得老用户对每个文件的平均访问次数Mi和平均访问间隔Gi
根据每个文件的平均访问次数Mi、平均访问间隔Gi和老用户的访问情况,得到下个周期内所有老用户对该文件的总访问次数Ni
3.如权利要求2中所述的一种基于大数据和文件热度的分布式存储节点负载调整方法,其特征在于,所述文件性质判断方法为:
若到当前时刻为止对所述文件的访问次数mi超过第一阈值的用户数占总用户数占比超过第二阈值时,将该文件视为高频访问文件,并将mi平均值向上取整后记为平均访问次数Mi,反之将该文件视为低频访问文件,此时平均访问次数Mi=1。
4.如权利要求3中所述的一种基于大数据和文件热度的分布式存储节点负载调整方法,其特征在于,所述下个周期内所有老用户对该文件的总访问次数Ni获取方法为:
当mi≥Mi时,该用户在下个周期对该文件访问次数为0,当mi<Mi时,该用户对该文件后续访问次数为nik=Mi-mi,通过平均访问间隔Gi和该用户对该文件的最后一次访问时间tik计算该用户对该文件的后续nik次的访问时间:tik1=tik+Gi,tik2=tik+2Gi,…,
设下个周期的时间范围为[(w-1)T,wT],其中所述下个周期为截至目前时序上第w个周期,T为周期长度,则对于用户k的上述nik个访问时间,分别判断上述nik次访问时间点是否落在时间范围[(w-1)T,wT]内,将在该时间范围内的访问时间的个数记为Nik,即为用户k在下个周期内对文件i的访问次数Nik
下个周期内老用户对该文件的总访问次数其中K为所有mi<Mi的用户数量。
5.如权利要求1中所述的一种基于大数据和文件热度的分布式存储节点负载调整方法,其特征在于,所述下个周期新用户访问量的预测方法为:
根据当前周期所述文件被搜索量与下个周期新用户对所述文件的访问量之间的数据拟合关系,得到下个周期内新用户对所述文件的访问次数Ni′。
6.如权利要求1中所述的一种基于大数据和文件热度的分布式存储节点负载调整方法,其特征在于,所述热度平衡调整方法为:
通过累加同一存储节点内所有文件的所述预测热度得到该存储节点的预测热度,计算各存储节点之间预测热度的方差及均值,当各存储节点之间预测热度的方差超过第三阈值时,对范围外的存储节点按照存储节点预测热度进行排序,将第一个和最后一个存储节点组对,第二个和倒数第二个组对,以此类推得到组合节点;
计算组合节点内两存储节点的平均热度后将热度高的存储节点中的文件移动到热度低的存储节点中,使得该组合节点中两个组合节点热度一致。
7.一种基于大数据和文件热度的分布式存储节点负载调整系统,其特征在于,包括:
数据获取单元,用于获取服务器中每个文件的访问情况,并根据该访问情况获取每个文件在当前周期内老用户和新用户的访问量;
老用户访问量预测单元,用于根据每个文件当前周期内老用户和新用户的访问量,预测每个文件在下个周期内老用户的访问量;
新用户访问量预测单元,用于获取服务器中当前周期内被搜索文件的搜索量,并根据被搜索文件的搜索量预测下个周期该被搜索文件的访问量,将该被搜索文件的访问量作为下个周期预测的新用户访问量;
文件热度计算及调整单元,用于根据预测的每个文件在下个周期文件的老用户访问量和新用户的访问量,归一化处理得到下个周期内每个文件的预测热度,根据文件预测热度对每个文件所在的存储节点进行调整。
CN202111102564.2A 2021-09-20 2021-09-20 一种基于大数据和文件热度的分布式存储节点负载调整方法 Active CN113703688B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111102564.2A CN113703688B (zh) 2021-09-20 2021-09-20 一种基于大数据和文件热度的分布式存储节点负载调整方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111102564.2A CN113703688B (zh) 2021-09-20 2021-09-20 一种基于大数据和文件热度的分布式存储节点负载调整方法

Publications (2)

Publication Number Publication Date
CN113703688A CN113703688A (zh) 2021-11-26
CN113703688B true CN113703688B (zh) 2024-03-15

Family

ID=78661360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111102564.2A Active CN113703688B (zh) 2021-09-20 2021-09-20 一种基于大数据和文件热度的分布式存储节点负载调整方法

Country Status (1)

Country Link
CN (1) CN113703688B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292389B (zh) * 2022-10-08 2023-05-12 南通君合云起信息科技有限公司 一种大数据自适应存储方法
CN116600015B (zh) * 2023-07-18 2023-10-10 湖南快乐阳光互动娱乐传媒有限公司 一种资源节点调整方法、系统、电子设备及可读存储介质
CN117370272B (zh) * 2023-10-25 2024-06-11 浙江星汉信息技术股份有限公司 基于档案热度的档案管理方法、装置、设备及存储介质
CN117473144B (zh) * 2023-12-27 2024-03-29 深圳市活力天汇科技股份有限公司 一种航线数据的存储方法、计算机设备及可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577481A (zh) * 2012-08-06 2014-02-12 阿里巴巴集团控股有限公司 一种广告数据搜索的方法和装置
CN106648456A (zh) * 2016-09-18 2017-05-10 重庆邮电大学 基于用户访问量以及预测机制的动态副本文件访问方法
CN106933511A (zh) * 2017-02-27 2017-07-07 武汉大学 考虑负载均衡与磁盘效率的空间数据存储组织方法及系统
CN107315547A (zh) * 2017-07-18 2017-11-03 郑州云海信息技术有限公司 一种读取分布式元数据文件的方法及装置
CN107770259A (zh) * 2017-09-30 2018-03-06 武汉理工大学 基于文件热度和节点负载的副本数量动态调整方法
CN109522151A (zh) * 2017-09-15 2019-03-26 北京京东尚科信息技术有限公司 用于数据冗余储存的方法及装置
CN109634779A (zh) * 2018-11-19 2019-04-16 杭州电子科技大学 一种基于数据热度自学习的数据增量备份方法
CN110472004A (zh) * 2019-08-23 2019-11-19 国网山东省电力公司电力科学研究院 一种科技情报数据多级缓存管理的方法及系统
CN110958154A (zh) * 2019-11-06 2020-04-03 长沙理工大学 一种基于节点热度的心跳间隔动态调整方法、装置及系统
CN111124762A (zh) * 2019-12-30 2020-05-08 航天科工网络信息发展有限公司 一种基于改进粒子群算法的动态副本放置方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577481A (zh) * 2012-08-06 2014-02-12 阿里巴巴集团控股有限公司 一种广告数据搜索的方法和装置
CN106648456A (zh) * 2016-09-18 2017-05-10 重庆邮电大学 基于用户访问量以及预测机制的动态副本文件访问方法
CN106933511A (zh) * 2017-02-27 2017-07-07 武汉大学 考虑负载均衡与磁盘效率的空间数据存储组织方法及系统
CN107315547A (zh) * 2017-07-18 2017-11-03 郑州云海信息技术有限公司 一种读取分布式元数据文件的方法及装置
CN109522151A (zh) * 2017-09-15 2019-03-26 北京京东尚科信息技术有限公司 用于数据冗余储存的方法及装置
CN107770259A (zh) * 2017-09-30 2018-03-06 武汉理工大学 基于文件热度和节点负载的副本数量动态调整方法
CN109634779A (zh) * 2018-11-19 2019-04-16 杭州电子科技大学 一种基于数据热度自学习的数据增量备份方法
CN110472004A (zh) * 2019-08-23 2019-11-19 国网山东省电力公司电力科学研究院 一种科技情报数据多级缓存管理的方法及系统
CN110958154A (zh) * 2019-11-06 2020-04-03 长沙理工大学 一种基于节点热度的心跳间隔动态调整方法、装置及系统
CN111124762A (zh) * 2019-12-30 2020-05-08 航天科工网络信息发展有限公司 一种基于改进粒子群算法的动态副本放置方法

Also Published As

Publication number Publication date
CN113703688A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN113703688B (zh) 一种基于大数据和文件热度的分布式存储节点负载调整方法
CN110019990B (zh) 样本筛选的方法和装置、业务对象数据搜索的方法和装置
CN104253855B (zh) 一种面向内容中心网络中基于内容分类的类别流行度缓存替换方法
US8756220B1 (en) Modifying search result ranking based on corpus search statistics
US8352474B2 (en) System and method for retrieving information using a query based index
EP2145264B1 (en) Calculating importance of documents factoring historical importance
CN103312725B (zh) 一种基于节点重要程度的内容中心网络缓存判决方法
US20060200460A1 (en) System and method for ranking search results using file types
Ma et al. Weighted greedy dual size frequency based caching replacement algorithm
Alici et al. Adaptive time-to-live strategies for query result caching in web search engines
CN106528451B (zh) 针对小文件的二级缓存预取的云存储框架及构建方法
WO2021027139A1 (zh) 基于小波神经网络的交通流数据预测方法和装置
CN109413694B (zh) 一种基于内容流行度预测的小小区缓存方法及装置
WO2010037314A1 (zh) 一种搜索的方法、系统和装置
CA2836252A1 (en) Fuzzy proximity boosting and influence kernels
WO2024207834A1 (zh) 基于机器学习的多级缓存自适应系统及策略
CN102521350A (zh) 基于历史点击数据的分布式信息检索集合选择方法
CN109471971B (zh) 一种面向教育领域资源云存储的语义预取方法及系统
CN112733060A (zh) 基于会话聚类预测的缓存替换方法、装置及计算机设备
CN110677270B (zh) 一种域名的可缓存性分析方法及系统
CN107943558A (zh) 基于霍尔特指数平滑法的状态预测模型生成方法
Jin et al. An integrated prefetching and caching scheme for mobile web caching system
Li et al. A delayed eviction caching replacement strategy with unified standard for edge servers
CN116527756B (zh) 一种基于无线移动通信网络的新闻内容分发系统
Ye et al. Generalized learning of neural network based semantic similarity models and its application in movie search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240222

Address after: 230000 Room A970, Changhe Economic City, Nangang Science and Technology Park, Intersection of Dabieshan Road and Tianlong Road, High tech Zone, Hefei City, Anhui Province

Applicant after: Anhui Fenghe Jiaxing Information Technology Co.,Ltd.

Country or region after: China

Address before: 450000 No. b408-16, Xicheng science and technology building, No. 41, Jinsuo Road, high tech Industrial Development Zone, Zhengzhou City, Henan Province

Applicant before: Henan Jinyu Network Technology Co.,Ltd.

Country or region before: China

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant