CN117170590B - 一种基于云计算的计算机数据存储方法及系统 - Google Patents

一种基于云计算的计算机数据存储方法及系统 Download PDF

Info

Publication number
CN117170590B
CN117170590B CN202311452737.2A CN202311452737A CN117170590B CN 117170590 B CN117170590 B CN 117170590B CN 202311452737 A CN202311452737 A CN 202311452737A CN 117170590 B CN117170590 B CN 117170590B
Authority
CN
China
Prior art keywords
file
priority
files
access
single access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311452737.2A
Other languages
English (en)
Other versions
CN117170590A (zh
Inventor
吴阁明
赵达
郝聪
郑强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Zhuozhi Chuangxin Technology Co ltd
Original Assignee
Shenyang Zhuozhi Chuangxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Zhuozhi Chuangxin Technology Co ltd filed Critical Shenyang Zhuozhi Chuangxin Technology Co ltd
Priority to CN202311452737.2A priority Critical patent/CN117170590B/zh
Publication of CN117170590A publication Critical patent/CN117170590A/zh
Application granted granted Critical
Publication of CN117170590B publication Critical patent/CN117170590B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及计算机存储器分配技术领域,具体涉及一种基于云计算的计算机数据存储方法及系统,本发明获取计算机数据文件的历史访问记录,通过文件在闪存与在磁性硬盘的读写速度差值,结合文件内存和访问频率,确定文件的频率优先级,通过计算任意两份文件的共同访问概率,推导出文件的耦合度,进而获得文件集与孤立文件,基于文件集单次访问的访问文件内存与频率优先级获得单次访问优先级,对单次访问优先级加权求和获得文件集的联合优先级,将孤立文件的频率优先级与文件集的联合优先级统称为优先级,计算优先阈值,按照优先级与优先阈值的大小关系进行文件的存储分配。本发明能够更好地利用存储空间,提高计算机的访问效率。

Description

一种基于云计算的计算机数据存储方法及系统
技术领域
本发明涉及计算机存储器分配技术领域,具体涉及一种基于云计算的计算机数据存储方法及系统。
背景技术
混合存储器是一种结合了传统机械硬盘和固态硬盘的存储设备,既可以提供大容量的存储空间,又可以提供高速的数据访问和响应能力,然而混合存储器在存储方面可能会遇到一些挑战,虽然固态硬盘具有更快地读写速度和响应时间,但存储空间较小,机械硬盘的存储空间大,但却不具备高速的读写速度和响应时间。对待存储文件进行合理的存储分配是一个需要解决的问题。
在现有技术中,对待存储文件进行分类存储时通过计算每个文件与预设数据类型之间的关联度,将文件分配至对应预设数据类型所在存储空间,但是这种方法忽略了不同数据类型的计算机数据文件之间同样可能存在关联性,此时可能会出现有较高关联性的文件因为属于不同预设数据类型而没有分配在同一个存储空间中,从而导致计算机访问文件的效率较低,对存储空间的利用不够充分,降低计算机运行的性能。
发明内容
为了解决现有技术进行分类存储时未考虑不同数据类型的文件之间的关联性导致计算机访问文件效率较低,不能充分利用存储空间的技术问题,本发明的目的在于提供一种基于云计算的计算机数据存储方法及系统,所采用的技术方案具体如下:
一种基于云计算的计算机数据存储方法,该方法包括:
获取计算机数据文件在历史时间段中的访问记录;
根据所述访问记录,计算每个文件在闪存的读写速度与在磁性硬盘的读写速度之间的速度差值,根据文件内存、所述速度差值与文件的访问频率得到每个文件的频率优先级;
计算共同访问任意两份文件的条件概率作为共同访问概率,根据所述共同访问概率与任意两份文件的所述访问频率得到任意两份文件的耦合度;根据所述耦合度将文件归入文件集,获得所有文件集;将没有归入文件集的文件作为孤立文件;
根据文件集的单次访问中访问的文件内存大小与所述频率优先级得到单次访问优先级;根据单次访问中文件访问次数,获得单次访问权重值;根据文件集所有单次访问中所述单次访问优先级与所述单次访问权重值得到文件集的联合优先级;
将文件集的联合优先级与孤立文件的频率优先级统称为优先级,将文件集与孤立文件按照优先级从大到小进行遍历并将文件内存进行求和得到遍历文件总内存;根据所述遍历文件总内存与闪存容量获得优先阈值;
根据所述优先阈值与所述优先级在混合存储器中对所述文件进行分类存储。
进一步地,所述频率优先级的获取方法包括:
将所述速度差值归一化处理得到第一归一化值;
将每份文件的文件内存、第一归一化值与访问频率的乘积作为每份文件的频率优先级。
进一步地,所述耦合度的获取方法包括:
计算两份文件的所述访问频率的乘积作为第一乘积;
将所述共同访问概率与所述第一乘积的比值作为文件相关程度参数;
将所述文件相关程度参数的平方根作为任意两份文件的耦合度。
进一步地,所有文件集获取方法包括:
预设耦合阈值;
若任意两份文件的耦合度大于所述耦合阈值,则将两份文件归入初始文件集;
若初始文件集外其他文件与初始文件集内任意一份文件的耦合度大于所述耦合阈值,则将对应所述其他文件归入所述初始文件集中,遍历所有文件,获得所述文件集。
进一步地,根据所述单次访问时访问的文件内存大小与所述频率优先级得到单次访问优先级,包括:
计算单次访问内被访问文件的频率优先级与文件内存的比值作为第一比值;
将单次访问内被访问文件的第一比值求和得到频率优先参数;
将所述频率优化参数与单次访问内被访问文件的文件总内存的乘积作为单次访问优先级。
进一步地,所述单次访问权重值的获取方法包括:
统计单次访问中所有文件的访问次数;
统计对文件集所有文件的总访问次数;
将单次访问中所有文件的访问次数与对文件集所有文件的总访问次数的比值作为单次访问权重值。
进一步地,所述联合优先级获取方法包括:
统计每个文件集进行单次访问的数量;
将每个文件集进行所有单次访问中所述单次访问优先级与所述单次访问权重值的乘积求和得到每个文件集的联合优先级。
进一步地,所述优先阈值获取方法包括:
统计所述遍历文件总内存占待存储的所有文件总内存的占比作为第二比值;
统计所述闪存容量占混合存储器总容量的占比作为第三比值;
将第二比值与第三比值相等时对应当前遍历文件集或孤立文件的所述优先级作为优先阈值。
进一步地,根据所述优先阈值与所述联合优先级对所述文件进行存储,包括:
将优先级大于优先阈值的文件集或孤立文件存储至闪存区;
将优先级小于优先阈值的文件集或孤立文件存储至磁性硬盘区。
一种基于云计算的计算机数据存储系统,所述系统包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,以实现前述一种基于云计算的计算机数据存储方法的步骤。
本发明具有如下有益效果:
为了解决现有技术进行分类存储时未考虑不同数据类型的文件之间的关联性导致计算机访问文件效率较低,不能充分利用存储空间的技术问题,本发明获取了计算机数据文件在历史时间段中的访问记录,根据访问频率、文件的内存大小和每个文件在闪存区与在磁性硬盘区的读写速度差值获得每个文件的频率优先级,通过频率优先级可以知道每个文件在闪存区中能提供多少读写速度优化,同时也得到每个文件进行分类存储时的优先程度;通过计算共同访问两个文件的条件概率获得任意两个文件的耦合度,将耦合度较高的两个文件归入同一个文件集,进而获得所有文件集,通过获得文件集可以将关联度较大的多个文件合并在一起进行存储;根据对文件集进行单次访问中访问文件的内存与频率优先级得到单次访问的优先级,根据文件集单次访问中所有文件的访问次数以及对文件集的所有访问次数得到单次访问的权重值,通过文件集每次单次访问的优先级与对应的权重值得到文件集的联合优先级,通过联合优先级的大小判断文件集的存储位置,对于未归入任何文件集的孤立文件,使用孤立文件对应的频率优先级进行存储位置的判断,将联合优先级与频率优先级统称为优先级;设立优先阈值,根据优先阈值与优先级在混合存储器中对文件进行分类存储,通过分类存储可以将不同优先级的文件分别存储至闪存区与磁性硬盘区,实现对混合存储器的合理分配。本发明能够更好地利用存储空间,提高计算机的访问效率,提高计算机的整体性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于云计算的计算机数据存储方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于云计算的计算机数据存储方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于云计算的计算机数据存储方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于云计算的计算机数据存储方法流程图,该方法包括:
步骤S1:获取计算机数据文件在历史时间段中的访问记录。
本实施例目的在于提供一种基于云计算的计算机数据存储方法,所以首先需要获得所有计算机数据文件,因为需要为计算机数据文件分配存储空间,所以要统计所有文件的各类数据信息和在历史时间段的访问记录,方便后续研究文件之间的相关关系。本实施例获取计算机数据文件包括但不限于文本、图像、音频、视频等各种形式的数据文件,包含计算机中所有存在的数据文件。
本发明一个实施例中,对计算机上的文件系统进行扫描,以获取所有文件与所有文件的数据信息,获取数据信息包括文件名、路径、大小、创建日期、最近访问日期等,根据文件的扩展名或内容,将文件分为不同的类型;对于每个文件,通过文件的字节数计算出内存大小;使用图表来展示数据文件从创建日期至现在的访问次数、各数据文件所占内存空间大小等各类数据信息以便于后续对文件进行关联性的研究,进而对所有文件进行存储空间分配。需要说明的是,还可以采用其他方法获取文件与文件包含的各类数据信息,在此不做限定及赘述。
需要说明的是,在本发明一个实施例中,历史时间段为文件从建立到实时时刻之间的时间段。
步骤S2:根据访问记录,计算每个文件在闪存的读写速度与在磁性硬盘的读写速度之间的速度差值,根据文件内存、速度差值与文件的访问频率得到每个文件的频率优先级。
闪存区与磁性硬盘区具有不同的读写速度,并且闪存区的读写速度要高于磁性硬盘区的读写速度,分别计算文件在闪存区的读写速度与文件在磁性硬盘区的读写速度,通过两个读写速度之间的速度差值能够得到每个文件存储在闪存区中能够提供多少速度优化。对计算机数据文件进行分层存储时要考虑数据文件的访问频率,访问频率高的计算机数据文件要存储在闪存区以获得更高的读写速度,访问频率较低的文件可以存储至磁性硬盘区可以节省存储成本。文件内存的大小直接影响了存储和访问所需的时间。较大的文件通常需要更多的时间进行读取和写入,将内存较大的文件存储至读写速度更快的闪存区会对计算机带来更大的性能提升。根据文件内存、速度差值与文件访问频率得到的频率优先级能够反映出文件被存储至闪存区的优先程度,优先程度越高的文件越有可能被存储至闪存区。
优选地,本发明一个实施例中,频率优先级的获取方法包括:
将速度差值归一化处理得到第一归一化值;将每份文件的文件内存、第一归一化值与访问频率的乘积作为每份文件的频率优先级。本发明一个实施例中,频率优先级计算公式如下所示:
式中,表示每个文件的频率优先级,/>表示每个文件的内存,/>表示文件在闪存区的读写速度,/>表示文件在磁性硬盘区的读写速度,/>表示文件的访问频率。
在频率优先级计算公式中,将每个文件在闪存的读写速度与在磁性硬盘的读写速度作差获得速度差值,将速度差值归一化处理得到第一归一化值,将每份文件的文件内存、第一归一化值与访问频率相乘得到每份文件的频率优先级,第一归一化值越高,文件可优化程度越高,将速度差值较高的文件存储至闪存区可能会提高计算机的访问效率;文件内存越大,需要读取的时间越长,存储至闪存区时的计算机性能提升越高;文件访问频率越高,越有可能存储在闪存区中;即文件的频率优先级越高,存储在闪存区时计算机性能提升越大,存储在闪存区的优先程度越高。
步骤S3:计算共同访问任意两份文件的条件概率作为共同访问概率,根据共同访问概率与任意两份文件的访问频率得到任意两份文件的耦合度;根据耦合度将文件归入文件集,获得所有文件集;将没有归入文件集的文件作为孤立文件。
在对计算机数据文件进行访问时,存在一些文件需要同时进行访问,通过计算任意两份文件的条件概率,可以识别出两份文件是否经常被一起访问,将经常被一起访问且访问频率较高的两份文件都存储在闪存区,可以提高存储的效率,也可以提高计算机的访问效率。通过任意两份文件之间的共同访问概率与两份文件的访问频率计算两份文件的耦合度,耦合度能够反映两份文件之间的关联性,两份文件之间耦合度越大,两份文件之间的关联程度越高,所以可以将耦合度较高的两份文件归入到一个文件集,将文件集作为一个整体来分配存储空间。计算文件集的优先级,通过文件集的优先级来判断是否将其存入闪存区。同时计算机数据文件中可能存在与所有文件没有较高相关性的文件,这些文件不会被归入到文件集中,将这些文件称作孤立文件,在研究文件存储至闪存区的优先级时要对孤立文件进行单独考虑。
优选地,本发明一个实施例中,耦合度的获取方法包括:
计算两份文件的访问频率的乘积作为第一乘积;将共同访问概率与第一乘积的比值作为文件相关程度参数;将文件相关程度参数的平方根作为任意两份文件的耦合度。本发明一个实施例中,耦合度计算公式如下所示:
式中,表示任意两个文件的耦合度,/>、/>表示任意两个文件,/>表示文件/>的访问频率,/>表示文件/>的访问频率,/>表示共同访问文件/>与文件/>的条件概率,即共同访问概率。
在耦合度计算公式中,表示共同访问文件/>与文件/>的共同访问概率,计算两份文件各自的访问频率的乘积作为第一乘积,将共同访问概率与第一乘积的比值开平方得到任意两份文件之间的耦合度。共同访问概率越高,耦合度越大,两份文件之间的关联性越强,对于关联性较强的两份文件在存储分配时要把它们作为一个整体进行分析。
优选地,本发明一个实施例中,所有文件集获取方法包括:
预设耦合阈值;若任意两份文件的耦合度大于耦合阈值,则将两份文件归入初始文件集;若初始文件集外其他文件与初始文件集内任意一份文件的耦合度大于耦合阈值,则将对应其他文件归入初始文件集中,遍历所有文件,获得文件集。
文件集内的所有文件都有较强的相关性,在给文件分配存储空间的时候应当视作一个整体进行考虑,如果计算文件集的优先程度较高,则将文件集的所有文件均存入闪存区内,如果文件集的优先程度较小,则将文件集的所有文件存入磁性硬盘区。本发明一个实施例中,耦合阈值可取经验值0.7,具体数值可由实施人员根据实施场景自行设置,在此不做限定及赘述。需要说明的是,获取所有文件集的方法还可以采用聚类算法,具体方法为本领域技术人员所熟知的技术手段,在此不再进行赘述。
步骤S4:根据文件集的单次访问中访问的文件内存大小与频率优先级得到单次访问优先级;根据单次访问中文件访问次数,获得单次访问权重值;根据文件集所有单次访问中单次访问优先级与单次访问权重值得到文件集的联合优先级。
将开始对文件集内任意一个文件进行访问到结束对文件集内所有文件的访问的时间段作为单次访问,对每个单次访问时间段进行分析,通过单次访问中文件集被访问文件占用存储空间的大小与频率优先级得到该单次访问时期文件集的优先级作为单次访问优先级,单次访问优先级反映出在单次访问时期文件集存储至闪存区的优先程度,通过单次访问中文件访问次数,获得单次访问权重值,一个文件集可能会存在多个单次访问的时间段,根据每个单次访问时间段的文件访问次数,获得单次访问权重值,若是单次访问权重值较小,则应该降低该单次访问权重值对应的单次访问时期的重要程度。根据每个单次访问时间段内文件集的对应优先级计算文件集在历史时间段的联合优先级,联合优先级能够反映出文件集存储至闪存区的优先程度。
优选地,本发明一个实施例中,单次访问优先级获取方法包括:
计算单次访问内被访问文件的频率优先级与文件内存的比值作为第一比值;将单次访问内被访问文件的第一比值求和得到频率优先参数;将频率优化参数与单次访问内被访问文件的文件总内存的乘积作为单次访问优先级。本发明一个实施例中,单次访问优先级计算公式如下所示:
式中,表示文件集单次访问优先级,/>表示单次访问中访问文件的个数,/>表示单次访问中每个访问文件的频率优先级,/>表示单次访问中每个访问文件的文件内存。
在单次访问优先级计算公式中,表示单次访问时期每个访问文件的频率优先级与对应访问文件内存的第一比值,主要是为了防止单个频率优先级较高的访问文件因为内存过小而取得较小优先级的情况,将单次访问时期访问文件的第一比值求和得到频率优化参数,频率优化参数与单次访问内被访问文件的文件总内存的乘积作为单次访问优先级。单次访问内被访问文件数目越多,被访问文件的频率优先级越高,且被访问文件内存越大,单次访问优先级越大。
优选地,本发明一个实施例中,单次访问权重值的获取方法包括:
统计单次访问中所有文件的访问次数;统计对文件集所有文件的总访问次数;将单次访问中所有文件的访问次数与对文件集所有文件的总访问次数的比值作为单次访问权重值。本发明一个实施例中,单次访问权重值的计算公式如下所示:
式中,表示文件集单次访问权重值,/>表示单次访问中所有文件的访问次数,表示对文件集所有文件的总访问次数。
在单次访问权重值计算公式中,通过单次访问中所有文件的访问次数占文件集总访问次数的比值作为该单次访问时期在文件集访问历史时间段的比重,反映了该单次访问时期在历史时间段的重要程度,单次访问内被访问文件数量越多,该单次访问时期就越重要,给予该单次访问时期对应的单次访问优先级更高的权重。
优选地,本发明一个实施例中,联合优先级获取方法包括:
统计每个文件集进行单次访问的数量;将每个文件集进行所有单次访问中单次访问优先级与单次访问权重值的乘积求和得到每个文件集的联合优先级。本发明一个实施例中,联合优先级计算公式如下所示:
式中,表示文件集的联合优先级,/>表示文件集的单次访问权重值,/>表示文件集的单次访问优先级,/>表示对文件集进行单次访问的次数。
在联合优先级计算公式中,将单次访问权重值作为每个单次访问优先级对应的权重,对每个单次访问时期的单次访问优先级进行加权求和,获得文件集访问历史时间段的优先级,即得到文件集的联合优先级。联合优先级反映了文件集在历史时间段中的重要程度,根据联合优先级能够对文件集做出合理的存储分配,联合优先级较高的文件集有较大可能存储至闪存区,联合优先级较低的文件集有较大可能存储至磁性硬盘区。
步骤S5:将文件集的联合优先级与孤立文件的频率优先级统称为优先级,将文件集与孤立文件按照优先级从大到小进行遍历并将文件内存进行求和得到遍历文件总内存;根据遍历文件总内存与闪存容量获得优先阈值;根据优先阈值与优先级在混合存储器中对文件进行分类存储。
在计算机数据文件中,孤立文件的频率优先级与文件集的联合优先级都可以表示其各自的优先程度,所以可以将孤立文件的频率优先级与文件集的联合优先级统称为优先级;由于在混合存储器中,闪存区的读写速度优于磁性硬盘区,大部分计算机数据文件存储在闪存中都能一定程度提高计算机的运行速度,进而提高计算机的性能,但相比于闪存区,磁性硬盘区有更大的存储空间,存储成本较低,所以不能将一味地所有文件都存储至闪存区中,而是要基于文件的优先级对文件进行合理的存储分配;将文件集与孤立文件按照优先级从大到小进行遍历并将文件内存进行求和得到遍历文件总内存,并根据遍历文件总内存与闪存容量获得优先阈值,计算优先阈值可以设立一个标准,基于此标准对不同优先级的文件或文件集在混合存储器中进行分类存储,通过分类存储可将不同优先级的文件分别存储至闪存区域和磁性硬盘区域,能够在较大程度提高计算机访问效率的同时,不会对闪存区存储空间造成太大压力,由此完成计算机数据文件的存储分配。
优选地,本发明一个实施例中,优先阈值获取方法包括:
统计遍历文件总内存占待存储的所有文件总内存的占比作为第二比值;统计闪存容量占混合存储器总容量的占比作为第三比值;将第二比值与第三比值相等时对应当前遍历文件集或孤立文件的优先级作为优先阈值。
为了同时利用闪存区高速的读写速度与磁性硬盘区较大的存储空间,需要确定哪些文件需要被存储至闪存区中,哪些文件需要被存储至磁性硬盘区中。将第二比值与第三比值相等时对应当前遍历文件集或孤立文件的优先级作为优先阈值,优先阈值可以决定哪些文件应该被存储至闪存区中,哪些文件应该被存储至磁性硬盘区中,使计算机保持较高性能的同时,不对闪存区造成太大的存储压力。需要说明的是,本发明还可以通过其他方法获取优先阈值,比如机器学习算法,具体方法为本领域技术人员熟知的技术手段,在此不再进行赘述。
优选地,本发明一个实施例中,根据优先阈值与联合优先级对文件进行存储,包括:
将优先级大于优先阈值的文件集或孤立文件存储至闪存区,可以确保这些重要且频繁访问的数据能够以更快的速度被访问;将优先级小于优先阈值的文件集或孤立文件存储至磁性硬盘区,可以有效利用存储资源,磁性硬盘区通常成本较低,但速度相对较慢,将不常被访问的数据存储至磁性硬盘区上,可以避免浪费大量闪存区资源。并且文件的访问模式和优先级可能随时间而变化,通过优先阈值的方式来分配存储,系统可以动态适应文件访问模式的变化,如果文件在一段时间内访问频率提高,那么则有可能被提升到高优先级,从而更有可能被存储至闪存区中。
至此,完成计算机数据文件的存储分配。
综上所述,该方法获得每个文件的访问频率,根据访问频率、文件内存和每个文件在闪存区与在磁性硬盘区的读写速度差值获得每个文件的频率优先级;通过共同访问两个文件的条件概率计算获得任意两个文件的耦合度,将耦合度较高的两个文件归入同一个文件集,进而获得所有文件集,通过获得文件集可以将关联度较大的多个文件合并在一起进行存储分配;根据对文件集单次访问中访问文件的内存与频率优先级得到单次访问优先级,根据文件集单次访问中所有文件的访问次数以及对文件集的所有访问次数得到单次访问权重值,通过对文件集每次单次访问的优先级利用权重值进行加权求和得到文件集的联合优先级,通过联合优先级的大小判断文件集的存储位置,对于未归入任何文件集的孤立文件,使用孤立文件对应的频率优先级进行存储位置的分配,将联合优先级与频率优先级统称为优先级;设立优先阈值,将优先级大于优先阈值的文件集和孤立文件存储至闪存区,将优先级小于优先阈值的文件集和孤立文件存储至磁性硬盘区,通过对文件的访问频率、内存大小与文件之间的关联性综合考虑计算出优先级,实现对混合存储器的合理分配。该发明能够更好地利用存储空间,提高计算机的访问效率。
本发明实施例还提供了一种基于云计算的计算机数据存储系统,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时,可以实现一种基于云计算的计算机数据存储方法的步骤。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。

Claims (6)

1.一种基于云计算的计算机数据存储方法,其特征在于,所述方法包括:
获取计算机数据文件在历史时间段中的访问记录;
根据所述访问记录,计算每个文件在闪存的读写速度与在磁性硬盘的读写速度之间的速度差值,根据文件内存、所述速度差值与文件的访问频率得到每个文件的频率优先级;
计算共同访问任意两份文件的条件概率作为共同访问概率,根据所述共同访问概率与任意两份文件的所述访问频率得到任意两份文件的耦合度;根据所述耦合度将文件归入文件集,获得所有文件集;将没有归入文件集的文件作为孤立文件;
根据文件集的单次访问中访问的文件内存大小与所述频率优先级得到单次访问优先级;根据单次访问中文件访问次数,获得单次访问权重值;根据文件集所有单次访问中所述单次访问优先级与所述单次访问权重值得到文件集的联合优先级;
将文件集的联合优先级与孤立文件的频率优先级统称为排序优先级,将文件集与孤立文件按照排序优先级从大到小进行遍历并将文件内存进行求和得到遍历文件总内存;根据所述遍历文件总内存与闪存容量获得优先阈值;
根据所述优先阈值与所述排序优先级在混合存储器中对所述文件进行分类存储;
所述频率优先级的获取方法包括:
将所述速度差值归一化处理得到第一归一化值;
将每份文件的文件内存、第一归一化值与访问频率的乘积作为每份文件的频率优先级;
所述耦合度的获取方法包括:
计算两份文件的所述访问频率的乘积作为第一乘积;
将所述共同访问概率与所述第一乘积的比值作为文件相关程度参数;
将所述文件相关程度参数的平方根作为任意两份文件的耦合度;
根据所述单次访问时访问的文件内存大小与所述频率优先级得到单次访问优先级,包括:
计算单次访问内被访问文件的频率优先级与文件内存的比值作为第一比值;
将单次访问内被访问文件的第一比值求和得到频率优化参数;
将所述频率优化参数与单次访问内被访问文件的文件总内存的乘积作为单次访问优先级;
所述联合优先级获取方法包括:
统计每个文件集进行单次访问的数量;
将每个文件集进行所有单次访问中所述单次访问优先级与所述单次访问权重值的乘积求和得到每个文件集的联合优先级。
2.根据权利要求1的所述一种基于云计算的计算机数据存储方法,其特征在于,所有文件集获取方法包括:
预设耦合阈值;
若任意两份文件的耦合度大于所述耦合阈值,则将两份文件归入初始文件集;
若初始文件集外其他文件与初始文件集内任意一份文件的耦合度大于所述耦合阈值,则将对应所述其他文件归入所述初始文件集中,遍历所有文件,获得所述文件集。
3.根据权利要求1的所述一种基于云计算的计算机数据存储方法,其特征在于,所述单次访问权重值的获取方法包括:
统计单次访问中所有文件的访问次数;
统计对文件集所有文件的总访问次数;
将单次访问中所有文件的访问次数与对文件集所有文件的总访问次数的比值作为单次访问权重值。
4.根据权利要求1的所述一种基于云计算的计算机数据存储方法,其特征在于,所述优先阈值获取方法包括:
统计所述遍历文件总内存占待存储的所有文件总内存的占比作为第二比值;
统计所述闪存容量占混合存储器总容量的占比作为第三比值;
将第二比值与第三比值相等时对应当前遍历文件集或孤立文件的所述排序优先级作为优先阈值。
5.根据权利要求1的所述一种基于云计算的计算机数据存储方法,其特征在于,根据所述优先阈值与所述联合优先级对所述文件进行分类存储,包括:
将优先级大于优先阈值的文件集或孤立文件存储至闪存区;
将优先级小于优先阈值的文件集或孤立文件存储至磁性硬盘区。
6.一种基于云计算的计算机数据存储系统,所述系统包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~5任意一项所述一种基于云计算的计算机数据存储方法的步骤。
CN202311452737.2A 2023-11-03 2023-11-03 一种基于云计算的计算机数据存储方法及系统 Active CN117170590B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311452737.2A CN117170590B (zh) 2023-11-03 2023-11-03 一种基于云计算的计算机数据存储方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311452737.2A CN117170590B (zh) 2023-11-03 2023-11-03 一种基于云计算的计算机数据存储方法及系统

Publications (2)

Publication Number Publication Date
CN117170590A CN117170590A (zh) 2023-12-05
CN117170590B true CN117170590B (zh) 2024-01-26

Family

ID=88947317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311452737.2A Active CN117170590B (zh) 2023-11-03 2023-11-03 一种基于云计算的计算机数据存储方法及系统

Country Status (1)

Country Link
CN (1) CN117170590B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541458A (zh) * 2010-12-17 2012-07-04 西安奇维测控科技有限公司 一种提高电子硬盘数据写入速度的方法
CN106528761A (zh) * 2016-11-04 2017-03-22 郑州云海信息技术有限公司 一种文件缓存方法及装置
CN109446114A (zh) * 2018-10-12 2019-03-08 咪咕文化科技有限公司 一种空间数据缓存方法、装置和存储介质
CN110018997A (zh) * 2019-03-08 2019-07-16 中国农业科学院农业信息研究所 一种基于hdfs的海量小文件存储优化方法
CN113176857A (zh) * 2021-04-30 2021-07-27 康键信息技术(深圳)有限公司 海量小文件存取优化方法、装置、设备及存储介质
CN114398315A (zh) * 2021-12-31 2022-04-26 浙江中控技术股份有限公司 一种数据存储方法、系统、存储介质及电子设备
CN115202563A (zh) * 2021-04-14 2022-10-18 戴尔产品有限公司 基于预测数据访问频率趋势模式在集群存储系统的存储层级之间的数据移动
CN116775713A (zh) * 2023-08-22 2023-09-19 北京遥感设备研究所 基于数据访问模式的数据库主被动缓存优化方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5520747B2 (ja) * 2010-08-25 2014-06-11 株式会社日立製作所 キャッシュを搭載した情報装置及びコンピュータ読み取り可能な記憶媒体
US9047321B2 (en) * 2013-03-21 2015-06-02 Nexbit Systems Inc. Prioritizing downloading of image files
KR20170129540A (ko) * 2016-05-17 2017-11-27 삼성에스디에스 주식회사 룰 관리 시스템 및 방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541458A (zh) * 2010-12-17 2012-07-04 西安奇维测控科技有限公司 一种提高电子硬盘数据写入速度的方法
CN106528761A (zh) * 2016-11-04 2017-03-22 郑州云海信息技术有限公司 一种文件缓存方法及装置
CN109446114A (zh) * 2018-10-12 2019-03-08 咪咕文化科技有限公司 一种空间数据缓存方法、装置和存储介质
CN110018997A (zh) * 2019-03-08 2019-07-16 中国农业科学院农业信息研究所 一种基于hdfs的海量小文件存储优化方法
CN115202563A (zh) * 2021-04-14 2022-10-18 戴尔产品有限公司 基于预测数据访问频率趋势模式在集群存储系统的存储层级之间的数据移动
CN113176857A (zh) * 2021-04-30 2021-07-27 康键信息技术(深圳)有限公司 海量小文件存取优化方法、装置、设备及存储介质
CN114398315A (zh) * 2021-12-31 2022-04-26 浙江中控技术股份有限公司 一种数据存储方法、系统、存储介质及电子设备
CN116775713A (zh) * 2023-08-22 2023-09-19 北京遥感设备研究所 基于数据访问模式的数据库主被动缓存优化方法

Also Published As

Publication number Publication date
CN117170590A (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
US11741053B2 (en) Data management system, method, terminal and medium based on hybrid storage
CN109815234A (zh) 一种流式计算模型下的多重布谷鸟过滤器
WO2023236357A1 (zh) 一种面向多并发深度学习训练任务的数据缓存方法和装置
CN115344505B (zh) 一种基于感知分类的内存访问方法
WO2023000536A1 (zh) 一种数据处理方法、系统、设备以及介质
US10712943B2 (en) Database memory monitoring and defragmentation of database indexes
CN111984425A (zh) 用于操作系统的内存管理方法、装置及设备
CN110018997B (zh) 一种基于hdfs的海量小文件存储优化方法
CN117170590B (zh) 一种基于云计算的计算机数据存储方法及系统
US20240070120A1 (en) Data processing method and apparatus
CN106201918A (zh) 一种基于大数据量和大规模缓存快速释放的方法和系统
CN117251275A (zh) 多应用异步i/o请求的调度方法及系统、设备及介质
US11221788B2 (en) Data storage method and data storage engine
CN110069466B (zh) 一种面向分布式文件系统的小文件存储方法及装置
CN111859038A (zh) 一种分布式存储系统数据热度统计方法、装置
CN112148226A (zh) 一种数据存储方法及相关装置
WO2023082902A1 (zh) 索引的创建方法、计算设备及存储介质
CN111752941A (zh) 一种数据存储、访问方法、装置、服务器及存储介质
CN102779017A (zh) 一种固态盘中数据缓存区的控制方法
CN1333346C (zh) 一种访问文件的方法
CN107341227A (zh) 文件处理方法、服务器及计算机可读存储介质
CN110262758B (zh) 一种数据存储管理方法、系统及相关设备
CN112860641A (zh) 基于hadoop的小文件存储方法及其装置
CN112446490A (zh) 一种网络训练的数据集缓存方法、装置、设备及存储介质
CN106681939B (zh) 磁盘页面的读取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant