CN107463514A - 一种数据存储方法及装置 - Google Patents

一种数据存储方法及装置 Download PDF

Info

Publication number
CN107463514A
CN107463514A CN201710702005.2A CN201710702005A CN107463514A CN 107463514 A CN107463514 A CN 107463514A CN 201710702005 A CN201710702005 A CN 201710702005A CN 107463514 A CN107463514 A CN 107463514A
Authority
CN
China
Prior art keywords
accessed
data
data block
period
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710702005.2A
Other languages
English (en)
Other versions
CN107463514B (zh
Inventor
朱广传
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710702005.2A priority Critical patent/CN107463514B/zh
Publication of CN107463514A publication Critical patent/CN107463514A/zh
Application granted granted Critical
Publication of CN107463514B publication Critical patent/CN107463514B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/12Replacement control
    • G06F12/121Replacement control using replacement algorithms
    • G06F12/123Replacement control using replacement algorithms with age lists, e.g. queue, most recently used [MRU] list or least recently used [LRU] list
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1016Performance improvement

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种数据存储方法及装置,其中该方法包括:记录用户在预设时间段内访问的数据集;将数据集划分为多个数据块,并基于每个数据块在预设时间段内被访问的概率信息预测对应数据块是否为热点数据;将预测结果为热点数据且未存储在cache中的数据块加载至cache中,以供用户由cache中访问对应的数据块。本发明公开的上述技术方案,基于用户以往访问的数据提前预测出热点数据并将该数据加载至cache中,以便于在用户对该数据进行访问时可以快速返回给用户,有益于计算机性能的提升及用户体验。

Description

一种数据存储方法及装置
技术领域
本发明涉及计算机存储技术领域,更具体地说,涉及一种数据存储方法及装置。
背景技术
随着计算机的普及以及网络信息的快速发展,人们使用计算机的频率越来越高。在计算机中,存储系统是计算机的一个重要组成部分,它会直接影响计算机的整体性能和用户体验。
在现代存储系统中,当用户要访问某个数据时,才会将该数据标记为热点数据,并将该热点数据加载到cache中,以使得热点数据在cache中实现加速读写,供用户对该数据进行访问,这就造成热点数据统计和将热点数据加载到cache中具有一定的滞后性,从而对计算机性能的提升以及用户体验具有一定的影响。
综上所述,现代存储系统存在热点数据统计和将热点数据加载到cache中具有滞后性,从而对计算机性能提升和用户体验具有一定影响的问题。
发明内容
有鉴于此,本发明的目的是提供一种数据存储方法,以解决现代存储系统存在热点数据统计和将热点数据加载到cache中具有滞后性从而对计算机性能提升和用户体验具有一定影响的问题。
为了实现上述目的,本发明提供如下技术方案:
一种数据存储方法,包括:
记录用户在预设时间段内访问的数据集;
将所述数据集划分为多个数据块,并基于每个所述数据块在所述预设时间段内被访问的概率信息预测对应数据块是否为热点数据;
将预测结果为热点数据且未存储在cache中的数据块加载至cache中,以供用户由cache中访问对应的数据块。
优选的,将记录用户在预设时间段内访问的数据集划分为多个数据块,包括:
将所述预设时间段划分成多个子时间段,依照每个子时间段和每个子时间段对应的数据集中包含数据所处的位置信息将所述数据集划分成多个数据段,并依据每个数据段所处的位置信息将每个所述数据段划分成多个数据块。
优选的,基于每个所述数据块在预设时间段内被访问的概率信息预测对应的数据块是否为热点数据,包括:
依次将每个所述数据块作为选定数据块,统计所述选定数据块对应的数据段在各子时间段被访问和未被访问的次数、所述选定数据块在各子时间段被访问和未被访问的次数,并基于统计得到的对应次数计算所述选定数据块对应的数据段在各子时间段被访问和未被访问的概率函数值、所述选定数据块在各子时间段被访问和未被访问的概率函数值;
利用所述选定数据块对应的数据段在各子时间段被访问和未被访问的概率函数值、所述选定数据块在各子时间段被访问和未被访问的概率函数值,计算得到贝叶斯统计函数值,若所述贝叶斯统计函数值大于预设阈值,则预测对应的所述选定数据块为热点数据,否则,则预测对应的所述选定数据块为非热点数据。
优选的,利用所述选定数据块对应的数据段在各子时间段被访问和未被访问的概率函数值、所述选定数据块在各子时间段被访问和未被访问的概率函数值,计算得到贝叶斯统计函数值,包括:
确定所述选定数据块对应的数据段在各子时间段被访问的概率函数值的乘积为第一乘积;确定所述选定数据块在各子时间段被访问的概率函数值的乘积为第二乘积;确定所述选定数据块对应的数据段在各子时间段未被访问的概率函数值的乘积为第三乘积;确定所述选定数据块在各子时间段未被访问的概率函数值为第四乘积;
将第一乘积与第二乘积相乘作为被除数,将第三乘积与第四乘积相乘作为除数,得到所述被除数与所述除数对应的商,并确定该商为贝叶斯统计函数值。
优选的,确定所述贝叶斯统计函数值大于预设阈值,包括:
确定所述贝叶斯统计函数值大于预设阈值,所述预设阈值为1。
优选的,基于每个所述数据块在所述预设时间段内被访问的概率信息预测对应数据块是否为热点数据之后,还包括:
将预测结果为非热点数据且已存储在cache中的数据从cache中卸载。
一种数据存储装置,包括:
记录模块,用于:记录用户在预设时间段内访问的数据集;
预测模块,用于:将所述数据集划分为多个数据块,并基于每个所述数据块在所述预设时间段内被访问的概率信息预测对应数据块是否为热点数据;
加载模块,用于:将预测结果为热点数据且未存储在cache中的数据块加载至cache中,以供用户由cache中访问对应的数据块。
优选的,所述预测模块包括:
划分单元,用于:将所述预设时间段划分成多个子时间段,依照每个子时间段和每个子时间段对应的数据集中包含数据所处的位置信息将所述数据集划分成多个数据段,并依据每个数据段所处的位置信息将每个所述数据段划分成多个数据块。
优选的,所述预测模块包括:
预测单元,用于:依次将每个所述数据块作为选定数据块,统计所述选定数据块对应的数据段在各子时间段被访问和未被访问的次数、所述选定数据块在各子时间段被访问和未被访问的次数,并基于统计得到的对应次数计算所述选定数据块对应的数据段在各子时间段被访问和未被访问的概率函数值、所述选定数据块在各子时间段被访问和未被访问的概率函数值;利用所述选定数据块对应的数据段在各子时间段被访问和未被访问的概率函数值、所述选定数据块在各子时间段被访问和未被访问的概率函数值,计算得到贝叶斯统计函数值,若所述贝叶斯统计函数值大于预设阈值,则预测对应的所述选定数据块为热点数据,否则,则预测对应的所述选定数据块为非热点数据。
优选的,所述预测单元包括:
确定子单元,用于:确定所述选定数据块对应的数据段在各子时间段被访问的概率函数值的乘积为第一乘积;确定所述选定数据块在各子时间段被访问的概率函数值的乘积为第二乘积;确定所述选定数据块对应的数据段在各子时间段未被访问的概率函数值的乘积为第三乘积;确定所述选定数据块在各子时间段未被访问的概率函数值为第四乘积;将第一乘积与第二乘积相乘作为被除数,将第三乘积与第四乘积相乘作为除数,得到所述被除数与所述除数对应的商,并确定该商为贝叶斯统计函数值。
本发明提供了一种数据存储方法及装置,其中该方法包括:记录用户在预设时间段内访问的数据集;将数据集划分为多个数据块,并基于每个数据块在预设时间段内被访问的概率信息预测对应数据块是否为热点数据;将预测结果为热点数据且未存储在cache中的数据块加载至cache中,以供用户由cache中访问对应的数据块。本申请公开的上述技术方案中,利用用户以往访问的数据,并且基于在记录用户访问的数据集的时间段内数据被访问的概率信息提前预测出热点数据,并将预测结果为热点数据且未存储在cache中的数据块加载至cache中,以供用户由cache中访问对应的数据块,从而实现在用户访问数据之前就可以预测出热点数据并将热点数据提前加载至cache中,避免出现在用户访问数据时才知道该数据是热点数据,才会将该热点数据加载至cache中而带来的滞后性问题,最终降低了对计算机性能提升以及用户体验的影响。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种数据存储方法的流程图;
图2为本发明实施例提供的一种记录用户在预设时间段内访问的数据集的组织形式图;
图3为划分出的数据段和数据块的概率函数值的组织形式图;
图4为数据集中任一数据块所有相关的概率函数值组织形式图;
图5为本发明实施例提供的一种数据存储装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种数据存储方法的流程图,可以包括:
S11:记录用户在预设时间段内访问的数据集。
需要说明的是,在本发明实施例中,上述技术方案的执行主体可以为对应的本发明实施例所提供的一种数据存储装置;预先根据实际情况设定需要记录用户访问数据的时间段(即预设时间段),该预设时间段可以为一周或一月或一年或更长时间,也可以为其他的合适的时间段,并且预设时间段中的时间要素可以包括:年、月、日、星期、时、分、秒、是否节假日,为了减少后续过程中数据存储装置的计算量,可以采取如下方法记录用户在该预设时间段内访问的数据集:若记录的是用户在一周内访问的数据集,则在输入用户访问的数据集对应的时间时,只需输入星期、时、分、是否节假日即可;若记录的是用户在一月内访问的数据集,则在输入用户访问的数据集对应的时间时,只需输入日、星期、时、分、是否节假日即可;并且一般情况下可以考虑以一刻钟为最小单位记录数据。另外,可以将记录的用户访问的数据集中不被访问的数据和经常被访问的数据在物理上分为对应的不用空间和有用空间,这样可以提前将不用数据排除,减少计算量,然后将记录的用户在该预设时间段内访问的数据收集起来构成数据集,该数据集包含了预设时间段内所有被访问的数据,并把该数据集作为监督数据,作为一个具体实施例,可以对本发明记录用户在预设时间段内访问的数据集进行说明,图2示出了本发明实施例提供的一种记录用户在预设时间段内访问的数据集的组织形式图,比如记录的是用户在一周内访问的数据集且以一刻钟为最小单元,则其中时间1、时间2、时间……分别表示的是星期一、星期二、星期……,对应的data1、data2、data……分别表示的是8:00至8:15、8:15至8:30、8:30至……对应的用户访问的数据。
S12:将数据集划分成多个数据块,并基于每个数据块在预设时间段内被访问的概率信息预测对应数据块是否为热点数据。
将记录的用户访问的数据集划分为多个数据块,通过通用的贝叶斯分类,统计得到每个数据块在预设时间段内被访问的概率信息,并基于该概率信息预测对应数据块是否为热点数据。其中,将数据集划分成更小的数据块并且基于数据块被访问的概率信息进行预测,可以提高预测的准确度。
S13:将预测结果为热点数据且未存储在cache中的数据块加载至cache中,以供用户由cache中访问对应的数据块。
当基于数据块在预设时间段内被访问的概率信息预测出对应数据块为热点数据时,则表明该对应数据块在未来被用户访问的几率比较大,若该对应数据块未存储在cache中,则将其加载至cache中,使得该对应数据块在cache中实现加速读写,以供用户由cache中访问该对应数据块,这样可以实现在用户对数据进行访问之前就统计出热点数据,并将该热点数据提前加载至cache中,可以有效避免出现在用户对数据访问中而进行的热点数据统计和将该热点数据加载至cache中的滞后性问题,同时也可以根据实际需要将预测出的热点数据转移到相应的内存或者磁盘中,以方便用户对该热点数据进行访问。
本申请公开的技术方案中,利用用户以往访问的数据,并且基于在记录用户访问的数据集的时间段内数据被访问的概率信息提前预测出热点数据,并将预测结果为热点数据且未存储在cache中的数据块加载至cache中,以供用户由cache中访问对应的数据块,从而实现在用户访问数据之前就可以预测出热点数据并将热点数据提前加载至cache中,避免出现在用户访问数据时才知道该数据是热点数据,才会将该热点数据加载至cache中而带来的滞后性问题,最终降低了对计算机性能提升以及用户体验的影响。
本发明实施例提供的一种数据存储方法,将记录用户在预设时间段内访问的数据集划分为多个数据块,可以包括:
将预设时间段划分成多个子时间段,依照每个子时间段和每个子时间段对应的数据集中包含数据所处的位置信息将数据集划分成多个数据段,并依据每个数据段所处的位置信息将每个数据段划分成多个数据块。
为了便于统计数据块在预设时间段内被访问的概率信息,将预设时间段划分成多个子时间段,对于预设时间段可以采取平均划分等多种划分方式进行划分,其中一种便可以是通过用户本身的行为特征对预设时间段进行划分,例如预设时间段为一天时,则依据用户本身的行为特征可以将这一天划分成:上午工作前时间、上午工作时间、午餐时间、下午工作时间、晚餐时间、加班时间、午夜时间等多个子时间段。具体来说,在划分数据段的过程中,对于平均划分或者按照实际需要设定的其他划分方式对预设时间段划分得到的每个子时间段中的任一子时间段,可以确定这个子时间段内被访问的数据所在位置区域(即与这个子时间段内被访问数据的位置信息对应位置区域),然后将该位置区域平均划分或者按照实际需要设定的其他划分方式划分成多个子位置区域,每个该子位置区域包含的在这个子时间段内被访问的数据构成对应的数据段;而依据每个数据段所处的位置信息将每个数据段划分成多个数据块,可以是将每个数据段中的任一数据段的位置信息确定其对应位置区域,平均划分或者按照实际需要设定的其他划分方式将该位置区域划分成多个子位置区域,每个该子位置区域包含的数据即为对应数据块。举例说明上述划分过程:预设时间段为一周,记录的用户访问的数据集所处的位置分别为C、D、E、F硬盘,则将一周划分为七天,也即每个子时间段均为一天,对应于每一天中的任一天,如周一,则将周一被访问的数据中位于C硬盘的作为一个数据段,位于D硬盘的作为一个数据段,以此类推,将分别位于每个硬盘的分别作为一个数据段,从而得到一周对应的多个数据段;对于每个数据段,例如周一、C硬盘对应的数据段,可以将C硬盘按照预先设定的划分方式(如平均划分)划分成多个区域,然后每个区域包含的周一被访问的数据为对应数据块,从而得到多个数据块。当然,也可以有其他划分数据块的方式,比如在记录用户访问的数据集时直接按照数据块的方式进行记录,这些划分数据块的方式都在本发明的保护范围之内,从而能够通过上述方式方便的实现数据块的获取。
其中位置信息对应的位置区域具体可以为某个阵列柜、某个硬盘、某个LBA(Logical Block Address,逻辑区块地址)位置以及对应数据属于的卷信息和host主机信息等,并且同样为了减少后续过程中的计算量,一般情况下数据块可以不必过小,一般可以为1MB或者更大为单位划分数据块。
本发明实施例提供的一种数据存储方法,基于每个数据块在预设时间段内被访问的概率信息预测对应的数据块是否为热点数据,可以包括:
依次将每个数据块作为选定数据块,统计选定数据块对应的数据段在各子时间段被访问和未被访问的次数、选定数据块在各子时间段被访问和未被访问的次数,并基于统计得到的对应次数计算选定数据块对应的数据段在各子时间段被访问和未被访问的概率函数值、选定数据块在各子时间段被访问和未被访问的概率函数值;
利用选定数据块对应的数据段在各子时间段被访问和未被访问的概率函数值、选定数据块在各子时间段被访问和未被访问的概率函数值,计算得到贝叶斯统计函数值,若贝叶斯统计函数值大于预设阈值,则预测对应的选定数据块为热点数据,否则,则预测对应的选定数据块为非热点数据。
将数据集划分成多个数据块之后,需要预测每个数据块是否为热点数据,可以依次将每个数据块作为选定数据块,得到选定数据块在预设时间段内被访问的概率信息的具体过程可以为:统计选定数据块对应的数据段在各子时间段被访问和未被访问的次数、选定数据块在各子时间段被访问和未被访问的次数,得到对应的次数之后,可以基于对应的次数,计算选定数据块对应的数据段在各子时间段被访问和未被访问的概率函数值、选定数据块在各子时间段被访问和未被访问的概率函数值。其中,基于对应的次数计算选定数据块对应的数据段、选定数据块在各子时间段被访问和未被访问的概率函数值的过程可以为:利用统计的选定数据块对应的数据段在各子时间段被访问和未被访问的次数,得到总次数,然后将选定数据块对应的数据段在各子时间段被访问的次数与总次数的比值,计算得到选定数据块对应的数据段在各子时间段被访问的概率函数值;将选定数据块对应的数据段在各子时间段未被访问的次数与总次数的比值,计算得到选定数据块对应的数据段在各子时间段未被访问的概率函数值,选定数据块的计算方法与此类似,在此不再赘述。
作为一个具体实施例,可以对划分得到的数据块对应的数据段以及数据块在各子时间段被访问和未被访问的概率函数值进行说明,图3示出了划分出的数据段和数据块的概率函数值的组织形式图,其中,时间段1、时间段2对应的是将预设时间段划分出的子时间段,数据段1、数据段2、数据段3对应的是依据子时间段和子时间段对应的数据集中包含数据所处的位置信息将数据集划分成的数据段,数据块1、数据块2、数据块3对应的是将数据段依据数据段所处的位置信息划分得到的数据块,数据段命中概率计算函数P(数据段1|A=1)表示的是利用上述计算概率函数值的方法得到的数据段1在划分出的子时间段被访问的概率函数值,数据段非命中概率计算函数P(数据段1|A=0)表示的是利用上述计算概率函数值的方法得到的数据段1在划分出的子时间段未被访问的概率函数值,图中其余的表示含义与此类似,在此不再赘述,然后可以利用得到的选定数据块对应的数据段在各子时间段被访问和未被访问的概率函数值、选定数据块在各子时间段被访问和未被访问的概率函数值,计算得到贝叶斯统计函数,基于得到的贝叶斯统计函数值预测选定的数据块是否为热点数据,若贝叶斯统计函数值大于预先根据实际需要确定的预设阈值,则预测对应的选定数据块为热点数据,否则,则预测对应的选定数据块为非热点数据,这样可以提高预测的准确度,减小预测的失误。
本发明实施例提供的一种数据存储方法,利用选定数据块对应的数据段在各子时间段被访问和未被访问的概率函数值、选定数据块在各子时间段被访问和未被访问的概率函数值,计算得到贝叶斯统计函数值,可以包括:
确定选定数据块对应的数据段在各子时间段被访问的概率函数值的乘积为第一乘积;确定选定数据块在各子时间段被访问的概率函数值的乘积为第二乘积;确定选定数据块对应的数据段在各子时间段未被访问的概率函数值的乘积为第三乘积;确定选定数据块在各子时间段未被访问的概率函数值为第四乘积;
将第一乘积与第二乘积相乘作为被除数,将第三乘积与第四乘积相乘作为除数,得到被除数与除数对应的商,并确定该商为贝叶斯统计函数值。
为了提高对数据块预测的准确度,贝叶斯统计函数值的计算方式可以为:确定选定数据块对应的数据段在各子时间段被访问的概率函数值的乘积为第一乘积,确定选定数据块在各子时间段被访问的概率函数值的乘积为第二乘积;确定选定数据块对应的数据段在各子时间段未被访问的概率函数值的乘积为第三乘积;确定选定数据块在各子时间段未被访问的概率函数值为第四乘积;并且将第一乘积与第二乘积相乘作为被除数,将第三乘积与第四乘积相乘作为除数,得到被除数与除数对应的商,并确定该商为贝叶斯统计函数值,例如,记录用户访问的数据集的预设时间段为多个月,则将这多个月划分成月、周、天,并按照上述的方法,统计得到数据块相关的概率函数值。
作为一个实施例,图4示出了数据集中任一数据块所有相关的概率函数值组织形式图,其中,数据块1在某个时间是否命中计算结果指的是划分得到的数据块1在该数据块对应的时间段是否被访问的概率函数值的统计结果,每天时间段n表示的是该数据块对应的时间段在每天所属的时间段、数据段命中概率计算函数P(数据段1|A=1)表示的是数据段1在数据块1对应的时间段在每天所属的时间段被访问的概率函数值、数据段非命中概率计算函数P(数据段1|A=0)表示的是数据段1在数据块1对应的时间段在每天所属的时间段未被访问的概率函数值、命中概率计算函数P(数据块1|A=1)表示的是数据块1在该数据块对应的时间段在每天所属的时间段被访问的概率函数值、非命中概率计算函数P(数据块1|A=0)表示的是数据块1在该数据块对应的时间段在每天所属的时间段未被访问的概率函数值,每周时间段m、每月时间段j分别表示的是该数据块对应的时间段在每周所属的时间段、该数据块对应的时间段在每月所属的时间段,其余表达式与上述每天所对应的概率函数值的表达式含义类似,在此不再赘述,则贝叶斯统计函数值的计算表达式可以为:(P(数据段1|A=1)×P(数据块1|A=1)×P(数据段1|A=1)×P(数据块1|A=1)×P(数据段1|A=1)×P(数据块1|A=1))/(P(数据段1|A=0)×P(数据块1|A=0)×P(数据段1|A=0)×P(数据块1|A=0)×P(数据段1|A=0)×P(数据块1|A=0))。当然,贝叶斯统计函数值也可以有其他的计算表达式,比如先将被访问和未被访问的概率函数值相除,然后再相乘,这些贝叶斯统计函数值的计算表达式均在本发明的保护范围之内。并且为了减少计算量,也可以通过贝叶斯网络等衍生算法来进行计算。
本发明实施例提供的一种数据存储方法,确定贝叶斯统计函数值大于预设阈值,可以包括:
确定贝叶斯统计函数值大于预设阈值,预设阈值为1。
得到的贝叶斯统计函数值与预先根据实际需要确定的预设阈值进行比较,确定贝叶斯统计函数值大于预设阈值,其中可以预先确定预设阈值为1,这就表明贝叶斯统计函数值表达式中的被除数大于除数,也即数据块被访问的概率要大于未被访问的概率,这样可以便于比较数据块被访问和未被访问的概率值的大小,从而便于判断出数据块是否为热点数据。
本发明实施例提供的一种数据存储方法,基于每个数据块在预设时间段内被访问的概率信息预测对应数据块是否为热点数据之后,还可以包括:
将预测结果为非热点数据且已存储在cache中的数据从cache中卸载。
当基于每个数据块在预设时间段内被访问的概率信息预测对应数据块是否为热点数据之后,若预测结果为对应数据块为非热点数据,则表明该数据块在未来被访问的几率比较小,若该对应数据块已存储在cache中,则将该对应数据块从cache中卸载,以便于释放cache的空间,使得cache内部不至于过于拥挤,可以提升系统整体的效率和产品的使用体验。
本发明实施例还提供了一种数据存储装置,如图5所示,可以包括:
记录模块11,用于:记录用户在预设时间段内访问的数据集;
预测模块12,用于:将数据集划分为多个数据块,并基于每个数据块在预设时间段内被访问的概率信息预测对应数据块是否为热点数据;
加载模块13,用于:将预测结果为热点数据且未存储在cache中的数据块加载至cache中,以供用户由cache中访问对应的数据块。
本发明实施例提供的一种数据存储装置,预测模块可以包括:
划分单元,用于:将预设时间段划分成多个子时间段,依照每个子时间段和每个子时间段对应的数据集中包含数据所处的位置信息将数据集划分成多个数据段,并依据每个数据段所处的位置信息将每个数据段划分成多个数据块。
本发明实施例提供的一种数据存储装置,预测模块可以包括:
预测单元,用于:依次将每个数据块作为选定数据块,统计所述选定数据块对应的数据段在各子时间段被访问和未被访问的次数、选定数据块在各子时间段被访问和未被访问的次数,并基于统计得到的对应次数计算选定数据块对应的数据段在各子时间段被访问和未被访问的概率函数值、选定数据块在各子时间段被访问和未被访问的概率函数值;利用选定数据块对应的数据段在各子时间段被访问和未被访问的概率函数值、选定数据块在各子时间段被访问和未被访问的概率函数值,计算得到贝叶斯统计函数值,若贝叶斯统计函数值大于预设阈值,则预测对应的选定数据块为热点数据,否则,则预测对应的选定数据块为非热点数据。
本发明实施例提供的一种数据存储装置,预测单元可以包括:
确定子单元,用于:确定选定数据块对应的数据段在各子时间段被访问的概率函数值的乘积为第一乘积;确定选定数据块在各子时间段被访问的概率函数值的乘积为第二乘积;确定选定数据块对应的数据段在各子时间段未被访问的概率函数值的乘积为第三乘积;确定选定数据块在各子时间段未被访问的概率函数值为第四乘积;将第一乘积与第二乘积相乘作为被除数,将第三乘积与第四乘积相乘作为除数,得到被除数与除数对应的商,并确定该商为贝叶斯统计函数值。
本发明实施例提供的一种数据存储装置,预测单元可以包括:
预设子单元,用于:确定贝叶斯统计函数值大于预设阈值,预设阈值为1。
本发明实施例提供的一种数据存储装置,还可以包括:
卸载模块,用于:基于每个数据块在预设时间段内被访问的概率信息预测对应数据块是否为热点数据之后,将预测结果为非热点数据且已存储在cache中的数据从cache中卸载。
本发明实施例提供的一种数据存储装置中相关部分的说明请参见本发明实施例提供的一种数据存储方法中对应部分的详细说明,在此不再赘述。另外,本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据存储方法,其特征在于,包括:
记录用户在预设时间段内访问的数据集;
将所述数据集划分为多个数据块,并基于每个所述数据块在所述预设时间段内被访问的概率信息预测对应数据块是否为热点数据;
将预测结果为热点数据且未存储在cache中的数据块加载至cache中,以供用户由cache中访问对应的数据块。
2.根据权利要求1所述的方法,其特征在于,将记录用户在预设时间段内访问的数据集划分为多个数据块,包括:
将所述预设时间段划分成多个子时间段,依照每个子时间段和每个子时间段对应的数据集中包含数据所处的位置信息将所述数据集划分成多个数据段,并依据每个数据段所处的位置信息将每个所述数据段划分成多个数据块。
3.根据权利要求2所述的方法,其特征在于,基于每个所述数据块在预设时间段内被访问的概率信息预测对应的数据块是否为热点数据,包括:
依次将每个所述数据块作为选定数据块,统计所述选定数据块对应的数据段在各子时间段被访问和未被访问的次数、所述选定数据块在各子时间段被访问和未被访问的次数,并基于统计得到的对应次数计算所述选定数据块对应的数据段在各子时间段被访问和未被访问的概率函数值、所述选定数据块在各子时间段被访问和未被访问的概率函数值;
利用所述选定数据块对应的数据段在各子时间段被访问和未被访问的概率函数值、所述选定数据块在各子时间段被访问和未被访问的概率函数值,计算得到贝叶斯统计函数值,若所述贝叶斯统计函数值大于预设阈值,则预测对应的所述选定数据块为热点数据,否则,则预测对应的所述选定数据块为非热点数据。
4.根据权利要求3所述的方法,其特征在于,利用所述选定数据块对应的数据段在各子时间段被访问和未被访问的概率函数值、所述选定数据块在各子时间段被访问和未被访问的概率函数值,计算得到贝叶斯统计函数值,包括:
确定所述选定数据块对应的数据段在各子时间段被访问的概率函数值的乘积为第一乘积;确定所述选定数据块在各子时间段被访问的概率函数值的乘积为第二乘积;确定所述选定数据块对应的数据段在各子时间段未被访问的概率函数值的乘积为第三乘积;确定所述选定数据块在各子时间段未被访问的概率函数值为第四乘积;
将第一乘积与第二乘积相乘作为被除数,将第三乘积与第四乘积相乘作为除数,得到所述被除数与所述除数对应的商,并确定该商为贝叶斯统计函数值。
5.根据权利要求4所述的方法,其特征在于,确定所述贝叶斯统计函数值大于预设阈值,包括:
确定所述贝叶斯统计函数值大于预设阈值,所述预设阈值为1。
6.根据权利要求1-5任意一项所述的方法,其特征在于,基于每个所述数据块在所述预设时间段内被访问的概率信息预测对应数据块是否为热点数据之后,还包括:
将预测结果为非热点数据且已存储在cache中的数据从cache中卸载。
7.一种数据存储装置,其特征在于,包括:
记录模块,用于:记录用户在预设时间段内访问的数据集;
预测模块,用于:将所述数据集划分为多个数据块,并基于每个所述数据块在所述预设时间段内被访问的概率信息预测对应数据块是否为热点数据;
加载模块,用于:将预测结果为热点数据且未存储在cache中的数据块加载至cache中,以供用户由cache中访问对应的数据块。
8.根据权利要求7所述的装置,其特征在于,所述预测模块包括:
划分单元,用于:将所述预设时间段划分成多个子时间段,依照每个子时间段和每个子时间段对应的数据集中包含数据所处的位置信息将所述数据集划分成多个数据段,并依据每个数据段所处的位置信息将每个所述数据段划分成多个数据块。
9.根据权利要求8所述的装置,其特征在于,所述预测模块包括:
预测单元,用于:依次将每个所述数据块作为选定数据块,统计所述选定数据块对应的数据段在各子时间段被访问和未被访问的次数、所述选定数据块在各子时间段被访问和未被访问的次数,并基于统计得到的对应次数计算所述选定数据块对应的数据段在各子时间段被访问和未被访问的概率函数值、所述选定数据块在各子时间段被访问和未被访问的概率函数值;利用所述选定数据块对应的数据段在各子时间段被访问和未被访问的概率函数值、所述选定数据块在各子时间段被访问和未被访问的概率函数值,计算得到贝叶斯统计函数值,若所述贝叶斯统计函数值大于预设阈值,则预测对应的所述选定数据块为热点数据,否则,则预测对应的所述选定数据块为非热点数据。
10.根据权利要求9所述的装置,其特征在于,所述预测单元包括:
确定子单元,用于:确定所述选定数据块对应的数据段在各子时间段被访问的概率函数值的乘积为第一乘积;确定所述选定数据块在各子时间段被访问的概率函数值的乘积为第二乘积;确定所述选定数据块对应的数据段在各子时间段未被访问的概率函数值的乘积为第三乘积;确定所述选定数据块在各子时间段未被访问的概率函数值为第四乘积;将第一乘积与第二乘积相乘作为被除数,将第三乘积与第四乘积相乘作为除数,得到所述被除数与所述除数对应的商,并确定该商为贝叶斯统计函数值。
CN201710702005.2A 2017-08-16 2017-08-16 一种数据存储方法及装置 Active CN107463514B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710702005.2A CN107463514B (zh) 2017-08-16 2017-08-16 一种数据存储方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710702005.2A CN107463514B (zh) 2017-08-16 2017-08-16 一种数据存储方法及装置

Publications (2)

Publication Number Publication Date
CN107463514A true CN107463514A (zh) 2017-12-12
CN107463514B CN107463514B (zh) 2021-06-29

Family

ID=60548929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710702005.2A Active CN107463514B (zh) 2017-08-16 2017-08-16 一种数据存储方法及装置

Country Status (1)

Country Link
CN (1) CN107463514B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563730A (zh) * 2018-04-04 2018-09-21 北京蓝杞数据科技有限公司天津分公司 一种冷热数据自动切换方法、装置、电子设备及存储介质
CN108762684A (zh) * 2018-06-04 2018-11-06 平安科技(深圳)有限公司 热点数据迁移流控方法、装置、电子设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1604054A (zh) * 2003-09-29 2005-04-06 刘志明 层次化视频点播中的磁盘缓存替换算法
CN102388374A (zh) * 2011-09-28 2012-03-21 华为技术有限公司 存储数据的方法和装置
CN103092867A (zh) * 2011-11-03 2013-05-08 中国移动通信集团甘肃有限公司 一种数据管理方法及系统、数据分析装置
CN103218416A (zh) * 2013-03-27 2013-07-24 华为技术有限公司 一种数据库加载方法、装置及系统
CN103473335A (zh) * 2013-09-18 2013-12-25 浪潮(北京)电子信息产业有限公司 一种热点数据检测方法及装置
CN103605615A (zh) * 2013-11-21 2014-02-26 浪潮电子信息产业股份有限公司 一种分级存储中基于块级数据的定向分配方法
CN104636500A (zh) * 2014-10-21 2015-05-20 北京国双科技有限公司 一种查询热数据的方法及装置
CN105242884A (zh) * 2015-10-23 2016-01-13 浪潮(北京)电子信息产业有限公司 一种自动分层的存储系统
CN105302493A (zh) * 2015-11-19 2016-02-03 浪潮(北京)电子信息产业有限公司 一种混合存储阵列中ssd缓存的换入换出控制方法及系统
CN105373347A (zh) * 2015-10-23 2016-03-02 浪潮(北京)电子信息产业有限公司 一种存储系统的热点数据识别和调度方法及系统
WO2016199955A1 (ko) * 2015-06-10 2016-12-15 울산과학기술원 코드 분산 해쉬테이블 기반의 맵리듀스 시스템 및 방법
CN106709068A (zh) * 2017-01-22 2017-05-24 郑州云海信息技术有限公司 一种热点数据识别方法及其装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1604054A (zh) * 2003-09-29 2005-04-06 刘志明 层次化视频点播中的磁盘缓存替换算法
CN102388374A (zh) * 2011-09-28 2012-03-21 华为技术有限公司 存储数据的方法和装置
CN103092867A (zh) * 2011-11-03 2013-05-08 中国移动通信集团甘肃有限公司 一种数据管理方法及系统、数据分析装置
CN103218416A (zh) * 2013-03-27 2013-07-24 华为技术有限公司 一种数据库加载方法、装置及系统
CN103473335A (zh) * 2013-09-18 2013-12-25 浪潮(北京)电子信息产业有限公司 一种热点数据检测方法及装置
CN103605615A (zh) * 2013-11-21 2014-02-26 浪潮电子信息产业股份有限公司 一种分级存储中基于块级数据的定向分配方法
CN104636500A (zh) * 2014-10-21 2015-05-20 北京国双科技有限公司 一种查询热数据的方法及装置
WO2016199955A1 (ko) * 2015-06-10 2016-12-15 울산과학기술원 코드 분산 해쉬테이블 기반의 맵리듀스 시스템 및 방법
CN105242884A (zh) * 2015-10-23 2016-01-13 浪潮(北京)电子信息产业有限公司 一种自动分层的存储系统
CN105373347A (zh) * 2015-10-23 2016-03-02 浪潮(北京)电子信息产业有限公司 一种存储系统的热点数据识别和调度方法及系统
CN105302493A (zh) * 2015-11-19 2016-02-03 浪潮(北京)电子信息产业有限公司 一种混合存储阵列中ssd缓存的换入换出控制方法及系统
CN106709068A (zh) * 2017-01-22 2017-05-24 郑州云海信息技术有限公司 一种热点数据识别方法及其装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
苏力萍 等: "《商业智能理论与应用实践》", 31 August 2012 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563730A (zh) * 2018-04-04 2018-09-21 北京蓝杞数据科技有限公司天津分公司 一种冷热数据自动切换方法、装置、电子设备及存储介质
CN108762684A (zh) * 2018-06-04 2018-11-06 平安科技(深圳)有限公司 热点数据迁移流控方法、装置、电子设备及存储介质
CN108762684B (zh) * 2018-06-04 2021-03-05 平安科技(深圳)有限公司 热点数据迁移流控方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN107463514B (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
US9996564B2 (en) Managing database object placement on multiple storage devices
US10739996B1 (en) Enhanced garbage collection
US9753987B1 (en) Identifying groups of similar data portions
Cheng et al. Erasing {Belady’s} Limitations: In Search of Flash Cache Offline Optimality
CA2024109C (en) Method and system for optimizing data caching in a disk based computer system
US20200409856A1 (en) Method and system for address table eviction management
US6944717B2 (en) Cache buffer control apparatus and method using counters to determine status of cache buffer memory cells for writing and reading data therefrom
CN102498466B (zh) 一种迁移数据存储系统的数据的方法和控制器
CA2442188A1 (en) Methods and mechanisms for proactive memory management
CN103019887B (zh) 数据备份方法及装置
US20110296122A1 (en) Method and system for binary cache cleanup
CN108845768A (zh) 一种数据存储方法、装置、设备及存储介质
JP6711121B2 (ja) 情報処理装置、キャッシュメモリ制御方法、およびキャッシュメモリ制御プログラム
CN107463514A (zh) 一种数据存储方法及装置
ATE400056T1 (de) Gehäuse für informationsspeichermedium und verfahren zu seiner verwendung
EP2976702A1 (en) Apparatus and method for optimizing time series data storage based upon prioritization
CN110888600A (zh) 一种面向nand闪存的缓冲区管理方法
KR102278583B1 (ko) 모바일 기기에서의 상황정보를 기반으로 한 파일 입출력 관리 시스템 및 방법
CN106547472A (zh) 存储阵列管理方法及装置
CN109062824A (zh) 一种基于lru的数据缓存方法、装置、设备及介质
Wu et al. A data management method for databases using hybrid storage systems
CN111124295A (zh) 一种基于三元影响因子的农业数据存储处理系统及方法
US6859859B2 (en) Method and system for efficiently calculating and storing expected access time information for DASD
Niu et al. Analytical modeling of smr drive under different workload environments
CN107168892A (zh) 一种数据的写入方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant