CN112506433A - 一种数据分类存储方法、装置及系统 - Google Patents
一种数据分类存储方法、装置及系统 Download PDFInfo
- Publication number
- CN112506433A CN112506433A CN202011444506.3A CN202011444506A CN112506433A CN 112506433 A CN112506433 A CN 112506433A CN 202011444506 A CN202011444506 A CN 202011444506A CN 112506433 A CN112506433 A CN 112506433A
- Authority
- CN
- China
- Prior art keywords
- data
- storage
- access
- characteristic value
- updating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 125
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000003287 optical effect Effects 0.000 claims description 40
- 238000013500 data storage Methods 0.000 claims description 23
- 238000012935 Averaging Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 12
- 239000004065 semiconductor Substances 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 9
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 2
- 230000007774 longterm Effects 0.000 abstract description 2
- 238000000926 separation method Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241001025261 Neoraja caerulea Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/062—Securing storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0629—Configuration or reconfiguration of storage systems
- G06F3/0631—Configuration or reconfiguration of storage systems by allocating resources to storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0673—Single storage device
- G06F3/0674—Disk device
- G06F3/0677—Optical disk device, e.g. CD-ROM, DVD
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0673—Single storage device
- G06F3/0679—Non-volatile semiconductor memory device, e.g. flash memory, one time programmable memory [OTP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种数据分类存储方法、装置及系统。方法包括:统计步骤,针对一段时间内数据被访问次数进行统计,获取数据的访问特征值;分类存储步骤,根据数据的访问特征值确定数据类型,将数据分类到相应的存储区域进行存储;数据类型更新步骤,基于历史访问数据统计每个单位时间内数据被访问次数,根据若干个单位时间内的数据被访问次数获取数据类型的更新特征值,根据所述数据类型的更新特征值与设定阈值的比较结果,更新数据类型。本发明首先对存储数据进行了自动分类,并根据分类针对不同需求的数据,选用了最合适的存储方式,在不降低访问效率的前提下,大幅降低了存储成本,为大量数据的长期保存和即时访问提供了解决方案。
Description
技术领域
本发明涉及数据存储技术,具体而言,尤其涉及一种数据分类存储方法、装置及系统。
背景技术
随着社会生活数字化程度不断加深,每时每刻都有大量数据产生,诸如照片、视频、设计数据、健康数据、财务数据等等。庞大的数据正在成为一种新的生产资料,催生了数据挖掘、人工智能等新技术业态的发展。如何对数据进行高效的存储,变得日益重要。数据通常分为三类:热数据、温数据、冷数据。热数据访问频次最高,如正在产品设计阶段的设计数据、刚拍摄的影像数据;温数据访问频次较低,一般过一段数据就会访问几次,热数据经过一段时间后基本都转化为温数据;冷数据访问频率很低,只有在特殊需求的时候才会访问。
目前普遍应用的存储设备有硬盘存储、磁带存储、半导体存储、光盘存储。硬盘和半导体存储的优点是存储速度快,但存储寿命短,一般每5年就要进行一次数据迁移,保有成本高;磁带存储虽然数据持有成本低,但访问速度慢,寿命也不超过20年。
发明内容
本发明提出了一种数据分类存储方法、装置及系统。解决了现有技术中存在的存储成本、存储寿命与数据读取速度不匹配的问题,既满足了用户对数据的快速访问,又能够实现低成本长时间的安全存储。
本发明采用的技术手段如下:
一种数据分类存储方法,包括:
统计步骤,针对一段时间内数据被访问次数进行统计,并根据统计结果获取数据的访问特征值;和
分类存储步骤,根据数据的访问特征值,确定数据类型,并根据数据类型将数据分类到相应的存储区域进行存储,所述数据类型包括热数据、温数据和冷数据;
该方法还包括:
数据类型更新步骤,基于历史访问数据统计每个单位时间内数据被访问次数,根据若干个单位时间内的数据被访问次数获取数据类型的更新特征值,根据所述数据类型的更新特征值与设定阈值的比较结果,更新数据类型;
其中分类存储步骤还基于更新的数据类型将数据分类到相应的存储区域进行存储。
进一步地,所述数据类型更新步骤被重复一次或多次。
进一步地,所述根据若干个单位时间内的数据被访问次数获取数据类型的更新特征值,包括:
获取以不小于一年的数据被访问次数的历史统计数据,以月为单位统计数据被访问频次的变化趋势,将数据划分为数据被访问频次逐月递减的的一类数据或者区别与一类数据的二类数据;
利用平均法求取所述一类数据的数据类型的更新特征值;
利用霍尔特双参数指数平滑法预测所述二类数据的被访问次数,再利用平均法基于预测结果求取所述二类数据的数据类型的更新特征值。
进一步地,将所述热数据存储于半导体或硬盘存储介质中;将所述温数据存储在光盘存储介质中。
进一步地,所述半导体或硬盘存储介质中设置有热数据缓冲区,所述热数据缓冲区用于存储最近被访问过的温数据,当所述最近被访问过的温数据在若干个访问周期内均没有被再次访问时,相应的热数据缓冲区存储空间被释放。
一种数据分类存储读取装置,包括:
统计单元,针对一段时间内数据被访问次数进行统计,并根据统计结果获取数据的访问特征值;和
分类存储单元,根据数据的访问特征值,确定数据类型,并根据数据类型将数据分类到相应的存储区域进行存储,所述数据类型包括热数据、温数据和冷数据;
该装置还包括:
数据类型更新单元,基于历史访问数据统计每个单位时间内数据被访问次数,根据若干个单位时间内的数据被访问次数获取数据类型的更新特征值,根据所述数据类型的更新特征值与设定阈值的比较结果,更新数据类型;
其中分类存储单元还基于更新的数据类型将数据分类到相应的存储区域进行存储。
进一步地,所述数据类型更新单元包括:
数据分类模块,获取以不小于一年的数据被访问次数的历史统计数据,以月为单位统计数据被访问频次的变化趋势,将数据划分为数据被访问频次逐月递减的的一类数据或者区别与一类数据的二类数据;
一类数据类型更新模块,被配置为利用平均法求取所述一类数据的数据类型的更新特征值;
二类数据类型更新模块,被配置利用霍尔特双参数指数平滑法预测所述二类数据的被访问次数,再利用平均法基于预测结果求取所述二类数据的数据类型的更新特征值。
进一步地,所述分类存储单元包括:
热数据存储模块,被配置为存储热数据,所述热数据存储模块采用半导体存储介质;
温数据存储模块,被配置为存储温数据,所述热数据存储模块中设置有热数据缓冲区,所述热数据缓冲区被配置为存储最近被访问过的温数据,当所述最近被访问过的温数据在若干个访问周期内均没有被再次访问时,相应的热数据缓冲区存储空间被释放,所述温数据存储模块采用光盘存储介质。
进一步地,所述分类存储单元包括:
应答策略生成模块,被配置为接收应答周期内所有的温数据读取请求,提取各读取请求的目标温数据的存储位置,以读取数据时抓取光盘次数最少为目标,生成应答策略。
一种数据分类存储读取系统,包括若干个如上述任意一项所述的装置,各所述装置通过局域网实现互联。
较现有技术相比,本发明具有以下优点:
1、与传统的数据存储方式不同,本发明首先对存储数据进行了热数据、温数据、冷数据的分类,并根据分类针对不同需求的数据,选用了最合适的存储方式,再不降低访问效率的前提下,大幅降低了存储成本,为大量数据的长期保存和即时访问提供了解决方案。
2、本发明提出了冷温热数据一体化存储的构想和解决方案,通过一次请求即可以访问数据中心内所有数据。与传统冷热数据分离存放的系统相比,访问过程无需专门的工作人员参与,可以24H应答,访问也更快速。
3、本发明提出了一种冷温热数据自动识别和转存的策略,数据事前无需人工进行分类,因此可大幅降低人工成本,也减少了人为干预造成的失误。
4、本发明提出了一种快速访问光盘数据的方法,减少了光盘拿取的次数,提高了光盘匣数据的访问效率。
5、本发明可以结合区块链技术,构建一种分布式存储系统,提高了数据安全性。
基于上述理由本发明可在数据存储领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明数据存储方法流程图。
图2为实施例中数据存储装置的分类存储单元结构示意图。
图3为实施例中数据存储系统结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示为本发明提供的一种数据分类存储方法的一般流程图。如图所示,该方法主要包括:统计步骤S100、数据类型更新步骤S200以及分类存储步骤S300.
统计步骤S100,针对一段时间内数据被访问次数进行统计,并根据统计结果获取数据的访问特征值。
该步骤中,通过数据被访问的频次对数据进行初步分类。具体以一段时间内该数据的访问频率作为访问特征值进行冷、温、热数据判断。分别设置冷、温数据分隔阈值和温、热数据分隔阈值。当数据的访问频次低于冷、温数据分隔阈值时,认为该数据为冷数据;当数据的访问频次不低于冷、温数据分隔阈值且不高于温、热数据分隔阈值时,认为该数据为温数据;当数据的访问频次高于温、热数据分隔阈值时,认为该数据为热数据。此时按照分类存储步骤S300将各类数据进行分类存放。
数据类型更新步骤S200,基于历史访问数据统计每个单位时间内数据被访问次数,根据若干个单位时间内的数据被访问次数获取数据类型的更新特征值,根据数据类型的更新特征值与设定阈值的比较结果,更新数据类型。上述数据类型更新步骤被重复一次或多次。
该步骤中,根据数据类型的更新特征值对初步分类后的数据进行二次分类。具体包括:
S210如果数据存储前有历史统计数据时,获取以不小于一年为单位的数据被访问次数的历史统计数据,以月为单位计算数据被访问频次的变化情况。如果数据每月被访问的总次数乘平稳下降趋势,即数据访问次数以月为单位没有增加或者逐月递减,则称为一类数据;如果数据每月被访问的总次数在每年的个别月份出现反弹,即数据访问次数以月为单位统计有增加情况,则称为二类数据。如果数据在存储到该系统前无历史访问统计数据,可直接归类为二类数据,存储到热数据区,后期由系统自动实现数据的自然冷却。
S220利用平均法求取所述一类数据的数据类型的更新特征值。在本发明的一个实施例中,数据自存入热数据区后,即开始以周为单位计算每周的访问次数。设第一周的访问次数为A1,第二周为A2,...第n周为An。当数据访问频率变化比较平稳,不随季节等因素波动时,也即针对一类数据,直接只用简单平均法,此时,数据类型的更新特征值为An-3+An-2+An-1+An,当(An-3+An-2+An-1+An)<=a且Max(An-3,An-2,An-1,An)<=b时,判断为温数据,参数a和b可根据实际状况进行调整,一般应在10~100之间。当(An-23+An-22+...+An-1+An)=0时,判定为冷数据,此时表示该数据在过去24周内均没有被访问过。
S230利用霍尔特双参数指数平滑法预测所述二类数据的被访问次数,再利用平均法基于预测结果求取所述二类数据的数据类型的更新特征值。在本发明的另一个实施例中,数据访问频率随季节等时间因素有较大波动,也即针对二类数据,采用霍尔特双参数指数平滑法对未来的访问频率进行预测。具体根据以下运算,获得未来的若干周期内访问数据次数的预测值:
Lt=αSt+(1-α)(Lt-1+Tt-1)
Tt=β(Lt-Lt-1)+(1-β)Tt-1
Ft+m=Lt+Ttm
其中L表示水平,T表示趋势。S为实际值。α为水平平滑系数,β为趋势平滑系数,α和β数值均介于0-1之间(推荐初始值α=0.6,β=0.8)。t代表时期。F为预测值,m是进行预测的时间到预测当期的间隔期数。即Ft+m是需要预测当前之后m期的预测值。
对计算出的预测数据再根据方法1进行加和计算,此时,数据类型的更新特征值为Ft+1+Ft+2+Ft+3+Ft+4。当未来连续4周的数据访问次数总和小于等于a时,可判定为温数据,参数a可根据实际调整,一般在10~100之间。温数据和冷数据将在登录文件信息后,自动移动到相对应的光盘匣中去。
分类存储步骤S300,根据数据的访问特征值,确定数据类型,并根据数据类型将数据分类到相应的存储区域进行存储,所述数据类型包括热数据、温数据和冷数据。以及基于更新的数据类型将数据分类到相应的存储区域进行存储。进一步地,将热数据存储于半导体存储介质中;将温数据存储在光盘存储介质中。此外,对于冷数据可以定期收集进行离线管理。作为本发明较佳的实施方式,半导体存储介质选用SSD,提高存取速度;光盘选用档案级蓝光存储光盘,寿命可达100年,单张存储容量为100GB,随着技术进步,未来将出现单张存储达到1TB以上的产品。为提高光盘的存储密度和方便性,光盘可以光盘匣或光盘库的形态进行放置。将SSD和光盘读写装置(光驱)通过中央控制单元集成到一个设备里,再连接到互联网,即可实现所有数据的远程访问。
更进一步地,所述半导体存储介质中设置有热数据缓冲区,所述热数据缓冲区用于存储最近被访问过的温数据,当所述最近被访问过的温数据在若干个访问周期内均没有被再次访问时,相应的热数据缓冲区存储空间被释放。
具体来说,为提高数据的访问速度,减少对光盘数据频繁读取,温数据被访问时,将光盘数据先读取到热数据的缓冲区,再在热数据区对访问请求进行应答。暂存在热数据缓冲区的数据,如果n周内无访问(参数n一般取1~10之间),将由后来的数据自动覆盖掉。
本发明还提供了一种数据分类存储读取装置,包括统计单元、分类存储单元和数据类型更新单元。其中:
统计单元,针对一段时间内数据被访问次数进行统计,并根据统计结果获取数据的访问特征值。
数据类型更新单元,基于历史访问数据统计每个单位时间内数据被访问次数,根据若干个单位时间内的数据被访问次数获取数据类型的更新特征值,根据所述数据类型的更新特征值与设定阈值的比较结果,更新数据类型。
分类存储单元,根据数据的访问特征值,确定数据类型,并根据数据类型将数据分类到相应的存储区域进行存储,如图2所示。数据类型包括热数据、温数据和冷数据。以及基于更新的数据类型将数据分类到相应的存储区域进行存储。
进一步地,数据类型更新单元包括:
数据分类模块,被配置为获取以不小于一年为单位的数据被访问次数的历史统计数据,计算数据被访问频次的变化率数据,将数据划分为数据被访问频次的变化率小于阈值的一类数据或者数据被访问频次的变化率大于阈值的二类数据;
一类数据类型更新模块,被配置为利用平均法求取所述一类数据的数据类型的更新特征值;
二类数据类型更新模块,被配置利用霍尔特双参数指数平滑法预测所述二类数据的被访问次数,再利用平均法基于预测结果求取所述二类数据的数据类型的更新特征值。
进一步地,所述分类存储单元包括:
热数据存储模块,被配置为存储热数据,所述热数据存储模块采用半导体存储介质;
温数据存储模块,被配置为存储温数据,所述热数据存储模块中设置有热数据缓冲区,所述热数据缓冲区被配置为存储最近被访问过的温数据,当所述最近被访问过的温数据在若干个访问周期内均没有被再次访问时,相应的热数据缓冲区存储空间被释放,所述温数据存储模块采用光盘存储介质。
作为本发明较佳的实施方式,分类存储单元包括:
应答策略生成模块,被配置为接收应答周期内所有的温数据读取请求,提取各读取请求的目标温数据的存储位置,以读取数据时抓取光盘次数最少为目标,生成应答策略。
在光盘数据读取时,一方面由于光头数量的限制,一次只能读取一张光盘的数据;另一方面,由于动作原理的限制,每次拿取光盘也需要花费大量的时间,基本需要30s以上。这大幅提高了并发响应多个数据的读取要求的时间。解决方案是改变传统光驱单一响应的方式,首先建立一个应答队列,对一段时间内的多个读取请求进行预分析,计算出最优访问策略后,再给光驱发出温数据读取命令。例如,第一张光盘里有a1,a2,a3三个数据,第二光盘里有b1,b2,b3三个数据,现依次收到的访问请求为a1,b1,a2,b2,a3,b3,如果不进行优化,光头将先读取第一张光盘,读出数据a1,放回光盘1,抓取第二张光盘,读取数据b1,放回光盘2,再次抓取光盘1,…如此反复6次,浪费了大量的重复抓取动作。优化后,可以将访问系列更改为a1,a2,a3,b1,b2,b3,两次光盘抓取,即可完成所有数据的读取,较好的提高了访问效率。
对于本发明装置实施例的而言,由于其与上面方法实施例中的相对应,所以描述的比较简单,相关相似之处请参见上面实施例中部分的说明即可,此处不再详述。
一种数据分类存储读取系统,如图3所示,包括若干个如上述任意一项所述的装置,各所述装置通过局域网实现互联。
多台设备共同接入局域网,组成一个分布式数据存储中心。可将其中任意一台设置为控制主机,其他设备设置为从机,主机作为存储中心的总控平台,负责对外数据的交互入口和网内各从机数据分配。为保证数据的安全性,每台设备预留10~100MB的空间,共同存储系统内所有文件的存储路径和标识,包括设备编号、光盘匣编号、光盘编号、离线/在线状态等,借用区块链存储机制,当存储中心内的数据发生变化时,每一台设备内的标识将同步更新,确保了数据一致性、可追溯性、安全性。每台温数据设备根据冷热数据识别策略,自行将温数据存储到自有光盘匣中,当有冷数据生成时,将通知控制主机请求数据转存,控制主机收到请求后,将根据数据大小、冷存储设备的剩余容量、最短路径等发出冷数据转存指令,将数据存档到相应的光盘匣。冷数据存储光盘匣存满后,发出提示,有工作人员取出送往光盘匣离线柜进行存放。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种数据分类存储方法,其特征在于,包括:
统计步骤,针对一段时间内数据被访问次数进行统计,并根据统计结果获取数据的访问特征值;和
分类存储步骤,根据数据的访问特征值,确定数据类型,并根据数据类型将数据分类到相应的存储区域进行存储,所述数据类型包括热数据、温数据和冷数据;
该方法还包括:
数据类型更新步骤,基于历史访问数据统计每个单位时间内数据被访问次数,根据若干个单位时间内的数据被访问次数获取数据类型的更新特征值,根据所述数据类型的更新特征值与设定阈值的比较结果,更新数据类型;
其中分类存储步骤还基于更新的数据类型将数据分类到相应的存储区域进行存储。
2.根据权利要求1所述的数据分类存储方法,其特征在于,所述数据类型更新步骤被重复一次或多次。
3.根据权利要求1所述的数据分类存储方法,其特征在于,所述根据若干个单位时间内的数据被访问次数获取数据类型的更新特征值,包括:
获取以不小于一年的数据被访问次数的历史统计数据,以月为单位统计数据被访问频次的变化趋势,将数据划分为数据被访问频次逐月递减的的一类数据或者区别与一类数据的二类数据;
利用平均法求取所述一类数据的数据类型的更新特征值;
利用霍尔特双参数指数平滑法预测所述二类数据的被访问次数,再利用平均法基于预测结果求取所述二类数据的数据类型的更新特征值。
4.根据权利要求1所述的数据分类存储方法,其特征在于,将所述热数据存储于半导体存储介质中;将所述温数据存储在光盘存储介质中。
5.根据权利要求4所述的数据分类存储方法,其特征在于,所述半导体存储介质中设置有热数据缓冲区,所述热数据缓冲区用于存储最近被访问过的温数据,当所述最近被访问过的温数据在若干个访问周期内均没有被再次访问时,相应的热数据缓冲区存储空间被释放。
6.一种数据分类存储读取装置,其特征在于,包括:
统计单元,针对一段时间内数据被访问次数进行统计,并根据统计结果获取数据的访问特征值;和
分类存储单元,根据数据的访问特征值,确定数据类型,并根据数据类型将数据分类到相应的存储区域进行存储,所述数据类型包括热数据、温数据和冷数据;
该装置还包括:
数据类型更新单元,基于历史访问数据统计每个单位时间内数据被访问次数,根据若干个单位时间内的数据被访问次数获取数据类型的更新特征值,根据所述数据类型的更新特征值与设定阈值的比较结果,更新数据类型;
其中分类存储单元还基于更新的数据类型将数据分类到相应的存储区域进行存储。
7.根据权利要求6所述的数据分类存储读取装置,其特征在于,所述数据类型更新单元包括:
数据分类模块,获取以不小于一年的数据被访问次数的历史统计数据,以月为单位统计数据被访问频次的变化趋势,将数据划分为数据被访问频次逐月递减的的一类数据或者区别与一类数据的二类数据;
一类数据类型更新模块,被配置为利用平均法求取所述一类数据的数据类型的更新特征值;
二类数据类型更新模块,被配置利用霍尔特双参数指数平滑法预测所述二类数据的被访问次数,再利用平均法基于预测结果求取所述二类数据的数据类型的更新特征值。
8.根据权利要求6所述的数据分类存储读取装置,其特征在于,所述分类存储单元包括:
热数据存储模块,被配置为存储热数据,所述热数据存储模块采用半导体或HDD存储介质;
温数据存储模块,被配置为存储温数据,所述热数据存储模块中设置有热数据缓冲区,所述热数据缓冲区被配置为存储最近被访问过的温数据,当所述最近被访问过的温数据在若干个访问周期内均没有被再次访问时,相应的热数据缓冲区存储空间被释放,所述温数据存储模块采用光盘存储介质。
9.根据权利要求8所述的数据分类存储读取装置,其特征在于,所述分类存储单元包括:
应答策略生成模块,被配置为接收应答周期内所有的温数据读取请求,提取各读取请求的目标温数据的存储位置,以读取数据时抓取光盘次数最少为目标,生成应答策略。
10.一种数据分类存储读取系统,其特征在于,包括若干个如权利要求6-9中任意一项所述的装置,各所述装置通过局域网实现互联。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011444506.3A CN112506433A (zh) | 2020-12-08 | 2020-12-08 | 一种数据分类存储方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011444506.3A CN112506433A (zh) | 2020-12-08 | 2020-12-08 | 一种数据分类存储方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112506433A true CN112506433A (zh) | 2021-03-16 |
Family
ID=74971146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011444506.3A Pending CN112506433A (zh) | 2020-12-08 | 2020-12-08 | 一种数据分类存储方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112506433A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113391765A (zh) * | 2021-06-22 | 2021-09-14 | 中国工商银行股份有限公司 | 基于分布式存储系统的数据存储方法、装置、设备及介质 |
CN113434593A (zh) * | 2021-06-15 | 2021-09-24 | 华录科技文化(大连)有限公司 | 一种基于区块链和蓝光存储相结合的双路数据不可逆存储系统 |
CN114035743A (zh) * | 2021-10-14 | 2022-02-11 | 长沙韶光半导体有限公司 | 机器人传感数据的存储方法及相关设备 |
CN115330446A (zh) * | 2022-08-11 | 2022-11-11 | 武汉耳东信息科技有限公司 | 基于人工智能的数据中心数据管理方法及系统 |
CN115629715A (zh) * | 2022-12-06 | 2023-01-20 | 江苏华存电子科技有限公司 | 一种提高闪存中块类型判断准确率的方法及系统 |
CN118228821A (zh) * | 2024-01-22 | 2024-06-21 | 广东跃昉科技有限公司 | 一种面向多场景的大模型数据存储方法 |
CN118426712A (zh) * | 2024-07-05 | 2024-08-02 | 深圳市天创伟业科技有限公司 | 闪存卡数据存储方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777342A (zh) * | 2017-01-16 | 2017-05-31 | 湖南大学 | 一种基于可靠性的高性能文件系统混合节能存储系统及方法 |
CN109634779A (zh) * | 2018-11-19 | 2019-04-16 | 杭州电子科技大学 | 一种基于数据热度自学习的数据增量备份方法 |
CN111061433A (zh) * | 2019-12-17 | 2020-04-24 | 深圳佰维存储科技股份有限公司 | 冷热数据处理方法及装置 |
-
2020
- 2020-12-08 CN CN202011444506.3A patent/CN112506433A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777342A (zh) * | 2017-01-16 | 2017-05-31 | 湖南大学 | 一种基于可靠性的高性能文件系统混合节能存储系统及方法 |
CN109634779A (zh) * | 2018-11-19 | 2019-04-16 | 杭州电子科技大学 | 一种基于数据热度自学习的数据增量备份方法 |
CN111061433A (zh) * | 2019-12-17 | 2020-04-24 | 深圳佰维存储科技股份有限公司 | 冷热数据处理方法及装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113434593A (zh) * | 2021-06-15 | 2021-09-24 | 华录科技文化(大连)有限公司 | 一种基于区块链和蓝光存储相结合的双路数据不可逆存储系统 |
CN113391765A (zh) * | 2021-06-22 | 2021-09-14 | 中国工商银行股份有限公司 | 基于分布式存储系统的数据存储方法、装置、设备及介质 |
CN114035743A (zh) * | 2021-10-14 | 2022-02-11 | 长沙韶光半导体有限公司 | 机器人传感数据的存储方法及相关设备 |
CN114035743B (zh) * | 2021-10-14 | 2024-05-14 | 长沙韶光半导体有限公司 | 机器人传感数据的存储方法及相关设备 |
CN115330446A (zh) * | 2022-08-11 | 2022-11-11 | 武汉耳东信息科技有限公司 | 基于人工智能的数据中心数据管理方法及系统 |
CN115629715A (zh) * | 2022-12-06 | 2023-01-20 | 江苏华存电子科技有限公司 | 一种提高闪存中块类型判断准确率的方法及系统 |
CN115629715B (zh) * | 2022-12-06 | 2023-05-05 | 江苏华存电子科技有限公司 | 一种提高闪存中块类型判断准确率的方法及系统 |
CN118228821A (zh) * | 2024-01-22 | 2024-06-21 | 广东跃昉科技有限公司 | 一种面向多场景的大模型数据存储方法 |
CN118426712A (zh) * | 2024-07-05 | 2024-08-02 | 深圳市天创伟业科技有限公司 | 闪存卡数据存储方法、装置、设备及存储介质 |
CN118426712B (zh) * | 2024-07-05 | 2024-08-30 | 深圳市天创伟业科技有限公司 | 闪存卡数据存储方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112506433A (zh) | 一种数据分类存储方法、装置及系统 | |
US11886732B2 (en) | Data storage server with multi-memory migration | |
CN110413227B (zh) | 一种硬盘设备的剩余使用寿命在线预测方法和系统 | |
US7085786B2 (en) | Apparatus and method to schedule and perform database maintenance | |
CN104978362B (zh) | 分布式文件系统的数据迁移方法、装置及元数据服务器 | |
US10146449B1 (en) | Purchase planning for data storage processing systems | |
CN109558287A (zh) | 一种固态硬盘寿命预测方法、装置和系统 | |
CN106502576A (zh) | 迁移策略调整方法、容量变更建议方法及装置 | |
CN110289994B (zh) | 一种集群容量调整方法及装置 | |
CN104424106B (zh) | 为存储优化操作分配存储设备的资源的方法和系统 | |
CN103116473A (zh) | 使用盘驱动器模拟模型来对盘i/o扼流 | |
US20090248974A1 (en) | Optimizing operational requests of logical volumes | |
CN102215268A (zh) | 一种迁移文件数据的方法和装置 | |
CN105373347B (zh) | 一种存储系统的热点数据识别和调度方法及系统 | |
CN109033298A (zh) | 一种在异构hdfs集群下的数据分配方法 | |
CN103106152A (zh) | 基于层次存储介质的数据调度方法 | |
CN109358821A (zh) | 一种成本驱动的云计算冷热数据存储优化方法 | |
CN106898368B (zh) | 光盘库开关控制装置、方法、设备及光盘式数据中心 | |
US20090182957A1 (en) | Data storage apparatus | |
CN109491616A (zh) | 数据的存储方法和设备 | |
CN101673192A (zh) | 时序化的数据处理方法、装置及系统 | |
WO2007116995A1 (ja) | データの保存先を複数のテープ記録装置から選択するための装置、方法及びプログラム | |
CN104424118B (zh) | 热点文件自适应拷贝方法及系统 | |
CN103150245A (zh) | 确定数据实体的访问特性的方法和存储控制器 | |
CN116204117A (zh) | 基于访问行为的数据块活跃度估值和数据迁移方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |