CN116027989A - 一种基于存储管理芯片对文件集进行存储的方法及系统 - Google Patents
一种基于存储管理芯片对文件集进行存储的方法及系统 Download PDFInfo
- Publication number
- CN116027989A CN116027989A CN202310317657.XA CN202310317657A CN116027989A CN 116027989 A CN116027989 A CN 116027989A CN 202310317657 A CN202310317657 A CN 202310317657A CN 116027989 A CN116027989 A CN 116027989A
- Authority
- CN
- China
- Prior art keywords
- storage
- storage device
- file
- information
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013500 data storage Methods 0.000 claims abstract description 236
- 238000007726 management method Methods 0.000 claims abstract description 136
- 230000006870 function Effects 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 14
- 230000001105 regulatory effect Effects 0.000 claims description 13
- 238000010586 diagram Methods 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
一种基于存储管理芯片对文件集进行存储的方法及系统,涉及芯片应用技术领域,其中方法包括:在数据存储系统接收到来自用户设备的文件集存储请求后,确定用于存储文件集特征信息的信息存储设备,确定所述信息存储设备所归属的当前数据存储域和多个候选存储设备;确定每个候选存储设备的域内数据冗余度和域外数据冗余度;在多个候选存储设备中选择至少两个目标存储设备以及从文件集中选择需要进行冗余存储的多个文件;在所述至少两个目标存储设备选择一个第一类型的目标存储设备和至少一个第二类型的目标存储设备,将所述文件集存储在第一类型的目标存储设备中,并且将需要进行冗余存储的多个文件的副本存储在每个第二类型的目标存储设备中。
Description
技术领域
本发明涉及芯片应用技术领域,并且更具体地,涉及一种基于存储管理芯片对文件集进行存储的方法及系统。
背景技术
随着电子设备的性能不断提升以及用户对电子设备的使用频率越大越大,大量的电子文件在不断被生成或使用。由于个人存储设备的存储空间限制,许多的电子文件需要被存储在数据存储服务提供者所提供的数据存储系统中。
当用户希望将多个文件存储在数据存储系统中时,为了数据安全,通常需要在多个文件中确定需要进行冗余存储的文件。现有技术中,缺少利用专用的芯片为多个文件进行存储时,提供自动冗余备份的技术方案。
发明内容
为了解决现有技术中的问题,本申请利用数据存储系统中的存储管理芯片为用于提供多个文件的自动冗余备份的改进技术方案。
根据本发明的一个方面,提供一种基于存储管理芯片对文件集进行存储的方法,所述方法包括:
在数据存储系统接收到来自用户设备的文件集存储请求时,所述数据存储系统的存储管理芯片获取所述文件集存储请求中的文件集冗余存储比率和文件集特征信息,其中,所述文件集特征信息包括:文件集的标识信息、文件集的属性信息和文件集的访问信息;
存储管理芯片基于预先选择的散列函数对所述文件集的标识信息进行计算以获取散列值,基于所述散列值在多个存储设备中确定用于存储文件集特征信息的信息存储设备,确定所述信息存储设备所归属的当前数据存储域,将所归属的当前数据存储域中除了所述信息存储设备之外的每个存储设备选择作为候选存储设备;
存储管理芯片从所述数据存储系统的数据服务器,获取所述数据存储系统的文件存储信息和数据域信息,并且获取所述信息存储设备所归属的当前数据存储域内每个候选存储设备的设备状态信息,以及所述存储管理芯片根据文件存储信息确定每个候选存储设备的域内数据冗余度和域外数据冗余度;
存储管理芯片基于每个候选存储设备的设备状态信息以及每个候选存储设备的域内数据冗余度和域外数据冗余度,在所述信息存储设备所归属的当前数据存储域内多个候选存储设备中选择至少两个目标存储设备;以及
数据存储系统从所述用户设备获取所述文件集存储请求所涉及的文件集,并促使存储管理芯片基于文件集冗余存储比率、文件集的属性信息和文件集的访问信息,从文件集中选择需要进行冗余存储的多个文件;
在所述至少两个目标存储设备选择一个第一类型的目标存储设备,并且将至少两个目标存储设备中剩余的至少一个目标存储设备确定为第二类型的目标存储设备,将所述文件集存储在第一类型的目标存储设备中,并且将需要进行冗余存储的多个文件的副本存储在每个第二类型的目标存储设备中。
优选地,所述文件集冗余存储比率为文件集中需要进行冗余存储的文件的冗余文件数量与所述文件集的文件总数量的比值。
优选地,所述文件集的属性信息包括文件集中每个文件的属性信息项,其中每个文件的属性信息项包括:文件的标识符和文件的安全等级,所述安全等级包括:高安全等级、中安全等级和低安全等级。
优选地,所述文件集的访问信息包括文件集中每个文件的访问信息集,其中每个文件的访问信息集包括多条访问记录,每条访问记录包括:文件的标识符、被访问的时间和访问者的网络地址。
优选地,其中,存储管理芯片基于预先选择的散列函数对所述文件集的标识信息进行计算以获取散列值,包括:
所述存储管理芯片将所述文件集的标识信息输入到所述预先选择的散列函数中,以使得所述预先选择的散列函数基于所述文件集的标识信息进行计算以获取散列值。
优选地,其中,基于所述散列值在多个存储设备中确定用于存储文件集特征信息的信息存储设备,包括:
存储管理芯片获取所述数据存储系统的数据服务器中存储的设备信息表,基于所述设备信息表确定所述数据存储系统中每个存储设备的散列标识,其中所述设备信息表包括多个设备信息项,每个设备信息项包括:存储设备的散列标识和存储设备的网络地址;
存储管理芯片基于所述散列值和每个存储设备的散列标识,在多个存储设备中确定用于存储文件集特征信息的存储设备,并将用于存储文件集特征信息的存储设备作为信息存储设备。
优选地,其中,存储管理芯片基于所述散列值和每个存储设备的散列标识,在多个存储设备中确定用于存储文件集特征信息的存储设备,并将用于存储文件集特征信息的存储设备作为信息存储设备,包括:
存储管理芯片计算所述散列值与每个存储设备的散列标识之间的数值差或字符距离,确定与所述散列值的数值差或字符距离最小的散列标识;
将与所述散列值的数值差或字符距离最小的散列标识所对应的存储设备,确定为用于存储文件集特征信息的存储设备,并将用于存储文件集特征信息的存储设备作为信息存储设备;
或者,
存储管理芯片将所述散列值进行索引映射处理以获取索引值,确定与所述索引值相关联的散列标识;
将与相关联的散列标识所对应的存储设备,确定为用于存储文件集特征信息的存储设备,并将用于存储文件集特征信息的存储设备作为信息存储设备。
优选地,其中,确定所述信息存储设备所归属的当前数据存储域,包括:
存储管理芯片基于信息存储设备的散列标识在数据域信息中进行搜索,确定与所述信息存储设备相关联的数据域信息项,其中所述数据域信息包括多个数据域信息项,每个数据域信息项包括:数据域的标识符和数据域内每个存储设备的散列标识;以及
基于与所述信息存储设备相关联的数据域信息项,确定所述信息存储设备所归属的当前数据存储域。
优选地,所述文件存储信息,包括:数据存储系统的多个数据域中每个数据域内的每个存储设备的存储信息表,
存储信息表包括:多个存储信息项,每个存储信息项包括:存储设备的散列标识、文件的全局标识符、文件的起始存储时间以及文件的存储尺寸。
优选地,所述设备状态信息,包括:存储设备的散列标识、总存储容量、文件总数量、文件尺寸的中位数以及文件平均尺寸。
优选地,其中,所述存储管理芯片根据文件存储信息确定每个候选存储设备的域内数据冗余度和域外数据冗余度,包括:
所述存储管理芯片获取所述每个候选存储设备的散列标识,并且获取数据存储系统中除了所述当前数据存储域之外的每个数据存储域中每个存储设备的散列标识;
所述存储管理芯片基于所述每个候选存储设备的散列标识,从文件存储信息获取每个候选存储设备的存储信息表;
所述存储管理芯片基于每个候选存储设备的存储信息表,确定每个候选存储设备的域内数据冗余度;
所述存储管理芯片基于除了所述当前数据存储域之外的每个数据存储域中每个存储设备的散列标识,获取数据存储系统中除了所归属的数据存储域之外的每个数据存储域中每个存储设备的存储信息表;
所述存储管理芯片基于每个候选存储设备的存储信息表以及除了所归属的数据存储域之外的每个数据存储域中每个存储设备的存储信息表,确定每个候选存储设备的域外数据冗余度。
优选地,其中,所述存储管理芯片基于每个候选存储设备的存储信息表,确定每个候选存储设备的域内数据冗余度,包括:
所述存储管理芯片基于每个候选存储设备的存储信息表,获取每个候选存储设备的多个存储信息项;
基于每个候选存储设备的多个存储信息项进行文件统计,从而确定与多个候选存储设备相关联的文件列表,所述文件列表包括多条记录,每条记录包括:文件的全局标识符和文件的出现次数;其中所述文件的出现次数等于同一个文件在多个候选存储设备中出现的总次数;
基于所述文件列表和每个候选存储设备的多个存储信息项,确定每个候选存储设备的域内数据冗余度。
优选地,其中,基于所述文件列表和每个候选存储设备的多个存储信息项,确定每个候选存储设备的域内数据冗余度,包括:
基于以下公式来确定每个候选存储设备的域内数据冗余度:
其中,为第i个候选存储设备的文件冗余值,为第i个候选存储设备的第j个文件在多个候选存储设备中的出现次数,为第i个候选存储设备中第j个文件的存储尺寸,为第i个候选存储设备内存储的所有文件的存储尺寸中的最大值,为第i个候选存储设备内存储的所有文件的存储尺寸中的最小值,为当前时间,为第i个候选存储设备的第j个文件的起始存储时间,为第i个候选存储设备的第j个文件到当前时间为止的累计存储时间长度,为第i个候选存储设备内存储的所有文件的累计存储时间长度的中位数;
为第i个候选存储设备的域内数据冗余度;
,其中i和Ncd为自然数,Ncd为候选存储设备的数量;
,其中j和为自然数,为第i个候选存储设备内存储的文件的数量。
优选地,其中,所述存储管理芯片基于每个候选存储设备的存储信息表以及除了所归属的数据存储域之外的每个数据存储域中每个存储设备的存储信息表,确定每个候选存储设备的域外数据冗余度,包括:
所述存储管理芯片基于除了所归属的数据存储域之外的每个数据存储域中每个存储设备的存储信息表,获取除了所归属的数据存储域之外的每个数据存储域中每个存储设备的多个存储信息项;
基于除了所归属的数据存储域之外的每个数据存储域中每个存储设备的多个存储信息项进行文件统计,从而确定与除了所归属的数据存储域之外的每个数据存储域中每个存储设备相关联的文件列表,所述文件列表包括多条记录,每条记录包括:文件的全局标识符和文件的出现次数;其中所述文件的出现次数等于同一个文件在除了所归属的数据存储域之外的多个数据存储域的所有存储设备中出现的总次数;以及
基于与除了所归属的数据存储域之外的每个数据存储域中每个存储设备相关联的文件列表,确定每个候选存储设备的域外数据冗余度。
优选地,其中,基于与除了所归属的数据存储域之外的每个数据存储域中每个存储设备相关联的文件列表,确定每个候选存储设备的域外数据冗余度,包括:
基于以下公式来确定每个候选存储设备的域外数据冗余度:
其中,为第i个候选存储设备的域外数据冗余度;为第i个候选存储设备的第j个文件在多个候选存储设备中的出现次数;为除了所归属的数据存储域之外的第m个存储设备的第n个文件的在除了所归属的数据存储域之外的所有存储设备中的出现次数;
,其中i和Ncd为自然数,Ncd为候选存储设备的数量;
,其中j和为自然数,为第i个候选存储设备内存储的文件的数量;
,其中m和为自然数,为除了所归属的数据存储域之外的所有数据存储域中存储设备的总数量;
,其中n和为自然数,为除了所归属的数据存储域之外的所有数据存储域中第m个存储设备内存储的文件的数量。
优选地,其中,存储管理芯片基于每个候选存储设备的设备状态信息以及每个候选存储设备的域内数据冗余度和域外数据冗余度,在所述信息存储设备所归属的当前数据存储域内多个候选存储设备中选择至少两个目标存储设备,包括:
存储管理芯片基于每个候选存储设备的设备状态信息、域内数据冗余度和域外数据冗余度,确定所述信息存储设备所归属的当前数据存储域内多个候选存储设备中每个候选存储设备的当前存储系数;以及
基于当前存储系数,从多个候选存储设备中选择至少两个目标存储设备。
优选地,其中,存储管理芯片基于每个候选存储设备的设备状态信息、域内数据冗余度和域外数据冗余度,确定所述信息存储设备所归属的当前数据存储域内多个候选存储设备中每个候选存储设备的当前存储系数,包括:
基于每个候选存储设备的设备状态信息,确定每个候选存储设备的总存储容量、文件总数量、文件尺寸的中位数以及文件平均尺寸;
基于以下公式确定每个候选存储设备的当前存储系数:
其中,为第i个候选存储设备的当前存储系数,为第i个候选存储设备的中间系数,为第i个候选存储设备的总存储容量,为第i个候选存储设备的文件总数量,为第i个候选存储设备的文件平均尺寸,为第i个候选存储设备的文件尺寸的中位数;其中,为第一调节因子,为第二调节因子,;
,其中i和Ncd为自然数,Ncd为候选存储设备的数量。
优选地,其中,基于当前存储系数,从多个候选存储设备中选择至少两个目标存储设备,包括:
按照当前存储系数的降序顺序,对多个候选存储设备进行排序以生成排序列表;
将所述排序列表中当前存储系数最大的至少两个候选存储设备,全部选择作为目标存储设备。
优选地,其中,促使存储管理芯片基于文件集冗余存储比率、文件集的属性信息和文件集的访问信息,从文件集中选择需要进行冗余存储的多个文件,包括:
促使存储管理芯片基于文件集的属性信息,确定所述文件集中每个文件的安全等级,并将每个文件的安全等级映射为安全等级数值;
确定过去的预定时间长度,并且促使存储管理芯片基于文件集的访问信息和过去的预定时间长度,确定所述文件集中每个文件在过去的预定时间长度内的被访问次数;
基于每个文件的安全等级数值和在过去的预定时间长度内的被访问次数,确定每个文件的冗余系数;以及
基于文件集冗余存储比率和每个文件的冗余系数,从文件集中选择需要进行冗余存储的多个文件。
优选地,其中,基于每个文件的安全等级数值和在过去的预定时间长度内的被访问次数,确定每个文件的冗余系数,包括:
基于以下公式确定每个文件的冗余系数:
其中,为文件集中第k个文件的冗余系数,为文件集中第k个文件的安全等级数值,为文件集中第k个文件在过去的预定时间长度内的被访问次数;
,其中k和NF为自然数,NF为文件集中文件的数量;
为第三调节因子,为第四调节因子,并且,。
优选地,其中,将每个文件的安全等级映射为安全等级数值,包括:
将高安全等级映射为第一安全等级数值,将中安全等级映射为第二安全等级数值,并且将低安全等级映射为第三安全等级数值;
其中第一安全等级数值,第二安全等级数值和第三安全等级数值均为自然数,第一安全等级数值大于第二安全等级数值,并且第二安全等级数值大于第三安全等级数值。
优选地,其中,基于文件集冗余存储比率和每个文件的冗余系数,从文件集中选择需要进行冗余存储的多个文件,包括:
按照冗余系数的降序顺序,将文件集中的所有文件进行排序,以生成文件列表;
基于文件集冗余存储比率和文件集中文件的数量,确定文件集中需要进行冗余存储的文件的数量:
其中,为文件集中需要进行冗余存储的文件的数量;为文件集冗余存储比率,为对的乘积进行向下取整;
从文件列表中冗余系数最大的文件开始,依降序顺序选择个文件,以作为需要进行冗余存储的多个文件。
优选地,其中,在所述至少两个目标存储设备选择一个第一类型的目标存储设备,包括:
将所述至少两个目标存储设备中,域内数据冗余度最大的目标存储设备,选择作为第一类型的目标存储设备。
根据本发明的另一方面,提供一种基于存储管理芯片对文件集进行存储的系统,所述系统包括:
获取装置,用于在数据存储系统接收到来自用户设备的文件集存储请求时,所述数据存储系统的存储管理芯片获取所述文件集存储请求中的文件集冗余存储比率和文件集特征信息,其中,所述文件集特征信息包括:文件集的标识信息、文件集的属性信息和文件集的访问信息;
确定装置,用于促使存储管理芯片基于预先选择的散列函数对所述文件集的标识信息进行计算以获取散列值,基于所述散列值在多个存储设备中确定用于存储文件集特征信息的信息存储设备,确定所述信息存储设备所归属的当前数据存储域,将所归属的当前数据存储域中除了所述信息存储设备之外的每个存储设备选择作为候选存储设备;促使存储管理芯片从所述数据存储系统的数据服务器,获取所述数据存储系统的文件存储信息和数据域信息,并且获取所述信息存储设备所归属的当前数据存储域内每个候选存储设备的设备状态信息,以及所述存储管理芯片根据文件存储信息确定每个候选存储设备的域内数据冗余度和域外数据冗余度;
选择装置,用于促使存储管理芯片基于每个候选存储设备的设备状态信息以及每个候选存储设备的域内数据冗余度和域外数据冗余度,在所述信息存储设备所归属的当前数据存储域内多个候选存储设备中选择至少两个目标存储设备;数据存储系统从所述用户设备获取所述文件集存储请求所涉及的文件集,并促使存储管理芯片基于文件集冗余存储比率、文件集的属性信息和文件集的访问信息,从文件集中选择需要进行冗余存储的多个文件;
存储装置,用于在所述至少两个目标存储设备选择一个第一类型的目标存储设备,并且将至少两个目标存储设备中剩余的至少一个目标存储设备确定为第二类型的目标存储设备,将所述文件集存储在第一类型的目标存储设备中,并且将需要进行冗余存储的多个文件的副本存储在每个第二类型的目标存储设备中。
根据本发明的再一方面,提供一种基于存储管理芯片对文件集进行存储的系统,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本发明任意实施例的方法。
根据本发明的技术方案,确定待存储的文件集的文件集冗余存储比率和文件集特征信息,并用散列值确定用于存储文件集特征信息的信息存储设备。通过在信息存储设备中存储文件集特征信息而不存储实际的文件集,能够确保文件集的信息存储安全。此外,在信息存储设备所归属的当前数据存储域内多个候选存储设备中选择多个目标存储设备,并通过文件的相关特征信息从文件集中选择需要进行冗余存储的多个文件。进一步地,为目标存储设备确定存储类型并根据存储类型对文件集进行部分文件的冗余存储。通过本发明的技术方案,不但满足了数据存储的信息安全,而且通过自动冗余存储防止数据文件的丢失,提升用户满意度。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明实施方式的基于存储管理芯片对文件集进行存储的方法的流程图;
图2为根据本发明实施方式的数据存储系统的结构示意图;
图3为根据本发明实施方式的基于存储管理芯片对文件集进行存储的系统的结构示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为根据本发明实施方式的基于存储管理芯片对文件集进行存储的方法100的流程图。
步骤101,在数据存储系统接收到来自用户设备的文件集存储请求时,所述数据存储系统的存储管理芯片获取所述文件集存储请求中的文件集冗余存储比率和文件集特征信息,其中,所述文件集特征信息包括:文件集的标识信息、文件集的属性信息和文件集的访问信息。图2为根据本发明实施方式的数据存储系统的结构示意图。如图2所示,数据存储系统包括多个数据域并且每个数据域内可以包括多个存储设备。优选地,可以按照地理位置的区域将数据存储系统内的多个存储设备划分为多个数据域,或者,可以按照逻辑关系,将将数据存储系统内的多个存储设备划分为多个数据域。在下面的内容中,为了进行区分,例如,将通过散列值确定的存储设备称为信息存储设备,而实际上信息存储设备是数据存储系统中的存储设备。此外,将信息存储设备所归属的数据域称为当前数据存储域,即所归属的当前数据存储域。为了进行文件的冗余存储,将当前数据域内除了所述信息存储设备之前的每个存储设备称为候选存储设备,这是因为要从多个候选存储设备中选择用于实际存储文件或文件的副本的目标存储设备。文件集中包括多个文件。
优选地,文件集冗余存储比率为文件集中需要进行冗余存储的文件的冗余文件数量与所述文件集的文件总数量的比值。文件集冗余存储比率例如是20%等任意合理数值。例如,当文件集中包括100个文件并且文件集冗余存储比率为20%时,那么100个文件中有20个文件(100×20%=20)。此外,还包括,用户能够使用所述用户设备为文件集设置文件集冗余存储比率。用户可以根据实际需求或文件集的文件重要程度,来设置文件集冗余存储比率。
优选地,所述文件集的属性信息包括文件集中每个文件的属性信息项,其中每个文件的属性信息项包括:文件的标识符和文件的安全等级,所述安全等级包括:高安全等级、中安全等级和低安全等级。其中,文件的标识符可以为全局唯一的标识符。例如,私人文件的安全等级可以是高安全等级。普通文件的安全等级可以是低安全等级等。安全等级可以作为文件进行冗余存储的重要参数。
优选地,所述文件集的访问信息包括文件集中每个文件的访问信息集,其中每个文件的访问信息集包括多条访问记录,每条访问记录包括:文件的标识符、被访问的时间和访问者的网络地址。其中,文件的标识符可以为全局唯一的标识符。文件的每条访问记录对应于文件的一次访问。访问者的网络地址例如是访问者的移动终端、用户终端、用户设备、个人计算机、网络设备的网络地址。被访问的时间可以是文件被访问时的访问起始时刻,访问结束时刻,或访问起始时刻之间访问结束时刻的任意时刻。
优选地,在数据存储系统接收到来自用户设备的文件集存储请求之前,还包括,当希望在数据存储系统中存储文件集时,通过用户设备确定与文件集相关联的文件集特征信息和文件集冗余存储比率,并将与文件集相关联的文件集特征信息和文件集冗余存储比率附加到所述文件集存储请求中;以及由用户设备将所述文件集存储请求发送给数据存储系统。例如,用户设备将所述文件集存储请求发送给数据存储系统的服务平台或服务站点。
步骤102,存储管理芯片基于预先选择的散列函数对所述文件集的标识信息进行计算以获取散列值,基于所述散列值在多个存储设备中确定用于存储文件集特征信息的信息存储设备,确定所述信息存储设备所归属的当前数据存储域,将所归属的当前数据存储域中除了所述信息存储设备之外的每个存储设备选择作为候选存储设备。
优选地,存储管理芯片基于预先选择的散列函数对所述文件集的标识信息进行计算以获取散列值,包括:所述存储管理芯片将所述文件集的标识信息输入到所述预先选择的散列函数中,以使得所述预先选择的散列函数基于所述文件集的标识信息进行计算以获取散列值。散列函数还可以被称为哈希函数。散列函数例如是MD4、MD5,SHA-1等任意散列函数。其中,所述存储管理芯片将所述文件集的标识信息输入到所述预先选择的散列函数中,例如是将文件集的标识信息所对应的字符串,输入到所述预先选择的散列函数中。
优选地,其中,基于所述散列值在多个存储设备中确定用于存储文件集特征信息的信息存储设备,包括:存储管理芯片获取所述数据存储系统的数据服务器中存储的设备信息表,基于所述设备信息表确定所述数据存储系统中每个存储设备的散列标识,其中所述设备信息表包括多个设备信息项,每个设备信息项包括:存储设备的散列标识和存储设备的网络地址;存储管理芯片基于所述散列值和每个存储设备的散列标识,在多个存储设备中确定用于存储文件集特征信息的存储设备,并将用于存储文件集特征信息的存储设备作为信息存储设备。散列标识例如是数据存储系统中存储设备的设备标识符,用于在数据存储系统中识别不同的存储设备。不同的散列标识可以存在与部分散列值的对应关系。
优选地,其中,存储管理芯片基于所述散列值和每个存储设备的散列标识,在多个存储设备中确定用于存储文件集特征信息的存储设备,并将用于存储文件集特征信息的存储设备作为信息存储设备,包括:存储管理芯片计算所述散列值与每个存储设备的散列标识之间的数值差或字符距离,确定与所述散列值的数值差或字符距离最小的散列标识;将与所述散列值的数值差或字符距离最小的散列标识所对应的存储设备,确定为用于存储文件集特征信息的存储设备,并将用于存储文件集特征信息的存储设备作为信息存储设备。可替换地,存储管理芯片将所述散列值进行索引映射处理以获取索引值,确定与所述索引值相关联的散列标识;将与相关联的散列标识所对应的存储设备,确定为用于存储文件集特征信息的存储设备,并将用于存储文件集特征信息的存储设备作为信息存储设备。其中,基于所述散列值和每个存储设备的散列标识,在多个存储设备中确定用于存储文件集特征信息的存储设备,相对于利用散列值在多个存储设备中进行寻址(寻找对应的散列标识)的过程。
优选地,确定所述信息存储设备所归属的当前数据存储域,包括:所述数据域信息包括多个数据域信息项,每个数据域信息项包括:数据域的标识符和数据域内每个存储设备的散列标识。存储管理芯片基于信息存储设备的散列标识在数据域信息中进行搜索,确定与所述信息存储设备相关联的数据域信息项;以及基于与所述信息存储设备相关联的数据域信息项,确定所述信息存储设备所归属的当前数据存储域。通常,为了对数据存储进行有效的控制和管理,数据存储系统将所有的存储设备划分为多个数据域。为此,数据存储系统需要将每个数据域的标识符和数据域内每个存储设备的散列标识存储在数据存储系统的数据服务器中。
步骤103,存储管理芯片从所述数据存储系统的数据服务器,获取所述数据存储系统的文件存储信息和数据域信息,并且获取所述信息存储设备所归属的当前数据存储域内每个候选存储设备的设备状态信息,以及所述存储管理芯片根据文件存储信息确定每个候选存储设备的域内数据冗余度和域外数据冗余度。
优选地,文件存储信息用于描述数据存储系统中每个存储设备所存储的文件的信息,例如,文件存储信息包括:数据存储系统的多个数据域中每个数据域内的每个存储设备的存储信息表。即,数据存储系统(所有数据域)中每个存储设备的存储信息表。存储信息表包括:多个存储信息项,并且每个存储信息项包括:存储设备的散列标识、文件的全局标识符、文件的起始存储时间以及文件的存储尺寸。文件的全局标识符用于唯一地识别所有文件。文件的起始存储时间是文件在存储设备开始存储的起始时刻。
优选地,设备状态信息包括:存储设备的散列标识、总存储容量、文件总数量、文件尺寸的中位数以及文件平均尺寸。总存储容量是存储设备的总存储容量。文件总数量是存储设备中存储的文件的总数量。文件尺寸的中位数是存储设备中存储的所有文件的尺寸的中位数。文件平均尺寸是存储设备中存储的所有文件的尺寸的平均值。
优选地,存储管理芯片根据文件存储信息确定每个候选存储设备的域内数据冗余度和域外数据冗余度,包括:所述存储管理芯片获取所述每个候选存储设备的散列标识,并且获取数据存储系统中除了所述当前数据存储域之外的每个数据存储域中每个存储设备的散列标识;所述存储管理芯片基于所述每个候选存储设备的散列标识,从文件存储信息获取每个候选存储设备的存储信息表;所述存储管理芯片基于每个候选存储设备的存储信息表,确定每个候选存储设备的域内数据冗余度;所述存储管理芯片基于除了所述当前数据存储域之外的每个数据存储域中每个存储设备的散列标识,获取数据存储系统中除了所归属的数据存储域之外的每个数据存储域中每个存储设备的存储信息表;所述存储管理芯片基于每个候选存储设备的存储信息表以及除了所归属的数据存储域之外的每个数据存储域中每个存储设备的存储信息表,确定每个候选存储设备的域外数据冗余度。
优选地,所述存储管理芯片基于每个候选存储设备的存储信息表,确定每个候选存储设备的域内数据冗余度,包括:所述存储管理芯片基于每个候选存储设备的存储信息表,获取每个候选存储设备的多个存储信息项;基于每个候选存储设备的多个存储信息项进行文件统计,从而确定与多个候选存储设备相关联的文件列表,所述文件列表包括多条记录,每条记录包括:文件的全局标识符和文件的出现次数;其中所述文件的出现次数等于同一个文件在多个候选存储设备中出现的总次数;基于所述文件列表和每个候选存储设备的多个存储信息项,确定每个候选存储设备的域内数据冗余度。
优选地,基于所述文件列表和每个候选存储设备的多个存储信息项,确定每个候选存储设备的域内数据冗余度,包括:
基于以下公式来确定每个候选存储设备的域内数据冗余度:
其中,为第i个候选存储设备的文件冗余值,为第i个候选存储设备的第j个文件在多个候选存储设备中的出现次数,为第i个候选存储设备中第j个文件的存储尺寸,为第i个候选存储设备内存储的所有文件的存储尺寸中的最大值,为第i个候选存储设备内存储的所有文件的存储尺寸中的最小值,为当前时间,为第i个候选存储设备的第j个文件的起始存储时间,为第i个候选存储设备的第j个文件到当前时间为止的累计存储时间长度,为第i个候选存储设备内存储的所有文件的累计存储时间长度的中位数;为第i个候选存储设备的域内数据冗余度;,其中i和Ncd为自然数,Ncd为候选存储设备的数量;,其中j和为自然数,为第i个候选存储设备内存储的文件的数量。
优选地,所述存储管理芯片基于每个候选存储设备的存储信息表以及除了所归属的数据存储域之外的每个数据存储域中每个存储设备的存储信息表,确定每个候选存储设备的域外数据冗余度,包括:所述存储管理芯片基于除了所归属的数据存储域之外的每个数据存储域中每个存储设备的存储信息表,获取除了所归属的数据存储域之外的每个数据存储域中每个存储设备的多个存储信息项;基于除了所归属的数据存储域之外的每个数据存储域中每个存储设备的多个存储信息项进行文件统计,从而确定与除了所归属的数据存储域之外的每个数据存储域中每个存储设备相关联的文件列表,所述文件列表包括多条记录,每条记录包括:文件的全局标识符和文件的出现次数;其中所述文件的出现次数等于同一个文件在除了所归属的数据存储域之外的多个数据存储域的所有存储设备中出现的总次数;以及基于与除了所归属的数据存储域之外的每个数据存储域中每个存储设备相关联的文件列表,确定每个候选存储设备的域外数据冗余度。
优选地,基于与除了所归属的数据存储域之外的每个数据存储域中每个存储设备相关联的文件列表,确定每个候选存储设备的域外数据冗余度,包括:
基于以下公式来确定每个候选存储设备的域外数据冗余度:
其中,为第i个候选存储设备的域外数据冗余度;为第i个候选存储设备的第j个文件在多个候选存储设备中的出现次数;为除了所归属的数据存储域之外的第m个存储设备的第n个文件的在除了所归属的数据存储域之外的所有存储设备中的出现次数;,其中i和Ncd为自然数,Ncd为候选存储设备的数量;,其中j和为自然数,为第i个候选存储设备内存储的文件的数量;,其中m和为自然数,为除了所归属的数据存储域之外的所有数据存储域中存储设备的总数量;,其中n和为自然数,为除了所归属的数据存储域之外的所有数据存储域中第m个存储设备内存储的文件的数量。
步骤104,存储管理芯片基于每个候选存储设备的设备状态信息以及每个候选存储设备的域内数据冗余度和域外数据冗余度,在所述信息存储设备所归属的当前数据存储域内多个候选存储设备中选择至少两个目标存储设备,具体包括:存储管理芯片基于每个候选存储设备的设备状态信息、域内数据冗余度和域外数据冗余度,确定所述信息存储设备所归属的当前数据存储域内多个候选存储设备中每个候选存储设备的当前存储系数;以及基于当前存储系数,从多个候选存储设备中选择至少两个目标存储设备。
优选地,存储管理芯片基于每个候选存储设备的设备状态信息、域内数据冗余度和域外数据冗余度,确定所述信息存储设备所归属的当前数据存储域内多个候选存储设备中每个候选存储设备的当前存储系数,包括:基于每个候选存储设备的设备状态信息,确定每个候选存储设备的总存储容量、文件总数量、文件尺寸的中位数以及文件平均尺寸;
基于以下公式确定每个候选存储设备的当前存储系数:
其中,为第i个候选存储设备的当前存储系数,为第i个候选存储设备的中间系数,为第i个候选存储设备的总存储容量,为第i个候选存储设备的文件总数量,为第i个候选存储设备的文件平均尺寸,为第i个候选存储设备的文件尺寸的中位数;其中,为第一调节因子,为第二调节因子,并且,;,其中i和Ncd为自然数,Ncd为候选存储设备的数量。
优选地,基于当前存储系数,从多个候选存储设备中选择至少两个目标存储设备,包括:按照当前存储系数的降序顺序,对多个候选存储设备进行排序以生成排序列表;将所述排序列表中当前存储系数最大的至少两个候选存储设备,全部选择作为目标存储设备。例如,多个候选存储设备的排序列表为,候选存储设备A、B、C、……、Z(共26个候选存储设备,并且当前存储系统按照字母A-Z的顺序依次降低)将所述排序列表中当前存储系数最大的三个候选存储设备A、B和C,全部选择作为目标存储设备。
步骤105,数据存储系统从所述用户设备获取所述文件集存储请求所涉及的文件集,并促使存储管理芯片基于文件集冗余存储比率、文件集的属性信息和文件集的访问信息,从文件集中选择需要进行冗余存储的多个文件。
优选地,促使存储管理芯片基于文件集冗余存储比率、文件集的属性信息和文件集的访问信息,从文件集中选择需要进行冗余存储的多个文件,包括:促使存储管理芯片基于文件集的属性信息,确定所述文件集中每个文件的安全等级,并将每个文件的安全等级映射为安全等级数值;确定过去的预定时间长度,并且促使存储管理芯片基于文件集的访问信息和过去的预定时间长度,确定所述文件集中每个文件在过去的预定时间长度内的被访问次数;基于每个文件的安全等级数值和在过去的预定时间长度内的被访问次数,确定每个文件的冗余系数;以及基于文件集冗余存储比率和每个文件的冗余系数,从文件集中选择需要进行冗余存储的多个文件。
优选地,基于每个文件的安全等级数值和在过去的预定时间长度内的被访问次数,确定每个文件的冗余系数,包括:
基于以下公式确定每个文件的冗余系数:
其中,为文件集中第k个文件的冗余系数,为文件集中第k个文件的安全等级数值,为文件集中第k个文件在过去的预定时间长度内的被访问次数;,其中k和NF为自然数,NF为文件集中文件的数量;为第三调节因子,为第四调节因子,并且,。
优选地,其中,将每个文件的安全等级映射为安全等级数值,包括:将高安全等级映射为第一安全等级数值,将中安全等级映射为第二安全等级数值,并且将低安全等级映射为第三安全等级数值;其中第一安全等级数值,第二安全等级数值和第三安全等级数值均为自然数,第一安全等级数值大于第二安全等级数值,并且第二安全等级数值大于第三安全等级数值。
优选地,其中,基于文件集冗余存储比率和每个文件的冗余系数,从文件集中选择需要进行冗余存储的多个文件,包括:按照冗余系数的降序顺序,将文件集中的所有文件进行排序,以生成文件列表;
基于文件集冗余存储比率和文件集中文件的数量,确定文件集中需要进行冗余存储的文件的数量:
其中,为文件集中需要进行冗余存储的文件的数量;为文件集冗余存储比率,为对的乘积进行向下取整;例如,当为31.6时,为31。从文件列表中冗余系数最大的文件开始,依降序顺序选择个文件,以作为需要进行冗余存储的多个文件。例如,文件列表中包括100个文件,那么从冗余系数最大的文件开始,选择31个文件,使得所选择的31个文件中任意文件的冗余系数大于剩余69个文件的任意文件的冗余系数。
步骤106,在所述至少两个目标存储设备选择一个第一类型的目标存储设备,并且将至少两个目标存储设备中剩余的至少一个目标存储设备确定为第二类型的目标存储设备,将所述文件集存储在第一类型的目标存储设备中,并且将需要进行冗余存储的多个文件的副本存储在每个第二类型的目标存储设备中。
优选地,在所述至少两个目标存储设备选择一个第一类型的目标存储设备,包括:将所述至少两个目标存储设备中,域内数据冗余度最大的目标存储设备,选择作为第一类型的目标存储设备。优选地,在所述至少两个目标存储设备选择一个第一类型的目标存储设备,包括:将所述至少两个目标存储设备中,域外数据冗余度最大的目标存储设备,选择作为第一类型的目标存储设备。优选地,在所述至少两个目标存储设备选择一个第一类型的目标存储设备,包括:将所述至少两个目标存储设备中,当前存储系数最大的目标存储设备,选择作为第一类型的目标存储设备。优选地,在所述至少两个目标存储设备选择一个第一类型的目标存储设备,包括:将所述至少两个目标存储设备中,存储的文件的数量最大的目标存储设备,选择作为第一类型的目标存储设备。
图3为根据本发明实施方式的基于存储管理芯片对文件集进行存储的系统的结构示意图。系统包括:获取装置301、确定装置302、选择装置303以及存储装置304。
获取装置301,用于在数据存储系统接收到来自用户设备的文件集存储请求时,所述数据存储系统的存储管理芯片获取所述文件集存储请求中的文件集冗余存储比率和文件集特征信息,其中,所述文件集特征信息包括:文件集的标识信息、文件集的属性信息和文件集的访问信息。其中,文件集冗余存储比率为文件集中需要进行冗余存储的文件的冗余文件数量与所述文件集的文件总数量的比值。还包括,用户能够使用所述用户设备为文件集设置文件集冗余存储比率。其中文件集的属性信息包括文件集中每个文件的属性信息项,其中每个文件的属性信息项包括:文件的标识符和文件的安全等级,所述安全等级包括:高安全等级、中安全等级和低安全等级。文件集的访问信息包括文件集中每个文件的访问信息集,其中每个文件的访问信息集包括多条访问记录,每条访问记录包括:文件的标识符、被访问的时间和访问者的网络地址。
优选地,当希望在数据存储系统中存储文件集时,通过用户设备确定与文件集相关联的文件集特征信息和文件集冗余存储比率,并将与文件集相关联的文件集特征信息和文件集冗余存储比率附加到所述文件集存储请求中;以及由用户设备将所述文件集存储请求发送给数据存储系统。
确定装置302,用于促使存储管理芯片基于预先选择的散列函数对所述文件集的标识信息进行计算以获取散列值,基于所述散列值在多个存储设备中确定用于存储文件集特征信息的信息存储设备,确定所述信息存储设备所归属的当前数据存储域,将所归属的当前数据存储域中除了所述信息存储设备之外的每个存储设备选择作为候选存储设备;促使存储管理芯片从所述数据存储系统的数据服务器,获取所述数据存储系统的文件存储信息和数据域信息,并且获取所述信息存储设备所归属的当前数据存储域内每个候选存储设备的设备状态信息,以及所述存储管理芯片根据文件存储信息确定每个候选存储设备的域内数据冗余度和域外数据冗余度。
优选地,确定装置302用于促使所述存储管理芯片将所述文件集的标识信息输入到所述预先选择的散列函数中,以使得所述预先选择的散列函数基于所述文件集的标识信息进行计算以获取散列值。
确定装置302用于促使存储管理芯片获取所述数据存储系统的数据服务器中存储的设备信息表,基于所述设备信息表确定所述数据存储系统中每个存储设备的散列标识,其中所述设备信息表包括多个设备信息项,每个设备信息项包括:存储设备的散列标识和存储设备的网络地址;存储管理芯片基于所述散列值和每个存储设备的散列标识,在多个存储设备中确定用于存储文件集特征信息的存储设备,并将用于存储文件集特征信息的存储设备作为信息存储设备。
确定装置302用于促使存储管理芯片计算所述散列值与每个存储设备的散列标识之间的数值差或字符距离,确定与所述散列值的数值差或字符距离最小的散列标识;将与所述散列值的数值差或字符距离最小的散列标识所对应的存储设备,确定为用于存储文件集特征信息的存储设备,并将用于存储文件集特征信息的存储设备作为信息存储设备;或者,促使存储管理芯片将所述散列值进行索引映射处理以获取索引值,确定与所述索引值相关联的散列标识;将与相关联的散列标识所对应的存储设备,确定为用于存储文件集特征信息的存储设备,并将用于存储文件集特征信息的存储设备作为信息存储设备。
优选地,所述数据域信息包括多个数据域信息项,每个数据域信息项包括:数据域的标识符和数据域内每个存储设备的散列标识。确定装置302用于促使存储管理芯片基于信息存储设备的散列标识在数据域信息中进行搜索,确定与所述信息存储设备相关联的数据域信息项;以及基于与所述信息存储设备相关联的数据域信息项,确定所述信息存储设备所归属的当前数据存储域。
优选地,所述文件存储信息,包括:数据存储系统的多个数据域中每个数据域内的每个存储设备的存储信息表,存储信息表包括:多个存储信息项,每个存储信息项包括:存储设备的散列标识、文件的全局标识符、文件的起始存储时间以及文件的存储尺寸。优选地,所述设备状态信息,包括:存储设备的散列标识、总存储容量、文件总数量、文件尺寸的中位数以及文件平均尺寸。
确定装置302用于促使所述存储管理芯片获取所述每个候选存储设备的散列标识,并且获取数据存储系统中除了所述当前数据存储域之外的每个数据存储域中每个存储设备的散列标识;所述存储管理芯片基于所述每个候选存储设备的散列标识,从文件存储信息获取每个候选存储设备的存储信息表;所述存储管理芯片基于每个候选存储设备的存储信息表,确定每个候选存储设备的域内数据冗余度;所述存储管理芯片基于除了所述当前数据存储域之外的每个数据存储域中每个存储设备的散列标识,获取数据存储系统中除了所归属的数据存储域之外的每个数据存储域中每个存储设备的存储信息表;所述存储管理芯片基于每个候选存储设备的存储信息表以及除了所归属的数据存储域之外的每个数据存储域中每个存储设备的存储信息表,确定每个候选存储设备的域外数据冗余度。
确定装置302用于促使所述存储管理芯片基于每个候选存储设备的存储信息表,获取每个候选存储设备的多个存储信息项;基于每个候选存储设备的多个存储信息项进行文件统计,从而确定与多个候选存储设备相关联的文件列表,所述文件列表包括多条记录,每条记录包括:文件的全局标识符和文件的出现次数;其中所述文件的出现次数等于同一个文件在多个候选存储设备中出现的总次数;基于所述文件列表和每个候选存储设备的多个存储信息项,确定每个候选存储设备的域内数据冗余度。
确定装置302用于基于以下公式来确定每个候选存储设备的域内数据冗余度:
其中,为第i个候选存储设备的文件冗余值,为第i个候选存储设备的第j个文件在多个候选存储设备中的出现次数,为第i个候选存储设备中第j个文件的存储尺寸,为第i个候选存储设备内存储的所有文件的存储尺寸中的最大值,为第i个候选存储设备内存储的所有文件的存储尺寸中的最小值,为当前时间,为第i个候选存储设备的第j个文件的起始存储时间,为第i个候选存储设备的第j个文件到当前时间为止的累计存储时间长度,为第i个候选存储设备内存储的所有文件的累计存储时间长度的中位数;
为第i个候选存储设备的域内数据冗余度;
,其中i和Ncd为自然数,Ncd为候选存储设备的数量;
,其中j和为自然数,为第i个候选存储设备内存储的文件的数量。
确定装置302用于促使所述存储管理芯片基于除了所归属的数据存储域之外的每个数据存储域中每个存储设备的存储信息表,获取除了所归属的数据存储域之外的每个数据存储域中每个存储设备的多个存储信息项;基于除了所归属的数据存储域之外的每个数据存储域中每个存储设备的多个存储信息项进行文件统计,从而确定与除了所归属的数据存储域之外的每个数据存储域中每个存储设备相关联的文件列表,所述文件列表包括多条记录,每条记录包括:文件的全局标识符和文件的出现次数;其中所述文件的出现次数等于同一个文件在除了所归属的数据存储域之外的多个数据存储域的所有存储设备中出现的总次数;以及基于与除了所归属的数据存储域之外的每个数据存储域中每个存储设备相关联的文件列表,确定每个候选存储设备的域外数据冗余度。
确定装置302用于基于以下公式来确定每个候选存储设备的域外数据冗余度:
其中,为第i个候选存储设备的域外数据冗余度;为第i个候选存储设备的第j个文件在多个候选存储设备中的出现次数;为除了所归属的数据存储域之外的第m个存储设备的第n个文件的在除了所归属的数据存储域之外的所有存储设备中的出现次数;
,其中i和Ncd为自然数,Ncd为候选存储设备的数量;
,其中j和为自然数,为第i个候选存储设备内存储的文件的数量;
,其中m和为自然数,为除了所归属的数据存储域之外的所有数据存储域中存储设备的总数量;
,其中n和为自然数,为除了所归属的数据存储域之外的所有数据存储域中第m个存储设备内存储的文件的数量。
选择装置303,用于促使存储管理芯片基于每个候选存储设备的设备状态信息以及每个候选存储设备的域内数据冗余度和域外数据冗余度,在所述信息存储设备所归属的当前数据存储域内多个候选存储设备中选择至少两个目标存储设备;数据存储系统从所述用户设备获取所述文件集存储请求所涉及的文件集,并促使存储管理芯片基于文件集冗余存储比率、文件集的属性信息和文件集的访问信息,从文件集中选择需要进行冗余存储的多个文件。
选择装置303用于促使存储管理芯片基于每个候选存储设备的设备状态信息、域内数据冗余度和域外数据冗余度,确定所述信息存储设备所归属的当前数据存储域内多个候选存储设备中每个候选存储设备的当前存储系数;以及基于当前存储系数,从多个候选存储设备中选择至少两个目标存储设备。
选择装置303用于基于每个候选存储设备的设备状态信息,确定每个候选存储设备的总存储容量、文件总数量、文件尺寸的中位数以及文件平均尺寸;
基于以下公式确定每个候选存储设备的当前存储系数:
其中,为第i个候选存储设备的当前存储系数,为第i个候选存储设备的中间系数,为第i个候选存储设备的总存储容量,为第i个候选存储设备的文件总数量,为第i个候选存储设备的文件平均尺寸,为第i个候选存储设备的文件尺寸的中位数;其中,为第一调节因子,为第二调节因子,;
,其中i和Ncd为自然数,Ncd为候选存储设备的数量。
选择装置303用于按照当前存储系数的降序顺序,对多个候选存储设备进行排序以生成排序列表;将所述排序列表中当前存储系数最大的至少两个候选存储设备,全部选择作为目标存储设备。
存储装置304,用于在所述至少两个目标存储设备选择一个第一类型的目标存储设备,并且将至少两个目标存储设备中剩余的至少一个目标存储设备确定为第二类型的目标存储设备,将所述文件集存储在第一类型的目标存储设备中,并且将需要进行冗余存储的多个文件的副本存储在每个第二类型的目标存储设备中。
存储装置304,用于促使存储管理芯片基于文件集的属性信息,确定所述文件集中每个文件的安全等级,并将每个文件的安全等级映射为安全等级数值;确定过去的预定时间长度,并且促使存储管理芯片基于文件集的访问信息和过去的预定时间长度,确定所述文件集中每个文件在过去的预定时间长度内的被访问次数;基于每个文件的安全等级数值和在过去的预定时间长度内的被访问次数,确定每个文件的冗余系数;以及基于文件集冗余存储比率和每个文件的冗余系数,从文件集中选择需要进行冗余存储的多个文件。
存储装置304,用于基于以下公式确定每个文件的冗余系数:
其中,为文件集中第k个文件的冗余系数,为文件集中第k个文件的安全等级数值,为文件集中第k个文件在过去的预定时间长度内的被访问次数;
,其中k和NF为自然数,NF为文件集中文件的数量;
为第三调节因子,为第四调节因子,。
存储装置304,用于将高安全等级映射为第一安全等级数值,将中安全等级映射为第二安全等级数值,并且将低安全等级映射为第三安全等级数值;其中第一安全等级数值,第二安全等级数值和第三安全等级数值均为自然数,第一安全等级数值大于第二安全等级数值,并且第二安全等级数值大于第三安全等级数值。所述文件集包括多个文件。
存储装置304,用于按照冗余系数的降序顺序,将文件集中的所有文件进行排序,以生成文件列表;
基于文件集冗余存储比率和文件集中文件的数量,确定文件集中需要进行冗余存储的文件的数量:
其中,为文件集中需要进行冗余存储的文件的数量;为文件集冗余存储比率,为对的乘积进行向下取整;
从文件列表中冗余系数最大的文件开始,依降序顺序选择个文件,以作为需要进行冗余存储的多个文件。
存储装置304,用于将所述至少两个目标存储设备中,域内数据冗余度最大的目标存储设备,选择作为第一类型的目标存储设备。
存储装置304,用于将所述至少两个目标存储设备中,域外数据冗余度最大的目标存储设备,选择作为第一类型的目标存储设备。
存储装置304,用于将所述至少两个目标存储设备中,当前存储系数最大的目标存储设备,选择作为第一类型的目标存储设备。
存储装置304,用于将所述至少两个目标存储设备中,存储的文件的数量最大的目标存储设备,选择作为第一类型的目标存储设备。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
Claims (25)
1.一种基于存储管理芯片对文件集进行存储的方法,所述方法包括:
在数据存储系统接收到来自用户设备的文件集存储请求时,所述数据存储系统的存储管理芯片获取所述文件集存储请求中的文件集冗余存储比率和文件集特征信息,其中,所述文件集特征信息包括:文件集的标识信息、文件集的属性信息和文件集的访问信息;
存储管理芯片基于预先选择的散列函数对所述文件集的标识信息进行计算以获取散列值,基于所述散列值在多个存储设备中确定用于存储文件集特征信息的信息存储设备,确定所述信息存储设备所归属的当前数据存储域,将所归属的当前数据存储域中除了所述信息存储设备之外的每个存储设备选择作为候选存储设备;
存储管理芯片从所述数据存储系统的数据服务器,获取所述数据存储系统的文件存储信息和数据域信息,并且获取所述信息存储设备所归属的当前数据存储域内每个候选存储设备的设备状态信息,以及所述存储管理芯片根据文件存储信息确定每个候选存储设备的域内数据冗余度和域外数据冗余度;
存储管理芯片基于每个候选存储设备的设备状态信息以及每个候选存储设备的域内数据冗余度和域外数据冗余度,在所述信息存储设备所归属的当前数据存储域内多个候选存储设备中选择至少两个目标存储设备;以及
数据存储系统从所述用户设备获取所述文件集存储请求所涉及的文件集,并促使存储管理芯片基于文件集冗余存储比率、文件集的属性信息和文件集的访问信息,从文件集中选择需要进行冗余存储的多个文件;
在所述至少两个目标存储设备选择一个第一类型的目标存储设备,并且将至少两个目标存储设备中剩余的至少一个目标存储设备确定为第二类型的目标存储设备,将所述文件集存储在第一类型的目标存储设备中,并且将需要进行冗余存储的多个文件的副本存储在每个第二类型的目标存储设备中。
2.根据权利要求1所述的方法,所述文件集冗余存储比率为文件集中需要进行冗余存储的文件的冗余文件数量与所述文件集的文件总数量的比值。
3.根据权利要求1所述的方法,所述文件集的属性信息包括文件集中每个文件的属性信息项,其中每个文件的属性信息项包括:文件的标识符和文件的安全等级,所述安全等级包括:高安全等级、中安全等级和低安全等级。
4.根据权利要求1所述的方法,所述文件集的访问信息包括文件集中每个文件的访问信息集,其中每个文件的访问信息集包括多条访问记录,每条访问记录包括:文件的标识符、被访问的时间和访问者的网络地址。
5.根据权利要求1所述的方法,其中,存储管理芯片基于预先选择的散列函数对所述文件集的标识信息进行计算以获取散列值,包括:
所述存储管理芯片将所述文件集的标识信息输入到所述预先选择的散列函数中,以使得所述预先选择的散列函数基于所述文件集的标识信息进行计算以获取散列值。
6.根据权利要求1所述的方法,其中,基于所述散列值在多个存储设备中确定用于存储文件集特征信息的信息存储设备,包括:
存储管理芯片获取所述数据存储系统的数据服务器中存储的设备信息表,基于所述设备信息表确定所述数据存储系统中每个存储设备的散列标识,其中所述设备信息表包括多个设备信息项,每个设备信息项包括:存储设备的散列标识和存储设备的网络地址;
存储管理芯片基于所述散列值和每个存储设备的散列标识,在多个存储设备中确定用于存储文件集特征信息的存储设备,并将用于存储文件集特征信息的存储设备作为信息存储设备。
7.根据权利要求6所述的方法,其中,存储管理芯片基于所述散列值和每个存储设备的散列标识,在多个存储设备中确定用于存储文件集特征信息的存储设备,并将用于存储文件集特征信息的存储设备作为信息存储设备,包括:
存储管理芯片计算所述散列值与每个存储设备的散列标识之间的数值差或字符距离,确定与所述散列值的数值差或字符距离最小的散列标识;
将与所述散列值的数值差或字符距离最小的散列标识所对应的存储设备,确定为用于存储文件集特征信息的存储设备,并将用于存储文件集特征信息的存储设备作为信息存储设备;
或者,
存储管理芯片将所述散列值进行索引映射处理以获取索引值,确定与所述索引值相关联的散列标识;
将与相关联的散列标识所对应的存储设备,确定为用于存储文件集特征信息的存储设备,并将用于存储文件集特征信息的存储设备作为信息存储设备。
8.根据权利要求7所述的方法,其中,确定所述信息存储设备所归属的当前数据存储域,包括:
存储管理芯片基于信息存储设备的散列标识在数据域信息中进行搜索,确定与所述信息存储设备相关联的数据域信息项,其中所述数据域信息包括多个数据域信息项,每个数据域信息项包括:数据域的标识符和数据域内每个存储设备的散列标识;以及
基于与所述信息存储设备相关联的数据域信息项,确定所述信息存储设备所归属的当前数据存储域。
9.根据权利要求1所述的方法,所述文件存储信息,包括:数据存储系统的多个数据域中每个数据域内的每个存储设备的存储信息表,
存储信息表包括:多个存储信息项,每个存储信息项包括:存储设备的散列标识、文件的全局标识符、文件的起始存储时间以及文件的存储尺寸。
10.根据权利要求9所述的方法,所述设备状态信息,包括:存储设备的散列标识、总存储容量、文件总数量、文件尺寸的中位数以及文件平均尺寸。
11.根据权利要求9所述的方法,其中,所述存储管理芯片根据文件存储信息确定每个候选存储设备的域内数据冗余度和域外数据冗余度,包括:
所述存储管理芯片获取所述每个候选存储设备的散列标识,并且获取数据存储系统中除了所述当前数据存储域之外的每个数据存储域中每个存储设备的散列标识;
所述存储管理芯片基于所述每个候选存储设备的散列标识,从文件存储信息获取每个候选存储设备的存储信息表;
所述存储管理芯片基于每个候选存储设备的存储信息表,确定每个候选存储设备的域内数据冗余度;
所述存储管理芯片基于除了所述当前数据存储域之外的每个数据存储域中每个存储设备的散列标识,获取数据存储系统中除了所归属的数据存储域之外的每个数据存储域中每个存储设备的存储信息表;
所述存储管理芯片基于每个候选存储设备的存储信息表以及除了所归属的数据存储域之外的每个数据存储域中每个存储设备的存储信息表,确定每个候选存储设备的域外数据冗余度。
12.根据权利要求11所述的方法,其中,所述存储管理芯片基于每个候选存储设备的存储信息表,确定每个候选存储设备的域内数据冗余度,包括:
所述存储管理芯片基于每个候选存储设备的存储信息表,获取每个候选存储设备的多个存储信息项;
基于每个候选存储设备的多个存储信息项进行文件统计,从而确定与多个候选存储设备相关联的文件列表,所述文件列表包括多条记录,每条记录包括:文件的全局标识符和文件的出现次数;其中所述文件的出现次数等于同一个文件在多个候选存储设备中出现的总次数;
基于所述文件列表和每个候选存储设备的多个存储信息项,确定每个候选存储设备的域内数据冗余度。
13.根据权利要求12所述的方法,其中,基于所述文件列表和每个候选存储设备的多个存储信息项,确定每个候选存储设备的域内数据冗余度,包括:
基于以下公式来确定每个候选存储设备的域内数据冗余度:
其中,为第i个候选存储设备的文件冗余值,为第i个候选存储设备的第j个文件在多个候选存储设备中的出现次数,为第i个候选存储设备中第j个文件的存储尺寸,为第i个候选存储设备内存储的所有文件的存储尺寸中的最大值,为第i个候选存储设备内存储的所有文件的存储尺寸中的最小值,为当前时间,为第i个候选存储设备的第j个文件的起始存储时间,为第i个候选存储设备的第j个文件到当前时间为止的累计存储时间长度,为第i个候选存储设备内存储的所有文件的累计存储时间长度的中位数;
为第i个候选存储设备的域内数据冗余度;
,其中i和Ncd为自然数,Ncd为候选存储设备的数量;
,其中j和为自然数,为第i个候选存储设备内存储的文件的数量。
14.根据权利要求13所述的方法,其中,所述存储管理芯片基于每个候选存储设备的存储信息表以及除了所归属的数据存储域之外的每个数据存储域中每个存储设备的存储信息表,确定每个候选存储设备的域外数据冗余度,包括:
所述存储管理芯片基于除了所归属的数据存储域之外的每个数据存储域中每个存储设备的存储信息表,获取除了所归属的数据存储域之外的每个数据存储域中每个存储设备的多个存储信息项;
基于除了所归属的数据存储域之外的每个数据存储域中每个存储设备的多个存储信息项进行文件统计,从而确定与除了所归属的数据存储域之外的每个数据存储域中每个存储设备相关联的文件列表,所述文件列表包括多条记录,每条记录包括:文件的全局标识符和文件的出现次数;其中所述文件的出现次数等于同一个文件在除了所归属的数据存储域之外的多个数据存储域的所有存储设备中出现的总次数;以及
基于与除了所归属的数据存储域之外的每个数据存储域中每个存储设备相关联的文件列表,确定每个候选存储设备的域外数据冗余度。
15.根据权利要求14所述的方法,其中,基于与除了所归属的数据存储域之外的每个数据存储域中每个存储设备相关联的文件列表,确定每个候选存储设备的域外数据冗余度,包括:
基于以下公式来确定每个候选存储设备的域外数据冗余度:
其中,为第i个候选存储设备的域外数据冗余度;为第i个候选存储设备的第j个文件在多个候选存储设备中的出现次数;为除了所归属的数据存储域之外的第m个存储设备的第n个文件的在除了所归属的数据存储域之外的所有存储设备中的出现次数;
,其中i和Ncd为自然数,Ncd为候选存储设备的数量;
,其中j和为自然数,为第i个候选存储设备内存储的文件的数量;
,其中m和为自然数,为除了所归属的数据存储域之外的所有数据存储域中存储设备的总数量;
,其中n和为自然数,为除了所归属的数据存储域之外的所有数据存储域中第m个存储设备内存储的文件的数量。
16.根据权利要求14所述的方法,其中,存储管理芯片基于每个候选存储设备的设备状态信息以及每个候选存储设备的域内数据冗余度和域外数据冗余度,在所述信息存储设备所归属的当前数据存储域内多个候选存储设备中选择至少两个目标存储设备,包括:
存储管理芯片基于每个候选存储设备的设备状态信息、域内数据冗余度和域外数据冗余度,确定所述信息存储设备所归属的当前数据存储域内多个候选存储设备中每个候选存储设备的当前存储系数;以及
基于当前存储系数,从多个候选存储设备中选择至少两个目标存储设备。
17.根据权利要求16所述的方法,其中,存储管理芯片基于每个候选存储设备的设备状态信息、域内数据冗余度和域外数据冗余度,确定所述信息存储设备所归属的当前数据存储域内多个候选存储设备中每个候选存储设备的当前存储系数,包括:
基于每个候选存储设备的设备状态信息,确定每个候选存储设备的总存储容量、文件总数量、文件尺寸的中位数以及文件平均尺寸;
基于以下公式确定每个候选存储设备的当前存储系数:
其中,为第i个候选存储设备的当前存储系数,为第i个候选存储设备的中间系数,为第i个候选存储设备的总存储容量,为第i个候选存储设备的文件总数量,为第i个候选存储设备的文件平均尺寸,为第i个候选存储设备的文件尺寸的中位数;其中,为第一调节因子,为第二调节因子,;
,其中i和Ncd为自然数,Ncd为候选存储设备的数量。
18.根据权利要求16-17中任意一项所述的方法,其中,基于当前存储系数,从多个候选存储设备中选择至少两个目标存储设备,包括:
按照当前存储系数的降序顺序,对多个候选存储设备进行排序以生成排序列表;
将所述排序列表中当前存储系数最大的至少两个候选存储设备,全部选择作为目标存储设备。
19.根据权利要求9所述的方法,其中,促使存储管理芯片基于文件集冗余存储比率、文件集的属性信息和文件集的访问信息,从文件集中选择需要进行冗余存储的多个文件,包括:
促使存储管理芯片基于文件集的属性信息,确定所述文件集中每个文件的安全等级,并将每个文件的安全等级映射为安全等级数值;
确定过去的预定时间长度,并且促使存储管理芯片基于文件集的访问信息和过去的预定时间长度,确定所述文件集中每个文件在过去的预定时间长度内的被访问次数;
基于每个文件的安全等级数值和在过去的预定时间长度内的被访问次数,确定每个文件的冗余系数;以及
基于文件集冗余存储比率和每个文件的冗余系数,从文件集中选择需要进行冗余存储的多个文件。
20.根据权利要求19所述的方法,其中,基于每个文件的安全等级数值和在过去的预定时间长度内的被访问次数,确定每个文件的冗余系数,包括:
基于以下公式确定每个文件的冗余系数:
其中,为文件集中第k个文件的冗余系数,为文件集中第k个文件的安全等级数值,为文件集中第k个文件在过去的预定时间长度内的被访问次数;
,其中k和NF为自然数,NF为文件集中文件的数量;
为第三调节因子,为第四调节因子,。
21.根据权利要求19所述的方法,其中,将每个文件的安全等级映射为安全等级数值,包括:
将高安全等级映射为第一安全等级数值,将中安全等级映射为第二安全等级数值,并且将低安全等级映射为第三安全等级数值;
其中第一安全等级数值,第二安全等级数值和第三安全等级数值均为自然数,第一安全等级数值大于第二安全等级数值,并且第二安全等级数值大于第三安全等级数值。
22.根据权利要求20所述的方法,其中,基于文件集冗余存储比率和每个文件的冗余系数,从文件集中选择需要进行冗余存储的多个文件,包括:
按照冗余系数的降序顺序,将文件集中的所有文件进行排序,以生成文件列表;
基于文件集冗余存储比率和文件集中文件的数量,确定文件集中需要进行冗余存储的文件的数量:
其中,为文件集中需要进行冗余存储的文件的数量;为文件集冗余存储比率,为对的乘积进行向下取整;
从文件列表中冗余系数最大的文件开始,依降序顺序选择个文件,以作为需要进行冗余存储的多个文件。
23.根据权利要求11所述的方法,其中,在所述至少两个目标存储设备选择一个第一类型的目标存储设备,包括:
将所述至少两个目标存储设备中,域内数据冗余度最大的目标存储设备,选择作为第一类型的目标存储设备。
24.一种基于存储管理芯片对文件集进行存储的系统,所述系统包括:
获取装置,用于在数据存储系统接收到来自用户设备的文件集存储请求时,所述数据存储系统的存储管理芯片获取所述文件集存储请求中的文件集冗余存储比率和文件集特征信息,其中,所述文件集特征信息包括:文件集的标识信息、文件集的属性信息和文件集的访问信息;
确定装置,用于促使存储管理芯片基于预先选择的散列函数对所述文件集的标识信息进行计算以获取散列值,基于所述散列值在多个存储设备中确定用于存储文件集特征信息的信息存储设备,确定所述信息存储设备所归属的当前数据存储域,将所归属的当前数据存储域中除了所述信息存储设备之外的每个存储设备选择作为候选存储设备;促使存储管理芯片从所述数据存储系统的数据服务器,获取所述数据存储系统的文件存储信息和数据域信息,并且获取所述信息存储设备所归属的当前数据存储域内每个候选存储设备的设备状态信息,以及所述存储管理芯片根据文件存储信息确定每个候选存储设备的域内数据冗余度和域外数据冗余度;
选择装置,用于促使存储管理芯片基于每个候选存储设备的设备状态信息以及每个候选存储设备的域内数据冗余度和域外数据冗余度,在所述信息存储设备所归属的当前数据存储域内多个候选存储设备中选择至少两个目标存储设备;数据存储系统从所述用户设备获取所述文件集存储请求所涉及的文件集,并促使存储管理芯片基于文件集冗余存储比率、文件集的属性信息和文件集的访问信息,从文件集中选择需要进行冗余存储的多个文件;
存储装置,用于在所述至少两个目标存储设备选择一个第一类型的目标存储设备,并且将至少两个目标存储设备中剩余的至少一个目标存储设备确定为第二类型的目标存储设备,将所述文件集存储在第一类型的目标存储设备中,并且将需要进行冗余存储的多个文件的副本存储在每个第二类型的目标存储设备中。
25.一种基于存储管理芯片对文件集进行存储的系统,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现权利要求1-23中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310317657.XA CN116027989B (zh) | 2023-03-29 | 2023-03-29 | 一种基于存储管理芯片对文件集进行存储的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310317657.XA CN116027989B (zh) | 2023-03-29 | 2023-03-29 | 一种基于存储管理芯片对文件集进行存储的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116027989A true CN116027989A (zh) | 2023-04-28 |
CN116027989B CN116027989B (zh) | 2023-06-09 |
Family
ID=86077953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310317657.XA Active CN116027989B (zh) | 2023-03-29 | 2023-03-29 | 一种基于存储管理芯片对文件集进行存储的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116027989B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522395A (zh) * | 2023-05-22 | 2023-08-01 | 上海汉朔信息科技有限公司 | 对大数据存储系统中的数据文件进行处理的方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070266037A1 (en) * | 2004-11-05 | 2007-11-15 | Data Robotics Incorporated | Filesystem-Aware Block Storage System, Apparatus, and Method |
US20160239395A1 (en) * | 2015-02-16 | 2016-08-18 | Seagate Technology Llc | Intelligent failure prediction and redundancy management in a data storage system |
CN107135264A (zh) * | 2017-05-12 | 2017-09-05 | 成都优孚达信息技术有限公司 | 用于嵌入式设备的数据编码方法 |
US10078583B1 (en) * | 2016-03-31 | 2018-09-18 | EMC IP Holding Company LLC | Method and system for reducing memory used in embedded DDRs by using spare drives for OOC GC |
CN109271102A (zh) * | 2018-08-30 | 2019-01-25 | 杜广香 | 识别大数据存储系统中的低访问度存储设备的方法及系统 |
US10324893B1 (en) * | 2011-12-15 | 2019-06-18 | Veritas Technologies Llc | Backup application catalog analyzer |
CN111258500A (zh) * | 2014-09-30 | 2020-06-09 | 株式会社日立制作所 | 分布式存储系统以及数据控制方法 |
CN113485637A (zh) * | 2021-05-11 | 2021-10-08 | 广州炒米信息科技有限公司 | 数据存储方法、装置及计算机设备 |
CN114463125A (zh) * | 2022-01-11 | 2022-05-10 | 中国农业银行股份有限公司 | 一种交易发布、交易更新方法、装置、设备及存储介质 |
-
2023
- 2023-03-29 CN CN202310317657.XA patent/CN116027989B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070266037A1 (en) * | 2004-11-05 | 2007-11-15 | Data Robotics Incorporated | Filesystem-Aware Block Storage System, Apparatus, and Method |
US10324893B1 (en) * | 2011-12-15 | 2019-06-18 | Veritas Technologies Llc | Backup application catalog analyzer |
CN111258500A (zh) * | 2014-09-30 | 2020-06-09 | 株式会社日立制作所 | 分布式存储系统以及数据控制方法 |
US20160239395A1 (en) * | 2015-02-16 | 2016-08-18 | Seagate Technology Llc | Intelligent failure prediction and redundancy management in a data storage system |
US10078583B1 (en) * | 2016-03-31 | 2018-09-18 | EMC IP Holding Company LLC | Method and system for reducing memory used in embedded DDRs by using spare drives for OOC GC |
CN107135264A (zh) * | 2017-05-12 | 2017-09-05 | 成都优孚达信息技术有限公司 | 用于嵌入式设备的数据编码方法 |
CN109271102A (zh) * | 2018-08-30 | 2019-01-25 | 杜广香 | 识别大数据存储系统中的低访问度存储设备的方法及系统 |
CN113485637A (zh) * | 2021-05-11 | 2021-10-08 | 广州炒米信息科技有限公司 | 数据存储方法、装置及计算机设备 |
CN114463125A (zh) * | 2022-01-11 | 2022-05-10 | 中国农业银行股份有限公司 | 一种交易发布、交易更新方法、装置、设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522395A (zh) * | 2023-05-22 | 2023-08-01 | 上海汉朔信息科技有限公司 | 对大数据存储系统中的数据文件进行处理的方法及系统 |
CN116522395B (zh) * | 2023-05-22 | 2023-10-13 | 上海汉朔信息科技有限公司 | 对大数据存储系统中的数据文件进行处理的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116027989B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7478113B1 (en) | Boundaries | |
US7805439B2 (en) | Method and apparatus for selecting data records from versioned data | |
KR101708261B1 (ko) | 개별 액세스 가능한 데이터 유닛의 스토리지 관리 | |
US8126997B2 (en) | Hot data management method based on hit counter | |
US8086573B2 (en) | System and method for identifying computer users having files with common attributes | |
US20160026393A1 (en) | Cluster storage using subsegmenting for efficient storage | |
US6675180B2 (en) | Data updating apparatus that performs quick restoration processing | |
US20080270729A1 (en) | Cluster storage using subsegmenting | |
US8010505B2 (en) | Efficient backup data retrieval | |
CN107577436B (zh) | 一种数据存储方法及装置 | |
JP2005267600A5 (zh) | ||
US20060265428A1 (en) | Method and apparatus for processing user's files | |
CN116027989B (zh) | 一种基于存储管理芯片对文件集进行存储的方法及系统 | |
JP2008234550A (ja) | 専門家情報検索装置、専門家情報検索方法およびプログラム。 | |
KR20150045532A (ko) | 개별적으로 액세스 가능한 데이터 유닛의 스토리지 관리 방법 | |
US9104689B2 (en) | Method for synchronizing documents for disconnected operation | |
CN110515895B (zh) | 大数据存储系统中对数据文件进行关联存储的方法及系统 | |
EP1845461A1 (en) | Fast file attribute search | |
CN115964002B (zh) | 一种电能表终端档案管理方法、装置、设备及介质 | |
CN111143373A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
US20130218851A1 (en) | Storage system, data management device, method and program | |
CN109446162B (zh) | 确定移动互联网内目标移动终端的数据状态的方法及系统 | |
WO2021207830A1 (en) | Method and systems for indexing databases based on states and state transitions | |
US20150039598A1 (en) | Data analysis control | |
JP2009176119A (ja) | ファイル利用状況判定システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |