CN117076387A - 基于磁带的海量小文件的快速归档恢复系统 - Google Patents
基于磁带的海量小文件的快速归档恢复系统 Download PDFInfo
- Publication number
- CN117076387A CN117076387A CN202311062506.0A CN202311062506A CN117076387A CN 117076387 A CN117076387 A CN 117076387A CN 202311062506 A CN202311062506 A CN 202311062506A CN 117076387 A CN117076387 A CN 117076387A
- Authority
- CN
- China
- Prior art keywords
- file
- target
- files
- target file
- history
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004590 computer program Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 86
- 230000008859 change Effects 0.000 claims description 30
- 238000011084 recovery Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 6
- 230000005012 migration Effects 0.000 claims 3
- 238000013508 migration Methods 0.000 claims 3
- 239000012634 fragment Substances 0.000 abstract description 4
- 238000000034 method Methods 0.000 description 17
- 238000012549 training Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/113—Details of archiving
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于磁带的海量小文件的快速归档恢复系统,包括:处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:根据目标文件分别和每一历史文件之间的相似度,确定出与目标文件最相似的历史文件作为参考文件,根据参考文件对应的访问频率,确定出至少一个目标文件子集合,将每一目标文件子集合内的所有目标文件合并,得到存储文件,将所有存储文件存储至待存储的磁带中,能够根据文件的相似性确定目标文件的参考文件,进而确定目标文件的参考访问频率,聚类能够使相近访问频率的目标文件合并,降低并行访问目标文件时读取存储文件的次数,并且降低磁带存储时磁带碎片的产生,从而提高文件存储和访问的效率。
Description
技术领域
本发明涉及数据存储技术领域,特别是涉及一种基于磁带的海量小文件的快速归档恢复系统。
背景技术
在文件存储场景下,通常可以根据文件尺寸的大小,将文件划分为小文件和大文件,小文件可以是指图片、音频、文本等,其文件尺寸通常是兆字节或者千字节,而海量小文件会对文件存储系统的读写、增删等任务造成巨大的挑战,例如,大文件通常可以采用顺序访问的形式读取,而小文件则通常需要采用随机访问的形式读取,大大降低了读取的效率,另外,小文件存储时也会导致磁带碎片大量产生。
目前,小文件存储通常采用合并策略进行存储,也即将多个小文件合并为一个大文件,则在读取小文件时,仅需定位到大文件的具体位置,再从大文件中提取出小文件,如发明专利《CN105843841A一种小文件存储方法和系统》中所公开的内容,基于各个待存储小文件的语义描述信息,确定各个小文件之间的关联关系,在此基础上,基于所确定的各个所述小文件间的关联关系,实现对各个待存储的小文件进行合并存储。
但是,现有小文件合并存储的方式虽然能够一定程度地提高文件访问的效率,但是,由于被访问的小文件可能分属于不同的大文件,对多个小文件的并行访问仍然需要多次读取,也即需要读取出多个不同的大文件来完成,因此,如何通过优化文件存储系统,以提高文件访问和存储的效率,成为了亟待解决的问题。
发明内容
针对上述技术问题,本发明采用的技术方案为:基于磁带的海量小文件的快速归档恢复系统,其特征在于,所述系统包括:目标文件集合、历史文件集合、待存储的磁带,处理器和存储有计算机程序的存储器,其中,所述目标文件集合包括至少一个目标文件,所述历史文件集合包括至少一个历史文件及其对应的访问频率,当所述计算机程序被处理器执行时,实现以下步骤:
S10,针对任一目标文件,根据所述目标文件分别和每一历史文件之间的相似度,确定出与所述目标文件之间的相似度最大的历史文件,作为所述目标文件对应的参考文件;
S20,将所述参考文件对应的访问频率作为所述目标文件对应的参考访问频率;
S30,根据所有目标文件对应的参考访问频率,确定出至少一个目标文件子集合,所述目标文件子集合中的所有目标文件对应的参考访问频率中最大值和最小值的差值小于预设的阈值,其中,在S30步骤中还包括如下步骤:
S301,将所述阈值和预设的第一权重相乘,确定相乘结果为聚类半径;
S302,根据所述聚类半径和所有目标文件对应的参考访问频率,对所有目标文件进行聚类处理,得到至少一个文件集合;
S303,若存在一目标文件未分配至任一文件集合中,则调整所述阈值,返回执行所述确定聚类半径的步骤,直至任一目标文件均有所属的文件集合,得到至少一个最终文件集合,确定每一最终文件集合为所述目标文件子集合;
S40,针对任一目标文件子集合,将所述目标文件子集合内的所有目标文件合并,得到所述目标文件子集合对应的存储文件;
S50,将所有存储文件存储至所述待存储的磁带中。
本发明提供了基于磁带的海量小文件的快速归档恢复系统,包括:目标文件集合、历史文件集合、待存储的磁带,处理器和存储有计算机程序的存储器,其中,目标文件集合包括至少一个目标文件,历史文件集合包括至少一个历史文件及其对应的访问频率,当计算机程序被处理器执行时,实现以下步骤:针对任一目标文件,根据目标文件分别和每一历史文件之间的相似度,确定出与目标文件之间的相似度最大的历史文件,作为目标文件对应的参考文件,将参考文件对应的访问频率作为目标文件对应的参考访问频率,根据所有目标文件对应的参考访问频率,确定出至少一个目标文件子集合,目标文件子集合中的所有目标文件对应的参考访问频率中最大值和最小值的差值小于预设的阈值,将阈值和预设的第一权重相乘,确定相乘结果为聚类半径,根据聚类半径和所有目标文件对应的参考访问频率,对所有目标文件进行聚类处理,得到至少一个文件集合,若存在一目标文件未分配至任一文件集合中,则调整阈值,返回执行确定聚类半径的步骤,直至任一目标文件均有所属的文件集合,得到至少一个最终文件集合,确定每一最终文件集合为目标文件子集合,针对任一目标文件子集合,将目标文件子集合内的所有目标文件合并,得到目标文件子集合对应的存储文件,将所有存储文件存储至待存储的磁带中。可知,能够根据文件的相似性确定目标文件的参考文件,进而确定目标文件的参考访问频率,基于访问频率的聚类能够使相近访问频率的目标文件合并,降低并行访问目标文件时读取存储文件的次数,并且降低磁带存储时磁带碎片的产生,从而提高文件存储和访问的效率,实现小文件的快速归档及读写恢复。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,可依照说明书的内容予以实施,并且为了让本发明的上述以及其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种基于磁带的海量小文件的快速归档恢复系统的执行计算机程序的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
如图1所示,本实施例一提供了一种基于磁带的海量小文件的快速归档恢复系统,包括:系统包括:目标文件集合、历史文件集合、待存储的磁带,处理器和存储有计算机程序的存储器,其中,目标文件集合包括至少一个目标文件,历史文件集合包括至少一个历史文件及其对应的访问频率,当计算机程序被处理器执行时,实现以下步骤:
S10,针对任一目标文件,根据目标文件分别和每一历史文件之间的相似度,确定出与目标文件之间的相似度最大的历史文件,作为目标文件对应的参考文件。
其中,目标文件可以是指需要进行存储的小文件,小文件可以是指文件尺寸为兆字节或者千字节的文件,例如,目标文件可以是指图片、文本、音频等文件,历史文件可以是指已经存储的小文件,历史文件的存储位置不限于上述待存储的磁带,也可以是其他磁带,相似度可以用于表征目标文件和历史文件之间的差异程度,参考文件可以是指与目标文件差异程度最小的历史文件。
具体地,相似度可以采用欧式距离、余弦相似度、曼哈顿距离等方式计算,在此不作限制,相似度计算的对象可以是目标文件和历史文件的数字化表示,例如,当目标文件和历史文件为图像文件时,相似度计算的对象可以是二维图像数据,当目标文件和历史文件为文本文件时,相似度计算的对象可以是文本对应的嵌入向量等。
在一个具体的实施方式中,在S10步骤中还包括如下步骤:
S101,获取每一历史文件的历史文件描述信息;
S102,根据历史文件描述信息之间的差异,对所有历史文件进行聚类,得到至少一个历史文件聚类集合;
S103,确定每一历史文件聚类集合的聚类中心为第一文件;
S104,针对任一目标文件,根据目标文件分别和每一第一文件之间的相似度,确定出与目标文件最相似的第一文件,作为目标文件对应的参考文件。
其中,历史文件聚类集合可以包括至少一个历史文件,一历史文件聚类集合中的所有历史文件的历史文件描述信息是相近的,聚类中心可以是指历史文件聚类集合中具有代表性的历史文件,第一文件可以是指聚类中心对应的历史文件。
具体地,聚类方式可以采用K均值聚类算法、DBSCAN聚类算法等,历史文件描述信息可以表示为历史文件描述信息向量的形式,以便于聚类处理时进行距离度量,相应地,聚类中心可以表示为历史文件聚类集合中所有历史文件对应的历史文件描述信息向量的均值,第一文件可以是指与该均值距离最为接近的历史文件描述信息向量对应的历史文件。
本实施例中,通过历史文件聚类的方式,选择出具有代表性的第一文件进行与目标文件的相似度计算,能够有效减少目标文件进行相似度计算的次数,从而提高目标文件所对应参考文件确定的效率。
在一个具体的实施方式中,在S104步骤中还包括如下步骤:
S1041,针对任一目标文件,获取目标文件的目标文件描述信息。
S1042,计算目标文件描述信息分别和每一第一文件对应的历史文件描述信息之间的相似度,确定相似度最大值对应的第一文件,作为目标文件对应的参考文件。
其中,目标文件描述信息同样可以采用目标文件描述信息向量的形式表示。
具体地,在本实施例中,相似度计算过程采用余弦相似度计算,将得到的所有相似度从大至小排序,在序列首位的第一文件即为相似度最大值对应的第一文件。
本实施例中,通过文件描述信息进行相似度计算,能够以文件的关键信息,如属性信息和/或内容信息,相较于通过整体文件进行相似度计算,能够精简计算过程的参数,同时保证相似度计算结果的准确性。
在一个具体的实施方式中,历史文件描述信息至少包括历史文件名称、历史文件校验码;
目标文件描述信息至少包括目标文件名称、目标文件校验码。
其中,历史文件描述信息可以用于表征历史文件的属性信息,属性信息可以包括历史文件校验码、历史文件名称、历史文件大小、历史文件偏移量等,也可以用于表征历史文件的内容信息,内容信息可以包括历史文件语义信息、历史文件关键词信息等,目标文件描述信息可以用于表征目标文件的属性信息和/或内容信息,可以包括目标文件校验码、目标文件名称、目标文件大小、目标文件偏移量、目标文件语义信息、目标文件关键词信息等。
S20,将参考文件对应的访问频率作为目标文件对应的参考访问频率。
其中,访问频率可以是指在预设时间段内参考文件被访问的频率,访问频率可以通过在预设时间段内参考文件被访问的次数和预设时间段的长度的比值表征,参考访问频率可以是指在预设时间段内目标文件被访问的频率。
具体地,本实施例中默认若文件内容和/或属性相似,则文件的访问频率应当是近似的,因此,直接以参考文件对应的访问频率作为目标文件对应的参考访问频率,也即,虽然目标文件尚未被存储,其在预设时间段长度下被访问的频率默认是已知的。
上述将参考文件对应的访问频率作为目标文件对应的参考访问频率的步骤,通过参考文件的访问频率确定目标文件的参考访问频率,使得后续能够以访问频率为基础,对目标文件的合并进行规划,从而减低目标文件合并后面对并行访问场景时的合并文件访问次数。
S30,根据所有目标文件对应的参考访问频率,确定出至少一个目标文件子集合。
其中,目标文件子集合可以包括至少一个目标文件,目标文件子集合中的所有目标文件对应的参考访问频率中最大值和最小值的差值小于预设的阈值,阈值可以用于衡量目标文件子集合中的所有目标文件对应的参考访问频率的变化范围是否足够小。
在S30步骤中还包括如下步骤:
S301,将阈值和预设的第一权重相乘,确定相乘结果为聚类半径;
S302,根据聚类半径和所有目标文件对应的参考访问频率,对所有目标文件进行聚类处理,得到至少一个文件集合;
S303,若存在一目标文件未分配至任一文件集合中,则调整阈值,返回执行将阈值和预设的第一权重相乘,确定相乘结果为聚类半径的步骤,直至任一目标文件均有所属的文件集合,得到至少一个最终文件集合,确定每一最终文件集合为目标文件子集合。
其中,第一权重可以用于确定聚类半径,由于参考访问频率为单个数值,因此在本实施例中,第一权重可以设置为0.5,实施者可以根据实际情况调整该第一权重,但应确保该第一权重为正数。
聚类半径可以用于确定两个目标文件是否属于同一文件集合,一文件集合可以包括至少一个目标文件。
具体地,本实施例中采用DBSCAN聚类算法实现聚类处理,该算法无需设置文件集合的数量,仅根据目标文件的参考访问频率的密度进行聚类。
若存在一目标文件未分配至任一文件集合中,则说明聚类结果中存在离群的目标文件,由于本实施例应用于文件存储场景,也即所有目标文件均应当被有效存储,而不能被舍弃,因此调整阈值,返回执行确定聚类半径,根据聚类半径和所有目标文件对应的参考访问频率,对所有目标文件进行聚类处理,得到至少一个文件集合的步骤,并重新确定是否存在一目标文件未分配至任一文件集合中,直至任一目标文件均有所属的文件集合,得到至少一个最终文件集合,确定每一最终文件集合为目标文件子集合。
在一个具体的实施方式中,在S302步骤中还包括如下步骤:
S3021,统计所有目标文件的数量,得到目标文件数量,根据目标文件数量,确定出最小文件数量;
S3202,根据最小文件数量、聚类半径和所有目标文件对应的参考访问频率,对所有目标文件进行聚类处理,得到至少一个文件集合。
其中,目标文件数量可以是指所有目标文件的统计个数,最小文件数量可以是指单个文件集合中最小包含的目标文件的个数。
具体地,本实施例中采用DBSCAN聚类算法实现聚类处理,该算法的超参数包括最小点和最大半径,最大半径也即上述聚类半径,而最小点则为最小文件数量。
进一步地,可以将目标文件数量和预设的第二权重相乘,第二权重的取值范围为(0,1],实施者可以根据预期的文件合并数量或者磁带的剩余存储空间确定第二权重,例如,第二权重可以设置为0.25,则预期的文件合并数量为4,最终得到的文件集合数量也会接近于4。
在一个具体的实施方式中,在S303步骤中还包括如下步骤:
S3031,若存在一目标文件未分配至任一文件集合中,则将阈值和预设的调整值相加,得到相加结果;
S3032,确定相加结果为调整后的阈值;
S3033,返回执行确定聚类半径,根据聚类半径和所有目标文件对应的参考访问频率,对所有目标文件进行聚类处理,得到至少一个文件集合的步骤,直至任一目标文件均有所属的文件集合,得到至少一个最终文件集合,确定每一最终文件集合为目标文件子集合。
其中,调整值可以用于控制阈值的增减,相加结果可以是指阈值和预设的调整值相加计算的计算结果。
具体地,在本实施例中,调整值可以设置为-0.1,也即阈值调整过程中阈值是逐渐减小的,此时,实施者应当设置一个较大的初始阈值,例如50。
在一个具体的实施方式中,根据所有目标文件对应的参考访问频率,确定出至少一个目标文件子集合,包括;
获取每一目标文件对应的尺寸变化向量,根据所有目标文件对应的参考访问频率和尺寸变化向量,确定出至少一个目标文件子集合;
相应地,根据聚类半径和所有目标文件对应的参考访问频率,对所有目标文件进行聚类处理,得到至少一个文件集合包括:
根据聚类半径、所有目标文件对应的参考访问频率和尺寸变化向量,对所有目标文件进行聚类处理,得到至少一个文件集合。
其中,尺寸变化向量可以是指在至少两个预设时间点下目标文件对应的文件尺寸。
具体地,为了便于后续处理,相邻预设时间点之间的时间间隔可以设置为相同的,实施者可以直接将参考文件在历史时间段内的尺寸变化向量作为目标文件的尺寸变化向量。
通常情况下一个功能完备的文件存储系统应当能够支持文件的修改,在该情况下,目标文件也会随着文件修改存在文件尺寸的变化,例如存储的文件为在创作的文学作品,则该文件的文件尺寸会逐步增大,在目标文件的文件尺寸会出现变化的条件下,若目标文件合并后的文件出现文件尺寸增大或者减小,均会使得磁带的存储能力降低。
本实施例中,以尺寸变化向量作为聚类过程的额外监督,也即在任一目标文件均有所属的文件集合的聚类条件的基础上,额外添加新的聚类条件,该聚类条件为,计算任一文件集合中所有目标文件的尺寸变化向量之和,得到求和向量,该求和向量所包含的所有元素的方差应当小于预设的方差阈值,在本实施例中,方差阈值可以设置为2500,需要说明的是,该求和向量所包含元素的取值以千字节为单位,但方差计算过程不考虑量纲。
本实施例中,通过尺寸变化向量构建额外的聚类监督条件,使得单个文件集合中所有目标文件的文件尺寸之和在各个预设时间点在都尽可能维持稳定,从而能够确保基于目标文件子集合进行文件合并时,所合并得到的大文件的尺寸尽可能不出现变动,从而维持磁带的较高存储能力。
在一个具体的实施方式中,获取每一目标文件对应的尺寸变化向量,包括:
针对任一目标文件,提取目标文件的第一关键词向量;
提取目标文件对应参考文件的第二关键词向量;
获取目标文件的当前文件尺寸,根据第一关键词向量、第二关键词向量和当前文件尺寸,使用时间卷积网络模型进行预测,得到目标文件对应的尺寸变化向量。
其中,第一关键词向量可以是指目标文件所包含的关键词对应的词嵌入向量,第二关键词向量可以是指参考文件所包含的关键词对应的词嵌入向量,时间卷积网络模型可以用于进行文件尺寸的预测,当前文件尺寸可以是指在预测开始时目标文件的文件尺寸大小。
具体地,本实施例的先验条件为文件尺寸的修改情况与文件的内容信息相关,第一关键词向量和第二关键词向量分别可以表征目标文件和参考文件的内容信息。、
时间卷积网络模型的输入为第一关键词向量、第二关键词向量和当前文件尺寸,第一关键词向量、第二关键词向量可以通过尺寸归一化来保持尺寸一致,当前文件尺寸可以通过复制的方式形成与归一化后的关键词向量行数或者列数相同的向量形式,则第一关键词向量、第二关键词向量和当前文件尺寸可以拼接为单个向量作为输入。
时间卷积网络模型的基本架构可以为编码器和全连接层,编码器可以用于提取输入向量的特征信息,全连接层可以用于将特征信息映射为输出量。
在一个具体的实施方式中,根据第一关键词向量、第二关键词向量和当前文件尺寸,使用时间卷积网络模型进行预测,得到目标文件对应的尺寸变化向量,包括:
初始化预测次数为一,以当前文件尺寸作为输入文件尺寸,将第一关键词向量、第二关键词向量和输入文件尺寸输入时间卷积网络模型中,输出对应预测次数的预测文件尺寸;
以预测文件尺寸更新输入文件尺寸,将预测次数增加一,返回执行将第一关键词向量、第二关键词向量和输入文件尺寸输入时间卷积网络模型中,输出对应预测次数的预测文件尺寸的步骤,直至预测次数与预设的次数阈值相同,停止迭代,得到满足次数阈值的预测文件尺寸;
将所有预测文件尺寸拼接,得到尺寸变化向量。
其中,预测次数可以是指当前预测过程的轮次,一预测次数可以对应一预设时间点,输入文件尺寸可以是指当前预测次数下输入至时间卷积网络模型中的文件尺寸,预测文件尺寸可以是指预测次数对应预设时间点之后的下一预设时间点下,对目标文件的文件尺寸的预测结果,次数阈值可以用于判断预测文件尺寸的数量是否满足预设值,次数阈值可以设置为15,预设时间点之间的间隔设置为固定值,例如可以设置为1天。
具体地,时间卷积网络模型的每次预测的输入量,仅有输入文件尺寸出现变化,第一关键词向量、第二关键词向量可以视作为文件尺寸预测提供的额外信息。
需要说明的是,时间卷积网络模型是经过训练的,训练过程分为两轮,第一轮训练仅采用单个历史文件进行关键词向量提取,将提取结果作为第一关键词向量对应的第一样本向量,此时第二样本向量设置为与第一样本向量尺寸一致的零向量,由于历史文件的尺寸变化向量是已知的,因此可以直接作为标签数据,训练完成后,时间卷积网络模型即可学习到作为第一轮训练样本的历史文件的第一样本向量与其尺寸变化向量之间的关联,但此时时间卷积网络模型属于过拟合状态,难以泛化至任一文件。
因此再次进行第二轮训练,此时以一个第一轮训练样本的关键词向量作为第二样本向量,以与该第一轮训练样本内容信息近似的历史文件所提取到的关键词向量作为第一样本向量,以与该第一轮训练样本内容信息近似的历史文件对应的尺寸变化向量作为标签数据,训练完成后,时间卷积网络模型能够在已知第一轮训练样本的关键词向量与其尺寸变化向量之间的关联的基础上,进一步学习到第一轮训练样本及与其内容相近的历史文件之间的差异信息,和与第一轮训练样本内容信息近似的历史文件的尺寸变化向量之间的关联,从而能够泛化至任一文件,相应地,在本实施例中,默认每个历史文件均作为时间卷积网络模型的第一轮训练样本进行训练,从而可以对目标文件的尺寸变化向量进行预测。
在训练过程中,时间卷积网络模型仍然采用迭代预测的方式获取到预测的尺寸变化向量,与标签数据通过均方误差损失进行损失计算,从而调整时间卷积网络模型的参数。
本实施例中,通过两轮训练的方式,使得时间卷积网络模型能够泛化至任一文件,从而准确预测出目标文件的尺寸变化向量,进而提高了文件存储的效率。
S40,针对任一目标文件子集合,将目标文件子集合内的所有目标文件合并,得到目标文件子集合对应的存储文件。
其中,存储文件可以视作大文件,也即是由多个目标文件合并成的。
在一个具体的实施方式中,在S40步骤中还包括如下步骤:
S401,针对任一目标文件子集合,为目标文件子集合内的每一目标文件分配索引;
S402,根据目标文件子集合内所有目标文件对应的索引,将目标文件子集合内所有目标文件合并,得到目标文件子集合对应的存储文件。
其中,索引可以用于标记目标文件在存储文件中的位置,以便于目标文件的提取。
本实施例中,通过索引标记的方式,使得在目标文件读取时,可以先定位存储文件,再从存储文件中快速找到目标文件,提高文件读取的效率。
S50,将所有存储文件存储至待存储的磁带中。
其中,待存储的磁带可以是指具有足够存储空间,以能存储至少一个存储文件的磁带,各个存储文件可以存储于单个待存储的磁带中,也可以存储于多个待存储的磁带中,但需要确保单个存储文件被存储于单个待存储的磁带中。
本发明提供了基于磁带的海量小文件的快速归档恢复系统,包括:目标文件集合、历史文件集合、待存储的磁带,处理器和存储有计算机程序的存储器,其中,目标文件集合包括至少一个目标文件,历史文件集合包括至少一个历史文件及其对应的访问频率,当计算机程序被处理器执行时,实现以下步骤:针对任一目标文件,根据目标文件分别和每一历史文件之间的相似度,确定出与目标文件之间的相似度最大的历史文件,作为目标文件对应的参考文件,将参考文件对应的访问频率作为目标文件对应的参考访问频率,根据所有目标文件对应的参考访问频率,确定出至少一个目标文件子集合,目标文件子集合中的所有目标文件对应的参考访问频率中最大值和最小值的差值小于预设的阈值,将阈值和预设的第一权重相乘,确定相乘结果为聚类半径,根据聚类半径和所有目标文件对应的参考访问频率,对所有目标文件进行聚类处理,得到至少一个文件集合,若存在一目标文件未分配至任一文件集合中,则调整阈值,返回执行确定聚类半径的步骤,直至任一目标文件均有所属的文件集合,得到至少一个最终文件集合,确定每一最终文件集合为目标文件子集合,针对任一目标文件子集合,将目标文件子集合内的所有目标文件合并,得到目标文件子集合对应的存储文件,将所有存储文件存储至待存储的磁带中。可知,能够根据文件的相似性确定目标文件的参考文件,进而确定目标文件的参考访问频率,基于访问频率的聚类能够使相近访问频率的目标文件合并,降低并行访问目标文件时读取存储文件的次数,并且降低磁带存储时磁带碎片的产生,从而提高文件存储和访问的效率,实现小文件的快速归档及读写恢复。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明公开的范围由所附权利要求来限定。
Claims (10)
1.一种基于磁带的海量小文件的快速归档恢复系统,其特征在于,所述系统包括:目标文件集合、历史文件集合、待存储的磁带,处理器和存储有计算机程序的存储器,其中,所述目标文件集合包括至少一个目标文件,所述历史文件集合包括至少一个历史文件及其对应的访问频率,当所述计算机程序被处理器执行时,实现以下步骤:
S10,针对任一目标文件,根据所述目标文件分别和每一历史文件之间的相似度,确定出与所述目标文件之间的相似度最大的历史文件,作为所述目标文件对应的参考文件;
S20,将所述参考文件对应的访问频率作为所述目标文件对应的参考访问频率;
S30,根据所有目标文件对应的参考访问频率,确定出至少一个目标文件子集合,所述目标文件子集合中的所有目标文件对应的参考访问频率中最大值和最小值的差值小于预设的阈值,其中,在S30步骤中还包括如下步骤:
S301,将所述阈值和预设的第一权重相乘,确定相乘结果为聚类半径;
S302,根据所述聚类半径和所有目标文件对应的参考访问频率,对所有目标文件进行聚类处理,得到至少一个文件集合;
S303,若存在一目标文件未分配至任一文件集合中,则调整所述阈值,返回执行所述将所述阈值和预设的第一权重相乘,确定相乘结果为聚类半径的步骤,直至任一目标文件均有所属的文件集合,得到至少一个最终文件集合,确定每一最终文件集合为所述目标文件子集合;
S40,针对任一目标文件子集合,将所述目标文件子集合内的所有目标文件合并,得到所述目标文件子集合对应的存储文件;
S50,将所有存储文件存储至所述待存储的磁带中。
2.根据权利要求1所述的基于磁带的海量小文件的快速归档恢复系统,其特征在于,在S10步骤中还包括如下步骤:
S101,获取每一历史文件的历史文件描述信息;
S102,根据历史文件描述信息之间的差异,对所有历史文件进行聚类,得到至少一个历史文件聚类集合;
S103,确定每一历史文件聚类集合的聚类中心为第一文件;
S104,针对任一目标文件,根据所述目标文件分别和每一第一文件之间的相似度,确定出与所述目标文件最相似的第一文件,作为所述目标文件对应的参考文件。
3.根据权利要求2所述的基于磁带的海量小文件的快速归档恢复系统,其特征在于,在S104步骤中还包括如下步骤:
S1041,针对任一目标文件,获取所述目标文件的目标文件描述信息;
S1042,计算所述目标文件描述信息分别和每一第一文件对应的历史文件描述信息之间的相似度,确定相似度最大值对应的第一文件,作为所述目标文件对应的参考文件。
4.根据权利要求3所述的基于磁带的海量小文件的快速归档恢复系统,其特征在于,所述历史文件描述信息至少包括历史文件名称、历史文件校验码;
所述目标文件描述信息至少包括目标文件名称、目标文件校验码。
5.根据权利要求1所述的基于磁带的海量小文件的快速归档恢复系统,其特征在于,在S302步骤中还包括如下步骤:
S3021,统计所有目标文件的数量,得到目标文件数量,根据所述目标文件数量,确定出最小文件数量;
S3202,根据所述最小文件数量、所述聚类半径和所有目标文件对应的参考访问频率,对所有目标文件进行聚类处理,得到至少一个文件集合。
6.根据权利要求1所述的基于磁带的海量小文件的快速归档恢复系统,其特征在于,在S303步骤中还包括如下步骤:
S3031,若存在一目标文件未分配至任一文件集合中,则将所述阈值和预设的调整值相加,得到相加结果;
S3032,确定所述相加结果为调整后的所述阈值;
S3033,返回执行所述确定聚类半径,根据所述聚类半径和所有目标文件对应的参考访问频率,对所有目标文件进行聚类处理,得到至少一个文件集合的步骤,直至任一目标文件均有所属的文件集合,得到至少一个最终文件集合,确定每一最终文件集合为所述目标文件子集合。
7.根据权利要求1所述的基于磁带的海量小文件的快速归档恢复系统,其特征在于,在S40步骤中还包括如下步骤:
S401,针对任一目标文件子集合,为所述目标文件子集合内的每一目标文件分配索引;
S402,根据所述目标文件子集合内所有目标文件对应的索引,将所述目标文件子集合内所有目标文件合并,得到所述目标文件子集合对应的存储文件。
8.根据权利要求1至7任一项所述的基于磁带的海量小文件的快速归档恢复系统,其特征在于,所述根据所有目标文件对应的参考访问频率,确定出至少一个目标文件子集合,包括;
获取每一目标文件对应的尺寸变化向量,根据所有目标文件对应的参考访问频率和尺寸变化向量,确定出至少一个目标文件子集合;
相应地,所述根据所述聚类半径和所有目标文件对应的参考访问频率,对所有目标文件进行聚类处理,得到至少一个文件集合包括:
根据所述聚类半径、所有目标文件对应的参考访问频率和尺寸变化向量,对所有目标文件进行聚类处理,得到至少一个文件集合。
9.根据权利要求8所述的基于磁带的海量小文件的快速归档恢复系统,其特征在于,所述获取每一目标文件对应的尺寸变化向量,包括:
针对任一目标文件,提取所述目标文件的第一关键词向量;
提取所述目标文件对应参考文件的第二关键词向量;
获取所述目标文件的当前文件尺寸,根据所述第一关键词向量、第二关键词向量和所述当前文件尺寸,使用时间卷积网络模型进行预测,得到所述目标文件对应的尺寸变化向量。
10.根据权利要求9所述的基于磁带的海量小文件的快速归档恢复系统,其特征在于,所述根据所述第一关键词向量、第二关键词向量和所述当前文件尺寸,使用时间卷积网络模型进行预测,得到所述目标文件对应的尺寸变化向量,包括:
初始化预测次数为一,以所述当前文件尺寸作为输入文件尺寸,将所述第一关键词向量、第二关键词向量和所述输入文件尺寸输入所述时间卷积网络模型中,输出对应所述预测次数的预测文件尺寸;
以所述预测文件尺寸更新所述输入文件尺寸,将所述预测次数增加一,返回执行所述将所述第一关键词向量、第二关键词向量和所述输入文件尺寸输入所述时间卷积网络模型中,输出对应所述预测次数的预测文件尺寸的步骤,直至所述预测次数与预设的次数阈值相同,停止迭代,得到满足所述次数阈值的预测文件尺寸;
将所有预测文件尺寸拼接,得到所述尺寸变化向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311062506.0A CN117076387B (zh) | 2023-08-22 | 2023-08-22 | 基于磁带的海量小文件的快速归档恢复系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311062506.0A CN117076387B (zh) | 2023-08-22 | 2023-08-22 | 基于磁带的海量小文件的快速归档恢复系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117076387A true CN117076387A (zh) | 2023-11-17 |
CN117076387B CN117076387B (zh) | 2024-03-01 |
Family
ID=88703814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311062506.0A Active CN117076387B (zh) | 2023-08-22 | 2023-08-22 | 基于磁带的海量小文件的快速归档恢复系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117076387B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09231144A (ja) * | 1996-02-28 | 1997-09-05 | Mitsubishi Electric Corp | データファイル管理方法およびデータファイル管理装置 |
US20080059718A1 (en) * | 2006-09-01 | 2008-03-06 | Sachie Tajima | Storage system, data relocation method thereof, and recording medium that records data relocation program |
US20090287751A1 (en) * | 2008-05-16 | 2009-11-19 | International Business Machines Corporation | Method and system for file relocation |
CN108446340A (zh) * | 2018-03-02 | 2018-08-24 | 哈尔滨工业大学(威海) | 一种面向海量小文件的用户热点数据访问预测方法 |
CN110674086A (zh) * | 2019-09-29 | 2020-01-10 | 广州华多网络科技有限公司 | 数据合并方法、装置、电子设备及存储介质 |
CN110968272A (zh) * | 2019-12-16 | 2020-04-07 | 华中科技大学 | 基于时间序列预测的海量小文件存储性能优化方法及系统 |
CN112506875A (zh) * | 2020-12-15 | 2021-03-16 | 科大讯飞股份有限公司 | 文件存储方法、相关装置及文件存储系统 |
US20210133145A1 (en) * | 2019-11-01 | 2021-05-06 | EMC IP Holding Company LLC | Method, electronic device and computer program product for managing file system |
CN113032589A (zh) * | 2021-03-29 | 2021-06-25 | 北京奇艺世纪科技有限公司 | 多媒体文件推荐方法、装置、电子设备及可读存储介质 |
CN113176857A (zh) * | 2021-04-30 | 2021-07-27 | 康键信息技术(深圳)有限公司 | 海量小文件存取优化方法、装置、设备及存储介质 |
WO2021189974A1 (zh) * | 2020-10-21 | 2021-09-30 | 平安科技(深圳)有限公司 | 模型训练方法、文本分类方法、装置、计算机设备和介质 |
CN113779017A (zh) * | 2020-07-30 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 数据资产管理的方法和装置 |
CN115687352A (zh) * | 2022-11-03 | 2023-02-03 | 中国银联股份有限公司 | 一种存储的方法及装置 |
CN115793980A (zh) * | 2022-12-08 | 2023-03-14 | 三星(中国)半导体有限公司 | 数据存储方法和数据存储的装置 |
CN115827571A (zh) * | 2022-12-15 | 2023-03-21 | 中冶建筑研究总院有限公司 | 一种文件管理方法和系统 |
CN115905115A (zh) * | 2021-08-06 | 2023-04-04 | 奇安信科技集团股份有限公司 | 文件存储方法、读取方法及装置、电子设备与存储介质 |
-
2023
- 2023-08-22 CN CN202311062506.0A patent/CN117076387B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09231144A (ja) * | 1996-02-28 | 1997-09-05 | Mitsubishi Electric Corp | データファイル管理方法およびデータファイル管理装置 |
US20080059718A1 (en) * | 2006-09-01 | 2008-03-06 | Sachie Tajima | Storage system, data relocation method thereof, and recording medium that records data relocation program |
US20090287751A1 (en) * | 2008-05-16 | 2009-11-19 | International Business Machines Corporation | Method and system for file relocation |
CN108446340A (zh) * | 2018-03-02 | 2018-08-24 | 哈尔滨工业大学(威海) | 一种面向海量小文件的用户热点数据访问预测方法 |
CN110674086A (zh) * | 2019-09-29 | 2020-01-10 | 广州华多网络科技有限公司 | 数据合并方法、装置、电子设备及存储介质 |
US20210133145A1 (en) * | 2019-11-01 | 2021-05-06 | EMC IP Holding Company LLC | Method, electronic device and computer program product for managing file system |
CN110968272A (zh) * | 2019-12-16 | 2020-04-07 | 华中科技大学 | 基于时间序列预测的海量小文件存储性能优化方法及系统 |
CN113779017A (zh) * | 2020-07-30 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 数据资产管理的方法和装置 |
WO2021189974A1 (zh) * | 2020-10-21 | 2021-09-30 | 平安科技(深圳)有限公司 | 模型训练方法、文本分类方法、装置、计算机设备和介质 |
CN112506875A (zh) * | 2020-12-15 | 2021-03-16 | 科大讯飞股份有限公司 | 文件存储方法、相关装置及文件存储系统 |
CN113032589A (zh) * | 2021-03-29 | 2021-06-25 | 北京奇艺世纪科技有限公司 | 多媒体文件推荐方法、装置、电子设备及可读存储介质 |
CN113176857A (zh) * | 2021-04-30 | 2021-07-27 | 康键信息技术(深圳)有限公司 | 海量小文件存取优化方法、装置、设备及存储介质 |
CN115905115A (zh) * | 2021-08-06 | 2023-04-04 | 奇安信科技集团股份有限公司 | 文件存储方法、读取方法及装置、电子设备与存储介质 |
CN115687352A (zh) * | 2022-11-03 | 2023-02-03 | 中国银联股份有限公司 | 一种存储的方法及装置 |
CN115793980A (zh) * | 2022-12-08 | 2023-03-14 | 三星(中国)半导体有限公司 | 数据存储方法和数据存储的装置 |
CN115827571A (zh) * | 2022-12-15 | 2023-03-21 | 中冶建筑研究总院有限公司 | 一种文件管理方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117076387B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210374610A1 (en) | Efficient duplicate detection for machine learning data sets | |
CN108921221B (zh) | 用户特征的生成方法、装置、设备及存储介质 | |
US20200050968A1 (en) | Interactive interfaces for machine learning model evaluations | |
EP3161635B1 (en) | Machine learning service | |
EP2657884B1 (en) | Identifying multimedia objects based on multimedia fingerprint | |
JP4545641B2 (ja) | 類似画像検索方法,類似画像検索システム,類似画像検索プログラム及び記録媒体 | |
US11204935B2 (en) | Similarity analyses in analytics workflows | |
CN111125658B (zh) | 识别欺诈用户的方法、装置、服务器和存储介质 | |
CN110083834B (zh) | 语义匹配模型训练方法、装置、电子设备及存储介质 | |
CN112070550A (zh) | 基于搜索平台的关键词确定方法、装置、设备及存储介质 | |
CN113821657A (zh) | 基于人工智能的图像处理模型训练方法及图像处理方法 | |
CN110609952A (zh) | 数据采集方法、系统和计算机设备 | |
CN113254673A (zh) | 一种基于知识图谱的数据管理方法、系统、设备和介质 | |
CN110569447B (zh) | 一种网络资源的推荐方法、装置及存储介质 | |
CN117076387B (zh) | 基于磁带的海量小文件的快速归档恢复系统 | |
CN116028626A (zh) | 文本匹配方法、装置、存储介质以及电子设备 | |
CN113157788B (zh) | 大数据挖掘方法及系统 | |
CN115409997A (zh) | 一种数据标注方法、装置、设备及介质 | |
CN113127636B (zh) | 一种文本聚类类簇中心点选取方法及装置 | |
Velivelli et al. | Automatic video annotation by mining speech transcripts | |
CN117331501B (zh) | 一种固态硬盘的数据分析管理方法、设备及系统 | |
CN116431120A (zh) | 行为推荐方法、装置、处理器及电子设备 | |
Assent et al. | Speeding up complex video copy detection queries | |
CN114969305A (zh) | 论文推荐的方法及装置、电子设备、存储介质 | |
CN115687372A (zh) | 题库的更新方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A Fast Archive and Recovery System for Massive Small Files Based on Magnetic Tape Granted publication date: 20240301 Pledgee: Pudong Development Bank of Shanghai Limited by Share Ltd. Beijing branch Pledgor: BEIJING TIANHUA XINGHANG TECHNOLOGY Co.,Ltd. Registration number: Y2024110000246 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |