发明内容
本发明的实施例提供了一种基于磁带的数据归档备份方法和系统,通过在磁带的读写过程中引入控制,预防由于磁带的原因导致的数据损失。
为达到上述目的,采用如下技术方案:
本发明公开了一种基于磁带的数据归档备份方法,包括如下步骤:
从磁带库中读取当前磁带的剩余周期,根据所述剩余周期预测匹配文件的允许访问频率;
根据文件的允许访问频率选取待归档备份文件中的数据文件,将所述数据文件归档备份至磁带机中的当前磁带;
归档备份时,监测当前磁带的状态参数,超过设定阈值则进行提示。
优选的,所述当前磁带的剩余周期由磁带的状态参数和磁带的出厂日期加权计算得出;所述状态参数包括磁带的装卸次数、完全存储次数。
优选的,根据所述剩余周期预测匹配文件的允许访问频率时,通过磁带模型预测当前磁带的剩余周期对应的文件的允许访问频率;所述磁带模型通过对各磁带厂商的测试数据训练得出,用于表示磁带所记录的数据文件的允许访问频率和剩余周期的对应关系。
优选的,所述磁带模型的建立过程包括:
读取各磁带厂商提供的测试参数,提取测试参数中磁带的已读取次数、装卸次数、完全存储次数、可读取总次数和出厂日期;
对各磁带的装卸次数、完全存储次数、已读取次数进行训练,并结合出厂日期进行加权计算,拟合得到的剩余周期与已读取次数的对应关系;
根据磁带的剩余周期与已读取次数的对应关系和磁带的可读取总次数,得到数据文件的允许访问频率和剩余周期的对应关系。
优选的,根据文件的允许访问频率选取待归档备份文件中的数据文件时,提取待归档备份文件中的各数据文件的历史访问记录,选取访问频率与允许访问频率相匹配的对应数据文件进行归档备份,从而使所述数据文件与当前磁带的剩余周期相匹配。
优选的,所述监测当前磁带的状态参数时,监测固定容量的待归档备份文件的读写时间,如果大于单位时间阈值,则进行提示。
本发明还公开了一种基于磁带的数据归档备份系统,包括如下模块:
读取模块,用于从磁带库中读取当前磁带的剩余周期,根据所述剩余周期预测匹配文件的允许访问频率;
归档备份模块,用于根据文件的允许访问频率选取待归档备份文件中的数据文件,将所述数据文件归档备份至磁带机中的当前磁带;
监控模块,用于在归档备份时,监测当前磁带的状态参数,超过设定阈值则进行提示。
优选的,所述当前磁带的剩余周期由磁带的状态参数和磁带的出厂日期加权计算得出;所述状态参数包括磁带的装卸次数、完全存储次数。
优选的,所述读取模块中,通过磁带模型预测当前磁带的剩余周期对应的文件的允许访问频率;所述磁带模型通过对各磁带厂商的测试数据训练得出,用于表示磁带所记录的数据文件的允许访问频率和剩余周期的对应关系。
优选的,所述磁带模型的建立过程包括:
读取各磁带厂商提供的测试参数,提取测试参数中磁带的已读取次数、装卸次数、完全存储次数、可读取总次数和出厂日期;
对各磁带的装卸次数、完全存储次数、已读取次数进行训练,并结合出厂日期进行加权计算,拟合得到的剩余周期与已读取次数的对应关系;
根据磁带的剩余周期与已读取次数的对应关系和磁带的可读取总次数,得到数据文件的允许访问频率和剩余周期的对应关系。
优选的,所述归档备份模块中,提取待归档备份文件中的各数据文件的历史访问记录,选取访问频率与允许访问频率相匹配的对应数据文件进行归档备份,从而使所述数据文件与当前磁带的剩余周期相匹配。
本发明实施例提供的一种基于磁带的数据归档备份方法和系统,通过在磁带的读写过程中引入控制,保存并综合磁带的装卸次数、完全存储次数、数据访问时间等因素,既能均衡使用磁带,又能及时提示更换磁带,预防由于磁带的原因导致的数据损失,适用于归档数据量比较随机,回迁数据频繁等耗费多盘磁带的场景,避免磁带中存储空间的空闲浪费;合理分配存储资源,优化执行顺序,提高存储效率。
具体实施方式
下面结合附图对本发明实施例一种基于磁带的数据归档备份方法和系统进行详细描述。
在媒体领域的磁带库管理中,一般包括管理全台节目资料,对传统模拟磁带和数据流磁带进出库管理,对节目磁带和空白磁带的管理、节目交流、节目购买和信息反馈等工作,为电视台综合业务提供高效、稳定和自动化的管理,从而优化磁带库的工作流程,提高办公效率和管理水平。
通常LTO磁带上的存储数据寿命被引述为30年,不过这个数字是有些变数的,磁带厂商引述的存储寿命年限是基于理想的存储条件:恒温约70华氏度,40%的相对适度。磁带对存储条件非常敏感,相对理想条件较小幅度的偏移就会造成寿命的较大幅度的减少。存储温度上升5度寿命就会开始减低高温,高湿,强光环境会使磁带状况急速恶化。
另外,LTO磁带的寿命是使用磁带的次数,同样,理论数据和实际数据仍然存在差别。“使用”通常用磁带经过磁头的次数来体现。但对于像LTO这样使用缠绕记录路径技术的磁带就会产生特殊的误解。例如,LTO-2和LTO-3,完整读完一盒磁带,带子将会通过磁头64次。因此,一盒额定通过量为一百万次(LTO磁带标准)的磁带可以完整读15625次。
灰尘降低LTO磁带寿命的主要原因,当磁带在驱动器里的时候,磁带门是打开的,很容易让灰尘进入,甚至很少量的灰尘进入磁带内都会让使用次数明显减少。
为了提高磁带的存储效率,本发明公开了一种基于磁带的数据归档备份方法,如图1所示,包括如下步骤:
步骤101:从磁带库中读取当前磁带的剩余周期,根据所述剩余周期预测匹配文件的允许访问频率;
根据磁带库配套的软件提取磁带库中的当前磁带的相关属性后,经计算得到当前磁带对应的剩余周期,当前磁带的剩余周期用于表示磁带所剩余的访问能力,由磁带的状态参数和磁带的出厂日期加权计算得出;磁带的状态参数包括磁带的装卸次数、完全存储次数。
由于磁带的装卸对于磁带的寿命有着明显的影响,装卸(load)次数越多,说明读写的次数越多;另外磁带在磁带机中工作时,磁带门是打开的,读写的次数越多,进入的灰尘也越多,对磁带的寿命影响越大。同理,磁带的完全存储次数也对磁带的寿命有着明显的影响,执行一次完全存储的操作,说明磁带完全地与磁头进行了一次摩擦,增强了一次对于磁带本身的损伤,因此,完全存储次数越多,磁带的寿命越受到影响。
本实施例中,磁带的剩余周期=1/(出厂日期距当前时间的月份+a*完全存储次数+b*装卸次数),其中,a、b分别为该磁带的完全存储次数和装载次数的权重系数,根据经验值和磁带厂商的不同进行设定和调整。
计算得到磁带机中的当前磁带对应的剩余周期后,为了充分利用磁带的存储空间,根据当前磁带的剩余周期,在待归档备份文件中匹配对应允许访问频率的数据文件;数据文件的允许访问频率用于表示被用户访问的频率。根据各数据文件的允许访问频率调用对应匹配的磁带,从而将各数据文件归档备份至对应的磁带上;即将较不常用(上一次访问时间最久)的数据文件放到剩余周期较短的磁带上,而较常用的数据文件放到剩余周期较长的磁带上,从而提高了各磁带的综合利用率。
本实施例中,通过预设的磁带模型预测当前磁带的剩余周期对应的文件的允许访问频率;即通过对各磁带厂商的测试数据训练,得到某一品牌的磁带模型,磁带模型用于表示该品牌的磁带所记录的数据文件的允许访问频率和剩余周期的对应关系。
建立磁带模型时:
首先,从厂商提供的测试数据库中读取各磁带厂商提供的测试参数,提取测试参数中磁带的已读取次数、装卸次数、完全存储次数、可读取总次数和出厂日期;
采用SVM训练方法对各磁带的装卸次数、完全存储次数、已读取次数进行训练,并结合出厂日期进行加权计算,拟合得到的剩余周期与已读取次数的对应关系;
根据磁带的剩余周期与已读取次数的对应关系和从说明书、用户手册中提取得到的当前磁带的可读取总次数,得到数据文件的允许访问频率和剩余周期的对应关系。其中,允许访问频率=(可读取总次数-已读取次数)/剩余周期。
步骤102:根据文件的允许访问频率选取待归档备份文件中的数据文件,将所述数据文件归档备份至磁带机中的当前磁带;
对待归档备份文件中的各数据文件进行统一遍历,分析各数据文件的操作日志,提取各数据文件被查看的次数和建立时间,得到各数据文件的历史访问频率;将得到的历史访问频率预测为当前磁带的剩余周期对应的文件的允许访问频率,并在磁带模型中进行匹配,得到对应剩余周期的磁带作为当前磁带加载到磁带机中,从而使所述数据文件与当前磁带的剩余周期相匹配。
步骤103:归档备份时,监测当前磁带的状态参数,超过设定阈值则进行提示。
由于磁带本身是一种易损介质,在正在利用磁带进行读写时,不可避免地会出现磁带突然损坏或者已归档备份完毕的磁带达到使用寿命后损坏的情形,这样就会造成数据文件的丢失,会给用户造成难以挽回的损失。因此,在使用磁带归档备份的过程中对磁带不断进行监测,监测磁带工作时的状态参数,防止使用即将损坏的磁带进行数据归档备份,才能保证数据文件的安全性。
磁带的完全存储次数是一个重要的状态参数,由于磁带上存在若干磁道,磁带机的磁头每次只能读写一簇磁道,整盘磁带需要完全运转多次才能完成一次完全存储过程,也就是说,磁带完全存储一次需要磁带之间发生长时间的摩擦,大大损耗了磁带的寿命,因此,对磁带的完全存储次数进行监测,能够较好地监测磁带的使用寿命。在磁带机归档备份的过程中,对于磁带的完全存储次数达到预先设定的值,如说明书中的完全存储次数的90%,则及时提示用户倒出数据、更换磁带,从而保证数据的安全。
同理,磁带的装卸次数也是一个重要的状态参数,由于磁带需要磁带机上的机械手臂进行装卸,在装卸的过程中,不可避免会对磁带产生振动,磁头对磁带的读写、磁带在转动时磁带之间都会产生摩擦,从而降低磁带的使用寿命。因此,对磁带的装卸次数进行监测,也能够较好地监测磁带的使用寿命。在磁带机归档备份的过程中,对于装卸次数达到预先设定的值,即说明书中的最大装卸次数的80%,则及时提示用户倒出数据、更换磁带,保证数据的安全。
同样的,磁带机磁带在进行数据写入时,通常用两个磁头进行工作,一个磁头进行数据写入,另一个磁头负责写入数据的校验,一旦由于磁带本身老化等原因造成数据写入发生错误,校验写入数据的磁头就会检测到错误数据,则倒转磁带重新进行该部分数据写入,即会增加磁带的写入时间。因此,对固定容量的待归档备份数据对应的读写时间进行监测,能够反映出数据写入错误的情况,从而估计磁带的使用寿命。在磁带机归档备份的过程中,监测固定容量的待归档备份文件的归档备份时间,如果大于单位时间阈值,即单位数据容量(如1G)对应的写入时间的120%,则进行提示,表示当前磁带很可能在数据写入时发生了较多次数的写入错误,寿命快到期了,提示用户倒出数据、更换磁带,保证数据的安全。
本发明还公开了一种基于磁带的数据归档备份系统,如图2所示,包括如下模块:
读取模块201,用于从磁带库中读取当前磁带的剩余周期,根据所述剩余周期预测匹配文件的允许访问频率;
归档备份模块202,用于根据文件的允许访问频率选取待归档备份文件中的数据文件,将所述数据文件归档备份至磁带机中的当前磁带;
监控模块203,用于在归档备份时,监测当前磁带的状态参数,超过设定阈值则进行提示。
优选的,所述当前磁带的剩余周期由磁带的状态参数和磁带的出厂日期加权计算得出;所述状态参数包括磁带的装卸次数、完全存储次数。
优选的,所述读取模块中,通过磁带模型预测当前磁带的剩余周期对应的文件的允许访问频率;所述磁带模型通过对各磁带厂商的测试数据训练得出,用于表示磁带所记录的数据文件的允许访问频率和剩余周期的对应关系。
优选的,所述磁带模型的建立过程包括:
读取各磁带厂商提供的测试参数,提取测试参数中磁带的已读取次数、装卸次数、完全存储次数、可读取总次数和出厂日期;
对各磁带的装卸次数、完全存储次数、已读取次数进行训练,并结合出厂日期进行加权计算,拟合得到的剩余周期与已读取次数的对应关系;
根据磁带的剩余周期与已读取次数的对应关系和磁带的可读取总次数,得到数据文件的允许访问频率和剩余周期的对应关系。
优选的,所述归档备份模块中,提取待归档备份文件中的各数据文件的历史访问记录,选取访问频率与允许访问频率相匹配的对应数据文件进行归档备份,从而使所述数据文件与当前磁带的剩余周期相匹配,从而提高当前磁带的综合利用率。
本发明实施例提供的一种基于磁带的数据归档备份方法和系统,通过在磁带的读写过程中引入控制,保存并综合磁带的装卸次数、完全存储次数、数据访问时间等因素,既能均衡使用磁带,又能及时提示更换磁带,预防由于磁带的原因导致的数据损失,适用于归档数据量比较随机,回迁数据频繁等耗费多盘磁带的场景,避免磁带中存储空间的空闲浪费。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。