CN105022753A - 一种数据存储方法及系统 - Google Patents

一种数据存储方法及系统 Download PDF

Info

Publication number
CN105022753A
CN105022753A CN201410176848.XA CN201410176848A CN105022753A CN 105022753 A CN105022753 A CN 105022753A CN 201410176848 A CN201410176848 A CN 201410176848A CN 105022753 A CN105022753 A CN 105022753A
Authority
CN
China
Prior art keywords
data
grade
mobility
migration
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410176848.XA
Other languages
English (en)
Other versions
CN105022753B (zh
Inventor
阿迪夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Inner Mongolia Co Ltd
Original Assignee
China Mobile Group Inner Mongolia Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Inner Mongolia Co Ltd filed Critical China Mobile Group Inner Mongolia Co Ltd
Priority to CN201410176848.XA priority Critical patent/CN105022753B/zh
Publication of CN105022753A publication Critical patent/CN105022753A/zh
Application granted granted Critical
Publication of CN105022753B publication Critical patent/CN105022753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据存储方法,获取数据的特征信息;根据所述数据的特征信息确定所述数据的迁移率;根据所述迁移率确定是否迁移所述数据;本发明同时还公开了一种数据存储系统。

Description

一种数据存储方法及系统
技术领域
本发明涉及数据存储管理技术,尤其涉及一种数据存储方法及系统。
背景技术
分级存储是一种根据数据的重要性、访问频率、保留时间、容量、性能等指标,将数据采取不同的存储方式分别存储在不同性能的存储设备上,从而实现数据客体在存储设备之间的自动迁移的存储管理技术。通过将不经常访问的数据自动移到存储层次较低的存储空间,释放出较高成本的一级本地存储空间给更频繁访问的数据,可以获得更好的性价比。这样,一方面可大大减少非重要性数据在一级本地存储空间中所占用的比例,还可加快整个系统的存储性能。
在实现分级存储过程中,需要对数据进行迁移或备份处理,传统的解决方案主要包括两个大类:一个大类是根据数据的时间特征,自动或人工对历史的数据进行“增量或全量”备份,即从高端存储设备移至低端存储设备中,实现数据的备份或迁移,需要查询访问时,再从低端存储设备恢复到高端存储设备中,或是修改查询链接到低端存储设备,从而完成数据访问;另一个大类是通过人工决策,周期性分析高端存储设备中的数据,找出一些不常用的业务信息,迁移到中端或低端存储设备中,并修改应用访问链接指向,最终提升高端存储设备的空间利用率,节约高端存储空间。
上述第一类方式,在数据迁移时仅考虑数据的时间特性,没有关注数据的其它特征,这样迁移的效果往往不明显,而且自动化的程度低;例如,一个主动销户的用户,其信令数据和销帐记录等数据,按时间规则是最新的,因此,按照第一类方式不会做迁移。但实际情况是这些信息基本没有业务应用访问,或访问频率非常低,而这样的数据占用了很多高端存储空间,影响到了重要数据的访问。
上述第二类方式,在通过人工决策进行数据迁移时,主要根据数据的重要性人工主观决策,但数据众多,这样,工作量巨大,并且简单人工决策,存在以下问题:通常,为了保证业务应用正常使用,决定迁移的数据量非常少,如80%以上当前业务应用未使用数据,都不敢做迁移,怕影响重要业务信息的访问完整性和及时性,进而影响业务系统的稳定性,因此,迁移效果不明显。
另外,不管是上述第一类方式还是第二类方式都存在以下缺点:由于数据迁移策略简单,容易导致由于错误决策而执行的数据迁移,这样的错误将造成原业务系统不能正常使用,或者造成新的存储设备达不到数据的访问和稳定性要求,从而,影响业务系统正常使用。
附图说明
图1为本发明至少一个实施例提供的数据存储方法的流程示意图;
图2为本发明至少一个实施例提供的数据存储系统的结构示意图。
发明内容
有鉴于此,本发明实施例期望提供一种数据存储方法及系统,能够实现数据的快速、有效迁移。
本发明的技术方案是这样实现的:
本发明实施例提供了一种数据存储方法,所述方法包括:
获取数据的特征信息;
根据所述数据的特征信息确定所述数据的迁移率;
根据所述迁移率确定是否迁移所述数据。
上述方案中,所述特征信息,包括:最后查询更新时间X1、使用频次、分区存储方式X4、信息重要程度等级X5、使用效率等级X6、数据量X7、不使用时间X8、不使用周期X9、数据迁移速率X10、迁移影响应用程度等级X11、以及主信息关系;其中,使用频次包括周使用频次X2和天使用频次X3;主信息关系包括三个字段:类别字段X12、关联字段X13、条件字段X14。
上述方案中,所述根据所述数据的特征信息确定所述数据的迁移率P,为:
P=(1-Y1111-Y55+Y66+Y11)*Fuse*m*Fstore+Rkey
其中,Fuse表示使用频次影响系数;m表示时间可行性系数;Fstore表示分区存储方式影响系数;Rkey表示关联表影响系数;Y11为迁移影响应用程度影响系数;Y5为信息重要程度等级影响系数;Y6为使用效率等级影响系数;Y1为最后查询时间影响系数,代表最后查询时间对数据迁移的影响程度;ω11代表迁移影响应用程度等级X11的权值;ω5代表信息重要程度等级X5的权值;ω6代表使用效率等级X6的权值;ω1代表最后查询更新时间X1的权值。
上述方案中,所述Y1通过下式确定:
Y 1 = 1 , if c - X 1 &GreaterEqual; 10 ( c - X 1 ) / 10 , if c - X 1 < 10
其中,c表示当前日期;
所述Y5、Y6以及Y11通过下式确定:
Y5=X5/N;
Y6=X6/M;
Y11=X11/I;
其中,N为总信息重要程度等级,M为总使用效率等级,I为总迁移影响应用程度等级。
上述方案中,所述使用频次影响系数Fuse通过下式确定:
F use = 0.3 if X 2 < 210 or X 3 > 21 0.4 if 21 > = X 3 > 8 0.7 if 7 > = X 3 > 4 1 if else .
上述方案中,所述时间可行性系数m通过下式确定:
m = 0 if X 7 / X 10 + T pre &GreaterEqual; X 9 1 if X 7 / X 10 + T pre < X 9 ,
其中,Tpre为迁移准备时间。
上述方案中,所述分区存储方式影响系数Fstore通过下式确定:
F store = 0.8 if X 4 = 1 / 3 / 4 0.6 if X 4 = 5 / 6 / 2 0.2 if X 4 = 7 / 8 / 9 / 10 .
上述方案中,所述关联表影响系数Rkey通过下式确定:
R key = 1 if X 12 = 2 and X 13 + X 14 &GreaterEqual; 1 0 if else .
上述方案中,所述ω11=40%、ω5=40%、ω6=10%、ω1=10%。
上述方案中,所述方法还包括:预先设置迁移率阈值;
所述根据所述迁移率确定是否迁移所述数据,包括:当迁移率P>迁移率阈值时,迁移所述数据;当迁移率<=迁移率阈值时,不迁移所述数据。
上述方案中,所述根据迁移率确定迁移所述数据时,该方法还包括:根据数据迁移率确定数据预迁移到的目标存储设备等级。
上述方案中,所述根据数据迁移率确定数据预迁移到的目标存储设备等级,包括:
确定数据当前存储设备的等级N1;设数据预迁移到的目标存储设备的等级为N2;通过下式确定所述预迁移到的目标存储设备等级N2:
N 2 = L if N 1 + P &times; L - 1 &GreaterEqual; L INT ( N 1 + P &times; L - 1 ) if N 1 + P &times; L - 1 < L ,
其中,INT()表示取整函数,L表示目标存储设备总等级数。
本发明实施例还提供了一种数据存储系统,所述系统包括:特征信息获取模块、迁移率确定模块以及迁移数据确定模块;其中,
所述特征信息获取模块,用于获取数据的特征信息;所述迁移率确定模块,用于根据所述数据的特征信息确定数据的迁移率;所述迁移数据确定模块,用于根据所述迁移率确定是否迁移所述数据。
上述方案中,所述特征信息,包括:最后查询更新时间X1;使用频次;分区存储方式X4;信息重要程度等级X5;使用效率等级X6;数据量X7;不使用时间X8;不使用周期X9;数据迁移速率X10;迁移影响应用程度等级X11;主信息关系;其中,使用频次包括周使用频次X2和天使用频次X3;主信息关系包括3个字段:类别字段X12、关联字段X13、条件字段X14。
上述方案中,所述迁移率确定模块根据所述数据的特征信息确定数据的迁移率P,为:
P=(1-Y11×ω11-Y5×ω5+Y6×ω6+Y1×ω1)×Fuse×m×Fstore+Rkey
其中,Fuse表示使用频次影响系数;m表示时间可行性系数;Fstore表示分区存储方式影响系数;Rkey表示关联表影响系数;ω11代表迁移影响应用程度等级X11的权值;ω5代表信息重要程度等级X5的权值;ω6代表使用效率等级X6的权值;ω1代表最后查询更新时间X1的权值。
上述方案中,所述系统还包括:设置模块,用于预先设置迁移率阈值;
所述迁移数据确定模块根据所述迁移率确定是否迁移所述数据,包括:判断迁移率是否大于迁移率阈值,当迁移率P>迁移率阈值时,迁移所述数据;当迁移率<=迁移率阈值时,不迁移所述数据。
上述方案中,所述系统进一步包括:迁移处理模块;所述迁移处理模块,用于确定迁移所述数据时,根据数据迁移率确定数据预迁移到的目标存储设备等级,并执行迁移。
上述方案中,所述迁移处理模块根据数据迁移率确定数据预迁移到的目标存储设备等级,包括:确定数据当前存储设备的等级N1;设数据预迁移到的目标存储设备的等级为N2;通过下式确定所述预迁移到的目标存储设备等级N2:
N 2 = L if N 1 + P &times; L - 1 &GreaterEqual; L INT ( N 1 + P &times; L - 1 ) if N 1 + P &times; L - 1 < L ,
其中,INT()表示取整函数,L表示目标存储设备总等级数。
本发明实施例所提供的数据存储方法及系统,获取数据的特征信息;根据所述数据的特征信息确定所述数据的迁移率;根据所述迁移率确定是否迁移所述数据。如此,不只依据数据时间特性或重要性执行数据迁移,而是依据数据特征信息确定数据迁移率后,根据数据迁移率确定是否迁移数据;这样,能大大提高数据迁移的准确性,后续执行的数据迁移处理更加有效,避免错误迁移带来的种种风险。
具体实施方式
在本发明各种实施例中,获取数据的特征信息;根据所述数据的特征信息确定所述数据的迁移率;根据所述迁移率确定是否迁移所述数据。
下面通过附图及具体实施例对本发明做进一步的详细说明。
本发明实施例提供的数据存储方法,如图1所示,该方法包括以下步骤:
步骤101:获取数据的特征信息;
具体的,本发明实施例所述方案可以在例如业务支撑系统上实现,也可以在其他具备数据管理功能的设备,如服务器、PC机等上实现;
下面以业务支撑系统为例,对本发明实施例所述方案进行介绍;
业务支撑系统首先获取自身存储的各数据的特征信息;这些特征信息由业务支撑系统从各数据首次进入该系统开始,自动进行周期性的收集和更新,并记录在相应的数据管理信息表中;对数据的特征信息的采集和记录属于现有技术,这里不再赘述;
具体需要获取的数据的特征信息,如表1所示,包括:最后查询更新时间,设为变量X1;使用频次;分区存储方式,设为变量X4;信息重要程度等级,设为变量X5;使用效率等级,设为变量X6;数据量,设为变量X7;不使用时间,设为变量X8;不使用周期,设为变量X9;数据迁移速率,设为变量X10;迁移影响应用程度等级,设为变量X11;主信息关系;其中,使用频次包括周使用频次和天使用频次,周使用频次设为变量X2,天使用频次设为变量X3;主信息关系包括三个字段:类别字段、关联字段和条件字段,类别字段设为变量X12、关联字段设为变量X13、条件字段设为变量X14;表1为所需获取的数据的特征信息及各个特征信息对应变量的对照表。
表1
下面对表1中各数据的特征信息的含义进行介绍:
1)最后查询更新时间X1:对所述数据的最后一次查询时间;
2)周使用频次X2:所述数据一周内的使用次数,即该数据最近一周合计使用的次数;
3)天使用频次X3:所述数据一天内的使用次数,即该数据最近一天合计使用的次数;
4)分区存储方式X4:指数据所支持的分区存储方式,即该数据是否可按照天、或月、或年、或地域等类型进行分类存储;其中,变量X4的取值与数据分区存储方式的对应关系如表2所示:
分区存储方式
1
2
3
4
小时 5
半天 6
地域 7
其它 8
用户状态 9
品牌 10
表2
5)信息重要程度等级X5:该变量定义了数据的重要性等级,在实际应用中可以按照数据的重要程度将数据划分为1至N的N个等级;其中,N为整数,从1级至N级,数据的重要性等级越来越高,相应的,数据的重要性等级越高,数据越重要;通常N可以在[8,15]中取值;具体的,本发明实施例可以按照数据的重要性将数据划分为1-10的10个等级,也就是N取值为10;从1级至10级,数据的重要性等级越来越高;
6)使用效率等级X6:该变量定义了数据的使用效率等级,在实际应用中可以按照数据的使用效率将数据划分为1至M的M个等级;其中,M为整数,从1级至M级,数据的使用效率越来越高;通常M可以在[5,15]中取值;具体的,本发明实施例可以按照数据的使用效率将数据划分为1-10的10个等级,10级为最高级,对应使用效率最高的数据;
7)数据量X7:表示当前数据的数据量大小,单位为兆比特MB;
8)不使用时间X8:不使用的时间长度,单位为分钟;
9)不使用周期X9:不使用时间的重复周期;
需要说明的是,不使用时间和不使用周期是相关的,例如,某数据的不使用时间设置为21:00-23:00,当不使用周期设置为每周一时,则该数据在每周一的21:00-23:00是不会被使用的;依然以当前不使用时间为例,当不使用周期设置为每月最后一天时,则该数据在每月最后一天的21:00-23:00是不会被使用的;当不使用周期设置为每周周一至周五时,则该数据在每周周一至周五的21:00-23:00是不会被使用的;
10)数据迁移速率X10,表示单位时间1分钟内从源存储设备迁移到目标存储设备的数据量,单位为兆比特/分钟MB/M;
11)迁移影响应用程度等级X11,表示当前数据迁移后,对其他数据使用的影响程度;在实际应用中可以按照数据的迁移影响应用程度等级将数据划分为1至I的I个等级;其中,I为整数,从1级至I级,数据的使用效率越来越高;通常I可以在[8,12]中取值;具体的,本发明实施例中,可以按照影响程度的大小将数据划分1至10的10个等级,其中,10级为最高级,即影响程度最大;
12)类别字段X12的取值范围为{0,1,2};当一个数据的特征信息的类别X12为0时,表示该数据为独立数据,即不与其它数据相关联的数据;当一个数据的特征信息的类别X12为1时,表示该数据为主数据,即关联一个或多个子数据的数据;当一个数据的特征信息的类别X12为2时,表示该数据为子数据,即从属于主数据的数据;
13)关联字段X13,用于表示所述数据关联的主数据是否存在,若存在,则值为1,否则,值为0;
14)条件字段X14,用于表示数据关联的主数据是否已经迁移,若已迁移,值为1,否则值为0;
步骤102:根据所述数据的特征信息确定所述数据的迁移率;
为了确定数据的迁移率,首先,利用因子分析法对上述各特征信息的权值进行分析;确定上述各特征信息的权值,包括以下步骤:
1)随机抽取一百个数据对应的一百张数据表,分别确定所有数据的特征信息;
这里,所述数据表的组成如表1所示;其中的不使用时间、不使用周期用负数表示;
2)将每一个数据的特征信息对应的变量Xi表示为公共因子与特殊因子的线性组合,即Xi=ai1F1+ai2F2+...+aimFmi,(i=1,2,...,14);
其中,Fi和εi分别称为公共因子与特殊因子;在因子分析法中,公共因子表示在各个原观测变量的表达式中都共同出现的因子,是相互独立的不可观测的理论变量;特殊因子,是变量的分量所特有的因子,各特殊因子之间以及特殊因子与所有公共因子之间都是相互独立的;
3)令X=[X1,X2,...,X14],对X进行标准化变换,得到并建立X的相关系数矩阵R;
具体的,相关系数矩阵R为:
4)求R的特征根及相应的特征向量,特征根记为λ1≥λ2≥...≥λ14,λi代表R的特征根;特征向量记为U=(μ12,...,μ14),其中μi代表R的特征向量;
5)由累积方差贡献率确定公共因子的个数m,计算初始因子载荷矩阵A;
具体的, A = ( a ij ) = ( &lambda; 1 &mu; 1 , &lambda; 2 &mu; 2 , . . . , &lambda; m &mu; m ) ;
6)观察因子载荷矩阵A来命名公共因子,当每个在不同变量上的载荷没有很明显的差别时,对A实施方差最大法正交旋转;
其中,方差最大法从简化因子载荷矩阵的每一列出发,使与每个因子有关的载荷的平方的方差最大;只有少数几个变量在某个因子上有较高的载荷时,对因子的解释最简单;方差最大的直观意义是希望通过因子旋转后,使每个因子上的载荷尽量拉开距离,一部分的载荷趋于1,另一部分趋于0;
7)根据公共因子计算一个数据对应的数据表的总得分,并对得分进行排名;根据公共因子得分公式其中,公共因子的权值其中λi为第i个因子的特征根值,Fi代表公共因子;
根据上述步骤,对超过一百个抽样数据表进行处理之后,确定各特征信息对应的变量的权值,其中X1的权值ω1为10%;X5的权值ω5为40%;X6的权值ω6为10%,X11的权值ω11为40%;其他变量X2-X4、X7-X10、X12-X14的权值均为0;
进一步的,各特征信息的权值确定之后,根据所述数据的特征信息确定所述数据的迁移率P为:
P=(1-Y11×ω11-Y5×ω5+Y6×ω6+Y1×ω1)×Fuse×m×Fstore+Rkey
其中,P表示当前数据的迁移率;Fuse表示使用频次影响系数,代表使用频次对数据迁移的影响程度;m表示时间可行性系数,用于反映一个数据迁移时,在时间上的可行程度;Fstore表示分区存储方式影响系数,代表分区存储方式对数据迁移的影响程度;Rkey表示关联表影响系数,代表主信息关系对数据迁移的影响程度;Y11为迁移影响应用程度影响系数,代表迁移影响应用程度对数据迁移的影响程度;Y5为信息重要程度等级影响系数,代表信息重要程度等级对数据迁移的影响程度;Y6为使用效率等级影响系数,代表使用效率对数据迁移的影响程度;Y1为最后查询时间影响系数,代表最后查询时间对数据迁移的影响程度;ω11代表迁移影响应用程度等级X11的权值;ω5代表信息重要程度等级X5的权值;ω6代表使用效率等级X6的权值;ω1代表最后查询更新时间X1的权值;
下面对上述迁移率P的计算公式中各参数的确定方法进行介绍:
随机抽取150张确定为迁移的数据表和150张确定不迁移的数据表,去掉异常数据表后,对所述数据表进行分析,确定不同条件下,数据表的迁移比例,从而得出以下结论:
1)当当前日期减去最后查询时间X1大于或等于10时,说明当前数据表的使用频率非常低,因此当前数据表的迁移率最高,这时,Y1取值为1,当当前日期减去最后查询时间X1小于10时,Y1的取值与当前日期和最后查询时间的差值有关;具体的,
Y 1 = 1 , if c - X 1 &GreaterEqual; 10 ( c - X 1 ) / 10 , if c - X 1 < 10 ,
其中,c表示当前日期;X1为最后查询时间;
另外,由于信息重要程度等级X5被划分为N个等级,因此Y5=X5/N;使用效率X6被划分为M个等级,因此Y6=X6/M;迁移影响应用程度等级X11被划分为I个等级,因此Y11=X11/I;
2)当数据信息的天访问频次在3.5次及以下时,迁移率为100.00%;当数据信息的天访问频次在3.5次或8之间时,迁移率为70.77%;当数据信息的天访问频次在8次和21之间时,迁移率为40.00%;当数据信息的天访问频次在大于21次,或周访问频次大于210次时,迁移率在32.07%;
根据上述规则取近似值,并保留一位小数后,可以得到:
使用频次影响系数Fuse通过下式确定:
F use = 0.3 if X 2 < 210 or X 3 > 21 0.4 if 21 > = X 3 > 8 0.7 if 7 > = X 3 > 4 1 if else ,
其中,X2为周使用频次,X3为天使用频次;
3)当数据迁移时间和迁移准备时间的总和大于或等于数据的不使用周期时,不建议迁移,因此,m=0;当数据迁移时间和迁移准备时间的总和小于数据的不使用周期时,建议迁移,因此,m=1;
具体的,时间可行性系数m通过下式确定:
m = 0 if X 7 / X 10 + T pre &GreaterEqual; X 9 1 if X 7 / X 10 + T pre < X 9 ,
其中,X7为单个信息的数据总量,单位为MB;X9为不使用周期;X10为数据的迁移速率,即在1分钟内从源存储设备迁移到目标存储设备的数据量,单位为M;Tpre为迁移准备时间,包括数据单次迁移到目标存储设备的准备时间(如建立目标表、索引等)、源存储设备的准备时间以及传输准备的时间总和,在没有特别说明的情况下,单个数据表的Tpre取30分钟;
4)当数据信息的分区存储方式为{天、月、年}时,迁移率为76.47.%;当数据信息的分区存储方式为{小时、半天、季}时,迁移率为55.06%;当数据信息的分区存储方式为{地域、品牌、用户状态、其它}时,迁移率为20.72%;对所述建议迁移率近似取一位小数后,分区存储方式影响系数Fstore可以通过下式确定:
F store = 0.8 if X 4 = 1 / 3 / 4 0.6 if X 4 = 5 / 6 / 2 0.2 if X 4 = 7 / 8 / 9 / 10 ,
其中,X4表示数据支持的分区存储方式,当数据支持按天、或月、或年分类存储时;Fstore=0.8,当数据支持按小时或者半天分类存储时,Fstore=0.6;当数据支持按地域、或类别、或其他存储方式存储时,Fstore=0.2;
5)主信息关系与关联表影响系数Rkey之间的关系主要包括:当数据为子数据且该子数据的主数据存在和/或主数据已经迁移时,数据的迁移率为100%;除此之外,其它情况时,数据迁移率最小,为0;
具体的,所述关联表影响系数Rkey通过下式确定:
R key = 1 if X 12 = 2 and X 13 + X 14 &GreaterEqual; 1 0 if else ,
其中,当所述数据为独立数据时,X12取值为0;当所述数据为主数据时,X12取值为1;当所述数据为子数据时,X12取值为2;
X13表示所述数据关联的主数据是否存在,若存在,值为1,否则,值为0;
X14表示数据关联的主数据是否已经迁移,若已迁移,值为1,否则值为0;
步骤103:根据所述迁移率确定是否迁移所述数据;
具体的,当迁移率P>迁移率阈值时,迁移所述数据;当迁移率<=迁移率阈值时,不迁移所述数据;
相应的,所述方法还包括:根据实际需要预先设置迁移率阈值,所述迁移率阈值可设置的范围为[0.4,0.9],优选的,可以设置为0.5;
进一步的,本发明实施例提供的数据存储方法还包括:确定迁移所述数据时,根据数据迁移率确定数据预迁移到的目标存储设备等级;
具体的,在这一步骤之前,首先根据实际需要将目标存储设备划分为1至L共L个等级,1级为最高级,1级存储设备的性能相对最好、存取速度最快;相应的从1级至L级,存储设备的性能呈下降趋势;
具体的,根据数据迁移率确定数据预迁移到的目标存储设备等级,包括:确定数据当前存储设备的等级N1,假设数据预迁移到的目标存储设备的等级为N2,则通过下式确定所述预迁移到的目标存储设备等级N2:
N 2 = L if N 1 + P &times; L - 1 &GreaterEqual; L INT ( N 1 + P &times; L - 1 ) if N 1 + P &times; L - 1 < L ,
其中,INT()表示取整函数。
下面以2013年4月30日的语音详单:CDR_CALL_20130430为例,对本发明实施例所述方法进行介绍:
所述语音详单的特征信息如表3所示:
表3
这一示例中,信息重要程度等级X5、使用效率X6以及迁移影响应用程度等级X11均根据实际需要,被划分为1-10的10个等级,下面通过本发明实施例提供的迁移率计算公式计算所述语音详单的迁移率P:
P=(1-Y11×ω11-Y5×ω5+Y6×ω6+Y1×ω1)×Fuse×m×Fstore+Rkey=(1-2/10×40%-3/10×40%+y1×10%)×Fuse×m×Fstore+Rkey
其中:
( 1 ) - - - Y 1 = 1 , if c - X 1 &GreaterEqual; 10 ( c - X 1 ) / 10 , if c - X 1 < 10 ,
由于,(当前日期-2013.09.10)>10天
因此,Y1=1;
( 2 ) - - - F use = 0.3 if X 2 < 210 or X 3 > 21 0.4 if 21 > = X 3 > 8 0.7 if 7 > = X 3 > 4 1 if else ,
由于,周使用频次X2=0;天使用频次X3=0
由上公式,可得:Fuse=1
( 3 ) - - - m = 0 if X 7 / X 10 + T pre &GreaterEqual; X 9 1 if X 7 / X 10 + T pre < X 9 ,
由于:X7=90G=90×1024MB;X9=150MB/秒=150×60=9000MB/分钟;Tpre=晚上12点到第二天8点=8小时=8×60分钟=480分钟;Tpre=默认值=30分钟;
由上公式,可得,
90×1024/9000+30=40.24分钟<480分钟,
因此,P=1;
( 4 ) - - - F store = 0.8 if X 4 = 1 / 3 / 4 0.6 if X 4 = 5 / 6 / 2 0.2 if X 4 = 7 / 8 / 9 / 10 ,
由于X4=1,因此,Fstore=0.8;
( 5 ) - - - R key = 1 if X 12 = 2 and X 13 + X 14 &GreaterEqual; 1 0 if else ,
由于X12=0,因此,Rkey=0;
最终迁移率结果为:
P=(1-Y11×ω11-Y5×ω5+Y6×ω6+Y1×ω1)×Fuse×m×Fstore+Rkey=(1-2/10×40%-3/10×40%+1×10%)×Fuse×m×Fstore+Rkey=(1-0.08-0.12+0.1)×1×1×1+0=0.9
此时,迁移率P为0.9,大于预先设置的迁移率阈值0.5,满足迁移条件,可以进行迁移;
进一步的,事先确定该语音详单当前存储设备等级N1=3,目标存储设备的总等级数设为5,可以接下来确定该语音详单预迁移到的存储设备等级N2,则:
N 2 = 5 if N 1 + P &times; 5 - 1 &GreaterEqual; 5 INT ( N 1 + P &times; 5 - 1 ) if N 1 + P &times; 5 - 1 < 5 ,
由于N1+P×5-1=3+0.45-1=2.45<5,N2=INT(N1+P×5-1)=2,则可确定将该语音详单迁移至等级为2的存储设备中。
本发明实施例还提供了一种数据存储系统,该系统的结构示意图如图2所示,所述系统包括:特征信息获取模块21、迁移率确定模块22以及迁移数据确定模块23;其中,
所述特征信息获取模块21,用于获取数据的特征信息;
所述迁移率确定模块22,用于根据所述数据的特征信息确定数据的迁移率;
所述迁移数据确定模块23,用于根据所述迁移率确定是否迁移所述数据;
具体的,所述特征信息包括:最后查询更新时间,设为变量X1;使用频次;分区存储方式,设为变量X4;信息重要程度等级,设为变量X5;使用效率等级,设为变量X6;数据量,设为变量X7;不使用时间,设为变量X8;不使用周期,设为变量X9;数据迁移速率,设为变量X10;迁移影响应用程度等级,设为变量X11;主信息关系;其中,使用频次包括周使用频次和天使用频次,周使用频次设为变量X2,天使用频次设为变量X3;主信息关系包括三个字段:类别字段、关联字段和条件字段,类别字段设为变量X12、关联字段设为变量X13、条件字段设为变量X14;
相应的,所述迁移率确定模块22,用于根据所述数据的特征信息确定数据的迁移率P,为:
P=(1-Y11×ω11-Y5×ω5+Y6×ω6+Y1×ω1)×Fuse×m×Fstore+Rkey
其中,P表示当前数据的迁移率;Fuse表示使用频次影响系数,代表使用频次对数据迁移的影响程度;m表示时间可行性系数,用于反映一个数据迁移时,在时间上的可行程度;Fstore表示分区存储方式影响系数,代表分区存储方式对数据迁移的影响程度;Rkey表示关联表影响系数,代表主信息关系对数据迁移的影响程度;Y11为迁移影响应用程度影响系数,代表迁移影响应用程度对数据迁移的影响程度;Y5为信息重要程度等级影响系数,代表信息重要程度等级对数据迁移的影响程度;Y6为使用效率等级影响系数,代表使用效率对数据迁移的影响程度;Y1为最后查询时间影响系数,代表最后查询时间对数据迁移的影响程度;ω11代表迁移影响应用程度等级X11的权值、ω5代表信息重要程度等级X5的权值、ω6代表使用效率等级X6的权值、ω1代表最后查询更新时间X1的权值;
具体的,
Y 1 = 1 , if c - X 1 &GreaterEqual; 10 ( c - X 1 ) / 10 , if c - X 1 < 10 ,
其中,c表示当前日期;
另外,Y5=X5/N,Y6=X6/M,Y11=X11/I;其中,N为总信息重要程度等级,M为总使用效率等级,I为总迁移影响应用程度等级;
具体的,使用频次影响系数Fuse通过下式确定:
F use = 0.3 if X 2 < 210 or X 3 > 21 0.4 if 21 > = X 3 > 8 0.7 if 7 > = X 3 > 4 1 if else ,
具体的,时间可行性系数p通过下式确定:
m = 0 if X 7 / X 10 + T pre &GreaterEqual; X 9 1 if X 7 / X 10 + T pre < X 9 ,
其中,X7为单个信息的数据量,单位为MB;X9为不使用周期;X10为数据的迁移速率,即在1分钟内从源存储设备迁移到目标存储设备的数据量,单位为MB/S;Tpre为迁移准备时间,包括数据单次迁移到目标存储设备的准备时间(如建立目标表、索引等)、源存储设备的准备时间以及传输准备的时间总和,在没有特别说明的情况下,单个数据表的Tpre取30分钟;
具体的,Fstore通过下式确定:
F store = 0.8 if X 4 = 1 / 3 / 4 0.6 if X 4 = 5 / 6 / 2 0.2 if X 4 = 7 / 8 / 9 / 10 ,
其中,X4表示数据支持的分区存储方式,当数据支持按天、或月、或年分类存储时;Fstore=0.8,当数据支持按小时或者半天分类存储时,Fstore=0.6;当数据支持按地域、或类别、或其他存储方式存储时,Fstore=0.2。
具体的,关联表影响系数Rkey通过下式确定:
R key = 1 if X 12 = 2 and X 13 + X 14 &GreaterEqual; 1 0 if else ,
其中,当所述数据为独立数据时,X12取值为0;当所述数据为主数据时,X12取值为1;当所述数据为子数据时,X12取值为2;
X13表示所述数据关联的主数据是否存在,若存在,值为1,否则,值为0;
X14表示数据关联的主数据是否已经迁移,若已迁移,值为1,否则值为0;
具体的,在上述数据的迁移率的确定公式中,ω11=40%、ω5=40%、ω6=10%、ω1=10%。
所述数据存储系统还包括:设置模块25,用于预先设置迁移率阈值;所述迁移率阈值可以根据实际需要进行设置,可设置的范围为[0.4,0.9],优选的,可以设置为0.5;
相应的,所述迁移数据确定模块24根据所述迁移率确定是否迁移所述数据,包括:判断迁移率是否大于迁移率阈值,当迁移率P>0迁移率阈值时,迁移所述数据;当迁移率<=迁移率阈值时,不迁移所述数据;
进一步的,所述数据存储系统还包括:迁移处理模块24,用于确定迁移所述数据时,根据数据迁移率确定数据预迁移到的目标存储设备等级,并执行迁移;
具体的,所述迁移处理模块25根据数据迁移率确定数据预迁移到的目标存储设备等级,包括:
确定数据当前存储设备的等级N1,假设数据预迁移到的目标存储设备的等级为N2,则确定所述预迁移到的目标存储设备等级N2为:
N 2 = L if N 1 + P &times; L - 1 &GreaterEqual; L INT ( N 1 + P &times; L - 1 ) if N 1 + P &times; L - 1 < L ,
其中,INT()表示取整函数,L表示目标存储设备总等级数。
在实际应用中,本发明实施例中的特征信息获取模块21、迁移率确定模块22、迁移数据确定模块23、设置模块24以及迁移处理模块25可位于业务支撑系统、或其它具备数据管理功能的服务器或者PC机上,由中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)实现。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (18)

1.一种数据存储方法,其特征在于,所述方法包括:
获取数据的特征信息;
根据所述数据的特征信息确定所述数据的迁移率;
根据所述迁移率确定是否迁移所述数据。
2.根据权利要求1所述的方法,其特征在于,所述特征信息,包括:最后查询更新时间X1、使用频次、分区存储方式X4、信息重要程度等级X5、使用效率等级X6、数据量X7、不使用时间X8、不使用周期X9、数据迁移速率X10、迁移影响应用程度等级X11、以及主信息关系;其中,使用频次包括周使用频次X2和天使用频次X3;主信息关系包括三个字段:类别字段X12、关联字段X13、条件字段X14。
3.根据权利要求2所述的方法,其特征在于,所述根据所述数据的特征信息确定所述数据的迁移率P,为:
P=(1-Y1111-Y55+Y66+Y11)*Fuse*m*Fstore+Rkey
其中,Fuse表示使用频次影响系数;m表示时间可行性系数;Fstore表示分区存储方式影响系数;Rkey表示关联表影响系数;Y11为迁移影响应用程度影响系数;Y5为信息重要程度等级影响系数;Y6为使用效率等级影响系数;Y1为最后查询时间影响系数,代表最后查询时间对数据迁移的影响程度;ω11代表迁移影响应用程度等级X11的权值;ω5代表信息重要程度等级X5的权值;ω6代表使用效率等级X6的权值;ω1代表最后查询更新时间X1的权值。
4.根据权利要求3所述的方法,其特征在于,所述Y1通过下式确定:
Y 1 = 1 , if c - X 1 &GreaterEqual; 10 ( c - X 1 ) / 10 , if c - X 1 < 10
其中,c表示当前日期;
所述Y5、Y6以及Y11通过下式确定:
Y5=X5/N;
Y6=X6/M;
Y11=X11/I;
其中,N为总信息重要程度等级,M为总使用效率等级,I为总迁移影响应用程度等级。
5.根据权利要求3所述的方法,其特征在于,所述使用频次影响系数Fuse通过下式确定:
F use = 0.3 if X 2 < 210 or X 3 > 21 0.4 if 21 > = X 3 > 8 0.7 if 7 > = X 3 > 4 1 if else .
6.根据权利要求3所述的方法,其特征在于,所述时间可行性系数m通过下式确定:
m = 0 if X 7 / X 10 + T pre &GreaterEqual; X 9 1 if X 7 / X 10 + T pre < X 9 ,
其中,Tpre为迁移准备时间。
7.根据权利要求3所述的方法,其特征在于,所述分区存储方式影响系数Fstore通过下式确定:
F store = 0.8 if X 4 = 1 / 3 / 4 0.6 if X 4 = 5 / 6 / 2 0.2 if X 4 = 7 / 8 / 9 / 10 .
8.根据权利要求3所述的方法,其特征在于,所述关联表影响系数Rkey通过下式确定:
R key = 1 if X 12 = 2 and X 13 + X 14 &GreaterEqual; 1 0 if else .
9.根据权利要求3所述的方法,其特征在于,所述ω11=40%、ω5=40%、ω6=10%、ω1=10%。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:预先设置迁移率阈值;
所述根据所述迁移率确定是否迁移所述数据,包括:当迁移率P>迁移率阈值时,迁移所述数据;当迁移率<=迁移率阈值时,不迁移所述数据。
11.根据权利要求10所述的方法,其特征在于,所述根据迁移率确定迁移所述数据时,该方法还包括:根据数据迁移率确定数据预迁移到的目标存储设备等级。
12.根据权利要求11所述的方法,其特征在于,所述根据数据迁移率确定数据预迁移到的目标存储设备等级,包括:
确定数据当前存储设备的等级N1;设数据预迁移到的目标存储设备的等级为N2;通过下式确定所述预迁移到的目标存储设备等级N2:
N 2 = L if N 1 + P &times; L - 1 &GreaterEqual; L INT ( N 1 + P &times; L - 1 ) if N 1 + P &times; L - 1 < L ,
其中,INT()表示取整函数,L表示目标存储设备总等级数。
13.一种数据存储系统,其特征在于,所述系统包括:特征信息获取模块、迁移率确定模块以及迁移数据确定模块;其中,
所述特征信息获取模块,用于获取数据的特征信息;所述迁移率确定模块,用于根据所述数据的特征信息确定数据的迁移率;所述迁移数据确定模块,用于根据所述迁移率确定是否迁移所述数据。
14.根据权利要求13所述的系统,其特征在于,所述特征信息,包括:最后查询更新时间X1;使用频次;分区存储方式X4;信息重要程度等级X5;使用效率等级X6;数据量X7;不使用时间X8;不使用周期X9;数据迁移速率X10;迁移影响应用程度等级X11;主信息关系;其中,使用频次包括周使用频次X2和天使用频次X3;主信息关系包括3个字段:类别字段X12、关联字段X13、条件字段X14。
15.根据权利要求14所述的系统,其特征在于,所述迁移率确定模块根据所述数据的特征信息确定数据的迁移率P,为:
P=(1-Y11×ω11-Y5×ω5+Y6×ω6+Y1×ω1)×Fuse×m×Fstore+Rkey
其中,Fuse表示使用频次影响系数;m表示时间可行性系数;Fstore表示分区存储方式影响系数;Rkey表示关联表影响系数;ω11代表迁移影响应用程度等级X11的权值;ω5代表信息重要程度等级X5的权值;ω6代表使用效率等级X6的权值;ω1代表最后查询更新时间X1的权值。
16.根据权利要求13所述的系统,其特征在于,所述系统还包括:设置模块,用于预先设置迁移率阈值;
所述迁移数据确定模块根据所述迁移率确定是否迁移所述数据,包括:判断迁移率是否大于迁移率阈值,当迁移率P>迁移率阈值时,迁移所述数据;当迁移率<=迁移率阈值时,不迁移所述数据。
17.根据权利要求16所述的系统,其特征在于,所述系统进一步包括:迁移处理模块;所述迁移处理模块,用于确定迁移所述数据时,根据数据迁移率确定数据预迁移到的目标存储设备等级,并执行迁移。
18.根据权利要求17所述的系统,其特征在于,所述迁移处理模块根据数据迁移率确定数据预迁移到的目标存储设备等级,包括:确定数据当前存储设备的等级N1;设数据预迁移到的目标存储设备的等级为N2;通过下式确定所述预迁移到的目标存储设备等级N2:
N 2 = L if N 1 + P &times; L - 1 &GreaterEqual; L INT ( N 1 + P &times; L - 1 ) if N 1 + P &times; L - 1 < L ,
其中,INT()表示取整函数,L表示目标存储设备总等级数。
CN201410176848.XA 2014-04-29 2014-04-29 一种数据存储方法及系统 Active CN105022753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410176848.XA CN105022753B (zh) 2014-04-29 2014-04-29 一种数据存储方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410176848.XA CN105022753B (zh) 2014-04-29 2014-04-29 一种数据存储方法及系统

Publications (2)

Publication Number Publication Date
CN105022753A true CN105022753A (zh) 2015-11-04
CN105022753B CN105022753B (zh) 2018-09-04

Family

ID=54412735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410176848.XA Active CN105022753B (zh) 2014-04-29 2014-04-29 一种数据存储方法及系统

Country Status (1)

Country Link
CN (1) CN105022753B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484330A (zh) * 2016-09-27 2017-03-08 郑州云海信息技术有限公司 一种混合磁盘分层数据优化方法和装置
CN106791043A (zh) * 2016-12-02 2017-05-31 广东欧珀移动通信有限公司 一种数据传输方法及设备
CN108491165A (zh) * 2018-03-27 2018-09-04 中国农业银行股份有限公司 一种用于分级存储的数据迁移方法及系统
CN109766312A (zh) * 2019-01-07 2019-05-17 深圳大学 一种区块链存储方法、系统、装置及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030093439A1 (en) * 2001-11-12 2003-05-15 Kazuhiko Mogi Method and apparatus for relocating data related to database management system
CN1469482A (zh) * 2002-06-18 2004-01-21 ��ʽ���綫֥ 半导体存储器件
CN101034340A (zh) * 2003-03-27 2007-09-12 株式会社日立制作所 数据存储方法和存储数据的系统
CN101201801A (zh) * 2006-12-11 2008-06-18 南京理工大学 视频点播系统的分级存储管理方法
US20130325801A1 (en) * 2012-05-29 2013-12-05 International Business Machines Corporation Application-controlled sub-lun level data migration
CN103500073A (zh) * 2013-10-08 2014-01-08 浪潮(北京)电子信息产业有限公司 一种数据块迁移方法及装置
CN103631729A (zh) * 2013-12-06 2014-03-12 浪潮(北京)电子信息产业有限公司 一种基于块级的分级存储方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030093439A1 (en) * 2001-11-12 2003-05-15 Kazuhiko Mogi Method and apparatus for relocating data related to database management system
CN1469482A (zh) * 2002-06-18 2004-01-21 ��ʽ���綫֥ 半导体存储器件
CN101034340A (zh) * 2003-03-27 2007-09-12 株式会社日立制作所 数据存储方法和存储数据的系统
CN101201801A (zh) * 2006-12-11 2008-06-18 南京理工大学 视频点播系统的分级存储管理方法
US20130325801A1 (en) * 2012-05-29 2013-12-05 International Business Machines Corporation Application-controlled sub-lun level data migration
CN103500073A (zh) * 2013-10-08 2014-01-08 浪潮(北京)电子信息产业有限公司 一种数据块迁移方法及装置
CN103631729A (zh) * 2013-12-06 2014-03-12 浪潮(北京)电子信息产业有限公司 一种基于块级的分级存储方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484330A (zh) * 2016-09-27 2017-03-08 郑州云海信息技术有限公司 一种混合磁盘分层数据优化方法和装置
CN106791043A (zh) * 2016-12-02 2017-05-31 广东欧珀移动通信有限公司 一种数据传输方法及设备
CN108491165A (zh) * 2018-03-27 2018-09-04 中国农业银行股份有限公司 一种用于分级存储的数据迁移方法及系统
CN109766312A (zh) * 2019-01-07 2019-05-17 深圳大学 一种区块链存储方法、系统、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN105022753B (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
CN102646130B (zh) 一种海量历史数据的存储及索引方法
US20200387489A1 (en) Systems and methods for data storage and querying
CN103106152B (zh) 基于层次存储介质的数据调度方法
US20150066937A1 (en) Efficient storage of data allowing for multiple level granularity retrieval
CN105022753A (zh) 一种数据存储方法及系统
CN102158349A (zh) 一种日志管理装置及方法
EP3646187B1 (en) Cost-based garbage collection scheduling in a distributed storage environment
CN105592123A (zh) 存储管理系统、管理装置及方法
CN104951462A (zh) 用于管理数据库的方法和系统
WO2019005404A1 (en) GLOBAL OCCUPANCY AGGREGATOR FOR PLANNING GLOBAL MEMORY SPACE RECOVERY
CN114462722B (zh) 新能源发电功率轻量化高精度云预测系统、方法和装置
CN102143025B (zh) 一种云下载服务质量的预测方法
CN110570246A (zh) 互联网营销系统流量切分方法、系统、设备和介质
CN105653463A (zh) 存储管理系统、管理装置及方法
CN116703132B (zh) 共享车辆动态调度的管理方法、装置及计算机设备
CN113469523A (zh) 柜员排班信息的获取方法、装置、电子设备和存储介质
Lee et al. A big data management system for energy consumption prediction models
CN110891087B (zh) 一种日志传输方法、装置及电子设备和存储介质
CN111915340B (zh) 商户类型的识别方法、装置、设备及存储介质
US11012501B1 (en) System, method, and computer program for performing distributed outsourced computing
CN110597830B (zh) 实时指标生成方法和系统、电子设备及存储介质
JP6012869B2 (ja) 情報管理システム、情報管理装置、情報管理方法、及びプログラム
CN103780426A (zh) 云存储数据的一致性维护方法及云存储系统
US20130325799A1 (en) Automatic replication of ambiguous data based on a point system
CN103685380A (zh) 地理信息数据的分发服务方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant