CN103853500A - 一种基于海量数据的数据分配方法、装置及系统 - Google Patents

一种基于海量数据的数据分配方法、装置及系统 Download PDF

Info

Publication number
CN103853500A
CN103853500A CN201210523636.5A CN201210523636A CN103853500A CN 103853500 A CN103853500 A CN 103853500A CN 201210523636 A CN201210523636 A CN 201210523636A CN 103853500 A CN103853500 A CN 103853500A
Authority
CN
China
Prior art keywords
data
stored
priority
storage device
online storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210523636.5A
Other languages
English (en)
Inventor
宋桂祥
杜怀忠
李明
崔洪涛
邵杰
何廷强
李�远
白琳
魏兵
朱建浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Henan Co Ltd
Original Assignee
China Mobile Group Henan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Henan Co Ltd filed Critical China Mobile Group Henan Co Ltd
Priority to CN201210523636.5A priority Critical patent/CN103853500A/zh
Publication of CN103853500A publication Critical patent/CN103853500A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于海量数据的数据分配方法、装置及系统,该方法包括:确定系统中各在线存储设备的设备性能优先级及各待存储数据的数据优先级;针对任一待存储数据,按照预先设定的优先级匹配原则,确定具备与该待存储数据的数据优先级相匹配的设备性能优先级的在线存储设备,并将该待存储数据存储到所确定的在线存储设备中,所述优先级匹配原则为数据优先级越高,与其相匹配的设备性能优先级也越高。通过该方案,能够自动根据各数据及各存储设备的优先级,将各数据存储到与其优先级相匹配的存储设备中,解决了现有技术中无法根据数据的重要性及存储设备的当前存储情况对数据进行自动划分和存储、导致设备利用率较低及存储效果并不佳的问题。

Description

一种基于海量数据的数据分配方法、装置及系统
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于海量数据的数据分配方法、装置及系统。
背景技术
目前,业界在进行海量数据的存储时,常采用根据数据业务情况事先规划存储的方式,即为分属于不同业务的数据事先分配不同的存储设备,数据生成后直接按照事先分配的存储设备进行存储。
具体地,在采用上述方式进行海量数据的存储时,一般需要单独部署数据主控服务器来进行(所述数据主控服务器中预先存储了事先规划的数据存储规则),当系统中的数据增加到一定规模,导致系统中某一个或多个存储设备中存储了大量的数据从而导致相应的存储设备性能降低、无法满足数据存储需求时,需要由系统规划人员根据当前业务数据及存储设备的实际情况以人工方式对各存储设备的参数、性能、容量等进行调整或者由系统规划人员根据自身经验以及系统当前实际情况,重新为该系统制定相应的数据存储规则。
也就是说,在采用上述方式进行海量数据的存储时,只能够按照事先规划的数据存储规则对各数据进行存储,无法根据数据的重要性以及存储设备的当前存储情况对各数据进行自动划分和存储,无法进行存储设备的动态调整,从而导致存储设备的设备利用率较低、存储效果并不佳。
发明内容
本发明实施例提供了一种基于海量数据的数据分配方法、装置及系统,用以解决现有技术中存在的无法根据数据的重要性以及存储设备的当前存储情况对数据进行自动划分和存储,导致存储设备的设备利用率较低、存储效果并不佳的问题。
一种基于海量数据的数据分配方法,所述方法包括:
确定系统中各在线存储设备的设备性能优先级以及各待存储数据的数据优先级;
针对任一待存储数据,按照预先设定的优先级匹配原则,确定具备与该待存储数据的数据优先级相匹配的设备性能优先级的在线存储设备,并将该待存储数据存储到所确定的在线存储设备中;
其中,所述预先设定的优先级匹配原则为数据优先级越高,与其相匹配的设备性能优先级也越高。
一种基于海量数据的数据分配装置,所述装置包括:
设备管理模块,用于确定系统中各在线存储设备的设备性能优先级;
数据管理模块,用于确定系统中各待存储数据的数据优先级;
数据分配模块,用于针对任一待存储数据,按照预先设定的优先级匹配原则,确定具备与该待存储数据的数据优先级相匹配的设备性能优先级的在线存储设备,并将该待存储数据存储到所确定的在线存储设备中,其中,所述预先设定的优先级匹配原则为数据优先级越高,与其相匹配的设备性能优先级也越高。
一种基于海量数据的数据分配系统,所述系统包括至少一个数据分配装置以及至少一个存储设备:
所述数据分配装置,用于确定系统中各在线存储设备的设备性能优先级以及各待存储数据的数据优先级,并针对任一待存储数据,按照预先设定的优先级匹配原则,确定具备与该待存储数据的数据优先级相匹配的设备性能优先级的在线存储设备,并将该待存储数据存储到所确定的在线存储设备中,其中,所述预先设定的优先级匹配原则为数据优先级越高,与其相匹配的设备性能优先级也越高。
本发明有益效果如下:
本发明实施例提供了一种基于海量数据的数据分配方法、装置及系统,所述方法包括:确定系统中各在线存储设备的设备性能优先级以及各待存储数据的数据优先级,针对任一待存储数据,按照预先设定的优先级匹配原则,确定具备与该待存储数据的数据优先级相匹配的设备性能优先级的在线存储设备,并将该待存储数据存储到所确定的在线存储设备中,其中,所述预先设定的优先级匹配原则为数据优先级越高,与其相匹配的设备性能优先级也越高。通过本发明所述技术方案,能够自动根据各数据的数据优先级以及各存储设备的设备性能优先级,将各数据存储到具备与其优先级相匹配的优先级的存储设备中,从而解决了现有技术中存在的无法根据数据的重要性以及存储设备的当前存储情况对数据进行自动划分和存储、导致存储设备的设备利用率较低以及存储效果并不佳的问题。
附图说明
图1所示为本发明实施例一中所述基于海量数据的数据分配方法的流程示意图;
图2所示为本发明实施例二中所述基于海量数据的数据分配装置的结构示意图;
图3所示为本发明实施例三中所述基于海量数据的数据分配系统的结构示意图。
具体实施方式
本发明实施例提供了一种基于海量数据的数据分配方法、装置及系统,所述方法包括:确定系统中各在线存储设备的设备性能优先级以及各待存储数据的数据优先级,针对任一待存储数据,按照预先设定的优先级匹配原则,确定具备与该待存储数据的数据优先级相匹配的设备性能优先级的在线存储设备,并将该待存储数据存储到所确定的在线存储设备中,其中,所述预先设定的优先级匹配原则为数据优先级越高,与其相匹配的设备性能优先级也越高。通过本发明所述技术方案,能够自动根据各待存储数据的数据优先级以及各在线存储设备的设备性能优先级,将各待存储数据存储到具备与其优先级相匹配的设备性能优先级的在线存储设备中,从而解决了现有技术中存在的无法根据数据的重要性以及存储设备的当前存储情况对数据进行自动划分和存储、导致存储设备的设备利用率较低以及存储效果并不佳的问题。
下面结合说明书附图对本发明实施例作进一步说明,但本发明不局限于下面的实施例。
实施例一:
如图1所示,其为本发明实施例一中所述基于海量数据的数据分配方法的流程示意图,所述方法包括以下步骤:
步骤101:确定系统中各在线存储设备的设备性能优先级。
具体地,本发明实施例一中各步骤的执行主体可以为具有数据分配能力的服务器等数据分配装置,本发明实施例对此不作任何限定;另外,本发明实施例中所述存储设备可以包括文件服务器存储设备、数据库服务器存储设备或者内存数据库存储设备等,本发明实施例对此也不作任何限定。
具体地,所述数据分配装置可以对系统中的各存储设备进行集群管理,确定系统中的各在线存储设备,并确定系统中各在线存储设备的设备性能优先级。
具体地,所述数据分配装置可以通过配置存储设备群集配置数据库的方式来对系统中的各存储设备进行集群管理,例如:当有新的存储设备接入群集时,注册该新接入存储设备的配置信息,并将该新接入存储设备的配置信息添加到存储设备群集配置数据库中;当存储设备离线时,注销该离线存储设备的配置信息,并从存储设备群集配置数据库中删除该离线存储设备的配置信息;同时,所述数据分配装置还可以将所述存储设备群集配置数据库的信息实时发送给系统中的各在线存储设备,即系统中的各在线存储设备均可以从数据分配装置中获取最新的存储设备群集配置数据库副本,以便与所述数据分配装置中配置的存储设备群集配置数据库保持一致。
具体地,在本步骤101中,所述数据分配装置可以通过以下方式来确定系统中各在线存储设备的设备性能优先级:
针对任一在线存储设备,获取该在线存储设备的各性能加权指标,并根据设定的各性能加权指标的权重系数,对该在线存储设备的各性能加权指标进行加权运算,得到该在线存储设备的性能加权值;
根据该在线存储设备的性能加权值或者该在线存储设备的性能加权值与系统中各在线存储设备的性能加权值之和的比值,确定该在线存储设备的设备性能优先级;
其中,该在线存储设备的性能加权值或者该在线存储设备的性能加权值与系统中各在线存储设备的性能加权值之和的比值越高,该在线存储设备的设备性能优先级也越高。
其中,所述性能加权指标可以至少包括以下信息中的一种或多种:存储设备的可用容量、存储设备的处理器速度、存储设备的内存大小等,本发明实施例对此不作任何限定。
另外,各性能加权指标的权重系数需要根据实际情况进行设定;例如,当存储设备的可用容量对存储设备性能的影响较大时,可以为存储设备的可用容量这一性能加权指标分配较高的权重系数,当存储设备的可用容量对存储设备性能的影响较小时,可以为存储设备的可用容量这一性能加权指标分配较低的权重系数,本发明实施例对此不作任何限定。
另外需要说明的是,在本发明实施例一中,在为系统中的任一在线存储设备的各项性能加权指标分配相应的权重系数时,该在线存储设备的各性能加权指标的权重系数之和需为1。
具体地,在本步骤101中,假设针对系统中某一设备类型为文件服务器的在线存储设备A1,所述数据分配装置可以在确定该在线存储设备A1的设备类型以及取得该在线存储设备A1的设备权限之后,通过向该在线存储设备A1发送相关指令的方式来获取该在线存储设备A1的各项性能加权指标,所获取到的该在线存储设备A1的各项性能加权指标可以为:存储设备的可用容量为X,存储设备的处理器速度为Y,存储设备的内存大小为Z等。
进一步地,在获取到该在线存储设备A1的各项性能加权指标之后,所述数据分配装置可以根据事先设定的各项性能加权指标的权重系数(假设事先设定的存储设备的可用容量这一性能加权指标的权重系数为0.6,存储设备的处理器速度这一性能加权指标的权重系数为0.3,存储设备的内存大小这一性能加权指标的权重系数为0.1),对该在线存储设备A1的各性能加权指标进行加权运算,得到该在线存储设备A1的性能加权值Q1;具体地,所得到的该在线存储设备的性能加权值Q1可以表示为:Q1=0.6X+0.3Y+0.1Z。
进一步地,在得到该在线存储设备A1的性能加权值之后,可以根据该在线存储设备A1的性能加权值确定该在线存储设备A1的设备性能优先级。
例如:若所得到的该在线存储设备A1的性能加权值Q1大于设定的第一阈值,则可以认为该在线存储设备A1的设备性能优先级为高,若所得到的该在线存储设备A1的性能加权值Q1大于设定的第二阈值且小于设定的第一阈值,则可以认为该在线存储设备A1的设备性能优先级为中,若所得到的该在线存储设备A1的性能加权值Q1小于设定的第二阈值,则可以认为该在线存储设备A1的设备性能优先级为低,其中,所述第一阈值大于第二阈值,且所述第一阈值以及所述第二阈值的数值可以根据实际情况进行调整,本发明实施例对此不作任何限定;或者,
若系统中除了该在线存储设备A1之外,还包括3个在线存储设备,分别为在线存储设备A2、在线存储设备A3以及在线存储设备A4,且在线存储设备A2、在线存储设备A3以及在线存储设备A4所对应的性能加权值分别为Q2、Q3以及Q4,则当Q1大于Q2、Q3、Q4时,可以认为该在线存储设备A1的设备性能优先级为高;当Q1小于Q2、Q3、Q4时,可以认为该在线存储设备A1的设备性能优先级为低;当Q1大于Q2、Q3以及Q4中的一个数值且小于Q2、Q3以及Q4中的另外两个数值,或Q1大于Q2、Q3以及Q4中的两个数值且小于Q2、Q3以及Q4中的另外一个数值时,可以认为该在线存储设备A1的设备性能优先级为中;需要说明的是,在本发明实施例中,还可以采用其他的数值范围划分方法来根据得到的性能加权值确定在线存储设备的设备性能优先级,本发明实施例对此不作任何限定。
较优地,在本发明各实施例中,在得到在线存储设备的性能加权值之后,所述数据分配装置还可以根据该在线存储设备的性能加权值与系统中各在线存储设备的性能加权值之和的比值,来确定该在线存储设备的设备性能优先级。
例如,仍以系统中存在4个在线存储设备(分别为在线存储设备A1、在线存储设备A2、在线存储设备A3以及在线存储设备A4,且在线存储设备A1、在线存储设备A2、在线存储设备A3以及在线存储设备A4所对应的性能加权值分别为Q1、Q2、Q3以及Q4)为例,可以根据Q1/(Q1+Q2+Q3+Q4)的大小来确定在线存储设备A1的设备性能优先级,如若Q1/(Q1+Q2+Q3+Q4)的数值大于设定的第三阈值,则可以认为该在线存储设备A1的设备性能优先级为高,若Q1/(Q1+Q2+Q3+Q4)的数值大于设定的第四阈值且小于设定的第三阈值,则可以认为该在线存储设备A1的设备性能优先级为中,若Q1/(Q1+Q2+Q3+Q4)的数值小于设定的第四阈值,则可以认为该在线存储设备A1的设备性能优先级为低,其中,所述第三阈值大于第四阈值且所述第三阈值以及所述第四阈值的数值可以根据实际情况进行调整,本发明实施例对此不作任何限定;或者,
当Q1/(Q1+Q2+Q3+Q4)的数值大于Q2/(Q1+Q2+Q3+Q4)、Q3/(Q1+Q2+Q3+Q4)以及Q4/(Q1+Q2+Q3+Q4)时,可以认为该在线存储设备A1的设备性能优先级为高;当Q1/(Q1+Q2+Q3+Q4)小于Q2/(Q1+Q2+Q3+Q4)、Q3/(Q1+Q2+Q3+Q4)、Q4/(Q1+Q2+Q3+Q4)时,可以认为该在线存储设备A1的设备性能优先级为低;当Q1/(Q1+Q2+Q3+Q4)大于Q2/(Q1+Q2+Q3+Q4)、Q3/(Q1+Q2+Q3+Q4)以及Q4/(Q1+Q2+Q3+Q4)中的一个数值且小于Q2/(Q1+Q2+Q3+Q4)、Q3/(Q1+Q2+Q3+Q4)以及Q4/(Q1+Q2+Q3+Q4)中的另外两个数值,或Q1/(Q1+Q2+Q3+Q4)大于Q2/(Q1+Q2+Q3+Q4)、Q3/(Q1+Q2+Q3+Q4)以及Q4/(Q1+Q2+Q3+Q4)中的两个数值且小于Q2/(Q1+Q2+Q3+Q4)、Q3/(Q1+Q2+Q3+Q4)以及Q4/(Q1+Q2+Q3+Q4)中的另外一个数值时,可以认为该在线存储设备A1的设备性能优先级为中。
需要说明的是,在本发明实施例中,可以将系统中的各在线存储设备的设备性能优先级划分为N个等级,所述N为正整数且其数值不大于系统中所包含的在线存储设备的数量总值,本发明实施例对此不作任何限定。
较优地,在本发明各实施例中,可以按照系统中的各在线存储设备的性能加权值或各在线存储设备的性能加权值与系统中各在线存储设备的性能加权值之和的比值从大到小的顺序,对各在线存储设备进行排序,并分别为每一在线存储设备分配相应的性能优先级等级,即,对应的性能加权值不同的任意两个在线存储设备的性能优先级等级也不同,或者对应的在线存储设备的性能加权值与系统中各在线存储设备的性能加权值之和的比值不同的任意两个在线存储设备的性能优先级等级也不同。
进一步地,在本发明实施例一中,所述数据分配装置还可以采用多维稀疏MAP(所述多维稀疏MAP可以由KEY和VALUE组成,其索引可以为行关键字、列关键字和时间戳)的形式将各在线存储设备的设备性能优先级(或各在线存储设备的性能加权值)与对应的在线存储设备的设备信息(如存储设备的MAC地址、存储设备的名称等)进行存储。
具体地,在进行上述信息的存储时,每一在线存储设备均可以看作为一设备元,每一在线存储设备对应的设备信息和设备性能优先级等信息均可以看作设备元数据;进一步地,在进行各设备元数据的存储时,可以将存储设备的MAC地址作为行关键字,将存储设备的名称和存储设备的设备性能优先级(或存储设备的性能加权值)作为列,加权计算的时间戳作为标识,进而,所得到的设备元数据具体可以表示为MAP<存储设备的MAC地址,存储设备性能DATA>,其中,存储设备性能DATA为一数组,其中包括存储设备的名称、存储设备的设备性能优先级(或存储设备的性能加权值)等信息,并且,针对任一设备元数据,该设备元数据中DATA数组的标识为该设备元对应的设备性能加权值的加权计算时间。
需要说明的是,为了保证系统中所存储的各设备元数据的准确性,所述数据分配装置可以根据保存的存储设备群集配置数据库来完成各存储设备对应的设备元以及设备元数据的注册、更新以及注销等操作。
步骤102:确定系统中各待存储数据的数据优先级。
具体地,在本步骤102中,数据分配装置在接收到来自外界的待存储数据时,可以采用以下方式来确定各待存储数据的数据优先级:
针对任一待存储数据,获取该待存储数据的各数据加权指标,并根据设定的各数据加权指标的权重系数,对该待存储数据的各数据加权指标进行加权运算,得到该待存储数据的数据加权值;
根据该待存储数据的数据加权值或者该待存储数据的数据加权值与系统中各待存储数据的数据加权值之和的比值,确定该待存储数据的数据优先级;
其中,该待存储数据的数据加权值或者该待存储数据的数据加权值与系统中各待存储数据的数据加权值之和的比值越高,该待存储数据的数据优先级也越高。
具体地,所述数据加权指标可以至少包括以下信息中的一种或多种:数据的重要度、数据的访问量以及数据的大小等,本发明实施例对此不作任何限定。
具体地,各数据加权指标的权重系数需要根据实际情况进行设定,例如:当数据的重要度对数据优先级的影响较大时,可以为数据的重要度这一加权指标分配较高的权重系数,当数据的访问量对数据的优先级的影响较大时,可以为数据的访问量这一加权指标分配相对较高的权重系数,本发明实施例对此不作任何限定。
另外需要说明的是,在本发明实施例一中,在为系统中的任一待存储数据的各项数据加权指标分配相应的权重系数时,该待存储数据的各数据加权指标的权重系数之和需为1。
具体地,在本步骤102中,所述数据分配装置可以通过向外界提供数据装载服务接口的方式来对来自外界的各待存储数据进行装载,例如,对于文件数据,所述数据分配装置可以向外界提供文件数据装载服务接口的方式来对该文件数据进行装载。
进一步地,来自外界的各待存储数据可以采用数据块的形式进入所述数据分配装置,其中,各数据块中可以包括数据块关键字、数据块名称、数据的重要度,数据的访问量,数据的大小等信息,本发明实施例对此不作任何限定;进一步地,所述数据分配装置可以从各数据块中包含的信息中获取各待存储数据的各项数据加权指标。
具体地,针对任一待存储数据,在获取到该待存储数据的的各项数据加权指标(如数据的重要度为M,数据的访问量为N,数据的大小为P)之后,所述数据分配装置可以根据事先设定的各项数据加权指标的权重系数(假设事先设定的数据的重要度这一数据加权指标的权重系数为0.6,数据的访问量这一数据加权指标的权重系数为0.3,数据的大小这一数据加权指标的权重系数为0.1),对该待存储数据的各数据加权指标进行加权运算,得到该待存储数据的数据加权值R,具体地,所得到的该待存储数据的数据加权值R可以表示为:R=0.6M+0.3N+0.1P。
进一步地,在得到该待存储数据的数据加权值之后,所述数据分配装置可以根据该待存储数据的数据加权值确定该待存储数据的数据优先级。
例如:若所得到的该在待存储数据的数据加权值大于设定的第五阈值,则认为该待存储数据的数据优先级为高,若所得到的该待存储数据的数据加权值大于设定的第六阈值且小于设定的第五阈值,则可以认为该待存储数据的数据优先级为中,若所得到的该待存储数据的数据加权值小于设定的第六阈值,则可以认为该待存储数据的数据优先级为低,其中,所述第五阈值大于所述第六阈值,且所述第五阈值以及第六阈值的数值可以根据实际情况进行设定,本发明实施例对此不作任何限定;需要说明的是,在本发明实施例中,还可以采用其他的数值范围划分方法来根据得到的数据加权值确定待存储数据的数据优先级,本发明实施例对此不作任何限定。
进一步地,在本发明各实施例中,在得到待存储数据的数据加权值之后,还可以根据该待存储数据的数据加权值与系统中各待存储数据的数据加权值之和的比值,来确定该待存储数据的数据优先级。
例如,针对系统中的任一待存储数据X1,可以根据该待存储数据X1的数据加权值R1以及系统中所有待存储数据的数据加权值之和R的比值来确定该待存储数据X1的数据优先级,如若R1/R的数值大于设定的第七阈值,则可以认为该待存储数据X1的数据优先级为高,若R1/R的数值大于设定的第八阈值且小于设定的第七阈值,则可以认为该待存储数据X1的数据优先级为中,若若R1/R的数值小于设定的第八阈值,则可以认为该待存储数据X1的数据优先级为低,其中,所述第七阈值大于第八阈值且所述第七阈值以及所述第八阈值的数值可以根据实际情况进行调整,本发明实施例对此不作任何限定;需要说明的是,在本发明实施例中,还可以采用其他的数值范围划分方法来根据根据待存储数据的数据加权值与系统中各待存储数据的数据加权值之和的比值来确定该待存储数据的数据优先级,本发明实施例对此不作任何限定。
需要说明的是,在本发明实施例中,待存储数据的数据优先级可以有多个不同的等级,本发明实施例对此不作任何限定;另外,针对任一数据优先级等级,属于该数据优先级等级的待存储数据可以为一个或多个,本发明实施例对此也不作任何限定。
进一步地,在本发明实施例一中,所述数据分配装置还可以采用多维稀疏MAP(所述多维稀疏MAP可以由KEY和VALUE组成,其索引可以为行关键字、列关键字和时间戳)的形式将各待存储数据的数据优先级(或各待存储数据的数据加权值)与对应的待存储数据的数据信息(如待存储数据的数据块关键字、待存储数据的数据块名称等)进行存储。
具体地,在进行上述信息的存储时,每一待存储数据均可以看作为一数据元,每一待存储数据对应的数据信息和数据优先级等信息均可以看作数据元数据;进一步地,在进行各数据元数据的存储时,可以将待存储数据的数据块关键字作为行关键字,将待存储数据的数据块名称和待存储数据的数据优先级(或待存储数据的数据加权值)作为列,加权计算的时间戳作为标识,进而,所得到的数据元数据具体可以表示为MAP<待存储数据的数据块关键字,待存储数据的加权DATA>,其中,待存储数据的加权DATA为一数组,其中包括待存储数据的数据块名称、待存储数据的数据优先级(或待存储数据的数据加权值)等信息,并且,针对任一数据元数据,该数据元数据中DATA数组的标识为该数据元对应的待存储数据加权值的加权计算时间。
步骤103:针对任一待存储数据,按照预先设定的优先级匹配原则,确定具备与该待存储数据的数据优先级相匹配的设备性能优先级的在线存储设备,并将该待存储数据存储到所确定的在线存储设备中,其中,所述预先设定的优先级匹配原则为数据优先级越高,与其相匹配的设备性能优先级也越高。
具体地,在本步骤103中,针对任一待存储数据,可以将确定的该待存储数据的数据优先级与确定的各在线存储设备的设备性能优先级进行优先级匹配,筛选出所具备的设备性能优先级与该待存储数据的数据优先级一致的在线存储设备,并将该待存储数据存储到所筛选出的在线存储设备中。
也就是说,针对系统中的各待存储数据,所述数据分配装置可以将数据优先级高的待存储数据存储到设备性能优先级高的在线存储设备中,将数据优先级次之的待存储数据存储到设备性能优先级次之的在线存储设备中,直至将接收到的各待存储数据依次存储到与其优先级相匹配的在线存储设备中。
较优地,在本发明实施例中,为待存储数据所划分的数据优先级等级可以不大于为系统中的各在线存储设备所划分的设备性能优先级等级,以便于在接收到来自外界的待存储数据时,能够为各待存储数据分配到相匹配的某一在线存储设备中,实现待存储数据的自动划分和存储。
进一步地,在执行完上述步骤101~步骤103之后,所述方法还可以包括以下步骤:
在设定时长到达时,重新确定各在线存储设备的设备性能优先级以及各在线存储设备中已存储的存储数据的数据优先级;
根据重新确定后的各在线存储设备的设备性能优先级以及各已存储数据的数据优先级,将任一已存储数据重新分配到具备与其对应的数据优先级相匹配的设备性能优先级的在线存储设备中,以及,当已存储数据的数据优先级低于设定的阈值时,将该已存储数据进行离线存储。
具体地,所述设定时长可以根据实际情况进行调整,例如:当对系统中的存储数据以及存储设备的优先级的动态实时性要求较高时,所述设定时长可以为一较小数值,当对系统中的存储数据以及存储设备的优先级的动态实时性要求较低时,所述设定时长可以为一较大数值,本发明实施例对此不作任何限定;进一步地,所述设定阈值也可以根据实际情况进行调整,本发明实施例对此也不作任何限定。
需要说明的是,在重新确定各在线存储设备的设备性能优先级以及各在线存储设备中已存储的存储数据的数据优先级之后,还需要根据重新确定的各在线存储设备的设备性能优先级以及各在线存储设备中已存储的存储数据的数据优先级,对以多维稀疏MAP形式保存的设备元数据以及数据元数据进行相应调整。
本发明实施例一提供了一种基于海量数据的数据分配方法,所述方法包括:确定系统中各在线存储设备的设备性能优先级以及各待存储数据的数据优先级,针对任一待存储数据,按照预先设定的优先级匹配原则,确定具备与该待存储数据的数据优先级相匹配的设备性能优先级的在线存储设备,并将该待存储数据存储到所确定的在线存储设备中,其中,所述预先设定的优先级匹配原则为数据优先级越高,与其相匹配的设备性能优先级也越高。通过本发明所述技术方案,能够自动根据各待存储数据的数据优先级以及各在线存储设备的设备性能优先级,将各待存储数据存储到具备与其优先级相匹配的优先级的在线存储设备中,从而解决了现有技术中存在的无法根据数据的重要性以及存储设备的当前存储情况对数据进行自动划分和存储、导致存储设备的设备利用率较低以及存储效果并不佳的问题。
另外,在本发明实施例一所述方案中,还可以在设定时长到达时,重新确定各在线存储设备的设备性能优先级以及各在线存储设备中已存储的存储数据的数据优先级,并根据重新确定的各优先级,对各在线存储设备中已存储的数据进行分配调整,并将优先级低于设定阈值的数据进行离线存储,从而实现了将具备较高优先级的数据存储到具备较高性能优先级的存储设备中的目的,进一步提高了存储设备的设备利用率,提高了数据的存储效果。
实施例二:
如图2所示,其为本发明实施例二中所述基于海量数据的数据分配装置的结构示意图,所述数据分配装置可以为服务器等具备数据分配能力的独立装置,也可以为其它具备数据分配能力的集成装置等,本发明实施例对此不作任何限定;具体地,所述数据分配装置包括设备管理模块11、数据管理模块12以及数据分配模块13,其中:
所述设备管理模块11用于确定系统中各在线存储设备的设备性能优先级;具体地,所述存储设备可以包括文件服务器存储设备、数据库服务器存储设备以及内存数据库存储设备等,本发明实施例对此不作任何限定。
具体地,所述设备管理模块11用于针对任一在线存储设备,获取该在线存储设备的各性能加权指标,并根据设定的各性能加权指标的权重系数,对该在线存储设备的各性能加权指标进行加权运算,得到该在线存储设备的性能加权值,以及,根据该在线存储设备的性能加权值或者该在线存储设备的性能加权值与系统中各在线存储设备的性能加权值之和的比值,确定该在线存储设备的设备性能优先级,其中,该在线存储设备的性能加权值或者该在线存储设备的性能加权值与系统中各在线存储设备的性能加权值之和的比值越高,该在线存储设备的设备性能优先级也越高。
其中,所述性能加权指标可以至少包括以下信息中的一种或多种:存储设备的可用容量、存储设备的处理器速度、存储设备的内存大小等;另外,各性能加权指标的权重系数需要根据实际情况进行设定,例如:当存储设备的可用容量对存储设备性能的影响较大时,可以为存储设备的可用容量这一性能加权指标分配较高的权重系数,当存储设备的可用容量对存储设备性能的影响较小时,可以为存储设备的可用容量这一性能加权指标分配较低的权重系数,本发明实施例对此不作任何限定。
另外需要说明的是,在本发明实施例中,在为系统中的任一在线存储设备的各项性能加权指标分配相应的权重系数时,该在线存储设备的各性能加权指标的权重系数之和需为1。
具体地,假设针对系统中某一设备类型为文件服务器的在线存储设备A1,所述设备管理模块11可以在确定该在线存储设备A1的设备类型以及取得该在线存储设备A1的设备权限之后,通过向该在线存储设备A1发送相关指令的方式来获取该在线存储设备A1的各项性能加权指标,所获取到的该在线存储设备A1的各项性能加权指标可以为:存储设备的可用容量为X,存储设备的处理器速度为Y,存储设备的内存大小为Z等。
进一步地,在获取到该在线存储设备的各项性能加权指标之后,所述设备管理模块11可以根据事先设定的各项性能加权指标的权重系数(假设事先设定的存储设备的可用容量这一性能加权指标的权重系数为0.6,存储设备的处理器速度这一性能加权指标的权重系数为0.3,存储设备的内存大小这一性能加权指标的权重系数为0.1),对该在线存储设备A1的各性能加权指标进行加权运算,得到该在线存储设备A1的性能加权值Q1;具体地,所得到的该在线存储设备的性能加权值Q1可以表示为:Q1=0.6X+0.3Y+0.1Z。
进一步地,在得到该在线存储设备A1的性能加权值之后,所述设备管理模块11可以根据该在线存储设备A1的性能加权值确定该在线存储设备的设备性能优先级;例如,若所得到的该在线存储设备A1的性能加权值Q1大于设定的第一阈值,则可以认为该在线存储设备A1的设备性能优先级为高,若所得到的该在线存储设备A1的性能加权值Q1大于设定的第二阈值且小于设定的第一阈值,则可以认为该在线存储设备A1的设备性能优先级为中,若所得到的该在线存储设备A1的性能加权值Q1小于设定的第二阈值,则可以认为该在线存储设备A1的设备性能优先级为低,其中,所述第一阈值大于第二阈值,且所述第一阈值以及所述第二阈值的数值可以根据实际情况进行调整,本发明实施例对此不作任何限定;或者,
若系统中除了该在线存储设备A1之外,还包括3个在线存储设备,分别为在线存储设备A2、在线存储设备A3以及在线存储设备A4,且在线存储设备A2、在线存储设备A3以及在线存储设备A4所对应的性能加权值分别为Q2、Q3以及Q4,则当Q1大于Q2、Q3、Q4时,可以认为该在线存储设备A1的设备性能优先级为高;当Q1小于Q2、Q3、Q4时,可以认为该在线存储设备A1的设备性能优先级为低;当Q1大于Q2、Q3以及Q4中的一个数值且小于Q2、Q3以及Q4中的另外两个数值,或Q1大于Q2、Q3以及Q4中的两个数值且小于Q2、Q3以及Q4中的另外一个数值时,可以认为该在线存储设备A1的设备性能优先级为中;需要说明的是,在本发明实施例中,还可以采用其他的数值范围划分方法来根据得到的性能加权值确定在线存储设备的设备性能优先级,本发明实施例对此不作任何限定。
较优地,在得到在线存储设备A1的性能加权值之后,所述设备管理模块11还可以根据该在线存储设备A1的性能加权值与系统中各在线存储设备的性能加权值之和的比值,来确定该在线存储设备A1的设备性能优先级;例如,仍以系统中存在4个在线存储设备(分别为在线存储设备A1、在线存储设备A2、在线存储设备A3以及在线存储设备A4,且在线存储设备A1、在线存储设备A2、在线存储设备A3以及在线存储设备A4所对应的性能加权值分别为Q1、Q2、Q3以及Q4)为例,可以根据Q1/(Q1+Q2+Q3+Q4)的大小来确定在线存储设备A1的设备性能优先级,如若Q1/(Q1+Q2+Q3+Q4)的数值大于设定的第三阈值,则可以认为该在线存储设备A1的设备性能优先级为高,若Q1/(Q1+Q2+Q3+Q4)的数值大于设定的第四阈值且小于设定的第三阈值,则可以认为该在线存储设备A1的设备性能优先级为中,若Q1/(Q1+Q2+Q3+Q4)的数值小于设定的第四阈值,则可以认为该在线存储设备A1的设备性能优先级为低,其中,所述第三阈值大于第四阈值且所述第三阈值以及所述第四阈值的数值可以根据实际情况进行调整,本发明实施例对此不作任何限定;或者,
当Q1/(Q1+Q2+Q3+Q4)的数值大于Q2/(Q1+Q2+Q3+Q4)、Q3/(Q1+Q2+Q3+Q4)以及Q4/(Q1+Q2+Q3+Q4)时,可以认为该在线存储设备A1的设备性能优先级为高;当Q1/(Q1+Q2+Q3+Q4)小于Q2/(Q1+Q2+Q3+Q4)、Q3/(Q1+Q2+Q3+Q4)、Q4/(Q1+Q2+Q3+Q4)时,可以认为该在线存储设备A1的设备性能优先级为低;当Q1/(Q1+Q2+Q3+Q4)大于Q2/(Q1+Q2+Q3+Q4)、Q3/(Q1+Q2+Q3+Q4)以及Q4/(Q1+Q2+Q3+Q4)中的一个数值且小于Q2/(Q1+Q2+Q3+Q4)、Q3/(Q1+Q2+Q3+Q4)以及Q4/(Q1+Q2+Q3+Q4)中的另外两个数值,或Q1/(Q1+Q2+Q3+Q4)大于Q2/(Q1+Q2+Q3+Q4)、Q3/(Q1+Q2+Q3+Q4)以及Q4/(Q1+Q2+Q3+Q4)中的两个数值且小于Q2/(Q1+Q2+Q3+Q4)、Q3/(Q1+Q2+Q3+Q4)以及Q4/(Q1+Q2+Q3+Q4)中的另外一个数值时,可以认为该在线存储设备A1的设备性能优先级为中。
需要说明的是,在本发明实施例中,可以将系统中的各在线存储设备的设备性能优先级划分为N个等级,所述N为正整数且其数值不大于系统中所包含的在线存储设备的数量总值,本发明实施例对此不作任何限定。
较优地,在本发明实施例中,所述设备管理模块11可以按照系统中的各在线存储设备的性能加权值或各在线存储设备的性能加权值与系统中各在线存储设备的性能加权值之和的比值从大到小的顺序,对各在线存储设备进行排序,并分别为每一在线存储设备分配相应的性能优先级等级,即,对应的性能加权值不同的任意两个在线存储设备的性能优先级等级也不同,或者对应的在线存储设备的性能加权值与系统中各在线存储设备的性能加权值之和的比值不同的任意两个在线存储设备的性能优先级等级也不同。
进一步地,所述设备管理模块11还可以用于对系统中的各存储设备进行集群管理,如可以通过配置存储设备群集配置数据库的方式来对系统中的各存储设备进行集群管理,当有新的存储设备接入群集时,注册该新接入存储设备的配置信息,并将该新接入存储设备的配置信息更新到存储设备群集配置数据库中,当有存储设备离线时,注销该离线存储设备的配置信息,并从存储设备群集配置数据库中删除该离线存储设备的配置信息;同时,所述设备管理模块11还可以将最新的存储设备群集配置数据库信息发送给各在线存储设备,从而使得各在线存储设备均能够保存有最新的存储设备群集配置数据库副本,以便与所述设备管理模块11中配置的存储设备群集配置数据库保持一致。
所述数据管理模块12用于确定系统中各待存储数据的数据优先级。
具体地,所述数据管理模块12用于针对任一待存储数据,获取该待存储数据的各数据加权指标,并根据设定的各数据加权指标的权重系数,对该待存储数据的各数据加权指标进行加权运算,得到该待存储数据的数据加权值,以及,根据该待存储数据的数据加权值或者该待存储数据的数据加权值与系统中各待存储数据的数据加权值之和的比值,确定该待存储数据的数据优先级,其中,该待存储数据的数据加权值或者该待存储数据的数据加权值与系统中各待存储数据的数据加权值之和的比值越高,该待存储数据的数据优先级也越高。
其中,所述数据加权指标可以至少包括以下信息中的一种或多种:数据的重要度、数据的访问量以及数据的大小等;另外,各数据加权指标的权重系数需要根据实际情况进行设定,例如:当数据的重要度对数据优先级的影响较大时,可以为数据的重要度这一加权指标分配较高的权重系数,当数据的访问量对数据的优先级的影响较大时,可以为数据的访问量这一加权指标分配相对较高的权重系数,本发明实施例对此不作任何限定。
具体地,针对任一待存储数据,在获取到该待存储数据的的各项数据加权指标(如数据的重要度为M,数据的访问量为N,数据的大小为P)之后,所述数据管理模块12可以根据事先设定的各项数据加权指标的权重系数(假设事先设定的数据的重要度这一数据加权指标的权重系数为0.6,数据的访问量这一数据加权指标的权重系数为0.3,数据的大小这一数据加权指标的权重系数为0.1),对该待存储数据的各数据加权指标进行加权运算,得到该待存储数据的数据加权值R,具体地,所得到的该待存储数据的数据加权值R可以表示为:R=0.6M+0.3N+0.1P。
进一步地,在得到该待存储数据的数据加权值之后,所述数据管理模块12可以根据该待存储数据的数据加权值确定该待存储数据的数据优先级。
例如:若所得到的该在待存储数据的数据加权值大于设定的第五阈值,则认为该待存储数据的数据优先级为高,若所得到的该待存储数据的数据加权值大于设定的第六阈值且小于设定的第五阈值,则可以认为该待存储数据的数据优先级为中,若所得到的该待存储数据的数据加权值小于设定的第六阈值,则可以认为该待存储数据的数据优先级为低,其中,所述第五阈值大于所述第六阈值,且所述第五阈值以及第六阈值的数值可以根据实际情况进行设定,本发明实施例对此不作任何限定;需要说明的是,在本发明实施例中,还可以采用其他的数值范围划分方法来根据得到的数据加权值确定待存储数据的数据优先级,本发明实施例对此不作任何限定。
进一步地,在本发明各实施例中,在得到待存储数据的数据加权值之后,所述数据管理模块12还可以根据该待存储数据的数据加权值与系统中各待存储数据的数据加权值之和的比值,来确定该待存储数据的数据优先级。
例如,针对系统中的任一待存储数据X1,可以根据该待存储数据X1的数据加权值R1以及系统中所有待存储数据的数据加权值之和R的比值来确定该待存储数据X1的数据优先级,如若R1/R的数值大于设定的第七阈值,则可以认为该待存储数据X1的数据优先级为高,若R1/R的数值大于设定的第八阈值且小于设定的第七阈值,则可以认为该待存储数据X1的数据优先级为中,若若R1/R的数值小于设定的第八阈值,则可以认为该待存储数据X1的数据优先级为低,其中,所述第七阈值大于第八阈值且所述第七阈值以及所述第八阈值的数值可以根据实际情况进行调整,本发明实施例对此不作任何限定;需要说明的是,在本发明实施例中,还可以采用其他的数值范围划分方法来根据根据待存储数据的数据加权值与系统中各待存储数据的数据加权值之和的比值来确定该待存储数据的数据优先级,本发明实施例对此不作任何限定。
需要说明的是,在本发明实施例中,待存储数据的数据优先级可以有多个不同的等级,本发明实施例对此不作任何限定;另外,针对任一数据优先级等级,属于该数据优先级等级的待存储数据可以为一个或多个,本发明实施例对此也不作任何限定。
所述数据分配模块13用于针对任一待存储数据,按照预先设定的优先级匹配原则,确定具备与该待存储数据的数据优先级相匹配的设备性能优先级的在线存储设备,并将该待存储数据存储到所确定的在线存储设备中,其中,所述预先设定的优先级匹配原则为数据优先级越高,与其相匹配的设备性能优先级也越高。
具体地,针对任一待存储数据,所述数据分配模块13可以将确定的该待存储数据的数据优先级与确定的各在线存储设备的设备性能优先级进行优先级匹配,筛选出所具备的设备性能优先级与该待存储数据的数据优先级一致的在线存储设备,并将该待存储数据存储到所筛选出的在线存储设备中。
也就是说,针对系统中的各待存储数据,所述数据分配模块13可以将数据优先级高的待存储数据存储到设备性能优先级高的在线存储设备中,将数据优先级次之的待存储数据存储到设备性能优先级次之的在线存储设备中,直至将接收到的各待存储数据依次存储到与其优先级相匹配的在线存储设备中。
较优地,在本发明实施例中,为系统中的待存储数据所划分的数据优先级等级可以不大于为系统中的各在线存储设备所划分的设备性能优先级等级,以便于在接收到来自外界的待存储数据时,能够为各待存储数据分配到相匹配的某一在线存储设备中,从而实现待存储数据的自动划分和存储。
进一步地,所述数据分配装置还可以包括设备元存储模块14以及数据元存储模块15,其中:
所述设备元存储模块14用于将确定的各在线存储设备的设备性能优先级(或各在线存储设备的性能加权值)进行存储;具体地,所述设备元存储模块14可以维持与设备管理模块11的心跳通讯,并根据设备管理模块11中配置的存储设备群集配置数据库来完成各存储设备对应的设备元以及设备元数据的注册、更新以及注销等操作。
进一步地,所述设备元存储模块14可以采用多维稀疏MAP(所述多维稀疏MAP可以由KEY和VALUE组成,其索引可以为行关键字、列关键字和时间戳)的形式将各在线存储设备的设备性能优先级(或各在线存储设备的性能加权值)与对应的在线存储设备的设备信息(如存储设备的MAC地址、存储设备的名称等)进行存储。
进一步地,所述设备元存储模块14在进行各设备元数据的存储时,可以将存储设备的MAC地址作为行关键字,将存储设备的名称和存储设备的设备性能优先级(或存储设备的性能加权值)作为列,加权计算的时间戳作为标识,进而,所得到的设备元数据具体可以表示为MAP<存储设备的MAC地址,存储设备性能DATA>,其中,存储设备性能DATA为一数组,其中包括存储设备的名称、存储设备的设备性能优先级(或存储设备的性能加权值)等信息,并且,针对任一设备元数据,该设备元数据中DATA数组的标识为该设备元对应的设备性能加权值的加权计算时间。
所述数据元存储模块15用于将确定的各待存储数据的数据优先级(或各待存储数据的数据加权值)进行存储;具体地,所述数据元存储模块15可以通过维持与数据管理模块12的心跳通讯的方式来完成各待存储数据对应的数据元以及数据元数据的注册、更新以及注销等操作。
进一步地,所述数据元存储模块15可以采用多维稀疏MAP的形式将各待存储数据的数据优先级(或各待存储数据的数据加权值)与对应的待存储数据的数据信息(如待存储数据的数据块关键字、待存储数据的数据块名称等)进行存储;进一步地,在进行各数据元数据的存储时,可以将待存储数据的数据块关键字作为行关键字,将待存储数据的数据块名称和待存储数据的数据优先级(或待存储数据的数据加权值)作为列,加权计算的时间戳作为标识,进而,所得到的数据元数据具体可以表示为MAP<待存储数据的数据块关键字,待存储数据的加权DATA>,其中,待存储数据的加权DATA为一数组,其中包括待存储数据的数据块名称、待存储数据的数据优先级(或待存储数据的数据加权值)等信息,并且,针对任一数据元数据,该数据元数据中DATA数组的标识为该数据元对应的待存储数据加权值的加权计算时间。
进一步地,所述设备管理模块11还用于在设定时长到达时,重新确定各在线存储设备的设备性能优先级;
所述数据管理模块12还用于在设定时长到达时,重新确定各在线存储设备中已存储的存储数据的数据优先级;
所述数据分配模块13还用于根据重新确定后的各在线存储设备的设备性能优先级以及各已存储数据的数据优先级,将任一已存储数据重新分配到具备与其对应的数据优先级相匹配的设备性能优先级的在线存储设备中,以及,当已存储数据的数据优先级低于设定的阈值时,将该已存储数据进行离线存储。
具体地,所述设定时长可以根据实际情况进行调整,例如:当对系统中的存储数据以及存储设备的优先级的动态实时性要求较高时,所述设定时长可以为一较小数值,当对系统中的存储数据以及存储设备的优先级的动态实时性要求较低时,所述设定时长可以为一较大数值,本发明实施例对此不作任何限定;进一步地,所述设定阈值也可以根据实际情况进行调整,本发明实施例对此也不作任何限定。
进一步地,所述设备元存储模块14还用于根据所述设备管理模块11重新确定的各在线存储设备的设备性能优先级,更新本地存储的各设备元数据;所述数据元存储模块15还用于根据所述数据管理模块12重新确定的各已存储数据的数据优先级,更新本地存储的各数据元数据。
进一步地,所述数据分配模块13还可以与所述设备管理模块11以及数据管理模块12保持心跳通讯,并根据所述设备管理模块11重新确定后的各在线存储设备的设备性能优先级以及所述数据管理模块12重新确定后的各已存储数据的数据优先级,将任一已存储数据重新分配到具备与其对应的数据优先级相匹配的设备性能优先级的在线存储设备中,以及,当任一已存储数据的数据优先级低于设定的阈值时,将该已存储数据进行离线存储。
或者,所述数据分配模块13还可以与所述设备元存储模块14以及数据元存储模块15保持心跳通讯,并根据所述设备元存储模块14中存储的更新后的设备元数据以及所述数据元存储模块15中存储的更新后的数据元数据,将任一已存储数据重新分配到具备与其对应的数据优先级相匹配的设备性能优先级的在线存储设备中,以及,当已存储数据的数据优先级低于设定的阈值时,将该已存储数据进行离线存储。
实施例三:
如图3所示,其为本发明实施例三中所述基于海量数据的数据分配系统的结构示意图,所述数据分配系统包括至少一个数据分配装置21以及与任一数据分配装置21相对应的至少一个存储设备22,其中:
所述数据分配装置21用于确定系统中各在线存储设备22的设备性能优先级以及系统中各待存储数据的数据优先级,并针对任一待存储数据,按照预先设定的优先级匹配原则,确定具备与该待存储数据的数据优先级相匹配的设备性能优先级的在线存储设备22,并将该待存储数据存储到所确定的在线存储设备22中,其中,所述预先设定的优先级匹配原则为数据优先级越高,与其相匹配的设备性能优先级也越高。
具体地,所述数据分配装置21用于针对任一在线存储设备22,获取该在线存储设备22的各性能加权指标,并根据设定的各性能加权指标的权重系数,对该在线存储设备22的各性能加权指标进行加权运算,得到该在线存储设备22的性能加权值,以及,根据该在线存储设备22的性能加权值或者该在线存储设备22的性能加权值与系统中各在线存储设备22的性能加权值之和的比值,确定该在线存储设备22的设备性能优先级,其中,该在线存储设备22的性能加权值或者该在线存储设备22的性能加权值与系统中各在线存储设备22的性能加权值之和的比值越高,该在线存储设备22的设备性能优先级也越高。
其中,所述性能加权指标可以至少包括以下信息中的一种或多种:存储设备的可用容量、存储设备的处理器速度、存储设备的内存大小等,本发明实施例对此不作任何限定。
进一步地,所述数据分配装置21用于针对任一待存储数据,获取该待存储数据的各数据加权指标,并根据设定的各数据加权指标的权重系数,对该待存储数据的各数据加权指标进行加权运算,得到该待存储数据的数据加权值,以及,根据该待存储数据的数据加权值或者该待存储数据的数据加权值与系统中各待存储数据的数据加权值之和的比值,确定该待存储数据的数据优先级,其中,该待存储数据的数据加权值或者该待存储数据的数据加权值与系统中各待存储数据的数据加权值之和的比值越高,该待存储数据的数据优先级也越高。
其中,所述数据加权指标可以至少包括以下信息中的一种或多种:数据的重要度、数据的访问量以及数据的大小等,本发明实施例对此不作任何限定。
进一步地,所述数据分配装置21还可以用于对系统中的各存储设备22进行集群管理,如可以通过配置存储设备群集配置数据库的方式来对系统中的各存储设备22进行集群管理,当有新的存储设备22接入群集时,注册该新接入存储设备22的配置信息,并将该新接入存储设备22的配置信息更新到存储设备群集配置数据库中,当有存储设备22离线时,注销该离线存储设备22的配置信息,并从存储设备群集配置数据库中删除该离线存储设备22的配置信息;同时,所述数据分配装置21还可以将最新的存储设备群集配置数据库信息发送给各在线存储设备22,从而使得各在线存储设备22均能够保存有最新的存储设备群集配置数据库副本,以便与所述数据分配装置21中配置的存储设备群集配置数据库保持一致。
进一步地,所述数据分配装置21还用于将确定的各在线存储设备22的设备性能优先级(或各在线存储设备22的设备性能加权值)进行存储;具体地,所述数据分配装置21可以根据保存的存储设备群集配置数据库来完成各存储设备22对应的设备元以及设备元数据的注册、更新以及注销等操作。
进一步地,所述数据分配装置21可以采用多维稀疏MAP(所述多维稀疏MAP可以由KEY和VALUE组成,其索引可以为行关键字、列关键字和时间戳)的形式将各在线存储设备22的设备性能优先级(或各在线存储设备的性能加权值)与对应的在线存储设备22的设备信息(如存储设备的MAC地址、存储设备的名称等)进行存储。
进一步地,所述数据分配装置21在进行各设备元数据的存储时,可以将存储设备的MAC地址作为行关键字,将存储设备的名称和存储设备的设备性能优先级(或存储设备的性能加权值)作为列,加权计算的时间戳作为标识,进而,所得到的设备元数据具体可以表示为MAP<存储设备的MAC地址,存储设备性能DATA>,其中,存储设备性能DATA为一数组,其中包括存储设备的名称、存储设备的设备性能优先级(或存储设备的性能加权值)等信息,并且,针对任一设备元数据,该设备元数据中DATA数组的标识为该设备元对应的设备性能加权值的加权计算时间。
进一步地,所述数据分配装置21还可以用于将确定的各待存储数据的数据优先级(或各待存储数据的数据加权值)进行存储。
进一步地,所述数据分配装置21可以采用多维稀疏MAP的形式将各待存储数据的数据优先级(或各待存储数据的数据加权值)与对应的待存储数据的数据信息(如待存储数据的数据块关键字、待存储数据的数据块名称等)进行存储;进一步地,在进行各数据元数据的存储时,可以将待存储数据的数据块关键字作为行关键字,将待存储数据的数据块名称和待存储数据的数据优先级(或待存储数据的数据加权值)作为列,加权计算的时间戳作为标识,进而,所得到的数据元数据具体可以表示为MAP<待存储数据的数据块关键字,待存储数据的加权DATA>,其中,待存储数据的加权DATA为一数组,其中包括待存储数据的数据块名称、待存储数据的数据优先级(或待存储数据的数据加权值)等信息,并且,针对任一数据元数据,该数据元数据中DATA数组的标识为该数据元对应的待存储数据加权值的加权计算时间。
进一步地,所述数据分配装置21还用于在设定时长到达时,重新确定各在线存储设备22的设备性能优先级以及各在线存储设备22中已存储的存储数据的数据优先级,并根据重新确定后的各在线存储设备22的设备性能优先级以及各已存储数据的数据优先级,将任一已存储数据重新分配到具备与其对应的数据优先级相匹配的设备性能优先级的在线存储设备22中,以及,当任一已存储数据的数据优先级低于设定的阈值时,将该已存储数据进行离线存储。
具体地,所述设定时长可以根据实际情况进行调整,例如:当对系统中的存储数据以及存储设备的优先级的动态实时性要求较高时,所述设定时长可以为一较小数值,当对系统中的存储数据以及存储设备的优先级的动态实时性要求较低时,所述设定时长可以为一较大数值,本发明实施例对此不作任何限定;进一步地,所述设定阈值也可以根据实际情况进行调整,本发明实施例对此也不作任何限定。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (14)

1.一种基于海量数据的数据分配方法,其特征在于,所述方法包括:
确定系统中各在线存储设备的设备性能优先级以及各待存储数据的数据优先级;
针对任一待存储数据,按照预先设定的优先级匹配原则,确定具备与该待存储数据的数据优先级相匹配的设备性能优先级的在线存储设备,并将该待存储数据存储到所确定的在线存储设备中;
其中,所述预先设定的优先级匹配原则为数据优先级越高,与其相匹配的设备性能优先级也越高。
2.如权利要求1所述的数据分配方法,其特征在于,确定系统中各在线存储设备的设备性能优先级,具体包括:
针对任一在线存储设备,获取该在线存储设备的各性能加权指标,并根据设定的各性能加权指标的权重系数,对该在线存储设备的各性能加权指标进行加权运算,得到该在线存储设备的性能加权值;
根据该在线存储设备的性能加权值或者该在线存储设备的性能加权值与系统中各在线存储设备的性能加权值之和的比值,确定该在线存储设备的设备性能优先级;
其中,该在线存储设备的性能加权值或者该在线存储设备的性能加权值与系统中各在线存储设备的性能加权值之和的比值越高,该在线存储设备的设备性能优先级也越高。
3.如权利要求2所述的数据分配方法,其特征在于,
所述性能加权指标至少包括以下信息中的一种或多种:存储设备的可用容量、存储设备的处理器速度、存储设备的内存大小。
4.如权利要求1所述的数据分配方法,其特征在于,确定系统中各待存储数据的数据优先级,具体包括:
针对任一待存储数据,获取该待存储数据的各数据加权指标,并根据设定的各数据加权指标的权重系数,对该待存储数据的各数据加权指标进行加权运算,得到该待存储数据的数据加权值;
根据该待存储数据的数据加权值或者该待存储数据的数据加权值与系统中各待存储数据的数据加权值之和的比值,确定该待存储数据的数据优先级;
其中,该待存储数据的数据加权值或者该待存储数据的数据加权值与系统中各待存储数据的数据加权值之和的比值越高,该待存储数据的数据优先级也越高。
5.如权利要求4所述的数据分配方法,其特征在于,
所述数据加权指标至少包括以下信息中的一种或多种:数据的重要度、数据的访问量以及数据的大小。
6.如权利要求1所述的数据分配方法,其特征在于,所述方法还包括:
在设定时长到达时,重新确定各在线存储设备的设备性能优先级以及各在线存储设备中已存储的存储数据的数据优先级;
根据重新确定后的各在线存储设备的设备性能优先级以及各已存储数据的数据优先级,将任一已存储数据重新分配到具备与其对应的数据优先级相匹配的设备性能优先级的在线存储设备中;以及,
当已存储数据的数据优先级低于设定的阈值时,将该已存储数据进行离线存储。
7.一种基于海量数据的数据分配装置,其特征在于,所述装置包括:
设备管理模块,用于确定系统中各在线存储设备的设备性能优先级;
数据管理模块,用于确定系统中各待存储数据的数据优先级;
数据分配模块,用于针对任一待存储数据,按照预先设定的优先级匹配原则,确定具备与该待存储数据的数据优先级相匹配的设备性能优先级的在线存储设备,并将该待存储数据存储到所确定的在线存储设备中,其中,所述预先设定的优先级匹配原则为数据优先级越高,与其相匹配的设备性能优先级也越高。
8.如权利要求7所述的数据分配装置,其特征在于,
所述设备管理模块,具体用于针对任一在线存储设备,获取该在线存储设备的各性能加权指标,并根据设定的各性能加权指标的权重系数,对该在线存储设备的各性能加权指标进行加权运算,得到该在线存储设备的性能加权值,以及,根据该在线存储设备的性能加权值或者该在线存储设备的性能加权值与系统中各在线存储设备的性能加权值之和的比值,确定该在线存储设备的设备性能优先级,其中,该在线存储设备的性能加权值或者该在线存储设备的性能加权值与系统中各在线存储设备的性能加权值之和的比值越高,该在线存储设备的设备性能优先级也越高。
9.如权利要求8所述的数据分配装置,其特征在于,
所述性能加权指标至少包括以下信息中的一种或多种:存储设备的可用容量、存储设备的处理器速度、存储设备的内存大小。
10.如权利要求7所述的数据分配装置,其特征在于,
所述数据管理模块,具体用于针对任一待存储数据,获取该待存储数据的各数据加权指标,并根据设定的各数据加权指标的权重系数,对该待存储数据的各数据加权指标进行加权运算,得到该待存储数据的数据加权值,以及,根据该待存储数据的数据加权值或者该待存储数据的数据加权值与系统中各待存储数据的数据加权值之和的比值,确定该待存储数据的数据优先级,其中,该待存储数据的数据加权值或者该待存储数据的数据加权值与系统中各待存储数据的数据加权值之和的比值越高,该待存储数据的数据优先级也越高。
11.如权利要求10所述的数据分配装置,其特征在于,
所述数据加权指标至少包括以下信息中的一种或多种:数据的重要度、数据的访问量以及数据的大小。
12.如权利要求7所述的数据分配装置,其特征在于,
所述设备管理模块,还用于在设定时长到达时,重新确定各在线存储设备的设备性能优先级;
所述数据管理模块,还用于在设定时长到达时,重新确定各在线存储设备中已存储的存储数据的数据优先级;
所述数据分配模块,还用于根据重新确定后的各在线存储设备的设备性能优先级以及各已存储数据的数据优先级,将任一已存储数据重新分配到具备与其对应的数据优先级相匹配的设备性能优先级的在线存储设备中,以及,当已存储数据的数据优先级低于设定的阈值时,将该已存储数据进行离线存储。
13.一种基于海量数据的数据分配系统,其特征在于,所述系统包括至少一个数据分配装置以及至少一个存储设备:
所述数据分配装置,用于确定系统中各在线存储设备的设备性能优先级以及各待存储数据的数据优先级,并针对任一待存储数据,按照预先设定的优先级匹配原则,确定具备与该待存储数据的数据优先级相匹配的设备性能优先级的在线存储设备,并将该待存储数据存储到所确定的在线存储设备中,其中,所述预先设定的优先级匹配原则为数据优先级越高,与其相匹配的设备性能优先级也越高。
14.如权利要求13所述的数据分配系统,其特征在于,
所述数据分配装置,还用于在设定时长到达时,重新确定各在线存储设备的设备性能优先级以及各在线存储设备中已存储的存储数据的数据优先级,并根据重新确定后的各在线存储设备的设备性能优先级以及各已存储数据的数据优先级,将任一已存储数据重新分配到具备与其对应的数据优先级相匹配的设备性能优先级的在线存储设备中,以及,当已存储数据的数据优先级低于设定的阈值时,将该已存储数据进行离线存储。
CN201210523636.5A 2012-12-07 2012-12-07 一种基于海量数据的数据分配方法、装置及系统 Pending CN103853500A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210523636.5A CN103853500A (zh) 2012-12-07 2012-12-07 一种基于海量数据的数据分配方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210523636.5A CN103853500A (zh) 2012-12-07 2012-12-07 一种基于海量数据的数据分配方法、装置及系统

Publications (1)

Publication Number Publication Date
CN103853500A true CN103853500A (zh) 2014-06-11

Family

ID=50861217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210523636.5A Pending CN103853500A (zh) 2012-12-07 2012-12-07 一种基于海量数据的数据分配方法、装置及系统

Country Status (1)

Country Link
CN (1) CN103853500A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104571954A (zh) * 2014-12-26 2015-04-29 杭州华为数字技术有限公司 一种数据存储方法及装置
CN108874316A (zh) * 2018-06-06 2018-11-23 郑州云海信息技术有限公司 存储资源集中管理的方法、装置、设备及可读存储介质
CN110096477A (zh) * 2019-04-30 2019-08-06 北京三快在线科技有限公司 一种数据存储的方法及装置
CN110830391A (zh) * 2018-08-10 2020-02-21 阿里巴巴集团控股有限公司 资源分配方法及装置、集群系统
CN112527187A (zh) * 2019-12-24 2021-03-19 许昌学院 一种面向个人用户的分布式在线存储系统及方法
CN113485139A (zh) * 2021-07-14 2021-10-08 无锡小天鹅电器有限公司 基于全屋联动的洗衣控制方法、装置、家电设备及服务器
CN113986116A (zh) * 2021-09-07 2022-01-28 广东珠江智联信息科技股份有限公司 分布式存储系统及基于分布式存储系统的数据管理方法
CN115868941A (zh) * 2023-03-03 2023-03-31 深圳市魔样科技有限公司 用于智能戒指的信息管理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101369451A (zh) * 2007-08-14 2009-02-18 三星电子株式会社 固态存储器、包含其的计算机系统和操作其的方法
CN101610562A (zh) * 2009-07-14 2009-12-23 中控科技集团有限公司 无线传感器网络的路由方法、无线传感器节点及系统
CN102035748A (zh) * 2010-12-31 2011-04-27 深圳市深信服电子科技有限公司 一种基于应用的流量控制方法及流量控制器
CN102508789A (zh) * 2011-10-14 2012-06-20 浪潮电子信息产业股份有限公司 一种系统分级存储的方法
CN102713827A (zh) * 2010-01-07 2012-10-03 国际商业机器公司 用于分层存储架构的区间迁移

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101369451A (zh) * 2007-08-14 2009-02-18 三星电子株式会社 固态存储器、包含其的计算机系统和操作其的方法
CN101610562A (zh) * 2009-07-14 2009-12-23 中控科技集团有限公司 无线传感器网络的路由方法、无线传感器节点及系统
CN102713827A (zh) * 2010-01-07 2012-10-03 国际商业机器公司 用于分层存储架构的区间迁移
CN102035748A (zh) * 2010-12-31 2011-04-27 深圳市深信服电子科技有限公司 一种基于应用的流量控制方法及流量控制器
CN102508789A (zh) * 2011-10-14 2012-06-20 浪潮电子信息产业股份有限公司 一种系统分级存储的方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104571954A (zh) * 2014-12-26 2015-04-29 杭州华为数字技术有限公司 一种数据存储方法及装置
CN104571954B (zh) * 2014-12-26 2018-05-18 杭州华为数字技术有限公司 一种数据存储方法及装置
CN108874316A (zh) * 2018-06-06 2018-11-23 郑州云海信息技术有限公司 存储资源集中管理的方法、装置、设备及可读存储介质
CN110830391A (zh) * 2018-08-10 2020-02-21 阿里巴巴集团控股有限公司 资源分配方法及装置、集群系统
CN110096477A (zh) * 2019-04-30 2019-08-06 北京三快在线科技有限公司 一种数据存储的方法及装置
CN110096477B (zh) * 2019-04-30 2022-04-01 北京三快在线科技有限公司 一种数据存储的方法及装置
CN112527187A (zh) * 2019-12-24 2021-03-19 许昌学院 一种面向个人用户的分布式在线存储系统及方法
CN112527187B (zh) * 2019-12-24 2024-01-26 许昌学院 一种面向个人用户的分布式在线存储系统及方法
CN113485139A (zh) * 2021-07-14 2021-10-08 无锡小天鹅电器有限公司 基于全屋联动的洗衣控制方法、装置、家电设备及服务器
CN113986116A (zh) * 2021-09-07 2022-01-28 广东珠江智联信息科技股份有限公司 分布式存储系统及基于分布式存储系统的数据管理方法
CN115868941A (zh) * 2023-03-03 2023-03-31 深圳市魔样科技有限公司 用于智能戒指的信息管理方法

Similar Documents

Publication Publication Date Title
CN103853500A (zh) 一种基于海量数据的数据分配方法、装置及系统
CN104766188B (zh) 一种物流配送的方法及系统
Wang et al. Joint optimization of condition-based maintenance and inventory control for a k-out-of-n: F system of multi-state degrading components
US20110320118A1 (en) Travel time determination
CN105117171A (zh) 一种能源scada海量数据分布式处理系统及其方法
CN107092437A (zh) 数据写入、读取方法及装置、云存储系统
CN108182508A (zh) 一种电动汽车充电站规划的方法及系统
CN102930062A (zh) 一种数据库快速水平扩展的方法
CN103336792B (zh) 数据分区方法和装置
CN103473334A (zh) 数据存储、查询方法及系统
CN107592304B (zh) 直播资源计算分配方法、存储介质、电子设备及系统
CN102999573A (zh) 条带状gis地图要素的缓存更新方法
CN103970879B (zh) 一种调整数据块存储位置的方法及系统
CN109522382A (zh) 空间数据网格化统计方法及装置
CN107391045A (zh) 一种目录空间配额方法及系统
CN101419600A (zh) 基于面向对象文件系统的数据副本映射方法及装置
US20230267015A1 (en) Resource scheduling method and apparatus, electronic device and computer readable storage medium
CN105227618A (zh) 一种通信站点位置信息处理方法及系统
US9031891B2 (en) Computing system and method for controlling the execution of a decision process to maintain the data access efficiency upon receipt of an availability information inquiry
CN101572016B (zh) 提供航班运行数据的方法及系统
CN101827120A (zh) 一种集群存储方法及系统
CN102779058A (zh) 界面数据加载装置和界面数据加载方法
EP3096248A1 (en) Data management system and data management method
CN105022753A (zh) 一种数据存储方法及系统
CN106326333A (zh) 一种网络审计系统数据库动态分表方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140611

RJ01 Rejection of invention patent application after publication