CN103440301A - 一种数据多副本混合存储方法及系统 - Google Patents

一种数据多副本混合存储方法及系统 Download PDF

Info

Publication number
CN103440301A
CN103440301A CN2013103680958A CN201310368095A CN103440301A CN 103440301 A CN103440301 A CN 103440301A CN 2013103680958 A CN2013103680958 A CN 2013103680958A CN 201310368095 A CN201310368095 A CN 201310368095A CN 103440301 A CN103440301 A CN 103440301A
Authority
CN
China
Prior art keywords
data
subregion
partition
subzone
partitioned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103680958A
Other languages
English (en)
Other versions
CN103440301B (zh
Inventor
王颖
狄静舒
宋怀明
苗艳超
刘新春
邵宗有
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Co Ltd
Original Assignee
Dawning Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Co Ltd filed Critical Dawning Information Industry Co Ltd
Priority to CN201310368095.8A priority Critical patent/CN103440301B/zh
Publication of CN103440301A publication Critical patent/CN103440301A/zh
Application granted granted Critical
Publication of CN103440301B publication Critical patent/CN103440301B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据多副本混合存储方法及系统,在数据加载阶段,将原始数据进行多次分区,每次分区采用不同的分区方式,将每次分区所得到的的分区数据存储到多个服务器中。本发明还主要针对大规模数据联机分析提供了一种数据处理方法。本发明在没有增加数据存储占用的磁盘空间、没有降低数据可靠性的前提下,增加了数据分区的多样性,使得更多场景的按分组进行的一类数据处理可以按照分区并行执行,降低了更多场景下的数据查询处理的开销,解决了现有技术中副本单一分区导致某些按分组进行数据处理的场景效率低的问题。

Description

一种数据多副本混合存储方法及系统
技术领域
本发明涉及计算机领域,尤其涉及一种数据多副本混合存储方法、数据多副本混合存储系统及数据处理方法。
背景技术
在大数据处理领域,数据通常是分片存储的,数据分区的目的不仅仅是将数据分布式存储。为了进一步保证可靠性,还会采用副本技术。目前,现有的大数据分区存储技术,针对一份数据的多个副本都是采用相同的分区方式。减少加载阶段的计算量的同时,如果数据的某个副本出错或者丢失时,可直接拷贝其他存在的正确的副本即可恢复;数据有修改时,也可以直接对相应的多个副本同时修改即可。在某些操作中,合理的数据分区可以减少数据处理过程中节点之间的数据传输开销,进而很大程度上提高数据分布式处理的效率。尤其是大表的连接操作,分区是很重要的技术方案。将连接操作按照相同的方式进行分区,对应的分区内部进行连接操作,可以对多个分区同时进行连接操作,这些连接操作可以在多个节点上并行执行,同时不必有数据迁移和重分布的操作。这也是如今在内存受限和网络带宽成为瓶颈的情况下,大表连接操作高效可行的方案。数据存储和分区需要数据迁移,尤其是多节点之间的分布式存储和分区需要消耗较高的网络带宽,查询之前临时进行分区显然会导致查询效率大大降低,加载的时候采用预分区存储,可以一劳永逸地提高查询效率。
例如:分布式文件系统HDFS,直接根据文件大小分块存储,没有考虑特定分区方式。即使构建于之上的数据仓库Hive和数据库HBase提供了各自的分区功能,分布式文件系统HDFS的多个副本仍然是采用了相同的分区方式。还有,现有的NoSQL(也即Not only SQL)数据库HBase仅采用了范围划分,也即Range分区这一种分区方式。而非关系数据库Cassandra采用一致性Hash在多节点之间分布数据。
从以上说明可以看出,目前在大数据处理系统中,在数据加载时只会采用一种分区方式。如果连接的列和连接条件与分区不一致,仍然会导致数据大范围的重分布操作,还是会导致很高的网络带宽开销。也就是,如果分区是根据一列进行的分区,而连接操作是根据另一列进行的,这种情况就是分区方式与连接操作的条件不一致,就需要大范围的数据重分布操作。除此之外,很多业务可能需要针对同一批数据按照不同的分区进行操作,例如,有的操作是按第一列进行分组操作(data1 join data2 on col1或者group by col1),有的操作可能是按第二列进行分组操作(data1 join data2 on col2或者group by col2)。因此,单一的分区方式在分区与连接操作不一致或同一批数据需要按不同分区进行操作等场景就可能导致大范围的数据重分布,在一定程度上限制了数据处理的效率。
发明内容
针对现有技术中存在的上述问题,本发明提出了一种数据多副本混合存储方法及系统,增加了数据分区的多样性,使得更多场景的按照分组进行的一类数据处理可以按照分区并行执行,以增加少量加载阶段的计算量为代价,提高了更多场景的数据处理的计算效率。
为实现上述目的,本发明提供了一种数据多副本混合存储方法,主要技术方案如下:
在数据加载阶段,将原始数据进行多次分区,每次分区采用不同的分区方式;
将每次分区所得到的分区数据存储到多个服务器上。
所述分区方式为范围Range分区、散列Hash分区、列表分区或混合分区。
将每次分区所得到的分区数据按存储负载均衡原则、访问负载均衡原则或数据可靠性原则存储到各服务器上。
本发明还提供了一种数据多副本混合存储系统,包括:
分区模块,用于在数据加载阶段,将原始数据进行多次分区,其中,每次分区采用不同的分区方式;
服务器,用于存储每次分区所得到的分区数据。
所述分区模块具体用于按照范围Range分区、散列分区Hash分区、列表分区或混合分区方式将原始数据进行多次分区。
所述服务器具体用于根据存储负载均衡原则、访问负载均衡原则或数据可靠性原则存储每次分区所得到的分区数据。
本发明还提供了一种数据处理方法,包括以下步骤:
在数据加载阶段,将多组数据进行多次分区,每次分区采用不同的分区方式,每次分区时各组数据的分区方式相同;
将各次分区所得到的的分区数据存储到多个服务器中;
其中,所述多组数据在同一次分区中得到的具有相同属性的分区数据存储于同一服务器中。
所述具有相同属性的分区数据为:各组数据每次分区后,不同组数据之间属性值相同的分区数据。
所述分区方式为范围Range分区、散列Hash分区、列表分区或混合分区。
所述数据处理方法具体用于联机分析处理大数据分析应用场景。
本发明提供的一种数据多副本混合存储方法、数据多副本混合存储系统及数据处理方法,以在数据加载阶段增加少量计算为代价,在没有增加数据存储占用的磁盘空间、没有降低数据可靠性的前提下,降低了更多场景下的数据查询处理的开销,解决了现有技术中副本单一分区的数据处理效率低的问题。
附图说明
图1为本发明实施例的数据多副本混合存储方法的示意图;
图2为现有技术中的数据多副本存储方法的示意图;
图3为本发明实施例的数据多副本混合存储系统的示意图;
图4为本发明实施例的数据处理方法的流程图;
图5为本发明实施例的两组数据多副本混合存储的示意图;
图6为本发明实施例一的示意图;
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,以下结合附图对本发明的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本发明的一部分实施例,而不是所有实施例的穷举。
本发明为了迎合海量数据处理的实际需求,提出了一种数据多副本混合存储方法及系统,其中,副本的数量可以根据实际需要来确定。本发明的核心思想在于,以增加少量加载阶段的计算量为代价,来提高更多场景的计算效率。本发明的数据多副本混合存储方法很适合写一次、读多次、计算多次的联机分析处理OLAP(On-Line Analytical Processing)大数据分析应用场景。
所谓多副本是指一份数据存储多个备份,而混合存储指的是每个副本以不同的分区方式存储。
下面结合附图对本发明实施例进行详细说明:
本发明实施例提供了一种数据多副本混合存储方法,包括以下步骤:
在数据加载阶段,将原始数据进行备份存储的时候,也即进行多次分区,多次分区形成的分区数据作为原始数据的多个副本,每个副本采用不同的分区方式,也即每次分区采用不同的分区方式;其中,每次采用的分区方式可以是现有技术中的范围Range分区、散列Hash分区、列表分区或混合分区。将每次分区所得到的分区数据存储到多个服务器上。不同分区方式得到的分区数据作为原始数据的多个副本,存储到多个服务器上。其中,存储时可以根据存储负载均衡原则、访问负载均衡原则或数据可靠性原则等将每次分区所得到的分区数据存储到各服务器上。
如图1所示,以两次分区为例,对本发明实施例的数据多副本混合存储方法具体说明如下:
将原始数据DATA按分区方式1进行分区,形成分区A、分区B、分区C;再将原始数据DATA按分区方式2进行分区,形成分区2-1、分区2-2、分区2-3、分区2-4;将这两种分区方式形成的分区作为双副本存储到服务器1、服务器2、服务器3上,存储可以根据负载均衡原则进行存储,在此就不再赘述。
采用本发明实施例所提供的数据多副本混合存储方法,可以使得服务器上存储的多副本为按不同分区方式形成的分区数据,既可以达到作为副本的目的,又可以为后续数据之间进行连接操作时提供便利,不需要数据迁移。不仅如此,本发明实施例所提供的数据多副本混合存储方法还可以在所有需要针对分区进行操作的业务中提高数据处理效率。比如,数据1和数据2按第一列连接(data1join data2 on col1或者group by col1),有的操作可能是按第二列进行分组操作(data1 join data2 on col2或者group by col2),这时采用本发明实施例提供的数据多副本混合存储方法就可以根据多个分区进行并行操作,不需要数据重新分布了。
而传统的数据副本存储方法,在数据加载阶段仅将数据按照一种分区方式进行一次分区,形成多个分区;然后将每个分区复制成多份,分发到相应的服务器节点上存储。以双副本为例,如图2所示,首先将系统中每种数据在加载时按一种分区方式分成5个分区,分别为Data1-Data5,再将每个分区复制一份作为副本,存储在各服务器上。当一种数据需要和另一种数据进行连接操作时,只能按照上述所说的那一种分区方式进行连接,如果连接操作是按另一种分区方式进行的,则需要大量的数据迁移,重新分布数据或者说是重划分数据。
而采用本发明的数据多副本混合存储方法,则可以避免上述存在的技术问题。与上述传统的数据副本存储方法相比,采用本发明实施例的技术方案,既起到了备份的作用,数据的存储量没有变化,且如果出现按照第二种分区进行连接操作的应用场景,也不必进行数据重划分。
基于同一发明构思,本发明实施例还提供了一种数据多副本混合存储系统,如图3所示,该系统包括分区模块201和服务器202:
分区模块201,用于在数据加载阶段,为了保证可靠性,需要将原始数据多副本备份存储,也即将原始数据进行多次分区,其中,本发明实施例中将多副本采用不同的分区进行存储,即每次分区采用不同的分区方式;其中,分区模块具体用于按照范围Range分区、散列分区Hash分区、列表分区或混合分区方式将原始数据进行多次分区。分区方式可以是现有技术中的范围分区(Range分区)、散列分区(Hash分区)、列表分区、混合分区中的任意一个或几个。
分区操作可以采用嵌套式的分区,也即,以一组数据为例,首先将该数据按一种分区方式进行分区,在所形成的分区内部将各分区数据按照另一种分区方式再进行一次分区。采用这样层层嵌套的方式实现分区,可以将不同分区方式形成的分区之间互相作为副本,也即多副本。分区操作还可以采用直接将该组数据分别进行多次分区,每次分区采用不同的分区方式。也即,将该数据按一种分区方式进行分区,再将该数据按另一种分区方式进行分区,以此类推。
服务器202,用于存储每次分区所得到的分区数据。服务器在存储过程中,具体用于根据存储负载均衡原则、访问负载均衡原则或数据可靠性原则存储每次分区所得到的分区数据。本领域技术人员可以有各种存储方式,本发明对此不做限制。对于不同组数据,应确保每个服务器上存有多组数据在同一次分区中得到的具有相同属性的分区数据。
对于系统中的数据都可以采用本发明实施例所提供的数据多副本混合存储方法,当数据之间需要进行连接操作时,可能涉及多组数据之间的交互。因此,基于同一发明构思,本发明实施例还提供了一种数据处理方法,主要针对大规模数据的联机分析处理,如连接操作。如图4所示,包括以下步骤:
步骤S101、假设系统中有多组数据,在数据加载过程中,将多组数据进行多次分区,每次分区采用不同的分区方式,每次分区时各组数据的分区方式相同。
也就是说,假设多组数据为A、B、C…Z,每个字母代表一组数据。将这多组数据首先分别按分区方式1进行第一次分区,得到:
A组数据第一次分区结果:A11、A12、…、A1j、…、A1m
B组数据第一次分区结果:B11、B12、…、B1j、…、B1m
C组数据第一次分区结果:C11、C12、…、C1j、…、C1m,…
Z组数据第一次分区结果:Z11、Z12、…、Z1j、…、Z1m
其中,字母A、B、C…Z表示不同的数据组,而每个字母的下标第一位代表第几次分区(本次为第一次分区则下标第一位为“1”),每个字母的下标第二位表示该组数据的第一次分区后的分区序号。“m”表示第一次分区数量为m个分区。
再将多组数据按分区方式2进行第二次分区,得到:
A21、A22、…、A2j、…、A2n
B21、B22、…、B2j、…、B2n
C21、C22、…、C2j、…、C2n,…
Z21、Z22、…、Z2j、…、Z2n
每个字母的下标第一位“2”表示第二次分区,以C21为例说明,代表C组数据按分区方式2进行第二次分区得到的第1个分区。“n”表示第二次分区数量为n个分区,其中每次分区的数量可以相同,也可以不同,也就是说m可以等于n,也可以不等于n。
以此类推,以分区方式i进行第i次分区,得到:
Ai1、Ai2、…、Aij、…,
Bi1、Bi2、…、Bij、…,
Ci1、Ci2、…、Cij、…,…
Zi1、Zi2、…、Zij、…。
其中,下标相同的不同组数据的分区属于具有相同属性的数据分区。也即,A11、B11、C11、…、Z11为具有相同属性的数据分区,A23、B23、C23、…Z23也为具有相同属性的数据分区,同理,Aij、Bij、Cij、…、Zij为具有相同属性的数据分区。这样,不同分区方式形成的分区作为该组数据的多副本,也即,A11-A1m、A21-A2n、…、Ai1-Aij均为A组数据的多副本。
S102、将各次分区所得到的的分区数据存储到多个服务器中,多组数据在同一次分区中得到的具有相同属性的数据分区存储于同一服务器中。也就是说,将各组数据下标值相同的分区存储于同一服务器中,以便于后续的连接操作。比如,将分区A21、B21、C21、…、Z21放到同一服务器上进行存储。对于同组数据的各分区,可以根据一定的存储负载均衡原则、访问负载均衡原则、数据可靠性原则等将同组数据分布存储到多个服务器上,本发明对此不作限制。
其中,分区方式可以是范围Range分区、散列Hash分区、列表分区或者是复合分区(也称混合分区),也可以是其他的分区方式。本发明对多组数据进行分区的分区方式不作限制,本领域技术人员可以采用现有技术中其他的分区方式,但只要是采用本发明所提供的数据处理方法,均应该在本发明的保护范围之内。
其中,将数据按照多种分区方式进行分区,可以得到多个副本,具体进行几次分区可以根据实际需要进行设置,本发明对分区次数不作限制。一般情况下,考虑到系统性能的原因,进行2次分区(也即i=2)即可达到混合存储备份的目的。
另外,每次分区具体分成多少个分区,也即分区数量,在实际应用中可能根据需要或者根据分区方式都会有所不同,本发明对每次分区的分区数量也不作限制。
采用本发明实施例所提供的存储方式,可以保证如果出现按照第i种分区方式进行连接操作时也不需要进行数据重划分了,因为每个服务器中已经存在各组数据按照第i种分区方式形成的具有相同属性的分区数据。这样的话,当每种数据之间进行连接操作时,就可以按多种分区方式进行连接,不需要数据迁移。此处所说的连接操作,是指将数据库中的两种或两种以上的数据,根据相同的字段的值相等的行合并为一行,形成一个新的大数据表。
具体的连接操作如图5所示,下面以两组数据(数据1和数据2)进行具体连接操作时的过程为例,进行详细说明如下:
假设数据1和数据2是需要进行连接操作的两种数据,且二者的数据量都比较大,一台机器内有限,多个服务器节点并行联结,效率将会更高。首先将数据1按不同的分区方式进行分区,此处以两次分区为例,按分区方式1分为分区A11、A12、A13、A14,按分区方式2分为分区A21、A22、A23、A24、A25;同理,将数据2按照数据1的分区方式进行两次分区,按分区方式1分为分区B11、B12、B13、B14;,按分区方式2分为分区B21、B22、B23、B24、B25
在数据存储时,将各个分区按照负载均衡原则存储到各服务器上,只需要确保数据1和数据2相同属性的分区数据在同一服务器上即可,这样就可以避免迁移。例如,将数据1的分区A11与数据2的分区B11存储在同一服务器(服务器1)上,将数据1的分区A22与数据2的分区B22存储在同一服务器(服务器3)上;当数据1与数据2需要按照分区方式1进行连接操作时,就不需要与其他节点进行数据交换,当数据1与数据2需要按照分区方式2进行连接操作时,也不需要与其他节点进行数据交换。
本发明中同组数据的不同分区在服务器上的分布只需要遵循负载均衡原则、数据可靠性原则等即可,而对于不同组数据,则需要确保不同组数据的相同分区在一个服务器上,这样在连接操作时就可以避免数据迁移。
比如两次分区的情况,采用这样的数据处理方法,可以确保即使对数据进行连接操作时与第一次分区的方式不一致,也可以以第二次分区方式进行连接操作。当然,上述说明仅是本发明实施例的一个举例,具体应用时可以进行多次分区,而不仅限于第一次分区和第二次分区。同时,对于分区形成的分区数也只是举例而已,现实应用时可能根据分区方式的不同或其他需要,将数据分区成多个,本发明对分区的次数和每次分区形成的分区数量都不作限制。
实施例一、
如图6所示,将北京人口数据作为数据1、天津人口数据作为数据2,。首先分别将北京人口数据(数据1)按姓氏(分区方式1)拆分成多个分区,拆分后的结果就是北京张氏为分区A11,北京王氏为分区A12…;再按年龄(分区方式2)拆分成多个分区,拆分结果为北京0-30岁为分区A21,北京31-60岁为分区A22…。同样的,天津人口数据(数据2)也按姓氏(分区方式1)拆分,拆分结果为天津张氏为分区B11,天津王氏为分区B12…;再按年龄(分区方式2)拆分,拆分结果为天津0-30岁为分区B21,天津31-60岁为分区B22…。
在进行数据存储时,考虑一定的负载均衡策略将北京人口数据(数据1)存储到多个服务器上,只需确保北京人口数据(数据1)和天津人口数据(数据2)的相同分区在同一服务器上存储即可。比如,将北京张氏(分区A11)与天津张氏(分区B11)存储在同一服务器上,将北京0-30岁(分区A21)与天津0-30岁(分区B21)存储在同一服务器上。
这样,当北京人口数据(数据1)与天津人口数据(数据2)进行连接操作时,不管是以姓氏(分区方式1)进行连接,还是以年龄(分区方式2)进行连接,都不会涉及与其他服务器节点的数据迁移。
传统数据副本存储方法是将北京人口数据(数据1)按姓氏分区,将天津人口数据(数据2)也按姓氏分区,并将每个分区分别复制成多份,分发到相应的服务器节点上存储。这样的方式,如果连接操作采用的是以年龄进行连接,与按姓氏分区的方式不一致。由于每个服务器里只有按照姓氏得到的分区数据,没有按年龄分区的数据,就需要将数据进行重分布或者说是重划分之后才能进行并行计算,需要大量的数据迁移工作。
本发明提供的这种数据处理方法,虽然在加载时多了一步分区计算,但是数据还是只需要扫描一遍。因此,增加的开销只有分区计算,这部分开销也是为了后面重复多样的数据处理做准备的。用户可以权衡整体的性能,决定是否采用本发明所提供的数据处理方法。
采用本发明的技术方案,每个数据副本都至少是二维分区的,一种分区内部会嵌套另外一种分区。因此,在进行数据恢复时,需要涉及另外一种分区方式的全部副本,利用每个副本属于丢失副本分区的数据进行重构恢复。由于加载时每个分区内部的多个二维分区已经是分开存储的,因此这种恢复也省去了逐条数据扫描分区的开销,仍然只需要跟传统分区方式一样的数据拷贝开销,因为拷贝的数据量并没有变化。
采用本发明所提供的技术方案,在没有增加数据存储占用的磁盘空间、没有降低数据可靠性的前提下,增加了数据分区的多样性,使得更多场景的按分组进行的一类数据处理可以按照分区并行执行,降低了更多场景下数据查询处理的开销,因为省去了开销巨大的数据迁移操作,解决了现有技术中副本单一分区导致某些按分组进行数据处理的场景效率低的问题。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,在不背离本发明精神及其实质的情况下,本领域技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围内。

Claims (10)

1.一种数据多副本混合存储方法,其特征在于,包括以下步骤:
在数据加载阶段,将原始数据进行多次分区,每次分区采用不同的分区方式;
将每次分区所得到的分区数据存储到多个服务器上。
2.如权利要求1所述的数据多副本混合存储方法,其特征在于,所述分区方式为范围Range分区、散列Hash分区、列表分区或混合分区。
3.如权利要求1所述的数据多副本混合存储方法,其特征在于,将每次分区所得到的分区数据按存储负载均衡原则、访问负载均衡原则或数据可靠性原则存储到各服务器上。
4.一种数据多副本混合存储系统,其特征在于,包括:
分区模块,用于在数据加载阶段,将原始数据进行多次分区,其中,每次分区采用不同的分区方式;
服务器,用于存储每次分区所得到的分区数据。
5.如权利要求4所述的数据多副本混合存储系统,其特征在于,所述分区模块具体用于按照范围Range分区、散列分区Hash分区、列表分区或混合分区方式将原始数据进行多次分区。
6.如权利要求4所述的数据多副本混合存储系统,其特征在于,所述服务器具体用于根据存储负载均衡原则、访问负载均衡原则或数据可靠性原则存储每次分区所得到的分区数据。
7.一种数据处理方法,其特征在于,包括以下步骤:
在数据加载阶段,将多组数据进行多次分区,每次分区采用不同的分区方式,每次分区时各组数据的分区方式相同;
将各次分区所得到的分区数据存储到多个服务器中;其中,所述多组数据在同一次分区中得到的具有相同属性的分区数据存储于同一服务器中。
8.如权利要求7所述的数据处理方法,其特征在于,所述具有相同属性的分区数据为:各组数据每次分区后,不同组数据之间属性值相同的分区数据。
9.如权利要求7所述的数据处理方法,其特征在于,所述分区方式为范围Range分区、散列Hash分区、列表分区或混合分区。
10.如权利要求7所述的数据处理方法,其特征在于,所述数据处理方法具体用于联机分析处理大数据分析应用场景。
CN201310368095.8A 2013-08-21 2013-08-21 一种数据多副本混合存储方法及系统 Active CN103440301B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310368095.8A CN103440301B (zh) 2013-08-21 2013-08-21 一种数据多副本混合存储方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310368095.8A CN103440301B (zh) 2013-08-21 2013-08-21 一种数据多副本混合存储方法及系统

Publications (2)

Publication Number Publication Date
CN103440301A true CN103440301A (zh) 2013-12-11
CN103440301B CN103440301B (zh) 2017-06-13

Family

ID=49693993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310368095.8A Active CN103440301B (zh) 2013-08-21 2013-08-21 一种数据多副本混合存储方法及系统

Country Status (1)

Country Link
CN (1) CN103440301B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050102A (zh) * 2014-06-26 2014-09-17 北京思特奇信息技术股份有限公司 一种电信系统中的对象存储方法及装置
CN104202435A (zh) * 2014-09-28 2014-12-10 北京奇虎科技有限公司 数据拖取的方法和装置
CN104850591A (zh) * 2015-04-24 2015-08-19 百度在线网络技术(北京)有限公司 一种数据的转换存储方法及装置
CN105847392A (zh) * 2016-04-25 2016-08-10 乐视控股(北京)有限公司 Hdfs写入方法及装置
CN106462484A (zh) * 2014-07-01 2017-02-22 微软技术许可有限责任公司 云中的分布式流处理
CN106776598A (zh) * 2015-11-19 2017-05-31 中国移动通信集团公司 一种信息处理方法及装置
CN106933933A (zh) * 2015-12-31 2017-07-07 北京国双科技有限公司 数据表信息的处理方法及装置
CN107451154A (zh) * 2016-05-31 2017-12-08 华为技术有限公司 一种数据表的处理方法、装置及系统
CN108255966A (zh) * 2017-12-25 2018-07-06 太极计算机股份有限公司 一种数据迁移方法及存储介质
CN108959510A (zh) * 2018-06-27 2018-12-07 阿里巴巴集团控股有限公司 一种分布式数据库的分区级连接方法和装置
CN112181989A (zh) * 2020-10-12 2021-01-05 浙江大华技术股份有限公司 一种分布式数据库的数据处理方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876983A (zh) * 2009-04-30 2010-11-03 国际商业机器公司 数据库分区方法与系统
CN102831120A (zh) * 2011-06-15 2012-12-19 腾讯科技(深圳)有限公司 一种数据处理方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876983A (zh) * 2009-04-30 2010-11-03 国际商业机器公司 数据库分区方法与系统
CN102831120A (zh) * 2011-06-15 2012-12-19 腾讯科技(深圳)有限公司 一种数据处理方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
曹万云 等: "《云计算技术、平台及应用案例》", 31 May 2011 *
私塾在线: "海量数据库及分区2", 《HTTP://SISHUOK.COM/FORUM/BLOGPOST/LIST.6409.HTML》 *
陶永才等: "异构环境下云计算数据副本动态管理研究", 《小型微型计算机系统》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050102A (zh) * 2014-06-26 2014-09-17 北京思特奇信息技术股份有限公司 一种电信系统中的对象存储方法及装置
CN106462484B (zh) * 2014-07-01 2019-08-20 微软技术许可有限责任公司 云中的分布式流处理
CN106462484A (zh) * 2014-07-01 2017-02-22 微软技术许可有限责任公司 云中的分布式流处理
US10225302B2 (en) 2014-07-01 2019-03-05 Microsoft Technology Licensing, Llc Distributed stream processing in the Cloud
CN104202435B (zh) * 2014-09-28 2017-10-31 北京奇虎科技有限公司 数据拖取的方法和装置
CN104202435A (zh) * 2014-09-28 2014-12-10 北京奇虎科技有限公司 数据拖取的方法和装置
CN104850591B (zh) * 2015-04-24 2019-03-19 百度在线网络技术(北京)有限公司 一种数据的转换存储方法及装置
CN104850591A (zh) * 2015-04-24 2015-08-19 百度在线网络技术(北京)有限公司 一种数据的转换存储方法及装置
CN106776598A (zh) * 2015-11-19 2017-05-31 中国移动通信集团公司 一种信息处理方法及装置
CN106933933A (zh) * 2015-12-31 2017-07-07 北京国双科技有限公司 数据表信息的处理方法及装置
CN106933933B (zh) * 2015-12-31 2019-12-10 北京国双科技有限公司 数据表信息的处理方法及装置
CN105847392A (zh) * 2016-04-25 2016-08-10 乐视控股(北京)有限公司 Hdfs写入方法及装置
CN107451154A (zh) * 2016-05-31 2017-12-08 华为技术有限公司 一种数据表的处理方法、装置及系统
CN108255966A (zh) * 2017-12-25 2018-07-06 太极计算机股份有限公司 一种数据迁移方法及存储介质
CN108959510A (zh) * 2018-06-27 2018-12-07 阿里巴巴集团控股有限公司 一种分布式数据库的分区级连接方法和装置
CN108959510B (zh) * 2018-06-27 2022-04-19 北京奥星贝斯科技有限公司 一种分布式数据库的分区级连接方法和装置
CN112181989A (zh) * 2020-10-12 2021-01-05 浙江大华技术股份有限公司 一种分布式数据库的数据处理方法及装置

Also Published As

Publication number Publication date
CN103440301B (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN103440301A (zh) 一种数据多副本混合存储方法及系统
US20130166502A1 (en) Segmented storage for database clustering
US20180075052A1 (en) Tiering with pluggable storage system for parallel query engines
US8538985B2 (en) Efficient processing of queries in federated database systems
EP2422282B1 (en) Asynchronous distributed object uploading for replicated content addressable storage clusters
US9256665B2 (en) Creation of inverted index system, and data processing method and apparatus
CN102725755B (zh) 文件访问方法及系统
CN104111936B (zh) 数据查询方法和系统
TW201530328A (zh) 爲半結構化資料構建NoSQL資料庫索引的方法及裝置
CN110297869B (zh) 一种ai数据仓库平台及操作方法
CN102508902A (zh) 云存储系统中可变分块大小的块数据分块方法
CN103246549B (zh) 一种数据转存的方法及系统
CN106970929A (zh) 数据导入方法及装置
US20210365300A9 (en) Systems and methods for dynamic partitioning in distributed environments
US10289723B1 (en) Distributed union all queries
US20170371892A1 (en) Systems and methods for dynamic partitioning in distributed environments
Liu et al. Hadoop based scalable cluster deduplication for big data
WO2023066222A1 (zh) 数据处理方法、装置、电子设备、存储介质及程序产品
CN107506394A (zh) 一种消除大数据规范关系连接冗余的优化方法
CN110399340A (zh) 一种文件处理方法及装置
Li et al. MR‐tree: an efficient index for MapReduce
Backialakshmi et al. Data de duplication using N0SQL Databases in Cloud
Yue et al. Join query processing in data quality management
Lee et al. Application of filters to multiway joins in MapReduce
Bhushan et al. Cost based model for big data processing with hadoop architecture

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant