CN114676141A - 一种数据处理方法、装置及电子设备 - Google Patents
一种数据处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114676141A CN114676141A CN202210352750.XA CN202210352750A CN114676141A CN 114676141 A CN114676141 A CN 114676141A CN 202210352750 A CN202210352750 A CN 202210352750A CN 114676141 A CN114676141 A CN 114676141A
- Authority
- CN
- China
- Prior art keywords
- data
- database
- data table
- updated
- fragmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000013467 fragmentation Methods 0.000 claims abstract description 92
- 238000006062 fragmentation reaction Methods 0.000 claims abstract description 92
- 230000005012 migration Effects 0.000 claims abstract description 78
- 238000013508 migration Methods 0.000 claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 23
- 230000004044 response Effects 0.000 claims abstract description 9
- 239000012634 fragment Substances 0.000 claims description 67
- 230000015654 memory Effects 0.000 claims description 10
- 238000007689 inspection Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 12
- 238000004590 computer program Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 239000000047 product Substances 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/214—Database migration support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种数据处理方法、装置及电子设备;所述方法包括:响应于第一数据库中第一数据表的参数满足条件,更新第一数据表的分片策略;基于更新后的分片策略,将所述第一数据库的数据迁移到第二数据库。本申请提供的数据库中数据表的分片方法,可以节约人力成本,提高分片效率,在保证数据库性能的同时保证数据迁移的准确性。
Description
技术领域
本申请涉及数据库技术领域,尤其涉及一种数据处理方法、装置及电子设备。
背景技术
目前,互联网系统中的数据大多采用关系型数据库进行存储。但是,关系型数据库采用的索引类型,注定了单表不可能在存储上亿或上十亿级别的数据的同时,提供很高的查询效率。所以,通常采用数据分片的方式解决数据量过大带来的查询效率下降的问题。
目前大多使用shardingJDBC、myCat等中间件进行数据库分片,而这些中间件都需要通过人工的方式新增分片,消耗了大量的人力和时间。节约人力成本,提高分片效率,保证数据库的性能的同时保证数据迁移的准确性,是数据库分片技术需要解决的问题。
发明内容
本申请实施例提供一种数据处理方法、装置及电子设备,节约了人力成本,提高了分片效率,并且在保证数据库的性能的同时保证了数据迁移的准确性。
本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种数据处理方法,包括:
响应于第一数据库中第一数据表的参数满足条件,更新第一数据表的分片策略;
基于更新后的分片策略,将所述第一数据库的数据迁移到第二数据库。
在上述方案中,所述响应于第一数据库中第一数据表的参数满足条件,包括:
所述第一数据库中的至少一个数据表达到数据量阈值;
和/或,所述第一数据库达到性能阈值。
在上述方案中,所述基于更新后的分片策略,将所述第一数据库的数据迁移到第二数据库,包括:
基于所述第一数据表的当前分片策略、当前分片数量、所述第一数据表分片在预设周期内的增长速度,确定所述更新后的分片策略。
在上述方案中,所述确定所述更新后的分片策略,包括:
确定所述预设周期内的增长速度与预设的时间间隔的积与数据量阈值之商得到的值,与当前分片数量的和为更新后的所述第一数据表的分片数量。
在上述方案中,所述基于更新后的分片策略,将所述第一数据库的数据迁移到第二数据库,包括:
将更新分片策略之前的第一数据库的原始数据与更新分片策略之后的新增数据全部写入第二数据库。
在上述方案中,所述将更新分片策略之前的第一数据库的原始数据与更新分片策略之后的新增数据全部写入第二数据库,包括:
根据更新后的分片策略,在第二数据库中,建立与所述第一数据表对应的第二数据表分片;
启动针对数据表的双写操作模式,在所述双写操作模式下,所述新增数据同时被写入所述第一数据表和所述第二数据表分片;
将更新分片策略之前的所述第一数据库的原始数据按照更新后的分片策略同步到所述第二数据库。
在上述方案中,所述基于更新后的分片策略,将所述第一数据库的数据迁移到第二数据库之后,包括:
对迁移完成后的所述第二数据库基于数据量、分片键与唯一键进行迁移结果检验,并生成迁移报告。
在上述方案中,对迁移完成后的所述第二数据库基于数据量、分片键与唯一键进行迁移结果检验,并生成迁移报告,包括:
分别比对所述第一数据库的数据量与所述第二数据库的数据量之间的差异、所述第一数据库的数据表的分片键与所述第二数据库的数据表的分片键之间的差异、所述第一数据库的数据的唯一键与所述第二数据库的唯一键之间的差异,得到比对结果;
将所述比对结果输出至迁移报告。
第二方面,本申请实施例提供一种数据处理装置,所述数据处理装置包括:
分片策略模块,用于响应于第一数据库中第一数据表的参数满足条件,更新第一数据表的分片策略;
数据迁移模块,用于基于更新后的分片策略,将所述第一数据库的数据迁移到第二数据库。
第三方面,本申请实施例提供一种电子设备,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请实施例提供的数据处理方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行本申请实施例提供的数据处理方法。
本申请实施例提供的数据处理方法,响应于第一数据库中第一数据表的参数满足条件,更新第一数据表的分片策略;基于更新后的分片策略,将所述第一数据库的数据迁移到第二数据库。可以节省人力,提高分片效率,保证数据库的性能同时保证数据迁移的准确性。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例提供的数据处理方法的一种可选处理流程示意图;
图2是本申请实施例提供的数据库路由的系统结构图;
图3是本申请实施例提供的系统工作流程的结构示意图;
图4是本申请实施例提供的数据处理装置的一种可选装置结构示意图;
图5是本申请实施例提供的将第一数据库数据迁移到第二数据库的一种可选处理流程示意图;
图6是本申请实施例提供的数据处理方法的一种电子设备的框图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
将介绍本申请实施例提供的一种数据处理方法,参见图1,图1是本申请实施例提供的数据处理方法的一种可选处理流程示意图,下面将结合图1示出的步骤S101-S102进行说明。
步骤S101,响应于第一数据库中第一数据表的参数满足条件,更新第一数据表的分片策略。
在一些实施例中,响应于第一数据库中第一数据表的参数满足条件,可以包括:所述第一数据库中的至少一个数据表达到数据量阈值;或者,所述第一数据库达到性能阈值;或者,第一数据库中的至少一个数据表达到数据量阈值,以及所述第一数据库达到性能阈值。其中,性能阈值可以是指数据库中数据表的查询性能。
数据量阈值可以通过数据库中数据表的特性确定。作为示例,如果数据表的字段很少,数据值也比较小,数据量阈值可以定为每张表5000万条数据;如果数据表的字段很多,数据值很大,则数据量阈值相应可以设定为一个较小值。其中,数据量阈值可以根据实际业务需求灵活确定。
在一些实施例中,监测数据库中数据表的数据量至少可以有两种方式:第一种方式是通过统计计数的方式对数据表的数据量计数,可以执行SQL(Structured QueryLanguage,结构化查询语言)数据库中的count(计数)函数对数据表的数据量进行统计,获取该数据表的数据量;第二种方式是通过唯一值字段计数的方式对数据表的数据量计数,可以在创建数据表时,为每行数据设置一个唯一值的字段,唯一值是唯一且自增的,如果一个数据表的唯一值字段是从1开始的,这样最新一条数据的唯一值字段值就等于该数据表的数据量。
其中,在一些实施例中,第一种统计计数方式可以通过定时任务实现,例如每5分钟,对数据表的数据量进行统计,判断数据库中的数据表是否达到数据量阈值。
在一些实施中,数据表阈值设置的非常高,使用第一种统计计数的方式会耗时太长,需要使用第二种唯一值字段计数的方式。在一些实施例中,可以为数据库中数据表的每一条数据创建一个唯一值的字段,唯一值可以是唯一且自增的整数。在实际业务中,通过查询数据表中唯一键字段的起始值,可以确定该数据表的数据量。
性能阈值可以通过数据库的性能确定,其中,可以由数据库对数据表的查询性能确定。
作为示例,可以通过几个时间段内,数据表查询数据的平均时间或者查询的最大时间来确定阈值。例如,在连续几个十分钟内(时间间隔可以为十分钟、半小时、或一个小时等),查询的平均时间为50ms,可以将性能阈值确定为50ms。
在一些实施例中,可以结合数据量阈值和性能阈值确定数据表中的数据量是否达到数据量阈值。当数据库性能指标达到性能阈值时,再进行数据的重新分片,可以保证应用程序服务和数据库性能的稳定。
作为示例,计算的数据量阈值是3000万,但是对数据库本身性能来说来说,1000万数据量就已经达到性能瓶颈了,而如果按照数据量阈值3000万来设定数据分片的话,会导致数据库的系统性能下降。因此,这种情况下,数据量阈值的确定要结合数据量阈值和性能阈值综合考虑,保证数据库的性能。
当监测到第一数据库中第一数据表达到预先阈值的阈值时,则标志着该数据表需要重新进行分片,在重新分片之前,需要先更新重新分片策略。其中,第一数据表为第一数据库包括的数据表中的任意一个数据表。
在一些实施例中,重新分片策略至少可以包括三种:自动计算重新分片数量;预先设置每次重新分片的扩展分片数量;在需要扩展分片时,人工设置分片数量。
在一些实施例中,自动计算重新分片数量的一种实现过程为:基于所述第一数据表的当前分片策略、当前分片数量、所述第一数据表分片在预设周期内的增长速度,确定所述更新后的分片策略。
在一些实施例中,确定所述更新后的分片策略,可以通过确定所述预设周期内的增长速度与预设的时间间隔的积与数据量阈值之商得到的值,与当前分片数量的和为更新后的所述第一数据表的分片数量。
作为示例:数据量阈值用N表示,当前分片数量用C表示,半年内数据增长速度用S(时间单位:天)表示,以及预期到下次重新分片间隔时间,用T(时间单位:天)表示。重新分片数量可通过下述公式(1)确定:
(S*T)/N+C(1)
其中,根据当前分片数量、半年内数据增长速度、预期到下次重新分片间隔时间确定重新分片数量,使得在任何数量级的情况下都可以分配合适的分片数量,不会因为数据增长过快频繁的触发扩容。其中,数据增长速度S对应的时间段可以根据实际业务需求设定。而且,使用这种方法,可以使数据分片过程自动进行,可以节约人力成本,提高数据表分片效率。
在一些实施例中,预先设置每次重新分片的扩展分片数量的一种实现过程为:预先设置数据表下次达到阈值时,数据表重新分片的数量。作为示例,若一个业务在前半年推广活动比较多,与业务相关的数据增长速率比较高,但是该业务在下半年的推广活动明显较少,若利用上半年的增长率计算下半年的数据量,是不符合实际要求的。此时,需要根据实际情况灵活根据下半年的数据量,确定需要扩展的分片数量。
在一些实施例中,在需要扩展分片时,人工设置分片数量的一种实现过程为:当数据表的数据量达到数据量阈值后,系统不使用自动计算重新分片数量的方式,而是通过报警或短信等方式通知给工作人员,由工作人员判断是否需要新增分片,并且人为确定需要扩展的分片数量。作为示例,若一个业务在某个时间节点以后就不会再继续进行了,此时,上述前两种重新分片策略是不适用的,负责人可以根据业务的实际情况对数据表的分片数量进行设置。
步骤S102,基于更新后的分片策略,将所述第一数据库的数据迁移到第二数据库。
在一些实施例中,基于更新后的分片策略,将所述第一数据库的数据迁移到第二数据库,如图5所示,图5为本申请实施例中将第一数据库数据迁移到第二数据库的一种可选处理流程示意图。
步骤S102a,将更新分片策略之前的第一数据库的原始数据与更新分片策略之后的新增数据全部写入第二数据库。
在一些实施例中,根据更新后的分片策略,建立与第一数据库对应的第二数据库,以及在第二数据库中建立与第一数据表对应的第二数据表分片。之后,启动针对数据表的双写操作模式,正式开始分片策略变更操作。在双写操作模式下,系统将更新分片策略,开启双写模式之后新增的数据同时写入第一数据库和第二数据库,包括将第一数据表新增的数据按照更新后的分片策略写入第二数据库对应的数据表中。并且,将第一数据库在更新分片策略,开启双写模式之前的原始数据同步到所述第二数据库,包括将第一数据库第一数据表按照更新的分片策略写入第二数据库中第二数据表分片中。此过程中,数据读取仍然通过第一数据库的数据进行读取。
在一些实施例中,第一数据表分片的数据迁移过程为:以取模方式为例,第一数据表中每条数据都有一个预先设定的唯一值字段,其中,唯一值是自增且唯一的,可以表示为数据在数据表中的序号。假设重新分片策略计算出的新的数据分片的数量为10,将第一数据表中的每条数据对应的唯一值进行模10运算,得到第一数据表中的每条数据在第二数据表分片中的分片序号,并将数据记录到对应分片序号的数据表中。
步骤S102b,对迁移完成后的所述第二数据库基于数据量、分片键与唯一键进行迁移结果检验,并生成迁移报告。
在一些实施例中,数据库在数据迁移过程中,可能会发生数据遗漏、数据错写等问题,出现误差。因此在数据迁移完成之后,数据迁移结果需要进行检查,确保迁移后数据的准确性。
其中,迁移结果检查可以包括三方面:一是比对第一数据库的数据量与第二数据库的数据量,判断两个数据库的数据量是否一致;二是比对第一数据库的数据表的分片键与所述第二数据库的数据表的分片键,判断两个数据库的分片键是否一致;三是比对第一数据库的数据的唯一键与所述第二数据库的唯一键,若两个数据库的数据量一致、分片键一致,以及唯一键一致,则证明数据迁移没有发生错误。
以订单表作为示例:确定数据量表示为订单的总量;唯一键可以表示为订单号,其中,订单号一旦生成就不会发生改变;分片键可以表示为订单号对应的用户id(identity,身份标识)。因为每个订单都只对应一个用户id,订单表使用用户id分表的话,因为一个订单自产生开始,只对应一个用户id,所以分片键也是不会改变的。
迁移报告的内容主要包括:第一数据库的数据量与第二数据库的数据量之间的差异、第一数据库的数据表的分片键与第二数据库的数据表的分片键之间的差异、第一数据库的数据的唯一键与第二数据库的唯一键之间的差异。
在生成迁移报告之后,将迁移报告并发送给负责人处理。若在迁移报告中显示,第二数据表分片的数据比第一数据表分片的数据少了几条,负责人会通过报告内容,以及业务需求,判断这些丢失的数据需不需要补充完整。
作为示例,如果迁移后的第二数据库的数据表分片相比第一数据库数据表分片的数据出现数据缺失,但是此业务有明显的时效性,即过去的数据对未来的业务没有参考价值,负责人可以直接忽略掉。否则,负责人就需要通过人工的方式对第二数据库的数据表分片的数据进行补充。
下面说明本申请实施例提供的系统插件或者中间件的示例性应用,具备轻量化的特点,无需单独硬件设备做基础,可以集成到应用程序中,用起来更加方便。
参见图2,图2是本申请实施例提供的数据库路由的系统结构图。本申请实施例采用数据库路由的方式,在原有数据库中间件原理的基础上,加入数据量监测、自动增加分片、自动分片路由及自动数据迁移功能。本申请实施例的数据库路由200主要包括:监测中心202、路由策略中心203、数据库管理中心206和数据迁移中心209。
监测中心202对关系型数据库201进行监听,用于感知数据库中的数据表是否达到预先设置的阈值。
当监测中心202监测到第一数据库中某一个/组数据表达到预先阈值的阈值时,则标志着该数据表需要重新进行分片,监测中心202将该情况通知给路由策略中心203。
数据库管理中心206主要负责数据表分片管理。在数据库管理中心206获取到路由策略中心203重新确定的新的分片策略之后,创建第二数据库,并且根据新的分片信息,在第二数据库中创建新的数据分片。在数据迁移全部完成之后,数据库管理中心206将第一数据库以及相应的数据表分片进行释放。数据库管理中心206包括:数据分片数量管理单元207和新增数据分片单元208。其中,数据分片数量管理单元207主要负责记录当前各个数据表的分片数量、分片名称等信息;新增数据分片单元208主要负责新数据分片的创建及旧数据分片的释放。
路由策略中心203接收到监测中心202对第一数据库中第一数据表需要进行重新分片的通知后,路由策略中心203开启双写模式。路由策略中心203包括数据读写路由204和数据双写单元205。其中,数据双写单元205将更新数据表分片策略,开启双写模式之后系统接收到的新增数据,同时写入第一数据库和第二数据库;路由策略中心203向数据迁移中心209发起迁移指令。此时,用户读取数据仍然从第一数据库中读取。
数据迁移中心209包括数据迁移管理单元210和迁移检查报告单元211。主要负责在数据表进行重新分片后,将旧数据表分片的数据迁移到新的数据表分片,在迁移完成之后,进行迁移结果检查及生成迁移报告。
其中,在更新分片策略,开启双写的时刻之前,数据迁移管理单元210会记录第一数据表分片的最后一条数据的唯一值,因为第一数据表分片的数据是按顺序进行读写操作的,因此,当被记录的最后一条数据被写入第二数据表分片中时,标志着数据迁移完成。
在数据迁移完成之后,迁移检查报告单元211会对数据迁移结果进行检查,确保第二数据表分片上的数据的准确性。
下面将结合本申请实施例提供的数据库路由的示例性应用,说明本申请实施例提供的系统工作流程的结构示意图,参见图3。
步骤301,监测中心监听第一数据库中数据表的参数满足条件。
步骤302,监测中心判断数据表是否达到阈值,若该数据表达到阈值,则执行步骤303,否则,执行步骤301。其中,监测中心判断数据表超过阈值,包括:第一数据库中的至少一个数据表达到数据量阈值;或者,第一数据库达到性能阈值;或者,第一数据库中的至少一个数据表达到数据量阈值,以及所述第一数据库达到性能阈值;第一数据库的性能阈值可以是第一数据库对数据表的查询性能的阈值。
步骤303,将该判断结果通知给路由策略中心,标志着该数据表需要重新进行分片。
步骤304,获取当前分片信息。路由策略中心接收到监测中心的通知,得知第一数据库中第一数据表已经达到设置的阈值,路由策略中心会从数据库管理中心获取需要重新分片的第一数据表当前的分片信息。
步骤305,重新规划分片策略。路由策略中心根据从数据库管理中心获取的当前分片信息,重新规划分片策略。
步骤306,新增分片。在路由策略中心重新规划分片策略之后,会将更新后的分片策略告知数据库管理中心,数据库管理中心会创建第二数据库以及新增分片,将结果返回给路由策略中心。
步骤307,开启双写。路由策略中心得到数据库管理中心的新增分片结果后,正式开始分片策略变更操作,开启双写,系统将分片策略变更操作,开启双写之后接收到的新增数据,同时写入第一数据库和第二数据库,包括将第一数据库中第一数据表新接收的数据按照更新后的分片策略写入第二数据库对应的第二数据表分片中,此时数据读取仍然读取第一数据库的数据。
步骤308,开始数据迁移。路由策略中心在开启双写之后,向数据迁移中心发起迁移指令,开始数据迁移,此时数据迁移中心开始迁移第一数据库的数据,包括将第一数据库中第一数据表的数据按照更新后的分片策略同步到第二数据库对应的第二数据表分片中。
步骤309,迁移结果检查。数据迁移完成之后,数据迁移中心将按照数据量、分片键与唯一键进行迁移结果检查。
步骤310,输出迁移报告。数据迁移中心在迁移结果检查完成之后,输出迁移报告。在一些实施例中,第二数据表分片在数据迁移过程中,可能会发生数据遗漏、数据错写等问题,出现误差。因此在数据迁移完成之后,数据迁移中心会对数据迁移结果进行检查,确保第二数据表分片上的数据的准确性。
图4为本申请实施例装置数据处理装置的一种可选装置结构示意图,数据处理装置400包括分片策略模块401和数据迁移模块402。其中,
分片策略模块401,用于响应于第一数据库中第一数据表的参数满足条件,更新第一数据表的分片策略;
数据迁移模块402,用于基于更新后的分片策略,将所述第一数据库的数据迁移到第二数据库。
在一些实施例中,所述响应于第一数据库中第一数据表的参数满足条件,包括:所述第一数据库中的至少一个数据表达到数据量阈值;和/或,所述第一数据库达到性能阈值;
在一些实施例中,分片策略模块401具体用于:基于所述第一数据表的当前分片策略。当前分片数量、所述第一数据表分片在预设周期内的增长速度,确定更新后的分片策略。
在一些实施例中,分片策略模块401具体用于:确定所述更新后的分片策略,可以通过确定所述预设周期内的增长速度与预设的时间间隔的积与数据量阈值之商得到的值,与当前分片数量的和为更新后的所述第一数据表的分片数量。
在一些实施例中,数据迁移模块402具体用于:将更新分片策略之前的第一数据库的原始数据与更新分片策略之后的新增数据全部写入第二数据库;对迁移完成后的所述第二数据库基于数据量、分片键与唯一键进行迁移结果检验,并生成迁移报告。
其中,所述将更新分片策略之前的第一数据库的原始数据与更新分片策略之后的新增数据全部写入第二数据库,包括:根据更新后的分片策略,在第二数据库中,建立与所述第一数据表对应的第二数据表分片;启动针对数据表的双写操作模式,在所述双写操作模式下,所述新增数据同时被写入所述第一数据表和所述第二数据表分片;将更新分片策略之前的所述第一数据库的原始数据按照更新后的分片策略同步到所述第二数据库。
对迁移完成后的所述第二数据库基于数据量、分片键与唯一键进行迁移结果检验,并生成迁移报告,包括:分别比对所述第一数据库的数据量与所述第二数据库的数据量之间的差异、所述第一数据库的数据表的分片键与所述第二数据库的数据表的分片键之间的差异、所述第一数据库的数据的唯一键与所述第二数据库的唯一键之间的差异,得到比对结果;将所述比对结果输出至迁移报告。
需要说明的是,本申请实施例的数据处理装置与上述数据处理方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本申请实施例提供的数据处理装置中未尽的技术细节,可以根据图1至图5中任一附图的说明而理解。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备600用于实施本公开实施例的数据处理方法。在一些可选实施例中,电子设备600可以通过运行计算机程序来实现本申请实施例提供的数据处理方法,例如,计算机程序可以是操作系统中的SQL数据库程序或软件模块;可以是本地(Native)应用程序(Application,APP),即需要在操作系统中安装才能运行的程序;可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;也可以是系统插件或者中间件,无需单独硬件设备做基础,可以集成到应用程序中;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
在实际应用中,电子设备600可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,其中,云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。电子设备600可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表等,但并不局限于此。
电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备、车载终端和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,电子设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM603中,还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
电子设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如视觉问答方法。例如,在一些可选实施例中,数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些可选实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为数据处理方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的数据处理方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
应理解,在本申请的各种实施例中,各实施过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
以上,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (11)
1.一种数据处理方法,其特征在于,所述方法包括:
响应于第一数据库中第一数据表的参数满足条件,更新第一数据表的分片
策略;
基于更新后的分片策略,将所述第一数据库的数据迁移到第二数据库。
2.根据权利要求1所述的方法,其特征在于,所述响应于第一数据库中第一数据表的参数满足条件,包括:
所述第一数据库中的至少一个数据表达到数据量阈值;
和/或,所述第一数据库达到性能阈值。
3.根据权利要求1所述的方法,其特征在于,所述基于更新后的分片策略,将所述第一数据库的数据迁移到第二数据库,包括:
基于所述第一数据表的当前分片策略、当前分片数量、所述第一数据表分片在预设周期内的增长速度,确定所述更新后的分片策略。
4.根据权利要求3所述的方法,其特征在于,所述确定所述更新后的分片策略,包括:
确定所述预设周期内的增长速度与预设的时间间隔的积与数据量阈值之商得到的值,与当前分片数量的和为更新后的所述第一数据表的分片数量。
5.根据权利要求1所述的方法,其特征在于,所述基于更新后的分片策略,将所述第一数据库的数据迁移到第二数据库,包括:
将更新分片策略之前的第一数据库的原始数据与更新分片策略之后的新增数据全部写入第二数据库。
6.根据权利要求5所述的方法,其特征在于,所述将更新分片策略之前的第一数据库的原始数据与更新分片策略之后的新增数据全部写入第二数据库,包括:
根据更新后的分片策略,在第二数据库中,建立与所述第一数据表对应的第二数据表分片;
启动针对数据表的双写操作模式,在所述双写操作模式下,所述新增数据同时被写入所述第一数据表和所述第二数据表分片;
将更新分片策略之前的所述第一数据库的原始数据按照更新后的分片策略同步到所述第二数据库。
7.根据权利要求1所述的方法,其特征在于,所述基于更新后的分片策略,将所述第一数据库的数据迁移到第二数据库之后,所述方法包括:
对迁移完成后的所述第二数据库基于数据量、分片键与唯一键进行迁移结果检验,并生成迁移报告。
8.根据权利要求7所述的方法,其特征在于,对迁移完成后的所述第二数据库基于数据量、分片键与唯一键进行迁移结果检验,并生成迁移报告,包括:
分别比对所述第一数据库的数据量与所述第二数据库的数据量之间的差异、所述第一数据库的数据表的分片键与所述第二数据库的数据表的分片键之间的差异、所述第一数据库的数据的唯一键与所述第二数据库的唯一键之间的差异,得到比对结果;
将所述比对结果输出至迁移报告。
9.一种数据处理装置,其特征在于,所述装置包括:
分片策略模块,用于响应于第一数据库中第一数据表的参数满足条件,更新第一数据表的分片策略;
数据迁移模块,用于基于更新后的分片策略,将所述第一数据库的数据迁移到第二数据库。
10.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-8任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210352750.XA CN114676141A (zh) | 2022-03-31 | 2022-03-31 | 一种数据处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210352750.XA CN114676141A (zh) | 2022-03-31 | 2022-03-31 | 一种数据处理方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114676141A true CN114676141A (zh) | 2022-06-28 |
Family
ID=82079007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210352750.XA Pending CN114676141A (zh) | 2022-03-31 | 2022-03-31 | 一种数据处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114676141A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140055489A (ko) * | 2012-10-31 | 2014-05-09 | 삼성에스디에스 주식회사 | 메타데이터 및 트랜잭션 발생량을 고려한 동적 샤딩 기능을 지원하는 분산 데이터베이스 관리 방법 및 그 구성 노드 |
CN106502576A (zh) * | 2015-09-06 | 2017-03-15 | 中兴通讯股份有限公司 | 迁移策略调整方法、容量变更建议方法及装置 |
CN110674108A (zh) * | 2019-08-30 | 2020-01-10 | 中国人民财产保险股份有限公司 | 数据处理方法及装置 |
CN112363994A (zh) * | 2020-10-27 | 2021-02-12 | 杭州大搜车汽车服务有限公司 | 数据库的处理方法、装置、电子装置和存储介质 |
CN113468148A (zh) * | 2021-08-13 | 2021-10-01 | 上海浦东发展银行股份有限公司 | 一种数据库的数据迁移方法、装置、电子设备及其存储介质 |
CN114004623A (zh) * | 2020-07-28 | 2022-02-01 | 上海哔哩哔哩科技有限公司 | 机器学习方法及系统 |
CN114090539A (zh) * | 2021-03-10 | 2022-02-25 | 北京沃东天骏信息技术有限公司 | 数据迁移方法、装置、计算机系统及存储介质 |
-
2022
- 2022-03-31 CN CN202210352750.XA patent/CN114676141A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140055489A (ko) * | 2012-10-31 | 2014-05-09 | 삼성에스디에스 주식회사 | 메타데이터 및 트랜잭션 발생량을 고려한 동적 샤딩 기능을 지원하는 분산 데이터베이스 관리 방법 및 그 구성 노드 |
CN106502576A (zh) * | 2015-09-06 | 2017-03-15 | 中兴通讯股份有限公司 | 迁移策略调整方法、容量变更建议方法及装置 |
CN110674108A (zh) * | 2019-08-30 | 2020-01-10 | 中国人民财产保险股份有限公司 | 数据处理方法及装置 |
CN114004623A (zh) * | 2020-07-28 | 2022-02-01 | 上海哔哩哔哩科技有限公司 | 机器学习方法及系统 |
CN112363994A (zh) * | 2020-10-27 | 2021-02-12 | 杭州大搜车汽车服务有限公司 | 数据库的处理方法、装置、电子装置和存储介质 |
CN114090539A (zh) * | 2021-03-10 | 2022-02-25 | 北京沃东天骏信息技术有限公司 | 数据迁移方法、装置、计算机系统及存储介质 |
CN113468148A (zh) * | 2021-08-13 | 2021-10-01 | 上海浦东发展银行股份有限公司 | 一种数据库的数据迁移方法、装置、电子设备及其存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920272B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN109299336B (zh) | 数据备份方法、装置、存储介质及计算设备 | |
CN108427684B (zh) | 数据查询方法、装置及计算设备 | |
CN111753016B (zh) | 数据处理方法、装置、系统及计算机可读存储介质 | |
CN110290166B (zh) | 跨集群数据交互方法、系统、装置及可读存储介质 | |
CN109753573B (zh) | 一种基于图数据库构建预设模型的处理方法及装置 | |
CN111723159A (zh) | 一种基于区块链的数据验证方法和装置 | |
CN110413631B (zh) | 一种数据查询方法及装置 | |
CN111768096A (zh) | 基于算法模型的评级方法、装置、电子设备及存储介质 | |
CN108833592A (zh) | 云主机调度器优化方法、装置、设备及存储介质 | |
CN112699142A (zh) | 冷热数据处理方法、装置、电子设备及存储介质 | |
CN112181967A (zh) | 源数据质量的监测方法、装置、计算机设备及介质 | |
CN107203437B (zh) | 防止内存数据丢失的方法、装置和系统 | |
CN109951551B (zh) | 一种容器镜像管理系统及方法 | |
CN108256986A (zh) | 基于云计算的薪资计算方法、应用服务器及计算机可读存储介质 | |
CN115988001A (zh) | 区块链系统的共识投票处理方法、装置、设备以及介质 | |
CN113360321A (zh) | 微服务重试调用方法、装置、电子设备及存储介质 | |
CN114676141A (zh) | 一种数据处理方法、装置及电子设备 | |
CN112286930A (zh) | redis业务方资源共享的方法、装置、存储介质及电子设备 | |
CN106326333A (zh) | 一种网络审计系统数据库动态分表方法及装置 | |
CN116303418A (zh) | 基于物联网平台的海量规则处理方法、系统及存储介质 | |
CN115970295A (zh) | 请求处理方法、装置和电子设备 | |
CN113391956B (zh) | 一种双园区的数据校验方法及装置 | |
CN112000671B (zh) | 基于区块链的数据库表处理方法、装置及系统 | |
CN114647701A (zh) | 分布式数据库的负载均衡方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220628 |