CN106021492B - 一种对表格数据进行转存的方法及装置 - Google Patents

一种对表格数据进行转存的方法及装置 Download PDF

Info

Publication number
CN106021492B
CN106021492B CN201610339774.6A CN201610339774A CN106021492B CN 106021492 B CN106021492 B CN 106021492B CN 201610339774 A CN201610339774 A CN 201610339774A CN 106021492 B CN106021492 B CN 106021492B
Authority
CN
China
Prior art keywords
split
target
project
server
splitting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610339774.6A
Other languages
English (en)
Other versions
CN106021492A (zh
Inventor
宫志方
杨培强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Technology Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201610339774.6A priority Critical patent/CN106021492B/zh
Publication of CN106021492A publication Critical patent/CN106021492A/zh
Application granted granted Critical
Publication of CN106021492B publication Critical patent/CN106021492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/119Details of migration of file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种对表格数据进行转存的方法及装置,该方法包括:从原服务器中获取数据量大于预设的拆分阈值的目标表格;确定对所述目标表格进行拆分的控制参数;根据所述控制参数将所述目标表格拆分为至少两个目标子表格;将所述至少两个目标子表格分别存储到不同的替代服务器中,其中每个所述替代服务器中存储一个所述目标子表格。该装置包括:筛选单元、确定单元、拆分单元及转存单元。本方案能够在访问数据量较大的单个表格时降低单个服务器的负载。

Description

一种对表格数据进行转存的方法及装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种对表格数据进行转存的方法及装置。
背景技术
随着计算机技术的不断发展与进步,计算机被广泛应用于生活、生产中的各个领域。由于用户数量以及数据复杂程度的增加,在银行、医院、汽车制造以及电商等应用领域会产生大量的表格数据,例如银行用于记录账户流水的账单、医院用于存储患者病历的表格、汽车生产商用于记录汽车生产过程的记录表以及电商平台用于存储消费者订单的订单表。一般表格数据都存储在同一个服务器上,随着表格数据量的不断增加,服务器的可用存储空间越来越小,需要对表格数据进行转存,以实现存储更多的表格数据。
目前,对表格数据进行转存的方法主要包括:根据业务类型或用户群体对所有表格数据进行划分,将关系密切的表格数据存储到同一个服务器上,从而将原有服务器上的表格数据转存到多个服务器。
针对于现有技术对表格数据进行转存的方法,仅能够实现将一个完整的表格数据转存到其他服务器上,不能将同一个表格拆分后存储到不同的服务器上,因而没有解决对数据量较大的单个表格进行访问时单个服务器负载较高的问题。
发明内容
本发明实施例提供了一种对表格数据进行转存的方法及装置,能够在访问数据量较大的单个表格时降低单个服务器的负载。
本发明实施例提供了一种对表格数据进行转存的方法,包括:
从原服务器中获取数据量大于预设的拆分阈值的目标表格;
确定对所述目标表格进行拆分的控制参数;
根据所述控制参数将所述目标表格拆分为至少两个目标子表格;
将所述至少两个目标子表格分别存储到不同的替代服务器中,其中每个所述替代服务器中存储一个所述目标子表格。
优选地,该方法进一步包括:
获取所述原服务器中数据量小于或等于所述拆分阈值的剩余表格;
将所述剩余表格划分为至少两个表格分组,每一个所述表格分组包括至少一个所述剩余表格;
将所述至少两个表格分组分别存储到不同的所述替代服务器中,其中每个所述替代服务器中存储一个所述表格分组。
优选地,所述将所述剩余表格划分为至少两个表格分组包括:
根据各个所述剩余表格之间关系的密切程度,将关系密切程度较高的所述剩余表格划分到一个表格分组中,形成至少两个所述表格分组。
优选地,所述控制参数包括:拆分数量及拆分形式,其中,所述拆分数量等于对目标表格进行拆分后形成目标子表格的数量,所述拆分形式为根据项目进行拆分或根据变量进行拆分。
优选地,所述根据所述控制参数将所述目标表格拆分为至少两个目标子表格包括:
当所述拆分形式为根据项目进行拆分时,将所述目标表格包括的各个项目划分为数量等于所述拆分数量的项目组,每个所述项目组包括至少一个所述项目,针对于每一个所述项目组创建一个目标子表格用于存储该项目组包括的各个项目对应的数据;
当所述拆分形式为根据变量进行拆分时,确定所述目标表格中的一个项目作为变量,将所述变量的变化范围划分为数量等于所述拆分数量的区间,针对于每一个所述区间创建一个目标子表格用于存储对应所述变量位于该区间内的各条数据。
优选地,所述替代服务器包括:分布式存储服务器。
本发明实施例还提供了一种对表格数据进行转存的装置,包括:筛选单元、确定单元、拆分单元及转存单元;
所述筛选单元,用于从原服务器中获取数据量大于预设的拆分阈值的目标表格;
所述确定单元,用于确定对所述筛选单元获取到的目标表格进行拆分的控制参数;
所述拆分单元,用于根据所述确定单元确定的控制参数,将所述筛选单元获取到的目标表格拆分为至少两个目标子表格;
所述转存单元,用于将所述拆分单元拆分出的至少两个目标子表格分别存储到不同的替代服务器中,其中每个所述替代服务器中存储一个所述目标子表格。
优选地,
所述筛选单元,进一步用于获取所述原服务器中数据量小于或等于所述拆分阈值的剩余表格;
所述拆分单元,进一步用于将所述筛选单元获取到的剩余表格划分为至少两个表格分组,每一个所述表格分组包括至少一个所述剩余表格;
所述转存单元,进一步用于将所述拆分单元划分出的至少两个表格分组分别存储到不同的所述替代服务器中,其中每个所述替代服务器中存储一个所述表格分组。
优选地,
所述拆分单元,用于根据各个所述剩余表格之间关系的密切程度,将关系密切程度较高的所述剩余表格分化到一个表格分组中,形成至少两个所述表格分组。
优选地,
当所述确定单元确定出的控制参数包括拆分数量及拆分形式,且所述拆分形式为根据项目进行拆分时,
所述拆分单元,用于将所述目标表格包括的各个项目划分为数量等于所述拆分数量的项目组,每个所述项目组包括至少一个所述项目,针对于每一个所述项目组创建一个目标子表格用于存储该项目组包括的各个项目对应的数据;
当所述确定单元确定出的控制参数包括拆分数量及拆分形式,且所述拆分形式为根据变量进行拆分时,
所述拆分单元,用于确定所述目标表格中的一个项目作为变量,将所述变量的变化范围划分为数量等于所述拆分数量的区间,针对于每一个所述区间创建一个目标子表格用于存储对应所述变量位于该区间内的各条数据。
本发明实施例提供了一种对表格数据进行转存的方法及装置,从原服务器中获取数据量大于拆分阈值的目标表格,根据确定出的控制参数将目标表格拆分为至少两个目标子表格,将拆分形成的至少两个目标子表格分别存储到不同的替代服务器中。这样,将数据量较大的表格拆分为多个子表格后分别存储到不同的服务器上,在对该表格进行访问时,由多个服务器共同执行访问请求,从各个子表格中获取所需数据完成对该表格的访问,从而降低了单个服务器的负载。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种对表格数据进行转存的方法流程图;
图2是本发明另一个实施例提供的一种对表格数据进行转存的方法流程图;
图3是本发明一个实施例提供的一种对表格数据进行转存的装置所在设备的示意图;
图4是本发明一个实施例提供的一种对表格数据进行转存的装置示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种对表格数据进行转存的方法,该方法可以包括以下步骤:
步骤101:从原服务器中获取数据量大于预设的拆分阈值的目标表格;
步骤102:确定对所述目标表格进行拆分的控制参数;
步骤103:根据所述控制参数将所述目标表格拆分为至少两个目标子表格;
步骤104:将所述至少两个目标子表格分别存储到不同的替代服务器中,其中每个所述替代服务器中存储一个所述目标子表格。
本发明实施例提供了一种对表格数据进行转存的方法,从原服务器中获取数据量大于拆分阈值的目标表格,根据确定出的控制参数将目标表格拆分为至少两个目标子表格,将拆分形成的至少两个目标子表格分别存储到不同的替代服务器中。这样,将数据量较大的表格拆分为多个子表格后分别存储到不同的服务器上,在对该表格进行访问时,由多个服务器共同执行访问请求,从各个子表格中获取所需数据完成对该表格的访问,从而降低了单个服务器的负载。
在本发明一个实施例中,从原服务器中获取数据量小于或等于拆分阈值的剩余表格,将各个剩余表格划分为至少两个表格分组,将各个表格分组分别存储到不同的替代服务器中。这样,不但将数据量较大的表格拆分为多个子表格存储到不同的服务器中,还将数据量较小的各个表格划分为表格分组后存储到不同的服务器中,现实了对表格数据进行分散存储,保证具有足够的存储空间存储表格数据。
在本发明一个实施例中,在对数据量小于或等于拆分阈值的剩余表格进行分组时,根据各个剩余分组之间关系的密切程度,将关系密切程度较高的剩余划分到一个表格分组中,形成至少两个表格分组,将关系密切程度较高的表格划分到一个表格分组中,即将关系密切程度较高的表格存储到同一个服务器上。由于关系密切程序较高的表格被同时访问的可能性较大,将关系密切程序较高的表格存储到一个服务器上可以提高对表格进行访问时的相应速度。
在本发明一个实施例中,控制参数包括拆分数量及拆分形式,通过拆分数量控制对目标表格进行拆分后形成的目标子表格的数量,拆分形式可以为根据项目进行拆分或根据变量进行拆分。通过拆分数量控制对目标表格进行拆分的程度,通过拆分形式控制对目标表格进行拆分后各个目标子表格中包括的内容,从而能够根据目标表格的数据量大小及目标表格包括的内容对目标表格进行合理的拆分,提高了该对表格数据进行在转存的方法的适用性。
在本发明一个实施例中,当拆分形式为根据项目进行拆分时,将目标表格包括的各个项目划分为数量等于拆分数量的项目组,每一个项目中包括至少一个项目,针对于每一个项目组创建一个目标子表格,用该目标子表格存储该项目组包括的各个项目对应的数据,通过这种拆分方式可以将不同的项目存储到不同的服务器上,在访问特定项目下某一数据时只需对该项目对应的服务器进行访问,不需要对其他服务器进行访问,从而提高了服务器的利用率;当拆分形式为根据变量进行拆分时,确定目标表格中的一个项目作为变量,将该变量的变化范围划分为数量等于拆分数量的多个区间,针对于每一个区间创建一个目标子表格,该目标子表格用于存储对应变量位于该区间内的各条数据,通过这种拆分方式可以保证在目标子表格中存储的每条数据都是完成的,适用于访问内容为完整数据的情况,从而实现对一个服务器进行访问便可以获取所需的全部数据,提高服务器的相应速度。
在本发明一个实施例中,用于存储目标子表格和/或表格分组的替代服务器可以是分布式存储服务器,基于分布式存储服务器的特定,可以对某一个服务器进行访问,也可以同时对多个服务器进行访问,提高该对表格数据进行转存的方法的适用性。另外,分布式存储服务器能够实现存储空间的扩展,以进一步扩大用于存储表格数据的空间,延长服务器的服役时间。
为使本发明的目的、技术方案和优点更加清楚,下面以对银行流水账单进行转存为例,对本发明作进一步地详细描述。
如图2所示,本发明实施例提供了一种对表格数据进行转存的方法,该方法可以包括以下步骤:
步骤201:确定对表格数据进行拆分的拆分阈值。
在本发明一个实施例中,设定一个表征表格数据量大小的拆分阈值,以该拆分阈值对原服务器上的表格进行区别,以确定原服务器上的各个表格是否需要进行拆分。
例如,银行流水账单现存储于一个单独的原服务器上,由于原服务器存储空间的不足,现需要将原服务器上的流水账单转存到其他分布式存储服务器上。原服务器中的每一个流水账单对应银行的一个客户,由于不同客户所办理的业务量不同,因而有的流水账单的数据量较小,而有的流水账单的数据量较大。确定拆分阈值为50M,用于区分数据量较大的流水账单和数据量较小的流水账单。
步骤202:分别判断原服务器中的每一个表格数据的数据量是否大于拆分阈值,如果是,执行步骤203,否则执行步骤206。
在本发明一个实施例中,针对于原服务器中存储的每一个表格,将该表格的数据量与拆分阈值进行比较,如果该表格的数据量大于拆分阈值,说明该表格的数据量较大,如果将该表格存储在一台服务器上,对该表格进行访问时存储该表格的服务器的负载较大,服务器的响应时间较长,因而需要将该服表格拆分存储,将该表格确定为目标表格,相应地执行步骤203;如果该表格的数据量小于或等于拆分阈值,说明该表格的数据量较小,将该表格存储到一个服务器上,对该表格进行访问时服务器的负载也不会太大,因而可以将该表格完整的存储到一个服务器上,将该表格确定为剩余表格,相应地执行步骤206。
例如,针对于银行原服务器上的每一个流水账单,判断该流水账单的数据量是否大于50M,如果是,针对于该流水账单执行步骤203,否则针对于该流水账单执行步骤206。
步骤203:确定对目标表格进行拆分的控制参数。
在本发明一个实施例中,根据目标表格的中存储数据的类型以及对目标表格进行访问的形式,确定对目标表格进行拆分的控制参数,控制参数包括拆分数量及拆分形式。拆分数量用于控制将目标表格拆分为多少个目标子表格,根据替代服务器的个数以及目标表格数据量的大小确定拆分数量。拆分形式包括根据项目进行拆分和根据变量进行拆分,其中,根据项目进行拆分是将目标表格中包括的多个项目分别存储到多个目标子表格上,每一个目标子表格上存储一种或多种项目对应的数据,使目标子表格的数量等于拆分数量;根据变量进行拆分是将目标表格中的一个项目作为变量,将变量的变化范围划分为数量等于拆分数量的区间,针对于每一个区间创建一个目标子表格,该目标子表格用于存储变量对应数据位于该区间内的各条数据。
例如,一个流水账单表格中存储中8000条数据,而用于转存流水账单的分布式存储服务器共包括有10个服务器,确定控制参数中拆分数量为10,同时确定控制参数中的拆分形式为根据变量进行拆分,以银行账户交易的订单号为变量。
步骤204:根据控制参数将目标表格拆分为对应数量的目标子表格。
在本发明一个实施例中,根据步骤203中确定的拆分数量及拆分形式,将目标表格拆分为数量等于拆分数量的目标子表格。当拆分形式为根据项目进行拆分时,首先对各个项目进行分组,形成数量与拆分数量相等的项目组,每一个项目组中包括至少一个项目,针对于每一个项目组创建一个目标子表格,将该项目组中包括的各个项目以及各个项目对应的具体数据存储到该项目组对应的目标子表格中,从而将目标表格拆分为对应数量的目标子表格。当拆分形式为根据变量进行拆分时,根据各个区间对应变量的变化范围,以及目标表格中每一条数据中作为变量的项目的数值,将各条数据存储到区间对应的目标子表格中,从而将目标表格拆分为对应数量的目标子表格。
例如,根据流水账单表格中订单号的顺序,将流水账单表格中的8000条数据划分为10组,每组包括800条数据,创建10个目标子表格,每组对应一个目标子表格,将每个组中包括的800条数据存储到对应的目标子表格中,形成10个目标子表格。
步骤205:将各个目标子表格存储到替代服务器中,其中每个替代服务器中存储一个目标子表格,并结束当前流程。
在本发明一个实施例中,将目标表格拆分为对应数量的目标子表格后,将各个目标子表格分别存储到各个替代服务器中,其中每个服务器上最多存储一个目标子表格。
例如,分布式存储服务器共包括有10个服务器,分别为服务器1至服务器10,步骤204中拆分出的10个目标子表格分别为目标子表格1至目标子表格10,将目标子表格1至目标子表格10分别存储到服务器1至服务器10上。
步骤206:获取原服务器上各个数据量小于或等于拆分阈值的剩余表格。
在本发明一个实施例中,步骤202中判断一个表格是数据量小于或等于拆分阈值的剩余表格后,对该剩余表格进行暂存,当步骤202完成对原服务器中所有表格进行判断后,获取到原服务器上所有数据量小于或等于拆分阈值的剩余表格。
例如,银行的原服务器上共查处有10万个流水账单表格,通过步骤202的判断,其中有1万个流水账单表格的数据量大于50M,这1万个流水账单表格作为目标表格依次执行步骤203至步骤205后,被拆分为目标子表格存储到10个服务器上;剩余的9万个流水账单表格的数据量小于或等于50M,这9万个流水账单表格作为剩余表格被暂时存储。
步骤207:将各个剩余表格划分为至少两个表格分组,每个表格分组包括至少一个剩余表格。
在本发明一个实施例中,在获取到所有数据量小于拆分阈值的剩余表格后,根据各个剩余表格之间关系的密切程度,将关系密切程序较高的剩余表格划分到一个表格分组,每个表格分组包括至少一个剩余表格,形成至少两个表格分组。
例如,通过查询每一个数据量小于或等于50M的流水账单表格中记录的交易信息,针对于每一个数据量小于或等于50M的流水账单表格,确定该流水账单表格所属客户的常用交易账号,将常用交易账号对应的数据量小于或等于50M的流水账单表格与该流水账单表格划分到一个表格分组中。因为一个账户的支付对应与另一个账户的收入,将经常进行交易的两个账户对应的流水账单存储到一个服务器上可以减小流水账单表格寻址时间,提高服务器的响应时间。这样,将9万个数据量小于或等于50M的流水账单表格划分为10个表格分组,10个表格分组分别为表格分组1至表格分组10,其中表格分组1及表格分组2中分别包括2万个流水账单表格,表格分组3及表格分组4中分别包括1万个流水账单表格,表格分组5至表格分组10中分别包括5000个流水账单表格。
步骤208:将各个表格分组存储到不同的替代服务器上,每一个替代服务器身上存储一个表格分组。
在本发明一个实施例中,将各个数据量小于或等于拆分阈值的剩余表格划分为至少两个表格分组后,分别将各个表格分组存储到不同的替代服务器上,每一个替代服务器上存储一个表格分组。
例如,将表格分组1只表格分组10依次存储到服务器1至服务器10上,完成对数据量小于50M的9万个流水账单表格的转存。
如图3、图4所示,本发明实施例提供了一种对表格数据进行转存的装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图3所示,为本发明实施例提供的对表格数据进行转存的装置所在设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图4所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的对表格数据进行转存的装置,包括:筛选单元401、确定单元402、拆分单元403及转存单元404;
筛选单元401,用于从原服务器中获取数据量大于预设的拆分阈值的目标表格;
确定单元402,用于确定对筛选单元401获取到的目标表格进行拆分的控制参数;
拆分单元403,用于根据确定单元402确定的控制参数,将筛选单元401获取到的目标表格拆分为至少两个目标子表格;
转存单元404,用于将拆分单元403拆分出的至少两个目标子表格分别存储到不同的替代服务器中,其中每个替代服务器中存储一个目标子表格。
在本发明一个实施例中,
筛选单元401,进一步用于获取原服务器中数据量小于或等于拆分阈值的剩余表格;
拆分单元403,进一步用于将筛选单元401获取到的剩余表格划分为至少两个表格分组,每一个表格分组包括至少一个剩余表格;
转存单元404,进一步用于将拆分单元403划分出的至少两个表格分组分别存储到不同的替代服务器中,其中每个替代服务器中存储一个表格分组。
在本发明一个实施例中,拆分单元403,用于根据各个剩余表格之间关系的密切程度,将关系密切程度较高的剩余表格分化到一个表格分组中,形成至少两个表格分组。
在本发明一个实施例中,当确定单元402确定出的控制参数包括拆分数量及拆分形式,且拆分形式为根据项目进行拆分时,拆分单元403,用于将目标表格包括的各个项目划分为数量等于拆分数量的项目组,每个项目组包括至少一个项目,针对于每一个项目组创建一个目标子表格用于存储该项目组包括的各个项目对应的数据;当确定单元402确定出的控制参数包括拆分数量及拆分形式,且拆分形式为根据变量进行拆分时,拆分单元403,用于确定目标表格中的一个项目作为变量,将变量的变化范围划分为数量等于拆分数量的区间,针对于每一个区间创建一个目标子表格用于存储对应变量位于该区间内的各条数据。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明提供的各个实施例,至少具有如下有益效果:
1、本发明实施例中,从原服务器中获取数据量大于拆分阈值的目标表格,根据确定出的控制参数将目标表格拆分为至少两个目标子表格,将拆分形成的至少两个目标子表格分别存储到不同的替代服务器中。这样,将数据量较大的表格拆分为多个子表格后分别存储到不同的服务器上,在对该表格进行访问时,由多个服务器共同执行访问请求,从各个子表格中获取所需数据完成对该表格的访问,从而降低了单个服务器的负载。
2、本发明实施例中,除了将数据量较大的表格数据拆分后存储到多个服务器中之外,还将数据量较小的各个表格划分为表格分组后存储到不同的服务器上,实现了对表格数据进行分散存储,保证具有足够的存储空间对表格数据进行存储。
3、本发明实施例中,用于转存表格数据的替代服务器可以是分布式存储服务器,由于分布式存储服务器具有较高的扩展性,当存储空间不够时可以扩展更多的服务器以存储表格数据,无需再次对表格数据进行迁移,延长一次数据转存后服务器的适用时间。
4、本发明实施例中,拆分参数中的拆分形式可以为根据项目进行拆分,也可以为根据变量进行拆分,根据项目进行拆分适用于用户访问表格时只获取其中一个项目的情况,根据变量进行拆分适用于用于访问表格时获取完整数据条的情况。采用不同的拆分形式,以满足对不同访问形式的表格进行拆分,一方面提高了服务器的响应速度,另一方面提高了该对表格数据进行转存的方法的适用性。
5、本发明实施例中,对数据量较小的表格进行分组时,可以根据各个表格之间关系的密切程度,将密切程度较高的表格划分到一个表格分组,存储到一个替代服务器上,由于密切程度较高的表格同时被访问的可能性较大,将密切程度较高的表格存储到一个服务器上可以减少服务器需找表格所需的时间,提高服务器的响应速度。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃·····”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (2)

1.一种对表格数据进行转存的方法,其特征在于,包括:
从原服务器中获取数据量大于预设的拆分阈值的目标表格;
确定对所述目标表格进行拆分的控制参数;
根据所述控制参数将所述目标表格拆分为至少两个目标子表格;
将所述至少两个目标子表格分别存储到不同的替代服务器中,其中每个所述替代服务器中存储一个所述目标子表格;
进一步包括:
获取所述原服务器中数据量小于或等于所述拆分阈值的剩余表格;
将所述剩余表格划分为至少两个表格分组,每一个所述表格分组包括至少一个所述剩余表格;
将所述至少两个表格分组分别存储到不同的所述替代服务器中,其中每个所述替代服务器中存储一个所述表格分组;
所述将所述剩余表格划分为至少两个表格分组包括:
根据各个所述剩余表格之间关系的密切程度,将关系密切程度较高的所述剩余表格划分到一个表格分组中,形成至少两个所述表格分组;
所述控制参数包括:拆分数量及拆分形式,其中,所述拆分数量等于对目标表格进行拆分后形成目标子表格的数量,所述拆分形式为根据项目进行拆分或根据变量进行拆分;
所述根据所述控制参数将所述目标表格拆分为至少两个目标子表格包括:
当所述拆分形式为根据项目进行拆分时,将所述目标表格包括的各个项目划分为数量等于所述拆分数量的项目组,每个所述项目组包括至少一个所述项目,针对于每一个所述项目组创建一个目标子表格用于存储该项目组包括的各个项目对应的数据;
当所述拆分形式为根据变量进行拆分时,确定所述目标表格中的一个项目作为变量,将所述变量的变化范围划分为数量等于所述拆分数量的区间,针对于每一个所述区间创建一个目标子表格用于存储对应所述变量位于该区间内的各条数据;
所述替代服务器包括:分布式存储服务器。
2.一种对表格数据进行转存的装置,其特征在于,包括:筛选单元、确定单元、拆分单元及转存单元;
所述筛选单元,用于从原服务器中获取数据量大于预设的拆分阈值的目标表格;
所述确定单元,用于确定对所述筛选单元获取到的目标表格进行拆分的控制参数;
所述拆分单元,用于根据所述确定单元确定的控制参数,将所述筛选单元获取到的目标表格拆分为至少两个目标子表格;
所述转存单元,用于将所述拆分单元拆分出的至少两个目标子表格分别存储到不同的替代服务器中,其中每个所述替代服务器中存储一个所述目标子表格;
所述筛选单元,进一步用于获取所述原服务器中数据量小于或等于所述拆分阈值的剩余表格;
所述拆分单元,进一步用于将所述筛选单元获取到的剩余表格划分为至少两个表格分组,每一个所述表格分组包括至少一个所述剩余表格;
所述转存单元,进一步用于将所述拆分单元划分出的至少两个表格分组分别存储到不同的所述替代服务器中,其中每个所述替代服务器中存储一个所述表格分组;
所述拆分单元,用于根据各个所述剩余表格之间关系的密切程度,将关系密切程度较高的所述剩余表格分化到一个表格分组中,形成至少两个所述表格分组;
当所述确定单元确定出的控制参数包括拆分数量及拆分形式,且所述拆分形式为根据项目进行拆分时,
所述拆分单元,用于将所述目标表格包括的各个项目划分为数量等于所述拆分数量的项目组,每个所述项目组包括至少一个所述项目,针对于每一个所述项目组创建一个目标子表格用于存储该项目组包括的各个项目对应的数据;
当所述确定单元确定出的控制参数包括拆分数量及拆分形式,且所述拆分形式为根据变量进行拆分时,
所述拆分单元,用于确定所述目标表格中的一个项目作为变量,将所述变量的变化范围划分为数量等于所述拆分数量的区间,针对于每一个所述区间创建一个目标子表格用于存储对应所述变量位于该区间内的各条数据。
CN201610339774.6A 2016-05-20 2016-05-20 一种对表格数据进行转存的方法及装置 Active CN106021492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610339774.6A CN106021492B (zh) 2016-05-20 2016-05-20 一种对表格数据进行转存的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610339774.6A CN106021492B (zh) 2016-05-20 2016-05-20 一种对表格数据进行转存的方法及装置

Publications (2)

Publication Number Publication Date
CN106021492A CN106021492A (zh) 2016-10-12
CN106021492B true CN106021492B (zh) 2019-06-25

Family

ID=57095568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610339774.6A Active CN106021492B (zh) 2016-05-20 2016-05-20 一种对表格数据进行转存的方法及装置

Country Status (1)

Country Link
CN (1) CN106021492B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918442A (zh) * 2019-01-24 2019-06-21 中国联合网络通信集团有限公司 一种数据的处理方法及装置
CN111881210B (zh) * 2020-06-29 2022-08-26 平安国际智慧城市科技股份有限公司 数据同步方法、装置、内网服务器及介质
CN112767013A (zh) * 2021-01-05 2021-05-07 北京锐安科技有限公司 一种业务报表拆分方法、装置、服务器及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479225B (zh) * 2010-11-26 2014-05-07 中国移动通信集团四川有限公司 一种分布式数据分析和处理方法及系统
CN102402586A (zh) * 2011-10-24 2012-04-04 深圳华强电子交易网络有限公司 一种分布式数据存储方法
CN103095806B (zh) * 2012-12-20 2016-01-20 中国电力科学研究院 一种面向大电网的实时数据库系统的负载均衡管理系统
CN105045877B (zh) * 2015-07-20 2018-10-12 深信服科技股份有限公司 数据库数据分片存储方法和装置、数据查询方法和装置

Also Published As

Publication number Publication date
CN106021492A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN108345642A (zh) 采用代理ip爬取网站数据的方法、存储介质和服务器
CN104537076B (zh) 一种文件读写方法及装置
CN106021492B (zh) 一种对表格数据进行转存的方法及装置
CN105677836A (zh) 一种同时支持离线数据和实时在线数据的大数据处理解决系统
CN105074724A (zh) 使用列式数据库中的直方图进行有效查询处理
CN108090225A (zh) 数据库实例的运行方法、装置、系统及计算机可读存储介质
CN109241669A (zh) 一种自动建模方法、装置及其存储介质
CN103488685B (zh) 一种基于分布式存储系统的碎片文件存储方法
CN106445908B (zh) 文本识别方法和装置
TW201903662A (zh) 一種資料物件展示方法及裝置
CN106021566A (zh) 一种提高单台数据库并发处理能力的方法、装置及系统
CN105528447A (zh) 一种对特定数据逐层边剔除边汇总的方法
CN110503235A (zh) 时间序列的预测方法及系统
CN109343962A (zh) 数据处理方法、装置及分布式服务系统
CN110019261A (zh) 数据查询方法和装置
CN109189726B (zh) 一种读写日志的处理方法及装置
CN110266555A (zh) 用于分析网站服务请求的方法
CN114511235A (zh) 流程评估方法及系统
US11468023B2 (en) Computer-based data collection, management, and forecasting
CN110187836A (zh) 一种数据删除方法、装置、计算机及存储介质
CN104702654A (zh) 基于视频云存储系统的存储与提取性能平衡的方法与装置
CN108460673A (zh) 一种训练数据的处理方法及装置
JP2008225686A (ja) 分散型データ処理プラットフォームにおけるデータ配置管理装置と方法、システム及びプログラム
CN110109884A (zh) 一种文件读取方法、装置、设备及介质
CN109816527A (zh) 对账文件处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200605

Address after: 250100 Inspur Science Park, No. 1036, Inspur Road, high tech Zone, Jinan City, Shandong Province

Patentee after: Inspur Software Technology Co.,Ltd.

Address before: 250100 Ji'nan science and Technology Development Zone, Shandong Branch Road No. 2877

Patentee before: INSPUR GROUP Co.,Ltd.

TR01 Transfer of patent right