CN108664567B - 一种基于数据表分区的数据采集方法及系统 - Google Patents

一种基于数据表分区的数据采集方法及系统 Download PDF

Info

Publication number
CN108664567B
CN108664567B CN201810371164.3A CN201810371164A CN108664567B CN 108664567 B CN108664567 B CN 108664567B CN 201810371164 A CN201810371164 A CN 201810371164A CN 108664567 B CN108664567 B CN 108664567B
Authority
CN
China
Prior art keywords
data
month
partition
collection
months
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810371164.3A
Other languages
English (en)
Other versions
CN108664567A (zh
Inventor
石宇楠
化金龙
尹杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN201810371164.3A priority Critical patent/CN108664567B/zh
Publication of CN108664567A publication Critical patent/CN108664567A/zh
Application granted granted Critical
Publication of CN108664567B publication Critical patent/CN108664567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0485Scrolling or panning

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于数据表分区的数据采集方法及系统,包括:获取待采集的数据表信息及滑动窗;数据表信息包括:各分区的编号以及各分区对应的月份;滑动窗的长度代表包括当前采集月份在内的月份的个数;根据滑动窗及当前采集月份确定有数据的月份及无数据的月份;有数据的月份为滑动窗之内的月份;无数据的月份为滑动窗之外的月份;根据各采集作业的编号、各分区的编号以及各分区对应的月份生成采集参数表;采集作业为对数据表中的各分区的数据进行采集的操作;根据采集参数表对各分区执行对应编号的采集作业。本发明具有提高资源利用率、采集作业的利用率以及采集效率的有益效果。

Description

一种基于数据表分区的数据采集方法及系统
技术领域
本发明涉及数据采集技术领域,尤其涉及一种基于数据表分区的数据采集方法及系统。
背景技术
在目前的批量数据采集方式中,采用的均为每个采集作业每天运行时,对数据表中固定的分区进行数据采集。这种方式应用于大部分的表,但是对于数据分布不均匀并且按时间维度来变换存储分区的表,现有的数据采集方式存在着效率低下、耗时较长的弊端。
因此,如何提高对数据分布不均且按照时间维度变化的数据表的数据采集效率是亟待解决的的技术问题。
发明内容
为了解决现有技术中的缺陷,本发明提供了一种基于数据表分区的数据采集方法及系统,在对分区的数据分布不均且按照时间维度变化的数据表进行数据采集时,通过引用了滑动窗及动态调整采集参数表,具有提高资源利用率、采集作业的利用率以及采集效率的有益效果。
为了实现上述目的,本发明提供了一种基于数据表分区的数据采集方法,该方法包括:
获取待采集的数据表信息及滑动窗;所述数据表信息包括:各分区的编号以及各分区对应的月份;所述滑动窗的长度代表包括当前采集月份在内的月份的个数;
根据所述滑动窗及当前采集月份确定有数据的月份及无数据的月份;所述有数据的月份为所述滑动窗之内的月份;所述无数据的月份为所述滑动窗之外的月份;
根据各采集作业的编号、各所述分区的编号以及各所述分区对应的月份生成采集参数表;所述采集作业为对数据表中的各分区的数据进行采集的操作;
根据所述采集参数表对各所述分区执行对应编号的采集作业。
本发明还提供了一种基于数据表分区的数据采集系统,该系统包括:
获取单元,用于获取待采集的数据表信息及滑动窗;所述数据表信息包括:各分区的编号以及各分区对应的月份;所述滑动窗的长度代表包括当前采集月份在内的月份的个数;
有数据的月份及无数据的月份确定单元,用于根据所述滑动窗及当前采集月份确定有数据的月份及无数据的月份;所述有数据的月份为所述滑动窗之内的月份;所述
无数据的月份为所述滑动窗之外的月份;
采集参数表生成单元,用于根据各采集作业的编号、各所述分区的编号以及各所述分区对应的月份生成采集参数表;所述采集作业为对数据表中的各分区的数据进行采集的操作;
采集作业执行单元,用于根据所述采集参数表对各所述分区执行对应编号的采集作业。
本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待采集的数据表信息及滑动窗;所述数据表信息包括:各分区的编号以及各分区对应的月份;所述滑动窗的长度代表包括当前采集月份在内的月份的个数;
根据所述滑动窗及当前采集月份确定有数据的月份及无数据的月份;所述有数据的月份为所述滑动窗之内的月份;所述无数据的月份为所述滑动窗之外的月份;
根据各采集作业的编号、各所述分区的编号以及各所述分区对应的月份生成采集参数表;所述采集作业为对数据表中的各分区的数据进行采集的操作;
根据所述采集参数表对各所述分区执行对应编号的采集作业。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待采集的数据表信息及滑动窗;所述数据表信息包括:各分区的编号以及各分区对应的月份;所述滑动窗的长度代表包括当前采集月份在内的月份的个数;
根据所述滑动窗及当前采集月份确定有数据的月份及无数据的月份;所述有数据的月份为所述滑动窗之内的月份;所述无数据的月份为所述滑动窗之外的月份;
根据各采集作业的编号、各所述分区的编号以及各所述分区对应的月份生成采集参数表;所述采集作业为对数据表中的各分区的数据进行采集的操作;
根据所述采集参数表对各所述分区执行对应编号的采集作业。
本发明提供了一种基于数据表分区的数据采集方法及系统,包括:获取待采集的数据表信息及滑动窗;所述数据表信息包括:各分区的编号以及各分区对应的月份;所述滑动窗的长度代表包括当前采集月份在内的月份的个数;根据所述滑动窗及当前采集月份确定有数据的月份及无数据的月份;所述有数据的月份为所述滑动窗之内的月份;所述无数据的月份为所述滑动窗之外的月份;根据各采集作业的编号、各所述分区的编号以及各所述分区对应的月份生成采集参数表;所述采集作业为对数据表中的各分区的数据进行采集的操作;根据所述采集参数表对各所述分区执行对应编号的采集作业。本发明具有提高资源利用率、采集作业的利用率以及采集效率的有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于数据表分区的数据采集方法流程图;
图2是本发明一实施例中的基于数据表分区的数据采集方法流程图;
图3是本发明一实施例中的一种有数据的月份及无数据的月份与分区的对应结构图;
图4是本发明一实施例中的另一种有数据的月份及无数据的月份与分区的对应结构图;
图5是是本发明提供的一种基于数据表分区的数据采集系统的结构示意图;
图6是本发明一实施例中的采集参数表生成单元103的结构示意图;
图7是本发明一实施例中的采集作业执行单元104的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
关于本文中所使用的“第一”、“第二”、……等,并非特别指称次序或顺位的意思,亦非用以限定本发明,其仅为了区别以相同技术用语描述的元件或操作。
关于本文中所使用的“电性耦接”,可指二或多个元件相互直接作实体或电性接触,或是相互间接作实体或电性接触,而“电性耦接”还可指两个或多个元件相互操作或动作。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。
关于本文中所使用的方向用语,例如:上、下、左、右、前或后等,仅是参考附加图式的方向。因此,使用的方向用语是用来说明并非用来限制本案。
针对现有技术中存在的缺陷,本发明提供了一种方法,其流程图如图1所示,该方法包括:
为了解决现有技术中的缺陷,本发明提供了一种基于数据表分区的数据采集方法及系统,本发明通过为有数据的分区分配较多的采集作业,为无数据部分分配较少的采集作业,具有提高资源利用率、采集作业的利用率以及数据的采集效率的有益效果。
为了实现上述目的,本发明提供的基于数据表分区的数据采集方法,其流程图如图1所示,该方法包括:
S101:获取待采集的数据表信息及滑动窗;数据表信息包括:各分区的编号以及各分区对应的月份;滑动窗的长度代表包括当前采集月份在内的月份的个数。
S102:根据滑动窗及当前采集月份确定有数据的月份及无数据的月份;有数据的月份为滑动窗之内的月份;无数据的月份为滑动窗之外的月份。
S103:根据各采集作业的编号、各分区的编号以及各分区对应的月份生成采集参数表;采集作业为对数据表中的各分区的数据进行采集的操作。
S104:根据采集参数表对各分区执行对应编号的采集作业。
由图1的流程图可知,本发明首先根据获取待采集的数据表信息及滑动窗,然后根据滑动窗及当前采集月份确定有数据的月份及无数据的月份,再根据各采集作业的编号、各分区的编号以及各分区对应的月份生成采集参数表,最后根据采集参数表对各分区执行对应编号的采集作业。本发明具有提高资源利用率、采集作业的利用率以及数据的采集效率的有益效果。
为了使本领域的技术人员更好的了解本发明,下面列举一个更为详细的实施例,如图2所示,本发明实施例提供了一种基于数据表分区的数据采集方法,该方法包括:
S201:获取待采集的数据表信息及滑动窗。其中,数据表信息包括:各分区的编号以及各分区对应的月份等信息,滑动窗的长度代表包括当前采集月份在内的月份的个数。滑动窗随着当前采集月份的变化而变化,当前采集月份为滑动窗中的最后一个月份。
具体实施时,如图3所示,以数据表JNAL为例,JNAL为按月分区的数据表(即按照时间维度的存储数据的分区),每个月包含200个分区,12个月共计包括2400个分区,各分区的编号为1,2,3,……,2400,滑动窗1随着选择的当前采集月份而滑动,滑动窗的长度代表包括当前采集月份在内的月份的个数,假设滑动窗的长度为5。采集月份包括年份及月份信息,例如当前采集月份为2017年8月,当前采集月份2017年8月为滑动窗1中的最后一个月份。
本实施例中通过滑动窗删除过期数据,使本发明具有提高资源利用率、数据表的存储率的有益效果。
S202:根据滑动窗及当前采集月份确定有数据的月份及无数据的月份;有数据的月份为滑动窗之内的月份;无数据的月份为滑动窗之外的月份。其中,有数据的月份的个数与无数据的月份的个数之和为12,本发明不以此为限。
当有数据的月份为同年内的连续月份时,对应的无数据的月份为同年内滑动窗之外的各月份。如图3所示,设定当前采集月份为2017年8月,滑动窗1的长度为5,则有数据的月份为包括2017年8月在内的5个月之内的各月份,即有数据的月份为2017年4月、2017年5月、2017年6月、2017年7月及2017年8月。由于有数据的月份个数与无数据的月份个数之和为12个月,因此无数据的月份的个数为12-5=7个月,且为当前采集月份对应的年份2017年的月份,因此将2017年中有数据的月份(2017年4月、2017年5月、2017年6月、2017年7月及2017年8月)之外的剩余不连续7个月份(2017年1月、2017年2月、2017年3月、2017年9月、2017年10月、2017年11月及2017年12月)作为对应的无数据的月份,对应的无数据的月份为:2017年1月、2017年2月、2017年3月、2017年9月、2017年10月、2017年11月及2017年12月,共计为2017年中的7个不连续月份,其中2017年1月、2017年2月、2017年3月连续位于有效数的月份之前,2017年9月、2017年10月、2017年11月及2017年12月连续位于有效数的月份之后。
当有数据的月份为跨年的连续月份时,对应的无数据的月份为滑动窗之前的指定个数的连续月份。如图4所示,设定当前采集月份为2018年3月,滑动窗1的长度为5,则有数据的月份为包括2018年3月在内的5个月之内的各月份,则有数据的月份为:2018年3月、2018年2月、2018年1月、2017年12月及2017年11月,可见有数据的月份为当前采集月份2018年3月对应的2018年份及2018年3月对应的前一年2017年内的跨年连续的5个月份。由于有数据的月份个数与无数据的月份个数之和为12个月,因此无数据的月份的个数为12-5=7个月,则对应的无数据的月份为滑动窗1之前的7个数的连续月份,对应的无数据的月份为:2017年4月、2017年5月、2017年6月、2017年7月、2017年8月、2017年9月、2017年10月,共计7个2017年的连续月份。
S203:将任选的两个采集作业的编号分配到无数据的月份对应的分区。
具体实施时,为了保证各分区的数据的完整性,从总数为n的采集作业中,任选2个采集作业的编号分配到无数据的月份对应的分区。以数据表JNAL为例,JNAL为按月分区的数据表(即按照时间维度的存储数据的分区),则m=2400,设定n=80,则80个采集作业的编号为01,02,03,……,79,80。其中,将采集作业的编号79和80分配到无数据的月份对应的分区。
其中,如图3所示,当无数据的月份分布于有数据的月份的两侧时,将两个采集作业的编号中的一个编号分配到一侧无数据的月份对应的分区,另一个编号分配到另一侧无数据的月份对应的分区。将采集作业的编号79分配到2017年1月、2017年2月、2017年3月对应的各分区,将采集作业的编号80分配到2017年9月、2017年10月、2017年11月、2017年12月对应的各分区,本发明不以此为限。
S204:将除了两个采集作业的编号之外的采集作业的编号全部分配到有数据的月份对应的分区。
具体实施时,将全部n个采集作业中剩余的n-2个采集作业的编号分配到有数据的月份对应的各分区。将采集作业的编号为01,02,03,……,77,78全部分配到有数据的月份对应的分区。
其中,如图4所示,当有数据的月份为跨年的连续月份时,将除了两个采集作业的编号之外的一部分采集作业的编号分配到一年份内的有数据的月份对应的分区,另一部分采集作业的编号分配到另一年份内有数据的月份对应的分区。将采集作业的编号01~采集作业的编号16分配到2017年11月份对应的各分区,采集作业的编号17~采集作业的编号32分配到2017年12月份对应的各分区本发明不以此为限,采集作业的编号33~采集作业的编号47分配到2018年1月份对应的各分区,采集作业的编号48~采集作业的编号63分配到2018年2月份对应的各分区,采集作业的编号64~采集作业的编号78分配到2018年3月份对应的各分区。
S205:根据各采集作业的编号、各分区的编号以及各采集作业的编号对应的无数据的月份及有数据的月份,生成采集参数表。
具体实施时,设定当前采集月份为2017年8月,有数据的月份为2017年4月、2017年5月、2017年6月、2017年7月及2017年8月,2017年1月、2017年2月、2017年3月、2017年9月、2017年10月、2017年11月及2017年12月,根据80个采集作业的编号、2400个分区的编号及各采集作业的编号对应的无数据的月份及有数据的月份,生成采集参数表,如表1所示,本发明不以此为限。
表1
采集月份 分区的编号 采集作业的编号
2017年1月 1~200 79
2017年2月 201~400 79
2017年3月 401~600 79
2017年4月 601~615 01~16
2017年5月 801~1000 17~32
2017年6月 1001~1200 33~48
2017年7月 1201~1400 49~64
2017年8月 1401~1600 65~78
2017年9月 1601~1800 80
2017年10月 1801~2000 80
2017年11月 2001~2200 80
2017年12月 2201~2400 80
设定当前采集月份为2018年3月时,有数据的月份为2018年3月、2018年2月、2018年1月、2017年12月及2017年11月,无数据的月份为2017年10月、2017年9月、2017年8月、2017年7月、2017年6月、2017年5月、2017年4月,根据80个采集作业的编号、2400个分区的编号及各采集作业的编号对应的无数据的月份及有数据的月份,生成采集参数表,如表2所示,本发明不以此为限。
表2
采集月份 分区的编号 采集作业的编号
2017年4月 601~800 79
2017年5月 801~1000 79
2017年6月 1001~1200 79
2017年7月 1201~1400 80
2017年8月 1401~1600 80
2017年9月 1601~1800 80
2017年10月 1801~2000 80
2017年11月 2001~2200 01~16
2017年12月 2201~2400 17~32
2018年1月 01~200 33~48
2018年2月 201~400 49~64
2018年3月 401~600 65~78
本实施例中通过根据各采集作业的编号、各分区的编号以及各采集作业的编号对应的无数据的月份及有数据的月份动态生成采集参数表,使本发明具有动态更新采集参数表的有益效果。
S206:根据采集参数表,获取各采集作业的编号对应的分区。
具体实施时,如表1所示,以采集作业01~16为例,根据采集作业的编号01~16,获得对应的待采集的数据表的各分区,各分区为分区601、分区602、分区603、……、分区800,共计200个分区,以采集作业79为例,根据采集作业的编号79获取对应的各分区,各分区的编号为分区1、分区2、分区3、……、分区200、分区201、分区202、……、分区400、分区401、……、分区600,共计3各月份的600个分区。
S207:根据分区对应的采集作业的编号对各分区并行执行数据采集。
具体实施时,由于每个月份对应200个分区,由16个采集作业并行进行采集操作。在本实施例中各采集作业的编号与各分区的编号之间的对应关系如表3所示,本发明不以此为限。将78个采集作业分为5组,每组采集作业对应一个有数据的月份。由于每个月份设有200个分区。因此由该月份对应的16个并行度的采集作业对该月份的200个分区执行数据采集操作,其中,每个采集作业对至多15个分区执行数据采集操作,各采集作业根据表3所示的对应关系,并行执行对各分区的采集操作,本发明不以此为限。
表3
Figure BDA0001638495430000091
本实施例具有提高资源利用率、采集作业的利用率以及各分区数据的采集效率的有益效果。
基于与上述基于数据表分区的数据采集方法相同的申请构思,本发明还提供了一种基于数据表分区的数据采集系统,如下面实施例所述。由于该基于数据表分区的数据采集系统解决问题的原理与基于数据表分区的数据采集方法相似,因此该基于数据表分区的数据采集系统的实施可以参见基于数据表分区的数据采集方法的实施,重复之处不再赘述。
图5为本发明提供的基于数据表分区的数据采集系统的结构示意图,如图5所示,该基于数据表分区的数据采集系统包括:获取单元101、有数据及无数据月份确定单元102、采集参数表生成单元103及采集作业执行单元104。
获取单元101,用于获取待采集的数据表信息及滑动窗;数据表信息包括:各分区的编号以及各分区对应的月份;滑动窗的长度代表包括当前采集月份在内的月份的个数。
有数据及无数据月份确定单元102,用于根据滑动窗及当前采集月份确定有数据的月份及无数据的月份;有数据的月份为滑动窗之内的月份;无数据的月份为滑动窗之外的月份。
采集参数表生成单元103,用于根据各采集作业的编号、各分区的编号以及各分区对应的月份生成采集参数表;采集作业为对数据表中的各分区的数据进行采集的操作。
采集作业执行单元104,用于根据采集参数表对各分区执行对应编号的采集作业。
在一个实施例中,如图6所示,采集参数表生成单元103包括:第一分配模块201、第二分配模块202及采集参数表生成模块203。
第一分配模块201,用于将任选的两个采集作业的编号分配到无数据的月份对应的分区;
第二分配模块202,用于将除了两个采集作业的编号之外的采集作业的编号全部分配到有数据的月份对应的分区;
采集参数表生成模块203,用于根据各采集作业的编号、各分区的编号以及各采集作业的编号对应的无数据的月份及有数据的月份,生成采集参数表。
在一个实施例中,第一分配模块201具体用于:
当无数据的月份分布于有数据的月份的两侧时,将两个采集作业的编号中的一个编号分配到一侧无数据的月份对应的分区,另一个编号分配到另一侧无数据的月份对应的分区。
在一个实施例中,第二分配模块202具体用于:
当有数据的月份为跨年的连续月份时,将除了两个采集作业的编号之外的一部分采集作业的编号分配到一年份内的有数据的月份对应的分区,另一部分采集作业的编号分配到另一年份内有数据的月份对应的分区。
在一个实施例中,如图7所示,采集作业执行单元104包括:分区获取模块301及采集作业执行模块302。
分区获取模块301,用于根据采集参数表,获取各采集作业的编号对应的分区;
采集作业执行模块302,用于根据分区对应的采集作业的编号对各分区并行执行数据采集。
本发明提供的基于数据表分区的数据采集方法及系统,包括:获取待采集的数据表信息及滑动窗;数据表信息包括:各分区的编号以及各分区对应的月份;滑动窗的长度代表包括当前采集月份在内的月份的个数;根据滑动窗及当前采集月份确定有数据的月份及无数据的月份;有数据的月份为滑动窗之内的月份;无数据的月份为滑动窗之外的月份;根据各采集作业的编号、各分区的编号以及各分区对应的月份生成采集参数表;采集作业为对数据表中的各分区的数据进行采集的操作;根据采集参数表对各分区执行对应编号的采集作业。本发明具有提高资源利用率、各采集作业的利用率以及各分区数据的采集效率的有益效果。
基于与上述基于数据表分区的数据采集方法相同的申请构思,本申请提供一种计算机设备,如下面实施例所述。由于该计算机设备解决问题的原理与基于数据表分区的数据采集方法相似,因此该计算机设备的实施可以参见基于数据表分区的数据采集方法的实施,重复之处不再赘述。
在一个实施例中,计算机设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,如图1所示,所述处理器执行所述计算机程序时实现以下步骤:
S101:获取待采集的数据表信息及滑动窗;数据表信息包括:各分区的编号以及各分区对应的月份;滑动窗的长度代表包括当前采集月份在内的月份的个数。
S102:根据滑动窗及当前采集月份确定有数据的月份及无数据的月份;有数据的月份为滑动窗之内的月份;无数据的月份为滑动窗之外的月份。
S103:根据各采集作业的编号、各分区的编号以及各分区对应的月份生成采集参数表;采集作业为对数据表中的各分区的数据进行采集的操作。
S104:根据采集参数表对各分区执行对应编号的采集作业。
基于与上述基于数据表分区的数据采集方法相同的申请构思,本申请提供一种计算机可读存储介质,如下面实施例所述。由于该计算机可读存储介质解决问题的原理与基于数据表分区的数据采集方法相似,因此该计算机可读存储介质的实施可以参见基于数据表分区的数据采集方法的实施,重复之处不再赘述。
在一个实施例中,计算机可读存储介质上存储有计算机程序,如图1所示,该计算机程序被处理器执行时实现以下步骤:
S101:获取待采集的数据表信息及滑动窗;数据表信息包括:各分区的编号以及各分区对应的月份;滑动窗的长度代表包括当前采集月份在内的月份的个数。
S102:根据滑动窗及当前采集月份确定有数据的月份及无数据的月份;有数据的月份为滑动窗之内的月份;无数据的月份为滑动窗之外的月份。
S103:根据各采集作业的编号、各分区的编号以及各分区对应的月份生成采集参数表;采集作业为对数据表中的各分区的数据进行采集的操作。
S104:根据采集参数表对各分区执行对应编号的采集作业。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于数据表分区的数据采集方法,其特征在于,包括:
获取待采集的数据表信息及滑动窗;所述数据表信息包括:各分区的编号以及各分区对应的月份;所述滑动窗的长度代表包括当前采集月份在内的月份的个数;
根据所述滑动窗及当前采集月份确定有数据的月份及无数据的月份;所述有数据的月份为所述滑动窗之内的月份;所述无数据的月份为所述滑动窗之外的月份;
根据各采集作业的编号、各所述分区的编号以及各所述分区对应的月份生成采集参数表;所述采集作业为对数据表中的各分区的数据进行采集的操作;
根据所述采集参数表对各所述分区执行对应编号的采集作业;
其中,所述根据各采集作业的编号、各所述分区的编号以及各所述分区对应的月份生成采集参数表,包括:
将任选的两个采集作业的编号分配到所述无数据的月份对应的分区;
将除了所述两个采集作业的编号之外的采集作业的编号全部分配到所述有数据的月份对应的分区;
根据各所述采集作业的编号、各所述分区的编号以及各所述采集作业的编号对应的所述无数据的月份及所述有数据的月份,生成采集参数表。
2.根据权利要求1所述的基于数据表分区的数据采集方法,其特征在于,所述将任选的两个采集作业的编号分配到所述无数据的月份对应的分区,包括:
当所述无数据的月份分布于所述有数据的月份的两侧时,将所述两个采集作业的编号中的一个编号分配到一侧无数据的月份对应的分区,另一个编号分配到另一侧无数据的月份对应的分区。
3.根据权利要求1所述的基于数据表分区的数据采集方法,其特征在于,所述将除了所述两个采集作业的编号之外的采集作业的编号全部分配到所述有数据的月份对应的分区,包括:
当所述有数据的月份为跨年的连续月份时,将除了所述两个采集作业的编号之外的一部分采集作业的编号分配到一年份内的有数据的月份对应的分区,另一部分采集作业的编号分配到另一年份内有数据的月份对应的分区。
4.根据权利要求1所述的基于数据表分区的数据采集方法,其特征在于,所述根据所述采集参数表对各所述分区执行对应编号的采集作业,包括:
根据所述采集参数表,获取各所述采集作业的编号对应的分区;
根据所述分区对应的采集作业的编号对各所述分区并行执行数据采集。
5.一种基于数据表分区的数据采集系统,其特征在于,包括:
获取单元,用于获取待采集的数据表信息及滑动窗;所述数据表信息包括:各分区的编号以及各分区对应的月份;所述滑动窗的长度代表包括当前采集月份在内的月份的个数;
有数据的月份及无数据的月份确定单元,用于根据所述滑动窗及当前采集月份确定有数据的月份及无数据的月份;所述有数据的月份为所述滑动窗之内的月份;所述无数据的月份为所述滑动窗之外的月份;
采集参数表生成单元,用于根据各采集作业的编号、各所述分区的编号以及各所述分区对应的月份生成采集参数表;所述采集作业为对数据表中的各分区的数据进行采集的操作;
采集作业执行单元,用于根据所述采集参数表对各所述分区执行对应编号的采集作业。
其中,所述采集参数表生成单元包括;
第一分配模块,用于将任选的两个采集作业的编号分配到所述无数据的月份对应的分区;
第二分配模块,用于将除了所述两个采集作业的编号之外的采集作业的编号全部分配到所述有数据的月份对应的分区;
采集参数表生成模块,用于根据各所述采集作业的编号、各所述分区的编号以及各所述采集作业的编号对应的所述无数据的月份及所述有数据的月份,生成采集参数表。
6.根据权利要求5所述的基于数据表分区的数据采集系统,其特征在于,所述第一分配模块具体用于:
当所述无数据的月份分布于所述有数据的月份的两侧时,将所述两个采集作业的编号中的一个编号分配到一侧无数据的月份对应的分区,另一个编号分配到另一侧无数据的月份对应的分区。
7.根据权利要求5所述的基于数据表分区的数据采集系统,其特征在于,所述第二分配模块具体用于:
当所述有数据的月份为跨年的连续月份时,将除了所述两个采集作业的编号之外的一部分采集作业的编号分配到一年份内的有数据的月份对应的分区,另一部分采集作业的编号分配到另一年份内有数据的月份对应的分区。
8.根据权利要求5所述的基于数据表分区的数据采集系统,其特征在于,所述采集作业执行单元包括:
分区获取模块,用于根据所述采集参数表,获取各所述采集作业的编号对应的分区;
采集作业执行模块,用于根据所述分区对应的采集作业的编号对各所述分区并行执行数据采集。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
获取待采集的数据表信息及滑动窗;所述数据表信息包括:各分区的编号以及各分区对应的月份;所述滑动窗的长度代表包括当前采集月份在内的月份的个数;
根据所述滑动窗及当前采集月份确定有数据的月份及无数据的月份;所述有数据的月份为所述滑动窗之内的月份;所述无数据的月份为所述滑动窗之外的月份;
根据各采集作业的编号、各所述分区的编号以及各所述分区对应的月份生成采集参数表;所述采集作业为对数据表中的各分区的数据进行采集的操作;
根据所述采集参数表对各所述分区执行对应编号的采集作业;
其中,所述根据各采集作业的编号、各所述分区的编号以及各所述分区对应的月份生成采集参数表,包括:
将任选的两个采集作业的编号分配到所述无数据的月份对应的分区;
将除了所述两个采集作业的编号之外的采集作业的编号全部分配到所述有数据的月份对应的分区;
根据各所述采集作业的编号、各所述分区的编号以及各所述采集作业的编号对应的所述无数据的月份及所述有数据的月份,生成采集参数表。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现以下步骤:
获取待采集的数据表信息及滑动窗;所述数据表信息包括:各分区的编号以及各分区对应的月份;所述滑动窗的长度代表包括当前采集月份在内的月份的个数;
根据所述滑动窗及当前采集月份确定有数据的月份及无数据的月份;所述有数据的月份为所述滑动窗之内的月份;所述无数据的月份为所述滑动窗之外的月份;
根据各采集作业的编号、各所述分区的编号以及各所述分区对应的月份生成采集参数表;所述采集作业为对数据表中的各分区的数据进行采集的操作;
根据所述采集参数表对各所述分区执行对应编号的采集作业;
其中,所述根据各采集作业的编号、各所述分区的编号以及各所述分区对应的月份生成采集参数表,包括:
将任选的两个采集作业的编号分配到所述无数据的月份对应的分区;
将除了所述两个采集作业的编号之外的采集作业的编号全部分配到所述有数据的月份对应的分区;
根据各所述采集作业的编号、各所述分区的编号以及各所述采集作业的编号对应的所述无数据的月份及所述有数据的月份,生成采集参数表。
CN201810371164.3A 2018-04-24 2018-04-24 一种基于数据表分区的数据采集方法及系统 Active CN108664567B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810371164.3A CN108664567B (zh) 2018-04-24 2018-04-24 一种基于数据表分区的数据采集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810371164.3A CN108664567B (zh) 2018-04-24 2018-04-24 一种基于数据表分区的数据采集方法及系统

Publications (2)

Publication Number Publication Date
CN108664567A CN108664567A (zh) 2018-10-16
CN108664567B true CN108664567B (zh) 2022-03-04

Family

ID=63780808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810371164.3A Active CN108664567B (zh) 2018-04-24 2018-04-24 一种基于数据表分区的数据采集方法及系统

Country Status (1)

Country Link
CN (1) CN108664567B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739916A (zh) * 2018-12-29 2019-05-10 中国银行股份有限公司 数据装载或卸载方法及装置
CN111857029B (zh) * 2020-06-30 2022-08-12 广州明珞汽车装备有限公司 一种数据采集的方法、系统、装置、终端设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727489A (zh) * 2009-12-17 2010-06-09 中国电力科学研究院 一种库表分区代码存储方法及装置
CN103176750A (zh) * 2013-02-27 2013-06-26 武汉虹旭信息技术有限责任公司 基于交错时间分区的移动互联网数据存储系统及其方法
CN104182502A (zh) * 2014-08-18 2014-12-03 浪潮(北京)电子信息产业有限公司 一种数据抽取方法及装置
US20160253591A1 (en) * 2015-02-27 2016-09-01 Samsung Sds Co., Ltd. Method and apparatus for managing performance of database
CN106407191A (zh) * 2015-07-27 2017-02-15 中国移动通信集团公司 一种数据处理方法及服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727489A (zh) * 2009-12-17 2010-06-09 中国电力科学研究院 一种库表分区代码存储方法及装置
CN103176750A (zh) * 2013-02-27 2013-06-26 武汉虹旭信息技术有限责任公司 基于交错时间分区的移动互联网数据存储系统及其方法
CN104182502A (zh) * 2014-08-18 2014-12-03 浪潮(北京)电子信息产业有限公司 一种数据抽取方法及装置
US20160253591A1 (en) * 2015-02-27 2016-09-01 Samsung Sds Co., Ltd. Method and apparatus for managing performance of database
CN106407191A (zh) * 2015-07-27 2017-02-15 中国移动通信集团公司 一种数据处理方法及服务器

Also Published As

Publication number Publication date
CN108664567A (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
US9081668B2 (en) Architecture to allow efficient storage of data on NAND flash memory
CN110413412B (zh) 一种基于gpu集群资源分配的方法和装置
CN106502791A (zh) 一种任务分配方法及装置
CN108664567B (zh) 一种基于数据表分区的数据采集方法及系统
CN111930498A (zh) 一种高效的gpu资源分配优化方法和系统
CN103902384A (zh) 为虚拟机分配物理机的方法及装置
CN109033365B (zh) 一种数据处理方法及相关设备
CN109766190A (zh) 云资源调度方法、装置、设备及存储介质
CN114556309A (zh) 内存空间的分配方法、装置及存储介质
CN109829078B (zh) 一种栅格数据的数据处理方法和装置
CN112256441B (zh) 神经网络推理的内存分配方法及装置
JP4121525B2 (ja) リソース利用率を制御する方法およびコンピュータシステム
CN110413393B (zh) 集群资源管理方法、装置、计算机集群及可读存储介质
CN109144689B (zh) 任务调度方法、装置及计算机程序产品
CN114047883B (zh) 一种基于分布式存储系统的数据均衡方法及装置
WO2018205890A1 (zh) 一种分布式系统的任务分配方法及系统及其计算机可读存储介质和计算机设备
CN115016890A (zh) 虚拟机资源分配方法、装置、电子设备及存储介质
CN111930299B (zh) 分配存储单元的方法及相关设备
CN114924848A (zh) Io调度方法、装置及设备
CN114661497A (zh) 操作系统分区共享内存方法和系统
CN110865768B (zh) 写缓存资源分配方法、装置、设备以及存储介质
CN109783464B (zh) 一种基于Spark平台的频繁项集挖掘方法
CN111158605B (zh) 用于优化操作系统磁盘存储策略的方法、装置和智能设备
CN110750330A (zh) 一种虚拟机创建方法、系统、电子设备及存储介质
CN106202262A (zh) 一种信息处理方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant