CN111198911A - 一种数据提取增量区间的获取方法、数据提取方法 - Google Patents
一种数据提取增量区间的获取方法、数据提取方法 Download PDFInfo
- Publication number
- CN111198911A CN111198911A CN201811377962.3A CN201811377962A CN111198911A CN 111198911 A CN111198911 A CN 111198911A CN 201811377962 A CN201811377962 A CN 201811377962A CN 111198911 A CN111198911 A CN 111198911A
- Authority
- CN
- China
- Prior art keywords
- data extraction
- data
- increment
- interval
- program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013075 data extraction Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000003247 decreasing effect Effects 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 230000003203 everyday effect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种数据提取增量区间的获取方法、数据提取方法,所述方法包括:向数据提取程序输入初始增量区间;检测数据提取程序是否正常运行;当数据提取程序正常运行时,调高增量区间直至数据提取程序不能正常运行后,调低增量区间直至数据提取程序恢复正常运行以确定增量区间,并按照小于或等于增量区间的时间区间提取数据,保证了程序正常定时运行时,按照程序能正常运行的增量区间提取增量数据,可以在多种情况下对增量数据进行有效提取。
Description
技术领域
本发明涉及计算机技术领域,具体的涉及一种数据提取增量区间的获取方法、数据提取方法。
背景技术
商业智能领域应用的核心就是通过数据提取、整理、分析,最终通过分析结果制定有关策略、规划,达到资源的合理配置,节约成本提高效益。而数据抽取是实施商业智能系统中非常重要的环节。在用spark进行批量数据处理时,除了第一次处理全量数据外,常常需要处理每天新增的数据,如果因为停电等外部原因导致程序无法每天定时运行,那么累积的增量数据在外部故障恢复后程序重启进行提取时,经常会因为累计的数据量过于庞大而导致重启后的程序无法正常运行,造成死循环,数据提取不够灵活。
发明内容
本发明的目的在于克服现有技术中由于数据量过大导致程序无法正常运行的技术问题,提供一种数据提取增量区间的获取方法、数据提取方法。
为实现上述目的,本发明采用的技术方案如下:一种数据提取增量区间的获取方法,所述方法包括:
向数据提取程序输入初始增量区间;
检测数据提取程序是否正常运行;
当数据提取程序正常运行时,调高增量区间直至数据提取程序不能正常运行后,调低增量区间直至数据提取程序恢复正常运行以确定增量区间。
一种数据提取方法,使用上述的数据提取增量区间的获取方法获取增量区间,所述方法包括:
确定提取数据的开始时间节点和结束时间节点以确定提取数据的时间区间;
按照小于或等于增量区间的时间区间提取数据。
进一步的,当提取数据的时间区间小于或等于增量区间时,按照确定的提取数据的时间区间进行提取。
进一步的,当提取数据的时间区间大于增量区间时,按照增量区间多次提取。
进一步的,还包括:将每次数据提取的结束时间节点保存至增量表中。
进一步的,所述提取数据时,访问所述增量表,按照所述增量表中最新的结束时间节点作为本次提取数据的开始时间节点。
进一步的,所述数据提取程序不能正常运行时,重新调整结束时间节点后继续提取。
进一步的,所述结束时间节点自定义设置。
进一步的,所述结束时间节点的调整包括:向数据提取程序输入初始结束时间节点,调低结束时间节点直至数据提取程序正常运行以确定结束时间节点。
由上述对本发明的描述可知,与现有技术相比,本发明提供的一种数据提取增量区间的获取方法、数据提取方法,向数据提取程序输入初始增量区间;检测数据提取程序是否正常运行;当数据提取程序正常运行时,调高增量区间直至数据提取程序不能正常运行后,调低增量区间直至数据提取程序恢复正常运行以确定增量区间,并按照小于或等于增量区间的时间区间提取数据,保证了程序正常定时运行时,按照程序能正常运行的增量区间提取增量数据,可以在多种情况下对增量数据进行有效提取。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明数据提取增量区间的获取流程图;
图2为本发明数据提取流程图。
具体实施方式
以下将结合本发明实施例中的附图对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
第一次运行数据提取程序时,为程序初始化一个开始时间节点,程序将提取该时间节点以后的数据,例如,以增量的方式提取机器产生的故障数据,正常情况下,程序按天运行,第二天提取前一天的数据进行故障诊断,如果程序在某天没有正常运行,如断电和其他外界因素,则会在下一次运行时提取未提取到的所有数据;
在本实施例中,在数据提取之前制定数据提取增量区间策略,以保证程序正常运行,如图1所示,包括以下步骤:
S101:向数据提取程序输入初始增量区间;
S102:检测数据提取程序是否正常运行;
S103:当数据提取程序正常运行时,调高增量区间直至数据提取程序不正常运行后,调低增量区间直至数据提取程序恢复正常运行以确定增量区间。
一般情况下,先输入一个开始时间节点,作为本次数据提取的时间节点,
程序提取数据时,需要确定提取数据的开始时间节点和结束时间节点以确定提取数据的时间区间,本次提取数据的结束时间节点等于开始时间节点加上一个时间区间长度,这个时间区间长度即是本实施中要制定的增量区间,这个增量区间即该程序在所给固定资源的情况下能处理的最长时间区间长度,例如,一开始将该时间区间长度设为1小时,发现在固定资源(如:5台服务器)上可以正常拉取该时间区间长度下的所有数据,并进行相关逻辑处理,然后将该时间区间调整为20小时,发现在固定资源(如:5台服务器)上不能正常拉取该时间区间长度下的所有数据,并进行相关逻辑处理,然后将时间区间调整为10小时,发现在固定资源(如:5台服务器)上可以正常拉取该时间区间长度下的所有数据,并进行相关逻辑处理,然后将时间区间长度调整为15小时,去测试是否能正常拉取该时间区间长度下的所有数据,并进行相关逻辑处理,以此类推,直到确定最佳的时间区间长度为止,假设最后确定的最佳的时间区间长度是16小时,采用这种策略的好处是程序在绝大多数情况下都能自动增量运行下去,即使挂掉,下次定时启动的时候只要增量时间区间长度不超过确定的这个时间区间长度,仍可以照常运行,在调整过程中,累计增量数据过多,数据提取程序不能正常运行时,需要手动重启程序,重新调整结束时间节点后继续提取,该结束时间节点可以自定义设置,例如过滤掉不需要的时间段数据,或者通过调整确定,具体的,可向数据提取程序输入初始结束时间节点,调低结束时间节点直至数据提取程序正常运行以确定结束时间节点。
增量区间确定完之后,进行数据提取,如图2所示,包括以下步骤:
S201:确定提取数据的开始时间节点和结束时间节点以确定提取数据的时间区间;
S202:按照小于或等于增量区间的时间区间提取数据。
进行数据提取时,确定提取数据的开始时间节点和结束时间节点以确定提取数据的时间区间;当提取数据的时间区间小于或等于增量区间时,按照确定的提取数据的时间区间进行提取,将每次数据提取的结束时间节点保存至增量表中,在下一次提取数据时,访问所述增量表,按照所述增量表中最新的结束时间节点作为本次提取数据的开始时间节点,当提取数据的时间区间小于或等于增量区间时,按照确定的提取数据的时间区间进行提取,此时由于需要提取数据的时间区间小于或等于增量区间,例如,上述得出增量区间为16个小时,而本次需要提取的时间区间等于或小于16个小时,程序能正常运行,当提取数据的时间区间大于增量区间时,按照增量区间多次提取,例如,上述得出增量区间为16个小时,而本次需要提取的时间区间为45个小时,首先按照16个小时提取一次数据,剩下29个小时的数据未提取,以上一次提取的结束节点作为本次的开始节点再次按照16个小时提取一次数据,以此类推,直到提取完成。
由上述对本发明的描述可知,与现有技术相比,本发明提供的一种数据提取增量区间的获取方法、数据提取方法,向数据提取程序输入初始增量区间;检测数据提取程序是否正常运行;当数据提取程序正常运行时,调高增量区间直至数据提取程序不能正常运行后,调低增量区间直至数据提取程序恢复正常运行以确定增量区间,并按照小于或等于增量区间的时间区间提取数据,保证了程序正常定时运行时,按照程序能正常运行的增量区间提取增量数据,可以在多种情况下对增量数据进行有效提取。
上述仅为本发明的若干具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
Claims (9)
1.一种数据提取增量区间的获取方法,其特征在于,所述方法包括:
向数据提取程序输入初始增量区间;
检测数据提取程序是否正常运行;
当数据提取程序正常运行时,调高增量区间直至数据提取程序不能正常运行后,调低增量区间直至数据提取程序恢复正常运行以确定增量区间。
2.一种数据提取方法,其特征在于,使用权利要求1所述的数据提取增量区间的获取方法获取增量区间,所述方法包括:
确定提取数据的开始时间节点和结束时间节点以确定提取数据的时间区间;
按照小于或等于增量区间的时间区间提取数据。
3.根据权利要求2所述的数据提取方法,其特征在于,还包括:当提取数据的时间区间小于或等于增量区间时,按照确定的提取数据的时间区间进行提取。
4.根据权利要求2所述的数据提取方法,其特征在于:当提取数据的时间区间大于增量区间时,按照增量区间多次提取。
5.根据权利要求2-4任意一项所述的数据提取方法,其特征在于:将每次数据提取的结束时间节点保存至增量表中。
6.根据权利要求5所述的数据提取方法,其特征在于:所述提取数据时,访问所述增量表,按照所述增量表中最新的结束时间节点作为本次提取数据的开始时间节点。
7.根据权利要求2所述的数据提取方法,其特征在于:所述数据提取程序不能正常运行时,重新调整结束时间节点后继续提取。
8.根据权利要求7所述的数据提取方法,其特征在于:所述结束时间节点自定义设置。
9.根据权利要求7所述的数据提取方法,其特征在于:所述结束时间节点的调整包括:向数据提取程序输入初始结束时间节点,调低结束时间节点直至数据提取程序正常运行以确定结束时间节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811377962.3A CN111198911B (zh) | 2018-11-19 | 2018-11-19 | 一种数据提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811377962.3A CN111198911B (zh) | 2018-11-19 | 2018-11-19 | 一种数据提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111198911A true CN111198911A (zh) | 2020-05-26 |
CN111198911B CN111198911B (zh) | 2021-05-25 |
Family
ID=70746136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811377962.3A Active CN111198911B (zh) | 2018-11-19 | 2018-11-19 | 一种数据提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111198911B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101286133A (zh) * | 2008-06-02 | 2008-10-15 | 北京邮电大学 | 应用区间运算的软件测试方法 |
CN102043789A (zh) * | 2009-10-21 | 2011-05-04 | 阿里巴巴集团控股有限公司 | 一种更新数据表的方法和装置 |
US20130238556A1 (en) * | 2012-03-08 | 2013-09-12 | Sap Ag | Replicating Data to a Database |
CN103955491A (zh) * | 2014-04-15 | 2014-07-30 | 南威软件股份有限公司 | 一种定时数据增量同步的方法 |
CN105487980A (zh) * | 2015-12-04 | 2016-04-13 | Tcl集团股份有限公司 | 修复应用程序运行异常的方法及装置 |
CN105550288A (zh) * | 2015-12-10 | 2016-05-04 | 百度在线网络技术(北京)有限公司 | 数据库系统的更新方法和管理系统 |
US20160275097A1 (en) * | 2015-03-19 | 2016-09-22 | International Business Machines Corporation | Inter-process communication in a multi-tenant environment |
CN105975502A (zh) * | 2016-04-25 | 2016-09-28 | 南京优测信息科技有限公司 | 一种基于cdc方式实现增量抽取数据的方法 |
US9619290B2 (en) * | 2015-03-06 | 2017-04-11 | Advanced Micro Devices, Inc. | Hardware and runtime coordinated load balancing for parallel applications |
CN106598594A (zh) * | 2016-12-14 | 2017-04-26 | 捷开通讯(深圳)有限公司 | 一种快速恢复测试程序的测试系统及方法 |
CN106786843A (zh) * | 2016-11-24 | 2017-05-31 | 惠州Tcl移动通信有限公司 | 一种充电电流的调整方法及系统、电子终端 |
CN107967361A (zh) * | 2017-12-22 | 2018-04-27 | 北京明朝万达科技股份有限公司 | 一种数据库的增量处理方法和系统 |
US20180255099A1 (en) * | 2017-03-02 | 2018-09-06 | Microsoft Technology Licensing, Llc | Security and compliance alerts based on content, activities, and metadata in cloud |
CN108769212A (zh) * | 2018-05-31 | 2018-11-06 | 康键信息技术(深圳)有限公司 | 数据同步方法、装置、计算机设备和存储介质 |
-
2018
- 2018-11-19 CN CN201811377962.3A patent/CN111198911B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101286133A (zh) * | 2008-06-02 | 2008-10-15 | 北京邮电大学 | 应用区间运算的软件测试方法 |
CN102043789A (zh) * | 2009-10-21 | 2011-05-04 | 阿里巴巴集团控股有限公司 | 一种更新数据表的方法和装置 |
US20130238556A1 (en) * | 2012-03-08 | 2013-09-12 | Sap Ag | Replicating Data to a Database |
CN103955491A (zh) * | 2014-04-15 | 2014-07-30 | 南威软件股份有限公司 | 一种定时数据增量同步的方法 |
US9619290B2 (en) * | 2015-03-06 | 2017-04-11 | Advanced Micro Devices, Inc. | Hardware and runtime coordinated load balancing for parallel applications |
US20160275097A1 (en) * | 2015-03-19 | 2016-09-22 | International Business Machines Corporation | Inter-process communication in a multi-tenant environment |
CN105487980A (zh) * | 2015-12-04 | 2016-04-13 | Tcl集团股份有限公司 | 修复应用程序运行异常的方法及装置 |
CN105550288A (zh) * | 2015-12-10 | 2016-05-04 | 百度在线网络技术(北京)有限公司 | 数据库系统的更新方法和管理系统 |
CN105975502A (zh) * | 2016-04-25 | 2016-09-28 | 南京优测信息科技有限公司 | 一种基于cdc方式实现增量抽取数据的方法 |
CN106786843A (zh) * | 2016-11-24 | 2017-05-31 | 惠州Tcl移动通信有限公司 | 一种充电电流的调整方法及系统、电子终端 |
CN106598594A (zh) * | 2016-12-14 | 2017-04-26 | 捷开通讯(深圳)有限公司 | 一种快速恢复测试程序的测试系统及方法 |
US20180255099A1 (en) * | 2017-03-02 | 2018-09-06 | Microsoft Technology Licensing, Llc | Security and compliance alerts based on content, activities, and metadata in cloud |
CN107967361A (zh) * | 2017-12-22 | 2018-04-27 | 北京明朝万达科技股份有限公司 | 一种数据库的增量处理方法和系统 |
CN108769212A (zh) * | 2018-05-31 | 2018-11-06 | 康键信息技术(深圳)有限公司 | 数据同步方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
杨英杰等: "异常检测模式判定策略的研究", 《计算机工程》 * |
Also Published As
Publication number | Publication date |
---|---|
CN111198911B (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103092700B (zh) | 内存清理方法、装置和终端设备 | |
CN106708617B (zh) | 一种基于Service的应用进程保活系统及保活方法 | |
CN103078933B (zh) | 一种确定数据迁移时机的方法和装置 | |
CN105373485A (zh) | 内存清理系统、方法及终端设备 | |
CN108509322A (zh) | 避免过度回访的方法、电子装置及计算机可读存储介质 | |
CN111198911B (zh) | 一种数据提取方法 | |
CN105824687B (zh) | 一种Java虚拟机性能自动调优的方法及装置 | |
CN106200866A (zh) | 一种应用冻结方法及移动终端 | |
CN111309442B (zh) | 微服务容器数量的调整方法、装置、系统、介质及设备 | |
CN110704223B (zh) | 一种数据库单节点异常的恢复系统和方法 | |
CN104158843A (zh) | 分布式文件存储系统的存储单元失效检测方法及装置 | |
CN105868057A (zh) | 一种数据处理的方法、装置和移动终端 | |
CN110555009A (zh) | 一种网络文件系统nfs服务的处理方法及装置 | |
CN101662382A (zh) | 一种抑制网管系统中振荡告警上报的方法及系统 | |
CN112817620B (zh) | 控制器终端程序更新方法、装置、计算机设备和存储介质 | |
CN110113395B (zh) | 共享文件系统维护方法及装置 | |
CN107729058B (zh) | 一种自动解析增值税发票识别结果的方法 | |
CN111210045A (zh) | 一种停机指令发送优化方法 | |
CN108121728B (zh) | 从数据库抽取数据的方法和装置 | |
CN114153588B (zh) | 一种Volte信令数据文件采集方法及系统 | |
CN110865873A (zh) | 一种虚拟机资源动态停机及恢复方法 | |
CN115904917B (zh) | 物联网异常处理方法、装置、计算机设备及存储介质 | |
CN116719971B (zh) | 拉链表数据加载方法、装置和电子设备 | |
CN109542344B (zh) | 一种磁盘空间的清理方法、装置、存储介质及终端 | |
CN103488795A (zh) | 网页爬虫抓取规则替换方法、调度端和抓取端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |