CN111198911B - 一种数据提取方法 - Google Patents

一种数据提取方法 Download PDF

Info

Publication number
CN111198911B
CN111198911B CN201811377962.3A CN201811377962A CN111198911B CN 111198911 B CN111198911 B CN 111198911B CN 201811377962 A CN201811377962 A CN 201811377962A CN 111198911 B CN111198911 B CN 111198911B
Authority
CN
China
Prior art keywords
data
data extraction
interval
increment
time node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811377962.3A
Other languages
English (en)
Other versions
CN111198911A (zh
Inventor
余伟
彭睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gree Electric Appliances Inc of Zhuhai
Original Assignee
Gree Electric Appliances Inc of Zhuhai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gree Electric Appliances Inc of Zhuhai filed Critical Gree Electric Appliances Inc of Zhuhai
Priority to CN201811377962.3A priority Critical patent/CN111198911B/zh
Publication of CN111198911A publication Critical patent/CN111198911A/zh
Application granted granted Critical
Publication of CN111198911B publication Critical patent/CN111198911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种数据提取方法,所述方法包括:确定提取数据的开始时间节点和结束时间节点以确定提取数据的时间区间;向数据提取程序输入初始增量区间;检测数据提取程序是否正常运行;当数据提取程序正常运行时,调高增量区间直至数据提取程序不能正常运行后,调低增量区间直至数据提取程序恢复正常运行以确定增量区间,并按照小于或等于增量区间的时间区间提取数据,保证了程序正常定时运行时,按照程序能正常运行的增量区间提取增量数据,可以在多种情况下对增量数据进行有效提取。

Description

一种数据提取方法
技术领域
本发明涉及计算机技术领域,具体的涉及一种数据提取方法。
背景技术
商业智能领域应用的核心就是通过数据提取、整理、分析,最终通过分析结果制定有关策略、规划,达到资源的合理配置,节约成本提高效益。而数据抽取是实施商业智能系统中非常重要的环节。在用spark进行批量数据处理时,除了第一次处理全量数据外,常常需要处理每天新增的数据,如果因为停电等外部原因导致程序无法每天定时运行,那么累积的增量数据在外部故障恢复后程序重启进行提取时,经常会因为累计的数据量过于庞大而导致重启后的程序无法正常运行,造成死循环,数据提取不够灵活。
发明内容
本发明的目的在于克服现有技术中由于数据量过大导致程序无法正常运行的技术问题,提供一种数据提取方法。
为实现上述目的,本发明采用的技术方案如下:一种数据提取增量区间的获取方法,所述方法包括:
向数据提取程序输入初始增量区间;
检测数据提取程序是否正常运行;
当数据提取程序正常运行时,调高增量区间直至数据提取程序不能正常运行后,调低增量区间直至数据提取程序恢复正常运行以确定增量区间。
一种数据提取方法,使用上述的数据提取增量区间的获取方法获取增量区间,所述方法包括:
确定提取数据的开始时间节点和结束时间节点以确定提取数据的时间区间;
按照小于或等于增量区间的时间区间提取数据。
进一步的,当提取数据的时间区间小于或等于增量区间时,按照确定的提取数据的时间区间进行提取。
进一步的,当提取数据的时间区间大于增量区间时,按照增量区间多次提取。
进一步的,还包括:将每次数据提取的结束时间节点保存至增量表中。
进一步的,所述提取数据时,访问所述增量表,按照所述增量表中最新的结束时间节点作为本次提取数据的开始时间节点。
进一步的,所述数据提取程序不能正常运行时,重新调整结束时间节点后继续提取。
进一步的,所述结束时间节点自定义设置。
进一步的,所述结束时间节点的调整包括:向数据提取程序输入初始结束时间节点,调低结束时间节点直至数据提取程序正常运行以确定结束时间节点。
由上述对本发明的描述可知,与现有技术相比,本发明提供的一种数据提取方法,确定提取数据的开始时间节点和结束时间节点以确定提取数据的时间区间;向数据提取程序输入初始增量区间;检测数据提取程序是否正常运行;当数据提取程序正常运行时,调高增量区间直至数据提取程序不能正常运行后,调低增量区间直至数据提取程序恢复正常运行以确定增量区间,并按照小于或等于增量区间的时间区间提取数据,保证了程序正常定时运行时,按照程序能正常运行的增量区间提取增量数据,可以在多种情况下对增量数据进行有效提取。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明数据提取增量区间的获取流程图;
图2为本发明数据提取流程图。
具体实施方式
以下将结合本发明实施例中的附图对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
第一次运行数据提取程序时,为程序初始化一个开始时间节点,程序将提取该时间节点以后的数据,例如,以增量的方式提取机器产生的故障数据,正常情况下,程序按天运行,第二天提取前一天的数据进行故障诊断,如果程序在某天没有正常运行,如断电和其他外界因素,则会在下一次运行时提取未提取到的所有数据;
在本实施例中,在数据提取之前制定数据提取增量区间策略,以保证程序正常运行,如图1所示,包括以下步骤:
S101:向数据提取程序输入初始增量区间;
S102:检测数据提取程序是否正常运行;
S103:当数据提取程序正常运行时,调高增量区间直至数据提取程序不正常运行后,调低增量区间直至数据提取程序恢复正常运行以确定增量区间。
一般情况下,先输入一个开始时间节点,作为本次数据提取的时间节点,
程序提取数据时,需要确定提取数据的开始时间节点和结束时间节点以确定提取数据的时间区间,本次提取数据的结束时间节点等于开始时间节点加上一个时间区间长度,这个时间区间长度即是本实施中要制定的增量区间,这个增量区间即该程序在所给固定资源的情况下能处理的最长时间区间长度,例如,一开始将该时间区间长度设为1小时,发现在固定资源(如:5台服务器)上可以正常拉取该时间区间长度下的所有数据,并进行相关逻辑处理,然后将该时间区间调整为20小时,发现在固定资源(如:5台服务器)上不能正常拉取该时间区间长度下的所有数据,并进行相关逻辑处理,然后将时间区间调整为10小时,发现在固定资源(如:5台服务器)上可以正常拉取该时间区间长度下的所有数据,并进行相关逻辑处理,然后将时间区间长度调整为15小时,去测试是否能正常拉取该时间区间长度下的所有数据,并进行相关逻辑处理,以此类推,直到确定最佳的时间区间长度为止,假设最后确定的最佳的时间区间长度是16小时,采用这种策略的好处是程序在绝大多数情况下都能自动增量运行下去,即使挂掉,下次定时启动的时候只要增量时间区间长度不超过确定的这个时间区间长度,仍可以照常运行,在调整过程中,累计增量数据过多,数据提取程序不能正常运行时,需要手动重启程序,重新调整结束时间节点后继续提取,该结束时间节点可以自定义设置,例如过滤掉不需要的时间段数据,或者通过调整确定,具体的,可向数据提取程序输入初始结束时间节点,调低结束时间节点直至数据提取程序正常运行以确定结束时间节点。
增量区间确定完之后,进行数据提取,如图2所示,包括以下步骤:
S201:确定提取数据的开始时间节点和结束时间节点以确定提取数据的时间区间;
S202:按照小于或等于增量区间的时间区间提取数据。
进行数据提取时,确定提取数据的开始时间节点和结束时间节点以确定提取数据的时间区间;当提取数据的时间区间小于或等于增量区间时,按照确定的提取数据的时间区间进行提取,将每次数据提取的结束时间节点保存至增量表中,在下一次提取数据时,访问所述增量表,按照所述增量表中最新的结束时间节点作为本次提取数据的开始时间节点,当提取数据的时间区间小于或等于增量区间时,按照确定的提取数据的时间区间进行提取,此时由于需要提取数据的时间区间小于或等于增量区间,例如,上述得出增量区间为16个小时,而本次需要提取的时间区间等于或小于16个小时,程序能正常运行,当提取数据的时间区间大于增量区间时,按照增量区间多次提取,例如,上述得出增量区间为16个小时,而本次需要提取的时间区间为45个小时,首先按照16个小时提取一次数据,剩下29个小时的数据未提取,以上一次提取的结束节点作为本次的开始节点再次按照16个小时提取一次数据,以此类推,直到提取完成。
由上述对本发明的描述可知,与现有技术相比,本发明提供的一种数据提取方法,确定提取数据的开始时间节点和结束时间节点以确定提取数据的时间区间;向数据提取程序输入初始增量区间;检测数据提取程序是否正常运行;当数据提取程序正常运行时,调高增量区间直至数据提取程序不能正常运行后,调低增量区间直至数据提取程序恢复正常运行以确定增量区间,并按照小于或等于增量区间的时间区间提取数据,保证了程序正常定时运行时,按照程序能正常运行的增量区间提取增量数据,可以在多种情况下对增量数据进行有效提取。
上述仅为本发明的若干具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (8)

1.一种数据提取方法,其特征在于,所述方法包括:
确定提取数据的开始时间节点和结束时间节点以确定提取数据的时间区间;
向数据提取程序输入初始增量区间;
检测数据提取程序是否正常运行;
当数据提取程序正常运行时,调高增量区间直至数据提取程序不能正常运行后,调低增量区间直至数据提取程序恢复正常运行以确定增量区间;
按照小于或等于增量区间的时间区间提取数据。
2.根据权利要求1所述的数据提取方法,其特征在于,还包括:当提取数据的时间区间小于或等于增量区间时,按照确定的提取数据的时间区间进行提取。
3.根据权利要求1所述的数据提取方法,其特征在于:当提取数据的时间区间大于增量区间时,按照增量区间多次提取。
4.根据权利要求1-3任意一项所述的数据提取方法,其特征在于:将每次数据提取的结束时间节点保存至增量表中。
5.根据权利要求4所述的数据提取方法,其特征在于:所述提取数据时,访问所述增量表,按照所述增量表中最新的结束时间节点作为本次提取数据的开始时间节点。
6.根据权利要求1所述的数据提取方法,其特征在于:所述数据提取程序不能正常运行时,重新调整结束时间节点后继续提取。
7.根据权利要求6所述的数据提取方法,其特征在于:所述结束时间节点自定义设置。
8.根据权利要求6所述的数据提取方法,其特征在于:所述结束时间节点的调整包括:向数据提取程序输入初始结束时间节点,调低结束时间节点直至数据提取程序正常运行以确定结束时间节点。
CN201811377962.3A 2018-11-19 2018-11-19 一种数据提取方法 Active CN111198911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811377962.3A CN111198911B (zh) 2018-11-19 2018-11-19 一种数据提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811377962.3A CN111198911B (zh) 2018-11-19 2018-11-19 一种数据提取方法

Publications (2)

Publication Number Publication Date
CN111198911A CN111198911A (zh) 2020-05-26
CN111198911B true CN111198911B (zh) 2021-05-25

Family

ID=70746136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811377962.3A Active CN111198911B (zh) 2018-11-19 2018-11-19 一种数据提取方法

Country Status (1)

Country Link
CN (1) CN111198911B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286133A (zh) * 2008-06-02 2008-10-15 北京邮电大学 应用区间运算的软件测试方法
CN102043789A (zh) * 2009-10-21 2011-05-04 阿里巴巴集团控股有限公司 一种更新数据表的方法和装置
CN103955491A (zh) * 2014-04-15 2014-07-30 南威软件股份有限公司 一种定时数据增量同步的方法
CN105487980A (zh) * 2015-12-04 2016-04-13 Tcl集团股份有限公司 修复应用程序运行异常的方法及装置
US9619290B2 (en) * 2015-03-06 2017-04-11 Advanced Micro Devices, Inc. Hardware and runtime coordinated load balancing for parallel applications
CN106598594A (zh) * 2016-12-14 2017-04-26 捷开通讯(深圳)有限公司 一种快速恢复测试程序的测试系统及方法
CN106786843A (zh) * 2016-11-24 2017-05-31 惠州Tcl移动通信有限公司 一种充电电流的调整方法及系统、电子终端
CN107967361A (zh) * 2017-12-22 2018-04-27 北京明朝万达科技股份有限公司 一种数据库的增量处理方法和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8996465B2 (en) * 2012-03-08 2015-03-31 Sap Ag Replicating data to a database
US10528525B2 (en) * 2015-03-19 2020-01-07 International Business Machines Corporation Establishing connections in a multi-tenant environment
CN105550288B (zh) * 2015-12-10 2019-07-02 百度在线网络技术(北京)有限公司 数据库系统的更新方法和管理系统
CN105975502A (zh) * 2016-04-25 2016-09-28 南京优测信息科技有限公司 一种基于cdc方式实现增量抽取数据的方法
US20180255099A1 (en) * 2017-03-02 2018-09-06 Microsoft Technology Licensing, Llc Security and compliance alerts based on content, activities, and metadata in cloud
CN108769212B (zh) * 2018-05-31 2023-04-07 康键信息技术(深圳)有限公司 数据同步方法、装置、计算机设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286133A (zh) * 2008-06-02 2008-10-15 北京邮电大学 应用区间运算的软件测试方法
CN102043789A (zh) * 2009-10-21 2011-05-04 阿里巴巴集团控股有限公司 一种更新数据表的方法和装置
CN103955491A (zh) * 2014-04-15 2014-07-30 南威软件股份有限公司 一种定时数据增量同步的方法
US9619290B2 (en) * 2015-03-06 2017-04-11 Advanced Micro Devices, Inc. Hardware and runtime coordinated load balancing for parallel applications
CN105487980A (zh) * 2015-12-04 2016-04-13 Tcl集团股份有限公司 修复应用程序运行异常的方法及装置
CN106786843A (zh) * 2016-11-24 2017-05-31 惠州Tcl移动通信有限公司 一种充电电流的调整方法及系统、电子终端
CN106598594A (zh) * 2016-12-14 2017-04-26 捷开通讯(深圳)有限公司 一种快速恢复测试程序的测试系统及方法
CN107967361A (zh) * 2017-12-22 2018-04-27 北京明朝万达科技股份有限公司 一种数据库的增量处理方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
异常检测模式判定策略的研究;杨英杰等;《计算机工程》;20040131;第30卷(第1期);第114-115页 *

Also Published As

Publication number Publication date
CN111198911A (zh) 2020-05-26

Similar Documents

Publication Publication Date Title
CN110515820B (zh) 一种服务器故障维护方法、装置、服务器及存储介质
CN106708617B (zh) 一种基于Service的应用进程保活系统及保活方法
CN105373485A (zh) 内存清理系统、方法及终端设备
CN110032444B (zh) 一种分布式系统及分布式任务处理方法
CN108509322A (zh) 避免过度回访的方法、电子装置及计算机可读存储介质
CN111198911B (zh) 一种数据提取方法
CN109558165B (zh) 一种配置优化方法、装置、设备和存储介质
CN106200866A (zh) 一种应用冻结方法及移动终端
CN111309442B (zh) 微服务容器数量的调整方法、装置、系统、介质及设备
CN112987904B (zh) 一种心跳控制方法和装置
CN110704223B (zh) 一种数据库单节点异常的恢复系统和方法
CN110555009B (zh) 一种网络文件系统nfs服务的处理方法及装置
CN104158843A (zh) 分布式文件存储系统的存储单元失效检测方法及装置
CN111210045A (zh) 一种停机指令发送优化方法
CN108924002B (zh) 一种性能数据文件的解析方法、装置、设备及存储介质
CN112817687A (zh) 一种数据同步方法和装置
CN113434256B (zh) 一种云资源横向扩展方法、可读存储介质
CN109408293B (zh) 一种实时监测rack机柜电源的方法
CN108924013B (zh) 网络流量精确采集方法及装置
CN111176848B (zh) 集群任务的处理方法、装置、设备和存储介质
CN110113395B (zh) 共享文件系统维护方法及装置
CN110532453B (zh) 一种调整爬虫更新频率的方法、存储介质及爬虫服务器
CN107729058B (zh) 一种自动解析增值税发票识别结果的方法
CN108121728B (zh) 从数据库抽取数据的方法和装置
CN115904917B (zh) 物联网异常处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant