CN109933611A - 一种自适应的数据采集方法及系统 - Google Patents

一种自适应的数据采集方法及系统 Download PDF

Info

Publication number
CN109933611A
CN109933611A CN201910131481.2A CN201910131481A CN109933611A CN 109933611 A CN109933611 A CN 109933611A CN 201910131481 A CN201910131481 A CN 201910131481A CN 109933611 A CN109933611 A CN 109933611A
Authority
CN
China
Prior art keywords
task
data
queue
processing
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910131481.2A
Other languages
English (en)
Inventor
张�成
何雪峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Dapuxin Technology Co Ltd
Original Assignee
Shenzhen Dapuxin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Dapuxin Technology Co Ltd filed Critical Shenzhen Dapuxin Technology Co Ltd
Priority to CN201910131481.2A priority Critical patent/CN109933611A/zh
Publication of CN109933611A publication Critical patent/CN109933611A/zh
Pending legal-status Critical Current

Links

Abstract

本发明实施例公开了一种自适应的数据采集方法及系统,方法包括:对数据进行采集,将采集到的数据添加到数据缓存队列;对数据缓存队列中的任务进行批次处理,评估平均处理时间,若平均处理时间到达阈值,则对预先设置的任务处理参数进行调整;根据调整后的任务处理参数对任务进行批次处理;判断是否存在未处理的任务,若存在,获取单个未处理的任务进行处理,若单个未处理的任务处理失败,则判断处理失败次数是否超过重试次数阈值;若未超过,则将处理失败的任务添加至缓存队列的队尾;若超过,则下发预警通知。本发明提供一套高效便捷且智能化程度高的数据采集方法,完全不需要人工干预,提升系统服务效率以及运维的效率,降低人工成本。

Description

一种自适应的数据采集方法及系统
技术领域
本发明涉及通信技术领域,尤其涉及一种自适应的数据采集方法及系统。
背景技术
数据采集工作是事前风险预警的关键,无论是处理突发事件,还是对历史数据进行分析、总结规律,都必须建立在真实、准确的数据之上。因此,数据采集工作尤为重要,对数据采集方法策略的便捷性、稳定性、智能化程度要求越来越高。
但是,现有的数据采集方法存在以下缺陷:
(1)采集能力不能自适应。采集服务不能根据当前机器的实际的处理能力动态调整,缓解系统负载能力以及处理能力;
(2)任务积压不能自缓解。数据任务处理能力下降时,采集服务缺少自动调节能力,导致任务积压越来越严重,最终导致内存溢出、系统崩溃;
(3)缺少容错恢复能力。由于某个业务处理逻辑错误或者网络故障等其它原因,会导致业务数据丢失以及整个采集程序不可用,影响服务正常运行工作;
(4)缺少数据分级机制。数据处理过程中,由于某个业务处理逻辑错误或者网络故障等其它原因导致数据处理失败,无重新处理或者放弃处理的数据分级机制。
(5)缺少容灾恢复能力。由于断电、硬件故障等外部原因,会导致数据处理状态丢失、数据丢失的情况;
(6)缺少报警机制。任务处理失败或者其他问题,缺少预警通知机制。
因此现有技术还有待于进一步发展。
发明内容
针对上述技术问题,本发明实施例提供了一种自适应的数据采集方法及系统,能够解决现有技术中数据采集服务不能根据当前机器的实际处理能力动态调整,系统负载大,处理速度慢的技术问题。
本发明实施例的第一方面提供一种自适应的数据采集方法,包括:
预先对任务处理参数进行配置;
对数据进行采集,将批量采集到的数据添加到数据缓存队列;
对数据缓存队列中的任务进行批次处理,评估平均处理时间,若平均处理时间到达阈值,则对预先设置的任务处理参数进行调整,获取调整后的任务处理参数;
根据调整后的任务处理参数对任务进行批次处理;判断是否存在未处理的任务,若存在未处理的任务,获取单个未处理的任务进行处理,将正在处理的任务的数据状态记为处理中;
若单个未处理的任务处理失败,则判断处理失败次数是否超过重试次数阈值;若未超过重试次数阈值,则将处理失败的任务添加至缓存队列的队尾;若超过重试次数阈值,则下发预警通知。
可选地,所述预先对任务处理参数进行配置,包括:
预先对原始采集能力参数进行配置,所述原始能力参数用于评估一次批量采集的数据的数量;
预先对原始单位任务平均处理时间进行配置;
预先对原始单位任务平均处理时间容忍时间差进行配置;
预先对调整比率进行配置。
可选地,所述对数据进行采集时,将批量采集到的数据添加到数据缓存队列前,还包括:
检测到采集数据时间到,则判断缓存队列是否为空;
若为空,则对数据进行采集,将批量采集到的数据添加到数据缓存队列。
可选地,所述若单个未处理的任务处理失败,则判断处理失败次数是否超过重试次数阈值;若未超过重试次数阈值,则将处理失败的任务添加至缓存队列的队尾,若超过重试次数阈值,则下发预警通知,包括:
若单个未处理的任务的任务处理失败,则获取任务处理失败的原因;
若任务失败的原因为网络异常导致,则将处理失败的任务添加至缓存队列的队尾,并标记失败重试次数;
判断处理失败次数是否达到重试次数阈值,
若是,则将处理失败的任务清理出队列,将数据采集状态标记为异常,并下发预警通知,若检测到任务失败的原因为系统不能自动解决的错误,则将数据标记为人工处理,并将数据采集状态标记为错误;
若否,则将处理失败的任务添加至缓存队列的队尾,并标记失败重试次数。
可选地,所述根据调整后的任务处理参数对任务进行批次处理;判断是否存在未处理的任务,若存在未处理的任务,获取单个未处理的任务进行处理后,还包括:
若检测到系统重启后,获取数据采集状态为处理中或异常的数据,进行采集并重新处理。
本发明实施例第二方面提供了一种自适应的数据采集系统,所述系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现以下步骤:
预先对任务处理参数进行配置;
对数据进行采集,将批量采集到的数据添加到数据缓存队列;
对数据缓存队列中的任务进行批次处理,评估平均处理时间,若平均处理时间到达阈值,则对预先设置的任务处理参数进行调整,获取调整后的任务处理参数;
根据调整后的任务处理参数对任务进行批次处理;判断是否存在未处理的任务,若存在未处理的任务,获取单个未处理的任务进行处理,将正在处理的任务的数据状态记为处理中;
若单个未处理的任务处理失败,则判断处理失败次数是否超过重试次数阈值;若未超过重试次数阈值,则将处理失败的任务添加至缓存队列的队尾;若超过重试次数阈值,则下发预警通知。
可选地,所述计算机程序被所述处理器执行时还实现以下步骤:
预先对原始采集能力参数进行配置,所述原始能力参数用于评估一次批量采集的数据的数量;
预先对原始单位任务平均处理时间进行配置;
预先对原始单位任务平均处理时间容忍时间差进行配置;
预先对调整比率进行配置。
可选地,所述计算机程序被所述处理器执行时还实现以下步骤:
检测到采集数据时间到,则判断缓存队列是否为空;
若为空,则对数据进行采集,将批量采集到的数据添加到数据缓存队列。
可选地,所述计算机程序被所述处理器执行时还实现以下步骤:
若单个未处理的任务的任务处理失败,则获取任务处理失败的原因;
若任务失败的原因为网络异常导致,则将处理失败的任务添加至缓存队列的队尾,并标记失败重试次数;
判断处理失败次数是否达到重试次数阈值,
若是,则将处理失败的任务清理出队列,将数据采集状态标记为异常,并下发预警通知,若检测到任务失败的原因为系统不能自动解决的错误,则将数据标记为人工处理,并将数据采集状态标记为错误;
若否,则将处理失败的任务添加至缓存队列的队尾,并标记失败重试次数。
本发明实施例第三方面提供了一种非易失性计算机可读存储介质,其特征在于,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多个处理器执行上述的自适应的数据采集方法。
本发明实施例提供的技术方案中,对数据进行采集,将采集到的数据添加到数据缓存队列;对数据缓存队列中的任务进行批次处理,评估平均处理时间,若平均处理时间到达阈值,则对预先设置的任务处理参数进行调整;根据调整后的任务处理参数对任务进行批次处理;判断是否存在未处理的任务,若存在,获取单个未处理的任务进行处理,若单个未处理的任务处理失败,则判断处理失败次数是否超过重试次数阈值;若未超过,则将处理失败的任务添加至缓存队列的队尾;若超过,则下发预警通知。因此相对于现有技术,本发明实施例可为数据采集提供一套高效的、便捷的、稳定的、智能化程度高的数据采集策略。数据采集应用完全不需要人工干预,提升系统服务效率以及运维的效率,降低人工成本。
附图说明
图1为本发明实施例中一种自适应的数据采集方法的一实施例的流程示意图;
图2为本发明实施例中一种自适应的数据采集系统的另一实施例的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明实施例中一种自适应的数据采集方法的一个实施例的流程示意图。如图1所示,包括:
步骤S100、预先对任务处理参数进行配置;
步骤S200、对数据进行采集,将批量采集到的数据添加到数据缓存队列;
步骤S300、对数据缓存队列中的任务进行批次处理,评估平均处理时间,若平均处理时间到达阈值,则对预先设置的任务处理参数进行调整,获取调整后的任务处理参数;
步骤S400、根据调整后的任务处理参数对任务进行批次处理;判断是否存在未处理的任务,若是,则执行步骤S500,若否则执行步骤S600;
步骤S500、本批次处理任务结束;
步骤S600、获取单个未处理的任务进行处理,将正在处理的任务的数据状态记为处理中;
步骤S700、若单个未处理的任务处理失败,则判断处理失败次数是否超过重试次数阈值;若是,则执行步骤S800;若否,则执行步骤S900;
步骤S800、下发预警通知;
步骤S900、将处理失败的任务添加至缓存队列的队尾。
具体地,设置采集数据缓存队列TASK_QUEUE,缓存队列TASK_QUEUE 用于暂时保存批量采集到的数据,后续针对缓存中的任务进行多线程处理;
步骤S100具体为:
预先对原始采集能力参数进行配置,所述原始能力参数用于评估一次批量采集的数据的数量;
预先对原始单位任务平均处理时间进行配置;
预先对原始单位任务平均处理时间容忍时间差进行配置;
预先对调整比率进行配置。
具体地,通过参数配置设置默认采集能力参数BATCH_NUM,这项参数主要用于评估一次批量采集的数量。可以取默认值,也可以根据单元数据处理时间情况进行评估配置,服务运行后会根据调整算法自动调整运行时 BATCH_NUM参数值;
通过参数配置设置默认单位任务平均处理时间UNIT_TIME,可以取默认值,也可以根据理想单位数据处理时间情况进行评估设置(理想单位数据处理时间为无操作系统内存、IO等资源过载、资源抢占的情形下,处理单位数据所需要的平均时间)。在UNIT_TIME评估时,用总耗时除以数据总量得到平均时间UNIT_TIME;
通过参数配置设置默认单位任务平均处理时间容忍差TDR,这个标识平均处理时间在容忍差范围内摆动不需要调整采集能力参数,可以取默认值,也可以根据理想单位数据处理时间情况进行评估设置;
设置调整比率STEP_RATE(1>STEP_RATE>0),默认值为0.1,可以自己设置 1>STEP_RATE>0范围内的值,但是建议设置为0.1。参数太大,优化粒度太粗,自适应过程中波动比较大,不稳定,无法达到更优状态,参数过小导致自适应效率太慢。
进一步地,步骤S200前还包括:
检测到采集数据时间到,则判断缓存队列是否为空;
若为空,则对数据进行采集,将批量采集到的数据添加到数据缓存队列。
具体实施时,批次采集到数据,首先回复数据采集状态为处理中(TMP),采集到的数据加载到缓存队列中。缓存队列中未处理的任务的大小为 TASK_SIZE,TASK_SIZE可以用于标识批次任务积压情况。如果 TASK_SIZE>0,代表任务处理未完成,下次数据采集时间窗任务可以暂停采集,直到TASK_SIZE=0(缓存中的数据已经处理完),再进行下次数据采集,同时后续时间窗同理判断,通过这种策略缓解积压的任务。
在批次采集数据处理过程中,监控批次处理时间,然后用批次处理时间 (BATCH_TIME)除以采集数(BATCH_NUM)得到单位任务平均处理时间((AVG_TIME),公式如下:AVG_TIME=BATCH_TIME/BATCH_NUM。如果AVG_TIME>UNIT_TIME+TDR,那么批量采集能力调整为BATCH_NUM=BATCH_NUM*(1-STEP_RATE)。如果 AVG_TIME<=UNIT_TIME+TDR,那么批量采集能力调整为 BATCH_NUM=BATCH_NUM*(1+STEP_RATE)。通过这种策略优化资源利用效率和任务处理效率。
进一步地,若单个未处理的任务处理失败,则判断处理失败次数是否超过重试次数阈值;若未超过重试次数阈值,则将处理失败的任务添加至缓存队列的队尾,若超过重试次数阈值,则下发预警通知,包括:
若单个未处理的任务的任务处理失败,则获取任务处理失败的原因;
若任务失败的原因为网络异常导致,则将处理失败的任务添加至缓存队列的队尾,并标记失败重试次数;
判断处理失败次数是否达到重试次数阈值,
若是,则将处理失败的任务清理出队列,将数据采集状态标记为异常,并下发预警通知,若检测到任务失败的原因为系统不能自动解决的错误,则将数据标记为人工处理,并将数据采集状态标记为错误;
若否,则将处理失败的任务添加至缓存队列的队尾,并标记失败重试次数。
具体实施时,在数据任务处理业务中,由于某种原因导致处理失败的任务,根据失败的原因进行数据分级,对于网络异常的导致的任务失败,把任务重新排到缓存队列的末尾,并标记失败重试次数,进行后续处理。如果由于网络络失败重试次数达到指定值RETRY_NUM,清理出队列,回复数据采集状态为异常(EXCEPTION),并进行预警通知。如果针对的数据错误等系统不能自动解决的错误,系统自动把数据标记为人工处理,清理出队列,回复数据采集状态为错误(ERROR),不妨碍正常数据的处理,等待人工处理数据为正常(NORMAL)或者默认状态后,再根据采集策略重新处理。数据处理成功的回复数据采集状态为成功(SUCCESS)。
进一步地,步骤S900后还包括:
若检测到系统重启后,获取数据采集状态为处理中或异常的数据,进行采集并重新处理。
具体实施时,对于突发状况比如断电宕机等情况,系统重启后,先对数据状态处于处理中(TMP)或者异常(EXCEPTION)的数据,进行采集并重新处理,保证数据处理不丢失,然后再进行正常的数据采集处理。
由以上方法实施例可知,本发明实施例具有以下技术好处:
采集能力自适应,能根据当前机器的实际的处理能力动态调整,缓解系统压力,使服务效率最大化,资源利用最优化;
自动缓解积压任务。任务处理能力下降时,采集服务判断任务积压情况,根据积压情况决定是否执行下一批次数据采集;
容错自恢复,当发生某个业务处理逻辑错误或者网络故障等,对处理异常数据进行标记,进行后续数据分级处理,不影响后续正常数据的业务处理;
数据分级处理,数据处理过程中,异常数据处理加入分类重试等数据分级机制;
容灾自恢复,数据处理状态持久化,由于断电、硬件故障等外部原因宕机重启时先进行状态检查,系统恢复异常数据,在进行后续的正常业务处理
加入报警机制,针对系统不能自动处理的问题,主动添加预警通知机制,通知管理员或者业务人员快速响应。
上面对本发明实施例中的自适应的数据采集方法进行了描述,下面对本发明实施例中的自适应的数据采集系统进行描述,请参阅图2,图2是本发明实施例中一种自适应的数据采集系统的另一实施例的硬件结构示意图,如图2 所示,系统10包括:存储器101、处理器102及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器101执行时实现以下步骤:
预先对任务处理参数进行配置;
对数据进行采集,将批量采集到的数据添加到数据缓存队列;
对数据缓存队列中的任务进行批次处理,评估平均处理时间,若平均处理时间到达阈值,则对预先设置的任务处理参数进行调整,获取调整后的任务处理参数;
根据调整后的任务处理参数对任务进行批次处理;判断是否存在未处理的任务,若存在未处理的任务,获取单个未处理的任务进行处理,将正在处理的任务的数据状态记为处理中;
若单个未处理的任务处理失败,则判断处理失败次数是否超过重试次数阈值;若未超过重试次数阈值,则将处理失败的任务添加至缓存队列的队尾;若超过重试次数阈值,则下发预警通知。
具体地,设置采集数据缓存队列TASK_QUEUE,缓存队列TASK_QUEUE 用于暂时保存批量采集到的数据,后续针对缓存中的任务进行多线程处理。
本实施例为数据采集提供一套高效的、便捷的、稳定的、智能化程度高的数据采集策略。数据采集应用完全不需要人工干预,提升系统服务效率以及运维的效率,降低人工成本。
可选地,计算机程序被处理器101执行时还实现以下步骤:
预先对原始采集能力参数进行配置,所述原始能力参数用于评估一次批量采集的数据的数量;
预先对原始单位任务平均处理时间进行配置;
预先对原始单位任务平均处理时间容忍时间差进行配置;
预先对调整比率进行配置。
具体地,通过参数配置设置默认采集能力参数BATCH_NUM,这项参数主要用于评估一次批量采集的数量。可以取默认值,也可以根据单元数据处理时间情况进行评估配置,服务运行后会根据调整算法自动调整运行时 BATCH_NUM参数值;
通过参数配置设置默认单位任务平均处理时间UNIT_TIME,可以取默认值,也可以根据理想单位数据处理时间情况进行评估设置(理想单位数据处理时间为无操作系统内存、IO等资源过载、资源抢占的情形下,处理单位数据所需要的平均时间)。在UNIT_TIME评估时,用总耗时除以数据总量得到平均时间UNIT_TIME;
通过参数配置设置默认单位任务平均处理时间容忍差TDR,这个标识平均处理时间在容忍差范围内摆动不需要调整采集能力参数,可以取默认值,也可以根据理想单位数据处理时间情况进行评估设置;
设置调整比率STEP_RATE(1>STEP_RATE>0),默认值为0.1,可以自己设置1>STEP_RATE>0范围内的值,但是建议设置为0.1。参数太大,优化粒度太粗,自适应过程中波动比较大,不稳定,无法达到更优状态,参数过小导致自适应效率太慢。
可选地,计算机程序被处理器101执行时还实现以下步骤:
检测到采集数据时间到,则判断缓存队列是否为空;
若为空,则对数据进行采集,将批量采集到的数据添加到数据缓存队列。
具体实施时,批次采集到数据,首先回复数据采集状态为处理中(TMP),采集到的数据加载到缓存队列中。缓存队列中未处理的任务的大小为 TASK_SIZE,TASK_SIZE可以用于标识批次任务积压情况。如果 TASK_SIZE>0,代表任务处理未完成,下次数据采集时间窗任务可以暂停采集,直到TASK_SIZE=0(缓存中的数据已经处理完),再进行下次数据采集,同时后续时间窗同理判断,通过这种策略缓解积压的任务。
在批次采集数据处理过程中,监控批次处理时间,然后用批次处理时间 (BATCH_TIME)除以采集数(BATCH_NUM)得到单位任务平均处理时间 ((AVG_TIME),公式如下:AVG_TIME=BATCH_TIME/BATCH_NUM。如果AVG_TIME>UNIT_TIME+TDR,那么批量采集能力调整为BATCH_NUM=BATCH_NUM*(1-STEP_RATE)。如果 AVG_TIME<=UNIT_TIME+TDR,那么批量采集能力调整为 BATCH_NUM=BATCH_NUM*(1+STEP_RATE)。通过这种策略优化资源利用效率和任务处理效率。
可选地,计算机程序被处理器101执行时还实现以下步骤:
若单个未处理的任务的任务处理失败,则获取任务处理失败的原因;
若任务失败的原因为网络异常导致,则将处理失败的任务添加至缓存队列的队尾,并标记失败重试次数;
判断处理失败次数是否达到重试次数阈值,
若是,则将处理失败的任务清理出队列,将数据采集状态标记为异常,并下发预警通知,若检测到任务失败的原因为系统不能自动解决的错误,则将数据标记为人工处理,并将数据采集状态标记为错误;
若否,则将处理失败的任务添加至缓存队列的队尾,并标记失败重试次数。
具体实施时,在数据任务处理业务中,由于某种原因导致处理失败的任务,根据失败的原因进行数据分级,对于网络异常的导致的任务失败,把任务重新排到缓存队列的末尾,并标记失败重试次数,进行后续处理。如果由于网络络失败重试次数达到指定值RETRY_NUM,清理出队列,回复数据采集状态为异常(EXCEPTION),并进行预警通知。如果针对的数据错误等系统不能自动解决的错误,系统自动把数据标记为人工处理,清理出队列,回复数据采集状态为错误(ERROR),不妨碍正常数据的处理,等待人工处理数据为正常(NORMAL)或者默认状态后,再根据采集策略重新处理。数据处理成功的回复数据采集状态为成功(SUCCESS)。
本发明实施例提供了一种非易失性计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,例如,执行以上描述的图1中的方法步骤S100至步骤S900。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种自适应的数据采集方法,其特征在于,包括:
预先对任务处理参数进行配置;
对数据进行采集,将批量采集到的数据添加到数据缓存队列;
对数据缓存队列中的任务进行批次处理,评估平均处理时间,若平均处理时间到达阈值,则对预先设置的任务处理参数进行调整,获取调整后的任务处理参数;
根据调整后的任务处理参数对任务进行批次处理;判断是否存在未处理的任务,若存在未处理的任务,获取单个未处理的任务进行处理,将正在处理的任务的数据状态记为处理中;
若单个未处理的任务处理失败,则判断处理失败次数是否超过重试次数阈值;若未超过重试次数阈值,则将处理失败的任务添加至缓存队列的队尾;若超过重试次数阈值,则下发预警通知。
2.根据权利要求1所述的自适应的数据采集方法,其特征在于,所述预先对任务处理参数进行配置,包括:
预先对原始采集能力参数进行配置,所述原始能力参数用于评估一次批量采集的数据的数量;
预先对原始单位任务平均处理时间进行配置;
预先对原始单位任务平均处理时间容忍时间差进行配置;
预先对调整比率进行配置。
3.根据权利要求1所述的自适应的数据采集方法,其特征在于,所述对数据进行采集时,将批量采集到的数据添加到数据缓存队列前,还包括:
检测到采集数据时间到,则判断缓存队列是否为空;
若为空,则对数据进行采集,将批量采集到的数据添加到数据缓存队列。
4.根据权利要求1所述的自适应的数据采集方法,其特征在于,所述若单个未处理的任务处理失败,则判断处理失败次数是否超过重试次数阈值;若未超过重试次数阈值,则将处理失败的任务添加至缓存队列的队尾,若超过重试次数阈值,则下发预警通知,包括:
若单个未处理的任务的任务处理失败,则获取任务处理失败的原因;
若任务失败的原因为网络异常导致,则将处理失败的任务添加至缓存队列的队尾,并标记失败重试次数;
判断处理失败次数是否达到重试次数阈值,
若是,则将处理失败的任务清理出队列,将数据采集状态标记为异常,并下发预警通知,若检测到任务失败的原因为系统不能自动解决的错误,则将数据标记为人工处理,并将数据采集状态标记为错误;
若否,则将处理失败的任务添加至缓存队列的队尾,并标记失败重试次数。
5.根据权利要求4所述的自适应的数据采集方法,其特征在于,所述根据调整后的任务处理参数对任务进行批次处理;判断是否存在未处理的任务,若存在未处理的任务,获取单个未处理的任务进行处理后,还包括:
若检测到系统重启后,获取数据采集状态为处理中或异常的数据,进行采集并重新处理。
6.一种自适应的数据采集系统,其特征在于,所述系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现以下步骤:
预先对任务处理参数进行配置;
对数据进行采集,将批量采集到的数据添加到数据缓存队列;
对数据缓存队列中的任务进行批次处理,评估平均处理时间,若平均处理时间到达阈值,则对预先设置的任务处理参数进行调整,获取调整后的任务处理参数;
根据调整后的任务处理参数对任务进行批次处理;判断是否存在未处理的任务,若存在未处理的任务,获取单个未处理的任务进行处理,将正在处理的任务的数据状态记为处理中;
若单个未处理的任务处理失败,则判断处理失败次数是否超过重试次数阈值;若未超过重试次数阈值,则将处理失败的任务添加至缓存队列的队尾;若超过重试次数阈值,则下发预警通知。
7.根据权利要求6所述的自适应的数据采集系统,其特征在于,所述计算机程序被所述处理器执行时还实现以下步骤:
预先对原始采集能力参数进行配置,所述原始能力参数用于评估一次批量采集的数据的数量;
预先对原始单位任务平均处理时间进行配置;
预先对原始单位任务平均处理时间容忍时间差进行配置;
预先对调整比率进行配置。
8.根据权利要求6所述的自适应的数据采集系统,其特征在于,所述计算机程序被所述处理器执行时还实现以下步骤:
检测到采集数据时间到,则判断缓存队列是否为空;
若为空,则对数据进行采集,将批量采集到的数据添加到数据缓存队列。
9.根据权利要求6所述的自适应的数据采集系统,其特征在于,所述计算机程序被所述处理器执行时还实现以下步骤:
若单个未处理的任务的任务处理失败,则获取任务处理失败的原因;
若任务失败的原因为网络异常导致,则将处理失败的任务添加至缓存队列的队尾,并标记失败重试次数;
判断处理失败次数是否达到重试次数阈值,
若是,则将处理失败的任务清理出队列,将数据采集状态标记为异常,并下发预警通知,若检测到任务失败的原因为系统不能自动解决的错误,则将数据标记为人工处理,并将数据采集状态标记为错误;
若否,则将处理失败的任务添加至缓存队列的队尾,并标记失败重试次数。
10.一种非易失性计算机可读存储介质,其特征在于,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多个处理器执行权利要求1-5任一项所述的自适应的数据采集方法。
CN201910131481.2A 2019-02-22 2019-02-22 一种自适应的数据采集方法及系统 Pending CN109933611A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910131481.2A CN109933611A (zh) 2019-02-22 2019-02-22 一种自适应的数据采集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910131481.2A CN109933611A (zh) 2019-02-22 2019-02-22 一种自适应的数据采集方法及系统

Publications (1)

Publication Number Publication Date
CN109933611A true CN109933611A (zh) 2019-06-25

Family

ID=66985797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910131481.2A Pending CN109933611A (zh) 2019-02-22 2019-02-22 一种自适应的数据采集方法及系统

Country Status (1)

Country Link
CN (1) CN109933611A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377410A (zh) * 2019-07-16 2019-10-25 中信百信银行股份有限公司 任务调度方法、系统、电子设备及计算机可读存储介质
CN110532080A (zh) * 2019-09-02 2019-12-03 安徽三马信息科技有限公司 一种自适应现场工况数据采集系统
CN111179097A (zh) * 2019-11-28 2020-05-19 泰康保险集团股份有限公司 保单批改的方法、装置、电子设备和存储介质
CN111400390A (zh) * 2020-04-08 2020-07-10 上海东普信息科技有限公司 数据处理方法及装置
CN111580939A (zh) * 2020-04-01 2020-08-25 微梦创科网络科技(中国)有限公司 一种分级异步处理事务的方法及装置
CN111638964A (zh) * 2020-06-09 2020-09-08 武汉虹旭信息技术有限责任公司 一种集中式互联网数据采集系统及采集方法
CN112307046A (zh) * 2020-11-26 2021-02-02 北京金堤征信服务有限公司 数据采集方法和装置、计算机可读存储介质、电子设备
CN112487282A (zh) * 2020-11-04 2021-03-12 山东中创软件商用中间件股份有限公司 一种业务处理情况监控方法、装置、电子设备及存储介质
CN112527488A (zh) * 2020-12-21 2021-03-19 浙江百应科技有限公司 一种分布式高可用任务调度方法及系统
CN113434503A (zh) * 2021-06-25 2021-09-24 上海佩俪信息科技有限公司 一种区块链浏览方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976247A (zh) * 2010-09-30 2011-02-16 北京新媒传信科技有限公司 Rss数据采集方法及系统
CN105610633A (zh) * 2016-02-23 2016-05-25 烽火通信科技股份有限公司 一种通信设备中实时性能自采样系统及方法
US20160292190A1 (en) * 2015-03-30 2016-10-06 International Business Machines Corporation Dynamically adjusting statistics collection time in a database management system
CN108920261A (zh) * 2018-05-23 2018-11-30 中国航天系统科学与工程研究院 一种适于大规模并行数据处理任务的两级自适应调度方法
CN108958957A (zh) * 2018-07-11 2018-12-07 吉林吉大通信设计院股份有限公司 一种轻量级的大数据智能采集方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976247A (zh) * 2010-09-30 2011-02-16 北京新媒传信科技有限公司 Rss数据采集方法及系统
US20160292190A1 (en) * 2015-03-30 2016-10-06 International Business Machines Corporation Dynamically adjusting statistics collection time in a database management system
CN105610633A (zh) * 2016-02-23 2016-05-25 烽火通信科技股份有限公司 一种通信设备中实时性能自采样系统及方法
CN108920261A (zh) * 2018-05-23 2018-11-30 中国航天系统科学与工程研究院 一种适于大规模并行数据处理任务的两级自适应调度方法
CN108958957A (zh) * 2018-07-11 2018-12-07 吉林吉大通信设计院股份有限公司 一种轻量级的大数据智能采集方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377410A (zh) * 2019-07-16 2019-10-25 中信百信银行股份有限公司 任务调度方法、系统、电子设备及计算机可读存储介质
CN110532080A (zh) * 2019-09-02 2019-12-03 安徽三马信息科技有限公司 一种自适应现场工况数据采集系统
CN111179097B (zh) * 2019-11-28 2023-07-28 泰康保险集团股份有限公司 保单批改的方法、装置、电子设备和存储介质
CN111179097A (zh) * 2019-11-28 2020-05-19 泰康保险集团股份有限公司 保单批改的方法、装置、电子设备和存储介质
CN111580939A (zh) * 2020-04-01 2020-08-25 微梦创科网络科技(中国)有限公司 一种分级异步处理事务的方法及装置
CN111580939B (zh) * 2020-04-01 2023-09-01 微梦创科网络科技(中国)有限公司 一种分级异步处理事务的方法及装置
CN111400390A (zh) * 2020-04-08 2020-07-10 上海东普信息科技有限公司 数据处理方法及装置
CN111400390B (zh) * 2020-04-08 2023-11-17 上海东普信息科技有限公司 数据处理方法及装置
CN111638964A (zh) * 2020-06-09 2020-09-08 武汉虹旭信息技术有限责任公司 一种集中式互联网数据采集系统及采集方法
CN112487282A (zh) * 2020-11-04 2021-03-12 山东中创软件商用中间件股份有限公司 一种业务处理情况监控方法、装置、电子设备及存储介质
CN112307046A (zh) * 2020-11-26 2021-02-02 北京金堤征信服务有限公司 数据采集方法和装置、计算机可读存储介质、电子设备
CN112527488A (zh) * 2020-12-21 2021-03-19 浙江百应科技有限公司 一种分布式高可用任务调度方法及系统
CN113434503A (zh) * 2021-06-25 2021-09-24 上海佩俪信息科技有限公司 一种区块链浏览方法及系统

Similar Documents

Publication Publication Date Title
CN109933611A (zh) 一种自适应的数据采集方法及系统
US11102123B2 (en) Sensor network system
CN107515796A (zh) 一种设备异常监控处理方法及装置
CN110581852A (zh) 一种高效型拟态防御系统及方法
US8370847B2 (en) Managing persistence in a messaging system
US10389576B2 (en) Method for operating a distributed computing system and a distributed computing system
CN107451268A (zh) 一种面向实时数据库的断网续传的方法
JP5343436B2 (ja) 情報管理システム
EP2723017A1 (en) Method, apparatus and system for implementing distributed auto-incrementing counting
CN102263674A (zh) 告警上报方法、系统和设备
CN100464600C (zh) 告警处理方法和后台管理装置
EP1390848A2 (en) Task supervision
CN106844083A (zh) 一种面向流计算系统异常感知的容错方法及系统
CN100435106C (zh) 应用服务器的分级再生方法
US20030014516A1 (en) Recovery support for reliable messaging
CN102916830B (zh) 一种资源服务优化配置容错管理实现系统
CN108199920A (zh) 监控云平台中的服务器的性能的方法和服务器
CN115742838B (zh) 充电离线异常处理方法和装置及系统
CN116483663A (zh) 用于平台的异常告警方法和装置
CN106844151A (zh) 一种VxWorks系统的网络任务异常检测方法
CN106685697B (zh) 一种异常边际消息数据恢复处理的方法及系统
CN103368754A (zh) 一种检测业务故障的方法、装置和系统及设备
CN112039685B (zh) 网络管理方法、装置、计算网络和物联网
CN116489027A (zh) 数据备份恢复方法、装置、电子设备和存储介质
CN111049881B (zh) 一种云平台节点资源监控方法、系统及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190625

RJ01 Rejection of invention patent application after publication