CN113900784A - 确定任务基线时间的方法、装置、电子设备及存储介质 - Google Patents
确定任务基线时间的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113900784A CN113900784A CN202111174600.6A CN202111174600A CN113900784A CN 113900784 A CN113900784 A CN 113900784A CN 202111174600 A CN202111174600 A CN 202111174600A CN 113900784 A CN113900784 A CN 113900784A
- Authority
- CN
- China
- Prior art keywords
- interval
- window
- baseline
- determining
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 230000008569 process Effects 0.000 claims description 44
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 abstract description 6
- 239000000523 sample Substances 0.000 description 160
- 238000010586 diagram Methods 0.000 description 17
- 230000035945 sensitivity Effects 0.000 description 10
- 230000002159 abnormal effect Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 9
- 230000004044 response Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 241001134453 Lista Species 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000012468 concentrated sample Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明实施方式公开了一种确定任务基线时间的方法、装置、电子设备及存储介质。方法包括:在横轴为日期、纵轴为单日内时间的坐标系中,填充任务的样本点;在纵轴方向上滑动宽度为预定值的窗口区间,其中每当窗口区间的上边缘与样本点重合时,记录窗口区间以及该窗口区间中的样本点;从记录的窗口区间中确定基线区间;将所述基线区间中的样本点的均值,确定为任务基线时间。本发明实施方式提高任务基线时间的准确度,并提高数据及时性监控系统的识别准确率。
Description
技术领域
本发明实施方式涉及数据分析技术领域,更具体的说,涉及一种确定任务基线时间的方法、装置、电子设备及存储介质。
背景技术
在大数据时代,传统数据平台面临的问题不仅没有消失,还不断涌现出新的问题。在大数据平台的数据治理过程中,通常需要对数据产出的及时性进行事前预警、事中告警和事后分析。由于数据产出时间是波动的,需要参考数据任务的基线时间(baseline time)以判断数据产出是否及时。
在现有技术中,一般将近期预定时间区间内的、每天任务的运行结束时间作为样本。剔除样本中的异常值(称为异常点)后,再将剩余样本的平均值作为任务基线时间,并利用该任务基线时间确定下次的数据产出时间。然而,经常存在异常点识别不准确的情形,从而导致任务基线时间的误差较大,难以保证数据及时性监控系统的识别准确率。
发明内容
本发明实施方式提出一种确定基线时间的方法、装置、电子设备及存储介质。
本发明实施方式的技术方案如下:
一种确定任务基线时间的方法,包括:
在横轴为日期、纵轴为单日内时间的坐标系中,填充任务的样本点;
在纵轴方向上滑动宽度为预定值的窗口区间,其中每当窗口区间的上边缘与样本点重合时,记录窗口区间以及该窗口区间中的样本点;
从记录的窗口区间中确定基线区间;
将所述基线区间中的样本点的均值,确定为任务基线时间。
优选地,所述从记录的窗口区间中确定基线区间包括:
确定滑动过程中样本点最多的窗口区间,当所述滑动过程中样本点最多的窗口区间的数目为单个时,将所述样本点最多的窗口区间确定为所述基线区间。
优选地,所述从记录的窗口区间中确定基线区间包括:
确定滑动过程中样本点最多的窗口区间,当所述滑动过程中样本点最多的窗口区间的数目为多个时,从所述滑动过程中样本点最多的多个窗口区间中确定出样本平均日期最接近当前日期的窗口区间;将所述样本平均日期最接近当前日期的窗口区间,确定为所述基线区间。
优选地,所述从记录的窗口区间中确定基线区间包括:
确定滑动过程中样本点最多的窗口区间,当所述滑动过程中样本点最多的窗口区间的数目为多个时,从所述滑动过程中样本点最多的多个窗口区间中确定出样本平均日期最接近当前日期的窗口区间;当所述样本平均日期最接近当前日期的窗口区间的数目为多个时,将所述样本平均日期最接近当前日期的多个窗口区间中的、样本点最近日期最靠近当前日期的窗口区间确定为所述基线区间。
优选地,还包括:在确定出所述基线区间后,当判定全部窗口区间中存在最近N天内的样本点的数目大于预定门限值的窗口区间时,利用所述最近N天内的样本点的数目大于预定门限值的窗口区间替换所述基线区间,其中N为预定的正有理数。
优选地,还包括:在确定出所述基线区间后,当判定全部窗口区间中不存在最近N天内的样本点的数目大于预定门限值的窗口区间时,保持所述基线区间。
优选地,所述任务基线时间包括下列中的至少一个:
任务开始的基线时间;任务结束的基线时间;任务运行时长的基线时间。
一种确定任务基线时间的装置,包括:
填充模块,用于在横轴为日期、纵轴为单日内时间的坐标系中,填充任务的样本点;
滑动模块,用于在纵轴方向上滑动宽度为预定值的窗口区间,其中每当窗口区间的上边缘与样本点重合时,记录窗口区间以及该窗口区间所覆盖的样本点;
第一确定模块,用于从记录的窗口区间中确定基线区间;
第二确定模块,用于将所述基线区间中的样本点的均值,确定为任务基线时间。
优选地,第一确定模块,用于确定滑动过程中样本点最多的窗口区间,当所述滑动过程中样本点最多的窗口区间的数目为单个时,将所述样本点最多的窗口区间确定为所述基线区间。
优选地,第一确定模块,用于确定滑动过程中样本点最多的窗口区间,当所述滑动过程中样本点最多的窗口区间的数目为多个时,从所述滑动过程中样本点最多的多个窗口区间中确定出样本平均日期最接近当前日期的窗口区间;将所述样本平均日期最接近当前日期的窗口区间,确定为所述基线区间。
优选地,第一确定模块,用于确定滑动过程中样本点最多的窗口区间,当所述滑动过程中样本点最多的窗口区间的数目为多个时,从所述滑动过程中样本点最多的多个窗口区间中确定出样本平均日期最接近当前日期的窗口区间;当所述样本平均日期最接近当前日期的窗口区间的数目为多个时,将所述样本平均日期最接近当前日期的多个窗口区间中的、样本点最近日期最靠近当前日期的窗口区间确定为所述基线区间。
优选地,第一确定模块,还用于在确定出所述基线区间后,当判定全部窗口区间中存在最近N天内的样本点的数目大于预定门限值的窗口区间时,利用所述最近N天内的样本点的数目大于预定门限值的窗口区间替换所述基线区间,其中N为预定的正有理数。
优选地,第一确定模块,还用于在确定出所述基线区间后,当判定全部窗口区间中不存在最近N天内的样本点的数目大于预定门限值的窗口区间时,保持所述基线区间。
优选地,所述任务基线时间包括下列中的至少一个:
任务开始的基线时间;任务结束的基线时间;任务运行时长的基线时间。
一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时可实现如上任一项所述的确定任务基线时间的方法的步骤。
一种电子设备,该电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现如上任一项所述的确定任务基线时间的方法。
一种计算机程序产品,包括计算机指令,所述计算机指令在被处理器执行时实施如上任一项所述的确定任务基线时间的方法。
从上述技术方案可以看出,在本发明实施方式中,在横轴为日期、纵轴为单日内时间的坐标系中,填充任务的样本点;在纵轴方向上滑动宽度为预定值的窗口区间,其中每当窗口区间的上边缘与样本点重合时,记录窗口区间以及该窗口区间中的样本点;从记录的窗口区间中确定基线区间;将基线区间中的样本点的均值,确定为任务基线时间。可见,本发明实施方式通过平滑移动窗口区间以选出样本密度较大的区间,采用与现有技术中剔除异常点不同的逆向逻辑,规避了现有技术中异常点识别不准确的问题,可以提高任务基线时间的准确度,并提高数据及时性监控系统的识别准确率。
而且,考虑到数据平台迭代或业务变化等情况,较多数据任务存在基线时间缓慢变化或突然变化的情况,本发明实施方式进一步增加响应灵敏度的优化处理,还解决了现有方案在各类基线变化场景下误差较大的问题。
附图说明
为了更清楚地说明本发明实施方式中的技术方案,下面将对实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术中确定任务基线时间的第一示意图。
图2是现有技术中确定任务基线时间的第二示意图。
图3是现有技术中确定任务基线时间的第三示意图。
图4为本发明实施方式的确定任务基线时间的方法的示范性流程图。
图5为本发明实施方式的平滑移动窗口区间的示意图。
图6为本发明实施方式的增加响应灵敏度的示意图。
图7为本发明实施方式的确定任务基线时间示范性处理的流程图。
图8为本发明实施方式的确定任务基线时间的装置的结构图。
图9是本发明实施方式中的电子设备的示范性结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
为了描述上的简洁和直观,下文通过描述若干代表性的实施方式来对本发明的方案进行阐述。实施方式中大量的细节仅用于帮助理解本发明的方案。但是很明显,本发明的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本发明的方案,一些实施方式没有进行细致地描述,而是仅给出了框架。下文中,“包括”是指“包括但不限于”,“根据……”是指“至少根据……,但不限于仅根据……”。由于汉语的语言习惯,下文中没有特别指出一个成分的数量时,意味着该成分可以是一个也可以是多个,或可理解为至少一个。
下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
本发明实施方式的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施方式例如能够以除了在这里图示或描述的那些以外的顺序实施。
申请人经过研究,发现现有技术算法确定出的任务基线时间误差过大,造成监控系统误报警或识别不出任务延迟。尤其是,对于下列情形,现有技术的技术缺陷尤为明显。
情形(1):样本异常点较多且集中。
图1是现有技术中确定任务基线时间的第一示意图。在图1中展示了样本异常点较多且集中的情形。线11所示直线为现有技术算法所确定的任务基线时间;线12所示直线为任务基线时间的准确值。可见,在此情形下,现有算法会将异常点识别为正常样本,导致最终计算出的基线时间偏向异常点。
情形(2):样本随时间单调变化。
图2是现有技术中确定任务基线时间的第二示意图。在图2中展示了样本随时间单调变化的情形。线22所示直线为现有技术算法所确定的任务基线时间;线21所示直线为任务基线时间的准确值。可见,在此情形下,基线时间实际应该在后几天的样本点附近,而现有技术算法导致基线时间更贴近中间几天的样本点,因此误差较大。
情形(3):样本值突升突降。
图3是现有技术中确定任务基线时间的第三示意图。在图3中展示了样本值突升突降的情形。线31所示直线为现有技术算法所确定的任务基线时间;线32所示直线为任务基线时间的准确值。可见,在此情形下,基线时间实际应在突升或突降后的样本点附近,而现有技术算法所确定的基线时间位于突升或突降前后两类样本点之间,导致误差较大。
在实际生产中,以上几类场景占比可能较大(比如超过30%),导致现有技术所确定的任务基线时间的误差率过高。
图4为本发明实施方式的确定任务基线时间的方法的示范性流程图。
如图4所示,该方法包括:
步骤401:在横轴为日期、纵轴为单日内时间的坐标系中,填充任务的样本点。
在这里,坐标系中的横轴为日期,纵轴为单日内的时间(比如,每天内的第几个小时)。基于任务的历史数据在该坐标系中填充样本点。其中,单日内时间可以包含:任务开始的时间;任务结束的时间;任务运行时长,等等。
步骤402:在纵轴方向上滑动宽度为预定值的窗口区间,其中每当窗口区间的上边缘与样本点重合时,记录窗口区间以及该窗口区间中的样本点。
比如,在纵轴方向上,从上向下滑动宽度为预定值的窗口区间。每当窗口区间的上边缘与样本点重合时,记录该窗口区间以及该窗口区间中的全部样本点。可见,当坐标系中具有n个各不等高(即纵坐标各不相同)的样本点时,最终记录出的窗口区间的数目也为n个。
步骤403:从记录的窗口区间中确定基线区间。
在一个实施方式中,确定滑动过程中样本点最多的窗口区间,当滑动过程中样本点最多的窗口区间的数目为单个时,将样本点最多的窗口区间确定为基线区间。
在一个实施方式中,确定滑动过程中样本点最多的窗口区间,当滑动过程中样本点最多的窗口区间的数目为多个时,从滑动过程中样本点最多的多个窗口区间中确定出样本平均日期最接近当前日期的窗口区间;将样本平均日期最接近当前日期的窗口区间,确定为基线区间。
在一个实施方式中,确定滑动过程中样本点最多的窗口区间,当滑动过程中样本点最多的窗口区间的数目为多个时,从滑动过程中样本点最多的多个窗口区间中确定出样本平均日期最接近当前日期的窗口区间;当样本平均日期最接近当前日期的窗口区间的数目为多个时,将样本平均日期最接近当前日期的多个窗口区间中的、样本点最近日期最靠近当前日期的窗口区间确定为基线区间。
在一个实施方式中,该方法还包括:在确定出基线区间后,当判定全部窗口区间中存在最近N天内的样本点的数目大于预定门限值的窗口区间时,利用最近N天内的样本点的数目大于预定门限值的窗口区间替换基线区间,其中N为预定的正有理数;当判定全部窗口区间中不存在最近N天内的样本点的数目大于预定门限值的窗口区间时,保持基线区间。
步骤404:将基线区间中的样本点的均值,确定为任务基线时间。
在这里,计算步骤403中最终确定的基线区间中的各个样本点的均值(即基线区间中的全部样本点的纵坐标的均值),并将该均值确定为任务基线时间。优选地,任务基线时间包括下列中的至少一个:任务开始的基线时间;任务结束的基线时间;任务运行时长的基线时间,等等。其中,取决于样本点的具体数据属性,任务基线时间具有相应的数据属性。
比如,当步骤401的坐标系中,纵轴为任务开始的时间时,则步骤404中确定出任务开始的基线时间。再比如,当步骤401的坐标系中,纵轴为任务结束的时间时,则步骤404中确定出任务结束的基线时间。
图5为本发明实施方式的平滑移动窗口区间的示意图。
在图5中,在包含n个样本点的坐标系中,该坐标系的横轴为任务执行日期,纵轴为任务完成时间。用宽度为w的窗口区间,从坐标系的上方开始往下平移,每当移动到的窗口区间的上边缘恰好与一个样本点重合时,记录下该移动到的窗口区间及其所覆盖的全部样本点,最终记录得到n个窗口区间。通常情况下,数据任务的完成时间在一个时间点附近小范围波动。n个窗口区间中覆盖样本点最多的窗口区间60,通常最能代表该数据任务在正常情况下应产出的时间。该窗口区间60记为基线区间。用该窗口区间60所覆盖样本的均值作为基线时间,即确定出用直线51表示的基线时间。然后,可以利用直线51确定下次的数据产出时间。
具体地,可以根据业务情况,自定义窗口区间宽度w的输入值(默认为600秒),当样本点过于离散时,可能各个区间覆盖的样本点均较少(极端情况下每个区间只覆盖一个样本点),此时需要逐渐加宽w(每次增加的宽度记为“步长”,默认600秒),直至得到的基线区间覆盖的样本点不少于一个值(记为样本量下限,比如默认为5)。其中,步长和样本量下限均可以作为算法入参,根据业务情况自定义。
若在选取基线区间时,出现多个窗口区间的覆盖样本量相同,则比较覆盖样本的平均样本日期,其中平均样本日期更靠近当前日期(比如今天)的,则优先选取该窗口区间作为基线区间,若仍相同,则选则覆盖样本中最近的日期,更靠近当前日期(比如今天)的窗口区间选定为基线区间。
可见,本发明实施方式通过平滑移动窗口区间,以选出样本密度较大的区间,采用与现有技术中剔除异常点完全不同的逆向逻辑,规避了现有方案中异常点识别不准确的问题。
而且,本发明实施方式还可以选出变化后的基线区间,以增加响应灵敏度。
图6为本发明实施方式的增加响应灵敏度的示意图。
考虑到数据平台迭代或业务变化等情况,较多数据任务存在基线时间缓慢变化或突然变化的情况(如图6所示),可以在图5描述的平滑移动区间的方案基础上,进一步增加响应基线变化的灵敏度的优化处理。具体包括:在选出基线区间后,尝试在全部窗口区间中确定是否存在如下窗口区间:最近N天内的样本点的数目大于预定门限值的窗口区间。比如,找出覆盖样本点包含最近5天样本中的、3个及以上样本的窗口区间,即N为5,预定门限值为3,其中预定门限值小于等于N)。若存在,则用该窗口区间作为基线区间(说明基线变化后至少稳定了3天),否则用原有的基线区间。在图7中,窗口区间80所覆盖的样本点中,包含最近5天样本中的、3个及以上样本。因此,将窗口区间80替换基于图5描述的平滑移动区间而确定的窗口区间。直线70为基于窗口区间80所覆盖样本的均值作为基线时间。然后,可以利用直线70确定下次的数据产出时间。
可见,本发明实施方式的“近N天内样本优先”原则,解决了现有技术在各类基线变化场景下误差较大的问题。
图7为本发明实施方式的确定任务基线时间示范性处理的流程图。如图7所示,提取样本数据源后,先经过数据预处理算法得到样本参数;再将样本参数传入平滑移动区间算法得到多个区间,将多个区间存入列表中;再将该区间列表传入区间筛选算法,选出覆盖样本量最多且样本日期更接近今天的区间,作为基线区间;若基线区间覆盖样本量未达到样本量下限,则区间增加一个步长后再通过平滑移动区间算法得到区间列表,直至基线区间达到样本量下限(用来自动选择区间的合理宽度);区间宽度确定后,将该宽度下的区间列表传入提高响应灵敏度算法,若该算法选出了“包含最近5天样本中3天及以上”的区间,则选出的区间记为“灵敏区间”存为列表,传入“区间筛选算法”后选出的区间作为新的基线区间,若未选出“灵敏区间”,则原基线区间不变;最后把基线区间内的样本求均值,作为最终的基线时间。
在图7中,以N为5、预定门限值为3为例对“包含最近5天样本中3天及以上”进行说明,本领域技术人员可以意识到,这种描述仅是示范性的,并不用于限定本发明实施方式的保护范围。
下面对采用到的具体算法进行详细说明:
(1)、数据预处理算法:
从数据库中取出某个任务近一段时间(比如,默认近14天)每天的运行结束时间作为样本,使用循环遍历将各样本存入一个List<Map<String,int>>,其中Map的key为样本对应的日期(如:“2021-01-01”),value为样本当天运行结束时间转化为当天的秒数(如,00:01:01的value为61;视业务要求的精确度不同,可以是分种或毫秒)。
(2)、平滑移动区间算法:
假设区间初始宽度为w。对数据预处理算法返回的样本List(记为“ListA”)进行遍历(第一层循环),对于每个样本点point,假设其value值为x,再次遍历(第二层循环)ListA,将value满足条件“x-w<value≤x”的样本点存成一个List(记为“ListB”),ListB即为以该样本点point为上边界的区间所覆盖的样本点。假设ListA长度为n,当两层循环都执行完后,得到n个ListB,每个ListB代表每个区间覆盖的样本。定义区间Map<String,Object>,每个区间Map(记为“MapRange”)以键值对存储5个值:覆盖的样本点列表(即ListB)、样本点数量、样本点均值、样本日期转为整型后的均值、样本日期转为整型后的最大值。将每个ListB对应生成一个MapRange,最终得到长度为n的MapRange列表并作为结果返回。
(3)、区间筛选算法:
针对平滑移动区间算法或提高响应灵敏度算法返回的区间列表(记为“rangeList”),将区间按照:样本点数量sampleSize、样本日期转为整型后的均值dateAvg和样本日期转为整型后的最大值dateMax进行降序多重排列,排序后的rangeList.get(0)即为覆盖样本量最多且日期更接近今天的区间,该区间作为结果返回。
(4)、提高响应灵敏度算法:
针对响应灵敏度算法,输入参数为区间列表(记为“rangeList”)。将近5天的日期String格式(比如:“2021-01-01”)存入一个Set,记为nearest5Date;遍历rangeList,将区间覆盖的样本点列表(即ListB)中Map元素的key取出(key即样本点的日期)放入集合keySet,每个区间都得到一个keySet。把每个区间的keySet与nearest5Date集合取交集,若交集的size大于等于3,则该区间存入区间List,遍历完成后返回该区间List。返回的区间列表即为所有“包含最近5天样本中3天及以上”的区间。
本发明实施方式还提出了一种任务基线时间的装置。图8为本发明实施方式的确定任务基线时间的装置的结构图。
如图8所示,确定任务基线时间的装置800,包括:
填充模块801,用于在横轴为日期、纵轴为单日内时间的坐标系中,填充任务的样本点;滑动模块802,用于在纵轴方向上滑动宽度为预定值的窗口区间,其中每当窗口区间的上边缘与样本点重合时,记录窗口区间以及该窗口区间所覆盖的样本点;第一确定模块803,用于从记录的窗口区间中确定基线区间;第二确定模块804,用于将所述基线区间中的样本点的均值,确定为任务基线时间。
在一个实施方式中,第一确定模块803,用于确定滑动过程中样本点最多的窗口区间,当所述滑动过程中样本点最多的窗口区间的数目为单个时,将所述样本点最多的窗口区间确定为所述基线区间。
在一个实施方式中,第一确定模块803,用于确定滑动过程中样本点最多的窗口区间,当所述滑动过程中样本点最多的窗口区间的数目为多个时,从所述滑动过程中样本点最多的多个窗口区间中确定出样本平均日期最接近当前日期的窗口区间;将所述样本平均日期最接近当前日期的窗口区间,确定为所述基线区间。
在一个实施方式中,第一确定模块803,用于确定滑动过程中样本点最多的窗口区间,当所述滑动过程中样本点最多的窗口区间的数目为多个时,从所述滑动过程中样本点最多的多个窗口区间中确定出样本平均日期最接近当前日期的窗口区间;当所述样本平均日期最接近当前日期的窗口区间的数目为多个时,将所述样本平均日期最接近当前日期的多个窗口区间中的、样本点最近日期最靠近当前日期的窗口区间确定为所述基线区间。
在一个实施方式中,第一确定模块803,还用于在确定出所述基线区间后,当判定全部窗口区间中存在最近N天内的样本点的数目大于预定门限值的窗口区间时,利用所述最近N天内的样本点的数目大于预定门限值的窗口区间替换所述基线区间,其中N为预定的正有理数。
在一个实施方式中,第一确定模块803,还用于在确定出所述基线区间后,当判定全部窗口区间中不存在最近N天内的样本点的数目大于预定门限值的窗口区间时,保持所述基线区间。
优选地,任务基线时间包括下列中的至少一个:任务开始的基线时间;任务结束的基线时间;任务运行时长的基线时间,等等。
综上所述,在本发明实施方式中,在横轴为日期、纵轴为单日内时间的坐标系中,填充任务的样本点;在纵轴方向上滑动宽度为预定值的窗口区间,其中每当窗口区间的上边缘与样本点重合时,记录窗口区间以及该窗口区间中的样本点;从记录的窗口区间中确定基线区间;将基线区间中的样本点的均值,确定为任务基线时间。可见,本发明实施方式通过平滑移动窗口区间以选出样本密度较大的区间,采用与现有技术中剔除异常点完全不同的逆向逻辑,规避了现有方案中异常点识别不准确的问题,可以提高任务基线时间的准确度,并提高数据及时性监控系统的识别准确率。
而且,考虑到数据平台迭代或业务变化等情况,较多数据任务存在基线时间缓慢变化或突然变化的情况,本发明实施方式进一步增加响应基线时间变化的灵敏度的优化处理,解决了现有方案在各类基线变化场景下误差较大的问题。
本发明实施方式还提供一种计算机可读介质,所述计算机可读存储介质存储指令,所述指令在由处理器执行时可执行如上所述的小程序的运行环境模拟方法中的步骤。实际应用中,所述的计算机可读介质可以是上述实施方式中描述的设备/装置/系统中所包含的,也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或多个程序被执行时,可以实现上述各实施方式描述的小程序的运行环境模拟方法。根据本发明公开的实施方式,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或者上述的任意合适的组合,但不用于限制本发明保护的范围。在本发明公开的实施方式中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
如图9所示,本发明实施方式还提供一种电子设备,其中可以集成本发明实施方式实现方法的装置。如图9所示,其示出了本发明实施方式所涉及的电子设备的示范性结构图,
具体地:该电子设备可以包括一个或一个以上处理核心的处理器901、一个或一个以上计算机可读存储介质的存储器902以及存储在存储器上并可在处理器上运行的计算机程序。在执行所述存储器902的程序时,可以实现上述确定任务基线时间的方法。
在实际应用中,该电子设备还可以包括电源903、输入单元904、以及输出单元905等部件。本领域技术人员可以理解,图9中示出的电子设备的结构并不构成对该电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:处理器901是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器902内的软件程序和/或模块,以及调用存储在存储器902内的数据,执行服务器的各种功能和处理数据,从而对该电子设备进行整体监控。存储器902可用于存储软件程序以及模块,即上述计算机可读存储介质。处理器901通过运行存储在存储器902的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器902可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器902还可以包括存储器控制器,以提供处理器901对存储器902的访问。
该电子设备还包括给各个部件供电的电源903,可以通过电源管理系统与处理器901逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源903还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。该电子设备还可包括输入单元904,该输入单元904可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。该电子设备还可以包括输出单元905,该输出单元905可以用于显示由用户输入的信息或提供给用户的信息以及各种图像用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。
本发明实施方式还提供一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令在被处理器执行时实施如上述任一实施方式所述的方法。
本发明附图中的流程图和框图,示出了按照本发明公开的各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如,两个连接地表示的方框实际上可以基本并行地执行,它们有时也可以按照相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或者流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本文中应用了具体实施方式对本发明的原理及实施方式进行了阐述,以上实施方式的说明只是用于帮助理解本发明的方法及其核心思路,并不用于限制本发明。对于本领域的技术人员来说,可以依据本发明的思路、精神和原则,在具体实施方式及应用范围上进行改变,其所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (11)
1.一种确定任务基线时间的方法,其特征在于,包括:
在横轴为日期、纵轴为单日内时间的坐标系中,填充任务的样本点;
在纵轴方向上滑动宽度为预定值的窗口区间,其中每当窗口区间的上边缘与样本点重合时,记录窗口区间以及该窗口区间中的样本点;
从记录的窗口区间中确定基线区间;
将所述基线区间中的样本点的均值,确定为任务基线时间。
2.根据权利要求1所述的确定任务基线时间的方法,其特征在于,
所述从记录的窗口区间中确定基线区间包括:
确定滑动过程中样本点最多的窗口区间,当所述滑动过程中样本点最多的窗口区间的数目为单个时,将所述样本点最多的窗口区间确定为所述基线区间。
3.根据权利要求1所述的确定任务基线时间的方法,其特征在于,
所述从记录的窗口区间中确定基线区间包括:
确定滑动过程中样本点最多的窗口区间,当所述滑动过程中样本点最多的窗口区间的数目为多个时,从所述滑动过程中样本点最多的多个窗口区间中确定出样本平均日期最接近当前日期的窗口区间;将所述样本平均日期最接近当前日期的窗口区间,确定为所述基线区间。
4.根据权利要求1所述的确定任务基线时间的方法,其特征在于,
所述从记录的窗口区间中确定基线区间包括:
确定滑动过程中样本点最多的窗口区间,当所述滑动过程中样本点最多的窗口区间的数目为多个时,从所述滑动过程中样本点最多的多个窗口区间中确定出样本平均日期最接近当前日期的窗口区间;当所述样本平均日期最接近当前日期的窗口区间的数目为多个时,将所述样本平均日期最接近当前日期的多个窗口区间中的、样本点最近日期最靠近当前日期的窗口区间确定为所述基线区间。
5.根据权利要求1-4中任一项所述的确定任务基线时间的方法,其特征在于,还包括:
在确定出所述基线区间后,当判定全部窗口区间中存在最近N天内的样本点的数目大于预定门限值的窗口区间时,利用所述最近N天内的样本点的数目大于预定门限值的窗口区间替换所述基线区间,其中N为预定的正有理数。
6.根据权利要求1-4中任一项所述的确定任务基线时间的方法,其特征在于,还包括:
在确定出所述基线区间后,当判定全部窗口区间中不存在最近N天内的样本点的数目大于预定门限值的窗口区间时,保持所述基线区间。
7.根据权利要求1-4中任一项所述的确定任务基线时间的方法,其特征在于,
所述任务基线时间包括下列中的至少一个:
任务开始的基线时间;任务结束的基线时间;任务运行时长的基线时间。
8.一种确定任务基线时间的装置,其特征在于,包括:
填充模块,用于在横轴为日期、纵轴为单日内时间的坐标系中,填充任务的样本点;
滑动模块,用于在纵轴方向上滑动宽度为预定值的窗口区间,其中每当窗口区间的上边缘与样本点重合时,记录窗口区间以及该窗口区间所覆盖的样本点;
第一确定模块,用于从记录的窗口区间中确定基线区间;
第二确定模块,用于将所述基线区间中的样本点的均值,确定为任务基线时间。
9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被处理器执行时可实现权利要求1-7任一项所述的确定任务基线时间的方法的步骤。
10.一种电子设备,其特征在于,该电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现权利要求1-7任一项所述的确定任务基线时间的方法。
11.一种计算机程序产品,其特征在于,包括计算机指令,所述计算机指令在被处理器执行时实施权利要求1-7任一项所述的确定任务基线时间的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111174600.6A CN113900784A (zh) | 2021-10-09 | 2021-10-09 | 确定任务基线时间的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111174600.6A CN113900784A (zh) | 2021-10-09 | 2021-10-09 | 确定任务基线时间的方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113900784A true CN113900784A (zh) | 2022-01-07 |
Family
ID=79190568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111174600.6A Pending CN113900784A (zh) | 2021-10-09 | 2021-10-09 | 确定任务基线时间的方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113900784A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040068392A1 (en) * | 2002-10-07 | 2004-04-08 | Dinkar Mylaraswamy | Control system and method for detecting plugging in differential pressure cells |
CN107918579A (zh) * | 2016-10-09 | 2018-04-17 | 北京神州泰岳软件股份有限公司 | 一种批量生成基线数据的方法和装置 |
CN108261176A (zh) * | 2017-12-28 | 2018-07-10 | 深圳京柏医疗科技股份有限公司 | 胎心监护数据处理方法、装置、系统、存储介质和计算机设备 |
CN108711069A (zh) * | 2018-05-03 | 2018-10-26 | 泰康保险集团股份有限公司 | 价格预估方法及装置、存储介质和电子设备 |
CN111543971A (zh) * | 2020-04-14 | 2020-08-18 | 浙江大学 | 时空自适应样本系综去相关运算的血流量化方法与系统 |
CN112612844A (zh) * | 2020-12-18 | 2021-04-06 | 深圳前海微众银行股份有限公司 | 数据处理方法、装置、设备和存储介质 |
CN112866129A (zh) * | 2021-03-31 | 2021-05-28 | 中国工商银行股份有限公司 | 根据时效标志自动调节间隔的组包方法、装置及系统 |
-
2021
- 2021-10-09 CN CN202111174600.6A patent/CN113900784A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040068392A1 (en) * | 2002-10-07 | 2004-04-08 | Dinkar Mylaraswamy | Control system and method for detecting plugging in differential pressure cells |
CN107918579A (zh) * | 2016-10-09 | 2018-04-17 | 北京神州泰岳软件股份有限公司 | 一种批量生成基线数据的方法和装置 |
CN108261176A (zh) * | 2017-12-28 | 2018-07-10 | 深圳京柏医疗科技股份有限公司 | 胎心监护数据处理方法、装置、系统、存储介质和计算机设备 |
CN108711069A (zh) * | 2018-05-03 | 2018-10-26 | 泰康保险集团股份有限公司 | 价格预估方法及装置、存储介质和电子设备 |
CN111543971A (zh) * | 2020-04-14 | 2020-08-18 | 浙江大学 | 时空自适应样本系综去相关运算的血流量化方法与系统 |
CN112612844A (zh) * | 2020-12-18 | 2021-04-06 | 深圳前海微众银行股份有限公司 | 数据处理方法、装置、设备和存储介质 |
CN112866129A (zh) * | 2021-03-31 | 2021-05-28 | 中国工商银行股份有限公司 | 根据时效标志自动调节间隔的组包方法、装置及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109063886B (zh) | 一种异常检测方法、装置以及设备 | |
EP3324304A1 (en) | Data processing method, device and system | |
CN112365070B (zh) | 一种电力负荷预测方法、装置、设备及可读存储介质 | |
CN111949646B (zh) | 基于大数据的设备运行状况分析方法、装置、设备及介质 | |
CN113931258B (zh) | 自我诊断方法和无负压叠压供水设备 | |
CN111381970B (zh) | 集群任务的资源分配方法及装置、计算机装置及存储介质 | |
CN112905343B (zh) | 一种工业云环境下基于负载特性的资源调度系统 | |
US7120648B2 (en) | System and method for predicting execution time of a database utility command | |
CN111752903B (zh) | 一种数据存储空间可使用时间的预测方法 | |
CN114201378A (zh) | 服务器性能预测方法、装置、设备、存储介质及程序产品 | |
US7412430B1 (en) | Determining the quality of computer software | |
CN113778776A (zh) | 对任务异常进行预警的方法和装置以及存储介质 | |
CN112860523B (zh) | 批量作业处理的故障预测方法、装置和服务器 | |
CN112463334B (zh) | 一种训练任务排队原因分析方法、系统、设备以及介质 | |
CN113220551A (zh) | 指标趋势预测及预警方法、装置、电子设备及存储介质 | |
CN117666947A (zh) | 一种数据存储方法、装置、电子设备及计算机可读介质 | |
CN113900784A (zh) | 确定任务基线时间的方法、装置、电子设备及存储介质 | |
KR20210069215A (ko) | 빅데이터 분석을 최적화하는 사용자 인터페이스 방법 | |
CN111736076A (zh) | 电池系统状态判断方法、装置、可读存储介质和电子设备 | |
CN114492251B (zh) | 超算环境的低速流场发散处理方法、装置、设备及介质 | |
CN115858291A (zh) | 一种系统指标的检测方法、装置、电子设备及其存储介质 | |
CN115271277A (zh) | 电力设备画像构建方法、系统、计算机设备及存储介质 | |
CN114298467A (zh) | 用于民航运行管理自动化系统的智能监管系统及方法 | |
CN114020717A (zh) | 分布式存储系统的性能数据获取方法、装置、设备及介质 | |
CN117952323B (zh) | 一种基于数字孪生的产品创建系统、方法、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |