CN116108991A - 数据处理方法、装置、设备及存储介质 - Google Patents
数据处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116108991A CN116108991A CN202310109307.4A CN202310109307A CN116108991A CN 116108991 A CN116108991 A CN 116108991A CN 202310109307 A CN202310109307 A CN 202310109307A CN 116108991 A CN116108991 A CN 116108991A
- Authority
- CN
- China
- Prior art keywords
- service data
- data
- model
- prediction
- residual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 39
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 66
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000004364 calculation method Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims description 44
- 230000000737 periodic effect Effects 0.000 claims description 22
- 238000012544 monitoring process Methods 0.000 claims description 19
- 238000009826 distribution Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000010845 search algorithm Methods 0.000 claims description 4
- 230000007774 longterm Effects 0.000 abstract description 10
- 239000004973 liquid crystal related substance Substances 0.000 description 16
- 230000008569 process Effects 0.000 description 15
- 238000010276 construction Methods 0.000 description 13
- 230000004927 fusion Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 239000002243 precursor Substances 0.000 description 7
- 238000013136 deep learning model Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000007726 management method Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 4
- 238000013178 mathematical model Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000032683 aging Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Operations Research (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Algebra (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种数据处理方法、装置、设备及存储介质。该方法包括将获取到的服务数据作为第一训练样本输入初始时间序列预测模型,计算第一预测服务数据,将第一预测服务数据与服务数据的预设实际服务数据的残差数据作为第二训练样本输入初始catboost回归模型,计算第二预测服务数据,在残差数据不符合第一预设条件时,将第二预测服务数据添加到第一训练样本,重复执行计算第一预测服务数据和第二预测服务数据,直至残差数据符合第一预设条件,根据目标时间序列预测模型和目标catboost回归模型,构建线性组合模型。这样,线性组合模型既可以保证长期数据的预测精度,又可以保证短期数据的预测精度,如此,有效提高对于服务数据结果的预测准确度。
Description
技术领域
本申请属于数据处理技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
各个服务平台在网络灾害或其他需要提防的危险发生之前,通常可以根据以往的数据总结规律或通过以往的数据计算得到的可能性前兆,以向服务平台发出告警,从而最大程度的减轻危害所造成的损失。
在相关技术中,可以采用传统的自回归模型(AR)、移动平均模型(MA)、自回归移动平均模型(ARMA)、自回归差分移动平均模型(ARIMA)等数学模型,寻找历史数据之间的自相关性,以总结规律或可能性前兆。然而,由于上述模型对于复杂数据(如变量数量多、场景复杂)的处理能力较差,难以满足日常工作预测精度,无法得到较为准确的计算结果,造成误告警,影响各个服务平台的管理效率。
发明内容
本申请实施例提供一种数据处理方法、装置、设备及存储介质,能够解决相关技术中数据计算结果准确度低的问题。
第一方面,本申请实施例提供一种数据处理方法,包括:
获取第一预设时间窗内的服务数据,服务数据包括下述中的至少一种:趋势项服务数据、节假日项服务数据、周期项服务数据;
将服务数据作为第一训练样本输入初始时间序列预测模型,计算第一预测服务数据;
将第一预测服务数据与服务数据的预设实际服务数据的残差数据作为第二训练样本输入初始catboost回归模型,计算第二预测服务数据;
在残差数据不符合第一预设条件的情况下,将第二预测服务数据添加到第一训练样本,重复执行计算第一预测服务数据和第二预测服务数据,直至残差数据符合第一预设条件;
根据与残差数据符合第一预设条件对应的目标时间序列预测模型和目标catboost回归模型,构建线性组合模型,线性组合模型用于对服务数据的监测。
第二方面,本申请实施例提供一种数据处理装置,该装置可以包括:
获取模块,用于获取第一预设时间窗内的服务数据,服务数据包括下述中的至少一种:趋势项服务数据、节假日项服务数据、周期项服务数据;
计算模块,用于将服务数据作为第一训练样本输入初始时间序列预测模型,计算第一预测服务数据;
计算模块还用于,将第一预测服务数据与服务数据的预设实际服务数据的残差数据作为第二训练样本输入初始catboost回归模型,计算第二预测服务数据;
执行模块,用于在残差数据不符合第一预设条件的情况下,将第二预测服务数据添加到第一训练样本,重复执行计算第一预测服务数据和第二预测服务数据,直至残差数据符合第一预设条件;
构建模块,用于根据与残差数据符合第一预设条件对应的目标时间序列预测模型和目标catboost回归模型,构建线性组合模型,线性组合模型用于对服务数据的监测。
第三方面,本申请实施例提供了一种计算机设备,该计算机设备包括:处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现如第一方面所示的数据处理方法。
第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面所示的数据处理方法。
第五方面,本申请实施例提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面所示的数据处理方法。
第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所示的数据处理方法。
本申请实施例的数据处理方法、装置、设备及存储介质,获取第一预设时间窗内的服务数据,将服务数据作为第一训练样本输入初始时间序列预测模型,计算第一预测服务数据,并将第一预测服务数据与服务数据的预设实际服务数据的残差数据作为第二训练样本输入初始catboost回归模型,计算第二预测服务数据,然后,在残差数据不符合第一预设条件的情况下,将第二预测服务数据添加到第一训练样本,重复执行计算第一预测服务数据和第二预测服务数据,直至残差数据符合第一预设条件,根据与残差数据符合第一预设条件对应的目标时间序列预测模型和目标catboost回归模型,构建线性组合模型,线性组合模型用于对服务数据的监测。这样,通过时间序列预测模型与catboost回归模型的融合,对由时间序列预测模型产生第一预测服务数据的生成的残差数据进行二次利用,将残差数据作为特征值融入catboost回归模型,在减少构建特征值的过程的同时,使集成后的线性组合模型保留了周期性的数据信息,可以有效地综合时间序列预测模型对于长期时序数据预测精度和catboost回归模型预测短期数据的预测精度,即线性组合模型既可以保证对于长期数据的预测精度,又可以保证对于短期数据的预测精度,如此,提高了对于服务数据结果的预测准确度,降低了对服务数据的监测的错误告警频率,进而提高服务平台的管理效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据处理方法的数据处理架构示意图;
图2为本申请实施例提供的一种数据处理方法的流程图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请一个实施例提供的数据处理装置的结构示意图;
图5是本申请一个实施例提供的计算机设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
各个服务平台在网络灾害或其他需要提防的危险发生之前,通常可以根据以往的数据总结规律或通过以往的数据计算得到的可能性前兆,以向服务平台发出告警,从而最大程度的减轻危害,避免造成损失。然而,各个服务平台对于数据监测和风险预警方面均存在一些问题,其中,缺乏风险时间序列预测的功能,无法提前预判到风险,时间序列的现有算法存在诸多缺陷,无法保证预测精度,以及,现有的时间序列预测模型都是基于传统的数学模型(如自回归模型(AR)、移动平均模型(MA)、自回归移动平均模型(ARMA)、自回归差分移动平均模型(ARIMA))或深度学习模型,但在一些场景下并不适用。具体地,在相关技术中,可以通过如下三种方式,总结规律或得到可能性前兆:方式一,可以采用上述传统的自回归模型(AR)、移动平均模型(MA)、自回归移动平均模型(ARMA)、自回归差分移动平均模型(ARIMA)等数学模型,寻找历史数据之间的自相关性,以总结规律或可能性前兆;方式二,基于xgboost、lightgbm等Boosting类机器学习模型总结规律或可能性前兆;方式三,基于深度学习模型如时间序列预测模型(如循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Networks,CNN)、Tranformer)总结规律或可能性前兆。
然而,对于方式一中的传统的数学模型来说,可以根据平稳数据的时间序列,预测未来重复历史的走势。虽然可解释性较强,但是针对复杂数据集(如变量数量多、场景复杂)的处理能力较差,且上述各类传统的数据模型预测精度相对较低,难以满足日常工作预测精度,无法得到较为准确的计算结果,会造成误告警,影响各个服务平台的管理效率。对于方式二中涉及的基于机器学习模型来说,该方式极度依赖前期训练模型的时间序列特征的构建工作,如果时间序列特征构建精度不高或选取的时间序列特征出现异常,会降低机器学习模型的预测精度,另外,时间序列特征构建主要依赖于专家经验,使得训练后的机器学习模型适配性低,外推泛化性不高;以及,对于方式三涉及的深度学习模型,存在以下缺点:一是数据的时间序列的可解释性较差,无法根据深度学习模型具体解释是具体的哪个影响因子导致预测结果变好;二是深度学习模型在趋势性的数据集上效果不是很好,处理结果准确度较低;三是深度学习模型在数据值介于-1到1之间的预测值较为理想,所以需要对预测值做预先的处理,如此,会增加预测时间,降低预测效率。
基于此,为了解决上述出现的问题,本申请实施例提供了一种数据处理方法,在原有的时间序列预测模型即prophet模型的基础上,保留prophet模型在数据质量较差的情况下仍然可以由较好的预测的特性,也保留了预测过程对异常值、数据缺失、数据波动明显等数据的适用性,相比于传统的catboost回归模型的可解释性更强,同时prophet模型可有效识别数据的时间序列中的趋势项服务数据、周期项服务数据和节假日项服务数据,从而有效提高服务数据的预测精度,以及,结合CatBoost回归模型在处理传统的分类算法的优势。基于此,本申请实施例通过prophet模型与catboost回归模型的融合,对由prophet模型产生第一预测服务数据的生成的残差数据进行二次利用,将残差数据作为特征值融入catboost回归模型,使得集成后的线性组合模型保留了周期性的数据信息,提升了预测的精度,且通过权重系数,可有效地配置最终的服务数据结果的预测准确度,使得改进后的线性组合模型具有更好的普适性和推广性。
基于此,本申请实施例提供了一种数据处理方法、装置、设备及存储介质。下面将结合附图1至图4,详细描述本申请实施例的数据处理方法、装置、服务器及存储介质,应注意,这些实施例并不是用来限制本申请公开的范围。
首先,对本申请实施例提供的数据处理方法的数据处理架构进行说明。
如图1所示,该数据处理架构10可以包括数据预处理模型101、时间序列预测模型构建模块102、catboost回归模型构建模块103、模型融合和验证模块104和模型应用模块105。下面对其上述数据处理架构10进行详细说明。
数据预处理模型101,用于收集服务平台在各个关联平台或用户端相关的服务数据,如当日报文数量、当日报文滞留数量、当日报文反馈时效、当日报文取文时效、当日不同业务的报文数量,并对该服务数据进行清洗、填充、删除、替换等数据预处理,以确保服务数据的完整。其中,填充具体可以包括在服务数据中存在缺失时,可以将缺失部分填充为0值。
时间序列预测模型构建模块102存储初始时间序列预测模型,并基于初始时间序列预测模型计算的第一预测服务数据计算残差数据。
具体地,时间序列预测模型构建模块102,用于判断服务数据如业务报文信息是否有可靠有效的先验知识存在,若存在,则基于专家经验对其先验知识进行预测,得到专家预测服务数据,反之,若不存在,则确定该服务数据中是否有后验知识即趋势项服务数据、节假日项服务数据、周期项服务数据。若确定该服务数据中存在后验知识,则采用线性模型对服务数据进行预测,其中,本申请实施例中的线性模型为时间序列预测模型即prophet模型。
基于此,采用prophet模型的时间序列的分解(Decomposition of Time Series)是将服务数据的时间序列yt分成几个部分的数据,分别是节假日项服务数据h(t),趋势项服务数据g(t),周期项服务数据s(t),t≥0,基于此,yt=s(t)+h(t)+g(t),或yt=s(t)×h(t)×g(t);以及,在实际生活和生产环节中,除了划分为趋势项服务数据、节假日项服务数据、周期项服务数据之外,通常还有误差项或者称为剩余项,所以,在prophet模型中还可以将服务数据的时间序列yt分解为yt=s(t)+h(t)+g(t)+∈t。其中,g(t)包括用于表征时间序列在非周期上面的变化趋势的数据;s(t)以周或者年为单位;h(t)包括用于表征在当天是否存在节假日的数据;∈t包括用于表征误差项或者称为剩余项。如此,Prophet模型可以通过拟合这几项数据,并将其累加起来就得到了服务数据的时间序列的预测值即第一预测服务数据。
以及,时间序列预测模型构建模块102还可以用于,获取与第一预测服务数据对应的第一数据值以及与预设实际服务数据对应的第二数据值;将第一数据值与第二数据值的差值确定为残差数据,这样,观测残差数据是否符合正态分布,如果符合正态分布,则说明初始时间序列预测模型的预测结果与实际结果相差出入较大,不具备参考性,不会将其对应的残差数据传输到catboost回归模型构建模块103,反之,如果不符合,则说明预测结果具有一定的参考性,可以将其对应的残差数据传输到catboost回归模型构建模块103,经观察发现预测结果与真实的数据在部分时间段分布相似,说明prophet算法预测准确度高。
catboost回归模型构建模块103,用于接收时间序列预测模型构建模块102传输的残差数据,并将其作为atboost回归模型构建模块103中初始catboost回归模型的训练样本,通过初始catboost回归模型,计算第二预测服务数据,在残差数据不符合第一预设条件的情况下,将第二预测服务数据添加到第一训练样本,重复执行上述计算第一预测服务数据和第二预测服务数据,直至残差数据符合第一预设条件,这样,将残差数据符合第一预设条件对应的目标时间序列预测模型和目标catboost回归模型传输至模型融合和验证模块104。
模型融合和验证模块104,用于根据服务数据的数据属性,通过网格搜索法,调整目标时间序列预测模型的第一系数,以及目标catboost回归模型的第二系数;将调整后的目标时间序列预测模型和目标catboost回归模型进行组合,得到线性组合模型。
模型应用模块105,用于获取第二预设时间窗内的服务数据;将第二预设时间窗内的服务数据输入到从模型融合模块104中获取线性组合模型,通过线性组合模型中的目标时间序列预测模型计算第三预测服务数据;以及,通过线性组合模型中的目标catboost回归模型,计算第四预测服务数据;通过网格搜索算法,对第三预测服务数据和第四预测服务数据进行加权配置处理,得到与第二预设时间窗内的服务数据对应的监测结果。以及,模型应用模块105还用于,在监测结果异常(如超过预设阈值,或远高于历史平局值)的情况下,可以向服务平台发出告警。如此,在实际生产中,每天预测下周业务报文数量,发现可能出现业务量持续升高、持续降低或业务量突变的平台,并及时向服务平台提示业务数量风险,提前做好业务容量扩容,避免业务数量断开。
需要说明的是,本申请实施例提供的数据处理方法可以应用于服务平台对于每天接收机构发送和反馈的报文,同时记录机构接收和发送报文的时间效率、报文数量、报文的业务类型等信息的场景,基于此,针对此报文记录数据建立对报文数据这一值的预测值,并且根据平台业务量预测值动态提醒机构是否需要进行业务和带宽扩容。以及,还可以应用于交通场景,基于此,根据历史交通服务数据计算下一周的交通拥堵情况,当然,还可以应用于空气质量检测的场景。因此,本申请实施例提供的数据方法包括但不限于任何对于服务平台的各类数据的监测场景。
基于上述如图2所示的数据处理架构和应用场景,下面结合图2至图3对本申请实施例提供的数据处理方法进行说明。
首先,下面结合图2对本申请实施例提供的数据处理方法进行详细说明。
图2为本申请实施例提供的一种数据处理方法的流程图。
如图2所示,该数据处理方法可以应用于如图1所示的数据处理架构,该数据处理方法具体可以包括如下步骤:
步骤210,获取第一预设时间窗内的服务数据,服务数据包括下述中的至少一种:趋势项服务数据、节假日项服务数据、周期项服务数据;步骤220,将服务数据作为第一训练样本输入初始时间序列预测模型,计算第一预测服务数据;步骤230,将第一预测服务数据与服务数据的预设实际服务数据的残差数据作为第二训练样本输入初始catboost回归模型,计算第二预测服务数据;步骤240,在残差数据不符合第一预设条件的情况下,将第二预测服务数据添加到第一训练样本,重复执行计算第一预测服务数据和第二预测服务数据,直至残差数据符合第一预设条件;步骤250,根据与残差数据符合第一预设条件对应的目标时间序列预测模型和目标catboost回归模型,构建线性组合模型,线性组合模型用于对服务数据的监测。
由此,通过时间序列预测模型与catboost回归模型的融合,对由时间序列预测模型产生第一预测服务数据的生成的残差数据进行二次利用,将残差数据作为特征值融入catboost回归模型,在减少构建特征值的过程的同时,使集成后的线性组合模型保留了周期性的数据信息,可以有效地综合时间序列预测模型对于长期时序数据预测精度和catboost回归模型预测短期数据的预测精度,即线性组合模型既可以保证对于长期数据的预测精度,又可以保证对于短期数据的预测精度,如此,提高了对于服务数据结果的预测准确度,降低了对服务数据的监测的错误告警频率,进而提高服务平台的管理效率。
下面对上述步骤进行详细说明,具体如下所示:
首先,涉及步骤210,在一种或多种可能的实施例中,该步骤210具体可以包括:
获取第一预设时间窗内的初始服务数据;
对服务数据进行数据预处理,得到第一预设时间窗内的服务数据,其中,数据预处理依次包括清洗、填充、删除、替换。
示例性地,如图3所示,获取服务平台的初始服务数据,其中,初始服务数据可以包括第一预设时间窗(如一周内的)服务平台存储的数据,按照模型应用场景如监测空气质量指数数据,对第一预设时间窗(如一周内的)服务平台存储的数据进行清洗,得到与模型应用场景对应的第一预设时间窗(如一周内的)的服务数据即PM2.5值,接着,若一周内PM2.5值存在缺失,可以将缺失部分填充为0值;若一周内PM2.5值存在8天的重复值,则可以识别重复部分并对其进行删除;若一周内PM2.5值存在PM1.0值,则将PM1.0值替换为PM2.5值,如此,确保训练模型的样本数据的完整性。
其次,涉及步骤220,在一种或多种可能的实施例中,在步骤220之前,该数据处理方法还可以包括:
根据服务数据的时间序列,获取与服务数据对应的数据标签,数据标签包括先验知识标签和后验知识标签,后验知识标签包括下述中的至少一种:趋势项标签、节假日项标签、周期项标签;
根据数据标签,在初始时间序列预测模型中构建与每个数据标签对应的计算参数;以及,根据数据标签,对服务数据中与数据标签对应的数据进行标记,得到标签服务数据。
示例性地,仍参照图3,确定服务数据的时间序列是否有可靠有效的先验知识存在,若存在,则基于专家经验对其先验知识进行预测,得到专家预测服务数据,如第一预设时间窗(如一周内的)的服务数据即PM2.5值均超过预设值,那么根据专家经验,可以得到下一周的第一天PM2.5的值也会超过预设值,这里该第一预测服务数据包括专家预测服务数据。反之,若服务数据的时间序列没有有可靠有效的先验知识即不存在,则确定该服务数据中是否有后验知识即趋势项服务数据、节假日项服务数据、周期项服务数据,具体地,可以通过初始prophet模型可以将服务数据的时间序列yt分成几个部分的数据,分别是节假日项服务数据h(t),趋势项服务数据g(t),周期项服务数据s(t),其中,t≥0,基于此,yt=s(t)+h(t)+g(t)或yt=s(t)×h(t)×g(t)。基于此,若服务数据的时间序列存在后验知识,则获取与服务数据对应的数据标签,根据数据标签,对服务数据中与数据标签对应的数据进行标记,得到标签服务数据,以及,根据数据标签,在初始时间序列预测模型中构建与每个数据标签对应的计算参数,其中,若数据标签为节假日项标签,则计算参数为节假日天数、月份、上一年度该节假日的PM2.5值;若数据标签为周期项标签,则计算参数为周、月、季度、年。
基于此,该步骤220具体可以包括:
将标签服务数据作为第一训练样本输入初始时间序列预测模型;
分别通过初始时间序列预测模型中与每个数据标签对应的计算参数,对标签服务数据进行处理,得到第一预测服务数据。
示例性地,仍参照图3,基于上述在初始时间序列预测模型如初始prophet模型设置的每个数据标签对应的计算参数,例如平台业务报文数量以周期项标签为每周,工作日报文数量较多,周六日报文数量较少,节假日报文数量同样较少,因此通过初始时间序列预测模型中的周、年周期和节假日天数等计算参数,接着,Prophet模型可以通过拟合这几项计算参数得到的计算结果,然后将其计算结果累加起来就得到了第一预测服务数据。
接着,涉及步骤230,在一种或多种可能的实施例中,该步骤230具体可以包括:
将第一预测服务数据与服务数据的预设实际服务数据的残差数据随机排序,并生成多组随机排列;将浮点型或属性值标记转化为整数,将所有的分类特征值如残差数据的结果都根据初始catboost回归模型中提供的catboost算法(如基模型是对称树)转化为数值结果,将这些数据结果作为第二预测服务数据。
再者,涉及步骤240,在一种或多种可能的实施例中,该步骤240具体可以包括:
在残差数据不符合第一预设条件的情况下,将第二预测服务数据添加到第一训练样本,以将第二预测服务数据和服务数据作为第一训练样本对时间序列预测模型进行训练;
重复执行:
将服务数据作为第一训练样本输入时间序列预测模型,计算第一预测服务数据;
将第一预测服务数据与服务数据的预设实际服务数据的残差数据作为第二训练样本输入catboost回归模型,计算第二预测服务数据。
示例性地,仍参照图3,在第一次计算第一预测服务数据1时,可以将第一预测服务数据1与第一预测服务数据1的预设实际服务数据1的残差数据1作为一组自变量{residuals}应用于初始catboost回归模型的建模过程,即将残差数据1作为第二训练样本输入初始catboost回归模型,计算第二预测服务数据,此时,判断残差数据1是否符合第一预设条件,在残差数据1不符合第一预设条件的情况下,将残差数据1添加到第一训练样本(此时第一训练样本包括第一预设时间窗内的服务数据和残差数据1),并基于第一训练样本对初始时间序列预设模型进行训练,即将第一预设时间窗内的服务数据和残差数据1作为第一训练样本输入初始时间序列预测模型,计算第一预测服务数据2。
接着,将第一预测服务数据2与第一预测服务数据2的预设实际服务数据2的残差数据2作为一组自变量{residuals}应用于初始catboost回归模型的建模过程,即将残差数据2作为第二训练样本输入初始catboost回归模型,计算第二预测服务数据,此时,继续判断残差数据2是否符合第一预设条件,在残差数据2不符合第一预设条件的情况下,将残差数据2继续添加到第一训练样本(此时第一训练样本包括第一预设时间窗内的服务数据和残差数据2,或者第一训练样本包括第一预设时间窗内的服务数据、残差数据1和残差数据2),并基于该第一训练样本对初始时间序列预设模型进行训练,即将第一预设时间窗内的服务数据和残差数据2(或者将第一预设时间窗内的服务数据、残差数据1和残差数据2)作为第一训练样本输入初始时间序列预测模型,计算第一预测服务数据3。
以此类推,重复循环上述过程,直至继续判断残差数据N符合第一预设条件,将计算与残差数据N的第一预测服务数据N的初始时间序列预设模型确定为目标时间序列预测模型,以及接收残差数据N的初始catboost回归模型确定为目标catboost回归模型。
需要说明的是,在一个示例中,在步骤240之前,该数据方法还可以包括:
获取与第一预测服务数据对应的第一数据值以及与预设实际服务数据对应的第二数据值;
将第一数据值与第二数据值的差值确定为残差数据。
示例性地,可以通过如下公式(1)计算残差数据:
residuals=Yprophet predict-Ytrue (1)
其中,residuals为残差数据,Yprophet predict为与第一预测服务数据对应的第一数据值,Ytrue为预设实际服务数据对应的第二数据值。
以及,可以通过如下至少一种方式确定残差数据是否符合第一预设条件。
基于此,方式一,在步骤240之前,本申请实施例提供的数据处理方法还可以包括:
确定残差数据是否符合正态分布条件;
在残差数据符合正态分布条件的情况下,确定残差数据符合第一预设条件;
在残差数据不符合正态分布条件的情况下,确定残差数据不符合第一预设条件。
示例性的,观测残差数据是否符合正态分布,如果符合正态分布,则说明初始时间序列预测模型的预测结果与实际结果相差出入较大,不具备参考性,不会将其对应的残差数据确定为第二训练样本输入到初始catboost回归模型中,反之,若残差数据不符合正态分布条件,则说明初始时间序列预测模型的预测结果与实际结果相差较小,预测较为准确,则可以将其残差数据确定为第二训练样本输入到初始catboost回归模型中。
方式二,在步骤240之前,本申请实施例提供的数据处理方法还可以包括:
确定残差数据的方差是否小于预设阈值;
在残差数据的方差小于预设阈值的情况下,确定残差数据符合第一预设条件;
在残差数据的方差大于或等于预设阈值的情况下,确定残差数据不符合第一预设条件。
方式三,在步骤240之前,本申请实施例提供的数据处理方法还可以包括:
确定残差数据之间的差值是否小于预设阈值;
在残差数据的之间的差值小于预设阈值的情况下,确定残差数据符合第一预设条件;
在残差数据的之间的差值大于或等于预设阈值的情况下,确定残差数据不符合第一预设条件。
然后,涉及步骤250,在一种或多种可能的实施例中,该步骤250具体可以包括:
根据服务数据的数据属性,通过网格搜索法,调整目标时间序列预测模型的第一系数,以及目标catboost回归模型的第二系数;
将调整后的目标时间序列预测模型和目标catboost回归模型进行组合,得到线性组合模型。
示例性地,待上述步骤240循环完毕后,可以确定目标catboost回归模型中的权重值Ycatboost和目标时间序列预测模型中的权重值Yprophet。接着,通过根据服务数据的数据属性,通过网格搜索法,调整目标时间序列预测模型的第一系数α,以及目标catboost回归模型的第二系数β,具体地,可以根据不同的应用场景尝试偏向于目标时间序列预测模型或catboost回归模型,如在服务数据的时间序列的周期性较为明显时,加大目标catboost回归模型的权重系数即第一系数α,在服务数据的时间序列的周期性的线性相关性较为明显时,加大目标catboost回归模型的权重系数即第二系数β。然后,将目标时间序列预测模型中的权重值Yprophet、目标时间序列预测模型的第一系数α、目标catboost回归模型中的权重值Ycatboost、和目标catboost回归模型的权重系数即第二系数β进行加权求和,如下述公式(2),即可得到组合后的线性组合模型Y。
Y=αYprophrt+βYcatboost(α+β=1,α>0,β>0) (2)
如此,通过时间序列预测模型与catboost回归模型的融合,可以有效地综合时间序列预测模型对于长期时序数据较高的预测精度和catboost回归模型预测短期数据的较高预测精度,同时将残差数据作为特征变量输入catboost回归模型,减少了特征构建的工作量,模使得集成后的线性组合模型保留了周期性的数据信息,提升了预测的精度,且通过权重系数,可有效地配置最终的服务数据结果的预测准确度,使得改进得线性组合模型具有更好的普适性和推广性。
另外,在步骤230之后,在一个实施例中,本申请实施例提供的数据处理方法还可以包括:
在残差数据符合第一预设条件的情况下,确定第二预测服务数据是否符合第二预设条件;
在第二预测服务数据符合第二预设条件的情况下,根据初始时间序列预测模型和初始catboost回归模型,构建线性组合模型;
第二预测服务数据符合第二预设条件包括下述中的至少一种:第二预测服务数据小于或等于预设阈值、第二预测服务数据的相关统计值小于或等于预设阈值,相关统计值包括平均值、方差、标准差或协方差。
或者,在另一个实施例中,在步骤230之后,本申请实施例提供的数据处理方法还可以包括:
在残差数据符合第一预设条件的情况下,根据初始时间序列预测模型和初始catboost回归模型,构建线性组合模型。
此外,在步骤250之后,本申请实施例提供的数据处理方法还可以包括:
步骤260,获取第二预设时间窗内的服务数据;
步骤270,将第二预设时间窗内的服务数据输入线性组合模型,通过线性组合模型中的目标时间序列预测模型计算第三预测服务数据;以及,通过线性组合模型中的目标catboost回归模型,计算第四预测服务数据;
步骤280,通过网格搜索算法,对第三预测服务数据和第四预测服务数据进行加权配置处理,得到与第二预设时间窗内的服务数据对应的监测结果。
如此,本申请实施例获取第一预设时间窗内的服务数据,将服务数据作为第一训练样本输入初始时间序列预测模型,计算第一预测服务数据,并将第一预测服务数据与服务数据的预设实际服务数据的残差数据作为第二训练样本输入初始catboost回归模型,计算第二预测服务数据,然后,在残差数据不符合第一预设条件的情况下,将第二预测服务数据添加到第一训练样本,重复执行计算第一预测服务数据和第二预测服务数据,直至残差数据符合第一预设条件,根据与残差数据符合第一预设条件对应的目标时间序列预测模型和目标catboost回归模型,构建线性组合模型,线性组合模型用于对服务数据的监测。这样,通过时间序列预测模型与catboost回归模型的融合,对由时间序列预测模型产生第一预测服务数据的生成的残差数据进行二次利用,将残差数据作为特征值融入catboost回归模型,在减少构建特征值的过程的同时,使集成后的线性组合模型保留了周期性的数据信息,可以有效地综合时间序列预测模型对于长期时序数据预测精度和catboost回归模型预测短期数据的预测精度,即线性组合模型既可以保证对于长期数据的预测精度,又可以保证对于短期数据的预测精度,如此,提高了对于服务数据结果的预测准确度,降低了对服务数据的监测的错误告警频率,进而提高服务平台的管理效率。
基于相同的发明构思,本申请还提供了一种数据处理装置。具体结合图4进行详细说明。
图4是本申请一个实施例提供的数据处理装置的结构示意图。
在本申请一些实施例中,图4所示数据处理装置可以设置于如图4所示的计算机设备中。
如图4所示,该数据处理装置40具体可以包括:
获取模块401,用于获取第一预设时间窗内的服务数据,服务数据包括下述中的至少一种:趋势项服务数据、节假日项服务数据、周期项服务数据;
计算模块402,用于将服务数据作为第一训练样本输入初始时间序列预测模型,计算第一预测服务数据;
计算模块402还用于,将第一预测服务数据与服务数据的预设实际服务数据的残差数据作为第二训练样本输入初始catboost回归模型,计算第二预测服务数据;
执行模块403,用于在残差数据不符合第一预设条件的情况下,将第二预测服务数据添加到第一训练样本,重复执行计算第一预测服务数据和第二预测服务数据,直至残差数据符合第一预设条件;
构建模块404,用于根据与残差数据符合第一预设条件对应的目标时间序列预测模型和目标catboost回归模型,构建线性组合模型,线性组合模型用于对服务数据的监测。
下面分别对本申请实施例中数据处理装置40进行详细说明。
在一种或者多种可选的实施例中,本申请实施例中数据处理装置40还可以包括第一处理模块;其中,
获取模块401还可以用于,获取第二预设时间窗内的服务数据;
计算模块402还可以用于,将第二预设时间窗内的服务数据输入线性组合模型,通过线性组合模型中的目标时间序列预测模型计算第三预测服务数据;以及,通过线性组合模型中的目标catboost回归模型,计算第四预测服务数据;
第一处理模块,用于通过网格搜索算法,对第三预测服务数据和第四预测服务数据进行加权配置处理,得到与第二预设时间窗内的服务数据对应的监测结果。
在另一种或者多种可选的实施例中,本申请实施例中数据处理装置40还可以包括输入模块和第二处理模块;其中,
获取模块401还可以用于,根据服务数据的时间序列,获取与服务数据对应的数据标签,数据标签包括先验知识标签和后验知识标签,后验知识标签包括下述中的至少一种:趋势项标签、节假日项标签、周期项标签;
构建模块404还可以用于,根据数据标签,在初始时间序列预测模型中构建与每个数据标签对应的计算参数;以及,根据数据标签,对服务数据中与数据标签对应的数据进行标记,得到标签服务数据;
输入模块,用于将标签服务数据作为第一训练样本输入初始时间序列预测模型;
第二处理模块,用于分别通过初始时间序列预测模型中与每个数据标签对应的计算参数,对标签服务数据进行处理,得到第一预测服务数据。
在又一种或者多种可选的实施例中,本申请实施例中数据处理装置40还可以包括添加模块;其中,
添加模块,用于在残差数据不符合第一预设条件的情况下,将第二预测服务数据添加到第一训练样本,以将第二预测服务数据和服务数据作为第一训练样本对时间序列预测模型进行训练;
计算模块402具体用于,重复执行:
将服务数据作为第一训练样本输入时间序列预测模型,计算第一预测服务数据;将第一预测服务数据与服务数据的预设实际服务数据的残差数据作为第二训练样本输入catboost回归模型,计算第二预测服务数据。
在再一种或者多种可选的实施例中,本申请实施例中数据处理装置40还可以包括第一确定模块;其中,
第一确定模块,用于在残差数据符合第一预设条件的情况下,确定第二预测服务数据是否符合第二预设条件;
构建模块404还可以用于,在第二预测服务数据符合第二预设条件的情况下,根据初始时间序列预测模型和初始catboost回归模型,构建线性组合模型;
其中,第二预测服务数据符合第二预设条件包括下述中的至少一种:第二预测服务数据小于或等于预设阈值、第二预测服务数据的相关统计值小于或等于预设阈值,相关统计值包括平均值、方差、标准差或协方差。
在再一种或者多种可选的实施例中,本申请实施例中数据处理装置40还可以包括调整模块和组合模块;其中,
调整模块,用于根据服务数据的数据属性,通过网格搜索法,调整目标时间序列预测模型的第一系数,以及目标catboost回归模型的第二系数;
组合模块,用于将调整后的目标时间序列预测模型和目标catboost回归模型进行组合,得到线性组合模型。
在再一种或者多种可选的实施例中,本申请实施例中数据处理装置40还可以包括第二确定模块;其中,
获取模块401还可以用于,获取与第一预测服务数据对应的第一数据值以及与预设实际服务数据对应的第二数据值;
第二确定模块,用于将第一数据值与第二数据值的差值确定为残差数据。
在再一种或者多种可选的实施例中,本申请实施例中数据处理装置40还可以包括第三处理模块;其中,
获取模块401还可以用于,获取第一预设时间窗内的初始服务数据;
第三处理模块,用于对服务数据进行数据预处理,得到第一预设时间窗内的服务数据,其中,数据预处理依次包括清洗、填充、删除、替换。
在再一种或者多种可选的实施例中,本申请实施例中数据处理装置40还可以包括第三确定模块;其中,
第三确定模块,用于确定残差数据是否符合正态分布条件;
第三确定模块还用于,在残差数据符合正态分布条件的情况下,确定残差数据符合第一预设条件;以及,在残差数据不符合正态分布条件的情况下,确定残差数据不符合第一预设条件。
由此,获取第一预设时间窗内的服务数据,将服务数据作为第一训练样本输入初始时间序列预测模型,计算第一预测服务数据,并将第一预测服务数据与服务数据的预设实际服务数据的残差数据作为第二训练样本输入初始catboost回归模型,计算第二预测服务数据,然后,在残差数据不符合第一预设条件的情况下,将第二预测服务数据添加到第一训练样本,重复执行计算第一预测服务数据和第二预测服务数据,直至残差数据符合第一预设条件,根据与残差数据符合第一预设条件对应的目标时间序列预测模型和目标catboost回归模型,构建线性组合模型,线性组合模型用于对服务数据的监测。这样,通过时间序列预测模型与catboost回归模型的融合,对由时间序列预测模型产生第一预测服务数据的生成的残差数据进行二次利用,将残差数据作为特征值融入catboost回归模型,在减少构建特征值的过程的同时,使集成后的线性组合模型保留了周期性的数据信息,可以有效地综合时间序列预测模型对于长期时序数据预测精度和catboost回归模型预测短期数据的预测精度,即线性组合模型既可以保证对于长期数据的预测精度,又可以保证对于短期数据的预测精度,如此,提高了对于服务数据结果的预测准确度,降低了对服务数据的监测的错误告警频率,进而提高服务平台的管理效率。
基于相同的发明构思,本申请还提供了一种计算机设备。具体结合图5进行详细说明。
图5是本申请一个实施例提供的计算机设备的结构示意图。
如图5所示,该计算机设备可以包括本申请实施例中涉及的下述中的至少一种:电子设备、服务器。其中,该计算机设备可以包括处理器501以及存储有计算机程序指令的存储器502。
具体地,上述处理器501可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器502可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器502可在综合网关容灾设备的内部或外部。在特定实施例中,存储器502是非易失性固态存储器。在特定实施例中,存储器502包括固态存储(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器501通过读取并执行存储器502中存储的计算机程序指令,以实现上述实施例中的任意一种数据处理方法。
在一个示例中,计算机设备还可包括通信接口503和总线510。其中,如图5所示,处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。
通信接口503,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线510包括硬件、软件或两者,将流量控制设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线510可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该数据处理设备可以执行本申请实施例中的数据处理方法,从而实现结合图1至图3描述的数据处理方法和装置。
另外,结合上述实施例中的数据处理方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据处理方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (12)
1.一种数据处理方法,包括:
获取第一预设时间窗内的服务数据,所述服务数据包括下述中的至少一种:趋势项服务数据、节假日项服务数据、周期项服务数据;
将所述服务数据作为第一训练样本输入初始时间序列预测模型,计算第一预测服务数据;
将所述第一预测服务数据与所述服务数据的预设实际服务数据的残差数据作为第二训练样本输入初始catboost回归模型,计算第二预测服务数据;
在所述残差数据不符合第一预设条件的情况下,将所述第二预测服务数据添加到所述第一训练样本,重复执行计算所述第一预测服务数据和第二预测服务数据,直至所述残差数据符合所述第一预设条件;
根据与所述残差数据符合所述第一预设条件对应的目标时间序列预测模型和目标catboost回归模型,构建线性组合模型,所述线性组合模型用于对服务数据的监测。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第二预设时间窗内的服务数据;
将所述第二预设时间窗内的服务数据输入所述线性组合模型,通过所述线性组合模型中的目标时间序列预测模型计算第三预测服务数据;以及,通过所述线性组合模型中的目标catboost回归模型,计算第四预测服务数据;
通过网格搜索算法,对所述第三预测服务数据和所述第四预测服务数据进行加权配置处理,得到与所述第二预设时间窗内的服务数据对应的监测结果。
3.根据权利要求1所述的方法,其特征在于,所述将所述服务数据作为第一训练样本输入初始时间序列预测模型,计算第一预测服务数据之前,所述方法还包括:
根据所述服务数据的时间序列,获取与所述服务数据对应的数据标签,所述数据标签包括先验知识标签和后验知识标签,所述后验知识标签包括下述中的至少一种:趋势项标签、节假日项标签、周期项标签;
根据所述数据标签,在所述初始时间序列预测模型中构建与每个数据标签对应的计算参数;以及,根据所述数据标签,对所述服务数据中与所述数据标签对应的数据进行标记,得到标签服务数据;
所述将所述服务数据作为第一训练样本输入初始时间序列预测模型,计算第一预测服务数据,包括:
将所述标签服务数据作为第一训练样本输入初始时间序列预测模型;
分别通过所述初始时间序列预测模型中与每个数据标签对应的计算参数,对所述标签服务数据进行处理,得到第一预测服务数据。
4.根据权利要求1所述的方法,其特征在于,所述在所述残差数据不符合第一预设条件的情况下,将所述第二预测服务数据添加到所述第一训练样本,重复执行计算所述第一预测服务数据和第二预测服务数据,包括:
在所述残差数据不符合第一预设条件的情况下,将所述第二预测服务数据添加到所述第一训练样本,以将所述第二预测服务数据和服务数据作为第一训练样本对时间序列预测模型进行训练;
重复执行:
将所述服务数据作为第一训练样本输入时间序列预测模型,计算第一预测服务数据;
将所述第一预测服务数据与所述服务数据的预设实际服务数据的残差数据作为第二训练样本输入catboost回归模型,计算第二预测服务数据。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述残差数据符合第一预设条件的情况下,确定所述第二预测服务数据是否符合第二预设条件;
在所述第二预测服务数据符合第二预设条件的情况下,根据所述初始时间序列预测模型和所述初始catboost回归模型,构建线性组合模型;
其中,所述第二预测服务数据符合第二预设条件包括下述中的至少一种:所述第二预测服务数据小于或等于预设阈值、所述第二预测服务数据的相关统计值小于或等于预设阈值,所述相关统计值包括平均值、方差、标准差或协方差。
6.根据权利要求1所述的方法,其特征在于,所述根据与所述残差数据符合所述第一预设条件对应的目标时间序列预测模型和目标catboost回归模型,构建线性组合模型,包括:
根据所述服务数据的数据属性,通过网格搜索法,调整所述目标时间序列预测模型的第一系数,以及所述目标catboost回归模型的第二系数;
将调整后的目标时间序列预测模型和目标catboost回归模型进行组合,得到线性组合模型。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取与所述第一预测服务数据对应的第一数据值以及与预设实际服务数据对应的第二数据值;
将所述第一数据值与所述第二数据值的差值确定为所述残差数据。
8.根据权利要求1所述的方法,其特征在于,所述获取第一预设时间窗内的服务数据,包括:
获取所述第一预设时间窗内的初始服务数据;
对所述服务数据进行数据预处理,得到所述第一预设时间窗内的服务数据,其中,所述数据预处理依次包括清洗、填充、删除、替换。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述残差数据是否符合正态分布条件;
在所述残差数据符合正态分布条件的情况下,确定所述残差数据符合第一预设条件;
在所述残差数据不符合正态分布条件的情况下,确定所述残差数据不符合第一预设条件。
10.一种数据处理装置,包括:
获取模块,用于获取第一预设时间窗内的服务数据,所述服务数据包括下述中的至少一种:趋势项服务数据、节假日项服务数据、周期项服务数据;
计算模块,用于将所述服务数据作为第一训练样本输入初始时间序列预测模型,计算第一预测服务数据;
所述计算模块还用于,将所述第一预测服务数据与所述服务数据的预设实际服务数据的残差数据作为第二训练样本输入初始catboost回归模型,计算第二预测服务数据;
处理模块,用于在所述残差数据不符合第一预设条件的情况下,将所述第二预测服务数据添加到所述第一训练样本,重复执行计算所述第一预测服务数据和第二预测服务数据,直至所述残差数据符合所述第一预设条件;
根据与所述残差数据符合所述第一预设条件对应的目标时间序列预测模型和目标catboost回归模型,构建线性组合模型,所述线性组合模型用于对服务数据的监测。
11.一种计算机设备,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-9任意一项所述的数据处理方法。
12.一种存储介质,所述存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-9任意一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310109307.4A CN116108991A (zh) | 2023-02-13 | 2023-02-13 | 数据处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310109307.4A CN116108991A (zh) | 2023-02-13 | 2023-02-13 | 数据处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116108991A true CN116108991A (zh) | 2023-05-12 |
Family
ID=86259577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310109307.4A Pending CN116108991A (zh) | 2023-02-13 | 2023-02-13 | 数据处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116108991A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116703470A (zh) * | 2023-08-09 | 2023-09-05 | 深圳市土地公网络科技有限公司 | 供应信息的预测方法、装置、设备及存储介质 |
-
2023
- 2023-02-13 CN CN202310109307.4A patent/CN116108991A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116703470A (zh) * | 2023-08-09 | 2023-09-05 | 深圳市土地公网络科技有限公司 | 供应信息的预测方法、装置、设备及存储介质 |
CN116703470B (zh) * | 2023-08-09 | 2024-01-12 | 深圳市土地公网络科技有限公司 | 供应信息的预测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111984503B (zh) | 一种监控指标数据异常数据识别的方法及装置 | |
CN112232447B (zh) | 一种电力设备状态监测数据的完整样本集的构建方法 | |
CN109034861B (zh) | 基于移动端日志行为数据的用户流失预测方法及装置 | |
CN106059661B (zh) | 一种基于时序分析的光传输网络趋势预测方法 | |
US20220131770A1 (en) | System and method for predicting and reducing subscriber churn | |
CN111708739B (zh) | 时序数据的异常检测方法、装置、电子设备及存储介质 | |
Liu et al. | Multivariate time-series forecasting with temporal polynomial graph neural networks | |
US20200111174A1 (en) | Probabilistic Load Forecasting via Point Forecast Feature Integration | |
Srinivasan et al. | Semi-Markov decision process with partial information for maintenance decisions | |
CN111176953B (zh) | 一种异常检测及其模型训练方法、计算机设备和存储介质 | |
CN116108991A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN110909306B (zh) | 业务异常检测方法、装置、电子设备和存储设备 | |
WO2019172848A1 (en) | Method and apparatus for predicting occurrence of an event to facilitate asset maintenance | |
CN114528190B (zh) | 单指标异常的检测方法、装置、电子设备及可读存储介质 | |
CN115146764A (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN114819289A (zh) | 预测方法、训练方法、装置、电子设备及存储介质 | |
CN113723716A (zh) | 一种客流分级预警异常告警方法、设备及存储介质 | |
CN114037138A (zh) | 基于双层分解和深度学习的地铁短时进站客流预测系统及实施方法 | |
CN111489074A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN116302804A (zh) | 基于时间序列的监控指标异常检测方法、系统及介质 | |
CN116151975A (zh) | 交易异常告警方法和装置 | |
CN115278757A (zh) | 一种检测异常数据的方法、装置及电子设备 | |
CN112581727B (zh) | 桥梁的位移漂移预警方法、装置、设备及存储介质 | |
CN112348318B (zh) | 一种供应链风险预测模型的训练和应用方法及装置 | |
CN114938339A (zh) | 一种数据处理方法和相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |