CN104573864A - 一种基于自回归预测的数据分析报警方法 - Google Patents
一种基于自回归预测的数据分析报警方法 Download PDFInfo
- Publication number
- CN104573864A CN104573864A CN201510008344.1A CN201510008344A CN104573864A CN 104573864 A CN104573864 A CN 104573864A CN 201510008344 A CN201510008344 A CN 201510008344A CN 104573864 A CN104573864 A CN 104573864A
- Authority
- CN
- China
- Prior art keywords
- autoregressive
- model
- autoregressive model
- data
- acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000007405 data analysis Methods 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000012795 verification Methods 0.000 claims abstract description 9
- 238000002790 cross-validation Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 4
- 239000002699 waste material Substances 0.000 abstract description 3
- 238000012360 testing method Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于自回归预测的数据分析报警方法,该方法步骤如下:1)建立自回归模型并建立新的采集任务;2)利用自回归模型进行采集过程中的预警工作;在采集过程中,不断获取各个时间段内的运行数据,利用得到的自回归模型对数据对应的最终结果进行预测,若得到的值为1,则向采集负责人发送预警信息,方便负责人采取相应的对应措施;3)将每次采集任务中各个时间段内的运行参数作为新的训练样例增加到训练集合中,采用验证方法对自回归模型进行新一轮的训练,得到更优的模型。本发明利用自回归预测法,建立自回归模型,将能够对采集过程中可能出现的问题进行预测,有效的避免了时间和资源的浪费,保证了工作的正常进行。
Description
技术领域
本发明涉及网络数据采集技术领域,具体地说是一种基于自回归预测的数据分析报警方法。
背景技术
随着互联网的普及与发展,以及上网人数的不断增加,每分钟都有数以百万计的数据产生,与自然资源不同的是,该类数据资源没有匮乏,只有增长。伴随着数据量的不断增大,当今社会进入了大数据时代。获取互联网数据的主要途径是通过网络爬虫技术进行数据采集。由于互联网数据量大,种类繁多,结构复杂,造成采集过程往往需要经历较长的时间。在数据的采集过程中,采集前期由于系统资源充足、网络环境通畅、内存占有量较低等因素,采集速度快,效率高;伴随着采集过程的不断进行,系统资源、内存不断的被占用,网络环境也越来越差,采集速度逐渐减慢,效率变低,有时还会因为资源不足,内存不够等因素停止采集。而造成采集停止的这些问题,我们通常无法进行提前预测,而且问题出现后无法及时发现,造成大量时间的浪费与资源浪费,影响工作的下一步进行。
发明内容
本发明的技术任务是提供一种基于自回归预测的数据分析报警方法。
本发明的技术任务是按以下方式实现的,该方法步骤如下:
1)建立自回归模型并建立新的采集任务;
2)利用自回归模型进行采集过程中的预警工作;在采集过程中,不断获取各个时间段内的运行数据,利用得到的自回归模型对数据对应的最终结果进行预测,若得到的值为1,则向采集负责人发送预警信息,方便采集负责人查看采集任务并采取相应的对应措施;
3)将每次采集任务中各个时间段内的运行参数作为新的训练样例增加到训练集合中,采用验证方法对自回归模型进行新一轮的训练,得到更优的模型。
所述的自回归模型的建立步骤如下:
1)在数据采集过程中,每隔10分钟获取一次运行环境参数;
2)将获取到的环境参数进行转换预处理,得到模型的训练样例;
3)根据训练样例进行分类器测学习,最终建立自回归模型,对于未知的样例,根据模型可预测其可能的结果;
4)采用验证方法多次训练使得模型的性能稳定,并得到最优自回归模型。
所述的验证方法为十折交叉验证方法。
本发明的一种基于自回归预测的数据分析报警方法和现有技术相比,能够利用预测目标的历史时间数列在不同时期取值之间存在的依存关系,建立起回归方程进行预测。利用自回归预测法,建立自回归模型,将能够对采集过程中可能出现的问题进行预测,有效的避免了时间和资源的浪费,保证了工作的正常进行。
附图说明
附图1为一种基于自回归预测的数据分析报警方法的流程图。
具体实施方式
实施例1:
建立自回归模型:
1)在数据采集过程中,每隔10分钟获取一次运行环境参数;
2)将获取到的环境参数进行转换预处理,得到模型的训练样例;
3)根据训练样例进行分类器测学习,最终建立自回归模型,对于未知的样例,根据模型可预测其可能的结果;
4)采用验证方法多次训练使得模型的性能稳定,并得到最优自回归模型。
采用自回归模型进行预测数据分析报警:
利用自回归模型进行采集过程中的预警工作;在采集过程中,不断获取各个时间段内的运行数据,利用得到的自回归模型对数据对应的最终结果进行预测,若得到的值为1,则向采集负责人发送预警信息,方便采集负责人查看采集任务并采取相应的对应措施;
将每次采集任务中各个时间段内的运行参数作为新的训练样例增加到训练集合中,采用验证方法对自回归模型进行新一轮的训练,得到更优的模型。
实施例2:
建立自回归模型:
1)在数据采集过程中,每隔10分钟获取一次运行环境参数;
2)将获取到的环境参数进行转换预处理,得到模型的训练样例;
3)根据训练样例进行分类器测学习,最终建立自回归模型,对于未知的样例,根据模型可预测其可能的结果;
4)采用十折交叉验证方法多次训练使得模型的性能稳定,并得到最优自回归模型。
采用自回归模型进行预测数据分析报警:
利用自回归模型进行采集过程中的预警工作;在采集过程中,不断获取各个时间段内的运行数据,利用得到的自回归模型对数据对应的最终结果进行预测,若得到的值为1,则向采集负责人发送预警信息,方便采集负责人查看采集任务并采取相应的对应措施;
将每次采集任务中各个时间段内的运行参数作为新的训练样例增加到训练集合中,采用十折交叉验证方法对自回归模型进行新一轮的训练,得到更优的模型。
十折交叉验证方法:英文名叫做10-fold cross-validation,用来测试算法准确性。是常用的测试方法。将数据集分成十分,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证(例如10次10折交叉验证),再求其均值,作为对算法准确性的估计。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
Claims (3)
1.一种基于自回归预测的数据分析报警方法,其特征在于,该方法步骤如下:
1)建立自回归模型并建立新的采集任务;
2)利用自回归模型进行采集过程中的预警工作;在采集过程中,不断获取各个时间段内的运行数据,利用得到的自回归模型对数据对应的最终结果进行预测,若得到的值为1,则向采集负责人发送预警信息,方便采集负责人查看采集任务并采取相应的对应措施;
3)将每次采集任务中各个时间段内的运行参数作为新的训练样例增加到训练集合中,采用验证方法对自回归模型进行新一轮的训练,得到更优的模型。
2.根据权利要求1所述的一种基于自回归预测的数据分析报警方法,其特征在于,所述的自回归模型的建立步骤如下:
1)在数据采集过程中,每隔10分钟获取一次运行环境参数;
2)将获取到的环境参数进行转换预处理,得到模型的训练样例;
3)根据训练样例进行分类器测学习,最终建立自回归模型,对于未知的样例,根据模型可预测其可能的结果;
4)采用验证方法多次训练使得模型的性能稳定,并得到最优自回归模型。
3. 根据权利要求1或2所述的一种基于自回归预测的数据分析报警方法,其特征在于,所述的验证方法为十折交叉验证方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510008344.1A CN104573864A (zh) | 2015-01-08 | 2015-01-08 | 一种基于自回归预测的数据分析报警方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510008344.1A CN104573864A (zh) | 2015-01-08 | 2015-01-08 | 一种基于自回归预测的数据分析报警方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104573864A true CN104573864A (zh) | 2015-04-29 |
Family
ID=53089879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510008344.1A Pending CN104573864A (zh) | 2015-01-08 | 2015-01-08 | 一种基于自回归预测的数据分析报警方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104573864A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110809280A (zh) * | 2019-10-21 | 2020-02-18 | 北京锦鸿希电信息技术股份有限公司 | 一种铁路无线网络质量的检测预警方法及装置 |
CN111146865A (zh) * | 2019-12-25 | 2020-05-12 | 上海电力大学 | 一种电力设备运维状态智能监测系统 |
CN113822388A (zh) * | 2021-11-24 | 2021-12-21 | 深圳市裕展精密科技有限公司 | 参数设定方法、装置、电子装置及存储介质 |
CN116524405A (zh) * | 2023-05-04 | 2023-08-01 | 广东海洋大学 | 海洋风暴的浪高识别方法与系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004102831A (ja) * | 2002-09-11 | 2004-04-02 | Japan Research Institute Ltd | パラメータ推定方法、データ予測方法、パラメータ推定装置、データ予測装置、コンピュータプログラム、及び記録媒体 |
CN103365727A (zh) * | 2013-07-09 | 2013-10-23 | 南京大学 | 一种云计算环境中的主机负载预测方法 |
-
2015
- 2015-01-08 CN CN201510008344.1A patent/CN104573864A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004102831A (ja) * | 2002-09-11 | 2004-04-02 | Japan Research Institute Ltd | パラメータ推定方法、データ予測方法、パラメータ推定装置、データ予測装置、コンピュータプログラム、及び記録媒体 |
CN103365727A (zh) * | 2013-07-09 | 2013-10-23 | 南京大学 | 一种云计算环境中的主机负载预测方法 |
Non-Patent Citations (3)
Title |
---|
唐阔等: "基于遗传算法优化支持向量机回归机的网格负载预测模型", 《吉林大学学报(理学版)》 * |
姚培等: "分布式多模型在线预测(DMOP)机制的设计与实现", 《计算机工程与科学》 * |
程宏兵等: "一种基于自动回归的改进网格主机负载预测模型", 《计算机应用》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110809280A (zh) * | 2019-10-21 | 2020-02-18 | 北京锦鸿希电信息技术股份有限公司 | 一种铁路无线网络质量的检测预警方法及装置 |
CN110809280B (zh) * | 2019-10-21 | 2022-10-18 | 北京锦鸿希电信息技术股份有限公司 | 一种铁路无线网络质量的检测预警方法及装置 |
CN111146865A (zh) * | 2019-12-25 | 2020-05-12 | 上海电力大学 | 一种电力设备运维状态智能监测系统 |
CN113822388A (zh) * | 2021-11-24 | 2021-12-21 | 深圳市裕展精密科技有限公司 | 参数设定方法、装置、电子装置及存储介质 |
CN113822388B (zh) * | 2021-11-24 | 2022-04-12 | 深圳市裕展精密科技有限公司 | 参数设定方法、装置、电子装置及存储介质 |
CN116524405A (zh) * | 2023-05-04 | 2023-08-01 | 广东海洋大学 | 海洋风暴的浪高识别方法与系统 |
CN116524405B (zh) * | 2023-05-04 | 2024-02-23 | 广东海洋大学 | 海洋风暴的浪高识别方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104185840B (zh) | 在持续部署流水线中用来优先化多个测试的方法、系统和装置 | |
CN102520697B (zh) | 一种远程协同诊断的现场信息预处理方法 | |
CN103530347B (zh) | 一种基于大数据挖掘的互联网资源质量评估方法及系统 | |
US9208209B1 (en) | Techniques for monitoring transformation techniques using control charts | |
CN105227369B (zh) | 基于众包模式的移动Apps对无线网路资源利用的分析方法 | |
CN102402727A (zh) | 工程机械的部件剩余寿命预测系统及方法 | |
CN112348339A (zh) | 一种基于大数据分析的配电网规划方法 | |
CN101882105A (zh) | 一种测试Web网页并发环境下响应时间的方法 | |
CN104573864A (zh) | 一种基于自回归预测的数据分析报警方法 | |
CN103631788A (zh) | 基于共享数据库的车辆制造质量问题诊断系统 | |
CN101826090A (zh) | 基于最优模型的web舆情趋势预测方法 | |
CN110162445A (zh) | 基于主机日志及性能指标的主机健康评价方法及装置 | |
CN116862081B (zh) | 一种污染治理设备运维方法及系统 | |
CN111325485B (zh) | 计及物联带宽约束的轻量级梯度提升机电能质量扰动识别方法 | |
CN104601604A (zh) | 网络安全态势分析方法 | |
CN103678004A (zh) | 一种基于非监督特征学习的主机负载预测方法 | |
CN108921359A (zh) | 一种分布式瓦斯浓度预测方法及装置 | |
CN102955894A (zh) | 一种基于用户细分的流失率预测的控制方法 | |
CN103995775A (zh) | 一种基于神经网络的测试数据生成方法 | |
CN115600824B (zh) | 一种碳排放的预警方法及装置、存储介质、电子设备 | |
CN104182803A (zh) | 风电数据预处理方法及风电功率预测方法和系统 | |
Ma et al. | A novel broad learning system based leakage detection and universal localization method for pipeline networks | |
CN113705688A (zh) | 一种电力用户异常用电行为检测方法和系统 | |
CN105654174A (zh) | 用于预测的系统和方法 | |
Kovalchuk et al. | Towards ensemble simulation of complex systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150429 |
|
WD01 | Invention patent application deemed withdrawn after publication |