CN114239743A - 一种基于稀疏时间序列数据的事件发生时间预测方法 - Google Patents

一种基于稀疏时间序列数据的事件发生时间预测方法 Download PDF

Info

Publication number
CN114239743A
CN114239743A CN202111576670.4A CN202111576670A CN114239743A CN 114239743 A CN114239743 A CN 114239743A CN 202111576670 A CN202111576670 A CN 202111576670A CN 114239743 A CN114239743 A CN 114239743A
Authority
CN
China
Prior art keywords
data
features
time
feature
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111576670.4A
Other languages
English (en)
Other versions
CN114239743B (zh
Inventor
付波
刘术辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202111576670.4A priority Critical patent/CN114239743B/zh
Publication of CN114239743A publication Critical patent/CN114239743A/zh
Application granted granted Critical
Publication of CN114239743B publication Critical patent/CN114239743B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于稀疏时间序列数据的事件发生时间预测方法,分为统计特征选择和模型训练测试两个步骤依次实施,统计特征选择是采用单因素分析的方法,通过统计检验初步选择出有显著差异的特征;模型训练测试是使用筛选完成的特征构造新的时间序列特征并使用梯度提升树进行训练。本发明简化了特征构造方式,有效解决了时序数据的特征构造在不同的数据系统中存在较大差异无法通用的问题,同时预测精度相比于其他的方法提升明显。

Description

一种基于稀疏时间序列数据的事件发生时间预测方法
技术领域
本发明涉及机器学习技术,特别涉及基于时间序列数据的事件预测技术。
背景技术
时间序列数据是一串按时间维度索引的数据,这类数据描述了某个被测量的主体在一个时间范围内的每个时间点上的测量值。对时序数据通常会包含三个部分,分别是:主体,时间点和测量值。稀疏表示的目的就是在给定的超完备字典中用尽可能少的原子来表示信息,可以获得信息更为简洁的表示方式,从而使我们更容易地获取信号中所蕴含的信息,更方便进一步对信号进行加工处理。基于稀疏时间序列数据的事件发生时间预测,用于根据稀疏表示的时间序列数据来预测某个时间在指定时间是否发生,该应用在生活中无处不在,从对自然环境、人体行为或者身体机能各方面的事件的判断上,比如天气预报与各种预警系统。
机器学习在时序数据预测上有很多的成果,在这方面应用最广泛的是循环神经网络。但是循环神经网络对数据的要求较高,需要数据是连续且不能存在空值,而且现有的循环神经网络模型都存在特异度较高而灵敏度较低的问题。其他还有随机森林和梯度提升树等模型,虽然模型的精度较高,但是无法处理时间序列数据,或者需要根据数据本身的特点手动构造,在不同的时间序列数据中无法通用,处理过程非常繁琐。
发明内容
本发明所要解决的技术问题是,提供一种自动构造基于时间序列数据的特征来进行事件是否发生的预测方法。
本发明为解决上述技术问题所采用的技术方案是,一种基于稀疏时间序列数据的事件预测方法,包括:
S1.对稀疏时间序列数据进行数据分类,将在观测时间长度内未发生变换的作为静态数据,持续随时间变化的作为动态数据,间断出现且只有0与1两种状态的作为离散数据;
S2.按数据类别进行特征提取:
对于静态数据,选取与事件相关的特征作为静态数据特征;
对于动态数据,先按事件是否发生进行分组,再对各动态数据提取数据特征,再计算数据特征的置信度,再按保留置信度小于0.1的数据特征的方式进行筛选;筛选后的数据特征作为原始动态特征,再将原始动态特征对应时间点之前的一段时间的数据特征作时序特征,原始动态特征和其对应的时序特征合并为最终的动态数据特征;
对于离散数据,先对离散数据进行独热编码作为离散数据的原始离散特征,再对每个原始特征统计在对应时间点之前的原始特征出现次数作为计数特征,原始离散特征和其对应的计数特征合并为最终的离散数据特征;
S3.将同一时间点的静态数据特征、时间特征序列和离散数据特征进行拼接形成模型的输入特征,再按照事件是否发生进行贴标后形成训练数据;将观测时间内的训练数据形成训练集输入至事件发生预测模型中进行训练;
S4.将待预测的稀疏时间序列数据通过S1-S2步骤,将同一时间点的静态数据特征、时间特征序列和离散数据特征进行拼接形成模型的输入特征输入至训练完成的事件发生预测模型中,事件发生预测模型输出对应时间点是否发生事件的预测结果。
进一步的,事件发生预测模型由多个子模型组成,在事件发生预测模型训练过程中,使用多折交叉验证方法将训练集输入多个子模型训练,采用自定义评价函数和贝叶斯超参数优化训练子模型,并使用多个子模型输出的均值作为最后的预测值;
本发明方法运用统计特征筛选,以简单时间相关来构造特征。本发明的有益效果是:
(1)使用统计特征选择找出对模型具有显著影响的单维特征,排除了显著不相关的单个特征对最终预测模型性能可能带来的影响;
(2)简化特征构造方式,只需要构造简单时间特征和计数特征,避免了对每一个特征进行单独分析处理的麻烦,降低了特征选择的时间以及计算资源的消耗;
(3)使用梯度提升树作为基学习器并使用多折交叉验证,能更充分地学习数据特征之间的关系,从而提高模型的鲁棒性;
(4)使用自定义的目标函数和评价指标,提高了模型预测的精度;
(5)整个特征构造和训练步骤不涉及到具体某一个特征的处理方式,在不同的时间序列数据上都可以进行处理,并且精度相比于其他方法都有提升。
因此,本发明有比较明显的优势和较广泛的适用场景。
附图说明
图1为实施例流程图;
图2为实施例动态特征筛选流程;
图3为实施例的模型训练流程。
具体实施方式
下面进一步说明本发明的技术方案,但本发明所保护的内容不局限于以下所述。
基于稀疏时间序列数据的事件发生时间预测方法,包括了统计特征筛选、模型特征构造、自定义目标函数和评价函数等方法和步骤。利用简单的时间特征构造方式和新的目标函数,可以有效提高模型预测精度并解决模型特征无法通用的问题。
为了实现发明,如图1所示,具体包括以下步骤:
S1.对稀疏时间序列数据进行数据分类,将在观测时间长度内未发生变换的作为静态数据,持续随时间变化的作为动态数据,间断出现且只有0与1两种状态的作为离散数据;
S2:统计特征筛选和构造阶段
对于静态数据,选取和事件相关的特征作为静态特征Fd
对于动态数据,对训练数据按事件是否发生分组,检验不同分组中Fi变量分布是否有显著差异,并构造时间序列特征,其执行过程如图2所示:
S201:若Fi无法使用数字进行量化或者观测次数少于总事件发生次数则丢弃该特征。
S202:对于每一个特征Fi,对分组之前的训练数据总体中使用KS检验Fi分布是否服从正态分布。
S203:若服从正态分布(P>0.1,P值代表假设服从正态分布的概率,越小则说明原假设越不成立),则对分组之后的训练数据使用独立样本的T检验计算置信度值p;否则,使用Mann-Whitney U检验计算p值;
S204:如果Fi统计检验p值小于0.1,则将Fi加入已选择特征集合Fm
S205:对集合Fm中每一个特征Fi,设当前时间点为t,当前时间点的特征值为Fi(t),添加新的特征Fi(t-2),Fi(t-4),Fi(t)-Fi(t-1),Fi(t-1)-Fi(t-3)作为输入模型所需特征,新特征和原始特征合并为最终特征集合Fmt
对离散的动态数据,添加计数特征:对于离散数据特征集合Fn中每一个特征Fj,设当前时间点为t,则当前时间点的特征值为Fj(t),计算当前时间点之前特征计数总和
Figure BDA0003425420190000041
添加当前时间点之前特征的次数总和作为计数特征,计数特征Fcj(t)和原始特征Fj(t)合并为最终特征Fnt
利用统计特征筛选特征以及和时间特征构造的方法,简化特征构造方式来提高模型实用性以及模型的预测精度。
S3:模型训练和预测阶段
对统计特征选择出来的集合Fd、Fmt、Fnt进行拼接形成输入特征,再对输入特征贴标签形成训练数据,将采集到的训练数据形成训练集,结合应用梯队提升树学习方法,使用自定义目标函数训练事件发生预测模型由多个子模型组成,,事件发生预测模型由多个子模型组成,执行过程如图3所示:
S301:采用多折交叉验证训练多个子模型。在每一折内,由于训练数据事件发生和不发生的占比差距可能很大,所以对输入数据进行下采样使发生事件的数据条目数和未发生事件数据条目数相等。
S302:采用多折交叉验证训练多个模型。每一折内使用自定义目标函数SLLSE进行训练。SLLSE定义如下:f(yp,yl)=α(log(yp+1)-log(yl+1))2+(1-α)log((yp-yl)2+1)。其中yp为预测值,yl为真实值,α为超参数,用于调节两个误差之间的比值,范围取0到1之间。SLLSE的一阶导数和二阶导数如下:
Figure BDA0003425420190000042
Figure BDA0003425420190000043
相应的评价指标变为:
Figure BDA0003425420190000044
其中N代表参与评价指标计算的总样本数。
S303:训练好的子模型进行预测时将每一个模型的预测值求和取平均作为最终结果。

Claims (6)

1.一种基于稀疏时间序列数据的事件发生时间预测方法,其特征在于:
S1.对稀疏时间序列数据进行数据分类,将在观测时间长度内未发生变换的作为静态数据,持续随时间变化的作为动态数据,间断出现且只有0与1两种状态的作为离散数据;
S2.按数据类别进行特征提取:
对于静态数据,选取与事件相关的特征作为静态数据特征;
对于动态数据,先按事件是否发生进行分组,再对各动态数据提取数据特征,再计算数据特征的置信度,再按保留置信度小于0.1的数据特征的方式进行筛选;筛选后的数据特征作为原始动态特征,再将原始动态特征对应时间点之前的一段时间的数据特征作时序特征,原始动态特征和其对应的时序特征合并为最终的动态数据特征;
对于离散数据,先对离散数据进行独热编码作为离散数据的原始离散特征,再对每个原始特征统计在对应时间点之前的原始特征出现次数作为计数特征,原始离散特征和其对应的计数特征合并为最终的离散数据特征;
S3.将同一时间点的静态数据特征、时间特征序列和离散数据特征进行拼接形成模型的输入特征,再按照事件是否发生进行贴标后形成训练数据;将观测时间内的训练数据形成训练集输入至事件发生预测模型中进行训练;
S4.将待预测的稀疏时间序列数据通过S1-S2步骤,将同一时间点的静态数据特征、时间特征序列和离散数据特征进行拼接形成模型的输入特征输入至训练完成的事件发生预测模型中,事件发生预测模型输出对应时间点是否发生事件的预测结果。
2.如权利要求1方法,其特征在于,计算数据特征的置信度之前,先判断特征是否属于无法使用数字进行量化或者观测次数少于总事件发生次数的情况,如是,则丢弃该数据特征,否则再计算该算数据特征的置信度。
3.如权利要求1方法,其特征在于,计算数据特征的置信度的具体方式为:对于每一个数据特征使用KS检验该数据特征的分布是否服从正态分布,如是则使用独立样本的T检验计算置信度,否则使用Mann-Whitney U检验计算置信度。
4.如权利要求1方法,其特征在于,原始动态特征Fi(t)对应的时序特征为:Fi(t-2),Fi(t-4),Fi(t)-Fi(t-1),Fi(t-1)-Fi(t-3),t为当前时间点。
5.如权利要求1方法,其特征在于,事件发生预测模型由多个子模型组成,在事件发生预测模型训练过程中,使用多折交叉验证方法将训练集输入多个子模型训练,并使用多个子模型输出的均值作为最后的预测值。
6.如权利要求5方法,其特征在于,在事件发生预测模型训练过程中,采用自定义评价函数和贝叶斯超参数优化训练子模型。
CN202111576670.4A 2021-12-22 2021-12-22 一种基于稀疏时间序列数据的天气事件发生时间预测方法 Active CN114239743B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111576670.4A CN114239743B (zh) 2021-12-22 2021-12-22 一种基于稀疏时间序列数据的天气事件发生时间预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111576670.4A CN114239743B (zh) 2021-12-22 2021-12-22 一种基于稀疏时间序列数据的天气事件发生时间预测方法

Publications (2)

Publication Number Publication Date
CN114239743A true CN114239743A (zh) 2022-03-25
CN114239743B CN114239743B (zh) 2023-12-15

Family

ID=80760873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111576670.4A Active CN114239743B (zh) 2021-12-22 2021-12-22 一种基于稀疏时间序列数据的天气事件发生时间预测方法

Country Status (1)

Country Link
CN (1) CN114239743B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599271A (zh) * 2016-12-22 2017-04-26 江苏方天电力技术有限公司 一种燃煤机组排放监测时序数据异常值检测方法
US20170249376A1 (en) * 2016-02-29 2017-08-31 Oracle International Corporation System for detecting and characterizing seasons
WO2018011794A1 (en) * 2016-07-10 2018-01-18 B.G. Negev Technologies And Applications Ltd., At Ben-Gurion University Methods and systems for estimation of obstructive sleep apnea severity in wake subjects by multiple speech analyses
CN108292296A (zh) * 2016-02-29 2018-07-17 甲骨文国际公司 用于利用复发性模式创建时间序列数据的时段分布图的方法
US20190138938A1 (en) * 2017-11-06 2019-05-09 Cisco Technology, Inc. Training a classifier used to detect network anomalies with supervised learning
CN110290120A (zh) * 2019-06-12 2019-09-27 西安邮电大学 一种云平台的时序演化网络安全预警方法
US20200184131A1 (en) * 2018-06-27 2020-06-11 Dalian University Of Technology A method for prediction of key performance parameter of an aero-engine transition state acceleration process based on space reconstruction
CN111402028A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 一种信息处理方法、装置及设备
CN111626536A (zh) * 2019-12-26 2020-09-04 上海理工大学 一种基于数据驱动的居民用电能效评估方法
CN111652414A (zh) * 2020-05-20 2020-09-11 浙江大学 一种基于高斯混合模型的滑窗pca高炉异常监测方法
CN111898829A (zh) * 2020-08-04 2020-11-06 电子科技大学 一种基于稀疏异常感知的边缘设备下的电量预测方法
CN112270428A (zh) * 2020-07-30 2021-01-26 武汉烽火众智数字技术有限责任公司 一种考虑空间扩散效应的警情态势预测方法和系统
CN112613636A (zh) * 2020-11-25 2021-04-06 国网江苏省电力有限公司江阴市供电分公司 一种基于特征工程的XGboost风速短期预测方法
CN113379124A (zh) * 2021-06-09 2021-09-10 北京房江湖科技有限公司 基于预测模型的人员稳定性预测方法及装置
CN113643781A (zh) * 2021-06-25 2021-11-12 合肥工业大学 基于时序预警信号的健康干预方案个性化推荐方法及系统

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170249376A1 (en) * 2016-02-29 2017-08-31 Oracle International Corporation System for detecting and characterizing seasons
CN108292296A (zh) * 2016-02-29 2018-07-17 甲骨文国际公司 用于利用复发性模式创建时间序列数据的时段分布图的方法
WO2018011794A1 (en) * 2016-07-10 2018-01-18 B.G. Negev Technologies And Applications Ltd., At Ben-Gurion University Methods and systems for estimation of obstructive sleep apnea severity in wake subjects by multiple speech analyses
CN106599271A (zh) * 2016-12-22 2017-04-26 江苏方天电力技术有限公司 一种燃煤机组排放监测时序数据异常值检测方法
US20190138938A1 (en) * 2017-11-06 2019-05-09 Cisco Technology, Inc. Training a classifier used to detect network anomalies with supervised learning
US20200184131A1 (en) * 2018-06-27 2020-06-11 Dalian University Of Technology A method for prediction of key performance parameter of an aero-engine transition state acceleration process based on space reconstruction
CN111402028A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 一种信息处理方法、装置及设备
CN110290120A (zh) * 2019-06-12 2019-09-27 西安邮电大学 一种云平台的时序演化网络安全预警方法
CN111626536A (zh) * 2019-12-26 2020-09-04 上海理工大学 一种基于数据驱动的居民用电能效评估方法
CN111652414A (zh) * 2020-05-20 2020-09-11 浙江大学 一种基于高斯混合模型的滑窗pca高炉异常监测方法
CN112270428A (zh) * 2020-07-30 2021-01-26 武汉烽火众智数字技术有限责任公司 一种考虑空间扩散效应的警情态势预测方法和系统
CN111898829A (zh) * 2020-08-04 2020-11-06 电子科技大学 一种基于稀疏异常感知的边缘设备下的电量预测方法
CN112613636A (zh) * 2020-11-25 2021-04-06 国网江苏省电力有限公司江阴市供电分公司 一种基于特征工程的XGboost风速短期预测方法
CN113379124A (zh) * 2021-06-09 2021-09-10 北京房江湖科技有限公司 基于预测模型的人员稳定性预测方法及装置
CN113643781A (zh) * 2021-06-25 2021-11-12 合肥工业大学 基于时序预警信号的健康干预方案个性化推荐方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
M.A.REYNA等: ""Early prediction of sepsis from clinical data"", 《PROC. IEEE OVID TECHNOL. COMPUT. CARDIO.》, pages 210 - 217 *
Z. LIU等: ""MESA:Boost ensemble imbalanced learning with meta-sampler"", 《NEURAL INF. PROCESS.SYST》, vol. 33, no. 8, pages 14463 - 14474 *
王双成等: ""具有超父结点时间序列贝特斯网络集成回归模型"", 《计算机学报》, vol. 40, no. 12, pages 2748 - 2761 *
韩敏等: ""混沌时间序列分析与预测研究综述"", 《信息与控制》, vol. 49, no. 1, pages 24 - 35 *

Also Published As

Publication number Publication date
CN114239743B (zh) 2023-12-15

Similar Documents

Publication Publication Date Title
CN106919957B (zh) 处理数据的方法及装置
CN109816438B (zh) 信息推送方法及装置
CN112506990A (zh) 一种基于时空信息的水文数据异常检测方法
CN110633859B (zh) 一种两阶段分解集成的水文序列预测方法
CN115801463B (zh) 工业互联网平台入侵检测的方法、装置和电子设备
CN111353620A (zh) 构建网点件量预测模型的方法、装置、设备及存储介质
CN111160959A (zh) 一种用户点击转化预估方法及装置
CN115617882A (zh) 基于gan的带有结构约束的时序图数据生成方法及系统
CN113642727B (zh) 神经网络模型的训练方法和多媒体信息的处理方法、装置
CN114973019A (zh) 一种基于深度学习的地理空间信息变化检测分类方法及系统
CN115392477A (zh) 基于深度学习的Skyline查询基数估计方法及装置
CN114239990A (zh) 一种基于时间序列分解和lstm的时间序列数据预测方法
CN111144473B (zh) 训练集构建方法、装置、电子设备及计算机可读存储介质
CN106844765B (zh) 基于卷积神经网络的显著信息检测方法及装置
CN117892162A (zh) 一种基于非负矩阵分解和机器学习的流域径流预报方法
CN112949932A (zh) 船舶交通流预测方法、装置、计算机设备及存储介质
CN112579777A (zh) 一种未标注文本的半监督分类方法
CN114239743A (zh) 一种基于稀疏时间序列数据的事件发生时间预测方法
CN115579069A (zh) scRNA-Seq细胞类型注释数据库的构建方法、装置及电子设备
CN111523258B (zh) 基于MS-Net网络的微地震有效信号初至拾取方法及系统
Wang et al. The forecast of gold price based on the GM (1, 1) and Markov chain
CN110647630A (zh) 检测同款商品的方法及装置
CN113035363B (zh) 一种概率密度加权的遗传代谢病筛查数据混合采样方法
Zhao et al. Machine learning-enabled calibration of river routing model parameters
CN113806452B (zh) 信息处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant