CN111242043B - 一种时间序列大数据的稀疏化方法及系统 - Google Patents

一种时间序列大数据的稀疏化方法及系统 Download PDF

Info

Publication number
CN111242043B
CN111242043B CN202010042256.4A CN202010042256A CN111242043B CN 111242043 B CN111242043 B CN 111242043B CN 202010042256 A CN202010042256 A CN 202010042256A CN 111242043 B CN111242043 B CN 111242043B
Authority
CN
China
Prior art keywords
time sequence
data
time
big data
sequence signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010042256.4A
Other languages
English (en)
Other versions
CN111242043A (zh
Inventor
陈锋
陈宇强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Zhongke Longan Science And Technology Co ltd
Original Assignee
Anhui Zhongke Longan Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Zhongke Longan Science And Technology Co ltd filed Critical Anhui Zhongke Longan Science And Technology Co ltd
Priority to CN202010042256.4A priority Critical patent/CN111242043B/zh
Publication of CN111242043A publication Critical patent/CN111242043A/zh
Application granted granted Critical
Publication of CN111242043B publication Critical patent/CN111242043B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • G06F2218/04Denoising
    • G06F2218/06Denoising by applying a scale-space analysis, e.g. using wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/513Sparse representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种时间序列大数据的稀疏化方法及系统,通过小波分解和软阈值法去噪,减少了噪声污染对时间序列大数据的影响,提高了稀疏化方法的鲁棒性;进一步,通过小波重构获取时间序列大数据表征的时序信号,并根据该时序信号进行大数据集的数据重要性判断与选择,使得该方法具有物理意义;另外,本发明的系统通过与数据采集系统交互实现稀疏化控制方案的,更好地适用流式大数据的在线稀疏化应用要求。

Description

一种时间序列大数据的稀疏化方法及系统
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种时间序列大数据的稀疏化方法及系统。
背景技术
时间序列大数据是一类主要的大数据,在智慧城市、交通、金融和生产制造领域有着广泛的应用。时间序列大数据具有实时性、大而稀疏性、随机性和序贯性等特点,其处理需要耗费大量的计算和存储资源,因此,时间序列大数据的稀疏化方法具有重要的意义。
相关的数据(非大数据)稀疏化方法主要包括:(1)剪枝法:该类方法采用最小二乘支持向量机对数据建模,对较小的支持向量值对应的支持向量进行剪裁,处理过程需要反复迭代,计算复杂度较高,且稀疏化是对支持向量而非数据样本。(2)最大熵法:该类方法通过估计样本集的概率密度函数,从整个数据集中寻找并选择具有较大信息熵的数据子集,从而实现稀疏化,但是难以处理较大的数据集。
发明内容
本发明的目的是提供一种时间序列大数据的稀疏化方法及系统,显著地降低了大数据处理的时间复杂度和存储复杂度,更减少了大数据的噪声污染影响,并解决了时间序列大数据的大而稀疏问题。
本发明的目的是通过以下技术方案实现的:
一种时间序列大数据的稀疏化方法,包括:
采集时间序列大数据;
将采集到的时间序列大数据视为原始的时序信号进行多尺度的正交小波变换;
使用软阈值方法对多尺度的正交小波变换的结果进行去噪处理;
通过小波逆变换对去噪结果进行重构处理,获得重构的时序信号;
根据重构的时序信号与原始的时序信号之间的差距,来确定各个数据点的重要性,保留重要性满足要求的数据点作为稀疏化结果。
一种时间序列大数据的稀疏化系统,用于实现前述的方法,该系统包括:
数据采集模块,用于采集时间序列大数据;
稀疏化处理模块,用于将采集到的时间序列大数据视为原始的时序信号进行多尺度的正交小波变换;使用软阈值方法对多尺度的正交小波变换的结果进行去噪处理;通过小波逆变换对去噪结果进行重构处理,获得重构的时序信号;根据重构的时序信号与原始的时序信号之间的差距,来确定各个数据点的重要性,保留重要性满足要求的数据点作为稀疏化结果。
由上述本发明提供的技术方案可以看出,通过小波分解和软阈值法去噪,减少了噪声污染对时间序列大数据的影响,提高了稀疏化方法的鲁棒性;进一步,通过小波重构获取时间序列大数据表征的时序信号,并根据该时序信号进行大数据集的数据重要性判断与选择,使得该方法具有物理意义;另外,本发明的系统通过与数据采集系统交互实现稀疏化控制方案的,更好地适用流式大数据的在线稀疏化应用要求。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种时间序列大数据的稀疏化方法的流程图;
图2为本发明实施例提供的误差阈值e形成的管道示意图;
图3为本发明实施例提供的一种时间序列大数据的稀疏化系统的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供了一种时间序列大数据的稀疏化方法,将时间序列大数据视为时序信号,通过小波分解与软阈值滤波,对时间序列大数据进行去噪处理,进一步根据小波重构后的时序信号,对时间序列大数据的数据进行重要性判断和选择,从而实现时间序列大数据的稀疏化,该方法较好地刻画了时间序列大数据集与各个数据的复杂关系,适应不同分布的时间序列大数据的稀疏化处理。如图1所示,该方法主要包括如下步骤:
步骤1、采集时间序列大数据。
本发明实施例中,可以通过有线或者无线网络从外部系统采集时间序列大数据,根据应用需求时间序列大数据可以是实时交通流量、股票数据、电网数据、或者气象数据等。
步骤2、将采集到的时间序列大数据视为时序信号f(t)进行多尺度的正交小波变换。
本发明实施例中,时间序列大数据可以利用数据集{f(ti),yi}表示,i=1,2,…,l,l为数据总数,f(ti)为原始的时序信号,ti为变量(即,时刻),yi为对f(ti)进行采集所获得的时间序列数据。其中f(ti)∈R,yi∈R,R表示整数集,当然,f(ti)、yi可以为多维信号,f(ti)∈Rn,yi∈Rn。设时间序列大数据集对应的时序信号为f(t),则符合采样定理,f(t)有有限的长度l,且被加性噪声δi污染。对应f(ti)的时间序列数据yi表示为:
yi=f(ti)+δi
其中{δi}独立于f(ti)。
为了消除噪声污染并保留尽可能少的数据,实现时间序列大数据的稀疏化,首先对噪声信号进行多尺度的正交小波变换,公式为:
Figure BDA0002368161450000031
其中,Ψj,kti为正交小波基,其顶部横线为共轭符号,j,k∈Z,Z为整数域,j表示对时序信号进行伸缩的尺度因子,k为位移因子,R表示整数集,WTf(j,k)表示尺度为j,位移为k的小波变换系数。
可以将上述正交小波变换进行如下简化:设置向量
Figure BDA0002368161450000032
Figure BDA0002368161450000033
表示有序元素{yi},{f(ti)}和{δi},其中,i=1,2,…,l,设置W为正交小波变换算子;则正交小波变换定义为:
Figure BDA0002368161450000034
步骤3、使用软阈值方法对多尺度的正交小波变换的结果进行去噪处理。
相关的非线性阈值函数表示为:
ηT(WTf(j,k))=sgn(WTf(j,k))×max(|WTf(j,k)|-T,0)
其中,阈值
Figure BDA0002368161450000041
δ=median(|WTf(j,k)|)/0.6754,median()表示中值函数,WTf(j,k)表示小波变换系数,sgn(x)为符号函数,当x>0,sgn(x)=1;当x=0,sgn(x)=0;当x<0,sgn(x)=-1。ηT(WTf(j,k))为采用非线性软阈值函数对正交小波变换的结果进行去噪处理后得到的结果,x表示小波变换系数WTf(j,k)。根据预设的阈值T,小于该阈值的小波变换系数设为0,大于该阈值T的系数保留用于估计无噪声的系数。
步骤4、通过小波逆变换对去噪结果进行重构处理,获得重构的时序信号。
本发明实施例中,通过小波逆变换重构采集数据,获得重构的时序序号,记为
Figure BDA0002368161450000042
其为f(ti)的估计,计算公式为:
Figure BDA0002368161450000043
步骤5、根据重构的时序信号与原始的时序信号之间的差距,来确定各个数据点的重要性,保留重要性满足要求的数据点作为稀疏化结果。
本发明实施例中,记第i个数据点重构的时序信号、原始的时序信号分别表示为
Figure BDA0002368161450000044
f(ti);根据公式
Figure BDA0002368161450000045
yi=f(ti)+δi得到对应的时间序列数据yi'、yi。如果|yi-yi'|较大,则第i个数据点(xi,yi)远离曲线
Figure BDA0002368161450000046
其可以视为噪声或者重要性较小的数据点。通过忽略重要性较小的数据点能够实现稀疏化处理。基于此,定义了一个估计每个数据点相对重要性的误差函数|yi-yi'|>e|ymax-ymin|;通过判断是否满足误差函数来判定数据点的重要程度;若是,则不满足重要性要求,将移除相应数据点;若否,则认为相关数据点的重要性满足要求,并保留。在误差函数中,e为设定的误差阈值,ymax和ymin分别为{yi}中的最大值和最小值。
如图2所示,通过误差阈值e形成了一个管道,可以决定移除数据点的数量。图2中,移除比例为30%,圆形符号表示将被移除的数据点,星形符号表示保留的数据点,实线为稀疏化后得到的估计曲线,虚线表示误差阈值e形成的管道。
通过上述方案得到的稀疏化的数据,显著降低了数据处理计算和存储复杂度,可以提供回归方法如非线性回归、非参数回归、神经网络、支持向量机等方法用于模型构建;也可以通过相应的平台进行结果数据展示;形成相应的时序曲线。以前文提到的实时交通流量、股票数据、电网数据、或者气象数据为例,最终绘制的时序曲线可以更准确反应各时段交通流量、股票走势、用电量变化情况、温度变化状况等。
为了验证本发明实施例上述方案的有效性,分别采用服从三种典型分布包括sinc,gauss2和ENDO的时间序列大数据被采用,数据流大小均为1G,并分别采用高斯白噪声和Student-T分布的噪声对上述大数据集添加噪声,以验证本方法的稀疏化和鲁棒性能。小波基采用Daubechies基函数,分解层次(即尺度因子j)为5,误差阈值e分别采用0、0.028、0.002、0.0012和0.004,稀疏化采用归一化误差:|yi-yi'|>e|ymax-ymin|,采用本方法对三个时间序列大数据集进行稀疏化,参与对比的是Suykens’algorithm方案,该方案提出了一种最小二乘支持向量机回归的稀疏化策略,其方法是通过设定阈值α*,忽略在训练后|αi|<α*的那些样本点,经过反复迭代,实现稀疏化处理。
评价指标分别采用平均绝对误差MAE和均方根误差RMSE。
Figure BDA0002368161450000051
Figure BDA0002368161450000052
其中,y为验证样本;
Figure BDA0002368161450000053
为拟合曲线,N为验证样本数目。
实验结果如图1所示。
Figure BDA0002368161450000054
Figure BDA0002368161450000061
表1噪声污染的Sinc、Gauss2和Mackey-Glass函数稀疏化结果
实验结果显示,在时间序列大数据叠加了噪声时,本方法也能够具有较好稀疏化性能、鲁棒性和噪声抑制能力。
本发明另一实施例还提供一种时间序列大数据的稀疏化系统,该系统主要用于实现前述实施例所述的方法,如图3所示,该系统包括:
数据采集模块11,用于采集时间序列大数据.
稀疏化处理模块12,用于将采集到的时间序列大数据视为原始的时序信号进行多尺度的正交小波变换;使用软阈值方法对多尺度的正交小波变换的结果进行去噪处理;通过小波逆变换对去噪结果进行重构处理,获得重构的时序信号;根据重构的时序信号与原始的时序信号之间的差距,来确定各个数据点的重要性,保留重要性满足要求的数据点作为稀疏化结果。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (7)

1.一种时间序列大数据的稀疏化方法,其特征在于,包括:
采集时间序列大数据;
将采集到的时间序列大数据视为原始的时序信号进行多尺度的正交小波变换;
使用软阈值方法对多尺度的正交小波变换的结果进行去噪处理;
通过小波逆变换对去噪结果进行重构处理,获得重构的时序信号;
根据重构的时序信号与原始的时序信号之间的差距,来确定各个数据点的重要性,保留重要性满足要求的数据点作为稀疏化结果;
其中,所述根据重构的时序信号与原始的时序信号之间的差距,来确定各个数据点的重要性,保留重要性满足要求的数据点作为稀疏化结果包括:
第i个数据点重构的时序信号、原始的时序信号分别表示为
Figure FDA0004078273360000011
f(ti);根据公式
Figure FDA0004078273360000012
yi=f(ti)+δi得到对应的时间序列数据yi'、yi
判断是否满足误差函数:|yi-yi'|>e|ymax-ymin|
若是,则不满足重要性要求,将移除相应数据点;若否,则认为相关数据点的重要性满足要求,并保留;
其中,δi表示加性噪声,e为设定的误差阈值,ymax和ymin分别为{yi}i中的最大值和最小值。
2.根据权利要求1所述的一种时间序列大数据的稀疏化方法,其特征在于,所采集的时间序列大数据至少包括:实时交通流量、电网数据、以及气象数据。
3.根据权利要求1所述的一种时间序列大数据的稀疏化方法,其特征在于,
时间序列大数据利用数据集{f(ti),yi}表示,i=1,2,…,l,l为数据总数,f(ti)为原始的时序信号,ti为时刻,yi为对f(ti)进行采集所获得的时间序列数据,其中ti∈R,yi∈R,R表示整数集;
对应f(xi)的时间序列数据yi表示为:
yi=f(xi)+δi
其中,δi表示加性噪声。
4.根据权利要求1或3所述的一种时间序列大数据的稀疏化方法,其特征在于,多尺度的正交小波变换的公式为:
Figure FDA0004078273360000013
其中,Ψj,kti为正交小波基,其顶部横线为共轭符号,j,k∈Z,Z为整数域,j表示对时序信号进行伸缩的尺度因子,k为位移因子,R表示整数集,WTf(j,k)表示尺度为j,位移为k的小波变换系数,f(ti)为时序信号,ti为时刻。
5.根据权利要求1所述的一种时间序列大数据的稀疏化方法,其特征在于,使用软阈值方法对正交小波变换的结果进行去噪处理表示为:
ηT(WTf(j,k))=sgn(WTf(j,k))×max(WTf(j,k)|-T,0)
其中,阈值
Figure FDA0004078273360000021
δ=median(WTf(j,k))/0.6754,median()表示中值函数,WTf(j,k)表示小波变换系数,sgn(x)为符号函数,当x>0,sgn(x)=1;当x=0,sgn(x)=0;当x<0,sgn(x)=-1,x表示小波变换系数WTf(j,k),ηT(WTf(j,k))为采用非线性软阈值函数对正交小波变换的结果进行去噪处理后得到的结果。
6.根据权利要求1所述的一种时间序列大数据的稀疏化方法,其特征在于,通过小波逆变换对去噪结果进行重构处理,获得重构的时序信号表示为:
Figure FDA0004078273360000022
其中,ηT(WTf(j,k))表示采用非线性软阈值函数对正交小波变换的结果进行去噪处理后得到的结果;Ψj,kti为正交小波基,j表示对时序信号进行伸缩的尺度因子,k为位移因子,
Figure FDA0004078273360000023
表示重构的时序序号,ti为时刻。
7.一种时间序列大数据的稀疏化系统,其特征在于,用于实现权利要求1-6任一项所述的方法,该系统包括:
数据采集模块,用于采集时间序列大数据;
稀疏化处理模块,用于将采集到的时间序列大数据视为原始的时序信号进行多尺度的正交小波变换;使用软阈值方法对多尺度的正交小波变换的结果进行去噪处理;通过小波逆变换对去噪结果进行重构处理,获得重构的时序信号;根据重构的时序信号与原始的时序信号之间的差距,来确定各个数据点的重要性,保留重要性满足要求的数据点作为稀疏化结果。
CN202010042256.4A 2020-01-15 2020-01-15 一种时间序列大数据的稀疏化方法及系统 Active CN111242043B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010042256.4A CN111242043B (zh) 2020-01-15 2020-01-15 一种时间序列大数据的稀疏化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010042256.4A CN111242043B (zh) 2020-01-15 2020-01-15 一种时间序列大数据的稀疏化方法及系统

Publications (2)

Publication Number Publication Date
CN111242043A CN111242043A (zh) 2020-06-05
CN111242043B true CN111242043B (zh) 2023-05-09

Family

ID=70872306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010042256.4A Active CN111242043B (zh) 2020-01-15 2020-01-15 一种时间序列大数据的稀疏化方法及系统

Country Status (1)

Country Link
CN (1) CN111242043B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699165B (zh) * 2020-12-28 2022-11-04 山东鲁能软件技术有限公司 一种用于时序数据降采样的方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017148451A1 (zh) * 2016-03-02 2017-09-08 深圳竹信科技有限公司 一种基于平稳小波变换滤除肌电干扰的方法和系统
CN110688964A (zh) * 2019-09-30 2020-01-14 哈尔滨工程大学 一种基于稀疏分解的小波阈值与emd联合降噪方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7025724B2 (en) * 2000-05-11 2006-04-11 Technion Research And Development Foundation Ltd. Wavelet depulsing of ultrasound echo sequences

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017148451A1 (zh) * 2016-03-02 2017-09-08 深圳竹信科技有限公司 一种基于平稳小波变换滤除肌电干扰的方法和系统
CN110688964A (zh) * 2019-09-30 2020-01-14 哈尔滨工程大学 一种基于稀疏分解的小波阈值与emd联合降噪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孔繁锵 ; 井庆丰 ; 计振兴 ; .图像压缩感知的自适应方向提升稀疏表示及重构算法.宇航学报.(第01期),全文. *
肖强 ; .基于多尺度稀疏LSSVM的时间序列预测.计算机技术与发展.(第03期),全文. *

Also Published As

Publication number Publication date
CN111242043A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
Singh et al. Repeated wavelet transform based ARIMA model for very short-term wind speed forecasting
CN101303764B (zh) 基于非下采样轮廓波的多传感器图像自适应融合方法
CN111242377B (zh) 一种集成深度学习和数据去噪的短期风速预测方法
CN102930149B (zh) 基于pca和emd的传感器网络感知信息去噪处理方法
Zeng et al. Predicting vacant parking space availability: A DWT-Bi-LSTM model
CN104809357B (zh) 一种三维粗糙表面多尺度接触行为的分析方法及装置
CN110175541B (zh) 一种海平面变化非线性趋势提取的方法
CN110598584A (zh) 一种基于小波变换和dct的卷积神经网络人脸识别算法
CN104715461A (zh) 图像去噪方法
CN110349112B (zh) 一种基于自适应奇异值阈值的两阶段图像去噪方法
CN113240111B (zh) 基于离散余弦变换通道重要性得分的剪枝方法
CN102184451B (zh) 一种基于多小波融合特征的神经元动作特征提取方法
CN113222998B (zh) 基于自监督低秩网络的半监督图像语义分割方法及装置
CN101916433A (zh) 基于偏微分方程的强噪声污染图像的去噪方法
CN111242043B (zh) 一种时间序列大数据的稀疏化方法及系统
Song et al. Sea level simulation with signal decomposition and machine learning
CN117252448B (zh) 基于时空特征提取及二次分解聚合的风电功率预测方法
CN112529767A (zh) 图像数据处理方法、装置、计算机设备和存储介质
CN101527036B (zh) 基于邻域加窗的提升小波图像去噪方法
CN101510943A (zh) 利用超完备拓扑稀疏编码有效去除图像噪声的方法
CN102509268B (zh) 基于免疫克隆选择的非下采样轮廓波域图像去噪方法
CN112927169B (zh) 一种基于小波变换和改进的加权核范数最小化的遥感影像去噪方法
CN103747268B (zh) 一种分层自适应阈值视频去噪方法
Kong et al. Application and optimization of wavelet threshold denoising algorithm in signal processing
CN111753738A (zh) 一种基于小波分析的植被年际变化监测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant