CN108399434B - 基于特征提取的高维时间序列数据的分析预测方法 - Google Patents

基于特征提取的高维时间序列数据的分析预测方法 Download PDF

Info

Publication number
CN108399434B
CN108399434B CN201810228459.5A CN201810228459A CN108399434B CN 108399434 B CN108399434 B CN 108399434B CN 201810228459 A CN201810228459 A CN 201810228459A CN 108399434 B CN108399434 B CN 108399434B
Authority
CN
China
Prior art keywords
attribute
condition
decision
particle
dimensional time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810228459.5A
Other languages
English (en)
Other versions
CN108399434A (zh
Inventor
代钰
杨雷
韩琳琳
张鹏
张斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201810228459.5A priority Critical patent/CN108399434B/zh
Publication of CN108399434A publication Critical patent/CN108399434A/zh
Application granted granted Critical
Publication of CN108399434B publication Critical patent/CN108399434B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Multimedia (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于特征提取的高维时间序列数据的分析预测方法,涉及数据分析技术领域。该方法首先度量高维时间序列数据的条件属性间和条件属性与决策属性间的相关性,并将与决策属性有相关性的条件属性加入属性核集中;再对高维时间序列数据进行特征提取;然后建立多元线性回归模型,再通过基于健康度的粒子群优化算法对模型中的回归系数进行优化;最后根据所构建的多元线性回归模型,得到某一时刻决策属性的值。本发明提供的基于特征提取的高维时间序列数据的分析预测方法,解决了高维时间序列数据在分析预测过程中所存在的预测效率低、误差大以及容易出现局部最优解的问题,有效提高了多元线性回归分析算法对高维时间序列数据的预测效果。

Description

基于特征提取的高维时间序列数据的分析预测方法
技术领域
本发明涉及数据分析技术领域,尤其涉及一种基于特征提取的高维时间序列数据的分析预测方法。
背景技术
随着近代科技的发展和互联网技术的普及,用户所产生的数据总量成指数型增长,在大量的数据中,高维时间序列数据是一种非常常见的时态数据,它被广泛的应用于工业、农业、医疗、金融、交通等行业。高维时间序列数据是指在不同的时间点上所收集到的数据,这类的数据可以反映出某一类的现象或事物随时间变化而表现出的状态和趋势。对于高维时间序列数据的高维性首先表现在收集数据的时间点上,通常一个时间点表示为一个维度,因此高维时间序列数据的一个主要特点为数据量大。其次,对于实际生产活动中的高维时间序列数据多为传感器收集,对于不同种类的传感器所收集的数据为不同属性的数据,因此,对于高维时间序列数据的另一个特点为属性数量多。常见的高维时间序列数据主要应用于异常检测、股票交易、销售系统、气象监测以及量子物理研究等等。
对于高维时间序列的预测是指通过当前记录收集的数据来获取到未来一段时间中未发生的数据。它主要可以通过对于条件属性的特征提取后,对决策属性进行预测,也可以通过决策属性的历史数据进行预测。高维时间序列数据的预测已经广泛的应用于经济、医学、气象学等各个领域中,因此,如何提高对于高维时间序列数据预测的准确度,以及降低预测的成本,是目前对高维时间序列数据研究的一大热点。
发明内容
针对现有技术的缺陷,本发明提供一种基于特征提取的高维时间序列数据的分析预测方法,实现对高维时间序列数据进行分析预测。
基于特征提取的高维时间序列数据的分析预测方法,包括以下步骤:
步骤1、基于维度关联性分析对高维时间序列数据进行特征提取,具体方法为:
步骤1.1、通过使用联合熵的概念来度量高维时间序列数据中条件属性之间的相关性进行度量,并且根据专家学者的经验知识对判断结果进行交互式分析,对具有相关性较大的条件属性进行处理,最后,通过条件属性与决策属性间相关性度量评价条件属性与决策属性之间的相关性并将与决策属性具有相关性的条件属性加入属性核集Core中;
所述条件属性间的相关性度量使用如下所示公式进行判断:
Figure BDA0001602019950000011
其中,c1和c2分别为高维时间序列数据的两个条件属性,p(c1,c2)为两个条件属性c1和c2间的概率分布,H(c1,c2)为两个条件属性c1和c2间的相关性度量;
所述条件属性与决策属性间的相关性度量使用如下所示公式进行判断:
Figure BDA0001602019950000021
其中,c为条件属性,d为决策属性,p(c,d)为条件属性c和决策属性d的联合概率分布,p(c)和p(d)分别为条件属性c和决策属性d边缘分布,I(c;d)为条件属性c和决策属性d间的相关性度量;
对于条件属性与决策属性间相关性度量,若I(C-{ci};D)<I(C;D),其中C={c1,c2,…cn}为含有n个条件属性的条件属性集,ci∈C为条件属性集C中的第i个条件属性,i=1、2…、n,D为决策属性集,说明此条件属性对于决策属性具有相关性,则将条件属性ci加入到
Figure BDA0001602019950000022
集中,结果为Core=Core+{ci},否则对下一个条件属性进行判断直至最后一个条件属性;
步骤1.2、基于Granger因果分析对高维时间序列数据进行特征提取,具体方法为:
步骤1.2.1:对高维时间序列数据进行预处理;
首先利用单位根检验法对高维时间序列数据的平稳性进行检验,对于不平稳的高维时间序列数据,通过差分转换方法进行转换使其平稳;然后,使用周期图法和Fisher精确检验法进行周期性检验,最后,通过贝叶斯信息准则(Bayesian Information Criterion,BIC)对高维时间序列数据进行最优滞后期计算;
步骤1.2.2:构建决策属性的自回归模型;
高维时间序列数据决策属性y的自回归模型如下式所示:
y(t)=a0+a1yt-1+a2yt-2+…+alyt-l
其中,y(t)为某一时刻t时决策属性y的属性值,l为决策属性y中滞后期的最大值,a0为常数项,a1,a2,…,al为回归系数;
步骤1.2.3:构建加入条件属性后的决策属性的增广型自回归模型;
对于加入条件属性x后的决策属性y的增广型自回归模型如下式所示:
y(t)=a0+a1yt-1+…+alyt-l+b1xt-1+…+bwxt-w
其中,w为条件属性x中滞后期的最大值,b1,b2,…,bw为回归系数;
步骤1.2.4:对条件属性与决策属性进行Granger因果关系检验,具体方法为:
首先判断此条件属性是否为决策属性的Granger因果关系,如果此条件属性不是此决策属性的Granger因果关系,则执行步骤1.2.6,如果此条件属性是此决策属性的Granger因果关系,则将条件属性与决策属性进行交换,再根据上述步骤1.2.2与步骤1.2.3进行Granger因果关系进行判断,只有条件属性是决策属性的Granger因果关系,而决策属性不是条件属性的Granger因果关系时,执行步骤1.2.5;若此判断的条件属性为最后一个条件属性,则完成高维时间序列数据的特征提取,执行步骤2;
步骤1.2.5:对于与决策属性具有因果性的条件属性加入属性核集;
步骤1.2.6:对下一条件属性进行因果性判断;
步骤2、在基于维度关联性分析的高维时间序列数据特征提取方法基础上,建立多元线性回归模型对高维时间序列数据进行预测,具体方法为:
步骤2.1:根据决策属性时间自相关以及条件属性的相关性,建立如下公式所示的多元线性回归模型:
Figure BDA0001602019950000031
其中,yt为决策属性y在t时刻的决策属性值,l为决策属性的y的滞后期最大值,m为步骤1所得到的属性核集的大小,xu,t为属性核集中的条件属性u在时刻t的取值,{a0}+{as|1≤s≤l}+{bus|1≤s≤l∧1≤u≤m}=COEF为系数集合;
记系数集合的估计值为COEF'={a0'}+{as'|1≤s≤l}+{bus'|1≤s≤l∧1≤u≤m},则根据该系数集合,决策属性y在时刻t的估计值yt'如下公式所示:
Figure BDA0001602019950000032
在对系数集进行训练的过程中,在已知y在时刻t的观测值的情况下,通过以下公式判断所估计的系数集合的预测精度:
Figure BDA0001602019950000033
如果误差|yt-yt′|越小,表示预测精度越好;
将已知决策属性y以及条件属性x在多个时刻的观测值,要找到一个系数集合使得y在所有时刻的观测值与估计值的总的误差最小的问题转化为求解一个多系数取值的组合优化问题,即要找到系数集合中的各个系数的取值,该问题通过建立如下所示的目标函数,并利用粒子群算法进行问题求解:
Figure BDA0001602019950000041
步骤2.2、通过基于健康度的粒子群优化算法对多元线性回归模型中的回归系数进行优化,具体方法为:
步骤2.2.1、初始化算法参数,随机产生初始粒子,并对其赋初值;
初始化种群规模为K的粒子群,K为设定值;记粒子spv为R维空间中的一个粒子,R为系数集合的估计值COEF'的大小;粒子初始位置的设置采用如下方法:粒子spv在第u维方向的位置
Figure BDA0001602019950000046
即在第u维方向的值随机设置为0到1间的一个数,从而得到粒子spv在R维空间中的位置为
Figure BDA0001602019950000047
随机设置粒子在第u维方向的速度
Figure BDA0001602019950000048
从而得到粒子spv在R维空间的速度
Figure BDA0001602019950000049
其中,it表示当前迭代;粒子的适应度函数定义为如下公式:
Figure BDA0001602019950000042
其中,fitness(spv)为粒子spv的适应度;
步骤2.2.2、对群体粒子的进化进行操作,具体方法为:
a、根据以下两个公式分别更新粒子的速度与位置:
Figure BDA0001602019950000043
Figure BDA0001602019950000044
其中,
Figure BDA00016020199500000410
Figure BDA00016020199500000411
分别为第it次迭代时粒子spv的速度和位置,γ、α1和α2为设置的经验值,pBestv为粒子spv的最优位置,gBest为种群的全局最优位置;
b、根据健康度识别异常粒子,并更新异常粒子的位置;
(1)对于每个粒子,根据以下公式,计算粒子的健康度:
Figure BDA0001602019950000045
其中,
Figure BDA00016020199500000412
为第it次迭代中粒子的健康度,ws和wo为事先设定的权值,
Figure BDA00016020199500000413
为在第it次迭代中粒子的停滞次数,
Figure BDA00016020199500000414
为第it次迭代中的粒子的震荡次数,
Figure BDA00016020199500000415
Figure BDA00016020199500000416
分别通过以下两个公式进行计算:
Figure BDA0001602019950000051
Figure BDA0001602019950000052
其中,θ和
Figure BDA0001602019950000053
为事先设定的阈值;
(2)对于健康度小于事先所设定阈值的粒子,删除该粒子,并随机产生一个新的粒子替换它;
c、判断是否达到所设置的迭代次数,如果是,则返回gBest作为回归系数的最优解,否则,返回到步骤a继续迭代;
步骤2.2.3、根据步骤2.2.2所得到的gBest,将其行向量作为回归模型的系数,得到回归模型并对该模型进行持久化存储;
步骤3、根据所构建的多元线性回归模型,将时间序列数据按照模型所需的条件属性值进行输入,得到某一时刻决策属性的值,从而完成对某一时刻决策属性值的预测。
由上述技术方案可知,本发明的有益效果在于:本发明提供的基于特征提取的高维时间序列数据的分析预测方法,所提供的基于维度关联性分析对高维时间序列数据进行的特征提取,提取出了关联性高的属性核集,提高了预测的准确性。通过改进的粒子群算法解决了对高维时间序列数据进行预测所建立的多元线性回归模型中存在的回归系数求解效率低以及容易出现局部最优解的问题,有效提高了多元线性回归分析算法对高维时间序列数据的预测效果。
附图说明
图1为本发明实施例提供的基于特征提取的高维时间序列数据的分析预测方法的流程图;
图2为本发明实施例提供的对于高维时间序列数据的条件属性间相关性和条件属性与决策属性间相关性进行处理的流程图;
图3为本发明实施例提供的基于Granger因果分析对高维时间序列数据进行特征提取的流程图;
图4为本发明实施例提供的对高维时间序列数据进行预处理的流程图;
图5为本发明实施例提供的初始帕金森遥感数据集的部分数据;
图6为本发明实施例提供的帕金森遥感数据集进行联合熵计算的结果示意图;
图7为本发明实施例提供的基于改进多元线性回归分析的高维时间序列数据进行预测的流程图;
图8为本发明实施例提供的粒子群算法(PSO)与基于健康度的粒子群优化算法(HPSO)的优化结果对比示意图;
图9为本发明实施例提供的不同预测方法的各评价指标的柱状图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例以一份帕金森遥感数据集为例,使用本发明的基于特征提取的高维时间序列数据的分析预测方法对该高维时间序列数据进行分析预测。
基于特征提取的高维时间序列数据的分析预测方法,如图1所示,包括以下步骤:
步骤1、基于维度关联性分析对高维时间序列数据进行特征提取,具体方法为:
步骤1.1、通过使用联合熵的概念来度量高维时间序列数据中条件属性之间的相关性进行度量,并且根据专家学者的经验知识对判断结果进行交互式分析,对具有相关性较大的条件属性进行处理,最后,通过条件属性与决策属性间相关性度量评价条件属性与决策属性之间的相关性并将与决策属性具有相关性的条件属性加入属性核集Core中,如图2所示。
条件属性间的相关性度量使用如下所示公式进行判断:
Figure BDA0001602019950000061
其中,c1和c2分别为高维时间序列数据的两个条件属性,p(c1,c2)为两个条件属性c1和c2间的概率分布,H(c1,c2)为两个条件属性c1和c2间的相关性度量。
条件属性与决策属性间的相关性度量使用如下所示公式进行判断:
Figure BDA0001602019950000062
其中,c为条件属性,d为决策属性,p(c,d)为条件属性c和决策属性d的联合概率分布,p(c)和p(d)分别为条件属性c和决策属性d边缘分布,I(c;d)为条件属性c和决策属性d间的相关性度量。
对于条件属性与决策属性间相关性度量,若I(C-{ci};D)<I(C;D),其中C={c1,c2,…cn}为含有n个条件属性的条件属性集,ci∈C为条件属性集C中的第i个条件属性,i=1、2…、n,D为决策属性集,说明此条件属性对于决策属性具有相关性,则将条件属性ci加入到
Figure BDA0001602019950000063
集中,结果为Core=Core+{ci},否则对下一个条件属性进行判断直至最后一个条件属性。
步骤1.2、基于Granger因果分析对高维时间序列数据进行特征提取,如图3所示,具体方法为:
步骤1.2.1:对高维时间序列数据进行预处理,如图4所示,具体方法为:
首先利用单位根检验法对高维时间序列数据的平稳性进行检验,对于不平稳的高维时间序列数据,通过差分转换方法进行转换使其平稳;然后,使用周期图法和Fisher精确检验法进行周期性检验,最后,通过贝叶斯信息准则(Bayesian Information Criterion,BIC)对高维时间序列数据进行最优滞后期计算。
步骤1.2.2:构建决策属性的自回归模型;
高维时间序列数据决策属性y的自回归模型如下式所示:
y(t)=a0+a1yt-1+a2yt-2+…+alyt-l
其中,y(t)为某一时刻t时决策属性y的属性值,l为决策属性y中滞后期的最大值,a0为常数项,a1,a2,…,al为回归系数。
步骤1.2.3:构建加入条件属性后的决策属性的增广型自回归模型;
对于加入条件属性x后的决策属性y的增广型自回归模型如下式所示:
y(t)=a0+a1yt-1+…+alyt-l+b1xt-1+…+bwxt-w
其中,w为条件属性x中滞后期的最大值,b1,b2,…,bw为回归系数。
步骤1.2.4:对条件属性与决策属性进行Granger因果关系检验,具体方法为:
首先判断此条件属性是否为决策属性的Granger因果关系,如果此条件属性不是此决策属性的Granger因果关系,则执行步骤1.2.6,如果此条件属性是此决策属性的Granger因果关系,则将条件属性与决策属性进行交换,再根据上述步骤1.2.2与步骤1.2.3进行Granger因果关系进行判断,只有条件属性是决策属性的Granger因果关系,而决策属性不是条件属性的Granger因果关系时,执行步骤1.2.5;若此判断的条件属性为最后一个条件属性,则完成高维时间序列数据的特征提取,执行步骤2。
步骤1.2.5:对于与决策属性具有因果性的条件属性加入属性核集。
步骤1.2.6:对下一条件属性进行因果性判断。
本实施例使用的高维时间序列数据集来源于UCI(University of California,Irvin)机器学习数据仓库,该数据集是由Athanasios Tsanas和Max Little创建,是一份帕金森遥感数据集,主要是由42名早期帕金森患者的生物医学声音测量组成。
此数据集的属性数目为26,高维时间序列长度为5875,其具体属性如表1所示:
表1高维时间序列数据的属性表
属性名称 属性含义
subject 病人编号
age 年龄
sex 性别,0-男性,1-女性
Test_time 测试时间
Motor_UPDRS 帕金森氏病运动评分
Total_UPDRS 帕金森氏病合计评分
Jitter(%),Jitter(Abs), 频率变化的几种测量方法
Jitter:RAP,Jitter:PPQ5,
Jitter:DDP
Shimmer,Shimmer(dB), 振幅变化的几种度量方法
Shimmer:APQ3,Shimmer:APQ5,
Shimmer:APQ11,Shimmer:DDA
NHR,HNR 声音中噪声与音调分量的比值
RPDE 一种非线性动态复杂性测度
DFA 信号分形标度指数
PPE 频率变化的非线性度量
本实施例中,对于初始帕金森遥感数据集部分数据如图5所示,针对上述数据集中的条件属性进行特征提取,然后对其决策属性Total_UPDRS(帕金森氏病合计评分)与决策属性Motor_UPDRS(帕金森氏病运动评分)进行预测。
本实施例中,对于原始数据进行数据清洗、平稳性检验、周期性进行检验后,原高维时间序列数据的属性由26个减少为18个。对此结果的高维时间序列数据进行联合熵计算及专家经验解释与互信息求属性核集计算,如图6所示为对剩下的属性两两进行联合熵计算的结果,其中颜色越深的越说明两属性的相关性越大。
本实施例中,本发明的基于维度关联性分析的高维时间序列数据特征提取方法(Dimension Correlation Analysis,DCA)的预测模型指标如表2所示:
表2基于DCA特征提取算法的预测模型指标
Figure BDA0001602019950000081
Figure BDA0001602019950000091
表中的数据为对决策属性Total_UPDRS(帕金森氏病合计评分)进行预测时的预测值与原数据值之间的差值,表中对R方、RMSE(平均方根误差)、MAE(平均绝对误差)的平均值、最小值与最大值表示为对决策属性Total_UPDRS(帕金森氏病合计评分)进行预测时的平均值、最小值与最大值。
本实施例还给出了如表3所示的基于RS特征提取算法、基于GC特征提取算法、基于DCA特征提取算法、基于PCA特征提取算法不分别对给定的高维时间序列进行特征提取的结果,在表中,主要展现了不同方法中提取变量的数目与提取变量的比例。
表3不同特征提取算法的特征提取结果
Figure BDA0001602019950000092
步骤2、在基于维度关联性分析的高维时间序列数据特征提取方法基础上,建立多元线性回归模型对高维时间序列数据进行预测,如图7所示,具体方法为:
步骤2.1:根据决策属性时间自相关以及条件属性的相关性,建立如下公式所示的多元线性回归模型:
Figure BDA0001602019950000093
其中,yt为决策属性y在t时刻的决策属性值,l为决策属性的y的滞后期最大值,m为步骤1所得到的属性核集的大小,xu,t为属性核集中的条件属性u在时刻t的取值,{a0}+{as|1≤s≤l}+{bus|1≤s≤l∧1≤u≤m}=COEF为系数集合。
记系数集合的估计值为COEF'={a0'}+{as'|1≤s≤l}+{bus'|1≤s≤l∧1≤u≤m},则根据该系数集合,决策属性y在时刻t的估计值yt'如下公式所示:
Figure BDA0001602019950000094
在对系数集进行训练的过程中,在已知y在时刻t的观测值的情况下,通过以下公式判断所估计的系数集合的预测精度:
Figure BDA0001602019950000101
如果误差|yt-yt′|越小,表示预测精度越好。
将已知决策属性y以及条件属性x在多个时刻的观测值,要找到一个系数集合使得y在所有时刻的观测值与估计值的总的误差最小的问题转化为求解一个多系数取值的组合优化问题,即要找到系数集合中的各个系数的取值,该问题通过建立如下所示的目标函数,并利用粒子群算法进行问题求解:
Figure BDA0001602019950000102
步骤2.2、通过基于健康度的粒子群优化算法对多元线性回归模型中的回归系数进行优化,具体方法为:
步骤2.2.1、初始化算法参数,随机产生初始粒子,并对其赋初值;
初始化种群规模为K的粒子群,K为设定值;记粒子spv为R维空间中的一个粒子,R为系数集合的估计值COEF'的大小;粒子初始位置的设置采用如下方法:粒子spv在第u维方向的位置
Figure BDA0001602019950000106
即在第u维方向的值随机设置为0到1间的一个数,从而得到粒子spv在R维空间中的位置为
Figure BDA0001602019950000107
随机设置粒子在第u维方向的速度
Figure BDA0001602019950000108
从而得到粒子在R维空间的速度
Figure BDA0001602019950000109
其中,it表示当前迭代;粒子的适应度函数定义为如下公式:
Figure BDA0001602019950000103
其中,fitness(spv)为粒子spv的适应度。
步骤2.2.2、对群体粒子的进化进行操作,具体方法为:
a、根据以下两个公式分别更新粒子的速度与位置:
Figure BDA0001602019950000104
Figure BDA0001602019950000105
其中,
Figure BDA00016020199500001010
Figure BDA00016020199500001011
分别为第it次迭代时粒子spv的速度和位置,γ、α1、α2为设置的经验值,pBestv为粒子spv的最优位置,gBest是种群的全局最优位置。
b、根据健康度识别异常粒子,并更新异常粒子的位置;
(1)对于每个粒子,根据以下公式,计算粒子的健康度:
Figure BDA0001602019950000111
其中,
Figure BDA0001602019950000115
为第it次迭代中粒子的健康度,ws和wo为事先设定的权值,
Figure BDA0001602019950000116
为在第it次迭代中粒子的停滞次数,
Figure BDA0001602019950000117
为第it次迭代中的粒子的震荡次数,
Figure BDA0001602019950000118
Figure BDA0001602019950000119
分别通过以下两个公式进行计算:
Figure BDA0001602019950000112
Figure BDA0001602019950000113
其中,θ和
Figure BDA00016020199500001110
为事先设定的阈值。
(2)对于健康度小于事先所设定阈值的粒子,删除该粒子,并随机产生一个新的粒子替换它。
c、判断是否达到所设置的迭代次数,如果是,则返回gBest作为回归系数的最优解,否则,返回到步骤a继续迭代;
步骤2.2.3、根据步骤2.2.2所得到的gBest,将其行向量作为回归模型的系数,得到回归模型并对该模型进行持久化存储;
步骤3、根据所构建的多元线性回归模型,将时间序列数据按照模型所需的条件属性值进行输入,得到某一时刻决策属性的值,从而完成对某一时刻决策属性值的预测。
本实施例提供了如图8所示的对于变量维度为11,种群规模为20,最大迭代次数为200的情况下,粒子群算法(PSO)与基于健康度的粒子群优化算法(HPSO)的优化结果对比图,其中横坐标为迭代次数,纵坐标为误差值。
从图中可以看出,在上述条件中,HPSO相对于PSO可以做到收敛早,并且预测误差值小的效果。
本实施例中,基于改进多元线性回归分析的高维时间序列数据预测方法的指标数据如表4所示:
表4基于改进多元线性回归分析的高维时间序列数据预测方法的指标
Figure BDA0001602019950000114
表中的数据为对决策属性Motor_UPDRS(帕金森氏病运动评分)进行预测时的预测值与原数据值之间的差值,表中对R方、RMSE(平均方根误差)、MAE(平均绝对误差)的平均值、最小值与最大值表示为对决策属性Total_UPDRS(帕金森氏病合计评分)进行预测时的平均值、最小值与最大值。
本实施例还给出了如图9所示的多元线性回归分析预测方法MLR和基于粒子群的多元线性回归分析预测方法PMLR同本发明的基于改进多元线性回归分析的高维时间序列数据预测方法IMLR的评价指标的柱状图,从图中可以看出,对于R方,IMLR预测方法对于决策属性Motor_UPDRS(帕金森氏病运动评分)进行预测的结果能解释因变量变化的百分数高于MLR与PMLR预测方法对于决策属性Motor_UPDRS(帕金森氏病运动评分)进行预测的结果能解释因变量变化的百分数。同时,IMLR预测方法对于决策属性Motor_UPDRS(帕金森氏病运动评分)进行预测的结果与原数据的平均绝对误差(MAE)与平均方根误差(RMSE)也是低于MLR与PMLR预测方法对于决策属性Motor_UPDRS(帕金森氏病运动评分)进行预测的结果与原数据的平均绝对误差(MAE)与平均方根误差(RMSE)。综上所述,本发明的基于改进多元线性回归分析的高维时间序列数据预测方法的预测效果要优于多元线性回归分析预测方法与基于粒子群的多元线性回归分析预测方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (9)

1.一种基于特征提取的高维时间序列数据的分析预测方法,其特征在于:包括以下步骤:
步骤1、基于维度关联性分析对高维时间序列数据进行特征提取,所述高维时间序列数据为通过对帕金森患者的生物医学声音测量得到的帕金森遥感数据,具体方法为:
步骤1.1:通过使用联合熵的概念来度量帕金森遥感数据中条件属性之间的相关性进行度量,并且根据专家学者的经验知识对判断结果进行交互式分析,对具有相关性较大的条件属性进行处理,最后,通过条件属性与决策属性间相关性度量评价条件属性与决策属性之间的相关性,并将与决策属性具有相关性的条件属性加入属性核集Core中;
步骤1.2:基于Granger因果分析对帕金森遥感数据进行特征提取;
步骤2、在基于维度关联性分析的帕金森遥感数据特征提取方法基础上,建立多元线性回归模型对帕金森遥感数据进行预测,具体方法为:
步骤2.1:根据决策属性时间自相关以及条件属性的相关性,建立多元线性回归模型;
步骤2.2:通过基于健康度的粒子群优化算法对多元线性回归模型中的回归系数进行优化;
步骤3、根据所构建的多元线性回归模型,将帕金森遥感数据按照模型所需的条件属性值进行输入,得到在某一时刻的决策属性的值,从而完成对某一时刻决策属性值的预测。
2.根据权利要求1所述的基于特征提取的高维时间序列数据的分析预测方法,其特征在于:步骤1.1所述条件属性间的相关性度量使用如下所示公式进行判断:
Figure FDA0003255851860000011
其中,c1和c2分别为帕金森遥感数据的两个条件属性,p(c1,c2)为两个条件属性c1和c2间的概率分布,H(c1,c2)为两个条件属性c1和c2间的相关性度量;
所述条件属性与决策属性间的相关性度量使用如下所示公式进行判断:
Figure FDA0003255851860000012
其中,c为条件属性,d为决策属性,p(c,d)为条件属性c和决策属性d的联合概率分布,p(c)和p(d)分别为条件属性c和决策属性d边缘分布,I(c;d)为条件属性c和决策属性d间的相关性度量;
对于条件属性与决策属性间相关性度量,若I(C-{ci};D)<I(C;D),其中C={c1,c2,…cn}为含有n个条件属性的条件属性集,ci∈C为条件属性集C中的第i个条件属性,i=1、2…、n,D为决策属性集,说明此条件属性对于决策属性具有相关性,则将条件属性ci加入到
Figure FDA0003255851860000021
集中,结果为Core=Core+{ci},否则对下一个条件属性进行判断直至最后一个条件属性。
3.根据权利要求1所述的基于特征提取的高维时间序列数据的分析预测方法,其特征在于:所述步骤1.2的具体方法为:
步骤1.2.1:对帕金森遥感数据进行预处理;
首先利用单位根检验法对帕金森遥感数据的平稳性进行检验,对于不平稳的帕金森遥感数据,通过差分转换方法进行转换使其平稳;然后,使用周期图法和Fisher精确检验法进行周期性检验,最后,通过贝叶斯信息准则BIC对帕金森遥感数据进行最优滞后期计算;
步骤1.2.2:构建决策属性的自回归模型;
步骤1.2.3:构建加入条件属性后的决策属性的增广型自回归模型;
步骤1.2.4:对条件属性与决策属性进行Granger因果关系检验,
步骤1.2.5:对于与决策属性具有因果性的条件属性加入属性核集;
步骤1.2.6:对下一条件属性进行因果性判断。
4.根据权利要求3所述的基于特征提取的高维时间序列数据的分析预测方法,其特征在于:步骤1.2.2所述构建的决策属性的自回归模型如下式所示:
y(t)=a0+a1yt-1+a2yt-2+…+alyt-l
其中,y(t)为某一时刻t时决策属性y的属性值,l为决策属性y中滞后期的最大值,a0为常数项,a1,a2,…,al为回归系数。
所述步骤1.2.3对于加入条件属性后的决策属性的增广型自回归模型如下式所示:
y(t)=a0+a1yt-1+…+alyt-l+b1xt-1+…+bwxt-w
其中,w为条件属性x中滞后期的最大值,b1,b2,…,bw为回归系数。
5.根据权利要求3所述的基于特征提取的高维时间序列数据的分析预测方法,其特征在于:所述步骤1.2.4的具体方法为:
首先判断此条件属性是否为决策属性的Granger因果关系,如果此条件属性不是此决策属性的Granger因果关系,则执行步骤1.2.6,如果此条件属性是此决策属性的Granger因果关系,则将条件属性与决策属性进行交换,再根据上述步骤1.2.2与步骤1.2.3进行Granger因果关系进行判断,只有条件属性是决策属性的Granger因果关系,而决策属性不是条件属性的Granger因果关系时,执行步骤1.2.5;若此判断的条件属性为最后一个条件属性,则完成帕金森遥感数据的特征提取,执行步骤2。
6.根据权利要求1所述的基于特征提取的高维时间序列数据的分析预测方法,其特征在于:步骤2.1所述的建立的多元线性回归模型如下公式所示:
Figure FDA0003255851860000031
其中,yt为决策属性y在t时刻的决策属性值,l为决策属性的y的滞后期最大值,m为步骤1所得到的属性核集的大小,xu,t为属性核集中的条件属性u在时刻t的取值,{a0}+{as|1≤s≤l}+{bus|1≤s≤l∧1≤u≤m}=COEF为系数集合;
记系数集合的估计值为COEF'={a0'}+{as'|1≤s≤l}+{bus'|1≤s≤l∧1≤u≤m},则根据该系数集合,决策属性y在时刻t的估计值yt'如下公式所示:
Figure FDA0003255851860000032
在对系数集进行训练的过程中,在已知y在时刻t的观测值的情况下,通过以下公式判断所估计的系数集合的预测精度:
Figure FDA0003255851860000033
如果误差|yt-yt′|越小,表示预测精度越好;
将已知决策属性y以及条件属性x在多个时刻的观测值,要找到一个系数集合使得y在所有时刻的观测值与估计值的总的误差最小的问题转化为求解一个多系数取值的组合优化问题,即要找到系数集合中的各个系数的取值,该问题通过建立如下所示的目标函数,并利用粒子群算法进行问题求解:
Figure FDA0003255851860000034
7.根据权利要求1所述的基于特征提取的高维时间序列数据的分析预测方法,其特征在于:所述步骤2.2的具体方法为:
步骤2.2.1:初始化算法参数,随机产生初始粒子,并对其赋初值;
步骤2.2.2:对群体粒子的进化进行操作,得到种群的全局最优位置gBest;
步骤2.2.3:根据步骤2.2.2所得到的gBest,将其行向量作为回归模型的系数,得到回归模型并对该模型进行持久化存储。
8.根据权利要求7所述的基于特征提取的高维时间序列数据的分析预测方法,其特征在于:所述步骤2.2.1的具体方法为:
初始化种群规模为K的粒子群,K为设定值;记粒子spv为R维空间中的一个粒子,R为系数集合的估计值COEF'的大小;粒子初始位置的设置采用如下方法:粒子spv在第u维方向的位置
Figure FDA0003255851860000041
即在第u维方向的值随机设置为0到1间的一个数,从而得到粒子spv在R维空间中的位置为
Figure FDA0003255851860000042
随机设置粒子在第u维方向的速度
Figure FDA0003255851860000043
从而得到粒子spv在R维空间的速度
Figure FDA0003255851860000044
其中,it表示当前迭代;粒子的适应度函数定义为如下公式:
Figure FDA0003255851860000045
其中,fitness(spv)为粒子spv的适应度。
9.根据权利要求8所述的基于特征提取的高维时间序列数据的分析预测方法,其特征在于:所述步骤2.2.2的具体方法为:
a、根据以下两个公式分别更新粒子的速度与位置:
Figure FDA0003255851860000046
Figure FDA0003255851860000047
其中,
Figure FDA0003255851860000048
Figure FDA0003255851860000049
分别为第it次迭代时粒子spv的速度和位置,γ、α1和α2为设置的经验值,pBestv为粒子spv的最优位置,gBest为种群的全局最优位置;
b、根据健康度识别异常粒子,并更新异常粒子的位置;
(1)对于每个粒子,根据以下公式,计算粒子的健康度:
Figure FDA00032558518600000410
其中,
Figure FDA00032558518600000411
为第it次迭代中粒子的健康度,ws和wo为事先设定的权值,
Figure FDA00032558518600000412
为在第it次迭代中粒子的停滞次数,
Figure FDA00032558518600000413
为第it次迭代中的粒子的震荡次数,
Figure FDA00032558518600000414
Figure FDA00032558518600000415
分别通过以下两个公式进行计算:
Figure FDA00032558518600000416
Figure FDA00032558518600000417
其中,θ和
Figure FDA00032558518600000418
为事先设定的阈值;
(2)对于健康度小于事先所设定阈值的粒子,删除该粒子,并随机产生一个新的粒子替换它;
c、判断是否达到所设置的迭代次数,如果是,则返回gBest作为回归系数的最优解,否则,返回到步骤a继续迭代。
CN201810228459.5A 2018-03-20 2018-03-20 基于特征提取的高维时间序列数据的分析预测方法 Expired - Fee Related CN108399434B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810228459.5A CN108399434B (zh) 2018-03-20 2018-03-20 基于特征提取的高维时间序列数据的分析预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810228459.5A CN108399434B (zh) 2018-03-20 2018-03-20 基于特征提取的高维时间序列数据的分析预测方法

Publications (2)

Publication Number Publication Date
CN108399434A CN108399434A (zh) 2018-08-14
CN108399434B true CN108399434B (zh) 2022-02-18

Family

ID=63093064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810228459.5A Expired - Fee Related CN108399434B (zh) 2018-03-20 2018-03-20 基于特征提取的高维时间序列数据的分析预测方法

Country Status (1)

Country Link
CN (1) CN108399434B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190709A (zh) * 2018-09-12 2019-01-11 北京工业大学 一种针对大气污染物浓度预测的选择特征的方法
CN109165246A (zh) * 2018-09-30 2019-01-08 北京工业大学 一种挖掘大气污染传播路径的方法
CN111354338B (zh) * 2020-02-26 2022-03-15 重庆大学 基于pso卷积核优化稀疏迁移学习的帕金森语音识别系统
CN112862190B (zh) * 2021-02-09 2022-09-27 汕头大学 一种基于改进Seq2Seq框架的水质时间序列预测方法
CN113012815B (zh) * 2021-04-06 2023-09-01 西北工业大学 一种基于多模态数据的帕金森健康风险评估方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306998A (ja) * 2000-04-18 2001-11-02 Toshiba Corp 時系列分析方法
CN106056244A (zh) * 2016-05-30 2016-10-26 重庆大学 一种股票价格优化预测方法
CN106980877A (zh) * 2017-03-15 2017-07-25 陕西中爆安全网科技有限公司 一种基于粒子群算法优化支持向量机的爆破振动预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306998A (ja) * 2000-04-18 2001-11-02 Toshiba Corp 時系列分析方法
CN106056244A (zh) * 2016-05-30 2016-10-26 重庆大学 一种股票价格优化预测方法
CN106980877A (zh) * 2017-03-15 2017-07-25 陕西中爆安全网科技有限公司 一种基于粒子群算法优化支持向量机的爆破振动预测方法

Also Published As

Publication number Publication date
CN108399434A (zh) 2018-08-14

Similar Documents

Publication Publication Date Title
CN108399434B (zh) 基于特征提取的高维时间序列数据的分析预测方法
Liu et al. An enhanced encoder–decoder framework for bearing remaining useful life prediction
CN115412455B (zh) 一种基于时间序列的服务器多性能指标异常检测方法及装置
Wang et al. A novel structural damage identification scheme based on deep learning framework
CN111062533A (zh) 一种基于鲸鱼优化算法优化加权最小二乘支持向量机的风机故障预测方法
Ayodeji et al. Causal augmented ConvNet: A temporal memory dilated convolution model for long-sequence time series prediction
CN112116198A (zh) 数据驱动的流程工业状态感知网络关键节点筛选方法
CN114399032A (zh) 一种电能表计量误差预测方法及系统
CN111931983A (zh) 一种降水量预测方法及系统
Wang et al. Spatiotemporal non-negative projected convolutional network with bidirectional NMF and 3DCNN for remaining useful life estimation of bearings
CN116597939A (zh) 基于大数据的药品质量控制管理分析系统及方法
CN115631869A (zh) 一种传染病预测模型的构建方法
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及系统
CN117407797B (zh) 基于增量学习的设备故障诊断方法及模型的构建方法
Nguyen et al. Physics-infused fuzzy generative adversarial network for robust failure prognosis
Fu et al. MCA-DTCN: A novel dual-task temporal convolutional network with multi-channel attention for first prediction time detection and remaining useful life prediction
CN114357870A (zh) 基于局部加权偏最小二乘的计量设备运行性能预测分析方法
CN117216844B (zh) 一种桥梁结构损伤检测方法、系统和存储介质
CN116502049B (zh) 滚动轴承剩余使用寿命预测方法、系统、设备及存储介质
Yang et al. A structure optimization algorithm of neural networks for large-scale data sets
CN116595465A (zh) 基于自编码器和数据增强的高维稀疏数据离群点检测方法及系统
Jain et al. Pearson correlation coefficient based attribute weighted k-nn for air pollution prediction
CN116432856A (zh) 基于cnn-glstm模型的管道动态预警方法及装置
Pujari Classification of Pima Indian diabetes dataset using support vector machine with polynomial kernel
CN116933119A (zh) 一种基于卷积神经网络的信号数据去除趋势方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220218

CF01 Termination of patent right due to non-payment of annual fee