CN113535527A - 一种面向实时流数据预测性分析的降载方法及系统 - Google Patents

一种面向实时流数据预测性分析的降载方法及系统 Download PDF

Info

Publication number
CN113535527A
CN113535527A CN202110632219.3A CN202110632219A CN113535527A CN 113535527 A CN113535527 A CN 113535527A CN 202110632219 A CN202110632219 A CN 202110632219A CN 113535527 A CN113535527 A CN 113535527A
Authority
CN
China
Prior art keywords
time
sequence
data
real
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110632219.3A
Other languages
English (en)
Inventor
李晖
闵圣天
丁玺润
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Youlian Borui Technology Co ltd
Original Assignee
Guizhou Youlian Borui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Youlian Borui Technology Co ltd filed Critical Guizhou Youlian Borui Technology Co ltd
Priority to CN202110632219.3A priority Critical patent/CN113535527A/zh
Publication of CN113535527A publication Critical patent/CN113535527A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3442Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for planning or managing the needed capacity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
    • G06F11/3423Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time where the assessed time is active or idle time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3433Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24532Query optimisation of parallel queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种面向实时流数据预测性分析的降载方法,所述方法包括:对数据集进行预处理;对预处理后的数据集通过Re l i efF方法进行特征选择,选择出用于预测的代表性特征;通过DTW距离来度量时间序列的子序列与整个序列的相似度的变化,并使用局部平均和窗口技术对相似性距离进行处理,从而确定用于预测的数据和时间点;使用Haar小波提取时间序列在不同尺度下的小波系数,并计算其能量作为特征。本发明可以降低处理数据的维度,减少分类的计算量、缩短处理时间,提高分类结果的准确率;并且能够减小预测任务执行时间的误差,提高处理时间序列数据的效率,从而更好的为任务调度、负载均衡等提供支撑。

Description

一种面向实时流数据预测性分析的降载方法及系统
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种面向实时流数据预测性分析的降载方法及系统。
背景技术
随着计算机技术、数据采集技术的广泛应用,数据已不仅仅局限于文件、数据库等传统的静态形式,一种顺序、大量、快速、连续到达的流式数据应运而生。一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合,这个数据集合中的数据只能按下标的递增顺序读取一次。数据流是现象驱动的,数据到达速度与数据项到达的次序无法被控制,常应用于网络监控、传感器网络、工业监控、气象测控、金融证券服务、医药和科研等领域。
流数据挖掘作为传统数据挖掘的延伸,已成为当前研究的热点问题,在众多领域有着广泛的应用,具有非常重要的现实意义。数据流具有无限快速性、不确定性、时变性、单遍扫描性、结果近似性等特点,这些特点使得数据流无法使用传统的静态数据挖掘方法进行数据挖掘。
时序数据是数据流的一种,人们在众多领域使用数据科学和机器学习技术来分析时序数据以进行可视化、决策和预测,流数据挖掘具有对数据单次扫描、数据量大和速度快等特点,并且流数据挖掘是CPU密集型任务,容易出现过载、高延迟等问题。
降载技术可以很好的解决过载和高延迟问题,降载(Load Shedding)是指当输入数据流超出流处理引擎(Stream-processing engines,SPEs)的处理能力时移除多余负载的过程,流处理引擎是一类支持数据流处理的应用程序。
但在现有技术中,无法准确的预测时间,处理时间序列数据的效率不高且处理时间过长,无法达到精确地预测任务执行时间的目的。
发明内容
为了现有技术存在的上述技术缺陷,本发明提供了一种面向实时流数据预测性分析的降载方法及系统,可以有效解决背景技术中的问题。
为了解决上述技术问题,本发明提供的技术方案具体如下:
本发明实施例公开了一种面向实时流数据预测性分析的降载方法,所述方法包括:对数据集进行预处理;对预处理后的数据集通过ReliefF进行特征选择,选择出用于预测的代表性特征;通过DTW距离来度量时间序列的子序列与整个序列的相似度的变化,并使用局部平均和窗口技术对相似性距离进行处理,从而确定用于预测的数据和时间点;使用Haar小波提取时间序列在不同尺度下的小波系数,并计算其能量作为特征,构建基于随机森林回归算法的任务执行时间预测模型,以预测任务执行时间,从而更好的为任务调度、负载均衡等提供支撑。
在上述任一方案中优选的是,数据集包括任务参数和一系列时间序列数据,一系列时间序列数据为任务执行过程中所收集的任务与资源状态数据;通过以下方式对数据集进行处理:将数据集按照任务执行时间进行不同层次的划分,并对数据集加上相应的类标;划分方法包括按照特定步长离散化划分和将时间按照特定底数为2的幂指数划分。
在上述任一方案中优选的是,使用ReliefF特征选择算法计算不同数据集特征的权值,通过考察特征在同类近邻样本与异类近邻样本之间的差异,度量特征的区分能力,若特征在同类样本之间差异小,而在异类样本之间差异大,则该变量具有较强的区分能力。
在上述任一方案中优选的是,ReliefF算法过程为:设X={x1,x2,...,xN}是样本全集,样本xi={xi1,xi2,...,xiM},其中xij=(j=1,2,...,M)表示第i个样本的第j个特征值,w={w1,w2,...,wM}表示M个特征的权值向量;算法执行m次迭代,每次迭代随机抽取一个样本xi,找出r个与xi同类的最近邻样本hj(j=1,2,...,r),在每个与xi不同类的样本集中找出r个与xi最近邻的样本klj(j=1,2,...,r,l≠class(xi)),class(xi)表示的xi类别,对权值向量进行更新,计算公式为:
Figure BDA0003104073850000031
若特征Fi为标量型特征,则:
Figure BDA0003104073850000032
若特征Fi为数值型特征,则:
Figure BDA0003104073850000033
Figure BDA0003104073850000034
中,Fi为第i个特征,value(Fi,xi)为xi的第i个特征的值,max(Fi)为所有样本中第i个特征的最大值,min(Fi)为所有样本中第i个特征的最小值;P(l)为第l类出现的概率。
在上述任一方案中优选的是,在任务执行过程中结合状态数据和任务参数对任务执行时间进行预测,通过使用动态时间规整距离来测量子序列和完整序列之间的相似度,通过使用窗口划分策略来捕捉相似度距离变化的特点,并确定预测所使用的数据以及预测的入口点。
在上述任一方案中优选的是,将整个序列记为X(X=<x1,x2,...,xi>),引入参数α(α∈(0,1))来衡量预测的位置,参数α将整个序列X等分为i个子序列,使用DTW距离测量子序列和整个序列的相似度,设时间序列X,Y的DTW距离为D(X,Y),
Figure BDA0003104073850000041
其中,Dbase(xi,yj)表示向量点xi和y1之间的基距离,记D0(x1,y1)为D0;计算等分序列窗口与整个序列的相似度距离,并统计频繁模式的数量。
在上述任一方案中优选的是,设时间序列
Figure BDA0003104073850000042
其规模为J(J=log2m),在特定尺度j(j∈[0,1,...,J-1])内分解后,小波系数
Figure BDA0003104073850000043
Figure BDA0003104073850000044
其中
Figure BDA0003104073850000045
Figure BDA0003104073850000046
在空间尺度Vj上的投影;
Figure BDA0003104073850000047
Figure BDA0003104073850000048
在Wj,......,WJ-1的细节信息。
在上述任一方案中优选的是,给定时间序列
Figure BDA0003104073850000049
Figure BDA00031040738500000410
的能量为:
Figure BDA00031040738500000411
在上述任一方案中优选的是,计算所有时间序列的小波系数,对长度不足2j的原始序列填充零,通过以下方式对原时间序列做变换处理:分析数据集在不同尺度下低频小波系数的能量损失情况来确定变换尺度,选择在第1尺度下小波变换的低频小波系数代替原序列;对原序列作转换处理,去除序列中干扰因素。
一种面向实时流数据预测性分析的降载系统,所述系统包括:处理模块,用于对数据集进行预处理;分析模块,用于对预处理后的数据集通过ReliefF进行特征选择,选择出用于预测的代表性特征;判断模块,用于通过DTW距离来度量时间序列的子序列与整个序列的相似度的变化,并使用局部平均和窗口技术对相似性距离进行处理,从而确定用于预测的数据和时间点;提取模块,用于使用Haar小波提取时间序列在不同尺度下的小波系数,并计算其能量作为特征,构建基于随机森林回归算法的任务执行时间预测模型,以预测任务执行时间。
与现有技术相比,本发明的有益效果:
本发明提供的一种面向实时流数据预测性分析的降载方法及系统,通过对数据集进行预处理;对预处理后的数据集通过ReliefF进行特征选择,选择出用于预测的代表性特征;通过DTW距离来度量时间序列的子序列与整个序列的相似度的变化,并使用局部平均和窗口技术对相似性距离进行处理,从而确定用于预测的数据和时间点;使用Haar小波提取时间序列在不同尺度下的小波系数,并计算其能量作为特征,构建基于随机森林回归算法的任务执行时间预测模型,以预测任务执行时间;以实现在预测数据挖掘任务执行时间的应用中,减小了预测时间的误差,并提高处理时间序列数据的效率;在时间序列分类中,降低了处理数据的维度,减少了分类的计算量、缩短了处理时间,提高了分类结果的准确率。
附图说明
附图用于对本发明的进一步理解,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1是本发明面向实时流数据预测性分析的降载方法流程图;
图2是本发明面向实时流数据预测性分析的降载方法中Data1数据值变化曲线图;
图3是本发明面向实时流数据预测性分析的降载方法中滑动窗口下相似度距离变化率的变化图;
图4是本发明面向实时流数据预测性分析的降载方法中Data6数据值变化曲线图;
图5是本发明面向实时流数据预测性分析的降载方法中滑动窗口下相似度距离变化率的变化图;
图6.1是本发明面向实时流数据预测性分析的降载方法中winduw3窗口下模式集的占比示意图;
图6.2是本发明面向实时流数据预测性分析的降载方法中winduw4窗口下模式集的占比示意图;
图6.3是本发明面向实时流数据预测性分析的降载方法中winduw5窗口下模式集的占比示意图;
图7是本发明面向实时流数据预测性分析的降载方法中模式集Hml和Hhl距离的变化示意图;
图8是本发明面向实时流数据预测性分析的降载方法中敏感属性的相似度的平均变化率示意图;
图9是本发明面向实时流数据预测性分析的降载方法中非敏感属性的相似度的平均变化率示意图;
图10是本发明面向实时流数据预测性分析的降载系统的模块示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。
在本发明的描述中,需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
为了更好地理解上述技术方案,下面将结合说明书附图及具体实施方式对本发明技术方案进行详细说明。
本发明提供了一种面向实时流数据预测性分析的降载方法,如图1所示,所述方法包括以下步骤:
步骤1,对数据集进行预处理。
具体的,对数据集进行预处理,数据集包括任务参数和一系列时间序列数据,其中,一系列时间序列数据为任务执行过程中所收集的任务与资源状态数据。
进一步的,对数据集进行归一化处理,数据归一化是一种通过线性变换使数据落在同一区间内的方法,其优点是可以提高计算的准确率,尤其应用在一些涉及到计算距离的算法时效果显著。在分析数据之前,需要对数据进行归一化,使用线性函数归一化对特征进行缩放处理,处理后的所有特征的值都在0到1之间。
进一步的,通过以下方式对数据集进行处理,以实现便于进行特征选择:将数据集按照任务执行时间进行不同层次的划分,并对数据集加上相应的类标。
进一步的,划分方法包括按照特定步长离散化划分和将时间按照特定底数为2的幂指数划分;按照特定步长离散化划分,例如100,200,300,…,1000,…,步长分别选取100,150两种;将时间按照特定底数为2的幂指数划分,例如64,128,256,512,1024,…。
其中,在对执行时间进行类别划分时,为避免出现数据量太小的类别,划分的步长可以适当调整,根据上述两种划分方式,可进行四种划分操作,分别记为P0(步长150),P1(步长100),P2(以2为底数),P3(以2为底数,合并小类别)。
步骤2,对预处理后的数据集通过ReliefF进行特征选择,选择出用于预测的代表性特征。
具体的,根据以上数据划分方式和处理方法,对特征进行归一化处理后,使用ReliefF特征选择算法计算不同数据集特征的权值,ReliefF算法是有监督特征选择的代表性算法,具有优良的性能,其过程为随机抽取样本,对该样本的若干近邻进行学习,计算每一个特征的权重,然后该过程迭代若干次,不断对特征的权值进行更新,最后选择权值较大的若干个特征。
ReliefF算法通过考察特征在同类近邻样本与异类近邻样本之间的差异来度量特征的区分能力,若特征在同类样本之间差异小,而在异类样本之间差异大,则该变量具有较强的区分能力。ReliefF算法每次从训练样本集中随机取出一个样本xi,然后从与该样本同类的样本中找出与该样本的k个近邻样本NHi(Near-Hit),同时从每个与该样本不同类的样本中也找出k个近邻样本NMi(Near-Miss),最后根据算法规则更新每个特征的权重,算法过程描述如下:
设X={x1,x2,...,xN}是样本全集,样本xi={xi1,xi2,...,xiM},其中xij=(j=1,2,...,M)表示第i个样本的第j个特征值,w={w1,w2,...,wM}表示M个特征的权值向量。ReliefF算法首先令wi=0(1≤i≤M),初始化时每个特征的权重相同即重要性相同。
进一步的,算法执行m次迭代,每次迭代随机抽取一个样本xi,找出r个与xi同类的最近邻样本hj(j=1,2,...,r),然后在每个与xi不同类的样本集中找出r个与xi最近邻的样本klj(j=1,2,...,r,l≠class(xi)),class(xi)表示的xi类别,最后对权值向量进行更新,计算公式为:
Figure BDA0003104073850000101
若特征Fi为标量型特征,则:
Figure BDA0003104073850000102
若特征Fi为数值型特征,则:
Figure BDA0003104073850000103
式中
Figure BDA0003104073850000104
Fi为第i个特征,value(Fi,xi)为xi的第i个特征的值,max(Fi)为所有样本中第i个特征的最大值,min(Fi)为所有样本中第i个特征的最小值;P(l)为第l类出现的概率,可以用l类的样本数除以数据集中样本的总数。算法执行m轮后,就可以得到各特征的权重。
其中,ReliefF算法中函数diff(*)定义了两个样本关于某一特征的差异,当两个样本属于同一类时,这种差异表明该特征对分类不利,当两个样本不属于同一类时,差异对分类有利。
进一步的,通过对ReliefF算法设定参数,确定了算法参数并获取特征权重结果,最后对特征权重进行排序,ReliefF算法的参数如下:
numNeighbours:50,属性估计的近邻数;
sampleSize:-1,要采样的实例数;
sigma:5,设置近邻的影响,建议合理值为最近邻居的数量的1/5至1/10;
seed:1,采样实例的随机种子。
步骤3,通过DTW距离来度量时间序列的子序列与整个序列的相似度的变化,并使用局部平均和窗口技术对相似性距离进行处理,从而确定用于预测的数据和时间点。
具体的,由于只使用任务参数来预测任务执行时间时,预测结果的绝对误差较大,任务执行时间不仅与任务参数有关,而且与执行过程中的其它数据密切相关,例如服务器的资源占用数据CPU、I/O、系统负载等和任务状态数据,且在任务完成之后再进行预测意义不大,需在任务执行之前或执行过程中进行预测。
进一步的,在任务执行过程中结合状态数据和任务参数对任务执行时间进行预测,通过使用动态时间规整(DTW)距离来测量子序列和完整序列之间的相似度,通过使用窗口划分策略来捕捉相似度距离变化的特点,并确定预测所使用的数据以及预测的入口点。
进一步的,将整个序列记为X(X=<x1,x2,...,xi>),引入参数α(α∈(0,1))来衡量预测的位置,参数α将整个序列X等分为i个子序列,使用DTW距离测量子序列和整个序列的相似度,其中,将“可以把序列某个时刻的点跟另一时刻多个连续时刻的点相对应”的做法称为时间规整(Time Warping)。参数α定义为α=length(xi)/length(X),length()为序列的长度;Qj为从原序列的初始位置取特定比例后的子序列,其定义为Qj=<p1,p2,...,pj>,其中j∈[0,i],j∈Z。
设时间序列X,Y的DTW距离为D(X,Y),
Figure BDA0003104073850000121
其中,Dbase(xi,yj)表示向量点xi和y1之间的基距离,记D0(x1,y1)为D0;可以根据情况选择不同的距离度量,为不失一般性,优选的使用欧氏距离作为基距离。
使用相似度的变化来度量降载的时间点:通过将序列相似度的变化离散化以及捕捉时间序列相似性变化的特点,来度量预测的时间点;由于相似度距离的变化是连续的,若对每个时间点都进行计算会导致复杂度太高,因而对参数α进行不同窗口大小的局部平均处理,以实现可以离散化时间序列相似度的变化。
如表1所示,在算法1中,1-7行为遍历时间序列,基于DTW距离计算等分序列窗口与整个序列的相似度距离,8-11行是公式
Figure BDA0003104073850000122
中窗口的划分策略对计算的距离进行划分处理,最后统计频繁模式的数量,以确定参数的取值范围。
表1算法Calulate_param
Figure BDA0003104073850000123
Figure BDA0003104073850000131
在算法1中,选择分割子序列的策略时,若原序列分割的子序列的数目过少,将无法获取连续序列相似度变化的统计规律;若原序列分割的子序列数目过多,数据量和计算复杂度将会激增。进而在序列的统计粒度和计算复杂度二者之间,优选的是i=9将时间序列的相似度距离D(将
Figure BDA0003104073850000132
记作
Figure BDA0003104073850000133
D=d1,…,di,…,d9)离散化为前、中、后三部分,通过不同大小的窗口来捕捉相似度变化的规律,该策略记为window win,win为窗口的大小,根据窗口的大小确定三种策略,取三种窗口内的平均值来捕捉序列相似度变化的模式的分割方法,公式为:
Figure BDA0003104073850000141
进一步的,基于DTW距离,设定窗口数为20,在Data1数据上计算数据序列相似度的变化,如图2和图3所示,在窗口序号为7和14时波动变小,且相似度距离变化率减小并趋于稳定。
进一步的,在Data6数据上,计算数序列计算相似度的变化,如图4和图5所示,在窗口序号为14时,相似度距离变化率减小并趋于稳定。
综上所述,基于滑动窗口的相似度捕捉策略,可以将变化较大的数据段捕捉在内,窗口的大小决定了捕捉的粒度。
进一步的,将每种策略的计算结果进行归一化,将最小值和最大值映射到[0,1],模式集中位置i处的模式,记为High(h),Middle(m),Low(l):A=<A1,A2,A3>,Ai∈(h,m,l)。
进一步的,模型集A在三个位置上的组合模型共27个(3^3);通过上述窗口策略对结果数据进行处理和分析,频繁模式集如下:
<<h,m,l>,<h,m,m>,<h,l,l>,<m,l,l>,<h,h,m>,<h,h,l>,<m,m,l>>
这些模式可根据随α增加相似度距离变化的统计信息与变化趋势划分为以下模式集:
Hml(<h,m,l>),Hhl(<h,h,m>,<h,h,l>,<m,m,l>),Hll(<h,m,m>,<h,l,l>,<m,l,l>)和Oth。Hml为相似度逐渐增大的模式;Hhl为相似度先稳定后增加的模式集;Hll为相似度先增加后稳定的模式集;Oth为剩余的没有共同特征的模式集;取所有数据序列的平均值作为最终结果。
如图6.1-6.3所示,不同大小的窗口下模式集的占比结果超过90%的数据显示出明显的下降趋势,如图7所示,stage1阶段相似度的变化较快,stage3阶段相似度的变化较缓,在stage2与stage3序列的相似度更高。
进一步的,通过统计模式集Hml与Hhl距离的变化,与stage1相比,stage2部分子序列与整个序列之间的距离明显减小;对数据挖掘工作流的执行过程进行分析,多数工作流在stage2、stage3阶段对应于该工作流最耗费资源和时间的核心操作阶段、GBDT、k-Means、AutoML的迭代执行阶段。
进一步的,在α∈[0.3,0.7]或α∈[0.4,0.6]时,时间序列与原序列的相似度的变化较大且包含相似度距离变化较快的stage1、stage2阶段,优选为stage2进行预测。
进一步的,减小窗口大小,对细粒度进行分析,选取i=19计算时间序列的相似度距离,由于窗口的数量较多,计算并分析对应窗口下相似度距离的变化率,根据用于预测的特征是否出现频繁的较大波动变化进行划分,可划分为敏感属性和非敏感属性。
如图8可以看出,敏感属性的相似度的平均变化率随窗口序号的增加而不断降低,尤其窗口序号为8-14时,平均变化率的减小趋势趋于平缓;从图9可以看出,非敏感属性的相似度的平均变化率随窗口序号的增加先减少后趋于平缓,在窗口序号大于10时,平均变化率的变化趋势趋于平缓。
由于需要选择包含原序列相似度较多变化且相似度距离变化较快的阶段进行预测,综上所述,优选为窗口序号为8-14时进行预测。
当i=9时,选择在α∈[0.3,0.7]或α∈[0.4,0.6]进行预测;当i=19时,选择窗口序号为8-14时进行预测。由于当i=9时,初始窗口大小为序列长度的10%;当i=19时,初始窗口大小为序列长度的5%,故窗口序号8-14可以转换为α∈[0.4,0.7],综上所述,优选为α∈[0.4,0.6]时进行预测。
步骤4,使用Haar小波提取时间序列在不同尺度下的小波系数,并计算其能量作为特征,构建基于随机森林回归算法的任务执行时间预测模型,以预测任务执行时间。
具体的,设时间序列
Figure BDA0003104073850000161
其规模为J(J=log2m),在特定尺度j(j∈[0,1,...,J-1])内分解后,小波系数
Figure BDA0003104073850000162
可以表示为
Figure BDA0003104073850000163
并且原序列可以通过这些小波系数进行重构,其中
Figure BDA0003104073850000164
Figure BDA0003104073850000165
在空间尺度Vj上的投影,被称为近似系数;
Figure BDA0003104073850000166
代表
Figure BDA0003104073850000167
在Wj,...,WJ-1的细节信息。
进一步的,单从数据处理角度看,噪声经常存在于信号的高频部分,近似系数对应于信号的低频部分,最初几个小波系数
Figure BDA0003104073850000168
对应于低频信号部分,也可以被视为一个低噪声信号。
Figure BDA0003104073850000169
是与这部分数据的平均值成比例的表示,可以看作是这部分的近似值,保持这些系数将不会从原始时间序列丢失太多信息,所以通常选择
Figure BDA0003104073850000171
的前k个小波系数[11,14]作为原序列的代表性特征。
其中,时间序列
Figure BDA0003104073850000172
(记其单序列长度为m),Haar小波系数
Figure BDA0003104073850000173
为序列在尺度j上根据小波函数分解的近似系数,其中j∈[0,1,...,J-1],J=log2m。
给定时间序列
Figure BDA0003104073850000174
Figure BDA0003104073850000175
的能量为:
Figure BDA0003104073850000176
不同尺度下的近似系数提供了序列在特定粒度级别上的主要趋势。随着尺度的增大,对应小波基函数的空间局域性越好,空间分辨率越高;而光谱局域性越差,光谱分辨率越粗,由于用于转换处理和预测的序列不是整个序列,因此会有不同程度的信息丢失,通过小波变换时间序列的时频局部化特性,时间序列的大部分能量可以用几个小波系数来表示。
Wavelet-based特征提取算法2如表2所示,计算所有时间序列的小波系数,对长度不足2j的原始序列填充零(第2-3行),由于不同尺度的小波系数携带原始序列的不同分辨率下的变化特性,所以保持所有尺度的低频系数并计算能量值
Figure BDA0003104073850000177
(第5-6行),以保留不同尺度下的小波系数的特性,来统一描述和分析时间序列的变化特征;以实现可以将特征维数从[20,21,…,2j](j=log2n)缩减到[1,2,…,n](第9行)。
表2算法Wavelet-based特征提取方法
Figure BDA0003104073850000178
Figure BDA0003104073850000181
进一步的,由于小波变换具有时频局部化特性和在不同尺度或分辨率下处理数据的特性,可通过小波变换对原时间序列做变换处理。
进一步的,通过以下方式进行变换处理:
分析数据集在不同尺度下低频小波系数的能量损失情况来确定变换尺度,选择在第1尺度下小波变换的低频小波系数代替原序列,以实现可以很大程度地保证变换后的序列与原序列的相似性以及原序列在时域的局部变化性;
对原序列作转换处理,去除序列中干扰因素,处理后的序列长度将会减半,以实现使进行DTW计算时的计算量大大减少。
其中,使用该方法进行数据处理后,DTW的各种优化处理方式(例如LBkim和LBkeogh)依然适用。
本发明还提供了一种面向实时流数据预测性分析的降载系统,如图10所示,所述系统包括:
处理模块,用于对数据集进行预处理;
分析模块,用于对预处理后的数据集通过ReliefF进行特征选择,选择出用于预测的代表性特征;
判断模块,用于通过DTW距离来度量时间序列的子序列与整个序列的相似度的变化,并使用局部平均和窗口技术对相似性距离进行处理,从而确定用于预测的数据和时间点;
提取模块,用于使用Haar小波提取时间序列在不同尺度下的小波系数,并计算其能量作为特征,构建基于随机森林回归算法的任务执行时间预测模型,以预测任务执行时间。
与现有技术相比,本发明提供的有益效果是:
本发明提供的一种面向实时流数据预测性分析的降载方法及系统,通过对数据集进行预处理;对预处理后的数据集通过ReliefF进行特征选择,选择出用于预测的代表性特征;通过DTW距离来度量时间序列的子序列与整个序列的相似度的变化,并使用局部平均和窗口技术对相似性距离进行处理,从而确定用于预测的数据和时间点;使用Haar小波提取时间序列在不同尺度下的小波系数,并计算其能量作为特征,构建基于随机森林回归算法的任务执行时间预测模型,以预测任务执行时间;以实现在预测数据挖掘任务执行时间的应用中,减小了预测时间的误差,并提高处理时间序列数据的效率;在时间序列分类中,降低了处理数据的维度,减少了分类的计算量、缩短了处理时间,提高了分类结果的准确率。
以上仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种面向实时流数据预测性分析的降载方法,其特征在于:所述方法包括以下步骤:
对数据集进行预处理;
对预处理后的数据集通过ReliefF方法进行特征选择,选择出用于预测的代表性特征;
通过DTW距离来度量时间序列的子序列与整个序列的相似度的变化,并使用局部平均和窗口技术对相似性距离进行处理,从而确定用于预测的数据和时间点;
使用Haar小波提取时间序列在不同尺度下的小波系数,并计算其能量作为特征,构建基于随机森林回归算法的任务执行时间预测模型,以预测任务执行时间。
2.根据权利要求1所述的面向实时流数据预测性分析的降载方法,其特征在于:数据集包括任务参数和一系列时间序列数据,一系列时间序列数据为任务执行过程中所收集的任务与资源状态数据;通过以下方式对数据集进行处理:将数据集按照任务执行时间进行不同层次的划分,并对数据集加上相应的类标;划分方法包括按照特定步长离散化划分和将时间按照特定底数为2的幂指数划分。
3.根据权利要求2所述的面向实时流数据预测性分析的降载方法,其特征在于:使用ReliefF特征选择算法计算不同数据集特征的权值,通过考察特征在同类近邻样本与异类近邻样本之间的差异,度量特征的区分能力,若特征在同类样本之间差异小,而在异类样本之间差异大,则该变量具有较强的区分能力。
4.根据权利要求3所述的面向实时流数据预测性分析的降载方法,其特征在于:ReliefF算法过程为:设X={x1,x2,...,xN}是样本全集,样本xi={xi1,xi2,...,xiM},其中xij=(j=1,2,...,M)表示第i个样本的第j个特征值,w={w1,w2,...,wM}表示M个特征的权值向量;算法执行m次迭代,每次迭代随机抽取一个样本xi,找出r个与xi同类的最近邻样本hj(j=1,2,...,r),在每个与xi不同类的样本集中找出r个与xi最近邻的样本klj(j=1,2,...,r,l≠class(xi)),class(xi)表示的xi类别,对权值向量进行更新,计算公式为:
Figure FDA0003104073840000021
若特征Fi为标量型特征,则:
Figure FDA0003104073840000022
若特征Fi为数值型特征,则:
Figure FDA0003104073840000023
Figure FDA0003104073840000024
中,Fi为第i个特征,value(Fi,xi)为xi的第i个特征的值,max(Fi)为所有样本中第i个特征的最大值,min(Fi)为所有样本中第i个特征的最小值;P(l)为第l类出现的概率。
5.根据权利要求4所述的面向实时流数据预测性分析的降载方法,其特征在于:在任务执行过程中结合状态数据和任务参数对任务执行时间进行预测,通过使用动态时间规整距离来测量子序列和完整序列之间的相似度,通过使用窗口划分策略来捕捉相似度距离变化的特点,并确定预测所使用的数据以及预测的入口点。
6.根据权利要求5所述的面向实时流数据预测性分析的降载方法,其特征在于:将整个序列记为X(X=<x1,x2,...,xi>),引入参数α(α∈(0,1))来衡量预测的位置,参数α将整个序列X等分为i个子序列,使用DTW距离测量子序列和整个序列的相似度,设时间序列X,Y的DTW距离为D(X,Y),
Figure FDA0003104073840000031
其中,Dbase(xi,yj)表示向量点xi和y1之间的基距离,记D0(x1,y1)为D0;计算等分序列窗口与整个序列的相似度距离,并统计频繁模式的数量。
7.根据权利要求6所述的面向实时流数据预测性分析的降载方法,其特征在于:设时间序列
Figure FDA0003104073840000032
其规模为J(J=log2m),在特定尺度j(j∈[0,1,...,J-1])内分解后,小波系数
Figure FDA0003104073840000033
其中
Figure FDA0003104073840000034
Figure FDA0003104073840000035
在空间尺度Vj上的投影;
Figure FDA0003104073840000036
Figure FDA0003104073840000037
在Wj,...,WJ-1的细节信息。
8.根据权利要求7所述的面向实时流数据预测性分析的降载方法,其特征在于:给定时间序列
Figure FDA0003104073840000038
的能量为:
Figure FDA0003104073840000039
9.根据权利要求8所述的面向实时流数据预测性分析的降载方法,其特征在于:计算所有时间序列的小波系数,对长度不足2j的原始序列填充零,通过以下方式对原时间序列做变换处理:分析数据集在不同尺度下低频小波系数的能量损失情况来确定变换尺度,选择在第1尺度下小波变换的低频小波系数代替原序列;对原序列作转换处理,去除序列中干扰因素。
10.一种面向实时流数据预测性分析的降载系统,其特征在于:所述系统包括:
处理模块,用于对数据集进行预处理;
分析模块,用于对预处理后的数据集通过ReliefF进行特征选择,选择出用于预测的代表性特征;
判断模块,用于通过DTW距离来度量时间序列的子序列与整个序列的相似度的变化,并使用局部平均和窗口技术对相似性距离进行处理,从而确定用于预测的数据和时间点;
提取模块,用于使用Haar小波提取时间序列在不同尺度下的小波系数,并计算其能量作为特征,构建基于随机森林回归算法的任务执行时间预测模型,以预测任务执行时间。
CN202110632219.3A 2021-06-07 2021-06-07 一种面向实时流数据预测性分析的降载方法及系统 Withdrawn CN113535527A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110632219.3A CN113535527A (zh) 2021-06-07 2021-06-07 一种面向实时流数据预测性分析的降载方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110632219.3A CN113535527A (zh) 2021-06-07 2021-06-07 一种面向实时流数据预测性分析的降载方法及系统

Publications (1)

Publication Number Publication Date
CN113535527A true CN113535527A (zh) 2021-10-22

Family

ID=78124632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110632219.3A Withdrawn CN113535527A (zh) 2021-06-07 2021-06-07 一种面向实时流数据预测性分析的降载方法及系统

Country Status (1)

Country Link
CN (1) CN113535527A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114967422A (zh) * 2022-04-22 2022-08-30 海门喜满庭纺织品有限公司 基于计算机辅助决策的整经机智能检测及控制系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114967422A (zh) * 2022-04-22 2022-08-30 海门喜满庭纺织品有限公司 基于计算机辅助决策的整经机智能检测及控制系统

Similar Documents

Publication Publication Date Title
CN109657547B (zh) 一种基于伴随模型的异常轨迹分析方法
CN107682319A (zh) 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN110134719B (zh) 一种结构化数据敏感属性的识别与分类分级方法
CN114861788A (zh) 一种基于dbscan聚类的负荷异常检测方法及系统
CN115641177B (zh) 一种基于机器学习的防秒杀预判系统
CN110502989A (zh) 一种小样本高光谱人脸识别方法及系统
CN115222727A (zh) 一种输电线路防外破目标识别方法
CN111767538A (zh) 一种基于相关信息熵的工控入侵检测系统特征选择方法
CN111461354A (zh) 一种面向高维数据的机器学习集成分类方法及软件系统
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及系统
CN114782761B (zh) 基于深度学习的智能仓储物料识别方法和系统
CN114154557A (zh) 癌症组织分类方法、装置、电子设备及存储介质
CN115062696A (zh) 基于标准化类特定互信息的特征选择方法
CN113535527A (zh) 一种面向实时流数据预测性分析的降载方法及系统
Sharma et al. A semi-supervised generalized vae framework for abnormality detection using one-class classification
CN115310499B (zh) 一种基于数据融合的工业设备故障诊断系统及方法
CN116561569A (zh) 一种基于EO特征选择结合AdaBoost算法的工业电力负荷辨识方法
CN110929611A (zh) 一种基于pr-kelm的输电线路覆冰厚度预测模型的建模方法
CN115935285A (zh) 基于掩码图神经网络模型的多元时间序列异常检测方法和系统
CN112765219B (zh) 一种跳过平稳区域的流数据异常检测方法
CN114757495A (zh) 一种基于逻辑回归的会员价值量化评估方法
CN114386485A (zh) 一种建筑光纤光栅应力传感器的应力曲线聚类方法
CN115438239A (zh) 一种自动化异常样本筛选的异常检测方法及装置
CN116664950B (zh) 极光图像自动分类方法、装置、计算机设备和存储介质
Gupta et al. A detailed Study of different Clustering Algorithms in Data Mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20211022