CN103729528B - 对序列进行处理的装置和方法 - Google Patents

对序列进行处理的装置和方法 Download PDF

Info

Publication number
CN103729528B
CN103729528B CN201210390510.5A CN201210390510A CN103729528B CN 103729528 B CN103729528 B CN 103729528B CN 201210390510 A CN201210390510 A CN 201210390510A CN 103729528 B CN103729528 B CN 103729528B
Authority
CN
China
Prior art keywords
subsequence
sequence
predicted
similarity
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210390510.5A
Other languages
English (en)
Other versions
CN103729528A (zh
Inventor
杨宇航
夏迎炬
张明明
于浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201210390510.5A priority Critical patent/CN103729528B/zh
Publication of CN103729528A publication Critical patent/CN103729528A/zh
Application granted granted Critical
Publication of CN103729528B publication Critical patent/CN103729528B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及对序列进行处理的装置和方法。对序列进行处理的装置包括:指示性子序列提取单元,被配置用于从序列中提取待预测子序列之前的、对待预测子序列有指示性作用的指示性子序列;种子提取单元,被配置用于从序列中提取与指示性子序列最相似的子序列作为种子;第一子序列提取单元,被配置用于从序列中提取跟随在种子之后的以下第一子序列:该第一子序列和种子之间的位置关系与待预测子序列和指示性子序列之间的位置关系相同,且该第一子序列与待预测子序列等长;以及类似子序列提取单元,被配置用于从序列中提取与第一子序列有类似的变化趋势的多个子序列,以用于预测待预测子序列。

Description

对序列进行处理的装置和方法
技术领域
本发明涉及数据处理领域,具体涉及对序列进行处理的装置和方法。
背景技术
短期负荷预测(Short Term Load Forecasting,STLF)的目的在于预测特定时间间隔(如,一天或一星期)内的系统负荷。短期负荷预测用于对系统的操作进行控制和规划。进一步的分析,如负荷流分析,也是基于短期负荷预测的结果。
大多数基于短期负荷预测的传统方法一般通过选择不同的预测模型,如线性回归(Linear Regression)模型、指数平滑(Exponential Smoothing)模型、随机处理(Stochastic Process)模型、自回归-滑动平均(Auto-RegressiveMoving Average,ARMA)模型、数据挖掘模型、以及人工神经网络(ArtificialNeural Networks,ANN)模型。然而,对训练数据或历史数据的处理往往对最终所得到的结果有直接的影响,因而训练数据或历史数据的处理是很关键的。
因此,需要一种能够对训练数据或历史数据进行处理的技术。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的一个主要目的在于,提供对序列进行处理的装置和方法。
根据本发明的一个方面,提供了一种对序列进行处理的装置,包括:指示性子序列提取单元,被配置用于从序列中提取待预测子序列之前的、对待预测子序列有指示性作用的指示性子序列;种子提取单元,被配置用于从序列中提取与指示性子序列最相似的子序列作为种子;第一子序列提取单元,被配置用于从序列中提取跟随在种子之后的以下第一子序列:该第一子序列和种子之间的位置关系与待预测子序列和指示性子序列之间的位置关系相同,且该第一子序列与待预测子序列等长;以及类似子序列提取单元,被配置用于从序列中提取与第一子序列有类似的变化趋势的多个子序列,以用于预测待预测子序列。
根据本发明的另一个方面,提供了一种对序列进行处理的方法,包括:从序列中提取待预测子序列之前的、对待预测子序列有指示性作用的指示性子序列;从序列中提取与指示性子序列最相似的子序列作为种子;从序列中提取跟随在种子之后的以下第一子序列:该第一子序列和种子之间的位置关系与待预测子序列和指示性子序列之间的位置关系相同,且该第一子序列与待预测子序列等长;以及从序列中提取与第一子序列有类似的变化趋势的多个子序列,以用于预测待预测子序列。
另外,本发明的实施例还提供了用于实现上述方法的计算机程序。
此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1是示出根据本发明实施例的对序列进行处理的装置的结构的框图;
图2示出了电力负荷时间序列的图;
图3是示出根据本发明实施例的对序列进行处理的装置的结构的框图;
图4是示出根据本发明实施例的对序列进行处理的装置的结构的框图
图5是示出根据本发明实施例的对序列进行处理的装置的结构的框图;
图6是示出根据本发明实施例的对序列进行处理的装置的结构的框图;
图7是示出根据本发明实施例的对序列进行处理的方法的流程图;
图8是示出提取指示性子序列的步骤S702的过程的流程图;
图9是示出从序列中提取与第一子序列有类似的变化趋势的多个子序列的步骤S708的过程的流程图;以及
图10是示出可以用于实施本发明的对序列进行处理的装置和方法的计算设备的举例的结构图。
具体实施方式
下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
图1是示出根据本发明实施例的对序列进行处理的装置100的结构的框图。
如图1所示,装置100可以包括指示性子序列提取单元102、种子提取单元104、第一子序列提取单元106和类似子序列提取单元108。
指示性子序列提取单元102可以从序列中提取待预测子序列之前的、对待预测子序列有指示性作用的子序列,作为指示性子序列。指示性子序列可以紧邻在待预测子序列之前,或者可以与待预测子序列相隔一段距离。
如果序列的周期是已知的,则指示性子序列提取单元102可以将待预测子序列所在周期中的已知子序列确定为指示性子序列。
图2示出了电力负荷时间序列的图。如图2所示,指示性子序列提取单元102可以将待预测子序列P所在周期S11中的已知部分I确定为指示性子序列I。或者,指示性子序列提取单元102可以将待预测子序列所在周期中的已知部分I的一部分确定为指示性子序列。
种子提取单元104可以从序列中提取与指示性子序列最相似的子序列作为种子。
例如,种子提取单元104可以从序列中提取与指示性子序列等长的多个子序列,然后分别计算这些子序列与指示性子序列之间的相似度,最后提取相似度最大的子序列作为种子。
如图2所示,通过上述处理,种子提取单元104可以提取与指示性子序列I最相似的子序列I’作为种子。
第一子序列提取单元106可以从序列中提取跟随在种子之后的以下第一子序列:该第一子序列和种子之间的位置关系与待预测子序列和指示性子序列之间的位置关系相同,且该第一子序列与待预测子序列等长。
如图2所示,第一子序列提取单元106可以从序列中提取第一子序列P’,第一子序列P’和种子I’的位置关系与待预测子序列P和指示性子序列I之间的位置关系相同,并且第一子序列P’与待预测子序列P等长。如图2所示,第一子序列P’与种子I’紧密相邻,待预测子序列P和指示性子序列I紧密相邻。但是,容易理解到,只要第一子序列P’和种子I’的位置关系与待预测子序列P和指示性子序列I之间的位置关系相同就可以,而不一定局限于紧密相邻这种位置关系。
可以看出,通过种子提取单元104提取种子的目的在于,第一子序列提取单元106可以以种子为线索,去寻找在位置上在形状上有可能类似于待预测目标的子序列。
类似子序列提取单元108可以从序列中提取与第一子序列有类似的变化趋势的多个子序列,以用于预测待预测子序列。
类似子序列提取单元108可以基于以下各项中的至少一项来提取与第一子序列有类似的变化趋势的多个子序列:(1)与第一子序列相似的多个子序列的每个子序列与第一子序列的相似度;(2)与第一子序列相似的多个子序列中的每个子序列和之前的指示性子序列的结合与第一子序列和种子的结合之间的相似度;以及(3)与第一子序列相似的多个子序列中的每个子序列之前的指示性子序列与待预测子序列之前的指示性子序列之间的相似度。
在(1)中,通过与第一子序列相似的子序列与第一子序列之间的相似度来提取与第一子序列有类似的变化趋势的多个子序列。在(2)和(3)中描述的与第一子序列相似的多个子序列中的每个子序列之前的指示性子序列指的是,对与第一子序列相似的子序列有指示性作用的子序列。
如图2所示,类似子序列提取单元108可以从序列中提取与第一子序列P’有类似的变化趋势的子序列P1和P2,以用于预测待预测子序列P。
尽管在以上的描述中,以电力负荷时间序列为例进行描述,但是容易理解到,本文所描述的序列不限于电力负荷序列,而可以是任意其他序列,如燃气负荷时间序列、用水负荷时间序列或交通负荷时间序列。此外,本文所描述的序列不局限于时间序列,而可以是具有某种变化趋势的任意其他序列。
图3是示出根据本发明实施例的对序列进行处理的装置100’的结构的框图。
图3所示的装置100’与图1所示的装置100的不同之处在于,装置100’还包括周期确定单元110。
周期确定单元110可以通过以下方式来确定周期。
首先,周期确定单元110可以按照多个不同的子序列长度,分别将序列划分为多个子序列。假设序列的总长度为100,则周期确定单元110可以按照各种子序列长度1、2、3、4……分别对序列进行划分,从而分别得到100个子序列、50个子序列、33个子序列、25个子序列……
然后,周期确定单元110可以针对每一个子序列长度,计算每两个子序列之间的相似度。仍假设序列的总长度为100,周期确定单元110可以计算划分出的100个子序列中每两个之间的相似度、50个子序列中每两个之间的相似度、33个子序列中每两个之间的相似度、25个子序列中每两个之间的相似度……
最后,周期确定单元110可以确定使相似度的平均值最大的子序列长度作为序列的周期。仍假设序列的总长度为100,如果用子序列长度4得到的25个子序列中每两个之间的相似度的平均值大于以其他子序列长度划分出的子序列每两个之间的相似度的平均值,则确定4作为序列的周期。也就是说,可以对各种可能的周期长度进行扫描,最可能的周期长度所得到的子序列之间总体来说应是最相似的,据此原理确定序列的周期。
假设序列X被表示为s1,s2,…,sn,其中n为大于1的整数,则可以通过下式来确定周期m,m为大于等于1的整数,
其中,argmax表示使跟随其后的部分最大,[n/m]表示求n/m的整数部分,Si和Sj分别表示以m为单位划分出的子序列中的任意两个,即,Si可以被表示为s(i-1)*m+1,s(i-1)*m+2,…,si*m,Sj可以被表示为s(j-1)*m+1,s(j-1)*m+2,…,sj*m
尽管在上面的描述中按照两个子序列紧密相邻的方式来划分序列,但实际上,可以按照两个子序列之间部分重叠的方式来划分序列。例如,在分别以不同子序列长度划分序列时使两个子序列之间重叠相同的长度。
仍假设序列的总长度为100,并假设子序列之间的重叠部分长度为1,则周期确定单元110可以按照各种子序列长度2、3、4……分别对序列进行划分,从而分别得到99个子序列、49个子序列、33个子序列……
然后,周期确定单元110可以计算划分出的99个子序列中每两个之间的相似度、49个子序列中每两个之间的相似度、33个子序列中每两个之间的相似度……
如果用子序列长度4得到的33个子序列中每两个之间的相似度的平均值大于以其他子序列长度划分出的子序列每两个之间的相似度的平均值,则周期确定单元110可以确定4作为序列的周期。容易理解到,在按照两个子序列之间部分重叠的方式来划分序列的情况下,将以[n-o/m-o]来替代上述公式(1)中的[n/m],其中o表示重叠部分长度。
在周期确定单元110确定了周期的情况下,指示性子序列提取单元102可以按照周期来提取指示性子序列。例如,如参照图1所描述的,指示性子序列提取单元102可以将待预测子序列所在周期中的已知子序列确定为指示性子序列。
图4是示出根据本发明实施例的对序列进行处理的装置100”的结构的框图。
图4所示的装置100”与图1所示的装置100的不同之处在于,指示性子序列提取单元102可以包括第一提取子单元102-2、第一相似度计算子单元102-4、第二相似度计算子单元102-6、相关性计算子单元102-8、位置关系确定子单元102-10和第二提取子单元102-12。
第一提取子单元102-2可以从序列中提取与待预测子序列的长度相同的多个第二子序列。换句话说,提取所有的与待预测子序列的长度相同的子序列。
第一相似度计算子单元102-4可以计算每两个第二子序列之间的第一相似度。
第二相似度计算子单元102-6可以多次计算每两个第三子序列之间的第二相似度,其中,第三子序列与第二子序列具有一定位置关系,并且在每次计算时使用的位置关系不同。换句话说,针对每种位置关系,分别计算第三子序列每两个之间的相似度,即第二相似度。
相关性计算子单元102-8可以计算第一相似度和第二相似度之间的相关性。
可以通过各种适当的方式来计算相关性。例如,可以通过下式(2)来计算第一相似度Sim1和第二相似度Sim2之间的相关性。
其中,COV(Sim1,Sim2)表示协方差,SSim1表示变量Sim1的标准差,SSim2表示变量Sim2的标准差,n表示样本容量,Sim1i表示变量Sim1的第i个分量,Sim2i表示变量Sim2的第i个分量,表示变量Sim1的样本均值,表示变量Sim2的样本均值。
位置关系确定子单元102-10可以确定与最强相关性对应的位置关系。容易理解到,相关性最强则意味着,具有该位置关系的两个子序列更有可能同时出现,换句话说,具有该位置关系的两个子序列中的前面的子序列对后面的子序列更有指示性作用。
第二提取子单元102-12可以提取相对于待预测子序列有所确定的位置关系的子序列作为指示性子序列。换句话说,所提取的指示性子序列与待预测子序列具有位置关系确定子单元102-10所确定的位置关系。
图5是示出根据本发明实施例的对序列进行处理的装置100”’的结构的框图。
图5所示的装置100”’与图1所示的装置100的不同之处在于,类似子序列提取单元108可以包括聚类子单元108-2和选择子单元108-4。
聚类子单元108-2可以将与第一子序列相似的多个子序列聚类。
例如,聚类子单元108-2可以基于以下各项中的至少一项来执行聚类:(1)与第一子序列相似的多个子序列中的每个子序列与第一子序列之间的相似度;(2)与第一子序列相似的多个子序列中的每个子序列之前的指示性子序列与待预测子序列之前的指示性子序列之间的相似度;(3)与第一子序列相似的多个子序列中的每个子序列和之前的指示性子序列的结合与第一子序列和种子的结合之间的相似度;以及(4)每类中的子序列之间的相似度。
(1)至(3)点与之前参照图1所进行的描述类似,在此不再赘述。
关于(4)中描述的每类中的子序列之间的相似度,可以理解到相似度越大,则代表子序列之间的聚集得越紧密。通常,可以选择聚集得更紧密的那一类中的子序列作为与第一子序列有类似的变化趋势的子序列。
选择子单元108-4可以根据预定规则选择一类子序列,用于预测待预测子序列。
此外,在上述的描述中,多次提到了相似度计算。实际上,可以采用各种已知的方法来计算两个时间序列之间的相似度。例如,可以采用欧式距离(Euclidean distance)和动态时间规整距离(Dynamic Time Warping Distance,DTW)等方法进行计算。与欧式距离相关的计算方法可以参考C.Faloutsos,M.Ranganathan,and Y. Manolopoulos.FastSubsequence Matching in Time-Series Databases.In SIGMOD Conference,1994,该文献通过引用全文结合于此。与动态时间规整距离相关的计算方法可以参考D.J.Berndt andJ.Clifford.Using dynamic time warping to find patterns in time series.In KDDWorkshop,1994,该文献通过引用全文结合于此。
除了基于上述的相似度计算方法来聚类之外,还可以通过类别合并策略来聚类。在类别合并策略中,每次计算类别(或子序列)间的距离,并根据预定策略对类别进行合并,直至得到两个类别。预定策略例如可以是,每次将平均距离(或距离)最小的两个类别(或子序列)进行合并,或者每次将平均距离小于一定阈值的类别(或子序列)进行合并。
图6是示出根据本发明实施例的对序列进行处理的装置100””的结构的框图。
图6所示的装置100””与图1所示的装置100的不同之处在于,装置100””还包括预测单元112。
预测单元112可以基于与第一子序列有类似的变化趋势的一个或多个子序列来预测待预测子序列。例如,可以通过取这些子序列的平均值来预测待预测子序列。但是,容易理解到预测待预测子序列的方式不限于此。因为与第一子序列有类似的变化趋势的一个或多个子序列包含了对预测待预测子序列有用的信息,所以可以采用现有的任意适当的方法来利用这些信息,从而预测待预测子序列。
以上参照图1-6描述了对序列进行处理的装置,容易理解到,这些装置中的各单元的描述也适用于以下的方法。
图7是示出根据本发明实施例的对序列进行处理的方法700的流程图。
如图7所示,在步骤S702中,可以从序列中提取待预测子序列之前的、对待预测子序列有指示性作用的子序列,作为指示性子序列。指示性子序列可能紧邻在待预测子序列之前,也可能与待预测子序列相隔一段距离。
例如,可以将待预测子序列所在周期中的已知子序列确定为指示性子序列。
其中,可以通过如下步骤来确定周期:以多个不同的子序列长度,分别将序列划分为多个子序列;针对每一个子序列长度,计算每两个子序列之间的相似度;以及确定使相似度的平均值最大的子序列长度作为序列的周期。
在步骤S704中,可以从序列中提取与指示性子序列最相似的子序列作为种子。例如,可以从序列中提取与指示性子序列等长的多个子序列,然后分别计算这些子序列与指示性子序列之间的相似度,最后提取相似度最大的子序列作为种子。提取种子的目的在于,以种子为线索,去寻找在位置上在形状上有可能类似于待预测目标的子序列。
在步骤S706中,可以从序列中提取跟随在种子之后的以下第一子序列:该第一子序列和种子之间的位置关系与待预测子序列和指示性子序列之间的位置关系相同,且该第一子序列与待预测子序列等长。
在步骤S708中,可以从序列中提取与第一子序列有类似的变化趋势的多个子序列,以用于预测待预测子序列。
提取与第一子序列有类似的变化趋势的多个子序列的步骤S708可以基于以下各项中的至少一项:(1)与第一子序列相似的多个子序列的每个子序列与第一子序列的相似度;(2)与第一子序列相似的多个子序列中的每个子序列和之前的指示性子序列的结合与第一子序列和种子的结合之间的相似度;以及(3)与第一子序列相似的多个子序列中的每个子序列之前的指示性子序列与待预测子序列之前的指示性子序列之间的相似度。
在(1)中,通过各个与第一子序列相似的子序列与第一子序列之间的相似度来提取与第一子序列有类似的变化趋势的多个子序列。在(2)和(3)中描述的与第一子序列相似的多个子序列中的每个子序列之前的指示性子序列指的是,对与第一子序列相似的子序列有指示性作用的子序列。
图8是示出提取指示性子序列的步骤S702的过程的流程图。
如图8所示,在步骤S702-2中,可以从序列中提取与待预测子序列的长度相同的多个第二子序列。换句话说,提取所有的与待预测子序列的长度相同的子序列。
在步骤S702-4中,可以计算每两个第二子序列之间的第一相似度。
在步骤S702-6中,可以多次计算每两个第三子序列之间的第二相似度,其中,第三子序列与第二子序列具有一定位置关系,并且在每次计算时使用的位置关系不同。换句话说,针对每种位置关系,分别计算第三子序列每两个之间的相似度,即第二相似度。
在步骤S702-8中,可以计算第一相似度和第二相似度之间的相关性。关于相关性的描述详见参照图3进行的描述。
在步骤S702-10中,可以确定与最强相关性对应的位置关系。容易理解到,相关性最强则意味着,具有该位置关系的两个子序列更有可能同时出现,换句话说,具有该位置关系的两个子序列中的前面的子序列对后面的子序列更有指示性作用。
在步骤S702-12中,可以提取相对于待预测子序列有所确定的位置关系的子序列作为子序列,作为指示性子序列。
图9是示出提取指示性子序列的步骤S708的过程的流程图。
如图9所示,在步骤S708-2中,可以将与第一子序列相似的多个子序列聚类。
在步骤S708-4中,可以根据预定规则选择一类子序列,用于预测待预测子序列。
将与第一子序列相似的多个子序列聚类的步骤S708-2可以基于以下各项中的至少一项:(1)与第一子序列相似的多个子序列中的每个子序列与第一子序列之间的相似度;(2)与第一子序列相似的多个子序列中的每个子序列之前的指示性子序列与待预测子序列之前的指示性子序列之间的相似度;(3)与第一子序列相似的多个子序列中的每个子序列和之前的指示性子序列的结合与第一子序列和种子的结合之间的相似度;以及(4)每类中的子序列之间的相似度。
(1)至(3)点与之前参照图1所进行的描述类似,在此不再赘述。
关于(4)中描述的每类中的子序列之间的相似度,可以理解到,相似度越大,子序列之间的聚集得越紧密。通常,可以选择聚集得更紧密的那一类中的子序列作为与第一子序列有类似的变化趋势的子序列。
在得到了与第一子序列有类似的变化趋势的一个或多个子序列之后,可以基于与第一子序列有类似的变化趋势的一个或多个子序列来预测待预测子序列。例如,可以通过取这些子序列的平均值来预测待预测子序列。但是,容易理解到预测待预测子序列的方式不限于此。因为与第一子序列有类似的变化趋势的一个或多个子序列包含了对预测待预测子序列有用的信息,所以可以采用现有的任意适当的方法来利用这些信息,从而预测待预测子序列。
容易理解到,本文所描述的序列可以是电力负荷时间序列、燃气负荷时间序列、用水负荷时间序列或交通负荷时间序列等任意序列。此外,本文所描述的序列不局限于时间序列,而可以是具有某种变化趋势的任意其他序列。
根据本发明的上述实施例,通过提取对待预测子序列有指示性作用的指示性子序列,再提取种子,并以种子为线索,去寻找在位置上、在形状上有可能类似于待预测目标的子序列,最后再基于该子序列提取用于预测待子序列的多个子序列,能够减少序列中对预测待预测子序列作用不大、甚至起反作用的那些子序列(如,异常子序列、噪声子序列等)的干扰,从而使得预测结果更加准确。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图10所示的通用计算机1000安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图10中,中央处理单元(CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机存取存储器(RAM)1003的程序执行各种处理。在RAM 1003中,也根据需要存储当CPU 1001执行各种处理等等时所需的数据。CPU 1001、ROM 1002和RAM 1003经由总线1004彼此链路。输入/输出接口1005也链路到总线1004。
下述部件链路到输入/输出接口1005:输入部分1006(包括键盘、鼠标等等)、输出部分1007(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1008(包括硬盘等)、通信部分1009(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1009经由网络比如因特网执行通信处理。根据需要,驱动器1010也可链路到输入/输出接口1005。可拆卸介质1011比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1010上,使得从中读出的计算机程序根据需要被安装到存储部分1008中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1011安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图10所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1011。可拆卸介质1011的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1002、存储部分1008中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。
本领域的普通技术人员应理解,在此所例举的是示例性的,本发明并不局限于此。
在本说明书中,“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开,以清楚地描述本发明。因此,不应将其视为具有任何限定性的含义。
作为一个示例,上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合,并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。
作为一个示例,在通过软件或固件实现的情况下,可以从存储介质或网络向具有专用硬件结构的计算机(例如图10所示的通用计算机1000)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用,与其他实施方式中的特征相组合,或替代其他实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
本发明及其优点,但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解,根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此,所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。
基于以上的说明,可知公开至少公开了以下技术方案:
技术方案1.一种对序列进行处理的装置,包括:
指示性子序列提取单元,被配置用于从所述序列中提取待预测子序列之前的、对所述待预测子序列有指示性作用的指示性子序列;
种子提取单元,被配置用于从所述序列中提取与所述指示性子序列最相似的子序列作为种子;
第一子序列提取单元,被配置用于从所述序列中提取跟随在所述种子之后的以下第一子序列:该第一子序列和所述种子之间的位置关系与所述待预测子序列和所述指示性子序列之间的位置关系相同,且该第一子序列与所述待预测子序列等长;以及
类似子序列提取单元,被配置用于从所述序列中提取与所述第一子序列有类似的变化趋势的多个子序列,以用于预测所述待预测子序列。
技术方案2.根据技术方案1所述的装置,其中,所述指示性子序列提取单元还被配置用于将所述待预测子序列所在周期中的已知子序列确定为指示性子序列。
技术方案3.根据技术方案2所述的装置,还包括周期确定单元,所述周期确定单元被配置用于通过以下方式来确定所述周期:
以多个不同的子序列长度,分别将所述序列划分为多个子序列;
针对每一个子序列长度,计算每两个子序列之间的相似度;以及
确定使所述相似度的平均值最大的子序列长度作为所述序列的周期。
技术方案4.根据技术方案1所述的装置,其中,所述指示性子序列提取单元包括:
第一提取子单元,被配置用于从所述序列中提取多个第二子序列,其中所述第二子序列的长度与所述待预测子序列的长度相同;
第一相似度计算子单元,被配置用于计算每两个所述第二子序列之间的第一相似度;
第二相似度计算子单元,被配置用于多次计算每两个第三子序列之间的第二相似度,其中,所述第三子序列与所述第二子序列具有一定位置关系,并且在每次计算时使用的位置关系不同;
相关性计算子单元,被配置用于计算所述第一相似度和所述第二相似度之间的相关性;
位置关系确定子单元,被配置用于确定与最强相关性对应的位置关系;以及
第二提取子单元,被配置用于提取相对于所述待预测子序列有所述位置关系的子序列作为所述指示性子序列。
技术方案5.根据技术方案1所述的装置,其中,所述类似子序列提取单元包括:
聚类子单元,被配置用于将与所述第一子序列相似的多个子序列聚类;以及
选择子单元,被配置用于根据预定规则选择一类子序列,用于预测所述待预测子序列。
技术方案6.根据技术方案5所述的装置,其中,所述聚类子单元基于以下各项中的至少一项来执行聚类:
与所述第一子序列相似的多个子序列中的每个子序列与所述第一子序列之间的相似度,
与所述第一子序列相似的多个子序列中的每个子序列之前的指示性子序列与所述待预测子序列之前的指示性子序列之间的相似度,
以下两项之间的相似度:与所述第一子序列相似的多个子序列中的每个子序列和之前的指示性子序列的结合,以及所述第一子序列和所述种子的结合,以及
每类中的子序列之间的相似度。
技术方案7.根据技术方案1所述的装置,其中,所述类似子序列提取单元基于以下各项中的至少一项来提取与所述第一子序列有类似的变化趋势的多个子序列:
与所述第一子序列相似的多个子序列中的每个子序列与所述第一子序列的相似度,
与所述第一子序列相似的多个子序列中的每个子序列之前的指示性子序列与所述待预测子序列之前的指示性子序列之间的相似度,以及
以下两项之间的相似度:与所述第一子序列相似的多个子序列中的每个子序列和之前的指示性子序列的结合,以及所述第一子序列和所述种子的结合之间的相似度。
技术方案8.根据技术方案1所述的装置,还包括:
预测单元,被配置用于基于与所述第一子序列有类似的变化趋势的一个或多个子序列来预测所述待预测子序列。
技术方案9.根据技术方案1至8中任一项所述的装置,其中,所述序列为电力负荷时间序列、燃气负荷时间序列、用水负荷时间序列或交通负荷时间序列。
技术方案10.一种对序列进行处理的方法,包括:
从所述序列中提取待预测子序列之前的、对所述待预测子序列有指示性作用的指示性子序列;
从所述序列中提取与所述指示性子序列最相似的子序列作为种子;
从所述序列中提取跟随在所述种子之后的以下第一子序列:该第一子序列和所述种子之间的位置关系与所述待预测子序列和所述指示性子序列之间的位置关系相同,且该第一子序列与所述待预测子序列等长;以及
从所述序列中提取与所述第一子序列有类似的变化趋势的多个子序列,以用于预测所述待预测子序列。
技术方案11.根据技术方案10所述的方法,其中,所述提取指示性子序列的步骤包括:
将所述待预测子序列所在周期中的已知子序列确定为指示性子序列。
技术方案12.根据技术方案11所述的方法,其中,所述周期是通过如下步骤来确定的:
以多个不同的子序列长度,分别将所述序列划分为多个子序列;
针对每一个子序列长度,计算每两个子序列之间的相似度;以及
确定使所述相似度的平均值最大的子序列长度作为所述序列的周期。
技术方案13.根据技术方案10所述的方法,其中,所述提取指示性子序列的步骤包括:
从所述序列中提取多个第二子序列,其中所述第二子序列的长度与所述待预测子序列的长度相同;
计算每两个所述第二子序列之间的第一相似度;
多次计算每两个第三子序列之间的第二相似度,其中,所述第三子序列与所述第二子序列具有一定位置关系,并且在每次计算时使用的位置关系不同;
计算所述第一相似度和所述第二相似度之间的相关性;
确定与最强相关性对应的位置关系;以及
提取相对于所述待预测子序列有所述位置关系的子序列作为所述指示性子序列。
技术方案14.根据技术方案10所述的方法,其中,所述提取与所述第一子序列有类似的变化趋势的多个子序列的步骤包括:
将与所述第一子序列相似的多个子序列聚类;以及
根据预定规则选择一类子序列,用于预测所述待预测子序列。
技术方案15.根据技术方案14所述的方法,其中,所述将与所述第一子序列相似的多个子序列聚类的步骤基于以下各项中的至少一项:
与所述第一子序列相似的多个子序列中的每个子序列与所述第一子序列之间的相似度,
与所述第一子序列相似的多个子序列中的每个子序列之前的指示性子序列与所述待预测子序列之前的指示性子序列之间的相似度,
以下两项之间的相似度:与所述第一子序列相似的多个序列中的每个子序列和之前的指示性子序列的结合,以及所述第一子序列和所述种子的结合,以及
每类中的子序列之间的相似度。
技术方案16.根据技术方案10所述的方法,其中,所述提取与所述第一子序列有类似的变化趋势的多个子序列的步骤基于以下各项中的至少一项:
与所述第一子序列相似的多个序列中的每个子序列与所述第一子序列的相似度,
与所述第一子序列相似的多个序列中的每个子序列之前的指示性子序列与所述待预测子序列之前的指示性子序列之间的相似度,以及
以下两项之间的相似度:与所述第一子序列相似的多个序列中的每个子序列和之前的指示性子序列的结合,以及所述第一子序列和所述种子的结合之间的相似度。
技术方案17.根据技术方案10所述的方法,还包括:
基于与所述第一子序列有类似的变化趋势的一个或多个子序列来预测所述待预测子序列。
技术方案18.根据技术方案10至17中任一项所述的方法,其中,所述序列为电力负荷时间序列、燃气负荷时间序列、用水负荷时间序列或交通负荷时间序列。
技术方案19.一种存储有机器可读取的指令代码的程序产品,所述指令代码由机器读取并执行时,可执行根据技术方案10至18中任一项所述的方法。
技术方案20.一种承载有根据技术方案19所述的程序产品的存储介质。

Claims (8)

1.一种对系统负荷进行预测的装置,包括:
指示性子序列提取单元,被配置用于从系统负荷时间序列中提取待预测子序列之前的、对所述待预测子序列有指示性作用的指示性子序列,其中,所述待预测子序列表示特定时间间隔内的系统负荷;
种子提取单元,被配置用于从所述系统负荷时间序列中提取与所述指示性子序列最相似的子序列作为种子;
第一子序列提取单元,被配置用于从所述系统负荷时间序列中提取跟随在所述种子之后的以下第一子序列:该第一子序列和所述种子之间的位置关系与所述待预测子序列和所述指示性子序列之间的位置关系相同,且该第一子序列与所述待预测子序列等长;以及
类似子序列提取单元,被配置用于从所述系统负荷时间序列中提取与所述第一子序列有类似的变化趋势的多个子序列,以用于预测所述待预测子序列,
其中,所述指示性子序列提取单元将所述待预测子序列所在周期中的已知子序列确定为所述指示性子序列,或者
其中,所述指示性子序列提取单元包括:
第一提取子单元,被配置用于从所述系统负荷时间序列中提取多个第二子序列,其中所述第二子序列的长度与所述待预测子序列的长度相同;
第一相似度计算子单元,被配置用于计算每两个所述第二子序列之间的第一相似度;
第二相似度计算子单元,被配置用于多次计算每两个第三子序列之间的第二相似度,其中,所述第三子序列与所述第二子序列具有一定位置关系,并且在每次计算时使用的位置关系不同;
相关性计算子单元,被配置用于计算所述第一相似度和所述第二相似度之间的相关性;
位置关系确定子单元,被配置用于确定与最强相关性对应的位置关系;以及
第二提取子单元,被配置用于提取相对于所述待预测子序列有所述位置关系的子序列作为所述指示性子序列。
2.根据权利要求1所述的装置,还包括周期确定单元,所述周期确定单元被配置用于通过以下方式来确定所述周期:
以多个不同的子序列长度,分别将所述系统负荷时间序列划分为多个子序列;
针对每一个子序列长度,计算每两个子序列之间的相似度;以及
确定使所述相似度的平均值最大的子序列长度作为所述系统负荷时间序列的周期。
3.根据权利要求1所述的装置,其中,所述类似子序列提取单元包括:
聚类子单元,被配置用于将与所述第一子序列等长的多个子序列聚类;以及
选择子单元,被配置用于根据预定规则选择一类子序列,用于预测所述待预测子序列。
4.根据权利要求3所述的装置,其中,所述聚类子单元基于以下各项中的至少一项来执行聚类:
与所述第一子序列相似的多个子序列中的每个子序列与所述第一子序列之间的相似度,
与所述第一子序列相似的多个子序列中的每个子序列之前的指示性子序列与所述待预测子序列之前的指示性子序列之间的相似度,
以下两项之间的相似度:与所述第一子序列相似的多个子序列中的每个子序列和之前的指示性子序列的结合,以及所述第一子序列和所述种子的结合,以及
每类中的子序列之间的相似度。
5.根据权利要求1所述的装置,其中,所述类似子序列提取单元基于以下各项中的至少一项来提取与所述第一子序列有类似的变化趋势的多个子序列:
与所述第一子序列相似的多个子序列中的每个子序列与所述第一子序列的相似度,
与所述第一子序列相似的多个子序列中的每个子序列之前的指示性子序列与所述待预测子序列之前的指示性子序列之间的相似度,以及
以下两项之间的相似度:与所述第一子序列相似的多个子序列中的每个子序列和之前的指示性子序列的结合,以及所述第一子序列和所述种子的结合之间的相似度。
6.根据权利要求1所述的装置,还包括:
预测单元,被配置用于基于与所述第一子序列有类似的变化趋势的多个子序列来预测所述待预测子序列。
7.根据权利要求1至6中任一项所述的装置,其中,所述系统负荷时间序列为电力负荷时间序列、燃气负荷时间序列、用水负荷时间序列或交通负荷时间序列。
8.一种对系统负荷进行预测的方法,包括:
从系统负荷时间序列中提取待预测子序列之前的、对所述待预测子序列有指示性作用的指示性子序列,其中,所述待预测子序列表示特定时间间隔内的系统负荷;
从所述系统负荷时间序列中提取与所述指示性子序列最相似的子序列作为种子;
从所述系统负荷时间序列中提取跟随在所述种子之后的以下第一子序列:该第一子序列和所述种子之间的位置关系与所述待预测子序列和所述指示性子序列之间的位置关系相同,且该第一子序列与所述待预测子序列等长;以及
从所述系统负荷时间序列中提取与所述第一子序列有类似的变化趋势的多个子序列,以用于预测所述待预测子序列,
其中,将所述待预测子序列所在周期中的已知子序列确定为所述指示性子序列,或者
其中,通过下述方式提取所述指示性子序列:
从所述系统负荷时间序列中提取多个第二子序列,其中所述第二子序列的长度与所述待预测子序列的长度相同;
计算每两个所述第二子序列之间的第一相似度;
多次计算每两个第三子序列之间的第二相似度,其中,所述第三子序列与所述第二子序列具有一定位置关系,并且在每次计算时使用的位置关系不同;
计算所述第一相似度和所述第二相似度之间的相关性;
确定与最强相关性对应的位置关系;以及
提取相对于所述待预测子序列有所述位置关系的子序列作为所述指示性子序列。
CN201210390510.5A 2012-10-15 2012-10-15 对序列进行处理的装置和方法 Expired - Fee Related CN103729528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210390510.5A CN103729528B (zh) 2012-10-15 2012-10-15 对序列进行处理的装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210390510.5A CN103729528B (zh) 2012-10-15 2012-10-15 对序列进行处理的装置和方法

Publications (2)

Publication Number Publication Date
CN103729528A CN103729528A (zh) 2014-04-16
CN103729528B true CN103729528B (zh) 2017-06-16

Family

ID=50453602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210390510.5A Expired - Fee Related CN103729528B (zh) 2012-10-15 2012-10-15 对序列进行处理的装置和方法

Country Status (1)

Country Link
CN (1) CN103729528B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101884B (zh) * 2018-07-10 2021-05-04 北京大学 一种脉冲阵列预测方法
CN110688414B (zh) * 2019-09-29 2022-07-22 京东方科技集团股份有限公司 时序数据的处理方法、装置和计算机可读存储介质
CN111145778B (zh) * 2019-11-28 2023-04-04 科大讯飞股份有限公司 音频数据的处理方法、装置、电子设备及计算机存储介质
CN116258281B (zh) * 2023-05-12 2023-07-25 欣灵电气股份有限公司 基于云平台管理的物联网消防监测及调控系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1474243A (zh) * 2002-07-26 2004-02-11 株式会社东芝 预测系统
JP2007257020A (ja) * 2006-03-20 2007-10-04 Biomatics Inc 生物学的な配列情報の検索装置、検索方法および検索プログラム
US7818224B2 (en) * 2001-03-22 2010-10-19 Boerner Sean T Method and system to identify discrete trends in time series
CN103748993B (zh) * 2009-05-31 2011-02-16 北京理工大学 一种基于多序列组合的主机负载预测方法
CN101989289A (zh) * 2009-08-06 2011-03-23 富士通株式会社 数据聚类方法和装置
CN102073785A (zh) * 2010-11-26 2011-05-25 哈尔滨工程大学 基于广义动态模糊神经网络的燃气日负荷组合预报方法
CN102483738A (zh) * 2009-07-14 2012-05-30 惠普开发有限公司 确定时间数据中的周期性效应

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7818224B2 (en) * 2001-03-22 2010-10-19 Boerner Sean T Method and system to identify discrete trends in time series
CN1474243A (zh) * 2002-07-26 2004-02-11 株式会社东芝 预测系统
JP2007257020A (ja) * 2006-03-20 2007-10-04 Biomatics Inc 生物学的な配列情報の検索装置、検索方法および検索プログラム
CN103748993B (zh) * 2009-05-31 2011-02-16 北京理工大学 一种基于多序列组合的主机负载预测方法
CN102483738A (zh) * 2009-07-14 2012-05-30 惠普开发有限公司 确定时间数据中的周期性效应
CN101989289A (zh) * 2009-08-06 2011-03-23 富士通株式会社 数据聚类方法和装置
CN102073785A (zh) * 2010-11-26 2011-05-25 哈尔滨工程大学 基于广义动态模糊神经网络的燃气日负荷组合预报方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Fusion of Similarity Measures for Time Series Classification》;Krisztian Buza, et al;;《6th International Conference,HAIS 2011》;20111231;第253-261页 *
《基于数据挖掘的电力短期负荷预测模型及方法的研究》;程其云;《中国博士学位论文全文数据库工程科技Ⅱ辑 》;20050615(第2期);C042-15页 *
《多变量时间序列的预处理和聚类研究》;卓飞豹;《中国优秀硕士学位论文全文数据库》;20111215(第S1期);第I138-1125页 *

Also Published As

Publication number Publication date
CN103729528A (zh) 2014-04-16

Similar Documents

Publication Publication Date Title
Got et al. Hybrid filter-wrapper feature selection using whale optimization algorithm: A multi-objective approach
Ponweiser et al. Clustered multiple generalized expected improvement: A novel infill sampling criterion for surrogate models
Eskin et al. Protein family classification using sparse markov transducers
Tang et al. An improved genetic algorithm based on a novel selection strategy for nonlinear programming problems
CN103729528B (zh) 对序列进行处理的装置和方法
Li et al. Benchmark study of feature selection strategies for multi-omics data
CN103729530B (zh) 对序列进行处理的装置和方法
CN108052696B (zh) 利用粒子群算法的三值fprm电路面积与延时优化方法
CN110738362A (zh) 一种基于改进的多元宇宙算法构建预测模型的方法
US20080306891A1 (en) Method for machine learning with state information
Seo et al. Cancer-related gene signature selection based on boosted regression for multilayer perceptron
Wong et al. Two-stage classification methods for microarray data
CN105740949A (zh) 一种基于随机性best策略的群体全局优化方法
Xavier-Júnior et al. A novel evolutionary algorithm for automated machine learning focusing on classifier ensembles
Mahmoodian et al. Using support vector regression in gene selection and fuzzy rule generation for relapse time prediction of breast cancer
KR102336311B1 (ko) 딥러닝을 이용한 암의 예후 예측 모델
CN113706285A (zh) 一种信用卡欺诈检测方法
Bosnic et al. Evaluation of prediction reliability in regression using the transduction principle
Cateni et al. Variable selection for efficient design of machine learning-based models: Efficient approaches for industrial applications
Meléndez et al. Assessing Tree-Based Phenotype Prediction on the UK Biobank
Klonecki et al. Cost-constrained Group Feature Selection Using Information Theory
Sinha et al. A study of feature selection and extraction algorithms for cancer subtype prediction
Wieczorek et al. Building a model for time reduction of steel scrap meltdown in the electric arc furnace (EAF): General strategy with a comparison of feature selection methods
Dash Hill-climber based fuzzy-rough feature extraction with an application to cancer classification
Syed et al. Improved Single Target Accuracy Using Feature Selection for Multitarget Regression

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170616

Termination date: 20181015