CN103729530A - 对序列进行处理的装置和方法 - Google Patents
对序列进行处理的装置和方法 Download PDFInfo
- Publication number
- CN103729530A CN103729530A CN201210391204.3A CN201210391204A CN103729530A CN 103729530 A CN103729530 A CN 103729530A CN 201210391204 A CN201210391204 A CN 201210391204A CN 103729530 A CN103729530 A CN 103729530A
- Authority
- CN
- China
- Prior art keywords
- subsequence
- sequence
- subsequences
- similarity
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种对序列进行处理的装置和方法。对序列进行处理的装置包括:划分单元,被配置用于以多个不同的子序列长度,分别将序列划分为多个子序列;相似度计算单元,被配置用于针对每一个子序列长度,计算每两个子序列之间的相似度;周期确定单元,被配置用于确定使相似度的平均值最大的子序列长度作为序列的周期;识别单元,被配置用于在与周期对应的多个子序列中识别异常子序列;以及校正单元,被配置用于对异常子序列进行校正以获得新的序列。
Description
技术领域
本发明涉及数据处理领域,具体涉及对序列进行处理的装置和方法。
背景技术
短期负荷预测(Short Term Load Forecasting,STLF)的目的在于预测特定时间间隔(如,一天或一星期)内的系统负荷。短期负荷预测用于对系统的操作进行控制和规划。进一步的分析,如负荷流分析,也是基于短期负荷预测的结果。
大多数基于短期负荷预测的传统方法一般通过选择不同的预测模型,如线性回归(Linear Regression)模型、指数平滑(Exponential Smoothing)模型、随机处理(Stochastic Process)模型、自回归-滑动平均(Auto-Regressive Moving Average,ARMA)模型、数据挖掘模型、以及人工神经网络(Artificial Neural Networks,ANN)模型。然而,各种模型都可能受到数据中的噪声的影响。但在现存的技术中,很少考虑到识别数据中的噪声并去除噪声或异常,但这对于预测而言是很重要的。
因此,需要一种能够识别并去除数据中的噪声或异常的技术。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的一个主要目的在于,提供一种对序列进行处理的装置和方法。
根据本发明的一个方面,提供了一种对序列进行处理的装置,包括:划分单元,被配置用于以多个不同的子序列长度,分别将序列划分为多个子序列;相似度计算单元,被配置用于针对每一个子序列长度,计算每两个子序列之间的相似度;周期确定单元,被配置用于确定使相似度的平均值最大的子序列长度作为序列的周期;识别单元,被配置用于在与周期对应的多个子序列中识别异常子序列;以及校正单元,被配置用于对异常子序列进行校正以获得新的序列。
根据本发明的另一个方面,提供了一种对序列进行处理的方法,包括:以多个不同的子序列长度,分别将序列划分为多个子序列;针对每一个子序列长度,计算每两个子序列之间的相似度;确定使相似度的平均值最大的子序列长度作为序列的周期;在与周期对应的多个子序列中识别异常子序列;以及对异常子序列进行校正以获得新的序列。
另外,本发明的实施例还提供了用于实现上述方法的计算机程序。
此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1是示出根据本发明的实施例的对序列进行处理的方法100的流程图;
图2示出了对电力负荷时间序列进行划分后的连续多个子序列的图;
图3是示出根据本发明的实施例的对序列进行处理的装置300的结构的框图;
图4是示出根据本发明的实施例的对序列进行处理的装置300’的结构的框图
图5是示出根据本发明的实施例的对序列进行处理的装置300”的结构的框图;
图6是示出根据本发明的实施例的对序列进行处理的装置300’”的结构的框图;以及
图7是示出可以用于实施本发明的对序列进行处理的方法和装置的计算设备的举例的结构图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
图1是示出根据本发明的实施例的对序列进行处理的方法100的流程图。
如图1所示,在步骤S102中,可以按照多个不同的子序列长度,分别将序列划分为多个子序列。假设序列的总长度为100,则可以按照各种子序列长度1、2、3、4……分别对序列进行划分,从而分别得到100个子序列、50个子序列、33个子序列、25个子序列……
在步骤S104中,可以针对每一个子序列长度,计算每两个子序列之间的相似度。仍假设序列的总长度为100,可以计算划分出的100个子序列中每两个之间的相似度、50个子序列中每两个之间的相似度、33个子序列中每两个之间的相似度、25个子序列中每两个之间的相似度……
在步骤S106中,确定使相似度的平均值最大的子序列长度作为序列的周期。仍假设序列的总长度为100,如果用子序列长度4得到的25个子序列中每两个之间的相似度的平均值大于以其他子序列长度划分出的子序列每两个之间的相似度的平均值,则确定4作为序列的周期。也就是说,可以对各种可能的周期长度进行扫描,最可能的周期长度所得到的子序列之间总体来说应是最相似的,据此原理确定序列的周期。
假设序列X被表示为s1,s2,…,sn,其中n为大于1的整数,则可以通过下式来确定周期m,m为大于等于1的整数,
其中,argmax表示使跟随其后的部分最大,[n/m]表示求n/m的整数部分,Si和Sj分别表示以m为单位划分出的子序列中的任意两个,即,Si可以被表示为s(i-1)*m+1,s(i-1)*m+2,…,si*m,Sj可以被表示为s(j-1)*m+1,s(j-1)*m+2,…,sj*m。
尽管在上面的描述中按照两个子序列紧密相邻的方式来划分序列,但实际上,可以按照两个子序列之间部分重叠的方式来划分序列。例如,在分别以不同子序列长度划分序列时使两个子序列之间重叠相同的长度。
仍假设序列的总长度为100,并假设子序列之间的重叠部分长度为1,则在步骤S102中,可以按照各种子序列长度2、3、4……分别对序列进行划分,从而分别得到99个子序列、49个子序列、33个子序列……
在步骤S104中,可以计算划分出的99个子序列中每两个之间的相似度、49个子序列中每两个之间的相似度、33个子序列中每两个之间的相似度……
如果用子序列长度4得到的33个子序列中每两个之间的相似度的平均值大于以其他子序列长度划分出的子序列每两个之间的相似度的平均值,则在步骤S106中确定4作为序列的周期。容易理解到,在按照两个子序列之间部分重叠的方式来划分序列的情况下,将以[n-o/m-o]来替代上述公式(1)中的[n/m],其中o表示重叠部分长度。
在步骤S108中,在与步骤S106中确定的周期对应的多个子序列中识别异常子序列。换句话说,在识别异常子序列时,以步骤S106中确定的周期为单位。
例如,可以计算与步骤S106中确定的周期对应的多个子序列中两两之间的相似度,然后基于所计算出的相似度来识别异常子序列。例如,可以确定下述子序列作为异常子序列:该子序列与其他子序列的相似度,总体上小于其他子序列中每两个子序列之间的相似度。换句话说,如果一个子序列与其他子序列越不相似,则该子序列越有可能是异常的。以电力负荷时间序列为例,如果所确定出的周期为天,则星期一至星期五的电力负荷很可能相似,而星期六和星期日的电力负荷很可能与其他几天的电力负荷不同。在这种情况下,星期六和星期日的电力负荷子时间序列有可能被识别为异常子序列。
假设想要预测的未来某一天的电力负荷,例如,想要预测下星期三的电力负荷,那么之前的星期一至星期五的电力负荷往往对下星期三的电力负荷预测更有作用,而之前的星期六和星期日的电力负荷往往对下星期三的电力负荷预测不起作用,甚至构成干扰。在这种情况下,用新生成的子时间序列来替代星期六和星期日的电力负荷子时间序列是有利的。
此外,还可以通过以下方式在与周期对应的多个子序列中识别异常子序列。首先,可以计算待预测子序列所在周期中的已知部分与以该周期为单位划分出的多个子序列中的每个子序列的对应部分的相似度。然后,可以确定相似度较小的子序列作为异常子序列。仍以电力负荷时间序列为例,如果所确定出的周期为天,并且想要预测的是今天(如,星期三)下午的电力负荷,则可以分别计算之前多天的电力负荷子时间序列与今天上午的电力负荷子时间序列之间的相似度。然后,可以将相似度较小的子时间序列识别为异常子时间序列。容易理解到,与今天上午的电力负荷相似的那些天的电力负荷很可能对预测今天下午的电力负荷更有作用。
在步骤S110中,对异常子序列进行校正以获得新的序列。对异常子序列进行校正的方式有多种,以下将参照如图2详细描述对异常子序列进行校正的处理。
图2示出了对电力负荷时间序列进行划分后得到的连续多个子序列。如图2所示,子序列S3、S9和S10与其他子序列的差别比较大,在步骤S108中,子序列S3、S9和S10被识别为异常子序列。
例如,可以至少基于多个子序列中的正常子序列来生成新的子序列,并以新的子序列替代异常子序列,从而获得的新序列。
在图2的情况中,子序列S1、S2、S4、S5、S6、S7和S8为正常子序列,因此可以基于子序列S1、S2、S4、S5、S6、S7和S8来生成新的子序列,并以新生成的子序列替代异常子序列S3、S9和S10。
相比于直接删除异常子序列,用基于正常子序列生成的新的子序列替代异常子序列更有利,这是因为直接删除异常子序列破坏了整个序列的连续性,而用生成的新的子序列替代异常子序列保留了这种连续性。这种连续性对于数据的完整以及后续可能进行的预测都是非常有用的。
可以按照多种方式以新的子序列替代异常子序列。例如,在存在多个连续的异常子序列的情况下,以小于等于连续的异常子序列的数量的新的子序列来替代连续的异常子序列。例如,如果存在连续三个异常子序列,则可以用生成的三个新子序列替代这三个异常子序列,也可以用两个甚至一个新子序列替代这三个异常子序列。在后一种情况下,整个序列被缩短了,但是仍可以部分地保留原有序列的连续性。其中,可以用相同的新的子序列替代连续的异常子序列中的各异常子序列。也就是说,可以只生成一个新子序列,然后以该新子序列替代连续多个异常子序列中的各个子序列,从而能够减少计算量。
在图2的情况中,S9和S10为连续的两个异常子序列。可以用一个新生成的子序列替代这两个异常子序列S9和S10,也可以用两个新生成的子序列替代这两个异常子序列S9和S0。
可以按照多种方式来生成新的子序列。例如,可以根据在异常子序列之前的一个或多个正常子序列来生成新的子序列。或者,可以根据在异常子序列之后的一个或多个正常子序列来生成新的子序列。再或者,可以结合在异常子序列之前的一个或多个正常子序列以及在异常子序列之后的一个或多个正常子序列来生成新的子序列。具体的情况可取决于实际需要。
在图2的情况中,可以通过以下方式来生成用于替代异常子序列S3的新子序列:异常子序列S3之前的子序列如S1和S2的加权和,或者异常子序列S3之后的子序列如S3、S4、S5、S6、S7及S8中的一个或多个的加权和,或者异常子序列S3之前的子序列如S1及S2与异常子序列S3之后的子序列如S3、S4、S5、S6、S7及S8中的一个或多个的加权和。
此外,还可以根据正常子序列的变化幅度来缩放异常子序列的变化幅度,以生成新的子序列。例如,异常子序列本身的变化趋势可能是正常的,但是异常子序列的幅度与正常子序列的幅度差别较大。在这种情况下,可以保留异常子序列本身的变化趋势,而仅针对幅度进行缩放,即,根据正常子序列的变化幅度来缩放异常子序列的变化幅度。这样做的优势在于,可以充分地保留异常子序列中的有益信息(即,变化趋势),而仅通过缩放来使得异常子序列的变化幅度趋于正常。
在图2的情况中,异常子序列S3的变化趋势与其他的正常子序列相似,但是幅度明显高于正常子序列,因此可以按照正常子序列的平均幅度来缩小异常子序列S3的幅度,以使得异常子序列S3的幅度与正常子序列的幅度相当。
通过上述过程处理得到的序列可以用于预测或估计。例如,可以使用现有的回归模型,如自回归-滑动平均(ARMA)模型和支持向量回归(Support Vector Regression,SVR)模型,来进行预测或估计。
尽管在以上的描述中,以电力负荷时间序列为例进行描述,但是容易理解到,本文所描述的序列不限于电力负荷序列,而可以是任意其他序列,如燃气负荷时间序列、用水负荷时间序列或交通负荷时间序列。此外,本文所描述的序列不局限于时间序列,而可以是具有某种变化趋势的任意其他序列。
图3是示出根据本发明的实施例的对序列进行处理的装置300的结构的框图。
如图3所示,装置300包括划分单元302、相似度计算单元304、周期确定单元306、识别单元308和校正单元310。
划分单元302可以按照多个不同的子序列长度,分别将序列划分为多个子序列。假设序列的总长度为100,则划分单元302可以按照各种子序列长度1、2、3、4……分别对序列进行划分,从而分别得到100个子序列、50个子序列、33个子序列、25个子序列……
相似度计算单元304可以针对每一个子序列长度,计算每两个子序列之间的相似度。仍假设序列的总长度为100,相似度计算单元304可以计算划分出的100个子序列中每两个之间的相似度、50个子序列中每两个之间的相似度、33个子序列中每两个之间的相似度、25个子序列中每两个之间的相似度……
周期确定单元306可以确定使相似度的平均值最大的子序列长度作为序列的周期。仍假设序列的总长度为100,如果用子序列长度4得到的25个子序列中每两个之间的相似度的平均值大于以其他子序列长度划分出的子序列每两个之间的相似度的平均值,则周期确定单元306可以确定4作为序列的周期。也就是说,可以对各种可能的周期长度进行扫描,最可能的周期长度所得到的子序列之间总体来说应是最相似的,据此原理确定序列的周期。
尽管在上面的描述中按照两个子序列紧密相邻的方式来划分序列,但实际上,可以按照两个子序列之间部分重叠的方式来划分序列。例如,在分别以不同子序列长度划分序列时使两个子序列之间重叠相同的长度。
仍假设序列的总长度为100,并假设子序列之间的重叠部分长度为1,则划分单元302可以按照各种子序列长度2、3、4……分别对序列进行划分,从而分别得到99个子序列、49个子序列、33个子序列……
相似度计算单元304可以计算划分出的99个子序列中每两个之间的相似度、49个子序列中每两个之间的相似度、33个子序列中每两个之间的相似度……
如果用子序列长度4得到的33个子序列中每两个之间的相似度的平均值大于以其他子序列长度划分出的子序列每两个之间的相似度的平均值,则周期确定单元306可以确定4作为序列的周期。容易理解到,在按照两个子序列之间部分重叠的方式来划分序列的情况下,将以[n-o/m-o]来替代上述公式(1)中的[n/m],其中o表示重叠部分长度。
识别单元308可以在与周期对应的多个子序列中识别异常子序列。换句话说,在识别单元308识别异常子序列时,以周期确定单元306所确定的周期为单位。
校正单元310可以对异常子序列进行校正以获得新的序列。对异常子序列进行校正的方式有多种,详见参照图1和图2进行的描述。
图4是示出根据本发明的实施例的对序列进行处理的装置300’的结构的框图。
图4所示的装置300’和图3所示的装置300的不同之处在于,识别单元308可以包括相似度计算子单元308-2和确定子单元308-4。
在一个实施例中,相似度计算子单元308-2可以计算多个子序列中每两个子序列之间的相似度,而确定子单元308-4可以确定下述子序列作为异常子序列:该子序列与其他子序列的相似度,总体上小于其他子序列中每两个子序列之间的相似度。
在另一个实施例中,相似度计算子单元308-2可以计算待预测子序列所在周期中的已知部分与多个子序列中的每个子序列的对应部分的相似度,而确定子单元308-4可以确定相似度较小的子序列作为异常子序列。
图5是示出根据本发明的实施例的对序列进行处理的装置300”的结构的框图。
图5所示的装置300”与图3所示的装置300的不同之处在于,校正单元310可以包括生成子单元310-2和替代子单元310-4。
生成子单元310-2可以至少基于多个子序列中的正常子序列来生成新的子序列。替代子单元310-4可以用新的子序列替代异常子序列,从而获得的新序列。
例如,在存在多个连续的异常子序列的情况下,替代子单元310-4可以用小于等于连续的异常子序列的数量的新的子序列来替代连续的异常子序列。在一些实施例中,替代子单元310-4可以用相同的新的子序列替代连续的异常子序列中的各异常子序列。
生成子单元310-2可以根据在异常子序列之前的一个或多个正常子序列、和/或在异常子序列之后的一个或多个正常子序列来生成新的子序列。
附加地或替换地,生成子单元310-2可以根据正常子序列的变化幅度来缩放异常子序列的变化幅度,以生成新的子序列。
图6是示出根据本发明的实施例的对序列进行处理的装置300’”的结构的框图。
图6所示的装置300’”与图3所示的装置300的不同之处在于,装置300”’还包括预测单元312。
预测单元312可以利用新的序列进行或估计。例如,可以使用现有的回归模型,如自回归-滑动平均(ARMA)模型和支持向量回归(SupportVector Regression,SVR)模型,来进行预测或估计。
尽管在以上的描述中,以电力负荷时间序列为例进行描述,但是容易理解到,本文所描述的序列不限于电力负荷序列,而可以是任意其他序列,如燃气负荷时间序列、用水负荷时间序列或交通负荷时间序列。此外,本文所描述的序列不局限于时间序列,而可以是具有某种变化趋势的任意其他序列。
通过本发明,可以在序列中识别异常子序列,并用新生成的子序列替代异常子序列,从而为后续的预测提供了良好的基础。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图7所示的通用计算机700安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中,也根据需要存储当CPU 701执行各种处理等等时所需的数据。CPU 701、ROM 702和RAM 703经由总线704彼此链路。输入/输出接口705也链路到总线704。
下述部件链路到输入/输出接口705:输入部分706(包括键盘、鼠标等等)、输出部分707(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分708(包括硬盘等)、通信部分709(包括网络接口卡比如LAN卡、调制解调器等)。通信部分709经由网络比如因特网执行通信处理。根据需要,驱动器710也可链路到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。
本领域的普通技术人员应理解,在此所例举的是示例性的,本发明并不局限于此。
在本说明书中,“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开,以清楚地描述本发明。因此,不应将其视为具有任何限定性的含义。
作为一个示例,上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合,并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。
作为一个示例,在通过软件或固件实现的情况下,可以从存储介质或网络向具有专用硬件结构的计算机(例如图7所示的通用计算机700)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用,与其他实施方式中的特征相组合,或替代其他实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
本发明及其优点,但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解,根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此,所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。
基于以上的说明,可知公开至少公开了以下技术方案:
技术方案1.一种对序列进行处理的装置,包括:
划分单元,被配置用于以多个不同的子序列长度,分别将所述序列划分为多个子序列;
相似度计算单元,被配置用于针对每一个子序列长度,计算每两个子序列之间的相似度;
周期确定单元,被配置用于确定使所述相似度的平均值最大的子序列长度作为所述序列的周期;
识别单元,被配置用于在与所述周期对应的多个子序列中识别异常子序列;以及
校正单元,被配置用于对所述异常子序列进行校正以获得新的序列。
技术方案2.根据技术方案1所述的装置,其中,所述识别单元包括:
相似度计算子单元,被配置用于计算所述多个子序列中每两个子序列之间的相似度;以及
确定子单元,被配置用于确定下述子序列作为所述异常子序列:该子序列与其他子序列的相似度,总体上小于其他子序列中每两个子序列之间的相似度。
技术方案3.根据技术方案1所述的装置,其中,所述识别单元包括:
相似度计算子单元,被配置用于计算待预测子序列所在周期中的已知部分与所述多个子序列中的每个子序列的对应部分的相似度;以及
确定子单元,被配置用于确定所述相似度较小的子序列作为所述异常子序列。
技术方案4.根据技术方案1所述的装置,其中,所述校正单元包括:
生成子单元,被配置用于至少基于所述多个子序列中的正常子序列来生成所述新的子序列;以及
替代子单元,被配置用于以所述新的子序列替代所述异常子序列,从而获得的新序列。
技术方案5.根据技术方案4所述的装置,其中,所述替代子单元被配置用于,在存在多个连续的异常子序列的情况下,以小于等于所述连续的异常子序列的数量的新的子序列来替代所述连续的异常子序列。
技术方案6.根据技术方案5所述的装置,其中,所述替代子单元被配置用于以相同的新的子序列替代所述连续的异常子序列中的各异常子序列。
技术方案7.根据技术方案4所述的装置,其中,所述生成子单元被配置用于根据在所述异常子序列之前的一个或多个正常子序列、和/或在所述异常子序列之后的一个或多个正常子序列来生成所述新的子序列。
技术方案8.根据技术方案4所述的装置,其中,所述生成子单元被配置用于根据所述正常子序列的变化幅度来缩放所述异常子序列的变化幅度,以生成所述新的子序列。
技术方案9.根据技术方案1至8中任一项所述的装置,还包括:
预测单元,被配置用于利用所述新的序列进行预测。
技术方案10.根据技术方案1至8中任一项所述的装置,其中,所述序列为电力负荷时间序列、燃气负荷时间序列、用水负荷时间序列或交通负荷时间序列。
技术方案11.一种对序列进行处理的方法,包括:
以多个不同的子序列长度,分别将所述序列划分为多个子序列;
针对每一个子序列长度,计算每两个子序列之间的相似度;
确定使所述相似度的平均值最大的子序列长度作为所述序列的周期;
在与所述周期对应的多个子序列中识别异常子序列;以及
对所述异常子序列进行校正以获得新的序列。
技术方案12.根据技术方案11所述的方法,其中,所述在与所述周期对应的多个子序列中识别异常子序列的步骤包括:
计算所述多个子序列中每两个子序列之间的相似度;以及
确定下述子序列作为所述异常子序列:该子序列与其他子序列的相似度,总体上小于其他子序列中每两个子序列之间的相似度。
技术方案13.根据技术方案11所述的方法,其中,所述在与所述周期对应的多个子序列中识别异常子序列的步骤包括:
计算待预测子序列所在周期中的已知部分与所述多个子序列中的每个子序列的对应部分的相似度;以及
确定所述相似度较小的子序列作为所述异常子序列。
技术方案14.根据技术方案11所述的方法,其中,所述对所述异常子序列进行校正以获得新的序列的步骤包括:
至少基于所述多个子序列中的正常子序列来生成所述新的子序列;以及
以所述新的子序列替代所述异常子序列,从而获得的新序列。
技术方案15.根据技术方案14所述的方法,其中,所述以所述新的子序列替代所述异常子序列的步骤包括:
在存在多个连续的异常子序列的情况下,以小于等于所述连续的异常子序列的数量的新的子序列来替代所述连续的异常子序列。
技术方案16.根据技术方案15所述的方法,其中,以相同的新的子序列替代所述连续的异常子序列中的各异常子序列。
技术方案17.根据技术方案14所述的方法,其中,所述至少基于所述多个子序列中的正常子序列来生成所述新的子序列的步骤包括:
根据在所述异常子序列之前的一个或多个正常子序列、和/或在所述异常子序列之后的一个或多个正常子序列来生成所述新的子序列。
技术方案18.根据技术方案14所述的方法,其中,所述至少基于所述多个子序列中的正常子序列来生成所述新的子序列的步骤包括:
根据所述正常子序列的变化幅度来缩放所述异常子序列的变化幅度,以生成所述新的子序列。
技术方案19.根据技术方案11至18中任一项所述的方法,还包括:
利用所述新的序列进行预测。
技术方案20.根据技术方案11至18中任一项所述的方法,其中,所述序列为电力负荷时间序列、燃气负荷时间序列、用水负荷时间序列或交通负荷时间序列。
Claims (10)
1.一种对序列进行处理的装置,包括:
划分单元,被配置用于以多个不同的子序列长度,分别将所述序列划分为多个子序列;
相似度计算单元,被配置用于针对每一个子序列长度,计算每两个子序列之间的相似度;
周期确定单元,被配置用于确定使所述相似度的平均值最大的子序列长度作为所述序列的周期;
识别单元,被配置用于在与所述周期对应的多个子序列中识别异常子序列;以及
校正单元,被配置用于对所述异常子序列进行校正以获得新的序列。
2.根据权利要求1所述的装置,其中,所述识别单元包括:
相似度计算子单元,被配置用于计算所述多个子序列中每两个子序列之间的相似度;以及
确定子单元,被配置用于确定下述子序列作为所述异常子序列:该子序列与其他子序列的相似度,总体上小于其他子序列中每两个子序列之间的相似度。
3.根据权利要求1所述的装置,其中,所述识别单元包括:
相似度计算子单元,被配置用于计算待预测子序列所在周期中的已知部分与所述多个子序列中的每个子序列的对应部分的相似度;以及
确定子单元,被配置用于确定所述相似度较小的子序列作为所述异常子序列。
4.根据权利要求1所述的装置,其中,所述校正单元包括:
生成子单元,被配置用于至少基于所述多个子序列中的正常子序列来生成所述新的子序列;以及
替代子单元,被配置用于以所述新的子序列替代所述异常子序列,从而获得的新序列。
5.根据权利要求4所述的装置,其中,所述替代子单元被配置用于,在存在多个连续的异常子序列的情况下,以小于等于所述连续的异常子序列的数量的新的子序列来替代所述连续的异常子序列。
6.根据权利要求5所述的装置,其中,所述替代子单元被配置用于以相同的新的子序列替代所述连续的异常子序列中的各异常子序列。
7.根据权利要求4所述的装置,其中,所述生成子单元被配置用于根据在所述异常子序列之前的一个或多个正常子序列、和/或在所述异常子序列之后的一个或多个正常子序列来生成所述新的子序列。
8.根据权利要求4所述的装置,其中,所述生成子单元被配置用于根据所述正常子序列的变化幅度来缩放所述异常子序列的变化幅度,以生成所述新的子序列。
9.根据权利要求1至8中任一项所述的装置,还包括:
预测单元,被配置用于利用所述新的序列进行预测。
10.一种对序列进行处理的方法,包括:
以多个不同的子序列长度,分别将所述序列划分为多个子序列;
针对每一个子序列长度,计算每两个子序列之间的相似度;
确定使所述相似度的平均值最大的子序列长度作为所述序列的周期;
在与所述周期对应的多个子序列中识别异常子序列;以及
对所述异常子序列进行校正以获得新的序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210391204.3A CN103729530B (zh) | 2012-10-15 | 2012-10-15 | 对序列进行处理的装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210391204.3A CN103729530B (zh) | 2012-10-15 | 2012-10-15 | 对序列进行处理的装置和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103729530A true CN103729530A (zh) | 2014-04-16 |
CN103729530B CN103729530B (zh) | 2017-05-24 |
Family
ID=50453604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210391204.3A Expired - Fee Related CN103729530B (zh) | 2012-10-15 | 2012-10-15 | 对序列进行处理的装置和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103729530B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107402742A (zh) * | 2017-08-04 | 2017-11-28 | 北京京东尚科信息技术有限公司 | 信息推送方法和装置 |
CN108537466A (zh) * | 2018-04-25 | 2018-09-14 | 北京腾云天下科技有限公司 | 一种统计应用运营指标的方法及计算设备 |
CN110008247A (zh) * | 2018-12-13 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 异常来源确定方法、装置、设备及计算机可读存储介质 |
CN110472190A (zh) * | 2018-05-09 | 2019-11-19 | 北京京东尚科信息技术有限公司 | 填充有序序列的方法和装置 |
CN110858072A (zh) * | 2018-08-24 | 2020-03-03 | 阿里巴巴集团控股有限公司 | 设备运行状态的确定方法及装置 |
CN111835452A (zh) * | 2019-03-29 | 2020-10-27 | 华为技术有限公司 | 一种序列确定方法及装置 |
CN112532368A (zh) * | 2017-11-16 | 2021-03-19 | 华为技术有限公司 | 基于序列的信号处理方法及信号处理装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007072752A (ja) * | 2005-09-07 | 2007-03-22 | Nippon Telegr & Teleph Corp <Ntt> | 類似時系列データ計算方法、類似時系列データ計算装置、および類似時系列データ計算プログラム |
CN102483738A (zh) * | 2009-07-14 | 2012-05-30 | 惠普开发有限公司 | 确定时间数据中的周期性效应 |
CN102591892A (zh) * | 2011-01-13 | 2012-07-18 | 索尼公司 | 数据分段设备和方法 |
-
2012
- 2012-10-15 CN CN201210391204.3A patent/CN103729530B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007072752A (ja) * | 2005-09-07 | 2007-03-22 | Nippon Telegr & Teleph Corp <Ntt> | 類似時系列データ計算方法、類似時系列データ計算装置、および類似時系列データ計算プログラム |
CN102483738A (zh) * | 2009-07-14 | 2012-05-30 | 惠普开发有限公司 | 确定时间数据中的周期性效应 |
CN102591892A (zh) * | 2011-01-13 | 2012-07-18 | 索尼公司 | 数据分段设备和方法 |
Non-Patent Citations (1)
Title |
---|
杜洪波: "时间序列相似性查询及异常检测算法的研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107402742A (zh) * | 2017-08-04 | 2017-11-28 | 北京京东尚科信息技术有限公司 | 信息推送方法和装置 |
CN112532368A (zh) * | 2017-11-16 | 2021-03-19 | 华为技术有限公司 | 基于序列的信号处理方法及信号处理装置 |
US11606238B2 (en) | 2017-11-16 | 2023-03-14 | Huawei Technologies Co., Ltd. | Sequence-based signal processing method and signal processing apparatus |
US11177992B2 (en) | 2017-11-16 | 2021-11-16 | Huawei Technologies Co., Ltd. | Sequence-based signal processing method and signal processing apparatus |
CN112532368B (zh) * | 2017-11-16 | 2021-08-20 | 华为技术有限公司 | 基于序列的信号处理方法及信号处理装置 |
CN108537466A (zh) * | 2018-04-25 | 2018-09-14 | 北京腾云天下科技有限公司 | 一种统计应用运营指标的方法及计算设备 |
CN108537466B (zh) * | 2018-04-25 | 2020-09-15 | 北京腾云天下科技有限公司 | 一种统计应用运营指标的方法及计算设备 |
CN110472190A (zh) * | 2018-05-09 | 2019-11-19 | 北京京东尚科信息技术有限公司 | 填充有序序列的方法和装置 |
CN110858072A (zh) * | 2018-08-24 | 2020-03-03 | 阿里巴巴集团控股有限公司 | 设备运行状态的确定方法及装置 |
CN110858072B (zh) * | 2018-08-24 | 2023-05-09 | 阿里巴巴集团控股有限公司 | 设备运行状态的确定方法及装置 |
CN110008247B (zh) * | 2018-12-13 | 2022-08-16 | 阿里巴巴集团控股有限公司 | 异常来源确定方法、装置、设备及计算机可读存储介质 |
CN110008247A (zh) * | 2018-12-13 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 异常来源确定方法、装置、设备及计算机可读存储介质 |
CN111835452A (zh) * | 2019-03-29 | 2020-10-27 | 华为技术有限公司 | 一种序列确定方法及装置 |
CN111835452B (zh) * | 2019-03-29 | 2021-11-26 | 华为技术有限公司 | 一种序列确定方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103729530B (zh) | 2017-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103729530A (zh) | 对序列进行处理的装置和方法 | |
Fan et al. | Short-term load forecasting based on a semi-parametric additive model | |
US8498887B2 (en) | Estimating project size | |
CN110443657B (zh) | 客户流量数据处理方法、装置、电子设备及可读介质 | |
CN102779223A (zh) | 短期电力负荷预测的方法及装置 | |
CN103368787A (zh) | 信息处理装置、信息处理方法和程序 | |
Guthrie | Real options analysis of climate-change adaptation: investment flexibility and extreme weather events | |
Pascual-González et al. | Combined use of MILP and multi-linear regression to simplify LCA studies | |
Wu et al. | Bayesian inference with Markov chain Monte Carlo–based numerical approach for input model updating | |
Mousavi et al. | A novel approach based on non-parametric resampling with interval analysis for large engineering project risks | |
CN102968669B (zh) | 对负荷进行预测的方法和装置 | |
CN103368788A (zh) | 信息处理设备、信息处理方法和程序 | |
Georgopoulou et al. | Metamodel-assisted evolutionary algorithms for the unit commitment problem with probabilistic outages | |
CN105224994A (zh) | 预测停留时间的装置和方法、确定投递路径的设备和方法 | |
Hu et al. | Optimal maintenance scheduling under uncertainties using Linear Programming-enhanced Reinforcement Learning | |
KR20220115357A (ko) | 어텐션 메커니즘 기반의 미래 수요 예측 데이터 생성방법 및 장치 | |
CN111415027A (zh) | 构建件量预测模型的方法和装置 | |
Kim et al. | A POMDP framework for integrated scheduling of infrastructure maintenance and inspection | |
CN103809985A (zh) | 一种软件开发方案的生成方法及系统 | |
Trabelsi et al. | Prediction of obsolescence degree as a function of time: A mathematical formulation | |
Saadallah et al. | Active learning for accurate settlement prediction using numerical simulations in mechanized tunneling | |
CN111209930A (zh) | 一种生成授信策略的方法、装置和电子设备 | |
CN105224449A (zh) | 移动终端上的应用程序的测试方法和装置 | |
Murad et al. | Software Cost Estimation for Mobile Application Development-A Comparative Study of COCOMO Models | |
CN116865254A (zh) | 一种电力负荷指标预测方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170524 Termination date: 20181015 |
|
CF01 | Termination of patent right due to non-payment of annual fee |