CN103294911A - 一种时间序列相似度值获取方法及系统 - Google Patents

一种时间序列相似度值获取方法及系统 Download PDF

Info

Publication number
CN103294911A
CN103294911A CN201310195358XA CN201310195358A CN103294911A CN 103294911 A CN103294911 A CN 103294911A CN 201310195358X A CN201310195358X A CN 201310195358XA CN 201310195358 A CN201310195358 A CN 201310195358A CN 103294911 A CN103294911 A CN 103294911A
Authority
CN
China
Prior art keywords
time series
similarity value
time
sequence
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310195358XA
Other languages
English (en)
Other versions
CN103294911B (zh
Inventor
杨树强
尹洪
赵辉
陈志坤
贾焰
金松昌
周斌
韩伟红
韩毅
舒琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201310195358.XA priority Critical patent/CN103294911B/zh
Publication of CN103294911A publication Critical patent/CN103294911A/zh
Application granted granted Critical
Publication of CN103294911B publication Critical patent/CN103294911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明中公开了一种时间序列相似度值获取方法及系统,方法和系统均应用于时间序列集中,时间序列集包括至少两个时间序列,任意选择其中一个时间序列作为目标时间序列,将目标时间序列进行分割,得到至少两个时间子序列,将每个时间子序列分别分布在不同的服务器集群中的不同节点上,而其余的时间序列不分割,并且可分别分布在不同的服务器集群中的不同节点上,分别获取每个时间子序列与时间序列集中的其余每个时间序列的弯曲路径,依据弯曲路径,确定目标时间序列与时间序列集中的其余每个时间序列的相似度值,这样就可以同时并行的获取时间序列的相似度值,因此提高了运算效率,特别适用超长时间序列的相似度值获取。

Description

一种时间序列相似度值获取方法及系统
技术领域
本发明涉及信息处理领域,特别是一种时间序列相似度值获取方法及系统。
背景技术
时间序列是重要的时序数据,广泛存在于日常生活、金融和科学应用中,挖掘有用的时间序列模式是十分重要的,数值性和连续性是时间序列数据的重要特点,这使得相似性的研究成为时间序列的一个最基本的问题。随着互联网的迅猛发展,每天由网络产生的互联网数据量越来越庞大,如何进行海量数据的分析和挖掘一直是互联网分析领域一个非常重要的研究课题,而面对海量数据,相似度值的获取变得更加复杂、耗时。
由于需要对海量数据进行分析,那么时间序列的长度可能达到上千万个观测值,因此使用传统的时间序列相似度表方法,如动态时间弯曲(DTW),在比较两个时间序列的相似度时,其距离矩阵将达到千万行×千万列,对于任何一台单独的服务器,都是很难处理这种超大型矩阵阵列,因此会存在运算效率低下的问题。
发明内容
本发明提供一种时间序列相似度值获取方法及系统,以解决使用现有技术中单独的服务器很难处理超大型矩阵阵列,而出现的运算效率低下的问题。
具体技术方案如下:
一种时间序列相似度值获取方法,所述方法应用于时间序列集,其中,所述时间序列集包括至少两条时间序列,包括:
任意选择所述时间序列集中的一条时间序列作为目标时间序列;
将所述目标时间序列进行分割,得到至少两个时间子序列;
分别获取所述每个时间子序列与所述时间序列集中的其余每个时间序列的弯曲路径;
依据所述弯曲路径,确定所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值。
优选地,还包括:
将所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值按照相似度值的大小进行排序,得到排序后的相似度值;
判断所述排序后的相似度值是否符合预设条件,如果是,则符合预设条件的所述时间序列相似于所述目标时间序列。
优选地,所述将所述目标时间序列进行分割,得到至少两个时间子序列的过程包括:
依据预设的滑动窗口将所述目标时间序列进行分割,得到至少两个时间子序列。
优选地,所述判断所述排序后的相似度值是否符合预设条件,如果是,则符合预设条件的所述时间序列相似于所述目标时间序列包括:
确定所述排序后的相似度值中最小的相似度值,得到与所述最小相似度值对应的所述时间序列相似于所述目标时间序列。
一种时间序列相似度值获取系统,所述系统应用于时间序列集,其中,所述时间序列集包括至少两条时间序列,所述系统包括:选择模块、分割模块、获取模块和确定模块;
其中,所述选择模块用于,任意选择所述时间序列集中的一条时间序列作为目标时间序列;
所述分割模块用于,将所述目标时间序列进行分割,得到至少两个时间子序列;
所述获取模块用于,分别获取所述每个时间子序列与所述时间序列集中的其余每个时间序列的弯曲路径;
所述确定模块用于,依据所述弯曲路径,确定所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值。
优选地,还包括:排序模块和判断模块;
所述排序模块用于,将所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值按照相似度值的大小进行排序,得到排序后的相似度值;
所述判断模块用于,判断所述排序后的相似度值是否符合预设条件,如果是,则符合预设条件的所述时间序列相似于所述目标时间序列。
从以上技术方案可以看出,本发明中提供的一种时间序列相似度值获取方法及系统,所述方法和所述系统均应用于时间序列集中,其中,所述时间序列集包括至少两个时间序列,包括:任意选择所述时间序列集中的一条时间序列作为目标时间序列,将所述目标时间序列进行分割,得到至少两个时间子序列,分别获取所述每个时间子序列与所述时间序列集中的其余每个时间序列的弯曲路径,依据所述弯曲路径,确定所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值,所述方法中将所述任意选择的一条时间序列作为目标时间序列,对所述目标时间序列进行分割,得到至少两个时间子序列,将所述每个时间子序列分别分布在服务器集中的不同节点上,并将所述时间序列集中的其余每个时间序列也分别分布在所述服务器集中的不同节点上,由此可以分别获取到每个时间子序列与所述时间序列集中的其余每个时间序列的弯曲路径,这样就可以同时并行的获取所述时间序列的相似度值,因此提高了运算效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对发明或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一公开的一种时间序列相似度值获取方法流程示意图;
图2为本发明实施例二公开的一种时间序列相似度值获取方法流程示意图;
图3为本发明实施例三公开的一种时间序列相似度值获取系统结构示意图;
图4为本发明实施例四公开的一种时间序列相似度值获取系统流程示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例一公开一种时间序列相似度值获取方法,参见图1所示,所述方法应用于时间序列集,其中,所述时间序列集包括至少两条时间序列,具体步骤包括:
步骤S101:任意选择所述时间序列集中的一条时间序列作为目标时间序列;
步骤S102:将所述目标时间序列进行分割,得到至少两个时间子序列;
步骤S103:分别获取所述每个时间子序列与所述时间序列集中的其余每个时间序列的弯曲路径;
需要说明的是,在得到至少两个时间子序列后,分别将每个时间子序列分布在服务器集群中的不同节点上,同时将所述时间序列集中的其余每个时间序列也分别分布在所述服务器集群的不同节点上,由此,可以在所述不同节点上获取所述弯曲路径;
下面举个实例,
给定两个长度分别为n和m的时间序列Q和C:
Q=q1,q2,...,qi,...,qn
C=c1,c2,...,cj,...,cm
预先创建一个n×m的相异矩阵D:
D = d ( q 1 , c 1 ) d ( q 1 , c 2 ) · · · · · · d ( q 1 , c m ) d ( q 2 , c 1 ) d ( q 2 , c 2 ) · · · · · · d ( q 2 , c m ) · · · · · · · · · · · · d ( q n , c 1 ) d ( q n , c 2 ) · · · · · · d ( q n , c m )
矩阵中的元素存储两个时间序列数据点qi和cj的距离值d(qi,cj)。这里d(qi,cj)可以看做数据点qi和cj之间相异性的量化表示,如d(qi,cj)=|qi-cj|。
可以通过公式γ(i,j)=d(qi,cj)+min{γ(i-1,j-1),γ(i-1,j),γ(i,j-1)}来计算所述弯曲路径,其中,γ(i,j)为弯曲路径,d(qi,cj)为矩阵中的元素存储两个时间序列数据点qi和cj的距离值;
步骤S104:依据所述弯曲路径,确定所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值。
本发明实施例公开了一种时间序列相似度值获取方法,所述方法应用于时间序列集中,其中,所述时间序列集包括至少两个时间序列,包括:任意选择所述时间序列集中的一条时间序列所为目标时间序列,将所述目标时间序列进行分割,得到至少两个时间子序列,分别获取所述每个时间子序列与所述时间序列集中的其余每个时间序列的弯曲路径,依据所述弯曲路径,确定所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值,所述方法中将所述任意选择的一条时间序列作为目标时间序列,对所述目标时间序列进行分割,得到至少两个时间子序列,将所述每个时间子序列分别分布在服务器集群中的不同节点上,并将所述时间序列集中的其余每个时间序列也分别分布在所述服务器集群中的不同节点上,由此可以分别获取到每个时间子序列与所述时间序列集中的其余每个时间序列的弯曲路径,这样就可以同时并行的获取所述时间序列的相似度值,因此提高了运算效率。
本发明实施例二公开了一种时间序列相似度值获取方法,参见图2所示,所述方法应用于时间序列集,其中,所述时间序列集包括至少两条时间序列,具体步骤包括:
步骤S201:任意选择所述时间序列集中的一条时间序列作为目标时间序列;
步骤S202:将所述目标时间序列进行分割,得到至少两个时间子序列;
需要说明的是,依据预设的滑动窗口将所述目标时间序列进行分割,得到至少两个时间子序列;
其中,所述滑动窗口选取,也就是要设定滑动窗口的长度值以及所述滑动窗口移动的距离;
所述滑动窗口的长度值的设定原理为:对划分后得到的子序列集合进行以下处理,找出集合中序列的最大长度lmax和最小长度lmin,生成区间,然后把[lmin,lmax]这个区间用一个合适的长度(长度的选择根据集合的性质有关)进行离散化,找出元素最多的那个区间,然后选择这个区间中的一个整数l,用这个l作为滑动窗口的长度,在原时间序列上每次移动v个点,把原来的时间序列用这个长度为l的滑动窗口分割成长度为l的子序列,一共可以得到[n/v]个子序列(除最后一个子序列外,所有的子序列的长度为l),其中[]表示上去整,如[3.1]=4,[3.9]=4;
所述滑动窗口移动的距离的设定原理为:首先使用长度为l的滑动窗口,在原时间序列上每次移动1个点,把原来的时间序列用这个长度为l的滑动窗口分割成长度为l的子序列,一共可以得到(n-l+1)个子序列,并且这些子序列用它们的第一个元素来标识它们自己:T1,T2,...Tn-l+1,这些子序列在集合中的顺序就是按它们的下标的升序顺序出现的。从T1开始,看T2和T1是否相似,如果相似则把T2去掉,再看T3和T1是否相似,直到找到第一个和T1不相似的子序列Ti1,把Ti1以前所有的子序列都去掉,然后对Ti1进行同样的操作,找出Ti1之后的第一个和Ti1不相似的子序列Ti2,把Ti1和Ti2之间的子序列全部去掉,然后再对Ti2进行同样的操作,一直进行下去,最后得到的子序列集合中任意相邻子序列之间都是不相似的。然后对这些按下标的升序顺序出现的子序列进行下面的处理:计算相邻子序列下标的差值并对其进行统计,找出一个合适的数值b,小于b的值的个数和总个数的比值不超过一个给定的值。这时的b就是我们所要找的值v;
为了方便理解,我们可以给出具体的实例:
滑动窗口长度值的设定原理:如对于序列a=(1,2,1,2,1,2,3,2,1,2,3,4,5,6,5),分割后的子序列为:(1,2,1)、(2,1,2)、(3,2,1)、(2,3,4,5)、(6,5),其lmin=2,lmax=4,所以生成的区间为:[2,4],即子序列的长度在2和4之间,统计各个长度下的子序列的个数,如长度为2的子序列为1个,长度为3的子序列为4个,长度为4的子序列为1个。选择子序列数目最多的那个长度值作为滑动窗口的长度值,这个例子中的l即为3。
滑动窗口移动距离的设定原理:如对于序列T=(1,2,1,2,3,4,3,4,5,6,5,6),初始l=2,v=2,分割后的子序列为(1,2),(1,2),(3,4),(3,4),(5,6),(5,6)。这样得到的子序列有很多相似的,如果将相似的子序列去掉,则得到子序列应该为(1,2),(3,4),(5,6)。由于第一个子序列和第二个子序列(与第一个子序列不一样)的下标差值为4,因此,根据这个结果改变v=4,这样分割后的子序列为(1,2),(3,4),(5,6)。
步骤S203:分别获取所述每个时间子序列与所述时间序列集中的其余每个时间序列的弯曲路径;
需要说明的是,在得到至少两个时间子序列后,分别将每个时间子序列分布在服务器集群中的不同节点上,同时将所述时间序列集中的其余每个时间序列也分别分布在所述服务器集群的不同节点上,由此,可以在所述不同节点上获取所述弯曲路径;
下面举个实例,
给定两个长度分别为n和m的时间序列Q和C:
Q=q1,q2,...,qi,...,qn
C=c1,c2,...,cj,...,cm
预先创建一个n×m的相异矩阵D:
D = d ( q 1 , c 1 ) d ( q 1 , c 2 ) · · · · · · d ( q 1 , c m ) d ( q 2 , c 1 ) d ( q 2 , c 2 ) · · · · · · d ( q 2 , c m ) · · · · · · · · · · · · d ( q n , c 1 ) d ( q n , c 2 ) · · · · · · d ( q n , c m )
矩阵中的元素存储两个时间序列数据点qi和cj的距离值d(qi,cj)。这里d(qi,cj)可以看做数据点qi和cj之间相异性的量化表示,如d(qi,cj)=|qi-cj|。
可以通过公式γ(i,j)=d(qi,cj)+min{γ(i-1,j-1),γ(i-1,j),γ(i,j-1)}来计算所述弯曲路径,其中,γ(i,j)为弯曲路径,d(qi,cj)为矩阵中的元素存储两个时间序列数据点qi和cj的距离值;
步骤S204:依据所述弯曲路径,确定所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值;
步骤S205:将所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值按照相似度值的大小进行排序,得到排序后的相似度值;
步骤S206:判断所述排序后的相似度值是否符合预设条件,如果是,执行步骤S207;
其中,可以确定所述排序后的相似度值最小的相似度值,那么得到与所述最小相似度值对应的所述时间序列相似于所述目标时间序列;
步骤S207:符合预设条件的所述时间序列相似于所述目标时间序列。
本实施例公开了一种时间序列相似度值获取方法,所述方法中在实施例一的基础上增加了在获得所述时间序列集中的每每两个时间序列的相似度值后,将所述相似度值进行排序,得到排序后的相似度值,判断所述相似度值是否符合预设条件,如果是,则符合预设条件的所述时间序列相似于所述目标时间序列,即确定所述排序后的相似度值中最小的相似度值,那么与所述最小相似度值对应的所述时间序列相识于所述目标时间序列,所述方法中在得到两个时间序列相似度值后,进一步公开了如何依据所述相似度值来判断所述时间序列集中的时间序列两两相似,这样在运算效率提高的基础上,增加了所述方法的应用范围,实用性更广泛。
在具体环境下的应用,举例说明:
两个时间序列C和Q:
C={71,73,75,80,80,80,78,76,75}
Q={69,69,73,75,79,80,79,78,76};
可以得到距离矩阵D:
根据γ(i,j)的计算公式对所述矩阵进行调整,得到弯曲路径W为:
Figure BDA00003238258200101
将时间序列C进行分割,得到子序列S1={71,73,75},S2={80,80,80},S3={78,76,75},S1代表上升的趋势,S2持平,S3代表下降的趋势,即每个子序列都代表了一种模式。
假设服务器集群中有三个节点,Node1,Node2,Node3,S1,S2,S3分别位于这三个节点上,Q在三个节点上都有分布。在计算时,我们需要从最后一列的最后一个点开始,依次向上计算每个点可能的最短路径,最后从这些路径中找出一个最小值即为子序列与Q的相似度距离。计算结果如下:
Figure BDA00003238258200111
Node1                       Node2                       Node3
如对于Node1上,其最后一列为(12,12,6,4,8,13,17,20,21),最后一个点为21,先计算从21出发,寻找(i-1,j-1),(i-1,j),(i,j-1)的最小值,显然,(i-1,j-1)=30,(i-1,j)=33,(i,j-1)=20,因此路径的下一个点为(i,j-1),以此类推。从其他点出发的路径确定方法一样。
在Node1中距离是最短的为,W1={(1,1),(1,2),(2,3),(3,4)}。由于Node3是最后一段子序列,路径的最后一个点为(n,m),其路径也是很好确定的,本例中即为W3={(7,8),(8,9),(9,9)}。Node2上的路径确定相对复杂些,我们将Node2上所有可能地路径都罗列出来,见上图Node2处。即可能地路径为:{(4,7),(5,8),(6,9)}、{(4,7),(5,8),(6,9)}、{(4,6),(5,7),(6,8)}、{(4,5)(5,6)(6,7)}、{(4,4),(5,5),(6,6)}、{(4,3),(5,4),(6,5)}、{(4,2),(5,3),(6,4)}、{(4,1),(5,2),(6,3)}、{4,1},(5,1),(6,2)}、{(4,1),(5,1),(6,1)};
由于Node2中的路径有很多中,那么会依据路径的弯曲度性质,得到路径{(4,7),(5,8),(6,9)}、{(4,1),(5,2),(6,3)}、{4,1},(5,1),(6,2)}、{(4,1),(5,1),(6,1)}都是被认为序列模式差别大而舍弃,此处,对于路径{(4,7),(5,8),(6,9)},其弯曲度F=(|4-7|+|5-8|+|6-9|)/3=3,而在此例中K=3,因此这条路径的F=K,当F>=K时,认为序列模式差别大导致了序列比较出现了较大的弯曲,同理。剩余的三条路径,也由于序列模式差别大而被舍弃;
对于剩下五条路径,其距离值从大到小依次排序为:{(4,6),(5,7),(6,8)}、{(4,5)(5,6)(6,7)}、{(4,4),(5,5),(6,6)}、{(4,3),(5,4),(6,5)}、{(4,2),(5,3),(6,4)},这五条路径的从距离值上比较,相差不大,但考虑弯曲路径的连续性,由于W1和W3都已确定,只有路径{(4,5)(5,6)(6,7)}是满足连续性的,因此综合对比,可以确定W2={(4,5),(5,6),(6,7)}为最佳路径。我们将W1、W2、W3合并后得到的路径W为{(1,1),(1,2),(2,3),(3,4),(4,5),(5,6),(6,7),(7,8),(8,9),(9,9)};
依据所述合并后的弯曲路径W为{(1,1),(1,2),(2,3),(3,4),(4,5),(5,6),(6,7),(7,8),(8,9),(9,9)},将与所述弯曲路径W对应的值进行相加,得到所述时间序列C和Q的相似度值2+4+4+4+5+5+6+6+6+7=49。
所述时间序列集中可以包括至少两条时间序列,例如:除了包括所述时间序列C和Q以外,还包括P和R,那么将所述时间序列C进行分割,并与其他的时间序列Q、P和R进行相似度值的计算,得到所述时间序列C和Q的相似度值为49,所述时间序列C和P的相似度值为65,所述时间序列C和R的相似度值为70,那么将上述三个相似度值进行大小排序,得到49<65<70,由此得到,所述时间序列C和时间序列Q最相似。
本发明实施例三公开了一种时间序列相似度值获取系统,参见图3所示,所述系统应用于时间序列集中,其中,所述时间序列集包括至少两条时间序列,所述系统包括:选择模块101、分割模块102、获取模块103和确定模块104:
其中,所述选择模块101用于,任意选择所述时间序列集中的一条时间序列作为目标时间序列;
所述分割模块102用于,将所述目标时间序列进行分割,得到至少两个时间子序列;
所述获取模块103用于,分别获取所述每个时间子序列与所述时间序列集中的其余每个时间序列的弯曲路径;
需要说明的是,在得到至少两个时间子序列后,分别将每个时间子序列分布在服务器集群中的不同节点上,同时将所述时间序列集中的其余每个时间序列也分别分布在所述服务器集群的不同节点上,由此,可以在所述不同节点上获取所述弯曲路径;
下面举个实例,
给定两个长度分别为n和m的时间序列Q和C:
Q=q1,q2,...,qi,...,qn
C=c1,c2,...,cj,...,cm
预先创建一个n×m的相异矩阵D:
D = d ( q 1 , c 1 ) d ( q 1 , c 2 ) · · · · · · d ( q 1 , c m ) d ( q 2 , c 1 ) d ( q 2 , c 2 ) · · · · · · d ( q 2 , c m ) · · · · · · · · · · · · d ( q n , c 1 ) d ( q n , c 2 ) · · · · · · d ( q n , c m )
矩阵中的元素存储两个时间序列数据点qi和cj的距离值d(qi,cj)。这里d(qi,cj)可以看做数据点qi和cj之间相异性的量化表示,如d(qi,cj)=|qi-cj|。
可以通过公式γ(i,j)=d(qi,cj)+min{γ(i-1,j-1),γ(i-1,j),γ(i,j-1)}来计算所述弯曲路径,其中,γ(i,j)为弯曲路径,d(qi,cj)为矩阵中的元素存储两个时间序列数据点qi和cj的距离值;
所述确定模块104用于,依据所述弯曲路径,确定所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值。
本发明实施例公开了一种时间序列相似度值获取系统,所述系统系统应用于时间序列集中,其中,所述时间序列集包括至少两条时间序列,所述系统包括:选择模块、分割模块、获取模块和确定模块,其中,所述选择模块用于,任意选择所述时间序列集中的一条时间序列作为目标时间序列,所述分割模块用于,将所述目标时间序列进行分割,得到至少两个时间子序列,所述获取模块用于,分别获取所述每个时间子序列与所述时间序列集中的其余每个时间序列的弯曲路径,所述确定模块用于,依据所述弯曲路径,确定所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值,中将所述任意选择的一条时间序列作为目标时间序列,对所述目标时间序列进行分割,得到至少两个时间子序列,将所述每个时间子序列分别分布在服务器集群中的不同节点上,并将所述时间序列集中的其余每个时间序列也分别分布在所述服务器集群中的不同节点上,由此可以分别获取到每个时间子序列与所述时间序列集中的其余每个时间序列的弯曲路径,这样就可以同时并行的获取所述时间序列的相似度值,因此提高了运算效率。
本发明实施例四公开了一种时间序列相似度值获取系统,参见图4所示,所述系统应用于时间序列集中,其中,所述时间序列集包括至少两条时间序列,所述系统包括:选择模块101、分割模块102、获取模块103、确定模块104、排序模块105和判断模块106;
所述选择模块101、分割模块102、获取模块103、确定模块104与实施例三公开的所述选择模块101、分割模块102、获取模块103、确定模块104一致;
所述排序模块105用于,将所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值按照相似度值的大小进行排序,得到排序后的相似度值;
所述判断模块106用于,判断所述排序后的相似度值是否符合预设条件,如果是,则符合预设条件的所述时间序列相似于所述目标时间序列;
其中,可以确定所述排序后的相似度值最小的相似度值,那么得到与所述最小相似度值对应的所述时间序列相似于所述目标时间序列。
本实施例公开了一种时间序列相似度值获取系统,所述系统在实施例三的基础上,增加了排序模块和判断模块,所述排序模块用于,将所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值按照相似度值的大小进行排序,得到排序后的相似度值,所述判断模块用于,判断所述排序后的相似度值是否符合预设条件,如果是,则符合预设条件的所述时间序列相似于所述目标时间序列,即确定所述排序后的相似度值中最小的相似度值,那么与所述最小相似度值对应的所述时间序列相识于所述目标时间序列,所述方法中在得到两个时间序列相似度值后,进一步公开了如何依据所述相似度值来判断所述时间序列集中的时间序列两两相似,这样在运算效率提高的基础上,增加了所述方法的应用范围,实用性更广泛。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽范围。

Claims (6)

1.一种时间序列相似度值获取方法,其特征在于,所述方法应用于时间序列集,其中,所述时间序列集包括至少两条时间序列,包括:
任意选择所述时间序列集中的一条时间序列作为目标时间序列;
将所述目标时间序列进行分割,得到至少两个时间子序列;
分别获取所述每个时间子序列与所述时间序列集中的其余每个时间序列的弯曲路径;
依据所述弯曲路径,确定所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值。
2.根据权利要求1所述的方法,其特征在于,还包括:
将所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值按照相似度值的大小进行排序,得到排序后的相似度值;
判断所述排序后的相似度值是否符合预设条件,如果是,则符合预设条件的所述时间序列相似于所述目标时间序列。
3.根据权利要求1所述的方法,其特征在于,所述将所述目标时间序列进行分割,得到至少两个时间子序列的过程包括:
依据预设的滑动窗口将所述目标时间序列进行分割,得到至少两个时间子序列。
4.根据权利要求2所述的方法,其特征在于,所述判断所述排序后的相似度值是否符合预设条件,如果是,则符合预设条件的所述时间序列相似于所述目标时间序列包括:
确定所述排序后的相似度值中最小的相似度值,得到与所述最小相似度值对应的所述时间序列相似于所述目标时间序列。
5.一种时间序列相似度值获取系统,其特征在于,所述系统应用于时间序列集,其中,所述时间序列集包括至少两条时间序列,所述系统包括:选择模块、分割模块、获取模块和确定模块;
其中,所述选择模块用于,任意选择所述时间序列集中的一条时间序列作为目标时间序列;
所述分割模块用于,将所述目标时间序列进行分割,得到至少两个时间子序列;
所述获取模块用于,分别获取所述每个时间子序列与所述时间序列集中的其余每个时间序列的弯曲路径;
所述确定模块用于,依据所述弯曲路径,确定所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值。
6.根据权利要求5所述的系统,其特征在于,还包括:排序模块和判断模块;
所述排序模块用于,将所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值按照相似度值的大小进行排序,得到排序后的相似度值;
所述判断模块用于,判断所述排序后的相似度值是否符合预设条件,如果是,则符合预设条件的所述时间序列相似于所述目标时间序列。
CN201310195358.XA 2013-05-23 2013-05-23 一种时间序列相似度值获取方法及系统 Active CN103294911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310195358.XA CN103294911B (zh) 2013-05-23 2013-05-23 一种时间序列相似度值获取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310195358.XA CN103294911B (zh) 2013-05-23 2013-05-23 一种时间序列相似度值获取方法及系统

Publications (2)

Publication Number Publication Date
CN103294911A true CN103294911A (zh) 2013-09-11
CN103294911B CN103294911B (zh) 2016-12-28

Family

ID=49095762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310195358.XA Active CN103294911B (zh) 2013-05-23 2013-05-23 一种时间序列相似度值获取方法及系统

Country Status (1)

Country Link
CN (1) CN103294911B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942425A (zh) * 2014-04-14 2014-07-23 中国人民解放军国防科学技术大学 一种数据处理方法和装置
CN106204873A (zh) * 2016-07-20 2016-12-07 兰州智豆信息科技有限公司 基于参与时间的幸运用户抽取方法及系统
CN106227465A (zh) * 2016-07-15 2016-12-14 中国科学院软件研究所 一种环结构的数据放置方法
CN109325060A (zh) * 2018-07-27 2019-02-12 山东大学 一种基于数据特征的时间序列流数据快速搜索方法
CN109783051A (zh) * 2019-01-28 2019-05-21 中科驭数(北京)科技有限公司 一种时间序列相似性计算装置和方法
CN110019398A (zh) * 2017-12-14 2019-07-16 北京京东尚科信息技术有限公司 用于输出数据的方法和装置
CN110291519A (zh) * 2017-02-20 2019-09-27 三菱电机株式会社 图案提取装置、图案提取方法以及图案提取程序
CN110956206A (zh) * 2019-11-22 2020-04-03 珠海复旦创新研究院 时间序列状态识别方法、装置及设备
CN112330442A (zh) * 2020-11-17 2021-02-05 深圳市欢太科技有限公司 基于超长行为序列的建模方法及装置、终端、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102005105A (zh) * 2010-09-27 2011-04-06 上海海洋大学 一种基于时间序列相似匹配的海洋灾害预警装置
CN102682573A (zh) * 2012-03-31 2012-09-19 上海海洋大学 一种基于时间序列分析的风暴潮灾害预警系统
WO2013051101A1 (ja) * 2011-10-04 2013-04-11 株式会社日立製作所 時系列データ管理システム,および方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102005105A (zh) * 2010-09-27 2011-04-06 上海海洋大学 一种基于时间序列相似匹配的海洋灾害预警装置
WO2013051101A1 (ja) * 2011-10-04 2013-04-11 株式会社日立製作所 時系列データ管理システム,および方法
CN102682573A (zh) * 2012-03-31 2012-09-19 上海海洋大学 一种基于时间序列分析的风暴潮灾害预警系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
吴学雁等: "基于极值点特征的时间序列相似性查询方法", 《计算机应用研究》 *
吴学雁等: "基于极值点特征的时间序列相似性查询方法", 《计算机应用研究》, vol. 27, no. 6, 30 June 2010 (2010-06-30), pages 2069 - 2070 *
李俊奎: "时间序列相似性问题研究", 《中国博士学位论文全文数据库信息科技辑》 *
莫倩芸等: "机群系统上并行计算时间序列的动态弯曲距离", 《微电子学与计算机》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942425B (zh) * 2014-04-14 2017-01-11 中国人民解放军国防科学技术大学 一种数据处理方法和装置
CN103942425A (zh) * 2014-04-14 2014-07-23 中国人民解放军国防科学技术大学 一种数据处理方法和装置
CN106227465A (zh) * 2016-07-15 2016-12-14 中国科学院软件研究所 一种环结构的数据放置方法
CN106227465B (zh) * 2016-07-15 2019-05-14 中国科学院软件研究所 一种环结构的数据放置方法
CN106204873A (zh) * 2016-07-20 2016-12-07 兰州智豆信息科技有限公司 基于参与时间的幸运用户抽取方法及系统
CN110291519A (zh) * 2017-02-20 2019-09-27 三菱电机株式会社 图案提取装置、图案提取方法以及图案提取程序
CN110019398A (zh) * 2017-12-14 2019-07-16 北京京东尚科信息技术有限公司 用于输出数据的方法和装置
CN109325060B (zh) * 2018-07-27 2021-10-12 山东大学 一种基于数据特征的时间序列流数据快速搜索方法
CN109325060A (zh) * 2018-07-27 2019-02-12 山东大学 一种基于数据特征的时间序列流数据快速搜索方法
CN109783051A (zh) * 2019-01-28 2019-05-21 中科驭数(北京)科技有限公司 一种时间序列相似性计算装置和方法
CN109783051B (zh) * 2019-01-28 2020-05-29 中科驭数(北京)科技有限公司 一种时间序列相似性计算装置和方法
CN110956206A (zh) * 2019-11-22 2020-04-03 珠海复旦创新研究院 时间序列状态识别方法、装置及设备
CN112330442A (zh) * 2020-11-17 2021-02-05 深圳市欢太科技有限公司 基于超长行为序列的建模方法及装置、终端、存储介质

Also Published As

Publication number Publication date
CN103294911B (zh) 2016-12-28

Similar Documents

Publication Publication Date Title
CN103294911A (zh) 一种时间序列相似度值获取方法及系统
CN106802956A (zh) 一种基于加权异构信息网络的电影推荐方法
CN104731954A (zh) 基于群透视音乐推荐方法与系统
CN106202124A (zh) 网页分类方法及装置
CN105574547B (zh) 适应动态调整基分类器权重的集成学习方法及装置
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
US9147009B2 (en) Method of temporal bipartite projection
CN106156082A (zh) 一种本体对齐方法及装置
CN106934071A (zh) 基于异构信息网络和贝叶斯个性化排序的推荐方法及装置
CN104077357A (zh) 基于用户的协同过滤组合推荐方法
CN103473388A (zh) 实现流程图自动布局的系统及装置
CN104166732A (zh) 一种基于全局评分信息的项目协同过滤推荐方法
CN104133868B (zh) 一种用于垂直爬虫数据分类整合的策略
CN103559303A (zh) 一种对数据挖掘算法的评估与选择方法
US9852360B2 (en) Data clustering apparatus and method
CN103888541A (zh) 一种融合拓扑势和谱聚类的社区发现方法及系统
CN105389505A (zh) 基于栈式稀疏自编码器的托攻击检测方法
CN104252616A (zh) 人脸标注方法、装置及设备
CN107481218A (zh) 图像美感评估方法及装置
Amaliah et al. Finding the shortest paths among cities in Java Island using node combination based on Dijkstra algorithm
CN103631769A (zh) 一种判断文件内容与标题间一致性的方法及装置
CN108038734B (zh) 基于点评数据的城市商业设施空间分布探测方法及系统
CN103310205A (zh) 一种手写体数字识别方法及装置
CN109034908A (zh) 一种结合排序学习的电影排名预测方法
CN102929977A (zh) 一种面向新闻网站的事件跟踪方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant