CN104714953A

CN104714953A - 时序数据的模体识别方法和装置

Info

Publication number: CN104714953A
Application number: CN201310681366.5A
Authority: CN
Inventors: 刘博�; 陈成; 李建强
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2013-12-12
Filing date: 2013-12-12
Publication date: 2015-06-17

Abstract

本发明公开了一种时序数据的模体识别方法和装置，属于时序数据分析领域。包括：将需要分析的时序数据分割成至少两个数据子序列，将每个数据子序列转化为符号子序列；对符号子序列进行随机投影，记录投影的每个符号子序列与投影的其他符号子序列在投影位置上具有相同符号的次数；将记录的次数中超过阈值的次数所对应的两个数据子序列间的距离小于第一预设距离的两个数据子序列作为识别出的标准模体；对每个预设范围内的标准模体进行聚类得到一个中心数据子序列，根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差；缩小阈值，计算记录的次数中超过缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离，将距离小于所在预设范围的方差的数据子序列作为识别出的模体。本发明在保证模体识别速度的情况下，可提高模体识别的准确性。

Description

时序数据的模体识别方法和装置

技术领域

本发明涉及时序数据分析领域，特别涉及一种时序数据的模体识别方法和装置。

背景技术

随着统计学的发展，越来越多的数据呈时序数据的形式。其中，时序数据是指按照时间顺序记录的数据。例如，股票市场的每日波动数据、每年的降雨量数据、每年的交通状况数据等。在这些时序数据中，存在着一些重复出现的相似子序列，这些重复出现的相似子序列被称为模体。由于时序数据中的模体对科学研究有十分重要的意义，因此，如何在大规模的时序数据中识别出模体，是研究时序数据问题的关键。

在现有的时序数据的模体识别方法中，常见的识别方法有两种：精确识别方法和概率识别方法。对于精确识别方法，文章Exact Discovery of SeriesMotifs,A.Mueen.SIAM International Conference on Data Mining-SDM,pp.473-484,2009提出扫描时序数据中所有的子序列，并计算扫描到的每两个子序列之间的欧氏距离，进而将欧氏距离满足条件的每两个子序列作为从该时序数据中识别出的模体。

对于概率识别方法，文章Probabilistic discovery of time series motifs,ChiuB,Keogh E,Lonardi S,Proceedings of the ACM IGKDD international conference onKnowledge discovery and data mining.ACM,2003:493-498提出将时间序列划分为一系列的数据子序列后，采用SAX（Symbolic Aggregate approXimation，符号集近似）方法将划分后的数据子序列转化为符号子序列，再对每个符号子序列进行随机投影，记录每个符号子序列与其他符号子序列在投影位置上具有相同符号的次数，将记录的次数中达到一定阈值的次数所对应的数据子序列作为识别出的模体。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

由于上述精确识别方法需要计算扫描到的每两个数据子序列之间的欧氏距离，当扫描到的数据子序列的数量很大时，计算扫描到的每两个数据子序列之间的欧氏距离的计算量很大，致使识别模体的速度较慢。

而上述概率识别方法通过符号化及随机投影将时序数据进行了离散化和降维处理，导致一些可能成为模体的时序数据信息的丢失，并使得存在较大位移差且原本在需要分析的时序数据中重复出现的概率不高的数据子序列可能被识别为模体，因此，概率识别方法所识别出的模体的准确性不高；另外，当一个符号子序列与其他符号子序列在投影位置上具有相同符号的次数达到一定阈值时，对应的数据子序列才被识别为模体，导致与其他符号子序列在投影位置上具有相同符号的次数未达到阈值的有些模体无法被识别出来，因而通过概率识别方法识别出的模体数量有限，进一步降低了模体识别的准确性。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种时序数据的模体识别方法和装置。所述技术方案如下：

第一方面，提供了一种时序数据的模体识别方法，所述方法包括：

获取需要分析的时序数据，将所述需要分析的时序数据分割成至少两个数据子序列，并对每个数据子序列进行符号化处理，得到至少两个符号子序列；

对所述符号子序列进行预设次数的随机投影，并记录投影的每个符号子序列与投影的其他符号子序列在投影位置上具有相同符号的次数；

计算记录的次数中超过阈值的次数所对应的两个数据子序列之间的距离，将距离小于第一预设距离的两个数据子序列作为识别出的标准模体；

对每个预设范围内的标准模体进行聚类，得到每个预设范围内的一个中心数据子序列，并根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差；

缩小所述阈值，并计算记录的次数中超过缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离，将距离小于所在预设范围的方差的数据子序列作为识别出的模体。

结合第一方面，在第一方面的第一种可能的实现方式中，所述得到至少两个符号子序列之后，还包括：

将所述符号子序列中至少两个连续的符号相同的符号子序列进行压缩，得到压缩符号子序列；

所述对所述符号子序列进行预设次数的随机投影，包括：

对所述符号子序列中未压缩的符号子序列进行预设次数的随机投影。

结合第一方面，在第一方面的第二种可能的实现方式中，所述根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差，包括：

计算每个预设范围内的标准模体与中心数据子序列之间的距离平方的平均值，并将计算得到的距离平方的平均值作为每个预设范围的方差。

优选地，所述缩小所述阈值，并计算记录的次数中超过缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离，包括：

由大到小依次缩小所述阈值，直至识别出的模体数量大于预设数量为止；

计算记录的次数中超过每次缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离。

结合第一方面，在第一方面的第三种可能的实现方式中，所述得到压缩符号子序列之后，还包括：

计算相邻两个压缩符号子序列对应的数据子序列之间的距离，将距离小于所述第一预设距离的相邻两个压缩符号子序列对应的数据子序列作为识别出的模体。

结合第一方面的第一种可能的实现方式，在第一方面的第四种可能的实现方式中，所述将距离小于第一预设距离的两个数据子序列作为识别出的标准模体之后，还包括：

将相邻且距离小于第二预设距离的至少两个标准模体构成组合模体；

所述对每个预设范围内的标准模体进行聚类，包括：

对每个预设范围内的组合模体及未构成组合模体的标准模体进行聚类；

所述根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差，包括：

计算每个预设范围内的组合模体及未构成组合模体的标准模体分别与中心数据子序列之间的距离平方的平均值，并将计算得到的距离平方的平均值作为每个预设范围的方差。

结合第一方面或第一方面的第一种可能的实现方式至第五种可能的实现方式，在第一方面的第六种可能的实现方式中，，所述将距离小于所在预设范围的方差的数据子序列作为识别出的模体之后，还包括：

将相邻且距离小于第二预设距离的至少两个识别出的模体构成大模体。

第二方面，提供了一种时序数据的模体识别装置，所述装置包括：

获取模块，用于获取需要分析的时序数据；

分割模块，用于将所述需要分析的时序数据分割成至少两个数据子序列；

处理模块，用于对每个数据子序列进行符号化处理，得到至少两个符号子序列；

投影模块，用于对所述符号子序列进行预设次数的随机投影；

记录模块，用于记录投影的每个符号子序列与投影的其他符号子序列在投影位置上具有相同符号的次数；

第一识别模块，用于计算记录的次数中超过阈值的次数所对应的两个数据子序列之间的距离，将距离小于第一预设距离的两个数据子序列作为识别出的标准模体；

聚类模块，用于对每个预设范围内的标准模体进行聚类，得到每个预设范围内的一个中心数据子序列；

计算模块，用于根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差；

第二识别模块，用于缩小所述阈值，并计算记录的次数中超过缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离，将距离小于所在预设范围的方差的数据子序列作为识别出的模体。

结合第二方面，在第二方面的第一种可能的实现方式中，所述装置，还包括：

压缩模块，用于将所述符号子序列中至少两个连续的符号相同的符号子序列进行压缩，得到压缩符号子序列；

所述投影模块，用于对得到的符号子序列中未压缩的符号子序列进行预设次数的随机投影。

结合第二方面，在第二方面的第二种可能的实现方式中，所述计算模块，用于计算每个预设范围内的标准模体与中心数据子序列之间的距离平方的平均值，并将计算得到的距离平方的平均值作为每个预设范围的方差。

结合第二方面，在第二方面的第三种可能的实现方式中，所述第二识别模块，用于由大到小依次缩小所述阈值，直至识别出的模体数量大于预设数量为止；计算记录的次数中超过每次缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离。

结合第二方面的第一种可能的实现方式，在第二方面的第四种可能的实现方式中，所述装置，还包括：

第三识别模块，用于计算相邻两个压缩符号子序列对应的数据子序列之间的距离，将距离小于所述第一预设距离的相邻两个压缩符号子序列对应的数据子序列作为识别出的模体。

结合第二方面，在第二方面的第五种可能的实现方式中，所述第一识别模块，还用于将相邻且距离小于第二预设距离的至少两个标准模体构成组合模体；

所述聚类模块，用于对每个预设范围内的组合模体及未构成组合模体的标准模体进行聚类；

所述计算模块，用于计算每个预设范围内的组合模体及未构成组合模体的标准模体分别与中心数据子序列之间的距离平方的平均值，并将计算得到的距离平方的平均值作为每个预设范围的方差。

结合第二方面或第二方面的第一种可能的实现方式至第五种可能的实现方式，在第二方面的第六种可能的实现方式中，所述装置，还包括：

第四识别模块，用于将相邻且距离小于第二预设距离的多个模体识别为一个大的模体。

本发明实施例提供的技术方案带来的有益效果是：

对需要分析的时序数据进行符号化处理及随机投影，并记录投影的每个符号子序列与投影的其他符号子序列在投影位置上具有相同符号的次数后，将记录的次数中超过阈值的次数所对应的两个数据子序列之间的距离小于第一预设距离的两个数据子序列作为识别出的标准模体，该模体中的两个数据子序列的位移差不会太大，保证了重复出现的概率，进而可提高模体识别的准确性。

此外，通过对每个预设范围内的标准模体进行聚类得到每个预设范围内的一个中心数据子序列，根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差后，缩小阈值，计算记录的次数中超过缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离，将距离小于所在预设范围的方差的数据子序列作为识别出的模体，从而提高了识别出的模体数量，进一步提高了模体识别的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的时序数据的模体识别方法流程图；

图2是本发明实施例二提供的时序数据的模体识别方法流程图；

图3是本发明实施例二提供的时序数据的示意图；

图4是本发明实施例二提供的记录符号子序列的矩阵的示意图；

图5是本发明实施例二提供的将符号子序列进行压缩后的示意图；

图6是本发明实施例二提供的一种随机投影的结果示意图；

图7是本发明实施例二提供的另一种随机投影的结果示意图；

图8是本发明实施例二提供的坐标系中标记的标准模体的示意图；

图9是本发明实施例二提供的识别大模体的示意图；

图10是本发明实施例三提供的第一种时序数据的模体识别装置；

图11是本发明实施例三提供的第二种时序数据的模体识别装置；

图12是本发明实施例三提供的第三种时序数据的模体识别装置；

图13是本发明实施例三提供的第四种时序数据的模体识别装置。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本发明实施例提供了一种时序数据的模体识别方法，参见图1，本实施例提供的方法流程包括：

101：获取需要分析的时序数据，将需要分析的时序数据分割成至少两个数据子序列，并对每个数据子序列进行符号化处理，得到至少两个符号子序列。

102：对符号子序列进行预设次数的随机投影，并记录投影的每个符号子序列与投影的其他符号子序列在投影位置上具有相同符号的次数。

103：计算记录的次数中超过阈值的次数所对应的两个数据子序列之间的距离，将距离小于第一预设距离的两个数据子序列作为识别出的标准模体。

104：对每个预设范围内的标准模体进行聚类，得到每个预设范围内的一个中心数据子序列，并根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差。

105：缩小阈值，并计算记录的次数中超过缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离，将距离小于所在预设范围的方差的数据子序列作为识别出的模体。

作为一种可选实施例，得到至少两个符号子序列之后，还包括：

将符号子序列中符号相同的连续至少两个符号子序列进行压缩，得到压缩符号子序列；

对符号子序列进行预设次数的随机投影，包括：

对符号子序列中未压缩的符号子序列进行预设次数的随机投影。

作为一种可选实施例，根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差，包括：

作为一种可选实施例，缩小阈值，并计算记录的次数中超过缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离，包括：

由大到小依次缩小阈值，直至识别出的模体数量大于预设数量为止；

作为一种可选实施例，得到压缩符号子序列之后，还包括：

计算相邻两个压缩符号子序列对应的数据子序列之间的距离，将距离小于第一预设距离的相邻两个压缩符号子序列对应的数据子序列作为识别出的模体。

作为一种可选实施例，将距离小于第一预设距离的两个数据子序列作为识别出的标准模体之后，还包括：

对每个预设范围内的标准模体进行聚类，包括：

根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差，包括：

作为一种可选实施例，将距离小于所在预设范围的方差的数据子序列作为识别出的模体之后，还包括：

本发明实施例提供的方法，对需要分析的时序数据进行符号化处理及随机投影，并记录投影的每个符号子序列与投影的其他符号子序列在投影位置上具有相同符号的次数后，将记录的次数中超过阈值的次数所对应的两个数据子序列之间的距离小于第一预设距离的两个数据子序列作为识别出的标准模体，该模体中的两个数据子序列的位移差不会太大，保证了重复出现的概率，进而可提高模体识别的准确性。

实施例二

由于通过对这些时序数据的模体进行分析研究，可揭示事物运动、变化及发展的重要规律，对人们正确的认识事物并据此作出科学的决策具有重要的意义。例如，通过研究城市每年的交通状况的时序数据，可以获知城市交通情况的重要指标，而这些指标可为我们预测城市未来的交通情况提供依据。为此，本发明实施例提供了一种时序数据的模体识别方法，现结合上述实施例一的内容，对本实施例提供的方法进行详细地解释说明。参见图2，本实施例提供的方法流程包括：

201：获取需要分析的时序数据。

关于获取需要分析的时序数据的方式，本实施例不作具体限定，包括但不限于通过如下方式获取：

首先，统计某一事物在一段时间内的数据；

其次，将统计得到的数据按时间顺序在坐标系中标记出来，得到该事物在统计时间内的变化曲线，该统计时间内的变化曲线即为获取到的时序数据；

其中，坐标系的X轴表示统计时间，Y轴表示统计的数据。

为了便于理解，以统计股票市场在一天内的波动数据为例，得到股票市场在一天内的波动数据之后，将统计得到的股票市场的波动数据按时间顺序在坐标系中标记出来，得到股票市场在一天内的变化曲线，将该股票市场在一天内的变化曲线作为获取到的时序数据。

202：将需要分析的时序数据分割成至少两个数据子序列。

由于获取到的时序数据一般较长，从较长的时序数据中识别时序数据的模体的过程较为复杂，因此，为了简化时序数据的模体识别难度，本实施例提供的方法在对时序数据的模体进行识别之前，将需要分析的时序数据进行分割。具体地，包括但不限于通过如下方式进行分割：

以滑动窗口按照预设滑动距离将需要分析的时序数据分割成至少两个数据子序列。

其中，滑动窗口是一种将时序数据分割成数据子序列的方法，在识别时序数据的模体时被广泛的应用。滑动窗口大小是将时序数据分割成数据子序列的分割尺度。其中，滑动窗口大小可以为1个数据长度、2个数据长度、3个数据长度，当然也可以是其他的数据长度，本实施例不对滑动窗口大小作具体限定。为了保证识别结果的可靠性及准确性，分割的数据子序列数量不宜太多，也不宜太少，本实施例不对分割的数据子序列数量进行限定。具体实施时，可结合需要分析的时序数据的长度确定滑动窗口大小，从而确定分割的数据子序列的数量。无论确定的滑动窗口大小是多少，根据滑动窗口将时序数据分割为数据子序列时，分割的数据子序列数量至少为两个。

此外，为了保证识别出的时序数据的模体的准确性，本实施例提供的方法，在以滑动窗口将需要分析的时序数据分割为至少两个数据子序列之前，还需设置滑动距离。其中，预设滑动距离可以是1个数据长度、2个数据长度、3个数据长度等，本实施例不对预设滑动距离的大小作具体的限定。

具体地，以滑动窗口按照预设滑动距离将需要分析的时序数据分割成至少两个数据子序列时，包括但不限于如下方式：

首先，确定分割方式。关于以滑动窗口将需要分析的时序数据分割成至少两个数据子序列的分割方式，可以采用从需要分析的时序数据的起点到终点依次分割的方式，也可以采用从需要分析的时序数据的终点到起点依次分割的方式。为了便于后续的分析和计算，本实施例中采用从需要分析的时序数据的起点到终点依次分割的方式。

其次，以滑动窗口大小为分割尺度，将滑动窗口从需要分析的时序数据的起点滑动到终点，且滑动窗口每次滑动的长度为滑动距离的大小。在滑动的过程中，滑动窗口每滑动一个滑动距离的长度，便将需要分析的时序数据分割成一个数据子序列。

采用上述方法后，时序数据被分割成一系列的数据子序列，为了便于对分割得到的数据子序列进行分析和计算，本实施例中还将分割得到的数据子序列从时序数据的起点到终点依次顺序进行编号，分别为第1个数据子序列，第2个数据子序列，第3个数据子序列，……，直到最后一个数据子序列。

为了便于理解上述过程，下面以将时序数据从起点到终点依次分割的方式为例，进行详细地解释说明。

以长度为100个数据长度的时序数据T，滑动窗口大小为2个数据长度，预设滑动距离为1个数据长度为例。将滑动窗口从时序数据T的起点每次滑动1个数据长度到时序数据的终点的过程中，时序数据T被分割成一系列的数据子序列，分别为第1个数据子序列，第2个数据子序列，第3个数据子序列，……，直到第99个数据子序列。

203:对每个数据子序列进行符号化处理，得到至少两个符号子序列。

由于时序数据具有高维度、噪声干扰以及非稳态等特性，导致在原始时序数据上直接进行时序数据的模体识别，不仅会降低计算效率，而且会影响识别出的时序数据的模体的准确性和可靠性。因此，为了提高识别时序数据的模体时的计算效率，使识别出的时序数据的模体准确性更高，本实施例提供的方法在将需要分析的时序数据分割成至少两个数据子序列之后，还将对分割得到的数据子序列进行降维处理。由于在低维空间对数据子序列进行计算的计算量相对原空间要小的多，因此，通过降维处理可以减小对数据子序列进行模体识别的计算量。目前，模体识别时的主要降维方法有奇异值分解法、符号集近似法等，其中应用最广的方法是符号集近似SAX方法。具体实施时，本实施例以采用SAX方法为例进行说明。

其中，SAX方法作为一种典型的降维方法，对数据子序列进行降维处理时，首先采用分段总额逼近方法，将数据子序列表示成离散化序列，然后根据高斯距离将离散化序列进行符号化处理，进而得到了符号子序列。进一步地，在根据SAX方法将数据子序列转化为符号子序列时，表示符号子序列的符号数和所用的符号种类可以由用户设定。在用户设定表示符号子序列的符号数和所用符号的种类后，每个符号子序列将代替相应的数据子序列参与后续的计算。

对于上述过程，为了便于理解，下面将以一个具体的例子进行详细地解释说明。

仍以时序数据T为例，将时序数据T分割得到100个数据子序列后，采用SAX方法将每个数据子序列转化为符号子序列时，如果用户设定表示符号子序列的符号数为4个，表示符号子序列的符号种类为a、b和c，则根据用户确定的符号子序列的表示规则，将时序数据T中任意一个数据子序列A1转化为符号子序列时，若A1表示为a b c a，则在后续的计算中a b c a将代替数据子序列A1进行计算。

需要说明的是，将时序数据进行降维处理得到至少两个符号子序列后，为了便于后续对符号子序列进行识别，本步骤将符号子序列进行存储。关于存储符号子序列的方式，包括但不限于通过矩阵、表格等方式进行存储，本实施例不对存储符号子序列的方式进行限定。

204：将符号子序列中至少两个连续的符号相同的符号子序列进行压缩，得到压缩符号子序列。

在对时序数据进行符号化处理，得到至少两个符号子序列后，从得到的符号子序列的表示符号中可以看出，有些符号子序列的表示符号相同，且这些符号子序列连续出现。其中，符号相同的符号子序列即符号子序列的所有表示符号均相同，也就是说，如果符号子序列中的所有符号相同，则认为该符号子序列为符号相同的符号子序列。例如，一个符号子序列为a a a a，则认为该符号子序列为符号相同的符号子序列。由于这些连续出现的符号相同的符号子序列无需通过后续步骤，就可将相似的子序列识别出来，因此，为了提高后续识别时序数据的模体的效率，本实施例中将符号子序列中至少两个连续的符号相同的符号子序列进行压缩，以便于后续模体的识别。

具体地，将符号子序列中至少两个连续的符号相同的符号子序列进行压缩，包括但不限于：

将符号子序列中至少两个连续的符号相同的符号子序列用任意一个连续的符号子序列的符号及连续出现的符号子序列的数量表示。

例如，若符号子序列的符号数为n个，表示符号子序列的符号种类为a、b和c，当连续的符号相同的子序列的符号为a，符号相同的子序列连续次数为m次时，压缩子序列可以表示为：a a……m，其中，a的数量为n-1个。

对于上述过程，为了便于理解，下面将以用户设定表示符号子序列的符号数为4个，表示符号子序列的符号种类为a、b和c为例，进行详细地解释说明。

如图3所示，时序数据T经过分割和符号化处理后，时序数据T被转化为100个符号子序列。由图3可知，符号子序列1的表示符号为a a a a、符号子序列2的表示符号为a a a a、……、符号子序列10的表示符号为a a a a。由此可以看出，符号数n为4，且符号子序列1、符号子序列2、……、符号子序列10为连续的符号相同的符号子序列，即符号相同的子序列连续次数m为10，因此，可将符号子序列1、符号子序列2、……、符号子序列10进行压缩，得到压缩子序列，该压缩子序列可以表示为a a a 10。

由于压缩子序列同样具有较高的相似度，也有可能成为时序数据的模体，因此，为了识别出更多的模体，本实施例提供的方法还将计算相邻的两个压缩符号子序列对应的数据子序列之间的距离，将距离小于第一预设距离的相邻两个压缩符号子序列对应的数据子序列作为识别出的模体。其中，第一预设距离可以为1个数据长度、2个数据长度、3个数据长度等，本实施例不对第一预设距离进行限定。

205：对符号子序列中未进行压缩的符号子序列进行预设次数的随机投影。

其中，随机投影是一种在概率寻找模体中广泛应用的方法，通过随机投影可以用较少的操作时间从较长的时序数据中识别出时序数据的模体。随机投影的主要原理是越是出现次数多的模体，在离散化以后子序列相同位置越有可能出现相同的符号。因此，通过比较预设次数的随机投影过程中符号子序列在不同位置上出现相同符号的次数即可以帮助发现模体。关于随机投影的预设次数，可以是1次，也可以是2次，当然也可以是其他值，本实施例不对预设次数的具体值进行限定。

由于压缩符号子序列无需通过随机投影过程即可进行模体识别，因此，为了提高识别时序数据的模体的效率，本实施例提供的方法将不再对符号子序列中压缩符号子序列进行随机投影，而是对未压缩符号子序列进行预设次数的随机投影。

具体地，在对符号子序列中未压缩的符号子序列进行预设次数的随机投影时，可以随机地选择投影的未压缩的符号子序列的列数。如可以选择2列进行投影，也可以选择3列进行投影。具体投影时，可根据未压缩的符号子序列的情况进行设定。在确定投影的未压缩的符号子序列的列数后，具体对未压缩的符号子序列的哪些列进行投影也可以是随机选择的。例如，如果确定投影的未压缩的符号子序列的列数为2列，那么在随机投影时未压缩的符号子序列的任意两列都可以被选择。具体可以选择未压缩的符号子序列的第1列和第2列进行投影，也可以选择未压缩的符号子序列的第2列和第3列进行投影。当然，也可以选择未压缩的符号子序列的其他两列进行投影。但由于具有相同模体的未压缩的符号子序列在相同位置上的符号是相同的，因此，经过预设次数的随机投影后，可能成为模体的两个符号子序列在相同投影位置上出现相同符号的次数会相对较多。

206：记录投影的每个符号子序列与投影的其他符号子序列在投影位置上具有相同符号的次数。

其中，关于记录投影的每个符号子序列在预设次数的随机投影过程中与其他符号子序列在投影位置上具有相同符号的次数的方式，本实施例不作具体的限定，包括但不限于通过矩阵、表格等方式记录。

为了便于理解上述过程，下面以通过矩阵的方式记录投影的每个符号子序列与其他符号子序列在投影位置上具有相同符号的次数为例，进行详细地解释说明。

其中，矩阵中每一行和每一列分别代表一个投影的符号子序列。关于矩阵中行和列的投影的符号子序列的排列方式，可以按投影的符号子序列编号从小到大排列，也可以按投影的符号子序列编号从大到小排列，本实施例不对矩阵中投影的符号子序列的行和列的排列方式作具体的限定。如果在第一次随机投影过程中，两个投影的符号子序列在投影位置上具有相同符号，则在矩阵中这两个投影的符号子序列的交叉位置上记录1，表示在一次随机投影过程中这两个投影的符号子序列符号相同的次数为一次；如果在第二次随机投影过程中，这两个投影的符号子序列在投影位置上还具有相同符号，则在矩阵中这两个投影的符号子序列的交叉位置上记录2，表示在两次随机投影过程中这两个投影的符号子序列符号相同的次数为两次。最后，将预设次数的随机投影过程中这两个投影的符号子序列在投影位置上具有相同符号的次数累计起来，并将累计的次数记录在矩阵中这两个投影的符号子序列的交叉位置上，表示在预设次数的随机投影过程中这两个投影的符号子序列在投影位置上具有相同符号的次数。

需要说明的是，由于矩阵的行和列都表示投影的符号子序列，因此，两个投影的符号子序列在矩阵中的交叉位置有两个，但这两个位置表示的投影的符号子序列是相同的。为了避免重复记录，本实施例中将随机投影过程中两个投影的符号子序列编号小的用矩阵的行来表示，编号大的用矩阵的列来表示。

为了便于理解上述步骤202至206，下面以设定表示符号子序列的符号种类为a b c，表示符号子序列的符号数为4个，并结合图4至图7所示的示意图为例进行详细地解释说明。

其中，图4为记录的每个符号子序列的矩阵示意图，图5为记录未进行压缩的符号子序列的矩阵示意图，图6和图7为对未压缩的符号子序列进行第一次和第二次随机投影后的结果示意图。从图4可以看出，符号化后得到的符号子序列中，符号子序列2的表示符号为a a a a、符号子序列3的表示符号为a a aa、符号子序列4的表示符号为a a a a，由于符号子序列2、符号子序列3、符号子序列4为连续的符号子序列且表示符号相同，因此，将符号子序列2、符号子序列3、符号子序列4进行了压缩，得到了压缩符号子序列，并将未压缩的符号子序列在图5中表示出来。

图6为对图5中未压缩的符号子序列进行第一次随机投影的结果示意图，该第一次随机投影过程中选择的列数为图5中的第1列。从图6中可以看出，在第一次随机投影过程中第1个符号子序列和第5个符号子序列在投影位置上具有相同的符号，第1个符号子序列和第897个符号子序列在投影位置上具有相同的符号，第5个符号子序列和第897个符号子序列在投影位置上具有相同的符号。将一次随机投影过程中在投影位置上具有相同符号的次数在矩阵中符号子序列的交叉位置上记录下来，即在图6所示的矩阵中横轴为第1行纵轴为第5行的交叉位置上记录为1，在横轴为第1行纵轴为第897行的交叉位置上记录为1，在横轴为第5行纵轴为第897行的交叉位置上记录为1。

在图6记录的第一次随机投影后的结果示意图的基础上，图7为对图5中未压缩的符号子序列进行第二次随机投影的结果示意图，该第二次随机投影过程中选择的列数为图5中的第2列。从图7中可以看出，在第二次随机投影过程中第5个符号子序列和第897个符号子序列在投影位置上具有相同符号，由于在第一次随机投影过程中第5个符号子序列和第897个符号子序列在投影位置上具有相同符号的次数为1次，因此，两次随机投影过程中第5个符号子序列和第897个符号子序列在投影位置上具有相同符号的次数为2次，在矩阵中符号子序列的交叉位置上记录下来，即在图7中所示的矩阵中横轴为第5行纵轴为第897行的交叉位置上记录为2。由于在第二次随机投影过程中第1个符号子序列和第5个符号子序列在投影位置上不具有相同符号，第1个符号子序列和第897个符号子序列在投影位置上也不具有相同符号，因此，两次随机投影过程中第1个符号子序列和第5个符号子序列在投影位置上具有相同符号的次数为1次，第1个符号子序列和第897个符号子序列在投影位置上具有相同符号的次数为1次，将两次随机投影的结果记录下来，即在图7中所示的矩阵中横轴为第1行纵轴为第5行的交叉位置上记录为1，在横轴为第1行纵轴为第897行的位置上记录为1。

需要说明的是，上述仅以第1个符号子序列、第5个符号子序列和第897个符号子序列为例进行说明，图中其他未压缩的符号子序列的第一次和第二次随机投影的原理与图5中第1个符号子序列、第5个符号子序列和第897个符号子序列的投影原理相同，具体参见对第1个符号子序列、第5个符号子序列和第897个符号子序列的分析，此处不再一一说明。

207：计算记录的次数中超过阈值的次数所对应的两个数据子序列之间的距离，将距离小于第一预设距离的两个数据子序列作为识别出的标准模体。

其中，阈值可以是2、3、4等，本实施例不对阈值的大小进行限定。由于在随机投影时，两个符号子序列在投影位置上具有相同符号的次数越多，说明这两个符号子序列的相似度越高，即这两个符号子序列具有相同的模体的可能性较大；两个符号子序列在投影位置上具有相同符号的次数越少，说明这两个符号子序列的相似度越低，即这两个符号子序列具有相同的模体的可能性较小。因此，为了获取相似度较高的模体，在获取记录的次数中超过阈值的次数所对应的两个数据子序列之前时，可根据随机投影的预设次数，选取较高的阈值。例如，若进行随机投影的次数为4次，则可选取较为接近投影次数的值，如选取3作为阈值；若进行随机投影的次数为6次，则可选取较为接近投影次数的值，如选取4作为阈值。

具体实施时，无论选取的阈值为多少，将上述步骤206中记录的次数直接与阈值进行比较后，比较结果有两种：记录的次数超过阈值，记录的次数未超过阈值。其中，未超过阈值包括等于和小于阈值。虽然记录的次数中超过阈值的次数所对应的两个数据子序列具有较高相似度，但为了使识别出的时序数据的模体更为精准，在确定记录的次数中超过阈值的次数所对应的两个数据子序列后，可通过计算记录的次数中超过阈值的次数所对应的两个数据子序列之间的距离作进一步地确认。

具体地，在计算记录的次数中超过阈值的次数所对应的两个数据子序列之间的距离时，两个数据子序列之间的距离包括但不限于欧氏距离、马氏距离、兰氏距离等，本实施例中以计算记录的次数中超过阈值的次数所对应的两个数据子序列之间的距离为欧氏距离为例进行说明。

其中，欧氏距离也称欧几里得距离，它是m维空间中两点之间的真实距离。若A（a₁，a₂，……，a_m）和B（b₁，b₂，……，b_m）是m维空间中的两点，那么m维空间中A、B两点之间的欧氏距离为：（a₁-b₁）²+（a₂-b₂）²+……+（a_m-b_m）²具体地，若A（a₁，a₁）、B(b₂，b₂)是二维空间中的两点，那么在二维空间中A、B两点之间的欧氏距离为：（a₁-b₁）²+(a₂-b₂)²；若A（a₁，a₂，a₃）、B(b₁，b₂，b₃)是三维空间中的两点，那么在三维空间中A和B两点之间的欧氏距离为：（a₁-b₁）²+(a₂-b₂)²+(a₃-b₃)²。

进一步地，在计算记录的次数中超过阈值的次数所对应的两个数据子序列之间的欧氏距离时，由于分割后的每个数据子序列的长度相同，每个数据子序列中包含的点的个数也是相同的，因此，本实施例中将两个数据子序列中的每一个点之间的欧氏距离相加求和作为两个数据子序列之间的欧氏距离。由于需要分析的时序数据为统计时间内的变化曲线，因而时序数据上的每一个点都可以用坐标系来表示。且由于数据子序列为二维空间内的子序列，因此，在计算记录的次数中超过阈值的次数所对应的两个数据子序列之间的欧氏距离时，可采用二维空间中两点之间的欧氏距离的计算公式进行计算。

例如，将记录的次数与阈值进行比较后，得到记录的次数中超过阈值次数的两个数据子序列分别为数据子序列A和数据子序列B。若数据子序列A={（x₁,y₁）,(x₂,y₂),…(x₁₀₀,y₁₀₀)},数据子序列B={（a₁,b₁）,(a₂,b₂),…(a₁₀₀,b₁₀₀)}。则在二维空间中数据子序列A和B之间的欧氏距离为：sqrt{（x₁-a₁）²+(y₁-b₁)²}+sqrt{（x₂-a₂）²+(y₂-b₂)²}+……+sqrt{（x₁₀₀-a₁₀₀）²+(y₁₀₀-b₁₀₀)²}。其中，sqrt表示平方根。

进一步地，由于第一预设距离为两个数据子序列能否构成模体的误差范围，当两个数据子序列之间的距离在误差范围内，说明这两个数据子序列的相似度较高，这两个数据子序列可以构成模体；当两个数据子序列之间的距离在误差范围以外，说明这两个数据子序列的相似度较低，这两个数据子序列无法构成模体。因此，为了提高模体识别的准确性，本实施例提供的方法在计算记录的次数中超过阈值的次数所对应的两个数据子序列之间的欧氏距离后，还将得到的两个数据子序列之间的欧氏距离与第一预设距离进行比较，并将距离小于第一预设距离的两个数据子序列作为识别出的标准模体。对于上述过程，为了便于理解，下面将以第一预设距离为2个数据长度为例，进行详细地解释说明。

例如，将记录的次数与阈值进行比较后，记录的次数超过阈值的次数所对应的数据子序列有:数据子序列1和数据子序列2、数据子序列3和数据子序列4。若数据子序列1和数据子序列2之间的欧氏距离为3个数据长度，数据子序列3和数据子序列4之间的欧氏距离为1个数据长度。由于数据子序列1和数据子序列2之间的欧氏距离为3个数据长度，3个数据长度大于2个数据长度，因此，数据子序列1和数据子序列2不能作为识别出的标准模体。由于数据子序列3和数据子序列4之间的欧氏距离为1个数据长度，1个数据长度小于2个数据长度，因此，数据子序列3和数据子序列4作为识别出的标准模体。

为了将上述过程直观地展现出来，下面以坐标系为例，详细介绍得到标准模体的过程。该过程在具体执行时，分为如下几步：

第一步，将记录的次数超过阈值的符号子序列在坐标系中标记下来。具体标记的符号子序列为setM={(xi,yi,Li)}。其中，xi表示在随机投影过程中标号小的符号子序列，yi表示在随机投影过程中标号大的符号子序列，Li表示符号子序列的长度。

第二步，根据第一步中标记的符号子序列，确定标记的符号子序列在时序数据中对应的数据子序列S={s1，s2，……，sn}。

第三步，设定欧氏距离阈值B。

第四步，根据设定的欧氏距离阈值B，判断第二步中确定的时序数据中的子序列能否成为标准模体。

针对第四步，在具体判断时，可通过执行下面程序实现：

第五步，将得到的标准模体输出。具体输出的标准模体为M={(s_i1，s_i2，……s_ik)}。

优选地，由于识别出的标准模体是后续识别其他可能存在的模体的重要依据，而后续在识别其他可能存在的模体时，需要将其他可能存在的模体与识别出的标准模体进行比较，在将其他可能存在的模体与识别出的标准模体进行比较时，需要将其他可能存在的模体与多个标准模体一一进行比较。且由于受到本身噪声以及随机投影算法的概率原理等因素影响，致使本应连续的有些标准模体中间存在间断，这些间断的存在使得有些标准模体比实际模体要短，为了减小识别出其他可能存在的模体时的计算量，提高识别出的模体的精度，本实施例提供的方法在识别标准模体后，还将执行将相邻且欧氏距离小于第二预设距离的至少两个标准模体构成组合模体的步骤，从而实现将小模体构成组合模体，并通过组合模体进行后续模体的识别，继而减少计算量。

其中，第二预设距离可以是1个数据长度、2个数据长度、3个数据长度等，本实施例不对第二预设距离做具体的限定。由于第一预设距离为两个数据子序列能否成为标准模体的判断标准，而衡量相邻的至少两个标准模体能否构成组合模体的标准是第二预设距离，因此，该第二预设距离大于第一预设距离。

为了直观地展现出将相邻的至少两个标准模体构成组合模体的过程，下面以坐标系中的标准模体A=（x₁,y₁,L₁），标准模体B=（x₂,y₂,L₂）为例进行介绍。

其中，xi表示在随机投影过程中标号小的符号子序列，yi表示在随机投影过程中标号大的符号子序列，Li表示符号子序列的长度。在判断标准模体A和标准模体B能否构成组合模体时，可通过如下方式实现：

第一步，计算子序列x₁和y₁之间的欧氏距离，得到第一次计算的欧氏距离，将第一次计算的欧氏距离与第二预设距离进行比较，由于x₁和y₁之间的欧氏距离小于第一预设距离，而第一预设距离小于第二预设距离，因此，继续执行第二步；

第二步，计算x₁终点后的第一个点与y₁终点后的第一个点之间的欧氏距离，并与第一步得到的x₁和y₁之间的欧氏距离求和，若该值小于第二预设距离，则继续与x₁终点后的第2个点与y₁终点后的第2个点之间的欧氏距离求和，持续上述过程，直到x₂的第一个点与y₂的第一个点之前。如果求得的第一次总的欧氏距离小于第二预设距离，则继续执行第三步；

第三步，计算x2和y2的第一个点之间的欧氏距离，将计算得到的x2和y2的第一个点之间的欧氏距离与第二步中得到的第一次总的欧氏距离求和，得到第二次总的欧氏距离，若第二次总的欧氏距离小于第二预设距离，则继续计算x2和y2的第二个点之间的欧氏距离，将计算得到的x2和y2的第二个点之间的欧氏距离与第二次总的欧氏距离求和，得到第三次总的欧氏距离，若第三次总的欧氏距离小于第二预设距离，则继续计算x2和y2的第三个点之间的欧氏距离。继续执行上述过程，直到总的欧氏距离不再小于第二预设距离为止。

第四步，将相邻且欧氏距离小于第二预设距离的标准模体A和标准模体B构成组合模体，或者，将标准模体A和标准模体B中满足第二预设距离的部分数据子序列构成组合模体。

针对第四步，若在判断标准模体A与标准模体B能否构成组合模体时，若从标准模体A开始一直进行到标准模体B结束，标准模体A与标准模体B之间的欧氏距离仍小于第二预设距离，则将相邻且欧氏距离小于第二预设距离的标准模体A和标准模体B构成组合模体；若从标准模体A开始到标准模体B中间的部分数据子序列的欧氏距离之和已大于第二预设距离，则将相邻且欧氏距离小于第二预设距离的标准模体A和标准模体B中满足第二预设距离的部分数据子序列构成组合模体。

208:对每个预设范围内的标准模体进行聚类，得到每个预设范围内的一个中心数据子序列，并根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差。

虽然步骤207中已经得到了识别出的标准模体，但由于识别出的标准模体中的各个标准模体在时序数据中的位置不同，且各个标准模体之间存在噪声干扰，而后续步骤中在识别时序数据的模体时将以识别出的标准模体为参照，因此，为了提高后续识别出的时序数据的模体的准确性，需要在识别出的标准模体中确定一个能代表各个标准模体的一个中心数据子序列。为了确定一个能代表各个标准模体且无噪声干扰的一个中心数据子序列，本实施例提供的方法，需要对每个预设范围内的标准模体进行聚类，得到每个预设范围内的一个中心数据子序列。其中，预设范围为一段数据范围。预设范围可以有多个，每个预设范围可以相同，也可以不同。例如，第一个预设范围可以是第1个数据子序列到第2个数据子序列的数据范围，第二个预设范围可以是第3个数据子序列到第8个数据子序列的数据范围，本实施例不对预设范围作具体的限定。关于预设范围的选取方式，以坐标中标记的子序列为例，可将坐标系中X轴上的某一范围作为选取的预设范围，也可将坐标系中Y轴上的某一范围作为选取的预设范围。为了便于后续的分析和计算，本实施例中采用将坐标系中X轴上的某一范围作为选取的预设范围为例，对预设范围内的标准模体进行聚类。

需要说明的是，在对每个预设范围内的标准模体进行聚类时，需要将每个预设范围内的所有标准模体包括的数据子序列进行聚类。具体地，若预设范围内的标准模体有A和B，其中，标准模体A对应的数据子序列为1和2，标准模体B对应的数据子序列为3和4。对预设范围内的标准模体进行聚类时，需要将数据子序列1、2、3和4一起进行聚类。

目前，在模体识别时主要的聚类方法有K-means方法、Clarans算法、Birch算法等，其中应用最广的是K-means方法。具体实施时，本实施例采用K-means方法为例进行说明。

其中，K-means方法，也称k平均或k均值，是一种最典型的聚类方法，它将所有各个聚类子集内的所有数据样本的均值作为该聚类的代表点。K-means算法主要是通过迭代过程把数据集划分成不同类别，采用距离作为相似性的评价指标，即认为两个对象距离越近，相似性就越大。通过K-means算法使得评价聚类性能的准则函数达到最优，从而得到类内紧凑、类间独立的最终目标。

具体地，K-means算法的步骤如下：

1、为每个聚类确定一个初始聚类中心，得到K个初始聚类中心；

2、将样本集中的样本按最小距离原则分配到最邻近聚类；

3、使用每个聚类中的样本均值作为新的聚类中心；

4、重复步骤2、3直到聚类中心不在变化；

5、结束，得到K个聚类。

采用上述K-means算法对每个预设范围内的标准模体进行聚类时，具体过程包括但不限于如下步骤：

首先，从预设范围内的所有标准模体对应的各个数据子序列中随机选择一个数据子序列作为初始聚类中心，并计算每个数据子序列与初始聚类中心的相似度；其中，计算每个数据子序列与初始聚类中心的相似度的方式可以通过计算每个数据子序列与初始聚类中心的欧氏距离或马氏距离实现，或是采用其他计算相似度的方式，本实施例对此不作具体限定。

其次，在计算得到每个数据子序列与初始聚类中心的相似度之后，可按照相似度将各个数据子序列归到对应的类别中，再计算类别中每个数据子序列之间的相似度，重新得到类别的聚类中心，由此完成聚类。

通过上述过程，将每个预设范围内的标准模体采用上述聚类方法进行聚类，即可得到每个预设范围内的一个中心数据子序列。为了便于理解，下面将以一个具体的例子，进行详细地解释说明。

图8为坐标系中标记的标准模体。若设定预设范围有：第5个子序列到第10个子序列的数据范围，第15个子序列到第20个子序列的数据范围。采用K-means方法将图8中位于第5个子序列到第10个子序列的数据范围内的所有标准模体进行聚类，可得到预设范围为第5个子序列到第10个子序列的数据范围内的一个中心数据子序列；将图8中位于第15个子序列到第20个子序列的数据范围内的所有标准模体进行聚类，可得到预设范围为第15个子序列到第20个子序列的数据范围内的一个中心数据子序列。

进一步地，得到每个预设范围内的一个中心数据子序列后，本实施例提供的方法还将根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差。具体地，根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差，包括但不限于：

为了便于根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差，本实施例中采用K-means算法C作为子算法进行计算。该计算过程在具体执行时，可通过如下方式实现：

第一步，将得到的一组次数超过第一阈值的数据子序列集合输入。具体输入的一组数据子序列集合为S={s1，s2，……，sn}。

第二步，采用K-means算法C作为子算法计算输入的一组数据子序列集合中的一组标准模体，及该组标准模体所在预设范围内的一个中心数据子序列和预设范围的方差。

针对该步骤，具体计算时，可通过执行下面的程序实现：

BEGIN

1. Run C(S，1) and output the one clustering S’=(s₁’,……，s_m’)

2.Set s=s’.Compute the deviation by

END

对于上述过程，为了便于理解，下面将以预设范围为第2个数据子序列到第5个数据子序列的数据范围为例，进行详细地解释说明。

例如，若在预设范围为第2个数据子序列到第5个子序列的数据范围，在预设范围内构成标准模体的数据子序列有：数据子序列2、数据子序列3、数据子序列4、数据子序列5，其中，数据子序列2的长度为S₁、数据子序列3的长度为S₂、数据子序列4的长度为S₃、数据子序列5的长度为S₄。将预设范围为第2个数据子序列到第5个数据子序列的数据范围内的数据子序列进行聚类得到的中心数据子序列的长度为S，则预设范围内的标准模体与中心数据子序列之间的距离平方的平均值为：[（S-S₁）²+（S-S₂）²+（S-S₃）²+（S-S₄）²]/4，即预设范围为第2个数据子序列到第5个数据子序列的数据范围的标准模体和中心数据子序列的方差为：[（S-S₁）²+（S-S₂）²+（S-S₃）²+（S-S₄）²]/4。

优选地，由于上述步骤207中已将相邻且欧氏距离小于第二预设距离的至少两个标准模体构成组合模体，则在每个预设范围内存在着组合模体和未构成组合模体的标准模体，因此，在上述步骤207的优选步骤的基础上，本步骤在对每个预设范围内的标准模体进行聚类时，还可以包括但不限于如下方式：

对每个预设范围内的组合模体及未构成组合模体的标准模体进行聚类。

进一步地，由于对每个预设范围内的标准模体进行聚类的优选步骤中，已对每个预设范围内的组合模体及未构成组合模体的标准模体进行聚类，因此，在上述优选步骤的基础上，本步骤根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差时，还可以包括但不限于如下方式：

此外，除了对每个预设范围内的组合模体及未构成组合模体的标准模体进行聚类，还可以对每个预设范围内的组合模体及识别出的所有标准模体进行聚类。通过对每个预设范围内的组合模体及识别出的所有标准模体进行聚类，同样可得到每个预设范围内的一个中心数据子序列，具体聚类方式与上述未构成组合模体时的聚类方式相同，此处不再赘述。

可选地，根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差，还可以包括如下方式：

计算每个预设范围内的组合模体及识别出的所有标准模体分别与中心数据子序列之间的距离平方的平均值，并将计算得到的距离平方的平均值作为每个预设范围的方差。

209：缩小阈值，并计算记录的次数中超过每次缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离，将距离小于所在预设范围的方差的数据子序列作为识别出的模体。

由于选取的阈值越小，子序列的相似度越低，识别出的模体越多。因此，为了将可能存在的所有时序数据的模体识别出来，在上述步骤208的基础上，本步骤中将阈值由大到小依次缩小，并计算记录的次数中超过缩小后的阈值的次数所对应的每个数据子序列与其所在预设范围内的中心数据子序列之间的距离，进而将距离小于所在预设范围的方差的数据子序列作为识别出的模体。

具体地，在计算记录的次数中超过每次缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离时，记录的次数中超过每次缩小后的阈值的次数所对应的两个数据子序列中，有些数据子序列在上一次缩小阈值时已经被计算过与其所在预设范围内的中心数据子序列之间的距离。因此，为了减少计算量，本实施例提供的方法在计算记录的次数中超过每次缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离时，对于已经计算过距离的数据子序列将不再进行计算。

例如，在上一次阈值缩小的过程中，数据子序列4和5为记录的次数中超过缩小后的阈值的次数所对应的两个数据子序列，并计算了数据子序列4和5与其所在预设范围内的中心数据子序列之间的距离。则本次在上次阈值缩小的基础上继续缩小阈值后，得到的次数超过缩小后的阈值的次数所对应的数据子序列有数据子序列4和5、数据子序列7和8，由于数据子序列4和5已在上次阈值缩小的过程中计算了与其所在预设范围内的中心数据子序列之间的距离，因此，此次仅需计算数据子序列7和8与其所在预设范围内的中心数据子序列之间的距离即可，而无需再对数据子序列4和5进行计算。

其中，缩小后的阈值可以比阈值小1，也可以比阈值小2，当然也可以比阈值小3，本实施例不对缩小后的阈值进行限定。

需要说明的是，采用阈值缩小的方法，将阈值由大到小依次缩小的过程中，阈值缩小并不是无限的，在将阈值缩小之前可预先设置一个识别出的模体的预设数量，当将阈值由大到小依次缩小的过程中，由于阈值越小，识别出的模体越多，模体的相似性越小，因此，为了保证识别出的模体的准确性，当识别出的模体的数量大于预设数量时，本实施例提供的方法，将不再缩小阈值。其中，预设数量可以是10个、20个、30个等，本实施例不对预设数量作具体的限定。

具体地，计算记录的次数中超过缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离，包括不限于：

计算记录的次数中超过每次缩小后的阈值的次数所对应的每个数据子序列与其所在预设范围内的中心数据子序列之间的距离。

由于上述步骤208中在每个预设范围内得到了一个中心数据子序列，该中心数据子序列具有较高的精度，且可以代表预设范围内识别出的各个标准模体，因此，为了保证识别出的时序数据的模体的准确性，本步骤中需要计算记录的次数中超过每次缩小后的阈值的次数对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离。进一步地，由于本实施例是将阈值由大到小依次缩小的，在阈值缩小的过程中，记录的次数中超过缩小后的阈值的次数不止为一次，因此，需要计算记录的次数中超过每次缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离。

进一步地，计算记录的次数中超过每次缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离后，为了判断记录的次数中超过每次缩小后的阈值的次数所对应的两个数据子序列能否作为模体，本实施例提供的方法，还将记录的次数中超过每次缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离与所在预设范围内的方差进行比较，并将距离小于所在预设范围的方差的数据子序列作为识别出的模体。

优选地，虽然经过上述各个步骤已可以识别出时序数据的模体，但在更大的范围内可能会存在更长的模体，而更长的模体对于未来的分析也是十分有意义的，因此，本实施例提供的方法还提供了识别出可能存在的更长模体的后续步骤。

210：将相邻且距离小于第二预设距离的至少两个模体识别为一个大的模体。

为了保证识别出的更长模体中的时序数据的差异不会太大，从而保证识别出的时序数据的模体的准确性。本实施例中首先计算相邻的至少两个时序数据的模体之间的欧氏距离，进而将相邻的至少两个时序数据的模体之间的欧氏距离与第二预设距离进行比较，而该第二预设距离可以反映出相邻的至少两个时序数据的模体构成一个更长模体时，该相邻的至少两个时序数据模体之间的差异范围。

在将相邻的至少两个时序数据的模体之间的欧氏距离与第二预设距离进行比较时，本实施例不对具体比较方式进行限定。具体实施时，比较结果包括但不限于：相邻的至少两个时序数据的模体之间的欧氏距离小于第二预设距离，相邻的至少两个时序数据的模体之间的欧氏距离大于第二预设距离，相邻的至少两个时序数据的模体之间的欧氏距离等于第二预设距离。为了保证识别出的时序数据的模体的准确性，本实施例中将相邻且欧氏距离小于第二预设距离的至少两个时序数据的模体作为识别出的一个大模体。

对于上述过程，为了便于理解，下面将以设定第二预设距离为2个数据长度为例，进行详细地解释说明。

如图9所示，1、2和3为识别出的相邻的时序数据的模体，其中，识别出的时序数据的模体1和识别出的时序数据的模体2之间的欧氏距离为1个数据长度，识别出的时序数据的模体2和识别出的时序数据的模体3之间的欧氏距离为3个数据长度，由于识别出的时序数据的模体1和识别出的时序数据的模体2之间的欧氏距离为1个数据长度小于第二预设距离2个数据长度，因此，可将识别出的时序数据的模体1和2识别为一个大模体；由于识别出的时序数据的模体2和识别出的时序数据的模体3之间的欧氏距离为3个数据长度大于第二预设距离2个数据长度，因此，不能将识别出的时序数据的模体2和3识别为一个大模体。

此外，通过对每个预设范围内的标准模体进行聚类得到每个预设范围内的一个中心数据子序列，根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差后，计算记录的次数中超过缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离，将距离小于所在预设范围的方差的数据子序列作为识别出的模体，从而提高了识别出的模体数量，进一步提高了模体识别的准确性。

实施例三

参见图10，本发明实施例提供了一种时序数据的模体识别装置，该装置包括：

获取模块1001，用于获取需要分析的时序数据；

分割模块1002，用于将需要分析的时序数据分割成至少两个数据子序列；

处理模块1003，用于对每个数据子序列进行符号化处理，得到至少两个符号子序列；

投影模块1004，用于对符号子序列进行预设次数的随机投影；

记录模块1005，用于记录投影的每个符号子序列与投影的其他符号子序列在投影位置上具有相同符号的次数；

第一识别模块1006，用于计算记录的次数中超过阈值的次数所对应的两个数据子序列之间的距离，将距离小于第一预设距离的两个数据子序列作为识别出的标准模体；

聚类模块1007，用于对每个预设范围内的标准模体进行聚类，得到每个预设范围内的一个中心数据子序列；

计算模块1008，用于根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差；

第二识别模块1009，用于缩小阈值，并计算记录的次数中超过缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离，将距离小于所在预设范围的方差的数据子序列作为识别出的模体。

参见图11，该装置，还包括：

压缩模块1010，用于将符号子序列中至少两个连续的符号相同的符号子序列进行压缩，得到压缩符号子序列；

投影模块1004，用于对符号子序列中未压缩的符号子序列进行预设次数的随机投影。

作为一种可选实施例，计算模块1008，用于计算每个预设范围内的标准模体与中心数据子序列之间的距离平方的平均值，并将计算得到的距离平方的平均值作为每个预设范围的方差。

作为一种可选实施例，第二识别模块1009，用于由大到小依次缩小阈值，直至识别出的模体数量大于预设数量为止；计算记录的次数中超过每次缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离。

参见图12，该装置，还包括：

第三识别模块1011，用于计算相邻两个压缩符号子序列对应的数据子序列之间的距离，将距离小于第一预设距离的相邻两个压缩符号子序列对应的数据子序列作为识别出的模体。

作为一种优选的实施例，第一识别模块1006，还用于将相邻且距离小于第二预设距离的至少两个标准模体构成组合模体；

聚类模块1007，用于对每个预设范围内的组合模体及未构成组合模体的标准模体进行聚类；

计算模块1008，用于计算每个预设范围内的组合模体及未构成组合模体的标准模体分别与中心数据子序列之间的距离平方的平均值，并将计算得到的距离平方的平均值作为每个预设范围的方差。

参见图13，该装置，还包括：

第四识别模块1012，用于将相邻且距离小于第二预设距离的至少两个识别出的模体构成大模体。

综上所述，本发明实施例提供的装置，对需要分析的时序数据进行符号化处理及随机投影，并记录投影的每个符号子序列与投影的其他符号子序列在投影位置上具有相同符号的次数后，将记录的次数中超过阈值的次数所对应的两个数据子序列之间的距离小于第一预设距离的两个数据子序列作为识别出的标准模体，该模体中的两个数据子序列的位移差不会太大，保证了重复出现的概率，进而可提高模体识别的准确性。

需要说明的是：上述实施例提供的时序数据的模体识别装置在识别时序数据的模体时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将时序数据的模体识别装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的时序数据的模体识别装置与时序数据的模体识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种时序数据的模体识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述得到至少两个符号子序列之后，还包括：

所述对所述符号子序列进行预设次数的随机投影，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差，包括：

4.根据权利要求1所述的方法，其特征在于，所述缩小所述阈值，并计算记录的次数中超过缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离，包括：

5.根据权利要求2所述的方法，其特征在于，所述得到压缩符号子序列之后，还包括：

6.根据权利要求1所述的方法，其特征在于，所述将距离小于第一预设距离的两个数据子序列作为识别出的标准模体之后，还包括：

所述对每个预设范围内的标准模体进行聚类，包括：

7.根据权利要求1至6中任一权利要求所述的方法，其特征在于，所述将距离小于所在预设范围的方差的数据子序列作为识别出的模体之后，还包括：

8.一种时序数据的模体识别装置，其特征在于，所述装置包括：

获取模块，用于获取需要分析的时序数据；

9.根据权利要求8所述的装置，其特征在于，所述装置，还包括：

所述投影模块，用于对所述符号子序列中未压缩的符号子序列进行预设次数的随机投影。

10.根据权利要求8所述的装置，其特征在于，所述计算模块，用于计算每个预设范围内的标准模体与中心数据子序列之间的距离平方的平均值，并将计算得到的距离平方的平均值作为每个预设范围的方差。

11.根据权利要求8所述的装置，其特征在于，所述第二识别模块，用于由大到小依次缩小所述阈值，直至识别出的模体数量大于预设数量为止；计算记录的次数中超过每次缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离。

12.根据权利要求9所述的装置，其特征在于，所述装置，还包括：

13.根据权利要求8所述的装置，其特征在于，所述第一识别模块，还用于将相邻且距离小于第二预设距离的至少两个标准模体构成组合模体；

14.根据权利要求8至13中任一权利要求所述的装置，其特征在于，所述装置，还包括：

第四识别模块，用于将相邻且距离小于第二预设距离的至少两个识别出的模体构成大模体。