CN107111643A

CN107111643A - 时间序列数据检索装置和时间序列数据检索程序

Info

Publication number: CN107111643A
Application number: CN201580071672.4A
Authority: CN
Inventors: 中村隆显; 今村诚
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2015-01-22
Filing date: 2015-01-22
Publication date: 2017-08-29
Anticipated expiration: 2035-01-22
Also published as: EP3249549B1; JP6165367B2; CN107111643B; KR20170107500A; EP3249549A1; US20180217812A1; JPWO2016117086A1; US10223069B2; KR101970090B1; EP3249549A4; WO2016117086A1

Abstract

初始区段集合生成部(120)根据训练时间序列数据(S)生成初始区段集合(F)。初始区段集合排序部(130)按照特征量的顺序对初始区段集合中包含的初始区段进行排序。标本区段集合生成部(140)根据初始区段集合生成标本区段集合(E)。标本区段集合排序部(150)按照特征量的顺序对标本区段集合中包含的标本区段进行排序。检索结果距离计算部(160)使用标本区段集合计算每个测试区段的检索结果距离(Z)。

Description

时间序列数据检索装置和时间序列数据检索程序

技术领域

本发明涉及对时间序列数据进行检索的技术。

背景技术

在发电成套设备、化学成套设备、钢铁成套设备、上下水道成套设备等中，导入用于对成套设备的工艺进行控制的控制系统。在楼宇或工厂等的设备中，也导入用于对空调、电气、照明和给排水等进行控制的控制系统。并且，在工厂的生产线的设备、汽车和铁道车辆中搭载有记录设备状态的日志系统，以掌握设备状态。

在这些系统中，通过安装于设备的传感器，蓄积随着时间经过而得到的各种时间序列数据。

如下所述对时间序列数据进行分析。

对从最近的时间序列数据即测试时间序列数据中提取出的部分时间序列数据和从过去的时间序列数据即训练时间序列数据中提取出的部分时间序列数据进行比较，检索与训练时间序列数据的部分时间序列数据相似的测试时间序列数据的部分时间序列数据。然后，在该相似的测试时间序列数据的部分时间序列数据中，检测与训练时间序列数据的部分时间序列数据最不相似的测试时间序列数据的部分时间序列数据作为奇点。然后，通过奇点的检测来检测设备的异常。

部分时间序列数据是以滑动时间窗幅度的长度从时间序列数据中提取出的数据，称作区段。

按照测试时间序列数据的每个区段提取距离最近的训练时间序列数据的区段，与训练时间序列数据的区段之间的距离最远的测试时间序列数据的区段是奇点。作为区段间的距离的种类，广泛利用欧几里得距离和DTW距离。DTW是Dynamic Time Warping(动态时间规整)的简称。

这里，将上述奇点检测方式称作朴素方式。

在朴素方式中，利用训练时间序列数据的区段与测试时间序列数据的区段的全部组合求出距离，因此，计算量大幅增加。

非专利文献1提出了如下方式：与计算区段间的距离相比，使用计算量较少的指标完成距离的计算，由此削减计算量。

非专利文献2提出了如下方式：对测试时间序列数据的区段与标本区段进行比较，由此削减计算量。标本区段称作Exemplar，是从训练时间序列数据中集中相似的区段而生成的。

在非专利文献2的方式中，如果能够充分缩小标本区段的数量，则与朴素方式和非专利文献1的方式相比，能够大幅削减计算量。

但是，非专利文献2的方式是通过对训练时间序列数据进行标本化来求出近似解的方式，因此，需要注意其误差即近似误差。

在非专利文献2的方式中，只要存在与标本区段之间的距离为阈值以下的测试区段，就反复进行该测试区段与标本区段的耦合。其结果是，近似误差增加，无法保证近似误差收敛在容许范围内。

并且，无法定量地求出标本区段中包含的近似误差，因此，无法对检索结果中包含的误差进行评价。

作为区段间距离的阈值判定中使用的特征量，非专利文献3公开了复杂度。

现有技术文献

非专利文献

非专利文献1：Rakthanmanon,et al.,Searching and mining trillions oftime series subsequences under dynamic time warping,KDD’12 Proceedings of the18th ACM SIGKDD international conference on Knowledge discovery and datamining Pages262-270.

非专利文献2：M Jones,et al.,Anomaly Detection in Real-ValuedMultidimensional Time Series,ASE Stanford University Conference,May 2014；Paper No.027.

非专利文献3：Jesin Zakaria,Developing Efficient Algorithms for DataMining Large Scale High Dimensional Data,UC Riverside Electronic Theses andDissertations,2013.,https：//escholarship.org/uc/item/660316zp

发明内容

发明要解决的课题

本发明的目的在于，在保证近似误差收敛在容许范围内的基础上，能够高速地生成时间序列数据的检索中使用的标本区段集合。

用于解决课题的手段

本发明的时间序列数据检索装置具有：初始区段集合生成部，其生成多个按照时间序列的顺序从由以时间序列排列的多个数据值构成的训练时间序列数据中提取W个数据值而得到的训练区段，生成多个由按照时间序列的顺序排列的一个以上的训练区段构成的训练临时区段集合，按照每个训练临时区段集合计算表示如下的坐标值的W个数据值作为初始区段，生成由每个训练临时区段集合的初始区段构成的初始区段集合，其中，所述坐标值是将训练临时区段集合的各个训练区段中包含的W个数据值当作W维坐标系的坐标值时的训练临时区段集合的重心的坐标值；以及标本区段集合生成部，其将所述初始区段集合分割成由如下的初始区段构成的初始临时区段集合，生成按照每个初始临时区段集合包含标本区段的标本区段集合，其中，所述初始区段由按照具有条件半径的每个W维图形表示图形中包含的坐标值的数据值构成，所述标本区段由表示初始临时区段集合的图形的重心的坐标值的、W个数据值构成，所述条件半径是半径的条件。

发明效果

根据本发明，能够高速地生成时间序列数据的检索中使用的标本区段集合。

附图说明

图1是实施方式1中的时间序列数据检索装置100的功能结构图。

图2是实施方式1中的时间序列数据检索装置100的硬件结构图。

图3是实施方式1中的时间序列数据检索方法的流程图。

图4是实施方式1中的初始区段集合生成处理(S110)的流程图。

图5是实施方式1中的标本区段集合生成处理(S130)的流程图。

图6是实施方式1中的标本区段集合生成处理(S130)的第2循环处理(S132)的流程图。

图7是实施方式1中的检索结果距离计算处理(S150)的流程图。

图8是实施方式7中的初始区段集合生成处理(S110)的流程图。

图9是实施方式7中的标本区段集合生成处理(S130)的流程图。

图10是实施方式7中的标本区段集合生成处理(S130)的第2循环处理(S132)的流程图。

图11是与各实施方式中的标本区段有关的概念图。

图12是与各实施方式中的标本区段有关的概念图。

图13是与各实施方式中的标本区段有关的概念图。

图14是与各实施方式中的标本区段有关的概念图。

图15是与各实施方式中的标本区段有关的概念图。

图16是与各实施方式中的标本区段有关的概念图。

具体实施方式

实施方式1

根据图1～图7对高速地生成时间序列数据的检索中使用的标本区段集合的方式进行说明。

对时间序列数据的相似检索的思路进行说明。

通过幅度W的窗从时间序列数据中切出的部分时间序列数据能够视为W维的向量。由此，求出训练时间序列数据的部分时间序列数据即训练区段与测试时间序列数据的部分时间序列数据即测试区段之间的距离的处理能够视为求出W维空间的2点的坐标间的距离的处理。

并且，测试时间序列数据的奇点检测能够视为寻找最远离训练区段集合的测试区段的处理。

而且，时间序列数据的相似检索能够视为W维空间的附近检索。

对时间序列数据具有的第1特性～第3特性进行说明。

第1特性是数据值的连续性。温度等物理现象的计测值大多连续变化。并且，以机械方式控制的设备的计测值不会急剧变化。例如，急剧的电压变化成为设备故障的原因，因此，施加给设备的电压逐渐变化。

第2特性是数据值的周期性。设备的动作与人的活动或气象现象具有较强的相关性。这种设备的时间序列数据以一日、一周或一年等为单位具有周期性。并且，在根据程序而反复动作的设备的时间序列数据中也反复出现相同的模式。

第3特性是数据值的局限性。被控制的设备的时间序列数据中包含的计测值是规定范围的值。这种时间序列数据的区段集中在多维空间的有限区域内。例如，被控制成计测值为正值的设备的时间序列数据的区段包含在多维空间的全部维度的正区域内。

***结构的说明***

根据图1对时间序列数据检索装置100的功能结构进行说明。

时间序列数据检索装置100具有时间序列数据取得部110、参数取得部111、初始区段集合生成部120、初始区段集合排序部130、标本区段集合生成部140。进而，时间序列数据检索装置100具有标本区段集合排序部150、检索结果距离计算部160、检索结果距离输出部161、数据存储部190。

时间序列数据取得部110取得被输入到时间序列数据检索装置100的训练时间序列数据S和测试时间序列数据T。

训练时间序列数据S和测试时间序列数据T是由以时间序列排列的多个数据值构成的时间序列数据。

参数取得部111对被输入到时间序列数据检索装置100的滑动幅度W和近似误差ε进行输入。

滑动幅度W是从训练时间序列数据S中提取出的训练区段和从测试时间序列数据T中提取出的测试区段中包含的数据值的个数。滑动幅度W也称作滑动时间窗幅度。

近似误差ε是可容许的误差的大小。参数取得部111也可以使用用于计算近似误差ε的参数来计算近似误差ε。

初始区段集合生成部120生成多个按照时间序列的顺序从训练时间序列数据S中提取W个数据值而得到的训练区段，生成多个由按照时间序列的顺序排列的一个以上的训练区段构成的训练临时区段集合。初始区段集合生成部120按照每个训练临时区段集合计算初始区段。初始区段是表示将训练临时区段集合的各个训练区段中包含的W个数据值当作W维坐标系的坐标值时的训练临时区段集合的重心的坐标值的、W个数据值。而且，初始区段集合生成部120生成由每个训练临时区段集合的初始区段构成的初始区段集合F。

在训练临时区段集合中包含多个训练区段的情况下，多个训练区段中的时间序列顺序的开头的训练区段与其余的训练区段之间的距离为条件半径ε/2以下。

初始区段集合排序部130按照初始区段集合F中包含的每个初始区段，使用初始区段中包含的数据值计算初始区段的特征量。然后，初始区段集合排序部130按照特征量的顺序对初始区段集合F中包含的初始区段进行排序。

标本区段集合生成部140将初始区段集合F分割成一个以上的初始临时区段集合。初始临时区段集合由初始区段构成，所述初始区段由按照具有条件半径ε/2的每个W维图形(后述球B)表示图形中包含的坐标值的数据值构成，所述条件半径是半径的条件。然后，标本区段集合生成部140生成包含每个初始临时区段集合的标本区段的标本区段集合E。标本区段由表示初始临时区段集合的图形的重心的坐标值的、W个数据值构成。图形的重心也可以换言之为图形的中心。

初始临时区段集合由第1图形中包含的一个以上的初始区段构成。第1图形是包含排序后的初始区段集合F中的开头的初始区段表示的坐标值的图形。

通过初始区段判定，除了开头的初始区段之外对包含在第1初始临时区段集合中的初始区段进行判定。初始区段判定是从开头的初始区段的下一个初始区段起依次判定初始区段是否包含在第1图形内的处理。

在特征量差包含在作为特征量差条件的特征量差范围内的情况下，对选择出的初始区段进行初始区段判定。该特征量差是从下一个初始区段起依次选择出的初始区段的特征量与根据第1图形的重心即第1重心的坐标值计算出的第1重心的特征量之差。

在特征量差未包含在特征量差范围内的情况下，不对从选择出的初始区段起的初始区段进行初始区段判定。

在针对选择出的初始区段的初始区段判定中，选择出的初始区段表示的坐标值的坐标与第1重心的坐标之间的距离为条件半径ε/2以下的情况下，判定为选择出的初始区段包含在第1图形内。

初始区段的特征量是初始区段中包含的数据值的平均值。

第1重心的特征量是将第1图形的重心的坐标值作为W个数据值进行处理时的数据值的平均值。

标本区段集合排序部150按照标本区段集合E中包含的每个标本区段，使用标本区段中包含的数据值计算标本区段的特征量。然后，标本区段集合排序部150按照特征量的顺序对标本区段集合E中包含的标本区段进行排序。

检索结果距离计算部160生成多个按照时间序列的顺序从测试时间序列数据T中提取W个数据值而得到的测试区段。检索结果距离计算部160按照测试区段与标本区段集合E中包含的标本区段的每个组合，计算测试区段与标本区段之间的区段间距离。然后，检索结果距离计算部160按照每个测试区段，选择测试区段与任意标本区段之间的区段间距离作为检索结果距离Z。

检索结果距离Z是最小的区段间距离。

检索结果距离输出部161输出每个测试区段的检索结果距离。

数据存储部190存储时间序列数据检索装置100使用、生成或输入输出的数据。

根据图2对时间序列数据检索装置100的硬件结构例进行说明。

时间序列数据检索装置100是具有处理器901、辅助存储装置902、存储器903、通信装置904、输入接口905、显示器接口906这样的硬件的计算机。

处理器901经由信号线910而与其它硬件连接。输入接口905经由缆线911而与输入装置907连接。显示器接口906经由缆线912而与显示器908连接。

处理器901是进行处理的IC(Integrated Circuit：集成电路)，对其它硬件进行控制。例如，处理器901是CPU(Central Processing Unit：中央处理单元)、DSP(DigitalSignal Processor：数字信号处理器)、GPU(Graphics Processing Unit：图形处理单元)。

辅助存储装置902例如是ROM(Read Only Memory：只读存储器)、闪存、HDD(HardDisk Drive：硬盘驱动器)。

存储器903例如是RAM(Random Access Memory：随机存取存储器)。

通信装置904具有接收数据的接收机9041和发送数据的发送机9042。例如，通信装置904是通信芯片或NIC(Network Interface Card：网络接口卡)。

输入接口905是连接缆线911的端口，端口的一例是USB(Universal Serial Bus：通用串行总线)端子。

显示器接口906是连接缆线912的端口，端口的一例是USB端子或HDMI(HighDefinition Multimedia Interface：高分辨率多媒体接口)端子。HDMI是注册商标。

输入装置907例如是鼠标、键盘或触摸面板。

显示器908例如是LCD(Liquid Crystal Display：液晶显示器)。

在辅助存储装置902中存储有OS(Operating System：操作系统)。并且，在辅助存储装置902中存储有实现时间序列数据检索装置100具有的时间序列数据取得部110、参数取得部111、初始区段集合生成部120、初始区段集合排序部130、标本区段集合生成部140、标本区段集合排序部150、检索结果距离计算部160、检索结果距离输出部161这样的“部”的功能的程序。

OS的至少一部分被加载到存储器903，处理器901执行OS，并且执行实现“部”的功能的程序。实现“部”的功能的程序被载入到存储器903，被处理器901读入，由处理器901来执行。

另外，也可以是，时间序列数据检索装置100具有多个处理器901，多个处理器901协作执行实现“部”的功能的程序。

表示“部”的处理的结果的数据、信息、信号值和变量值等存储在存储器903、辅助存储装置902、处理器901内的寄存器或处理器901内的缓存中。

也可以利用“电路系统(circuitry)”来安装“部”。“部”也可以改写成“电路”、“步骤”、“进程”或“处理”。

“电路”和“电路系统”是包含处理器901、逻辑IC、GA(Gate Array：门阵列)、ASIC(Application Specific Integrated Circuit：面向特定用途的集成电路)、FPGA(Field-Programmable Gate Array：现场可编程门阵列)这样的处理电路的概念。

***动作的说明***

根据图3对构成时间序列数据检索装置100的时间序列数据检索方法的各处理的概要进行说明。然后，对各处理进行详细说明。

S110是初始区段集合生成处理。

在S110中，初始区段集合生成部120根据训练时间序列数据S生成初始区段集合F。

S120是初始区段集合排序处理。

在S120中，初始区段集合排序部130按照初始区段集合F中包含的每个初始区段计算特征量，按照特征量的升序对初始区段集合F中包含的初始区段进行排序。

S130是标本区段集合生成处理。

在S130中，标本区段集合生成部140根据排序后的初始区段集合F生成标本区段集合E。

S140是标本区段排序处理。

在S140中，标本区段集合排序部150按照标本区段集合E中包含的每个标本区段计算特征量，按照特征量的升序对标本区段集合E中包含的标本区段进行排序。

S150是检索结果距离计算处理。

在S150中，检索结果距离计算部160使用标本区段集合E，计算测试时间序列数据T中包含的每个测试区段的检索结果距离Z。

S160是检索结果距离输出处理。

在S160中，检索结果距离输出部161输出每个测试区段的检索结果距离Z。

对以后的说明中使用的表记进行说明。

使用数据长度M，利用S＝{S[0],S[1],…,S[M-1]}表示训练时间序列数据S。即，训练时间序列数据S由S[0]～S[M-1]这M个数据值构成。

使用滑动幅度W，利用S_i＝S[i：i+W-1]表示第i个训练区段S_i。即，第i个训练区段S_i由S[i]～S[i+W-1]这W个数据值构成。

使用数据长度N，利用T＝{T[0],T[1],…,T[N-1]}表示测试时间序列数据T。即，测试时间序列数据T由T[0]～T[N-1]这N个数据值构成。

使用滑动幅度W，利用T_i＝T[i：i+W-1]表示第i个测试区段T_i。即，第i个测试区段T_i由T[i]～T[i+W-1]这W个数据值构成。

根据图4对初始区段集合生成处理(S110)进行说明。

在S111中，初始区段集合生成部120对初始区段集合F进行初始化。初始化后的初始区段集合F不包含初始区段。

在变量i的值从0起每次增加1而成为M-W+1之前，反复执行S112～S116的处理。训练区段S_i是变量i的值表示的编号的训练区段。M-W+1是最终的训练区段的编号。在图4中，设S112～S117的处理的循环为第1循环。

在S112中，初始区段集合生成部120对训练临时区段集合U_s进行初始化，在训练临时区段集合U_s中追加训练区段S_i。此时，训练临时区段集合U_s仅包含训练区段S_i。

在变量j的值从i+1起每次增加1而成为M-W+1之前，反复执行S113～S115的处理。训练区段S_j是变量j的值表示的编号的训练区段。在图4中，将S113～S115的处理的循环称作第2循环。

在S113中，初始区段集合生成部120计算训练区段S_i与训练区段S_j之间的区段间距离d。该区段间距离d的种类是欧几里得距离。

在S114中，初始区段集合生成部120判定区段间距离d是否为ε/2以下。

在区段间距离d为ε/2以下的情况下(是)，处理进入S115。

在区段间距离d大于ε/2的情况下(否)，处理进入S116。

在S115中，初始区段集合生成部120在训练临时区段集合U_s中追加训练区段S_j。

在S116中，初始区段集合生成部120计算训练临时区段集合U_s中包含的各个训练区段表示的坐标的重心。表示该重心的坐标的W个数据值是初始区段。

利用以下的式<1>求出训练临时区段集合U_s的重心Cent(U_s)。

在式<1>中，U_S是{S₀,S₁,…,S_h}，|U_S|是数据长度(h+1)。并且，F_n[j]是初始区段F_n的第j个元素。

【数学式1】

Cent(U_S)＝{F_n[0],F_n[1],…,F_n[W-1]}…<1>

然后，初始区段集合生成部120在初始区段集合F中追加初始区段。

在S116之后，处理脱离第2循环，进入S117。

在S117中，初始区段集合生成部120将变量i的值更新成变量j的值。

通过图4的处理，仅从开头朝向末尾在一个方向上扫描训练时间序列数据S，就能够生成初始区段集合F。

初始区段集合生成处理(S110)是利用时间序列数据的第1特性即数据值的连续性的处理，假设连续的区段彼此的坐标的距离较近。由此，仅搜索连续的区段，也能够寻找相似的区段。

而且，从开头扫描训练时间序列数据S，提取半径为ε/2的球中包含的训练区段的集合即训练临时区段集合U_s，计算训练临时区段集合U_s的重心作为初始区段。

对初始区段集合排序处理(S120)进行说明。

初始区段集合排序部130按照初始区段集合F中包含的每个初始区段计算特征量，按照特征量的升序对初始区段集合F中包含的初始区段进行排序。

初始区段的特征量是初始区段中包含的W个数据值的平均值。

在利用F_n＝{F_n[0],F_n[1],…,F_n[W-1]}表示初始区段F_n的情况下，能够利用以下的式<2>表示初始区段F_n的平均值Mean(F_n)。

初始区段F_n的平均值Mean(F_n)意味着初始区段F_n的坐标位于由以下的式<3>定义的W维空间的平面内。在式<3>中，X_i是第i个坐标轴中的坐标值。该W维空间的平面是通过W个坐标{(W*Mean(F_n),0,…,0)、(0,W*Mean(F_n),…,0)、…、(0,0,…,W*Mean(F_n))}的平面。

【数学式2】

x₀+x₁+…+x_W-1＝W*Mean(F_n)…<3>

初始区段集合排序处理(S120)是利用时间序列数据的第2特性即数据值的周期性的处理。

通过按照平均值的升序对初始区段集合F中包含的初始区段进行排序，能够较近地排列时间上不近但距离上较近的初始区段彼此。

根据图5对标本区段集合生成处理(S130)进行说明。

在S130-1中，标本区段集合生成部140对标本区段集合E进行初始化。初始化后的标本区段集合E不包含标本区段。

在变量i的值从0起每次增加1而成为值r之前，反复执行S131-1～S131-6的处理。值r是初始区段集合F中包含的最终的初始区段的编号。但是，在变量i的值是从初始区段集合F中去除的初始区段的编号的情况下，跳过针对所去除的初始区段的处理，变量i的值增加1。

初始区段F_i是变量i的值表示的编号的初始区段。在图5中，设S131-1～S131-6的处理的循环为第1循环。

在S131-1中，标本区段集合生成部140决定包含初始区段F_i的球B的重心C。球B的半径为ε/2。

作为球B的重心C，可举出以下的(1)～(3)所示的重心C。

(1)初始区段F_i表示的坐标值是重心C。

(2)在初始区段F_i的坐标值与初始区段F_k的坐标值之间的区段间距离d为ε以下的情况下，初始区段F_i的坐标值与初始区段F_k的坐标值的中间坐标值是重心C。初始区段F_k是满足后述区段间距离的条件的最初的初始区段或最后的初始区段。初始区段F_k也可以是满足区段间距离的条件的初始区段中的最大的区段间距离的初始区段。另外，初始区段F_k是初始区段F_i之后的初始区段。

(3)时间序列数据具有上述第3特性即数据值的局限性。因此，可认为在W维空间内，区段的坐标分布在通过原点和坐标(1,1,…,1)的基本向量V的周边。该情况下，沿着通过初始区段F_i的坐标且与基本向量V平行的向量从初始区段F_i的坐标向正方向前进ε/2的坐标的坐标值是重心C。该重心C是初始区段F_i[l](0≤l<W)加上ε/(2*√W)而得到的值。

在S131-1中决定球B的重心C后，标本区段集合生成部140计算重心C的特征量D(C)。

计算重心C的特征量D(C)的方法与在S120中计算初始区段F_n的特征量的方法相同。但是，在上述的式<2>中，F_n被置换成C。

在S131-2中，标本区段集合生成部140对初始临时区段集合U_f进行初始化，在初始临时区段集合U_f中追加初始区段F_i。此时，初始临时区段集合U_f仅包含初始区段F_i。

在S131-3中，标本区段集合生成部140从初始区段集合F中去除初始区段F_i。

在S131-4中，标本区段集合生成部140在变量Skip中设定-1。变量Skip是表示球B中未包含的最初的初始区段F_i的编号的变量。

在S132中，标本区段集合生成部140进行第2循环处理。第2循环处理(S132)容后再述。

在S131-5中，标本区段集合生成部140在标本区段集合E中追加重心C。

在S131-6中，标本区段集合生成部140对变量i的值进行更新。

在变量Skip的值为正值的情况下，变量i的值被更新成变量Skip的值。

在变量Skip的值为负值(-1)的情况下，变量i的值被更新成第2循环处理(S132)中设定的变量j的值。

根据图6对第2循环处理(S132)进行说明。

在变量j的值从i+1起每次增加1而成为值r之前，反复执行S132-1～S132-7的处理。但是，在变量j的值是从初始区段集合F中去除的初始区段的编号的情况下，跳过针对所去除的初始区段的处理，变量j的值增加1。

初始区段F_j是变量j的值表示的编号的初始区段。在图6中，设S132-1～S132-6的处理的循环为第2循环。

在S132-1中，标本区段集合生成部140判定初始区段F_j的特征量D(F_j)与重心C的特征量D(C)的特征量差是否大于ε/(2*√W)(区段间距离的条件)。初始区段F_j的特征量D(F_j)是在初始区段集合排序处理(S120)中计算出的值。

在特征量差大于ε/(2*√W)的情况下，包含初始区段F_j的坐标的平面与包含重心C的坐标的平面之间的距离超过ε/2，因此，初始区段F_j的坐标位于球B的外侧。因此，不直接计算初始区段F_j的坐标与重心C的坐标之间的距离，也能够判定位于球B外侧的坐标的初始区段F_j。

根据以下的式<4>和式<5>得到S132-1中的条件式|D(F_i)-D(C)|>ε/(2*√W)。

式<4>是在W维空间内求出包含平均值为D₁的第1坐标的平面与包含平均值为D₂的第2坐标的平面之间的距离的式子。

因此，为了使第1坐标与第2坐标之间的距离为d_ε以下，需要满足式<5>。

【数学式3】

在特征量差大于ε/(2*√W)的情况下(是)，处理脱离第2循环，进入S131-5(参照图5)。

在特征量差为ε/(2*√W)以下的情况下(否)，处理进入S132-2。

在S132-2中，标本区段集合生成部140计算重心C的坐标与初始区段F_j的坐标之间的距离即区段间距离d。该区段间距离d的种类是欧几里得距离。

在S132-3中，标本区段集合生成部140判定区段间距离d是否为ε/2以下。

在区段间距离d为ε/2以下的情况下(是)，处理进入S132-4。

在区段间距离d大于ε/2的情况下(否)，处理进入S132-6。

在S132-4中，标本区段集合生成部140在初始临时区段集合U_f中追加初始区段F_j。

在S132-5中，标本区段集合生成部140从初始区段集合F中去除初始区段F_j。

在S132-6中，在变量Skip为负值(-1)的情况下，标本区段集合生成部140在变量Skip中设定变量j的值。在负值以外的情况下，不进行任何动作。

通过图5和图6的处理，仅从开头朝向末尾在一个方向上扫描初始区段集合F，就能够生成标本区段集合E。

对标本区段排序处理(S140)进行说明。

标本区段集合排序部150按照标本区段集合E中包含的每个标本区段计算特征量，按照特征量的升序对标本区段集合E中包含的标本区段进行排序。

计算标本区段E_n的特征量的方法与在S120中计算初始区段F_n的特征量的方法相同。但是，在上述的式<2>中，F_n被置换成E_n。

根据图7对检索结果距离计算处理(S150)进行说明。

在变量i的值从0起每次增加1而成为N-W+1之前，反复执行S151～S154的处理。测试区段T_i是变量i的值表示的编号的测试区段。N-W+1是最终的测试区段的编号。检索结果距离Z[i]是测试区段T_i的检索结果距离Z。在图7中，设S151～S154的处理的循环为第1循环。

在S151中，检索结果距离计算部160在检索结果距离Z[i]中设定无限大。

在变量j的值从0起每次增加1而成为值e之前，反复执行S152～S154的处理。值e是标本区段集合E中包含的最终的标本区段的编号。在图7中，设S152～S154的处理的循环为第2循环。

在S152中，检索结果距离计算部160计算测试区段T_i与标本区段E_j之间的区段间距离d。该区段间距离d的种类是欧几里得距离。但是，该区段间距离d的种类也可以是DTW距离或其它种类的距离。

在S153中，检索结果距离计算部160判定区段间距离d是否小于检索结果距离Z[i]。

在区段间距离d小于检索结果距离Z[i]的情况下(是)，处理进入S154。

在区段间距离d为检索结果距离Z[i]以上的情况下(否)，不进行S154的处理。

在S154中，检索结果距离计算部160利用区段间距离d对检索结果距离Z[i]进行更新。

对检索结果距离输出处理(S160)进行说明。

检索结果距离输出部161输出每个测试区段的检索结果距离Z。

在测试区段的检索结果距离Z较大的情况下，该测试区段不与任何标本区段相似。换言之，该测试区段不与任何训练区段相似。

因此，在与其它区段相比，测试区段的检索结果距离Z相对较大的情况下，该测试区段能够视为测试时间序列数据T的奇点。

在时间序列数据检索方法中，通过求出半径为ε/2的球作为初始区段的初始区段集合生成处理(S110)以及对半径为ε/2的同一球中包含的初始区段进行耦合来求出标本区段的标本区段集合生成处理(S130)这2个阶段的处理，求出代表具有近似误差ε作为半径的球中包含的坐标的区段的标本区段。

在W维空间内，标本区段是具有近似误差ε作为半径的多维超球的重心，代表表示该球中包含的坐标的训练区段。即，测试区段与标本区段之间的区段间距离d意味着测试区段与训练区段之间的区段距离包含在d±ε的范围内。

另一方面，在不使用标本区段来计算测试区段与训练区段之间的区段间距离的情况下，需要较多的计算量。例如，在测试区段和训练区段各自的个数为N的情况下，需要计算N²个区段间距离。因此，以使标本区段的数量最小的方式选择标本区段是理想的。换言之，选择具有最佳半径的最佳球是理想的，但是，为了从多维空间内选择具有最佳半径的最佳球，需要调查区段的密度分布等，需要较多的计算量。关于最佳球的选择，除了选择最终的标本区段的数量最小的球以外，还意味着选择球中包含的标本区段的数量最大的球。

在实施方式中，与选择最佳球相比，优先削减计算量。

***效果的说明***

作为严格具有近似误差ε作为半径的球中包含的训练区段的集合的代表，时间序列数据检索装置100能够生成标本区段。由此，能够保证相似检索中的近似误差ε。

并且，时间序列数据检索装置100仅从开头扫描一次训练时间序列数据S，就能够生成初始区段集合F，仅从开头扫描一次初始区段集合F，就能够生成标本区段集合E。

因此，能够从训练时间序列数据S中高速地提取保证了近似误差ε的标本区段。

实施方式2

对使用与平均值不同的特征量的方式进行说明。但是，省略与实施方式1重复的说明。

***结构的说明***

时间序列数据检索装置100的功能结构与实施方式1的图1相同。

***动作的说明***

时间序列数据检索方法的处理流程与实施方式1的图3相同。

但是，如下所述，S120～S140与实施方式1不同。

在S120中，初始区段F_i的特征量D(F_i)是初始区段F_i表示的坐标值的坐标与基准点之间的距离。

基准点是W维空间的原点0＝{0,0,…,0}。该情况下，初始区段F_i位于具有D(F_i)作为半径的球面上。但是，基准点也可以是原点0以外的坐标。

在S130中，重心C的特征量D(C)是重心C与基准点之间的距离。

在S132-1(参照图6)中，判定特征量D(F_i)与特征量D(C)的特征量差是否大于ε/2。根据以下的式<6>和式<7>得到该条件式|D(F_i)-D(C)|>ε/2。

式<6>是在W维空间内求出距基准点的距离为D₁的第1坐标与距基准点的距离为D₂的第2坐标之间的距离的最小值的式子。

因此，为了使第1坐标与第2坐标之间的距离为d_ε以下，需要满足式<7>。

【数学式4】

|D₁-D₂|…<6>

|D₁-D₂|≤d_ε…<7>

在基准点为原点0的情况下，能够利用以下的式<8>表示初始区段F_i的坐标与重心C的坐标之间的距离的范围。

式<8>意味着，在由于初始区段F_i分散而使初始区段F_i与基准点之间的距离往往超过|D(F_i)+D(C)|的情况下，能够在S132-1中更快地完成搜索。

【数学式5】

|D(F_i)-D(C)|≤dist(C，F_i)≤|D(F_i)+D(C)|…<8>

在S140中，标本区段E_i的特征量D(E_i)是标本区段E_i表示的坐标值的坐标与基准点之间的距离。

***效果的说明***

在初始区段分散的情况下，时间序列数据检索装置100能够较快地完成用于生成标本区段的搜索，高速地生成标本区段集合。

实施方式3

***结构的说明***

***动作的说明***

时间序列数据检索方法的处理流程与实施方式1的图3相同。

但是，如下所述，S120和S140与实施方式1不同。

在S120中，初始区段的特征量是对从初始区段中提取出的初始部分区段中包含的数据值进行平均而得到的部分平均值。即，按照部分平均值的顺序对初始区段集合F中包含的初始区段进行排序。

作为提取初始部分区段的方法，可举出以下的(1)和(2)的方法。

(1)提取初始区段F_i[i：i+W-1]的前半部分F_i(f)[i：(i+W-1)/2]或后半部分F_i(b)[(i+W-1)/2：i+W-1]作为初始部分区段。

(2)提取对初始区段F_i[i：i+W-1]进行四等分而得到的第1部分F_i(1)[i：(i+W-1)/4]和第3部分F_i(3)[(i+W-1)/2：(i+W-1)*3/4]作为初始部分区段。或者，提取第2部分F_i(2)[(i+W-1)/4：(i+W-1)/2]和第4部分F_i(4)[(i+W-1)*3/4：i+W-1]作为初始部分区段。

在S140中，标本区段的特征量是对从标本区段中提取出的标本部分区段中包含的数据值进行平均而得到的部分平均值。即，按照部分平均值的顺序对标本区段集合E中包含的标本区段进行排序。

S130中的初始区段的特征量D(F_i)和重心的特征量D(C)与实施方式1相同。

即，初始区段的特征量D(F_i)是对初始区段中包含的数据值进行平均而得到的整体平均值，重心的特征量D(C)是对将重心的坐标值作为W个数据值进行处理时的数据值进行平均而得到的重心平均值。并且，初始区段的特征量D(F_i)与重心特征量D(C)的特征量差是整体平均值与重心平均值之差。

S132-1(参照图6)中的条件式与实施方式1相同，是|D(F_i)-D(C)|>ε/(2*√W)。

***效果的说明***

在存在整体平均值接近的大量初始区段的情况下，通过按照部分平均值的顺序对初始区段集合进行排序，也能够抑制初始区段的搜索范围的扩大，高速地生成标本区段集合。

实施方式4

***结构的说明***

***动作的说明***

时间序列数据检索方法的处理流程与实施方式1的图3相同。

但是，如下所述，S120～S140的内容与实施方式1不同。

在S120中，初始区段F_i的特征量D(F_i)是初始区段F_i的复杂度。根据初始区段F_i中连续包含的每2个数据值的数据值之差计算该复杂度。

利用以下的式<9>计算初始区段F_i的复杂度comp(F_i)。

【数学式6】

在S130中，重心C的特征量D(C)是重心区段的复杂度。根据将重心C的坐标值作为由W个数据值构成的重心区段进行处理时的重心区段中连续包含的每2个数据值的数据值之差计算该复杂度。

计算重心区段的复杂度comp(C)的方法与在S120中计算初始区段F_i的复杂度comp(F_i)的方法相同。但是，在上述式<9>中，F_i被置换成C。

在S132-1(参照图6)中，判定特征量D(F_i)与特征量D(C)的特征量差是否大于ε。根据以下的式<10>和式<11>得到该条件式|D(F_i)-D(C)|>ε。

第1标本区段E₁的坐标与第2标本区段E₂的坐标之间的欧几里得距离dist(E₁,E₂)满足式<10>的范围。

因此，为了使第1标本区段E₁的坐标与第2标本区段E₂的坐标之间的距离为d_ε以下，需要满足式<11>。

【数学式7】

在S140中，标本区段E_i的特征量D(E_i)是标本区段E_i的复杂度。

计算标本区段E_i的复杂度comp(E_i)的方法与在S120中计算初始区段F_i的复杂度comp(F_i)的方法相同。但是，在上述式<9>中，F_i被置换成E_i。

***效果的说明***

与实施方式1同样，能够从训练时间序列数据S中高速地提取保证了近似误差ε的标本区段。

实施方式5

***结构的说明***

***动作的说明***

时间序列数据检索方法的处理流程与实施方式1的图3相同。

但是，如下所述，S120～S140与实施方式1不同。

在S120中，初始区段的特征量是初始最短距离。即，按照初始最短距离的顺序对初始区段集合F中包含的初始区段进行排序。

初始最短距离是初始区段用的基准平面与W维空间的原点O之间的最短距离。

初始区段用的基准平面是利用实施方式1的式<3>表示的平面。

利用以下的式<12>计算初始区段F_i的初始最短距离Feat_M(F_i)。

【数学式8】

在S130中，初始区段F_i的特征量D(F_i)是初始最短距离和初始指标值。初始指标值是根据初始区段的每个坐标轴的坐标值与初始区段用的基准平面的每个坐标轴的坐标值之差计算出的值。

利用以下的式<13>计算初始区段F_i的初始指标值Feat_R(F_i)。

【数学式9】

初始最短距离是到从W维空间的原点下引到初始区段用的基准平面的垂线的垂足之间的距离。初始指标值是由从W维空间的原点下引到初始区段用的基准平面的垂线的垂足到初始区段表示的坐标值之间的距离。直观地讲，初始指标值表示基准平面上的初始区段表示的坐标值的偏移。

并且，重心C的特征量D(C)是重心最短距离和重心指标值。

重心最短距离是W维空间的原点O与重心用的基准平面之间的最短距离。重心用的基准平面是利用实施方式1的式<3>表示的平面。但是，在式<3>中，F_n被置换成C。利用上述式<12>计算重心C的重心最短距离Feat_M(C)。但是，在式<12>中，F_i被置换成C。

重心指标值是根据重心的每个坐标轴的坐标值与重心用的基准平面的每个坐标轴的坐标值之差计算出的值。利用上述式<13>计算重心C的重心指标值Feat_R(C)。但是，在式<13>中，F_i被置换成C。

在S132-1(参照图6)中，判定特征量D(F_i)与特征量D(C)的特征量差是否大于ε/2。该特征量差是初始最短距离与重心最短距离之差和初始指标值与重心指标值之差的合计。根据以下的式<14>和式<15>得到S132-1中的条件式|D(F_i)-D(C)|>ε/2。

第1标本区段E₁的坐标与第2标本区段E₂的坐标之间的欧几里得距离dist(E₁,E₂)满足式<14>的范围。

因此，为了使第1标本区段E₁的坐标与第2标本区段E₂的坐标之间的距离为d_ε以下，需要满足式<15>。

【数学式10】

在S140中，标本区段的特征量是标本最短距离。即，按照标本最短距离的顺序对标本区段集合E中包含的标本区段进行排序。

标本最短距离是标本区段表示的坐标值的坐标与初始区段用的基准平面之间的最短距离。标本区段用的基准平面是利用实施方式1的式<3>表示的平面。但是，在式<3>，F_n被置换成E_n。利用上述的式<12>计算标本区段E_i的标本最短距离Feat_M(E_i)。但是，在式<12>中，F_i被置换成E_i。

另外，实施方式1中说明的基于平均值的判定方法也可以换言之为基于2个平面间的距离的判定。即，在实施方式1中，|D(F_i)-D(C)|能够置换成以下的式<16>。

【数学式11】

|Feat_M(E_j)-Feat_M(E_i)|…<16>

***效果的说明***

通过考虑从取2个平面间的最短距离的点起的偏移，能够严格地判定距离。而且，能够较快地完成初始区段的搜索，高速地提取标本区段。

实施方式6

对根据条件来选择特征量的种类的方式进行说明。但是，省略与实施方式1～实施方式5重复的说明。

<实施例1>

***结构的说明***

但是，在仅正数据值和负数据值中的任意数据值包含在训练时间序列数据S中的情况下与正数据值和负数据值双方包含在训练时间序列数据S中的情况下，初始区段的特征量的种类不同。

***动作的说明***

时间序列数据检索方法的处理流程与实施方式1的图3相同。

但是，如下所述，S120～S140与实施方式1不同。

在S120中，初始区段集合排序部130计算实施方式1～实施方式5中分别说明的种类的特征量。

并且，初始区段集合排序部130判定正负双方的数据值是否包含在训练时间序列数据S中。通过与特征量的计算同时进行该判定，能够减小判定的间接费用。

在正负双方的数据值包含在训练时间序列数据S中的情况下，初始区段集合排序部130选择实施方式1、实施方式3、实施方式4或实施方式5中说明的种类的特征量。

在正负任意的数据值包含在训练时间序列数据S中的情况下，初始区段集合排序部130选择实施方式2或实施方式4中说明的种类的特征量。

然后，初始区段集合排序部130按照选择出的特征量的顺序对初始区段集合F中包含的初始区段进行排序。

S130和S140与对选择出的种类的特征量进行说明的实施方式相同。

<实施例2>

***结构的说明***

但是，在根据每个训练区段的指标值计算出的分散值包含在作为分散值条件的分散值范围内的情况下与分散值未包含在分散值范围内的情况下，初始区段的特征量的种类不同。

训练区段的指标值是根据训练区段的每个坐标轴的坐标值与训练区段用的基准平面的每个坐标轴的坐标值之差计算出的值。

***动作的说明***

时间序列数据检索方法的处理流程与实施方式1的图3相同。

但是，如下所述，S120～S140与实施方式1不同。

并且，初始区段集合排序部130按照每个训练区段S_i计算Feat_R(S_i)作为特征量。该特征量是实施方式5中说明的指标值。

进而，初始区段集合排序部130计算每个训练区段的特征量的分散值，使用阈值判定分散值是否包含在分散值范围内。

在分散值为阈值以下的情况下，初始区段集合排序部130选择实施方式1、实施方式3或实施方式4中说明的种类的特征量。

在分散值大于阈值的情况下，初始区段集合排序部130选择实施方式2、实施方式4或实施方式5中说明的种类的特征量。

该实施例2是使用实施方式5中说明的Feat_R(E_i)的方法。

根据时间序列数据的第3特性，认为数据值的变化平缓的时间序列数据的区段分布在W维空间的基本向量的周边。基本向量V是通过原点0和点(1,1,…,1)的向量。该Feat_R(E_i)成为表示标本区段E_i表示的标本向量E_l与基本向量V之间的偏移的指标。然后，导出实施例2。

<实施例3>

***结构的说明***

但是，在根据每个训练区段的指标值计算出的最大值包含在作为最大值条件的最大值范围内的情况下与最大值未包含在最大值范围内的情况下，初始区段的特征量的种类不同。

***动作的说明***

时间序列数据检索方法的处理流程与实施方式1的图3相同。

但是，S120～S140是在<实施例2>的S120～S140中将分散值置换成最大值的处理。

<实施例4>

***结构的说明***

训练区段的指标值是示出表示训练区段的坐标值的向量偏角大小的值。

***动作的说明***

时间序列数据检索方法的处理流程与实施方式1的图3相同。

但是，如下所述，S120～S140与实施方式1不同。

并且，初始区段集合排序部130按照每个训练区段S_i计算偏角作为特征量。偏角是根据训练向量S_l与基本向量V的内积求出的值。训练向量S_l是通过原点0和训练区段S_i的坐标的向量。

利用以下的式<17>和式<18>计算偏角在表示向量的标号的上部标注箭头。

【数学式12】

<实施例5>

***结构的说明***

***动作的说明***

时间序列数据检索方法的处理流程与实施方式1的图3相同。

但是，S120～S140是在<实施例4>的S120～S140中将分散值置换成最大值的处理。

***效果的说明***

在初始区段的距离判定中，在实施方式1～实施方式4中使用1个特征量，在实施方式5中使用2个特征量。一般情况下，当特征量的数量增加时，能够进行严格的判定，但是计算量增加。

因此，在实施方式6中，在与计算量的增加量相比希望基于严格判定的搜索范围的削减量更大的情况下，使用2个特征量。

即，实施方式6根据时间序列数据的特性来选择特征量，能够高效地执行用于生成标本区段的初始区段的搜索。

实施方式7

根据图8～图10对从初始临时区段集合U_f包含的初始区段中选择标本区段的方式进行说明。但是，省略与实施方式1重复的说明。

***结构的说明***

但是，初始区段集合生成部120如下所述发挥功能。

初始区段集合生成部120生成多个按照时间序列的顺序从训练时间序列数据S中提取W个数据值而得到的训练区段，生成多个表示按照时间序列的顺序排列的一个以上的训练区段的训练临时区段集合。然后，初始区段集合生成部120按照每个训练临时区段集合生成表示训练临时区段集合作为初始区段的初始区段集合F。

并且，标本区段集合生成部140如下所述发挥功能。

标本区段集合生成部140将初始区段集合F分割成一个以上的初始临时区段集合。初始临时区段集合由初始区段构成，所述初始区段由按照具有条件半径ε/2的每个W维图形(球B)表示图形中包含的坐标值的数据值构成，所述条件半径是半径的条件。然后，标本区段集合生成部140根据初始临时区段集合的图形的重心的坐标值，从初始临时区段集合中选择训练区段作为标本区段，生成表示每个初始临时区段集合的标本区段的标本区段集合E。

***动作的说明***

时间序列数据检索方法的处理流程与实施方式1的图3相同。

但是，如下所述，S110～S130与实施方式1不同。

根据图8对初始区段集合生成处理(S110)进行说明。对与实施方式1不同的处理的步骤编号标注标号B。

在S111中，初始区段集合生成部120对初始区段集合F进行初始化。

在S112B中，初始区段集合生成部120对训练临时区段集合Us进行初始化，不是将训练区段S_i本身，而是将识别训练区段S_i的索引i追加到训练临时区段集合U_s中。索引i是变量i的值。以后，显而易见，在需要训练区段S_i的情况下，能够根据索引i和训练时间序列数据对训练区段S_i进行复原。

在S113中，初始区段集合生成部120计算训练区段S_i与训练区段S_j之间的区段间距离d。

在S115B中，初始区段集合生成部120在训练临时区段集合U_s中追加索引j。索引j是变量j的值。

在S116B中，初始区段集合生成部120在初始区段集合F中追加训练临时区段集合U_s。

通过图8的处理，能够生成由初始区段的索引构成的初始区段集合F。初始区段集合F通过索引来识别初始区段。

在S120中，初始区段集合排序部130按照初始区段集合F中包含的每个初始区段，计算由初始区段中包含的索引识别的各个训练区段表示的坐标的重心。

初始区段集合排序部130按照每个初始区段计算重心的特征量。在计算出每个初始区段的特征量后，从存储器丢弃每个初始区段的重心。

然后，初始区段集合排序部130按照特征量的升序对初始区段集合F中包含的初始区段进行排序。

根据图9对标本区段集合生成处理(S130)进行说明。对与实施方式1不同的处理的步骤编号标注标号B。

在S130-1中，标本区段集合生成部140对标本区段集合E进行初始化。

在S131B-1中，标本区段集合生成部140决定包含初始区段F_i的重心的球B的重心C。球B的半径为ε/2。

在S131B-2中，标本区段集合生成部140对初始临时区段集合U_f进行初始化，在初始临时区段集合U_f中追加初始区段[F_i]。

初始区段[F_i]意味着由初始区段F_i中包含的索引识别的训练区段。

在S131-4中，标本区段集合生成部140在变量Skip中设定-1。

在S131B-5中，标本区段集合生成部140计算初始临时区段集合U_f的重心C_true。通过索引调出U_f中包含的训练区段，与式<1>同样地进行计算，由此能够计算C_true。

标本区段集合生成部140按照初始临时区段集合U_f中包含的每个训练区段，计算训练区段的坐标与重心C_true的坐标之间的距离σ。

然后，标本区段集合生成部140在标本区段集合E中追加距离σ最小的训练区段的索引作为标本区段的重心C_pseudo。

训练区段成为标本区段，因此，不存储W维向量而存储训练区段的索引即可。

并且，通过存储重心C_true与标本区段之间的距离σ，能够表示最终的距离的误差在ε+σ以内。

根据图10对标本区段集合生成处理(S130)的第2循环处理(S132)进行说明。对与实施方式1不同的处理的步骤编号标注标号B。

在S132-1中，标本区段集合生成部140判定初始区段F_j的特征量D(F_j)与重心C的特征量D(C)的特征量差是否大于ε/(2*√W)。

在S132B-2中，标本区段集合生成部140计算初始区段F_j的重心C_j。

然后，标本区段集合生成部140计算重心C的坐标与重心Cj的坐标之间的距离即区段间距离d。

在S132B-4中，标本区段集合生成部140在初始临时区段集合U_f中追加初始区段[F_j]。

在S132-6中，在变量Skip为负值(-1)的情况下，标本区段集合生成部140在变量Skip中设定变量j的值。

通过代替W维的区段而使用成为标本区段的训练区段的索引，能够将标本区段的存储所需要的存储容量削减到大约1/W。即，能够提高存储效率。

***补充说明***

根据图11～图16进行与标本区段有关的补充说明。

在图11中，从时间序列数据提取出的长度W的区段对应于W维空间上的坐标。图中的W为2。

在图12中，使用W维空间上的坐标的平均值A，可以说其坐标位于利用x₁+X₂+···+X_W＝A*W表示的基准平面上。在W＝2的情况下，基准平面相当于直线。

在图13中，坐标p的基准平面与x₁轴的交点p’的距离为W*A。从原点O到坐标p的基准平面的距离为A*√W。即，意味着A越大，则坐标位于与原点O越远的平面上。

坐标p与坐标q之间的距离(dist(p,q))为坐标p的基准平面与坐标q的基准平面之间的距离以上，因此，dist(p,q)≧|Mean(p)*√W-Mean(q)*√W|成立。

由此，为了使dist(p,q)≦ε/2，需要满足|Mean(p)*√W-Mean(q)*√W|≦ε/2，即|Mean(p)-Mean(q)|≦ε/(2*√W)。

在图14中，初始区段集合包含在半径为ε/2的球内。初始区段集合是距开头的训练区段的距离为ε/2以下的训练区段的集合。

在图15中，当汇集以重心C为中心、半径为ε/2的球中包含的初始区段集合的重心时，汇集后的训练区段全部包含在以C为中心、半径为ε的球内。

由此，在某个测试区段与重心C之间的距离为d的情况下，该测试区段与以重心C为中心的球内的训练区段之间的距离包含在d±ε的范围内。

图中的(1)～(6)分别是重心，按照平均值接近C的平均值的重心(1)→(2)→(3)的顺序调查距离。然后，在与C的平均值之差为ε/2的重心(4)之前，成为作为标本区段合并的对象的候选。但是，与C的平均值之差大于ε/2的重心(5)不是合并的对象。然后，在重心(5)处超过阈值，因此，不需要调查(6)以后的重心。

在图16中，Feat_M对应于从坐标系的原点到基准平面的距离。Feat_R对应于从垂线的垂足(A,…,A)到实际的重心的偏移幅度。垂线的垂足是从原点下引到基准平面的垂线的端点。

dist(p,q)比图中的(1)的距离长。这相当于式<14>的前半部分。并且，dist(p,q)比图中的(2)的距离短。这相当于式<14>的后半部分。

各实施方式是优选方式的例示，并不意图限制本发明的技术范围。各实施方式可以部分地实施，也可以与其它实施方式组合实施。

使用流程图等说明的处理顺序是时间序列数据检索装置、时间序列数据检索方法和时间序列数据检索程序的处理顺序的一例。

标号说明

100：时间序列数据检索装置；110：时间序列数据取得部；111：参数取得部；120：初始区段集合生成部；130：初始区段集合排序部；140：标本区段集合生成部；150：标本区段集合排序部；160：检索结果距离计算部；161：检索结果距离输出部；190：数据存储部；901：处理器；902：辅助存储装置；903：存储器；904：通信装置；9041：接收机；9042：发送机；905：输入接口；906：显示器接口；907：输入装置；908：显示器；910：信号线；911：缆线；912：缆线；S：训练时间序列数据；T：测试时间序列数据；W：滑动幅度；ε：近似误差；F：初始区段集合；E：标本区段集合；Z：检索结果距离。

Claims

1.一种时间序列数据检索装置，该时间序列数据检索装置具有：

初始区段集合生成部，其生成多个按照时间序列的顺序从由以时间序列排列的多个数据值构成的训练时间序列数据中提取W个数据值而得到的训练区段，生成多个由按照时间序列的顺序排列的一个以上的训练区段构成的训练临时区段集合，按照每个训练临时区段集合计算表示如下的坐标值的W个数据值作为初始区段，生成由每个训练临时区段集合的初始区段构成的初始区段集合，其中，所述坐标值是将训练临时区段集合的各个训练区段中包含的W个数据值当作W维坐标系的坐标值时的训练临时区段集合的重心的坐标值；以及

标本区段集合生成部，其将所述初始区段集合分割成由如下的初始区段构成的初始临时区段集合，生成按照每个初始临时区段集合包含标本区段的标本区段集合，其中，所述初始区段由按照具有条件半径的每个W维图形表示图形中包含的坐标值的数据值构成，所述标本区段由表示初始临时区段集合的图形的重心的坐标值的、W个数据值构成，所述条件半径是半径的条件。

2.根据权利要求1所述的时间序列数据检索装置，其中，

所述时间序列数据检索装置具有初始区段集合排序部，该初始区段集合排序部按照所述初始区段集合中包含的每个初始区段，使用初始区段中包含的数据值计算初始区段的特征量，按照特征量的顺序对所述初始区段集合中包含的初始区段进行排序，

第1初始临时区段集合由第1图形中包含的一个以上的初始区段构成，所述第1图形是包含排序后的所述初始区段集合中的开头的初始区段表示的坐标值的图形，

通过从所述开头的初始区段的下一个初始区段起依次判定初始区段是否包含在所述第1图形内的初始区段判定，除了所述开头的初始区段之外对包含在所述第1初始临时区段集合中的初始区段进行判定。

3.根据权利要求2所述的时间序列数据检索装置，其中，

在特征量差包含在作为特征量差条件的特征量差范围内的情况下，对从所述下一个初始区段起依次选择出的初始区段进行所述初始区段判定，其中，所述特征量差是选择出的初始区段的特征量与根据所述第1图形的重心即第1重心的坐标值计算出的所述第1重心的特征量之差，

在所述特征量差未包含在所述特征量差范围内的情况下，不对从选择出的初始区段起的初始区段进行所述初始区段判定。

4.根据权利要求3所述的时间序列数据检索装置，其中，

在针对选择出的初始区段的所述初始区段判定中，选择出的初始区段表示的坐标值的坐标与所述第1重心的坐标之间的距离为所述条件半径以下的情况下，判定为选择出的初始区段包含在所述第1图形内。

5.根据权利要求4所述的时间序列数据检索装置，其中，

所述初始区段的特征量是所述初始区段中包含的数据值的平均值，

所述第1重心的特征量是将所述第1图形的重心的坐标值当作W个数据值时的数据值的平均值。

6.根据权利要求4所述的时间序列数据检索装置，其中，

所述初始区段的特征量是所述初始区段表示的坐标值的坐标与基准点之间的距离，

所述第1重心的特征量是所述第1重心与所述基准点之间的距离。

7.根据权利要求4所述的时间序列数据检索装置，其中，

所述初始区段的特征量是对所述初始区段中包含的数据值进行平均而得到的整体平均值和对从所述初始区段提取出的初始部分区段中包含的数据值进行平均而得到的部分平均值，

所述第1重心的特征量是对将所述第1重心的坐标值当作W个数据值时的数据值进行平均而得到的重心平均值，

按照部分平均值的顺序对所述初始区段集合中包含的初始区段进行排序，

所述特征量差是所述整体平均值与所述重心平均值之差。

8.根据权利要求4所述的时间序列数据检索装置，其中，

所述初始区段的特征量是根据所述初始区段中连续包含的每2个数据值的数据值之差计算出的所述初始区段的复杂度，

所述第1重心的特征量是根据将所述第1重心的坐标值当作由W个数据值构成的第1重心区段时的所述第1重心区段中连续包含的每2个数据值的数据值之差计算出的所述第1重心区段的复杂度。

9.根据权利要求4所述的时间序列数据检索装置，其中，

所述初始区段的特征量是初始最短距离以及根据所述初始区段的每个坐标轴的坐标值与所述初始区段用的基准平面的每个坐标轴的坐标值之差计算出的初始指标值，其中，所述初始最短距离是所述初始区段表示的坐标值的坐标与所述初始区段用的基准平面之间的最短距离，

所述第1重心的特征量是重心最短距离以及根据所述第1重心的每个坐标轴的坐标值与所述第1重心用的基准平面的每个坐标轴的坐标值之差计算出的重心指标值，其中，所述重心最短距离是所述第1重心的坐标与所述第1重心用的基准平面之间的重心最短距离，

按照初始最短距离的顺序对所述初始区段集合中包含的初始区段进行排序，

所述特征量差是所述初始最短距离与所述重心最短距离之差和所述初始指标值与所述重心指标值之差的合计。

10.根据权利要求4所述的时间序列数据检索装置，其中，

在仅正数据值和负数据值中的任意数据值包含在所述训练时间序列数据中的情况下与正数据值和负数据值双方包含在所述训练时间序列数据中的情况下，所述初始区段的特征量的种类不同。

11.根据权利要求4所述的时间序列数据检索装置，其中，

在根据每个训练区段的指标值计算出的分散值包含在作为分散值条件的分散值范围内的情况下与所述分散值未包含在所述分散值范围内的情况下，所述初始区段的特征量的种类不同，

训练区段的指标值是根据所述训练区段的每个坐标轴的坐标值与所述训练区段用的基准平面的每个坐标轴的坐标值之间的每个坐标轴之差计算出的值、和示出表示所述训练区段的坐标值的向量偏角大小的值中的任意值。

12.根据权利要求4所述的时间序列数据检索装置，其中，

在每个训练区段的指标值中的最大值包含在作为最大值条件的最大值范围内的情况下与所述最大值未包含在所述最大值范围内的情况下，所述初始区段的特征量的种类不同，

13.一种时间序列数据检索装置，该时间序列数据检索装置具有：

初始区段集合生成部，其生成多个按照时间序列的顺序从由以时间序列排列的多个数据值构成的训练时间序列数据中提取W个数据值而得到的训练区段，生成多个表示按照时间序列的顺序排列的一个以上的训练区段的训练临时区段集合，按照每个训练临时区段集合生成表示训练临时区段集合作为初始区段的初始区段集合；以及

标本区段集合生成部，其将所述初始区段集合分割成由如下的初始区段构成的初始临时区段集合，根据所述初始临时区段集合的图形的重心的坐标值，从所述初始临时区段集合中选择训练区段作为标本区段，生成表示每个初始临时区段集合的标本区段的标本区段集合，其中，所述初始区段由按照具有条件半径的每个W维图形表示图形中包含的坐标值的数据值构成，所述条件半径是半径的条件。

14.一种时间序列数据检索程序，该时间序列数据检索程序使计算机执行以下处理：

初始区段集合生成处理，生成多个按照时间序列的顺序从由以时间序列排列的多个数据值构成的训练时间序列数据中提取W个数据值而得到的训练区段，生成多个由按照时间序列的顺序排列的一个以上的训练区段构成的训练临时区段集合，按照每个训练临时区段集合计算表示如下的坐标值的W个数据值作为初始区段，生成由每个训练临时区段集合的初始区段构成的初始区段集合，其中，所述坐标值是将训练临时区段集合的各个训练区段中包含的W个数据值当作W维坐标系的坐标值时的训练临时区段集合的重心的坐标值；以及

标本区段集合生成处理，将所述初始区段集合分割成由如下的初始区段构成的初始临时区段集合，生成按照每个初始临时区段集合包含标本区段的标本区段集合，其中，所述初始区段由按照具有条件半径的每个W维图形表示图形中包含的坐标值的数据值构成，所述标本区段由表示初始临时区段集合的图形的重心的坐标值的、W个数据值构成，所述条件半径是半径的条件。

15.一种时间序列数据检索程序，该时间序列数据检索程序使计算机执行以下处理：

初始区段集合生成处理，生成多个按照时间序列的顺序从由以时间序列排列的数据值构成的训练时间序列数据中提取W个数据值而得到的多个训练区段，生成多个表示按照时间序列的顺序排列的一个以上的训练区段的训练临时区段集合，按照每个训练临时区段集合生成表示训练临时区段集合作为初始区段的初始区段集合；以及

标本区段集合生成处理，将所述初始区段集合分割成由如下的初始区段构成的初始临时区段集合，根据所述初始临时区段集合的图形的重心的坐标值，从所述初始临时区段集合中选择训练区段作为标本区段，生成表示每个初始临时区段集合的标本区段的标本区段集合，其中，所述初始区段由按照具有条件半径的每个W维图形表示图形中包含的坐标值的数据值构成，所述条件半径是半径的条件。