JP2013089112A - Analysis device and analysis program of time series data - Google Patents
Analysis device and analysis program of time series data Download PDFInfo
- Publication number
- JP2013089112A JP2013089112A JP2011230633A JP2011230633A JP2013089112A JP 2013089112 A JP2013089112 A JP 2013089112A JP 2011230633 A JP2011230633 A JP 2011230633A JP 2011230633 A JP2011230633 A JP 2011230633A JP 2013089112 A JP2013089112 A JP 2013089112A
- Authority
- JP
- Japan
- Prior art keywords
- series data
- time
- line
- unit
- time series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、時系列データの解析装置および解析用プログラムに関し、特に、時系列データに対してデータマイニングを行う解析装置および解析用プログラムに用いて好適なものである。 The present invention relates to a time-series data analysis apparatus and analysis program, and is particularly suitable for use in an analysis apparatus and analysis program that performs data mining on time-series data.
一般に、統計学やパターン認識などに基づきデータ解析を行うことで、大量のデータから何らかの知識を取り出す技術が知られている。データマイニングと呼ばれる解析技術である。例えば、時系列データにARモデル(Auto-Regressive:自己回帰モデル)による曲線を適用して解析することにより、時系列データに現れる統計的な外れ値および変化点を検出する手法も提案されている(例えば、特許文献1参照)。 In general, a technique for extracting some knowledge from a large amount of data by performing data analysis based on statistics or pattern recognition is known. This is an analysis technique called data mining. For example, a method for detecting statistical outliers and change points appearing in time-series data by applying an AR model (Auto-Regressive) curve to time-series data and analyzing it has also been proposed. (For example, refer to Patent Document 1).
しかしながら、上記特許文献1に示される従来技術では、時系列データに曲線を適用して解析するため、時系列データの外れ値や変化点などの特異点を検出することは可能であるものの、時系列データの増減傾向を把握することはできないという問題があった。
However, in the conventional technique disclosed in
本発明は、このような問題を解決するために成されたものであり、時系列データの特異点だけでなく、時系列データの増減傾向も解析できるようにすることを目的とする。 The present invention has been made to solve such a problem, and an object thereof is to analyze not only the singular points of time series data but also the increase / decrease tendency of the time series data.
上記した課題を解決するために、本発明では、時系列データに回帰直線を適用して解析するようにしている。具体的には、本発明は、時系列データの中から設定した所定期間を対象として、当該所定期間内の時系列データである期間内時系列データから複数パターンの回帰直線を生成し、当該複数パターンの中で所定の指標値が最も良いパターンから回帰直線の分割点を抽出する。そして、所定期間を時系列データの最初から終わりまで順次移動させて同様の処理を行い、それによって抽出される複数の分割点を境界として回帰直線を求めることにより、時系列データの傾向直線を生成するようにしている。 In order to solve the above-described problems, in the present invention, a regression line is applied to time series data for analysis. Specifically, the present invention generates a plurality of patterns of regression lines from time-series data within a period, which is time-series data within the predetermined period, for a predetermined period set from time-series data. The dividing point of the regression line is extracted from the pattern having the best predetermined index value among the patterns. Then, the trend line of the time-series data is generated by moving the predetermined period sequentially from the beginning to the end of the time-series data and performing the same process, and obtaining the regression line with the multiple division points extracted as a boundary. Like to do.
上記のように構成した本発明によれば、時系列データの傾向が直線により特定されるので、その直線の傾きにより、時系列データの増減傾向を解析することができる。また、直線の傾きが大きく変わる点などを特異点として解析することもできる。これにより、本発明によれば、時系列データに現れる特異点に加え、時系列データの増減傾向も解析することができる。 According to the present invention configured as described above, since the tendency of the time series data is specified by a straight line, the increase / decrease tendency of the time series data can be analyzed by the slope of the straight line. In addition, a point where the slope of the straight line changes greatly can be analyzed as a singular point. Thereby, according to this invention, in addition to the singular point which appears in time series data, the increase / decrease tendency of time series data can also be analyzed.
以下、本発明の一実施形態を図面に基づいて説明する。図1は、本実施形態による時系列データの解析装置の機能構成例を示すブロック図である。図1に示すように、本実施形態による時系列データの解析装置は、その機能構成として、期間指定受付部1、回帰直線生成部2、指標算出部3、分割点抽出部4、傾向直線生成部5、第2の指標算出部6、最適傾向直線特定部7、増減傾向特定部8、特異点特定部9、類似データ検索部10、時系列データ記憶部20、分割点記憶部21、傾向直線記憶部22および検索対象データ記憶部23を備えている。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram illustrating a functional configuration example of a time-series data analysis apparatus according to the present embodiment. As shown in FIG. 1, the time-series data analysis apparatus according to the present embodiment has, as its functional configuration, a period
なお、以上に列挙した機能構成は、ハードウェア構成、DSP、ソフトウェアの何れによっても実現することが可能である。例えばソフトウェアによって実現する場合、本実施形態による時系列データの解析装置は、実際にはコンピュータのCPUあるいはMPU、RAM、ROMなどを備えて構成され、RAMやROMに記憶された解析用プログラムが動作することによって実現できる。 Note that the functional configurations listed above can be realized by any of a hardware configuration, a DSP, and software. For example, when realized by software, the time-series data analysis apparatus according to the present embodiment is actually configured with a computer CPU or MPU, RAM, ROM, etc., and an analysis program stored in the RAM or ROM operates. It can be realized by doing.
したがって、上記機能構成は、解析用プログラムを例えばCD−ROMのような記録媒体に記録し、当該解析用プログラムをコンピュータに読み込ませることによって実現できるものである。この解析用プログラムを記録する記録媒体としては、CD−ROM以外に、フレキシブルディスク、ハードディスク、磁気テープ、光ディスク、光磁気ディスク、DVD、不揮発性メモリカード等を用いることができる。また、解析用プログラムをインターネット等のネットワークを介してコンピュータにダウンロードするようにしてもよい。 Therefore, the above functional configuration can be realized by recording the analysis program on a recording medium such as a CD-ROM and causing the computer to read the analysis program. As a recording medium for recording the analysis program, a flexible disk, a hard disk, a magnetic tape, an optical disk, a magneto-optical disk, a DVD, a nonvolatile memory card, and the like can be used in addition to the CD-ROM. The analysis program may be downloaded to a computer via a network such as the Internet.
期間指定受付部1は、キーボードやマウス等の操作部(図示せず)のユーザによる操作を通じて、所定期間の大きさの指定をパラメータwとして受け付ける。なお、ここで受け付けるパラメータwは、所定期間の大きさを示す値であって、所定期間の位置を示すものではない。所定期間の大きさは、例えば、複数のデータから成る時系列データのうち何個のデータを解析対象とするかを示すものである。このパラメータwは、1つまたは複数を指定することが可能である。
The period
回帰直線生成部2は、時系列データ記憶部20に記憶されている時系列データを回帰分析することにより、当該時系列データの回帰直線を生成する。ここで、回帰直線生成部2は、期間指定受付部1により指定されたパラメータwに基づいて決められる所定期間を対象として、当該所定期間内の時系列データである期間内時系列データから複数パターンの回帰直線を生成する。具体的には、回帰直線生成部2は、複数パターンの回帰直線として、所定期間内の時点を境界として前後に2本の回帰直線を生成するとともに、所定期間内に境界を設定せずに1本の回帰直線を生成する。
The regression
図2および図3は、回帰直線生成部2の処理内容を説明するための図である。図2は、パラメータwで指定される大きさの所定期間を時系列データの中から特定した状態を示す図である。図3は、特定された所定期間を対象として、当該所定期間内の期間内時系列データから複数パターンの回帰直線を生成する状態を示す図である。なお、図2(a)は、時系列データの最初の部分に所定期間を特定した状態を示し、図3は、図2(a)で特定された所定期間において複数パターンの回帰直線を生成した状態を示している。
2 and 3 are diagrams for explaining the processing contents of the regression
図2および図3の例では、パラメータwの値は“5”に設定されている。w=5の場合、回帰直線生成部2は、図3(a)〜(c)に示すように、3つのパターンの回帰直線を生成する。図3(a)は、時点t1〜t17の17個のデータから成る時系列データの最初の部分に設定された所定期間(t1〜t5の時点)のうち、2番目の時点t2を境界として前後に2本の回帰直線を生成した状態を示している。すなわち、時点t1〜t2の間で1本、時点t3〜t5の間で1本の回帰直線を生成している。
In the example of FIGS. 2 and 3, the value of the parameter w is set to “5”. In the case of w = 5, the regression
図3(b)は、3番目の時点t3を境界として前後に2本の回帰直線を生成した状態を示している。すなわち、時点t1〜t3の間で1本、時点t4〜t5の間で1本の回帰直線を生成している。図3(c)は、最初の部分に設定された所定期間(t1〜t5の時点)に境界を設定せずに、時点t1〜t5の間で1本の回帰直線を生成した状態を示している。 FIG. 3B shows a state in which two regression lines are generated before and after the third time point t3 as a boundary. That is, one regression line is generated between the time points t1 and t3 and one between the time points t4 and t5. FIG. 3C shows a state in which one regression line is generated between time points t1 and t5 without setting a boundary in a predetermined period (time points t1 to t5) set in the first part. Yes.
指標算出部3は、回帰直線生成部2により生成された回帰直線と期間内時系列データの実値との誤差の大きさ、および直線モデルの複雑性を評価するための指標を、図3(a)〜(c)に示す複数パターンのそれぞれについて算出する。この指標として、例えば、統計モデルの良さを表す指標として公知の情報量規準を用いることが可能である。本実施形態では、次の(式1)および(式2)で示すような赤池情報量規準AICsum、AICtermを用いる。
The index calculation unit 3 shows an index for evaluating the magnitude of the error between the regression line generated by the regression
なお、(式1)は回帰直線が2本ある場合(図3(a)および(b)の場合)に用いる指標であり、(式2)は回帰直線が1本しかない場合(図3(c)の場合)に用いる指標である。上記(式1)において、tは所定期間の始点から見て境界点が何番目にあるかを示す数値である。図3(a)の場合はt=2、図3(b)の場合はt=3である。 Note that (Equation 1) is an index used when there are two regression lines (in the case of FIGS. 3 (a) and (b)), and (Equation 2) is when there is only one regression line (FIG. 3 ( This is an index used in the case of c). In the above (Expression 1), t is a numerical value indicating the number of the boundary point when viewed from the start point of the predetermined period. In the case of FIG. 3A, t = 2, and in the case of FIG. 3B, t = 3.
また、(式1)の右辺の第1項にあるSe1は、境界点より前の回帰直線と期間内時系列データの実値との誤差の残差平方和を示し、同じく右辺の第2項にあるSe2は、境界点より後の回帰直線と期間内時系列データの実値との誤差の残差平方和を示す。(式2)の右辺にあるSeは、1本の回帰直線と期間内時系列データの実値との誤差の残差平方和を示す。
Further, S e1 in the first term of the right side of (Equation 1) indicates the residual sum of squares of the errors between the actual value of the time series data regression in the linear and duration before the boundary point, also the right-
分割点抽出部4は、回帰直線生成部2により生成された回帰直線の複数パターンの中から、指標算出部3により算出された指標が最も良いパターンを特定し、当該特定したパターンから回帰直線の分割点を抽出する。指標が最も良いとは、上記(式1)および(式2)で算出される赤池情報量規準AICsum、AICtermの値が最も小さいという意味である。
The dividing point extraction unit 4 identifies the pattern with the best index calculated by the index calculation unit 3 from the plurality of regression line patterns generated by the regression
分割点抽出部4が抽出する分割点は、図3(a)または(b)のように2本の回帰直線を含むパターンの場合は、その境界点が該当する。すなわち、図3(a)に示すパターンの指標が最も良い場合は、分割点はt2となる。図3(b)に示すパターンの指標が最も良い場合は、分割点はt3となる。一方、図3(c)のように1本の回帰直線を含むパターンの指標が最も良い場合は、分割点は無しとなる。 The division point extracted by the division point extraction unit 4 corresponds to the boundary point in the case of a pattern including two regression lines as shown in FIG. That is, when the pattern index shown in FIG. 3A is the best, the division point is t2. When the index of the pattern shown in FIG. 3B is the best, the division point is t3. On the other hand, when the index of the pattern including one regression line is the best as shown in FIG.
分割点抽出部4は、分割点を抽出した場合は、その分割点を分割点記憶部21に記憶させる。また、分割点抽出部4は、処理結果を回帰直線生成部2に通知する。すなわち、分割点を抽出した場合はその分割点を回帰直線生成部2に通知し、分割点を抽出しなかった場合はその旨を回帰直線生成部2に通知する。分割点抽出部4から通知を受けた回帰直線生成部2は、通知された処理結果に応じた量だけ所定期間を移動させ、移動後の所定期間において上述の処理を実行する。
When the division point extraction unit 4 extracts the division point, the division point extraction unit 4 stores the division point in the division
ここで、回帰直線生成部2は、抽出された分割点の通知を受けた場合、その分割点まで所定期間の始点を移動させて上述の処理を行う。例えば、図3(b)に示すパターンの指標が最良で分割点t3が抽出されたとした場合、回帰直線生成部2は、図2(b)に示すように、分割点t3まで所定期間の始点を移動させて上述の処理を行う。一方、分割点を抽出しなかった旨の通知を受けた場合、回帰直線生成部2は、直前の所定期間における始点の次の時点まで所定期間の始点を移動させて上述の処理を行う。
Here, when the regression
移動後の所定期間において回帰直線生成部2により回帰直線が生成されたら、指標算出部3および分割点抽出部4においても、移動後の所定期間において上述の処理を行う。このような処理を順次繰り返し行う。すなわち、回帰直線生成部2、指標算出部3および分割点抽出部4の処理を、所定期間を時系列データの最初から終わりまで順次移動させて複数回行う。なお、時系列データの終わり部分で所定期間をパラメータwの長さだけとれない場合は、時系列データの末尾までを所定期間とする。このような複数回の処理を行うことにより、分割点記憶部21には複数の分割点が記憶されることになる。
If a regression line is generated by the regression
傾向直線生成部5は、分割点記憶部21に記憶された複数の分割点を境界として、時系列データ記憶部20に記憶されている時系列データの回帰直線を求めることにより、時系列データの傾向直線を生成する。図4は、傾向直線生成部5の処理内容を説明するための図である。図4の例では、分割点抽出部4によって3つの分割点t3,t9,t13が抽出され、これらが分割点記憶部21に記憶されている。この場合、傾向直線生成部5は、3つの分割点t3,t9,t13を境界として、その境界の前後で時系列データの回帰直線を求める。
The trend line generation unit 5 obtains a regression line of the time series data stored in the time series
すなわち、傾向直線生成部5は、時点t1〜t3の間で回帰直線1、時点t4〜t9の間で回帰直線2、時点t10〜t13の間で回帰直線3、時点t14〜t17の間で回帰直線4と、合計4本の回帰直線を求める。これら4本の回帰直線またはそれらを繋げた全体の直線が、時点t1〜t17の17個のデータから成る時系列データの傾向直線となる。傾向直線生成部5は、このようにして生成した傾向直線を傾向直線記憶部22に記憶させる。
That is, the trend line generator 5 performs the
なお、期間指定受付部1が複数のパラメータw(w1,w2,・・・)の指定を受け付けた場合、回帰直線生成部2、指標算出部3、分割点抽出部4および傾向直線生成部5は、各パラメータw1,w2,・・・についてそれぞれ上述の処理を行う。これにより、各パラメータw1,w2,・・・に対応する複数の傾向直線が生成されて傾向直線記憶部22に記憶される。
When the period
第2の指標算出部6は、傾向直線と時系列データの実値との誤差の大きさおよび直線モデルの複雑性を評価するための第2の指標を、傾向直線記憶部22に記憶された複数の傾向直線のそれぞれについて算出する。この第2の指標も、例えば、統計モデルの良さを表す指標として公知の情報量規準を用いることが可能である。本実施形態では、次の(式3)で示すような赤池情報量規準AICallを用いる。 The second index calculation unit 6 stores in the trend line storage unit 22 a second index for evaluating the magnitude of error between the trend line and the actual value of the time series data and the complexity of the line model. Calculation is performed for each of a plurality of trend lines. For this second index, for example, a known information criterion can be used as an index representing the goodness of the statistical model. In this embodiment, the Akaike information criterion AIC all as shown in the following (formula 3) is used.
上記(式3)において、iは傾向直線に含まれる複数の回帰直線がそれぞれ先頭から何番目のものであるかを表す数値である。niは各回帰直線の始点から見て分割点が何番目にあるかを数値である。図4の例において、回帰直線1の場合はn1=3、回帰直線2の場合はn2=6、回帰直線3の場合はn3=4、回帰直線4の場合はn4=4である。また、(式3)の右辺にあるSeiは、i番目の回帰直線と時系列データの実値との誤差の残差平方和を示す。 In the above (Formula 3), i is a numerical value indicating the number of the plurality of regression lines included in the trend line from the beginning. n i is a numerical value indicating the number of division points when viewed from the start point of each regression line. In the example of FIG. 4, n 1 = 3 for the regression line 1 , n 2 = 6 for the regression line 2 , n 3 = 4 for the regression line 3, and n 4 = 4 for the regression line 4. is there. S ei on the right side of (Expression 3) indicates the residual sum of squares of errors between the i-th regression line and the actual value of the time series data.
最適傾向直線特定部7は、傾向直線記憶部22に記憶された複数の傾向直線のうち、第2の指標算出部6により算出された第2の指標が最も良い傾向直線を特定する。指標が最も良いとは、上記(式3)で算出される赤池情報量規準AICallの値が最も小さいという意味である。最適傾向直線特定部7は、特定した最適傾向直線を、他の傾向直線から識別できる状態にして傾向直線記憶部22に記憶させる。
The optimum trend straight line identifying unit 7 identifies the trend straight line having the best second index calculated by the second index calculating unit 6 among the plurality of trend straight lines stored in the trend straight
また、最適傾向直線特定部7は、特定した最適傾向直線に対応する時系列データを時系列データ記憶部20から読み出して、最適傾向直線とそれに対応する時系列データとを関連付けて検索対象データ記憶部23に記憶させる。検索対象データ記憶部23には、異なる時系列データを対象として上述の処理を行うことによって最適傾向直線が求められる度に、当該最適傾向直線とそれに対応する時系列データとが記憶される。このようにして検索対象データ記憶部23に記憶される複数組の時系列データとその傾向直線は、後述するようにパターン認識の検索対象データとして用いられる。
Further, the optimum trend straight line specifying unit 7 reads time-series data corresponding to the identified optimum trend straight line from the time-series
なお、期間指定受付部1が1つのパラメータwだけの指定を受け付けた場合、傾向直線は1つのみ生成されて、傾向直線記憶部22に記憶される。その場合、第2の指標算出部6による第2の指標の算出処理と、最適傾向直線特定部7による最適傾向直線の特定処理は不要である。最適傾向直線特定部7は、傾向直線記憶部22に記憶された1つの傾向直線と、それに対応する時系列データとを関連付けて検索対象データ記憶部23に記憶させる。
When the period
増減傾向特定部8は、傾向直線生成部5により生成され傾向直線記憶部22に記憶された傾向直線(複数のパラメータw1,w2,・・・が指定された場合は最適傾向直線)の傾きに基づいて、時系列データの増減傾向を特定する。例えば、増減傾向特定部8は、任意の時点tの指定をパラメータとして受け付け、指定された時点tにおける時系列データの増減傾向を特定する。具体的には、指定された時点tにおいて傾向直線の傾きが正であったら増加傾向、負であったら減少傾向と判断する。
The increase / decrease
特異点特定部9は、時系列データの急増点または急減点を特異点として特定する。急増点・急減点の候補となるのは、回帰直線の境目として分割点記憶部21に記録した複数の分割点である。すなわち、特異点特定部9は、分割点抽出部4により抽出され分割点記憶部21に記憶された複数の分割点について、当該分割点の前後の点における時系列データの実値の差異を算出し、当該差異が所定値以上となる分割点を急増点または急減点として特定する。例えば、特異点特定部9は、傾向直線と時系列データの実値との誤差の標準偏差σを求め、分割点の前後の点における時系列データの実値の差異が2σ以上の増加だったら急増点、−2σ以下の減少だったら急減点と判断する。
The singular point specifying unit 9 specifies a sudden increase point or a sudden decrease point of the time series data as a singular point. Candidates for sudden increase / decrease points are a plurality of division points recorded in the division
類似データ検索部10は、傾向直線生成部5により生成された傾向直線(複数のパラメータw1,w2,・・・が指定された場合は最適傾向直線)に類似した傾向直線をパターン認識により検索対象データ記憶部23から検索し、検索した傾向直線に対応する時系列データを検索対象データ記憶部23から抽出する。すなわち、類似データ検索部10は、今回解析対象としている時系列データと類似の傾向を有する別の時系列データを検索対象データ記憶部23から検索する。
The similar
図5は、本実施形態による時系列データの解析装置の動作例を示すフローチャートである。なお、図5は、時系列データから傾向直線を生成する際の動作例を示すものである。図5に示すフローチャートは、時系列データ記憶部20から解析対象の時系列データを読み出し、ユーザが図示しない操作部を操作してパラメータwの値を指定したときに開始する。
FIG. 5 is a flowchart illustrating an operation example of the time-series data analysis apparatus according to the present embodiment. FIG. 5 shows an operation example when generating a trend line from time series data. The flowchart shown in FIG. 5 starts when the time-series data to be analyzed is read from the time-series
図5において、回帰直線生成部2は、指定されたパラメータwを取得し(ステップS1)、当該パラメータwの幅を有する所定期間を時系列データ中に設定する(ステップS2)。最初は、時系列データの始めの部分に所定期間を設定する。そして、回帰直線生成部2は、設定した所定期間を対象として、時系列データ記憶部20から読み出した時系列データのうち期間内時系列データを回帰分析することにより、複数パターンの回帰直線を生成する(ステップS3)。
In FIG. 5, the regression
指標算出部3は、回帰直線生成部2により生成された複数パターンの回帰直線のそれぞれについて、(式1)および(式2)で示す赤池情報量規準AICsum、AICtermによる指標を算出する(ステップS4)。次に、分割点抽出部4は、回帰直線生成部2により生成された回帰直線の複数パターンの中から、指標算出部3により算出された指標が最も良いパターンを特定し、当該特定したパターンから回帰直線の分割点を抽出する(ステップS5)。
The index calculation unit 3 calculates an index based on the Akaike information criterion AIC sum and AIC term shown in (Equation 1) and (Equation 2) for each of the plurality of patterns of regression lines generated by the regression line generation unit 2 ( Step S4). Next, the dividing point extraction unit 4 identifies a pattern with the best index calculated by the index calculation unit 3 from the plurality of regression line patterns generated by the regression
ここで、分割点抽出部4は、解析対象としている所定期間から分割点を抽出できたか否かを判定し(ステップS6)、抽出できなかった場合はステップS8の処理に遷移する。一方、分割点を抽出できた場合には、分割点抽出部4は、その分割点を分割点記憶部21に記憶させる(ステップS7)。また、分割点抽出部4は、分割点を抽出できなかった場合にはその旨を、抽出できた場合には分割点を回帰直線生成部2に通知する。
Here, the division point extraction unit 4 determines whether or not the division point can be extracted from the predetermined period to be analyzed (step S6). If the division point cannot be extracted, the process proceeds to step S8. On the other hand, when the dividing point can be extracted, the dividing point extracting unit 4 stores the dividing point in the dividing point storage unit 21 (step S7). The dividing point extracting unit 4 notifies the regression
この通知を受けた回帰直線生成部2は、時系列データの終わりまで所定期間を設定して解析を終了したか否かを判定する(ステップS8)。まだ時系列データの終わりまで解析を終了していない場合は、ステップS2に戻り、通知結果に応じて所定期間を移動させる。そして、移動後の所定期間についてステップS3以降の処理を同様に行う。
Receiving this notification, the
一方、時系列データの終わりまで解析を終了した場合、傾向直線生成部5は、分割点記憶部21に記憶された複数の分割点を境界として時系列データの回帰直線を求めることにより、時系列データの傾向直線を生成する(ステップS9)。そして、その傾向直線を傾向直線記憶部22に記憶させる(ステップS10)。
On the other hand, when the analysis is completed until the end of the time series data, the trend line generation unit 5 obtains a regression line of the time series data by using a plurality of division points stored in the division
続いて、回帰直線生成部2は、ユーザにより指定されたパラメータwを全て処理したか否かを判定する(ステップS11)。ここで、ユーザによりパラメータwが1つだけ指定されていた場合は、指定されたパラメータwを全て処理したことになる。一方、ユーザによりパラメータwが複数指定されていた場合は、未処理のものがないかどうかを判定し、なければ、指定されたパラメータwを全て処理したことになる。
Subsequently, the regression
未処理のパラメータwが残っている場合は、ステップS1に戻り、新たに取得したパラメータwについてステップS2以降の処理を同様に行う。一方、指定されたパラメータwを全て処理した場合、第2の指標算出部6は、パラメータwの指定が複数であったか否かを判定する(ステップS12)。複数のパラメータwが指定されていた場合、傾向直線記憶部22には複数の傾向直線が記憶されていることになるので、第2の指標算出部6は、当該複数の傾向直線のそれぞれについて第2の指標を算出する(ステップS13)。
If an unprocessed parameter w remains, the process returns to step S1, and the process after step S2 is similarly performed on the newly acquired parameter w. On the other hand, when all the designated parameters w have been processed, the second index calculation unit 6 determines whether there are a plurality of designations of the parameter w (step S12). When a plurality of parameters w are specified, a plurality of trend lines are stored in the trend
続いて、最適傾向直線特定部7は、傾向直線記憶部22に記憶された複数の傾向直線のうち、第2の指標算出部6により算出された第2の指標が最も良い傾向直線を特定する(ステップS14)。そして、最適傾向直線特定部7は、特定した最適傾向直線を、他の傾向直線から識別できる状態にして傾向直線記憶部22に記憶させる。また、最適傾向直線特定部7は、特定した最適傾向直線に対応する時系列データを時系列データ記憶部20から読み出して、最適傾向直線とそれに対応する時系列データとを関連付けて検索対象データ記憶部23に記憶させる(ステップS15)。
Subsequently, the optimum trend line specifying unit 7 specifies the trend line having the best second index calculated by the second index calculating unit 6 among the plurality of trend lines stored in the trend
なお、パラメータwの指定が1つのみであった場合、傾向直線記憶部22には傾向直線が1つのみ記憶されていることになる。この場合は、ステップS13,S14の処理は行わず、最適傾向直線特定部7は、傾向直線記憶部22に記憶されている1つの傾向直線に対応する時系列データを時系列データ記憶部20から読み出して、当該傾向直線とそれに対応する時系列データとを関連付けて検索対象データ記憶部23に記憶させる(ステップS15)。これにより、図5に示すフローチャートの処理を終了する。
When only one parameter w is specified, the trend
以上詳しく説明したように、本実施形態によれば、時系列データの傾向が直線により特定されるので、その直線の傾きにより時系列データの増減傾向を解析したり、直線の傾きが大きく変わる点などを特異点として解析したりすることができる。例えば、傾向直線生成部5により生成された傾向直線をグラフとしてディスプレイに表示させれば、時系列データの増減傾向や特異点をユーザが直感的に把握することができる。また、傾向直線生成部5により生成された傾向直線を対象として増減傾向特定部8または特異点特定部9による処理を行うことで、時系列データの増減傾向や特異点をコンピュータにより特定することができる。
As described above in detail, according to the present embodiment, the trend of time-series data is specified by a straight line. Therefore, the increase / decrease tendency of the time-series data is analyzed by the slope of the straight line, or the slope of the straight line changes greatly. Etc. can be analyzed as singular points. For example, if the trend line generated by the trend line generation unit 5 is displayed as a graph on the display, the user can intuitively grasp the increase / decrease tendency and singularity of the time series data. Further, by performing processing by the increase / decrease
なお、上記実施形態では、所定期間の幅をパラメータwとしてユーザが指定できるにしているが、固定の値としてもよい。ただし、所定期間の幅をパラメータwとして可変にすることで、時系列データの解析をフレキシブルに行うことができるようになるというメリットを有する。すなわち、パラメータwの値を大きくすれば、時系列データの大まかな傾向を分析することができ、パラメータwの値を小さくすれば、時系列データの細かい部分の傾向を分析することができる。 In the above embodiment, the user can designate the width of the predetermined period as the parameter w, but it may be a fixed value. However, by making the width of the predetermined period variable as the parameter w, there is an advantage that time series data can be analyzed flexibly. That is, if the value of the parameter w is increased, the general tendency of the time series data can be analyzed. If the value of the parameter w is decreased, the tendency of the fine part of the time series data can be analyzed.
また、上記実施形態では、パラメータwを1つまたは複数の何れかで指定できるようにしているが、1つのみとしてもよい。その場合、第2の指標算出部6および最適傾向直線特定部7は不要となる。ただし、複数のパラメータwを指定して第2の指標算出部6および最適傾向直線特定部7の処理を行うことにより、時系列データの特徴をより忠実に表した傾向直線を生成することができるようになるというメリットを有する。 In the above embodiment, the parameter w can be specified by one or a plurality of parameters. However, only one parameter w may be specified. In this case, the second index calculation unit 6 and the optimum trend straight line identification unit 7 are not necessary. However, a trend line that more faithfully represents the characteristics of the time-series data can be generated by specifying the plurality of parameters w and performing the processing of the second index calculation unit 6 and the optimum trend line specifying unit 7. It has the merit of becoming
また、上記実施形態では、増減傾向特定部8、特異点特定部9、類似データ検索部10を設けているが、これらは必須の構成ではなく、省略してもよい。あるいは、何れか1つまたは2つのみを設けるようにしてもよい。例えば、増減傾向特定部8および特異点特定部9を省略しても、傾向直線生成部5により生成された傾向直線をグラフとしてディスプレイに表示させれば、時系列データの増減傾向や特異点をユーザが直感的に把握することができる。
In the above embodiment, the increase / decrease
また、上記実施形態では、傾向直線生成部5により生成された傾向直線とそれに対応する時系列データとを検索対象データ記憶部23に記憶させ、後に別の時系列データをパターン認識するときの検索対象データとして用いるようにしたが、本発明はこれに限定されない。例えば、検索対象とする時系列データとその傾向直線をあらかじめ数パターン生成して検索対象データ記憶部23に記憶しておくようにしてもよい。
In the above embodiment, the trend line generated by the trend line generation unit 5 and the time series data corresponding to the trend line are stored in the search target
また、上記実施形態では、指標の一例として赤池情報量規準を用いたが、本発明はこれに限定されない。例えば、ベイズ統計規準などの他の情報量規準を用いてもよい。 In the above embodiment, the Akaike information criterion is used as an example of the index, but the present invention is not limited to this. For example, other information criterion such as Bayesian statistical criterion may be used.
その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。 In addition, each of the above-described embodiments is merely an example of implementation in carrying out the present invention, and the technical scope of the present invention should not be construed in a limited manner. That is, the present invention can be implemented in various forms without departing from the gist or the main features thereof.
1 期間指定受付部
2 回帰直線生成部
3 指標算出部
4 分割点抽出部
5 傾向直線生成部
6 第2の指標算出部
7 最適傾向直線特定部
8 増減傾向特定部
9 特異点特定部
10 類似データ検索部
DESCRIPTION OF
Claims (8)
上記回帰直線生成部により生成された回帰直線と上記期間内時系列データの実値との誤差の大きさおよび直線モデルの複雑性を評価するための指標を上記複数パターンのそれぞれについて算出する指標算出部と、
上記指標算出部により算出された上記指標が最も良いパターンを特定し、当該特定したパターンから回帰直線の分割点を抽出する分割点抽出部と、
上記回帰直線生成部、上記指標算出部および上記分割点抽出部の処理を、上記所定期間を上記時系列データの最初から終わりまで順次移動させて複数回行うことによって抽出される複数の分割点を境界として上記時系列データの回帰直線を求めることにより、上記時系列データの傾向直線を生成する傾向直線生成部とを備えたことを特徴とする時系列データの解析装置。 For a predetermined period set out of time series data composed of a plurality of data, a regression line generation unit that generates a plurality of patterns of regression lines from time series data within a period that is time series data within the predetermined period;
Index calculation for calculating an index for evaluating the magnitude of error between the regression line generated by the regression line generation unit and the actual value of the time-series data within the period and the complexity of the linear model for each of the plurality of patterns And
A dividing point extracting unit that identifies a pattern with the best index calculated by the index calculating unit and extracts a dividing point of a regression line from the identified pattern;
A plurality of division points extracted by performing the processing of the regression line generation unit, the index calculation unit, and the division point extraction unit a plurality of times by sequentially moving the predetermined period from the beginning to the end of the time series data. An apparatus for analyzing time-series data, comprising: a trend line generation unit that generates a trend line of the time-series data by obtaining a regression line of the time-series data as a boundary.
上記傾向直線生成部により生成された上記傾向直線に類似した傾向直線をパターン認識により上記検索対象データ記憶部から検索し、検索した傾向直線に対応する時系列データを上記検索対象データ記憶部から抽出する類似データ検索部とを更に備えたことを特徴とする請求項1に記載の時系列データの解析装置。 A search target data storage unit that stores a plurality of sets of arbitrary time-series data and its trend line as search target data;
A trend line similar to the trend line generated by the trend line generation unit is searched from the search target data storage unit by pattern recognition, and time series data corresponding to the searched trend line is extracted from the search target data storage unit The time-series data analysis apparatus according to claim 1, further comprising a similar data search unit.
上記回帰直線生成部は、上記期間指定受付部により指定を受け付けたパラメータに基づいて決められる上記所定期間を対象として、当該所定期間内の時系列データである期間内時系列データから複数パターンの回帰直線を生成することを特徴とする請求項1に記載の時系列データの解析装置。 A period designation accepting unit that accepts designation of the size of the predetermined period as a parameter;
The regression line generator generates a plurality of patterns of regression from time-series data within a period, which is time-series data within the predetermined period, for the predetermined period determined based on the parameter received by the period specification receiving unit. The time series data analysis apparatus according to claim 1, wherein a straight line is generated.
上記傾向直線と上記時系列データの実値との誤差の大きさおよび直線モデルの複雑性を評価するための第2の指標を上記複数の傾向直線のそれぞれについて算出する第2の指標算出部と、
上記複数の傾向直線のうち、上記第2の指標算出部により算出された上記第2の指標が最も良い傾向直線を特定する最適傾向直線特定部とを更に備えたことを特徴とする請求項6に記載の時系列データの解析装置。 When the period specification receiving unit receives specification of a plurality of parameters, the regression line generation unit, the index calculation unit, the division point extraction unit, and the trend line generation unit perform processing for each of the plurality of parameters. To generate multiple trend lines,
A second index calculation unit that calculates a second index for evaluating the magnitude of error between the trend line and the actual value of the time-series data and the complexity of the line model for each of the plurality of trend lines; ,
7. An optimum trend straight line specifying unit for specifying a best trend straight line for the second index calculated by the second index calculating unit among the plurality of trend straight lines. Analyzing device for time series data described in 1.
上記回帰直線生成手段により生成された回帰直線と上記期間内時系列データの実値との誤差の大きさおよび直線モデルの複雑性を評価するための指標を上記複数パターンのそれぞれについて算出する指標算出手段、
上記指標算出手段により算出された上記指標が最も良いパターンを特定し、当該特定したパターンから回帰直線の分割点を抽出する分割点抽出手段、および
上記回帰直線生成手段、上記指標算出手段および上記分割点抽出手段の処理を、上記所定期間を上記時系列データの最初から終わりまで順次移動させて複数回行うことによって抽出される複数の分割点を境界として上記時系列データの回帰直線を求めることにより、上記時系列データの傾向直線を生成する傾向直線生成手段
としてコンピュータを機能させるための時系列データの解析用プログラム。 Regression line generating means for generating a plurality of patterns of regression lines from time-series data within a period, which is time-series data within the predetermined period, for a predetermined period set from time-series data composed of a plurality of data,
Index calculation for calculating each of the plurality of patterns as an index for evaluating the magnitude of error between the regression line generated by the regression line generation means and the actual value of the time-series data within the period and the complexity of the linear model means,
The index calculated by the index calculation means identifies a pattern having the best index, and a dividing point extracting means for extracting a dividing point of a regression line from the identified pattern, the regression line generating means, the index calculating means, and the division By calculating a regression line of the time series data with a plurality of division points extracted as a boundary by sequentially moving the predetermined period from the beginning to the end of the time series data and performing a plurality of times. A program for analyzing time series data for causing a computer to function as a trend line generating means for generating a trend line of the time series data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011230633A JP5773838B2 (en) | 2011-10-20 | 2011-10-20 | Time series data analysis device and analysis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011230633A JP5773838B2 (en) | 2011-10-20 | 2011-10-20 | Time series data analysis device and analysis program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013089112A true JP2013089112A (en) | 2013-05-13 |
JP5773838B2 JP5773838B2 (en) | 2015-09-02 |
Family
ID=48532940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011230633A Active JP5773838B2 (en) | 2011-10-20 | 2011-10-20 | Time series data analysis device and analysis program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5773838B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3091350A1 (en) * | 2015-03-31 | 2016-11-09 | Sysmex Corporation | Sample analyzer and sample analyzing method |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62249068A (en) * | 1986-04-22 | 1987-10-30 | Omron Tateisi Electronics Co | Straight line approximating method |
JPH10118042A (en) * | 1996-10-16 | 1998-05-12 | Taku Yoshizawa | Processing method of time series mri (or ct), analyzing method for medicinal effect or the like and processing method and apparatus for time series image data |
JP2004321508A (en) * | 2003-04-25 | 2004-11-18 | Topcon Corp | Ophthalmological apparatus |
US7809781B1 (en) * | 2005-04-29 | 2010-10-05 | Hewlett-Packard Development Company, L.P. | Determining a time point corresponding to change in data values based on fitting with respect to plural aggregate value sets |
-
2011
- 2011-10-20 JP JP2011230633A patent/JP5773838B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62249068A (en) * | 1986-04-22 | 1987-10-30 | Omron Tateisi Electronics Co | Straight line approximating method |
JPH10118042A (en) * | 1996-10-16 | 1998-05-12 | Taku Yoshizawa | Processing method of time series mri (or ct), analyzing method for medicinal effect or the like and processing method and apparatus for time series image data |
JP2004321508A (en) * | 2003-04-25 | 2004-11-18 | Topcon Corp | Ophthalmological apparatus |
US7809781B1 (en) * | 2005-04-29 | 2010-10-05 | Hewlett-Packard Development Company, L.P. | Determining a time point corresponding to change in data values based on fitting with respect to plural aggregate value sets |
Non-Patent Citations (1)
Title |
---|
JPN6013059301; 金城 敬太: '帰納推論による時系列データからの関係構造の抽出' 知能と情報 第21巻 第4号, 20090815, 第587-597ページ, 日本知能情報ファジィ学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3091350A1 (en) * | 2015-03-31 | 2016-11-09 | Sysmex Corporation | Sample analyzer and sample analyzing method |
US9863872B2 (en) | 2015-03-31 | 2018-01-09 | Sysmex Corporation | Sample analyzer and method of selecting analysis regions of noise affected time series data for a target reaction |
Also Published As
Publication number | Publication date |
---|---|
JP5773838B2 (en) | 2015-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10642892B2 (en) | Video search method and apparatus | |
Adhikari et al. | Faster bounding box annotation for object detection in indoor scenes | |
CN106687990B (en) | For the method based on gradual improvement from video sequence selection frame | |
JP2010086482A5 (en) | ||
US10002296B2 (en) | Video classification method and apparatus | |
JP2018128996A5 (en) | ||
US20150194070A1 (en) | Evaluation method, and evaluation apparatus | |
Mehta et al. | Music genre classification using transfer learning on log-based mel spectrogram | |
KR102260631B1 (en) | Duplication Image File Searching Method and Apparatus | |
JP2016045917A (en) | Device for tendency extraction and evaluation of time series data | |
JP2015184853A (en) | Missing data complementing device, missing data complementing method, and program | |
JP2013097467A5 (en) | ||
JP5773838B2 (en) | Time series data analysis device and analysis program | |
JP5032374B2 (en) | Information processing apparatus and method | |
US9183649B2 (en) | Automatic tuning of value-series analysis tasks based on visual feedback | |
JP5439235B2 (en) | Document classification method, document classification device, and program | |
JP2018073354A (en) | Device, method, and program for extracting similar document | |
KR102339478B1 (en) | Method for representing face using dna phenotyping, recording medium and device for performing the method | |
JP2006155344A (en) | Data analyzer, data analysis program, and data analysis method | |
JP2013156696A (en) | Clustering device, method and program | |
CN104185032B (en) | A kind of video frequency identifying method and system | |
JP2011076366A (en) | Method, program and system for collecting content tag, and content retrieval system | |
JP2015184743A (en) | Image processor and object recognition method | |
JP2014112190A (en) | Signal section classifying apparatus, signal section classifying method, and program | |
JP6157166B2 (en) | Parts generation system, method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141003 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150522 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150630 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5773838 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |