JP4711863B2 - Sequence pattern discovery program, sequence pattern discovery method, and sequence pattern discovery device - Google Patents
Sequence pattern discovery program, sequence pattern discovery method, and sequence pattern discovery device Download PDFInfo
- Publication number
- JP4711863B2 JP4711863B2 JP2006075292A JP2006075292A JP4711863B2 JP 4711863 B2 JP4711863 B2 JP 4711863B2 JP 2006075292 A JP2006075292 A JP 2006075292A JP 2006075292 A JP2006075292 A JP 2006075292A JP 4711863 B2 JP4711863 B2 JP 4711863B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- sequence
- generalized
- counting
- sequence data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 113
- 238000013500 data storage Methods 0.000 claims description 65
- 238000013507 mapping Methods 0.000 claims description 41
- 238000000605 extraction Methods 0.000 claims description 27
- 239000000284 extract Substances 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000004880 explosion Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
この発明は、変動する項目値を順番に並べた系列データから、該系列データに頻繁に出現している系列パターンを抽出する系列パターン発見プログラム、系列パターン発見方法および系列パターン発見装置に関し、特に、系列パターンの出現数を効率良く計数することによって系列パターンの抽出にかかる処理時間を短縮することができる系列パターン発見プログラム、系列パターン発見方法および系列パターン発見装置に関するものである。 The present invention relates to a sequence pattern discovery program, a sequence pattern discovery method, and a sequence pattern discovery device that extract a sequence pattern that frequently appears in the sequence data from sequence data in which fluctuating item values are arranged in order. The present invention relates to a sequence pattern discovery program, a sequence pattern discovery method, and a sequence pattern discovery device that can reduce the processing time required for sequence pattern extraction by efficiently counting the number of occurrences of a sequence pattern.
近年、販売、流通、株式売買等の幅広い分野で、コンピュータなどに蓄積された過去のデータを解析し、そのデータに含まれる項目値間の相関関係やパターンなどを探索するデータマイニングと呼ばれる技術によって意思決定を支援することが行われている。例えば、株式売買の分野においては、過去の株価データから、株価の変動を表す系列パターンを予測し、予測したパターンを株売買のタイミングを決定するための指標として利用している。 In recent years, in a wide range of fields such as sales, distribution, stock trading, etc., a technique called data mining is used to analyze past data accumulated in computers and search for correlations and patterns between item values contained in the data. Supporting decision making is done. For example, in the field of stock trading, a series pattern representing fluctuations in stock prices is predicted from past stock price data, and the predicted pattern is used as an index for determining the timing of stock trading.
このようなパターン予測の技術として、例えば、特許文献1においては、出現した事象を項目値として時系列に並べた時系列データから、各事象が出現する順序を示す時系列パターンを抽出する技術が示されている。この技術では、あらかじめ、出現し得る事象を分類した概念を階層構造で記憶しておき、最下層の概念から順番に時系列データを参照して、それぞれの概念(事象)が出現した頻度を集計する。
As such a pattern prediction technique, for example, in
さらに、概念を時系列に順序だてて組み合わせた時系列パターンについて、組み合わせる概念の個数を増やしながら、時系列データを参照することによってそれぞれの時系列パターンが出現した頻度を集計してゆく。組み合わせる概念の個数を増やす際には、すでに頻度を集計している時系列パターンのうち、頻度が所定の閾値以上であるものに対して新たな概念を1つずつ加えてゆく。こうして、最終的に、所定の閾値以上の頻度で発生した概念(事象)の時系列パターンを抽出する。 Further, with respect to the time series pattern in which the concepts are combined in time series, the frequency of appearance of each time series pattern is totaled by referring to the time series data while increasing the number of concepts to be combined. When increasing the number of concepts to be combined, new concepts are added one by one to a time-series pattern that has already been aggregated in frequency and whose frequency is equal to or greater than a predetermined threshold. In this way, finally, a time series pattern of concepts (events) occurring at a frequency equal to or higher than a predetermined threshold is extracted.
しかしながら、上記の技術においては、それぞれの時系列パターンが出現した頻度を集計する際には、時系列パターンごとに、その都度全ての時系列データを参照するため集計処理に時間がかかり、特に、抽出対象の時系列データの量が膨大である場合や、所定の閾値を小さく設定した場合、概念の階層を深く設定した場合には、業務時間内に処理が終了しないことも発生し得るという問題がある。 However, in the above technique, when the frequency of occurrence of each time series pattern is totaled, it takes time for the totaling process to refer to all the time series data for each time series pattern. If the amount of time-series data to be extracted is enormous, if the predetermined threshold is set small, or if the concept hierarchy is set deep, processing may not end within business hours. There is.
この発明は、上述した従来技術による問題点を解消するためになされたものであり、系列パターンの出現数を効率良く計数することによって系列パターンの抽出にかかる処理時間を短縮することができる系列パターン発見プログラム、系列パターン発見方法および系列パターン発見装置を提供することを目的とする。 The present invention has been made to solve the above-described problems caused by the prior art, and is a sequence pattern that can shorten the processing time required to extract a sequence pattern by efficiently counting the number of occurrences of the sequence pattern. An object is to provide a discovery program, a sequence pattern discovery method, and a sequence pattern discovery device.
上述した課題を解決し、目的を達成するため、請求項1の発明に係る系列パターン発見プログラムは、変動する項目値を順番に並べた系列データから、該系列データに頻繁に出現している系列パターンを抽出する系列パターン発見プログラムであって、系列パターン抽出の対象となる系列データを記憶装置に記憶する系列データ記憶手順と、任意の項目値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、前記系列データ記憶手順により記憶された系列データを順次読み出して、該系列データがマッチする一般化パターンの出現数を計数する系列パターン計数手順と、前記系列パターン計数手順により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値に、許容する値を選択した選択項目値を設定して系列パターンを逐次生成し、前記系列データ記憶手順により記憶された系列データを順次読み出して該系列パターンと照合することにより、該系列データがマッチする系列パターンの出現数を計数する系列パターン発見手順と、前記系列パターン発見手順により計数された出現数が所定の閾値以上である系列パターンを抽出結果の系列パターンとして出力する系列パターン出力手順と、をコンピュータに実行させることを特徴とする。
In order to solve the above-described problems and achieve the object, the sequence pattern finding program according to the invention of
また、請求項2の発明に係る系列パターン発見プログラムは、請求項1の発明において、前記系列パターン計数手順は、前記一般化パターンを一意に識別する一般化パターン番号と、該一般化パターンの出現数を計数するための一般化パターンカウンタとを対応付けた一般化パターンテーブルを備え、前記系列データから前記一般化パターン番号を導出するための写像である一般化写像を生成する一般化写像生成手順と、前記系列データ記憶手順により記憶された系列データを順次読み出すとともに、該読み出した系列データから前記一般化写像を用いて前記一般化パターン番号を導出し、前記一般化パターンテーブルの、該導出した一般化パターン番号に対応する一般化パターンカウンタをカウントアップする一般化パターンカウンタ計数手順と、をコンピュータに実行させることを特徴とする。 According to a second aspect of the invention, there is provided the sequence pattern finding program according to the first aspect, wherein the sequence pattern counting procedure includes a generalized pattern number for uniquely identifying the generalized pattern and the appearance of the generalized pattern. A generalized map generation procedure for generating a generalized map which is a map for deriving the generalized pattern number from the sequence data, comprising a generalized pattern table associated with a generalized pattern counter for counting numbers And sequentially reading out the sequence data stored by the sequence data storage procedure, deriving the generalized pattern number from the read sequence data using the generalized mapping, and deriving the derived generalization pattern table Generalized pattern counter counts up the generalized pattern counter corresponding to the generalized pattern number Characterized in that to execute the order, to the computer.
また、請求項3の発明に係る系列パターン発見プログラムは、請求項1または2の発明において、前記系列パターン発見手順は、前記系列パターン計数手順により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値の一つに選択項目値を設定することによって系列パターンを逐次生成し、該逐次生成した系列パターンと、前記系列データ記憶手順により記憶された系列データとを照合することにより、該系列データがマッチする系列パターンの出現数を計数し、該計数した出現数が所定の閾値以上である系列パターンを抽出し、該抽出した系列パターンに含まれる任意項目値の一つに選択項目値を設定することによってさらに系列パターンを詳細化し、該詳細化した系列パターンと、前記系列データ記憶手順により記憶された系列データとを照合することにより、該系列データがマッチする系列パターンの出現数を計数し、該系列パターンに含まれる全ての任意項目値に選択項目値を設定するまで、前記系列パターンの詳細化と、前記系列パターンの出現数の計数とを繰り返すことを特徴とする。 According to a third aspect of the present invention, there is provided the sequence pattern finding program according to the first or second aspect, wherein the number of occurrences counted by the sequence pattern counting procedure is greater than or equal to a predetermined threshold value. A sequence pattern is generated by setting a selected item value to one of the arbitrary item values included in the extracted generalized pattern, and the sequence data storage procedure By comparing the sequence data stored in step (2), the number of occurrences of the sequence pattern that matches the sequence data is counted, the sequence pattern in which the counted occurrence number is equal to or greater than a predetermined threshold is extracted, and the extracted sequence The series pattern is further refined by setting the selection item value to one of the arbitrary item values included in the pattern, and the detailed series pattern is displayed. And the sequence data stored by the sequence data storage procedure, the number of occurrences of the sequence pattern that matches the sequence data is counted, and selection items are selected for all arbitrary item values included in the sequence pattern. Until the value is set, detailing of the sequence pattern and counting of the number of appearances of the sequence pattern are repeated.
また、請求項4の発明に係る系列パターン発見プログラムは、請求項1または2の発明において、前記系列パターン計数手順は、許容する値を選択した選択項目値と項目値のみを含んだ系列パターンを詳細化パターンとして定義し、前記詳細化パターンを一意に識別する詳細化パターン番号と、該詳細化パターンの出現数を計数するための詳細化パターンカウンタとを対応付けた詳細化パターンテーブルを備え、前記系列データから前記詳細化パターン番号を導出するための写像である詳細化写像を生成する詳細化写像生成手順と、前記系列データ記憶手順により記憶された系列データを順次読み出すとともに、該読み出した系列データから前記詳細化写像を用いて前記詳細化パターン番号を導出し、前記詳細化パターンテーブルの、該導出した詳細化パターン番号に対応する詳細化パターンカウンタをカウントアップする詳細化パターンカウンタ計数手順と、をコンピュータに実行させることを特徴とする。 According to a fourth aspect of the invention, there is provided the sequence pattern finding program according to the first or second aspect of the invention, wherein the sequence pattern counting procedure includes a sequence pattern including only a selection item value and an item value for which an allowable value is selected. A detailed pattern table defined as a detailed pattern, in which a detailed pattern number for uniquely identifying the detailed pattern is associated with a detailed pattern counter for counting the number of occurrences of the detailed pattern; A refined map generation procedure for generating a refined map that is a map for deriving the refined pattern number from the sequence data, and sequentially reading the sequence data stored by the sequence data storage procedure, and the read sequence Deriving the refined pattern number from the data using the refined map, and deriving the refined pattern table And Details pattern counter counting procedure for counting up a detailed pattern counter corresponding to the detailed pattern number, characterized by causing a computer to execute the.
また、請求項5の発明に係る系列パターン発見プログラムは、請求項1〜4の発明において、前記系列データ記憶手順は、連続して変化する値を離散化し、該離散化した間隔ごとの値を項目値として順番に並べた系列データをパターン抽出の対照として記憶することを特徴とする。 According to a fifth aspect of the invention, there is provided the sequence pattern finding program according to any one of the first to fourth aspects, wherein the sequence data storage procedure discretizes a continuously changing value, and calculates a value for each discretized interval. It is characterized in that series data arranged in order as item values is stored as a reference for pattern extraction.
また、請求項6の発明に係る系列パターン発見方法は、変動する項目値を順番に並べた系列データから、該系列データに頻繁に出現している系列パターンを抽出する系列パターン発見方法であって、系列パターン抽出の対象となる系列データを記憶装置に記憶する系列データ記憶工程と、任意の項目値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、前記系列データ記憶工程により記憶された系列データを順次読み出して、該系列データがマッチする一般化パターンの出現数を計数する系列パターン計数工程と、前記系列パターン計数工程により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値に、許容する値を選択した選択項目値を設定して系列パターンを逐次生成し、前記系列データ記憶工程により記憶された系列データを順次読み出して該系列パターンと照合することにより、該系列データがマッチする系列パターンの出現数を計数する系列パターン発見工程と、前記系列パターン発見工程により計数された出現数が所定の閾値以上である系列パターンを抽出結果の系列パターンとして出力する系列パターン出力工程と、を含んだことを特徴とする。
The sequence pattern finding method according to the invention of
また、請求項7の発明に係る系列パターン発見装置は、変動する項目値を順番に並べた系列データから、該系列データに頻繁に出現している系列パターンを抽出する系列パターン発見装置であって、系列パターン抽出の対象となる系列データを記憶装置に記憶する系列データ記憶手段と、任意の項目値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、前記系列データ記憶手段により記憶された系列データを順次読み出して、該系列データがマッチする一般化パターンの出現数を計数する系列パターン計数手段と、前記系列パターン計数手段により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値に、許容する値を選択した選択項目値を設定して系列パターンを逐次生成し、前記系列データ記憶手段により記憶された系列データを順次読み出して該系列パターンと照合することにより、該系列データがマッチする系列パターンの出現数を計数する系列パターン発見手段と、前記系列パターン発見手段により計数された出現数が所定の閾値以上である系列パターンを抽出結果の系列パターンとして出力する系列パターン出力手段と、を備えたことを特徴とする。
Further, the sequence pattern finding device according to the invention of
請求項1、6および7の発明によれば、系列パターン抽出の対象となる系列データを記憶し、任意の項目値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、記憶している系列データを順次読み出して、系列データがマッチする一般化パターンの出現数を計数し、計数した出現数が所定の閾値以上である一般化パターンを抽出し、抽出した一般化パターンに含まれる任意項目値に、許容する値を選択した選択項目値を設定して系列パターンを逐次生成し、さらに、記憶している系列データを順次読み出して系列パターンと照合することにより、系列データがマッチする系列パターンの出現数を計数し、計数した出現数が所定の閾値以上である系列パターンを抽出結果の系列パターンとして出力するよう構成したので、まずは大まかな条件で系列パターンの出現数を計数し、所定の閾値で絞り込んだ上で、さらに詳細な条件で系列パターンの出現数を計数することが可能となり、系列パターンの出現数を効率良く計数することによって、系列パターンの抽出にかかる処理時間を短縮することができるという効果を奏する。 According to the first, sixth, and seventh aspects of the present invention, the sequence data that is the target of sequence pattern extraction is stored, and an arbitrary item value that allows arbitrary item values and a sequence pattern that includes only item values are used as generalized patterns. Define and store the sequence data stored in sequence, count the number of occurrences of generalized patterns that match the sequence data, extract generalized patterns whose count is equal to or greater than a predetermined threshold, and extract the general By setting a selection item value that selects an allowable value to an arbitrary item value included in the conversion pattern and sequentially generating a series pattern, and further sequentially reading stored series data and collating with the series pattern, Count the number of occurrences of the sequence pattern that matches the sequence data, and output the sequence pattern whose counted occurrence number is equal to or greater than a predetermined threshold as the sequence pattern of the extraction result First, the number of occurrences of the sequence pattern is counted under rough conditions, and after narrowing down with a predetermined threshold, the number of occurrences of the sequence pattern can be counted under more detailed conditions. Is efficiently counted, so that the processing time required to extract the sequence pattern can be shortened.
また、請求項2の発明によれば、一般化パターンを一意に識別する一般化パターン番号と、一般化パターンの出現数を計数するための一般化パターンカウンタとを対応付けた一般化パターンテーブルを備え、また、系列データから一般化パターン番号を導出するための写像である一般化写像を生成し、記憶している系列データを順次読み出すとともに、読み出した系列データから一般化写像を用いて一般化パターン番号を導出し、一般化パターンテーブルの、導出した一般化パターン番号に対応する一般化パターンカウンタをカウントアップするよう構成したので、頻出する可能性のある系列パターン群を生成するたびに系列データを全て読み出して当該系列パターンの出現数を計数するのではなく、一般化写像を生成するたびに系列データを全て読み出すことによって、同じ写像で表される全ての一般化パターンの出現数が一括して計数される。この結果、候補パターン数の爆発に影響されず、決まった回数だけ系列データを走査すれば頻出する一般化パターン発見が完了するので、処理時間が閾値に影響されないという効果を奏する。
According to the invention of
また、請求項3の発明によれば、計数された出現数が所定の閾値以上である一般化パターンを抽出し、抽出した一般化パターンに含まれる任意項目値の一つに選択項目値を設定することによって系列パターンを逐次生成し、逐次生成した系列パターンと、記憶している系列データとを照合することにより、系列データがマッチする系列パターンの出現数を計数し、計数した出現数が所定の閾値以上である系列パターンを抽出し、抽出した系列パターンに含まれる任意項目値の一つに選択項目値を設定することによってさらに系列パターンを詳細化し、詳細化した系列パターンと系列データとを照合することにより、系列データがマッチする系列パターンの出現数を計数し、系列パターンに含まれる全ての任意項目値に選択項目値を設定するまで、かかる系列パターンの詳細化と、系列パターンの出現数の計数とを繰り返すよう構成したので、まずは一般化パターンの出現数を計数し、所定の閾値を用いて一般化パターンを絞り込んだ後に、絞り込んだ一般化パターンに含まれる任意項目値の一つを選択項目値に置き換えて系列パターンを逐次生成し、さらに、一つずつ任意項目値を選択項目値に置き換えることによって系列パターンを段階的に詳細化し、その都度、所定の閾値を用いて、計数する必要のない系列パターンを排除してゆくことが可能となり、系列パターンの出現数を効率良く計数して系列パターンの抽出にかかる処理時間を短縮することができるという効果を奏する。
According to the invention of
また、請求項4の発明によれば、詳細化パターンを一意に識別する詳細化パターン番号と、詳細化パターンの出現数を計数するための詳細化パターンカウンタとを対応付けた詳細化パターンテーブルを備え、また、系列データから詳細化パターン番号を導出するための写像である詳細化写像を生成し、記憶している系列データを順次読み出すとともに、まず一般化写像を適用して一般化パターン番号を得て、一般化パターンテーブルを参照することにより、この一般化パターン番号に対応する詳細化パターンテーブルを得る。続いて系列データに詳細化写像を適用して詳細化パターン番号を得て、詳細化パターンテーブルを参照することにより、この詳細化パターン番号に対応する詳細化パターンカウンタを得て、これを計数するよう構成したので、頻出する可能性のある系列パターン群を生成するたびに系列データを全て読み出して当該系列パターンの出現数を計数するのではなく、一般化写像および詳細化写像を生成するたびに系列データを全て読み出すことによって、同じ写像の組で表される全ての詳細化パターンの出現数が一括して計数される。この結果、候補パターン数の爆発に影響されず、決まった回数だけ系列データを走査すれば頻出する一般化パターン発見が完了するので、処理時間が閾値に影響されないという効果を奏する。
According to the invention of
また、請求項5の発明によれば、連続して変化する値を離散化し、離散化した間隔ごとの値を項目値として順番に並べた系列データをパターン抽出の対照として記憶するよう構成したので、例えば株価や商品の売上額などのように、連続して変化する項目値についても、所定の間隔で離散化することによって値をサンプリングし、サンプリングした値を系列データとして、その変動において頻繁に出現する系列パターンを抽出することができるという効果を奏する。
Further, according to the invention of
以下に添付図面を参照して、この発明に係る系列パターン発見プログラム、系列パターン発見方法および系列パターン発見装置の好適な実施例を詳細に説明する。なお、本実施例では、株価の時系列データから株価の系列パターンを発見する場合について説明する。 Exemplary embodiments of a sequence pattern discovery program, a sequence pattern discovery method, and a sequence pattern discovery apparatus according to the present invention will be described below in detail with reference to the accompanying drawings. In this embodiment, a case where a stock price series pattern is found from stock price time series data will be described.
まず、本実施例1に係る系列パターン発見装置の概念について説明する。図1は、系列パターンの抽出対象となる系列データの一例を示す図である。同図は、ある証券の1週間の日々の株価の終値を日ごとに並べた時系列データを示している。同図に示す「数値データ」は、日々の株価の終値であり、「前日との増減」は、前日との株価の終値の差額である。また、「離散化データ」は、前日との株価の終値の差額を5段階に離散化した数値であり、差額が−100以上である場合には「0(大幅安)」を、−99から−20の間である場合には「1(小幅安)」を、−19から+19の間である場合には「2(変動なし)」を、20から99の間である場合には「3(小幅高)」を、100以上である場合には「4(大幅高)」を設定している。この「離散化データ」を項目値とする系列データを、例えば、<3 1 3 1 4 0>と表す。 First, the concept of the sequence pattern finding apparatus according to the first embodiment will be described. FIG. 1 is a diagram illustrating an example of sequence data from which a sequence pattern is extracted. The figure shows time-series data in which the closing prices of stock prices for a week for a certain security are arranged for each day. The “numerical data” shown in the figure is the closing price of the daily stock price, and the “increase / decrease from the previous day” is the difference between the closing price of the stock price and the previous day. The “discretized data” is a numerical value obtained by discretizing the difference in the closing price of the stock price from the previous day in five stages. When the difference is −100 or more, “0 (significantly low)” is changed from −99. If it is between -20, "1 (small reduction)", if it is between -19 and +19, "2 (no change)", if it is between 20 and 99, "3" When (small width and height) is 100 or more, “4 (significant height)” is set. The series data whose item value is this “discretized data” is expressed as, for example, <3 1 3 1 4 0>.
本実施例1においては、上述した「離散化データ」を項目値とした系列データが証券ごとに蓄積されている系列データベースから系列パターンを抽出する場合を説明する。 In the first embodiment, a case will be described in which a series pattern is extracted from a series database in which series data having “discretized data” described above as an item value is stored for each security.
まず、抽出する系列パターンを定義する。例えば、系列パターン<3 {0,1,2,3,4} 3 1 {0,1,2,3,4} 0>であるが、2番目の項目と5番目の項目値に設定されている{0,1,2,3,4}は、任意の項目値を許容する任意項目値を表しており、この系列パターンと系列データとを照合する際に、系列データの2番目の項目値と5番目の項目が「0」,「1」,「2」,「3」,「4」のいずれであってもよいことを示している。このような、所定の数の任意項目値と、所定の数の項目値のみを含んだ系列パターンを一般化パターンと呼ぶ。 First, the sequence pattern to be extracted is defined. For example, the sequence pattern <3 {0, 1, 2, 3, 4} 3 1 {0, 1, 2, 3, 4} 0> is set to the second item and the fifth item value. {0, 1, 2, 3, 4} represents an arbitrary item value that allows an arbitrary item value, and the second item value of the sequence data when this sequence pattern is compared with the sequence data And the fifth item may be any of “0”, “1”, “2”, “3”, “4”. Such a series pattern including only a predetermined number of arbitrary item values and a predetermined number of item values is referred to as a generalized pattern.
ここで、抽出する系列パターンの長さをl、抽出する系列パターンに含まれる任意項目値の数をkとすると、上述した一般化パターンTM(l,k)は、以下に示す数式(1)で表される。 Here, when the length of the sequence pattern to be extracted is 1 and the number of arbitrary item values included in the sequence pattern to be extracted is k, the generalized pattern T M (l, k) described above is expressed by the following formula (1). ).
上記の数式(1)において、Σは、抽出対象の系列データに設定され得る項目値(ここでは、「離散化データ」に設定され得る項目値であり、すなわち、「0」,「1」,「2」,「3」,「4」。)を表しており、ΠMは、任意項目値を示している。 In the above formula (1), Σ is an item value that can be set to the series data to be extracted (here, item values that can be set to “discretized data”, that is, “0”, “1”, “2”, “3”, “4”), and Π M indicates an arbitrary item value.
例えば、系列パターン<3 {0,1} 3 1 {3,4} 0>であるが、2番目の項目と5番目の項目値に設定されている{0,1}や{3,4}は、{2}も含め、許容する項目値を選択する選択項目値を表しており、この系列パターンと系列データを照合する際に、系列データの2番目の項目値が「0」、「1」いずれかであってよく、系列データの5番目の項目値が「3」、「4」のいずれかであってよいことを示している。このような、所定の数の選択項目値と、所定の数の項目値のみを含んだ系列データを詳細化パターンと呼ぶ。 For example, the sequence pattern <3 {0, 1} 3 1 {3, 4} 0> is set to the second item and the fifth item value {0, 1} or {3,4} Represents a selection item value for selecting an allowable item value including {2}. When this series pattern is compared with the series data, the second item value of the series data is “0”, “1”. It may be any one, indicating that the fifth item value of the series data may be either “3” or “4”. Such series data including only a predetermined number of selection item values and a predetermined number of item values is referred to as a refinement pattern.
詳細化パターンTm(l,k)は、以下に示す数式(2)で表される。 The detailed pattern T m (l, k) is expressed by the following mathematical formula (2).
上記の数式(2)において、Πmは、選択項目値を示している。選択項目値の役割は、任意項目値よりも詳細に変動の幅に制限を加えることである。例えば、{0,1}を設定することによって、大小を問わず株価の終値が安値に変動したパターンを指定することができ、{2}を指定することによって、株価の終値が変動しなかったパターンを指定することができ、{3,4}を指定することによって、大小を問わず株価の終値が高値に変動したパターンを指定することができる。 In the above equation (2), the [pi m, shows a selection value. The role of the selection item value is to limit the range of fluctuation in more detail than the arbitrary item value. For example, by setting {0, 1}, it is possible to specify a pattern in which the closing price of the stock price fluctuated to a low price regardless of the size. By specifying {2}, the closing price of the stock price did not change. A pattern can be specified, and by specifying {3, 4}, a pattern in which the closing price of the stock price has changed to a high value can be specified regardless of the size.
一般化パターンに含まれる任意項目値のうち、一つ以上の任意項目値を選択項目値に置き換えることによって逐次生成される系列パターンを定義する。例えば、詳細化した系列パターン<3 {0,1} 3 1 {0,1,2,3,4} 0>であるが、このような所定の数の任意項目巷は選択項目値と、所定の数の項目値を含んだ系列パターンを単に系列パターンと呼ぶ。 A sequence pattern that is sequentially generated is defined by replacing one or more arbitrary item values among the arbitrary item values included in the generalized pattern with selected item values. For example, a detailed sequence pattern <3 {0, 1} 3 1 {0, 1, 2, 3, 4} 0>, and such a predetermined number of arbitrary item 巷 is a selected item value and a predetermined value. A sequence pattern including a number of item values is simply called a sequence pattern.
本実施例1に係る系列パターン発見装置が発見する系列パターンは、以下に示す数式(3)で表される。 The sequence pattern discovered by the sequence pattern discovery apparatus according to the first embodiment is expressed by the following formula (3).
なお、上記した、抽出する系列パターンの長さl、抽出する系列パターンに含まれる任意項目値の数k、抽出対象の系列データに設定され得る項目値Σ、任意項目値ΠM、選択項目値の集合Πm、および、所定の閾値は、それぞれ、利用者によってあらかじめ設定されるものとする。 It should be noted that the length l of the sequence pattern to be extracted, the number k of arbitrary item values included in the sequence pattern to be extracted, the item value Σ, the arbitrary item value Π M , the selection item value that can be set in the sequence data to be extracted Assume that the set Π m and the predetermined threshold value are set in advance by the user.
また、本実施例1においては、抽出対象の系列データの項目値に設定される値が「0」〜「4」である場合を説明したが、本発明はこれに限定されるものではない。例えば、抽出対象の系列データの項目値集合をΣで表すと、系列パターン発見装置が発見する一般化パターン、詳細化パターンおよび系列パターンは、以下に示す数式(4)、(5)および(6)で定義される。 In the first embodiment, the case where the values set in the item values of the series data to be extracted are “0” to “4” has been described, but the present invention is not limited to this. For example, when the item value set of the sequence data to be extracted is represented by Σ, the generalized pattern, the detailed pattern, and the sequence pattern discovered by the sequence pattern finding device are expressed by the following formulas (4), (5), and (6). ).
次に、本実施例1に係る系列パターン発見装置の構成について説明する。図2は、本実施例1に係る系列パターン発見装置の構成を示す機能ブロック図である。同図に示すように、この系列パターン発見装置100は、系列データ記憶部110と、テンプレート生成部120と、写像生成部130と、系列パターン計数部140と、系列パターン発見部150と、系列パターン出力部160とを有する。
Next, the configuration of the sequence pattern finding apparatus according to the first embodiment will be described. FIG. 2 is a functional block diagram illustrating the configuration of the sequence pattern finding apparatus according to the first embodiment. As shown in the figure, the sequence
系列データ記憶部110は、系列パターンの抽出対象となる系列データを記憶する記憶部である。本実施例1においては、この系列データ記憶部110は、図1で示した「離散化データ」を、証券ごとに記憶する。
The sequence
ここで、系列データ記憶部110により記憶される系列データDEの6日前,5日前,4日前,3日前,2日前,1日前の「離散化データ」の値を、それぞれ、d5,d4,d3,d2,d1,d0とし、系列データDEを、以下の式で表す。
Here, the values of “discretized data” 6 days ago, 5 days ago, 4 days ago, 3 days ago, 2 days ago, and 1 day ago of the series data D E stored by the series
DE=<d5 d4 d3 d2 d1 d0> D E = <d 5 d 4 d 3 d 2 d 1 d 0 >
例えば、図1に示した「離散化データ」の系列データは、以下の式で表される。 For example, the series data of “discretized data” shown in FIG. 1 is expressed by the following equation.
DE=<3 1 3 1 4 0> D E = <3 1 3 1 4 0>
なお、ここでは、株価の終値の前日と当日との差額を5段階に離散化する例を説明したが、離散化する段階を5段階以上に設定することによって、より細かい差幅の変化を示す系列データから系列パターンを発見するようにしてもよいし、離散化する段階を5段階以下に設定することによって、粗い差幅の変化を示す系列データから系列パターンを発見するようにしてもよい。 In addition, although the example which discretizes the amount of difference between the day before the closing price of the stock price and the current day has been described here, a more detailed change in the difference width is shown by setting the level of discretization to five or more steps. The sequence pattern may be found from the sequence data, or the sequence pattern may be found from the sequence data that shows a coarse change in the difference width by setting the discretization step to five or less steps.
このように、系列データ記憶部110が、連続して変化する変動要素を離散化し、離散化した単位ごとの変動幅を示す値を並べた系列データを系列パターン抽出の対象として記憶することによって、株価や商品の売上額などの連続して変化する変動要素に頻出する系列パターンを抽出することができる。
In this way, the series
テンプレート生成部120は、利用者によって指定される系列パターンの長さlおよび抽出する系列パターンに含まれる任意項目値または選択項目値の数kとに基づいて、系列パターンを定義するためのテンプレートを生成する処理部である。ここで、テンプレートとは、任意項目値または選択項目値を所定の数だけ含んだ系列パターンの項目構成を表す定義であり、任意項目値または選択項目値と、具体的な項目値(以下、単に項目値)とを所定の数だけ順序だてて組み合わせることによって生成される。以下に、テンプレート生成部120によるテンプレートの生成方法を説明する。
The
テンプレート生成部120は、利用者によって指定される抽出する系列パターンの長さをl、抽出する系列パターンに含まれる任意項目値または選択項目値の数をkとした場合、k個の任意項目値または選択項目値とl−k個の項目値とを順序だてて組み合わせることにより、lCk通りのパターンテンプレートXを生成する。
When the length of the sequence pattern to be extracted designated by the user is l and the number of arbitrary item values or selection item values included in the extracted sequence pattern is k, the
例えば、前述した「離散化データ」の系列データ For example, the above-mentioned “discretized data” series data
DE=<d5 d4 d3 d2 d1 d0> D E = <d 5 d 4 d 3 d 2 d 1 d 0 >
を系列パターン抽出の対象とし、抽出する系列パターンの長さlを「6」、抽出する系列パターンに含まれる任意項目値または選択項目値の数kを「2」と設定した場合は、パターンテンプレートXは6C2(=15)通り生成される。 Is a pattern pattern extraction target, the length l of the sequence pattern to be extracted is set to “6”, and the number k of arbitrary item values or selection item values included in the sequence pattern to be extracted is set to “2”. X is generated in 6 C 2 (= 15) ways.
ここで生成される15通りのテンプレートXのうちの一つであるテンプレートXEを、例えば、以下に示す式で表す。 A template X E that is one of the 15 templates X generated here is expressed by, for example, the following expression.
XE=<x5 * x3 x2 * x0> X E = <x 5 * x 3 x 2 * x 0 >
上記の式において、「*」は任意項目値または選択項目値を表している。 In the above formula, “*” represents an arbitrary item value or a selected item value.
なお、ここでは、抽出する系列パターンの長さlが「6」、抽出する系列パターンに含まれる任意項目値または選択項目値の数kが「2」である場合のテンプレートの生成について説明したが、本発明はこれに限定されるものではなく、上述したように、テンプレートは、lおよびkに設定される値に応じて、適宜生成されるものである。 Here, the generation of the template when the length l of the sequence pattern to be extracted is “6” and the number k of arbitrary item values or selection item values included in the sequence pattern to be extracted is “2” has been described. However, the present invention is not limited to this, and as described above, the template is appropriately generated according to the values set in l and k.
写像生成部130は、テンプレート生成部120によって生成されたテンプレートに基づいて、テンプレートごとに、系列データから一般化パターン番号を導出するための写像(以下、一般化写像と呼ぶ)を生成する処理部である。ここで、一般化パターン番号とは、パターンテンプレートによって定義される一般化パターンを一意に識別する識別番号である。以下に、写像生成部130による一般化写像の生成方法について説明する。
The mapping generation unit 130 generates a mapping (hereinafter referred to as a generalized mapping) for deriving a generalized pattern number from series data for each template based on the template generated by the
写像生成部130は、まずテンプレート生成部120により生成されたテンプレートXを取得し、取得したテンプレートXに基づいて一般化写像fX(D)を生成する。
The map generation unit 130 first acquires the template X generated by the
例えば、以下に示すテンプレートXEに基づいて生成する一般化写像fXEを、以下の式で定義する。 For example, a generalized map f XE generated based on the template X E shown below is defined by the following expression.
上記の式において、(3),(2),(1),(0)は、任意項目値または選択項目値を表す記号「*」を無視して右から左へ順番に付与した通番であり、d(3),d(2),d(1),d(0)は、それぞれ、テンプレートXEで定義されたx(3),x(2),x(1),x(0)と同じ位置にある系列データDEの項目値、すなわち、d5,d3,d2,d0を示している。また、上記の式において、各項目値d5,d3,d2,d0に乗じている5j(j=3,2,1,0)は、「5」が、抽出対象の系列データに設定され得る項目値Σの数(ここでは、「0」,「1」,「2」,「3」,「4」の5つ)で決められ、指数jが、テンプレートXEにおける具体的な項目値に付与した通番((3),(2),(1),(0))で決められる。 In the above formula, (3), (2), (1), (0) are serial numbers assigned in order from right to left ignoring the symbol “*” representing an arbitrary item value or selection item value. , D (3) , d (2) , d (1) , d (0) are x (3) , x (2) , x (1) , x (0) defined in the template X E , respectively. The item values of the series data D E at the same position, that is, d 5 , d 3 , d 2 , d 0 are shown. In the above formula, 5 j (j = 3, 2, 1, 0) multiplied by the item values d 5 , d 3 , d 2 , and d 0 is “5”, which is the series data to be extracted. Is determined by the number of item values Σ that can be set to 5 (here, “0”, “1”, “2”, “3”, “4”), and the index j is a specific value in the template X E The serial number ((3), (2), (1), (0)) given to each item value is determined.
この一般化写像fXE(DE)により、例えば、系列データが With this generalized map f XE (D E ), for example, the sequence data is
DE=<3 1 3 1 4 0> D E = <3 1 3 1 4 0>
であった場合は、 If it was
fXE(DE)=3×53+3×52+1×51+0×50
=455
f XE (D E ) = 3 × 5 3 + 3 × 5 2 + 1 × 5 1 + 0 × 5 0
= 455
となり、一般化パターン番号は「455」となる。 Thus, the generalized pattern number is “455”.
なお、ここでは、抽出する系列パターンの長さlが「6」、抽出する系列パターンに含まれる任意項目値または選択項目値の数kが「2」、抽出対象の系列データに設定され得る項目値Σの数が「5」である場合の一般化写像の生成について説明したが、本発明はこれに限定されるものではなく、上述したように、一般化写像は、l、kおよびΣに設定される値に応じて、適宜生成されるものである。 Here, the length l of the sequence pattern to be extracted is “6”, the number k of arbitrary item values or selection item values included in the sequence pattern to be extracted is “2”, and items that can be set in the sequence data to be extracted The generation of the generalized map when the number of values Σ is “5” has been described. However, the present invention is not limited to this, and as described above, the generalized map is represented by l, k, and Σ. It is generated appropriately according to the set value.
系列パターン計数部140は、系列データ記憶部110に記憶された系列データを読み出し、写像生成部130により生成された一般化写像を用いて、読み出した系列データがマッチする一般化パターンの出現数を計数する処理部である。具体的には、この系列パターン計数部140は、テンプレート生成部120により生成されたテンプレートXに対して、一般化パターン番号とパターンカウンタとを対応付けたパターンテーブルを備える。ここで、一般化パターン番号とは、前述した一般化写像fX(D)によって導出される一般化パターン番号に対応するものであり、0から始まる通番となる。また、パターンカウンタは、一般化パターン番号ごとに、系列データ記憶部110に記憶された系列データがマッチする一般化パターンの出現数を計数するためのカウンタである。
The sequence
図3は、本実施例1に係るパターン計数部140によって用いられるパターンテーブルの一例を示す図である。例えば、同図に示すように、前述したテンプレート
FIG. 3 is a diagram illustrating an example of a pattern table used by the
XE=<x5 * x3 x2 * x0> X E = <x 5 * x 3 x 2 * x 0 >
に対するパターンテーブルでは、54(=625)個のパターン番号、すなわち「0」〜「624」のパターン番号と、パターンカウンタとが対応付けられている。そして、かかるパターン番号およびパターンカウンタの数は、テンプレートXEから生成される一般化パターンのパターン数と同数となる。 In this pattern table, 5 4 (= 625) pattern numbers, that is, pattern numbers “0” to “624” are associated with the pattern counter. The number of pattern numbers and pattern counters is the same as the number of generalized patterns generated from the template XE.
系列パターン計数部140は、パターンテーブルのパターンカウンタを初期化(「0」を設定)した後に、系列データ記憶部110により記憶された系列データDを順次読み出し、写像生成部130により生成された一般化写像fX(D)を用いて一般化パターン番号を導出し、導出した一般化パターン番号に対応するパターンテーブルのパターンカウンタに「1」を加算する。
The sequence
例えば、前述した系列データ For example, the series data mentioned above
DE=<3 1 3 1 4 0> D E = <3 1 3 1 4 0>
を読み出した場合は、 Is read out,
fXE(DE)=455 f XE (D E ) = 455
となることより、系列パターン計数部140は、パターンテーブルの、一般化パターン番号「455」に対応するパターンカウンタに「1」を加算する(図3に示すカウント1)。
Thus, the series
こうして、系列パターン計数部140は、テンプレート生成部120により生成された全てのテンプレートに対して、写像を用いたパターンカウンタの加算とを行う。
In this way, the sequence
なお、かかる系列パターン計数部140による一般化パターン計数処理の詳細については、図5を用いて後に説明する。
The details of the generalized pattern counting process by the series
系列パターン発見部150は、系列パターン計数部140により計数されたパターンカウンタが所定の閾値以上である一般化パターンを抽出し、抽出した一般化パターンに含まれる任意項目値の一つを選択項目値に置き換えて系列パターンを生成し、さらに、一つずつ任意項目値を選択項目値に置き換えることによって系列パターンを段階的に詳細化し、その都度、計数する必要のない系列パターンを排除しながら、系列パターンの出現数を計数する処理部である。
The sequence
例えば、一般化パターン<3 * 3 1 * 0>について、選択項目値{0,1}、{2}および{3,4}を用いて詳細化を行う場合は、系列パターン発見部150は、以下に示す6つの系列パターンを生成する。
For example, when the generalized pattern <3 * 3 1 * 0> is refined using the selection item values {0, 1}, {2} and {3,4], the sequence
<3 {0,1} 3 1 * 0> ,
<3 {2} 3 1 * 0> ,
<3 {3,4} 3 1 * 0> ,
<3 * 3 1 {0,1} 0> ,
<3 * 3 1 {2} 0> ,
<3 * 3 1 {3,4} 0>
<3 {0, 1} 3 1 * 0>,
<3 {2} 3 1 * 0>,
<3 {3, 4} 3 1 * 0>,
<3 * 3 1 {0, 1} 0>,
<3 * 3 1 {2} 0>,
<3 * 3 1 {3,4} 0>
そして、系列パターン発見部150は、生成した系列パターンと、系列データ記憶部110に記憶された系列データとを、例えば、複数パターンとの照合を可能とする拡張を施したShift−AND法などの文字列照合アルゴリズムを用いて照合することにより、系列データがマッチする系列パターンの出現数を計数する。
The sequence
なお、ここでは、文字列照合アルゴリズムとしてShift−AND法を用いた場合を説明したが、ここで行う文字列照合は、Shift−AND法に限らず、任意項目値や選択項目値を含んだ複数の系列パターンと系列データとの照合を行うことが可能な他の公知の文字照合アルゴリズムを用いてもよいものである。 Although the case where the Shift-AND method is used as the character string matching algorithm has been described here, the character string matching performed here is not limited to the Shift-AND method, and a plurality of values including arbitrary item values and selection item values are included. Other known character collation algorithms capable of collating the sequence pattern and the sequence data may be used.
図4は、系列パターン発見部150による系列パターン発見処理の一例を示す図である。例えば、同図に示すように、<3 {0,1} 3 1 * 0>の出現数が「50」、<3 {2} 3 1 * 0>の出現数が「10」、<3 {3,4} 3 1 * 0>の出現数が「20」、<3 * 3 1 {0,1} 0>の出現数が「30」、<3 * 3 1 {2} 0>の出現数が「10」、<3 * 3 1 {3,4} 0>の出現数が「10」であり、また、利用者によって指定された所定の閾値が「20」であったとする。
FIG. 4 is a diagram illustrating an example of a sequence pattern discovery process performed by the sequence
この場合、系列パターン発見部150は、図4に示すように、<3 {0,1} 3 1 * 0>と、<3 {3,4} 3 1 * 0>と、<3 * 3 1 {0,1} 0>とを抽出し、<3 {0,1} 3 1 * 0>と<3 * 3 1 {0,1} 0>とを掛け合わせることによって(図4に示すペア1)、さらに詳細化された詳細化パターン<3 {0,1} 3 1 {0,1} 0>を定義し、また、<3 {3,4} 3 1 * 0>と<3 * 3 1 {0,1} 0>とを掛け合わせることによって(図4に示すペア2)、さらに詳細化した詳細化パターン<3 {3,4} 3 1 {0,1} 0>を定義する。系列パターンの出現数は、任意項目値を選択項目値に置き換える手続きによって単調に減少するため、これ以外の選択項目値への置き換えによって得られる系列パターンの出現数は閾値未満であるから、文字列照合により出現数を計数するまでもなく除外することが可能である。
In this case, the sequence
そして、系列パターン発見部150は、生成した系列パターン(<3 {0,1} 3 1 {0,1} 0>および<3 {3,4} 3 1 {0,1} 0>)と、系列データ記憶部110に記憶された系列データとを、例えば、拡張Shift−AND法などの文字列照合アルゴリズムを用いて再度照合し、系列パターンがマッチする系列パターンの出現数をまとめて計数する。
Then, the sequence
なお、かかる系列パターン発見部150による系列パターン発見処理の詳細については、図6を用いて後に説明する。
Details of the sequence pattern finding process by the sequence
このように、系列パターン発見部150が、系列データ記憶部110により記憶された系列データを読み出すとともに、拡張Shift−And法による文字列照合アルゴリズムを用いて、系列データがマッチする系列パターンの出現数を計数するので、まずは一般化パターンの出現数を計数し、所定の閾値を用いて一般化パターンを絞り込んだ後に、絞り込んだ一般化パターンに含まれる任意項目値の一つを選択項目値に置き換えて系列パターンを逐次生成し、さらに、一つずつ任意項目値を選択項目値に置き換えることによって系列パターンを段階的に詳細化し、その都度、所定の閾値を用いて、計数する必要のない系列パターンを排除してゆくことが可能となり、系列パターンの出現数を効率良く計数して系列パターンの抽出にかかる処理時間を短縮することができる。
As described above, the sequence
パターン出力部160は、系列パターン発見部150によって計数された出現数が所定の閾値以上である系列パターンを抽出し、抽出した系列パターンを抽出結果の系列パターンとして、例えばディスプレイ装置などの出力装置に出力する処理部である。
The
次に、本実施例1に係る系列パターン計数部140による一般化パターン計数処理の処理手順について説明する。図5は、本実施例1に係る系列パターン計数部140による一般化パターン計数処理の処理手順を示すフローチャートである。同図に示すように、まず、テンプレート生成部120が、テンプレートXを1つ生成する(ステップS101)。
Next, a processing procedure of the generalized pattern counting process performed by the sequence
テンプレートXが生成された場合(ステップS102,Yes)は、写像生成部130が、テンプレートXに基づいて、系列データDから一般化パターン番号を算出するための写像fX(D)を生成する(ステップS103)。 When the template X is generated (step S102, Yes), the map generation unit 130 generates a map f X (D) for calculating the generalized pattern number from the series data D based on the template X ( Step S103).
そして、系列パターン計数部140が、パターンテーブルのパターンカウンタを全てクリアする(ステップS104)。パターンテーブルをクリアした後、系列パターン計数部140は、系列データ記憶部110から系列データDを1つ取り出す(ステップS105)。
Then, the series
系列データDが取り出せた場合は(ステップS106,No)、系列パターン計数部140は、写像生成部130によって生成された写像fX(D)を用いて、取り出した系列データDから一般化パターン番号を算出し(ステップS107)、さらに、算出した一般化パターン番号に対応するパターンカウンタをインクリメントする(ステップS108)。その後、系列パターン計数部140は、ステップS105に戻って、系列データ記憶部110から次の系列データDを取り出し、ステップS107およびS108の処理を行う。系列パターン計数部140は、系列データ記憶部110から系列データDが取り出せなくなるまで、これらの処理を繰り返す。
When the sequence data D can be extracted (step S106, No), the sequence
そして、系列データ記憶部110から系列データDが取り出せなかった場合、すなわち、系列データ記憶部110に記憶されている全ての系列データDの取出しがすでに完了している場合、系列パターン計数部140は、ステップS101に戻って、次のテンプレートXを生成し、全てのテンプレートXを生成するまで、ステップS102以降の処理を繰り返す。
When the sequence data D cannot be extracted from the sequence
そして、全てのテンプレートXを生成した後、系列パターン計数部140は、この一般化パターン計数処理を終了する(ステップS102,No)。
Then, after generating all the templates X, the sequence
このように、系列データから一般化パターン番号を算出するための一般化写像を写像生成部130があらかじめ生成し、系列パターン計数部140が、系列データ記憶部110に記憶された系列データを順次読み出すとともに一般化写像を用いて一般化パターン番号を算出することによって、効率良く系列パターン(一般化パターン)の出現数を計数することができる。
As described above, the mapping generation unit 130 generates a generalized map for calculating the generalized pattern number from the sequence data in advance, and the sequence
このように、系列パターン計数部140が、一般化パターンを一意に識別する一般化パターン番号と、一般化パターンの出現数を計数するためのパターンカウンタとを対応付けた一般化パターンテーブルを備え、写像生成部130が、系列データから一般化パターン番号を導出するための写像である一般化写像を生成し、系列パターン計数部140が、系列データ記憶部110により記憶されている系列データを順次読み出すとともに、読み出した系列データから一般化写像を用いて一般化パターン番号を導出し、一般化パターンテーブルの、導出した一般化パターン番号に対応する一般化パターンカウンタをカウントアップするので、頻出する可能性のある系列パターン群を生成するたびに系列データを全て読み出して当該一般化パターンの出現数を計数するのではなく、一般化写像を生成するたびに系列データを全て読み出すことによって、同じ写像で表される全ての系列パターンの出現数が一括して計数される。この結果、候補パターン数の爆発に影響されず、決まった回数だけ系列データを走査すれば頻出する一般化パターン発見が完了するので、処理時間が閾値に影響されないという効果を奏する。
In this way, the sequence
次に、系列パターン発見部部150による系列パターン発見処理の処理手順について説明する。図6は、系列パターン発見部150による系列パターン発見処理の処理手順を示すフローチャートである。同図に示すように、系列パターン発見部150は、まず、系列パターン計数部140により計数されたパターンカウンタが所定の閾値以上である一般化パターンPを取得する(ステップS201)。
Next, a processing procedure of sequence pattern discovery processing by the sequence
そして、系列パターン発見部150は、一般化パターンPが取得できた場合は(ステップS202,Yes)、変数iに「0」を設定し(ステップS203)、取得した一般化パターンP1つだけを含む集合を系列パターン集合L0として保持し(ステップS204)、さらに、一般化パターンPにマッチする全ての系列データ(以降、系列データDPとする)を系列データ記憶部110から抽出する(ステップS205)。
If the generalized pattern P can be acquired (step S202, Yes), the sequence
その後、系列パターン発見部150は、変数iに「1」を加算し(ステップS206)、変数iが一般化パターンに含まれる任意項目値または選択項目値の数kより小さかった場合は(ステップS207,Yes)、保持している系列パターン集合Li-1に含まれる任意項目値のいずれか一つに選択項目値を設定することによって、系列パターンを生成する(ステップS208)。ここで、例えば、選択項目値が3種類である場合は、集合Li−1に属する系列パターンひとつあたり|Πm|×(k−i+1)通りの系列パターンが生成される。
Thereafter, the sequence
そして、系列パターン発見部150は、生成した系列パターンと、系列データDPとを、例えば、拡張Shift−AND法などの文字列照合アルゴリズムを用いて照合することにより、その出現数をまとめて計数する(ステップS209)。
The sequential
そして、系列パターン発見部150は、計数した出現数が所定の閾値を超える系列パターンを抽出し、抽出した頻出系列パターンを系列パターン集合Liとして保持する(ステップS210)。
The sequence
この後、系列パターン発見部150は、変数iが一般化パターンに含まれる任意項目値または選択項目値の数k以上となるまで(ステップS207,No)、変数iをカウントアップしながら、系列パターン集合Liの抽出を繰り返す。
Thereafter, the sequence
変数iが一般化パターンに含まれる任意項目値または選択項目値の数k以上となった場合は、系列パターン発見部150は、それまでに抽出していた系列パターン集合L0〜Lk-1をまとめ、集合L(P)として保持する(ステップS211)。
When the variable i becomes equal to or larger than the number k of arbitrary item values or selection item values included in the generalized pattern, the sequence
そして、系列パターン発見部150は、ステップS201に戻って、出現数が所定の閾値以上である一般化パターンをさらに取得し、出現数が所定の閾値以上である全ての一般化パターンを取得し終わるまで、ステップS201以降の処理を繰り返し行う。
Then, the sequence
そして、全ての一般化パターンについて処理を行った後、系列パターン発見部150は、この系列パターン発見処理を終了し、保存している全ての系列パターン集合L(P)を抽出結果として、パターン出力部160を介して出力する(ステップS212)。
Then, after processing all the generalized patterns, the sequence
上述してきたように、本実施例1では、系列データ記憶部110が、系列パターン抽出の対象となる系列データを記憶し、テンプレート生成部120が、任意の値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、系列パターン計数部140が、記憶している系列データを順次読み出すとともに、各一般化パターンにマッチする系列データの数を一般化パターン出現数として計数し、その上で、系列パターン発見部150が、計数した一般化パターン出現数が所定の閾値以上である一般化パターンを抽出し、抽出した一般化パターンに含まれる任意項目値に選択項目値を設定した系列パターンを定義し、記憶している系列データを順次読み出すとともに、各系列パターンにマッチする系列データの数を系列パターン出現数として計数し、系列パターン出力部160が、系列パターン発見部150により計数した系列パターン出現数が所定の閾値以上である系列パターンを抽出結果として出力することとしたので、まずは大まかな条件で一般化パターンの出現数を計数し、所定の閾値で絞り込んだ上で、さらに詳細な条件で系列パターンの出現数を計数することが可能となる。このように、一般化パターンの出現数を効率良く計数することによって、系列パターンの抽出にかかる処理時間を短縮することができる。
As described above, in the first embodiment, the sequence
また、写像生成部130が、系列データに含まれる項目値を変換することによって一般化パターンを一意に識別する一般化パターン番号を導出する一般化写像を生成し、系列パターン計数部140が、一般化パターンと、一般化写像を用いて導出される一般化パターン番号と、一般化パターンにマッチする系列データの数を計数するパターンカウンタとを一般化パターンごとに対応付けたパターンテーブルを生成し、系列パターン計数部140が、系列データを順次読み出すとともに、一般化写像を用いて一般化パターン番号を導出し、導出した一般化パターン番号に基づいてパターンテーブルのパターンカウンタを計数することとしたので、読み出した系列データがマッチする一般化パターンを容易に判別することが可能となり、この結果、一般化パターンの出現数を効率良く計数することによって、一般化パターンの抽出にかかる処理時間を短縮することができる。
Further, the mapping generation unit 130 generates a generalized map for deriving a generalized pattern number for uniquely identifying the generalized pattern by converting the item value included in the sequence data, and the sequence
ところで、上記実施例1では、系列データを読み込み、所定の設定値に基づいて一般化パターンごとに生成した一般化写像を用いて各一般化パターンの出現数を計数し、出現数が所定の閾値以上である一般化パターンを抽出した後に、任意項目値に選択項目値を設定することによって一般化パターンを詳細化した系列パターンを生成し、再度系列データを読み込んで、系列パターンの出現数を計数し、所定の閾値によって系列パターンを絞り込むことによって、頻出する系列パターンを発見する場合を説明したが、一般化写像を生成するのと同時に詳細化パターンの写像を生成し、これら2つの写像を組み合わせて用いることによって、詳細化パターンの出現数のみを計数し、頻出の詳細化パターンのみを発見するようにしてもよい。 By the way, in the first embodiment, series data is read, the number of appearances of each generalized pattern is counted using a generalized map generated for each generalized pattern based on a predetermined set value, and the number of appearances is a predetermined threshold value. After extracting the above generalized pattern, generate a series pattern that refines the generalized pattern by setting the selection item value to an arbitrary item value, read the series data again, and count the number of occurrences of the series pattern In the above, the case where frequent sequence patterns are found by narrowing down the sequence pattern by a predetermined threshold has been explained. However, a generalized map is generated at the same time as a detailed pattern map, and these two maps are combined. By using them, only the number of occurrences of detailed patterns may be counted, and only frequent detailed patterns may be found.
そこで、本実施例2では、2つの写像を組み合わせて用いることによって、詳細化パターンの出現数のみを計数する場合について説明する。 Therefore, in the second embodiment, a case will be described in which only the number of appearances of the detailed pattern is counted by using two maps in combination.
まず、本実施例2に係る系列パターン発見装置の構成について説明する。なお、ここでは説明の便宜上、図1に示した各部と同様の役割を果たす機能部については同一符号を付すこととしてその詳細な説明を省略する。図7は、本実施例2に係る系列パターン発見装置の構成を示す機能ブロック図である。同図に示すように、この系列パターン発見装置200は、系列データ記憶部110と、テンプレート生成部120と、写像生成部230と、系列パターン計数部240と、系列パターン出力部160とを有する。
First, the configuration of the sequence pattern finding apparatus according to the second embodiment will be described. Here, for convenience of explanation, functional units that play the same functions as the respective units shown in FIG. FIG. 7 is a functional block diagram of the configuration of the sequence pattern finding apparatus according to the second embodiment. As shown in the figure, the sequence
写像生成部230は、テンプレート生成部120によって生成されたテンプレートに基づいて、系列データから一般化パターン番号を算出するための写像(以下、一般化写像)を生成し、また、所定の選択項目値から詳細化パターン番号を算出するための写像(以下、詳細化写像)を生成する処理部である。ここで、一般化パターン番号とは、テンプレートによって定義される一般化パターンを一意に識別するための識別番号であり、詳細化パターン番号とは、所定の選択項目値に基づいて一般化パターンを詳細化して得られる詳細化パターンを一意に識別するための識別番号である。なお、ここで生成する一般化写像については、実施例1で示した写像生成部130において説明した一般化写像と同様であるため説明を省略し、ここでは、詳細化写像の生成方法について説明する。
Based on the template generated by the
写像生成部230は、まず、テンプレート生成部120により生成されたテンプレートXを取得し、取得したテンプレートXに基づいて一般化写像fX(D)を生成した後に、詳細化写像gX(D)を生成する。
The
例えば、以下に示すテンプレートXEに基づいて生成する詳細化写像gXE(D)を、以下の式で定義する。 For example, a refined map g XE (D) generated based on the template X E shown below is defined by the following equation.
上記の式(XEの式)において、Σは、「0」,「1」,「2」,「3」,「4」のいずれかが設定されることを表している(数式(2)のΣを参照)。また、[1],[0]は、任意項目値または選択項目値を表す記号「*」に対して、右から左へ順番に付与した0から始まる通番であり、上記gXE(DE)の式のd[1],d[0]は、それぞれ、テンプレートXEで定義された*[1],*[0]と同じ位置にある系列データDEの項目値、すなわち、d4,d1を示している。 In the above formula (X E formula), Σ represents that any one of “0”, “1”, “2”, “3”, “4” is set (formula (2)). (See Σ). [1] and [0] are serial numbers starting from 0 assigned to the symbol “*” representing an arbitrary item value or a selected item value in order from right to left, and the above g XE (D E ) D [1] and d [0] in the equation (1) are the item values of the series data D E at the same positions as * [1] and * [0] defined in the template X E , that is, d 4 , It shows d 1.
また、上記m(x)の式は、項目値xに対して、選択項目値の集合Πmに含まれる選択項目値(数式(2)を参照)に応じて0から始まる通番を割り当てるための式であり、項目値xが選択項目値{0,1}に含まれる場合はm(x)=「0」となり、xが{2}に含まれる場合はm(x)=「1」となり、xが{3,4}に含まれる場合はm(x)=「2」となることを示している。例えば、x=d4=1であった場合は、m(d4)=0となり、x=d1=4であった場合は、m(d1)=2となる。 Further, the above m (x) formula is for assigning a serial number starting from 0 to the item value x according to the selection item value (see Equation (2)) included in the selection item value set Π m . When the item value x is included in the selection item value {0, 1}, m (x) = “0”, and when x is included in {2}, m (x) = “1”. , X is included in {3, 4}, it indicates that m (x) = “2”. For example, when x = d 4 = 1, m (d 4 ) = 0, and when x = d 1 = 4, m (d 1 ) = 2.
また、上記gXE(DE)の式において、各項目値m(d4),m(d1)に乗じている3j(j=1,0)は、「3」が、選択項目値の集合Πmに含まれる選択項目値の数({0,1},{2},{3,4}の3つ)で決められ(数式(2)のΠmを参照)、指数jが、テンプレートXEにおいて任意項目値または選択項目値を表す記号「*」に付与した通番([1],[0])で決められる。 In the above equation of g XE (D E ), “3” is the selected item value for 3 j (j = 1, 0) multiplied by the item values m (d 4 ) and m (d 1 ). Is determined by the number of selection item values (three of {0, 1}, {2}, {3, 4}) included in the set Π m (see Π m in equation (2)), and the index j is , serial number granted to the symbol "*" representing any item values or selection items value in template X E ([1], [ 0]) is determined by.
この写像例gXE(DE)により、例えば、系列データが With this mapping example g XE (D E ), for example, the series data is
DE=<3 1 3 1 4 0> D E = <3 1 3 1 4 0>
であった場合は、 If it was
gXE(DE)=0×31+2×30
=2
g XE (D E ) = 0 × 3 1 + 2 × 3 0
= 2
となり、詳細化パターン番号は「2」となる。 Thus, the detailed pattern number is “2”.
なお、ここでは、抽出する系列パターンの長さlが「6」、抽出する系列パターンに含まれる任意項目値または選択項目値の数kが「2」、選択項目値の集合Πmに含まれる選択項目値の数が「3」である場合の詳細化写像の生成について説明したが、本発明はこれに限定されるものではなく、上述したように、詳細化写像は、l、kおよびΠmに設定される値に応じて、適宜生成されるものである。 Here, the length l of the sequence pattern to be extracted is “6”, the number k of arbitrary item values or selection item values included in the sequence pattern to be extracted is “2”, and is included in the set 選 択m of selection item values. Although the generation of the detailed mapping when the number of selection item values is “3” has been described, the present invention is not limited to this, and as described above, the detailed mapping includes l, k, and Π. According to the value set in m , it is generated appropriately.
系列パターン計数部240は、系列データ記憶部110に記憶された系列データを読み出し、写像生成部230により生成された一般化写像および詳細化写像を用いて、読み出した系列データがマッチする詳細化パターンの出現数を計数する処理部である。具体的には、この系列パターン計数部240は、テンプレート生成部120で生成されたテンプレートXごとに、一般化パターン番号と詳細化パターン参照ポインタとを対応付けたパターンテーブルを生成する。ここで、詳細化パターン参照ポインタとは、一般化パターン番号と、後述する詳細化パターンテーブルとを対応付けるためのポインタである。ここで、一般化パターン番号とは、前述した一般化写像fX(D)によって導出される一般化パターン番号に対応するものであり、0から始まる通番となる。また、パターンカウンタは、一般化パターン番号と詳細化パターン番号の組ごとに、系列データ記憶部110に記憶された系列データにおける、詳細化パターンの出現数を計数するためのカウンタである。
The sequence
例えば、前述したテンプレート For example, the template mentioned above
XE=<x5 * x3 x2 * x0> X E = <x 5 * x 3 x 2 * x 0 >
に対するパターンテーブルでは、54(=625)個のパターン番号、すなわち「0」〜「624」のパターン番号と、パターンカウンタとが対応付けられている。そして、かかるパターン番号およびパターンカウンタの数は、テンプレートXEから生成される一般化パターンのパターン数と同数となる。 In this pattern table, 5 4 (= 625) pattern numbers, that is, pattern numbers “0” to “624” are associated with the pattern counter. Then, the number of such pattern number and the pattern counter is a pattern as many generalized pattern generated from the template X E.
さらに、系列パターン計数部240は、パターンテーブルに設定した一般化パターン番号ごとに、詳細化パターン番号と詳細化パターンカウンタとを対応付けた詳細化パターンテーブルを備える。詳細化パターンテーブルは、前述した詳細化パターン参照ポインタによって、パターンテーブルの一般化パターン番号ごとに対応付けられる。
Further, the series
ここで、詳細化パターン番号とは、前述した詳細化写像gXE(DE)によって導出される詳細化パターン番号に対応するものであり、0から始まる通番となる。また、詳細化パターンカウンタは、詳細化パターン番号ごとに、系列データ記憶部110に記憶された系列データにおける、詳細化パターンの出現数を計数するためのカウンタである。
Here, the detailed pattern number corresponds to the detailed pattern number derived from the above-described detailed map g XE (D E ), and is a serial number starting from 0. The detailed pattern counter is a counter for counting the number of appearances of the detailed pattern in the sequence data stored in the sequence
図8は、本実施例2に係る系列パターン計数部240によって用いられる詳細化パターンテーブルの一例を示す図である。例えば、同図に示すように、前述したパターンテンプレート
FIG. 8 is a diagram illustrating an example of a detailed pattern table used by the sequence
XE=<x5 * x3 x2 * x0> X E = <x 5 * x 3 x 2 * x 0 >
に対するパターンテーブルに含まれるパターン場の具455に対する詳細化パターンテーブルでは、32(=9)個の詳細化パターン番号、すなわち「0」〜「8」の詳細化パターン番号と、詳細化パターンカウンタとが対応付けられている。そして、かかる詳細化パターン番号および詳細化パターンカウンタの数は、テンプレートXEから生成される詳細化パターンのパターン数と同数となる。
In the refined pattern table for the
系列パターン計数部240は、詳細化パターンテーブルの詳細化パターンカウンタを初期化(「0」を設定)した後に、系列データ記憶部110により記憶された系列データDを順次読み出し、写像生成部230により生成された一般化写像fX(D)および詳細化写像gX(D)を用いて詳細化パターン番号を導出し、導出した詳細化パターン番号に対応する詳細化パターンテーブルの詳細化パターンカウンタに「1」を加算する。
The sequence
例えば、前述した系列データ For example, the series data mentioned above
DE=<3 1 3 1 4 0> D E = <3 1 3 1 4 0>
を読み出した場合は、 Is read out,
fXE(DE)=455 , gXE(DE)=2 f XE (D E ) = 455, g XE (D E ) = 2
となることより、系列パターン計数部240は、パターンテーブルの、一般化パターン番号「455」に対応する詳細化パターン参照ポインタを参照し、そのポインタで対応付けられた詳細化パターンテーブルの、詳細化パターン番号「2」に対応する詳細化パターンカウンタに「1」を加算する(図3に示すカウント2)。
Thus, the sequence
こうして、パターン計数部240は、テンプレート生成部120により生成された全てのテンプレートに対して、上述したパターンテーブルおよび詳細化パターンテーブルの生成と、一般化写像および詳細化写像を用いた詳細化パターンカウンタの加算とを行う。
In this way, the
系列パターン出力部160は、系列パターン計数部240によって生成された詳細化パターンテーブルから、詳細化パターンカウンタが所定の閾値以上である詳細化パターンを抽出し、抽出した詳細化パターンを抽出結果として、例えばディスプレイ装置などの出力装置に出力する処理部である。
The sequence
上述してきたように、本実施例2では、写像生成部230が、系列データに含まれる項目値から詳細化パターンを一意に識別する詳細化パターン番号を導出する詳細化写像を生成し、系列パターン計数部240が、詳細化パターンと、詳細化写像を用いて導出される詳細化パターン番号と、詳細化パターンにマッチする系列データの数を計数する詳細化パターンカウンタとを詳細化パターンごとに対応付けた詳細化パターンテーブルをクリアし、記憶している系列データを順次読み出すとともに、詳細化写像を用いて詳細化パターン番号を導出し、導出した詳細化パターン番号に基づいて詳細化パターンテーブルの詳細化パターンカウンタを計数することとしたので、頻出する可能性のある系列パターン群を生成するたびに系列データを全て読み出して当該系列パターンの出現数を計数するのではなく、一般化写像および詳細化写像を生成するたびに系列データを全て読み出すことによって、同じ写像の組で表される全ての詳細化パターンの出現数が一括して計数される。この結果、候補パターン数の爆発に影響されず、決まった回数だけ系列データを走査すれば頻出する一般化パターン発見が完了するので、処理時間が閾値に影響されないという効果を奏する。
As described above, in the second embodiment, the
なお、本実施例1および2において図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。 In addition, each component of each apparatus illustrated in the first and second embodiments is functionally conceptual and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured.
また、本実施例1および2では、系列パターン発見装置100および200について説明したが、系列パターン発見装置100および200が有する構成をソフトウェアによって実現することで、同様の機能を有する系列パターン発見プログラムを得ることができる。そこで、この系列パターン発見プログラムを実行するコンピュータについて説明する。
Further, in the first and second embodiments, the sequence
図9は、本実施例1および2に係る系列パターン発見プログラムを実行するコンピュータの構成を示す機能ブロック図である。同図に示すように、このコンピュータ300は、RAM310と、CPU320と、HDD330と、LANインタフェース340と、入出力インタフェース350と、DVDドライブ360とを有する。
FIG. 9 is a functional block diagram illustrating the configuration of the computer that executes the sequence pattern finding program according to the first and second embodiments. As shown in the figure, the
RAM310は、プログラムやプログラムの実行途中結果などを記憶するメモリであり、CPU320は、RAM310からプログラムを読み出して実行する中央処理装置である。
The
HDD330は、プログラムやデータを格納するディスク装置であり、LANインタフェース340は、コンピュータ300をLAN経由で他のコンピュータに接続するためのインタフェースである。
The
入出力インタフェース350は、マウスやキーボードなどの入力装置および表示装置を接続するためのインタフェースであり、DVDドライブ360は、DVDの読み書きを行う装置である。
The input /
そして、このコンピュータ300において実行される系列パターン発見プログラム311は、DVDに記憶され、DVDドライブ360によってDVDから読み出されてコンピュータ300にインストールされる。
The sequence
あるいは、この系列パターン発見プログラム311は、LANインタフェース340を介して接続された他のコンピュータシステムのデータベースなどに記憶され、これらのデータベースから読み出されてコンピュータ300にインストールされる。
Alternatively, this sequence
そして、インストールされた系列パターン発見プログラム311は、HDD330に記憶され、RAM310に読み出されてCPU320によって系列パターン発見プロセス321として実行される。
The installed sequence
また、本実施例1および2では、日々の株価の終値を蓄積した時系列データから、その系列パターンを抽出する場合について説明したが、本発明はこれに限定されるものではなく、例えば小売店の売上データや、クレジットカードの利用履歴などの系列データから、その系列パターンを抽出する場合にも同様に適用することができる。 Further, in the first and second embodiments, the case where the series pattern is extracted from the time series data in which the closing price of the daily stock price is accumulated has been described. However, the present invention is not limited to this. The same can be applied to the case of extracting the series pattern from the series data such as the sales data and the credit card usage history.
(付記1)変動する項目値を順番に並べた系列データから、該系列データに頻繁に出現している系列パターンを抽出する系列パターン発見プログラムであって、
系列パターン抽出の対象となる系列データを記憶装置に記憶する系列データ記憶手順と、
任意の項目値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、前記系列データ記憶手順により記憶された系列データを順次読み出して、該系列データがマッチする一般化パターンの出現数を計数する系列パターン計数手順と、
前記系列パターン計数手順により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値に、許容する値を選択した選択項目値を設定して系列パターンを逐次生成し、前記系列データ記憶手順により記憶された系列データを順次読み出して該系列パターンと照合することにより、該系列データがマッチする系列パターンの出現数を計数する系列パターン発見手順と、
前記系列パターン発見手順により計数された出現数が所定の閾値以上である系列パターンを抽出結果の系列パターンとして出力する系列パターン出力手順と、
をコンピュータに実行させることを特徴とする系列パターン発見プログラム。
(Supplementary note 1) A sequence pattern finding program for extracting a sequence pattern frequently appearing in the sequence data from the sequence data in which fluctuating item values are arranged in order,
A sequence data storage procedure for storing sequence data to be sequence pattern extracted in a storage device;
A general pattern in which an arbitrary item value that allows an arbitrary item value and a series pattern including only the item value is defined as a generalized pattern, and the series data stored by the sequence data storage procedure is sequentially read and the series data matches A sequence pattern counting procedure for counting the number of occurrences of the digitized pattern;
A generalized pattern in which the number of occurrences counted by the sequence pattern counting procedure is equal to or greater than a predetermined threshold is extracted, and a selection item value in which an allowable value is selected is set as an arbitrary item value included in the extracted generalized pattern Sequence pattern generation, and sequentially reading the sequence data stored by the sequence data storage procedure and collating it with the sequence pattern, thereby counting the number of occurrences of the sequence pattern matching the sequence data Procedure and
A sequence pattern output procedure for outputting a sequence pattern whose number of occurrences counted by the sequence pattern discovery procedure is equal to or greater than a predetermined threshold as a sequence pattern of an extraction result;
A sequence pattern finding program characterized in that a computer is executed.
(付記2)前記系列パターン計数手順は、
前記系列パターンを一意に識別する一般化パターン番号と、該一般化パターンの出現数を計数するための一般化パターンカウンタとを対応付けた一般化パターンテーブルを備え、
前記系列データから前記一般化パターン番号を導出するための写像である一般化写像を生成する一般化写像生成手順と、
前記系列データ記憶手順により記憶された系列データを順次読み出すとともに、該読み出した系列データから前記一般化写像を用いて前記一般化パターン番号を導出し、前記一般化パターンテーブルの、該導出した一般化パターン番号に対応する一般化パターンカウンタをカウントアップする一般化パターンカウンタ計数手順と、
をコンピュータに実行させることを特徴とする付記1に記載の系列パターン発見プログラム。
(Supplementary Note 2) The sequence pattern counting procedure is as follows:
A generalized pattern table associating a generalized pattern number for uniquely identifying the sequence pattern with a generalized pattern counter for counting the number of occurrences of the generalized pattern;
A generalized map generation procedure for generating a generalized map that is a map for deriving the generalized pattern number from the sequence data;
The sequence data stored by the sequence data storage procedure is sequentially read out, the generalized pattern number is derived from the read sequence data using the generalized mapping, and the derived generalization of the generalized pattern table is derived. A generalized pattern counter counting procedure for counting up the generalized pattern counter corresponding to the pattern number;
The sequence pattern finding program according to
(付記3)前記系列パターン発見手順は、
前記系列パターン計数手順により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値の一つに選択項目値を設定することによって系列パターンを逐次生成し、
該逐次生成した系列パターンと、前記系列データ記憶手順により記憶された系列データとを照合することにより、該系列データがマッチする系列パターンの出現数を計数し、
該計数した出現数が所定の閾値以上である系列パターンを抽出し、該抽出した系列パターンに含まれる任意項目値の一つに選択項目値を設定することによってさらに系列パターンを詳細化し、
該詳細化した系列パターンと、前記系列データ記憶手順により記憶された系列データとを照合することにより、該系列データがマッチする系列パターンの出現数を計数し、
該系列パターンに含まれる全ての任意項目値に選択項目値を設定するまで、前記系列パターンの詳細化と、前記系列パターンの出現数の計数とを繰り返すことを特徴とする付記1または2に記載の系列パターン発見プログラム。
(Supplementary Note 3) The sequence pattern discovery procedure is as follows:
A generalized pattern in which the number of occurrences counted by the sequence pattern counting procedure is equal to or greater than a predetermined threshold is extracted, and a sequence is set by setting a selection item value as one of the arbitrary item values included in the extracted generalized pattern Generate patterns sequentially,
By comparing the sequentially generated sequence pattern with the sequence data stored by the sequence data storage procedure, the number of occurrences of the sequence pattern matching the sequence data is counted,
Extracting a series pattern in which the counted number of occurrences is equal to or greater than a predetermined threshold, further refine the series pattern by setting a selection item value to one of the arbitrary item values included in the extracted series pattern,
By collating the detailed sequence pattern with the sequence data stored by the sequence data storage procedure, the number of occurrences of the sequence pattern matching the sequence data is counted,
(付記4)前記系列パターン計数手順は、
許容する値を選択した選択項目値と項目値のみを含んだ系列パターンを詳細化パターンとして定義し、
前記詳細化パターンを一意に識別する詳細化パターン番号と、該詳細化パターンの出現数を計数するための詳細化パターンカウンタとを対応付けた詳細化パターンテーブルを備え、
前記系列データに含まれる項目値から前記詳細化パターン番号を導出するための写像である詳細化写像を生成する詳細化写像生成手順と、
前記系列データ記憶手順により記憶された系列データを順次読み出すとともに、該読み出した系列データから前記詳細化写像を用いて前記詳細化パターン番号を導出し、前記詳細化パターンテーブルの、該導出した詳細化パターン番号に対応する詳細化パターンカウンタをカウントアップする詳細化パターンカウンタ計数手順と、
をコンピュータに実行させることを特徴とする付記1または2に記載の系列パターン発見プログラム。
(Supplementary Note 4) The sequence pattern counting procedure is as follows:
Define a series pattern that includes only the selected item value and the item value that have selected acceptable values as a refinement pattern,
A detailed pattern table in which a detailed pattern number for uniquely identifying the detailed pattern is associated with a detailed pattern counter for counting the number of appearances of the detailed pattern;
A detailed map generation procedure for generating a detailed map that is a map for deriving the detailed pattern number from the item value included in the series data;
The sequence data stored by the sequence data storage procedure is sequentially read out, the detailed pattern number is derived from the read sequence data by using the detailed mapping, and the derived detail of the detailed pattern table is derived. A detailed pattern counter counting procedure for counting up the detailed pattern counter corresponding to the pattern number;
The sequence pattern finding program according to
(付記5)前記系列データ記憶手順は、連続して変化する値を離散化し、該離散化した間隔ごとの値を項目値として順番に並べた系列データをパターン抽出の対照として記憶することを特徴とする付記1〜4のいずれか一つに記載の系列パターン発見プログラム。
(Supplementary note 5) The sequence data storing procedure includes discretizing continuously changing values, and storing the sequence data in which the values for the discrete intervals are arranged in order as item values, as a reference for pattern extraction. The sequence pattern discovery program according to any one of
(付記6)前記系列パターン発見手順は、前記系列データ記憶手順により記憶された系列データを読み出すとともに、拡張Shift−And法による文字列照合アルゴリズムを用いて、該系列データがマッチする前記詳細化パターンの出現数を計数することを特徴とする付記1、2または3に記載の系列パターン発見プログラム。
(Supplementary Note 6) The detailed pattern in which the sequence pattern finding procedure reads the sequence data stored by the sequence data storage procedure and matches the sequence data using a character string matching algorithm based on the extended Shift-And method. 4. The sequence pattern finding program according to
(付記7)変動する項目値を順番に並べた系列データから、該系列データに頻繁に出現している系列パターンを抽出する系列パターン発見方法であって、
系列パターン抽出の対象となる系列データを記憶装置に記憶する系列データ記憶工程と、
任意の項目値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、前記系列データ記憶工程により記憶された系列データを順次読み出して、該系列データがマッチする一般化パターンの出現数を計数する系列パターン計数工程と、
前記系列パターン計数工程により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値に、許容する値を選択した選択項目値を設定して系列パターンを逐次生成し、前記系列データ記憶工程により記憶された系列データを順次読み出して該系列パターンと照合することにより、該系列データがマッチする系列パターンの出現数を計数する系列パターン発見工程と、
前記系列パターン発見工程により計数された出現数が所定の閾値以上である系列パターンを抽出結果の系列パターンとして出力する系列パターン出力工程と、
を含んだことを特徴とする系列パターン発見方法。
(Supplementary note 7) A sequence pattern finding method for extracting a sequence pattern that frequently appears in the sequence data from the sequence data in which fluctuating item values are arranged in order,
A sequence data storage step of storing in the storage device the sequence data to be sequence pattern extracted;
A general pattern in which an arbitrary item value that allows an arbitrary item value and a series pattern including only the item value is defined as a generalized pattern, and the series data stored in the series data storage step is sequentially read and the series data is matched. A sequence pattern counting step for counting the number of occurrences of the digitized pattern;
A generalized pattern in which the number of occurrences counted in the sequence pattern counting step is equal to or greater than a predetermined threshold is extracted, and a selection item value in which an allowable value is selected is set as an arbitrary item value included in the extracted generalized pattern Then, the sequence pattern is sequentially generated, and the sequence data stored in the sequence data storing step is sequentially read out and collated with the sequence pattern, thereby counting the number of occurrences of the sequence pattern matching the sequence data. Process,
A sequence pattern output step of outputting a sequence pattern whose number of occurrences counted by the sequence pattern discovery step is equal to or greater than a predetermined threshold as a sequence pattern of an extraction result;
A sequence pattern finding method characterized by including
(付記8)変動する項目値を順番に並べた系列データから、該系列データに頻繁に出現している系列パターンを抽出する系列パターン発見装置であって、
系列パターン抽出の対象となる系列データを記憶装置に記憶する系列データ記憶手段と、
任意の項目値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、前記系列データ記憶手段により記憶された系列データを順次読み出して、該系列データがマッチする一般化パターンの出現数を計数する系列パターン計数手段と、
前記系列パターン計数手段により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値に、許容する値を選択した選択項目値を設定して系列パターンを逐次生成し、前記系列データ記憶手段により記憶された系列データを順次読み出して該系列パターンと照合することにより、該系列データがマッチする系列パターンの出現数を計数する系列パターン発見手段と、
前記系列パターン発見手段により計数された出現数が所定の閾値以上である系列パターンを抽出結果の系列パターンとして出力する系列パターン出力手段と、
を備えたことを特徴とする系列パターン発見装置。
(Supplementary note 8) A sequence pattern finding device for extracting a sequence pattern that frequently appears in the sequence data from the sequence data in which the fluctuating item values are arranged in order,
Sequence data storage means for storing sequence data to be sequence pattern extracted in a storage device;
A general pattern in which an arbitrary item value that allows an arbitrary item value and a series pattern including only the item value is defined as a generalized pattern, and the series data stored by the series data storage unit is sequentially read and the series data is matched. A sequence pattern counting means for counting the number of occurrences of the digitized pattern;
A generalized pattern in which the number of appearances counted by the sequence pattern counting unit is equal to or greater than a predetermined threshold is extracted, and a selection item value in which an allowable value is selected is set as an arbitrary item value included in the extracted generalized pattern Then, the sequence pattern is sequentially generated, and the sequence data stored in the sequence data storage means is sequentially read out and collated with the sequence pattern, thereby counting the number of occurrences of the sequence pattern matching the sequence data. Means,
Sequence pattern output means for outputting a sequence pattern in which the number of occurrences counted by the sequence pattern finding means is equal to or greater than a predetermined threshold as a sequence pattern of an extraction result;
A sequence pattern finding device characterized by comprising:
以上のように、本発明に係る系列パターン発見プログラム、系列パターン発見方法および系列パターン発見装置は、変動する項目値を順番に並べた系列データから、該系列データに頻繁に出現している系列パターンを抽出するに有用であり、特に、抽出対象のデータ量が膨大である場合に適している。 As described above, the sequence pattern discovery program, the sequence pattern discovery method, and the sequence pattern discovery device according to the present invention provide a sequence pattern that frequently appears in sequence data from sequence data in which fluctuating item values are arranged in order. Is particularly useful when the amount of data to be extracted is enormous.
100、200 系列パターン発見装置
110 系列データ記憶部
120 パターンテンプレート生成部
130、230 写像生成部
140、240 パターン計数部
150 詳細化パターン計数部
160、260 パターン出力部
300 コンピュータ
310 RAM
311 系列パターン発見プログラム
320 CPU
321 系列パターン発見プロセス
330 HDD
340 LANインタフェース
350 入出力インタフェース
360 DVDドライブ
100, 200 Sequence
311 Sequence
321 Sequence
340 LAN interface 350 I /
Claims (7)
系列パターン抽出の対象となる系列データを記憶装置に記憶する系列データ記憶手順と、
任意の項目値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、前記系列データ記憶手順により記憶された系列データを順次読み出して、該系列データがマッチする一般化パターンの出現数を計数する系列パターン計数手順と、
前記系列パターン計数手順により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値に、許容する値を選択した選択項目値を設定して系列パターンを逐次生成し、前記系列データ記憶手順により記憶された系列データを順次読み出して該系列パターンと照合することにより、該系列データがマッチする系列パターンの出現数を計数する系列パターン発見手順と、
前記系列パターン発見手順により計数された出現数が所定の閾値以上である系列パターンを抽出結果の系列パターンとして出力する系列パターン出力手順と、
をコンピュータに実行させることを特徴とする系列パターン発見プログラム。 A sequence pattern discovery program for extracting a sequence pattern that frequently appears in the sequence data from the sequence data in which the fluctuating item values are arranged in order,
A sequence data storage procedure for storing sequence data to be sequence pattern extracted in a storage device;
A general pattern in which an arbitrary item value that allows an arbitrary item value and a series pattern including only the item value is defined as a generalized pattern, and the series data stored by the sequence data storage procedure is sequentially read and the series data matches A sequence pattern counting procedure for counting the number of occurrences of the digitized pattern;
A generalized pattern in which the number of occurrences counted by the sequence pattern counting procedure is equal to or greater than a predetermined threshold is extracted, and a selection item value in which an allowable value is selected is set as an arbitrary item value included in the extracted generalized pattern Sequence pattern generation, and sequentially reading the sequence data stored by the sequence data storage procedure and collating it with the sequence pattern, thereby counting the number of occurrences of the sequence pattern matching the sequence data Procedure and
A sequence pattern output procedure for outputting a sequence pattern whose number of occurrences counted by the sequence pattern discovery procedure is equal to or greater than a predetermined threshold as a sequence pattern of an extraction result;
A sequence pattern finding program characterized in that a computer is executed.
前記系列パターンを一意に識別する一般化パターン番号と、該一般化パターンの出現数を計数するための一般化パターンカウンタとを対応付けた一般化パターンテーブルを備え、
前記系列データから前記一般化パターン番号を導出するための写像である一般化写像を生成する一般化写像生成手順と、
前記系列データ記憶手順により記憶された系列データを順次読み出すとともに、該読み出した系列データから前記一般化写像を用いて前記一般化パターン番号を導出し、前記一般化パターンテーブルの、該導出した一般化パターン番号に対応する一般化パターンカウンタをカウントアップする一般化パターンカウンタ計数手順と、
をコンピュータに実行させることを特徴とする請求項1に記載の系列パターン発見プログラム。 The sequence pattern counting procedure includes:
A generalized pattern table associating a generalized pattern number for uniquely identifying the sequence pattern with a generalized pattern counter for counting the number of occurrences of the generalized pattern;
A generalized map generation procedure for generating a generalized map that is a map for deriving the generalized pattern number from the sequence data;
The sequence data stored by the sequence data storage procedure is sequentially read out, the generalized pattern number is derived from the read sequence data using the generalized mapping, and the derived generalization of the generalized pattern table is derived. A generalized pattern counter counting procedure for counting up the generalized pattern counter corresponding to the pattern number;
The sequence pattern finding program according to claim 1, wherein:
前記系列パターン計数手順により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値の一つに選択項目値を設定することによって系列パターンを逐次生成し、
該逐次生成した系列パターンと、前記系列データ記憶手順により記憶された系列データとを照合することにより、該系列データがマッチする系列パターンの出現数を計数し、
該計数した出現数が所定の閾値以上である系列パターンを抽出し、該抽出した系列パターンに含まれる任意項目値の一つに選択項目値を設定することによってさらに系列パターンを詳細化し、
該詳細化した系列パターンと、前記系列データ記憶手順により記憶された系列データとを照合することにより、該系列データがマッチする系列パターンの出現数を計数し、
該系列パターンに含まれる全ての任意項目値に選択項目値を設定するまで、前記系列パターンの詳細化と、前記系列パターンの出現数の計数とを繰り返すことを特徴とする請求項1または2に記載の系列パターン発見プログラム。 The sequence pattern discovery procedure includes:
A generalized pattern in which the number of occurrences counted by the sequence pattern counting procedure is equal to or greater than a predetermined threshold is extracted, and a sequence is set by setting a selection item value as one of the arbitrary item values included in the extracted generalized pattern Generate patterns sequentially,
By comparing the sequentially generated sequence pattern with the sequence data stored by the sequence data storage procedure, the number of occurrences of the sequence pattern matching the sequence data is counted,
Extracting a series pattern in which the counted number of occurrences is equal to or greater than a predetermined threshold, further refine the series pattern by setting a selection item value to one of the arbitrary item values included in the extracted series pattern,
By collating the detailed sequence pattern with the sequence data stored by the sequence data storage procedure, the number of occurrences of the sequence pattern matching the sequence data is counted,
3. The method according to claim 1, wherein detailing of the sequence pattern and counting of the number of appearances of the sequence pattern are repeated until selection item values are set for all arbitrary item values included in the sequence pattern. The described series pattern discovery program.
許容する値を選択した選択項目値と項目値のみを含んだ系列パターンを詳細化パターンとして定義し、
前記詳細化パターンを一意に識別する詳細化パターン番号と、該詳細化パターンの出現数を計数するための詳細化パターンカウンタとを対応付けた詳細化パターンテーブルを備え、
前記系列データに含まれる項目値から前記詳細化パターン番号を導出するための写像である詳細化写像を生成する詳細化写像生成手順と、
前記系列データ記憶手順により記憶された系列データを順次読み出すとともに、該読み出した系列データから前記詳細化写像を用いて前記詳細化パターン番号を導出し、前記詳細化パターンテーブルの、該導出した詳細化パターン番号に対応する詳細化パターンカウンタをカウントアップする詳細化パターンカウンタ計数手順と、
をコンピュータに実行させることを特徴とする請求項1または2に記載の系列パターン発見プログラム。 The sequence pattern counting procedure includes:
Define a series pattern that includes only the selected item value and the item value that have selected acceptable values as a refinement pattern,
A detailed pattern table in which a detailed pattern number for uniquely identifying the detailed pattern is associated with a detailed pattern counter for counting the number of appearances of the detailed pattern;
A detailed map generation procedure for generating a detailed map that is a map for deriving the detailed pattern number from the item value included in the series data;
The sequence data stored by the sequence data storage procedure is sequentially read out, the detailed pattern number is derived from the read sequence data by using the detailed mapping, and the derived detail of the detailed pattern table is derived. A detailed pattern counter counting procedure for counting up the detailed pattern counter corresponding to the pattern number;
3. The sequence pattern finding program according to claim 1, wherein:
系列パターン抽出の対象となる系列データを記憶装置に記憶する系列データ記憶工程と、
任意の項目値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、前記系列データ記憶工程により記憶された系列データを順次読み出して、該系列データがマッチする一般化パターンの出現数を計数する系列パターン計数工程と、
前記系列パターン計数工程により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値に、許容する値を選択した選択項目値を設定して系列パターンを逐次生成し、前記系列データ記憶工程により記憶された系列データを順次読み出して該系列パターンと照合することにより、該系列データがマッチする系列パターンの出現数を計数する系列パターン発見工程と、
前記系列パターン発見工程により計数された出現数が所定の閾値以上である系列パターンを抽出結果の系列パターンとして出力する系列パターン出力工程と、
を含んだことを特徴とする系列パターン発見方法。 A sequence pattern finding method for extracting a sequence pattern that frequently appears in the sequence data from the sequence data in which fluctuating item values are arranged in order,
A sequence data storage step of storing in the storage device the sequence data to be sequence pattern extracted;
A general pattern in which an arbitrary item value that allows an arbitrary item value and a series pattern including only the item value is defined as a generalized pattern, and the series data stored in the series data storage step is sequentially read and the series data is matched. A sequence pattern counting step for counting the number of occurrences of the digitized pattern;
A generalized pattern in which the number of occurrences counted in the sequence pattern counting step is equal to or greater than a predetermined threshold is extracted, and a selection item value in which an allowable value is selected is set as an arbitrary item value included in the extracted generalized pattern Then, the sequence pattern is sequentially generated, and the sequence data stored in the sequence data storing step is sequentially read out and collated with the sequence pattern, thereby counting the number of occurrences of the sequence pattern matching the sequence data. Process,
A sequence pattern output step of outputting a sequence pattern whose number of occurrences counted by the sequence pattern discovery step is equal to or greater than a predetermined threshold as a sequence pattern of an extraction result;
A sequence pattern finding method characterized by including
系列パターン抽出の対象となる系列データを記憶装置に記憶する系列データ記憶手段と、
任意の項目値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、前記系列データ記憶手段により記憶された系列データを順次読み出して、該系列データがマッチする一般化パターンの出現数を計数する系列パターン計数手段と、
前記系列パターン計数手段により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値に、許容する値を選択した選択項目値を設定して系列パターンを逐次生成し、前記系列データ記憶手段により記憶された系列データを順次読み出して該系列パターンと照合することにより、該系列データがマッチする系列パターンの出現数を計数する系列パターン発見手段と、
前記系列パターン発見手段により計数された出現数が所定の閾値以上である系列パターンを抽出結果の系列パターンとして出力する系列パターン出力手段と、
を備えたことを特徴とする系列パターン発見装置。 A sequence pattern finding device for extracting a sequence pattern that frequently appears in the sequence data from the sequence data in which the fluctuating item values are arranged in order,
Sequence data storage means for storing sequence data to be sequence pattern extracted in a storage device;
A general pattern in which an arbitrary item value that allows an arbitrary item value and a series pattern including only the item value is defined as a generalized pattern, and the series data stored by the series data storage unit is sequentially read and the series data is matched. A sequence pattern counting means for counting the number of occurrences of the digitized pattern;
A generalized pattern in which the number of appearances counted by the sequence pattern counting unit is equal to or greater than a predetermined threshold is extracted, and a selection item value in which an allowable value is selected is set as an arbitrary item value included in the extracted generalized pattern Then, the sequence pattern is sequentially generated, and the sequence data stored in the sequence data storage means is sequentially read out and collated with the sequence pattern, thereby counting the number of occurrences of the sequence pattern matching the sequence data. Means,
Sequence pattern output means for outputting a sequence pattern in which the number of occurrences counted by the sequence pattern finding means is equal to or greater than a predetermined threshold as a sequence pattern of an extraction result;
A sequence pattern finding device characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006075292A JP4711863B2 (en) | 2006-03-17 | 2006-03-17 | Sequence pattern discovery program, sequence pattern discovery method, and sequence pattern discovery device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006075292A JP4711863B2 (en) | 2006-03-17 | 2006-03-17 | Sequence pattern discovery program, sequence pattern discovery method, and sequence pattern discovery device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007249835A JP2007249835A (en) | 2007-09-27 |
JP4711863B2 true JP4711863B2 (en) | 2011-06-29 |
Family
ID=38594018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006075292A Expired - Fee Related JP4711863B2 (en) | 2006-03-17 | 2006-03-17 | Sequence pattern discovery program, sequence pattern discovery method, and sequence pattern discovery device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4711863B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2856333A4 (en) | 2012-05-30 | 2015-12-30 | Hewlett Packard Development Co | Field selection for pattern discovery |
-
2006
- 2006-03-17 JP JP2006075292A patent/JP4711863B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007249835A (en) | 2007-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Marteau | Time warp edit distance with stiffness adjustment for time series matching | |
Ding et al. | Querying and mining of time series data: experimental comparison of representations and distance measures | |
US9792388B2 (en) | Pattern extraction apparatus and control method therefor | |
CA2796061C (en) | Ascribing actionable attributes to data that describes a personal identity | |
CN114095270B (en) | Network attack prediction method and device | |
EP3608802A1 (en) | Model variable candidate generation device and method | |
Li et al. | Extracting statistical graph features for accurate and efficient time series classification | |
JP6567484B2 (en) | Estimated model construction system, estimated model construction method and program | |
JP6242540B1 (en) | Data conversion system and data conversion method | |
WO2012153400A1 (en) | Data processing system, data processing method, and program | |
CN111475551A (en) | High average utility sequence pattern mining method under non-overlapping condition | |
Wilson et al. | The motif tracking algorithm | |
CN106599122B (en) | Parallel frequent closed sequence mining method based on vertical decomposition | |
Sarma et al. | Mining time series data with Apriori tid algorithm | |
Fu et al. | Financial Time Series Segmentation based on Specialized Binary Tree Representation. | |
JP4711863B2 (en) | Sequence pattern discovery program, sequence pattern discovery method, and sequence pattern discovery device | |
US20110113006A1 (en) | Business process control apparatus, businesses process control method and business process control program | |
Murugappan et al. | PCFA: mining of projected clusters in high dimensional data using modified FCM algorithm | |
JP7481909B2 (en) | Feature generation method and feature generation device | |
JP2015187773A (en) | Data analysis device, data analysis program, and data analysis method | |
EP4113313A1 (en) | Control method, information processing device, and control program | |
Ibrahim et al. | Towards a new approach to empower periodic pattern mining for massive data using map-reduce | |
US20130185401A1 (en) | Configuration management device, configuration management method, and configuration management program | |
JP7355375B2 (en) | Input item display control system and input item display control method | |
JP2019159362A (en) | Search program and search method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080806 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110315 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110322 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4711863 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |