JP4711863B2 - Sequence pattern discovery program, sequence pattern discovery method, and sequence pattern discovery device - Google Patents

Sequence pattern discovery program, sequence pattern discovery method, and sequence pattern discovery device Download PDF

Info

Publication number
JP4711863B2
JP4711863B2 JP2006075292A JP2006075292A JP4711863B2 JP 4711863 B2 JP4711863 B2 JP 4711863B2 JP 2006075292 A JP2006075292 A JP 2006075292A JP 2006075292 A JP2006075292 A JP 2006075292A JP 4711863 B2 JP4711863 B2 JP 4711863B2
Authority
JP
Japan
Prior art keywords
pattern
sequence
generalized
counting
sequence data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006075292A
Other languages
Japanese (ja)
Other versions
JP2007249835A (en
Inventor
宏弥 稲越
青史 岡本
達哉 浅井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006075292A priority Critical patent/JP4711863B2/en
Publication of JP2007249835A publication Critical patent/JP2007249835A/en
Application granted granted Critical
Publication of JP4711863B2 publication Critical patent/JP4711863B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

この発明は、変動する項目値を順番に並べた系列データから、該系列データに頻繁に出現している系列パターンを抽出する系列パターン発見プログラム、系列パターン発見方法および系列パターン発見装置に関し、特に、系列パターンの出現数を効率良く計数することによって系列パターンの抽出にかかる処理時間を短縮することができる系列パターン発見プログラム、系列パターン発見方法および系列パターン発見装置に関するものである。   The present invention relates to a sequence pattern discovery program, a sequence pattern discovery method, and a sequence pattern discovery device that extract a sequence pattern that frequently appears in the sequence data from sequence data in which fluctuating item values are arranged in order. The present invention relates to a sequence pattern discovery program, a sequence pattern discovery method, and a sequence pattern discovery device that can reduce the processing time required for sequence pattern extraction by efficiently counting the number of occurrences of a sequence pattern.

近年、販売、流通、株式売買等の幅広い分野で、コンピュータなどに蓄積された過去のデータを解析し、そのデータに含まれる項目値間の相関関係やパターンなどを探索するデータマイニングと呼ばれる技術によって意思決定を支援することが行われている。例えば、株式売買の分野においては、過去の株価データから、株価の変動を表す系列パターンを予測し、予測したパターンを株売買のタイミングを決定するための指標として利用している。   In recent years, in a wide range of fields such as sales, distribution, stock trading, etc., a technique called data mining is used to analyze past data accumulated in computers and search for correlations and patterns between item values contained in the data. Supporting decision making is done. For example, in the field of stock trading, a series pattern representing fluctuations in stock prices is predicted from past stock price data, and the predicted pattern is used as an index for determining the timing of stock trading.

このようなパターン予測の技術として、例えば、特許文献1においては、出現した事象を項目値として時系列に並べた時系列データから、各事象が出現する順序を示す時系列パターンを抽出する技術が示されている。この技術では、あらかじめ、出現し得る事象を分類した概念を階層構造で記憶しておき、最下層の概念から順番に時系列データを参照して、それぞれの概念(事象)が出現した頻度を集計する。   As such a pattern prediction technique, for example, in Patent Document 1, there is a technique for extracting a time series pattern indicating the order in which each event appears from time series data in which the appearing events are arranged in time series as item values. It is shown. In this technology, concepts that classify possible events are stored in a hierarchical structure in advance, and the frequency of occurrence of each concept (event) is counted by referring to time-series data in order from the lowest concept. To do.

さらに、概念を時系列に順序だてて組み合わせた時系列パターンについて、組み合わせる概念の個数を増やしながら、時系列データを参照することによってそれぞれの時系列パターンが出現した頻度を集計してゆく。組み合わせる概念の個数を増やす際には、すでに頻度を集計している時系列パターンのうち、頻度が所定の閾値以上であるものに対して新たな概念を1つずつ加えてゆく。こうして、最終的に、所定の閾値以上の頻度で発生した概念(事象)の時系列パターンを抽出する。   Further, with respect to the time series pattern in which the concepts are combined in time series, the frequency of appearance of each time series pattern is totaled by referring to the time series data while increasing the number of concepts to be combined. When increasing the number of concepts to be combined, new concepts are added one by one to a time-series pattern that has already been aggregated in frequency and whose frequency is equal to or greater than a predetermined threshold. In this way, finally, a time series pattern of concepts (events) occurring at a frequency equal to or higher than a predetermined threshold is extracted.

特開2005−84919号公報JP 2005-84919 A

しかしながら、上記の技術においては、それぞれの時系列パターンが出現した頻度を集計する際には、時系列パターンごとに、その都度全ての時系列データを参照するため集計処理に時間がかかり、特に、抽出対象の時系列データの量が膨大である場合や、所定の閾値を小さく設定した場合、概念の階層を深く設定した場合には、業務時間内に処理が終了しないことも発生し得るという問題がある。   However, in the above technique, when the frequency of occurrence of each time series pattern is totaled, it takes time for the totaling process to refer to all the time series data for each time series pattern. If the amount of time-series data to be extracted is enormous, if the predetermined threshold is set small, or if the concept hierarchy is set deep, processing may not end within business hours. There is.

この発明は、上述した従来技術による問題点を解消するためになされたものであり、系列パターンの出現数を効率良く計数することによって系列パターンの抽出にかかる処理時間を短縮することができる系列パターン発見プログラム、系列パターン発見方法および系列パターン発見装置を提供することを目的とする。   The present invention has been made to solve the above-described problems caused by the prior art, and is a sequence pattern that can shorten the processing time required to extract a sequence pattern by efficiently counting the number of occurrences of the sequence pattern. An object is to provide a discovery program, a sequence pattern discovery method, and a sequence pattern discovery device.

上述した課題を解決し、目的を達成するため、請求項1の発明に係る系列パターン発見プログラムは、変動する項目値を順番に並べた系列データから、該系列データに頻繁に出現している系列パターンを抽出する系列パターン発見プログラムであって、系列パターン抽出の対象となる系列データを記憶装置に記憶する系列データ記憶手順と、任意の項目値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、前記系列データ記憶手順により記憶された系列データを順次読み出して、該系列データがマッチする一般化パターンの出現数を計数する系列パターン計数手順と、前記系列パターン計数手順により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値に、許容する値を選択した選択項目値を設定して系列パターンを逐次生成し、前記系列データ記憶手順により記憶された系列データを順次読み出して該系列パターンと照合することにより、該系列データがマッチする系列パターンの出現数を計数する系列パターン発見手順と、前記系列パターン発見手順により計数された出現数が所定の閾値以上である系列パターンを抽出結果の系列パターンとして出力する系列パターン出力手順と、をコンピュータに実行させることを特徴とする。   In order to solve the above-described problems and achieve the object, the sequence pattern finding program according to the invention of claim 1 is a sequence that frequently appears in sequence data from sequence data in which fluctuating item values are arranged in order. A sequence pattern finding program for extracting a pattern, including a sequence data storage procedure for storing sequence data to be sequence pattern extracted in a storage device, and an arbitrary item value and an item value that allow arbitrary item values Defining a sequence pattern as a generalized pattern, sequentially reading out the sequence data stored by the sequence data storage procedure, and counting the number of occurrences of the generalized pattern that matches the sequence data; and the sequence pattern A generalized pattern in which the number of occurrences counted by the counting procedure is equal to or greater than a predetermined threshold is extracted and included in the extracted generalized pattern. By setting a selection item value that selects an allowable value to an arbitrary item value that is generated, sequentially generating a sequence pattern, sequentially reading out the sequence data stored by the sequence data storage procedure, and collating with the sequence pattern, A sequence pattern finding procedure for counting the number of occurrences of a sequence pattern that matches the sequence data, and a sequence for outputting a sequence pattern in which the number of occurrences counted by the sequence pattern finding procedure is equal to or greater than a predetermined threshold as a sequence pattern of an extraction result A pattern output procedure is executed by a computer.

また、請求項2の発明に係る系列パターン発見プログラムは、請求項1の発明において、前記系列パターン計数手順は、前記一般化パターンを一意に識別する一般化パターン番号と、該一般化パターンの出現数を計数するための一般化パターンカウンタとを対応付けた一般化パターンテーブルを備え、前記系列データから前記一般化パターン番号を導出するための写像である一般化写像を生成する一般化写像生成手順と、前記系列データ記憶手順により記憶された系列データを順次読み出すとともに、該読み出した系列データから前記一般化写像を用いて前記一般化パターン番号を導出し、前記一般化パターンテーブルの、該導出した一般化パターン番号に対応する一般化パターンカウンタをカウントアップする一般化パターンカウンタ計数手順と、をコンピュータに実行させることを特徴とする。   According to a second aspect of the invention, there is provided the sequence pattern finding program according to the first aspect, wherein the sequence pattern counting procedure includes a generalized pattern number for uniquely identifying the generalized pattern and the appearance of the generalized pattern. A generalized map generation procedure for generating a generalized map which is a map for deriving the generalized pattern number from the sequence data, comprising a generalized pattern table associated with a generalized pattern counter for counting numbers And sequentially reading out the sequence data stored by the sequence data storage procedure, deriving the generalized pattern number from the read sequence data using the generalized mapping, and deriving the derived generalization pattern table Generalized pattern counter counts up the generalized pattern counter corresponding to the generalized pattern number Characterized in that to execute the order, to the computer.

また、請求項3の発明に係る系列パターン発見プログラムは、請求項1または2の発明において、前記系列パターン発見手順は、前記系列パターン計数手順により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値の一つに選択項目値を設定することによって系列パターンを逐次生成し、該逐次生成した系列パターンと、前記系列データ記憶手順により記憶された系列データとを照合することにより、該系列データがマッチする系列パターンの出現数を計数し、該計数した出現数が所定の閾値以上である系列パターンを抽出し、該抽出した系列パターンに含まれる任意項目値の一つに選択項目値を設定することによってさらに系列パターンを詳細化し、該詳細化した系列パターンと、前記系列データ記憶手順により記憶された系列データとを照合することにより、該系列データがマッチする系列パターンの出現数を計数し、該系列パターンに含まれる全ての任意項目値に選択項目値を設定するまで、前記系列パターンの詳細化と、前記系列パターンの出現数の計数とを繰り返すことを特徴とする。   According to a third aspect of the present invention, there is provided the sequence pattern finding program according to the first or second aspect, wherein the number of occurrences counted by the sequence pattern counting procedure is greater than or equal to a predetermined threshold value. A sequence pattern is generated by setting a selected item value to one of the arbitrary item values included in the extracted generalized pattern, and the sequence data storage procedure By comparing the sequence data stored in step (2), the number of occurrences of the sequence pattern that matches the sequence data is counted, the sequence pattern in which the counted occurrence number is equal to or greater than a predetermined threshold is extracted, and the extracted sequence The series pattern is further refined by setting the selection item value to one of the arbitrary item values included in the pattern, and the detailed series pattern is displayed. And the sequence data stored by the sequence data storage procedure, the number of occurrences of the sequence pattern that matches the sequence data is counted, and selection items are selected for all arbitrary item values included in the sequence pattern. Until the value is set, detailing of the sequence pattern and counting of the number of appearances of the sequence pattern are repeated.

また、請求項4の発明に係る系列パターン発見プログラムは、請求項1または2の発明において、前記系列パターン計数手順は、許容する値を選択した選択項目値と項目値のみを含んだ系列パターンを詳細化パターンとして定義し、前記詳細化パターンを一意に識別する詳細化パターン番号と、該詳細化パターンの出現数を計数するための詳細化パターンカウンタとを対応付けた詳細化パターンテーブルを備え、前記系列データから前記詳細化パターン番号を導出するための写像である詳細化写像を生成する詳細化写像生成手順と、前記系列データ記憶手順により記憶された系列データを順次読み出すとともに、該読み出した系列データから前記詳細化写像を用いて前記詳細化パターン番号を導出し、前記詳細化パターンテーブルの、該導出した詳細化パターン番号に対応する詳細化パターンカウンタをカウントアップする詳細化パターンカウンタ計数手順と、をコンピュータに実行させることを特徴とする。   According to a fourth aspect of the invention, there is provided the sequence pattern finding program according to the first or second aspect of the invention, wherein the sequence pattern counting procedure includes a sequence pattern including only a selection item value and an item value for which an allowable value is selected. A detailed pattern table defined as a detailed pattern, in which a detailed pattern number for uniquely identifying the detailed pattern is associated with a detailed pattern counter for counting the number of occurrences of the detailed pattern; A refined map generation procedure for generating a refined map that is a map for deriving the refined pattern number from the sequence data, and sequentially reading the sequence data stored by the sequence data storage procedure, and the read sequence Deriving the refined pattern number from the data using the refined map, and deriving the refined pattern table And Details pattern counter counting procedure for counting up a detailed pattern counter corresponding to the detailed pattern number, characterized by causing a computer to execute the.

また、請求項5の発明に係る系列パターン発見プログラムは、請求項1〜4の発明において、前記系列データ記憶手順は、連続して変化する値を離散化し、該離散化した間隔ごとの値を項目値として順番に並べた系列データをパターン抽出の対照として記憶することを特徴とする。   According to a fifth aspect of the invention, there is provided the sequence pattern finding program according to any one of the first to fourth aspects, wherein the sequence data storage procedure discretizes a continuously changing value, and calculates a value for each discretized interval. It is characterized in that series data arranged in order as item values is stored as a reference for pattern extraction.

また、請求項6の発明に係る系列パターン発見方法は、変動する項目値を順番に並べた系列データから、該系列データに頻繁に出現している系列パターンを抽出する系列パターン発見方法であって、系列パターン抽出の対象となる系列データを記憶装置に記憶する系列データ記憶工程と、任意の項目値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、前記系列データ記憶工程により記憶された系列データを順次読み出して、該系列データがマッチする一般化パターンの出現数を計数する系列パターン計数工程と、前記系列パターン計数工程により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値に、許容する値を選択した選択項目値を設定して系列パターンを逐次生成し、前記系列データ記憶工程により記憶された系列データを順次読み出して該系列パターンと照合することにより、該系列データがマッチする系列パターンの出現数を計数する系列パターン発見工程と、前記系列パターン発見工程により計数された出現数が所定の閾値以上である系列パターンを抽出結果の系列パターンとして出力する系列パターン出力工程と、を含んだことを特徴とする。   The sequence pattern finding method according to the invention of claim 6 is a sequence pattern finding method for extracting a sequence pattern frequently appearing in the sequence data from sequence data in which fluctuating item values are arranged in order. A sequence data storage step for storing sequence data to be sequence pattern extracted in a storage device, and defining a sequence pattern including only an arbitrary item value and an item value that allow an arbitrary item value as a generalized pattern, The sequence data stored in the sequence data storage step is sequentially read out, the sequence pattern counting step for counting the number of appearances of generalized patterns that match the sequence data, and the number of occurrences counted by the sequence pattern counting step is a predetermined number. A selection item that extracts a generalized pattern that is equal to or greater than a threshold and selects an allowable value as an arbitrary item value included in the extracted generalized pattern A sequence pattern is generated by sequentially generating sequence patterns, sequentially reading out the sequence data stored in the sequence data storage step, and comparing the sequence data with the sequence pattern, thereby counting the number of occurrences of the sequence pattern matching the sequence data A pattern finding step; and a sequence pattern output step of outputting a sequence pattern whose number of occurrences counted in the sequence pattern finding step is equal to or greater than a predetermined threshold as a sequence pattern of an extraction result.

また、請求項7の発明に係る系列パターン発見装置は、変動する項目値を順番に並べた系列データから、該系列データに頻繁に出現している系列パターンを抽出する系列パターン発見装置であって、系列パターン抽出の対象となる系列データを記憶装置に記憶する系列データ記憶手段と、任意の項目値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、前記系列データ記憶手段により記憶された系列データを順次読み出して、該系列データがマッチする一般化パターンの出現数を計数する系列パターン計数手段と、前記系列パターン計数手段により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値に、許容する値を選択した選択項目値を設定して系列パターンを逐次生成し、前記系列データ記憶手段により記憶された系列データを順次読み出して該系列パターンと照合することにより、該系列データがマッチする系列パターンの出現数を計数する系列パターン発見手段と、前記系列パターン発見手段により計数された出現数が所定の閾値以上である系列パターンを抽出結果の系列パターンとして出力する系列パターン出力手段と、を備えたことを特徴とする。   Further, the sequence pattern finding device according to the invention of claim 7 is a sequence pattern finding device for extracting a sequence pattern that frequently appears in the sequence data from the sequence data in which the fluctuating item values are arranged in order. Series data storage means for storing series data to be sequence pattern extracted in a storage device, and a series pattern including only an arbitrary item value and an item value that allow an arbitrary item value is defined as a generalized pattern, The sequence data stored in the sequence data storage unit is sequentially read out, the sequence pattern counting unit that counts the number of appearances of the generalized pattern that matches the sequence data, and the number of occurrences counted by the sequence pattern counting unit is a predetermined number. A selection item that extracts a generalized pattern that is equal to or greater than a threshold and selects an allowable value as an arbitrary item value included in the extracted generalized pattern A sequence pattern is generated by sequentially generating sequence patterns, sequentially reading out the sequence data stored by the sequence data storage means, and comparing the sequence data with the sequence pattern, thereby counting the number of occurrences of the sequence pattern matching the sequence data Pattern finding means, and sequence pattern output means for outputting a sequence pattern whose number of occurrences counted by the sequence pattern finding means is equal to or greater than a predetermined threshold as a sequence pattern of an extraction result are provided.

請求項1、6および7の発明によれば、系列パターン抽出の対象となる系列データを記憶し、任意の項目値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、記憶している系列データを順次読み出して、系列データがマッチする一般化パターンの出現数を計数し、計数した出現数が所定の閾値以上である一般化パターンを抽出し、抽出した一般化パターンに含まれる任意項目値に、許容する値を選択した選択項目値を設定して系列パターンを逐次生成し、さらに、記憶している系列データを順次読み出して系列パターンと照合することにより、系列データがマッチする系列パターンの出現数を計数し、計数した出現数が所定の閾値以上である系列パターンを抽出結果の系列パターンとして出力するよう構成したので、まずは大まかな条件で系列パターンの出現数を計数し、所定の閾値で絞り込んだ上で、さらに詳細な条件で系列パターンの出現数を計数することが可能となり、系列パターンの出現数を効率良く計数することによって、系列パターンの抽出にかかる処理時間を短縮することができるという効果を奏する。   According to the first, sixth, and seventh aspects of the present invention, the sequence data that is the target of sequence pattern extraction is stored, and an arbitrary item value that allows arbitrary item values and a sequence pattern that includes only item values are used as generalized patterns. Define and store the sequence data stored in sequence, count the number of occurrences of generalized patterns that match the sequence data, extract generalized patterns whose count is equal to or greater than a predetermined threshold, and extract the general By setting a selection item value that selects an allowable value to an arbitrary item value included in the conversion pattern and sequentially generating a series pattern, and further sequentially reading stored series data and collating with the series pattern, Count the number of occurrences of the sequence pattern that matches the sequence data, and output the sequence pattern whose counted occurrence number is equal to or greater than a predetermined threshold as the sequence pattern of the extraction result First, the number of occurrences of the sequence pattern is counted under rough conditions, and after narrowing down with a predetermined threshold, the number of occurrences of the sequence pattern can be counted under more detailed conditions. Is efficiently counted, so that the processing time required to extract the sequence pattern can be shortened.

また、請求項2の発明によれば、一般化パターンを一意に識別する一般化パターン番号と、一般化パターンの出現数を計数するための一般化パターンカウンタとを対応付けた一般化パターンテーブルを備え、また、系列データから一般化パターン番号を導出するための写像である一般化写像を生成し、記憶している系列データを順次読み出すとともに、読み出した系列データから一般化写像を用いて一般化パターン番号を導出し、一般化パターンテーブルの、導出した一般化パターン番号に対応する一般化パターンカウンタをカウントアップするよう構成したので、頻出する可能性のある系列パターン群を生成するたびに系列データを全て読み出して当該系列パターンの出現数を計数するのではなく、一般化写像を生成するたびに系列データを全て読み出すことによって、同じ写像で表される全ての一般化パターンの出現数が一括して計数される。この結果、候補パターン数の爆発に影響されず、決まった回数だけ系列データを走査すれば頻出する一般化パターン発見が完了するので、処理時間が閾値に影響されないという効果を奏する。   According to the invention of claim 2, the generalized pattern table in which the generalized pattern number for uniquely identifying the generalized pattern is associated with the generalized pattern counter for counting the number of appearances of the generalized pattern is provided. In addition, it generates a generalized map that is a map for deriving a generalized pattern number from the sequence data, reads out the stored sequence data sequentially, and generalizes it using the generalized map from the read sequence data Since the pattern number is derived and the generalized pattern counter corresponding to the derived generalized pattern number in the generalized pattern table is configured to be counted up, the series data is generated each time a series pattern group that may occur frequently is generated. Each time a generalized map is generated, instead of reading all By reading all, the number of occurrences of all the generalized pattern expressed by the same mapping is counted collectively. As a result, the generalized pattern finding that appears frequently only by scanning the series data a predetermined number of times without being affected by the explosion of the number of candidate patterns is completed, so that the processing time is not affected by the threshold value.

また、請求項3の発明によれば、計数された出現数が所定の閾値以上である一般化パターンを抽出し、抽出した一般化パターンに含まれる任意項目値の一つに選択項目値を設定することによって系列パターンを逐次生成し、逐次生成した系列パターンと、記憶している系列データとを照合することにより、系列データがマッチする系列パターンの出現数を計数し、計数した出現数が所定の閾値以上である系列パターンを抽出し、抽出した系列パターンに含まれる任意項目値の一つに選択項目値を設定することによってさらに系列パターンを詳細化し、詳細化した系列パターンと系列データとを照合することにより、系列データがマッチする系列パターンの出現数を計数し、系列パターンに含まれる全ての任意項目値に選択項目値を設定するまで、かかる系列パターンの詳細化と、系列パターンの出現数の計数とを繰り返すよう構成したので、まずは一般化パターンの出現数を計数し、所定の閾値を用いて一般化パターンを絞り込んだ後に、絞り込んだ一般化パターンに含まれる任意項目値の一つを選択項目値に置き換えて系列パターンを逐次生成し、さらに、一つずつ任意項目値を選択項目値に置き換えることによって系列パターンを段階的に詳細化し、その都度、所定の閾値を用いて、計数する必要のない系列パターンを排除してゆくことが可能となり、系列パターンの出現数を効率良く計数して系列パターンの抽出にかかる処理時間を短縮することができるという効果を奏する。   According to the invention of claim 3, a generalized pattern in which the counted number of appearances is equal to or greater than a predetermined threshold is extracted, and a selection item value is set as one of the arbitrary item values included in the extracted generalized pattern The sequence pattern is sequentially generated, and the sequence pattern thus generated and the stored sequence data are collated to count the number of occurrences of the sequence pattern that matches the sequence data. A series pattern that is equal to or greater than the threshold value is extracted, and the series pattern is further refined by setting a selection item value to one of the arbitrary item values included in the extracted series pattern. By matching, the number of occurrences of the series pattern that matches the series data is counted, and the selection item value is set for all arbitrary item values included in the series pattern. Since the detail of the sequence pattern and the counting of the number of occurrences of the sequence pattern are repeated, the number of occurrences of the generalized pattern is first counted, and then the generalized pattern is narrowed down using a predetermined threshold, and then narrowed down. In addition, one of the optional item values included in the generalized pattern is replaced with the selected item value to generate the sequence pattern sequentially, and further, the series pattern is detailed step by step by replacing the arbitrary item value with the selected item value one by one Each time, it is possible to eliminate a series pattern that does not need to be counted by using a predetermined threshold, efficiently counting the number of occurrences of the series pattern, and reducing the processing time required to extract the series pattern. There is an effect that can be done.

また、請求項4の発明によれば、詳細化パターンを一意に識別する詳細化パターン番号と、詳細化パターンの出現数を計数するための詳細化パターンカウンタとを対応付けた詳細化パターンテーブルを備え、また、系列データから詳細化パターン番号を導出するための写像である詳細化写像を生成し、記憶している系列データを順次読み出すとともに、まず一般化写像を適用して一般化パターン番号を得て、一般化パターンテーブルを参照することにより、この一般化パターン番号に対応する詳細化パターンテーブルを得る。続いて系列データに詳細化写像を適用して詳細化パターン番号を得て、詳細化パターンテーブルを参照することにより、この詳細化パターン番号に対応する詳細化パターンカウンタを得て、これを計数するよう構成したので、頻出する可能性のある系列パターン群を生成するたびに系列データを全て読み出して当該系列パターンの出現数を計数するのではなく、一般化写像および詳細化写像を生成するたびに系列データを全て読み出すことによって、同じ写像の組で表される全ての詳細化パターンの出現数が一括して計数される。この結果、候補パターン数の爆発に影響されず、決まった回数だけ系列データを走査すれば頻出する一般化パターン発見が完了するので、処理時間が閾値に影響されないという効果を奏する。   According to the invention of claim 4, the detailed pattern table in which the detailed pattern number for uniquely identifying the detailed pattern is associated with the detailed pattern counter for counting the number of appearance of the detailed pattern is provided. In addition, a detailed mapping, which is a map for deriving the detailed pattern number from the sequence data, is generated, the stored sequence data is read sequentially, and the generalized map number is first applied by applying the generalized map. The detailed pattern table corresponding to the generalized pattern number is obtained by referring to the generalized pattern table. Subsequently, the detailed mapping is applied to the series data to obtain a detailed pattern number, and by referring to the detailed pattern table, a detailed pattern counter corresponding to the detailed pattern number is obtained and counted. Because each time a series pattern group that may occur frequently is generated, it is not necessary to read out all the series data and count the number of occurrences of the series pattern, but to generate a generalized map and a detailed map each time. By reading all the series data, the number of appearances of all the detailed patterns represented by the same mapping set is counted in a lump. As a result, the generalized pattern finding that appears frequently only by scanning the series data a predetermined number of times without being affected by the explosion of the number of candidate patterns is completed, so that the processing time is not affected by the threshold value.

また、請求項5の発明によれば、連続して変化する値を離散化し、離散化した間隔ごとの値を項目値として順番に並べた系列データをパターン抽出の対照として記憶するよう構成したので、例えば株価や商品の売上額などのように、連続して変化する項目値についても、所定の間隔で離散化することによって値をサンプリングし、サンプリングした値を系列データとして、その変動において頻繁に出現する系列パターンを抽出することができるという効果を奏する。   Further, according to the invention of claim 5, since the continuously changing values are discretized, the series data in which the discretized intervals are arranged in order as item values is stored as a pattern extraction reference. For example, even for item values that change continuously, such as stock prices and product sales, the values are sampled by discretizing them at predetermined intervals, and the sampled values are used as series data, and frequently change There is an effect that the appearing series pattern can be extracted.

以下に添付図面を参照して、この発明に係る系列パターン発見プログラム、系列パターン発見方法および系列パターン発見装置の好適な実施例を詳細に説明する。なお、本実施例では、株価の時系列データから株価の系列パターンを発見する場合について説明する。   Exemplary embodiments of a sequence pattern discovery program, a sequence pattern discovery method, and a sequence pattern discovery apparatus according to the present invention will be described below in detail with reference to the accompanying drawings. In this embodiment, a case where a stock price series pattern is found from stock price time series data will be described.

まず、本実施例1に係る系列パターン発見装置の概念について説明する。図1は、系列パターンの抽出対象となる系列データの一例を示す図である。同図は、ある証券の1週間の日々の株価の終値を日ごとに並べた時系列データを示している。同図に示す「数値データ」は、日々の株価の終値であり、「前日との増減」は、前日との株価の終値の差額である。また、「離散化データ」は、前日との株価の終値の差額を5段階に離散化した数値であり、差額が−100以上である場合には「0(大幅安)」を、−99から−20の間である場合には「1(小幅安)」を、−19から+19の間である場合には「2(変動なし)」を、20から99の間である場合には「3(小幅高)」を、100以上である場合には「4(大幅高)」を設定している。この「離散化データ」を項目値とする系列データを、例えば、<3 1 3 1 4 0>と表す。   First, the concept of the sequence pattern finding apparatus according to the first embodiment will be described. FIG. 1 is a diagram illustrating an example of sequence data from which a sequence pattern is extracted. The figure shows time-series data in which the closing prices of stock prices for a week for a certain security are arranged for each day. The “numerical data” shown in the figure is the closing price of the daily stock price, and the “increase / decrease from the previous day” is the difference between the closing price of the stock price and the previous day. The “discretized data” is a numerical value obtained by discretizing the difference in the closing price of the stock price from the previous day in five stages. When the difference is −100 or more, “0 (significantly low)” is changed from −99. If it is between -20, "1 (small reduction)", if it is between -19 and +19, "2 (no change)", if it is between 20 and 99, "3" When (small width and height) is 100 or more, “4 (significant height)” is set. The series data whose item value is this “discretized data” is expressed as, for example, <3 1 3 1 4 0>.

本実施例1においては、上述した「離散化データ」を項目値とした系列データが証券ごとに蓄積されている系列データベースから系列パターンを抽出する場合を説明する。   In the first embodiment, a case will be described in which a series pattern is extracted from a series database in which series data having “discretized data” described above as an item value is stored for each security.

まず、抽出する系列パターンを定義する。例えば、系列パターン<3 {0,1,2,3,4} 3 1 {0,1,2,3,4} 0>であるが、2番目の項目と5番目の項目値に設定されている{0,1,2,3,4}は、任意の項目値を許容する任意項目値を表しており、この系列パターンと系列データとを照合する際に、系列データの2番目の項目値と5番目の項目が「0」,「1」,「2」,「3」,「4」のいずれであってもよいことを示している。このような、所定の数の任意項目値と、所定の数の項目値のみを含んだ系列パターンを一般化パターンと呼ぶ。   First, the sequence pattern to be extracted is defined. For example, the sequence pattern <3 {0, 1, 2, 3, 4} 3 1 {0, 1, 2, 3, 4} 0> is set to the second item and the fifth item value. {0, 1, 2, 3, 4} represents an arbitrary item value that allows an arbitrary item value, and the second item value of the sequence data when this sequence pattern is compared with the sequence data And the fifth item may be any of “0”, “1”, “2”, “3”, “4”. Such a series pattern including only a predetermined number of arbitrary item values and a predetermined number of item values is referred to as a generalized pattern.

ここで、抽出する系列パターンの長さをl、抽出する系列パターンに含まれる任意項目値の数をkとすると、上述した一般化パターンTM(l,k)は、以下に示す数式(1)で表される。 Here, when the length of the sequence pattern to be extracted is 1 and the number of arbitrary item values included in the sequence pattern to be extracted is k, the generalized pattern T M (l, k) described above is expressed by the following formula (1). ).

Figure 0004711863
Figure 0004711863

上記の数式(1)において、Σは、抽出対象の系列データに設定され得る項目値(ここでは、「離散化データ」に設定され得る項目値であり、すなわち、「0」,「1」,「2」,「3」,「4」。)を表しており、ΠMは、任意項目値を示している。 In the above formula (1), Σ is an item value that can be set to the series data to be extracted (here, item values that can be set to “discretized data”, that is, “0”, “1”, “2”, “3”, “4”), and Π M indicates an arbitrary item value.

例えば、系列パターン<3 {0,1} 3 1 {3,4} 0>であるが、2番目の項目と5番目の項目値に設定されている{0,1}や{3,4}は、{2}も含め、許容する項目値を選択する選択項目値を表しており、この系列パターンと系列データを照合する際に、系列データの2番目の項目値が「0」、「1」いずれかであってよく、系列データの5番目の項目値が「3」、「4」のいずれかであってよいことを示している。このような、所定の数の選択項目値と、所定の数の項目値のみを含んだ系列データを詳細化パターンと呼ぶ。   For example, the sequence pattern <3 {0, 1} 3 1 {3, 4} 0> is set to the second item and the fifth item value {0, 1} or {3,4} Represents a selection item value for selecting an allowable item value including {2}. When this series pattern is compared with the series data, the second item value of the series data is “0”, “1”. It may be any one, indicating that the fifth item value of the series data may be either “3” or “4”. Such series data including only a predetermined number of selection item values and a predetermined number of item values is referred to as a refinement pattern.

詳細化パターンTm(l,k)は、以下に示す数式(2)で表される。 The detailed pattern T m (l, k) is expressed by the following mathematical formula (2).

Figure 0004711863
Figure 0004711863

上記の数式(2)において、Πmは、選択項目値を示している。選択項目値の役割は、任意項目値よりも詳細に変動の幅に制限を加えることである。例えば、{0,1}を設定することによって、大小を問わず株価の終値が安値に変動したパターンを指定することができ、{2}を指定することによって、株価の終値が変動しなかったパターンを指定することができ、{3,4}を指定することによって、大小を問わず株価の終値が高値に変動したパターンを指定することができる。 In the above equation (2), the [pi m, shows a selection value. The role of the selection item value is to limit the range of fluctuation in more detail than the arbitrary item value. For example, by setting {0, 1}, it is possible to specify a pattern in which the closing price of the stock price fluctuated to a low price regardless of the size. By specifying {2}, the closing price of the stock price did not change. A pattern can be specified, and by specifying {3, 4}, a pattern in which the closing price of the stock price has changed to a high value can be specified regardless of the size.

一般化パターンに含まれる任意項目値のうち、一つ以上の任意項目値を選択項目値に置き換えることによって逐次生成される系列パターンを定義する。例えば、詳細化した系列パターン<3 {0,1} 3 1 {0,1,2,3,4} 0>であるが、このような所定の数の任意項目巷は選択項目値と、所定の数の項目値を含んだ系列パターンを単に系列パターンと呼ぶ。   A sequence pattern that is sequentially generated is defined by replacing one or more arbitrary item values among the arbitrary item values included in the generalized pattern with selected item values. For example, a detailed sequence pattern <3 {0, 1} 3 1 {0, 1, 2, 3, 4} 0>, and such a predetermined number of arbitrary item 巷 is a selected item value and a predetermined value. A sequence pattern including a number of item values is simply called a sequence pattern.

本実施例1に係る系列パターン発見装置が発見する系列パターンは、以下に示す数式(3)で表される。   The sequence pattern discovered by the sequence pattern discovery apparatus according to the first embodiment is expressed by the following formula (3).

Figure 0004711863
Figure 0004711863

なお、上記した、抽出する系列パターンの長さl、抽出する系列パターンに含まれる任意項目値の数k、抽出対象の系列データに設定され得る項目値Σ、任意項目値ΠM、選択項目値の集合Πm、および、所定の閾値は、それぞれ、利用者によってあらかじめ設定されるものとする。 It should be noted that the length l of the sequence pattern to be extracted, the number k of arbitrary item values included in the sequence pattern to be extracted, the item value Σ, the arbitrary item value Π M , the selection item value that can be set in the sequence data to be extracted Assume that the set Π m and the predetermined threshold value are set in advance by the user.

また、本実施例1においては、抽出対象の系列データの項目値に設定される値が「0」〜「4」である場合を説明したが、本発明はこれに限定されるものではない。例えば、抽出対象の系列データの項目値集合をΣで表すと、系列パターン発見装置が発見する一般化パターン、詳細化パターンおよび系列パターンは、以下に示す数式(4)、(5)および(6)で定義される。   In the first embodiment, the case where the values set in the item values of the series data to be extracted are “0” to “4” has been described, but the present invention is not limited to this. For example, when the item value set of the sequence data to be extracted is represented by Σ, the generalized pattern, the detailed pattern, and the sequence pattern discovered by the sequence pattern finding device are expressed by the following formulas (4), (5), and (6). ).

Figure 0004711863
Figure 0004711863

Figure 0004711863
Figure 0004711863

Figure 0004711863
Figure 0004711863

次に、本実施例1に係る系列パターン発見装置の構成について説明する。図2は、本実施例1に係る系列パターン発見装置の構成を示す機能ブロック図である。同図に示すように、この系列パターン発見装置100は、系列データ記憶部110と、テンプレート生成部120と、写像生成部130と、系列パターン計数部140と、系列パターン発見部150と、系列パターン出力部160とを有する。   Next, the configuration of the sequence pattern finding apparatus according to the first embodiment will be described. FIG. 2 is a functional block diagram illustrating the configuration of the sequence pattern finding apparatus according to the first embodiment. As shown in the figure, the sequence pattern finding device 100 includes a sequence data storage unit 110, a template generation unit 120, a mapping generation unit 130, a sequence pattern counting unit 140, a sequence pattern discovery unit 150, a sequence pattern, and the like. And an output unit 160.

系列データ記憶部110は、系列パターンの抽出対象となる系列データを記憶する記憶部である。本実施例1においては、この系列データ記憶部110は、図1で示した「離散化データ」を、証券ごとに記憶する。   The sequence data storage unit 110 is a storage unit that stores sequence data from which a sequence pattern is to be extracted. In the first embodiment, the series data storage unit 110 stores the “discretized data” shown in FIG. 1 for each security.

ここで、系列データ記憶部110により記憶される系列データDEの6日前,5日前,4日前,3日前,2日前,1日前の「離散化データ」の値を、それぞれ、d5,d4,d3,d2,d1,d0とし、系列データDEを、以下の式で表す。 Here, the values of “discretized data” 6 days ago, 5 days ago, 4 days ago, 3 days ago, 2 days ago, and 1 day ago of the series data D E stored by the series data storage unit 110 are respectively expressed as d 5 , d 4 , d 3 , d 2 , d 1 , and d 0 , and the series data D E is expressed by the following formula.

E=<d543210D E = <d 5 d 4 d 3 d 2 d 1 d 0 >

例えば、図1に示した「離散化データ」の系列データは、以下の式で表される。   For example, the series data of “discretized data” shown in FIG. 1 is expressed by the following equation.

E=<3 1 3 1 4 0> D E = <3 1 3 1 4 0>

なお、ここでは、株価の終値の前日と当日との差額を5段階に離散化する例を説明したが、離散化する段階を5段階以上に設定することによって、より細かい差幅の変化を示す系列データから系列パターンを発見するようにしてもよいし、離散化する段階を5段階以下に設定することによって、粗い差幅の変化を示す系列データから系列パターンを発見するようにしてもよい。   In addition, although the example which discretizes the amount of difference between the day before the closing price of the stock price and the current day has been described here, a more detailed change in the difference width is shown by setting the level of discretization to five or more steps. The sequence pattern may be found from the sequence data, or the sequence pattern may be found from the sequence data that shows a coarse change in the difference width by setting the discretization step to five or less steps.

このように、系列データ記憶部110が、連続して変化する変動要素を離散化し、離散化した単位ごとの変動幅を示す値を並べた系列データを系列パターン抽出の対象として記憶することによって、株価や商品の売上額などの連続して変化する変動要素に頻出する系列パターンを抽出することができる。   In this way, the series data storage unit 110 discretizes continuously changing fluctuation elements, and stores the series data in which values indicating the fluctuation ranges for the discrete units are arranged as series pattern extraction targets, It is possible to extract a series pattern that frequently appears in a continuously changing variable element such as a stock price or a sales amount of a product.

テンプレート生成部120は、利用者によって指定される系列パターンの長さlおよび抽出する系列パターンに含まれる任意項目値または選択項目値の数kとに基づいて、系列パターンを定義するためのテンプレートを生成する処理部である。ここで、テンプレートとは、任意項目値または選択項目値を所定の数だけ含んだ系列パターンの項目構成を表す定義であり、任意項目値または選択項目値と、具体的な項目値(以下、単に項目値)とを所定の数だけ順序だてて組み合わせることによって生成される。以下に、テンプレート生成部120によるテンプレートの生成方法を説明する。   The template generation unit 120 generates a template for defining a sequence pattern based on the length l of the sequence pattern specified by the user and the number k of arbitrary item values or selection item values included in the extracted sequence pattern. A processing unit to be generated. Here, the template is a definition representing an item structure of a series pattern including a predetermined number of arbitrary item values or selection item values. The arbitrary item value or selection item value and a specific item value (hereinafter simply referred to as a template item). Item values) are combined in a predetermined order. Hereinafter, a template generation method by the template generation unit 120 will be described.

テンプレート生成部120は、利用者によって指定される抽出する系列パターンの長さをl、抽出する系列パターンに含まれる任意項目値または選択項目値の数をkとした場合、k個の任意項目値または選択項目値とl−k個の項目値とを順序だてて組み合わせることにより、lk通りのパターンテンプレートXを生成する。 When the length of the sequence pattern to be extracted designated by the user is l and the number of arbitrary item values or selection item values included in the extracted sequence pattern is k, the template generation unit 120 has k arbitrary item values. Alternatively, l C k pattern templates X are generated by combining selected item values and l−k item values in order.

例えば、前述した「離散化データ」の系列データ   For example, the above-mentioned “discretized data” series data

E=<d543210D E = <d 5 d 4 d 3 d 2 d 1 d 0 >

を系列パターン抽出の対象とし、抽出する系列パターンの長さlを「6」、抽出する系列パターンに含まれる任意項目値または選択項目値の数kを「2」と設定した場合は、パターンテンプレートXは62(=15)通り生成される。 Is a pattern pattern extraction target, the length l of the sequence pattern to be extracted is set to “6”, and the number k of arbitrary item values or selection item values included in the sequence pattern to be extracted is set to “2”. X is generated in 6 C 2 (= 15) ways.

ここで生成される15通りのテンプレートXのうちの一つであるテンプレートXEを、例えば、以下に示す式で表す。 A template X E that is one of the 15 templates X generated here is expressed by, for example, the following expression.

E=<x5 * x32 * x0X E = <x 5 * x 3 x 2 * x 0 >

上記の式において、「*」は任意項目値または選択項目値を表している。   In the above formula, “*” represents an arbitrary item value or a selected item value.

なお、ここでは、抽出する系列パターンの長さlが「6」、抽出する系列パターンに含まれる任意項目値または選択項目値の数kが「2」である場合のテンプレートの生成について説明したが、本発明はこれに限定されるものではなく、上述したように、テンプレートは、lおよびkに設定される値に応じて、適宜生成されるものである。   Here, the generation of the template when the length l of the sequence pattern to be extracted is “6” and the number k of arbitrary item values or selection item values included in the sequence pattern to be extracted is “2” has been described. However, the present invention is not limited to this, and as described above, the template is appropriately generated according to the values set in l and k.

写像生成部130は、テンプレート生成部120によって生成されたテンプレートに基づいて、テンプレートごとに、系列データから一般化パターン番号を導出するための写像(以下、一般化写像と呼ぶ)を生成する処理部である。ここで、一般化パターン番号とは、パターンテンプレートによって定義される一般化パターンを一意に識別する識別番号である。以下に、写像生成部130による一般化写像の生成方法について説明する。   The mapping generation unit 130 generates a mapping (hereinafter referred to as a generalized mapping) for deriving a generalized pattern number from series data for each template based on the template generated by the template generation unit 120. It is. Here, the generalized pattern number is an identification number that uniquely identifies the generalized pattern defined by the pattern template. Hereinafter, a method for generating a generalized map by the map generation unit 130 will be described.

写像生成部130は、まずテンプレート生成部120により生成されたテンプレートXを取得し、取得したテンプレートXに基づいて一般化写像fX(D)を生成する。 The map generation unit 130 first acquires the template X generated by the template generation unit 120, and generates a generalized map f X (D) based on the acquired template X.

例えば、以下に示すテンプレートXEに基づいて生成する一般化写像fXEを、以下の式で定義する。 For example, a generalized map f XE generated based on the template X E shown below is defined by the following expression.

Figure 0004711863
Figure 0004711863

上記の式において、(3),(2),(1),(0)は、任意項目値または選択項目値を表す記号「*」を無視して右から左へ順番に付与した通番であり、d(3),d(2),d(1),d(0)は、それぞれ、テンプレートXEで定義されたx(3),x(2),x(1),x(0)と同じ位置にある系列データDEの項目値、すなわち、d5,d3,d2,d0を示している。また、上記の式において、各項目値d5,d3,d2,d0に乗じている5j(j=3,2,1,0)は、「5」が、抽出対象の系列データに設定され得る項目値Σの数(ここでは、「0」,「1」,「2」,「3」,「4」の5つ)で決められ、指数jが、テンプレートXEにおける具体的な項目値に付与した通番((3),(2),(1),(0))で決められる。 In the above formula, (3), (2), (1), (0) are serial numbers assigned in order from right to left ignoring the symbol “*” representing an arbitrary item value or selection item value. , D (3) , d (2) , d (1) , d (0) are x (3) , x (2) , x (1) , x (0) defined in the template X E , respectively. The item values of the series data D E at the same position, that is, d 5 , d 3 , d 2 , d 0 are shown. In the above formula, 5 j (j = 3, 2, 1, 0) multiplied by the item values d 5 , d 3 , d 2 , and d 0 is “5”, which is the series data to be extracted. Is determined by the number of item values Σ that can be set to 5 (here, “0”, “1”, “2”, “3”, “4”), and the index j is a specific value in the template X E The serial number ((3), (2), (1), (0)) given to each item value is determined.

この一般化写像fXE(DE)により、例えば、系列データが With this generalized map f XE (D E ), for example, the sequence data is

E=<3 1 3 1 4 0> D E = <3 1 3 1 4 0>

であった場合は、 If it was

XE(DE)=3×53+3×52+1×51+0×50
=455
f XE (D E ) = 3 × 5 3 + 3 × 5 2 + 1 × 5 1 + 0 × 5 0
= 455

となり、一般化パターン番号は「455」となる。 Thus, the generalized pattern number is “455”.

なお、ここでは、抽出する系列パターンの長さlが「6」、抽出する系列パターンに含まれる任意項目値または選択項目値の数kが「2」、抽出対象の系列データに設定され得る項目値Σの数が「5」である場合の一般化写像の生成について説明したが、本発明はこれに限定されるものではなく、上述したように、一般化写像は、l、kおよびΣに設定される値に応じて、適宜生成されるものである。   Here, the length l of the sequence pattern to be extracted is “6”, the number k of arbitrary item values or selection item values included in the sequence pattern to be extracted is “2”, and items that can be set in the sequence data to be extracted The generation of the generalized map when the number of values Σ is “5” has been described. However, the present invention is not limited to this, and as described above, the generalized map is represented by l, k, and Σ. It is generated appropriately according to the set value.

系列パターン計数部140は、系列データ記憶部110に記憶された系列データを読み出し、写像生成部130により生成された一般化写像を用いて、読み出した系列データがマッチする一般化パターンの出現数を計数する処理部である。具体的には、この系列パターン計数部140は、テンプレート生成部120により生成されたテンプレートXに対して、一般化パターン番号とパターンカウンタとを対応付けたパターンテーブルを備える。ここで、一般化パターン番号とは、前述した一般化写像fX(D)によって導出される一般化パターン番号に対応するものであり、0から始まる通番となる。また、パターンカウンタは、一般化パターン番号ごとに、系列データ記憶部110に記憶された系列データがマッチする一般化パターンの出現数を計数するためのカウンタである。 The sequence pattern counting unit 140 reads the sequence data stored in the sequence data storage unit 110 and uses the generalized mapping generated by the mapping generation unit 130 to calculate the number of occurrences of the generalized pattern that matches the read sequence data. A processing unit for counting. Specifically, the series pattern counting unit 140 includes a pattern table in which generalized pattern numbers and pattern counters are associated with the template X generated by the template generation unit 120. Here, the generalized pattern number corresponds to the generalized pattern number derived from the above-described generalized map f X (D), and is a serial number starting from 0. The pattern counter is a counter for counting the number of appearances of generalized patterns that match the sequence data stored in the sequence data storage unit 110 for each generalized pattern number.

図3は、本実施例1に係るパターン計数部140によって用いられるパターンテーブルの一例を示す図である。例えば、同図に示すように、前述したテンプレート   FIG. 3 is a diagram illustrating an example of a pattern table used by the pattern counting unit 140 according to the first embodiment. For example, as shown in FIG.

E=<x5 * x32 * x0X E = <x 5 * x 3 x 2 * x 0 >

に対するパターンテーブルでは、54(=625)個のパターン番号、すなわち「0」〜「624」のパターン番号と、パターンカウンタとが対応付けられている。そして、かかるパターン番号およびパターンカウンタの数は、テンプレートXEから生成される一般化パターンのパターン数と同数となる。 In this pattern table, 5 4 (= 625) pattern numbers, that is, pattern numbers “0” to “624” are associated with the pattern counter. The number of pattern numbers and pattern counters is the same as the number of generalized patterns generated from the template XE.

系列パターン計数部140は、パターンテーブルのパターンカウンタを初期化(「0」を設定)した後に、系列データ記憶部110により記憶された系列データDを順次読み出し、写像生成部130により生成された一般化写像fX(D)を用いて一般化パターン番号を導出し、導出した一般化パターン番号に対応するパターンテーブルのパターンカウンタに「1」を加算する。 The sequence pattern counting unit 140 initializes the pattern counter of the pattern table (sets “0”) and then sequentially reads the sequence data D stored in the sequence data storage unit 110 and generates the general data generated by the mapping generation unit 130. The generalized pattern number is derived using the generalized map f X (D), and “1” is added to the pattern counter of the pattern table corresponding to the derived generalized pattern number.

例えば、前述した系列データ   For example, the series data mentioned above

E=<3 1 3 1 4 0> D E = <3 1 3 1 4 0>

を読み出した場合は、 Is read out,

XE(DE)=455 f XE (D E ) = 455

となることより、系列パターン計数部140は、パターンテーブルの、一般化パターン番号「455」に対応するパターンカウンタに「1」を加算する(図3に示すカウント1)。 Thus, the series pattern counting unit 140 adds “1” to the pattern counter corresponding to the generalized pattern number “455” in the pattern table (count 1 shown in FIG. 3).

こうして、系列パターン計数部140は、テンプレート生成部120により生成された全てのテンプレートに対して、写像を用いたパターンカウンタの加算とを行う。   In this way, the sequence pattern counting unit 140 adds a pattern counter using mapping to all the templates generated by the template generation unit 120.

なお、かかる系列パターン計数部140による一般化パターン計数処理の詳細については、図5を用いて後に説明する。   The details of the generalized pattern counting process by the series pattern counting unit 140 will be described later with reference to FIG.

系列パターン発見部150は、系列パターン計数部140により計数されたパターンカウンタが所定の閾値以上である一般化パターンを抽出し、抽出した一般化パターンに含まれる任意項目値の一つを選択項目値に置き換えて系列パターンを生成し、さらに、一つずつ任意項目値を選択項目値に置き換えることによって系列パターンを段階的に詳細化し、その都度、計数する必要のない系列パターンを排除しながら、系列パターンの出現数を計数する処理部である。   The sequence pattern finding unit 150 extracts a generalized pattern whose pattern counter counted by the sequence pattern counting unit 140 is equal to or greater than a predetermined threshold, and selects one of the arbitrary item values included in the extracted generalized pattern as a selection item value To generate a series pattern, and further refine the series pattern step by step by replacing the optional item value with the selected item value one by one, while eliminating the series pattern that does not need to be counted each time. It is a processing unit that counts the number of appearances of patterns.

例えば、一般化パターン<3 * 3 1 * 0>について、選択項目値{0,1}、{2}および{3,4}を用いて詳細化を行う場合は、系列パターン発見部150は、以下に示す6つの系列パターンを生成する。   For example, when the generalized pattern <3 * 3 1 * 0> is refined using the selection item values {0, 1}, {2} and {3,4], the sequence pattern finding unit 150 The following six series patterns are generated.

<3 {0,1} 3 1 * 0> ,
<3 {2} 3 1 * 0> ,
<3 {3,4} 3 1 * 0> ,
<3 * 3 1 {0,1} 0> ,
<3 * 3 1 {2} 0> ,
<3 * 3 1 {3,4} 0>
<3 {0, 1} 3 1 * 0>,
<3 {2} 3 1 * 0>,
<3 {3, 4} 3 1 * 0>,
<3 * 3 1 {0, 1} 0>,
<3 * 3 1 {2} 0>,
<3 * 3 1 {3,4} 0>

そして、系列パターン発見部150は、生成した系列パターンと、系列データ記憶部110に記憶された系列データとを、例えば、複数パターンとの照合を可能とする拡張を施したShift−AND法などの文字列照合アルゴリズムを用いて照合することにより、系列データがマッチする系列パターンの出現数を計数する。   The sequence pattern finding unit 150 then expands the generated sequence pattern and the sequence data stored in the sequence data storage unit 110 with, for example, a Shift-AND method that has been extended to enable matching with a plurality of patterns. By matching using a character string matching algorithm, the number of occurrences of a sequence pattern that matches the sequence data is counted.

なお、ここでは、文字列照合アルゴリズムとしてShift−AND法を用いた場合を説明したが、ここで行う文字列照合は、Shift−AND法に限らず、任意項目値や選択項目値を含んだ複数の系列パターンと系列データとの照合を行うことが可能な他の公知の文字照合アルゴリズムを用いてもよいものである。   Although the case where the Shift-AND method is used as the character string matching algorithm has been described here, the character string matching performed here is not limited to the Shift-AND method, and a plurality of values including arbitrary item values and selection item values are included. Other known character collation algorithms capable of collating the sequence pattern and the sequence data may be used.

図4は、系列パターン発見部150による系列パターン発見処理の一例を示す図である。例えば、同図に示すように、<3 {0,1} 3 1 * 0>の出現数が「50」、<3 {2} 3 1 * 0>の出現数が「10」、<3 {3,4} 3 1 * 0>の出現数が「20」、<3 * 3 1 {0,1} 0>の出現数が「30」、<3 * 3 1 {2} 0>の出現数が「10」、<3 * 3 1 {3,4} 0>の出現数が「10」であり、また、利用者によって指定された所定の閾値が「20」であったとする。   FIG. 4 is a diagram illustrating an example of a sequence pattern discovery process performed by the sequence pattern discovery unit 150. For example, as shown in the figure, the number of occurrences of <3 {0, 1} 3 1 * 0> is “50”, the number of occurrences of <3 {2} 3 1 * 0> is “10”, <3 { 3,4} 3 1 * 0> is “20”, <3 * 3 1 {0,1} 0> is “30”, <3 * 3 1 {2} 0> Is “10”, the number of occurrences of <3 * 3 1 {3,4} 0> is “10”, and the predetermined threshold specified by the user is “20”.

この場合、系列パターン発見部150は、図4に示すように、<3 {0,1} 3 1 * 0>と、<3 {3,4} 3 1 * 0>と、<3 * 3 1 {0,1} 0>とを抽出し、<3 {0,1} 3 1 * 0>と<3 * 3 1 {0,1} 0>とを掛け合わせることによって(図4に示すペア1)、さらに詳細化された詳細化パターン<3 {0,1} 3 1 {0,1} 0>を定義し、また、<3 {3,4} 3 1 * 0>と<3 * 3 1 {0,1} 0>とを掛け合わせることによって(図4に示すペア2)、さらに詳細化した詳細化パターン<3 {3,4} 3 1 {0,1} 0>を定義する。系列パターンの出現数は、任意項目値を選択項目値に置き換える手続きによって単調に減少するため、これ以外の選択項目値への置き換えによって得られる系列パターンの出現数は閾値未満であるから、文字列照合により出現数を計数するまでもなく除外することが可能である。   In this case, the sequence pattern discovery unit 150, as shown in FIG. 4, <3 {0, 1} 3 1 * 0>, <3 {3, 4} 3 1 * 0>, <3 * 3 1 {0,1} 0> is extracted and multiplied by <3 {0,1} 3 1 * 0> and <3 * 3 1 {0,1} 0> (pair 1 shown in FIG. 4) ), Further refined refinement pattern <3 {0, 1} 3 1 {0, 1} 0> is defined, and <3 {3,4} 3 1 * 0> and <3 * 3 1 By multiplying {0,1} 0> (pair 2 shown in FIG. 4), a further refined refinement pattern <3 {3,4} 3 1 {0,1} 0> is defined. Since the number of occurrences of series patterns decreases monotonously by the procedure of replacing arbitrary item values with selection item values, the number of occurrences of series patterns obtained by replacement with other selection item values is less than the threshold value. It is possible to exclude it without counting the number of appearances by collation.

そして、系列パターン発見部150は、生成した系列パターン(<3 {0,1} 3 1 {0,1} 0>および<3 {3,4} 3 1 {0,1} 0>)と、系列データ記憶部110に記憶された系列データとを、例えば、拡張Shift−AND法などの文字列照合アルゴリズムを用いて再度照合し、系列パターンがマッチする系列パターンの出現数をまとめて計数する。   Then, the sequence pattern discovery unit 150 generates the generated sequence patterns (<3 {0, 1} 3 1 {0, 1} 0> and <3 {3, 4} 3 1 {0, 1} 0>), The sequence data stored in the sequence data storage unit 110 is collated again using, for example, a character string collation algorithm such as the extended Shift-AND method, and the number of occurrences of the sequence pattern matching the sequence pattern is counted together.

なお、かかる系列パターン発見部150による系列パターン発見処理の詳細については、図6を用いて後に説明する。   Details of the sequence pattern finding process by the sequence pattern finding unit 150 will be described later with reference to FIG.

このように、系列パターン発見部150が、系列データ記憶部110により記憶された系列データを読み出すとともに、拡張Shift−And法による文字列照合アルゴリズムを用いて、系列データがマッチする系列パターンの出現数を計数するので、まずは一般化パターンの出現数を計数し、所定の閾値を用いて一般化パターンを絞り込んだ後に、絞り込んだ一般化パターンに含まれる任意項目値の一つを選択項目値に置き換えて系列パターンを逐次生成し、さらに、一つずつ任意項目値を選択項目値に置き換えることによって系列パターンを段階的に詳細化し、その都度、所定の閾値を用いて、計数する必要のない系列パターンを排除してゆくことが可能となり、系列パターンの出現数を効率良く計数して系列パターンの抽出にかかる処理時間を短縮することができる。   As described above, the sequence pattern finding unit 150 reads the sequence data stored in the sequence data storage unit 110 and uses the character string matching algorithm based on the extended Shift-And method, and the number of occurrences of the sequence pattern that matches the sequence data. First, count the number of occurrences of the generalized pattern, narrow down the generalized pattern using a predetermined threshold, and then replace one of the optional item values included in the narrowed down generalized pattern with the selected item value The series pattern is generated step by step, and the series pattern is refined step by step by replacing the optional item value with the selected item value one by one. Can be eliminated, and the number of occurrences of the sequence pattern is counted efficiently to extract the sequence pattern. It is possible to reduce the management time.

パターン出力部160は、系列パターン発見部150によって計数された出現数が所定の閾値以上である系列パターンを抽出し、抽出した系列パターンを抽出結果の系列パターンとして、例えばディスプレイ装置などの出力装置に出力する処理部である。   The pattern output unit 160 extracts a sequence pattern in which the number of appearances counted by the sequence pattern discovery unit 150 is equal to or greater than a predetermined threshold, and uses the extracted sequence pattern as an extraction result sequence pattern, for example, to an output device such as a display device. It is a processing part to output.

次に、本実施例1に係る系列パターン計数部140による一般化パターン計数処理の処理手順について説明する。図5は、本実施例1に係る系列パターン計数部140による一般化パターン計数処理の処理手順を示すフローチャートである。同図に示すように、まず、テンプレート生成部120が、テンプレートXを1つ生成する(ステップS101)。   Next, a processing procedure of the generalized pattern counting process performed by the sequence pattern counting unit 140 according to the first embodiment will be described. FIG. 5 is a flowchart of the generalized pattern counting process performed by the sequence pattern counting unit 140 according to the first embodiment. As shown in the figure, first, the template generation unit 120 generates one template X (step S101).

テンプレートXが生成された場合(ステップS102,Yes)は、写像生成部130が、テンプレートXに基づいて、系列データDから一般化パターン番号を算出するための写像fX(D)を生成する(ステップS103)。 When the template X is generated (step S102, Yes), the map generation unit 130 generates a map f X (D) for calculating the generalized pattern number from the series data D based on the template X ( Step S103).

そして、系列パターン計数部140が、パターンテーブルのパターンカウンタを全てクリアする(ステップS104)。パターンテーブルをクリアした後、系列パターン計数部140は、系列データ記憶部110から系列データDを1つ取り出す(ステップS105)。   Then, the series pattern counting unit 140 clears all the pattern counters in the pattern table (step S104). After clearing the pattern table, the sequence pattern counting unit 140 extracts one sequence data D from the sequence data storage unit 110 (step S105).

系列データDが取り出せた場合は(ステップS106,No)、系列パターン計数部140は、写像生成部130によって生成された写像fX(D)を用いて、取り出した系列データDから一般化パターン番号を算出し(ステップS107)、さらに、算出した一般化パターン番号に対応するパターンカウンタをインクリメントする(ステップS108)。その後、系列パターン計数部140は、ステップS105に戻って、系列データ記憶部110から次の系列データDを取り出し、ステップS107およびS108の処理を行う。系列パターン計数部140は、系列データ記憶部110から系列データDが取り出せなくなるまで、これらの処理を繰り返す。 When the sequence data D can be extracted (step S106, No), the sequence pattern counting unit 140 uses the mapping f X (D) generated by the mapping generation unit 130 to use the generalized pattern number from the extracted sequence data D. Is calculated (step S107), and the pattern counter corresponding to the calculated generalized pattern number is incremented (step S108). Thereafter, the sequence pattern counting unit 140 returns to step S105, retrieves the next sequence data D from the sequence data storage unit 110, and performs the processes of steps S107 and S108. The sequence pattern counting unit 140 repeats these processes until the sequence data D cannot be extracted from the sequence data storage unit 110.

そして、系列データ記憶部110から系列データDが取り出せなかった場合、すなわち、系列データ記憶部110に記憶されている全ての系列データDの取出しがすでに完了している場合、系列パターン計数部140は、ステップS101に戻って、次のテンプレートXを生成し、全てのテンプレートXを生成するまで、ステップS102以降の処理を繰り返す。   When the sequence data D cannot be extracted from the sequence data storage unit 110, that is, when the extraction of all the sequence data D stored in the sequence data storage unit 110 has already been completed, the sequence pattern counting unit 140 Returning to step S101, the next template X is generated, and the processes after step S102 are repeated until all the templates X are generated.

そして、全てのテンプレートXを生成した後、系列パターン計数部140は、この一般化パターン計数処理を終了する(ステップS102,No)。   Then, after generating all the templates X, the sequence pattern counting unit 140 ends the generalized pattern counting process (No in step S102).

このように、系列データから一般化パターン番号を算出するための一般化写像を写像生成部130があらかじめ生成し、系列パターン計数部140が、系列データ記憶部110に記憶された系列データを順次読み出すとともに一般化写像を用いて一般化パターン番号を算出することによって、効率良く系列パターン(一般化パターン)の出現数を計数することができる。   As described above, the mapping generation unit 130 generates a generalized map for calculating the generalized pattern number from the sequence data in advance, and the sequence pattern counting unit 140 sequentially reads the sequence data stored in the sequence data storage unit 110. In addition, by calculating the generalized pattern number using the generalized map, the number of appearances of the sequence pattern (generalized pattern) can be counted efficiently.

このように、系列パターン計数部140が、一般化パターンを一意に識別する一般化パターン番号と、一般化パターンの出現数を計数するためのパターンカウンタとを対応付けた一般化パターンテーブルを備え、写像生成部130が、系列データから一般化パターン番号を導出するための写像である一般化写像を生成し、系列パターン計数部140が、系列データ記憶部110により記憶されている系列データを順次読み出すとともに、読み出した系列データから一般化写像を用いて一般化パターン番号を導出し、一般化パターンテーブルの、導出した一般化パターン番号に対応する一般化パターンカウンタをカウントアップするので、頻出する可能性のある系列パターン群を生成するたびに系列データを全て読み出して当該一般化パターンの出現数を計数するのではなく、一般化写像を生成するたびに系列データを全て読み出すことによって、同じ写像で表される全ての系列パターンの出現数が一括して計数される。この結果、候補パターン数の爆発に影響されず、決まった回数だけ系列データを走査すれば頻出する一般化パターン発見が完了するので、処理時間が閾値に影響されないという効果を奏する。   In this way, the sequence pattern counting unit 140 includes a generalized pattern table that associates a generalized pattern number that uniquely identifies a generalized pattern with a pattern counter for counting the number of appearances of the generalized pattern, Map generation unit 130 generates a generalized map that is a map for deriving the generalized pattern number from the sequence data, and sequence pattern counting unit 140 sequentially reads the sequence data stored in sequence data storage unit 110. At the same time, the generalized pattern number is derived from the read sequence data using the generalized map, and the generalized pattern counter corresponding to the derived generalized pattern number in the generalized pattern table is counted up. Every time a certain series pattern group is generated, all the series data is read and the generalized pattern Instead of counting the number of appearances, each time to produce a generalized mapping by reading all the series data, the number of occurrences of all series pattern represented by the same mapping is counted collectively. As a result, the generalized pattern finding that appears frequently only by scanning the series data a predetermined number of times without being affected by the explosion of the number of candidate patterns is completed, so that the processing time is not affected by the threshold value.

次に、系列パターン発見部部150による系列パターン発見処理の処理手順について説明する。図6は、系列パターン発見部150による系列パターン発見処理の処理手順を示すフローチャートである。同図に示すように、系列パターン発見部150は、まず、系列パターン計数部140により計数されたパターンカウンタが所定の閾値以上である一般化パターンPを取得する(ステップS201)。   Next, a processing procedure of sequence pattern discovery processing by the sequence pattern discovery unit 150 will be described. FIG. 6 is a flowchart showing a processing procedure of sequence pattern discovery processing by the sequence pattern discovery unit 150. As shown in the figure, the sequence pattern finding unit 150 first acquires a generalized pattern P whose pattern counter counted by the sequence pattern counting unit 140 is equal to or greater than a predetermined threshold (step S201).

そして、系列パターン発見部150は、一般化パターンPが取得できた場合は(ステップS202,Yes)、変数iに「0」を設定し(ステップS203)、取得した一般化パターンP1つだけを含む集合を系列パターン集合L0として保持し(ステップS204)、さらに、一般化パターンPにマッチする全ての系列データ(以降、系列データDPとする)を系列データ記憶部110から抽出する(ステップS205)。 If the generalized pattern P can be acquired (step S202, Yes), the sequence pattern finding unit 150 sets “0” to the variable i (step S203) and includes only one acquired generalized pattern P. a set and held as a sequence pattern set L 0 (step S204), further, all series data that match the general pattern P (hereinafter referred to as series data D P) is extracted from the time series data storage unit 110 (step S205 ).

その後、系列パターン発見部150は、変数iに「1」を加算し(ステップS206)、変数iが一般化パターンに含まれる任意項目値または選択項目値の数kより小さかった場合は(ステップS207,Yes)、保持している系列パターン集合Li-1に含まれる任意項目値のいずれか一つに選択項目値を設定することによって、系列パターンを生成する(ステップS208)。ここで、例えば、選択項目値が3種類である場合は、集合Li−1に属する系列パターンひとつあたり|Πm|×(k−i+1)通りの系列パターンが生成される。 Thereafter, the sequence pattern finding unit 150 adds “1” to the variable i (step S206), and when the variable i is smaller than the number k of arbitrary item values or selection item values included in the generalized pattern (step S207). , Yes), a series pattern is generated by setting the selection item value to any one of the arbitrary item values included in the held series pattern set L i-1 (step S208). Here, for example, when there are three types of selection item values, | Π m | × (k−i + 1) sequence patterns are generated for each sequence pattern belonging to the set Li−1.

そして、系列パターン発見部150は、生成した系列パターンと、系列データDPとを、例えば、拡張Shift−AND法などの文字列照合アルゴリズムを用いて照合することにより、その出現数をまとめて計数する(ステップS209)。 The sequential pattern discovery unit 150, a generated sequence pattern, and a series data D P, for example, by matching with a string matching algorithm such as extended Shift-the AND method, it summarizes the number of occurrences counted (Step S209).

そして、系列パターン発見部150は、計数した出現数が所定の閾値を超える系列パターンを抽出し、抽出した頻出系列パターンを系列パターン集合Liとして保持する(ステップS210)。 The sequence pattern mining unit 150, the number of occurrences counted extracts a sequence pattern which exceeds a predetermined threshold, the extracted frequent sequence pattern holds as a sequence pattern set L i (step S210).

この後、系列パターン発見部150は、変数iが一般化パターンに含まれる任意項目値または選択項目値の数k以上となるまで(ステップS207,No)、変数iをカウントアップしながら、系列パターン集合Liの抽出を繰り返す。 Thereafter, the sequence pattern finding unit 150 counts the variable i while counting up the variable i until the variable i becomes equal to or greater than the number k of arbitrary item values or selection item values included in the generalized pattern (step S207, No). The extraction of the set L i is repeated.

変数iが一般化パターンに含まれる任意項目値または選択項目値の数k以上となった場合は、系列パターン発見部150は、それまでに抽出していた系列パターン集合L0〜Lk-1をまとめ、集合L(P)として保持する(ステップS211)。 When the variable i becomes equal to or larger than the number k of arbitrary item values or selection item values included in the generalized pattern, the sequence pattern finding unit 150 extracts the sequence pattern sets L 0 to L k−1 extracted so far. Are stored as a set L (P) (step S211).

そして、系列パターン発見部150は、ステップS201に戻って、出現数が所定の閾値以上である一般化パターンをさらに取得し、出現数が所定の閾値以上である全ての一般化パターンを取得し終わるまで、ステップS201以降の処理を繰り返し行う。   Then, the sequence pattern finding unit 150 returns to step S201 to further acquire a generalized pattern whose number of appearances is equal to or greater than a predetermined threshold, and finishes acquiring all generalized patterns whose number of appearances is equal to or greater than the predetermined threshold. Until then, the processing from step S201 is repeated.

そして、全ての一般化パターンについて処理を行った後、系列パターン発見部150は、この系列パターン発見処理を終了し、保存している全ての系列パターン集合L(P)を抽出結果として、パターン出力部160を介して出力する(ステップS212)。   Then, after processing all the generalized patterns, the sequence pattern finding unit 150 ends this sequence pattern finding process, and outputs all the stored sequence pattern sets L (P) as extraction results as a pattern output. The data is output via the unit 160 (step S212).

上述してきたように、本実施例1では、系列データ記憶部110が、系列パターン抽出の対象となる系列データを記憶し、テンプレート生成部120が、任意の値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、系列パターン計数部140が、記憶している系列データを順次読み出すとともに、各一般化パターンにマッチする系列データの数を一般化パターン出現数として計数し、その上で、系列パターン発見部150が、計数した一般化パターン出現数が所定の閾値以上である一般化パターンを抽出し、抽出した一般化パターンに含まれる任意項目値に選択項目値を設定した系列パターンを定義し、記憶している系列データを順次読み出すとともに、各系列パターンにマッチする系列データの数を系列パターン出現数として計数し、系列パターン出力部160が、系列パターン発見部150により計数した系列パターン出現数が所定の閾値以上である系列パターンを抽出結果として出力することとしたので、まずは大まかな条件で一般化パターンの出現数を計数し、所定の閾値で絞り込んだ上で、さらに詳細な条件で系列パターンの出現数を計数することが可能となる。このように、一般化パターンの出現数を効率良く計数することによって、系列パターンの抽出にかかる処理時間を短縮することができる。   As described above, in the first embodiment, the sequence data storage unit 110 stores the sequence data that is the target of sequence pattern extraction, and the template generation unit 120 allows arbitrary item values and item values that allow arbitrary values. Is defined as a generalized pattern, and the sequence pattern counting unit 140 sequentially reads out the stored sequence data and sets the number of sequence data matching each generalized pattern as the generalized pattern appearance number. Then, the sequence pattern finding unit 150 extracts the generalized pattern whose counted generalized pattern appearance number is equal to or greater than a predetermined threshold, and selects the selected item value as an arbitrary item value included in the extracted generalized pattern. Is defined, and the stored sequence data is read sequentially, and the number of sequence data that matches each sequence pattern is determined. Since the sequence pattern output unit 160 counts as the number of column pattern appearances and outputs the sequence pattern whose sequence pattern appearance number counted by the sequence pattern discovery unit 150 is equal to or greater than a predetermined threshold as an extraction result. It is possible to count the number of appearances of generalized patterns under conditions, narrow down with a predetermined threshold, and count the number of appearances of series patterns under more detailed conditions. Thus, by efficiently counting the number of appearances of the generalized pattern, the processing time required for extracting the sequence pattern can be shortened.

また、写像生成部130が、系列データに含まれる項目値を変換することによって一般化パターンを一意に識別する一般化パターン番号を導出する一般化写像を生成し、系列パターン計数部140が、一般化パターンと、一般化写像を用いて導出される一般化パターン番号と、一般化パターンにマッチする系列データの数を計数するパターンカウンタとを一般化パターンごとに対応付けたパターンテーブルを生成し、系列パターン計数部140が、系列データを順次読み出すとともに、一般化写像を用いて一般化パターン番号を導出し、導出した一般化パターン番号に基づいてパターンテーブルのパターンカウンタを計数することとしたので、読み出した系列データがマッチする一般化パターンを容易に判別することが可能となり、この結果、一般化パターンの出現数を効率良く計数することによって、一般化パターンの抽出にかかる処理時間を短縮することができる。   Further, the mapping generation unit 130 generates a generalized map for deriving a generalized pattern number for uniquely identifying the generalized pattern by converting the item value included in the sequence data, and the sequence pattern counting unit 140 Generating a pattern table in which a generalized pattern, a generalized pattern number derived using a generalized mapping, and a pattern counter that counts the number of series data that matches the generalized pattern are associated with each generalized pattern; Since the sequence pattern counting unit 140 sequentially reads the sequence data, derives the generalized pattern number using the generalized mapping, and counts the pattern counter of the pattern table based on the derived generalized pattern number. As a result, it is possible to easily determine the generalized pattern that matches the read series data. By efficiently count the number of occurrences of the general pattern, it is possible to shorten the processing time required for the extraction of the generalized pattern.

ところで、上記実施例1では、系列データを読み込み、所定の設定値に基づいて一般化パターンごとに生成した一般化写像を用いて各一般化パターンの出現数を計数し、出現数が所定の閾値以上である一般化パターンを抽出した後に、任意項目値に選択項目値を設定することによって一般化パターンを詳細化した系列パターンを生成し、再度系列データを読み込んで、系列パターンの出現数を計数し、所定の閾値によって系列パターンを絞り込むことによって、頻出する系列パターンを発見する場合を説明したが、一般化写像を生成するのと同時に詳細化パターンの写像を生成し、これら2つの写像を組み合わせて用いることによって、詳細化パターンの出現数のみを計数し、頻出の詳細化パターンのみを発見するようにしてもよい。   By the way, in the first embodiment, series data is read, the number of appearances of each generalized pattern is counted using a generalized map generated for each generalized pattern based on a predetermined set value, and the number of appearances is a predetermined threshold value. After extracting the above generalized pattern, generate a series pattern that refines the generalized pattern by setting the selection item value to an arbitrary item value, read the series data again, and count the number of occurrences of the series pattern In the above, the case where frequent sequence patterns are found by narrowing down the sequence pattern by a predetermined threshold has been explained. However, a generalized map is generated at the same time as a detailed pattern map, and these two maps are combined. By using them, only the number of occurrences of detailed patterns may be counted, and only frequent detailed patterns may be found.

そこで、本実施例2では、2つの写像を組み合わせて用いることによって、詳細化パターンの出現数のみを計数する場合について説明する。   Therefore, in the second embodiment, a case will be described in which only the number of appearances of the detailed pattern is counted by using two maps in combination.

まず、本実施例2に係る系列パターン発見装置の構成について説明する。なお、ここでは説明の便宜上、図1に示した各部と同様の役割を果たす機能部については同一符号を付すこととしてその詳細な説明を省略する。図7は、本実施例2に係る系列パターン発見装置の構成を示す機能ブロック図である。同図に示すように、この系列パターン発見装置200は、系列データ記憶部110と、テンプレート生成部120と、写像生成部230と、系列パターン計数部240と、系列パターン出力部160とを有する。   First, the configuration of the sequence pattern finding apparatus according to the second embodiment will be described. Here, for convenience of explanation, functional units that play the same functions as the respective units shown in FIG. FIG. 7 is a functional block diagram of the configuration of the sequence pattern finding apparatus according to the second embodiment. As shown in the figure, the sequence pattern finding apparatus 200 includes a sequence data storage unit 110, a template generation unit 120, a mapping generation unit 230, a sequence pattern counting unit 240, and a sequence pattern output unit 160.

写像生成部230は、テンプレート生成部120によって生成されたテンプレートに基づいて、系列データから一般化パターン番号を算出するための写像(以下、一般化写像)を生成し、また、所定の選択項目値から詳細化パターン番号を算出するための写像(以下、詳細化写像)を生成する処理部である。ここで、一般化パターン番号とは、テンプレートによって定義される一般化パターンを一意に識別するための識別番号であり、詳細化パターン番号とは、所定の選択項目値に基づいて一般化パターンを詳細化して得られる詳細化パターンを一意に識別するための識別番号である。なお、ここで生成する一般化写像については、実施例1で示した写像生成部130において説明した一般化写像と同様であるため説明を省略し、ここでは、詳細化写像の生成方法について説明する。   Based on the template generated by the template generation unit 120, the mapping generation unit 230 generates a mapping (hereinafter referred to as a generalized mapping) for calculating a generalized pattern number from the sequence data, and a predetermined selection item value. Is a processing unit that generates a map (hereinafter referred to as a detailed map) for calculating a detailed pattern number. Here, the generalized pattern number is an identification number for uniquely identifying the generalized pattern defined by the template, and the detailed pattern number is a detail of the generalized pattern based on a predetermined selection item value. This is an identification number for uniquely identifying the refinement pattern obtained by making the data. Note that the generalized map generated here is the same as the generalized map described in the map generation unit 130 described in the first embodiment, and thus the description thereof is omitted. Here, a detailed map generation method is described. .

写像生成部230は、まず、テンプレート生成部120により生成されたテンプレートXを取得し、取得したテンプレートXに基づいて一般化写像fX(D)を生成した後に、詳細化写像gX(D)を生成する。 The mapping generation unit 230 first acquires the template X generated by the template generation unit 120, generates the generalized mapping f X (D) based on the acquired template X, and then the detailed mapping g X (D). Is generated.

例えば、以下に示すテンプレートXEに基づいて生成する詳細化写像gXE(D)を、以下の式で定義する。 For example, a refined map g XE (D) generated based on the template X E shown below is defined by the following equation.

Figure 0004711863
Figure 0004711863

上記の式(XEの式)において、Σは、「0」,「1」,「2」,「3」,「4」のいずれかが設定されることを表している(数式(2)のΣを参照)。また、[1],[0]は、任意項目値または選択項目値を表す記号「*」に対して、右から左へ順番に付与した0から始まる通番であり、上記gXE(DE)の式のd[1],d[0]は、それぞれ、テンプレートXEで定義された*[1],*[0]と同じ位置にある系列データDEの項目値、すなわち、d4,d1を示している。 In the above formula (X E formula), Σ represents that any one of “0”, “1”, “2”, “3”, “4” is set (formula (2)). (See Σ). [1] and [0] are serial numbers starting from 0 assigned to the symbol “*” representing an arbitrary item value or a selected item value in order from right to left, and the above g XE (D E ) D [1] and d [0] in the equation (1) are the item values of the series data D E at the same positions as * [1] and * [0] defined in the template X E , that is, d 4 , It shows d 1.

また、上記m(x)の式は、項目値xに対して、選択項目値の集合Πmに含まれる選択項目値(数式(2)を参照)に応じて0から始まる通番を割り当てるための式であり、項目値xが選択項目値{0,1}に含まれる場合はm(x)=「0」となり、xが{2}に含まれる場合はm(x)=「1」となり、xが{3,4}に含まれる場合はm(x)=「2」となることを示している。例えば、x=d4=1であった場合は、m(d4)=0となり、x=d1=4であった場合は、m(d1)=2となる。 Further, the above m (x) formula is for assigning a serial number starting from 0 to the item value x according to the selection item value (see Equation (2)) included in the selection item value set Π m . When the item value x is included in the selection item value {0, 1}, m (x) = “0”, and when x is included in {2}, m (x) = “1”. , X is included in {3, 4}, it indicates that m (x) = “2”. For example, when x = d 4 = 1, m (d 4 ) = 0, and when x = d 1 = 4, m (d 1 ) = 2.

また、上記gXE(DE)の式において、各項目値m(d4),m(d1)に乗じている3j(j=1,0)は、「3」が、選択項目値の集合Πmに含まれる選択項目値の数({0,1},{2},{3,4}の3つ)で決められ(数式(2)のΠmを参照)、指数jが、テンプレートXEにおいて任意項目値または選択項目値を表す記号「*」に付与した通番([1],[0])で決められる。 In the above equation of g XE (D E ), “3” is the selected item value for 3 j (j = 1, 0) multiplied by the item values m (d 4 ) and m (d 1 ). Is determined by the number of selection item values (three of {0, 1}, {2}, {3, 4}) included in the set Π m (see Π m in equation (2)), and the index j is , serial number granted to the symbol "*" representing any item values or selection items value in template X E ([1], [ 0]) is determined by.

この写像例gXE(DE)により、例えば、系列データが With this mapping example g XE (D E ), for example, the series data is

E=<3 1 3 1 4 0> D E = <3 1 3 1 4 0>

であった場合は、 If it was

XE(DE)=0×31+2×30
=2
g XE (D E ) = 0 × 3 1 + 2 × 3 0
= 2

となり、詳細化パターン番号は「2」となる。 Thus, the detailed pattern number is “2”.

なお、ここでは、抽出する系列パターンの長さlが「6」、抽出する系列パターンに含まれる任意項目値または選択項目値の数kが「2」、選択項目値の集合Πmに含まれる選択項目値の数が「3」である場合の詳細化写像の生成について説明したが、本発明はこれに限定されるものではなく、上述したように、詳細化写像は、l、kおよびΠmに設定される値に応じて、適宜生成されるものである。 Here, the length l of the sequence pattern to be extracted is “6”, the number k of arbitrary item values or selection item values included in the sequence pattern to be extracted is “2”, and is included in the set 選 択m of selection item values. Although the generation of the detailed mapping when the number of selection item values is “3” has been described, the present invention is not limited to this, and as described above, the detailed mapping includes l, k, and Π. According to the value set in m , it is generated appropriately.

系列パターン計数部240は、系列データ記憶部110に記憶された系列データを読み出し、写像生成部230により生成された一般化写像および詳細化写像を用いて、読み出した系列データがマッチする詳細化パターンの出現数を計数する処理部である。具体的には、この系列パターン計数部240は、テンプレート生成部120で生成されたテンプレートXごとに、一般化パターン番号と詳細化パターン参照ポインタとを対応付けたパターンテーブルを生成する。ここで、詳細化パターン参照ポインタとは、一般化パターン番号と、後述する詳細化パターンテーブルとを対応付けるためのポインタである。ここで、一般化パターン番号とは、前述した一般化写像fX(D)によって導出される一般化パターン番号に対応するものであり、0から始まる通番となる。また、パターンカウンタは、一般化パターン番号と詳細化パターン番号の組ごとに、系列データ記憶部110に記憶された系列データにおける、詳細化パターンの出現数を計数するためのカウンタである。 The sequence pattern counting unit 240 reads the sequence data stored in the sequence data storage unit 110, and uses the generalized map and the detailed map generated by the map generation unit 230 to use the detailed pattern that matches the read sequence data. It is a processing part which counts the appearance number of. Specifically, the series pattern counting unit 240 generates a pattern table in which the generalized pattern number and the detailed pattern reference pointer are associated with each other for each template X generated by the template generation unit 120. Here, the detailed pattern reference pointer is a pointer for associating a generalized pattern number with a detailed pattern table to be described later. Here, the generalized pattern number corresponds to the generalized pattern number derived from the above-described generalized map f X (D), and is a serial number starting from 0. The pattern counter is a counter for counting the number of appearances of detailed patterns in the sequence data stored in the sequence data storage unit 110 for each set of generalized pattern numbers and detailed pattern numbers.

例えば、前述したテンプレート   For example, the template mentioned above

E=<x5 * x32 * x0X E = <x 5 * x 3 x 2 * x 0 >

に対するパターンテーブルでは、54(=625)個のパターン番号、すなわち「0」〜「624」のパターン番号と、パターンカウンタとが対応付けられている。そして、かかるパターン番号およびパターンカウンタの数は、テンプレートXEから生成される一般化パターンのパターン数と同数となる。 In this pattern table, 5 4 (= 625) pattern numbers, that is, pattern numbers “0” to “624” are associated with the pattern counter. Then, the number of such pattern number and the pattern counter is a pattern as many generalized pattern generated from the template X E.

さらに、系列パターン計数部240は、パターンテーブルに設定した一般化パターン番号ごとに、詳細化パターン番号と詳細化パターンカウンタとを対応付けた詳細化パターンテーブルを備える。詳細化パターンテーブルは、前述した詳細化パターン参照ポインタによって、パターンテーブルの一般化パターン番号ごとに対応付けられる。   Further, the series pattern counting unit 240 includes a detailed pattern table in which a detailed pattern number and a detailed pattern counter are associated with each generalized pattern number set in the pattern table. The detailed pattern table is associated with each generalized pattern number of the pattern table by the above-described detailed pattern reference pointer.

ここで、詳細化パターン番号とは、前述した詳細化写像gXE(DE)によって導出される詳細化パターン番号に対応するものであり、0から始まる通番となる。また、詳細化パターンカウンタは、詳細化パターン番号ごとに、系列データ記憶部110に記憶された系列データにおける、詳細化パターンの出現数を計数するためのカウンタである。 Here, the detailed pattern number corresponds to the detailed pattern number derived from the above-described detailed map g XE (D E ), and is a serial number starting from 0. The detailed pattern counter is a counter for counting the number of appearances of the detailed pattern in the sequence data stored in the sequence data storage unit 110 for each detail pattern number.

図8は、本実施例2に係る系列パターン計数部240によって用いられる詳細化パターンテーブルの一例を示す図である。例えば、同図に示すように、前述したパターンテンプレート   FIG. 8 is a diagram illustrating an example of a detailed pattern table used by the sequence pattern counting unit 240 according to the second embodiment. For example, as shown in FIG.

E=<x5 * x32 * x0X E = <x 5 * x 3 x 2 * x 0 >

に対するパターンテーブルに含まれるパターン場の具455に対する詳細化パターンテーブルでは、32(=9)個の詳細化パターン番号、すなわち「0」〜「8」の詳細化パターン番号と、詳細化パターンカウンタとが対応付けられている。そして、かかる詳細化パターン番号および詳細化パターンカウンタの数は、テンプレートXEから生成される詳細化パターンのパターン数と同数となる。 In the refined pattern table for the pattern field tool 455 included in the pattern table for, 3 2 (= 9) refined pattern numbers, that is, refined pattern numbers of “0” to “8”, and the refined pattern counter Are associated with each other. Then, the number of such details pattern number and detailed patterns counter, a pattern as many details of patterns generated from the template X E.

系列パターン計数部240は、詳細化パターンテーブルの詳細化パターンカウンタを初期化(「0」を設定)した後に、系列データ記憶部110により記憶された系列データDを順次読み出し、写像生成部230により生成された一般化写像fX(D)および詳細化写像gX(D)を用いて詳細化パターン番号を導出し、導出した詳細化パターン番号に対応する詳細化パターンテーブルの詳細化パターンカウンタに「1」を加算する。 The sequence pattern counting unit 240 initializes the detail pattern counter of the detail pattern table (sets “0”), then sequentially reads the sequence data D stored in the sequence data storage unit 110, and the mapping generation unit 230 The refined pattern number is derived using the generated generalized map f X (D) and the refined map g X (D), and the refined pattern counter of the refined pattern table corresponding to the derived refined pattern number is used. Add “1”.

例えば、前述した系列データ   For example, the series data mentioned above

E=<3 1 3 1 4 0> D E = <3 1 3 1 4 0>

を読み出した場合は、 Is read out,

XE(DE)=455 , gXE(DE)=2 f XE (D E ) = 455, g XE (D E ) = 2

となることより、系列パターン計数部240は、パターンテーブルの、一般化パターン番号「455」に対応する詳細化パターン参照ポインタを参照し、そのポインタで対応付けられた詳細化パターンテーブルの、詳細化パターン番号「2」に対応する詳細化パターンカウンタに「1」を加算する(図3に示すカウント2)。 Thus, the sequence pattern counting unit 240 refers to the refined pattern reference pointer corresponding to the generalized pattern number “455” in the pattern table, and refines the refined pattern table associated with the pointer. “1” is added to the detailed pattern counter corresponding to the pattern number “2” (count 2 shown in FIG. 3).

こうして、パターン計数部240は、テンプレート生成部120により生成された全てのテンプレートに対して、上述したパターンテーブルおよび詳細化パターンテーブルの生成と、一般化写像および詳細化写像を用いた詳細化パターンカウンタの加算とを行う。   In this way, the pattern counting unit 240 generates the above-described pattern table and detailed pattern table, and the detailed pattern counter using the generalized map and the detailed map for all templates generated by the template generating unit 120. Is added.

系列パターン出力部160は、系列パターン計数部240によって生成された詳細化パターンテーブルから、詳細化パターンカウンタが所定の閾値以上である詳細化パターンを抽出し、抽出した詳細化パターンを抽出結果として、例えばディスプレイ装置などの出力装置に出力する処理部である。   The sequence pattern output unit 160 extracts a detailed pattern whose detailed pattern counter is equal to or greater than a predetermined threshold from the detailed pattern table generated by the sequence pattern counting unit 240, and uses the extracted detailed pattern as an extraction result. For example, it is a processing unit that outputs to an output device such as a display device.

上述してきたように、本実施例2では、写像生成部230が、系列データに含まれる項目値から詳細化パターンを一意に識別する詳細化パターン番号を導出する詳細化写像を生成し、系列パターン計数部240が、詳細化パターンと、詳細化写像を用いて導出される詳細化パターン番号と、詳細化パターンにマッチする系列データの数を計数する詳細化パターンカウンタとを詳細化パターンごとに対応付けた詳細化パターンテーブルをクリアし、記憶している系列データを順次読み出すとともに、詳細化写像を用いて詳細化パターン番号を導出し、導出した詳細化パターン番号に基づいて詳細化パターンテーブルの詳細化パターンカウンタを計数することとしたので、頻出する可能性のある系列パターン群を生成するたびに系列データを全て読み出して当該系列パターンの出現数を計数するのではなく、一般化写像および詳細化写像を生成するたびに系列データを全て読み出すことによって、同じ写像の組で表される全ての詳細化パターンの出現数が一括して計数される。この結果、候補パターン数の爆発に影響されず、決まった回数だけ系列データを走査すれば頻出する一般化パターン発見が完了するので、処理時間が閾値に影響されないという効果を奏する。   As described above, in the second embodiment, the mapping generation unit 230 generates a detailed mapping for deriving a detailed pattern number for uniquely identifying the detailed pattern from the item values included in the sequence data, and the sequence pattern The counting unit 240 corresponds to the refinement pattern, the refinement pattern number derived using the refinement mapping, and the refinement pattern counter that counts the number of series data matching the refinement pattern for each refinement pattern. The detailed pattern table attached is cleared, the stored series data is read sequentially, the detailed pattern number is derived using the detailed mapping, and the details of the detailed pattern table based on the derived detailed pattern number Every time a series pattern group that may occur frequently is generated. Instead of counting out and counting the number of occurrences of the sequence pattern, by reading out all the sequence data every time a generalized map and a detailed map are generated, all of the detailed patterns represented by the same set of maps The number of appearances is counted at once. As a result, the generalized pattern finding that appears frequently only by scanning the series data a predetermined number of times without being affected by the explosion of the number of candidate patterns is completed, so that the processing time is not affected by the threshold value.

なお、本実施例1および2において図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。   In addition, each component of each apparatus illustrated in the first and second embodiments is functionally conceptual and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured.

また、本実施例1および2では、系列パターン発見装置100および200について説明したが、系列パターン発見装置100および200が有する構成をソフトウェアによって実現することで、同様の機能を有する系列パターン発見プログラムを得ることができる。そこで、この系列パターン発見プログラムを実行するコンピュータについて説明する。   Further, in the first and second embodiments, the sequence pattern finding devices 100 and 200 have been described. However, by realizing the configuration of the sequence pattern finding devices 100 and 200 with software, a sequence pattern finding program having the same function can be obtained. Obtainable. A computer that executes this sequence pattern finding program will be described.

図9は、本実施例1および2に係る系列パターン発見プログラムを実行するコンピュータの構成を示す機能ブロック図である。同図に示すように、このコンピュータ300は、RAM310と、CPU320と、HDD330と、LANインタフェース340と、入出力インタフェース350と、DVDドライブ360とを有する。   FIG. 9 is a functional block diagram illustrating the configuration of the computer that executes the sequence pattern finding program according to the first and second embodiments. As shown in the figure, the computer 300 includes a RAM 310, a CPU 320, an HDD 330, a LAN interface 340, an input / output interface 350, and a DVD drive 360.

RAM310は、プログラムやプログラムの実行途中結果などを記憶するメモリであり、CPU320は、RAM310からプログラムを読み出して実行する中央処理装置である。   The RAM 310 is a memory that stores a program, a program execution result, and the like. The CPU 320 is a central processing unit that reads a program from the RAM 310 and executes the program.

HDD330は、プログラムやデータを格納するディスク装置であり、LANインタフェース340は、コンピュータ300をLAN経由で他のコンピュータに接続するためのインタフェースである。   The HDD 330 is a disk device that stores programs and data, and the LAN interface 340 is an interface for connecting the computer 300 to other computers via the LAN.

入出力インタフェース350は、マウスやキーボードなどの入力装置および表示装置を接続するためのインタフェースであり、DVDドライブ360は、DVDの読み書きを行う装置である。   The input / output interface 350 is an interface for connecting an input device such as a mouse or a keyboard and a display device, and the DVD drive 360 is a device for reading / writing a DVD.

そして、このコンピュータ300において実行される系列パターン発見プログラム311は、DVDに記憶され、DVDドライブ360によってDVDから読み出されてコンピュータ300にインストールされる。   The sequence pattern finding program 311 executed in the computer 300 is stored in the DVD, read from the DVD by the DVD drive 360, and installed in the computer 300.

あるいは、この系列パターン発見プログラム311は、LANインタフェース340を介して接続された他のコンピュータシステムのデータベースなどに記憶され、これらのデータベースから読み出されてコンピュータ300にインストールされる。   Alternatively, this sequence pattern finding program 311 is stored in a database or the like of another computer system connected via the LAN interface 340, read from these databases, and installed in the computer 300.

そして、インストールされた系列パターン発見プログラム311は、HDD330に記憶され、RAM310に読み出されてCPU320によって系列パターン発見プロセス321として実行される。   The installed sequence pattern finding program 311 is stored in the HDD 330, read out to the RAM 310, and executed as a sequence pattern finding process 321 by the CPU 320.

また、本実施例1および2では、日々の株価の終値を蓄積した時系列データから、その系列パターンを抽出する場合について説明したが、本発明はこれに限定されるものではなく、例えば小売店の売上データや、クレジットカードの利用履歴などの系列データから、その系列パターンを抽出する場合にも同様に適用することができる。   Further, in the first and second embodiments, the case where the series pattern is extracted from the time series data in which the closing price of the daily stock price is accumulated has been described. However, the present invention is not limited to this. The same can be applied to the case of extracting the series pattern from the series data such as the sales data and the credit card usage history.

(付記1)変動する項目値を順番に並べた系列データから、該系列データに頻繁に出現している系列パターンを抽出する系列パターン発見プログラムであって、
系列パターン抽出の対象となる系列データを記憶装置に記憶する系列データ記憶手順と、
任意の項目値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、前記系列データ記憶手順により記憶された系列データを順次読み出して、該系列データがマッチする一般化パターンの出現数を計数する系列パターン計数手順と、
前記系列パターン計数手順により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値に、許容する値を選択した選択項目値を設定して系列パターンを逐次生成し、前記系列データ記憶手順により記憶された系列データを順次読み出して該系列パターンと照合することにより、該系列データがマッチする系列パターンの出現数を計数する系列パターン発見手順と、
前記系列パターン発見手順により計数された出現数が所定の閾値以上である系列パターンを抽出結果の系列パターンとして出力する系列パターン出力手順と、
をコンピュータに実行させることを特徴とする系列パターン発見プログラム。
(Supplementary note 1) A sequence pattern finding program for extracting a sequence pattern frequently appearing in the sequence data from the sequence data in which fluctuating item values are arranged in order,
A sequence data storage procedure for storing sequence data to be sequence pattern extracted in a storage device;
A general pattern in which an arbitrary item value that allows an arbitrary item value and a series pattern including only the item value is defined as a generalized pattern, and the series data stored by the sequence data storage procedure is sequentially read and the series data matches A sequence pattern counting procedure for counting the number of occurrences of the digitized pattern;
A generalized pattern in which the number of occurrences counted by the sequence pattern counting procedure is equal to or greater than a predetermined threshold is extracted, and a selection item value in which an allowable value is selected is set as an arbitrary item value included in the extracted generalized pattern Sequence pattern generation, and sequentially reading the sequence data stored by the sequence data storage procedure and collating it with the sequence pattern, thereby counting the number of occurrences of the sequence pattern matching the sequence data Procedure and
A sequence pattern output procedure for outputting a sequence pattern whose number of occurrences counted by the sequence pattern discovery procedure is equal to or greater than a predetermined threshold as a sequence pattern of an extraction result;
A sequence pattern finding program characterized in that a computer is executed.

(付記2)前記系列パターン計数手順は、
前記系列パターンを一意に識別する一般化パターン番号と、該一般化パターンの出現数を計数するための一般化パターンカウンタとを対応付けた一般化パターンテーブルを備え、
前記系列データから前記一般化パターン番号を導出するための写像である一般化写像を生成する一般化写像生成手順と、
前記系列データ記憶手順により記憶された系列データを順次読み出すとともに、該読み出した系列データから前記一般化写像を用いて前記一般化パターン番号を導出し、前記一般化パターンテーブルの、該導出した一般化パターン番号に対応する一般化パターンカウンタをカウントアップする一般化パターンカウンタ計数手順と、
をコンピュータに実行させることを特徴とする付記1に記載の系列パターン発見プログラム。
(Supplementary Note 2) The sequence pattern counting procedure is as follows:
A generalized pattern table associating a generalized pattern number for uniquely identifying the sequence pattern with a generalized pattern counter for counting the number of occurrences of the generalized pattern;
A generalized map generation procedure for generating a generalized map that is a map for deriving the generalized pattern number from the sequence data;
The sequence data stored by the sequence data storage procedure is sequentially read out, the generalized pattern number is derived from the read sequence data using the generalized mapping, and the derived generalization of the generalized pattern table is derived. A generalized pattern counter counting procedure for counting up the generalized pattern counter corresponding to the pattern number;
The sequence pattern finding program according to appendix 1, wherein the computer is executed.

(付記3)前記系列パターン発見手順は、
前記系列パターン計数手順により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値の一つに選択項目値を設定することによって系列パターンを逐次生成し、
該逐次生成した系列パターンと、前記系列データ記憶手順により記憶された系列データとを照合することにより、該系列データがマッチする系列パターンの出現数を計数し、
該計数した出現数が所定の閾値以上である系列パターンを抽出し、該抽出した系列パターンに含まれる任意項目値の一つに選択項目値を設定することによってさらに系列パターンを詳細化し、
該詳細化した系列パターンと、前記系列データ記憶手順により記憶された系列データとを照合することにより、該系列データがマッチする系列パターンの出現数を計数し、
該系列パターンに含まれる全ての任意項目値に選択項目値を設定するまで、前記系列パターンの詳細化と、前記系列パターンの出現数の計数とを繰り返すことを特徴とする付記1または2に記載の系列パターン発見プログラム。
(Supplementary Note 3) The sequence pattern discovery procedure is as follows:
A generalized pattern in which the number of occurrences counted by the sequence pattern counting procedure is equal to or greater than a predetermined threshold is extracted, and a sequence is set by setting a selection item value as one of the arbitrary item values included in the extracted generalized pattern Generate patterns sequentially,
By comparing the sequentially generated sequence pattern with the sequence data stored by the sequence data storage procedure, the number of occurrences of the sequence pattern matching the sequence data is counted,
Extracting a series pattern in which the counted number of occurrences is equal to or greater than a predetermined threshold, further refine the series pattern by setting a selection item value to one of the arbitrary item values included in the extracted series pattern,
By collating the detailed sequence pattern with the sequence data stored by the sequence data storage procedure, the number of occurrences of the sequence pattern matching the sequence data is counted,
Supplementary note 1 or 2 characterized in that the series pattern detailing and counting of the number of occurrences of the series pattern are repeated until selection item values are set for all arbitrary item values included in the series pattern. Series pattern discovery program.

(付記4)前記系列パターン計数手順は、
許容する値を選択した選択項目値と項目値のみを含んだ系列パターンを詳細化パターンとして定義し、
前記詳細化パターンを一意に識別する詳細化パターン番号と、該詳細化パターンの出現数を計数するための詳細化パターンカウンタとを対応付けた詳細化パターンテーブルを備え、
前記系列データに含まれる項目値から前記詳細化パターン番号を導出するための写像である詳細化写像を生成する詳細化写像生成手順と、
前記系列データ記憶手順により記憶された系列データを順次読み出すとともに、該読み出した系列データから前記詳細化写像を用いて前記詳細化パターン番号を導出し、前記詳細化パターンテーブルの、該導出した詳細化パターン番号に対応する詳細化パターンカウンタをカウントアップする詳細化パターンカウンタ計数手順と、
をコンピュータに実行させることを特徴とする付記1または2に記載の系列パターン発見プログラム。
(Supplementary Note 4) The sequence pattern counting procedure is as follows:
Define a series pattern that includes only the selected item value and the item value that have selected acceptable values as a refinement pattern,
A detailed pattern table in which a detailed pattern number for uniquely identifying the detailed pattern is associated with a detailed pattern counter for counting the number of appearances of the detailed pattern;
A detailed map generation procedure for generating a detailed map that is a map for deriving the detailed pattern number from the item value included in the series data;
The sequence data stored by the sequence data storage procedure is sequentially read out, the detailed pattern number is derived from the read sequence data by using the detailed mapping, and the derived detail of the detailed pattern table is derived. A detailed pattern counter counting procedure for counting up the detailed pattern counter corresponding to the pattern number;
The sequence pattern finding program according to appendix 1 or 2, wherein the program is executed by a computer.

(付記5)前記系列データ記憶手順は、連続して変化する値を離散化し、該離散化した間隔ごとの値を項目値として順番に並べた系列データをパターン抽出の対照として記憶することを特徴とする付記1〜4のいずれか一つに記載の系列パターン発見プログラム。 (Supplementary note 5) The sequence data storing procedure includes discretizing continuously changing values, and storing the sequence data in which the values for the discrete intervals are arranged in order as item values, as a reference for pattern extraction. The sequence pattern discovery program according to any one of Supplementary notes 1 to 4.

(付記6)前記系列パターン発見手順は、前記系列データ記憶手順により記憶された系列データを読み出すとともに、拡張Shift−And法による文字列照合アルゴリズムを用いて、該系列データがマッチする前記詳細化パターンの出現数を計数することを特徴とする付記1、2または3に記載の系列パターン発見プログラム。 (Supplementary Note 6) The detailed pattern in which the sequence pattern finding procedure reads the sequence data stored by the sequence data storage procedure and matches the sequence data using a character string matching algorithm based on the extended Shift-And method. 4. The sequence pattern finding program according to appendix 1, 2, or 3, characterized in that the number of occurrences is counted.

(付記7)変動する項目値を順番に並べた系列データから、該系列データに頻繁に出現している系列パターンを抽出する系列パターン発見方法であって、
系列パターン抽出の対象となる系列データを記憶装置に記憶する系列データ記憶工程と、
任意の項目値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、前記系列データ記憶工程により記憶された系列データを順次読み出して、該系列データがマッチする一般化パターンの出現数を計数する系列パターン計数工程と、
前記系列パターン計数工程により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値に、許容する値を選択した選択項目値を設定して系列パターンを逐次生成し、前記系列データ記憶工程により記憶された系列データを順次読み出して該系列パターンと照合することにより、該系列データがマッチする系列パターンの出現数を計数する系列パターン発見工程と、
前記系列パターン発見工程により計数された出現数が所定の閾値以上である系列パターンを抽出結果の系列パターンとして出力する系列パターン出力工程と、
を含んだことを特徴とする系列パターン発見方法。
(Supplementary note 7) A sequence pattern finding method for extracting a sequence pattern that frequently appears in the sequence data from the sequence data in which fluctuating item values are arranged in order,
A sequence data storage step of storing in the storage device the sequence data to be sequence pattern extracted;
A general pattern in which an arbitrary item value that allows an arbitrary item value and a series pattern including only the item value is defined as a generalized pattern, and the series data stored in the series data storage step is sequentially read and the series data is matched. A sequence pattern counting step for counting the number of occurrences of the digitized pattern;
A generalized pattern in which the number of occurrences counted in the sequence pattern counting step is equal to or greater than a predetermined threshold is extracted, and a selection item value in which an allowable value is selected is set as an arbitrary item value included in the extracted generalized pattern Then, the sequence pattern is sequentially generated, and the sequence data stored in the sequence data storing step is sequentially read out and collated with the sequence pattern, thereby counting the number of occurrences of the sequence pattern matching the sequence data. Process,
A sequence pattern output step of outputting a sequence pattern whose number of occurrences counted by the sequence pattern discovery step is equal to or greater than a predetermined threshold as a sequence pattern of an extraction result;
A sequence pattern finding method characterized by including

(付記8)変動する項目値を順番に並べた系列データから、該系列データに頻繁に出現している系列パターンを抽出する系列パターン発見装置であって、
系列パターン抽出の対象となる系列データを記憶装置に記憶する系列データ記憶手段と、
任意の項目値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、前記系列データ記憶手段により記憶された系列データを順次読み出して、該系列データがマッチする一般化パターンの出現数を計数する系列パターン計数手段と、
前記系列パターン計数手段により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値に、許容する値を選択した選択項目値を設定して系列パターンを逐次生成し、前記系列データ記憶手段により記憶された系列データを順次読み出して該系列パターンと照合することにより、該系列データがマッチする系列パターンの出現数を計数する系列パターン発見手段と、
前記系列パターン発見手段により計数された出現数が所定の閾値以上である系列パターンを抽出結果の系列パターンとして出力する系列パターン出力手段と、
を備えたことを特徴とする系列パターン発見装置。
(Supplementary note 8) A sequence pattern finding device for extracting a sequence pattern that frequently appears in the sequence data from the sequence data in which the fluctuating item values are arranged in order,
Sequence data storage means for storing sequence data to be sequence pattern extracted in a storage device;
A general pattern in which an arbitrary item value that allows an arbitrary item value and a series pattern including only the item value is defined as a generalized pattern, and the series data stored by the series data storage unit is sequentially read and the series data is matched. A sequence pattern counting means for counting the number of occurrences of the digitized pattern;
A generalized pattern in which the number of appearances counted by the sequence pattern counting unit is equal to or greater than a predetermined threshold is extracted, and a selection item value in which an allowable value is selected is set as an arbitrary item value included in the extracted generalized pattern Then, the sequence pattern is sequentially generated, and the sequence data stored in the sequence data storage means is sequentially read out and collated with the sequence pattern, thereby counting the number of occurrences of the sequence pattern matching the sequence data. Means,
Sequence pattern output means for outputting a sequence pattern in which the number of occurrences counted by the sequence pattern finding means is equal to or greater than a predetermined threshold as a sequence pattern of an extraction result;
A sequence pattern finding device characterized by comprising:

以上のように、本発明に係る系列パターン発見プログラム、系列パターン発見方法および系列パターン発見装置は、変動する項目値を順番に並べた系列データから、該系列データに頻繁に出現している系列パターンを抽出するに有用であり、特に、抽出対象のデータ量が膨大である場合に適している。   As described above, the sequence pattern discovery program, the sequence pattern discovery method, and the sequence pattern discovery device according to the present invention provide a sequence pattern that frequently appears in sequence data from sequence data in which fluctuating item values are arranged in order. Is particularly useful when the amount of data to be extracted is enormous.

系列パターンの抽出対象となる系列データの一例を示す図である。It is a figure which shows an example of the sequence data used as the extraction target of a sequence pattern. 本実施例1に係る系列パターン発見装置の構成を示す機能ブロック図である。1 is a functional block diagram illustrating a configuration of a sequence pattern finding apparatus according to a first embodiment. 本実施例1に係るパターン計数部によって用いられるパターンテーブルの一例を示す図である。It is a figure which shows an example of the pattern table used by the pattern counting part which concerns on the present Example 1. FIG. 本実施例1に係る詳細化パターン計数部による詳細化パターン計数処理の一例を示す図である。It is a figure which shows an example of the detailed pattern count process by the detailed pattern counting part which concerns on the present Example 1. FIG. 本実施例1に係るパターン計数部による一般化パターン計数処理の処理手順を示すフローチャートである。7 is a flowchart illustrating a processing procedure of a generalized pattern counting process by a pattern counting unit according to the first embodiment. 本実施例1に係る詳細化パターン計数部による詳細化パターン計数処理の処理手順を示すフローチャートである。6 is a flowchart illustrating a processing procedure of a detailed pattern counting process by a detailed pattern counting unit according to the first embodiment. 本実施例2に係る系列パターン発見装置の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the sequence pattern discovery apparatus which concerns on the present Example 2. 本実施例2に係るパターン計数部によって用いられる詳細化パターンテーブルの一例を示す図である。It is a figure which shows an example of the detailed pattern table used by the pattern counting part which concerns on the present Example 2. FIG. 本実施例1および2に係る系列パターン発見プログラムを実行するコンピュータの構成を示す機能ブロック図である。FIG. 3 is a functional block diagram illustrating a configuration of a computer that executes a sequence pattern finding program according to the first and second embodiments.

符号の説明Explanation of symbols

100、200 系列パターン発見装置
110 系列データ記憶部
120 パターンテンプレート生成部
130、230 写像生成部
140、240 パターン計数部
150 詳細化パターン計数部
160、260 パターン出力部
300 コンピュータ
310 RAM
311 系列パターン発見プログラム
320 CPU
321 系列パターン発見プロセス
330 HDD
340 LANインタフェース
350 入出力インタフェース
360 DVDドライブ
100, 200 Sequence pattern discovery device 110 Sequence data storage unit 120 Pattern template generation unit 130, 230 Mapping generation unit 140, 240 Pattern counting unit 150 Detailed pattern counting unit 160, 260 Pattern output unit 300 Computer 310 RAM
311 Sequence Pattern Discovery Program 320 CPU
321 Sequence pattern discovery process 330 HDD
340 LAN interface 350 I / O interface 360 DVD drive

Claims (7)

変動する項目値を順番に並べた系列データから、該系列データに頻繁に出現している系列パターンを抽出する系列パターン発見プログラムであって、
系列パターン抽出の対象となる系列データを記憶装置に記憶する系列データ記憶手順と、
任意の項目値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、前記系列データ記憶手順により記憶された系列データを順次読み出して、該系列データがマッチする一般化パターンの出現数を計数する系列パターン計数手順と、
前記系列パターン計数手順により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値に、許容する値を選択した選択項目値を設定して系列パターンを逐次生成し、前記系列データ記憶手順により記憶された系列データを順次読み出して該系列パターンと照合することにより、該系列データがマッチする系列パターンの出現数を計数する系列パターン発見手順と、
前記系列パターン発見手順により計数された出現数が所定の閾値以上である系列パターンを抽出結果の系列パターンとして出力する系列パターン出力手順と、
をコンピュータに実行させることを特徴とする系列パターン発見プログラム。
A sequence pattern discovery program for extracting a sequence pattern that frequently appears in the sequence data from the sequence data in which the fluctuating item values are arranged in order,
A sequence data storage procedure for storing sequence data to be sequence pattern extracted in a storage device;
A general pattern in which an arbitrary item value that allows an arbitrary item value and a series pattern including only the item value is defined as a generalized pattern, and the series data stored by the sequence data storage procedure is sequentially read and the series data matches A sequence pattern counting procedure for counting the number of occurrences of the digitized pattern;
A generalized pattern in which the number of occurrences counted by the sequence pattern counting procedure is equal to or greater than a predetermined threshold is extracted, and a selection item value in which an allowable value is selected is set as an arbitrary item value included in the extracted generalized pattern Sequence pattern generation, and sequentially reading the sequence data stored by the sequence data storage procedure and collating it with the sequence pattern, thereby counting the number of occurrences of the sequence pattern matching the sequence data Procedure and
A sequence pattern output procedure for outputting a sequence pattern whose number of occurrences counted by the sequence pattern discovery procedure is equal to or greater than a predetermined threshold as a sequence pattern of an extraction result;
A sequence pattern finding program characterized in that a computer is executed.
前記系列パターン計数手順は、
前記系列パターンを一意に識別する一般化パターン番号と、該一般化パターンの出現数を計数するための一般化パターンカウンタとを対応付けた一般化パターンテーブルを備え、
前記系列データから前記一般化パターン番号を導出するための写像である一般化写像を生成する一般化写像生成手順と、
前記系列データ記憶手順により記憶された系列データを順次読み出すとともに、該読み出した系列データから前記一般化写像を用いて前記一般化パターン番号を導出し、前記一般化パターンテーブルの、該導出した一般化パターン番号に対応する一般化パターンカウンタをカウントアップする一般化パターンカウンタ計数手順と、
をコンピュータに実行させることを特徴とする請求項1に記載の系列パターン発見プログラム。
The sequence pattern counting procedure includes:
A generalized pattern table associating a generalized pattern number for uniquely identifying the sequence pattern with a generalized pattern counter for counting the number of occurrences of the generalized pattern;
A generalized map generation procedure for generating a generalized map that is a map for deriving the generalized pattern number from the sequence data;
The sequence data stored by the sequence data storage procedure is sequentially read out, the generalized pattern number is derived from the read sequence data using the generalized mapping, and the derived generalization of the generalized pattern table is derived. A generalized pattern counter counting procedure for counting up the generalized pattern counter corresponding to the pattern number;
The sequence pattern finding program according to claim 1, wherein:
前記系列パターン発見手順は、
前記系列パターン計数手順により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値の一つに選択項目値を設定することによって系列パターンを逐次生成し、
該逐次生成した系列パターンと、前記系列データ記憶手順により記憶された系列データとを照合することにより、該系列データがマッチする系列パターンの出現数を計数し、
該計数した出現数が所定の閾値以上である系列パターンを抽出し、該抽出した系列パターンに含まれる任意項目値の一つに選択項目値を設定することによってさらに系列パターンを詳細化し、
該詳細化した系列パターンと、前記系列データ記憶手順により記憶された系列データとを照合することにより、該系列データがマッチする系列パターンの出現数を計数し、
該系列パターンに含まれる全ての任意項目値に選択項目値を設定するまで、前記系列パターンの詳細化と、前記系列パターンの出現数の計数とを繰り返すことを特徴とする請求項1または2に記載の系列パターン発見プログラム。
The sequence pattern discovery procedure includes:
A generalized pattern in which the number of occurrences counted by the sequence pattern counting procedure is equal to or greater than a predetermined threshold is extracted, and a sequence is set by setting a selection item value as one of the arbitrary item values included in the extracted generalized pattern Generate patterns sequentially,
By comparing the sequentially generated sequence pattern with the sequence data stored by the sequence data storage procedure, the number of occurrences of the sequence pattern matching the sequence data is counted,
Extracting a series pattern in which the counted number of occurrences is equal to or greater than a predetermined threshold, further refine the series pattern by setting a selection item value to one of the arbitrary item values included in the extracted series pattern,
By collating the detailed sequence pattern with the sequence data stored by the sequence data storage procedure, the number of occurrences of the sequence pattern matching the sequence data is counted,
3. The method according to claim 1, wherein detailing of the sequence pattern and counting of the number of appearances of the sequence pattern are repeated until selection item values are set for all arbitrary item values included in the sequence pattern. The described series pattern discovery program.
前記系列パターン計数手順は、
許容する値を選択した選択項目値と項目値のみを含んだ系列パターンを詳細化パターンとして定義し、
前記詳細化パターンを一意に識別する詳細化パターン番号と、該詳細化パターンの出現数を計数するための詳細化パターンカウンタとを対応付けた詳細化パターンテーブルを備え、
前記系列データに含まれる項目値から前記詳細化パターン番号を導出するための写像である詳細化写像を生成する詳細化写像生成手順と、
前記系列データ記憶手順により記憶された系列データを順次読み出すとともに、該読み出した系列データから前記詳細化写像を用いて前記詳細化パターン番号を導出し、前記詳細化パターンテーブルの、該導出した詳細化パターン番号に対応する詳細化パターンカウンタをカウントアップする詳細化パターンカウンタ計数手順と、
をコンピュータに実行させることを特徴とする請求項1または2に記載の系列パターン発見プログラム。
The sequence pattern counting procedure includes:
Define a series pattern that includes only the selected item value and the item value that have selected acceptable values as a refinement pattern,
A detailed pattern table in which a detailed pattern number for uniquely identifying the detailed pattern is associated with a detailed pattern counter for counting the number of appearances of the detailed pattern;
A detailed map generation procedure for generating a detailed map that is a map for deriving the detailed pattern number from the item value included in the series data;
The sequence data stored by the sequence data storage procedure is sequentially read out, the detailed pattern number is derived from the read sequence data by using the detailed mapping, and the derived detail of the detailed pattern table is derived. A detailed pattern counter counting procedure for counting up the detailed pattern counter corresponding to the pattern number;
3. The sequence pattern finding program according to claim 1, wherein:
前記系列データ記憶手順は、連続して変化する値を離散化し、該離散化した間隔ごとの値を項目値として順番に並べた系列データをパターン抽出の対照として記憶することを特徴とする請求項1〜4のいずれか一つに記載の系列パターン発見プログラム。   The sequence data storing procedure discretizes continuously changing values, and stores the sequence data in which the values for the discretized intervals are sequentially arranged as item values as a reference for pattern extraction. The sequence pattern discovery program as described in any one of 1-4. 変動する項目値を順番に並べた系列データから、該系列データに頻繁に出現している系列パターンを抽出する系列パターン発見方法であって、
系列パターン抽出の対象となる系列データを記憶装置に記憶する系列データ記憶工程と、
任意の項目値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、前記系列データ記憶工程により記憶された系列データを順次読み出して、該系列データがマッチする一般化パターンの出現数を計数する系列パターン計数工程と、
前記系列パターン計数工程により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値に、許容する値を選択した選択項目値を設定して系列パターンを逐次生成し、前記系列データ記憶工程により記憶された系列データを順次読み出して該系列パターンと照合することにより、該系列データがマッチする系列パターンの出現数を計数する系列パターン発見工程と、
前記系列パターン発見工程により計数された出現数が所定の閾値以上である系列パターンを抽出結果の系列パターンとして出力する系列パターン出力工程と、
を含んだことを特徴とする系列パターン発見方法。
A sequence pattern finding method for extracting a sequence pattern that frequently appears in the sequence data from the sequence data in which fluctuating item values are arranged in order,
A sequence data storage step of storing in the storage device the sequence data to be sequence pattern extracted;
A general pattern in which an arbitrary item value that allows an arbitrary item value and a series pattern including only the item value is defined as a generalized pattern, and the series data stored in the series data storage step is sequentially read and the series data is matched. A sequence pattern counting step for counting the number of occurrences of the digitized pattern;
A generalized pattern in which the number of occurrences counted in the sequence pattern counting step is equal to or greater than a predetermined threshold is extracted, and a selection item value in which an allowable value is selected is set as an arbitrary item value included in the extracted generalized pattern Then, the sequence pattern is sequentially generated, and the sequence data stored in the sequence data storing step is sequentially read out and collated with the sequence pattern, thereby counting the number of occurrences of the sequence pattern matching the sequence data. Process,
A sequence pattern output step of outputting a sequence pattern whose number of occurrences counted by the sequence pattern discovery step is equal to or greater than a predetermined threshold as a sequence pattern of an extraction result;
A sequence pattern finding method characterized by including
変動する項目値を順番に並べた系列データから、該系列データに頻繁に出現している系列パターンを抽出する系列パターン発見装置であって、
系列パターン抽出の対象となる系列データを記憶装置に記憶する系列データ記憶手段と、
任意の項目値を許容する任意項目値と項目値のみを含んだ系列パターンを一般化パターンとして定義し、前記系列データ記憶手段により記憶された系列データを順次読み出して、該系列データがマッチする一般化パターンの出現数を計数する系列パターン計数手段と、
前記系列パターン計数手段により計数された出現数が所定の閾値以上である一般化パターンを抽出し、該抽出した一般化パターンに含まれる任意項目値に、許容する値を選択した選択項目値を設定して系列パターンを逐次生成し、前記系列データ記憶手段により記憶された系列データを順次読み出して該系列パターンと照合することにより、該系列データがマッチする系列パターンの出現数を計数する系列パターン発見手段と、
前記系列パターン発見手段により計数された出現数が所定の閾値以上である系列パターンを抽出結果の系列パターンとして出力する系列パターン出力手段と、
を備えたことを特徴とする系列パターン発見装置。
A sequence pattern finding device for extracting a sequence pattern that frequently appears in the sequence data from the sequence data in which the fluctuating item values are arranged in order,
Sequence data storage means for storing sequence data to be sequence pattern extracted in a storage device;
A general pattern in which an arbitrary item value that allows an arbitrary item value and a series pattern including only the item value is defined as a generalized pattern, and the series data stored by the series data storage unit is sequentially read and the series data is matched. A sequence pattern counting means for counting the number of occurrences of the digitized pattern;
A generalized pattern in which the number of appearances counted by the sequence pattern counting unit is equal to or greater than a predetermined threshold is extracted, and a selection item value in which an allowable value is selected is set as an arbitrary item value included in the extracted generalized pattern Then, the sequence pattern is sequentially generated, and the sequence data stored in the sequence data storage means is sequentially read out and collated with the sequence pattern, thereby counting the number of occurrences of the sequence pattern matching the sequence data. Means,
Sequence pattern output means for outputting a sequence pattern in which the number of occurrences counted by the sequence pattern finding means is equal to or greater than a predetermined threshold as a sequence pattern of an extraction result;
A sequence pattern finding device characterized by comprising:
JP2006075292A 2006-03-17 2006-03-17 Sequence pattern discovery program, sequence pattern discovery method, and sequence pattern discovery device Expired - Fee Related JP4711863B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006075292A JP4711863B2 (en) 2006-03-17 2006-03-17 Sequence pattern discovery program, sequence pattern discovery method, and sequence pattern discovery device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006075292A JP4711863B2 (en) 2006-03-17 2006-03-17 Sequence pattern discovery program, sequence pattern discovery method, and sequence pattern discovery device

Publications (2)

Publication Number Publication Date
JP2007249835A JP2007249835A (en) 2007-09-27
JP4711863B2 true JP4711863B2 (en) 2011-06-29

Family

ID=38594018

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006075292A Expired - Fee Related JP4711863B2 (en) 2006-03-17 2006-03-17 Sequence pattern discovery program, sequence pattern discovery method, and sequence pattern discovery device

Country Status (1)

Country Link
JP (1) JP4711863B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2856333A4 (en) 2012-05-30 2015-12-30 Hewlett Packard Development Co Field selection for pattern discovery

Also Published As

Publication number Publication date
JP2007249835A (en) 2007-09-27

Similar Documents

Publication Publication Date Title
Marteau Time warp edit distance with stiffness adjustment for time series matching
Ding et al. Querying and mining of time series data: experimental comparison of representations and distance measures
US9792388B2 (en) Pattern extraction apparatus and control method therefor
CA2796061C (en) Ascribing actionable attributes to data that describes a personal identity
CN114095270B (en) Network attack prediction method and device
EP3608802A1 (en) Model variable candidate generation device and method
Li et al. Extracting statistical graph features for accurate and efficient time series classification
JP6567484B2 (en) Estimated model construction system, estimated model construction method and program
JP6242540B1 (en) Data conversion system and data conversion method
WO2012153400A1 (en) Data processing system, data processing method, and program
CN111475551A (en) High average utility sequence pattern mining method under non-overlapping condition
Wilson et al. The motif tracking algorithm
CN106599122B (en) Parallel frequent closed sequence mining method based on vertical decomposition
Sarma et al. Mining time series data with Apriori tid algorithm
Fu et al. Financial Time Series Segmentation based on Specialized Binary Tree Representation.
JP4711863B2 (en) Sequence pattern discovery program, sequence pattern discovery method, and sequence pattern discovery device
US20110113006A1 (en) Business process control apparatus, businesses process control method and business process control program
Murugappan et al. PCFA: mining of projected clusters in high dimensional data using modified FCM algorithm
JP7481909B2 (en) Feature generation method and feature generation device
JP2015187773A (en) Data analysis device, data analysis program, and data analysis method
EP4113313A1 (en) Control method, information processing device, and control program
Ibrahim et al. Towards a new approach to empower periodic pattern mining for massive data using map-reduce
US20130185401A1 (en) Configuration management device, configuration management method, and configuration management program
JP7355375B2 (en) Input item display control system and input item display control method
JP2019159362A (en) Search program and search method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110322

R150 Certificate of patent or registration of utility model

Ref document number: 4711863

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees