JP5788850B2

JP5788850B2 - データ分析支援装置

Info

Publication number: JP5788850B2
Application number: JP2012214884A
Authority: JP
Inventors: 誠二江川; 磯部　庄三; 庄三磯部; 櫻井　茂明; 茂明櫻井; 一嘉西; 松本　茂; 茂松本; ルミ早川
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2012-09-27
Filing date: 2012-09-27
Publication date: 2015-10-07
Anticipated expiration: 2032-09-27
Also published as: EP2902919A4; EP2902919A1; US10515051B2; CN104685492A; JP2014071492A; CN104685492B; WO2014050248A1; US20150199368A1

Description

本発明の実施形態は、データ分析支援装置に関する。

収集されたデータから知識を抽出する過程において、効率よく、精度の高い分析結果を得るために、分析アルゴリズムへの入力データセット（分析データセット）の生成を支援するデータ分析支援装置が用いられている。

この種のデータ分析支援装置については、予め用意した合成手段（変換式）を固定的に用い、分析対象のデータ中の説明変数のうち、１つ以上の説明変数を合成して新しい説明変数を生成する方式が知られている。この方式では、生成した説明変数セットのうち、分析の精度が高くなる説明変数を選ぶことを繰り返して、分析精度を上げていく。さらに、この方式では、複数設定された全ての合成手段を試して最良の説明変数の組合せを選び、分析精度を上げていく。

特開２０００−２０５０４号公報特開平１１−３２８２５５号公報

しかしながら、以上のような方式は、合成手段を固定的に用いるため、どのような変数（群）にも同じ合成手段が適用される。そのため、この方式では、各変数に適した合成手段を動的に決定できない不都合がある。

本発明が解決しようとする課題は、変数に応じて異なる変換式を適用して、変数を生成し得るデータ分析支援装置を提供することである。

実施形態のデータ分析支援装置は、目的変数と前記目的変数に対する説明変数の候補である各変数とを有する分析対象データから前記各変数のバリエーションを生成することにより、前記分析対象データの分析を支援する。

前記データ分析支援装置は、変数タイプ判定手段、変数バリエーション生成手段及び変数寄与率判定手段を備えている。

前記変数タイプ判定手段は、前記各変数について、変数の型を表す変数タイプを判定する。

前記変数バリエーション生成手段は、前記判定された変数タイプと、予め変数タイプ別に変数のバリエーションの生成方法を規定した変数バリエーションルールとに基づいて、前記各変数のバリエーションを生成する。

前記変数寄与率判定手段は、前記生成されたバリエーションにおける前記目的変数への寄与率を算出し、この寄与率に基づいて、当該バリエーションを採用するか削除するかを判定する。

一実施形態に係るデータ分析支援装置の構成を示す模式図である。同実施形態における事務量データの一例を示す模式図である。同実施形態における為替データの一例を示す模式図である。同実施形態における気象データの一例を示す模式図である。同実施形態における地域コードを説明するための模式図である。同実施形態における店舗データの一例を示す模式図である。同実施形態における結合済みデータの一例を示す模式図である。同実施形態における時間タイプの変数に対する変数バリエーションルールの一例を示す模式図である。同実施形態における空間タイプの変数に対する変数バリエーションルールの一例を示す模式図である。同実施形態における動作を説明するためのフローチャートである。同実施形態におけるステップＳ２の詳細を説明するためのフローチャートである。同実施形態におけるステップＳ４の詳細を説明するためのフローチャートである。同実施形態におけるステップＳ６の詳細を説明するためのフローチャートである。同実施形態におけるステップＳ７の詳細を説明するためのフローチャートである。同実施形態における生成途中のバリエーションの一例を示す模式図である。同実施形態における生成途中のバリエーションの一例を示す模式図である。同実施形態における生成途中のバリエーションの一例を示す模式図である。同実施形態における生成途中のバリエーションの一例を示す模式図である。同実施形態における生成途中のバリエーションの一例を示す模式図である。同実施形態における生成途中のバリエーションの一例を示す模式図である。同実施形態における生成途中のバリエーションの一例を示す模式図である。同実施形態における生成途中のバリエーションの一例を示す模式図である。同実施形態における時間タイプのバリエーションの値の算出方法を示す模式図である。同実施形態における空間タイプのバリエーションの値の算出方法を示す模式図である。

以下、一実施形態について図面を用いて説明する。なお、以下のデータ分析支援装置は、ハードウェア構成、又はハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワーク又は記憶媒体からデータ分析支援装置のコンピュータにインストールされ、データ分析支援装置の各機能を実現させるためのプログラムが用いられる。

図１は一実施形態に係るデータ分析支援装置の構成を示す模式図である。データ分析支援装置は、目的変数と当該目的変数に対する説明変数の候補である各変数とを有する分析対象データから当該各変数のバリエーションを生成することにより、分析対象データの分析を支援する。

具体的には、データ分析支援装置は、変数タイプ判定部１１、前処理部１２、ルール変更部１３、変数バリエーション生成部１４、分析実行部１５、分析終了判定部１６及び変数寄与率判定部１７、収集データ保管部２１、変数バリエーションルール保管部２２、分析データセット保管部２３及び分析結果保管部２４を備えている。

ここで、変数タイプ判定部１１は、収集データ保管部２１内に予め収集及び保管された分析対象データを入力として取り込み、分析対象データ中の各変数の変数タイプを判定する。補足すると、変数タイプ判定部１１は、当該各変数について、当該変数の型（種類）を表す変数タイプを判定する。例えば、変数タイプ判定部１１は、当該各変数について、時間に応じて変化する時間タイプ及び空間上の位置に応じて変化する空間タイプのうち、いずれの変数タイプに属するかを判定する。また、変数タイプ判定部１１は、判定できなかった変数については、メッセージの出力などにより、ユーザに変数の判定を促すようにしてもよい。

前処理部１２は、変数タイプ判定部１１で判定された変数タイプに基づき、各変数に対して一般的な前処理を実行し、前処理された分析対象データを変数バリエーション生成部１４に送出する。前処理としては、例えば、欠損値処理、ノイズ処理及び正規化処理（単位変換、表記ゆれ統一など）が適宜使用可能となっている。但し、前処理部１２は、任意の付加的事項であり、省略してもよい。

ルール変更部１３は、変数のバリエーションを増やすために変数のタイプごとに定義された変数バリエーションルールを変更するためのインタフェースである。補足すると、ルール変更部１３は、入力されたルール変更指示に応じて、変数バリエーションルール保管部２２内の変数バリエーションルールを変更する。

変数バリエーション生成部１４は、変数バリエーションルールを各変数に当てはめ、変数のバリエーションを増やす（又は減らす）。補足すると、変数バリエーション生成部１４は、変数タイプ判定部１１により判定された変数タイプと、予め変数タイプ別に変数のバリエーションの生成方法を規定した変数バリエーションルールとに基づいて、各変数のバリエーションを生成する。生成されたバリエーション及び分析対象データは、変数バリエーション生成部１４により、分析データセット保管部２３に書込まれる。また、変数バリエーション生成部１４は、当該バリエーションを採用するか削除するかを示す判定結果を変数寄与率判定部１７から受けると、当該判定結果に基づいて、各変数のバリエーションを生成する。

分析実行部１５は、分析データセット保管部２３内のバリエーション及び分析対象データに関し、分析モデル／アルゴリズムを用いて分析を実行し、分析結果を分析結果保管部２４に書込む。なお、バリエーションと分析対象データとの組は、分析データとも呼ぶ。

分析終了判定部１６は、分析実行部１５が分析を繰り返し行う過程において、分析結果保管部２４内の前回の分析結果と今回の分析結果を比較することにより、分析を継続するか否かを判定し、前回よりも今回の分析結果の精度が良い場合に限り、分析を継続する旨の判定結果を得る。これ以外の場合（精度に変化がない場合又は今回の方が精度が悪い場合）には、分析終了判定部１６は、分析を終了する旨の判定結果を得る。なお、分析結果の精度としては、例えば、一般的に分析モデル／アルゴリズムの精度として算出される値を用いる。また、分析終了判定部１６は、分析を継続する旨の判定結果を得た場合、変数寄与率判定部１７を起動する。分析終了判定部１６は、分析を終了する旨の判定結果を得た場合、処理を終了する。

変数寄与率判定部１７は、分析データセット保管部２３内のバリエーション及び分析対象データに関し、各説明変数の目的変数に対する寄与率を計算し、寄与率の高い変数についてはバリエーションを増やす判定を行い、寄与率の低い変数についてはバリエーションを減らす判定を行う。補足すると、変数寄与率判定部１７は、変数バリエーション生成部１４により生成されたバリエーションにおける目的変数への寄与率を算出し、この寄与率に基づいて、当該バリエーションを採用するか削除するかを判定する。また、変数寄与率判定部１７は、この判定結果を変数バリエーション生成部１４に送出する。なお、変数寄与率としては、例えば、一般的に用いられる変数の寄与率や、目的変数に対する説明変数の相関などが適宜、使用可能となっている。また、当該バリエーションを採用する判定は、当該バリエーションを増加させる判定と読み替えてもよく、当該バリエーションを削除する判定は、当該バリエーションを減らす判定又は当該バリエーションを増やさない判定と読み替えてもよい。また、複数の変数については、同時に処理を実行してもよい。例えば、変数Ａのバリエーションを増やす判定と、変数Ｂのバリエーションを減らす判定とを同時に実行してもよい。

次に、各保管部２１〜２４に保管されるデータについて、銀行支店の事務量の多寡に関して分析する場合を例に挙げて説明する。具体的には、銀行の事務量データと、外部データである為替データ及び気象データとを関連付けた分析対象データから、事務量の多寡に影響を与える要因を抽出する場合を例に挙げて述べる。

銀行における各業務に関する事務作業の作業量を事務量と呼ぶ。事務量の多寡は、銀行支店への来店客数などに左右されるため、給与支給日、月末など、銀行業務に直接関連する事項の他に、天候や、為替の変動などさまざまな外部要因の影響を受ける。そこで、銀行の事務量データと、さまざまな外部データとを関連付けた分析が必要となる。

来店客数は、当日の株価よりも、前日の株価の影響をより大きく受けるかもしれない。あるいは、当日の気温よりも、前日との気温差、もしくは最近１週間の平均気温の影響をより大きく受けるかもしれない。そこで、要因のバリエーションを様々に変えた分析が求められる。このとき、要因のバリエーションが無限に存在するため、効率の良い分析手段が求められる。

始めに、収集データ保管部２１に保管されている各種データを説明する。

収集データ保管部２１は、変数タイプ判定部１１から読出可能な記憶デバイスであり、事務量データ、為替データ、気象データ、店舗データ及び結合済みデータを保管（記憶）する。なお、収集データ保管部２１は、変数タイプ判定部１１から読出可能な記憶デバイスであればよいので、必ずしもデータ分析支援装置が備える必要はなく、データ分析支援装置の外部に配置されてもよい。また、事務量データ、為替データ及び気象データは収集データと呼んでもよい。店舗データは収集データと呼んでも呼ばなくてもよい。結合済みデータは、分析対象データと呼んでもよい。

事務量データは、図２に示すように、日付を値にもつ日付項目と、支店番号を値にもつ支店番号項目と、業務名を値にもつ業務項目と、事務量を値にもつ事務量項目と、事務量の多寡を値にもつ事務量の多寡項目とを関連付けた表形式のデータである。なお、本明細書中、表形式のデータをデータテーブルとも呼び、データテーブル内の各項目を「変数名」又は「変数」とも呼び、各項目の値を「変数の値」又は「変数」とも呼ぶ。変数名の下線は、その変数名がデータテーブルの主キーであることを示す。主キーとは、１つ以上の変数の集合であり、変数の値によってそのデータテーブルの各行を一意に識別できるものである。例えば、事務量データであれば、「日付」、「支店番号」、「業務」の組合せで、各行を識別でき、これら３つの変数の組合せが、事務量データの主キーである。

ここでは事務量は、日付ごと、支店番号ごと、かつ業務ごとに記録されている。図２の１行目のデータは「２０１２年３月１日のＢ００１支店における預金業務の事務量が１５０である」ことを示している。通常、事務量の絶対量は、支店の規模や業務ごとの特性によって大きく異なる。そこで、このような不変の要素を除外し、流動的な外部要因の影響のみを分析するために、該当店舗の該当業務における平均的な事務量と比較した場合の、該当する日付の事務量の多寡を表す「事務量の多寡」という属性が付与されている。この「事務量の多寡」は、例えば、下記の方法（１）〜（３）で付与することができる。

（１）事務量データを、支店番号ごと、かつ業務ごとに分割する。特定の支店番号、特定の業務についての、日ごとの事務量データが得られる。

（２）分割した各事務量データを、事務量の降順にソートする。

（３）事務量の値が上位１／３に入るデータを「事務量の多寡」が“多い”、下位１／３のデータを“少ない”、残りの１／３のデータを“平均”とする。

但し、「事務量の多寡」は、この方法に限らず、例えば、支店や業務の違いを考慮せずに、事務量の絶対量の降順に並べた上で、上位１／３を“多い”とし、下位１／３を“少ない”とし、残りの１／３のデータを“平均”とする方法で付与しても良い。

為替データは、図３に示すように、日付を値にもつ日付項目と、ドルの円に対するレートを値にもつドルレート（円）項目と、ユーロの円に対するレートを値にもつユーロレート（円）項目とを関連付けた表形式のデータである。

気象データは、図４に示すように、地域ごと、かつ日付ごとに、気温、降水量、天気が記録されている。すなわち、気象データは、地域の位置を示す地域コードを値にもつ地域項目と、日付を値にもつ日付項目と、気温を値にもつ気温（℃）項目と、降水量を値にもつ降水量（ｍｍ）項目と、天気を値にもつ天気項目とを関連付けた表形式のデータである。地域コードは、図５に示すように、予め格子状に区分された四角形領域の位置を示すコードであり、東西方向に沿った位置を示す数字と、南北方向に沿った位置を示す数字との組により、当該四角形領域の位置を特定する。

店舗データは、事務量データと気象データとを対応付けるためのデータであって、図６に示すように、支店番号を値にもつ支店番号項目と、地域コードを値にもつ地域項目とを関連付けた表形式のデータである。

結合済みデータは、為替データ及び気象データを事務量データに結合したデータであって、図７に示すように、日付を値にもつ日付項目と、支店番号を値にもつ支店番号項目と、業務名を値にもつ業務項目と、事務量を値にもつ事務量項目と、事務量の多寡を値にもつ事務量の多寡項目と、気温を値にもつ気温（℃）項目と、降水量を値にもつ降水量（ｍｍ）項目と、ドルの円に対するレートを値にもつドルレート（円）項目と、ユーロの円に対するレートを値にもつユーロレート（円）項目とを関連付けた表形式のデータである。

結合済みデータは、収集データ保管部２１内の個々のデータを、主キーによって機械的に結合しても良いし、事前に人手で結合させた上で収集データ保管部２１に書込んでもよい。

続いて、変数バリエーションルール保管部２２に保管される、変数バリエーションルールについて説明する。変数バリエーションルールは、時間タイプ、空間タイプなど、変数のタイプ別に、変数のバリエーションの増やし方を定義したものである。

ここで、「タイプ」とは、以下のように、何によって値が変化する変数かという変数の型を指す。変数（例、気温）の型は、当該変数（例、気温）を特定する主キーの各変数（例、日付、地域コード）を個別に包括する各カテゴリ（例、時間、空間）を表している。主キーの変数と、主キーの各変数の各カテゴリ（型）とは、例えば「日付項目」と「時間」型、又は「地域コードの値のリスト」と「空間」型というように、予め関連付けて変数タイプ判定部１１に定義されている。なお、「型」は「種類」又は「性質」のように、適宜、他の名称に読み替えてもよい。同様に、「カテゴリ」は「包括概念」又は「上位概念」のように、適宜、他の名称に読み替えてもよい。

時間タイプ：時間によって値が変化する変数を時間タイプの変数という。例えば、「ドルレート」という変数は、「ある日のドルレートの終値」に対して、「１日前のドルレートの終値」、「２日前のドルレートの終値」という異なる値が存在する。また、「気温」という変数は、「ある地点での、ある時刻の気温」に対し、「同地点での、１時間前の気温」という異なる値が存在する。

空間タイプ：空間上の位置によって値が異なる変数を空間タイプの変数という。例えば、「ある地点での、ある時刻の気温」に対して、「隣の地点での、同時刻の気温」という異なる値が存在する。

この場合、「気温」という変数は、時間タイプ及び空間タイプである。このように、ある変数が複数のタイプを持つ場合も存在する。

なお、変数タイプは、時間タイプ及び空間タイプに限らず、何かの数量の種類又は何らかのカテゴリの種類であればよい。

各タイプに対し、変数バリエーションルールとして「ルール形式」、「初期値」、「更新規則」が存在する。例えば、時間タイプの変数には、図８に示すように、変数バリエーションルールが定義されている。

すなわち、時間タイプの変数に対する変数バリエーションルールは、自然数を値にもつルール番号項目と、「ｎ日前との差」又は「ｎ年前との差」を値にもつルール形式項目と、ｎ＝１を値にもつ初期値項目と、ｎ’＝ｎ＋１を値にもつ更新規則項目とを関連付けた表形式のデータとして定義されている。なお、ルール番号項目は、任意の付加的事項であり、省略してもよい。また、バリエーションには、変数の種類（例、日のみ、日と月、日と月と年、…）と、ある種の変数の変化（例、１日、２日、３日、…）という２通りの意味がある。ここで、同じルール番号のルール形式は、バリエーション生成値ｎを変えることである種の変数を変化させたバリエーションに対応する。また、異なるルール番号のルール形式は、変数の種類を変えたバリエーションに対応する。また、時間タイプ変数の例としては、差（例、前日差／月差／年差、２日前差／２月前差／２年前差、…）に限らず、比率（例、前日比／前月同日比、２日前比／２月前同日比、…）、平均、最大最小差などが適宜、使用可能となっている。また、更新規則項目は、この例ではｎ’＝ｎ＋１として一方向に増やしているが、これに限らず、ｎ’＝ｎ−１として一方向に減らしてもよい（この場合、例えば、初期値ｎを３１（日）、１２（月）又は２０１２（年）などのように、変数の最大値に設定すればよい）。

一方、空間タイプの変数に対する変数バリエーションルールは、図９に示すように、自然数を値にもつルール番号項目と、「（ｘ−ｎ，ｙ）の地点との差」又は「（ｘ，ｙ−ｎ）の地点との差」を値にもつルール形式項目と、ｎ＝１を値にもつ初期値項目と、ｎ’＝ｎ＋１を値にもつ更新規則項目とを関連付けた表形式のデータとして定義されている。なお、ルール番号項目は、任意の付加的事項であり、省略してもよい。また、空間タイプ変数は、前述した地域コードに限らず、住所表現、ＧＰＳ表現又は移動距離などが適宜、使用可能となっている。住所表現としては、例えば、０１：北海道、０２：青森、…、１５：東京都、…、１５００１：中央区、１５００２：港区、…等の空間の親子関係を定義した値を用いてもよい。この場合、バリエーションの増やし方は、例えば、県のみ→県と市町村→県と市町村と番地のように、親から子に向かう方向に増やしてもよい。ＧＰＳ表現（緯度経度）としては、例えば、東経：６０度、北緯：２２度、海抜：０ｍ、…等が適宜使用可能となっている。バリエーションの増やし方は、例えば、ある起点からの距離に換算する数式を予め定義した場合に、起点を変える（増やす）又は起点からの距離を変える（増やす）というように、増やしてもよい。起点からの距離を変える例としては、起点Ａの半径３００ｍ以内（又は外）、５００ｍ以内（又は外）、…や、起点Ｂの半径３００ｍ以内（又は外）、５００ｍ以内（又は外）、…、などのようにすればよい。また、移動距離としては、例えばＧＰＳ表現と同様に定義すればよい。

次に、分析データセット保管部２３に保管される、分析データについて説明する。分析データは、変数バリエーション生成部により生成されたバリエーションと、分析対象データとを含んでいる。すなわち、分析データは、バリエーション及び分析対象データであるが、バリエーションと分析対象データとの組ともいえるので、分析データセットとも呼ばれる。

最後に、分析結果保管部２４に保管される、分析結果について説明する。分析結果保管部２４の分析結果は、分析実行部１５による分析毎に書込まれ、前回の分析結果と今回の分析結果とが分析終了判定部１６により読み出される。

次に、以上のように構成されたデータ分析支援装置の動作を説明する。始めに、全体の処理手順を図１０のフローチャートを用いて述べる。

ルール変更部１３は、利用者の操作により、入力されたルール変更指示に応じて、変数バリエーションルール保管部２２内の変数バリエーションルールを変更する（ステップＳ１）。なお、変数バリエーションの変更は、必須ではなく、省略してもよい。

変数タイプ判定部１１は、収集データ保管部２１内の分析対象データ中の各変数について、変数の型を表す変数タイプを判定する（ステップＳ２）。

前処理部１２は、ステップＳ２で判定された変数タイプに基づき、各変数に対して欠損値処理など、通常の分析に必要な前処理を実行する（ステップＳ３）。
変数バリエーション生成部１４は、ステップＳ３で前処理を実行した分析対象データ中の各変数に対して、変数のタイプに適合する変数バリエーションルールを変数バリエーションルール保管部２２から選択し、当該変数バリエーションルールを適用する。すなわち、変数バリエーション生成部１４は、変数タイプと変数バリエーションルールとに基づいて、各変数のバリエーションを生成する。また、変数バリエーション生成部１４は、生成により増えたバリエーション及び分析対象データ（以下、分析データともいう）を分析データセット保管部２３に書込む（ステップＳ４）。

分析実行部１５は、分析データセット保管部２３内の分析データについて、分析モデル／アルゴリズムを用いて分析を実行し、分析結果を分析結果保管部２４に書込む（ステップＳ５）。

分析終了判定部１６は、分析結果保管部２４内の今回の分析結果の精度を前回の分析結果の精度と比較し、精度が改善されていなければ、分析終了と判定し、処理を終了する。精度が改善されていれば、分析継続と判定し、ステップＳ７に進む（ステップＳ６）。

変数寄与率判定部１７は、生成されたバリエーションにおける目的変数への寄与率を算出し、この寄与率に基づいて、当該バリエーションを採用するか削除するかを判定する。例えば、変数寄与率判定部１７は、寄与率の高い変数についてはバリエーションを採用する旨を判定し、バリエーションを増やすようにする。一方、寄与率が低い変数についてはバリエーションを削除する旨を判定し、バリエーションを増やさない又は減らすようにして、ステップＳ４以降を再度実行する（ステップＳ７）。

以上により、全体動作が完了する。

次に、ステップＳ２の変数タイプ判定動作の詳細について図１１を用いて説明する。変数タイプ判定部１１は、収集データ保管部２１内の分析対象データ中の各変数について、変数の型を表す変数タイプを判定する。本実施形態では、変数タイプとして、時間タイプ及び空間タイプがある。ステップＳ２では、機械的に、あるいは人手により、変数タイプを判定する。

変数タイプ判定部１１は、変数タイプが未判定である変数をひとつ選択する（ステップＳ２−１）。選択した変数を変数ａとする。

変数タイプ判定部１１は、変数ａの主キーから変数をひとつ選択する（ステップＳ２−２）。選択した変数を変数ｋとする。

変数タイプ判定部１１は、変数ｋの変数名から、変数ｋの型の判定を試みる（ステップＳ２−３）。判定できれば、ステップＳ２−７に進む。判定できなければ、ステップＳ２−４に進む。

変数タイプ判定部１１は、変数ｋの「変数値の値のリスト」を取得する（ステップＳ２−４）。

変数タイプ判定部１１は、変数ｋの「変数値の値のリスト」から、変数ａの変数タイプの判定を試みる（ステップＳ２−５）。判定できれば、ステップＳ２−７に進む。判定できなければ、ステップＳ２−６に進む。

変数タイプ判定部１１は、人手により、変数ｋの型を判定する（ステップＳ２−６）。

変数タイプ判定部１１は、変数ｋの型を参照し、変数ａの変数タイプを追加する（ステップＳ２−７）。

変数タイプ判定部１１は、変数ａの全ての主キー変数について処理していれば、ステップＳ２−９に進む。未処理の主キー変数があれば、ステップＳ２−２に戻る（ステップＳ２−８）。

変数タイプ判定部１１は、収集データ保管部２１のデータ中の全ての変数について変数タイプを判定していれば、処理を終了する。変数タイプを未判定の変数があれば、ステップＳ２−１に戻る（ステップＳ２−９）。

ただし、変数タイプ判定方法は上記の方法に限らず、例えば、上記ステップＳ２−６のように人手で変数ｋの型を判定するのが難しい場合には、ステップＳ２−３、Ｓ２−５での自動判定のみとし、変数ｋの型を自動判定できた場合のみ変数ａに変数タイプを割り当てる方法としても良い。

次に、ステップＳ４の変数バリエーションの生成動作の詳細について図１２を用いて説明する。なお、変数バリエーション生成部１４は、例えば、生成されるバリエーションの状態を表す状態データを用いてステップＳ４を実行する。ここで、状態データは、例えば、後述する図１５に示すように、分析対象データ内の主キーで特定される変数の項目を値にもつ変数項目と、「時間」又は「空間」を値にもつ変数タイプ項目と、「ｎ日前との差」、「ｎ年前との差」、「（ｘ−ｎ，ｙ）の地点との差」又は「（ｘ，ｙ−ｎ）の地点との差」を値にもつルール形式項目と、「増加」、「完了」又は「削除」といったバリエーション更新状態を値にもつ更新状態項目と、自然数のバリエーション生成値をもつ値項目と、ルール形式項目の値のｎにバリエーション生成値を代入してなる値（バリエーション）をもつ「生成されるバリエーション」項目とを関連付けた表形式のデータである。

変数バリエーション生成部１４は、前処理部１２で処理されたデータの各変数に対して、変数バリエーションルールを適用する。

変数バリエーション生成部１４は、前処理部１２で処理されたデータから変数を選択する（ステップＳ４−１）。選択した変数を変数ａとする。

変数バリエーション生成部１４は、変数ａに変数バリエーションルールを適用することが初めてか否かを判定する。初めての場合は、ステップＳ４−３に進む。初めてでない場合は、ステップＳ４−４に進む（ステップＳ４−２）。

変数バリエーション生成部１４は、初期化として、変数ａの全ての変数タイプに対する変数バリエーションルールの、全てのルール形式に関して、バリエーション更新状態を“増加”とし、バリエーション生成値ｎを初期値とする。全てのルール形式を、変数ａに適用する。その後、ステップＳ４−１２に進む（ステップＳ４−３）。

変数バリエーション生成部１４は、変数ａの変数タイプの１つを選択する（ステップＳ４−４）。選択したタイプをタイプｔとする。

変数バリエーション生成部１４は、変数バリエーションルール保管部２２から、タイプｔの変数バリエーションルールを取得する（ステップＳ４−５）。

変数バリエーション生成部１４は、変数ａの変数タイプｔの変数バリエーションルールから、１つのルール形式を選択する（ステップＳ４−６）。選択したルール形式を、ルール形式ｒとする。

変数バリエーション生成部１４は、ルール形式ｒのバリエーション更新状態ｓを参照する。“増加”である場合は、ステップＳ４−８に進む。“削除”である場合は、ステップＳ４−９に進む。“完了”である場合は、ステップＳ４−１０に進む（ステップＳ４−７）。

変数バリエーション生成部１４は、変数ａの変数タイプｔのルール形式ｒに関して、バリエーション生成値を更新し、ルールを適用する。その後、ステップＳ４−１０に進む（ステップＳ４−８）。

変数バリエーション生成部１４は、変数ａの変数タイプｔのルール形式ｒに関して、現在のバリエーション生成値により生成されたバリエーションを削除する。また、バリエーション更新状態を“完了”とする（ステップＳ４−９）。

変数バリエーション生成部１４は、変数ａの変数タイプｔの全てのルール形式について処理をしていれば、ステップＳ４−１１に進む。未処理のルール形式があれば、ステップＳ４−６に戻る（ステップＳ４−１０）。

変数バリエーション生成部１４は、変数ａの全ての変数タイプについて処理をしていれば、ステップＳ４−１２に進む。未処理の変数タイプがあれば、ステップＳ４−４に戻る（ステップＳ４−１１）。

変数バリエーション生成部１４は、全ての変数について処理をしていれば、処理を終了する。未処理の変数があれば、ステップＳ４−１に戻る（ステップＳ４−１２）。

次に、ステップＳ６の分析終了判定動作の詳細について図１３を用いて説明する。

分析終了判定部１６は、今回の分析結果の精度を算出する（ステップＳ６−１）。

分析終了判定部１６は、今回の精度が、前回の分析結果の精度よりも高ければ、ステップＳ６−３に進む。高くなければ、ステップＳ６−４に進む（ステップＳ６−２）。

分析終了判定部１６は、分析処理を継続する判定をし、処理を終了する（ステップＳ６−３）。

分析終了判定部１６は、分析処理を終了する判定をし、処理を終了する（ステップＳ６−４）。

最後に、ステップＳ７の変数寄与率判定動作の詳細について図１４を用いて説明する。

変数寄与率判定部１７は、各変数バリエーションの寄与率を算出し、次の分析繰り返しでのバリエーションの増やし方を決定する。

変数寄与率判定部１７は、変数バリエーションの１つを選択する（ステップＳ７−１）。選択した変数バリエーションをバリエーションａとする。

変数寄与率判定部１７は、バリエーションａの寄与率を算出する（ステップＳ７−２）。

変数寄与率判定部１７は、バリエーションａの寄与率が高いかどうか判定する。寄与率が低ければ、ステップＳ７−４に進む。寄与率が高ければ、ステップＳ７−５に進む（ステップＳ７−３）。

変数寄与率判定部１７は、バリエーションａのバリエーション更新状態を“削除”に変更する（ステップＳ７−４）。

変数寄与率判定部１７は、全てのバリエーションについて処理していれば、処理を終了する。未処理のバリエーションがあれば、ステップＳ７−１に戻る（ステップＳ７−５）。

各バリエーションの寄与率の算出には、相関係数や決定係数のように一般的に用いられる寄与率を用いることができる。また、その他の指標を用いてもよい。

寄与率が高いかどうかを判定するには、予め固定の閾値を設定しておいても良いし、同じ変数や他の変数の他のバリエーションの寄与率を元に相対的に判定しても良い。

また、上記の例では、あるバリエーションの寄与率が低い場合に、ステップＳ７−３、Ｓ７−４において、バリエーション更新状態をすぐに“削除”から“完了”に変更しているが、予めバリエーション生成値に対する閾値を設定しておいて、バリエーション生成値がその閾値に達するまではバリエーションを増やすことを試みるような方法としても良い。

以下では、実際にバリエーションが生成される過程を、ひとつの変数に注目して説明する。ここでは、図７中の変数「気温」を例に説明する。

変数タイプ判定部１１は、図１１に示したように、変数タイプが未判定である「気温」を選択する（ステップＳ２−１）。

変数タイプ判定部１１は、「気温」の主キー（地域、日付）から変数「地域」を選択する（ステップＳ２−２）。

ここでは、「地域」という変数名からは、「地域」の型の判定ができないものとする。変数タイプ判定部１１は、ステップＳ２−４に進む（ステップＳ２−３）。

変数タイプ判定部１１は、「地域」の変数値の値のリスト（（１，１）、（１，２）、（１，３）、…）を取得する（ステップＳ２−４）。

ここでは、「地域」の変数値の値のリストから、「地域」の型が「空間型」であると判定できるものとする。変数タイプ判定部１１は、ステップＳ２−７に進む（ステップＳ２−５）。なお、主キーの変数と、主キーの各変数の各カテゴリ（型）とは、例えば「日付項目」と「時間」型、又は「地域コードの値のリスト」と「空間」型というように、予め関連付けて変数タイプ判定部１１に定義されている。地域コードは、図５に示すように、予め格子状に区分された四角形領域の位置を示すコードであり、東西方向に沿った位置を示す数字と、南北方向に沿った位置を示す数字との組により、当該四角形領域の位置を特定する。

変数タイプ判定部１１は、「気温」の変数タイプに「空間タイプ」を追加する（ステップＳ２−７）。

変数タイプ判定部１１は、「気温」の主キー変数のうち、未処理の主キー変数があるため、ステップＳ２−２に戻る（ステップＳ２−８）。

変数タイプ判定部１１は、「気温」の主キー（地域、日付）から変数「日付」を選択する（ステップＳ２−２）。

ここでは、「日付」という変数名から、「日付」の型が「時間型」と判定できるものとする。変数タイプ判定部１１は、ステップＳ２−７に進む（ステップＳ２−３）。

変数タイプ判定部１１は、「気温」の変数タイプに「時間タイプ」を追加する（ステップＳ２−７）。

変数タイプ判定部１１は、「気温」の全ての主キー変数について処理しているため、ステップＳ２−９に進む。

変数タイプ判定部１１は、収集データ保管部２１のデータ中の全ての変数について処理し、処理を終了する（ステップＳ２−９）。

なお、全体の処理手順（図１０）のステップＳ４からステップＳ７までは繰り返し実行される。

次に、ステップＳ４からステップＳ７までの繰り返しの１周目における、変数バリエーション生成部１４におけるフローチャート（図１２）の動作について述べる。

変数バリエーション生成部１４は、前処理部１２で処理されたデータから「気温」を選択する（ステップＳ４−１）。

変数バリエーション生成部１４は、「気温」に変数バリエーションルールを適用するのは初めてであるため、ステップＳ４−３に進む（ステップＳ４−２）。

変数バリエーション生成部１４は、「気温」の全ての変数タイプ（時間タイプ、空間タイプ）に対する変数バリエーションルールの、全てのルール形式に関して、バリエーション更新状態を“増加”とし、バリエーション生成値を初期値とする。全てのルール形式を「気温」に適用する。その後、ステップＳ４−１２に進む（ステップＳ４−３）。「気温」に関する「生成されるバリエーション」項目の値は、図１５の右列に示すようになる。

変数バリエーション生成部１４は、全ての変数について処理をして、処理を終了する（ステップＳ４−１２）。

次に、ステップＳ４からステップＳ７までの繰り返しの１周目における、分析終了判定部１６におけるフローチャート（図１３）の動作について述べる。

分析終了判定部１６は、前回の分析結果の精度が存在せず、今回の分析結果の精度と比較できないため、ステップＳ６−３に進む（ステップＳ６−２）。

次に、ステップＳ４からステップＳ７までの繰り返しの１周目における、変数寄与率判定部１７におけるフローチャート（図１４）の動作について述べる。今回は、目的変数との相関により、寄与率を算出するものとする。固定の閾値との比較により、寄与率の高低を判定するものとする。

変数寄与率判定部１７は、変数バリエーションの１つ「１日前との気温差」を選択する（ステップＳ７−１）。

変数寄与率判定部１７は、「１日前との気温差」の寄与率を算出する（ステップＳ７−２）。

ここでは、「１日前との気温差」の寄与率が閾値より高いものとする。変数寄与率判定部１７は、ステップＳ７−５に進む（ステップＳ７−３）。

変数寄与率判定部１７は、未処理のバリエーションがあるため、ステップＳ７−１に戻る（ステップＳ７−５）。

変数寄与率判定部１７は、変数バリエーションの１つ「１年前との気温差」を選択する（ステップＳ７−１）。

変数寄与率判定部１７は、「１年前との気温差」の寄与率を算出する（ステップＳ７−２）。

ここでは、「１年前との気温差」の寄与率が閾値より低いものとする。変数寄与率判定部１７は、ステップＳ７−４に進む（ステップＳ７−３）。

変数寄与率判定部１７は、「１年前との気温差」のバリエーション更新状態を“削除”に変更する（ステップＳ７−４）。

変数寄与率判定部１７は、変数バリエーションの１つ「（ｘ−１，ｙ）の地点との気温差」を選択する（ステップＳ７−１）。

変数寄与率判定部１７は、「（ｘ−１，ｙ）の地点との気温差」の寄与率を算出する（ステップＳ７−２）。

ここでは、「（ｘ−１，ｙ）の地点との気温差」の寄与率が閾値より高いものとする。変数寄与率判定部１７は、ステップＳ７−５に進む（ステップＳ７−３）。

変数寄与率判定部１７は、変数バリエーションの１つを選択する（ステップＳ７−１）。

変数寄与率判定部１７は、「（ｘ，ｙ−１）の地点との気温差」の寄与率を算出する（ステップＳ７−２）。

ここでは、「（ｘ，ｙ−１）の地点との気温差」の寄与率が閾値より低いものとする。変数寄与率判定部１７は、ステップＳ７−４に進む（ステップＳ７−３）。

変数寄与率判定部１７は、「（ｘ，ｙ−１）の地点との気温差」のバリエーション更新状態を“削除”に変更する（ステップＳ７−４）。

変数寄与率判定部１７は、「気温」に関しては全てのバリエーションを処理し終えた。他の変数についても、全てのバリエーションについて処理し、処理を終了する（ステップＳ７−５）。この時点での「気温」に関する「生成されるバリエーション」項目の値は、図１６の右列に示すようになる。

次に、ステップＳ４からステップＳ７までの繰り返しの２周目における、変数バリエーション生成部１４におけるフローチャート（図１２）の動作について述べる。

変数バリエーション生成部１４は、「気温」を選択する（ステップＳ４−１）。

変数バリエーション生成部１４は、「気温」に変数バリエーションルールを適用するのは初めてではないため、ステップＳ４−４に進む（ステップＳ４−２）。

変数バリエーション生成部１４は、「気温」の変数タイプの１つ「時間タイプ」を選択する（ステップＳ４−４）。

変数バリエーション生成部１４は、変数バリエーションルール保管部２２から、時間タイプの変数バリエーションルールを取得する（ステップＳ４−５）。

変数バリエーション生成部１４は、「気温」の変数タイプ「時間タイプ」の変数バリエーションルールから、１つのルール形式「ｎ日前との差」を選択する（ステップＳ４−６）。

変数バリエーション生成部１４は、ルール形式「ｎ日前との差」のバリエーション更新状態が“増加”であるため、ステップＳ４−８に進む（ステップＳ４−７）。

変数バリエーション生成部１４は、「気温」の変数タイプ「時間タイプ」のルール形式「ｎ日前との差」に関して、バリエーション生成値を更新し、ルールを適用する。その後、ステップＳ４−１０に進む（ステップＳ４−８）。この時点での「気温」に関する「生成されるバリエーション」項目の値は、図１７の右列に示すようになる。

変数バリエーション生成部１４は、「気温」の変数タイプ「時間タイプ」のルール形式のうち、未処理のルール形式があるため、ステップＳ４−６に戻る（ステップＳ４−１０）。

変数バリエーション生成部１４は、「気温」の変数タイプ「時間タイプ」の変数バリエーションルールから、１つのルール形式「ｎ年前との差」を選択する（ステップＳ４−６）。

変数バリエーション生成部１４は、ルール形式「ｎ年前との差」のバリエーション更新状態が“削除”であるため、ステップＳ４−９に進む（ステップＳ４−７）。

変数バリエーション生成部１４は、「気温」の変数タイプ「時間タイプ」のルール形式「ｎ年前との差」に関して、現在のバリエーション生成値「１」により生成されたバリエーション「１年前との気温差」を削除する。また、バリエーション更新状態を“完了”とする（ステップＳ４−９）。この時点での「気温」に関する「生成されるバリエーション」項目の値は、図１８の右列に示すようになる。

変数バリエーション生成部１４は、「気温」の変数タイプ「時間タイプ」の全てのルール形式について処理をしたため、ステップＳ４−１１に進む（ステップＳ４−１０）。

変数バリエーション生成部１４は、「気温」に関して、未処理の変数タイプがあるため、ステップＳ４−４に戻る（ステップＳ４−１１）。

変数バリエーション生成部１４は、「気温」の変数タイプの１つ「空間タイプ」を選択する（ステップＳ４−４）。

変数バリエーション生成部１４は、変数バリエーションルール保管部２２から、空間タイプの変数バリエーションルールを取得する（ステップＳ４−５）。

変数バリエーション生成部１４は、「気温」の変数タイプ「空間タイプ」の変数バリエーションルールから、１つのルール形式「（ｘ−ｎ，ｙ）の地点との差」を選択する（ステップＳ４−６）。

変数バリエーション生成部１４は、ルール形式「（ｘ−ｎ，ｙ）の地点との差」のバリエーション更新状態が“増加”であるため、ステップＳ４−８に進む（ステップＳ４−７）。

変数バリエーション生成部１４は、「気温」の変数タイプ「時間タイプ」のルール形式「（ｘ−ｎ，ｙ）の地点との差」に関して、バリエーション生成値を更新し、ルールを適用する。その後、ステップＳ４−１０に進む（ステップＳ４−８）。この時点での「気温」に関する「生成されるバリエーション」項目の値は、図１９に示すようになる。

変数バリエーション生成部１４は、「気温」の変数タイプ「空間タイプ」のルール形式のうち、未処理のルール形式があるため、ステップＳ４−６に戻る（ステップＳ４−１０）。

変数バリエーション生成部１４は、「気温」の変数タイプ「空間タイプ」の変数バリエーションルールから、１つのルール形式「（ｘ，ｙ−ｎ）の地点との差」を選択する（ステップＳ４−６）。

変数バリエーション生成部１４は、ルール形式「（ｘ，ｙ−ｎ）の地点との差」のバリエーション更新状態が“削除”であるため、ステップＳ４−９に進む（ステップＳ４−７）。

変数バリエーション生成部１４は、「気温」の変数タイプ「空間タイプ」のルール形式「（ｘ，ｙ−ｎ）の地点との差」に関して、現在のバリエーション生成値「１」により生成されたバリエーション「（ｘ，ｙ−１）の地点との差」を削除する。また、バリエーション更新状態を“完了”とする（ステップＳ４−９）。この時点での「気温」に関する「生成されるバリエーション」項目の値は、図２０の右列に示すようになる。

変数バリエーション生成部１４は、「気温」の変数タイプ「空間タイプ」の全てのルール形式について処理をしたため、ステップＳ４−１１に進む（ステップＳ４−１０）。

変数バリエーション生成部１４は、「気温」の全ての変数タイプについて処理したため、ステップＳ４−１２に進む（ステップＳ４−１１）。

変数バリエーション生成部１４は、「気温」については全ての処理を終えた。他の変数についても同様の処理をして、処理を終了する（ステップＳ４−１２）。

次に、ステップＳ４からステップＳ７までの繰り返しの２周目における、分析終了判定部１６におけるフローチャート（図１３）の動作について述べる。

ここでは、今回の分析結果の精度が、前回の分析結果の精度を上回っているものとする。分析終了判定部１６は、ステップＳ６−３に進む（ステップＳ６−２）。

次に、ステップＳ４からステップＳ７までの繰り返しの２周目における、変数寄与率判定部１７におけるフローチャート（図１４）の動作について述べる。

変数寄与率判定部１７は、変数バリエーションの１つ「２日前との気温差」を選択する（ステップＳ７−１）。

変数寄与率判定部１７は、「２日前との気温差」の寄与率を算出する（ステップＳ７−２）。

ここでは、「２日前との気温差」の寄与率が閾値より高いものとする。変数寄与率判定部１７は、ステップＳ７−５に進む（ステップＳ７−３）。

変数寄与率判定部１７は、変数バリエーションの１つ「（ｘ−２，ｙ）の地点との気温差」を選択する（ステップＳ７−１）。

変数寄与率判定部１７は、「（ｘ−２，ｙ）の地点との気温差」の寄与率を算出する（ステップＳ７−２）。

ここでは、「（ｘ−２，ｙ）の地点との気温差」の寄与率が閾値より低いものとする。変数寄与率判定部１７は、ステップＳ７−４に進む（ステップＳ７−３）。

変数寄与率判定部１７は、「（ｘ−２，ｙ）の地点との気温差」のバリエーション更新状態を“削除”に変更する（ステップＳ７−４）。

変数寄与率判定部１７は、「気温」に関しては全てのバリエーションを処理し終えた。他の変数についても、全てのバリエーションについて処理し、処理を終了する（ステップＳ７−５）。

変数バリエーション生成部１４は、「気温」の変数タイプ「時間タイプ」のルール形式「ｎ日前との差」に関して、バリエーション生成値を更新し、ルールを適用する。その後、ステップＳ４−１０に進む（ステップＳ４−８）。この時点での「気温」に関する「生成されるバリエーション」項目の値は、図２１の右列に示すようになる。

変数バリエーション生成部１４は、ルール形式「ｎ年前との差」のバリエーション更新状態が“完了”であるため、ステップＳ４−１０に進む（ステップＳ４−７）。

変数バリエーション生成部１４は、ルール形式「（ｘ−ｎ，ｙ）の地点との差」のバリエーション更新状態が“削除”であるため、ステップＳ４−８に進む（ステップＳ４−７）。

変数バリエーション生成部１４は、「気温」の変数タイプ「時間タイプ」のルール形式「（ｘ−ｎ，ｙ）の地点との差」に関して、現在のバリエーション生成値「２」により生成されたバリエーション「（ｘ−２，ｙ）の地点との差」を削除する。また、バリエーション更新状態を“完了”とする（ステップＳ４−９）。この時点での「気温」に関する「生成されるバリエーション」項目の値は、図２２の右列に示すようになる。

変数バリエーション生成部１４は、ルール形式「（ｘ，ｙ−ｎ）の地点との差」のバリエーション更新状態が“完了”であるため、ステップＳ４−１０に進む（ステップＳ４−７）。

次に、ステップＳ４からステップＳ７までの繰り返しの３周目における、分析終了判定部１６におけるフローチャート（図１３）の動作について述べる。

ここでは、今回の分析結果の精度が、前回の分析結果の精度を上回っていないものとする。分析終了判定部１６は、ステップＳ６−４に進む（ステップＳ６−２）。

ここまでの処理により、「気温」に関する「生成されるバリエーション」項目の値として、「１日前との気温差」、「２日前との気温差」及び「（ｘ−１，ｙ）の地点との気温差」という３個のバリエーションが生成された。上述したように、空間タイプとは、空間上の位置によって値が異なる変数を空間タイプの変数といい、例えば、「ある地点での、ある時刻の気温」に対して、「隣の地点での、同時刻の気温」という異なる値が存在する。

これら３個のバリエーションの値を得るには、変数バリエーション生成部１４が、気象データの主キーである「日付」や「地域」の値を参照して、「気温」の値を算出すればよい。図２３に「１日前との気温差」の算出方法を示し、図２４に「（ｘ−１，ｙ）の地点との気温差」の算出方法を示す。

すなわち、変数バリエーション生成部１４は、分析対象データにおいて、同一の値の地域項目毎に、ある日付の値をもつ日付項目の値に関連付けられた気温項目の値から、当該ある日付の値に対して１日前の日付の値となる日付項目の値に関連付けられた気温項目の値を減算することにより、「１日前との気温差」というバリエーションの値（−２．６、１．１、−１．５、…）を算出する。

同様にして、変数バリエーション生成部１４は、分析対象データにおいて、同一の値の地域項目毎に、ある日付の値をもつ日付項目の値に関連付けられた気温項目の値から、当該ある日付の値に対して２日前の日付の値となる日付項目の値に関連付けられた気温項目の値を減算することにより、「２日前との気温差」というバリエーションの値（−１．５、−０．４、…）を算出する。

また、変数バリエーション生成部１４は、分析対象データにおいて、同一の値の日付項目毎に、ある地域コードの値をもつ地域項目の値に関連付けられた気温項目の値から、当該ある地域コードの値に対して隣接する地域コードの値となる地域項目の値に関連付けられた気温項目の値を減算することにより、「（ｘ−１，ｙ）の地点との気温差」というバリエーションの値（０．０、−０．８、２．１、…）を算出する。

生成されたバリエーションの値及び分析対象データは、変数バリエーション生成部１４により、分析データセット保管部２３に書込まれる。

上述したように本実施形態によれば、変数の型を表す変数タイプを判定し、当該判定された変数タイプと、予め変数タイプ別に変数のバリエーションの生成方法を規定した変数バリエーションルールとに基づいて、各変数のバリエーションを生成し、当該生成されたバリエーションにおける目的変数への寄与率を算出し、この寄与率に基づいて、当該バリエーションを採用するか削除するかを判定する構成により、変数に応じて異なる変換式を適用して、変数を生成することができる。

補足すると、変数をそのタイプによって分類し、タイプごとに異なる変換式を適用して、新たな変数を生成することで、各変数に適した変数合成手段を動的に決定することができる。

また、本実施形態によれば、入力されたルール変更指示に応じて、変数バリエーションルール保管部２２内の変数バリエーションルールを変更する構成により、必要に応じて、適切な変数バリエーションルールを設定することができる。

さらに、本実施形態によれば、生成されたバリエーションを分析し、前回の分析結果の精度よりも今回の分析結果の精度が高いとき、前述した寄与率の算出を実行する構成により、前回の分析結果を参照し、分析結果の精度向上に貢献した変数を用いて新たな変数を生成することで、継続して実行している分析の結果を活かすことができる。

補足すると、特許文献２記載の方式では、監視の対象値（例：寸法）に対応づけた属性値のセット（例：製造番号、ロット番号）に予め定めておいた属性値条件に従って、監視の対象値の派生時系列を生成する（例：３次移動平均、３次自己回帰）。この特許文献２記載の方式では、元の時系列データと派生時系列データとを比較して監視対象値の変動（例：中心値低下）を自動で判定し、判定結果を使用者に通報する。

しかしながら、このような特許文献２記載の方式では、派生時系列の生成に用いる属性値のセットや生成ロジックが毎回の分析に固定的に用いられており、前回の分析結果からフィードバックを受けないことから、以前の分析結果を活用できない不都合がある。

これに対し、本実施形態では、前述した通り、前回の分析結果を活用しつつ、変数を生成することができる。

なお、上記の各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤなど）、光磁気ディスク（ＭＯ）、半導体メモリなどの記憶媒体に格納して頒布することもできる。

また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。

また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワークソフト等のＭＷ（ミドルウェア）等が上記実施形態を実現するための各処理の一部を実行しても良い。

さらに、各実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、ＬＡＮやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。

また、記憶媒体は１つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。

なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。

また、各実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。

なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１１…変数タイプ判定部、１２…前処理部、１３…ルール変更部、１４…変数バリエーション生成部、１５…分析実行部、１６…分析終了判定部、１７…変数寄与率判定部、２１…収集データ保管部、２２…変数バリエーションルール保管部、２３…分析データセット保管部、２４…分析結果保管部。

Claims

目的変数と前記目的変数に対する説明変数の候補である各変数とを有する分析対象データから前記各変数のバリエーションを生成することにより、前記分析対象データの分析を支援するデータ分析支援装置であって、
前記各変数について、変数の型を表す変数タイプの判定を試み、判定できた場合のみ変数タイプを割り当てる変数タイプ判定手段と、
前記判定により割り当てられた変数タイプと、予め変数タイプ別に変数のバリエーションの生成方法を規定した変数バリエーションルールとに基づいて、前記各変数のバリエーションを生成する変数バリエーション生成手段と、
前記生成されたバリエーションにおける前記目的変数への寄与率を算出し、この寄与率に基づいて、当該バリエーションを採用するか削除するかを判定する変数寄与率判定手段と、
を備えたことを特徴とするデータ分析支援装置。
請求項１に記載のデータ分析支援装置において、
前記変数バリエーションルールを記憶する変数バリエーションルール記憶手段と、
入力されたルール変更指示に応じて、前記変数バリエーションルール記憶手段内の変数バリエーションルールを変更するルール変更手段と
を備えたことを特徴とするデータ分析支援装置。
請求項１又は請求項２に記載のデータ分析支援装置において、
前記変数の型は、時間によって値が変化する変数を指す時間型又は空間上の位置によって値が変化する変数を指す空間型であり、
前記変数タイプ判定手段は、前記各変数を特定する主キーの変数の変数名及び前記主キーの変数の変数値の値のリストのうちの少なくとも前記変数名と、前記主キーの変数を個別に包括するカテゴリを表す前記変数の型とが予め関連付けて定義されており、前記変数名及び前記変数値の値のリストのうちの少なくとも前記変数名に基づいて、前記判定を試みることを特徴とするデータ分析支援装置。