JP5788850B2 - データ分析支援装置 - Google Patents

データ分析支援装置 Download PDF

Info

Publication number
JP5788850B2
JP5788850B2 JP2012214884A JP2012214884A JP5788850B2 JP 5788850 B2 JP5788850 B2 JP 5788850B2 JP 2012214884 A JP2012214884 A JP 2012214884A JP 2012214884 A JP2012214884 A JP 2012214884A JP 5788850 B2 JP5788850 B2 JP 5788850B2
Authority
JP
Japan
Prior art keywords
variable
variation
type
rule
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012214884A
Other languages
English (en)
Other versions
JP2014071492A (ja
Inventor
誠二 江川
誠二 江川
磯部 庄三
庄三 磯部
櫻井 茂明
茂明 櫻井
一嘉 西
一嘉 西
松本 茂
茂 松本
ルミ 早川
ルミ 早川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2012214884A priority Critical patent/JP5788850B2/ja
Priority to CN201380050377.1A priority patent/CN104685492B/zh
Priority to PCT/JP2013/068362 priority patent/WO2014050248A1/ja
Priority to EP13842938.6A priority patent/EP2902919A4/en
Publication of JP2014071492A publication Critical patent/JP2014071492A/ja
Priority to US14/671,536 priority patent/US10515051B2/en
Application granted granted Critical
Publication of JP5788850B2 publication Critical patent/JP5788850B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies
    • G06F16/125File system administration, e.g. details of archiving or snapshots using management policies characterised by the use of retention policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Human Computer Interaction (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、データ分析支援装置に関する。
収集されたデータから知識を抽出する過程において、効率よく、精度の高い分析結果を得るために、分析アルゴリズムへの入力データセット(分析データセット)の生成を支援するデータ分析支援装置が用いられている。
この種のデータ分析支援装置については、予め用意した合成手段(変換式)を固定的に用い、分析対象のデータ中の説明変数のうち、1つ以上の説明変数を合成して新しい説明変数を生成する方式が知られている。この方式では、生成した説明変数セットのうち、分析の精度が高くなる説明変数を選ぶことを繰り返して、分析精度を上げていく。さらに、この方式では、複数設定された全ての合成手段を試して最良の説明変数の組合せを選び、分析精度を上げていく。
特開2000−20504号公報 特開平11−328255号公報
しかしながら、以上のような方式は、合成手段を固定的に用いるため、どのような変数(群)にも同じ合成手段が適用される。そのため、この方式では、各変数に適した合成手段を動的に決定できない不都合がある。
本発明が解決しようとする課題は、変数に応じて異なる変換式を適用して、変数を生成し得るデータ分析支援装置を提供することである。
実施形態のデータ分析支援装置は、目的変数と前記目的変数に対する説明変数の候補である各変数とを有する分析対象データから前記各変数のバリエーションを生成することにより、前記分析対象データの分析を支援する。
前記データ分析支援装置は、変数タイプ判定手段、変数バリエーション生成手段及び変数寄与率判定手段を備えている。
前記変数タイプ判定手段は、前記各変数について、変数の型を表す変数タイプを判定する。
前記変数バリエーション生成手段は、前記判定された変数タイプと、予め変数タイプ別に変数のバリエーションの生成方法を規定した変数バリエーションルールとに基づいて、前記各変数のバリエーションを生成する。
前記変数寄与率判定手段は、前記生成されたバリエーションにおける前記目的変数への寄与率を算出し、この寄与率に基づいて、当該バリエーションを採用するか削除するかを判定する。
一実施形態に係るデータ分析支援装置の構成を示す模式図である。 同実施形態における事務量データの一例を示す模式図である。 同実施形態における為替データの一例を示す模式図である。 同実施形態における気象データの一例を示す模式図である。 同実施形態における地域コードを説明するための模式図である。 同実施形態における店舗データの一例を示す模式図である。 同実施形態における結合済みデータの一例を示す模式図である。 同実施形態における時間タイプの変数に対する変数バリエーションルールの一例を示す模式図である。 同実施形態における空間タイプの変数に対する変数バリエーションルールの一例を示す模式図である。 同実施形態における動作を説明するためのフローチャートである。 同実施形態におけるステップS2の詳細を説明するためのフローチャートである。 同実施形態におけるステップS4の詳細を説明するためのフローチャートである。 同実施形態におけるステップS6の詳細を説明するためのフローチャートである。 同実施形態におけるステップS7の詳細を説明するためのフローチャートである。 同実施形態における生成途中のバリエーションの一例を示す模式図である。 同実施形態における生成途中のバリエーションの一例を示す模式図である。 同実施形態における生成途中のバリエーションの一例を示す模式図である。 同実施形態における生成途中のバリエーションの一例を示す模式図である。 同実施形態における生成途中のバリエーションの一例を示す模式図である。 同実施形態における生成途中のバリエーションの一例を示す模式図である。 同実施形態における生成途中のバリエーションの一例を示す模式図である。 同実施形態における生成途中のバリエーションの一例を示す模式図である。 同実施形態における時間タイプのバリエーションの値の算出方法を示す模式図である。 同実施形態における空間タイプのバリエーションの値の算出方法を示す模式図である。
以下、一実施形態について図面を用いて説明する。なお、以下のデータ分析支援装置は、ハードウェア構成、又はハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワーク又は記憶媒体からデータ分析支援装置のコンピュータにインストールされ、データ分析支援装置の各機能を実現させるためのプログラムが用いられる。
図1は一実施形態に係るデータ分析支援装置の構成を示す模式図である。データ分析支援装置は、目的変数と当該目的変数に対する説明変数の候補である各変数とを有する分析対象データから当該各変数のバリエーションを生成することにより、分析対象データの分析を支援する。
具体的には、データ分析支援装置は、変数タイプ判定部11、前処理部12、ルール変更部13、変数バリエーション生成部14、分析実行部15、分析終了判定部16及び変数寄与率判定部17、収集データ保管部21、変数バリエーションルール保管部22、分析データセット保管部23及び分析結果保管部24を備えている。
ここで、変数タイプ判定部11は、収集データ保管部21内に予め収集及び保管された分析対象データを入力として取り込み、分析対象データ中の各変数の変数タイプを判定する。補足すると、変数タイプ判定部11は、当該各変数について、当該変数の型(種類)を表す変数タイプを判定する。例えば、変数タイプ判定部11は、当該各変数について、時間に応じて変化する時間タイプ及び空間上の位置に応じて変化する空間タイプのうち、いずれの変数タイプに属するかを判定する。また、変数タイプ判定部11は、判定できなかった変数については、メッセージの出力などにより、ユーザに変数の判定を促すようにしてもよい。
前処理部12は、変数タイプ判定部11で判定された変数タイプに基づき、各変数に対して一般的な前処理を実行し、前処理された分析対象データを変数バリエーション生成部14に送出する。前処理としては、例えば、欠損値処理、ノイズ処理及び正規化処理(単位変換、表記ゆれ統一など)が適宜使用可能となっている。但し、前処理部12は、任意の付加的事項であり、省略してもよい。
ルール変更部13は、変数のバリエーションを増やすために変数のタイプごとに定義された変数バリエーションルールを変更するためのインタフェースである。補足すると、ルール変更部13は、入力されたルール変更指示に応じて、変数バリエーションルール保管部22内の変数バリエーションルールを変更する。
変数バリエーション生成部14は、変数バリエーションルールを各変数に当てはめ、変数のバリエーションを増やす(又は減らす)。補足すると、変数バリエーション生成部14は、変数タイプ判定部11により判定された変数タイプと、予め変数タイプ別に変数のバリエーションの生成方法を規定した変数バリエーションルールとに基づいて、各変数のバリエーションを生成する。生成されたバリエーション及び分析対象データは、変数バリエーション生成部14により、分析データセット保管部23に書込まれる。また、変数バリエーション生成部14は、当該バリエーションを採用するか削除するかを示す判定結果を変数寄与率判定部17から受けると、当該判定結果に基づいて、各変数のバリエーションを生成する。
分析実行部15は、分析データセット保管部23内のバリエーション及び分析対象データに関し、分析モデル/アルゴリズムを用いて分析を実行し、分析結果を分析結果保管部24に書込む。なお、バリエーションと分析対象データとの組は、分析データとも呼ぶ。
分析終了判定部16は、分析実行部15が分析を繰り返し行う過程において、分析結果保管部24内の前回の分析結果と今回の分析結果を比較することにより、分析を継続するか否かを判定し、前回よりも今回の分析結果の精度が良い場合に限り、分析を継続する旨の判定結果を得る。これ以外の場合(精度に変化がない場合又は今回の方が精度が悪い場合)には、分析終了判定部16は、分析を終了する旨の判定結果を得る。なお、分析結果の精度としては、例えば、一般的に分析モデル/アルゴリズムの精度として算出される値を用いる。また、分析終了判定部16は、分析を継続する旨の判定結果を得た場合、変数寄与率判定部17を起動する。分析終了判定部16は、分析を終了する旨の判定結果を得た場合、処理を終了する。
変数寄与率判定部17は、分析データセット保管部23内のバリエーション及び分析対象データに関し、各説明変数の目的変数に対する寄与率を計算し、寄与率の高い変数についてはバリエーションを増やす判定を行い、寄与率の低い変数についてはバリエーションを減らす判定を行う。補足すると、変数寄与率判定部17は、変数バリエーション生成部14により生成されたバリエーションにおける目的変数への寄与率を算出し、この寄与率に基づいて、当該バリエーションを採用するか削除するかを判定する。また、変数寄与率判定部17は、この判定結果を変数バリエーション生成部14に送出する。なお、変数寄与率としては、例えば、一般的に用いられる変数の寄与率や、目的変数に対する説明変数の相関などが適宜、使用可能となっている。また、当該バリエーションを採用する判定は、当該バリエーションを増加させる判定と読み替えてもよく、当該バリエーションを削除する判定は、当該バリエーションを減らす判定又は当該バリエーションを増やさない判定と読み替えてもよい。また、複数の変数については、同時に処理を実行してもよい。例えば、変数Aのバリエーションを増やす判定と、変数Bのバリエーションを減らす判定とを同時に実行してもよい。
次に、各保管部21〜24に保管されるデータについて、銀行支店の事務量の多寡に関して分析する場合を例に挙げて説明する。具体的には、銀行の事務量データと、外部データである為替データ及び気象データとを関連付けた分析対象データから、事務量の多寡に影響を与える要因を抽出する場合を例に挙げて述べる。
銀行における各業務に関する事務作業の作業量を事務量と呼ぶ。事務量の多寡は、銀行支店への来店客数などに左右されるため、給与支給日、月末など、銀行業務に直接関連する事項の他に、天候や、為替の変動などさまざまな外部要因の影響を受ける。そこで、銀行の事務量データと、さまざまな外部データとを関連付けた分析が必要となる。
来店客数は、当日の株価よりも、前日の株価の影響をより大きく受けるかもしれない。あるいは、当日の気温よりも、前日との気温差、もしくは最近1週間の平均気温の影響をより大きく受けるかもしれない。そこで、要因のバリエーションを様々に変えた分析が求められる。このとき、要因のバリエーションが無限に存在するため、効率の良い分析手段が求められる。
始めに、収集データ保管部21に保管されている各種データを説明する。
収集データ保管部21は、変数タイプ判定部11から読出可能な記憶デバイスであり、事務量データ、為替データ、気象データ、店舗データ及び結合済みデータを保管(記憶)する。なお、収集データ保管部21は、変数タイプ判定部11から読出可能な記憶デバイスであればよいので、必ずしもデータ分析支援装置が備える必要はなく、データ分析支援装置の外部に配置されてもよい。また、事務量データ、為替データ及び気象データは収集データと呼んでもよい。店舗データは収集データと呼んでも呼ばなくてもよい。結合済みデータは、分析対象データと呼んでもよい。
事務量データは、図2に示すように、日付を値にもつ日付項目と、支店番号を値にもつ支店番号項目と、業務名を値にもつ業務項目と、事務量を値にもつ事務量項目と、事務量の多寡を値にもつ事務量の多寡項目とを関連付けた表形式のデータである。なお、本明細書中、表形式のデータをデータテーブルとも呼び、データテーブル内の各項目を「変数名」又は「変数」とも呼び、各項目の値を「変数の値」又は「変数」とも呼ぶ。変数名の下線は、その変数名がデータテーブルの主キーであることを示す。主キーとは、1つ以上の変数の集合であり、変数の値によってそのデータテーブルの各行を一意に識別できるものである。例えば、事務量データであれば、「日付」、「支店番号」、「業務」の組合せで、各行を識別でき、これら3つの変数の組合せが、事務量データの主キーである。
ここでは事務量は、日付ごと、支店番号ごと、かつ業務ごとに記録されている。図2の1行目のデータは「2012年3月1日のB001支店における預金業務の事務量が150である」ことを示している。通常、事務量の絶対量は、支店の規模や業務ごとの特性によって大きく異なる。そこで、このような不変の要素を除外し、流動的な外部要因の影響のみを分析するために、該当店舗の該当業務における平均的な事務量と比較した場合の、該当する日付の事務量の多寡を表す「事務量の多寡」という属性が付与されている。この「事務量の多寡」は、例えば、下記の方法(1)〜(3)で付与することができる。
(1)事務量データを、支店番号ごと、かつ業務ごとに分割する。特定の支店番号、特定の業務についての、日ごとの事務量データが得られる。
(2)分割した各事務量データを、事務量の降順にソートする。
(3)事務量の値が上位1/3に入るデータを「事務量の多寡」が“多い”、下位1/3のデータを“少ない”、残りの1/3のデータを“平均”とする。
但し、「事務量の多寡」は、この方法に限らず、例えば、支店や業務の違いを考慮せずに、事務量の絶対量の降順に並べた上で、上位1/3を“多い”とし、下位1/3を“少ない”とし、残りの1/3のデータを“平均”とする方法で付与しても良い。
為替データは、図3に示すように、日付を値にもつ日付項目と、ドルの円に対するレートを値にもつドルレート(円)項目と、ユーロの円に対するレートを値にもつユーロレート(円)項目とを関連付けた表形式のデータである。
気象データは、図4に示すように、地域ごと、かつ日付ごとに、気温、降水量、天気が記録されている。すなわち、気象データは、地域の位置を示す地域コードを値にもつ地域項目と、日付を値にもつ日付項目と、気温を値にもつ気温(℃)項目と、降水量を値にもつ降水量(mm)項目と、天気を値にもつ天気項目とを関連付けた表形式のデータである。地域コードは、図5に示すように、予め格子状に区分された四角形領域の位置を示すコードであり、東西方向に沿った位置を示す数字と、南北方向に沿った位置を示す数字との組により、当該四角形領域の位置を特定する。
店舗データは、事務量データと気象データとを対応付けるためのデータであって、図6に示すように、支店番号を値にもつ支店番号項目と、地域コードを値にもつ地域項目とを関連付けた表形式のデータである。
結合済みデータは、為替データ及び気象データを事務量データに結合したデータであって、図7に示すように、日付を値にもつ日付項目と、支店番号を値にもつ支店番号項目と、業務名を値にもつ業務項目と、事務量を値にもつ事務量項目と、事務量の多寡を値にもつ事務量の多寡項目と、気温を値にもつ気温(℃)項目と、降水量を値にもつ降水量(mm)項目と、ドルの円に対するレートを値にもつドルレート(円)項目と、ユーロの円に対するレートを値にもつユーロレート(円)項目とを関連付けた表形式のデータである。
結合済みデータは、収集データ保管部21内の個々のデータを、主キーによって機械的に結合しても良いし、事前に人手で結合させた上で収集データ保管部21に書込んでもよい。
続いて、変数バリエーションルール保管部22に保管される、変数バリエーションルールについて説明する。変数バリエーションルールは、時間タイプ、空間タイプなど、変数のタイプ別に、変数のバリエーションの増やし方を定義したものである。
ここで、「タイプ」とは、以下のように、何によって値が変化する変数かという変数の型を指す。変数(例、気温)の型は、当該変数(例、気温)を特定する主キーの各変数(例、日付、地域コード)を個別に包括する各カテゴリ(例、時間、空間)を表している。主キーの変数と、主キーの各変数の各カテゴリ(型)とは、例えば「日付項目」と「時間」型、又は「地域コードの値のリスト」と「空間」型というように、予め関連付けて変数タイプ判定部11に定義されている。なお、「型」は「種類」又は「性質」のように、適宜、他の名称に読み替えてもよい。同様に、「カテゴリ」は「包括概念」又は「上位概念」のように、適宜、他の名称に読み替えてもよい。
時間タイプ:時間によって値が変化する変数を時間タイプの変数という。例えば、「ドルレート」という変数は、「ある日のドルレートの終値」に対して、「1日前のドルレートの終値」、「2日前のドルレートの終値」という異なる値が存在する。また、「気温」という変数は、「ある地点での、ある時刻の気温」に対し、「同地点での、1時間前の気温」という異なる値が存在する。
空間タイプ:空間上の位置によって値が異なる変数を空間タイプの変数という。例えば、「ある地点での、ある時刻の気温」に対して、「隣の地点での、同時刻の気温」という異なる値が存在する。
この場合、「気温」という変数は、時間タイプ及び空間タイプである。このように、ある変数が複数のタイプを持つ場合も存在する。
なお、変数タイプは、時間タイプ及び空間タイプに限らず、何かの数量の種類又は何らかのカテゴリの種類であればよい。
各タイプに対し、変数バリエーションルールとして「ルール形式」、「初期値」、「更新規則」が存在する。例えば、時間タイプの変数には、図8に示すように、変数バリエーションルールが定義されている。
すなわち、時間タイプの変数に対する変数バリエーションルールは、自然数を値にもつルール番号項目と、「n日前との差」又は「n年前との差」を値にもつルール形式項目と、n=1を値にもつ初期値項目と、n’=n+1を値にもつ更新規則項目とを関連付けた表形式のデータとして定義されている。なお、ルール番号項目は、任意の付加的事項であり、省略してもよい。また、バリエーションには、変数の種類(例、日のみ、日と月、日と月と年、…)と、ある種の変数の変化(例、1日、2日、3日、…)という2通りの意味がある。ここで、同じルール番号のルール形式は、バリエーション生成値nを変えることである種の変数を変化させたバリエーションに対応する。また、異なるルール番号のルール形式は、変数の種類を変えたバリエーションに対応する。また、時間タイプ変数の例としては、差(例、前日差/月差/年差、2日前差/2月前差/2年前差、…)に限らず、比率(例、前日比/前月同日比、2日前比/2月前同日比、…)、平均、最大最小差などが適宜、使用可能となっている。また、更新規則項目は、この例ではn’=n+1として一方向に増やしているが、これに限らず、n’=n−1として一方向に減らしてもよい(この場合、例えば、初期値nを31(日)、12(月)又は2012(年)などのように、変数の最大値に設定すればよい)。
一方、空間タイプの変数に対する変数バリエーションルールは、図9に示すように、自然数を値にもつルール番号項目と、「(x−n,y)の地点との差」又は「(x,y−n)の地点との差」を値にもつルール形式項目と、n=1を値にもつ初期値項目と、n’=n+1を値にもつ更新規則項目とを関連付けた表形式のデータとして定義されている。なお、ルール番号項目は、任意の付加的事項であり、省略してもよい。また、空間タイプ変数は、前述した地域コードに限らず、住所表現、GPS表現又は移動距離などが適宜、使用可能となっている。住所表現としては、例えば、01:北海道、02:青森、…、15:東京都、…、15001:中央区、15002:港区、…等の空間の親子関係を定義した値を用いてもよい。この場合、バリエーションの増やし方は、例えば、県のみ→県と市町村→県と市町村と番地のように、親から子に向かう方向に増やしてもよい。GPS表現(緯度経度)としては、例えば、東経:60度、北緯:22度、海抜:0m、…等が適宜使用可能となっている。バリエーションの増やし方は、例えば、ある起点からの距離に換算する数式を予め定義した場合に、起点を変える(増やす)又は起点からの距離を変える(増やす)というように、増やしてもよい。起点からの距離を変える例としては、起点Aの半径300m以内(又は外)、500m以内(又は外)、…や、起点Bの半径300m以内(又は外)、500m以内(又は外)、…、などのようにすればよい。また、移動距離としては、例えばGPS表現と同様に定義すればよい。
次に、分析データセット保管部23に保管される、分析データについて説明する。分析データは、変数バリエーション生成部により生成されたバリエーションと、分析対象データとを含んでいる。すなわち、分析データは、バリエーション及び分析対象データであるが、バリエーションと分析対象データとの組ともいえるので、分析データセットとも呼ばれる。
最後に、分析結果保管部24に保管される、分析結果について説明する。分析結果保管部24の分析結果は、分析実行部15による分析毎に書込まれ、前回の分析結果と今回の分析結果とが分析終了判定部16により読み出される。
次に、以上のように構成されたデータ分析支援装置の動作を説明する。始めに、全体の処理手順を図10のフローチャートを用いて述べる。
ルール変更部13は、利用者の操作により、入力されたルール変更指示に応じて、変数バリエーションルール保管部22内の変数バリエーションルールを変更する(ステップS1)。なお、変数バリエーションの変更は、必須ではなく、省略してもよい。
変数タイプ判定部11は、収集データ保管部21内の分析対象データ中の各変数について、変数の型を表す変数タイプを判定する(ステップS2)。
前処理部12は、ステップS2で判定された変数タイプに基づき、各変数に対して欠損値処理など、通常の分析に必要な前処理を実行する(ステップS3)。
変数バリエーション生成部14は、ステップS3で前処理を実行した分析対象データ中の各変数に対して、変数のタイプに適合する変数バリエーションルールを変数バリエーションルール保管部22から選択し、当該変数バリエーションルールを適用する。すなわち、変数バリエーション生成部14は、変数タイプと変数バリエーションルールとに基づいて、各変数のバリエーションを生成する。また、変数バリエーション生成部14は、生成により増えたバリエーション及び分析対象データ(以下、分析データともいう)を分析データセット保管部23に書込む(ステップS4)。
分析実行部15は、分析データセット保管部23内の分析データについて、分析モデル/アルゴリズムを用いて分析を実行し、分析結果を分析結果保管部24に書込む(ステップS5)。
分析終了判定部16は、分析結果保管部24内の今回の分析結果の精度を前回の分析結果の精度と比較し、精度が改善されていなければ、分析終了と判定し、処理を終了する。精度が改善されていれば、分析継続と判定し、ステップS7に進む(ステップS6)。
変数寄与率判定部17は、生成されたバリエーションにおける目的変数への寄与率を算出し、この寄与率に基づいて、当該バリエーションを採用するか削除するかを判定する。例えば、変数寄与率判定部17は、寄与率の高い変数についてはバリエーションを採用する旨を判定し、バリエーションを増やすようにする。一方、寄与率が低い変数についてはバリエーションを削除する旨を判定し、バリエーションを増やさない又は減らすようにして、ステップS4以降を再度実行する(ステップS7)。
以上により、全体動作が完了する。
次に、ステップS2の変数タイプ判定動作の詳細について図11を用いて説明する。変数タイプ判定部11は、収集データ保管部21内の分析対象データ中の各変数について、変数の型を表す変数タイプを判定する。本実施形態では、変数タイプとして、時間タイプ及び空間タイプがある。ステップS2では、機械的に、あるいは人手により、変数タイプを判定する。
変数タイプ判定部11は、変数タイプが未判定である変数をひとつ選択する(ステップS2−1)。選択した変数を変数aとする。
変数タイプ判定部11は、変数aの主キーから変数をひとつ選択する(ステップS2−2)。選択した変数を変数kとする。
変数タイプ判定部11は、変数kの変数名から、変数kの型の判定を試みる(ステップS2−3)。判定できれば、ステップS2−7に進む。判定できなければ、ステップS2−4に進む。
変数タイプ判定部11は、変数kの「変数値の値のリスト」を取得する(ステップS2−4)。
変数タイプ判定部11は、変数kの「変数値の値のリスト」から、変数aの変数タイプの判定を試みる(ステップS2−5)。判定できれば、ステップS2−7に進む。判定できなければ、ステップS2−6に進む。
変数タイプ判定部11は、人手により、変数kの型を判定する(ステップS2−6)。
変数タイプ判定部11は、変数kの型を参照し、変数aの変数タイプを追加する(ステップS2−7)。
変数タイプ判定部11は、変数aの全ての主キー変数について処理していれば、ステップS2−9に進む。未処理の主キー変数があれば、ステップS2−2に戻る(ステップS2−8)。
変数タイプ判定部11は、収集データ保管部21のデータ中の全ての変数について変数タイプを判定していれば、処理を終了する。変数タイプを未判定の変数があれば、ステップS2−1に戻る(ステップS2−9)。
ただし、変数タイプ判定方法は上記の方法に限らず、例えば、上記ステップS2−6のように人手で変数kの型を判定するのが難しい場合には、ステップS2−3、S2−5での自動判定のみとし、変数kの型を自動判定できた場合のみ変数aに変数タイプを割り当てる方法としても良い。
次に、ステップS4の変数バリエーションの生成動作の詳細について図12を用いて説明する。なお、変数バリエーション生成部14は、例えば、生成されるバリエーションの状態を表す状態データを用いてステップS4を実行する。ここで、状態データは、例えば、後述する図15に示すように、分析対象データ内の主キーで特定される変数の項目を値にもつ変数項目と、「時間」又は「空間」を値にもつ変数タイプ項目と、「n日前との差」、「n年前との差」、「(x−n,y)の地点との差」又は「(x,y−n)の地点との差」を値にもつルール形式項目と、「増加」、「完了」又は「削除」といったバリエーション更新状態を値にもつ更新状態項目と、自然数のバリエーション生成値をもつ値項目と、ルール形式項目の値のnにバリエーション生成値を代入してなる値(バリエーション)をもつ「生成されるバリエーション」項目とを関連付けた表形式のデータである。
変数バリエーション生成部14は、前処理部12で処理されたデータの各変数に対して、変数バリエーションルールを適用する。
変数バリエーション生成部14は、前処理部12で処理されたデータから変数を選択する(ステップS4−1)。選択した変数を変数aとする。
変数バリエーション生成部14は、変数aに変数バリエーションルールを適用することが初めてか否かを判定する。初めての場合は、ステップS4−3に進む。初めてでない場合は、ステップS4−4に進む(ステップS4−2)。
変数バリエーション生成部14は、初期化として、変数aの全ての変数タイプに対する変数バリエーションルールの、全てのルール形式に関して、バリエーション更新状態を“増加”とし、バリエーション生成値nを初期値とする。全てのルール形式を、変数aに適用する。その後、ステップS4−12に進む(ステップS4−3)。
変数バリエーション生成部14は、変数aの変数タイプの1つを選択する(ステップS4−4)。選択したタイプをタイプtとする。
変数バリエーション生成部14は、変数バリエーションルール保管部22から、タイプtの変数バリエーションルールを取得する(ステップS4−5)。
変数バリエーション生成部14は、変数aの変数タイプtの変数バリエーションルールから、1つのルール形式を選択する(ステップS4−6)。選択したルール形式を、ルール形式rとする。
変数バリエーション生成部14は、ルール形式rのバリエーション更新状態sを参照する。“増加”である場合は、ステップS4−8に進む。“削除”である場合は、ステップS4−9に進む。“完了”である場合は、ステップS4−10に進む(ステップS4−7)。
変数バリエーション生成部14は、変数aの変数タイプtのルール形式rに関して、バリエーション生成値を更新し、ルールを適用する。その後、ステップS4−10に進む(ステップS4−8)。
変数バリエーション生成部14は、変数aの変数タイプtのルール形式rに関して、現在のバリエーション生成値により生成されたバリエーションを削除する。また、バリエーション更新状態を“完了”とする(ステップS4−9)。
変数バリエーション生成部14は、変数aの変数タイプtの全てのルール形式について処理をしていれば、ステップS4−11に進む。未処理のルール形式があれば、ステップS4−6に戻る(ステップS4−10)。
変数バリエーション生成部14は、変数aの全ての変数タイプについて処理をしていれば、ステップS4−12に進む。未処理の変数タイプがあれば、ステップS4−4に戻る(ステップS4−11)。
変数バリエーション生成部14は、全ての変数について処理をしていれば、処理を終了する。未処理の変数があれば、ステップS4−1に戻る(ステップS4−12)。
次に、ステップS6の分析終了判定動作の詳細について図13を用いて説明する。
分析終了判定部16は、今回の分析結果の精度を算出する(ステップS6−1)。
分析終了判定部16は、今回の精度が、前回の分析結果の精度よりも高ければ、ステップS6−3に進む。高くなければ、ステップS6−4に進む(ステップS6−2)。
分析終了判定部16は、分析処理を継続する判定をし、処理を終了する(ステップS6−3)。
分析終了判定部16は、分析処理を終了する判定をし、処理を終了する(ステップS6−4)。
最後に、ステップS7の変数寄与率判定動作の詳細について図14を用いて説明する。
変数寄与率判定部17は、各変数バリエーションの寄与率を算出し、次の分析繰り返しでのバリエーションの増やし方を決定する。
変数寄与率判定部17は、変数バリエーションの1つを選択する(ステップS7−1)。選択した変数バリエーションをバリエーションaとする。
変数寄与率判定部17は、バリエーションaの寄与率を算出する(ステップS7−2)。
変数寄与率判定部17は、バリエーションaの寄与率が高いかどうか判定する。寄与率が低ければ、ステップS7−4に進む。寄与率が高ければ、ステップS7−5に進む(ステップS7−3)。
変数寄与率判定部17は、バリエーションaのバリエーション更新状態を“削除”に変更する(ステップS7−4)。
変数寄与率判定部17は、全てのバリエーションについて処理していれば、処理を終了する。未処理のバリエーションがあれば、ステップS7−1に戻る(ステップS7−5)。
各バリエーションの寄与率の算出には、相関係数や決定係数のように一般的に用いられる寄与率を用いることができる。また、その他の指標を用いてもよい。
寄与率が高いかどうかを判定するには、予め固定の閾値を設定しておいても良いし、同じ変数や他の変数の他のバリエーションの寄与率を元に相対的に判定しても良い。
また、上記の例では、あるバリエーションの寄与率が低い場合に、ステップS7−3、S7−4において、バリエーション更新状態をすぐに“削除”から“完了”に変更しているが、予めバリエーション生成値に対する閾値を設定しておいて、バリエーション生成値がその閾値に達するまではバリエーションを増やすことを試みるような方法としても良い。
以下では、実際にバリエーションが生成される過程を、ひとつの変数に注目して説明する。ここでは、図7中の変数「気温」を例に説明する。
変数タイプ判定部11は、図11に示したように、変数タイプが未判定である「気温」を選択する(ステップS2−1)。
変数タイプ判定部11は、「気温」の主キー(地域、日付)から変数「地域」を選択する(ステップS2−2)。
ここでは、「地域」という変数名からは、「地域」の型の判定ができないものとする。変数タイプ判定部11は、ステップS2−4に進む(ステップS2−3)。
変数タイプ判定部11は、「地域」の変数値の値のリスト((1,1)、(1,2)、(1,3)、…)を取得する(ステップS2−4)。
ここでは、「地域」の変数値の値のリストから、「地域」の型が「空間型」であると判定できるものとする。変数タイプ判定部11は、ステップS2−7に進む(ステップS2−5)。なお、主キーの変数と、主キーの各変数の各カテゴリ(型)とは、例えば「日付項目」と「時間」型、又は「地域コードの値のリスト」と「空間」型というように、予め関連付けて変数タイプ判定部11に定義されている。地域コードは、図5に示すように、予め格子状に区分された四角形領域の位置を示すコードであり、東西方向に沿った位置を示す数字と、南北方向に沿った位置を示す数字との組により、当該四角形領域の位置を特定する。
変数タイプ判定部11は、「気温」の変数タイプに「空間タイプ」を追加する(ステップS2−7)。
変数タイプ判定部11は、「気温」の主キー変数のうち、未処理の主キー変数があるため、ステップS2−2に戻る(ステップS2−8)。
変数タイプ判定部11は、「気温」の主キー(地域、日付)から変数「日付」を選択する(ステップS2−2)。
ここでは、「日付」という変数名から、「日付」の型が「時間型」と判定できるものとする。変数タイプ判定部11は、ステップS2−7に進む(ステップS2−3)。
変数タイプ判定部11は、「気温」の変数タイプに「時間タイプ」を追加する(ステップS2−7)。
変数タイプ判定部11は、「気温」の全ての主キー変数について処理しているため、ステップS2−9に進む。
変数タイプ判定部11は、収集データ保管部21のデータ中の全ての変数について処理し、処理を終了する(ステップS2−9)。
なお、全体の処理手順(図10)のステップS4からステップS7までは繰り返し実行される。
次に、ステップS4からステップS7までの繰り返しの1周目における、変数バリエーション生成部14におけるフローチャート(図12)の動作について述べる。
変数バリエーション生成部14は、前処理部12で処理されたデータから「気温」を選択する(ステップS4−1)。
変数バリエーション生成部14は、「気温」に変数バリエーションルールを適用するのは初めてであるため、ステップS4−3に進む(ステップS4−2)。
変数バリエーション生成部14は、「気温」の全ての変数タイプ(時間タイプ、空間タイプ)に対する変数バリエーションルールの、全てのルール形式に関して、バリエーション更新状態を“増加”とし、バリエーション生成値を初期値とする。全てのルール形式を「気温」に適用する。その後、ステップS4−12に進む(ステップS4−3)。「気温」に関する「生成されるバリエーション」項目の値は、図15の右列に示すようになる。
変数バリエーション生成部14は、全ての変数について処理をして、処理を終了する(ステップS4−12)。
次に、ステップS4からステップS7までの繰り返しの1周目における、分析終了判定部16におけるフローチャート(図13)の動作について述べる。
分析終了判定部16は、今回の分析結果の精度を算出する(ステップS6−1)。
分析終了判定部16は、前回の分析結果の精度が存在せず、今回の分析結果の精度と比較できないため、ステップS6−3に進む(ステップS6−2)。
分析終了判定部16は、分析処理を継続する判定をし、処理を終了する(ステップS6−3)。
次に、ステップS4からステップS7までの繰り返しの1周目における、変数寄与率判定部17におけるフローチャート(図14)の動作について述べる。今回は、目的変数との相関により、寄与率を算出するものとする。固定の閾値との比較により、寄与率の高低を判定するものとする。
変数寄与率判定部17は、変数バリエーションの1つ「1日前との気温差」を選択する(ステップS7−1)。
変数寄与率判定部17は、「1日前との気温差」の寄与率を算出する(ステップS7−2)。
ここでは、「1日前との気温差」の寄与率が閾値より高いものとする。変数寄与率判定部17は、ステップS7−5に進む(ステップS7−3)。
変数寄与率判定部17は、未処理のバリエーションがあるため、ステップS7−1に戻る(ステップS7−5)。
変数寄与率判定部17は、変数バリエーションの1つ「1年前との気温差」を選択する(ステップS7−1)。
変数寄与率判定部17は、「1年前との気温差」の寄与率を算出する(ステップS7−2)。
ここでは、「1年前との気温差」の寄与率が閾値より低いものとする。変数寄与率判定部17は、ステップS7−4に進む(ステップS7−3)。
変数寄与率判定部17は、「1年前との気温差」のバリエーション更新状態を“削除”に変更する(ステップS7−4)。
変数寄与率判定部17は、未処理のバリエーションがあるため、ステップS7−1に戻る(ステップS7−5)。
変数寄与率判定部17は、変数バリエーションの1つ「(x−1,y)の地点との気温差」を選択する(ステップS7−1)。
変数寄与率判定部17は、「(x−1,y)の地点との気温差」の寄与率を算出する(ステップS7−2)。
ここでは、「(x−1,y)の地点との気温差」の寄与率が閾値より高いものとする。変数寄与率判定部17は、ステップS7−5に進む(ステップS7−3)。
変数寄与率判定部17は、未処理のバリエーションがあるため、ステップS7−1に戻る(ステップS7−5)。
変数寄与率判定部17は、変数バリエーションの1つを選択する(ステップS7−1)。
変数寄与率判定部17は、「(x,y−1)の地点との気温差」の寄与率を算出する(ステップS7−2)。
ここでは、「(x,y−1)の地点との気温差」の寄与率が閾値より低いものとする。変数寄与率判定部17は、ステップS7−4に進む(ステップS7−3)。
変数寄与率判定部17は、「(x,y−1)の地点との気温差」のバリエーション更新状態を“削除”に変更する(ステップS7−4)。
変数寄与率判定部17は、「気温」に関しては全てのバリエーションを処理し終えた。他の変数についても、全てのバリエーションについて処理し、処理を終了する(ステップS7−5)。この時点での「気温」に関する「生成されるバリエーション」項目の値は、図16の右列に示すようになる。
次に、ステップS4からステップS7までの繰り返しの2周目における、変数バリエーション生成部14におけるフローチャート(図12)の動作について述べる。
変数バリエーション生成部14は、「気温」を選択する(ステップS4−1)。
変数バリエーション生成部14は、「気温」に変数バリエーションルールを適用するのは初めてではないため、ステップS4−4に進む(ステップS4−2)。
変数バリエーション生成部14は、「気温」の変数タイプの1つ「時間タイプ」を選択する(ステップS4−4)。
変数バリエーション生成部14は、変数バリエーションルール保管部22から、時間タイプの変数バリエーションルールを取得する(ステップS4−5)。
変数バリエーション生成部14は、「気温」の変数タイプ「時間タイプ」の変数バリエーションルールから、1つのルール形式「n日前との差」を選択する(ステップS4−6)。
変数バリエーション生成部14は、ルール形式「n日前との差」のバリエーション更新状態が“増加”であるため、ステップS4−8に進む(ステップS4−7)。
変数バリエーション生成部14は、「気温」の変数タイプ「時間タイプ」のルール形式「n日前との差」に関して、バリエーション生成値を更新し、ルールを適用する。その後、ステップS4−10に進む(ステップS4−8)。この時点での「気温」に関する「生成されるバリエーション」項目の値は、図17の右列に示すようになる。
変数バリエーション生成部14は、「気温」の変数タイプ「時間タイプ」のルール形式のうち、未処理のルール形式があるため、ステップS4−6に戻る(ステップS4−10)。
変数バリエーション生成部14は、「気温」の変数タイプ「時間タイプ」の変数バリエーションルールから、1つのルール形式「n年前との差」を選択する(ステップS4−6)。
変数バリエーション生成部14は、ルール形式「n年前との差」のバリエーション更新状態が“削除”であるため、ステップS4−9に進む(ステップS4−7)。
変数バリエーション生成部14は、「気温」の変数タイプ「時間タイプ」のルール形式「n年前との差」に関して、現在のバリエーション生成値「1」により生成されたバリエーション「1年前との気温差」を削除する。また、バリエーション更新状態を“完了”とする(ステップS4−9)。この時点での「気温」に関する「生成されるバリエーション」項目の値は、図18の右列に示すようになる。
変数バリエーション生成部14は、「気温」の変数タイプ「時間タイプ」の全てのルール形式について処理をしたため、ステップS4−11に進む(ステップS4−10)。
変数バリエーション生成部14は、「気温」に関して、未処理の変数タイプがあるため、ステップS4−4に戻る(ステップS4−11)。
変数バリエーション生成部14は、「気温」の変数タイプの1つ「空間タイプ」を選択する(ステップS4−4)。
変数バリエーション生成部14は、変数バリエーションルール保管部22から、空間タイプの変数バリエーションルールを取得する(ステップS4−5)。
変数バリエーション生成部14は、「気温」の変数タイプ「空間タイプ」の変数バリエーションルールから、1つのルール形式「(x−n,y)の地点との差」を選択する(ステップS4−6)。
変数バリエーション生成部14は、ルール形式「(x−n,y)の地点との差」のバリエーション更新状態が“増加”であるため、ステップS4−8に進む(ステップS4−7)。
変数バリエーション生成部14は、「気温」の変数タイプ「時間タイプ」のルール形式「(x−n,y)の地点との差」に関して、バリエーション生成値を更新し、ルールを適用する。その後、ステップS4−10に進む(ステップS4−8)。この時点での「気温」に関する「生成されるバリエーション」項目の値は、図19に示すようになる。
変数バリエーション生成部14は、「気温」の変数タイプ「空間タイプ」のルール形式のうち、未処理のルール形式があるため、ステップS4−6に戻る(ステップS4−10)。
変数バリエーション生成部14は、「気温」の変数タイプ「空間タイプ」の変数バリエーションルールから、1つのルール形式「(x,y−n)の地点との差」を選択する(ステップS4−6)。
変数バリエーション生成部14は、ルール形式「(x,y−n)の地点との差」のバリエーション更新状態が“削除”であるため、ステップS4−9に進む(ステップS4−7)。
変数バリエーション生成部14は、「気温」の変数タイプ「空間タイプ」のルール形式「(x,y−n)の地点との差」に関して、現在のバリエーション生成値「1」により生成されたバリエーション「(x,y−1)の地点との差」を削除する。また、バリエーション更新状態を“完了”とする(ステップS4−9)。この時点での「気温」に関する「生成されるバリエーション」項目の値は、図20の右列に示すようになる。
変数バリエーション生成部14は、「気温」の変数タイプ「空間タイプ」の全てのルール形式について処理をしたため、ステップS4−11に進む(ステップS4−10)。
変数バリエーション生成部14は、「気温」の全ての変数タイプについて処理したため、ステップS4−12に進む(ステップS4−11)。
変数バリエーション生成部14は、「気温」については全ての処理を終えた。他の変数についても同様の処理をして、処理を終了する(ステップS4−12)。
次に、ステップS4からステップS7までの繰り返しの2周目における、分析終了判定部16におけるフローチャート(図13)の動作について述べる。
分析終了判定部16は、今回の分析結果の精度を算出する(ステップS6−1)。
ここでは、今回の分析結果の精度が、前回の分析結果の精度を上回っているものとする。分析終了判定部16は、ステップS6−3に進む(ステップS6−2)。
分析終了判定部16は、分析処理を継続する判定をし、処理を終了する(ステップS6−3)。
次に、ステップS4からステップS7までの繰り返しの2周目における、変数寄与率判定部17におけるフローチャート(図14)の動作について述べる。
変数寄与率判定部17は、変数バリエーションの1つ「2日前との気温差」を選択する(ステップS7−1)。
変数寄与率判定部17は、「2日前との気温差」の寄与率を算出する(ステップS7−2)。
ここでは、「2日前との気温差」の寄与率が閾値より高いものとする。変数寄与率判定部17は、ステップS7−5に進む(ステップS7−3)。
変数寄与率判定部17は、未処理のバリエーションがあるため、ステップS7−1に戻る(ステップS7−5)。
変数寄与率判定部17は、変数バリエーションの1つ「(x−2,y)の地点との気温差」を選択する(ステップS7−1)。
変数寄与率判定部17は、「(x−2,y)の地点との気温差」の寄与率を算出する(ステップS7−2)。
ここでは、「(x−2,y)の地点との気温差」の寄与率が閾値より低いものとする。変数寄与率判定部17は、ステップS7−4に進む(ステップS7−3)。
変数寄与率判定部17は、「(x−2,y)の地点との気温差」のバリエーション更新状態を“削除”に変更する(ステップS7−4)。
変数寄与率判定部17は、「気温」に関しては全てのバリエーションを処理し終えた。他の変数についても、全てのバリエーションについて処理し、処理を終了する(ステップS7−5)。
次に、ステップS4からステップS7までの繰り返しの2周目における、変数バリエーション生成部14におけるフローチャート(図12)の動作について述べる。
変数バリエーション生成部14は、「気温」を選択する(ステップS4−1)。
変数バリエーション生成部14は、「気温」に変数バリエーションルールを適用するのは初めてではないため、ステップS4−4に進む(ステップS4−2)。
変数バリエーション生成部14は、「気温」の変数タイプの1つ「時間タイプ」を選択する(ステップS4−4)。
変数バリエーション生成部14は、変数バリエーションルール保管部22から、時間タイプの変数バリエーションルールを取得する(ステップS4−5)。
変数バリエーション生成部14は、「気温」の変数タイプ「時間タイプ」の変数バリエーションルールから、1つのルール形式「n日前との差」を選択する(ステップS4−6)。
変数バリエーション生成部14は、ルール形式「n日前との差」のバリエーション更新状態が“増加”であるため、ステップS4−8に進む(ステップS4−7)。
変数バリエーション生成部14は、「気温」の変数タイプ「時間タイプ」のルール形式「n日前との差」に関して、バリエーション生成値を更新し、ルールを適用する。その後、ステップS4−10に進む(ステップS4−8)。この時点での「気温」に関する「生成されるバリエーション」項目の値は、図21の右列に示すようになる。
変数バリエーション生成部14は、「気温」の変数タイプ「時間タイプ」のルール形式のうち、未処理のルール形式があるため、ステップS4−6に戻る(ステップS4−10)。
変数バリエーション生成部14は、「気温」の変数タイプ「時間タイプ」の変数バリエーションルールから、1つのルール形式「n年前との差」を選択する(ステップS4−6)。
変数バリエーション生成部14は、ルール形式「n年前との差」のバリエーション更新状態が“完了”であるため、ステップS4−10に進む(ステップS4−7)。
変数バリエーション生成部14は、「気温」の変数タイプ「時間タイプ」の全てのルール形式について処理をしたため、ステップS4−11に進む(ステップS4−10)。
変数バリエーション生成部14は、「気温」に関して、未処理の変数タイプがあるため、ステップS4−4に戻る(ステップS4−11)。
変数バリエーション生成部14は、「気温」の変数タイプの1つ「空間タイプ」を選択する(ステップS4−4)。
変数バリエーション生成部14は、変数バリエーションルール保管部22から、空間タイプの変数バリエーションルールを取得する(ステップS4−5)。
変数バリエーション生成部14は、「気温」の変数タイプ「空間タイプ」の変数バリエーションルールから、1つのルール形式「(x−n,y)の地点との差」を選択する(ステップS4−6)。
変数バリエーション生成部14は、ルール形式「(x−n,y)の地点との差」のバリエーション更新状態が“削除”であるため、ステップS4−8に進む(ステップS4−7)。
変数バリエーション生成部14は、「気温」の変数タイプ「時間タイプ」のルール形式「(x−n,y)の地点との差」に関して、現在のバリエーション生成値「2」により生成されたバリエーション「(x−2,y)の地点との差」を削除する。また、バリエーション更新状態を“完了”とする(ステップS4−9)。この時点での「気温」に関する「生成されるバリエーション」項目の値は、図22の右列に示すようになる。
変数バリエーション生成部14は、「気温」の変数タイプ「空間タイプ」のルール形式のうち、未処理のルール形式があるため、ステップS4−6に戻る(ステップS4−10)。
変数バリエーション生成部14は、「気温」の変数タイプ「空間タイプ」の変数バリエーションルールから、1つのルール形式「(x,y−n)の地点との差」を選択する(ステップS4−6)。
変数バリエーション生成部14は、ルール形式「(x,y−n)の地点との差」のバリエーション更新状態が“完了”であるため、ステップS4−10に進む(ステップS4−7)。
変数バリエーション生成部14は、「気温」の変数タイプ「空間タイプ」の全てのルール形式について処理をしたため、ステップS4−11に進む(ステップS4−10)。
変数バリエーション生成部14は、「気温」の全ての変数タイプについて処理したため、ステップS4−12に進む(ステップS4−11)。
変数バリエーション生成部14は、「気温」については全ての処理を終えた。他の変数についても同様の処理をして、処理を終了する(ステップS4−12)。
次に、ステップS4からステップS7までの繰り返しの3周目における、分析終了判定部16におけるフローチャート(図13)の動作について述べる。
分析終了判定部16は、今回の分析結果の精度を算出する(ステップS6−1)。
ここでは、今回の分析結果の精度が、前回の分析結果の精度を上回っていないものとする。分析終了判定部16は、ステップS6−4に進む(ステップS6−2)。
分析終了判定部16は、分析処理を終了する判定をし、処理を終了する(ステップS6−4)。
ここまでの処理により、「気温」に関する「生成されるバリエーション」項目の値として、「1日前との気温差」、「2日前との気温差」及び「(x−1,y)の地点との気温差」という3個のバリエーションが生成された。上述したように、空間タイプとは、空間上の位置によって値が異なる変数を空間タイプの変数といい、例えば、「ある地点での、ある時刻の気温」に対して、「隣の地点での、同時刻の気温」という異なる値が存在する。
これら3個のバリエーションの値を得るには、変数バリエーション生成部14が、気象データの主キーである「日付」や「地域」の値を参照して、「気温」の値を算出すればよい。図23に「1日前との気温差」の算出方法を示し、図24に「(x−1,y)の地点との気温差」の算出方法を示す。
すなわち、変数バリエーション生成部14は、分析対象データにおいて、同一の値の地域項目毎に、ある日付の値をもつ日付項目の値に関連付けられた気温項目の値から、当該ある日付の値に対して1日前の日付の値となる日付項目の値に関連付けられた気温項目の値を減算することにより、「1日前との気温差」というバリエーションの値(−2.6、1.1、−1.5、…)を算出する。
同様にして、変数バリエーション生成部14は、分析対象データにおいて、同一の値の地域項目毎に、ある日付の値をもつ日付項目の値に関連付けられた気温項目の値から、当該ある日付の値に対して2日前の日付の値となる日付項目の値に関連付けられた気温項目の値を減算することにより、「2日前との気温差」というバリエーションの値(−1.5、−0.4、…)を算出する。
また、変数バリエーション生成部14は、分析対象データにおいて、同一の値の日付項目毎に、ある地域コードの値をもつ地域項目の値に関連付けられた気温項目の値から、当該ある地域コードの値に対して隣接する地域コードの値となる地域項目の値に関連付けられた気温項目の値を減算することにより、「(x−1,y)の地点との気温差」というバリエーションの値(0.0、−0.8、2.1、…)を算出する。
生成されたバリエーションの値及び分析対象データは、変数バリエーション生成部14により、分析データセット保管部23に書込まれる。
上述したように本実施形態によれば、変数の型を表す変数タイプを判定し、当該判定された変数タイプと、予め変数タイプ別に変数のバリエーションの生成方法を規定した変数バリエーションルールとに基づいて、各変数のバリエーションを生成し、当該生成されたバリエーションにおける目的変数への寄与率を算出し、この寄与率に基づいて、当該バリエーションを採用するか削除するかを判定する構成により、変数に応じて異なる変換式を適用して、変数を生成することができる。
補足すると、変数をそのタイプによって分類し、タイプごとに異なる変換式を適用して、新たな変数を生成することで、各変数に適した変数合成手段を動的に決定することができる。
また、本実施形態によれば、入力されたルール変更指示に応じて、変数バリエーションルール保管部22内の変数バリエーションルールを変更する構成により、必要に応じて、適切な変数バリエーションルールを設定することができる。
さらに、本実施形態によれば、生成されたバリエーションを分析し、前回の分析結果の精度よりも今回の分析結果の精度が高いとき、前述した寄与率の算出を実行する構成により、前回の分析結果を参照し、分析結果の精度向上に貢献した変数を用いて新たな変数を生成することで、継続して実行している分析の結果を活かすことができる。
補足すると、特許文献2記載の方式では、監視の対象値(例:寸法)に対応づけた属性値のセット(例:製造番号、ロット番号)に予め定めておいた属性値条件に従って、監視の対象値の派生時系列を生成する(例:3次移動平均、3次自己回帰)。この特許文献2記載の方式では、元の時系列データと派生時系列データとを比較して監視対象値の変動(例:中心値低下)を自動で判定し、判定結果を使用者に通報する。
しかしながら、このような特許文献2記載の方式では、派生時系列の生成に用いる属性値のセットや生成ロジックが毎回の分析に固定的に用いられており、前回の分析結果からフィードバックを受けないことから、以前の分析結果を活用できない不都合がある。
これに対し、本実施形態では、前述した通り、前回の分析結果を活用しつつ、変数を生成することができる。
なお、上記の各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
さらに、各実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
また、記憶媒体は1つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
また、各実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
11…変数タイプ判定部、12…前処理部、13…ルール変更部、14…変数バリエーション生成部、15…分析実行部、16…分析終了判定部、17…変数寄与率判定部、21…収集データ保管部、22…変数バリエーションルール保管部、23…分析データセット保管部、24…分析結果保管部。

Claims (3)

  1. 目的変数と前記目的変数に対する説明変数の候補である各変数とを有する分析対象データから前記各変数のバリエーションを生成することにより、前記分析対象データの分析を支援するデータ分析支援装置であって、
    前記各変数について、変数の型を表す変数タイプ判定を試み、判定できた場合のみ変数タイプを割り当てる変数タイプ判定手段と、
    前記判定により割り当てられた変数タイプと、予め変数タイプ別に変数のバリエーションの生成方法を規定した変数バリエーションルールとに基づいて、前記各変数のバリエーションを生成する変数バリエーション生成手段と、
    前記生成されたバリエーションにおける前記目的変数への寄与率を算出し、この寄与率に基づいて、当該バリエーションを採用するか削除するかを判定する変数寄与率判定手段と、
    を備えたことを特徴とするデータ分析支援装置。
  2. 請求項1に記載のデータ分析支援装置において、
    前記変数バリエーションルールを記憶する変数バリエーションルール記憶手段と、
    入力されたルール変更指示に応じて、前記変数バリエーションルール記憶手段内の変数バリエーションルールを変更するルール変更手段と
    を備えたことを特徴とするデータ分析支援装置。
  3. 請求項1又は請求項2に記載のデータ分析支援装置において、
    前記変数の型は、時間によって値が変化する変数を指す時間型又は空間上の位置によって値が変化する変数を指す空間型であり、
    前記変数タイプ判定手段は、前記各変数を特定する主キーの変数の変数名及び前記主キーの変数の変数値の値のリストのうちの少なくとも前記変数名と、前記主キーの変数を個別に包括するカテゴリを表す前記変数の型とが予め関連付けて定義されており、前記変数名及び前記変数値の値のリストのうちの少なくとも前記変数名に基づいて、前記判定を試みることを特徴とするデータ分析支援装置。
JP2012214884A 2012-09-27 2012-09-27 データ分析支援装置 Active JP5788850B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2012214884A JP5788850B2 (ja) 2012-09-27 2012-09-27 データ分析支援装置
CN201380050377.1A CN104685492B (zh) 2012-09-27 2013-07-04 数据分析支援装置
PCT/JP2013/068362 WO2014050248A1 (ja) 2012-09-27 2013-07-04 データ分析支援装置
EP13842938.6A EP2902919A4 (en) 2012-09-27 2013-07-04 DEVICE FOR ASSISTING DATA ANALYSIS
US14/671,536 US10515051B2 (en) 2012-09-27 2015-03-27 Data analysis supporting apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012214884A JP5788850B2 (ja) 2012-09-27 2012-09-27 データ分析支援装置

Publications (2)

Publication Number Publication Date
JP2014071492A JP2014071492A (ja) 2014-04-21
JP5788850B2 true JP5788850B2 (ja) 2015-10-07

Family

ID=50387665

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012214884A Active JP5788850B2 (ja) 2012-09-27 2012-09-27 データ分析支援装置

Country Status (5)

Country Link
US (1) US10515051B2 (ja)
EP (1) EP2902919A4 (ja)
JP (1) JP5788850B2 (ja)
CN (1) CN104685492B (ja)
WO (1) WO2014050248A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017203601A1 (ja) * 2016-05-24 2017-11-30 三井情報株式会社 情報処理装置、情報処理方法、情報処理システム及びプログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0328255A (ja) 1989-06-27 1991-02-06 Mitsui Toatsu Chem Inc 熱可塑性樹脂組成物
US5557773A (en) * 1991-06-12 1996-09-17 Wang; Cheh C. Computational automation for global objectives
JPH11328255A (ja) 1998-05-14 1999-11-30 Hitachi Ltd 時系列データ変動監視装置および該装置に係るプログラムを記憶した記憶媒体
JP2000020504A (ja) 1998-06-30 2000-01-21 Toshiba Corp 目的変数の説明または予測方法、および目的変数を説明または予測するプログラムを記録した記録媒体
JP4234841B2 (ja) * 1999-04-23 2009-03-04 富士通株式会社 データ分析装置
US7630986B1 (en) * 1999-10-27 2009-12-08 Pinpoint, Incorporated Secure data interchange
JP3488161B2 (ja) * 2000-01-31 2004-01-19 Necエレクトロニクス株式会社 プログラム開発装置、プログラム開発方法及びプログラム開発プログラムを記録した記録媒体
US6816786B2 (en) * 2000-04-18 2004-11-09 Devrie S Intriligator Space weather prediction system and method
TW525417B (en) * 2000-08-11 2003-03-21 Ind Tech Res Inst Composite through hole structure
US6859785B2 (en) * 2001-01-11 2005-02-22 Case Strategy Llp Diagnostic method and apparatus for business growth strategy
US6662169B2 (en) * 2001-04-12 2003-12-09 Ralph E. Rose Controlling the self learning behavior of an autonomous agent
CN101387127B (zh) * 2004-12-14 2011-03-09 株式会社东芝 雨水排水控制系统和控制方法
US20060218108A1 (en) * 2005-03-24 2006-09-28 Sergey Panfilov System for soft computing simulation
JP4888038B2 (ja) * 2006-10-17 2012-02-29 富士通株式会社 時間種特性生成システム、時間種特性生成方法および時間種特性生成プログラム
US8651507B2 (en) * 2007-06-27 2014-02-18 Daedalus Wings, Inc. Mounting assembly for attaching auxiliary equipment to a wheelchair
US20090083738A1 (en) * 2007-09-25 2009-03-26 Microsoft Corporation Automated data object set administration
JP5130851B2 (ja) * 2007-09-27 2013-01-30 富士通株式会社 モデル作成支援システム、モデル作成支援方法、モデル作成支援プログラム
US8515862B2 (en) * 2008-05-29 2013-08-20 Sas Institute Inc. Computer-implemented systems and methods for integrated model validation for compliance and credit risk

Also Published As

Publication number Publication date
EP2902919A4 (en) 2016-05-04
EP2902919A1 (en) 2015-08-05
US10515051B2 (en) 2019-12-24
CN104685492A (zh) 2015-06-03
JP2014071492A (ja) 2014-04-21
CN104685492B (zh) 2018-07-10
WO2014050248A1 (ja) 2014-04-03
US20150199368A1 (en) 2015-07-16

Similar Documents

Publication Publication Date Title
US9229966B2 (en) Object modeling for exploring large data sets
WO2017167284A1 (zh) 商户配送范围的调整方法和装置
JP6354059B2 (ja) 財務情報分析システム、及びプログラム
CN105718490A (zh) 一种用于更新分类模型的方法及装置
TW201738780A (zh) 利用訓練資料訓練模型的方法和訓練系統
Shao et al. Multivariate statistical and similarity measure based semiparametric modeling of the probability distribution: A novel approach to the case study of mid-long term electricity consumption forecasting in China
JP2015088037A (ja) 資金フロー分析装置及び方法
US10740772B2 (en) Systems and methods for forecasting based upon time series data
CN116401379A (zh) 金融产品数据推送方法、装置、设备及存储介质
Warr The Gregory thesis visits the tropics
CN116468536A (zh) 一种自动化风险控制规则生成的方法
KR20210068319A (ko) 폐쇄 데이터를 이용하는 개인화된 데이터 모델
Sriworamas et al. Optimal reservoir of small reservoirs by optimization techniques on reservoir simulation model
JP5788850B2 (ja) データ分析支援装置
Xu et al. An improved credit card users default prediction model based on RIPPER
CN101510124B (zh) 语境相关敏感提示输入法
Kwasi Fosu et al. Gains from trade: Implications for labour market adjustment and poverty reduction in Africa
CN116882323A (zh) 一种考虑时序性及细分任务的自适应代理策略优化方法
EP3391252A1 (en) Systems and methods for forecasting based upon time series data
Rabe et al. Improving the performance of a logistics assistance system for materials trading networks by grouping similar actions
CN115936875A (zh) 金融产品挂单处理方法和装置
Das et al. The blessing of dimensionality in forecasting real house price growth in the nine census divisions of the US
Wang et al. Analyzing PSU’s performance: A case from ministry of petroleum and natural gas of India
JP6414321B2 (ja) 人数予測システム、人数予測方法および人数予測プログラム
Coto‐Martinez et al. The Relative Price of Non‐traded Goods under Imperfect Competition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150730

R150 Certificate of patent or registration of utility model

Ref document number: 5788850

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350