JP6586184B2

JP6586184B2 - データ分析支援装置、及びデータ分析支援方法

Info

Publication number: JP6586184B2
Application number: JP2018045187A
Authority: JP
Inventors: 文也工藤; 林　秀樹; 秀樹林
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-03-13
Filing date: 2018-03-13
Publication date: 2019-10-02
Anticipated expiration: 2038-03-13
Also published as: US20190286724A1; US11182364B2; JP2019159760A

Description

本発明は、データ分析支援装置、及びデータ分析支援方法に関する。

特許文献１には、「最新データと過去の複数時点の時系列データとを同一表内に共存させることを可能にする」、「時系列表定義手段は、終了時点および開始時点が定義された有効期間インデックスと、終了時点の定義を含むユニークインデックスとを生成する。時系列表更新手段は、最新データの挿入／更新／削除指示に対して、保有時点の値に基づく時系列データの作成およびそれの時系列表への挿入を調整した上で最新データの挿入／更新／削除を行い、ユニークインデックスおよび有効期間インデックスを更新する。時系列表検索手段は、検索指示に対して、検索時点を考慮して「特定の時点の表内データだけを選択するための条件」を検索条件に追加し、ユニークインデックスおよび有効期間インデックスを利用して当該検索条件によって時系列表を検索する。」と記載されている。

特開２０００−６６９３３号公報

近年、企業等の組織において蓄積されてきたビッグデータ等のデータを積極的に活用するためのシステムの開発が活発に進められている。データ分析の対象となる、例えば産業ビッグデータ等のデータは、時間的な順序性を有するデータ（以下、時系列データと称する。）や空間的な順序性を有するデータ（以下、空間データと称する。）等、連続して観測される値が相関する構造を持つデータ（以下、系列データと称する。）であることが多い。昨今、業績やＫＰＩ（Key Performance Indicator）等の予測モデルの精度向上を目
的として、こうした系列データを用いたより高度なデータ分析技術が求められるようになってきている。

データ分析に際し、分析者は、様々な情報を含む大量のデータについて、説明変数の変化量の算出や時間的に遅れて影響を与える因子の抽出等を行うために系列特徴量を抽出する必要がある。しかし分析対象として与えられる系列データは系列特徴量の抽出に適した構造（テーブル形式）になっていないことが多く、分析者は大量のデータについてデータ加工等の前処理を行う必要があり作業負荷が大きいという課題がある。

特許文献１では、最新データと過去の複数時点の時系列データとを同一表内に共存させることを目的とした技術について記載されている。しかし特許文献１には、系列特徴量を抽出するために必要とされる前処理の効率を改善する観点に基づく仕組みについては何も開示されていない。

本発明は、こうした背景に鑑みてなされたもので、系列データの分析に際して行われる前処理を支援するデータ分析支援装置、及びデータ分析支援方法を提供することを目的とする。

上記目的を達成するための本発明のうちの一つは、データ分析支援装置であって、プロセッサ及び記憶装置を有する情報処理装置であり、目的変数の値と、前記目的変数の系列
を特定する情報である目的変数系列特定情報と、説明変数の値と、前記説明変数の系列を特定する情報である説明変数系列特定情報とが対応づけられた複数のレコードを含むテーブル形式のデータである系列データを記憶する記憶部、前記目的変数の分析に際して前記目的変数に影響を与える可能性のある、前記目的変数の値又は前記説明変数の値を含んだ前記レコードである分析用レコードを特定する分析用レコード特定部、所定の前記レコードの前記目的変数の値に、特定した前記分析用レコードの前記目的変数の値又は前記説明変数の値を対応づけたレコードである追加レコードを生成し、生成した前記追加レコードを前記系列データに追加したデータである分析用系列データを生成する分析用系列データ生成部、を備える。

その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。

本発明によれば、系列データの分析に際して行われるデータ加工等の前処理を支援することができる。

データ分析支援装置の概略的な構成を示す図である。データ分析支援装置が備える主な機能を示す図である。系列データの一例である。項目情報の一例である。分析用レコード特定情報の一例である。分析用系列データの一例である。分析用系列データ生成処理を説明するフローチャートである。系列データの一例である。集約処理を説明するフローチャートである。系列データに基づく集約後データの生成例である。分析用レコード特定処理を説明するフローチャートである。系列データに基づく分析用系列データの生成例である。データ分析処理を説明するフローチャートである。

以下、実施形態につき図面を参照しつつ説明する。以下の説明において、同一又は類似する構成に同一の符号を付して重複した説明を省略することがある。

図１に一実施形態として説明するデータ分析支援装置１０の概略的な構成（同図の実線部分）を示している。データ分析支援装置１０は、分析対象となるデータの収集、収集したデータの管理、ＥＴＬ処理（データの抽出（Extarct）、データの加工（Transform）、データのロード（Load））、分析処理、可視化処理等を行い、データ分析に際して必要となる各種の処理や作業を支援する。

データ分析支援装置１０は、例えば、Ｗｅｂコンテンツを利用するユーザのトラッキング情報（アクセス履歴、行動履歴等）、小売業等におけるＰＯＳ（Point Of Sale）シス
テムから取得される情報、マーケッティングリサーチのための情報、工場ＩｏＴ（Internet of Things）において製造装置やセンサから取得される制御情報やログ情報、金融業における取引情報、物流業における輸送情報等の様々な情報のデータ分析に用いられる。尚、本実施形態において、データ分析支援装置１０が分析対象とするデータは、時間的な順序性を有するデータ（以下、時系列データと称する。）や空間的な順序性を有するデータ（以下、空間系列データと称する。）等、連続して観測される値が相関する構造を持つデ
ータ（以下、系列データと称する。）であるものとする。

同図に示すように、データ分析支援装置１０は、プロセッサ１１、主記憶装置１２、補助記憶装置１３、入力装置１４、出力装置１５、及び通信装置１６を備えており、情報処理装置（コンピュータ）として機能する。尚、データ分析支援装置１０は、例えば、クラウドシステムにより提供されるクラウドサーバ（Cloud Server）のような仮想的な情報処理資源を用いて実現されるものであってもよい。またデータ分析支援装置１０は、例えば、互いに協調して動作する、通信可能に接続された複数の情報処理装置によって実現されるものであってもよい。

プロセッサ１１は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）を用いて構成されている。主記憶装置１２は、プログラムやデータを記憶する装置であり、例えば、ＲＯＭ（Read Only Memory）（ＳＲＡＭ（Static Random Access Memory）、ＮＶＲＡＭ（Non Volatile RAM）
、マスクＲＯＭ（Mask Read Only Memory）、ＰＲＯＭ（Programmable ROM）等）、ＲＡ
Ｍ（Random Access Memory）（ＤＲＡＭ（Dynamic Random Access Memory）等）等である。補助記憶装置１３は、ハードディスクドライブ（Hard Disk Drive）、フラッシュメモ
リ（Flash Memory）、ＳＳＤ（Solid State Drive）、光学式記憶装置（ＣＤ（Compact Disc）、ＤＶＤ(Digital Versatile Disc)等）等である。補助記憶装置１３に格納されて
いるプログラムやデータは、随時、主記憶装置１２に読み込まれる。

入力装置１４は、ユーザから情報の入力を受け付けるユーザインタフェースであり、例えば、キーボード、マウス、カードリーダ、タッチパネル等である。出力装置１５は、ユーザに情報を提供するユーザインタフェースであり、例えば、各種情報を可視化する表示装置（ＬＣＤ（Liquid Crystal Display）、グラフィックカード等）や音声出力装置（スピーカ）、印字装置等である。通信装置１６は、通信ネットワーク５０を介して他の装置と通信する通信インタフェースであり、例えば、ＮＩＣ（Network Interface Card）、無線通信モジュール、ＵＳＢ（Universal Serial Interface）モジュール、シリアル通信モジュール等である。

データ分析支援装置１０は、例えば、通信ネットワーク５を介してサーバ装置２０と通信可能に接続する。通信ネットワーク５は、例えば、インターネットや専用回線等である。サーバ装置２０は、例えば、Ｗｅｂサーバ、ＡＰＩサーバ（Application Programming Interface）、ＳＮＳサーバ（SNS:Social Network Service）、オープンデータサーバ、
店舗等に設置されているＰＯＳサーバ、工場等に設置されているエッジサーバやセンササーバである。データ分析支援装置１０は、サーバ装置２０から、分析対象のデータを、例えば、データ転送、ダウンロード、アップロード、スクレイピング等の方法で取得する。尚、データ分析支援装置１０は、上記以外の方法で系列データを取得してもよい。例えば、入力装置１４を介して分析対象となるデータを取得してもよい。

データ分析支援装置１０は、取得した系列データについて分析処理（分類、検索、分析、機械学習等）を行い、系列データの特徴量（以下、系列特徴量と称する。）の抽出、業績やＫＰＩ（Key Performance Indicator）向上に関与する因子の特定、目的変数の予測
等を行う。系列データの具体例として、例えば、各種ログ情報（工場の運用ログ情報、製造設備の制御ログ情報や稼働ログ情報、ＡＴＭ（Automatic Teller Machine）の運用ログ情報、商品の製造状況ログ、在庫状況管理ログ等）、社会動向関する時系列データ（政府等の情報発信機関が提供する統計情報、ＳＮＳ（Social Networking Service）の記事、
ニュース記事等）等がある。

図２にデータ分析支援装置１０が備える主な機能（ソフトウェア構成）を示している。
同図に示すように、データ分析支援装置１０は、データ取得部１０５、分析用系列データ生成部１１０、データ分析部１５０、及び記憶部１８０の各機能を備える。これらの機能は、プロセッサ１１が、主記憶装置１２に格納されているプログラムを読み出して実行することにより実現される。尚、データ分析支援装置１０は、上記の機能に加えて、例えば、オペレーティングシステム、ファイルシステム、デバイスドライバ、ＤＢＭＳ（DataBase Management System）等の他の機能を備えていてもよい。データ分析支援装置１０は、系列データを含む各種の情報（データ）を、例えば、データベースのテーブルやファイルとして記憶する。

記憶部１８０は、系列データ１８１、項目情報１８２、集約後データ１８３、分析用レコード特定情報１８４、分析用系列データ１８５、系列特徴量１８６、予測モデル１８７、残差予測モデル１８８、及び結合モデル１８９を記憶する。尚、これらのデータのうち、少なくとも、系列データ１８１、集約後データ１８３、及び分析用系列データ１８５は、いずれも構造化されたデータとしてデータベースのテーブルに管理されるものとする。

図３に系列データ１８１の一例を示す。例示する系列データ１８１は、工場の生産ラインにおけるログ情報と生産された製品に関する評価値の情報とを含む。同図に示すように、系列データ１８１は、製造単位ＩＤ１８１１、日時ｔ_１１８１２、生産経過評価値ｙ１８１３、時刻ｔ_２１８１４、及び各種制御パラメータ１８１５の各項目（カラムやフィールドとも称される。）を有する複数のレコードで構成される。

上記項目のうち、製造単位ＩＤ１８１１には、レコード群の単位（ロットや製造装置の稼働サイクル等）を区別する識別子である製造単位ＩＤが設定される。日時ｔ_１１８１２には、生産経過評価値ｙ１８１３が取得された時刻（タイムスタンプ）が設定される。生産経過評価値ｙ１８１３には、生産経過の評価値が設定される。時刻ｔ_２１８１４には、各種制御パラメータが製造装置等の制御対象に設定された時刻が設定される。各種制御パラメータ１８１５には、材料の混合比等の製造時に設定された各種制御パラメータ（ｘ_１，ｘ_２，・・・，ｘ_ｎ）が設定される。

系列データ１８１は、データ分析部１５０が行う分析処理において目的変数の値が設定される項目と、上記目的変数の系列を特定する情報（以下、目的変数系列特定情報と称する。）が設定される項目と、上記分析処理において説明変数の値が設定される項目と、上記説明変数の系列を特定する情報（以下、説明変数系列特定情報と称する。）が設定される項目と、を含む。

図２に示す項目情報１８２は、系列データ１８１のいずれの項目が上記の各項目（目的変数の値が設定される項目、目的変数系列特定情報が設定される項目、説明変数の値が設定される項目、説明変数系列特定情報が設定される項目）に相当するかを示す情報を含む。データ分析支援装置１０は、例えば、入力装置１４や出力装置１５を用いて構成されるユーザインタフェースを介して項目情報１８２を取得する。

図４に項目情報１８２の一例を示す。例示する項目情報１８２は、属性情報１８２１と項目名１８２２とを対応づけた複数のレコードを含む。属性情報１８２１には、系列データ１８１の項目の属性を示す情報（以下、属性情報と称する。）が設定される。項目名１８２２には、系列データ１８１の項目名が設定される。

図２に戻り、前述した機能のうち、分析用系列データ生成部１１０は、系列データ１８１の分析に際して用いるレコード（以下、分析用レコードと称する。）を系列データ１８１に追加したデータである分析用系列データ１８５を生成する。分析用レコードは、例えば、目的変数の値に関連する、当該目的変数の過去の系列や説明変数の系列の範囲を対応
づける（紐づける）という観点に基づき生成される。同図に示すように、分析用系列データ生成部１１０は、集約処理部１２０、分析用レコード特定部１３０、及びレコード追加部１４０の各機能を含む。

このうち集約処理部１２０は、ダミー変数化部１２１、集約演算部１２２、及び集約項目追加部１２３を含む。集約処理部１２０は、系列データ１８１について後述する集約処理を行うことにより集約後データ１８３を生成する。

分析用レコード特定部１３０は、相関係数算出部１３１及び有意性検定部１３２を含む。分析用レコード特定部１３０は、例えば、データ分析に際し系列データ１８１の所定の目的変数の値に影響を与える系列の範囲に属する系列データ１８１のレコードを分析用レコードとして特定する。具体的には、分析用レコード特定部１３０は、系列データ１８１の所定のレコードに含まれている情報と系列データ１８１の他のレコードに含まれている情報との間の相関関数の相関係数を求め、求めた相関係数の有意性を検定し、検定の結果に基づき分析用レコードを特定する。上記の相関関数は、例えば、自己相関係関数又は偏自己相関関数である。分析用レコード特定部１３０は、系列データ１８１において分析用レコードを特定する情報を分析用レコード特定情報１８４として生成する。尚、系列データ１８１に複数の説明変数が含まれており、所定の目的変数の値に影響を与える説明変数の系列の範囲が複数存在する場合、分析用レコード特定部１３０は、所定の目的変数の値に影響を与える複数の説明変数ごとに分析用レコードを特定する。

図５に分析用レコード特定情報１８４の一例を示す。同図に示すように、分析用レコード特定情報１８４には、系列データ１８１の項目名１８４１と、当該項目名１８４１の値に基づき分析用レコードの範囲を特定する情報である範囲特定情報１８４２とを対応づけた情報を含む。範囲特定情報１８４２には、系列データ１８１において、分析用レコードの生成に用いるレコードの範囲を特定する情報（系列データ１８１のレコード番号指定による範囲特定情報や系列データ１８１の時刻が設定される項目の時間区間指定による範囲特定情報（τ_{ｓｔａｒｔ}〜τ_ｅｎｄ等）が設定される。

図２に戻り、分析用系列データ生成部１１０のレコード追加部１４０は、分析用レコードを系列データ１８１に追加して分析用系列データ１８５を生成する。尚、分析用系列データ生成部１１０は、分析用系列データ１８５を、系列データ１８１のテーブルを直接編集することにより生成してもよいし、系列データ１８１のテーブルとは異なるテーブルとして生成してもよい。

図６に分析用系列データ１８５の一例を示す。同図に示す分析用系列データ１８５は、図３の系列データ１８１と、図４の項目情報１８２と、図５の分析用レコード特定情報１８４とに基づき生成される。同図に示すように、この分析用系列データ１８５は、製造単位ＩＤ１８５１、日時ｔ_１１８５２、生産経過評価値ｙ１８５３、日時ｔ１’１８５４、及び各種制御パラメータ１８５５の各項目を有する複数のレコードで構成される。

上記項目のうち、製造単位ＩＤ１８５１、日時ｔ_１１８５２、及び生産経過評価値ｙ１８５３の各項目は、夫々、図３の製造単位ＩＤ１８１１、日時ｔ_１１８１２、生産経過評価値ｙ１８１３と同様である。日時ｔ_１’１８５４には、図３の日時ｔ_１１８１２と時刻ｔ_２１８１４とに基づき特定される日時が設定される。各種制御パラメータ１８５５には、前述した各種制御パラメータの値や各種制御パラメータの値を集約した値（各種制御パラメータの日毎の平均値等）が設定される。

図６において、太線枠ｆで囲んだ３つのレコードのうち上から２行分のレコードは、分析用レコード特定部１３０により特定され、レコード追加部１４０により追加された分析
用レコードであり、図３の系列データ１８１について図６の太線枠ｆの３つ目のレコードの目的変数の値「生産経過評価値ｙ＝6」について追加されたレコードである。追加され
た２つの上記分析用レコードは、図６の太線枠ｆの３つ目のレコードの目的変数の値「生産経過評価値ｙ＝6」に、夫々、図３において日時ｔ_１１８１２が「2017/12/05」に基づ
く内容のレコードと日時ｔ_１１８１２が「2017/12/07」に基づく内容のレコードとを対応づけたものになっている。

尚、図６の例では分析用レコードの範囲を、項目情報１８２の連続単位として指定されている製造単位ＩＤ１８１１が同一の範囲に限定している。また図３において日時ｔ_１（符号１８１２）が「2017/12/07」のレコードは２つ存在し、目的変数である生産経過評価値ｙ１８１３の系列の粒度（値が収集された単位であり、本例では値の取得時間間隔である「日」。）と説明変数である各種制御パラメータ１８１５の系列の粒度（値が収集された単位であり、本例では値の取得時間間隔である「分」）とが異なるため、太線枠ｆで囲んだ３つのレコードのうち２つ目のレコードについては上記２つのレコードを集約した内容（尚、ｘ_１、ｘ_２については値が同値であるのでそのままの値を採用し、ｘ_ｎについては各レコードの値の平均値（同図ではＡｖｅ（ｘ_ｎ）と表記）としている）になっている。尚、各種制御パラメータ１８１５のｘ_ｎのタイムスタンプであった時刻ｔ_２１８１４の項目は、データ分析に際して不要であるため分析用系列データ１８５からは除外されている。

ここで系列データ１８１が、図３に示す内容であった場合、同図において目的変数である生産経過評価値ｙ１８５３が「6」のレコードに着目すると、従来のデータ分析では、
説明変数として当該レコードの各種制御パラメータ１８１５の値である「ｘ_１＝12.2」、「ｘ_２＝D」、「ｘ_ｎ＝7」等が用いられるのみであった。しかし実際には、当該レコードよりも過去のレコードの説明変数の値やその変化率等が目的変数に影響を与えていることもある。対して本実施形態のデータ分析支援装置１０は、図６に示すように、系列データ１８１に所定の目的変数の値に対応づけた分析用レコードを追加した分析用系列データ１８５を生成し、分析用系列データ１８５に基づきデータ分析を行うので、実際に目的変数に影響を与えている説明変数の値や変化率を考慮した上で系列特徴量の抽出等が行われるため、精度よくデータ分析を行うことができる。尚、以上では、目的変数に影響を与える可能性のある因子が説明変数である場合を例示したが、着目しているレコードの目的変数に影響を与える因子が当該目的変数の過去の値である場合もある。その場合、データ分析支援装置１０は、着目しているレコードの目的変数の値に影響を与える可能性のある当該目的変数の過去の値を含むレコードに基づき分析用レコードを生成する。

図２に戻り、前述した機能のうち、データ分析部１５０は、分析用系列データ生成部１１０が生成した分析用系列データ１８５に基づきデータ分析を行う。同図に示すように、データ分析部１５０は、系列特徴量生成部１５１及びモデリング部１６０を含む。系列特徴量生成部１５１は、分析用系列データ１８５に基づき系列特徴量１８６を生成する。系列特徴量生成部１５１の詳細については後述する。モデリング部１６０は、系列特徴量１８６に基づき予測モデル１８７、残差予測モデル１８８、及び結合モデル１８９を生成する。同図に示すように、モデリング部１６０は、予測モデル生成部１６１、再帰モデリング部１６２、及び結合モデル生成部１６３を含む。モデリング部１６０の詳細については後述する。

図７は、分析用系列データ生成部１１０が行う処理（以下、分析用系列データ生成処理Ｓ７００と称する。）を説明するフローチャートである。以下、同図とともに分析用系列データ生成処理Ｓ７００について説明する。

まず分析用系列データ生成部１１０は、記憶部１８０から系列データ１８１と項目情報
１８２とを取得する（Ｓ７１１）。

続いて、分析用系列データ生成部１１０は、系列データ１８１について項目情報１８２で指定される目的変数の系列の粒度と説明変数の系列の粒度とが一致するか否かを判定する（Ｓ７１２）。分析用系列データ生成部１１０が、粒度が一致しないと判定した場合（Ｓ７１２：ＮＯ）、処理はＳ７１３に進む。分析用系列データ生成部１１０が、粒度が一致すると判定した場合（Ｓ７１２：ＹＥＳ）、処理はＳ７１５に進む。

Ｓ７１３では、分析用系列データ生成部１１０は、目的変数と説明変数とは「時系列」の粒度が異なるか否か（粒度が異なる原因がデータの得られた時系列の違いに因るものか否か）を判定する。分析用系列データ生成部１１０が、目的変数と説明変数とは時系列以外の粒度が異なると判定した場合（Ｓ７１３：ＮＯ）、系列データ１８１を集約するため処理はＳ７１４に進む。分析用系列データ生成部１１０が、目的変数と説明変数は時系列の粒度が異なると判定した場合（Ｓ７１３：ＹＥＳ）、系列データ１８１を集約する必要が無いため、処理はＳ７１５に進む。

図８は目的変数と説明変数の「時系列」の粒度が異なる系列データ１８１の例である。同図に示すように、例示する系列データ１８１は、ＩＤ８１１、時刻ｔ_ｙ８１２、ｙ８１３、時刻ｔ_ｘ１８１４、及び各種パラメータ８１５の各項目を有する複数のレコードで構成される。ＩＤ８１１には、製造単位等の関連するレコード群の識別子が設定される。時刻ｔ_ｙ８１２には目的変数であるｙ８１３の値が取得された時刻が設定される。ｙ８１３には目的変数の値が設定される。時刻ｔ_ｘ１８１４には説明変数の一つであるｘ_１が取得された時刻が設定される。各種パラメータ８１５には、説明変数である各種パラメータ（ｘ_１，ｘ_２，・・・，ｘ_ｎ）の値が設定される。同図に示すように、この例では、ＩＤ８１１の値が「１」である３つのレコードの目的変数の時系列の粒度（時刻ｔ_ｙ８１２の粒度）と、説明変数の時系列の粒度（時刻ｔ_ｘ１８１４）とが異なっている。本例のように目的変数と説明変数の「時系列」の粒度が異なる場合、分析用レコードの特定には支障がないため系列データ１８１の集約は行わない。

図７に戻り、Ｓ７１４では、集約処理部１２０が、系列データ１８１について目的変数と説明変数の時系列以外の粒度を一致させる処理（以下、集約処理Ｓ７１４と称する。）を行う。

図９は、図７の集約処理Ｓ７１４を説明するフローチャートである。以下、同図とともに集約処理Ｓ７１４について説明する。

まず集約処理部１２０は、記憶部１８０から系列データ１８１と項目情報１８２とを取得する（Ｓ９１１）。

続いて、集約処理部１２０は、系列データ１８１において、項目情報１８２で説明変数とされている項目の値が数値であるか否かを判定する（Ｓ９１２）。集約処理部１２０が項目情報１８２で説明変数とされている項目の値が数値であると判定した場合（Ｓ９１２：ＹＥＳ）、処理はＳ９１４に進む。集約処理部１２０が項目情報１８２で説明変数とされている項目の値が数値でないと判定した場合（Ｓ９１２：ＮＯ）、説明変数をダミー変数に変換するため処理はＳ９１３に進む。

Ｓ９１３では、ダミー変数化部１２１が、数値でないと判定した説明変数をダミー変数に変換する。図６の例では、ダミー変数化部１２１は、変数「ｘ_ｎ」を、平均値を格納する変数「Ａｖｅ（ｘ_ｎ）」に変換している。尚、上記の平均値の他、例えば、他の種類の代表値（加算値、分散値、カウント値、最大値、最小値等）を格納する変数をダミー変数
としてもよい。図３の系列データ１８１と図４の項目情報１８２の場合、説明変数は各種制御パラメータ１８１５であり、各種制御パラメータ１８１５は、複数の変数（ｘ_１，ｘ_２，・・・，ｘ_ｎ）を含む。そのため、集約処理部１２０は、変数毎に個別に値が数値であるか否かを判定し、この場合、各変数についてＳ９１２〜Ｓ９１３の処理が行われる。

Ｓ９１４では、集約演算部１２２が、説明変数について集約のために必要な演算（例えば、複数のレコードの夫々の説明変数の平均値の算出や、複数のレコードにおける所定の説明変数の出現数の算出等）を行う。

Ｓ９１５では、集約項目追加部１２３が、集約演算部１２２が求めた結果を格納する項目（集約項目）を系列データ１８１に追加して集約後データ１８３を生成する。

図１０に、目的変数と説明変数の時系列以外の粒度が異なる系列データ１８１と、当該系列データ１８１について集約処理Ｓ７１４を行うことにより生成される集約後データ１８３の例を示す。

同図に示すように、例示する系列データ１８１は、ＩＤ_ｙ１０１１、時刻ｔ_ｙ１０１２、ｙ１０１３、ＩＤ_ｘ１０１４、各種パラメータ１０１５の各項目を有する複数のレコードで構成される。

ＩＤ_ｙ１０１１には、目的変数について関連するレコード群の識別子が設定される。時刻ｔ_ｙ１０１２には目的変数であるｙ１０１３が取得された時刻が設定される。ｙ１０１３には目的変数の値が設定される。ＩＤ_ｘ１０１４には説明変数について関連するレコード群の識別子が設定される。各種パラメータ１０１５には説明変数である各種パラメータ（ｘ_１，ｘ_２，・・・，ｘ_ｎ）の値が設定される。

同図に示すように、この例では、目的変数であるＩＤ_ｙ１０１１の系列の粒度と、説明変数であるＩＤ_ｘ１０１４の系列の粒度とが異なっている。そこで目的変数の系列の粒度と説明変数の系列の粒度とを一致させるため、集約処理部１２０は、説明変数ｘ_１を説明変数ｘ_１の平均値が設定されるダミー変数「Ａｖｅ（ｘ_１）」に変換し、また説明変数ｘ_ｎを説明変数ｘ_ｎにおける値「Ａ」の出現回数が設定されるダミー変数「ｘ_ｎ（Ａ）」に変換している。

図７に戻り、続いて、Ｓ７１５では、分析用レコード特定部１３０が、系列データ１８１又は集約後データ１８３と項目情報１８２とに基づき、分析用レコードを特定する処理（以下、分析用レコード特定処理Ｓ７１５と称する。）を行い、分析用レコード特定情報１８４を生成する。

図１１は、分析用レコード特定処理Ｓ７１５を説明するフローチャートである。以下、同図とともに分析用レコード特定処理Ｓ７１５について説明する。

まず分析用レコード特定部１３０は、記憶部１８０から系列データ１８１又は集約後データ１８３と項目情報１８２とを取得する（Ｓ１１１１）。

続いて、相関係数算出部１３１が、系列データ１８１又は集約後データ１８３について、説明変数と目的変数の間の関係を示す相関関数（例えば、自己相関関数や偏自己相関数）の相関係数（例えば、自己相関係数や偏自己相関係数）を求める（Ｓ１１１２）。

続いて、有意性検定部１３２が、Ｓ１１１２で求めた相関係数の有意性を検定し、検定した結果に基づき分析用レコード特定情報１８４を生成する（Ｓ１１１３）。例えば、相
関係数算出部１３１は、系列を一つずつずらした(Lagをとった)際の偏相関係数を求め（
Ｓ１１１２）、そのうち有意に相関するLagを抽出し、抽出したLagに基づき分析用レコード特定情報１８４を生成する（Ｓ１１１３）。

尚、分析用レコードを特定する方法は以上の方法に限られない。例えば、赤池情報量基準を用いてモデルの複雑さと予測精度のトレードオフを評価することにより目的変数に影響する説明変数の範囲を特定し、特定した結果に基づき分析用レコード特定情報１８４を生成するようにしてもよい。

図７に戻り、Ｓ７１６では、レコード追加部１４０が、系列データ１８１又は集約後データ１８３と、分析用レコード特定情報１８４とに基づき分析用レコードを生成し、生成した分析用レコードを系列データ１８１に追加することにより分析用系列データ１８５を生成する（Ｓ７１６）。

図１２は、以上の分析用系列データ生成処理Ｓ７００により、系列データ１８１に分析用レコード特定情報１８４で特定される分析用レコードを追加して分析用系列データ１８５を生成する様子を説明する図である。同図に示すように、例示する系列データ１８１は、ＩＤ１２１１、時刻ｔ_ｙ１２１２、ｙ１２１３、及び各種パラメータ１２１５の各項目を有する複数のレコードで構成される。ＩＤ１２１１には、レコード群の単位を区別する識別子が設定される。時刻ｔ_ｙ１２１２には目的変数であるｙ１２１３の値が取得された時刻が設定される。ｙ１２１３には目的変数の値が設定される。各種パラメータ１２１５には、説明変数である各種パラメータ（ｘ_１，ｘ_２，・・・，ｘ_ｎ）の値が設定される。

同図に示す分析用系列データ１８５は、同図に記載される系列データ１８１に基づき生成されるデータである。同図に示すように、分析用系列データ１８５は、ＩＤ１２１１、時刻ｔ_ｙ１２１２、ｙ１２１３、時刻ｔ_ｘ１１２１４、各種パラメータ１２１５の各項目を有する複数のレコードで構成される。ＩＤ１２１１、時刻ｔ_ｙ１２１２、ｙ１２１３、及び各種パラメータ１２１５の各項目については系列データ１８１と同様である。時刻ｔ_ｘ１１２１４には説明変数の一つである「ｘ_１」が取得された時刻が設定される。この例では、例えば、系列データ１８１の目的変数であるｙ１２１３の「２」という値について、分析用系列データ１８５の１〜３行目の３つのレコードが分析用レコードとして追加されている。また例えば、系列データ１８１の目的変数であるｙ１２１３の「４」という値について、分析用系列データ１８５の５行目のレコードが分析用レコードとして追加されている。

尚、分析用系列データ１８５は、目的変数に影響を与えるとされたデータを含む分析用レコードを含むために冗長な内容のデータとなるが、分析用系列データ１８５のデータ構造（テーブル形式）は、例えば、機械学習等の一般的な分析アルゴリズムが要求するデータ構造（テーブル形式）に適合するため、分析用系列データ１８５をそのまま、もしくは最小限の前処理を行うことで、容易かつ迅速に分析処理を進めることができる。

以上に説明したように、本実施形態のデータ分析支援装置１０によれば、分析用系列データ生成部１１０が分析用系列データ生成処理Ｓ７００を実行することにより、系列データ１８１に分析用レコードを追加した分析用系列データ１８５が自動的に生成される。そのため、例えば、分析者は系列データ１８１と項目情報１８２をデータ分析支援装置１０に入力するだけで、容易かつ迅速にデータ分析に必要なデータを得ることができ、分析作業を効率よく行うことができる。

尚、以上では、系列データ１８１に分析用レコードを追加して分析用系列データ１８５を生成しているが、分析用系列データ１８５を生成せずに、分析用系列データ生成部１１
０が、分析用レコード特定情報１８４や分析用レコードのみを生成して記憶しておき、例えば、データ分析に際して必要になった時点で系列データ１８１と分析用レコード特定情報１８４又は分析用レコードとを用いて分析用系列データ１８５の全部又は一部を生成するようにしてもよい。これにより記憶資源（主記憶装置１２や補助記憶装置１３）の有効利用を図ることができる。

前述したようにデータ分析支援装置１０は、分析用系列データ１８５を用いてデータ分析を行うデータ分析部１５０を備えている。以下、データ分析部１５０が行う処理について説明する。

図１３は、データ分析部１５０が行う処理（以下、データ分析処理Ｓ１３００と称する。）を説明するフローチャートである。以下、同図とともにデータ分析処理Ｓ１３００について説明する。

まずデータ分析部１５０が、記憶部１８０から項目情報１８２と分析用系列データ１８５とを取得する（Ｓ１３１１）。

続いて、系列特徴量生成部１５１が、項目情報１８２と分析用系列データ１８５とに基づき系列特徴量を生成する（Ｓ１３１２）。尚、系列特徴量生成部１５１は、例えば、代表値（各レコードの所定項目の値の差分(一次微分、二次微分)、各レコードの所定項目の値の累積値、各レコードの所定項目の値の平均値、所定区間のレコードの最大値等）を算出する方法、フーリエ変換等により基底変換を行う方法等により系列特徴量を生成する。

続いて、モデリング部１６０の予測モデル生成部１６１が、系列特徴量１８６を入力として、目的変数を説明する予測モデル１８７を生成する（Ｓ１３１３）。予測モデル１８７の生成は、例えば、機械学習の様々なモデリング手法を用いて行うことができる。例えば、予測モデル１８７の生成手法として、目的変数が連続数値である場合は、線形重回帰分析、ＳＶＲ(Support Vector Regression)、ランダムフォレスト（Random Forest Regression）、ＧＰ(Gaussian Process)によるものが、また例えば、クラス分類であれば、Logistic回帰、ＳＶＭ(Support Vector Machine)によるものがある。また時系列分析に特化
した予測モデルの生成手法として、ＡＲＩＭＡ(Autoregressive Integrated Moving Average)によるものがある。

続いて、モデリング部１６０の再帰モデリング部１６２が、Ｓ１３１３で生成した予測モデル１８７に基づく予測値と、Ｓ１３１１で取得した分析用系列データ１８５の目的変数の予測値とを比較し、両者の差（以下、残差と称する。）を求め（Ｓ１３１４）、残差が予め設定された閾値以上であるか否かを判定する。上記閾値は、例えば、分析用系列データ１８５の目的変数のノイズレベルに設定される。再帰モデリング部１６２が、残差が閾値以上であると判定した場合（Ｓ１３１５：ＹＥＳ）、処理はＳ１３１３に戻り、予測モデル生成部１６１は残差を入力（目的変数）として残差予測モデル１８８を生成する。再帰モデリング部１６２は、Ｓ１３１３〜Ｓ１３１５の処理を１ループ以上、再帰的に繰り返し実行し、再帰モデリング部１６２が、残差が閾値未満であると判定すると（Ｓ１３１５：ＮＯ）、処理はＳ１３１６に進む。

Ｓ１３１６では、モデリング部１６０の結合モデル生成部１６３が、Ｓ１３１３〜Ｓ１３１５のループ毎に生成した、予測モデル１８７と一つ以上の残差予測モデル１８８とを結合することにより結合モデル１８９を生成する。尚、結合モデル１８９を生成する方法としては、例えば、予測モデル１８７と一つ以上の残差予測モデル１８８とを線形結合したものを結合モデル１８９とする方法、予測モデル１８７と一つ以上の残差予測モデル１８８とを掛け合わせて結合モデル１８９とする方法等がある。

以上のように、本実施形態のデータ分析支援装置１０によれば、分析用系列データ１８５を自動的に生成することができるとともに、生成された分析用系列データ１８５について、自動的に系列特徴量、予測モデル、及び結合モデルを生成することができる。そのため、例えば、系列データ１８１の前処理やデータ分析に関して高度な専門知識は要求されず、例えば、列データの加工に関する専門知識の少ない者がデータ分析を行う場合でも、精度の高いデータ分析を容易かつ迅速に効率よく行うことができる。また分析工程の大半を占めるとされるデータ加工等の前処理に要する時間を大幅に短縮することができる。

以上、本発明について実施の形態に基づき具体的に説明したが、本発明は上記の実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また上記実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、また
はＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また上記の各図において、制御線や情報線は説明上必要と考えられるものを示しており、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。例えば、実際にはほとんど全ての構成が相互に接続されていると考えてもよい。

また以上に説明したデータ分析支援装置１０の各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は、データ分析支援装置１０が備えるハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。

また前述した各種データベースの構成（スキーマ（Schema）等）は、リソースの効率的な利用、処理効率向上、アクセス効率向上、検索効率向上等の観点から柔軟に変更し得る。

１０データ分析支援装置、１１０分析用系列データ生成部、１２０集約処理部、１２１ダミー変数化部、１２２集約演算部、１２３集約項目追加部、１３０分析用レコード特定部、１３１相関係数算出部、１３２有意性検定部、１４０レコード追加部、１５０データ分析部、１５１系列特徴量生成部、１６０モデリング部、１６１予測モデル生成部、１６２再帰モデリング部、１６３結合モデル生成部、１８０
記憶部、１８１系列データ、１８２項目情報、１８３集約後データ、１８４分析用レコード特定情報、１８５分析用系列データ、１８６系列特徴量、１８７予測モデル、１８８残差予測モデル、１８９結合モデル、Ｓ７００分析用系列データ生成処理、Ｓ７１４集約処理、Ｓ７１５分析用レコード特定処理、Ｓ１３００データ分析処理

Claims

プロセッサ及び記憶装置を有する情報処理装置であり、
目的変数の値と、前記目的変数の系列を特定する情報である目的変数系列特定情報と、説明変数の値と、前記説明変数の系列を特定する情報である説明変数系列特定情報とが対応づけられた複数のレコードを含むテーブル形式のデータである系列データを記憶する記憶部、
前記目的変数の分析に際して前記目的変数に影響を与える可能性のある、前記目的変数の値又は前記説明変数の値を含んだ前記レコードである分析用レコードを特定する分析用レコード特定部、
所定の前記レコードの前記目的変数の値に、特定した前記分析用レコードの前記目的変数の値又は前記説明変数の値を対応づけたレコードである追加レコードを生成し、生成した前記追加レコードを前記系列データに追加したデータである分析用系列データを生成する分析用系列データ生成部、
を備える、データ分析支援装置。
請求項１に記載のデータ分析支援装置であって、
前記系列データにおける前記説明変数の系列の粒度が前記系列データにおける前記目的変数の系列の粒度よりも細かい場合、前記系列データについて前記説明変数の値を集約したデータである集約後データを生成する集約処理部を更に備え、
前記分析用系列データ生成部は、前記集約後データに基づき前記分析用レコードを特定する、
データ分析支援装置。
請求項１に記載のデータ分析支援装置であって、
前記分析用レコード特定部は、前記所定のレコードに含まれている情報と前記系列データの他のレコードに含まれている情報との間の相関関数の相関係数に基づき、前記分析用レコードを特定する、
データ分析支援装置。
請求項３に記載のデータ分析支援装置であって、
前記相関関数は、自己相関係関数又は偏自己相関関数である、
データ分析支援装置。
請求項３に記載のデータ分析支援装置であって、
前記分析用レコード特定部は、前記相関係数の有意性を検定し、前記検定の結果に基づき前記分析用レコードを特定する、
データ分析支援装置。
請求項１乃至５のいずれか一項に記載のデータ分析支援装置であって、
前記追加レコードは、当該追加レコードの前記目的変数の値に対応づけられている前記目的変数系列特定情報又は当該追加レコードの前記説明変数の値に対応づけられている前記説明変数系列特定情報を含む、
データ分析支援装置。
請求項１乃至５のいずれか一項に記載のデータ分析支援装置であって、
前記系列データは時系列データである、
データ分析支援装置。
請求項７に記載のデータ分析支援装置であって、
前記目的変数系列特定情報は、前記目的変数が取得された時刻を示す情報であり、
前記説明変数系列特定情報は、前記説明変数が取得された時刻を示す情報である、
データ分析支援装置。
請求項１乃至５のいずれか一項に記載のデータ分析支援装置であって、
前記系列データについて、前記目的変数の値が設定される項目、前記目的変数系列特定情報が設定される項目、前記説明変数の値が設定される項目、前記説明変数系列特定情報が設定される項目、を特定する情報を受け付けるユーザインタフェース、
を更に備える、データ分析支援装置。
請求項１乃至５のいずれか一項に記載のデータ分析支援装置であって、
前記分析用系列データに基づき系列特徴量を生成する系列特徴量生成部、
を更に備える、データ分析支援装置。
請求項１０に記載のデータ分析支援装置であって、
前記系列特徴量に基づき前記目的変数の予測モデルを生成する予測モデル生成処理を実行する予測モデル生成部、
を更に備える、データ分析支援装置。
請求項１１に記載のデータ分析支援装置であって、
前記予測モデルに基づく予測値と前記系列データの前記目的変数の値との差である残差を算出する残差算出処理と、前記残差を前記目的変数に設定することにより行われる前記予測モデル生成処理とを、前記残差が予め設定された閾値以下になるまで再帰的に実行することにより残差を予測するモデルである残差予測モデルを生成する再帰モデリング部、
を更に備える、データ分析支援装置。
請求項１２に記載のデータ分析支援装置であって、
生成された前記予測モデルと複数の前記残差予測モデルとを組み合わせたモデルである結合モデルを生成する結合モデル生成部、
を更に備える、データ分析支援装置。
プロセッサ及び記憶装置を有する情報処理装置が、
目的変数の値と、前記目的変数の系列を特定する情報である目的変数系列特定情報と、説明変数の値と、前記説明変数の系列を特定する情報である説明変数系列特定情報とが対応づけられた複数のレコードを含むテーブル形式のデータである系列データを記憶するステップと、
前記目的変数の分析に際して前記目的変数に影響を与える可能性のある、前記目的変数の値又は前記説明変数の値を含んだ前記レコードである分析用レコードを特定するステップと、
所定の前記レコードの前記目的変数の値に、特定した前記分析用レコードの前記目的変数の値又は前記説明変数の値を対応づけたレコードである追加レコードを生成し、生成した前記追加レコードを前記系列データに追加したデータである分析用系列データを生成するステップと、
を実行する、データ分析支援方法。
請求項１４に記載のデータ分析支援方法であって、
前記情報処理装置が、
前記系列データにおける前記説明変数の系列の粒度が前記系列データにおける前記目的変数の系列の粒度よりも細かい場合、前記系列データについて前記説明変数の値を集約したデータである集約後データを生成するステップと、
前記集約後データに基づき前記分析用レコードを特定するステップと、
を更に実行する、データ分析支援方法。