JP2019109676A

JP2019109676A - 分析支援方法、分析支援サーバ及び記憶媒体

Info

Publication number: JP2019109676A
Application number: JP2017241859A
Authority: JP
Inventors: 俊彦樫山; Toshihiko Kashiyama
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2019-07-04
Anticipated expiration: 2037-12-18
Also published as: WO2019123732A1; KR20200020932A; KR102309094B1; JP6842405B2

Abstract

【課題】データの分析に要する工数を低減させる。【解決手段】プロセッサとメモリを有する計算機が、分析対象データの評価を行う分析支援方法であって、前記計算機が、前記分析対象データのカラムの定義を格納した第１のデータカタログと、分析処理を実行する分析ソフトウェアの入力データのカラムを定義した第２のデータカタログを読み込む第１のステップと、前記計算機が、前記第１のデータカタログのカラムと前記第２のデータカタログのカラムの類似度をマッピング確度として算出する第２のステップと、前記計算機が、前記分析ソフトウェアで使用する前記第２のデータカタログのカラムのマッピング確度に基づいて当該分析ソフトウェアで前記分析対象データを分析する難易度を算出する第３のステップと、を含む。【選択図】図３

Description

本発明は、データを分析するソフトウェアを提案する技術に関する。

データを分析する工数を低減するために、過去のデータ分析で使用したアプリケーションやクエリなどのソフトウェアを再利用することが望まれている。過去のデータ分析で使用したソフトウェアを利用するためにスキーママッチングを適用する技術が知られている（例えば、非特許文献１）。非特許文献１では、過去に分析を実行したスキーマと、新たに分析するデータのスキーマの構成要素間の類似度を算出する技術が開示される。

また、特許文献１では、過去のデータ分析で使用したソフトウェアを利用するのに必要なデータの要素を特定する技術が開示されている。

また、計算機がユーザにソフトウェアを推奨する技術としては、例えば、特許文献２が知られている。特許文献２では、アプリケーションによる消費電力に応じてサーバがアプリケーションの推奨を行う技術が開示されている。

米国特許第９１１０９６７明細書特開２０１２−６３９１７号公報

Ｅｍｂｌｙ，ＤａｖｉｄＷ．，ＤａｖｉｄＪａｃｋｍａｎ，ａｎｄＬｉＸｕ．、"ＭｕｌｔｉｆａｃｅｔｅｄＥｘｐｌｏｉｔａｔｉｏｎｏｆＭｅｔａｄａｔａｆｏｒＡｔｔｒｉｂｕｔｅＭａｔｃｈＤｉｓｃｏｖｅｒｙｉｎＩｎｆｏｒｍａｔｉｏｎＩｎｔｅｇｒａｔｉｏｎ．"、ＷｏｒｋｓｈｏｐｏｎｉｎｆｏｒｍａｔｉｏｎｉｎｔｅｇｒａｔｉｏｎｏｎｔｈｅＷｅｂ，２００１

上記従来例では、データのスキーマの類似性や、データの構成要素間の関連性について特定することはできる。しかしながら、上記従来例では、新たな分析対象のデータについて、スキーマの類似性や構成要素間の関連性からどのソフトウェアを使用するのかについては、分析を行う担当者が過去の実績などから判断する必要が生じる。すなわち、従来例では、どのソフトウェアを使用するかについて分析の担当者が試行錯誤を行う場合が生じ、分析の工数を削減することはできなかった。

また、上記従来例では、新たな分析対象のデータのテーブルの数が多い場合、どのテーブルから分析を開始すれば良いかを提示することはできなかった。すなわち、上記従来例では、データのクレンジングなどの分析の前処理に工数（または労力）を要するデータと、そうでないデータの判別を行うことができず、少ない工数で分析を実施することができないという問題があった。

そこで本発明は、上記問題点に鑑みてなされたもので、データの分析に要する工数を低減することを目的とする。

本発明は、プロセッサとメモリを有する計算機が、分析対象データの評価を行う分析支援方法であって、前記計算機が、前記分析対象データのカラムの定義を格納した第１のデータカタログと、分析処理を実行する分析ソフトウェアの入力データのカラムを定義した第２のデータカタログを読み込む第１のステップと、前記計算機が、前記第１のデータカタログのカラムと前記第２のデータカタログのカラムの類似度をマッピング確度として算出する第２のステップと、前記計算機が、前記分析ソフトウェアで使用する前記第２のデータカタログのカラムのマッピング確度に基づいて当該分析ソフトウェアで前記分析対象データを分析する難易度を算出する第３のステップと、を含む。

したがって、本発明によれば、分析対象データを入力データ（共通データモデル）に変換する際の難易度に基づいて、分析対象データに適用する分析ソフトウェアを提案することが可能となって、分析の工数や分析にかかる労力を低減できる。

本発明の実施例１を示し、データ分析支援システムの一例を示すブロック図である。本発明の実施例１を示し、分析支援サーバの一例を示すブロック図である。本発明の実施例１を示し、分析支援プログラムの機能要素の一例を示すブロック図である。本発明の実施例１を示し、分析カタログの一例を示す図である。本発明の実施例１を示し、データソースカタログの一例を示す図である。本発明の実施例１を示し、共通データモデルカタログの一例を示す図である。本発明の実施例１を示し、必要カラム管理テーブルの一例を示す図である。本発明の実施例１を示し、カラムマッピング確度管理テーブルの一例を示す図である。本発明の実施例１を示し、分析難易度管理テーブルの一例を示す図である。本発明の実施例１を示し、分析支援プログラムで行われる処理の一例を示すフローチャートである。本発明の実施例１を示し、分析推薦結果確認画面の一例を示す図である。本発明の実施例２を示し、データ分析支援システムの一例を示すブロック図である。本発明の実施例２を示し、ＥＴＬ処理部の生産計画期間変換で行われる処理の一例を示す図である。本発明の実施例２を示し、分析支援プログラムの機能要素の一例を示すブロック図である。本発明の実施例２を示し、分析カタログの一例を示す図である。本発明の実施例２を示し、ＥＴＬカタログの一例を示す図である。本発明の実施例２を示し、ＥＴＬカラムマッピング確度管理テーブルの一例を示す図である。本発明の実施例２を示し、データ品質管理テーブルの一例を示す図である。本発明の実施例２を示し、分析難易度管理テーブルの一例を示す図である。本発明の実施例２を示し、分析支援プログラムで行われる処理の一例を示すフローチャートである。本発明の実施例２を示し、難易度の算出処理の一例を示すフローチャートである。本発明の実施例２を示し、分析難易度の根拠の一例を示す図である。本発明の実施例２を示し、標準作業時間の補正処理の一例を示すフローチャートである。本発明の実施例２を示し、推薦処理の一例を示すフローチャートである。本発明の実施例２を示し、結果確認画面処理の一例を示すフローチャートである。本発明の実施例２を示し、結果確認画面の一例を示す図である。本発明の実施例３を示し、データ分析支援システムの一例を示すブロック図である。本発明の実施例３を示し、分析支援プログラムの機能要素の一例を示すブロック図である。本発明の実施例３を示し、イベントログ形式の設備アラートデータの一例を示す図である。本発明の実施例３を示し、アラートコードマスタの一例を示す図である。本発明の実施例３を示し、テーブル形式の設備アラートの一例を示す図である。本発明の実施例３を示し、過去実績確認画面の一例を示す図である。本発明の実施例３を示し、他候補提示画面の一例を示す図である。本発明の実施例３を示し、カラムマッピング確度算出部１２の処理の一例を示すフローチャートである。本発明の実施例３を示し、結果確認画面で行われる処理の一例を示すフローチャートである。

以下、本発明の実施形態を添付図面に基づいて説明する。

図１は、本発明の実施例１を示し、データ分析支援システムの一例を示すブロック図である。データ分析支援システムは、生産設備からデータを収集する工場Ａのデータ収集サーバ４１０と、生産設備からデータを収集する工場Ｂのデータ収集サーバ４３０と、工場Ａ、工場Ｂのデータ収集サーバ４１０、４３０のデータをデータソースとし、分析に関するデータを蓄積するデータレイクサーバ２と、データレイクサーバ２の共通データモデルカタログ３３に従って変換された入力データ（変換済みデータ）を分析する分析サーバ群３００と、データソースの分析に適した分析サーバ群３００の分析ソフトウェア（アプリケーションまたはクエリ）の提案を行う分析支援サーバ１を含む。

データレイクサーバ２は、ネットワーク５１を介して分析支援サーバ１と接続され、また、ネットワーク５２を介して分析サーバ群３００と接続され、また、ネットワーク５３を介してデータ収集サーバ４１０、４３０と接続される。

工場Ａのデータ収集サーバ４１０は、部品表４２１と、製造実績４２２と、設備アラート４２３と、工程及び設備マスタ４２４と、生産計画４２５と、在庫実績４２６のデータを格納する。工場Ｂのデータ収集サーバ４３０は、部品表４４１と、製造実績４４２と、生産計画４４３と、設備アラート４４４のデータを格納する。

部品表４２１、４４１は、製品を構成する部品のリストを含む。製造実績４２２、４４２は製品の製造実績に関する情報を格納する。生産計画４２５、４４３は、部品及び製品の生産スケジュールなどを格納する。設備アラート４２３、４４４は、生産設備からの警報やエラー等を格納する。工程及び設備マスタ４２４は、生産工程の情報や製造設備の情報を格納する。在庫実績４２６は、生産された製品の在庫状況が格納される。

データレイクサーバ２のストレージ２０には、過去のデータ分析で利用した分析ソフトウェア（アプリケーションやクエリ）を収集した分析カタログ３１と、分析対象データのカラムを設定したデータソースカタログ３２と、共通化されたデータモデル（共通データモデル６０）を定義した共通データモデルカタログ３３が格納される。なお、分析カタログ３１と、データソースカタログ３２と、共通データモデルカタログ３３は予め設定されたデータである。

また、データレイクサーバ２のストレージ２０には、共通データモデル６０として、工場Ａの製品を構成する部品の情報を定義した部品表６１と、工場Ａの製品の生産計画６２と、工場Ａの製品の製造実績６３と、工場Ａの生産設備からの設備アラート６４が格納される。

部品表６１は、工場Ａの部品表４２1の定義が設定された共通データモデルである。生産計画６２は、工場Ａの生産計画４２５の定義が予め設定された共通データモデルである。製造実績６３は、工場Ａの製造実績４２２の定義が予め設定された共通データモデルである。設備アラート６４は、工場Ａの設備アラート４２３の定義が予め設定された共通データモデルである。

これらの共通データモデル６０は、生産計画や、製造設備や、設備のアラート等の管理業務で一般的なエンティティのデータベースを提供する定義を含む。分析支援サーバ１は、データソースとなるデータ収集サーバ４１０、４３０のテーブルを読み込んで、共通データモデルカタログ３３に従ってカラムを変換してから分析サーバ群３００で分析処理を実行させる。なお、データソースとなるテーブルを共通データモデル６０の定義に従ったテーブルに変換する処理は、分析サーバ群３００で行うようにしても良い。

本実施例１では、工場Ａのデータ収集サーバ４１０をデータソースとしてデータ分析を行ったときに利用した分析ソフトウェア（分析処理）及び共通データモデル６０を、工場Ｂのデータ収集サーバ４３０が収集したデータに適用する例を示す。

分析サーバ群３００は、変換済みデータ（入力データ）を分析クエリによって分析を実施する分析クエリ発行サーバ３０１と、設備アラート６４の定義に従って変換された変換済みデータを分析して生産設備の不良要因を抽出する不良要因分析サーバ３０２と、生産計画６２と部品表６１等の定義に従って変換された変換済みデータから生産に関するシミュレーションを実行する生産シミュレータサーバ３０３と、各工場間で生産設備を融通させるアセットシェアリングサーバ３０４を含む。

すなわち、分析クエリ発行サーバ３０１は、入力データを格納したデータベースに分析クエリを発行して、分析を実施する。また、不良要因分析サーバ３０２では分析アプリケーションによって分析を実施する。生産シミュレータサーバ３０３では、シミュレーションソフトウェア（アプリケーション）によって生産のシミュレーションを実施する。

なお、分析サーバ群３００は、これらのサーバに限定されるものではなく、データレイクサーバ２やデータ収集サーバ４１０、４３０のデータを利用して、分析やシミュレーションや評価を実施する計算機であればよい。また、分析ソフトウェアについても、上述のアプリケーションやクエリに限定されるものではなく、分析に応じたアプリケーションやクエリを採用すれば良い。

また、ストレージ２０には上記のデータに加えて、図３で示すように、必要カラム管理テーブル３４と、カラムマッピング確度管理テーブル３５と、分析難易度管理テーブル３６と、推薦結果ファイル３７を格納する。

なお、変換済みデータは、工場Ａ、Ｂのデータ収集サーバ４１０、４３０のテーブルデータのカラムを、共通データモデルカタログ３３に従って共通データモデル６０の定義に変換したデータであり、データレイクサーバ２のストレージ２０に格納されても良いし、分析サーバ群３００に格納されても良い。

分析支援サーバ１は、新たな分析対象データを含むデータソースカタログ３２を受け付けて、当該分析対象データをデータレイクサーバ２の共通データモデル６０に対応する変換済みデータへ変換する際の難易度を算出し、当該難易度に基づいて分析対象データの評価を行う分析支援プログラム１０が稼働する。本実施例１では、分析支援プログラム１０が実施する評価の一例として、分析対象データを分析する際に最適な分析ソフトウェアや分析の順序を提案する例を示す。また、分析支援サーバ１は、分析支援プログラム１０が利用するカタログデータ４０と、管理テーブル５０を有する。

なお、本実施例１における難易度は、後述するように、分析対象データのカラムを、共通データモデル６０に対応するカラムに割り当てるマッピングの作業量を示す指標である。分析サーバ群３００の分析ソフトウェアは、共通データモデル６０のカラムのマッピングに対応する変換済みデータを入力データとして分析処理を実行することができる。このため、データソースのカラムを共通データモデル６０のカラムに割り当てる作業が、分析処理の前処理となる。

本実施例１では、上記前処理に要する作業量を分析の難易度として分析支援サーバ１が算出することで、過去の分析で使用した分析ソフトウェアを利用する際の作業量の大小を判定できる。これにより、分析支援サーバ１は、膨大なデータに対する分析をどのような分析処理から始めれば良いか、あるいは、どのような分析処理が可能であるかを、過去の分析で使用した分析ソフトウェアから提案することができる。

図２は、分析支援サーバ１の一例を示すブロック図である。分析支援サーバ１は、ＣＰＵ３と、メモリ４と、ストレージ５と、ネットワークインタフェース（図中ＮＩ／Ｆ）６と、ディスプレイ８、キーボード９１、マウス９２を接続するインタフェース７を含む計算機である。

メモリ４には分析支援プログラム１０がロードされてＣＰＵ３によって実行される。ストレージ５には、カタログデータ４０と管理テーブル５０が格納される。

図３は、分析支援プログラム１０の機能要素の一例を示すブロック図である。分析支援プログラム１０は機能要素として、必要カラム算出部１１と、カラムマッピング確度算出部１２と、分析難易度算出部１３と、分析推薦部１５を含む。

必要カラム算出部１１は、データレイクサーバ２の分析カタログ３１を読み込んで必要カラム管理テーブル３４を生成または更新する。すなわち、必要カラム算出部１１は、分析カタログ３１から過去の分析で使用した分析ソフトウェア（アプリケーションやクエリ）と、データソースカタログ３２から当該分析ソフトウェアが使用した共通データモデル６０と、当該共通データモデル６０の元になったデータソースの関係から、分析に必要なテーブル名とカラム名を算出して必要カラム管理テーブル３４に蓄積する。

なお、必要カラム算出部１１で行うデータソースのカラムから共通データモデル６０のカラムの関係の抽出は、公知または周知の技術を用いることができ、例えば、特許文献１に開示されるデータリネージ等の手法を適用すれば良い。また、必要カラム管理テーブル３４は、分析対象の共通データモデル６０と、分析サーバ群３００の分析ソフトウェアから、分析支援サーバ１の管理者や利用者が予め作成しておいても良い。

カラムマッピング確度算出部１２は、新たな分析対象データを含むデータソースカタログ３２と、共通データモデルカタログ３３を読み込んで、カラムマッピング確度管理テーブル３５を生成又は更新する。

カラムマッピング確度算出部１２は、分析対象データの各カラムについて共通データモデルカタログ３３のテーブルとカラムの類似度を、マッピング確度として算出し、カラムマッピング確度管理テーブル３５に格納する。カラムマッピング確度算出部１２は、分析対象データと共通データモデル６０のテーブル名やカラム名やカラムの値や値の範囲やカラムのデータ形式などから類似度を算出し、マッピング確度とする。

マッピング確度は、データソースのテーブル名及びカラム名と、共通データモデル６０のテーブル名とカラム名の類似度をカラム単位で示す。カラム毎の類似度は、例えば、非特許文献１に開示されるスキーママッチング及びマッピング等の公知または周知の技術を適用すればよい。なお、類似度の算出については、周知又は公知の手法を用いれば良いので本実施例では詳述しない。また、本実施例のマッピング確度は、１に近づくほど分析対象データのカラムと共通データモデル６０のカラムの類似度が高いことを示す。

分析難易度算出部１３は、カラムマッピング確度管理テーブル３５と、必要カラム管理テーブル３４を読み込んで、新たな分析対象データを、過去に実施した分析ソフトウェアで処理する際の難易度を分析処理毎に算出して分析難易度管理テーブル３６に格納する。なお、分析難易度算出部１３は、マッピング確度が更新される度に難易度の再計算を実施する分析難易度再計算部１４を含む。

本実施例の難易度は、値が１に近づくほど分析作業の前処理（カラムマッピング処理）の作業量（時間又は労力）が小さく、０に近づくほど分析作業の前処理の作業量が多いことを示す。具体的には、難易度の値が１に近い場合には、分析対象データの各カラムを共通データモデル６０へ容易に割り当てることが可能で、分析対象データの前処理としてのマッピング（カラムの割り当て）に要する時間又は労力が少ない。

一方、難易度の値が０に近づく場合には、分析対象データの各カラムを共通データモデル６０のカラムへ割り当てることが容易ではなく、分析対象データの前処理（カラムマッピング処理）に要する時間又は労力が大きくなる。

分析推薦部１５は、分析難易度管理テーブル３６に格納された分析対象データの難易度に基づいて、推薦する分析ソフトウェアをリストアップした結果確認画面８１をディスプレイ８へ出力する。

さらに、分析推薦部１５は、難易度を算出した根拠（分析対象データと共通データモデル６０のカラムの関係）を表示する分析難易度根拠表示部１６と、マッピング確度を調整するマッピング確定部１７を含む。分析推薦部１５は、分析対象データを処理する分析ソフトウェア（分析名）の推奨結果を推薦結果ファイル３７へ格納する。また、分析推薦部１５は、マッピング確度の調整結果をカラムマッピング確度管理テーブル３５に書き込んで更新し、分析支援サーバ１の利用者の決定をカラムマッピング確度管理テーブル３５に反映させる。

上記の構成によって、分析対象データを共通データモデル６０に従った変換済みデータへ変換する際の難易度に基づいて、分析対象データに適用する分析ソフトウェアを提案することが可能となって、分析の工数や分析にかかる労力を低減できる。

また、本実施例の分析支援プログラム１０が難易度を算出する分析対象データは、テーブルに限定されるものではなく、スプレッドシートなどのデータを分析対象データとすることができる。

分析支援プログラム１０の必要カラム算出部１１と、カラムマッピング確度算出部１２と、分析難易度算出部１３と分析推薦部１５の各機能部はプログラムとしてメモリ４にロードされる。

ＣＰＵ３は、各機能部のプログラムに従って処理することによって、所定の機能を提供する機能部として稼働する。例えば、ＣＰＵ３は、分析難易度算出プログラムに従って処理することで分析難易度算出部１３として機能する。他のプログラムについても同様である。さらに、ＣＰＵ３は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。

図４は、分析カタログ３１の一例を示す図である。分析カタログ３１には、過去に実施した分析の概要が格納される。

分析カタログ３１は、分析ＩＤ３１１と、分析名３１２と、アプリ／クエリ３１３と、重要度３１４と、過去効果３１５と、標準所要時間３１６と、必要スキル３１７と、納期３１８と、完了フラグ３１９と、をひとつのエントリに含む。

分析ＩＤ３１１には、分析を実施する分析ソフトウェアの識別子が格納される。分析名３１２には、分析の名称が格納される。アプリ／クエリ３１３には、分析ソフトウェアの種別が格納される。本実施例では分析ソフトウェアがアプリケーションまたはクエリのいずれかの例を示す。アプリケーションの場合には、分析サーバ群３００の不良要因分析サーバ３０２で実行される不良要因分析アプリケーションの名称等が格納される。クエリの場合には、分析クエリ発行サーバ３０１で発行されるクエリの名称等が格納される。

重要度３１４には、当該分析ソフトウェアの重要度が格納される。重要度３１４は、「Ｈ」（高い）、「Ｍ」（中）、「Ｌ」（低い）のいずれかが格納される。過去効果３１５には、当該分析ソフトウェアの分析結果が与えた効果が格納される。過去効果３１５は、「Ｈ」（高い）、「Ｍ」（中）、「Ｌ」（低い）のいずれかが格納される。

標準所要時間３１６には、当該分析に要する標準的な所要時間が格納される。必要スキルＩＤ３１７には、当該分析ソフトウェアを利用する際に必要な分析担当者のスキルが格納される。本実施例では、必要スキルＩＤ３１７として、分析ソフトウェアの名称や、ソフトウェア言語の名称や、分析する分野などを格納する例を示す。

納期３１８には、当該分析の結果を提示する期日が格納される。完了フラグ３１９には、当該分析が完了したか否かを識別する情報が格納される。

図５は、データソースカタログ３２の一例を示す図である。データソースカタログ３２には、分析を行うデータソースのカラムの情報が予め設定されたテーブルである。なお、本実施例１のデータソースカタログ３２は、工場Ｂのデータ収集サーバ４３０の製造実績ログ４４２と、設備アラート４４４と、生産計画４４３のテーブルを含む。

データソースカタログ３２は、カラムＩＤ３２１と、入力データソース名３２２と、テーブル名３２３と、カラム名３２４と、データ型３２５と、単位３２６と、データ範囲３２７と、その他属性３２８をひとつのエントリに含む。

カラムＩＤ３２１には、当該データソースのカラムを特定するための識別子が格納される。入力データソース名３２２には、当該データソースを提供した計算機の名称が格納される。

テーブル名３２３には、当該データソースのテーブルの名称が格納される。カラム名３２４には、当該カラムの名称が格納される。データ型３２５には、データの形式が格納される。単位３２６には、当該カラムのデータの単位が格納される。データ範囲３２７には、当該カラムの値の範囲が格納される。その他属性３２８には、当該カラムの属性が格納される。

データソースカタログ３２は、データ収集サーバ４１０、４３０からの情報に基づいて、予め生成された情報である。

図６は、共通データモデルカタログ３３の一例を示す図である。共通データモデルカタログ３３は、共通データモデル６０（部品表６１〜設備アラート６４）のカラム毎の情報を格納したテーブルである。

共通データモデルカタログ３３は、カラムＩＤ３３１と、テーブル名３３２と、カラム名３３３と、データ型３３４と、単位３３５と、データ範囲３３６と、その他属性３３７をひとつのエントリに含む。

カラムＩＤ３３１には、共通データモデル６０のテーブルとカラムを特定するための識別子が格納される。テーブル名３３２には、当該カラムが属する共通データモデル６０のテーブルの名称が格納される。

データ型３３４には当該カラムのデータ形式が格納される。単位３３５には、当該カラムのデータの単位が格納される。データ範囲３３６には、当該カラムの値の範囲が格納される。その他属性３３７には、当該カラムの属性が格納される。

図７は、必要カラム管理テーブル３４の一例を示す図である。必要カラム管理テーブル３４は、分析サーバ群３００で実施された分析ソフトウェアが使用する共通データモデル６０のカラムの情報を特定するためのテーブルである。

必要カラム管理テーブル３４は、分析ＩＤ３４１と、分析名３４２と、テーブル名３４３と、カラム名３４４と、必須フラグ３４５をひとつのエントリに含む。

分析ＩＤ３４１には、分析サーバ群３００で実施された分析ソフトウェアを特定する識別子が格納される。分析名３４２には、当該分析に付与された名称または分析ソフトウェアの名称が格納される。テーブル名３４３には、当該分析で使用した共通データモデル６０のテーブル名が格納される。

カラム名３４４には、変換済みデータを格納するカラムの名称が格納される。必須フラグ３４５には、当該カラムが分析処理のオプション項目か必須項目のいずれであるかが格納される。分析サーバ群３００の分析処理で、必須項目であれば「Ｙｅｓ」が格納され、オプション項目であれば「Ｎｏ」が格納される。

図８は、カラムマッピング確度管理テーブル３５の一例を示す図である。カラムマッピング確度管理テーブル３５には、分析支援プログラム１０が算出したデータソースのカラムと共通データモデル６０のカラムのマッピング確度（類似度）が格納される。図８の例では、工場Ｂのデータ収集サーバ４３０のデータ（製造実績４４２、生産計画４４３、設備アラート４４４）を新たな分析対象データとして、分析支援プログラム１０が共通データモデルカタログ３３とのマッピング確度３５７を算出した例を示す。

カラムマッピング確度管理テーブル３５は、マッピングＩＤ３５１と、データソース名３５２と、マップ元テーブル名３５３と、マップ元カラム名３５４と、マップ先テーブル名３５５と、マップ先カラム名３５６と、マッピング確度３５７をひとつのエントリに含む。

マッピングＩＤ３５１には、マッピング確度を特定するための識別子が格納される。データソース名３５２には、分析対象データを有するデータソースの名称が格納される。

マップ元テーブル名３５３には、データソース側の分析対象データのテーブルの名称が格納される。マップ元カラム名３５４には、データソース側の分析対象データのカラムの名称が格納される。

マップ先テーブル名３５５には、共通データモデル６０の定義に変換した後のテーブルの名称が格納される。マップ先カラム名３５６には、共通データモデル６０の定義に変換した後のカラムの名称が格納される。マッピング確度３５７には、マップ元カラム名３５４のカラムと、マップ先カラム名３５６のカラムの類似度が格納される。

分析支援サーバ１は、マッピング確度３５７を参照することで、マップ元カラム名３５４のカラムと、マップ先カラム名３５６のカラムのスキーマレベルでの類似度を取得することができる。

図９は、分析難易度管理テーブル３６の一例を示す図である。分析難易度管理テーブル３６は、新たな分析対象データについて分析支援プログラム１０の分析難易度算出部１３が生成したテーブルである。

分析難易度管理テーブル３６は、分析ＩＤ３６１と、分析名３６２と、アプリ／クエリ３６３と、難易度３６４をひとつのエントリに含む。分析ＩＤ３６１には、分析を行う分析ソフトウェアを特定するための識別子が格納される。分析名３６２には、分析の名称が格納される。

アプリ／クエリ３６３には、分析サーバ群３００で分析を実施する分析ソフトウェアの種別が格納される。難易度３６４には、分析支援プログラム１０が算出した分析ソフトウェア毎の難易度が格納される。

難易度３６４は、分析支援プログラム１０が、必要カラム管理テーブル３４の分析ＩＤ３４１毎にテーブル名３４３とカラム名３４４を選択して、カラムマッピング確度管理テーブル３５のマップ先テーブル名３５５とマップ先カラム名３５６と一致するマッピング確度３５７を取得する。なお、分析支援プログラム１０はカラム名３４４のうち、必須フラグ３４５が「Ｙｅｓ」のエントリを選択し、「Ｎｏ」のエントリを排除する。

そして、必要カラム管理テーブル３４のひとつの分析ＩＤ３４１に複数のカラム名３４４が存在する場合には、カラム名３４４に対応するマップ先カラム名３５６のマッピング確度３５７の乗算値が難易度３６４として算出される。

例えば、分析ＩＤ３６１＝「１」の分析名３６２＝「設備ごとの稼働時間実績集計」の分析ソフトウェアの場合、分析支援プログラム１０は、必要カラム管理テーブル３４の分析ＩＤ３４１＝「１」のテーブル名３４３＝「製造実績」とカラム名３４４＝「設備ＩＤ」、「日時」、「稼働時間」を選択する。

次に、分析支援プログラム１０は、カラムマッピング確度管理テーブル３５のマップ元テーブル３５３＝「製造実績」でマップ先カラム名３５６＝「設備ＩＤ」のマッピング確度３５７＝０．９と、マップ先カラム名３５６＝「日時」のマッピング確度３５７＝０．８５と、マップ先カラム名３５６＝「稼働時間」のマッピング確度３５７＝０．９を取得する。

そして、分析支援プログラム１０は、上記取得した３つのカラムのマッピング確度を乗算し、０．９×０．８５×０．９＝０．６９（０．６８８５≒０．６９）として難易度３６４を算出する。

図１０は、分析支援サーバ１で実行される分析支援プログラム１０の一例を示すフローチャートである。なお、以下の説明では分析支援プログラム１０を処理の主体とするが、分析支援サーバ１やＣＰＵ３を処理の主体としても良い。この処理は、新たな分析対象データを含むデータソースカタログ３２を受け付けると開始される。

まず、分析支援プログラム１０は、必要カラム算出部１１で分析カタログ３１を読み込んで、分析を実行する分析サーバ群３００の分析ソフトウェアの入力となる共通データモデル６０のカラムを算出し、必要カラム管理テーブル３４に書き込む（Ｓ１）。

必要カラム算出部１１は、分析サーバ群３００が過去に使用した共通データモデル６０のテーブル名とカラム名を取得して必要カラム管理テーブル３４のテーブル名３４３、カラム名３４４に格納する。必要カラム算出部１１は、分析サーバ群３００のクエリやログなどから分析に必須のカラムか、オプションのカラムかを判定して必須フラグ３４５を設定する。

次に、分析支援プログラム１０のカラムマッピング確度算出部１２は、データソースカタログ３２、および共通データモデルカタログ３３を読み込み、データソース（データ収集サーバ４１０、４３０のテーブル）のカラムと共通データモデル６０（共通データモデルカタログ３３）のカラムのマッピング確度３５７を算出し、カラムマッピング確度管理テーブル３５に書き込む（Ｓ２）。

カラムマッピング確度算出部１２は、上述したようにデータ収集サーバ４１０、４３０側のテーブルのデータスキーマと、共通データモデル６０のデータスキーマをスキーママッチング＆マッピングによってカラム毎の類似度を算出し、マッピング確度３５７に格納する。

次に、分析難易度算出部１３が、必要カラム管理テーブル３４、およびカラムマッピング確度管理テーブル３５を読み込み、分析ＩＤ３４１毎に必要なカラムのマッピング確度３５７を取得して、上述したように難易度３６４を算出し、分析難易度管理テーブル３６に書き込む（Ｓ３）。

次に、分析支援プログラム１０は、分析推薦部１５において、分析難易度管理テーブル３６を読み込み、難易度３６４の値が大きい分析ＩＤを上位ランクとしてソートし、図１１に示す結果確認画面８１に表示する（Ｓ４）。

難易度３６４の値が大きいほど、データソースから共通データモデル６０への変換が容易であり、分析の前処理であるデータソースから共通データモデル６０への変換及びマッピング作業が容易となる。分析推薦部１５は、前処理が容易な順で結果確認画面８１の分析一覧８１１に分析のリストを表示する。

図１１は、分析支援プログラム１０の分析推薦部１５が出力する結果確認画面８１の一例を示す図である。結果確認画面８１は、図中上部を分析一覧８１１の表示領域とし、図中下部を分析難易度根拠８１２の表示領域とする。なお、分析難易度根拠８１２は、分析一覧８１１の一行が選択された後に表示される。

分析一覧８１１には、分析ＩＤと、分析名と、アプリケーションまたはクエリの種別と、重要度と、過去効果と、難易度及び完了フラグをひとつの行に含むリストで構成され、分析の内容が表示される。なお、分析一覧８１１の難易度（３６４）を除く項目は、図４の分析カタログ３１の内容である。

分析支援サーバ１の利用者はマウス９２を操作して、分析ＩＤ＝４の行をクリックすると、分析難易度根拠８１２の表示領域に、共通データモデル６０とデータソースのマッピング確度（図中「確度０．９」等）が表示される。

また、分析難易度根拠８１２の表示領域の確度の下には、共通データモデル６０とデータソースのカラムの対応付けを決定する確定ボタン８１３が表示される。分析支援サーバ１の利用者は、共通データモデル６０のカラムとデータソースのカラムの対応付けが妥当であれば当該カラムのマッピング確度は１．０（１００％）に変更される。

図１０のステップＳ５では、分析支援プログラム１０の分析推薦部１５が、結果確認画面８１の終了操作を受け付けたか否かを判定する。分析支援サーバ１の利用者が結果確認画面８１に対してウィンドウを閉じる操作が行った場合には処理を終了する。分析推薦部１５は、処理を終了する際に、推薦結果ファイル３７に分析の推薦結果を格納する。一方、終了操作がなかった場合にはステップＳ６へ進む。

ステップＳ６では、分析推薦部１５が結果確認画面８１において利用者が操作するマウス９２が分析一覧８１１の行を選択したか否かを判定する。分析一覧８１１の行を選択した場合にはステップＳ７へ進み、そうでない場合にはステップＳ５戻ってマウス９２やキーボード９１の操作を待つ。

ステップＳ７では、分析推薦部１５が、難易度を算出した根拠となる共通データモデル６０のカラムとデータソースのカラムのマッピング確度をカラムマッピング確度管理テーブル３５から取得して、結果確認画面８１の分析難易度根拠８１２に表示する。

次に、ステップＳ８では、分析推薦部１５が、分析難易度根拠８１２において利用者が操作するマウス９２で確定ボタン８１３をクリックしたか否かを判定する。確定ボタン８１３を操作した場合にはステップＳ９へ進み、そうでない場合にはステップＳ３に戻って上記処理を繰り返す。

ステップＳ９では、分析推薦部１５が、確定ボタン８１３で選択されたデータソースのカラムと共通データモデル６０のカラムのマッピング確度３５７を１．０に設定し、カラムマッピング確度管理テーブル３５の該当するエントリを更新する。

分析推薦部１５は、カラムマッピング確度管理テーブル３５を更新した後に、ステップＳ３に戻って難易度３６４を再計算して上記処理を繰り返す。

以上の処理によって、分析支援サーバ１は、新たな分析対象データをデータソースカタログ３２に設定してマッピング確度の算出と、難易度の算出を行うことで、どのような分析が容易に実施できるのかを結果確認画面８１で知ることができる。

これにより、分析対象データを共通データモデル６０に変換する際のマッピングの難易度に基づいて、容易に実施可能な分析の提案や、分析対象データに適用する分析ソフトウェアを提案することが可能となって、分析の工数や分析にかかる労力を低減できる。

また、新たな分析対象データについて、カラムマッピング確度管理テーブル３５のマッピングが妥当であれば、結果確認画面８１において利用者が確定ボタン８１３を操作することで、マッピング確度３５７を１．０（１００％）に設定してカラムマッピング確度管理テーブル３５へフィードバックすることができる。

また、カラムマッピング確度管理テーブル３５へフィードバックした後に、分析支援サーバ１でマッピング確度３５７及び難易度３６４を再計算することで、新たな分析一覧８１１を表示することができる。

以上のように、分析一覧８１１や分析難易度根拠８１２の表示によって、分析支援サーバ１の利用者は、分析の前処理に要する労力などを難易度として把握することができる。また、データソースから共通データモデル６０への変換で手間のかかるカラムがどの程度存在するかを把握できる。

このように、本実施例１によれば、分析処理の前処理となるカラムマッピングの作業量の大小を示す指標として難易度を算出し、データソースとなる分析対象データを評価することができる。

これにより、分析支援サーバ１は、膨大なデータや多種のテーブルに対する分析をどのような分析処理から始めれば良いか、あるいは、どのような分析処理が実現可能であるかを、過去の分析で使用した分析ソフトウェアの中から提案することができる。また、過去に使用した分析ソフトウェアを利用することで、計算機資源を有効に利用して分析処理のリードタイムを大幅に短縮できる。

なお、上記実施例１では、共通データモデル６０や各テーブルをデータレイクサーバ２に格納した例を示したが、これらのデータを分析支援サーバ１に格納するようにしても良い。

図１２〜図２６は、本発明の実施例２を示す。実施例２では、ＥＴＬ（Extract、Transform、Load）カタログと、データソースの品質を考慮してカラムマッピング確度及び難易度を算出し、作業効率の良い順序で分析を提案する例を示す。

本実施例２では、前記実施例１の構成に分析プロジェクト管理サーバ３０５と、ＥＴＬカタログ３８と、ＥＴＬカラムマッピング確度管理テーブル３９と、データ品質管理テーブル４１と、スキルセット実績４２と、ＥＴＬ処理部７０を加えたものである。その他の構成は前記実施例１と同様である。

図１２Ａは、データ分析支援システムの一例を示すブロック図である。本実施例２では、データレイクサーバ２にＥＴＬ処理部７０を追加し、分析プロジェクト管理サーバ３０５を追加し、図１３で示すように、データレイクサーバ２のストレージ２０に保持するデータを追加した。ＥＴＬ処理部７０は、設備アラート単位変換７１と、生産計画期間変換７２と、生産計画設備名分割７３を含み、分析支援プログラム１０が必要に応じて読み出して、分析支援サーバ１で実行させる。

図１３は、分析支援プログラム１０の機能要素の一例を示すブロック図である。本実施例２では、前記実施例１でしましたストレージ２０に、ＥＴＬカタログ３８と、ＥＴＬカラムマッピング確度管理テーブル３９と、データ品質管理テーブル４１と、スキルセット実績４２を追加したものである。

また、分析支援プログラム１０は、カラムマッピング確度算出部１２にＥＴＬカラムマッピング確度算出部１２１を追加し、分析難易度算出部１３にデータ品質解析部１３１と、データ品質分析難易度補正部１３２を追加し、分析推薦部１５に分析スケジューリング部１５１を追加し、連携インタフェース１８を追加した。

連携インタフェース１８は、分析プロジェクト管理サーバ３０５に分析プロジェクトの内容をスプレッドシートの形式で出力する。分析プロジェクト管理サーバ３０５は、分析タスク取り込み部３０６でスプレッドシート形式の分析プロジェクトを受け付けて、分析プロジェクトの管理を行う。

本実施例２では、前記実施例１と同様にカラムマッピング確度算出部１２でデータソースカタログ３２と共通データモデルカタログ３３からカラムマッピング確度管理テーブル３５を算出するのに加えて、ＥＴＬカラムマッピング確度算出部１２１がデータソースカタログ３２と、ＥＴＬカタログ３８からＥＴＬカラムマッピング確度管理テーブル３９を生成する。

そして、データソースのカラムについて、カラムマッピング確度管理テーブル３５とＥＴＬカラムマッピング確度管理テーブル３９のうちマッピング確度が高い方を難易度の算出に利用する。

また、分析難易度算出部１３では、データ品質解析部１３１がデータソースカタログ３２の分析対象データを読み込んで、分析対象データの品質について解析を実行してデータ品質４１のテーブルを生成する。

データ品質分析難易度補正部１３２は、分析対象データの品質に基づいてマッピング確度を補正する。その他の構成については、前記実施例１と同様である。

図１４は、分析カタログ３１の一例を示す図である。図１４は、前記実施例１の図４に対して、重要度３１４と、過去効果３１５と、標準所要時間３１６と、必要スキル３１７と、納期３１８が設定されている点が相違する。重要度３１４〜納期３１８の各カラムは分析支援サーバ１の利用者や管理者が設定することができる。

図１５は、ＥＴＬカタログ３８の一例を示す図である。ＥＴＬカタログ３８は、ＥＴＬ処理部７０の要素の定義を予め設定したテーブルで、本実施例２では、設備アラート単位変換７１と、生産計画期間変換７２と、生産計画設備名分割７３を要素とした例を示す。ＥＴＬカタログ３８は、分析対象データに対応して、抽出するデータの定義と、データの変換の定義と、変換したデータを格納する共通データモデル６０の定義が予め設定される。

ＥＴＬカタログ３８は、ＥＴＬＩＤ３８１と、ＥＴＬ名３８２と、入力テーブル名３８３と、入力カラム名３８４と、出力テーブル名３８５と、出力カラム名３８６をひとつのエントリに含む。

ＥＴＬＩＤ３８１には、ＥＴＬを特定するための識別子が格納される。ＥＴＬ名３８２には、ＥＴＬ（ＥＴＬ処理部７０の各要素）の名称が格納される。入力テーブル名３８３には、データソースとなるデータ収集サーバ４１０、４３０のテーブルの名称が格納される。入力カラム名３８４には、データ収集サーバ４１０、４３０のテーブル内のカラムの名称が格納される。

出力テーブル名３８５には、共通データモデル６０のテーブルの名称が格納される。出力カラム名３８６には、共通データモデル６０のテーブル内のカラムの名称が格納される。

図示の例では、ＥＴＬＩＤ３８１＝「３」のＥＴＬ名３８２＝「生産計画期間変換」では入力カラム名３８４＝「開始時刻」と、ＥＴＬＩＤ３８１＝「４」の入力カラム名３８４＝「終了時刻」の２つの値が、共通データモデル６０の生産計画６２の出力カラム名３８６＝「日時」のひとつの値に変換されることを示す。なお、変換の具体的な内容については、ＥＴＬ処理部７０の各要素に設定しておく。

ＥＴＬカタログ３８は、１以上の入力カラム名３８４と出力カラム名３８６を対応付けて、値やデータ形式の変換の定義を設定することで、単純なマッピングでは変換済みデータのカラムへ割り当てできないカラムを、データソースとして利用することが可能となる。

図１２Ｂは、ＥＴＬ処理部７０の一例として、ＥＴＬ名３８２＝「生産計画期間変換」＝生産計画期間変換７２で行われる処理の一例を示す。分析支援サーバ１は、生産計画期間変換７２を読み込んで実行させる。生産計画期間変換７２は、入力テーブル３８３で指定された生産計画４４３から入力カラム名３８４で指定された「開始時刻」と「終了時刻
」を読み込む（Ｓ７２１）。この例では、工場Ｂの生産計画４４３を、新たに追加するデータソースとしている。

生産計画期間変換７２は、読み込んだデータソースに対して、所定の変換を実行する（Ｓ７２２）。この例では、出力カラム名３８６＝「日時」＝「終了時刻」−「開示時刻」として演算する。そして、生産計画期間変換７２は出力テーブル名３８５で指定された共通データモデル６０の生産計画６２に変換したデータを格納する（Ｓ７２３）。なお、ＥＴＬ処理部７０の設備アラート単位変換７１と、生産計画設備名分割７３についても同様にデータソースを変換して共通データモデル６０に格納する。

図１６は、ＥＴＬカラムマッピング確度管理テーブル３９の一例を示す図である。ＥＴＬカラムマッピング確度管理テーブル３９は、ＥＴＬカラムマッピング確度算出部１２１によって生成されるテーブルである。

ＥＴＬカラムマッピング確度管理テーブル３９は、ＥＴＬマッピングＩＤ３９１と、マップ元テーブル名３９２と、マップ元カラム名３９３と、マップ先ＥＴＬ名３９４と、マップ先カラム名３９５と、マッピング確度３９６をひとつのエントリに含む。

ＥＴＬマッピングＩＤ３９１には、マッピング確度のエントリを特定するための識別子が格納される。マップ元テーブル名３９２には、データソースのデータ収集サーバ４１０、４３０のテーブル名が格納される。マップ元カラム名３９３には、データソースのデータ収集サーバ４１０、４３０のテーブル内のカラム名が格納される。

マップ先ＥＴＬ名３９４には、ＥＴＬカタログ３８のＥＴＬ名３８２に対応する名称が格納される。マップ先カラム名３９５には、ＥＴＬカタログ３８の出力カラム名３８６に対応する名称が格納される。マッピング確度３９６には、ＥＴＬカラムマッピング確度算出部１２１が算出したＥＴＬのマッピング確度が格納される。

図示の例では、ＥＴＬマッピングＩＤ３９１＝「１」では、マップ元テーブル名３９２がデータ収集サーバ４３０の設備アラート４４４について、マップ元カラム名３９３の「日付時刻」の値を時間単位に変換することで、ＥＴＬ処理部７０の設備アラート単位変換７１のマップ先カラム名３９５＝「日時（時間単位）」にマップすることができ、が格納され、「日付時刻」と「日時」のマッピング確度３９６＝「０．９」であることを示している。

図１７は、データ品質管理テーブル４１の一例を示す図である。データ品質管理テーブル４１は、分析難易度算出部１３のデータ品質解析部１３１が分析対象データを含むデータソースカタログ３２を参照して生成するテーブルである。データ品質管理テーブル４１は、データソースのカラム毎にデータの品質を格納する。

データ品質管理テーブル４１は、カラムＩＤ４１１と、入力データソース名４１２と、テーブル名４１３と、カラム名４１４と、Ｎｕｌｌ多数４１５と、重複４１６と、外れ値４１７と、文字数ずれ４１８と、総合スコア４１９をひとつのエントリに含む。

カラムＩＤ４１１には、データソースのカラムを特定するための識別子が格納される。入力データソース名４１２には、データソースとなるデータ収集サーバを特定する名称が格納される。テーブル名４１３には、データソースとなるデータ収集サーバのテーブルの名称が格納される。カラム名４１４には、データソースとなるテーブルに含まれるカラムの名称が格納される。

Ｎｕｌｌ多数４１５には、当該カラムでＮｕｌｌ値を含むレコードの比率が格納される。重複４１６には、当該カラムで値が重複するレコードの比率が格納される。外れ値４１７には、当該カラムで値が所定の閾値を超えたレコードの比率が格納される。文字数ずれ４１８には、当該カラムで文字数がずれたレコードの比率が格納される。総合スコア４１９には、Ｎｕｌｌ多数４１５と重複４１６と外れ値４１７と文字数ずれ４１８の値に基づいてデータソースの品質として算出された総合スコア４１９が格納される。

本実施例２では、データの品質を示す総合スコア＝１−（Ｎｕｌｌ多数４１５＋重複４１６＋外れ値４１７＋文字数ずれ４１８）として算出する例を示す。なお、総合スコア４１９の算出方法は、これに限定されるものではなく、データ品質管理テーブル４１でデータソースの品質を示すＮｕｌｌ多数４１５〜文字数ずれ４１８の各フィールドの値の乗算値や中央値等を用いてもよい。

本実施例２では、総合スコア４１９の値が１．０に近いほど、そのまま分析が可能な高品質なデータであり、逆に０に近づく、データソースにクレンジングなどの前処理が必要な低品質のデータである。

すなわち、総合スコア４１９が示す品質は、データソースに対するクレンジングに要する処理量（時間又は労力）を示す指標である。なお、本実施例２のクレンジングは、例えば、データソースから重複や誤記、表記の揺れなどを検出して、削除や修正、正規化などを実施することを示す。

本実施例２では、分析対象データについて分析を行う際の前処理として、分析対象データのカラムを共通データモデル６０のカラムにマッピングする処理（カラムマッピング処理）と、分析対象データの内容についてクレンジングを行う処理の２つの処理を含む例を示す。なお、カラムマッピング処理には、ＥＴＬカタログ３８に基づいて、マップ元カラム名３５４の値を、マップ先カラム名３５６の値に変換する処理を含むものとする。

なお、分析支援プログラム１０は、データソースカタログ３２を受け付けると、カラムマッピング確度算出部１２がマッピング確度を算出する前に、分析難易度算出部１３のデータ品質解析部１３１で、当該データ品質管理テーブル４１を生成する。

そして、後述するように、データ品質管理テーブル４１の総合スコア４１９に基づいて、マッピング確度（３５７、３８６）が補正される。

図１８は、分析難易度管理テーブル３６の一例を示す図である。分析難易度管理テーブル３６は、新たな分析対象データについて分析支援プログラム１０の分析難易度算出部１３が生成するテーブルである。本実施例２の分析難易度管理テーブル３６は、前記実施例１の図９に示した分析難易度管理テーブル３６に、標準所要時間３６５と、補正後所要時間３６６を追加したもので、その他の構成については前記実施例１と同様である。

分析難易度管理テーブル３６は、分析ＩＤ３６１と、分析名３６２と、アプリ／クエリ３６３と、難易度３６４と、標準所要時間３６５と、補正後所要時間３６６をひとつのエントリに含む。

標準所要時間３６５は、当該分析が完了するまでに要する標準的な時間が格納される。本実施例２では、分析カタログ３１のＩＤ３１１毎に予め設定された標準所要時間３１６を、分析難易度算出部１３が当該標準所要時間３６５に設定した例を示す。補正後所要時間３６６には、データ品質分析難易度補正部１３２が、難易度３６４に応じて標準所要時間３６５を補正した値が格納される。

図１３のスキルセット実績４２には、図示はしないが、分析作業を実施する人員と、各人員のスキルが予め設定される。なお、人員のスキルは分析カタログ３１の必要スキル３１７に対応する値が格納される。

図１９は、分析支援プログラム１０で行われる処理の一例を示すフローチャートである。この処理は、前記実施例１と同様に、データソースカタログ３２を受け付けてから開始される。なお、図１９では、必要カラム管理テーブル３４が既に生成されていることを前提とする。また、上述のように、分析難易度算出部１３のデータ品質解析部１３１によってデータ品質管理テーブル４１も既に生成されている。

分析支援プログラム１０のカラムマッピング確度算出部１２は、データソースカタログ３２および共通データモデルカタログ３３を読み込んで、それぞれのマッピング確度３５７を算出し、カラムマッピング確度管理テーブル３５に書き込む（Ｓ１１）。この処理は、前記実施例１の図１０に示したステップＳ２と同様であり、データソースのカラムと共通データモデル６０のカラムのマッピング確度が算出され、図８に示したカラムマッピング確度管理テーブル３５が生成される。

次に、分析支援プログラム１０では、ＥＴＬカラムマッピング確度算出部１２１が、データソースカタログ３２およびＥＴＬカタログ３８を読み込んで、マッピング確度を算出し、ＥＴＬカラムマッピング確度管理テーブル３９に書き込む（Ｓ１２）。

ＥＴＬカラムマッピング確度算出部１２１は、データソースカタログ３２のテーブル名３２３とカラム名３２４を取得して、ＥＴＬカタログ３８の入力テーブル名３８３と入力カラム名３８４を検索し、一致するエントリのＥＴＬ名３８２と出力カラム名３８６を取得する。

そして、ＥＴＬカラムマッピング確度算出部１２１は、入力カラム名３８４と出力カラム名３８６のマッピング確度を算出する。ＥＴＬカラムマッピング確度算出部１２１は、ＥＴＬカラムマッピング確度管理テーブル３９に新たなエントリを生成してからユニークなＥＴＬマッピングＩＤ３９１を付与する。

ＥＴＬカラムマッピング確度算出部１２１は、算出したマッピング確度をマッピング確度３９６に格納し、マップ元テーブル名３９２に入力テーブル名３８３を格納し、マップ元カラム名３９３に入力カラム名３８４を格納し、マップ先ＥＴＬ名３９４にＥＴＬ名３８２を格納し、マップ先カラム名３９５に出力カラム名３８６を格納して、ＥＴＬカラムマッピング確度管理テーブル３９を生成する。

ＥＴＬカラムマッピング確度算出部１２１は、上記処理をデータソースカタログ３２のすべてのエントリについて実行する。これにより、単純なマッピングでは利用できないデータソースのカラムを、マップ先カラム名３９５の単位やデータ形式に変換することが可能となる。ＥＴＬカタログ３８では、１以上のデータソースのカラムを１つのマップ先カラム名３５６に集約したり、ひとつのデータソースのカラムを複数のマップ先カラム名３５６に分割する定義を設定することができる。

次に、分析支援プログラム１０の分析難易度算出部１３は、分析カタログ３１の各分析について、データソースカタログ３２のデータで分析を行う場合の難易度をそれぞれ算出する（Ｓ１３）。

分析難易度算出部１３は、カラムマッピング確度管理テーブル３５のマッピング確度３５７と、ＥＴＬカラムマッピング確度管理テーブル３９のマッピング確度３９６から値の大きい方のマッピング確度を選択する。なお、分析難易度算出部１３は、カラムマッピング確度管理テーブル３５のマップ元カラム名３５４が、ＥＴＬカタログ３８の入力カラム名３８４に該当するエントリが存在しない場合は、カラムマッピング確度管理テーブル３５の値を選択する。

そして、分析難易度算出部１３のデータ品質分析難易度補正部１３２は、選択されたマッピング確度をデータ品質管理テーブル４１の総合スコア４１９で補正してから、分析対象データに対する分析処理の難易度を分析ＩＤ毎に算出する。

図２０は、上記ステップＳ１３で行われる難易度の算出処理の一例を示すフローチャートである。まず、ステップＳ３１では、分析難易度算出部１３が、データ品質管理テーブル４１を読み込んで、カラム名４１４毎の総合スコア４１９を取得する。

次に、ステップＳ３２では、分析難易度算出部１３が、カラムマッピング確度管理テーブル３５と、ＥＴＬカラムマッピング確度管理テーブル３９を読み込んで、データソースとＥＴＬのカラムの比較を行う。

すなわち、分析難易度算出部１３は、カラムマッピング確度管理テーブル３５のマップ元テーブル名３５３とマップ元カラム名３５４が、ＥＴＬカラムマッピング確度管理テーブル３９のマップ元テーブル名３９２とマップ元カラム名３９３と一致する場合、マッピング確度３５７とＥＴＬカラムマッピング確度管理テーブル３９のマッピング確度３９６のうち、値が大きい方を当該マップ元カラム名のマッピング確度として選択する。

次に、ステップＳ３３では、分析難易度算出部１３が、上記ステップＳ３２で選択したカラム毎のマッピング確度を分析ＩＤ３１１毎に取得し、ステップＳ３１で取得したカラム名４１４毎の総合スコア４１９でマッピング確度を補正してから難易度を算出する。

分析ＩＤ３１１に含まれるカラムの番号をｎ、選択したマッピング確度をＳ、データ品質管理テーブル４１のスコアをＴとすると、難易度Ｄは、
Ｄ＝（Ｓ１×Ｔ１）×（Ｓ２×Ｔ２）………×（Ｓｎ×Ｔｎ）
で表される。

選択したマッピング確度Ｓにデータ品質の総合スコアＴを乗じて補正することで、データの品質が低いほど難易度Ｄの値は低くなり、データソースの前処理（クレンジング）に時間や労力を要することになる。

次に、ステップＳ３４では、分析難易度算出部１３のデータ品質分析難易度補正部１３２が、上記ステップＳ３３で算出された難易度に基づいて、分析カタログ３１の標準所要時間３１６の値を後述するように補正する。

次に、ステップＳ３５では、分析難易度算出部１３が分析難易度管理テーブル３６を生成する。すなわち、分析難易度算出部１３は、分析難易度管理テーブル３６に新たなエントリを追加して、分析カタログ３１の分析ＩＤ３１１と分析名３１２とアプリケーション／クエリ３１３を、分析ＩＤ３６１、分析名３６２とアプリケーション／クエリ３６３に格納する。

そして、分析難易度算出部１３はステップＳ３３で算出された難易度を難易度３６４に格納し、分析カタログ３１の標準所要時間３１６を標準所要時間３６５に格納し、ステップＳ３４で補正された標準所要時間を補正後所要時間３６６に格納して処理を終了する。

図２１は、難易度の算出を説明する分析難易度根拠８１２の表示領域の一例を示す図である。図２１では、分析ＩＤ３１１＝「４」の「設備ごとのアラート回数集計」について分析対象データの難易度３６４を算出する例を示す。

カラムマッピング確度算出部１２は、必要カラム管理テーブル３４から、共通データモデル６０の設備アラート６４からカラム名３４４＝「設備ＩＤ」と「日時」を取得する。また、カラムマッピング確度算出部１２は、データソースカタログ３２からテーブル名３２３＝「設備アラート」からカラム名３２４＝「設備ＩＤ」と「日付時刻」を取得する。

カラムマッピング確度算出部１２は、共通データモデル６０とデータソースのマッピング確度を算出し、図８で示したように、「設備ＩＤ」のマッピング確度＝０．９５と「日付時刻」と「日時」のマッピング確度＝０．９を得る。

ＥＴＬカラムマッピング確度算出部１２１は、ＥＴＬカタログ３８から入力カラム名３８４に「日付時刻」を含む「設備アラート日時変換」を選択し、出力カラム名３８６＝「日時（時間単位）」を取得してマッピング確度＝０．９を算出する。

カラムマッピング確度算出部１２は、ＥＴＬによるマッピング確度と、共通データモデル６０によるマッピング確度のうち値の大きい方を取得する。この結果、選択されたマッピング確度は、「設備ＩＤ」＝０．９５、「日時」＝０．９となる。

次に、分析難易度算出部１３ではデータ品質分析難易度補正部１３２が、データ品質管理テーブル４１から総合スコア４１９を読み込んで、「設備ＩＤ」＝０．９８と「日付時刻」＝１．０を取得する。

データ品質分析難易度補正部１３２は、マッピング確度を総合スコア４１９で補正して難易度３６４を算出する。すなわち、難易度＝（０．９５×０．９８）×（１．０×０．９）＝０．８３７９となる。

図２２は、標準所要時間の補正処理の一例を示すフローチャートである。この処理は、分析難易度算出部１３が上記ステップＳ３４で行う。

ステップＳ４１で分析難易度算出部１３は、カラムマッピング確度管理テーブル３５を読み込んで、難易度が０．８を超えていれば、ステップＳ４７へ進んで、標準所要時間３１６をそのまま補正後所要時間３６６に格納する。

ステップＳ４２では分析難易度算出部１３が、難易度が０．８以下で、かつ難易度が０．６以上であれば、ステップＳ４６へ進んで補正係数を１．２とし、標準所要時間３１６に１．２を乗じた値を補正後所要時間３６６に格納する。

ステップＳ４３では分析難易度算出部１３が０．６未満で、かつ難易度が０．４以上であれば、ステップＳ４５へ進んで補正係数を１．５とし、標準所要時間３１６に１．５を乗じた値を補正後所要時間３６６に格納する。

ステップＳ４４では分析難易度算出部１３が、難易度が０．４未満であるので補正係数を２とし、標準所要時間３１６に２を乗じた値を補正後所要時間３６６に格納する。

上記処理によって、共通データモデル６０とデータソースのマッピング確度と、ＥＴＬカタログ３８とデータソースのマッピング確度のうち大きい方が選択されて、データ品質の総合スコア４１９で補正されたマッピング確度の乗算値から当該分析ＩＤをデータソースで実施する場合の難易度３６４が算出される。

これにより、データ品質の総合スコア４１９が高いほど難易度３６４の値は大きくなって、データソースの前処理（クレンジング）に要する労力が低減される。逆に、データ品質の総合スコア４１９が低いほど難易度３６４の値は小さくなって、データソースの前処理に要する労力が増大する。

また、標準所要時間３１６は難易度３６４に応じて補正係数が設定され、難易度３６４の値が低いほど補正係数が大きくなるように補正される。これにより、難易度３６４の値が小さいほど、データのクレンジングなどの前処理に要する時間又は労力が増大するため、所要時間も増大するように補正される。

次に、図１９のステップＳ１４では、分析支援プログラム１０の分析推薦部１５が、分析難易度管理テーブル３６で難易度の大きい順にソートしてから、後述するように納期３１８を考慮して上位の分析処理から順に推薦対象として選択する。

ステップＳ１５では、分析推薦部１５が、上記ステップＳ１４で選択された分析処理（分析名）を、ディスプレイ８に結果確認画面８１として表示する。ステップＳ１６では、分析推薦部１５が、結果確認画面８１でデータソースから共通データモデルへのマッピングが確定されたか否かを判定する。確定ボタン８１３がクリックされて、データソースから共通データモデルへのマッピングが確定した場合にはステップＳ１７へ進み、確定していない場合にはステップＳ１８へ進む。

ステップＳ１７では、分析推薦部１５のマッピング確定部１７が、確定ボタン８１３がクリックされたマッピングに対応するマッピング確度３５７を１．０に設定してカラムマッピング確度管理テーブル３５を更新する。その後、ステップＳ１３へ戻って難易度３６４の再計算が実行される。

ステップＳ１８では、分析推薦部１５が結果確認画面８１の表示の終了を検出すると、処理を終了し、そうでない場合にはステップＳ１６へ戻って確定ボタン８１３の操作を受け付ける。

上記処理によって、結果確認画面８１には難易度３６４の値が高い分析から順に表示される。すなわち、前処理に要する時間や労力の少ない分析が上位に表示されるので、最上位の分析から実施していくことで、データの分析に要する工数を低減することが可能となる。

図２３は、分析推薦部１５で行われる推薦処理の一例を示すフローチャートである。この処理は図１９のステップＳ１４で行われる処理である。ステップＳ５１では、分析推薦部１５が、分析難易度管理テーブル３６のエントリを難易度３６４の値が大きい順にソートする。

次に、ステップＳ５２では、分析推薦部１５の分析スケジューリング部１５１が、分析カタログ３１とスキルセット実績４２と分析難易度管理テーブル３６を参照して、フォワードスケジューリングにより分析に対して人員や分析ソフトウェアを割り当てる。

分析スケジューリング部１５１は、難易度３６４の値が大きい順に分析ＩＤ３６を取得して、分析カタログ３１から必要スキル３１７と納期３１８を取得する。分析スケジューリング部１５１は、分析難易度管理テーブル３６から分析ＩＤ３６１に対応する補正後所要時間３６６を取得する。

分析スケジューリング部１５１は、スキルセット実績４２から必要スキル３１７を満たす人員を選択し、補正後所要時間３６６と納期３１８を満たすようにフォワードスケジューリングを実施する。なお、フォワードスケジューリングについては公知または周知の技術を適用すれば良い。

次に、ステップＳ５３では、分析スケジューリング部１５１が、スケジューリングの結果を参照して、分析難易度管理テーブル３６の全ての分析が納期３１８以内に処理を完了しているか否かを判定する。全ての分析が納期３１８以内であれば処理を終了し、納期３１８を超える分析があれば、ステップＳ５４へ進む。

ステップＳ５４では、分析スケジューリング部１５１が、スケジューリングの再計算の回数（試行の回数）が所定の閾値以上になったか否かを判定する。再計算の回数が所定の閾値以上であれば、ステップＳ５５へ進んで、分析スケジューリング部１５１は納期が遅延するエラーメッセージを出力する。

一方、再計算の回数が閾値未満であれば、ステップＳ５６へ進んで、スケジューリング部１５１が納期３１８を超えた分析ＩＤ３６１の順位を１つ上げて、推薦する順位を変更し、ステップＳ５２へ戻って上記処理を繰り返す。

上記処理によって、分析難易度管理テーブル３６の分析処理は、難易度３６４の値が大きい順で、かつ、納期３１８を満たすようにスケジューリングされる。

図２５は、分析推薦部１５が生成する結果確認画面８１の一例を示す図である。結果確認画面８１は、図中上部を分析一覧８１１の表示領域とし、図中下部を分析難易度根拠８１２の表示領域とする。なお、分析難易度根拠８１２は、分析一覧８１１の一行が選択された後に表示される。

分析一覧８１１には、チェックボックスと、分析ＩＤと、分析名と、アプリケーションまたはクエリの種別と、難易度と、補正後所要時間と、終了予定及び完了フラグをひとつの行に含むリストで構成され、分析の内容が表示される。なお、終了予定は、スケジューリングの結果に基づいて決定され、その他の項目は分析難易度管理テーブル３６の値、または分析カタログ３１の値が設定される。

分析一覧８１１の右上には、エクスポートボタン８１５と、再スケジュールボタン８１６が配置される。チェックボックスを選択してから、エクスポートボタン８１５をクリックすると、チェックボックスを選択した行の分析内容が連携インタフェース１８を介して所定のファイル形式（例えば、ＣＳＶ形式）で出力される。

また、チェックボックスを選択してから再スケジュールボタン８１６をクリックすることで、選択された行について、再度スケジューリングを実施することができる。

なお、分析難易度根拠８１２は、前記実施例１の構成に加えて、ＥＴＬカタログ名８１４が追加される。分析難易度算出部１３がＥＴＬカタログ３８のマッピング確度を選択した場合には、ＥＴＬカタログ名８１４が表示される。

図示の分析難易度根拠８１２の最下段には、データソースのカラムのデータ品質スコアが表示された例を示す。データ品質スコアは、０〜１の値の範囲で、１に近づくにつれて重複や欠損のないデータであることを示す。データ品質スコアの値が大きいほど、分析の前処理に要する労力が低いことを示す。

図２４は、分析推薦部１５で行われる結果確認画面処理の一例を示すフローチャートである。この処理は図１９のステップＳ１５で行われる処理である。

ステップＳ６１では、分析推薦部１５が、分析難易度管理テーブル３６を読み込んで、結果確認画面８１を生成し、分析一覧８１１に上記図２３でスケジューリングした順序で分析の内容を表示する。

分析一覧８１１には、チェックボックスと、分析ＩＤと、分析名と、アプリケーションまたはクエリと、難易度と、補正後所要時間と、終了予定（納期３１８）及び完了フラグをひとつの行に含むリストとして分析の内容が表示される。

ステップＳ６２では、分析推薦部１５が、分析支援サーバ１の利用者がマウス９２を操作してひとつの行を選択したか否かを判定する。行が選択された場合には、ステップＳ６３へ進み、そうでない場合にはステップＳ６４へ進む。

ステップＳ６３では、分析推薦部１５が、分析一覧８１１で選択された行のマッピング確度とマップ元とマップ先の情報を、カラムマッピング確度管理テーブル３５またはＥＴＬカラムマッピング確度管理テーブル３９から取得して、分析難易度根拠８１２の表示領域に出力する。

ステップＳ６４では、分析推薦部１５が、分析支援サーバ１の利用者がマウス９２を操作してエクスポートボタン８１５を選択したか否かを判定する。エクスポートボタン８１５が選択された場合には、ステップＳ６５へ進み、そうでない場合にはステップＳ６６へ進む。

ステップＳ６５では、分析推薦部１５が、分析一覧８１１のチェックボックスで選択された分析の内容が、所定のファイル形式で出力される。

ステップＳ６６では、分析推薦部１５が、分析支援サーバ１の利用者がマウス９２を操作して再スケジュールボタン８１６を選択したか否かを判定する。再スケジュールボタン８１６が選択された場合には、ステップＳ６７へ進み、そうでない場合にはステップＳ６８へ進む。

ステップＳ６７では、分析推薦部１５の分析スケジューリング部１５１が、分析一覧８１１のチェックボックスで選択された分析の内容について、再度スケジューリングを実施する。その後、ステップＳ６１へ戻って、分析一覧８１１の内容を更新する。

ステップＳ６８では、分析推薦部１５が、分析支援サーバ１の利用者がマウス９２を操作して確定ボタン８１３を選択したか否かを判定する。確定ボタン８１３が選択された場合にはステップＳ６９へ進み、そうでない場合にはステップＳ７０へ進む。

ステップＳ６９では、図１９のステップＳ１３へ戻って、難易度３６４の再計算を実施する。

ステップＳ７０では、分析推薦部１５が、分析支援サーバ１の利用者がマウス９２を操作して結果確認画面８１のクローズボックスを選択したか否かを判定する。クローズボックスが選択された場合には処理を終了し、そうでない場合にはステップＳ６１へ戻って上記処理を繰り返す。

以上の処理によって、結果確認画面８１で分析難易度根拠８１２の表示や、再スケジューリングや、マッピング確度の更新と難易度の再計算などを実施することができる。

このように、本実施例２では、ＥＴＬカタログ３８と、データソースの品質を考慮してカラムマッピング確度及び難易度を算出し、作業効率の良い順序で分析ソフトウェアを提案することができる。

図２６、図２７は、実施例３の一例を示す。本実施例３では、前記実施例２の構成に加えて、イベントログをデータソースとするデータ収集サーバ４５０、４６０を追加し、分析支援プログラム１０のカラムマッピング確度算出部１２にイベントログ−テーブル変換部を追加し、ストレージ２０にアラートコードマスタ４３を追加した例を示す。なお、その他の構成については、前記実施例２と同様である。

図２６は、データ分析支援システムの一例を示すブロック図である。地区Ａのデータ収集サーバ４５０と、地区Ｂのデータ収集サーバ４６０は、交通関係のデータを収集する。地区Ａのデータ収集サーバ４５０は、車両データ４５１と、運行データ４５２と、保線データ４５３と、設備保守実績４５４と、気象データ４５５と、設備アラート４５６を収集し、データソースとしてサーバ群３００へ提供する。

同様に地区Ｂのデータ収集サーバ４６０は、車両データ４６１と、運行データ４６２と、設備保守実績４６３と、設備アラート４６４を収集し、データソースとしてサーバ群３００へ提供する。

データレイクサーバ２のストレージ２０には、共通データモデル６０に車両データ６１Ａと、運行データ６２Ａと、保守データ６３Ａと、設備アラート６４Ａが予め設定されている。

図２７は、分析支援プログラムの機能要素の一例を示すブロック図である。分析支援プログラム１０のカラムマッピング確度算出部１２には、データソースカタログ３２とアラートコードマスタ４３に基づいて、イベントログをテーブル形式に変換するイベントログ−テーブル変換部１２２が追加される。その他の構成については、前記実施例２と同様である。

図２８は、イベントログ形式の設備アラート４５６、４６４の一例を示す図である。設備アラート４５６、４６４は、一行に日付、時刻、重要度、アラートＩＤ、設備名、車両番号、メッセージを含むデータで構成される。

図２９は、アラートコードマスタ４３の一例を示す図である。アラートコードマスタ４３は、アラートＩＤ４３１と、メッセージ４３２をひとつのエントリに含む。メッセージ４３２は、日付、時刻、重要度、アラートＩＤ、設備名、車両番号、メッセージを含む。

図３０は、テーブル形式に変換した設備アラート４５６Ｔの一例を示す図である。設備アラート４５６Ｔは、イベントログ形式の設備アラート４５６を分析支援プログラム１０のイベントログ−テーブル変換部１２２でテーブル形式に変換した結果である。

設備アラート４５６Ｔは、日時４５６１と、重要度４５６２と、アラートＩＤ４５６３と、設備名４５６４と、車両番号４５６５と、メッセージ４５６６をひとつのエントリに含む。

イベントログ−テーブル変換部１２２がイベントログ形式のデータをテーブル形式へ変換することで、共通データモデル６０の設備アラート６４Ａを利用することが可能となる。

図３１は、分析推薦部１５が生成する過去実績確認画面８３の一例を示す図である。分析推薦部１５は、前記実施例２の図２５に示した分析難易度根拠８１２の表示領域で所定の操作（例えば、ダブルクリックなど）が行われると過去実績確認画面８３を出力する。

過去実績確認画面８３は、現在選択している分析のカラムマッピングを表示するウィンドウ８４と、過去の実績を表示するウィンドウ８５を含む。過去実績確認画面８３には、過去実績関係表示ボタン８３１と、前実績ボタン８３４と、次実績ボタン８３３が配置される。

過去実績関係表示ボタン８３１をクリックすることで、分析推薦部１５は、ウィンドウ８４の分析ＩＤで過去に表示した推薦結果を表示することができる。分析推薦部１５は、推薦結果ファイル３７を参照して、ウィンドウ８４の分析ＩＤの推薦結果を取得してウィンドウ８５を生成する。

前実績ボタン８３４をクリックすることで、分析推薦部１５は、ウィンドウ８４の分析ＩＤで過去に表示した推薦結果を過去に遡ることができる。次実績ボタン８３３をクリックすることで、分析推薦部１５は、ウィンドウ８４の分析ＩＤで過去から前回に表示した推薦結果まで遷移することができる。

ウィンドウ８４のマッピング確度の表示位置の近傍には、他候補ボタン８３２が配置される。他候補ボタン８３２をクリックすることで、分析推薦部１５は図３２に示す他候補提示画面８６を出力する。図３２は、分析推薦部１５が生成する他候補提示画面８６の一例を示す図である。

他候補提示画面８６は、カラムマッピング確度管理テーブル３５と、ＥＴＬカラムマッピング確度管理テーブル３９の内容と、各カラムマッピング確度が表示され、選択ボタンをクリックすることで、カラムマッピングの組み合わせを選択することが可能である。

図３３は、イベントログ−テーブル変換部１２２の処理の一例を示すフローチャートである。この処理は、カラムマッピング確度管理テーブル３５を生成する際に実行する。

まず、ステップＳ８１では、イベントログ−テーブル変換部１２２がアラートコードマスタ４３を読み込んでから、イベントログ形式の設備アラート４５６を読み込んで、テーブル形式の設備アラート４５６Ｔに変換する。

ステップＳ８２では、カラムマッピング確度算出部１２が、データソースカタログ３２と、共通データモデルカタログ３３を読み込んで上述のようにカラムマッピング確度を算出してカラムマッピング確度管理テーブル３５を生成する。

図３４は、分析推薦部１５が生成する結果確認画面８１の処理の一例を示すフローチャートである。この処理は、前記実施例２の図２４のフローチャートにステップＳ１０１〜Ｓ１０４を追加したもので、その他の構成は図２４と同様である。

ステップＳ６１〜Ｓ６７までは前記実施例２と同様である。ステップＳ６７の判定で、再スケジュールボタン８１６が選択されていない場合には、ステップＳ１０１へ進む。

ステップＳ１０１では、分析推薦部１５が、過去実績表示の要求を受け付けたか否かを判定する。過去実績表示の要求は、上述のように分析難易度根拠８１２の表示領域でダブルクリックなどを受け付けたときである。当該過去実績表示の要求を受け付けると、分析推薦部１５は、ステップＳ１０２へ進んで過去実績確認画面８３を表示する。

ステップＳ１０３では、分析推薦部１５が、過去実績確認画面８３で他候補ボタン８３２が選択されたか否かを判定する。他候補ボタン８３２が選択された場合には、ステップＳ１０４へ進んで分析推薦部１５が他候補提示画面８６を出力する。他候補ボタン８３２が選択されていない場合には、ステップＳ６８へ進んで前記実施例２と同様の処理を繰り返す。

以上のように、本実施例３では、イベントログ形式のデータも前記実施例１、２のテーブル形式と同様に扱うことができ、分析の難易度に応じた分析ソフトウェアの推薦を行うことが可能となる。また、結果確認画面８１では、過去の推薦結果や他の候補も参照することができ、分析処理の計画を円滑に推進することが可能となる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。

また、上記の各構成、機能、処理部、及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１分析支援サーバ
２データレイクサーバ
１０分析支援プログラム
１１必要カラム算出部
１２カラムマッピング確度算出部
１３分析難易度算出部
１４分析難易度再計算部
１５分析推薦部
２０ストレージ
３１分析カタログ
３２データソースカタログ
３３共通データモデルカタログ
３４必要カラム管理テーブル
３５カラムマッピング確度管理テーブル
３６分析難易度管理テーブル
３７推薦結果ファイル
３８ＥＴＬカタログ
３９ＥＴＬカラムマッピング確度管理テーブル
４０データ品質管理テーブル
６０共通データモデル
８１結果確認画面
１２１ＥＴＬカラムマッピング確度算出部
１３１データ品質解析部
１３２データ品質分析難易度補正部
１５１分析スケジューリング部
３００分析サーバ群
４１０、４３０データ収集サーバ

Claims

プロセッサとメモリを有する計算機が、分析対象データの評価を行う分析支援方法であって、
前記計算機が、前記分析対象データのカラムの定義を格納した第１のデータカタログと、分析処理を実行する分析ソフトウェアの入力データのカラムを定義した第２のデータカタログを読み込む第１のステップと、
前記計算機が、前記第１のデータカタログのカラムと前記第２のデータカタログのカラムの類似度をマッピング確度として算出する第２のステップと、
前記計算機が、前記分析ソフトウェアで使用する前記第２のデータカタログのカラムのマッピング確度に基づいて当該分析ソフトウェアで前記分析対象データを分析する難易度を算出する第３のステップと、
を含むことを特徴とする分析支援方法。
請求項１に記載の分析支援方法であって、
前記計算機が、前記難易度に対応する前記分析ソフトウェアの情報を出力する第４のステップを、をさらに含み、
前記第３のステップは、
１以上の分析ソフトウェアの情報を格納した分析カタログを参照して、前記分析ソフトウェア毎に前記難易度を算出し、
前記第４のステップは、
前記算出された難易度を所定の順序でソートして、前記難易度に対応する前記分析ソフトウェアの情報を出力することを特徴とする分析支援方法。
請求項２に記載の分析支援方法であって、
前記第３のステップは、
前記分析ソフトウェアが使用する前記入力データのカラムを特定する必要カラム管理情報を参照して、前記分析ソフトウェアが使用するカラムを取得して、当該取得したカラムに対応する前記マッピング確度から前記難易度を算出することを特徴とする分析支援方法。
請求項２に記載の分析支援方法であって、
前記第２のステップは、
前記分析対象データのカラムを前記入力データのカラムに変換する定義を格納した第３のデータカタログと、前記第１のデータカタログを読み込んで、前記第１のデータカタログのカラムと前記第３のデータカタログのカラムの類似度をＥＴＬマッピング確度として算出するステップを含み、
前記第３のステップは、
前記マッピング確度とＥＴＬカラムマッピング確度のうち大きい方を選択して前記難易度を算出することを特徴とする分析支援方法。
請求項１に記載の分析支援方法であって、
前記第３のステップは、
前記分析対象データの品質を示す指標を算出し、前記マッピング確度を前記指標で補正してから前記難易度を算出することを特徴とする分析支援方法。
請求項２に記載の分析支援方法であって、
前記分析カタログは、
前記分析ソフトウェア毎に処理に要する所要時間と、分析処理の納期を含み、
前記第４のステップは、
前記分析カタログを参照して前記所要時間から前記納期を満たすように前記分析ソフトウェア毎にスケジューリングを行うことを特徴とする分析支援方法。
請求項６に記載の分析支援方法であって、
前記第４のステップは、
前記難易度に基づいて前記所要時間を補正して、当該補正した所要時間に基づいて前記スケジューリングを行うことを特徴とする分析支援方法。
プロセッサとメモリを有して、分析対象データの評価を行う分析支援サーバであって、
前記分析対象データのカラムの定義を格納した第１のデータカタログと、分析処理を実行する分析ソフトウェアの入力データのカラムを定義した第２のデータカタログを読み込んで、前記第１のデータカタログのカラムと前記第２のデータカタログのカラムの類似度をマッピング確度として算出するカラムマッピング確度算出部と、
前記分析ソフトウェアが使用する前記第２のデータカタログのカラムのマッピング確度に基づいて当該分析ソフトウェアで前記分析対象データを分析する難易度を算出する難易度算出部と、
を有することを特徴とする分析支援サーバ。
請求項８に記載の分析支援サーバであって、
１以上の分析ソフトウェアの情報を格納した分析カタログと、
前記難易度に対応する前記分析ソフトウェアの情報を出力する推薦部と、をさらに有し、
前記難易度算出部は、
前記分析カタログの分析ソフトウェア毎に前記難易度を算出し、
前記推薦部は、
前記算出された難易度を所定の順序でソートして、前記難易度に対応する前記分析ソフトウェアの情報を出力することを特徴とする分析支援サーバ。
請求項９に記載の分析支援サーバであって、
前記分析ソフトウェアが使用する前記入力データのカラムを特定する必要カラム管理情報を、さらに有し、
前記難易度算出部は、
前記必要カラム管理情報を参照して、前記分析ソフトウェアが使用するカラムを取得して、当該取得したカラムに対応する前記マッピング確度から前記難易度を算出することを特徴とする分析支援サーバ。
請求項９に記載の分析支援サーバであって、
前記分析対象データのカラムを前記入力データのカラムに変換する定義を格納した第３のデータカタログと、
前記第１のデータカタログと、前記第３のデータカタログを読み込んで、前記第１のデータカタログのカラムと前記第３のデータカタログのカラムの類似度をＥＴＬマッピング確度として算出するＥＴＬカラムマッピング確度算出部と、をさらに有し、
前記難易度算出部は、
前記マッピング確度とＥＴＬカラムマッピング確度のうち大きい方を選択して前記難易度を算出することを特徴とする分析支援サーバ。
請求項８に記載の分析支援サーバであって、
前記難易度算出部は、
前記分析対象データの品質を示す指標を算出し、前記マッピング確度を前記指標で補正してから前記難易度を算出することを特徴とする分析支援サーバ。
請求項９に記載の分析支援サーバであって、
前記分析カタログは、
前記分析ソフトウェア毎に処理に要する所要時間と、分析処理の納期を含み、
前記推薦部は、
前記分析カタログを参照して前記所要時間から前記納期を満たすように前記分析ソフトウェア毎にスケジューリングを行うことを特徴とする分析支援サーバ。
請求項１３に記載の分析支援サーバであって、
前記推薦部は、
前記難易度に基づいて前記所要時間を補正して、当該補正した所要時間に基づいて前記スケジューリングを行うことを特徴とする分析支援サーバ。
プロセッサとメモリを有する計算機で、分析対象データの評価を行わせるためのプログラムを格納した記憶媒体であって、
前記分析対象データのカラムの定義を格納した第１のデータカタログと、分析処理を実行する分析ソフトウェアの入力データのカラムを定義した第２のデータカタログを読み込む第１のステップと、
前記第１のデータカタログのカラムと前記第２のデータカタログのカラムの類似度をマッピング確度として算出する第２のステップと、
前記分析ソフトウェアで使用する前記第２のデータカタログのカラムのマッピング確度に基づいて当該分析ソフトウェアで前記分析対象データを分析する難易度を算出する第３のステップと、
を前記計算機に実行させるためのプログラムを格納した非一時的な計算機読み取り可能な記憶媒体。