JP2019109676A - 分析支援方法、分析支援サーバ及び記憶媒体 - Google Patents

分析支援方法、分析支援サーバ及び記憶媒体 Download PDF

Info

Publication number
JP2019109676A
JP2019109676A JP2017241859A JP2017241859A JP2019109676A JP 2019109676 A JP2019109676 A JP 2019109676A JP 2017241859 A JP2017241859 A JP 2017241859A JP 2017241859 A JP2017241859 A JP 2017241859A JP 2019109676 A JP2019109676 A JP 2019109676A
Authority
JP
Japan
Prior art keywords
analysis
data
column
catalog
difficulty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017241859A
Other languages
English (en)
Other versions
JP6842405B2 (ja
Inventor
俊彦 樫山
Toshihiko Kashiyama
俊彦 樫山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017241859A priority Critical patent/JP6842405B2/ja
Priority to KR1020207003031A priority patent/KR102309094B1/ko
Priority to PCT/JP2018/033417 priority patent/WO2019123732A1/ja
Publication of JP2019109676A publication Critical patent/JP2019109676A/ja
Application granted granted Critical
Publication of JP6842405B2 publication Critical patent/JP6842405B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】データの分析に要する工数を低減させる。【解決手段】プロセッサとメモリを有する計算機が、分析対象データの評価を行う分析支援方法であって、前記計算機が、前記分析対象データのカラムの定義を格納した第1のデータカタログと、分析処理を実行する分析ソフトウェアの入力データのカラムを定義した第2のデータカタログを読み込む第1のステップと、前記計算機が、前記第1のデータカタログのカラムと前記第2のデータカタログのカラムの類似度をマッピング確度として算出する第2のステップと、前記計算機が、前記分析ソフトウェアで使用する前記第2のデータカタログのカラムのマッピング確度に基づいて当該分析ソフトウェアで前記分析対象データを分析する難易度を算出する第3のステップと、を含む。【選択図】図3

Description

本発明は、データを分析するソフトウェアを提案する技術に関する。
データを分析する工数を低減するために、過去のデータ分析で使用したアプリケーションやクエリなどのソフトウェアを再利用することが望まれている。過去のデータ分析で使用したソフトウェアを利用するためにスキーママッチングを適用する技術が知られている(例えば、非特許文献1)。非特許文献1では、過去に分析を実行したスキーマと、新たに分析するデータのスキーマの構成要素間の類似度を算出する技術が開示される。
また、特許文献1では、過去のデータ分析で使用したソフトウェアを利用するのに必要なデータの要素を特定する技術が開示されている。
また、計算機がユーザにソフトウェアを推奨する技術としては、例えば、特許文献2が知られている。特許文献2では、アプリケーションによる消費電力に応じてサーバがアプリケーションの推奨を行う技術が開示されている。
米国特許第9110967明細書 特開2012−63917号公報
Embly,David W.,David Jackman,and Li Xu.、"Multifaceted Exploitation of Metadata for Attribute Match Discovery in Information Integration."、 Workshop on information integration on the Web, 2001
上記従来例では、データのスキーマの類似性や、データの構成要素間の関連性について特定することはできる。しかしながら、上記従来例では、新たな分析対象のデータについて、スキーマの類似性や構成要素間の関連性からどのソフトウェアを使用するのかについては、分析を行う担当者が過去の実績などから判断する必要が生じる。すなわち、従来例では、どのソフトウェアを使用するかについて分析の担当者が試行錯誤を行う場合が生じ、分析の工数を削減することはできなかった。
また、上記従来例では、新たな分析対象のデータのテーブルの数が多い場合、どのテーブルから分析を開始すれば良いかを提示することはできなかった。すなわち、上記従来例では、データのクレンジングなどの分析の前処理に工数(または労力)を要するデータと、そうでないデータの判別を行うことができず、少ない工数で分析を実施することができないという問題があった。
そこで本発明は、上記問題点に鑑みてなされたもので、データの分析に要する工数を低減することを目的とする。
本発明は、プロセッサとメモリを有する計算機が、分析対象データの評価を行う分析支援方法であって、前記計算機が、前記分析対象データのカラムの定義を格納した第1のデータカタログと、分析処理を実行する分析ソフトウェアの入力データのカラムを定義した第2のデータカタログを読み込む第1のステップと、前記計算機が、前記第1のデータカタログのカラムと前記第2のデータカタログのカラムの類似度をマッピング確度として算出する第2のステップと、前記計算機が、前記分析ソフトウェアで使用する前記第2のデータカタログのカラムのマッピング確度に基づいて当該分析ソフトウェアで前記分析対象データを分析する難易度を算出する第3のステップと、を含む。
したがって、本発明によれば、分析対象データを入力データ(共通データモデル)に変換する際の難易度に基づいて、分析対象データに適用する分析ソフトウェアを提案することが可能となって、分析の工数や分析にかかる労力を低減できる。
本発明の実施例1を示し、データ分析支援システムの一例を示すブロック図である。 本発明の実施例1を示し、分析支援サーバの一例を示すブロック図である。 本発明の実施例1を示し、分析支援プログラムの機能要素の一例を示すブロック図である。 本発明の実施例1を示し、分析カタログの一例を示す図である。 本発明の実施例1を示し、データソースカタログの一例を示す図である。 本発明の実施例1を示し、共通データモデルカタログの一例を示す図である。 本発明の実施例1を示し、必要カラム管理テーブルの一例を示す図である。 本発明の実施例1を示し、カラムマッピング確度管理テーブルの一例を示す図である。 本発明の実施例1を示し、分析難易度管理テーブルの一例を示す図である。 本発明の実施例1を示し、分析支援プログラムで行われる処理の一例を示すフローチャートである。 本発明の実施例1を示し、分析推薦結果確認画面の一例を示す図である。 本発明の実施例2を示し、データ分析支援システムの一例を示すブロック図である。 本発明の実施例2を示し、ETL処理部の生産計画期間変換で行われる処理の一例を示す図である。 本発明の実施例2を示し、分析支援プログラムの機能要素の一例を示すブロック図である。 本発明の実施例2を示し、分析カタログの一例を示す図である。 本発明の実施例2を示し、ETLカタログの一例を示す図である。 本発明の実施例2を示し、ETLカラムマッピング確度管理テーブルの一例を示す図である。 本発明の実施例2を示し、データ品質管理テーブルの一例を示す図である。 本発明の実施例2を示し、分析難易度管理テーブルの一例を示す図である。 本発明の実施例2を示し、分析支援プログラムで行われる処理の一例を示すフローチャートである。 本発明の実施例2を示し、難易度の算出処理の一例を示すフローチャートである。 本発明の実施例2を示し、分析難易度の根拠の一例を示す図である。 本発明の実施例2を示し、標準作業時間の補正処理の一例を示すフローチャートである。 本発明の実施例2を示し、推薦処理の一例を示すフローチャートである。 本発明の実施例2を示し、結果確認画面処理の一例を示すフローチャートである。 本発明の実施例2を示し、結果確認画面の一例を示す図である。 本発明の実施例3を示し、データ分析支援システムの一例を示すブロック図である。 本発明の実施例3を示し、分析支援プログラムの機能要素の一例を示すブロック図である。 本発明の実施例3を示し、イベントログ形式の設備アラートデータの一例を示す図である。 本発明の実施例3を示し、アラートコードマスタの一例を示す図である。 本発明の実施例3を示し、テーブル形式の設備アラートの一例を示す図である。 本発明の実施例3を示し、過去実績確認画面の一例を示す図である。 本発明の実施例3を示し、他候補提示画面の一例を示す図である。 本発明の実施例3を示し、カラムマッピング確度算出部12の処理の一例を示すフローチャートである。 本発明の実施例3を示し、結果確認画面で行われる処理の一例を示すフローチャートである。
以下、本発明の実施形態を添付図面に基づいて説明する。
図1は、本発明の実施例1を示し、データ分析支援システムの一例を示すブロック図である。データ分析支援システムは、生産設備からデータを収集する工場Aのデータ収集サーバ410と、生産設備からデータを収集する工場Bのデータ収集サーバ430と、工場A、工場Bのデータ収集サーバ410、430のデータをデータソースとし、分析に関するデータを蓄積するデータレイクサーバ2と、データレイクサーバ2の共通データモデルカタログ33に従って変換された入力データ(変換済みデータ)を分析する分析サーバ群300と、データソースの分析に適した分析サーバ群300の分析ソフトウェア(アプリケーションまたはクエリ)の提案を行う分析支援サーバ1を含む。
データレイクサーバ2は、ネットワーク51を介して分析支援サーバ1と接続され、また、ネットワーク52を介して分析サーバ群300と接続され、また、ネットワーク53を介してデータ収集サーバ410、430と接続される。
工場Aのデータ収集サーバ410は、部品表421と、製造実績422と、設備アラート423と、工程及び設備マスタ424と、生産計画425と、在庫実績426のデータを格納する。工場Bのデータ収集サーバ430は、部品表441と、製造実績442と、生産計画443と、設備アラート444のデータを格納する。
部品表421、441は、製品を構成する部品のリストを含む。製造実績422、442は製品の製造実績に関する情報を格納する。生産計画425、443は、部品及び製品の生産スケジュールなどを格納する。設備アラート423、444は、生産設備からの警報やエラー等を格納する。工程及び設備マスタ424は、生産工程の情報や製造設備の情報を格納する。在庫実績426は、生産された製品の在庫状況が格納される。
データレイクサーバ2のストレージ20には、過去のデータ分析で利用した分析ソフトウェア(アプリケーションやクエリ)を収集した分析カタログ31と、分析対象データのカラムを設定したデータソースカタログ32と、共通化されたデータモデル(共通データモデル60)を定義した共通データモデルカタログ33が格納される。なお、分析カタログ31と、データソースカタログ32と、共通データモデルカタログ33は予め設定されたデータである。
また、データレイクサーバ2のストレージ20には、共通データモデル60として、工場Aの製品を構成する部品の情報を定義した部品表61と、工場Aの製品の生産計画62と、工場Aの製品の製造実績63と、工場Aの生産設備からの設備アラート64が格納される。
部品表61は、工場Aの部品表421の定義が設定された共通データモデルである。生産計画62は、工場Aの生産計画425の定義が予め設定された共通データモデルである。製造実績63は、工場Aの製造実績422の定義が予め設定された共通データモデルである。設備アラート64は、工場Aの設備アラート423の定義が予め設定された共通データモデルである。
これらの共通データモデル60は、生産計画や、製造設備や、設備のアラート等の管理業務で一般的なエンティティのデータベースを提供する定義を含む。分析支援サーバ1は、データソースとなるデータ収集サーバ410、430のテーブルを読み込んで、共通データモデルカタログ33に従ってカラムを変換してから分析サーバ群300で分析処理を実行させる。なお、データソースとなるテーブルを共通データモデル60の定義に従ったテーブルに変換する処理は、分析サーバ群300で行うようにしても良い。
本実施例1では、工場Aのデータ収集サーバ410をデータソースとしてデータ分析を行ったときに利用した分析ソフトウェア(分析処理)及び共通データモデル60を、工場Bのデータ収集サーバ430が収集したデータに適用する例を示す。
分析サーバ群300は、変換済みデータ(入力データ)を分析クエリによって分析を実施する分析クエリ発行サーバ301と、設備アラート64の定義に従って変換された変換済みデータを分析して生産設備の不良要因を抽出する不良要因分析サーバ302と、生産計画62と部品表61等の定義に従って変換された変換済みデータから生産に関するシミュレーションを実行する生産シミュレータサーバ303と、各工場間で生産設備を融通させるアセットシェアリングサーバ304を含む。
すなわち、分析クエリ発行サーバ301は、入力データを格納したデータベースに分析クエリを発行して、分析を実施する。また、不良要因分析サーバ302では分析アプリケーションによって分析を実施する。生産シミュレータサーバ303では、シミュレーションソフトウェア(アプリケーション)によって生産のシミュレーションを実施する。
なお、分析サーバ群300は、これらのサーバに限定されるものではなく、データレイクサーバ2やデータ収集サーバ410、430のデータを利用して、分析やシミュレーションや評価を実施する計算機であればよい。また、分析ソフトウェアについても、上述のアプリケーションやクエリに限定されるものではなく、分析に応じたアプリケーションやクエリを採用すれば良い。
また、ストレージ20には上記のデータに加えて、図3で示すように、必要カラム管理テーブル34と、カラムマッピング確度管理テーブル35と、分析難易度管理テーブル36と、推薦結果ファイル37を格納する。
なお、変換済みデータは、工場A、Bのデータ収集サーバ410、430のテーブルデータのカラムを、共通データモデルカタログ33に従って共通データモデル60の定義に変換したデータであり、データレイクサーバ2のストレージ20に格納されても良いし、分析サーバ群300に格納されても良い。
分析支援サーバ1は、新たな分析対象データを含むデータソースカタログ32を受け付けて、当該分析対象データをデータレイクサーバ2の共通データモデル60に対応する変換済みデータへ変換する際の難易度を算出し、当該難易度に基づいて分析対象データの評価を行う分析支援プログラム10が稼働する。本実施例1では、分析支援プログラム10が実施する評価の一例として、分析対象データを分析する際に最適な分析ソフトウェアや分析の順序を提案する例を示す。また、分析支援サーバ1は、分析支援プログラム10が利用するカタログデータ40と、管理テーブル50を有する。
なお、本実施例1における難易度は、後述するように、分析対象データのカラムを、共通データモデル60に対応するカラムに割り当てるマッピングの作業量を示す指標である。分析サーバ群300の分析ソフトウェアは、共通データモデル60のカラムのマッピングに対応する変換済みデータを入力データとして分析処理を実行することができる。このため、データソースのカラムを共通データモデル60のカラムに割り当てる作業が、分析処理の前処理となる。
本実施例1では、上記前処理に要する作業量を分析の難易度として分析支援サーバ1が算出することで、過去の分析で使用した分析ソフトウェアを利用する際の作業量の大小を判定できる。これにより、分析支援サーバ1は、膨大なデータに対する分析をどのような分析処理から始めれば良いか、あるいは、どのような分析処理が可能であるかを、過去の分析で使用した分析ソフトウェアから提案することができる。
図2は、分析支援サーバ1の一例を示すブロック図である。分析支援サーバ1は、CPU3と、メモリ4と、ストレージ5と、ネットワークインタフェース(図中NI/F)6と、ディスプレイ8、キーボード91、マウス92を接続するインタフェース7を含む計算機である。
メモリ4には分析支援プログラム10がロードされてCPU3によって実行される。ストレージ5には、カタログデータ40と管理テーブル50が格納される。
図3は、分析支援プログラム10の機能要素の一例を示すブロック図である。分析支援プログラム10は機能要素として、必要カラム算出部11と、カラムマッピング確度算出部12と、分析難易度算出部13と、分析推薦部15を含む。
必要カラム算出部11は、データレイクサーバ2の分析カタログ31を読み込んで必要カラム管理テーブル34を生成または更新する。すなわち、必要カラム算出部11は、分析カタログ31から過去の分析で使用した分析ソフトウェア(アプリケーションやクエリ)と、データソースカタログ32から当該分析ソフトウェアが使用した共通データモデル60と、当該共通データモデル60の元になったデータソースの関係から、分析に必要なテーブル名とカラム名を算出して必要カラム管理テーブル34に蓄積する。
なお、必要カラム算出部11で行うデータソースのカラムから共通データモデル60のカラムの関係の抽出は、公知または周知の技術を用いることができ、例えば、特許文献1に開示されるデータリネージ等の手法を適用すれば良い。また、必要カラム管理テーブル34は、分析対象の共通データモデル60と、分析サーバ群300の分析ソフトウェアから、分析支援サーバ1の管理者や利用者が予め作成しておいても良い。
カラムマッピング確度算出部12は、新たな分析対象データを含むデータソースカタログ32と、共通データモデルカタログ33を読み込んで、カラムマッピング確度管理テーブル35を生成又は更新する。
カラムマッピング確度算出部12は、分析対象データの各カラムについて共通データモデルカタログ33のテーブルとカラムの類似度を、マッピング確度として算出し、カラムマッピング確度管理テーブル35に格納する。カラムマッピング確度算出部12は、分析対象データと共通データモデル60のテーブル名やカラム名やカラムの値や値の範囲やカラムのデータ形式などから類似度を算出し、マッピング確度とする。
マッピング確度は、データソースのテーブル名及びカラム名と、共通データモデル60のテーブル名とカラム名の類似度をカラム単位で示す。カラム毎の類似度は、例えば、非特許文献1に開示されるスキーママッチング及びマッピング等の公知または周知の技術を適用すればよい。なお、類似度の算出については、周知又は公知の手法を用いれば良いので本実施例では詳述しない。また、本実施例のマッピング確度は、1に近づくほど分析対象データのカラムと共通データモデル60のカラムの類似度が高いことを示す。
分析難易度算出部13は、カラムマッピング確度管理テーブル35と、必要カラム管理テーブル34を読み込んで、新たな分析対象データを、過去に実施した分析ソフトウェアで処理する際の難易度を分析処理毎に算出して分析難易度管理テーブル36に格納する。なお、分析難易度算出部13は、マッピング確度が更新される度に難易度の再計算を実施する分析難易度再計算部14を含む。
本実施例の難易度は、値が1に近づくほど分析作業の前処理(カラムマッピング処理)の作業量(時間又は労力)が小さく、0に近づくほど分析作業の前処理の作業量が多いことを示す。具体的には、難易度の値が1に近い場合には、分析対象データの各カラムを共通データモデル60へ容易に割り当てることが可能で、分析対象データの前処理としてのマッピング(カラムの割り当て)に要する時間又は労力が少ない。
一方、難易度の値が0に近づく場合には、分析対象データの各カラムを共通データモデル60のカラムへ割り当てることが容易ではなく、分析対象データの前処理(カラムマッピング処理)に要する時間又は労力が大きくなる。
分析推薦部15は、分析難易度管理テーブル36に格納された分析対象データの難易度に基づいて、推薦する分析ソフトウェアをリストアップした結果確認画面81をディスプレイ8へ出力する。
さらに、分析推薦部15は、難易度を算出した根拠(分析対象データと共通データモデル60のカラムの関係)を表示する分析難易度根拠表示部16と、マッピング確度を調整するマッピング確定部17を含む。分析推薦部15は、分析対象データを処理する分析ソフトウェア(分析名)の推奨結果を推薦結果ファイル37へ格納する。また、分析推薦部15は、マッピング確度の調整結果をカラムマッピング確度管理テーブル35に書き込んで更新し、分析支援サーバ1の利用者の決定をカラムマッピング確度管理テーブル35に反映させる。
上記の構成によって、分析対象データを共通データモデル60に従った変換済みデータへ変換する際の難易度に基づいて、分析対象データに適用する分析ソフトウェアを提案することが可能となって、分析の工数や分析にかかる労力を低減できる。
また、本実施例の分析支援プログラム10が難易度を算出する分析対象データは、テーブルに限定されるものではなく、スプレッドシートなどのデータを分析対象データとすることができる。
分析支援プログラム10の必要カラム算出部11と、カラムマッピング確度算出部12と、分析難易度算出部13と分析推薦部15の各機能部はプログラムとしてメモリ4にロードされる。
CPU3は、各機能部のプログラムに従って処理することによって、所定の機能を提供する機能部として稼働する。例えば、CPU3は、分析難易度算出プログラムに従って処理することで分析難易度算出部13として機能する。他のプログラムについても同様である。さらに、CPU3は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。
図4は、分析カタログ31の一例を示す図である。分析カタログ31には、過去に実施した分析の概要が格納される。
分析カタログ31は、分析ID311と、分析名312と、アプリ/クエリ313と、重要度314と、過去効果315と、標準所要時間316と、必要スキル317と、納期318と、完了フラグ319と、をひとつのエントリに含む。
分析ID311には、分析を実施する分析ソフトウェアの識別子が格納される。分析名312には、分析の名称が格納される。アプリ/クエリ313には、分析ソフトウェアの種別が格納される。本実施例では分析ソフトウェアがアプリケーションまたはクエリのいずれかの例を示す。アプリケーションの場合には、分析サーバ群300の不良要因分析サーバ302で実行される不良要因分析アプリケーションの名称等が格納される。クエリの場合には、分析クエリ発行サーバ301で発行されるクエリの名称等が格納される。
重要度314には、当該分析ソフトウェアの重要度が格納される。重要度314は、「H」(高い)、「M」(中)、「L」(低い)のいずれかが格納される。過去効果315には、当該分析ソフトウェアの分析結果が与えた効果が格納される。過去効果315は、「H」(高い)、「M」(中)、「L」(低い)のいずれかが格納される。
標準所要時間316には、当該分析に要する標準的な所要時間が格納される。必要スキルID317には、当該分析ソフトウェアを利用する際に必要な分析担当者のスキルが格納される。本実施例では、必要スキルID317として、分析ソフトウェアの名称や、ソフトウェア言語の名称や、分析する分野などを格納する例を示す。
納期318には、当該分析の結果を提示する期日が格納される。完了フラグ319には、当該分析が完了したか否かを識別する情報が格納される。
図5は、データソースカタログ32の一例を示す図である。データソースカタログ32には、分析を行うデータソースのカラムの情報が予め設定されたテーブルである。なお、本実施例1のデータソースカタログ32は、工場Bのデータ収集サーバ430の製造実績ログ442と、設備アラート444と、生産計画443のテーブルを含む。
データソースカタログ32は、カラムID321と、入力データソース名322と、テーブル名323と、カラム名324と、データ型325と、単位326と、データ範囲327と、その他属性328をひとつのエントリに含む。
カラムID321には、当該データソースのカラムを特定するための識別子が格納される。入力データソース名322には、当該データソースを提供した計算機の名称が格納される。
テーブル名323には、当該データソースのテーブルの名称が格納される。カラム名324には、当該カラムの名称が格納される。データ型325には、データの形式が格納される。単位326には、当該カラムのデータの単位が格納される。データ範囲327には、当該カラムの値の範囲が格納される。その他属性328には、当該カラムの属性が格納される。
データソースカタログ32は、データ収集サーバ410、430からの情報に基づいて、予め生成された情報である。
図6は、共通データモデルカタログ33の一例を示す図である。共通データモデルカタログ33は、共通データモデル60(部品表61〜設備アラート64)のカラム毎の情報を格納したテーブルである。
共通データモデルカタログ33は、カラムID331と、テーブル名332と、カラム名333と、データ型334と、単位335と、データ範囲336と、その他属性337をひとつのエントリに含む。
カラムID331には、共通データモデル60のテーブルとカラムを特定するための識別子が格納される。テーブル名332には、当該カラムが属する共通データモデル60のテーブルの名称が格納される。
データ型334には当該カラムのデータ形式が格納される。単位335には、当該カラムのデータの単位が格納される。データ範囲336には、当該カラムの値の範囲が格納される。その他属性337には、当該カラムの属性が格納される。
図7は、必要カラム管理テーブル34の一例を示す図である。必要カラム管理テーブル34は、分析サーバ群300で実施された分析ソフトウェアが使用する共通データモデル60のカラムの情報を特定するためのテーブルである。
必要カラム管理テーブル34は、分析ID341と、分析名342と、テーブル名343と、カラム名344と、必須フラグ345をひとつのエントリに含む。
分析ID341には、分析サーバ群300で実施された分析ソフトウェアを特定する識別子が格納される。分析名342には、当該分析に付与された名称または分析ソフトウェアの名称が格納される。テーブル名343には、当該分析で使用した共通データモデル60のテーブル名が格納される。
カラム名344には、変換済みデータを格納するカラムの名称が格納される。必須フラグ345には、当該カラムが分析処理のオプション項目か必須項目のいずれであるかが格納される。分析サーバ群300の分析処理で、必須項目であれば「Yes」が格納され、オプション項目であれば「No」が格納される。
図8は、カラムマッピング確度管理テーブル35の一例を示す図である。カラムマッピング確度管理テーブル35には、分析支援プログラム10が算出したデータソースのカラムと共通データモデル60のカラムのマッピング確度(類似度)が格納される。図8の例では、工場Bのデータ収集サーバ430のデータ(製造実績442、生産計画443、設備アラート444)を新たな分析対象データとして、分析支援プログラム10が共通データモデルカタログ33とのマッピング確度357を算出した例を示す。
カラムマッピング確度管理テーブル35は、マッピングID351と、データソース名352と、マップ元テーブル名353と、マップ元カラム名354と、マップ先テーブル名355と、マップ先カラム名356と、マッピング確度357をひとつのエントリに含む。
マッピングID351には、マッピング確度を特定するための識別子が格納される。データソース名352には、分析対象データを有するデータソースの名称が格納される。
マップ元テーブル名353には、データソース側の分析対象データのテーブルの名称が格納される。マップ元カラム名354には、データソース側の分析対象データのカラムの名称が格納される。
マップ先テーブル名355には、共通データモデル60の定義に変換した後のテーブルの名称が格納される。マップ先カラム名356には、共通データモデル60の定義に変換した後のカラムの名称が格納される。マッピング確度357には、マップ元カラム名354のカラムと、マップ先カラム名356のカラムの類似度が格納される。
分析支援サーバ1は、マッピング確度357を参照することで、マップ元カラム名354のカラムと、マップ先カラム名356のカラムのスキーマレベルでの類似度を取得することができる。
図9は、分析難易度管理テーブル36の一例を示す図である。分析難易度管理テーブル36は、新たな分析対象データについて分析支援プログラム10の分析難易度算出部13が生成したテーブルである。
分析難易度管理テーブル36は、分析ID361と、分析名362と、アプリ/クエリ363と、難易度364をひとつのエントリに含む。分析ID361には、分析を行う分析ソフトウェアを特定するための識別子が格納される。分析名362には、分析の名称が格納される。
アプリ/クエリ363には、分析サーバ群300で分析を実施する分析ソフトウェアの種別が格納される。難易度364には、分析支援プログラム10が算出した分析ソフトウェア毎の難易度が格納される。
難易度364は、分析支援プログラム10が、必要カラム管理テーブル34の分析ID341毎にテーブル名343とカラム名344を選択して、カラムマッピング確度管理テーブル35のマップ先テーブル名355とマップ先カラム名356と一致するマッピング確度357を取得する。なお、分析支援プログラム10はカラム名344のうち、必須フラグ345が「Yes」のエントリを選択し、「No」のエントリを排除する。
そして、必要カラム管理テーブル34のひとつの分析ID341に複数のカラム名344が存在する場合には、カラム名344に対応するマップ先カラム名356のマッピング確度357の乗算値が難易度364として算出される。
例えば、分析ID361=「1」の分析名362=「設備ごとの稼働時間実績集計」の分析ソフトウェアの場合、分析支援プログラム10は、必要カラム管理テーブル34の分析ID341=「1」のテーブル名343=「製造実績」とカラム名344=「設備ID」、「日時」、「稼働時間」を選択する。
次に、分析支援プログラム10は、カラムマッピング確度管理テーブル35のマップ元テーブル353=「製造実績」でマップ先カラム名356=「設備ID」のマッピング確度357=0.9と、マップ先カラム名356=「日時」のマッピング確度357=0.85と、マップ先カラム名356=「稼働時間」のマッピング確度357=0.9を取得する。
そして、分析支援プログラム10は、上記取得した3つのカラムのマッピング確度を乗算し、0.9×0.85×0.9=0.69(0.6885≒0.69)として難易度364を算出する。
図10は、分析支援サーバ1で実行される分析支援プログラム10の一例を示すフローチャートである。なお、以下の説明では分析支援プログラム10を処理の主体とするが、分析支援サーバ1やCPU3を処理の主体としても良い。この処理は、新たな分析対象データを含むデータソースカタログ32を受け付けると開始される。
まず、分析支援プログラム10は、必要カラム算出部11で分析カタログ31を読み込んで、分析を実行する分析サーバ群300の分析ソフトウェアの入力となる共通データモデル60のカラムを算出し、必要カラム管理テーブル34に書き込む(S1)。
必要カラム算出部11は、分析サーバ群300が過去に使用した共通データモデル60のテーブル名とカラム名を取得して必要カラム管理テーブル34のテーブル名343、カラム名344に格納する。必要カラム算出部11は、分析サーバ群300のクエリやログなどから分析に必須のカラムか、オプションのカラムかを判定して必須フラグ345を設定する。
次に、分析支援プログラム10のカラムマッピング確度算出部12は、データソースカタログ32、および共通データモデルカタログ33を読み込み、データソース(データ収集サーバ410、430のテーブル)のカラムと共通データモデル60(共通データモデルカタログ33)のカラムのマッピング確度357を算出し、カラムマッピング確度管理テーブル35に書き込む(S2)。
カラムマッピング確度算出部12は、上述したようにデータ収集サーバ410、430側のテーブルのデータスキーマと、共通データモデル60のデータスキーマをスキーママッチング&マッピングによってカラム毎の類似度を算出し、マッピング確度357に格納する。
次に、分析難易度算出部13が、必要カラム管理テーブル34、およびカラムマッピング確度管理テーブル35を読み込み、分析ID341毎に必要なカラムのマッピング確度357を取得して、上述したように難易度364を算出し、分析難易度管理テーブル36に書き込む(S3)。
次に、分析支援プログラム10は、分析推薦部15において、分析難易度管理テーブル36を読み込み、難易度364の値が大きい分析IDを上位ランクとしてソートし、図11に示す結果確認画面81に表示する(S4)。
難易度364の値が大きいほど、データソースから共通データモデル60への変換が容易であり、分析の前処理であるデータソースから共通データモデル60への変換及びマッピング作業が容易となる。分析推薦部15は、前処理が容易な順で結果確認画面81の分析一覧811に分析のリストを表示する。
図11は、分析支援プログラム10の分析推薦部15が出力する結果確認画面81の一例を示す図である。結果確認画面81は、図中上部を分析一覧811の表示領域とし、図中下部を分析難易度根拠812の表示領域とする。なお、分析難易度根拠812は、分析一覧811の一行が選択された後に表示される。
分析一覧811には、分析IDと、分析名と、アプリケーションまたはクエリの種別と、重要度と、過去効果と、難易度及び完了フラグをひとつの行に含むリストで構成され、分析の内容が表示される。なお、分析一覧811の難易度(364)を除く項目は、図4の分析カタログ31の内容である。
分析支援サーバ1の利用者はマウス92を操作して、分析ID=4の行をクリックすると、分析難易度根拠812の表示領域に、共通データモデル60とデータソースのマッピング確度(図中「確度0.9」等)が表示される。
また、分析難易度根拠812の表示領域の確度の下には、共通データモデル60とデータソースのカラムの対応付けを決定する確定ボタン813が表示される。分析支援サーバ1の利用者は、共通データモデル60のカラムとデータソースのカラムの対応付けが妥当であれば当該カラムのマッピング確度は1.0(100%)に変更される。
図10のステップS5では、分析支援プログラム10の分析推薦部15が、結果確認画面81の終了操作を受け付けたか否かを判定する。分析支援サーバ1の利用者が結果確認画面81に対してウィンドウを閉じる操作が行った場合には処理を終了する。分析推薦部15は、処理を終了する際に、推薦結果ファイル37に分析の推薦結果を格納する。一方、終了操作がなかった場合にはステップS6へ進む。
ステップS6では、分析推薦部15が結果確認画面81において利用者が操作するマウス92が分析一覧811の行を選択したか否かを判定する。分析一覧811の行を選択した場合にはステップS7へ進み、そうでない場合にはステップS5戻ってマウス92やキーボード91の操作を待つ。
ステップS7では、分析推薦部15が、難易度を算出した根拠となる共通データモデル60のカラムとデータソースのカラムのマッピング確度をカラムマッピング確度管理テーブル35から取得して、結果確認画面81の分析難易度根拠812に表示する。
次に、ステップS8では、分析推薦部15が、分析難易度根拠812において利用者が操作するマウス92で確定ボタン813をクリックしたか否かを判定する。確定ボタン813を操作した場合にはステップS9へ進み、そうでない場合にはステップS3に戻って上記処理を繰り返す。
ステップS9では、分析推薦部15が、確定ボタン813で選択されたデータソースのカラムと共通データモデル60のカラムのマッピング確度357を1.0に設定し、カラムマッピング確度管理テーブル35の該当するエントリを更新する。
分析推薦部15は、カラムマッピング確度管理テーブル35を更新した後に、ステップS3に戻って難易度364を再計算して上記処理を繰り返す。
以上の処理によって、分析支援サーバ1は、新たな分析対象データをデータソースカタログ32に設定してマッピング確度の算出と、難易度の算出を行うことで、どのような分析が容易に実施できるのかを結果確認画面81で知ることができる。
これにより、分析対象データを共通データモデル60に変換する際のマッピングの難易度に基づいて、容易に実施可能な分析の提案や、分析対象データに適用する分析ソフトウェアを提案することが可能となって、分析の工数や分析にかかる労力を低減できる。
また、新たな分析対象データについて、カラムマッピング確度管理テーブル35のマッピングが妥当であれば、結果確認画面81において利用者が確定ボタン813を操作することで、マッピング確度357を1.0(100%)に設定してカラムマッピング確度管理テーブル35へフィードバックすることができる。
また、カラムマッピング確度管理テーブル35へフィードバックした後に、分析支援サーバ1でマッピング確度357及び難易度364を再計算することで、新たな分析一覧811を表示することができる。
以上のように、分析一覧811や分析難易度根拠812の表示によって、分析支援サーバ1の利用者は、分析の前処理に要する労力などを難易度として把握することができる。また、データソースから共通データモデル60への変換で手間のかかるカラムがどの程度存在するかを把握できる。
このように、本実施例1によれば、分析処理の前処理となるカラムマッピングの作業量の大小を示す指標として難易度を算出し、データソースとなる分析対象データを評価することができる。
これにより、分析支援サーバ1は、膨大なデータや多種のテーブルに対する分析をどのような分析処理から始めれば良いか、あるいは、どのような分析処理が実現可能であるかを、過去の分析で使用した分析ソフトウェアの中から提案することができる。また、過去に使用した分析ソフトウェアを利用することで、計算機資源を有効に利用して分析処理のリードタイムを大幅に短縮できる。
なお、上記実施例1では、共通データモデル60や各テーブルをデータレイクサーバ2に格納した例を示したが、これらのデータを分析支援サーバ1に格納するようにしても良い。
図12〜図26は、本発明の実施例2を示す。実施例2では、ETL(Extract、Transform、Load)カタログと、データソースの品質を考慮してカラムマッピング確度及び難易度を算出し、作業効率の良い順序で分析を提案する例を示す。
本実施例2では、前記実施例1の構成に分析プロジェクト管理サーバ305と、ETLカタログ38と、ETLカラムマッピング確度管理テーブル39と、データ品質管理テーブル41と、スキルセット実績42と、ETL処理部70を加えたものである。その他の構成は前記実施例1と同様である。
図12Aは、データ分析支援システムの一例を示すブロック図である。本実施例2では、データレイクサーバ2にETL処理部70を追加し、分析プロジェクト管理サーバ305を追加し、図13で示すように、データレイクサーバ2のストレージ20に保持するデータを追加した。ETL処理部70は、設備アラート単位変換71と、生産計画期間変換72と、生産計画設備名分割73を含み、分析支援プログラム10が必要に応じて読み出して、分析支援サーバ1で実行させる。
図13は、分析支援プログラム10の機能要素の一例を示すブロック図である。本実施例2では、前記実施例1でしましたストレージ20に、ETLカタログ38と、ETLカラムマッピング確度管理テーブル39と、データ品質管理テーブル41と、スキルセット実績42を追加したものである。
また、分析支援プログラム10は、カラムマッピング確度算出部12にETLカラムマッピング確度算出部121を追加し、分析難易度算出部13にデータ品質解析部131と、データ品質分析難易度補正部132を追加し、分析推薦部15に分析スケジューリング部151を追加し、連携インタフェース18を追加した。
連携インタフェース18は、分析プロジェクト管理サーバ305に分析プロジェクトの内容をスプレッドシートの形式で出力する。分析プロジェクト管理サーバ305は、分析タスク取り込み部306でスプレッドシート形式の分析プロジェクトを受け付けて、分析プロジェクトの管理を行う。
本実施例2では、前記実施例1と同様にカラムマッピング確度算出部12でデータソースカタログ32と共通データモデルカタログ33からカラムマッピング確度管理テーブル35を算出するのに加えて、ETLカラムマッピング確度算出部121がデータソースカタログ32と、ETLカタログ38からETLカラムマッピング確度管理テーブル39を生成する。
そして、データソースのカラムについて、カラムマッピング確度管理テーブル35とETLカラムマッピング確度管理テーブル39のうちマッピング確度が高い方を難易度の算出に利用する。
また、分析難易度算出部13では、データ品質解析部131がデータソースカタログ32の分析対象データを読み込んで、分析対象データの品質について解析を実行してデータ品質41のテーブルを生成する。
データ品質分析難易度補正部132は、分析対象データの品質に基づいてマッピング確度を補正する。その他の構成については、前記実施例1と同様である。
図14は、分析カタログ31の一例を示す図である。図14は、前記実施例1の図4に対して、重要度314と、過去効果315と、標準所要時間316と、必要スキル317と、納期318が設定されている点が相違する。重要度314〜納期318の各カラムは分析支援サーバ1の利用者や管理者が設定することができる。
図15は、ETLカタログ38の一例を示す図である。ETLカタログ38は、ETL処理部70の要素の定義を予め設定したテーブルで、本実施例2では、設備アラート単位変換71と、生産計画期間変換72と、生産計画設備名分割73を要素とした例を示す。ETLカタログ38は、分析対象データに対応して、抽出するデータの定義と、データの変換の定義と、変換したデータを格納する共通データモデル60の定義が予め設定される。
ETLカタログ38は、ETLID381と、ETL名382と、入力テーブル名383と、入力カラム名384と、出力テーブル名385と、出力カラム名386をひとつのエントリに含む。
ETLID381には、ETLを特定するための識別子が格納される。ETL名382には、ETL(ETL処理部70の各要素)の名称が格納される。入力テーブル名383には、データソースとなるデータ収集サーバ410、430のテーブルの名称が格納される。入力カラム名384には、データ収集サーバ410、430のテーブル内のカラムの名称が格納される。
出力テーブル名385には、共通データモデル60のテーブルの名称が格納される。出力カラム名386には、共通データモデル60のテーブル内のカラムの名称が格納される。
図示の例では、ETLID381=「3」のETL名382=「生産計画期間変換」では入力カラム名384=「開始時刻」と、ETLID381=「4」の入力カラム名384=「終了時刻」の2つの値が、共通データモデル60の生産計画62の出力カラム名386=「日時」のひとつの値に変換されることを示す。なお、変換の具体的な内容については、ETL処理部70の各要素に設定しておく。
ETLカタログ38は、1以上の入力カラム名384と出力カラム名386を対応付けて、値やデータ形式の変換の定義を設定することで、単純なマッピングでは変換済みデータのカラムへ割り当てできないカラムを、データソースとして利用することが可能となる。
図12Bは、ETL処理部70の一例として、ETL名382=「生産計画期間変換」=生産計画期間変換72で行われる処理の一例を示す。分析支援サーバ1は、生産計画期間変換72を読み込んで実行させる。生産計画期間変換72は、入力テーブル383で指定された生産計画443から入力カラム名384で指定された「開始時刻」と「終了時刻
」を読み込む(S721)。この例では、工場Bの生産計画443を、新たに追加するデータソースとしている。
生産計画期間変換72は、読み込んだデータソースに対して、所定の変換を実行する(S722)。この例では、出力カラム名386=「日時」=「終了時刻」−「開示時刻」として演算する。そして、生産計画期間変換72は出力テーブル名385で指定された共通データモデル60の生産計画62に変換したデータを格納する(S723)。なお、ETL処理部70の設備アラート単位変換71と、生産計画設備名分割73についても同様にデータソースを変換して共通データモデル60に格納する。
図16は、ETLカラムマッピング確度管理テーブル39の一例を示す図である。ETLカラムマッピング確度管理テーブル39は、ETLカラムマッピング確度算出部121によって生成されるテーブルである。
ETLカラムマッピング確度管理テーブル39は、ETLマッピングID391と、マップ元テーブル名392と、マップ元カラム名393と、マップ先ETL名394と、マップ先カラム名395と、マッピング確度396をひとつのエントリに含む。
ETLマッピングID391には、マッピング確度のエントリを特定するための識別子が格納される。マップ元テーブル名392には、データソースのデータ収集サーバ410、430のテーブル名が格納される。マップ元カラム名393には、データソースのデータ収集サーバ410、430のテーブル内のカラム名が格納される。
マップ先ETL名394には、ETLカタログ38のETL名382に対応する名称が格納される。マップ先カラム名395には、ETLカタログ38の出力カラム名386に対応する名称が格納される。マッピング確度396には、ETLカラムマッピング確度算出部121が算出したETLのマッピング確度が格納される。
図示の例では、ETLマッピングID391=「1」では、マップ元テーブル名392がデータ収集サーバ430の設備アラート444について、マップ元カラム名393の「日付時刻」の値を時間単位に変換することで、ETL処理部70の設備アラート単位変換71のマップ先カラム名395=「日時(時間単位)」にマップすることができ、が格納され、「日付時刻」と「日時」のマッピング確度396=「0.9」であることを示している。
図17は、データ品質管理テーブル41の一例を示す図である。データ品質管理テーブル41は、分析難易度算出部13のデータ品質解析部131が分析対象データを含むデータソースカタログ32を参照して生成するテーブルである。データ品質管理テーブル41は、データソースのカラム毎にデータの品質を格納する。
データ品質管理テーブル41は、カラムID411と、入力データソース名412と、テーブル名413と、カラム名414と、Null多数415と、重複416と、外れ値417と、文字数ずれ418と、総合スコア419をひとつのエントリに含む。
カラムID411には、データソースのカラムを特定するための識別子が格納される。入力データソース名412には、データソースとなるデータ収集サーバを特定する名称が格納される。テーブル名413には、データソースとなるデータ収集サーバのテーブルの名称が格納される。カラム名414には、データソースとなるテーブルに含まれるカラムの名称が格納される。
Null多数415には、当該カラムでNull値を含むレコードの比率が格納される。重複416には、当該カラムで値が重複するレコードの比率が格納される。外れ値417には、当該カラムで値が所定の閾値を超えたレコードの比率が格納される。文字数ずれ418には、当該カラムで文字数がずれたレコードの比率が格納される。総合スコア419には、Null多数415と重複416と外れ値417と文字数ずれ418の値に基づいてデータソースの品質として算出された総合スコア419が格納される。
本実施例2では、データの品質を示す総合スコア=1−(Null多数415+重複416+外れ値417+文字数ずれ418)として算出する例を示す。なお、総合スコア419の算出方法は、これに限定されるものではなく、データ品質管理テーブル41でデータソースの品質を示すNull多数415〜文字数ずれ418の各フィールドの値の乗算値や中央値等を用いてもよい。
本実施例2では、総合スコア419の値が1.0に近いほど、そのまま分析が可能な高品質なデータであり、逆に0に近づく、データソースにクレンジングなどの前処理が必要な低品質のデータである。
すなわち、総合スコア419が示す品質は、データソースに対するクレンジングに要する処理量(時間又は労力)を示す指標である。なお、本実施例2のクレンジングは、例えば、データソースから重複や誤記、表記の揺れなどを検出して、削除や修正、正規化などを実施することを示す。
本実施例2では、分析対象データについて分析を行う際の前処理として、分析対象データのカラムを共通データモデル60のカラムにマッピングする処理(カラムマッピング処理)と、分析対象データの内容についてクレンジングを行う処理の2つの処理を含む例を示す。なお、カラムマッピング処理には、ETLカタログ38に基づいて、マップ元カラム名354の値を、マップ先カラム名356の値に変換する処理を含むものとする。
なお、分析支援プログラム10は、データソースカタログ32を受け付けると、カラムマッピング確度算出部12がマッピング確度を算出する前に、分析難易度算出部13のデータ品質解析部131で、当該データ品質管理テーブル41を生成する。
そして、後述するように、データ品質管理テーブル41の総合スコア419に基づいて、マッピング確度(357、386)が補正される。
図18は、分析難易度管理テーブル36の一例を示す図である。分析難易度管理テーブル36は、新たな分析対象データについて分析支援プログラム10の分析難易度算出部13が生成するテーブルである。本実施例2の分析難易度管理テーブル36は、前記実施例1の図9に示した分析難易度管理テーブル36に、標準所要時間365と、補正後所要時間366を追加したもので、その他の構成については前記実施例1と同様である。
分析難易度管理テーブル36は、分析ID361と、分析名362と、アプリ/クエリ363と、難易度364と、標準所要時間365と、補正後所要時間366をひとつのエントリに含む。
標準所要時間365は、当該分析が完了するまでに要する標準的な時間が格納される。本実施例2では、分析カタログ31のID311毎に予め設定された標準所要時間316を、分析難易度算出部13が当該標準所要時間365に設定した例を示す。補正後所要時間366には、データ品質分析難易度補正部132が、難易度364に応じて標準所要時間365を補正した値が格納される。
図13のスキルセット実績42には、図示はしないが、分析作業を実施する人員と、各人員のスキルが予め設定される。なお、人員のスキルは分析カタログ31の必要スキル317に対応する値が格納される。
図19は、分析支援プログラム10で行われる処理の一例を示すフローチャートである。この処理は、前記実施例1と同様に、データソースカタログ32を受け付けてから開始される。なお、図19では、必要カラム管理テーブル34が既に生成されていることを前提とする。また、上述のように、分析難易度算出部13のデータ品質解析部131によってデータ品質管理テーブル41も既に生成されている。
分析支援プログラム10のカラムマッピング確度算出部12は、データソースカタログ32および共通データモデルカタログ33を読み込んで、それぞれのマッピング確度357を算出し、カラムマッピング確度管理テーブル35に書き込む(S11)。この処理は、前記実施例1の図10に示したステップS2と同様であり、データソースのカラムと共通データモデル60のカラムのマッピング確度が算出され、図8に示したカラムマッピング確度管理テーブル35が生成される。
次に、分析支援プログラム10では、ETLカラムマッピング確度算出部121が、データソースカタログ32およびETLカタログ38を読み込んで、マッピング確度を算出し、ETLカラムマッピング確度管理テーブル39に書き込む(S12)。
ETLカラムマッピング確度算出部121は、データソースカタログ32のテーブル名323とカラム名324を取得して、ETLカタログ38の入力テーブル名383と入力カラム名384を検索し、一致するエントリのETL名382と出力カラム名386を取得する。
そして、ETLカラムマッピング確度算出部121は、入力カラム名384と出力カラム名386のマッピング確度を算出する。ETLカラムマッピング確度算出部121は、ETLカラムマッピング確度管理テーブル39に新たなエントリを生成してからユニークなETLマッピングID391を付与する。
ETLカラムマッピング確度算出部121は、算出したマッピング確度をマッピング確度396に格納し、マップ元テーブル名392に入力テーブル名383を格納し、マップ元カラム名393に入力カラム名384を格納し、マップ先ETL名394にETL名382を格納し、マップ先カラム名395に出力カラム名386を格納して、ETLカラムマッピング確度管理テーブル39を生成する。
ETLカラムマッピング確度算出部121は、上記処理をデータソースカタログ32のすべてのエントリについて実行する。これにより、単純なマッピングでは利用できないデータソースのカラムを、マップ先カラム名395の単位やデータ形式に変換することが可能となる。ETLカタログ38では、1以上のデータソースのカラムを1つのマップ先カラム名356に集約したり、ひとつのデータソースのカラムを複数のマップ先カラム名356に分割する定義を設定することができる。
次に、分析支援プログラム10の分析難易度算出部13は、分析カタログ31の各分析について、データソースカタログ32のデータで分析を行う場合の難易度をそれぞれ算出する(S13)。
分析難易度算出部13は、カラムマッピング確度管理テーブル35のマッピング確度357と、ETLカラムマッピング確度管理テーブル39のマッピング確度396から値の大きい方のマッピング確度を選択する。なお、分析難易度算出部13は、カラムマッピング確度管理テーブル35のマップ元カラム名354が、ETLカタログ38の入力カラム名384に該当するエントリが存在しない場合は、カラムマッピング確度管理テーブル35の値を選択する。
そして、分析難易度算出部13のデータ品質分析難易度補正部132は、選択されたマッピング確度をデータ品質管理テーブル41の総合スコア419で補正してから、分析対象データに対する分析処理の難易度を分析ID毎に算出する。
図20は、上記ステップS13で行われる難易度の算出処理の一例を示すフローチャートである。まず、ステップS31では、分析難易度算出部13が、データ品質管理テーブル41を読み込んで、カラム名414毎の総合スコア419を取得する。
次に、ステップS32では、分析難易度算出部13が、カラムマッピング確度管理テーブル35と、ETLカラムマッピング確度管理テーブル39を読み込んで、データソースとETLのカラムの比較を行う。
すなわち、分析難易度算出部13は、カラムマッピング確度管理テーブル35のマップ元テーブル名353とマップ元カラム名354が、ETLカラムマッピング確度管理テーブル39のマップ元テーブル名392とマップ元カラム名393と一致する場合、マッピング確度357とETLカラムマッピング確度管理テーブル39のマッピング確度396のうち、値が大きい方を当該マップ元カラム名のマッピング確度として選択する。
次に、ステップS33では、分析難易度算出部13が、上記ステップS32で選択したカラム毎のマッピング確度を分析ID311毎に取得し、ステップS31で取得したカラム名414毎の総合スコア419でマッピング確度を補正してから難易度を算出する。
分析ID311に含まれるカラムの番号をn、選択したマッピング確度をS、データ品質管理テーブル41のスコアをTとすると、難易度Dは、
D=(S1×T1)×(S2×T2)………×(Sn×Tn)
で表される。
選択したマッピング確度Sにデータ品質の総合スコアTを乗じて補正することで、データの品質が低いほど難易度Dの値は低くなり、データソースの前処理(クレンジング)に時間や労力を要することになる。
次に、ステップS34では、分析難易度算出部13のデータ品質分析難易度補正部132が、上記ステップS33で算出された難易度に基づいて、分析カタログ31の標準所要時間316の値を後述するように補正する。
次に、ステップS35では、分析難易度算出部13が分析難易度管理テーブル36を生成する。すなわち、分析難易度算出部13は、分析難易度管理テーブル36に新たなエントリを追加して、分析カタログ31の分析ID311と分析名312とアプリケーション/クエリ313を、分析ID361、分析名362とアプリケーション/クエリ363に格納する。
そして、分析難易度算出部13はステップS33で算出された難易度を難易度364に格納し、分析カタログ31の標準所要時間316を標準所要時間365に格納し、ステップS34で補正された標準所要時間を補正後所要時間366に格納して処理を終了する。
図21は、難易度の算出を説明する分析難易度根拠812の表示領域の一例を示す図である。図21では、分析ID311=「4」の「設備ごとのアラート回数集計」について分析対象データの難易度364を算出する例を示す。
カラムマッピング確度算出部12は、必要カラム管理テーブル34から、共通データモデル60の設備アラート64からカラム名344=「設備ID」と「日時」を取得する。また、カラムマッピング確度算出部12は、データソースカタログ32からテーブル名323=「設備アラート」からカラム名324=「設備ID」と「日付時刻」を取得する。
カラムマッピング確度算出部12は、共通データモデル60とデータソースのマッピング確度を算出し、図8で示したように、「設備ID」のマッピング確度=0.95と「日付時刻」と「日時」のマッピング確度=0.9を得る。
ETLカラムマッピング確度算出部121は、ETLカタログ38から入力カラム名384に「日付時刻」を含む「設備アラート日時変換」を選択し、出力カラム名386=「日時(時間単位)」を取得してマッピング確度=0.9を算出する。
カラムマッピング確度算出部12は、ETLによるマッピング確度と、共通データモデル60によるマッピング確度のうち値の大きい方を取得する。この結果、選択されたマッピング確度は、「設備ID」=0.95、「日時」=0.9となる。
次に、分析難易度算出部13ではデータ品質分析難易度補正部132が、データ品質管理テーブル41から総合スコア419を読み込んで、「設備ID」=0.98と「日付時刻」=1.0を取得する。
データ品質分析難易度補正部132は、マッピング確度を総合スコア419で補正して難易度364を算出する。すなわち、難易度=(0.95×0.98)×(1.0×0.9)=0.8379となる。
図22は、標準所要時間の補正処理の一例を示すフローチャートである。この処理は、分析難易度算出部13が上記ステップS34で行う。
ステップS41で分析難易度算出部13は、カラムマッピング確度管理テーブル35を読み込んで、難易度が0.8を超えていれば、ステップS47へ進んで、標準所要時間316をそのまま補正後所要時間366に格納する。
ステップS42では分析難易度算出部13が、難易度が0.8以下で、かつ難易度が0.6以上であれば、ステップS46へ進んで補正係数を1.2とし、標準所要時間316に1.2を乗じた値を補正後所要時間366に格納する。
ステップS43では分析難易度算出部13が0.6未満で、かつ難易度が0.4以上であれば、ステップS45へ進んで補正係数を1.5とし、標準所要時間316に1.5を乗じた値を補正後所要時間366に格納する。
ステップS44では分析難易度算出部13が、難易度が0.4未満であるので補正係数を2とし、標準所要時間316に2を乗じた値を補正後所要時間366に格納する。
上記処理によって、共通データモデル60とデータソースのマッピング確度と、ETLカタログ38とデータソースのマッピング確度のうち大きい方が選択されて、データ品質の総合スコア419で補正されたマッピング確度の乗算値から当該分析IDをデータソースで実施する場合の難易度364が算出される。
これにより、データ品質の総合スコア419が高いほど難易度364の値は大きくなって、データソースの前処理(クレンジング)に要する労力が低減される。逆に、データ品質の総合スコア419が低いほど難易度364の値は小さくなって、データソースの前処理に要する労力が増大する。
また、標準所要時間316は難易度364に応じて補正係数が設定され、難易度364の値が低いほど補正係数が大きくなるように補正される。これにより、難易度364の値が小さいほど、データのクレンジングなどの前処理に要する時間又は労力が増大するため、所要時間も増大するように補正される。
次に、図19のステップS14では、分析支援プログラム10の分析推薦部15が、分析難易度管理テーブル36で難易度の大きい順にソートしてから、後述するように納期318を考慮して上位の分析処理から順に推薦対象として選択する。
ステップS15では、分析推薦部15が、上記ステップS14で選択された分析処理(分析名)を、ディスプレイ8に結果確認画面81として表示する。ステップS16では、分析推薦部15が、結果確認画面81でデータソースから共通データモデルへのマッピングが確定されたか否かを判定する。確定ボタン813がクリックされて、データソースから共通データモデルへのマッピングが確定した場合にはステップS17へ進み、確定していない場合にはステップS18へ進む。
ステップS17では、分析推薦部15のマッピング確定部17が、確定ボタン813がクリックされたマッピングに対応するマッピング確度357を1.0に設定してカラムマッピング確度管理テーブル35を更新する。その後、ステップS13へ戻って難易度364の再計算が実行される。
ステップS18では、分析推薦部15が結果確認画面81の表示の終了を検出すると、処理を終了し、そうでない場合にはステップS16へ戻って確定ボタン813の操作を受け付ける。
上記処理によって、結果確認画面81には難易度364の値が高い分析から順に表示される。すなわち、前処理に要する時間や労力の少ない分析が上位に表示されるので、最上位の分析から実施していくことで、データの分析に要する工数を低減することが可能となる。
図23は、分析推薦部15で行われる推薦処理の一例を示すフローチャートである。この処理は図19のステップS14で行われる処理である。ステップS51では、分析推薦部15が、分析難易度管理テーブル36のエントリを難易度364の値が大きい順にソートする。
次に、ステップS52では、分析推薦部15の分析スケジューリング部151が、分析カタログ31とスキルセット実績42と分析難易度管理テーブル36を参照して、フォワードスケジューリングにより分析に対して人員や分析ソフトウェアを割り当てる。
分析スケジューリング部151は、難易度364の値が大きい順に分析ID36を取得して、分析カタログ31から必要スキル317と納期318を取得する。分析スケジューリング部151は、分析難易度管理テーブル36から分析ID361に対応する補正後所要時間366を取得する。
分析スケジューリング部151は、スキルセット実績42から必要スキル317を満たす人員を選択し、補正後所要時間366と納期318を満たすようにフォワードスケジューリングを実施する。なお、フォワードスケジューリングについては公知または周知の技術を適用すれば良い。
次に、ステップS53では、分析スケジューリング部151が、スケジューリングの結果を参照して、分析難易度管理テーブル36の全ての分析が納期318以内に処理を完了しているか否かを判定する。全ての分析が納期318以内であれば処理を終了し、納期318を超える分析があれば、ステップS54へ進む。
ステップS54では、分析スケジューリング部151が、スケジューリングの再計算の回数(試行の回数)が所定の閾値以上になったか否かを判定する。再計算の回数が所定の閾値以上であれば、ステップS55へ進んで、分析スケジューリング部151は納期が遅延するエラーメッセージを出力する。
一方、再計算の回数が閾値未満であれば、ステップS56へ進んで、スケジューリング部151が納期318を超えた分析ID361の順位を1つ上げて、推薦する順位を変更し、ステップS52へ戻って上記処理を繰り返す。
上記処理によって、分析難易度管理テーブル36の分析処理は、難易度364の値が大きい順で、かつ、納期318を満たすようにスケジューリングされる。
図25は、分析推薦部15が生成する結果確認画面81の一例を示す図である。結果確認画面81は、図中上部を分析一覧811の表示領域とし、図中下部を分析難易度根拠812の表示領域とする。なお、分析難易度根拠812は、分析一覧811の一行が選択された後に表示される。
分析一覧811には、チェックボックスと、分析IDと、分析名と、アプリケーションまたはクエリの種別と、難易度と、補正後所要時間と、終了予定及び完了フラグをひとつの行に含むリストで構成され、分析の内容が表示される。なお、終了予定は、スケジューリングの結果に基づいて決定され、その他の項目は分析難易度管理テーブル36の値、または分析カタログ31の値が設定される。
分析一覧811の右上には、エクスポートボタン815と、再スケジュールボタン816が配置される。チェックボックスを選択してから、エクスポートボタン815をクリックすると、チェックボックスを選択した行の分析内容が連携インタフェース18を介して所定のファイル形式(例えば、CSV形式)で出力される。
また、チェックボックスを選択してから再スケジュールボタン816をクリックすることで、選択された行について、再度スケジューリングを実施することができる。
なお、分析難易度根拠812は、前記実施例1の構成に加えて、ETLカタログ名814が追加される。分析難易度算出部13がETLカタログ38のマッピング確度を選択した場合には、ETLカタログ名814が表示される。
図示の分析難易度根拠812の最下段には、データソースのカラムのデータ品質スコアが表示された例を示す。データ品質スコアは、0〜1の値の範囲で、1に近づくにつれて重複や欠損のないデータであることを示す。データ品質スコアの値が大きいほど、分析の前処理に要する労力が低いことを示す。
図24は、分析推薦部15で行われる結果確認画面処理の一例を示すフローチャートである。この処理は図19のステップS15で行われる処理である。
ステップS61では、分析推薦部15が、分析難易度管理テーブル36を読み込んで、結果確認画面81を生成し、分析一覧811に上記図23でスケジューリングした順序で分析の内容を表示する。
分析一覧811には、チェックボックスと、分析IDと、分析名と、アプリケーションまたはクエリと、難易度と、補正後所要時間と、終了予定(納期318)及び完了フラグをひとつの行に含むリストとして分析の内容が表示される。
ステップS62では、分析推薦部15が、分析支援サーバ1の利用者がマウス92を操作してひとつの行を選択したか否かを判定する。行が選択された場合には、ステップS63へ進み、そうでない場合にはステップS64へ進む。
ステップS63では、分析推薦部15が、分析一覧811で選択された行のマッピング確度とマップ元とマップ先の情報を、カラムマッピング確度管理テーブル35またはETLカラムマッピング確度管理テーブル39から取得して、分析難易度根拠812の表示領域に出力する。
ステップS64では、分析推薦部15が、分析支援サーバ1の利用者がマウス92を操作してエクスポートボタン815を選択したか否かを判定する。エクスポートボタン815が選択された場合には、ステップS65へ進み、そうでない場合にはステップS66へ進む。
ステップS65では、分析推薦部15が、分析一覧811のチェックボックスで選択された分析の内容が、所定のファイル形式で出力される。
ステップS66では、分析推薦部15が、分析支援サーバ1の利用者がマウス92を操作して再スケジュールボタン816を選択したか否かを判定する。再スケジュールボタン816が選択された場合には、ステップS67へ進み、そうでない場合にはステップS68へ進む。
ステップS67では、分析推薦部15の分析スケジューリング部151が、分析一覧811のチェックボックスで選択された分析の内容について、再度スケジューリングを実施する。その後、ステップS61へ戻って、分析一覧811の内容を更新する。
ステップS68では、分析推薦部15が、分析支援サーバ1の利用者がマウス92を操作して確定ボタン813を選択したか否かを判定する。確定ボタン813が選択された場合にはステップS69へ進み、そうでない場合にはステップS70へ進む。
ステップS69では、図19のステップS13へ戻って、難易度364の再計算を実施する。
ステップS70では、分析推薦部15が、分析支援サーバ1の利用者がマウス92を操作して結果確認画面81のクローズボックスを選択したか否かを判定する。クローズボックスが選択された場合には処理を終了し、そうでない場合にはステップS61へ戻って上記処理を繰り返す。
以上の処理によって、結果確認画面81で分析難易度根拠812の表示や、再スケジューリングや、マッピング確度の更新と難易度の再計算などを実施することができる。
このように、本実施例2では、ETLカタログ38と、データソースの品質を考慮してカラムマッピング確度及び難易度を算出し、作業効率の良い順序で分析ソフトウェアを提案することができる。
図26、図27は、実施例3の一例を示す。本実施例3では、前記実施例2の構成に加えて、イベントログをデータソースとするデータ収集サーバ450、460を追加し、分析支援プログラム10のカラムマッピング確度算出部12にイベントログ−テーブル変換部を追加し、ストレージ20にアラートコードマスタ43を追加した例を示す。なお、その他の構成については、前記実施例2と同様である。
図26は、データ分析支援システムの一例を示すブロック図である。地区Aのデータ収集サーバ450と、地区Bのデータ収集サーバ460は、交通関係のデータを収集する。地区Aのデータ収集サーバ450は、車両データ451と、運行データ452と、保線データ453と、設備保守実績454と、気象データ455と、設備アラート456を収集し、データソースとしてサーバ群300へ提供する。
同様に地区Bのデータ収集サーバ460は、車両データ461と、運行データ462と、設備保守実績463と、設備アラート464を収集し、データソースとしてサーバ群300へ提供する。
データレイクサーバ2のストレージ20には、共通データモデル60に車両データ61Aと、運行データ62Aと、保守データ63Aと、設備アラート64Aが予め設定されている。
図27は、分析支援プログラムの機能要素の一例を示すブロック図である。分析支援プログラム10のカラムマッピング確度算出部12には、データソースカタログ32とアラートコードマスタ43に基づいて、イベントログをテーブル形式に変換するイベントログ−テーブル変換部122が追加される。その他の構成については、前記実施例2と同様である。
図28は、イベントログ形式の設備アラート456、464の一例を示す図である。設備アラート456、464は、一行に日付、時刻、重要度、アラートID、設備名、車両番号、メッセージを含むデータで構成される。
図29は、アラートコードマスタ43の一例を示す図である。アラートコードマスタ43は、アラートID431と、メッセージ432をひとつのエントリに含む。メッセージ432は、日付、時刻、重要度、アラートID、設備名、車両番号、メッセージを含む。
図30は、テーブル形式に変換した設備アラート456Tの一例を示す図である。設備アラート456Tは、イベントログ形式の設備アラート456を分析支援プログラム10のイベントログ−テーブル変換部122でテーブル形式に変換した結果である。
設備アラート456Tは、日時4561と、重要度4562と、アラートID4563と、設備名4564と、車両番号4565と、メッセージ4566をひとつのエントリに含む。
イベントログ−テーブル変換部122がイベントログ形式のデータをテーブル形式へ変換することで、共通データモデル60の設備アラート64Aを利用することが可能となる。
図31は、分析推薦部15が生成する過去実績確認画面83の一例を示す図である。分析推薦部15は、前記実施例2の図25に示した分析難易度根拠812の表示領域で所定の操作(例えば、ダブルクリックなど)が行われると過去実績確認画面83を出力する。
過去実績確認画面83は、現在選択している分析のカラムマッピングを表示するウィンドウ84と、過去の実績を表示するウィンドウ85を含む。過去実績確認画面83には、過去実績関係表示ボタン831と、前実績ボタン834と、次実績ボタン833が配置される。
過去実績関係表示ボタン831をクリックすることで、分析推薦部15は、ウィンドウ84の分析IDで過去に表示した推薦結果を表示することができる。分析推薦部15は、推薦結果ファイル37を参照して、ウィンドウ84の分析IDの推薦結果を取得してウィンドウ85を生成する。
前実績ボタン834をクリックすることで、分析推薦部15は、ウィンドウ84の分析IDで過去に表示した推薦結果を過去に遡ることができる。次実績ボタン833をクリックすることで、分析推薦部15は、ウィンドウ84の分析IDで過去から前回に表示した推薦結果まで遷移することができる。
ウィンドウ84のマッピング確度の表示位置の近傍には、他候補ボタン832が配置される。他候補ボタン832をクリックすることで、分析推薦部15は図32に示す他候補提示画面86を出力する。図32は、分析推薦部15が生成する他候補提示画面86の一例を示す図である。
他候補提示画面86は、カラムマッピング確度管理テーブル35と、ETLカラムマッピング確度管理テーブル39の内容と、各カラムマッピング確度が表示され、選択ボタンをクリックすることで、カラムマッピングの組み合わせを選択することが可能である。
図33は、イベントログ−テーブル変換部122の処理の一例を示すフローチャートである。この処理は、カラムマッピング確度管理テーブル35を生成する際に実行する。
まず、ステップS81では、イベントログ−テーブル変換部122がアラートコードマスタ43を読み込んでから、イベントログ形式の設備アラート456を読み込んで、テーブル形式の設備アラート456Tに変換する。
ステップS82では、カラムマッピング確度算出部12が、データソースカタログ32と、共通データモデルカタログ33を読み込んで上述のようにカラムマッピング確度を算出してカラムマッピング確度管理テーブル35を生成する。
図34は、分析推薦部15が生成する結果確認画面81の処理の一例を示すフローチャートである。この処理は、前記実施例2の図24のフローチャートにステップS101〜S104を追加したもので、その他の構成は図24と同様である。
ステップS61〜S67までは前記実施例2と同様である。ステップS67の判定で、再スケジュールボタン816が選択されていない場合には、ステップS101へ進む。
ステップS101では、分析推薦部15が、過去実績表示の要求を受け付けたか否かを判定する。過去実績表示の要求は、上述のように分析難易度根拠812の表示領域でダブルクリックなどを受け付けたときである。当該過去実績表示の要求を受け付けると、分析推薦部15は、ステップS102へ進んで過去実績確認画面83を表示する。
ステップS103では、分析推薦部15が、過去実績確認画面83で他候補ボタン832が選択されたか否かを判定する。他候補ボタン832が選択された場合には、ステップS104へ進んで分析推薦部15が他候補提示画面86を出力する。他候補ボタン832が選択されていない場合には、ステップS68へ進んで前記実施例2と同様の処理を繰り返す。
以上のように、本実施例3では、イベントログ形式のデータも前記実施例1、2のテーブル形式と同様に扱うことができ、分析の難易度に応じた分析ソフトウェアの推薦を行うことが可能となる。また、結果確認画面81では、過去の推薦結果や他の候補も参照することができ、分析処理の計画を円滑に推進することが可能となる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。
また、上記の各構成、機能、処理部、及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
1 分析支援サーバ
2 データレイクサーバ
10 分析支援プログラム
11 必要カラム算出部
12 カラムマッピング確度算出部
13 分析難易度算出部
14 分析難易度再計算部
15 分析推薦部
20 ストレージ
31 分析カタログ
32 データソースカタログ
33 共通データモデルカタログ
34 必要カラム管理テーブル
35 カラムマッピング確度管理テーブル
36 分析難易度管理テーブル
37 推薦結果ファイル
38 ETLカタログ
39 ETLカラムマッピング確度管理テーブル
40 データ品質管理テーブル
60 共通データモデル
81 結果確認画面
121 ETLカラムマッピング確度算出部
131 データ品質解析部
132 データ品質分析難易度補正部
151 分析スケジューリング部
300 分析サーバ群
410、430 データ収集サーバ

Claims (15)

  1. プロセッサとメモリを有する計算機が、分析対象データの評価を行う分析支援方法であって、
    前記計算機が、前記分析対象データのカラムの定義を格納した第1のデータカタログと、分析処理を実行する分析ソフトウェアの入力データのカラムを定義した第2のデータカタログを読み込む第1のステップと、
    前記計算機が、前記第1のデータカタログのカラムと前記第2のデータカタログのカラムの類似度をマッピング確度として算出する第2のステップと、
    前記計算機が、前記分析ソフトウェアで使用する前記第2のデータカタログのカラムのマッピング確度に基づいて当該分析ソフトウェアで前記分析対象データを分析する難易度を算出する第3のステップと、
    を含むことを特徴とする分析支援方法。
  2. 請求項1に記載の分析支援方法であって、
    前記計算機が、前記難易度に対応する前記分析ソフトウェアの情報を出力する第4のステップを、をさらに含み、
    前記第3のステップは、
    1以上の分析ソフトウェアの情報を格納した分析カタログを参照して、前記分析ソフトウェア毎に前記難易度を算出し、
    前記第4のステップは、
    前記算出された難易度を所定の順序でソートして、前記難易度に対応する前記分析ソフトウェアの情報を出力することを特徴とする分析支援方法。
  3. 請求項2に記載の分析支援方法であって、
    前記第3のステップは、
    前記分析ソフトウェアが使用する前記入力データのカラムを特定する必要カラム管理情報を参照して、前記分析ソフトウェアが使用するカラムを取得して、当該取得したカラムに対応する前記マッピング確度から前記難易度を算出することを特徴とする分析支援方法。
  4. 請求項2に記載の分析支援方法であって、
    前記第2のステップは、
    前記分析対象データのカラムを前記入力データのカラムに変換する定義を格納した第3のデータカタログと、前記第1のデータカタログを読み込んで、前記第1のデータカタログのカラムと前記第3のデータカタログのカラムの類似度をETLマッピング確度として算出するステップを含み、
    前記第3のステップは、
    前記マッピング確度とETLカラムマッピング確度のうち大きい方を選択して前記難易度を算出することを特徴とする分析支援方法。
  5. 請求項1に記載の分析支援方法であって、
    前記第3のステップは、
    前記分析対象データの品質を示す指標を算出し、前記マッピング確度を前記指標で補正してから前記難易度を算出することを特徴とする分析支援方法。
  6. 請求項2に記載の分析支援方法であって、
    前記分析カタログは、
    前記分析ソフトウェア毎に処理に要する所要時間と、分析処理の納期を含み、
    前記第4のステップは、
    前記分析カタログを参照して前記所要時間から前記納期を満たすように前記分析ソフトウェア毎にスケジューリングを行うことを特徴とする分析支援方法。
  7. 請求項6に記載の分析支援方法であって、
    前記第4のステップは、
    前記難易度に基づいて前記所要時間を補正して、当該補正した所要時間に基づいて前記スケジューリングを行うことを特徴とする分析支援方法。
  8. プロセッサとメモリを有して、分析対象データの評価を行う分析支援サーバであって、
    前記分析対象データのカラムの定義を格納した第1のデータカタログと、分析処理を実行する分析ソフトウェアの入力データのカラムを定義した第2のデータカタログを読み込んで、前記第1のデータカタログのカラムと前記第2のデータカタログのカラムの類似度をマッピング確度として算出するカラムマッピング確度算出部と、
    前記分析ソフトウェアが使用する前記第2のデータカタログのカラムのマッピング確度に基づいて当該分析ソフトウェアで前記分析対象データを分析する難易度を算出する難易度算出部と、
    を有することを特徴とする分析支援サーバ。
  9. 請求項8に記載の分析支援サーバであって、
    1以上の分析ソフトウェアの情報を格納した分析カタログと、
    前記難易度に対応する前記分析ソフトウェアの情報を出力する推薦部と、をさらに有し、
    前記難易度算出部は、
    前記分析カタログの分析ソフトウェア毎に前記難易度を算出し、
    前記推薦部は、
    前記算出された難易度を所定の順序でソートして、前記難易度に対応する前記分析ソフトウェアの情報を出力することを特徴とする分析支援サーバ。
  10. 請求項9に記載の分析支援サーバであって、
    前記分析ソフトウェアが使用する前記入力データのカラムを特定する必要カラム管理情報を、さらに有し、
    前記難易度算出部は、
    前記必要カラム管理情報を参照して、前記分析ソフトウェアが使用するカラムを取得して、当該取得したカラムに対応する前記マッピング確度から前記難易度を算出することを特徴とする分析支援サーバ。
  11. 請求項9に記載の分析支援サーバであって、
    前記分析対象データのカラムを前記入力データのカラムに変換する定義を格納した第3のデータカタログと、
    前記第1のデータカタログと、前記第3のデータカタログを読み込んで、前記第1のデータカタログのカラムと前記第3のデータカタログのカラムの類似度をETLマッピング確度として算出するETLカラムマッピング確度算出部と、をさらに有し、
    前記難易度算出部は、
    前記マッピング確度とETLカラムマッピング確度のうち大きい方を選択して前記難易度を算出することを特徴とする分析支援サーバ。
  12. 請求項8に記載の分析支援サーバであって、
    前記難易度算出部は、
    前記分析対象データの品質を示す指標を算出し、前記マッピング確度を前記指標で補正してから前記難易度を算出することを特徴とする分析支援サーバ。
  13. 請求項9に記載の分析支援サーバであって、
    前記分析カタログは、
    前記分析ソフトウェア毎に処理に要する所要時間と、分析処理の納期を含み、
    前記推薦部は、
    前記分析カタログを参照して前記所要時間から前記納期を満たすように前記分析ソフトウェア毎にスケジューリングを行うことを特徴とする分析支援サーバ。
  14. 請求項13に記載の分析支援サーバであって、
    前記推薦部は、
    前記難易度に基づいて前記所要時間を補正して、当該補正した所要時間に基づいて前記スケジューリングを行うことを特徴とする分析支援サーバ。
  15. プロセッサとメモリを有する計算機で、分析対象データの評価を行わせるためのプログラムを格納した記憶媒体であって、
    前記分析対象データのカラムの定義を格納した第1のデータカタログと、分析処理を実行する分析ソフトウェアの入力データのカラムを定義した第2のデータカタログを読み込む第1のステップと、
    前記第1のデータカタログのカラムと前記第2のデータカタログのカラムの類似度をマッピング確度として算出する第2のステップと、
    前記分析ソフトウェアで使用する前記第2のデータカタログのカラムのマッピング確度に基づいて当該分析ソフトウェアで前記分析対象データを分析する難易度を算出する第3のステップと、
    を前記計算機に実行させるためのプログラムを格納した非一時的な計算機読み取り可能な記憶媒体。
JP2017241859A 2017-12-18 2017-12-18 分析支援方法、分析支援サーバ及び記憶媒体 Active JP6842405B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017241859A JP6842405B2 (ja) 2017-12-18 2017-12-18 分析支援方法、分析支援サーバ及び記憶媒体
KR1020207003031A KR102309094B1 (ko) 2017-12-18 2018-09-10 분석 지원 방법, 분석 지원 서버 및 기억 매체
PCT/JP2018/033417 WO2019123732A1 (ja) 2017-12-18 2018-09-10 分析支援方法、分析支援サーバ及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017241859A JP6842405B2 (ja) 2017-12-18 2017-12-18 分析支援方法、分析支援サーバ及び記憶媒体

Publications (2)

Publication Number Publication Date
JP2019109676A true JP2019109676A (ja) 2019-07-04
JP6842405B2 JP6842405B2 (ja) 2021-03-17

Family

ID=66993281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017241859A Active JP6842405B2 (ja) 2017-12-18 2017-12-18 分析支援方法、分析支援サーバ及び記憶媒体

Country Status (3)

Country Link
JP (1) JP6842405B2 (ja)
KR (1) KR102309094B1 (ja)
WO (1) WO2019123732A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013145230A1 (ja) * 2012-03-29 2013-10-03 富士通株式会社 情報分析支援装置、情報分析支援方法、及び情報分析支援プログラム
WO2015145540A1 (ja) * 2014-03-24 2015-10-01 株式会社日立製作所 開発情報生成装置およびその生成方法
WO2017168967A1 (ja) * 2016-03-28 2017-10-05 三菱電機株式会社 データ分析手法候補決定装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9110967B2 (en) 2007-08-29 2015-08-18 International Business Machines Corporation Data lineage in data warehousing environments
JP5359389B2 (ja) 2009-03-06 2013-12-04 大日本印刷株式会社 データ分析支援装置、データ分析支援システム、及びプログラム
US8548969B2 (en) 2010-06-02 2013-10-01 Cbs Interactive Inc. System and method for clustering content according to similarity
JP2012063917A (ja) 2010-09-15 2012-03-29 Ntt Docomo Inc アプリケーションの消費電力を評価する装置、配信サーバ及び方法
US8930303B2 (en) 2012-03-30 2015-01-06 International Business Machines Corporation Discovering pivot type relationships between database objects
US20150347927A1 (en) 2014-06-03 2015-12-03 Nec Laboratories America, Inc. Canonical co-clustering analysis
KR101720686B1 (ko) * 2014-10-21 2017-03-28 한국전자통신연구원 시각화 유사도 기반 악성 어플리케이션 감지 장치 및 감지 방법
JP6182279B2 (ja) 2015-03-31 2017-08-16 株式会社Ubic データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体
KR20170034053A (ko) * 2015-09-18 2017-03-28 삼성전자주식회사 제품의 생산 또는 분석과 연동하는 데이터 수집/처리 시스템, 및 이를 포함하는 제품 생산/분석 시스템
JP6327234B2 (ja) 2015-11-06 2018-05-23 横河電機株式会社 イベント解析装置、イベント解析システム、イベント解析方法、およびイベント解析プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013145230A1 (ja) * 2012-03-29 2013-10-03 富士通株式会社 情報分析支援装置、情報分析支援方法、及び情報分析支援プログラム
WO2015145540A1 (ja) * 2014-03-24 2015-10-01 株式会社日立製作所 開発情報生成装置およびその生成方法
WO2017168967A1 (ja) * 2016-03-28 2017-10-05 三菱電機株式会社 データ分析手法候補決定装置

Also Published As

Publication number Publication date
WO2019123732A1 (ja) 2019-06-27
KR20200020932A (ko) 2020-02-26
KR102309094B1 (ko) 2021-10-06
JP6842405B2 (ja) 2021-03-17

Similar Documents

Publication Publication Date Title
US11481792B2 (en) Method of training machine learning models for making simulated estimations
Andrews et al. Quality-informed semi-automated event log generation for process mining
US11281969B1 (en) Artificial intelligence system combining state space models and neural networks for time series forecasting
CN100568237C (zh) 多维企业软件系统中的报表模板生成方法和系统
US9466039B2 (en) Task assignment using ranking support vector machines
JP4287234B2 (ja) 業務プロセストラッキング装置,業務プロセストラッキング方法,業務プロセストラッキングプログラム,業務プロセストラッキングプログラムを記録した記録媒体
KR101066949B1 (ko) 업무 분석 프로그램을 기록한 컴퓨터 판독가능한 기록 매체 및 업무 분석 장치
CN101111838A (zh) 多维企业软件系统中的自动关系模式生成
JP6467264B2 (ja) 計画作成支援装置および計画作成支援方法
US20180330261A1 (en) Auto-selection of hierarchically-related near-term forecasting models
US11379466B2 (en) Data accuracy using natural language processing
US20240069967A1 (en) Pipeline task verification for a data processing platform
TWI818176B (zh) 計劃制定輔助裝置和計劃制定輔助方法
US8335759B2 (en) Work analysis device and recording medium recording work analysis program
Lu et al. Formalizing a path-float-based approach to determine and interpret total float in project scheduling analysis
KR102153259B1 (ko) 데이터 도메인 추천 방법 및 추천된 도메인을 이용하여 통합 데이터 저장소 관리 시스템을 구축하는 방법
US20180150543A1 (en) Unified multiversioned processing of derived data
JP6502816B2 (ja) 計画支援システム及び計画支援方法
WO2019123732A1 (ja) 分析支援方法、分析支援サーバ及び記憶媒体
Anand ETL and its impact on Business Intelligence
EP3086244B1 (en) Database system and method of operation thereof
Gasbarri et al. Optimized data connection for a BIM-GIS based university asset management system
US20140114964A1 (en) System and method for supporting a searching process in a supply chain management environment
CN110399337A (zh) 基于数据驱动的文件自动化服务方法和系统
Avdeenko et al. Modeling information space for decision-making in the interaction of higher education system with regional labor market

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210219

R150 Certificate of patent or registration of utility model

Ref document number: 6842405

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150