JP7247060B2 - データの利活用のためのデータ準備を支援するシステム、及び、その方法 - Google Patents

データの利活用のためのデータ準備を支援するシステム、及び、その方法 Download PDF

Info

Publication number
JP7247060B2
JP7247060B2 JP2019159980A JP2019159980A JP7247060B2 JP 7247060 B2 JP7247060 B2 JP 7247060B2 JP 2019159980 A JP2019159980 A JP 2019159980A JP 2019159980 A JP2019159980 A JP 2019159980A JP 7247060 B2 JP7247060 B2 JP 7247060B2
Authority
JP
Japan
Prior art keywords
data
analysis
target data
user
reference information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019159980A
Other languages
English (en)
Other versions
JP2021039523A (ja
JP2021039523A5 (ja
Inventor
秀典 山本
高志 津野
元伸 齊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019159980A priority Critical patent/JP7247060B2/ja
Priority to KR1020200023603A priority patent/KR102345302B1/ko
Publication of JP2021039523A publication Critical patent/JP2021039523A/ja
Publication of JP2021039523A5 publication Critical patent/JP2021039523A5/ja
Application granted granted Critical
Publication of JP7247060B2 publication Critical patent/JP7247060B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、データの利活用を支援するためのシステム、特に、データの利活用のためのデータ準備を支援するシステムに係り、例えば、複数の業務システムが有する多種、大量のデータの中から、データ分析の目的に沿ったデータを選出、抽出したりするのに好適なシステムに関する。
昨今、企業内に蓄積された多種多量のデータを利用して様々な業務課題を改善することが行われている。例えば、特開2004-29971号公報には、生産工程における生産装置や処理時刻のデータの中から所望するデータ解析に必要なデータのみを容易に抽出して、歩留り向上に有効な解析結果を得るために、データの説明変数に対しデータ項目のカテゴリを識別する付加文字列を付加し、データの異常値を特定値に置換あるいは削除するデータクレンジングを行い、データの目的変数の変動に基づく特徴情報を得て、解析処理時にデータのカテゴリを認識しカテゴリに対応した条件設定及び解析手順によりデータ解析を効率的に自動実行するデータ解析方法が提案されている。
そして、特開2016-181150号公報には、要求される分析の変更に対応自在のデータ処理を行うために、入力されたすべての入力データを格納するデータウェアハウスと、入力データを統合して統合データを生成した後、統合データを格納する統合レイヤと、統合データを、不加算項目の1つ以上の組合せ毎に、少なくとも加算項目の数量又は不加算項目の数を集計して複数の集計データを生成した後、複数の集計データを格納する集計レイヤと、設定部で設定された分析データの生成に必要な条件に基づき、複数の集計データから1つの集計データを選択し、さらに1つの集計データから分析データを抽出した後、分析データを格納する分析レイヤと、を有するデータ処理システムが提案されている。
特開2016-181150
近年、交通、電力、産業等の多くの分野において、多様化、多角化する様々な問題を解決するために、部署や業務を横断して収集された業務データを活用することが求められている。一方、夫々別々に構築、運用されてきた、複数の業務システム毎に異なる多種、大量のデータを扱うために、ユーザにはデータの理解や業務に対する経験や知識が必要であるものの、そのレベルは人によって異なり、そのことが、データを用いた課題の分析を進める上で妨げになっている。例えば、あるユーザは、自身が属する部署や自身の業務に係るデータを熟知していても、他の部署や他の業務に係るデータを把握できていないことが多く、その結果、複数の部署や業務を跨いで、ユーザが所望する分析に必要なデータを選出したり、データを加工したりする等、分析のための準備は困難になる。
そこで、複数の業務毎の違い、業務毎のデータやシステムの違いに対する理解や知識がユーザに不足していても、ユーザが、円滑にデータの分析に着手できるように、データの準備のための作業負荷を低減させることが望まれる。
上記特許文献1に開示された発明は、ユーザが対象データを理解していることを前提とするものであって、そのために、分析目的、分析手段、及び、分析のために用意すべきデータの内容を、ユーザが事前に整理しておくことが必要であり、特定種類のデータに対して、ユーザが想定した目的の下で、当該データが活用できるに過ぎない。一方、特許文献2に開示された発明に活用できるデータは、統合データになり得るデータに限られる。複数の業務システムからの多種多様なデータを一様に統合できるとは限らない。また統合データ、集計データから目的に合った分析データを作成するためには、ユーザは、元のデータを全て理解していることが必要となる。
本発明は、複数の業務システムから収集したデータの利活用を促進するために、データの利活用のためのデータの準備を支援するシステム、及び、その方法を提供することを目的とする。
前記目的を解決するために、本発明は、データの利活用のためのデータ準備を支援するシステムであって、処理装置と、記憶装置と、を備え、前記処理装置は、前記記憶装置に記録されたプログラムを実行することによって、複数の業務システムの夫々から業務データを収集し、当該業務データを前記記憶装置に対象データとして少なくとも一時的に蓄積し、ユーザ端末から前記対象データに対する分析目的を受信し、前記分析目的と前記対象データとに基づいて、前記分析目的に対して推奨される分析ステップを決定し、前記推奨される分析ステップに利用可能なデータの組合せを、前記対象データから抽出し、前記抽出されたデータの組合せの複数の夫々を評価し、当該評価の結果に基づいて、前記データの組合せの複数を夫々順位付けしたリストを作成し、当該リストを前記ユーザ端末に出力させ、ユーザが前記リストから所定のデータの組合せを選択できるようにした。
本発明によれば、複数の業務システムの多種多様、大量のデータに基づいて、課題解決などの分析等のために、これらデータの利活用を進める際でのデータ準備作業に於けるユーザの負荷を軽減し、以って、データの利活用を迅速、かつ、高品質に進めることができる。
データの利活用のためのデータ準備を支援するシステム構成の一例を示すブロック図である。 サーバがデータの利活用のためのデータ準備を支援する動作を実現するためのシーケンスの一例である。 サーバのモジュール構成の一例である。 ユーザが作成する分析目的情報、サーバにて保持する基準情報の構成の一例である。 分析ステップとして全体像把握をユーザが指定すると、サーバが作成する、データ準備テーブルの一例である。 分析ステップとして、“特異事象抽出”をユーザが指定すると、サーバが作成する、データ準備テーブルの一例である。 分析ステップとして、“要因分析/予測”をユーザが指定すると、サーバが作成する、データ準備テーブルの一例である。 サーバから、ユーザに提示、又は、提案される、データの組合せを管理する管理テーブルの一例を示す。 サーバがユーザに分析ステップを提案するための動作の一例に係る、フローチャートである。 ユーザが登録した分析ステップの適否を判定するためのマトリックスの第1の例である。 ユーザが登録した分析ステップの適否を判定するためのマトリックスの第2の例である。 ユーザが登録した分析ステップの適否を判定するためのマトリックスの第3の例である。 サーバがユーザに、分析ステップとしての全体像把握に利用可能なデータの組合せを、ユーザに提示するための動作の一例を示すフローチャートである。 サーバが、分析ステップとしての特異事象抽出に利用可能なデータの組合せを、ユーザに提示するための動作の一例を示すフローチャートである。 サーバが、分析ステップとしての要因分析/予測に利用可能なデータの組合せを、ユーザに提示するための動作の一例を示すフローチャートである。 サーバからユーザ端末に対して提供された、データ利活用を支援するためのグラフィカルユーザインターフェースの一例である。 サーバからユーザ端末に対して提供された、データ利活用を支援するためのグラフィカルユーザインターフェースの他の例である。 サーバからユーザ端末に対して提供された、データ利活用を支援するためのグラフィカルユーザインターフェースのさらに他の例である。 図8のフローチャートにおいて、複数のカラムの組合せを説明するためのテーブルである。 図10のフローチャートにおいて、複数のカラムの組合せを説明するためのテーブルである。
次に、本発明の実施形態について説明する。図1は、本発明を実現するための計算機システムの一例の構成図である。この計算機システムは、複数の業務システムから収集したデータの利活用のためのデータ準備を支援するサーバ101(コンピュータ)を備える。サーバ101は、システムを利用するユーザが入力した、データ分析の目的と、サーバ101が収集した、複数の業務システムのデータとを照合して、ユーザに対して、最適な分析ステップを提案し、合わせて、この分析ステップに利用可能な有用度の高いデータを提案することによって、データの利活用のためのデータ準備を支援する。
ユーザは、システムに分析目的を登録するだけで、そして、システムから提案、又は、提供されたデータに基づいて、課題解決のため等の分析を実行することにより、ユーザ自身がデータを収集したり、数多くのデータの中から有用なデータを抽出する等のデータ準備に係る作業を強いられることなく、ユーザが意図している、データ分析を行うことができる。
サーバ101には、複数の業務システム104、105、106と、複数のユーザ端末102、103とが接続されている。ユーザ端末は、ユーザが希望する分析目的をサーバ101に登録し、次いで、分析目的を実現する上での分析ステップ、及び、この分析ステップに利用可能なデータの提案を、サーバ101から受け、次いで、これらを確認後、データ分析を実施する、もしくは、サーバ101に対してデータ分析を実施させることができる。
複数の業務システムの夫々から、サーバ101に、ユーザが所望するデータ分析の対象として、サーバ101が参照するデータ(以下、対象データ、という。)が提供される。なお、複数の業務システムの夫々からサーバ101へのデータ提供はネットワーク108を介した通信により実施する場合だけでなく、ネットワーク108を介さず、例えば、人手を介してのサーバ101へのデータ格納を行うことでもよい。複数の業務システムとしては、鉄道分野を例とすると、例えば、列車の運行管理システム、駅の管理システム、そして、保守管理システムを例示することができる。
業務システムからサーバ101に送られるデータは、特に、制限されなくてよく、例えば、データテーブル、その他、バイナリデータとしてのセンサ情報等、データの種類、データの方式等が制限されない。ユーザは、複数の業務システムを横断して、所定の課題や問題点の原因を総合的に探るために、サーバ101に、データ分析の目的を登録する。この目的としては、輸送業を例にすると、例えば、“列車の遅延”があり、即ち、遅延の原因を、複数の業務システムを横断して特定し、以って、遅延の予防、抑制に役立てようとすることがある。
サーバ101と、複数のユーザ端末102、103、・・・・の夫々とはネットワーク107を介して接続されている。サーバ101と、複数の業務システム104、105、106、・・・・の夫々とはネットワーク108を介して相互接続されている。
データ利活用、及び、データ準備のための基盤としてのサーバ101の主なハードウェア構成は、記憶装置(メインメモリ、ハードディスク、外部ストレージシステムの記憶領域)111、処理装置(CPU)112、そして、通信装置113である。ユーザ端末102、103も同様である。処理装置112は、非一時的記録媒体(記憶装置)111に対象データを少なくとも一時的に記録する。
図2は、サーバ101がデータの利活用のためのデータ準備を支援する動作を実現するためのシーケンスの一例である。なお、ユーザ201は、複数の部署を横断して収集された様々なデータに対して、所定の分析ステップに基づいて、問題発見、解決策の立案、等を行おうとしている者、又は、そのためのアプリケーションであってよい。
複数の業務システム104-106の夫々は、サーバ101に業務データを登録する(211)。サーバ101は、業務データの記憶領域にアクセスして、業務データを参照し、データカタログ、データ定義を設定する(221)。サーバ101がデータカタログ等を設定するとは、データカタログ等を作成すること、又は、更新することを含む。サーバ101は、後述のとおり、ユーザが入力した分析目的と、自身が作成した基準情報(データカタログ、データ定義)とに基づいて、分析態様(分析ステップ、候補データリスト)を作成して、これをユーザに提示する。
データカタログ、そして、データ定義等の基準情報は、サーバ101が、ユーザ201が意図する分析目的と、業務データとに基づいて、ユーザ201に、最適な分析ステップを提案し、そして、この分析ステップに利用可能な有用度の高いデータを提案するために、業務データを分別する、評価する等、業務データの解析のための基準、又は、指標等の一例として理解されればよい。データカタログ、データ定義の詳細は後述する。
ユーザ201は、ユーザ端末102を介して、所望する、データ分析の目的をサーバ101に登録する(231)。サーバ101は、業務システムデータ、そして、基準情報(データカタログ、データ定義)とに基づいて、ユーザが登録した分析目的を評価して、ユーザに推奨する分析ステップを判定、判別、決定、そして、選定する等して確定し、これをユーザ端末102に報知する(222)。
ユーザ201は、サーバ101から提示され、推奨された分析ステップを確認する、又は、複数の分析ステップの中から所定の分析ステップを選択する等して、分析ステップを確定させて、これをサーバ101に報知する(232)。
サーバ101は、複数の業務システムから収集したデータの中から、分析ステップに適した、複数の候補データを抽出して、これをユーザ201に提示する(223)。ユーザ201は、サーバ101から送信された、複数の候補データのリストを参照して、分析対象とするデータを決定、或いは、選択等によって設定して、確定した分析ステップ(232)に基づいて、分析対象データを分析する。また、これをサーバ101に報知する(233)。サーバ101は、ステップ222、ステップ223、そして、ステップ233の結果に基づいて、基準情報(データカタログ/データ定義)を更新する(224)。
データカタログ、データ定義等の基準情報は、サーバ101の管理者、又は、運営者によって作成、又は、更新されてよい。サーバ101は、ユーザの分析目的、業務データに基づく機械学習を行うことによって、データカタログ等を作成、又は、更新してもよい。
分析目的(後述の図4:401)はデータ分析のターゲットを端的に示す情報であってよく、例えば、“列車遅延”である。ユーザ201は、分析目的を、例えば、“分析ステップ”、“KPI”、そして、“着目データ項目”によって記述してサーバに登録することができる。“分析ステップ”、そして、“KPI”は必須情報とし、“着目データ項目”は任意情報としてよい。KPIは、データの分析において、ユーザが注目する要素であり、例えば、既述の“列車遅延”である。KPIは、キーワードの他、算出式によって定義されてもよい。
着目データ項目は、例えば、KPIを評価するための軸として着目されるべき要素、又は、KPIと同時に監視すべき名称である。例えば、KPIが“列車遅延”として、着目データ項目は、“発車時刻”、“到着時刻”、“運行日時”、そして、“遅延時分”の少なくとも一つである。
分析ステップは、業務上の問題解決等のために分析を進める上での実施段階を表したものであり、複数のタイプがあり、主として、対象データの全体像を把握するための態様、対象データから特異事象を抽出するための態様、そして、対象データから要因を分析して、結果を予測する態様が例示される。これらを、以後、(1)全体像把握、(2)特異事象抽出、(3)要因分析/予測、ということとする。
ユーザ201は、複数の分析ステップを分析目的に含ませることができる。複数のステップには、優先度、順番等の優劣の区別があってもよい。
前記分析ステップの夫々の態様について、ユーザ201が用い得る計算手法として、例えば、全体像把握には傾向分析、特異事象抽出には外れ値検出、及び/又は、変化点抽出、要因分析/予測には、回帰分析/重回帰分析、及び/又は、分類/クラスタ分析がある。
サーバ101は、記憶装置111に、基準情報(“定義情報”と称してもよい)として、データカタログ、データ定義(221)を有する。データカタログ(図4:402)には、サーバ101が複数の業務システム104から収集した対象データのデータカタログと、対象データを加工した加工データのデータカタログとがある。加工データのデータカタログには、対象データから加工データを得るための算出式に関する情報を含んでよい。
対象データに関するカタログとして、例えば、“カラム名”、“名称・意味”、“補足情報”、等の項目からなるものがある。一例として、{arrival time,到着時刻,・・・}、{KRT,キロ程,・・・}がある。なお、カラム名とは、対象データ(データテーブル)のカラムに記録された名称である。
加工データに関するカタログとして、“データ名”、“算出式”、“名称・意味”、“補足情報”等の項目からなるものがあり、一例として、{delay,“実績時刻”-“計画時刻”,遅延時分,・・・}がある。
既述のデータ定義221は、例えば、4W辞書(図4:403)と、データ推移パタン(図4:404)と、を備える。4W辞書は、対象データの全体像の傾向を4W(When、Where、What、Who)の観点から把握するためのものであり、4Wのカテゴリ毎にキーワードを含む。例えば、4W辞書データは、“キーワード”、“カテゴリ”の組合せからなり、一例として、{キーワード,カテゴリ}={時刻,when}、{date,when}、{キロ程,where}、{Kilometrage,where}、{駅コード,where}である。
データ推移パタンは、4W辞書に加えて値の推移を含むものであり、例えば、“データ名・種別”、“カテゴリ”、“データ型”、“値変化幅”、“下限”、そして、“上限”とからなる。一例として、{キロ程,where,integer,1,0,300}、{到着時刻(分),when,integer,5,0,1440}がある。
図3は、サーバ101のモジュール構成の一例である。サーバ101には、既述の図2において説明した、諸機能を実現するためのミドルウェア301が実装されている。ミドルウェア301は、サーバ101の記憶装置111に保存されたプログラムを実行する処理装置112によって実現される、複数の機能モジュールを備えている。そして、ミドルウェア301は、業務システム104の対象データ311、対象データ311から特徴量として抽出される等して加工された加工データ312とを、記憶装置111に備えている。
ミドルウェア301は、対象データ311、加工データ312を管理するデータ管理モジュール321を備え、データカタログ402、データ定義315、そして、ユーザ201が登録した分析目的の適否を判定するためのマトリックス313を記憶装置111に備えている。
ミドルウェア301は、既述の基準情報(データカタログ、データ定義)を管理する基準情報管理モジュール322、サーバ101にアクセスしてデータ準備に係る作業を行うユーザを管理するユーザ管理モジュール323、定義情報を参照し、そして、ユーザの分析目的情報401に基づいて、ユーザに分析ステップ、及び/又は、作業項目の提案を行う分析ステップ提案モジュール324を備える。
ミドルウェア301は、データ定義315を参照して、ユーザの分析目的情報401に基づいて分析用データを提案する分析用データ提案モジュール325と、ユーザに対する提案情報をデータ準備テーブル314として更新、管理する提案実行管理モジュール326と、ユーザ端末102、103に、ミドルウェア301の機能にアクセスするためのインタフェースを提供するインタフェースモジュール327と、ネットワーク107、108を介して、ユーザ端末102、103、そして、業務システム104・・・・と通信を行うデータ通信モジュール328と、分析ステップが全体像把握である場合の分析用データ提案のための、例えば、傾向分析等の処理を実行する全体像把握モジュール331と、分析ステップが特異事象である場合の分析用データ提案のための、例えば、特異点(例えば、外れ値、大きな変化点、大きな偏り)を抽出する処理を実行する特異事象抽出モジュール332と、分析ステップが要因分析/予測である場合の分析用データ提案のための、例えば、回帰分析、重回帰分析等の処理を実行する要因分析・予測モジュール333と、を備える。
既述の基準情報管理モジュール322は、基準情報(データカタログ402、データ定義315、マトリックス313)を管理する。例えば、この情報は、産業分野毎(鉄道、電力等)に存在してよく、基準情報管理モジュール322は、産業分野毎に基準情報を管理し、業務データ、又は、分析目的等に応じて、所定分野の基準情報を選択するようにしてもよい。
なお、既述のモジュールとは、処理装置がプログラムを実行することにより実現される機能であって、例えば、部、手段、要素、回路、又は、ユニットと言い換えられてもよい。
次に、サーバ101によって作成され、ユーザに提示される分析用データの候補リストについて説明する。図5Aの501は、分析ステップとして“全体像把握”をユーザが指定すると、サーバ101が作成する、前記データ準備テーブル314(候補リスト)の一例である。分析用データ提案モジュール325が、このテーブルを作成、又は、更新する。このテーブルは、順位511、識別情報512、KPI513、着目データ1(When)514、着目データ2(Where)515、着目データ3(What)516、着目データ4(Who)517、レコード数518、そして、出力ファイル519を備える。
順位511には、識別情報512により特定されるデータ組合せ(行)に対して、優先度に基づき割り振られる順位に関する情報が格納される。データ組合せとは、対象データ311のテーブルが“KPIデータ”カラム名として含む、当該カラムのレコードと、“when”に該当する着目データ1(例えば、既述の“時刻”)を、対象データ311のテーブルがカラム名として含む、当該カラムのレコードと、“where”に該当する着目データ2(例えば、既述の“キロ程”)に係る同様なレコードと、“what”に該当する着目データ3(例えば、既述の“列番”)に係る同様なレコードと、そして、“who”に該当する着目データ4(例えば、“運転士ID”)に係る同様なレコードとの組合せをいう。
なお、着目データ1-4(514-517)のそれぞれには、分析目的情報401を構成するユーザ入力の、“着目データ項目”と同一又は類似のものがあれば、これが記載される。着目データ1-4(514-517)のうち、該当するものがない、即ち、4W辞書に登録が無く、かつ、着目データ項目も規定されていない場合には、空白が記録される。
KPI513には、分析目的情報401を構成する、ユーザ入力の“KPI”と、同一、又は、類似のものが格納される。
レコード数518には、識別情報512により特定されるデータ組合せにおける、有効状態にあるレコード数が格納される。出力ファイル519には、識別情報512により特定されるデータ組合せのレコードを出力するファイルのパスが格納される。
図5Bの502は、分析ステップとして、“特異事象抽出”をユーザが指定すると、サーバ101が作成する、データ準備テーブル314の一例である。特異事象リストでもあるテーブル502において、テーブル501と同一の符号についての説明は同じである。テーブル502は、特異点(外れ値)数520、特異点(変化点)数521、特異点(偏り)数522を備える。
特異点(外れ値)数520には、識別情報512により特定されるデータ組合せにおける、KPIから抽出した特異点の種別が“外れ値”であるものの数に関する情報が格納される。
特異点(変化点)数521には、識別情報512により特定されるデータ組合せにおける、KPIから抽出した特異点の種別が“大きな変化点”であるものの数に関する情報が格納される。特異点(偏り)数522には、識別情報512により特定されるデータ組合せにおけるKPIから抽出した特異点の種別が“大きな偏り”であるものの数に関する情報が格納される。
図5Cの503は、分析ステップとして、“要因分析/予測”をユーザが指定すると、サーバ101が作成する、データ準備テーブル314の一例である。目的変数・説明変数組合せリストでもあるテーブル503において、テーブル501と同一の符号についての説明は同じである。
目的変数・説明変数組合せリスト503は、目的変数530、説明変数531、レコード数518、判定値1(533)、判定値2(534)、判定値3(535)、判定値4(536)を備える。目的変数530には、分析目的に含まれるKPIが格納される。説明変数データ531には、KPI名を含むカラム以外で、ユーザによって選択された、カラムの名称が記録される。
判定値1(533)には、識別情報512により特定される、データの組合せの順位511を算出するために用いる1つ目の判定値データが格納され、判定値2(534)には、2つ目の判定値データが格納され、判定値3(535)には、3つ目の判定値データに関する情報が格納され、判定値4(536)には、4つ目の判定値データに関する情報が格納される。これら判定値については図10において、詳しく説明する。
図5Dは、サーバ101から、ユーザに提示、又は、提案される、データの組合せを管理する管理テーブル504の一例である。このテーブルは、データ管理モジュール321によって、作成、又は、更新される。管理テーブル504は、サーバ101が、ユーザからの分析目的情報401と、基準情報221と、そして、対象データ311とに基づいてユーザに提案するデータ、に関する情報を格納する。
提案実行管理モジュール326は、ユーザからの分析目的情報401を受け付けて、分析ステップを推奨し、そして、分析に利用されるデータを提案する際に、テーブル504を作成、又は、更新する。このテーブル504は、識別情報541、KPI(513)、データ組合せ543、利用回数544、利用人数545、更新日時546を含む。
識別情報541には、ユーザへのデータ提案を識別するための情報が格納される。KPI(513)には、識別情報541によって特定されるデータ提案におけるKPIデータが格納される。データ組合せ543には、識別情報541により特定されるユーザに提案されるデータの組合せが、分析ステップが全体像把握、又は、特異事象抽出である場合に格納され、分析ステップが要因分析・予測である場合、説明変数の組合せが格納される。
利用回数544は、識別情報541によって特定されるデータ提案におけるデータ組合せの利用回数に関する情報が格納され、ユーザによる利用の都度更新される。
利用人数545には、識別情報541によって特定されるデータ提案におけるデータ組合せの利用人数に関する情報が格納される。この利用人数は、延べ人数でもよいし、異なるユーザの人数でもよい。この情報は、識別情報541により特定されるデータ提案が、ユーザに利用される都度更新される。更新日時546には、候補リスト501のレコードが更新された日時が格納される。
図6は、サーバ101がユーザに分析ステップを推奨するための動作の一例に係るフローチャートである。サーバ101は、ユーザの入力情報231と、基準情報221、対象データ311とに基づいて、ユーザの分析目的が適切か否かを判定し、判定結果を、ユーザに推奨する分析ステップとして出力する。
サーバ101は、ユーザから分析目的情報401の登録231があると、フローチャートを開始する。分析ステップ提案モジュール324は、ステップ601において、ユーザからの分析目的情報401に含まれる、KPIと着目データ項目夫々の名称を、対象データ311のテーブルのカラム名と比較して、比較の結果を、一致度として算出する。同一の名称が“一致”となることは勿論であるが、類似の名称を“一致”に含めてもよい。“類似”とは、例えば、類義語をいう。“一致度”とは、一致の累計、一致の割合、そして、閾値との比較等でよい。モジュール324は、対象データが複数ある場合には、対象データごとに一致度を算出し、例えば、対象データごとの一致度を累計して、複数の対象データの一致度としてよい。
次いで、分析ステップ提案モジュール324は、ステップ602において、KPI、そして、着目データ項目夫々の名称と、データカタログ402のデータ項目名とを比較して既述の一致度を計算する。
次いで、分析ステップ提案モジュール324は、ステップ603において、KPI、そして、着目データ項目夫々の名称と、データ定義315(4W辞書、データ推移パタン辞書)にあるデータ項目名とを比較し、一致度を求める。
ステップ601において、一致度が高いということは、ユーザの分析目的に対する、対象データのデータ量が不足していないこと、及び/又は、対象データの質が高いことを示すものであり、そして、ステップ602、603において、一致度が高いということは、対象データを分別、分類、判別、又は、評価等するための情報が、ユーザの分析目的に適合していることを示す。一致度を、例えば、適合度、親和度、該当度等と言い換えてもよい。
分析ステップ提案モジュール324は、ステップ604において、ユーザからの分析目的情報401にある分析ステップが、“要因分析/予測”であるか否かを判定する。分析ステップ提案モジュール324が、ステップ604を否定判定すると、ステップ605において、基準情報(データカタログ402、データ定義315)の充実度を算出する。充実度とは、基準情報の分析目的に対する有効性、有用性、又は、信頼性を表す指標、例えば、情報の豊富さの程度を示す指標であり、これは、例えば、データカタログ402、データ定義315への情報登録件数、そして、参照回数、等のアクセス頻度に基づいて決定されてよい。充実度を有効度等と言い換えてもよい。
分析ステップ提案モジュール324がステップ604を肯定判定すると、ステップ606に移動し、分析ステップとしての“要因分析/予測”に於ける、説明変数候補となる加工データ312の充実度を算出する(ステップ606)。この充実度は、加工データのカラム名の数、有効なレコードの数の多さから算出されてよい。
分析ステップ提案モジュール324は、ステップ607において、ステップ605~606の結果に基づいて、図7A等に示す、ユーザが登録した分析ステップ231の適否を判定するためのマトリックス313を参照して、ユーザに推奨すべき、分析ステップ、及び/又は、作業項目を、判定、判別等をすることによって決定する。
分析ステップ提案モジュール324は、ステップ607の決定内容をステップ608において、ユーザに提示して、ユーザの確認、選択等を求める。以上によって、サーバ101は、フローチャートを終了する。なお、分析ステップ、そして、作業項目を纏めて、例えば、分析態様、又は、分析手法等と呼んでよい。
分析ステップ提案モジュール324は、ユーザに提案すべき分析ステップを判定するための基準であるマトリックスとして、ユーザが分析目的情報(分析ステップ)として、“全体像把握”を選択した場合には、マトリックス701(図7A)を採用し、“特異事象抽出”を選択した場合には、マトリックス702(図7B)を採用し、“要因分析/予測”を選択した場合には、マトリックス703(図7C)を採用する。
判定マトリックス701(図7A)は、ステップ601-603の分析目的情報との一致度と、ステップ605のデータカタログ、データ定義の充実度との相関を規定したものであり、分析ステップ提案モジュール324が、一致度、そして、充実度を夫々所定の閾値と比較して、その高低を決定してよい。
判定マトリックス701の“分析目的情報との一致度”は、ステップ601-603夫々の一致度を、例えば、加算したもの、平均したもの等でよい。ステップ601-603夫々の一致度のうち、所定のステップの一致度を優先させるようにしてもよい。判定マトリックス701の“データカタログ/データ定義の充実度”は、夫々の充実度、例えば、加算したもの、平均したもの等でよい。一方の充実度を優先させるようにしてもよい。
一致度が“高い”、かつ、充実度が“高い”場合、そして、一致度が“高い”、かつ、充実度が“低い”場合、ユーザの分析目的に適する、対象データは十分量存在し得るから、分析ステップ提案モジュール324は、ユーザがサーバ101に登録した分析ステップとしての“全体像把握”を、そのまま推奨してユーザに提示する。
一方、一致度が“低い”、かつ、充実度が“高い”場合、対象データ量が不足している可能性があるから、“全体像把握”が直ちに実施されることは好ましくはないため、分析ステップ提案モジュール324は、“全体像把握”を維持しながらも、それを実現するのに必要な作業項目として、先ずは、“データ追加”を推奨する。
また、一致度が“低い”、かつ、充実度が“低い”場合、ユーザの分析目的に適するデータは存在していたとしても、そもそも、データカタログ402、そして、データ定義315の質が十分でない可能性があるため、分析ステップ提案モジュール324は、分析ステップとして“全体像把握”の実施は好ましくないと判定して、作業項目として、統計によるデータ理解促進、データカタログ402、データ定義315の拡充を推奨する。
判定マトリックス702(図7B)の“分析目的情報との一致度”、“高い”、“低い”の意義は、判定マトリックス701のものと同じである。“分析目的情報に一致のデータの充実度”は、ステップ601-603にてユーザからの分析目的情報401との一致度が高いと判定される、対象データ311におけるデータ、または、データカタログ402、データ定義315のデータ項目に該当する対象データ311(または、加工データ312)におけるデータの充実度を示す。
この充実度は、これらデータ(テーブル)の有効なレコードの数の多さから算出されてよい。一致度が、“高い”、かつ、充実度が“高い”場合、分析ステップ提案モジュール324は、ユーザの分析目的に適する、対象データ量は十分であり得るから、ユーザが登録した、分析ステップとしての“特異事象抽出”を、そのまま推奨する。
一方、一致度が“高い”、かつ、充実度が“低い”場合、ユーザの分析目的に適するデータが十分に存在し得ても、特異事象としてのデータレコード数が相対的に不足している可能性があるため、分析ステップ提案モジュール324は、分析ステップとして“特異事象抽出”の実施は困難であると判定して、作業項目として、対象データを追加することを推奨する。
また、一致度が“低い”、かつ、データの充実度が“高い”場合、又は、一致度が“低い”、かつ、充実度が“低い”場合、分析ステップ提案モジュール324は、ユーザが望む分析目的に適する、対象データが不足している、もしくは、ユーザが、十分に、データを理解できていない可能性があると判断して、分析ステップとして“特異事象抽出”を実施することは困難であり、ユーザに、先ず、“全体像把握”に変更して、“全体像把握”に戻って、これからデータ分析を始めることを推奨する。この場合、分析ステップ提案モジュール324は、判定マトリックス701(図7A)に基づいて、“全体像把握”としての適否を判定する。
判定マトリックス703(図7C)の“分析目的情報との一致度”について、“高い”、“低い”の意義は、判定マトリックス701のものと同じである。判定マトリックス703の“加工データの充実度”は加工データに対するものであって、“充実度”、そして、その“高い”、“低い”自体の意義は、既述のとおりである。
一致度が“高い”、かつ、充実度が“高い”場合、ユーザの分析目的に適する対象データ量は十分であるから、分析ステップ提案モジュール324は、ユーザが指定した分析ステップとしての“要因分析/予測”をそのまま推奨する。
一致度が“高い”、かつ、充実度が“低い”場合、分析ステップ提案モジュール324は、ユーザの分析目的に適する、対象データが十分に存在し得ても、要因分析/予測を実施するには説明変数となる、加工データのレコード数が不足し得るから、分析ステップとしての“要因分析/予測”の実施は困難であると判定して、作業項目として加工データの拡充をユーザに推奨する。
一致度が“低い”、かつ、充実度が“高い”場合、分析ステップ提案モジュール324は、ユーザの分析目的に適する、対象データ自体が不足している可能性があるから、ユーザに、“全体像把握”に戻って検討することを推奨する。
一致度が“低い”、かつ、充実度が“低い”場合、分析ステップ提案モジュール324は、ユーザの分析目的に適する、対象データ自体が不足している可能性がある、もしくは、データ理解が十分ではない可能性があるから、また要因分析/予測を実施するには説明変数となるデータのレコード数が不足している可能性があるから、ユーザに、“全体像把握”に戻ること、そして、作業項目として加工データを拡充することを推奨する。
図8は、サーバ101がユーザに、分析ステップとしての“全体像把握”に利用可能なデータの組合せを、ユーザに提示するための動作の一例を示すフローチャートである。サーバ101は、判定マトリックス701に基づいて、分析ステップとして、“全体像把握”を決定すると、図8のフローチャートをスタートさせる。
分析用データ提案モジュール325は、ステップ801において、ユーザ201から受け付けた分析目的情報401(231)からKPIと着目データ項目とを抽出する。次いで、分析用データ提案モジュール325は、ステップ802において、対象データ311のテーブルから前記KPIに該当するカラム、即ち、KPIの名称と同一又は類似名のカラムを抽出する。図12において、対象データ311は2つのデータ(テーブル)311A,311Bを備え、テーブル311AのカラムBがKPIと同一名のカラムである。
分析用データ提案モジュール325は、ステップ803において、対象データ311から着目データ項目に該当するカラムを抽出する。分析用データ提案モジュール325は、ステップ804において、対象データ311から、4W辞書221の4W(When、Where、What、Who)夫々のキーワードに該当する(キーワードに同一、又は、類似する)、対象データ311のカラムを抽出する。なお、分析用データ提案モジュール325は、ステップ802、及び/又は、ステップ803において、抽出されたカラムが、ステップ804で再度抽出された場合には、これを除く。
分析用データ提案モジュール325は、ステップ805において、対象データ311における各カラムのレコードを参照して、データ推移パタン定義404にある4W辞書221の4Wの夫々のキーワードのデータ値の推移パタンに該当するカラムを対象データ311から抽出する。なお、分析用データ提案モジュール325は、ステップ802、及び/又は、ステップ803において、抽出されたカラムが、ステップ805で再度抽出された場合には、これを除く。
分析用データ提案モジュール325は、ステップ806において、ステップ803、ステップ804、又は、ステップ805で抽出されたカラムの優先度を設定する。分析用データ提案モジュール325は、例えば、前記3つのステップにて抽出されたカラムの優先度を2つのステップもしくは1つのステップのみで抽出されたカラムより優先度を高くする。
分析用データ提案モジュール325は、ステップ807において、ステップ804-805のカラム(4W候補カラム)のリストを、ステップ806に係る優先度が分かるように、ユーザに提示し、ステップ808において、ユーザからの要求があれば、4W候補カラムの絞込みを実施して、一部のカラムをデータ分析対象から除外することができる。
分析用データ提案モジュール325は、ステップ809において、ステップ802で抽出した、KPIに該当するカラム(KPIカラム)と、ステップ803で抽出した着目データ項目に該当するカラム(着目データ項目カラム)、ステップ804-808に係るカラム(4W候補カラム)と、からなる組合せを作成する。以後、この組合せを、“合成カラム組合せ”という。
ステップ803で抽出した着目データ項目に該当するカラムと、ステップ804-808に係る4W候補カラムと、を纏めて、KPIカラムに対して軸候補となる“軸候補カラム”と称することとする。
図12において、テーブル311AのカラムCが軸候補カラム1であり、テーブル311AのカラムDが軸候補カラム2であり、テーブル311BのカラムGが軸候補カラム2であり、テーブル311AのカラムHが軸候補カラム3である(カラムDとカラムGの名称は同一または類似)。テーブル311Cが合成カラム組合せである。
分析用データ提案モジュール325は、同一又は類似の名称のKPIカラムが複数のデータテーブルで重複する場合、そして、同一又は類似の名称の軸候補カラムが複数のデータテーブルで重複する場合、重複するカラムを交換するようにして合成カラム組合せを複数作成する。図12の例に即して説明すると、分析用データ提案モジュール325は、合成カラム組合せとしてのテーブル311Cを、軸候補カラム2がテーブル311AのカラムCのものと、軸候補カラム2がテーブル311BのカラムGのものの二つ、作成する。即ち、分析用データ提案モジュール325は、合成カラム組合せ1(カラムB,C,D,H)と合成カラム組合せ2(カラムB,C,G,H)の2つを定義する。同一名のKPIカラムの数を“k”とし、同一名の軸候補1の数を“m1”、同一名の軸候補2の数を“m2”・・・同一名の軸候補nの数を“mn”とすると、合成カラム組合せの数は“k*m1*m2*・・・*mn”になる。もしくは同一または類似の名称の軸候補カラム同士をキーとしてテーブル311A、311Bを結合することにより合成カラム組合せを作成する。
分析用データ提案モジュール325は、ステップ810において、複数の合成カラム組合せから、有効なレコード数が零であるカラム組合せを除外する。有効なレコード数が零であるカラム組合せとは、カラム組合せの全てのレコードにデータが記録されていないものをいう。
次いで、分析用データ提案モジュール325は、ステップ811において、合成カラム組合せの夫々について、夫々の組合せのレコードの特性、属性、例えば、レコードに含まれる複数のデータ値の変動パタンを判定する。分析用データ提案モジュール325は、この判定結果を、分析用データの候補の作成に反映させる。
データ値の変動パタンは、例えば、“連続値”、“連続繰返し値”、又は、“離散値”である。“連続値”は、数値データで、全てのレコードでほとんど値が異なるパタンである。“連続繰返し値”は、数値データで、全てのレコードについて、データ値が一定範囲内で増減することを繰り返すパタンである。“離散値”は、文字列データ、または、数値データで、ユニークな値の数がレコード数の一定割合以下であるパタンである。
分析用データ提案モジュール325は、ステップ812において、合成カラム組合せ毎にデータ値変動パタンを判別し、パタンが“連続値”であることを判別すると、ステップ813に移行して、合成カラム組合せの夫々について、全ての合成カラム組合せを結合して、全レコードの数を算出する。
分析用データ提案モジュール325は、ステップ812において、データ値変動パタンを判別し、パタンが“連続繰返し値”であることを判別すると、ステップ814に移行して、合成カラム組合せの夫々について、データの繰返しの範囲毎にレコードを分類し、さらに、ステップ815に移行して、繰り返し範囲毎に、合成カラム組合せの夫々を結合して、レコード数を算出する。
分析用データ提案モジュール325は、ステップ812において、データ値変動パタンを判別し、パタンが“離散値”であることを判別すると、ステップ816に移行して、ステップ811において選択した軸候補カラムと4Wの同分類にて“離散値”であることが判別された他の軸候補カラムを1つ以上選出し、ステップ817において、KPIカラムとステップ816で選出した複数の軸候補カラムを結合し、文字列データと数値データとの各分類でのレコード数を算出する。
分析用データ提案モジュール325は、ステップ818において、ステップ811-817の結果に基づいて、レコード数をデータ値変動パタン毎に集計し、ステップ819において、合成カラム組合せの全てに処理が完了しているか否かを判定し、これを否定すると、ステップ811にリターンし、これを肯定判定すると、ステップ820に移行する。
分析用データ提案モジュール325は、ステップ820において、データ値変動パタン毎に、全組合せの夫々の有用度を、例えば、有効状態のレコード数(データ量)をキーにして評価し、全組合せを評価値の降順にソートして候補リスト(図5Aの501)を作成してユーザに提示する。
分析用データ提案モジュール325は、候補リスト501の順位511に、ステップ820で決定された順位を格納し、KPI、そして、着目データ項目を、KPI513、着目データ1-4(514-517)に、有効レコード数をレコード数518に、データ組合せのファイル出力先を出力ファイル519にそれぞれ格納される。
分析用データ提案モジュール325は、ステップ821において、候補リスト501に含まれる、カラム組合せ夫々について、傾向分析を実施し、その結果をグラフとして作成し、ユーザに提示する。ユーザは、グラフを参照して、所定の組合せを指定、選択することができる。ユーザは、候補リストの中から所望の組合せを選択してもよい。この場合、選択された組合せについてのみ、グラフが作成されてもよい。
分析用データ提案モジュール325は、ステップ822において、ユーザによって指定された組合せに係るカラムのレコードをCSVファイル等として出力する。CSVファイルは、ユーザが改めて対象データの傾向分析を実施する際に使用できる。
分析用データ提案モジュール325は、ステップ823において、ステップ820で作成された候補リスト501、ステップ822で指定された組合せに基づいて、データカタログ402とデータ定義221とを更新、又は、追加する。したがって、データ分析が進むにしたがって、データカタログとデータ定義とが改良されていく。
図9は、サーバ101が、分析ステップとしての“特異事象抽出”に利用可能なデータの組合せを、ユーザに提示するための動作の一例を示すフローチャートである。サーバ101は、判定マトリックス702に基づいて、分析ステップとして、“特異事象抽出”を決定すると、図9のフローチャートをスタートさせる。
図9のフローチャートにおいて、図8のフローチャートのステップ801―819の工程は同じである。分析用データ提案モジュール325は、ステップ903において、全カラム組合せの夫々について順位付けを行い、順位が閾値以上であるの組合せを抽出する。順位付けは、複数の組合せに夫々おける有効なレコードの多さに基づいたものでよい。
分析用データ提案モジュール325は、ステップ904において、ステップ903において抽出した、複数の組合せの一つの組合せのデータについて特異点の有無を判定し、ステップ905で特異点の判定を肯定すると、ステップ906において、特異点の数を算出する。特異点とは例えば、外れ値、大きな変化点、大きな偏り、等でよい。分析用データ提案モジュール325は、前記特異点に関する情報を特異事象リスト502に追加する。
分析用データ提案モジュール325は、ステップ905を否定すると、ステップ906を経ることなく、ステップ907に移行し、既述の組合せの全てについて、ステップ904、905、906を適用したか否かを判定し、否定判定するとステップ904に戻り、肯定判定するとステップ908に移行する。
分析用データ提案モジュール325は、ステップ908において、全ての組合せ夫々の有用度を、例えば、特異点の数に基づいて、昇順にソートする等して順位付けし、特異事象リスト502を作成して、これをユーザに提示する。特異点の数は、例えば、外れ値の数、変化点の数、そして、偏りの数を合計したもの、或いは、平均であってもよい。
分析用データ提案モジュール325は、特異事象リスト502の順位511に、組合せ毎の順位を格納し、KPIをKPI513に格納し、着目データ項目を着目データ1-4(514-517)に格納し、組合せ毎の有効レコード数をレコード数518に格納し、組合せ毎の特異点(外れ値、大きな変化点、大きな偏り)の数を特異点数520-522に格納し、組合せ毎のデータファイルの出力先を出力ファイル519に格納する。
分析用データ提案モジュール325は、ステップ909において、全ての組合せ毎に特異事象算出グラフを作成し、ユーザに提示する。後は、図8のフローチャートのステップ822,823と同じである。
図10は、サーバ101が、分析ステップとしての要因分析/予測に利用可能なデータの組合せを、図8,9のフローチャートと同様にリストとして、ユーザに提示するための動作の一例を示すフローチャートである。サーバ101は、判定マトリックス703に基づいて、分析ステップとして、“要因分析/予測”を決定すると、図10のフローチャートをスタートさせる。
分析用データ提案モジュール325は、図10のフローチャートを開始すると、ステップ1001において、ユーザより受け付けた分析目的情報401に基づいて、KPI(KPI名称、KPI算出式)を抽出する。
分析用データ提案モジュール325は、ステップ1002において、KPIの名称に該当する、対象データ311、及び/又は、加工データ312のカラム名を抽出し、これを目的変数カラムとする。分析用データ提案モジュール325は、KPI算出式に基づいて、目的変数カラムを作成してもよい。図13において、対象データ311CのカラムBが、KPIに該当した目的変数カラムである。
分析用データ提案モジュール325は、ステップ1003において、対象データ311のテーブル、または、加工データ312のテーブルから説明変数の候補となるカラムの所定数を選択する。説明変数の候補となるカラムは、対象データ311のテーブル、または、加工データ312のテーブルのカラムのうち、ステップ1002で選出された目的変数カラムを除いたカラムである。
分析用データ提案モジュール325は、目的変数カラムに対する、説明変数カラムの一つ又は複数の組合せを全て作成する。図13は、対象データ311(テーブル311A)のカラムB以外の全てのカラム、加工データ312(テーブル311D)の全てのカラムが説明変数カラムになり得ることを示している。例えば、選択する説明変数カラムの数が2つであるとすると、分析用データ提案モジュール325は、対象データ311AのカラムB以外の全てのカラムと、加工データ311Dの全てのカラムから2つのカラムの全ての組合せを複数作成し、夫々の組合せと目的変数カラムとを合わせて、目的変数カラムと説明変数カラムとの合成カラムからなるテーブルを複数構成する。図13の311E-1~311E-4・・・・・の夫々が合成カラムからなるテーブルである。
分析用データ提案モジュール325は、ステップ1004において、対象データのテーブル、そして、加工データのテーブルの全てのカラム間の相関係数を算出する。分析用データ提案モジュール325は、ステップ1005において、ステップ1002で抽出した目的変数カラムと、ステップ1003で選出した数の説明変数の候補カラムとの全ての組合せに対して、回帰分析、または、重回帰分析等の学習を実施する。
分析用データ提案モジュール325は、ステップ1006において、目的変数カラムと説明変数カラムとの全ての組合せの夫々について有用度を演算し、演算結果に基づいて、全ての組合せ夫々を順位付けしたリストを作成する。ユーザは所望の組合せを選択できる。
複数の組合せのうちの夫々の組合せの有用度は、例えば、(1)目的変数と説明変数の相関係数の絶対値(ステップ1004)、(2)ステップ1005での、学習結果の良さ(決定変数、正解率)(3)目的変数のカラムと説明変数のカラムとに於ける、有効な値を含むレコードの全数、そして、(4)説明変数間の相関係数の絶対値(ステップ1004)の少なくとも一つの優劣であってよく、分析用データ提案モジュール325は、有用度の昇順、又は、降順によって、組合せを順位付ける。
分析用データ提案モジュール325は、有用度(1)-有用度(4)夫々の順位を総合した順位を決定して、これを目的変数・説明変数組合せリスト503の順位511に、KPIを目的変数(KPI)530に、一つ以上の説明変数の名称を説明変数531に、全ての組合せの有効レコード数をレコード数518に、有用度(1)-(4)を有用度1-4(533―536)に、組合せ夫々のレコードのファイルの出力先を出力ファイル519に、それぞれ格納される。
分析用データ提案モジュール325は、ステップ1007において、ステップ1006で作成したリストに含まれる目的変数・説明変数の組合せ毎に学習結果グラフを作成し、ユーザに提示して、ユーザが所望の組合せを選択できるようにする。ここでリストの上位から指定された数の目的変数・説明変数の組合せのみのグラフを作成することも可能である。
そして、分析用データ提案モジュール325は、ステップ822において、ステップ1007の結果を参照したユーザにより指定された説明変数カラム及び目的変数カラムに関するデータレコードをCSVファイル等に出力する。このファイルは、ユーザが自ら要因分析/予測を実施する際に使用される。
分析用データ提案モジュール325は、ステップ1006でのリスト503の作成結果、このリストからのユーザによる選択の結果を基に、データカタログ、データ定義315の変更、情報の追記を行う。
図11A-図11Cは、サーバ101から、ユーザ端末102、103に対して提供された、データ利活用を支援するためのグラフィックインターフェースの例である。提案実行管理モジュール326は、分析用データ提案モジュール325と、分析手法提案モジュール324に基づいて、分析目的をリクエストしたユーザ端末に、グラフィックインターフェース用画面を表示させる。
図11Aの画面1101において、ユーザが指定した分析ステップとしての“全体像把握”と、これに対する、サーバ101が“データ追加”を推奨することが第1の領域1111に表示されている。
さらに、分析目的情報401と対象データとの一致度と、データカタログ、データ定義情報の充実度とからなる第2の領域1112と、データ追加のための不足データと、データカタログの格納先、そして、データ定義の格納先とからなる第3の領域1113とが補足情報として表示されている。
図11Bの画面1102は、推奨分析ステップが全体像把握である、前記候補リスト501の一例である。複数のカラムを組合せたデータについて、その複数(ステップ820)が有用度順に羅列されている(1121)。領域1122は、データ組合せ毎で、傾向分析の結果得られたグラフの例である(ステップ821)。
図11Cの画面1103、推奨分析ステップが要因分析/予測である、前記目的変数・説明変数組合せリスト503の一例である。複数のカラムを組合せたデータについて、その複数(ステップ1006)が有用度順に羅列されている(1131)。領域1132は、データ組合せ毎で、学習の結果を示すグラフである。
既述の実施形態によれば、サーバ101は、ユーザ201が複数の業務システムの多種多様、大量のデータを活用して課題分析等を行う際、ユーザが分析目的をサーバに登録すれば、ユーザの負荷を軽減しながら、分析に有用なデータのリストをユーザに提示できる。ユーザは、データ利活用を行う前のデータの準備作業を迅速かつ容易に実現できるようになる。
サーバ101は、ユーザに推奨した分析ステップを実行しようとしている当該ユーザに対して、分析目的に関連するデータを提示しようとする際、分析目的(KPI、着目データ項目)に関連するカラムと、分析目的と適合性があり、かつ、充実度も高い基準情報に関連するカラムと、を組合せ、両カラムのレコードをユーザに提示するため、ユーザは、分析目的をサーバに登録しさえすれば、分析目的に関連するデータの組合せを広範に取得することができる。
101 サーバ
102、103 ユーザ端末
104-106 業務システム

Claims (9)

  1. データの利活用のためのデータ準備を支援するシステムであって、
    処理装置と、
    記憶装置と、を備え、
    前記処理装置は、前記記憶装置に記録されたプログラムを実行することによって、
    複数の業務システムの夫々から業務データを収集し、当該業務データを前記記憶装置に対象データとして少なくとも一時的に蓄積し、
    ユーザ端末から前記対象データに対する分析目的を受信し、
    前記分析目的と前記対象データとに基づいて、前記分析目的に対して推奨される分析ステップを決定し、
    前記推奨される分析ステップに利用可能なデータの組合せを、前記対象データから抽出し、
    前記抽出されたデータの組合せの複数の夫々を評価し、
    当該評価の結果に基づいて、前記データの組合せの複数を夫々順位付けしたリストを作成し、
    当該リストを前記ユーザ端末に出力させ、
    ユーザが前記リストから所定のデータの組合せを選択できるように
    前記記憶装置は、前記対象データに対する基準情報を備え、
    前記処理装置は、
    前記推奨される分析ステップを前記基準情報に基づいて決定することと、
    前記推奨される分析ステップを決定することを、前記対象データに対する分析の実施段階の複数タイプの中から、いずれかのタイプの分析の実施段階に決定することによって実行することと、
    を有し、
    前記処理装置は、
    前記分析目的が、前記対象データ、又は、当該対象データ及び前記基準情報に適合する程度を算出し、
    前記基準情報の前記分析目的に対する有効性の程度を算出し、
    両方の算出結果に基づいて、前記いずれかのタイプの分析の実施段階を決定し、
    前記分析目的はKPIを含み、
    前記基準情報は前記対象データに対する辞書データを含み、
    前記処理装置は、
    前記分析目的が前記対象データに適合する程度を算出することを、前記KPIと前記対象データのカラム名とを比較することによって行い、
    前記分析目的が前記基準情報に適合する程度を算出することを、前記KPIと前記辞書データとを比較することによって行う、
    システム。
  2. 前記分析目的は、前記複数のタイプの分析の実施段階のうち、ユーザが所望する分析の実施段階を含み、
    前記処理装置は、
    前記両方の算出結果に基づいて、当該ユーザが所望する分析の実施段階を評価し、この評価は当該分析の実施段階を維持するか、又は、他の分析の実施段階に変更することを含み、
    前記評価の結果に基づいて、前記ユーザに、前記推奨される分析の実施段階を提示する、
    請求項記載のシステム。
  3. データの利活用のためのデータ準備を支援するシステムであって、
    処理装置と、
    記憶装置と、を備え、
    前記処理装置は、前記記憶装置に記録されたプログラムを実行することによって、
    複数の業務システムの夫々から業務データを収集し、当該業務データを前記記憶装置に対象データとして少なくとも一時的に蓄積し、
    ユーザ端末から前記対象データに対する分析目的を受信し、
    前記分析目的と前記対象データとに基づいて、前記分析目的に対して推奨される分析ステップを決定し、
    前記推奨される分析ステップに利用可能なデータの組合せを、前記対象データから抽出し、
    前記抽出されたデータの組合せの複数の夫々を評価し、
    当該評価の結果に基づいて、前記データの組合せの複数を夫々順位付けしたリストを作成し、
    当該リストを前記ユーザ端末に出力させ、
    ユーザが前記リストから所定のデータの組合せを選択できるようにし、
    前記記憶装置は、前記対象データに関する基準情報を備え、
    前記処理装置は、
    前記推奨される分析ステップに利用可能なデータの組合せを、前記対象データから抽出することを、
    前記対象データから前記分析目的に該当するデータを抽出することと、そして、
    前記対象データから前記基準情報に該当するデータを抽出することと、から実行し、
    前記分析目的に該当するデータと、前記基準情報に該当するデータと、に基づいて、前記データの組合せの複数を構成し、
    当該データの組合せの複数の夫々を、データ量に基づいて評価し、
    前記処理装置は、
    前記対象データから前記分析目的に該当するデータを抽出することを、前記分析目的に該当するカラムを前記対象データから抽出することから実行し、
    前記対象データから前記基準情報に該当するデータを抽出することを、前記対象データから前記基準情報に該当するカラムを前記対象データから抽出することから実行し、
    前記データの組合せとして、前記分析目的に該当するカラムと前記基準情報に該当するカラムの組合せを複数構成し、
    前記データ量として、当該複数の組合せ夫々のレコード数を算出する、
    システム。
  4. 前記処理装置は、
    前記分析の実施段階の複数タイプ毎に、前記抽出されたデータの組合せの複数の夫々を評価する、
    請求項記載のシステム。
  5. 前記処理装置は、
    前記複数の組合せの夫々について、複数あるデータ値変動パタンのうちどのデータ値変動パタンを備えるかを判定し、
    データ値変動パタン毎に前記レコード数を算出する、
    請求項記載のシステム。
  6. 前記処理装置は、
    前記対象データのカラムを前記辞書データの4W情報の夫々に基づいて抽出する、
    請求項記載のシステム。
  7. ユーザによる分析目的情報の登録に対する、推奨する分析ステップ、または、作業項目に関する情報、さらに各分析ステップにおけるユーザが指定するKPIや着目データ項目に関連する利用可能なデータの組合せに関する情報を、ユーザに提示するための出力装置を有する、請求項1記載のシステム。
  8. データの利活用のためのデータ準備を支援する方法であって、
    コンピュータは、
    複数の業務システムの夫々から業務データを収集し、当該業務データを記憶装置に対象データとして少なくとも一時的に蓄積し、
    ユーザ端末から前記対象データに対する分析目的を受信し、
    前記分析目的と前記対象データとに基づいて、前記分析目的に対して推奨される分析ステップを決定し、
    前記推奨される分析ステップに利用可能なデータの組合せを、前記対象データから抽出し、
    前記抽出されたデータの組合せの複数の夫々を評価し、
    当該評価の結果に基づいて、前記データの組合せの複数を夫々順位付けしたリストを作成し、
    当該リストを前記ユーザ端末に出力させ、
    ユーザが前記リストから所定のデータの組合せを選択できるように
    前記記憶装置は、前記対象データに関する基準情報を備え、
    前記コンピュータは、
    前記推奨される分析ステップを前記基準情報に基づいて決定することと、
    前記推奨される分析ステップを決定することを、前記対象データに対する分析の実施段階の複数タイプの中から、いずれかのタイプの分析の実施段階に決定することによって実行することを有し、
    前記コンピュータは、
    前記分析目的が、前記対象データ、又は、当該対象データ及び前記基準情報に適合した程度を算出し、
    前記基準情報の前記分析目的に対する有効性の程度を算出し、
    両方の算出結果に基づいて、前記いずれかのタイプの分析の実施段階を決定し、
    前記分析目的はKPIを含み、
    前記基準情報は前記対象データに対する辞書データを含み、
    前記コンピュータは、
    前記分析目的が前記対象データに適した程度を算出することを、前記KPIと前記対象データのカラム名を比較することによって行い、
    前記分析目的が前記基準情報に適合する程度を算出することを、前記KPIと前記辞書データとを比較することによって行う、
    前記方法。
  9. データの利活用のためのデータ準備を支援する方法であって、
    コンピュータは、
    複数の業務システムの夫々から業務データを収集し、当該業務データを記憶装置に対象データとして少なくとも一時的に蓄積し、
    ユーザ端末から前記対象データに対する分析目的を受信し、
    前記分析目的と前記対象データとに基づいて、前記分析目的に対して推奨される分析ステップを決定し、
    前記推奨される分析ステップに利用可能なデータの組合せを、前記対象データから抽出し、
    前記抽出されたデータの組合せの複数の夫々を評価し、
    当該評価の結果に基づいて、前記データの組合せの複数を夫々順位付けしたリストを作成し、
    当該リストを前記ユーザ端末に出力させ、
    ユーザが前記リストから所定のデータの組合せを選択できるようにし、
    前記記憶装置は、前記対象データに関する基準情報を備え、
    前記コンピュータは、
    前記推奨される分析ステップに利用可能なデータの組合せを、前記対象データから抽出することを、
    前記対象データから前記分析目的に該当するデータを抽出することと、そして、
    前記対象データから前記基準情報に該当するデータを抽出することと、から実行し、
    前記分析目的に該当するデータと、前記基準情報に該当するデータと、に基づいて、前記データの組合せの複数を構成し、
    当該データの組合せの複数の夫々を、データ量に基づいて評価し、
    前記コンピュータは、
    前記対象データから前記分析目的に該当するデータを抽出することを、前記分析目的に該当するカラムを前記対象データから抽出することから実行し、
    前記対象データから前記基準情報に該当するデータを抽出することを、前記対象データから前記基準情報に該当するカラムを前記対象データから抽出することから実行し、
    前記データの組合せとして、前記分析目的に該当するカラムと前記基準情報に該当するカラムとの組合せを複数構成し、
    前記データ量として、当該複数の組合せ夫々のレコード数を算出する、
    前記方法。
JP2019159980A 2019-09-02 2019-09-02 データの利活用のためのデータ準備を支援するシステム、及び、その方法 Active JP7247060B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019159980A JP7247060B2 (ja) 2019-09-02 2019-09-02 データの利活用のためのデータ準備を支援するシステム、及び、その方法
KR1020200023603A KR102345302B1 (ko) 2019-09-02 2020-02-26 데이터의 이용·활용을 위한 데이터 준비를 지원하는 시스템, 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019159980A JP7247060B2 (ja) 2019-09-02 2019-09-02 データの利活用のためのデータ準備を支援するシステム、及び、その方法

Publications (3)

Publication Number Publication Date
JP2021039523A JP2021039523A (ja) 2021-03-11
JP2021039523A5 JP2021039523A5 (ja) 2022-03-25
JP7247060B2 true JP7247060B2 (ja) 2023-03-28

Family

ID=74849117

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019159980A Active JP7247060B2 (ja) 2019-09-02 2019-09-02 データの利活用のためのデータ準備を支援するシステム、及び、その方法

Country Status (2)

Country Link
JP (1) JP7247060B2 (ja)
KR (1) KR102345302B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2024096635A (ja) * 2023-01-04 2024-07-17 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010205218A (ja) 2009-03-06 2010-09-16 Dainippon Printing Co Ltd データ分析支援装置、データ分析支援システム、データ分析支援方法、及びプログラム
US20160328406A1 (en) 2015-05-08 2016-11-10 Informatica Llc Interactive recommendation of data sets for data analysis
WO2018159042A1 (ja) 2017-03-02 2018-09-07 株式会社日立製作所 分析ソフトウェア管理システム及び分析ソフトウェア管理方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877010A (ja) * 1994-09-07 1996-03-22 Hitachi Ltd データ分析方法および装置
JP2005190402A (ja) 2003-12-26 2005-07-14 Hitachi Ltd リスク評価支援システム、情報処理装置、リスク評価支援方法、及びプログラム
JP2013077124A (ja) 2011-09-30 2013-04-25 Hitachi Ltd ソフトウェアテストケース生成装置
JP6158623B2 (ja) 2013-07-25 2017-07-05 株式会社日立製作所 データベース分析装置及び方法
JP2016004525A (ja) 2014-06-19 2016-01-12 株式会社日立製作所 データ分析システム及びデータ分析方法
JP5847344B1 (ja) 2015-03-24 2016-01-20 株式会社ギックス データ処理システム、データ処理方法、プログラム及びコンピュータ記憶媒体
JP2019106031A (ja) 2017-12-13 2019-06-27 株式会社日立製作所 データ処理システム及びデータ分析処理方法
JP6903595B2 (ja) 2018-01-22 2021-07-14 株式会社日立製作所 データ分析支援システム及びデータ分析支援方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010205218A (ja) 2009-03-06 2010-09-16 Dainippon Printing Co Ltd データ分析支援装置、データ分析支援システム、データ分析支援方法、及びプログラム
US20160328406A1 (en) 2015-05-08 2016-11-10 Informatica Llc Interactive recommendation of data sets for data analysis
WO2018159042A1 (ja) 2017-03-02 2018-09-07 株式会社日立製作所 分析ソフトウェア管理システム及び分析ソフトウェア管理方法

Also Published As

Publication number Publication date
KR102345302B1 (ko) 2021-12-31
KR20210027024A (ko) 2021-03-10
JP2021039523A (ja) 2021-03-11

Similar Documents

Publication Publication Date Title
Larco et al. Managing warehouse efficiency and worker discomfort through enhanced storage assignment decisions
Gozhyj et al. Web resources management method based on intelligent technologies
Karsak Robot selection using an integrated approach based on quality function deployment and fuzzy regression
US20130297540A1 (en) Systems, methods and computer-readable media for generating judicial prediction information
US8015057B1 (en) Method and system for analyzing service outsourcing
Felfernig et al. An overview of recommender systems in requirements engineering
Neumann et al. Simulating operator learning during production ramp-up in parallel vs. serial flow production
JP2012155684A (ja) 生涯需要予測方法、プログラムおよび生涯需要予測装置
US20170132555A1 (en) Semi-automated machine learning process to match work to worker
JP6696568B2 (ja) アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置
JP7247060B2 (ja) データの利活用のためのデータ準備を支援するシステム、及び、その方法
Jain et al. Evaluation of flexibility in FMS by VIKOR methodology
Gattermann-Itschert et al. Using machine learning to include planners’ preferences in railway crew scheduling optimization
JP2008159023A (ja) 部品の採用決定支援システム、部品の採用決定支援方法、および部品の採用決定支援プログラム
Chan et al. Comparative performance analysis of a flexible manufacturing system (FMS): a review-period-based control
KR20180035633A (ko) 인간 의사결정 프로세스의 기계학습에 기초한 의사 결정을 위한 인공지능
Rahmiati et al. Ceramic supplier selection using analytical hierarchy process method.
JP5101846B2 (ja) マーケティング支援システム
JP2011227601A (ja) 情報提供装置及びそのプログラム
Prakash et al. Effects of inventory classifications on CONWIP system: a case study
JP2006059195A (ja) 求職者・求人者マッチングシステムおよび求職者・求人者マッチング方法
JP7295792B2 (ja) データ分析装置およびデータ分析方法
JP5900154B2 (ja) 商品推薦方法及びサーバ装置
JP2011227920A (ja) マーケティング支援システム
Aouadni et al. Supplier selection: an analytic network process and imprecise goal programming model integrating the decision-maker’s preferences

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220316

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220316

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230315

R150 Certificate of patent or registration of utility model

Ref document number: 7247060

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150