JP2019185582A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2019185582A5 JP2019185582A5 JP2018078244A JP2018078244A JP2019185582A5 JP 2019185582 A5 JP2019185582 A5 JP 2019185582A5 JP 2018078244 A JP2018078244 A JP 2018078244A JP 2018078244 A JP2018078244 A JP 2018078244A JP 2019185582 A5 JP2019185582 A5 JP 2019185582A5
- Authority
- JP
- Japan
- Prior art keywords
- data
- utilization
- data preparation
- preparation
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002360 preparation method Methods 0.000 claims description 339
- 238000000034 method Methods 0.000 claims description 78
- 239000000203 mixture Substances 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 31
- 230000000875 corresponding Effects 0.000 claims description 22
- 238000004220 aggregation Methods 0.000 claims description 15
- 230000002776 aggregation Effects 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 8
- 235000021171 collation Nutrition 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 41
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 9
- 238000007405 data analysis Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000005755 formation reaction Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004642 transportation engineering Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000004931 aggregating Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Images
Description
本発明は、データ利活用に係るデータ準備方法及びデータ利活用システムに関する。
更に詳しくは、例えば、複数の業務システムからのデータを対象とした様々な目的・用途で利活用するデータを準備及び管理するデータ利活用に係るデータ準備方法及び利活用システムに関する。
更に詳しくは、例えば、複数の業務システムからのデータを対象とした様々な目的・用途で利活用するデータを準備及び管理するデータ利活用に係るデータ準備方法及び利活用システムに関する。
データ分析システムとして、特開2010−277534号公報(特許文献1)に記載された技術が提案されている。この公報には、「分析者にとって有益な知識の発見のために、データ分析を行なうとともに、データ分析に必要なデータの収集とデータの前処理とを行なうデータ分析システムにおいて、該データの収集と該データの前処理を行なうデータ収集装置と、該データ収集装置で前処理された該データを送信するデータ送信部とを備えたデータ収集側の装置と、該データ送信部から送信された該前処理されたデータを受信するデータ受信部と、該データ受信部で受信された該前処理されたデータをデータ分析するデータ分析装置とを備えたデータ分析側の装置とで構成されたことを特徴とするデータ分析システム」との記載がある。
また、データ処理システムとして、特開2016−181150号公報(特許文献2)に記載された技術が提案されている。この公報には、「入力されたデータを処理して分析用のデータを生成するデータ処理システムであって、データベースを格納する記憶部と、 前記データベースに格納されるデータを処理する処理部と、分析用のデータを生成するために必要な条件を設定する設定部と、を有し、前記データベースは、入力されたすべての入力データを格納するデータウェアハウスと、前記処理部によって前記入力データを統合して統合データを生成した後、前記統合データを格納する統合レイヤと、前記処理部によって前記統合データを、不加算項目の1つ以上の組み合わせ毎に、少なくとも加算項目の数量又は不加算項目の数を集計して複数の集計データを生成した後、前記複数の集計データを格納する集計レイヤと、前記処理部によって、前記設定部で設定された条件に基づき、前記複数の集計データから1つの集計データを選択し、さらに当該1つの集計データから分析データを抽出した後、前記分析データを格納する分析レイヤと、を有することを特徴とする、データ処理システム」との記載がある。
また、データ処理システムとして、特開2016−181150号公報(特許文献2)に記載された技術が提案されている。この公報には、「入力されたデータを処理して分析用のデータを生成するデータ処理システムであって、データベースを格納する記憶部と、 前記データベースに格納されるデータを処理する処理部と、分析用のデータを生成するために必要な条件を設定する設定部と、を有し、前記データベースは、入力されたすべての入力データを格納するデータウェアハウスと、前記処理部によって前記入力データを統合して統合データを生成した後、前記統合データを格納する統合レイヤと、前記処理部によって前記統合データを、不加算項目の1つ以上の組み合わせ毎に、少なくとも加算項目の数量又は不加算項目の数を集計して複数の集計データを生成した後、前記複数の集計データを格納する集計レイヤと、前記処理部によって、前記設定部で設定された条件に基づき、前記複数の集計データから1つの集計データを選択し、さらに当該1つの集計データから分析データを抽出した後、前記分析データを格納する分析レイヤと、を有することを特徴とする、データ処理システム」との記載がある。
複数の業務システムから収集したデータを蓄積・管理し、分析したデータを利活用する
アプリケーションに対して提供する場合、例えば、交通、電力、産業、その他分野の業務における様々な問題を解決するためには、部署や業務を跨いで横断的に業務データを大量に収集し、それらの分析実施が求められる。しかし、現状、大量の業務データの理解が必要であることや業務知識に基づく属人性が高いこと、等が分析実施の妨げとなっている。
そこで、業務データの分析・加工の知識や業務知識が十分に無い人でも、迅速かつ容易に分析でき、かつ、各種の業務データに対する分析処理の作成及び実施に係る負荷を低減することが求められる。
特許文献1に開示された発明は、分析目的に該当する分析処理と前処理とのプログラム対応表を事前に作成し、該プログラム対応表を参照し、分析目的に該当する前処理プログラムをデータ収集装置に配布し、個々の生データ向けに目的に合致した前処理を実施するものであり、当該技術では、事前に分析目的と対象生データを全て洗い出して、分析処理と前処理との対応表を作成することが必要であり、特定の種類のデータに対して、想定の範囲内の目的のみへの活用となる。つまり、複数のシステムからの多種多様なデータを対象とすると、前処理や分析との対応表の作成に負荷が増大する課題がある。
また、特許文献2に開示された発明は、入力された全データを結合して結合データを生成し、また、様々な項目にて集計データを生成し、これらの結合データ及び集計データから必要なデータを抽出し、目的に応じた分析データを作成するものであり、当該技術では、活用可能なのは統合データの作成可能なデータに限られる。複数の業務システムからの多種多様なデータに対しては一様に統合データを作成できるとは限らない。また、統合データ、集計データから目的に合った分析データを作成するためには、元のデータを全て理解していることが必要となる。つまり、複数のシステムからの多種多様なデータに対して一様に統合データを作成することがでるとは限らない課題がある。
以上のように、従来として、業務上の課題解決や異常原因究明等の目的でデータ利活用を促進するために、業務システムからのデータの蓄積及びデータ準備、データ利活用に係る機能等を提供するデータ利活用システムが導入されているが、ユーザの多種多様な利活用の目的に応えるためには、上述した特許文献1または特許文献2に開示された技術のように、事前に想定された限られた範囲内だけでの有効活用可能な機能の提供となるか、汎用的に使える標準的な機能の提供のみに限られる。このため、多種多様な利活用の目的を達成するためには、データ準備、データ利活用に係る作業においてユーザ自身による負担が大きくなり得る等の課題があった。
アプリケーションに対して提供する場合、例えば、交通、電力、産業、その他分野の業務における様々な問題を解決するためには、部署や業務を跨いで横断的に業務データを大量に収集し、それらの分析実施が求められる。しかし、現状、大量の業務データの理解が必要であることや業務知識に基づく属人性が高いこと、等が分析実施の妨げとなっている。
そこで、業務データの分析・加工の知識や業務知識が十分に無い人でも、迅速かつ容易に分析でき、かつ、各種の業務データに対する分析処理の作成及び実施に係る負荷を低減することが求められる。
特許文献1に開示された発明は、分析目的に該当する分析処理と前処理とのプログラム対応表を事前に作成し、該プログラム対応表を参照し、分析目的に該当する前処理プログラムをデータ収集装置に配布し、個々の生データ向けに目的に合致した前処理を実施するものであり、当該技術では、事前に分析目的と対象生データを全て洗い出して、分析処理と前処理との対応表を作成することが必要であり、特定の種類のデータに対して、想定の範囲内の目的のみへの活用となる。つまり、複数のシステムからの多種多様なデータを対象とすると、前処理や分析との対応表の作成に負荷が増大する課題がある。
また、特許文献2に開示された発明は、入力された全データを結合して結合データを生成し、また、様々な項目にて集計データを生成し、これらの結合データ及び集計データから必要なデータを抽出し、目的に応じた分析データを作成するものであり、当該技術では、活用可能なのは統合データの作成可能なデータに限られる。複数の業務システムからの多種多様なデータに対しては一様に統合データを作成できるとは限らない。また、統合データ、集計データから目的に合った分析データを作成するためには、元のデータを全て理解していることが必要となる。つまり、複数のシステムからの多種多様なデータに対して一様に統合データを作成することがでるとは限らない課題がある。
以上のように、従来として、業務上の課題解決や異常原因究明等の目的でデータ利活用を促進するために、業務システムからのデータの蓄積及びデータ準備、データ利活用に係る機能等を提供するデータ利活用システムが導入されているが、ユーザの多種多様な利活用の目的に応えるためには、上述した特許文献1または特許文献2に開示された技術のように、事前に想定された限られた範囲内だけでの有効活用可能な機能の提供となるか、汎用的に使える標準的な機能の提供のみに限られる。このため、多種多様な利活用の目的を達成するためには、データ準備、データ利活用に係る作業においてユーザ自身による負担が大きくなり得る等の課題があった。
そこで、本発明では、上述した課題に鑑み、データ蓄積及びデータ準備、データ利活用に係る機能を提供するシステムにおいて、複数の業務システムからの多種多様な利活用目的でのデータ利活用を容易に行える技術を目的とする。
例えば、業務課題解決や異常原因究明、等に対して、データ分析やその課題解決立案、課題解決のための業務アプリケーションの作成、等に対応することができ、多種多様なデータを用いて、様々な目的でのデータ利活用を行うユーザに対して、適切な重要度の高いデータ準備内容(データ準備項目)を容易に提案することができる技術を目的とする。
例えば、業務課題解決や異常原因究明、等に対して、データ分析やその課題解決立案、課題解決のための業務アプリケーションの作成、等に対応することができ、多種多様なデータを用いて、様々な目的でのデータ利活用を行うユーザに対して、適切な重要度の高いデータ準備内容(データ準備項目)を容易に提案することができる技術を目的とする。
具体的には、例えば、データを利活用するユーザ(分析者や開発者)向けに対して、利活用の目的に対する適切なデータ準備内容(テーブル化、テーブル結合・データ抽出、データ構造化、データ加工の作業項目:データ準備項目)を提案し、本システムを管理するユーザ(管理者)向けに対して、様々なユーザの様々な目的に対するデータ準備内容(準備しておくべき、重要度の高いデータ準備内容)を提示する、データ利活用に係るデータ準備方法及びデータ利活用システムを提供することを目的とする。
上記課題を解決するため、本発明の代表的なデータ利活用に係るデータ準備方法及びデータ利活用システムの一つは、データを利活用するユーザが指定する利活用目的とデータ準備、データ利活用機能を有するシステムにて用意するデータ準備内容項目を含む情報とを照合し、該利活用目的のために実施すべきデータ準備内容項目及び難易度を算出して、データを利活用するユーザに提示する機能と、前記利活用目的に対するデータ準備内容項目を集計し、類似するデータ準備内容をカテゴリ化し、該カテゴリ化したカテゴリの重要度を算出して、前記システムを管理するユーザに提示する機能と、前記データ準備内容のカテゴリに対して、前記データ準備内容項目に該当する処理プログラム、データ関係定義を含むリストを作成し、前記データ準備内容項目の有用度を算出して、データを利活用するユーザに対して提示する機能と、を含む。
本発明によれば、複数の業務システムからの多種多様なデータを用いた、分析をはじめとするデータ利活用の実施に要するコストを低減することができる。特に、複数のユーザ向けへのデータ利活用システムを構築する場合に、データ利活用のためのデータ準備に係るより有用な機能・サービスの提供に寄与できる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
以下、本発明の実施形態について図面を用いて説明する。
図1は、本発明のデータ利活用に係るデータ準備方法を適用したシステムの構成を示すブロック図である。
データ利活用に係るデータ準備方法を適用したシステムは、データ利活用システムを構築するデータ利活用基盤サーバ101、管理者端末102、複数のユーザ端末103〜105、複数の業務システム106〜108を備えている。本例では、ユーザ端末、業務システムがそれぞれ3つの場合を示しているが、その数に制限はない。
データ利活用基盤サーバ101は、ネットワーク109を介して管理者端末102と複数のユーザ端末103〜104に接続され、また、ネットワーク109’を介して複数の業務システム106〜108に相互接続されている。
本例では、業務システム106〜108からデータ利活用基盤サーバ101へ利活用の対象となる業務データ(生データ)を、ネットワーク109’を介して収集しているが、ネットワーク109’を介さず、例えば、業務データ(生データ)を人手にてデータ利活用基盤サーバ101へ直接入力するようにしてもよい。
また、ユーザとは、現場データの知識に乏しく、ITリテラシーの高い分析者、開発者やシステム管理者、等を想定する。
分析者とは、部署横断で様々なデータに対して、様々な分析手法や分析ツールを用いて、問題発見、解決策立案、等を行う者である。
開発者とは、分析業務に必要な分析アプリケーションを開発する者である。システム管理者とは、データ利活用システムを管理、運用し、業務システムからの生データの蓄積・加工等の処理ロジックプログラムの登録、管理を行う者である。
また、ユーザとは、現場データの知識に乏しく、ITリテラシーの高い分析者、開発者やシステム管理者、等を想定する。
分析者とは、部署横断で様々なデータに対して、様々な分析手法や分析ツールを用いて、問題発見、解決策立案、等を行う者である。
開発者とは、分析業務に必要な分析アプリケーションを開発する者である。システム管理者とは、データ利活用システムを管理、運用し、業務システムからの生データの蓄積・加工等の処理ロジックプログラムの登録、管理を行う者である。
そして、データ利活用基盤サーバ101は、業務データ(生データ)であって、利活用の対象となるデータを蓄積し、利活用に向けた該データに対する準備処理の実行、データ準備及び利活用に係るデータ関係定義のためのデータ関係情報、処理プログラム等の管理及びデータ利活用を行うユーザ(分析者や開発者)と当該データ利活用システム(本システム)におけるデータ利活用基盤サーバ101を管理するユーザ(システム管理者)へのデータ準備内容や類似カテゴリ、重要度、有用度、等に関する提案を行う機能を有する。
利活用に向けた該データに対する準備処理の実行とは、例えば、少なくとも、要求データ項目、入力データ構造を含む利活用目的とデータカタログ、データ関係情報、を含む本システムにて用意するデータ情報とを照合し、それらのギャップ評価を行い、生データより対象データ(データ/ファイル/システム)を選出し、対象データの実施すべきデータ準備(対象データ、テーブル化、データ結合・抽出、データ構造化、データ加工)のデータ準備内容項目(作業項目)及び難易度を算出し、データ準備の提案(アウトプット)を行うことである。
ここで、難易度とは、ユーザにとって作業に要する負荷の大きさである。難易度が低い場合は、処理プログラムの再利用等により、作業負荷が小さいことが見込まれる。
ここで、難易度とは、ユーザにとって作業に要する負荷の大きさである。難易度が低い場合は、処理プログラムの再利用等により、作業負荷が小さいことが見込まれる。
つまり、データ利活用基盤サーバ101は、データを利活用するユーザが指定する利活用目的と本システムにて用意するデータ準備内容項目を含むデータ情報とを照合する機能、該利活用目的のために実施すべきデータ準備内容項目及び難易度を算出して、利活用するユーザに提示する機能、利活用目的に対するデータ準備内容項目を集計し、類似するデータ準備内容をカテゴリ化する機能、該カテゴリ化したカテゴリの重要度を算出して、本システムを管理するユーザに提示する機能、データ準備内容のカテゴリに対して、データ準備内容項目に該当する処理プログラム、データ関係定義を含むリストを作成し、データ準備内容項目の有用度を算出して、利活用するユーザに対して提示する機能、を有する。
データ準備内容項目を集計し、類似するデータ準備内容をカテゴリ化し、カテゴリの重要度を算出して、提示するとは、例えば、データ準備の提案実績及び/又は実施結果を集計して、データ準備内容の重要度(優先的に処理ロジックプログラムを用意しておくべき項目)をユーザに提示することである。
更に詳しくは、(1)上述した利活用目的に対するデータ準備内容をユーザに提案する際にデータ準備内容の難易度を算出し、(2)難易度の算出結果をデータ準備提案実績として記録し、当該データ準備提案実績からデータ準備内容の各項目での類似度を判定して、類似するデータ準備内容をカテゴリ化、関連する利活用目的をリストアップし、また、(3)データ準備内容のグループ毎に平均難易度や総数、それらを基に重要度(利活用に必要とされる度合い)を算出し、データ準備内容、利活用目的(候補)、平均難易度、総数、重要度、等を含む表(図11参照)を作成することである。表は利活用目的に対する提案が実施される度に更新される。
管理者端末102は、データ利活用システム及びデータ利活用システムにおけるデータ利活用基盤サーバ101を管理する管理者のユーザが使用するための端末である。
ユーザ端末103〜105は、ユーザが利活用目的を示す情報(図5(A)の501参照)の登録、データ準備内容の確認及びデータ準備に係る作業を実施する分析者や開発者のユーザ(データを利活用するユーザ)が使用する端末である。
業務システム106〜108は、利活用の対象となるデータの提供元であり、分析による問題解決の対象となる業務システムである。
データ利活用基盤サーバ101の主なハードウェア構成は、記憶装置(メモリ、ハードディスク)111、処理装置(CPU)112、通信装置113からなる。
管理者端末102及びユーザ端末103〜105もデータ利活用基盤サーバ101と同様に、主なハードウェア構成は、記憶装置(メモリ、ハードディスク)121、131、処理装置(CPU)122、132、通信装置123、133からなる。
図2(A)、図2(B)は、本発明によるデータ利活用に係るデータ準備方法を実施する場合におけるユースケースを示す図であって、データ利活用基盤サーバ101、業務システム106、管理者端末102側のシステム管理者201、ユーザ端末103〜105側の分析者202〜204との間における処理手順を説明する図である。
以下、図2においては、分析者202〜204を分析者A〜Cと称して説明する。
以下、図2においては、分析者202〜204を分析者A〜Cと称して説明する。
図2のシーケンスに基づく動作は以下のとおりである。
業務システム106は、業務データをデータ利活用基盤サーバ101の記憶装置111に登録する(ステップ211)。
業務システム106は、業務データをデータ利活用基盤サーバ101の記憶装置111に登録する(ステップ211)。
データ利活用基盤サーバ101は、処理装置112にて、業務システム106からの業務データを受け、当該業務システムの業務データに関するデータカタログを作成する(ステップ221)。
データカタログは、システム、つまり、データ項目(リスト)を含むファイルを備えたシステムを記述したものであり、詳しくは、例えば、図5(B)に示すとおりであり、後述する。
データカタログは、システム、つまり、データ項目(リスト)を含むファイルを備えたシステムを記述したものであり、詳しくは、例えば、図5(B)に示すとおりであり、後述する。
分析者Aは、ユーザ端末103を用いて、実施する分析等のデータ利活用に関して、利活用目的を本システム側のデータ利活用基盤サーバ101の記憶装置111に登録する(ステップ241)。
利活用目的は、要求データ項目、入力データ構造、を含み、詳しくは、例えば、図5(A)に示すとおりであり、後述する。
利活用目的は、要求データ項目、入力データ構造、を含み、詳しくは、例えば、図5(A)に示すとおりであり、後述する。
データ利活用基盤サーバ101は、処理装置112にて、データ準備処理を実行し、その結果を、通信装置113を介して、分析者Aに提案する。つまり、分析者Aにて登録された利活用目的に対するデータ準備内容のデータ準備内容項目を分析者Aに提案する(ステップ222)。
分析者Aは、データ利活用基盤サーバ101から提案されたデータ準備内容項目を参照して、利活用目的にあったデータ利活用処理を実施するための前処理としてデータ準備作業を実施する(ステップ242)。前処理のデータ準備作業については、図3を参照して後述する。
また、分析者Aは、データ準備作業を実施し(ステップ242)、その結果を活用してデータ利活用処理を実施する(ステップ243)。
ここで、データ準備作業実施(ステップ242)及び利活用実施(ステップ243)は、データ利活用基盤サーバ101に提供する機能等を活用して実施することもできる。
ここで、データ準備作業実施(ステップ242)及び利活用実施(ステップ243)は、データ利活用基盤サーバ101に提供する機能等を活用して実施することもできる。
データ利活用基盤サーバ101では、処理装置112にて、利活用目的に対するデータ準備内容項目提案(ステップ222)の実績を集計し、データ準備内容項目のカテゴリ化と重要度算出を行う(ステップ223)。
次いで、データ利活用基盤サーバ101は、通信装置113を介して、データ準備内容項目のカテゴリ及び重要度を、システム管理者201及び他の分析者B に対して提示する(ステップ224)。
これにより、システム管理者201及び分析者Bは、管理者端末102及びユーザ端末104を用いて、データ利活用基盤サーバ101からのデータ準備内容のカテゴリ・重要度を閲覧することができる(ステップ231、251)。
このとき、システム管理者201及び分析者Bは、データ準備内容項目のカテゴリに該当する関連の処理プログラム、データ関係情報、等があれば、本システム側のデータ利活用基盤サーバ101の記憶装置111に登録する(ステップ232、252)。処理プログラム、データ関係情報については図5(C)、図5(D)を参照して後述する。
これはデータ利活用基盤サーバ101が提供するデータ利活用のための機能・サービスを拡充するために実施するためである。
これはデータ利活用基盤サーバ101が提供するデータ利活用のための機能・サービスを拡充するために実施するためである。
次に、データ利活用基盤サーバ101は、システム管理者201、分析者Bからの処理プログラム、データ関係情報、等の登録を受けると、これらを他のユーザ(分析者C)にも利用可能となるように公開する(ステップ225)。
分析者Cは、分析者Aと同様に、ユーザ端末105を用いて、実施する分析等のデータ利活用に関して、利活用目的をデータ利活用基盤サーバ101の記憶装置111に登録する(ステップ261)。
また、データ利活用基盤サーバ101は、通信装置113を介して、分析者Cに対して、利活用目的に対するデータ準備内容項目の提案を行う(ステップ226)。
このとき、システム側に登録された処理プログラム、データ関係情報等を用いることで、より精度の高い提案を実施することができる。
このとき、システム側に登録された処理プログラム、データ関係情報等を用いることで、より精度の高い提案を実施することができる。
分析者Cは、ステップ226にて、データ利活用基盤サーバ101から提案された関連の処理プログラム、データ関係情報(テータ関係定義)等の登録を反映した後のデータ準備内容項目提案を参照して、利活用目的にあったデータ利活用処理を実施するための前処理としてのデータ準備作業を実施する(ステップ262)。
また、分析者Cは、データ準備作業実施(ステップ262)の結果を活用してデータ利活用処理を実施する(ステップ263)。
図3は、本発明によるデータ利活用に係るデータ準備の前提を説明する図である。
業務システム106から収集した業務データ(生データ)には、分析ツール等で良く用いられるCSV(Comma Separated Values)等の表形式データだけでなく、BIN(バイナリ)、TXT(テキスト)、IMG(イメージ)、PDF(Portable Document Format)、等の様々な形式のデータが含まれることが多い。
業務システム106から収集した業務データ(生データ)には、分析ツール等で良く用いられるCSV(Comma Separated Values)等の表形式データだけでなく、BIN(バイナリ)、TXT(テキスト)、IMG(イメージ)、PDF(Portable Document Format)、等の様々な形式のデータが含まれることが多い。
故に、業務システム106からの業務データ(生データ)に対して、各種ツールの活用やアプリケーション開発・活用により分析等のデータ利活用を実施するためには、多くの場合、生データをそのまま活用できず、データ準備を実施する必要がある。
そこで、データ準備として、データ利活用システムにおけるデータ利活用のために活用する分析ツール321にて、生データに対して、テーブル化301、データ結合・抽出302、データ構造化303、データ加工(クレンジング)304の各処理を順に実施する。そして、分析アプリケーション322、業務アプリケーション323にて利用可能なデータ構造・形式とする。
すなわち、テーブル化301の処理としては、生データの個々のデータ内容を参照、扱いやすいように元のバイナリ形式データ等からCSV等のテーブル形式データの個別テーブル311へと変換する。
データ結合・抽出302の処理としては、利活用のためにツール、アプリケーション等で活用するデータを抽出するために、生データから変換した個別テーブル311を幾つか結合して、該活用データが含められる結合テーブル312を作成する。
データ構造化303の処理としては、結合テーブル312から、データ利活用のために活用する分析ツール321、分析アプリケーション322、業務アプリケーション323が利用可能である構造化データ313へと変換する。
本例では、目的に応じて各種分析ツールやアプリケーションで一般的に用いられる関係モデルテーブル形式、クロス集計等に用いられるピボットテーブル形式、また各アプリケーション向けの共通データモデル形式、等へと変換する。
本例では、目的に応じて各種分析ツールやアプリケーションで一般的に用いられる関係モデルテーブル形式、クロス集計等に用いられるピボットテーブル形式、また各アプリケーション向けの共通データモデル形式、等へと変換する。
データ加工304の処理としては、構造化データ313から、データ利活用のために活用する分析ツール321、分析アプリケーション322、業務アプリケーション323のアプリ個別入力データ構造314となるように、データ値の加工を行う。
ここでは、例えば、単位変換や、誤差補正、名寄せ等のデータクレンジング処理を行う。
以上のとおり、処理されたデータ準備は、データ準備テーブル(図4参照)に格納する。
ここでは、例えば、単位変換や、誤差補正、名寄せ等のデータクレンジング処理を行う。
以上のとおり、処理されたデータ準備は、データ準備テーブル(図4参照)に格納する。
図4は、本発明におけるデータ利活用基盤サーバ101のモジュール構成を示す図である。
データ利活用基盤サーバ101は、データ利活用ミドルウェア401から構成される。
データ利活用基盤サーバ101は、データ利活用ミドルウェア401から構成される。
データ利活用ミドルウェア401は、業務システム106〜108から提供され、利活用の対象となる生データを生データ記憶部411に蓄積し、利活用に向けたデータに対する準備処理を実行する機能、データ準備及び利活用に係るデータ関係情報、処理プログラム記憶部603の処理プログラム等の管理及びデータ利活用を行うユーザやシステム管理者へのデータ準備内容に関する提案等の処理を実行する機能を有する。
データ利活用ミドルウェア401は、データ準備処理実行管理部421、利活用処理実行管理部422、データ管理部431、処理プログラム管理部432、ユーザ・業務管理部433、データ準備内容提案部434、データ準備内容提案集計部435、データ準備内容登録集計部436、クライアント向けI/F提供部437、データ通信部438、等を含む。
また、業務システム106〜108からの生データを記憶する生データ記憶部411、データ利活用システム側にて用意するデータカタログ502(図5(B)参照)を記憶するデータカタログ記憶部602、処理プログラムリスト503(図5(C)参照)を記憶する処理プログラム記憶部603、データ関係情報504(図5(D)参照)を記憶するデータ関係定義記憶部604、データ準備に関係するデータ(図6(A)〜(C)参照)を記憶するデータ準備テーブル記憶部444、等を含む。
生データとしては、業務システムからの業務システムデータの他にセンサデータ、オープンデータも含む。
また、業務システム106〜108からの生データを記憶する生データ記憶部411、データ利活用システム側にて用意するデータカタログ502(図5(B)参照)を記憶するデータカタログ記憶部602、処理プログラムリスト503(図5(C)参照)を記憶する処理プログラム記憶部603、データ関係情報504(図5(D)参照)を記憶するデータ関係定義記憶部604、データ準備に関係するデータ(図6(A)〜(C)参照)を記憶するデータ準備テーブル記憶部444、等を含む。
生データとしては、業務システムからの業務システムデータの他にセンサデータ、オープンデータも含む。
データ準備処理実行管理部421は、記憶装置111の生データ記憶部411に蓄積した生データ、処理プログラム記憶部603に登録した処理プログラムリスト、等を用いて、データ利活用基盤サーバ101上でデータ準備処理の実行と管理を行う。
すなわち、データ準備処理実行管理部421は、複数の業務システム106〜108からの多種多様なデータを用いて様々な目的でのデータ利活用を可能とするデータ準備であって、
データ利活用を行うユーザの利活用目的の要求データ項目や入力データ構造とデータ利活用システム側にて用意するデータ情報(例えば、生データのデータカタログ、データ関係情報、等)を照合し、
実施すべきデータ準備内容(作業項目)及びその難易度を算出し、
データ準備内容提案管理テーブル(図6(A)の6011参照)を管理する機能を有する。
データ利活用を行うユーザの利活用目的の要求データ項目や入力データ構造とデータ利活用システム側にて用意するデータ情報(例えば、生データのデータカタログ、データ関係情報、等)を照合し、
実施すべきデータ準備内容(作業項目)及びその難易度を算出し、
データ準備内容提案管理テーブル(図6(A)の6011参照)を管理する機能を有する。
データ準備とは、対象業務・システムに関する知識が十分に無い者でも、迅速かつ容易にデータ利活用でき、例えば、データ利活用を行うユーザにおいて、各種ツール、アプリケーションでの利用(分析実施、業務アプリケーション作成等の様々な目的・用途によるデータ利活用)を可能とするために必要なデータを準備することである。
また、データ準備内容とは、例えば、生データのテーブル化、テーブル化した個別テーブルのためのデータ結合・抽出、構造化データのためのデータ構造化、アプリ個別入力データ構造化のためのデータ加工(クレンジング)、等である。
また、データ準備内容とは、例えば、生データのテーブル化、テーブル化した個別テーブルのためのデータ結合・抽出、構造化データのためのデータ構造化、アプリ個別入力データ構造化のためのデータ加工(クレンジング)、等である。
テーブル化とは、例えば、バイナリ―CSV変換、CSVテーブル形式変換、等であり、データ結合・抽出とは、関係データ(線路マスタ等)、結合キー(キロ程、時刻、等)であり、データ構造化とは、関係モデルテーブル化、統合データモデル変換、等であり、データ加工とは、単位変換、名寄せ、等である。
上述したデータ準備処理の手順については、図7を参照して後述する。
上述したデータ準備処理の手順については、図7を参照して後述する。
利活用処理実行管理部422は、データ利活用基盤サーバ101上で利活用処理の実行と管理を行うものであって、データ準備の提案実績及びユーザによる実施結果を集計し、データ準備内容の重要度を算出する。重要度は、データ準備内容のカテゴリ毎に行う。
すなわち、利活用処理実行管理部422は、データ準備処理実行管理部421にて算出したデータ準備内容の各項目での類似度を判定し、類似するデータ準備内容をカテゴリ化し、関連する利活用目的(候補)をリストアップし、
データ準備内容のグループ毎の平均難易度や総数を基に重要度、つまり、利活用に必要とされる度合いを算出し、
データ準備内容カテゴリ管理テーブル(図6(B)の6021参照)を管理する機能を有する。
データ準備内容のグループ毎の平均難易度や総数を基に重要度、つまり、利活用に必要とされる度合いを算出し、
データ準備内容カテゴリ管理テーブル(図6(B)の6021参照)を管理する機能を有する。
利活用目的(候補)は、例えば、ユーザ種別(分析者、開発者、等)、アプリロジック(因果関係算出、線グラフ出力、等)である。総数は、データ準備内容提案集計部435やデータ準備内容登録集計部436にて求められたデータ準備内容のグループ毎の総数である。
上述した重要度を算出する利活用処理の手順については、図8〜図9を参照して後述する。
上述した重要度を算出する利活用処理の手順については、図8〜図9を参照して後述する。
また、利活用処理実行管理部422は、ユーザによりデータ準備内容項目を登録した結果、データ準備内容項目に該当する処理プログラム、データ定義等のリストを作成し、データ定義の有用度を算出する機能を有する。
すなわち、ユーザにより処理プログラム、データ定義に該当するデータ準備内容を検索し、データ準備内容カテゴリの重要度を参照し、処理プログラム、データ定義の有用度を算出し、また、有用度を更新し、有用データ準備内容項目管理テーブル(図6(C)の6031参照)を管理する機能を有する。
上述した有用度算出する利活用処理の手順については、図10を参照して後述する。
上述した有用度算出する利活用処理の手順については、図10を参照して後述する。
データ管理部431は、生データ及びデータカタログ、データ関係情報を生データ記憶部411及びデータカタログ記憶部602、データ関係定義記憶部604に格納する管理を行う。
処理プログラム管理部432は、処理プログラム記憶部603の処理プログラムリストを管理し、ユーザによる処理プログラム、データ関係定義等の登録を受け付ける。
ユーザ・業務管理部433は、本データ利活用ミドルウェア401にアクセスして利活用を行うユーザ(システム管理者や分析者、開発者)及び業務を管理する。
データ準備内容提案部434は、ユーザの利活用目的に対して、データカタログ、データ関係情報、処理プログラムリスト及びデータ準備テーブルを参照してデータ準備内容(データ準備内容項目)の提案処理を行う。
すなわち、データ準備内容提案部434は、データ準備処理実行管理部421や利活用処理実行管理部422で求めたデータ準備内容や重要度、有用度等をユーザに提案するものであって、例えば、データ利活用を行う分析者や開発者に対して、データ準備の作業項目、方法等を提案し、システム管理者に対して、様々なユーザの様々な目的に対して準備しておくべきデータ準備の重要度、必然性の高い準備内容の組合せを提案する機能を有する。
データ準備内容提案集計部435は、データ準備テーブルを参照して、データ準備内容提案実績の集計及びデータ準備内容のカテゴリ化を行う。
データ準備内容登録集計部436は、データ準備内容のカテゴリに対するユーザによる処理プログラム、データ関係定義等の登録を集計する。
クライアント向けI/F提供部437は、データ準備内容登録集計部436、管理者端末102、ユーザ端末103〜105に対して本データ利活用ミドルウェア401が提供する機能のインタフェースを提供する。
データ通信部438は、ネットワーク109、109’を介して管理者端末102、ユーザ端末103〜105や業務システム106〜108との間でデータ準備内容項目提案等のデータ通信を行う。
図5は、本発明によるデータ利活用に係るデータ準備方法にて、ユーザが作成する利活用目的501、データ利活用システムにおけるデータ利活用基盤サーバ101にて用意するデータカタログ502、処理プログラムリスト503及びデータ関係情報504、の構成を示す図であって、図5(A)は、利活用目的501の一例を示す図、図5(B)は、データカタログ502の一例を示す図、図5(C)は、処理プログラムリスト503の一例を示す図、図5(D)は、データ関係情報504の一例を示す図である。
データカタログ502、データ関係情報504、処理プログラムリスト503は、図4に示す各データカタログ記憶部602、データ関係定義記憶部604、処理プログラム記憶部603に格納される。
ここで、利活用目的501及びデータカタログ502は、本発明によるデータ利活用に係るデータ準備方法を実施する上で必須である。
ここで、利活用目的501及びデータカタログ502は、本発明によるデータ利活用に係るデータ準備方法を実施する上で必須である。
一方、処理プログラムリスト503及びデータ関係情報504は、任意とする。
すなわち、処理プログラムリスト503及びデータ関係情報504は、なくても、本発明によるデータ利活用に係るデータ準備方法は実施可能であるが、あれば、本発明によるデータ利活用に係るデータ準備方法におけるデータ準備内容提案等の精度がより向上する。
すなわち、処理プログラムリスト503及びデータ関係情報504は、なくても、本発明によるデータ利活用に係るデータ準備方法は実施可能であるが、あれば、本発明によるデータ利活用に係るデータ準備方法におけるデータ準備内容提案等の精度がより向上する。
利活用目的501は、ユーザが業務システム106からのデータを用いてデータ利活用を実施する際の目的に関する情報を記述するものであり、ユーザが実施するデータ利活用毎に作成する。
利活用目的501は、例えば、「要求データ項目」、「入力データ構造」、「アプリロジック」、「KPI」である。「要求データ項目」、「入力データ構造」は、必須であり、「アプリロジック」、「KPI」は、任意である。
「要求データ項目」は、本利活用のために活用する分析ツール321、分析アプリケーション322、業務アプリケーション323にて要求するデータの種別・項目、データ範囲(時刻、等)を示す。
「入力データ構造」は、本利活用のために活用する分析ツール321、分析アプリケーション322、業務アプリケーション323にて要求する入力データの構造を示す。例えば、関係モデルテーブル(CSV)、ピボットテーブル、各種の共通データモデル等のいずれかを指定する。
「アプリロジック」は、本利活用のために活用する分析アプリケーション322、業務アプリケーション323にて用いる分析等のロジックの種別、業務種別等を指定するものである。
「KPI」は、本利活用の目的として達成したいKPIを指定するものである。
データカタログ 502は、業務システム106からの生データに関する情報を記述するものであり、データ毎に提供元のシステム、ファイル構成が含まれるデータ項目リスト、作成時刻、ファイル形式、等の情報(カタログ情報)を含む。
データカタログ502は、データ利活用基盤サーバ101にて業務システム106からのデータが登録される度に作成、更新される。
処理プログラムリスト503は、データ利活用基盤サーバ101にて管理する、データ準備の各処理(図3のステップ301〜304)のために利用可能な処理プログラムのリストである。
データ利活用基盤サーバ101に当該プログラムが存在する場合に記載する。
データ関係情報504は、業務システム106からのデータに関して、仕様書的データ項目関係の組合せ、業務的データ項目関係の組合せ、業務的レコード関係の組合せ、業務ノウハウ的関係の組合せ等を記述するものである。データ関係情報504は、作成する負荷は大きいが、該情報があればデータ準備内容提案の精度がより向上する。
図6は、本発明におけるデータ利活用基盤サーバ101の記憶装置111にて管理する、データ利活用に係るデータ準備方法を実施するために使用するテーブルのデータ構成を示す図であって、図6(A)は、データ準備内容提案管理テーブル6011のデータ構成、図6(B)は、データ準備内容カテゴリ管理テーブル6021のデータ構成、図6(C)は、有用データ準備内容項目管理テーブル6031のデータ構成を示すテーブル図である。
データ準備内容提案管理テーブル6011は、ユーザが指定する利活用目的に対するデータ準備内容提案に関する情報を格納する。主には、識別情報611、対象データ612、テーブル化613、データ結合・抽出614、データ構造化615、データ加工616、難易度617、ユーザ種別618、アプリロジック619、KPI610、更新日時641、等の情報を示す各項目を含む。
識別情報611は、データ準備内容提案を識別するための情報である。対象データ612は、識別情報611により特定されるデータ準備内容提案における対象データ612に関する情報である。
テーブル化613は、識別情報611により特定されるデータ準備内容提案におけるテーブル化に関する情報である。
データ結合・抽出614は、識別情報611により特定されるデータ準備内容提案におけるデータ結合・抽出に関する情報である。
データ構造化615は、識別情報611により特定されるデータ準備内容提案におけるデータ構造化に関する情報である。
データ加工616は、識別情報611により特定されるデータ準備内容提案におけるデータ加工に関する情報である。
難易度617は、識別情報611により特定されるデータ準備内容提案における難易度に関する情報である。
ユーザ種別618は、識別情報611により特定されるデータ準備内容提案の対象であるユーザの種別に関する情報である。
アプリロジック619は、識別情報611により特定されるデータ準備内容提案の対象であるユーザの利活用目的からアプリロジックに関する情報であって、利活用目的にアプリロジックに関する情報が含まれていない場合は、本項目は空となる。
KPI610は、識別情報611により特定されるデータ準備内容提案の対象であるユーザの利活用目的からKPIに関する情報であって、利活用目的にKPIに関する情報が含まれていない場合は、本項目は空となる。更新日時641は、レコードが最後に更新された日時である。
データ準備内容カテゴリ管理テーブル6021は、データ準備内容カテゴリに関する情報を格納する。主には、識別情報621、対象データ622、テーブル化623、データ結合・抽出624、データ構造化625、データ加工626、ユーザ種別627、アプリロジック628、KPI629、平均難易度620、総数642、重要度643、更新日時644、等を示す各情報を示す各項目を含む。
識別情報621は、データ準備内容カテゴリを識別するための情報である。
対象データ622は、識別情報621により特定されるデータ準備内容カテゴリにおける対象データに関する情報である。
テーブル化623は、識別情報621により特定されるデータ準備内容カテゴリにおけるテーブル化に関する情報である。
データ結合・抽出624は、識別情報621により特定されるデータ準備内容カテゴリにおけるデータ結合・抽出に関する情報である。
データ構造化625は、識別情報621により特定されるデータ準備内容カテゴリにおけるデータ構造化に関する情報である。
データ加工626は、識別情報621により特定されるデータ準備内容カテゴリにおけるデータ加工に関する情報である。
ユーザ種別627は、識別情報621により特定されるデータ準備内容カテゴリにおけるユーザ種別に関する情報である。
アプリロジック628は、識別情報621により特定されるデータ準備内容カテゴリの基となるデータ準備内容提案に関連する利活用目的から抽出したアプリロジックに関する情報である。データ準備内容カテゴリに関連するアプリロジックは複数あり得て、複数のレコードが格納され得る。
KPI629は、識別情報621により特定されるデータ準備内容カテゴリの基となるデータ準備内容提案に関連する利活用目的から抽出したKPIに関する情報である。データ準備内容カテゴリに関連するKPIは複数あり得て、複数のレコードが格納され得る。
平均難易度620は、識別情報621により特定されるデータ準備内容カテゴリにおける平均難易度に関する情報である。
総数642は、識別情報621により特定されるデータ準備内容カテゴリにおける総数に関する情報である。
重要度643は、識別情報621により特定されるデータ準備内容カテゴリにおける重要度に関する情報である。
更新日時644は、各レコードが最後に更新された日時である。
有用データ準備内容項目管理テーブル6031は、データ準備内容カテゴリに対する有用なデータ準備内容項目に関する情報を格納する。主には、識別情報631、処理プログラム/データ定義識別情報632、分類633、関連データ準備内容634、有用度635、更新日時636、等の各情報を示す各項目を含む。
識別情報631は、データ準備内容項目を識別するための情報である。処理プログラム/データ定義識別情報632は、識別情報631により特定されるデータ準備内容項目における処理プログラムまたはデータ定義を識別する情報である。分類633は、識別情報631により特定されるデータ準備内容項目における分類に関する情報である。
本例では、分類633に、「テーブル化」、「データ結合・抽出」、「データ構造化」、「データ加工」のいずれかが格納される。関連データ準備内容634は、識別情報631により特定されるデータ準備内容項目に関連するデータ準備内容提案を識別する情報である。有用度635は、識別情報631により特定されるデータ準備内容項目の有用度に関する情報である。更新日時636には、各レコードが最後に更新された日時である。
図7は、本発明によるデータ利活用に係るデータ準備方法を適用した場合におけるデータ利活用システムにおけるデータ利活用基盤サーバ101(処理装置112)にて、ユーザが作成する利活用目的501と本システムにて用意するデータ情報(含データカタログ502)との照合を行い、実施すべきデータ準備の作業項目及び難易度を算出するための処理の流れを示すフローチャートである。
図7のフローチャートに基づく動作は以下のとおりである。
ステップ701:
データ利活用基盤サーバ101は、ユーザが作成した利活用目的501の要求データ項目とデータ利活用基盤サーバ101にて用意したデータカタログ502のファイルのデータ項目との照合を行う。要求データ項目は、本例では、図5(A)に示すように要求するデータの種別・項目、範囲(時刻、等)である。
ステップ701:
データ利活用基盤サーバ101は、ユーザが作成した利活用目的501の要求データ項目とデータ利活用基盤サーバ101にて用意したデータカタログ502のファイルのデータ項目との照合を行う。要求データ項目は、本例では、図5(A)に示すように要求するデータの種別・項目、範囲(時刻、等)である。
ステップ702:
データ利活用基盤サーバ101は、ステップ701の照合結果より、業務システムにおける生データより対象となる対象データ(データ/ファイル/システムで指定)を選出する。対象データは、本例では、レール摩耗度、通トン、遅延時分、駅到着時刻、駅出発時刻、気温、等である。
データ利活用基盤サーバ101は、ステップ701の照合結果より、業務システムにおける生データより対象となる対象データ(データ/ファイル/システムで指定)を選出する。対象データは、本例では、レール摩耗度、通トン、遅延時分、駅到着時刻、駅出発時刻、気温、等である。
ステップ703:
データ利活用基盤サーバ101は、ステップ701、702の結果より対象データ選出に関してデータ準備内容項目の難易度を判定する。つまり、ユーザが要求するデータの種別・項目・範囲に対するデータ準備内容項目(図6(A)の対象データ612)の難易度を判定する。
難易度は、本例では、要求データ項目に該当するデータとして抽出できたデータの数が多ければ難易度は高く、少なければ難易度は低いとする。
データ利活用基盤サーバ101は、ステップ701、702の結果より対象データ選出に関してデータ準備内容項目の難易度を判定する。つまり、ユーザが要求するデータの種別・項目・範囲に対するデータ準備内容項目(図6(A)の対象データ612)の難易度を判定する。
難易度は、本例では、要求データ項目に該当するデータとして抽出できたデータの数が多ければ難易度は高く、少なければ難易度は低いとする。
ステップ704:
データ利活用基盤サーバ101は、利活用目的501の入力データ構造とデータカタログ502における該当データのファイル形式とを照合する。入力データ構造とは、本例では、図5(A)に示すように関係モデルテーブル(CSV)、ピボットテーブル、各種共通データモデル、等である。
データ利活用基盤サーバ101は、利活用目的501の入力データ構造とデータカタログ502における該当データのファイル形式とを照合する。入力データ構造とは、本例では、図5(A)に示すように関係モデルテーブル(CSV)、ピボットテーブル、各種共通データモデル、等である。
ステップ705:
データ利活用基盤サーバ101は、ステップ704の結果、テーブル化処理が必要と判定した場合(YES)は、次のステップ706に進み、不要と判定した場合(NO)は、ステップ707に進む。
データ利活用基盤サーバ101は、ステップ704の結果、テーブル化処理が必要と判定した場合(YES)は、次のステップ706に進み、不要と判定した場合(NO)は、ステップ707に進む。
ステップ706:
データ利活用基盤サーバ101は、データ準備内容項目のテーブル化処理内容を抽出する。また、該テーブル化処理内容に該当する処理プログラムがデータ利活用基盤サーバ101に登録されていれば処理プログラム候補リストを作成する。処理プログラム候補とは、例えば、バイナリ変換プログラム、モデル変換プログラム、等である。
データ利活用基盤サーバ101は、データ準備内容項目のテーブル化処理内容を抽出する。また、該テーブル化処理内容に該当する処理プログラムがデータ利活用基盤サーバ101に登録されていれば処理プログラム候補リストを作成する。処理プログラム候補とは、例えば、バイナリ変換プログラム、モデル変換プログラム、等である。
ステップ707:
データ利活用基盤サーバ101は、ステップ704〜706の結果よりテーブル化に関してデータ準備内容項目(図6(A)のテーブル化613)の難易度を判定する。
本例では、テーブル化処理が必要であれば難易度は高く、必要でなければ難易度は低いとする。また、テーブル化処理に該当する処理プログラム候補がデータ利活用基盤サーバ101に登録されていなければ難易度は高く、登録されていれば難易度は低いとする。
データ利活用基盤サーバ101は、ステップ704〜706の結果よりテーブル化に関してデータ準備内容項目(図6(A)のテーブル化613)の難易度を判定する。
本例では、テーブル化処理が必要であれば難易度は高く、必要でなければ難易度は低いとする。また、テーブル化処理に該当する処理プログラム候補がデータ利活用基盤サーバ101に登録されていなければ難易度は高く、登録されていれば難易度は低いとする。
ステップ708:
データ利活用基盤サーバ101は、利活用目的501の要求データ項目とデータカタログ502の該当データのファイル・ファイル数とを照合し、またデータ関係情報504があれば参照する。
データ利活用基盤サーバ101は、利活用目的501の要求データ項目とデータカタログ502の該当データのファイル・ファイル数とを照合し、またデータ関係情報504があれば参照する。
ステップ709:
データ利活用基盤サーバ101は、ステップ708の結果、データ結合処理が必要と判定した場合(YES)は、ステップ710に進み、不要と判定した場合(NO)は、ステップ712に進む。
データ利活用基盤サーバ101は、ステップ708の結果、データ結合処理が必要と判定した場合(YES)は、ステップ710に進み、不要と判定した場合(NO)は、ステップ712に進む。
ステップ710:
データ利活用基盤サーバ101は、ステップ708の結果から、データ関係情報504のデータ結合に用いる結合キー候補(データ結合・抽出における軸指定/キロ程、時刻、等)を選出する。例えば、結合対象の複数のテーブルに共通してあるデータが結合キーとなり得る。
データ利活用基盤サーバ101は、ステップ708の結果から、データ関係情報504のデータ結合に用いる結合キー候補(データ結合・抽出における軸指定/キロ程、時刻、等)を選出する。例えば、結合対象の複数のテーブルに共通してあるデータが結合キーとなり得る。
ステップ711:
データ利活用基盤サーバ101は、ステップ708の結果から、データ関係情報504を基に関連データ候補(データ結合・抽出におけるマスタ指定/線路マスタ、等)を選出する。例えば、各種コードのマスタデータ等が該当する。
データ利活用基盤サーバ101は、ステップ708の結果から、データ関係情報504を基に関連データ候補(データ結合・抽出におけるマスタ指定/線路マスタ、等)を選出する。例えば、各種コードのマスタデータ等が該当する。
ステップ712:
データ利活用基盤サーバ101の処理装置112は、ステップ708〜711の結果よりデータ結合・抽出に関してデータ準備内容項目(図6(A)のデータ結合・抽出614)の難易度を判定する。
難易度は、本例では、データ結合・抽出処理が必要であれば高く、必要でなければ低いとする。また選出した結合キー候補の数が少なければ難易度は高く、多ければ難易度は低いとする。さらに選出した関連キー候補の数が少なければ難易度は高く、多ければ難易度は低いとする。
データ利活用基盤サーバ101の処理装置112は、ステップ708〜711の結果よりデータ結合・抽出に関してデータ準備内容項目(図6(A)のデータ結合・抽出614)の難易度を判定する。
難易度は、本例では、データ結合・抽出処理が必要であれば高く、必要でなければ低いとする。また選出した結合キー候補の数が少なければ難易度は高く、多ければ難易度は低いとする。さらに選出した関連キー候補の数が少なければ難易度は高く、多ければ難易度は低いとする。
ステップ713:
データ利活用基盤サーバ101は、利活用目的501の入力データ構造とデータカタログ502の該当データのファイル形式、また、ステップ708〜711の結果として導出した結合テーブル構造とを照合する。
データ利活用基盤サーバ101は、利活用目的501の入力データ構造とデータカタログ502の該当データのファイル形式、また、ステップ708〜711の結果として導出した結合テーブル構造とを照合する。
ステップ714:
データ利活用基盤サーバ101は、ステップ713の結果、データ構造化処理が必要と判定した場合(YES)は、ステップ715に進み、不要と判定した場合(NO)は、ステップ716に進む。
データ利活用基盤サーバ101は、ステップ713の結果、データ構造化処理が必要と判定した場合(YES)は、ステップ715に進み、不要と判定した場合(NO)は、ステップ716に進む。
ステップ715:
データ利活用基盤サーバ101は、データ構造化処理内容を抽出する。また、データ構造化処理内容に該当する処理プログラムがデータ利活用基盤サーバ101に登録されていれば処理プログラム候補リストを作成する。
データ利活用基盤サーバ101は、データ構造化処理内容を抽出する。また、データ構造化処理内容に該当する処理プログラムがデータ利活用基盤サーバ101に登録されていれば処理プログラム候補リストを作成する。
ステップ716:
データ利活用基盤サーバ101は、ステップ713〜715の結果よりデータ構造化に関してデータ準備内容項目(図6(A)のデータ構造化615)の難易度を判定する。
本例では、データ構造化処理が必要であれば難易度は高く、必要でなければ難易度は低いとする。また、データ構造化処理に該当する処理プログラム候補がデータ利活用基盤サーバ101に登録されていなければ難易度は高く、登録されていれば難易度は低いとする。
データ利活用基盤サーバ101は、ステップ713〜715の結果よりデータ構造化に関してデータ準備内容項目(図6(A)のデータ構造化615)の難易度を判定する。
本例では、データ構造化処理が必要であれば難易度は高く、必要でなければ難易度は低いとする。また、データ構造化処理に該当する処理プログラム候補がデータ利活用基盤サーバ101に登録されていなければ難易度は高く、登録されていれば難易度は低いとする。
ステップ717:
データ利活用基盤サーバ101は、利活用目的501の要求データ項目、入力データ構造とデータカタログ502のデータ項目、ステップ713〜715の結果として導出したデータ構造とを照合する。
データ利活用基盤サーバ101は、利活用目的501の要求データ項目、入力データ構造とデータカタログ502のデータ項目、ステップ713〜715の結果として導出したデータ構造とを照合する。
ステップ718:
データ利活用基盤サーバ101は、ステップ717の結果、データ加工処理が必要と判定した場合(YES)は、ステップ719に進み、不要と判定した場合(NO)は、ステップ721に進む。
データ利活用基盤サーバ101は、ステップ717の結果、データ加工処理が必要と判定した場合(YES)は、ステップ719に進み、不要と判定した場合(NO)は、ステップ721に進む。
ステップ719:
データ利活用基盤サーバ101は、データ加工処理内容を抽出する。また、データ加工処理内容に該当する処理プログラムがデータ利活用基盤サーバ101に登録されていれば処理プログラム候補リストを作成する。
データ利活用基盤サーバ101は、データ加工処理内容を抽出する。また、データ加工処理内容に該当する処理プログラムがデータ利活用基盤サーバ101に登録されていれば処理プログラム候補リストを作成する。
ステップ720:
データ利活用基盤サーバ101は、ステップ717の結果から不足データ候補を選出する。
不足データ候補とは、本例では、利活用目的501の要求データ項目には含まれるが、データカタログ502には該当するものが存在しないデータである。
データ利活用基盤サーバ101は、ステップ717の結果から不足データ候補を選出する。
不足データ候補とは、本例では、利活用目的501の要求データ項目には含まれるが、データカタログ502には該当するものが存在しないデータである。
ステップ721:
データ利活用基盤サーバ101は、ステップ717〜720の結果よりデータ加工に関してデータ準備内容項目(データ加工616)の難易度を判定する。
難易度は、本例では、データ加工処理が必要であれば高く、必要でなければ低いとする。また、データ加工処理に該当する処理プログラム候補がデータ利活用基盤サーバ101に登録されていなければ難易度は高く、登録されていれば難易度は低いとする。さらに、選出した不足データ候補の数が多ければ難易度は高く、少なければ難易度は低いとする。
データ利活用基盤サーバ101は、ステップ717〜720の結果よりデータ加工に関してデータ準備内容項目(データ加工616)の難易度を判定する。
難易度は、本例では、データ加工処理が必要であれば高く、必要でなければ低いとする。また、データ加工処理に該当する処理プログラム候補がデータ利活用基盤サーバ101に登録されていなければ難易度は高く、登録されていれば難易度は低いとする。さらに、選出した不足データ候補の数が多ければ難易度は高く、少なければ難易度は低いとする。
ステップ722:
データ利活用基盤サーバ101は、ステップ703、707、712、716、721の判定結果より、当該データ準備内容項目(対象データ、テーブル化、データ結合・抽出、データ構造化、データ加工)の各難易度を統合判定する。
データ利活用基盤サーバ101は、ステップ703、707、712、716、721の判定結果より、当該データ準備内容項目(対象データ、テーブル化、データ結合・抽出、データ構造化、データ加工)の各難易度を統合判定する。
図8は、本発明によるデータ利活用に係るデータ準備方法を適用した場合におけるデータ利活用システムにおけるデータ利活用基盤サーバ101にて、データ準備提案実績からデータ準備内容の各項目での類似度を判定して、類似するデータ準備内容をカテゴリ化するための処理の流れを示すフローチャートである。
図8のフローチャートに基づく動作は以下のとおりである。
ステップ801:
データ利活用基盤サーバ101は、データ準備提案内容とデータ準備内容提案実績(グループ化済みのカテゴリ)との比較を行う。
ステップ801:
データ利活用基盤サーバ101は、データ準備提案内容とデータ準備内容提案実績(グループ化済みのカテゴリ)との比較を行う。
ステップ802:
データ利活用基盤サーバ101は、ステップ801の結果、対象データ項目が閾値以上一致するか否かの判定を行う。
ここで、対象データ項目が閾値以上一致する場合(YES)は、ステップ803に進み、一致しない場合(NO)は、ステップ812に進み、ステップ812において、当該カテゴリとは非類似と判定する。
データ利活用基盤サーバ101は、ステップ801の結果、対象データ項目が閾値以上一致するか否かの判定を行う。
ここで、対象データ項目が閾値以上一致する場合(YES)は、ステップ803に進み、一致しない場合(NO)は、ステップ812に進み、ステップ812において、当該カテゴリとは非類似と判定する。
ステップ803:
データ利活用基盤サーバ101は、テーブル化処理内容が閾値以上一致するか否かを判定する。
ここで、テーブル化処理内容が閾値以上一致する場合(YES)は、ステップ804に進み、一致しない場合(NO)は、ステップ812に進む。
データ利活用基盤サーバ101は、テーブル化処理内容が閾値以上一致するか否かを判定する。
ここで、テーブル化処理内容が閾値以上一致する場合(YES)は、ステップ804に進み、一致しない場合(NO)は、ステップ812に進む。
ステップ804:
データ利活用基盤サーバ101は、データ結合・抽出処理内容が閾値以上一致するか否かを判定する。
ここで、データ結合・抽出処理内容が閾値以上一致する場合(YES)はステップ805に進み、一致しない場合(NO)は、ステップ812に進む。
データ利活用基盤サーバ101は、データ結合・抽出処理内容が閾値以上一致するか否かを判定する。
ここで、データ結合・抽出処理内容が閾値以上一致する場合(YES)はステップ805に進み、一致しない場合(NO)は、ステップ812に進む。
ステップ805:
データ利活用基盤サーバ101は、結合キー候補が閾値以上一致か否かを判定する。
ここで、一致する場合(YES)は、ステップ806に進み、一致しない場合(NO)は、ステップ812に進む。
データ利活用基盤サーバ101は、結合キー候補が閾値以上一致か否かを判定する。
ここで、一致する場合(YES)は、ステップ806に進み、一致しない場合(NO)は、ステップ812に進む。
ステップ806:
データ利活用基盤サーバ101は、関連データ候補が閾値以上一致するか否かを判定する。
ここで、一致する場合(YES)は、ステップ807に進み、一致しない場合(NO)は、ステップ812に進む。
データ利活用基盤サーバ101は、関連データ候補が閾値以上一致するか否かを判定する。
ここで、一致する場合(YES)は、ステップ807に進み、一致しない場合(NO)は、ステップ812に進む。
ステップ807:
データ利活用基盤サーバ101は、データ構造化処理内容が閾値以上一致するか否かを判定する。
ここで、一致する場合(YES)は、ステップ808に進み、一致しない場合(NO)は、ステップ812に進む。
データ利活用基盤サーバ101は、データ構造化処理内容が閾値以上一致するか否かを判定する。
ここで、一致する場合(YES)は、ステップ808に進み、一致しない場合(NO)は、ステップ812に進む。
ステップ808:
データ利活用基盤サーバ101は、データ加工処理内容が閾値以上一致するか否かを判定する。
ここで、一致する場合(YES)はステップ809に進み、一致しない場合(NO)は、ステップ812に進む。
データ利活用基盤サーバ101は、データ加工処理内容が閾値以上一致するか否かを判定する。
ここで、一致する場合(YES)はステップ809に進み、一致しない場合(NO)は、ステップ812に進む。
ステップ809:
データ利活用基盤サーバ101は、不足データ候補が閾値以上一致するか否かを判定する。
ここで、一致する場合(YES)は、ステップ810に進み、一致しない場合(NO)は、ステップ812に進む。
データ利活用基盤サーバ101は、不足データ候補が閾値以上一致するか否かを判定する。
ここで、一致する場合(YES)は、ステップ810に進み、一致しない場合(NO)は、ステップ812に進む。
ステップ810:
データ利活用基盤サーバ101は、ステップ802〜809の各ステップにて、それぞれ一致と判定した場合は、当該カテゴリと類似と判定し、ステップ810に進む。
データ利活用基盤サーバ101は、ステップ802〜809の各ステップにて、それぞれ一致と判定した場合は、当該カテゴリと類似と判定し、ステップ810に進む。
ステップ811:
データ利活用基盤サーバ101は、該カテゴリにデータ準備提案内容を加算する。すなわち、カテゴリ毎における関連利活用目的(ユーザ種別、アプリロジック、KPI)へのデータ準備提案内容の利活用目的の追加及び該カテゴリの平均難易度、総数、重要度の更新を行う。
カテゴリの難易度は、対象データの難易度、テーブル化の難易度、データ結合・抽出の難易度、データ構造化の難易度、データ加工の難易度、があり、これらは重み付けして算出する。重要度は、難易度:大、総数:多の場合は、重要度:大とし、難易度:小、総数:小の場合は、重要度:小とする。
データ利活用基盤サーバ101は、該カテゴリにデータ準備提案内容を加算する。すなわち、カテゴリ毎における関連利活用目的(ユーザ種別、アプリロジック、KPI)へのデータ準備提案内容の利活用目的の追加及び該カテゴリの平均難易度、総数、重要度の更新を行う。
カテゴリの難易度は、対象データの難易度、テーブル化の難易度、データ結合・抽出の難易度、データ構造化の難易度、データ加工の難易度、があり、これらは重み付けして算出する。重要度は、難易度:大、総数:多の場合は、重要度:大とし、難易度:小、総数:小の場合は、重要度:小とする。
ステップ812:
データ利活用基盤サーバ101は、ステップ802〜809の各ステップにてそれぞれ不一致と判定した場合は、当該カテゴリとは非類似と判定し、ステップ813に進む。
データ利活用基盤サーバ101は、ステップ802〜809の各ステップにてそれぞれ不一致と判定した場合は、当該カテゴリとは非類似と判定し、ステップ813に進む。
ステップ813:
データ利活用基盤サーバ101は、全カテゴリとの比較を終了しているか否かを判定し、終了していない場合(NO)は、ステップ801〜812の処理を繰り返す。全カテゴリとの比較を終了した場合(YES)は、ステップ814に進み、当該データ準備提案内容を新規のカテゴリとして登録する。
データ利活用基盤サーバ101は、全カテゴリとの比較を終了しているか否かを判定し、終了していない場合(NO)は、ステップ801〜812の処理を繰り返す。全カテゴリとの比較を終了した場合(YES)は、ステップ814に進み、当該データ準備提案内容を新規のカテゴリとして登録する。
なお、上述した各閾値は、予め設定した所定の閾値である。
図9は、データ準備内容のカテゴリに対して重要度を算出するための処理の流れを示すフローチャートである。
図9のフローチャートに基づく動作は以下のとおりである。
ステップ901:
データ利活用基盤サーバ101は、データ準備内容カテゴリ毎に集計の元となるデータ準備内容提案の各件に対する利活用目的501を参照する。
ステップ901:
データ利活用基盤サーバ101は、データ準備内容カテゴリ毎に集計の元となるデータ準備内容提案の各件に対する利活用目的501を参照する。
ステップ902:
データ利活用基盤サーバ101は、利活用目的501にアプリロジック情報が含まれていれば、該アプリロジック情報を抽出し、リストアップする。
データ利活用基盤サーバ101は、利活用目的501にアプリロジック情報が含まれていれば、該アプリロジック情報を抽出し、リストアップする。
ステップ903:
データ利活用基盤サーバ101は、利活用目的501にKPI情報が含まれていれば、該KPI情報を抽出し、リストアップする。
データ利活用基盤サーバ101は、利活用目的501にKPI情報が含まれていれば、該KPI情報を抽出し、リストアップする。
ステップ904:
データ利活用基盤サーバ101は、データ準備内容カテゴリ毎に集計の元となるデータ準備内容提案の各件における難易度を抽出し、合算する。
データ利活用基盤サーバ101は、データ準備内容カテゴリ毎に集計の元となるデータ準備内容提案の各件における難易度を抽出し、合算する。
ステップ905:
データ利活用基盤サーバ101は、データ準備内容カテゴリ毎に集計の元となるデータ準備内容提案の全件に対して終了しているか否かを判定し、終了していなければ、ステップ901に戻り、ステップ901〜904の処理を繰り返す。
ステップ905において、データ準備内容カテゴリ毎に集計の元となるデータ準備内容提案の全件に対して終了していれば、ステップ906に進む。
データ利活用基盤サーバ101は、データ準備内容カテゴリ毎に集計の元となるデータ準備内容提案の全件に対して終了しているか否かを判定し、終了していなければ、ステップ901に戻り、ステップ901〜904の処理を繰り返す。
ステップ905において、データ準備内容カテゴリ毎に集計の元となるデータ準備内容提案の全件に対して終了していれば、ステップ906に進む。
ステップ906:
データ利用基盤サーバ101は、ステップ904の難易度の合算結果から平均難易度を算出する。
データ利用基盤サーバ101は、ステップ904の難易度の合算結果から平均難易度を算出する。
ステップ907:
データ利活用基盤サーバ101は、データ準備内容カテゴリ毎の集計の元となる提案件数の総数を算出する。
データ利活用基盤サーバ101は、データ準備内容カテゴリ毎の集計の元となる提案件数の総数を算出する。
ステップ908:
データ利活用基盤サーバ101は、ステップ906、907にて算出した平均難易度、総数より重要度を算出する。
データ利活用基盤サーバ101は、ステップ906、907にて算出した平均難易度、総数より重要度を算出する。
ここで、重要度は、例えば、以下のような式で算出する。
(重要度) = w1×(平均難易度)+ w2×(総数) :w1、w2は重み
上記式より平均難易度が大きく、総数が多いほど、重要度は大きくなる。また平均難易度が小さく、総数が少ないほど、重要度は小さくなる。
(重要度) = w1×(平均難易度)+ w2×(総数) :w1、w2は重み
上記式より平均難易度が大きく、総数が多いほど、重要度は大きくなる。また平均難易度が小さく、総数が少ないほど、重要度は小さくなる。
図10は、ユーザによるデータ準備内容項目の登録の結果、データ準備内容項目に該当する処理プログラム、データ定義等のリストを作成するための処理の流れを示すフローチャートである。
図10のフローチャートに基づく動作は以下のとおりである。
ステップ1001:
データ利活用基盤サーバ101は、ユーザ作成による処理プログラム、データ定義のデータ利活用基盤サーバ101への登録を検出する。
ステップ1001:
データ利活用基盤サーバ101は、ユーザ作成による処理プログラム、データ定義のデータ利活用基盤サーバ101への登録を検出する。
ステップ1002:
データ利活用基盤サーバ101は、ステップ1001にて登録された処理プログラム、データ定義に該当データ準備内容カテゴリを検索する。
データ利活用基盤サーバ101は、ステップ1001にて登録された処理プログラム、データ定義に該当データ準備内容カテゴリを検索する。
ステップ1003:
データ利活用基盤サーバ101は、該当データ準備内容カテゴリの重要度を参照して、当該処理プログラム、データ定義の有用度を算出する。
データ利活用基盤サーバ101は、該当データ準備内容カテゴリの重要度を参照して、当該処理プログラム、データ定義の有用度を算出する。
ここで、有用度は、例えば、以下のような式で算出する。
(有用度) = w1×(重要度)+ w2×(提案実績数) :w1、w2は重み
(有用度) = w1×(重要度)+ w2×(提案実績数) :w1、w2は重み
ステップ1004:
データ利活用基盤サーバ101は、新たにデータ準備内容提案が発生するまで待機する。
ステップ1004において、新たにデータ準備内容提案が発生した場合(YES)は、ステップ1005に進み、発生しない場合(NO)は、発生するまで継続する。
データ利活用基盤サーバ101は、新たにデータ準備内容提案が発生するまで待機する。
ステップ1004において、新たにデータ準備内容提案が発生した場合(YES)は、ステップ1005に進み、発生しない場合(NO)は、発生するまで継続する。
ステップ1005:
データ利活用基盤サーバ101は、当該提案実績数から有用度を更新する。そして、ステップ1004に戻る。
データ利活用基盤サーバ101は、当該提案実績数から有用度を更新する。そして、ステップ1004に戻る。
図11は、本発明の適用先であるユーザ端末103〜105を用いるユーザに対して提供する情報の内容を示す画面のイメージ例を示す図である。
画面1101は、例えば、ユーザが登録する利活用目的501に対して提案するデータ準備内容における対象データ1111及び表形式1112を示す。
表形式1112にて、例えば、ユーザの利活用目的501に対して提案するデータ準備内容における、分類(テーブル化、データ結合・抽出、データ構造化、データ加工)、作業項目(要否、作業内容案)、処理プログラム(バイナリ変換処理プログラム1、モデル変換プログラム2)、難易度(数値)を一覧表示する。なお、該当する情報が無い場合は空白箇所を含めて表示する。
画面1102は、例えば、表形式1121にて、データ準備内容提案の実績集計結果によるデータ準備内容カテゴリとして、データ準備内容(対象データ、テーブル化、データ結合・抽出、データ構造化、データ加工)、関連する利活用目的(ユーザ種別、アプリロジック、KPI)、平均難易度(数値)、総数(数値)、重要度(数値)を一覧表示する。なお、該当する情報が無い場合は空白箇所を含めて表示する。
画面1103は、例えば、表形式1131にて、有用なデータ準備内容項目リストとして、分類、処理プログラム、データ定義、関連データ準備内容、有用度を一覧表示する。なお、該当する情報が無い場合は空白箇所を含めて表示する。
以上述べた実施例によれば、部署・業務を跨いでの横断的なデータ利活用の促進、データ利活用・分析サービスに係る開発コストの低減が図れる。また、例えば、交通分野における様々な問題解決のために、部署・業務を跨いで横断的にデータを活用しての分析が求められる場合、多種多様の業務データの理解が十分でない者、つまり、対象業務システムに関する知識が十分に無い者でも、迅速、かつ、容易にデータ利活用することが可能となり、また、様々な目的・用途によるデータ利活用を行うためのデータ準備(データ抽出、テーブル・リスト構築、加工、等)に係る負担を軽減することが可能である。
101 データ利活用基盤サーバ、102 管理者端末、103〜105 ユーザ端末、106〜108 業務システム、109,109’ ネットワーク、111、121、131 記憶装置、112、122、132 処理装置、113、123、133 通信装置、401 データ利活用ミドルウェア、421 データ準備処理実行管理部、422 利活用処理実行管理部、431 データ管理部、432 処理プログラム管理部、433 ユーザ・業務管理部、434 データ準備内容提案部、435 データ準備内容提案集計部、436 データ準備内容登録集計部
Claims (15)
- 複数の業務システムから収集したデータを蓄積・管理し、該データの利活用のために、データ準備及びデータ利活用に係る機能を提供するデータ利活用システムにおけるデータ利活用に係るデータ準備方法において、
ユーザが指定する利活用目的と前記データ利活用システムにて用意するデータ情報を照合し、前記データより前記利活用目的のために実施すべき対象データのデータ準備内容項目を選出し、当該データ準備内容項目の難易度を算出し、前記ユーザに提示する第1ステップと、
前記利活用目的に対するデータ準備内容項目を集計し、類似するデータ準備内容をカテゴリ化し、該カテゴリ化したデータ準備内容の重要度を算出し、前記ユーザ及び前記データ利活用システムの管理者に提示する第2ステップと、
前記類似するデータ準備内容のカテゴリに対して、前記データ準備内容項目に該当する処理プログラム、データ関係定義を含むリストを作成し、前記データ準備内容項目の有用度を算出し、前記ユーザに提示する第3ステップ、と、
を有することを特徴とするデータ利活用に係るデータ準備方法。 - 請求項1に記載されたデータ利活用に係るデータ準備方法おいて、
前記複数の業務システムからの生データを用いて前記利活用目的を実施するためのデータ準備として、前記業務システムからの前記生データに対して、テーブル化、データ結合・抽出、データ構造化、データ加工の処理を順に実施する
ことを特徴とするデータ利活用に係るデータ準備方法。 - 請求項1に記載されたデータ利活用に係るデータ準備方法おいて、
前記ユーザが指定する利活用目的は、要求データ項目、入力データ構造、アプリロジック、KPIを含み、
前記データ利活用システムにて用意するデータ情報は、前記業務システムからのデータに関するデータカタログ、データ関係情報、処理プログラムリストを含み、
前記第1ステップは、
前記利活用目的と前記データカタログを含むデータ情報とを照合する照合ステップ、
前記データ準備内容項目を算出するに際して、
前記業務システムのデータより対象データを選出する対象データ選出ステップ、
前記対象データ選出ステップにて抽出した対象データのテーブル化処理の要否を判定するテーブル化処理要否判定ステップ、
前記テーブル化処理要否判定ステップにてテーブル化処理を要と判定した場合、前記対象データのテーブル化処理内容を抽出するテーブル化処理内容抽出ステップ、
データ結合・抽出処理の要否を判定するデータ結合処理判定ステップ、
前記データ結合処理判定ステップにてデータ結合処理を要と判定した場合、前記テーブル化処理内容に結合する結合キー候補を選出するステップ、
前記データ関係情報を基に関連データ候補を選出する関連データ候補選出ステップ、
データ構造化処理の要否を判定するデータ構造化処理要否判定ステップ、
前記データ構造化処理の内容を抽出するデータ構造化処理内容抽出ステップ、
データ加工処理の要否を判定するデータ加工処理要否判定ステップ、
前記データ構造化処理要否判定ステップにてデータ加工処理を要と判定した場合、前記データ加工処理の内容を抽出するデータ加工処理内容抽出ステップ、
不足データ候補を選出する不足データ候補選出ステップ、を含む
ことを特徴とするデータ利活用に係るデータ準備方法。 - 請求項1または請求項3に記載されたデータ利活用に係るデータ準備方法おいて、
ユーザが指定する前記利活用目的と前記データ利活用システムにて用意するデータ情報とを照合して前記データ準備内容項目を算出する際に、算出された準備内容項目毎に項目の実施のし易さとしての難易度を算出するステップ、
前記データ準備内容項目の各項目の難易度を統合して、前記データ準備内容の難易度を算出するステップを含む、
ことを特徴とするデータ利活用に係るデータ準備方法。 - 請求項1に記載されたデータ利活用に係るデータ準備方法おいて、
前記第1ステップにて、
前記利活用目的に対するデータ準備内容の各項目提案内容とデータ準備内容提案実績から作成済みのカテゴリとを比較して、対象データ項目が閾値以上一致するか否か、テーブル化処理内容が閾値以上一致するか否か、データ結合・抽出処理内容が閾値以上一致するか否か、結合キー候補が閾値以上一致するか否か、関連データ候補が閾値以上一致するか否か、データ構造化処理内容が閾値以上一致するか否か、データ加工処理内容が閾値以上一致するか否か、不足データ候補が閾値以上一致するか否か、を順に判定し、
当該データ準備内容が既存データ準備カテゴリに含まれるか、新規カテゴリとするかを判定する
ことを特徴とするデータ利活用に係るデータ準備方法。 - 請求項1または請求項5に記載されたデータ利活用に係るデータ準備方法おいて、
データ準備内容カテゴリの重要度を算出するために、データ準備内容カテゴリの項目毎に集計の元となるデータ準備内容提案の各件から難易度を抽出し、
前記難易度を合算して平均難易度を算出し、
前記データ準備内容カテゴリの項目毎の集計の元となる提案件数の総数を算出し、
前記平均難易度と総数から当該データ準備内容カテゴリの重要度を算出する
ことを特徴とするデータ利活用に係るデータ準備方法。 - 請求項1に記載されたデータ利活用に係るデータ準備方法おいて、
前記データ準備内容のデータ準備内容カテゴリに対して、有用なデータ準備内容項目のリスト作成し、各項目の有用度を算出し提示するステップにて、ユーザが登録する処理プログラム、データ定義等のデータ準備内容項目に該当するデータ準備内容カテゴリを選出し、
該データ準備内容カテゴリの重要度と提案実績数から当該データ準備内容項目の有用度を算出する
ことを特徴とするデータ利活用に係るデータ準備方法。 - 請求項1、請求項3、請求項5、請求項7の何れか1つに記載されたデータ利活用に係るデータ準備方法おいて、
ユーザによる利活用目的の登録に対する、データ準備内容として対象データ、作業項目等に関する情報、またデータ準備内容提案の集計結果によるデータ準備内容カテゴリに関する情報、さらにデータ準備内容項目リストに関する情報を、ユーザに提示するために出力するステップ、
を有することを特徴とする、データ利活用に係るデータ準備方法。 - 複数の業務システムから収集したデータを蓄積・管理し、当該データの利活用を可能とするデータ準備及びデータ準備のデータ準備内容項目をユーザに提供するデータ利活用システムにおけるデータ準備方法において、
データ準備処理を実行するステップと、利活用処理を実行するステップ、を有し、
前記データ準備処理を実行するステップは、
ユーザが指定する利活用目的と前記データ利活用システムにて用意するデータ情報を照合し、前記データより前記利活用目的のために実施すべき対象データのデータ準備内容項目を求め、当該データ準備内容項目の難易度を算出し、
前記利活用処理を実行するステップは、
前記データ準備のデータ準備内容項目を集計し、類似するデータ準備内容をカテゴリ化し、当該カテゴリ化したデータ準備内容カテゴリの重要度を算出し、
前記データ準備内容及び前記重要度の前記ユーザへの提案を可能とする
ことを特徴とするデータ利活用システムにおけるデータ準備方法。 - 請求項9に記載されたデータ利活用システムにおけるデータ準備方法において、
前記利活用目的は、要求データ項目、入力データ構造、を含み、
前記データ情報は、データカタログを含み、当該データカタログは、データ項目、時刻、ファイル形式を含み、
前記データ準備内容項目は、テーブル化、データ結合・抽出、データ構造化、データ加工、であり、
前記重要度は、前記データ準備内容の平均難易度や総数を基に算出する、
ことを特徴とするデータ利活用システムにおけるデータ準備方法。 - 請求項9に記載されたデータ利活用システムにおけるデータ準備方法おいて、
前記データ準備処理を実行するステップは、さらに、
前記データ準備内容のカテゴリ毎に対して、関連する利活用目的をリストアップし、前記データ準備内容項目の各項目の有用度を算出し、
前記データ準備内容を提案するステップは、さらに、
前記有用度を前記ユーザに提示する
ことを特徴とするデータ利活用システムにおけるデータ準備方法。 - 請求項11に記載されたデータ利活用システムにおけるデータ準備方法において、
前記関連する利活用目的をリストアップは、関連データ候補として、前記データ準備内容に該当する処理プログラム、データ関係情報のリストを作成することである、
ことを特徴とするデータ利活用システムにおけるデータ準備方法。 - 複数の業務システムから収集したデータを蓄積・管理し、当該データの利活用を可能とするデータ準備及びデータ準備のデータ準備内容項目をユーザに提供するデータ利活用システムにおいて、
前記データ準備の処理を実行するデータ準備処理実行部、前記データ準備の利活用処理を実行する利活用処理実行部、前記データ準備の内容を提案するデータ準備内容提案部、を有し、
前記データ準備処理実行部は、
前記ユーザが指定する利活用目的と前記データ利活用システムにて用意するデータ情報を照合する処理部、
前記データより前記利活用目的のために実施すべき対象データのデータ準備内容項目を求め、かつ、当該データ準備内容項目の難易度を算出する処理部、を含み、
前記利活用処理実行部は、
前記データ準備のデータ準備内容項目を集計する処理部、
類似する前記データ準備内容をカテゴリ化する処理部、
カテゴリ化した前記データ準備内容項目のデータ準備内容の重要度を算出する処理部、を含み、
前記データ準備内容提案部は、
前記データ準備内容及び前記重要度を前記ユーザに提案する処理部、を含む、
ことを特徴とするデータ利活用システム。 - 請求項13に記載されたデータ利活用システムにおいて、
前記利活用目的は、要求データ項目、入力データ構造、を含み、
前記データ情報は、データカタログを含み、当該データカタログは、データ項目、時刻、ファイル形式を含み、
前記データ準備内容項目は、テーブル化、データ結合・抽出、データ構造化、データ加工、であり、
前記重要度は、前記データ準備内容の平均難易度や総数を基に算出する、
ことを特徴とするデータ利活用システム。 - 請求項13に記載されたデータ利活用システムにおいて、
前記データ準備処理実行部は、さらに、
前記データ準備内容のカテゴリ毎に対して、関連する利活用目的をリストアップする処理部、前記データ準備内容項目の各項目の有用度を算出する処理部、を有し、
前記データ準備内容提案部は、さらに、
前記有用度を前記ユーザに提示する処理部、を有する
ことを特徴とするデータ利活用システム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018078244A JP7015725B2 (ja) | 2018-04-16 | 2018-04-16 | データ利活用に係るデータ準備方法及びデータ利活用システム |
KR1020207028562A KR102432126B1 (ko) | 2018-04-16 | 2019-02-20 | 데이터 이활용에 관한 데이터 준비 방법 및 데이터 이활용 시스템 |
US17/046,759 US20210117886A1 (en) | 2018-04-16 | 2019-02-20 | Data Preparation Method Related to Data Utilization and Data Utilization System |
PCT/JP2019/006352 WO2019202839A1 (ja) | 2018-04-16 | 2019-02-20 | データ利活用に係るデータ準備方法及びデータ利活用システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018078244A JP7015725B2 (ja) | 2018-04-16 | 2018-04-16 | データ利活用に係るデータ準備方法及びデータ利活用システム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2019185582A JP2019185582A (ja) | 2019-10-24 |
JP2019185582A5 true JP2019185582A5 (ja) | 2020-12-17 |
JP7015725B2 JP7015725B2 (ja) | 2022-02-03 |
Family
ID=68239524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018078244A Active JP7015725B2 (ja) | 2018-04-16 | 2018-04-16 | データ利活用に係るデータ準備方法及びデータ利活用システム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210117886A1 (ja) |
JP (1) | JP7015725B2 (ja) |
KR (1) | KR102432126B1 (ja) |
WO (1) | WO2019202839A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6967102B2 (ja) * | 2020-03-05 | 2021-11-17 | 株式会社ビデオリサーチ | 顧客推定装置及び顧客推定方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4570217A (en) * | 1982-03-29 | 1986-02-11 | Allen Bruce S | Man machine interface |
US7098392B2 (en) * | 1996-07-10 | 2006-08-29 | Sitrick David H | Electronic image visualization system and communication methodologies |
US20080004922A1 (en) * | 1997-01-06 | 2008-01-03 | Jeff Scott Eder | Detailed method of and system for modeling and analyzing business improvement programs |
US7072843B2 (en) * | 2001-03-23 | 2006-07-04 | Restaurant Services, Inc. | System, method and computer program product for error checking in a supply chain management framework |
US20030074206A1 (en) * | 2001-03-23 | 2003-04-17 | Restaurant Services, Inc. | System, method and computer program product for utilizing market demand information for generating revenue |
US7039606B2 (en) * | 2001-03-23 | 2006-05-02 | Restaurant Services, Inc. | System, method and computer program product for contract consistency in a supply chain management framework |
US7120596B2 (en) * | 2001-03-23 | 2006-10-10 | Restaurant Services, Inc. | System, method and computer program product for landed cost reporting in a supply chain management framework |
JP4244768B2 (ja) * | 2003-09-30 | 2009-03-25 | 株式会社日立製作所 | 不良影響度評価方法および設計支援システム |
US20050096950A1 (en) * | 2003-10-29 | 2005-05-05 | Caplan Scott M. | Method and apparatus for creating and evaluating strategies |
US8627222B2 (en) * | 2005-09-12 | 2014-01-07 | Microsoft Corporation | Expanded search and find user interface |
US10586194B2 (en) * | 2008-09-09 | 2020-03-10 | INSPIRD, Inc. | Method and system for managing research and development in an enterprise |
JP5359389B2 (ja) | 2009-03-06 | 2013-12-04 | 大日本印刷株式会社 | データ分析支援装置、データ分析支援システム、及びプログラム |
JP5398361B2 (ja) | 2009-06-01 | 2014-01-29 | 株式会社日立製作所 | データ分析システム |
WO2015049797A1 (ja) | 2013-10-04 | 2015-04-09 | 株式会社日立製作所 | データ管理方法、データ管理装置及び記憶媒体 |
SG10201406215YA (en) | 2014-09-30 | 2016-04-28 | Mentorica Technology Pte Ltd | Systems and methods for automated data analysis and customer relationship management |
JP5847344B1 (ja) | 2015-03-24 | 2016-01-20 | 株式会社ギックス | データ処理システム、データ処理方法、プログラム及びコンピュータ記憶媒体 |
-
2018
- 2018-04-16 JP JP2018078244A patent/JP7015725B2/ja active Active
-
2019
- 2019-02-20 US US17/046,759 patent/US20210117886A1/en not_active Abandoned
- 2019-02-20 WO PCT/JP2019/006352 patent/WO2019202839A1/ja active Application Filing
- 2019-02-20 KR KR1020207028562A patent/KR102432126B1/ko active IP Right Grant
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210357835A1 (en) | Resource Deployment Predictions Using Machine Learning | |
Castellanos et al. | A comprehensive and automated approach to intelligent business processes execution analysis | |
US20040220910A1 (en) | System and method of dynamic service composition for business process outsourcing | |
US20060235742A1 (en) | System and method for process evaluation | |
CN111192021A (zh) | 一种oa单据审批实现方法及系统 | |
US20130138663A1 (en) | System or Apparatus for Finding Influential Users | |
CN111709613A (zh) | 基于数据统计的任务自动分配方法、装置及计算机设备 | |
US11921737B2 (en) | ETL workflow recommendation device, ETL workflow recommendation method and ETL workflow recommendation system | |
US20140280061A1 (en) | Document processing system and method | |
JP6784612B2 (ja) | 分析ソフトウェア管理システム及び分析ソフトウェア管理方法 | |
US20040015378A1 (en) | Semantically investigating business processes | |
Casati et al. | Probabilistic, context-sensitive, and goal-oriented service selection | |
US7613799B2 (en) | Service evaluation method, system, and computer program product | |
CN110322143B (zh) | 模型实体化管理方法、装置、设备及计算机存储介质 | |
CN116187524A (zh) | 一种基于机器学习的供应链分析模型对比方法及装置 | |
JP7015725B2 (ja) | データ利活用に係るデータ準備方法及びデータ利活用システム | |
JP2019185582A5 (ja) | ||
CN112734182A (zh) | 一种实体数字化转型能力评估方法和装置 | |
Ibarra et al. | Software estimation based on use case size | |
Chen et al. | Strategic Decision-making Processes of NPD by Hybrid Classification Model Techniques | |
Zampou et al. | Implementation of Energy and Carbon Management Systems in the Supply Chain: Evidence from the Retail and Consumer Goods Industries | |
JP6409888B2 (ja) | 集計装置および集計プログラム | |
Dakova et al. | A Pluralistic Approach to Information Valuation. | |
WO2016151865A1 (ja) | ソフトウェア選択システム及びその方法 | |
Pospisil et al. | Business process simulation for predictions |