JP7015725B2 - データ利活用に係るデータ準備方法及びデータ利活用システム - Google Patents
データ利活用に係るデータ準備方法及びデータ利活用システム Download PDFInfo
- Publication number
- JP7015725B2 JP7015725B2 JP2018078244A JP2018078244A JP7015725B2 JP 7015725 B2 JP7015725 B2 JP 7015725B2 JP 2018078244 A JP2018078244 A JP 2018078244A JP 2018078244 A JP2018078244 A JP 2018078244A JP 7015725 B2 JP7015725 B2 JP 7015725B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- utilization
- data preparation
- preparation
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
Description
更に詳しくは、例えば、複数の業務システムからのデータを対象とした様々な目的・用途で利活用するデータを準備及び管理するデータ利活用に係るデータ準備方法及び利活用システムに関する。
また、データ処理システムとして、特開2016-181150号公報(特許文献2)に記載された技術が提案されている。この公報には、「入力されたデータを処理して分析用のデータを生成するデータ処理システムであって、データベースを格納する記憶部と、 前記データベースに格納されるデータを処理する処理部と、分析用のデータを生成するために必要な条件を設定する設定部と、を有し、前記データベースは、入力されたすべての入力データを格納するデータウェアハウスと、前記処理部によって前記入力データを統合して統合データを生成した後、前記統合データを格納する統合レイヤと、前記処理部によって前記統合データを、不加算項目の1つ以上の組み合わせ毎に、少なくとも加算項目の数量又は不加算項目の数を集計して複数の集計データを生成した後、前記複数の集計データを格納する集計レイヤと、前記処理部によって、前記設定部で設定された条件に基づき、前記複数の集計データから1つの集計データを選択し、さらに当該1つの集計データから分析データを抽出した後、前記分析データを格納する分析レイヤと、を有することを特徴とする、データ処理システム」との記載がある。
アプリケーションに対して提供する場合、例えば、交通、電力、産業、その他分野の業務における様々な問題を解決するためには、部署や業務を跨いで横断的に業務データを大量に収集し、それらの分析実施が求められる。しかし、現状、大量の業務データの理解が必要であることや業務知識に基づく属人性が高いこと、等が分析実施の妨げとなっている。
そこで、業務データの分析・加工の知識や業務知識が十分に無い人でも、迅速かつ容易に分析でき、かつ、各種の業務データに対する分析処理の作成及び実施に係る負荷を低減することが求められる。
特許文献1に開示された発明は、分析目的に該当する分析処理と前処理とのプログラム対応表を事前に作成し、該プログラム対応表を参照し、分析目的に該当する前処理プログラムをデータ収集装置に配布し、個々の生データ向けに目的に合致した前処理を実施するものであり、当該技術では、事前に分析目的と対象生データを全て洗い出して、分析処理と前処理との対応表を作成することが必要であり、特定の種類のデータに対して、想定の範囲内の目的のみへの活用となる。つまり、複数のシステムからの多種多様なデータを対象とすると、前処理や分析との対応表の作成に負荷が増大する課題がある。
また、特許文献2に開示された発明は、入力された全データを結合して結合データを生成し、また、様々な項目にて集計データを生成し、これらの結合データ及び集計データから必要なデータを抽出し、目的に応じた分析データを作成するものであり、当該技術では、活用可能なのは統合データの作成可能なデータに限られる。複数の業務システムからの多種多様なデータに対しては一様に統合データを作成できるとは限らない。また、統合データ、集計データから目的に合った分析データを作成するためには、元のデータを全て理解していることが必要となる。つまり、複数のシステムからの多種多様なデータに対して一様に統合データを作成することがでるとは限らない課題がある。
以上のように、従来として、業務上の課題解決や異常原因究明等の目的でデータ利活用を促進するために、業務システムからのデータの蓄積及びデータ準備、データ利活用に係る機能等を提供するデータ利活用システムが導入されているが、ユーザの多種多様な利活用の目的に応えるためには、上述した特許文献1または特許文献2に開示された技術のように、事前に想定された限られた範囲内だけでの有効活用可能な機能の提供となるか、汎用的に使える標準的な機能の提供のみに限られる。このため、多種多様な利活用の目的を達成するためには、データ準備、データ利活用に係る作業においてユーザ自身による負担が大きくなり得る等の課題があった。
例えば、業務課題解決や異常原因究明、等に対して、データ分析やその課題解決立案、課題解決のための業務アプリケーションの作成、等に対応することができ、多種多様なデータを用いて、様々な目的でのデータ利活用を行うユーザに対して、適切な重要度の高いデータ準備内容(データ準備項目)を容易に提案することができる技術を目的とする。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
また、ユーザとは、現場データの知識に乏しく、ITリテラシーの高い分析者、開発者やシステム管理者、等を想定する。
分析者とは、部署横断で様々なデータに対して、様々な分析手法や分析ツールを用いて、問題発見、解決策立案、等を行う者である。
開発者とは、分析業務に必要な分析アプリケーションを開発する者である。システム管理者とは、データ利活用システムを管理、運用し、業務システムからの生データの蓄積・加工等の処理ロジックプログラムの登録、管理を行う者である。
ここで、難易度とは、ユーザにとって作業に要する負荷の大きさである。難易度が低い場合は、処理プログラムの再利用等により、作業負荷が小さいことが見込まれる。
以下、図2においては、分析者202~204を分析者A~Cと称して説明する。
業務システム106は、業務データをデータ利活用基盤サーバ101の記憶装置111に登録する(ステップ211)。
データカタログは、システム、つまり、データ項目(リスト)を含むファイルを備えたシステムを記述したものであり、詳しくは、例えば、図5(B)に示すとおりであり、後述する。
利活用目的は、要求データ項目、入力データ構造、を含み、詳しくは、例えば、図5(A)に示すとおりであり、後述する。
ここで、データ準備作業実施(ステップ242)及び利活用実施(ステップ243)は、データ利活用基盤サーバ101に提供する機能等を活用して実施することもできる。
これはデータ利活用基盤サーバ101が提供するデータ利活用のための機能・サービスを拡充するために実施するためである。
このとき、システム側に登録された処理プログラム、データ関係情報等を用いることで、より精度の高い提案を実施することができる。
業務システム106から収集した業務データ(生データ)には、分析ツール等で良く用いられるCSV(Comma Separated Values)等の表形式データだけでなく、BIN(バイナリ)、TXT(テキスト)、IMG(イメージ)、PDF(Portable Document Format)、等の様々な形式のデータが含まれることが多い。
本例では、目的に応じて各種分析ツールやアプリケーションで一般的に用いられる関係モデルテーブル形式、クロス集計等に用いられるピボットテーブル形式、また各アプリケーション向けの共通データモデル形式、等へと変換する。
ここでは、例えば、単位変換や、誤差補正、名寄せ等のデータクレンジング処理を行う。
以上のとおり、処理されたデータ準備は、データ準備テーブル(図4参照)に格納する。
データ利活用基盤サーバ101は、データ利活用ミドルウェア401から構成される。
また、業務システム106~108からの生データを記憶する生データ記憶部411、データ利活用システム側にて用意するデータカタログ502(図5(B)参照)を記憶するデータカタログ記憶部602、処理プログラムリスト503(図5(C)参照)を記憶する処理プログラム記憶部603、データ関係情報504(図5(D)参照)を記憶するデータ関係定義記憶部604、データ準備に関係するデータ(図6(A)~(C)参照)を記憶するデータ準備テーブル記憶部444、等を含む。
生データとしては、業務システムからの業務システムデータの他にセンサデータ、オープンデータも含む。
データ利活用を行うユーザの利活用目的の要求データ項目や入力データ構造とデータ利活用システム側にて用意するデータ情報(例えば、生データのデータカタログ、データ関係情報、等)を照合し、
実施すべきデータ準備内容(作業項目)及びその難易度を算出し、
データ準備内容提案管理テーブル(図6(A)の6011参照)を管理する機能を有する。
また、データ準備内容とは、例えば、生データのテーブル化、テーブル化した個別テーブルのためのデータ結合・抽出、構造化データのためのデータ構造化、アプリ個別入力データ構造化のためのデータ加工(クレンジング)、等である。
上述したデータ準備処理の手順については、図7を参照して後述する。
データ準備内容のグループ毎の平均難易度や総数を基に重要度、つまり、利活用に必要とされる度合いを算出し、
データ準備内容カテゴリ管理テーブル(図6(B)の6021参照)を管理する機能を有する。
上述した重要度を算出する利活用処理の手順については、図8~図9を参照して後述する。
上述した有用度算出する利活用処理の手順については、図10を参照して後述する。
ここで、利活用目的501及びデータカタログ502は、本発明によるデータ利活用に係るデータ準備方法を実施する上で必須である。
すなわち、処理プログラムリスト503及びデータ関係情報504は、なくても、本発明によるデータ利活用に係るデータ準備方法は実施可能であるが、あれば、本発明によるデータ利活用に係るデータ準備方法におけるデータ準備内容提案等の精度がより向上する。
ステップ701:
データ利活用基盤サーバ101は、ユーザが作成した利活用目的501の要求データ項目とデータ利活用基盤サーバ101にて用意したデータカタログ502のファイルのデータ項目との照合を行う。要求データ項目は、本例では、図5(A)に示すように要求するデータの種別・項目、範囲(時刻、等)である。
データ利活用基盤サーバ101は、ステップ701の照合結果より、業務システムにおける生データより対象となる対象データ(データ/ファイル/システムで指定)を選出する。対象データは、本例では、レール摩耗度、通トン、遅延時分、駅到着時刻、駅出発時刻、気温、等である。
データ利活用基盤サーバ101は、ステップ701、702の結果より対象データ選出に関してデータ準備内容項目の難易度を判定する。つまり、ユーザが要求するデータの種別・項目・範囲に対するデータ準備内容項目(図6(A)の対象データ612)の難易度を判定する。
難易度は、本例では、要求データ項目に該当するデータとして抽出できたデータの数が多ければ難易度は高く、少なければ難易度は低いとする。
データ利活用基盤サーバ101は、利活用目的501の入力データ構造とデータカタログ502における該当データのファイル形式とを照合する。入力データ構造とは、本例では、図5(A)に示すように関係モデルテーブル(CSV)、ピボットテーブル、各種共通データモデル、等である。
データ利活用基盤サーバ101は、ステップ704の結果、テーブル化処理が必要と判定した場合(YES)は、次のステップ706に進み、不要と判定した場合(NO)は、ステップ707に進む。
データ利活用基盤サーバ101は、データ準備内容項目のテーブル化処理内容を抽出する。また、該テーブル化処理内容に該当する処理プログラムがデータ利活用基盤サーバ101に登録されていれば処理プログラム候補リストを作成する。処理プログラム候補とは、例えば、バイナリ変換プログラム、モデル変換プログラム、等である。
データ利活用基盤サーバ101は、ステップ704~706の結果よりテーブル化に関してデータ準備内容項目(図6(A)のテーブル化613)の難易度を判定する。
本例では、テーブル化処理が必要であれば難易度は高く、必要でなければ難易度は低いとする。また、テーブル化処理に該当する処理プログラム候補がデータ利活用基盤サーバ101に登録されていなければ難易度は高く、登録されていれば難易度は低いとする。
データ利活用基盤サーバ101は、利活用目的501の要求データ項目とデータカタログ502の該当データのファイル・ファイル数とを照合し、またデータ関係情報504があれば参照する。
データ利活用基盤サーバ101は、ステップ708の結果、データ結合処理が必要と判定した場合(YES)は、ステップ710に進み、不要と判定した場合(NO)は、ステップ712に進む。
データ利活用基盤サーバ101は、ステップ708の結果から、データ関係情報504のデータ結合に用いる結合キー候補(データ結合・抽出における軸指定/キロ程、時刻、等)を選出する。例えば、結合対象の複数のテーブルに共通してあるデータが結合キーとなり得る。
データ利活用基盤サーバ101は、ステップ708の結果から、データ関係情報504を基に関連データ候補(データ結合・抽出におけるマスタ指定/線路マスタ、等)を選出する。例えば、各種コードのマスタデータ等が該当する。
データ利活用基盤サーバ101の処理装置112は、ステップ708~711の結果よりデータ結合・抽出に関してデータ準備内容項目(図6(A)のデータ結合・抽出614)の難易度を判定する。
難易度は、本例では、データ結合・抽出処理が必要であれば高く、必要でなければ低いとする。また選出した結合キー候補の数が少なければ難易度は高く、多ければ難易度は低いとする。さらに選出した関連キー候補の数が少なければ難易度は高く、多ければ難易度は低いとする。
データ利活用基盤サーバ101は、利活用目的501の入力データ構造とデータカタログ502の該当データのファイル形式、また、ステップ708~711の結果として導出した結合テーブル構造とを照合する。
データ利活用基盤サーバ101は、ステップ713の結果、データ構造化処理が必要と判定した場合(YES)は、ステップ715に進み、不要と判定した場合(NO)は、ステップ716に進む。
データ利活用基盤サーバ101は、データ構造化処理内容を抽出する。また、データ構造化処理内容に該当する処理プログラムがデータ利活用基盤サーバ101に登録されていれば処理プログラム候補リストを作成する。
データ利活用基盤サーバ101は、ステップ713~715の結果よりデータ構造化に関してデータ準備内容項目(図6(A)のデータ構造化615)の難易度を判定する。
本例では、データ構造化処理が必要であれば難易度は高く、必要でなければ難易度は低いとする。また、データ構造化処理に該当する処理プログラム候補がデータ利活用基盤サーバ101に登録されていなければ難易度は高く、登録されていれば難易度は低いとする。
データ利活用基盤サーバ101は、利活用目的501の要求データ項目、入力データ構造とデータカタログ502のデータ項目、ステップ713~715の結果として導出したデータ構造とを照合する。
データ利活用基盤サーバ101は、ステップ717の結果、データ加工処理が必要と判定した場合(YES)は、ステップ719に進み、不要と判定した場合(NO)は、ステップ721に進む。
データ利活用基盤サーバ101は、データ加工処理内容を抽出する。また、データ加工処理内容に該当する処理プログラムがデータ利活用基盤サーバ101に登録されていれば処理プログラム候補リストを作成する。
データ利活用基盤サーバ101は、ステップ717の結果から不足データ候補を選出する。
不足データ候補とは、本例では、利活用目的501の要求データ項目には含まれるが、データカタログ502には該当するものが存在しないデータである。
データ利活用基盤サーバ101は、ステップ717~720の結果よりデータ加工に関してデータ準備内容項目(データ加工616)の難易度を判定する。
難易度は、本例では、データ加工処理が必要であれば高く、必要でなければ低いとする。また、データ加工処理に該当する処理プログラム候補がデータ利活用基盤サーバ101に登録されていなければ難易度は高く、登録されていれば難易度は低いとする。さらに、選出した不足データ候補の数が多ければ難易度は高く、少なければ難易度は低いとする。
データ利活用基盤サーバ101は、ステップ703、707、712、716、721の判定結果より、当該データ準備内容項目(対象データ、テーブル化、データ結合・抽出、データ構造化、データ加工)の各難易度を統合判定する。
ステップ801:
データ利活用基盤サーバ101は、データ準備提案内容とデータ準備内容提案実績(グループ化済みのカテゴリ)との比較を行う。
データ利活用基盤サーバ101は、ステップ801の結果、対象データ項目が閾値以上一致するか否かの判定を行う。
ここで、対象データ項目が閾値以上一致する場合(YES)は、ステップ803に進み、一致しない場合(NO)は、ステップ812に進み、ステップ812において、当該カテゴリとは非類似と判定する。
データ利活用基盤サーバ101は、テーブル化処理内容が閾値以上一致するか否かを判定する。
ここで、テーブル化処理内容が閾値以上一致する場合(YES)は、ステップ804に進み、一致しない場合(NO)は、ステップ812に進む。
データ利活用基盤サーバ101は、データ結合・抽出処理内容が閾値以上一致するか否かを判定する。
ここで、データ結合・抽出処理内容が閾値以上一致する場合(YES)はステップ805に進み、一致しない場合(NO)は、ステップ812に進む。
データ利活用基盤サーバ101は、結合キー候補が閾値以上一致か否かを判定する。
ここで、一致する場合(YES)は、ステップ806に進み、一致しない場合(NO)は、ステップ812に進む。
データ利活用基盤サーバ101は、関連データ候補が閾値以上一致するか否かを判定する。
ここで、一致する場合(YES)は、ステップ807に進み、一致しない場合(NO)は、ステップ812に進む。
データ利活用基盤サーバ101は、データ構造化処理内容が閾値以上一致するか否かを判定する。
ここで、一致する場合(YES)は、ステップ808に進み、一致しない場合(NO)は、ステップ812に進む。
データ利活用基盤サーバ101は、データ加工処理内容が閾値以上一致するか否かを判定する。
ここで、一致する場合(YES)はステップ809に進み、一致しない場合(NO)は、ステップ812に進む。
データ利活用基盤サーバ101は、不足データ候補が閾値以上一致するか否かを判定する。
ここで、一致する場合(YES)は、ステップ810に進み、一致しない場合(NO)は、ステップ812に進む。
データ利活用基盤サーバ101は、ステップ802~809の各ステップにて、それぞれ一致と判定した場合は、当該カテゴリと類似と判定し、ステップ810に進む。
データ利活用基盤サーバ101は、該カテゴリにデータ準備提案内容を加算する。すなわち、カテゴリ毎における関連利活用目的(ユーザ種別、アプリロジック、KPI)へのデータ準備提案内容の利活用目的の追加及び該カテゴリの平均難易度、総数、重要度の更新を行う。
カテゴリの難易度は、対象データの難易度、テーブル化の難易度、データ結合・抽出の難易度、データ構造化の難易度、データ加工の難易度、があり、これらは重み付けして算出する。重要度は、難易度:大、総数:多の場合は、重要度:大とし、難易度:小、総数:小の場合は、重要度:小とする。
データ利活用基盤サーバ101は、ステップ802~809の各ステップにてそれぞれ不一致と判定した場合は、当該カテゴリとは非類似と判定し、ステップ813に進む。
データ利活用基盤サーバ101は、全カテゴリとの比較を終了しているか否かを判定し、終了していない場合(NO)は、ステップ801~812の処理を繰り返す。全カテゴリとの比較を終了した場合(YES)は、ステップ814に進み、当該データ準備提案内容を新規のカテゴリとして登録する。
ステップ901:
データ利活用基盤サーバ101は、データ準備内容カテゴリ毎に集計の元となるデータ準備内容提案の各件に対する利活用目的501を参照する。
データ利活用基盤サーバ101は、利活用目的501にアプリロジック情報が含まれていれば、該アプリロジック情報を抽出し、リストアップする。
データ利活用基盤サーバ101は、利活用目的501にKPI情報が含まれていれば、該KPI情報を抽出し、リストアップする。
データ利活用基盤サーバ101は、データ準備内容カテゴリ毎に集計の元となるデータ準備内容提案の各件における難易度を抽出し、合算する。
データ利活用基盤サーバ101は、データ準備内容カテゴリ毎に集計の元となるデータ準備内容提案の全件に対して終了しているか否かを判定し、終了していなければ、ステップ901に戻り、ステップ901~904の処理を繰り返す。
ステップ905において、データ準備内容カテゴリ毎に集計の元となるデータ準備内容提案の全件に対して終了していれば、ステップ906に進む。
データ利用基盤サーバ101は、ステップ904の難易度の合算結果から平均難易度を算出する。
データ利活用基盤サーバ101は、データ準備内容カテゴリ毎の集計の元となる提案件数の総数を算出する。
データ利活用基盤サーバ101は、ステップ906、907にて算出した平均難易度、総数より重要度を算出する。
(重要度) = w1×(平均難易度)+ w2×(総数) :w1、w2は重み
上記式より平均難易度が大きく、総数が多いほど、重要度は大きくなる。また平均難易度が小さく、総数が少ないほど、重要度は小さくなる。
ステップ1001:
データ利活用基盤サーバ101は、ユーザ作成による処理プログラム、データ定義のデータ利活用基盤サーバ101への登録を検出する。
データ利活用基盤サーバ101は、ステップ1001にて登録された処理プログラム、データ定義に該当データ準備内容カテゴリを検索する。
データ利活用基盤サーバ101は、該当データ準備内容カテゴリの重要度を参照して、当該処理プログラム、データ定義の有用度を算出する。
(有用度) = w1×(重要度)+ w2×(提案実績数) :w1、w2は重み
データ利活用基盤サーバ101は、新たにデータ準備内容提案が発生するまで待機する。
ステップ1004において、新たにデータ準備内容提案が発生した場合(YES)は、ステップ1005に進み、発生しない場合(NO)は、発生するまで継続する。
データ利活用基盤サーバ101は、当該提案実績数から有用度を更新する。そして、ステップ1004に戻る。
Claims (15)
- 複数の業務システムから収集したデータを蓄積・管理し、該データの利活用のために、データ準備及びデータ利活用に係る機能を提供するデータ利活用システムにおけるデータ利活用に係るデータ準備方法において、
ユーザが指定する利活用目的と前記データ利活用システムにて用意するデータ情報を照合し、前記データより前記利活用目的のために実施すべき対象データのデータ準備内容項目を選出し、当該データ準備内容項目の難易度を算出し、前記ユーザに提示する第1ステップと、
前記利活用目的に対するデータ準備内容項目を集計し、類似するデータ準備内容をカテゴリ化し、該カテゴリ化したデータ準備内容の重要度を算出し、前記ユーザ及び前記データ利活用システムの管理者に提示する第2ステップと、
前記類似するデータ準備内容のカテゴリに対して、前記データ準備内容項目に該当する処理プログラム、データ関係定義を含むリストを作成し、前記データ準備内容項目の有用度を算出し、前記ユーザに提示する第3ステップ、と、
を有することを特徴とするデータ利活用に係るデータ準備方法。 - 請求項1に記載されたデータ利活用に係るデータ準備方法において、
前記複数の業務システムからの生データを用いて前記利活用目的を実施するためのデータ準備として、前記業務システムからの前記生データに対して、テーブル化、データ結合・抽出、データ構造化、データ加工の処理を順に実施する
ことを特徴とするデータ利活用に係るデータ準備方法。 - 請求項1に記載されたデータ利活用に係るデータ準備方法において、
前記ユーザが指定する利活用目的は、要求データ項目、入力データ構造、アプリロジック、KPIを含み、
前記データ利活用システムにて用意するデータ情報は、前記業務システムからのデータに関するデータカタログ、データ関係情報、処理プログラムリストを含み、
前記第1ステップは、
前記利活用目的と前記データカタログを含むデータ情報とを照合する照合ステップ、
前記データ準備内容項目を算出するに際して、
前記業務システムのデータより対象データを選出する対象データ選出ステップ、
前記対象データ選出ステップにて抽出した対象データのテーブル化処理の要否を判定するテーブル化処理要否判定ステップ、
前記テーブル化処理要否判定ステップにてテーブル化処理を要と判定した場合、前記対象データのテーブル化処理内容を抽出するテーブル化処理内容抽出ステップ、
データ結合・抽出処理の要否を判定するデータ結合処理判定ステップ、
前記データ結合処理判定ステップにてデータ結合処理を要と判定した場合、前記テーブル化処理内容に結合する結合キー候補を選出するステップ、
前記データ関係情報を基に関連データ候補を選出する関連データ候補選出ステップ、
データ構造化処理の要否を判定するデータ構造化処理要否判定ステップ、
前記データ構造化処理の内容を抽出するデータ構造化処理内容抽出ステップ、
データ加工処理の要否を判定するデータ加工処理要否判定ステップ、
前記データ構造化処理要否判定ステップにてデータ加工処理を要と判定した場合、前記データ加工処理の内容を抽出するデータ加工処理内容抽出ステップ、
不足データ候補を選出する不足データ候補選出ステップ、を含む
ことを特徴とするデータ利活用に係るデータ準備方法。 - 請求項1または請求項3に記載されたデータ利活用に係るデータ準備方法において、
ユーザが指定する前記利活用目的と前記データ利活用システムにて用意するデータ情報とを照合して前記データ準備内容項目を算出する際に、算出された準備内容項目毎に項目の実施のし易さとしての難易度を算出するステップ、
前記データ準備内容項目の各項目の難易度を統合して、前記データ準備内容の難易度を算出するステップを含む、
ことを特徴とするデータ利活用に係るデータ準備方法。 - 請求項1に記載されたデータ利活用に係るデータ準備方法において、
前記第1ステップにて、
前記利活用目的に対するデータ準備内容の各項目提案内容とデータ準備内容提案実績から作成済みのカテゴリとを比較して、対象データ項目が閾値以上一致するか否か、テーブル化処理内容が閾値以上一致するか否か、データ結合・抽出処理内容が閾値以上一致するか否か、結合キー候補が閾値以上一致するか否か、関連データ候補が閾値以上一致するか否か、データ構造化処理内容が閾値以上一致するか否か、データ加工処理内容が閾値以上一致するか否か、不足データ候補が閾値以上一致するか否か、を順に判定し、
当該データ準備内容が既存データ準備カテゴリに含まれるか、新規カテゴリとするかを判定する
ことを特徴とするデータ利活用に係るデータ準備方法。 - 請求項1または請求項5に記載されたデータ利活用に係るデータ準備方法において、
データ準備内容カテゴリの重要度を算出するために、データ準備内容カテゴリの項目毎に集計の元となるデータ準備内容提案の各件から難易度を抽出し、
前記難易度を合算して平均難易度を算出し、
前記データ準備内容カテゴリの項目毎の集計の元となる提案件数の総数を算出し、
前記平均難易度と総数から当該データ準備内容カテゴリの重要度を算出する
ことを特徴とするデータ利活用に係るデータ準備方法。 - 請求項1に記載されたデータ利活用に係るデータ準備方法において、
前記データ準備内容のデータ準備内容カテゴリに対して、有用なデータ準備内容項目のリスト作成し、各項目の有用度を算出し提示するステップにて、ユーザが登録する処理プログラム、データ定義のデータ準備内容項目に該当するデータ準備内容カテゴリを選出し、
該データ準備内容カテゴリの重要度と提案実績数から当該データ準備内容項目の有用度を算出する
ことを特徴とするデータ利活用に係るデータ準備方法。 - 請求項1、請求項3、請求項5、請求項7の何れか1つに記載されたデータ利活用に係るデータ準備方法において、
ユーザによる利活用目的の登録に対する、データ準備内容として対象データ、作業項目に関する情報、またデータ準備内容提案の集計結果によるデータ準備内容カテゴリに関する情報、さらにデータ準備内容項目リストに関する情報を、ユーザに提示するために出力するステップ、
を有することを特徴とする、データ利活用に係るデータ準備方法。 - 複数の業務システムから収集したデータを蓄積・管理し、当該データの利活用を可能とするデータ準備及びデータ準備のデータ準備内容項目をユーザに提供するデータ利活用システムにおけるデータ準備方法において、
データ準備処理を実行するステップと、利活用処理を実行するステップ、を有し、
前記データ準備処理を実行するステップは、
ユーザが指定する利活用目的と前記データ利活用システムにて用意するデータ情報を照合し、前記データより前記利活用目的のために実施すべき対象データのデータ準備内容項目を求め、当該データ準備内容項目の難易度を算出し、
前記利活用処理を実行するステップは、
前記データ準備のデータ準備内容項目を集計し、類似するデータ準備内容をカテゴリ化し、当該カテゴリ化したデータ準備内容カテゴリの重要度を算出し、
前記データ準備内容及び前記重要度の前記ユーザへの提案を可能とする
ことを特徴とするデータ利活用システムにおけるデータ準備方法。 - 請求項9に記載されたデータ利活用システムにおけるデータ準備方法において、
前記利活用目的は、要求データ項目、入力データ構造、を含み、
前記データ情報は、データカタログを含み、当該データカタログは、データ項目、時刻、ファイル形式を含み、
前記データ準備内容項目は、テーブル化、データ結合・抽出、データ構造化、データ加工、であり、
前記重要度は、前記データ準備内容の平均難易度や総数を基に算出する、
ことを特徴とするデータ利活用システムにおけるデータ準備方法。 - 請求項9に記載されたデータ利活用システムにおけるデータ準備方法において、
前記データ準備処理を実行するステップは、さらに、
前記データ準備内容のカテゴリ毎に対して、関連する利活用目的をリストアップし、前記データ準備内容項目の各項目の有用度を算出し、
前記データ準備内容を提案するステップは、さらに、
前記有用度を前記ユーザに提示する
ことを特徴とするデータ利活用システムにおけるデータ準備方法。 - 請求項11に記載されたデータ利活用システムにおけるデータ準備方法において、
前記関連する利活用目的をリストアップは、関連データ候補として、前記データ準備内容に該当する処理プログラム、データ関係情報のリストを作成することである、
ことを特徴とするデータ利活用システムにおけるデータ準備方法。 - 複数の業務システムから収集したデータを蓄積・管理し、当該データの利活用を可能とするデータ準備及びデータ準備のデータ準備内容項目をユーザに提供するデータ利活用システムにおいて、
前記データ準備の処理を実行するデータ準備処理実行部、前記データ準備の利活用処理を実行する利活用処理実行部、前記データ準備の内容を提案するデータ準備内容提案部、を有し、
前記データ準備処理実行部は、
前記ユーザが指定する利活用目的と前記データ利活用システムにて用意するデータ情報を照合する処理部、
前記データより前記利活用目的のために実施すべき対象データのデータ準備内容項目を求め、かつ、当該データ準備内容項目の難易度を算出する処理部、を含み、
前記利活用処理実行部は、
前記データ準備のデータ準備内容項目を集計する処理部、
類似する前記データ準備内容をカテゴリ化する処理部、
カテゴリ化した前記データ準備内容項目のデータ準備内容の重要度を算出する処理部、を含み、
前記データ準備内容提案部は、
前記データ準備内容及び前記重要度を前記ユーザに提案する処理部、を含む、
ことを特徴とするデータ利活用システム。 - 請求項13に記載されたデータ利活用システムにおいて、
前記利活用目的は、要求データ項目、入力データ構造、を含み、
前記データ情報は、データカタログを含み、当該データカタログは、データ項目、時刻、ファイル形式を含み、
前記データ準備内容項目は、テーブル化、データ結合・抽出、データ構造化、データ加工、であり、
前記重要度は、前記データ準備内容の平均難易度や総数を基に算出する、
ことを特徴とするデータ利活用システム。 - 請求項13に記載されたデータ利活用システムにおいて、
前記データ準備処理実行部は、さらに、
前記データ準備内容のカテゴリ毎に対して、関連する利活用目的をリストアップする処理部、前記データ準備内容項目の各項目の有用度を算出する処理部、を有し、
前記データ準備内容提案部は、さらに、
前記有用度を前記ユーザに提示する処理部、を有する
ことを特徴とするデータ利活用システム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018078244A JP7015725B2 (ja) | 2018-04-16 | 2018-04-16 | データ利活用に係るデータ準備方法及びデータ利活用システム |
PCT/JP2019/006352 WO2019202839A1 (ja) | 2018-04-16 | 2019-02-20 | データ利活用に係るデータ準備方法及びデータ利活用システム |
KR1020207028562A KR102432126B1 (ko) | 2018-04-16 | 2019-02-20 | 데이터 이활용에 관한 데이터 준비 방법 및 데이터 이활용 시스템 |
US17/046,759 US20210117886A1 (en) | 2018-04-16 | 2019-02-20 | Data Preparation Method Related to Data Utilization and Data Utilization System |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018078244A JP7015725B2 (ja) | 2018-04-16 | 2018-04-16 | データ利活用に係るデータ準備方法及びデータ利活用システム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2019185582A JP2019185582A (ja) | 2019-10-24 |
JP2019185582A5 JP2019185582A5 (ja) | 2020-12-17 |
JP7015725B2 true JP7015725B2 (ja) | 2022-02-03 |
Family
ID=68239524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018078244A Active JP7015725B2 (ja) | 2018-04-16 | 2018-04-16 | データ利活用に係るデータ準備方法及びデータ利活用システム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210117886A1 (ja) |
JP (1) | JP7015725B2 (ja) |
KR (1) | KR102432126B1 (ja) |
WO (1) | WO2019202839A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6967102B2 (ja) * | 2020-03-05 | 2021-11-17 | 株式会社ビデオリサーチ | 顧客推定装置及び顧客推定方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010205218A (ja) | 2009-03-06 | 2010-09-16 | Dainippon Printing Co Ltd | データ分析支援装置、データ分析支援システム、データ分析支援方法、及びプログラム |
WO2015049797A1 (ja) | 2013-10-04 | 2015-04-09 | 株式会社日立製作所 | データ管理方法、データ管理装置及び記憶媒体 |
US20170220943A1 (en) | 2014-09-30 | 2017-08-03 | Mentorica Technology Pte Ltd | Systems and methods for automated data analysis and customer relationship management |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4570217A (en) * | 1982-03-29 | 1986-02-11 | Allen Bruce S | Man machine interface |
US7098392B2 (en) * | 1996-07-10 | 2006-08-29 | Sitrick David H | Electronic image visualization system and communication methodologies |
US20080004922A1 (en) * | 1997-01-06 | 2008-01-03 | Jeff Scott Eder | Detailed method of and system for modeling and analyzing business improvement programs |
US7039606B2 (en) * | 2001-03-23 | 2006-05-02 | Restaurant Services, Inc. | System, method and computer program product for contract consistency in a supply chain management framework |
US20030074206A1 (en) * | 2001-03-23 | 2003-04-17 | Restaurant Services, Inc. | System, method and computer program product for utilizing market demand information for generating revenue |
US7120596B2 (en) * | 2001-03-23 | 2006-10-10 | Restaurant Services, Inc. | System, method and computer program product for landed cost reporting in a supply chain management framework |
US7072843B2 (en) * | 2001-03-23 | 2006-07-04 | Restaurant Services, Inc. | System, method and computer program product for error checking in a supply chain management framework |
JP4244768B2 (ja) * | 2003-09-30 | 2009-03-25 | 株式会社日立製作所 | 不良影響度評価方法および設計支援システム |
US20050096950A1 (en) * | 2003-10-29 | 2005-05-05 | Caplan Scott M. | Method and apparatus for creating and evaluating strategies |
US8627222B2 (en) * | 2005-09-12 | 2014-01-07 | Microsoft Corporation | Expanded search and find user interface |
US10586194B2 (en) * | 2008-09-09 | 2020-03-10 | INSPIRD, Inc. | Method and system for managing research and development in an enterprise |
JP5398361B2 (ja) | 2009-06-01 | 2014-01-29 | 株式会社日立製作所 | データ分析システム |
JP5847344B1 (ja) | 2015-03-24 | 2016-01-20 | 株式会社ギックス | データ処理システム、データ処理方法、プログラム及びコンピュータ記憶媒体 |
-
2018
- 2018-04-16 JP JP2018078244A patent/JP7015725B2/ja active Active
-
2019
- 2019-02-20 WO PCT/JP2019/006352 patent/WO2019202839A1/ja active Application Filing
- 2019-02-20 US US17/046,759 patent/US20210117886A1/en not_active Abandoned
- 2019-02-20 KR KR1020207028562A patent/KR102432126B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010205218A (ja) | 2009-03-06 | 2010-09-16 | Dainippon Printing Co Ltd | データ分析支援装置、データ分析支援システム、データ分析支援方法、及びプログラム |
WO2015049797A1 (ja) | 2013-10-04 | 2015-04-09 | 株式会社日立製作所 | データ管理方法、データ管理装置及び記憶媒体 |
US20170220943A1 (en) | 2014-09-30 | 2017-08-03 | Mentorica Technology Pte Ltd | Systems and methods for automated data analysis and customer relationship management |
Also Published As
Publication number | Publication date |
---|---|
JP2019185582A (ja) | 2019-10-24 |
WO2019202839A1 (ja) | 2019-10-24 |
US20210117886A1 (en) | 2021-04-22 |
KR20200129132A (ko) | 2020-11-17 |
KR102432126B1 (ko) | 2022-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210357835A1 (en) | Resource Deployment Predictions Using Machine Learning | |
Aiken et al. | DoD legacy systems: Reverse engineering data requirements | |
Castellanos et al. | A comprehensive and automated approach to intelligent business processes execution analysis | |
CN109102145B (zh) | 流程编排 | |
CN111915366B (zh) | 一种用户画像构建方法、装置、计算机设备及存储介质 | |
US20060235742A1 (en) | System and method for process evaluation | |
US7716151B2 (en) | Apparatus, method and product for optimizing software system workload performance scenarios using multiple criteria decision making | |
US11921737B2 (en) | ETL workflow recommendation device, ETL workflow recommendation method and ETL workflow recommendation system | |
US20130138663A1 (en) | System or Apparatus for Finding Influential Users | |
CN111192021A (zh) | 一种oa单据审批实现方法及系统 | |
CN111709613A (zh) | 基于数据统计的任务自动分配方法、装置及计算机设备 | |
US20140280061A1 (en) | Document processing system and method | |
JP6784612B2 (ja) | 分析ソフトウェア管理システム及び分析ソフトウェア管理方法 | |
Casati et al. | Probabilistic, context-sensitive, and goal-oriented service selection | |
CN107480188B (zh) | 一种审计业务数据处理方法和计算机设备 | |
US7613799B2 (en) | Service evaluation method, system, and computer program product | |
JP7015725B2 (ja) | データ利活用に係るデータ準備方法及びデータ利活用システム | |
KR101425868B1 (ko) | 규칙집합 기반 대용량 데이터 처리 시스템 및 방법 | |
CN110322143B (zh) | 模型实体化管理方法、装置、设备及计算机存储介质 | |
JP2019185582A5 (ja) | ||
Kopp et al. | A method for business process model analysis and improvement | |
WO2007105698A1 (ja) | コスト算出システム、コストデータ入力システム、並びに、そのプログラム、データ構造、および、それらを記録した記録媒体 | |
JP2013178669A (ja) | 集計装置および集計プログラム | |
JP6409888B2 (ja) | 集計装置および集計プログラム | |
WO2016151865A1 (ja) | ソフトウェア選択システム及びその方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201104 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220111 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220124 |