JP2025063757A - データ統合方法及びデータ統合システム - Google Patents
データ統合方法及びデータ統合システム Download PDFInfo
- Publication number
- JP2025063757A JP2025063757A JP2023173204A JP2023173204A JP2025063757A JP 2025063757 A JP2025063757 A JP 2025063757A JP 2023173204 A JP2023173204 A JP 2023173204A JP 2023173204 A JP2023173204 A JP 2023173204A JP 2025063757 A JP2025063757 A JP 2025063757A
- Authority
- JP
- Japan
- Prior art keywords
- data
- matching
- identifier
- information
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、データ統合方法及びデータ統合システムに関する。
従来から、異なるデータからそれぞれデータ項目を抽出して一つのデータへ統合することで、ユーザのニーズにマッチしたデータ項目を有するデータを生成するデータ統合技術がある。例えば特許文献1には、複数のデータ項目で構成されたデータであるテーブルを2つ以上組合せて、定義された主キー及び外部キーのデータ項目を用いてテーブルを関連付ける技術が開示されている。
またデータ項目の関連付けの際には、キーとなるデータ項目の突合処理が行われる。例えば特許文献2には、文字列を文節に分割し、複数の文字列を突合処理することで、突合の品質を判定・記録する技術が開示されている。
しかし、上述の特許文献1及び2の従来技術では、突合処理の方式や工数、突合対象のデータの品質など、統合するデータの選択基準になり得る情報は一切考慮されていなかった。このためユーザは、統合するデータを選択する際に、明確な選択基準に基づくことができず、選択の妥当性が不明であった。
本発明は、上述の事情を考慮してなされたものであり、ユーザが明確な選択基準に基づいて統合するデータを選択できるようにすることを目的とする。
上記課題を解決する一態様として、複数のデータから該複数のデータの各データ項目からなるデータセットを抽出するデータ統合システムが実行するデータ統合方法であって、前記データ統合システムは、プロセッサとメモリと記憶部とを有し、前記記憶部は、前記データの適用分野を表すドメインを識別するドメイン識別子と、前記データ項目と、該データ項目のデータ属性を識別する属性識別子と、を対応付けて管理するドメイン情報と、前記複数のデータ間の前記データ項目の突合処理の処理方式を識別する突合処理方式識別子と、前記属性識別子と、該突合処理に際して必要となる必要処理を識別する必要処理識別子と、該突合処理の処理工数と、を対応付けて管理するデータ突合方式情報と、を記憶し、前記プロセッサが、KPI(Key Performance Indicator)と、前記データセットに含める前記データ項目である指定データ項目と、前記突合処理を実行する際に突合する前記データ項目を指定する突合データ項目と、を含んだデータセット検索条件の入力を受付け、前記指定データ項目又は前記突合データ項目に該当する前記データ項目を含む前記データの中から前記KPIと関連性を有する前記データ項目を前記データセットとして抽出し、前記ドメイン情報を参照し、前記突合データ項目に該当する前記データ項目に対応する前記属性識別子を取得し、前記データ突合方式情報を参照し、前記ドメイン情報を参照して取得した前記属性識別子に対応する前記突合処理方式識別子及び前記処理工数を取得し、前記突合処理方式識別子に対応する前記処理方式及び前記処理工数を、前記指定データ項目を含んだ前記データセットのデータ項目の一覧と共に、表示画面に表示する各処理を有することを特徴とする。
本発明によれば、ユーザが明確な選択基準に基づいて統合するデータを選択できる。
以下、本願開示に係る実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また、実施形態の中で説明されている諸要素及びその組合せの全てが発明の解決手段に必須であるとは限らない。
以下の説明において各処理機能部を実現するプログラムは、プロセッサによって実行されることで、定められた処理を、記憶資源(例えばRAM(Random Access Memory))及び/又は通信インターフェースデバイス(例えばポート)を用いながら処理を行う。プロセッサは、例えばCPU(Central Processing Unit)である。このため、各処理機能部によって実行される処理は、プロセッサ又はそのプロセッサを有する計算機が行う処理としてもよい。
以下の説明において、同一又は類似の構成要素には、同一の符号を付与し、後出の実施形態及び変形例では、説明を省略する、又は差分を中心とした説明のみを行う場合がある。また、同一又は類似の構成要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。また、これらの複数の構成要素を区別する必要がない場合には、添字を省略して説明する場合がある。各構成要素の数は、特に断りがない限り単数でも複数でもよい。
以下の説明において、各種情報をテーブル形式で説明する。しかし各種情報は、テーブル形式に限られず、CSV形式などの他の形式でもよい。また以下の説明における「XXX」と「XXX識別子」は、適宜相互に変換されるとして、実質的に同一である。例えば「ドメイン」と「ドメイン識別子」は、辞書やマッピング情報を用いて適宜変換可能であるため、実質的に同一である。また以下の説明において、異なるテーブル(データ)に含まれるテキストで表現されるデータ項目の名称やデータなどの情報は、辞書やマッピング情報を用いて相互に変換される場合に、同一情報であるとする。
(実施形態に係るデータ管理システムSの構成)
図1は、実施形態に係るデータ管理システムSの構成を示す図である。データ管理システムSは、統合データ管理サーバ1、統合データ管理端末2、業務データ管理サーバ3(3-1,…,3-M)、及びデータ発生装置4(4-11,4-12,4-13,…,4-M1,4-M2)を含んで構成される。統合データ管理サーバ1、統合データ管理端末2、及び業務データ管理サーバ3は、ネットワークNを介して接続される。データ発生装置4は、業務データ管理サーバ3と接続される。
図1は、実施形態に係るデータ管理システムSの構成を示す図である。データ管理システムSは、統合データ管理サーバ1、統合データ管理端末2、業務データ管理サーバ3(3-1,…,3-M)、及びデータ発生装置4(4-11,4-12,4-13,…,4-M1,4-M2)を含んで構成される。統合データ管理サーバ1、統合データ管理端末2、及び業務データ管理サーバ3は、ネットワークNを介して接続される。データ発生装置4は、業務データ管理サーバ3と接続される。
統合データ管理サーバ1は、運用管理センタ100に配置される。統合データ管理サーバ1は、データ統合システムの一例である。業務データ管理サーバ3とデータ発生装置4は、複数の拠点200(200-1,…,200-M)に配置される。なお拠点200の数、各拠点200内のデータ発生装置4の数は、任意である。
統合データ管理端末2は、CPU(Central Processing Unit)などのプロセッサとメモリとストレージと表示装置とネットワークインターフェースとを有するコンピュータである。
各拠点200において、業務データ管理サーバ3は、データ発生装置4が発生した業務データを収取して蓄積及び管理する。データ発生装置4は、例えば工場内のセンサが取付けられた工作機械や、気象観測拠点内の気象観測装置などであるが、これらに限定されない。
運用管理センタ100において、統合データ管理サーバ1は、統合データ管理端末2を操作するユーザの指示に応じて、拠点200の業務データ管理サーバ3が管理する業務データを統合して蓄積及び管理する。
(実施形態に係る業務データ管理サーバ3の構成)
図2は、実施形態に係る業務データ管理サーバ3の構成を示す図である。業務データ管理サーバ3は、ネットワークインターフェース31、制御部(CPU)32、外部記憶装置(ストレージ)33、及び内部記憶装置(メモリ)34を含んで構成される。ネットワークインターフェース31、制御部32、外部記憶装置33、及び内部記憶装置34は、バス35を介して接続される。外部記憶装置33及び内部記憶装置34は、記憶部の一例である。
図2は、実施形態に係る業務データ管理サーバ3の構成を示す図である。業務データ管理サーバ3は、ネットワークインターフェース31、制御部(CPU)32、外部記憶装置(ストレージ)33、及び内部記憶装置(メモリ)34を含んで構成される。ネットワークインターフェース31、制御部32、外部記憶装置33、及び内部記憶装置34は、バス35を介して接続される。外部記憶装置33及び内部記憶装置34は、記憶部の一例である。
ネットワークインターフェース31は、業務データ管理サーバ3がネットワークNを介して統合データ管理サーバ1と通信を行う通信装置である。
制御部32は、業務データ管理サーバ3の装置全体の制御を実行すると共に、外部記憶装置33に格納されているプログラムを内部記憶装置34へロードし、内部記憶装置34と協働して実行する。このようなプログラムには、業務データ管理プログラム341がある。業務データ管理プログラム341は、データ発生装置4から収集した業務データを業務データテーブル(Data Base)342に格納して管理する。業務データ管理プログラム341及び業務データテーブル342の詳細は後述する。
(実施形態に係る業務データテーブル342の構成)
図3は、実施形態に係る業務データ管理サーバ3が有する業務データテーブル342の構成を示す図である。業務データテーブル342は、例えば図3に示す列を有するテーブル形式のデータである。業務データテーブル342は、各拠点200の業務データ管理サーバ3毎に存在する複数のデータである。
図3は、実施形態に係る業務データ管理サーバ3が有する業務データテーブル342の構成を示す図である。業務データテーブル342は、例えば図3に示す列を有するテーブル形式のデータである。業務データテーブル342は、各拠点200の業務データ管理サーバ3毎に存在する複数のデータである。
業務データテーブル342は、「テーブル識別子」「データ項目1」「データ項目2」…「データ項目N1」の列を有する。「データ項目」の項目数を表す“N1”は、任意である。
「テーブル識別子」は、該当のテーブルの識別情報である。「データ項目i」(i=1,2,…,N1)は、業務データ管理サーバ3が配置される拠点200内のデータ発生装置4から収集した業務データである。「テーブル識別子」は、データ識別子の一例である。
(実施形態に係る統合データ管理サーバ1の構成)
図4は、実施形態に係る統合データ管理サーバ1の構成を示す図である。統合データ管理サーバ1は、ネットワークインターフェース11、制御部(CPU)12、外部記憶装置(ストレージ)13、及び内部記憶装置(メモリ)14を含んで構成される。ネットワークインターフェース11、制御部12、外部記憶装置13、及び内部記憶装置14は、バス15を介して接続される。外部記憶装置13及び内部記憶装置14は、記憶部の一例である。
図4は、実施形態に係る統合データ管理サーバ1の構成を示す図である。統合データ管理サーバ1は、ネットワークインターフェース11、制御部(CPU)12、外部記憶装置(ストレージ)13、及び内部記憶装置(メモリ)14を含んで構成される。ネットワークインターフェース11、制御部12、外部記憶装置13、及び内部記憶装置14は、バス15を介して接続される。外部記憶装置13及び内部記憶装置14は、記憶部の一例である。
ネットワークインターフェース11は、統合データ管理サーバ1がネットワークNを介して統合データ管理端末2及び業務データ管理サーバ3と通信を行う通信装置である。
制御部12は、統合データ管理サーバ1の装置全体の制御を実行すると共に、外部記憶装置13に格納されているプログラムを内部記憶装置14へロードし、内部記憶装置14と協働して実行する。このようなプログラムには、業務データ統合管理プログラム141がある。業務データ統合管理プログラム141は、業務データ管理サーバ3から収集した業務データを後述のデータ突合処理を経て統合し、統合業務データテーブル(Data Base)142に格納して管理する。
また内部記憶装置14は、データセット検索履歴情報テーブル143、データテーブル情報テーブル144、ドメイン情報テーブル145、データ突合方式情報テーブル146、及びデータ処理方式情報テーブル147の各種情報を蓄積及び管理する。
業務データ統合管理プログラム141、統合業務データテーブル142、データセット検索履歴情報テーブル143、データテーブル情報テーブル144、及びドメイン情報テーブル145の詳細は後述する。またデータ突合方式情報テーブル146、及びデータ処理方式情報テーブル147の詳細は後述する。
(実施形態に係る統合データ管理サーバ1が有する各種データの構成)
図5は、実施形態に係る統合データ管理サーバ1が有する各種データの構成を示す図である。
図5は、実施形態に係る統合データ管理サーバ1が有する各種データの構成を示す図である。
(統合業務データテーブル142の構成)
統合業務データテーブル142は、例えば図5に示す列を有するテーブル形式のデータである。統合業務データテーブル142は、「ドメイン識別子」「テーブル識別子」「データ項目1」「データ項目2」…「データ項目N2」の列を有する。「データ項目」の項目数を表す“N2”は、任意である。
統合業務データテーブル142は、例えば図5に示す列を有するテーブル形式のデータである。統合業務データテーブル142は、「ドメイン識別子」「テーブル識別子」「データ項目1」「データ項目2」…「データ項目N2」の列を有する。「データ項目」の項目数を表す“N2”は、任意である。
「ドメイン識別子」は、該当のテーブルが格納するデータの適用分野の識別情報である。「テーブル識別子」は、該当のテーブルの識別情報である。「データ項目i」(i=1,2,…,N2)は、統合データ管理サーバ1が配下の業務データ管理サーバ3から収集した業務データである。
(データセット検索履歴情報テーブル143の構成)
データセット検索履歴情報テーブル143は、あるKPIを算出するために用いられる「データ項目」が、何れの拠点200の業務データ管理サーバ3で管理されているかを検索した検索履歴を格納する。
データセット検索履歴情報テーブル143は、あるKPIを算出するために用いられる「データ項目」が、何れの拠点200の業務データ管理サーバ3で管理されているかを検索した検索履歴を格納する。
データセット検索履歴情報テーブル143は、図5に示すように、「ドメイン識別子」「KPI識別子」「テーブル識別子1」「データ項目1」「テーブル識別子2」「データ項目2」…「テーブル識別子N3」「データ項目N3」の列を有する。「テーブル識別子」及び「データ項目」の項目数を表す“N3”は、任意である。
「ドメイン識別子」は、該当のテーブルが格納するデータの適用分野の識別情報である。「KPI識別子」は、該当のテーブルに格納されている「データ項目i」(i=1,…,N3)の項目値を用いて算出されるKPIの識別情報である。「KPI識別子」で識別されるKPIは、拠点200-j(j=1,…,M)の業務データ管理サーバ3-j(j=1,…,M)が管理する業務データを適宜用いて算出可能な指標値である。
「テーブル識別子i」(i=1,…,N3)は、「データ項目i」(i=1,…,N3)の項目値が格納される業務データテーブル342のテーブルの識別情報である。「データ項目i」(i=1,…,N3)は、「KPI識別子」で識別されるKPIを算出するために用いられる。「データ項目i」(i=1,2,…,N3)は、統合データ管理サーバ1が配下の業務データ管理サーバ3から収集した業務データである。
(データテーブル情報テーブル144の構成)
データテーブル情報テーブル144は、「テーブル識別子」で識別される各拠点200の業務データ管理サーバ3が管理する業務データテーブル342のデータとしての信頼度に関する情報を管理する。データテーブル情報テーブル144は、データ情報の一例である。
データテーブル情報テーブル144は、「テーブル識別子」で識別される各拠点200の業務データ管理サーバ3が管理する業務データテーブル342のデータとしての信頼度に関する情報を管理する。データテーブル情報テーブル144は、データ情報の一例である。
データテーブル情報テーブル144は、図5に示すように、「テーブル識別子」「データ数」「データ数信頼度」「データソース情報」「データソース信頼度」「最終更新日時」「最終更新日時信頼度」の列を有する。
「テーブル識別子」は、該当のテーブルの識別情報である。「データ数」は、該当のテーブルが有するデータのレコード数である。「データ数信頼度」は、「データ数」に基づく該当のテーブルの信頼度である。「データ数信頼度」は、例えばレコード数が10000未満で“1”、10000以上10万未満で“2”、10万以上30万未満で“3”、40万以上100万未満で“4”、100万以上で“5”のように、レコード数が多いクラスほど高いスコアで表される。
「データソース情報」は、該当のテーブルの情報源である拠点200及び業務データ管理サーバ3を示す。「データソース信頼度」は、例えば該当のテーブルが無償データである場合に“3”、有償である場合に“5”のように、有償データであるほど高いスコアで表される。
「最終更新日時」は、該当のテーブルの最終更新のタイムスタンプを表す。「最終更新日時信頼度」は、例えば、該当のテーブルの「最終更新日時」が“10年以上”の日時の場合に“1”、“3年以上10年未満”の日時の場合に“2”とする。また「最終更新日時信頼度」は、“1年以上3年未満”の日時の場合に“3”、“1か月以上1年未満”の日時の場合に“4”、“1か月未満”の日時の場合に“1”とする。このように「最終更新日時信頼度」は、最終更新日時が新しい日時であるほど高いスコアで表される。
(ドメイン情報テーブル145の構成)
ドメイン情報テーブル145は、図5に示すように、「ドメイン識別子」「データ項目」「属性識別子」の列を有する。
ドメイン情報テーブル145は、図5に示すように、「ドメイン識別子」「データ項目」「属性識別子」の列を有する。
「ドメイン識別子」は、「データ項目」に示す業務データの適用分野の識別情報である。「データ項目」は、拠点200の業務データ管理サーバ3によって管理される業務データである。「属性識別子」は、「ドメイン識別子」との組合せにおける「データ項目」のデータ属性の識別情報である。データ属性とは、例えば数値データ、テキストデータ、日時データといったデータ種別を示す。
(データ突合方式情報テーブル146の構成)
データ突合方式情報テーブル146は、図5に示すように、「突合処理方式識別子」「ドメイン識別子」「属性識別子」「処理種別」「必要処理識別子」「処理工数」の列を有する。
データ突合方式情報テーブル146は、図5に示すように、「突合処理方式識別子」「ドメイン識別子」「属性識別子」「処理種別」「必要処理識別子」「処理工数」の列を有する。
「突合処理方式識別子」は、該当の「ドメイン識別子」と「属性識別子」のデータ項目に対して実行するデータ突合処理の識別情報である。データ突合処理方式には、時刻照合や場所照合などがある。「ドメイン識別子」は、該当の「突合処理方式識別子」で識別されるデータ突合処理を実行するデータ項目のドメインの識別情報である。「属性識別子」は、該当の「突合処理方式識別子」で識別されるデータ突合処理の実行対象であるデータ項目のデータ種別である。「属性識別子」は、ドメイン情報テーブル145の「属性識別子」に対応する。
「処理種別」は、「データ突合処理方式識別子」で識別されるデータ突合処理が“自動”、“半自動”、又は“手動”の何れかを示す。データ突合処理が“自動”とは、データ突合処理が人手を介することなくコンピュータによって自動処理されることをいう。データ突合処理が“半自動”とは、データ突合処理が、人手によって制御パラメータが与えられる以外は人手を介することなくコンピュータによって処理されることをいう。データ突合処理が“手動”とは、データ突合処理がコンピュータを介して処理できず、人手のみによって処理されることをいう。
「必要処理識別子」は、該当の「突合処理方式識別子」で識別されるデータ突合処理で必要となる必要処理や前処理を示す。必要処理や前処理は、例えばデータ欠損に対する同一値パディングや線形補間などのデータ補完処理、数値データに対する端数処理や平均値算出処理、テキストデータの一致度判定処理や名称マッピング処理などがある。
「処理工数」は、該当の「突合処理方式識別子」で識別されるデータ突合処理で想定される工数を示す。「処理工数」は、例えばXX分/10000レコードのように、所定数のレコードを処理するために必要な処理時間で表される。
(データ処理方式情報テーブル147の構成)
データ処理方式情報テーブル147は、図5に示すように、「必要処理識別子」「制御パラメータ」の列を有する。「必要処理識別子」は、データ突合方式情報テーブル146の「属性識別子」に対応する。「制御パラメータ」は、該当の「必要処理識別子」で識別される必要処理でユーザによって設定されるべき制御パラメータを示す。
データ処理方式情報テーブル147は、図5に示すように、「必要処理識別子」「制御パラメータ」の列を有する。「必要処理識別子」は、データ突合方式情報テーブル146の「属性識別子」に対応する。「制御パラメータ」は、該当の「必要処理識別子」で識別される必要処理でユーザによって設定されるべき制御パラメータを示す。
(実施形態に係るデータセット検索処理)
図6は、実施形態に係るデータ管理システムSにおける全体処理を示すシーケンス図である。図7は、実施形態に係るデータセット検索処理の詳細を示すフローチャートである。
図6は、実施形態に係るデータ管理システムSにおける全体処理を示すシーケンス図である。図7は、実施形態に係るデータセット検索処理の詳細を示すフローチャートである。
先ずステップS1では、統合データ管理端末2は、データセット検索条件入力画面G1(図10)を介して、ユーザからデータセット検索条件の入力を受付ける。
次にステップS2では、統合データ管理端末2は、ステップS1で受付けたデータセット検索条件を統合データ管理サーバ1へ送信する。
次にステップS3では、統合データ管理サーバ1は、統合データ管理端末2から受信したデータセット検索条件を基にデータセット検索処理を実行する。データセット検索処理の詳細は、図8を参照して後述する。
次にステップS4では、統合データ管理サーバ1は、ステップS3のデータセット検索処理の処理結果を、統合データ管理端末2へ送信する。
次にステップS5では、統合データ管理端末2は、統合データ管理サーバ1から受信したデータセット検索結果を、データセット検索結果出力画面G2(図11)へ出力する。
次にステップS6では、統合データ管理端末2は、ステップS5で表示したデータセット検索結果出力画面G2(図11)に基づいて、ユーザからデータセット抽出条件の入力を受付ける。
次にステップS7では、統合データ管理端末2は、ステップS6で受付けたデータセット抽出条件を統合データ管理サーバ1へ送信する。
次にステップS8では、統合データ管理サーバ1は、統合データ管理端末2から受信したデータセット抽出条件を基にデータセット抽出処理を実行する。データセット抽出処理の詳細は、図9を参照して後述する。
次にステップS9では、統合データ管理サーバ1は、ステップS8のデータセット抽出処理の結果を、統合データ管理端末2へ送信する。
次にステップS10では、統合データ管理端末2は、統合データ管理サーバ1から受信したデータセット抽出結果を、データセット抽出結果出力画面G5(図14)へ出力する。
(実施形態に係るデータセット検索処理(ステップS3(図6))の詳細)
図8は、実施形態に係るデータセット検索処理の詳細を示すフローチャートである。
図8は、実施形態に係るデータセット検索処理の詳細を示すフローチャートである。
先ずステップS3aでは、統合データ管理サーバ1の業務データ統合管理プログラム141は、統合データ管理端末2からデータセット検索条件を受信する。
次にステップS3bでは、業務データ統合管理プログラム141は、ステップS3aで受信したデータセット検索条件に該当する検索履歴があるかを判定する。具体的には、業務データ統合管理プログラム141は、データセット検索条件に指定されていたドメイン、業務改善KPI、データ項目、及び突合データ項目を含むレコードが、データセット検索履歴情報テーブル143に存在するかを判定する。業務データ統合管理プログラム141は、該当のレコードがデータセット検索履歴情報テーブル143に存在する場合(ステップS3bYES)にステップS3cへ処理を移し、存在しない場合(ステップS3bNO)にステップS3dへ処理を移す。
ステップS3cでは、業務データ統合管理プログラム141は、データセット検索履歴情報テーブル143から、データセット検索条件で指定された業務改善KPIと関連性を有するデータセットとそれらに対応するテーブル識別子を抽出する。“業務改善KPIと関連性を有する”とは、例えば業務改善KPIの算出に用いられることを指す。データセットとは、データ項目の集合である。
一方ステップS3dでは、業務データ統合管理プログラム141は、データセット検索条件で指定されたデータ項目又は突合データ項目を含む各拠点200の業務データ管理サーバ3で管理される業務データテーブル342(図3)を特定する。そして業務データ統合管理プログラム141は、特定した業務データテーブル342からデータセット検索条件で指定された業務改善KPIと関連性を有するデータセットを抽出する。業務改善KPIと関連性を有するデータセット(データ項目)の抽出の際には、例えばKPI毎に該当のKPIと関連するデータ項目を列挙したリストを用いることができる。
次にステップS3eでは、業務データ統合管理プログラム141は、ステップS3dで抽出されたデータセットを有する業務データテーブル342のテーブル識別子を取得する。
なお業務データ統合管理プログラム141は、ステップS3d及び3eの処理結果を検索履歴としてデータセット検索履歴情報テーブル143に登録する。
ステップS3c又はS3eに引続きステップS3fでは、業務データ統合管理プログラム141は、ステップS3c又はS3dで抽出されたデータセットの信頼度算出処理を実行する。信頼度算出処理の詳細は、図8を参照して後述する。
次にステップS3gでは、業務データ統合管理プログラム141は、ドメイン情報テーブル145を参照して、ステップS3c又はS3dで抽出されたデータセットに含まれる突合データ項目に対応する属性識別子を取得する。
次にステップS3hでは、業務データ統合管理プログラム141は、データ突合方式情報テーブル146を参照する。そして業務データ統合管理プログラム141は、ステップS3aで受信したデータセット検索条件で指定されたドメイン識別子及びステップS3gで取得した属性識別子に基づき、適用可能な「突合処理方式識別子」を取得する。また業務データ統合管理プログラム141は、取得した「突合処理方式識別子」に対応する「処理種別」、「必要処理」及び「処理工数」を取得する。
次にステップS3iでは、業務データ統合管理プログラム141は、データセット検索結果として、「ドメイン」、「データセット(データ項目の一覧)」、「突合処理方式」、「処理工数」、「データソース」、「データ数」、及び「データ信頼度」を出力する。
(実施形態に係る信頼度算出処理(ステップS3(図7))の詳細)
図8は、実施形態に係る信頼度算出処理の詳細を示すフローチャートである。
図8は、実施形態に係る信頼度算出処理の詳細を示すフローチャートである。
先ずステップS3f1では、業務データ統合管理プログラム141は、ステップS3c又はS3eで取得された各テーブル識別子に対応する業務データテーブル342(図3)のデータ数、データソース、及びデータの最終更新日時を取得する。データ数及びデータの最終更新日時は、例えば該当の業務データテーブル342を参照することで得られる。データソースは、例えば該当の業務データテーブル342を管理する業務データ管理サーバ3に問合せることで取得できる。
次にステップS3f2では、業務データ統合管理プログラム141は、ステップS3c又はS3eで取得された各テーブル識別子に対応する業務データテーブル342のデータ数に基づくデータ数信頼度を算出する。
次にステップS3f3では、業務データ統合管理プログラム141は、ステップS3c又はS3eで取得された各テーブル識別子に対応する業務データテーブル342のデータソースに基づくデータソース信頼度を算出する。
次にステップS3f4では、業務データ統合管理プログラム141は、ステップS3c又はS3eで取得された各テーブル識別子に対応する業務データテーブル342のデータの最終更新日時に基づく最終更新日時信頼度を算出する。
次にステップS3f5では、業務データ統合管理プログラム141は、ステップS3f2、S3f3、及びS3f4で算出されたデータ数信頼度、データソース信頼度、及び最終更新日時信頼度を合計してデータ信頼度を算出する。業務データ統合管理プログラム141は、信頼度算出処理で取得又は算出したデータ数、データ数信頼度、データソース情報、データソース信頼度、最終更新日時及び最終更新日時信頼度にテーブル識別子を対応付けてデータテーブル情報テーブル144に格納する。
(実施形態に係るデータセット抽出処理(ステップS8(図6))の詳細)
図9は、実施形態に係るデータセット抽出処理の詳細を示すフローチャートである。
図9は、実施形態に係るデータセット抽出処理の詳細を示すフローチャートである。
先ずステップS8aでは、統合データ管理サーバ1の業務データ統合管理プログラム141は、ステップS6(図6)で受付けたデータセット抽出条件で選択されたデータセットの生成に必要な業務データテーブル342(図3)及びデータ項目を抽出する。
次にステップS8bでは、業務データ統合管理プログラム141は、データテーブル情報テーブル144(図5)を参照し、データの突合処理方式の「処理種別」が“自動”又は“半自動”かを判定する。業務データ統合管理プログラム141は、データの突合処理方式の「処理種別」が“自動”又は“半自動”である場合にステップS8cへ処理を移し、「処理種別」が“手動”である場合にステップS8fへ処理を移す。
ステップS8cでは、業務データ統合管理プログラム141は、データテーブル情報テーブル144(図5)を参照し、データの突合処理方式の「処理種別」が“半自動”かを判定する。業務データ統合管理プログラム141は、データの突合処理方式の「処理種別」が“半自動”である場合にステップS8dへ処理を移し、「処理種別」が“自動”である場合にステップS8dをスキップしてステップS8eへ処理を移す。
ステップS8dでは、業務データ統合管理プログラム141は、データ突合処理に必要なパラメータのユーザによる設定を、統合データ管理端末2のデータ突合処理パラメータ入力画面G3(図12)を介して受付ける。
ステップS8eでは、業務データ統合管理プログラム141は、統合対象の業務データテーブル342(図3)と統合候補の業務データテーブル342をテーブル結合し、突合データ項目に該当するそれぞれのデータ項目のデータ突合処理を実行する。テーブル結合の際のテーブル結合キーは、周知技術により抽出される。そして業務データ統合管理プログラム141は、統合結果をデータセット抽出結果出力画面G4(図13)へ出力する。
なお統合対象の業務データテーブル342とは、例えばデータセット抽出処理を実行するユーザ自身が保有するデータである。統合候補の業務データテーブル342とは、例えばユーザ以外の個人、組織、又はシステムによって提供されるデータである。統合データ(統合業務データ)とは、統合対象の業務データテーブル342と、統合候補の業務データテーブル342とを突合処理を行って統合したデータである。
一方ステップS8fでは、業務データ統合管理プログラム141は、統合対象の業務データテーブル342(図3)と統合候補の業務データテーブル342のそれぞれのデータ項目をデータセット抽出結果出力画面G5(図14)へ出力する。
(実施形態に係るデータセット検索条件入力画面G1の構成)
図10は、実施形態に係るデータセット検索条件入力画面G1の構成を示す図である。
図10は、実施形態に係るデータセット検索条件入力画面G1の構成を示す図である。
データセット検索条件入力画面G1は、ドメイン入力ボックスG1a、業務改善KPI入力ボックスG1b、データ項目1入力ボックスG1c、データ項目2入力ボックスG1d、データ項目3入力ボックスG1e、及びデータ項目4入力ボックスG1fを有する。データ項目1入力ボックスG1c、データ項目2入力ボックスG1d、データ項目3入力ボックスG1e、及びデータ項目4入力ボックスG1fへ入力されるデータ項目は、データセットに含めることを指定された指定データ項目の一例である。
またデータセット検索条件入力画面G1は、突合データ項目1入力ボックスG1g、突合データ項目2入力ボックスG1h、データ項目追加ボタンG1i、突合データ項目追加ボタンG1j、及び検索ボタンG1kを有する。
ドメイン入力ボックスG1aは、統合対象のデータが適用されるドメインの名称の入力を受付ける。ドメイン入力ボックスG1aへの入力は、省略可能である。業務改善KPI入力ボックスG1bは、例えば統合した業務データで算出できる業務改善を実現するKPIの入力を受付ける。
データ項目1入力ボックスG1c、データ項目2入力ボックスG1d、データ項目3入力ボックスG1e、及びデータ項目4入力ボックスG1fは、統合対象のデータから選択するデータ項目の入力を受付ける。データ項目1入力ボックスG1c、データ項目2入力ボックスG1d、データ項目3入力ボックスG1e、及びデータ項目4入力ボックスG1fは、同様の入力ボックスである。統合対象の業務データから選択するデータ項目の入力ボックスの数は、4つに限られない。
突合データ項目1入力ボックスG1g、及び突合データ項目2入力ボックスG1hは、統合候補の業務データから選択して統合対象のデータとデータ突合処理によって関連付けるデータ項目の入力を受付ける。突合データ項目1入力ボックスG1g、及び突合データ項目2入力ボックスG1hは、同様の入力ボックスである。統合候補の業務データから選択するデータ項目の入力ボックスの数は、2つに限られない。
データ項目追加ボタンG1iは、データ項目1入力ボックスG1c、データ項目2入力ボックスG1d、データ項目3入力ボックスG1e、及びデータ項目4入力ボックスG1fと同様の入力ボックスをデータセット検索条件入力画面G1へ追加するボタンである。突合データ項目追加ボタンG1jは、突合データ項目1入力ボックスG1g、及び突合データ項目2入力ボックスG1hと同様の入力ボックスをデータセット検索条件入力画面G1へ追加するボタンである。
検索ボタンG1kは、データセット検索条件入力画面G1へ入力されたデータセット検索条件に基づくデータセット検索処理の実行を指示するボタンである。ユーザによって検索ボタンG1kが押下されることで、ステップS1(図6)が完了する。
なおドメイン入力ボックスG1aへ入力されたドメイン、及び業務改善KPI入力ボックスG1bへ入力されたKPI名は、それぞれドメイン識別子及びKPI識別子へ適宜変換される。
(実施形態に係るデータセット検索結果出力画面G2)
図11は、実施形態に係るデータセット検索結果出力画面G2を示す図である。
図11は、実施形態に係るデータセット検索結果出力画面G2を示す図である。
データセット検索結果出力画面G2は、検索条件G2a、検索結果G2b、及びデータ抽出指示ボタンG2cの項目を有する。
検索条件G2aは、「ドメイン」、「業務改善KPI」、「データ項目」、及び「突合データ項目」の表示項目を有する。
「ドメイン」は、データセット検索条件入力画面G1(図10)のドメイン入力ボックスG1aで入力されたドメイン名である。「業務改善KPI」は、データセット検索条件入力画面G1の業務改善KPI入力ボックスG1bで入力されたKPIである。「データ項目」は、データセット検索条件入力画面G1のデータ項目1G1c~データ項目4G1fで入力されたデータ項目である。「突合データ項目」は、データセット検索条件入力画面G1の突合データ項目1G1g及びG1hで入力された突合データ項目である。
検索結果G2bは、例えば2つの検索結果G2b1及びG2b2を含む。なお検索結果は、2つに限られない。
検索結果G2b1は、検索条件G2aに表示の検索条件で統合候補の業務データを検索した検索結果の中の1つである。検索結果G2b1の「データ項目名」には、検索条件G2aの「突合データ項目」に指定されているデータ項目“場所”と“時刻”にそれぞれ該当する統合候補の業務データ中のデータ項目“場所”と“時刻”が含まれる。さらに同じ統合候補の業務データ中のデータ項目として、検索条件G2aの「業務改善KPI」に指定されているKPI“ビル消費電力”と関連性を有する“天気”と“気温”が含まれる。
また検索条件G2aの「突合データ項目」に指定されているデータ項目“場所”と“時刻”は、それぞれの突合処理方式が“通常照合”と“時刻照合”である。データ項目“場所”は、統合対象の業務データと統合候補の業務データとでデータ項目の名称が完全一致するため、データ項目の値が一致するか否かを判定する“通常照合”の突合処理方式となる。データ項目“時刻”は、突合処理方式が“時刻照合”となる。
「処理種別」は、データ項目“場所”が“自動”、データ項目“時刻”が“半自動”である。また「必要処理」は、データ項目“場所”が“なし”、データ項目“時刻”が“欠損データ補間処理”である。
さらに検索結果G2b1に示す「データ項目」は、統合対象の業務データと統合候補の業務データを統合する際のデータ突合処理が“XX分/10000レコード”の「想定工数」である。また検索結果G2b1に示すデータ項目を提供可能な統合候補の業務データは、「データソース」が“オープンデータ”、「データ数」が“10000000レコード”、「データ信頼度」が“XX”である。
検索結果G2b2も、検索結果G2b1と同様の情報を有する。
ユーザは、これらの複数の検索結果G2bの中から、選択する検索結果のチェックボックスにチェックを入力する。この際ユーザは、複数の検索結果のチェックボックスにチェックを入れて、複数の検索結果を選択してもよい。チェックされた検索結果が、データセット抽出条件となる。データ抽出指示ボタンG2cが押下されるとステップS6(図6)が完了し、チェックされた検索結果を基にデータセット抽出条件が生成され、統合データ管理サーバ1(図1)へ送信される。
(実施形態に係るデータ突合処理パラメータ入力画面G3)
図12は、実施形態に係るデータ突合処理パラメータ入力画面G3を示す図である。
図12は、実施形態に係るデータ突合処理パラメータ入力画面G3を示す図である。
図12に示すデータ突合処理パラメータ入力画面G3は、突合処理方式が“時刻照合”の場合にユーザによって入力が必要となるパラメータの入力画面である。“時刻照合”以外の突合処理方式では、データ突合処理パラメータ入力画面G3は、突合処理方式に応じたパラメータの入力画面となる。
データ突合処理パラメータ入力画面G3は、例えば“時刻照合”の突合処理方式に応じて、時刻粒度G3a及びデータ補完方式G3bの入力項目と、OKボタンG3cを有する。
時刻粒度G3aは、突合対象の2つの業務データのデータ項目“時刻”の時刻粒度が異なる場合に、双方のデータ項目“時刻”の時間間隔を揃える単位が入力される。図12に示す“1レコード/1時間”は、データ項目“時刻”の間隔を“1時間”とする例である。データ項目“時刻”の間隔が“1時間”よりも長いデータ(例えば“2時間”)を“1時間”の間隔にする場合には、“2時間”の間隔のデータをコピーして“1時間”の間隔のデータにする。他方データ項目“時刻”の間隔が“1時間”よりも短いデータ(例えば“10分”)を“1時間”の間隔にする場合には、“10分”の間隔のデータを“1時間”毎に取りまとめて平均値を算出し、この平均値を“1時間”の間隔のデータとする。
データ補完方式G3bは、欠損データの補完方式を示し、欠損データに対して所定の同一値を割当てる“同一値パディング”や、欠損データを前後のデータに基づいて線形補間する“線形補間”などがある。データ補完方式G3bは、“同一値パディング”や“線形補間”に限られない。
OKボタンG3cが押下されると、時刻粒度G3a及びデータ補完方式G3bへ入力された時刻粒度及びデータ補完方式に従って、データ突合処理とデータ補完処理が実行される。
(実施形態に係るデータセット抽出結果出力画面(自動又は半自動)G4)
図13は、実施形態に係るデータセット抽出結果出力画面(自動又は半自動)G4を示す図である。データセット抽出結果出力画面G4は、データセット検索結果出力画面G2において「処理種別」が“自動”又は“半自動”の検索結果が選択され、データ抽出指示ボタンG2cが押下されて抽出されたデータセット抽出結果を表示する。
図13は、実施形態に係るデータセット抽出結果出力画面(自動又は半自動)G4を示す図である。データセット抽出結果出力画面G4は、データセット検索結果出力画面G2において「処理種別」が“自動”又は“半自動”の検索結果が選択され、データ抽出指示ボタンG2cが押下されて抽出されたデータセット抽出結果を表示する。
データセット抽出結果出力画面G4は、データセット抽出条件G4a、データセット抽出結果G4b、及びファイル出力ボタンG4cを有する。
データセット抽出条件G4aは、データセット検索結果出力画面G2(図11)の検索条件G2aと検索結果G2bの中から選択された検索結果(図13の場合は検索結果G2b1(図11))とを結合した情報である。
データセット抽出結果G4bは、統合データ管理サーバ1においてデータセット抽出条件G4aに従ってデータセットが抽出され、自動又は半自動で統合されたデータである。
ユーザによってファイル出力ボタンG4cが押下されると、データセット抽出結果G4bが統合業務データテーブル142(図5)に登録される。
なお図13は、1つの統合対象の業務データに対して1つの統合候補の業務データが選択されて統合された場合を示す。しかしこれに限らず、1つの統合対象の業務データに対して複数の統合候補の業務データが選択されて統合されてもよい。
(実施形態に係るデータセット抽出結果出力画面(手動)G5)
図14は、実施形態に係るデータセット抽出結果出力画面(手動)G5を示す図である。データセット抽出結果出力画面G5は、データセット検索結果出力画面G2において「処理種別」が“手動”を含む検索結果が選択され、データ抽出指示ボタンG2cが押下されて抽出されたデータセット抽出結果を表示する。
図14は、実施形態に係るデータセット抽出結果出力画面(手動)G5を示す図である。データセット抽出結果出力画面G5は、データセット検索結果出力画面G2において「処理種別」が“手動”を含む検索結果が選択され、データ抽出指示ボタンG2cが押下されて抽出されたデータセット抽出結果を表示する。
データセット抽出結果出力画面G5は、データセット抽出条件G5a、データセット抽出結果G5b、及びファイル出力ボタンG5cを有する。
データセット抽出条件G5aは、データセット検索結果出力画面G2(図11)の検索条件G2aと検索結果G2bの中から選択された検索結果(図14の場合は検索結果G2b2(図11))とを結合した情報である。
データセット抽出結果G5bは、統合データ管理サーバ1においてデータセット抽出条件G4aに従って抽出されたデータセットG5b1及びG5b2を含む。データセットG5b1及びG5b2は、データ項目“場所”が“手動”の突合種別であるので、“自動”又は“半自動”では結合されず、それぞれ突合処理の実行前の未統合の業務データが表示される。ユーザは、データセット抽出結果G5bを手動で操作してデータの統合を行う。その後ユーザによってファイル出力ボタンG5cが押下されると、ユーザによって手動で統合されたデータセット抽出結果G5bが統合業務データテーブル142(図5)に登録される。
なお図14は、1つの統合対象の業務データに対して1つの統合候補の業務データが選択されて、手動で統合されるように、統合前の1つの統合対象の業務データと1つの統合候補の業務データが並べて表示される場合を示す。しかしこれに限らず、1つの統合対象の業務データに対して複数の統合候補の業務データが選択されて、手動で統合されるように、統合前の1つの統合対象の業務データと複数の統合候補の業務データが並べて表示されてもよい。
(実施形態の効果)
上述の実施形態では、データセット検索条件に基づいて、統合する業務データのデータ項目をデータセットとして抽出し、データセットの抽出結果と共に、突合データ項目の突合処理の処理方式及び処理工数を、ユーザに対して提示する。よって本実施形態によれば、処理方式及び処理工数を考慮して、これらの明確な選択基準に基づいて、統合するデータを選択できる。
上述の実施形態では、データセット検索条件に基づいて、統合する業務データのデータ項目をデータセットとして抽出し、データセットの抽出結果と共に、突合データ項目の突合処理の処理方式及び処理工数を、ユーザに対して提示する。よって本実施形態によれば、処理方式及び処理工数を考慮して、これらの明確な選択基準に基づいて、統合するデータを選択できる。
また上述の実施形態では、データセット検索条件においてドメインが指定され、ドメインの指定を含んだデータセット検索条件に基づいて、データセット、処理方式及び処理工数を取得する。よって上述の実施形態によれば、ドメインが指定されることで、抽出されたデータセット及び処理方式の妥当性を高めることができる場合がある。
また上述の実施形態では、データセット検索条件に基づいて抽出されたデータセットの候補からユーザによって選択されたデータセットの指定を含んだデータ抽出条件を生成して、このデータ抽出条件に基づいてデータセットを抽出して統合データを生成する。よって上述の実施形態によれば、データセットの検索から選択を経て抽出・統合までをGUI(Graphical User Interface)を介してシームレスに行いうるので、ユーザ利便性を高めることができる。
また上述の実施形態では、KPIと、KPIを含んだデータセット検索条件に基づいて抽出されたデータセットと、を対応付けた検索履歴情報を管理し、データセットの検索の際に同一のKPIに対応するデータセットを検索履歴情報から取得する。よって上述の実施形態によれば、検索履歴情報を用いることで。データセットの検索効率を高めることができる場合がある。
また上述の実施形態では、検索結果のデータセットを提供するデータの信頼度を算出しユーザに提示するので、ユーザが信頼度が高いデータから抽出されたデータセットを選択することができ、統合データの品質を高めることができる場合がある。
以上、本願開示に係る実施形態について詳述したが、本願開示は上述の実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。例えば、上述の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また上述の実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また上述の各構成、機能部や処理部等は、それらの一部又は全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また上述の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやHDD、SSD等の記憶装置、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また上述の各図において、制御線や情報線は説明上必要と考えられるものを示しており、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。例えば、実際には殆ど全ての構成が相互に接続されていると考えてもよい。
また上述した統合データ管理サーバ1、統合データ管理端末2、及び業務データ管理サーバ3の各機能及びデータの配置形態は一例に過ぎない。各機能及びデータの配置形態や統合及び分散の形態は、ハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な形態へ変更し得る。
1:統合データ管理サーバ、2:統合データ管理端末、3:業務データ管理サーバ、4:データ発生装置、11:制御部、141:業務データ統合管理プログラム、142:統合業務データテーブル、143:データセット検索履歴情報テーブル、144:データテーブル情報テーブル、145:ドメイン情報テーブル、146:データ突合方式情報テーブル、147:データ処理方式情報テーブル、341:業務データ管理プログラム、342:業務データテーブル。
Claims (16)
- 複数のデータから該複数のデータの各データ項目からなるデータセットを抽出するデータ統合システムが実行するデータ統合方法であって、
前記データ統合システムは、プロセッサとメモリと記憶部とを有し、
前記記憶部は、
前記データの適用分野を表すドメインを識別するドメイン識別子と、前記データ項目と、該データ項目のデータ属性を識別する属性識別子と、を対応付けて管理するドメイン情報と、
前記複数のデータ間の前記データ項目の突合処理の処理方式を識別する突合処理方式識別子と、前記属性識別子と、該突合処理に際して必要となる必要処理を識別する必要処理識別子と、該突合処理の処理工数と、を対応付けて管理するデータ突合方式情報と、を記憶し、
前記プロセッサが、
KPI(Key Performance Indicator)と、前記データセットに含める前記データ項目である指定データ項目と、前記突合処理を実行する際に突合する前記データ項目を指定する突合データ項目と、を含んだデータセット検索条件の入力を受付け、
前記指定データ項目又は前記突合データ項目に該当する前記データ項目を含む前記データの中から前記KPIと関連性を有する前記データ項目を前記データセットとして抽出し、
前記ドメイン情報を参照し、前記突合データ項目に該当する前記データ項目に対応する前記属性識別子を取得し、
前記データ突合方式情報を参照し、前記ドメイン情報を参照して取得した前記属性識別子に対応する前記突合処理方式識別子及び前記処理工数を取得し、
前記突合処理方式識別子に対応する前記処理方式及び前記処理工数を、前記指定データ項目を含んだ前記データセットのデータ項目の一覧と共に、表示装置に表示する
各処理を有することを特徴とするデータ統合方法。 - 請求項1に記載のデータ統合方法であって、
前記データ突合方式情報及び前記データは、前記ドメイン識別子を対応付けて管理し、
前記プロセッサが、
前記ドメインの指定を含んだ前記データセット検索条件の入力を受付け、
前記データセット検索条件において指定された前記ドメインの前記ドメイン識別子に該当する前記データであって、前記突合データ項目に該当する前記データ項目を含む前記データの中から前記データセットを抽出し、
前記ドメイン情報を参照し、前記データセット検索条件において指定された前記ドメインの前記ドメイン識別子と、前記データセットに該当する前記データ項目と、の組合せに対応する前記属性識別子を取得し、
前記データ突合方式情報を参照し、前記ドメイン情報を参照して取得した前記属性識別子と、前記データセット検索条件において指定された前記ドメインの前記ドメイン識別子と、の組合せに対応する前記突合処理方式識別子及び前記処理工数を取得する
各処理を有することを特徴とするデータ統合方法。 - 請求項1又は2に記載のデータ統合方法であって、
前記プロセッサが、
ユーザによる何れかの前記データセットの選択を受付け、
前記ユーザによって選択された前記データセットを抽出し、
前記データセットに含まれる前記突合データ項目の前記突合処理を実行し、
前記データセットを前記データ項目として含んだ統合データを生成し、
前記統合データを前記表示装置に表示する
各処理を有することを特徴とするデータ統合方法。 - 請求項3に記載のデータ統合方法であって、
前記データ突合方式情報は、前記突合処理が、人手を介さず実行される自動、処理に関するパラメータの入力が必要な半自動、又は人手を介して実行される手動の何れであるかを示す処理種別を対応付けて管理し、
前記プロセッサが、
前記データ突合方式情報を参照し、前記ドメイン情報を参照して取得した前記属性識別子に対応する前記処理種別を取得し、
前記処理種別が前記半自動である場合には、前記パラメータの入力を受付け、該パラメータに基づいて前記突合処理を実行する
各処理を有することを特徴とするデータ統合方法。 - 請求項4に記載のデータ統合方法であって、
前記パラメータは、前記データ項目の値の時間間隔を表す時刻粒度と、該値の欠損の補完方式と、の少なくとも何れかを含む
ことを特徴とするデータ統合方法。 - 請求項4に記載のデータ統合方法であって、
前記プロセッサが、
前記処理種別が前記手動である場合には、前記突合処理の実行前の前記複数のデータを前記表示装置に表示する
処理を有することを特徴とするデータ統合方法。 - 請求項1に記載のデータ統合方法であって、
前記記憶部は、
前記KPIと、該KPIを含んだ前記データセット検索条件に基づいて抽出された前記データセットと、を対応付けて管理する検索履歴情報を記憶し、
前記プロセッサが、
前記検索履歴情報から、前記データセット検索条件に含まれる前記KPIとの関連を有する前記データセットを抽出する
処理を有することを特徴とするデータ統合方法。 - 請求項1に記載のデータ統合方法であって、
前記記憶部は、前記データの信頼度に関連する情報を管理するデータ情報を記憶し、
前記データは、該データを識別するデータ識別子を対応付けて管理し、
前記プロセッサが、
前記データセットに該当する前記データ項目を有する前記データを参照して該データを識別する前記データ識別子を取得し、
前記データ情報を参照し、前記データ識別子で識別される前記データの前記信頼度に関連する前記情報を取得し、
前記情報に基づいて前記信頼度を算出し、
前記信頼度を前記表示装置に表示する
各処理を有することを特徴とするデータ統合方法。 - 複数のデータから該複数のデータの各データ項目からなるデータセットを抽出するデータ統合システムであって、
前記データ統合システムは、プロセッサとメモリと記憶部とを有し、
前記記憶部は、
前記データの適用分野を表すドメインを識別するドメイン識別子と、前記データ項目と、該データ項目のデータ属性を識別する属性識別子と、を対応付けて管理するドメイン情報と、
前記複数のデータ間の前記データ項目の突合処理の処理方式を識別する突合処理方式識別子と、前記属性識別子と、該突合処理に際して必要となる必要処理を識別する必要処理識別子と、該突合処理の処理工数と、を対応付けて管理するデータ突合方式情報と、を記憶し、
前記プロセッサは、
KPI(Key Performance Indicator)と、前記データセットに含める前記データ項目である指定データ項目と、前記突合処理を実行する際に突合する前記データ項目を指定する突合データ項目と、を含んだデータセット検索条件の入力を受付け、
前記指定データ項目又は前記突合データ項目に該当する前記データ項目を含む前記データの中から前記KPIと関連性を有する前記データ項目を前記データセットとして抽出し、
前記ドメイン情報を参照し、前記突合データ項目に該当する前記データ項目に対応する前記属性識別子を取得し、
前記データ突合方式情報を参照し、前記ドメイン情報を参照して取得した前記属性識別子に対応する前記突合処理方式識別子及び前記処理工数を取得し、
前記突合処理方式識別子に対応する前記処理方式及び前記処理工数を、前記指定データ項目を含んだ前記データセットのデータ項目の一覧と共に、表示装置に表示する
ことを特徴とするデータ統合システム。 - 請求項9に記載のデータ統合システムであって、
前記データ突合方式情報及び前記データは、前記ドメイン識別子を対応付けて管理し、
前記プロセッサは、
前記ドメインの指定を含んだ前記データセット検索条件の入力を受付け、
前記データセット検索条件において指定された前記ドメインの前記ドメイン識別子に該当する前記データであって、前記突合データ項目に該当する前記データ項目を含む前記データの中から前記データセットを抽出し、
前記ドメイン情報を参照し、前記データセット検索条件において指定された前記ドメインの前記ドメイン識別子と、前記データセットに該当する前記データ項目と、の組合せに対応する前記属性識別子を取得し、
前記データ突合方式情報を参照し、前記ドメイン情報を参照して取得した前記属性識別子と、前記データセット検索条件において指定された前記ドメインの前記ドメイン識別子と、の組合せに対応する前記突合処理方式識別子及び前記処理工数を取得する
ことを特徴とするデータ統合システム。 - 請求項9又は10に記載のデータ統合システムであって、
前記プロセッサは、
ユーザによる何れかの前記データセットの選択を受付け、
前記ユーザによって選択された前記データセットを抽出し、
前記データセットに含まれる前記突合データ項目の前記突合処理を実行し、
前記データセットを前記データ項目として含んだ統合データを生成し、
前記統合データを前記表示装置に表示する
ことを特徴とするデータ統合システム。 - 請求項11に記載のデータ統合システムであって、
前記データ突合方式情報は、前記突合処理が、人手を介さず実行される自動、処理に関するパラメータの入力が必要な半自動、又は人手を介して実行される手動の何れであるかを示す処理種別を対応付けて管理し、
前記プロセッサは、
前記データ突合方式情報を参照し、前記ドメイン情報を参照して取得した前記属性識別子に対応する前記処理種別を取得し、
前記処理種別が前記半自動である場合には、前記パラメータの入力を受付け、該パラメータに基づいて前記突合処理を実行する
ことを特徴とするデータ統合システム。 - 請求項12に記載のデータ統合システムであって、
前記パラメータは、前記データ項目の値の時間間隔を表す時刻粒度と、該値の欠損の補完方式と、の少なくとも何れかを含む
ことを特徴とするデータ統合システム。 - 請求項12に記載のデータ統合システムであって、
前記プロセッサは、
前記処理種別が前記手動である場合には、前記突合処理の実行前の前記複数のデータを前記表示装置に表示する
ことを特徴とするデータ統合システム。 - 請求項9に記載のデータ統合システムであって、
前記記憶部は、
前記KPIと、該KPIを含んだ前記データセット検索条件に基づいて抽出された前記データセットと、を対応付けて管理する検索履歴情報を記憶し、
前記プロセッサは、
前記検索履歴情報から、前記データセット検索条件に含まれる前記KPIとの関連を有する前記データセットを抽出する
ことを特徴とするデータ統合システム。 - 請求項9に記載のデータ統合システムであって、
前記記憶部は、前記データの信頼度に関連する情報を管理するデータ情報を記憶し、
前記データは、該データを識別するデータ識別子を対応付けて管理し、
前記プロセッサは、
前記データセットに該当する前記データ項目を有する前記データを参照して該データを識別する前記データ識別子を取得し、
前記データ情報を参照し、前記データ識別子で識別される前記データの前記信頼度に関連する前記情報を取得し、
前記情報に基づいて前記信頼度を算出し、
前記信頼度を前記表示装置に表示する
ことを特徴とするデータ統合システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023173204A JP2025063757A (ja) | 2023-10-04 | 2023-10-04 | データ統合方法及びデータ統合システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023173204A JP2025063757A (ja) | 2023-10-04 | 2023-10-04 | データ統合方法及びデータ統合システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2025063757A true JP2025063757A (ja) | 2025-04-16 |
Family
ID=95374943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023173204A Pending JP2025063757A (ja) | 2023-10-04 | 2023-10-04 | データ統合方法及びデータ統合システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2025063757A (ja) |
-
2023
- 2023-10-04 JP JP2023173204A patent/JP2025063757A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6045706B2 (ja) | データ処理システム、データ処理方法およびデータ処理装置 | |
CN112016287A (zh) | 数据管理方法、平台、存储介质及电子设备 | |
US11074296B2 (en) | Query generation assist method and query generation assist apparatus | |
KR20190029671A (ko) | 분석 소프트웨어 관리 시스템 및 분석 소프트웨어 관리 방법 | |
CN113868141B (zh) | 数据测试方法、装置、电子设备及存储介质 | |
JP2000250798A (ja) | データ管理システム及びコンピュータ読み取り可能な記録媒体 | |
US20210397745A1 (en) | Data providing server device and data providing method | |
JP6174469B2 (ja) | 事故分析活用支援装置および方法 | |
JP2025063757A (ja) | データ統合方法及びデータ統合システム | |
US20080288307A1 (en) | Project management support device and method thereof | |
JP2004062707A (ja) | 作業支援装置 | |
JP6695847B2 (ja) | ソフトウェア部品管理システム、計算機 | |
JP2009059026A (ja) | ファイル検索装置及びファイル検索プログラム | |
JP2008299496A (ja) | 業務シミュレータおよびそのプログラム | |
JP6775740B1 (ja) | 設計支援装置、設計支援方法及び設計支援プログラム | |
JPH08234977A (ja) | ソフトウェアプロジェクトにおける多面的進捗管理方式 | |
JPWO2020183538A1 (ja) | 計算機システム及びデータレイクに格納されるデータを用いた処理方法 | |
JP2019200532A (ja) | データ生成方法、データ生成プログラム及び情報処理装置 | |
WO2021193100A1 (ja) | データ処理支援システム、データ処理支援方法及びデータ処理支援プログラム | |
JP2004287874A (ja) | データ分析方法および営業支援システム | |
JPH09292986A (ja) | 部品抽出方法 | |
JP2022096319A (ja) | データ分析装置、データ分析方法、及び、プログラム | |
JP2025025982A (ja) | 情報比較装置、及び情報比較方法 | |
JPH10232773A (ja) | リバース情報を利用する業務モデル作成方法 | |
JP2003058030A (ja) | 生涯職業能力開発体系の表示方法 |