JP2022065502A - Etlワークフロー推奨装置、etlワークフロー推奨方法及びetlワークフロー推奨システム - Google Patents
Etlワークフロー推奨装置、etlワークフロー推奨方法及びetlワークフロー推奨システム Download PDFInfo
- Publication number
- JP2022065502A JP2022065502A JP2020174125A JP2020174125A JP2022065502A JP 2022065502 A JP2022065502 A JP 2022065502A JP 2020174125 A JP2020174125 A JP 2020174125A JP 2020174125 A JP2020174125 A JP 2020174125A JP 2022065502 A JP2022065502 A JP 2022065502A
- Authority
- JP
- Japan
- Prior art keywords
- etl
- workflow
- information
- etl workflow
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 71
- 230000008520 organization Effects 0.000 claims description 67
- 230000008569 process Effects 0.000 claims description 49
- 238000003860 storage Methods 0.000 claims description 28
- 238000004891 communication Methods 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000007726 management method Methods 0.000 description 65
- 238000010586 diagram Methods 0.000 description 51
- 238000000605 extraction Methods 0.000 description 13
- 238000010276 construction Methods 0.000 description 12
- 239000000284 extract Substances 0.000 description 12
- 238000003825 pressing Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000012795 verification Methods 0.000 description 9
- 238000012937 correction Methods 0.000 description 8
- 238000007405 data analysis Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000004140 cleaning Methods 0.000 description 4
- 230000004807 localization Effects 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 238000012800 visualization Methods 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Economics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
例えば、米国特許出願公開第2017/0293641号(特許文献1)には、「データウェアハウスモデル検証システムのためのシステム、方法、およびコンピュータプログラム製品に関し、当該データウェアハウスモデル検証システムは、ETLモデルとデータウェアハウスモデル全体で、ETL要素と関連するデータウェアハウス要素とで構成される要素グループを検索するための要素グループロケーターと、1つ以上の要素がデータウェアハウスモデルから欠落しているか、データウェアハウスモデルの1つ以上の要素が予期された要素又は要素の機能に対応していない状態で、ETL要素とデータウェアハウス要素間の不整合を判別するための不整合判別器と、検出された欠落要素または検出された要素グループからの予期しない要素を記録するための不整合レコーダーとを含む」手段が開示されている。
しかし、特許文献1は、データの整合性を向上することに着目しており、ユーザからの要求に基づいて、所定のタスクを実行するためのETLワークフローを推奨することは想定されていない。
少なくとも所定のビジネスドメインに関するETL情報をグラフ形式で示すETL知識グラフを含む全体知識グラフを格納するための知識データベースと、前記所定のビジネスドメインに関するユーザ入力を受け付け、前記ユーザ入力を、前記全体知識グラフを検索するためのグラフクエリーに変換する入力管理部と、前記グラフクエリーを用いて前記全体知識グラフを検索し、前記ユーザ入力に対するETLワークフローの候補を生成するETL推奨部と、前記ETLワークフローの候補を評価し、推奨するETLワークフローを示すETLワークフローレポートを出力する出力管理部とを含む。
上記以外の課題、構成及び効果は、以下の発明を実施するための形態における説明により明らかにされる。
本開示に係るETLワークフロー推奨装置は、自然言語から構成されたユーザクエリー、所定のビジネス用語、所望のETLワークフロー-の目標、及び参照用ファイルの内、少なくとも1つを含むユーザ入力を受け付けた場合、当該ユーザ入力を、ETL情報、人材情報、組織情報、及びファイル情報を含む全体知識グラフを検索するためのグラフクエリーに変換する。
これにより、企業にて行われるデータプレパレーション、データ洗浄、データ解析等のプロセスを効率化し、データの有効活用を促進することができる。
なお、これらの機能部の詳細については後述する。
目標抽出部204は、ETLワークフロー推奨装置100に予め保存されるETLファイル(例えば図4に示すETLファイル401)に関連するETL目標(例えば、ユーザによって指定された目標)を抽出するための機能部である。例えば、ETLワークフロー推奨装置100に予め保存されるETLファイルにおいて、「データ確実性を向上」や「処理性能向上」等のETL目標が保存されている場合には、目標抽出部204は、これらのETL目標の情報を抽出し、ユーザ入力表示部202に表示する(図22に示すユーザ入力画面2200参照)。
ビジネス用語抽出部205は、ETLワークフロー推奨装置100に予め保存される組織ファイル(例えば、図4に示す組織ファイル404)において、特定の組織において特有のビジネス用語及びその定義に関する情報を抽出するための機能部である。例えば、ETLワークフロー推奨装置100に予め保存される組織ファイルにおいて、「注文」や「純売上高」のビジネス用語について特有の定義が定められている場合、ビジネス用語抽出部205は、これらのビジネス用語及びその定義を抽出し、ユーザ入力表示部202に表示する。
また、図2に示すように、ユーザクエリー生成部206は、クエリー表示部207、フィルタ部208、及びビジネス用語検索部209とを含む。
また、図2に示すように、参照用ファイルアップロード部210は、データプロフィール部211と、ファイル管理部212とを含む。
図3に示すように、本開示の実施形態に係るETLワークフロー推奨装置100におけるETL推奨部102は、ユーザ入力分類部361、グラフクエリー変換部364、ETL検索部365、アクセス及びポリシー制御部366、ETL生成部371、全体スコア生成部379、知識データベース構築及び更新部383、ETL結果分類部384、及びグラフクエリー補正部385を主に含む。
一例として、ファイル類似度管理部363は、それぞれのファイルのビジネス用語、統計情報、作成者情報、作成日時情報等のデータプロフィールを比較し、データプロフィールが一致する場合にはより高い類似度として、データプロフィールが一致しない場合にはより低い類似度としてもよい。
一例として、「過去3カ月の注文と純売上高は何ですか?」とのクエリーがあった場合、セマンティック解釈部372は当該ユーザクエリーを分析した結果、「3カ月」の期間における「注文」及び「純売上高」の情報の出力が求められていることを判定した後、クエリー生成部373は、「注文」及び「純売上高」の情報を含むファイルを検索するためのクエリーを生成する。
その後、ファイル検索部375は、検索結果として、「Order_detail_feb.csv」、「Order_detail_jan.csv」、「Sales data.csv」、「Order status.csv」を取得し、「過去3カ月」との期間に対応しないファイルを除外する。アクセス及びポリシー制御379は、取得したファイルが所定のアクセス条件及びポリシー条件を満たすか否かを検証する。アクセス条件及びポリシー条件の両方が満たされる場合、論理プラン生成部374は、これらのファイルに基づいて論理プランを生成した後、実行ファイル生成部376は実行ファイルを生成する。
また、知識データベース構築及び更新部383は、例えばETLワークフロー推奨装置100に新しいデータ(ETLファイル、人材データベース、データカタログファイル、組織ファイル)が追加される度に、追加した情報に基づいて知識データベース(つまり、知識データベースに含まれる全体知識グラフ)を更新してもよい。
図4に示すように、本開示の実施形態に係る知識データベース103に格納される全体知識グラフ450は、ETLファイル401から抽出されるETL情報によって生成されるETL知識グラフ409と、人材データベース402から抽出される人材情報によって生成される人材知識グラフ410と、データカタログファイル403から抽出されるファイル情報によって生成されるファイル知識グラフ411と、組織ファイル404から抽出される組織情報によって生成される組織知識グラフ412とを集約することで構築され、ユーザからのユーザ入力に対する推奨のETLワークフローを判定するために用いられるグラフ形式のデータ構造である。
ETL情報、人材情報、ファイル情報、及び組織情報等を全体知識グラフのようなグラフ形式で表現することにより、例えば複雑なクエリー作成や複数のテーブルの結合が求められるいわゆる関係データベース(Relational Database)に比べて、必要な情報を取得する処理を向上させることができる。
なお、ETL知識グラフ409の一例を、図7を参照して説明する。
なお、人材知識グラフ410の一例を、図9を参照して説明する。
なお、ファイル知識グラフ411の一例を、図13を参照して説明する。
なお、組織知識グラフ412の一例を、図15を参照して説明する。
上述したように、本開示の実施形態に係る全体知識グラフは、ETL情報、人材情報、データカタログファイル、及び組織情報に基づいて生成される。ここでのETL情報とは、ETLワークフロー推奨装置100に予め格納されているETLファイル401から抽出される情報であり、例えば、ETLワークフローにおけるステップの情報、作成者情報、メタデータ情報等を含んでもよい。
一例として、図6に示すETLファイル401は、ETLワークフローにおけるステップの情報、作成者情報、及びメタデータ情報を含む。これらの情報は、ETL情報としてETLファイル401から抽出され、全体知識グラフに含まれるETL知識グラフを作成する際に用いられる。
上述したように、このETL知識グラフ409は、人材知識グラフ、ファイル知識グラフ、及び組織知識グラフと結合することにより、ユーザ入力に対する推奨のETLワークフローを生成する際に用いられる全体知識グラフを構築することができる。
上述したように、本開示の実施形態に係る全体知識グラフは、ETL情報、人材情報、データカタログファイル、及び組織情報に基づいて生成される。ここでの人材情報とは、所定のビジネスドメインに関連する組織(企業等)に属する人材に関する情報であり、例えば識別情報、役割情報、勤務場所情報、部署情報、及び専門分野情報等を含んでもよい。この人材情報は、例えば所定の人材データベース402から抽出されてもよい。
一例として、図8に示す人材データベース402は、特定の人材を識別するためのID801及び氏名802、データサイエンティストやデータ分析等の役割803、東京やニューヨーク等の人材の勤務場所804、データサイエンスやデータ収集等の部署805、及びML-SVMやAnalytics等の専門分野806を含んでもよい。これらの情報は、人材情報として人材データベース402から抽出され、全体知識グラフに含まれる人材知識グラフを作成する際に用いられる。
上述したように、この人材知識グラフ410は、ETL知識グラフ、ファイル知識グラフ、及び組織知識グラフと結合することにより、ユーザクエリーに対する推奨のETLワークフローを生成する際に用いられる全体知識グラフを構築することができる。
生成してもよい。
上述したように、この人材の類似度インデックス381は、ETLワークフローを評価する際に用いられてもよい。
上述したように、このファイル知識グラフ411は、ETL知識グラフ、人材知識グラフ、及び組織知識グラフと結合することにより、ユーザ入力に対する推奨のETLワークフローを生成する際に用いられる全体知識グラフを構築することができる。
所定のビジネスドメインにおいて、特定の組織の構成や特徴を示す情報であり、例えば組織における特有のビジネス用語の定義等を含んでもよい。この組織情報は、例えばETLワークフロー推奨装置100に予め格納されている組織ファイル404から抽出されてもよい。
従って、「過去3カ月の注文と純売上高は何ですか?」とのユーザクエリーがあった場合に、ユーザが求める情報を正確に提供するためには、ETLワークフロー推奨装置100に格納されている「注文」や「純売上高」の情報がどのように定義されているかを把握することが重要である。
そこで、上述したように、本開示では、「注文」や「純売上高」等のビジネス用語の定義を規定する組織情報を組織ファイル404から抽出し、抽出した情報を全体知識グラフに含むことで、ユーザクエリーに対応する正確なETLワークフローを推奨することができる。
上述したように、この組織知識グラフ412は、ETL知識グラフ、人材知識グラフ、及びファイル知識グラフと結合することにより、ユーザ入力に対する推奨のETLワークフローを生成する際に用いられる全体知識グラフを構築することができる。
上述したように、ユーザ入力に対応するグラフクエリーを用いてこの全体知識グラフ450を検索することにより、当該ユーザクエリー対して推奨のETLワークフローを判定することができる。
ETLワークフロー推奨装置100と、ストレージ装置1710と、ユーザ端末1730とは、例えばインターネットやLAN等の通信ネットワーク1720を介して接続される。
ETLワークフロー推奨装置100は、CPU1701、メモリ1702、記憶部1703、及びネットワークインターフェース1704を用いて、図1を参照して説明した機能部の機能を実行する。
なお、ETLワークフロー推奨装置100の機能の詳細については、図1、2、3、5等を参照して説明したため、ここではその説明を省略する。
図17に示すように、ストレージ装置1710は、各種演算を行うためのCPU1711やメモリ1712、各種情報を記憶するための記憶部1713、及び通信ネットワーク1720を介してデータを送受信するためのネットワークインターフェース1714を備える。
なお、図17では、ETLワークフロー推奨装置100とストレージ装置1710を別々の装置として示しているが、本開示はこれに限定されず、ETLワークフロー推奨装置100とストレージ装置1710とを一体とした構成も可能である。
図17に示すように、ユーザ端末1730は、各種演算を行うためのCPU1731やメモリ1732、各種情報を記憶するための記憶部1733、通信ネットワーク1720を介してデータを送受信するためのネットワークインターフェース1734、ユーザの入力を受け付けるための入力部1735、及び情報を出力するための出力部1736を備える。
なお、ユーザクエリーに対応する新規のETLワークフローを生成する処理については、図19を参照して説明する。
ここで、ETL推奨部は、ETLワークフローの候補のアクセス条件として、ETLワークフロー推奨装置100のユーザが、検索されたETLワークフローにアクセスする権限があるか否かを検証してもよい。また、ETL推奨部は、ETLワークフローの候補のポリシー条件として、検索されたETLワークフローが所定のポリシー(ローカリゼーションポリシー、セキュリティポリシー等)を満たすか否かを検証してもよい。
ETLファイル、人材データベース、データカタログファイル、及び組織ファイルに対する更新動作は、例えば、新しいデータを追加したり、既存のデータを変更又は削除したりすることを含む。また、この更新動作は、例えばETLワークフロー推奨装置100のユーザによって手動で行われる更新であってもよく、ETLワークフロー推奨装置100の機能によって自動的に行われる更新であってもよい。
これにより、全体知識グラフは、常に最新の状態で維持されるため、ユーザ入力に対して最新の情報に基づいたETLワークフローを推奨することができる。
なお、図20に示す新規ETLワークフロー作成方法2000は、図18に示すステップS1816に対応する。
ここで、ETL推奨部は、データカタログファイルの候補のアクセス条件として、ETLワークフロー推奨装置100のユーザが、検索されたデータカタログファイルにアクセスする権限があるか否かを検証してもよい。また、ETL推奨部は、データカタログファイルの候補のポリシー条件として、検索されたデータカタログファイルが所定のポリシー(ローカリゼーションポリシー、セキュリティポリシー等)を満たすか否かを検証してもよい。
また、ここでは、ETL推奨部は、ETLワークフローの候補のそれぞれについて計算した全体スコアに基づいて、ETLワークフローの候補を分類する。例えば、ここで、ETL推奨部は、ETLワークフローの候補を、全体スコアが高いものから並べてもよい。
また、フィルタメニュー2302では、ETLワークフロー推奨装置100のユーザは、所定の期間を指定するための時間フィルタ、結果をグループ毎に分類するためのグループフィルタ、所定の場所を指定するための空間フィルタ等を用いて、ユーザクエリーの結果を絞るためのフィルタを設定してもよい。
一例として、ユーザは、自然言語選択メニュー2301と、フィルタメニュー2302とを用いることで「過去3カ月の注文と純売上高は何ですか?」とのユーザクエリーを作成してもよい。ユーザによって作成されたユーザクエリーは、リアルタイムでユーザクエリープレビュー2303に表示される。
一例として、ユーザが「order_details.csv」との参照用ファイルをアップロードして、データプロフィール取得ボタン2403を押した場合、当該参照用ファイルのファイル名、作成日時の情報、ファイルサイズの情報、作成者の情報、ファイルの内容のプレビュー、関連付けられているビジネスタグの情報等が表示される。更に、ユーザは、詳細表示ボタン2406を押すことで、参照用ファイルのより詳細な情報を確認することができる。
また、ユーザは、戻るボタン2404を押すことで、上述したユーザ入力画面2200に戻ることができる。
なお、図25に示す推奨ETLワークフロー画面2500では、説明の便宜上、2つの推奨ETLワークフローのみを示す場合を一例として説明するが、本開示はそれに限定されず、1つ又は3つ以上の推奨ETLワークフローが推奨ETLワークフロー画面2500に表示されてもよい。
ユーザは、保存ボタン2503を押すことで、推奨のETLワークフロー2501を保存することができる。また、ユーザは、実行ボタン2504を押すことで、推奨のETLワークフロー2501をその場で実行することができる。
101 入力管理部
102 ETL推奨部
103 知識DB
104 出力管理部
201 ユーザ認証部
202 ユーザ入力表示部
203 抽出部
204 目標抽出部
205 ビジネス用語抽出部
206 ユーザクエリー生成部
207 クエリー表示部
208 フィルタ部
209 ビジネス用語検索部
210 参照用ファイルアップロード部
211 データプロフィール部
212 ファイル管理部
361 ユーザ入力分類部
362 セマンティック解釈部
363 ファイル類似度管理部
364 グラフクエリー変換部
365 ETL検索部
366 アクセス及びポリシー制御部
367 アクセス検証部
368 ポリシー検証部
369 結果補正部
370 ポリシー更新部
371 ETL生成部
372 セマンティック解釈部
373 クエリー生成部
374 論理プラン生成部
375 ファイル検索部
376 実行ファイル生成部
377 特徴推定部
378 アクセス及びポリシー制御部
379 全体スコア生成部
380 目標、役割、及びドメインの対応関係情報
381 類似度インデックス
382 ETL特徴
383 知識データベース構築及び更新部
384 ETL結果分類部
385 グラフクエリー補正部
401 ETLファイル
402 人材データベース
403 データカタログファイル
404 組織ファイル
405 ETL情報管理部
406 人材情報管理部
407 ファイル情報管理部
408 組織情報管理部
409 ETL知識グラフ
410 人材知識グラフ
411 ファイル知識グラフ
412 組織知識グラフ
413 知識集約部
450 全体知識グラフ
501 表示部
502 フィルタ表示部
503 スコア表示部
504 ETLスクリプト可視化部
505 パラメータ更新部
506 保存管理部
508 スコア更新部
Claims (12)
- ETLワークフロー推奨装置であって、
少なくとも所定のビジネスドメインに関するETL情報をグラフ形式で示すETL知識グラフを含む全体知識グラフを格納するための知識データベースと、
前記所定のビジネスドメインに関するユーザ入力を受け付け、前記ユーザ入力を、前記全体知識グラフを検索するためのグラフクエリーに変換する入力管理部と、
前記グラフクエリーを用いて前記全体知識グラフを検索し、前記ユーザ入力に対するETLワークフローの候補を生成するETL推奨部と、
前記ETLワークフローの候補を評価し、推奨するETLワークフローを示すETLワークフローレポートを出力する出力管理部と、
を含むことを特徴とするETLワークフロー推奨装置。 - 前記ETLワークフロー推奨装置は、
前記ETLワークフローの候補が所定のアクセス条件及びポリシー条件を満たすか否かを判定し、
前記アクセス条件及び前記ポリシー条件のいずれか一方を満たさないETLワークフローを前記ETLワークフローの候補から削除するアクセス及びポリシー制御部を更に含む、
ことを特徴とする、請求項1に記載のETLワークフロー推奨装置。 - 前記知識データベースは、
前記ビジネスドメインにおいて、少なくとも所定の人材に関する識別情報、役割情報、勤務場所情報、部署情報、及び専門分野情報を含む人材情報をグラフ形式で示す人材知識グラフを、前記ETL知識グラフに加えて格納する、
ことを特徴とする、請求項1に記載のETLワークフロー推奨装置。 - 前記知識データベースは、
前記ビジネスドメインにおいて、少なくとも所定の組織において用いられる用語の定義を含む組織情報をグラフ形式で示す組織知識グラフを、前記ETL知識グラフに加えて格納する、
ことを特徴とする、請求項3に記載のETLワークフロー推奨装置。 - 前記知識データベースは、
前記ビジネスドメインにおいて、所定の取引に関する情報を少なくとも含むファイル情報をグラフ形式で示すファイル知識グラフを、前記ETL知識グラフに加えて格納する、
ことを特徴とする、請求項4に記載のETLワークフロー推奨装置。 - 前記ETLワークフロー推奨装置は、
前記ETL知識グラフと、前記人材知識グラフと、前記組織知識グラフと、前記ファイル知識グラフとを集約することで前記全体知識グラフを生成する知識集約部を更に含む、
ことを特徴とする、請求項5に記載のETLワークフロー推奨装置。 - 前記ETLワークフロー推奨装置は、
前記人材情報、前記ETL情報、前記ファイル情報、又は前記組織情報について、データを追加、削除、又は変更する更新動作を検出し、
前記更新動作に基づいて、前記全体知識グラフを更新する、
ことを特徴とする、請求項6に記載のETLワークフロー推奨装置。 - 前記ユーザ入力は、
自然言語から構成されたユーザクエリー、所定のビジネス用語、所望のETLワークフロー-の目標、及び参照用ファイルの内、少なくとも1つを含むことを特徴とする請求項1に記載のETLワークフロー推奨装置。 - 前記ETL推奨部は、
前記グラフクエリーに対する所定の類似度基準を満たす既存のETLワークフローが前記全体知識グラフに存在する場合、前記既存のETLワークフローを前記ETLワークフローの候補として生成し、
前記グラフクエリーに対する所定の類似度基準を満たす既存のETLワークフローが前記全体知識グラフに存在しない場合、前記グラフクエリーに対する所定の関連度基準を満たすデータファイルを前記全体知識グラフから抽出し、抽出したデータファイルに基づいて、複数の処理を連結してなる論理プランを新規のETLワークフローの候補として生成する、
ことを特徴とする、請求項6に記載のETLワークフロー推奨装置。 - 所定のビジネスドメインに関するETL情報をグラフ形式で示すETL知識グラフと、前記ビジネスドメインにおいて、所定の人材に関する識別情報、役割情報、勤務場所情報、部署情報、及び専門分野情報を少なくとも含む人材情報をグラフ形式で示す人材知識グラフと、前記ビジネスドメインにおいて、所定の組織において用いられる用語の定義を少なくとも含む組織情報をグラフ形式で示す組織知識グラフと、前記ビジネスドメインにおいて、少なくとも所定の取引に関する情報を含むファイル情報をグラフ形式で示すファイル知識グラフとを集約することで全体知識グラフを生成する工程と、
前記所定のビジネスドメインに関するユーザ入力を受け付け、、前記ユーザ入力を、前記全体知識グラフを検索するためのグラフクエリーに変換する工程と、
前記グラフクエリーを用いて前記全体知識グラフを検索し、前記ユーザ入力に対するETLワークフローが存在するか否かを判定する工程と、
前記グラフクエリーに対する所定の類似度基準を満たす既存のETLワークフローが前記全体知識グラフに存在する場合、前記既存のETLワークフローをETLワークフローの候補として生成する工程と、
前記グラフクエリーに対する所定の関連度基準を満たすデータファイルを前記全体知識グラフから抽出し、抽出したデータファイルに基づいて、複数の処理を連結してなる論理プランを新規のETLワークフローの候補として生成する工程と、
前記ETLワークフローの候補が所定のアクセス条件及びポリシー条件を満たすか否かを判定する工程と、
前記アクセス条件及び前記ポリシー条件のいずれか一方を満たさないETLワークフローを前記ETLワークフローの候補から削除する工程と、
前記ETLワークフローの候補を評価し、推奨のETLワークフローを示すETLワークフローレポートを出力する工程と、
を含むことを特徴とするETLワークフロー推奨方法。 - 前記ETLワークフロー推奨方法は、
前記人材情報、前記ETL情報、前記ファイル情報、又は前記組織情報について、データを追加、削除、又は変更する更新動作を検出する工程と、
前記更新動作に基づいて、前記全体知識グラフを更新する工程と、
を更に含むことを特徴とする、請求項10に記載のETLワークフロー推奨方法。 - 推奨のETLワークフローを提供するETLワークフロー推奨装置と、前記ETLワークフロー推奨装置によって用いられる各種情報を格納するストレージ装置と、前記ETLワークフロー推奨装置を利用するユーザの端末であるユーザ端末とが通信ネットワークを介して接続されるETLワークフロー推奨システムであって、
前記ストレージ装置は、
所定のビジネスドメインに関するETL情報をグラフ形式で示すETL知識グラフを少なくとも含む全体知識グラフを格納するための知識データベースを含み、
前記ETLワークフロー推奨装置は、
前記所定のビジネスドメインに関するユーザ入力を前記ユーザ端末から受け付け、、前記ユーザ入力を、前記全体知識グラフを検索するためのグラフクエリーに変換する入力管理部と、
前記グラフクエリーを用いて前記全体知識グラフを検索し、前記ユーザ入力に対するETLワークフローの候補を生成するETL推奨部と、
前記ETLワークフローの候補を評価し、推奨のETLワークフローを示すETLワークフローレポートを前記ユーザ端末に出力する出力管理部と、
を含むことを特徴とするETLワークフロー推奨システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020174125A JP2022065502A (ja) | 2020-10-15 | 2020-10-15 | Etlワークフロー推奨装置、etlワークフロー推奨方法及びetlワークフロー推奨システム |
US17/478,983 US11921737B2 (en) | 2020-10-15 | 2021-09-20 | ETL workflow recommendation device, ETL workflow recommendation method and ETL workflow recommendation system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020174125A JP2022065502A (ja) | 2020-10-15 | 2020-10-15 | Etlワークフロー推奨装置、etlワークフロー推奨方法及びetlワークフロー推奨システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022065502A true JP2022065502A (ja) | 2022-04-27 |
JP2022065502A5 JP2022065502A5 (ja) | 2023-02-14 |
Family
ID=81184783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020174125A Pending JP2022065502A (ja) | 2020-10-15 | 2020-10-15 | Etlワークフロー推奨装置、etlワークフロー推奨方法及びetlワークフロー推奨システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11921737B2 (ja) |
JP (1) | JP2022065502A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115905291A (zh) * | 2022-12-12 | 2023-04-04 | 广州南方智能技术有限公司 | 基于图的数据处理方法、装置及存储介质 |
WO2024004351A1 (ja) * | 2022-06-30 | 2024-01-04 | 株式会社日立製作所 | プロセッサシステムおよび不具合診断方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022065502A (ja) * | 2020-10-15 | 2022-04-27 | 株式会社日立製作所 | Etlワークフロー推奨装置、etlワークフロー推奨方法及びetlワークフロー推奨システム |
US20230315535A1 (en) * | 2022-03-29 | 2023-10-05 | International Business Machines Corporation | Dynamic factoring and composing workflows |
US20230368103A1 (en) * | 2022-05-11 | 2023-11-16 | Sap Se | Knowledge graph enabled augmentation of natural language processing applications |
CN115982429B (zh) * | 2023-03-21 | 2023-08-01 | 中交第四航务工程勘察设计院有限公司 | 一种基于流程控制的知识管理方法及系统 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9501585B1 (en) * | 2013-06-13 | 2016-11-22 | DataRPM Corporation | Methods and system for providing real-time business intelligence using search-based analytics engine |
US20150256475A1 (en) * | 2014-03-05 | 2015-09-10 | Wipro Limited | Systems and methods for designing an optimized infrastructure for executing computing processes |
US10585875B2 (en) | 2016-04-06 | 2020-03-10 | International Businses Machines Corporation | Data warehouse model validation |
US10855706B2 (en) * | 2016-10-11 | 2020-12-01 | Battelle Memorial Institute | System and methods for automated detection, reasoning and recommendations for resilient cyber systems |
US11481603B1 (en) * | 2017-05-19 | 2022-10-25 | Wells Fargo Bank, N.A. | System for deep learning using knowledge graphs |
US20190130007A1 (en) * | 2017-10-31 | 2019-05-02 | International Business Machines Corporation | Facilitating automatic extract, transform, load (etl) processing |
US10521608B2 (en) * | 2018-01-09 | 2019-12-31 | Accenture Global Solutions Limited | Automated secure identification of personal information |
US20190287032A1 (en) * | 2018-03-16 | 2019-09-19 | International Business Machines Corporation | Contextual Intelligence for Unified Data Governance |
US10296524B1 (en) * | 2018-07-27 | 2019-05-21 | Accenture Global Solutions Limited | Data virtualization using leveraged semantic knowledge in a knowledge graph |
US10891321B2 (en) * | 2018-08-28 | 2021-01-12 | American Chemical Society | Systems and methods for performing a computer-implemented prior art search |
US11521077B1 (en) * | 2019-02-11 | 2022-12-06 | Digital.Ai Software, Inc. | Automatic recommendation of predictor variable values for improving predictive outcomes |
US11514498B2 (en) * | 2019-03-07 | 2022-11-29 | Beijing Jingdong Shangke Information Technology Co., Ltd. | System and method for intelligent guided shopping |
US11983636B2 (en) * | 2019-06-04 | 2024-05-14 | Accenture Global Solutions Limited | Automated analytical model retraining with a knowledge graph |
US11334593B2 (en) * | 2020-08-05 | 2022-05-17 | International Business Machines Corporation | Automated ETL workflow generation |
US20220122731A1 (en) * | 2020-08-21 | 2022-04-21 | Cambia Health Solutions, Inc. | Systems and methods for generating and delivering personalized healthcare insights |
JP2022065502A (ja) * | 2020-10-15 | 2022-04-27 | 株式会社日立製作所 | Etlワークフロー推奨装置、etlワークフロー推奨方法及びetlワークフロー推奨システム |
-
2020
- 2020-10-15 JP JP2020174125A patent/JP2022065502A/ja active Pending
-
2021
- 2021-09-20 US US17/478,983 patent/US11921737B2/en active Active
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024004351A1 (ja) * | 2022-06-30 | 2024-01-04 | 株式会社日立製作所 | プロセッサシステムおよび不具合診断方法 |
CN115905291A (zh) * | 2022-12-12 | 2023-04-04 | 广州南方智能技术有限公司 | 基于图的数据处理方法、装置及存储介质 |
CN115905291B (zh) * | 2022-12-12 | 2024-02-23 | 广州南方智能技术有限公司 | 基于图的数据处理方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US11921737B2 (en) | 2024-03-05 |
US20220121675A1 (en) | 2022-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11461348B2 (en) | Automated presentation of information using infographics | |
JP2022065502A (ja) | Etlワークフロー推奨装置、etlワークフロー推奨方法及びetlワークフロー推奨システム | |
Gudivada et al. | Data quality considerations for big data and machine learning: Going beyond data cleaning and transformations | |
US20160335260A1 (en) | Metric Recommendations in an Event Log Analytics Environment | |
Lim et al. | Business intelligence and analytics: Research directions | |
US9563920B2 (en) | Method, system and program product for matching of transaction records | |
de Murillas et al. | Case notion discovery and recommendation: automated event log building on databases | |
Aljumaili et al. | Metadata-based data quality assessment | |
JP2009265747A (ja) | マーケティング支援システム、マーケティング支援方法、マーケティング支援プログラム及びコンピュータ読み取り可能な媒体 | |
US10671631B2 (en) | Method, apparatus, and computer-readable medium for non-structured data profiling | |
Nethery et al. | Evaluation of the health impacts of the 1990 clean air act amendments using causal inference and machine learning | |
Lapura et al. | Development of a University Financial Data Warehouse and its Visualization Tool | |
JP6732084B1 (ja) | コンピュータプログラム、送信方法及び送信装置 | |
JP6383284B2 (ja) | サーバ装置、システム、情報処理方法、及びプログラム | |
Kaula | Business intelligence rationalization: A business rules approach | |
US9338062B2 (en) | Information displaying method and apparatus | |
AU2018214042A1 (en) | Information displaying method and apparatus | |
US20150112771A1 (en) | Systems, methods, and program products for enhancing performance of an enterprise computer system | |
Peng et al. | Latent subject-centered modeling of collaborative tagging: An application in social search | |
JP6152215B2 (ja) | 算出装置、算出方法及び算出プログラム | |
JP6067169B2 (ja) | 算出装置、算出方法及び算出プログラム | |
Malaverri | Supporting data quality assessment in eScience: a provenance based approach | |
Awasthi et al. | Principles Of Data Analytics | |
Patel et al. | Graph-Based Hybrid Recommendation Model to Alleviate Cold-Start and Sparsity Issue | |
Lutu | The importance of data quality assurance to the data analysis activities of the data mining process |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230202 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240409 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240730 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240906 |