JP2022065502A - Etlワークフロー推奨装置、etlワークフロー推奨方法及びetlワークフロー推奨システム - Google Patents

Etlワークフロー推奨装置、etlワークフロー推奨方法及びetlワークフロー推奨システム Download PDF

Info

Publication number
JP2022065502A
JP2022065502A JP2020174125A JP2020174125A JP2022065502A JP 2022065502 A JP2022065502 A JP 2022065502A JP 2020174125 A JP2020174125 A JP 2020174125A JP 2020174125 A JP2020174125 A JP 2020174125A JP 2022065502 A JP2022065502 A JP 2022065502A
Authority
JP
Japan
Prior art keywords
etl
workflow
information
etl workflow
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020174125A
Other languages
English (en)
Other versions
JP2022065502A5 (ja
Inventor
ガリマ ナタニ
Garima Natani
聡 渡辺
Satoshi Watanabe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020174125A priority Critical patent/JP2022065502A/ja
Priority to US17/478,983 priority patent/US11921737B2/en
Publication of JP2022065502A publication Critical patent/JP2022065502A/ja
Publication of JP2022065502A5 publication Critical patent/JP2022065502A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】ポリシー条件及びアクセス条件を遵守しつつ、所定のビジネスドメインに関するユーザ入力に基づいて、特定のタスクを実行するためのETLワークフローを推奨すること。【解決手段】少なくとも所定のビジネスドメインに関するETL情報をグラフ形式で示すETL知識グラフを含む全体知識グラフを格納するための知識データベースと、所定のビジネスドメインに関するユーザ入力を受け付け、ユーザ入力を、全体知識グラフを検索するためのグラフクエリーに変換する入力管理部と、グラフクエリーを用いて全体知識グラフを検索し、ユーザ入力に対するETLワークフローの候補を生成するETL推奨部と、ETLワークフローの候補を評価し、推奨するETLワークフローを示すETLワークフローレポートを出力する出力管理部と含むETLワークフロー推奨装置。【選択図】図18

Description

本開示は、ETLワークフロー推奨装置、ETLワークフロー推奨方法及びETLワークフロー推奨システムに関する。
近年、企業においては、社内及び社外に点在する情報を有効活用し、経営に役立てるため、必要な情報を1箇所に集約し蓄積することが求められている。これらの情報を蓄積するためのプログラムは、情報元となるデータソースの種類が多くなれば多くなるほど、各データソースに応じてプログラミングするための専門的な知識が求められ、膨大な開発工数が必要となる。
そこで、点在する情報を集約し、所定の要件を満たす形式に変換し、必要に応じて展開する手段として、いわゆるETL(Extract:抽出、Transform:変換、Load:Load)が知られている。ETLとは、無制限の数のソースからデータを収集して、1つにまとめ、単一リポジトリーに集約するプロセスである。ETLを用いることで、データソース毎に求められる高度な専門知識をツール側で吸収することができ、開発工数を大幅に削減することができる。
従来、ETLツールを用いて情報の管理を円滑にするいくつかの提案がなされている。
例えば、米国特許出願公開第2017/0293641号(特許文献1)には、「データウェアハウスモデル検証システムのためのシステム、方法、およびコンピュータプログラム製品に関し、当該データウェアハウスモデル検証システムは、ETLモデルとデータウェアハウスモデル全体で、ETL要素と関連するデータウェアハウス要素とで構成される要素グループを検索するための要素グループロケーターと、1つ以上の要素がデータウェアハウスモデルから欠落しているか、データウェアハウスモデルの1つ以上の要素が予期された要素又は要素の機能に対応していない状態で、ETL要素とデータウェアハウス要素間の不整合を判別するための不整合判別器と、検出された欠落要素または検出された要素グループからの予期しない要素を記録するための不整合レコーダーとを含む」手段が開示されている。
米国特許出願公開第2017/0293641号
特許文献1は、ETL要素とデータウェアハウス要素間の不整合を判別するための手段に関する。そして、特許文献1によれば、例えばETL処理によって構築されたデータウェアハウスを検証し、データの正確性及び一貫性を保証することができる。
しかし、特許文献1は、データの整合性を向上することに着目しており、ユーザからの要求に基づいて、所定のタスクを実行するためのETLワークフローを推奨することは想定されていない。
そこで、本開示は、所定のビジネスドメインに関するユーザ入力に基づいて、特定のタスクを実行するためのETLワークフローを推奨することで、企業にて行われるデータプレパレーション、データ洗浄、データ解析等のプロセスを効率化し、データの有効活用を促進する手段を提供することを目的とする。
上記の課題を解決するために、代表的な本開示のETLワークフロー推奨装置の1つは、
少なくとも所定のビジネスドメインに関するETL情報をグラフ形式で示すETL知識グラフを含む全体知識グラフを格納するための知識データベースと、前記所定のビジネスドメインに関するユーザ入力を受け付け、前記ユーザ入力を、前記全体知識グラフを検索するためのグラフクエリーに変換する入力管理部と、前記グラフクエリーを用いて前記全体知識グラフを検索し、前記ユーザ入力に対するETLワークフローの候補を生成するETL推奨部と、前記ETLワークフローの候補を評価し、推奨するETLワークフローを示すETLワークフローレポートを出力する出力管理部とを含む。
本開示によれば、所定のビジネスドメインに関するユーザ入力に基づいて、所定のタスクを実行するためのETLワークフローを推奨することで、企業にて行われるデータプレパレーション、データ洗浄、データ解析等のプロセスを効率化し、データの有効活用を促進する手段を提供することができる。
上記以外の課題、構成及び効果は、以下の発明を実施するための形態における説明により明らかにされる。
図1は、本開示の実施形態に係るETLワークフロー推奨装置の論理構成の一例を示す図である。 図2は、本開示の実施形態に係るETLワークフロー推奨装置における入力管理部の論理構成の一例を示す図である。 図3は、本開示の実施形態に係るETLワークフロー推奨装置におけるETL推奨部の論理構成の一例を示す図である。 図4は、本開示の実施形態に係る知識データベースに格納される全体知識グラフを構築する手段の一例を示す図である 図5は、本開示の実施形態に係るETLワークフロー推奨装置における出力管理部の論理構成の一例を示す図である。 図6は、本開示の実施形態に係るETLファイルの一例を示す図である 図7は、本開示の実施形態に係るETL知識グラフの一例を示す図である。 図8は、本開示の実施形態に係る人材データベースの一例を示す図である。 図9は、本開示の実施形態に係る人材知識グラフの一例を示す図である。 図10は、本開示の実施形態に係る類似度インデックスの一例を示す図である。 図11は、本開示の実施形態に係る目標、ドメイン、及び役割の対応関係情報の一例を示す図である。 図12は、本開示の実施形態に係るデータカタログファイルの一例を示す図である。 図13は、本開示の実施形態に係るファイル知識グラフの一例を示す図である。 図14は、本開示の実施形態に係る組織ファイルの一例を示す図である。 図15は、本開示の実施形態に係る組織知識グラフを示す図である。 図16は、本開示の実施形態に係る全体知識グラフの一例を示す図である。 図17は、本開示の実施形態に係るETLワークフロー推奨システムの一例を示す図である。 図18は、本開示の実施形態に係るETLワークフロー推奨方法の一例を示す図である。 図19は、本開示の実施形態に係る知識データベースを更新する際の処理の一例を示す図である。 図20は、本開示の実施形態に係る新規ETLワークフロー作成方法の一例を示す図である。 図21は、本開示の実施形態に係る認証画面の一例を示す図である。 図22は、本開示の実施形態に係るユーザ入力画面の一例を示す図である。 図23は、本開示の実施形態に係るユーザクエリー作成画面の一例を示す図である。 図24は、本開示の実施形態に係る参照用ファイルアップロード画面の一例を示す図である 図25は、本開示の実施形態に係る推奨ETLワークフロー画面の一例を示す図である。 図26は、本開示の実施形態を実施するためのコンピュータシステムを示す図である。
以下、図面を参照して、本開示の実施形態について説明する。なお、この実施形態により本開示が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
企業にとっては、様々なビジネスに関する情報を集約し、必要な情報を素早くアクセスすることが重要である。一方、近年では、世界各国でデータのセキュリティ性及び安全性を向上する施策として、Data Localization Policy、General Data Protection Regulation等、データの保管、使用、及び共有の規制が施行されている。これにより、データへのアクセスが制限されることがあり、特定のデータについて課されるポリシー条件及びアクセス条件を遵守つつ、必要な情報を必要な時に入手したり、共有したり、提供したりすることが困難となることがある。
そこで、本開示は、所定のビジネスドメインに関するユーザ入力に基づいて、ポリシー条件及びアクセス条件を遵守しつつ、所定のタスクを行うために必要なデータ処理(抽出、変換、ロード)を実行するためのETLワークフローを推奨することに関する。
本開示に係るETLワークフロー推奨装置は、自然言語から構成されたユーザクエリー、所定のビジネス用語、所望のETLワークフロー-の目標、及び参照用ファイルの内、少なくとも1つを含むユーザ入力を受け付けた場合、当該ユーザ入力を、ETL情報、人材情報、組織情報、及びファイル情報を含む全体知識グラフを検索するためのグラフクエリーに変換する。
その後、当該グラフクエリーを用いて全体知識グラフを検索することで、ユーザ入力に対して適切なETLワークフローの候補を判定することができる。また、判定したETLワークフローをセキュリティ性、データ品質、コスト効率等の基準に基づいて評価し、所定のポリシー条件及びアクセス条件を満たさないものを候補から除外することで、ユーザのタスクに適したETLワークフローを推奨することができる。
これにより、企業にて行われるデータプレパレーション、データ洗浄、データ解析等のプロセスを効率化し、データの有効活用を促進することができる。
まず、図1を参照して、本開示の実施形態に係るETLワークフロー推奨装置の論理構成について説明する。
図1は、本開示の実施形態に係るETLワークフロー推奨装置100の論理構成の一例を示す図である。図1に示すように、本開示の実施形態に係るETLワークフロー推奨装置100は、主に、入力管理部101と、ETL推奨部102と、知識データベース(DB)103と、出力管理部104とを含む。
知識データベース103は、少なくとも所定のビジネスドメインに関するETL情報を用いて構築されるETL知識グラフを含む全体知識グラフを格納するためのデータベースである。ここでのビジネスドメインとは、事業が係る分野であり、例えば保険、不動産、IT、エネルギー等、任意の分野を含む。
入力管理部101は、ビジネスドメインに関するユーザ入力を受け付け、ユーザ入力を、知識データベース103に格納される全体知識グラフを検索するためのグラフクエリーに変換するための機能部である。
ETL推奨部102は、入力管理部101から得られたグラフクエリーを用いて知識データベース103に格納される全体知識グラフを検索し、ユーザ入力に対するETLワークフローの候補を生成するための機能部である。
出力管理部104は、ETL推奨部102によって生成されたETLワークフローの候補を評価し、推奨のETLワークフローを示すETLワークフローレポートを出力するための機能部である。
なお、これらの機能部の詳細については後述する。
次に、図2を参照して、本開示の実施形態に係るETLワークフロー推奨装置における入力管理部の論理構成について説明する。
図2は、本開示の実施形態に係るETLワークフロー推奨装置100における入力管理部101の論理構成の一例を示す図である。図2に示すように、本開示の実施形態に係るETLワークフロー推奨装置100における入力管理部101は、主にユーザ認証部201、ユーザ入力表示部202、抽出部203、ユーザクエリー生成部206、及び参照用ファイルアップロード部210とを含む。
ユーザ認証部201は、本開示の実施形態に係るETLワークフロー推奨装置100のユーザの認証処理を管理するための機能部である。ユーザ認証部201は、後述する認証画面(図21に示す認証画面2100参照)に対してユーザが入力したメールアドレスやパスワード等の認証情報を検証し、ETLワークフロー推奨装置100の機能へのアクセスを制御することで、登録済みのユーザのみに対してアクセスを付与することができる。
ユーザ入力表示部202は、ユーザによって入力された情報(メールアドレスやパスワード等の認証情報、ユーザクエリー等)を確認するための表示部である。ユーザ入力表示部202は、例えばETLワークフロー推奨装置100に接続されている外部のディスプレイに表示される画面であってもよい。ユーザ入力表示部202は、ユーザによる入力や変更に応じてリアルタイムで更新される。
抽出部203は、ユーザによって入力される入力情報の中から、推奨のETLワークフローの判定に用いられる情報を抽出するための機能部である。図2に示すように、抽出部203は、目標抽出部204と、ビジネス用語抽出部205とを含む。
目標抽出部204は、ETLワークフロー推奨装置100に予め保存されるETLファイル(例えば図4に示すETLファイル401)に関連するETL目標(例えば、ユーザによって指定された目標)を抽出するための機能部である。例えば、ETLワークフロー推奨装置100に予め保存されるETLファイルにおいて、「データ確実性を向上」や「処理性能向上」等のETL目標が保存されている場合には、目標抽出部204は、これらのETL目標の情報を抽出し、ユーザ入力表示部202に表示する(図22に示すユーザ入力画面2200参照)。
ビジネス用語抽出部205は、ETLワークフロー推奨装置100に予め保存される組織ファイル(例えば、図4に示す組織ファイル404)において、特定の組織において特有のビジネス用語及びその定義に関する情報を抽出するための機能部である。例えば、ETLワークフロー推奨装置100に予め保存される組織ファイルにおいて、「注文」や「純売上高」のビジネス用語について特有の定義が定められている場合、ビジネス用語抽出部205は、これらのビジネス用語及びその定義を抽出し、ユーザ入力表示部202に表示する。
ユーザクエリー生成部206は、ユーザクエリーを生成するための機能部である。ここでのユーザクエリーとは、ユーザによって作成され、所定のビジネスドメインに関する自然言語の質問である。このユーザクエリーは、例えば所定のタスクに必要な情報を取得するための要求であってもよい。一例として、ここでのユーザクエリーは、「過去3カ月の注文と純売上高は何ですか?」であってもよい。後述するように、このユーザクエリーは、推奨のETLワークフローの判定に用いられる。
また、図2に示すように、ユーザクエリー生成部206は、クエリー表示部207、フィルタ部208、及びビジネス用語検索部209とを含む。
クエリー表示部207は、ユーザによって作成されるユーザクエリーを表示するための表示部であり、例えばETLワークフロー推奨装置100に接続されている外部のディスプレイに表示される画面であってもよい。
フィルタ部208は、ユーザクエリーを作成する際に、当該ユーザクエリーの結果を絞るためのフィルタを設定するための機能部である。例えば、フィルタ部208は、所定の期間を指定するための時間フィルタ、結果をグループ毎に分類するためのグループフィルタ等を含んでもよい。
ビジネス用語検索部209は、ユーザに作成されるユーザクエリーにおけるビジネス用語に対応するタグ等のメタデータを検索し、ユーザのクエリーに添付するための機能部である。ビジネス用語に対応するタグを検索し、ユーザのクエリーに添付することで、ユーザのクエリーに対するより良好な結果を得ることができる。
参照用ファイルアップロード部210は、参照用ファイルをユーザクエリーと共にアップロードするための機能部である。ここでの参照用ファイルとは、推奨のETLワークフローを判定する際に用いられるファイルであり、ユーザクエリーの代わりにアップロードされてもよく、ユーザクエリーと共にアップロードされてもよい。一例として、参照用ファイルは、例えばユーザが所望するETLワークフローによって出力されるファイルの形式と同様の形式のファイルや、ユーザが所望するETLワークフローによって出力されるデータ内容と同様の内容を有するファイルであってもよい。
また、図2に示すように、参照用ファイルアップロード部210は、データプロフィール部211と、ファイル管理部212とを含む。
データプロフィール部211は、参照用ファイルやETLワークフロー推奨装置100に格納されているファイル(例えば、ユーザがアップロードした参照用ファイルと類似度が高いファイル)に関するデータプロフィールを取得するための機能部である。例えば、データプロフィール部211は、ユーザがアップロードした参照用ファイルについて、作成者の情報、作成日時の情報、使用頻度の情報、使用形態の情報、評価の情報、統計情報、分布情報、他のファイルとの関係性(所定のビジネスルールへの追随性)等の情報をメタデータプロフィールとして取得してもよい。
ファイル管理部212は、データプロフィール部211によって取得されたデータプロフィールの情報を確認したり、管理したりするための機能部である。例えば、ユーザは、ファイル管理部212を介して、データプロフィール部211によって取得されたデータプロフィールを閲覧したり、保存したり、編集したりしてもよい。
以上説明したような構成を有する入力管理部101によれば、推奨のETLワークフローを生成する際に用いられる各種情報を取得することができる。
次に、図3を参照して、本開示の実施形態に係るETLワークフロー推奨装置におけるETL推奨部の論理構成について説明する。
図3は、本開示の実施形態に係るETLワークフロー推奨装置100におけるETL推奨部102の論理構成の一例を示す図である。
図3に示すように、本開示の実施形態に係るETLワークフロー推奨装置100におけるETL推奨部102は、ユーザ入力分類部361、グラフクエリー変換部364、ETL検索部365、アクセス及びポリシー制御部366、ETL生成部371、全体スコア生成部379、知識データベース構築及び更新部383、ETL結果分類部384、及びグラフクエリー補正部385を主に含む。
ユーザ入力分類部361は、上述した入力管理部101を介して入力されたユーザ入力を分類し、情報の種類に応じて適切な処理を実行するための機能部である。例えば、ユーザ入力分類部361は、入力管理部101を介して入力されたユーザ入力が自然言語のユーザクエリーか参照用ファイルかを判定することができる。入力管理部101を介して入力されたユーザ入力が自然言語によって構成されたユーザクエリーである場合には、ユーザ入力分類部361は、セマンティック解釈部362による処理を実行する。一方、上述した入力管理部101を介して入力されたユーザ入力が参照用ファイルの場合には、ユーザ入力分類部361は、ファイル類似度管理部363による処理を実行する。
セマンティック解釈部362は、入力管理部101を介して入力されたユーザ入力がユーザクエリーの場合、当該ユーザクエリーに対する自然言語処理を施し、ユーザクエリーの意味を判定するための機能部である。ここでは、セマンティック解釈部362は、既存の自然言語手段を用いてもよく、ユーザクエリーの意味を正確に判定できる手段であれば特に限定されない。一例として、「過去3カ月の注文と純売上高は何ですか?」とのユーザクエリーの場合には、セマンティック解釈部362は、「注文」や「純売上高」等のビジネス用語を抽出し、後述する組織知識グラフに基づいて抽出したビジネス用語の当該組織における意味を判定することでユーザクエリーによって求められている情報を特定してもよい。
ファイル類似度管理部363は、入力管理部101を介して入力されたユーザ入力が参照用ファイルの場合には、アップロードされた参照用ファイルに対する所定の類似度基準を満たすファイルを、ETLワークフロー推奨装置100に予め保存されるファイルの中から選択する。ここで、アップロードされた参照用ファイルと、ETLワークフロー推奨装置100に予め保存されるファイルとの類似度を計算するためには、ファイル類似度管理部363は、アップロードされた参照用ファイルと、ETLワークフロー推奨装置100に予め保存されるファイルとのデータプロフィールを比較してもよい。
一例として、ファイル類似度管理部363は、それぞれのファイルのビジネス用語、統計情報、作成者情報、作成日時情報等のデータプロフィールを比較し、データプロフィールが一致する場合にはより高い類似度として、データプロフィールが一致しない場合にはより低い類似度としてもよい。
グラフクエリー変換部364は、上述した入力管理部101を介して入力されたユーザ入力を、後述する全体知識グラフを検索するためのグラフクエリーに変換する機能部である。一例として、ユーザクエリーが特定のビジネス用語を含む場合、グラフクエリー変換部364は、このユーザクエリーを、当該ビジネス用語を含むETLワークフローを検索するためのグラフクエリーに変換してもよい。
ETL検索部365は、グラフクエリー変換部364によって変換されたグラフクエリーを用いて、後述する全体知識グラフ(例えば、図4に示す全体知識グラフ450)を検索することで、当該グラフクエリーに対するETLワークフローの候補を取得するための機能部である。
アクセス及びポリシー制御部366は、ETL検索部365によって取得されたETLワークフローの候補が所定のアクセス条件及びポリシー条件を満たすか否かを判定するための機能部である。ETL検索部365によって取得されたETLワークフローの候補が所定のアクセス条件及びポリシー条件のいずれかを満たさない場合には、アクセス及びポリシー制御部366は、当該ETLワークフローをETLワークフローの候補から削除する。
図3に示すように、アクセス及びポリシー制御部366は、アクセス検証部367、ポリシー検証部368、結果補正部369、及びポリシー更新部370を含む。
アクセス検証部367は、ETLワークフローのアクセス条件として、ETLワークフロー推奨装置100のユーザが、ETL検索部365によって取得されたETLワークフローにアクセスする権限があるか否かを検証するための機能部である。ここでの検証は、例えばユーザが入力した認証情報等に基づいて行われてもよい。
ポリシー検証部368は、ETLワークフローのポリシー条件として、ETL検索部365によって取得されたETLワークフローが所定のポリシー(ローカリゼーションポリシー、セキュリティポリシー等)を満たすか否かを検証するための機能部である。
結果補正部369は、上述したアクセス条件又はポリシー条件のいずれかを満たさないETLワークフローを、ETLワークフローの候補から削除するための機能部である。例えば、結果補正部369は、ユーザが、ETL検索部365によって取得されたETLワークフローにアクセスする権限がない場合には、当該ETLワークフローをETLワークフローの候補から削除する。また、ETL検索部365によって取得されたETLワークフローが所定のポリシー条件を満たさない場合には、結果補正部369は、当該ETLワークフローをETLワークフローの候補から削除する。
ポリシー更新部370は、上述したアクセス条件又はポリシー条件を更新するための機能部である。ポリシー更新部370は、例えばアクセス条件及びポリシー条件を指定するデータベースをモニターし、当該データベースにおけるアクセス条件及びポリシー条件に対する変更があった場合、アクセス及びポリシー制御部366で用いられるアクセス条件及びポリシー条件を当該変更に合わせて更新してもよく、ユーザによる直接的な変更指示に合わせてアクセス条件及びポリシー条件を更新してもよい。
ETL生成部371は、上述したETL検索部365による検索の結果、グラフクエリーに対するETLワークフローの候補が見つからなかった場合に、新規のETLワークフローを生成するための機能部である。図3に示すように、ETL生成部371は、セマンティック解釈部372、クエリー生成部373、論理プラン生成部374、ファイル検索部375、実行ファイル生成部376、特徴推定部377、及びアクセス及びポリシー制御部378を含む。
セマンティック解釈部372は、上述した入力管理部101を介して入力されたユーザクエリーに対する自然言語処理を施し、ユーザクエリーの意味を判定するための機能部である。ここでのセマンティック解釈部372は、上述したセマンティック解釈部362と実質的に同様であるため、ここではその説明を省略する。
クエリー生成部373は、セマンティック解釈部372の処理の結果に基づいて、後述するファイル知識グラフ(例えば、図4に示すファイル知識グラフ411)を検索するためのクエリーを生成する。
ファイル検索部375は、クエリー生成部373によって生成されたクエリーを用いて、ファイル知識グラフ(例えば、図4に示すファイル知識グラフ411)を検索することで、当該クエリーに関連するファイルを取得する。
アクセス及びポリシー制御部378は、ファイル検索部375よって取得されたファイルが所定のアクセス条件及びポリシー条件を満たすか否かを判定するための機能部である。ここでのアクセス及びポリシー制御部378は、上述したアクセス及びポリシー制御部366と実質的に同様であるため、ここではその説明を省略する。
論理プラン生成部374は、ファイル検索部375によって取得されたファイルに基づいて、複数の処理を連結してなる論理プランを新規のETLワークフローとして生成するための機能部である。
実行ファイル生成部376は、論理プラン生成部374によって生成された論理プランの各種処理を実行するための実行ファイル(.exeファイル等)を生成するための機能部である。
特徴推定部377とは、論理プラン生成部374によって生成された新規のETLワークフローによる処理性能やデータ品質等の各種パラメータを推定するための機能部である。
一例として、「過去3カ月の注文と純売上高は何ですか?」とのクエリーがあった場合、セマンティック解釈部372は当該ユーザクエリーを分析した結果、「3カ月」の期間における「注文」及び「純売上高」の情報の出力が求められていることを判定した後、クエリー生成部373は、「注文」及び「純売上高」の情報を含むファイルを検索するためのクエリーを生成する。
その後、ファイル検索部375は、検索結果として、「Order_detail_feb.csv」、「Order_detail_jan.csv」、「Sales data.csv」、「Order status.csv」を取得し、「過去3カ月」との期間に対応しないファイルを除外する。アクセス及びポリシー制御379は、取得したファイルが所定のアクセス条件及びポリシー条件を満たすか否かを検証する。アクセス条件及びポリシー条件の両方が満たされる場合、論理プラン生成部374は、これらのファイルに基づいて論理プランを生成した後、実行ファイル生成部376は実行ファイルを生成する。
全体スコア生成部379は、ETLワークフローを評価し、当該ETLワークフローの、ユーザ入力に対する適正を定量的に示す尺度として全体スコアを生成するための機能部である。全体スコア生成部379は、目標、役割、及びドメイン対応関係情報380、類似度インデックス381、及び特徴推定部によって推定されるETL特徴382に基づいて全体スコアを生成してもよい。また、全体スコア生成部379は、これらの情報に加えて、データ品質、性能、コスト効率、セキュリティ性、使用性、適用性等を考慮してもよい。
知識データベース構築及び更新部383は、例えば図1に示す知識データベース103を構築し、必要に応じて更新するための機能部である。知識データベース103を構築するために、知識データベース構築及び更新部383は、ETLファイルからETL情報を抽出し、ETL知識グラフを生成するETL情報管理部と、人材データベースから人材情報を抽出し、人材知識グラフを生成する人材情報管理部と、データカタログファイルからファイル情報を抽出し、ファイル知識グラフを生成するファイル情報管理部と、組織ファイルから組織情報を抽出し組織知識グラフを生成する組織情報管理部と、これらの知識グラフを集約する知識集約部を備えてもよい(図4参照)。
また、知識データベース構築及び更新部383は、例えばETLワークフロー推奨装置100に新しいデータ(ETLファイル、人材データベース、データカタログファイル、組織ファイル)が追加される度に、追加した情報に基づいて知識データベース(つまり、知識データベースに含まれる全体知識グラフ)を更新してもよい。
ETL結果分類部384は、全体スコア生成部379によって評価されたETLワークフローの候補を、全体スコアに基づいて分類する(例えば、全体スコアが高い順に並べる等)ための機能部である。
グラフクエリー補正部385は、例えばETL検索部365による検索の結果、ETLワークフローが見つからなかった場合に、グラフクエリーを(ユーザの入力等に基づいて)補正するための機能部である。
以上説明したような構成を有するETL推奨部102によれば、所定のビジネスドメインに関するユーザ入力に基づいて、特定のタスクを実行するためのETLワークフローを推奨することができる。
次に、図4を参照して、本開示の実施形態に係る知識データベースに格納される全体知識グラフを構築する手段について説明する。
図4は、本開示の実施形態に係る知識データベース103に格納される全体知識グラフ450を構築する手段の一例を示す図である。
図4に示すように、本開示の実施形態に係る知識データベース103に格納される全体知識グラフ450は、ETLファイル401から抽出されるETL情報によって生成されるETL知識グラフ409と、人材データベース402から抽出される人材情報によって生成される人材知識グラフ410と、データカタログファイル403から抽出されるファイル情報によって生成されるファイル知識グラフ411と、組織ファイル404から抽出される組織情報によって生成される組織知識グラフ412とを集約することで構築され、ユーザからのユーザ入力に対する推奨のETLワークフローを判定するために用いられるグラフ形式のデータ構造である。
ETL情報、人材情報、ファイル情報、及び組織情報等を全体知識グラフのようなグラフ形式で表現することにより、例えば複雑なクエリー作成や複数のテーブルの結合が求められるいわゆる関係データベース(Relational Database)に比べて、必要な情報を取得する処理を向上させることができる。
ETL情報管理部405は、ETLワークフロー推奨装置100に予め保存されるETLファイル401から、ETLワークフローのステップの情報、作成者の情報、及びメタデータ等をETL情報として抽出し、抽出した情報からETL知識グラフ409を生成する。一例として、入力ステップ、データ変換ステップ、及び出力ステップを含むETLファイル401の場合、ETL情報管理部405は、これらのステップと共に、ETLファイル401の作成者の情報、メタデータ、データ品質(データ正確性、データ完成度、データフレッシュネ、データ一貫性、データ解釈性等から計算できる)、性能、コスト効率、セキュリティ性、データで器用性、データ使用性、データ管理性、ETL目標等を抽出した後、ETL知識グラフ409を生成してもよい。
なお、ETL知識グラフ409の一例を、図7を参照して説明する。
人材情報管理部406は、ETLワークフロー推奨装置100に予め保存される人材データベース402から、人材の識別情報、役割情報、勤務場所情報、部署情報、及び専門分野情報等を人材情報として抽出し、抽出した情報から人材知識グラフ410を生成する。一例として、人材情報管理部406は、特定の人材を識別するためのID及び氏名、データサイエンティストやデータ分析等の役割、東京やニューヨーク等の人材の勤務場所、データサイエンスやデータ収集等の部署、及びML-SVMやAnalytics等の専門分野等の人材情報から人材知識グラフ410を生成してもよい。
なお、人材知識グラフ410の一例を、図9を参照して説明する。
ファイル情報管理部407は、ETLワークフロー推奨装置100に予め保存されるデータカタログファイル403から、所定のビジネスドメインに関する注文や売り上げ等の情報をファイル情報として抽出し、抽出した情報からファイル知識グラフ411を生成する。一例として、「OrderDetails.csv」とのファイル名、「User1」との作成者情報、「注文ID」や「注文詳細」等のファイル内容、ファイルの作成日時、ファイルの評価等のファイル情報からファイル知識グラフ411を生成してもよい。
なお、ファイル知識グラフ411の一例を、図13を参照して説明する。
組織情報管理部408は、組織ファイル404から、組織の構成、従業員数、特定のビジネス用語の定義等を組織情報として抽出し、抽出した情報から組織知識グラフ412を生成する。一例として、「注文」及び「純売上高」のビジネス用語等の組織情報から組織知識グラフ412を生成してもよい。
なお、組織知識グラフ412の一例を、図15を参照して説明する。
ETL知識グラフ409、人材知識グラフ410、ファイル知識グラフ411、及び組織知識グラフ412が生成された後、知識集約部413は、ETL知識グラフ409、人材知識グラフ410、ファイル知識グラフ411、及び組織知識グラフ412を集約し、全体知識グラフ450を生成する。上述したように、この全体知識グラフ450は知識データベース103に格納され、ユーザからのユーザ入力に対する推奨のETLワークフローを判定するために用いられる。
次に、図5を参照して、本開示の実施形態に係るETLワークフロー推奨装置における出力管理部の論理構成について説明する。
図5は、本開示の実施形態に係るETLワークフロー推奨装置100における出力管理部104の論理構成の一例を示す図である。図5に示すように、本開示の実施形態に係るETLワークフロー推奨装置100における出力管理部104は、表示部501、保存管理部506、及びスコア更新部508を主に含む。
表示部501は、推奨のETLワークフローを示すETLワークフローレポートを表示するための機能部である。表示部501は、例えばETLワークフロー推奨装置100に接続されている外部ディスプレイ等であってもよい。また、図5に示すように、表示部501は、フィルタ表示部502、スコア表示部503、ETLスクリプト可視化部504、及びパラメータ更新部505とを含む。
フィルタ表示部502は、推奨のETLワークフローに関するKPI(Key Performance Indicator)パラメータをフィルタするための機能部である。フィルタ表示部502によれば、ユーザは、推奨のETLワークフローに関するKPIパラメータの重み付けを確認したり、調整したりすることができる。
スコア表示部503は、推奨のETLワークフローについて計算された評価スコアを表示するための機能部である。
ETLスクリプト可視化部504は、推奨のETLワークフローの流れを可視化し、表示するための機能部である。
パラメータ更新部505は、ユーザが調整したKPIパラメータに応じて、推奨のETLワークフローの結果を更新するための機能部である。
以上説明したような構成を有する出力管理部104によれば、ユーザは、推奨のETLワークフローを示すETLワークフローレポートを容易に確認することができる。
次に、図6を参照して、本開示の実施形態に係るETLファイルの一例について説明する。
図6は、本開示の実施形態に係るETLファイル401の一例を示す図である。
上述したように、本開示の実施形態に係る全体知識グラフは、ETL情報、人材情報、データカタログファイル、及び組織情報に基づいて生成される。ここでのETL情報とは、ETLワークフロー推奨装置100に予め格納されているETLファイル401から抽出される情報であり、例えば、ETLワークフローにおけるステップの情報、作成者情報、メタデータ情報等を含んでもよい。
一例として、図6に示すETLファイル401は、ETLワークフローにおけるステップの情報、作成者情報、及びメタデータ情報を含む。これらの情報は、ETL情報としてETLファイル401から抽出され、全体知識グラフに含まれるETL知識グラフを作成する際に用いられる。
次に、図7を参照して、本開示の実施形態に係るETL知識グラフの一例について説明する。
図7は、本開示の実施形態に係るETL知識グラフ409の一例を示す図である。ここでのETL知識グラフ409とは、ETLファイルから抽出したETL情報をグラフ形式で表現するためのデータ構造であり、上述したように、ユーザ入力に対する推奨のETLワークフローを生成する際に用いられる全体知識グラフの一部である。
図7に示すETL知識グラフ409は、図6を参照して上述したETLファイル401から抽出されたETL情報に基づいて生成されたETL知識グラフである。図7に示すように、ETL知識グラフ409では、ETLファイル401から抽出されたETL情報の各要素は、他方の要素との関係に応じて、個別のグラフノードとして表現される。例えば、図7に示すように、ETLワークフローのステップ、作成者の情報、目標情報、及びメタデータ等がグラフ形式で表現されている。
上述したように、このETL知識グラフ409は、人材知識グラフ、ファイル知識グラフ、及び組織知識グラフと結合することにより、ユーザ入力に対する推奨のETLワークフローを生成する際に用いられる全体知識グラフを構築することができる。
次に、図8を参照して、本開示の実施形態に係る人材データベースの一例について説明する。
図8は、本開示の実施形態に係る人材データベース402の一例を示す図である。
上述したように、本開示の実施形態に係る全体知識グラフは、ETL情報、人材情報、データカタログファイル、及び組織情報に基づいて生成される。ここでの人材情報とは、所定のビジネスドメインに関連する組織(企業等)に属する人材に関する情報であり、例えば識別情報、役割情報、勤務場所情報、部署情報、及び専門分野情報等を含んでもよい。この人材情報は、例えば所定の人材データベース402から抽出されてもよい。
一例として、図8に示す人材データベース402は、特定の人材を識別するためのID801及び氏名802、データサイエンティストやデータ分析等の役割803、東京やニューヨーク等の人材の勤務場所804、データサイエンスやデータ収集等の部署805、及びML-SVMやAnalytics等の専門分野806を含んでもよい。これらの情報は、人材情報として人材データベース402から抽出され、全体知識グラフに含まれる人材知識グラフを作成する際に用いられる。
次に、図9を参照して、本開示の実施形態に係る人材知識グラフの一例について説明する。
図9は、本開示の実施形態に係る人材知識グラフ410の一例を示す図である。ここでの人材知識グラフ410とは、人材データベース(例えば、図8に示す人材データベース402)から抽出した人材情報をグラフ形式で表現するためのデータ構造であり、上述したように、ユーザク入力に対する推奨のETLワークフローを生成する際に用いられる全体知識グラフの一部である。
図9に示す人材知識グラフ410は、図8を参照して上述した人材データベース402から抽出された人材情報に基づいて生成された人材知識グラフである。図9に示すように、人材知識グラフ410では、人材データベース402から抽出された人材情報の各要素は、他方の要素との関係に応じて、個別のグラフノードとして表現される。例えば、図9に示すように、特定の人材を識別するためのID及び氏名、データサイエンティストやデータ分析等の役割、東京やニューヨーク等の人材の勤務場所、データサイエンスやデータ収集等の部署、及びML-SVMやAnalytics等の専門分野等がグラフ形式で表現されている。
上述したように、この人材知識グラフ410は、ETL知識グラフ、ファイル知識グラフ、及び組織知識グラフと結合することにより、ユーザクエリーに対する推奨のETLワークフローを生成する際に用いられる全体知識グラフを構築することができる。
次に、図10を参照して、本開示の実施形態に係る類似度インデックスの一例について説明する。
図10は、本開示の実施形態に係る類似度インデックス381の一例を示す図である。上述したように、本開示の実施形態に係るETLワークフロー推奨装置100は、ETLワークフローを評価する際に、目標、役割、及びドメイン対応関係情報380、類似度インデックス381、及びETL特徴382に基づいてETLワークフローの全体スコアを
生成してもよい。
図10には、類似度インデックス381の一例が示される。ここでは、類似度インデックス381は、異なる人材の類似度を示すデータファイルである。図10に示すように、類似度インデックス381では、複数の人材(例えば、人材データベース402に情報が格納されている人材)の類似度は、勤務場所、専門分野、役割、及び部署に基づいて計算されており、勤務場所類似度1001、専門分野類似度1002、役割類似度1003、及び部署類似度1004として示されている。
ここでは、人材の類似度は、勤務場所、専門分野、役割、及び部署等の各カテゴリー毎に、図3に示す全体スコア生成部379によって実行される所定のアルゴリズムで計算されてもよい。例えば、役割類似度1003に示されるように、「データサイエンティスト」と「ソフトウエアエンジニア」との役割は「0.6」の類似度スコアとなり、「データサイエンティスト」と「データ分析」との役割は「0.85」の類似度スコアとなってもよい。もう一例として、勤務場所類似度1001に示されるように、「東京」と「大阪」との勤務場所は「0.9」の類似度スコアとなり、「東京」と「ニューヨーク」との勤務場所は「0.6」の類似度スコアとなってもよい。
特定の人材の全体の類似度スコアは、勤務場所類似度1001、専門分野類似度1002、役割類似度1003、及び部署類似度1004の平均値としてもよい。一例として、「東京」における組織の「データサイエンス」部署に所属し、ML-SVMを専門分野とするデータサイエンティストである人材Aと、「ニューヨーク」における組織の「収集」部署に所属し、ML-SVMを専門分野とするデータサイエンティストである人材Bとの全体の類似度を計算した場合、「0.85」との類似度となる((1+0.6+0.8+1)/4 =0.85))。
上述したように、この人材の類似度インデックス381は、ETLワークフローを評価する際に用いられてもよい。
次に、図11を参照して、本開示の実施形態に係る目標、役割、及び役割の対応関係情報の一例について説明する。
図11は、本開示の実施形態に係る目標、ドメイン、及び役割の対応関係情報の一例を示す図である。上述したように、本開示の実施形態に係るETLワークフロー推奨装置100は、ETLワークフローを評価する際に、目標、役割、およびドメインの対応関係情報380、類似度インデックス381、及びETL特徴382に基づいてETLワークフローの全体スコアを生成してもよい。
図11には、目標、役割、及びドメインの対応関係情報380の一例が示される。ここでは、目標、役割、及びドメインの対応関係情報380は、ETLファイルの目標1101と、人材の専門分野1102及び役割1103の対応関係を示す情報である。目標、役割、及びドメインの対応関係情報380によれば、例えばETLファイルの目標が指定されていない場合や、人材が組織を退社したため当該人材の専門分野や役割が特定できない場合に、目標、役割、及びドメインの対応関係情報380に示されている目標1101、専門分野1102、及び役割1103の対応関係から、欠落している情報を推定することができる。
一例として、ある組織に所属する人材が「データ品質を向上」との目標を有するETLファイルを作成した後、組織を退社したため、当該人材の専門分野や役割等の情報が特定できない場合には、目標、役割、及びドメインの対応関係情報380から、「データ品質を向上」との目標から、当該人材の専門分野が「ML-SVM」であり、役割が「データサイエンティスト」であることを推定できる。このように、上述した類似度インデックス381を作成する際に、例えばETLファイルの目標が指定されていない場合や、人材が組織を退社したため当該人材の専門分野や役割が特定できない場合であっても、欠落している情報を推定し、類似度インデックス381を作成することができる。
次に、図12を参照して、本開示の実施形態に係るデータカタログファイルの一例について説明する。
図12は、本開示の実施形態に係るデータカタログファイル403の一例を示す図である。上述したように、本開示の実施形態に係る全体知識グラフは、ETL情報、人材情報、ファイル情報、及び組織情報に基づいて生成される。ここでのファイル情報とは、所定のビジネスドメインに関する、ETLワークフロー推奨装置100に予め格納されているデータカタログファイルに関する情報であり、例えば所定のビジネスドメインに関する注文や売り上げの情報等を含んでもよい。このファイル情報は、例えばETLワークフロー推奨装置100に予め格納されているデータカタログファイル403から抽出されてもよい。
一例として、図12に示すデータカタログファイル403は、「OrderDetails.csv」、「Order.csv」、「Sales.csv」等のファイル名1201、User1等のファイル作成者1202、「注文ID」や「注文詳細」等の、ファイルに含まれる内容1203、ファイルの作成日時1204、ファイルの評価1205等の情報を含んでもよい。これらの情報は、ファイル情報としてデータカタログファイル403から抽出され、全体知識グラフに含まれるファイル知識グラフを作成する際に用いられる。
次に、図13を参照して、本開示の実施形態に係るファイル知識グラフの一例について説明する。
図13は、本開示の実施形態に係るファイル知識グラフ411の一例を示す図である。ここでのファイル知識グラフ411とは、データカタログファイル(例えば、図12に示すデータカタログファイル403)から抽出したファイル情報をグラフ形式で表現するためのデータ構造であり、上述したように、ユーザ入力に対する推奨のETLワークフローを生成する際に用いられる全体知識グラフの一部である。
図13に示すファイル知識グラフ411は、図12を参照して上述したデータカタログファイル403から抽出されたファイル情報に基づいて生成されたファイル知識グラフである。図13に示すように、ファイル知識グラフ411では、データカタログファイル403から抽出されたファイル情報の各要素は、他方の要素との関係に応じて、個別のグラフノードとして表現される。例えば、図13に示すように、「OrderDetails.csv」、「Order.csv」、「Sales.csv」等のファイル名、User1等のファイル作成者、「注文ID」や「注文詳細」等の、ファイルに含まれる内容、ファイルの作成日時、ファイルの評価等がグラフ形式で表現されている。
上述したように、このファイル知識グラフ411は、ETL知識グラフ、人材知識グラフ、及び組織知識グラフと結合することにより、ユーザ入力に対する推奨のETLワークフローを生成する際に用いられる全体知識グラフを構築することができる。
次に、図14を参照して、本開示の実施形態に係る組織ファイル404の一例について説明する。
図14は、本開示の実施形態に係る組織ファイル404の一例を示す図である。上述したように、本開示の実施形態に係る全体知識グラフは、ETL情報、人材情報、ファイル情報、及び組織情報に基づいて生成される。ここでの組織情報とは、
所定のビジネスドメインにおいて、特定の組織の構成や特徴を示す情報であり、例えば組織における特有のビジネス用語の定義等を含んでもよい。この組織情報は、例えばETLワークフロー推奨装置100に予め格納されている組織ファイル404から抽出されてもよい。
組織(または同じ組織に属する異なる部署)によっては、ビジネス用語の定義が異なることがある。例えば、「注文」とのビジネス用語は、電子取引を管理する部署では、ユーザがウエブサイト上で「注文を確定する」ボタンを押すことを意味するが、商品の発送を管理する部署では、商品がお客様に届いたことを意味する。
従って、「過去3カ月の注文と純売上高は何ですか?」とのユーザクエリーがあった場合に、ユーザが求める情報を正確に提供するためには、ETLワークフロー推奨装置100に格納されている「注文」や「純売上高」の情報がどのように定義されているかを把握することが重要である。
そこで、上述したように、本開示では、「注文」や「純売上高」等のビジネス用語の定義を規定する組織情報を組織ファイル404から抽出し、抽出した情報を全体知識グラフに含むことで、ユーザクエリーに対応する正確なETLワークフローを推奨することができる。
一例として、図14に示す組織ファイル404では、「注文」とのビジネス用語は「商品が発送済み又は支払い済みであること」として定義され、「純売上高」とのビジネス用語は「最終価格から税金及び送料を引いた額」として定義されている。これらの情報は、組織情報として組織ファイル404から抽出され、全体知識グラフに含まれる組織知識グラフを作成する際に用いられる。
図15は、本開示の実施形態に係る組織知識グラフ412を示す図である。ここでの組織知識グラフ412とは、組織ファイル(例えば、図12に示す組織ファイル404)から抽出した組織情報をグラフ形式で表現するためのデータ構造であり、上述したように、ユーザ入力に対する推奨のETLワークフローを生成する際に用いられる全体知識グラフの一部である。
図15に示す組織知識グラフ412は、図14を参照して上述した組織ファイル404から抽出されたファイル情報に基づいて生成された組織知識グラフである。図15に示すように、図15に示す組織知識グラフ412では、組織ファイル404から抽出された組織情報の各要素は、他方の要素との関係に応じて、個別のグラフノードとして表現される。例えば、図15に示すように、「注文」、「純売上高」等のビジネス用語や、「発送済み」や「送料」等の、当該ビジネス用語の定義の構成要素がグラフ形式で表現されている。
上述したように、この組織知識グラフ412は、ETL知識グラフ、人材知識グラフ、及びファイル知識グラフと結合することにより、ユーザ入力に対する推奨のETLワークフローを生成する際に用いられる全体知識グラフを構築することができる。
次に、図16を参照して、本開示の実施形態に係る全体知識グラフの一例について説明する。
図16は、本開示の実施形態に係る全体知識グラフ450の一例を示す図である。ここでの全体知識グラフ450とは、ETLファイル401、人材データベース402、データカタログファイル403、及び組織ファイル404から抽出される情報(ETL情報、人材情報、ファイル情報、組織情報)を集約し、グラフ形式で表現するためのデータ構造であり、上述したように、ユーザ入力に対する推奨のETLワークフローを生成する際に用いられる。
図16に示すように、全体知識グラフでは、ETLワークフローのステップの情報、作成者の情報、及びメタデータ等のETL情報、人材の識別情報、役割情報、勤務場所情報、部署情報、及び専門分野情報等の人材情報、所定のビジネスドメインに関する注文や売り上げ等のファイル情報、組織の構成、従業員数、特定のビジネス用語の定義等の組織情報を含み、各種情報のそれぞれの要素は、他方の要素との関係に応じて、個別のグラフノードとして表現される。
上述したように、ユーザ入力に対応するグラフクエリーを用いてこの全体知識グラフ450を検索することにより、当該ユーザクエリー対して推奨のETLワークフローを判定することができる。
次に、図17を参照して、本開示の実施形態に係るETLワークフロー推奨システムについて説明する。
図17は、本開示の実施形態に係るETLワークフロー推奨システム1700の一例を示す図である。図17に示すように、ETLワークフロー推奨システム1700は、ETLワークフロー推奨装置100と、ストレージ装置1710と、ユーザ端末1730とから主に構成される。
ETLワークフロー推奨装置100と、ストレージ装置1710と、ユーザ端末1730とは、例えばインターネットやLAN等の通信ネットワーク1720を介して接続される。
図17に示すように、ETLワークフロー推奨装置100は、本開示の実施形態の機能を実行するための各種演算を行うためのCPU1701やメモリ1702、知識データベース(例えば図1に示す知識データベース103)を格納するための記憶部1703、及び通信ネットワーク1720を介してデータを送受信するためのネットワークインターフェース1704を備える。
ETLワークフロー推奨装置100は、CPU1701、メモリ1702、記憶部1703、及びネットワークインターフェース1704を用いて、図1を参照して説明した機能部の機能を実行する。
なお、ETLワークフロー推奨装置100の機能の詳細については、図1、2、3、5等を参照して説明したため、ここではその説明を省略する。
ストレージ装置1710は、ETLワークフロー推奨装置100に用いられる各種情報を格納するための装置であり、例えば図4に示すETLファイル401、人材データベース402、データカタログファイル403、組織ファイル404等を、ETLワークフロー推奨装置100からアクセス可能に格納してもよい。
図17に示すように、ストレージ装置1710は、各種演算を行うためのCPU1711やメモリ1712、各種情報を記憶するための記憶部1713、及び通信ネットワーク1720を介してデータを送受信するためのネットワークインターフェース1714を備える。
なお、図17では、ETLワークフロー推奨装置100とストレージ装置1710を別々の装置として示しているが、本開示はこれに限定されず、ETLワークフロー推奨装置100とストレージ装置1710とを一体とした構成も可能である。
ユーザ端末1730は、ETLワークフロー推奨装置100を利用するユーザの端末である。ユーザは、例えばユーザ端末1730を用いて、ユーザクエリー等の入力情報をETLワークフロー推奨装置100に入力したり、ETLワークフロー推奨装置100から出力されるETLワークフローレポートを確認したりしてもよい。ここでのユーザ端末1730とは、例えばデスクトップパソコン、ノートパソコン、スマートフォン、タブレット等、任意のデバイスであってもよい。
図17に示すように、ユーザ端末1730は、各種演算を行うためのCPU1731やメモリ1732、各種情報を記憶するための記憶部1733、通信ネットワーク1720を介してデータを送受信するためのネットワークインターフェース1734、ユーザの入力を受け付けるための入力部1735、及び情報を出力するための出力部1736を備える。
次に、図18を参照して、本開示の実施形態に係るETLワークフロー推奨方法について説明する。
図18は、本開示の実施形態に係るETLワークフロー推奨方法1800の一例を示す図である。図18に示すETLワークフロー推奨方法1800は、ユーザ入力に対して推奨のETLワークフローを判定するための方法であり、図1に示すETLワークフロー推奨装置100の機能部によって実行される方法である。
まず、ステップS1802では、ETLワークフロー推奨装置の入力管理部(例えば、図1に示す入力管理部101)は、ユーザ入力をユーザから受け付ける。上述したように、このユーザ入力とは、所望のETLワークフローの目標、ビジネス用語、「過去3カ月の注文と純売上高は何ですか?」のようなユーザクエリー、及び/又は参照用ファイル等を含んでもよい。
次に、ステップS1804では、入力管理部は、ステップS1802で受け付けたユーザ入力を検証し、ユーザクエリーか参照用ファイルかを判定する。ユーザクエリーの場合には、本処理はステップS1808へ進み、参照用ファイルの場合にはステップS1806へ進む。
次に、ステップS1806では、ETLワークフロー推奨装置のETL推奨部(例えば、図1に示すETL推奨部102)は、ステップS1804で受け付けたユーザクエリーに対するセマンティック解釈処理を実行した後、当該ユーザクエリーに対応するグラフクエリーを生成する。
ステップS1808では、ETL推奨部は、ステップS1804で受け付けた参照用ファイルの、ETLワークフロー推奨装置に格納されている既存のファイルに対する類似度を、これらのファイルのデータプロフィールに基づいて計算する。
ステップS1810では、ETL推奨部は、ステップS1806での類似度計算の結果、上述したポリシー条件及びアクセス条件の両方を満たす、参照用ファイルと類似度が最も高い3つのファイルを選択し、選択した3つのファイルに基づいて、知識データベース103に格納されている全体知識グラフを検索するためのグラフクエリーを生成する。
次に、ステップS1812では、ETL推奨部は、ステップS1806又はステップS1810で生成されたグラフクエリーを用いて、当該グラフクエリーに対応する既存のETLワークフローが存在するか否かを判定するために知識データベースに格納されている全体知識グラフを検索する。例えば、ここでは、ETL推奨部は、当該グラフクエリーに対する所定の類似度を満たす既存のETLワークフローが存在するか否かを判定してもよい。
次に、ステップS1814では、ETL推奨部は、ステップS1812での検索の結果に基づいて、グラフクエリーに対応する既存のETLワークフローが存在するか否かを判定する。グラフクエリーに対応する既存のETLワークフローが存在する場合には、本処理はステップS1818へ進み、グラフクエリーに対応する既存のETLワークフローが存在しない場合には、本処理はステップS1816に進む。
グラフクエリーに対応する既存のETLワークフローが存在しない場合、ステップS1816では、ETL推奨部は、ユーザクエリーに対応する新規のETLワークフローを生成する処理を行った後、本処理はステップS1840で終了する。
なお、ユーザクエリーに対応する新規のETLワークフローを生成する処理については、図19を参照して説明する。
グラフクエリーに対応する既存のETLワークフローが存在する場合、ステップS1818では、ETL推奨部は、検索されたETLワークフローをETLワークフローの候補とし、これらのETLワークフローの候補に対するアクセス及びポリシー制御を行うことで、当該ETLワークフローの候補がアクセス条件及びポリシー条件を満たすか否かを判定する。
ここで、ETL推奨部は、ETLワークフローの候補のアクセス条件として、ETLワークフロー推奨装置100のユーザが、検索されたETLワークフローにアクセスする権限があるか否かを検証してもよい。また、ETL推奨部は、ETLワークフローの候補のポリシー条件として、検索されたETLワークフローが所定のポリシー(ローカリゼーションポリシー、セキュリティポリシー等)を満たすか否かを検証してもよい。
ステップS1820では、ETL推奨部は、検索されたETLワークフローの候補が上述したアクセス条件及びポリシー条件のいずれか一方を満たさないと判定した場合には、本処理はステップS1822へ進む。一方、ETL推奨部は、検索されたETLワークフローの候補が上述したアクセス条件及びポリシー条件の両方を満たすと判定した場合には、本処理はステップS1824へ進む。
ステップS1822では、ETL推奨部は、アクセス条件又はポリシー条件を満たさないと判定したETLワークフローをETLワークフローの候補から削除する。アクセス条件又はポリシー条件を満たさないと判定したETLワークフローをETLワークフローの候補から削除した結果、ETLワークフローの候補が残らない場合には、ステップS1806またはステップS1810でグラフクエリーを補正してもよい(類似度が高い他のファイルを追加したり、ユーザクエリーを構成する用語を変更したりするなど)。
ステップS1824では、ETL推奨部は、ETLワークフローの候補のそれぞれについて、全体スコアを計算する。上述したように、ここでの全体スコアとは、ETLワークフローの候補の、ユーザ入力に対する適正を定量的示す尺度である。ここでは、ETL推奨部は、目標、ドメイン、及び役割の対応関係情報、類似度インデックス、ETL特徴、データ品質、性能、コスト効率、セキュリティ性、使用性、適用性等に基づいてETLワークフローの候補のそれぞれについて全体スコアを計算してもよい。
次に、ステップS1826では、ETL推奨部は、ステップS1824でETLワークフローの候補のそれぞれについて計算した全体スコアに基づいて、ETLワークフローの候補を分類する。例えば、ここで、ETL推奨部は、ETLワークフローの候補を、全体スコアが高いものから並べてもよい。
次に、ステップS1828では、ETLワークフロー推奨装置の出力管理部(例えば、図1に示す出力管理部104)は、ステップS1828で分類したETLワークフローの候補に基づいて、推奨のETLワークフローを示すETLワークフローレポートを出力する。ここでは、出力管理部は、例えば、ETLワークフローの候補の中から、全体スコアが最も高いETLワークフローを推奨のETLワークフローとして出力してもよく、所定の全体スコア基準を満たす複数のETLワークフローを推奨のETLワークフローとして出力してもよい。
次に、ステップS1830では、出力管理部は、ETLワークフローのKPIパラメータがユーザによって更新されている否かを判定する。KPIパラメータがユーザによって更新されていない場合には、本処理はステップS1840へ進み、終了する。KPIパラメータがユーザによって更新された場合には、本処理はステップS1832へ進む。
次に、ステップS1832では、出力管理部は、ユーザが更新したKPIパラメータに基づいて、ステップS1824でETLワークフローの候補の全体スコアを計算する際に用いられるパラメータの重み付けを更新する。その後、本処理はステップS1826に戻る。
以上説明したETLワークフロー推奨方法1800によれば、所定のビジネスドメインに関するユーザク入力に基づいて、特定のタスクを実行するためのETLワークフローを推奨することができ、企業にて行われるデータプレパレーション、データ洗浄、データ解析等のプロセスを効率化し、データの有効活用を促進することができる。
次に、図19を参照して、本開示の実施形態に係る知識データベースを更新する際の処理について説明する。
図19は、本開示の実施形態に係る知識データベース103を更新する際の処理1900の一例を示す図である。図19に示す処理1900は、知識データベース103を新しい情報(ETL情報、人材情報、ファイル情報、組織情報等)で更新するための処理であり、例えば図3に示す知識データベース構築及び更新部383によって行われる処理である。
まず、ステップS1910では、知識データベース構築及び更新部は、ETLファイル(例えばETLファイル401)、人材データベース(例えば人材データベース402)、データカタログファイル(例えばデータカタログファイル403)、及び組織ファイル(組織ファイル404)が格納される記憶部(例えば図17に示すストレージ装置の記憶部1713)をモニターし、ETLファイル、人材データベース、データカタログファイル、及び組織ファイルのいずれかについてデータを変更する更新動作があった場合には、当該更新を検出する。
ETLファイル、人材データベース、データカタログファイル、及び組織ファイルに対する更新動作は、例えば、新しいデータを追加したり、既存のデータを変更又は削除したりすることを含む。また、この更新動作は、例えばETLワークフロー推奨装置100のユーザによって手動で行われる更新であってもよく、ETLワークフロー推奨装置100の機能によって自動的に行われる更新であってもよい。
ステップS1920では、知識データベース構築及び更新部は、ETLファイル、人材データベース、データカタログファイル、及び組織ファイルのいずれかについて更新動作を検出した場合、本処理はステップS1930へ進む。一方、知識データベース構築及び更新部は、ETLファイル、人材データベース、データカタログファイル、及び組織ファイルのいずれかについて更新を検出しなかった場合、本処理はステップS1910へ戻る。
ステップS1930では、知識データベース構築及び更新部は、ETLファイル、人材データベース、データカタログファイル、又は組織ファイルについて検出した更新動作に合わせて、知識データベース構築及び更新部に格納される全体知識グラフを更新する。つまり、知識データベース構築及び更新部は、人材データベース、データカタログファイル、又は組織ファイルについて行われた更新を、全体知識グラフに対して反映させる。
これにより、全体知識グラフは、常に最新の状態で維持されるため、ユーザ入力に対して最新の情報に基づいたETLワークフローを推奨することができる。
次に、図20を参照して、本開示の実施形態に係る新規ETLワークフロー作成方法について説明する。
図20は、本開示の実施形態に係る新規ETLワークフロー作成方法2000の一例を示す図である。図20に示す新規ETLワークフロー作成方法2000は、ユーザ入力に対して既存の推奨ETLワークフローがない場合に、新規のETLワークフローを作成するための方法であり、図1に示すETLワークフロー推奨装置100の機能部によって実行される方法である。
なお、図20に示す新規ETLワークフロー作成方法2000は、図18に示すステップS1816に対応する。
まず、ステップS2002では、ETLワークフロー推奨装置の入力管理部(例えば、図1に示す入力管理部101)は、ユーザ入力をユーザから受け付ける。上述したように、このユーザ入力とは、所望のETLワークフローの目標、ビジネス用語、「過去3カ月の注文と純売上高は何ですか?」のようなユーザクエリー、及び・又は参照用ファイル等を含んでもよい。
次に、ステップS2004では、ETLワークフロー推奨装置のETL推奨部(例えば、図1に示すETL推奨部102)は、ステップS2002で受け付けたユーザ入力に対するセマンティック解釈処理を実行した後、当該ユーザ入力に対応するグラフクエリーを生成する。
次に、ステップS2006では、ETL推奨部は、ステップS2004で生成されたグラフクエリーを用いて、当該グラフクエリーに対応する既存のデータカタログファイルが存在するか否かを判定するために知識データベース103に格納されているファイル知識グラフを検索する。
次に、ステップS2008では、ETL推奨部は、ステップS2006での検索の結果に基づいて、グラフクエリーに対応する既存のデータカタログファイルが存在するか否かを判定する。グラフクエリーに対応する既存のデータカタログファイルが存在する場合には、本処理はステップS2012へ進み、グラフクエリーに対応する既存のデータカタログファイルが存在しない場合には、本処理はステップS2010に進む。
グラフクエリーに対応する既存のデータカタログファイルが存在しない場合、ステップS2010では、ETL推奨部は、ステップS2002で受け付けられたユーザ入力を補正する通知をユーザに提供する。その後、ユーザは、より広範なユーザ入力を入力管理部に対して入力し、本処理はステップS2004へ戻る。
グラフクエリーに対応する既存のデータカタログファイルが存在する場合、ステップS2012では、ETL推奨部は、検索されたデータカタログファイルをデータカタログファイルの候補とし、これらのデータカタログファイルの候補に対するアクセス及びポリシー制御を行うことで、当該データカタログファイルの候補がアクセス条件及びポリシー条件を満たすか否かを判定する。
ここで、ETL推奨部は、データカタログファイルの候補のアクセス条件として、ETLワークフロー推奨装置100のユーザが、検索されたデータカタログファイルにアクセスする権限があるか否かを検証してもよい。また、ETL推奨部は、データカタログファイルの候補のポリシー条件として、検索されたデータカタログファイルが所定のポリシー(ローカリゼーションポリシー、セキュリティポリシー等)を満たすか否かを検証してもよい。
次に、ステップS2014では、ETL推奨部は、検索されたデータカタログファイルの候補が上述したアクセス条件及びポリシー条件のいずれか一方を満たさないと判定した場合には、本処理はステップS2016へ進む。一方、ETL推奨部は、検索されたデータカタログファイルの候補が上述したアクセス条件及びポリシー条件の両方を満たすと判定した場合には、本処理はステップS2018へ進む。
次に、ステップS2018では、ETL推奨部は、上述したアクセス条件及びポリシー条件の両方を満たすと判定されたデータカタログファイルの候補のそれぞれについて、当該データカタログファイルに基づいて複数の処理を連結してなる論理プランを新規のETLワークフローの候補として生成する。例えば、ここでは、ETL推奨部は、データカタログファイル内に指定されている処理(入力、変換、出力など)に基づいて新規のETLワークフローの候補となる論理プランを作成してもよく、データカタログファイルから新規のETLワークフローを生成する手段は特に限定されない。
次に、ステップS2020では、ETL推奨部は、ステップS2018で生成した新規のETLワークフローを構成する論理プランのそれぞれについて、当該論理プランの各種処理を実行するための実行ファイル(.exeファイル等)を生成してもよい。
次に、ステップS2022では、ETL推奨部は、ステップS2018で生成した新規のETLワークフローの候補のそれぞれについて、全体スコアを計算する。上述したように、ここでの全体スコアとは、ETLワークフローの候補の、ユーザ入力に対する適正を定量的示す尺度である。ここでは、ETL推奨部は、目標、役割、及びドメインの対応関係情報、類似度インデックス、ETL特徴、データ品質、性能、コスト効率、セキュリティ性、使用性、適用性等に基づいてETLワークフローの候補のそれぞれについて全体スコアを計算してもよい。
また、ここでは、ETL推奨部は、ETLワークフローの候補のそれぞれについて計算した全体スコアに基づいて、ETLワークフローの候補を分類する。例えば、ここで、ETL推奨部は、ETLワークフローの候補を、全体スコアが高いものから並べてもよい。
次に、ステップS2024では、ETLワークフロー推奨装置の出力管理部(例えば、図1に示す出力管理部104)は、ステップS2022で評価し、分類したETLワークフローの候補に基づいて、推奨のETLワークフローを示すETLワークフローレポートを出力する。ここでは、出力管理部は、例えば、ETLワークフローの候補の中から、全体スコアが最も高いETLワークフローを推奨のETLワークフローとして出力してもよく、所定の全体スコア基準を満たす複数のETLワークフローを推奨のETLワークフローとして出力してもよい。
以上説明した新規ETLワークフロー作成方法2000により、例えばユーザ入力に対して既存の推奨ETLワークフローがない場合であっても、新規のETLワークフローを生成することが可能となる。
次に、図21を参照して、本開示の実施形態に係る認証画面について説明する。
図21は、本開示の実施形態に係る認証画面2100の一例を示す図である。認証画面2100は、本開示の実施形態に係るETLワークフロー推奨装置100のユーザが認証処理を行うための画面である。ETLワークフロー推奨装置100のユーザは、例えばメールアドレスやパスワードなどの認証情報を認証画面2100に対して入力した後、上述したユーザ認証部(例えば図2に示すユーザ認証部201)は、これらの認証情報を検証することで、登録済みのユーザのみに対してアクセスを付与することができる。
次に、図22を参照して、本開示の実施形態に係るユーザ入力画面について説明する。
図22は、本開示の実施形態に係るユーザ入力画面2200の一例を示す図である。ユーザ入力画面2200は、図21に示す認証画面2100で入力された認証情報が検証され、ETLワークフロー推奨装置100へのアクセスがユーザに付与された場合に表示される画面であり、推奨のETLワークフローを検索するためのユーザ入力を入力するためのインターフェース画面である。
図22に示すように、ユーザ入力画面2200では、ユーザは、所定のビジネス用語2201、所望のETLワークフローの目標2202、ユーザクエリー2203、及び参照用ファイル2204を入力することができる。また、ユーザ入力表示2205では、ユーザは、自分が入力した情報のプレビューを確認することができる。情報の入力が終了すると、ユーザは、推奨ETLワークフロー検索ボタン2206を押すことで、推奨のETLワークフローの検索を開始することができる。
次に、図23を参照して、本開示の実施形態に係るユーザクエリー作成画面2300について説明する。
図23は、本開示の実施形態に係るユーザクエリー作成画面2300の一例を示す図である。ユーザクエリー作成画面2300は、推奨のETLワークフローを検索するためのユーザ入力として、ユーザクエリーを作成するための画面である。
図23に示すように、ユーザクエリー作成画面2300は、自然言語選択メニュー2301、フィルタメニュー2302、ユーザクエリープレビュー2303、クエリー作成ボタン2304、入力リセットボタン2305、及び戻るボタン2306を含む。
自然言語選択メニュー2301では、ETLワークフロー推奨装置100のユーザは、ドロップダウンメニューを用いて予め用意されている用語の候補を選択することで自然言語のユーザクエリーを作成することができる。
また、フィルタメニュー2302では、ETLワークフロー推奨装置100のユーザは、所定の期間を指定するための時間フィルタ、結果をグループ毎に分類するためのグループフィルタ、所定の場所を指定するための空間フィルタ等を用いて、ユーザクエリーの結果を絞るためのフィルタを設定してもよい。
一例として、ユーザは、自然言語選択メニュー2301と、フィルタメニュー2302とを用いることで「過去3カ月の注文と純売上高は何ですか?」とのユーザクエリーを作成してもよい。ユーザによって作成されたユーザクエリーは、リアルタイムでユーザクエリープレビュー2303に表示される。
ユーザクエリーの作成が完了すると、ユーザは、クエリー作成ボタン2304を押すことで、上述したユーザ入力画面2200に戻り、ETLワークフローの検索を開始してもよい。あるいは、ユーザは、入力リセットボタン2305を押すことでユーザクエリーを再作成してもよく、戻るボタン2306を押すことでユーザクエリーを作成せずに、ユーザ入力画面2200に戻ってもよい。
次に、図24を参照して、本開示の実施形態に係る参照用ファイルアップロード画面について説明する。
図24は、本開示の実施形態に係る参照用ファイルアップロード画面2400の一例を示す図である。参照用ファイルアップロード画面2400は、推奨のETLワークフローを検索するためのユーザ入力として、参照用ファイルをアップロードするための画面である。
図24に示すように、参照用ファイルアップロード画面2400は、ファイルアップロードボタン2401、編集メニュー2402、データプロフィール取得ボタン2403、戻るボタン2404、データプロフィール表示2405、及び詳細表示ボタン2406を含む。
ファイルアップロードボタン2401を押すことで、ユーザは参照用ファイルを、ETLワークフロー推奨装置100にアップロードすることができる。一例として、ユーザは、特定の商品の、特定の地域での売上高情報を集約するETLワークフローを希望している場合、希望しているデータ形式で構成されている参照用ファイルをアップロードしてもよい。これにより、ETLワークフロー推奨装置100は、この参照用ファイルと類似度の高い既存のファイルを検索し、これらの既存のファイルを出力するために用いられたETLワークフローを推奨することで、ユーザの希望に一致するETLワークフローを提供することができる。
編集メニュー2402では、ユーザは、アップロードした参照用ファイルを編集することができる。例えば、ユーザは、編集メニュー2402を用いることで、アップロードした参照用ファイルを保存したり、削除したり、内容を編集したり、データプロフィールを確認したりすることができる。
データプロフィール取得ボタン2403を押すことで、ETLワークフロー推奨装置100は、ユーザがアップロードした参照用ファイルのデータプロフィールが取得される。また、ここで取得されるデータプロフィールは、データプロフィール表示2405で表示される。
一例として、ユーザが「order_details.csv」との参照用ファイルをアップロードして、データプロフィール取得ボタン2403を押した場合、当該参照用ファイルのファイル名、作成日時の情報、ファイルサイズの情報、作成者の情報、ファイルの内容のプレビュー、関連付けられているビジネスタグの情報等が表示される。更に、ユーザは、詳細表示ボタン2406を押すことで、参照用ファイルのより詳細な情報を確認することができる。
また、ユーザは、戻るボタン2404を押すことで、上述したユーザ入力画面2200に戻ることができる。
次に、図25を参照して、本開示の実施形態に係る推奨ETLワークフロー画面について説明する。
図25は、本開示の実施形態に係る推奨ETLワークフロー画面2500の一例を示す図である。図25は、ETLワークフロー推奨装置100によって実行されるETLワークフロー推奨方法の出力結果であるETLワークフローレポートを示すための画面である。
図25に示すように、推奨ETLワークフロー画面2500は、推奨のETLワークフロー2501、推奨のETLワークフロー2501の評価情報2510、推奨のETLワークフロー2501のフロー表示2502、保存ボタン2503、実行ボタン2504、KPIパラメータフィルタ2505、パラメータ重み付け更新メニュー2506、パラメータ更新ボタン2508、及び全てを見るボタン2509を含む。
なお、図25に示す推奨ETLワークフロー画面2500では、説明の便宜上、2つの推奨ETLワークフローのみを示す場合を一例として説明するが、本開示はそれに限定されず、1つ又は3つ以上の推奨ETLワークフローが推奨ETLワークフロー画面2500に表示されてもよい。
推奨のETLワークフロー2501は、上述したユーザ入力画面2200において入力されたユーザ入力に対して検索された推奨のETLワークフローである。推奨のETLワークフロー2501の評価情報2510では、推奨のETLワークフロー2501の全体スコア、データ品質、性能、セキュリティ性などの各項目に関する評価が表示される。また、フロー表示2502では、推奨のETLワークフロー2501を構成する各ステップが表示される。
ユーザは、保存ボタン2503を押すことで、推奨のETLワークフロー2501を保存することができる。また、ユーザは、実行ボタン2504を押すことで、推奨のETLワークフロー2501をその場で実行することができる。
KPIパラメータフィルタ2505では、ユーザは、表示されている推奨のETLワークフローの候補を絞るためのKPIパラメータを選択することができる。例えば、ユーザは、パラメータ重み付け更新メニュー2506を用いることで、データ品質、性能、コスト効率、セキュリティ性、目標関連度などのKPIパラメータのそれぞれについて、所望の重み付けを設定することができる。これにより、ユーザは、推奨のETLワークフローの候補を絞ることができると共に、特定のKPIパラメータが重視されるETLワークフロー検索を実現させることができる。
ユーザがパラメータ重み付け更新メニュー2506を用いてKPIパラメータの重み付けを変更した場合、パラメータ更新ボタン2508を押すことで、ETLワークフローを検索する際に用いられるKPIパラメータを更新することができる。
また、ユーザは、全てを見るボタン2509を押すことで、現在推奨ETLワークフロー画面2500に表示されている推奨のETLワークフローのみならず、全ての推奨のETLワークフローの候補を閲覧することができる。
次に、図26を参照して、本開示の実施形態を実施するためのコンピュータシステム300について説明する。本明細書で開示される様々な実施形態の機構及び装置は、任意の適切なコンピューティングシステムに適用されてもよい。コンピュータシステム300の主要コンポーネントは、1つ以上のプロセッサ302、メモリ304、端末インターフェース312、ストレージインタフェース314、I/O(入出力)デバイスインタフェース316、及びネットワークインターフェース318を含む。これらのコンポーネントは、メモリバス306、I/Oバス308、バスインターフェースユニット309、及びI/Oバスインターフェースユニット310を介して、相互的に接続されてもよい。
コンピュータシステム300は、プロセッサ302と総称される1つ又は複数の汎用プログラマブル中央処理装置(CPU)302A及び302Bを含んでもよい。ある実施形態では、コンピュータシステム300は複数のプロセッサを備えてもよく、また別の実施形態では、コンピュータシステム300は単一のCPUシステムであってもよい。各プロセッサ302は、メモリ304に格納された命令を実行し、オンボードキャッシュを含んでもよい。
ある実施形態では、メモリ304は、データ及びプログラムを記憶するためのランダムアクセス半導体メモリ、記憶装置、又は記憶媒体(揮発性又は不揮発性のいずれか)を含んでもよい。メモリ304は、本明細書で説明する機能を実施するプログラム、モジュール、及びデータ構造のすべて又は一部を格納してもよい。例えば、メモリ304は、ETLワークフロー推奨アプリケーション350を格納していてもよい。ある実施形態では、ETLワークフロー推奨アプリケーション350は、後述する機能をプロセッサ302上で実行する命令又は記述を含んでもよい。
ある実施形態では、ETLワークフロー推奨アプリケーション350は、プロセッサベースのシステムの代わりに、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および/または他の物理ハードウェアデバイスを介してハードウェアで実施されてもよい。ある実施形態では、ETLワークフロー推奨アプリケーション350は、命令又は記述以外のデータを含んでもよい。ある実施形態では、カメラ、センサ、または他のデータ入力デバイス(図示せず)が、バスインターフェースユニット309、プロセッサ302、またはコンピュータシステム300の他のハードウェアと直接通信するように提供されてもよい。
コンピュータシステム300は、プロセッサ302、メモリ304、表示システム324、及びI/Oバスインターフェースユニット310間の通信を行うバスインターフェースユニット309を含んでもよい。I/Oバスインターフェースユニット310は、様々なI/Oユニットとの間でデータを転送するためのI/Oバス308と連結していてもよい。I/Oバスインターフェースユニット310は、I/Oバス308を介して、I/Oプロセッサ(IOP)又はI/Oアダプタ(IOA)としても知られる複数のI/Oインタフェースユニット312,314,316、及び318と通信してもよい。
表示システム324は、表示コントローラ、表示メモリ、又はその両方を含んでもよい。表示コントローラは、ビデオ、オーディオ、又はその両方のデータを表示装置326に提供することができる。また、コンピュータシステム300は、データを収集し、プロセッサ302に当該データを提供するように構成された1つまたは複数のセンサ等のデバイスを含んでもよい。
例えば、コンピュータシステム300は、心拍数データやストレスレベルデータ等を収集するバイオメトリックセンサ、湿度データ、温度データ、圧力データ等を収集する環境センサ、及び加速度データ、運動データ等を収集するモーションセンサ等を含んでもよい。これ以外のタイプのセンサも使用可能である。表示システム324は、単独のディスプレイ画面、テレビ、タブレット、又は携帯型デバイスなどの表示装置326に接続されてもよい。
I/Oインタフェースユニットは、様々なストレージ又はI/Oデバイスと通信する機能を備える。例えば、端末インタフェースユニット312は、ビデオ表示装置、スピーカテレビ等のユーザ出力デバイスや、キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、又は他のポインティングデバイス等のユーザ入力デバイスのようなユーザI/Oデバイス320の取り付けが可能である。ユーザは、ユーザインターフェースを使用して、ユーザ入力デバイスを操作することで、ユーザI/Oデバイス320及びコンピュータシステム300に対して入力データや指示を入力し、コンピュータシステム300からの出力データを受け取ってもよい。ユーザインターフェースは例えば、ユーザI/Oデバイス320を介して、表示装置に表示されたり、スピーカによって再生されたり、プリンタを介して印刷されたりしてもよい。
ストレージインタフェース314は、1つ又は複数のディスクドライブや直接アクセスストレージ装置322(通常は磁気ディスクドライブストレージ装置であるが、単一のディスクドライブとして見えるように構成されたディスクドライブのアレイ又は他のストレージ装置であってもよい)の取り付けが可能である。ある実施形態では、直接アクセスストレージ装置322は、任意の二次記憶装置として実装されてもよい。メモリ304の内容は、直接アクセスストレージ装置322に記憶され、必要に応じて直接アクセスストレージ装置322から読み出されてもよい。I/Oデバイスインタフェース316は、プリンタ、ファックスマシン等の他のI/Oデバイスに対するインターフェースを提供してもよい。ネットワークインターフェース318は、コンピュータシステム300と他のデバイスが相互的に通信できるように、通信経路を提供してもよい。この通信経路は、例えば、ネットワーク330であってもよい。
ある実施形態では、コンピュータシステム300は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、又はサーバコンピュータ等の、直接的ユーザインターフェースを有しない、他のコンピュータシステム(クライアント)からの要求を受信するデバイスであってもよい。他の実施形態では、コンピュータシステム300は、デスクトップコンピュータ、携帯型コンピュータ、ノートパソコン、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、又は任意の他の適切な電子機器であってもよい。
以上、本開示の実施の形態について説明したが、本開示は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
100 ETLワークフロー推奨装置
101 入力管理部
102 ETL推奨部
103 知識DB
104 出力管理部
201 ユーザ認証部
202 ユーザ入力表示部
203 抽出部
204 目標抽出部
205 ビジネス用語抽出部
206 ユーザクエリー生成部
207 クエリー表示部
208 フィルタ部
209 ビジネス用語検索部
210 参照用ファイルアップロード部
211 データプロフィール部
212 ファイル管理部
361 ユーザ入力分類部
362 セマンティック解釈部
363 ファイル類似度管理部
364 グラフクエリー変換部
365 ETL検索部
366 アクセス及びポリシー制御部
367 アクセス検証部
368 ポリシー検証部
369 結果補正部
370 ポリシー更新部
371 ETL生成部
372 セマンティック解釈部
373 クエリー生成部
374 論理プラン生成部
375 ファイル検索部
376 実行ファイル生成部
377 特徴推定部
378 アクセス及びポリシー制御部
379 全体スコア生成部
380 目標、役割、及びドメインの対応関係情報
381 類似度インデックス
382 ETL特徴
383 知識データベース構築及び更新部
384 ETL結果分類部
385 グラフクエリー補正部
401 ETLファイル
402 人材データベース
403 データカタログファイル
404 組織ファイル
405 ETL情報管理部
406 人材情報管理部
407 ファイル情報管理部
408 組織情報管理部
409 ETL知識グラフ
410 人材知識グラフ
411 ファイル知識グラフ
412 組織知識グラフ
413 知識集約部
450 全体知識グラフ
501 表示部
502 フィルタ表示部
503 スコア表示部
504 ETLスクリプト可視化部
505 パラメータ更新部
506 保存管理部
508 スコア更新部

Claims (12)

  1. ETLワークフロー推奨装置であって、
    少なくとも所定のビジネスドメインに関するETL情報をグラフ形式で示すETL知識グラフを含む全体知識グラフを格納するための知識データベースと、
    前記所定のビジネスドメインに関するユーザ入力を受け付け、前記ユーザ入力を、前記全体知識グラフを検索するためのグラフクエリーに変換する入力管理部と、
    前記グラフクエリーを用いて前記全体知識グラフを検索し、前記ユーザ入力に対するETLワークフローの候補を生成するETL推奨部と、
    前記ETLワークフローの候補を評価し、推奨するETLワークフローを示すETLワークフローレポートを出力する出力管理部と、
    を含むことを特徴とするETLワークフロー推奨装置。
  2. 前記ETLワークフロー推奨装置は、
    前記ETLワークフローの候補が所定のアクセス条件及びポリシー条件を満たすか否かを判定し、
    前記アクセス条件及び前記ポリシー条件のいずれか一方を満たさないETLワークフローを前記ETLワークフローの候補から削除するアクセス及びポリシー制御部を更に含む、
    ことを特徴とする、請求項1に記載のETLワークフロー推奨装置。
  3. 前記知識データベースは、
    前記ビジネスドメインにおいて、少なくとも所定の人材に関する識別情報、役割情報、勤務場所情報、部署情報、及び専門分野情報を含む人材情報をグラフ形式で示す人材知識グラフを、前記ETL知識グラフに加えて格納する、
    ことを特徴とする、請求項1に記載のETLワークフロー推奨装置。
  4. 前記知識データベースは、
    前記ビジネスドメインにおいて、少なくとも所定の組織において用いられる用語の定義を含む組織情報をグラフ形式で示す組織知識グラフを、前記ETL知識グラフに加えて格納する、
    ことを特徴とする、請求項3に記載のETLワークフロー推奨装置。
  5. 前記知識データベースは、
    前記ビジネスドメインにおいて、所定の取引に関する情報を少なくとも含むファイル情報をグラフ形式で示すファイル知識グラフを、前記ETL知識グラフに加えて格納する、
    ことを特徴とする、請求項4に記載のETLワークフロー推奨装置。
  6. 前記ETLワークフロー推奨装置は、
    前記ETL知識グラフと、前記人材知識グラフと、前記組織知識グラフと、前記ファイル知識グラフとを集約することで前記全体知識グラフを生成する知識集約部を更に含む、
    ことを特徴とする、請求項5に記載のETLワークフロー推奨装置。
  7. 前記ETLワークフロー推奨装置は、
    前記人材情報、前記ETL情報、前記ファイル情報、又は前記組織情報について、データを追加、削除、又は変更する更新動作を検出し、
    前記更新動作に基づいて、前記全体知識グラフを更新する、
    ことを特徴とする、請求項6に記載のETLワークフロー推奨装置。
  8. 前記ユーザ入力は、
    自然言語から構成されたユーザクエリー、所定のビジネス用語、所望のETLワークフロー-の目標、及び参照用ファイルの内、少なくとも1つを含むことを特徴とする請求項1に記載のETLワークフロー推奨装置。
  9. 前記ETL推奨部は、
    前記グラフクエリーに対する所定の類似度基準を満たす既存のETLワークフローが前記全体知識グラフに存在する場合、前記既存のETLワークフローを前記ETLワークフローの候補として生成し、
    前記グラフクエリーに対する所定の類似度基準を満たす既存のETLワークフローが前記全体知識グラフに存在しない場合、前記グラフクエリーに対する所定の関連度基準を満たすデータファイルを前記全体知識グラフから抽出し、抽出したデータファイルに基づいて、複数の処理を連結してなる論理プランを新規のETLワークフローの候補として生成する、
    ことを特徴とする、請求項6に記載のETLワークフロー推奨装置。
  10. 所定のビジネスドメインに関するETL情報をグラフ形式で示すETL知識グラフと、前記ビジネスドメインにおいて、所定の人材に関する識別情報、役割情報、勤務場所情報、部署情報、及び専門分野情報を少なくとも含む人材情報をグラフ形式で示す人材知識グラフと、前記ビジネスドメインにおいて、所定の組織において用いられる用語の定義を少なくとも含む組織情報をグラフ形式で示す組織知識グラフと、前記ビジネスドメインにおいて、少なくとも所定の取引に関する情報を含むファイル情報をグラフ形式で示すファイル知識グラフとを集約することで全体知識グラフを生成する工程と、
    前記所定のビジネスドメインに関するユーザ入力を受け付け、、前記ユーザ入力を、前記全体知識グラフを検索するためのグラフクエリーに変換する工程と、
    前記グラフクエリーを用いて前記全体知識グラフを検索し、前記ユーザ入力に対するETLワークフローが存在するか否かを判定する工程と、
    前記グラフクエリーに対する所定の類似度基準を満たす既存のETLワークフローが前記全体知識グラフに存在する場合、前記既存のETLワークフローをETLワークフローの候補として生成する工程と、
    前記グラフクエリーに対する所定の関連度基準を満たすデータファイルを前記全体知識グラフから抽出し、抽出したデータファイルに基づいて、複数の処理を連結してなる論理プランを新規のETLワークフローの候補として生成する工程と、
    前記ETLワークフローの候補が所定のアクセス条件及びポリシー条件を満たすか否かを判定する工程と、
    前記アクセス条件及び前記ポリシー条件のいずれか一方を満たさないETLワークフローを前記ETLワークフローの候補から削除する工程と、
    前記ETLワークフローの候補を評価し、推奨のETLワークフローを示すETLワークフローレポートを出力する工程と、
    を含むことを特徴とするETLワークフロー推奨方法。
  11. 前記ETLワークフロー推奨方法は、
    前記人材情報、前記ETL情報、前記ファイル情報、又は前記組織情報について、データを追加、削除、又は変更する更新動作を検出する工程と、
    前記更新動作に基づいて、前記全体知識グラフを更新する工程と、
    を更に含むことを特徴とする、請求項10に記載のETLワークフロー推奨方法。
  12. 推奨のETLワークフローを提供するETLワークフロー推奨装置と、前記ETLワークフロー推奨装置によって用いられる各種情報を格納するストレージ装置と、前記ETLワークフロー推奨装置を利用するユーザの端末であるユーザ端末とが通信ネットワークを介して接続されるETLワークフロー推奨システムであって、
    前記ストレージ装置は、
    所定のビジネスドメインに関するETL情報をグラフ形式で示すETL知識グラフを少なくとも含む全体知識グラフを格納するための知識データベースを含み、
    前記ETLワークフロー推奨装置は、
    前記所定のビジネスドメインに関するユーザ入力を前記ユーザ端末から受け付け、、前記ユーザ入力を、前記全体知識グラフを検索するためのグラフクエリーに変換する入力管理部と、
    前記グラフクエリーを用いて前記全体知識グラフを検索し、前記ユーザ入力に対するETLワークフローの候補を生成するETL推奨部と、
    前記ETLワークフローの候補を評価し、推奨のETLワークフローを示すETLワークフローレポートを前記ユーザ端末に出力する出力管理部と、
    を含むことを特徴とするETLワークフロー推奨システム。
JP2020174125A 2020-10-15 2020-10-15 Etlワークフロー推奨装置、etlワークフロー推奨方法及びetlワークフロー推奨システム Pending JP2022065502A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020174125A JP2022065502A (ja) 2020-10-15 2020-10-15 Etlワークフロー推奨装置、etlワークフロー推奨方法及びetlワークフロー推奨システム
US17/478,983 US11921737B2 (en) 2020-10-15 2021-09-20 ETL workflow recommendation device, ETL workflow recommendation method and ETL workflow recommendation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020174125A JP2022065502A (ja) 2020-10-15 2020-10-15 Etlワークフロー推奨装置、etlワークフロー推奨方法及びetlワークフロー推奨システム

Publications (2)

Publication Number Publication Date
JP2022065502A true JP2022065502A (ja) 2022-04-27
JP2022065502A5 JP2022065502A5 (ja) 2023-02-14

Family

ID=81184783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020174125A Pending JP2022065502A (ja) 2020-10-15 2020-10-15 Etlワークフロー推奨装置、etlワークフロー推奨方法及びetlワークフロー推奨システム

Country Status (2)

Country Link
US (1) US11921737B2 (ja)
JP (1) JP2022065502A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115905291A (zh) * 2022-12-12 2023-04-04 广州南方智能技术有限公司 基于图的数据处理方法、装置及存储介质
WO2024004351A1 (ja) * 2022-06-30 2024-01-04 株式会社日立製作所 プロセッサシステムおよび不具合診断方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022065502A (ja) * 2020-10-15 2022-04-27 株式会社日立製作所 Etlワークフロー推奨装置、etlワークフロー推奨方法及びetlワークフロー推奨システム
US20230315535A1 (en) * 2022-03-29 2023-10-05 International Business Machines Corporation Dynamic factoring and composing workflows
US20230368103A1 (en) * 2022-05-11 2023-11-16 Sap Se Knowledge graph enabled augmentation of natural language processing applications
CN115982429B (zh) * 2023-03-21 2023-08-01 中交第四航务工程勘察设计院有限公司 一种基于流程控制的知识管理方法及系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9501585B1 (en) * 2013-06-13 2016-11-22 DataRPM Corporation Methods and system for providing real-time business intelligence using search-based analytics engine
US20150256475A1 (en) * 2014-03-05 2015-09-10 Wipro Limited Systems and methods for designing an optimized infrastructure for executing computing processes
US10585875B2 (en) 2016-04-06 2020-03-10 International Businses Machines Corporation Data warehouse model validation
US10855706B2 (en) * 2016-10-11 2020-12-01 Battelle Memorial Institute System and methods for automated detection, reasoning and recommendations for resilient cyber systems
US11481603B1 (en) * 2017-05-19 2022-10-25 Wells Fargo Bank, N.A. System for deep learning using knowledge graphs
US20190130007A1 (en) * 2017-10-31 2019-05-02 International Business Machines Corporation Facilitating automatic extract, transform, load (etl) processing
US10521608B2 (en) * 2018-01-09 2019-12-31 Accenture Global Solutions Limited Automated secure identification of personal information
US20190287032A1 (en) * 2018-03-16 2019-09-19 International Business Machines Corporation Contextual Intelligence for Unified Data Governance
US10296524B1 (en) * 2018-07-27 2019-05-21 Accenture Global Solutions Limited Data virtualization using leveraged semantic knowledge in a knowledge graph
US10891321B2 (en) * 2018-08-28 2021-01-12 American Chemical Society Systems and methods for performing a computer-implemented prior art search
US11521077B1 (en) * 2019-02-11 2022-12-06 Digital.Ai Software, Inc. Automatic recommendation of predictor variable values for improving predictive outcomes
US11514498B2 (en) * 2019-03-07 2022-11-29 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for intelligent guided shopping
US11983636B2 (en) * 2019-06-04 2024-05-14 Accenture Global Solutions Limited Automated analytical model retraining with a knowledge graph
US11334593B2 (en) * 2020-08-05 2022-05-17 International Business Machines Corporation Automated ETL workflow generation
US20220122731A1 (en) * 2020-08-21 2022-04-21 Cambia Health Solutions, Inc. Systems and methods for generating and delivering personalized healthcare insights
JP2022065502A (ja) * 2020-10-15 2022-04-27 株式会社日立製作所 Etlワークフロー推奨装置、etlワークフロー推奨方法及びetlワークフロー推奨システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024004351A1 (ja) * 2022-06-30 2024-01-04 株式会社日立製作所 プロセッサシステムおよび不具合診断方法
CN115905291A (zh) * 2022-12-12 2023-04-04 广州南方智能技术有限公司 基于图的数据处理方法、装置及存储介质
CN115905291B (zh) * 2022-12-12 2024-02-23 广州南方智能技术有限公司 基于图的数据处理方法、装置及存储介质

Also Published As

Publication number Publication date
US11921737B2 (en) 2024-03-05
US20220121675A1 (en) 2022-04-21

Similar Documents

Publication Publication Date Title
US11461348B2 (en) Automated presentation of information using infographics
JP2022065502A (ja) Etlワークフロー推奨装置、etlワークフロー推奨方法及びetlワークフロー推奨システム
Gudivada et al. Data quality considerations for big data and machine learning: Going beyond data cleaning and transformations
US20160335260A1 (en) Metric Recommendations in an Event Log Analytics Environment
Lim et al. Business intelligence and analytics: Research directions
US9563920B2 (en) Method, system and program product for matching of transaction records
de Murillas et al. Case notion discovery and recommendation: automated event log building on databases
Aljumaili et al. Metadata-based data quality assessment
JP2009265747A (ja) マーケティング支援システム、マーケティング支援方法、マーケティング支援プログラム及びコンピュータ読み取り可能な媒体
US10671631B2 (en) Method, apparatus, and computer-readable medium for non-structured data profiling
Nethery et al. Evaluation of the health impacts of the 1990 clean air act amendments using causal inference and machine learning
Lapura et al. Development of a University Financial Data Warehouse and its Visualization Tool
JP6732084B1 (ja) コンピュータプログラム、送信方法及び送信装置
JP6383284B2 (ja) サーバ装置、システム、情報処理方法、及びプログラム
Kaula Business intelligence rationalization: A business rules approach
US9338062B2 (en) Information displaying method and apparatus
AU2018214042A1 (en) Information displaying method and apparatus
US20150112771A1 (en) Systems, methods, and program products for enhancing performance of an enterprise computer system
Peng et al. Latent subject-centered modeling of collaborative tagging: An application in social search
JP6152215B2 (ja) 算出装置、算出方法及び算出プログラム
JP6067169B2 (ja) 算出装置、算出方法及び算出プログラム
Malaverri Supporting data quality assessment in eScience: a provenance based approach
Awasthi et al. Principles Of Data Analytics
Patel et al. Graph-Based Hybrid Recommendation Model to Alleviate Cold-Start and Sparsity Issue
Lutu The importance of data quality assurance to the data analysis activities of the data mining process

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230202

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240906