JP2019185394A - データカタログ自動生成システム及びその自動生成方法 - Google Patents

データカタログ自動生成システム及びその自動生成方法 Download PDF

Info

Publication number
JP2019185394A
JP2019185394A JP2018075488A JP2018075488A JP2019185394A JP 2019185394 A JP2019185394 A JP 2019185394A JP 2018075488 A JP2018075488 A JP 2018075488A JP 2018075488 A JP2018075488 A JP 2018075488A JP 2019185394 A JP2019185394 A JP 2019185394A
Authority
JP
Japan
Prior art keywords
data
catalog
column
tag
automatic generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018075488A
Other languages
English (en)
Other versions
JP6782275B2 (ja
Inventor
和秀 愛甲
Kazuhide Aiko
和秀 愛甲
絵理 照屋
Eri Teruya
絵理 照屋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018075488A priority Critical patent/JP6782275B2/ja
Priority to US16/379,501 priority patent/US11308102B2/en
Publication of JP2019185394A publication Critical patent/JP2019185394A/ja
Application granted granted Critical
Publication of JP6782275B2 publication Critical patent/JP6782275B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/24765Rule-based classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Library & Information Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】現場データに関する知識のない分析者でも分析用データを選定して分析に活用できるようにすること。【解決手段】収集される現場データから分析用データを選定するために使用されるカタログタグを生成するデータカタログ自動生成システムにおいて、入力される分類ルールに基づいて、現場データに関する分析観点としての目的変数と説明変数との関係性や複数の説明変数同士間の因果関係を抽出し、この抽出結果に基づいて目的変数のカタログタグ及び説明関数のカタログタグを特定して付与する。【選択図】図2

Description

本発明は、データカタログ自動生成システム及びその自動生成方法に関し、特に、いわゆるDataLakeシステムにおけるデータ分類技術に関するデータカタログ自動生成システムに適用して好適なものである。
社会インフラ系の分析処理では、現場の多様なデータを管理するDataLakeが注目されている。しかしながら、DataLake内のデータが多過ぎたり現場ごとに整理ルールが統一されていないことが多いため、必要なデータを抽出することができないおそれがあった。そこで、データカタログ(以下「カタログ」と省略する)を用いてデータ整理を実施することが求められている。
このようなカタログを用いた管理手法として、第1の従来技術としては、クラウドソーシングによってタグ付けする手法が知られているとともに(特許文献1参照)、第2の従来技術としては、電力分野などの現場のデータの表現方法について業界標準で規定されているデータモデルについて自動変換する手法が知られている(特許文献2参照)。
米国特許公開公報2014/062760号公報 米国特許公開公報2015/0213035号公報
しかしながら、第1の従来技術では、人手作業によるタグ付けになるため、網羅性が完全ではなく漏れが生ずるおそれがある。他方、第2の従来技術では、業界標準のデータモデルが規定されている業界でしか活用することができなかったり、そのデータモデルに関する知識がないとカタログを選択することができなかった。これらいずれの従来技術も、現場データ側に着目したカタログ生成方式であると云えるため、分析者には現場データに関する知識が必要となる。
本発明は以上の点を考慮してなされたもので、現場データに関する知識のない分析者でも分析用データを選定して分析に活用することができるデータカタログ自動生成システム及びその自動生成方法を提案しようとするものである。
かかる課題を解決するため、本発明においては、収集される各現場データのうちから分析用データを選定するために用いるカタログタグを生成するデータカタログ自動生成システムにおいて、前記各現場データを受け取る現場データ受取部と、設定された分類ルールに基づいて、前記各現場データの分析観点としての目的変数と前記目的変数に対応する説明変数との関係性、または、前記目的変数に対応する複数の前記説明変数同士間の因果関係を抽出し、前記関係性または前記因果関係の抽出結果に基づいてカタログタグを前記各現場データに付与して管理するデータ管理部と、を備えることを特徴とする。
また、本発明においては、収集される各現場データのうちから分析用データを選定するために用いるカタログタグを生成するデータカタログ自動生成方法において、現場データ受取部が、前記各現場データを受け取るステップと、データ管理部が、設定された分類ルールに基づいて、前記各現場データの分析観点としての目的変数と前記目的変数に対応する説明変数との関係性、または、前記目的変数に対応する複数の前記説明変数同士間の因果関係を抽出し、前記関係性または前記因果関係の抽出結果に基づいてカタログタグを前記各現場データに付与して管理するステップと、を有することを特徴とする。
本発明によれば、現場データに関する知識のない分析者でも分析用データを選定して分析に活用することができる。
第1の実施の形態によるDataLakeシステムの概略構成を示すブロック図である。 図1に示すデータ管理ノードの構成例を示すブロック図である。 図2に示す原価管理データ、受注管理データ及び顧客管理データの一例を示す図である。 図1に示すカタログデータに含まれるカタログメニューデータ及びこれに含まれるソース分類ルールの一例を示す図である。 図2に示すデータソース管理データ及びカタログマッピングデータの一例を示す図である。 カタログ登録処理の処理手順の一例を示すフローチャートである。 データ登録処理の処理手順の一例を示すフローチャートである。 図9に示すデータ変換処理の処理手順の一例を示すフローチャートである。 カタログ検索処理の処理手順の一例を示すフローチャートである。 図9に示すデータ変換処理の処理手順の一例を示すフローチャートである。 第2の実施の形態におけるデータ管理ノードの構成例を示す図ブロック図である。 図11に示すデータマートの一例を示す図である。 図11に示す操作分類ルール及びカタログマッピングデータの一例を示す図である。 データ登録処理の処理手順の一例を示すフローチャートである。 操作分類処理の処理手順の一例を示すフローチャートである。 カタログ検索処理の処理手順の一例を示すフローチャートである。 第2の実施の形態においてデータマートに対してタグを付与する一例を示す図である。
以下、図面について、本発明の一実施の形態について詳述する。以下の実施の形態では、いわゆるDataLakeシステムにおいて現場から収集される各現場データから分析に用いるデータ(以下「分析用データ」と称する)を選択するために用いられるカタログタグ(以下省略して「タグ」とも称する)を、以下のように自動的に生成しようとした際に、各現場データを分類するための分類ルールを利用する。以下の実施の形態では、このような分類ルールとして、例えば、ソース分類ルールを用いる場合を第1の実施の形態として説明する一方、操作分類ルールを用いる場合を第2の実施の形態として説明する。
(1)第1の実施の形態
(1−1)システム構成
図1は、第1の実施の形態によるDataLakeシステムの概略構成を示す。このDataLakeシステムは、データカタログ自動生成システムの一例であり、例えばデータセンタに設置された計算機システムを示す。
このデータカタログ自動生成システム1は、データ管理ノード2、分析システム5及び業務システム6がネットワークスイッチ4を介して接続されている。これらデータ管理ノード2、分析システム5及び業務システム6は、それぞれ、パーソナルコンピュータ又はワークステーションなどのコンピュータで構成されている。
図2は、図1に示すデータ管理ノード2の構成例を示すブロック図である。データ管理ノード2は、ハードウェアとして、メモリ24、CPU(Central Processing Unit)25、ネットワークインタフェース26及びディスクデバイス27を備える。CPU25は、データ管理ノード2全体の動作制御を行う中央演算処理装置である。
メモリ24は、CPU25が必要な処理を実行する際にワークメモリとして用いられる。このメモリ24は、主として制御プログラム群211及び管理テーブル群212を記憶するために用いられる。
ネットワークインタフェース26は、前述したネットワークスイッチ4に対応した通信インタフェースであり、データ管理ノード2が外部と通信する際のプロトコル制御を行う。
ディスクデバイス27は、例えばFC(Fiber Channel)ディスク、SCSI(Small Computer System Interface)ディスク、SATAディスク、ATA(AT Attachment)ディスク又はSAS(Serial Attached SCSI)ディスクなどを搭載するデバイスであり、大容量のデータを記憶可能な記憶媒体である。
一方、データ管理ノード2は、メモリ24内に、ソフトウェアとして制御プログラム群211及び管理テーブル群212を備える。
これらのうち制御プログラム群211は、データ管理部2111、分類判定部2112及び変換処理部2113を含む。これらの各プログラムは、説明を分かり易くするために分けてあるが、一つに纏めて実現されても良いし、実装上任意に分けてもよい。これらの各プログラムは、すべて同一のノード(データ管理ノード2)上に配置されているが、その代わりに、それらの一部を別のノード上に配置してもよい。
データ管理部2111は、現場システム3からの各現場データ312を含む登録要求と、分析システム5からのカタログデータ512を含む登録要求と、業務システム6から業務データ612を含む処理要求と、をそれぞれ受け付ける。
データ管理部2111は、原価管理データ2121、受注管理データ2122、顧客管理データ2123及びカタログメニューデータ2124を管理している。現場データ312の具体例としては、例えば、後述する原価管理データ2121(後述する図3(A)参照)を挙げることができる。
分類判定部2112は、データ管理部2111からの処理要求を受け付け、カタログメニューデータ2124及びソース分類ルール2125を管理する。カタログメニューデータ2124及びソース分類ルール2125は例えばカタログデータ512を構成する。
変換処理部2113は、業務システム6から検索要求を受け付け、詳細は後述するが、これに応じてカタログデータ512を用いて出力データを生成する。
図3(A)は、図2に示す原価管理データ2121の一例を示し、図3(B)は、図2に示す受注管理データ2122の一例を示し、図3(C)は、図2に示す顧客管理データ2123の一例を示す。
図3(A)に示すように原価管理データ2121は、製品ID欄、原料費欄、労務費欄、経費欄及び合計欄を有する。原料費欄は、変動費欄を有する。労務費欄は、固定費欄及び変動費欄を有する。経費欄は、固定費欄及び変動費欄を有する。合計欄は、固定費欄及び変動費欄を有する。
例えば、図3(A)に示す一例では、現場システム3において製品ID「Product A」の製品を製造するためには、原料費として変動費「3000」円掛かり、労務費として固定費「1000」円及び変動費「1000」円掛かり、経費として固定費「500」円及び変動費「200」円掛かる。このため、合計で固定費「1500」円及び変動費「4200」円のコストが掛かることを示している。
業務システム6の業務データ612は、現場システム3において製造される商品に関する顧客からの注文を管理するための受注データであり、次のような受注管理データ2122及び顧客管理データ2123を含んでいる。
この受注管理データ2122は、図3(B)に示すように、製品ID欄、注文日欄、注文量欄、支払額欄及び顧客ID欄を含む。例えば、図3(B)の例では、受注データとして、製品ID「Product A」に対して、注文日「2017−02−28(2017年2月28日)」に、注文量「3」個で合計の支払額「1980」円の注文が顧客ID「Client 1」で表される顧客から受け取った注文であることを示している。
図3(C)に示すように、顧客管理データ2123は、顧客ID欄、年齢欄、最終利用日欄、営業回数欄及び契約申込欄を含んでいる。例えば、図3(C)に示す一例では、業務システム6で管理している顧客データとして、顧客IDが「Client 1」である顧客は、年齢「30」才でWebポータルの最終アクセス日が「2017−06−21(2017年6月21日)」、Webポータルからの新商品紹介通知回数「3」回に対して、契約申し込みは「no」という結果だったことを示している。
図4(A)は、図1に示す分析システム5のカタログデータ512の一部を構成するカタログメニューデータ2124の一例を示す一方、図4(B)は、このカタログデータ512の一部を構成するソース分類ルール2125の一例を示す。
カタログメニューデータ2124は、目的変数としてのカタログメニューごとに、説明変数としてどのようなタグがどのような付与先に登録されているかに関する情報である。カタログメニューデータ2124は、カラムとして、例えば図4(A)に示すように、カタログメニュー欄、タグ欄及び付与先欄を含む。
図4(A)の例では、「KPIツリー」というカタログメニューとして、「売上」及び「コスト」という2つのタグ(目的変数)が登録されており、「売上」タグの付与先として「既存顧客」及び「新規顧客」という2つのタグ(説明変数)が登録されているとともに、「コスト」タグの付与先として「固定費」及び「変動費」という2つのタグ(説明変数)が登録されていることを示す。さらに図示の例では、「売上」タグは、「金額」を格納しているカラムに付与されることを示すとともに、「既存顧客」タグ及び「新規顧客」タグは、それぞれ「顧客ID」を格納しているカラムに付与されることを示している。
なお、図4(A)の例では、「売上」の内訳が「既存顧客」と「新規顧客」というようなツリー構造(包含関係)を表す場合を示したが、「商流」というカタログメニューのように「自社が所属する業種の売上」(目的変数)に対して、「売り手業種の売上」(説明変数)と「買い手業種の売上」(説明変数)といったような順序関係を表すような関係性でもよい。
図4(B)に示すように、ソース分類ルール2125は、評価対象欄、条件欄及びタグ欄を含んでいる。例えば、図4(B)の例では、各現場データ312及び業務データ612に関して、評価対象として「入手元」のシステムを選定し、入手元の判定処理の条件として「=CRM」、すなわち、CRMシステムから収集した情報であった場合は、タグとして「KPIツリー.売上」すなわち、KPIツリーカタログの売上タグを付与することを示している。なお、タグ欄における「.」は、その左右の情報に関連性または因果関係があることを表す。
図1に示すデータ管理ノード2は、内部データとして、次のようなデータソース管理データ2126、及び、後述するカタログマッピングデータ2127を生成する。
図5(A)は、図2に示すデータソース管理データ2126の一例を示し、図5(B)は、図2に示すカタログマッピングデータ2127の一例を示す。データソース管理データ2126は、各データを互いに識別するための各データのためのデータID欄、及び、各データの入手元を示す入手元欄を含む。本実施の形態では、この入手元に関する情報を「入手元情報」ともいう。
図5(A)の一例では、例えばデータIDが「原価管理データ」、すなわち原価管理データ2121の入手元が「ERP」システムであることを示している。
図5(B)に示すようにカタログマッピングデータ2127は、カタログメニューを表すカタログメニュー欄、タグ欄、及びマッピング欄を含む。このマッピング欄は、現場データ312や業務データ612に対応する。
例えば、図5(B)の例では、カタログメニューとして「KPIツリー」を例示すると、売上タグが「既存顧客」である場合には、マッピング欄として「顧客管理データ.顧客種別」とあるように「顧客管理データ」の「顧客ID」カラムにマッピングされていることを示している。なお、マッピング欄における「.」は、その左右の項目に関連性または因果関係があることを表す。
(1−2)データカタログ自動生成方法
データカタログ自動生成システム1は以上のような構成であり、次に、図1〜図5を参照しつつ、データカタログ自動生成システム1の動作例について説明する。
図6は、カタログ登録処理の処理手順の一例を示す。データ管理部2111は、例えば分析システム5からカタログデータ512の登録要求を受け付けると(ステップS601)、次のようなカタログ登録処理を実行する。
具体的には、データ管理部2111は、入力されたカタログデータ512に関して、このカタログデータ512に含まれるカタログメニューデータ2124を図4(A)に示すように登録する一方(ステップS602)、そのカタログデータ512に含まれるソース分類ルール2125も、図4(B)に示すように登録する(ステップS603)。
図7は、データ登録処理の処理手順の一例を示す。データカタログ自動生成システム1では、データ管理部2111が、上述のように現場システム3から現場データ312の登録要求、及び、業務システム6から業務データ612の登録要求の少なくとも一方を受け付けると(ステップS701)、これを各々対応する原価管理データ2121、受注管理データ2122及び顧客管理データ2123に登録する(ステップS702)。
さらにデータ管理部2111は、その登録要求に含まれる入手元情報(例えばCRMかERPか)を、原価管理データ2121、受注管理データ2122または顧客管理データ2123を表すデータIDごとに、図5(A)に示すようにデータソース管理データ2126に登録する(ステップS703)。
次に、分類判定部2112は、後述するソース分類処理を実行することにより(ステップS704)、上述のように登録したデータがカタログメニューのどのタグに該当するものであるかを判定し、その判定結果を、図5(B)に示すカタログマッピングデータ2127に登録する(ステップS705)。
図8は、図7に示すソース分類処理の処理手順の一例を示す。まず、分類判定部2112は、データ管理部2111からの判定要求に応じて、指定された上記登録済のデータに関してマッピング先を特定すべく、ソース分類ルール2125及びデータソース管理データ2126を参照しつつ付与先としてのタグ(カタログタグ)を特定する(ステップS801)。
例えば、受注管理データ2122が登録された場合、分類判定部2112は、図5(A)に示すデータソース管理データ2126を参照することにより、そのデータIDに基づいて入手元が「CRM」であることを特定する。
次に、分類判定部2112は、例えば事前に登録済みのソース分類ルール2125(図4(B)参照)を参照することにより、上述したように入手元が「CRM」であるため、タグとして「KPIツリー.売上」を付与、すなわち、受注管理データ2122についてKPIツリー分析が実施される場合の売上に分類されることを特定することができる。
なお、ここでは、ソース分類ルール2125は、事前に登録された静的な情報として説明したが、入力されたデータ(ここでは、受注管理データ2122に相当)に対する機械学習処理、例えば目的変数及びその説明変数に関するテーブル形式の当該データ内で使用される頻出語分析、またはそのテーブルにおける複数のカラム間の関係優先度などに基づいて、ソース分類ルール2125を拡張しながら適用するようにしてもよい。
一方、例えば、上述した入力されたデータの入手元が不明だった場合、分類判定部2112は、入手元が既知の原価管理データ2121や顧客管理データ2123と、上記入力されたデータの各カラムやレコードで使用される単語とを比較して類似度を算出し、この類似度に基づいて上記入力されたデータがどちらのデータに近いかを判定することにより、入手元が「ERP」か「CRM」かを判定した上で、ソース分類ルール2125を適用するようにしても良い。
さらに、データソース管理データ2126の入手元には、「ERP」や「CRM」などのシステム情報だけではなく、「営業データ」などの業務名や「東京本社」などの拠点名といった、現場データ312や業務データ612の登録者がそれぞれのデータを補足説明するために任意の情報を、それぞれのデータIDに対して、1つまたは複数登録することができ、ソース分類ルール2125の条件欄は、複数の入力元情報を組み合わせた条件式を記述する(例えば、「= (CRM or 営業データ)」)としてもよい。
逆に、過去にタグを付与したカタログマッピングデータ2127及びソース分類ルール2125に対する機械学習処理により、データソース管理データ2126の入手元欄の共通パターンを抽出し、入手元欄の入力候補として現場データ312または業務データ612の登録者に提示するとしてもよい。例えば、「入手元欄にCRMという記述があれば必ず営業データも併記されている」場合は、CRMが入力された時点で営業データを候補として提示する。
分類判定部2112は、上述した入力されたデータを、図5(B)に示すようにカタログマッピングデータ2127に登録する(ステップS802)。
図9は、カタログ検索処理の処理手順の一例を示す。まず、データ管理部2111は、ユーザが選択したカタログデータ512及び目的変数(検索キーなどに相当)の情報を受け付けると(ステップS901)、上述したカタログマッピングデータ2127を参照し、上記選択されたカタログデータ512にマッピングされている収集対象データを特定する(ステップS902)。
次に、データ管理部2111は、上述のように特定した収集対象データに関して、後述するデータ変換処理を実施した後(ステップS903)、その検索結果をユーザに提示する(ステップS904)。
図10は、図9に示すデータ変換処理の具体的な処理手順の一例を示す。まず、変換処理部2113は、データ管理部2111からの判定要求に応じて、カタログメニューデータ2124を参照してタグを付与すべき付与先を判定する(ステップS1001)。
ステップS1001においてタグをテーブル形式のデータのカラムに付与すると判定した場合、すなわち、このタグがテーブルのカラム名と一致する場合、変換処理部2113は、このカラム名をキーとして、図5(B)に示すカタログマッピングデータ2127に登録する(ステップS1002)。
一方、ステップS1001においてタグをテーブル形式のデータのレコードに付与すると判定した場合、すなわち、このタグがテーブルのカラム名と一致しない場合、変換処理部2113は、付与するテーブルを検索し(ステップS1003)、図5(B)に示すカタログマッピングデータ2127に、説明変数としてのカラム名を追加、すなわち、このカラムとしてタグを付与した後(ステップS1004)、上記同様に、当該カラム名をキーとして、図5(B)に示すカタログマッピングデータ2127に登録する(ステップS1002)。
本実施の形態によれば、以上のようにタグを自動的に登録することができるため、現場データに関する知識のない分析者でも、現場データから上記タグを用いて分析用データを選定して分析に活用することができるようになる。
(2)第2の実施の形態
第2の実施の形態に係るDataLakeシステム1Aでは、第1の実施の形態に係るDataLakeシステム1とほぼ同様の構成及び動作であるため、以下では両実施の形態の相違点を中心として説明する。
第2の実施の形態では、データ管理ノード2Aは、分析システム5において生成された分析結果のデータ(データマート)が生成された後に、そのデータマートに対するデータ登録処理及びカタログ検索処理を実行する、以下、第1の実施の形態との差異を中心に第2の実施の形態について説明する。
図11は、第2の実施の形態におけるデータ管理ノード2Aの構成例を示し、特にデータ管理ノード2Aがメモリ24に保有する情報及びプログラムの一例を示す。
第2の実施の形態では、データ管理ノード2Aが、そのメモリ24に、各現場データを分類するための分類ルールとしての操作分類ルール2129が用意されている。このデータ管理ノード2Aは、そのメモリ24に、分析システム5からの登録要求に含まれるデータマート2128を有する。
データ管理ノード2Aでは、変換処理部2113等が、データ管理部2111からの処理要求を受付けた際に、操作分類ルール2129を用いて後述する処理を実行する。
図12は、図11に示すデータマート2128の一例である。データマート2128は、そのカラムとして、製品ID欄、コスト合計欄及び売上欄を有する。
図示の例では、分析システム5で生成したデータマート2128として次のようになっている。例えば、製品ID「Product A」は、コスト合計として固定費「1500」円、変動費「4200」円掛かっており、売上げが「1980」円であることを示す。一方、例えば、製品ID「Product B」は、コスト合計として固定費「1300」円、変動費「3100」円掛かっており、売上げが「600」円であることを示す。
図13(A)は、図11に示す操作分類ルール2129の一例である。操作分類ルール2129は、そのカラムとして、例えば、条件(判定処理用)欄及び操作分類ルール欄を有する。操作分類ルール欄は、前述した操作分類ルール2129に対応している。
例えば、図13(A)の例では、データマート2128を生成する際に用いるクエリが、条件「select (Y) where (X)」に合致する場合、操作分類ルールとして、テーブルXのカラムYに付与されているタグを継承し、データマート2128のタグとして付与する。
一方、例えば、図13(A)の例ではさらに、データマート2128を生成する際に用いるクエリが、条件「join(X1,X2) on x1=x1」に合致する場合、操作分類ルールとして、テーブルX1とX2に付与されているタグを継承し、データマート2128のタグとして付与する。
図13(B)は、図11に示すカタログマッピングデータ2127Aの一例を示す。カタログマッピングデータ2127Aは、第1の実施の形態におけるカタログマッピングデータ2127とほぼ同様であるが、以下のような点において相違している。
カタログマッピングデータ2127Aは、そのカラムとして、第1の実施の形態におけるカタログマッピングデータ2127のカタログメニュー欄、タグ欄及びマッピング欄に加えてさらに、関連タグ欄を有する。
例えば、図13(B)に示す例では、カタログメニュー「KPIツリー」の「売上」タグが、マッピングとして、例えばデータマートの支払い合計カラムを意味する「データマート.売上げ」に付与され、さらに、関連タグとして、例えば受注管理データの支払い額カラムを意味する「受注管理データ.支払額」が付与されていることを示す。
図14は、第2の実施の形態におけるデータ登録処理の処理手順の一例を示す。まず、データ管理部2111は、分析システム5から、あるデータのデータ登録要求を受け付けると(ステップS1401)、そのデータをデータマート2128としてデータ管理部2111に登録する(ステップS1402)。
次に、データ管理部2111は、操作分類処理を実行する(ステップS1403)。この操作分類処理では、データ管理部2111が、カタログマッピングデータ2127A及び操作分類ルール2129を参照しつつクエリを分析し、上述のようにデータ管理部2111に登録したデータ(データマート2128に相当)がカタログのどのタグに該当するか、さらに、ソースデータとしてどのテーブルから生成されたのかを判定し、その判定結果をカタログデータ512に登録する(ステップS1404)。
図15は、ソースデータを検索するために分析を実施する操作分類処理の処理手順の一例を示す。まず、分類判定部2112は、データ管理部2111からの判定要求に応じて、指定されたデータマート2128に付与されたクエリに基づいて、当該クエリで参照したソースデータとしてどのテーブルから生成されたのかを判定する(ステップS1501)。
ここで、上述した操作分類処理では、ソースデータとしてどのテーブルから生成されたものかを判定しているが、上述したデータマート2128に加えて、ソースデータ情報も分析システム5から入力するようにしても良い。
次に、分類判定部2112は、操作分類ルール2129を参照し、付与すべきタグを特定し(ステップS1502)、当該特定したタグを、図13(B)に示すカタログマッピングデータ2127に登録する(ステップS1503)。
図16は、第2の実施の形態におけるカタログ検索処理の処理手順の一例を示す。なお、ステップS1601からステップS1603までの処理は、第1の実施の形態におけるカタログ検索処理(図9参照)のステップS901からステップS903までの処理と同様であるため、これらに関する説明は省略する。
データ管理部2111は、ソースデータを、収集対象データに関連するデータとして付与する(ステップS1604)。
データ管理部2111は、ステップS1602において収集対象データとして特定したデータマート2128に関して、図13(B)に示すカタログマッピングデータ2127の関連タグ欄を参照することにより、データマート2128のソースデータを特定し、その特定したソースデータを検索結果として表示する(ステップS1605)。
図17は、第2の実施の形態においてデータマート2128に対してタグを付与する一例を示す。まず、以下にデータマート2128を生成するためのクエリの一例を示す。
X=原価管理データ2121
及び
Y=受注管理データ2122
に対して、下記クエリを実行するための中間テーブルTを生成する。
T=Join(X,Y) on 製品ID = 製品ID
このとき、中間テーブルTには、原価管理データ2121及び受注管理データ2122のすべてのカラムがコピーされ、原価管理データ2121の製品ID欄及び受注管理データ2122の製品ID欄が同じ値のレコードが組として結合されている。
ここで、操作分類処理(前述した図14のS1403に相当)が実行されると、分類判定部2112が、ソースデータとして原価管理データ2121及び受注管理データ2122を特定し(前述した図15のステップS1501に相当)、操作分類ルール2129において2つ目に登録されているJoinのルールを適用し、原価管理データ2121及び受注管理データ2122のすべてのタグが中間テーブルTのカラムに継承される。
具体的には、分類判定部2112が、カタログマッピングデータ2127を参照することにより、受注管理データ2122の固定費欄及び変動費欄に付与されている「コスト」のタグ、及び、原価管理データ2121の支払額欄に付与されている「売上」のタグが、中間テーブルTの固定費欄、変動費欄及び支払額欄に継承されて、付与される。
さらに中間テーブルTの各カラムに対しては、次のようにタグを付与する。原価管理データ2121からコピーしたカラムには、原価管理データ2121のカラムが関連タグとして付与される。受注管理データ2122からコピーしたカラムには、受注管理データ2122のカラムが関連タグとして付与される(前述した図15のステップS1502に相当)。
次に、分類判定部2112は、
Z=データマート2128
とし、生成した中間テーブルTに対して、次のようなクエリを実行することによりデータマート2128を得ることができる。
Z=Select(製品ID,コスト合計、支払額 AS 売上額) Where T
このとき、データマート2128には、中間テーブルTの製品ID欄、コスト合計欄及び支払額欄がコピーされ、さらに、このうち支払額欄はカラム名が売上額欄に書き換えられている。
ここで、先ほどと同様に、前述した操作分類処理(図14のステップS1403)のステップS1502が実行された場合、図13(A)に示す操作分類ルール2129において1つ目に登録されているSelectルールが適用される。すなわち、中間テーブルTの固定費及び変動費欄に付与されている「コスト」のタグ、及び支払額欄に付与されている「売上」のタグが、それぞれ固定費欄、変動費欄及び売上欄に継承されて、付与される(前述した図15のステップS1502に相当)。その結果は、カタログマッピングデータ2127のマッピング欄に登録される。
さらに、データマート2128の固定費欄及び変動費欄には、中間テーブルTの固定費欄及び変動費欄に付与されている原価管理データ2121の固定費欄及び変動費欄が関連タグとして付与される。一方、データマート2128の売上げ欄には、中間テーブルTの支払額欄に付与されている受注管理データ2122の支払額欄が関連タグとして付与される(前述した図16のステップS1603に相当)。
以上の操作を実行することにより、データ管理ノード2Aは、データマート2128に対するカタログマッピングデータ2127を生成することができる。
以上のような処理を実行することにより、データマート2128としてソースデータから加工した2次データとしての中間テーブルTに対するカタログ登録処理及び、検索した際のソースデータとの対応付けを実現することにより、当該データマート2128を生成したクエリを使用した分析者とは異なる他の分析者のための他のデータマートを推定することができる。
(3)KPIツリーの編集に際して分類できない場合のバリエーション
上述した各実施の形態においては、上述のように分類ができない場合には、次のようにしても良い。
(3−1)1対1のマッピングができない場合
KPIツリーの下位層(例えばクエリによって操作されるソースデータ)でマッピングできない場合、上位層(例えばデータマート2128)でマッピングするようにしても良い。さらには、ユーザによるマッピングを支援するために、表示装置に分類候補を絞り込んだ情報を表示してユーザにこれらを提示するようにしても良い。
(3−2)KPIがツリー形式とならない場合
例えば、売り上げ向上のための既存顧客への広告、及び、売り上げ向上のための新規顧客への広告のように、KPIがツリー形式にならない場合には、基本方針としてタグは可能な限り簡素化する。例えば、それぞれの広告の分離条件が分類ルールとして規定できる場合には、別指標としてカタログタグ化するようにする一方、そのように規定できない場合には、カタログタグ化せず、表示装置に、ユーザによる分類候補の絞り込み情報を表示し、これらをユーザに提示するようにする。
(4)その他の実施形態
上記実施形態は、本発明を説明するための例示であり、本発明をこれらの実施形態にのみ限定する趣旨ではない。本発明は、その趣旨を逸脱しない限り、様々な形態で実施することができる。以上の説明においては、「〜テーブル」等の表現にて情報を説明することがあったが、これら情報は、テーブル等のデータ構造以外で表現されていてもよい。そのため、データ構造に依存しないことを示すために「〜テーブル」等について「〜情報」と呼ぶことがある。各情報の内容を説明する際に、「番号」、「名称」という表現の識別情報が採用されるが、他種の識別情報が使用されて良い。さらに以上の説明における「〜処理」は、「〜プログラム」であってもよい。まら、以上の説明における「〜部」を主語とした説明は、プロセッサを主語とした説明としてもよい。処理の一部または全ては、専用ハードウェアによって実現されてもよい。各種プログラムは、プログラム配布サーバや、計算機が読み取り可能な非一時的記憶媒体から各計算機にインストールされる形態であってもよい。
本発明は、いわゆるDataLakeシステムにおいて現場で標準化されていない現場データを分類して分析する技術に関するデータカタログ自動生成システムに広く適用することができる。
1……計算機システム、2……データ管理ノード、3……現場システム、4……ネットワークスイッチ、5……分析システム、6……業務システム。

Claims (6)

  1. 収集される各現場データのうちから分析用データを選定するために用いるカタログタグを生成するデータカタログ自動生成システムにおいて、
    前記各現場データを受け取る現場データ受取部と、
    設定された分類ルールに基づいて、前記各現場データの分析観点としての目的変数と前記目的変数に対応する説明変数との関係性、または、前記目的変数に対応する複数の前記説明変数同士間の因果関係を抽出し、前記関係性または前記因果関係の抽出結果に基づいてカタログタグを前記各現場データに付与して管理するデータ管理部と、
    を備えることを特徴とするデータカタログ自動生成システム。
  2. 前記データ管理部は、
    前記分類ルールとしてのソース分類ルールと、前記各現場データの入手元であるソースデータに付与された補足情報とに基づいて前記目的変数のカタログタグ及び前記説明変数のカタログタグを特定することを特徴とする請求項1に記載のデータカタログ自動生成システム。
  3. 前記データ管理部は、
    前記目的変数及び前記説明変数に関するテーブル内で使用される頻出語分析、または、前記テーブルにおける複数の前記カラム間の関係優先度に基づいて、前記ソース分類ルールを拡張することを特徴とする請求項2に記載のデータカタログ自動生成システム。
  4. 前記データ管理部は、
    生成されたデータマートを生成する際に用いられたクエリが所定の条件に該当する場合、前記分類ルールとしての操作分類ルールに基づいて、前記クエリに用いられた前記各現場データを特定して前記目的変数のカタログタグを付与して管理する請求項1に記載のデータカタログ自動生成システム。
  5. 前記データ管理部は、
    生成済のデータマートを生成した前記クエリから他のデータマートを推定する請求項4に記載のデータカタログ自動生成システム。
  6. 収集される各現場データのうちから分析用データを選定するために用いるカタログタグを生成するデータカタログ自動生成方法において、
    現場データ受取部が、前記各現場データを受け取るステップと、
    データ管理部が、設定された分類ルールに基づいて、前記各現場データの分析観点としての目的変数と前記目的変数に対応する説明変数との関係性、または、前記目的変数に対応する複数の前記説明変数同士間の因果関係を抽出し、前記関係性または前記因果関係の抽出結果に基づいてカタログタグを前記各現場データに付与して管理するステップと、
    を有することを特徴とするデータカタログ自動生成方法。
JP2018075488A 2018-04-10 2018-04-10 データカタログ自動生成システム及びその自動生成方法 Active JP6782275B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018075488A JP6782275B2 (ja) 2018-04-10 2018-04-10 データカタログ自動生成システム及びその自動生成方法
US16/379,501 US11308102B2 (en) 2018-04-10 2019-04-09 Data catalog automatic generation system and data catalog automatic generation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018075488A JP6782275B2 (ja) 2018-04-10 2018-04-10 データカタログ自動生成システム及びその自動生成方法

Publications (2)

Publication Number Publication Date
JP2019185394A true JP2019185394A (ja) 2019-10-24
JP6782275B2 JP6782275B2 (ja) 2020-11-11

Family

ID=68097191

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018075488A Active JP6782275B2 (ja) 2018-04-10 2018-04-10 データカタログ自動生成システム及びその自動生成方法

Country Status (2)

Country Link
US (1) US11308102B2 (ja)
JP (1) JP6782275B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7381290B2 (ja) * 2019-10-28 2023-11-15 株式会社日立製作所 計算機システム及びデータの管理方法
US11874853B2 (en) 2020-09-09 2024-01-16 Satori Cyber Ltd. Data classification by on-the-fly inspection of data transactions
JP2022172843A (ja) * 2021-05-07 2022-11-17 株式会社日立製作所 データ検索システムおよび方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020128998A1 (en) * 2001-03-07 2002-09-12 David Kil Automatic data explorer that determines relationships among original and derived fields
US6965895B2 (en) * 2001-07-16 2005-11-15 Applied Materials, Inc. Method and apparatus for analyzing manufacturing data
JP4446231B2 (ja) 2001-07-30 2010-04-07 アプライド マテリアルズ インコーポレイテッド 製造データ分析方法及び装置
US9020910B2 (en) * 2010-01-13 2015-04-28 International Business Machines Corporation Storing tables in a database system
JP6226516B2 (ja) 2012-09-05 2017-11-15 古野電気株式会社 ドップラ処理装置、レーダ装置、ドップラ処理方法及びドップラ処理プログラム
US20150213035A1 (en) 2014-01-24 2015-07-30 Bit Stew Systems Inc. Search Engine System and Method for a Utility Interface Platform
US10536363B2 (en) * 2016-05-18 2020-01-14 Dynatrace Llc Synthetic testing of web applications using instrumented monitoring agents
US10120534B2 (en) * 2016-09-21 2018-11-06 Cisco Technology, Inc. Dynamic user interface of inter-related systems management widgets

Also Published As

Publication number Publication date
JP6782275B2 (ja) 2020-11-11
US20190310982A1 (en) 2019-10-10
US11308102B2 (en) 2022-04-19

Similar Documents

Publication Publication Date Title
WO2018072071A1 (zh) 知识图谱构建系统及方法
JP6028103B2 (ja) データ管理方法、データ管理装置及び記憶媒体
CN103733194A (zh) 动态组织云计算资源以便于发现
JP6782275B2 (ja) データカタログ自動生成システム及びその自動生成方法
CN109933803B (zh) 一种成语信息展示方法、展示装置、电子设备及存储介质
Azevedo et al. Implementing a business intelligence cost accounting solution in a healthcare setting
US10552423B2 (en) Semantic tagging of nodes
CN110929120B (zh) 管理技术元数据的方法和装置
CN110879799B (zh) 标注技术元数据的方法和装置
CN116383193A (zh) 一种数据管理方法、装置、电子设备和存储介质
US20180329873A1 (en) Automated data extraction system based on historical or related data
JP2020013413A (ja) 判断支援装置および判断支援方法
KR102547033B1 (ko) 키워드 인식 기능을 활용하여 사용자가 선택한 방식으로 정보를 제공하는 방법
JP4852834B2 (ja) アプリケーション要件設計支援システムおよび方法
CN111078988A (zh) 一种电力服务信息热点检索方法、装置和电子设备
JP2019101829A (ja) ソフトウェア部品管理システム、計算機および方法
JP6017055B2 (ja) データ連携支援装置及びデータ連携支援方法
JP2014182421A (ja) クラスタ形成装置、クラスタ形成方法及びクラスタ形成プログラム
Barret et al. Predicting the Environment of a Neighborhood: A Use Case for France.
JP2021193537A (ja) ビジネスマッチング支援装置及び方法
KR102488466B1 (ko) 테이블 다이어그램 기반형 키-밸류 db 설계 정보처리장치 및 방법
CN108897873A (zh) 一种生成作业文件的方法、装置、存储介质及处理器
Naureen Big Data Analytics with Hadoop
CN110209918A (zh) 一种基于日期事件的文本处理方法、装置以及电子设备
JP7147258B2 (ja) データ生成方法、データ生成プログラム及び情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190426

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200414

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200601

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200929

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201019

R150 Certificate of patent or registration of utility model

Ref document number: 6782275

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150