JP2019185394A - データカタログ自動生成システム及びその自動生成方法 - Google Patents
データカタログ自動生成システム及びその自動生成方法 Download PDFInfo
- Publication number
- JP2019185394A JP2019185394A JP2018075488A JP2018075488A JP2019185394A JP 2019185394 A JP2019185394 A JP 2019185394A JP 2018075488 A JP2018075488 A JP 2018075488A JP 2018075488 A JP2018075488 A JP 2018075488A JP 2019185394 A JP2019185394 A JP 2019185394A
- Authority
- JP
- Japan
- Prior art keywords
- data
- catalog
- column
- tag
- automatic generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/24765—Rule-based classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Library & Information Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
(1−1)システム構成
図1は、第1の実施の形態によるDataLakeシステムの概略構成を示す。このDataLakeシステムは、データカタログ自動生成システムの一例であり、例えばデータセンタに設置された計算機システムを示す。
データカタログ自動生成システム1は以上のような構成であり、次に、図1〜図5を参照しつつ、データカタログ自動生成システム1の動作例について説明する。
第2の実施の形態に係るDataLakeシステム1Aでは、第1の実施の形態に係るDataLakeシステム1とほぼ同様の構成及び動作であるため、以下では両実施の形態の相違点を中心として説明する。
及び
Y=受注管理データ2122
に対して、下記クエリを実行するための中間テーブルTを生成する。
T=Join(X,Y) on 製品ID = 製品ID
Z=データマート2128
とし、生成した中間テーブルTに対して、次のようなクエリを実行することによりデータマート2128を得ることができる。
Z=Select(製品ID,コスト合計、支払額 AS 売上額) Where T
上述した各実施の形態においては、上述のように分類ができない場合には、次のようにしても良い。
KPIツリーの下位層(例えばクエリによって操作されるソースデータ)でマッピングできない場合、上位層(例えばデータマート2128)でマッピングするようにしても良い。さらには、ユーザによるマッピングを支援するために、表示装置に分類候補を絞り込んだ情報を表示してユーザにこれらを提示するようにしても良い。
例えば、売り上げ向上のための既存顧客への広告、及び、売り上げ向上のための新規顧客への広告のように、KPIがツリー形式にならない場合には、基本方針としてタグは可能な限り簡素化する。例えば、それぞれの広告の分離条件が分類ルールとして規定できる場合には、別指標としてカタログタグ化するようにする一方、そのように規定できない場合には、カタログタグ化せず、表示装置に、ユーザによる分類候補の絞り込み情報を表示し、これらをユーザに提示するようにする。
上記実施形態は、本発明を説明するための例示であり、本発明をこれらの実施形態にのみ限定する趣旨ではない。本発明は、その趣旨を逸脱しない限り、様々な形態で実施することができる。以上の説明においては、「〜テーブル」等の表現にて情報を説明することがあったが、これら情報は、テーブル等のデータ構造以外で表現されていてもよい。そのため、データ構造に依存しないことを示すために「〜テーブル」等について「〜情報」と呼ぶことがある。各情報の内容を説明する際に、「番号」、「名称」という表現の識別情報が採用されるが、他種の識別情報が使用されて良い。さらに以上の説明における「〜処理」は、「〜プログラム」であってもよい。まら、以上の説明における「〜部」を主語とした説明は、プロセッサを主語とした説明としてもよい。処理の一部または全ては、専用ハードウェアによって実現されてもよい。各種プログラムは、プログラム配布サーバや、計算機が読み取り可能な非一時的記憶媒体から各計算機にインストールされる形態であってもよい。
Claims (6)
- 収集される各現場データのうちから分析用データを選定するために用いるカタログタグを生成するデータカタログ自動生成システムにおいて、
前記各現場データを受け取る現場データ受取部と、
設定された分類ルールに基づいて、前記各現場データの分析観点としての目的変数と前記目的変数に対応する説明変数との関係性、または、前記目的変数に対応する複数の前記説明変数同士間の因果関係を抽出し、前記関係性または前記因果関係の抽出結果に基づいてカタログタグを前記各現場データに付与して管理するデータ管理部と、
を備えることを特徴とするデータカタログ自動生成システム。 - 前記データ管理部は、
前記分類ルールとしてのソース分類ルールと、前記各現場データの入手元であるソースデータに付与された補足情報とに基づいて前記目的変数のカタログタグ及び前記説明変数のカタログタグを特定することを特徴とする請求項1に記載のデータカタログ自動生成システム。 - 前記データ管理部は、
前記目的変数及び前記説明変数に関するテーブル内で使用される頻出語分析、または、前記テーブルにおける複数の前記カラム間の関係優先度に基づいて、前記ソース分類ルールを拡張することを特徴とする請求項2に記載のデータカタログ自動生成システム。 - 前記データ管理部は、
生成されたデータマートを生成する際に用いられたクエリが所定の条件に該当する場合、前記分類ルールとしての操作分類ルールに基づいて、前記クエリに用いられた前記各現場データを特定して前記目的変数のカタログタグを付与して管理する請求項1に記載のデータカタログ自動生成システム。 - 前記データ管理部は、
生成済のデータマートを生成した前記クエリから他のデータマートを推定する請求項4に記載のデータカタログ自動生成システム。 - 収集される各現場データのうちから分析用データを選定するために用いるカタログタグを生成するデータカタログ自動生成方法において、
現場データ受取部が、前記各現場データを受け取るステップと、
データ管理部が、設定された分類ルールに基づいて、前記各現場データの分析観点としての目的変数と前記目的変数に対応する説明変数との関係性、または、前記目的変数に対応する複数の前記説明変数同士間の因果関係を抽出し、前記関係性または前記因果関係の抽出結果に基づいてカタログタグを前記各現場データに付与して管理するステップと、
を有することを特徴とするデータカタログ自動生成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018075488A JP6782275B2 (ja) | 2018-04-10 | 2018-04-10 | データカタログ自動生成システム及びその自動生成方法 |
US16/379,501 US11308102B2 (en) | 2018-04-10 | 2019-04-09 | Data catalog automatic generation system and data catalog automatic generation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018075488A JP6782275B2 (ja) | 2018-04-10 | 2018-04-10 | データカタログ自動生成システム及びその自動生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019185394A true JP2019185394A (ja) | 2019-10-24 |
JP6782275B2 JP6782275B2 (ja) | 2020-11-11 |
Family
ID=68097191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018075488A Active JP6782275B2 (ja) | 2018-04-10 | 2018-04-10 | データカタログ自動生成システム及びその自動生成方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11308102B2 (ja) |
JP (1) | JP6782275B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7381290B2 (ja) * | 2019-10-28 | 2023-11-15 | 株式会社日立製作所 | 計算機システム及びデータの管理方法 |
US11874853B2 (en) | 2020-09-09 | 2024-01-16 | Satori Cyber Ltd. | Data classification by on-the-fly inspection of data transactions |
JP2022172843A (ja) * | 2021-05-07 | 2022-11-17 | 株式会社日立製作所 | データ検索システムおよび方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020128998A1 (en) * | 2001-03-07 | 2002-09-12 | David Kil | Automatic data explorer that determines relationships among original and derived fields |
US6965895B2 (en) * | 2001-07-16 | 2005-11-15 | Applied Materials, Inc. | Method and apparatus for analyzing manufacturing data |
JP4446231B2 (ja) | 2001-07-30 | 2010-04-07 | アプライド マテリアルズ インコーポレイテッド | 製造データ分析方法及び装置 |
US9020910B2 (en) * | 2010-01-13 | 2015-04-28 | International Business Machines Corporation | Storing tables in a database system |
JP6226516B2 (ja) | 2012-09-05 | 2017-11-15 | 古野電気株式会社 | ドップラ処理装置、レーダ装置、ドップラ処理方法及びドップラ処理プログラム |
US20150213035A1 (en) | 2014-01-24 | 2015-07-30 | Bit Stew Systems Inc. | Search Engine System and Method for a Utility Interface Platform |
US10536363B2 (en) * | 2016-05-18 | 2020-01-14 | Dynatrace Llc | Synthetic testing of web applications using instrumented monitoring agents |
US10120534B2 (en) * | 2016-09-21 | 2018-11-06 | Cisco Technology, Inc. | Dynamic user interface of inter-related systems management widgets |
-
2018
- 2018-04-10 JP JP2018075488A patent/JP6782275B2/ja active Active
-
2019
- 2019-04-09 US US16/379,501 patent/US11308102B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP6782275B2 (ja) | 2020-11-11 |
US20190310982A1 (en) | 2019-10-10 |
US11308102B2 (en) | 2022-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018072071A1 (zh) | 知识图谱构建系统及方法 | |
JP6028103B2 (ja) | データ管理方法、データ管理装置及び記憶媒体 | |
CN103733194A (zh) | 动态组织云计算资源以便于发现 | |
JP6782275B2 (ja) | データカタログ自動生成システム及びその自動生成方法 | |
CN109933803B (zh) | 一种成语信息展示方法、展示装置、电子设备及存储介质 | |
Azevedo et al. | Implementing a business intelligence cost accounting solution in a healthcare setting | |
US10552423B2 (en) | Semantic tagging of nodes | |
CN110929120B (zh) | 管理技术元数据的方法和装置 | |
CN110879799B (zh) | 标注技术元数据的方法和装置 | |
CN116383193A (zh) | 一种数据管理方法、装置、电子设备和存储介质 | |
US20180329873A1 (en) | Automated data extraction system based on historical or related data | |
JP2020013413A (ja) | 判断支援装置および判断支援方法 | |
KR102547033B1 (ko) | 키워드 인식 기능을 활용하여 사용자가 선택한 방식으로 정보를 제공하는 방법 | |
JP4852834B2 (ja) | アプリケーション要件設計支援システムおよび方法 | |
CN111078988A (zh) | 一种电力服务信息热点检索方法、装置和电子设备 | |
JP2019101829A (ja) | ソフトウェア部品管理システム、計算機および方法 | |
JP6017055B2 (ja) | データ連携支援装置及びデータ連携支援方法 | |
JP2014182421A (ja) | クラスタ形成装置、クラスタ形成方法及びクラスタ形成プログラム | |
Barret et al. | Predicting the Environment of a Neighborhood: A Use Case for France. | |
JP2021193537A (ja) | ビジネスマッチング支援装置及び方法 | |
KR102488466B1 (ko) | 테이블 다이어그램 기반형 키-밸류 db 설계 정보처리장치 및 방법 | |
CN108897873A (zh) | 一种生成作业文件的方法、装置、存储介质及处理器 | |
Naureen | Big Data Analytics with Hadoop | |
CN110209918A (zh) | 一种基于日期事件的文本处理方法、装置以及电子设备 | |
JP7147258B2 (ja) | データ生成方法、データ生成プログラム及び情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190426 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200319 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200414 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200601 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200929 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201019 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6782275 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |