JP2011525282A - 子ノード及び親ノードについてのメトリック値を特定することによるデータ品質トラッキング - Google Patents

子ノード及び親ノードについてのメトリック値を特定することによるデータ品質トラッキング Download PDF

Info

Publication number
JP2011525282A
JP2011525282A JP2011514796A JP2011514796A JP2011525282A JP 2011525282 A JP2011525282 A JP 2011525282A JP 2011514796 A JP2011514796 A JP 2011514796A JP 2011514796 A JP2011514796 A JP 2011514796A JP 2011525282 A JP2011525282 A JP 2011525282A
Authority
JP
Japan
Prior art keywords
metric value
parent node
data
child nodes
metric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011514796A
Other languages
English (en)
Other versions
JP5535203B2 (ja
Inventor
デイヴィッド ウォルド
ティム ウェイクリング
モハメド アーシャッド カーン
Original Assignee
アビニシオ テクノロジー エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アビニシオ テクノロジー エルエルシー filed Critical アビニシオ テクノロジー エルエルシー
Publication of JP2011525282A publication Critical patent/JP2011525282A/ja
Application granted granted Critical
Publication of JP5535203B2 publication Critical patent/JP5535203B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Stored Programmes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一般に、ある方法は、1つ以上の子ノードについてのデータ品質と関連するメトリック値を特定すること(502)を含む。当該子ノードの少なくとも幾つかのメトリック値に基づき、親ノードについてのメトリック値が特定され(504)、1つ以上の親ノードと1つ以上の子ノードとの関係が階層を定義する。親ノードについてのメトリック値の特定は、複数のインスタンスについて繰り返される(506)。

Description

本明細書は、データ品質トラッキングに関する。
格納データセットは、種々の特性が事前に知られていないデータを含むことが多い。例えば、データセットについての値の範囲若しくは標準値、当該データセット内の異なるフィールド間の関係、又は異なるフィールドにおける値間での関数従属性が未知である場合がある。このような特性を特定するために、データプロファイリングは、データセットのソースを検査することを含むことができる。データプロファイリングシステムの1つの用途は、データプロファイリングの結果に基づいて、いずれかの単一のデータオブジェクトについて又はデータセット全体についてのデータ品質の尺度を特定することである。
1つの態様において、一般に、ある方法は、1つ以上の子ノードについてのデータ品質と関連するメトリック値を特定することを含む。当該子ノードの少なくとも幾つかのメトリック値に基づき、親ノードについてのメトリック値が特定され、1つ以上の親ノードと1つ以上の子ノードとの関係が階層を定義する。親ノードについてのメトリック値の特定は、複数のインスタンスについて繰り返される。
各態様は、以下の特徴の1つ以上を含むことができる。上記親ノードについてのメトリック値を特定するのに使用される上記1つ以上の子ノードは、子ノードを有していない。当該子ノード及び親ノードによって表されるデータの特性を表すプロファイリング情報が生成される。当該子ノードについてのメトリック値は、当該プロファイリング情報に基づくものである。階層の配列は、ユーザによって規定される。ユーザは、当該プロファイリング情報内の何れのデータフィールドが当該子ノードについてのメトリック値の特定に影響を及ぼすかを規定する。ユーザは、当該子ノードについてのメトリック値の特定に影響を及ぼす1つ以上の予め構築された要因を選択する。当該1つ以上の子ノードについてのメトリック値及び当該親ノードについてのメトリック値は、0から100までの数として表される。当該1つ以上の子ノードについてのメトリック値若しくは当該親ノードについてのメトリック値の一方又は両方が、連続的な折れ線グラフ上の時間の関数として、複数のインスタンスの各々について表示される。当該連続的な折れ線グラフは、当該プロファイリング情報に基づいて、自動的に生成される。当該グラフは、当該子ノードについてのメトリック値の特定を支配するルールにおける変化を示す。当該グラフは、当該親ノードについてのメトリック値の特定に使用されるメトリック値における変化を示す。
もう1つの態様において、一般に、あるコンピュータ可読媒体は、デバイス信号から値を得るのに使用するための実行可能なインストラクションを格納し、当該インストラクションは、1つ以上の子ノードについてのメトリック値をコンピュータに特定させる。当該子ノードの少なくとも幾つかのメトリック値に基づき、親ノードについてのメトリック値が特定され、ここで、1つ以上の親ノードと1つ以上の子ノードとの関係が階層を定義する。親ノードについてのメトリック値の特定は、複数のインスタンスについて繰り返される。
各態様は、以下の特徴の1つ以上を含むことができる。上記親ノードについてのメトリック値を特定するのに使用される上記1つ以上の子ノードは、子ノードを有していない。当該子ノード及び親ノードによって表されるデータの特性を表すプロファイリング情報が生成される。当該子ノードについてのメトリック値は、当該プロファイリング情報に基づくものである。階層の配列は、ユーザによって規定される。ユーザは、当該プロファイリング情報内の何れのデータフィールドが当該子ノードについてのメトリック値の特定に影響を及ぼすかを規定する。ユーザは、当該子ノードについてのメトリック値の特定に影響を及ぼす1つ以上の予め構築された要因を選択する。当該1つ以上の子ノードについてのメトリック値及び当該親ノードについてのメトリック値は、0から100までの数として表される。当該1つ以上の子ノードについてのメトリック値若しくは当該親ノードについてのメトリック値の一方又は両方が、連続的な折れ線グラフ上の時間の関数として、複数のインスタンスの各々について表示される。当該連続的な折れ線グラフは、当該プロファイリング情報に基づいて、自動的に生成される。当該グラフは、当該子ノードについてのメトリック値の特定を支配するルールにおける変化を示す。当該グラフは、当該親ノードについてのメトリック値の特定に使用されるメトリック値における変化を示す。
もう1つの態様において、一般に、あるシステムは、1つ以上の子ノードについてのメトリック値を特定するための手段を含む。あるシステムは、当該子ノードの少なくとも幾つかのメトリック値に基づき、親ノードについてのメトリック値を特定するための手段を更に含み、ここで、1つ以上の親ノードと1つ以上の子ノードとの関係が階層を定義する。あるシステムは、親ノードについてのメトリック値の特定を、複数のインスタンスについて繰り返すための手段を更に含む。
他の特徴及び利点は、以下の説明及び請求項から明らかである。
図1は、プロファイラエンジン及びデータ品質エンジンを含むシステムのブロック図である。
図2は、データセットについてのデータ品質メトリックを生成するプロセスを示すフローチャートである。
図3は、グラフィカルユーザインターフェースの例を示す。
図4は、階層の例である。
図5は、プロファイリング情報を表す値を生成するプロセスを示すフローチャートである。
図6Aは、時間に対するメトリック値に基づくグラフである。
図6Bは、概略報告に基づくグラフである。
図1を参照すると、データ処理システム100は、オブジェクトデータストア102からのデータを処理するのに使用されるプロファイラエンジン104を含む。オブジェクトデータストア102におけるデータオブジェクトは、例えば、レコードフォーマットによって定義されるレコードのフィールドと関連するオブジェクトを含むことができる。ユーザインターフェース106を通して、ユーザ110は、オブジェクトデータストア102内のオブジェクトと関連する格納プロファイリング情報(時として、「フィールドプロファイル」と称される)にデータ品質エンジン108をアクセスさせることができる。当該データ品質エンジンは、オブジェクトデータストア102に格納されるオブジェクトについてのデータ品質(時として、「メトリック値」又は「データ品質メトリック」と称される)に関係のある情報を生成することができ、ユーザインターフェース106を通して当該生成された情報をユーザに表示することができる。
データソース112は、一般に、様々な個々のデータソースを含み、それらの各々は、独特な格納フォーマット及びインターフェース(例えば、データベーステーブル、スプレッドシートファイル、フラットテキストファイル、又はメインフレームによって使用されるネイティブフォーマット)を有していてもよい。当該個々のデータソースは、例えば、同じコンピュータシステム上にホストされるなど、当該システムに対してローカルであってもよく、又は、例えば、ローカルエリア若しくはワイドエリアのデータネットワーク越しにアクセスされるリモートコンピュータ上にホストされるなど、当該システムに対してリモートであってもよい。
オブジェクトデータストア102は、データソース112におけるデータに関係する情報を含む。このような情報は、レコードフォーマット並びに、それらのレコードにおけるフィールド値のバリディティを特定するための仕様を含むことができる。データソース112内に出現するレコードの異なるフィールド間の関係(例えば、主キーと外部キーとの関係)は、様々な方法で表すことができる。例えば、オブジェクトデータストア102におけるデータオブジェクト間に存在する階層関係を、階層として表してもよい。
オブジェクトデータストア102を使用して、プロファイルされるべきデータソース112におけるデータセットに関する初期情報、並びに、このようなデータセットについて得られる情報を格納することができる。そのデータセットから当該プロファイリングプロセスによって導かれるフィールドプロファイルもまた、オブジェクトデータストア102に格納してもよい。
システム100は、オブジェクトデータストア102からデータを読み取るプロファイラエンジン104を含む。データソース112から初めてデータを読み取る際、プロファイラエンジン104は、概して、そのデータソースにおけるレコードに関する幾つかの初期フォーマット情報によって起動する。(環境によっては、当該データソースのレコード構造さえ知られていない場合があることに注意。)レコードに関する初期情報は、ディスティンクト値を表すビット数(例えば、16ビット(=2バイト))及び値の順序(レコードフィールドと関連する値及びタグ又はデリミタと関連する値を含む)、並びに当該ビットによって表される値の型(例えば、文字列、符号有り/符号無し整数)を含むことができる。データソースのレコードに関するこの情報は、オブジェクトデータストア102に格納されるデータ操作言語(DML)ファイルにおいて規定される。プロファイラエンジン104は、事前に定義されたDMLファイルを使用して様々な共通データシステムフォーマット(例えば、SQLテーブル、XMLファイル、CSVファイル)からデータを自動的に解釈したり、カスタマイズされたデータシステムフォーマットを既述するオブジェクトデータストア102から得られるDMLファイルを使用することができる。また、プロファイラエンジン104が、ユーザが与えたSQL文及びXMLスキーマについてのDMLファイルを生成してもよい。
プロファイラエンジン104によるデータの初期読み取りに先立ち、データソースのレコードに関する、部分的で、ひょっとすると不正確な初期情報を当該システムが利用可能である場合もある。例えば、データソースと関連するCOBOLコピーブックを、格納データとして利用可能である場合もあり、又はユーザインターフェース106を通してユーザ110が入力してもよい。一般に、フィールドプロファイルは、そのデータオブジェクトを包含するデータセットをプロファイルすることによって生ずるデータオブジェクトに関する統計情報のコレクションを指す。フィールドプロファイルは、概して、当該プロファイルが計算された日付に関する情報を含む。
プロファイラエンジン104は、データソースからレコードを読み取る際に、当該データセットの内容を反映する統計情報及び他の記述的情報を計算する。次に、プロファイラエンジン104は、それらの統計情報及び他の記述的情報を「プロファイル」の形式で、オブジェクトデータストア102に書き込む。これらの情報はオブジェクトデータストア102へのアクセスを有するユーザインターフェース106又は何らかの他のモジュールを通して後に検査することができる。場合によっては、当該プロファイルにおける統計情報は、例えば、各フィールドにおける値のヒストグラム、最大値、最小値、及び平均値、並びに最も希な値及び最も一般的な値のサンプルを含む。
当該データソースから読み取ることによって得られる当該統計情報は、様々な用途に使用することができる。このような用途には、未知のデータセットの内容を見出すこと、データセットと関連するメタデータのコレクションを蓄積すること、サードパーティデータを購入又は使用する前に検査すること、及び収集されたデータの品質管理スキームを実装することが含まれる。
オブジェクトデータストア102は、プロファイルされた各フィールドと関連するバリデーション情報を、例えば、当該バリデーション情報をエンコードするバリデーション仕様として、格納することができる。あるいは、当該バリデーション情報を、外部の格納先に格納し、プロファイラエンジン104によって読み出すこともできる。データセットがプロファイルされる前に、当該バリデーション情報が、各フィールドについての有効なデータ型を規定してもよい。例えば、あるフィールドが人の「称号」である場合、デフォルトの有効値は、「文字列」データ型であれば何れの値であってもよい。また、当該データソースをプロファイルするのに先立ち、「Mr.」、「Mrs.」及び「Dr.」などの有効値をユーザが提供して、プロファイラエンジン104によって読み取られる他の値が何れも無効として識別されるようにしてもよい。また、プロファイリング実行(run)から得られる情報をユーザが使用して、特段のフィールドについての有効値を規定することもできる。例えば、データセットをプロファイルした後に「Ms.」及び「Msr.」という値が共通値として現れるのを当該ユーザが見出す場合がある。当該ユーザは、「Ms.」を有効値として加え、データクリーニングオプションとして、「Msr.」という値を「Mrs.」という値にマッピングしてもよい。このように、当該バリデーション情報は、有効値、及び無効値を有効値にマッピングすることによる無効値のクリーニングを可能とするマッピング情報を含むことができる。データソースに関するより多くの情報がプロファイリングの継続的な実行を通して見出されるので、当該データソースのプロファイリングを反復法で行ってもよい。
また、プロファイラエンジン104は、実行可能なコードを生成して、当該プロファイルされたデータシステムにアクセスすることができる他のモジュールを実装することもできる。このようなコードの例は、当該データソースへのアクセスプロシージャの一部として、「Msr.」という値を「Mrs.」にマッピングしてもよい。
プロファイラエンジン104は、オブジェクトデータストア102を使用して、データオブジェクトにおける種々のメタデータ並びにプロファイリングの優先傾向及び結果を体系化し、格納する。オブジェクトデータストア102は、各々がプロファイリングジョブに関係する情報についてのものであるプロファイルセットアップオブジェクトのグループ、各々がデータセットに関係する情報についてのものであるデータセットオブジェクトのグループ、及び各々が特段のデータフォーマットを既述するDMLファイルのグループを格納してもよい。プロファイルセットアップオブジェクトは、プロファイラエンジン104によって実行されるプロファイリングの実行についての優先傾向を包含する。ユーザ110は、新しいプロファイルセットアップオブジェクトを創出するのに使用される情報を入力したり、又は予め格納されたプロファイルセットアップオブジェクトを選択したりすることができる。
当該プロファイルセットアップオブジェクトは、データセットオブジェクトへの参照を包含する。データセットオブジェクトは、当該ランタイム環境内でアクセス可能な1つ以上のデータシステム上でプロファイルされるべきデータをプロファイラエンジン104が探し当てることを可能とするデータセットロケータを包含する。当該データセットロケータは、概して、パス/ファイル名、URL、テーブル名、SQLセレクト文、又は複数のロケーションにまたがって広がるデータセットについてのパス/ファイル名及び/若しくはURLのリストである。当該データセットオブジェクトは、任意選択的に、1つ以上のDMLファイルへの参照を包含することもできる。
当該データセットオブジェクトは、フィールドオブジェクトのセットへの参照を包含する。プロファイルされるべきデータセットのレコード内の各フィールドについて1つのフィールドオブジェクトが存在する。プロファイラエンジン104によって行われるプロファイリング実行の完了時に、データセットプロファイルは、プロファイルされたデータセットに対応するデータセットオブジェクトと関連付けられる。当該データセットプロファイルは、レコードの総数及び有効/無効なレコードの総数、並びに当該データセットがプロファイルされた日時、及びプロファイリングにおいて使用されたバリデーションオブジェクトのバージョンなど、当該データセットに関係する統計情報を包含する。
フィールドオブジェクトは、任意選択的に、対応するフィールドについての有効値を特定したり、無効値をクリーニングするためのルールを規定したり(即ち、無効値を有効値にマッピングしたり)するのにプロファイラエンジン104が使用することができるバリデーション情報を包含する。当該フィールドオブジェクトもまた、プロファイリング実行の完了時に当該プロファイラエンジンによって格納される、ディスティンクト値、ヌル値、及び有効/無効な値の数など、対応するフィールドに関係する統計情報を包含するフィールドプロファイルと関連付けられる。また、当該フィールドプロファイルは、最大値、最小値、最も一般的な値、及び最も希な値などのサンプル値を含むこともできる。完全な「プロファイル」は、プロファイルされたフィールドの全てについてのデータセットプロファイル及びフィールドプロファイルを含む。
プロファイリング実行についての他のユーザ優先傾向は、当該プロファイルセットアップオブジェクト又は当該データセットオブジェクトに収集及び格納することができる。例えば、当該ユーザは、プロファイルされるフィールド、又は値の数を制限するのに使用することができるフィルター表現を選択することができる(値のランダムサンプル(例えば、1%)をプロファイルすることを含む)。
図2は、例えば、データセットをデータストアに変換及び格納する前にデータセットの品質を特定する等の様々な目的の何れかのためにデータセットをプロファイルして、その品質をテストするためのプロシージャ200の例についてのフローチャートを示す。プロシージャ200は、自動的に行うことも手動で行うこともできる。データセットの品質をテストするためのルールは、当該データセットの予備的知識から、及び/又は類似のデータセット(例えば、テストしようとするデータセットと同じソースに由来するデータセット)に対して行われたプロシージャ200などのプロファイリングプロシージャの結果から、得ることができる。また、これらのルールをユーザがカスタマイズすることもできる(以下に詳細に論ずる)。このプロシージャ200をビジネスで使用して、例えば、ビジネスパートナーから送られる定期的な(例えば、月々の)データフィードを、当該データをインポート又は処理する前に、プロファイルすることができる。これにより、当該ビジネスが「悪い」データ(例えば、無効値の割合が閾値よりも高いデータ)を検出して、取り消すことが困難である可能性があるアクションによって「悪い」データが既存のデータストアを「汚染」しないようにすることが可能となる。
プロシージャ200は、先ず、当該ランタイム環境内でアクセス可能な1つ以上のデータシステム上でテストされるべきデータセットを識別する(202)。プロシージャ200は、次に、当該データセット(又は当該データセットのサブセット)に対してプロファイルを実行し(204)、オブジェクトデータストア102(図1)などのロケーションにフィールドプロファイルを格納する(206)。当該プロシージャは、当該プロファイルの結果に基づいて品質テストを行う(208)。例えば、当該データセットにおける特段の共通値の発生割合を、(前のプロファイリング実行に基づく)前のデータセットにおける当該共通値の発生割合と比較することができ、これらの割合が互いに10%を超えて異なる場合は、当該品質テストは失敗である。この品質テストは、一連のデータセットにおいて確実に発生する(発生頻度のばらつきが10%以内)ことが知られている値に適用することができる。プロシージャ200は、当該品質テストの結果を特定し(210)、そしてデータ品質メトリック(「データ品質尺度」とも呼ばれる)を使用して、当該テストされたデータの品質を表すデータ品質メトリック値を生成する。次に、別のデータセット又は同じデータセットを異なる時刻に識別することによって、当該プロシージャを繰り返すことができる。
以下により詳細に説明するように、例によっては、そのメトリック値が階層に従って関係付けられるデータオブジェクトにプロシージャ200を適用することができる。データオブジェクト(又はデータオブジェクトのグループ)についてのデータ品質メトリック値を特定するにおいて、データ品質の何らかの尺度を示す(例えば、0〜100の範囲内の)単一の値を当該システムが計算する。当該データ品質メトリックの計算は、当該データオブジェクトについてのフィールドプロファイルに適用される関数に基づく。
図3は、個々のデータ品質メトリックを定義するためのグラフィカルユーザインターフェース300の例を示す。グラフィカルユーザインターフェース300は、データオブジェクト304の名前(「物理要素名」と呼ばれる)、及び当該データオブジェクトがその一部であるデータセット302の名前を含む。ドロップダウンメニュー306は、単純な予め構築された尺度(「データ品質尺度」と呼ばれる)を使用して、データ品質メトリック値を生成するのに使用されるべきデータ品質メトリック(例えば、有効であったフィールドプロファイルにおいて見出される値の割合)を定義又は部分的に定義するオプションを当該ユーザに与える。編集ボタン308は、フィールドプロファイル内に包含される全てのデータフィールドを含む入力レコードを示す表現エディタを介してカスタム表現をユーザが定義することを可能とする。こうして、ユーザは、データ品質メトリック値を計算するための関数をカスタマイズすることができる。
フィールドプロファイルは2つのデータオブジェクト間の関係に関する情報を包含することができるので、このようなフィールド間情報によってデータ品質メトリックを定義することが可能である。例えば、別のデータオブジェクトとの重なりの割合によってデータオブジェクトの品質を定義することができる。また、要素のバリディティを既述するための複数の判定基準が存在する場合は、複数のデータ品質メトリックを単一のデータオブジェクトによって定義してもよい。
図4は、メトリック値の配列を示す。この配列においては、当該メトリック値は、親ノード(例えば、「顧客個人」ノード402)及び子ノード(例えば、「名」ノード404)の両方を含む階層400において体系化される。親ノードは、親ノード及び子ノードの両方になることが可能である。例えば、「顧客個人」ノード402は、「名」ノード404に関しては親ノードであるが、「顧客情報」ノード406の子ノードである。この配列において、「名」ノード404は、子ノードを持たない「葉ノード」でもある。当該メトリック値を表すノード間の階層関係は、当該メトリック値によってその品質が測定されるデータオブジェクト間に存在する可能性がある何れの階層関係から独立であってもよい。
当該階層における種々のノードについて、ユーザ110(図1)は、ユーザインターフェース106(図1)を通して、データ品質メトリックを観察及び配列することができる。図4の例のように、例によっては、データ要素を、特別なインターフェースを通して追加及び削除したり、当該階層におけるあるロケーションから別のロケーションへと「ドラッグアンドドロップ」したりすることもできる。階層の配列は、組織内での責任の階層など、何れの階層構造に該当するものであってもよい。所定のデータオブジェクトについて格納された履歴データ品質メトリックに基づいて(又はデータ品質メトリック値を計算する元となる、格納された履歴プロファイリング情報に基づいて)、時間と共にデータ品質メトリック値をトラッキングするデータ品質履歴(以下により詳細に説明する)を計算することができる。観察及び報告が要求される際の要求に応じて、オンデマンド方式で、又はこれら2種の組み合わせによって、ノードの階層及びそれらの関連するメトリックが与えられるデータ品質履歴の計算を行うことができる。
例によっては、データ品質メトリックの計算において階層を使用してもよい。例えば、親ノードについてのデータ品質メトリック値(又は「メトリック値」)を計算するのに、プロシージャ500が1つ以上の子ノードについてのメトリック値を特定する(502)。当該階層は、少なくとも1つの子ノード及び少なくとも1つの親ノードを包含する。プロシージャ500は、少なくとも幾つかの子ノードのメトリック値に基づいて、親ノードのメトリック値を特定する(504)。当該親ノードと当該子ノードとの間の関係は、階層を定義する。この階層は、図4の例に似ていてもよいし、ユーザによってカスタマイズ可能であってもよい。例によっては、当該階層は、データ品質メトリックが計算される前に特定されてもよい。即ち、実装によっては、ステップ504がステップ502に先行してもよい。プロシージャ500は、親ノードについてのメトリック値の特定を、複数のインスタンスについて繰り返す(506)。
対応する物理要素についての個々のデータ品質メトリック及びフィールドプロファイルのコレクション(又はデータ品質メトリック値の何らかの他の計算方法)があれば、メトリック値の時系列を作り出すことができる。結果として生ずる時系列は、そのメトリック値の履歴を表し、必要に応じて計算されるか、又は後の使用のために当該オブジェクトデータストアに格納されてメトリック仕様の表現と関連付けられるかの何れかが可能である。何れの場合も、その後、データプロファイラのユーザインターフェース106において図に記すことができる。
時間に対してデータ品質メトリック値をプロットするグラフの例を図6Aに示す。グラフ600Aは、「顧客満足度」メトリックについて計算されたメトリック値の時系列を示す。ユーザがグラフ600Aにおける点602Aの上にカーソルを動かすと、その点についての日付及び計算された品質値が表示される。当該バリデーション仕様がその前の値から変化した点は、当該グラフ上で黒い点によって印を付けられており、それらの上でカーソルを動かすと、当該バリデーション仕様における変化が示される。また、当該グラフ上の点は、当該計算において使用される子ノードについてのメトリック値が変化したインスタンスをも示す。即ち、当該特定において異なる子ノードメトリック値を使用した場合、当該グラフは、当該変化が起こった点を識別するであろう。また、当該グラフは、当該メトリック値を計算するのに使用されるメトリックの定義など、当該値の計算の他の要素が変化した点をも識別することができる。当該グラフの左上には、最新のデータ品質を「良好」、「要注意」、又は「不良」(それぞれ、緑色、黄色、又は赤色)として要約する着色ドット604Aがある。
複数のデータ品質メトリックを「要約報告」(その一例は、図6Bにおいて見ることができる)としてグループ化することができる。要約報告は、階層に関係する上述の方法などの、複数のデータ品質メトリック値を単一の値として要約するためのルールを含む。ルールの例には、「最大」、「最小」、及び「平均」が含まれる。故に、要約報告を使用して、例えば、当該報告内に包含される全てのデータ品質メトリックについての値の平均である値を伴うデータ品質履歴を作り出すこともできる。
要約報告は、個々のデータ品質メトリックに加えて、他の要約報告を包含して、各々の報告がその要素を要約する報告の階層を結果として生ずることもできる。別の言い方をすれば、第3の親ノードに従属する2つの親ノードについてのメトリック値を使用して、当該第3の親ノードのメトリック値を計算してもよい。
要約報告の各要素についてのメトリック値の時系列があれば、当該要約報告それ自体についてのメトリック値の時系列を計算することができる。その後、当該時系列をグラフ化し、その成分についての時系列とみなすことができる。「顧客情報」という要約報告を図6Bに示す。当該要約報告内に包含されるメトリックは、グラフの上のテーブルに列挙されている。各々が、その最新の品質値、その値を上述のように要約する着色ドット、及びその履歴に対応するグラフのミニチュアによって示されている。これらのミニチュアグラフの1つを選択すると、そのグラフのフルサイズバージョンが「顧客情報」についてのグラフの上に重ねられる。図解では、「顧客とのコミュニケーション」が選択されている。
多くの理由(例えば、全ての計算されたフィールドプロファイルに関心がある訳ではない)から、当該時系列が計算可能なメトリック値のサブセットのみを含むことをユーザが望む場合がある。幾つかのフィールドプロファイルは部分データに基づいて計算されたものである場合があり、幾つかは最終的なプロファイル結果への途中の実験であった場合もあり、更に幾つかは誤って計算されたものである場合もある。故に、当該時系列の計算は、どのフィールドプロファイルを含むべきかを選ぶための何らかの判定基準を有する。1つの例示的な判定基準は、各暦日について最新の利用可能なフィールドプロファイル(例えば、最も最近のフィールドプロファイル)を常に選ぶことである。各暦日が始まったとみなされる日の時刻はユーザが定義することができる。即ち、暦日の定義を、日々の間の任意の期限を含むように延長してもよい。
フィールドプロファイルは、時間と共に変化することができるバリデーション仕様に部分的に依存して生ずる。故に、各メトリック値もまた、対応するフィールドプロファイルに適用されるバリデーション仕様のバージョンで注釈を付けられる。
個々のメトリック値もまた、時間と共に変化することができるメトリック仕様に依存する。故に、各メトリック値もまた、その値が計算された時刻に適用されたメトリックのバージョンで注釈を付けられる。
上述のアプローチは、コンピュータ上で実行するためのソフトウェアを使用して実装することができる。例えば、当該ソフトウェアは、各々が、少なくとも1つのプロセッサ、少なくとも1つのデータストレージシステム(例えば、揮発性及び不揮発性のメモリ及び/又は記憶素子)、少なくとも1つの入力装置又はポート、並びに少なくとも1つの出力装置又はポートを含む、1つ以上のプログラムされた又はプログラム可能なコンピュータシステム(分散型、クライアント/サーバ型、又はグリッド型など、種々のアーキテクチャのものであってもよい)上で実行する1つ以上のコンピュータプログラムにおけるプロシージャを形成する。当該ソフトウェアは、より大きなプログラム(例えば、グラフの設計及び構成に関係する他のサービスを提供するプログラム)の1つ以上のモジュールを形成していてもよい。
当該ソフトウェアは、汎用若しくは特殊目的のプログラム可能なコンピュータによって読み取り可能な媒体又はデバイスに提供されるものであっても、あるいは、それを実行するコンピュータへとネットワーク越しに(伝搬信号中にエンコードされて)届けられるものであってもよい。当該機能の全てを特殊目的のコンピュータ上で(又は、コプロセッサなどの特殊目的のハードウェアを使用して)行ってもよい。当該ソフトウェアは、当該ソフトウェアによって規定される計算の異なる部分が異なるコンピュータによって行われる分散方式にて実装してもよい。このようなコンピュータプログラムの各々は、汎用若しくは特殊目的のプログラム可能なコンピュータによって読み取り可能な記憶媒体又は記憶デバイス(例えば、固体メモリ若しくは固体媒体、又は磁気媒体若しくは光学媒体)が本明細書において説明されているプロシージャを行うコンピュータシステムによって読み取られる際に当該コンピュータを構成し、作動させるために、これらの記憶媒体又は記憶デバイスに格納又はダウンロードされるのが好ましい。また、本発明のシステムを、特定の事前に定義された方式にてコンピュータシステムを作動させて本明細書において説明されている機能を行わせるようにコンピュータプログラムによって構成されるコンピュータ可読記憶媒体として実装されるものと考えることもできる。
前述の説明は本発明の範囲を説明することを意図したものであり、本発明の範囲を限定することを意図したものではなく、本発明の範囲は、添付の請求の範囲によって定義されることが理解されるべきである。他の実施態様も、以下の請求の範囲の範囲内にある。

Claims (26)

  1. 1つ以上の子ノードについてのデータ品質に関連するメトリック値を特定するステップと、
    上記子ノードの少なくとも幾つかのメトリック値に基づいて親ノードについてのメトリック値を特定するステップであって、1つ以上の親ノードと1つ以上の子ノードとの間の関係が階層を定義するステップと、
    上記親ノードについてのメトリック値の特定を、上記特定の複数のインスタンスについて繰り返すステップであって、上記複数のインスタンスの少なくとも2つにおいて、上記親ノードと上記親ノードについてのメトリック値の特定において使用される1つ以上の子ノードとの間の関係が上記少なくとも2つのインスタンスにおいて同じであるステップと、
    を含む方法。
  2. 請求項1に記載の方法であって、上記親ノードについてのメトリック値の特定において使用される上記1つ以上の子ノードが子ノードを有していない方法。
  3. 請求項1に記載の方法であって、上記子ノード及び親ノードによって表されるデータの特性を表すプロファイリング情報を生成するステップを更に含む方法。
  4. 請求項3に記載の方法であって、上記子ノードについてのメトリック値が上記プロファイリング情報に基づくものである方法。
  5. 請求項1に記載の方法であって、上記階層の配列がユーザによって規定される方法。
  6. 請求項3に記載の方法であって、上記プロファイリング情報内の何れのデータフィールドが上記メトリック値の特定に影響を及ぼすかをユーザが規定する方法。
  7. 請求項1に記載の方法であって、上記メトリック値の特定に影響を及ぼす1つ以上の予め構築された要因をユーザが選択する方法。
  8. 請求項1に記載の方法であって、上記子ノードについてのメトリック値及び上記親ノードについてのメトリック値が0から100までの数として表される方法。
  9. 請求項1に記載の方法であって、上記1つ以上の子ノードについてのメトリック値若しくは上記親ノードについてのメトリック値の一方又は両方が、連続的な折れ線グラフ上の時間の関数として、複数のインスタンスの各々について表示される方法。
  10. 請求項9に記載の方法であって、上記連続的な折れ線グラフが上記プロファイリング情報に基づいて自動的に生成される方法。
  11. 請求項9に記載の方法であって、上記連続的な折れ線グラフが、上記子ノードについてのメトリック値の特定を支配するルールにおける変化を示す方法。
  12. 請求項9に記載の方法であって、上記連続的な折れ線グラフが、上記親ノードについてのメトリック値の特定に使用されるメトリック値における変化を示す方法。
  13. デバイス信号から値を得るのに使用するための実行可能なインストラクションを格納するコンピュータ可読媒体であって、上記インストラクションが、
    1つ以上の子ノードについてのメトリック値を特定するステップと、
    上記子ノードの少なくとも幾つかのメトリック値に基づいて親ノードについてのメトリック値を特定するステップであって、1つ以上の親ノードと1つ以上の子ノードとの間の関係が階層を定義するステップと、
    上記親ノードについてのメトリック値の特定を、上記特定の複数のインスタンスについて繰り返すステップであって、上記複数のインスタンスの少なくとも2つにおいて、上記親ノードと上記親ノードについてのメトリック値の特定において使用される1つ以上の子ノードとの間の関係が上記少なくとも2つのインスタンスにおいて同じであるステップと、
    をコンピュータに実行させるためのものであるコンピュータ可読媒体。
  14. 請求項13に記載のコンピュータ可読媒体であって、上記親ノードについてのメトリック値の特定において使用される上記1つ以上の子ノードが子ノードを有していないコンピュータ可読媒体。
  15. 請求項13に記載のコンピュータ可読媒体であって、上記子ノード及び親ノードによって表されるデータの特性を表すプロファイリング情報を生成するステップを更に含むコンピュータ可読媒体。
  16. 請求項15に記載のコンピュータ可読媒体であって、上記子ノードについてのメトリック値が上記プロファイリング情報に基づくものであるコンピュータ可読媒体。
  17. 請求項13に記載のコンピュータ可読媒体であって、上記階層の配列がユーザによって規定されるコンピュータ可読媒体。
  18. 請求項15に記載のコンピュータ可読媒体であって、上記プロファイリング情報内の何れのデータフィールドが上記メトリック値の特定に影響を及ぼすかをユーザが規定するコンピュータ可読媒体。
  19. 請求項13に記載のコンピュータ可読媒体であって、上記メトリック値の特定に影響を及ぼす1つ以上の予め構築された要因をユーザが選択するコンピュータ可読媒体。
  20. 請求項13に記載のコンピュータ可読媒体であって、上記子ノードについてのメトリック値及び上記親ノードについてのメトリック値が0から100までの数として表されるコンピュータ可読媒体。
  21. 請求項13に記載のコンピュータ可読媒体であって、上記1つ以上の子ノードについてのメトリック値若しくは上記親ノードについてのメトリック値の一方又は両方が、連続的な折れ線グラフ上の時間の関数として、上記複数のインスタンスの各々について表示されるコンピュータ可読媒体。
  22. 請求項21に記載のコンピュータ可読媒体であって、上記連続的な折れ線グラフが上記プロファイリング情報に基づいて自動的に生成されるコンピュータ可読媒体。
  23. 請求項21に記載のコンピュータ可読媒体であって、上記連続的な折れ線グラフが、上記子ノードについてのメトリック値の特定を支配するルールにおける変化を示すコンピュータ可読媒体。
  24. 請求項21に記載のコンピュータ可読媒体であって、上記連続的な折れ線グラフが、上記親ノードについてのメトリック値の特定に使用されるメトリック値における変化を示すコンピュータ可読媒体。
  25. 1つ以上の子ノードについてのメトリック値を特定する手段と、
    上記子ノードの少なくとも幾つかのメトリック値に基づいて親ノードについてのメトリック値を特定する手段であって、1つ以上の親ノードと1つ以上の子ノードとの間の関係が階層を定義する手段と、
    上記親ノードについてのメトリック値の特定を、上記特定の複数のインスタンスについて繰り返す手段であって、上記複数のインスタンスの少なくとも2つにおいて、上記親ノードと上記親ノードについてのメトリック値の特定において使用される1つ以上の子ノードとの間の関係が上記少なくとも2つのインスタンスにおいて同じである手段と、
    を含むシステム。
  26. 請求項1に記載の方法であって、上記1つ以上の子ノードについてのメトリック値若しくは上記親ノードについてのメトリック値の一方又は両方が、上記複数のインスタンスの各々について特定され、そのメトリック値の履歴を表す時系列として格納される方法。
JP2011514796A 2008-06-20 2009-06-18 子ノード及び親ノードについてのメトリック値を特定することによるデータ品質トラッキング Active JP5535203B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/143,362 US8046385B2 (en) 2008-06-20 2008-06-20 Data quality tracking
US12/143,362 2008-06-20
PCT/US2009/047735 WO2009155392A1 (en) 2008-06-20 2009-06-18 Data quality tracking by determining metric values for child nodes and a parent node

Publications (2)

Publication Number Publication Date
JP2011525282A true JP2011525282A (ja) 2011-09-15
JP5535203B2 JP5535203B2 (ja) 2014-07-02

Family

ID=41432336

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011514796A Active JP5535203B2 (ja) 2008-06-20 2009-06-18 子ノード及び親ノードについてのメトリック値を特定することによるデータ品質トラッキング

Country Status (8)

Country Link
US (1) US8046385B2 (ja)
EP (1) EP2291764A4 (ja)
JP (1) JP5535203B2 (ja)
KR (1) KR101513110B1 (ja)
CN (1) CN102067106B (ja)
AU (1) AU2009260050C1 (ja)
CA (1) CA2728132C (ja)
WO (1) WO2009155392A1 (ja)

Families Citing this family (84)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10693415B2 (en) 2007-12-05 2020-06-23 Solaredge Technologies Ltd. Testing of a photovoltaic panel
US11881814B2 (en) 2005-12-05 2024-01-23 Solaredge Technologies Ltd. Testing of a photovoltaic panel
US8947194B2 (en) 2009-05-26 2015-02-03 Solaredge Technologies Ltd. Theft detection and prevention in a power generation system
US8963369B2 (en) 2007-12-04 2015-02-24 Solaredge Technologies Ltd. Distributed power harvesting systems using DC power sources
US11888387B2 (en) 2006-12-06 2024-01-30 Solaredge Technologies Ltd. Safety mechanisms, wake up and shutdown methods in distributed power installations
US11569659B2 (en) 2006-12-06 2023-01-31 Solaredge Technologies Ltd. Distributed power harvesting systems using DC power sources
US8319471B2 (en) 2006-12-06 2012-11-27 Solaredge, Ltd. Battery power delivery module
US11296650B2 (en) 2006-12-06 2022-04-05 Solaredge Technologies Ltd. System and method for protection during inverter shutdown in distributed power installations
US9130401B2 (en) 2006-12-06 2015-09-08 Solaredge Technologies Ltd. Distributed power harvesting systems using DC power sources
US11735910B2 (en) 2006-12-06 2023-08-22 Solaredge Technologies Ltd. Distributed power system using direct current power sources
US8531055B2 (en) 2006-12-06 2013-09-10 Solaredge Ltd. Safety mechanisms, wake up and shutdown methods in distributed power installations
US11728768B2 (en) 2006-12-06 2023-08-15 Solaredge Technologies Ltd. Pairing of components in a direct current distributed power generation system
US11687112B2 (en) 2006-12-06 2023-06-27 Solaredge Technologies Ltd. Distributed power harvesting systems using DC power sources
US9112379B2 (en) 2006-12-06 2015-08-18 Solaredge Technologies Ltd. Pairing of components in a direct current distributed power generation system
US11855231B2 (en) 2006-12-06 2023-12-26 Solaredge Technologies Ltd. Distributed power harvesting systems using DC power sources
US8013472B2 (en) 2006-12-06 2011-09-06 Solaredge, Ltd. Method for distributed power harvesting using DC power sources
US8319483B2 (en) 2007-08-06 2012-11-27 Solaredge Technologies Ltd. Digital average input current control in power converter
US8384243B2 (en) 2007-12-04 2013-02-26 Solaredge Technologies Ltd. Distributed power harvesting systems using DC power sources
US8618692B2 (en) 2007-12-04 2013-12-31 Solaredge Technologies Ltd. Distributed power system using direct current power sources
US8816535B2 (en) 2007-10-10 2014-08-26 Solaredge Technologies, Ltd. System and method for protection during inverter shutdown in distributed power installations
US9088178B2 (en) 2006-12-06 2015-07-21 Solaredge Technologies Ltd Distributed power harvesting systems using DC power sources
US8473250B2 (en) 2006-12-06 2013-06-25 Solaredge, Ltd. Monitoring of distributed power harvesting systems using DC power sources
US11309832B2 (en) 2006-12-06 2022-04-19 Solaredge Technologies Ltd. Distributed power harvesting systems using DC power sources
US8049523B2 (en) 2007-12-05 2011-11-01 Solaredge Technologies Ltd. Current sensing on a MOSFET
US11264947B2 (en) 2007-12-05 2022-03-01 Solaredge Technologies Ltd. Testing of a photovoltaic panel
WO2009072075A2 (en) 2007-12-05 2009-06-11 Solaredge Technologies Ltd. Photovoltaic system power tracking method
US8289742B2 (en) 2007-12-05 2012-10-16 Solaredge Ltd. Parallel connected inverters
EP2722979B1 (en) 2008-03-24 2022-11-30 Solaredge Technologies Ltd. Switch mode converter including auxiliary commutation circuit for achieving zero current switching
EP3121922B1 (en) 2008-05-05 2020-03-04 Solaredge Technologies Ltd. Direct current power combiner
WO2010065623A1 (en) 2008-12-02 2010-06-10 Ab Initio Software Llc Visualizing relationships between data elements and graphical representations of data element attributes
US10673222B2 (en) 2010-11-09 2020-06-02 Solaredge Technologies Ltd. Arc detection and prevention in a power generation system
US10673229B2 (en) 2010-11-09 2020-06-02 Solaredge Technologies Ltd. Arc detection and prevention in a power generation system
GB2485527B (en) 2010-11-09 2012-12-19 Solaredge Technologies Ltd Arc detection and prevention in a power generation system
US10230310B2 (en) 2016-04-05 2019-03-12 Solaredge Technologies Ltd Safety switch for photovoltaic systems
GB2486408A (en) 2010-12-09 2012-06-20 Solaredge Technologies Ltd Disconnection of a string carrying direct current
GB2483317B (en) 2011-01-12 2012-08-22 Solaredge Technologies Ltd Serially connected inverters
US8570005B2 (en) 2011-09-12 2013-10-29 Solaredge Technologies Ltd. Direct current link circuit
GB2498365A (en) 2012-01-11 2013-07-17 Solaredge Technologies Ltd Photovoltaic module
GB2498790A (en) 2012-01-30 2013-07-31 Solaredge Technologies Ltd Maximising power in a photovoltaic distributed power system
GB2498791A (en) 2012-01-30 2013-07-31 Solaredge Technologies Ltd Photovoltaic panel circuitry
US9853565B2 (en) 2012-01-30 2017-12-26 Solaredge Technologies Ltd. Maximized power in a photovoltaic distributed power system
GB2499991A (en) 2012-03-05 2013-09-11 Solaredge Technologies Ltd DC link circuit for photovoltaic array
US10115841B2 (en) 2012-06-04 2018-10-30 Solaredge Technologies Ltd. Integrated photovoltaic panel circuitry
US9542462B1 (en) 2012-06-14 2017-01-10 Google Inc. Scaling high-level statistical languages to large, distributed datasets
US9558230B2 (en) 2013-02-12 2017-01-31 International Business Machines Corporation Data quality assessment
US9548619B2 (en) 2013-03-14 2017-01-17 Solaredge Technologies Ltd. Method and apparatus for storing and depleting energy
US9941813B2 (en) 2013-03-14 2018-04-10 Solaredge Technologies Ltd. High frequency multi-level inverter
EP4318001A3 (en) 2013-03-15 2024-05-01 Solaredge Technologies Ltd. Bypass mechanism
US9576036B2 (en) * 2013-03-15 2017-02-21 International Business Machines Corporation Self-analyzing data processing job to determine data quality issues
US20140297363A1 (en) * 2013-03-26 2014-10-02 Staples, Inc. On-Site and In-Store Content Personalization and Optimization
WO2014165601A1 (en) 2013-04-02 2014-10-09 Orbis Technologies, Inc. Data center analytics and dashboard
US9318974B2 (en) 2014-03-26 2016-04-19 Solaredge Technologies Ltd. Multi-level inverter with flying capacitor topology
US10459892B2 (en) 2014-04-23 2019-10-29 Qumulo, Inc. Filesystem hierarchical aggregate metrics
US9600504B2 (en) 2014-09-08 2017-03-21 International Business Machines Corporation Data quality analysis and cleansing of source data with respect to a target system
US11132336B2 (en) * 2015-01-12 2021-09-28 Qumulo, Inc. Filesystem hierarchical capacity quantity and aggregate metrics
US9836480B2 (en) 2015-01-12 2017-12-05 Qumulo, Inc. Filesystem capacity and performance metrics and visualizations
US11177663B2 (en) 2016-04-05 2021-11-16 Solaredge Technologies Ltd. Chain of power devices
US11018623B2 (en) 2016-04-05 2021-05-25 Solaredge Technologies Ltd. Safety switch for photovoltaic systems
US10095729B2 (en) 2016-12-09 2018-10-09 Qumulo, Inc. Managing storage quotas in a shared storage system
US10147040B2 (en) 2017-01-20 2018-12-04 Alchemy IoT Device data quality evaluator
US10318401B2 (en) 2017-04-20 2019-06-11 Qumulo, Inc. Triggering the increased collection and distribution of monitoring information in a distributed processing system
US11360936B2 (en) 2018-06-08 2022-06-14 Qumulo, Inc. Managing per object snapshot coverage in filesystems
US10534758B1 (en) 2018-12-20 2020-01-14 Qumulo, Inc. File system cache tiers
US11151092B2 (en) 2019-01-30 2021-10-19 Qumulo, Inc. Data replication in distributed file systems
US11461671B2 (en) 2019-06-03 2022-10-04 Bank Of America Corporation Data quality tool
US10795796B1 (en) 2020-01-24 2020-10-06 Qumulo, Inc. Predictive performance analysis for file systems
US10860372B1 (en) 2020-01-24 2020-12-08 Qumulo, Inc. Managing throughput fairness and quality of service in file systems
US11151001B2 (en) 2020-01-28 2021-10-19 Qumulo, Inc. Recovery checkpoints for distributed file systems
US10936551B1 (en) 2020-03-30 2021-03-02 Qumulo, Inc. Aggregating alternate data stream metrics for file systems
US10936538B1 (en) 2020-03-30 2021-03-02 Qumulo, Inc. Fair sampling of alternate data stream metrics for file systems
US11775481B2 (en) 2020-09-30 2023-10-03 Qumulo, Inc. User interfaces for managing distributed file systems
US11157458B1 (en) 2021-01-28 2021-10-26 Qumulo, Inc. Replicating files in distributed file systems using object-based data storage
US11461241B2 (en) 2021-03-03 2022-10-04 Qumulo, Inc. Storage tier management for file systems
US11567660B2 (en) 2021-03-16 2023-01-31 Qumulo, Inc. Managing cloud storage for distributed file systems
US11132126B1 (en) 2021-03-16 2021-09-28 Qumulo, Inc. Backup services for distributed file systems in cloud computing environments
US11669255B2 (en) 2021-06-30 2023-06-06 Qumulo, Inc. Distributed resource caching by reallocation of storage caching using tokens and agents with non-depleted cache allocations
US11294604B1 (en) 2021-10-22 2022-04-05 Qumulo, Inc. Serverless disk drives based on cloud storage
US11354273B1 (en) 2021-11-18 2022-06-07 Qumulo, Inc. Managing usable storage space in distributed file systems
US11599508B1 (en) 2022-01-31 2023-03-07 Qumulo, Inc. Integrating distributed file systems with object stores
US11722150B1 (en) 2022-09-28 2023-08-08 Qumulo, Inc. Error resistant write-ahead log
US11729269B1 (en) 2022-10-26 2023-08-15 Qumulo, Inc. Bandwidth management in distributed file systems
US11966592B1 (en) 2022-11-29 2024-04-23 Qumulo, Inc. In-place erasure code transcoding for distributed file systems
US11921677B1 (en) 2023-11-07 2024-03-05 Qumulo, Inc. Sharing namespaces across file system clusters
US11934660B1 (en) 2023-11-07 2024-03-19 Qumulo, Inc. Tiered data storage with ephemeral and persistent tiers

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11307412A (ja) * 1998-04-20 1999-11-05 Matsushita Electron Corp 半導体製造データ処理方法
JP2002288403A (ja) * 2001-03-27 2002-10-04 Ntt Comware Corp プロジェクト管理システム、プロジェクト管理方法、及びプロジェクト管理プログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6742003B2 (en) * 2001-04-30 2004-05-25 Microsoft Corporation Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications
US6725227B1 (en) * 1998-10-02 2004-04-20 Nec Corporation Advanced web bookmark database system
EP1258814A1 (en) * 2001-05-17 2002-11-20 Requisite Technology Inc. Method and apparatus for analyzing the quality of the content of a database
US7120619B2 (en) * 2003-04-22 2006-10-10 Microsoft Corporation Relationship view
KR100922141B1 (ko) * 2003-09-15 2009-10-19 아브 이니티오 소프트웨어 엘엘시 데이터 프로파일링 방법 및 시스템
US7197502B2 (en) * 2004-02-18 2007-03-27 Friendly Polynomials, Inc. Machine-implemented activity management system using asynchronously shared activity data objects and journal data items
US7496583B2 (en) * 2004-04-30 2009-02-24 Microsoft Corporation Property tree for metadata navigation and assignment
KR101126028B1 (ko) * 2004-05-04 2012-07-12 더 보스턴 컨설팅 그룹, 인코포레이티드 관련된 데이터베이스 레코드들을 선택하고, 분석하며,네트워크로서 비주얼화하기 위한 방법 및 장치
US7177883B2 (en) * 2004-07-15 2007-02-13 Hitachi, Ltd. Method and apparatus for hierarchical storage management based on data value and user interest
US7456840B2 (en) * 2004-08-31 2008-11-25 Oracle International Corporation Displaying information using nodes in a graph
US8176002B2 (en) * 2005-03-24 2012-05-08 Microsoft Corporation Method and system for user alteration of the configuration of a data warehouse
US20070255741A1 (en) * 2006-04-28 2007-11-01 Business Objects, S.A. Apparatus and method for merging metadata within a repository
US8640086B2 (en) * 2006-12-29 2014-01-28 Sap Ag Graphical user interface system and method for presenting objects
US20080172629A1 (en) * 2007-01-17 2008-07-17 Microsoft Corporation Geometric Performance Metric Data Rendering

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11307412A (ja) * 1998-04-20 1999-11-05 Matsushita Electron Corp 半導体製造データ処理方法
JP2002288403A (ja) * 2001-03-27 2002-10-04 Ntt Comware Corp プロジェクト管理システム、プロジェクト管理方法、及びプロジェクト管理プログラム

Also Published As

Publication number Publication date
AU2009260050B2 (en) 2013-07-04
JP5535203B2 (ja) 2014-07-02
KR20110031921A (ko) 2011-03-29
AU2009260050A1 (en) 2009-12-23
US8046385B2 (en) 2011-10-25
US20090319566A1 (en) 2009-12-24
CA2728132A1 (en) 2009-12-23
AU2009260050C1 (en) 2014-03-06
CA2728132C (en) 2017-02-21
CN102067106B (zh) 2015-03-04
WO2009155392A1 (en) 2009-12-23
CN102067106A (zh) 2011-05-18
KR101513110B1 (ko) 2015-04-17
EP2291764A1 (en) 2011-03-09
EP2291764A4 (en) 2012-10-31

Similar Documents

Publication Publication Date Title
JP5535203B2 (ja) 子ノード及び親ノードについてのメトリック値を特定することによるデータ品質トラッキング
US10635853B2 (en) Deployable tag management in computer data networks
JP6707564B2 (ja) データ品質分析
KR101644418B1 (ko) 데이터 요소 간의 관계의 시각화 및 데이터 요소 속성의 그래픽 표현
AU2010258731B2 (en) Generating test data
US8217945B1 (en) Social annotation of a single evolving visual representation of a changing dataset
US20170329786A1 (en) Data flow design with static and dynamic elements
US8209360B2 (en) System for defining key performance indicators
JP2020500369A (ja) データ要素間の関係を決定するためのシステム及び方法
KR20150132858A (ko) 메타데이터 관리를 위한 시스템
CN105917315B (zh) 一种用于生成数据记录的内容的方法和计算系统
US11947567B2 (en) System and method for computing and managing datasets using hierarchical analytics
US20170193375A1 (en) Rule guided fabrication of structured data and messages
Omori et al. Comparing concept drift detection with process mining tools
US20230153731A1 (en) Data Validation and Master Network Techniques
CN116561134A (zh) 业务规则处理方法、装置、设备及存储介质
Lagoze et al. Encoding provenance metadata for social science datasets
US20230195752A1 (en) Virtual foreign keys
De Koninck et al. A stability assessment framework for process discovery techniques
CN117312774A (zh) 一种大数据的智能聚合可视化与管控系统
Varga et al. Data Engineering
CN118093733A (zh) 基于Cube的数据查询处理方法、装置及计算机设备
CN118093583A (zh) 报表处理方法、装置、计算机设备、存储介质和产品

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20120316

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120419

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120423

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130620

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130917

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130925

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131021

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131028

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131119

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140401

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140422

R150 Certificate of patent or registration of utility model

Ref document number: 5535203

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250