JP2010267289A - データプロファイリング - Google Patents
データプロファイリング Download PDFInfo
- Publication number
- JP2010267289A JP2010267289A JP2010153800A JP2010153800A JP2010267289A JP 2010267289 A JP2010267289 A JP 2010267289A JP 2010153800 A JP2010153800 A JP 2010153800A JP 2010153800 A JP2010153800 A JP 2010153800A JP 2010267289 A JP2010267289 A JP 2010267289A
- Authority
- JP
- Japan
- Prior art keywords
- data
- field
- value
- record
- profiling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24542—Plan optimisation
- G06F16/24544—Join order optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/40—Data acquisition and logging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Operations Research (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Systems (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Numerical Control (AREA)
- Holo Graphy (AREA)
- Crystals, And After-Treatments Of Crystals (AREA)
- Optical Communication System (AREA)
Abstract
【解決手段】データを処理するための方法であって、データソースのデータレコードのフィールドの複数のサブセットを識別するステップと、前記複数サブセットのそれぞれに対する共出現統計を決定するステップと、前記複数サブセットの1つ以上を、前記識別サブセットの前記フィールド間に機能関連性があると識別するステップと、を含む。
【選択図】図1
Description
本出願は、2003年9月15日付の米国仮出願第60/502,908号、2003年10月20日付の第60/513,038号、および2003年12月22日付の第60/532,956号の優先権を主張するものである。
本発明はデータプロファイリングに関する。
一態様では、一般に、本発明は、データを処理するための方法、および対応ソフトウエア、ならびにシステムを特徴とする。データソースからのデータをプロファイリングする。このプロファイリングには、データソースからデータを読み取るステップ、データを読み取りながらデータを特性付ける要約データを計算するステップ、および要約データに基づくプロファイル情報を格納するステップが含まれる。本処理には、格納プロファイル情報へアクセスするステップ、およびアクセスしたプロファイル情報に従ってデータを処理するステップが含まれる。
1 概要
図1を参照する。データ処理システム10には、プロファイリングおよび処理のサブシステム20が含まれ、それを用いてデータソース30からのデータを処理し、データ格納サブシステム40のメタデータ格納112、およびデータ格納124を更新する。すると、格納したメタデータおよびデータは、インターフェースサブシステム50を用いてユーザーにとってアクセス可能になる。
プロファイリングモジュール100は、メタデータ格納112を用いて、各種のメタデータおよびプロファイリングの初期設定(preference)、および結果を編成し、データオブジェクト内に格納する。図2を参照する。メタデータ格納112は、それぞれがプロファイルジョブと関連する情報に対するプロファイル設定オブジェクトグループ201、それぞれがデータセットと関連する情報に対するデータセットオブジェクトグループ207、およびそれぞれが特定のデータフォーマットを記述するDMLファイルグループ211を格納できる。プロファイル設定オブジェクトは、プロファイリングモジュール100が実行するプロファイリング実行のための初期設定を含む。ユーザー118は、新規プロファイル設定オブジェクトを作成するか、またはあらかじめ格納してあるプロファイル設定オブジェクト200を選択するのに用いる情報を入力できる。
プロファイリングモジュール100は、データソースからのデータを読み取り、個別のワーク構成要素のフローとして処理できるランタイム環境で動作する。プロファイリングモジュール100、および処理モジュール120が実行する計算は、計算要素がグラフの頂点と関係付けられ、および要素間のデータフローがグラフのリンク(弧、枝)と対応する有向グラフによるデータフローの形式で表すことができる。このようなグラフベースの計算を実装するシステムは、米国特許第5,966,072号の「グラフとして表される計算の実行」に記載されている。このシステムにより作成されるグラフは、グラフ要素により表される個々の処理に情報を出入りさせ、処理間で情報を移動し、そして処理の実行順序を定義するための方法を提供する。このシステムには、処理間通信方法(例えば、グラフのリンクによる通信パスは、TCP/IP、またはUNIX(登録商標)ドメインソケットを用いることができ、または共有メモリを用いて処理間でデータを受け渡すことができる)を選定するアルゴリズムが含まれる。
図3を参照する。好適な実施の形態では、プロファイリンググラフ400は、プロファイリングモジュール100の計算を実行する。「入力データセット」要素402は、何種類かの可能性があるデータシステムからのデータを表す。データシステムは、異なる物理媒体形式(例えば、磁気式、光学式、磁気光学式)、および/または異なるデータフォーマット型(例えば、バイナリ、データベース、スプレッドシート、ASCII文字列、CSV、またはXML)を有してもよい。「入力データセット」要素402は、データフローをセンサス作成要素406に送る。センサス作成要素406は、データセットの「センサス(census)」を実施して、要素に流れ込むレコードの一意のフィールド/値の各対について別々のセンサスレコードを新規作成する。各センサスレコードには、そのセンサスレコードに対する一意のフィールド/値の対の出現数のカウントを含む。
インポート要素は、広く多様なデータシステムのデータフォーマットを解釈するプロファイリングモジュール100の一部を実装する。インポート要素は、DMLファイルを使わずに幾つかのデータフォーマットを直接解釈するよう構成する。例えば、インポート要素は、データベースにアクセスし、操作するための、ANSI規格のコンピューター言語である構造化照会言語(SQL)を用いるデータシステムからのデータを読むことができる。DMLファイルを用いずに扱える他のデータフォーマットは、例えば、XML規格によるか、またはカンマ区切りフォーマット(CSV)を用いてフォーマットされたテキストファイルである。
型オブジェクト − 生データと、生データにより表される値との間の対応を定義する。
キー指定子 − レコード間の順序、区切り、およびグループ化の関係を定義する。
式 − 定数、データレコードのフィールド、または他の式の結果からの値を用いて新しい値を生成する計算を定義する。
変換関数 − ゼロ個以上の入力レコードから1つ以上の出力レコードを生成するために用いる規則および他の論理の集合を定義する。
パッケージ − 各種のタスクを実行するために要素が用いることができる型オブジェクト、変換関数、および変数をグループ化する有用な方法を提供する。
図5Aを参照する。センサス作成要素406の一実施の形態を実装するサブグラフ600には、プロファイル設定オブジェクト200に格納されるフィルタ式に基づいて入力されてくるレコードの一部を通過させるフィルタ要素602が含まれる。フィルタ式は、プロファイルされる値のフィールド、または数を制限できる。フィルタ式の実施例は、入力されてくる各レコードの単一フィールド(例えば、「タイトル」)にプロファイリングを制限するものである。フィルタ要素602の別のオプション機能は、上記のクリーニングオプションを実装することであり、妥当でないレコードのサンプルを非妥当レコード要素408に送る。フィルタ要素602から流れ出るレコードは、ローカルロールアップシーケンス統計要素604、および総当たりによるパーティション要素612に流れ込む。
5.1 データ把握
図9は、別の処理で用いることができるようにデータセットをプロファイリングしてその内容を把握するための手順900の実施例についてのフロー図を示す。手順900は、自動的に(例えば、スケジュール化スクリプトによる)、または手動で(例えば、ユーザーが端末で)実行できる。手順900はまず、902にてランタイム環境内でアクセス可能な1つ以上のデータシステム上で、プロファイリングするデータセットを識別する。次いで、手順900はオプションとして、供給される情報または既存のメタデータに基づいて、904にてレコードフォーマットを設定でき、906にて検証規則を設定できる。データベーステーブルなどの、データ型によっては、デフォルトのレコードフォーマット、および検証規則を用いることができる。次いで、手順900は、908にてデータセット(またはデータセットのサブセット)にプロファイルを実行する。手順900は、初期プロファイルの結果に基づいて、910にてレコードフォーマットを改良し、または、912にて検証規則を改良することができる。いずれかのプロファイリングオプションを変更した場合、手順900は、914にて新規オプションを用いてデータに別のプロファイルを実行するか、またはデータセットについての十分な情報が(おそらく繰り返しの)プロファイリングから得られた場合、916にてデータセットを処理するかどうかを決定する。その処理は、プロファイリングから得られた情報を用いて、1つ以上のデータシステムから直接読み取る。
図10は、データ格納に変換およびロードできるように、データセットをプロファイリングして、その品質を検査するための手順1000の実施例についてのフロー図を示す。手順1000は、自動的に、または手動で実行できる。データセットの品質を検査するための規則は、データセットの過去の知識から、および/または類似のデータセット(例えば、検査するデータセットと同一のソースからのデータセット)に実行する手順900などの、プロファイリング手順の結果からもたらされる。この手順1000は、例えばビジネスで、ビジネス相手から送られてくる定期的な(例えば、月次)データをプロファイリングしてから、データをインポートし、または処理するのに用いることができる。これにより「不良(bad)」データ(例えば、妥当でない値の割合が閾値を超えるデータ)を検出することが可能となり、既存のデータ格納が、取り消しが困難なアクションにより「汚染(pollute)」されなくなる。
プロファイリングモジュール100は、データセットからのレコードのフローを処理するために用いることができるグラフ要素などの、実行可能なコードを生成できる。生成した要素は、入力されてくるレコードにフィルタをかけることができ、プロファイリンググラフ400のクリーニングオプションと同様に、妥当なレコードだけを流し出すことができる。例えば、ユーザーは、プロファイル実行が完了した時に、クリーニング要素が生成されるよう指示するプロファイルオプションを選択できる。要素を実装するためのコードは、(ユーザーが指定する)ファイル場所に向けられる。そして、生成されたクリーニング要素は、プロファイリング実行中にメタデータ格納112に格納した情報を用いて、プロファイリングモジュール100と同一のランタイム環境で動作可能である。
プロファイリングモジュール100は、1つ以上のフィールドグループ関連性をオプションで解析できる。例えば、プロファイリングモジュール100は、同一でも異なってもよいデータセット内の2つのフィールド対の間の解析を実行できる。同様に、プロファイリングモジュール100は、幾つかのフィールド対の解析を実行でき、例えば、あるデータセット内の各フィールドを、別のデータセット内の全てのフィールドにより解析したり、または、あるデータセット内の各フィールドを、同一データセット内の他の全てのフィールドにより解析したりできる。異なるデータセット内の2つのフィールドの解析は、以下に詳細に説明するように、これらのフィールド上の2つのデータセットの結合演算の特性と関連している。
各種合計を出現チャート内の数字から計算する。これらの合計の幾つかには、テーブルA、およびテーブルBの両方に出現する別個のキーフィールド値の合計数、テーブルAに出現する別個のキーフィールド値の合計数、テーブルBに出現する別個のキーフィールド値の合計数、およびそれぞれのテーブルに一意の値(すなわち、キーフィールドの単一のレコードにのみ出現する値)の合計数が含まれる。これらの合計に基づく統計を用いて、フィールド対が上記3種類の関連性のうちの1つを有するかを判定する。統計には、別個の、または一意の値をもつフィールド内の全レコードの割合、特定の出現パターンをもつ全レコードの割合、および各フィールドに対する「相対重複値」が含まれる。相対重複値は、一方のフィールドに出現し、他方のフィールドにも出現する別個の値の割合である。フィールド対が3種類の関連性(必ずしも相互排他とは限らない)のうちの1つを有するかどうかを判定するための基準は次の通りである。
外部キー関連性 − フィールドの第1のものが、高い相対重複値を有し(例えば、>99%)、第2フィールドが、一意の値の高い割合(例えば、>99%)を有する。第2フィールドは、一次キーの可能性があり、第2フィールドは、一次キーの外部キーの可能性がある。
十分結合関連性 − フィールドの少なくとも1つが、除去レコードの割合が少なく(例えば、<10%)、N×Nの出現パターンをもつ個々の結合レコードの割合が少ない(例えば、<1%)。
共通領域関連性 − フィールドの少なくとも1つが、高い相対重複値を有する(例えば、>95%)。
図12Aを参照する。テーブルに結合演算を実際に実行する代替として、センサス結合要素1200が、テーブルAおよびテーブルBからのフィールドを解析し、テーブルに対するセンサスデータから「センサス結合」演算を実行することにより、出現チャートについての統計を集計する。各センサスレコードは、フィールド/値の対、およびフィールド内の値の出現カウントを有する。各センサスレコードは、一意のフィールド/値の対を有するので、所与のキーフィールドに対して、センサス結合要素1200の入力フローの値は一意である。図12Aの実施例は、キーフィールドA1、B1(図11Aに図示)の対への結合演算と対応する。フィルタ1202が「フィールド1」(A1)を選択し、およびフィルタ1204が「フィールド1」(B1)を選択して、結合演算のキーフィールドと対応するセンサスレコードを比較することにより、センサス結合要素1200は、テーブルAおよびテーブルBからの個々のレコードのキーフィールドを比較する結合要素1100よりずっと少ない数の比較ですむ可能性がある。図12Bの実施例は、フィルタ1206が、「フィールド1」(A1)を選択し、およびフィルタ1208が「フィールド2」(B2)を選択する結合演算と対応する。選択したセンサスレコード1210〜1218は、フィールド/値の対のそれぞれのフィールドに対する値、およびその値に対する出現カウントによるラベルを付けて示す。
単一のセンサス結合演算での多数のフィールド対に対する結合フィールド解析には、センサスレコードに基づいて「拡張レコード」を生成するステップが含まれる。図13に示す実施例では、センサス結合要素1200は、図12A〜図12Bに示す結合フィールド解析を組み合わせて、キーフィールドA1、B1、およびA1、B2の二対の結合フィールド解析に対するレコードを比較する。拡張レコードは、結合されたキーフィールド対に対する一意の識別子をセンサスレコードの値と連結し、センサスレコードと同一の出現カウントを保持することにより、センサスレコードから生成される。
結合フィールド解析が、多数の他のフィールドと結合されているフィールドの結果を含む場合、そのフィールドの値毎に多数の拡張レコードが生成される。例えば、センサスレコード1210は、値「W」がそれぞれ識別子「A1B1」、および「A1B2」と連結された2つの拡張レコード1301〜1302と対応する。センサス結合要素1200は、値「WA1B1」をもつセンサスレコードを扱うかのように拡張レコード1301を扱う。同様に、センサスレコード1211は、2つの拡張レコード1303〜1304と対応し、センサスレコード1212は、2つの拡張レコード1305〜1306と対応する。
図15A〜図15Bは、データソース30内のソース(例えば、テーブルまたはファイル)にある選択フィールドの結合フィールド解析をオプションとして実行するためにプロファイリングモジュール100が用いるグラフを示す。ユーザー118は、プロファイリングし、結合フィールド解析をするためのオプションを選択する。オプションは、結合フィールド解析せずにプロファイルを実行するステップを含む。ユーザー118は、互いに対となる2つの特定フィールド、他の全てのフィールドと対になる1つのフィールド、または他の全てのフィールドと対になる全てのフィールドを含む結合フィールド解析のためのフィールド対を選択する。ユーザー118は、同一のテーブルまたはファイル内のフィールドを対にできるオプション、または異なるテーブルまたはファイルからのフィールドだけを対にできるオプションを選択する。これらのオプションはメタデータ格納112に格納されている。
プロファイリングモジュール100が実行可能な別の種類の解析は、フィールドの値の間の機能関連性の検査である。検査するフィールドは、フィールドセットをもつ単一のテーブルからでも、(例えば、セクション7.3で更に詳細に説明するように、共通キーフィールドを用いるフィールドの結合演算により)関連する多数のソースからのフィールドを含む「仮想テーブル(virtual table)」からでもよい。フィールド対の間の機能関連性の一種に、レコードのあるフィールドと関係付けられる値が、そのレコードの別のフィールドと関係付けられる値により一意に決定できる「機能依存性」がある。例えば、データベースが「State」フィールド、および「Zip Code」フィールドを有する場合、「Zip Code」フィールドの値(例えば、「90019」)は、「State」フィールドの値(例えば、「CA」)を決定する。すなわち、「多対一」マッピングにより、「Zip Code」フィールドの各値を「State」フィールドの一意の値にマッピングする。機能依存関連性は、レコードの一方のフィールドと関係付けられる値を、レコードの他のフィールドと関係付けられる値により一意に決定できるフィールドのサブセット間に存在させることもできる。例えば、「Zip Code」フィールドの値は、「City」フィールド、および「Street」フィールドの値により一意に決定できる。
図17は、データソース30内の1つ以上のソース(例えば、単一のテーブル、もしくはファイル、またはセクション7.3で説明するような多数のテーブルおよび/もしくはファイル)の選択フィールドの機能依存性解析オプションを実行するためにプロファイリングモジュール100が用いるグラフ1700の実施例を示す。ユーザー118は、プロファイリング、および機能依存性解析のためのオプションを選択する。機能依存性解析をせずにプロファイリングを実行するオプションも含まれる。ユーザー118は、機能関連性を検査するフィールド対を選択する。ユーザー118は、データソース(例えば、テーブルまたはファイル)の特定フィールドを選択し、例えば、「全てから選択したものに」、もしくは「選択したものから選択したものに」を選んで、検査するフィールド対を決定するか、または「全てから全てに」を選んでデータソースのフィールド対全てを検査する。ユーザーは機能依存度を判定するための閾値を選択してから、あるフィールドが別のフィールドと機能依存しているかどうかを決定することもできる。例えば、ユーザーは、どれくらいの例外を(レコードの割合として)許容するかを決定する閾値を選択してもよい。これらのオプションはメタデータ格納112に格納される。
Name,name_b),(Last Name,name_c),...,(Citizenship,Canada),(Citizenship,US),(Citizenship,US)...など)を入力として取り込む。
good),(Zip/State/33102/FL,3 good),(Zip/State/00000/FL,1 good,1 exception),(Zip/State/77010/TX,1
good)を生成する。「State」フィールドがf1と対応し、「Zip」フィールドがf2と対応する場合は、要素1724は、(State/Zip/CA/90019,4
good,2 exceptions),(State/Zip/FL/33102,3 good,1
exception),(State/Zip/TX/77010,1 good,1 exception)を生成する。
good,4 exceptions)を生成する。
多様な最適化を適用して、例えば、対選択要素1706でフィールド対にフィルタをかけることにより、またはフィルタ要素1712でレコードにフィルタをかけることにより、機能依存性解析を高速化できる。幾つかの最適化は、上記のグラフ1700で発見される機能依存関連性には、ユーザーにとって、他のものより重要でないものもあるという考えに基づく。所与のフィールド対に対して、これらのケースの幾つかは、プロファイリングモジュール100が提供する統計に基づいて対選択要素1706により検出し、フィルタで排除することにより、コンピューターリソースを節約できる。例えば、第1フィールドf1の値全てが一意の場合(各値が単一のレコードだけに出現する)、そのフィールドf1の値は、フィールドf2に出現する値にかかわらず、第2フィールドf2の値を決定する。
多数のソース(例えば、データベーステーブル)を横断する機能依存性を検査するための一手法では、プロファイリングモジュール100は、多数のソースからのフィールドを含む「仮想テーブル」を生成する。仮想テーブルは、例えば、ソースに共通なキーフィールドを用いて、ソース上に結合演算を実行することにより生成できる。
Claims (82)
- データを処理するための方法であって、
データソースからのデータをプロファイリングするステップであって、前記データソースから前記データを読み取るステップ、前記データを読み取りながら前記データを特性付ける要約データを計算するステップ、および前記要約データに基づくプロファイル情報を格納するステップ、を含むプロファイリングステップと、
前記データソースからの前記データを処理するステップであって、前記格納したプロファイル情報にアクセスするステップ、および前記アクセスしたプロファイル情報に従って前記データを処理するステップを含む、処理ステップと、
を含む方法。 - 前記データソースからの前記データを処理するステップが、前記データソースから前記データを読み取るステップを更に含む請求項1の方法。
- 前記データをプロファイリングするステップが、前記データソース外に前記データのコピーを保持せずに実行される請求項1の方法。
- 前記データが、条件付きフィールド、および可変数のフィールドのうちの少なくとも一方を有する可変レコード構造の記録を含む請求項3の方法。
- 前記データを読み取りながら前記データを特性付ける要約データを計算するステップが、前記データを特性付ける要約データを計算しながら前記可変レコード構造のレコードを解釈するステップを含む請求項4の方法。
- 前記データソースが、データ格納システムを含む請求項1の方法。
- 前記データ格納システムが、データベースシステムを含む請求項6の方法。
- 前記要約データを計算するステップが、フィールドに対する個別の値のセットそれぞれの出現数をカウントするステップを含む請求項1の方法。
- プロファイル情報を格納するステップが、前記フィールドに対する前記出現カウント数に基づいて前記フィールドに対する統計を格納するステップを含む請求項8の方法。
- 前記データソースに関連するメタデータを収容するメタデータ格納を維持するステップを更に含む請求項1の方法。
- 前記プロファイル情報を格納するステップが、前記データソースに関連する前記メタデータを更新するステップを含む請求項10の方法。
- 前記データをプロファイリングするステップ、および前記データを処理するステップがそれぞれ、前記データソースのメタデータを利用する請求項10の方法。
- 前記データソースからのデータをプロファイリングするステップが、前記プロファイル情報に基づいてフォーマット仕様を決定するステップを更に含む請求項1の方法。
- 前記データソースからのデータをプロファイリングするステップが、前記プロファイル情報に基づいて検証仕様を決定するステップを更に含む請求項1の方法。
- 前記データを処理するステップが、前記検証仕様に基づいて前記データ内の妥当でないレコードを識別するステップを含む請求項14の方法。
- 前記データソースからのデータをプロファイリングするステップが、前記プロファイル情報に基づいてデータ変換命令を指定するステップを更に含む請求項1の方法。
- 前記データを処理するステップが、前記データに前記変換命令を適用するステップを含む請求項16の方法。
- 前記データを処理するステップが、データ格納サブシステムに前記データをインポートするステップを含む請求項1の方法。
- 前記データを処理するステップが、データ格納サブシステムに前記データをインポートする前に前記データを検証するステップを含む請求項18の方法。
- 前記データを検証するステップが、前記データの特性を前記データの基準特性と比較するステップを含む請求項19の方法。
- 前記基準特性が、前記データの統計特性を含む請求項20の方法。
- 前記データをプロファイリングするステップが、前記データを並列にプロファイリングするステップを含み、前記並列プロファイリングステップは、前記データをパーツにパーティション化するステップ、および並列成分の第1セットの別々のものを用いて前記パーツを処理するステップを含む請求項1の方法。
- 前記データを並列にプロファイリングするステップが、並列成分の第2セットの別々のものを用いて、前記データの異なるフィールドに対する前記要約データを計算するステップを更に含む請求項22の方法。
- 前記データを並列にプロファイリングするステップが、並列成分の前記第1セットの出力を再パーティション化して、並列成分の前記第2セットに対する入力を形成するステップを更に含む請求項23の方法。
- 前記データを並列にプロファイリングするステップが、並列データソースからの前記データを読み取るステップを含み、前記並列データソースの各パーツは、並列成分の前記第1セットのうちの異なるものにより処理される請求項22の方法。
- データを処理するための方法であって、
データソースからのデータをプロファイリングするステップであって、前記データソースから前記データを読み取るステップ、前記データを読み取りながら前記データを特性付ける要約データを計算するステップ、および前記要約データに基づくプロファイル情報を格納するステップを含む、プロファイリングステップを含み、
前記データをプロファイリングするステップは、前記データを並列にプロファイリングするステップを含み、前記並列プロファイリングステップは、前記データをパーツにパーティション化するステップ、および並列成分の第1セットのうちの別々のものを用いて前記パーツを処理するステップを含む方法。 - データ処理システム上で実行されると、請求項1から26までの何れかの方法ステップ全てを実行するように成された命令を含むソフトウエア。
- コンピューター可読媒体上に実装される請求項27のソフトウエア。
- データ処理システムであって、
データソースからデータを読み取り、前記データを読み取りながら前記データを特性付ける要約データを計算し、前記要約データに基づくプロファイル情報を格納するよう構成されるプロファイリングモジュールと、
前記格納したプロファイル情報にアクセスし、前記アクセスしたプロファイル情報に従って前記データソースからの前記データを処理するよう構成される処理モジュールと、
を含むデータ処理システム。 - データ処理システムであって、
データソースからデータをプロファイリングするための手段であって、前記データソースから前記データを読み取るための手段、前記データを読み取りながら前記データを特性付ける要約データを計算するための手段、および前記要約データに基づくプロファイル情報を格納するための手段を含む、プロファイル手段と、
前記データソースからの前記データを処理するための手段であって、前記格納したプロファイル情報にアクセスするための手段、および前記アクセスしたプロファイル情報に従って前記データを処理するための手段を含む、処理手段と、
を含むデータ処理システム。 - データを処理するための方法であって、
第1データソースのレコードの第1フィールドの値を特性化する情報、および第2データソースのレコードの第2フィールドの値を特性化する情報を受け取るステップと、
前記受け取った情報に基づいて、前記第1フィールドと、前記第2フィールドとの間の関連性を特性化する量を計算するステップと、
前記第1フィールド、および前記第2フィールドを関連付ける情報を提示するステップと、
を含む方法。 - 前記情報を提示するステップが、前記情報をユーザーに提示するステップを含む請求項31の方法。
- 前記第1データソース、および前記第2データソースが同一のデータソースである請求項31の方法。
- 前記第1データソース、および前記第2データソースのうちの少なくとも1つがデータベーステーブルを含む請求項31の方法。
- 前記関連性を特性化する前記量が、前記第1フィールド、および前記第2フィールドの値の結合特性を特性化する量を含む請求項31の方法。
- 前記第1フィールドの値を特性化する前記情報が、前記第1フィールドの値の分布を特性化する情報を含む請求項35の方法。
- 前記第1フィールドの値の分布を特性化する前記情報が、複数のデータレコードを含み、前記各データレコードは、異なる値と、その値の前記第1データソースの前記第1フィールドにおける対応する出現数とを関係付ける請求項36の方法。
- 前記第2フィールドの値を特性化する情報が、前記フィールドの値の分布を特性化する情報を含む請求項36の方法。
- 前記結合特性を特性化する前記量を計算するステップが、前記第1フィールド、および前記第2フィールドの値の前記分布を特性化する前記情報を処理して、複数の値共出現カテゴリと関連する量を計算するステップを含む請求項38の方法。
- 前記第1フィールド、および前記第2フィールドの値の前記分布を特性化する前記情報が、複数のデータレコードを含み、前記各データレコードは、異なる値と、その値の対応する出現数とを関係付け、値の前記分布を特性化する前記情報を処理するステップが、それぞれ前記第1フィールド、および前記第2フィールド上の、前記第1データソース、および前記第2データソースの結合の値分布を特性化する情報を計算するステップを含む請求項39の方法。
- 前記複数の値共出現カテゴリと関連する前記量が、複数のデータレコードを含み、前記データレコードのそれぞれは、前記共出現カテゴリの1つと関係付けられ、前記カテゴリにある前記第1および前記第2フィールドの一意の値の数を含む請求項39の方法。
- 前記第1フィールド、および前記第2フィールドの前記値の前記結合特性を特性化する前記量を計算するステップが、それぞれ前記第1フィールド、および前記第2フィールドを用いて、前記第1データソース、および前記第2データソースの結合の値分布を特性化する情報を計算するステップを含む請求項35の方法。
- 前記第1フィールド、および前記第2フィールドの前記値の前記結合特性を特性化する前記量を計算するステップが、複数の値共出現カテゴリと関連する量を計算するステップを含む請求項35の方法。
- 前記値共出現カテゴリが、前記第1フィールド、および前記第2フィールドのうちの一方に少なくとも一回出現するが、前記フィールドの他方には出現しない値を含む請求項42の方法。
- 前記値共出現カテゴリが、前記第1フィールド、および前記第2フィールドのそれぞれに唯一回出現する値を含む請求項42の方法。
- 前記値共出現カテゴリが、前記第1フィールドおよび前記第2フィールドの一方に唯一回出現し、前記フィールドの他方に二回以上出現する値を含む請求項42の方法。
- 前記値共出現カテゴリが、前記第1フィールド、および前記第2フィールドのそれぞれに二回以上出現する値を含む請求項42の方法。
- 値を特性化する情報を受け取るステップ、および前記値の結合特性を特性化する量を計算するステップを更に含み、複数の第1および第2フィールド対について繰り返される請求項35の方法。
- 複数のフィールド対それぞれが、前記値の前記結合特性を特性化する前記量を計算するよう前記フィールド対の値とともに含まれる一意の識別子を有する請求項48の方法。
- 前記複数のフィールド対のうちの1つ以上の前記フィールドに関連する情報を提示するステップを更に含む請求項48の方法。
- 前記複数のフィールド対のうちの1つ以上の前記フィールドに関連する前記情報を提示するステップが、フィールドを、複数種類のフィールド関連性のうちの1つの候補フィールドと識別するステップを含む請求項50の方法。
- 前記複数種類のフィールド関連性が、一次キーと外部キーとの関連性を含む請求項51の方法。
- 前記複数種類のフィールド関連性が、共通領域関連性を含む請求項51の方法。
- 前記量を計算するステップが、前記第1フィールド、および前記第2フィールドの文字値から変換される論理値に基づいて前記量を計算するステップを含む請求項31の方法。
- 前記量を計算するステップが、前記量を並列計算するステップを含み、前記並列計算ステップは、前記データレコードをパーツにパーティション化するステップ、および並列成分のセットのうちの別々のものを用いて前記パーツを処理するステップを含む請求項37の方法。
- 前記パーツが、前記第1フィールド、および前記第2フィールドの値に基づく請求項55の方法。
- 同一の値を有するデータレコードが、同一のパーツにある請求項56の方法。
- データ処理システム上で実行されると、請求項31から57までの何れかの方法ステップ全てを実行するように成された命令を含むソフトウエア。
- コンピューター可読媒体上に実装される請求項58のソフトウエア。
- データを処理するためのシステムであって、
第1データソースのレコード内の第1フィールドの値を特性化する情報、および第2データソースのレコード内の第2フィールドの値を特性化する情報を受け取るよう構成された値処理モジュールと、
前記受け取った情報に基づいて、前記第1フィールドと、前記第2フィールドとの間の関連性を特性化する量を計算するよう構成される関連性処理モジュールと、
前記第1フィールドと、前記第2フィールドとに関連する情報を提示するよう構成されるインターフェースと、
を含むシステム。 - データを処理するためのシステムであって、
第1データソースのレコード内の第1フィールドの値を特性化する情報、および第2データソースのレコード内の第2フィールドの値を特性化する情報を受け取るための手段と、
前記受け取った情報に基づいて、前記第1フィールドと、前記第2フィールドとの間の関連性を特性化する量を計算するための手段と、
前記第1フィールドと、前記第2フィールドとを関連付ける情報を提示するための手段と、
を含むシステム。 - データを処理するための方法であって、
データソースのデータレコードのフィールドの複数サブセットを識別するステップと、
前記複数サブセットのそれぞれに対する共出現統計を決定するステップと、
前記複数サブセットの1つ以上を、前記識別サブセットの前記フィールド間に機能関連性があると識別するステップと、
を含む方法。 - フィールドの前記サブセットの少なくとも1つが、2つのフィールドのサブセットである請求項62の方法。
- 前記複数サブセットの1つ以上を、前記識別サブセットの前記フィールド間に機能関連性があると識別するステップが、前記複数サブセットの1つ以上を、可能性がある所定の複数の機能関連性のうちの1つを有すると識別するステップを含む請求項62の方法。
- 前記共出現統計を決定するステップが、それぞれが一対のフィールドを識別するデータ構成要素を形成するステップ、および前記データレコードのうちの1つにある前記フィールド対に出現する一対の値を識別するステップを含む請求項62の方法。
- 前記共出現統計を決定するステップが、
前記データレコードをパーツにパーティション化するステップであって、前記データレコードは第1フィールド、および第2フィールドを有するパーティション化ステップと、
前記パーツの第1にある1つ以上のレコードの前記第2フィールドに出現する値の分布に基づいて量を決定するステップであって、前記1つ以上のレコードは、前記1つ以上のレコードの第1フィールドに出現する共通値を有する、決定ステップと、
前記量を前記パーツの他にあるレコードからの他の量と組み合わせて合計量を生成するステップと、
を含む請求項62の方法。 - 前記複数サブセットの1つ以上を、前記識別サブセットの前記フィールド間に機能関連性があると識別するステップが、前記合計量に基づいて前記第1および第2フィールド間の機能関連性を識別するステップを含む請求項66の方法。
- 前記パーツが、前記第1フィールド、および前記第2フィールドの値に基づく請求項66の方法。
- 前記パーツが、並列成分のセットのうちの別々のものを用いて処理される請求項66の方法。
- 前記複数サブセットの1つ以上を、前記識別サブセットの前記フィールド間に機能関連性があると識別するステップが、前記機能関連性に対する一致度を決定するステップを含む請求項62の方法。
- 前記一致度が、前記機能関連性と整合しない幾つかの例外レコードを含む請求項70の方法。
- 前記機能関連性が、第1フィールドの少なくとも幾つかの前記値の、第2フィールドの少なくとも幾つかの前記値へのマッピングを含む請求項62の方法。
- 前記マッピングが、多対一のマッピングである請求項72の方法。
- 前記マッピングが、一対多のマッピングである請求項72の方法。
- 前記マッピングが、一対一のマッピングである請求項72の方法。
- 前記複数のサブセットのフィールドの値を特性化する情報に基づいて前記複数のサブセットにフィルタをかけるステップを更に含む請求項62の方法。
- 前記データレコードが、データベーステーブルのレコードを含む請求項62の方法。
- 前記データレコードが、複数のデータベーステーブルのレコードを含む請求項77の方法。
- データ処理システム上で実行されると、請求項62から78までの何れかの方法ステップ全てを実行するように成された命令を含むソフトウエア。
- コンピューター可読媒体上に実装される請求項79のソフトウエア。
- データを処理するためのシステムであって、
データソースのデータレコードのフィールドの複数サブセットを識別するよう構成される識別処理モジュールと、
前記複数サブセットのそれぞれに対する共出現統計を決定するよう構成される統計処理モジュールと、
前記複数サブセットの1つ以上を、前記識別サブセットの前記フィールド間に機能関連性があると識別するよう構成される機能関連性処理モジュールと、
を含むシステム。 - データを処理するためのシステムであって、
データソースのデータレコードのフィールドの複数サブセットを識別するための手段と、
前記複数サブセットのそれぞれに対する共出現統計を決定するための手段と、
前記複数サブセットの1つ以上を、前記識別サブセットの前記フィールド間に機能関連性があると識別するための手段と、
を含むシステム。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US50290803P | 2003-09-15 | 2003-09-15 | |
US60/502,908 | 2003-09-15 | ||
US51303803P | 2003-10-20 | 2003-10-20 | |
US60/513,038 | 2003-10-20 | ||
US53295603P | 2003-12-22 | 2003-12-22 | |
US60/532,956 | 2003-12-22 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006526986A Division JP5328099B2 (ja) | 2003-09-15 | 2004-09-15 | データプロファイリング |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010267289A true JP2010267289A (ja) | 2010-11-25 |
JP5372851B2 JP5372851B2 (ja) | 2013-12-18 |
Family
ID=34381971
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006526986A Expired - Lifetime JP5328099B2 (ja) | 2003-09-15 | 2004-09-15 | データプロファイリング |
JP2010153799A Expired - Lifetime JP5372850B2 (ja) | 2003-09-15 | 2010-07-06 | データプロファイリング |
JP2010153800A Expired - Lifetime JP5372851B2 (ja) | 2003-09-15 | 2010-07-06 | データプロファイリング |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006526986A Expired - Lifetime JP5328099B2 (ja) | 2003-09-15 | 2004-09-15 | データプロファイリング |
JP2010153799A Expired - Lifetime JP5372850B2 (ja) | 2003-09-15 | 2010-07-06 | データプロファイリング |
Country Status (10)
Country | Link |
---|---|
US (5) | US7756873B2 (ja) |
EP (3) | EP2261821B1 (ja) |
JP (3) | JP5328099B2 (ja) |
KR (4) | KR20090039803A (ja) |
CN (1) | CN102982065B (ja) |
AT (1) | ATE515746T1 (ja) |
AU (3) | AU2004275334B9 (ja) |
CA (3) | CA2655731C (ja) |
HK (1) | HK1093568A1 (ja) |
WO (1) | WO2005029369A2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160107188A (ko) * | 2014-01-16 | 2016-09-13 | 아브 이니티오 테크놀로지 엘엘시 | 데이터베이스 키 식별 |
US11163670B2 (en) | 2013-02-01 | 2021-11-02 | Ab Initio Technology Llc | Data records selection |
Families Citing this family (210)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE515746T1 (de) * | 2003-09-15 | 2011-07-15 | Ab Initio Technology Llc | Datenprofilierung |
US7653641B2 (en) * | 2004-05-04 | 2010-01-26 | Accruent, Inc. | Abstraction control solution |
US7349898B2 (en) * | 2004-06-04 | 2008-03-25 | Oracle International Corporation | Approximate and exact unary inclusion dependency discovery |
US7647293B2 (en) * | 2004-06-10 | 2010-01-12 | International Business Machines Corporation | Detecting correlation from data |
US7386566B2 (en) * | 2004-07-15 | 2008-06-10 | Microsoft Corporation | External metadata processing |
US8732004B1 (en) | 2004-09-22 | 2014-05-20 | Experian Information Solutions, Inc. | Automated analysis of data to generate prospect notifications based on trigger events |
US20060082581A1 (en) | 2004-10-14 | 2006-04-20 | Microsoft Corporation | Encoding for remoting graphics to decoder device |
US7852342B2 (en) | 2004-10-14 | 2010-12-14 | Microsoft Corporation | Remote client graphics rendering |
US7610264B2 (en) * | 2005-02-28 | 2009-10-27 | International Business Machines Corporation | Method and system for providing a learning optimizer for federated database systems |
CN101208649B (zh) * | 2005-04-25 | 2010-12-08 | 因文西斯系统公司 | 用于处理制造环境所引起的生产事件的系统和方法 |
US7836104B2 (en) * | 2005-06-03 | 2010-11-16 | Sap Ag | Demonstration tool for a business information enterprise system |
US7877350B2 (en) * | 2005-06-27 | 2011-01-25 | Ab Initio Technology Llc | Managing metadata for graph-based computations |
US20070006070A1 (en) * | 2005-06-30 | 2007-01-04 | International Business Machines Corporation | Joining units of work based on complexity metrics |
US8788464B1 (en) * | 2005-07-25 | 2014-07-22 | Lockheed Martin Corporation | Fast ingest, archive and retrieval systems, method and computer programs |
US20070033198A1 (en) * | 2005-08-02 | 2007-02-08 | Defries Anthony | Data representation architecture for media access |
US8527563B2 (en) * | 2005-09-12 | 2013-09-03 | Microsoft Corporation | Remoting redirection layer for graphics device interface |
US20070074176A1 (en) * | 2005-09-23 | 2007-03-29 | Business Objects, S.A. | Apparatus and method for parallel processing of data profiling information |
US20070073721A1 (en) * | 2005-09-23 | 2007-03-29 | Business Objects, S.A. | Apparatus and method for serviced data profiling operations |
US8996586B2 (en) * | 2006-02-16 | 2015-03-31 | Callplex, Inc. | Virtual storage of portable media files |
US7873628B2 (en) * | 2006-03-23 | 2011-01-18 | Oracle International Corporation | Discovering functional dependencies by sampling relations |
US20070271259A1 (en) * | 2006-05-17 | 2007-11-22 | It Interactive Services Inc. | System and method for geographically focused crawling |
US7526486B2 (en) * | 2006-05-22 | 2009-04-28 | Initiate Systems, Inc. | Method and system for indexing information about entities with respect to hierarchies |
EP2030134A4 (en) | 2006-06-02 | 2010-06-23 | Initiate Systems Inc | SYSTEM AND METHOD FOR AUTOMATIC WEIGHT GENERATION FOR CHARACTERISTICITY |
US7711736B2 (en) * | 2006-06-21 | 2010-05-04 | Microsoft International Holdings B.V. | Detection of attributes in unstructured data |
US8356009B2 (en) | 2006-09-15 | 2013-01-15 | International Business Machines Corporation | Implementation defined segments for relational database systems |
US7685093B1 (en) | 2006-09-15 | 2010-03-23 | Initiate Systems, Inc. | Method and system for comparing attributes such as business names |
US7698268B1 (en) | 2006-09-15 | 2010-04-13 | Initiate Systems, Inc. | Method and system for filtering false positives |
US8266147B2 (en) * | 2006-09-18 | 2012-09-11 | Infobright, Inc. | Methods and systems for database organization |
US8700579B2 (en) * | 2006-09-18 | 2014-04-15 | Infobright Inc. | Method and system for data compression in a relational database |
US8762834B2 (en) * | 2006-09-29 | 2014-06-24 | Altova, Gmbh | User interface for defining a text file transformation |
US7809747B2 (en) * | 2006-10-23 | 2010-10-05 | Donald Martin Monro | Fuzzy database matching |
US9846739B2 (en) | 2006-10-23 | 2017-12-19 | Fotonation Limited | Fast database matching |
US20080097992A1 (en) * | 2006-10-23 | 2008-04-24 | Donald Martin Monro | Fast database matching |
US7613707B1 (en) * | 2006-12-22 | 2009-11-03 | Amazon Technologies, Inc. | Traffic migration in a multilayered data service framework |
US8150870B1 (en) | 2006-12-22 | 2012-04-03 | Amazon Technologies, Inc. | Scalable partitioning in a multilayered data service framework |
US7774329B1 (en) | 2006-12-22 | 2010-08-10 | Amazon Technologies, Inc. | Cross-region data access in partitioned framework |
CN101226523B (zh) * | 2007-01-17 | 2012-09-05 | 国际商业机器公司 | 数据概况分析方法和系统 |
US8359339B2 (en) | 2007-02-05 | 2013-01-22 | International Business Machines Corporation | Graphical user interface for configuration of an algorithm for the matching of data records |
US20080195575A1 (en) * | 2007-02-12 | 2008-08-14 | Andreas Schiffler | Electronic data display management system and method |
US8515926B2 (en) * | 2007-03-22 | 2013-08-20 | International Business Machines Corporation | Processing related data from information sources |
WO2008121824A1 (en) | 2007-03-29 | 2008-10-09 | Initiate Systems, Inc. | Method and system for data exchange among data sources |
US8423514B2 (en) | 2007-03-29 | 2013-04-16 | International Business Machines Corporation | Service provisioning |
US8321393B2 (en) | 2007-03-29 | 2012-11-27 | International Business Machines Corporation | Parsing information in data records and in different languages |
WO2008121700A1 (en) | 2007-03-29 | 2008-10-09 | Initiate Systems, Inc. | Method and system for managing entities |
US20120164613A1 (en) * | 2007-11-07 | 2012-06-28 | Jung Edward K Y | Determining a demographic characteristic based on computational user-health testing of a user interaction with advertiser-specified content |
US8069129B2 (en) | 2007-04-10 | 2011-11-29 | Ab Initio Technology Llc | Editing and compiling business rules |
US20090254588A1 (en) * | 2007-06-19 | 2009-10-08 | Zhong Li | Multi-Dimensional Data Merge |
US20110010214A1 (en) * | 2007-06-29 | 2011-01-13 | Carruth J Scott | Method and system for project management |
DE112008001800B4 (de) * | 2007-07-12 | 2020-07-30 | Atmel Corporation | Zweidimensionales Touchpanel |
US20090055828A1 (en) * | 2007-08-22 | 2009-02-26 | Mclaren Iain Douglas | Profile engine system and method |
US8954482B2 (en) * | 2007-09-20 | 2015-02-10 | Ab Initio Technology Llc | Managing data flows in graph-based computations |
US9690820B1 (en) * | 2007-09-27 | 2017-06-27 | Experian Information Solutions, Inc. | Database system for triggering event notifications based on updates to database records |
JP5306359B2 (ja) | 2007-09-28 | 2013-10-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 複数言語によるデータ記録を関連付ける方法およびシステム |
CN101878461B (zh) | 2007-09-28 | 2014-03-12 | 国际商业机器公司 | 分析用于匹配数据记录的系统的方法和系统 |
US8713434B2 (en) | 2007-09-28 | 2014-04-29 | International Business Machines Corporation | Indexing, relating and managing information about entities |
US8321914B2 (en) * | 2008-01-21 | 2012-11-27 | International Business Machines Corporation | System and method for verifying an attribute in records for procurement application |
US8224797B2 (en) * | 2008-03-04 | 2012-07-17 | International Business Machines Corporation | System and method for validating data record |
US8046385B2 (en) * | 2008-06-20 | 2011-10-25 | Ab Initio Technology Llc | Data quality tracking |
JP5331203B2 (ja) | 2008-06-30 | 2013-10-30 | アビニシオ テクノロジー エルエルシー | グラフベース計算におけるデータ記録 |
US8239389B2 (en) * | 2008-09-29 | 2012-08-07 | International Business Machines Corporation | Persisting external index data in a database |
CN102197406B (zh) | 2008-10-23 | 2014-10-15 | 起元技术有限责任公司 | 模糊数据操作 |
AU2009322602B2 (en) | 2008-12-02 | 2015-06-25 | Ab Initio Technology Llc | Mapping instances of a dataset within a data management system |
US20100174638A1 (en) | 2009-01-06 | 2010-07-08 | ConsumerInfo.com | Report existence monitoring |
WO2010088523A1 (en) * | 2009-01-30 | 2010-08-05 | Ab Initio Technology Llc | Processing data using vector fields |
US8051060B1 (en) * | 2009-02-13 | 2011-11-01 | At&T Intellectual Property I, L.P. | Automatic detection of separators for compression |
CN102317911B (zh) | 2009-02-13 | 2016-04-06 | 起元技术有限责任公司 | 管理任务执行 |
EP2399192A4 (en) * | 2009-02-13 | 2016-09-07 | Ab Initio Technology Llc | COMMUNICATION WITH DATA STORAGE SYSTEMS |
US10102398B2 (en) * | 2009-06-01 | 2018-10-16 | Ab Initio Technology Llc | Generating obfuscated data |
KR20150040384A (ko) * | 2009-06-10 | 2015-04-14 | 아브 이니티오 테크놀로지 엘엘시 | 테스트 데이터의 생성 |
JP2011008560A (ja) * | 2009-06-26 | 2011-01-13 | Hitachi Ltd | 情報管理システム |
US8205113B2 (en) * | 2009-07-14 | 2012-06-19 | Ab Initio Technology Llc | Fault tolerant batch processing |
KR101631978B1 (ko) * | 2009-09-16 | 2016-06-20 | 아브 이니티오 테크놀로지 엘엘시 | 데이터세트 요소의 매핑 |
US8683214B2 (en) * | 2009-09-17 | 2014-03-25 | Panasonic Corporation | Method and device that verifies application program modules |
US8700577B2 (en) * | 2009-12-07 | 2014-04-15 | Accenture Global Services Limited GmbH | Method and system for accelerated data quality enhancement |
CA2782414C (en) * | 2009-12-14 | 2021-08-03 | Ab Initio Technology Llc | Specifying user interface elements |
US9477369B2 (en) * | 2010-03-08 | 2016-10-25 | Salesforce.Com, Inc. | System, method and computer program product for displaying a record as part of a selected grouping of data |
US8205114B2 (en) | 2010-04-07 | 2012-06-19 | Verizon Patent And Licensing Inc. | Method and system for partitioning data files for efficient processing |
US8577094B2 (en) | 2010-04-09 | 2013-11-05 | Donald Martin Monro | Image template masking |
US8417727B2 (en) | 2010-06-14 | 2013-04-09 | Infobright Inc. | System and method for storing data in a relational database |
US8521748B2 (en) | 2010-06-14 | 2013-08-27 | Infobright Inc. | System and method for managing metadata in a relational database |
KR20150042297A (ko) | 2010-06-15 | 2015-04-20 | 아브 이니티오 테크놀로지 엘엘시 | 동적으로 로딩하는 그래프 기반 계산 |
US8775447B2 (en) | 2010-06-22 | 2014-07-08 | Ab Initio Technology Llc | Processing related datasets |
US8990165B2 (en) * | 2010-07-13 | 2015-03-24 | Hewlett-Packard Development Company, L.P. | Methods, apparatus and articles of manufacture to archive data |
US8515863B1 (en) * | 2010-09-01 | 2013-08-20 | Federal Home Loan Mortgage Corporation | Systems and methods for measuring data quality over time |
WO2012061109A1 (en) | 2010-10-25 | 2012-05-10 | Ab Initio Technology Llc | Managing data set objects in a dataflow graph that represents a computer program |
KR20120061308A (ko) * | 2010-12-03 | 2012-06-13 | 삼성전자주식회사 | 휴대용 단말기에서 데이터 베이스를 제어하기 위한 장치 및 방법 |
CA2824282C (en) | 2011-01-14 | 2019-05-21 | Ab Initio Technology Llc | Managing changes to collections of data |
CN103348598B (zh) * | 2011-01-28 | 2017-07-14 | 起元科技有限公司 | 生成数据模式信息 |
US9116759B2 (en) | 2011-02-18 | 2015-08-25 | Ab Initio Technology Llc | Restarting data processing systems |
US9021299B2 (en) | 2011-02-18 | 2015-04-28 | Ab Initio Technology Llc | Restarting processes |
US9311487B2 (en) * | 2011-03-15 | 2016-04-12 | Panasonic Corporation | Tampering monitoring system, management device, protection control module, and detection module |
US9558519B1 (en) | 2011-04-29 | 2017-01-31 | Consumerinfo.Com, Inc. | Exposing reporting cycle information |
US20120330880A1 (en) * | 2011-06-23 | 2012-12-27 | Microsoft Corporation | Synthetic data generation |
US8782016B2 (en) * | 2011-08-26 | 2014-07-15 | Qatar Foundation | Database record repair |
US9116934B2 (en) * | 2011-08-26 | 2015-08-25 | Qatar Foundation | Holistic database record repair |
US8863082B2 (en) | 2011-09-07 | 2014-10-14 | Microsoft Corporation | Transformational context-aware data source management |
US8719271B2 (en) | 2011-10-06 | 2014-05-06 | International Business Machines Corporation | Accelerating data profiling process |
US9438656B2 (en) | 2012-01-11 | 2016-09-06 | International Business Machines Corporation | Triggering window conditions by streaming features of an operator graph |
US9430117B2 (en) * | 2012-01-11 | 2016-08-30 | International Business Machines Corporation | Triggering window conditions using exception handling |
US20130304712A1 (en) * | 2012-05-11 | 2013-11-14 | Theplatform For Media, Inc. | System and method for validation |
US9582553B2 (en) * | 2012-06-26 | 2017-02-28 | Sap Se | Systems and methods for analyzing existing data models |
US9633076B1 (en) * | 2012-10-15 | 2017-04-25 | Tableau Software Inc. | Blending and visualizing data from multiple data sources |
US10489360B2 (en) | 2012-10-17 | 2019-11-26 | Ab Initio Technology Llc | Specifying and applying rules to data |
CA3128654A1 (en) * | 2012-10-22 | 2014-05-01 | Ab Initio Technology Llc | Characterizing data sources in a data storage system |
US9323748B2 (en) * | 2012-10-22 | 2016-04-26 | Ab Initio Technology Llc | Profiling data with location information |
US9507682B2 (en) | 2012-11-16 | 2016-11-29 | Ab Initio Technology Llc | Dynamic graph performance monitoring |
US10108521B2 (en) | 2012-11-16 | 2018-10-23 | Ab Initio Technology Llc | Dynamic component performance monitoring |
US9703822B2 (en) | 2012-12-10 | 2017-07-11 | Ab Initio Technology Llc | System for transform generation |
EP2757467A1 (en) * | 2013-01-22 | 2014-07-23 | Siemens Aktiengesellschaft | Management apparatus and method for managing data elements of a version control system |
US9471545B2 (en) | 2013-02-11 | 2016-10-18 | Oracle International Corporation | Approximating value densities |
US9135280B2 (en) * | 2013-02-11 | 2015-09-15 | Oracle International Corporation | Grouping interdependent fields |
US9110949B2 (en) | 2013-02-11 | 2015-08-18 | Oracle International Corporation | Generating estimates for query optimization |
US9811233B2 (en) | 2013-02-12 | 2017-11-07 | Ab Initio Technology Llc | Building applications for configuring processes |
US10332010B2 (en) | 2013-02-19 | 2019-06-25 | Business Objects Software Ltd. | System and method for automatically suggesting rules for data stored in a table |
US9576036B2 (en) | 2013-03-15 | 2017-02-21 | International Business Machines Corporation | Self-analyzing data processing job to determine data quality issues |
KR101444249B1 (ko) * | 2013-05-13 | 2014-09-26 | (주) 아트리아트레이딩 | 대차 거래, 공매도 거래 또는 주식 스왑 거래에 관한 정보를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체 |
CN105556474B (zh) | 2013-05-17 | 2019-04-30 | 起元科技有限公司 | 管理数据操作的存储器和存储空间 |
US20150032907A1 (en) * | 2013-07-26 | 2015-01-29 | Alcatel-Lucent Canada, Inc. | Universal adapter with context-bound translation for application adaptation layer |
WO2015027085A1 (en) | 2013-08-22 | 2015-02-26 | Genomoncology, Llc | Computer-based systems and methods for analyzing genomes based on discrete data structures corresponding to genetic variants therein |
KR102349573B1 (ko) | 2013-09-27 | 2022-01-10 | 아브 이니티오 테크놀로지 엘엘시 | 데이터에 적용되는 규칙 평가 |
US20150120224A1 (en) * | 2013-10-29 | 2015-04-30 | C3 Energy, Inc. | Systems and methods for processing data relating to energy usage |
CA2932763C (en) | 2013-12-05 | 2022-07-12 | Ab Initio Technology Llc | Managing interfaces for dataflow graphs composed of sub-graphs |
WO2015095275A1 (en) | 2013-12-18 | 2015-06-25 | Ab Initio Technology Llc | Data generation |
US9529849B2 (en) | 2013-12-31 | 2016-12-27 | Sybase, Inc. | Online hash based optimizer statistics gathering in a database |
US9984173B2 (en) * | 2014-02-24 | 2018-05-29 | International Business Machines Corporation | Automated value analysis in legacy data |
EP3114578A1 (en) * | 2014-03-07 | 2017-01-11 | AB Initio Technology LLC | Managing data profiling operations related to data type |
WO2015138497A2 (en) | 2014-03-10 | 2015-09-17 | Interana, Inc. | Systems and methods for rapid data analysis |
US9846567B2 (en) | 2014-06-16 | 2017-12-19 | International Business Machines Corporation | Flash optimized columnar data layout and data access algorithms for big data query engines |
US9633058B2 (en) | 2014-06-16 | 2017-04-25 | International Business Machines Corporation | Predictive placement of columns during creation of a large database |
JP6457622B2 (ja) | 2014-07-18 | 2019-01-23 | アビニシオ テクノロジー エルエルシー | パラメータの集合の管理 |
SG11201701667WA (en) * | 2014-09-02 | 2017-04-27 | Ab Initio Technology Llc | Visually specifying subsets of components in graph-based programs through user interactions |
US9626393B2 (en) | 2014-09-10 | 2017-04-18 | Ab Initio Technology Llc | Conditional validation rules |
US9880818B2 (en) * | 2014-11-05 | 2018-01-30 | Ab Initio Technology Llc | Application testing |
US10055333B2 (en) | 2014-11-05 | 2018-08-21 | Ab Initio Technology Llc | Debugging a graph |
US10296507B2 (en) | 2015-02-12 | 2019-05-21 | Interana, Inc. | Methods for enhancing rapid data analysis |
US9952808B2 (en) | 2015-03-26 | 2018-04-24 | International Business Machines Corporation | File system block-level tiering and co-allocation |
CN104850590A (zh) * | 2015-04-24 | 2015-08-19 | 百度在线网络技术(北京)有限公司 | 一种生成结构化数据的元数据的方法与装置 |
US11068647B2 (en) * | 2015-05-28 | 2021-07-20 | International Business Machines Corporation | Measuring transitions between visualizations |
KR101632073B1 (ko) * | 2015-06-04 | 2016-06-20 | 장원중 | 통계 분석 기반의 데이터 프로파일링을 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 |
CA3001304C (en) | 2015-06-05 | 2021-10-19 | C3 Iot, Inc. | Systems, methods, and devices for an enterprise internet-of-things application development platform |
US9384203B1 (en) * | 2015-06-09 | 2016-07-05 | Palantir Technologies Inc. | Systems and methods for indexing and aggregating data records |
US10409802B2 (en) | 2015-06-12 | 2019-09-10 | Ab Initio Technology Llc | Data quality analysis |
US10241979B2 (en) * | 2015-07-21 | 2019-03-26 | Oracle International Corporation | Accelerated detection of matching patterns |
US10657134B2 (en) | 2015-08-05 | 2020-05-19 | Ab Initio Technology Llc | Selecting queries for execution on a stream of real-time data |
US10127264B1 (en) | 2015-09-17 | 2018-11-13 | Ab Initio Technology Llc | Techniques for automated data analysis |
US10607139B2 (en) | 2015-09-23 | 2020-03-31 | International Business Machines Corporation | Candidate visualization techniques for use with genetic algorithms |
JP6893209B2 (ja) * | 2015-10-30 | 2021-06-23 | アクシオム コーポレーション | 構造化されたマルチフィールドファイルのレイアウトの自動解釈 |
US10140337B2 (en) * | 2015-10-30 | 2018-11-27 | Sap Se | Fuzzy join key |
US11410230B1 (en) | 2015-11-17 | 2022-08-09 | Consumerinfo.Com, Inc. | Realtime access and control of secure regulated data |
US10757154B1 (en) | 2015-11-24 | 2020-08-25 | Experian Information Solutions, Inc. | Real-time event-based notification system |
WO2017145386A1 (ja) * | 2016-02-26 | 2017-08-31 | 株式会社日立製作所 | 時系列データと分析データとのうちの少なくとも一部を入力データとした分析処理を実行する分析システム及び分析方法 |
US10685035B2 (en) | 2016-06-30 | 2020-06-16 | International Business Machines Corporation | Determining a collection of data visualizations |
US10423387B2 (en) | 2016-08-23 | 2019-09-24 | Interana, Inc. | Methods for highly efficient data sharding |
US10146835B2 (en) | 2016-08-23 | 2018-12-04 | Interana, Inc. | Methods for stratified sampling-based query execution |
US12013895B2 (en) | 2016-09-26 | 2024-06-18 | Splunk Inc. | Processing data using containerized nodes in a containerized scalable environment |
US11860940B1 (en) | 2016-09-26 | 2024-01-02 | Splunk Inc. | Identifying buckets for query execution using a catalog of buckets |
US10353965B2 (en) | 2016-09-26 | 2019-07-16 | Splunk Inc. | Data fabric service system architecture |
US10956415B2 (en) | 2016-09-26 | 2021-03-23 | Splunk Inc. | Generating a subquery for an external data system using a configuration file |
US11604795B2 (en) | 2016-09-26 | 2023-03-14 | Splunk Inc. | Distributing partial results from an external data system between worker nodes |
US11620336B1 (en) | 2016-09-26 | 2023-04-04 | Splunk Inc. | Managing and storing buckets to a remote shared storage system based on a collective bucket size |
US11093703B2 (en) | 2016-09-29 | 2021-08-17 | Google Llc | Generating charts from data in a data table |
US9720961B1 (en) | 2016-09-30 | 2017-08-01 | Semmle Limited | Algebraic data types for database query languages |
US9633078B1 (en) * | 2016-09-30 | 2017-04-25 | Semmle Limited | Generating identifiers for tuples of recursively defined relations |
DE112017006106T5 (de) | 2016-12-01 | 2019-09-19 | Ab Initio Technology Llc | Erzeugen von, Zugreifen auf und Anzeigen von Abstammungsmetadaten |
US10650050B2 (en) | 2016-12-06 | 2020-05-12 | Microsoft Technology Licensing, Llc | Synthesizing mapping relationships using table corpus |
US10936555B2 (en) * | 2016-12-22 | 2021-03-02 | Sap Se | Automated query compliance analysis |
US10565173B2 (en) * | 2017-02-10 | 2020-02-18 | Wipro Limited | Method and system for assessing quality of incremental heterogeneous data |
US10002146B1 (en) * | 2017-02-13 | 2018-06-19 | Sas Institute Inc. | Distributed data set indexing |
US10514993B2 (en) * | 2017-02-14 | 2019-12-24 | Google Llc | Analyzing large-scale data processing jobs |
CN107220283B (zh) * | 2017-04-21 | 2019-11-08 | 东软集团股份有限公司 | 数据处理方法、装置、存储介质及电子设备 |
US9934287B1 (en) | 2017-07-25 | 2018-04-03 | Capital One Services, Llc | Systems and methods for expedited large file processing |
US12118009B2 (en) * | 2017-07-31 | 2024-10-15 | Splunk Inc. | Supporting query languages through distributed execution of query engines |
US11921672B2 (en) | 2017-07-31 | 2024-03-05 | Splunk Inc. | Query execution at a remote heterogeneous data store of a data fabric service |
US11989194B2 (en) * | 2017-07-31 | 2024-05-21 | Splunk Inc. | Addressing memory limits for partition tracking among worker nodes |
US11423083B2 (en) | 2017-10-27 | 2022-08-23 | Ab Initio Technology Llc | Transforming a specification into a persistent computer program |
US11055074B2 (en) * | 2017-11-13 | 2021-07-06 | Ab Initio Technology Llc | Key-based logging for processing of structured data items with executable logic |
US11509540B2 (en) * | 2017-12-14 | 2022-11-22 | Extreme Networks, Inc. | Systems and methods for zero-footprint large-scale user-entity behavior modeling |
WO2019147249A1 (en) * | 2018-01-25 | 2019-08-01 | Ab Initio Technology Llc | Techniques for integrating validation results in data profiling and related systems and methods |
US11068540B2 (en) | 2018-01-25 | 2021-07-20 | Ab Initio Technology Llc | Techniques for integrating validation results in data profiling and related systems and methods |
US11334543B1 (en) | 2018-04-30 | 2022-05-17 | Splunk Inc. | Scalable bucket merging for a data intake and query system |
EP3575980A3 (en) | 2018-05-29 | 2020-03-04 | Accenture Global Solutions Limited | Intelligent data quality |
CA3106682A1 (en) * | 2018-07-19 | 2020-01-23 | Ab Initio Technology Llc | Publishing to a data warehouse |
US11080266B2 (en) * | 2018-07-30 | 2021-08-03 | Futurewei Technologies, Inc. | Graph functional dependency checking |
US11265324B2 (en) | 2018-09-05 | 2022-03-01 | Consumerinfo.Com, Inc. | User permissions for access to secure data at third-party |
US11227065B2 (en) | 2018-11-06 | 2022-01-18 | Microsoft Technology Licensing, Llc | Static data masking |
US11423009B2 (en) * | 2019-05-29 | 2022-08-23 | ThinkData Works, Inc. | System and method to prevent formation of dark data |
US11704494B2 (en) * | 2019-05-31 | 2023-07-18 | Ab Initio Technology Llc | Discovering a semantic meaning of data fields from profile data of the data fields |
US11153400B1 (en) | 2019-06-04 | 2021-10-19 | Thomas Layne Bascom | Federation broker system and method for coordinating discovery, interoperability, connections and correspondence among networked resources |
US11494380B2 (en) | 2019-10-18 | 2022-11-08 | Splunk Inc. | Management of distributed computing framework components in a data fabric service system |
CN111143433B (zh) * | 2019-12-10 | 2024-07-09 | 中国平安财产保险股份有限公司 | 一种统计数据仓数据的方法及装置 |
KR102365910B1 (ko) * | 2019-12-31 | 2022-02-22 | 가톨릭관동대학교산학협력단 | 속성 값 품질 지수를 이용한 데이터 프로파일링 방법 및 데이터 프로파일링 시스템 |
FR3105844A1 (fr) * | 2019-12-31 | 2021-07-02 | Bull Sas | PROCEDE ET système D’IDENTIFICATION DE VARIABLES PERTINENTES |
US11200215B2 (en) * | 2020-01-30 | 2021-12-14 | International Business Machines Corporation | Data quality evaluation |
US11922222B1 (en) | 2020-01-30 | 2024-03-05 | Splunk Inc. | Generating a modified component for a data intake and query system using an isolated execution environment image |
US11321340B1 (en) | 2020-03-31 | 2022-05-03 | Wells Fargo Bank, N.A. | Metadata extraction from big data sources |
US11556563B2 (en) * | 2020-06-12 | 2023-01-17 | Oracle International Corporation | Data stream processing |
US11403268B2 (en) * | 2020-08-06 | 2022-08-02 | Sap Se | Predicting types of records based on amount values of records |
US11704313B1 (en) | 2020-10-19 | 2023-07-18 | Splunk Inc. | Parallel branch operation using intermediary nodes |
KR102265937B1 (ko) * | 2020-12-21 | 2021-06-17 | 주식회사 모비젠 | 시퀀스데이터의 분석 방법 및 그 장치 |
US11847390B2 (en) | 2021-01-05 | 2023-12-19 | Capital One Services, Llc | Generation of synthetic data using agent-based simulations |
US20220215243A1 (en) * | 2021-01-05 | 2022-07-07 | Capital One Services, Llc | Risk-Reliability Framework for Evaluating Synthetic Data Models |
US12106026B2 (en) | 2021-01-05 | 2024-10-01 | Capital One Services, Llc | Extensible agents in agent-based generative models |
WO2022165321A1 (en) | 2021-01-31 | 2022-08-04 | Ab Initio Technology Llc | Data processing system with manipulation of logical dataset groups |
US11537594B2 (en) | 2021-02-05 | 2022-12-27 | Oracle International Corporation | Approximate estimation of number of distinct keys in a multiset using a sample |
CN112925792B (zh) * | 2021-03-26 | 2024-01-05 | 北京中经惠众科技有限公司 | 数据存储控制方法、装置、计算设备及介质 |
US12072939B1 (en) | 2021-07-30 | 2024-08-27 | Splunk Inc. | Federated data enrichment objects |
CN113656430B (zh) * | 2021-08-12 | 2024-02-27 | 上海二三四五网络科技有限公司 | 一种批量表数据自动扩充的控制方法及装置 |
KR102437098B1 (ko) | 2022-04-15 | 2022-08-25 | 이찬영 | 인공 지능 기반의 오류 데이터 판정 방법 및 그 장치 |
US12093272B1 (en) | 2022-04-29 | 2024-09-17 | Splunk Inc. | Retrieving data identifiers from queue for search of external data system |
US11907051B1 (en) | 2022-09-07 | 2024-02-20 | International Business Machines Corporation | Correcting invalid zero value for data monitoring |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1091633A (ja) * | 1996-07-15 | 1998-04-10 | At & T Corp | 情報サーバの情報リソースの統合化 |
JPH10320423A (ja) * | 1997-04-07 | 1998-12-04 | Informix Software Inc | データベースシステムにおいて結合質問を実行する方法及び装置 |
JP2002024262A (ja) * | 2000-07-07 | 2002-01-25 | Nippon Telegr & Teleph Corp <Ntt> | 情報源所在推定方法及び装置及び情報源所在推定プログラムを格納した記憶媒体 |
Family Cites Families (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2760794B2 (ja) * | 1988-01-29 | 1998-06-04 | 株式会社日立製作所 | データベース処理方法および装置 |
US5179643A (en) | 1988-12-23 | 1993-01-12 | Hitachi, Ltd. | Method of multi-dimensional analysis and display for a large volume of record information items and a system therefor |
JPH032938A (ja) | 1989-05-31 | 1991-01-09 | Hitachi Ltd | データベース処理方法 |
JPH04152440A (ja) * | 1990-10-17 | 1992-05-26 | Hitachi Ltd | 知的問合せ処理方法 |
FR2698465B1 (fr) | 1992-11-20 | 1995-01-13 | Bull Sa | Méthode d'extraction de profils de statistiques, utilisation des statistiques créées par la méthode. |
US5742806A (en) | 1994-01-31 | 1998-04-21 | Sun Microsystems, Inc. | Apparatus and method for decomposing database queries for database management system including multiprocessor digital data processing system |
JP3519126B2 (ja) | 1994-07-14 | 2004-04-12 | 株式会社リコー | 自動レイアウトシステム |
US5842200A (en) | 1995-03-31 | 1998-11-24 | International Business Machines Corporation | System and method for parallel mining of association rules in databases |
US6601048B1 (en) * | 1997-09-12 | 2003-07-29 | Mci Communications Corporation | System and method for detecting and managing fraud |
US5966072A (en) | 1996-07-02 | 1999-10-12 | Ab Initio Software Corporation | Executing computations expressed as graphs |
US6138123A (en) | 1996-07-25 | 2000-10-24 | Rathbun; Kyle R. | Method for creating and using parallel data structures |
JPH1055367A (ja) | 1996-08-09 | 1998-02-24 | Hitachi Ltd | データ利用システム |
US5845285A (en) | 1997-01-07 | 1998-12-01 | Klein; Laurence C. | Computer system and method of data analysis |
US6134560A (en) | 1997-12-16 | 2000-10-17 | Kliebhan; Daniel F. | Method and apparatus for merging telephone switching office databases |
US6826556B1 (en) * | 1998-10-02 | 2004-11-30 | Ncr Corporation | Techniques for deploying analytic models in a parallel |
US6959300B1 (en) * | 1998-12-10 | 2005-10-25 | At&T Corp. | Data compression method and apparatus |
US6343294B1 (en) | 1998-12-15 | 2002-01-29 | International Business Machines Corporation | Data file editor for multiple data subsets |
JP4037001B2 (ja) * | 1999-02-23 | 2008-01-23 | 三菱電機株式会社 | データベース作成装置およびデータベース検索装置 |
US6741995B1 (en) * | 1999-03-23 | 2004-05-25 | Metaedge Corporation | Method for dynamically creating a profile |
US6430539B1 (en) * | 1999-05-06 | 2002-08-06 | Hnc Software | Predictive modeling of consumer financial behavior |
US6163774A (en) | 1999-05-24 | 2000-12-19 | Platinum Technology Ip, Inc. | Method and apparatus for simplified and flexible selection of aggregate and cross product levels for a data warehouse |
US6801938B1 (en) | 1999-06-18 | 2004-10-05 | Torrent Systems, Inc. | Segmentation and processing of continuous data streams using transactional semantics |
JP4600847B2 (ja) | 1999-06-18 | 2010-12-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | トランザクションの意味規則を用いた連続データストリームのセグメント化および処理 |
JP3318834B2 (ja) | 1999-07-30 | 2002-08-26 | 三菱電機株式会社 | データファイルシステム及びデータ検索方法 |
JP4366845B2 (ja) * | 2000-07-24 | 2009-11-18 | ソニー株式会社 | データ処理装置およびデータ処理方法、並びにプログラム提供媒体 |
US6788302B1 (en) | 2000-08-03 | 2004-09-07 | International Business Machines Corporation | Partitioning and load balancing graphical shape data for parallel applications |
US20020073138A1 (en) * | 2000-12-08 | 2002-06-13 | Gilbert Eric S. | De-identification and linkage of data records |
US6952693B2 (en) | 2001-02-23 | 2005-10-04 | Ran Wolff | Distributed mining of association rules |
US20020161778A1 (en) * | 2001-02-24 | 2002-10-31 | Core Integration Partners, Inc. | Method and system of data warehousing and building business intelligence using a data storage model |
US20020120602A1 (en) * | 2001-02-28 | 2002-08-29 | Ross Overbeek | System, method and computer program product for simultaneous analysis of multiple genomes |
JP2002269114A (ja) * | 2001-03-14 | 2002-09-20 | Kousaku Ookubo | 知識データベース及び知識データベースの構築方法 |
US20030033138A1 (en) * | 2001-07-26 | 2003-02-13 | Srinivas Bangalore | Method for partitioning a data set into frequency vectors for clustering |
US7130852B2 (en) * | 2001-07-27 | 2006-10-31 | Silicon Valley Bank | Internal security system for a relational database system |
WO2003014867A2 (en) * | 2001-08-03 | 2003-02-20 | John Allen Ananian | Personalized interactive digital catalog profiling |
US6801903B2 (en) | 2001-10-12 | 2004-10-05 | Ncr Corporation | Collecting statistics in a database system |
US20030140027A1 (en) * | 2001-12-12 | 2003-07-24 | Jeffrey Huttel | Universal Programming Interface to Knowledge Management (UPIKM) database system with integrated XML interface |
US7813937B1 (en) * | 2002-02-15 | 2010-10-12 | Fair Isaac Corporation | Consistency modeling of healthcare claims to detect fraud and abuse |
US7031969B2 (en) | 2002-02-20 | 2006-04-18 | Lawrence Technologies, Llc | System and method for identifying relationships between database records |
CA2479838C (en) * | 2002-03-19 | 2011-02-08 | Mapinfo Corporation | Location based service provider |
US20040083199A1 (en) * | 2002-08-07 | 2004-04-29 | Govindugari Diwakar R. | Method and architecture for data transformation, normalization, profiling, cleansing and validation |
US6657568B1 (en) | 2002-08-27 | 2003-12-02 | Fmr Corp. | Data packing for real-time streaming |
US7047230B2 (en) * | 2002-09-09 | 2006-05-16 | Lucent Technologies Inc. | Distinct sampling system and a method of distinct sampling for optimizing distinct value query estimates |
WO2004036461A2 (en) * | 2002-10-14 | 2004-04-29 | Battelle Memorial Institute | Information reservoir |
US7698163B2 (en) * | 2002-11-22 | 2010-04-13 | Accenture Global Services Gmbh | Multi-dimensional segmentation for use in a customer interaction |
US7403942B1 (en) * | 2003-02-04 | 2008-07-22 | Seisint, Inc. | Method and system for processing data records |
US7433861B2 (en) * | 2003-03-13 | 2008-10-07 | International Business Machines Corporation | Byte-code representations of actual data to reduce network traffic in database transactions |
US7117222B2 (en) * | 2003-03-13 | 2006-10-03 | International Business Machines Corporation | Pre-formatted column-level caching to improve client performance |
US20040249810A1 (en) * | 2003-06-03 | 2004-12-09 | Microsoft Corporation | Small group sampling of data for use in query processing |
GB0314591D0 (en) | 2003-06-21 | 2003-07-30 | Ibm | Profiling data in a data store |
US7426520B2 (en) | 2003-09-10 | 2008-09-16 | Exeros, Inc. | Method and apparatus for semantic discovery and mapping between data sources |
ATE515746T1 (de) | 2003-09-15 | 2011-07-15 | Ab Initio Technology Llc | Datenprofilierung |
US7587394B2 (en) * | 2003-09-23 | 2009-09-08 | International Business Machines Corporation | Methods and apparatus for query rewrite with auxiliary attributes in query processing operations |
US7149736B2 (en) | 2003-09-26 | 2006-12-12 | Microsoft Corporation | Maintaining time-sorted aggregation records representing aggregations of values from multiple database records using multiple partitions |
WO2005050482A1 (en) | 2003-10-21 | 2005-06-02 | Nielsen Media Research, Inc. | Methods and apparatus for fusing databases |
US7376656B2 (en) | 2004-02-10 | 2008-05-20 | Microsoft Corporation | System and method for providing user defined aggregates in a database system |
US20050177578A1 (en) | 2004-02-10 | 2005-08-11 | Chen Yao-Ching S. | Efficient type annontation of XML schema-validated XML documents without schema validation |
US8447743B2 (en) * | 2004-08-17 | 2013-05-21 | International Business Machines Corporation | Techniques for processing database queries including user-defined functions |
US7774346B2 (en) | 2005-08-26 | 2010-08-10 | Oracle International Corporation | Indexes that are based on bitmap values and that use summary bitmap values |
US20070073721A1 (en) | 2005-09-23 | 2007-03-29 | Business Objects, S.A. | Apparatus and method for serviced data profiling operations |
US8271452B2 (en) | 2006-06-12 | 2012-09-18 | Rainstor Limited | Method, system, and database archive for enhancing database archiving |
US8412713B2 (en) | 2007-03-06 | 2013-04-02 | Mcafee, Inc. | Set function calculation in a database |
US7912867B2 (en) * | 2008-02-25 | 2011-03-22 | United Parcel Services Of America, Inc. | Systems and methods of profiling data for integration |
US9251212B2 (en) | 2009-03-27 | 2016-02-02 | Business Objects Software Ltd. | Profiling in a massive parallel processing environment |
KR101631978B1 (ko) | 2009-09-16 | 2016-06-20 | 아브 이니티오 테크놀로지 엘엘시 | 데이터세트 요소의 매핑 |
KR20120115233A (ko) | 2009-11-13 | 2012-10-17 | 아브 이니티오 테크놀로지 엘엘시 | 레코드 포맷 정보의 관리 |
US8396873B2 (en) | 2010-03-10 | 2013-03-12 | Emc Corporation | Index searching using a bloom filter |
US8296274B2 (en) | 2011-01-27 | 2012-10-23 | Leppard Andrew | Considering multiple lookups in bloom filter decision making |
CN103348598B (zh) | 2011-01-28 | 2017-07-14 | 起元科技有限公司 | 生成数据模式信息 |
US8615519B2 (en) | 2011-06-17 | 2013-12-24 | Sap Ag | Method and system for inverted indexing of a dataset |
US8762396B2 (en) | 2011-12-22 | 2014-06-24 | Sap Ag | Dynamic, hierarchical bloom filters for network data routing |
-
2004
- 2004-09-15 AT AT04784113T patent/ATE515746T1/de not_active IP Right Cessation
- 2004-09-15 KR KR1020097003696A patent/KR20090039803A/ko not_active Application Discontinuation
- 2004-09-15 EP EP10009234.5A patent/EP2261821B1/en not_active Expired - Lifetime
- 2004-09-15 EP EP04784113A patent/EP1676217B1/en not_active Expired - Lifetime
- 2004-09-15 KR KR1020067005255A patent/KR100899850B1/ko active IP Right Grant
- 2004-09-15 AU AU2004275334A patent/AU2004275334B9/en not_active Expired
- 2004-09-15 EP EP20100009155 patent/EP2261820A3/en not_active Withdrawn
- 2004-09-15 US US10/941,401 patent/US7756873B2/en active Active
- 2004-09-15 CA CA2655731A patent/CA2655731C/en not_active Expired - Lifetime
- 2004-09-15 US US10/941,373 patent/US7849075B2/en active Active
- 2004-09-15 WO PCT/US2004/030144 patent/WO2005029369A2/en active Search and Examination
- 2004-09-15 CN CN201210367944.3A patent/CN102982065B/zh not_active Expired - Lifetime
- 2004-09-15 CA CA2655735A patent/CA2655735C/en not_active Expired - Lifetime
- 2004-09-15 JP JP2006526986A patent/JP5328099B2/ja not_active Expired - Lifetime
- 2004-09-15 US US10/941,402 patent/US8868580B2/en not_active Expired - Lifetime
- 2004-09-15 KR KR1020077021526A patent/KR100922141B1/ko active IP Right Grant
- 2004-09-15 KR KR1020077021527A patent/KR101033179B1/ko active IP Right Grant
- 2004-09-15 CA CA002538568A patent/CA2538568C/en not_active Expired - Lifetime
-
2006
- 2006-12-28 HK HK06114200.1A patent/HK1093568A1/xx not_active IP Right Cessation
-
2009
- 2009-01-28 AU AU2009200294A patent/AU2009200294A1/en not_active Abandoned
- 2009-01-28 AU AU2009200293A patent/AU2009200293B2/en not_active Expired
-
2010
- 2010-07-06 JP JP2010153799A patent/JP5372850B2/ja not_active Expired - Lifetime
- 2010-07-06 JP JP2010153800A patent/JP5372851B2/ja not_active Expired - Lifetime
-
2014
- 2014-10-20 US US14/519,030 patent/US9323802B2/en not_active Expired - Lifetime
-
2016
- 2016-04-22 US US15/135,852 patent/US20160239532A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1091633A (ja) * | 1996-07-15 | 1998-04-10 | At & T Corp | 情報サーバの情報リソースの統合化 |
JPH10320423A (ja) * | 1997-04-07 | 1998-12-04 | Informix Software Inc | データベースシステムにおいて結合質問を実行する方法及び装置 |
JP2002024262A (ja) * | 2000-07-07 | 2002-01-25 | Nippon Telegr & Teleph Corp <Ntt> | 情報源所在推定方法及び装置及び情報源所在推定プログラムを格納した記憶媒体 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11163670B2 (en) | 2013-02-01 | 2021-11-02 | Ab Initio Technology Llc | Data records selection |
KR20160107188A (ko) * | 2014-01-16 | 2016-09-13 | 아브 이니티오 테크놀로지 엘엘시 | 데이터베이스 키 식별 |
JP2017507392A (ja) * | 2014-01-16 | 2017-03-16 | アビニシオ テクノロジー エルエルシー | データベースキーの識別 |
KR102240137B1 (ko) | 2014-01-16 | 2021-04-13 | 아브 이니티오 테크놀로지 엘엘시 | 데이터베이스 키 식별 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5328099B2 (ja) | データプロファイリング | |
JP5826260B2 (ja) | 関連データセットの処理 | |
CN101271471B (zh) | 数据处理方法、软件和数据处理系统 | |
AU2013200067B2 (en) | Data profiling | |
JP2017532652A (ja) | 階層的なエンティティのための計算の管理 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20120323 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120808 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130612 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130823 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130918 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5372851 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |