JP2017515180A - ビッグ・データ・リポジトリにおけるデータ・セットの処理 - Google Patents
ビッグ・データ・リポジトリにおけるデータ・セットの処理 Download PDFInfo
- Publication number
- JP2017515180A JP2017515180A JP2016553316A JP2016553316A JP2017515180A JP 2017515180 A JP2017515180 A JP 2017515180A JP 2016553316 A JP2016553316 A JP 2016553316A JP 2016553316 A JP2016553316 A JP 2016553316A JP 2017515180 A JP2017515180 A JP 2017515180A
- Authority
- JP
- Japan
- Prior art keywords
- data
- agent
- data set
- agents
- execution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 claims abstract description 67
- 230000001960 triggered effect Effects 0.000 claims abstract description 39
- 230000008569 process Effects 0.000 claims description 34
- 238000012558 master data management Methods 0.000 claims description 9
- 238000007405 data analysis Methods 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 7
- 230000004048 modification Effects 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 239000003795 chemical substances by application Substances 0.000 description 232
- 238000013459 approach Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000007781 pre-processing Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010348 incorporation Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000037406 food intake Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000000275 quality assurance Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
・ ファイル・フォーマットの識別タスクまたはファイル構文の識別タスクを実行するよう動作可能なプログラム・エンジン。前記プログラム・エンジンは、ファイル・フォーマット情報または構文情報を使ってデータ・セットに注釈を付けることができる。
・ データ・セットを、他のプログラム・エンジンの動作必要性に適合するように変換するため、抽出・変換・書き込み(ETL:extract−transform−load)タスクを実行するよう動作可能なプログラム・エンジン。変換の対象となるデータ・セットは、ビッグ・データ・リポジトリによって取り込まれたか、ビッグ・データ・リポジトリ内で生成されたものであってよい。通常、意味プロファイリング・ツールもしくはユーザまたはその両方は、データが、CSV、RDF、バイナリまたはXMLファイル、またはリレーショナルもしくは縦欄式データベース・テーブルなど特定の構文様式で提示されることを必要とする。前記の場合において、利用可能なデータ・セットは、データ・プロファイリング・ツールによって解釈が可能なフォーマットに変換される必要がある。
・ 例えば、誤謬のある、冗長な、あいまいな、失効した、または矛盾のあるデータ記録など、低品質のデータ記録を、処理されるデータ・セットから自動的に除去するため、データの品質チェックを実行するように動作可能なプログラム・エンジン。これに加えてまたは換えて、前記プログラム・エンジンは、処理されるデータ・セットの注釈に、前記データ・セットの自動的に判定された品質レベルを増補するよう動作可能にされてもよい。
・ 処理されるデータ・セットから、秘密データ値もしくは秘密データ記録を自動的に除去するため、もしくは処理されるデータ・セットの注釈に、前記データ・セットから一切の秘密データが成功裏に除去されたことについての情報を増補するため、またはその両方のため、データ・マスキング・オペレーションを実行するよう動作可能なプログラム・エンジン。
・ 技術的要件もしくはビジネス要件またはその両方に従って、処理されるデータ・セット中のデータ記録を、自動的に訂正し、標準化し、または処理するためのマスタ・データ管理(MDM)オペレーションを実行するよう動作可能なプログラム・エンジン。MDMオペレーションは、或る組織全体を通して、データを、収集し、集約し、整合させ、一元管理し、品質保証し、持続し、もしくは配信すること、またはこれらの組み合わせを行うことを含み得る。これに加えてまたは換えて、前記プログラム・エンジンは、処理されるデータ・セットの注釈に、前記MDMオペレーションの結果についての情報を増補できるようにすることも可能である。
・ 処理されるデータ・セットのデータ分析を実行する、もしくは処理されるデータ・セットの注釈に前記データ分析の結果を増補するまたはその両方を行うよう動作可能なプログラム・エンジン。前記分析は、例えば、テキスト分析または統計的分析を含んでよい。
> “1576”、“Cliff Langlais(クリフ・ラングレ)”、“35 Livery Street(リバティ通り), Birmingham(バーミンガム)”、“28451”、“single(未婚)”、“inactive(無職)”
> “1277”、“Patrice Merkel(パトリス・マーケル)”、“Daimler Strasse(ダイムラー通り) 3 Wiernsheim(ヴィールンスハイム)”、“75444”、“divorced(離婚)”、“employee(被雇用者)”
> “1287”、“Catherine Coon(キャサリン・クーン)”、“Schilllenbergweg(シーレンベルグウェグ) 10 Sundern(スンダーン)”、“59846”、“married(既婚)”、“inactive(無職)”
> [・・・]
Claims (15)
- 少なくとも非構造化データを格納するために、データ・リポジトリ(104)において複数のデータ・セット(105、106、108、110〜113、DB1、DB2)を処理するためのコンピュータ実装の方法であって、前記方法は、
− エージェント(150〜168)のセットを準備するステップ(302)であって、各エージェントは前記データ・セットのうちの一つ以上の前記処理をトリガするよう動作可能であり、前記エージェントに対し指定された一つ以上の条件が満たされた場合、前記エージェント各々の前記実行が自動的にトリガされ、前記条件の少なくとも一つは、前記エージェントによって処理のトリガが可能な前記データ・セットの存在、構造、内容もしくは注釈またはこれらの組み合わせに関する、前記準備するステップと、
− 前記エージェントのうちの第一エージェントを実行するステップ(304)であって、前記実行は、前記データ・セットのうちの第一データ・セットに関する前記第一エージェントの前記条件が満たされることによってトリガされ、前記第一エージェントの前記実行は、前記第一データ・セットの前記処理をトリガする、前記実行するステップと、
− 前記第一エージェントによって前記第一データ・セットの前記注釈(115)を更新するステップ(306)であって、これにより、前記第一エージェントによってトリガされた前記第一データ・セットの前記処理の結果を前記注釈中に含める、前記更新するステップと、
− 前記エージェントのうちの第二エージェントを実行するステップ(308)であって、前記実行は、前記第一データ・セットの前記更新された注釈が前記第二エージェントの前記条件を満たすことによってトリガされ、前記第二エージェントの前記実行は、前記第二エージェントによる前記第一データ・セットのさらなる処理および前記第一データ・セットの前記注釈のさらなる更新をトリガする、前記実行するステップと、
を含む、コンピュータ実装の方法。 - エージェントの前記セットの各エージェントは、前記エージェントによって処理される対象の前記データ・セットのうちの一つの前記注釈の更新および前記データ・リポジトリ中での新規データ・セットの検出だけによってトリガでき、前記エージェントの前記実行が前記処理されたデータ・セットの前記注釈の更新をもたらす、請求項1に記載のコンピュータ実装の方法。
- − 前記データ・リポジトリは、それぞれが前記データ・セットの少なくとも一つを処理するよう動作可能な、複数のプログラム・エンジン(124〜138)によってアクセス可能であり、
− 前記エージェントの少なくとも一部は、それぞれ、前記プログラム・エンジンの一つを割り当てられており、それぞれ、それらの割り当てられたプログラム・エンジンへのインターフェースを含み、
− 前記エージェントは、自分のインターフェースを介し、それぞれに割り当てられたプログラム・エンジンの前記実行を起動することによって、前記データ・セットのうちの一つ以上の前記処理をトリガする、
請求項1〜2のいずれか一項に記載のコンピュータ実装の方法。 - − 前記プログラム・エンジンの各々に対しジョブ・キュー(Q1〜Q9)を準備するステップであって、前記エージェントの一つによる前記エンジンの一つの前記実行の前記トリガは、前記一つのプログラム・エンジンにより前記データ・セットの一つ以上を処理するためのジョブを、前記プログラム・エンジンの前記ジョブ・キューに追加するステップを含み、前記ジョブ・キューへの前記ジョブの前記追加は前記エージェントによって実行される、前記準備するステップ、
をさらに含み、
前記一つのプログラム・エンジンによる処理の対象となる前記データ・セットの一つ以上は、前記プログラム・エンジンのジョブ・キューの順番に従って前記プログラム・エンジンによって処理される、
請求項3に記載のコンピュータ実装の方法。 - 前記データ・リポジトリが作業負荷マネージャ(176)に動作可能に連結され、前記エージェントの少なくとも一部は、同等なプログラム・エンジンのセット(124、126)の前記実行をトリガするよう動作可能であり、ここで、同等なプログラム・エンジンは前記データ・セットの一つから同一の処理結果を生成するよう動作可能であり、前記方法は、
− 前記作業負荷マネージャが、前記プログラム・エンジンの各々から作業負荷情報を反復して受信するステップであって、前記作業負荷情報は前記プログラム・エンジンの稼働率もしくは前記プログラム・エンジンをホストしているコンピュータ・システムの稼働率またはその両方を示す、前記受信するステップと、
− 前記作業負荷マネージャが、前記受信された作業負荷情報を入力として使って、前記エージェントの一つに割り当てられている同等なプログラム・エンジンの少なくとも一つのセットに対し、最低の容量消費を有する前記プログラム・エンジンを反復的且つ自動的に判定するステップと、
− 前記作業負荷マネージャが、前記判定されたプログラム・エンジンの指摘を、同等なプログラム・エンジンの前記セットを割り当てられている前記エージェントに提示するステップと、
− 前記指摘を受信した前記エージェントが、前記エージェントに割り当てられた他の同等なプログラム・エンジンのどれか一つの実行をトリガするのでなく、前記指摘されたプログラム・エンジンの前記実行を選択的にトリガするステップと、
をさらに含む、請求項3〜4のいずれか一項に記載のコンピュータ実装の方法。 - 前記プログラム・エンジンのいずれか一つの前記作業負荷情報が、前記プログラム・エンジンの前記ジョブ・キュー(Q1〜Q9)中に現在格納されているジョブの数を含む、請求項5に記載のコンピュータ実装の方法。
- 前記データ・リポジトリがエージェント・マネージャ(174)に動作可能に連結されており、前記エージェントの少なくとも一部には優先番号(P.1〜P.7)を割り当てられており、前記方法は、
− 前記エージェント・マネージャが、全ての前記エージェントの前記インスタンス化もしくは実行またはその両方を連続的に監視するステップと、
− 前記エージェント・マネージャが、前記監視から得られた情報に基づいて、前記エージェントの少なくとも二つが前記データ・セットの同じ一つを処理する試みをしていること、もしくは前記エージェントの前記少なくとも二つが、両方のエージェントに同時には提供できない計算リソースを要求していること、またはその両方を自動的に判定するするステップと、
− 前記エージェント・マネージャが、前記少なくとも二つのエージェントの前記優先番号(P.1〜P.7)を評価し、最高の優先番号を有する前記エージェントに実行を選択的に許可するステップと、
をさらに含む、請求項1〜6のいずれか一項に記載のコンピュータ実装の方法。 - 前記データ・リポジトリがエージェント・マネージャ(174)に動作可能に連結されており、前記データ・セットの少なくとも一部には優先番号(D.1〜D.5)が割り当てられており、前記方法は、
− 前記エージェント・マネージャが、全ての前記エージェントの前記インスタンス化もしくは実行またはその両方を連続的に監視するステップと、
− 前記エージェント・マネージャが、前記監視から得られた情報に基づいて、前記エージェントの一つが、前記データ・セットの相異なる二つ以上のデータ・セットの前記処理をトリガするため始動されたことを自動的に判定するステップと、
− 前記エージェント・マネージャが、前記二つ以上の相異なるデータ・セットの前記優先番号(D.1〜D.5)を評価するステップと、
− 前記エージェント・マネージャが、前記評価に基づいて、前記エージェントに、前記データ・セットのそれぞれの前記優先番号(D.1〜D.5)に従って、前記データ・セットの前記処理をトリガさせるステップと、
をさらに含む、請求項1〜7のいずれか一項に記載のコンピュータ実装の方法。 - − グラフィカル・ユーザ・インターフェース(170)を準備するステップと、
− 前記グラフィカル・ユーザ・インターフェースを介し、前記データ・リポジトリのユーザ(171)から構成データを受信するステップと、
− 前記受信された構成データに従って、前記エージェントのうちの一つ以上の前記条件を修正するステップ、もしくは前記エージェントのうちの一つ以上の前記優先番号を修正するステップ、もしくは前記データ・セットの一つ以上に割り当てられた優先番号を修正するステップ、またはこれらの組み合わせのステップであって、前記修正は前記受信された構成データに従って実行される、前記修正するステップと、
をさらに含む、請求項1〜8のいずれか一項に記載のコンピュータ実装の方法。 - 前記エージェントのうちの前記第一エージェントの前記実行が、
− 前記第一エージェントによって、または前記第一エージェントによりトリガされたプログラム・エンジンによって、第二データ・セット(DB1、DB2)を生成するステップであって、前記第二データ・セットは前記第一データ・セット(105、106、108、110、111、112、113)の派生セットである、前記生成するステップ、
を含み、
前記第一データ・セットの前記注釈(115)の前記更新が、前記第一データ・セット前記注釈にリンクを追加するステップを含み、前記リンクは前記生成された第二データ・セット(DB1、DB2)のストレージ場所をポイントし、
前記第二エージェントの前記実行は、前記生成された第二データ・セットを、前記第二エージェントによってさらに処理されることになる前記第一データ・セットとして用いるステップを含む、
請求項1〜9のいずれか一項に記載のコンピュータ実装の方法。 - 前記複数のプログラム・エンジンが、次の種類のプログラム・エンジン:
− データ・セット(110)にファイル・フォーマット情報または構文情報の注釈付けをするための、ファイル・フォーマット識別タスクまたはファイル構文識別タスクを実行するプログラム・エンジン(208)、
− データ・セットを、前記プログラム・エンジンのうちの他のプログラム・エンジンの動作必要性に適合するように変換するため、抽出・変換・書き込み(ETL)タスクを実行するプログラム・エンジン(124〜128)、
− 前記処理されるデータ・セットから低品質のデータ記録を自動的に除去するため、もしくは前記処理されるデータ・セットの前記注釈に、前記データ・セットの自動的に判定された品質レベルを増補するため、またはその両方のために、データの品質チェックを実行するプログラム・エンジン(130)、
− 前記処理されるデータ・セットから、秘密データ値または秘密データ記録を自動的に除去するため、もしくは前記処理されるデータ・セットの前記注釈に、前記データ・セットから一切の秘密データが成功裏に除去されたことについての情報を増補するため、またはその両方のため、データ・マスキング・オペレーションを実行するプログラム・エンジン(132)、
− 技術的要件もしくはビジネス要件またはその両方に従って、前記処理されるデータ・セット中の前記データ記録を、自動的に訂正し、標準化し、もしくは処理するため、もしくは前記処理されるデータ・セットの前記注釈に、前記MDMオペレーションの結果についての情報を増補するため、またはその両方のため、マスタ・データ管理(MDM)オペレーションを実行するプログラム・エンジン(138)、
− 前記処理されるデータ・セットのデータ分析を実行する、もしくは前記処理されるデータ・セットの前記注釈に前記データ分析の結果を増補する、またはその両方をするプログラム・エンジン(134、136)、
のうちの少なくとも二つを、任意の種類の組み合わせで含む、請求項3〜10のいずれか一項に記載のコンピュータ実装の方法。 - − 前記データ・リポジトリのユーザに検索索引データ構造体(191)を提供するステップであって、前記検索索引データ構造体は、前記ユーザが、検索基準に整合するデータ・セット一式を読み出すため、もしくは前記データ・セットの選択されたもののデータ記録を読み出すため、またはその両方を行うために、検索を実行することを可能にする、前記提供するステップ、
− 前記データ・セットのいずれか一つに対して前記エージェントのいずれか一つによって生成された注釈を、前記検索索引データ構造体に連続的に且つ自動的に加えるステップ、もしくは、
− 前記エージェントの一つによって、前記検索索引データ構造体の第一ポインタを第二ポインタに自動的に置き換えるステップであって、前記置き換えるステップは、前記データ・セットのうちの第一データ・セットの処理の派生セットとして、前記データ・セットのうちの第二データ・セットが前記生成された場合に実行され、前記第一ポインタは前記第一データ・セットをポイントし、前記第二ポインタは前記第二データ・セットをポイントする、前記置き換えるステップ、
またはこれらステップの組み合わせ、
をさらに含む、請求項1〜11のいずれか一項に記載のコンピュータ実装の方法。 - 前記エージェントの少なくとも一部が、ネットワーク(192)を介して相互に接続された異なるコンピュータ・システム(202、204)上にホストされており、それぞれのエージェントによってトリガされる前記プログラム・エンジンの少なくとも一部は、前記トリガするエージェントと同じコンピュータ・システム上にホストされるレガシ・アプリケーションである、請求項3〜11のいずれか一項に記載のコンピュータ実装の方法。
- プロセッサ(194)による実行のためのマシン実行可能命令を含むコンピュータ可読ストレージ媒体(302)であって、前記命令の前記実行が、前記プロセッサに前記の請求項1〜13のいずれか一項に記載の前記ステップを実行させる、コンピュータ可読ストレージ媒体。
- − プロセッサ(194)と、
− 少なくとも非構造化データを格納するためのデータ・リポジトリを含むコンピュータ可読ストレージ媒体(302)であって、前記データ・リポジトリ(104)は複数のデータ・セット(105、106、108、110〜113、DB1、DB2)を含み、前記コンピュータ可読ストレージ媒体は前記プロセッサが実行するためのマシン実行可能命令をさらに含み、前記命令の前記実行が、前記プロセッサに、
− エージェント(150〜168)のセットを準備するステップ(302)であって、各エージェントは前記データ・セットのうちの一つ以上の前記処理をトリガするよう動作可能であり、前記エージェントに対し指定された一つ以上の条件が満たされた場合、前記エージェント各々の前記実行が自動的にトリガされ、前記条件の少なくとも一つは、前記エージェントによって処理のトリガが可能な前記データ・セットの存在、構造、内容もしくは注釈またはこれらの組み合わせに関する、前記準備するステップと、
− 前記エージェントのうちの第一エージェントを実行するステップ(304)であって、前記実行は、前記データ・セットのうちの第一データ・セットに関する前記第一エージェントの前記条件が満たされることによってトリガされ、前記第一エージェントの前記実行は、前記第一データ・セットの前記処理をトリガする、前記実行するステップと、
− 前記第一エージェントによって前記第一データ・セットの前記注釈(115)を更新するステップ(306)であって、これにより、前記第一エージェントによってトリガされた前記第一データ・セットの前記処理の結果を前記注釈中に含める、前記更新するステップと、
− 前記エージェントのうちの第二エージェントを実行するステップ(308)であって、前記実行は、前記第一データ・セットの前記更新された注釈が前記第二エージェントの前記条件を満たすことによってトリガされ、前記第二エージェントの前記実行は、前記第二エージェントによる前記第一データ・セットのさらなる処理および前記第一データ・セットの前記注釈のさらなる更新をトリガする、前記実行するステップと、
を含む方法実行させる、前記コンピュータ可読ストレージ媒体と、
を含む、コンピュータ・システム(180)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1404523.1A GB2524074A (en) | 2014-03-14 | 2014-03-14 | Processing data sets in a big data repository |
GB1404523.1 | 2014-03-14 | ||
PCT/IB2015/051233 WO2015136395A1 (en) | 2014-03-14 | 2015-02-18 | Processing data sets in a big data repository |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017515180A true JP2017515180A (ja) | 2017-06-08 |
JP6505123B2 JP6505123B2 (ja) | 2019-04-24 |
Family
ID=50634736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016553316A Active JP6505123B2 (ja) | 2014-03-14 | 2015-02-18 | ビッグ・データ・リポジトリにおけるデータ・セットの処理 |
Country Status (6)
Country | Link |
---|---|
US (2) | US10338960B2 (ja) |
JP (1) | JP6505123B2 (ja) |
CN (1) | CN106104533B (ja) |
DE (1) | DE112015000347T5 (ja) |
GB (2) | GB2524074A (ja) |
WO (1) | WO2015136395A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190054741A (ko) * | 2017-11-14 | 2019-05-22 | 주식회사 케이티 | 데이터의 품질 관리 방법 및 장치 |
JP2021009528A (ja) * | 2019-06-30 | 2021-01-28 | 大 益滿 | データベースと情報処理システム |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10671955B2 (en) | 2012-06-05 | 2020-06-02 | Dimensional Insight Incorporated | Dynamic generation of guided pages |
US10445674B2 (en) | 2012-06-05 | 2019-10-15 | Dimensional Insight Incorporated | Measure factory |
US10755233B2 (en) | 2012-06-05 | 2020-08-25 | Dimensional Insight Incorporated | Guided page navigation |
US9274668B2 (en) | 2012-06-05 | 2016-03-01 | Dimensional Insight Incorporated | Guided page navigation |
GB2524074A (en) | 2014-03-14 | 2015-09-16 | Ibm | Processing data sets in a big data repository |
CA2931041C (en) * | 2014-11-14 | 2017-03-28 | Mark Shtern | Systems and methods of controlled sharing of big data |
US9934257B2 (en) * | 2015-07-14 | 2018-04-03 | American Express Travel Related Services Company, Inc. | System and method for recursive metadata layers on big data sets |
US10055426B2 (en) | 2015-11-18 | 2018-08-21 | American Express Travel Related Services Company, Inc. | System and method transforming source data into output data in big data environments |
US10585864B2 (en) | 2016-11-11 | 2020-03-10 | International Business Machines Corporation | Computing the need for standardization of a set of values |
US10592813B1 (en) * | 2016-11-29 | 2020-03-17 | EMC IP Holding Company LLC | Methods and apparatus for data operation pre-processing with probabilistic estimation of operation value |
US11481239B2 (en) | 2016-12-07 | 2022-10-25 | Vmware, Inc. | Apparatus and methods to incorporate external system to approve deployment provisioning |
US10152356B2 (en) | 2016-12-07 | 2018-12-11 | Vmware, Inc. | Methods and apparatus for limiting data transferred over the network by interpreting part of the data as a metaproperty |
US10552180B2 (en) | 2016-12-07 | 2020-02-04 | Vmware, Inc. | Methods, systems, and apparatus to trigger a workflow in a cloud computing environment |
US10817293B2 (en) * | 2017-04-28 | 2020-10-27 | Tenstorrent Inc. | Processing core with metadata actuated conditional graph execution |
US10977016B2 (en) | 2017-10-31 | 2021-04-13 | EMC IP Holding Company LLC | Management of data using templates |
US11086901B2 (en) | 2018-01-31 | 2021-08-10 | EMC IP Holding Company LLC | Method and system for efficient data replication in big data environment |
US11188865B2 (en) | 2018-07-13 | 2021-11-30 | Dimensional Insight Incorporated | Assisted analytics |
CN109395399A (zh) * | 2018-09-26 | 2019-03-01 | 深圳市云歌人工智能技术有限公司 | 数据处理以及显示信息的方法和装置 |
US11017874B2 (en) | 2019-05-03 | 2021-05-25 | International Business Machines Corporation | Data and memory reorganization |
WO2020232157A1 (en) * | 2019-05-14 | 2020-11-19 | Pricewaterhousecoopers Llp | System and methods for generating secure ephemeral cloud-based computing resources for data operations |
US11232074B2 (en) | 2020-05-19 | 2022-01-25 | EMC IP Holding Company LLC | Systems and methods for searching deduplicated data |
US11461140B2 (en) * | 2020-05-19 | 2022-10-04 | EMC IP Holding Company LLC | Systems and methods for controller-worker architecture for searching a storage system |
US20220114189A1 (en) * | 2020-10-14 | 2022-04-14 | International Business Machines Corporation | Extraction of structured information from unstructured documents |
CN113378519B (zh) * | 2021-06-29 | 2024-08-27 | 平安国际融资租赁有限公司 | 文本导出方法、系统、计算机设备与计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108903A (ja) * | 2000-09-29 | 2002-04-12 | Toshiba Corp | データ収集システムおよびデータ収集方法およびプログラムを記録した媒体およびプログラム製品 |
JP2004206694A (ja) * | 2002-12-10 | 2004-07-22 | Hewlett-Packard Development Co Lp | 要件ベースワークフローを動的に順序付けするシステムおよび方法 |
JP2004362596A (ja) * | 2003-06-06 | 2004-12-24 | Microsoft Corp | 自動タスク生成方法およびシステム |
JP2011138317A (ja) * | 2009-12-28 | 2011-07-14 | Hitachi Solutions Ltd | プローブ情報管理システム |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6339775B1 (en) | 1997-11-07 | 2002-01-15 | Informatica Corporation | Apparatus and method for performing data transformations in data warehousing |
MXPA02000660A (es) | 1999-07-20 | 2003-07-21 | Primentia Inc | Metodo y sistema para organizar datos. |
US6381556B1 (en) | 1999-08-02 | 2002-04-30 | Ciena Corporation | Data analyzer system and method for manufacturing control environment |
US7028253B1 (en) * | 2000-10-10 | 2006-04-11 | Eastman Kodak Company | Agent for integrated annotation and retrieval of images |
US20020128998A1 (en) * | 2001-03-07 | 2002-09-12 | David Kil | Automatic data explorer that determines relationships among original and derived fields |
US6643635B2 (en) | 2001-03-15 | 2003-11-04 | Sagemetrics Corporation | Methods for dynamically accessing, processing, and presenting data acquired from disparate data sources |
US7620661B2 (en) | 2005-10-27 | 2009-11-17 | International Business Machines Corporation | Method for improving the performance of database loggers using agent coordination |
CN1992640B (zh) | 2005-12-28 | 2010-05-05 | 中兴通讯股份有限公司 | 一种基于交换机后台的多业务接入单元的数据同步方法 |
US7912816B2 (en) * | 2007-04-18 | 2011-03-22 | Alumni Data Inc. | Adaptive archive data management |
US8423534B2 (en) * | 2008-11-18 | 2013-04-16 | Teradata Us, Inc. | Actively managing resource bottlenecks in a database system |
US9077727B2 (en) | 2008-12-30 | 2015-07-07 | Telecom Italia S.P.A. | Method and system for data management in peer-to-peer network |
CN101477568A (zh) | 2009-02-12 | 2009-07-08 | 清华大学 | 一种结构化数据和非结构化数据综合检索的方法 |
CN101510206A (zh) * | 2009-02-19 | 2009-08-19 | 北京思普科科技开发有限公司 | 一种非结构化数据查询方法 |
DE202011110863U1 (de) * | 2010-04-05 | 2017-01-13 | Google Inc. | Spaltenspeicher Darstellungen von Datensätzen |
US8666998B2 (en) * | 2010-09-14 | 2014-03-04 | International Business Machines Corporation | Handling data sets |
US9396290B2 (en) | 2011-06-09 | 2016-07-19 | Cloudian Holdings, Inc. | Hybrid data management system and method for managing large, varying datasets |
EP2761510A4 (en) * | 2011-09-29 | 2015-08-05 | Cirro Inc | UNIFORM QUESTION ENGINE TO ASSEMBLE DATA INTERROGATION BETWEEN STRUCTURED AND UNSTRUCTURED DATA |
US20130232157A1 (en) | 2012-03-05 | 2013-09-05 | Tammer Eric Kamel | Systems and methods for processing unstructured numerical data |
US9411853B1 (en) * | 2012-08-03 | 2016-08-09 | Healthstudio, LLC | In-memory aggregation system and method of multidimensional data processing for enhancing speed and scalability |
CN103092952A (zh) * | 2013-01-15 | 2013-05-08 | 深圳市连用科技有限公司 | 一种海量非结构化数据的存储系统和管理方法 |
CN103310022B (zh) | 2013-07-05 | 2016-08-31 | 湘潭大学 | 一种保护定值在线追踪系统及其方法 |
GB2524074A (en) | 2014-03-14 | 2015-09-16 | Ibm | Processing data sets in a big data repository |
-
2014
- 2014-03-14 GB GB1404523.1A patent/GB2524074A/en not_active Withdrawn
-
2015
- 2015-02-18 DE DE112015000347.9T patent/DE112015000347T5/de active Pending
- 2015-02-18 US US15/115,640 patent/US10338960B2/en not_active Expired - Fee Related
- 2015-02-18 JP JP2016553316A patent/JP6505123B2/ja active Active
- 2015-02-18 GB GB1616819.7A patent/GB2539599A/en not_active Withdrawn
- 2015-02-18 WO PCT/IB2015/051233 patent/WO2015136395A1/en active Application Filing
- 2015-02-18 CN CN201580013510.5A patent/CN106104533B/zh active Active
-
2018
- 2018-08-14 US US16/103,743 patent/US10635486B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108903A (ja) * | 2000-09-29 | 2002-04-12 | Toshiba Corp | データ収集システムおよびデータ収集方法およびプログラムを記録した媒体およびプログラム製品 |
JP2004206694A (ja) * | 2002-12-10 | 2004-07-22 | Hewlett-Packard Development Co Lp | 要件ベースワークフローを動的に順序付けするシステムおよび方法 |
JP2004362596A (ja) * | 2003-06-06 | 2004-12-24 | Microsoft Corp | 自動タスク生成方法およびシステム |
JP2011138317A (ja) * | 2009-12-28 | 2011-07-14 | Hitachi Solutions Ltd | プローブ情報管理システム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190054741A (ko) * | 2017-11-14 | 2019-05-22 | 주식회사 케이티 | 데이터의 품질 관리 방법 및 장치 |
KR102507837B1 (ko) | 2017-11-14 | 2023-03-07 | 주식회사 케이티 | 데이터의 품질 관리 방법 및 장치 |
JP2021009528A (ja) * | 2019-06-30 | 2021-01-28 | 大 益滿 | データベースと情報処理システム |
Also Published As
Publication number | Publication date |
---|---|
US10338960B2 (en) | 2019-07-02 |
CN106104533A (zh) | 2016-11-09 |
US20170139746A1 (en) | 2017-05-18 |
JP6505123B2 (ja) | 2019-04-24 |
GB2524074A (en) | 2015-09-16 |
GB201616819D0 (en) | 2016-11-16 |
US20180349184A1 (en) | 2018-12-06 |
GB2539599A (en) | 2016-12-21 |
CN106104533B (zh) | 2019-10-18 |
GB201404523D0 (en) | 2014-04-30 |
DE112015000347T5 (de) | 2016-09-29 |
WO2015136395A1 (en) | 2015-09-17 |
US10635486B2 (en) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10635486B2 (en) | Processing data sets in a big data repository | |
US10599684B2 (en) | Data relationships storage platform | |
WO2020238597A1 (zh) | 基于Hadoop的数据更新方法、装置、系统及介质 | |
US9146994B2 (en) | Pivot facets for text mining and search | |
CN110908641B (zh) | 基于可视化的流计算平台、方法、设备和存储介质 | |
WO2017008650A1 (zh) | 一种用于过滤数据的设备及方法 | |
CN109213826B (zh) | 数据处理方法和设备 | |
CN112835924A (zh) | 实时计算任务处理方法、装置、设备及存储介质 | |
US20180129712A1 (en) | Data provenance and data pedigree tracking | |
US11657069B1 (en) | Dynamic compilation of machine learning models based on hardware configurations | |
CN111966692A (zh) | 针对数据仓库的数据处理方法、介质、装置和计算设备 | |
JP2006318146A (ja) | 情報管理システム | |
US11636124B1 (en) | Integrating query optimization with machine learning model prediction | |
CN113962597A (zh) | 一种数据分析方法、装置、电子设备及存储介质 | |
CN113886111B (zh) | 一种基于工作流的数据分析模型计算引擎系统及运行方法 | |
US11354313B2 (en) | Transforming a user-defined table function to a derived table in a database management system | |
CN112579705A (zh) | 元数据采集方法、装置、计算机设备和存储介质 | |
Wang et al. | High volumes of event stream indexing and efficient multi-keyword searching for cloud monitoring | |
Venkatesan et al. | PoN: Open source solution for real-time data analysis | |
JP2016194907A (ja) | キャッシュメモリを更新する装置、プログラム、及び方法 | |
JP7470769B1 (ja) | クラウドのapiの変更を分析する方法 | |
CN113553320B (zh) | 数据质量监控方法及装置 | |
EP3289454B1 (en) | Online data management system | |
Sarangi | Optimizing the efficiency of data-intensive Data Mashups using Map-Reduce | |
Yang | Big Data Process Mining in Python |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180828 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180831 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180910 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190326 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6505123 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |