JP6505123B2 - ビッグ・データ・リポジトリにおけるデータ・セットの処理 - Google Patents
ビッグ・データ・リポジトリにおけるデータ・セットの処理 Download PDFInfo
- Publication number
- JP6505123B2 JP6505123B2 JP2016553316A JP2016553316A JP6505123B2 JP 6505123 B2 JP6505123 B2 JP 6505123B2 JP 2016553316 A JP2016553316 A JP 2016553316A JP 2016553316 A JP2016553316 A JP 2016553316A JP 6505123 B2 JP6505123 B2 JP 6505123B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- agent
- data set
- agents
- program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 112
- 238000000034 method Methods 0.000 claims description 59
- 230000001960 triggered effect Effects 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 27
- 238000003860 storage Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012558 master data management Methods 0.000 claims description 9
- 238000007405 data analysis Methods 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 6
- 230000003190 augmentative effect Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 239000003795 chemical substances by application Substances 0.000 description 234
- 238000004458 analytical method Methods 0.000 description 12
- 238000013459 approach Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000007781 pre-processing Methods 0.000 description 8
- 230000001976 improved effect Effects 0.000 description 4
- 238000010348 incorporation Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000000275 quality assurance Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Document Processing Apparatus (AREA)
Description
・ ファイル・フォーマットの識別タスクまたはファイル構文の識別タスクを実行するよう動作可能なプログラム・エンジン。前記プログラム・エンジンは、ファイル・フォーマット情報または構文情報を使ってデータ・セットに注釈を付けることができる。
・ データ・セットを、他のプログラム・エンジンの動作必要性に適合するように変換するため、抽出・変換・書き込み(ETL:extract−transform−load)タスクを実行するよう動作可能なプログラム・エンジン。変換の対象となるデータ・セットは、ビッグ・データ・リポジトリによって取り込まれたか、ビッグ・データ・リポジトリ内で生成されたものであってよい。通常、意味プロファイリング・ツールもしくはユーザまたはその両方は、データが、CSV、RDF、バイナリまたはXMLファイル、またはリレーショナルもしくは縦欄式データベース・テーブルなど特定の構文様式で提示されることを必要とする。前記の場合において、利用可能なデータ・セットは、データ・プロファイリング・ツールによって解釈が可能なフォーマットに変換される必要がある。
・ 例えば、誤謬のある、冗長な、あいまいな、失効した、または矛盾のあるデータ記録など、低品質のデータ記録を、処理されるデータ・セットから自動的に除去するため、データの品質チェックを実行するように動作可能なプログラム・エンジン。これに加えてまたは換えて、前記プログラム・エンジンは、処理されるデータ・セットの注釈に、前記データ・セットの自動的に判定された品質レベルを増補するよう動作可能にされてもよい。
・ 処理されるデータ・セットから、秘密データ値もしくは秘密データ記録を自動的に除去するため、もしくは処理されるデータ・セットの注釈に、前記データ・セットから一切の秘密データが成功裏に除去されたことについての情報を増補するため、またはその両方のため、データ・マスキング・オペレーションを実行するよう動作可能なプログラム・エンジン。
・ 技術的要件もしくはビジネス要件またはその両方に従って、処理されるデータ・セット中のデータ記録を、自動的に訂正し、標準化し、または処理するためのマスタ・データ管理(MDM)オペレーションを実行するよう動作可能なプログラム・エンジン。MDMオペレーションは、或る組織全体を通して、データを、収集し、集約し、整合させ、一元管理し、品質保証し、持続し、もしくは配信すること、またはこれらの組み合わせを行うことを含み得る。これに加えてまたは換えて、前記プログラム・エンジンは、処理されるデータ・セットの注釈に、前記MDMオペレーションの結果についての情報を増補できるようにすることも可能である。
・ 処理されるデータ・セットのデータ分析を実行する、もしくは処理されるデータ・セットの注釈に前記データ分析の結果を増補するまたはその両方を行うよう動作可能なプログラム・エンジン。前記分析は、例えば、テキスト分析または統計的分析を含んでよい。
> “1576”、“Cliff Langlais(クリフ・ラングレ)”、“35 Livery Street(リバティ通り), Birmingham(バーミンガム)”、“28451”、“single(未婚)”、“inactive(無職)”
> “1277”、“Patrice Merkel(パトリス・マーケル)”、“Daimler Strasse(ダイムラー通り) 3 Wiernsheim(ヴィールンスハイム)”、“75444”、“divorced(離婚)”、“employee(被雇用者)”
> “1287”、“Catherine Coon(キャサリン・クーン)”、“Schilllenbergweg(シーレンベルグウェグ) 10 Sundern(スンダーン)”、“59846”、“married(既婚)”、“inactive(無職)”
> [・・・]
Claims (15)
- 少なくとも非構造化データを格納するために、データ・リポジトリ(104)において複数のデータ・セット(105、106、108、110〜113、DB1、DB2)を処理するためのコンピュータ実装の方法であって、前記方法は、
− エージェント(150〜168)のセットを準備するステップ(302)であって、各エージェントは前記データ・セットのうちの一つ以上の前記処理をトリガするよう動作可能であり、前記エージェントに対し指定された一つ以上の条件が満たされた場合、前記エージェント各々の前記実行が自動的にトリガされ、前記条件の少なくとも一つは、前記エージェントによって処理のトリガが可能な前記データ・セットの存在、構造、内容もしくは注釈またはこれらの組み合わせに関する、前記準備するステップと、
− 前記エージェントのうちの第一エージェントを実行するステップ(304)であって、前記実行は、前記データ・セットのうちの第一データ・セットに関する前記第一エージェントの前記条件が満たされることによってトリガされ、前記第一エージェントの前記実行は、前記第一データ・セットの前記処理をトリガする、前記実行するステップと、
− 前記第一エージェントによって前記第一データ・セットの前記注釈(115)を更新するステップ(306)であって、これにより、前記第一エージェントによってトリガされた前記第一データ・セットの前記処理の結果を前記注釈中に含める、前記更新するステップと、
− 前記エージェントのうちの第二エージェントを実行するステップ(308)であって、前記実行は、前記第一データ・セットの前記更新された注釈が前記第二エージェントの前記条件を満たすことによってトリガされ、前記第二エージェントの前記実行は、前記第二エージェントによる前記第一データ・セットのさらなる処理および前記第一データ・セットの前記注釈のさらなる更新をトリガする、前記実行するステップと、
を含む、コンピュータ実装の方法。 - エージェントの前記セットの各エージェントは、前記エージェントによって処理される対象の前記データ・セットのうちの一つの前記注釈の更新および前記データ・リポジトリ中での新規データ・セットの検出だけによってトリガでき、前記エージェントの前記実行が前記処理されたデータ・セットの前記注釈の更新をもたらす、請求項1に記載のコンピュータ実装の方法。
- − 前記データ・リポジトリは、それぞれが前記データ・セットの少なくとも一つを処理するよう動作可能な、複数のプログラム・エンジン(124〜138)によってアクセス可能であり、
− 前記エージェントの少なくとも一部は、それぞれ、前記プログラム・エンジンの一つを割り当てられており、それぞれ、それらの割り当てられたプログラム・エンジンへのインターフェースを含み、
− 前記エージェントは、自分のインターフェースを介し、それぞれに割り当てられたプログラム・エンジンの前記実行を起動することによって、前記データ・セットのうちの一つ以上の前記処理をトリガする、
請求項1〜2のいずれか一項に記載のコンピュータ実装の方法。 - − 前記プログラム・エンジンの各々に対しジョブ・キュー(Q1〜Q9)を準備するステップであって、前記エージェントの一つによる前記エンジンの一つの前記実行の前記トリガは、前記一つのプログラム・エンジンにより前記データ・セットの一つ以上を処理するためのジョブを、前記プログラム・エンジンの前記ジョブ・キューに追加するステップを含み、前記ジョブ・キューへの前記ジョブの前記追加は前記エージェントによって実行される、前記準備するステップ、
をさらに含み、
前記一つのプログラム・エンジンによる処理の対象となる前記データ・セットの一つ以上は、前記プログラム・エンジンのジョブ・キューの順番に従って前記プログラム・エンジンによって処理される、
請求項3に記載のコンピュータ実装の方法。 - 前記データ・リポジトリが作業負荷マネージャ(176)に動作可能に連結され、前記エージェントの少なくとも一部は、同等なプログラム・エンジンのセット(124、126)の前記実行をトリガするよう動作可能であり、ここで、同等なプログラム・エンジンは前記データ・セットの一つから同一の処理結果を生成するよう動作可能であり、前記方法は、
− 前記作業負荷マネージャが、前記プログラム・エンジンの各々から作業負荷情報を反復して受信するステップであって、前記作業負荷情報は前記プログラム・エンジンの稼働率もしくは前記プログラム・エンジンをホストしているコンピュータ・システムの稼働率またはその両方を示す、前記受信するステップと、
− 前記作業負荷マネージャが、前記受信された作業負荷情報を入力として使って、前記エージェントの一つに割り当てられている同等なプログラム・エンジンの少なくとも一つのセットに対し、最低の容量消費率を有する前記プログラム・エンジンを反復的且つ自動的に判定するステップと、
− 前記作業負荷マネージャが、前記判定されたプログラム・エンジンの指摘を、同等なプログラム・エンジンの前記セットを割り当てられている前記エージェントに提示するステップと、
− 前記指摘を受信した前記エージェントが、前記エージェントに割り当てられた他の同等なプログラム・エンジンのどれか一つの実行をトリガするのでなく、前記指摘されたプログラム・エンジンの前記実行を選択的にトリガするステップと、
をさらに含む、請求項3〜4のいずれか一項に記載のコンピュータ実装の方法。 - 前記プログラム・エンジンのいずれか一つの作業負荷情報が、前記プログラム・エンジンの前記ジョブ・キュー(Q1〜Q9)中に現在格納されているジョブの数を含む、請求項4に記載のコンピュータ実装の方法。
- 前記データ・リポジトリがエージェント・マネージャ(174)に動作可能に連結されており、前記エージェントの少なくとも一部には優先番号(P.1〜P.7)を割り当てられており、前記方法は、
− 前記エージェント・マネージャが、全ての前記エージェントのインスタンス化もしくは実行またはその両方を連続的に監視するステップと、
− 前記エージェント・マネージャが、前記監視から得られた情報に基づいて、前記エージェントの少なくとも二つが前記データ・セットの同じ一つを処理する試みをしていること、もしくは前記エージェントの前記少なくとも二つが、両方のエージェントに同時には提供できない計算リソースを要求していること、またはその両方を自動的に判定するするステップと、
− 前記エージェント・マネージャが、前記少なくとも二つのエージェントの前記優先番号(P.1〜P.7)を評価し、最高の優先番号を有する前記エージェントに実行を選択的に許可するステップと、
をさらに含む、請求項1〜6のいずれか一項に記載のコンピュータ実装の方法。 - 前記データ・リポジトリがエージェント・マネージャ(174)に動作可能に連結されており、前記データ・セットの少なくとも一部には優先番号(D.1〜D.5)が割り当てられており、前記方法は、
− 前記エージェント・マネージャが、全ての前記エージェントの前記インスタンス化もしくは実行またはその両方を連続的に監視するステップと、
− 前記エージェント・マネージャが、前記監視から得られた情報に基づいて、前記エージェントの一つが、前記データ・セットの相異なる二つ以上のデータ・セットの前記処理をトリガするため始動されたことを自動的に判定するステップと、
− 前記エージェント・マネージャが、前記二つ以上の相異なるデータ・セットの前記優先番号(D.1〜D.5)を評価するステップと、
− 前記エージェント・マネージャが、前記評価に基づいて、前記エージェントに、前記データ・セットのそれぞれの前記優先番号(D.1〜D.5)に従って、前記データ・セットの前記処理をトリガさせるステップと、
をさらに含む、請求項7に記載のコンピュータ実装の方法。 - − グラフィカル・ユーザ・インターフェース(170)を準備するステップと、
− 前記グラフィカル・ユーザ・インターフェースを介し、前記データ・リポジトリのユーザ(171)から構成データを受信するステップと、
− 前記受信された構成データに従って、前記エージェントのうちの一つ以上の前記条件を修正するステップ、もしくは前記エージェントのうちの一つ以上の前記優先番号を修正するステップ、もしくは前記データ・セットの一つ以上に割り当てられた優先番号を修正するステップ、またはこれらの組み合わせのステップであって、前記修正は前記受信された構成データに従って実行される、前記修正するステップと、
をさらに含む、請求項7乃至8に記載のコンピュータ実装の方法。 - 前記エージェントのうちの前記第一エージェントの前記実行が、
− 前記第一エージェントによって、または前記第一エージェントによりトリガされたプログラム・エンジンによって、第二データ・セット(DB1、DB2)を生成するステップであって、前記第二データ・セットは前記第一データ・セット(105、106、108、110、111、112、113)の派生セットである、前記生成するステップ、
を含み、
前記第一データ・セットの前記注釈(115)の前記更新が、前記第一データ・セットの前記注釈にリンクを追加するステップを含み、前記リンクは前記生成された第二データ・セット(DB1、DB2)のストレージ場所をポイントし、
前記第二エージェントの前記実行は、前記生成された第二データ・セットを、前記第二エージェントによってさらに処理されることになる前記第一データ・セットとして用いるステップを含む、
請求項1〜9のいずれか一項に記載のコンピュータ実装の方法。 - 前記複数のプログラム・エンジンが、次の種類のプログラム・エンジン:
− データ・セット(110)にファイル・フォーマット情報または構文情報の注釈付けをするための、ファイル・フォーマット識別タスクまたはファイル構文識別タスクを実行するプログラム・エンジン(208)、
− データ・セットを、前記プログラム・エンジンのうちの他のプログラム・エンジンの動作必要性に適合するように変換するため、抽出・変換・書き込み(ETL)タスクを実行するプログラム・エンジン(124〜128)、
− 前記処理されるデータ・セットから低品質のデータ記録を自動的に除去するため、もしくは前記処理されるデータ・セットの前記注釈に、前記データ・セットの自動的に判
定された品質レベルを増補するため、またはその両方のために、データの品質チェックを実行するプログラム・エンジン(130)、
− 前記処理されるデータ・セットから、秘密データ値または秘密データ記録を自動的に除去するため、もしくは前記処理されるデータ・セットの前記注釈に、前記データ・セットから一切の秘密データが成功裏に除去されたことについての情報を増補するため、またはその両方のため、データ・マスキング・オペレーションを実行するプログラム・エンジン(132)、
− 技術的要件もしくはビジネス要件またはその両方に従って、前記処理されるデータ・セット中の前記データ記録を、自動的に訂正し、標準化し、もしくは処理するため、もしくは前記処理されるデータ・セットの前記注釈に、マスタ・データ管理(MDM)オペレーションの結果についての情報を増補するため、またはその両方のため、前記MDMオペレーションを実行するプログラム・エンジン(138)、
− 前記処理されるデータ・セットのデータ分析を実行する、もしくは前記処理されるデータ・セットの前記注釈に前記データ分析の結果を増補する、またはその両方をするプログラム・エンジン(134、136)、
のうちの少なくとも二つを、任意の種類の組み合わせで含む、請求項3、5、10のいずれか一項に記載のコンピュータ実装の方法。 - − 前記データ・リポジトリのユーザに検索索引データ構造体(191)を提供するステップであって、前記検索索引データ構造体は、前記ユーザが、検索基準に整合するデータ・セット一式を読み出すため、もしくは前記データ・セットの選択されたもののデータ記録を読み出すため、またはその両方を行うために、検索を実行することを可能にする、前記提供するステップ、
− 前記データ・セットのいずれか一つに対して前記エージェントのいずれか一つによって生成された注釈を、前記検索索引データ構造体に連続的に且つ自動的に加えるステップ、もしくは、
− 前記エージェントの一つによって、前記検索索引データ構造体の第一ポインタを第二ポインタに自動的に置き換えるステップであって、前記置き換えるステップは、前記データ・セットのうちの第一データ・セットの処理の派生セットとして、前記データ・セットのうちの第二データ・セットが前記生成された場合に実行され、前記第一ポインタは前記第一データ・セットをポイントし、前記第二ポインタは前記第二データ・セットをポイントする、前記置き換えるステップ、
またはこれらステップの組み合わせ、
をさらに含む、請求項1〜11のいずれか一項に記載のコンピュータ実装の方法。 - 前記エージェントの少なくとも一部が、ネットワーク(192)を介して相互に接続された異なるコンピュータ・システム(202、204)上にホストされており、それぞれのエージェントによってトリガされる前記プログラム・エンジンの少なくとも一部は、前記トリガするエージェントと同じコンピュータ・システム上にホストされるレガシ・アプリケーションである、請求項3〜6、請求項10〜11のいずれか一項に記載のコンピュータ実装の方法。
- 請求項1〜13の何れか1項に記載の方法の各ステップを、コンピュータに実行させるコンピュータ・プログラムを、コンピュータ可読ストレージ媒体に記録した、コンピュータ可読ストレージ媒体。
- 請求項1〜13の何れか1項に記載の方法の各ステップを、ハードウェアによる手段として構成した、コンピュータ・システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1404523.1 | 2014-03-14 | ||
GB1404523.1A GB2524074A (en) | 2014-03-14 | 2014-03-14 | Processing data sets in a big data repository |
PCT/IB2015/051233 WO2015136395A1 (en) | 2014-03-14 | 2015-02-18 | Processing data sets in a big data repository |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017515180A JP2017515180A (ja) | 2017-06-08 |
JP6505123B2 true JP6505123B2 (ja) | 2019-04-24 |
Family
ID=50634736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016553316A Active JP6505123B2 (ja) | 2014-03-14 | 2015-02-18 | ビッグ・データ・リポジトリにおけるデータ・セットの処理 |
Country Status (6)
Country | Link |
---|---|
US (2) | US10338960B2 (ja) |
JP (1) | JP6505123B2 (ja) |
CN (1) | CN106104533B (ja) |
DE (1) | DE112015000347T5 (ja) |
GB (2) | GB2524074A (ja) |
WO (1) | WO2015136395A1 (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9274668B2 (en) | 2012-06-05 | 2016-03-01 | Dimensional Insight Incorporated | Guided page navigation |
US10445674B2 (en) | 2012-06-05 | 2019-10-15 | Dimensional Insight Incorporated | Measure factory |
US10671955B2 (en) | 2012-06-05 | 2020-06-02 | Dimensional Insight Incorporated | Dynamic generation of guided pages |
US10755233B2 (en) | 2012-06-05 | 2020-08-25 | Dimensional Insight Incorporated | Guided page navigation |
GB2524074A (en) | 2014-03-14 | 2015-09-16 | Ibm | Processing data sets in a big data repository |
US20180293283A1 (en) * | 2014-11-14 | 2018-10-11 | Marin Litoiu | Systems and methods of controlled sharing of big data |
US9934257B2 (en) * | 2015-07-14 | 2018-04-03 | American Express Travel Related Services Company, Inc. | System and method for recursive metadata layers on big data sets |
US10055426B2 (en) | 2015-11-18 | 2018-08-21 | American Express Travel Related Services Company, Inc. | System and method transforming source data into output data in big data environments |
US10585864B2 (en) | 2016-11-11 | 2020-03-10 | International Business Machines Corporation | Computing the need for standardization of a set of values |
US10592813B1 (en) * | 2016-11-29 | 2020-03-17 | EMC IP Holding Company LLC | Methods and apparatus for data operation pre-processing with probabilistic estimation of operation value |
US10152356B2 (en) | 2016-12-07 | 2018-12-11 | Vmware, Inc. | Methods and apparatus for limiting data transferred over the network by interpreting part of the data as a metaproperty |
US10552180B2 (en) * | 2016-12-07 | 2020-02-04 | Vmware, Inc. | Methods, systems, and apparatus to trigger a workflow in a cloud computing environment |
US11481239B2 (en) | 2016-12-07 | 2022-10-25 | Vmware, Inc. | Apparatus and methods to incorporate external system to approve deployment provisioning |
US10817293B2 (en) * | 2017-04-28 | 2020-10-27 | Tenstorrent Inc. | Processing core with metadata actuated conditional graph execution |
WO2019084781A1 (en) * | 2017-10-31 | 2019-05-09 | EMC IP Holding Company LLC | Management of data using templates |
KR102507837B1 (ko) * | 2017-11-14 | 2023-03-07 | 주식회사 케이티 | 데이터의 품질 관리 방법 및 장치 |
US11086901B2 (en) | 2018-01-31 | 2021-08-10 | EMC IP Holding Company LLC | Method and system for efficient data replication in big data environment |
US11188865B2 (en) | 2018-07-13 | 2021-11-30 | Dimensional Insight Incorporated | Assisted analytics |
CN109395399A (zh) * | 2018-09-26 | 2019-03-01 | 深圳市云歌人工智能技术有限公司 | 数据处理以及显示信息的方法和装置 |
US11017874B2 (en) | 2019-05-03 | 2021-05-25 | International Business Machines Corporation | Data and memory reorganization |
US20200364093A1 (en) * | 2019-05-14 | 2020-11-19 | Pricewaterhousecoopers Llp | System and methods for generating secure ephemeral cloud-based computing resources for data operations |
JP2021009528A (ja) * | 2019-06-30 | 2021-01-28 | 大 益滿 | データベースと情報処理システム |
US11461140B2 (en) * | 2020-05-19 | 2022-10-04 | EMC IP Holding Company LLC | Systems and methods for controller-worker architecture for searching a storage system |
US11232074B2 (en) | 2020-05-19 | 2022-01-25 | EMC IP Holding Company LLC | Systems and methods for searching deduplicated data |
US20220114189A1 (en) * | 2020-10-14 | 2022-04-14 | International Business Machines Corporation | Extraction of structured information from unstructured documents |
CN113378519B (zh) * | 2021-06-29 | 2024-08-27 | 平安国际融资租赁有限公司 | 文本导出方法、系统、计算机设备与计算机可读存储介质 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6339775B1 (en) | 1997-11-07 | 2002-01-15 | Informatica Corporation | Apparatus and method for performing data transformations in data warehousing |
KR100522557B1 (ko) | 1999-07-20 | 2005-10-20 | 프리멘티아, 인코포레이티드 | 데이터 조직을 위한 방법 및 시스템 |
US6381556B1 (en) | 1999-08-02 | 2002-04-30 | Ciena Corporation | Data analyzer system and method for manufacturing control environment |
JP2002108903A (ja) | 2000-09-29 | 2002-04-12 | Toshiba Corp | データ収集システムおよびデータ収集方法およびプログラムを記録した媒体およびプログラム製品 |
US7028253B1 (en) * | 2000-10-10 | 2006-04-11 | Eastman Kodak Company | Agent for integrated annotation and retrieval of images |
US20020128998A1 (en) * | 2001-03-07 | 2002-09-12 | David Kil | Automatic data explorer that determines relationships among original and derived fields |
US6643635B2 (en) | 2001-03-15 | 2003-11-04 | Sagemetrics Corporation | Methods for dynamically accessing, processing, and presenting data acquired from disparate data sources |
US7299244B2 (en) | 2002-12-10 | 2007-11-20 | Hewlett-Packard Development Company, L.P. | System and method for dynamic sequencing of a requirements-based workflow |
US7912820B2 (en) * | 2003-06-06 | 2011-03-22 | Microsoft Corporation | Automatic task generator method and system |
US7620661B2 (en) * | 2005-10-27 | 2009-11-17 | International Business Machines Corporation | Method for improving the performance of database loggers using agent coordination |
CN1992640B (zh) * | 2005-12-28 | 2010-05-05 | 中兴通讯股份有限公司 | 一种基于交换机后台的多业务接入单元的数据同步方法 |
US7912816B2 (en) * | 2007-04-18 | 2011-03-22 | Alumni Data Inc. | Adaptive archive data management |
US8423534B2 (en) * | 2008-11-18 | 2013-04-16 | Teradata Us, Inc. | Actively managing resource bottlenecks in a database system |
CN102273167B (zh) * | 2008-12-30 | 2014-11-26 | 意大利电信股份公司 | 用于对等网络中数据管理的方法和系统 |
CN101477568A (zh) | 2009-02-12 | 2009-07-08 | 清华大学 | 一种结构化数据和非结构化数据综合检索的方法 |
CN101510206A (zh) * | 2009-02-19 | 2009-08-19 | 北京思普科科技开发有限公司 | 一种非结构化数据查询方法 |
JP2011138317A (ja) | 2009-12-28 | 2011-07-14 | Hitachi Solutions Ltd | プローブ情報管理システム |
DE202011110863U1 (de) * | 2010-04-05 | 2017-01-13 | Google Inc. | Spaltenspeicher Darstellungen von Datensätzen |
US8666998B2 (en) * | 2010-09-14 | 2014-03-04 | International Business Machines Corporation | Handling data sets |
US9396290B2 (en) | 2011-06-09 | 2016-07-19 | Cloudian Holdings, Inc. | Hybrid data management system and method for managing large, varying datasets |
US9330141B2 (en) * | 2011-09-29 | 2016-05-03 | Cirro, Inc. | Federated query engine for federation of data queries across structure and unstructured data |
US20130232157A1 (en) | 2012-03-05 | 2013-09-05 | Tammer Eric Kamel | Systems and methods for processing unstructured numerical data |
US9411853B1 (en) * | 2012-08-03 | 2016-08-09 | Healthstudio, LLC | In-memory aggregation system and method of multidimensional data processing for enhancing speed and scalability |
CN103092952A (zh) * | 2013-01-15 | 2013-05-08 | 深圳市连用科技有限公司 | 一种海量非结构化数据的存储系统和管理方法 |
CN103310022B (zh) * | 2013-07-05 | 2016-08-31 | 湘潭大学 | 一种保护定值在线追踪系统及其方法 |
GB2524074A (en) | 2014-03-14 | 2015-09-16 | Ibm | Processing data sets in a big data repository |
-
2014
- 2014-03-14 GB GB1404523.1A patent/GB2524074A/en not_active Withdrawn
-
2015
- 2015-02-18 JP JP2016553316A patent/JP6505123B2/ja active Active
- 2015-02-18 US US15/115,640 patent/US10338960B2/en not_active Expired - Fee Related
- 2015-02-18 CN CN201580013510.5A patent/CN106104533B/zh active Active
- 2015-02-18 WO PCT/IB2015/051233 patent/WO2015136395A1/en active Application Filing
- 2015-02-18 GB GB1616819.7A patent/GB2539599A/en not_active Withdrawn
- 2015-02-18 DE DE112015000347.9T patent/DE112015000347T5/de active Pending
-
2018
- 2018-08-14 US US16/103,743 patent/US10635486B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20180349184A1 (en) | 2018-12-06 |
GB2524074A (en) | 2015-09-16 |
GB201404523D0 (en) | 2014-04-30 |
GB2539599A (en) | 2016-12-21 |
US10635486B2 (en) | 2020-04-28 |
US10338960B2 (en) | 2019-07-02 |
DE112015000347T5 (de) | 2016-09-29 |
CN106104533B (zh) | 2019-10-18 |
US20170139746A1 (en) | 2017-05-18 |
GB201616819D0 (en) | 2016-11-16 |
WO2015136395A1 (en) | 2015-09-17 |
JP2017515180A (ja) | 2017-06-08 |
CN106104533A (zh) | 2016-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6505123B2 (ja) | ビッグ・データ・リポジトリにおけるデータ・セットの処理 | |
US11328003B2 (en) | Data relationships storage platform | |
US20190250947A1 (en) | Stream Processing Task Deployment Using Precompiled Libraries | |
US9015080B2 (en) | Systems and methods for semantic inference and reasoning | |
US9146994B2 (en) | Pivot facets for text mining and search | |
US20210279265A1 (en) | Optimization for Real-Time, Parallel Execution of Models for Extracting High-Value Information from Data Streams | |
US11615076B2 (en) | Monolith database to distributed database transformation | |
WO2017008650A1 (zh) | 一种用于过滤数据的设备及方法 | |
CN109213826B (zh) | 数据处理方法和设备 | |
US20180129712A1 (en) | Data provenance and data pedigree tracking | |
EP2674859A2 (en) | Computing system, method for controlling thereof, and computer-readable recording medium having computer program for controlling thereof | |
JP2006318146A (ja) | 情報管理システム | |
JP2019530121A (ja) | データ統合ジョブ変換 | |
CN113962597A (zh) | 一种数据分析方法、装置、电子设备及存储介质 | |
CN113886111B (zh) | 一种基于工作流的数据分析模型计算引擎系统及运行方法 | |
US20180203900A1 (en) | Transforming a user-defined table function to a derived table in a database management system | |
CN112579705A (zh) | 元数据采集方法、装置、计算机设备和存储介质 | |
WO2017091774A1 (en) | Optimization for real-time, parallel execution of models for extracting high-value information from data streams | |
CN106802922B (zh) | 一种基于对象的溯源存储系统及方法 | |
Venkatesan et al. | PoN: Open source solution for real-time data analysis | |
WO2013137903A1 (en) | Systems and methods for semantic inference and reasoning | |
Kim et al. | Apache storm configuration platform for dynamic sampling and filtering of data streams | |
JP2016194907A (ja) | キャッシュメモリを更新する装置、プログラム、及び方法 | |
JP7470769B1 (ja) | クラウドのapiの変更を分析する方法 | |
CN113553320B (zh) | 数据质量监控方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180828 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180831 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180910 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190326 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6505123 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |