JP2018515844A - データ処理方法及びシステム - Google Patents
データ処理方法及びシステム Download PDFInfo
- Publication number
- JP2018515844A JP2018515844A JP2017557451A JP2017557451A JP2018515844A JP 2018515844 A JP2018515844 A JP 2018515844A JP 2017557451 A JP2017557451 A JP 2017557451A JP 2017557451 A JP2017557451 A JP 2017557451A JP 2018515844 A JP2018515844 A JP 2018515844A
- Authority
- JP
- Japan
- Prior art keywords
- key
- value
- value pair
- value pairs
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 102
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000012216 screening Methods 0.000 claims abstract description 54
- 238000013507 mapping Methods 0.000 claims abstract description 24
- 238000010801 machine learning Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 15
- 238000005457 optimization Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 230000008520 organization Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 25
- 238000004590 computer program Methods 0.000 description 9
- 238000003860 storage Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2219—Large Object storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2272—Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24539—Query rewriting; Transformation using cached or materialised query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/06—Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
- G06F7/08—Sorting, i.e. grouping record carriers in numerical or other ordered sequence according to the classification of at least some of the information they carry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップと;
ホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、ホットスポットのキー・バリューペアをマッピングするステップと;
呼び出しのための最終結果のキー・バリューペアを生成するために、中間結果のキー・バリューペアを整理(Reduce)するステップと;を備え、
キー・バリューペアは、属性を表すキー値と数値を表すキー値とを含む。
処理すべきキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、処理すべきキー・バリューペアをマッピングするステップと;
スクリーニング規則に従い、中間結果のキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップと;
呼び出しのための最終結果のキー・バリューペアを生成するために、ホットスポットのキー・バリューペアを整理(Reduce)するステップと;を備え、
キー・バリューペアは、属性を表すキー値と属性内容を表すキー値とを含む。
スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュールと;
ホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、ホットスポットのキー・バリューペアをマッピングするように構成されたマッピングモジュールと;
呼び出しのための最終結果のキー・バリューペアを生成するために、中間結果のキー・バリューペアを整理(Reduce)するように構成された整理モジュールと;を備え、
キー・バリューペアは、属性を表すキー値と数値を表すキー値とを含む。
処理すべきキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、処理すべきキー・バリューペアをマッピングするように構成されたマッピングモジュールと;
スクリーニング規則に従い、中間結果のキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュールと;
呼び出しのための最終結果のキー・バリューペアを生成するために、ホットスポットのキー・バリューペアを整理(Reduce)するように構成された整理モジュールと;を備え、
キー・バリューペアは、属性を表すキー値と属性内容を表すキー値とを含む。
データ処理システムは、ホットスポットのキー・バリューペア(key-value pair)を前処理してサービスシステムによる呼び出しを容易にする一方、非ホットスポットのキー・バリューペアは、サービスシステムによって呼び出された場合に限って処理される。それにより、サービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量を減らし、データ処理の実行効率を高め、サービスシステムがデータ処理結果の待ち時間を短縮し、円滑なサービス処理と望ましいユーザエクスペリエンスを実現する。
Map−Reduceジョブを送信するように構成されたクライアント端末(JobClient)と;
Java(登録商標)プロセスであり、ジョブ全体の遂行を調整するように構成されたジョブトラッカ(JobTracker)と;
Java(登録商標)プロセスであり、ジョブのタスクを遂行するように構成されたタスクトラッカ(TaskTracker)と;
ジョブに関連するファイルをプロセス間で共有させるように構成されたHadoop分散ファイルシステム(HDFS)と;を含むことができる。
1.タスク送信
クライアント端末がジョブトラッカに新しいジョブコードを要求し、新しいジョブインスタンスを創出し、submitJob関数を呼び出す。
2.タスク初期化
submitJob関数の呼び出しを受信すると、ジョブトラッカは、タスクを取得して初期化する。ジョブトラッカは、タスクを創出し、タスクコードを割り当てる。
3.タスク割り当て
ジョブトラッカはタスクをタスクトラッカに割り当てる。
4.タスク実行
タスクを割り当てられた後、タスクトラッカは、タスクの遂行を開始する。マッピング時に、タスクトラッカはmap関数を呼び出し、タスクを処理する、即ち、元のキー・バリューペアを処理して中間結果のキー・バリューペアを生成し、一連のキー値に応じて中間結果のキー・バリューペアを出力する。次いで、タスクトラッカは、reduce関数を呼び出して中間結果のキー・バリューペアを処理し、最終結果のキー・バリューペアを生成する。
5.タスク終了
タスクが全て遂行されて成功したことを示すタスクトラッカのレポートを得た後、ジョブトラッカはジョブを終了する。
S100:スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択する。
S101:第1の数の、処理すべきキー・バリューペアが、候補のキー・バリューペアとしてランダムに選択される。
S102:候補のキー・バリューペアの中から各キー・バリューペアの呼び出される頻度がカウントされる。
S103:候補のキー・バリューペアが、頻度に応じて並べられる。
S104:最大呼び出し頻度を有する第2の数のキー・バリューペアが、候補のキー・バリューペアの中からホットスポットのキー・バリューペアとして選択される。
第1の数は、第2の数よりも大きい。
第1の数の処理すべきキー・バリューペアを候補のキー・バリューペアとしてランダムに選択するステップの前に、候補のキー・バリューペアのサービスカテゴリ条件セットを設定するステップと;
サービスカテゴリ条件セットを満たす処理すべきキー・バリューペアを選択するステップと;を更に備える。
ホットスポットのキー・バリューペアの呼び出し頻度閾値を設定するステップと;
キー・バリューペアの呼び出される頻度が呼び出し頻度閾値より高い場合に、キー・バリューペアをホットスポットのキー・バリューペアとして設定するステップと;を備える。
(1)m個のカテゴリ(頻度セグメント)の初期中心(頻度)を適切に選択する。
(2)k番目の反復において、任意のサンプル(受信者の年齢を示すキー・バリューペアと、これらキー・バリューペアが呼び出される頻度)からm個の中心までの距離(頻度差)を求め、そのサンプル(受信者の年齢を示すキー・バリューペアと、キー・バリューペアが呼び出される頻度)を、最小距離を有する中心が属するカテゴリ(頻度セグメント)に分類する。
(3)平均法を用いてカテゴリ(頻度セグメント)の中央値(頻度)を更新する。
(4)m個の中央値(頻度)全てについて、(2)及び(3)の反復法を用いて更新した後も値が変化しない場合には反復を終了し、そうでない場合は反復を続ける。
(5)m個のカテゴリ(頻度セグメント)のそれぞれのカテゴリ(頻度セグメント)について、n個のカテゴリ(年齢グループ)の初期中心(年齢)を適切に選択する。
(6)k番目の反復において、任意のサンプル(受信者の年齢を示すキー・バリューペアと、これらキー・バリューペアが呼び出される頻度)からn個の中心までの距離(年齢差)を求め、そのサンプル(受信者の年齢を示すキー・バリューペアと、これらキー・バリューペアが呼び出される頻度)を、最小距離を有する中心が属するカテゴリ(年齢グループ)に分類する。
(7)平均法を用いてカテゴリ(年齢グループ)の中央値(年齢)を更新する。
(8)n個の中央値(年齢)全てについて、(6)及び(7)の反復法を用いて更新した後も値が変化しない場合には反復を終了し、そうでない場合には反復を続ける。
或る属性のキー・バリューペアと別の属性のキー・バリューペアとが同じサービスコードを有するサービスシステムによって呼び出される場合に、2つの属性のキー・バリューペアの属性内容のキー値の間隔の和集合をスクリーニング規則の規則条件として設定するように更に構成される。
非ホットスポットのキー・バリューペアが呼び出される場合、reduce関数を用いることにより、呼び出しのためのデータを生成するために、非ホットスポットのキー・バリューペアを処理するステップを更に備える。
処理すべきキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、処理すべきキー・バリューペアをマッピングするステップと;
スクリーニング規則に従い、中間結果のキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップと;
呼び出しのための最終結果のキー・バリューペアを生成するために、ホットスポットのキー・バリューペアを整理(Reduce)するステップと;
を備え、
キー・バリューペアは、属性を表すキー値と属性内容を表すキー値とを含む。
スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュール10と;
ホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、ホットスポットのキー・バリューペアをマッピングするように構成されたマッピングモジュール20と;
呼び出しのための最終結果のキー・バリューペアを生成するために、中間結果のキー・バリューペアを整理(Reduce)するように構成された整理モジュール30と;
を備え、
キー・バリューペアは、属性を表すキー値と数値を表すキー値とを含む。
第1の数の処理すべきキー・バリューペアを候補のキー・バリューペアとしてランダムに選択し;
候補のキー・バリューペアの中のそれぞれのキー・バリューペアが呼び出される頻度をカウントし;
候補のキー・バリューペアを頻度に応じて並べ;
最大呼び出し頻度を有する第2の数のキー・バリューペアを、候補のキー・バリューペアの中からホットスポットのキー・バリューペアとして選択する;ように構成され、
第1の数が第2の数よりも大きい。
第1の数の処理すべきキー・バリューペアを候補のキー・バリューペアとしてランダムに選択するステップの前に、候補のキー・バリューペアのサービスカテゴリ条件セットを設定し;
サービスカテゴリ条件セットを満たす処理すべきキー・バリューペアを選択する;ように更に構成される。
ホットスポットのキー・バリューペアの呼び出し頻度閾値を設定し;
キー・バリューペアの呼び出される頻度が呼び出し頻度閾値よりも高い場合に、キー・バリューペアをホットスポットのキー・バリューペアとして設定する;ように構成される。
処理すべきキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、処理すべきキー・バリューペアをマッピングするように構成されたマッピングモジュール20と;
スクリーニング規則に従い、中間結果のキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュール10と;
呼び出しのための最終結果のキー・バリューペアを生成するために、ホットスポットのキー・バリューペアを整理(Reduce)するように構成された整理モジュール30と;を備え、
キー・バリューペアは、属性を表すキー値と属性内容を表すキー値とを含む。
Claims (20)
- データ処理方法であって:
スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップと;
前記ホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、前記ホットスポットのキー・バリューペアをマッピングするステップと;
呼び出しのための最終結果のキー・バリューペアを生成するために、前記中間結果のキー・バリューペアを整理するステップと;を備え、
前記キー・バリューペアが、属性を表すキー値と属性内容を表すキー値とを含む、
データ処理方法。 - スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択する前記ステップが、具体的には、幾つかの処理すべきキー・バリューペアをホットスポットのキー・バリューペアとしてランダムに選択するステップを備える、
請求項1に記載の方法。 - スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択する前記ステップが、具体的に:
第1の数の処理すべきキー・バリューペアを候補のキー・バリューペアとしてランダムに選択するステップと;
前記候補のキー・バリューペアの中のそれぞれのキー・バリューペアが呼び出される頻度をカウントするステップと;
前記候補のキー・バリューペアを前記頻度に応じて並べるステップと;
降順の呼び出し頻度に応じて第2の数のキー・バリューペアを、前記候補のキー・バリューペアの中からホットスポットのキー・バリューペアとして選択するステップと;を備え、
前記第1の数が、前記第2の数よりも大きい、
請求項1に記載の方法。 - スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択する前記ステップが:
第1の数の処理すべきキー・バリューペアを候補のキー・バリューペアとしてランダムに選択する前記ステップの前に、候補のキー・バリューペアのサービスカテゴリ条件セットを設定するステップと;
前記サービスカテゴリ条件セットを満たす処理すべきキー・バリューペアを選択するステップと;を更に備える、
請求項3に記載の方法。 - スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択する前記ステップが、具体的に:
前記ホットスポットのキー・バリューペアの呼び出し頻度閾値を設定するステップと;
キー・バリューペアが呼び出される前記頻度が前記呼び出し頻度閾値より高い場合に、前記キー・バリューペアをホットスポットのキー・バリューペアとして設定するステップと;を備える、
請求項1に記載の方法。 - 前記方法が、機械学習モデルを用いることにより前記スクリーニング規則を最適化するステップを更に備える、
請求項1に記載の方法。 - 機械学習モデルを用いることにより前記スクリーニング規則を最適化する前記ステップが、具体的に:
前記機械学習モデルにおいてクラスタ化アルゴリズムを用いることにより単一の属性に対する前記キー・バリューペアが呼び出される頻度の分散条件をカウントするステップと;
単一の属性に対する前記キー・バリューペアが呼び出される頻度の前記分散条件に従い、前記キー・バリューペアが呼び出される前記頻度が予め設定された頻度閾値以上となる属性内容のキー値の間隔を選択するステップと;
属性内容のキー値の前記間隔を前記スクリーニング規則の規則条件として設定するステップと;を備える、
請求項6に記載の方法。 - 前記方法が:
或る属性のキー・バリューペアと別の属性のキー・バリューペアとが同じサービスコードを有するサービスシステムによって呼び出される場合に、前記2つの属性の前記キー・バリューペアの属性内容のキー値の間隔の和集合を前記スクリーニング規則の規則条件として設定するステップを更に備える、
請求項7に記載の方法。 - 前記方法が:
非ホットスポットのキー・バリューペアが呼び出される場合、reduce関数を用いることにより前記非ホットスポットのキー・バリューペアを処理して呼び出しのためのデータを生成するステップを更に備える、
請求項1に記載の方法。 - データ処理方法であって:
前記処理すべきキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、処理すべきキー・バリューペアをマッピングするステップと;
スクリーニング規則に従い、前記中間結果のキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップと;
呼び出しのための最終結果のキー・バリューペアを生成するために、前記ホットスポットのキー・バリューペアを整理するステップと;を備え、
前記キー・バリューペアが、属性を表すキー値と属性内容を表すキー値とを含む、
データ処理方法。 - データ処理システムであって:
スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュールと;
前記ホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、前記ホットスポットのキー・バリューペアをマッピングするように構成されたマッピングモジュールと;
呼び出しのための最終結果のキー・バリューペアを生成するために、前記中間結果のキー・バリューペアを整理するように構成された整理モジュールと;を備え、
前記キー・バリューペアが、属性を表すキー値と数値を表すキー値とを含む、
データ処理システム。 - 処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成された前記スクリーニングモジュールが、具体的には、幾つかの処理すべきキー・バリューペアをホットスポットのキー・バリューペアとしてランダムに選択するように構成された、
請求項11に記載のシステム。 - 処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成された前記スクリーニングモジュールが、具体的に、
第1の数の処理すべきキー・バリューペアを候補のキー・バリューペアとしてランダムに選択し、
前記候補のキー・バリューペアの中のそれぞれのキー・バリューペアが呼び出される頻度をカウントし、
前記候補のキー・バリューペアを前記頻度に応じて並べ、
最大呼び出し頻度を有する第2の数のキー・バリューペアを、前記候補のキー・バリューペアの中からホットスポットのキー・バリューペアとして選択するように構成され、
前記第1の数が前記第2の数よりも大きい、
請求項11に記載のシステム。 - マッピングのキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成された前記スクリーニングモジュールが、具体的に、
第1の数の処理すべきキー・バリューペアを候補のキー・バリューペアとしてランダムに選択する前記ステップの前に、候補のキー・バリューペアのサービスカテゴリ条件セットを設定し、
前記サービスカテゴリ条件セットを満たす処理すべきキー・バリューペアを選択するように更に構成された、
請求項13に記載のシステム。 - 処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成された前記スクリーニングモジュールが、具体的に、
前記ホットスポットのキー・バリューペアの呼び出し頻度閾値を設定し、
キー・バリューペアが呼び出される前記頻度が前記呼び出し頻度閾値よりも高い場合に、前記キー・バリューペアをホットスポットのキー・バリューペアとして設定するように構成された、
請求項11に記載のシステム。 - 前記システムが、機械学習モデルを用いることにより前記スクリーニング規則を最適化するように構成された規則最適化モジュールを更に備える、
請求項11に記載のシステム。 - 前記規則最適化モジュールが、
前記機械学習モデルにおいてクラスタ化アルゴリズムを用いることにより単一の属性に対する前記キー・バリューペアが呼び出される頻度の分散条件をカウントし、
単一の属性に対する前記キー・バリューペアが呼び出される頻度の前記分散条件に従い、前記キー・バリューペアが呼び出される前記頻度が予め設定された頻度閾値以上となる属性内容のキー値の間隔を選択し、
属性内容のキー値の前記間隔を前記スクリーニング規則の規則条件として設定するように構成された、
請求項16に記載のシステム。 - 前記規則最適化モジュールが、
或る属性のキー・バリューペアと別の属性のキー・バリューペアとが同じサービスコードを有するサービスシステムによって呼び出される場合に、前記2つの属性の前記キー・バリューペアの属性内容のキー値の間隔の和集合を前記スクリーニング規則の規則条件として設定するように更に構成された、
請求項17に記載のシステム。 - 非ホットスポットのキー・バリューペアが呼び出される場合、前記マッピングモジュールが、前記非ホットスポットのキー・バリューペアをマッピングして前記非ホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得るように構成された、
請求項18に記載のシステム。 - データ処理システムであって:
処理すべきキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、前記処理すべきキー・バリューペアをマッピングするように構成されたマッピングモジュールと;
スクリーニング規則に従い、前記中間結果のキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュールと;
呼び出しのための最終結果のキー・バリューペアを生成するために、前記ホットスポットのキー・バリューペアを整理するように構成された整理モジュールと;を備え、
前記キー・バリューペアが、属性を表すキー値と属性内容を表すキー値とを含む、
データ処理システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510222356.4A CN106202092B (zh) | 2015-05-04 | 2015-05-04 | 数据处理的方法及系统 |
CN201510222356.4 | 2015-05-04 | ||
PCT/CN2016/079812 WO2016177279A1 (zh) | 2015-05-04 | 2016-04-21 | 数据处理的方法及系统 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2018515844A true JP2018515844A (ja) | 2018-06-14 |
JP2018515844A5 JP2018515844A5 (ja) | 2020-01-23 |
JP6779231B2 JP6779231B2 (ja) | 2020-11-04 |
Family
ID=57218083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017557451A Active JP6779231B2 (ja) | 2015-05-04 | 2016-04-21 | データ処理方法及びシステム |
Country Status (9)
Country | Link |
---|---|
US (2) | US10592491B2 (ja) |
EP (1) | EP3293641B1 (ja) |
JP (1) | JP6779231B2 (ja) |
KR (1) | KR102134952B1 (ja) |
CN (1) | CN106202092B (ja) |
ES (1) | ES2808948T3 (ja) |
PL (1) | PL3293641T3 (ja) |
SG (1) | SG11201708917SA (ja) |
WO (1) | WO2016177279A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202092B (zh) | 2015-05-04 | 2020-03-06 | 阿里巴巴集团控股有限公司 | 数据处理的方法及系统 |
WO2017107118A1 (en) * | 2015-12-24 | 2017-06-29 | Intel Corporation | Facilitating efficient communication and data processing across clusters of computing machines in heterogeneous computing environment |
CN107729353B (zh) * | 2017-08-30 | 2020-04-07 | 第四范式(北京)技术有限公司 | 用于执行机器学习的分布式系统及其方法 |
US11044091B1 (en) * | 2018-03-15 | 2021-06-22 | Secure Channels Inc. | System and method for securely transmitting non-pki encrypted messages |
CN110347513B (zh) * | 2019-07-15 | 2022-05-20 | 中国工商银行股份有限公司 | 热点数据批量调度方法及装置 |
US11804955B1 (en) | 2019-09-13 | 2023-10-31 | Chol, Inc. | Method and system for modulated waveform encryption |
US20220374158A1 (en) * | 2019-12-20 | 2022-11-24 | Intel Corporation | Managing runtime apparatus for tiered object memory placement |
CN116432903B (zh) * | 2023-04-01 | 2024-06-11 | 国网新疆电力有限公司电力科学研究院 | 一种通信仿真数据管理系统 |
CN116346827B (zh) * | 2023-05-30 | 2023-08-11 | 中国地质大学(北京) | 一种面向倾斜数据流的实时分组方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010092222A (ja) * | 2008-10-07 | 2010-04-22 | Internatl Business Mach Corp <Ibm> | 更新頻度に基づくキャッシュ機構 |
JP2012511784A (ja) * | 2008-12-12 | 2012-05-24 | アマゾン テクノロジーズ インコーポレイテッド | プログラム実行状態の保存 |
JP2012160013A (ja) * | 2011-01-31 | 2012-08-23 | Nippon Telegr & Teleph Corp <Ntt> | データ分析及び機械学習処理装置及び方法及びプログラム |
JP2012247979A (ja) * | 2011-05-27 | 2012-12-13 | Fujitsu Ltd | 処理プログラム、処理方法及び処理装置 |
JP2013508873A (ja) * | 2009-10-27 | 2013-03-07 | エグザリード | 情報ストリームの情報を処理する方法およびシステム |
WO2013051131A1 (ja) * | 2011-10-06 | 2013-04-11 | 富士通株式会社 | データ処理方法、分散処理システムおよびプログラム |
JP2013140510A (ja) * | 2012-01-05 | 2013-07-18 | Fujitsu Ltd | データ処理方法、分散処理システムおよびプログラム |
WO2013153620A1 (ja) * | 2012-04-10 | 2013-10-17 | 株式会社日立製作所 | データ処理システム及びデータ処理方法 |
WO2014020735A1 (ja) * | 2012-08-02 | 2014-02-06 | 富士通株式会社 | データ処理方法、情報処理装置およびプログラム |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7756919B1 (en) * | 2004-06-18 | 2010-07-13 | Google Inc. | Large-scale data processing in a distributed and parallel processing enviornment |
US8726290B2 (en) * | 2008-06-12 | 2014-05-13 | Yahoo! Inc. | System and/or method for balancing allocation of data among reduce processes by reallocation |
CN101645067A (zh) | 2008-08-05 | 2010-02-10 | 北京大学 | 一种讨论区集合中热点讨论区的预测方法 |
CN102141995B (zh) * | 2010-01-29 | 2013-06-12 | 国际商业机器公司 | 简化并行计算系统中的传输的系统与方法 |
CN102236581B (zh) * | 2010-04-30 | 2013-08-14 | 国际商业机器公司 | 用于数据中心的映射化简方法和系统 |
CN102314336B (zh) * | 2010-07-05 | 2016-04-13 | 深圳市腾讯计算机系统有限公司 | 一种数据处理方法和系统 |
CN102456031B (zh) * | 2010-10-26 | 2016-08-31 | 腾讯科技(深圳)有限公司 | 一种MapReduce系统和处理数据流的方法 |
US20120304186A1 (en) * | 2011-05-26 | 2012-11-29 | International Business Machines Corporation | Scheduling Mapreduce Jobs in the Presence of Priority Classes |
CN103019614B (zh) | 2011-09-23 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 分布式存储系统管理装置及方法 |
CN102388374A (zh) * | 2011-09-28 | 2012-03-21 | 华为技术有限公司 | 存储数据的方法和装置 |
TWI461929B (zh) | 2011-12-09 | 2014-11-21 | Promise Tecnnology Inc | 雲端數據儲存系統 |
US9367601B2 (en) * | 2012-03-26 | 2016-06-14 | Duke University | Cost-based optimization of configuration parameters and cluster sizing for hadoop |
TWI610166B (zh) | 2012-06-04 | 2018-01-01 | 飛康國際網路科技股份有限公司 | 自動災難復原和資料遷移系統及方法 |
WO2014117295A1 (en) | 2013-01-31 | 2014-08-07 | Hewlett-Packard Development Company, L.P. | Performing an index operation in a mapreduce environment |
CN104077297B (zh) * | 2013-03-27 | 2017-05-17 | 日电(中国)有限公司 | 基于本体的查询方法及装置 |
CN104142950A (zh) | 2013-05-10 | 2014-11-12 | 中国人民大学 | 基于关键词提取和基尼系数的微博用户分类方法 |
US9424274B2 (en) * | 2013-06-03 | 2016-08-23 | Zettaset, Inc. | Management of intermediate data spills during the shuffle phase of a map-reduce job |
IN2013MU02918A (ja) * | 2013-09-10 | 2015-07-03 | Tata Consultancy Services Ltd | |
CN103838844B (zh) * | 2014-03-03 | 2018-01-19 | 珠海市君天电子科技有限公司 | 一种键值对数据存储、传输方法及装置 |
CN103995882B (zh) | 2014-05-28 | 2017-07-07 | 南京大学 | 基于MapReduce的概率频繁项集挖掘方法 |
CN104331464A (zh) * | 2014-10-31 | 2015-02-04 | 许继电气股份有限公司 | 一种基于MapReduce的监控数据优先预取处理方法 |
CN104536830A (zh) | 2015-01-09 | 2015-04-22 | 哈尔滨工程大学 | 一种基于MapReduce的KNN文本分类方法 |
CN106202092B (zh) | 2015-05-04 | 2020-03-06 | 阿里巴巴集团控股有限公司 | 数据处理的方法及系统 |
CN107193500A (zh) | 2017-05-26 | 2017-09-22 | 郑州云海信息技术有限公司 | 一种分布式文件系统分层存储方法及系统 |
-
2015
- 2015-05-04 CN CN201510222356.4A patent/CN106202092B/zh active Active
-
2016
- 2016-04-21 KR KR1020177034735A patent/KR102134952B1/ko active IP Right Grant
- 2016-04-21 ES ES16789273T patent/ES2808948T3/es active Active
- 2016-04-21 JP JP2017557451A patent/JP6779231B2/ja active Active
- 2016-04-21 EP EP16789273.6A patent/EP3293641B1/en active Active
- 2016-04-21 WO PCT/CN2016/079812 patent/WO2016177279A1/zh active Application Filing
- 2016-04-21 SG SG11201708917SA patent/SG11201708917SA/en unknown
- 2016-04-21 PL PL16789273T patent/PL3293641T3/pl unknown
-
2017
- 2017-10-30 US US15/797,537 patent/US10592491B2/en active Active
-
2020
- 2020-02-25 US US16/800,641 patent/US10872070B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010092222A (ja) * | 2008-10-07 | 2010-04-22 | Internatl Business Mach Corp <Ibm> | 更新頻度に基づくキャッシュ機構 |
JP2012511784A (ja) * | 2008-12-12 | 2012-05-24 | アマゾン テクノロジーズ インコーポレイテッド | プログラム実行状態の保存 |
JP2013508873A (ja) * | 2009-10-27 | 2013-03-07 | エグザリード | 情報ストリームの情報を処理する方法およびシステム |
JP2012160013A (ja) * | 2011-01-31 | 2012-08-23 | Nippon Telegr & Teleph Corp <Ntt> | データ分析及び機械学習処理装置及び方法及びプログラム |
JP2012247979A (ja) * | 2011-05-27 | 2012-12-13 | Fujitsu Ltd | 処理プログラム、処理方法及び処理装置 |
WO2013051131A1 (ja) * | 2011-10-06 | 2013-04-11 | 富士通株式会社 | データ処理方法、分散処理システムおよびプログラム |
JP2013140510A (ja) * | 2012-01-05 | 2013-07-18 | Fujitsu Ltd | データ処理方法、分散処理システムおよびプログラム |
WO2013153620A1 (ja) * | 2012-04-10 | 2013-10-17 | 株式会社日立製作所 | データ処理システム及びデータ処理方法 |
WO2014020735A1 (ja) * | 2012-08-02 | 2014-02-06 | 富士通株式会社 | データ処理方法、情報処理装置およびプログラム |
Non-Patent Citations (1)
Title |
---|
中田秀基,井上辰彦,小川宏高,工藤知宏: "PrefixSpan法のMapReduce実装の改良", 電子情報通信学会技術研究報告, vol. Vol.112,No.237,(CPSY2012-31〜46), JPN6020019313, 5 October 2012 (2012-10-05), JP, pages 55 - 60, ISSN: 0004282106 * |
Also Published As
Publication number | Publication date |
---|---|
EP3293641A1 (en) | 2018-03-14 |
PL3293641T3 (pl) | 2021-02-08 |
SG11201708917SA (en) | 2017-11-29 |
ES2808948T3 (es) | 2021-03-02 |
US20180046658A1 (en) | 2018-02-15 |
JP6779231B2 (ja) | 2020-11-04 |
CN106202092A (zh) | 2016-12-07 |
US10872070B2 (en) | 2020-12-22 |
US10592491B2 (en) | 2020-03-17 |
EP3293641A4 (en) | 2018-10-17 |
WO2016177279A1 (zh) | 2016-11-10 |
CN106202092B (zh) | 2020-03-06 |
KR102134952B1 (ko) | 2020-07-17 |
KR20180002758A (ko) | 2018-01-08 |
US20200192882A1 (en) | 2020-06-18 |
EP3293641B1 (en) | 2020-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6779231B2 (ja) | データ処理方法及びシステム | |
AU2017202873B2 (en) | Efficient query processing using histograms in a columnar database | |
US10922316B2 (en) | Using computing resources to perform database queries according to a dynamically determined query size | |
US20160078361A1 (en) | Optimized training of linear machine learning models | |
US20150370881A1 (en) | Dynamic n-dimensional cubes for hosted analytics | |
US10356150B1 (en) | Automated repartitioning of streaming data | |
CN103970604A (zh) | 基于MapReduce架构实现图处理的方法和装置 | |
CN111722806A (zh) | 云盘分配方法、装置、电子设备及存储介质 | |
CN111813805A (zh) | 一种数据处理方法及装置 | |
CN110019298B (zh) | 数据处理方法和装置 | |
US10747764B1 (en) | Index-based replica scale-out | |
Jiang et al. | Parallel K-Medoids clustering algorithm based on Hadoop | |
WO2015196176A1 (en) | Dynamic n-dimensional cubes for hosted analytics | |
WO2019179252A1 (zh) | 一种样本回放数据存取方法及装置 | |
US20220004895A1 (en) | Throughput based sizing for hive deployment | |
CN113656046A (zh) | 一种应用部署方法和装置 | |
Shabeera et al. | A novel approach for improving data locality of mapreduce applications in cloud environment through intelligent data placement | |
US11126623B1 (en) | Index-based replica scale-out | |
CN112148461A (zh) | 应用的调度方法、装置 | |
CN111737190A (zh) | 嵌入式系统的动态软硬件协同方法、嵌入式系统 | |
CN112579246A (zh) | 虚拟机迁移处理方法及装置 | |
CN113132445A (zh) | 资源调度方法、设备、网络系统及存储介质 | |
Mao et al. | FiGMR: A fine-grained mapreduce scheduler in the heterogeneous cloud | |
US11954531B2 (en) | Use of relational databases in ephemeral computing nodes | |
US11914593B2 (en) | Generate digital signature of a query execution plan using similarity hashing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190422 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190422 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191205 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20191205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200324 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200529 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20200605 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200615 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200902 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200923 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201013 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6779231 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |