JP2018515844A - データ処理方法及びシステム - Google Patents

データ処理方法及びシステム Download PDF

Info

Publication number
JP2018515844A
JP2018515844A JP2017557451A JP2017557451A JP2018515844A JP 2018515844 A JP2018515844 A JP 2018515844A JP 2017557451 A JP2017557451 A JP 2017557451A JP 2017557451 A JP2017557451 A JP 2017557451A JP 2018515844 A JP2018515844 A JP 2018515844A
Authority
JP
Japan
Prior art keywords
key
value
value pair
value pairs
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017557451A
Other languages
English (en)
Other versions
JP2018515844A5 (ja
JP6779231B2 (ja
Inventor
ハン,ミン
Original Assignee
アリババ グループ ホウルディング リミテッド
アリババ グループ ホウルディング リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アリババ グループ ホウルディング リミテッド, アリババ グループ ホウルディング リミテッド filed Critical アリババ グループ ホウルディング リミテッド
Publication of JP2018515844A publication Critical patent/JP2018515844A/ja
Publication of JP2018515844A5 publication Critical patent/JP2018515844A5/ja
Application granted granted Critical
Publication of JP6779231B2 publication Critical patent/JP6779231B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24539Query rewriting; Transformation using cached or materialised query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
    • G06F7/08Sorting, i.e. grouping record carriers in numerical or other ordered sequence according to the classification of at least some of the information they carry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本願は、データ処理方法とそのシステムを開示する。当該方法は:スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップと;ホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、ホットスポットのキー・バリューペアをマッピングするステップと;呼び出しのための最終結果のキー・バリューペアを生成するために、中間結果のキー・バリューペアを整理するステップと;を備え、キー・バリューペアは、属性を表すキー値と属性内容を表すキー値とを含む。この方法及び対応するシステムにおいて、データ処理システムは、ホットスポットのキー・バリューペアを前処理してサービスシステムによる呼び出しを容易にする一方、非ホットスポットのキー・バリューペアは、サービスシステムによって呼び出された場合に限って処理される。それによりサービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量を減らし、データ処理の実行効率を高め、サービスシステムがデータ処理結果を待つ時間を短縮し、円滑なサービス処理及び望ましいユーザエクスペリエンスを実現する。【選択図】図1

Description

本願は、ビッグデータ技術の分野に関し、特に、データ処理方法及びシステムに関する。
コンピュータ技術の発展に伴い、コンピュータによる処理が必要なデータの量は益々増加しており、単一のコンピュータではこうした大量のデータを処理できなくなってきている。したがって、幾つかのコンピュータを組み合わせることにより、大量のデータを並行して処理するためのコンピュータクラスタを構築する技術が開発されている。
Hadoop分散クラスタシステムアーキテクチャは、そのようなシステムアーキテクチャである。Hadoopシステムは、多数の安価なコンピュータを用いてコンピュータクラスタを構築し、このクラスタが、高速計算及び格納を遂行する高価で高い計算速度のコンピュータに置き換わることができる。Hadoopシステムは主として、分散ファイルシステムとMapReduceシステムとを含む。分散ファイルシステムは、データを管理し格納する。MapReduceシステムは分散ファイルシステムによって入力されるデータを計算し、主に:処理すべきデータセットを複数のデータブロックに分解すること;各データブロックにおける元のキー・バリュー(値)ペアデータのそれぞれをマッピングして元のキー・バリューペアデータのそれぞれに対応する中間結果のキー・バリューペアデータを得ること;及び、元のキー・バリューペアデータ全てに対応する中間結果のキー・バリューペアデータを得た後に、中間結果のキー・バリューペアデータ全てを対応させて整理(Reduce)して対応する最終結果のキー・バリューペアデータを得ること;を含む。
上記の処理方式では、大きなタスクを多数の小さなタスクに分割することができ、これらの小さなタスクは、分散システムの多数のコンピュータ(タスクエグゼキュータとも呼ばれる)によって実行される。こうして、マスデータに対する迅速な処理を実施できる。この処理方式は、依然としてコンピューティング(計算)資源の総量を減らすことにはならないものの、多数の必要なコンピューティング資源を多数のコンピュータに分散させ、必要な処理時間を大幅に短縮する。この処理方式は、時間に制約のないオフラインのシナリオに適している。オンラインでのサービスシナリオ、例えば、インスタントメッセージのシナリオの場合は、一般に、短時間のうちにマスデータ処理を達成し結果を出力することが求められるので、時間に制約がある。
発明者は、本願を実施する工程において、従来技術には少なくとも以下の課題のあることを見出した。
時間に制約のあるオンラインでのサービスシナリオでは、依然として多数のコンピュータ資源がマスデータに対する処理を達成するために占有される、即ち、処理されるデータの量は依然として膨大である。したがって、Hadoopシステムがデータを処理するプロセスは長時間を費やし、サービスシステムがHadoopシステムを呼び出してデータ処理の結果を待つ時間は長く、実行効率が低く、円滑なサービスの特定の要件を満たすことができず、良くないユーザエクスペリエンスにつながる。
したがって、既存のデータ処理方法に関する研究に基づき、発明者は、実行効率が高く、望ましいユーザエクスペリエンスが得られるデータ処理方法及びシステムを提供する。
本願の実施の形態は、実行効率が高く、望ましいユーザエクスペリエンスが得られるデータ処理方法を提供する。具体的には、データ処理方法は:
スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップと;
ホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、ホットスポットのキー・バリューペアをマッピングするステップと;
呼び出しのための最終結果のキー・バリューペアを生成するために、中間結果のキー・バリューペアを整理(Reduce)するステップと;を備え、
キー・バリューペアは、属性を表すキー値と数値を表すキー値とを含む。
本願の実施の形態は、更にデータ処理方法を提供し:
処理すべきキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、処理すべきキー・バリューペアをマッピングするステップと;
スクリーニング規則に従い、中間結果のキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップと;
呼び出しのための最終結果のキー・バリューペアを生成するために、ホットスポットのキー・バリューペアを整理(Reduce)するステップと;を備え、
キー・バリューペアは、属性を表すキー値と属性内容を表すキー値とを含む。
本願の実施の形態は、更にデータ処理システムを提供し:
スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュールと;
ホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、ホットスポットのキー・バリューペアをマッピングするように構成されたマッピングモジュールと;
呼び出しのための最終結果のキー・バリューペアを生成するために、中間結果のキー・バリューペアを整理(Reduce)するように構成された整理モジュールと;を備え、
キー・バリューペアは、属性を表すキー値と数値を表すキー値とを含む。
本願の実施の形態は、更にデータ処理システムを提供し:
処理すべきキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、処理すべきキー・バリューペアをマッピングするように構成されたマッピングモジュールと;
スクリーニング規則に従い、中間結果のキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュールと;
呼び出しのための最終結果のキー・バリューペアを生成するために、ホットスポットのキー・バリューペアを整理(Reduce)するように構成された整理モジュールと;を備え、
キー・バリューペアは、属性を表すキー値と属性内容を表すキー値とを含む。
本願の実施の形態において提供されるデータ処理方法及びシステムは、少なくとも以下の有益な効果を奏する:
データ処理システムは、ホットスポットのキー・バリューペア(key-value pair)を前処理してサービスシステムによる呼び出しを容易にする一方、非ホットスポットのキー・バリューペアは、サービスシステムによって呼び出された場合に限って処理される。それにより、サービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量を減らし、データ処理の実行効率を高め、サービスシステムがデータ処理結果の待ち時間を短縮し、円滑なサービス処理と望ましいユーザエクスペリエンスを実現する。
ここで説明する添付の図面は、本願への更なる理解を与えるために用いられると共に、本願の一部を構成する。本願の例示の実施の形態及びその説明は、本願を説明するために用いられ、本願を制限することを意図してはいない。
添付の図面において、
図1は、本願の実施の形態によるデータ処理方法のフローチャートである。 図2は、本願の実施の形態による、マッピングのキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するフローチャートである。 図3は、本願の実施の形態によるデータ処理システムの概略構造図である。
既存のデータ処理方法における、データ処理時間が長い、実行効率が低い、円滑なサービスの特定の要件を満たせない、及びユーザエクスペリエンスが良くないという技術的課題を解決するため、本願の実施の形態は、データ処理方法及び対応するシステムを提供する。この方法及び対応するシステムにおいて、データ処理システムは、ホットスポットのキー・バリューペアを前処理してサービスシステムによる呼び出しを容易にする一方、非ホットスポットのキー・バリューペアは、サービスシステムによって呼び出された場合に限って処理される。それによりサービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量を減らし、データ処理の実行効率を高め、サービスシステムがデータ処理結果を待つ時間を短縮し、円滑なサービス処理及び望ましいユーザエクスペリエンスを実現する。
本願の目的、技術的な解決策、及び利点をより理解し易くするために、本願の技術的な解決策を本願の特定の実施の形態及びこれと対応する図面を参照しながら明瞭かつ完全に以下に説明する。説明する実施の形態は、明らかに、本願の全てではなく単にそのいくつかでしかない。本願の実施の形態に基づき、当業者によって創造的な努力なく導かれるその他の全ての実施の形態は、本願の保護範囲に含まれるものである。
Hadoopシステムは:
Map−Reduceジョブを送信するように構成されたクライアント端末(JobClient)と;
Java(登録商標)プロセスであり、ジョブ全体の遂行を調整するように構成されたジョブトラッカ(JobTracker)と;
Java(登録商標)プロセスであり、ジョブのタスクを遂行するように構成されたタスクトラッカ(TaskTracker)と;
ジョブに関連するファイルをプロセス間で共有させるように構成されたHadoop分散ファイルシステム(HDFS)と;を含むことができる。
Hadoopシステムのジョブプロセスは、以下を含むことができる:
1.タスク送信
クライアント端末がジョブトラッカに新しいジョブコードを要求し、新しいジョブインスタンスを創出し、submitJob関数を呼び出す。
2.タスク初期化
submitJob関数の呼び出しを受信すると、ジョブトラッカは、タスクを取得して初期化する。ジョブトラッカは、タスクを創出し、タスクコードを割り当てる。
3.タスク割り当て
ジョブトラッカはタスクをタスクトラッカに割り当てる。
4.タスク実行
タスクを割り当てられた後、タスクトラッカは、タスクの遂行を開始する。マッピング時に、タスクトラッカはmap関数を呼び出し、タスクを処理する、即ち、元のキー・バリューペアを処理して中間結果のキー・バリューペアを生成し、一連のキー値に応じて中間結果のキー・バリューペアを出力する。次いで、タスクトラッカは、reduce関数を呼び出して中間結果のキー・バリューペアを処理し、最終結果のキー・バリューペアを生成する。
5.タスク終了
タスクが全て遂行されて成功したことを示すタスクトラッカのレポートを得た後、ジョブトラッカはジョブを終了する。
図1は、本願の実施の形態によるデータ処理方法のフローチャートであり、具体的には、以下のステップを含む:
S100:スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択する。
データは、データのプロパティを記述する属性と数値、即ち、一般に記載されるキー・バリューペアとして具体化される。キー・バリューペアは、属性を表すキー値と、属性内容を表すキー値とを含む。属性内容は、リスト、ハッシュマップ(hash map)、文字列、数値、Boolean値、順序付きリスト列(array)、null値などを含むが、これらに限定されない。例えば、{“name”:“Wang Xiao’er”}は、「name」が「Wang Xiao’er」である人のデータを意味する。
特定の実施の形態において、スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップは、具体的に、幾つかの処理すべきキー・バリューペアが、ホットスポットのキー・バリューペアとしてランダムに選択され得ることを含む。実際には、処理すべきキー・バリューペアがホットスポットのキー・バリューペアであるか否かを判断することは、とりわけ数百万、或いは数億もの処理すべきキー・バリューペアが存在する場合には複雑なプロセスとなる。本願の実施の形態において、データ処理システムは、幾つかの処理すべきキー・バリューペアをホットスポットのキー・バリューペアとしてランダムに選択することで、処理すべきキー・バリューペアがホットスポットのキー・バリューペアであるか否か判断するプロセスを単純化し、この方法のデータ処理効率を高める。
ホットスポットのキー・バリューペアは、サービスシステムによる呼び出しに備えて前処理される一方、非ホットスポットのキー・バリューペアは、サービスシステムによって呼び出された場合に限って処理される。それにより、サービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量を減らし、データ処理の実行効率を高め、サービスシステムがデータ処理結果を待つ時間を短縮し、円滑なサービス処理及び望ましいユーザエクスペリエンスを実現する。
別の特定の実施の形態において、図2を参照すると、スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップは、具体的に以下を含む:
S101:第1の数の、処理すべきキー・バリューペアが、候補のキー・バリューペアとしてランダムに選択される。
S102:候補のキー・バリューペアの中から各キー・バリューペアの呼び出される頻度がカウントされる。
S103:候補のキー・バリューペアが、頻度に応じて並べられる。
S104:最大呼び出し頻度を有する第2の数のキー・バリューペアが、候補のキー・バリューペアの中からホットスポットのキー・バリューペアとして選択される。
第1の数は、第2の数よりも大きい。
本願の実施の形態において、まず、データ処理システムが、第1の数の、マッピングのキー・バリューペアを、候補のキー・バリューペアとしてランダムに選択する。第1の数は一般に特定のサービスに対応する。第1の数の数値は、過去の経験に応じて設定された値であっても、動的な調節及び変更を通じてコンピュータにより生成された数値であってもよい。
次いで、データ処理システムは、候補のキー・バリューペアのそれぞれのキー・バリューペアが呼び出される頻度をカウントし、候補のキー・バリューペアを頻度に応じて並べる。特定のサービス活動においては、サービスシステムをサポートするために、一般に一定の数のキー・バリューペアを呼び出すことが必要とされる。この場合、データ処理システムは、それぞれのキー・バリューペアが呼び出される頻度、即ち、一定時間内にそれぞれのキー・バリューペアが呼び出される回数を追跡して記録する。更に、データ処理システムは更に、キー・バリューペアを、呼び出し頻度に応じて降順に並べてもよい。
次に、データ処理システムは、最大呼び出し頻度を有する第2の数のキー・バリューペアを、候補のキー・バリューペアの中からホットスポットのキー・バリューペアとして選択する。第1の数は、第2の数よりも大きい。同様に、第2の数の数値は、過去の経験に応じて設定された値であってもよく、動的な調節及び変更を通じてデータ処理システムによって生成される数値であってもよい。選択されるホットスポットのキー・バリューペアが呼び出される頻度は、候補のキー・バリューペアが呼び出される頻度よりも高い。データ処理システムは、他の候補のキー・バリューペアを前処理することなく、ホットスポットのキー・バリューペアを前処理する。前処理されるキー・バリューペアが呼び出される確率は、他のキー・バリューペアが呼び出される確率よりも高い。したがって、サービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量が減り、データ処理の実行効率が向上し、サービスシステムがデータ処理結果を待つ時間が短縮され、サービス処理が円滑になり、ユーザエクスペリエンスが望ましいものとなる。
更に、本願の実施の形態において、マッピングキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップは:
第1の数の処理すべきキー・バリューペアを候補のキー・バリューペアとしてランダムに選択するステップの前に、候補のキー・バリューペアのサービスカテゴリ条件セットを設定するステップと;
サービスカテゴリ条件セットを満たす処理すべきキー・バリューペアを選択するステップと;を更に備える。
本願の実施の形態において、サービスカテゴリ条件セットは、過去の経験に応じた固定値セットであってもよく、動的な調節及び変更を通じて生成されてもよい。実際には、サービス活動のサービスシステムによって呼び出されるキー・バリューペアは一般に、他のサービス活動と区別するための幾つかの特定のプロパティを有する。例えば、情報を推奨するサービスシステムによって呼び出されるキー・バリューペアは、支払いのためのサービスシステムによって呼び出されるキー・バリューペアと比べると、特定のプロパティを有する。情報を推奨するサービスシステムは、受信者の年齢を示すキー・バリューペアに関連付けることができる。例えば、ウェディング商品に関する情報が推奨されても、16歳未満の受信者にとって通常は価値のない情報である。情報を推奨するためのサービスシステムのサービスカテゴリ条件セットが年齢を示すキー・バリューペアを含んでいれば、望ましい推奨効果を得ることができる。
したがって、処理すべきキー・バリューペアのサービスカテゴリ条件セットが設定され、データ処理システムは、サービスカテゴリ条件セットに対する判断を通じて多数の処理すべきキー・バリューペアをフィルタリングすることにより、ホットスポットのキー・バリューペアの選択精度を高めることができる。したがって、サービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量が減り、データ処理の実行効率が向上し、サービスシステムがデータ処理結果を待つ時間を短縮し、サービス処理が円滑になり、ユーザエクスペリエンスが望ましいものとなる。
本願の更なる特定の実施の形態では、スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップは、具体的に:
ホットスポットのキー・バリューペアの呼び出し頻度閾値を設定するステップと;
キー・バリューペアの呼び出される頻度が呼び出し頻度閾値より高い場合に、キー・バリューペアをホットスポットのキー・バリューペアとして設定するステップと;を備える。
本願の実施の形態において、キー・バリューペアの呼び出し頻度が設定され、キー・バリューペアの呼び出される頻度が呼び出し頻度の閾値よりも高い場合、データ処理システムは、そのキー・バリューペアをホットスポットのキー・バリューペアとして設定する。データ処理システムは、他のキー・バリューペアを前処理することなく、ホットスポットのキー・バリューペアを前処理する。前処理されるキー・バリューペアが呼び出される確率は、他のキー・バリューペアが呼び出される確率よりも高い。したがって、サービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量が減り、データ処理の実行効率が向上し、サービスシステムがデータ処理結果を待つ時間を短縮し、サービス処理が円滑となり、ユーザエクスペリエンスが望ましいものとなる。
S200:ホットスポットのキー・バリューペアがマッピングされてホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得る。
本願において提供される実施の形態では、クライアント端末(JobClient)は、Map−Reduceジョブをジョブトラッカに送信し、新しいジョブインスタンスを創出し、submitJob関数を呼び出す。submitJob関数の呼び出しを受信すると、ジョブトラッカは、タスクを取得して初期化する。ジョブトラッカは、タスクを創出し、タスクコードを割り当てる。ジョブトラッカはタスクをタスクトラッカに割り当てる。タスクを割り当てられた後、タスクトラッカは、タスクの遂行を開始する。マッピング時に、タスクトラッカはmap関数を呼び出し、タスクを処理する、即ち、元のキー・バリューペアを処理して中間結果のキー・バリューペアを生成し、一連のキー値に応じて中間結果のキー・バリューペアを出力する。
S300:中間結果のキー・バリューペアを整理(Reduce)して呼び出しのための最終結果のキー・バリューペアを生成する。
このステップでは、タスクトラッカは、reduce関数を呼び出して中間結果のキー・バリューペアを処理し、最終結果のキー・バリューペアを生成する。タスクが全て遂行されて成功したことを示すタスクトラッカのレポートを得た後、ジョブトラッカは、最終結果のキー・バリューペアをHDFSに格納し、ジョブを終了する。
本願の実施の形態において、データ処理システムは、ホットスポットのキー・バリューペアを前処理してサービスシステムによる呼び出しを容易にする一方、非ホットスポットのキー・バリューペアは、サービスシステムによって呼び出された場合に限り処理される。それによりサービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量を減らし、データ処理の実行効率を高め、サービスシステムがデータ処理結果を待つ時間を短縮し、円滑なサービス処理及び望ましいユーザエクスペリエンスを実現する。
本願において提供される実施の形態では、本方法は、機械学習モデルを用いることによりスクリーニング規則を最適化するステップを更に含む。
機械学習モデルは、人工知能に関係する。本願の実施の形態において、スクリーニング規則は、機械学習モデルを用いて最適化される。データ処理システムが一定時間稼動した後、ホットスポットのキー・バリューペアと非ホットスポットのキー・バリューペアとを判定する精度を大幅に向上させることができる。したがって、サービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量が減り、データ処理の実行効率を高め、サービスシステムがデータ処理結果を待つ時間を短縮し、サービス処理が円滑となり、ユーザエクスペリエンスが望ましいものとなる。
機械学習モデルのタイプは、特定のサービスシステムに応じて選択され、スクリーニング規則に対する機械学習モデルの最適化は、単純に以下のように導入される。
具体的には、単一の属性に対するキー・バリューペアが呼び出される頻度の分散条件は、機械学習モデルにおいてクラスタ化アルゴリズムを用いることによりカウントされる。
単一の属性に対するキー・バリューペアが呼び出される頻度の分散条件に従い、キー・バリューペアの呼び出される頻度が予め設定された頻度閾値以上となる、属性内容のキー値の間隔が選択される。
属性内容のキー値の間隔は、スクリーニング規則の規則条件として設定される。
情報を推奨するための上記サービスシステムを引き続き例に取り、以下説明する。ここで、サービスシステムが統計を取ることにより、情報を推奨するためのサービスが予め設定された割合、例えば50%、を超えていることを把握し、受信者の年齢を示すキー・バリューペアが呼び出されると仮定する。機械学習モデルは、K平均クラスタ化アルゴリズムを通じてスクリーニング規則を最適化する。
サンプルセット(受信者の年齢を示すキー・バリューペアと、これらキー・バリューペアが呼び出される頻度)がm個のカテゴリ(頻度セグメント)に分類されると仮定すると、アルゴリズムは以下のように記述される:
(1)m個のカテゴリ(頻度セグメント)の初期中心(頻度)を適切に選択する。
(2)k番目の反復において、任意のサンプル(受信者の年齢を示すキー・バリューペアと、これらキー・バリューペアが呼び出される頻度)からm個の中心までの距離(頻度差)を求め、そのサンプル(受信者の年齢を示すキー・バリューペアと、キー・バリューペアが呼び出される頻度)を、最小距離を有する中心が属するカテゴリ(頻度セグメント)に分類する。
(3)平均法を用いてカテゴリ(頻度セグメント)の中央値(頻度)を更新する。
(4)m個の中央値(頻度)全てについて、(2)及び(3)の反復法を用いて更新した後も値が変化しない場合には反復を終了し、そうでない場合は反復を続ける。
(5)m個のカテゴリ(頻度セグメント)のそれぞれのカテゴリ(頻度セグメント)について、n個のカテゴリ(年齢グループ)の初期中心(年齢)を適切に選択する。
(6)k番目の反復において、任意のサンプル(受信者の年齢を示すキー・バリューペアと、これらキー・バリューペアが呼び出される頻度)からn個の中心までの距離(年齢差)を求め、そのサンプル(受信者の年齢を示すキー・バリューペアと、これらキー・バリューペアが呼び出される頻度)を、最小距離を有する中心が属するカテゴリ(年齢グループ)に分類する。
(7)平均法を用いてカテゴリ(年齢グループ)の中央値(年齢)を更新する。
(8)n個の中央値(年齢)全てについて、(6)及び(7)の反復法を用いて更新した後も値が変化しない場合には反復を終了し、そうでない場合には反復を続ける。
このアルゴリズムを用いることにより、年齢に対する呼び出し頻度が高い処理すべきキー・バリューペアのクラスタ化規則を、計算を通じて得ることができる。受信者の年齢が或るカテゴリ(年齢グループ)に含まれるということを、スクリーニング規則の規則条件として用いる。例えば、受信者の年齢が12〜18歳であることが、処理すべきキー・バリューペアがホットスポットのキー・バリューペアであると判定する規則条件として用いられる。機械学習モデルを用いてスクリーニング規則を最適化した後、サービスシステムは、最適化されたスクリーニング規則に従い、処理すべきキー・バリューペアの中からホットスポットのキー・バリューペアをスクリーニングする。
本願で提供される実施の形態において、規則最適化モジュールは:
或る属性のキー・バリューペアと別の属性のキー・バリューペアとが同じサービスコードを有するサービスシステムによって呼び出される場合に、2つの属性のキー・バリューペアの属性内容のキー値の間隔の和集合をスクリーニング規則の規則条件として設定するように更に構成される。
機械学習モデルは、受信者の年齢の次元においてスクリーニング規則の最適化を達成した後、受信者の職業の次元において更にスクリーニング規則に対する最適化を達成すると仮定する。
データ処理システムは、受信者が或る年齢グループに属することを示す処理すべきキー・バリューペアと、受信者が或る職業を持っていることを示す処理すべきキー・バリューペアとは、情報の推奨に高度に関係していることを計算する。例えば、或る処理すべきキー・バリューペアが受信者が20〜30歳の年齢グループに属していることを示し、或る処理すべきキー・バリューペアが受信者がコンピュータ産業に属していることを示す場合、サービスシステムが情報を推奨する際に、この2つの次元の特徴を同時に有する受信者に対しては、望ましいサービス促進効果を得ることができる。次に、機械学習モデルは、受信者が20〜30歳の年齢グループに属していることを示す処理すべきキー・バリューペアを、受信者がコンピュータ産業に属していることを示す処理すべきキー・バリューペアと関連付けて、ホットスポットのキー・バリューペアデータグループを形成する。
データ処理システムは更に、機械学習モデルを用いてホットスポットのキー・バリューペアデータグループが呼び出される頻度をランク付けし、ホットスポットのキー・バリューペアデータグループをホットスポットデータグループと非ホットスポットデータグループとに分類する。ホットスポットデータグループの動的調節モードは、ホットスポットデータグループの呼び出し頻度閾値を設定し、データグループにおけるキー・バリューペアが呼び出されるの頻度が頻度閾値より高い場合、そのデータグループをホットスポットデータグループとして設定する。
本願の実施の形態では、データグループの処理優先順位値が設定される。優先順位値は、処理すべきキー・バリューペアの加重和値を計算することによって得られる。データグループの処理優先順位は、優先順位値に応じて動的に調節される。データグループにおけるキー・バリューペアが1回呼び出されると、データグループの優先順位値が1単位上昇する。データグループの優先順位値がそれより上位のデータグループの優先順位値を超えると、データ処理システムは、そのデータグループを1段前に進める。機械学習モデルを用いることによるスクリーニング規則の最適化を通じ、データ処理システムによって処理すべきキー・バリューペアの中から選択されるホットスポットのキー・バリューペアは、呼び出される頻度が最大のマッピングのキー・バリューペアであり、その場合、キー・バリューペアを関連付けることによって形成されるホットスポットデータグループは、呼び出される頻度が最大のデータグループとなる。したがって、サービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量が減り、データ処理の実行効率を高め、サービスシステムがデータ処理結果を待つ時間を短縮し、サービス処理が円滑になり、ユーザエクスペリエンスが望ましいものとなる。
本願で提供される実施の形態において、方法は:
非ホットスポットのキー・バリューペアが呼び出される場合、reduce関数を用いることにより、呼び出しのためのデータを生成するために、非ホットスポットのキー・バリューペアを処理するステップを更に備える。
本願の実施の形態において、ホットスポットのキー・バリューペアは、reduce関数を用いるデータ処理システムによって前処理されてサービスシステムによる呼び出しのためのデータが生成される。非ホットスポットのキー・バリューペアがサービスシステムによって呼び出される場合、reduce関数を用いるデータ処理システムによりキー・バリューペアがリアルタイムで処理されてサービスシステムによる呼び出しのためのデータが生成される。したがって、サービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量が減り、データ処理の実行効率が高まり、サービスシステムがデータ処理結果を待つ時間を短縮し、サービス処理が円滑になり、ユーザエクスペリエンスが望ましいものとなる。
本願の実施の形態の別の態様では、データ処理方法は:
処理すべきキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、処理すべきキー・バリューペアをマッピングするステップと;
スクリーニング規則に従い、中間結果のキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップと;
呼び出しのための最終結果のキー・バリューペアを生成するために、ホットスポットのキー・バリューペアを整理(Reduce)するステップと;
を備え、
キー・バリューペアは、属性を表すキー値と属性内容を表すキー値とを含む。
指摘すべきことは、上記の特定の実施の形態との違いは、キー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップが、マッピング処理ステップの後で行われるように設定されている点である。本願の実施の形態において、処理低減のキー・バリューペアのデータ量が軽減され、データが大量であるという課題はある程度解決される。したがって、サービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量が減り、データ処理の実行効率が高まり、サービスシステムがデータ処理結果を待つ時間を短縮し、サービス処理が円滑になり、ユーザエクスペリエンスが望ましいものとなる。
本願の実施の形態によるデータ処理方法は、上記で説明されている。同様の思想に基づいて、図3を参照し、本願は更にデータ処理システム1を提供し:
スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュール10と;
ホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、ホットスポットのキー・バリューペアをマッピングするように構成されたマッピングモジュール20と;
呼び出しのための最終結果のキー・バリューペアを生成するために、中間結果のキー・バリューペアを整理(Reduce)するように構成された整理モジュール30と;
を備え、
キー・バリューペアは、属性を表すキー値と数値を表すキー値とを含む。
さらに、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュール10は、具体的には、幾つかの処理すべきキー・バリューペアをホットスポットのキー・バリューペアとしてランダムに選択するように構成される。
処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュール10は、具体的に:
第1の数の処理すべきキー・バリューペアを候補のキー・バリューペアとしてランダムに選択し;
候補のキー・バリューペアの中のそれぞれのキー・バリューペアが呼び出される頻度をカウントし;
候補のキー・バリューペアを頻度に応じて並べ;
最大呼び出し頻度を有する第2の数のキー・バリューペアを、候補のキー・バリューペアの中からホットスポットのキー・バリューペアとして選択する;ように構成され、
第1の数が第2の数よりも大きい。
マッピングのキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュール10は、具体的に:
第1の数の処理すべきキー・バリューペアを候補のキー・バリューペアとしてランダムに選択するステップの前に、候補のキー・バリューペアのサービスカテゴリ条件セットを設定し;
サービスカテゴリ条件セットを満たす処理すべきキー・バリューペアを選択する;ように更に構成される。
更に、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュール10は、具体的に:
ホットスポットのキー・バリューペアの呼び出し頻度閾値を設定し;
キー・バリューペアの呼び出される頻度が呼び出し頻度閾値よりも高い場合に、キー・バリューペアをホットスポットのキー・バリューペアとして設定する;ように構成される。
更に、システムは、機械学習モデルを用いることによりスクリーニング規則を最適化するように構成された規則最適化モジュール40を更に備える。
更に、マッピングモジュール20は、非ホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、非ホットスポットのキー・バリューペアをマッピングするように構成される。
更に、データ処理システム1は:
処理すべきキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、処理すべきキー・バリューペアをマッピングするように構成されたマッピングモジュール20と;
スクリーニング規則に従い、中間結果のキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュール10と;
呼び出しのための最終結果のキー・バリューペアを生成するために、ホットスポットのキー・バリューペアを整理(Reduce)するように構成された整理モジュール30と;を備え、
キー・バリューペアは、属性を表すキー値と属性内容を表すキー値とを含む。
本願の実施の形態において、データ処理システムは、ホットスポットのキー・バリューペアを前処理してサービスシステムによる呼び出しを容易にする一方、非ホットスポットのキー・バリューペアは、サービスシステムによって呼び出された場合に限って処理される。それによりサービスシステムにバックエンドサービスを提供するデータ処理システムによってリアルタイムに処理する必要のあるデータの量を減らし、データ処理の実行効率を高め、サービスシステムがデータ処理結果を待つ時間を短縮し、円滑なサービス処理及び望ましいユーザエクスペリエンスを実現する。
当業者は、本願の実施の形態は、方法、システム、又はコンピュータプログラム製品として提供され得ることを理解するはずである。したがって、本発明は、完全なハードウェアの実施の形態、完全なソフトウェアの実施の形態、又はソフトウェアとハードウェアの組み合わせの実施の形態において実現できる。さらに、本発明は、コンピュータで用いることができるプログラムコードを含む1つ以上のコンピュータで用いることができる記憶媒体(磁気ディスクメモリ、CD−ROM、光学メモリなどを非限定的に含む)上で実現されるコンピュータプログラム製品であってもよい。
本発明を、本発明の実施の形態による、方法、デバイス(システム)、及びコンピュータプログラムプロダクトによるフローチャート及び/又はブロック図を参照に説明した。コンピュータプログラム命令を用いて、フローチャート及び/又はブロック図の各工程及び/又はブロックを実施でき、またフローチャート及び/又はブロック図の工程及び/又はブロックの組み合わせを実施できることは言うまでもない。これらのコンピュータプログラム命令を、汎用コンピュータ、専用コンピュータ、組込み型プロセッサ、又はマシンを生成する別のプログラム可能な数値処理デバイスに提供することで、コンピュータ又は別のプログラム可能な数値処理デバイスのプロセッサによって実行される命令が、フローチャートの1つ以上の工程及び/又はブロック図の1つ以上のブロックにおける特定機能を実施する装置を生成する。
これらのコンピュータプログラム命令は、コンピュータ又は別のプログラム可能な数値処理デバイスを特定方法で作動するよう命令できるコンピュータで読取り可能なメモリに格納することもでき、コンピュータで読取り可能なメモリに格納された命令は、命令装置を含む製造物品を生成する。この命令装置は、フローチャートの1つ以上の工程における、及び/又は、ブロック図の1つ以上のブロックにおける特定機能を実施する装置である。
これらのコンピュータプログラム命令はコンピュータ又は別のプログラム可能なデータ処理デバイスにロードすることもでき、そうすることで一連の演算ステップがコンピュータ又は別のプログラム可能なデバイス上で実行され、コンピュータ実装処理を達成することができる。したがって、コンピュータ又は別のプログラム可能なデバイス上で実行される命令は、フローチャートの1つ以上の工程、及び/又はブロック図の1つ以上のブロックにおける特定の機能を実施するためのステップを提供する。
典型的な構成では、コンピュータデバイスは1つ以上のプロセッサ(CPU)、入/出力インターフェース、ネットワークインターフェース、及びメモリを含んでいる。
メモリは、揮発性メモリ、ランダムアクセスメモリ(RAM)、及び/又は、例えば読出し専用メモリ(ROM)又はフラッシュRAMのようなコンピュータで読取り可能な媒体内の不揮発性メモリなどを含んでよい。メモリはコンピュータで読取り可能な媒体の一例である。
コンピュータで読取り可能な媒体は、可動及び非可動媒体と同様に、不揮発性及び揮発性媒体を含み、また、任意の方法あるいは技術によって情報記憶を実行できる。情報はコンピュータで読取り可能な命令、データ構造、及び、プログラムの又はその他のデータのモジュールであってよい。コンピュータの記憶媒体は、例えば、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、その他のタイプのRAM、ROM、電気的消去再書込み可能な読出し専用メモリ(EEPROM)、フラッシュメモリ若しくはその他のメモリ技術、コンパクトディスク読取り専用メモリ(CD−ROM)、デジタル多目的ディスク(DVD)若しくはその他の光学記憶装置、カセットテープ、磁気テープ/磁気ディスク記憶装置若しくはその他の磁気記憶デバイス、又は他のあらゆる非伝送媒体を非限定的に含み、また、アクセス可能な情報を保存するために計算デバイスを使用できる。本明細書の定義によれば、コンピュータで読取り可能な媒体は、変調データ信号及び搬送波のような一時的媒体を含まない。
用語「含む」、「備える」、又はこれらの他の派生形は、非排他的な包含をカバーすることを意図し、一連の要素を含む工程、方法、商品、デバイスは、要素を含むだけでなく、明確に示されていないその他の要素をも含むか、あるいは、その工程、方法、商品、デバイスに固有な要素をさらに含む点にも留意されたい。さらなる制限をせずに、表現「〜を含む(include a/an…)」によって定義される要素は、その要素を含む工程、方法、商品、デバイスがその他の同じ要素をさらに有することを除外するものではない。
当業者は、本願の実施の形態を、方法、システム、コンピュータプログラム製品として提供できることを理解すべきである。したがって、本願は、完全なハードウェアの実施の形態、完全なソフトウェアの実施の形態、又はソフトウェアとハードウェアの組み合わせの実施の形態の形態で実施できる。さらに、本願は、1つ以上のコンピュータで使用可能な記憶媒体(磁気ディスクメモリ、CD−ROM、光学メモリなどを非限定的に含む)上で実施できるコンピュータプログラム製品(コンピュータで使用可能なプログラムコードを含む)の形態を採ることができる。
上記記載は単なる本願の実施の形態であり、本願を制限することを意図するものではない。当業者は、本願に様々な変更及び改造を行うことができる。本願の精神及び原理から逸脱せずになされるあらゆる改変、均等物との置き換え、改良等は、すべて本願の請求の範囲に包含されるべきものである。

Claims (20)

  1. データ処理方法であって:
    スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップと;
    前記ホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、前記ホットスポットのキー・バリューペアをマッピングするステップと;
    呼び出しのための最終結果のキー・バリューペアを生成するために、前記中間結果のキー・バリューペアを整理するステップと;を備え、
    前記キー・バリューペアが、属性を表すキー値と属性内容を表すキー値とを含む、
    データ処理方法。
  2. スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択する前記ステップが、具体的には、幾つかの処理すべきキー・バリューペアをホットスポットのキー・バリューペアとしてランダムに選択するステップを備える、
    請求項1に記載の方法。
  3. スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択する前記ステップが、具体的に:
    第1の数の処理すべきキー・バリューペアを候補のキー・バリューペアとしてランダムに選択するステップと;
    前記候補のキー・バリューペアの中のそれぞれのキー・バリューペアが呼び出される頻度をカウントするステップと;
    前記候補のキー・バリューペアを前記頻度に応じて並べるステップと;
    降順の呼び出し頻度に応じて第2の数のキー・バリューペアを、前記候補のキー・バリューペアの中からホットスポットのキー・バリューペアとして選択するステップと;を備え、
    前記第1の数が、前記第2の数よりも大きい、
    請求項1に記載の方法。
  4. スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択する前記ステップが:
    第1の数の処理すべきキー・バリューペアを候補のキー・バリューペアとしてランダムに選択する前記ステップの前に、候補のキー・バリューペアのサービスカテゴリ条件セットを設定するステップと;
    前記サービスカテゴリ条件セットを満たす処理すべきキー・バリューペアを選択するステップと;を更に備える、
    請求項3に記載の方法。
  5. スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択する前記ステップが、具体的に:
    前記ホットスポットのキー・バリューペアの呼び出し頻度閾値を設定するステップと;
    キー・バリューペアが呼び出される前記頻度が前記呼び出し頻度閾値より高い場合に、前記キー・バリューペアをホットスポットのキー・バリューペアとして設定するステップと;を備える、
    請求項1に記載の方法。
  6. 前記方法が、機械学習モデルを用いることにより前記スクリーニング規則を最適化するステップを更に備える、
    請求項1に記載の方法。
  7. 機械学習モデルを用いることにより前記スクリーニング規則を最適化する前記ステップが、具体的に:
    前記機械学習モデルにおいてクラスタ化アルゴリズムを用いることにより単一の属性に対する前記キー・バリューペアが呼び出される頻度の分散条件をカウントするステップと;
    単一の属性に対する前記キー・バリューペアが呼び出される頻度の前記分散条件に従い、前記キー・バリューペアが呼び出される前記頻度が予め設定された頻度閾値以上となる属性内容のキー値の間隔を選択するステップと;
    属性内容のキー値の前記間隔を前記スクリーニング規則の規則条件として設定するステップと;を備える、
    請求項6に記載の方法。
  8. 前記方法が:
    或る属性のキー・バリューペアと別の属性のキー・バリューペアとが同じサービスコードを有するサービスシステムによって呼び出される場合に、前記2つの属性の前記キー・バリューペアの属性内容のキー値の間隔の和集合を前記スクリーニング規則の規則条件として設定するステップを更に備える、
    請求項7に記載の方法。
  9. 前記方法が:
    非ホットスポットのキー・バリューペアが呼び出される場合、reduce関数を用いることにより前記非ホットスポットのキー・バリューペアを処理して呼び出しのためのデータを生成するステップを更に備える、
    請求項1に記載の方法。
  10. データ処理方法であって:
    前記処理すべきキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、処理すべきキー・バリューペアをマッピングするステップと;
    スクリーニング規則に従い、前記中間結果のキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するステップと;
    呼び出しのための最終結果のキー・バリューペアを生成するために、前記ホットスポットのキー・バリューペアを整理するステップと;を備え、
    前記キー・バリューペアが、属性を表すキー値と属性内容を表すキー値とを含む、
    データ処理方法。
  11. データ処理システムであって:
    スクリーニング規則に従い、処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュールと;
    前記ホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、前記ホットスポットのキー・バリューペアをマッピングするように構成されたマッピングモジュールと;
    呼び出しのための最終結果のキー・バリューペアを生成するために、前記中間結果のキー・バリューペアを整理するように構成された整理モジュールと;を備え、
    前記キー・バリューペアが、属性を表すキー値と数値を表すキー値とを含む、
    データ処理システム。
  12. 処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成された前記スクリーニングモジュールが、具体的には、幾つかの処理すべきキー・バリューペアをホットスポットのキー・バリューペアとしてランダムに選択するように構成された、
    請求項11に記載のシステム。
  13. 処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成された前記スクリーニングモジュールが、具体的に、
    第1の数の処理すべきキー・バリューペアを候補のキー・バリューペアとしてランダムに選択し、
    前記候補のキー・バリューペアの中のそれぞれのキー・バリューペアが呼び出される頻度をカウントし、
    前記候補のキー・バリューペアを前記頻度に応じて並べ、
    最大呼び出し頻度を有する第2の数のキー・バリューペアを、前記候補のキー・バリューペアの中からホットスポットのキー・バリューペアとして選択するように構成され、
    前記第1の数が前記第2の数よりも大きい、
    請求項11に記載のシステム。
  14. マッピングのキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成された前記スクリーニングモジュールが、具体的に、
    第1の数の処理すべきキー・バリューペアを候補のキー・バリューペアとしてランダムに選択する前記ステップの前に、候補のキー・バリューペアのサービスカテゴリ条件セットを設定し、
    前記サービスカテゴリ条件セットを満たす処理すべきキー・バリューペアを選択するように更に構成された、
    請求項13に記載のシステム。
  15. 処理すべきキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成された前記スクリーニングモジュールが、具体的に、
    前記ホットスポットのキー・バリューペアの呼び出し頻度閾値を設定し、
    キー・バリューペアが呼び出される前記頻度が前記呼び出し頻度閾値よりも高い場合に、前記キー・バリューペアをホットスポットのキー・バリューペアとして設定するように構成された、
    請求項11に記載のシステム。
  16. 前記システムが、機械学習モデルを用いることにより前記スクリーニング規則を最適化するように構成された規則最適化モジュールを更に備える、
    請求項11に記載のシステム。
  17. 前記規則最適化モジュールが、
    前記機械学習モデルにおいてクラスタ化アルゴリズムを用いることにより単一の属性に対する前記キー・バリューペアが呼び出される頻度の分散条件をカウントし、
    単一の属性に対する前記キー・バリューペアが呼び出される頻度の前記分散条件に従い、前記キー・バリューペアが呼び出される前記頻度が予め設定された頻度閾値以上となる属性内容のキー値の間隔を選択し、
    属性内容のキー値の前記間隔を前記スクリーニング規則の規則条件として設定するように構成された、
    請求項16に記載のシステム。
  18. 前記規則最適化モジュールが、
    或る属性のキー・バリューペアと別の属性のキー・バリューペアとが同じサービスコードを有するサービスシステムによって呼び出される場合に、前記2つの属性の前記キー・バリューペアの属性内容のキー値の間隔の和集合を前記スクリーニング規則の規則条件として設定するように更に構成された、
    請求項17に記載のシステム。
  19. 非ホットスポットのキー・バリューペアが呼び出される場合、前記マッピングモジュールが、前記非ホットスポットのキー・バリューペアをマッピングして前記非ホットスポットのキー・バリューペアに対応する中間結果のキー・バリューペアを得るように構成された、
    請求項18に記載のシステム。
  20. データ処理システムであって:
    処理すべきキー・バリューペアに対応する中間結果のキー・バリューペアを得るために、前記処理すべきキー・バリューペアをマッピングするように構成されたマッピングモジュールと;
    スクリーニング規則に従い、前記中間結果のキー・バリューペアの一部をホットスポットのキー・バリューペアとして選択するように構成されたスクリーニングモジュールと;
    呼び出しのための最終結果のキー・バリューペアを生成するために、前記ホットスポットのキー・バリューペアを整理するように構成された整理モジュールと;を備え、
    前記キー・バリューペアが、属性を表すキー値と属性内容を表すキー値とを含む、
    データ処理システム。
JP2017557451A 2015-05-04 2016-04-21 データ処理方法及びシステム Active JP6779231B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510222356.4A CN106202092B (zh) 2015-05-04 2015-05-04 数据处理的方法及系统
CN201510222356.4 2015-05-04
PCT/CN2016/079812 WO2016177279A1 (zh) 2015-05-04 2016-04-21 数据处理的方法及系统

Publications (3)

Publication Number Publication Date
JP2018515844A true JP2018515844A (ja) 2018-06-14
JP2018515844A5 JP2018515844A5 (ja) 2020-01-23
JP6779231B2 JP6779231B2 (ja) 2020-11-04

Family

ID=57218083

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017557451A Active JP6779231B2 (ja) 2015-05-04 2016-04-21 データ処理方法及びシステム

Country Status (9)

Country Link
US (2) US10592491B2 (ja)
EP (1) EP3293641B1 (ja)
JP (1) JP6779231B2 (ja)
KR (1) KR102134952B1 (ja)
CN (1) CN106202092B (ja)
ES (1) ES2808948T3 (ja)
PL (1) PL3293641T3 (ja)
SG (1) SG11201708917SA (ja)
WO (1) WO2016177279A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202092B (zh) 2015-05-04 2020-03-06 阿里巴巴集团控股有限公司 数据处理的方法及系统
WO2017107118A1 (en) * 2015-12-24 2017-06-29 Intel Corporation Facilitating efficient communication and data processing across clusters of computing machines in heterogeneous computing environment
CN107729353B (zh) * 2017-08-30 2020-04-07 第四范式(北京)技术有限公司 用于执行机器学习的分布式系统及其方法
US11044091B1 (en) * 2018-03-15 2021-06-22 Secure Channels Inc. System and method for securely transmitting non-pki encrypted messages
CN110347513B (zh) * 2019-07-15 2022-05-20 中国工商银行股份有限公司 热点数据批量调度方法及装置
US11804955B1 (en) 2019-09-13 2023-10-31 Chol, Inc. Method and system for modulated waveform encryption
US20220374158A1 (en) * 2019-12-20 2022-11-24 Intel Corporation Managing runtime apparatus for tiered object memory placement
CN116432903B (zh) * 2023-04-01 2024-06-11 国网新疆电力有限公司电力科学研究院 一种通信仿真数据管理系统
CN116346827B (zh) * 2023-05-30 2023-08-11 中国地质大学(北京) 一种面向倾斜数据流的实时分组方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010092222A (ja) * 2008-10-07 2010-04-22 Internatl Business Mach Corp <Ibm> 更新頻度に基づくキャッシュ機構
JP2012511784A (ja) * 2008-12-12 2012-05-24 アマゾン テクノロジーズ インコーポレイテッド プログラム実行状態の保存
JP2012160013A (ja) * 2011-01-31 2012-08-23 Nippon Telegr & Teleph Corp <Ntt> データ分析及び機械学習処理装置及び方法及びプログラム
JP2012247979A (ja) * 2011-05-27 2012-12-13 Fujitsu Ltd 処理プログラム、処理方法及び処理装置
JP2013508873A (ja) * 2009-10-27 2013-03-07 エグザリード 情報ストリームの情報を処理する方法およびシステム
WO2013051131A1 (ja) * 2011-10-06 2013-04-11 富士通株式会社 データ処理方法、分散処理システムおよびプログラム
JP2013140510A (ja) * 2012-01-05 2013-07-18 Fujitsu Ltd データ処理方法、分散処理システムおよびプログラム
WO2013153620A1 (ja) * 2012-04-10 2013-10-17 株式会社日立製作所 データ処理システム及びデータ処理方法
WO2014020735A1 (ja) * 2012-08-02 2014-02-06 富士通株式会社 データ処理方法、情報処理装置およびプログラム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756919B1 (en) * 2004-06-18 2010-07-13 Google Inc. Large-scale data processing in a distributed and parallel processing enviornment
US8726290B2 (en) * 2008-06-12 2014-05-13 Yahoo! Inc. System and/or method for balancing allocation of data among reduce processes by reallocation
CN101645067A (zh) 2008-08-05 2010-02-10 北京大学 一种讨论区集合中热点讨论区的预测方法
CN102141995B (zh) * 2010-01-29 2013-06-12 国际商业机器公司 简化并行计算系统中的传输的系统与方法
CN102236581B (zh) * 2010-04-30 2013-08-14 国际商业机器公司 用于数据中心的映射化简方法和系统
CN102314336B (zh) * 2010-07-05 2016-04-13 深圳市腾讯计算机系统有限公司 一种数据处理方法和系统
CN102456031B (zh) * 2010-10-26 2016-08-31 腾讯科技(深圳)有限公司 一种MapReduce系统和处理数据流的方法
US20120304186A1 (en) * 2011-05-26 2012-11-29 International Business Machines Corporation Scheduling Mapreduce Jobs in the Presence of Priority Classes
CN103019614B (zh) 2011-09-23 2015-11-25 阿里巴巴集团控股有限公司 分布式存储系统管理装置及方法
CN102388374A (zh) * 2011-09-28 2012-03-21 华为技术有限公司 存储数据的方法和装置
TWI461929B (zh) 2011-12-09 2014-11-21 Promise Tecnnology Inc 雲端數據儲存系統
US9367601B2 (en) * 2012-03-26 2016-06-14 Duke University Cost-based optimization of configuration parameters and cluster sizing for hadoop
TWI610166B (zh) 2012-06-04 2018-01-01 飛康國際網路科技股份有限公司 自動災難復原和資料遷移系統及方法
WO2014117295A1 (en) 2013-01-31 2014-08-07 Hewlett-Packard Development Company, L.P. Performing an index operation in a mapreduce environment
CN104077297B (zh) * 2013-03-27 2017-05-17 日电(中国)有限公司 基于本体的查询方法及装置
CN104142950A (zh) 2013-05-10 2014-11-12 中国人民大学 基于关键词提取和基尼系数的微博用户分类方法
US9424274B2 (en) * 2013-06-03 2016-08-23 Zettaset, Inc. Management of intermediate data spills during the shuffle phase of a map-reduce job
IN2013MU02918A (ja) * 2013-09-10 2015-07-03 Tata Consultancy Services Ltd
CN103838844B (zh) * 2014-03-03 2018-01-19 珠海市君天电子科技有限公司 一种键值对数据存储、传输方法及装置
CN103995882B (zh) 2014-05-28 2017-07-07 南京大学 基于MapReduce的概率频繁项集挖掘方法
CN104331464A (zh) * 2014-10-31 2015-02-04 许继电气股份有限公司 一种基于MapReduce的监控数据优先预取处理方法
CN104536830A (zh) 2015-01-09 2015-04-22 哈尔滨工程大学 一种基于MapReduce的KNN文本分类方法
CN106202092B (zh) 2015-05-04 2020-03-06 阿里巴巴集团控股有限公司 数据处理的方法及系统
CN107193500A (zh) 2017-05-26 2017-09-22 郑州云海信息技术有限公司 一种分布式文件系统分层存储方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010092222A (ja) * 2008-10-07 2010-04-22 Internatl Business Mach Corp <Ibm> 更新頻度に基づくキャッシュ機構
JP2012511784A (ja) * 2008-12-12 2012-05-24 アマゾン テクノロジーズ インコーポレイテッド プログラム実行状態の保存
JP2013508873A (ja) * 2009-10-27 2013-03-07 エグザリード 情報ストリームの情報を処理する方法およびシステム
JP2012160013A (ja) * 2011-01-31 2012-08-23 Nippon Telegr & Teleph Corp <Ntt> データ分析及び機械学習処理装置及び方法及びプログラム
JP2012247979A (ja) * 2011-05-27 2012-12-13 Fujitsu Ltd 処理プログラム、処理方法及び処理装置
WO2013051131A1 (ja) * 2011-10-06 2013-04-11 富士通株式会社 データ処理方法、分散処理システムおよびプログラム
JP2013140510A (ja) * 2012-01-05 2013-07-18 Fujitsu Ltd データ処理方法、分散処理システムおよびプログラム
WO2013153620A1 (ja) * 2012-04-10 2013-10-17 株式会社日立製作所 データ処理システム及びデータ処理方法
WO2014020735A1 (ja) * 2012-08-02 2014-02-06 富士通株式会社 データ処理方法、情報処理装置およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中田秀基,井上辰彦,小川宏高,工藤知宏: "PrefixSpan法のMapReduce実装の改良", 電子情報通信学会技術研究報告, vol. Vol.112,No.237,(CPSY2012-31〜46), JPN6020019313, 5 October 2012 (2012-10-05), JP, pages 55 - 60, ISSN: 0004282106 *

Also Published As

Publication number Publication date
EP3293641A1 (en) 2018-03-14
PL3293641T3 (pl) 2021-02-08
SG11201708917SA (en) 2017-11-29
ES2808948T3 (es) 2021-03-02
US20180046658A1 (en) 2018-02-15
JP6779231B2 (ja) 2020-11-04
CN106202092A (zh) 2016-12-07
US10872070B2 (en) 2020-12-22
US10592491B2 (en) 2020-03-17
EP3293641A4 (en) 2018-10-17
WO2016177279A1 (zh) 2016-11-10
CN106202092B (zh) 2020-03-06
KR102134952B1 (ko) 2020-07-17
KR20180002758A (ko) 2018-01-08
US20200192882A1 (en) 2020-06-18
EP3293641B1 (en) 2020-06-17

Similar Documents

Publication Publication Date Title
JP6779231B2 (ja) データ処理方法及びシステム
AU2017202873B2 (en) Efficient query processing using histograms in a columnar database
US10922316B2 (en) Using computing resources to perform database queries according to a dynamically determined query size
US20160078361A1 (en) Optimized training of linear machine learning models
US20150370881A1 (en) Dynamic n-dimensional cubes for hosted analytics
US10356150B1 (en) Automated repartitioning of streaming data
CN103970604A (zh) 基于MapReduce架构实现图处理的方法和装置
CN111722806A (zh) 云盘分配方法、装置、电子设备及存储介质
CN111813805A (zh) 一种数据处理方法及装置
CN110019298B (zh) 数据处理方法和装置
US10747764B1 (en) Index-based replica scale-out
Jiang et al. Parallel K-Medoids clustering algorithm based on Hadoop
WO2015196176A1 (en) Dynamic n-dimensional cubes for hosted analytics
WO2019179252A1 (zh) 一种样本回放数据存取方法及装置
US20220004895A1 (en) Throughput based sizing for hive deployment
CN113656046A (zh) 一种应用部署方法和装置
Shabeera et al. A novel approach for improving data locality of mapreduce applications in cloud environment through intelligent data placement
US11126623B1 (en) Index-based replica scale-out
CN112148461A (zh) 应用的调度方法、装置
CN111737190A (zh) 嵌入式系统的动态软硬件协同方法、嵌入式系统
CN112579246A (zh) 虚拟机迁移处理方法及装置
CN113132445A (zh) 资源调度方法、设备、网络系统及存储介质
Mao et al. FiGMR: A fine-grained mapreduce scheduler in the heterogeneous cloud
US11954531B2 (en) Use of relational databases in ephemeral computing nodes
US11914593B2 (en) Generate digital signature of a query execution plan using similarity hashing

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190422

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191205

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20191205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200324

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200529

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20200605

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200923

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201013

R150 Certificate of patent or registration of utility model

Ref document number: 6779231

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250