JP2020522814A - オンライン分析処理を行うためのデータ処理方法及び装置 - Google Patents

オンライン分析処理を行うためのデータ処理方法及び装置 Download PDF

Info

Publication number
JP2020522814A
JP2020522814A JP2019566813A JP2019566813A JP2020522814A JP 2020522814 A JP2020522814 A JP 2020522814A JP 2019566813 A JP2019566813 A JP 2019566813A JP 2019566813 A JP2019566813 A JP 2019566813A JP 2020522814 A JP2020522814 A JP 2020522814A
Authority
JP
Japan
Prior art keywords
data
partition
incremental
existing
partitions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019566813A
Other languages
English (en)
Other versions
JP6928677B2 (ja
Inventor
敏 謝
敏 謝
炎 譚
炎 譚
Original Assignee
ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド
ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド, ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド filed Critical ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド
Publication of JP2020522814A publication Critical patent/JP2020522814A/ja
Application granted granted Critical
Publication of JP6928677B2 publication Critical patent/JP6928677B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Automatic Analysis And Handling Materials Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本発明は、オンライン分析処理を行うためのデータ処理方法及び装置を開示し、データ処理の技術分野に属する。当該方法は、選定されたパーティションフィールドによって、オンライン分析処理システムにおける増分データに対してパーティション分割を行って、複数の増分データパーティションを取得するステップと、パーティションフィールドによって、オンライン分析処理システムにおける既存データに対してパーティション分割を行って、複数の既存データパーティションを取得するステップと、同一のパーティションラベルを有する前記増分データパーティションにおけるデータと前記既存データパーティションにおけるデータを集計するステップと、を含む。本発明の実施例は、データ量が膨大な業務データが頻繁に変化する場合においてデータを速やかに集計して、データ集計にかかる不必要な計算量の削減を実現する。

Description

本願は、2018年2月26日に提出された出願番号がNo.201810160009.7である中国出願の優先権を主張し、参照によりそのすべての内容を本明細書に組み込む。
本発明はデータ処理の技術分野に関し、具体的には、オンライン分析処理を行うためのデータ処理方法及び装置に関する。
今日のインターネットには膨大なデータが含まれている。ワイヤレスネットワークの急速な成長、端末デバイスの普及、保険ビジネスのオンライン化などによって、ユーザが保険に対してより便利に照会、加入、内容編集を行うことができるようになった。しかしながら、データ、ユーザ、保険商品に対する分析及び意思決定をより便利に行うためにデータ記憶の電子化が推進されるにつれて、保険データの内容及びデータ量の規模がますます大きくなってきた。
オンライン保険ビジネスデータは主に業務データベースに記憶されている。新規作成、変更、編集、削除などの迅速な操作に適合するために、すなわち、業務の迅速な応答をサポートするために、オンラインデータベースは主にOLTP(On−Line Transaction Processing)モードが用いられている。
データの価値を最大限に発揮させるために、データ分析者、営業担当者、意思決定者は、このような膨大な保険データを分析して、ユーザの特徴、顧客グループの特徴、保険ビジネスの特徴を発見することによって、データ運営及び意思決定のためにデータの根拠を提供する。このようなデータ分析モードにおいては、OLAP(オンライン分析処理システム、On−Line Analytical Processing)の方式によってデータに対する迅速且つ多次元の分析及びクエリを実現している。
オンライン事務データとオフライン分析データには使用上の区別が存在するため、データはOLTPモードからOLAPモードに移行する必要がある。従来のデータ処理方式においては、保険証券の番号IDやユーザなどの情報に基づいて種類が異なる様々なデータを集計してから、OLAPによるデータの多次元分析を行う。
従来のインターネットデータ集計手段では、データの多次元分析を行う前に、日ごとに、週ごとに又は月ごとに一度、データに対して一括処理のみを実施している。しかしながら、このような手段は、膨大なデータ量を有する保険データに不向きである。従来のデータとは異なり、保険金融データは、一定時間ごとにデータを変更し、さらに当該データ変更をOLAPのデータ倉庫に反映する必要がある。つまり、バックトラッキングによってデータの変化と元々データ倉庫にあるデータとに対してユニオン処理、マージ処理を行う必要がある。そのため、変化したデータ量が大きい場合に一括処理の方式を採用すると、不必要な計算リソースが大量に消費されてしまう。
以上に鑑みて、本発明は、オンライン分析処理を行うためのデータ処理方法及び装置を提供することによって、データ量が膨大な業務データが頻繁に変化する場合においてデータを速やかに集計して、データ集計にかかる不必要な計算量を削減することを実現する。前記技術案は以下の通りである。
第1の態様は、オンライン分析処理を行うためのデータ処理方法を提供する。前記方法は、
選定されたパーティションフィールドによって、オンライン分析処理システムにおける増分データに対してパーティション分割を行って、複数の増分データパーティションを取得するステップと、
前記パーティションフィールドによって、前記オンライン分析処理システムにおける既存データに対してパーティション分割を行って、複数の既存データパーティションを取得するステップと、
同一のパーティションラベルを有する前記増分データパーティションにおけるデータと前記既存データパーティションにおけるデータとを集計するステップと、を含む。
第1の態様に基づいて、第1の可能な実施形態において、同一のパーティションラベルを有する前記増分データパーティションにおけるデータと前記既存データパーティションにおけるデータとを集計する前記ステップは、
各前記増分データパーティションにおけるデータと、それに対応する前記既存データパーティションにおけるデータとに対して、ユニオン操作及び/又はマージ操作を行うステップを含む。
第1の態様における第1の可能な実施形態に基づいて、第2の可能な実施形態において、前記方法は、
前記複数の既存データパーティションのデータインデックスを構築するステップと、前記複数の既存データパーティションのデータインデックスに基づいて、各前記増分データパーティションにおけるデータと、対応する前記既存データパーティションにおけるデータとに対して、ユニオン操作及び/又はマージ操作を行うステップと、を更に含む。
第1の態様乃至第1の態様における第2の可能な実施形態のいずれか1種類に基づいて、第3の可能な実施形態において、前記パーティションフィールドは時間フィールド、業務フィールド及びカスタマイズフィールドのうちの1つ又は複数の組合せを含む。
第1の態様における第2の可能な実施形態に基づいて、第4の可能な実施形態において、前記複数の既存データパーティションのデータインデックスを構築する前記ステップは、
二分木又はハッシュテーブルによって前記データインデックスを構築するステップを含む。
第1の態様における第2の可能な実施形態に基づいて、第5の可能な実施形態において、前記複数の既存データパーティションのデータインデックスに基づいて、各前記増分データパーティションにおけるデータと、対応する前記既存データパーティションにおけるデータに対して、ユニオン操作及び/又はマージ操作を行う前記ステップは、
各前記増分データパーティションにおけるデータに対して、前記データインデックスに基づいて、各前記増分データパーティションに対応する前記既存データパーティションにおいてクエリを行うステップと、
クエリが成功した場合、当該増分データパーティションにおけるデータと、当該データに関連する前記既存データパーティションにおけるデータに対してユニオン操作を行うステップと、を含む。
第1の態様における第2又は第1の態様における第5の可能な実施形態に基づいて、第6の可能な実施形態において、前記複数の既存データパーティションのデータインデックスに基づいて、各前記増分データパーティションにおけるデータと、対応する前記既存データパーティションにおけるデータに対して、ユニオン操作及び/又はマージ操作を行う前記ステップは、
各前記増分データパーティションにおけるデータに対して、前記データインデックスに基づいて、各前記増分データパーティションに対応する前記既存データパーティションにおいてクエリを行うステップと、
クエリが失敗した場合、当該増分データパーティションにおけるデータと、当該データに関連する前記既存データパーティションにおけるデータに対して、マージ操作を行うステップと、を含む。
第1の態様乃至第1の態様における第6のいずれか1種類の可能な実施形態に基づいて、第7の可能な実施形態において、前記同一のパーティションラベルを有する前記増分データパーティションにおけるデータと、前記既存データパーティションにおけるデータを集計する前記ステップの後、前記方法は、
変換及びロードを行うことによって、集計されたデータを所定位置にアウトプットして、前記オンライン分析処理システムによるデータ分析を行うステップ、及び/又は、
データ更新済みを示す提示情報を下流のデータ処理ユニットに出力するステップを含む。
第2の態様は、オンライン分析処理を行うためのデータ処理装置を提供する。前記装置は、
選定されたパーティションフィールドによってオンライン分析処理システムにおける増分データに対してパーティション分割を行って、複数の増分データパーティションを取得するとともに、前記パーティションフィールドによって前記オンライン分析処理システムにおける既存データに対してパーティション分割を行って、複数の既存データパーティションを取得するパーティション分割モジュールと、
同一のパーティションラベルを有する前記増分データパーティションにおけるデータと前記既存データパーティションにおけるデータとを集計するデータ処理モジュールと、を備える。
第2の態様に基づいて、第1の可能な実施形態において、前記データ処理モジュールはさらに、各前記増分データパーティションにおけるデータと、それに対応する前記既存データパーティションにおけるデータとに対して、ユニオン操作及び/又はマージ操作を行う。
第2の態様における第1の可能な実施形態に基づいて、第2の可能な実施形態において、前記装置は、前記複数の既存データパーティションのデータインデックスを構築するデータインデックス構築モジュールを更に備える。前記データ処理モジュールは、前記複数の既存データパーティションのデータインデックスに基づいて、各前記増分データパーティションにおけるデータと、対応する前記既存データパーティションにおけるデータとに対して、ユニオン操作及び/又はマージ操作を行う。
第2の態様乃至第2の態様における第2の可能な実施形態のいずれか1種類に基づいて、第3の可能な実施形態において、前記パーティションフィールドは時間フィールド、業務フィールド及びカスタマイズフィールドのうちの1つ又は複数の組合せを含む。
第2の態様における第2の可能な実施形態に基づいて、第4の可能な実施形態において、前記データインデックス構築モジュールは、具体的に、二分木又はハッシュテーブルによって前記データインデックスを構築する。
第2の態様における第2の可能な実施形態に基づいて、第5の可能な実施形態において、前記データ処理モジュールは、
各前記増分データパーティションにおけるデータに対して、前記データインデックスに基づいて、各前記増分データパーティションに対応する前記既存データパーティションにおいてクエリを行うクエリサブモジュールと、
前記クエリサブモジュールによるクエリが成功した場合、前記増分データパーティションにおけるデータと、当該データに関連する前記既存データパーティションにおけるデータとに対して、ユニオン操作を行うユニオン操作サブモジュールと、を備える。
第2の態様における第5の可能な実施形態に基づいて、第6の可能な実施形態において、前記データ処理モジュールは、
前記クエリサブモジュールによるクエリが失敗した場合、当該増分データパーティションにおけるデータと、当該データに関連する前記既存データパーティションにおけるデータとに対して、マージ操作を行うマージ操作サブモジュールを更に備える。
第2の態様乃至第2の態様における第6のいずれか1種類の可能な実施形態に基づいて、第7の可能な実施形態において、前記装置は、
変換及びロードを行うことによって、集計されたデータを所定位置に導出して、前記オンライン分析処理システムによるデータ分析を行うデータ導出モジュールを更に備える。
第2の態様乃至第2の態様における第7の可能な実施形態のいずれか1種類に基づいて、8種類目の可能な実施形態において、前記装置は、
集計が終了した後、データの更新済みを示す提示情報を下流のデータ処理ユニットに出力する情報出力モジュールを更に備える。
本発明の実施例は、オンライン分析処理を行うためのデータ処理方法及び装置を提供し、オンライン分析処理システムにおける増分データ及び既存データのそれぞれに対してパーティション分割を行うことによって、同一のパーティションラベルを有する前記増分データパーティションにおけるデータと前記既存データパーティションにおけるデータとを集計する。その結果、データ集計処理プロセスが迅速になるとともに、データ全体に対する不必要な操作を省略し、データ計算量を大幅に削減することができる。また、データに対する迅速な集計を実現することによって、営業担当者が全次元の保険データに基づいてデータ及び業務データの展開を行うことができるように協力する。
本発明の実施例に係る技術案をより明確に説明するために、以下、実施例の説明において必要となる図面について簡単な説明を行う。明らかに、以下の図面は本発明の一部の実施例に過ぎず、当業者であれば、これらの図面に基づいて、創造的な労働をせずに他の図面を取得することができる。
本発明の実施例により提供されるオンライン分析処理を行うためのデータ処理方法のフローチャートである。 本発明の実施例により提供されるオンライン分析処理を行うためのデータ処理方法のフローチャートである。 本発明の実施例により提供されるデータパーティションの結果、及び、パーティションにおけるデータインデックスの構築結果である。 本発明の実施例により提供されるオンライン分析処理を行うためのデータ処理装置のダイアグラムである。
本発明の目的、技術案及び長所をより明確にするために、以下、本発明の実施例による図面を参照しながら、本発明の実施例に係る技術案について明確且つ完全な説明を行う。明らかに、説明する実施例は本発明の一部の実施例に過ぎず、すべての実施例ではない。本発明における実施例に基づいて、当業者により創造的な労働をせずに得られる他の実施例は、すべて本発明の保護範囲に属する。
本発明の実施例は、オンライン分析処理を行うためのデータ処理方法を提供する。当該方法は、データ量が膨大な保険データが頻繁に変化する場合において、データを速やかに集計して、データ集計にかかる不必要な計算量を削減することを実現することができる。なお、本発明の実施例に係る方法は、他のデータ量が膨大な業務データにも応用することができ、本発明は具体的な応用シーンについて限定しない。
図1は、本発明の実施例に基づいて示されるオンライン分析処理を行うためのデータ処理方法のフローチャートである。図1に示すように、当該方法は以下のステップを含む。
101:選定されたパーティションフィールドによって、オンライン分析処理システムにおける増分データに対してパーティション分割を行って、複数の増分データパーティションを取得する。
102:パーティションフィールドによって、オンライン分析処理システムにおける既存データに対してパーティション分割を行って、複数の既存データパーティションを取得する。
103:同一のパーティションラベルを有する前記増分データパーティションにおけるデータと、前記既存データパーティションにおけるデータとを集計する。
図2は、本発明の実施例に基づいて示されるオンライン分析処理を行うためのデータ処理方法のフローチャートである。図1に示すように、当該方法は以下のステップを含む。
201:選定されたパーティションフィールドによって、オンライン分析処理システムにおける増分データに対してパーティション分割を行って、複数の増分データパーティションを取得する。
通常、増分データと既存データとをユニオンする場合には同一のデータ種類、例えば、取引ID、一意のIDなどの情報を用いており、同時に、既存データの変化は時間の経過とともに少なくなるため、増分データ及び既存データに対してパーティション分割を行うとき、データが形成された後に変化が発生しないフィールドをパーティションフィールドとして選定することができる。ここで、選定されたパーティションフィールドは時間フィールド、業務フィールド及びカスタマイズフィールドのうちの1つ又は複数の組合せを含んでもよい。時間フィールドは取引データの形成時間であってもよく、業務フィールドはチャンネル、地域などのフィールドであってもよい。
具体的に、当該プロセスは、
オンライン分析処理システムに新規入力される増分データに対して、データのクリーニング、変換を含むETL処理を行うことによって、増分データをオンライン分析処理に相応しい記憶形式に変換するステップと、
データが形成された後に変化が発生しないフィールドをパーティションフィールドとして選定し、ETL処理された増分データに対してパーティションフィールドによってパーティション分割を行って、複数の互いに異なる増分データパーティションを取得するステップと、を含んでもよい。
また、増分データ及び既存データに対してパーティション分割を行うとき、データパーティションを抽象化することによって、より多くのパーティション方式の選択をサポートすることができる。例えば、時間フィールドをパーティションフィールドとする場合、時間パーティションを抽象化してから、データミッションの周期的な処理方式によって、それぞれをより細分化したパーティション組織に調整することができる。つまり、データの周期的な処理方式が年、月、週、日を単位とするものであれば、それに対応するデータパーティション方式も年、月、週、日によってパーティションを行うことである。
さらに、増分データ及び既存データに対してパーティション分割を行うとき、より粒度が細かいパーティション方式を追加して、業務における実際のニーズによって細粒度のパーティションフィールドをマージすることができる。例えば、実際の業務においてチャンネルと地域それぞれに対応する取引データが重ならない場合、時間フィールド+業務フィールド[チャンネル、地域]をパーティションフィールドとして増分データ及び既存データのそれぞれに対してパーティション分割を行うことができる。
202:パーティションフィールドによって、オンライン分析処理システムにおける既存データに対してパーティション分割を行って、複数の既存データパーティションを取得するとともに、複数の既存データパーティションのデータインデックスを構築する。
ここで、横方向における拡張をより速やかに実現するために、既存データをビッグデータのプラットフォームによって記憶してもよく、例えば、Hadoopによってビッグデータを記憶する。
ここで、増分データに対するパーティション分割と同一のパーティションフィールドを用いて既存データに対してパーティション分割を行って、複数の既存データパーティションを取得する。
ここで、複数の既存データパーティションのデータインデックスを構築するプロセスは、以下の内容を含んでもよい。
二分木を用いて各既存データパーティションのデータインデックステーブルを構築する。なお、当該データインデックステーブルは二分木データ構造を有し、データインデックステーブルにはデータラベルと既存データとの写像関係が含まれる。
二分木は特別な木構造であり、二分木においていずれのノードも最大で2つの子ノードを有し、一般的には左の子ノードと右の子ノードと称される。また、二分木の子は左と右に分けられており、順番は任意に逆転することができない。二分木は再帰的に定義される。
そのほか、ハッシュテーブル(hash)の方式によって複数の既存データパーティションのデータインデックスを構築してもよい。
本発明の実施例は、データインデックスの具体的な構築プロセスについて制限しない。
本発明の実施例において、Hbaseの索引方式によってデータの位置推定及びアップデート操作を行ってもよく、Mysqlデータベースによってインデックスの構築及びアップデートを行ってもよく、levelDBなどの小規模のローカルファイルデータベースによってインデックスの構築とデータのアップデートを行ってもよい。
203:同一のパーティションラベルの有無によって、複数の増分データパーティションと複数の既存データパーティションとの対応関係を確立する。
ここで、複数の増分データパーティションと複数の既存データパーティションは、それぞれのパーティションラベルを有する。
具体的に、本発明の実施例は具体的な構築プロセスについて制限しない。
図3は、本発明の実施例によるデータパーティションの結果と、パーティションにおけるデータインデックスの構築結果とを示す。図3では、形成時間をパーティションフィールドとして、オンライン分析処理システムにおける増分データ及び既存データのそれぞれに対してパーティション分割を行って、互いに異なる複数の増分データパーティション及び互いに異なる複数の既存データパーティションを取得する。ここで、複数の増分データパーティションと複数の既存データパーティションは、いずれも{day}、{day−1}、・・・{day−n}、{day−n−1}・・・.を含むため、同一のパーティションラベルを有する増分データパーティション及び既存データパーティションに対して対応関係を確立することができる。また、図3からわかるように、既存データの各パーティションにおけるデータインデックスと各パーティションとは一対一に対応する。
本発明の実施例においては、同一のパーティションラベルの有無に基づいて複数の増分データパーティションと複数の既存データパーティションとの対応関係を確立することによって、同一のパーティションにおけるデータに対するユニオン、マージ処理を可能にするとともに、データを集計するための無駄な試行を減少して、データの集計にかかる不必要な計算量を削減することができる。
204:複数の既存データパーティションのデータインデックスに基づいて、各増分データパーティションにおけるデータと、対応する既存データパーティションにおけるデータとに対して、ユニオン操作及び/又はマージ操作を行う。
具体的に、当該プロセスは以下の内容を含んでもよい。
a.各増分データパーティションにおけるデータに対して、データインデックスに基づいて、各増分データパーティションに対応する既存データパーティションにおいてクエリを行う。
具体的に、当該プロセスは以下の内容を含んでもよい。
各増分データパーティションにおけるデータのデータラベルを確認し、データインデックステーブルにおいて当該データラベルに対するクエリを行う。当該データラベルがデータインデックステーブルに存在する場合、データインデックステーブルにおいて当該データラベルに対応する既存データを特定する。
b.クエリが成功した場合、増分データと、それに関連する既存データとに対してユニオン操作を行うが、クエリが失敗した場合、増分データに対してマージ操作を行う。
例えば、ユーザuser1が2017−10−10の日に取引データを生成する場合、対応する取引データIDはID_user1であり、形成時間は2017−10−10である。当該取引データを既存データとしてオンライン分析処理システムのデータ倉庫に記憶し、時間フィールドによって当該既存データに対してパーティションを行うと、当該既存データは2017−10−10パーティションに入ることになる。ユーザuser1が業務上の必要によって2017−12−15に取引データID_user1を変更する場合、変更する内容は取引データID以外の任意のデータ、例えば、連絡先、増加した身分情報などである。このときの取引データは、増分データとしてオンライン分析処理システムに入力される。時間フィールドによって当該増分データに対してパーティションを行うと、当該増分データは2017−10−10パーティションに入ることになる。明らかに、取引データID_user1は、2017−10−10パーティションにおいてクエリされることができる。よって、データに対してユニオン処理を行うことは、すなわち、データが変更された2017−10−10パーティションと、履歴の既存データである2017−10−10パーティションと、それぞれのデータに対してユニオン操作を行うことになる。具体的なユニオン操作は、取引データIDによって処理を行うことである。ここで、取引データIDはID_user1のID値であり、変更した連絡先や増加した身分情報をデータのユニオン処理によって履歴データに記憶する。
選択的に、ステップ204の後、本発明の実施例による方法は、
変換及びロードを行うことによって、ユニオン操作及び/又はマージ操作が行われた後のデータを所定位置に導出して、前記オンライン分析処理システムによるデータ分析を行うステップと、及び/又は、
データ更新済みを示す提示情報を下流のデータ処理ユニットに出力するステップと、を更に含む。
本発明の実施例により提供されるオンライン分析処理を行うためのデータ処理方法は、実際の応用においてOLAPに対してデータ処理を行う場合、データに対するパーティション整理については、形成時間に基づいてデータに対してパーティション整理を行うような一般的なパーティション整理方式を採用することができる。既存データについては、記憶手段としてHBaseを用いて、rowkeyの方式によってインデックスにおいてソート検索を行うことができるので、データの位置を速やかに把握することができる。また、HiveはSQLライクであり、複数のクエリエンジンがサポートできるという特徴を有するため、Hiveを履歴データ全体の基本メモリとして用いると、Hiveに基づいてより便利且つ迅速に多次元OLAP分析を行うことができる。さらに、バッチデータの更新ごとに、パーティションごとの処理を行う。各パーティションに対して処理を行うときには、更新されるデータに対してrowkeyによって位置特定と読取りを行い、データの更新を行うとともに、データをHBaseに再び書き込む。最後に、変化したデータをパーティションデータからHiveに直接導出すればよい。導出操作においてはデータの更新マージ操作が不要であるため、速やかな実行が可能である。
本発明の実施例により提供されるオンライン分析処理を行うためのデータ処理方法は、オンライン分析処理システムにおける増分データ及び既存データのそれぞれに対してパーティション分割を行い、パーティションにおいてデータインデックスを構築し、さらに同一のパーティションにおいてデータのユニオンとマージ処理を行う。データの検索と対象データの更新をインデックスによって行うため、更新される必要があるデータのみを検索及び更新すればよいので、データのユニオンとマージ処理のプロセスを速やかに行うことができるようになるとともに、データ全体に対して不必要な操作を実施することを回避して、データの計算量を大幅に削減することができる。また、本発明の実施例はデータに対する迅速なユニオン操作を実現することによって、営業担当者が完全な次元を有する保険データに基づいてデータ及び業務の展開を行うことができるように協力する。本発明の実施例による方法は、保険金融データについてのシーンにおいて非常に有利であり、特に保険の場合、形成データが多く変化が頻繁に発生するため、データに対する迅速なユニオンとマージ操作の利点はより明らかである。
図4は、本発明の実施例により提供されるオンライン分析処理を行うためのデータ処理装置のダイアグラムである。図4に示すように、当該装置3は、
選定されたパーティションフィールドによってオンライン分析処理システムにおける増分データに対してパーティション分割を行って、複数の増分データパーティションを取得するとともに、パーティションフィールドによってオンライン分析処理システムにおける既存データに対してパーティション分割を行って、複数の既存データパーティションを取得するパーティション分割モジュール31と、
複数の既存データパーティションのデータインデックスを構築するデータインデックス構築モジュール32と、
同一のパーティションラベルの有無によって、複数の増分データパーティションと複数の既存データパーティションとの対応関係を確立する対応関係確立モジュール33と、
複数の既存データパーティションのデータインデックスに基づいて、各増分データパーティションにおけるデータと、対応する既存データパーティションにおけるデータとに対して、ユニオン操作及び/又はマージ操作を行うデータ処理モジュール34と、を備える。
選択的に、パーティションフィールドは時間フィールド、業務フィールド及びカスタマイズフィールドのうちの1つ又は複数の組合せを含む。
選択的に、データインデックス構築モジュール32は、具体的に、二分木又はハッシュテーブルによってデータインデックスを構築する。
選択的に、データ処理モジュール34は、
各増分データパーティションにおけるデータに対して、データインデックスに基づいて、各増分データパーティションに対応する既存データパーティションにおいてクエリを行うクエリサブモジュール341と、
クエリサブモジュール341によるクエリが成功した場合、増分データと、増分データに関連する既存データとに対してユニオン操作を行うユニオン操作サブモジュール342と、
クエリサブモジュール342によるクエリが失敗した場合、増分データに対してマージ操作を行うマージ操作サブモジュール343と、を備える。
選択的に、装置3は、
変換及びロードを行うことによって、ユニオン操作及び/又はマージ操作が行われた後のデータを所定位置に導出して、オンライン分析処理システムによるデータ分析を行うデータ導出モジュール35と、
データ更新済みを示す提示情報を下流のデータ処理ユニットに出力する情報出力モジュール36と、を更に備える。
本発明の実施例は、オンライン分析処理を行うためのデータ処理装置を提供する。当該装置は、オンライン分析処理システムにおける増分データ及び既存データのそれぞれに対してパーティション分割を行い、パーティションにおいてデータインデックスを構築し、さらに同一のパーティションにおいてデータのユニオンとマージ処理を行う。データの検索と対象データの更新をインデックスによって行うため、更新される必要があるデータのみを検索及び更新すればよいのでデータのユニオンとマージ処理のプロセスが速やかに行われることができるようになるとともに、データ全体に対して不必要な操作を実施することを回避して、データの計算量を大幅に削減することができる。また、本発明の実施例はデータに対する迅速なユニオン操作を実現することによって、営業担当者が完全な次元を有する保険データに基づいてデータ及び業務の展開を行うことができるように協力する。本発明の実施例による方法は、保険金融データについてのシーンにおいて非常に有利であり、特に保険の場合、形成データが多く変化が頻繁に発生するため、データに対する迅速なユニオンとマージ操作の利点はより明らかである。
上述のすべての選択的な技術案は、任意の組み合わせによって本発明の選択的な実施例を構成することができ、ここでは詳しい説明を省略する。
なお、上述の実施例により提供されるオンライン分析処理を行うためのデータ処理装置がオンライン分析処理を行うためのデータ処理方法を実行するシーンについて、ここでは上述の各機能モジュールの分け方を例として説明したが、実際の応用においては、必要に応じて異なる機能モジュールに上述の機能を配分して実行することもできる。つまり、デバイスの内部構造を異なる機能モジュールに区切って、上述のすべて又は一部の機能を遂行する。また、上述の実施例により提供されるオンライン分析処理を行うためのデータ処理装置と、オンライン分析処理を行うためのデータ処理方法の実施例とは、同一の発明思想に属するため、その具体的な実現プロセスについては、方法の実施例を参照すればよく、ここでは説明を省略する。
当業者であれば理解できる通り、上述の実施例によるすべて又は一部のステップは、ハードウェアによって実行してもよく、プログラムを用いて関連のハードウェアに命令を出して実行させてもよい。前記プログラムは、コンピュータ読取可能な記憶媒体に記憶されていてもよい。前記記憶媒体は、リードオンリーメモリ、磁気ディスク又はコンパクトディスクなどであってもよい。
以上の内容は、本発明の好ましい実施例に過ぎず、本発明を制限するためのものではない。本発明の精神と原則の範囲内で行われる任意の変更、同等な置換、更新などは、すべて本発明の保護範囲に属するべきである。

Claims (17)

  1. オンライン分析処理を行うためのデータ処理方法であって、
    選定されたパーティションフィールドによって、オンライン分析処理システムにおける増分データに対してパーティション分割を行って、複数の増分データパーティションを取得するステップと、
    前記パーティションフィールドによって、前記オンライン分析処理システムにおける既存データに対してパーティション分割を行って、複数の既存データパーティションを取得するステップと、
    同一のパーティションラベルを有する前記増分データパーティションにおけるデータと前記既存データパーティションにおけるデータとを集計するステップと、を含む
    ことを特徴とするオンライン分析処理を行うためのデータ処理方法。
  2. 同一のパーティションラベルを有する前記増分データパーティションにおけるデータと前記既存データパーティションにおけるデータとを集計する前記ステップは、
    各前記増分データパーティションにおけるデータと、それに対応する前記既存データパーティションにおけるデータとに対して、ユニオン操作及び/又はマージ操作を行うステップを含む
    ことを特徴とする請求項1に記載の方法。
  3. 前記複数の既存データパーティションのデータインデックスを構築するステップと、
    前記複数の既存データパーティションのデータインデックスに基づいて、各前記増分データパーティションにおけるデータと、対応する前記既存データパーティションにおけるデータとに対して、ユニオン操作及び/又はマージ操作を行うステップと、を更に含む
    ことを特徴とする請求項2に記載の方法。
  4. 前記パーティションフィールドは、時間フィールド、業務フィールド及びカスタマイズフィールドのうちの1つ又は複数の組合せを含む
    ことを特徴とする請求項1乃至3のいずれか一項に記載の方法。
  5. 前記複数の既存データパーティションのデータインデックスを構築する前記ステップは、
    二分木又はハッシュテーブルによって前記データインデックスを構築するステップを含む
    ことを特徴とする請求項3に記載の方法。
  6. 前記複数の既存データパーティションのデータインデックスに基づいて、各前記増分データパーティションにおけるデータと、対応する前記既存データパーティションにおけるデータとに対して、ユニオン操作及び/又はマージ操作を行う前記ステップは、
    各前記増分データパーティションにおけるデータに対して、前記データインデックスに基づいて、各前記増分データパーティションに対応する前記既存データパーティションにおいてクエリを行うステップと、
    クエリが成功した場合、当該増分データパーティションにおけるデータと、当該データに関連する前記既存データパーティションにおけるデータとに対してユニオン操作を行うステップと、を含む
    ことを特徴とする請求項3に記載の方法。
  7. 前記複数の既存データパーティションのデータインデックスに基づいて、各前記増分データパーティションにおけるデータと、対応する前記既存データパーティションにおけるデータとに対して、ユニオン操作及び/又はマージ操作を行う前記ステップは、
    各前記増分データパーティションにおけるデータに対して、前記データインデックスに基づいて、各前記増分データパーティションに対応する前記既存データパーティションにおいてクエリを行うステップと、
    クエリが失敗した場合、当該増分データパーティションにおけるデータと、当該データに関連する前記既存データパーティションにおけるデータとに対してマージ操作を行うステップと、を含む
    ことを特徴とする請求項3又は6に記載の方法。
  8. 同一のパーティションラベルを有する前記増分データパーティションにおけるデータと、前記既存データパーティションにおけるデータとを集計する前記ステップの後、
    変換及びロードを行うことによって、集計されたデータを所定位置に導出して、前記オンライン分析処理システムによるデータ分析を行うステップ、及び/又は、
    データ更新済みを示す提示情報を下流のデータ処理ユニットに出力するステップを更に含む
    ことを特徴とする請求項1乃至7のいずれか一項に記載の方法。
  9. オンライン分析処理を行うためのデータ処理装置であって、
    選定されたパーティションフィールドによってオンライン分析処理システムにおける増分データに対してパーティション分割を行って、複数の増分データパーティションを取得するとともに、前記パーティションフィールドによって前記オンライン分析処理システムにおける既存データに対してパーティション分割を行って、複数の既存データパーティションを取得するパーティション分割モジュールと、
    同一のパーティションラベルを有する前記増分データパーティションにおけるデータと前記既存データパーティションにおけるデータとを集計するデータ処理モジュールと、を備える
    ことを特徴とするオンライン分析処理を行うためのデータ処理装置。
  10. 前記データ処理モジュールはさらに、
    各前記増分データパーティションにおけるデータと、それに対応する前記既存データパーティションにおけるデータとに対して、ユニオン操作及び/又はマージ操作を行う
    ことを特徴とする請求項9に記載の装置。
  11. 前記複数の既存データパーティションのデータインデックスを構築するデータインデックス構築モジュールを更に備え、
    前記データ処理モジュールはさらに、前記複数の既存データパーティションのデータインデックスに基づいて、各前記増分データパーティションにおけるデータと、対応する前記既存データパーティションにおけるデータとに対して、ユニオン操作及び/又はマージ操作を行う
    ことを特徴とする請求項10に記載の装置。
  12. 前記パーティションフィールドは、時間フィールド、業務フィールド及びカスタマイズフィールドのうちの1つ又は複数の組合せを含む
    ことを特徴とする請求項9乃至11のいずれか一項に記載の装置。
  13. 前記データインデックス構築モジュールは、具体的に、
    二分木又はハッシュテーブルによって前記データインデックスを構築する
    ことを特徴とする請求項11に記載の装置。
  14. 前記データ処理モジュールは、
    各前記増分データパーティションにおけるデータに対して、前記データインデックスに基づいて、各前記増分データパーティションに対応する前記既存データパーティションにおいてクエリを行うクエリサブモジュールと、
    前記クエリサブモジュールによるクエリが成功した場合、当該増分データパーティションにおけるデータと、当該データに関連する前記既存データパーティションにおけるデータとに対して、ユニオン操作を行うユニオン操作サブモジュールと、を備える
    ことを特徴とする請求項11に記載の装置。
  15. 前記データ処理モジュールは、
    前記クエリサブモジュールによるクエリが失敗した場合、当該増分データパーティションにおけるデータと、当該データに関連する前記既存データパーティションにおけるデータとに対して、マージ操作を行うマージ操作サブモジュールを更に備える
    ことを特徴とする請求項14に記載の装置。
  16. 変換及びロードを行うことによって、集計されたデータを所定位置に導出して、前記オンライン分析処理システムによるデータ分析を行うデータ導出モジュールを更に備える
    ことを特徴とする請求項9乃至15のいずれか一項に記載の装置。
  17. 集計が終了した後、データの更新済みを示す提示情報を下流のデータ処理ユニットに出力する情報出力モジュールを更に備える
    ことを特徴とする請求項9乃至16に記載の装置。
JP2019566813A 2018-02-26 2018-10-31 オンライン分析処理を行うためのデータ処理方法及び装置 Active JP6928677B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810160009.7A CN108376169A (zh) 2018-02-26 2018-02-26 一种用于联机分析处理的数据处理方法和装置
CN201810160009.7 2018-02-26
PCT/CN2018/112991 WO2019161679A1 (zh) 2018-02-26 2018-10-31 一种用于联机分析处理的数据处理方法和装置

Publications (2)

Publication Number Publication Date
JP2020522814A true JP2020522814A (ja) 2020-07-30
JP6928677B2 JP6928677B2 (ja) 2021-09-01

Family

ID=63018080

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019566813A Active JP6928677B2 (ja) 2018-02-26 2018-10-31 オンライン分析処理を行うためのデータ処理方法及び装置

Country Status (4)

Country Link
JP (1) JP6928677B2 (ja)
CN (1) CN108376169A (ja)
SG (1) SG11201909253QA (ja)
WO (1) WO2019161679A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108376169A (zh) * 2018-02-26 2018-08-07 众安信息技术服务有限公司 一种用于联机分析处理的数据处理方法和装置
CN109299088A (zh) * 2018-08-22 2019-02-01 中国平安人寿保险股份有限公司 海量数据存储方法、装置、存储介质及电子设备
CN110688412A (zh) * 2019-09-27 2020-01-14 杭州有赞科技有限公司 一种基于es的海量数据统计方法及海量数据统计系统
CN111090645B (zh) * 2019-10-12 2024-03-01 平安科技(深圳)有限公司 基于云存储的数据传输方法、装置及计算机设备
CN112203122B (zh) * 2020-10-10 2024-01-26 腾讯科技(深圳)有限公司 基于人工智能的相似视频处理方法、装置及电子设备
CN113204602B (zh) * 2021-05-07 2023-08-01 星环信息科技(上海)股份有限公司 数据处理方法、装置、设备及存储介质
CN113468187B (zh) * 2021-09-02 2021-11-23 太平金融科技服务(上海)有限公司深圳分公司 多方数据整合方法、装置、计算机设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013531835A (ja) * 2010-05-17 2013-08-08 テクニッシュ ウニヴェルジテート ミュンヘン ハイブリッドoltp及びolap高性能データベースシステム
CN103678392A (zh) * 2012-09-20 2014-03-26 阿里巴巴集团控股有限公司 一种数据增量合并的方法及其装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101018121B (zh) * 2007-03-15 2011-03-09 杭州华三通信技术有限公司 日志的聚合处理方法及聚合处理装置
CN102043789A (zh) * 2009-10-21 2011-05-04 阿里巴巴集团控股有限公司 一种更新数据表的方法和装置
CN109960688A (zh) * 2012-08-01 2019-07-02 华为技术有限公司 一种文件合并方法和装置
US9552817B2 (en) * 2014-03-19 2017-01-24 Microsoft Technology Licensing, Llc Incremental utterance decoder combination for efficient and accurate decoding
CN106649403B (zh) * 2015-11-04 2020-07-28 深圳市腾讯计算机系统有限公司 文件存储中的索引实现方法和系统
CN106250389A (zh) * 2016-07-15 2016-12-21 西安测绘研究所 一种面向动态增量更新的地理空间数据版本管理方法
CN108376169A (zh) * 2018-02-26 2018-08-07 众安信息技术服务有限公司 一种用于联机分析处理的数据处理方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013531835A (ja) * 2010-05-17 2013-08-08 テクニッシュ ウニヴェルジテート ミュンヘン ハイブリッドoltp及びolap高性能データベースシステム
CN103678392A (zh) * 2012-09-20 2014-03-26 阿里巴巴集团控股有限公司 一种数据增量合并的方法及其装置

Also Published As

Publication number Publication date
JP6928677B2 (ja) 2021-09-01
WO2019161679A1 (zh) 2019-08-29
CN108376169A (zh) 2018-08-07
SG11201909253QA (en) 2019-11-28

Similar Documents

Publication Publication Date Title
JP6928677B2 (ja) オンライン分析処理を行うためのデータ処理方法及び装置
US10346432B2 (en) Compaction policy
US9870382B2 (en) Data encoding and corresponding data structure
CN106528787B (zh) 一种基于海量数据多维分析的查询方法及装置
CN109145121B (zh) 一种时变图数据的快速存储查询方法
Ngu et al. B+-tree construction on massive data with Hadoop
US8781919B2 (en) Data row packing apparatus, systems, and methods
US11868328B2 (en) Multi-record index structure for key-value stores
CN111382155A (zh) 一种数据仓库的数据处理方法、电子设备及介质
CN114579584A (zh) 数据表处理方法、装置、计算机设备和存储介质
CN110851663B (zh) 管理元数据的方法和装置
CN112231351A (zh) 一种pb级海量数据的实时查询方法和装置
US20240078220A1 (en) Hyperparameter tuning in a database environment
CN107894997B (zh) 工业时序数据的查询处理方法及系统
Motta et al. Extracting Value from Grey Literature: processes and technologies for aggregating and analyzing the hidden «big data» treasure of organizations
CN117493333A (zh) 数据归档方法、装置、电子设备及存储介质
Kim et al. MRTensorCube: tensor factorization with data reduction for context-aware recommendations
CN108241624B (zh) 一种查询脚本的生成方法及装置
CN116010345A (zh) 一种实现流批一体数据湖的表服务方案的方法、装置及设备
CN115328950A (zh) 一种基于二级索引的hbase查询方法、终端设备及存储介质
Hashem et al. A review of modeling toolbox for BigData
Mathew et al. Novel research framework on SN's NoSQL databases for efficient query processing
Whang et al. Building social networking services systems using the relational shared-nothing parallel DBMS
Singh NoSQL: A new horizon in big data
Krechowicz et al. Business Intelligence Platform for Big Data based on Scalable Distributed Two-Layer Data Store.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210803

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210806

R150 Certificate of patent or registration of utility model

Ref document number: 6928677

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150