JP5961689B2 - 増分データの抽出 - Google Patents

増分データの抽出 Download PDF

Info

Publication number
JP5961689B2
JP5961689B2 JP2014517221A JP2014517221A JP5961689B2 JP 5961689 B2 JP5961689 B2 JP 5961689B2 JP 2014517221 A JP2014517221 A JP 2014517221A JP 2014517221 A JP2014517221 A JP 2014517221A JP 5961689 B2 JP5961689 B2 JP 5961689B2
Authority
JP
Japan
Prior art keywords
data
incremental data
database
backup database
key information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014517221A
Other languages
English (en)
Other versions
JP2014523024A (ja
Inventor
シン ファン
シン ファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2014523024A publication Critical patent/JP2014523024A/ja
Application granted granted Critical
Publication of JP5961689B2 publication Critical patent/JP5961689B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/273Asynchronous replication or reconciliation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ伝送技術、具体的には増分データを抽出する方法、装置、およびシステムに関する。
関連出願の相互参照
本願は2011年6月23日に出願された中国特許番号201110170600.9 “Method, Apparatus, and System for Extracting Incremental Data,”の外国優先権を主張するものであり、その全体を本明細書に援用する。
インターネットの急速な発展に伴い、ウェブサイトが表示するデータ量は急速に増加している。同時に、フロントエンドのウェブサイトとバックエンドのデータ・ウェアハウスとの間で伝送されるデータ量も増加している。バックエンドのデータ・ウェアハウスがデータ計算を行う場合、フロントエンドのウェブサイトからデータを抽出する必要がある。
現在、従来の技術では、データ・ウェアハウスは、データ抽出を行うためにハッシュ演算法を使用する。例えば、フロントエンドのウェブサイトは、テーブルaを持ち、データ量は何億にもなる。毎日の増分データは約6百万になる。データ・ウェアハウスはテーブルの増分データを毎日抽出する必要がある。この抽出プロセスを以下に示す。ステップAで、テンポラリ・テーブル1が生成される。ステップBでデータ・ウェアハウスのオリジナルのテーブルaにあるデータを使用してテンポラリ・テーブル2が生成される。ステップCで、テンポラリ・テーブル1にあるデータがデータ・ウェアハウスにコピーされ、増分データのID値を取得するための関係演算を使用して、テンポラリ・テーブル2に関連付けられる。ステップDで、増分データ全体が、ID値に基づき、フロントエンドのウェブサイトから取り出される。
明らかに、上記のステップAでは、テーブル1を生成するためにテーブルaにある数億のデータを一度スキャンするのに、2、3時間かかるであろう。データがネットワーク経由でデータ・ウェアハウスに伝送される場合、さらに時間がかかる。さらに、ステップCでの関係演算も非常に時間がかかる。
従って、増分データのスケールが絶えず拡大し続けるに従い、上記のフロントエンドのウェブサイトにある大きなテーブルから増分データを抽出するには最長で5時間以上かかる場合もある。これは、多くの時間やコンピューティング資源を無駄にするだけでなく、データ・ウェアハウスにおけるデータ計算の遅延が増えることになる。
本開示では、多くの時間とシステム資源を節約するだけでなく、増分データ抽出の効率も高める増分データを抽出するための方法、装置、およびシステムを提供する。
本開示では、増分データを抽出するための方法を提供する。バックアップ・データベースのログ・ファイルは構文解析され、バックアップ・データベースのログ・ファイルの構文解析された内容に基づき、バックアップ・データベースの特定の変更データが逆構文解析される。バックアップ・データベースにあるその変更されたデータから、主キー情報が取り出される。バックアップ・データベースと同期するメイン・データベースから、主キー情報に基づき1つ以上の増分データ一式が照会される。見つかった1つ以上の増分データは、ターゲットのデータ・ウェアハウスに挿入される。
本開示では増分データを抽出するための装置も提供する。この装置には、検索ユニット、照会ユニット、および挿入ユニットを含んでもよい。検索ユニットはバックアップ・データベースのログ・ファイルを構文解析し、バックアップ・データベースのログ・ファイルにある構文解析された内容に基づき、バックアップ・データベースにあるその特定の変更データを逆構文解析する。検索ユニットは、バックアップ・データベースにある変更データから主キー情報も取り出す。照会ユニットは、その主キー情報に基づき、メイン・データベースから1つ以上の増分データ一式を照会する。メイン・データベースは、バックアップ・データベースと同期する。挿入ユニットは、見つかった1つ以上の増分データをターゲットのデータ・ウェアハウスに挿入する。
本開示では、増分データを抽出するためのシステムも提供する。このシステムには、メイン・データベース、バックアップ・データベース、ターゲットのデータ・ウェアハウス、および増分データを抽出するための上記の装置を含んでもよい。メイン・データベースとバックアップ・データベースは、抽出する必要がある増分データを保存する。保存されたデータは、メイン・データベースとバックアップ・データベースとの間で同期する。この装置は、増分データの主キー情報をバックアップ・データベースから取り出し、主キー情報に基づき、1つ以上の増分データ一式を、メイン・データベースから照会し、その1つ以上の増分データ一式をターゲットのデータ・ウェアハウスに挿入する。ターゲットのデータ・ウェアハウスは、抽出された1つ以上の増分データ一式を保存する。
本開示の技術では、増分データの主キー情報に基づく変更データを取り出し、将来の処理のために変更データだけをデータ・ウェアハウスに送信する。本技術は多くの時間とシステム資源を節約し、増分データ抽出の効率を高める。
さらに、本技術では、メイン・データベースと同期しているバックアップ・データベースを通して主キー情報を取り出し、その主キー情報に基づきメイン・データベースから1つ以上の増分データ一式に対する照会オペレーションを実行する。その結果、本技術は、増分データを照会する際のメイン・データベースの負荷を減らす。
本開示の実施形態をわかりやすく示すために、以下に本実施形態の説明に使用する図を簡単に説明する。以下の図は本開示のいくつかの実施形態のみに関連することは明白である。当業者は、創造的努力なしに、本開示の図に従い他の図を入手できる。
本開示の第1の実施形態例に従った増分データを抽出するための方法例を示す流れ図である。 本開示の第3の実施形態例に従った増分データを抽出するための装置例を示す図である。 本開示の第4の実施形態例に従った増分データを抽出するためのシステム例を示す図である。
本技術では、増分データの主キー情報に基づき変更データを取り出し、ある例では、将来の処理のために変更データのみをデータ・ウェアハウスに送信する。従って、本技術は多くの時間とシステム資源を節約し、増分データ抽出の効率を高める。
当業者は、本開示の増分データは、フロントエンドのウェブサイトで毎日変更されるデータなどの変更データであると理解するであろう。実際には、こうした増分データは他の形式や他のアプリケーションの変更データであってもよい。増分データは、フロントエンドのウェブサイトの変更データおよび毎日変更されるデータに制限されるものではない。
以下では、図を参照して説明する。以下の例の実施形態は、本開示のいくつかの実施形態にのみ関連することは明白である。当業者は、創造的努力なしに本開示の他の実施形態を入手可能である。
本開示の第1の実施形態例では、増分データを抽出するための方法例を示している。この方法例は、フロントエンドのメイン・データベースとフロントエンドのバックアップ・データベースを含むシステムに適用しうる。図1は、本開示の第1の実施形態例に従い増分データを抽出するための方法例の流れ図である。
102で、増分データの主キー情報をフロントエンドのバックアップ・データベースから取得する。主キー情報を取得するための詳細オペレーションは、最新の技術を使用して実施してもよい。さらに、第1の実施形態例では、これに制限されるものではないが、以下の方法を使用してもよい。
フロントエンドのバックアップ・データベースのログ・ファイルが構文解析される。フロントエンドのバックアップ・データベースにあるログは通常バイナリ形式で保存されている。フロントエンドのバックアップ・データベースにあるログ・ファイルの構文解析された内容に基づき、フロントエンドのバックアップ・データベースにあるその特定の変更データは逆構文解析される。フロントエンドのバックアップ・データベースにある変更データから主キー情報が取り出される。
例えば、フロントエンドのユーザは、「値に挿入(100, ‘xin’, sysdate)」などのデータを追加するオペレーションを行う。この増分データの主キー情報を得るには、フロントエンドのバックアップ・データベースのログ・ファイルを構文解析する。フロントエンドのバックアップ・データベースのログ・ファイルにある構文解析した内容に基づき、変更データが見つけられる。この例では、変更データのテーブルaが取得される。変更タイプは、「挿入」オペレーションである。変更データの主キー情報は100である。つまり、100は、増分データの主キーである。ある例では、フロントエンドのバックアップ・データベースにあるデータは、リアルタイムの同期によってフロントエンドのメイン・データベースから取得される。他の例では、フロントエンドのメイン・データベースにあるすべてのデータの代わりに、主キー情報などの1つ以上のキー・データ項目をバックアップ・データベースに同期させる場合がある。このデータ同期プロセスは、メイン・データベースからバックアップ・データベースに同期させるデータ項目数を減らすことによって加速しうる。さらに、バックアップ・データベースにあるログ・ファイルの構文解析中に、ログ・ファイルにはいくつかのキー・データ項目が含まれるため、ログ・ファイルを構文解析する速度も加速される場合がある。
104では、フロントエンドのメイン・データベースで主キー情報に基づき、1つ以上の増分データが照会される。増分のデータベースの照会と抽出によるフロントエンドのメイン・データベースの負荷を減らすために、この実施形態例では、そのデータがフロントエンドのメイン・データベースから同期されるバックアップ・データベースからその主キー情報を抽出し、その主キー情報に基づき、フロントエンドのメイン・データベースで1つ以上の増分データ一式が照会されてもよい。こうした状況では、フロントエンドのメイン・データベースはメイン・データベースと呼ばれ、メイン・データベースからそのデータが同期されるバックアップ・データベースは、バックアップ・データベースと呼ばれる。
特定の照会オペレーションでは、選択関数などの照会関数または照会命令を使用してもよい。例えば、増分データの主キー情報は、100、108、および200である。増分データ一式を検索するために照会命令、“select * from a where id in (100, 108, 200)”を使用してもよい。他の詳細な照会方法については、本明細書では詳細に説明しない。
実際には、増分データ一式をより正確に検索するには、この実施形態例の方法では主キー情報に加えて増分データの変更タイプの取得を含む場合がある。一般的状況では、変更オペレーションの「挿入(insert)」は、変更のタイプが挿入であることを示し、変更オペレーションの“update”は変更のタイプが更新であることを示し、変更オペレーションの“delete”は変更のタイプが削除であることを示す。他のタイプの変更もありうるが、本開示では詳細には説明しない。
106では、見つかった1つ以上の増分データがターゲットのデータ・ウェアハウスに挿入される。例えば、ターゲットのデータ・ウェアハウスに挿入された増分データは、以下に制限されるものではないが、増分データの変更時刻、増分データの変更のタイプ、および増分データの主キー情報を含む場合がある。
見つかった1つ以上の増分データ一式のターゲットのデータ・ウェアハウスへの挿入は、マージ技術を使用して行ってもよい。つまり、見つかった1つ以上の増分データの増分データ一式はターゲットのデータ・ウェアハウスにあるオリジナルのデータ・テーブルにマージしてもよい。または、例えば、見つかった1つ以上の増分データ一式は、ターゲットのデータ・ウェアハウスにある増分データに対応するオリジナルのデータを置き換えるために使用してもよい。他の挿入方法を代わりに使用しても良いが、本明細書では説明しない。
本開示の第2の実施形態例で示しているように、以下で上記の方法例をフロントエンドのウェブサイトで特定の増分データ抽出に関して詳細に説明する。
例えば、フロントエンドのウェブサイトのデータは、テーブルtによって表され、データ・ウェアハウスにプッシュする必要がある増分データを含む。テーブルtの構造とデータを表1に示す。表1では、Idは主キーを表す。
Figure 0005961689
フロントエンドのウェブサイトのデータを、2011年1月1日8:00:00に変更すると、テーブル1のデータは、増分変更がある。例えば、この変更は以下のようになる場合がある。
tに値(4,‘Wang Wu’,30,male)を挿入;
name=‘Li Si’の設定年齢=‘35’を更新
tからname=‘Zhang San’を削除
この増分データ抽出オペレーションには、以下のオペレーションが含まれる場合がある。最初のオペレーションで、変更データの主キーと変更タイプが、フロントエンドのウェブサイトのバックアップ・データベースからキャプチャされる場合がある。例えば、テーブル1の変更から取得されたデータは、(4,I),(2, U),(1,D)であり、この場合、Iは挿入、Uは更新、Dは削除のオペレーションをそれぞれ表し、4、2、1は各オペレーションに対応する主キー情報をそれぞれ表す。
第2のオペレーションで、この例では4、2、1の主キー情報に基づき、選択命令などの照会オペレーションが、フロントエンドのウェブサイトのメイン・データベースで行われ、1つ以上の増分データ一式を照会する。バックアップ・データベースにあるデータとメイン・データベースにあるデータは同期されるが、本明細書では詳しく説明しない。
第3のオペレーションでは、見つかった1つ以上の増分データ一式が、増分テーブルに挿入される。この増分テーブルの構造とデータを表2に示す。
Figure 0005961689
表2では、log_seqフィールドがリザーブされる。log_timeは、データベースでデータが変更された実際の時刻を表す。log_actionは、(I, U, D)の1つなどのデータに対する変更のタイプを表す値を持つ。log_idは、レコードの主キーを表す。
第4のオペレーションで、データ・ウェアハウスは、増分テーブルにある上記の増分データを、すでに保存されている基本テーブルとマージし、基本テーブルにあるオリジナルのデータと置き換える。このように、フロントエンドのウェブサイトでの増分データ抽出が完了し、データ抽出効率が高まる。
この方法例では、増分データの主キー情報を使用して、変更データを取得し、いくつかの例では、さらなる計算のために変更データをデータ・ウェアハウスに単に送信する。これにより、多くの時間を、システム資源を節約し、増分データ抽出の効率をはるかに高める。
上記の技術に基づき、本開示の第3の実施形態例では、図2に示されている増分データを抽出するための装置例を示す。装置200には、以下に制限されるものではないが、1つ以上のプロセッサ202およびメモリ204を含む。このメモリ204には、ランダム・アクセス・メモリ(RAM)などの揮発性メモリ形式のコンピュータ記憶媒体、およびまたはリード・オンリー・メモリ(ROM)またはフラッシュRAMなどの不揮発性メモリを含んでもよい。メモリ204は、コンピュータ記憶媒体の例である。
コンピュータ記憶媒体には、コンピュータで実行可能な命令、データ構造、プログラム・モジュールまたはその他のデータなどの情報を記憶するための方法または技術で実現される揮発性、不揮発性、リムーバブル、ノン・リムーバブルの媒体を含む。コンピュータの記憶媒体の例としては、これに限定されるものではないが、コンピューティング・デバイスによるアクセスのための情報を保存する目的で使用する以下の媒体を含む。すなわち、相変化メモリ(PRAM)、スタティック・ランダム・アクセス・メモリ(SRAM)、ダイナミック・ランダム・アクセス・メモリ(DRAM)、他のタイプのランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)、電気的に消去可能なプログラマブル・リード・オンリー・メモリ(EEPROM)、フラッシュ・メモリまたはその他のメモリ技術、コンパクト・ディスク・リード・オンリー・メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、またはその他の光学的記憶媒体、磁気カセット、磁気テープ、磁気ディスク記憶、またはその他の磁気記憶装置、またはその他の非伝送媒体を含む。ここで定義したように、コンピュータ記憶媒体には、変調されたデータ信号や搬送波などの一過性の媒体は含まない。
メモリ204は、その中にプログラム・ユニットまたはモジュールおよびプログラム・データを保存してもよい。ある実施形態では、このユニットには、検索ユニット206、照会ユニット208、および挿入ユニット210を含んでもよい。こうしたユニットは従って、1つ以上のプロセッサ202で実行可能なソフトウェアによって実現されてもよい。他の実施形態では、このユニットはファームウェア、ハードウェア、ソフトウェア、またはこれらを組み合わせたものによって実現されてもよい。
検索ユニット206は、フロントエンドのバックアップ・データベースから増分データの主キー情報を取得する。照会ユニット208は、検索ユニット206から取得した主キー情報に基づき、フロントエンドのバックアップ・データベースと同期するフロントエンドのメイン・データベースから1つ以上の増分データ一式を照会する。挿入ユニット210は、見つかった1つ以上の増分データをターゲットのデータ・ウェアハウスに挿入する。
増分のデータベースの照会によるフロントエンドのメイン・データベースへの負荷を減らすために、この実施形態例では、主キー情報はフロントエンドのメイン・データベースのデータとデータが同期しているバックアップ・データベースから抽出してもよく、この主キー情報に基づきフロントエンドのメイン・データベースで1つ以上の増分データ一式が照会される。こうした状況では、フロントエンドのメイン・データベースは、メイン・データベースと呼ばれ、そのデータがメイン・データベースと同期しているバックアップ・データベースは、バックアップ・データベースと呼ばれる。この実施形態例では、例としてフロントエンドのデータベースでの増分データ抽出を使用している。本開示の技術は、バックエンドのデータベースまたは他のタイプのデータベースでの増分データ抽出に適用してもよい。本開示は、本明細書で制限を課すものではない。
この実施形態例では、検索ユニット206は、以下のモジュールも含んでもよい。こうしたモジュールには、構文解析モジュール212、逆構文解析モジュール214、および読み出しモジュール216を含む。構文解析モジュール212は、フロントエンドのバックアップ・データベースのログ・ファイルを構文解析する。逆構文解析モジュール214は、構文解析モジュール212から構文解析されたログ・ファイルを逆構文解析し、フロントエンドのバックアップ・データベースにある特定の変更データを得る。読み出しモジュール216は、逆構文解析モジュール214によって取得したその特定の変更データから主キー情報を取り出す。
照会ユニット208は、呼び出しモジュール218および実行モジュール220を含むモジュールを持ってもよい。呼び出しモジュール218は、照会関数または照会命令を呼び出す。実行モジュール220は、呼び出しモジュール218によって呼び出された照会関数または照会命令を使用して、照会オペレーションを実行する。例えば、検索ユニット206によって取り出された増分データの主キー情報は、100、108、および200である。呼び出しモジュール218は、照会オペレーションが必要な場合に照会関数を呼び出す。実行モジュール220は“select * from a where id in (100、108、200)”などの照会関数を実行し、1つ以上の増分データ一式を検索する。この関数の詳細については、本明細書では説明しない。
挿入ユニット210は、比較モジュール222と更新モジュール224を含むモジュールも持ってもよい。比較モジュール222は、増分データ一式とターゲットのデータ・ウェアハウスにあるオリジナルのデータ・テーブルとを比較する。更新モジュール224は、比較モジュール222の比較結果に基づき、増分データ一式をオリジナルのデータ・テーブルで更新する。
他の例では、装置200は処理ユニット226も含んでもよい。処理ユニット226は、増分データの変更タイプを取得する。一般的に、処理ユニット226が取得する変更タイプでは、変更タイプが“insert”は挿入、“update”は更新、“delete”は削除であることをそれぞれ表す。他のタイプの変更も存在しうるが、本明細書では詳細には説明しない。
装置200が処理ユニット226を含み、挿入ユニット210によってターゲットのデータ・ウェアハウスに挿入される増分データは、以下に制限されるものではないが、増分データの変更時刻、増分データの変更タイプ、および増分データの主キー情報が含まれる場合がある。この実施形態例は制限を課すものではない。
上記の技術に基づき、本開示の第4の実施形態例では、増分データの抽出のためにシステム300を提供する。システム300には、以下に制限されるものではないが、フロントエンドのメイン・データベース302、フロントエンドのバックアップ・データベース304、ターゲット・データ・ウェアハウス306、および第3の実施形態例で説明したように増分データを抽出するための装置200を含む。フロントエンドのメイン・データベース302とフロントエンドのバックアップ・データベース304は、抽出する必要がある増分データを保存する。保存されたデータは、フロントエンドのメイン・データベース302とフロントエンドのバックアップ・データベースとの間で同期する。装置200は、増分データの主キー情報をフロントエンドのバックアップ・データベース304から取り出す。装置200は、増分データの主キー情報をフロントエンドのバックアップ・データベース304から取り出し、主キー情報に基づきフロントエンドのメイン・データベース302から1つ以上の増分データ一式を照会し、見つかった1つ以上の増分データ一式をターゲット・データ・ウェアハウス306に挿入する。ターゲット・データ・ウェアハウス306は、抽出された1つ以上の増分データ一式を保存する。例えば、システム300は単独のサーバまたは分散システムの形式で、ユニットがイントラネットやインターネットなどの可能性があるネットワークを介して接続される場合もある。
当業者は、本開示の実施形態は、方法、システム、またはコンピュータのプログラム製品であることを理解しうるであろう。従って、本開示は、ハードウェア、ソフトウェア、またはこの2つを組み合わせたもので実装されうる。さらに、本開示は、コンピュータ記憶媒体(CD−ROM、光学ディスクなどのディスクを含むが、これに制限されるものではない)で実装可能なコンピュータで実行可能なコードを含む1つ以上のコンピュータ・プログラムの形式であってもよい。ハードウェアとソフトウェアの互換性をより明確に説明するために、本開示では、機能に基づき、一般的に構成要素とステップを各実施形態例で説明した。ソフトウェアまたはハードウェアが実行に使用されるかに関わらず、機能は特定のアプリケーションと技術計画の設計の制約に依存する。当業者は、上記の機能を異なるアプリケーションに対して実装するために異なる方法を使用してもよい。こうした実装は、なおも本開示の保護範囲になるべきである。
本開示は、本開示の実施形態の方法、装置、およびシステムのフローチャートおよび/またはブロック図を参照することによって説明した。フローチャートおよび/またはブロック図の各フローおよび/またはブロック、および各フローおよび/またはブロックを組み合わせたものは、コンピュータ・プログラムの命令によって実装可能であることを理解されたい。こうしたコンピュータ・プログラムの命令は、汎用コンピュータ、特定のコンピュータ、組み込みプロセッサまたはその他のプログラマブル・データ・プロセッサに提供され、マシンを生成し、フローチャートの1つ以上のフローおよび/またはブロック図の1つ以上のブロックが、コンピュータまたはその他のプログラマブル・データ・プロセッサによってオペレーションされる命令を通して生成できるようにする。
こうしたコンピュータ・プログラム命令もコンピュータ記憶媒体に保存可能であり、このコンピュータ・プログラム命令は、コンピュータ記憶媒体に保存されているコンピュータで実行可能な命令が、命令を含むプロダクトを生成するように、コンピュータまたはその他のプログラマブル・データ・プロセッサに一定の方法でオペレーションするように命令できる。この場合、命令はフローチャートの1つ以上のフローおよび/またはブロック図の1つ以上のブロックで指定される機能を実装する。
こうしたコンピュータ・プログラムの命令は、コンピュータまたはその他のプログラマブル・データ・プロセッサが一連のオペレーション・ステップを実行し、コンピュータによって実装されるプロセスを生成するように、コンピュータまたは他のプログラマブル・データ・プロセッサにロード可能である。従って、コンピュータまたはその他のプログラマブル・データ・プロセッサによってオペレーションする命令は、フローチャートの1つ以上のフローおよび/またはブロック図の1つ以上のブロックで指定される機能を実装するためのステップを提供できる。
上記の実施形態例の説明によって、当業者は、実施形態例を実現または使用できる。しかし、本開示は実施形態例に制限されるものではなく、本書で開示されている原理および機能の最大限の範囲に合致するいかなる技術も保護するものとする。
本実施形態は、単に本開示を説明するためのものであり、本開示の範囲を制限する意図はない。当業者は一定の修正、置換、改良をすることが可能であることを理解し、また本開示の原理から逸脱することなく本開示の保護のもと考えるべきである。

Claims (20)

  1. コンピュータで実行可能な命令で構成される1つ以上のプロセッサによって行われる方法であって、
    バックアップ・データベースから増分データの主キー情報を取得するステップと、
    メイン・データベースと前記バックアップ・データベースとの間で同期される取得した主キー情報に基づき、増分データを前記メイン・データベースで照会するステップと、
    見つかった増分データをターゲットのデータ・ウェアハウスに挿入するステップと、を含む方法。
  2. 前記メイン・データベースと前記バックアップ・データベースとの間で同期される前記データは、前記データのすべての項目を含むことなく、前記データの1つ以上のキー項目を含み、前記1つ以上のキー項目は前記データの主キー情報を含む請求項1に記載の方法。
  3. 前記バックアップ・データベースは、フロントエンドのウェブサイトのバックアップ・データベースであり、前記メイン・データベースは前記フロントエンドのウェブサイトのメイン・データベースである請求項1に記載の方法。
  4. 前記取得するステップは、
    構文解析した内容を取得するために前記バックアップ・データベースのログ・ファイルを構文解析するステップと、
    前記バックアップ・データベースの前記ログ・ファイルにある前記構文解析された内容に基づき、前記バックアップ・データベースにある変更データを逆構文解析するステップと、
    前記バックアップ・データベースから前記変更データの前記主キー情報を取り出すステップと、を含む請求項1に記載の方法。
  5. 前記照会するステップは、前記取得した主キー情報に基づき、1つ以上の増分データ一式を、メイン・データベースから照会するために検索関数または検索命令を使用するステップを含む請求項1に記載の方法。
  6. 前記1つ以上の増分データ一式のそれぞれは、
    前記増分データの変更タイプと、
    前記増分データの変更時刻と、
    前記増分データの前記主キー情報と、を含む請求項5に記載の方法。
  7. 前記増分データの変更タイプを取得するステップをさらに含む請求項1に記載の方法。
  8. 前記変更タイプには、
    挿入オペレーションによって生じる挿入、
    更新オペレーションによって生じる更新
    削除オペレーションによって生じる削除
    のうち少なくとも1つを含む請求項7に記載の方法。
  9. 前記挿入するステップは、前記増分データを、前記ターゲットのデータ・ウェアハウスでオリジナルのデータ・テーブルとマージするステップを含む請求項1に記載の方法。
  10. 装置であって、
    1つ以上のプロセッサと、
    前記1つ以上のプロセッサで以下のアクションを行うために実行可能なコンピュータで実行可能な命令を保存するコンピュータ記憶媒体と、を含む装置であって、
    前記アクションは、
    バックアップ・データベースから増分データの主キー情報を取得するステップを含み、前記取得するステップは、
    前記バックアップ・データベースのログ・ファイルを構文解析するステップと、
    前記バックアップ・データベースの前記ログ・ファイルにある前記構文解析された内容に基づき、前記バックアップ・データベースにある変更データを逆構文解析するステップと、
    前記バックアップ・データベースから前記変更データの前記主キー情報を取り出すステップと、を含み、
    前記アクションは、
    前記メイン・データベースと前記バックアップ・データベースとの間で同期される前記取得した主キー情報に基づき、メイン・データベースで増分データを照会するステップと、
    見つかった増分データをターゲットのデータ・ウェアハウスに挿入するステップと、を含む装置。
  11. 前記照会するステップは、前記取得した主キー情報に基づき、前記メイン・データベースから1つ以上の増分データ一式を照会するために検索関数または検索命令を使用するステップを含む請求項10に記載の装置。
  12. 前記見つかった1つ以上の増分データ一式には、
    前記増分データの変更タイプと、
    前記増分データの変更時刻と、
    前記増分データの前記主キー情報と、を含む請求項11に記載の装置。
  13. 前記変更タイプには、
    挿入オペレーションによって生じる挿入、
    更新オペレーションによって生じる更新
    削除オペレーションによって生じる削除
    のうち少なくとも1つを含む請求項12に記載の装置。
  14. 前記照会するステップは、
    見つかった1つ以上の増分データ一式と、前記ターゲットのデータ・ウェアハウスでオリジナルのテーブルと、を比較し、
    前記見つかった1つ以上の増分データ一式を、前記比較の結果に基づき、前記オリジナルのテーブルに更新する請求項10に記載の装置。
  15. 前記メイン・データベースと前記バックアップ・データベースとの間で同期する前記データには、前記データの全項目を含むことなく、前記データの1つ以上のキー項目を含み、前記1つ以上のキー項目は前記データの主キー情報を含む請求項10に記載の装置。
  16. 前記バックアップ・データベースはフロントエンドのウェブサイトのバックアップ・データベースであり、前記メイン・データベースは、前記フロントエンドのウェブサイトのメイン・データベースである請求項10に記載の装置。
  17. システムであって、
    メイン・データベースと、
    バックアップ・データベースと、
    ターゲットのウェアハウスと、
    装置と、を含み
    前記装置は、
    1つ以上のプロセッサと、
    前記1つ以上のプロセッサで以下のアクションを行うために実行可能なコンピュータで実行可能な命令を保存するコンピュータ記憶媒体と、を含む装置であって、
    前記アクションは、
    バックアップ・データベースから増分データの主キー情報を取得するステップを含み、前記取得するステップは、
    前記バックアップ・データベースのログ・ファイルを構文解析するステップと、
    前記バックアップ・データベースの前記ログ・ファイルにある前記構文解析された内容に基づき、前記バックアップ・データベースにある変更データを逆構文解析するステップと、
    前記バックアップ・データベースから前記変更データの前記主キー情報を取り出すステップと、を含み、
    前記アクションは、
    前記メイン・データベースと前記バックアップ・データベースとの間で同期される前記取得した主キー情報に基づき、メイン・データベースで1つ以上の増分データ一式を照会するステップと、
    見つかった増分データ一式をターゲットのデータ・ウェアハウスに挿入するステップと、を含むシステム。
  18. 前記メイン・データベースと前記バックアップ・データベースとの間で同期する前記データには、前記データの全項目を含むことなく、前記データの1つ以上のキー項目を含み、前記1つ以上のキー項目は前記データの主キー情報を含む請求項17に記載のシステム。
  19. 前記1つ以上の増分データ一式には、
    前記増分データの変更タイプと、
    前記増分データの変更時刻と、
    前記増分データの前記主キー情報と、を含む請求項17に記載のシステム。
  20. 前記変更タイプには、
    挿入オペレーションによって生じる挿入、
    更新オペレーションによって生じる更新
    削除オペレーションによって生じる削除
    のうち少なくとも1つを含む請求項19に記載のシステム。
JP2014517221A 2011-06-23 2012-06-22 増分データの抽出 Active JP5961689B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201110170600.9 2011-06-23
CN201110170600.9A CN102841897B (zh) 2011-06-23 2011-06-23 一种实现增量数据抽取的方法、装置及系统
PCT/US2012/043830 WO2012178072A1 (en) 2011-06-23 2012-06-22 Extracting incremental data

Publications (2)

Publication Number Publication Date
JP2014523024A JP2014523024A (ja) 2014-09-08
JP5961689B2 true JP5961689B2 (ja) 2016-08-02

Family

ID=47369270

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014517221A Active JP5961689B2 (ja) 2011-06-23 2012-06-22 増分データの抽出

Country Status (7)

Country Link
US (1) US20130073516A1 (ja)
EP (1) EP2724266A4 (ja)
JP (1) JP5961689B2 (ja)
CN (1) CN102841897B (ja)
HK (1) HK1175555A1 (ja)
TW (1) TWI521363B (ja)
WO (1) WO2012178072A1 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927236B (zh) 2013-01-11 2018-01-16 深圳市腾讯计算机系统有限公司 在线校验方法和装置
CN104142930B (zh) * 2013-05-06 2019-09-13 Sap欧洲公司 通用δ数据装载
CN105243067B (zh) * 2014-07-07 2019-06-28 北京明略软件系统有限公司 一种实现实时增量同步数据的方法及装置
CN104298760B (zh) * 2014-10-23 2019-02-05 北京京东尚科信息技术有限公司 一种应用于数据仓库的数据处理方法和数据处理装置
US11036752B2 (en) * 2015-07-06 2021-06-15 Oracle International Corporation Optimizing incremental loading of warehouse data
CN105138656A (zh) * 2015-08-31 2015-12-09 浪潮软件股份有限公司 一种处理数据的方法及装置
CN105262835B (zh) * 2015-10-30 2019-08-02 北京奇虎科技有限公司 一种多机房中的数据存储方法和装置
CN105405043A (zh) * 2015-11-04 2016-03-16 湖南御家科技有限公司 一种电商平台订单抓取方法及系统
CN105955970A (zh) * 2015-11-12 2016-09-21 中国银联股份有限公司 一种基于日志解析的数据库复制方法及装置
CN105718544B (zh) * 2016-01-18 2019-08-23 北京金山安全管理系统技术有限公司 一种办公文档管理方法和装置
JPWO2017145357A1 (ja) * 2016-02-26 2018-06-07 三菱電機株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN106407360B (zh) * 2016-09-07 2020-07-24 广州视源电子科技股份有限公司 一种数据的处理方法及装置
CN110050268A (zh) * 2016-09-30 2019-07-23 深圳市华傲数据技术有限公司 基于增量的数据处理方法及装置
CN107229721B (zh) * 2017-06-02 2019-10-29 泰华智慧产业集团股份有限公司 一种变更数据抽取的方法及装置
CN107402963B (zh) * 2017-06-20 2020-10-02 阿里巴巴集团控股有限公司 搜索数据的构建方法、增量数据的推送方法及装置和设备
CN107463610B (zh) * 2017-06-27 2021-01-26 北京星选科技有限公司 一种数据入库方法及装置
CN107562882A (zh) * 2017-09-04 2018-01-09 郑州云海信息技术有限公司 一种基于日志分析的数据同步方法及装置
CN108536774B (zh) * 2018-03-27 2020-10-20 中国农业银行股份有限公司 一种结构化数据的同步方法及系统
CN108681590A (zh) * 2018-05-15 2018-10-19 普信恒业科技发展(北京)有限公司 增量数据处理方法及装置、计算机设备、计算机存储介质
CN110609860A (zh) * 2018-05-29 2019-12-24 中国移动通信集团重庆有限公司 数据etl处理方法、装置、设备及存储介质
CN108874313B (zh) * 2018-05-31 2021-11-23 安徽四创电子股份有限公司 一种基于数据流的大数据增量抽取的数据交换平台
CN109408596A (zh) * 2018-11-06 2019-03-01 杭州通易科技有限公司 一种双活数据库容灾系统及方法
CN109871360A (zh) * 2018-12-28 2019-06-11 宁波瓜瓜农业科技有限公司 生产系统的监控方法和监控系统
CN110335069A (zh) * 2019-06-19 2019-10-15 中国平安财产保险股份有限公司 一种统计首拨进度的方法、装置、计算机设备及存储介质
CN110602168B (zh) * 2019-08-13 2022-03-01 平安科技(深圳)有限公司 数据同步方法、装置、计算机设备和存储介质
CN111556019B (zh) * 2020-03-27 2022-06-14 天津市普迅电力信息技术有限公司 一种分布式环境下车机数据加密传输及处理方法
CN113495894A (zh) * 2020-04-01 2021-10-12 北京京东振世信息技术有限公司 数据同步方法、装置、设备及存储介质
CN113779048A (zh) * 2020-06-18 2021-12-10 北京沃东天骏信息技术有限公司 一种数据处理方法和装置
CN112256523B (zh) * 2020-09-23 2023-01-06 贝壳技术有限公司 业务数据处理方法及装置
CN115422198A (zh) * 2022-09-15 2022-12-02 中国建设银行股份有限公司 大数据拉链表处理方法、装置、设备及存储介质
CN116414902A (zh) * 2023-03-31 2023-07-11 华能信息技术有限公司 一种快速数据源接入方法

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5893117A (en) * 1990-08-17 1999-04-06 Texas Instruments Incorporated Time-stamped database transaction and version management system
JP3856855B2 (ja) * 1995-10-06 2006-12-13 三菱電機株式会社 差分バックアップ方式
US5995980A (en) * 1996-07-23 1999-11-30 Olson; Jack E. System and method for database update replication
JPH10161916A (ja) * 1996-11-28 1998-06-19 Hitachi Ltd データベースの複製に伴う更新競合の検出方法
US5930791A (en) * 1996-12-09 1999-07-27 Leu; Sean Computerized blood analyzer system for storing and retrieving blood sample test results from symmetrical type databases
JP4176181B2 (ja) * 1998-03-13 2008-11-05 富士通株式会社 電子財布管理システム、端末装置及び電子財布管理プログラムを記録したコンピュータ読み取り可能な記録媒体
US6976093B2 (en) * 1998-05-29 2005-12-13 Yahoo! Inc. Web server content replication
US6529921B1 (en) * 1999-06-29 2003-03-04 Microsoft Corporation Dynamic synchronization of tables
US6553509B1 (en) * 1999-07-28 2003-04-22 Hewlett Packard Development Company, L.P. Log record parsing for a distributed log on a disk array data storage system
EP1247215A4 (en) * 2000-01-10 2009-04-29 Iron Mountain Inc LAYER ARCHITECTURE AS AN INTERFACE BETWEEN APPLIANCES AND APPLICATIONS
WO2002025499A1 (en) * 2000-09-19 2002-03-28 Bocada, Inc. Method for extracting and storing records of data backup activity from a plurality of backup devices
US7171613B1 (en) * 2000-10-30 2007-01-30 International Business Machines Corporation Web-based application for inbound message synchronization
US7111023B2 (en) * 2001-05-24 2006-09-19 Oracle International Corporation Synchronous change data capture in a relational database
US7657576B1 (en) * 2001-05-24 2010-02-02 Oracle International Corporation Asynchronous change capture for data warehousing
US6745209B2 (en) * 2001-08-15 2004-06-01 Iti, Inc. Synchronization of plural databases in a database replication system
CN1294514C (zh) * 2001-08-20 2007-01-10 信息中心科技有限公司 高效的计算机文件备份系统和方法
US6662198B2 (en) * 2001-08-30 2003-12-09 Zoteca Inc. Method and system for asynchronous transmission, backup, distribution of data and file sharing
US7565495B2 (en) * 2002-04-03 2009-07-21 Symantec Corporation Using disassociated images for computer and storage resource management
US7584219B2 (en) * 2003-09-24 2009-09-01 Microsoft Corporation Incremental non-chronological synchronization of namespaces
ATE457493T1 (de) * 2004-01-09 2010-02-15 T W Storage Inc Verfahren und vorrichtung zum durchsuchen von backup-daten auf der basis von inhalt und attributen
US7483870B1 (en) * 2004-01-28 2009-01-27 Sun Microsystems, Inc. Fractional data synchronization and consolidation in an enterprise information system
US7526768B2 (en) * 2004-02-04 2009-04-28 Microsoft Corporation Cross-pollination of multiple sync sources
US7526514B2 (en) * 2004-12-30 2009-04-28 Emc Corporation Systems and methods for dynamic data backup
WO2006108260A1 (en) * 2005-04-14 2006-10-19 Rajesh Kapur Method for validating system changes by use of a replicated system as a system testbed
JP4940730B2 (ja) * 2006-03-31 2012-05-30 富士通株式会社 データベースシステム運用方法,データベースシステム,データベース装置及びバックアッププログラム
CA2652115C (en) * 2006-05-12 2015-11-17 Goldengate Software, Inc. Apparatus and method for read consistency in a log mining system
US8723645B2 (en) * 2006-06-09 2014-05-13 The Boeing Company Data synchronization and integrity for intermittently connected sensors
US7917469B2 (en) * 2006-11-08 2011-03-29 Hitachi Data Systems Corporation Fast primary cluster recovery
US8099386B2 (en) * 2006-12-27 2012-01-17 Research In Motion Limited Method and apparatus for synchronizing databases connected by wireless interface
US8190572B2 (en) * 2007-02-15 2012-05-29 Yahoo! Inc. High-availability and data protection of OLTP databases
US7987326B2 (en) * 2007-05-21 2011-07-26 International Business Machines Corporation Performing backup operations for a volume group of volumes
US8433863B1 (en) * 2008-03-27 2013-04-30 Symantec Operating Corporation Hybrid method for incremental backup of structured and unstructured files
US8200614B2 (en) * 2008-04-30 2012-06-12 SAP France S.A. Apparatus and method to transform an extract transform and load (ETL) task into a delta load task
US8266104B2 (en) * 2008-08-26 2012-09-11 Sap Ag Method and system for cascading a middleware to a data orchestration engine
CN101369283A (zh) * 2008-09-25 2009-02-18 中兴通讯股份有限公司 一种内存数据库与物理数据库间的数据同步方法及系统
CN101419616A (zh) * 2008-12-10 2009-04-29 阿里巴巴集团控股有限公司 一种数据同步方法及装置
US8291036B2 (en) * 2009-03-16 2012-10-16 Microsoft Corporation Datacenter synchronization
US8560787B2 (en) * 2009-03-30 2013-10-15 International Business Machines Corporation Incremental backup of source to target storage volume
US8214324B2 (en) * 2009-08-25 2012-07-03 International Business Machines Corporation Generating extract, transform, and load (ETL) jobs for loading data incrementally
CN101719165B (zh) * 2010-01-12 2014-12-17 浪潮电子信息产业股份有限公司 一种实现数据库高效快速备份的方法
US8386423B2 (en) * 2010-05-28 2013-02-26 Microsoft Corporation Scalable policy-based database synchronization of scopes
US8719103B2 (en) * 2010-07-14 2014-05-06 iLoveVelvet, Inc. System, method, and apparatus to facilitate commerce and sales
US9824091B2 (en) * 2010-12-03 2017-11-21 Microsoft Technology Licensing, Llc File system backup using change journal
US8635187B2 (en) * 2011-01-07 2014-01-21 Symantec Corporation Method and system of performing incremental SQL server database backups
US8612386B2 (en) * 2011-02-11 2013-12-17 Alcatel Lucent Method and apparatus for peer-to-peer database synchronization in dynamic networks

Also Published As

Publication number Publication date
EP2724266A1 (en) 2014-04-30
TWI521363B (zh) 2016-02-11
CN102841897A (zh) 2012-12-26
CN102841897B (zh) 2016-03-02
WO2012178072A1 (en) 2012-12-27
EP2724266A4 (en) 2015-01-07
TW201301062A (zh) 2013-01-01
HK1175555A1 (zh) 2013-07-05
JP2014523024A (ja) 2014-09-08
US20130073516A1 (en) 2013-03-21

Similar Documents

Publication Publication Date Title
JP5961689B2 (ja) 増分データの抽出
US9953102B2 (en) Creating NoSQL database index for semi-structured data
US8938430B2 (en) Intelligent data archiving
JP4522170B2 (ja) リレーショナルデータベースのインデックス追加プログラム,インデックス追加装置及びインデックス追加方法
US10437853B2 (en) Tracking data replication and discrepancies in incremental data audits
CN109408589B (zh) 数据同步方法及装置
CN106407360B (zh) 一种数据的处理方法及装置
US8214376B1 (en) Techniques for global single instance segment-based indexing for backup data
US8880463B2 (en) Standardized framework for reporting archived legacy system data
US11176110B2 (en) Data updating method and device for a distributed database system
US20170193019A1 (en) Method, apparatus, and computer-readable medium for ingesting semi-structured data in a columnar format
GB2520361A (en) Method and system for a safe archiving of data
US20170270153A1 (en) Real-time incremental data audits
CA3039537C (en) Techniques for generating and operating on in-memory datasets
Almansouri et al. Hadoop distributed file system for big data analysis
CN102622361B (zh) 一种数据库查询方法
CN111680030A (zh) 数据融合方法及装置,基于元信息的数据处理方法和装置
CN107315806B (zh) 一种基于文件系统的嵌入式存储方法和装置
CN115687392A (zh) 一种sql语句的优化执行方法、装置、电子设备及介质
CN110287172B (zh) 一种格式化HBase数据的方法
CN114153857A (zh) 数据同步方法、数据同步装置和计算机可读存储介质
CN108121719B (zh) 一种实现数据抽取转换加载etl的方法及装置
CN110297881A (zh) 用于实现二级索引的方法和计算机可读介质
US9588995B2 (en) Point in time recovery support for pending schema definition changes
CN117349401B (zh) 一种非结构化数据的元数据存储方法、装置、介质及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150528

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160627

R150 Certificate of patent or registration of utility model

Ref document number: 5961689

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250