JP2014509008A - データウェアハウスから統計を提供する方法およびシステム - Google Patents
データウェアハウスから統計を提供する方法およびシステム Download PDFInfo
- Publication number
- JP2014509008A JP2014509008A JP2013553965A JP2013553965A JP2014509008A JP 2014509008 A JP2014509008 A JP 2014509008A JP 2013553965 A JP2013553965 A JP 2013553965A JP 2013553965 A JP2013553965 A JP 2013553965A JP 2014509008 A JP2014509008 A JP 2014509008A
- Authority
- JP
- Japan
- Prior art keywords
- index
- data
- departure
- input file
- index field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24539—Query rewriting; Transformation using cached or materialised query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
・ 複数の索引フィールドを定義するステップであって、各索引フィールドが複数の索引フィールド値を受け入れる、定義するステップと、
・ 複数の索引ファイルを作成し、これらのファイルを索引の木として階層的に索引付けるステップであって、各木に対して、
- 索引フィールドを階層的に順序付けるステップ、
- それぞれ索引フィールドに関連付けられ、その索引フィールドに対する1つまたは複数の索引フィールド値を収集するビンを定義するステップ、
- 階層的に順序付けられた索引フィールドの階層に従って1つまたは複数のビンを連結してビンのシーケンスを形成することによって、索引フィールドごとに1つのビンのみを含む索引を作成するステップ、ならびに
- ファイルを索引の木として階層的に索引付けるステップを含み、各索引が、0以上の子索引および/または最大で1つの親索引を有し、各子索引が、その親索引の索引と同じビンのシーケンスと、追加の索引フィールドに関連付けられた少なくとも1つの追加のビンとを含む、索引付けるステップと、
・ 統計データを記憶するように構成されたデータコンテナを各索引に提供するステップであって、各データコンテナが索引付けられ、階層的に索引付けられたファイル内から直接アドレス指定可能である、提供するステップと、
・ 生データから構成された1つまたは複数の入力ファイルを受け取り、それらの入力ファイルでデータコンテナを更新するステップであって、各入力ファイルに対して1つまたは複数の処理装置を使用することを含み、これらの処理装置が、
- 統計によって分析すべき少なくとも1つの属性、およびその属性を特徴付ける1つまたは複数の入力ファイルパラメータを、生データから識別および抽出するステップ、
- それぞれ少なくとも1つの属性、および前記属性を特徴付ける1つまたは複数の入力ファイルパラメータを含む少なくとも1つの個別記録(individual record)を、入力ファイルから作成するステップ、
- 各入力ファイルパラメータを少なくとも1つの索引フィールドに関連付けるステップ、
- 各入力ファイルパラメータと、その入力ファイルパラメータに関連付けられた少なくとも1つの索引フィールドのビンとの間で対応関係を確立するステップ、
- すべて前記個別記録の入力ファイルパラメータに対応する1つまたは複数のビンで索引付けられたデータコンテナを識別するステップ、ならびに
- 識別されたデータコンテナを、前記個別記録の少なくとも1つの属性でインクリメンタルに更新して、属性を記述する統計データを得るステップを、実行するように構成される、更新するステップと
を含むことを特徴とする。
- 照会内で、1つまたは複数の照会フィールド、およびその照会フィールドに関連付けられた少なくとも1つの照会フィールド値を識別し、
- 各照会フィールドと索引フィールドとの間で対応関係を確立し、
- 各照会フィールド値と、前記1つまたは複数の識別された照会フィールドに対応する各索引フィールドのビンとの間で対応関係を確立し、それによって照会に対応する1組のビンを定義し、
- 照会に対応する1組のビンを含む索引で索引付けられた関連するデータコンテナを探索および識別し、
- 識別された関連するコンテナの統計データを検索してユーザへ送るようにプログラムされる。
- 照会内で、1つまたは複数の照会フィールド、およびその照会フィールドに関連付けられた少なくとも1つの照会フィールド値を識別するステップと、
- 各照会フィールドと索引フィールドとの間で対応関係を確立するステップと、
- 各照会フィールド値と、前記1つまたは複数の識別された照会フィールドに対応する各索引フィールドのビンとの間で対応関係を確立し、それによって照会に対応する1組のビンを定義するステップと、
- 照会に対応する1組のビンを含む索引で索引付けられた関連するデータコンテナを探索および識別するステップと、
- 識別された関連するコンテナの統計データを検索してユーザへ送るステップと
を含むことを特徴とする。
・ 複数の索引フィールドを定義するステップであって、各索引フィールドが複数の索引フィールド値を受け入れる、定義するステップと、
・ 複数の索引ファイルを作成し、これらのファイルを索引の木として階層的に索引付けるステップであって、各木に対して、索引フィールドを階層的に順序付けるステップ、それぞれ索引フィールドに関連付けられ、その索引フィールドに対する1つまたは複数の索引フィールド値を収集するビンを定義するステップ、階層的に順序付けられた索引フィールドの階層に従って1つまたは複数のビンを連結してビンのシーケンスを形成することによって、索引フィールドごとに1つのビンのみを含む索引を作成するステップ、ならびにファイルを索引の木として階層的に索引付けるステップを含み、各索引が、0以上の子索引および/または最大で1つの親索引を有し、各子索引が、その親索引の索引と同じビンのシーケンスと、追加の索引フィールドに関連付けられた少なくとも1つの追加のビンとを含む、索引付けるステップと、
・ 統計データを記憶するように構成されたデータコンテナを各索引に提供するステップであって、各データコンテナが索引付けられ、階層的に索引付けられたファイル内から直接アドレス指定可能である、提供するステップと、
・ 生データから構成された1つまたは複数の入力ファイルを受け取り、それらの入力ファイルでデータコンテナを更新するステップであって、各入力ファイルに対して1つまたは複数の処理装置を使用することを含み、これらの処理装置が、統計によって分析すべき少なくとも1つの属性、およびその属性を特徴付ける1つまたは複数の入力ファイルパラメータを、生データから識別および抽出するステップ、それぞれ少なくとも1つの属性、および前記属性を特徴付ける1つまたは複数の入力ファイルパラメータを含む少なくとも1つの個別記録を、入力ファイルから作成するステップ、各入力ファイルパラメータを少なくとも1つの索引フィールドに関連付けるステップ、各入力ファイルパラメータと、その入力ファイルパラメータに関連付けられた少なくとも1つの索引フィールドのビンとの間で対応関係を確立するステップ、すべて前記個別記録の入力ファイルパラメータに対応する1つまたは複数のビンで索引付けられたデータコンテナを識別するステップ、ならびに識別されたデータコンテナを、前記個別記録の少なくとも1つの属性でインクリメンタルに更新して、属性を記述する統計データを得るステップを、実行するように構成される、更新するステップと
を実行するように構成されることを特徴とする。
本発明は、多数の生データから演算された統計データを作成し、記憶し、インクリメンタルに更新し、かつ検索するシステムを提供する。所与の変数に対して、これらの統計データは、たとえば、頻度分布、分布の代表値、たとえば平均値または中央値、分布の分散、たとえば標準偏差の測定、百分位数/四分位数によって識別される分布自体の性質などに関することができる。
索引フィールド(IF)とは、分析すべき別のパラメータの統計を特徴付けることに関するパラメータである。たとえば、旅行の価格に関する統計データの場合、索引フィールドは、旅行の出発地(たとえば、索引フィールド=「都市」、「国」、「地域」など)、旅行の位置的な目的地(たとえば、索引フィールド=「都市」、「国」、「地域」)および/もしくはテーマ別の目的地(たとえば、索引フィールド=「文化的目的地」、「スポーツの目的地」、「美食の目的地」、「野生生物の観察」、「娯楽」など)、出発日(たとえば、索引フィールド=「正確な出発日」)もしくは「出発期間」(たとえば、索引フィールド=「正確な出発日」、「出発月」、「出発週」)、帰着日(たとえば、索引フィールド=「正確な帰着日」)もしくは「帰着期間」(特有の月または週または週末)、あるいは「旅行タイプカテゴリ」(到着後の旅行期間)、「予約日」もしくは「予約期間」、「事前購入カテゴリ」(予約から出発までの期間)に関することができる。記載の例で以下に挙げる索引フィールドは、理解のために選択されたものであり、限定的ではない。
- 索引フィールド「出発地」に対する索引フィールド値は、ナイロビ(最初の出発都市)、ケニア(最初の出発国)、アフリカ(地域)の1つとすることができる。
- 旅行の目的に関する索引フィールド「目的都市」、「地域」、「野生生物の観察」、「鉄道博物館」に対する索引フィールド値は、たとえば「ナイロビ」とすることができる。したがって、1つの単一の索引フィールド値を複数の索引フィールドに関連付けることができることが明らかである。
- 出発日に関する索引フィールド「正確な出発日」、「出発週」、「出発月」に対する索引フィールド値は、「2007年6月14日」とすることができる。
- 索引フィールド「旅行タイプカテゴリ」または「旅行期間」に対する索引フィールド値は、1日間、3日間、2週間、1ヶ月間および3日間などの1つとすることができる。
- 索引フィールド「事前購入カテゴリ」に対する索引フィールド値は、1日間、3日間、2週間、1ヶ月間などの1つとすることができる。
- 索引フィールド値は、適当な固定の長さの*を繰り返すことによって指定されるワイルドカードとすることができる。これは、キャッチオール型の索引値のようなものであり、その意味は、演算で典型的に見られるドントケア(don't-care)記号に対応する。
入力ファイルとは、システムによって分析すべき元のデータセット、生データを含む、システムによって受け取られるファイルである。システムは、入力ファイルを分析し、入力ファイル内の記録の属性を保持し、削除し、または関連する事前定義された索引フィールドの集まりに対応する適当な索引フィールド値に変換し、照会に応答して結果としてシステムによって統計を提供すべきパラメータに関連付ける。入力ファイル内のすべてのデータは、分析される前は生データと呼ばれる。
照会は、データに関する統計を入手してそれを統計的に分析するために、ユーザによって充填されて送られる。照会は、本発明で「照会フィールド値」と呼ぶ1つまたは複数の探索基準を含むことができる。照会は、多数の照会フィールド値を含むときは非常に複雑になることがあり、または1つもしくは少数の照会フィールド値を含むときは基本的なものになることがある。
- 空港および都市コードに対して通常3文字のIATA(国際航空輸送協会コード)を使用する航空便の出発地(第1の索引フィールド)、
- 上記で示したように0〜7の範囲内の対応するビンの1桁の数である旅行タイプの基準(第2の索引フィールド)、
- 1〜52の範囲内の2桁の数である出発週(第3の索引フィールド)
を連結することによって得られる。
ナイロビ)からのすべての航空便を索引付けていることを意味する。木の1次索引は、この木のすべての索引に対する親索引である。
- 大量の毎日の顧客データ(たとえば、航空会社のクーポンおよびGDSからの乗客の発券記録)を考慮して、各個別記録が異なるフィールド(たとえば、予約日、出発日、出発地、目的地、支払われた価格など)を有する特徴と、
- 事前に決定された基準のセット(たとえば、事前購入、旅行のタイプなど)およびそれらの組合せによって、長期間(たとえば、1年)にわたって、テラバイト規模へのデータ量の爆発を示唆する単一の次元(たとえば、支払われた価格)に焦点を当てる(個別記録ではなく)蓄積されたデータのグループを探索および検索できるようにするというビジネス上の必要という特徴と、
- そのようなテラバイト規模のデータに及ぶ複数のオンライン統計サービスを異なる業界ユーザ(たとえば、航空会社、旅行者、旅行業者)に提供するためのさらなるビジネス上の必要という特徴とを含み、
本発明は、
- 業界ユーザのグループにとって重要なそのようなデータの効率的な探索指向の索引付きの記憶のための技術的解決策と、
- 前日までに行われた演算を取り消すことなく、翌日に、毎日のトランザクションデータを、使用可能なはずのデータの範囲内へシームレスに組み込むことも可能にする技術的解決策と、
- 照会に対する統計結果の検索プロセスが、データの量とはほぼ独立しており、数ミリ秒程度である、技術的解決策と、
- 分布のアドホックなパラメトリックサブセットに関する照会の場合でも類似の応答時間が保証される技術的解決策と、
- ユーザ選択可能な方法でサブ分布セットを容易に視覚的に比較できる表示を有する技術的解決策とを提供する。
質問:「価格に敏感な余暇のための旅行者で、融通のきかない日付で最も安い価格を探している。旅行システムはどのように役に立つか?」
答え:「将来の事前購入日の範囲でより低価格で行われた予約があるかどうか確認するとよい。旅行システムにより、いくつかの航空会社が過去に、本日より出発日(たとえば、2010年7月1日)の近くで低運賃クラスの一部を開放したかどうかがわかる(今日の日付を2009年12月18日とする)。つまり、今すぐ予約したいと考えていない場合、旅行システムにより、いつ(おそらく、出発日の30日前、すなわち、6月1日開始)探索を再開して予約すればこれらの価格を入手できるかがわかる。もちろんこれは、保証されるものではない。しかしこの想定は、乗客によって実際に支払われた価格に対する履歴データに基づく。したがって、非常に高い可能性がある。」
質問:「価格に敏感な余暇のための旅行者で、融通のきく日付で最も安い価格を探している。いつ旅行すべきかを知るために、旅行システムはどのように役に立つか?」
答え:「今すぐ予約したいと考えていて、出発日に融通がきく場合、本日までの最も低い価格が利用可能であった可能な事前予約期間を追加して、それらの日付の航空便を探索するだけである。」
質問:「オーストラリアへの休暇を計画している。日付または旅行期間については未定である。航空旅行の予算はどのくらいになるか?」
答え:「出発地および訪れたいいくつかの主な都市までの価格を使って旅行システムで調べるだけである。異なる事前予約日の中間の価格を予算にされたい。」
質問:「旅行探索中、偽のオンライン広告が魅力的で異常に安いチケット価格でクリックを誘う一方、サイト上ではそのようなチケット価格が見つからず、時間を無駄にしてしまうことに失望している。旅行システムはどのように役に立つか?」
答え:「旅行システムは、出発地から目的地までのチケットの価格範囲全体を、旅行タイプごとに、異なる事前購入期間によって、1年のうちの特有の出発週に対して示すことができる。つまり、その出発地および目的地で稼働しているすべての航空会社のすべての運賃クラスの価格(税込)を入手することができる。つまりまた、リアルタイムで運賃探索を始める前に、本発明による旅行システムを見れば、何を期待すべきかがわかる。不当に誘惑される確率は低くなる。さらに、予約頻度を確認することによって、供給側だけでなく要求側(誰が何を予約するか)の消費者市場の概念を入手することができる。さらに、必ずしも今すぐ予約したいと想定する必要なく、探索および予約するのによい時間はいつであるか(より低い価格)、これに対しよくない時間はいつであるかという概念を得ることができる。」
113 目的地
114 フィールド
115 出発日
117 旅行期間
119 事前予約または事前購入時間
125 出発日
127 旅行期間
129 事前購入時間
201 1次キー
202 1次キー
203 1次キー
210 第2のレベルのキー
220 事前購入ビンコード、第3のレベルのキー
230 コンテナ
300 探索木
301 文字列
310 1次索引、第1のレベルのキー
320 第2のレベルのキー
325 コンテナ
330 第3のレベルのキー
335 コンテナ
410 プラットフォーム、GDSデータウェアハウス
420 標準価格アグリゲータ、TPA
436 ダウンロード
440 旅行業者
450 サーバ
452 インポート
454 高速主メモリ
456 ウェブサービス層
458 フロントエンドアプリケーション
460 エンドユーザ
512 処理される生データの量、すなわち1ヶ月間で蓄積する毎日受け取られるクーポンファイルの合計サイズ
514 その結果演算された索引付きフラットファイルのサイズ
522 必要な総時間
524 属性の生の値を索引フィールドビン値に変換する際に費やされる総時間の比率
526 既存の索引の木における経路を演算および挿入するために使用される総時間の比率
610 トランザクション、生のクーポンファイル記録、生の入力ファイル
620 個別記録
621 第1のフィールド
625 第5のフィールド
Claims (25)
- データウェアハウス(410)から統計データを提供する方法であって、少なくとも1つのデータ処理装置で実行される以下のステップ、すなわち
複数の索引フィールド(114)を定義するステップであって、各索引フィールドが複数の索引フィールド値を受け入れる、定義するステップと、
複数のファイル(432)を作成し、前記ファイルを索引の木(300)として階層的に索引付けるステップであって、各木に対して、
前記索引フィールド(201)を階層的に順序付けるステップ、
それぞれ索引フィールドに関連付けられ、その索引フィールドに対する1つまたは複数の索引フィールド値を収集するビンを定義するステップ、
階層的に順序付けられた索引フィールドの階層に従って1つまたは複数のビンを連結してビンのシーケンスを形成することによって、索引フィールドごとに1つのビンのみを含む索引を作成するステップ、ならびに
前記ファイルを索引の木(300)として階層的に索引付けるステップを含み、各索引が、0以上の子索引および/または最大で1つの親索引を有し、各子索引が、その親索引の索引と同じビンのシーケンスと、追加の索引フィールドに関連付けられた少なくとも1つの追加のビンとを含む、索引付けるステップと、
統計データを記憶するように構成されたデータコンテナ(325、335)を各索引に提供するステップであって、各データコンテナが索引付けられ、階層的に索引付けられた前記ファイル内から直接アドレス指定可能である、提供するステップと、
生データから構成された1つまたは複数の入力ファイル(434)を受け取り(436)、前記入力ファイル(434)で前記データコンテナを更新するステップであって、各入力ファイルに対して1つまたは複数の処理装置を使用することを含み、前記処理装置が、
統計によって分析すべき少なくとも1つの属性、および前記属性を特徴付ける1つまたは複数の入力ファイルパラメータを、前記生データから識別および抽出するステップ、
それぞれ少なくとも1つの属性、および前記属性を特徴付ける前記1つまたは複数の入力ファイルパラメータを含む少なくとも1つの個別記録(620)を、前記入力ファイル(434)から作成するステップ、
各入力ファイルパラメータを少なくとも1つの索引フィールドに関連付けるステップ、
各入力ファイルパラメータと、その入力ファイルパラメータに関連付けられた前記少なくとも1つの索引フィールドのビンとの間で対応関係を確立するステップ、
すべて前記個別記録(620)の入力ファイルパラメータに対応する前記1つまたは複数のビンで索引付けられたデータコンテナを識別するステップ、ならびに
前記識別されたデータコンテナ(325、335)を、前記個別記録(620)の前記少なくとも1つの属性でインクリメンタルに更新して、前記属性を記述する統計データを得るステップを、実行するように構成される、更新するステップと
を含むことを特徴とする、方法。 - 照会を受け取り、各照会に対して1つまたは複数の処理装置を使用する追加のステップを含み、前記処理装置が、
前記照会内で、1つまたは複数の照会フィールド、および前記照会フィールドに関連付けられた少なくとも1つの照会フィールド値を識別し、
各照会フィールドと索引フィールドとの間で対応関係を確立し、
各照会フィールド値と、前記1つまたは複数の識別された照会フィールドに対応する各索引フィールドのビンとの間で対応関係を確立し、それによって前記照会に対応するビンを定義し、
前記照会に対応する前記ビンを含む索引で索引付けられた関連するデータコンテナを探索および識別し、
前記識別された関連するコンテナの前記統計データを検索してユーザへ送る
ようにプログラムされる、請求項1に記載の方法。 - 統計データが、前記属性の頻度分布、または前記属性の前記分布の代表値(measures of central tendency)、または前記属性の前記分布の分散の測定に関する、請求項1または2に記載の方法。
- 統計データが、輸送サービスに対して旅行者によって実際に支払われた価格に関する統計データに基づく、請求項3に記載の方法。
- 索引フィールドが、最初の出発都市、最初の出発国、最初の出発地域、目的都市、目的国、目的地域、文化的目的地、スポーツ活動、美食、野生生物の観察、娯楽、正確な出発日別の出発日、月別の出発期間、週別の出発期間、正確な日付別の帰着日、月別の帰着期間、週別の帰着期間、到着後の旅行期間、事前購入カテゴリのうちの少なくとも1つである、請求項1から4のいずれか一項に記載の方法。
- 少なくとも2つのビンを連結することによって、親索引をもたない少なくとも1つの索引が作成される、請求項1から5のいずれか一項に記載の方法。
- 親索引をもたない索引が、前記最初の出発都市に関する索引フィールドに関連付けられたビンと、出発前の前記旅行期間に関する索引フィールドに関連付けられたビンと、航空便の出発週に関する索引フィールドに関連付けられたビンとを含む、請求項6に記載の方法。
- ビンが、最初の出発都市、出発都市、出発日、出発週、帰着日、帰着週、旅行期間の日数、事前購入の日数のうちの1つに関するいくつかの索引フィールド値を収集する、請求項7に記載の方法。
- 親索引をもたない少なくとも1つの索引が、1つのビンのみを含む、請求項1から5のいずれか一項に記載の方法。
- 入力ファイルが、輸送サービスの電子チケットであり、前記輸送の一区分に対するすべての情報を組み入れる少なくとも1つのクーポン(434)を含む、請求項1から9のいずれか一項に記載の方法。
- 前記属性が、前記チケットまたは前記クーポンに対して実際に支払われた価格であり、前記入力ファイルパラメータが、最初の出発都市、出発都市、出発日、帰着日、出発日、帰着日、旅行期間、予約から出発までの日数というフィールドのうちの少なくとも1つを記述する、請求項10に記載の方法。
- 照会フィールドが、最初の出発都市、最初の出発国、最初の出発地域、目的都市、目的国、目的地域、文化的目的地、スポーツの目的地、美食、野生生物の観察、娯楽、正確な出発日別の出発日、月別の出発期間、週別の出発期間、正確な日付別の帰着日、月別の帰着期間、週別の帰着期間、到着後の旅行期間、予約から出発までの日数というフィールドのうちの少なくとも1つに関する、請求項11に記載の方法。
- 単一の索引フィールド値を、複数の索引フィールドに関連付けることができる、請求項1に記載の方法。
- 目的都市を記述する索引フィールド値が、最初の出発都市、最初の出発国、最初の出発地域、文化的目的地、スポーツ活動、美食、野生生物の観察、娯楽という索引フィールドのうちの少なくとも2つに関連付けられる、請求項13に記載の方法。
- 個別記録(620)を作成するステップが、日付または週または月または学期または年を各個別記録に割り当てるステップであって、前記日付が前記入力ファイルの受け取りに対応する、割り当てるステップと、前記個別記録(620)をデータ記憶手段内に記憶するステップとを含む、請求項1から14のいずれか一項に記載の方法。
- 前記個別記録(620)で前記データコンテナを更新するステップが、同じ日付を有するまたは同じ日付期間を有する個別記録(620)のバッチを作成するステップと、個別記録(620)のバッチごとに前記データコンテナを更新するステップとを含む、請求項15に記載の方法。
- 正確な統計データを維持することのために、記憶された個別記録(620)の日付を読み取るステップと、所与の日付より古い日付に割り当てられた以前の個別記録(620)を識別するステップと、これらの識別された以前の個別記録(620)の前記入力ファイルパラメータを通じて、これらの識別された以前の個別記録(620)で更新された前記データコンテナを位置決めするステップと、これらの識別された以前の個別記録(620)を削除することによって、前記位置決めされたデータコンテナを更新するステップとを含む、請求項15または16に記載の方法。
- 前記識別されたデータコンテナ(325、335)をインクリメンタルに更新するステップが、以前に演算された統計データおよび前記個別記録(620)の前記少なくとも1つの属性から、更新された統計データをインクリメンタルに演算するステップを含む、請求項1から17のいずれか一項に記載の方法。
- データコンテナが前記入力ファイルの入力ファイルパラメータの数以下の複数のビンで索引付けられた場合、これらの1つまたは複数のビンのそれぞれが前記入力ファイルの入力ファイルパラメータに対応するという条件で、前記データコンテナが入力ファイルによって更新のために識別される、請求項1に記載の方法。
- 個別記録(620)の入力ファイルパラメータが既存の索引フィールドに関連付けられているが、この関連付けられた既存の索引フィールドのいずれのビンにも対応しない場合、前記関連付けられた既存の索引フィールドに対して追加のビンを作成し、前記追加のビンで索引付けられた追加のデータコンテナを作成し、前記追加のデータコンテナを前記個別記録で更新する、請求項1に記載の方法。
- 個別記録(620)の各入力ファイルパラメータがビンに対応するが、索引に対応しない前記入力ファイルパラメータに対応する1つまたは複数のビンの組合せが存在する場合、1つまたは複数の対応するビンのこの組合せで索引付けられた追加のデータコンテナを作成し、前記追加のデータコンテナを前記個別記録で更新する、請求項1に記載の方法。
- データコンテナ内に記憶されているすべてのデータが、フラットファイルの形式で記憶される、請求項1から21のいずれか一項に記載の方法。
- 1つまたは複数のビンのシーケンスを形成することによって索引を作成するステップを含み、このシーケンスの少なくとも1つのビンが、前記少なくとも1つのビンに関連付けられた前記索引フィールドによって受け入れられるすべての可能な索引フィールド値を収集する、請求項1に記載の方法。
- データウェアハウス(410)から統計データを提供するシステムであって、処理手段を備えるシステムにおいて、前記処理手段が、
複数の索引フィールド(114)を定義するステップであって、各索引フィールドが複数の索引フィールド値を受け入れる、定義するステップと、
複数のファイル(432)を作成し、前記ファイルを索引の木(300)として階層的に索引付けるステップであって、各木に対して、
前記索引フィールド(201)を階層的に順序付けるステップ、
それぞれ索引フィールドに関連付けられ、その索引フィールドに対する1つまたは複数の索引フィールド値を収集するビンを定義するステップ、
階層的に順序付けられた索引フィールドの階層に従って1つまたは複数のビンを連結してビンのシーケンスを形成することによって、索引フィールドごとに1つのビンのみを含む索引を作成するステップ、ならびに
前記ファイルを索引の木(300)として階層的に索引付けるステップを含み、各索引が、0以上の子索引および/または最大で1つの親索引を有し、各子索引が、その親索引の索引と同じビンのシーケンスと、追加の索引フィールドに関連付けられた少なくとも1つの追加のビンとを含む、索引付けるステップと、
統計データを記憶するように構成されたデータコンテナ(325、335)を各索引に提供するステップであって、各データコンテナが索引付けられ、階層的に索引付けられた前記ファイル内から直接アドレス指定可能である、提供するステップと、
生データから構成された1つまたは複数の入力ファイル(434)を受け取り(436)、前記入力ファイル(434)で前記データコンテナを更新するステップであって、各入力ファイルに対して1つまたは複数の処理装置を使用することを含み、前記処理装置が、
統計によって分析すべき少なくとも1つの属性、および前記属性を特徴付ける1つまたは複数の入力ファイルパラメータを、前記生データから識別および抽出するステップ、
それぞれ少なくとも1つの属性、および前記属性を特徴付ける前記1つまたは複数の入力ファイルパラメータを含む少なくとも1つの個別記録(620)を、前記入力ファイル(434)から作成するステップ、
各入力ファイルパラメータを少なくとも1つの索引フィールドに関連付けるステップ、
各入力ファイルパラメータと、その入力ファイルパラメータに関連付けられた前記少なくとも1つの索引フィールドのビンとの間で対応関係を確立するステップ、
すべて前記個別記録(620)の入力ファイルパラメータに対応する前記1つまたは複数のビンで索引付けられたデータコンテナを識別するステップ、ならびに
前記識別されたデータコンテナ(325、335)を、前記個別記録(620)の前記少なくとも1つの属性でインクリメンタルに更新して、前記属性を記述する統計データを得るステップを、実行するように構成される、更新するステップと
を実行するように構成されることを特徴とする、システム。 - 請求項1から23のいずれか一項に記載の統計データを提供する方法を少なくとも1つのマイクロプロセッサに実行させるように指示されたコンピュータ可読コード手段を含む、非一時的コンピュータ可読記憶媒体上に記憶されたコンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP11305177.5 | 2011-02-21 | ||
EP11305177A EP2490135A1 (en) | 2011-02-21 | 2011-02-21 | Method and system for providing statistical data from a data warehouse |
PCT/EP2012/052872 WO2012113756A1 (en) | 2011-02-21 | 2012-02-20 | Method and system for providing statistical from a data warehouse |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014509008A true JP2014509008A (ja) | 2014-04-10 |
JP5963780B2 JP5963780B2 (ja) | 2016-08-03 |
Family
ID=44342862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013553965A Expired - Fee Related JP5963780B2 (ja) | 2011-02-21 | 2012-02-20 | データウェアハウスから統計を提供する方法およびシステム |
Country Status (11)
Country | Link |
---|---|
US (1) | US9710506B2 (ja) |
EP (1) | EP2490135A1 (ja) |
JP (1) | JP5963780B2 (ja) |
KR (1) | KR101673461B1 (ja) |
CN (1) | CN103548019B (ja) |
AU (1) | AU2012219687B2 (ja) |
BR (1) | BR112013018831A2 (ja) |
CA (1) | CA2824348A1 (ja) |
SG (1) | SG192164A1 (ja) |
WO (1) | WO2012113756A1 (ja) |
ZA (1) | ZA201305948B (ja) |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8914866B2 (en) | 2010-01-19 | 2014-12-16 | Envizio, Inc. | System and method for user authentication by means of web-enabled personal trusted device |
EP2727247B1 (en) * | 2011-06-30 | 2017-04-05 | Openwave Mobility, Inc. | Database compression system and method |
US20130132128A1 (en) | 2011-11-17 | 2013-05-23 | Us Airways, Inc. | Overbooking, forecasting and optimization methods and systems |
US11155772B2 (en) | 2012-03-20 | 2021-10-26 | Firmenich Sa | Compounds for a controlled release of active perfuming molecules |
US20140114717A1 (en) * | 2012-09-05 | 2014-04-24 | Moose Loop Holdings, LLC | Task Schedule Modification |
CN103885983B (zh) * | 2012-12-21 | 2017-09-01 | 阿里巴巴集团控股有限公司 | 一种旅游线路的确定方法、优化方法以及装置 |
US20140257881A1 (en) * | 2013-03-08 | 2014-09-11 | Us Airways, Inc. | Demand forecasting systems and methods utilizing fare adjustment |
US11321721B2 (en) | 2013-03-08 | 2022-05-03 | American Airlines, Inc. | Demand forecasting systems and methods utilizing prime class remapping |
US9727940B2 (en) | 2013-03-08 | 2017-08-08 | American Airlines, Inc. | Demand forecasting systems and methods utilizing unobscuring and unconstraining |
US20140278615A1 (en) | 2013-03-15 | 2014-09-18 | Us Airways, Inc. | Misconnect management systems and methods |
US9372889B1 (en) * | 2013-04-04 | 2016-06-21 | Amazon Technologies, Inc. | Incremental statistics update |
US10748087B2 (en) | 2014-01-17 | 2020-08-18 | American Airlines, Inc. | Determining even-spaced quantiles for network optimization |
US10755207B1 (en) | 2014-01-17 | 2020-08-25 | American Airlines, Inc. | Demand class remapping for airline seat bookings |
CN104133836B (zh) | 2014-06-24 | 2015-09-09 | 腾讯科技(深圳)有限公司 | 一种实现变更数据检测的方法及装置 |
CN105446991B (zh) * | 2014-07-07 | 2018-10-30 | 阿里巴巴集团控股有限公司 | 数据存储方法、查询方法及设备 |
KR101594916B1 (ko) * | 2014-08-25 | 2016-02-17 | (주)휴민텍 | 손상 감시 시스템 및 손상 감시 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 |
CN104182540B (zh) * | 2014-09-03 | 2017-10-27 | 北京国双科技有限公司 | 数据仓库中的索引统计信息处理方法及装置 |
CN104463420B (zh) * | 2014-11-05 | 2017-11-21 | 上海携程商务有限公司 | Ota网站的订单处理系统及方法 |
CN105574060A (zh) * | 2015-01-13 | 2016-05-11 | 北京中体骏彩信息技术有限公司 | 竞彩统计数据的提取方法 |
CN105989072B (zh) * | 2015-02-10 | 2019-09-27 | 阿里巴巴集团控股有限公司 | 去重计数方法及设备 |
US10146820B2 (en) * | 2015-09-24 | 2018-12-04 | Nxp Usa, Inc. | Systems and methods to access memory locations in exact match keyed lookup tables using auxiliary keys |
US10146854B2 (en) | 2016-02-29 | 2018-12-04 | International Business Machines Corporation | Continuous automatic update statistics evaluation using change data capture techniques |
CN106022896A (zh) * | 2016-06-07 | 2016-10-12 | 中国建设银行股份有限公司 | 用于交易统计的报表生成方法及系统 |
US20170364932A1 (en) * | 2016-06-21 | 2017-12-21 | Amadeus S.A.S. | Data warehouse for mining search query logs |
CN107704475B (zh) * | 2016-08-10 | 2021-12-14 | 泰康保险集团股份有限公司 | 多层分布式非结构化数据存储方法、查询方法及装置 |
CN106294860A (zh) * | 2016-08-23 | 2017-01-04 | 浪潮电子信息产业股份有限公司 | 一种实时索引数据同步的系统及其实现方法 |
US10657158B2 (en) * | 2016-11-23 | 2020-05-19 | Google Llc | Template-based structured document classification and extraction |
US11270395B2 (en) * | 2016-12-15 | 2022-03-08 | Mastercard International Incorporated | Systems and methods for building a data table to reduce false declines over a network |
EP3571651A1 (en) * | 2017-01-23 | 2019-11-27 | Amadeus S.A.S. | Record aggregation database |
WO2018140659A1 (en) * | 2017-01-25 | 2018-08-02 | Systems And Software Enterprises, Llc | Systems architecture for interconnection of multiple cabin aircraft elements |
US10909074B2 (en) * | 2017-04-18 | 2021-02-02 | Microsoft Technology Licensing, Llc | File table index aggregate statistics |
US11010387B2 (en) * | 2017-10-06 | 2021-05-18 | Microsoft Technology Licensing, Llc | Join operation and interface for wildcards |
KR102507837B1 (ko) * | 2017-11-14 | 2023-03-07 | 주식회사 케이티 | 데이터의 품질 관리 방법 및 장치 |
US10445422B2 (en) * | 2018-02-09 | 2019-10-15 | Microsoft Technology Licensing, Llc | Identification of sets and manipulation of set data in productivity applications |
CN109471852B (zh) * | 2018-05-29 | 2023-08-01 | 深圳平安医疗健康科技服务有限公司 | 医疗数据库建立方法、装置、计算机设备和存储介质 |
CN109299931A (zh) * | 2018-09-13 | 2019-02-01 | 百富计算机技术(深圳)有限公司 | 一种数据统计方法、系统及终端设备 |
CN112236759A (zh) * | 2018-09-14 | 2021-01-15 | 谷歌有限责任公司 | 日志结构合并森林中的交错合并 |
US11080358B2 (en) | 2019-05-03 | 2021-08-03 | Microsoft Technology Licensing, Llc | Collaboration and sharing of curated web data from an integrated browser experience |
US10983975B2 (en) | 2019-06-13 | 2021-04-20 | Ant Financial (Hang Zhou) Network Technology Co., Ltd. | Data block storage method and apparatus, and electronic device |
CN111190952B (zh) * | 2019-12-23 | 2023-10-03 | 中电海康集团有限公司 | 一种基于图像金字塔提取城市画像多尺度特征并持久化的方法 |
CN111782663B (zh) * | 2020-05-21 | 2023-09-01 | 浙江邦盛科技股份有限公司 | 一种提升聚合查询效率的聚合索引结构及聚合索引方法 |
CN112114531B (zh) * | 2020-08-10 | 2024-05-14 | 广州明珞装备股份有限公司 | 快速部署气缸逻辑块的方法、系统、设备和存储介质 |
CN112527828B (zh) * | 2020-12-10 | 2023-03-14 | 福建新大陆支付技术有限公司 | 一种税控机税控记录存储方法及检索查询方法 |
CN112528616B (zh) * | 2020-12-18 | 2023-08-22 | 平安银行股份有限公司 | 业务表单生成方法、装置、电子设备及计算机存储介质 |
KR102449580B1 (ko) * | 2021-02-15 | 2022-09-30 | (주)아이브릭스 | 컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법 |
US20220300869A1 (en) * | 2021-03-22 | 2022-09-22 | Sap Se | Intelligent airfare pattern prediction |
CN114185983A (zh) * | 2021-12-14 | 2022-03-15 | 中南大学 | 一种数据抽取管控方法、装置、设备及存储介质 |
WO2023211815A1 (en) * | 2022-04-24 | 2023-11-02 | Morgan Stanley Services Group Inc. | Distributed query execution and aggregation |
US11520739B1 (en) * | 2022-04-24 | 2022-12-06 | Morgan Stanley Services Group Inc. | Distributed query execution and aggregation |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08329101A (ja) * | 1995-05-30 | 1996-12-13 | Fujitsu Ltd | データベースシステム |
JPH11232283A (ja) * | 1998-02-10 | 1999-08-27 | Hitachi Ltd | 情報検索方法 |
US20030093424A1 (en) * | 2001-09-10 | 2003-05-15 | Seok-Ju Chun | Dynamic update cube and hybrid query search method for range-sum queries |
JP2008130084A (ja) * | 2006-11-23 | 2008-06-05 | Samsung Electronics Co Ltd | 最適化されたインデックス検索方法及び装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010068047A (ko) * | 2000-04-24 | 2001-07-13 | 김준수 | 인터넷 가상 여행 방법 및 장치 |
KR100473058B1 (ko) * | 2001-12-27 | 2005-03-08 | 삼성에스디에스 주식회사 | 관계형 데이타베이스 서버에서의 분석적 처리방법 |
US7181450B2 (en) * | 2002-12-18 | 2007-02-20 | International Business Machines Corporation | Method, system, and program for use of metadata to create multidimensional cubes in a relational database |
CN100359495C (zh) | 2003-09-04 | 2008-01-02 | 上海格尔软件股份有限公司 | 基于数据仓库的信息安全审计方法 |
US7461089B2 (en) * | 2004-01-08 | 2008-12-02 | International Business Machines Corporation | Method and system for creating profiling indices |
US7647356B2 (en) * | 2004-05-07 | 2010-01-12 | Oracle International Corporation | Methods and apparatus for facilitating analysis of large data sets |
US7415487B2 (en) * | 2004-12-17 | 2008-08-19 | Amazon Technologies, Inc. | Apparatus and method for data warehousing |
CN101763415B (zh) * | 2009-12-16 | 2012-10-17 | 北京握奇数据系统有限公司 | 一种数据库的b树索引的生成方法及装置 |
-
2011
- 2011-02-21 EP EP11305177A patent/EP2490135A1/en not_active Ceased
-
2012
- 2012-02-20 JP JP2013553965A patent/JP5963780B2/ja not_active Expired - Fee Related
- 2012-02-20 CN CN201280009577.8A patent/CN103548019B/zh not_active Expired - Fee Related
- 2012-02-20 AU AU2012219687A patent/AU2012219687B2/en not_active Ceased
- 2012-02-20 WO PCT/EP2012/052872 patent/WO2012113756A1/en active Application Filing
- 2012-02-20 US US13/979,699 patent/US9710506B2/en not_active Expired - Fee Related
- 2012-02-20 KR KR1020137023743A patent/KR101673461B1/ko active IP Right Grant
- 2012-02-20 SG SG2013057096A patent/SG192164A1/en unknown
- 2012-02-20 CA CA2824348A patent/CA2824348A1/en not_active Abandoned
- 2012-02-20 BR BR112013018831A patent/BR112013018831A2/pt not_active IP Right Cessation
-
2013
- 2013-08-07 ZA ZA2013/05948A patent/ZA201305948B/en unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08329101A (ja) * | 1995-05-30 | 1996-12-13 | Fujitsu Ltd | データベースシステム |
JPH11232283A (ja) * | 1998-02-10 | 1999-08-27 | Hitachi Ltd | 情報検索方法 |
US20030093424A1 (en) * | 2001-09-10 | 2003-05-15 | Seok-Ju Chun | Dynamic update cube and hybrid query search method for range-sum queries |
JP2008130084A (ja) * | 2006-11-23 | 2008-06-05 | Samsung Electronics Co Ltd | 最適化されたインデックス検索方法及び装置 |
Non-Patent Citations (1)
Title |
---|
JPN5014003979; JOACHIM HAMMER: 'CUBIST++: EVALUATING AD-HOC CUBE QUERIES USING STATISTICS TREES' DISTRIBUTED AND PARALLEL DATABASES V14 N3, 20031101, P221-254, KLUWER ACADEMIC PUBLISHERS * |
Also Published As
Publication number | Publication date |
---|---|
CA2824348A1 (en) | 2012-08-30 |
KR20140064718A (ko) | 2014-05-28 |
SG192164A1 (en) | 2013-08-30 |
US20140074853A1 (en) | 2014-03-13 |
EP2490135A1 (en) | 2012-08-22 |
CN103548019B (zh) | 2017-07-07 |
JP5963780B2 (ja) | 2016-08-03 |
WO2012113756A1 (en) | 2012-08-30 |
AU2012219687B2 (en) | 2015-02-26 |
AU2012219687A1 (en) | 2013-05-02 |
BR112013018831A2 (pt) | 2017-02-21 |
US9710506B2 (en) | 2017-07-18 |
CN103548019A (zh) | 2014-01-29 |
KR101673461B1 (ko) | 2016-11-08 |
ZA201305948B (en) | 2014-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5963780B2 (ja) | データウェアハウスから統計を提供する方法およびシステム | |
CA2864042C (en) | Database system using batch-oriented computation | |
US8103534B2 (en) | System and method for managing supplier intelligence | |
US20130073586A1 (en) | Database system using batch-oriented computation | |
KR102280223B1 (ko) | 빅데이터 기반의 상품구매 의사결정 지원 서비스 제공 방법 및 이를 위한 시스템 | |
KR102199620B1 (ko) | 빅데이터 기반 시계열 분석 및 가격 예측을 이용한 가격비교 서비스 제공 시스템 | |
Irudeen et al. | Big data solution for Sri Lankan development: A case study from travel and tourism | |
TW202137109A (zh) | 用於基於ai的產品整合及去冗餘的電腦實行系統及使用ai對產品進行整合及去冗餘的方法 | |
Höpken et al. | Tourism knowledge destination | |
Vinod | Big data in the travel marketplace | |
Adhinugroho et al. | Development of online travel Web scraping for tourism statistics in Indonesia | |
KR20080058569A (ko) | 자연어 처리기반의 여행 상품 검색 시스템 및 그 방법 | |
Bakaev et al. | Intelligent information system to support decision-making based on unstructured web data | |
Abd Al-Rahman et al. | Design and implementation of the web (extract, transform, load) process in data warehouse application | |
US20090150355A1 (en) | Software method for data storage and retrieval | |
Prabawa et al. | Analysis and Design Data Warehouse For E-Travel Business Optimization | |
US8504552B2 (en) | Query based paging through a collection of values | |
Saxena et al. | Business intelligence | |
JP2001028005A (ja) | データウェアハウスにおける検索・集計高速化を実現するデータ格納、更新、検索、集計方法 | |
Cortez et al. | Data Warehouse as a Paradigm of Efficiency in a Company | |
US8468039B2 (en) | Method for handling large amounts of standard data | |
Rahman | A Data Mining Framework for Automatic Online Customer Lead Generation | |
Zhu | Logistics system and process in express delivery service companies | |
Van Rensburg | An alternative to an operational system and data warehouse systems: a conceptual model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160428 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160530 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160628 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5963780 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |