JP5535062B2 - ウェブログの時系列分析のためのデータ格納および照会方法及びその方法を実行するシステム - Google Patents

ウェブログの時系列分析のためのデータ格納および照会方法及びその方法を実行するシステム Download PDF

Info

Publication number
JP5535062B2
JP5535062B2 JP2010506029A JP2010506029A JP5535062B2 JP 5535062 B2 JP5535062 B2 JP 5535062B2 JP 2010506029 A JP2010506029 A JP 2010506029A JP 2010506029 A JP2010506029 A JP 2010506029A JP 5535062 B2 JP5535062 B2 JP 5535062B2
Authority
JP
Japan
Prior art keywords
data
flow field
operator
field
selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010506029A
Other languages
English (en)
Other versions
JP2010525477A (ja
Inventor
キム・ドンウク
パク・ハンドル
チョン・チュウォン
リ・ヨンシク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2010525477A publication Critical patent/JP2010525477A/ja
Application granted granted Critical
Publication of JP5535062B2 publication Critical patent/JP5535062B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ウェブログ(weblog)の時系列分析(time series analysis)のためのデータ格納および照会方法及びその方法を実行するシステムに関し、より詳細にはデータ、特にウェブログにおいて、ウェブログの時系列分析に適するデータ格納および照会方法およびシステムに関する。
現在、データベース製品の大多数は、関係型データモデルを採用している。既存のデータモデルとして用いられていた階層形データモデル、ネットワーク型データモデルが存在したが、関係型データモデルの構造が既存のデータモデルに比べてより柔軟に実世界を現実感があるように反映することができるため、他の2つのモデルよりも多くのデータベースシステムに実現されている。これにより、関係型データモデルを支援する関係型データベース管理システム(RDBMS)製品がデータベース市場を支配するようになった。
このような関係型データモデルは、基本的に次のような核心的な3つの構成要素で構成されており、下記の3つの概念は、実世界のすべての業務体系を含むことができる。

1.個体(Entity):システム化しようとする事実と、オブジェクト。
2.関係(Relationship):オブジェクト間とオブジェクトの属性間との関連性。
3.属性(Attribute):オブジェクトと関係性の性質を示す、これ以上分けることのできない情報の単位。
しかしながら、このような関係型データモデルに基づいて開発された関係型データベースは、データフィールドの個数が予め固定され、したがって、状況に応じて表現しなければならない情報が追加的に発生する場合、関係型データベースではこれを効果的に表現することができない。このような問題点を解決するために、関係型データベースでは、余分なフィールドを予め生成しておき、情報が追加的に発生するときに一時的に使用される。
また、関係型データベースは、1つのフィールドに複数の値が繰り返されることを表現できない。例えば、ある顧客が購買した商品リストのようなものは、関係型データモデルでは直接に表現することができないため、別途のテーブルに区分した後、ジョインなどの演算を用いて後で連結して情報を用いることができるようにすることが一般的である。これは関係型データモデルにおいて薦められる方式である。
図1は、従来技術において、関係型データモデルに基づく関係型データベースの問題点を説明するための一例である。
関係型データモデルは、図面符号110に示すように、関連するレコードごとにバインディングされた値のみに依存し、すなわち、関係型データモデルでは、整列されたレコード間の順序には何らの意味も持たない。図1を参照すると、同一人物「Park」111に対応する値「b」112と「c」113に対する時系列分析が不可能である。予め定義されて固定された属性の順序を用いるため、属性間の関係を効果的に表現するインデキシング構造が存在せず、したがって、図面符号120のように全体レコードを再構成する過程が必要となる。
上述のように、このような関係型データモデルを用いる方法は、ウェブログの時系列分析などではその分析を困難にする原因となる。ある人物の行動パターンを記録しようとする場合、関係型データモデルにおける上述の限界のため、ある人物の行動パターンを互いに異なるテーブル、互いに異なるレコードに別々に記録しなければならない。
したがって、別々に記録された行動パターン間の関連性を検出しようとすれば、演算コストが高いジョインなどのような演算を用いなければならず、SQL(Structured Query Language)の記述も困難となる。さらに、SQLで記述されていても、この記述されたSQLの処理に極めて複雑な構造を有するようになるという問題点がある。
本発明は、上述した従来技術の問題点を解決するために、ウェブログの時系列分析のためのデータ格納および照会方法、またはこの方法を実行するシステムを提案する。
本発明は、ウェブログを、フィールド名およびフィールド値の集合である流動フィールド(floating field)、流動フィールドの時計列的な配列である流動フィールドタプル(floating field tuple)、流動フィールドタプルの集合である流動フィールド関係データ(floating field relation data)で構成して格納および照会することにより、ウェブログの時系列分析を簡単かつ簡便に実行することを目的とする。
本発明は、ウェブログだけでなく、時系列分析を要求するすべてのデータに対して流動フィールド関係データを生成して格納および照会を実行することができるデータモデルを提供することを他の目的とする。
上述した目的を達成し、上述した従来技術の問題点を解決するために、本発明の一実施形態に係るウェブログに基づくデータ格納および照会方法は、ウェブログおよび前記ウェブログの発生時間に基づいて流動フィールド関係データを生成および維持し、ユーザ端末機を介して入力されたデータ演算子(data operator)に応じて前記流動フィールド関係データを処理することを含む。
本発明の一側によれば、ウェブログに基づいて流動フィールド関係データを生成し、生成された流動フィールド関係データを維持することには、ウェブログを解析して前記ウェブログからデータを抽出し、前記データを前記ウェブログが含むユーザログイン識別子に応じて分類し、同じユーザログイン識別子に対して前記データを発生時間順に整列して前記流動フィールド関係データを生成することを含む。
本発明の他の側面によれば、前記流動フィールド関係データは、少なくとも1つの流動フィールドタプルを含むことができ、前記流動フィールドタプルは、フィールド名およびフィールド値の集合である流動フィールドが発生時間順に整列されることができる。
本発明のさらに他の側面によれば、前記データ演算子は、ジョイン(join)演算子、スプリット(split)演算子、および選択および射影(select−and−project)演算子のうちの少なくとも1つの演算子を含むことができ、流動フィールド関係データの処理には、次の(a)、(b)、(c)の少なくとも一つを含むことができる:(a)前記ジョイン演算子に応じて前記流動フィールド関係データが含む流動フィールドタプルを結合すること。(b)前記スプリット演算子に応じて流動フィールドタプルを複数の流動フィールドタプルに分離すること。(c)前記選択および射影演算子に応じて前記流動フィールド関係データから値を抽出して前記ユーザ端末機に提供すること。
本発明の他の実施形態において、データ格納および照会方法は、データを各識別子に分類し、前記データを前記データの発生時間順に整列して流動フィールド関係データを生成する前処理ステップを含む。
本発明によれば、ウェブログをフィールド名およびフィールド値の集合である流動フィールド、流動フィールドの時計列的羅列である流動フィールドタプル、流動フィールドタプルの集合である流動フィールド関係データで構成して格納および照会するので、ウェブログの時系列分析を簡単かつ簡便に実行することができる。
本発明によれば、ウェブログだけではなく、時系列分析を要求するすべてのデータに対して流動フィールド関係データを生成して格納および照会を実行することができるデータモデルを提供することができる。
従来技術において、関係型データモデルに基づく関係型データベースの問題点を説明するための一例である。 本発明の第1実施形態において、データ格納および照会システムを概括的に示す一例である。 本発明の第1実施形態において、ウェブログに基づくデータ格納および照会方法を示すフローチャートである。 本発明に係るジョイン演算を説明するための一例である。 本発明に係るスプリット演算を説明するための一例である。 本発明の第2実施形態において、データ格納および照会方法を示すフローチャートである。 本発明の第3実施形態において、データ格納および照会システムの内部構成を説明するためのブロック図である。
以下、添付の図面を参照しながら、本発明に係る多様な実施形態について詳しく説明する。
図2は、本発明の第1実施形態において、データ格納および照会システムを概括的に示す一例である。
ログ収集部201は、それぞれのウェブサーバから伝達されたウェブログを受信し、前処理部202は、ウェブログを統合し、統合されたウェブログからデータを抽出する。このとき、前処理部202は、抽出されたデータを介して、少なくとも1つの流動フィールドタプルの集合である流動フィールド関係データを生成することができる。
図2には、流動フィールド関係データが分散システム203に保管される場合が示されている。すなわち、流動フィールド関係データは、このような分散システム203の流動フィールド関係データベースに格納することができる。
このように格納された流動フィールド関係データは、ユーザ端末機から入力されたジョイン演算子、スプリット演算子、選択および射影演算子などのデータ演算子204を介して照会され、照会の結果は加工および可視化250がされユーザ端末機に提供することができる。
図3は、本発明の第1実施形態において、ウェブログに基づくデータ格納および照会の方法を示すフローチャートを示す。
処理S310において、ウェブログに基づくデータ格納および照会システムは、ウェブログおよびウェブログの発生時間に基づいて流動フィールド関係データを生成および維持する。このとき、流動フィールド関係データは、少なくとも1つの流動フィールドタプルを含むことができ、流動フィールドは、フィールド名およびフィールド値の集合であり、流動フィールドタプルの中で発生時間順に整列することができる。また、フィールド名は、ユーザログイン識別子に対応するユーザの操作または状態を定義することができ、フィールド値は、ユーザの操作または状態に対応する実際の値を含むことができる。
例えば、フィールド名として「id」を、フィールド名に対応するフィールド値として「Kim」を使用する場合、データ格納および照会システムは、所定のユーザのユーザログイン識別子が「Kim」であることが分かる。フィールド名およびフィールド値の集合は、流動フィールドとして<id=Kim>により表記することができる。流動フィールドの他の例として、<id=Kim>に追加的にさらに異なる流動フィールドが追加され、言い換えれば、フィールド名としてユーザが訪問したウェブページを意味する「node」と、フィールド値としてウェブページの実際の値を意味する「ホーム」が使用される場合、データ格納および照会システムは、ユーザログイン識別子「Kim」が「ホーム」を訪問したことが分かる。
このように、流動フィールドは、同じユーザログイン識別子に対して発生時間順に整列することができ、整列された流動フィールドのシーケンスは、流動フィールドタプルとして定義することができる。すなわち、流動フィールドタプルは、同じユーザログイン識別子を有するユーザの状態と操作に対するデータを状態と操作の発生時間順に含むことができる。
言い換えれば、流動フィールドタプルを介して、流動フィールド関係データは、ウェブログが含むすべてのユーザそれぞれの時間順に従って状態と操作に関するデータを意味することができ、これにより、ウェブログの時系列分析が可能となる。
例えば、<id=Kim><node=メール><node=メインホーム><node=ゲームA>のような流動フィールドタプルを用いれば、データ格納および照会システムにおいて、ユーザログイン識別子「Kim」を用いるユーザが「メインホーム」を介して「ゲームA」のウェブページにアクセスしたことを確認することができる。すなわち、「メインホーム」を介して「メール」を読んだ後、再び「メインホーム」を介して「ゲームA」にアクセスしたユーザを照会すことが可能となる。
このように、流動フィールド関係データを生成および維持するために、データ格納および照会システムは、図3に示すように、処理S310に処理S311〜処理S313を含み、実行することができる。
処理S311において、データ格納および照会システムは、ウェブログを解析してウェブログからデータを抽出する。特に、データ格納および照会システムは、ウェブログから流動フィールド関係データを生成するために定型化されたデータを抽出する。
処理S312において、データ格納および照会システムは、データをウェブログが含むユーザログイン識別子に応じて分類する。一般的に、ウェブログには、複数の人による訪問ログが時間順に格納される。また、通常、複数のウェブサーバを介して訪問ログが格納されるため、同じユーザに対する記録が異なるウェブサーバに格納されることがある。したがって、このように、全てのウェブサーバに分散して格納されたウェブログをすべて集めた後にそれぞれのユーザに対応するデータを集め、データの分類が必要となる。
処理S313において、データ格納および照会システムは、同じユーザログイン識別子に対してデータを発生時間順に整列して流動フィールド関係データを生成する。特に、データ格納および照会システムは、発生時間順に分類されたユーザログイン識別子のデータを整列することにより、流動フィールド関係データを生成することができる。このとき、データそれぞれは、上述した流動フィールドそれぞれに該当することができる。
処理S320において、データ格納および照会システムは、ユーザ端末機を介して入力されたデータ演算子に応じて流動フィールド関係データを処理する。このとき、データ演算子は、ジョイン演算子、スプリット演算子、および選択および射影演算子のうちの少なくとも1つの演算子を含むことができる。
このとき、データ格納および照会システムは、データ演算子に応じて流動フィールド関係データを処理するために、以下の(a)、(b)及び(c)のうちのどの一つでも含むことができる:(a)ジョイン演算子に応じて流動フィールド関係データが含む流動フィールドタプルを結合すること、(2)スプリット演算子に応じて流動フィールドタプルを複数の流動フィールドタプルに分離すること及び(3)選択および射影演算子に応じて流動フィールド関係データから値を抽出してユーザ端末機に提供すること。値とは、複数の流動フィールドがそれぞれ含む実際の値の集合を意味することができる。
また、データ演算子は、このようなジョイン、スプリット、及び、選択および射影の演算子の中の複数の演算子を含むことも可能である。すなわち、1つの流動フィールドタプルを複数の流動フィールドタプルに分離した後に値を抽出すること、および複数の流動フィールドタプルを1つの流動フィールドタプルで結合した後に値を抽出することも可能である。
図4は、本発明に係るジョイン演算を説明するための一例図である。
上述したように、流動フィールドタプルは、流動フィールドの配列であり、流動フィールドは、1人のユーザの情報である。流動フィールドタプルを分析しようとするときには、ある一人のユーザの1週間や1ヶ月の行動パターンが分析される。このような場合、ユーザに対して1ヶ月以上の期間に対して流動フィールドを集めて流動フィールドタプルを生成する必要がある。技術的または保管上の理由により、このような全体流動フィールドを1つの流動フィールドタプルで生成しておくことよりも、任意の期間に対する流動フィールドタプルを動的に生成すると便利である。
すなわち、1人のユーザに対して短い時間単位で複数の流動フィールドタプルを生成し、必要に応じ、ジョイン演算子を用いて流動フィールドタプルを結合することにより、ユーザの行動パターンに対する流動フィールドタプルを得ることができる。例えば、流動フィールドタプルを一単位で生成し、1月2日に該当する流動フィールドタプルと1月3日に該当する流動フィールドタプルを、ジョイン演算子を介して結合することにより、1月2日から1月3日までの期間に該当する流動フィールドタプルを生成することができる。
データ格納および照会システムは、ジョイン演算子がユーザ端末機を介して入力されると、ジョイン演算子に含まれる条件に応じて、ジョイン演算を実行することができる。特に、ジョイン演算は、条件に該当する複数の流動フィールドタプルを結合して1つの流動フィールドタプルを生成する演算を含むことができる。
データ格納および照会システムは、図4に示すように、第1流動フィールドタプル401と第2流動フィールドタプル402に対してジョイン演算403を実行して第3流動フィールドタプル404を生成することができる。このとき、第3流動フィールドタプル404に示されているように、流動フィールドを、発生時間順に整列することができる。
図5は、本発明に係るスプリット演算を説明するための一例図である。
データ格納および照会システムは、ユーザ端末機を介して入力されたスプリット演算子およびスプリット演算子が含む条件に応じてスプリット演算を実行することができる。スプリット演算は、ジョイン演算とは正反対の演算であり、選択された流動フィールドタプルを意味ある単位の流動フィールドタプルドルに分離する。
一般的に、ウェブログ分析を行うとき、意味あるユーザの訪問は30分単位で認識される。すなわち、ユーザの任意の行為が30分間発生しない場合、ユーザの任意の行為が一段落したと判断することが一般的である。したがって、1日単位で流動フィールドタプルが構成されていたとしても、30分単位で流動フィールドタプルを分離する必要があることがあり、このために、データ格納および照会システムは、スプリット演算を実行する必要がある。
データ格納および照会システムは、図5に示すように、発生時間順に整列された流動フィールドの第1流動フィールドタプル501に対するスプリット演算502を実行することができる。図5を参照すると、30分単位で第1流動フィールドを分離し、第1流動フィールドタプル501は、複数の流動フィールドタプル503に分離される。その時間単位は、スプリット演算子の条件に含ませることができる。また、条件は、第1流動フィールドタプル501を選択する内容を含むことができる。
最後に、選択および射影演算子は、流動フィールド関係データから特定パターンを探し、特定パターン内における値を抽出し、選択および射影演算子の文法としては、正規表現を用いることができる。
例えば、ユーザ端末機を介して<id=Kim>(<node=(¥w*)>)*として入力された選択および射影演算子に対し、データ格納および照会システムは、ユーザログイン識別子として「Kim」を用いるユーザが訪問したすべてのノードを探し、すべてのノードに対する実際の値を抽出してユーザ端末機に提供することができる。
他の例として、<id=Lee><node=ホーム>(<node=(¥w*)>)*のような選択および射影演算子が入力された場合、データ格納および照会システムは、<id=Lee><node=ホーム>(<node=(¥w*)>)*の選択および射影演算子に対して、ユーザログイン識別子として「Lee」を用いるユーザが「ホーム」を訪問した後すぐに訪問したすべてのノードを探し、すべてのノードに対する実際の値を抽出して提供することができる。このとき、ノードは、ウェブページを意味することができる。
このように、本発明によれば、ウェブログをフィールド名およびフィールド値の集合である流動フィールド、流動フィールドの時系列的羅列である流動フィールドタプル、流動フィールドタプルの集合である流動フィールド関係データで構成し、データを格納および照会することにより、ウェブログの時系列分析を簡単かつ簡便に実行することができる。
図6は、本発明の第2実施形態に係る、データ格納および照会方法を示すフローチャートである。
処理S601において、データ格納および照会システムは、データを識別子別に応じて分類し、同じ識別子に対してデータを発生時間順に整列して流動フィールド関係データを生成する。このとき、流動フィールド関係データは、少なくとも1つの流動フィールドタプルを含むことができ、流動フィールドタプルは、フィールド名およびフィールド値の集合である流動フィールドを発生時間順に整列して含むことができる。フィールド名は、ユーザログイン識別子に対応するユーザの操作または状態を定義することができ、フィールド値は、操作または状態に対応する実際の値を含むことができる。
データは、時系列分析を必要とするすべてのデータを含むことができる。すなわち、時系列分析を必要とするデータに同じ識別子を付与し、データを発生時間順に整列することにより、同じ識別子を有するデータは流動フィールド関係データを生成することができる。特に、データは、ウェブログを解析して生成することができ、識別子は、ウェブログに含まれるユーザログイン識別子を含むことができる。このとき、1つのデータは流動フィールドであり、フィールド名およびフィールド値を有し、同じ識別子を有するデータは、流動フィールドタプルとして構成することができる。
処理S602において、データ格納および照会システムは、流動フィールド関係データを流動フィールド関係データベースに格納および維持する。流動フィールド関係データは、後述するデータ演算子に応じて変更され、再び流動フィールド関係データベースに格納されたり、または該当する実際の値を検索して抽出するために用いられたりすることができる。
処理S603において、データ格納および照会システムは、ユーザ端末機を介して入力されたデータ演算子に応じて流動フィールド関係データを変更したり、流動フィールド関係データから値を抽出したりする。値は、複数の流動フィールドがそれぞれ含む実際の値の集合を意味することができ、データ演算子は、ジョイン演算子、スプリット演算子、および選択および射影演算子のうちの少なくとも1つを含むことができる。
ジョイン演算子は、流動フィールド関係データを変更するジョイン演算に対応することができ、ジョイン演算は、ジョイン演算子が指定する同じ識別子の異なる流動フィールドタプルを結合して1つの流動フィールドタプルを生成する演算とすることができる。すなわち、同じ識別子を含む流動フィールドタプルドルは、ジョイン演算によって結合されることができる。
スプリット演算子は、流動フィールド関係データを変更するスプリット演算に対応することができ、スプリット演算は、スプリット演算子が指定する1つの流動フィールドタプルをスプリット演算子が含む時間単位に応じて複数の流動フィールドタプルに分離する演算とすることができる。言い換えれば、1つの流動フィールドタプルは、時間単位に応じて同じ識別子を有する複数の流動フィールドタプルに、スプリット演算によって分離することができる。
最後に、選択および射影演算子は、流動フィールド関係データの値を抽出する選択および射影演算に対応することができ、選択および射影演算は、流動フィールド関係データベースから選択および射影演算子が含む条件による特定パターンを検索し、検索された特定パターン内の値を抽出する演算とすることができる。選択および射影演算子は、正規表現を用いることができる。
ここで、データ演算子は、このようなジョイン演算子、スプリット演算子、および選択および射影演算子の中からの複数の演算子を含むことも可能である。すなわち、1つの流動フィールドタプルを複数の流動フィールドタプルに分離した後に値を抽出したり、または複数の流動フィールドタプルを1つの流動フィールドタプルで結合した後に値を抽出したりする両方が可能である。
本発明によれば、ウェブログをフィールド名およびフィールド値の集合である流動フィールド、流動フィールドの時計列的配列である流動フィールドタプル、流動フィールドタプルの集合である流動フィールド関係データで構成し、データを格納および照会することにより、ウェブログの時系列分析を簡単かつ簡便に実行し、時系列分析を必要とするすべてのデータに対して流動フィールド関係データを生成、格納および維持することができるデータモデルを提供することができる。
図7は、本発明の第3実施形態において、データ格納および照会システムの内部構成を説明するためのブロック図である。図7に示すように、データ格納および照会システム700は、流動フィールド関係データ生成部701と、流動フィールド関係データベース702と、データ演算子処理部703とを備える。
流動フィールド関係データ生成部701は、データを識別子別に分類し、同じ識別子に対してデータをデータの発生時間順に整列して流動フィールド関係データを生成する。このとき、流動フィールド関係データは、少なくとも1つの流動フィールドタプルを含むことができ、流動フィールドタプルは、フィールド名およびフィールド値の集合である流動フィールドを時間順に整列して含むことができる。また、フィールド名は、識別子に対応するユーザの操作または状態を定義することができ、フィールド値は、操作または状態に対応する実際の値を含むことができる。
流動フィールド関係データベース702は、流動フィールド関係データを格納および維持する。
データ演算子処理部703は、ユーザ端末機を介して入力されたデータ演算子に応じて流動フィールド関係データを変更したり、流動フィールド関係データの値を抽出したりする。このとき、値は、複数の流動フィールドがそれぞれ含む実際の値の集合を意味することができ、データ演算子は、ジョイン演算子、スプリット演算子、および選択および射影演算子のうちの少なくとも1つを含むことができる。
ジョイン演算子は、流動フィールド関係データを変更するジョイン演算に対応することができ、ジョイン演算は、ジョイン演算子が指定する同じ識別子の異なる流動フィールドタプルを結合して1つの流動フィールドタプルを生成する演算とすることができる。すなわち、同じ識別子を含む流動フィールドタプルドルは、ジョイン演算によって結合することができる。
また、スプリット演算子は、流動フィールド関係データを変更するスプリット演算に対応することができ、スプリット演算は、スプリット演算子が指定する1つの流動フィールドタプルをスプリット演算子が含む時間単位に応じて複数の流動フィールドタプルに分離する演算とすることができる。言い換えれば、1つの流動フィールドタプルは、時間単位に応じて同じ識別子を有する複数の流動フィールドタプルに、スプリット演算によって分離することができる。
最後に、選択および射影演算子は、流動フィールド関係データの値を抽出する選択および射影演算に対応することができ、選択および射影演算は、流動フィールド関係データベースから選択および射影演算子が含む条件による特定パターンを検索し、検索された特定パターン内の値を抽出する演算とすることができる。このような選択および射影演算子は、正規表現を用いることができる。
データ演算子は、このようなジョイン演算子、スプリット演算子、および選択および射影演算子の中からの複数の演算子を含むことも可能である。すなわち、1つの流動フィールドタプルを複数の流動フィールドタプルに分離した後に値を抽出したり、または複数の流動フィールドタプルを1つの流動フィールドタプルで結合した後に値を抽出したりする両方が可能である。
本発明によれば、ウェブログをフィールド名およびフィールド値の集合である流動フィールド、流動フィールドの時計列的配列である流動フィールドタプル、流動フィールドタプルの集合である流動フィールド関係データで構成して格納および照会することにより、ウェブログの時系列分析を簡単かつ簡便に実行でき、時系列分析を必要とするすべてのデータに対して流動フィールド関係データを生成、格納、維持することができるデータモデルを提供することができる。
本発明に係る上述の実施形態に係るウェブログに基づくデータの格納および紹介方法は、は、コンピュータにより実現される多様な動作を実行するためのプログラム命令を含むコンピュータ読取可能な記録媒体に記録してもよい。当該記録媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含むこともできる。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROMディスク、DVDのような光記録媒体、オプティカルディスクのような光磁気媒体、およびROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例としては、コンパイラによって生成されるような機械語コードと、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードを含むファイルとを含む。前記したハードウェア要素は、本発明の動作を実行するために一以上のソフトウェアモジュールとして作動するように構成することができる。
本発明によれば、ウェブログをフィールド名およびフィールド値の集合である流動フィールド、流動フィールドの時計列的羅列である流動フィールドタプル、流動フィールドタプルの集合である流動フィールド関係データで構成して格納および照会するので、ウェブログの時系列分析を簡単かつ簡便に実行することができる。
本発明によれば、ウェブログだけではなく、時系列分析を要求するすべてのデータに対して流動フィールド関係データを生成して格納および照会を実行することができるデータモデルを提供することができる。
上述により、本発明の好ましい実施形態を例示と説明のために参照して説明した。これらは発明の全てではなく、また、開示される形態に発明が制限されることはなく、あきからに多様な修正および変更が上記の開示により可能である。したがって、添付の請求項及びその均等物により、本発明の範囲が定義される。
本願発明のいくつかの実施形態が示され、記述されたが、本願発明は上述の実施形態に限定されることはない。そのかわり、当業者にとっては、特許請求の範囲に記載された本発明の思想および領域から逸脱しない範囲内で、本発明を多様に修正および変更させることができることを理解することができるであろう。

Claims (12)

  1. コンピュータが、ウェブログおよび前記ウェブログの発生時間に基づいて、ユーザログイン識別子に対して前記ウェブログが含む状態と操作に対応する実際の値を表わすフィールド名とフィールド値との一または複数の組である流動フィールドタプルを前記ウェブログの発生時間順に含む流動フィールド関係データを生成し、および生成された流動フィールド関係データを維持し、
    前記コンピュータが、ユーザ端末機を介して入力されたデータ演算子に応じて前記流動フィールド関係データを処理することを含み、
    前記流動フィールド関係データを処理することは、次の(a)または(b)を少なくとも含む、ウェブログに基づくデータの格納および照会方法。
    (a)ジョイン演算子に応じて前記流動フィールド関係データが含む流動フィールドタプルを結合すること。(b)スプリット演算子に応じて流動フィールドタプルを複数の流動フィールドタプルに分離すること。
  2. 前記流動フィールド関係データを生成し、および生成された流動フィールド関係データを維持することには、
    前記コンピュータは、前記ウェブログを解析し前記ウェブログからデータを抽出し、
    前記コンピュータは、前記データを前記ウェブログが含むユーザログイン識別子に応じて分類し、
    前記コンピュータは、同じユーザログイン識別子に対して前記データを発生時間順に整列して前記流動フィールド関係データに追加することが含まれる、請求項1に記載のデータの格納および照会方法。
  3. 前記データ演算子は、さらに選択および射影演算子演算子を含み、
    前記流動フィールド関係データの処理は、さらに次の(c)を含む、請求項1に記載のデータ格納および照会方法。
    (c)前記選択および射影演算子に応じて前記流動フィールド関係データから値を抽出して前記ユーザ端末機に提供すること。
  4. コンピュータが、データを識別子別に分類し、
    前記コンピュータが、同じ識別子に対して前記データを前記データの発生時間順に整列して前記データを表わすフィールド名とフィールド値との一または複数の組である流動フィールドタプルを含む流動フィールド関係データを生成することを含むデータの格納および照会方法であり、
    前記フィールド名は、前記識別子に対応するユーザの操作または状態を定義し、
    前記フィールド値は、前記操作または前記状態に対応する実際の値を含み、
    前記コンピュータは、前記流動フィールド関係データを流動フィールド関係データベースに格納および維持し、
    ユーザ端末機を介して入力されたデータ演算子に応じて、前記流動フィールド関係データの変更または前記流動フィールド関係データの値の抽出を行うことをさらに含み、
    前記データ演算子は、ジョイン演算子、スプリット演算子、および選択および射影演算子のうちの少なくとも1つを含み、
    前記ジョイン演算子は、前記流動フィールド関係データを変更するジョイン演算に対応し、
    前記ジョイン演算は、前記ジョイン演算子が指定する同じ識別子の、異なる流動フィールドタプルを結合して1つの流動フィールドタプルを生成する演算であり、
    前記スプリット演算子は、前記流動フィールド関係データを変更するスプリット演算に対応し、
    前記スプリット演算は、スプリット演算子が指定する1つの流動フィールドタプルを前記スプリット演算子が含む時間単位に応じて複数の流動フィールドタプルに分離する演算であり、
    前記選択および射影演算子は、前記流動フィールド関係データの値を抽出する選択および射影演算に対応し、
    前記選択および射影演算は、前記流動フィールド関係データベースから前記選択および射影演算子が含む条件による特定パターンを検索し、前記検索された特定パターン内の値を抽出する演算であるデータ格納および照会方法。
  5. 前記データは、ウェブログを解析して生成され、
    前記識別子は、前記ウェブログに含まれたユーザログイン識別子を含む請求項4に記載のデータ格納および照会方法。
  6. 請求項1〜のうちのいずれか一項の方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  7. データをそれぞれの識別子別に分類し、前記データを発生時間順に整列して前記データを表わすフィールド名とフィールド値との一または複数の組である流動フィールドタプルを含む流動フィールド関係データを生成する流動フィールド関係データ生成部と、
    前記流動フィールド関係データを格納および維持する流動フィールド関係データベースと、
    ユーザ端末機を介して入力されたデータ演算子に応じて前記流動フィールド関係データを変更するデータ演算子処理部と、
    を備え
    前記流動フィールド関係データを変更することは、次の(a)または(b)を少なくとも含む、データ格納および照会システム。
    (a)ジョイン演算子に応じて前記流動フィールド関係データが含む流動フィールドタプルを結合すること。(b)スプリット演算子に応じて流動フィールドタプルを複数の流動フィールドタプルに分離すること。
  8. 前記フィールド名は、前記識別子に対応するユーザの操作または状態を定義し、
    前記フィールド値は、前記ユーザの操作または状態に対応する実際の値を含む請求項に記載のデータ格納および照会システム。
  9. 前記データ演算子は、さらに選択および射影演算子み、
    前記流動フィールド関係データの処理は、さらに次の(c)を含む請求項に記載のデータ格納および照会システム。
    (c)前記選択および射影演算子に応じて前記流動フィールド関係データから値を抽出して前記ユーザ端末機に提供すること。
  10. 前記ジョイン演算子は、前記流動フィールド関係データを変更するジョイン演算に対応し、
    前記ジョイン演算は、前記ジョイン演算子が指定する同じ識別子の、異なる流動フィールドタプルを結合して1つの流動フィールドタプルを生成する演算である請求項に記載のデータ格納および照会システム。
  11. 前記スプリット演算子は、前記流動フィールド関係データを変更するスプリット演算に対応し、
    前記スプリット演算は、スプリット演算子が指定する1つの流動フィールドタプルを前記スプリット演算子が含む時間単位に応じて複数の流動フィールドタプルに分離する演算である請求項に記載のデータ格納および照会システム。
  12. 前記選択および射影演算子は、前記流動フィールド関係データの値を抽出する選択および射影演算に対応し、
    前記選択および射影演算は、前記流動フィールド関係データベースから前記選択および射影演算子が含む条件による特定パターンを検索し、前記検索された特定パターン内の値を抽出する請求項に記載のデータ格納および照会システム。
JP2010506029A 2007-04-26 2008-02-01 ウェブログの時系列分析のためのデータ格納および照会方法及びその方法を実行するシステム Active JP5535062B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2007-0040782 2007-04-26
KR1020070040782A KR100898465B1 (ko) 2007-04-26 2007-04-26 웹로그의 시계열 분석을 위한 데이터 저장 및 조회 방법그리고 상기 방법을 수행하는 시스템
PCT/KR2008/000610 WO2008133396A1 (en) 2007-04-26 2008-02-01 Data storage and inquiry method for time series analysis of weblog and system for executing the method

Publications (2)

Publication Number Publication Date
JP2010525477A JP2010525477A (ja) 2010-07-22
JP5535062B2 true JP5535062B2 (ja) 2014-07-02

Family

ID=39925821

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010506029A Active JP5535062B2 (ja) 2007-04-26 2008-02-01 ウェブログの時系列分析のためのデータ格納および照会方法及びその方法を実行するシステム

Country Status (3)

Country Link
JP (1) JP5535062B2 (ja)
KR (1) KR100898465B1 (ja)
WO (1) WO2008133396A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2772746C (en) * 2009-08-31 2019-06-11 Exalead Trusted query system and method
KR101435789B1 (ko) * 2013-01-29 2014-08-29 (주)소만사 Dlp 시스템의 빅데이터 처리 시스템 및 방법
JP5766344B1 (ja) 2014-07-11 2015-08-19 住友精化株式会社 吸水性樹脂及び吸収性物品
CN104866632B (zh) * 2015-04-30 2018-03-06 广东美的制冷设备有限公司 家电设备的故障数据获取方法、装置及终端
CN106874320A (zh) 2016-06-20 2017-06-20 阿里巴巴集团控股有限公司 分布式流式数据处理的方法和装置
KR20200025408A (ko) 2018-08-30 2020-03-10 주식회사 호텔신라 실시간 이벤트 처리를 이용한 실시간 오퍼 제공 방법 및 서버 시스템
KR102516669B1 (ko) 2019-12-11 2023-04-03 김현식 데클엣지를 갖는 한지 사진 제작 방법 및 그 장치
KR102515932B1 (ko) 2020-05-25 2023-03-30 인핸스비 주식회사 글로벌 b2b를 위한 언네임드 제품 거래 시스템 및 그 방법
KR102217990B1 (ko) 2020-07-29 2021-02-19 주식회사 순수교육 외국어 수면 학습 시스템

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2298941B (en) * 1993-10-22 1998-02-04 Fdc Inc Database using table rotation and bimapped queries
JP3914662B2 (ja) * 1999-06-30 2007-05-16 株式会社日立製作所 データベース処理方法及び実施装置並びにその処理プログラムを記憶した媒体
JP3630062B2 (ja) * 2000-02-21 2005-03-16 日本電信電話株式会社 半構造化文書検索方法及び装置及び半構造化文書検索プログラムを格納した記憶媒体
KR100430479B1 (ko) * 2000-12-23 2004-05-10 한국전자통신연구원 시간 간격을 고려한 시간 관계 규칙 탐사 시스템 및 그 방법
KR100537415B1 (ko) * 2003-07-05 2005-12-19 윤경배 앙상블 서포트 벡터 머신을 이용한 인터넷 환경의 웹 정보예측 시스템 및 방법
JP2006260420A (ja) * 2005-03-18 2006-09-28 Fujitsu Ltd ウェブサイト分析システム

Also Published As

Publication number Publication date
JP2010525477A (ja) 2010-07-22
WO2008133396A1 (en) 2008-11-06
KR100898465B1 (ko) 2009-05-21
KR20080096004A (ko) 2008-10-30

Similar Documents

Publication Publication Date Title
JP5535062B2 (ja) ウェブログの時系列分析のためのデータ格納および照会方法及びその方法を実行するシステム
JP6133274B2 (ja) データクエリの管理
Dourish No SQL: The shifting materialities of database technology
CN107251024A (zh) 用于诊断执行问题的数据库查询执行跟踪和数据生成
US20040015486A1 (en) System and method for storing and retrieving data
CN101438280A (zh) 管理相关数据对象
CN116450908B (zh) 基于数据湖的自助式数据分析方法、装置和电子设备
Yan et al. Generating process model collections
EP2019362A2 (en) Spatial data validation systems
CN110321446A (zh) 相关数据推荐方法、装置、计算机设备及存储介质
Nevarez Inside the SQL Server Query Optimizer
JP5639417B2 (ja) 情報処理装置、情報処理方法、及びプログラム
TWI296380B (en) Method and apparatus for electronic document collection
CN105431841A (zh) 跨模型过滤
EP2187320A2 (en) Apparatus and method for utilizing context to resolve ambiguous queries
CN110188432A (zh) 系统架构的验证方法、电子设备及计算机可读存储介质
US20140067874A1 (en) Performing predictive analysis
JPH0934957A (ja) ユーザ振る舞いの解析方法及び装置
Fagin et al. Efficient implementation of large-scale multi-structural databases
JP5634859B2 (ja) サイトクラスタシステムおよびサイトクラスタ方法
Shershakov Multi-perspective process mining with embedding configurations into DB-based event logs
JP2001142885A (ja) 業務名指定による問合せsql生成装置
JP2002109448A (ja) 帳票処理装置、帳票処理方法、記憶媒体
Khatiwada Architectural issues in real-time business intelligence
Tüker Application development for improving website usability by web mining methods

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140401

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140422

R150 Certificate of patent or registration of utility model

Ref document number: 5535062

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250