JP5427478B2 - ログ加工装置、該ログ加工装置を備えた情報収集装置、及びログ加工方法 - Google Patents

ログ加工装置、該ログ加工装置を備えた情報収集装置、及びログ加工方法 Download PDF

Info

Publication number
JP5427478B2
JP5427478B2 JP2009134183A JP2009134183A JP5427478B2 JP 5427478 B2 JP5427478 B2 JP 5427478B2 JP 2009134183 A JP2009134183 A JP 2009134183A JP 2009134183 A JP2009134183 A JP 2009134183A JP 5427478 B2 JP5427478 B2 JP 5427478B2
Authority
JP
Japan
Prior art keywords
variable
log
communication
location information
log processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009134183A
Other languages
English (en)
Other versions
JP2010282354A (ja
Inventor
和計 秋永
純 佐々木
大祐 鳥居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2009134183A priority Critical patent/JP5427478B2/ja
Publication of JP2010282354A publication Critical patent/JP2010282354A/ja
Application granted granted Critical
Publication of JP5427478B2 publication Critical patent/JP5427478B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、ログ加工装置、該ログ加工装置を備えた情報収集装置、及びログ加工方法に関するものである。
PCや携帯電話システム上からインターネットやイントラネット上の情報を閲覧するシステム(情報通信端末と呼ぶ)がある。この中で特にインターネット上のコンテンツ(情報)を閲覧するシステムとして、HTML(Hyper Text Markup Language)とHTTP(Hyper Text Transfer Protocol)を用いて情報をやりとりする方法がある。これらのシステムでは、URI(UniformResource Identifier)やURL(Uniform Resource Locator)と呼ばれるコンテンツの通信網上の位置(ロケーション)を一意に識別する識別子を利用して、サイトと呼ばれるインターネットやイントラネット情報のサーバにアクセスを行い、それらのコンテンツを入手できるようになっている。また、HTML内にリンクと呼ばれる他のコンテンツへの参照を上記のURLやURIを用いて記載することが可能である。これにより、ユーザは、次々と関連コンテンツを参照することが可能となっている。URLやURIは、標準化されており、それらの記述には一定のルールがあるものの、柔軟性の高い記述ルールとなっている(例えば、非特許文献1参照)。
これらのコンテンツの位置を指し示すURL(又はURI)を用いて、リンク関係を構築しているインターネット上の膨大なコンテンツを効率よく収集する方法として、クローラと呼ばれるコンテンツ収集装置がある(例えば、特許文献1の[背景技術]参照)。これらの装置は、URL(又はURI)を用いたリンクの仕組みを用いて、適当な任意のコンテンツをシード(種)として、そこからリンクをたどることによってコンテンツを収集している。そして、収集してきたコンテンツと、そのときのURLとを保存することによって、コンテンツとコンテンツを示す識別子(URLやURIなどのロケーション情報)との関連付けを行い保存している。
これらの収集してきたコンテンツ及びそのURLと、様々なユーザによる通信時に生成されるURLを含む通信ログを照合することにより、そのコンテンツの統計情報の解析を行うことが可能となっている。通信ログは、プロキシサーバと呼ばれる代理中継装置などで管理されることが考えられるが、それらは一般的にユーザを識別する手段(ユーザ認証のためのIDやIPアドレスなど)を備えている。これらユーザIDに個人の属性を関連付けることも可能である。これにより、例えばユーザ毎のコンテンツの趣味嗜好などを解析することや、コンテンツ毎のユーザのアクセス傾向(例えば、上記のユーザ属性毎に集計すれば年齢や性別を元にした統計情報)を知るといった情報解析も可能となる。さらに、このような情報解析を行うことにより、ユーザの好みに合わせたコンテンツの提供や検索結果の提供などを行うことができる(例えば、特許文献2参照)。
特開2005−190065号公報([背景技術]) 特開2003−271637号公報
Network Working Group RFC2616,Section3.2Uniform Resource Identifiers [Online]、[2009年4月20日検索]、インタ−ネット<URL:http://rfc-jp.nic.ad.jp/rfc/rfc2616.txt>
ところで、上記したようなコンテンツ及びURLと通信ログとの照合の際、本来的な性質として、URLは、一意のコンテンツを指し示すことができる一方、その逆は、必ずしもそうでないという問題があった。すなわち、表記が異なるURLが同じコンテンツを指し示すことがある。そのため、クローラで収集したコンテンツ及びURLを、通信ログから収集したURLと照合しても、本来、同じコンテンツを指し示すURLであるにも関わらず、両URLが一致しないことがあった。これは、URLには、そのユーザを識別するためのユーザ識別子(ユーザID)や、そのセッション(一連の通信をひとまとめにしたもの)を識別するセッション識別子(セッションID)などを含ませることができることに起因している。つまり、通信ログにおけるURLがこれら識別子の情報を含んでいる場合、両URLは同一とならないが、その一方で両URLが指し示すコンテンツは同じであるということがあった。このような場合、同じコンテンツを指し示す異なる表記のURLから上述したユーザ識別子やセッション識別子に対応する部分を効率的に抽出、削除し、同じコンテンツを指し示すURLとして選別することが望まれるが、従来、このような選別技術が提供されていなかった。
そこで、本発明は、かかる課題に鑑みて為されたものであり、通信ログにおいて、異なる表記がされたロケーション情報のうち同じコンテンツを指し示すロケーション情報を効率的に選別できるログ加工装置、該ログ加工装置を備えた情報収集装置、及びログ加工方法を提供することを目的とする。
上記課題を解決するため、本発明に係るログ加工装置は、通信網上に格納されているコンテンツにアクセスしたユーザを識別するユーザ識別子と、当該コンテンツの通信網上の格納位置を示すロケーション情報とが対応付けられた通信ログを加工するログ加工装置であって、ロケーション情報のうち変数部を除く真正ロケーション部が一致する複数の通信ログを取得する取得手段と、取得手段で取得された複数の通信ログのロケーション情報に含まれる変数名及び当該変数名に割り当てられた変数値を抽出する変数抽出手段と、変数名に割り当てられた変数値の割当数と、変数値それぞれが割り当てられた変数名を含む各ロケーション情報で特定されるコンテンツにアクセスしたユーザ数の合計値とを算出し、変数値の割当数とユーザ数の合計値との比である変数比に基づいて、複数の通信ログのロケーション情報から変数名を削除するか否かを判定する判定手段と、判定手段で削除すると判定された変数名を複数の通信ログのロケーション情報から削除して正規化されたロケーション情報を含む複数の通信ログに加工する変数削除手段と、を備えたことを特徴としている。
また、本発明に係るログ加工方法は、通信網上に格納されているコンテンツにアクセスしたユーザを識別するユーザ識別子と、当該コンテンツの通信網上の格納位置を示すロケーション情報とが対応付けられた通信ログを加工するログ加工方法であって、取得手段が、ロケーション情報のうち変数部を除く真正ロケーション部が一致する複数の通信ログを取得する取得ステップと、変数抽出手段が、取得ステップで取得された複数の通信ログのロケーション情報に含まれる変数名及び当該変数名に割り当てられた変数値を抽出する変数抽出ステップと、判定手段が、変数名に割り当てられた変数値の割当数と、変数値それぞれが割り当てられた変数名を含む各ロケーション情報で特定されるコンテンツにアクセスしたユーザ数の合計値とを算出し、変数値の割当数とユーザ数の合計値との比である変数比に基づいて、複数の通信ログのロケーション情報から変数名を削除するか否かを判定する判定ステップと、変数削除手段が、判定ステップで削除すると判定された変数名を複数の通信ログのロケーション情報から削除して正規化されたロケーション情報を含む複数の通信ログに加工する変数削除ステップと、を含むことを特徴としている。
このログ加工装置及びログ加工方法によれば、ロケーション情報に含まれる変数名に割り当てられた変数値の割当数と当該変数名を含むロケーション情報で特定されるコンテンツにアクセスしたユーザ数の合計値とを算出し、変数値の割当数とユーザ数の合計値との比である変数比に基づいて複数の通信ログのロケーション情報から変数名を削除するか否かを判定し、削除すると判定された変数名を複数の通信ログのロケーション情報から削除することで、通信ログの正規化を行っている。このため、例えば、ユーザ識別子などがロケーション情報の変数部に記述されている場合、変数値の割当数がユーザ数の合計値と同等以上となる関係を形成する傾向にあるが、削除する変数名を、これらの比である変数比に基づいて判定することで、同じコンテンツを指し示す異なる表記のロケーション情報からユーザ識別子などを容易に抽出することができる。その結果、同じコンテンツを指し示すロケーション情報を効率的に選別することが可能となる。
また、上記ログ加工装置は、変数抽出手段、判定手段、及び変数削除手段を備えたログ加工手段を複数備えたログ加工装置であって、取得手段で取得された真正ロケーション部が一致する複数の通信ログを所定の分散基準に基づいて、複数のログ加工手段のうちのいずれか一のログ加工手段に送信する分散手段を備えることが好ましい。更に、上記ログ加工装置は、取得手段を複数備えたログ加工装置であって、複数の取得手段のうちのいずれか一の取得手段で取得された真正ロケーション部が一致する複数の通信ログを所定の再分散基準に基づいて、複数のログ加工手段のうちのいずれか一のログ加工手段に送信する再分散手段を更に備えることが好ましい。このような構成によれば、非常に大きな容量からなる通信ログを効率的に正規化することができる。
また、本発明に係る情報収集装置は、通信網上に格納されているコンテンツにアクセスしたユーザを識別するユーザ識別子と当該コンテンツの通信網上の格納位置を示すロケーション情報とが対応付けられた通信ログを蓄積するログ蓄積手段と、上記いずれかのログ加工装置とを備えた情報収集装置であって、ログ加工装置は、ログ蓄積手段から通信ログを取得して、正規化されたロケーション情報を含む複数の通信ログに加工してログ蓄積手段に蓄積させるようにしてもよい。このような情報収集装置によれば、ログ蓄積手段に蓄積された通信ログにおいて異なる表記がされたロケーション情報のうち、同じコンテンツを指し示すロケーション情報をログ加工装置で効率的に正規化し、これにより、同じコンテンツを指し示すロケーション情報を効率的に選別することが可能となる。
本発明によれば、通信ログにおいて、異なる表記がされたロケーション情報のうち同じコンテンツを指し示すロケーション情報を効率的に選別できる。
本発明の一実施形態にかかるログ加工装置を備えた情報収集装置の構成を示すブロック図である。 URLの構成を模式的に示す図である。 ログ加工装置のハードウェア構成を示す図である。 本発明の一実施形態にかかるログ加工装置の機能構成を示すブロック図である。 ログ加工装置で取得される通信ログ群の一例を示す図である。 図5に示される通信ログ群に変数削除後URLを関連付けた通信ログ群を示す図である。 図6に示される通信ログ群に含まれるURL毎のUU数を算出した算出表である。 図7に示される算出表のURLに含まれる各変数名及び変数値、並びにUU数(合計)をまとめた変数表である。 図8に示される変数表に含まれる変数毎に唯一性指標を示した変数表である。 図5に示される通信ログ群に正規化後URLを関連付けた通信ログ群を示す図である。 図2のログ加工装置で実行されるログ加工方法を示すフローチャートである。 ログ加工装置の変形例を示す図である。 ログ加工装置の別の変形例を示す図である。
以下、図面を参照して、本発明に係る好適な実施形態について詳細に説明する。なお、図面の説明において、可能な場合には、同一要素には同一符号を付し、重複する説明を省略する。
まず、図1を参照して、本実施形態に係る情報収集装置1の全体構成を説明する。情報収集装置1は、ログ蓄積データベース2(以下「ログ蓄積DB2」と記す)及びログ加工装置3を備えている。情報収集装置1は、インターネット等の通信網に接続されており(不図示)、HTTPによって通信された通信メッセージごとに、ユーザ識別子(ユーザID)、通信日時(DATE)及びURLを一組とした通信ログ(図5参照)を生成して、ログ蓄積DB2に保存する。通信ログを構成するユーザ識別子は、通信網上に格納されているコンテンツにアクセスしたユーザをそれぞれ識別するための識別子であり、例えば、「0001」,「0002」…と表される。また、通信ログを構成するURLは、ユーザがアクセスしたコンテンツの通信網上の格納位置(アドレス)を示すロケーション情報であり、例えば、「http://aaa.bbb.com/abc.cgi?a=1&b=1」と表される。
このようなURLは、図2に示されるように、スキーマ部S(scheme)、ホスト部H(host)、絶対パス部P(abs_path)及びクエリ(query)部Qなどを含んで構成されている。クエリ部Qは、指定したリソースに情報を渡す場合に使われ、変数を記述する部分(変数部)であり、このような変数として、例えば、あるコンテンツにアクセスしたユーザを識別するためのユーザ識別子(ユーザID)や、そのセッション(一連の通信をひとまとめにしたもの)を識別するセッション識別子(セッションID)がクエリ部Qに記述される。このため、クエリ部Qを含むURL(「動的URL」ともいう)では、URLの内、クエリ部Qを除く部分(便宜上、真正ロケーション部と定義する)が一致するなどした場合、全体として表記の異なるURLであっても、同じコンテンツを指し示すことがある。但し、クエリ部Qには、上述した変数とは別の変数が並列して記述される場合もあり、クエリ部QをURLから一律に削除してしまうと、本来のURLが指し示めしていたコンテンツと異なるコンテンツを指し示すことになってしまう場合がある。
本実施形態にかかる情報収集装置1は、ログ加工装置3を備え、このログ加工装置3で、ログ蓄積DB2から取得した通信ログ(図5参照)に含まれるURLから、ユーザ識別子のようなコンテンツのロケーションを示すのに直接関連していない変数のみを効率的に抽出して削除する。ログ加工装置3は、このような変数の削除により、正規化されたURLを生成し、正規化後URLを含む正規化通信ログ(図10参照)を生成する。ログ加工装置3は、生成した正規化通信ログをログ蓄積DB2に出力し、ログ蓄積DB2は、取得した正規化後URLを含む正規化通信ログを、元の通信ログに関連づけて保存する(例えば、元の通信ログに上書き保存する)。ログ蓄積DB2の通信ログとして正規化通信ログが格納されることにより、例えば、クローラ等で収集したコンテンツ及びURLを、ログ蓄積DB2に格納されている通信ログのURLと照合すると、同じコンテンツを指し示すURL同士がより一致するようになる。
ログ加工装置3は、図3に示されるように、物理的には、CPU3a,RAM3b及びROM3c等の主記憶装置、ログ蓄積DB2との間でデータの送受信を行うためのネットワークカード等の通信モジュール3d,ハードディスク等の補助記憶装置3eなどを含む通常のコンピュータシステムとして構成される。後述するログ加工装置3の各機能は、CPU3a,RAM3b,ROM3c等のハードウェア上に所定のコンピュータソフトウェアを読込ませることにより、CPU3aの制御の元で通信モジュール3dを動作させると共に、主記憶装置3b,3cや補助記憶装置3eにおけるデータの読み出し及び書き込みを行うことで実現される。なお、ログ蓄積DB2や情報収集装置1も同様である。
ログ加工装置3は、図4に示されるように、機能的には、ログ入出力部4(取得手段)及びログ加工部5(ログ加工手段)を備えている。ログ入出力部4は、入力部6(取得手段)、URL全変数削除部7及び出力部8を含んで構成される。入力部6は、ログ蓄積DB2に蓄積されている多くの通信ログの中から、全URL(ロケーション情報)のうちクエリ部Qを除く真正ロケーション部(スキーマ部S、ホスト部H及び絶対パス部P)が一致する複数の通信ログ(以下「通信ログ群」とも記す)を取得する部分である。このような複数の通信ログの例としては、例えば、図5に示されるような通信ログ群がある。入力部6は、このようにして取得した複数の通信ログ(通信ログ群)をURL全変数削除部7に出力する。
URL全変数削除部7は、通信ログ群に含まれる通信ログごとに、URLからクエリ部Qをすべて除いた変数削除後URLを生成し、対応する元の通信ログに関連付けて保存する部分である。変数削除後URLを含む通信ログの例としては、例えば、図6に示されるような通信ログ群がある。URL全変数削除部7は、このように生成した複数の通信ログをログ加工部5(後述するユニークユーザ計数部9及び変数削除部13)に出力する。変数削除後URLは、ログ加工部5内でログ加工される通信ログ群を識別する指標として用いられる。出力部8は、ログ加工部5で、後述する所定の正規化処理が施された正規化後URLを含む正規化通信ログをログ蓄積DB2に出力して、登録させる。
続いて、ログ加工部5について詳細に説明する。ログ加工部5は、ユニークユーザ計数部9(変数抽出手段)、変数抽出部10(変数抽出手段)、判定部11(判定手段)、削除候補DB12、及び変数削除部13(変数削除手段)を含んで構成される。
ユニークユーザ計数部9は、URL全変数削除部7から複数の通信ログの入力を受けると、複数の通信ログのうちクエリ部を含むURL全体が一致する同一通信ログごとに、そのURL全体で特定されるコンテンツにアクセスしたユーザ数(ユニークユーザ数;UU数)をそれぞれ算出する部分である。同一通信ログごとにUU数をまとめた例としては、図7に示される算出表がある。ユニークユーザ計数部9は、同一通信ログごとにユーザ数をまとめた算出表を変数抽出部10に出力する。
変数抽出部10は、ユニークユーザ計数部9から算出表が入力されると、ユニークユーザ計数部9でユーザ数がそれぞれ算出された同一通信ログの各URLに含まれる変数名及びその変数名に割り当てられた変数値を抽出すると共に、ある変数名とその変数名に割り当てられた一の変数値とを少なくとも含むURLで特定されるコンテンツにアクセスしたユーザ数を算出する部分である。各変数名及び割り当てられた変数値、並びにユーザ数をまとめた例としては、図8に示される変数表がある。図8に示される変数表では、変数名「a」に対して4種類の変数値「1」、「2」、「3」、「4」が割り当てられ、変数名「b」に対しては2種類の変数値「1」、「2」が割り当てられ、「a=1」、「a=2」、「a=3」、「a=4」、「b=1」、「b=2」をそれぞれ含むURLで特定される各コンテンツにアクセスしたユーザ数は、それぞれ1人、1人、1人、1人、3人、1人、となっている。変数抽出部10は、このような変数表のデータを判定部11に出力する。
判定部11は、変数抽出部10から変数表が入力されると、変数抽出部10で抽出された変数名に割り当てられた変数値の割当数と、変数値それぞれが割り当てられた変数名を含むURLで特定されるコンテンツにアクセスしたユーザ数の合計値とを変数名ごとに算出し、変数値の割当数とユーザ数の合計値との比である唯一性指標(変数比)を変数ごとに求め、各変数名をその唯一性指標に基づいて複数の通信ログのURLから削除するか否かを判定する部分である。具体的には、判定部11は、「(A)変数値の割当数(ある変数名に対して何種類の変数値が割り当てられているかといった割当数)」と、「(B)変数値それぞれが割り当てられた変数名を含むURLで特定されるコンテンツにアクセスしたユーザ数の合計値」とを算出し、以下の式(1)より、唯一性指標を算出する。
唯一性指標=「(A)変数値の割当数」/「(B)ユーザ数の合計値」・・・(1)
判定部11で算出される唯一性指標としては、例えば、図9に示されるような変数表に含まれる唯一性指標がある。図9に示される変数表では、上述した式(1)を用いて、変数名「a」及び「b」に対する唯一性指標がそれぞれ、「1」及び「0.5」と算出されている。このような唯一性指標は、例えば、ユーザ識別子などがURLのクエリ部Qに記述されている場合、変数値の割当数がユーザ数の合計値と同等以上となる関係を形成する傾向にあることから、そのような場合には「1」以上の値を示す。そこで、判定部11は、式(1)により算出された、ある変数名に対する唯一性指標を所定の閾値(例えば、0.8)と比較し、唯一性指標が閾値を上回った場合には、その変数名をURLから削除する削除候補とし、削除候補DB12に登録する。図9に示される変数表では、例えば、変数名「a」に対する唯一性指標が閾値である0.8を超えており、削除候補として登録される。判定部11は、ある変数名を削除候補として登録したら、登録した旨の情報を変数削除部13に出力する。
変数削除部13は、複数の通信ログの入力をURL全変数削除部7から受けると共に、それら複数の通信ログのURLに含まれる変数を削除候補に登録した旨の情報入力を判定部11から受けると、両者を指標となる変数削除後URL等を用いて解析し、判定部11で削除すると判定されて削除候補DB12に登録された変数名のみを複数の通信ログに含まれるURLから削除し、正規化されたURLを含む正規化通信ログに加工する部分である。このように加工された正規化通信ログとしては、例えば、図10に示されるように、変数名「a」に関する部分のみがクエリ部Qから削除された正規化後URLが、複数の通信ログに関連付けられたものがある。なお、変数名「b」は、所定の閾値より小さかったため、コンテンツにアクセスしたユーザを識別するためのユーザ識別子(ユーザID)のような変数ではないと判定部11で判定され、変数名「b」に関する部分は、本実施形態では、正規化後URLから削除されていない。変数削除部13は、このようにして生成した正規化通信ログをログ入出力部4の出力部8に出力する。
続いて、ログ加工装置3における通信ログの加工方法について、図11を参照して説明する。
まず、ステップS1において、ログ蓄積DB2に蓄積されている多くの通信ログの中から、全URLのうちクエリ部Qを除く真正ロケーション部(スキーマ部S、ホスト部H及び絶対パス部P)が一致する複数の通信ログ(USER ID、日時、URL、図5参照)が入力部6により取得される(取得ステップ)。次に、ステップS2において、複数の通信ログに含まれる各通信ログに対し、URL全変数削除部7により、URLからクエリ部Qをすべて除いた変数削除後URLが生成され、対応する元の通信ログに関連付けて保存される(図6参照)。
続いて、変数削除後URLが生成されると、ステップS3に進み、複数の通信ログのうちクエリ部を含むURL全体が一致する同一通信ログごとに、そのURL全体で特定されるコンテンツにアクセスしたユーザ数(UU数)がユニークユーザ計数部9によりそれぞれ算出される(図7参照)。ステップS3でユーザ数が算出されると、ステップS4に進み、ユニークユーザ計数部9でユーザ数がそれぞれ算出された同一通信ログの各URLに含まれる変数名及びその変数値が変数抽出部10により抽出され(変数抽出ステップ)、ある変数名とその変数名に割り当てられた一の変数値とを少なくとも含むURLで特定されるコンテンツにアクセスしたユーザ数の合計が、変数抽出部10により算出される(図8参照)。
続いて、変数名に割り当てられた変数値の割当数と、変数値それぞれが割り当てられた変数名を含むURLで特定されるコンテンツにアクセスしたユーザ数の合計値が判定部11により算出され(判定ステップ)、変数値の割当数及びユーザ数の合計値の比である唯一性指標が式(1)に基づいて変数ごとに求められる(図9参照)。そして、求められた各変数の唯一性指標が所定の閾値よりも大きければ、判定部11により、その変数名がURLから削除される削除候補と判定され(判定ステップ)、削除候補DB12に登録される(ステップS5)。
ステップS5で、ある変数名が削除候補として登録されると、ステップS6では、その旨の情報入力が行われ、ステップS1で取得した通信ログ等と併せて解析し、削除候補DB12に登録された削除予定の変数のみが複数の通信ログのURLから削除され、正規化されたURLを含む正規化通信ログへと加工される(変数削除ステップ;図10参照)。なお、URLの解析にあたっては、RFC2616のSection3.2等に示されている標準化された技術に従って、URL内の変数名と変数値の組をURLの形式を損なわないで削除するようにすることが好ましい。その後、生成された正規化後URLを含む正規化通信ログがログ入出力部4の出力部8に出力され(ステップS7)、出力された正規化通信ログは、ログ蓄積DB2で、対応する元の通信ログに関連づけて保存される。これにより、ログ加工の処理が終了する。
以上、本実施形態によれば、URLに含まれるクエリ部Qに割り当てられた変数値の割当数と当該変数名を含むURL全体で特定されるコンテンツにアクセスしたユーザ数の合計値とを算出し、変数値の割当数及びユーザ数の合計値の比である唯一性指標(変数比)を変数名ごとに求め、各変数名を唯一性指標である変数比に基づいて複数の通信ログのURLから削除するか否かを判定し、削除すると判定された変数名のみを複数の通信ログのURLから削除することで、通信ログの正規化を行っている。このため、URL内でコンテンツを指し示す以外に用いられているユーザ毎やセッション毎の識別子などを効率的に除去することが可能となり、同じコンテンツを指し示す異なる表記のURLからユーザ識別子などの変数部分を効率的に抽出、削除し、同じコンテンツを指し示すURLとして選別することが容易にできる。その結果、ユーザが見ているであろうコンテンツを、より正確に推測することが可能となる。なお、URLから個人に紐付けられているIDなどを削除することが可能となり、個人情報の保護を図ることも可能となる。
以上、本発明をその実施形態に基づき具体的に説明したが、本発明は、上記実施形態に限定されるものではない。例えば、上記実施形態では、ログ入出力部4とログ加工部5とが一対の場合で説明したが、図12に示されるように、一のログ入出力部4に対して、複数のログ加工部5を備えるログ加工装置30aとしたり、図13に示されるように、複数のログ入出力部4に対して、複数のログ加工部5を備えるログ加工装置30bとしてもよい。
図12のログ加工装置30aは、分散部14(分散手段)を更に備えており、この分散部14により、ログ入出力部4で取得された複数の通信ログを所定の分散基準(分散キーやアルゴリズム)に基づいて、複数のログ加工部5のうちのいずれか一のログ加工部5に送信するか否かが判定され、判定結果に応じたログ加工部5に対して、複数の通信ログが送信され、同様の加工処理が行われる。具体的には、例えば、変数削除後URLを分散キーとする場合には、変数削除後URLに対してハッシュアルゴリズムや剰余アルゴリズムなどを用いて唯一のログ加工部5を選択することが好ましい。これらの分散するための分散キーとアルゴリズムを選択する際には、分散キーとなっている値によって選択されるログ加工部5に偏りがでないように選択することが好ましい。それぞれのログ加工部5では、非同期で上述した分析加工を行い、変数削除後URL付きの通信ログ内の通信ログに対して正規化後URLを付与し、その情報を出力部8に出力する。
また、図13のログ加工装置30bは、再分散部15(再分散手段)を更に備えており、この再分散部15により、複数のログ入出力部4のうちのいずれか一のログ入出力部4で取得された複数の通信ログを所定の再分散基準(再分散キーやアルゴリズム)に基づいて、複数のログ加工部5のうちのいずれか一のログ加工部に送信するか否かが判定され、判定結果に応じたログ加工部5に対して、複数の通信ログが送信され、同様の加工処理が行われる。図13に示されるログ加工装置30bでは、複数のログ入出力部4が非同期で通信ログをログ蓄積DB2から取得し、非同期で受け取られた通信ログに対して変数削除後URLを、分散配置されたURL全変数削除部7で変数削除後URL付きの通信ログにすることができ、それらを再分散部15で分散基準(分散キー)に従って、複数のログ加工部5から選択された唯一のログ加工部5にレコードごとに再分散される。これらの分散するための分散キーとアルゴリズムは選択する際には、上記同様、分散キーとなっている値によって選択されるログ加工部5に偏りがでないように選択することが望ましい。
図12のログ加工装置30aや図13のログ加工装置30bによれば、非常に大きなサイズの通信ログであっても、複数のログ加工部5で必要となる処理を分散することができ、さらに、各ログ加工部5において必要な情報を内部で保持するために非同期で処理することも可能となる。これは、分散処理のためのオーバヘッドが小さいことを示しており、分散度を上げる(処理ノードを増やす)ことを行っても、装置全体の処理能力がその分散度に比例することを示している。特に、本装置においては、変数削除後URLを分散キーにすることで、ログ加工部5における処理はすべて内部の処理として閉じることができ、最大効率を上げることができる。なお、図12のログ加工装置30bによれば、更に、通信ログにおけるURLから変数削除後URLを計算する作業も分散することができ、一層、処理を分散できる。なお、この場合、再分散のための仕組みが別途、ログ入出力部4に必要とされる。
また、情報収集装置1として、上記実施形態では、ログ蓄積DB2とログ加工装置3とがそれぞれ1つの装置として説明したが、1つの装置でなくてもよく、例えば、ログ蓄積DB2内の一部にログ加工装置3の機能が存在するようにしてもよい。また、ログ加工装置3内のログ入出力部4とログ加工部5とは別々のものとして説明したが、1つのサーバ装置として構成されていてもよい。また、図12や図13に示される変形例のログ加工装置30a,30bにおいて、各機能部が1つの装置の中の仮想化されたサーバとして分散されていてもよいし、1つ1つがハード装置として分離されていて、それらがネットワーク装置を通じて接続されていてもよい。特に、ログ蓄積DB2は、ログ入出力部4に対して、一対一対応の分散データベースの格納領域であってもよく、そのような構成にすることで、1つの分散処理データベースでの実装も可能である。
1…情報収集装置、2…ログ蓄積DB、3,30a,30b…ログ加工装置、4…ログ入出力部、5…ログ加工部、6…入力部、7…URL全変数削除部、8…出力部、9…ユニークユーザ数計数部、10…変数抽出部、11…判定部、12…削除候補DB、13…変数削除部、14…分散部、15…再分散部。

Claims (5)

  1. 通信網上に格納されているコンテンツにアクセスしたユーザを識別するユーザ識別子と、当該コンテンツの通信網上の格納位置を示すロケーション情報とが対応付けられた通信ログを加工するログ加工装置であって、
    前記ロケーション情報のうち変数部を除く真正ロケーション部が一致する複数の通信ログを取得する取得手段と、
    前記取得手段で取得された前記複数の通信ログのロケーション情報に含まれる変数名及び当該変数名に割り当てられた変数値を抽出する変数抽出手段と、
    前記変数名に割り当てられた変数値の割当数と、前記変数値それぞれが割り当てられた前記変数名を含む各ロケーション情報で特定されるコンテンツにアクセスしたユーザ数の合計値とを算出し、前記変数値の割当数と前記ユーザ数の合計値との比である変数比に基づいて、前記複数の通信ログの前記ロケーション情報から前記変数名を削除するか否かを判定する判定手段と、
    前記判定手段で削除すると判定された前記変数名を前記複数の通信ログの前記ロケーション情報から削除して正規化されたロケーション情報を含む複数の通信ログに加工する変数削除手段と、
    を備えたことを特徴とするログ加工装置。
  2. 前記変数抽出手段、前記判定手段、及び前記変数削除手段を備えたログ加工手段を複数備えたログ加工装置であって、
    前記取得手段で取得された前記真正ロケーション部が一致する前記複数の通信ログを所定の分散基準に基づいて、複数の前記ログ加工手段のうちのいずれか一の前記ログ加工手段に送信する分散手段を、
    更に備えたことを特徴とする請求項1に記載のログ加工装置。
  3. 前記取得手段を複数備えたログ加工装置であって、
    複数の前記取得手段のうちのいずれか一の前記取得手段で取得された前記真正ロケーション部が一致する前記複数の通信ログを所定の再分散基準に基づいて、複数の前記ログ加工手段のうちのいずれか一の前記ログ加工手段に送信する再分散手段を、
    更に備えたことを特徴とする請求項2に記載のログ加工装置。
  4. 通信網上に格納されているコンテンツにアクセスしたユーザを識別するユーザ識別子と、当該コンテンツの通信網上の格納位置を示すロケーション情報とが対応付けられた通信ログを蓄積するログ蓄積手段と、請求項1〜3のいずれか一項に記載のログ加工装置とを備えた情報収集装置であって、
    前記ログ加工装置は、前記ログ蓄積手段から前記通信ログを取得して、正規化されたロケーション情報を含む複数の通信ログに加工して前記ログ蓄積手段に蓄積させることを特徴とする情報収集装置。
  5. 通信網上に格納されているコンテンツにアクセスしたユーザを識別するユーザ識別子と、当該コンテンツの通信網上の格納位置を示すロケーション情報とが対応付けられた通信ログを加工するログ加工方法であって、
    取得手段が、前記ロケーション情報のうち変数部を除く真正ロケーション部が一致する複数の通信ログを取得する取得ステップと、
    変数抽出手段が、前記取得ステップで取得された前記複数の通信ログのロケーション情報に含まれる変数名及び当該変数名に割り当てられた変数値を抽出する変数抽出ステップと、
    判定手段が、前記変数名に割り当てられた変数値の割当数と、前記変数値それぞれが割り当てられた前記変数名を含む各ロケーション情報で特定されるコンテンツにアクセスしたユーザ数の合計値とを算出し、前記変数値の割当数と前記ユーザ数の合計値との比である変数比に基づいて、前記複数の通信ログの前記ロケーション情報から前記変数名を削除するか否かを判定する判定ステップと、
    変数削除手段が、前記判定ステップで削除すると判定された前記変数名を前記複数の通信ログの前記ロケーション情報から削除して正規化されたロケーション情報を含む複数の通信ログに加工する変数削除ステップと、
    を含むことを特徴とするログ加工方法。
JP2009134183A 2009-06-03 2009-06-03 ログ加工装置、該ログ加工装置を備えた情報収集装置、及びログ加工方法 Expired - Fee Related JP5427478B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009134183A JP5427478B2 (ja) 2009-06-03 2009-06-03 ログ加工装置、該ログ加工装置を備えた情報収集装置、及びログ加工方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009134183A JP5427478B2 (ja) 2009-06-03 2009-06-03 ログ加工装置、該ログ加工装置を備えた情報収集装置、及びログ加工方法

Publications (2)

Publication Number Publication Date
JP2010282354A JP2010282354A (ja) 2010-12-16
JP5427478B2 true JP5427478B2 (ja) 2014-02-26

Family

ID=43539038

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009134183A Expired - Fee Related JP5427478B2 (ja) 2009-06-03 2009-06-03 ログ加工装置、該ログ加工装置を備えた情報収集装置、及びログ加工方法

Country Status (1)

Country Link
JP (1) JP5427478B2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100509276B1 (ko) * 2001-08-20 2005-08-22 엔에이치엔(주) 웹페이지별 방문인기도에 기반한 웹페이지 검색방법 및 그장치
JP4259858B2 (ja) * 2002-12-03 2009-04-30 三菱電機株式会社 Wwwサイト履歴検索装置及び方法並びにプログラム
JP2005135318A (ja) * 2003-10-31 2005-05-26 Furukawa Electric Co Ltd:The 負荷分散方法および負荷分散装置
JP4350001B2 (ja) * 2004-08-17 2009-10-21 富士通株式会社 ページ情報収集プログラム、ページ情報収集方法、及びページ情報収集装置
JP2007122398A (ja) * 2005-10-27 2007-05-17 Kenichi Nakamura フラグメントの同一性判定方法およびコンピュータプログラム
JP4860435B2 (ja) * 2006-11-07 2012-01-25 ヤフー株式会社 閲覧履歴提供システム、閲覧履歴提供方法、および閲覧履歴提供プログラム

Also Published As

Publication number Publication date
JP2010282354A (ja) 2010-12-16

Similar Documents

Publication Publication Date Title
CN102918534B (zh) 查询管道
Munk et al. Data preprocessing evaluation for web log mining: reconstruction of activities of a web visitor
KR100514149B1 (ko) 데이터 네트워크의 정보 검색 및 분석 방법
CN108156131B (zh) Webshell检测方法、电子设备和计算机存储介质
KR101130108B1 (ko) 만년력 형태의 웹문서 트랩 검출 및 이를 이용한 검색 데이터베이스 구축 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
US20100268776A1 (en) System and Method for Determining Information Reliability
CN106951557B (zh) 日志关联方法、装置和应用其的计算机系统
JP2010524132A (ja) ピア・ツー・ピア・ネットワーク関連のアプリケーションの共有情報リストを作成するシステム及びその方法
US20130185429A1 (en) Processing Store Visiting Data
JP3803961B2 (ja) データベース生成装置、データベース生成処理方法及びデータベース生成プログラム
Lakshmi et al. An overview of preprocessing on web log data for web usage analysis
KR100749820B1 (ko) 센서 네트워크로부터의 센싱 데이터 처리 시스템 및 그방법
CN110245314A (zh) 一种网页指纹生成方法
KR101556714B1 (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN110363023B (zh) 一种基于phmm的匿名网络溯源方法
JP5427478B2 (ja) ログ加工装置、該ログ加工装置を備えた情報収集装置、及びログ加工方法
EP3361405B1 (en) Enhancement of intrusion detection systems
US20140337069A1 (en) Deriving business transactions from web logs
CN111211995B (zh) 一种字符串匹配库获取网络流量业务分析方法及装置
US8909795B2 (en) Method for determining validity of command and system thereof
JP5665685B2 (ja) 重要度判定装置、重要度判定方法およびプログラム
KR20120085375A (ko) 로그데이터 분석시스템
CN112765010A (zh) 业务参数集中管理方法、装置、设备及存储介质
KR101005871B1 (ko) 대용량 웹로그마이닝 및 공격탐지를 위한 비트리인덱스벡터기반 웹로그 복구방법
KR100989320B1 (ko) 대용량 웹로그마이닝 및 공격탐지를 위한 비트리인덱스벡터기반 웹로그 고속검색방법 및 비-트리기반인덱싱로그 프로세서

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130507

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131202

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5427478

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees