JP5134684B2

JP5134684B2 - ウェブページ構造分析を通したウェブサイトの情報把握方法

Info

Publication number: JP5134684B2
Application number: JP2010510216A
Authority: JP
Inventors: ムン―ソンチェ，; マン―ジンハン，; テ―キュンキム，
Original assignee: Isforu Co Ltd
Current assignee: Isforu Co Ltd
Priority date: 2007-05-29
Filing date: 2008-05-29
Publication date: 2013-01-30
Anticipated expiration: 2028-05-29
Also published as: WO2008147126A1; US20100235402A1; US8392470B2; KR100755468B1; RU2424562C1; JP2010530567A; EP2171612A4; CN101689176A; EP2171612A1

Description

本発明はウェブページ構造分析を通したウェブサイトの情報把握方法に係り、さらに詳しくは、クライアントサーバーに予めインストールされた追跡プログラムを通してウェブページの接続及び移動時毎に特定のメッセージを発生することによりウェブページの構造を分析する方式によりクライアントサーバーを使用する一般ユーザーの特定のウェブページの接続をはじめとするウェブサーフィン移動経路を把握してこれをデータベース化することによりウェブサイトの接続現況、ユーザーの関心分野、顧客関係管理（ＣＲＭ）及びターゲット顧客管理などの種々の情報把握及び管理効果が得られるウェブページ構造分析を通したウェブサイトの情報把握方法に関する。

現在、特定のウェブページへのユーザー接続現況などの情報を把握するために、ログ分析が汎用されているが、ログ分析はウェブサイトの訪問者分析を通して訪問者数、ページビュー数、クッキー値分析などを通して訪問者の情報を分析してウェブサイトの状況を把握するためのものである。

このようなログ分析方法は、１）特定のウェブページを管理するウェブサーバーにログファイルを直接的に埋め込んでログファイルにおいて接続などの信号発生をデータ化してこのようなデータを分析するログファイル埋め込み方式、２）ウェブサイト内にスクリプトまたはコードを埋め込んでコード値を通してデータを生成及び分析するコード埋め込み方式、３）外部統計資料を通した間接的なログ分析方式などから構成されている。

ところが、上記の方式の中で、ログファイルを埋め込む方式の場合、接続者数が多数である場合、ログファイルのデータ量が膨大となって専門分析機関に依頼しない限り分析そのものが不可能になるという不都合があり、コードを埋め込む方式は、小数の訪問者数を持ったウェブサイトにおいては有用であるとはいえ、所定数以上の訪問客がウェブサイトに接続する場合にはむしろログファイル埋め込み方式よりも作業量が膨大となるという不都合があった。

また、何よりも前記ログ分析はウェブサイトにコードまたはログファイルを埋め込むことを余儀なくされるため、主としてウェブサイト運営者が自分が運営するウェブサイトの利用現況を調べる程度でしか活用せざるを得なかった。すなわち、運営者を中心にログ分析がなされるのが現実的なログ分析の限界であった。

ところが、自分が運営するウェブサイトの利用現況だけではなく、競争ウェブサイトの利用現況を戦略的に把握したり、特定の集団のユーザーが主としてどのウェブサイトを訪問するかの有無、広告主の場合、広告を行いたい多数のウェブサイトの中でどのウェブサイト及びウェブページに対するユーザー関心度が高いか、ユーザーのウェブサーフィン移動サイクルを通してＣＲＭを分析しようとするときには自分の運営ウェブサイト以外のウェブサイトの接続現況を把握しなければならないため、現在知られているウェブサイトの運営者が主体となってログ分析を行う方式ではこのような他のウェブサイトの利用情報または顧客性向分析情報などを全く得ることができないという問題がある。

すなわち、益々競争が激しくなるウェブマーケティング分野において単に自分が運営するウェブサイトの接続現況だけを把握する既存のログ分析方式では決して競争業体よりは戦略マーケティング的優位を占めることができないだけではなく、ユーザーの要求事項に一時も早く対処可能な方法を提示することができないため、より新規で且つ特別なウェブサイト分析方法が望まれる。

このような目的に応えるための一例として、ウェブサイトの運営者ではないユーザーを主体としてユーザーのウェブサーフィン現況または移動経路を把握することにより特定の集団のユーザー別にウェブサイトの接続などの情報を抽出する方法を強求することができるであろう。

このとき、特定のユーザーが特定のウェブサイトに接続したかどうか、ウェブサーフィンの経路がどうなるかを把握するためには、先ず、ユーザーの接続がなされる特定のウェブページの構造を分析し、分析されたウェブページの構造に合う接続信号発生または諸信号処理がなされなければならないという前提条件が伴われる。

一般的に、ウェブページは、単一ページと、ｆｒａｍｅｓｅｔまたはｉｆｒａｍｅを用いた複合ページとに大別できる。

単一ページは、最も一般的なウェブページ構造であり、ｈｔｍｌにおいてｆｒａｍｅｓｅｔとｉｆｒａｍｅなどのタグを使用することなく一つのＵＲＬアドレスだけをもって単一のウェブサーバーと連結されるウェブページのことをいい、複合ページは、ｆｒａｍｅｓｅｔとｉｆｒａｍｅなどのタグを用いて一つのページにおいて異なるＵＲＬアドレスをもって単一または複数のウェブページと連結されたウェブページのことを言う。複合ページの場合、ページの移動を区分することができ、アドレスウィンドウに表示されるＵＲＬに相当するページであるメインページと、このメインページの内部にｆｒａｍｅｓｅｔまたはｉｆｒａｍｅにより発生するサブページとに区分することができる。

ユーザーが利用するインターネットウェブサイトはいずれもこのような単一または複合ウェブページから構成されているが、これらのウェブページは各ウェブサイト毎にリンクされている場合が多く、ユーザーの様々な移動が可能な状況であり、ユーザーはウェブページ移動をする場合にウェブページのダウンロード作業が全て終了された後に他のウェブページに移動するという特定の規則を有するのではなく、ウェブページのローディング中に移動、任意の中断などの不規則的な移動をすることになる。

より具体的には、ウェブページの構造分析のためには下記の複合的な問題を解決しなければならない。

１）ウェブページは単一または複合のウェブページから構成されており、ユーザーのウェブサーフィンによってこれらのウェブページが反復的に移動されるため、このようなウェブページの種類によって正確な構造分析が行われなければならない。

２）複合ページである場合、内部にサブページをもっており、これらのサブページのローディングが完了されなければ、全体的なページローディングが完了されないが、複合ページ内のサブページは認知しなければならない。

３）ウェブページの移動ではない再読み込みである場合、ページ内部のコンテンツだけが変更されるため、再読み込み時にページ内部のコンテンツが同じであるかどうかを把握しなければならない。

４）ページ内部のフレームのみが変わる場合、そのフレームが使用者が任意に選択して変えたものであるか、あるいは、ページ内において周期的に変えたものであるかを確認しなければならない。

５）単一ページは別途のサブページを保有していないため、このとき、サブページの存在確認以外の方法により単一ページの再読み込み有無を把握可能な方法を探らなければならない。

このため、自分が運営しない多数のウェブサイトの様々な利用状態を把握するためにユーザー中心のウェブページの移動状況をチェックしようとするとき、ユーザーのウェブページの移動状況をより正確に把握するためには、このような各種のウェブページの構造を正確に分析して、ユーザーがウェブページに接続してウェブ文書を全てダウンロードされたかどうか、再読み込み、不規則移動などの上述した様々な移動スタイルを把握することが必要である。

本発明は上記の技術の問題点を克服するためになされたものであり、その目的は、ログファイルやスクリプトをウェブサーバーに埋め込まないだけではなく、自分が運営するウェブサイト以外に他の運営者が運営する多数のウェブサイトの諸利用状況を把握するためにユーザーのウェブサイト利用現況情報をデータ処理してこれを分析する方式によるが、ユーザーのウェブサイト利用現況情報の取得のための基本前提となるユーザーのウェブページ移動経路を追跡するための一環としてウェブページ移動時に各ウェブページ毎にウェブページ移動メッセージを発生及びデータ処理する方法を提供するところにある。

本発明の他の目的は、単一ウェブページまたは複合ウェブページのように異なる構造からなるいかなるウェブページにおいても一様に高いレベルのウェブページ移動情報を取得するために、ウェブページ移動メッセージを時系列的に細分化してこれらをそれぞれのウェブページ移動スタイルによって管理処理する方法を提供するところにある。

本発明のさらに他の目的は、ウェブページの再読み込み時に、単一ページはブラウザーのタイトル変更有無をもって、複合ページはサブページの変更有無を把握するきめ細かい方式によりウェブページ移動有無を判断する方法を提供するところにある。

本発明のさらに他の目的は、ユーザー移動経路の把握のための追跡プログラムをクライアントサーバーにインストールし、追跡プログラム同士の通信を可能にしてこのような追跡プログラムを使用するユーザー間にウェブページ移動経路などのウェブページ利用情報を共有してより様々な情報を追求可能な方法を提供するところにある。

本発明のさらに他の目的は、前記追跡プログラムにおいて得られた情報を別途の管理サーバーに伝送してそれぞれのユーザーのウェブページ移動情報を体系的に分析することにより様々なウェブマーケティング資料として活用する方法を提供するところにある。

本発明のさらに他の目的は、インジケータ実行プログラムと連動されて、ウェブページに付着されたインジケータの正確な位置を再現し、再現された位置情報などを管理サーバーに記録、管理する方法を提供するところにある。

前記目的を達成するために、本発明によるウェブページ構造分析を通した情報把握方法は、ウェブページ移動開始時に移動開始メッセージを発生するが、前記移動開始メッセージは各ウェブページを識別するために発給されたＩＤを含む第１段階と、ウェブページ移動完了時に移動完了メッセージを発生するが、前記移動完了メッセージは当該ウェブページのＵＲＬ情報及び自分が前記ＩＤを通して当該ウェブページがメインページであるかサブページであるかを収録した所属情報を含む第２段階と、ウェブページローディングが全て完了したときにどのウェブページの移動が完了したかを分析した情報を含む文書完了メッセージを発生する第３段階と、前記メッセージを取り合わせてメッセージデータベースを生成する第４段階と、前記メッセージデータベースの分析を通して特定のユーザーの訪問状況及び接続現況のウェブサイト情報を把握する第５段階と、を含むことを特徴とする。

本発明によるウェブページ構造分析を通したウェブサイトの情報把握方法によれば、先ず、第一に、ユーザーのウェブサーフィン経路を分析してウェブサイト情報及び構造を把握することにより、ログファイルやスクリプトをウェブサーバーに埋め込まなくても済むだけではなく、自分が運営するウェブサイト以外に他の運営者が運営する多数のウェブサイトの諸利用状況を把握することができるというメリットがあり、第二に、単一ウェブページまたは複合ウェブページのように異なる構造からなるいかなるウェブページにおいても一様に高いレベルのウェブページ移動情報及びウェブサイト構造及び情報を取得することができるだけではなく、第三に、ウェブページ分析のためのプログラム間の通信を可能にしてこのようなプログラムを使用するユーザー間にウェブページ移動経路などのウェブページ利用情報を共有してより様々な情報を追求することができると共に、第四に、単一／複合ページの再読み込み有無、サブページの一部の変更有無を細かく把握することができ、最後に、インジケータと連動されて既存のブラウザー構造において行い難かったウェブページに付着されたインジケータの正確な再現を行うことができるだけではなく、インジケータをウェブ上において正確に実現するのに役立つと共に、ユーザーのターゲット広告及びＣＲＭ資料などの広範で且つ専門的な情報を取得することができるという効果を有する。

本発明によるウェブページ構造分析を通したウェブサイト情報把握方法の実行のために基本的に構成されるシステムを示すブロック図。ウェブページにおいてインジケータが付着実現された状態を例示する使用状態図。本発明によるウェブページ構造分析を通したウェブサイト情報把握方法の概略的な手続きを示す手順図。本発明によるウェブページ移動時におけるメッセージの発生順序を示す概念図。本発明による移動メッセージを通して生成されるウェブページのツリー構造を示す概念図。本発明によるページ完了状態を確認する状態を示す概念図。複合ページの再読み込み時にページの移動有無を把握する手続きを示す概念図。単一ページの再読み込み時にページの移動有無を把握する手続きを示す概念図。サブページの変更によりサブページの移動サイクルのみが変更されたときにページ移動有無を判断する手続きを示す概念図。

以下、添付図面に基づき、本発明の好適な実施形態を詳述する。添付図面は縮尺によって図示されたものではなく、各図中の同じ参照符号は同じ構成要素を示す。

図１は、本発明によるウェブページ構造分析を通したウェブサイト情報把握方法の実行のために基本的に構成されるシステムを示すブロック図である。

先ず、本発明において言及されるウェブページはページとも呼ばれ、作業ＩＤもまたスレッドＩＤ、ＩＤとも呼ばれる。

本発明は、ウェブページの構造分析及びユーザーのウェブページ移動経路把握を通してログ分析以上のウェブサイト活用情報を得るものであるため、先ず、それぞれのユーザーがインターネット利用のために使用するクライアントサーバーにユーザーウェブページ移動経路分析のためのプログラムがインストールされていなければならない。本発明においてはこれを追跡プログラム２００といい、このような追跡プログラム２００はユーザーの認識有無とは無関係にクライアントサーバーにインストール可能である。

この追跡プログラム２００は様々な戦略によってクライアントサーバーにインストールすることが可能であるが、例えば、本出願人が権利者である特許第７０５４７４号「ウェブページにおいてインジケータを用いた情報表示及び管理システム」において説明されたインジケータ１００（すなわち、各種の特定の情報を収録してウェブページの特定のコンテンツの周辺に積層可能であると共に、ユーザー間の情報共有がなされうる情報表示ウィンドウを意味する）の使用のために実行されるインジケータ実行モジュール２３０を追跡プログラム２００内に搭載して自然にインジケータ実行モジュール２３０と一緒にクライアントサーバー内にインストール可能である。

図２は、ウェブページにおいてインジケータ１００が付着実現された状態を例示する使用状態図である。

より具体的にインジケータ１００を説明すると、本発明において言うインジケータ１００とは、ウェブページに収録された文書、図柄、動画などに相当する部分に表示されるものであり、まるで一般ノートまたは文書に貼り付けるメモ紙、例えば、３Ｍ社の商標名ポストイットと同じ機能を行うウェブ上におけるオンラインメモ紙であると表現することができる。

具体的に、インジケータ１００は、所定のサイズからなるブロック空間が与えられてこの空間内に当該ウェブページの内容に対する評価及び敷衍説明、メモなどを行うことができ、必要に応じて、当該インジケータ１００を読み込むと、インジケータ１００を表示した状態でウェブページが活性化されるのである。

このようなインジケータ１００は、自体的な情報、すなわち、インジケータ１００内の内容、ウェブページにおける付着位置、付着されたウェブページのＵＲＬアドレスなどの情報を保有しており、このようなインジケータ関連情報はインジケータ実行モジュール２３０に保存されて管理サーバー３００に伝送可能である。

この後、管理サーバー３００はこのようなインジケータの存在／位置／内容情報を別途のデータベースに分類して記録、管理することになり、このようにしてＤＢ化されたインジケータ情報を通して既存のブラウザにおいてウェブページ上に別途に付着されたウェブ文書までは把握し難かった短所を克服し、正確にウェブページに付着されたインジケータの位置を把握することができ、このようなインジケータを使用するユーザーの具体的な情報を抽出することができ、さらには、これを通してユーザーのターゲット広告、ＣＲＭ資料として活用可能になる。

もちろん、ユーザーが追跡プログラム２００のインストールを認知した場合、ユーザープライバシー保護次元で本発明の核心であると言えるユーザーウェブページ移動探索機能を任意に制限することもできる。

図１を参照すると、本発明によるウェブページ構造分析を通したウェブサイト情報システムは、メッセージデータベース２２２を管理及び分析するメッセージ分析モジュール３１０を備えた管理サーバー３００、クライアントサーバーにインストールされてユーザーのウェブサーフィン移動経路を追跡し、ウェブページ構造分析のための資料を設け、インジケータ実行モジュール２３０及びインジケータ確認モジュール２４０を内蔵した追跡プログラム２００から構成されている。追跡プログラム２００は、本発明による核心機能であるウェブページの移動経路を把握するための手段であり、メッセージ発生モジュール２１０とメッセージ保存モジュール２２０、インジケータ実行モジュール２３０、インジケータ確認モジュール２４０から構成されている。

メッセージ発生モジュール２１０は、後述する３種類のウェブページ移動メッセージを移動過程別に発生する機能を行うものであり、メッセージ保存モジュール２２０は、このようなウェブページ移動メッセージを保存してデータベース化（メッセージデータベース２２２）して管理サーバー３００に伝送する機能を有する。また、インジケータ実行モジュール２３０は前記インジケータ１００の生成及び実行、情報収録機能をし、インジケータ確認モジュール２４０は移動されるウェブページにおいてインジケータ１００が存在するかどうかを把握する機能をする。

管理サーバー３００は前記メッセージデータベース２２２を伝送されて保存、管理し、メッセージ分析モジュール３１０を通して前記メッセージデータベース２２２を分析してウェブページ構造及びこれを含むウェブサイトの構造を分析するだけではなく、ユーザー別、ウェブページ別に様々な接続統計資料を算出することができ、前記インジケータ確認モジュール２４０のインジケータ情報を伝送されてウェブページに付着されたインジケータ１００の存在及び位置などの情報を収集及び管理する役割を果たす。

図３は、本発明によるウェブページ構造分析を通したウェブサイト情報把握方法の概略的な手続きを示す手順図である。

図３から明らかなように、本発明による方法は、大きく３種類のページ移動メッセージをウェブページ移動開始から移動完了に至るまで順次に発生する段階から構成されているが、先ず、ウェブページ移動メッセージについて説明する。

ウェブページ移動メッセージは、ユーザーによるブラウザーの起動時から発生してブラウザーの終了時まで持続的に発生されるメッセージのうち下記のメッセージを言う。

１）ページ移動開始メッセージ−ユーザーがアドレスウィンドウにＵＲＬを直接的に入力したり、ウェブページのリンクをクリックしたときにウェブページの移動が開始される場合にメッセージ発生モジュールにおいて発生されるメッセージをいう。このページ移動開始メッセージを通して全てのウェブページ当たりに一つのスレッドＩＤ（ＩＤ、作業ＩＤとも呼ばれる）を得ることができる。もし、ブラウザーが最初に接続された場合、すなわち、最初に特定のウェブページを接続した場合には新規なスレッドＩＤを得ることができ、これは後述する。

２）ページ移動完了メッセージ−移動されたウェブページ情報を全て受信した後、モニター上にウェブページをディスプレイする直前に発生するメッセージを意味する。このページ移動完了メッセージは、後述するが、ＵＲＬ情報、ＩＤ情報などを含むことになる。

３）文書完了メッセージ−ウェブページの全ての作業が完了して発生するメッセージをいう。この文書完了メッセージは一つのスレッドが完了する度に発生するものであり、サブページ完了及び全てのスレッド完了などの判断をするために必ず必要とされるメッセージである。

これは、最上位のスレッドが最後に発生してページの移動が完了可能であるが、移動完了後、ｉｆｒａｍｅまたはｆｒａｍｅｓｅｔなどによりページ内部の一部だけが変更されて使用者が他のページとして認識する場合を把握しようとするときに有効に活用される。

さらに、インジケータの存否をこの文書完了メッセージの発生段階において把握することになる。

これらの３種類のウェブページ移動メッセージをウェブページ移動過程（もちろん、後述するが、単一ページと複合ページの移動順序には違いがある）によって発生することによりウェブページ構造把握のための資料として活用することになる。

ここで、作業ＩＤ（スレッドＩＤ、ＩＤ）とは、ページ移動サイクル当たりに発生するウェブページ識別記号を意味し、これは、後述するが、サブページ毎にページ完了／文書完了メッセージがランダムに発生するときにサブページなどの正確な出典を認識させるのに有効に使用される。

先ず、ブラウザーの発生メッセージを得るためには、ＣＯＭのメッセージインボウク機能を利用しなければならず、ブラウザーは各ＵＲＬ当たりに一つのスレッドを生成して各ウェブページ移動を独立的に行うが、結果的にウェブページ移動は直列移動ではなく、並列的な移動方法（後述する図面において詳述する）により行われる。このため、ウェブページ構造の把握のために全ての移動メッセージが発生するときに各移動メッセージ、具体的に特定のＩＤがどのスレッド（または、どの最上位ＩＤ）に属するか、どの状態であるかを把握しなければならない。

これを解消するために、本発明においては、ウェブページと関連する各種の情報を生成、抽出するための移動メッセージの発生過程を経るが、移動メッセージの発生順序をより具体的に説明すれば、下記の通りである。

ウェブページの移動が開始されると、ページ移動開始メッセージが発生し、ここで、当該ＵＲＬのスレッドＩＤ（ＩＤ、作業ＩＤとも呼ばれる）とその他の追加情報を得ることができる。もし、この移動開始メッセージがブラウザー開始後に最初に発生したものであれば、ウェブページ移動を区分可能な最上位作業ＩＤを得ることが可能になる。

この後、当該ページの情報の受信が完了すると、ページ移動完了メッセージが発生される。このとき、どのスレッドに相当するメッセージであるかを確認するが、具体的に、前記移動開始メッセージ発生段階において生成されたＩＤを通して現在移動完了されたウェブページがどのメインページまたは最上位ページのＩＤに関連するものであるかを分析する過程を通して達成可能である。

さらに、移動完了メッセージ発生段階においては、当該ＵＲＬを抽出する過程を通して正確なＵＲＬアドレスを得ることができる。ここで、移動開始時にＵＲＬを抽出しない理由は、開始時に発生するＵＲＬの情報は使用者が入力などの理由により正確ではないＵＲＬである可能性があり、当該ウェブサイトを管理するウェブサーバーのＵＲＬ関連システムにおいてこれを任意に変更することができるためであり、結局、この理由から、ウェブページの情報が確定されて全て受信した以降である移動完了時にＵＲＬを抽出するのである。

これらの２種類のメッセージが発生する間の各移動作業当たりの各ＩＤ、ＵＲＬ、ＩＤ発生順序などの情報をツリー構造で分析したメッセージデータベース生成を通してページの構造を把握する。

最後に、文書完了メッセージが発生すると、既存に把握されたウェブページツリー構造からなるメッセージデータベース内においてどのウェブページの作業が完了されたかを把握し（もし、最初に訪問したウェブサイトである場合には前記確認作業後に新たに訪問されたウェブサイトに対する新規ツリー構造が生成されるであろう）、内部ページの完了である場合と最上位作業の完了であるかを確認する方式によってウェブページ完了作業を処理する。

この後、このような各ウェブページに対する３種類の移動メッセージはメッセージデータベースとして生成されてこれを管理サーバーに伝送し、管理サーバーにおいてはこのようなメッセージデータベースを通してウェブサイトの構造分析、メインページの訪問統計、サブページの訪問統計、訪問時間などのウェブサイトの接続現況などの情報だけではなく、特定のユーザーのウェブサイト訪問状況を分析してＣＲＭ資料、顧客管理資料として活用することができ、さらに、インジケータを使用するユーザーを対象としてターゲット広告を行える基盤が得られる。

図４は、本発明によるウェブページ移動時におけるメッセージの発生順序を示す概念図である。

先ず、図４を説明する前に、ウェブサイトを構成する基本的なウェブページの構造について述べる。

ウェブページ構造はクライアント画面上に現れるページの構造を言うものであり、一つのＵＲＬからなる単一ページ構造と多数のＵＲＬアドレスからなる複合ページ構造がある。複合ページ構造の場合、ページの移動を区分することができ、アドレスウィンドウに表示されるＵＲＬに相当するページであるメインページ（最上位ページ）とこのメインページの内部にｉｆｒａｍｅまたはｆｒａｍｅｓｅｔとして生成されるサブページとに分けられる。

メインページはページ転換を区分可能なページの基本単位の意味を有する。フレームを使用しないページは一つのＵＲＬに合致する一つのページだけが存在するが、ｆｒａｍｅｓｅｔを使用する場合、メインページには内部ページのＵＲＬからなるフレームタグだけで構成され、クライアント画面上に現れるあらゆる内容は内部のフレームにおいて処理する。複合ページにおいて一般的に知られている方式によれば、メインページの転換により基本的なページ転換を確認することができるが、内部ページ変更または再読み込みなどは確認することができない。

サブページはメインページの下位に含まれる全てのページを言うが、ページ移動区分を把握しようとするときにサブページだけで確認することはできないが、間接的な法案として活用可能であり、例えば、サブページの移動／変更情報を通して複合ページの再読み込みまたは内部ページ変更を確認することができる。

このため、複合ページの場合には、特にサブページの変化有無を注目する必要があり、このために、本発明による方法は、サブページに対しても別途の３種類からなる移動メッセージを発生し、これらのサーバーページのメインページへの従属関係を観察することになり、正確なウェブサイトの全体構造を把握しようとする。

図４から明らかなように、複合ページに移動される場合、メインページのページ移動開始メッセージを開始として内部コンテンツをローディングする過程と同時にページ移動完了メッセージが発生される。このとき、ページ中に他のサブページが存在する場合、サブページのページ移動開始／完了／文書完了メッセージが発生するが、ページ移動開始メッセージは順次に発生するが、その他の移動完了／文書完了メッセージはランダムに発生する順序を有する。

その理由は、各ページ当たりに一つのスレッドが生成されて同時にページ移動が行われるため、当該ウェブページの内部コンテンツのローディングが完了される時点を待つことにより、メッセージ発生順序を敢えて遅らせる必要がないためであり、すなわち、スレッドを割り当てるページ移動開始時にのみＩＤ発給段階を含む状態において順次にページ移動開始メッセージが発生して一旦ＩＤ確保を先行し、その後にはサブページのコード量、ローディング時間によってそれぞれその他のメッセージが発生されるのである。この後、終局的にメインページの文書完了メッセージが発生すると、当該ページ移動が完了されるものとみなし、このようなウェブページの構造、すなわち、ＵＲＬ情報、他のウェブページにおいて発行されたＩＤの連関関係を通したメインページまたはサブページ有無が分析される。

図５は、本発明による移動メッセージを通して生成されるウェブページのツリー構造を示す概念図である。

ウェブページツリー構造は、メッセージデータベースをウェブページ別に分かり易くまとめた情報であり、すなわち、ウェブページ構造をメイン情報からサブ情報に至るまで枝構造にすることにより、全体的にツリー形式で表現した方式であって、最上位ページ（メインページ）を基準として下位ページ（サブページ）に枝打ちをしていく構造である。

このようなツリー構造としてメッセージデータベースを設けてウェブページを分析すると、本発明による方法において作業所要時間を削減しながらメインページ、サブページなどの位置と所属情報をより手軽に探索することができ、新たなページの追加及び削除変更の把握が容易であるというメリットを有することになる。併せて、既に接続されたウェブサイトの場合にはウェブサイト構造に関するツリー構造が既に保存されている状態であるため、既に保存されたツリー構造と比較してより迅速に情報処理を行える特性を有することになる。

上述したように、ページ移動メッセージを通してウェブページの構造を類推するために、先ず、ページ移動開始メッセージ発生段階において各ページを区分可能なＩＤを与えるが、このようなＩＤもまたページツリー構造内に保存されていることになる。

もし、特定のウェブページを最初に移動する場合、移動開始メッセージ発生段階において生成された作業ＩＤはブラウザーの移動作業が終わるまで持続的に維持されて移動作業に対する識別機能を担保することになる。

このように最初に移動されて発生された作業ＩＤ以外に発生するページの作業ＩＤはいずれもランダムに生成される。ページの移動時にも新たに発生され、ページの再読み込みの場合にも新たに発生される。

このため、管理サーバーにおけるこのようなＩＤの比較作業及び既存ＩＤと新規ＩＤにおけるＵＲＬ情報の一致有無を判断する過程を通して特定のウェブページの接続回数、ウェブページの移動有無を把握することが可能になる。

しかしながら、複合ページにおいて一部のページだけが変更される場合、作業ＩＤは新たに与えられないことを基本とする。

このような原則に即して、ページの変更状態が一般的なページ移動であるか、それとも、一部が変更されて新たなページとして認識されなければならない場合であるかを判断することができる。

次に、ウェブページの構造分析のために発生及び記録されるメッセージデータベースを構成するデータ、すなわち、ＩＤ、ＵＲＬ情報、移動メッセージ発生順序情報などの使用意味について述べる。

ページ移動開始メッセージが発生すると、新規な接続状態であるかどうかを分析するために当該ウェブページの最上位ページＩＤが予め保存されているかどうかを確認する。保存されていない状態であれば、ブラウザーが最初に開始されて未だ最初作業ＩＤが与えられていない場合であるため、新たな最上位ページＩＤを与える。

既に最上位ページのＩＤが与えられた場合であれば、２種類の場合に区分可能である。

すなわち、最初ＩＤが再発生された場合にはウェブページの移動が新たに開始されるものと把握可能であり、最初ＩＤではない他のＩＤが発生された場合にはページの移動ではない複合ページ内部のサブページの開始であることを把握することができる。

単一ページの場合、ページ移動サイクルが１回なされることにより、サブページの情報は存在しないため、ＩＤ情報だけでウェブページ構造分析が可能であり、但し、単一ページのＵＲＬを付加情報として十分に活用することができる。

これに対し、複合ページの場合、ページＩＤだけでは再読み込み状態であるか、それとも、一部変更であるかを把握することが困難であるため、ＩＤ以外にページのＵＲＬ及びページ生成順序などの情報が発生及び記録される必要がある。

すなわち、複合ページにおいてはメインページ以下のサブページが存在するため、メインページのＩＤ情報以外にサブページの作業ＩＤ、サブページのＵＲＬ、サブページの発生順番などの情報をページツリー構造に記録管理してこのようなＩＤ比較、ＵＲＬ比較、サブページの発生順序情報を総合的に分析して全体的な複合ページの移動有無または構造を把握することができるため、複合ページにおいては必須的にＵＲＬ情報及びサブページ発生順序情報が利用される。

以下、単一ページ及び複合ページの移動完了有無を確認する手続きをより詳細に説明する。

図６は、本発明によるページ完了状態を確認する状態を示す概念図である。

単一ページの場合、単一ページ移動サイクルが１回発生し、下位にいかなるサブページを保有していないため、別途のツリー構造の記録なしに３種類の移動メッセージの発生によってページ完了有無を把握する。

複合ページの場合、メインページ移動サイクルの下位に多数のサブページ移動サイクルが存在するため、メインページとサブページを区分する必要があるが、具体的に、メインページ移動開始メッセージの発生後に下位のサブページ移動メッセージがローディング順序によってランダムに発生されて全てのサブページの移動過程が完了すると、メインページ移動サイクルの文書完了メッセージが発生する過程を経ることになる。

この過程において、メインページ文書完了メッセージが存在するかどうかによって複合ページ移動完了を把握することができる。

図７は、複合ページの再読み込み時にページの移動有無を把握する手続きを示す概念図である。

前記図５に示すように、ページツリー構造が正確に作成されたならば、その後に当該ウェブページを訪問したときに全体的なウェブページ構造を把握することが便利になる。

特に、複合ページは下位に多数のサブページが存在するため、今後の管理（再読み込みなど）のためにサブページに関する情報をページツリー構造に詳しく記録する必要がある。

具体的に、図７を参照すると、複合ページにおいて再読み込みが発生する場合、メインページを除く全てのサブページのリロードが発生する。このときに発生されるページ移動サイクルのＩＤはいずれも新たに発生されて以前ページ作業ＩＤとは全く異なるＩＤが発生される。

このため、文書完了メッセージ発生後再びページ移動開始メッセージが発生した場合、作業ＩＤが以前に作成されたページツリー構造に含まれないかとメインページのＩＤではないかを確認して、両方ともに該当しないならば、複合ページの再読み込みであることを把握することが可能になる。

図８は、単一ページの再読み込み時にページの移動有無を把握する手続きを示す概念図である。

単一ページは下位のページそのものがない。このため、複合ページでのように下位ページのメッセージ発生によりページ再読み込みを推察することができない。これを防止するために、下記の２種類のメッセージをさらに用いて単一ページの再読み込み状態にも対応することができる。

すなわち、タイトル変更メッセージはブラウザーのタイトルが変更されたときに発生するメッセージであり、ダウンロード完了メッセージはページ内の全てのコンテンツのダウンロードが完了したときに発生するメッセージである。

換言すると、単一ページの再読み込みが開始されると、最初に発生するメッセージの一つがタイトル変更メッセージである。ページ移動完了後、もし、ページ移動開始メッセージが発生しない状況においてタイトル変更メッセージが発生し、ページの構造も単一ページであれば、ページの再読み込みが起こりうる状況であることを想定しなければならない。すなわち、再読み込みであるという概念が既にウェブページのローディングが完了された後になされる行為であるため、ウェブページが単一ページであるという情報を確認した後に後続するメッセージ発生有無及び種類によって再読み込み状態を把握するのである。

換言すると、文書完了メッセージ発生後に別途の移動開始メッセージが発生せず、タイトル変更メッセージ及び文書の完了の確定を知らせるダウンロード完了メッセージの有無により単一ページの再読み込み状態を把握することが可能になる。

ここで、タイトル変更メッセージ発生状況をページ再読み込みであると断定することなく、単に仮定のみする理由は、タイトル変更メッセージはページ内においてスクリプト修正などにより発生する余地があるためであり、このため、タイトル変更ではページ移動の開始が予想されるということのみを認識し、タイトル変更メッセージ後にダウンロード完了メッセージが発生されるとページの再読み込みが発生されたものと認識する。

図９は、サブページの変更によりサブページの移動サイクルのみが変更されたときにページ移動有無を判断する手続きを示す概念図である。

ウェブサイトの製作方法によって内部のフレームにより掲示板を実現してメインページの変化なしにフレーム内部の掲示板だけを変更してサイトの情報を表示する方法と、ページの広告をフレームにより製作して所定の時間に１回ずつ他の広告に交替する方法が存在する。

このとき、２種類の方法が両方とも内部のページがページ移動サイクルを発生させるが、最初の掲示板の場合、使用者は変更前と変更後を異なるページとして認識するのに対し、広告の場合に修正されるとしても新たなページとして認識しない。このため、サブページの移動時には新たなページとして認識するか、それとも、無視しなければならない移動であるかを判断しなければならない。

メインページではないサブページのみが変更される場合、サブページの作業ＩＤは新たに与えられることなく、以前の作業ＩＤを有している。このため、この作業ＩＤをもってページ構造ツリーにおいてどのページに当該するかを見出す。そして、新たに移動するＵＲＬと保存された既存のＵＲＬが異なる場合、ページの変更であると認識しなければならず、そうではなく、同じＵＲＬであれば、ページの変更を無視する。

そして、ＵＲＬが異なる場合であれば、新たなＵＲＬの状態によって下位のサブページが追加される場合があるが、このページもまた無視することなくページツリー構造に追加しなければならない。

このような過程を経て本発明による方法を通して特定のユーザーのウェブページの移動経路を把握することが可能になり、すなわち、特定のユーザーのウェブサーフィン移動経路を収集したデータを収録したメッセージデータベースが管理サーバーに伝送されて、管理サーバーにおいては移動メッセージデータベースの分析を通して各ウェブサイトの接続現況、特定のユーザーの接続経路分析などの具体的な統計資料を把握することができる。

また、もし、ウェブページにインジケータが付着されている場合、管理サーバーはインジケータに関する情報まで収集してインジケータの付着位置などの情報及び資料を把握することも可能になる。

具体的に、文書完了メッセージが生成される段階において、インジケータにおいて伝送する情報が存在するかどうかを確認して、もし存在する場合、当該インジケータの存在情報を文書完了メッセージと一緒に前記管理サーバーに伝送して、前記管理サーバーはこのようなメッセージデータベースにインジケータ存在情報を含めることができる。

あるいは、文書完了メッセージが発生すると、文書の情報を管理サーバーに伝送して当該文書に存在するインジケータを探索して再伝送してウェブページにインジケータを含めて使用者に表示してもよい。

現在のブラウザー構造だけでは上述したインジケータの位置または存在情報を把握することが困難であったが、本発明による方法及びこのようなインジケータ存在情報を通して特定のウェブページに付着されたインジケータの正確な位置情報を再現することができ、さらに、このような情報を収集して管理サーバーに記録／管理／保存可能であり、これにより、インジケータ使用ユーザーを対象としてターゲット広告を行うこともできると共に、その他の既存のログ分析を通して具体的に把握できなかった情報を収集することができる。

上述したように、本発明によるウェブページ構造分析を通したウェブサイト情報把握方法の構成及び作用を前記説明及び図面に表現したが、これは単に例にとって説明したものに過ぎず、本発明の思想が前記説明及び図面に限定されず、本発明の技術的思想を逸脱しない範囲内において種々の変化及び変更が可能であることはもちろんである。

１００インジケータ、
２００追跡プログラム、
２１０メッセージ発生モジュール、
２２０メッセージ保存モジュール、
２３０インジケータ実行モジュール、
２４０インジケータ確認モジュール、
３００管理サーバー、
３１０メッセージ分析モジュール、

Claims

ウェブページ構造分析を通したウェブサイト情報把握方法であって、
クライアントサーバーが、ユーザーがアドレスウィンドウにＵＲＬを直接的に入力したり、ウェブページのリンクをクリックしたときにウェブページの移動が開始される時に移動開始メッセージを発生するが、前記移動開始メッセージは当該ウェブページを識別するために発給されたＩＤを含む第１段階と、
クライアントサーバーが、ウェブページ移動完了時に移動完了メッセージを発生するが、前記移動完了メッセージは当該ウェブページのＵＲＬ情報及び前記移動開始メッセージ発生段階において生成されたＩＤを通して現在移動完了されたウェブページがどのメインページまたは最上位ページのＩＤに関連するものであるかを分析する過程を通して達成される情報を含む第２段階と、
クライアントサーバーが、ウェブページローディングが全て完了したときにどのウェブページの移動が完了したかを分析した情報を含む文書完了メッセージを発生する第３段階と、
クライアントサーバーが、前記メッセージを取り合わせてメッセージデータベースを生成する第４段階と、
管理サーバーが、前記メッセージデータベースの分析を通して特定のユーザーの訪問状況及び接続現況のウェブサイト情報を把握する第５段階と、
を含むことを特徴とする、
ウェブページ構造分析を通したウェブサイト情報把握方法。
複数のウェブページを移動する場合、前記第１から第３段階におけるメッセージの発生順序段階は、
前記移動開始メッセージはクライアントサーバーによってウェブページ別に順次に発生され、前記移動完了メッセージと文書完了メッセージは前記移動開始メッセージ発生後ローディング順序によってランダムにクライアントサーバーによって発生される段階からなり、
クライアントサーバーが、前記メッセージ発生順序を収録した情報を前記メッセージデータベースに保存する段階を含むことを特徴とする、
請求項１に記載のウェブページ構造分析を通したウェブサイト情報把握方法。
前記第４段階は、
クライアントサーバーが、前記第１から第３段階において発生した各メッセージを通して特定のウェブサイトの複数のウェブページをメインページからサブページまでツリー構造で把握したメッセージデータベースを生成することを特徴とする、
請求項１に記載のウェブページ構造分析を通したウェブサイト情報把握方法。
前記第１段階は、
クライアントサーバーが、当該ウェブページに対する最初訪問であるかどうかを把握するために、前記メッセージデータベースにおいて当該ウェブページに対するＩＤ情報が保存されているかどうかを確認する段階を含むことを特徴とする、
請求項１に記載のウェブページ構造分析を通したウェブサイト情報把握方法。
ウェブページが複合ページの再読み込み状態である場合、
管理サーバーが、サブページにおいて発行されたＩＤが既存のＩＤと一致するかどうかを比較分析する過程を通して複合ページの再読み込み状態を把握する段階を含むことを特徴とする、
請求項１に記載のウェブページ構造分析を通したウェブサイト情報把握方法。
ウェブページが単一ページの再読み込み状態である場合、
タイトル変更メッセージを生成する段階と、
ウェブページの内部コンテンツのダウンロード完了時にダウンロード完了メッセージをさらに生成する段階と、
を含み、
前記タイトル変更メッセージとダウンロード完了メッセージの有無をもって単一ページの再読み込み状態を把握することを特徴とする、
請求項１に記載のウェブページ構造分析を通したウェブサイト情報把握方法。
複合ページにおいてサブページのみが変更された場合、
サブページの作業ＩＤを再生成することなく維持する段階と、
維持されたＩＤを通して前記メッセージデータベースにおいて当該ウェブページの位置を検索する段階と、
現在のＵＲＬ情報と検索されたウェブページのＵＲＬ情報が異なる場合、ウェブページが変更されたものと認識する段階と、
をさらに含むことを特徴とする、
請求項１に記載のウェブページ構造分析を通したウェブサイト情報把握方法。
前記第３段階は、
クライアントサーバーが、当該ウェブページに別途に付着されたインジケータが存在するかどうかを確認して、インジケータが存在する場合に別途のインジケータ存在情報を生成することを特徴とする、
請求項１に記載のウェブページ構造分析を通したウェブサイト情報把握方法。
前記インジケータ存在情報は、インジケータ位置情報、内容情報を含んで別途のデータベースに保存されることを特徴とする、
請求項８に記載のウェブページ構造分析を通したウェブサイト情報把握方法。