JP5485856B2

JP5485856B2 - 閲覧ログ解析装置及び閲覧ログ解析プログラム

Info

Publication number: JP5485856B2
Application number: JP2010237989A
Authority: JP
Inventors: 裕一郎関口; 匡内山; 正之杉崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-10-22
Filing date: 2010-10-22
Publication date: 2014-05-07
Anticipated expiration: 2030-10-22
Also published as: JP2012093803A

Description

本発明は、ウェブブラウザを介して閲覧されたウェブ閲覧行動を解析する技術、特に検索等によってリンク関係のないページ間の閲覧推移を補完するための閲覧行動解析技術に関する。

インターネットの発達によってウェブサイトでの購買行動が一般化しており、従来から購買行動等を含むユーザのウェブ閲覧行動の分析が行われている。例えば特許文献１に開示された操作履歴収集技術のように、閲覧ログを記録することで、ユーザがウェブにおいて商品を購入する際にどのような情報を意志決定の手がかりとしていたかの分析が可能となっている。本分析法においては購買行動に至るまでの一連の閲覧行動のまとまりを閲覧ログから抽出することが必要である。

閲覧ログからユーザが似通った興味を持って閲覧を行っていたと考えられる閲覧行動のまとまりを抽出する手法は多数提案されている。例えば、特許文献２に開示された履歴処理技術のように閲覧したウェブページ間の内容の関連度を用いて関連の高いページの纏まりを抽出している。

また、閲覧ログ中におけるユーザが意図的にウェブページ内のハイパーリンクをクリックして他のページに遷移した情報を用いて、ユーザのリンククリックにより繋がったページ群を関連の高いページの纏まりとして抽出することが容易に想定することができる。

特開２００９−２８９０７７特開２００９−２５２１７１

ＳｔｕａｒｔＫ．Ｃａｒｄ，ＰｅｔｅｒＰｉｒｏｌｌｉ，ＭｉｊａＶａｎＤｅｒＷｅｇｅ，ＪｕｌｉｅＢ．Ｍｏｒｒｉｓｏｎ，ＲｏｂｅｒｔＷ．Ｒｅｅｄｅｒ，ＰａｍｅｌａＫ．Ｓｃｈｒａｅｄｌｅｙ，ＪｅｎｅａＢｏｓｈａｒｔ，"ＩｎｆｏｒｍａｔｉｏｎｓｃｅｎｔａｓａｄｒｉｖｅｒｏｆＷｅｂｂｅｈａｖｉｏｒｇｒａｐｈｓ：ｒｅｓｕｌｔｓｏｆａｐｒｏｔｏｃｏｌａｎａｌｙｓｉｓｍｅｔｈｏｄｆｏｒＷｅｂ uｓａｂｉｌｉｔｙ"，ＩｎＰｒｏｃ．ｏｆＣＨＩ’０１，ＶｏｌｕｍｅＮｏ．３，ＩｓｓｕｅＮｏ．１，３１ＭＡＲＣＨ‐５ＡＰＲＩＬ，２００１，ｐｐ．４９８−５０５

従来の閲覧履歴を抽出する技術においては、ウェブページに含まれる文書内容に基づいてページ間の関連度を評価し、それを用いてページ間の関連を取得するようにしている。そのため、ウェブページの本題の部分以外の広告やナビゲーションリンクの一覧といった部分に共通性が合った場合にも関係性が高く判定され同じ纏まりがあると判断されてしまうという問題がある。

また、従来のウェブページの遷移の情報を利用した技術においては、リンク関係のあるページ間にのみ関係性を定義するので、ユーザが能動的に選択して閲覧したリンク関係のあるページのみの集合が取得されるので、精度の高い抽出ができる。しかしながら、ウェブ閲覧の途中に検索行為が含まれている場合にその行為の時点で関係性が途絶えてしまうという問題がある。

本発明は、上記の事情に鑑みなされたもので、検索行動と他のウェブページの関係性を評価することにより直接的なリンク関係の記録されていない検索ページを含めた閲覧行動の集合を抽出することを目的とする。

そこで、本発明は、検索クエリを含むウェブページの集合をウェブページの閲覧行動のログに基づき一定の関係性を有するページ集合に分割するための閲覧ログ解析装置であって、図１に示したように、収集されたウェブ閲覧行動のログ情報に基づきウェブページ間のリンク関係を抽出し、この抽出した複数のリンク関係を有するウェブページの集合を関連するページ集合として抽出するリンク関係解析手段と、前記抽出された複数のページ集合中の検索エンジンによる検索結果ページを含むページ集合について、当該検索結果ページに含まれる検索クエリを抽出しこの検索クエリを含んだ検索結果ページを有するページ集合間の関連性の判定を行い一定の関連性があると判定されたページ集合の組を同一のページ集合として集約するクエリ関係解析手段とを備え、前記クエリ関係解析手段は、前記検索クエリを含んだ検索結果ページから始まっているページ集合を特定し、この特定したページ集合の直前に閲覧されたページ集合の最後の閲覧ページにおいて当該検索クエリが含まれている場合に、当該特定したページ集合と前記直前に閲覧されたページ集合との内容的な関係性を判定し、一定の関連性があると判定されたページ集合の組を同一のページ集合として集約するクエリ‐ページ関係解析手段を備え、前記クエリ‐ページ関係解析手段は、前記特定したページ集合と前記直前に閲覧されたページ集合との内容的な関係性を判定するにあたり、当該ページ集合の閲覧ページ情報に含まれる語句の出現頻度と当該閲覧ページ情報をユーザが閲覧した時間とに基づき、前記特定したページ集合と前記直前に閲覧されたページ集合の特徴量を算出する。

前記クエリ関係解析手段の更なる具体的な態様としては、前記検索クエリを含んだ検索結果ページを有するページ集合についてその特徴量を抽出し、この特徴量の類似度に基づきページ集合間の関係性を判定し、一定の関連性があると判定されたページ集合の組を同一のページ集合として集約するクエリ‐クエリ関係解析手段を備え、前記クエリ‐クエリ関係解析手段は、前記検索結果ページの内容情報に含まれる語句の出現頻度と当該ページの内容情報をユーザが閲覧した時間とに基づき前記特徴量を算出する。

尚、本発明は上記の閲覧ログ解析装置を構成する各手段としてコンピュータを機能させる閲覧ログ解析プログラムの態様とすることもできる。

以上の発明によれば検索行動と他のウェブページの関係性を評価することにより直接的なリンク関係の記録されていない検索ページを含めた閲覧行動の集合を抽出できる。

本発明の原理構成図。本発明の実施形態に係る閲覧ログ解析装置のブロック構成図。本発明の実施形態に係る閲覧ログデータベースに格納されている閲覧ページ情報の一例を示した図。本発明の実施形態に係るリンク関係解析部の処理手順を説明したチャート図。本発明の実施形態に係るリンク関係解析部の処理が終わった時点における閲覧情報バッフアに蓄積されている情報の一例を示した図。本発明の実施形態に係るクエリ‐クエリ関係解析部の処理手順を説明したフローチャート図。本発明の実施形態に係るクエリ‐クエリ関係解析部が閲覧ページ集合生成部に出力する情報の一例を示した図。本発明の実施形態に係るクエリ‐ページ関係解析部の処理手順を説明したフローチャート図。本発明の実施形態に係るクエリ‐ページ関係解析部が閲覧ページ集合作成部に出力する情報の一例を示した図。本発明の実施形態に係る閲覧ページ集合の出力結果の一例を示した図。

以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。

［概要］
図２に示された本発明の実施形態に係る閲覧ログ解析装置１は、先ず、リンク関係解析部２が、収集されたウェブ閲覧行動のログ情報に基づきウェブページ間のリンク関係を抽出し、この抽出した複数のリンク関係を有するウェブページの集合を関連するページ集合として抽出する。次いで、クエリ‐クエリ関係解析部３が、前記抽出された複数のページ集合中の検索エンジンによる検索結果ページを含むページ集合について、当該ページ集合中の当該検索結果ページに含まれる検索クエリを抽出し、この検索クエリを含んだ検索結果ページを有するページ集合間の関連性の判定を行い、一定の関連性があると判定されたページ集合の組を同一のページ集合として集約する。また、クエリ‐ページ関係解析部４が、前記検索クエリを含んだ検索結果ページを含むページ集合とその直前の遷移元のページ集合との関連性の判定を行い、一定の関連性があると判定されたページ集合の組を同一のページ集合として集約する。そして、閲覧ページ集合作成部５はクエリ‐クエリ関係解析部３及びクエリ‐ページ関係解析部４で集約されたページ集合に基づき検索クエリとページ集合との関係を示した閲覧ページ集合を作成する。

［装置の構成］
閲覧ログ解析装置１は、リンク関係解析部２、クエリ‐クエリ関係解析部３、クエリ‐ページ関係解析部４、閲覧ページ集合作成部５を備える。さらには、処理途中のデータを保持する閲覧情報バッファ６及び一時バッファ７を備える。

閲覧ログ解析装置１の上記機能部２〜５、バッファ６，７は例えばコンピュータのハードウェアリソースによって実現される。すなわち、閲覧ログ解析装置１はＣＰＵ、メモリ、記憶装置（例えば、ハードディスクドライブ装置）、Ｉ／Ｏデバイス（例えば、ネットワークデバイス、ＵＳＢ等）等のコンピュータに係るハードウェアリソースを備える。そして、これらのハードウェアリソースがソフトウェアリソース（ＯＳ、アプリケーション等）と協働することにより機能部２〜５、バッファ６，７が実装される。

また、閲覧ログ解析装置１は解析対象となる閲覧ログ情報が蓄積されている閲覧ログデータベース８に対してアクセスが可能となっている。閲覧ログデータベース８は例えば特許文献１に示された操作履歴収集技術を用いて収集された多数のユーザによるウェブ閲覧行動のログが蓄積されたデータベースである。例えば、閲覧したユーザＩＤ、閲覧時刻、閲覧秒数、閲覧したページＵＲＬ、直前に閲覧していたページのＵＲＬ、閲覧したページの内容とからなる閲覧ページ情報が閲覧時刻の時系列順に大量に保持されたものである。

図３に閲覧ログデータベース８に保持されている閲覧情報の例を示す。また、以後表記の簡略化のため、閲覧したユーザＩＤを「ユーザＩＤ」、閲覧したページＵＲＬを「ＵＲＬ」、直前に閲覧していたページのＵＲＬを「リファラ」、閲覧したページ内容を「ページ内容」と表記するものとする。一般的なウェブブラウザにおいてリファラはリンクをクリックして閲覧した場合にしか残らないが、本実施形態においてはウェブブラウザのバックボタンを用いて前のページに戻った場合等においても、直前に閲覧していたページのＵＲＬがリファラとして記録されているとする。また、ページ内容としてはページのＨＴＭＬだけでなくウェブブラウザに表示する際に自動で読み込まれるフレームページ内容やスタイルシート情報等も併せて記録されているものとする。

閲覧ログ解析装置１は、解析対象とするユーザＩＤの情報の入力を受ける。また、処理を軽減するため、ユーザＩＤ情報と共に時刻範囲情報の入力を受け、この入力された時刻範囲内の閲覧情報のみを処理対象としても良い。

リンク関係解析部２は収集されたウェブ閲覧行動のログからリンクに基づき遷移されたウェブページ間のリンク関係を抽出しこの抽出した複数のリンク関係を有するページの集合を関連するページ集合として抽出する。具体的には、解析対象ユーザＩＤの情報の入力を受けると、解析対象ユーザＩＤと等しい値がユーザＩＤカラムに入っている全ての閲覧ページ情報を閲覧ログデータベース８から読み出す。そして、この読み込んだ複数の閲覧ページ情報のＵＲＬとリファラの情報を解析することにより、リンクのクリックによって閲覧されたリンク元ページとリンク先ページの関係性を抽出し、そのリンク関係に基づいて連続した閲覧となっているページ集合を抽出する。

クエリ‐クエリ関係解析部３は、リンク関係解析部２によって抽出された複数のページ集合中の検索エンジンによる検索結果ページを含むページ集合について、当該検索結果ページに含まれる検索クエリを含んだ検索結果ページを有するページ集合の特徴量を抽出する。そして、この特徴量の類似度に基づきページ集合間の関係性を判定し、一定の関連性があると判定されたページ集合の組を同一のページ集合として集約する。

クエリ‐ページ関係解析部４は、リンク関係解析部２によって抽出された複数のページ集合中の検索エンジンによる検索結果ページを含むページ集合について、当該検索結果ページに含まれる検索クエリを含んだ検索結果ページから始まっているページ集合を特定する。そして、この特定したページ集合の直前に閲覧されたページ集合の最後の閲覧ページにおいて当該検索クエリが含まれている場合に、前記特定したページ集合と前記直前に閲覧されたページ集合との内容的な関係性を判定し、一定の関連性があると判定されたページ集合の組を同一のページ集合として集約する。

閲覧ページ集合作成部５はクエリ‐クエリ関係解析部３で集約されたページ集合とクエリ‐ページ関係解析部４で集約されたページ集合とに基づき検索クエリとページ集合との関係を示した閲覧ページ集合を作成する。

［処理手順の説明］
（リンク関係の解析）
図４を参照しながらリンク関係解析部２による具体的なリンク関係解析手順Ｓ１０１〜Ｓ１０３について説明する。

Ｓ１０１：リンク関係解析部２は、Ｉ／Ｏデバイスを介して外部から解析対象であるユーザＩＤ情報の入力を受けると、閲覧ログデータベース８にアクセスし、当該ユーザＩＤ情報を有する閲覧ページ情報を全て読み出す。

この読み出された閲覧ページ情報は閲覧時刻で並べ替えられ閲覧時刻が古い順に閲覧ＩＤが付加されたうえで閲覧情報バッファ６に記録される。尚、時閲覧情報バッファ６に蓄積される閲覧ページ情報は全て同じユーザＩＤ情報を有するので、記録容量の節約のためユーザＩＤ情報を削除した上で蓄積してもよい。

Ｓ１０２：リンク関係解析部２はＳ１０１で読み出した閲覧ページ情報に含まれるＵＲＬ情報とリファラ情報とを用いてリンククリックで辿ったページの組を特定する。

具体的には閲覧情報バッファ６に蓄積された閲覧ページ情報を閲覧ＩＤが小さい順に読み込む。そして、この読み込んだ閲覧ページ情報にリファラ情報が含まれる場合に、当該リファラ情報と同じＵＲＬをＵＲＬ情報に有するページを当該閲覧ページ情報よりも閲覧ＩＤが小さいデータの中から閲覧ＩＤの降順で探す。これにより特定されたデータの閲覧ＩＤ情報は遷移元ＩＤ情報として閲覧情報バッファ６に記録される。

図５に示された事例を参照しながらより具体的に説明すると、閲覧ＩＤ＝６のデータはリファラ情報に「ｈｏｇｅ．ｃｏｍ／」を有するので閲覧ＩＤが１と５と７のデータが同じ値をＵＲＬ情報に持っているため遷移元ＩＤの候補となる。この時、遷移元ＩＤは処理している閲覧ページ情報の閲覧情報ＩＤよりも小さいデータから降順で探索するため、遷移元ＩＤは５となる。また、閲覧ＩＤが４のデータはリファラ情報がないため、遷移元ＩＤ情報が空となる。閲覧ＩＤが１のデータはそれよりも値が小さい閲覧ページ情報が閲覧情報バッファ中に存在しないため、遷移元ＩＤ情報が空となる。

Ｓ１０３：リンク関係解析部２はステップＳ１０２で得られた遷移関係にある閲覧ページ情報の集合をページ集合としてグループ化し、それぞれのページ集合に一意なＩＤを付与して閲覧情報バッファ６に記録する。

具体的には閲覧ＩＤが小さい閲覧ページ情報から順に読み込み、読み込んだ閲覧ＩＤを遷移元ＩＤ情報として持つ閲覧ページ情報を同じページ集合に所属する情報として読み込み、またその読み込んだ閲覧ＩＤを遷移元ＩＤ情報として持つ閲覧ページを読み込む。この手順を継続し、新たに読み込まれる閲覧ページ情報がなくなった時点で一つのページ集合が得られたとして読み込まれた全閲覧ページ情報に同じページ集合ＩＤを記録する。

リンク関係解析部２の処理が終わった段階での、閲覧情報バッファに蓄積されている情報の例を図５に示した。上記の処理について図５を参照しながら説明すると、最初に閲覧ＩＤが１のデータが読み込む。すると遷移元ＩＤ情報が１となっているデータが閲覧ＩＤ２に存在するのでそれを読み込む、次に遷移元ＩＤが２になっているデータが閲覧ＩＤ３に存在するのでそれを読み込む。すると遷移元ＩＤ情報に１もしくは２もしくは３を含むデータは存在しなくなるので、ここまでに読み込まれた閲覧ＩＤ１、２、３の３つのデータがページ集合となり、それぞれのページ集合ＩＤ情報に１を記録して処理を終了する。

（クエリ‐クエリ関係の解析）
図６を参照しながらクエリ‐クエリ関係解析部３による具体的な関係解析手順Ｓ２０１〜Ｓ２０４について説明する。

Ｓ２０１：クエリ‐クエリ関係解析部３は、リンク関係解析部２がその処理（Ｓ１０１〜Ｓ１０３）を終了すると、閲覧情報バッファ６に格納されている複数のページ集合から検索結果ページを含むページ集合を特定する。

具体的には、閲覧情報バッファ６中のＳ１０１〜Ｓ１０３を経た各閲覧ページ情報のＵＲＬ情報を参照し、検索エンジンによって得られた検索結果ページのＵＲＬとなっている閲覧ページ情報が含まれているか否かを確認する。この確認方法では、予め検索結果ページＵＲＬのパターン群を収集しておき、そのパターン群とＵＲＬ情報とのパターンマッチングを用いて行う。前記閲覧ページ情報が含まれている場合、その検索結果ページに含まれる検索クエリ情報と当該閲覧ページ情報を含んでいるページ集合のＩＤ情報とを一時バッファ７に記録する。尚、当閲覧ページ情報が含まれていない場合、解析処理を終了させる。

Ｓ２０２：クエリ‐クエリ関係解析部３はＳ２０１で得られた検索結果ページを含むページ集合について特徴量を抽出する。

すなわち、一時バッファ７に記録されている図５に例示された検索結果ページを含むページ集合のＩＤ情報を一つずつ順に読み込み、このページ集合ＩＤ情報を有する閲覧ページ情報の閲覧秒数情報とページ内容情報を用いて当該ページ集合ＩＤの特徴を表す語句ベクトルｖを構築する。

具体的には処理対象となるページ集合ＩＤを持つ閲覧ページ情報がｎ件あった場合、それぞれのページ内容情報をｃ_i、閲覧秒数をｓ_iとする。このページ内容情報をそれぞれ既知の形態素解析技術を用いて語句に分割する。このときｃ₁からｃ_nまでに含まれる全ての語句の集合をＷ、その語数をＭとする。語句ベクトルｖはＭ次元のベクトルとなり、ある語句ｗ_kがｃ_iに含まれる頻度をｆｒｅｑ（ｃ_i，ｗ_k）とすると、ｖは下記の式（１）で求められる。

このとき、ｉｄｆ（ｗ_k）は閲覧ログデータベース８に蓄積された全ページ内容情報から算出した語句ｗ_kのｉｄｆ値となる。上記式（１）を用いることにより、長時間閲覧していたページをより興味を持ったページとして強く反映させたページ集合の語句特徴を表すベクトルを算出できる。

Ｓ２０３：クエリ‐クエリ関係解析部３は前記検索結果ページから始まるページ集合の組に対してＳ２０２で得られた特徴量の類似度に基づき関係性を判別する。

すなわち、一時バッファ７に記録されている全ページ集合ＩＤの組に対して、Ｓ２０２で得られた語句ベクトル間の類似度を用いて関係性を算出し、予め定められた値以上の関係性を示した組を、関係性を有するページ集合として判定する。語句ベクトルｖ₁、ｖ₂間の類似度は、例えばコサイン類似度を用いて下記の式（２）によって算出できる。

この際予め関連する検索ページ集合の組が得られるようであれば、既存のＳＶＭ等の機械学習アルゴリズムを用いて、語句ベクトルを素性とした関連の有無の自動分類を行ってもよい。

Ｓ２０４：クエリ‐クエリ関係解析部３は全ての検索結果ページを含むページ集合の組に対して関係性の判別が行われていたかを判定し、行われていないと判断した場合はステップ３に戻って未処理の組に対して処理を行う。全ての組に対して処理が終了したと判断するとクエリ‐クエリ関係解析部３の処理を終了する。

以上のＳ２０１〜Ｓ２０３を経て得られた一定の関係性を有するページ集合の組が関係性を有するページ集合として閲覧ページ集合作成部５に出力される。例えば、図７に示された事例ではページ集合１と３、２と３、５と６の間に関係性があると判別され、閲覧ページ集合作成部５に出力される。

（クエリ‐ページ関係の解析）
図８を参照しながらクエリ‐ページ関係解析部４による具体的な関係解析手順Ｓ３０１〜Ｓ３０４について説明する。

Ｓ３０１：クエリ‐ページ関係解析部４は、リンク関係解析部２がその処理（Ｓ１０１〜Ｓ１０３）を終了すると、閲覧情報バッファ６に格納されている複数のページ集合から検索結果ページから始まっているページ集合を特定する。

具体的には、閲覧情報バッファ６中のＳ１０１〜Ｓ１０３を経た閲覧情報バッファ６中の各閲覧ページ情報のＵＲＬ情報を参照し、検索エンジンによって得られた検索結果ページのＵＲＬとなっている閲覧ページ情報が含まれているか否かを確認する。この確認方法では、Ｓ２０１と同様に、予め検索結果ページＵＲＬのパターン群を収集しておき、そのパターン群とＵＲＬ情報とのパターンマッチングを用いて行う。前記閲覧ページ情報が含まれている場合、その検索結果ページに含まれる検索クエリ情報と当該閲覧ページ情報を含んでいるページ集合のＩＤ情報とを一時バッファ７に記録する。尚、当閲覧ページ情報が含まれていない場合、解析処理を終了させる。

Ｓ３０２：クエリ‐ページ関係解析部４はＳ３０１で特定されたページ集合の直前に閲覧されたページ集合の最後の閲覧ページ情報と検索クエリ情報に関連性があるか否かを判定する。

具体的には、一時バッファ７に記録されている図５に例示された検索クエリ情報とこれを含むページ集合のＩＤ情報を１つずつ順に読み込み、当該ページ集合ＩＤから一つ引いた値を直前ページ集合ＩＤとする。次に、閲覧情報バッファ６中から直前ページ集合ＩＤを持つ閲覧ページ情報の中で一番大きな閲覧ＩＤを持つデータのページ内容情報を取得し、このページ内容情報中に一時バッファ７から読み込んだ検索クエリ情報の語句が含まれていた場合、当該検索クエリ情報は直前に閲覧したページから発想されたクエリ情報と判定する。一方、前記検索クエリ情報が直前に閲覧したページから発想されたクエリと判定されなかった場合は、ステップＳ３０３の処理を行わず、ステップＳ３０４に進む。

Ｓ３０３：クエリ‐ページ関係解析部４はＳ３０２で得られた直前に閲覧されたページ集合と検索クエリ情報を含むページ集合との間に内容的な関係があるかを判定する。

具体的には、一時バッファ７から読み込んだページ集合ＩＤを持つ閲覧ページ情報を含むページ集合と直前ページ集合ＩＤを持つ閲覧ページ情報を含むページ集合とについて前記の式（１）を用いたステップＳ２０２と同様の処理を行い、それぞれ語句ベクトルを算出する。

次いで、前記の式（２）を用いたステップＳ２０３と同様の処理を行うことで両者のページ集合の類似度を算出する。この算出された類似度が予め定められた閾値よりも低ければ直前の閲覧ページから新たな興味を発見して検索しているとみなす。一方、閾値よりも高ければ直前の閲覧ページからより興味にあった検索クエリを発見して検索しているとみなす。

以上の両者のページ集合の関係性の判定を行い、例えば、得られた類似度が予め定められた閾値以上だった場合、内容関係性フラグを「１」としてページ集合ＩＤと直前ページ集合ＩＤの組を出力する。閾値以下だった場合は、内容関係性フラグを「０」としてページ集合ＩＤと直前ページ集合ＩＤの組を出力する。

Ｓ３０４：クエリ‐ページ関係解析部４は一時バッファ７に記録された全てのページ集合ＩＤについて処理が行われたかを判定し、行われていた場合はクエリ‐ページ解析部４の処理を終了する。一方、未処理のページ集合ＩＤが存在した場合には、ステップＳ３０２に戻って処理を継続する。

以上のＳ３０１〜Ｓ３０４の処理の結果、例えば図９に示されたように、ページ集合４と５が内容的に関係を有する組と判別され、ページ集合６と７が内容的に関係を有しない組と判別され、閲覧ページ集合作成部５に出力される。

（閲覧ページ集合の作成）
閲覧ページ集合作成部５は、クエリ‐クエリ関係解析部３による処理（Ｓ２０１〜Ｓ２０４）とクエリ‐ページ関係解析部による処理（Ｓ３０１〜Ｓ３０４）が終了すると、検索クエリとページ集合との関係を示した閲覧ページ集合を作成する。

すなわち、閲覧情報バッファ６中に含まれる閲覧ページ情報を全て読み込み、それらをページ集合ごとに集約した上で非特許文献１に示されるＷｅｂＢｒｏｗｓｉｎｇＧｒａｐｈとして可視化させる。

具体的には図１０に例示したように各ページ集合を「破線」で覆ったうえで、クエリ‐クエリ関係解析部３から得られた検索結果ページの関係性は「３本線」で接続され、クエリ‐ページ関係解析部４から得られた検索クエリとページの関係性は、内容関係フラグが「１」の時は「波実線」で、内容関係フラグが「０」の時は「波破線」で接続され、検索クエリによって直接のリンク関係にないページ間の情報を補完したＷｅｂＢｒｏｗｓｉｎｇＧｒａｐｈが閲覧集合出力としてＩ／Ｏデバイスを介した表示手段の画面にて出力表示される。尚、図に示された「Ｐ」は検索結果ページを示し、「Ｑ」は検索クエリを示す。

［本実施形態の効果］
以上のように閲覧ログ解析装置１によれば検索行動と他のウェブページの関係性を評価することにより直接的なリンク関係の記録されていない検索ページを含めた閲覧行動の集合を抽出できる。したがって、例えば、商品を購入するに当たって様々な検索クエリを投入しながら購入する商品を絞り込んでいった様な閲覧行動を一纏まりの閲覧行動として取得することが可能となる。

特に、クエリ‐クエリ関係解析部３によって処理手順２０１〜Ｓ２０４が実行されるので、ユーザが同じ意図を持って検索クエリを試行錯誤して検索結果を変えながら閲覧により得られた当該検索クエリを含んだページ集合の集約が行える。

また、クエリ‐ページ関係解析部４によって処理手順Ｓ３０１〜３０４を実行されるので、検索エンジンによって得られた検索結果ページを含むページ集合とその直前に閲覧していたページの内容から検索クエリを想起して検索によって得られるページ集合との集約が行える。

さらに、閲覧ページ集合作成部５からはクエリ‐クエリ関係解析部３で集約されたページ集合とクエリ‐ページ関係解析部４で集約されたページ集合とが検索クエリとページ集合との関係を示した閲覧ページ集合の形態で出力される。したがって、検索クエリに基づく互いに関連性を有する複数の検索クエリ，ページ集合間の関係を明確に把握できる。

［本発明のプログラムとしての態様］
本発明は上記の実施形態の閲覧ログ解析装置１に係る各機能部２〜７の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータによって実行して本発明を実現することができる。また、コンピュータで前記機能部を実現するためのプログラムをそのコンピュータが読み取り可能な記録媒体、例えば、ＦＤ（Ｆｌｏｐｐｙ（登録商標）Ｄｉｓｋ）や、ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌｄｉｓｋ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、メモリカード、ＣＤ（ＣｏｍｐａｃｔＤｉｓｋ）−ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＨＤＤ、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。

１…閲覧ログ解析装置
２…リンク関係解析部（リンク関係解析手段）
３…クエリ‐クエリ関係解析部（クエリ‐クエリ関係解析手段）
４…クエリ‐ページ関係解析部（クエリ‐ページ関係解析手段）
５…閲覧ページ集合作成部（閲覧ページ集合作成手段）

Claims

検索クエリを含むウェブページの集合をウェブページの閲覧行動のログに基づき一定の関係性を有するページ集合に分割するための閲覧ログ解析装置であって、
収集されたウェブ閲覧行動のログ情報に基づきウェブページ間のリンク関係を抽出し、この抽出した複数のリンク関係を有するウェブページの集合を関連するページ集合として抽出するリンク関係解析手段と、
前記抽出された複数のページ集合中の検索エンジンによる検索結果ページを含むページ集合について、当該検索結果ページに含まれる検索クエリを抽出しこの検索クエリを含んだ検索結果ページを有するページ集合間の関連性の判定を行い一定の関連性があると判定されたページ集合の組を同一のページ集合として集約するクエリ関係解析手段と
を備え、
前記クエリ関係解析手段は、前記検索クエリを含んだ検索結果ページから始まっているページ集合を特定し、この特定したページ集合の直前に閲覧されたページ集合の最後の閲覧ページにおいて当該検索クエリが含まれている場合に、当該特定したページ集合と前記直前に閲覧されたページ集合との内容的な関係性を判定し、一定の関連性があると判定されたページ集合の組を同一のページ集合として集約するクエリ‐ページ関係解析手段を備え、
前記クエリ‐ページ関係解析手段は、前記特定したページ集合と前記直前に閲覧されたページ集合との内容的な関係性を判定するにあたり、当該ページ集合の閲覧ページ情報に含まれる語句の出現頻度と当該閲覧ページ情報をユーザが閲覧した時間とに基づき、前記特定したページ集合と前記直前に閲覧されたページ集合の特徴量を算出すること
を特徴とする閲覧ログ解析装置。
前記クエリ関係解析手段は、前記検索クエリを含んだ検索結果ページを有するページ集合についてその特徴量を抽出し、この特徴量の類似度に基づきページ集合間の関係性を判定し、一定の関連性があると判定されたページ集合の組を同一のページ集合として集約するクエリ‐クエリ関係解析手段を備え、
前記クエリ‐クエリ関係解析手段は、前記検索結果ページの内容情報に含まれる語句の出現頻度と当該ページの内容情報をユーザが閲覧した時間とに基づき前記特徴量を算出すること
を特徴とする請求項１に記載の閲覧ログ解析装置。
前記クエリ‐クエリ関係解析手段は、
前記ページ集合の特徴量として、下記の（１）式（ｃ_i：ページ内容情報，ｓ_i：閲覧秒数，ｗ：ページ内容情報ｃ_iを分割して得たｃ₁からｃ_nまでに含まれる全ての語句の集合，ｆｒｅｑ（ｃ_i，ｗ_k）：語句ｗ_kがｃ_iに含まれる頻度）示したベクトルを算出し、

この算出された両者のページ集合の特徴量を表すベクトルｖ₁、ｖ₂を用いた下記の（２）式による演算によって前記両者のページ集合の類似度を算出し、

この算出された類似度が予め定められた閾値よりも低い場合に、両者のページ集合は一定の関係性をすると判定すること
を特徴とする請求項２に記載の閲覧ログ解析装置。
前記クエリ‐ページ関係解析手段は、
前記特定したページ集合と前記直前に閲覧されたページ集合との内容的な関係性を判定する際に下記の（１）式によって両者のページ集合の特徴量を算出し、

この算出された両者のページ集合の特徴量を表すベクトルｖ₁、ｖ₂を用いた下記の（２）式による演算によって前記両者のページ集合の類似度を算出し、

この算出された類似度が予め定められた閾値よりも低ければ直前の閲覧ページから新たな興味を発見して検索しているとみなし、閾値よりも高ければ直前の閲覧ページからより興味にあった検索クエリを発見して検索しているとみなして、両者のページ集合の関係性を判定すること
を特徴とする請求項１から３のいずれか１項に記載の閲覧ログ解析装置。
前記クエリ‐クエリ関係解析手段によって集約されたページ集合と前記クエリ‐ページ関係解析手段によって集約されたページ集合とに基づき、検索クエリとページ集合との関係を示した閲覧ページ集合を作成する閲覧ページ集合作成手段
をさらに備えたこと
を特徴とする請求項２から４のいずれか１項に記載の閲覧ログ解析装置。
請求項１から５のいずれか１項に記載の閲覧ログ解析装置を構成する各手段としてコンピュータを機能させることを特徴とする閲覧ログ解析プログラム。