JP5485856B2 - 閲覧ログ解析装置及び閲覧ログ解析プログラム - Google Patents

閲覧ログ解析装置及び閲覧ログ解析プログラム Download PDF

Info

Publication number
JP5485856B2
JP5485856B2 JP2010237989A JP2010237989A JP5485856B2 JP 5485856 B2 JP5485856 B2 JP 5485856B2 JP 2010237989 A JP2010237989 A JP 2010237989A JP 2010237989 A JP2010237989 A JP 2010237989A JP 5485856 B2 JP5485856 B2 JP 5485856B2
Authority
JP
Japan
Prior art keywords
page
query
relationship
browsing
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010237989A
Other languages
English (en)
Other versions
JP2012093803A (ja
Inventor
裕一郎 関口
匡 内山
正之 杉崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010237989A priority Critical patent/JP5485856B2/ja
Publication of JP2012093803A publication Critical patent/JP2012093803A/ja
Application granted granted Critical
Publication of JP5485856B2 publication Critical patent/JP5485856B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ウェブブラウザを介して閲覧されたウェブ閲覧行動を解析する技術、特に検索等によってリンク関係のないページ間の閲覧推移を補完するための閲覧行動解析技術に関する。
インターネットの発達によってウェブサイトでの購買行動が一般化しており、従来から購買行動等を含むユーザのウェブ閲覧行動の分析が行われている。例えば特許文献1に開示された操作履歴収集技術のように、閲覧ログを記録することで、ユーザがウェブにおいて商品を購入する際にどのような情報を意志決定の手がかりとしていたかの分析が可能となっている。本分析法においては購買行動に至るまでの一連の閲覧行動のまとまりを閲覧ログから抽出することが必要である。
閲覧ログからユーザが似通った興味を持って閲覧を行っていたと考えられる閲覧行動のまとまりを抽出する手法は多数提案されている。例えば、特許文献2に開示された履歴処理技術のように閲覧したウェブページ間の内容の関連度を用いて関連の高いページの纏まりを抽出している。
また、閲覧ログ中におけるユーザが意図的にウェブページ内のハイパーリンクをクリックして他のページに遷移した情報を用いて、ユーザのリンククリックにより繋がったページ群を関連の高いページの纏まりとして抽出することが容易に想定することができる。
特開2009−289077 特開2009−252171
Stuart K.Card,Peter Pirolli,Mija Van Der Wege,Julie B.Morrison,Robert W.Reeder,Pamela K.Schraedley,Jenea Boshart,"Information scent as a driver of Web behavior graphs:results of a protocol analysis method for Web usability",In Proc.of CHI’01,Volume No.3,Issue No.1,31 MARCH‐5 APRIL,2001,pp.498−505
従来の閲覧履歴を抽出する技術においては、ウェブページに含まれる文書内容に基づいてページ間の関連度を評価し、それを用いてページ間の関連を取得するようにしている。そのため、ウェブページの本題の部分以外の広告やナビゲーションリンクの一覧といった部分に共通性が合った場合にも関係性が高く判定され同じ纏まりがあると判断されてしまうという問題がある。
また、従来のウェブページの遷移の情報を利用した技術においては、リンク関係のあるページ間にのみ関係性を定義するので、ユーザが能動的に選択して閲覧したリンク関係のあるページのみの集合が取得されるので、精度の高い抽出ができる。しかしながら、ウェブ閲覧の途中に検索行為が含まれている場合にその行為の時点で関係性が途絶えてしまうという問題がある。
本発明は、上記の事情に鑑みなされたもので、検索行動と他のウェブページの関係性を評価することにより直接的なリンク関係の記録されていない検索ページを含めた閲覧行動の集合を抽出することを目的とする。
そこで、本発明は、検索クエリを含むウェブページの集合をウェブページの閲覧行動のログに基づき一定の関係性を有するページ集合に分割するための閲覧ログ解析装置であって、図1に示したように、収集されたウェブ閲覧行動のログ情報に基づきウェブページ間のリンク関係を抽出し、この抽出した複数のリンク関係を有するウェブページの集合を関連するページ集合として抽出するリンク関係解析手段と、前記抽出された複数のページ集合中の検索エンジンによる検索結果ページを含むページ集合について、当該検索結果ページに含まれる検索クエリを抽出しこの検索クエリを含んだ検索結果ページを有するページ集合間の関連性の判定を行い一定の関連性があると判定されたページ集合の組を同一のページ集合として集約するクエリ関係解析手段とを備え、前記クエリ関係解析手段は、前記検索クエリを含んだ検索結果ページから始まっているページ集合を特定し、この特定したページ集合の直前に閲覧されたページ集合の最後の閲覧ページにおいて当該検索クエリが含まれている場合に、当該特定したページ集合と前記直前に閲覧されたページ集合との内容的な関係性を判定し、一定の関連性があると判定されたページ集合の組を同一のページ集合として集約するクエリ‐ページ関係解析手段を備え、前記クエリ‐ページ関係解析手段は、前記特定したページ集合と前記直前に閲覧されたページ集合との内容的な関係性を判定するにあたり、当該ページ集合の閲覧ページ情報に含まれる語句の出現頻度と当該閲覧ページ情報をユーザが閲覧した時間とに基づき、前記特定したページ集合と前記直前に閲覧されたページ集合の特徴量を算出する。
前記クエリ関係解析手段の更なる具体的な態様としては、前記検索クエリを含んだ検索結果ページを有するページ集合についてその特徴量を抽出し、この特徴量の類似度に基づきページ集合間の関係性を判定し、一定の関連性があると判定されたページ集合の組を同一のページ集合として集約するクエリ‐クエリ関係解析手段を備え、前記クエリ‐クエリ関係解析手段は、前記検索結果ページの内容情報に含まれる語句の出現頻度と当該ページの内容情報をユーザが閲覧した時間とに基づき前記特徴量を算出する
尚、本発明は上記の閲覧ログ解析装置を構成する各手段としてコンピュータを機能させる閲覧ログ解析プログラムの態様とすることもできる。
以上の発明によれば検索行動と他のウェブページの関係性を評価することにより直接的なリンク関係の記録されていない検索ページを含めた閲覧行動の集合を抽出できる。
本発明の原理構成図。 本発明の実施形態に係る閲覧ログ解析装置のブロック構成図。 本発明の実施形態に係る閲覧ログデータベースに格納されている閲覧ページ情報の一例を示した図。 本発明の実施形態に係るリンク関係解析部の処理手順を説明したチャート図。 本発明の実施形態に係るリンク関係解析部の処理が終わった時点における閲覧情報バッフアに蓄積されている情報の一例を示した図。 本発明の実施形態に係るクエリ‐クエリ関係解析部の処理手順を説明したフローチャート図。 本発明の実施形態に係るクエリ‐クエリ関係解析部が閲覧ページ集合生成部に出力する情報の一例を示した図。 本発明の実施形態に係るクエリ‐ページ関係解析部の処理手順を説明したフローチャート図。 本発明の実施形態に係るクエリ‐ページ関係解析部が閲覧ページ集合作成部に出力する情報の一例を示した図。 本発明の実施形態に係る閲覧ページ集合の出力結果の一例を示した図。
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。
[概要]
図2に示された本発明の実施形態に係る閲覧ログ解析装置1は、先ず、リンク関係解析部2が、収集されたウェブ閲覧行動のログ情報に基づきウェブページ間のリンク関係を抽出し、この抽出した複数のリンク関係を有するウェブページの集合を関連するページ集合として抽出する。次いで、クエリ‐クエリ関係解析部3が、前記抽出された複数のページ集合中の検索エンジンによる検索結果ページを含むページ集合について、当該ページ集合中の当該検索結果ページに含まれる検索クエリを抽出し、この検索クエリを含んだ検索結果ページを有するページ集合間の関連性の判定を行い、一定の関連性があると判定されたページ集合の組を同一のページ集合として集約する。また、クエリ‐ページ関係解析部4が、前記検索クエリを含んだ検索結果ページを含むページ集合とその直前の遷移元のページ集合との関連性の判定を行い、一定の関連性があると判定されたページ集合の組を同一のページ集合として集約する。そして、閲覧ページ集合作成部5はクエリ‐クエリ関係解析部3及びクエリ‐ページ関係解析部4で集約されたページ集合に基づき検索クエリとページ集合との関係を示した閲覧ページ集合を作成する。
[装置の構成]
閲覧ログ解析装置1は、リンク関係解析部2、クエリ‐クエリ関係解析部3、クエリ‐ページ関係解析部4、閲覧ページ集合作成部5を備える。さらには、処理途中のデータを保持する閲覧情報バッファ6及び一時バッファ7を備える。
閲覧ログ解析装置1の上記機能部2〜5、バッファ6,7は例えばコンピュータのハードウェアリソースによって実現される。すなわち、閲覧ログ解析装置1はCPU、メモリ、記憶装置(例えば、ハードディスクドライブ装置)、I/Oデバイス(例えば、ネットワークデバイス、USB等)等のコンピュータに係るハードウェアリソースを備える。そして、これらのハードウェアリソースがソフトウェアリソース(OS、アプリケーション等)と協働することにより機能部2〜5、バッファ6,7が実装される。
また、閲覧ログ解析装置1は解析対象となる閲覧ログ情報が蓄積されている閲覧ログデータベース8に対してアクセスが可能となっている。閲覧ログデータベース8は例えば特許文献1に示された操作履歴収集技術を用いて収集された多数のユーザによるウェブ閲覧行動のログが蓄積されたデータベースである。例えば、閲覧したユーザID、閲覧時刻、閲覧秒数、閲覧したページURL、直前に閲覧していたページのURL、閲覧したページの内容とからなる閲覧ページ情報が閲覧時刻の時系列順に大量に保持されたものである。
図3に閲覧ログデータベース8に保持されている閲覧情報の例を示す。また、以後表記の簡略化のため、閲覧したユーザIDを「ユーザID」、閲覧したページURLを「URL」、直前に閲覧していたページのURLを「リファラ」、閲覧したページ内容を「ページ内容」と表記するものとする。一般的なウェブブラウザにおいてリファラはリンクをクリックして閲覧した場合にしか残らないが、本実施形態においてはウェブブラウザのバックボタンを用いて前のページに戻った場合等においても、直前に閲覧していたページのURLがリファラとして記録されているとする。また、ページ内容としてはページのHTMLだけでなくウェブブラウザに表示する際に自動で読み込まれるフレームページ内容やスタイルシート情報等も併せて記録されているものとする。
閲覧ログ解析装置1は、解析対象とするユーザIDの情報の入力を受ける。また、処理を軽減するため、ユーザID情報と共に時刻範囲情報の入力を受け、この入力された時刻範囲内の閲覧情報のみを処理対象としても良い。
リンク関係解析部2は収集されたウェブ閲覧行動のログからリンクに基づき遷移されたウェブページ間のリンク関係を抽出しこの抽出した複数のリンク関係を有するページの集合を関連するページ集合として抽出する。具体的には、解析対象ユーザIDの情報の入力を受けると、解析対象ユーザIDと等しい値がユーザIDカラムに入っている全ての閲覧ページ情報を閲覧ログデータベース8から読み出す。そして、この読み込んだ複数の閲覧ページ情報のURLとリファラの情報を解析することにより、リンクのクリックによって閲覧されたリンク元ページとリンク先ページの関係性を抽出し、そのリンク関係に基づいて連続した閲覧となっているページ集合を抽出する。
クエリ‐クエリ関係解析部3は、リンク関係解析部2によって抽出された複数のページ集合中の検索エンジンによる検索結果ページを含むページ集合について、当該検索結果ページに含まれる検索クエリを含んだ検索結果ページを有するページ集合の特徴量を抽出する。そして、この特徴量の類似度に基づきページ集合間の関係性を判定し、一定の関連性があると判定されたページ集合の組を同一のページ集合として集約する。
クエリ‐ページ関係解析部4は、リンク関係解析部2によって抽出された複数のページ集合中の検索エンジンによる検索結果ページを含むページ集合について、当該検索結果ページに含まれる検索クエリを含んだ検索結果ページから始まっているページ集合を特定する。そして、この特定したページ集合の直前に閲覧されたページ集合の最後の閲覧ページにおいて当該検索クエリが含まれている場合に、前記特定したページ集合と前記直前に閲覧されたページ集合との内容的な関係性を判定し、一定の関連性があると判定されたページ集合の組を同一のページ集合として集約する。
閲覧ページ集合作成部5はクエリ‐クエリ関係解析部3で集約されたページ集合とクエリ‐ページ関係解析部4で集約されたページ集合とに基づき検索クエリとページ集合との関係を示した閲覧ページ集合を作成する。
[処理手順の説明]
(リンク関係の解析)
図4を参照しながらリンク関係解析部2による具体的なリンク関係解析手順S101〜S103について説明する。
S101:リンク関係解析部2は、I/Oデバイスを介して外部から解析対象であるユーザID情報の入力を受けると、閲覧ログデータベース8にアクセスし、当該ユーザID情報を有する閲覧ページ情報を全て読み出す。
この読み出された閲覧ページ情報は閲覧時刻で並べ替えられ閲覧時刻が古い順に閲覧IDが付加されたうえで閲覧情報バッファ6に記録される。尚、時閲覧情報バッファ6に蓄積される閲覧ページ情報は全て同じユーザID情報を有するので、記録容量の節約のためユーザID情報を削除した上で蓄積してもよい。
S102:リンク関係解析部2はS101で読み出した閲覧ページ情報に含まれるURL情報とリファラ情報とを用いてリンククリックで辿ったページの組を特定する。
具体的には閲覧情報バッファ6に蓄積された閲覧ページ情報を閲覧IDが小さい順に読み込む。そして、この読み込んだ閲覧ページ情報にリファラ情報が含まれる場合に、当該リファラ情報と同じURLをURL情報に有するページを当該閲覧ページ情報よりも閲覧IDが小さいデータの中から閲覧IDの降順で探す。これにより特定されたデータの閲覧ID情報は遷移元ID情報として閲覧情報バッファ6に記録される。
図5に示された事例を参照しながらより具体的に説明すると、閲覧ID=6のデータはリファラ情報に「hoge.com/」を有するので閲覧IDが1と5と7のデータが同じ値をURL情報に持っているため遷移元IDの候補となる。この時、遷移元IDは処理している閲覧ページ情報の閲覧情報IDよりも小さいデータから降順で探索するため、遷移元IDは5となる。また、閲覧IDが4のデータはリファラ情報がないため、遷移元ID情報が空となる。閲覧IDが1のデータはそれよりも値が小さい閲覧ページ情報が閲覧情報バッファ中に存在しないため、遷移元ID情報が空となる。
S103:リンク関係解析部2はステップS102で得られた遷移関係にある閲覧ページ情報の集合をページ集合としてグループ化し、それぞれのページ集合に一意なIDを付与して閲覧情報バッファ6に記録する。
具体的には閲覧IDが小さい閲覧ページ情報から順に読み込み、読み込んだ閲覧IDを遷移元ID情報として持つ閲覧ページ情報を同じページ集合に所属する情報として読み込み、またその読み込んだ閲覧IDを遷移元ID情報として持つ閲覧ページを読み込む。この手順を継続し、新たに読み込まれる閲覧ページ情報がなくなった時点で一つのページ集合が得られたとして読み込まれた全閲覧ページ情報に同じページ集合IDを記録する。
リンク関係解析部2の処理が終わった段階での、閲覧情報バッファに蓄積されている情報の例を図5に示した。上記の処理について図5を参照しながら説明すると、最初に閲覧IDが1のデータが読み込む。すると遷移元ID情報が1となっているデータが閲覧ID2に存在するのでそれを読み込む、次に遷移元IDが2になっているデータが閲覧ID3に存在するのでそれを読み込む。すると遷移元ID情報に1もしくは2もしくは3を含むデータは存在しなくなるので、ここまでに読み込まれた閲覧ID1、2、3の3つのデータがページ集合となり、それぞれのページ集合ID情報に1を記録して処理を終了する。
(クエリ‐クエリ関係の解析)
図6を参照しながらクエリ‐クエリ関係解析部3による具体的な関係解析手順S201〜S204について説明する。
S201:クエリ‐クエリ関係解析部3は、リンク関係解析部2がその処理(S101〜S103)を終了すると、閲覧情報バッファ6に格納されている複数のページ集合から検索結果ページを含むページ集合を特定する。
具体的には、閲覧情報バッファ6中のS101〜S103を経た各閲覧ページ情報のURL情報を参照し、検索エンジンによって得られた検索結果ページのURLとなっている閲覧ページ情報が含まれているか否かを確認する。この確認方法では、予め検索結果ページURLのパターン群を収集しておき、そのパターン群とURL情報とのパターンマッチングを用いて行う。前記閲覧ページ情報が含まれている場合、その検索結果ページに含まれる検索クエリ情報と当該閲覧ページ情報を含んでいるページ集合のID情報とを一時バッファ7に記録する。尚、当閲覧ページ情報が含まれていない場合、解析処理を終了させる。
S202:クエリ‐クエリ関係解析部3はS201で得られた検索結果ページを含むページ集合について特徴量を抽出する。
すなわち、一時バッファ7に記録されている図5に例示された検索結果ページを含むページ集合のID情報を一つずつ順に読み込み、このページ集合ID情報を有する閲覧ページ情報の閲覧秒数情報とページ内容情報を用いて当該ページ集合IDの特徴を表す語句ベクトルvを構築する。
具体的には処理対象となるページ集合IDを持つ閲覧ページ情報がn件あった場合、それぞれのページ内容情報をci、閲覧秒数をsiとする。このページ内容情報をそれぞれ既知の形態素解析技術を用いて語句に分割する。このときc1からcnまでに含まれる全ての語句の集合をW、その語数をMとする。語句ベクトルvはM次元のベクトルとなり、ある語句wkがciに含まれる頻度をfreq(ci,wk)とすると、vは下記の式(1)で求められる。
Figure 0005485856
このとき、idf(wk)は閲覧ログデータベース8に蓄積された全ページ内容情報から算出した語句wkのidf値となる。上記式(1)を用いることにより、長時間閲覧していたページをより興味を持ったページとして強く反映させたページ集合の語句特徴を表すベクトルを算出できる。
S203:クエリ‐クエリ関係解析部3は前記検索結果ページから始まるページ集合の組に対してS202で得られた特徴量の類似度に基づき関係性を判別する。
すなわち、一時バッファ7に記録されている全ページ集合IDの組に対して、S202で得られた語句ベクトル間の類似度を用いて関係性を算出し、予め定められた値以上の関係性を示した組を、関係性を有するページ集合として判定する。語句ベクトルv1、v2間の類似度は、例えばコサイン類似度を用いて下記の式(2)によって算出できる。
Figure 0005485856
この際予め関連する検索ページ集合の組が得られるようであれば、既存のSVM等の機械学習アルゴリズムを用いて、語句ベクトルを素性とした関連の有無の自動分類を行ってもよい。
S204:クエリ‐クエリ関係解析部3は全ての検索結果ページを含むページ集合の組に対して関係性の判別が行われていたかを判定し、行われていないと判断した場合はステップ3に戻って未処理の組に対して処理を行う。全ての組に対して処理が終了したと判断するとクエリ‐クエリ関係解析部3の処理を終了する。
以上のS201〜S203を経て得られた一定の関係性を有するページ集合の組が関係性を有するページ集合として閲覧ページ集合作成部5に出力される。例えば、図7に示された事例ではページ集合1と3、2と3、5と6の間に関係性があると判別され、閲覧ページ集合作成部5に出力される。
(クエリ‐ページ関係の解析)
図8を参照しながらクエリ‐ページ関係解析部4による具体的な関係解析手順S301〜S304について説明する。
S301:クエリ‐ページ関係解析部4は、リンク関係解析部2がその処理(S101〜S103)を終了すると、閲覧情報バッファ6に格納されている複数のページ集合から検索結果ページから始まっているページ集合を特定する。
具体的には、閲覧情報バッファ6中のS101〜S103を経た閲覧情報バッファ6中の各閲覧ページ情報のURL情報を参照し、検索エンジンによって得られた検索結果ページのURLとなっている閲覧ページ情報が含まれているか否かを確認する。この確認方法では、S201と同様に、予め検索結果ページURLのパターン群を収集しておき、そのパターン群とURL情報とのパターンマッチングを用いて行う。前記閲覧ページ情報が含まれている場合、その検索結果ページに含まれる検索クエリ情報と当該閲覧ページ情報を含んでいるページ集合のID情報とを一時バッファ7に記録する。尚、当閲覧ページ情報が含まれていない場合、解析処理を終了させる。
S302:クエリ‐ページ関係解析部4はS301で特定されたページ集合の直前に閲覧されたページ集合の最後の閲覧ページ情報と検索クエリ情報に関連性があるか否かを判定する。
具体的には、一時バッファ7に記録されている図5に例示された検索クエリ情報とこれを含むページ集合のID情報を1つずつ順に読み込み、当該ページ集合IDから一つ引いた値を直前ページ集合IDとする。次に、閲覧情報バッファ6中から直前ページ集合IDを持つ閲覧ページ情報の中で一番大きな閲覧IDを持つデータのページ内容情報を取得し、このページ内容情報中に一時バッファ7から読み込んだ検索クエリ情報の語句が含まれていた場合、当該検索クエリ情報は直前に閲覧したページから発想されたクエリ情報と判定する。一方、前記検索クエリ情報が直前に閲覧したページから発想されたクエリと判定されなかった場合は、ステップS303の処理を行わず、ステップS304に進む。
S303:クエリ‐ページ関係解析部4はS302で得られた直前に閲覧されたページ集合と検索クエリ情報を含むページ集合との間に内容的な関係があるかを判定する。
具体的には、一時バッファ7から読み込んだページ集合IDを持つ閲覧ページ情報を含むページ集合と直前ページ集合IDを持つ閲覧ページ情報を含むページ集合とについて前記の式(1)を用いたステップS202と同様の処理を行い、それぞれ語句ベクトルを算出する。
次いで、前記の式(2)を用いたステップS203と同様の処理を行うことで両者のページ集合の類似度を算出する。この算出された類似度が予め定められた閾値よりも低ければ直前の閲覧ページから新たな興味を発見して検索しているとみなす。一方、閾値よりも高ければ直前の閲覧ページからより興味にあった検索クエリを発見して検索しているとみなす。
以上の両者のページ集合の関係性の判定を行い、例えば、得られた類似度が予め定められた閾値以上だった場合、内容関係性フラグを「1」としてページ集合IDと直前ページ集合IDの組を出力する。閾値以下だった場合は、内容関係性フラグを「0」としてページ集合IDと直前ページ集合IDの組を出力する。
S304:クエリ‐ページ関係解析部4は一時バッファ7に記録された全てのページ集合IDについて処理が行われたかを判定し、行われていた場合はクエリ‐ページ解析部4の処理を終了する。一方、未処理のページ集合IDが存在した場合には、ステップS302に戻って処理を継続する。
以上のS301〜S304の処理の結果、例えば図9に示されたように、ページ集合4と5が内容的に関係を有する組と判別され、ページ集合6と7が内容的に関係を有しない組と判別され、閲覧ページ集合作成部5に出力される。
(閲覧ページ集合の作成)
閲覧ページ集合作成部5は、クエリ‐クエリ関係解析部3による処理(S201〜S204)とクエリ‐ページ関係解析部による処理(S301〜S304)が終了すると、検索クエリとページ集合との関係を示した閲覧ページ集合を作成する。
すなわち、閲覧情報バッファ6中に含まれる閲覧ページ情報を全て読み込み、それらをページ集合ごとに集約した上で非特許文献1に示されるWeb Browsing Graphとして可視化させる。
具体的には図10に例示したように各ページ集合を「破線」で覆ったうえで、クエリ‐クエリ関係解析部3から得られた検索結果ページの関係性は「3本線」で接続され、クエリ‐ページ関係解析部4から得られた検索クエリとページの関係性は、内容関係フラグが「1」の時は「波実線」で、内容関係フラグが「0」の時は「波破線」で接続され、検索クエリによって直接のリンク関係にないページ間の情報を補完したWeb Browsing Graphが閲覧集合出力としてI/Oデバイスを介した表示手段の画面にて出力表示される。尚、図に示された「P」は検索結果ページを示し、「Q」は検索クエリを示す。
[本実施形態の効果]
以上のように閲覧ログ解析装置1によれば検索行動と他のウェブページの関係性を評価することにより直接的なリンク関係の記録されていない検索ページを含めた閲覧行動の集合を抽出できる。したがって、例えば、商品を購入するに当たって様々な検索クエリを投入しながら購入する商品を絞り込んでいった様な閲覧行動を一纏まりの閲覧行動として取得することが可能となる。
特に、クエリ‐クエリ関係解析部3によって処理手順201〜S204が実行されるので、ユーザが同じ意図を持って検索クエリを試行錯誤して検索結果を変えながら閲覧により得られた当該検索クエリを含んだページ集合の集約が行える。
また、クエリ‐ページ関係解析部4によって処理手順S301〜304を実行されるので、検索エンジンによって得られた検索結果ページを含むページ集合とその直前に閲覧していたページの内容から検索クエリを想起して検索によって得られるページ集合との集約が行える。
さらに、閲覧ページ集合作成部5からはクエリ‐クエリ関係解析部3で集約されたページ集合とクエリ‐ページ関係解析部4で集約されたページ集合とが検索クエリとページ集合との関係を示した閲覧ページ集合の形態で出力される。したがって、検索クエリに基づく互いに関連性を有する複数の検索クエリ,ページ集合間の関係を明確に把握できる。
[本発明のプログラムとしての態様]
本発明は上記の実施形態の閲覧ログ解析装置1に係る各機能部2〜7の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータによって実行して本発明を実現することができる。また、コンピュータで前記機能部を実現するためのプログラムをそのコンピュータが読み取り可能な記録媒体、例えば、FD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
1…閲覧ログ解析装置
2…リンク関係解析部(リンク関係解析手段)
3…クエリ‐クエリ関係解析部(クエリ‐クエリ関係解析手段)
4…クエリ‐ページ関係解析部(クエリ‐ページ関係解析手段)
5…閲覧ページ集合作成部(閲覧ページ集合作成手段)

Claims (6)

  1. 検索クエリを含むウェブページの集合をウェブページの閲覧行動のログに基づき一定の関係性を有するページ集合に分割するための閲覧ログ解析装置であって、
    収集されたウェブ閲覧行動のログ情報に基づきウェブページ間のリンク関係を抽出し、この抽出した複数のリンク関係を有するウェブページの集合を関連するページ集合として抽出するリンク関係解析手段と、
    前記抽出された複数のページ集合中の検索エンジンによる検索結果ページを含むページ集合について、当該検索結果ページに含まれる検索クエリを抽出しこの検索クエリを含んだ検索結果ページを有するページ集合間の関連性の判定を行い一定の関連性があると判定されたページ集合の組を同一のページ集合として集約するクエリ関係解析手段と
    を備え
    前記クエリ関係解析手段は、前記検索クエリを含んだ検索結果ページから始まっているページ集合を特定し、この特定したページ集合の直前に閲覧されたページ集合の最後の閲覧ページにおいて当該検索クエリが含まれている場合に、当該特定したページ集合と前記直前に閲覧されたページ集合との内容的な関係性を判定し、一定の関連性があると判定されたページ集合の組を同一のページ集合として集約するクエリ‐ページ関係解析手段を備え、
    前記クエリ‐ページ関係解析手段は、前記特定したページ集合と前記直前に閲覧されたページ集合との内容的な関係性を判定するにあたり、当該ページ集合の閲覧ページ情報に含まれる語句の出現頻度と当該閲覧ページ情報をユーザが閲覧した時間とに基づき、前記特定したページ集合と前記直前に閲覧されたページ集合の特徴量を算出すること
    を特徴とする閲覧ログ解析装置。
  2. 前記クエリ関係解析手段は、前記検索クエリを含んだ検索結果ページを有するページ集合についてその特徴量を抽出し、この特徴量の類似度に基づきページ集合間の関係性を判定し、一定の関連性があると判定されたページ集合の組を同一のページ集合として集約するクエリ‐クエリ関係解析手段を備え、
    前記クエリ‐クエリ関係解析手段は、前記検索結果ページの内容情報に含まれる語句の出現頻度と当該ページの内容情報をユーザが閲覧した時間とに基づき前記特徴量を算出すること
    を特徴とする請求項1に記載の閲覧ログ解析装置。
  3. 前記クエリ‐クエリ関係解析手段は、
    前記ページ集合の特徴量として、下記の(1)式(ci:ページ内容情報,si:閲覧秒数,w:ページ内容情報ciを分割して得たc1からcnまでに含まれる全ての語句の集合,freq(ci,wk):語句wkがciに含まれる頻度)示したベクトルを算出し、
    Figure 0005485856

    この算出された両者のページ集合の特徴量を表すベクトルv1、v2を用いた下記の(2)式による演算によって前記両者のページ集合の類似度を算出し、
    Figure 0005485856

    この算出された類似度が予め定められた閾値よりも低い場合に、両者のページ集合は一定の関係性をすると判定すること
    を特徴とする請求項に記載の閲覧ログ解析装置。
  4. 前記クエリ‐ページ関係解析手段は、
    前記特定したページ集合と前記直前に閲覧されたページ集合との内容的な関係性を判定する際に下記の(1)式によって両者のページ集合の特徴量を算出し、
    Figure 0005485856

    この算出された両者のページ集合の特徴量を表すベクトルv1、v2を用いた下記の(2)式による演算によって前記両者のページ集合の類似度を算出し、
    Figure 0005485856

    この算出された類似度が予め定められた閾値よりも低ければ直前の閲覧ページから新たな興味を発見して検索しているとみなし、閾値よりも高ければ直前の閲覧ページからより興味にあった検索クエリを発見して検索しているとみなして、両者のページ集合の関係性を判定すること
    を特徴とする請求項からのいずれか1項に記載の閲覧ログ解析装置。
  5. 前記クエリ‐クエリ関係解析手段によって集約されたページ集合と前記クエリ‐ページ関係解析手段によって集約されたページ集合とに基づき、検索クエリとページ集合との関係を示した閲覧ページ集合を作成する閲覧ページ集合作成手段
    をさらに備えたこと
    を特徴とする請求項からのいずれか1項に記載の閲覧ログ解析装置。
  6. 請求項1からのいずれか1項に記載の閲覧ログ解析装置を構成する各手段としてコンピュータを機能させることを特徴とする閲覧ログ解析プログラム。
JP2010237989A 2010-10-22 2010-10-22 閲覧ログ解析装置及び閲覧ログ解析プログラム Expired - Fee Related JP5485856B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010237989A JP5485856B2 (ja) 2010-10-22 2010-10-22 閲覧ログ解析装置及び閲覧ログ解析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010237989A JP5485856B2 (ja) 2010-10-22 2010-10-22 閲覧ログ解析装置及び閲覧ログ解析プログラム

Publications (2)

Publication Number Publication Date
JP2012093803A JP2012093803A (ja) 2012-05-17
JP5485856B2 true JP5485856B2 (ja) 2014-05-07

Family

ID=46387096

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010237989A Expired - Fee Related JP5485856B2 (ja) 2010-10-22 2010-10-22 閲覧ログ解析装置及び閲覧ログ解析プログラム

Country Status (1)

Country Link
JP (1) JP5485856B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4906687B2 (ja) * 2007-11-19 2012-03-28 日本電信電話株式会社 Web閲覧行動特徴抽出装置及びプログラム
JP5112112B2 (ja) * 2008-03-04 2013-01-09 日本電信電話株式会社 Web閲覧履歴表示装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP5079642B2 (ja) * 2008-09-16 2012-11-21 日本電信電話株式会社 履歴処理装置、履歴処理方法および履歴処理プログラム
JP5213668B2 (ja) * 2008-11-28 2013-06-19 日本電信電話株式会社 操作シーケンス抽出方法及び装置及びプログラム

Also Published As

Publication number Publication date
JP2012093803A (ja) 2012-05-17

Similar Documents

Publication Publication Date Title
CN102982053B (zh) 检测复制和近似复制的文件
KR100544514B1 (ko) 검색 쿼리 연관성 판단 방법 및 시스템
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN105518661B (zh) 经由挖掘的超链接文本的片段来浏览图像
JPWO2007108529A1 (ja) 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム
US9552415B2 (en) Category classification processing device and method
TWI571756B (zh) 用以分析瀏覽記錄及其文件之方法及其系統
JP2011154467A (ja) 検索結果順位付け方法および検索結果順位付けシステム
JP4569380B2 (ja) ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体
WO2007011129A1 (en) Information search method and information search apparatus on which information value is reflected
KR101212457B1 (ko) 웹페이지 접속시간 및 방문도에 기반한 웹검색 방법 및 웹검색 시스템
JP4970919B2 (ja) 閲覧対象情報の評価システム、方法、およびプログラム
JP4750628B2 (ja) 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP4912384B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP5138621B2 (ja) 情報処理装置及び不満解決商品発見方法及びプログラム
JP2006004098A (ja) 評価情報生成装置、評価情報生成方法、及びプログラム
JP5321258B2 (ja) 情報収集システムおよび情報収集方法ならびにそのプログラム
JP5450135B2 (ja) 関連度辞書を用いた検索モデリングシステムおよび方法
JP5180894B2 (ja) 属性表現獲得方法及び装置及びプログラム
JP5416552B2 (ja) ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム
JP5485856B2 (ja) 閲覧ログ解析装置及び閲覧ログ解析プログラム
JP2006286026A (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
CN112989020B (zh) 信息处理方法、装置和计算机可读存储介质
JP4134975B2 (ja) 話題文書提示方法及び装置及びプログラム
JP5551665B2 (ja) 情報抽出装置、情報抽出方法、情報抽出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131015

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140220

R150 Certificate of patent or registration of utility model

Ref document number: 5485856

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees