JP2005309998A - コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置 - Google Patents

コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置 Download PDF

Info

Publication number
JP2005309998A
JP2005309998A JP2004128925A JP2004128925A JP2005309998A JP 2005309998 A JP2005309998 A JP 2005309998A JP 2004128925 A JP2004128925 A JP 2004128925A JP 2004128925 A JP2004128925 A JP 2004128925A JP 2005309998 A JP2005309998 A JP 2005309998A
Authority
JP
Japan
Prior art keywords
keyword
content
keywords
search
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004128925A
Other languages
English (en)
Other versions
JP4535765B2 (ja
Inventor
Kanji Uchino
寛治 内野
Toshikatsu Kamanaka
敏勝 鎌仲
Hideji Hashimoto
秀治 橋本
Yuichi Tada
裕一 多田
Tomoya Narita
智也 成田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Nifty Corp
Original Assignee
Fujitsu Ltd
Nifty Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd, Nifty Corp filed Critical Fujitsu Ltd
Priority to JP2004128925A priority Critical patent/JP4535765B2/ja
Publication of JP2005309998A publication Critical patent/JP2005309998A/ja
Application granted granted Critical
Publication of JP4535765B2 publication Critical patent/JP4535765B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 現在多くのユーザが関心を寄せている情報の検索を容易に行うことができるようにする。
【解決手段】 ユーザがキーワード6aに基づいた検索を行い検索結果6bの中から任意のコンテンツ7bを選択する度に、格納手段1aにより、検索用のキーワード6aと選択されたコンテンツ7bとが、関連付けて記憶手段1bに格納される。その後、グループ化手段1cにより、キーワードと選択されたコンテンツとの対応関係に基づいて、記憶手段1bに格納されたキーワード間の関連性が判定され、関連する複数のキーワードがグループ化される。そして、任意の代表キーワード8aが選択されると、関連キーワード出力手段1dにより、選択された代表キーワード8aと同じグループに属する他の関連キーワード8bが出力される。
【選択図】 図1

Description

本発明は情報探索を支援するためのコンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置に関し、特にユーザが選択したキーワードに関連するキーワードを提示することができるコンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置に関する。
FTTH(Fiber To The Home)、ADSL(Asymmetric Digital Subscriber Line)などの高帯域ネットワーク環境の整備によって、インターネットが人々の生活に欠かせないインフラとなっている。そんな中、インターネット上の大量のコンテンツの中から情報を探し出す技術は必須となっており、そのような機能をユーザに提供するサービスプロバイダも数多く存在する。
情報の検索機能は、多くのポータルサイトで提供されている。たとえば、情報を階層構造に分類してユーザによる情報探索を支援するサービス(ディレクトリ検索)や、入力されたキーワードに応じた情報をリストアップするサービス(キーワード検索)がある。これらのサービスは、多くのユーザに利用されている。
なお、インターネット上の情報量は膨大である。そのため、キーワード検索では、入力されたキーワードに合致する情報の数も大量となってしまう場合がある。そこで、情報間の引用関係に基づいて各情報のランキングを行い、ランクの上位の情報から優先的にリストアップする技術が提案されている(たとえば、特許文献1参照)。
また、キーワード検索を行う際には、適当なキーワードを入力することが重要となる。そこで、同様の意味を有する複数のキーワードで予め同義語辞書を作成しておけば、ユーザが入力したキーワードを同義語で補完して、漏れのない検索を行うことができる。そこで、単語同士の関連度を定義した同義語辞書を自動作成する技術も考えられている(たとえば、特許文献2参照)。
米国特許6,526,440号 特開平11−312168号公報
現在、テレビや新聞にならぶ情報発信メディアとしてのインターネットの価値が高まる中、個人のWebページ、BLOG(ウェブログ)や掲示板を経て話題やトレンドが形成される例も少なくない。電子商取引を行うWebサイトの運用者などはネット上のユーザの注目や興味をいち早く捕らえマーケティングに活かすことが重要である。
しかし、日々公開される新たなコンテンツの内容を検索結果に反映させるための効率的な方法がないという問題がある。たとえば、ディレクトリ検索では人手によって情報の分類を行うため、膨大なコンテンツに対するディレクトリのメンテナンスが追いつかない。
また、キーワード検索では、求める情報に対する適当な検索キーワードを入力しないと最適な結果が得られない。たとえば、最新技術が開発されたとき、その技術に対して新たな名称が付けられる。その最新技術に関するコンテンツをインターネットから検索するとき、その最新技術に付けられた名称をユーザがキーワードとして入力しないと、目的の情報が膨大な量の無関係の情報に埋もれてしまう可能性がある。
なお、上記特許文献1では、情報間の引用関係で各情報のランキングを行い、有用な情報が優先的に提示されるようにしている。しかしながら、公開されて間もないコンテンツは、そのコンテンツが重要なものであっても、他のコンテンツからの引用が少ないことが予想される。この場合、そのコンテンツがキーワード検索に合致しても、優先順位が低くなり、ユーザが見落とす可能性が高くなる。
また、上記特許文献2では、ユーザが入力した単語のみを用いて単語同士の関連度を定義しているため、検索結果として得られる情報が有効に利用されていない。
本発明はこのような点に鑑みてなされたものであり、現在多くのユーザが関心を寄せている情報の検索を容易に行うことができるコンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置を提供することを目的とする。
本発明では上記課題を解決するために、図1に示すようなコンテンツの検索を支援するためのコンテンツナビゲーションプログラムが提供される。本発明に係るコンテンツナビゲーションプログラムをコンピュータに実行させると、コンピュータが以下の機能を実現する。
格納手段1aは、ユーザがキーワード6aに基づいた検索を行い検索結果6bの中から任意のコンテンツ7bを選択する度に、検索用のキーワード6aと選択されたコンテンツ7bの識別情報とを関連付けて記憶手段1bに格納する。グループ化手段1cは、キーワード6aと選択されたコンテンツ7bとの対応関係に基づいて、記憶手段1bに格納されたキーワード間の関連性を判定し、関連する複数のキーワードをグループ化する。関連キーワード出力手段1dは、任意の代表キーワード8aが選択された際に、選択された代表キーワードと同じグループに属する他のキーワードを出力する。
このようなコンテンツナビゲーションプログラムを実行するコンピュータによれば、ユーザがキーワード6aに基づいた検索を行い検索結果6bの中から任意のコンテンツ7bを選択する度に、格納手段1aにより、検索用のキーワード6aと選択されたコンテンツ7bとが、関連付けて記憶手段1bに格納される。その後、グループ化手段1cにより、キーワードと選択されたコンテンツとの対応関係に基づいて、記憶手段1bに格納されたキーワード間の関連性が判定され、関連する複数のキーワードがグループ化される。そして、任意の代表キーワード8aが選択されると、関連キーワード出力手段1dにより、選択された代表キーワードと同じグループに属する他のキーワードが出力される。
また、上記課題を解決するために、コンテンツの検索をコンピュータによって支援するためのコンテンツナビゲーション方法において、格納手段が、ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納し、グループ化手段が、前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化し、関連キーワード出力手段が、任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する、ことを特徴とするコンテンツナビゲーション方法が提供される。
このようなコンテンツナビゲーション方法によれば、ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、格納手段により、検索用のキーワードと選択されたコンテンツとが、関連付けて記憶手段に格納される。その後、グループ化手段により、キーワードと選択されたコンテンツとの対応関係に基づいて、記憶手段に格納されたキーワード間の関連性が判定され、関連する複数のキーワードがグループ化される。そして、任意の代表キーワードが選択されると、関連キーワード出力手段により、選択された代表キーワードと同じグループに属する他のキーワードが出力される。
また、上記課題を解決するために、コンテンツの検索を支援するためのコンテンツナビゲーション装置において、ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納する格納手段と、前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化するグループ化手段と、任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する関連キーワード出力手段と、を有することを特徴とするコンテンツナビゲーション装置が提供される。
このようなコンテンツナビゲーション装置によれば、ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、格納手段により、検索用のキーワードと選択されたコンテンツとが、関連付けて記憶手段に格納される。その後、グループ化手段により、キーワードと選択されたコンテンツとの対応関係に基づいて、記憶手段に格納されたキーワード間の関連性が判定され、関連する複数のキーワードがグループ化される。そして、任意の代表キーワードが選択されると、関連キーワード出力手段により、選択された代表キーワードと同じグループに属する他のキーワードが出力される。
以上説明したように本発明では、キーワードと、そのキーワードによる検索結果からユーザが選択したコンテンツとの関係に基づいてキーワードのグループ化を行うようにした。これにより、現在多くのユーザが関心を寄せているコンテンツに関連するキーワード同士がグループ化される。そして、選択された代表キーワードと同じグループの他のキーワードを出力することで、ユーザに対して、関心の対象が類似する他のユーザが入力したキーワードを提示することができる。
以下、本発明の実施の形態を図面を参照して説明する。
まず、実施の形態に適用される発明の概要について説明し、その後、実施の形態の具体的な内容を説明する。
図1は、実施の形態に適用される発明の概念図である。本発明に係るコンテンツナビゲーション装置1は、キーワード検索を行うユーザが使用するクライアント2、検索サーバ3、コンテンツサーバ4、およびコンテンツナビゲーションのサービスを利用するユーザが使用するクライアント5に接続されている。コンテンツナビゲーション装置1は、格納手段1a、記憶手段1b、グループ化手段1c、及び関連キーワード出力手段1dを有している。
格納手段1aは、ユーザがキーワード6aに基づいた検索を行い検索結果6bの中から任意のコンテンツ7bを選択する度に、検索用のキーワード6aと選択されたコンテンツ7bとを関連付けて記憶手段1bに格納する。具体的には、クライアント2からキーワード6aが出力されると、検索サーバ3によりキーワード6aに基づく検索が行われる。そして、検索結果6bがクライアント2に返される。クライアント2を使用するユーザが、検索結果6bの中から任意のコンテンツを選択すると、コンテンツ取得要求7aがコンテンツサーバ4に対して出力される。コンテンツサーバ4は、コンテンツ取得要求7aに応じたコンテンツ7bをクライアント2に返す。このとき、格納手段1aは、キーワード6aとコンテンツ取得要求7aで示されるコンテンツ7bの識別情報を採取し、それらを関連付けた記憶手段1bに格納する。
グループ化手段1cは、キーワードと選択されたコンテンツとの対応関係に基づいて、記憶手段1bに格納されたキーワード間の関連性を判定し、関連する複数のキーワードをグループ化する。たとえば、グループ化手段1cは、関連付けられたコンテンツが共通するキーワード同士をグループ化する。具体的には、グループ化手段1cは、2つのキーワードを比較したとき、共通して関連付けられているコンテンツの数が所定値以上の場合、2つのキーワードをグループ化することができる。さらに、グループ化手段1cは、2つのキーワードを比較したとき、2つのキーワードの少なくとも一方に関連付けられているコンテンツの中で、共通して関連付けられているコンテンツの占める割合が所定値以上の場合に、2つのキーワードをグループ化するようにすることもできる。
関連キーワード出力手段1dは、クライアント5からの代表キーワードの入力を受け付ける。そして、関連キーワード出力手段1dは、任意の代表キーワードが選択された際に、選択された代表キーワードと同じグループに属する他のキーワードを、クライアント5に対して出力する。
このようなコンテンツナビゲーション装置によれば、ユーザがキーワード6aに基づいた検索を行い検索結果6bの中から任意のコンテンツ7bを選択する度に、格納手段1aにより、検索用のキーワード6aと選択されたコンテンツ7bとが、関連付けて記憶手段1bに格納される。その後、グループ化手段1cにより、キーワードと選択されたコンテンツとの対応関係に基づいて、記憶手段1bに格納されたキーワード間の関連性が判定され、関連する複数のキーワードがグループ化される。そして、任意の代表キーワード8aが選択されると、関連キーワード出力手段1dにより、選択された代表キーワード8aと同じグループに属する他の関連キーワード8bが出力される。
このように、キーワードと、そのキーワードによる検索結果からユーザが選択したコンテンツとの関係に基づいてキーワードのグループ化を行うようにしたことにより、現在多くのユーザが関心を寄せているコンテンツに関連するキーワード同士をグループ化することができる。その結果、選択された代表キーワードと同じグループの他のキーワードを出力することで、ユーザに対して、関心の対象が類似する他のユーザが入力したキーワードを提示することができる。
図1に示すような本発明の技術は、インターネットやイントラネットなど、様々なネットワークのコンテンツナビゲーションに利用することができる。特に、膨大なコンテンツが公開されているインターネットに適用することで、インターネットの利便性を向上させることができる。
なお、グループ化の判断要素として、ユーザの識別情報を利用することもできる。その場合、格納手段1aは、コンテンツの識別情報に加え、キーワードを入力したユーザのユーザ識別情報を、キーワードに関連付けて記憶手段1bに格納する。そしてグループ化手段1cは、関連付けられたユーザ識別情報が共通するキーワード同士をグループ化する。具体的には、グループ化手段1cは、2つのキーワードを比較したとき、共通して関連付けられているユーザ識別情報の数が所定値以上の場合に、2つのキーワードをグループ化する。また、グループ化手段1cは、2つのキーワードを比較したとき、2つのキーワードの少なくとも一方に関連付けられているユーザ識別情報の中で、共通して関連付けられているユーザ識別情報の占める割合が所定値以上の場合に、2つのキーワードをグループ化することもできる。このようにユーザの識別情報を用いてグループ化することで、興味の対象が同じユーザによって入力されるキーワードをグループ化することができる。
さらに、グループ化を繰り返すことで、グループ化の範囲を拡大することができる。具体的には、グループ化手段1cは、記憶手段1bに含まれる1つのキーワードを対象語とし、対象語に対して関連する他のキーワードを対応語とし、対象語と対応語とをグループ化する。さらに、グループ化手段1cは、対応語に対して関連する他のキーワードを同一グループに含める。
また、コンテンツナビゲーション装置1に対して、ユーザから不要として選択されたキーワードを不要語として不要語記憶手段に格納する不要語格納手段を追加し、関連キーワード出力手段1dが、不要語記憶手段に記憶された不要語を除くキーワードを出力するようにしてもよい。具体的には、不要語格納手段は、キーワードと選択されたコンテンツとの対応関係に基づいて、ユーザに選択された不要語と他のキーワードとの間の関連性を判定し、不要語に関連する他のキーワード(同じコンテンツに関連付けられている)を新たな不要語として不要語記憶手段に格納する。このように不要語を登録しておくことにより、不必要な関連キーワード(他の関連キーワードとほぼ同じコンテンツにしか関連付けられていない関連キーワード)の出力を防止できる。
また、グループ化した複数のキーワードそれぞれに関連付けられたコンテンツを、1つのキーワードへの関連づけとして纏めることもできる(縮退処理)。具体的には、グループ化手段1cは、記憶手段1bに含まれる1つのキーワードを対象語とし、対象語に対して関連する他のキーワードを対応語とする。そして、グループ化手段1cは、対応語それぞれに関連付けられたコンテンツを対象語に関連付けて記憶手段1bに登録すると共に記憶手段1bから対応語を削除する。このように縮退処理を行った後、グループ化手段1cは、記憶手段1bに格納されたキーワード間の関連性を判定し、関連する複数のキーワードをグループ化する。すなわち、縮退処理とグループ化を交互に行う。これにより、グループ化を繰り返して行い、グループ化される範囲を拡張した場合であっても、関連キーワードとして大量のキーワードが一度に出力されるのを防止できる。
また、既に生成された複数のグループを木構造に纏めることもできる。具体的には、グループ化手段1cは、グループ化により生成された2つのグループが共通のキーワードを含む場合に、共通のキーワードを介して、一方のグループの配下に他方のグループを木構造に接続した新たなグループを生成する。
さらに、キーワードによる検索時のヒット件数や、そのキーワードを入力したユーザ数の推移の同一性によってキーワードをグループ化することもできる。具体的には、格納手段1aは、キーワードによる検索のヒット件数やキーワードを入力したユーザのユーザ識別情報を、キーワードに関連付けて記憶手段1bに格納するようにする。そして、グループ化手段1cは、ヒット件数の時間的な推移が類似する複数のキーワードをグループ化する。または、グループ化手段1cは、入力したユーザ数の時間的な推移が類似する複数のキーワードをグループ化する。このように、時間的な推移を勘案してグループ化することにより、注目度が上がっている情報を、ユーザに提供することができる。
ところで、本発明によるコンテンツナビゲーションをインターネット上で利用すれば、インターネット上の日々更新される膨大な量の情報を有効に利用することができる。本発明をインターネットに適用する場合、たとえば、ユーザがインターネットにアクセスするときの最初の入り口(ポータルサイトサーバ)に上記機能を構築する。このポータルサイトサーバが、ユーザの検索行動パターンをマイニングする。そして、ポータルサイトサーバにおいて、検索キーワードをベースにしたコンテンツナビゲーションを行う。
以下、本発明をインターネット上のポータルサイトに適用した場合を例に採り、本発明の実施の形態を具体的に説明する。なお、以下の実施の形態では、キーワードをグループ化することをクラスタ化、生成される各グループをクラスタと呼ぶこととする。
図2は、本発明の実施の形態を実現するためのシステム構成例を示す図である。図2に示すように、インターネット10を介して、ポータルサイトサーバ100、複数のクライアント211,212,・・・、検索サーバ220、複数のWebサーバ231,232,・・・が接続されている。
ポータルサイトサーバ100には、Web検索の履歴を保持し、その検索履歴に基づいて、クライアント211,212,・・・に対してコンテンツナビゲーションサービスを提供する。
検索サーバ220は、クライアント211,212,・・・からの検索要求をポータルサイトサーバ100経由で受け取り、Webページの検索結果を返す。Webサーバ231,232,・・・は、インターネット10を介してWebページ等の様々なコンテンツを提供する。
図3は、本発明の実施の形態に用いるポータルサイトサーバのハードウェア構成例を示す図である。ポータルサイトサーバ100は、CPU(Central Processing Unit)101によって装置全体が制御されている。CPU101には、バス107を介してRAM(Random Access Memory)102、ハードディスクドライブ(HDD:Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105、および通信インタフェース106が接続されている。
RAM102には、CPU101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、CPU101による処理に必要な各種データが格納される。HDD103には、OSやアプリケーションプログラムが格納される。
グラフィック処理装置104には、モニタ11が接続されている。グラフィック処理装置104は、CPU101からの命令に従って、画像をモニタ11の画面に表示させる。入力インタフェース105には、キーボード12とマウス13とが接続されている。入力インタフェース105は、キーボード12やマウス13から送られてくる信号を、バス107を介してCPU101に送信する。
通信インタフェース106は、インターネット10に接続されている。通信インタフェース106は、インターネット10を介して、他のコンピュータとの間でデータの送受信を行う。
以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。なお、図3には、ポータルサイトサーバ100のハードウェア構成例を示したが、クライアント211,212,・・・、検索サーバ220、Webサーバ231,232,・・・も同様のハードウェア構成で実現することができる。
本発明に係る機能は、ポータルサイトサーバ100によって提供される。すなわち、ポータルサイトサーバ100は、検索サイトで記録している検索履歴(検索キーワード、ユーザ識別ID、検索結果の飛び先のURL)を利用して、キーワードベースの2種類のクラスタを作成する。そして、ポータルサイトサーバ100は、作成したクラスタからユーザの興味に従ってナビゲートを行うネットワークを構築する。以下に、ポータルサイトサーバ100の処理機能について詳細に説明する。
図4は、ポータルサイトサーバの処理機能を示すブロック図である。ポータルサイトサーバ100には、データベースとして、WebページDB111、検索履歴DB112、基本DB113、不要語DB114、クラスタDB115が設けられている。WebページDB111には、ポータルサイトとして提供するWebページデータが格納されている。検索履歴DB112には、ポータルサイトサーバ100を介して実行されたWeb検索に関する検索履歴が格納される。基本DB113には、検索履歴の内容を解析した結果得られる情報間の関連づけを示す情報が格納される。不要語DB114には、コンテンツナビゲーションにおいて、ユーザに対して提示する必要のない用語(不要語)に関する情報が格納される。クラスタDB115には、検索履歴に基づいてキーワード間の関連性の度合い等を示す情報が格納される。
ポータルサイトサーバ100には、処理機能として、ポータルサイトコンテンツ提供部120、検索履歴記録部130、キーワードクラスタ作成部140、不要語DB作成部150、及びナビゲーション部160が設けられている。ポータルサイトコンテンツ提供部120は、クライアント211,212,・・・に対してWebページDB111に格納されたWebページデータを提供する。検索履歴記録部130は、クライアント211,212,・・・が検索サーバ220を利用して行うWeb検索の履歴を、検索履歴DB112に記録する。キーワードクラスタ作成部140は、検索履歴DB112に基づいて、基本DB113及びクラスタDB115を構築する。不要語DB作成部150は、管理者に不要語として指定された用語を、不要語DB114に登録する。ナビゲーション部160は、クライアント211,212,・・・からの要求に応じて、指定されたキーワードに関連するキーワードをクラスタDB115から抽出し、クライアント211,212,・・・に対して送信する。
まず、ポータルサイトサーバ100における検索履歴の蓄積処理について説明する。
図5は、検索履歴蓄積処理を示す図である。図5の例では、クライアント211を使用するユーザがコンテンツの検索を行い、検索結果からWebサーバ231のコンテンツを選択して閲覧するまでの流れを示している。
クライアント211は、ユーザからの操作入力に応答して、検索ページ取得要求21をポータルサイトサーバ100に対して送信する。ポータルサイトサーバ100のポータルサイトコンテンツ提供部120は、検索ページ取得要求21に応答して検索ページデータ22をクライアント211に対して送信する。検索ページデータ22は、たとえば、HTML(HyperText Markup Language)で記述された構造化文書である。
クライアント211では、検索ページ23がモニタに表示される。検索ページ23には、検索キーワード入力部23aと検索ボタン23bとが表示されている。なお、図では省略しているが、検索ページ23にはその他の各種情報(ニュース等)も表示されている。
ユーザは、検索キーワード入力部23aに対して1以上のキーワードを入力し、検索ボタン23bを押下する。すると、クライアント211は、検索キーワードを含む検索要求をポータルサイトサーバ100に対して送信する。
ポータルサイトサーバ100の検索履歴記録部130は、検索要求24を検索サーバ220に転送する。検索サーバ220は、受け取った検索要求24に従ってインターネット10上のコンテンツを検索する。そして、検索サーバ220は、検索結果25をポータルサイトサーバ100に対して送信する。
ポータルサイトサーバ100の検索履歴記録部130は、検索結果25をクライアント211に転送する。この際、検索履歴記録部130は、検索結果25をWebページデータに加工する。生成されるWebページデータには、検索結果中のURLをユーザが選択したとき、そのURLへのアクセスがポータルサイトサーバ100を経由して実行されるように、制御情報が埋め込まれている。また、検索履歴記録部130は、検索結果25内の所定の情報(検索キーワードやヒット件数等)を、クライアント211を一意に識別するための情報(たとえばクッキー)に関連付けて検索履歴DB112に格納する。
クライアント211は検索結果25を受け取ると、検索結果リスト26をモニタに表示する。検索結果リスト26には、検索キーワードに合致するコンテンツの識別情報28a,28b,・・・(たとえば、タイトルやURL(Uniform Resource Locator))等が含まれる。ここで、ユーザが、Webサーバ231で公開されているコンテンツの識別情報を選択すると、クライアント211から対応するURLを指定したWebページ取得要求27が出力される。
ポータルサイトサーバ100の検索履歴記録部130は、Webページ取得要求27をWebサーバ231に転送すると共に、アクセスされたWebページのURLの情報を検索履歴DB112に格納する。
Webページ取得要求27を受け取ったWebサーバ231は、該当するWebページデータ28をクライアント211に対して送信する。クライアント211では、Webページ29が表示される。
図6は、検索履歴DBのデータ構造例を示す図である。検索履歴DB112には、ポータルサイトサーバ100を介したWeb検索が行われた際の検索履歴112a,112b,112c,・・・が格納されている。
各検索履歴112a,112b,112c,・・・には、検索日時、検索を行ったセッションのID、検索キーワード、ヒット件数、検索結果の取得範囲(何番目から何個のページ情報を取得したか)、ユーザID(ユーザの識別情報)、検索結果のトップに現れるURL、検索結果の中でユーザに選択されたURL(飛び先)、検索種別、検索されたページのタイトルなどの情報が含まれる。
たとえば、検索履歴112aでは、検索日時“2003/12/12:00:00:34”、セッションID“1111111111111111111111111111”、検索キーワード“ロシア民謡 トロイカ”、ヒット件数“hn=478”、検索結果の取得範囲“ri=10:21”(21番目のコンテンツから10件分)、トップのURL“GU=""”、クッキー“ck=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx”、選択されたURL“http://www.xxx.ne.jp/”、検索種別“b=NORMAL”選択されたページのタイトル“t="トロイカ"”が設定されている。
なお、検索履歴112aでは、検索結果の内トップのページ情報を取得していないため、トップのURLは空欄となっている。検索履歴112では、トップのページ情報を取得しているため、トップのURL“GU="http://www.yyy.co.jp/”が登録されている。
このような履歴が日々大量(100万件/日以上)に蓄積される環境(ISPなど)において、意味のあるキーワードクラスタを作成(所謂キーワードマイニング)が、本件のポイントである。キーワードクラスタ作成処理は、定期的(たとえば、1日1回所定の時刻)に実行される。
以下、検索履歴からのキーワードクラスタの作成処理について詳細に説明する。キーワードクラスタは、キーワードを所定の観点によってグループ分けしたものである。本実施の形態では、以下の2種類のオペレーションによって異なるレベル(観点)のクラスタが作成される。
レベル1は、検索結果から選択されたコンテンツが共通するキーワード同士をクラスタ化するものである。このレベル1のクラスタに含まれるキーワード同士は概して、表記のゆれや異表記の関係のものが多い。たとえば、「パーソナルコンピュータ」、「パーソナル・コンピュータ」、「パソコン」、「PC」などがレベル1のクラスタを構成する。レベル1のクラスタは、ユーザが検索結果で選択したURLの一致度を利用して作成することができる。
図7は、レベル1のクラスタ化を示す図である。図7には、検索キーワードとそのキーワードで検索した結果ユーザが選択したURLの関係を表している。たとえば、「Kwd1」で検索したユーザが、検索結果の中から「URL1」、「URL2」、「URL3」を選択したことを表している。このとき、選択されるURLの共通性(重なり度合)が高いキーワード同士は、そのキーワードの内容が同一または類似しているものと想定できる。そこで、選択されるURLの共通性が高いキーワードをクラスタ化し、レベル1のクラスタとする。
具体的には、検索キーワードとURLとのペアを考えたとき、選択URLの重なり度合をdupとして以下のように定義する。
dup(Kwd1,Kwd2)=(Kwd1とKwd2の重なりURL数)/(Kwd1とKwd2とのURLの合計)
検索ログに含まれる全てのキーワードについて、上記の重なり度合(dup)や単純な重なりURL数を算出して、それらの値がある閾値以上のキーワード群をレベル1のクラスタとする。
図7の例では、「Kwd1」と「Kwd2」とが共通のURLに関連付けられている。そのため、「Kwd1」と「Kwd2」とでクラスタ31を構成する。同様に、「Kwd3」と「Kwd4」とが共通のURLに関連付けられている。そのため、「Kwd3」と「Kwd4」とでクラスタ32を構成する。
図8は、2つのキーワードの間のレベル1の重なり度数を示す図である。図8の例では、「キーワードA」の検索結果から選択されたURLが「URL1」、「URL2」、「URL3」、「URL4」、「URL5」である。また、「キーワードB」の検索結果から選択されたURLが「URL4」、「URL5」、「URL6」、「URL7」である。従って、重複するURLは「URL4」、「URL5」であり、重なり数は2となる。
レベル2は、入力したユーザが重複するキーワード同士をクラスタ化するものである。レベル2のクラスタで得られるキーワードは、概して兄弟語、関連語レベルのものが多い。たとえば、「○○カメラ」、「△△や」、「□□電気」、「××カメラ」、「凸凸電気」などのキーワードがレベル2のクラスタとしてグループ化される。レベル2のクラスタは、複数のユーザによって検索されたキーワードを利用して作成することができる。
図9は、レベル2のクラスタ化を示す図である。図9には、ユーザIDとそのユーザIDのユーザが入力したキーワードとの関係を表している。たとえば、「USR1」のユーザが「Kwd1」、「Kwd2」を検索キーワードとして入力したことを表している。このとき、入力するユーザの共通性(dup値)が高いキーワード同士は、同じカテゴリに属しているものと想定できる。
すなわち、ユーザが検索によって情報を探す場合、対象に対して様々なキーワードを入力しながら試行錯誤的に検索するのが一般的である。複数のユーザによって同じように検索されたキーワード群には、何らかの共通性があると考えられる。そこで、入力するユーザの共通性が高いキーワードをグループ化し、レベル2のクラスタとする。
具体的には、レベル1と同様に重なり度合dupを以下のように定義できる。
Dup(Kwd1,Kwd2)=(Kwd1とKwd2の共通ユーザ数)/(Kwd1とKwd2それぞれ検索したユーザの合計)
検索ログに含まれる全てのキーワードについて、上記の重なり度合(dup)や単純な重なりユーザ数を算出して、それらの値がある閾値以上のキーワード群をクラスタとする。
図9の例では、「Kwd1」と「Kwd2」とは「USR1」と「USR2」とによって共通に検索されたキーワードである。そこで、「Kwd1」と「Kwd2」とをレベル2のクラスタ33としてグループ化する。同様に、「Kwd3」と「Kwd4」とは「USR3」と「USR4」とによって共通に検索されたキーワードである。そこで、「Kwd3」と「Kwd4」とをレベル2のクラスタ34としてグループ化する。
図10は、2つのキーワードの間のレベル2の重なり度数を示す図である。図10の例では、「キーワードA」の検索結果から選択されたユーザが「USR1」、「USR2」、「USR3」、「USR4」、「USR5」である。また、「キーワードB」の検索結果から選択されたユーザが「USR4」、「USR5」、「USR6」、「USR7」である。従って、重複するユーザは「USR4」、「USR5」であり、重なり数は2となる。
このように、本発明の実施の形態では、レベル1とレベル2との2種類のクラスタが生成される。
図11は、コンピュータというキーワードが属するクラスタの例を示す図である。図11には「コンピュータ」というキーワードが属するレベル1のクラスタ41とレベル2のクラスタ42とに、他のどのようなキーワードが含まれるかを示している。この例では、「コンピュータ」に対するレベル1のクラスタ41として「パソコン」や「パーソナルコンピュータ」等のキーワードが設定されている。また、「コンピュータ」に対するレベル2のクラスタ42として、「コンピュータウィルス」や「セキュリティーホール」などのキーワードが設定されている。
このように、各クラスタ間に共通して出現するキーワードをリンクに見立てることで、検索履歴からキーワードのネットワークを構築することができる。これを一般的なディレクトリとコンテンツナビゲーションとをユーザナビゲーションの観点から比較すると以下のようになる。
図12は、ディレクトリ方式とコンテンツナビゲーション方式とのデータ構造を示す図である。図12(A)がディレクトリ方式のデータ構造を示しており、図12(B)がコンテンツナビゲーション方式のデータ構造を示している。
ディレクトリ方式では、キーワード間の関係がツリー構造51であるのに対し、本実施の形態に係る方式ではキーワード間の関係がネットワーク構造53である。また、ディレクトリ方式では、概念を絞り込む方向のナビゲーションであるのに対し、コンテンツナビゲーション方式では、概念を広げる方向のナビゲーションである。すなわち、ディレクトリ方式では、元のキーワード52からツリー構造51上の下位の構造へ、順次キーワードを探すことで概念が絞り込まれる。一方、コンテンツナビゲーション方式では、元のキーワード54からクラスタ上の関連性を有する他のキーワードを順次辿り、キーワードを探すことで概念を広げることができる。
このようなそれぞれの方式の違いにより、ディレクトリ方式の利用シーンは、対象のイメージがはっきりしている場合であるのに対し、コンテンツナビゲーション方式の利用シーンは、対象のイメージがはっきりしていない場合である。
このようなキーワードのクラスタ化を効率的に行うため、検索履歴に基づいて、予め基本DB113、不要語DB114、及びクラスタDB115とを作成しておく。これらのDBの作成は、定期的(たとえば、毎日深夜の時間帯)に行われる。
図13は、基本DBのデータ構造例を示す図である。基本DB113は、キーワード別URL管理テーブル113a、URL別キーワード管理テーブル113b、キーワード別選択ユーザ管理テーブル113c、ユーザ別入力キーワード管理テーブル113d、URL別選択ユーザ管理テーブル113e、及びユーザ別選択URL管理テーブル113fで構成される。
キーワード別URL管理テーブル113aには、キーワード、URL、ヒット件数、及びトップURLの欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて1つのレコードを構成している。キーワードの欄には、検索の際に入力されたキーワードが設定される。URLの欄には、対応するキーワードによる検索結果から選択されたWebページのURLが設定される。ヒット件数の欄には、対応するキーワードに合致したWebページの件数が設定される。トップURLの欄には、対応するキーワードによる検索結果の中で最も優先的に表示されたWebページのURLが設定される。
URL別キーワード管理テーブル113bには、URL、URLタイトル、キーワード、及び検索タイプの欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて1つのレコードを構成している。URLの欄には、検索結果の中から選択されたWebページのURLが設定される。URLタイトルの欄には、対応するURLで示されるWebページのタイトルが設定される。キーワードの欄には、対応するURLを選択したときの、元となった検索キーワードが設定される。検索タイプの欄には、検索結果として表示されたWebページのタイプ(広告やコマース(電子商取引)等の種別)が設定される。
キーワード別選択ユーザ管理テーブル113cには、キーワードとユーザとの欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて1つのレコードを構成している。キーワードの欄には、ユーザにより入力された検索キーワードが設定される。ユーザの欄には、対応するキーワードを入力したユーザの識別情報が設定される。
ユーザ別入力キーワード管理テーブル113dには、ユーザとキーワードとの欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて1つのレコードを構成している。ユーザの欄には、検索を行ったユーザの識別情報が設定される。キーワードの欄には、対応するユーザが入力した検索キーワードが設定される。
URL別選択ユーザ管理テーブル113eには、URLとユーザとの欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて1つのレコードを構成している。URLの欄には、検索結果から選択されたURLが設定される。ユーザの欄には、対応するURLを選択したユーザの識別情報が設定される。
ユーザ別選択URL管理テーブル113fには、ユーザとURLとの欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて1つのレコードを構成している。ユーザの欄には、検索を行ったユーザの識別情報が設定される。URLの欄には、対応するユーザが検索結果から選択したURLが設定される。
図14は、不要語DBのデータ構造例を示す図である。不要語DB114には、不要語、導出元の語、繰り返し回数、レベル1の重なり数、レベル1のdupの値、レベル2の重なり数、及びレベル2のdupの値の欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて1つのレコードを構成している。
不要語の欄には、不要語として選択されたキーワードが設定される。導出元の語の欄には、不要語の判断基準として対比されたキーワードが設定される。繰り返し回数の欄には、不要語として検出された際に、不要語検出処理が何段行われたのかを示す数値が設定される。
レベル1の重なり数の欄には、レベル1のクラスタを構成する際の不要語と導出元の語との間の重なり数が設定される。レベル1のdup値の欄には、レベル1のクラスタを構成する際の不要語と導出元の語との間のdup値が設定される。
レベル2の重なり数の欄には、レベル2のクラスタを構成する際の不要語と導出元の語との間の重なり数が設定される。レベル2のdup値の欄には、レベル2のクラスタを構成する際の不要語と導出元の語との間のdup値が設定される。
図15は、クラスタDBのデータ構造例を示す図である。クラスタDB115には、対象語、ユーザ数、ヒット件数、及び対応語の欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて1つのレコードを構成している。
対象語の欄には、クラスタを検索する際の基準となるキーワードが設定される。ユーザ数の欄には、対象語を検索キーワードとして入力したユーザの総数が設定される。ヒット件数の欄には、対象語を検索キーワードとして検索したときのヒット件数が設定される。
対応語の欄には、対象語と比較する他のキーワード(対応語)に関する情報が設定される。対応語の欄は、更に表記、重なり数、dupの値、ユーザ数、及びヒット件数の欄に細分化されている。
表記の欄は、対応語を表記する際の文字列が設定されている。重なり数の欄は、上下2段に分かれており、上段には対象語と対応語との間のレベル1の重なり数が設定されており、下段には対象語と対応語との間のレベル2の重なり数が設定されている。dupの値の欄は上下2段に分かれており、上段には対象語と対応語との間のレベル1のdup値が設定されており、下段には対象語と対応語との間のレベル2のdup値が設定されている。ユーザ数の欄には、対応語を検索キーワードとして入力したユーザの数が設定されている。ヒット件数には、対応語を検索キーワードとして入力した際の検索によってヒットする情報の件数が設定される。
次に、各データベースの作成方法について説明する。まず、基本DB113の作成手順を説明する。
図16は、基本DBの作成手順を示すフローチャートである。以下、図16に示す処理をステップ番号に沿って説明する。
[ステップS1]キーワードクラスタ作成部140は、検索履歴DB112を参照し、検索キーワードや飛び先URLなどの異なる複数の検索履歴を、セッションIDなどのユニークなキーで1つの検索履歴としてまとめ、時間順にソートする。
[ステップS2]キーワードクラスタ作成部140は、検索履歴を1レコード毎に読み込み、キーワードの正規化を行う。正規化では、全角の英数字記号を半角の大文字に、半角のカタカナを全角の大文字に、行頭や末尾に含まれる全角や半角のスペースを削除、キーワード中に含まれる連続する複数のスペースを1つの半角のスペースに置き換える等の処理が行われる。
[ステップS3]キーワードクラスタ作成部140は、データの組み合わせ毎にハッシュ配列を作成し、値を基本DB113に格納する。具体的には、キーワードに対応するURLを示すハッシュ配列、キーワードに対応するユーザを示すハッシュ配列、ユーザに対応するキーワードを示すハッシュ配列、ユーザに対応するURLを示すハッシュ配列、URLに対応するキーワードを示すハッシュ配列、URLに対応するユーザを示すハッシュ配列が作成される。
[ステップS4]キーワードクラスタ作成部140は、全てのレコードについて処理したか否かを判断する。全てのレコードについて処理した場合には処理を終了し、未処理のレコードがある場合には、処理がステップS2に進められる。
図17は、キーワードに対応するURLが定義されたハッシュ配列の例を示す図である。図17に示すように、ハッシュ配列61によって、各キーワードに対して、そのキーワードの検索結果から選択されたURLのリストや、ヒット件数(Hit#)やトップURL(TopURL)が関連付けられている。
図18は、URLに対応するユーザが定義されたハッシュ配列の例を示す図である。図18に示すように、ハッシュ配列62によって、各URLに対して、そのURLを選択したユーザのリストが関連付けられている。
このように生成されたハッシュ配列が、図13に示した基本DB113を示している。すなわち、図13には、分かり易くテーブル形式で基本DB113を示しているが、実際のポータルサイトサーバ100内では、ハッシュ配列によって基本DB113が管理されている。
次に、不要語DB114の作成手順について説明する。ポータルサイトサーバ100の検索履歴の中には、一般のユーザへのサービスとして公開する必要のないキーワードも多く含まれている。一般的に、検索履歴中に含まれる不要語を全て削除することは不可能であるが、上記のキーワードクラスタ作成方法を利用して、不要語DB114を作成することによって効率的に削除することができる。不要語DB114の作成は以下のステップによる。
図19は、不要語DBの作成手順を示すフローチャートの前半である。以下、図19に示す処理をステップ番号に沿って説明する。
[ステップS11]不要語DB作成部150は、検索履歴DB112から所定の期間内の検索履歴を取り出す。たとえば、前回のクラスタDB作成処理が実行されてから現在までの期間の検索履歴を取り出す。
[ステップS12]不要語DB作成部150は、抽出した検索履歴中のキーワード、リンクに対してクリーニングを行う。クリーニングでは、たとえば、キーワードの全角英数記号を半角英数記号に変換、英数小文字を大文字に変換する。また、URLに関連付けられているセッションIDやユーザIDを削除する。
[ステップS13]不要語DB作成部150は、抽出した各検索履歴から所定の情報を抽出し、結果を基本DB113に格納する。具体的には、不要語DB作成部150は、各検索履歴からキーワード、ユーザ、飛び先URL単位で集計(それぞれをキーにして集計)する。そして、不要語DB作成部150は、集計結果を、基本DB113に登録に登録する。
[ステップS14]不要語DB作成部150は、ユニークユーザ数が多い順にキーワードをソートする。ここで、ユニークユーザ数とは、各キーワードを入力したユーザの数を示している。なお、ユニークユーザ数を求める際、同一ユーザが同一のキーワードを複数回入力したときには、まとめて1ユーザと換算する。
具体的には、キーワード別選択ユーザ管理テーブル113cの各キーワードに関連付けて登録されているユーザの数(ユーザIDの重複を排除後)がカウントされ、その数の大きい順にキーワードが並べ替えられる。また、各キーワードのユニークユーザ数は、時間、日、週、月単位でまとめ、その単位内でソートしてもよい。この際、ユニークユーザ数が少ないもの(1や2など、所定の閾値を超えないもの)はリストから削除してもよい。
[ステップS15]不要語DB作成部150は、ユニークユーザ数の多い順にキーワードを画面に表示させ、ユーザによって不要語にすべきか否かの検討対象とする1以上のキーワードを選択させる。不要語DB作成部150は、ユーザによって選択された1以上のキーワードを含む不要語の種リストを作成する。たとえば、ユーザは、時間、日、週、月単位でまとめられたときに、常に上位に現れるキーワードを選択する。種リストは、たとえば、RAM102に格納される。
[ステップS16]不要語DB作成部150は、種リストから未処理のキーワードを取り出し、そのキーワードに対応するユーザとURLとを、基本DB113を参照して求める。具体的には、不要語DB作成部150は、キーワード別選択ユーザ管理テーブル113cを参照して、取り出したキーワードに対応するユーザIDを取得する。また、不要語DB作成部150は、キーワード別URL管理テーブル113aを参照して、取り出したキーワードに対応するURLを求める。
[ステップS17]不要語DB作成部150は、ステップS16で求めたユーザとURLとに対応するキーワードを求め、そのキーワードのURLやユーザを更に求める。具体的には、不要語DB作成部150は、ユーザ別入力キーワード管理テーブル113dを参照し、ステップS16で求めた各ユーザに対応するキーワードを求める。そして、不要語DB作成部150は、キーワード別選択ユーザ管理テーブル113cやキーワード別URL管理テーブル113aを参照して、求めたキーワードに対応するURLやユーザを求める。
図20は、不要語DBの作成手順を示すフローチャートの後半である。以下、図20に示す処理をステップ番号に沿って説明する。
[ステップS18]不要語DB作成部150は、ステップS17で求めたキーワードと、種リストから取り出したキーワードとのURLの重なり数やdup関数とを計算する。これは、レベル1のクラスタの関係の有無を求める処理である。
[ステップS19]不要語DB作成部150は、ステップS17で求めたキーワードと、種リストから取り出したキーワードとのユーザの重なり数やdup関数とを計算する。これは、レベル2のクラスタの関係の有無を求める処理である。
[ステップS20]不要語DB作成部150は、重なり数またはdup関数の値が所定の閾値以上となるキーワードを、不要語DB114に追加する。
[ステップS21]不要語DB作成部150は、ステップS20で追加したキーワードを画面に表示し、ユーザから不要語として不適切なキーワードの選択入力を受け付ける。ユーザからキーワードが選択されると、そのキーワードを不要語DB114から削除する。
[ステップS22]不要語DB作成部150は、不要語の登録処理を所定回数繰り返したか否かを判断する。所定回数繰り返した場合、処理を終了させる。まだ所定回数繰り返していない場合、ステップS20で新たに不要語として追加したキーワード(ステップS21で削除したものを除く)を種リストとして、処理をステップS16に進める。
このようにして、不要語DB114を作成することができる。この際、新たに不要語としたキーワードを種リストとして不要語の判定を繰り返すことにより、不要語の抽出漏れを減らすことができる。
次に、クラスタDB115の作成手順について説明する。
図21は、クラスタDB作成処理の手順を示すフローチャートの前半である。以下、図21に示す処理をステップ番号に沿って説明する。
[ステップS31]キーワードクラスタ作成部140は、検索履歴DB112から所定の期間内の検索履歴を取り出す。たとえば、前回のクラスタDB作成処理が実行されてから現在までの期間の検索履歴を取り出す。
[ステップS32]キーワードクラスタ作成部140は、抽出した検索履歴中のキーワード、リンクに対してクリーニングを行う。クリーニングでは、たとえば、キーワードの全角英数記号を半角英数記号に変換、英数小文字を大文字に変換する。また、URLに関連付けられているセッションIDやユーザIDを削除する。
[ステップS33]キーワードクラスタ作成部140は、抽出した各検索履歴から所定の情報を抽出し、結果を基本DB113に格納する。具体的には、キーワードクラスタ作成部140は、各検索履歴からキーワード、ユーザ、飛び先URL単位で集計(それぞれをキーにして集計)する。そして、キーワードクラスタ作成部140は、集計結果を、基本DB113に登録する。
[ステップS34]キーワードクラスタ作成部140は、ユニークユーザ数が所定の閾値以下のキーワードや、不要語DB114に含まれるキーワードを基本DB113から削除する。
[ステップS35]キーワードクラスタ作成部140は、ユニークユーザが多い順にキーワードをソートする。具体的には、キーワードクラスタ作成部140は、キーワード別選択ユーザ管理テーブル113cの各キーワードに関連付けて登録されているユーザの数(ユーザIDの重複を排除後)をカウントし、その数の大きい順にキーワードを並べ替える。
[ステップS36]キーワードクラスタ作成部140は、ソートしたリストの上位からキーワードを取り出し、取り出されたキーワードを対象語とする。そして、キーワードクラスタ作成部140は、対象語に対応するユーザとURLを求める。具体的には、キーワードクラスタ作成部140は、キーワード別選択ユーザ管理テーブル113cを参照して、取り出したキーワードに対応するユーザIDを取得する。また、不要語DB作成部150は、キーワード別URL管理テーブル113aを参照して、取り出したキーワードに対応するURLを求める。
[ステップS37]キーワードクラスタ作成部140は、ステップS36で求めたユーザとURLとに対応するキーワード(対応語)を求め、そのキーワードのURLやユーザを更に求める。具体的には、キーワードクラスタ作成部140は、ユーザ別入力キーワード管理テーブル113dを参照し、ステップS36で求めた各ユーザに対応するキーワードを求める。そして、不要語DB作成部150は、キーワード別選択ユーザ管理テーブル113cやキーワード別URL管理テーブル113aを参照して、求めたキーワードに対応するURLやユーザを求める。
図22は、クラスタDB作成処理の手順を示すフローチャートの後半である。以下、図22に示す処理をステップ番号に沿って説明する。
[ステップS38]キーワードクラスタ作成部140は、ステップS37で求めた対応語と、対象語とのURLの重なり数やdup関数を計算する。これは、レベル1のクラスタの関係の有無を求める処理である。また、キーワードクラスタ作成部140は、ステップS37で求めた対応語と、対象語とのユーザの重なり数やdup関数を計算する。これは、レベル2のクラスタの関係の有無を求める処理である。
[ステップS39]キーワードクラスタ作成部140は、ステップS38で求めた重なり数またはdup関数の値の何れかが所定の閾値以上の対応語を、対象語に関連付けてクラスタDB115に登録する。この際、対応語のレベル1及びレベル2の重なり数やdup関数の値も合わせて登録される。
[ステップS40]キーワードクラスタ作成部140は、登録した対応語のURLやユーザ情報を、対象語の情報として基本DB113に登録する。その後、キーワードクラスタ作成部140は、登録した対応語の情報を基本DB113から削除する。この処理をネットワークの縮退と呼ぶ。
[ステップS41]キーワードクラスタ作成部140は、更新された基本DB113を対象に不要語DB作成処理(図19、図20参照)を行い、不要語DB114を更新する。
[ステップS42]キーワードクラスタ作成部140は、クラスタDB115の更新処理を所定回数実行したか否かを判断する。所定回数実行して入れば所定が終了する。所定回数実行していない場合、処理をステップS31に進める。これにより、同様の処理が所定回数繰り返される。
なお、クラスタDB115に対応語を追加する場合、それが何回目の処理による処置であるのかを示す情報を追記することもできる。また、対応語の追加日付をクラスタDB115に登録することもできる。日付情報を登録することで、時間の経過によるクラスタキーワードの変化を把握することができる。
このようにして、クラスタDB115を作成することができる。この際、ステップS40に示すように、ネットワークの縮退が同時に行われる。ネットワークの縮退では、表記のゆれや概念が特に近いキーワード群をまとめる操作が行われる。特に近い関係を有するキーワード群を纏め1つの代表的なキーワードで表すことによって、キーワード数を減らし、ナビゲーションネットワークの規模を縮退することができる。その結果、ユーザに対してクラスタに含まれるキーワードを提示する際にも、必要最低限のキーワードを効率的に提示することができる。
このようにクラスタ化されるべきキーワードの組の抽出、およびそれらのキーワードの縮退処理を交互に繰り返すことで、概念的に関連するキーワードがクラスタから漏れてしまう事態を減らすことができる。
図23は、クラスタ化とキーワードの縮退とを繰り返した際のクラスタの変化を示す図である。たとえば、「A社」を対象語としたときの最初のレベル1のクラスタ63に3つの対応語が含まれているものとする。このとき、基本DB113における対象語に対応するユーザの項目に、対応語に登録されているユーザを加える。同様に、対象語に対応するURLの項目に、対応語に登録されているURLを加える。
その後、再度レベル1のクラスタ作成処理を実行すると、概念的に拡張された他のキーワードを含むクラスタ64が生成される。このような処理を、任意の回数繰り返すことで、概念的に近いキーワードを集めたクラスタを形成することができる。
以上のように、クラスタDB115を作成しておくことにより、ポータルサイトサーバ100にアクセスしてインターネット上のコンテンツを検索するユーザに対して、コンテンツナビゲーション機能を提供することができる。コンテンツナビゲーションは、ナビゲーション部160によって行われる。
本実施の形態では、コンテンツナビゲーションのトップページのURLが予め用意されているものとする。ユーザがクライアント211を操作して、そのURLにアクセスすると、ナビゲーション部160によってナビゲーショントップ画面データが作成される。本実施の形態では、ナビゲーション部160が基本DB113のキーワード別選択ユーザ管理テーブル113cを参照し、検索キーワードとして入力したユーザ数の多いキーワードのリストを作成する。そして、そのキーワードのリストを含むナビゲーショントップ画面データが作成される。ナビゲーショントップ画面データはクライアント211に転送され、クライアントでナビゲーショントップ画面が表示される。
図24は、ナビゲーショントップ画面の例を示す図である。ナビゲーショントップ画面71には、キーワード入力部71a、ジャンプボタン71b、複数のキーワード候補71c、キーワード候補71c毎のユニークユーザ数71d、および定番ディレクトリリンクオブジェクト71eが表示されている。
キーワード入力部71aは、任意のキーワードを代表キーワードとして入力するためのテキストボックスである。ジャンプボタン71bは、コンテンツナビゲーションの実行指示を出すためのボタンである。ジャンプボタン71bが押下されると、キーワード入力部71aに入力されたキーワードを代表キーワードとしたコンテンツナビゲーション要求がポータルサイトサーバ100に対して送信される。
キーワード候補71cは、代表キーワードとして選択するキーワードの候補である。この例では、過去の所定期間内にユーザによって検索キーワードとして入力された回数の多いキーワードがキーワード候補71cとして表示されている。何れかのキーワード候補71cがユーザによって選択されると、そのキーワードを代表キーワードとしたコンテンツナビゲーション要求がポータルサイトサーバ100に対して送信される。各キーワード候補71cのユニークユーザ数は、そのキーワードを検索キーワードとして入力したユーザの数である。
また、定番ディレクトリリンクオブジェクト71eは、定番ディレクトリ画面に遷移させるためのリンクが定義されたオブジェクトである。定番ディレクトリリンクオブジェクト71eが選択されると、ポータルサイトサーバ100に対して、定番ディレクトリ画面の表示要求がだされる。
ここで、キーワード候補71cの1つがユーザによって選択されたものとする。すると、コンテンツナビゲーション要求を受け取ったポータルサイトサーバ100において、ナビゲーション部160がコンテンツナビゲーションの処理を行い、処理結果をクライアント211に対して送信する。具体的には、ナビゲーション部160は、代表キーワードとして指定されたキーワードが対象語として登録されているレコードをクラスタDB115から検索する。そして、ナビゲーション部160は、検出されたレコードの対応語から、レベル1のdupの値(あるいは重なり数)が大きい順に所定数のキーワードを抽出し、同様にレベル2のdupの値(あるいは重なり数)が大きい順に所定数のキーワードを抽出する。ナビゲーション部160は、これらのキーワードを含むナビゲーション画面データを作成する。
また、ナビゲーション部160は、基本DB113のキーワード別URL管理テーブル113aを参照し、代表キーワードとして指定されたキーワードによる検索結果から選択されたことのあるURLを抽出する。さらに、ナビゲーション部160は、URL別選択ユーザ管理テーブル113eを参照し、抽出した各URLを選択したユーザの数をカウントし、URLをそのユーザ数によってソートする。そして、ナビゲーション部160は、ソートされたURL、およびそのURLの関連情報をナビゲーション画面データに追加する。
生成されたナビゲーション画面はクライアント211に対して送信され、クライアント211に表示される。
図25は、ナビゲーション画面の例を示す図である。ナビゲーション画面72には、代表キーワード72a、レベル1クラスタ内キーワード72b、レベル2クラスタ内キーワード72c、及びコンテンツ情報72dが表示されている。
代表キーワード72aの横には、その代表キーワードを検索キーワードとして入力したユニークユーザ数が表示されている。レベル1クラスタ内キーワード72bには、代表キーワードとの間でレベル1のクラスタの関係を有するキーワードが表示されている。レベル2クラスタ内キーワード72cには、代表キーワードとの間でレベル2のクラスタの関係を有するキーワードが表示されている。
コンテンツ情報72dには、代表キーワードを検索キーワードとしたときの検索結果から選択された回数の多いコンテンツに関する情報が表示される。コンテンツ情報72dには、コンテンツアクセス件数72e、コンテンツタイトル72f、対応語72gが含まれる。コンテンツアクセス件数72eは、表示されているコンテンツが検索結果として表示されたときにアクセス対象として選択された回数である。コンテンツタイトル72fは、コンテンツのタイトルである。対応語72gは、そのコンテンツを検索結果として検出することができるキーワードである。
なお、ナビゲーション画面において、コンテンツのタイプを識別できるように表示することもできる。その場合、ナビゲーション部160は、ナビゲーション画面データの作成時に、URL別キーワード管理テーブル113bの検索タイプの欄を参照し、検索タイプ毎に異なる表示属性とする。たとえば、検索タイプ毎に異なる表示色とすることができる。
図26は、タイプ識別可能なナビゲーション画面の例を示す図である。このナビゲーション画面73では、サービスコンテンツのコンテンツタイトル73aや、広告コンテンツのアクセス件数73bが、他のコンテンツと異なる色で表示されている(図26中では、破線によってハイライト表示部を示している)。サービスコンテンツとは、電子商取引などのサービス提供を行うWebサイトに設けられたコンテンツである。広告コンテンツとは、企業の商品宣伝等の広告のコンテンツである。コンテンツのタイプを異なる色で表示することにより、ユーザは目的のコンテンツを容易に識別できる。
以上のように、検索履歴に基づいて、ユーザが検索結果からどのコンテンツを選択したのかをデータベースで管理し、そのデータベースに基づいてキーワードのクラスタ化を行った。そして、コンテンツナビゲーションにおいて指定された代表キーワードとクラスタ化された他のキーワードをユーザに提示するようにした。その結果、実際のユーザの嗜好等を適宜反映させて、ユーザが指定したキーワードに関連するキーワードを提示することができる。
また、ユーザが任意に指定したコンテンツを強調(たとえば、ハイライト)表示することもできる。
図27は、任意のコンテンツを強調表示したナビゲーション画面の例を示す図である。図27に示すナビゲーション画面74には、ハイライト指定部74a,74bが設けられている。ハイライト指定部74a,74bでは、強調表示すべきコンテンツを示す文字列の入力部がある。この入力部に入力された文字列をURLやタイトルに含むコンテンツがハイライトによって強調表示される。
また、ナビゲーショントップ画面71の定番ディレクトリリンクオブジェクト71eが選択されると、ナビゲーション部160によって定番ディレクトリ画面データが作成され、クライアント211に送信される。定番ディレクトリ画面データには、定常的に頻繁にアクセスされるコンテンツが含まれる。
図28は、定番ディレクトリ画面の例を示す図である。定番ディレクトリ画面75には、常時アクセス数の多いコンテンツが表示されている。各コンテンツのタイトルの横には、アクセスしたユニークユーザ数が示されている。
このように、本発明の実施の形態に示すコンテンツナビゲーションを行えば、ユーザは代表キーワードを選択することで、その時点での流行のキーワードを取得することができる。そして、ユーザは、流行のコンテンツを広くブラウジングすることができる。また、キーワードの表記などを気にせず、関連する全てのコンテンツにアクセスすることができる。
たとえば、ある期間(時間、日、週、月など)で集計したキーワードを、キーワードの選択したユニークユーザ数、注目度(平均のユーザ数からの伸び)、キーワードのヒット件数、クラスタの大きさなどの指標を用いてソートし、上位のキーワードをディレクトリ検索のトップのように表示する。ユーザはこれを見ることで現在どのようなことが流行っているのか概観することができる。
なお、このようなコンテンツナビゲーションは、ディレクトリ検索とは違ったユーザナビゲーションである。すなわち、コンテンツナビゲーションでは、ネットワークを利用するユーザの嗜好の変化やコンテンツの変化が監視され、ユーザの興味の推移に沿った適当なナビゲーションを行うことができる。
また、電子商取引を行う事業者はその結果を自社サイトのSEO(SearchEngineOptimization:自社サイトがユーザによって的確に検索されるようにサイトのキーワードや構成を最適化する手法)やSEM(SearchEngineMarketing:検索キーワード広告などを利用して自社サイトの利益を最大化する手法)に利用することもできる。
ところで、本実施の形態は、以下のような応用が可能である。
[コンピュータテンスクラスタの作成]
上記の例では、キーワード間のクラスタを作成したが、クラスタ化されたキーワードに関連するコンテンツ同士をクラスタ化することもできる。具体的には、クラスタDB115と基本DB113を利用してコンテンツクラスタを作成することができる。クラスタを構成するキーワードのコンテンツ群はクラスタと考えられる。
図29は、コンテンツクラスタの例を示す図である。図に示すように、キーワード間のクラスタ81(レベル1、レベル2の何れか一方または両方)に含まれる各キーワードに対して、基本DB113上で関連付けられたURL(対応するキーワードによる検索結果からユーザによって選択されたURL)を抽出する。そして、抽出されたURLによりコンテンツクラスタ82を構成する。
このように、コンテンツクラスタ82を構成することにより、ユーザによってコンテンツが選択された際に、同じクラスタに属する他のコンテンツのリストを画面に表示することができる。これにより、ユーザは、選択したコンテンツと類似する内容の他のコンテンツに容易にアクセスすることができる。
[クラスタの組み合わせによるクラスタの拡張]
代表キーワードに対するクラスタを、そのクラスタに含まれる他のキーワードを元に段階的に拡張することができる。たとえば、代表キーワードAのクラスタとしてB,C,Dが抽出されているものとする。この関係を(A:B,C,D)と表す。このとき、代表キーワードBに対して(B:C,E)となっている場合、Aのクラスタを(A:(B:C,E),D)と拡張できる。
図30は、クラスタの拡張処理を示す図である。図30に示すように、クラスタ91、クラスタ92を合わせて、クラスタ93を作成する。この例では、クラスタ92の対象語「C自動車」がクラスタ91の対応語の1つである。そこで、クラスタ92の対応語を、クラスタ91の対応語「C自動車」の下位構造として関連付ける。その際、元からクラスタ91の対応語として設定されているキーワードに関しては、対応語「C自動車」の下位構造への関連づけの対象から除外する。
なお、どちらのクラスタが下位となるのかは、たとえば、検索ユーザ数や検索結果のヒット件数で判断することができる。図30の例では、クラスタ91の方がクラスタ92よりも検索件数が多いため、クラスタ91の配下にクラスタ92を配置することでクラスタ93が生成されている。
このようにクラスタを拡張することで、ユーザが選択した代表キーワードのコンテンツナビゲーションを行う際に、より広い範囲で関連するキーワードを提示することができる。
[注目クラスタの抽出]
基本DB113に含まれる検索キーワードのヒット件数やユニークユーザ数の時間的な変化とその時のユーザによる注目度を考える。たとえば、ユーザ数が増加していれば注目度が高いと考える。また、ヒット件数が増加していれば、注目度が高いと考える。
図31は、ユーザ数とヒット件数との変化に応じた注目度を示す図である。この図では、注目度を5段階で評価している。数値が大きいほど注目度は高いことを示す。
このように、キーワード毎の注目度を予め設定しておく。そして、代表キーワードと同じクラスタに属するキーワードを表示する際には、注目度の高いキーワードを優先的に表示する。これにより、代表キーワードに関連するキーワードのうち、多くのユーザによって最近注目されている物事を示すキーワードを容易に知ることができる。
[同じような検索パターンを持つ検索語同士を同一のクラスタと見做すクラスタ作成方法]
ある検索キーワードの1時間単位の検索数を縦軸、時刻を横軸に取っての検索数の増減をプロットしたときに、同じ時刻に極端に増加したり減少したりするキーワードは同じクラスタに入れる。また、検索数の代わりに、キーワードの注目度などの変化を見ても良い。キーワードの注目度とはたとえば以下のような式で定義される。
Figure 2005309998
これは、検索語wiの時刻tでの利用者数をUUt(wi)、その補正値をCtで表すとき、それらの注目度ATt(wi)を求める評価式である。
図32は、検索数と注目度との一日の遷移状況を比較した図である。この例では「郵便局」のグラフ94と「年賀状」のグラフ95とが示されている。グラフ94,95は、縦軸は数値(ユーザ数または注目度)、横軸が時刻である。そしてグラフ94,95には、それぞれ「年賀状」と「郵便局」の検索ユーザ数の変化と注目度の値の変化が1時間単位にプロットされている。そして、検索ユーザ数の値の変化が折れ線94a,95aで示されており、注目度の値の変化が折れ線94b,95bで示されている。
この例は、お年玉付き年賀はがきの当選番号の抽選日の記録である。図32から分かるように、2つのキーワードは、検索ユーザ数および注目度の立ち上がりの時期やピークの時期がほぼ同期している。このように、検索ユーザ数と注目度と何れか一方、若しくは両方の変化が同じキーワードは、クラスタに入れるようにする。これにより、入力された検索キーワードの情報のみからでも、有効なクラスタを作成することができる。
[コンテンツナビゲーションのプログラムによる実現]
なお、上記の処理機能は、クライアントサーバシステムのサーバコンピュータによって実現することができる。その場合、ポータルサイトサーバ100が有すべき機能の処理内容を記述したサーバプログラムが提供される。サーバコンピュータは、クライアントコンピュータからの要求に応答して、サーバプログラムを実行する。これにより、上記処理機能がサーバコンピュータ上で実現され、処理結果がクライアントコンピュータに提供される。
処理内容を記述したサーバプログラムは、サーバコンピュータで読み取り可能な記録媒体に記録しておくことができる。サーバコンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスクドライブ(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。
サーバプログラムを流通させる場合には、たとえば、そのサーバプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。
サーバプログラムを実行するサーバコンピュータは、たとえば、可搬型記録媒体に記録されたサーバプログラムを、自己の記憶装置に格納する。そして、サーバコンピュータは、自己の記憶装置からサーバプログラムを読み取り、サーバプログラムに従った処理を実行する。なお、サーバコンピュータは、可搬型記録媒体から直接サーバプログラムを読み取り、そのサーバプログラムに従った処理を実行することもできる。
(付記1) コンテンツの検索を支援するためのコンテンツナビゲーションプログラムにおいて、
コンピュータを、
ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納する格納手段、
前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化するグループ化手段、
任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する関連キーワード出力手段、
として機能させることを特徴とするコンテンツナビゲーションプログラム。
(付記2) 前記グループ化手段は、関連付けられた前記コンテンツが共通する前記キーワード同士をグループ化することを特徴とするコンテンツナビゲーションプログラム。
(付記3) 前記グループ化手段は、2つの前記キーワードを比較したとき、共通して関連付けられている前記コンテンツの数が所定値以上の場合、2つの前記キーワードをグループ化することを特徴とする付記2記載のコンテンツナビゲーションプログラム。
(付記4) 前記グループ化手段は、2つの前記キーワードを比較したとき、2つの前記キーワードの少なくとも一方に関連付けられている前記コンテンツの中で、共通して関連付けられている前記コンテンツの占める割合が所定値以上の場合、2つの前記キーワードをグループ化することを特徴とする付記2記載のコンテンツナビゲーションプログラム。
(付記5) 前記格納手段は、さらに、前記キーワードを入力したユーザのユーザ識別情報を、前記キーワードに関連付けて前記記憶手段に格納し、
前記グループ化手段は、関連付けられた前記ユーザ識別情報が共通する前記キーワード同士をグループ化することを特徴とするコンテンツナビゲーションプログラム。
(付記6) 前記グループ化手段は、2つの前記キーワードを比較したとき、共通して関連付けられている前記ユーザ識別情報の数が所定値以上の場合、2つの前記キーワードをグループ化することを特徴とする付記5記載のコンテンツナビゲーションプログラム。
(付記7) 前記グループ化手段は、2つの前記キーワードを比較したとき、2つの前記キーワードの少なくとも一方に関連付けられている前記ユーザ識別情報の中で、共通して関連付けられている前記ユーザ識別情報の占める割合が所定値以上の場合、2つの前記キーワードをグループ化することを特徴とする付記5記載のコンテンツナビゲーションプログラム。
(付記8) 前記グループ化手段は、前記記憶手段に含まれる1つの前記キーワードを対象語とし、前記対象語に対して関連する他の前記キーワードを対応語とし、前記対象語と前記対応語とをグループ化し、更に前記対応語に対して関連する他の前記キーワードを同一グループに含めることを特徴とする付記1記載のコンテンツナビゲーションプログラム。
(付記9) 前記コンピュータを、さらに、ユーザから不要として選択された前記キーワードを不要語として不要語記憶手段に格納する不要語格納手段として機能させ、
前記関連キーワード出力手段は、前記不要語記憶手段に記憶された前記不要語を除く前記キーワードを出力することを特徴とする付記1記載のコンテンツナビゲーションプログラム。
(付記10) 前記不要語格納手段は、前記キーワードと選択された前記コンテンツとの対応関係に基づいて、ユーザに選択された前記不要語と他の前記キーワードとの間の関連性を判定し、前記不要語に関連する他の前記キーワードを新たな不要語として前記不要語記憶手段に格納することを特徴とする付記9記載のコンテンツナビゲーションプログラム。
(付記11) 前記グループ化手段は、前記記憶手段に含まれる1つの前記キーワードを対象語とし、前記対象語に対して関連する他の前記キーワードを対応語とし、前記対応語それぞれに関連付けられた前記コンテンツを前記対象語に関連付けて前記記憶手段に登録すると共に前記記憶手段から前記対応語を削除し、その後、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化することを特徴する付記1記載のコンテンツナビゲーションプログラム。
(付記12) 前記グループ化手段では、グループ化により生成された2つグループが共通の前記キーワードを有する場合、前記共通のキーワードを介して、一方の前記グループの配下に他方の前記グループを木構造に接続した新たなグループを生成することを特徴とする付記1記載のコンテンツナビゲーションプログラム。
(付記13) 前記格納手段は、さらに、前記キーワードによる検索のヒット件数を、前記キーワードに関連付けて前記記憶手段に格納し、
前記グループ化手段は、ヒット件数の時間的な推移が類似する複数の前記キーワードをグループ化することを特徴とする付記1記載のコンテンツナビゲーションプログラム。
(付記14) 前記格納手段は、さらに、前記キーワードを入力したユーザのユーザ識別情報を、前記キーワードに関連付けて前記記憶手段に格納し、
前記グループ化手段は、入力したユーザ数の時間的な推移が類似する複数の前記キーワードをグループ化することを特徴とする付記1記載のコンテンツナビゲーションプログラム。
(付記15) コンテンツの検索をコンピュータによって支援するためのコンテンツナビゲーション方法において、
格納手段が、ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納し、
グループ化手段が、前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化し、
関連キーワード出力手段が、任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する、
ことを特徴とするコンテンツナビゲーション方法。
(付記16) コンテンツの検索を支援するためのコンテンツナビゲーション装置において、
ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納する格納手段と、
前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化するグループ化手段と、
任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する関連キーワード出力手段と、
を有することを特徴とするコンテンツナビゲーション装置。
(付記17) コンテンツの検索を支援するためのコンテンツナビゲーションプログラムを記録したコンピュータ読み取り可能な記録媒体において、
コンピュータを、
ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納する格納手段、
前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化するグループ化手段、
任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する関連キーワード出力手段、
として機能させることを特徴とするコンテンツナビゲーションプログラムを記録したコンピュータ読み取り可能な記録媒体。
実施の形態に適用される発明の概念図である。 本発明の実施の形態を実現するためのシステム構成例を示す図である。 本発明の実施の形態に用いるポータルサイトサーバのハードウェア構成例を示す図である。 ポータルサイトサーバの処理機能を示すブロック図である。 検索履歴蓄積処理を示す図である。 検索履歴DBのデータ構造例を示す図である。 レベル1のクラスタ化を示す図である。 2つのキーワードの間のレベル1の重なり度数を示す図である。 レベル2のクラスタ化を示す図である。 2つのキーワードの間のレベル2の重なり度数を示す図である。 コンピュータというキーワードが属するクラスタの例を示す図である。 ディレクトリ方式とコンテンツナビゲーション方式とのデータ構造を示す図である。図12(A)がディレクトリ方式のデータ構造を示しており、図12(B)がコンテンツナビゲーション方式のデータ構造を示している。 基本DBのデータ構造例を示す図である。 不要語DBのデータ構造例を示す図である。 クラスタDBのデータ構造例を示す図である。 基本DBの作成手順を示すフローチャートである。 キーワードに対応するURLが定義されたハッシュ配列の例を示す図である。 URLに対応するユーザが定義されたハッシュ配列の例を示す図である。 不要語DBの作成手順を示すフローチャートの前半である。 不要語DBの作成手順を示すフローチャートの後半である。 クラスタDB作成処理の手順を示すフローチャートの前半である。 クラスタDB作成処理の手順を示すフローチャートの後半である。 クラスタ化とキーワードの縮退とを繰り返した際のクラスタの変化を示す図である。 ナビゲーショントップ画面の例を示す図である。 ナビゲーション画面の例を示す図である。 タイプ識別可能なナビゲーション画面の例を示す図である。 任意のコンテンツを強調表示したナビゲーション画面の例を示す図である。 定番ディレクトリ画面の例を示す図である。 コンテンツクラスタの例を示す図である。 クラスタの拡張処理を示す図である。 ユーザ数とヒット件数との変化に応じた注目度を示す図である。 検索数と注目度との一日の遷移状況を比較した図である。
符号の説明
1 コンテンツナビゲーション装置
1a 格納手段
1b 記憶手段
1c グループ化手段
1d 関連キーワード出力手段
2,5 クライアント
3 検索サーバ
4 コンテンツサーバ
6a キーワード
6b 検索結果
7a コンテンツ取得要求
7b コンテンツ
8a 代表キーワード
8b 関連キーワード

Claims (10)

  1. コンテンツの検索を支援するためのコンテンツナビゲーションプログラムにおいて、
    コンピュータを、
    ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納する格納手段、
    前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化するグループ化手段、
    任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する関連キーワード出力手段、
    として機能させることを特徴とするコンテンツナビゲーションプログラム。
  2. 前記グループ化手段は、関連付けられた前記コンテンツが共通する前記キーワード同士をグループ化することを特徴とする請求項1記載のコンテンツナビゲーションプログラム。
  3. 前記グループ化手段は、2つの前記キーワードを比較したとき、共通して関連付けられている前記コンテンツの数が所定値以上の場合、2つの前記キーワードをグループ化することを特徴とする請求項2記載のコンテンツナビゲーションプログラム。
  4. 前記グループ化手段は、2つの前記キーワードを比較したとき、2つの前記キーワードの少なくとも一方に関連付けられている前記コンテンツの中で、共通して関連付けられている前記コンテンツの占める割合が所定値以上の場合、2つの前記キーワードをグループ化することを特徴とする請求項2記載のコンテンツナビゲーションプログラム。
  5. 前記格納手段は、さらに、前記キーワードを入力したユーザのユーザ識別情報を、前記キーワードに関連付けて前記記憶手段に格納し、
    前記グループ化手段は、関連付けられた前記ユーザ識別情報が共通する前記キーワード同士をグループ化することを特徴とする請求項1記載のコンテンツナビゲーションプログラム。
  6. 前記グループ化手段は、2つの前記キーワードを比較したとき、共通して関連付けられている前記ユーザ識別情報の数が所定値以上の場合、2つの前記キーワードをグループ化することを特徴とする請求項5記載のコンテンツナビゲーションプログラム。
  7. 前記グループ化手段は、2つの前記キーワードを比較したとき、2つの前記キーワードの少なくとも一方に関連付けられている前記ユーザ識別情報の中で、共通して関連付けられている前記ユーザ識別情報の占める割合が所定値以上の場合、2つの前記キーワードをグループ化することを特徴とする請求項5記載のコンテンツナビゲーションプログラム。
  8. 前記グループ化手段は、前記記憶手段に含まれる1つの前記キーワードを対象語とし、前記対象語に対して関連する他の前記キーワードを対応語とし、前記対象語と前記対応語とをグループ化し、更に前記対応語に対して関連する他の前記キーワードを同一グループに含めることを特徴とする請求項1記載のコンテンツナビゲーションプログラム。
  9. コンテンツの検索をコンピュータによって支援するためのコンテンツナビゲーション方法において、
    格納手段が、ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納し、
    グループ化手段が、前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化し、
    関連キーワード出力手段が、任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する、
    ことを特徴とするコンテンツナビゲーション方法。
  10. コンテンツの検索を支援するためのコンテンツナビゲーション装置において、
    ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納する格納手段と、
    前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化するグループ化手段と、
    任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する関連キーワード出力手段と、
    を有することを特徴とするコンテンツナビゲーション装置。
JP2004128925A 2004-04-23 2004-04-23 コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置 Expired - Fee Related JP4535765B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004128925A JP4535765B2 (ja) 2004-04-23 2004-04-23 コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004128925A JP4535765B2 (ja) 2004-04-23 2004-04-23 コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2010122744A Division JP5079845B2 (ja) 2010-05-28 2010-05-28 コンテンツナビゲーションプログラム

Publications (2)

Publication Number Publication Date
JP2005309998A true JP2005309998A (ja) 2005-11-04
JP4535765B2 JP4535765B2 (ja) 2010-09-01

Family

ID=35438670

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004128925A Expired - Fee Related JP4535765B2 (ja) 2004-04-23 2004-04-23 コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置

Country Status (1)

Country Link
JP (1) JP4535765B2 (ja)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007148948A (ja) * 2005-11-30 2007-06-14 Hitachi Ltd 文書検索プログラム
JP2007235508A (ja) * 2006-03-01 2007-09-13 Nikon Corp 画像撮影システム、撮像装置、および情報提供装置
JP2007256992A (ja) * 2006-03-20 2007-10-04 Nifty Corp コンテンツ特定方法及び装置
JP2008065442A (ja) * 2006-09-05 2008-03-21 Yafoo Japan Corp コミュニティへの関連情報提供システム
JP2008242623A (ja) * 2007-03-26 2008-10-09 Fujitsu Ltd 検索候補語句提示装置、検索候補語句提示プログラムおよび検索候補語句提示方法
JP2008242622A (ja) * 2007-03-26 2008-10-09 Fujitsu Ltd 検索候補語句提示装置、検索候補語句提示プログラムおよび検索候補語句提示方法
WO2008129606A1 (ja) * 2007-04-06 2008-10-30 Fujitsu Limited 通信システム、通信装置及びコンピュータプログラム
JP2008293134A (ja) * 2007-05-22 2008-12-04 Fujitsu Ltd ディレクトリ階層生成プログラム、ディレクトリ階層生成装置およびディレクトリ階層生成方法
WO2008157027A1 (en) * 2007-06-15 2008-12-24 Microsoft Corporation Learning and reasoning from web projections
JP2009110393A (ja) * 2007-10-31 2009-05-21 Toshiba Corp データ処理装置
JP2009116422A (ja) * 2007-11-02 2009-05-28 Yahoo Japan Corp クエリ抽出方法、クエリ抽出装置およびクエリ抽出プログラム
JP2009169541A (ja) * 2008-01-11 2009-07-30 Yahoo Japan Corp Webページ検索サーバ及びクエリ推薦方法
JP2009252070A (ja) * 2008-04-09 2009-10-29 Yahoo Japan Corp 検索クエリに関するスコアを算出する方法
JP2009288999A (ja) * 2008-05-29 2009-12-10 Fujitsu Ltd まとめ上げ作業支援処理方法、装置及びプログラム
JP2010009254A (ja) * 2008-06-25 2010-01-14 Yahoo Japan Corp 素性語選別装置、方法及びプログラム
JP2011014032A (ja) * 2009-07-03 2011-01-20 Fujitsu Ltd 携帯端末装置、情報検索方法および情報検索プログラム
JP2011138248A (ja) * 2009-12-28 2011-07-14 Fujitsu Ltd 検索支援プログラム、検索支援装置、及び検索支援方法
JP2011186972A (ja) * 2010-03-11 2011-09-22 Nec Corp 関連語辞書作成装置、関連語辞書作成方法、プログラム、及び、文書検索システム
JP2012512465A (ja) * 2008-12-12 2012-05-31 アティジオ リミテッド ライアビリティ カンパニー 関心領域についての判定情報を使用した勧告の提供
JP2012108795A (ja) * 2010-11-18 2012-06-07 Ntt Docomo Inc 同義語判定装置、同義語判定方法およびプログラム
WO2016088212A1 (ja) * 2014-12-03 2016-06-09 株式会社日立製作所 データ収集装置、及びデータ収集方法
JP2017097534A (ja) * 2015-11-20 2017-06-01 株式会社オウケイウェイヴ クライアントシステム及びサーバ
JP2020046942A (ja) * 2018-09-19 2020-03-26 Zホールディングス株式会社 情報処理装置、情報処理方法、およびプログラム
JP2021182308A (ja) * 2020-05-20 2021-11-25 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP2021182307A (ja) * 2020-05-20 2021-11-25 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
WO2023106607A1 (ko) * 2021-12-07 2023-06-15 삼성전자 주식회사 콘텐트를 검색하는 전자 장치 및 그 방법
JP7492488B2 (ja) 2021-05-19 2024-05-29 Lineヤフー株式会社 提供装置、提供方法及び提供プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001092032A (ja) * 1999-09-21 2001-04-06 Noritsu Koki Co Ltd 写真処理装置
JP2002092032A (ja) * 2000-09-12 2002-03-29 Nippon Telegr & Teleph Corp <Ntt> 次検索候補単語提示方法および装置と次検索候補単語提示プログラムを記録した記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001092032A (ja) * 1999-09-21 2001-04-06 Noritsu Koki Co Ltd 写真処理装置
JP2002092032A (ja) * 2000-09-12 2002-03-29 Nippon Telegr & Teleph Corp <Ntt> 次検索候補単語提示方法および装置と次検索候補単語提示プログラムを記録した記録媒体

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007148948A (ja) * 2005-11-30 2007-06-14 Hitachi Ltd 文書検索プログラム
JP2007235508A (ja) * 2006-03-01 2007-09-13 Nikon Corp 画像撮影システム、撮像装置、および情報提供装置
JP2007256992A (ja) * 2006-03-20 2007-10-04 Nifty Corp コンテンツ特定方法及び装置
JP2008065442A (ja) * 2006-09-05 2008-03-21 Yafoo Japan Corp コミュニティへの関連情報提供システム
JP2008242623A (ja) * 2007-03-26 2008-10-09 Fujitsu Ltd 検索候補語句提示装置、検索候補語句提示プログラムおよび検索候補語句提示方法
JP2008242622A (ja) * 2007-03-26 2008-10-09 Fujitsu Ltd 検索候補語句提示装置、検索候補語句提示プログラムおよび検索候補語句提示方法
WO2008129606A1 (ja) * 2007-04-06 2008-10-30 Fujitsu Limited 通信システム、通信装置及びコンピュータプログラム
JP5012893B2 (ja) * 2007-04-06 2012-08-29 富士通株式会社 通信システム、通信装置及びコンピュータプログラム
JP2008293134A (ja) * 2007-05-22 2008-12-04 Fujitsu Ltd ディレクトリ階層生成プログラム、ディレクトリ階層生成装置およびディレクトリ階層生成方法
US7970721B2 (en) 2007-06-15 2011-06-28 Microsoft Corporation Learning and reasoning from web projections
WO2008157027A1 (en) * 2007-06-15 2008-12-24 Microsoft Corporation Learning and reasoning from web projections
JP2009110393A (ja) * 2007-10-31 2009-05-21 Toshiba Corp データ処理装置
JP2009116422A (ja) * 2007-11-02 2009-05-28 Yahoo Japan Corp クエリ抽出方法、クエリ抽出装置およびクエリ抽出プログラム
JP2009169541A (ja) * 2008-01-11 2009-07-30 Yahoo Japan Corp Webページ検索サーバ及びクエリ推薦方法
JP2009252070A (ja) * 2008-04-09 2009-10-29 Yahoo Japan Corp 検索クエリに関するスコアを算出する方法
JP2009288999A (ja) * 2008-05-29 2009-12-10 Fujitsu Ltd まとめ上げ作業支援処理方法、装置及びプログラム
JP2010009254A (ja) * 2008-06-25 2010-01-14 Yahoo Japan Corp 素性語選別装置、方法及びプログラム
JP2012512465A (ja) * 2008-12-12 2012-05-31 アティジオ リミテッド ライアビリティ カンパニー 関心領域についての判定情報を使用した勧告の提供
JP2011014032A (ja) * 2009-07-03 2011-01-20 Fujitsu Ltd 携帯端末装置、情報検索方法および情報検索プログラム
JP2011138248A (ja) * 2009-12-28 2011-07-14 Fujitsu Ltd 検索支援プログラム、検索支援装置、及び検索支援方法
JP2011186972A (ja) * 2010-03-11 2011-09-22 Nec Corp 関連語辞書作成装置、関連語辞書作成方法、プログラム、及び、文書検索システム
JP2012108795A (ja) * 2010-11-18 2012-06-07 Ntt Docomo Inc 同義語判定装置、同義語判定方法およびプログラム
WO2016088212A1 (ja) * 2014-12-03 2016-06-09 株式会社日立製作所 データ収集装置、及びデータ収集方法
JPWO2016088212A1 (ja) * 2014-12-03 2017-06-15 株式会社日立製作所 データ収集装置、及びデータ収集方法
JP2017097534A (ja) * 2015-11-20 2017-06-01 株式会社オウケイウェイヴ クライアントシステム及びサーバ
JP2020046942A (ja) * 2018-09-19 2020-03-26 Zホールディングス株式会社 情報処理装置、情報処理方法、およびプログラム
JP7088795B2 (ja) 2018-09-19 2022-06-21 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2021182308A (ja) * 2020-05-20 2021-11-25 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP2021182307A (ja) * 2020-05-20 2021-11-25 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP7008102B2 (ja) 2020-05-20 2022-01-25 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP7492488B2 (ja) 2021-05-19 2024-05-29 Lineヤフー株式会社 提供装置、提供方法及び提供プログラム
WO2023106607A1 (ko) * 2021-12-07 2023-06-15 삼성전자 주식회사 콘텐트를 검색하는 전자 장치 및 그 방법

Also Published As

Publication number Publication date
JP4535765B2 (ja) 2010-09-01

Similar Documents

Publication Publication Date Title
JP4535765B2 (ja) コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置
JP5079845B2 (ja) コンテンツナビゲーションプログラム
US11188604B2 (en) Auto-refinement of search results based on monitored search activities of users
US6983320B1 (en) System, method and computer program product for analyzing e-commerce competition of an entity by utilizing predetermined entity-specific metrics and analyzed statistics from web pages
Koshman et al. Web searching on the Vivisimo search engine
US7013323B1 (en) System and method for developing and interpreting e-commerce metrics by utilizing a list of rules wherein each rule contain at least one of entity-specific criteria
US20070067304A1 (en) Search using changes in prevalence of content items on the web
US8250474B2 (en) Chronology display and feature for online presentations and web pages
US20100131455A1 (en) Cross-website management information system
Shahzad et al. The new trend for search engine optimization, tools and techniques
US20080222097A1 (en) Apparatus, system, and method for an inline display of related blog postings
KR20070038146A (ko) 검색 결과에서 배치 내용 정렬의 개인화
EP1938214A1 (en) Search using changes in prevalence of content items on the web
US20160103913A1 (en) Method and system for calculating a degree of linkage for webpages
EP2933734A1 (en) Method and system for the structural analysis of websites
JP2010140200A (ja) クリックログを用いた検索結果分類装置及び方法
US8131752B2 (en) Breaking documents
JP6275685B2 (ja) Webページ作成処理プログラムおよび電子機器
Otsuka et al. Clustering of search engine keywords using access logs
Wetzker Graph-based recommendation in broad folksonomies
Bouras et al. Α Web Clipping Service’s Information Extraction Mechanism
Patil et al. Deep Web Data Extraction Using Visual Features
Fancy et al. A Review on Basics in Web Mining
JP2008165313A (ja) ホームページ作成システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100330

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100615

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100615

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130625

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130625

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees