JP2005309998A

JP2005309998A - コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置

Info

Publication number: JP2005309998A
Application number: JP2004128925A
Authority: JP
Inventors: Kanji Uchino; 寛治内野; Toshikatsu Kamanaka; 敏勝鎌仲; Hideji Hashimoto; 秀治橋本; Yuichi Tada; 裕一多田; Tomoya Narita; 智也成田
Original assignee: Fujitsu Ltd; Nifty Corp
Current assignee: Fujitsu Ltd; Nifty Corp
Priority date: 2004-04-23
Filing date: 2004-04-23
Publication date: 2005-11-04
Anticipated expiration: 2024-04-23
Also published as: JP4535765B2

Abstract

【課題】現在多くのユーザが関心を寄せている情報の検索を容易に行うことができるようにする。
【解決手段】ユーザがキーワード６ａに基づいた検索を行い検索結果６ｂの中から任意のコンテンツ７ｂを選択する度に、格納手段１ａにより、検索用のキーワード６ａと選択されたコンテンツ７ｂとが、関連付けて記憶手段１ｂに格納される。その後、グループ化手段１ｃにより、キーワードと選択されたコンテンツとの対応関係に基づいて、記憶手段１ｂに格納されたキーワード間の関連性が判定され、関連する複数のキーワードがグループ化される。そして、任意の代表キーワード８ａが選択されると、関連キーワード出力手段１ｄにより、選択された代表キーワード８ａと同じグループに属する他の関連キーワード８ｂが出力される。
【選択図】図１

Description

本発明は情報探索を支援するためのコンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置に関し、特にユーザが選択したキーワードに関連するキーワードを提示することができるコンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置に関する。

ＦＴＴＨ（Fiber To The Home）、ＡＤＳＬ（Asymmetric Digital Subscriber Line）などの高帯域ネットワーク環境の整備によって、インターネットが人々の生活に欠かせないインフラとなっている。そんな中、インターネット上の大量のコンテンツの中から情報を探し出す技術は必須となっており、そのような機能をユーザに提供するサービスプロバイダも数多く存在する。

情報の検索機能は、多くのポータルサイトで提供されている。たとえば、情報を階層構造に分類してユーザによる情報探索を支援するサービス（ディレクトリ検索）や、入力されたキーワードに応じた情報をリストアップするサービス（キーワード検索）がある。これらのサービスは、多くのユーザに利用されている。

なお、インターネット上の情報量は膨大である。そのため、キーワード検索では、入力されたキーワードに合致する情報の数も大量となってしまう場合がある。そこで、情報間の引用関係に基づいて各情報のランキングを行い、ランクの上位の情報から優先的にリストアップする技術が提案されている（たとえば、特許文献１参照）。

また、キーワード検索を行う際には、適当なキーワードを入力することが重要となる。そこで、同様の意味を有する複数のキーワードで予め同義語辞書を作成しておけば、ユーザが入力したキーワードを同義語で補完して、漏れのない検索を行うことができる。そこで、単語同士の関連度を定義した同義語辞書を自動作成する技術も考えられている（たとえば、特許文献２参照）。
米国特許６，５２６，４４０号特開平１１−３１２１６８号公報

現在、テレビや新聞にならぶ情報発信メディアとしてのインターネットの価値が高まる中、個人のＷｅｂページ、ＢＬＯＧ（ウェブログ）や掲示板を経て話題やトレンドが形成される例も少なくない。電子商取引を行うＷｅｂサイトの運用者などはネット上のユーザの注目や興味をいち早く捕らえマーケティングに活かすことが重要である。

しかし、日々公開される新たなコンテンツの内容を検索結果に反映させるための効率的な方法がないという問題がある。たとえば、ディレクトリ検索では人手によって情報の分類を行うため、膨大なコンテンツに対するディレクトリのメンテナンスが追いつかない。

また、キーワード検索では、求める情報に対する適当な検索キーワードを入力しないと最適な結果が得られない。たとえば、最新技術が開発されたとき、その技術に対して新たな名称が付けられる。その最新技術に関するコンテンツをインターネットから検索するとき、その最新技術に付けられた名称をユーザがキーワードとして入力しないと、目的の情報が膨大な量の無関係の情報に埋もれてしまう可能性がある。

なお、上記特許文献１では、情報間の引用関係で各情報のランキングを行い、有用な情報が優先的に提示されるようにしている。しかしながら、公開されて間もないコンテンツは、そのコンテンツが重要なものであっても、他のコンテンツからの引用が少ないことが予想される。この場合、そのコンテンツがキーワード検索に合致しても、優先順位が低くなり、ユーザが見落とす可能性が高くなる。

また、上記特許文献２では、ユーザが入力した単語のみを用いて単語同士の関連度を定義しているため、検索結果として得られる情報が有効に利用されていない。
本発明はこのような点に鑑みてなされたものであり、現在多くのユーザが関心を寄せている情報の検索を容易に行うことができるコンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置を提供することを目的とする。

本発明では上記課題を解決するために、図１に示すようなコンテンツの検索を支援するためのコンテンツナビゲーションプログラムが提供される。本発明に係るコンテンツナビゲーションプログラムをコンピュータに実行させると、コンピュータが以下の機能を実現する。

格納手段１ａは、ユーザがキーワード６ａに基づいた検索を行い検索結果６ｂの中から任意のコンテンツ７ｂを選択する度に、検索用のキーワード６ａと選択されたコンテンツ７ｂの識別情報とを関連付けて記憶手段１ｂに格納する。グループ化手段１ｃは、キーワード６ａと選択されたコンテンツ７ｂとの対応関係に基づいて、記憶手段１ｂに格納されたキーワード間の関連性を判定し、関連する複数のキーワードをグループ化する。関連キーワード出力手段１ｄは、任意の代表キーワード８ａが選択された際に、選択された代表キーワードと同じグループに属する他のキーワードを出力する。

このようなコンテンツナビゲーションプログラムを実行するコンピュータによれば、ユーザがキーワード６ａに基づいた検索を行い検索結果６ｂの中から任意のコンテンツ７ｂを選択する度に、格納手段１ａにより、検索用のキーワード６ａと選択されたコンテンツ７ｂとが、関連付けて記憶手段１ｂに格納される。その後、グループ化手段１ｃにより、キーワードと選択されたコンテンツとの対応関係に基づいて、記憶手段１ｂに格納されたキーワード間の関連性が判定され、関連する複数のキーワードがグループ化される。そして、任意の代表キーワード８ａが選択されると、関連キーワード出力手段１ｄにより、選択された代表キーワードと同じグループに属する他のキーワードが出力される。

また、上記課題を解決するために、コンテンツの検索をコンピュータによって支援するためのコンテンツナビゲーション方法において、格納手段が、ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納し、グループ化手段が、前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化し、関連キーワード出力手段が、任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する、ことを特徴とするコンテンツナビゲーション方法が提供される。

このようなコンテンツナビゲーション方法によれば、ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、格納手段により、検索用のキーワードと選択されたコンテンツとが、関連付けて記憶手段に格納される。その後、グループ化手段により、キーワードと選択されたコンテンツとの対応関係に基づいて、記憶手段に格納されたキーワード間の関連性が判定され、関連する複数のキーワードがグループ化される。そして、任意の代表キーワードが選択されると、関連キーワード出力手段により、選択された代表キーワードと同じグループに属する他のキーワードが出力される。

また、上記課題を解決するために、コンテンツの検索を支援するためのコンテンツナビゲーション装置において、ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納する格納手段と、前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化するグループ化手段と、任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する関連キーワード出力手段と、を有することを特徴とするコンテンツナビゲーション装置が提供される。

このようなコンテンツナビゲーション装置によれば、ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、格納手段により、検索用のキーワードと選択されたコンテンツとが、関連付けて記憶手段に格納される。その後、グループ化手段により、キーワードと選択されたコンテンツとの対応関係に基づいて、記憶手段に格納されたキーワード間の関連性が判定され、関連する複数のキーワードがグループ化される。そして、任意の代表キーワードが選択されると、関連キーワード出力手段により、選択された代表キーワードと同じグループに属する他のキーワードが出力される。

以上説明したように本発明では、キーワードと、そのキーワードによる検索結果からユーザが選択したコンテンツとの関係に基づいてキーワードのグループ化を行うようにした。これにより、現在多くのユーザが関心を寄せているコンテンツに関連するキーワード同士がグループ化される。そして、選択された代表キーワードと同じグループの他のキーワードを出力することで、ユーザに対して、関心の対象が類似する他のユーザが入力したキーワードを提示することができる。

以下、本発明の実施の形態を図面を参照して説明する。
まず、実施の形態に適用される発明の概要について説明し、その後、実施の形態の具体的な内容を説明する。

図１は、実施の形態に適用される発明の概念図である。本発明に係るコンテンツナビゲーション装置１は、キーワード検索を行うユーザが使用するクライアント２、検索サーバ３、コンテンツサーバ４、およびコンテンツナビゲーションのサービスを利用するユーザが使用するクライアント５に接続されている。コンテンツナビゲーション装置１は、格納手段１ａ、記憶手段１ｂ、グループ化手段１ｃ、及び関連キーワード出力手段１ｄを有している。

格納手段１ａは、ユーザがキーワード６ａに基づいた検索を行い検索結果６ｂの中から任意のコンテンツ７ｂを選択する度に、検索用のキーワード６ａと選択されたコンテンツ７ｂとを関連付けて記憶手段１ｂに格納する。具体的には、クライアント２からキーワード６ａが出力されると、検索サーバ３によりキーワード６ａに基づく検索が行われる。そして、検索結果６ｂがクライアント２に返される。クライアント２を使用するユーザが、検索結果６ｂの中から任意のコンテンツを選択すると、コンテンツ取得要求７ａがコンテンツサーバ４に対して出力される。コンテンツサーバ４は、コンテンツ取得要求７ａに応じたコンテンツ７ｂをクライアント２に返す。このとき、格納手段１ａは、キーワード６ａとコンテンツ取得要求７ａで示されるコンテンツ７ｂの識別情報を採取し、それらを関連付けた記憶手段１ｂに格納する。

グループ化手段１ｃは、キーワードと選択されたコンテンツとの対応関係に基づいて、記憶手段１ｂに格納されたキーワード間の関連性を判定し、関連する複数のキーワードをグループ化する。たとえば、グループ化手段１ｃは、関連付けられたコンテンツが共通するキーワード同士をグループ化する。具体的には、グループ化手段１ｃは、２つのキーワードを比較したとき、共通して関連付けられているコンテンツの数が所定値以上の場合、２つのキーワードをグループ化することができる。さらに、グループ化手段１ｃは、２つのキーワードを比較したとき、２つのキーワードの少なくとも一方に関連付けられているコンテンツの中で、共通して関連付けられているコンテンツの占める割合が所定値以上の場合に、２つのキーワードをグループ化するようにすることもできる。

関連キーワード出力手段１ｄは、クライアント５からの代表キーワードの入力を受け付ける。そして、関連キーワード出力手段１ｄは、任意の代表キーワードが選択された際に、選択された代表キーワードと同じグループに属する他のキーワードを、クライアント５に対して出力する。

このようなコンテンツナビゲーション装置によれば、ユーザがキーワード６ａに基づいた検索を行い検索結果６ｂの中から任意のコンテンツ７ｂを選択する度に、格納手段１ａにより、検索用のキーワード６ａと選択されたコンテンツ７ｂとが、関連付けて記憶手段１ｂに格納される。その後、グループ化手段１ｃにより、キーワードと選択されたコンテンツとの対応関係に基づいて、記憶手段１ｂに格納されたキーワード間の関連性が判定され、関連する複数のキーワードがグループ化される。そして、任意の代表キーワード８ａが選択されると、関連キーワード出力手段１ｄにより、選択された代表キーワード８ａと同じグループに属する他の関連キーワード８ｂが出力される。

このように、キーワードと、そのキーワードによる検索結果からユーザが選択したコンテンツとの関係に基づいてキーワードのグループ化を行うようにしたことにより、現在多くのユーザが関心を寄せているコンテンツに関連するキーワード同士をグループ化することができる。その結果、選択された代表キーワードと同じグループの他のキーワードを出力することで、ユーザに対して、関心の対象が類似する他のユーザが入力したキーワードを提示することができる。

図１に示すような本発明の技術は、インターネットやイントラネットなど、様々なネットワークのコンテンツナビゲーションに利用することができる。特に、膨大なコンテンツが公開されているインターネットに適用することで、インターネットの利便性を向上させることができる。

なお、グループ化の判断要素として、ユーザの識別情報を利用することもできる。その場合、格納手段１ａは、コンテンツの識別情報に加え、キーワードを入力したユーザのユーザ識別情報を、キーワードに関連付けて記憶手段１ｂに格納する。そしてグループ化手段１ｃは、関連付けられたユーザ識別情報が共通するキーワード同士をグループ化する。具体的には、グループ化手段１ｃは、２つのキーワードを比較したとき、共通して関連付けられているユーザ識別情報の数が所定値以上の場合に、２つのキーワードをグループ化する。また、グループ化手段１ｃは、２つのキーワードを比較したとき、２つのキーワードの少なくとも一方に関連付けられているユーザ識別情報の中で、共通して関連付けられているユーザ識別情報の占める割合が所定値以上の場合に、２つのキーワードをグループ化することもできる。このようにユーザの識別情報を用いてグループ化することで、興味の対象が同じユーザによって入力されるキーワードをグループ化することができる。

さらに、グループ化を繰り返すことで、グループ化の範囲を拡大することができる。具体的には、グループ化手段１ｃは、記憶手段１ｂに含まれる１つのキーワードを対象語とし、対象語に対して関連する他のキーワードを対応語とし、対象語と対応語とをグループ化する。さらに、グループ化手段１ｃは、対応語に対して関連する他のキーワードを同一グループに含める。

また、コンテンツナビゲーション装置１に対して、ユーザから不要として選択されたキーワードを不要語として不要語記憶手段に格納する不要語格納手段を追加し、関連キーワード出力手段１ｄが、不要語記憶手段に記憶された不要語を除くキーワードを出力するようにしてもよい。具体的には、不要語格納手段は、キーワードと選択されたコンテンツとの対応関係に基づいて、ユーザに選択された不要語と他のキーワードとの間の関連性を判定し、不要語に関連する他のキーワード（同じコンテンツに関連付けられている）を新たな不要語として不要語記憶手段に格納する。このように不要語を登録しておくことにより、不必要な関連キーワード（他の関連キーワードとほぼ同じコンテンツにしか関連付けられていない関連キーワード）の出力を防止できる。

また、グループ化した複数のキーワードそれぞれに関連付けられたコンテンツを、１つのキーワードへの関連づけとして纏めることもできる（縮退処理）。具体的には、グループ化手段１ｃは、記憶手段１ｂに含まれる１つのキーワードを対象語とし、対象語に対して関連する他のキーワードを対応語とする。そして、グループ化手段１ｃは、対応語それぞれに関連付けられたコンテンツを対象語に関連付けて記憶手段１ｂに登録すると共に記憶手段１ｂから対応語を削除する。このように縮退処理を行った後、グループ化手段１ｃは、記憶手段１ｂに格納されたキーワード間の関連性を判定し、関連する複数のキーワードをグループ化する。すなわち、縮退処理とグループ化を交互に行う。これにより、グループ化を繰り返して行い、グループ化される範囲を拡張した場合であっても、関連キーワードとして大量のキーワードが一度に出力されるのを防止できる。

また、既に生成された複数のグループを木構造に纏めることもできる。具体的には、グループ化手段１ｃは、グループ化により生成された２つのグループが共通のキーワードを含む場合に、共通のキーワードを介して、一方のグループの配下に他方のグループを木構造に接続した新たなグループを生成する。

さらに、キーワードによる検索時のヒット件数や、そのキーワードを入力したユーザ数の推移の同一性によってキーワードをグループ化することもできる。具体的には、格納手段１ａは、キーワードによる検索のヒット件数やキーワードを入力したユーザのユーザ識別情報を、キーワードに関連付けて記憶手段１ｂに格納するようにする。そして、グループ化手段１ｃは、ヒット件数の時間的な推移が類似する複数のキーワードをグループ化する。または、グループ化手段１ｃは、入力したユーザ数の時間的な推移が類似する複数のキーワードをグループ化する。このように、時間的な推移を勘案してグループ化することにより、注目度が上がっている情報を、ユーザに提供することができる。

ところで、本発明によるコンテンツナビゲーションをインターネット上で利用すれば、インターネット上の日々更新される膨大な量の情報を有効に利用することができる。本発明をインターネットに適用する場合、たとえば、ユーザがインターネットにアクセスするときの最初の入り口（ポータルサイトサーバ）に上記機能を構築する。このポータルサイトサーバが、ユーザの検索行動パターンをマイニングする。そして、ポータルサイトサーバにおいて、検索キーワードをベースにしたコンテンツナビゲーションを行う。

以下、本発明をインターネット上のポータルサイトに適用した場合を例に採り、本発明の実施の形態を具体的に説明する。なお、以下の実施の形態では、キーワードをグループ化することをクラスタ化、生成される各グループをクラスタと呼ぶこととする。

図２は、本発明の実施の形態を実現するためのシステム構成例を示す図である。図２に示すように、インターネット１０を介して、ポータルサイトサーバ１００、複数のクライアント２１１，２１２，・・・、検索サーバ２２０、複数のＷｅｂサーバ２３１，２３２，・・・が接続されている。

ポータルサイトサーバ１００には、Ｗｅｂ検索の履歴を保持し、その検索履歴に基づいて、クライアント２１１，２１２，・・・に対してコンテンツナビゲーションサービスを提供する。

検索サーバ２２０は、クライアント２１１，２１２，・・・からの検索要求をポータルサイトサーバ１００経由で受け取り、Ｗｅｂページの検索結果を返す。Ｗｅｂサーバ２３１，２３２，・・・は、インターネット１０を介してＷｅｂページ等の様々なコンテンツを提供する。

図３は、本発明の実施の形態に用いるポータルサイトサーバのハードウェア構成例を示す図である。ポータルサイトサーバ１００は、ＣＰＵ(Central Processing Unit)１０１によって装置全体が制御されている。ＣＰＵ１０１には、バス１０７を介してＲＡＭ(Random Access Memory)１０２、ハードディスクドライブ(ＨＤＤ:Hard Disk Drive)１０３、グラフィック処理装置１０４、入力インタフェース１０５、および通信インタフェース１０６が接続されている。

ＲＡＭ１０２には、ＣＰＵ１０１に実行させるＯＳ(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、ＲＡＭ１０２には、ＣＰＵ１０１による処理に必要な各種データが格納される。ＨＤＤ１０３には、ＯＳやアプリケーションプログラムが格納される。

グラフィック処理装置１０４には、モニタ１１が接続されている。グラフィック処理装置１０４は、ＣＰＵ１０１からの命令に従って、画像をモニタ１１の画面に表示させる。入力インタフェース１０５には、キーボード１２とマウス１３とが接続されている。入力インタフェース１０５は、キーボード１２やマウス１３から送られてくる信号を、バス１０７を介してＣＰＵ１０１に送信する。

通信インタフェース１０６は、インターネット１０に接続されている。通信インタフェース１０６は、インターネット１０を介して、他のコンピュータとの間でデータの送受信を行う。

以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。なお、図３には、ポータルサイトサーバ１００のハードウェア構成例を示したが、クライアント２１１，２１２，・・・、検索サーバ２２０、Ｗｅｂサーバ２３１，２３２，・・・も同様のハードウェア構成で実現することができる。

本発明に係る機能は、ポータルサイトサーバ１００によって提供される。すなわち、ポータルサイトサーバ１００は、検索サイトで記録している検索履歴（検索キーワード、ユーザ識別ＩＤ、検索結果の飛び先のＵＲＬ）を利用して、キーワードベースの２種類のクラスタを作成する。そして、ポータルサイトサーバ１００は、作成したクラスタからユーザの興味に従ってナビゲートを行うネットワークを構築する。以下に、ポータルサイトサーバ１００の処理機能について詳細に説明する。

図４は、ポータルサイトサーバの処理機能を示すブロック図である。ポータルサイトサーバ１００には、データベースとして、ＷｅｂページＤＢ１１１、検索履歴ＤＢ１１２、基本ＤＢ１１３、不要語ＤＢ１１４、クラスタＤＢ１１５が設けられている。ＷｅｂページＤＢ１１１には、ポータルサイトとして提供するＷｅｂページデータが格納されている。検索履歴ＤＢ１１２には、ポータルサイトサーバ１００を介して実行されたＷｅｂ検索に関する検索履歴が格納される。基本ＤＢ１１３には、検索履歴の内容を解析した結果得られる情報間の関連づけを示す情報が格納される。不要語ＤＢ１１４には、コンテンツナビゲーションにおいて、ユーザに対して提示する必要のない用語（不要語）に関する情報が格納される。クラスタＤＢ１１５には、検索履歴に基づいてキーワード間の関連性の度合い等を示す情報が格納される。

ポータルサイトサーバ１００には、処理機能として、ポータルサイトコンテンツ提供部１２０、検索履歴記録部１３０、キーワードクラスタ作成部１４０、不要語ＤＢ作成部１５０、及びナビゲーション部１６０が設けられている。ポータルサイトコンテンツ提供部１２０は、クライアント２１１，２１２，・・・に対してＷｅｂページＤＢ１１１に格納されたＷｅｂページデータを提供する。検索履歴記録部１３０は、クライアント２１１，２１２，・・・が検索サーバ２２０を利用して行うＷｅｂ検索の履歴を、検索履歴ＤＢ１１２に記録する。キーワードクラスタ作成部１４０は、検索履歴ＤＢ１１２に基づいて、基本ＤＢ１１３及びクラスタＤＢ１１５を構築する。不要語ＤＢ作成部１５０は、管理者に不要語として指定された用語を、不要語ＤＢ１１４に登録する。ナビゲーション部１６０は、クライアント２１１，２１２，・・・からの要求に応じて、指定されたキーワードに関連するキーワードをクラスタＤＢ１１５から抽出し、クライアント２１１，２１２，・・・に対して送信する。

まず、ポータルサイトサーバ１００における検索履歴の蓄積処理について説明する。
図５は、検索履歴蓄積処理を示す図である。図５の例では、クライアント２１１を使用するユーザがコンテンツの検索を行い、検索結果からＷｅｂサーバ２３１のコンテンツを選択して閲覧するまでの流れを示している。

クライアント２１１は、ユーザからの操作入力に応答して、検索ページ取得要求２１をポータルサイトサーバ１００に対して送信する。ポータルサイトサーバ１００のポータルサイトコンテンツ提供部１２０は、検索ページ取得要求２１に応答して検索ページデータ２２をクライアント２１１に対して送信する。検索ページデータ２２は、たとえば、ＨＴＭＬ（HyperText Markup Language）で記述された構造化文書である。

クライアント２１１では、検索ページ２３がモニタに表示される。検索ページ２３には、検索キーワード入力部２３ａと検索ボタン２３ｂとが表示されている。なお、図では省略しているが、検索ページ２３にはその他の各種情報（ニュース等）も表示されている。

ユーザは、検索キーワード入力部２３ａに対して１以上のキーワードを入力し、検索ボタン２３ｂを押下する。すると、クライアント２１１は、検索キーワードを含む検索要求をポータルサイトサーバ１００に対して送信する。

ポータルサイトサーバ１００の検索履歴記録部１３０は、検索要求２４を検索サーバ２２０に転送する。検索サーバ２２０は、受け取った検索要求２４に従ってインターネット１０上のコンテンツを検索する。そして、検索サーバ２２０は、検索結果２５をポータルサイトサーバ１００に対して送信する。

ポータルサイトサーバ１００の検索履歴記録部１３０は、検索結果２５をクライアント２１１に転送する。この際、検索履歴記録部１３０は、検索結果２５をＷｅｂページデータに加工する。生成されるＷｅｂページデータには、検索結果中のＵＲＬをユーザが選択したとき、そのＵＲＬへのアクセスがポータルサイトサーバ１００を経由して実行されるように、制御情報が埋め込まれている。また、検索履歴記録部１３０は、検索結果２５内の所定の情報（検索キーワードやヒット件数等）を、クライアント２１１を一意に識別するための情報（たとえばクッキー）に関連付けて検索履歴ＤＢ１１２に格納する。

クライアント２１１は検索結果２５を受け取ると、検索結果リスト２６をモニタに表示する。検索結果リスト２６には、検索キーワードに合致するコンテンツの識別情報２８ａ，２８ｂ，・・・（たとえば、タイトルやＵＲＬ（Uniform Resource Locator））等が含まれる。ここで、ユーザが、Ｗｅｂサーバ２３１で公開されているコンテンツの識別情報を選択すると、クライアント２１１から対応するＵＲＬを指定したＷｅｂページ取得要求２７が出力される。

ポータルサイトサーバ１００の検索履歴記録部１３０は、Ｗｅｂページ取得要求２７をＷｅｂサーバ２３１に転送すると共に、アクセスされたＷｅｂページのＵＲＬの情報を検索履歴ＤＢ１１２に格納する。

Ｗｅｂページ取得要求２７を受け取ったＷｅｂサーバ２３１は、該当するＷｅｂページデータ２８をクライアント２１１に対して送信する。クライアント２１１では、Ｗｅｂページ２９が表示される。

図６は、検索履歴ＤＢのデータ構造例を示す図である。検索履歴ＤＢ１１２には、ポータルサイトサーバ１００を介したＷｅｂ検索が行われた際の検索履歴１１２ａ，１１２ｂ，１１２ｃ，・・・が格納されている。

各検索履歴１１２ａ，１１２ｂ，１１２ｃ，・・・には、検索日時、検索を行ったセッションのＩＤ、検索キーワード、ヒット件数、検索結果の取得範囲（何番目から何個のページ情報を取得したか）、ユーザＩＤ（ユーザの識別情報）、検索結果のトップに現れるＵＲＬ、検索結果の中でユーザに選択されたＵＲＬ（飛び先）、検索種別、検索されたページのタイトルなどの情報が含まれる。

たとえば、検索履歴１１２ａでは、検索日時“2003/12/12:00:00:34”、セッションＩＤ“1111111111111111111111111111”、検索キーワード“ロシア民謡トロイカ”、ヒット件数“hn=478”、検索結果の取得範囲“ri=10:21”（２１番目のコンテンツから１０件分）、トップのＵＲＬ“GU=""”、クッキー“ck=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx”、選択されたＵＲＬ“http://www.xxx.ne.jp/”、検索種別“b=NORMAL”選択されたページのタイトル“t="トロイカ"”が設定されている。

なお、検索履歴１１２ａでは、検索結果の内トップのページ情報を取得していないため、トップのＵＲＬは空欄となっている。検索履歴１１２では、トップのページ情報を取得しているため、トップのＵＲＬ“GU="http://www.yyy.co.jp/”が登録されている。

このような履歴が日々大量（１００万件／日以上）に蓄積される環境（ＩＳＰなど）において、意味のあるキーワードクラスタを作成（所謂キーワードマイニング）が、本件のポイントである。キーワードクラスタ作成処理は、定期的（たとえば、１日１回所定の時刻）に実行される。

以下、検索履歴からのキーワードクラスタの作成処理について詳細に説明する。キーワードクラスタは、キーワードを所定の観点によってグループ分けしたものである。本実施の形態では、以下の２種類のオペレーションによって異なるレベル（観点）のクラスタが作成される。

レベル１は、検索結果から選択されたコンテンツが共通するキーワード同士をクラスタ化するものである。このレベル１のクラスタに含まれるキーワード同士は概して、表記のゆれや異表記の関係のものが多い。たとえば、「パーソナルコンピュータ」、「パーソナル・コンピュータ」、「パソコン」、「ＰＣ」などがレベル１のクラスタを構成する。レベル１のクラスタは、ユーザが検索結果で選択したＵＲＬの一致度を利用して作成することができる。

図７は、レベル１のクラスタ化を示す図である。図７には、検索キーワードとそのキーワードで検索した結果ユーザが選択したＵＲＬの関係を表している。たとえば、「Kwd1」で検索したユーザが、検索結果の中から「URL1」、「URL2」、「URL3」を選択したことを表している。このとき、選択されるＵＲＬの共通性（重なり度合）が高いキーワード同士は、そのキーワードの内容が同一または類似しているものと想定できる。そこで、選択されるＵＲＬの共通性が高いキーワードをクラスタ化し、レベル１のクラスタとする。

具体的には、検索キーワードとＵＲＬとのペアを考えたとき、選択ＵＲＬの重なり度合をdupとして以下のように定義する。
dup（Kwd1,Kwd2）＝（Kwd1とKwd2の重なりURL数）／（Kwd1とKwd2とのURLの合計）
検索ログに含まれる全てのキーワードについて、上記の重なり度合(dup)や単純な重なりＵＲＬ数を算出して、それらの値がある閾値以上のキーワード群をレベル１のクラスタとする。

図７の例では、「Kwd1」と「Kwd2」とが共通のＵＲＬに関連付けられている。そのため、「Kwd1」と「Kwd2」とでクラスタ３１を構成する。同様に、「Kwd3」と「Kwd4」とが共通のＵＲＬに関連付けられている。そのため、「Kwd3」と「Kwd4」とでクラスタ３２を構成する。

図８は、２つのキーワードの間のレベル１の重なり度数を示す図である。図８の例では、「キーワードＡ」の検索結果から選択されたＵＲＬが「URL1」、「URL2」、「URL3」、「URL4」、「URL5」である。また、「キーワードＢ」の検索結果から選択されたＵＲＬが「URL4」、「URL5」、「URL6」、「URL7」である。従って、重複するＵＲＬは「URL4」、「URL5」であり、重なり数は２となる。

レベル２は、入力したユーザが重複するキーワード同士をクラスタ化するものである。レベル２のクラスタで得られるキーワードは、概して兄弟語、関連語レベルのものが多い。たとえば、「○○カメラ」、「△△や」、「□□電気」、「××カメラ」、「凸凸電気」などのキーワードがレベル２のクラスタとしてグループ化される。レベル２のクラスタは、複数のユーザによって検索されたキーワードを利用して作成することができる。

図９は、レベル２のクラスタ化を示す図である。図９には、ユーザＩＤとそのユーザＩＤのユーザが入力したキーワードとの関係を表している。たとえば、「USR1」のユーザが「Kwd1」、「Kwd2」を検索キーワードとして入力したことを表している。このとき、入力するユーザの共通性（dup値）が高いキーワード同士は、同じカテゴリに属しているものと想定できる。

すなわち、ユーザが検索によって情報を探す場合、対象に対して様々なキーワードを入力しながら試行錯誤的に検索するのが一般的である。複数のユーザによって同じように検索されたキーワード群には、何らかの共通性があると考えられる。そこで、入力するユーザの共通性が高いキーワードをグループ化し、レベル２のクラスタとする。

具体的には、レベル１と同様に重なり度合dupを以下のように定義できる。
Dup（Kwd1,Kwd2）＝（Kwd1とKwd2の共通ユーザ数）／（Kwd1とKwd2それぞれ検索したユーザの合計）
検索ログに含まれる全てのキーワードについて、上記の重なり度合(dup)や単純な重なりユーザ数を算出して、それらの値がある閾値以上のキーワード群をクラスタとする。

図９の例では、「Kwd1」と「Kwd2」とは「USR1」と「USR2」とによって共通に検索されたキーワードである。そこで、「Kwd1」と「Kwd2」とをレベル２のクラスタ３３としてグループ化する。同様に、「Kwd3」と「Kwd4」とは「USR3」と「USR4」とによって共通に検索されたキーワードである。そこで、「Kwd3」と「Kwd4」とをレベル２のクラスタ３４としてグループ化する。

図１０は、２つのキーワードの間のレベル２の重なり度数を示す図である。図１０の例では、「キーワードＡ」の検索結果から選択されたユーザが「USR1」、「USR2」、「USR3」、「USR4」、「USR5」である。また、「キーワードＢ」の検索結果から選択されたユーザが「USR4」、「USR5」、「USR6」、「USR7」である。従って、重複するユーザは「USR4」、「USR5」であり、重なり数は２となる。

このように、本発明の実施の形態では、レベル１とレベル２との２種類のクラスタが生成される。
図１１は、コンピュータというキーワードが属するクラスタの例を示す図である。図１１には「コンピュータ」というキーワードが属するレベル１のクラスタ４１とレベル２のクラスタ４２とに、他のどのようなキーワードが含まれるかを示している。この例では、「コンピュータ」に対するレベル１のクラスタ４１として「パソコン」や「パーソナルコンピュータ」等のキーワードが設定されている。また、「コンピュータ」に対するレベル２のクラスタ４２として、「コンピュータウィルス」や「セキュリティーホール」などのキーワードが設定されている。

このように、各クラスタ間に共通して出現するキーワードをリンクに見立てることで、検索履歴からキーワードのネットワークを構築することができる。これを一般的なディレクトリとコンテンツナビゲーションとをユーザナビゲーションの観点から比較すると以下のようになる。

図１２は、ディレクトリ方式とコンテンツナビゲーション方式とのデータ構造を示す図である。図１２（Ａ）がディレクトリ方式のデータ構造を示しており、図１２（Ｂ）がコンテンツナビゲーション方式のデータ構造を示している。

ディレクトリ方式では、キーワード間の関係がツリー構造５１であるのに対し、本実施の形態に係る方式ではキーワード間の関係がネットワーク構造５３である。また、ディレクトリ方式では、概念を絞り込む方向のナビゲーションであるのに対し、コンテンツナビゲーション方式では、概念を広げる方向のナビゲーションである。すなわち、ディレクトリ方式では、元のキーワード５２からツリー構造５１上の下位の構造へ、順次キーワードを探すことで概念が絞り込まれる。一方、コンテンツナビゲーション方式では、元のキーワード５４からクラスタ上の関連性を有する他のキーワードを順次辿り、キーワードを探すことで概念を広げることができる。

このようなそれぞれの方式の違いにより、ディレクトリ方式の利用シーンは、対象のイメージがはっきりしている場合であるのに対し、コンテンツナビゲーション方式の利用シーンは、対象のイメージがはっきりしていない場合である。

このようなキーワードのクラスタ化を効率的に行うため、検索履歴に基づいて、予め基本ＤＢ１１３、不要語ＤＢ１１４、及びクラスタＤＢ１１５とを作成しておく。これらのＤＢの作成は、定期的（たとえば、毎日深夜の時間帯）に行われる。

図１３は、基本ＤＢのデータ構造例を示す図である。基本ＤＢ１１３は、キーワード別ＵＲＬ管理テーブル１１３ａ、ＵＲＬ別キーワード管理テーブル１１３ｂ、キーワード別選択ユーザ管理テーブル１１３ｃ、ユーザ別入力キーワード管理テーブル１１３ｄ、ＵＲＬ別選択ユーザ管理テーブル１１３ｅ、及びユーザ別選択ＵＲＬ管理テーブル１１３ｆで構成される。

キーワード別ＵＲＬ管理テーブル１１３ａには、キーワード、ＵＲＬ、ヒット件数、及びトップＵＲＬの欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて１つのレコードを構成している。キーワードの欄には、検索の際に入力されたキーワードが設定される。ＵＲＬの欄には、対応するキーワードによる検索結果から選択されたＷｅｂページのＵＲＬが設定される。ヒット件数の欄には、対応するキーワードに合致したＷｅｂページの件数が設定される。トップＵＲＬの欄には、対応するキーワードによる検索結果の中で最も優先的に表示されたＷｅｂページのＵＲＬが設定される。

ＵＲＬ別キーワード管理テーブル１１３ｂには、ＵＲＬ、ＵＲＬタイトル、キーワード、及び検索タイプの欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて１つのレコードを構成している。ＵＲＬの欄には、検索結果の中から選択されたＷｅｂページのＵＲＬが設定される。ＵＲＬタイトルの欄には、対応するＵＲＬで示されるＷｅｂページのタイトルが設定される。キーワードの欄には、対応するＵＲＬを選択したときの、元となった検索キーワードが設定される。検索タイプの欄には、検索結果として表示されたＷｅｂページのタイプ（広告やコマース（電子商取引）等の種別）が設定される。

キーワード別選択ユーザ管理テーブル１１３ｃには、キーワードとユーザとの欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて１つのレコードを構成している。キーワードの欄には、ユーザにより入力された検索キーワードが設定される。ユーザの欄には、対応するキーワードを入力したユーザの識別情報が設定される。

ユーザ別入力キーワード管理テーブル１１３ｄには、ユーザとキーワードとの欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて１つのレコードを構成している。ユーザの欄には、検索を行ったユーザの識別情報が設定される。キーワードの欄には、対応するユーザが入力した検索キーワードが設定される。

ＵＲＬ別選択ユーザ管理テーブル１１３ｅには、ＵＲＬとユーザとの欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて１つのレコードを構成している。ＵＲＬの欄には、検索結果から選択されたＵＲＬが設定される。ユーザの欄には、対応するＵＲＬを選択したユーザの識別情報が設定される。

ユーザ別選択ＵＲＬ管理テーブル１１３ｆには、ユーザとＵＲＬとの欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて１つのレコードを構成している。ユーザの欄には、検索を行ったユーザの識別情報が設定される。ＵＲＬの欄には、対応するユーザが検索結果から選択したＵＲＬが設定される。

図１４は、不要語ＤＢのデータ構造例を示す図である。不要語ＤＢ１１４には、不要語、導出元の語、繰り返し回数、レベル１の重なり数、レベル１のdupの値、レベル２の重なり数、及びレベル２のdupの値の欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて１つのレコードを構成している。

不要語の欄には、不要語として選択されたキーワードが設定される。導出元の語の欄には、不要語の判断基準として対比されたキーワードが設定される。繰り返し回数の欄には、不要語として検出された際に、不要語検出処理が何段行われたのかを示す数値が設定される。

レベル１の重なり数の欄には、レベル１のクラスタを構成する際の不要語と導出元の語との間の重なり数が設定される。レベル１のdup値の欄には、レベル１のクラスタを構成する際の不要語と導出元の語との間のdup値が設定される。

レベル２の重なり数の欄には、レベル２のクラスタを構成する際の不要語と導出元の語との間の重なり数が設定される。レベル２のdup値の欄には、レベル２のクラスタを構成する際の不要語と導出元の語との間のdup値が設定される。

図１５は、クラスタＤＢのデータ構造例を示す図である。クラスタＤＢ１１５には、対象語、ユーザ数、ヒット件数、及び対応語の欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて１つのレコードを構成している。

対象語の欄には、クラスタを検索する際の基準となるキーワードが設定される。ユーザ数の欄には、対象語を検索キーワードとして入力したユーザの総数が設定される。ヒット件数の欄には、対象語を検索キーワードとして検索したときのヒット件数が設定される。

対応語の欄には、対象語と比較する他のキーワード（対応語）に関する情報が設定される。対応語の欄は、更に表記、重なり数、dupの値、ユーザ数、及びヒット件数の欄に細分化されている。

表記の欄は、対応語を表記する際の文字列が設定されている。重なり数の欄は、上下２段に分かれており、上段には対象語と対応語との間のレベル１の重なり数が設定されており、下段には対象語と対応語との間のレベル２の重なり数が設定されている。dupの値の欄は上下２段に分かれており、上段には対象語と対応語との間のレベル１のdup値が設定されており、下段には対象語と対応語との間のレベル２のdup値が設定されている。ユーザ数の欄には、対応語を検索キーワードとして入力したユーザの数が設定されている。ヒット件数には、対応語を検索キーワードとして入力した際の検索によってヒットする情報の件数が設定される。

次に、各データベースの作成方法について説明する。まず、基本ＤＢ１１３の作成手順を説明する。
図１６は、基本ＤＢの作成手順を示すフローチャートである。以下、図１６に示す処理をステップ番号に沿って説明する。

［ステップＳ１］キーワードクラスタ作成部１４０は、検索履歴ＤＢ１１２を参照し、検索キーワードや飛び先ＵＲＬなどの異なる複数の検索履歴を、セッションＩＤなどのユニークなキーで１つの検索履歴としてまとめ、時間順にソートする。

［ステップＳ２］キーワードクラスタ作成部１４０は、検索履歴を１レコード毎に読み込み、キーワードの正規化を行う。正規化では、全角の英数字記号を半角の大文字に、半角のカタカナを全角の大文字に、行頭や末尾に含まれる全角や半角のスペースを削除、キーワード中に含まれる連続する複数のスペースを１つの半角のスペースに置き換える等の処理が行われる。

［ステップＳ３］キーワードクラスタ作成部１４０は、データの組み合わせ毎にハッシュ配列を作成し、値を基本ＤＢ１１３に格納する。具体的には、キーワードに対応するＵＲＬを示すハッシュ配列、キーワードに対応するユーザを示すハッシュ配列、ユーザに対応するキーワードを示すハッシュ配列、ユーザに対応するＵＲＬを示すハッシュ配列、ＵＲＬに対応するキーワードを示すハッシュ配列、ＵＲＬに対応するユーザを示すハッシュ配列が作成される。

［ステップＳ４］キーワードクラスタ作成部１４０は、全てのレコードについて処理したか否かを判断する。全てのレコードについて処理した場合には処理を終了し、未処理のレコードがある場合には、処理がステップＳ２に進められる。

図１７は、キーワードに対応するＵＲＬが定義されたハッシュ配列の例を示す図である。図１７に示すように、ハッシュ配列６１によって、各キーワードに対して、そのキーワードの検索結果から選択されたＵＲＬのリストや、ヒット件数（Hit#）やトップＵＲＬ（TopURL）が関連付けられている。

図１８は、ＵＲＬに対応するユーザが定義されたハッシュ配列の例を示す図である。図１８に示すように、ハッシュ配列６２によって、各ＵＲＬに対して、そのＵＲＬを選択したユーザのリストが関連付けられている。

このように生成されたハッシュ配列が、図１３に示した基本ＤＢ１１３を示している。すなわち、図１３には、分かり易くテーブル形式で基本ＤＢ１１３を示しているが、実際のポータルサイトサーバ１００内では、ハッシュ配列によって基本ＤＢ１１３が管理されている。

次に、不要語ＤＢ１１４の作成手順について説明する。ポータルサイトサーバ１００の検索履歴の中には、一般のユーザへのサービスとして公開する必要のないキーワードも多く含まれている。一般的に、検索履歴中に含まれる不要語を全て削除することは不可能であるが、上記のキーワードクラスタ作成方法を利用して、不要語ＤＢ１１４を作成することによって効率的に削除することができる。不要語ＤＢ１１４の作成は以下のステップによる。

図１９は、不要語ＤＢの作成手順を示すフローチャートの前半である。以下、図１９に示す処理をステップ番号に沿って説明する。
［ステップＳ１１］不要語ＤＢ作成部１５０は、検索履歴ＤＢ１１２から所定の期間内の検索履歴を取り出す。たとえば、前回のクラスタＤＢ作成処理が実行されてから現在までの期間の検索履歴を取り出す。

［ステップＳ１２］不要語ＤＢ作成部１５０は、抽出した検索履歴中のキーワード、リンクに対してクリーニングを行う。クリーニングでは、たとえば、キーワードの全角英数記号を半角英数記号に変換、英数小文字を大文字に変換する。また、ＵＲＬに関連付けられているセッションＩＤやユーザＩＤを削除する。

［ステップＳ１３］不要語ＤＢ作成部１５０は、抽出した各検索履歴から所定の情報を抽出し、結果を基本ＤＢ１１３に格納する。具体的には、不要語ＤＢ作成部１５０は、各検索履歴からキーワード、ユーザ、飛び先ＵＲＬ単位で集計（それぞれをキーにして集計）する。そして、不要語ＤＢ作成部１５０は、集計結果を、基本ＤＢ１１３に登録に登録する。

［ステップＳ１４］不要語ＤＢ作成部１５０は、ユニークユーザ数が多い順にキーワードをソートする。ここで、ユニークユーザ数とは、各キーワードを入力したユーザの数を示している。なお、ユニークユーザ数を求める際、同一ユーザが同一のキーワードを複数回入力したときには、まとめて１ユーザと換算する。

具体的には、キーワード別選択ユーザ管理テーブル１１３ｃの各キーワードに関連付けて登録されているユーザの数（ユーザＩＤの重複を排除後）がカウントされ、その数の大きい順にキーワードが並べ替えられる。また、各キーワードのユニークユーザ数は、時間、日、週、月単位でまとめ、その単位内でソートしてもよい。この際、ユニークユーザ数が少ないもの（１や２など、所定の閾値を超えないもの）はリストから削除してもよい。

［ステップＳ１５］不要語ＤＢ作成部１５０は、ユニークユーザ数の多い順にキーワードを画面に表示させ、ユーザによって不要語にすべきか否かの検討対象とする１以上のキーワードを選択させる。不要語ＤＢ作成部１５０は、ユーザによって選択された１以上のキーワードを含む不要語の種リストを作成する。たとえば、ユーザは、時間、日、週、月単位でまとめられたときに、常に上位に現れるキーワードを選択する。種リストは、たとえば、ＲＡＭ１０２に格納される。

［ステップＳ１６］不要語ＤＢ作成部１５０は、種リストから未処理のキーワードを取り出し、そのキーワードに対応するユーザとＵＲＬとを、基本ＤＢ１１３を参照して求める。具体的には、不要語ＤＢ作成部１５０は、キーワード別選択ユーザ管理テーブル１１３ｃを参照して、取り出したキーワードに対応するユーザＩＤを取得する。また、不要語ＤＢ作成部１５０は、キーワード別ＵＲＬ管理テーブル１１３ａを参照して、取り出したキーワードに対応するＵＲＬを求める。

［ステップＳ１７］不要語ＤＢ作成部１５０は、ステップＳ１６で求めたユーザとＵＲＬとに対応するキーワードを求め、そのキーワードのＵＲＬやユーザを更に求める。具体的には、不要語ＤＢ作成部１５０は、ユーザ別入力キーワード管理テーブル１１３ｄを参照し、ステップＳ１６で求めた各ユーザに対応するキーワードを求める。そして、不要語ＤＢ作成部１５０は、キーワード別選択ユーザ管理テーブル１１３ｃやキーワード別ＵＲＬ管理テーブル１１３ａを参照して、求めたキーワードに対応するＵＲＬやユーザを求める。

図２０は、不要語ＤＢの作成手順を示すフローチャートの後半である。以下、図２０に示す処理をステップ番号に沿って説明する。
［ステップＳ１８］不要語ＤＢ作成部１５０は、ステップＳ１７で求めたキーワードと、種リストから取り出したキーワードとのＵＲＬの重なり数やdup関数とを計算する。これは、レベル１のクラスタの関係の有無を求める処理である。

［ステップＳ１９］不要語ＤＢ作成部１５０は、ステップＳ１７で求めたキーワードと、種リストから取り出したキーワードとのユーザの重なり数やdup関数とを計算する。これは、レベル２のクラスタの関係の有無を求める処理である。

［ステップＳ２０］不要語ＤＢ作成部１５０は、重なり数またはdup関数の値が所定の閾値以上となるキーワードを、不要語ＤＢ１１４に追加する。
［ステップＳ２１］不要語ＤＢ作成部１５０は、ステップＳ２０で追加したキーワードを画面に表示し、ユーザから不要語として不適切なキーワードの選択入力を受け付ける。ユーザからキーワードが選択されると、そのキーワードを不要語ＤＢ１１４から削除する。

［ステップＳ２２］不要語ＤＢ作成部１５０は、不要語の登録処理を所定回数繰り返したか否かを判断する。所定回数繰り返した場合、処理を終了させる。まだ所定回数繰り返していない場合、ステップＳ２０で新たに不要語として追加したキーワード（ステップＳ２１で削除したものを除く）を種リストとして、処理をステップＳ１６に進める。

このようにして、不要語ＤＢ１１４を作成することができる。この際、新たに不要語としたキーワードを種リストとして不要語の判定を繰り返すことにより、不要語の抽出漏れを減らすことができる。

次に、クラスタＤＢ１１５の作成手順について説明する。
図２１は、クラスタＤＢ作成処理の手順を示すフローチャートの前半である。以下、図２１に示す処理をステップ番号に沿って説明する。

［ステップＳ３１］キーワードクラスタ作成部１４０は、検索履歴ＤＢ１１２から所定の期間内の検索履歴を取り出す。たとえば、前回のクラスタＤＢ作成処理が実行されてから現在までの期間の検索履歴を取り出す。

［ステップＳ３２］キーワードクラスタ作成部１４０は、抽出した検索履歴中のキーワード、リンクに対してクリーニングを行う。クリーニングでは、たとえば、キーワードの全角英数記号を半角英数記号に変換、英数小文字を大文字に変換する。また、ＵＲＬに関連付けられているセッションＩＤやユーザＩＤを削除する。

［ステップＳ３３］キーワードクラスタ作成部１４０は、抽出した各検索履歴から所定の情報を抽出し、結果を基本ＤＢ１１３に格納する。具体的には、キーワードクラスタ作成部１４０は、各検索履歴からキーワード、ユーザ、飛び先ＵＲＬ単位で集計（それぞれをキーにして集計）する。そして、キーワードクラスタ作成部１４０は、集計結果を、基本ＤＢ１１３に登録する。

［ステップＳ３４］キーワードクラスタ作成部１４０は、ユニークユーザ数が所定の閾値以下のキーワードや、不要語ＤＢ１１４に含まれるキーワードを基本ＤＢ１１３から削除する。

［ステップＳ３５］キーワードクラスタ作成部１４０は、ユニークユーザが多い順にキーワードをソートする。具体的には、キーワードクラスタ作成部１４０は、キーワード別選択ユーザ管理テーブル１１３ｃの各キーワードに関連付けて登録されているユーザの数（ユーザＩＤの重複を排除後）をカウントし、その数の大きい順にキーワードを並べ替える。

［ステップＳ３６］キーワードクラスタ作成部１４０は、ソートしたリストの上位からキーワードを取り出し、取り出されたキーワードを対象語とする。そして、キーワードクラスタ作成部１４０は、対象語に対応するユーザとＵＲＬを求める。具体的には、キーワードクラスタ作成部１４０は、キーワード別選択ユーザ管理テーブル１１３ｃを参照して、取り出したキーワードに対応するユーザＩＤを取得する。また、不要語ＤＢ作成部１５０は、キーワード別ＵＲＬ管理テーブル１１３ａを参照して、取り出したキーワードに対応するＵＲＬを求める。

［ステップＳ３７］キーワードクラスタ作成部１４０は、ステップＳ３６で求めたユーザとＵＲＬとに対応するキーワード（対応語）を求め、そのキーワードのＵＲＬやユーザを更に求める。具体的には、キーワードクラスタ作成部１４０は、ユーザ別入力キーワード管理テーブル１１３ｄを参照し、ステップＳ３６で求めた各ユーザに対応するキーワードを求める。そして、不要語ＤＢ作成部１５０は、キーワード別選択ユーザ管理テーブル１１３ｃやキーワード別ＵＲＬ管理テーブル１１３ａを参照して、求めたキーワードに対応するＵＲＬやユーザを求める。

図２２は、クラスタＤＢ作成処理の手順を示すフローチャートの後半である。以下、図２２に示す処理をステップ番号に沿って説明する。
［ステップＳ３８］キーワードクラスタ作成部１４０は、ステップＳ３７で求めた対応語と、対象語とのＵＲＬの重なり数やdup関数を計算する。これは、レベル１のクラスタの関係の有無を求める処理である。また、キーワードクラスタ作成部１４０は、ステップＳ３７で求めた対応語と、対象語とのユーザの重なり数やdup関数を計算する。これは、レベル２のクラスタの関係の有無を求める処理である。

［ステップＳ３９］キーワードクラスタ作成部１４０は、ステップＳ３８で求めた重なり数またはdup関数の値の何れかが所定の閾値以上の対応語を、対象語に関連付けてクラスタＤＢ１１５に登録する。この際、対応語のレベル１及びレベル２の重なり数やdup関数の値も合わせて登録される。

［ステップＳ４０］キーワードクラスタ作成部１４０は、登録した対応語のＵＲＬやユーザ情報を、対象語の情報として基本ＤＢ１１３に登録する。その後、キーワードクラスタ作成部１４０は、登録した対応語の情報を基本ＤＢ１１３から削除する。この処理をネットワークの縮退と呼ぶ。

［ステップＳ４１］キーワードクラスタ作成部１４０は、更新された基本ＤＢ１１３を対象に不要語ＤＢ作成処理（図１９、図２０参照）を行い、不要語ＤＢ１１４を更新する。

［ステップＳ４２］キーワードクラスタ作成部１４０は、クラスタＤＢ１１５の更新処理を所定回数実行したか否かを判断する。所定回数実行して入れば所定が終了する。所定回数実行していない場合、処理をステップＳ３１に進める。これにより、同様の処理が所定回数繰り返される。

なお、クラスタＤＢ１１５に対応語を追加する場合、それが何回目の処理による処置であるのかを示す情報を追記することもできる。また、対応語の追加日付をクラスタＤＢ１１５に登録することもできる。日付情報を登録することで、時間の経過によるクラスタキーワードの変化を把握することができる。

このようにして、クラスタＤＢ１１５を作成することができる。この際、ステップＳ４０に示すように、ネットワークの縮退が同時に行われる。ネットワークの縮退では、表記のゆれや概念が特に近いキーワード群をまとめる操作が行われる。特に近い関係を有するキーワード群を纏め１つの代表的なキーワードで表すことによって、キーワード数を減らし、ナビゲーションネットワークの規模を縮退することができる。その結果、ユーザに対してクラスタに含まれるキーワードを提示する際にも、必要最低限のキーワードを効率的に提示することができる。

このようにクラスタ化されるべきキーワードの組の抽出、およびそれらのキーワードの縮退処理を交互に繰り返すことで、概念的に関連するキーワードがクラスタから漏れてしまう事態を減らすことができる。

図２３は、クラスタ化とキーワードの縮退とを繰り返した際のクラスタの変化を示す図である。たとえば、「Ａ社」を対象語としたときの最初のレベル１のクラスタ６３に３つの対応語が含まれているものとする。このとき、基本ＤＢ１１３における対象語に対応するユーザの項目に、対応語に登録されているユーザを加える。同様に、対象語に対応するＵＲＬの項目に、対応語に登録されているＵＲＬを加える。

その後、再度レベル１のクラスタ作成処理を実行すると、概念的に拡張された他のキーワードを含むクラスタ６４が生成される。このような処理を、任意の回数繰り返すことで、概念的に近いキーワードを集めたクラスタを形成することができる。

以上のように、クラスタＤＢ１１５を作成しておくことにより、ポータルサイトサーバ１００にアクセスしてインターネット上のコンテンツを検索するユーザに対して、コンテンツナビゲーション機能を提供することができる。コンテンツナビゲーションは、ナビゲーション部１６０によって行われる。

本実施の形態では、コンテンツナビゲーションのトップページのＵＲＬが予め用意されているものとする。ユーザがクライアント２１１を操作して、そのＵＲＬにアクセスすると、ナビゲーション部１６０によってナビゲーショントップ画面データが作成される。本実施の形態では、ナビゲーション部１６０が基本ＤＢ１１３のキーワード別選択ユーザ管理テーブル１１３ｃを参照し、検索キーワードとして入力したユーザ数の多いキーワードのリストを作成する。そして、そのキーワードのリストを含むナビゲーショントップ画面データが作成される。ナビゲーショントップ画面データはクライアント２１１に転送され、クライアントでナビゲーショントップ画面が表示される。

図２４は、ナビゲーショントップ画面の例を示す図である。ナビゲーショントップ画面７１には、キーワード入力部７１ａ、ジャンプボタン７１ｂ、複数のキーワード候補７１ｃ、キーワード候補７１ｃ毎のユニークユーザ数７１ｄ、および定番ディレクトリリンクオブジェクト７１ｅが表示されている。

キーワード入力部７１ａは、任意のキーワードを代表キーワードとして入力するためのテキストボックスである。ジャンプボタン７１ｂは、コンテンツナビゲーションの実行指示を出すためのボタンである。ジャンプボタン７１ｂが押下されると、キーワード入力部７１ａに入力されたキーワードを代表キーワードとしたコンテンツナビゲーション要求がポータルサイトサーバ１００に対して送信される。

キーワード候補７１ｃは、代表キーワードとして選択するキーワードの候補である。この例では、過去の所定期間内にユーザによって検索キーワードとして入力された回数の多いキーワードがキーワード候補７１ｃとして表示されている。何れかのキーワード候補７１ｃがユーザによって選択されると、そのキーワードを代表キーワードとしたコンテンツナビゲーション要求がポータルサイトサーバ１００に対して送信される。各キーワード候補７１ｃのユニークユーザ数は、そのキーワードを検索キーワードとして入力したユーザの数である。

また、定番ディレクトリリンクオブジェクト７１ｅは、定番ディレクトリ画面に遷移させるためのリンクが定義されたオブジェクトである。定番ディレクトリリンクオブジェクト７１ｅが選択されると、ポータルサイトサーバ１００に対して、定番ディレクトリ画面の表示要求がだされる。

ここで、キーワード候補７１ｃの１つがユーザによって選択されたものとする。すると、コンテンツナビゲーション要求を受け取ったポータルサイトサーバ１００において、ナビゲーション部１６０がコンテンツナビゲーションの処理を行い、処理結果をクライアント２１１に対して送信する。具体的には、ナビゲーション部１６０は、代表キーワードとして指定されたキーワードが対象語として登録されているレコードをクラスタＤＢ１１５から検索する。そして、ナビゲーション部１６０は、検出されたレコードの対応語から、レベル１のdupの値（あるいは重なり数）が大きい順に所定数のキーワードを抽出し、同様にレベル２のdupの値（あるいは重なり数）が大きい順に所定数のキーワードを抽出する。ナビゲーション部１６０は、これらのキーワードを含むナビゲーション画面データを作成する。

また、ナビゲーション部１６０は、基本ＤＢ１１３のキーワード別ＵＲＬ管理テーブル１１３ａを参照し、代表キーワードとして指定されたキーワードによる検索結果から選択されたことのあるＵＲＬを抽出する。さらに、ナビゲーション部１６０は、ＵＲＬ別選択ユーザ管理テーブル１１３ｅを参照し、抽出した各ＵＲＬを選択したユーザの数をカウントし、ＵＲＬをそのユーザ数によってソートする。そして、ナビゲーション部１６０は、ソートされたＵＲＬ、およびそのＵＲＬの関連情報をナビゲーション画面データに追加する。

生成されたナビゲーション画面はクライアント２１１に対して送信され、クライアント２１１に表示される。
図２５は、ナビゲーション画面の例を示す図である。ナビゲーション画面７２には、代表キーワード７２ａ、レベル１クラスタ内キーワード７２ｂ、レベル２クラスタ内キーワード７２ｃ、及びコンテンツ情報７２ｄが表示されている。

代表キーワード７２ａの横には、その代表キーワードを検索キーワードとして入力したユニークユーザ数が表示されている。レベル１クラスタ内キーワード７２ｂには、代表キーワードとの間でレベル１のクラスタの関係を有するキーワードが表示されている。レベル２クラスタ内キーワード７２ｃには、代表キーワードとの間でレベル２のクラスタの関係を有するキーワードが表示されている。

コンテンツ情報７２ｄには、代表キーワードを検索キーワードとしたときの検索結果から選択された回数の多いコンテンツに関する情報が表示される。コンテンツ情報７２ｄには、コンテンツアクセス件数７２ｅ、コンテンツタイトル７２ｆ、対応語７２ｇが含まれる。コンテンツアクセス件数７２ｅは、表示されているコンテンツが検索結果として表示されたときにアクセス対象として選択された回数である。コンテンツタイトル７２ｆは、コンテンツのタイトルである。対応語７２ｇは、そのコンテンツを検索結果として検出することができるキーワードである。

なお、ナビゲーション画面において、コンテンツのタイプを識別できるように表示することもできる。その場合、ナビゲーション部１６０は、ナビゲーション画面データの作成時に、ＵＲＬ別キーワード管理テーブル１１３ｂの検索タイプの欄を参照し、検索タイプ毎に異なる表示属性とする。たとえば、検索タイプ毎に異なる表示色とすることができる。

図２６は、タイプ識別可能なナビゲーション画面の例を示す図である。このナビゲーション画面７３では、サービスコンテンツのコンテンツタイトル７３ａや、広告コンテンツのアクセス件数７３ｂが、他のコンテンツと異なる色で表示されている（図２６中では、破線によってハイライト表示部を示している）。サービスコンテンツとは、電子商取引などのサービス提供を行うＷｅｂサイトに設けられたコンテンツである。広告コンテンツとは、企業の商品宣伝等の広告のコンテンツである。コンテンツのタイプを異なる色で表示することにより、ユーザは目的のコンテンツを容易に識別できる。

以上のように、検索履歴に基づいて、ユーザが検索結果からどのコンテンツを選択したのかをデータベースで管理し、そのデータベースに基づいてキーワードのクラスタ化を行った。そして、コンテンツナビゲーションにおいて指定された代表キーワードとクラスタ化された他のキーワードをユーザに提示するようにした。その結果、実際のユーザの嗜好等を適宜反映させて、ユーザが指定したキーワードに関連するキーワードを提示することができる。

また、ユーザが任意に指定したコンテンツを強調（たとえば、ハイライト）表示することもできる。
図２７は、任意のコンテンツを強調表示したナビゲーション画面の例を示す図である。図２７に示すナビゲーション画面７４には、ハイライト指定部７４ａ，７４ｂが設けられている。ハイライト指定部７４ａ，７４ｂでは、強調表示すべきコンテンツを示す文字列の入力部がある。この入力部に入力された文字列をＵＲＬやタイトルに含むコンテンツがハイライトによって強調表示される。

また、ナビゲーショントップ画面７１の定番ディレクトリリンクオブジェクト７１ｅが選択されると、ナビゲーション部１６０によって定番ディレクトリ画面データが作成され、クライアント２１１に送信される。定番ディレクトリ画面データには、定常的に頻繁にアクセスされるコンテンツが含まれる。

図２８は、定番ディレクトリ画面の例を示す図である。定番ディレクトリ画面７５には、常時アクセス数の多いコンテンツが表示されている。各コンテンツのタイトルの横には、アクセスしたユニークユーザ数が示されている。

このように、本発明の実施の形態に示すコンテンツナビゲーションを行えば、ユーザは代表キーワードを選択することで、その時点での流行のキーワードを取得することができる。そして、ユーザは、流行のコンテンツを広くブラウジングすることができる。また、キーワードの表記などを気にせず、関連する全てのコンテンツにアクセスすることができる。

たとえば、ある期間（時間、日、週、月など）で集計したキーワードを、キーワードの選択したユニークユーザ数、注目度（平均のユーザ数からの伸び）、キーワードのヒット件数、クラスタの大きさなどの指標を用いてソートし、上位のキーワードをディレクトリ検索のトップのように表示する。ユーザはこれを見ることで現在どのようなことが流行っているのか概観することができる。

なお、このようなコンテンツナビゲーションは、ディレクトリ検索とは違ったユーザナビゲーションである。すなわち、コンテンツナビゲーションでは、ネットワークを利用するユーザの嗜好の変化やコンテンツの変化が監視され、ユーザの興味の推移に沿った適当なナビゲーションを行うことができる。

また、電子商取引を行う事業者はその結果を自社サイトのＳＥＯ（SearchEngineOptimization：自社サイトがユーザによって的確に検索されるようにサイトのキーワードや構成を最適化する手法）やＳＥＭ（SearchEngineMarketing：検索キーワード広告などを利用して自社サイトの利益を最大化する手法）に利用することもできる。

ところで、本実施の形態は、以下のような応用が可能である。
［コンピュータテンスクラスタの作成］
上記の例では、キーワード間のクラスタを作成したが、クラスタ化されたキーワードに関連するコンテンツ同士をクラスタ化することもできる。具体的には、クラスタＤＢ１１５と基本ＤＢ１１３を利用してコンテンツクラスタを作成することができる。クラスタを構成するキーワードのコンテンツ群はクラスタと考えられる。

図２９は、コンテンツクラスタの例を示す図である。図に示すように、キーワード間のクラスタ８１（レベル１、レベル２の何れか一方または両方）に含まれる各キーワードに対して、基本ＤＢ１１３上で関連付けられたＵＲＬ（対応するキーワードによる検索結果からユーザによって選択されたＵＲＬ）を抽出する。そして、抽出されたＵＲＬによりコンテンツクラスタ８２を構成する。

このように、コンテンツクラスタ８２を構成することにより、ユーザによってコンテンツが選択された際に、同じクラスタに属する他のコンテンツのリストを画面に表示することができる。これにより、ユーザは、選択したコンテンツと類似する内容の他のコンテンツに容易にアクセスすることができる。

［クラスタの組み合わせによるクラスタの拡張］
代表キーワードに対するクラスタを、そのクラスタに含まれる他のキーワードを元に段階的に拡張することができる。たとえば、代表キーワードＡのクラスタとしてＢ，Ｃ，Ｄが抽出されているものとする。この関係を（Ａ：Ｂ，Ｃ，Ｄ）と表す。このとき、代表キーワードＢに対して（Ｂ：Ｃ，Ｅ）となっている場合、Ａのクラスタを（Ａ：（Ｂ：Ｃ，Ｅ），Ｄ）と拡張できる。

図３０は、クラスタの拡張処理を示す図である。図３０に示すように、クラスタ９１、クラスタ９２を合わせて、クラスタ９３を作成する。この例では、クラスタ９２の対象語「Ｃ自動車」がクラスタ９１の対応語の１つである。そこで、クラスタ９２の対応語を、クラスタ９１の対応語「Ｃ自動車」の下位構造として関連付ける。その際、元からクラスタ９１の対応語として設定されているキーワードに関しては、対応語「Ｃ自動車」の下位構造への関連づけの対象から除外する。

なお、どちらのクラスタが下位となるのかは、たとえば、検索ユーザ数や検索結果のヒット件数で判断することができる。図３０の例では、クラスタ９１の方がクラスタ９２よりも検索件数が多いため、クラスタ９１の配下にクラスタ９２を配置することでクラスタ９３が生成されている。

このようにクラスタを拡張することで、ユーザが選択した代表キーワードのコンテンツナビゲーションを行う際に、より広い範囲で関連するキーワードを提示することができる。

［注目クラスタの抽出］
基本ＤＢ１１３に含まれる検索キーワードのヒット件数やユニークユーザ数の時間的な変化とその時のユーザによる注目度を考える。たとえば、ユーザ数が増加していれば注目度が高いと考える。また、ヒット件数が増加していれば、注目度が高いと考える。

図３１は、ユーザ数とヒット件数との変化に応じた注目度を示す図である。この図では、注目度を５段階で評価している。数値が大きいほど注目度は高いことを示す。
このように、キーワード毎の注目度を予め設定しておく。そして、代表キーワードと同じクラスタに属するキーワードを表示する際には、注目度の高いキーワードを優先的に表示する。これにより、代表キーワードに関連するキーワードのうち、多くのユーザによって最近注目されている物事を示すキーワードを容易に知ることができる。

［同じような検索パターンを持つ検索語同士を同一のクラスタと見做すクラスタ作成方法］
ある検索キーワードの１時間単位の検索数を縦軸、時刻を横軸に取っての検索数の増減をプロットしたときに、同じ時刻に極端に増加したり減少したりするキーワードは同じクラスタに入れる。また、検索数の代わりに、キーワードの注目度などの変化を見ても良い。キーワードの注目度とはたとえば以下のような式で定義される。

これは、検索語ｗ_iの時刻ｔでの利用者数をＵＵ_t（ｗ_i）、その補正値をＣ_tで表すとき、それらの注目度ＡＴ_t（ｗ_i）を求める評価式である。
図３２は、検索数と注目度との一日の遷移状況を比較した図である。この例では「郵便局」のグラフ９４と「年賀状」のグラフ９５とが示されている。グラフ９４，９５は、縦軸は数値（ユーザ数または注目度）、横軸が時刻である。そしてグラフ９４，９５には、それぞれ「年賀状」と「郵便局」の検索ユーザ数の変化と注目度の値の変化が１時間単位にプロットされている。そして、検索ユーザ数の値の変化が折れ線９４ａ，９５ａで示されており、注目度の値の変化が折れ線９４ｂ，９５ｂで示されている。

この例は、お年玉付き年賀はがきの当選番号の抽選日の記録である。図３２から分かるように、２つのキーワードは、検索ユーザ数および注目度の立ち上がりの時期やピークの時期がほぼ同期している。このように、検索ユーザ数と注目度と何れか一方、若しくは両方の変化が同じキーワードは、クラスタに入れるようにする。これにより、入力された検索キーワードの情報のみからでも、有効なクラスタを作成することができる。

［コンテンツナビゲーションのプログラムによる実現］
なお、上記の処理機能は、クライアントサーバシステムのサーバコンピュータによって実現することができる。その場合、ポータルサイトサーバ１００が有すべき機能の処理内容を記述したサーバプログラムが提供される。サーバコンピュータは、クライアントコンピュータからの要求に応答して、サーバプログラムを実行する。これにより、上記処理機能がサーバコンピュータ上で実現され、処理結果がクライアントコンピュータに提供される。

処理内容を記述したサーバプログラムは、サーバコンピュータで読み取り可能な記録媒体に記録しておくことができる。サーバコンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスクドライブ（ＨＤＤ）、フレキシブルディスク（ＦＤ）、磁気テープなどがある。光ディスクには、ＤＶＤ(Digital Versatile Disc)、ＤＶＤ−ＲＡＭ(Random Access Memory)、ＣＤ−ＲＯＭ(Compact Disc Read Only Memory)、ＣＤ−Ｒ(Recordable)／ＲＷ(ReWritable)などがある。光磁気記録媒体には、ＭＯ(Magneto-Optical disk)などがある。

サーバプログラムを流通させる場合には、たとえば、そのサーバプログラムが記録されたＤＶＤ、ＣＤ−ＲＯＭなどの可搬型記録媒体が販売される。
サーバプログラムを実行するサーバコンピュータは、たとえば、可搬型記録媒体に記録されたサーバプログラムを、自己の記憶装置に格納する。そして、サーバコンピュータは、自己の記憶装置からサーバプログラムを読み取り、サーバプログラムに従った処理を実行する。なお、サーバコンピュータは、可搬型記録媒体から直接サーバプログラムを読み取り、そのサーバプログラムに従った処理を実行することもできる。

（付記１）コンテンツの検索を支援するためのコンテンツナビゲーションプログラムにおいて、
コンピュータを、
ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納する格納手段、
前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化するグループ化手段、
任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する関連キーワード出力手段、
として機能させることを特徴とするコンテンツナビゲーションプログラム。

（付記２）前記グループ化手段は、関連付けられた前記コンテンツが共通する前記キーワード同士をグループ化することを特徴とするコンテンツナビゲーションプログラム。
（付記３）前記グループ化手段は、２つの前記キーワードを比較したとき、共通して関連付けられている前記コンテンツの数が所定値以上の場合、２つの前記キーワードをグループ化することを特徴とする付記２記載のコンテンツナビゲーションプログラム。

（付記４）前記グループ化手段は、２つの前記キーワードを比較したとき、２つの前記キーワードの少なくとも一方に関連付けられている前記コンテンツの中で、共通して関連付けられている前記コンテンツの占める割合が所定値以上の場合、２つの前記キーワードをグループ化することを特徴とする付記２記載のコンテンツナビゲーションプログラム。

（付記５）前記格納手段は、さらに、前記キーワードを入力したユーザのユーザ識別情報を、前記キーワードに関連付けて前記記憶手段に格納し、
前記グループ化手段は、関連付けられた前記ユーザ識別情報が共通する前記キーワード同士をグループ化することを特徴とするコンテンツナビゲーションプログラム。

（付記６）前記グループ化手段は、２つの前記キーワードを比較したとき、共通して関連付けられている前記ユーザ識別情報の数が所定値以上の場合、２つの前記キーワードをグループ化することを特徴とする付記５記載のコンテンツナビゲーションプログラム。

（付記７）前記グループ化手段は、２つの前記キーワードを比較したとき、２つの前記キーワードの少なくとも一方に関連付けられている前記ユーザ識別情報の中で、共通して関連付けられている前記ユーザ識別情報の占める割合が所定値以上の場合、２つの前記キーワードをグループ化することを特徴とする付記５記載のコンテンツナビゲーションプログラム。

（付記８）前記グループ化手段は、前記記憶手段に含まれる１つの前記キーワードを対象語とし、前記対象語に対して関連する他の前記キーワードを対応語とし、前記対象語と前記対応語とをグループ化し、更に前記対応語に対して関連する他の前記キーワードを同一グループに含めることを特徴とする付記１記載のコンテンツナビゲーションプログラム。

（付記９）前記コンピュータを、さらに、ユーザから不要として選択された前記キーワードを不要語として不要語記憶手段に格納する不要語格納手段として機能させ、
前記関連キーワード出力手段は、前記不要語記憶手段に記憶された前記不要語を除く前記キーワードを出力することを特徴とする付記１記載のコンテンツナビゲーションプログラム。

（付記１０）前記不要語格納手段は、前記キーワードと選択された前記コンテンツとの対応関係に基づいて、ユーザに選択された前記不要語と他の前記キーワードとの間の関連性を判定し、前記不要語に関連する他の前記キーワードを新たな不要語として前記不要語記憶手段に格納することを特徴とする付記９記載のコンテンツナビゲーションプログラム。

（付記１１）前記グループ化手段は、前記記憶手段に含まれる１つの前記キーワードを対象語とし、前記対象語に対して関連する他の前記キーワードを対応語とし、前記対応語それぞれに関連付けられた前記コンテンツを前記対象語に関連付けて前記記憶手段に登録すると共に前記記憶手段から前記対応語を削除し、その後、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化することを特徴する付記１記載のコンテンツナビゲーションプログラム。

（付記１２）前記グループ化手段では、グループ化により生成された２つグループが共通の前記キーワードを有する場合、前記共通のキーワードを介して、一方の前記グループの配下に他方の前記グループを木構造に接続した新たなグループを生成することを特徴とする付記１記載のコンテンツナビゲーションプログラム。

（付記１３）前記格納手段は、さらに、前記キーワードによる検索のヒット件数を、前記キーワードに関連付けて前記記憶手段に格納し、
前記グループ化手段は、ヒット件数の時間的な推移が類似する複数の前記キーワードをグループ化することを特徴とする付記１記載のコンテンツナビゲーションプログラム。

（付記１４）前記格納手段は、さらに、前記キーワードを入力したユーザのユーザ識別情報を、前記キーワードに関連付けて前記記憶手段に格納し、
前記グループ化手段は、入力したユーザ数の時間的な推移が類似する複数の前記キーワードをグループ化することを特徴とする付記１記載のコンテンツナビゲーションプログラム。

（付記１５）コンテンツの検索をコンピュータによって支援するためのコンテンツナビゲーション方法において、
格納手段が、ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納し、
グループ化手段が、前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化し、
関連キーワード出力手段が、任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する、
ことを特徴とするコンテンツナビゲーション方法。

（付記１６）コンテンツの検索を支援するためのコンテンツナビゲーション装置において、
ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納する格納手段と、
前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化するグループ化手段と、
任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する関連キーワード出力手段と、
を有することを特徴とするコンテンツナビゲーション装置。

（付記１７）コンテンツの検索を支援するためのコンテンツナビゲーションプログラムを記録したコンピュータ読み取り可能な記録媒体において、
コンピュータを、
ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納する格納手段、
前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化するグループ化手段、
任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する関連キーワード出力手段、
として機能させることを特徴とするコンテンツナビゲーションプログラムを記録したコンピュータ読み取り可能な記録媒体。

実施の形態に適用される発明の概念図である。本発明の実施の形態を実現するためのシステム構成例を示す図である。本発明の実施の形態に用いるポータルサイトサーバのハードウェア構成例を示す図である。ポータルサイトサーバの処理機能を示すブロック図である。検索履歴蓄積処理を示す図である。検索履歴ＤＢのデータ構造例を示す図である。レベル１のクラスタ化を示す図である。２つのキーワードの間のレベル１の重なり度数を示す図である。レベル２のクラスタ化を示す図である。２つのキーワードの間のレベル２の重なり度数を示す図である。コンピュータというキーワードが属するクラスタの例を示す図である。ディレクトリ方式とコンテンツナビゲーション方式とのデータ構造を示す図である。図１２（Ａ）がディレクトリ方式のデータ構造を示しており、図１２（Ｂ）がコンテンツナビゲーション方式のデータ構造を示している。基本ＤＢのデータ構造例を示す図である。不要語ＤＢのデータ構造例を示す図である。クラスタＤＢのデータ構造例を示す図である。基本ＤＢの作成手順を示すフローチャートである。キーワードに対応するＵＲＬが定義されたハッシュ配列の例を示す図である。ＵＲＬに対応するユーザが定義されたハッシュ配列の例を示す図である。不要語ＤＢの作成手順を示すフローチャートの前半である。不要語ＤＢの作成手順を示すフローチャートの後半である。クラスタＤＢ作成処理の手順を示すフローチャートの前半である。クラスタＤＢ作成処理の手順を示すフローチャートの後半である。クラスタ化とキーワードの縮退とを繰り返した際のクラスタの変化を示す図である。ナビゲーショントップ画面の例を示す図である。ナビゲーション画面の例を示す図である。タイプ識別可能なナビゲーション画面の例を示す図である。任意のコンテンツを強調表示したナビゲーション画面の例を示す図である。定番ディレクトリ画面の例を示す図である。コンテンツクラスタの例を示す図である。クラスタの拡張処理を示す図である。ユーザ数とヒット件数との変化に応じた注目度を示す図である。検索数と注目度との一日の遷移状況を比較した図である。

符号の説明

１コンテンツナビゲーション装置
１ａ格納手段
１ｂ記憶手段
１ｃグループ化手段
１ｄ関連キーワード出力手段
２，５クライアント
３検索サーバ
４コンテンツサーバ
６ａキーワード
６ｂ検索結果
７ａコンテンツ取得要求
７ｂコンテンツ
８ａ代表キーワード
８ｂ関連キーワード

Claims

コンテンツの検索を支援するためのコンテンツナビゲーションプログラムにおいて、
コンピュータを、
ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納する格納手段、
前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化するグループ化手段、
任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する関連キーワード出力手段、
として機能させることを特徴とするコンテンツナビゲーションプログラム。
前記グループ化手段は、関連付けられた前記コンテンツが共通する前記キーワード同士をグループ化することを特徴とする請求項１記載のコンテンツナビゲーションプログラム。
前記グループ化手段は、２つの前記キーワードを比較したとき、共通して関連付けられている前記コンテンツの数が所定値以上の場合、２つの前記キーワードをグループ化することを特徴とする請求項２記載のコンテンツナビゲーションプログラム。
前記グループ化手段は、２つの前記キーワードを比較したとき、２つの前記キーワードの少なくとも一方に関連付けられている前記コンテンツの中で、共通して関連付けられている前記コンテンツの占める割合が所定値以上の場合、２つの前記キーワードをグループ化することを特徴とする請求項２記載のコンテンツナビゲーションプログラム。
前記格納手段は、さらに、前記キーワードを入力したユーザのユーザ識別情報を、前記キーワードに関連付けて前記記憶手段に格納し、
前記グループ化手段は、関連付けられた前記ユーザ識別情報が共通する前記キーワード同士をグループ化することを特徴とする請求項１記載のコンテンツナビゲーションプログラム。
前記グループ化手段は、２つの前記キーワードを比較したとき、共通して関連付けられている前記ユーザ識別情報の数が所定値以上の場合、２つの前記キーワードをグループ化することを特徴とする請求項５記載のコンテンツナビゲーションプログラム。
前記グループ化手段は、２つの前記キーワードを比較したとき、２つの前記キーワードの少なくとも一方に関連付けられている前記ユーザ識別情報の中で、共通して関連付けられている前記ユーザ識別情報の占める割合が所定値以上の場合、２つの前記キーワードをグループ化することを特徴とする請求項５記載のコンテンツナビゲーションプログラム。
前記グループ化手段は、前記記憶手段に含まれる１つの前記キーワードを対象語とし、前記対象語に対して関連する他の前記キーワードを対応語とし、前記対象語と前記対応語とをグループ化し、更に前記対応語に対して関連する他の前記キーワードを同一グループに含めることを特徴とする請求項１記載のコンテンツナビゲーションプログラム。
コンテンツの検索をコンピュータによって支援するためのコンテンツナビゲーション方法において、
格納手段が、ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納し、
グループ化手段が、前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化し、
関連キーワード出力手段が、任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する、
ことを特徴とするコンテンツナビゲーション方法。
コンテンツの検索を支援するためのコンテンツナビゲーション装置において、
ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納する格納手段と、
前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化するグループ化手段と、
任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する関連キーワード出力手段と、
を有することを特徴とするコンテンツナビゲーション装置。