JP4819628B2 - ドキュメントデータを検索する方法、サーバ、およびプログラム - Google Patents

ドキュメントデータを検索する方法、サーバ、およびプログラム Download PDF

Info

Publication number
JP4819628B2
JP4819628B2 JP2006252223A JP2006252223A JP4819628B2 JP 4819628 B2 JP4819628 B2 JP 4819628B2 JP 2006252223 A JP2006252223 A JP 2006252223A JP 2006252223 A JP2006252223 A JP 2006252223A JP 4819628 B2 JP4819628 B2 JP 4819628B2
Authority
JP
Japan
Prior art keywords
keyword
keyword set
document
search
receiving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006252223A
Other languages
English (en)
Other versions
JP2008077137A (ja
Inventor
澄男 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2006252223A priority Critical patent/JP4819628B2/ja
Publication of JP2008077137A publication Critical patent/JP2008077137A/ja
Application granted granted Critical
Publication of JP4819628B2 publication Critical patent/JP4819628B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、キーワードに関連するドキュメントデータを検索する方法、サーバ、およびプログラムに関する。
従来、特にインターネットに存在する様々なドキュメントの中から必要な情報を得るため、キーワードに基づいて関連するドキュメントを検索する方法が広く用いられている。一般的な検索方法は、ドキュメントに含まれるテキストデータと、キーワードとのマッチングによる類似度の評価に基づいて行われている。しかし、インターネットの普及により情報量が膨大となったため、目的の情報に絞って抽出することが困難になってきている。更に、適切なキーワードを設定することができず、有用な情報を見逃してしまう可能性も高くなっている。
このような状況において、目的の情報を効率良く検索できるようにする技術が提案されてきている。例えば、特許文献1では、階層構造のカテゴリに分類した情報を順に辿っていくカテゴリ検索の手法において、検索対象となる文書をクラスタリングによって動的に分類し、クラスタごとにキーワードを抽出する方法が開示されている。
特開2005−258910号公報
上記の方法によれば、動的に生成されるキーワードをユーザが選択していくことで、実際に存在するキーワードにより対象文書を絞り込めるので、ユーザが所望するドキュメントに効率良く辿り着ける可能性がある。しかしながら、あくまでもユーザが選択をしたキーワードによって検索されるため、例えば、同じテーマを別の観点から論じた文書や、多様な観点に基づいた関連語(ファセット)が抽出されることはない。
そこで本発明は、基となるキーワードから、別の観点による新たなキーワード(ファセット)を抽出し、効果的に関連するドキュメントの検索ができるようにすることを目的とする。
上記目的のため、具体的には、以下のようなものを提供する。
(1) 通信回線を介して端末装置と接続されたサーバが、少なくとも1のキーワードからなる基準キーワード集合に関連するドキュメントデータを検索する方法であって、
複数のドキュメントの内容を示す内容データを記憶するステップと、
前記端末装置から、前記基準キーワード集合を受信するステップと、
前記内容データの中から、前記基準キーワード集合との関連度が所定の基準以上であるものを、検索ドキュメント集合として抽出するステップと、
抽出した前記検索ドキュメント集合をクラスタに分類し、前記クラスタのそれぞれから、少なくとも1の特徴的語彙を新たなキーワード集合としてそれぞれ抽出するステップと、を含む方法。
このような構成によれば、通信回線を介して端末装置と接続された当該サーバは、複数のドキュメントの内容を示す内容データを記憶し、前記端末装置から、基準キーワード集合を受信し、前記内容データの中から、前記基準キーワード集合との関連度が所定の基準以上であるものを、検索ドキュメント集合として抽出し、抽出した前記検索ドキュメント集合をクラスタに分類し、前記クラスタのそれぞれから、少なくとも1の特徴的語彙を新たなキーワード集合としてそれぞれ抽出する。
このことにより、当該サーバは、受信した基準キーワード集合によって検索した検索ドキュメント集合から、更に新たなキーワード集合を抽出するので、ユーザが指定する基準キーワード集合とは別の観点からドキュメント検索をすることができる。その結果、基準キーワード集合とのマッチングでは発見できなかった新たな関連ドキュメントを効果的に検索できる可能性がある。
(2) 前記新たなキーワード集合は、前記クラスタの内、それぞれのサイズに基づいて選択したクラスタから抽出することを特徴とする(1)に記載の方法。
このような構成によれば、当該サーバは、新たなキーワード集合を、クラスタのサイズやコンパクト度に基づいて選択的に抽出するので、重要度が高いキーワードが優先的に抽出され、効果的に新たなドキュメントが検索されることが期待できる。
(3) 前記内容データの中から、前記新たなキーワード集合との関連度が前記所定の基準以上であるものを、新たな検索ドキュメント集合として、前記新たなキーワード集合のそれぞれについて抽出する第1のステップと、
抽出した前記新たな検索ドキュメント集合のそれぞれを前記クラスタに分類し、前記クラスタのそれぞれから、少なくとも1の特徴的語彙を別の新たなキーワード集合として抽出する第2のステップと、を更に含み、
前記第1のステップと前記第2のステップとを、所定の回数繰り返すことを特徴とする(1)または(2)に記載の方法。
このような構成によれば、当該サーバは、前記内容データの中から、前記新たなキーワード集合との関連度が前記所定の基準以上であるものを、新たな検索ドキュメント集合として、前記新たなキーワード集合のそれぞれについて抽出する第1のステップと、抽出した前記新たな検索ドキュメント集合のそれぞれを前記クラスタに分類し、前記クラスタのそれぞれから、少なくとも1の特徴的語彙を別の新たなキーワード集合として抽出する第2のステップと、を所定の回数繰り返す。
このことにより、当該サーバは、新たなキーワード集合の抽出と分類を繰り返すことで、繰り返しの系列ごとにドキュメントの内容(テーマ)が純化されたグループを形成する。その結果、視点を変えたドキュメントが効率的に抽出される可能性がある。
(4) 前記第1のステップと前記第2のステップとを繰り返すことにより系列として抽出される前記新たなキーワード集合の和から、少なくとも1の特徴的語彙を別の新たなキーワード集合として抽出するステップを更に含む(3)に記載の方法。
このような構成によれば、当該サーバは、系列として抽出された新たなキーワード集合を組み合わせて、更に新たなキーワード集合を生成する。このことにより、系列として純化されたテーマを示すキーワードが生成され、特定の内容のドキュメントを効率的に検索できる可能性がある。
(5) 複数の前記系列を類似度により分類し、それぞれから少なくとも1の特徴的語彙を別の新たなキーワード集合としてそれぞれ抽出するステップを更に含む(4)に記載の方法。
このような構成によれば、当該サーバは、系列として分類された新たなキーワード集合を、更に類似度によって集約する。このことにより、類似したキーワード集合が生成されることがなくなるので、似た内容のドキュメントが分散されることなく検索できる可能性がある。
(6) 前記基準キーワード集合のそれぞれと、当該基準キーワード集合に基づいて抽出した前記新たなキーワード集合とを、それぞれ関連付けて記憶するステップを更に含み、
後に、前記基準キーワード集合に含まれる少なくとも1の前記キーワードを受信したことに応じて、関連する前記新たなキーワード集合を読み出すことを特徴とする(1)から(5)のいずれかに記載の方法。
このような構成によれば、当該サーバは、前記基準キーワード集合のそれぞれと、当該基準キーワード集合に基づいて抽出した前記新たなキーワード集合とを、それぞれ関連付けて記憶し、後に、前記基準キーワード集合に含まれる少なくとも1の前記キーワードを受信したことに応じて、関連する前記新たなキーワード集合を読み出す。
このことにより、当該サーバは、予め関連する新たなキーワード(ファセット)を記憶しておくので、検索要求に応じて適宜読み出すことで処理時間を短縮し、効率的に検索を行うことができる。
(7) 読み出した前記新たなキーワード集合に含まれるキーワードとの類似度に基づいて、別の新たなキーワード集合を読み出すことを特徴とする(6)に記載の方法。
このような構成によれば、当該サーバは、異なるキーワードに基づくファセット同士の類似度から、異なるキーワード間の関連性を見出すことができる。このことにより、当該サーバは、異なる視点による関連キーワードを提示することができ、ユーザにとって有益なドキュメントを検索、提供できる可能性がある。
(8) 前記新たなキーワード集合を、前記キーワードの候補として、前記端末装置に送信するステップを更に含む(1)から(7)のいずれかに記載の方法。
このような構成によれば、当該サーバは、抽出した新たなキーワード集合をユーザに提示することで、別の視点に基づくドキュメント検索を促す。このことにより、ユーザにとって有益なドキュメントに辿り着くきっかけを作り出せる可能性がある。
(9) 前記内容データの中から、前記新たなキーワード集合との関連度が前記所定の基準以上であるものを、新たな検索ドキュメント集合として、前記新たなキーワード集合のそれぞれについて抽出するステップと、
抽出した前記新たな検索ドキュメント集合を、検索結果として前記端末装置に送信するステップと、を更に含む(1)から(8)のいずれかに記載の方法。
このような構成によれば、当該サーバは、前記内容データの中から、前記新たなキーワード集合との関連度が前記所定の基準以上であるものを、新たな検索ドキュメント集合として、前記新たなキーワード集合のそれぞれについて抽出し、抽出した前記新たな検索ドキュメント集合を、検索結果として前記端末装置に送信する。
このことにより、当該サーバは、新たなキーワード集合(ファセット)に関連するドキュメントをユーザに検索結果として提示するので、ユーザが指定したキーワードとは異なる視点による関連ドキュメントを自動的に提供することができる。その結果、ユーザの検索操作に応じて、例えば、関連商品や広告等を効果的に表示することもできる。
(10) 前記検索結果は、前記クラスタのサイズに基づいて、前記新たな検索ドキュメント集合を順位付けして生成することを特徴とする(9)に記載の方法。
このような構成によれば、当該サーバは、クラスタのサイズやコンパクト度に基づいて、新たな検索ドキュメント集合を順位付けして抽出するので、重要度が高いドキュメントが優先的に抽出され、効果的な検索結果を提示できる可能性がある。
(11) 前記検索結果は、前記新たなキーワード集合の複数から共通して抽出される前記内容データを高く順位付けして生成することを特徴とする(9)または(10)に記載の方法。
このような構成によれば、当該サーバは、複数の新たなキーワード集合から共通して検索されるドキュメントを上位に順位付けするので、多くの情報を含んだ効果的なドキュメントを優先的に提示することができる。
(12) 情報を分類し特徴付けるための複数の分類データを予め記憶するステップと、
前記クラスタに対して、前記分類データの中から関連度が最も高いものを選択するステップを更に含み、
前記検索結果は、選択した前記分類データを、前記新たな検索ドキュメント集合に付加して生成することを特徴とする(9)から(11)のいずれかに記載の方法。
このような構成によれば、当該サーバは、情報を分類し特徴付けるための複数の分類データを予め記憶し、前記クラスタに対して、前記分類データの中から関連度が最も高いものを選択し、前記検索結果は、選択した前記分類データを、前記新たな検索ドキュメント集合に付加して生成する。
このことにより、当該サーバは、検索結果であるドキュメントを既存の分類体系に当てはめ、検索結果として提示することができる。その結果、どの分野についてのドキュメントであるかを明示した上で、関連ドキュメントを提示することができる。
(13) 前記検索結果は、前記新たな検索ドキュメント集合から前記検索ドキュメント集合に含まれる前記内容データを除いて生成することを特徴とする(9)から(12)のいずれかに記載の方法。
このような構成によれば、当該サーバは、新たなキーワード集合(ファセット)を抽出するための検索ドキュメント集合を除いて検索結果を生成する。このことにより、当該サーバは、ユーザにより指定されたキーワードとは異なる視点により抽出した関連ドキュメントに、ユーザの注意を向けさせることができる。
(14) 前記新たな検索ドキュメント集合に対し、前記新たなキーワード集合を関連付けて記憶するステップを更に含む(3)から(13)のいずれかに記載の方法。
このような構成によれば、当該サーバは、検索されたドキュメントに対して、キーワードを関連付けて記憶するので、検索履歴として後から利用することができ、同じ検索要求に対して効率的に結果を生成することができる。
(15) 通信回線を介して端末装置と接続され、少なくとも1のキーワードからなる基準キーワード集合に関連するドキュメントデータを検索するサーバであって、
複数のドキュメントの内容を示す内容データを受信して記憶する手段と、
前記端末装置から、前記基準キーワード集合を受信する手段と、
前記内容データの中から、前記基準キーワード集合との関連度が所定の基準以上であるものを、検索ドキュメント集合として抽出する手段と、
抽出した前記検索ドキュメント集合をクラスタに分類し、前記クラスタのそれぞれから、少なくとも1の特徴的語彙を新たなキーワード集合として抽出する手段と、を備えるサーバ。
このような構成によれば、当該サーバを運用することにより、(1)と同様の効果が期待できる。
(16) 通信回線を介して端末装置と接続されたサーバに、少なくとも1のキーワードからなる基準キーワード集合に関連するドキュメントデータを検索させるプログラムであって、
複数のドキュメントの内容を示す内容データを受信して記憶するステップと、
前記端末装置から、前記基準キーワード集合を受信するステップと、
前記内容データの中から、前記基準キーワード集合との関連度が所定の基準以上であるものを、検索ドキュメント集合として抽出するステップと、
抽出した前記検索ドキュメント集合をクラスタに分類し、前記クラスタのそれぞれから、少なくとも1の特徴的語彙を新たなキーワード集合として抽出するステップと、を実行させるプログラム。
このような構成によれば、当該プログラムを当該サーバ上で実行することにより、(1)と同様の効果が期待できる。
本発明によれば、基となるキーワードから、別の観点による新たなキーワード(ファセット)を抽出し、効果的に関連するドキュメントの検索ができる可能性がある。
本発明に係る好適な実施形態の一例について、図面に基づいて以下に説明する。
[システムの全体構成]
図1は、本発明の好適な実施形態の一例に係る検索システムの全体構成を表すブロック図である。
サーバ10、端末20、およびドキュメントサーバ30が、通信ネットワーク40を介して接続されている。サーバ10は、端末20から受信するキーワードに基づいて、ドキュメントサーバ30が記憶しているドキュメントから、関連するものを検索する。
ここで、ドキュメントサーバ30は複数存在してよく、ドキュメントデータを所定のタイミングで受信してドキュメントDB130に記憶する。なお、記憶するデータはドキュメントデータ全体である必要はなく、その内容を示すデータであればよい。サーバ10は、例えば定期的に複数のドキュメントサーバ30を巡回し、ドキュメントの内容やドキュメントへのリンクを含む内容データを収集して記憶する。
サーバ10は、端末20から検索に用いるキーワードを受信し、検索処理部110において、ドキュメントDB130から関連するドキュメントを検索する。その際、受信したキーワードとは別の新たなキーワード(ファセット)を抽出する(詳しくは、図3〜図9にて後述する)。
検索の履歴は、ログ監視部がファセットDB140に記憶する。検索処理部110は、ファセットDB140から読み出したキーワード等を再利用でき、これにより新たなドキュメントの検索を行ってもよい。
サーバ10は、抽出したファセットあるいはファセットを用いた検索結果を端末20に送信する。端末20は、受信したファセットあるいは検索結果を表示し、ユーザが入力したキーワードとは別の視点による情報を提示する。ユーザは、この情報に応じて、新たなWebページへ遷移したり、新たな視点による検索を実行したりできる。
なお、サーバ10は単一の装置として説明したが、その数に制限はなく、必要に応じて1または複数で構成してよい。例えば、Webサーバ、DBサーバ、アプリケーションサーバを含んで構成してよく、1台のサーバで構成しても、それぞれ別のサーバとして構成してもよい。
[サーバのハードウェア構成]
図2は、本発明の好適な実施形態の一例に係るサーバ10のハードウェア構成を示す図である。サーバ10は、検索処理部110およびログ監視部120を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、USBポート1090、I/Oコントローラ1070、ならびにキーボードおよびマウス1100等の入力手段や表示装置1022を備える。
I/Oコントローラ1070には、テープドライブ1072、ハードディスク1074、光ディスクドライブ1076、半導体メモリ1078、等の記憶手段を接続することができる。
BIOS1060は、サーバ10の起動時にCPU1010が実行するブートプログラムや、サーバ10のハードウェアに依存するプログラム等を格納する。
ドキュメントDB130およびファセットDB140を含む記憶部を構成するハードディスク1074は、サーバ10がサーバとして機能するための各種プログラムおよび本発明の機能を実行するプログラムを記憶しており、更に必要に応じて各種データベースを構成可能である。
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラムまたはデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050またはハードディスク1074に提供することもできる。また、同様にテープドライブ1072に対応したテープメディア1071を主としてバックアップのために使用することもできる。
サーバ10に提供されるプログラムは、ハードディスク1074、光ディスク1077、またはメモリーカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ1070を介して、記録媒体から読み出され、または通信I/F1040を介してダウンロードされることによって、サーバ10にインストールされ実行されてもよい。
前述のプログラムは、内部または外部の記憶媒体に格納されてもよい。ここで、記憶部を構成する記憶媒体としては、ハードディスク1074、光ディスク1077、またはメモリーカードの他に、MD等の光磁気記録媒体、テープメディア1071を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク1074または光ディスクライブラリー等の記憶装置を記録媒体として使用し、通信回線を介してプログラムをサーバ10に提供してもよい。
ここで、表示装置1022は、サーバ管理者にデータの入力を受け付ける画面を表示したり、サーバ10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
ここで、入力手段は、サーバ管理者による入力の受け付けを行うものであり、キーボードおよびマウス1100等により構成してよい。
また、通信I/F1040は、サーバ10を専用ネットワークまたは公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデムおよびイーサネット(登録商標)・アダプタを含んでよい。
以上の例は、サーバ10について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明したサーバにより実現される機能は、上述の方法を当該コンピュータにより実行することにより、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
[端末のハードウェア構成]
端末20も、上述のサーバ10と同様な構成で実現できる。また、上述の例ではいわゆるコンピュータで実現した例について説明したが、更に、本発明の原理が適用可能である限り、携帯電話、PDA(Personal Data Assistant)等の様々な端末で実現してもよい。
[処理フロー]
図3は、本発明の好適な実施形態の一例に係る処理の流れを示すフローチャートである。
ステップS11では、サーバ10は、端末20からドキュメント検索を行うためのキーワードを受信する。なお、キーワードは複数の組み合わせ(キーワード集合)であってもよく、一般には、これらのAND条件により、検索対象の絞り込みを行う。
ステップS12では、サーバ10は、ステップS11にて受信したキーワード集合に基づいて、ドキュメントの検索を行う。具体的には、例えばドキュメントDBに記憶しているドキュメントの内容を示す内容データと、キーワードそれぞれとの類似度(マッチング度合)を評価することにより、順位付けして抽出することができる。その際、類似度が所定の基準以上であるものに限って抽出する、あるいは、類似度が高いものから順に所定数を抽出することとしてよい。
ステップS13では、サーバ10は、ステップS12にて検索した複数のドキュメントを内容の類似度に応じてクラスタリングする。具体的には、例えば、ワン・パスクラスタリング、k−means、階層クラスタリング等、公知の技術を用いることができる。
ステップS14では、サーバ10は、ステップS13にて分類された個々のクラスタから、それらを特徴付ける語彙の抽出をする。特徴的語彙を抽出する方法としては、例えば、Rocchio方式、wpq方式等、公知の技術を用いることができる。ここで抽出された特徴的語彙は、ステップS11で受信したキーワードとは異なることが期待でき、異なる観点での新たなキーワード(ファセット)として、更なる検索に利用することができる。
ステップS15では、サーバ10は、ファセットの抽出を終了するか否かを判別し、続行する場合(NOの場合)にはステップS12〜S14を繰り返す。具体的には、例えば、所定の回数繰り返すことにより終了と判別したり、検索されるドキュメントの数が所定数を下回った場合に終了と判別したりといった判別基準を、予め設定しておくこととしてよい。
[ファセット抽出の模式図]
図4は、本発明の好適な実施形態の一例に係るファセットの抽出手順を示す模式図である。
まず、端末20のユーザから初期のキーワードTが入力される。サーバ10は、キーワードTに基づいてドキュメントを検索し、検索ドキュメント集合Rを得る。検索ドキュメント集合Rは複数のドキュメントからなり、クラスタC1、C2、C3に分類される。
クラスタC1、C2、C3からは、それぞれを特徴付ける新たなキーワードT1、T2、T3を抽出する。抽出されたキーワードT1、T2、T3は、初期のキーワードTとは異なり、例えば、同じテーマであっても視点の異なるキーワードが抽出されることが期待できる。
このように、抽出されたキーワードT1、T2、T3は、初期のキーワードTのファセットであるので、これらに基づいて新たにドキュメントを検索することによって、別の観点に基づいた情報を得ることができる。ここで、キーワードT1、T2、T3からは、それぞれ検索ドキュメント集合R1、R2、R3が得られる。
以下、ドキュメントの検索とクラスタリング、新たなキーワード(ファセット)の抽出を繰り返し、木構造に枝分かれしたファセットの集合を得ることができる。
なお、抽出されるキーワードは、重要度にばらつきがあり、利用価値の低いものも含まれていると考えられる。そこで、例えば、クラスタのサイズやコンパクト度に応じて順位付けし、クラスタの重要度が低いと判別されるもの(例えば、クラスタC22)は除外してもよい。
[ファセットの系列]
図5は、本発明の好適な実施形態の一例に係るファセットの系列を示す図である。
初期のキーワードTから始まって、サーバ10は、前述のように木構造で新たなキーワードを抽出する。ここで、T−T1−T11の系列を1のキーワード集合Aとすることができる。同様に、キーワード集合B、C、D、Eを生成し、これらをキーワードTのファセットとしてユーザに提示、または、これに基づいてドキュメントを検索する。
ここで、キーワード集合Aから、更に特徴を表すキーワードを抽出し、新たなキーワード集合Fを生成してもよい。また、系列間の類似度を評価することによって、例えばキーワード集合BおよびCの類似度が高い場合に、両者を組み合わせた新たなキーワード集合Gを生成してもよい。
[検索結果提示例1]
図6〜図8は、本発明の好適な実施形態の一例に係る検索結果提示例を示す図である。
図6では、受け付けたキーワードから、検索ドキュメント集合を介して、新たなキーワード(ファセット)を抽出している。サーバ10は、このファセットを検索結果として端末20に送信することができる。このことにより、端末20のユーザは、入力したキーワードに関連する別の視点に気付くことができ、新たな検索を実行するきっかけとなる。
なお、検索結果となるファセットは、抽出元であるクラスタのサイズやコンパクト度に基づいて順位付けや絞り込みをしてもよい。これにより、ユーザにとって有益な情報を優先的に提示できる可能性がある。
続いてサーバ10は、ファセットから更にドキュメントを検索し、元のキーワードから検索される検索ドキュメント集合とは異なるドキュメントを検索結果として端末20に送信することができる。更には、前述のようにファセットの抽出とドキュメントの検索を繰り返すことにより、更に違った検索結果を端末20に送信し、ユーザに提示することができる。
このとき、サーバ10は、検索結果となる複数のドキュメントに順位付けをすることができる。例えば、複数のファセットと関連する(複数のファセットから共通して検索される)ドキュメントを優先的に提示してもよいし、前述のファセットの順位付けに応じて、対応するドキュメントを順位付けしてもよい。
[検索結果提示例2]
図7では、既存のカテゴリや類語辞書等、分類データに検索結果を関連付ける例を示している。
サーバ10は、検索ドキュメント集合を分類したクラスタに対して、予め記憶している分類データ群から相応しい1の分類データを選択する。その際、例えば、クラスタに含まれるドキュメントが分類データと合致する率等から選択することとしてよい。
サーバ10は、選択した分類データを、ファセットに基づいて検索したドキュメントに関連付けて、検索結果として提示する。このことにより、検索結果に辿り着く元となったテーマを、既存の分類に当てはめて提示し、ユーザの理解を助けることができる。更に、ユーザは、後に同様の情報を得るために効果的なテーマを知ることができる。
[検索結果提示例3]
図8では、ファセット間の類似により、関連情報を検索結果として提示する例を示している。
サーバ10は、予め主要なキーワード集合(既存のカテゴリ分類等)に基づいてファセットを生成し、記憶しておく。図9にファセットを記憶するテーブルの例を示す。ここでは、カテゴリ、カテゴリ細分、品目という階層に対して、複数のキーワードが用意されている。例えば、「日用品、クリーム、日焼け止め」というカテゴリをもった商品には、「海、山、海水浴」といったキーワード(ファセット)を関連付けて記憶している。
端末20のユーザから、カテゴリ選択やキーワード入力等の検索入力を受け付けると、サーバ10は、対応するカテゴリAに関連付くファセットAを読み出す。サーバ10は、このファセットAに基づくドキュメントAを検索結果としてもよいが、ここでは、更に別の関連情報を読み出す。
サーバ10は、図9の例に示すように複数のカテゴリ情報を記憶しており、カテゴリAに関連付くファセットAと、カテゴリBに関連付くファセットBとが類似している場合、カテゴリBに基づくドキュメントBを検索結果として提示する。
例えば、図9において「海水浴、砂浜用、砂浜」は、マッチングや類語辞書等により、互いに類似していると判別することができる。ここで、ユーザから「レジャーカテゴリでビーチパラソルを購入した」という検索入力を受け付けた場合、ファセットが類似する品目である「日焼け止め」等を検索結果として端末20に表示することができる。このような情報は、ユーザの関心が高いものであると考えられるので、サーバ10は、検索入力に関連する有益な情報を効果的にユーザに提供できる可能性がある。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
本発明の好適な実施形態の一例に係る検索システムの全体構成を表すブロック図である。 本発明の好適な実施形態の一例に係るサーバのハードウェア構成を示す図である。 本発明の好適な実施形態の一例に係る処理の流れを示すフローチャートである。 本発明の好適な実施形態の一例に係るファセットの抽出手順を示す模式図である。 本発明の好適な実施形態の一例に係るファセットの系列を示す図である。 本発明の好適な実施形態の一例に係る検索結果提示例を示す図である。 本発明の好適な実施形態の一例に係る検索結果提示例を示す図である。 本発明の好適な実施形態の一例に係る検索結果提示例を示す図である。 本発明の好適な実施形態の一例に係るファセットを記憶するテーブルの例を示す図である。
符号の説明
10 サーバ
20 端末
30 ドキュメントサーバ
40 通信ネットワーク
110 検索処理部
120 ログ監視部
130 ドキュメントDB
140 ファセットDB

Claims (13)

  1. 通信回線を介して端末装置と接続されたサーバが、少なくとも1のキーワードからなるキーワード集合に関連するドキュメントデータを検索する方法であって、
    複数のドキュメントの内容を示す内容データを記憶するステップと、
    前記端末装置から、第1のキーワード集合を受信する受信ステップと、
    前記内容データの中から、キーワード集合との関連度が所定の基準以上であるものを、検索ドキュメント集合として抽出するドキュメント抽出ステップと、
    抽出した前記検索ドキュメント集合をクラスタに分類し、前記クラスタのそれぞれから、少なくとも1の特徴的語彙を第2のキーワード集合としてそれぞれ抽出するキーワード抽出ステップと、
    前記第1のキーワード集合のそれぞれと、当該第1のキーワード集合に基づいて抽出した前記第2のキーワード集合とを、それぞれ関連付けて記憶するキーワード記憶ステップと、
    前記キーワード記憶ステップにおいて記憶された第1のキーワード集合に含まれる少なくとも1のキーワードを、再度前記受信ステップにおいて受信したことに応じて、当該第1のキーワード集合と関連付けられている第2のキーワード集合を読み出し、当該読み出した前記第2のキーワード集合に含まれるキーワードとの類似度に基づいて、別の第2のキーワード集合を読み出し、さらに、当該別の第2のキーワード集合と関連付けられている第1のキーワード集合を読み出す読み出しステップと、
    前記読み出しステップにおいて読み出された前記別の第2のキーワード集合と関連付けられている第1のキーワード集合を、新たな検索の実行を促すための第3のキーワード集合として、前記端末装置に送信する送信ステップと、を含む方法。
  2. 前記内容データの中から、前記第3のキーワード集合との関連度が前記所定の基準以上であるものを、検索結果のドキュメント集合として、前記第3のキーワード集合のそれぞれについて抽出する検索結果抽出ステップを更に含み
    前記送信ステップにおいて、前記検索結果のドキュメント集合を、前記端末装置に送信する請求項1に記載の方法。
  3. 通信回線を介して端末装置と接続されたサーバが、少なくとも1のキーワードからなるキーワード集合に関連するドキュメントデータを検索する方法であって、
    複数のドキュメントの内容を示す内容データを記憶するステップと、
    前記端末装置から、第1のキーワード集合を受信する受信ステップと、
    前記内容データの中から、キーワード集合との関連度が所定の基準以上であるものを、検索ドキュメント集合として抽出するドキュメント抽出ステップと、
    抽出した前記検索ドキュメント集合をクラスタに分類し、前記クラスタのそれぞれから、少なくとも1の特徴的語彙を第2のキーワード集合としてそれぞれ抽出するキーワード抽出ステップと、
    前記第1のキーワード集合のそれぞれと、当該第1のキーワード集合に基づいて抽出した前記第2のキーワード集合とを、それぞれ関連付けて記憶するキーワード記憶ステップと、
    前記キーワード記憶ステップにおいて記憶された第1のキーワード集合に含まれる少なくとも1のキーワードを、再度前記受信ステップにおいて受信したことに応じて、当該第1のキーワード集合と関連付けられている第2のキーワード集合を読み出し、当該読み出した前記第2のキーワード集合に含まれるキーワードとの類似度に基づいて、別の第2のキーワード集合を読み出し、さらに、当該別の第2のキーワード集合と関連付けられている第1のキーワード集合を読み出す読み出しステップと、
    前記読み出しステップにおいて読み出された前記別の第2のキーワード集合と関連付けられている第1のキーワード集合を第3のキーワード集合とし、前記内容データの中から、当該第3のキーワード集合との関連度が前記所定の基準以上であるものを、検索結果のドキュメント集合として抽出する検索結果抽出ステップと、
    前記検索結果抽出ステップにおいて抽出された前記検索結果のドキュメント集合を、前記端末装置に送信する送信ステップと、を含む方法。
  4. 前記検索結果抽出ステップにおいて、前記検索結果のドキュメント集合は、前記ドキュメント抽出ステップで抽出された前記検索ドキュメント集合に含まれる前記内容データを除いて生成される請求項2または請求項3に記載の方法。
  5. 前記検索結果のドキュメント集合に対し、前記第3のキーワード集合を関連付けて記憶するステップを更に含む請求項2から請求項4のいずれかに記載の方法。
  6. 前記ドキュメント抽出ステップにおいて、前記第2のキーワード集合は、前記クラスタの内、それぞれのサイズに基づいて選択したクラスタから抽出される請求項1から請求項5のいずれかに記載の方法。
  7. ドキュメント抽出ステップと前記キーワード抽出ステップとを、所定の回数繰り返すことを特徴とする請求項1から請求項6のいずれかに記載の方法。
  8. 前記ドキュメント抽出ステップと前記キーワード抽出ステップとを繰り返すことにより系列として抽出される前記第2のキーワード集合の和から、少なくとも1の特徴的語彙を更に第2のキーワード集合として抽出する系列キーワード抽出ステップを更に含む請求項に記載の方法。
  9. 前記系列キーワード抽出ステップにおいて、複数の前記系列を類似度により分類し、それぞれから少なくとも1の特徴的語彙を更に第2のキーワード集合としてそれぞれ抽出する請求項に記載の方法。
  10. 通信回線を介して端末装置と接続され、少なくとも1のキーワードからなるキーワード集合に関連するドキュメントデータを検索するサーバであって、
    複数のドキュメントの内容を示す内容データを受信して記憶する手段と、
    前記端末装置から、第1のキーワード集合を受信する受信手段と、
    前記内容データの中から、キーワード集合との関連度が所定の基準以上であるものを、検索ドキュメント集合として抽出する手段と、
    抽出した前記検索ドキュメント集合をクラスタに分類し、前記クラスタのそれぞれから、少なくとも1の特徴的語彙を第2のキーワード集合としてそれぞれ抽出する手段と、
    前記第1のキーワード集合のそれぞれと、当該第1のキーワード集合に基づいて抽出した前記第2のキーワード集合とを、それぞれ関連付けて記憶するキーワード記憶手段と、
    前記キーワード記憶手段により記憶された第1のキーワード集合に含まれる少なくとも1のキーワードを、再度前記受信手段により受信したことに応じて、当該第1のキーワード集合と関連付けられている第2のキーワード集合を読み出し、当該読み出した前記第2のキーワード集合に含まれるキーワードとの類似度に基づいて、別の第2のキーワード集合を読み出し、さらに、当該別の第2のキーワード集合と関連付けられている第1のキーワード集合を読み出す読み出し手段と、
    前記読み出し手段により読み出された前記別の第2のキーワード集合と関連付けられている第1のキーワード集合を、新たな検索の実行を促すための第3のキーワード集合として、前記端末装置に送信する送信手段と、を備えるサーバ。
  11. 通信回線を介して端末装置と接続され、少なくとも1のキーワードからなるキーワード集合に関連するドキュメントデータを検索するサーバであって、
    複数のドキュメントの内容を示す内容データを受信して記憶する手段と、
    前記端末装置から、第1のキーワード集合を受信する受信手段と、
    前記内容データの中から、キーワード集合との関連度が所定の基準以上であるものを、検索ドキュメント集合として抽出する手段と、
    抽出した前記検索ドキュメント集合をクラスタに分類し、前記クラスタのそれぞれから、少なくとも1の特徴的語彙を第2のキーワード集合としてそれぞれ抽出する手段と、
    前記第1のキーワード集合のそれぞれと、当該第1のキーワード集合に基づいて抽出した前記第2のキーワード集合とを、それぞれ関連付けて記憶するキーワード記憶手段と、
    前記キーワード記憶手段により記憶された第1のキーワード集合に含まれる少なくとも1のキーワードを、再度前記受信手段により受信したことに応じて、当該第1のキーワード集合と関連付けられている第2のキーワード集合を読み出し、当該読み出した前記第2のキーワード集合に含まれるキーワードとの類似度に基づいて、別の第2のキーワード集合を読み出し、さらに、当該別の第2のキーワード集合と関連付けられている第1のキーワード集合を読み出す読み出し手段と、
    前記読み出し手段において読み出された前記別の第2のキーワード集合と関連付けられている第1のキーワード集合を第3のキーワード集合とし、前記内容データの中から、当該第3のキーワード集合との関連度が前記所定の基準以上であるものを、検索結果のドキュメント集合として抽出する検索結果抽出手段と、
    前記検索結果抽出手段により抽出された前記検索結果のドキュメント集合を、前記端末装置に送信する送信手段と、を備えるサーバ。
  12. 通信回線を介して端末装置と接続されたサーバに、少なくとも1のキーワードからなるキーワード集合に関連するドキュメントデータを検索させるプログラムであって、
    複数のドキュメントの内容を示す内容データを受信して記憶するステップと、
    前記端末装置から、第1のキーワード集合を受信する受信ステップと、
    前記内容データの中から、キーワード集合との関連度が所定の基準以上であるものを、検索ドキュメント集合として抽出するステップと、
    抽出した前記検索ドキュメント集合をクラスタに分類し、前記クラスタのそれぞれから、少なくとも1の特徴的語彙を第2のキーワード集合としてそれぞれ抽出するステップと、
    前記第1のキーワード集合のそれぞれと、当該第1のキーワード集合に基づいて抽出した前記第2のキーワード集合とを、それぞれ関連付けて記憶するキーワード記憶ステップと、
    前記キーワード記憶ステップにおいて記憶された第1のキーワード集合に含まれる少なくとも1のキーワードを、再度前記受信ステップにおいて受信したことに応じて、当該第1のキーワード集合と関連付けられている第2のキーワード集合を読み出し、当該読み出した前記第2のキーワード集合に含まれるキーワードとの類似度に基づいて、別の第2のキーワード集合を読み出し、さらに、当該別の第2のキーワード集合と関連付けられている第1のキーワード集合を読み出す読み出しステップと、
    前記読み出しステップにおいて読み出された前記別の第2のキーワード集合と関連付けられている第1のキーワード集合を、新たな検索の実行を促すための第3のキーワード集合として、前記端末装置に送信する送信ステップと、を実行させるプログラム。
  13. 通信回線を介して端末装置と接続されたサーバに、少なくとも1のキーワードからなるキーワード集合に関連するドキュメントデータを検索させるプログラムであって、
    複数のドキュメントの内容を示す内容データを受信して記憶するステップと、
    前記端末装置から、第1のキーワード集合を受信する受信ステップと、
    前記内容データの中から、キーワード集合との関連度が所定の基準以上であるものを、検索ドキュメント集合として抽出するステップと、
    抽出した前記検索ドキュメント集合をクラスタに分類し、前記クラスタのそれぞれから、少なくとも1の特徴的語彙を第2のキーワード集合としてそれぞれ抽出するステップと、
    前記第1のキーワード集合のそれぞれと、当該第1のキーワード集合に基づいて抽出した前記第2のキーワード集合とを、それぞれ関連付けて記憶するキーワード記憶ステップと、
    前記キーワード記憶ステップにおいて記憶された第1のキーワード集合に含まれる少なくとも1のキーワードを、再度前記受信ステップにおいて受信したことに応じて、当該第1のキーワード集合と関連付けられている第2のキーワード集合を読み出し、当該読み出した前記第2のキーワード集合に含まれるキーワードとの類似度に基づいて、別の第2のキーワード集合を読み出し、さらに、当該別の第2のキーワード集合と関連付けられている第1のキーワード集合を読み出す読み出しステップと、
    前記読み出しステップにおいて読み出された前記別の第2のキーワード集合と関連付けられている第1のキーワード集合を第3のキーワード集合とし、前記内容データの中から、当該第3のキーワード集合との関連度が前記所定の基準以上であるものを、検索結果のドキュメント集合として抽出する検索結果抽出ステップと、
    前記検索結果抽出ステップにおいて抽出された前記検索結果のドキュメント集合を、前記端末装置に送信する送信ステップと、を実行させるプログラム。
JP2006252223A 2006-09-19 2006-09-19 ドキュメントデータを検索する方法、サーバ、およびプログラム Active JP4819628B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006252223A JP4819628B2 (ja) 2006-09-19 2006-09-19 ドキュメントデータを検索する方法、サーバ、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006252223A JP4819628B2 (ja) 2006-09-19 2006-09-19 ドキュメントデータを検索する方法、サーバ、およびプログラム

Publications (2)

Publication Number Publication Date
JP2008077137A JP2008077137A (ja) 2008-04-03
JP4819628B2 true JP4819628B2 (ja) 2011-11-24

Family

ID=39349164

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006252223A Active JP4819628B2 (ja) 2006-09-19 2006-09-19 ドキュメントデータを検索する方法、サーバ、およびプログラム

Country Status (1)

Country Link
JP (1) JP4819628B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5355949B2 (ja) * 2008-07-16 2013-11-27 株式会社東芝 次検索キーワード提示装置、次検索キーワード提示方法、及び次検索キーワード提示プログラム
JP5321258B2 (ja) * 2009-06-09 2013-10-23 日本電気株式会社 情報収集システムおよび情報収集方法ならびにそのプログラム
CN102253936B (zh) * 2010-05-18 2013-07-24 阿里巴巴集团控股有限公司 记录用户访问商品信息的方法及搜索方法和服务器
CN103368986B (zh) 2012-03-27 2017-04-26 阿里巴巴集团控股有限公司 一种信息推荐方法及信息推荐装置
JP5805151B2 (ja) * 2013-07-29 2015-11-04 Necパーソナルコンピュータ株式会社 検索装置、検索システムおよびプログラム
CN104516903A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 关键词扩展方法及系统、及分类语料标注方法及系统
JP6325502B2 (ja) * 2015-10-08 2018-05-16 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理システムおよび情報処理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005092443A (ja) * 2003-09-16 2005-04-07 Mitsubishi Research Institute Inc クラスター分析装置およびクラスター分析方法
JP2005258910A (ja) * 2004-03-12 2005-09-22 Yamatake Corp 階層キーワード抽出装置、方法、およびプログラム

Also Published As

Publication number Publication date
JP2008077137A (ja) 2008-04-03

Similar Documents

Publication Publication Date Title
US8332391B1 (en) Method and apparatus for automatically identifying compounds
US9122680B2 (en) Information processing apparatus, information processing method, and program
JP4172801B2 (ja) テキストからキーワードを検索する効率的なシステム、および、その方法
JP4819628B2 (ja) ドキュメントデータを検索する方法、サーバ、およびプログラム
JP4962986B2 (ja) コンテンツデータをカテゴリに分類する方法、サーバ、およびプログラム
US20150248428A1 (en) Lexicon based systems and methods for intelligent media search
US8090715B2 (en) Method and system for dynamically generating a search result
WO2008106667A1 (en) Searching heterogeneous interrelated entities
KR20080106202A (ko) 비교 웹 결과를 정렬하는 컴퓨터 구현 방법 및 컴퓨팅 장치
JP7451747B2 (ja) コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
US20100169178A1 (en) Advertising Method for Image Search
JP2009169541A (ja) Webページ検索サーバ及びクエリ推薦方法
CN110795627A (zh) 信息推荐方法及装置、电子设备
US20140032539A1 (en) Method and system to discover and recommend interesting documents
JP2010118021A (ja) トピックグラフを利用したドキュメント検索サーバ及び方法
JP2010097461A (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP2009500764A (ja) 情報価値を反映した情報検索方法及びその装置
JP2001084255A (ja) 文書検索装置および方法
JP5226241B2 (ja) タグを付与する方法
US11341138B2 (en) Method and system for query performance prediction
JP2010003134A (ja) 検索キーワードを推薦するサーバ、方法、およびプログラム
JP4544047B2 (ja) Web画像検索結果分類提示方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP2009282593A (ja) コンテンツを検索する索引データを管理する方法、サーバ、およびプログラム
US20130304720A1 (en) Methods and Apparatus for Presenting Search Results with Indication of Relative Position of Search Terms
JP2005010848A (ja) 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110830

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110901

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140909

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4819628

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250