JP2003271648A - 検索装置、検索方法、ならびに、プログラム - Google Patents
検索装置、検索方法、ならびに、プログラムInfo
- Publication number
- JP2003271648A JP2003271648A JP2002076543A JP2002076543A JP2003271648A JP 2003271648 A JP2003271648 A JP 2003271648A JP 2002076543 A JP2002076543 A JP 2002076543A JP 2002076543 A JP2002076543 A JP 2002076543A JP 2003271648 A JP2003271648 A JP 2003271648A
- Authority
- JP
- Japan
- Prior art keywords
- search
- group
- groups
- score
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
供する。 【解決手段】 検索装置201のグループ分割部202
は、検索対象文書を複数のグループに分割し、索引部2
03は、グループのそれぞれについて、当該グループ
と、こに含まれる検索対象文書に出現するキーワード
と、当該キーワードが出現する検索対象文書の数と、の
情報を対応付けて記憶し、入力受付部204は、検索要
求の入力を受け付け、グループスコア計算部205は、
グループのそれぞれについて、索引部203に記憶され
た情報を参照して検索要求に対するグループスコアを計
算し、グループ選択部206は、グループスコアによ
り、グループからいずれか1つ以上を選択し、検索部2
07は、選択されたグループのそれぞれについて、入力
を受け付けられた検索要求により、並列に検索を行い、
併合部208は、検索された結果を併合して、これを検
索結果として出力する。
Description
のに好適な検索装置、検索方法、ならびに、これらをコ
ンピュータに実現させるためのプログラムに関する。
に登録し、当該データベースに対して検索要求を与える
と、当該検索要求に適合した文書を検索結果として出力
する検索システムが提案されている。
の分野においても、世界中のウェブサイトの情報を収集
し、これをデータベース化して、ユーザからの検索要求
に対してこれに適合するようなウェブサイトのURL
(Universal Resource Locator)を提示するインターネ
ット検索エンジンも、各社から提供されている。
な検索を可能とするためには、データベースの規模や数
を増やす必要があるが、このような場合にはデータベー
スとの間の入出力や通信量、データベースそのものの処
理量が増大して、検索に要する時間(待ち時間)が長く
なってしまう、とともに、各データベースシステムへの
負荷が大きくなってしまうおそれがあるという問題が生
ずる。
は、複数の検索サブシステムを用意し、利用者が発する
検索要求の傾向をあらかじめ分析して、いずれかの検索
サブシステムを選択して負荷分散を図る検索技術が開示
されているが、状況によってはこの技術による効果が得
られないこともある。したがって、各種の状況に対応す
るため、さまざまな負荷分散の技術に対する要望は大き
い。
高速な検索を行うのに好適な検索装置、検索方法、なら
びに、これらをコンピュータに実現させるためのプログ
ラムを提供することを目的とする。
め、本発明の原理にしたがって、下記の発明を開示す
る。
ループ分割部と、索引部と、入力受付部と、グループス
コア計算部と、グループ選択部と、検索部と、併合部
と、を備え、以下のように構成する。
書を複数のグループに分割する。
ループのそれぞれについて、当該グループと、当該グル
ープに含まれる検索対象文書に出現するキーワードと、
当該キーワードが出現する検索対象文書の数と、の情報
を対応付けて記憶する。
受け付ける。
れた複数のグループのそれぞれについて、索引部に記憶
された情報を参照して入力を受け付けられた検索要求に
対するグループスコアを計算する。
ープスコアにより、複数のグループからいずれか1つ以
上のグループを選択する。
グループのそれぞれについて、入力を受け付けられた検
索要求により、並列に検索を行う。
グループのそれぞれについて検索された結果を併合し
て、これを入力を受け付けられた検索要求に対する検索
結果として出力する。
り検索対象文書をグループに分類するとともに、検索要
求から当該基準に対応するグループスコアを計算し、こ
れによって検索すべきグループを選択して、負荷分散を
図るとともに、ユーザは短い待ち時間で検索結果を得る
ことができるようになる。
は、分割された複数のグループのそれぞれについて、グ
ループと、当該グループに含まれる検索対象文書が含む
全単語数と、の情報を対応付けてさらに記憶するように
構成することができる。
は、分割された複数のグループのそれぞれについて、グ
ループと、当該グループに含まれる検索対象文書が含む
全キーワードについて、当該キーワードと、当該グルー
プと、当該グループ内での当該キーワードの出現文書数
と、の情報を対応付けてさらに記憶するように構成する
ことができる。
の一つであり、グループスコアの計算に、「グループに
含まれる検索対象文書が含む全単語数」「グループに含
まれるキーワードの出現文書数」などの情報を用いるこ
とができるようになる。
構成することができる。
のグループのそれぞれについて、当該グループに含まれ
る文書に対して入力を受け付けられた検索要求により、
文書スコアを計算する。
アと、計算された文書スコアと、を参照して、総合スコ
アを計算し、入力を受け付けられた検索要求に対する検
索結果を、当該総合スコアの順に出力する。
果をユーザに提示する順番を適切に決定し、ユーザが望
む要望に応じた順序で検索結果を提示できるようにな
る。
は、選択された1つ以上のグループのそれぞれについて
検索された結果を当該結果に含まれる検索対象文書が得
られた順に併合して、その順に出力するように構成する
ことができる。
ムにおいて検索処理が行われた場合には、検索対象文書
が得られた順にユーザにこれを提示して、待ち時間を減
らすことができるようになる。
構成することができる。
れURLが対応付けられる。
を、各グループに含まれる検索対象文書の数が所望の範
囲の数を超える場合は、これに対応付けられたURLの
木構造を広さ方向に分割してグループを再分割する。
は、当該グループと他のグループとを、併合後のグルー
プに含まれる検索対象文書の数が所望の範囲の数以下と
なるように、併合する。
適切な数にグループを構成することができる。
プ分割部は、当該検索対象文書のそれぞれについて、こ
れに出現する複数の単語の頻度からなるベクトルと、所
定のベクトルとの余弦を計算し、当該計算結果によって
当該検索対象文書を分類するように構成することができ
る。
らわし、これが所定のベクトルとの間に張る角に相当す
る情報を有する余弦(cosine)を計算して、所定のベク
トルとの「類似度」(どれだけ張る角が小さいか)によ
り文書をグループに分割することができるようになる。
プスコア計算部は、入力を受け付けられた検索要求と当
該所定のベクトルとに対して所定の類似度計算(両者の
余弦の計算を含む。)を行って、これをグループスコア
とするように構成することができる。
であらわし、これと、文書の分類の際に用いた「所定の
ベクトル」と、の間の「類似度」により検索要求をいず
れか1つ以上のグループに振り分けることができるよう
になる。
プ分割部は、当該検索対象文書のそれぞれに対して、所
定の検索要求により文書スコアを計算し、当該計算結果
によって当該検索対象文書を分類するように構成するこ
とができる。
のに用いる文書スコアを、グループ化の際にも利用でき
るようになる。
ープ分割工程と、索引工程と、入力受付工程と、グルー
プスコア計算工程と、グループ選択工程と、検索工程
と、併合工程と、を備え、以下のように構成する。
象文書を複数のグループに分割する。
ループのそれぞれについて、当該グループと、当該グル
ープに含まれる検索対象文書に出現するキーワードと、
当該キーワードが出現する検索対象文書の数と、の情報
を対応付けて記憶する。
力を受け付ける。
割された複数のグループのそれぞれについて、記憶され
た情報を参照して入力を受け付けられた検索要求に対す
るグループスコアを計算する。
グループスコアにより、複数のグループからいずれか1
つ以上のグループを選択する。
上のグループのそれぞれについて、入力を受け付けられ
た検索要求により、並列に検索を行う。
上のグループのそれぞれについて検索された結果を併合
して、これを入力を受け付けられた検索要求に対する検
索結果として出力する。
ンピュータを、上記の検索装置として機能させ、あるい
は、コンピュータに、上記の登録方法を実行させるよう
に構成する。
act Disk Read Only Memory)やFD(Flexible Disk;
フレキシブルディスク)などの各種の記録媒体に記録す
ることができるほか、インターネットなどのコンピュー
タ通信網を介して配布することができる。
明の実施の形態について説明する。
明のデータ構造が記録された記録媒体を処理して、本発
明の検索装置を構成するサブ装置として機能しうる典型
的な情報処理装置の概要構成を示す模式図である。以
下、図1を参照して説明する。
Processing Unit;中央処理ユニット)102によって
制御される。情報処理装置101に電源を投入すると、
CPU102は、ROM103に記憶されたIPL(In
itial Program Loader;初期プログラムローダ)を実行
する。
ライブ110に装着されたFD、CD−ROMドライブ
111に装着されたCD−ROMなどの記録媒体に記憶
されたOS(Operating System;オペレーティング・シ
ステム)プログラムを読み出して実行するプログラムで
ある。
ボード105やマウス106などにより入力されたユー
ザの指示にしたがって、あるいは、ハードディスクなど
にあらかじめ記述された設定ファイルの内容にしたがっ
て、ハードディスクなどに記憶されたアプリケーション
プログラムを実行する。
ることにより、情報処理装置101は、サブ装置として
機能することとなる。
ることができるほか、ユーザとの対話を担うサブ装置で
は、ユーザからの検索要求の入力を受け付けることがで
きる。
行の際に、RAM107を一時的な作業用記憶領域とし
て用いる。このほか、一時的な作業用記憶領域として、
CPU102内に設けられたレジスタやキャッシュ(図
示せず)が使われる。
を報告したり、途中経過を見せたり、管理情報を提示し
たりするため、CPU102は、液晶ディスプレイやC
RT(Cathode Ray Tube)などの表示装置108に当該
情報を表示することができる。マウス106による指示
操作では、マウス106を移動することにより、画面に
表示されたカーソルが移動し、マウス106をクリック
することにより、カーソルが指すメニュー項目を選択す
ることができる。
Interface Card)やモデムなどのインターフェース10
9を介してサブ装置同士の通信が行われるほか、インタ
ーネットなどのコンピュータ通信網と通信を行うことが
できる。また、インターフェース109を介して受信し
たプログラムを実行したり、などができる。
解を容易にするため、インターネット検索エンジンに本
発明を適用した場合を例にあげて、本発明の一本実施形
態を説明する。図2は、本実施形態に係る検索装置の概
要構成を示す模式図である。以下、本図を参照して説明
する。
分割部202と、索引部203と、入力受付部204
と、グループスコア計算部205と、グループ選択部2
06と、検索部207と、併合部208と、を備える。
て実行させる索引作成処理の流れを示すフローチャート
である。
複数のグループに分割する(ステップS301)。本実
施形態で検索対象文書は、インターネット内の各ウェブ
サイトに存在するHTML(Hyper Text Markup Langua
ge)文書となる。これを、以下のような手法により、複
数のグループに分割する。
書のそれぞれについて、これに出現する複数の単語の頻
度からなるベクトルと、所定のベクトルとの余弦を計算
し、当該計算結果によって当該検索対象文書を分類する
ものである。
キーワードをあらかじめm個選択し、当該キーワードの
それぞれが当該検索対象文書に出現する頻度を各要素と
するベクトルを考える。
あれば、「所定のベクトル」として、互いに異なる単位
ベクトルを適宜n個用意する。
ベクトルとの余弦を計算することにより、当該単位ベク
トルと検索対象文書のベクトルとが張る角が最も小さい
ものを選ぶことができる。そして、選ばれた単位ベクト
ルに対応付けられたグループに当該検索対象文書を分類
すればよい。
実施形態として後述する。
グループのそれぞれについて、当該グループと、当該グ
ループに含まれる検索対象文書に出現するキーワード
と、当該キーワードが出現する検索対象文書の数と、の
情報を対応付けて記憶する(ステップS302)。この
キーワードとしては、上記グループの分類の際に用いた
ものと同じものを採用することができる。
を転置索引表を用いることにより高速にグループスコア
を計算することができるようにする。転置索引表は、検
索要求に含まれるキーワード(やこれに対応するID)
を与えると、当該キーワードが出現する位置ならびに統
計情報が得られるものである。転置索引表は、キーワー
ド等をキーとするハッシュやB木、トライ構造などの公
知の技術によって構成することができる。
応付けられたデータベース(DB)が用意されており、
このデータベースには、各グループにまた、検索対象文
書のURL等と合わせて、属する検索対象文書そのもの
やこれを前処理したものを記録しておく。
については、その他の実施形態として後述する。
て実行させる検索応答処理の流れを示すフローチャート
である。
け付ける(ステップS401)。受け付ける検索要求
は、適切なキーワードにより表現されるように正規化さ
れたものであることが望ましい。また、キーワードに適
宜重み付けをしてもよい。正規化には、データベース検
索の種々の技法を用いることができる。
分割された複数のグループのそれぞれについて、索引部
203に記憶された情報を参照して入力を受け付けられ
た検索要求に対するグループスコアを計算する(ステッ
プS402)。
も、ベクトルの余弦を用いる。すなわち、n個のグルー
プのそれぞれについて、当該キーワードが出現する検索
対象文書の数を要素とするベクトルと同じ向きの単位ベ
クトルを考える。一方、検索要求に対しても、その検索
要求に出現するキーワードの数(に重み付けをしたも
の)を要素とするベクトルを求める。そして、その各単
位ベクトルと、求めた検索要求のベクトルとの余弦を計
算し、これをグループスコアとする。本手法による場
合、グループスコアの値は、0以上1以下となり、大き
ければ大きいほど、2つのベクトルが張る角は小さいこ
とになる。
たグループスコアにより、複数のグループからいずれか
1つ以上のグループを選択する(ステップS403)。
ものからいずれかあらかじめ定めた数だけグループを選
択する。
以上のグループのそれぞれについて、入力を受け付けら
れた検索要求により、並列に検索を行う(ステップS4
04)。
がそれぞれ割り当てられているが、そのそれぞれ専用の
検索を行うシステム(Q)が割り当てられている。した
がって、各Qが各DBに対する検索を並列に実行するこ
とができる。
ープは、2つのベクトルが張る角が小さいものである可
能性が極めて高いと考えられるため、これらについての
みデータベース検索処理を行えば、必要な情報はほぼ得
られることとなる。一方で、不必要なデータベース検索
処理は行わないため、適切に負荷分散を図ることができ
る。また、データベース検索処理を並列に行うため、待
ち時間の短かい検索が可能となる。
以上のグループのそれぞれについて検索された結果を併
合して、これを入力を受け付けられた検索要求に対する
検索結果として出力する(ステップS405)。
が考えられる。
グループのそれぞれについて検索された結果を当該結果
に含まれる検索対象文書が得られた順に併合して、その
順に出力する。
サブ装置を1つもしくは複数割り当ててもよいし、これ
らの各部の任意の組み合わせに対して上記のサブ装置を
1つもしくは複数割り当ててもよい。ただし、検索部2
07には、グループの数と同じサブ装置を割り当て、そ
れぞれのグループにおける検索が独立に並列に検索がで
きるようにすることが望ましい。
ムにおいて検索処理が行われた場合には、検索対象文書
が得られた順にユーザにこれを提示して、待ち時間を減
らすことができるようになる。
つ以上のグループのそれぞれについて、当該グループに
含まれる文書に対して入力を受け付けられた検索要求に
より、文書スコアを計算させ、計算されたグループスコ
アと、計算された文書スコアと、を参照して、総合スコ
アを計算し、入力を受け付けられた検索要求に対する検
索結果を、当該総合スコアの順に出力するようにしても
よい。
書が含むキーワードのベクトルと入力要求のベクトルと
の余弦を計算することにより得ることができる。総合ス
コアは、グループスコアと文書スコアの線形和とする等
の手法が考えられる。
果をユーザに提示する順番を適切に決定し、ユーザが望
む要望に応じた順序で検索結果を提示できるようにな
る。
所定の基準により検索対象文書をグループに分類すると
ともに、検索要求から当該基準に対応するグループスコ
アを計算し、これによって検索すべきグループを選択し
て、負荷分散を図るとともに、ユーザは短い待ち時間で
検索結果を得ることができるようになる。
立に実行することができる。たとえば、所定の期間おき
に、あるいは、検索応答処理を実行していない状態(ユ
ーザからの検索要求の入力待ちのアイドル状態)が一定
時間以上継続した時に、索引作成処理を行うなどの態様
が考えられる。
の検索対象文書のグループ化の実施形態について詳細に
説明する。まず、文書の内容に依存した分類の手法であ
る。
が1つ以上付与された事例文書をあらかじめN個用意し
て、これとの類似度により各分類カテゴリへ分類を行う
ものである。ラベルの種類はn種類である。
種々の手法があり、上記のようにキーワードの出現頻度
のベクトルを用いてその間の余弦(内積)を類似度とす
るものなどが考えられる。
と、の類似度を計算し、これをスコアとして、スコアの
上位M個(M≦N)の事例文書を選ぶ。
れたラベルに対する得点に加算する。同じラベルが異な
る事例文書に付与されていることがあるため、ラベルの
得点は、複数の事例文書のスコアを加算したものとなる
ことがある。
れる分類カテゴリに当該検索対象文書を分類する。
ものである。本手法では、分類の際に適当な検索要求を
用意する。
に対する各検索対象文書のスコアを計算し、上位1個の
検索対象文書を得る。
て、残りの各検索対象文書のスコアを計算する。この検
索対象文書のスコアを第1次スコアと呼ぶ。そして、第
1次スコアの上位M1個(M1≦N)を選択し、これを1番
目のグループとする。
下の文書で、かつ、1番目のグループに属しない文書を
次の検索要求として、それ以外の各検索対象文書のスコ
アを計算し、第2次スコアを得て、第2次スコアの上位
M2個(M2≦N)を選択し、これを2番目のグループとす
る。
要素は、そのスコアが高い方のグループに分類し直す。
れにも属しない検索対象文書を選択して、同様の処理を
繰り返して、文書を分類する。
種の文書分類の手法を本発明に適用することができる。
法について詳細に説明する。これは、文書の内容ではな
く、文書の外見的な特徴に注目するものである。すなわ
ち、以下のような情報に基づいて分類を行う。 ・文書の作成日時、更新日時。 ・文書の作成者。 ・文書の管理番号。 ・文書に含まれる何らかの明示的な記述子。たとえば、
HTML文書におけるMETAタグ内のキーワードの記述
等。 ・文書の配置された場所。URLやファイルシステム上
の絶対パス等。
ついて説明する。この木構造を任意の深さの断面で切断
することにより、複数のグループに分割することができ
る。そして、そのそれぞれのグループに属する検索対象
文書の数を調べ、これが所定の数よりも大きい場合は、
さらに深い断面で再分割する。一方、所定の数よりも小
さい場合は、いずれか他のグループと併合する。各グル
ープに含まれる検索対象文書の数が所望の範囲になるま
でこれを繰り返す。
る場合には、容易に大量の文書を分類することができ
る。
では、グループスコアの計算の実施形態について詳細に
説明する。
として、入力された検索要求に含まれるタームの集合を
構成する。適宜これらのタームをシソーラスを使って拡
張したり、正規化をしておくことが望ましい。また、得
られた検索結果の文書から特徴語を抽出して、当該ター
ム集合に追加してもよい。
するグループcのグループスコアscore(t,c)の計算手法
には、たとえば、以下のようなものがある。
うな計算式を用いる。 score(t,c) = DF×ICF ただし DF = dfc/(dfc + K); ICF = log((n+0.5)/CF)/log(n+1.0); Kはempiricall yにより定められる定数;dfcはタームt
が出現する文書のグループc内における割合;CFはター
ムtが現れる文書を含むグループの数
うな計算式を用いる。 score(t,c) = DF×ICF ただし DF = dt + (1-dt)×dfc/maxc(dfc); ICF = log(n/CF); dtは0以上1以下の定数、典型的には0.5;dfcはター
ムtが出現する文書のグループc内における割合;maxc(d
fc)は各グループのdfcの最大の値;CFはタームtが現れ
る文書を含むグループの数
のような計算式を用いる。 score(t,c) = DF×AVGICF ただし DF = dt + (1-dt)×dfc/maxc(dfc); AVGICF = (1/n)Σclog(n/dfc) + 1; dtは0以上1以下の定数、典型的には0.5;dfcはター
ムtが出現する文書のグループc内における割合;maxc(d
fc)は各グループのdfcの最大の値
するグループcのスコアが得られる。そこで、検索要求
に含まれるタームのスコアの総和を、当該グループcの
グループスコアとする。
3は、「グループに含まれる検索対象文書が含む全単語
数」「グループに含まれるタームの出現文書数」「ター
ムが出現する文書を含むグループの数」などの情報を記
憶しておく必要がある。
い。
F×ICF2やDF×AVGICFにおいてdtの値を小さくしたりす
ると、サイズが大きい(グループ内に含まれる文書の数
が多い)グループのスコアが大きくなる傾向にある。し
たがって、再現率を重視するか、初期精度を重視する
か、によって、これらの値をグループスコア計算時にユ
ーザの指示によって調整することとする。
ような計算式により調整して、これをグループスコアと
してもよい。 s×(log(n)+k) パラメータkを調整することにより、グループスコアを
望ましい値とすることができる。
場合は、CFが大きいタームについては、計算を行わずに
score(t,c) = 0としてしまう手法も考えられる。また、
このようなタームをストップワードとして、索引部20
3には登録しないこととするのも効果的である。
り当て、優先タームが検索要求に含まれる場合は、その
グループを優先的に選択する(最も高いスコアとする)
ような態様も考えられる。
高速な検索を行うのに好適な検索装置、検索方法、なら
びに、これらをコンピュータに実現させるためのプログ
ラムを提供することができる。
る典型的な情報処理装置の概要構成を示す模式図であ
る。
式図である。
示すフローチャートである。
示すフローチャートである。
Claims (11)
- 【請求項1】検索対象文書を複数のグループに分割する
グループ分割部と、 前記分割された複数のグループのそれぞれについて、当
該グループと、当該グループに含まれる検索対象文書に
出現するキーワードと、当該キーワードが出現する検索
対象文書の数と、の情報を対応付けて記憶する索引部
と、 検索要求の入力を受け付ける入力受付部と、 前記分割された複数のグループのそれぞれについて、前
記索引部に記憶された情報を参照して前記入力を受け付
けられた検索要求に対するグループスコアを計算するグ
ループスコア計算部と、 前記計算されたグループスコアにより、前記複数のグル
ープからいずれか1つ以上のグループを選択するグルー
プ選択部と、 前記選択された1つ以上のグループのそれぞれについ
て、前記入力を受け付けられた検索要求により、並列に
検索を行う検索部と、 前記選択された1つ以上のグループのそれぞれについて
検索された結果を併合して、これを前記入力を受け付け
られた検索要求に対する検索結果として出力する併合部
と、 を備えることを特徴とする検索装置。 - 【請求項2】請求項1に記載の検索装置であって、 前記索引部は、前記分割された複数のグループのそれぞ
れについて、グループと、当該グループに含まれる検索
対象文書が含む全単語数と、の情報を対応付けてさらに
記憶することを特徴とするもの。 - 【請求項3】請求項1または2に記載の検索装置であっ
て、 前記索引部は、前記分割された複数のグループのそれぞ
れについて、グループと、当該グループに含まれる検索
対象文書が含む全キーワードについて、当該キーワード
と、当該グループと、当該グループ内での当該キーワー
ドの出現文書数と、の情報を対応付けてさらに記憶する
ことを特徴とするもの。 - 【請求項4】請求項1から3のいずれか1項に記載の検
索装置であって、 前記検索部は、前記選択された1つ以上のグループのそ
れぞれについて、当該グループに含まれる文書に対して
前記入力を受け付けられた検索要求により、文書スコア
を計算し、 前記併合部は、前記計算されたグループスコアと、前記
計算された文書スコアと、を参照して、総合スコアを計
算し、前記入力を受け付けられた検索要求に対する検索
結果を、当該総合スコアの順に出力することを特徴とす
るもの。 - 【請求項5】請求項1から3のいずれか1項に記載の検
索装置であって、 前記併合部は、前記選択された1つ以上のグループのそ
れぞれについて検索された結果を当該結果に含まれる検
索対象文書が得られた順に併合して、その順に出力する
ことを特徴とするもの。 - 【請求項6】請求項1から5のいずれか1項に記載の検
索装置であって、 当該検索対象文書には、それぞれURL(Universal Re
source Locator)が対応付けられ、 前記グループ分割部は、前記検索対象文書を、各グルー
プに含まれる検索対象文書の数が所望の範囲の数を超え
る場合は、これに対応付けられたURLの木構造を広さ
方向に分割してグループを再分割し、 所望の範囲の数未満である場合は、当該グループと他の
グループとを、併合後のグループに含まれる検索対象文
書の数が所望の範囲の数以下となるように、併合するこ
とを特徴とするもの。 - 【請求項7】請求項1から4のいずれか1項に記載の検
索装置であって、 前記グループ分割部は、当該検索対象文書のそれぞれに
ついて、これに出現する複数の単語の頻度からなるベク
トルと、所定のベクトルとの余弦を計算し、当該計算結
果によって当該検索対象文書を分類することを特徴とす
るもの。 - 【請求項8】請求項7に記載の検索装置であって、 前記グループスコア計算部は、前記入力を受け付けられ
た検索要求と当該所定のベクトルとに対して所定の類似
度計算(両者の余弦の計算を含む。)を行って、これを
グループスコアとすることを特徴とするもの。 - 【請求項9】請求項1から4のいずれか1項に記載の検
索装置であって、 前記グループ分割部は、当該検索対象文書のそれぞれに
対して、所定の検索要求により文書スコアを計算し、当
該計算結果によって当該検索対象文書を分類することを
特徴とするもの。 - 【請求項10】検索対象文書を複数のグループに分割す
るグループ分割工程と、 前記分割された複数のグループのそれぞれについて、当
該グループと、当該グループに含まれる検索対象文書に
出現するキーワードと、当該キーワードが出現する検索
対象文書の数と、の情報を対応付けて記憶する索引工程
と、 検索要求の入力を受け付ける入力受付工程と、 前記分割された複数のグループのそれぞれについて、前
記記憶された情報を参照して前記入力を受け付けられた
検索要求に対するグループスコアを計算するグループス
コア計算工程と、 前記計算されたグループスコアにより、前記複数のグル
ープからいずれか1つ以上のグループを選択するグルー
プ選択工程と、 前記選択された1つ以上のグループのそれぞれについ
て、前記入力を受け付けられた検索要求により、並列に
検索を行う検索工程と、 前記選択された1つ以上のグループのそれぞれについて
検索された結果を併合して、これを前記入力を受け付け
られた検索要求に対する検索結果として出力する併合工
程と、 を備えることを特徴とする検索方法。 - 【請求項11】コンピュータを、請求項1から9のいず
れか1項に記載の検索装置として機能させることを特徴
とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002076543A JP4230710B2 (ja) | 2002-03-19 | 2002-03-19 | 検索装置、検索方法、ならびに、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002076543A JP4230710B2 (ja) | 2002-03-19 | 2002-03-19 | 検索装置、検索方法、ならびに、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003271648A true JP2003271648A (ja) | 2003-09-26 |
JP4230710B2 JP4230710B2 (ja) | 2009-02-25 |
Family
ID=29205280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002076543A Expired - Fee Related JP4230710B2 (ja) | 2002-03-19 | 2002-03-19 | 検索装置、検索方法、ならびに、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4230710B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007156209A (ja) * | 2005-12-07 | 2007-06-21 | Yamaha Corp | 楽曲選択装置および楽曲選択用コンピュータプログラム |
JP2008192157A (ja) * | 2007-02-07 | 2008-08-21 | Fujitsu Ltd | コンパクトデシジョンダイアグラムを用いた効率的インデックス付け |
JP2008250722A (ja) * | 2007-03-30 | 2008-10-16 | Fujitsu Ltd | 文書検索システム、文書番号部分列取得装置、および文書検索方法 |
JP2009043264A (ja) * | 2007-08-10 | 2009-02-26 | Nhn Corp | 情報検索方法およびそのシステム |
JP2009043263A (ja) * | 2007-08-10 | 2009-02-26 | Nhn Corp | 質問分類方法およびそのシステム |
KR101508939B1 (ko) | 2013-10-02 | 2015-04-07 | 네이버 주식회사 | 실시간 검색을 위한 병렬 색인 방법 및 그 시스템 |
JP2017097823A (ja) * | 2015-11-19 | 2017-06-01 | 財團法人資訊工業策進會 | 分散ネットワークで使用するための検索サーバ、端末装置、及び検索方法 |
JP2020074111A (ja) * | 2019-12-24 | 2020-05-14 | 楽天株式会社 | 検索システム、検索方法、及びプログラム |
-
2002
- 2002-03-19 JP JP2002076543A patent/JP4230710B2/ja not_active Expired - Fee Related
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007156209A (ja) * | 2005-12-07 | 2007-06-21 | Yamaha Corp | 楽曲選択装置および楽曲選択用コンピュータプログラム |
JP2008192157A (ja) * | 2007-02-07 | 2008-08-21 | Fujitsu Ltd | コンパクトデシジョンダイアグラムを用いた効率的インデックス付け |
JP2008250722A (ja) * | 2007-03-30 | 2008-10-16 | Fujitsu Ltd | 文書検索システム、文書番号部分列取得装置、および文書検索方法 |
JP2009043264A (ja) * | 2007-08-10 | 2009-02-26 | Nhn Corp | 情報検索方法およびそのシステム |
JP2009043263A (ja) * | 2007-08-10 | 2009-02-26 | Nhn Corp | 質問分類方法およびそのシステム |
JP4729607B2 (ja) * | 2007-08-10 | 2011-07-20 | エヌエイチエヌ コーポレーション | 質問分類方法およびそのシステム |
KR101508939B1 (ko) | 2013-10-02 | 2015-04-07 | 네이버 주식회사 | 실시간 검색을 위한 병렬 색인 방법 및 그 시스템 |
JP2017097823A (ja) * | 2015-11-19 | 2017-06-01 | 財團法人資訊工業策進會 | 分散ネットワークで使用するための検索サーバ、端末装置、及び検索方法 |
JP2020074111A (ja) * | 2019-12-24 | 2020-05-14 | 楽天株式会社 | 検索システム、検索方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4230710B2 (ja) | 2009-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10474686B2 (en) | Information theory based result merging for searching hierarchical entities across heterogeneous data sources | |
US8051080B2 (en) | Contextual ranking of keywords using click data | |
US7783644B1 (en) | Query-independent entity importance in books | |
US9053115B1 (en) | Query image search | |
JP5316158B2 (ja) | 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 | |
US9576029B2 (en) | Trust propagation through both explicit and implicit social networks | |
US9177018B2 (en) | Cross language search options | |
US7630973B2 (en) | Method for identifying related pages in a hyperlinked database | |
JP3717808B2 (ja) | 情報検索システム | |
JP5494454B2 (ja) | 検索結果生成方法、検索結果生成プログラムおよび検索システム | |
US20090043749A1 (en) | Extracting query intent from query logs | |
US7966341B2 (en) | Estimating the date relevance of a query from query logs | |
US20070022085A1 (en) | Techniques for unsupervised web content discovery and automated query generation for crawling the hidden web | |
JP2007519111A (ja) | アンカーテキストを処理する方法、システム、およびプログラム | |
EP2519896A2 (en) | Search suggestion clustering and presentation | |
JP2003167914A (ja) | マルチメディア情報検索方法、プログラム、記録媒体及びシステム | |
JP2004054631A (ja) | 情報検索システム、情報検索方法、html文書の構造解析方法及びプログラム | |
JP2007219722A (ja) | 文書検索サーバおよび文書検索方法 | |
US20120166973A1 (en) | Presenting list previews among search results | |
US7689536B1 (en) | Methods and systems for detecting and extracting information | |
JP4230710B2 (ja) | 検索装置、検索方法、ならびに、プログラム | |
JP2007334590A (ja) | 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
KR100942902B1 (ko) | 웹페이지 검색 방법 및 상기 방법을 컴퓨터에서 구현하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 | |
JP5525424B2 (ja) | 文書検索装置、文書検索方法及び文書検索プログラム | |
JP5903370B2 (ja) | 情報検索装置、情報検索方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080226 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080624 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080723 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081204 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111212 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |