JP5226471B2 - 文書データを検索する装置及び方法 - Google Patents
文書データを検索する装置及び方法 Download PDFInfo
- Publication number
- JP5226471B2 JP5226471B2 JP2008291194A JP2008291194A JP5226471B2 JP 5226471 B2 JP5226471 B2 JP 5226471B2 JP 2008291194 A JP2008291194 A JP 2008291194A JP 2008291194 A JP2008291194 A JP 2008291194A JP 5226471 B2 JP5226471 B2 JP 5226471B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- document data
- word
- site
- data group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 11
- 230000010354 integration Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
ここで、サイト内検索に関する従来技術として、サイト内検索サーバの識別子を検索結果と共に表示するものはあった(例えば、特許文献1参照)。この特許文献1では、入力された検索式に対応するサイトサーバの識別子を検索し、この識別子に関連づけられた変換プログラムにより、サイトサーバに付属するサイト内検索サーバの識別子を生成し、この識別子を含む入力された検索式に対応する検索結果を生成している。
ここで、特許文献1の発明は、サイト内検索サーバの識別子を表示するだけであり、サイト内検索で検索されるページをサイト外からの検索の対象とするものではない。
また、出力部は、複数の文書データに関する情報として、決定部により決定された複数の文書データ群の各文書データ群と、検索部により各文書データ群から検索された複数の文書データとを関連付けて表示するための表示情報を出力する、ものであってよい。その場合、検索部は、複数の文書データ群の各文書データ群内の検索のための各検索エンジンに第2の検索語を投入することにより、各文書データ群から、複数の文書データを検索し、出力部は、各検索エンジンから返された各検索結果に基づいて表示情報のレイアウトを決定し、レイアウトの表示情報を出力する、ものであってよい。また、出力部は、各検索結果に含まれる複数の文書データの数に基づいてレイアウトを決定する、ものでもよいし、各検索結果に含まれる複数の文書データのそれぞれの所定の性質の程度の集計結果に基づいてレイアウトを決定する、ものでもよい。
また、出力部は、第1の文書データと第2の文書データとに関する情報として、決定部により決定された第1の文書データ群と、検索部により検索された第1の文書データとを関連付けて表示するための第1の表示情報、及び、決定部により決定された第2の文書データ群と、検索部により検索された第2の文書データとを関連付けて表示するための第2の表示情報を出力する、ものであってよい。
まず、本実施の形態が適用されるコンピュータシステムについて説明する。
図1は、このようなコンピュータシステムの全体構成例を示した図である。
図示するように、このコンピュータシステムは、クライアント10a,10bと、検索エンジン20と、サイト内検索装置30とが、ネットワーク80を介して接続されている。
尚、ここでは、検索エンジン20とサイト内検索装置30とを別個の装置として示したが、これらは1つの装置内に設けられていてもよい。
ネットワーク80は、情報の送受信に用いる通信手段である。このネットワーク80としては、インターネットやLAN(Local Area Network)が例示される。
図2は、このような概略動作を示した図である。尚、図1では、検索エンジン20がクライアント10からクエリを受け付け、サイト内検索装置30によるサイト内検索の結果をクライアント10に返すようにしたが、ここでは、サイト内検索装置30が直接クライアント10からクエリを受け付け、サイト内検索の結果を直接クライアント10に返すようにしている。
その後、サイト内検索装置30は、検索結果350b,350cを統合し、再ランキングを実行し、その結果をクライアント10に出力することにより、ユーザに提示する(3)。
尚、図には、3つの検索ワードしか示していないが、3つ以上の検索ワードを用いてもよい。
図3は、サイト内検索装置30の機能構成例を示したブロック図である。
図示するように、サイト内検索装置30は、クエリ受付部31と、サイト検索部32と、クエリ記憶部33と、ワードスコア記憶部34と、サイト検索結果記憶部35とを備える。また、サイト決定部36と、サイトスコア記憶部37と、サイト内検索部38と、サイト内検索結果記憶部39と、検索結果統合部40とを備える。
サイト検索部32は、クエリ受付部31が受け付けたクエリをクエリ記憶部33に記憶すると共に、クエリに含まれる1つの検索ワードを検索エンジン20に投入してページを検索し、クエリに含まれる1つの検索ワードと特殊ワード(後述)とを検索エンジン20に投入してサイト内検索ページを検索する。そして、その検索の結果に基づいて、検索ワードのスコア(以下、「ワードスコア」という)をワードスコア記憶部34に記憶し、サイトの検索結果に関する情報(サイト検索結果)をサイト検索結果記憶部35に記憶する。本実施の形態では、文書データの一例として、ページを用い、検索用文書データの一例として、サイト内検索ページを用いている。また、文書データ及び検索用文書データを検索する第1の検索部の一例として、サイト検索部32を設けている。
ワードスコア記憶部34は、サイト検索部32が算出したワードスコアに関する情報(ワードスコア情報)を記憶する。
サイト検索結果記憶部35は、サイト検索部32が取得したサイト検索結果を記憶する。
検索結果統合部40は、サイト内検索結果記憶部39に記憶されたサイト内検索結果に基づいて、検索結果を統合する。本実施の形態では、文書データに関する情報を出力する出力部の一例として、検索結果統合部40を設けている。
まず、ユーザは、複数の検索ワードをand条件で結合したクエリを検索エンジン20に投入する。この場合、検索エンジン20が提供するクエリを入力するためのページ上に、サイト内検索を行うことを指示するためのチェックボックスを設けてもよい。即ち、検索エンジン20は、チェックボックスにチェックがされていなければ、このクエリに基づく通常の検索結果をクライアント10に返し、チェックボックスにチェックがされていれば、サイト内検索装置30にクエリを渡して、このクエリに基づくサイト内検索の結果をクライアント10に返すようにしてもよい。
サイト内検索装置30では、まず、クエリ受付部31が、検索エンジン20からクエリを受け付け、サイト検索部32に受け渡す。そして、サイト検索部32の動作が開始する。
まず、サイト検索部32は、クエリ受付部31からクエリを取得し、クエリ記憶部33に記憶する(ステップ301)。
そして、サイト検索部32は、クエリ記憶部33に記憶されたクエリに含まれる複数の検索ワードの中から1つの検索ワードを切り出す(ステップ302)。
次に、サイト検索部32は、切り出した検索ワードを検索エンジン20に投入する(ステップ303)。そして、検索結果として得られたページの数(検索結果数)を取得し、この検索結果数をワードスコア記憶部34に記憶する(ステップ304)。
ワードスコア=サイト内検索ページ数/検索結果数
尚、この計算方法は、ウェブ全体に対する検索を抽象的な検索ワードで行った後、サイト内検索を具体的な検索ワードで行うことで、サイト内の目的のページに到達する、という仮定に基づいている。
或いは、ワードスコアは、特殊ワードに関連するページの総数、特殊ワードに関連するページのスコア(PageRank(登録商標)、検索ワードとの関連度等)の総和、もしくは比率であってもよい。即ち、ページに関する所定の数値であれば、如何なるものを採用してもよい。
そして、サイト検索部32は、ステップ302で切り出した検索ワードに対して、サイト内検索ページのURLと、検索エンジン20がそのサイト内検索ページに付与したスコア(以下、「サイト検索スコア」という)とを、サイト検索結果記憶部35に記憶する(ステップ309)。ここで、サイト検索スコアとしては、ページの内容と検索ワードとの関連度を示すスコアや、PageRank(登録商標)のように検索ワードとは独立したページの重要度等を示すスコアが考えられるが、ページの所定の性質の程度を示すスコアであれば、如何なるスコアを採用してもよい。
尚、この動作例では、ステップ305で、検索ワードに特殊ワードを付加したクエリを検索エンジン20に投入して検索を行い、この検索で得られたページを、ステップ306で、<form>タグから</form>タグまでに特殊ワードを含むページに絞り込んだ。しかしながら、ステップ305で、検索ワードだけを検索エンジン20に投入して検索を行い、この検索で得られたページを、ステップ306で、<form>タグから</form>タグまでに特殊ワードを含むページに絞り込むようにしてもよい。
また、この動作例では、ステップ306で、<form>タグから</form>タグまでに特殊ワードを含むページに絞り込んだが、<form>の有無等、他の文字列の有無に基づいてページを絞り込むようにしてもよい。
図5は、ワードスコア記憶部34に記憶される情報の一例を示した図である。
図示するように、ワードスコア記憶部34には、検索ワードごとに、検索結果数と、サイト内検索ページ数と、サイト内検索ページ数/検索結果数によって得られるワードスコア(単位は%)とが記憶されている。
例えば、検索ワード「ブログ」を検索エンジン20に投入することにより、183000件のページがヒットし、検索ワード「ブログ」に特殊ワード「検索」を付加したクエリを検索エンジン20に投入することにより、50000件のページがサイト内検索ページと判定され、その結果、検索ワード「ブログ」にワードスコア「27」が付与されたことが示されている。
図6は、サイト検索結果記憶部35に記憶される情報の一例を示した図である。
図示するように、サイト検索結果記憶部35には、検索ワードごとに、サイト内検索ページのURLと、サイト検索スコアとが対応付けられて記憶されている。
サイト内検索ページのURLは、図4のステップ305で検索ワードに特殊ワードを付加して検索することにより得られたURLである。
サイト検索スコアは、上述したように、図4のステップ305での検索により、検索エンジン20がページに付与したスコアである。
(b)では、検索ワード「旅行」を用いて求められたサイト内検索ページのURLとサイト検索スコアとを検索ワード「旅行」用の記憶領域に記憶している。ここでは、上から順に、サイトF,G,…が、検索ワード「旅行」を用いて求められているものとする。
(c)では、検索ワード「ギリシャ」を用いて求められたサイト内検索ページのURLとサイト検索スコアとを検索ワード「ギリシャ」用の記憶領域に記憶している。ここでは、サイトH,…が、検索ワード「ギリシャ」を用いて求められているものとする。
尚、本明細書では、各サイトをサイトA,B,C,D,E,F,G,Hとして言及するが、図面では、各サイトを具体的なURLで示すものとする。
図7は、このときのサイト決定部36の動作例を示したフローチャートである。
まず、サイト決定部36は、サイト検索結果記憶部35に記憶されたサイト検索結果のうちのある検索ワードに対する検索結果から1行のレコードを読み込む(ステップ321)。また、その検索ワードのワードスコアをワードスコア記憶部34から取得する(ステップ322)。そして、ステップ321で読み込んだ検索結果に含まれるサイト検索スコアと、ステップ322で取得したワードスコアとを掛け合わせて、サイトスコアを算出する(ステップ323)。即ち、各検索ワードに基づく検索結果(サイト)には、検索エンジン20によりサイト検索スコアが付与されているので、本実施の形態ではこれを再利用し、以下の式のように、ステップ322で求めた各検索ワードのワードスコアを掛け合わせて、サイトスコアを再計算している。
サイトスコア=そのサイトを探すために用いた検索ワードのワードスコア×検索エンジン20がそのサイトに付与したサイト検索スコア
その結果、まだN行のレコードを読み込んでいないと判定されれば、ステップ321〜324を繰り返す。一方、N行のレコードを読み込んだと判定されれば、未処理の検索ワードが他にあるかどうかを判定する(ステップ326)。そして、未処理の検索ワードが他にあると判定されれば、ステップ321〜325を繰り返す。また、未処理の検索ワードが他にないと判定されれば、処理を終了する。
図8は、サイトスコア記憶部37に記憶される情報の一例を示した図である。
図示するように、サイトスコア記憶部37には、サイト内検索ページのURLと、サイトスコアと、検索ワードとが対応付けられて記憶されている。
ここでは、上から順に、サイトA,B,F,G,C,H,D,Eにおけるサイトスコア情報を例示している。つまり、これは、サイト内検索を行う対象のサイトの数としてユーザが指定したNが「8」のときの例である。
例えば、サイト内検索ページのURLが「http://aaablog.jp/」のサイトAの場合、このサイトを検索するのに用いた検索ワード「ブログ」のワードスコアは、図5に示すように「27」であり、このサイトを検索した時に検索エンジン20が付与したサイト検索スコアは、図6(a)に示すように「20」である。従って、これらのスコアを掛け合わせることにより、サイトスコア「540」が記憶されている。
図9は、このときのサイト内検索部38の動作例を示したフローチャートである。
まず、サイト内検索部38は、サイトスコア記憶部37に記憶されたサイトスコア情報から1行のレコードを読み込む(ステップ341)。また、読み込んだレコードに含まれる検索ワード以外の検索ワードをクエリ記憶部33から取得する(ステップ342)。そして、ステップ341で読み込んだレコードに含まれるサイト内検索ページに対して、ステップ342で取得した検索ワードを投入することにより、サイト内検索を行う(ステップ343)。
1.サイト内検索ページから、次のような<form>タグを見つける。
<form method="get" name="sample" action="http://www.aaa.com/">
<input type="radio" name="site" value="site" checked>サイト内検索
<input type="radio" name="site" value="web">Web検索
<input type="text" name="search_word">
<input type="submit" value="検索">
</form>
2.< type="text" ...>に相当する入力に、サイト内検索で用いる検索ワードを代入する。
この場合、精度を向上するために必要があれば、知識ベースで処理を行う。
また、例えば、サイト内検索及びウェブ検索の何れかをラジオボタンで選択するような場合、「サイト」という文字列が含まれている側にチェックを切り替える。
3.次のようなJavaスクリプト(「Java」は登録商標)を実行する。尚、これは、「旅行 ギリシャ」という検索ワードでサイト内検索を行う場合の例である。
document.sample.search_word.value = "旅行 ギリシャ";
document.sample.submit();
その結果、まだN行のレコードを読み込んでいないと判定されれば、ステップ341〜344を繰り返す。一方、N行のレコードを読み込んだと判定されれば、サイト内検索スコアを算出し、サイト内検索結果記憶部39に記憶する(ステップ346)。ここで、サイト内検索スコアは、以下の式により求められる。
サイト内検索スコア=対象サイトでのサイト内検索結果数/全てのサイトでのサイト内検索結果数
尚、この式の分母の「全てのサイト」とは、対象サイトの検索に用いた検索ワードを用いてサイト内検索を行う対象に決定された全てのサイトを意味する。
或いは、サイト内検索スコアは、各検索結果における検索ワードとの関連度の総和や、各検索結果におけるPageRank(登録商標)のように検索ワードと独立したスコアの総和であってもよい。即ち、ページの所定の性質の程度の集計結果を示すスコアであれば、如何なるスコアを採用してもよい。
図10は、サイト内検索結果記憶部39に記憶される情報の一例を示した図である。
図示するように、サイト内検索結果記憶部39には、サイト内検索結果のURLと、サイトスコアと、検索ワードと、サイト内検索結果数と、サイト内検索スコアと、最終スコアとが対応付けられて記憶されている。
ここでは、上から順に、サイトB,A,F,G,H,C,D,Eにおけるサイト内検索結果の情報を例示している。
図11は、このときの検索結果統合部40の動作例を示したフローチャートである。
まず、検索結果統合部40は、サイト内検索結果記憶部39に記憶されたサイト内検索結果から1行のレコードを読み込む(ステップ361)。そして、読み込んだレコードに含まれるサイト内検索結果のURLをセットしたフレームを生成する(ステップ362)。例えば、<frame>タグのsrc属性にサイト内検索結果のURLをセットすることにより、フレームを生成すればよい。また、読み込んだレコードに含まれるサイト内検索結果数に応じたフレームの高さを所定の計算式で算出し、算出したフレームの高さもフレームの付随情報としてセットする(ステップ363)。ここで、所定の計算式としては、例えば、サイト内検索結果数に対して、1つの検索結果を表示するのに適切な高さとして予め定められた高さを乗ずる計算式が考えられる。また、このように求めたフレームの高さは、例えば、<frameset>タグのrows属性にセットするとよい。
その結果、まだN行のレコードを読み込んでいないと判定されれば、ステップ361〜363を繰り返す。一方、N行のレコードを読み込んだと判定されれば、検索結果統合部40は、ステップ362〜363で情報がセットされたフレームの集合(フレームセット)を検索エンジン20に受け渡す(ステップ365)。
そして、クライアント10に検索結果が表示される。
図12は、このときにクライアント10に表示される検索結果の一例である。
この検索結果では、サイトAである「aaaブログ」におけるサイト内検索結果を含むフレーム401と、サイトBである「bbbブログ」におけるサイト内検索結果を含むフレーム402とが表示されている。
尚、ここでは、サイトに対応するフレーム内にサイト内検索結果を表示するようにしたが、これはあくまで一例であり、他の表示形態を採用してもよい。例えば、どのサイトでのサイト内検索結果であるかを明示せずに、単純にサイト内検索結果のみを表示するようにしてもよい。
ところで、本実施の形態において、サイトはある特定のドメインの配下にあるページ群である必要はない。より一般化して、ドメイン等に関係なく、複数の文書データからなる文書データ群として捉えてもよい。
更に、本実施の形態では、サイト内検索の対象のサイトを決定するのに用いた検索ワードとは異なる検索ワードを用いて、サイト内検索を行うようにしたが、サイト内検索を行うのに用いる検索ワードの中に、サイト内検索の対象のサイトを決定するのに用いた検索ワードが含まれていても構わない。
また、サイトスコア及びサイト内検索スコアを考慮し、総合的に検索結果を表示するようにした。これにより、検索したい情報がどのサイトの中に存在しているかを判断する際の利便性が向上した。
更に、ウェブベースの統計情報を利用して算出したワードスコアを加味して、サイトスコアを算出するようにした。これにより、ユーザが指定した複数の検索ワードのうち、どの検索ワードを用いて、サイト内検索を行う対象のサイトを検索すればよいかを、ユーザが意識しなくてすむようになった。
(事例1)
製品の情報を調べたい場合
メーカの製品情報等は、一度、そのメーカのサイトを経由し、再度検索を行わなければならない。しかし、本実施の形態によれば、そのメーカ内のサイトに設置してある検索フォームに自動的に検索ワードを入力し、最初の検索一覧に表示することができる。
(事例2)
サイトが管理している情報の特徴を知りたい場合
情報が様々なサイトやメーリングリスト等で運営されている場合、そのサイト内検索を行った結果を最初の検索一覧に表示することで、迅速にサイトの特徴と良い情報を管理しているサイトを知ることができる。
Claims (12)
- 複数の検索語に基づいて文書データを検索する装置であって、
前記複数の検索語のうちの第1の検索語に関連する複数の文書データ群であって、各文書データ群が当該各文書データ群内の検索のための検索用文書データを含む複数の文書データ群を決定する決定部と、
前記決定部により決定された前記複数の文書データ群の各文書データ群に含まれる前記検索用文書データを用いて、当該各文書データ群から、前記複数の検索語のうちの前記第1の検索語とは異なる第2の検索語に関連する複数の文書データを検索する検索部と、
前記検索部により検索された前記複数の文書データに関する情報を出力する出力部と
を備え、
前記決定部は、前記第1の検索語と、前記検索用文書データを検索するための語として予め定められた特定の検索語とを検索エンジンに投入し、当該検索エンジンから返された検索結果に含まれる各文書データ群の所定の性質の程度と、前記第1の検索語に関連する文書データのうちの前記特定の検索語に関連する文書データに関する所定の数値とから得られる指標に基づいて、前記複数の文書データ群を決定することを特徴とする装置。 - 前記決定部は、前記第1の検索語を検索エンジンに投入し、当該検索エンジンから返された検索結果における特定の文字列の有無に基づいて、前記複数の文書データ群を決定する、請求項1の装置。
- 前記出力部は、前記複数の文書データに関する情報として、前記決定部により決定された前記複数の文書データ群の各文書データ群と、前記検索部により当該各文書データ群から検索された当該複数の文書データとを関連付けて表示するための表示情報を出力する、請求項1の装置。
- 前記検索部は、前記複数の文書データ群の各文書データ群内の検索のための各検索エンジンに前記第2の検索語を投入することにより、当該各文書データ群から、前記複数の文書データを検索し、
前記出力部は、各検索エンジンから返された各検索結果に基づいて前記表示情報のレイアウトを決定し、当該レイアウトの当該表示情報を出力する、請求項3の装置。 - 前記出力部は、各検索結果に含まれる前記複数の文書データの数に基づいて前記レイアウトを決定する、請求項4の装置。
- 前記出力部は、各検索結果に含まれる前記複数の文書データのそれぞれの所定の性質の程度の集計結果に基づいて前記レイアウトを決定する、請求項4の装置。
- 複数の検索語に基づいて文書データを検索する装置であって、
前記複数の検索語のうちの第1の検索語に関連し、文書データ群内の検索のための第1の検索用文書データを含む第1の文書データ群と、前記複数の検索語のうちの当該第1の検索語とは異なる第2の検索語に関連し、文書データ群内の検索のための第2の検索用文書データを含む第2の文書データ群とを決定する決定部と、
前記決定部により決定された前記第1の文書データ群から、前記第1の検索用文書データを用いて、前記第2の検索語に関連する第1の文書データを検索し、前記決定部により決定された前記第2の文書データ群から、前記第2の検索用文書データを用いて、前記第1の検索語に関連する第2の文書データを検索する検索部と、
前記検索部により検索された前記第1の文書データと前記第2の文書データとに関する情報を出力する出力部と
を備え、
前記決定部は、前記第1の検索語と、文書データ群内の検索のための検索用文書データを検索するための語として予め定められた特定の検索語とを検索エンジンに投入し、当該検索エンジンから返された第1の検索結果に基づいて、前記第1の文書データ群を決定し、前記第2の検索語と前記特定の検索語とを前記検索エンジンに投入し、当該検索エンジンから返された第2の検索結果に基づいて、前記第2の文書データ群を決定し、
前記決定部は、前記第1の検索結果に含まれる各文書データ群の所定の性質の程度と、前記第1の検索語に関連する文書データのうちの前記特定の検索語に関連する文書データに関する所定の数値とから得られる第1の指標、及び、前記第2の検索結果に含まれる各文書データ群の所定の性質の程度と、前記第2の検索語に関連する文書データのうちの前記特定の検索語に関連する文書データに関する所定の数値とから得られる第2の指標に基づいて、前記第1の文書データ群及び前記第2の文書データ群を決定することを特徴とする装置。 - 前記決定部は、前記第1の検索語を検索エンジンに投入し、当該検索エンジンから返された第1の検索結果における特定の文字列の有無に基づいて、前記第1の文書データ群を決定し、前記第2の検索語を前記検索エンジンに投入し、当該検索エンジンから返された第2の検索結果における当該特定の文字列の有無に基づいて、前記第2の文書データ群を決定する、請求項7の装置。
- 前記出力部は、前記第1の文書データと前記第2の文書データとに関する情報として、前記決定部により決定された前記第1の文書データ群と、前記検索部により検索された当該第1の文書データとを関連付けて表示するための第1の表示情報、及び、前記決定部により決定された前記第2の文書データ群と、前記検索部により検索された当該第2の文書データとを関連付けて表示するための第2の表示情報を出力する、請求項7の装置。
- 複数の検索語に基づいて文書データを検索する装置であって、
前記複数の検索語のうちの第1の検索語及び第2の検索語をそれぞれ検索エンジンに投入することにより、複数の文書データを検索し、当該第1の検索語と予め定められた特定の検索語とを含む第1の検索語列、及び、当該第2の検索語と当該特定の検索語とを含む第2の検索語列をそれぞれ前記検索エンジンに投入することにより、文書データ群内の検索のための複数の検索用文書データを検索する第1の検索部と、
前記第1の検索語列及び前記第2の検索語列をそれぞれ前記検索エンジンに投入して前記第1の検索部により検索された前記複数の検索用文書データの中から、当該複数の検索用文書データに前記検索エンジンが与えたスコアと、前記第1の検索語を前記検索エンジンに投入して前記第1の検索部により検索された複数の文書データのうちの当該第1の検索語列を前記検索エンジンに投入して前記第1の検索部により検索された複数の検索用文書データの比率とから得られる第1の指標、及び、当該複数の検索用文書データに前記検索エンジンが与えたスコアと、前記第2の検索語を前記検索エンジンに投入して前記第1の検索部により検索された複数の文書データのうちの当該第2の検索語列を前記検索エンジンに投入して前記第1の検索部により検索された複数の検索用文書データの比率とから得られる第2の指標に基づいて、第1の文書データ群内の検索のための第1の検索用文書データ、及び、第2の文書データ群内の検索のための第2の検索用文書データを決定する決定部と、
前記決定部により決定された前記第1の検索用文書データを用いて、前記第1の文書データ群から、前記第2の検索語に関連する第1の文書データを検索し、前記決定部により決定された前記第2の検索用文書データを用いて、前記第2の文書データ群から、前記第1の検索語に関連する第2の文書データを検索する第2の検索部と、
前記決定部により決定された前記第1の検索用文書データと、前記第2の検索部により検索された前記第1の文書データとを関連付けて表示するための第1の表示情報、及び、前記決定部により決定された前記第2の検索用文書データと、前記第2の検索部により検索された前記第2の文書データとを関連付けて表示するための第2の表示情報を出力する出力部と
を備えた、装置。 - 複数の検索語に基づいて文書データを検索する方法であって、
前記複数の検索語のうちの第1の検索語に関連する複数の文書データ群であって、各文書データ群が当該各文書データ群内の検索のための検索用文書データを含む複数の文書データ群を決定するステップと、
決定された前記複数の文書データ群の各文書データ群に含まれる前記検索用文書データを用いて、当該各文書データ群から、前記複数の検索語のうちの前記第1の検索語とは異なる第2の検索語に関連する複数の文書データを検索するステップと、
検索された前記複数の文書データに関する情報を出力するステップと
を含み、
前記複数の文書データ群を決定するステップでは、前記第1の検索語と、前記検索用文書データを検索するための語として予め定められた特定の検索語とを検索エンジンに投入し、当該検索エンジンから返された検索結果に含まれる各文書データ群の所定の性質の程度と、前記第1の検索語に関連する文書データのうちの前記特定の検索語に関連する文書データに関する所定の数値とから得られる指標に基づいて、前記複数の文書データ群を決定することを特徴とする方法。 - 複数の検索語に基づいて文書データを検索する装置としてコンピュータを機能させるプログラムであって、
前記コンピュータを、
前記複数の検索語のうちの第1の検索語に関連する複数の文書データ群であって、各文書データ群が当該各文書データ群内の検索のための検索用文書データを含む複数の文書データ群を決定する決定部と、
前記決定部により決定された前記複数の文書データ群の各文書データ群に含まれる前記検索用文書データを用いて、当該各文書データ群から、前記複数の検索語のうちの前記第1の検索語とは異なる第2の検索語に関連する複数の文書データを検索する検索部と、
前記検索部により検索された前記複数の文書データに関する情報を出力する出力部と
して機能させ、
前記決定部は、前記第1の検索語と、前記検索用文書データを検索するための語として予め定められた特定の検索語とを検索エンジンに投入し、当該検索エンジンから返された検索結果に含まれる各文書データ群の所定の性質の程度と、前記第1の検索語に関連する文書データのうちの前記特定の検索語に関連する文書データに関する所定の数値とから得られる指標に基づいて、前記複数の文書データ群を決定することを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008291194A JP5226471B2 (ja) | 2008-11-13 | 2008-11-13 | 文書データを検索する装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008291194A JP5226471B2 (ja) | 2008-11-13 | 2008-11-13 | 文書データを検索する装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010117925A JP2010117925A (ja) | 2010-05-27 |
JP5226471B2 true JP5226471B2 (ja) | 2013-07-03 |
Family
ID=42305558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008291194A Expired - Fee Related JP5226471B2 (ja) | 2008-11-13 | 2008-11-13 | 文書データを検索する装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5226471B2 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004264928A (ja) * | 2003-02-28 | 2004-09-24 | Nippon Telegr & Teleph Corp <Ntt> | Webサイト内検索方法と装置、Webサイト内検索プログラムおよびこのプログラムを記録した記録媒体 |
JP4516815B2 (ja) * | 2004-09-28 | 2010-08-04 | 株式会社ニューズウォッチ | 検索装置 |
JP2007323394A (ja) * | 2006-06-01 | 2007-12-13 | Ritsumeikan | メタ検索システム及びメタ検索方法とこれに用いるユーザ端末及びプログラム |
KR100955776B1 (ko) * | 2006-12-27 | 2010-04-30 | 엔에이치엔(주) | 검색 시스템 및 방법 |
-
2008
- 2008-11-13 JP JP2008291194A patent/JP5226471B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010117925A (ja) | 2010-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5110201B2 (ja) | 検索処理方法及び装置 | |
KR101721338B1 (ko) | 검색 엔진 및 그의 구현 방법 | |
US8001135B2 (en) | Search support apparatus, computer program product, and search support system | |
US8150846B2 (en) | Content searching and configuration of search results | |
JP5226401B2 (ja) | 文書データの検索を支援する装置及び方法 | |
US9195717B2 (en) | Image result provisioning based on document classification | |
JP2003178092A (ja) | 情報検索システム、情報提供装置及び情報検索方法並びにプログラム | |
JP2010097461A (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP5020716B2 (ja) | マルチメディアデータ検索システム、マルチメディアデータ検索装置、マルチメディアデータ検索方法、およびプログラム | |
JP2007334590A (ja) | 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP5226471B2 (ja) | 文書データを検索する装置及び方法 | |
JP2006236221A (ja) | ウエブページ検索のための管理サーバ装置 | |
JP2010055164A (ja) | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 | |
JP5286007B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP5155130B2 (ja) | カテゴリ提示装置 | |
JP5416023B2 (ja) | 閲覧端末及び方法 | |
JP2003162540A (ja) | データ検索装置およびデータ検索方法 | |
JP7309669B2 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
JP2015005050A (ja) | 検索支援装置及び検索支援プログラム | |
JP4859891B2 (ja) | コンテンツに関連する情報を提供するサーバ、システム及び方法 | |
JP5108707B2 (ja) | 検索サーバ装置、検索方法及びプログラム | |
JP4791169B2 (ja) | 関連語抽出装置、関連語抽出方法 | |
JP2003263457A (ja) | 願望又は状況表現に基づく施設情報検索装置 | |
JP2008171110A (ja) | サイト検索システム、検索サーバ、プログラム | |
JP5544401B2 (ja) | 文書データ評価方法、文書データ評価装置、文書データ選択方法、文書データ選択装置、データベース生成方法、データベース生成装置、およびコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110906 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120906 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120911 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130226 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20130226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130314 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5226471 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160322 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |