JP5226471B2 - 文書データを検索する装置及び方法 - Google Patents

文書データを検索する装置及び方法 Download PDF

Info

Publication number
JP5226471B2
JP5226471B2 JP2008291194A JP2008291194A JP5226471B2 JP 5226471 B2 JP5226471 B2 JP 5226471B2 JP 2008291194 A JP2008291194 A JP 2008291194A JP 2008291194 A JP2008291194 A JP 2008291194A JP 5226471 B2 JP5226471 B2 JP 5226471B2
Authority
JP
Japan
Prior art keywords
search
document data
word
site
data group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008291194A
Other languages
English (en)
Other versions
JP2010117925A (ja
Inventor
吉高 松本
謙 水野
真吾 加藤
健太 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2008291194A priority Critical patent/JP5226471B2/ja
Publication of JP2010117925A publication Critical patent/JP2010117925A/ja
Application granted granted Critical
Publication of JP5226471B2 publication Critical patent/JP5226471B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書データを検索する装置及び方法に関する。特に、本発明は、複数の検索語に基づいて文書データを検索する装置及び方法に関する。
近年、多くのウェブサイト(以下、単に「サイト」という)で、検索フォームを有するウェブページ(以下、単に「ページ」という)が設けられ、自サイト内のコンテンツの検索(サイト内検索)をこのページ(サイト内検索ページ)を用いて行うことが可能となっている。
ここで、サイト内検索に関する従来技術として、サイト内検索サーバの識別子を検索結果と共に表示するものはあった(例えば、特許文献1参照)。この特許文献1では、入力された検索式に対応するサイトサーバの識別子を検索し、この識別子に関連づけられた変換プログラムにより、サイトサーバに付属するサイト内検索サーバの識別子を生成し、この識別子を含む入力された検索式に対応する検索結果を生成している。
特開2006−99279号公報
ところで、インターネット上の情報を検索するには、一般に、検索エンジンが用いられる。この検索エンジンには、ロボット型検索エンジンと、ディレクトリ型検索エンジンとがある。ロボット型検索エンジンとは、クローラがハイパーリンク(リンク)を辿りながら自動的にインターネット上のコンテンツにアクセスしてコンテンツのインデックス情報を蓄積し、クライアントから検索要求があるとインデックス情報に基づいて検索結果を返す検索エンジンである。ディレクトリ型検索エンジンとは、管理者がコンテンツを適切なディレクトリに登録し、クライアントから検索要求があるとその登録された情報に基づいて検索結果を返す検索エンジンである。
このうち、ロボット型検索エンジンは、リンクを辿ってアクセスできるページであれば、クローラがそのページの情報を収集できるので、検索要求に応じた検索の対象とすることができる。しかしながら、上述したサイト内検索で検索されるページは、サイト内検索ページから直接検索できるために他サイトからリンクが張られていないことがあり、そのようなページを検索の対象とすることができないという問題点があった。
ここで、特許文献1の発明は、サイト内検索サーバの識別子を表示するだけであり、サイト内検索で検索されるページをサイト外からの検索の対象とするものではない。
本発明の目的は、文書データ群(例えば、サイト)内で検索される文書データ(例えば、ページ)を、文書データ群外からの検索の対象とすることにある。
かかる目的のもと、本発明は、複数の検索語に基づいて文書データを検索する装置であって、複数の検索語のうちの第1の検索語に関連する複数の文書データ群であって、各文書データ群が各文書データ群内の検索のための検索用文書データを含む複数の文書データ群を決定する決定部と、決定部により決定された複数の文書データ群の各文書データ群に含まれる検索用文書データを用いて、各文書データ群から、複数の検索語のうちの第1の検索語とは異なる第2の検索語に関連する複数の文書データを検索する検索部と、検索部により検索された複数の文書データに関する情報を出力する出力部とを備え、決定部は、第1の検索語と、検索用文書データを検索するための語として予め定められた特定の検索語とを検索エンジンに投入し、検索エンジンから返された検索結果に含まれる各文書データ群の所定の性質の程度と、第1の検索語に関連する文書データのうちの特定の検索語に関連する文書データに関する所定の数値とから得られる指標に基づいて、前記複数の文書データ群を決定することを特徴とする装置を提供する。
ここで決定部は、第1の検索語を検索エンジンに投入し、検索エンジンから返された検索結果における特定の文字列の有無に基づいて、複数の文書データ群を決定する、ものであってよい。
また、出力部は、複数の文書データに関する情報として、決定部により決定された複数の文書データ群の各文書データ群と、検索部により各文書データ群から検索された複数の文書データとを関連付けて表示するための表示情報を出力する、ものであってよい。その場合、検索部は、複数の文書データ群の各文書データ群内の検索のための各検索エンジンに第2の検索語を投入することにより、各文書データ群から、複数の文書データを検索し、出力部は、各検索エンジンから返された各検索結果に基づいて表示情報のレイアウトを決定し、レイアウトの表示情報を出力する、ものであってよい。また、出力部は、各検索結果に含まれる複数の文書データの数に基づいてレイアウトを決定する、ものでもよいし、各検索結果に含まれる複数の文書データのそれぞれの所定の性質の程度の集計結果に基づいてレイアウトを決定する、ものでもよい。
また、本発明は、複数の検索語に基づいて文書データを検索する装置であって、複数の検索語のうちの第1の検索語に関連し、文書データ群内の検索のための第1の検索用文書データを含む第1の文書データ群と、複数の検索語のうちの第1の検索語とは異なる第2の検索語に関連し、文書データ群内の検索のための第2の検索用文書データを含む第2の文書データ群とを決定する決定部と、決定部により決定された第1の文書データ群から、第1の検索用文書データを用いて、第2の検索語に関連する第1の文書データを検索し、決定部により決定された第2の文書データ群から、第2の検索用文書データを用いて、第1の検索語に関連する第2の文書データを検索する検索部と、検索部により検索された第1の文書データと第2の文書データとに関する情報を出力する出力部とを備え、決定部は、第1の検索語と、文書データ群内の検索のための検索用文書データを検索するための語として予め定められた特定の検索語とを検索エンジンに投入し、検索エンジンから返された第1の検索結果に基づいて、第1の文書データ群を決定し、第2の検索語と特定の検索語とを検索エンジンに投入し、検索エンジンから返された第2の検索結果に基づいて、第2の文書データ群を決定し、決定部は、第1の検索結果に含まれる各文書データ群の所定の性質の程度と、第1の検索語に関連する文書データのうちの特定の検索語に関連する文書データに関する所定の数値とから得られる第1の指標、及び、第2の検索結果に含まれる各文書データ群の所定の性質の程度と、第2の検索語に関連する文書データのうちの特定の検索語に関連する文書データに関する所定の数値とから得られる第2の指標に基づいて、第1の文書データ群及び第2の文書データ群を決定することを特徴とする装置も提供する。
ここで決定部は、第1の検索語を検索エンジンに投入し、検索エンジンから返された第1の検索結果における特定の文字列の有無に基づいて、第1の文書データ群を決定し、第2の検索語を検索エンジンに投入し、検索エンジンから返された第2の検索結果における特定の文字列の有無に基づいて、第2の文書データ群を決定する、ものであってよい。
また、出力部は、第1の文書データと第2の文書データとに関する情報として、決定部により決定された第1の文書データ群と、検索部により検索された第1の文書データとを関連付けて表示するための第1の表示情報、及び、決定部により決定された第2の文書データ群と、検索部により検索された第2の文書データとを関連付けて表示するための第2の表示情報を出力する、ものであってよい。
また、本発明は、複数の検索語に基づいて文書データを検索する装置であって、複数の検索語のうちの第1の検索語及び第2の検索語をそれぞれ検索エンジンに投入することにより、複数の文書データを検索し、第1の検索語と予め定められた特定の検索語とを含む第1の検索語列、及び、第2の検索語と特定の検索語とを含む第2の検索語列をそれぞれ検索エンジンに投入することにより、文書データ群内の検索のための複数の検索用文書データを検索する第1の検索部と、第1の検索語列及び第2の検索語列をそれぞれ検索エンジンに投入して第1の検索部により検索された複数の検索用文書データの中から、複数の検索用文書データに検索エンジンが与えたスコアと、第1の検索語を検索エンジンに投入して第1の検索部により検索された複数の文書データのうちの第1の検索語列を検索エンジンに投入して第1の検索部により検索された複数の検索用文書データの比率とから得られる第1の指標、及び、複数の検索用文書データに検索エンジンが与えたスコアと、第2の検索語を検索エンジンに投入して第1の検索部により検索された複数の文書データのうちの第2の検索語列を検索エンジンに投入して第1の検索部により検索された複数の検索用文書データの比率とから得られる第2の指標に基づいて、第1の文書データ群内の検索のための第1の検索用文書データ、及び、第2の文書データ群内の検索のための第2の検索用文書データを決定する決定部と、決定部により決定された第1の検索用文書データを用いて、第1の文書データ群から、第2の検索語に関連する第1の文書データを検索し、決定部により決定された第2の検索用文書データを用いて、第2の文書データ群から、第1の検索語に関連する第2の文書データを検索する第2の検索部と、決定部により決定された第1の検索用文書データと、第2の検索部により検索された第1の文書データとを関連付けて表示するための第1の表示情報、及び、決定部により決定された第2の検索用文書データと、第2の検索部により検索された第2の文書データとを関連付けて表示するための第2の表示情報を出力する出力部とを備えた、装置も提供する。
更に、本発明は、複数の検索語に基づいて文書データを検索する方法であって、複数の検索語のうちの第1の検索語に関連する複数の文書データ群であって、各文書データ群が各文書データ群内の検索のための検索用文書データを含む複数の文書データ群を決定するステップと、決定された複数の文書データ群の各文書データ群に含まれる検索用文書データを用いて、各文書データ群から、複数の検索語のうちの第1の検索語とは異なる第2の検索語に関連する複数の文書データを検索するステップと、検索された複数の文書データに関する情報を出力するステップとを含み、複数の文書データ群を決定するステップでは、第1の検索語と、検索用文書データを検索するための語として予め定められた特定の検索語とを検索エンジンに投入し、検索エンジンから返された検索結果に含まれる各文書データ群の所定の性質の程度と、第1の検索語に関連する文書データのうちの特定の検索語に関連する文書データに関する所定の数値とから得られる指標に基づいて、複数の文書データ群を決定することを特徴とする方法も提供する。
更にまた、本発明は、複数の検索語に基づいて文書データを検索する装置としてコンピュータを機能させるプログラムであって、コンピュータを、複数の検索語のうちの第1の検索語に関連する複数の文書データ群であって、各文書データ群が各文書データ群内の検索のための検索用文書データを含む複数の文書データ群を決定する決定部と、決定部により決定された複数の文書データ群の各文書データ群に含まれる検索用文書データを用いて、各文書データ群から、複数の検索語のうちの第1の検索語とは異なる第2の検索語に関連する複数の文書データを検索する検索部と、検索部により検索された複数の文書データに関する情報を出力する出力部として機能させ、決定部は、第1の検索語と、検索用文書データを検索するための語として予め定められた特定の検索語とを検索エンジンに投入し、検索エンジンから返された検索結果に含まれる各文書データ群の所定の性質の程度と、第1の検索語に関連する文書データのうちの特定の検索語に関連する文書データに関する所定の数値とから得られる指標に基づいて、複数の文書データ群を決定することを特徴とするプログラムも提供する。
本発明によれば、文書データ群内で検索される文書データを、文書データ群外からの検索の対象とすることができる。
以下、添付図面を参照して、本発明を実施するための最良の形態(以下、「実施の形態」という)について詳細に説明する。
まず、本実施の形態が適用されるコンピュータシステムについて説明する。
図1は、このようなコンピュータシステムの全体構成例を示した図である。
図示するように、このコンピュータシステムは、クライアント10a,10bと、検索エンジン20と、サイト内検索装置30とが、ネットワーク80を介して接続されている。
クライアント10a,10bは、ユーザが使用するPC等の端末装置である。より詳しくは、ウェブブラウザがインストールされており、各ユーザがウェブブラウザから検索エンジン20に対して検索クエリ(以下、単に「クエリ」という)を入力すると、ネットワーク80に接続されたウェブサーバ(図示せず)のURIが検索結果として表示される。尚、図では、クライアント10a,10bを示したが、これらを区別する必要がない場合は、クライアント10と称することもある。また、図には、2台のクライアント10しか示していないが、3台以上のクライアント10を設けてもよい。
検索エンジン20は、クローラがリンクを辿りながら自動的にインターネット上のコンテンツにアクセスしてそのコンテンツのインデックス情報を蓄積し、クライアントから検索要求があるとインデックス情報に基づいて検索結果を返すロボット型の検索エンジンである。
サイト内検索装置30は、検索エンジン20にクエリが入力された場合に、検索エンジン20からそのクエリを受け取ってサイト内検索を行い、サイト内検索の結果を検索エンジン20に返す。
尚、ここでは、検索エンジン20とサイト内検索装置30とを別個の装置として示したが、これらは1つの装置内に設けられていてもよい。
ネットワーク80は、情報の送受信に用いる通信手段である。このネットワーク80としては、インターネットやLAN(Local Area Network)が例示される。
このような構成を有するコンピュータシステムの概略動作を説明する。
図2は、このような概略動作を示した図である。尚、図1では、検索エンジン20がクライアント10からクエリを受け付け、サイト内検索装置30によるサイト内検索の結果をクライアント10に返すようにしたが、ここでは、サイト内検索装置30が直接クライアント10からクエリを受け付け、サイト内検索の結果を直接クライアント10に返すようにしている。
図において、ユーザは、検索ワード1,2,3に関連するページを探したいという要望を持っているものとする。そこで、まず、ユーザはクライアント10を用いて検索ワード1,2,3をサイト内検索装置30に投入し、サイト内検索装置30が、サイト内検索を行うサイトを決定する(1)。即ち、サイト内検索装置30は、まず、検索エンジン20に検索ワード1を投入することにより、検索ワード1に関連するサイトA,B,Cを検索結果300として取得する。次に、ここで取得した検索結果300に含まれるサイトの中から一定の基準によりサイト内検索の対象のサイトを選択する。ここでは、検索結果300に含まれるサイトA,B,Cのうち、サイトB,Cが、サイト内検索の対象のサイトに決定されたものとする。
次に、サイト内検索装置30は、(1)で決定されたサイトにおけるサイト内検索ページに検索ワード2,3を投入することにより、サイト内検索を行う(2)。ここでは、サイトB,Cをサイト内検索の対象のサイトとして決定したので、サイトBから検索結果350bを、サイトCから検索結果350cを得ている。
その後、サイト内検索装置30は、検索結果350b,350cを統合し、再ランキングを実行し、その結果をクライアント10に出力することにより、ユーザに提示する(3)。
尚、図には、3つの検索ワードしか示していないが、3つ以上の検索ワードを用いてもよい。
次に、このような概略動作を行うサイト内検索装置30の機能構成について説明する。
図3は、サイト内検索装置30の機能構成例を示したブロック図である。
図示するように、サイト内検索装置30は、クエリ受付部31と、サイト検索部32と、クエリ記憶部33と、ワードスコア記憶部34と、サイト検索結果記憶部35とを備える。また、サイト決定部36と、サイトスコア記憶部37と、サイト内検索部38と、サイト内検索結果記憶部39と、検索結果統合部40とを備える。
クエリ受付部31は、検索エンジン20から複数の検索ワードを含むクエリを受け付ける。
サイト検索部32は、クエリ受付部31が受け付けたクエリをクエリ記憶部33に記憶すると共に、クエリに含まれる1つの検索ワードを検索エンジン20に投入してページを検索し、クエリに含まれる1つの検索ワードと特殊ワード(後述)とを検索エンジン20に投入してサイト内検索ページを検索する。そして、その検索の結果に基づいて、検索ワードのスコア(以下、「ワードスコア」という)をワードスコア記憶部34に記憶し、サイトの検索結果に関する情報(サイト検索結果)をサイト検索結果記憶部35に記憶する。本実施の形態では、文書データの一例として、ページを用い、検索用文書データの一例として、サイト内検索ページを用いている。また、文書データ及び検索用文書データを検索する第1の検索部の一例として、サイト検索部32を設けている。
クエリ記憶部33は、クエリ受付部31が受け付けたクエリを記憶する。
ワードスコア記憶部34は、サイト検索部32が算出したワードスコアに関する情報(ワードスコア情報)を記憶する。
サイト検索結果記憶部35は、サイト検索部32が取得したサイト検索結果を記憶する。
サイト決定部36は、ワードスコア記憶部34に記憶されたワードスコア情報と、サイト検索結果記憶部35に記憶されたサイト検索結果とに基づいて、サイト内検索を行うサイトを決定し、決定されたサイトのスコア(以下、「サイトスコア」という)をサイトスコア記憶部37に記憶する。本実施の形態では、文書データ群の一例として、サイトを用いている。また、文書データ群を決定する決定部、及び、検索用文書データを決定する決定部の一例として、サイト決定部36を設けている。
サイト内検索部38は、サイトスコア記憶部37にサイトスコアに関する情報(サイトスコア情報)が記憶されたサイトを対象としてサイト内検索を行う。その際、クエリ記憶部33に記憶されたクエリに含まれる検索ワードのうち、サイト内検索を行うサイトを検索するのにサイト検索部32が使わなかった検索ワードを用いる。そして、サイト内検索の結果に関する情報(サイト内検索結果)をサイト内検索結果記憶部39に記憶する。本実施の形態では、文書データ群から文書データを検索する検索部及び第2の検索部の一例として、サイト内検索部38を設けている。
検索結果統合部40は、サイト内検索結果記憶部39に記憶されたサイト内検索結果に基づいて、検索結果を統合する。本実施の形態では、文書データに関する情報を出力する出力部の一例として、検索結果統合部40を設けている。
尚、これらの各機能部は、ソフトウェアとハードウェア資源とが協働することにより実現される。具体的には、サイト内検索装置30のCPU90a(図13参照)が、クエリ受付部31、サイト検索部32、サイト決定部36、サイト内検索部38、検索結果統合部40の各機能部を実現するプログラムを磁気ディスク装置90g(図13参照)からメインメモリ90c(図13参照)に読み込んで処理を行う。また、クエリ記憶部33、ワードスコア記憶部34、サイト検索結果記憶部35、サイトスコア記憶部37、サイト内検索結果記憶部39は、例えば、磁気ディスク装置90g(図13参照)によって実現される。
次いで、本実施の形態の動作について詳細に説明する。
まず、ユーザは、複数の検索ワードをand条件で結合したクエリを検索エンジン20に投入する。この場合、検索エンジン20が提供するクエリを入力するためのページ上に、サイト内検索を行うことを指示するためのチェックボックスを設けてもよい。即ち、検索エンジン20は、チェックボックスにチェックがされていなければ、このクエリに基づく通常の検索結果をクライアント10に返し、チェックボックスにチェックがされていれば、サイト内検索装置30にクエリを渡して、このクエリに基づくサイト内検索の結果をクライアント10に返すようにしてもよい。
以下、このようなサイト内検索の結果を得る処理について説明する。
サイト内検索装置30では、まず、クエリ受付部31が、検索エンジン20からクエリを受け付け、サイト検索部32に受け渡す。そして、サイト検索部32の動作が開始する。
図4は、このときのサイト検索部32の動作を示したフローチャートである。
まず、サイト検索部32は、クエリ受付部31からクエリを取得し、クエリ記憶部33に記憶する(ステップ301)。
そして、サイト検索部32は、クエリ記憶部33に記憶されたクエリに含まれる複数の検索ワードの中から1つの検索ワードを切り出す(ステップ302)。
次に、サイト検索部32は、切り出した検索ワードを検索エンジン20に投入する(ステップ303)。そして、検索結果として得られたページの数(検索結果数)を取得し、この検索結果数をワードスコア記憶部34に記憶する(ステップ304)。
また、サイト検索部32は、ステップ302で切り出した検索ワードに特殊ワードを付加したクエリを検索エンジン20に投入して再度検索を行う(ステップ305)。ここで、検索ワードに付加する特殊ワードは、サイト内検索ページを含むサイトを探すためのキーワードであり、例えば、「検索」、「検索フォーム」、「サイト内検索」、「search」等が考えられる。但し、このようにして検索したページの中には、検索ワード及び特殊ワードを含むものの、サイト内検索ページではないページも含まれる。そこで、サイト検索部32は、ステップ305での検索で得られたページを、<form>タグから</form>タグまでの間に特殊ワードが含まれるページに絞り込む(ステップ306)。ここでの特殊ワードとしても、例えば、「検索」、「検索フォーム」、「サイト内検索」、「search」等が考えられる。そして、サイト検索部32は、サイト内検索ページの数(サイト内検索ページ数)を取得し、このサイト内検索ページ数をワードスコア記憶部34に記憶する(ステップ307)。
更に、サイト検索部32は、以下の式により、ワードスコアを算出し、ワードスコア記憶部34に記憶する(ステップ308)。
ワードスコア=サイト内検索ページ数/検索結果数
尚、この計算方法は、ウェブ全体に対する検索を抽象的な検索ワードで行った後、サイト内検索を具体的な検索ワードで行うことで、サイト内の目的のページに到達する、という仮定に基づいている。
或いは、ワードスコアは、特殊ワードに関連するページの総数、特殊ワードに関連するページのスコア(PageRank(登録商標)、検索ワードとの関連度等)の総和、もしくは比率であってもよい。即ち、ページに関する所定の数値であれば、如何なるものを採用してもよい。
そして、サイト検索部32は、ステップ302で切り出した検索ワードに対して、サイト内検索ページのURLと、検索エンジン20がそのサイト内検索ページに付与したスコア(以下、「サイト検索スコア」という)とを、サイト検索結果記憶部35に記憶する(ステップ309)。ここで、サイト検索スコアとしては、ページの内容と検索ワードとの関連度を示すスコアや、PageRank(登録商標)のように検索ワードとは独立したページの重要度等を示すスコアが考えられるが、ページの所定の性質の程度を示すスコアであれば、如何なるスコアを採用してもよい。
その後、サイト検索部32は、ステップ302で検索ワードを切り出した後のクエリに、まだ検索ワードが残っているかどうかを判定する(ステップ310)。そして、検索ワードが残っていると判定されれば、ステップ302〜309を繰り返す。また、検索ワードが残っていないと判定されれば、処理を終了する。
尚、この動作例では、ステップ305で、検索ワードに特殊ワードを付加したクエリを検索エンジン20に投入して検索を行い、この検索で得られたページを、ステップ306で、<form>タグから</form>タグまでに特殊ワードを含むページに絞り込んだ。しかしながら、ステップ305で、検索ワードだけを検索エンジン20に投入して検索を行い、この検索で得られたページを、ステップ306で、<form>タグから</form>タグまでに特殊ワードを含むページに絞り込むようにしてもよい。
また、この動作例では、ステップ306で、<form>タグから</form>タグまでに特殊ワードを含むページに絞り込んだが、<form>の有無等、他の文字列の有無に基づいてページを絞り込むようにしてもよい。
ここで、ステップ304、307、308で情報が記憶されるワードスコア記憶部34について説明する。
図5は、ワードスコア記憶部34に記憶される情報の一例を示した図である。
図示するように、ワードスコア記憶部34には、検索ワードごとに、検索結果数と、サイト内検索ページ数と、サイト内検索ページ数/検索結果数によって得られるワードスコア(単位は%)とが記憶されている。
例えば、検索ワード「ブログ」を検索エンジン20に投入することにより、183000件のページがヒットし、検索ワード「ブログ」に特殊ワード「検索」を付加したクエリを検索エンジン20に投入することにより、50000件のページがサイト内検索ページと判定され、その結果、検索ワード「ブログ」にワードスコア「27」が付与されたことが示されている。
また、ステップ309で情報が記憶されるサイト検索結果記憶部35について説明する。
図6は、サイト検索結果記憶部35に記憶される情報の一例を示した図である。
図示するように、サイト検索結果記憶部35には、検索ワードごとに、サイト内検索ページのURLと、サイト検索スコアとが対応付けられて記憶されている。
サイト内検索ページのURLは、図4のステップ305で検索ワードに特殊ワードを付加して検索することにより得られたURLである。
サイト検索スコアは、上述したように、図4のステップ305での検索により、検索エンジン20がページに付与したスコアである。
(a)では、検索ワード「ブログ」を用いて求められたサイト内検索ページのURLとサイト検索スコアとを検索ワード「ブログ」用の記憶領域に記憶している。ここでは、上から順に、サイトA,B,C,D,E,…が、検索ワード「ブログ」を用いて求められているものとする。
(b)では、検索ワード「旅行」を用いて求められたサイト内検索ページのURLとサイト検索スコアとを検索ワード「旅行」用の記憶領域に記憶している。ここでは、上から順に、サイトF,G,…が、検索ワード「旅行」を用いて求められているものとする。
(c)では、検索ワード「ギリシャ」を用いて求められたサイト内検索ページのURLとサイト検索スコアとを検索ワード「ギリシャ」用の記憶領域に記憶している。ここでは、サイトH,…が、検索ワード「ギリシャ」を用いて求められているものとする。
尚、本明細書では、各サイトをサイトA,B,C,D,E,F,G,Hとして言及するが、図面では、各サイトを具体的なURLで示すものとする。
このように、図では、各検索ワードを用いて求めたサイト内検索ページのURLとサイト検索スコアとを各検索ワードに対応する記憶領域に記憶するようにした。しかしながら、各検索ワードを用いて求めたサイト内検索ページのURLとサイト検索スコアとを記憶する形態は、これには限らない。例えば、各検索ワードを用いて求めたサイト内検索ページのURLとサイト検索スコアとを同一の記憶領域に記憶するようにしてもよい。その場合、サイト内検索ページのURL、サイト検索スコアに加え、検索ワードを項目として追加し、サイト内検索ページのURLとサイト検索スコアとがどの検索ワードを用いて得られたものかを明示しておけばよい。
このように、ワードスコア記憶部34及びサイト検索結果記憶部35に情報が記憶されると、サイト決定部36が、サイト内検索を行う対象のサイトを決定する。
図7は、このときのサイト決定部36の動作例を示したフローチャートである。
まず、サイト決定部36は、サイト検索結果記憶部35に記憶されたサイト検索結果のうちのある検索ワードに対する検索結果から1行のレコードを読み込む(ステップ321)。また、その検索ワードのワードスコアをワードスコア記憶部34から取得する(ステップ322)。そして、ステップ321で読み込んだ検索結果に含まれるサイト検索スコアと、ステップ322で取得したワードスコアとを掛け合わせて、サイトスコアを算出する(ステップ323)。即ち、各検索ワードに基づく検索結果(サイト)には、検索エンジン20によりサイト検索スコアが付与されているので、本実施の形態ではこれを再利用し、以下の式のように、ステップ322で求めた各検索ワードのワードスコアを掛け合わせて、サイトスコアを再計算している。
サイトスコア=そのサイトを探すために用いた検索ワードのワードスコア×検索エンジン20がそのサイトに付与したサイト検索スコア
これにより、サイト決定部36は、サイト内検索ページのURLと、サイトスコアと、検索ワードとを、サイトスコア記憶部37にスコア順に整列された状態で記憶する(ステップ324)。即ち、これらの情報からなるレコードをサイトスコア記憶部37に記憶しようとした際に、既にレコードがあれば、これから記憶しようとするレコードを、そのレコードに含まれるサイトスコアよりも大きいサイトスコアを含むレコードの次で、かつ、そのレコードに含まれるサイトスコアよりも小さいサイトスコアを含むレコードの前のレコードとして記憶する。その際、新たに記憶したレコードよりも後のレコードは、順番が1つずつ繰り下がることになる。
その後、サイト決定部36は、現在着目している検索ワードに対応するサイト検索結果からN行のレコードを読み込んだかどうかを判定する(ステップ325)。尚、ここで、Nは、サイト内検索を行う対象のサイトの数としてユーザが指定した自然数である。
その結果、まだN行のレコードを読み込んでいないと判定されれば、ステップ321〜324を繰り返す。一方、N行のレコードを読み込んだと判定されれば、未処理の検索ワードが他にあるかどうかを判定する(ステップ326)。そして、未処理の検索ワードが他にあると判定されれば、ステップ321〜325を繰り返す。また、未処理の検索ワードが他にないと判定されれば、処理を終了する。
ここで、ステップ324で情報が記憶されるサイトスコア記憶部37について説明する。
図8は、サイトスコア記憶部37に記憶される情報の一例を示した図である。
図示するように、サイトスコア記憶部37には、サイト内検索ページのURLと、サイトスコアと、検索ワードとが対応付けられて記憶されている。
ここでは、上から順に、サイトA,B,F,G,C,H,D,Eにおけるサイトスコア情報を例示している。つまり、これは、サイト内検索を行う対象のサイトの数としてユーザが指定したNが「8」のときの例である。
例えば、サイト内検索ページのURLが「http://aaablog.jp/」のサイトAの場合、このサイトを検索するのに用いた検索ワード「ブログ」のワードスコアは、図5に示すように「27」であり、このサイトを検索した時に検索エンジン20が付与したサイト検索スコアは、図6(a)に示すように「20」である。従って、これらのスコアを掛け合わせることにより、サイトスコア「540」が記憶されている。
このように、サイトスコア記憶部37に情報が記憶されると、サイト内検索部38が、ここで記憶されたサイトを対象として、サイト内検索を行う。
図9は、このときのサイト内検索部38の動作例を示したフローチャートである。
まず、サイト内検索部38は、サイトスコア記憶部37に記憶されたサイトスコア情報から1行のレコードを読み込む(ステップ341)。また、読み込んだレコードに含まれる検索ワード以外の検索ワードをクエリ記憶部33から取得する(ステップ342)。そして、ステップ341で読み込んだレコードに含まれるサイト内検索ページに対して、ステップ342で取得した検索ワードを投入することにより、サイト内検索を行う(ステップ343)。
尚、このとき、サイトを探すために用いた検索ワードをサイト内検索で用いないのは、サイト内検索ページを探す検索ワードは、具体的な検索を目的とするサイト内検索の検索ワードとしては適さないと考えられるからである。
また、サイト内検索は、例えば、以下のように実現される。
1.サイト内検索ページから、次のような<form>タグを見つける。
<form method="get" name="sample" action="http://www.aaa.com/">
<input type="radio" name="site" value="site" checked>サイト内検索
<input type="radio" name="site" value="web">Web検索
<input type="text" name="search_word">
<input type="submit" value="検索">
</form>
2.< type="text" ...>に相当する入力に、サイト内検索で用いる検索ワードを代入する。
この場合、精度を向上するために必要があれば、知識ベースで処理を行う。
また、例えば、サイト内検索及びウェブ検索の何れかをラジオボタンで選択するような場合、「サイト」という文字列が含まれている側にチェックを切り替える。
3.次のようなJavaスクリプト(「Java」は登録商標)を実行する。尚、これは、「旅行 ギリシャ」という検索ワードでサイト内検索を行う場合の例である。
document.sample.search_word.value = "旅行 ギリシャ";
document.sample.submit();
これにより、サイト内検索部38は、サイト内検索の結果を取得し、ステップ341で読み込んだレコードに含まれるサイトスコアや検索ワードと共にサイト内検索結果記憶部39に記憶する(ステップ344)。ここで、サイト内検索の結果には、サイト内検索で見つかったページのURLを含むページのURL(サイト内検索結果のURL)と、サイト内検索で見つかったページの数(サイト内検索結果数)とがある。尚、サイト内検索結果数は、サイトに依存した方法で取得する。そのためには、知識ベースのテキスト解析等を用いるとよい。例えば、多くのサイトでは、「××件中」という文字列が含まれているので、その文字列をキーにして取得することができる。
その後、サイト内検索部38は、サイトスコア情報からN行のレコードを読み込んだかどうかを判定する(ステップ345)。尚、ここでも、Nは、サイト内検索を行う対象のサイトの数としてユーザが指定した自然数である。
その結果、まだN行のレコードを読み込んでいないと判定されれば、ステップ341〜344を繰り返す。一方、N行のレコードを読み込んだと判定されれば、サイト内検索スコアを算出し、サイト内検索結果記憶部39に記憶する(ステップ346)。ここで、サイト内検索スコアは、以下の式により求められる。
サイト内検索スコア=対象サイトでのサイト内検索結果数/全てのサイトでのサイト内検索結果数
尚、この式の分母の「全てのサイト」とは、対象サイトの検索に用いた検索ワードを用いてサイト内検索を行う対象に決定された全てのサイトを意味する。
或いは、サイト内検索スコアは、各検索結果における検索ワードとの関連度の総和や、各検索結果におけるPageRank(登録商標)のように検索ワードと独立したスコアの総和であってもよい。即ち、ページの所定の性質の程度の集計結果を示すスコアであれば、如何なるスコアを採用してもよい。
また、サイト内検索部38は、最終的なユーザへの検索結果の提示順序を決定するための最終スコアを算出して、サイト内検索結果記憶部39に記憶し、最終スコアの高い順に情報を並べ替える(ステップ347)。ここで、最終スコアは、図7のステップ324で得られたサイトスコアに、上記のサイト内検索スコアを加味して求めるとよい。単純な例としては、サイトスコアとサイト内検索スコアとを掛け合わせることにより最終スコアを算出することが考えられる。
ここで、ステップ344、346、347で情報が記憶されるサイト内検索結果記憶部39について説明する。
図10は、サイト内検索結果記憶部39に記憶される情報の一例を示した図である。
図示するように、サイト内検索結果記憶部39には、サイト内検索結果のURLと、サイトスコアと、検索ワードと、サイト内検索結果数と、サイト内検索スコアと、最終スコアとが対応付けられて記憶されている。
ここでは、上から順に、サイトB,A,F,G,H,C,D,Eにおけるサイト内検索結果の情報を例示している。
例えば、1行目には、次のような情報が示されている。即ち、サイト内検索結果のURLとして、サイトBのサイト内検索ページに「旅行 ギリシャ」を入力してサイト内検索を行うことによって得られる検索結果ページのURLが示されている。また、サイトスコアとして、サイトBのサイトスコア「486」が示されており、検索ワードとして、サイトBを検索するのに用いられた検索ワード「ブログ」が示されており、サイト内検索結果数として、検索結果ページにURLが記述されたページの数「50」が示されている。更に、サイト検索スコアとして、検索ワード「ブログ」で検索されたサイトにおけるサイト内検索数の中で、サイトBにおけるサイト内検索結果数が占める割合が示されている。この例の場合、「0.50(=50/(50+40+5+3+2))」である。そして、最終スコアとして、「243(=486×0.50)」が示されている。
また、2行目には、次のような情報が示されている。即ち、サイト内検索結果のURLとして、サイトAのサイト内検索ページに「旅行 ギリシャ」を入力してサイト内検索を行うことによって得られる検索結果ページのURLが示されている。また、サイトスコアとして、サイトAのサイトスコア「540」が示されており、検索ワードとして、サイトBを検索するのに用いられた検索ワード「ブログ」が示されており、サイト内検索結果数として、検索結果ページにURLが記述されたページの数「40」が示されている。更に、サイト検索スコアとして、検索ワード「ブログ」で検索されたサイトにおけるサイト内検索数の中で、サイトAにおけるサイト内検索結果数が占める割合が示されている。この例の場合、「0.40(=40/(50+40+5+3+2))」である。そして、最終スコアとして、「216(=540×0.40)」が示されている。
尚、図8に示すように、検索ワード「ブログ」を用いて求められたサイトのうち、サイトAのサイトスコアは「540」、サイトBのサイトスコアは「486」であった。この結果だけに基づけば、サイトAの方が上に表示されるようにスコアが付与されるはずである。しかしながら、サイトA及びサイトBに対して、サイト内検索用クエリ「旅行 ギリシャ」でサイト内検索をしたところ、サイトAからは40件、サイトBからは50件の検索結果が得られている。そこで、このサイト内検索結果を受けて、サイトAよりもサイトBの方が上に表示されるように、最終スコアはサイトBの方が高くなっている。
このように、サイト内検索結果記憶部39に情報が記憶されると、検索結果統合部40が、検索エンジン20が検索結果に含めるサイト内検索結果の情報を生成する。
図11は、このときの検索結果統合部40の動作例を示したフローチャートである。
まず、検索結果統合部40は、サイト内検索結果記憶部39に記憶されたサイト内検索結果から1行のレコードを読み込む(ステップ361)。そして、読み込んだレコードに含まれるサイト内検索結果のURLをセットしたフレームを生成する(ステップ362)。例えば、<frame>タグのsrc属性にサイト内検索結果のURLをセットすることにより、フレームを生成すればよい。また、読み込んだレコードに含まれるサイト内検索結果数に応じたフレームの高さを所定の計算式で算出し、算出したフレームの高さもフレームの付随情報としてセットする(ステップ363)。ここで、所定の計算式としては、例えば、サイト内検索結果数に対して、1つの検索結果を表示するのに適切な高さとして予め定められた高さを乗ずる計算式が考えられる。また、このように求めたフレームの高さは、例えば、<frameset>タグのrows属性にセットするとよい。
その後、検索結果統合部40は、サイト内検索結果からN行のレコードを読み込んだかどうかを判定する(ステップ364)。尚、ここでも、Nは、サイト内検索を行う対象のサイトの数としてユーザが指定した自然数である。
その結果、まだN行のレコードを読み込んでいないと判定されれば、ステップ361〜363を繰り返す。一方、N行のレコードを読み込んだと判定されれば、検索結果統合部40は、ステップ362〜363で情報がセットされたフレームの集合(フレームセット)を検索エンジン20に受け渡す(ステップ365)。
これにより、検索エンジン20は、検索結果を表示するページにフレームセットをはめ込んだページを生成し、クライアント10に送信する。
そして、クライアント10に検索結果が表示される。
図12は、このときにクライアント10に表示される検索結果の一例である。
この検索結果では、サイトAである「aaaブログ」におけるサイト内検索結果を含むフレーム401と、サイトBである「bbbブログ」におけるサイト内検索結果を含むフレーム402とが表示されている。
尚、ここでは、サイトに対応するフレーム内にサイト内検索結果を表示するようにしたが、これはあくまで一例であり、他の表示形態を採用してもよい。例えば、どのサイトでのサイト内検索結果であるかを明示せずに、単純にサイト内検索結果のみを表示するようにしてもよい。
以上、本実施の形態について説明してきた。
ところで、本実施の形態において、サイトはある特定のドメインの配下にあるページ群である必要はない。より一般化して、ドメイン等に関係なく、複数の文書データからなる文書データ群として捉えてもよい。
また、本実施の形態において、図8に示したサイトスコアは、そのサイトを検索するのに用いた検索ワードのワードスコアを加味したものとなっているが、必ずしもそのような形態には限らない。例えば、ワードスコアを加味せずに、検索エンジン20が各サイトに付与したサイト検索スコアをそのままサイトスコアとして採用してもよい。その場合は、ユーザが指定した複数の検索ワードのうち、どの検索ワードが例えば「ブログ」のように抽象度の高い検索ワードであるかの情報を別途与えておき、サイト内検索を行う対象のサイトを検索する場合には、この抽象度の高い検索ワードを用いるようにするのが好ましい。
更に、本実施の形態では、サイト内検索の対象のサイトを決定するのに用いた検索ワードとは異なる検索ワードを用いて、サイト内検索を行うようにしたが、サイト内検索を行うのに用いる検索ワードの中に、サイト内検索の対象のサイトを決定するのに用いた検索ワードが含まれていても構わない。
以上説明したように、本実施の形態では、複数の検索ワードを検索エンジン20に投入すると、サイト内検索装置30が、サイト内検索を行うサイトを決定し、そのサイトを対象として自動的にサイト内検索を行うようにした。これにより、検索フォームを設置しているサイトを検索することができ、従来のロボット型検索では検索できないデータ(特定のサーバから検索することでのみ得られるデータ)を検索対象にすることができるようになった。
また、サイトスコア及びサイト内検索スコアを考慮し、総合的に検索結果を表示するようにした。これにより、検索したい情報がどのサイトの中に存在しているかを判断する際の利便性が向上した。
更に、ウェブベースの統計情報を利用して算出したワードスコアを加味して、サイトスコアを算出するようにした。これにより、ユーザが指定した複数の検索ワードのうち、どの検索ワードを用いて、サイト内検索を行う対象のサイトを検索すればよいかを、ユーザが意識しなくてすむようになった。
尚、本実施の形態は、次のような事例に応用可能である。
(事例1)
製品の情報を調べたい場合
メーカの製品情報等は、一度、そのメーカのサイトを経由し、再度検索を行わなければならない。しかし、本実施の形態によれば、そのメーカ内のサイトに設置してある検索フォームに自動的に検索ワードを入力し、最初の検索一覧に表示することができる。
(事例2)
サイトが管理している情報の特徴を知りたい場合
情報が様々なサイトやメーリングリスト等で運営されている場合、そのサイト内検索を行った結果を最初の検索一覧に表示することで、迅速にサイトの特徴と良い情報を管理しているサイトを知ることができる。
最後に、本実施の形態を適用するのに好適なコンピュータのハードウェア構成について説明する。図13は、このようなコンピュータのハードウェア構成の一例を示した図である。図示するように、コンピュータは、演算手段であるCPU(Central Processing Unit)90aと、M/B(マザーボード)チップセット90bを介してCPU90aに接続されたメインメモリ90cと、同じくM/Bチップセット90bを介してCPU90aに接続された表示機構90dとを備える。また、M/Bチップセット90bには、ブリッジ回路90eを介して、ネットワークインターフェイス90fと、磁気ディスク装置(HDD)90gと、音声機構90hと、キーボード/マウス90iと、フレキシブルディスクドライブ90jとが接続されている。
尚、図13において、各構成要素は、バスを介して接続される。例えば、CPU90aとM/Bチップセット90bの間や、M/Bチップセット90bとメインメモリ90cの間は、CPUバスを介して接続される。また、M/Bチップセット90bと表示機構90dとの間は、AGP(Accelerated Graphics Port)を介して接続されてもよいが、表示機構90dがPCI Express対応のビデオカードを含む場合、M/Bチップセット90bとこのビデオカードの間は、PCI Express(PCIe)バスを介して接続される。また、ブリッジ回路90eと接続する場合、ネットワークインターフェイス90fについては、例えば、PCI Expressを用いることができる。また、磁気ディスク装置90gについては、例えば、シリアルATA(AT Attachment)、パラレル転送のATA、PCI(Peripheral Components Interconnect)を用いることができる。更に、キーボード/マウス90i、及び、フレキシブルディスクドライブ90jについては、USB(Universal Serial Bus)を用いることができる。
ここで、本発明は、全てハードウェアで実現してもよいし、全てソフトウェアで実現してもよい。また、ハードウェア及びソフトウェアの両方により実現することも可能である。また、本発明は、コンピュータ、データ処理システム、コンピュータプログラムとして実現することができる。このコンピュータプログラムは、コンピュータにより読取り可能な媒体に記憶され、提供され得る。ここで、媒体としては、電子的、磁気的、光学的、電磁的、赤外線又は半導体システム(装置又は機器)、或いは、伝搬媒体が考えられる。また、コンピュータにより読取り可能な媒体としては、半導体、ソリッドステート記憶装置、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスク、及び光ディスクが例示される。現時点における光ディスクの例には、コンパクトディスク−リードオンリーメモリ(CD−ROM)、コンパクトディスク−リード/ライト(CD−R/W)及びDVDが含まれる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態には限定されない。本発明の精神及び範囲から逸脱することなく様々に変更したり代替態様を採用したりすることが可能なことは、当業者に明らかである。
本発明の実施の形態におけるコンピュータシステムの全体構成を示した図である。 本発明の実施の形態の概略動作を説明するための図である。 本発明の実施の形態におけるサイト内検索装置の機能構成例を示した図である。 本発明の実施の形態のサイト内検索装置におけるサイト検索部の動作例を示したフローチャートである。 本発明の実施の形態のサイト内検索装置におけるワードスコア記憶部の記憶内容の一例を示した図である。 本発明の実施の形態のサイト内検索装置におけるサイト検索結果記憶部の記憶内容の一例を示した図である。 本発明の実施の形態のサイト内検索装置におけるサイト決定部の動作例を示したフローチャートである。 本発明の実施の形態のサイト内検索装置におけるサイトスコア記憶部の記憶内容の一例を示した図である。 本発明の実施の形態のサイト内検索装置におけるサイト内検索部の動作例を示したフローチャートである。 本発明の実施の形態のサイト内検索装置におけるサイト内検索結果記憶部の記憶内容の一例を示した図である。 本発明の実施の形態のサイト内検索装置における検索結果統合部の動作例を示したフローチャートである。 本発明の実施の形態における検索結果の表示例を示した図である。 本発明の実施の形態を適用可能なコンピュータのハードウェア構成を示した図である。
符号の説明
10…クライアント、20…検索エンジン、30…サイト内検索装置、31…クエリ受付部、32…サイト検索部、33…クエリ記憶部、34…ワードスコア記憶部、35…サイト検索結果記憶部、36…サイト決定部、37…サイトスコア記憶部、38…サイト内検索部、39…サイト内検索結果記憶部、40…検索結果統合部

Claims (12)

  1. 複数の検索語に基づいて文書データを検索する装置であって、
    前記複数の検索語のうちの第1の検索語に関連する複数の文書データ群であって、各文書データ群が当該各文書データ群内の検索のための検索用文書データを含む複数の文書データ群を決定する決定部と、
    前記決定部により決定された前記複数の文書データ群の各文書データ群に含まれる前記検索用文書データを用いて、当該各文書データ群から、前記複数の検索語のうちの前記第1の検索語とは異なる第2の検索語に関連する複数の文書データを検索する検索部と、
    前記検索部により検索された前記複数の文書データに関する情報を出力する出力部と
    を備え
    前記決定部は、前記第1の検索語と、前記検索用文書データを検索するための語として予め定められた特定の検索語とを検索エンジンに投入し、当該検索エンジンから返された検索結果に含まれる各文書データ群の所定の性質の程度と、前記第1の検索語に関連する文書データのうちの前記特定の検索語に関連する文書データに関する所定の数値とから得られる指標に基づいて、前記複数の文書データ群を決定することを特徴とする装置。
  2. 前記決定部は、前記第1の検索語を検索エンジンに投入し、当該検索エンジンから返された検索結果における特定の文字列の有無に基づいて、前記複数の文書データ群を決定する、請求項1の装置。
  3. 前記出力部は、前記複数の文書データに関する情報として、前記決定部により決定された前記複数の文書データ群の各文書データ群と、前記検索部により当該各文書データ群から検索された当該複数の文書データとを関連付けて表示するための表示情報を出力する、請求項1の装置。
  4. 前記検索部は、前記複数の文書データ群の各文書データ群内の検索のための各検索エンジンに前記第2の検索語を投入することにより、当該各文書データ群から、前記複数の文書データを検索し、
    前記出力部は、各検索エンジンから返された各検索結果に基づいて前記表示情報のレイアウトを決定し、当該レイアウトの当該表示情報を出力する、請求項の装置。
  5. 前記出力部は、各検索結果に含まれる前記複数の文書データの数に基づいて前記レイアウトを決定する、請求項の装置。
  6. 前記出力部は、各検索結果に含まれる前記複数の文書データのそれぞれの所定の性質の程度の集計結果に基づいて前記レイアウトを決定する、請求項の装置。
  7. 複数の検索語に基づいて文書データを検索する装置であって、
    前記複数の検索語のうちの第1の検索語に関連し、文書データ群内の検索のための第1の検索用文書データを含む第1の文書データ群と、前記複数の検索語のうちの当該第1の検索語とは異なる第2の検索語に関連し、文書データ群内の検索のための第2の検索用文書データを含む第2の文書データ群とを決定する決定部と、
    前記決定部により決定された前記第1の文書データ群から、前記第1の検索用文書データを用いて、前記第2の検索語に関連する第1の文書データを検索し、前記決定部により決定された前記第2の文書データ群から、前記第2の検索用文書データを用いて、前記第1の検索語に関連する第2の文書データを検索する検索部と、
    前記検索部により検索された前記第1の文書データと前記第2の文書データとに関する情報を出力する出力部と
    を備え
    前記決定部は、前記第1の検索語と、文書データ群内の検索のための検索用文書データを検索するための語として予め定められた特定の検索語とを検索エンジンに投入し、当該検索エンジンから返された第1の検索結果に基づいて、前記第1の文書データ群を決定し、前記第2の検索語と前記特定の検索語とを前記検索エンジンに投入し、当該検索エンジンから返された第2の検索結果に基づいて、前記第2の文書データ群を決定し、
    前記決定部は、前記第1の検索結果に含まれる各文書データ群の所定の性質の程度と、前記第1の検索語に関連する文書データのうちの前記特定の検索語に関連する文書データに関する所定の数値とから得られる第1の指標、及び、前記第2の検索結果に含まれる各文書データ群の所定の性質の程度と、前記第2の検索語に関連する文書データのうちの前記特定の検索語に関連する文書データに関する所定の数値とから得られる第2の指標に基づいて、前記第1の文書データ群及び前記第2の文書データ群を決定することを特徴とする装置。
  8. 前記決定部は、前記第1の検索語を検索エンジンに投入し、当該検索エンジンから返された第1の検索結果における特定の文字列の有無に基づいて、前記第1の文書データ群を決定し、前記第2の検索語を前記検索エンジンに投入し、当該検索エンジンから返された第2の検索結果における当該特定の文字列の有無に基づいて、前記第2の文書データ群を決定する、請求項の装置。
  9. 前記出力部は、前記第1の文書データと前記第2の文書データとに関する情報として、前記決定部により決定された前記第1の文書データ群と、前記検索部により検索された当該第1の文書データとを関連付けて表示するための第1の表示情報、及び、前記決定部により決定された前記第2の文書データ群と、前記検索部により検索された当該第2の文書データとを関連付けて表示するための第2の表示情報を出力する、請求項の装置。
  10. 複数の検索語に基づいて文書データを検索する装置であって、
    前記複数の検索語のうちの第1の検索語及び第2の検索語をそれぞれ検索エンジンに投入することにより、複数の文書データを検索し、当該第1の検索語と予め定められた特定の検索語とを含む第1の検索語列、及び、当該第2の検索語と当該特定の検索語とを含む第2の検索語列をそれぞれ前記検索エンジンに投入することにより、文書データ群内の検索のための複数の検索用文書データを検索する第1の検索部と、
    前記第1の検索語列及び前記第2の検索語列をそれぞれ前記検索エンジンに投入して前記第1の検索部により検索された前記複数の検索用文書データの中から、当該複数の検索用文書データに前記検索エンジンが与えたスコアと、前記第1の検索語を前記検索エンジンに投入して前記第1の検索部により検索された複数の文書データのうちの当該第1の検索語列を前記検索エンジンに投入して前記第1の検索部により検索された複数の検索用文書データの比率とから得られる第1の指標、及び、当該複数の検索用文書データに前記検索エンジンが与えたスコアと、前記第2の検索語を前記検索エンジンに投入して前記第1の検索部により検索された複数の文書データのうちの当該第2の検索語列を前記検索エンジンに投入して前記第1の検索部により検索された複数の検索用文書データの比率とから得られる第2の指標に基づいて、第1の文書データ群内の検索のための第1の検索用文書データ、及び、第2の文書データ群内の検索のための第2の検索用文書データを決定する決定部と、
    前記決定部により決定された前記第1の検索用文書データを用いて、前記第1の文書データ群から、前記第2の検索語に関連する第1の文書データを検索し、前記決定部により決定された前記第2の検索用文書データを用いて、前記第2の文書データ群から、前記第1の検索語に関連する第2の文書データを検索する第2の検索部と、
    前記決定部により決定された前記第1の検索用文書データと、前記第2の検索部により検索された前記第1の文書データとを関連付けて表示するための第1の表示情報、及び、前記決定部により決定された前記第2の検索用文書データと、前記第2の検索部により検索された前記第2の文書データとを関連付けて表示するための第2の表示情報を出力する出力部と
    を備えた、装置。
  11. 複数の検索語に基づいて文書データを検索する方法であって、
    前記複数の検索語のうちの第1の検索語に関連する複数の文書データ群であって、各文書データ群が当該各文書データ群内の検索のための検索用文書データを含む複数の文書データ群を決定するステップと、
    決定された前記複数の文書データ群の各文書データ群に含まれる前記検索用文書データを用いて、当該各文書データ群から、前記複数の検索語のうちの前記第1の検索語とは異なる第2の検索語に関連する複数の文書データを検索するステップと、
    検索された前記複数の文書データに関する情報を出力するステップと
    を含み、
    前記複数の文書データ群を決定するステップでは、前記第1の検索語と、前記検索用文書データを検索するための語として予め定められた特定の検索語とを検索エンジンに投入し、当該検索エンジンから返された検索結果に含まれる各文書データ群の所定の性質の程度と、前記第1の検索語に関連する文書データのうちの前記特定の検索語に関連する文書データに関する所定の数値とから得られる指標に基づいて、前記複数の文書データ群を決定することを特徴とする方法。
  12. 複数の検索語に基づいて文書データを検索する装置としてコンピュータを機能させるプログラムであって、
    前記コンピュータを、
    前記複数の検索語のうちの第1の検索語に関連する複数の文書データ群であって、各文書データ群が当該各文書データ群内の検索のための検索用文書データを含む複数の文書データ群を決定する決定部と、
    前記決定部により決定された前記複数の文書データ群の各文書データ群に含まれる前記検索用文書データを用いて、当該各文書データ群から、前記複数の検索語のうちの前記第1の検索語とは異なる第2の検索語に関連する複数の文書データを検索する検索部と、
    前記検索部により検索された前記複数の文書データに関する情報を出力する出力部と
    して機能させ
    前記決定部は、前記第1の検索語と、前記検索用文書データを検索するための語として予め定められた特定の検索語とを検索エンジンに投入し、当該検索エンジンから返された検索結果に含まれる各文書データ群の所定の性質の程度と、前記第1の検索語に関連する文書データのうちの前記特定の検索語に関連する文書データに関する所定の数値とから得られる指標に基づいて、前記複数の文書データ群を決定することを特徴とするプログラム。
JP2008291194A 2008-11-13 2008-11-13 文書データを検索する装置及び方法 Expired - Fee Related JP5226471B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008291194A JP5226471B2 (ja) 2008-11-13 2008-11-13 文書データを検索する装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008291194A JP5226471B2 (ja) 2008-11-13 2008-11-13 文書データを検索する装置及び方法

Publications (2)

Publication Number Publication Date
JP2010117925A JP2010117925A (ja) 2010-05-27
JP5226471B2 true JP5226471B2 (ja) 2013-07-03

Family

ID=42305558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008291194A Expired - Fee Related JP5226471B2 (ja) 2008-11-13 2008-11-13 文書データを検索する装置及び方法

Country Status (1)

Country Link
JP (1) JP5226471B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004264928A (ja) * 2003-02-28 2004-09-24 Nippon Telegr & Teleph Corp <Ntt> Webサイト内検索方法と装置、Webサイト内検索プログラムおよびこのプログラムを記録した記録媒体
JP4516815B2 (ja) * 2004-09-28 2010-08-04 株式会社ニューズウォッチ 検索装置
JP2007323394A (ja) * 2006-06-01 2007-12-13 Ritsumeikan メタ検索システム及びメタ検索方法とこれに用いるユーザ端末及びプログラム
KR100955776B1 (ko) * 2006-12-27 2010-04-30 엔에이치엔(주) 검색 시스템 및 방법

Also Published As

Publication number Publication date
JP2010117925A (ja) 2010-05-27

Similar Documents

Publication Publication Date Title
JP5110201B2 (ja) 検索処理方法及び装置
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
US8001135B2 (en) Search support apparatus, computer program product, and search support system
US8150846B2 (en) Content searching and configuration of search results
JP5226401B2 (ja) 文書データの検索を支援する装置及び方法
US9195717B2 (en) Image result provisioning based on document classification
JP2003178092A (ja) 情報検索システム、情報提供装置及び情報検索方法並びにプログラム
JP2010097461A (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP5020716B2 (ja) マルチメディアデータ検索システム、マルチメディアデータ検索装置、マルチメディアデータ検索方法、およびプログラム
JP2007334590A (ja) 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5226471B2 (ja) 文書データを検索する装置及び方法
JP2006236221A (ja) ウエブページ検索のための管理サーバ装置
JP2010055164A (ja) 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体
JP5286007B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP5155130B2 (ja) カテゴリ提示装置
JP5416023B2 (ja) 閲覧端末及び方法
JP2003162540A (ja) データ検索装置およびデータ検索方法
JP7309669B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP2015005050A (ja) 検索支援装置及び検索支援プログラム
JP4859891B2 (ja) コンテンツに関連する情報を提供するサーバ、システム及び方法
JP5108707B2 (ja) 検索サーバ装置、検索方法及びプログラム
JP4791169B2 (ja) 関連語抽出装置、関連語抽出方法
JP2003263457A (ja) 願望又は状況表現に基づく施設情報検索装置
JP2008171110A (ja) サイト検索システム、検索サーバ、プログラム
JP5544401B2 (ja) 文書データ評価方法、文書データ評価装置、文書データ選択方法、文書データ選択装置、データベース生成方法、データベース生成装置、およびコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110906

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130226

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20130226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130314

R150 Certificate of patent or registration of utility model

Ref document number: 5226471

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160322

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees