JP2010113730A

JP2010113730A - 検索サーバ及びコンピュータプログラム

Info

Publication number: JP2010113730A
Application number: JP2009296359A
Authority: JP
Inventors: Toshiaki Nakatsu; 利秋中津
Original assignee: Mars Flag Corp
Current assignee: Mars Flag Corp
Priority date: 2009-12-25
Filing date: 2009-12-25
Publication date: 2010-05-20

Abstract

【課題】検索結果に特定の文書ファイルが含まれる場合であっても、ユーザが効率的に検索結果の情報を取得し、有意な情報か否かを直ちに判断可能とする。
【解決手段】検索サーバであって、クライアント端末の表示装置上で表示するために、ウェブブラウザとは異なる特定アプリケーションの実行を必要とする文書ファイルに含まれるテキスト情報を記憶する第１のデータベースと、文書ファイルを特定アプリケーションでページ単位に表示した場合の表示状態を表す画像データと該画像データの縮小画像を記憶する第２のデータベースと、クライアント端末から受信した検索語に基づいて第１のデータベースを検索し、検索結果の候補を決定する検索手段と、検索結果の候補に基づいて生成された検索結果表示情報をクライアント端末へ送信する送信手段とを備える。
【選択図】図１

Description

本発明は、検索サーバ及びコンピュータプログラムに関する。

近年はインターネットが急速に普及し、膨大な情報がインターネットを介して入手可能となっている。そのような膨大な情報量を効率的に扱うための手段として最も有効なのが、検索エンジンである。

ユーザは検索エンジンを自身のパーソナルコンピュータ等のクライアント端末のデスクトップ上で実行しているウェブブラウザで利用することができ、検索結果はウェブブラウザ上で閲覧することができる。検索結果には、該当ページ、該当ファイルのインターネット上での格納場所を示すＵＲＬがリンク表示されて一覧として提供されるのが一般的である。ユーザが所望のリンクを選択すると、該当するファイルやページがダウンロードされ、クライアント端末のウェブブラウザ上に表示されるようになっている。このとき表示されるページ、ファイルには、ＨＴＭＬフォーマットのウェブページの他、ＨＴＭＬフォーマット以外のファイル形式を有する製品の説明書やカタログ、図面などの文書ファイルが含まれる（特許文献１を参照）。

このような文書ファイルはユーザにとって有意義な情報を含む場合が多いが、検索結果では、文書ファイル全体につき１つのリンクが設定されることが一般的である。例えば、ある技術用語（例えば、「検索語サジェスト機能」）を検索語として検索を行った結果、ある文書ファイル「ファイルＡ」が該検索語を１つのみ含んでいることも考えられる。その場合、ファイルＡが１００ページの文書であって９８ページ目に該当語が記載されていたとしても、検索結果には１００ページ分のファイルＡの格納場所がリンク表示され、ユーザはファイルＡを１００ページ分全て取得して、展開し検索語を自ら探し出す必要がある。

また、文書ファイルをウェブブラウザ上で閲覧するためには、ファイルを展開するための専用プログラムや追加のライブラリをさらに必要とすることが多く、環境が整っていない場合にはファイルを確認するための事前インストール等の作業が要求される。従って、ユーザは検索結果の内容を直ちに確認することができない場合がある。また、せっかく専用プログラムをインストールしたとしても、検索結果に含まれるファイルがユーザが本当に必要としているファイルでない可能性もある。

さらに、近年は、このような文書ファイルが検索結果に含まれる場合に、簡易表示を目的としてＨＴＭＬフォーマットに予め変換されたデータを提供することも行われている。しかし、ここで提供されるＨＴＭＬフォーマットのデータは、テキスト情報のみが残存し、ユーザの情報把握に有意義な画像情報（写真、図形、グラフ等）が欠落してしまっている。従って、係るサービスを利用した場合であっても、ユーザは文書ファイルそのものの内容を把握することが困難となっている。

特表２００６−５０２４６１号公報

このように、従来の検索では、検索結果において提示されたウェブブラウザとは異なる特定のアプリケーションの実行により表示される形式の文書ファイルにおいて、ユーザが必要とする情報に辿り着くためには煩雑な手続が必要とされる。

そこで、本発明は検索結果にウェブブラウザとは異なる特定のアプリケーションの実行により表示される形式の文書ファイルが含まれる場合であっても、ユーザが効率的に検索結果の情報を取得し、有意な情報か否かを直ちに判断可能とすることを目的とする。

上記課題を解決するための本発明は、クライアント端末から受信した検索語に基づいてインターネット上のウェブサイトを検索して検索結果を該クライアント端末に送信する検索サーバであって、
インターネット上でＵＲＬにより指定されるウェブページ及び文書ファイルのテキスト情報を記憶する第１のデータベースであって、該文書ファイルは前記クライアント端末の表示装置上で表示するためにウェブブラウザとは異なる特定アプリケーションの実行を必要とする、第１のデータベースと、
前記文書ファイルを前記特定アプリケーションでページ単位に表示した場合の表示状態を表す画像データを記憶する第２のデータベースと、
前記クライアント端末から検索語を受信する受信手段と、
受信した前記検索語に基づいて前記第１のデータベースを検索し、検索結果の候補を決定する検索手段と、
前記検索結果の候補に基づいて、前記クライアント端末へ送信する検索結果表示情報を生成する生成手段と、
生成された前記検索結果表示情報を前記クライアント端末へ送信する送信手段と
を備え、
前記生成手段は、
前記候補に前記文書ファイルのいずれかのページが含まれる場合に、該ページの画像データを前記第２のデータベース内で探索し、
前記第２のデータベースから前記ページの画像データを取得できた場合には、該候補について前記文書ファイルを取得するための第１のリンク情報と前記画像データを取得するための第２のリンク情報とを含む前記検索結果表示情報を生成し、
前記第２のデータベースから前記ページの画像データを取得できなかった場合には、該候補について前記第１のリンク情報を含む前記検索結果表示情報を生成する
ことを特徴とする。

本発明によれば、検索結果にウェブブラウザとは異なる特定のアプリケーションの実行により表示される形式の文書ファイルが含まれる場合であっても、ユーザが効率的に検索結果の情報を取得し、有意な情報か否かを直ちに判断可能とすることができる。

発明の実施形態に対応する、インターネット上のウェブサイトの検索システムの全体構成を示すブロック図である。発明の実施形態に対応する、クライアント１０１のハードウェア構成の一例を示すブロック図である。発明の実施形態に対応する、検索サーバ１０３の機器構成を示すブロック図である。発明の実施形態に対応する、検索サーバ１０３における検索用のテキストデータと画像データを生成する処理の一例を示すフローチャートである。発明の実施形態に対応する、図４のフローチャートに対応する処理により生成された、全文検索データベース１０４におけるテキスト検索用テーブルのデータ構成の一例を示す図である。発明の実施形態に対応する、図４のフローチャートに従った処理により生成される画像データベース１０５の画像登録テーブルのデータ構成の一例を示す図である。発明の実施形態に対応する検索サーバ１０３における検索処理の一例を示すフローチャートである。発明の実施形態に対応する、図７のステップＳ７０３における検索結果表示情報生成処理の詳細を示すフローチャートである。発明の実施形態に対応する、検索結果表示情報のデータ内容の一部を一例として示す図である。発明の実施形態に対応する、クライアント１０１側での動作の一例を示すフローチャートである。発明の実施形態に対応する、クライアント１０１における検索結果表示情報の表示例を示す図である。発明の実施形態に対応する、検索結果の候補一覧のいずれかの候補を選択した場合の表示例を示す図である。

以下に、添付する図面を参照して本発明の実施形態を説明する。ただし、この実施の形態に記載されている構成要素はあくまでも例示であり、この発明の範囲をそれらのみに限定する趣旨のものではない。

＜システム構成＞
図１は、本実施形態に対応する、インターネット上のウェブサイトの検索システムの全体構成を示すブロック図である。ユーザが操作してウェブサイトの検索を行うクライアント１０１ａ、１０１ｂ、１０１ｃ（以下、これらを総称して「クライアント１０１」という。）、ウェブサイト検索を行う検索サーバ１０３、ウェブサイトの情報を提供するウェブサーバ１０６が、それぞれインターネット１０２に接続されている。また、検索サーバ１０３には、全文検索データベース１０４、画像データベース１０５が接続されている。

クライアント１０１は、ユーザが操作して、ウェブサーバ１０６がインターネット上で公開するウェブサイト情報を閲覧可能な情報処理装置であり、ノートパソコン、デスクトップパソコン、携帯情報端末、携帯電話等を含む。クライアント１０１には、所謂インターネット・ブラウザのソフトウェアがインストールされているものとする。

クライアント１０１は、イーサネット（登録商標）等のネットワークケーブルを含むアクセス手段であるＬＡＮによってインターネット１０２に接続されている。尚、ネットワーク１０２へのアクセス手段はイーサネット（登録商標）ケーブルに限定されるものではなく、無線ＬＡＮ等の無線通信手段によって構成されていてもよい。検索サーバ１０３、ウェブサーバ１０６も同様のアクセス手段を備えているものとする。

インターネット１０２は、世界中のネットワークが互いに接続されたネットワークであるが、例えば、イントラネットのように特定の組織内においてのみ接続可能なネットワークであってもよい。

検索サーバ１０３は、クライアント１０１のユーザに対して、インターネット１０２上でウェブサーバ１０６が提供するウェブサイトのウェブページの検索サービスを提供する情報処理装置である。

検索サーバ１０３は、全文検索データベース１０４、画像データベース１０５に格納されている情報を管理している。検索サーバ１０３は、例えば、ＬＡＮによって、全文検索データベース１０４、画像データベース１０５に接続される。

全文検索データベース１０４、画像データベース１０５は、それぞれ所定のデータベース・ソフトウェアがインストールされた情報処理装置であり、各種データの管理を行う。

全文検索データベース１０４は、インターネット１０２上のウェブサイトから取得したウェブページの情報に基づき、テキスト情報とページのメタ情報(URL,タイトル,検索順位等)を紐付けたデータベースである。全文検索データベース１０４に登録される情報の一例については、図５を参照して後述する。検索サーバ１０３は、クライアント１０１から受信したユーザ指定の検索語を用いて、全文検索データベース１０４を利用して検索を行う。画像データベース１０５は、インターネット１０２上のウェブサイトから取得した文書ファイルを画像データに変換し、格納するデータベースである。画像データベース１０５に登録される情報の一例については、図６を参照して後述する。

ウェブサーバ１０６は、インターネット上１０２でウェブサイトを提供する。本実施形態においてウェブサイトとは、ひとまとまりに公開されているページ群のことを言う。該ページ群には、ＨＴＭＬフォーマットのファイルの他、Ａｄｏｂｅ社が提供するＰＤＦや、Ｍｉｃｒｏｓｏｆｔ社が提供するＷｏｒｄ、ＰｏｗｅｒＰｏｉｎｔ、Ｅｘｃｅｌ等のアプリケーションで生成された文書ファイル等が含まれる。また、ウェブサイトには、例えば、法人や個人のホームページ等がある。

尚、本明細書では、便宜上、検索サーバ１０３、全文検索データベース１０４、及び、画像データベース１０５は、それぞれ物理的に独立した情報処理装置によって実現されるものとして説明するが、本発明の実施形態はこれに限られるものではない。例えば、これらが単一の情報処理装置によって実現されてもよい。その一方で、検索サーバ１０３等の各装置が複数台の情報処理装置により冗長構成、或いは分散構成されても良い。また、全文検索データベース１０４及び画像データベース１０５は、検索サーバ１０３とＬＡＮ等によって接続されているものとして説明するが、例えば、インターネット１０２や非図示のイントラネット経由で検索サーバ１０３と通信可能な形態をとってもよい。また、図１ではインターネット１０２に接続するウェブサーバ１０６を、説明の簡単のために１つのみ記載しているが、実際には多数のウェブサーバ１０６が接続されているものであり、その場合でも本願発明は当然に実施可能である。

＜情報処理装置の構成＞
次に、本実施形態に対応するウェブサイト検索システムを構成する情報処理装置の概略について説明する。図２は、クライアント１０１のハードウェア構成の一例を示すブロック図である。上述した情報処理装置としての全文検索データベース１０４及び画像データベース１０５も、同様或いは同等のハードウェア構成として構成しても良い。

図２において、ＣＰＵ２００は、ハードディスク装置（以下、ＨＤと呼ぶ）２０５に格納されているアプリケーションプログラム、オペレーティングシステム（ＯＳ）や制御プログラム等を実行し、ＲＡＭ２０２にプログラムの実行に必要な情報、ファイル等を一時的に格納する制御を行う。

ＲＯＭ２０１は、内部に基本Ｉ／Ｏプログラム等のプログラム、文書処理の際に使用するフォントデータ、テンプレート用データ等の各種データを記憶する。ＲＡＭ２０２は各種データを一時記憶し、ＣＰＵ２００の主メモリ、ワークエリア等として機能する。

外部記憶ドライブ２０３は、記録媒体へのアクセスを実現するための外部記憶ドライブであり、メディア（記録媒体）２０４に記憶されたプログラム等を本コンピュータシステムにロードすることができる。尚、メディア２０４は、例えば、フロッピー（登録商標）ディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＰＣカード、ＤＶＤ、Ｂｌｕ−ｒａｙ、ＩＣメモリカード、ＭＯ、メモリスティック等を利用することができる。

ＨＤ２０５は、外部記憶装置であって、本実施形態では大容量メモリとして機能するハードディスクを用いている。ＨＤ２０５には、アプリケーションプログラム、ＯＳ、制御プログラム、関連プログラム等が格納される。なお、ハードディスクの代わりに、フラッシュ（登録商標）メモリ等の不揮発性記憶装置を用いても良い。

指示入力装置２０６は、キーボードやポインティングデバイス（マウス等）、タッチパネル等がこれに相当する。指示入力装置２０６を用いて、ユーザは、クライアント１０１に対して、装置を制御するコマンド等を入力指示する。ディスプレイ２０７は、指示入力装置２０６から入力したコマンドや、それに対するクライアント１０１の応答出力等を表示したりするものである。システムバス２０９は、情報処理装置内のデータの流れを司る。インターフェイス（以下、Ｉ／Ｆという）２０８は、外部装置とのデータのやり取りを仲介する役割を果たす。

尚、以上の各装置と同等の機能を実現するソフトウェアにより、ハードウェア装置の代替として構成することもできる。

本実施形態では、メディア２０４から本実施形態に係るプログラム及び関連データを直接ＲＡＭ２０２にロードして実行させる例を示すが、これ以外にも、本実施形態に係るプログラムを動作させる度に、既にプログラムがインストールされているＨＤ２０５からＲＡＭ２０２にロードするようにしてもよい。また、本実施形態に係るプログラムをＲＯＭ２０１に記録しておき、これをメモリマップの一部をなすように構成し、直接ＣＰＵ２００で実行することも可能である。

図３は、検索サーバ１０３の機器構成を示すブロック図である。ウェブサーバ１０６も同様のハードウェア構成を採用することができる。ＣＰＵ３００、ＲＯＭ３０１、ＲＡＭ３０２、外部記憶ドライブ３０３、メディア３０４、ＨＤ３０５、指示入力装置３０６、ディスプレイ３０７、Ｉ／Ｆ３０８、システムバス３０９の機能及び用途、更には、これらの関係は、図２を用いて説明したものと同様或いは同等である。図３では、データベース３１０がシステムバス３０９に接続されていることに留意する。ここで、データベース３１０は、全文検索データベース１０４及び画像データベース１０５を総称するものである。

＜検索用データの生成＞
次に、発明の実施形態に対応する検索用データの生成処理について、図４のフローチャートと図５及び図６のテーブルとを参照して説明する。図４は、発明の実施形態に対応する、検索サーバ１０３における検索用のテキストデータと画像データを生成する処理の一例を示すフローチャートである。図４に対応する処理は、検索サーバ１０３がＨＤ３０５やデータベース３１０に保持する処理プログラムをＣＰＵ３００で実行することで実現される。図５は、図４のフローチャートに対応する処理により生成された、全文検索データベース１０４におけるテキスト検索用テーブルのデータ構成の一例を示す図である。図６は、図４のフローチャートに従った処理により生成される画像データベース１０５の画像登録テーブルのデータ構成の一例を示す図である。

図４において、ステップＳ４０１では、所望のＵＲＬを指定してウェブサーバ１０６からＵＲＬに対応するデータを取得する。ここで取得されるデータには、ＨＴＭＬ形式のページデータや、ＰＤＦファイルや、ワードファイル、エクセルファイル、パワーポイントファイルといった文書ファイル等が含まれる。

続くステップＳ４０２では取得したデータから全文のテキスト情報を抽出する。続くステップＳ４０３では、抽出したテキスト情報をステップＳ４０１で指定したＵＲＬと関連づけて全文検索データベース１０４へ登録する。

続くステップＳ４０３では、ステップＳ４０１で取得した文書ファイルが画像生成対象のファイルに該当するか否かを判定する。画像生成対象のファイルには、Ａｄｏｂｅ社が提供するＰＤＦや、Ｍｉｃｒｏｓｏｆｔ社が提供するＷｏｒｄ、ＰｏｗｅｒＰｏｉｎｔ、Ｅｘｃｅｌ等のアプリケーションで生成された文書ファイルが含まれる。これらの画像生成対象のファイルは、ウェブブラウザとは異なるアプリケーションであって、文書ファイルに対応する表示用アプリケーションをクライアント１０１にインストールしておき、該アプリケーションを実行しなければディスプレイ２０７上に表示させることができない種類のファイルである。

ステップＳ４０３における判定方法には、例えば、HTTPレスポンスのMIME-TYPEを参照して判定する方法や、文書ファイルの先頭付近のバイト列を調べることで判定する方法が含まれる。なお、先頭付近のバイト列を参照する方法は例えばUNIX(登録商標)系OSのfileコマンドを利用することで実施することができる。また、ファイルの拡張子を参照することにより判定してもよい。

もし、処理対象の文書ファイルが画像生成対象の文書であると判定された場合（ステップＳ４０４において「ＹＥＳ」）、ステップＳ４０５に移行する。一方、処理対象の文書ファイルが画像生成対象の文書でないと判定された場合（ステップＳ４０４において「ＮＯ」）、本処理を終了する。

ステップＳ４０５では、ステップＳ４０２において抽出したテキスト情報を、ページ単位の情報に分割して、該ページ単位のＵＲＬと関連づけて全文検索データベース１０４内に登録する。

全文検索データベース１０４におけるテキスト情報の登録の様子は、図５のテキスト検索用テーブル５００に示す通りである。テキスト検索用テーブル５００において、取得元ＵＲＬ５０１には、文書ファイルを取得したＵＲＬが登録される。また、取得元ＵＲＬが、ＰＤＦファイルなどの、特定の文書ファイルの場合、ページ単位のＵＲＬも更に登録される。例えば、http://www.abc.com/letter.pdf というＵＲＬで取得される「letter.pdf」のファイルが５０ページで構成される場合、ファイル全体を「http://www.abc.com/letter.pdf」で表し、各ページを「http://www.abc.com/letter.pdf#page=N」で表す。ここでＮはページ番号を示し、「letter.pdf」の場合、Ｎ=1,2,3,…,50となる。

テキスト５０２には、取得元ＵＲＬに対応するテキストデータが登録される。ファイル本体のＵＲＬ「http://www.abc.com/letter.pdf」に対しては、文書ファイル全体のテキストファイルが登録され（letter.txt）、各ページのＵＲＬ「http://www.abc.com/letter.pdf#page=N(N=1,2,…)」については、各ページのテキストファイルが登録される。なお、「http://www.abc.com/document.html」のような、ＨＴＭＬフォーマットのファイルは、ページ単位に分割せずに全体として一つのテキストファイル(document.txt)のみがテキスト５０２に登録される。

このテーブル５００を用いることで、ある文書ファイルについて全文のテキスト情報と、ページ単位のテキスト情報とをＵＲＬ単位で管理することが可能となる。

図４のフローチャートの説明に戻り、続くステップＳ４０６では、ステップＳ４０１で取得した文書ファイルの各ページの画像データを生成する。具体的には、文書ファイルを表示するためのアプリケーションを用いて、ページ単位にディスプレイ表示可能な情報としてＲＡＭ３０２上に展開したのち、該ＲＡＭ３０２上の情報を画像データに変換する。画像データの形式は、例えばＪＰＥＧとすることができるが、これに限定されるものではない。また、文書ファイルの画像データへの変換方法は、上述の方法に限定されるものではなく、公知の他の技術を利用して実行することができる。また、ステップＳ４０６では、拡大表示用の画像データと検索結果の一覧表示用のデータ（サムネイル画像）との解像度の異なる複数の画像データを生成する。

次に、ステップＳ４０７において、文書ファイルを構成する各ページのうち、代表的なページを決定する。代表ページは、例えば１ページ目を選択してもよいし、ページの中でもっても色数の多いもの、あるいは、ページ毎に周波数解析を行い高周波数成分に高い係数を持つページを選択してもよい。

続くステップＳ４０８では、ステップＳ４０６で生成した画像データを、文書ファイルのＵＲＬ或いはページのＵＲＬと関連づけて画像データベース１０５に登録する。このとき生成される画像データベース１０５内の画像登録テーブルの一例は、図６に示す通りである。

図６において、画像登録テーブル６００は、取得元ＵＲＬ６０１に、画像データに対応するＵＲＬが登録される。登録されるＵＲＬは、図５のテーブル５００と同様文書ファイル全体を示すＵＲＬと、ページ単位のＵＲＬとがあり、テーブル５００における取得元ＵＲＬ５０１の登録内容と対応している。例えば、http://www.abc.com/letter.pdf というＵＲＬで取得される「letter.pdf」のファイルが５０ページで構成される場合、ファイル全体は「http://www.abc.com/letter.pdf」で表され、各ページは「http://www.abc.com/letter.pdf#page=N」で表される。

次にページ画像６０２には、文書ファイルを変換して得られたページ毎の画像データが登録される。当該画像データは、検索結果の一覧において選択された場合に、文書ファイルの代わりにクライアント１０１のディスプレイ２０７に表示される画像である。なお、文書ファイル全体を示すＵＲＬ（例えば、「http://www.abc.com/letter.pdf」）には、ステップＳ４０７で代表ページとして決定されたページの画像データが登録される。画像データのファイル名は、例えば、図５のページテキスト５０４に対応したものとすることができる。ページ画像６０２は取得元ＵＲＬ６０１と関連づけられているので、テキスト検索用テーブル５００における取得元ＵＲＬ５０１に基づき、テキスト画像とを一対一で対応づけることができる。

また、画像登録テーブル６００において、サムネイル画像６０３には、ページ画像６０２に登録されたページ毎の画像データの縮小画像が、対応するＵＲＬと関連づけられて登録される。該サムネイル画像は検索結果の一覧表示の際に検索結果のイメージを提供するために利用される。

以上により、所望のＵＲＬに格納されている文書ファイルについて、検索用のテキスト情報と画像データとを生成することができる。

次に、ユーザからの検索要求を検索サーバ１０３が受け付けた場合に、以上のようにして生成した検索用の情報を用いた検索処理の流れを説明する。図７は、発明の実施形態に対応する検索サーバ１０３における検索処理の一例を示すフローチャートである。図７に対応する処理は、検索サーバ１０３がＨＤ３０５やデータベース３１０に保持する処理プログラムをＣＰＵ３００で実行することで実現される。

まず、ステップＳ７０１では、クライアント１０１から検索語を受信する。続くステップＳ７０２では、受信した検索語に基づいて全文検索データベース１０４を検索する。このとき、文書ファイルを検索対象とする場合には、文書ファイル全体のテキスト（例：letter.txt）とページ毎のテキスト(例：letter001.txt)との全てを検索する。この検索の結果、特定のページが文書ファイルの中で有意と判定され、検索結果に含めるとの判定が成される場合もあるし、特定のページに絞り込めないが文書ファイル全体としては検索語を含んでいるので検索結果に含めるとの判定が成される場合がある。

例えば、「検索サジェスト機能」という検索語が設定された場合に、「検索サジェスト機能」の語そのものがあるページに含まれている場合には、該当ページを検索結果に含めるとの判定が成される。一方、検索語そのものは１ページ内に含まれていないが、「検索」、「サジェスト機能」との語が別々のページに含まれている場合、検索結果として単一ページは特定できないが、少なくとも文書ファイル全体としては検索語に関連性があると判断され、検索結果に含めるとの判定が成される場合がある。

続くステップＳ７０３では、検索処理の結果に基づいてクライアント１０１のディスプレイ２０７に表示するための検索結果表示情報を生成する。続くステップＳ７０４では、生成した検索結果表示情報をクライアント１０１へ送信する。

図８は、図７のステップＳ７０３における検索結果表示情報生成処理の詳細を示すフローチャートである。

ステップＳ８０１では、検索結果の表示候補を表示順に選択する。ステップＳ８０２では、表示候補のリンク情報を生成する。ここで生成されるリンク情報とは、検索結果の本体のＵＲＬに接続するための情報である。例えば、表示候補がＵＲＬ「http://www.abc.com/letter.pdf」に格納されている「letter.pdf」の４ページ目の場合には、検索結果がクライアント１０１のディスプレイ２０７に表示され、ユーザのクリック操作が行われた場合にＵＲＬ「http://www.abc.com/letter.pdf」の４ページ目へ接続するためのリンク情報が生成される。

図９は、検索結果表示情報のデータ内容の一部を一例として示す図であり、図９の９０１に記載されている「＜a href="http://abc.com/letter.pdf#page=4"＞letter＜/a＞」との内容は、当該「letter.pdf」の４ページ目へのリンク情報である。ここではＰＤＦファイルを例として説明しているが、ＰＤＦファイル以外の他の形式のファイルについても、同様にして該当ページへリンクするためのＵＲＬが指定される。

次に、ステップＳ８０３において表示候補が画像生成対象文書であるか否かを判定する。かかる判定は、ステップＳ８０２で生成されたリンク情報がＨＴＭＬページへのリンクなのか、ウェブブラウザとは異なる特定のアプリケーションの実行により表示される形式の文書ファイルへのリンクなのかに基づいて行う。もし、ＨＴＭＬページへのリンクである場合には（ステップＳ８０３において「ＮＯ」）、ステップＳ８０６に移行する。また、表示候補が画像生成対象文書である場合には（ステップＳ８０３において「ＹＥＳ」）、ステップＳ８０４に移行する。

ステップＳ８０４では、ステップＳ８０２でリンク情報として記載したＵＲＬに対応する画像データが、画像登録テーブル６００に登録されているか否かを判定する。例えば、リンク情報が「＜a href="http://abc.com/letter.pdf#page=4/"＞letter＜/a＞」の場合、「http://abc.com/letter.pdf#page=4」を取得ＵＲＬ６０１として持つページ画像６０２及びサムネイル画像６０３が登録されているか否かが判定される。

もし画像が登録されていると判定された場合（ステップＳ８０４において「ＹＥＳ」）、ステップＳ８０５に移行する。一方、画像が登録されていないと判定された場合（ステップＳ８０４において「ＮＯ」）、ステップＳ８０６に移行する。

ステップＳ８０５では、表示候補のリンク情報に画像データ表示のためのタグを追加する。

例えば、表示候補が「＜a href="http://abc.com/letter.pdf#page=4"＞letter＜/a＞」の場合、ＵＲＬ「http://abc.com/letter.pdf#page=4」と関連づけて登録されているページ画像６０２は、「letter004.jpg」であり、サムネイル画像６０３は「letterS004.jpg」である。そして、これらが画像データベース１０５において格納されている位置を特定するためのＵＲＬは、格納先ＵＲＬに基づき、「http://search.com/JPG/letter/letter004.jpg」と、「http://search.com/JPG/letter/letterS004.jpg」と特定することができる。このうち、サムネイル画像「letterS004.jpg」はクリックを受け付けてページ画像「letter004.jpg」を表示させるためのリンク画像として利用されるので、図９の９０２に示すように、リンク先を示す＜a href="http://search.com/JPG/letter/letter004.jpg"＞が記載され、かつ、クリック部分として表示されるサムネイル画像を示す＜img src="http://search.com/JPG/letter/letterS004.jpg"＞＜/a＞が記載される。

なお、表示候補のリンクが「＜a href="http://abc.com/letter.pdf"＞letter＜/a＞」のように、文書ファイル全体を示す場合には、代表ページとして指定されたページのページ画像とサムネイル画像が使用される。

以上により、１つの表示候補について、本来のＵＲＬにリンクするためのリンク情報と、サムネイル画像を用いて文書ファイルのページ画像へリンクするためのリンク情報とを含めた検索結果表示情報を生成することができる。以上の処理は、検索結果に含まれる表示候補の全てについて行われ、全てについてリンク情報を生成した場合には検索結果表示情報が完成したこととなる。

よって、ステップＳ８０６では、未処理の表示候補があるか否かを判定し、未処理の表示候補がある場合にはステップＳ８０１に戻って処理を継続する。一方、全ての表示候補についてリンク情報を生成した場合には、ステップＳ７０３における処理を終了して、ステップＳ７０４に移行する。

なお、検索結果表示情報には、各表示候補の要約テキストが添付されてもよいが、係る要約テキストの添付方法は公知の技術であるので本明細書での説明は省略している。また、上述の説明では、サムネイル画像が存在する場合を説明したが、ページ画像のみがテーブル６００に登録されている場合であっても、サムネイル画像の代わりにページ画像のリンクをテキスト表示することで、同様の処理によりリンク情報を生成することができる。

＜検索処理＞
次に、クライアント１０１側での動作を図１０のフローチャートを参照して説明する。図１０に対応する処理は、クライアント１０１がＨＤ２０５に保持する処理プログラムをＣＰＵ２００で実行することで実現される。

ステップＳ１００１では、ユーザから検索語の入力を受け付ける。続くステップＳ１００２では、入力された検索語を検索サーバ１０３へ送信する。続くステップＳ１００３では、検索語に従って行われた検索結果をディスプレイ２０７に表示するためのディスプレイ表示情報を検索サーバ１０３より受信する。ステップＳ１００４では、受信した検索結果表示情報をディスプレイ２０７に表示する。

このときの表示形態の一例は図１１に示す通りである。図１１において、ウィンドウ１１００は、ウェブブラウザの表示画面全体を示している。ウェブブラウザの構成は、一般的であるので特に説明しないが、例えば、インターネット・エクスプローラ、ファイヤーフォックス、オペラ、サファリなどの各種ウェブブラウザを利用することができる。

検索結果は表示候補毎に区別して表示され、与えられた領域毎に検索結果の本体のＵＲＬに接続するためのリンク１１０１、リンク１１０１の接続先のＵＲＬを示すＵＲＬ表示１１０２、ページ画像にリンクしたサムネイル画像１１０３を含む。リンク１１０１は、図９におけるタグ９０１の記載に対応し、サムネイル画像１１０３はタグ９０２及び９０３の記載に対応する。その他、関連箇所の要約テキストを表示することもできるが、図１１では図面の簡単のために省略している。

なお、リンク１１０１が文書ファイルではなく、ＨＴＭＬフォーマットのページの場合や、画像登録テーブル６００に画像が登録されていない場合には、サムネイル画像１１０３は表示されない。

次に、図１０の説明に戻ると、図１１のような検索結果表示情報が表示された状態で、ユーザは所望の表示候補を選択し、情報をディスプレイ２０７上に表示させようとする。ステップＳ１００５では、ユーザからの操作の種別を判別する。仮に、サムネイル画像１１０３が選択された場合には、ステップＳ１００６へ移行する。一方、リンク１１０１が選択された場合にはステップＳ１００７に移行する。なお、サムネイル画像の代わりにページ画像のリンクがテキスト表示されている場合は、係るリンクが選択された場合に、ステップＳ１００６に移行する。

ステップＳ１００６では、検索結果表示情報に含まれているサムネイル画像と関連づけられたページ画像のＵＲＬに従って、検索サーバ１０３に対してページ画像の送信を要求する。例えば、図１１の「letterS004.jpg」がクリックされた場合は、ＵＲＬ「http://search.com/JPG/letter/letter004.jpg」に従って、クライアント１０１は検索サーバ１０３に「letter004.jpg」のページ画像を送信するように要求する。

一方、ステップＳ１００７ではリンク１１０１に含まれるＵＲＬに従い、対応するウェブサーバ１０６に文書ファイルの送信を要求する。例えば、図１１の「[PDF]letter」のリンク１１０１が選択された場合は、ＵＲＬ「http://abc.com/letter.pdf#page=4」に従って、クライアント１０１はウェブサーバ１０６に「letter.pdf」の文書ファイルの送信を要求する。

続いて、ステップＳ１００８では、検索サーバ１０３或いはウェブサーバ１０６から受信した情報を、ディスプレイ２０７上に表示する。このとき、クライアント１０１が検索サーバ１０３からページ画像を受信した場合、或いは、ウェブサーバ１０６からＨＴＭＬファイルを受信した場合には、そのままウェブブラウザ上で直接に表示する。例えば、ページ画像を受信した場合には、図１２に示すようにウェブブラウザのウィンドウ１１００内にページ画像（letter004.jpg）が表示される。一方、ウェブサーバ１０６からＰＤＦファイルなどの文書ファイルを受信した場合には、専用のアプリケーションをプラグイン起動して、ウェブブラウザ内で表示する。

以上の本実施形態によれば、クライアント側でのディスプレイ表示のために特定のアプリケーションの実行を必要とする文書ファイルが検索結果に含まれる場合であっても、該文書ファイルにおいて検索語を含むページの画像をクライアントに提供することができる。よって、ユーザは、クライアント側で専用アプリケーションを立ち上げて文書ファイルを開く必要がなくなる。

また、ユーザのクライアント利用環境に該専用アプリケーションがインストールされていない等、文書ファイル自体を直接開くことができない状況であっても、該当ページを本来のレイアウトを保持した画像により、その内容を確認することができる。このことは、ＯＳ（オペレーション・システム）のバージョンアップにアプリケーションプログラム側が追従できない場合など、単にアプリケーションファイルをクライアントにインストールしていない場合だけでなく、インストールが困難な状況であっても、アプリケーション無しで文書ファイルの内容を参照することができることを意味する。

よって、本実施形態によれば、ユーザは特定のアプリケーションの実行が必要な文書ファイルが検索結果に含まれる場合であっても、ウェブブラウザを用いて容易に目的とする情報にたどり着くことができる。

また、本実施形態によれば、ユーザに提供されるページの画像データには、元々の文書ファイルが有していた写真、図形、グラフ等の画像情報とテキスト情報とが含まれるので、ユーザはテキスト情報のみではなく、画像情報も手がかりとして目的とする情報を探すことができる。

Claims

クライアント端末から受信した検索語に基づいてインターネット上のウェブサイトを検索して検索結果を該クライアント端末に送信する検索サーバであって、
インターネット上でＵＲＬにより指定されるウェブページ及び文書ファイルのテキスト情報を記憶する第１のデータベースであって、該文書ファイルは前記クライアント端末の表示装置上で表示するためにウェブブラウザとは異なる特定アプリケーションの実行を必要とする、第１のデータベースと、
前記文書ファイルを前記特定アプリケーションでページ単位に表示した場合の表示状態を表す画像データを記憶する第２のデータベースと、
前記クライアント端末から検索語を受信する受信手段と、
受信した前記検索語に基づいて前記第１のデータベースを検索し、検索結果の候補を決定する検索手段と、
前記検索結果の候補に基づいて、前記クライアント端末へ送信する検索結果表示情報を生成する生成手段と、
生成された前記検索結果表示情報を前記クライアント端末へ送信する送信手段と
を備え、
前記生成手段は、
前記候補に前記文書ファイルのいずれかのページが含まれる場合に、該ページの画像データを前記第２のデータベース内で探索し、
前記第２のデータベースから前記ページの画像データを取得できた場合には、該候補について前記文書ファイルを取得するための第１のリンク情報と前記画像データを取得するための第２のリンク情報とを含む前記検索結果表示情報を生成し、
前記第２のデータベースから前記ページの画像データを取得できなかった場合には、該候補について前記第１のリンク情報を含む前記検索結果表示情報を生成する
ことを特徴とする検索サーバ。
前記第２のデータベースは、前記画像データを縮小した縮小画像を更に記憶し、
前記生成手段は、
該画像データに対応する縮小画像を前記第２のデータベース内で更に探索し、
前記第２のデータベースから前記ページの縮小画像が更に取得できた場合に、前記第２のリンク情報を、前記縮小画像の操作に基づき前記画像データを取得するためのリンク情報とする
ことを特徴とする請求項１に記載の検索サーバ。
前記第１のリンク情報は、
前記クライアント端末の表示装置上でリンク先をテキスト表示させ、かつ、該テキスト表示に対する操作が行われた場合に、前記文書ファイルをクライアント端末に送信する要求を該文書ファイルの格納先に対して送信するように構成され、
前記第２のリンク情報は、
前記クライアント端末の表示装置上でリンク先を前記縮小画像を用いて表示させ、かつ、該縮小画像に対する操作が行われた場合に該縮小画像に対応する前記ページ画像をクライアント端末に送信する要求を前記検索サーバに対して送信するように構成されている
ことを特徴とする請求項２に記載の検索サーバ。
前記第１のデータベースは、前記文書ファイル全体の第１のテキスト情報と、前記文書ファイルのページ単位の第２のテキスト情報とを記憶し、
前記検索手段は、前記検索語に従って前記第１のテキスト情報と前記第２のテキスト情報とを検索し、
前記受信手段は、前記クライアント端末から前記検索結果表示情報に含まれる前記画像データの送信要求を更に受信し、
前記送信手段は、前記送信要求に対応する前記第２のデータベースに記憶された画像データを、前記クライアント端末に更に送信する
ことを特徴とする請求項１乃至３のいずれか１項に記載の検索サーバ。
前記ウェブページは、ＨＴＭＬフォーマットで構成され、
前記文書ファイルには、少なくともＰＤＦフォーマットのファイルが含まれることを特徴とする請求項１乃至４のいずれか１項に記載の検索サーバ。
コンピュータを請求項１乃至５のいずれか１項に記載の検索サーバとして機能させるためのコンピュータプログラム。