JP2010113730A - 検索サーバ及びコンピュータプログラム - Google Patents

検索サーバ及びコンピュータプログラム Download PDF

Info

Publication number
JP2010113730A
JP2010113730A JP2009296359A JP2009296359A JP2010113730A JP 2010113730 A JP2010113730 A JP 2010113730A JP 2009296359 A JP2009296359 A JP 2009296359A JP 2009296359 A JP2009296359 A JP 2009296359A JP 2010113730 A JP2010113730 A JP 2010113730A
Authority
JP
Japan
Prior art keywords
search
database
information
page
document file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009296359A
Other languages
English (en)
Inventor
Toshiaki Nakatsu
利秋 中津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mars Flag Corp
Original Assignee
Mars Flag Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mars Flag Corp filed Critical Mars Flag Corp
Priority to JP2009296359A priority Critical patent/JP2010113730A/ja
Publication of JP2010113730A publication Critical patent/JP2010113730A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索結果に特定の文書ファイルが含まれる場合であっても、ユーザが効率的に検索結果の情報を取得し、有意な情報か否かを直ちに判断可能とする。
【解決手段】検索サーバであって、クライアント端末の表示装置上で表示するために、ウェブブラウザとは異なる特定アプリケーションの実行を必要とする文書ファイルに含まれるテキスト情報を記憶する第1のデータベースと、文書ファイルを特定アプリケーションでページ単位に表示した場合の表示状態を表す画像データと該画像データの縮小画像を記憶する第2のデータベースと、クライアント端末から受信した検索語に基づいて第1のデータベースを検索し、検索結果の候補を決定する検索手段と、検索結果の候補に基づいて生成された検索結果表示情報をクライアント端末へ送信する送信手段とを備える。
【選択図】図1

Description

本発明は、検索サーバ及びコンピュータプログラムに関する。
近年はインターネットが急速に普及し、膨大な情報がインターネットを介して入手可能となっている。そのような膨大な情報量を効率的に扱うための手段として最も有効なのが、検索エンジンである。
ユーザは検索エンジンを自身のパーソナルコンピュータ等のクライアント端末のデスクトップ上で実行しているウェブブラウザで利用することができ、検索結果はウェブブラウザ上で閲覧することができる。検索結果には、該当ページ、該当ファイルのインターネット上での格納場所を示すURLがリンク表示されて一覧として提供されるのが一般的である。ユーザが所望のリンクを選択すると、該当するファイルやページがダウンロードされ、クライアント端末のウェブブラウザ上に表示されるようになっている。このとき表示されるページ、ファイルには、HTMLフォーマットのウェブページの他、HTMLフォーマット以外のファイル形式を有する製品の説明書やカタログ、図面などの文書ファイルが含まれる(特許文献1を参照)。
このような文書ファイルはユーザにとって有意義な情報を含む場合が多いが、検索結果では、文書ファイル全体につき1つのリンクが設定されることが一般的である。例えば、ある技術用語(例えば、「検索語サジェスト機能」)を検索語として検索を行った結果、ある文書ファイル「ファイルA」が該検索語を1つのみ含んでいることも考えられる。その場合、ファイルAが100ページの文書であって98ページ目に該当語が記載されていたとしても、検索結果には100ページ分のファイルAの格納場所がリンク表示され、ユーザはファイルAを100ページ分全て取得して、展開し検索語を自ら探し出す必要がある。
また、文書ファイルをウェブブラウザ上で閲覧するためには、ファイルを展開するための専用プログラムや追加のライブラリをさらに必要とすることが多く、環境が整っていない場合にはファイルを確認するための事前インストール等の作業が要求される。従って、ユーザは検索結果の内容を直ちに確認することができない場合がある。また、せっかく専用プログラムをインストールしたとしても、検索結果に含まれるファイルがユーザが本当に必要としているファイルでない可能性もある。
さらに、近年は、このような文書ファイルが検索結果に含まれる場合に、簡易表示を目的としてHTMLフォーマットに予め変換されたデータを提供することも行われている。しかし、ここで提供されるHTMLフォーマットのデータは、テキスト情報のみが残存し、ユーザの情報把握に有意義な画像情報(写真、図形、グラフ等)が欠落してしまっている。従って、係るサービスを利用した場合であっても、ユーザは文書ファイルそのものの内容を把握することが困難となっている。
特表2006−502461号公報
このように、従来の検索では、検索結果において提示されたウェブブラウザとは異なる特定のアプリケーションの実行により表示される形式の文書ファイルにおいて、ユーザが必要とする情報に辿り着くためには煩雑な手続が必要とされる。
そこで、本発明は検索結果にウェブブラウザとは異なる特定のアプリケーションの実行により表示される形式の文書ファイルが含まれる場合であっても、ユーザが効率的に検索結果の情報を取得し、有意な情報か否かを直ちに判断可能とすることを目的とする。
上記課題を解決するための本発明は、クライアント端末から受信した検索語に基づいてインターネット上のウェブサイトを検索して検索結果を該クライアント端末に送信する検索サーバであって、
インターネット上でURLにより指定されるウェブページ及び文書ファイルのテキスト情報を記憶する第1のデータベースであって、該文書ファイルは前記クライアント端末の表示装置上で表示するためにウェブブラウザとは異なる特定アプリケーションの実行を必要とする、第1のデータベースと、
前記文書ファイルを前記特定アプリケーションでページ単位に表示した場合の表示状態を表す画像データを記憶する第2のデータベースと、
前記クライアント端末から検索語を受信する受信手段と、
受信した前記検索語に基づいて前記第1のデータベースを検索し、検索結果の候補を決定する検索手段と、
前記検索結果の候補に基づいて、前記クライアント端末へ送信する検索結果表示情報を生成する生成手段と、
生成された前記検索結果表示情報を前記クライアント端末へ送信する送信手段と
を備え、
前記生成手段は、
前記候補に前記文書ファイルのいずれかのページが含まれる場合に、該ページの画像データを前記第2のデータベース内で探索し、
前記第2のデータベースから前記ページの画像データを取得できた場合には、該候補について前記文書ファイルを取得するための第1のリンク情報と前記画像データを取得するための第2のリンク情報とを含む前記検索結果表示情報を生成し、
前記第2のデータベースから前記ページの画像データを取得できなかった場合には、該候補について前記第1のリンク情報を含む前記検索結果表示情報を生成する
ことを特徴とする。
本発明によれば、検索結果にウェブブラウザとは異なる特定のアプリケーションの実行により表示される形式の文書ファイルが含まれる場合であっても、ユーザが効率的に検索結果の情報を取得し、有意な情報か否かを直ちに判断可能とすることができる。
発明の実施形態に対応する、インターネット上のウェブサイトの検索システムの全体構成を示すブロック図である。 発明の実施形態に対応する、クライアント101のハードウェア構成の一例を示すブロック図である。 発明の実施形態に対応する、検索サーバ103の機器構成を示すブロック図である。 発明の実施形態に対応する、検索サーバ103における検索用のテキストデータと画像データを生成する処理の一例を示すフローチャートである。 発明の実施形態に対応する、図4のフローチャートに対応する処理により生成された、全文検索データベース104におけるテキスト検索用テーブルのデータ構成の一例を示す図である。 発明の実施形態に対応する、図4のフローチャートに従った処理により生成される画像データベース105の画像登録テーブルのデータ構成の一例を示す図である。 発明の実施形態に対応する検索サーバ103における検索処理の一例を示すフローチャートである。 発明の実施形態に対応する、図7のステップS703における検索結果表示情報生成処理の詳細を示すフローチャートである。 発明の実施形態に対応する、検索結果表示情報のデータ内容の一部を一例として示す図である。 発明の実施形態に対応する、クライアント101側での動作の一例を示すフローチャートである。 発明の実施形態に対応する、クライアント101における検索結果表示情報の表示例を示す図である。 発明の実施形態に対応する、検索結果の候補一覧のいずれかの候補を選択した場合の表示例を示す図である。
以下に、添付する図面を参照して本発明の実施形態を説明する。ただし、この実施の形態に記載されている構成要素はあくまでも例示であり、この発明の範囲をそれらのみに限定する趣旨のものではない。
<システム構成>
図1は、本実施形態に対応する、インターネット上のウェブサイトの検索システムの全体構成を示すブロック図である。ユーザが操作してウェブサイトの検索を行うクライアント101a、101b、101c(以下、これらを総称して「クライアント101」という。)、ウェブサイト検索を行う検索サーバ103、ウェブサイトの情報を提供するウェブサーバ106が、それぞれインターネット102に接続されている。また、検索サーバ103には、全文検索データベース104、画像データベース105が接続されている。
クライアント101は、ユーザが操作して、ウェブサーバ106がインターネット上で公開するウェブサイト情報を閲覧可能な情報処理装置であり、ノートパソコン、デスクトップパソコン、携帯情報端末、携帯電話等を含む。クライアント101には、所謂インターネット・ブラウザのソフトウェアがインストールされているものとする。
クライアント101は、イーサネット(登録商標)等のネットワークケーブルを含むアクセス手段であるLANによってインターネット102に接続されている。尚、ネットワーク102へのアクセス手段はイーサネット(登録商標)ケーブルに限定されるものではなく、無線LAN等の無線通信手段によって構成されていてもよい。検索サーバ103、ウェブサーバ106も同様のアクセス手段を備えているものとする。
インターネット102は、世界中のネットワークが互いに接続されたネットワークであるが、例えば、イントラネットのように特定の組織内においてのみ接続可能なネットワークであってもよい。
検索サーバ103は、クライアント101のユーザに対して、インターネット102上でウェブサーバ106が提供するウェブサイトのウェブページの検索サービスを提供する情報処理装置である。
検索サーバ103は、全文検索データベース104、画像データベース105に格納されている情報を管理している。検索サーバ103は、例えば、LANによって、全文検索データベース104、画像データベース105に接続される。
全文検索データベース104、画像データベース105は、それぞれ所定のデータベース・ソフトウェアがインストールされた情報処理装置であり、各種データの管理を行う。
全文検索データベース104は、インターネット102上のウェブサイトから取得したウェブページの情報に基づき、テキスト情報とページのメタ情報(URL,タイトル,検索順位等)を紐付けたデータベースである。全文検索データベース104に登録される情報の一例については、図5を参照して後述する。検索サーバ103は、クライアント101から受信したユーザ指定の検索語を用いて、全文検索データベース104を利用して検索を行う。画像データベース105は、インターネット102上のウェブサイトから取得した文書ファイルを画像データに変換し、格納するデータベースである。画像データベース105に登録される情報の一例については、図6を参照して後述する。
ウェブサーバ106は、インターネット上102でウェブサイトを提供する。本実施形態においてウェブサイトとは、ひとまとまりに公開されているページ群のことを言う。該ページ群には、HTMLフォーマットのファイルの他、Adobe社が提供するPDFや、Microsoft社が提供するWord、PowerPoint、Excel等のアプリケーションで生成された文書ファイル等が含まれる。また、ウェブサイトには、例えば、法人や個人のホームページ等がある。
尚、本明細書では、便宜上、検索サーバ103、全文検索データベース104、及び、画像データベース105は、それぞれ物理的に独立した情報処理装置によって実現されるものとして説明するが、本発明の実施形態はこれに限られるものではない。例えば、これらが単一の情報処理装置によって実現されてもよい。その一方で、検索サーバ103等の各装置が複数台の情報処理装置により冗長構成、或いは分散構成されても良い。また、全文検索データベース104及び画像データベース105は、検索サーバ103とLAN等によって接続されているものとして説明するが、例えば、インターネット102や非図示のイントラネット経由で検索サーバ103と通信可能な形態をとってもよい。また、図1ではインターネット102に接続するウェブサーバ106を、説明の簡単のために1つのみ記載しているが、実際には多数のウェブサーバ106が接続されているものであり、その場合でも本願発明は当然に実施可能である。
<情報処理装置の構成>
次に、本実施形態に対応するウェブサイト検索システムを構成する情報処理装置の概略について説明する。図2は、クライアント101のハードウェア構成の一例を示すブロック図である。上述した情報処理装置としての全文検索データベース104及び画像データベース105も、同様或いは同等のハードウェア構成として構成しても良い。
図2において、CPU200は、ハードディスク装置(以下、HDと呼ぶ)205に格納されているアプリケーションプログラム、オペレーティングシステム(OS)や制御プログラム等を実行し、RAM202にプログラムの実行に必要な情報、ファイル等を一時的に格納する制御を行う。
ROM201は、内部に基本I/Oプログラム等のプログラム、文書処理の際に使用するフォントデータ、テンプレート用データ等の各種データを記憶する。RAM202は各種データを一時記憶し、CPU200の主メモリ、ワークエリア等として機能する。
外部記憶ドライブ203は、記録媒体へのアクセスを実現するための外部記憶ドライブであり、メディア(記録媒体)204に記憶されたプログラム等を本コンピュータシステムにロードすることができる。尚、メディア204は、例えば、フロッピー(登録商標)ディスク(FD)、CD−ROM、CD−R、CD−RW、PCカード、DVD、Blu−ray、ICメモリカード、MO、メモリスティック等を利用することができる。
HD205は、外部記憶装置であって、本実施形態では大容量メモリとして機能するハードディスクを用いている。HD205には、アプリケーションプログラム、OS、制御プログラム、関連プログラム等が格納される。なお、ハードディスクの代わりに、フラッシュ(登録商標)メモリ等の不揮発性記憶装置を用いても良い。
指示入力装置206は、キーボードやポインティングデバイス(マウス等)、タッチパネル等がこれに相当する。指示入力装置206を用いて、ユーザは、クライアント101に対して、装置を制御するコマンド等を入力指示する。ディスプレイ207は、指示入力装置206から入力したコマンドや、それに対するクライアント101の応答出力等を表示したりするものである。システムバス209は、情報処理装置内のデータの流れを司る。インターフェイス(以下、I/Fという)208は、外部装置とのデータのやり取りを仲介する役割を果たす。
尚、以上の各装置と同等の機能を実現するソフトウェアにより、ハードウェア装置の代替として構成することもできる。
本実施形態では、メディア204から本実施形態に係るプログラム及び関連データを直接RAM202にロードして実行させる例を示すが、これ以外にも、本実施形態に係るプログラムを動作させる度に、既にプログラムがインストールされているHD205からRAM202にロードするようにしてもよい。また、本実施形態に係るプログラムをROM201に記録しておき、これをメモリマップの一部をなすように構成し、直接CPU200で実行することも可能である。
図3は、検索サーバ103の機器構成を示すブロック図である。ウェブサーバ106も同様のハードウェア構成を採用することができる。CPU300、ROM301、RAM302、外部記憶ドライブ303、メディア304、HD305、指示入力装置306、ディスプレイ307、I/F308、システムバス309の機能及び用途、更には、これらの関係は、図2を用いて説明したものと同様或いは同等である。図3では、データベース310がシステムバス309に接続されていることに留意する。ここで、データベース310は、全文検索データベース104及び画像データベース105を総称するものである。
<検索用データの生成>
次に、発明の実施形態に対応する検索用データの生成処理について、図4のフローチャートと図5及び図6のテーブルとを参照して説明する。図4は、発明の実施形態に対応する、検索サーバ103における検索用のテキストデータと画像データを生成する処理の一例を示すフローチャートである。図4に対応する処理は、検索サーバ103がHD305やデータベース310に保持する処理プログラムをCPU300で実行することで実現される。図5は、図4のフローチャートに対応する処理により生成された、全文検索データベース104におけるテキスト検索用テーブルのデータ構成の一例を示す図である。図6は、図4のフローチャートに従った処理により生成される画像データベース105の画像登録テーブルのデータ構成の一例を示す図である。
図4において、ステップS401では、所望のURLを指定してウェブサーバ106からURLに対応するデータを取得する。ここで取得されるデータには、HTML形式のページデータや、PDFファイルや、ワードファイル、エクセルファイル、パワーポイントファイルといった文書ファイル等が含まれる。
続くステップS402では取得したデータから全文のテキスト情報を抽出する。続くステップS403では、抽出したテキスト情報をステップS401で指定したURLと関連づけて全文検索データベース104へ登録する。
続くステップS403では、ステップS401で取得した文書ファイルが画像生成対象のファイルに該当するか否かを判定する。画像生成対象のファイルには、Adobe社が提供するPDFや、Microsoft社が提供するWord、PowerPoint、Excel等のアプリケーションで生成された文書ファイルが含まれる。これらの画像生成対象のファイルは、ウェブブラウザとは異なるアプリケーションであって、文書ファイルに対応する表示用アプリケーションをクライアント101にインストールしておき、該アプリケーションを実行しなければディスプレイ207上に表示させることができない種類のファイルである。
ステップS403における判定方法には、例えば、HTTPレスポンスのMIME-TYPEを参照して判定する方法や、文書ファイルの先頭付近のバイト列を調べることで判定する方法が含まれる。なお、先頭付近のバイト列を参照する方法は例えばUNIX(登録商標)系OSのfileコマンドを利用することで実施することができる。また、ファイルの拡張子を参照することにより判定してもよい。
もし、処理対象の文書ファイルが画像生成対象の文書であると判定された場合(ステップS404において「YES」)、ステップS405に移行する。一方、処理対象の文書ファイルが画像生成対象の文書でないと判定された場合(ステップS404において「NO」)、本処理を終了する。
ステップS405では、ステップS402において抽出したテキスト情報を、ページ単位の情報に分割して、該ページ単位のURLと関連づけて全文検索データベース104内に登録する。
全文検索データベース104におけるテキスト情報の登録の様子は、図5のテキスト検索用テーブル500に示す通りである。テキスト検索用テーブル500において、取得元URL501には、文書ファイルを取得したURLが登録される。また、取得元URLが、PDFファイルなどの、特定の文書ファイルの場合、ページ単位のURLも更に登録される。例えば、http://www.abc.com/letter.pdf というURLで取得される「letter.pdf」のファイルが50ページで構成される場合、ファイル全体を「http://www.abc.com/letter.pdf」で表し、各ページを「http://www.abc.com/letter.pdf#page=N」で表す。ここでNはページ番号を示し、「letter.pdf」の場合、N=1,2,3,…,50となる。
テキスト502には、取得元URLに対応するテキストデータが登録される。ファイル本体のURL「http://www.abc.com/letter.pdf」に対しては、文書ファイル全体のテキストファイルが登録され(letter.txt)、各ページのURL「http://www.abc.com/letter.pdf#page=N(N=1,2,…)」については、各ページのテキストファイルが登録される。なお、「http://www.abc.com/document.html」のような、HTMLフォーマットのファイルは、ページ単位に分割せずに全体として一つのテキストファイル(document.txt)のみがテキスト502に登録される。
このテーブル500を用いることで、ある文書ファイルについて全文のテキスト情報と、ページ単位のテキスト情報とをURL単位で管理することが可能となる。
図4のフローチャートの説明に戻り、続くステップS406では、ステップS401で取得した文書ファイルの各ページの画像データを生成する。具体的には、文書ファイルを表示するためのアプリケーションを用いて、ページ単位にディスプレイ表示可能な情報としてRAM302上に展開したのち、該RAM302上の情報を画像データに変換する。画像データの形式は、例えばJPEGとすることができるが、これに限定されるものではない。また、文書ファイルの画像データへの変換方法は、上述の方法に限定されるものではなく、公知の他の技術を利用して実行することができる。また、ステップS406では、拡大表示用の画像データと検索結果の一覧表示用のデータ(サムネイル画像)との解像度の異なる複数の画像データを生成する。
次に、ステップS407において、文書ファイルを構成する各ページのうち、代表的なページを決定する。代表ページは、例えば1ページ目を選択してもよいし、ページの中でもっても色数の多いもの、あるいは、ページ毎に周波数解析を行い高周波数成分に高い係数を持つページを選択してもよい。
続くステップS408では、ステップS406で生成した画像データを、文書ファイルのURL或いはページのURLと関連づけて画像データベース105に登録する。このとき生成される画像データベース105内の画像登録テーブルの一例は、図6に示す通りである。
図6において、画像登録テーブル600は、取得元URL601に、画像データに対応するURLが登録される。登録されるURLは、図5のテーブル500と同様文書ファイル全体を示すURLと、ページ単位のURLとがあり、テーブル500における取得元URL501の登録内容と対応している。例えば、http://www.abc.com/letter.pdf というURLで取得される「letter.pdf」のファイルが50ページで構成される場合、ファイル全体は「http://www.abc.com/letter.pdf」で表され、各ページは「http://www.abc.com/letter.pdf#page=N」で表される。
次にページ画像602には、文書ファイルを変換して得られたページ毎の画像データが登録される。当該画像データは、検索結果の一覧において選択された場合に、文書ファイルの代わりにクライアント101のディスプレイ207に表示される画像である。なお、文書ファイル全体を示すURL(例えば、「http://www.abc.com/letter.pdf」)には、ステップS407で代表ページとして決定されたページの画像データが登録される。画像データのファイル名は、例えば、図5のページテキスト504に対応したものとすることができる。ページ画像602は取得元URL601と関連づけられているので、テキスト検索用テーブル500における取得元URL501に基づき、テキスト画像とを一対一で対応づけることができる。
また、画像登録テーブル600において、サムネイル画像603には、ページ画像602に登録されたページ毎の画像データの縮小画像が、対応するURLと関連づけられて登録される。該サムネイル画像は検索結果の一覧表示の際に検索結果のイメージを提供するために利用される。
以上により、所望のURLに格納されている文書ファイルについて、検索用のテキスト情報と画像データとを生成することができる。
次に、ユーザからの検索要求を検索サーバ103が受け付けた場合に、以上のようにして生成した検索用の情報を用いた検索処理の流れを説明する。図7は、発明の実施形態に対応する検索サーバ103における検索処理の一例を示すフローチャートである。図7に対応する処理は、検索サーバ103がHD305やデータベース310に保持する処理プログラムをCPU300で実行することで実現される。
まず、ステップS701では、クライアント101から検索語を受信する。続くステップS702では、受信した検索語に基づいて全文検索データベース104を検索する。このとき、文書ファイルを検索対象とする場合には、文書ファイル全体のテキスト(例:letter.txt)とページ毎のテキスト(例:letter001.txt)との全てを検索する。この検索の結果、特定のページが文書ファイルの中で有意と判定され、検索結果に含めるとの判定が成される場合もあるし、特定のページに絞り込めないが文書ファイル全体としては検索語を含んでいるので検索結果に含めるとの判定が成される場合がある。
例えば、「検索サジェスト機能」という検索語が設定された場合に、「検索サジェスト機能」の語そのものがあるページに含まれている場合には、該当ページを検索結果に含めるとの判定が成される。一方、検索語そのものは1ページ内に含まれていないが、「検索」、「サジェスト機能」との語が別々のページに含まれている場合、検索結果として単一ページは特定できないが、少なくとも文書ファイル全体としては検索語に関連性があると判断され、検索結果に含めるとの判定が成される場合がある。
続くステップS703では、検索処理の結果に基づいてクライアント101のディスプレイ207に表示するための検索結果表示情報を生成する。続くステップS704では、生成した検索結果表示情報をクライアント101へ送信する。
図8は、図7のステップS703における検索結果表示情報生成処理の詳細を示すフローチャートである。
ステップS801では、検索結果の表示候補を表示順に選択する。ステップS802では、表示候補のリンク情報を生成する。ここで生成されるリンク情報とは、検索結果の本体のURLに接続するための情報である。例えば、表示候補がURL「http://www.abc.com/letter.pdf」に格納されている「letter.pdf」の4ページ目の場合には、検索結果がクライアント101のディスプレイ207に表示され、ユーザのクリック操作が行われた場合にURL「http://www.abc.com/letter.pdf」の4ページ目へ接続するためのリンク情報が生成される。
図9は、検索結果表示情報のデータ内容の一部を一例として示す図であり、図9の901に記載されている「<a href="http://abc.com/letter.pdf#page=4">letter</a>」との内容は、当該「letter.pdf」の4ページ目へのリンク情報である。ここではPDFファイルを例として説明しているが、PDFファイル以外の他の形式のファイルについても、同様にして該当ページへリンクするためのURLが指定される。
次に、ステップS803において表示候補が画像生成対象文書であるか否かを判定する。かかる判定は、ステップS802で生成されたリンク情報がHTMLページへのリンクなのか、ウェブブラウザとは異なる特定のアプリケーションの実行により表示される形式の文書ファイルへのリンクなのかに基づいて行う。もし、HTMLページへのリンクである場合には(ステップS803において「NO」)、ステップS806に移行する。また、表示候補が画像生成対象文書である場合には(ステップS803において「YES」)、ステップS804に移行する。
ステップS804では、ステップS802でリンク情報として記載したURLに対応する画像データが、画像登録テーブル600に登録されているか否かを判定する。例えば、リンク情報が「<a href="http://abc.com/letter.pdf#page=4/">letter</a>」の場合、「http://abc.com/letter.pdf#page=4」を取得URL601として持つページ画像602及びサムネイル画像603が登録されているか否かが判定される。
もし画像が登録されていると判定された場合(ステップS804において「YES」)、ステップS805に移行する。一方、画像が登録されていないと判定された場合(ステップS804において「NO」)、ステップS806に移行する。
ステップS805では、表示候補のリンク情報に画像データ表示のためのタグを追加する。
例えば、表示候補が「<a href="http://abc.com/letter.pdf#page=4">letter</a>」の場合、URL「http://abc.com/letter.pdf#page=4」と関連づけて登録されているページ画像602は、「letter004.jpg」であり、サムネイル画像603は「letterS004.jpg」である。そして、これらが画像データベース105において格納されている位置を特定するためのURLは、格納先URLに基づき、「http://search.com/JPG/letter/letter004.jpg」と、「http://search.com/JPG/letter/letterS004.jpg」と特定することができる。このうち、サムネイル画像「letterS004.jpg」はクリックを受け付けてページ画像「letter004.jpg」を表示させるためのリンク画像として利用されるので、図9の902に示すように、リンク先を示す<a href="http://search.com/JPG/letter/letter004.jpg">が記載され、かつ、クリック部分として表示されるサムネイル画像を示す<img src="http://search.com/JPG/letter/letterS004.jpg"></a>が記載される。
なお、表示候補のリンクが「<a href="http://abc.com/letter.pdf">letter</a>」のように、文書ファイル全体を示す場合には、代表ページとして指定されたページのページ画像とサムネイル画像が使用される。
以上により、1つの表示候補について、本来のURLにリンクするためのリンク情報と、サムネイル画像を用いて文書ファイルのページ画像へリンクするためのリンク情報とを含めた検索結果表示情報を生成することができる。以上の処理は、検索結果に含まれる表示候補の全てについて行われ、全てについてリンク情報を生成した場合には検索結果表示情報が完成したこととなる。
よって、ステップS806では、未処理の表示候補があるか否かを判定し、未処理の表示候補がある場合にはステップS801に戻って処理を継続する。一方、全ての表示候補についてリンク情報を生成した場合には、ステップS703における処理を終了して、ステップS704に移行する。
なお、検索結果表示情報には、各表示候補の要約テキストが添付されてもよいが、係る要約テキストの添付方法は公知の技術であるので本明細書での説明は省略している。また、上述の説明では、サムネイル画像が存在する場合を説明したが、ページ画像のみがテーブル600に登録されている場合であっても、サムネイル画像の代わりにページ画像のリンクをテキスト表示することで、同様の処理によりリンク情報を生成することができる。
<検索処理>
次に、クライアント101側での動作を図10のフローチャートを参照して説明する。図10に対応する処理は、クライアント101がHD205に保持する処理プログラムをCPU200で実行することで実現される。
ステップS1001では、ユーザから検索語の入力を受け付ける。続くステップS1002では、入力された検索語を検索サーバ103へ送信する。続くステップS1003では、検索語に従って行われた検索結果をディスプレイ207に表示するためのディスプレイ表示情報を検索サーバ103より受信する。ステップS1004では、受信した検索結果表示情報をディスプレイ207に表示する。
このときの表示形態の一例は図11に示す通りである。図11において、ウィンドウ1100は、ウェブブラウザの表示画面全体を示している。ウェブブラウザの構成は、一般的であるので特に説明しないが、例えば、インターネット・エクスプローラ、ファイヤーフォックス、オペラ、サファリなどの各種ウェブブラウザを利用することができる。
検索結果は表示候補毎に区別して表示され、与えられた領域毎に検索結果の本体のURLに接続するためのリンク1101、リンク1101の接続先のURLを示すURL表示1102、ページ画像にリンクしたサムネイル画像1103を含む。リンク1101は、図9におけるタグ901の記載に対応し、サムネイル画像1103はタグ902及び903の記載に対応する。その他、関連箇所の要約テキストを表示することもできるが、図11では図面の簡単のために省略している。
なお、リンク1101が文書ファイルではなく、HTMLフォーマットのページの場合や、画像登録テーブル600に画像が登録されていない場合には、サムネイル画像1103は表示されない。
次に、図10の説明に戻ると、図11のような検索結果表示情報が表示された状態で、ユーザは所望の表示候補を選択し、情報をディスプレイ207上に表示させようとする。ステップS1005では、ユーザからの操作の種別を判別する。仮に、サムネイル画像1103が選択された場合には、ステップS1006へ移行する。一方、リンク1101が選択された場合にはステップS1007に移行する。なお、サムネイル画像の代わりにページ画像のリンクがテキスト表示されている場合は、係るリンクが選択された場合に、ステップS1006に移行する。
ステップS1006では、検索結果表示情報に含まれているサムネイル画像と関連づけられたページ画像のURLに従って、検索サーバ103に対してページ画像の送信を要求する。例えば、図11の「letterS004.jpg」がクリックされた場合は、URL「http://search.com/JPG/letter/letter004.jpg」に従って、クライアント101は検索サーバ103に「letter004.jpg」のページ画像を送信するように要求する。
一方、ステップS1007ではリンク1101に含まれるURLに従い、対応するウェブサーバ106に文書ファイルの送信を要求する。例えば、図11の「[PDF]letter」のリンク1101が選択された場合は、URL「http://abc.com/letter.pdf#page=4」に従って、クライアント101はウェブサーバ106に「letter.pdf」の文書ファイルの送信を要求する。
続いて、ステップS1008では、検索サーバ103或いはウェブサーバ106から受信した情報を、ディスプレイ207上に表示する。このとき、クライアント101が検索サーバ103からページ画像を受信した場合、或いは、ウェブサーバ106からHTMLファイルを受信した場合には、そのままウェブブラウザ上で直接に表示する。例えば、ページ画像を受信した場合には、図12に示すようにウェブブラウザのウィンドウ1100内にページ画像(letter004.jpg)が表示される。一方、ウェブサーバ106からPDFファイルなどの文書ファイルを受信した場合には、専用のアプリケーションをプラグイン起動して、ウェブブラウザ内で表示する。
以上の本実施形態によれば、クライアント側でのディスプレイ表示のために特定のアプリケーションの実行を必要とする文書ファイルが検索結果に含まれる場合であっても、該文書ファイルにおいて検索語を含むページの画像をクライアントに提供することができる。よって、ユーザは、クライアント側で専用アプリケーションを立ち上げて文書ファイルを開く必要がなくなる。
また、ユーザのクライアント利用環境に該専用アプリケーションがインストールされていない等、文書ファイル自体を直接開くことができない状況であっても、該当ページを本来のレイアウトを保持した画像により、その内容を確認することができる。このことは、OS(オペレーション・システム)のバージョンアップにアプリケーションプログラム側が追従できない場合など、単にアプリケーションファイルをクライアントにインストールしていない場合だけでなく、インストールが困難な状況であっても、アプリケーション無しで文書ファイルの内容を参照することができることを意味する。
よって、本実施形態によれば、ユーザは特定のアプリケーションの実行が必要な文書ファイルが検索結果に含まれる場合であっても、ウェブブラウザを用いて容易に目的とする情報にたどり着くことができる。
また、本実施形態によれば、ユーザに提供されるページの画像データには、元々の文書ファイルが有していた写真、図形、グラフ等の画像情報とテキスト情報とが含まれるので、ユーザはテキスト情報のみではなく、画像情報も手がかりとして目的とする情報を探すことができる。

Claims (6)

  1. クライアント端末から受信した検索語に基づいてインターネット上のウェブサイトを検索して検索結果を該クライアント端末に送信する検索サーバであって、
    インターネット上でURLにより指定されるウェブページ及び文書ファイルのテキスト情報を記憶する第1のデータベースであって、該文書ファイルは前記クライアント端末の表示装置上で表示するためにウェブブラウザとは異なる特定アプリケーションの実行を必要とする、第1のデータベースと、
    前記文書ファイルを前記特定アプリケーションでページ単位に表示した場合の表示状態を表す画像データを記憶する第2のデータベースと、
    前記クライアント端末から検索語を受信する受信手段と、
    受信した前記検索語に基づいて前記第1のデータベースを検索し、検索結果の候補を決定する検索手段と、
    前記検索結果の候補に基づいて、前記クライアント端末へ送信する検索結果表示情報を生成する生成手段と、
    生成された前記検索結果表示情報を前記クライアント端末へ送信する送信手段と
    を備え、
    前記生成手段は、
    前記候補に前記文書ファイルのいずれかのページが含まれる場合に、該ページの画像データを前記第2のデータベース内で探索し、
    前記第2のデータベースから前記ページの画像データを取得できた場合には、該候補について前記文書ファイルを取得するための第1のリンク情報と前記画像データを取得するための第2のリンク情報とを含む前記検索結果表示情報を生成し、
    前記第2のデータベースから前記ページの画像データを取得できなかった場合には、該候補について前記第1のリンク情報を含む前記検索結果表示情報を生成する
    ことを特徴とする検索サーバ。
  2. 前記第2のデータベースは、前記画像データを縮小した縮小画像を更に記憶し、
    前記生成手段は、
    該画像データに対応する縮小画像を前記第2のデータベース内で更に探索し、
    前記第2のデータベースから前記ページの縮小画像が更に取得できた場合に、前記第2のリンク情報を、前記縮小画像の操作に基づき前記画像データを取得するためのリンク情報とする
    ことを特徴とする請求項1に記載の検索サーバ。
  3. 前記第1のリンク情報は、
    前記クライアント端末の表示装置上でリンク先をテキスト表示させ、かつ、該テキスト表示に対する操作が行われた場合に、前記文書ファイルをクライアント端末に送信する要求を該文書ファイルの格納先に対して送信するように構成され、
    前記第2のリンク情報は、
    前記クライアント端末の表示装置上でリンク先を前記縮小画像を用いて表示させ、かつ、該縮小画像に対する操作が行われた場合に該縮小画像に対応する前記ページ画像をクライアント端末に送信する要求を前記検索サーバに対して送信するように構成されている
    ことを特徴とする請求項2に記載の検索サーバ。
  4. 前記第1のデータベースは、前記文書ファイル全体の第1のテキスト情報と、前記文書ファイルのページ単位の第2のテキスト情報とを記憶し、
    前記検索手段は、前記検索語に従って前記第1のテキスト情報と前記第2のテキスト情報とを検索し、
    前記受信手段は、前記クライアント端末から前記検索結果表示情報に含まれる前記画像データの送信要求を更に受信し、
    前記送信手段は、前記送信要求に対応する前記第2のデータベースに記憶された画像データを、前記クライアント端末に更に送信する
    ことを特徴とする請求項1乃至3のいずれか1項に記載の検索サーバ。
  5. 前記ウェブページは、HTMLフォーマットで構成され、
    前記文書ファイルには、少なくともPDFフォーマットのファイルが含まれることを特徴とする請求項1乃至4のいずれか1項に記載の検索サーバ。
  6. コンピュータを請求項1乃至5のいずれか1項に記載の検索サーバとして機能させるためのコンピュータプログラム。
JP2009296359A 2009-12-25 2009-12-25 検索サーバ及びコンピュータプログラム Withdrawn JP2010113730A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009296359A JP2010113730A (ja) 2009-12-25 2009-12-25 検索サーバ及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009296359A JP2010113730A (ja) 2009-12-25 2009-12-25 検索サーバ及びコンピュータプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2008089441A Division JP2009245061A (ja) 2008-03-31 2008-03-31 検索サーバ及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2010113730A true JP2010113730A (ja) 2010-05-20

Family

ID=42302190

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009296359A Withdrawn JP2010113730A (ja) 2009-12-25 2009-12-25 検索サーバ及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2010113730A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012118971A (ja) * 2010-11-08 2012-06-21 Brother Ind Ltd 通信システム、通信装置、中継装置の制御プログラム、および中継装置の制御方法
JP2014241013A (ja) * 2013-06-11 2014-12-25 富士ゼロックス株式会社 プログラム、文書提供装置及び文書表示システム
US11386184B2 (en) 2013-09-06 2022-07-12 Mars Flag Corporation Information processing apparatus, search server, web server, and non-transitory computer readable storage medium

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012118971A (ja) * 2010-11-08 2012-06-21 Brother Ind Ltd 通信システム、通信装置、中継装置の制御プログラム、および中継装置の制御方法
US9167026B2 (en) 2010-11-08 2015-10-20 Brother Kogyo Kabushiki Kaisha Communication system, communication apparatus, and control method of relay apparatus
JP2014241013A (ja) * 2013-06-11 2014-12-25 富士ゼロックス株式会社 プログラム、文書提供装置及び文書表示システム
US11386184B2 (en) 2013-09-06 2022-07-12 Mars Flag Corporation Information processing apparatus, search server, web server, and non-transitory computer readable storage medium

Similar Documents

Publication Publication Date Title
JP4803874B2 (ja) 印刷装置、ネットワークインターフェース装置、印刷装置の制御方法及び記憶媒体
JP5262121B2 (ja) 情報処理装置、シンボル表示方法、シンボル表示プログラム
US7715625B2 (en) Image processing device, image processing method, and storage medium storing program therefor
US20080256443A1 (en) System for aggregating and displaying syndicated news feeds
JP6147861B2 (ja) 情報処理装置、検索サーバ、ウェブサーバ及びコンピュータプログラム
JP5385373B2 (ja) ビューアクライアントにおける文書の高忠実度レンダリング
US20100017502A1 (en) Web page content translator
JP5595032B2 (ja) 情報処理システム、その制御方法、情報処理装置、情報提供装置、画像処理装置およびプログラム
US20110137943A1 (en) Apparatus for deciding word-related keywords, and method and program for controlling operation of same
JP6840597B2 (ja) 検索結果要約装置、プログラム及び方法
JP5525623B2 (ja) 遠隔印刷
US20130268832A1 (en) Method and system for creating digital bookmarks
JP2008269069A (ja) 情報処理システム及び情報処理方法
JP2004070809A (ja) Web情報閲覧装置、Web情報表示方法及びそのプログラム
US7424509B2 (en) System and method for printing from a web application
JP2010113730A (ja) 検索サーバ及びコンピュータプログラム
KR101975111B1 (ko) 대용량 웹페이지 문서 변환 시스템 및 그 방법
JP2009245061A (ja) 検索サーバ及びコンピュータプログラム
JP2009169466A (ja) クライアント・サーバシステム、プレビューデータ作成装置、プレビューデータ作成プログラム
JP2008065656A (ja) データベースシステム、サムネイル画像提供サーバ、プログラム、及び記録媒体
JP2006343976A (ja) 電子帳票提供方法及び電子帳票サーバ装置
US20230305995A1 (en) Information processing apparatus, non-transitory computer readable medium storing program, and information processing method
US20230306189A1 (en) Information processing apparatus, non-transitory computer readable medium storing program, and information processing method
JP2009037404A (ja) 電子文書管理システム
JP2012203619A (ja) データ作成支援システム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20110607