JP6147861B2 - 情報処理装置、検索サーバ、ウェブサーバ及びコンピュータプログラム - Google Patents

情報処理装置、検索サーバ、ウェブサーバ及びコンピュータプログラム Download PDF

Info

Publication number
JP6147861B2
JP6147861B2 JP2015535180A JP2015535180A JP6147861B2 JP 6147861 B2 JP6147861 B2 JP 6147861B2 JP 2015535180 A JP2015535180 A JP 2015535180A JP 2015535180 A JP2015535180 A JP 2015535180A JP 6147861 B2 JP6147861 B2 JP 6147861B2
Authority
JP
Japan
Prior art keywords
search
web page
display
information processing
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015535180A
Other languages
English (en)
Other versions
JPWO2015033377A1 (ja
Inventor
信也 武井
信也 武井
海人 草間
海人 草間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MARS FLAG CORPORATION
Original Assignee
MARS FLAG CORPORATION
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MARS FLAG CORPORATION filed Critical MARS FLAG CORPORATION
Publication of JPWO2015033377A1 publication Critical patent/JPWO2015033377A1/ja
Application granted granted Critical
Publication of JP6147861B2 publication Critical patent/JP6147861B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)

Description

本発明は、情報処理装置、検索サーバ、ウェブサーバ及びコンピュータプログラムに関する。
近年はインターネットが急速に普及し、膨大な情報がインターネットを介して入手可能となっている。そのような膨大な情報量を効率的に扱うための手段として最も有効なのが、検索エンジンである。
検索エンジンには、不特定多数のインターネット上の情報を検索語を頼りに探索するものや、特定のウェブサイト内の情報を同様に検索語に従って検索するものがある。
いずれにおいても検索結果はリスト表示され、リストに含まれるリンク先をユーザがクリックすると、該当ページが表示されたり(特許文献1を参照)、該当ページの画像が表示されたりする(特許文献2を参照)。
特開2011−238273号公報 特開2010−113730号公報
しかしながら、上記文献において開示されている結果表示の形態では、検索語が検索結果のリンク先の文書等のどこに存在するかはユーザが自ら改めて探さざるを得なかった。また、特許文献1の図8に示されるような表示形態では、「Cached」で示されたキャッシュ先をクリックするとサーバにキャッシュされたページの情報が表示され、当該ページ上では検索語がハイライトされることもあり得るが、当該ページはサーバに格納された時点の内容を示すものであって、現在のページの内容を示しているわけではなく、また、当該キャッシュページは検索結果に付随する参考情報であって、検索結果の文書そのものではない。
本発明は上記問題に鑑みなされたものであり、検索結果の文書における検索語の位置をユーザが容易に特定可能として、ユーザが効率的かつ迅速に目的の文書に到達できるようにすることを目的とする。
上記課題を解決するための情報処理装置の発明は、
検索語の入力を受け付ける受付手段と、
検索語に基づく検索指示を外部の検索サーバに対して送信する送信手段と、
前記検索指示に基づく検索結果を受信する受信手段と、
検索結果を表示する表示手段とを備え、
前記検索結果には複数のリンク情報が含まれ、いずれかのリンク情報が選択された場合に前記送信手段が該リンク情報に従って宛先サーバにウェブページの要求を送信し、
前記情報処理装置は、前記要求に応じて前記受信手段が受信した前記ウェブページにつき、前記ウェブページに記述されたスクリプトを実行することにより、該ウェブページ内で前記検索語を検索し、かつ、該検索語を強調表示するためのタグを該ウェブページ内に挿入して加工する処理手段を更に備え、
前記表示手段は前記強調表示のためのタグが挿入されたウェブページを、該ウェブページ内の前記検索語を強調して表示することを特徴とする。
上記課題を解決する上記情報処理装置から検索語に基づく検索指示を受信し、検索処理を実行する検索サーバの発明は、
前記情報処理装置から検索語を受信する受信手段と、
前記検索語を用いて全文検索データベースを検索して検索結果を生成する検索手段と、
前記検索結果を前記情報処理装置へ送信する送信手段と
情報処理装置により実行されるスクリプトであって、該情報処理装置にウェブページ内で検索語を検索させ、かつ、該検索語を強調表示するためのタグを該ウェブページ内に挿入させて加工を行わせるためのスクリプトを、該ウェブページ内に記述する処理手段と
を備え、
前記検索手段は、前記情報処理装置において前記検索結果におけるいずれかのリンク情報が選択された場合に、該情報処理装置に該リンク情報に対応するウェブページであって検索語の強調表示のためのタグが挿入されたウェブページを表示させるためのスクリプトを前記検索結果に含め
前記情報処理装置から前記検索結果におけるいずれかのリンク情報に対応するウェブページの要求を前記受信手段が受信した場合に、前記送信手段は、要求されたウェブページに対応する前記スクリプトが記述されたウェブページを前記情報処理装置へ送信することを特徴とする。
上記課題を解決するウェブサーバの発明は、
上記情報処理装置から、該情報処理装置が取得した所定の検索語に基づく検索結果に含まれるウェブページの要求を受信する受信手段と、
該要求されたウェブページを該情報処理装置に送信する送信手段とを備え、
前記送信手段が送信する前記ウェブページ内に、前記情報処理装置により実行されるスクリプトであって、該情報処理装置に前記ウェブページ内で前記検索語を検索させ、かつ、該検索語を強調表示するためのタグを該ウェブページ内に挿入させて加工を行わせるためのスクリプトを記述することを特徴とする。
本発明によれば、検索結果の文書における検索語の位置をユーザが容易に特定可能として、ユーザが効率的かつ迅速に目的の文書に到達できるようになる。
発明の実施形態に対応する、インターネット上のウェブサイトの検索システムの全体構成を示すブロック図である。 発明の実施形態に対応する、クライアント101のハードウェア構成の一例を示すブロック図である。 発明の実施形態に対応する、検索サーバ103、ウェブサーバ104の機器構成を示すブロック図である。 発明の実施形態に対応する、検索サーバ103における検索用のテキストデータと画像データを生成する処理の一例を示すフローチャートである。 発明の実施形態に対応する、図4のフローチャートに対応する処理により生成された、全文検索データベース105におけるテキスト検索用テーブルのデータ構成の一例を示す図である。 発明の実施形態に対応する、図4のフローチャートに従った処理により生成される画像データベース106の画像登録テーブルのデータ構成の一例を示す図である。 発明の実施形態に対応する検索処理の一例を示すフローチャートである。 発明の実施形態に対応する検索処理におけるクライアント101の初期状態での処理の例を示すフローチャートである。 発明の実施形態に対応する検索処理におけるクライアント101の検索画面表示待ち状態での処理の例を示すフローチャートである。 発明の実施形態に対応する検索処理におけるクライアント101の検索画面表状態での処理の例を示すフローチャートである。 発明の実施形態に対応する検索処理におけるクライアント101の検索結果受信待ち状態での処理の例を示すフローチャートである。 発明の実施形態に対応する検索処理におけるクライアント101の検索結果表示状態での処理の例を示すフローチャートである。 発明の実施形態に対応する検索処理におけるクライアント101のプレビュー情報受信待ち状態での処理の例を示すフローチャートである。 発明の実施形態に対応する検索処理におけるクライアント101のプレビュー情報表示状態での処理の例を示すフローチャートである。 発明の実施形態に対応する検索処理における検索サーバ103の要求待ち状態での処理の例を示すフローチャートである。 発明の実施形態に対応する検索処理におけるウェブサーバ104の要求待ち状態での処理の例を示すフローチャートである。 発明の実施形態に対応する、図7iのステップS794における検索処理の詳細を示すフローチャートである。 発明の実施形態に対応する、検索画面の一例を示す図である。 発明の実施形態に対応する、検索結果のウィンドウ表示の一例を示す図である。 発明の実施形態に対応する、検索結果のプレビュー表示の一例を示す図である。 発明の実施形態に対応する、検索語を強調表示した検索結果のプレビュー表示の一例を示す図である。 発明の実施形態に対応する、検索語を強調表示した検索結果のプレビュー表示の他の一例を示す図である。 発明の実施形態に対応する、検索語を強調表示するための加工を行ったウェブページのソースファイルの一例を示す図である。
[実施形態1]
以下に、添付する図面を参照して本発明の1つの実施形態を説明する。ただし、この実施の形態に記載されている構成要素はあくまでも例示であり、この発明の範囲をそれらのみに限定する趣旨のものではない。
<システム構成>
図1は、本実施形態に対応する検索システムの全体構成を示すブロック図である。ユーザが操作してインターネット上で取得可能な文書ファイルを対象とした検索を検索サーバ103に行わせ、その検索結果を取得するクライアント101a、101b、101c(以下、これらを総称して「クライアント101」という。)、インターネット検索を行う検索サーバ103と、ウェブサイトの情報を提供するウェブサーバ104が、それぞれインターネット102に接続されている。検索サーバ103には、全文検索データベース105、画像データベース106が接続されている。ウェブサーバ104にはサイト情報データベース107が接続されている。
クライアント101は、ユーザが操作して、ウェブサーバ104がインターネット上で公開するウェブサイト情報を閲覧可能な情報処理装置であり、ノートパソコン、デスクトップパソコン、携帯情報端末、携帯電話、スマートフォン、タブレット端末等を含む。クライアント101には、所謂インターネット・ブラウザのソフトウェアがインストールされているものとする。
クライアント101は、イーサネット(登録商標)等のネットワークケーブルを含むアクセス手段であるLANによってインターネット102に接続されている。尚、ネットワーク102へのアクセス手段はイーサネット(登録商標)ケーブルに限定されるものではなく、無線LAN等の無線通信手段によって構成されていてもよい。後述する検索サーバ103も同様のアクセス手段を備えているものとする。
インターネット102は、世界中のネットワークが互いに接続されたネットワークであるが、例えば、イントラネットのように特定の組織内においてのみ接続可能なネットワークであってもよい。
検索サーバ103は、クライアント101に対して、特定の企業、店舗或いは個人に関する情報を提供するウェブサイトに含まれるウェブページを含めたインターネット上で取得が可能な文書ファイルの検索のための検索サービスを提供する情報処理装置である。
検索サーバ103は、全文検索データベース105、画像データベース106に格納されている情報を管理している。検索サーバ103は、例えば、LANによって、全文検索データベース105、画像データベース106に接続される。ウェブサーバ104はサイト情報データベース107に格納されている情報を管理している。ウェブサーバ104は、例えば、LANによって、サイト情報データベース107に接続される。
全文検索データベース105、画像データベース106、サイト情報データベース107は、それぞれ所定のデータベース・ソフトウェアがインストールされた情報処理装置であり、各種データの管理を行う。
全文検索データベース105は、後述のサイト情報データベース107に格納されたウェブページの内容に基づき、単語とページのメタ情報(URL,タイトル,検索順位等)を紐付けたデータベースである。全文検索データベース105に登録される情報の一例については、図5を参照して後述する。検索サーバ103は、クライアント101から受信したユーザ指定の検索語を用いて、全文検索データベース105を利用して検索を行う。画像データベース106は、サイト情報データベース107に登録されている文書ファイルを変換して得られた画像データを格納するデータベースである。画像データベース106に登録される情報の一例については、図6を参照して後述する。
サイト情報データベース107は、ウェブサイトをインターネット102に公開するための文書ファイルの情報を管理する。文書ファイルには、HTMLファイル、PDFファイルの他、特定アプリケーションで利用されるファイル(例えば、MSワードなど)が含まれる。これらの文書ファイルには、ウェブサイトのオーナー及びオーナーが提供する商品などに関する情報を含むことができる。例えば、ウェブサイトが法人のホームページの場合、会社概要や投資家向け情報等の他に、法人が製造・販売している製品の情報や、その他法人が提供するあらゆるサービスに関する情報がサイト情報データベース107に格納される。例えば、法人が提供するサービスがブログ提供サービスの場合、当該サービスの提供を受けるユーザが作成したブログ情報等も含まれる。サイト情報データベース107は、随時更新され最新の情報が格納される。
尚、本明細書では、便宜上、検索サーバ103、ウェブサーバ104、全文検索データベース105、画像データベース106及びサイト情報データベース107は、それぞれ物理的に独立した情報処理装置によって実現されるものとして説明するが、本発明の実施形態はこれに限られるものではない。例えば、これらが単一の情報処理装置によって実現されてもよい。その一方で、検索サーバ103等の各装置が複数台の情報処理装置により冗長構成、或いは分散構成されても良い。また、全文検索データベース105及び画像データベース106は、検索サーバ103とLAN等によって接続されているものとして説明するが、例えば、インターネット102や非図示のイントラネット経由で検索サーバ103と通信可能な形態をとってもよい。ウェブサーバ104とサイト情報データベース107との関係についても同様である。
また本実施形態では、説明の簡単のために、検索サーバ103とウェブサーバ104とで検索とサイトの公開を個別に実行する場合を記載したが、システムの構成はこれに限定されるものではない。即ち、サイト公開のためのサーバと、検索のためのサーバを共通に設けることもできる。その際、検索の形態は、インターネット検索であってもよいし、自サーバで公開するサイトの情報を検索するサイト内検索であってもよい。なお、ウェブサイトとは、ひとまとまりに公開されているウェブページ群のことを言う。ウェブサイトには、例えば、法人や個人のホームページ等がある。
<情報処理装置の構成>
次に、本実施形態に対応する検索システムを構成する情報処理装置の概略について説明する。図2は、クライアント101のハードウェア構成の一例を示すブロック図である。上述した情報処理装置としての全文検索データベース105、画像データベース106及びサイト情報データベース107も、同様或いは同等のハードウェア構成として構成しても良い。
図2において、CPU200は、ハードディスク装置(以下、HDと呼ぶ)205に格納されているアプリケーションプログラム、オペレーティングシステム(OS)や制御プログラム等を実行し、RAM202にプログラムの実行に必要な情報、ファイル等を一時的に格納する制御を行う。なお、後述する図7aから図7hにおける処理もCPU200が対応する処理プログラムを実行することにより装置全体を制御して実現される。
ROM201は、内部に基本I/Oプログラム等のプログラム、文書処理の際に使用するフォントデータ、テンプレート用データ等の各種データを記憶する。RAM202は各種データを一時記憶し、CPU200の主メモリ、ワークエリア等として機能する。
外部記憶ドライブ203は、記録媒体へのアクセスを実現するための外部記憶ドライブであり、メディア(記録媒体)204に記憶されたプログラム等を本コンピュータシステムにロードすることができる。尚、メディア204は、例えば、フロッピー(登録商標)ディスク(FD)、CD−ROM、CD−R、CD−RW、PCカード、DVD、Blu−ray、ICメモリカード、MO、メモリスティック等を利用することができる。
外部記憶装置205は、本実施形態では大容量メモリとして機能するHD(ハードディスク)を用いている。HD205には、アプリケーションプログラム、OS、制御プログラム、関連プログラム等が格納される。なお、ハードディスクの代わりに、フラッシュ(登録商標)メモリ等の不揮発性記憶装置を用いても良い。
指示入力装置206は、キーボードやポインティングデバイス(マウス等)、タッチパネル等がこれに相当する。指示入力装置206を用いて、ユーザは、クライアント101に対して、装置を制御するコマンド等を入力指示する。ディスプレイ207は、指示入力装置206から入力したコマンドや、それに対するクライアント101の応答出力等を表示したりするものである。システムバス209は、情報処理装置内のデータの流れを司る。インターフェイス(以下、I/Fという)208は、外部装置とのデータのやり取りを仲介する役割を果たす。
尚、以上の各装置と同等の機能を実現するソフトウェアにより、ハードウェア装置の代替として構成することもできる。
本実施形態に対応する処理を実行するために対応するプログラムを動作させる度に、既にプログラムがインストールされているHD205からRAM202にロードするようにしてもよい。また、本実施形態に係るプログラムをROM201に記録しておき、これをメモリマップの一部をなすように構成し、直接CPU200で実行することも可能である。さらに、メディア204から対応プログラム及び関連データを直接RAM202にロードして実行させることもできる。
図3は、検索サーバ103及びウェブサーバ104の機器構成を示すブロック図である。CPU00、ROM01、RAM02、外部記憶ドライブ03、メディア04、HD05、指示入力装置06、ディスプレイ07、I/F08、システムバス09の機能及び用途、更には、これらの関係は、図2を用いて説明したものと同様或いは同等である。図3では、データベース310がシステムバス09に接続されていることに留意する。ここで、データベース310は、全文検索データベース105及び画像データベース106、又は、サイト情報データベース107を総称するものである。
<検索用データの生成>
次に、発明の実施形態に対応する検索用データの生成処理について、図4のフローチャートと図5及び図6のテーブルとを参照して説明する。図4は、発明の実施形態に対応する、検索サーバ103における検索用のテキストデータと画像データを生成する処理の一例を示すフローチャートである。図4に対応する処理は、検索サーバ103がHD305やデータベース310に保持する処理プログラムをCPU300で実行することで実現される。図5は、図4のフローチャートに対応する処理により生成された、全文検索データベース105におけるテキスト検索用テーブルのデータ構成の一例を示す図である。図6は、図4のフローチャートに従った処理により生成される画像データベース106の画像登録テーブルのデータ構成の一例を示す図である。
図4において、ステップS401では、ウェブサーバ104からインターネット102を介してサイト情報データベース107に格納されている処理対象のデータを取得する。ここで取得されるデータには、HTML形式のページデータの他、PDFファイルや、ワードファイル、エクセルファイル、パワーポイントファイルといった文書ファイルも含まれる。
続くステップS402では取得したデータから全文のテキスト情報を抽出する。ここで抽出されるデータは、文書ファイルの本文データだけでなく、HTML形式のページであればタグに含まれる情報も抽出対象となる。例えば、以下のようにページ内にタイトルやテーブル、画像のタグ、ページの情報を定義するメタタグが含まれる場合、引用符で囲まれた当該タグに付随するテキスト情報も抽出対象となる。
<a title="レース結果はこちら" href="...">...</a>
<table summary="2012年度レース結果">
<img alt="ABCロゴ" src="..." />
<title>ABCホームページ:ABC工業株式会社</title>
<meta name="keywords" content="ABCホームページ,ABC,ABC工業株式会社,ABC工業">
<meta name="description" content="ABCウェブサイトへようこそ。このサイトはABC工業株式会社のオフィシャルサイトです。">
また、ステップS402では、PDFファイルや、ワードファイル、エクセルファイル、パワーポイントファイルといったHTML以外のファイル形式のデータをHTML形式のファイル(ウェブページ)に変換する。
ステップS403では、ステップS402において抽出したテキスト情報を、ページ単位の情報に分割して、文書ファイルのURLと関連づけて全文検索データベース105内に登録する。その際、PDFファイル等を変換して得られたHTMLファイルも登録しておく。なお、本実施形態では、全文検索データベース105内に登録することとしたが、別途データベースを用意してもよい。
全文検索データベース105におけるテキスト情報及びHTMLファイルの登録の様子は、図5のテキスト検索用テーブル500に示す通りである。テキスト検索用テーブル500において、取得元URL501には、文書ファイルを取得したURLが登録される。例えば「maindocument.html」や「letter.pdf」のような文書ファイルにつき、「http://www.abc.com/maindocument.html」や「http://www.abc.com/letter.pdf」 といったURLが取得元URLとして登録される。
テキスト502には、取得元URLの文書ファイルに対応するテキストデータが登録される。その際、文書ファイルに対しページ単位のアクセスが可能な場合にはファイル全体とページ単位のテキストデータとの両方を登録する。例えば、「letter.pdf」のファイルが50ページで構成される場合、ファイル全体は「http://www.abc.com/letter.pdf」で指定されるが、当該ファイルうちの特定のページを表示させる場合には「http://www.abc.com/letter.pdf#page=N」で表示ページを指定することができる。ここでNはページ番号を示し、「letter.pdf」の場合、N=1,2,3,...50となる。「letter.pdf」の場合にテキスト502には、文書ファイル全体のテキストファイルであるletter.txtと、各ページのテキストファイルであるletterN.txt(N=001,002,...050)が登録される。なお、「http://www.abc.com/maindocument.html」のような、元々がHTMLフォーマットのファイルは、ページ単位に分割せずに全体として一つのテキストファイル(document.txt)のみがテキスト502に登録される。
このテーブル500を用いることで、ある文書ファイルと関連づけて全文のテキスト情報と、ページ単位のテキスト情報とを管理することが可能となる。
また、テーブル500には、PDFファイル等の非HTML形式の文書ファイルを変換して得られたHTMLファイルも登録される。当該HTMLファイルは、後述するプレビュー情報としてクライアント101へ提供される。格納先URL503はソースとなったファイル単位に管理され、例えば「letter.pdf」を変換して得られたHTMLファイルについては、URLとして「http://www.search.com/HTML/letter/letter.html」が与えられる。また本実施形態では、元のファイルから生成されたファイル全体のHTMLファイルと、各ページに対応するHTMLファイルとがそれぞれ登録される。例えば、「letter.pdf」のファイル全体については、「letter.html」が登録され、「letter.pdf」の途中のページについては、例えば2ページ目であれば「letter002.html」が登録される。この格納先URL503の情報は、クライアント101に対してプレビュー情報を提供する際のリンク情報として検索結果で使用することができる。なお、HTMLファイルとして検索サーバ103側に登録されるのは、元々HTML形式のファイルでなかったものなので、「maindocument.html」のようにHTML形式でウェブサーバ104から提供されるものについては、検索サーバ側でHTMLファイルとして管理はしなくてよい。なお、非HTML形式の文書ファイルからHTMLファイルへの変換に際して、後述の図7hに示すプレビュー情報表示状態における処理をクライアント101に実行させるためのスクリプトをHTMLファイル内に記述しておく。
図4のフローチャートの説明に戻り、続くステップS404では、ステップS401で取得した文書ファイルの各ページの画像データを生成する。具体的には、文書ファイルを表示するためのアプリケーションを用いて、ページ単位にディスプレイ表示可能な情報としてRAM302上に展開したのち、該RAM302上の情報を画像データに変換する。画像データの形式は、例えばJPEGとすることができるが、これに限定されるものではない。また、文書ファイルの画像データへの変換方法は、上述の方法に限定されるものではなく、公知の他の技術を利用して実行することができる。また、ステップS404では、プレビュー用の画像データ(プレビュー画像)と検索結果の一覧表示用のデータ(サムネイル画像)との解像度の異なる複数の画像データを生成する。
次に、ステップS405において、文書ファイルを構成する各ページのうち、代表的なページを決定する。代表ページは、例えば常に1ページ目を選択してもよいし、或いは、ページの中でもっても色数の多いページや、ページ毎に周波数解析を行い高周波数成分に高い係数を持つページを選択してもよい。
続くステップS406では、ステップS404で生成した画像データを、文書ファイルのURLと関連づけて画像データベース106に登録する。このとき生成される画像データベース106内の画像登録テーブルの一例は、図6に示す通りである。
図6において、画像登録テーブル600は、取得元URL601に、画像データに対応するURLが登録される。登録されるURLは、図5のテーブル500と同様文書ファイルのURLが登録され、テーブル500における取得元URL501の登録内容と対応している。
次にページ画像602には、文書ファイルを変換して得られたページ毎の画像データが登録される。当該画像データは、検索結果の一覧において選択された場合に、文書ファイルの代わりにクライアント101のディスプレイ207に表示される画像である。画像データのファイル名は、例えば、図5のページテキスト502に対応したものとすることができる。ページ画像602は取得元URL601と関連づけられているので、テキスト検索用テーブル500における取得元URL501に基づき、テキストと画像とを一対一で対応づけることができる。
また、画像登録テーブル600において、サムネイル画像603には、ページ画像602に登録されたページ毎の画像データの縮小画像が、対応するURLと関連づけられて登録される。該サムネイル画像は検索結果の一覧表示の際に検索結果のイメージを提供するために利用される。代表フラグ604は、文書ファイル全体を代表するページ画像とサムネイル画像を指定するためのフラグであって、1つの文書ファイルについて1対のページ画像とサムネイル画像について「1」の値が与えられ、他の画像は「0」となる。例えば、「http://www.abc.com/letter.pdf」の取得元URLの文書ファイルについては、「letter001.jpg」と「letterS001.jpg」がそれぞれ代表画像となる。なお、「maindocument.html」のようにページ単位に画像が生成されないものについても生成された画像にフラグ値を設定しておいてよい。また、代表ページとして、例えば常に1ページ目を選択する場合などは代表フラグの項目そのものを設けなくてもよい。
次に格納先URL605は、ページ画像及びサムネイル画像の格納先のURLを示す。各ページ画像及びサムネイル画像はソースとなったファイル単位に管理され、例えば「letter.pdf」の画像については、URLとして「http://www.search.com/JPGL/letter/」が与えられる。ページ画像602又はサムネイル画像603のファイル名と格納先URL605のURLとを組み合わせることにより、各画像を一意に特定するリンク情報として検索結果で使用することができる。以上により、所望のURLに格納されている文書ファイルについて、検索用のテキスト情報と画像データとを生成することができる。
次に、図1乃至図6に示した構成に基づいて、本発明の検索システムで実行される検索処理の詳細を説明する。
図7aから図7jは、発明の実施形態に対応する検索処理の一例をSDL(Specification and Description Language) の記述法に従って示す状態遷移図である。図7aから図7jに対応する処理は、クライアント101、検索サーバ103及びウェブサーバ104がそれぞれ保持する処理プログラムを各々が実行することにより実現される。また、クライアント101、検索サーバ103、ウェブサーバ104間の通信は、クライアント101において実行されるウェブブラウザの通信機能、或いは、ウェブブラウザのプラグイン(拡張プログラム)の通信機能を利用して実現することができる。例えばJava(登録商標)Scriptを用いたHTTPプロトコルに従って実現することができる。その他に、Flash等を使ってもよいし、HTTPではない別のプロトコルに従った通信でもよい。
まず、図7aは、クライアント101、検索サーバ103及びウェブサーバ104の状態遷移を示す図である。図7aにおいて、クライアント101は、ステップS710からステップS780までの状態を取り、それぞれの状態において図7b乃至図7hに示す処理が行われる。また、検索サーバ103はクライアント101からの要求待ち状態にあり、クライアント101から受信した要求に応じて、後述する図7iに示すような処理を実行する。ウェブサーバ104はクライアント101からの要求待ち状態にあり、クライアント101から受信した要求に応じて、後述する図7jに示すような処理を実行する。
まず、クライアント101は、ステップS710において初期状態にある。この初期状態では、クライアント101のディスプレイ207には検索画面が表示されておらず、図7bに示すように、ステップS711において検索サーバ103に対して検索画面表示要求を送信する。その後、ステップS720の検索画面表示待ち状態に移行する。
ステップS720の検索画面表示待ち状態では、図7cに示すように、クライアント101は、ステップS721において検索サーバ103から検索画面情報を受信し、ステップS722においてディスプレイ207に検索画面を表示し、ステップS730における検索画面表示状態に移行する。
検索画面の一例は図9に示す通りである。図9において検索画面900には、検索語入力領域901と、検索実行ボタン902が含まれる。検索語入力領域901に検索語を構成する文字が漢字、平仮名、片仮名、アルファベット、記号、数字、或いは、合成語により入力することができる。図9では検索語として「ABC」が入力されている。
ステップS730の検索画面表示状態では、図7dに示すように、クライアント101はステップS731においてユーザから検索語の入力を受け付ける。続くステップS732では図9の検索実行ボタン902の操作に基づくユーザからの検索実行指示を受け付け、検索語を指定した検索実行指示を検索サーバ103に送信する。その後、ステップS740の検索結果受信待ち状態に移行する。
ステップS740の検索結果受信待ち状態では、図7eに示すように、ステップS741において検索結果を検索サーバ103から受信する。続いて、ステップS742において受信した検索結果をディスプレイ207に表示して、ステップS750の検索結果表示状態に移行する。検索結果の表示状態の一例は図10Aに示すとおりである。図10Aにおいて、ウィンドウ1000は、ウェブブラウザの表示画面全体を示している。ウェブブラウザの構成は、一般的であるので特に説明しないが、例えば、インターネット・エクスプローラ、クローム、ファイヤーフォックス、サファリなどの各種ウェブブラウザを利用することができる。
検索結果はリンク毎に区別して表示され、与えられた領域毎に検索結果の本体のURLに接続するためのリンク1001、リンク1001の接続先のURLを示すURL表示1002、ページ画像にリンクしたサムネイル画像1003を含む。なお、URL表示1002は、ページ単位にアクセスが可能なファイル、例えばPDFファイルについては該当ページを示す内容であってもよい。たとえば、50ページからなる「letter.pdf」の4ページ目が検索結果に含まれる場合、4ページ目を指定するURL「http://www.abc.com/letter.pdf#page=4」がURL表示1002に表示される。この場合、サムネイル画像1003には当該ページに対応する画像(letterS004.jpg)が表示される。また、サムネイル画像がページ単位に用意できたものであっても、文書ファイルを扱うアプリケーションに基づく制約によりURLでページを指定できない文書ファイル(例えば、MSワードなど)については、URL表示1002はファイル全体に対するリンクとし、サムネイル画像1003は該当ページのサムネイル画像を表示する。なお、この場合でもプレビュー画像やプレビュー情報もページ単位で提供が可能である。その他、関連箇所の要約テキストを表示することもできるが、図10Aでは図面の簡単のために省略している。なお、リンク先の文書の画像が画像登録テーブル600に登録されていない場合には、サムネイル画像1003は表示されないか、代替となる画像が表示される。
ステップS750の検索結果表示状態では、図7fに示すように、ステップS751において検索結果でリスト表示された項目のうち、プレビュー表示を行う項目の選択をユーザから受け付ける。当該項目の選択は例えば図10Aの結果表示の例において、サムネイル画像1003上にカーソルを移動させるか、或いは、クリックすること等により行うことができる。なお、サムネイル画像はクリックを受け付けて選択項目の文書ファイル(ウェブページ)のURLへ接続したり、カーソルが上に位置した場合にプレビュー画像やプレビュー情報を取得するためのリンク画像として利用されるので、これらに対するリンク情報が埋め込まれている。続いてステップS752において、選択された項目を指定してプレビュー画像の要求を検索サーバ103に送信する。さらにステップS753において、埋め込まれたリンクの接続先のURLに基づき選択された文書ファイル(ウェブページ)の要求を検索サーバ103又はウェブサーバ104に対して送信する。検索サーバ103に対してウェブページの要求が送信される場合は、図5で格納先URL503に登録されるような、PDFファイル等の非HTMLファイルをHTMLファイルに変換して検索サーバ103で保存している場合である。一方、元々HTMLファイルとしてウェブサーバ104が保有しているデータ(例えば、maindocument.html等)についてはウェブサーバ104に対してウェブページ要求が送信される。その後、ステップS760のプレビュー情報受信待ち状態に移行する。
ステップS760のプレビュー情報受信待ち状態では、図7gに示すように、ステップS761においてまずはプレビュー画像を検索サーバ103から受信する。続いて、ステップS762において受信したプレビュー画像をプレビュー領域に表示する。このときの表示状態は、例えば図10Bのようになる。図10Bにおいて、ページ画像1011を表示するプレビュー領域1010が検索結果を表示するウィンドウ1000に対して重畳表示される。本実施形態では先にページ画像を送信して表示内容の確認を可能とする。
次にステップS763においてプレビュー情報としてウェブページのページデータを検索サーバ103又はウェブサーバ104から受信する。続いて、ステップS764において受信したウェブページを表示済のページ画像1011と置き換えてプレビュー領域1010を更新し、ステップS770のプレビュー情報表示状態となる。このときの表示状態は、表示された情報が画像からウェブページに変わっただけで外観としては例えば図10Bと同様になる。
次にステップS770のプレビュー情報表示状態では図7hに示すように検索語に基づきウェブページをプレビュー表示用の情報に加工してプレビュー情報の表示を行う。具体的に、ステップS771では、検索語を取得する。当該検索語は、ブラウザが内部変数として保持するリファラを参照して抽出することができる。当該リファラには、現在表示されているウェブページのリンク元のページの情報が含まれ、当該リンク元が検索結果の画面である場合には、検索に使用された検索語が含まれるからである。
次にステップS772では、表示中のウェブページのうち、プレビュー領域に表示されるべき本文(テキスト)中の検索語を探索し、見つかった検索語にタグを埋め込み分離する。このとき埋め込むタグは例えば、<span></span>があり、これにより検索語の表示位置を特定することができる。また、例えば、本文が以下の文1で、検索語をABCとすると、埋め込みの例は文2に示すようになる。
「ABCのクルマを体感した、みなさまからご投稿いただいた感想の一部をご紹介。」・・・(文1)
「<span>ABC</span>のクルマを体感した、みなさまからご投稿いただいた感想の一部をご紹介。」・・・(文2)
このようにして分離した検索語に対して更に強調表示要素(例えば、吹き出し要素)を付加するためにタグ<em></em>を追加する。文2に対するタグの付加の例は文3に示すようになる。
「<span>ABC</span><em>ABC</em>のクルマを体感した、みなさまからご投稿いただいた感想の一部をご紹介。・・・(文3)
上記の処理は本文中で見つかった検索語の全てについて行う。次にステップS773に移行して、表示要素の属性値について検索語の探索を行う。表示要素の属性値とは、例えばテーブル、画像などに付与された属性(メタデータ)をいう。例えば、画像であれば以下の文4のような例がある。
<img alt="ABCロゴ" src="..." /> (文4)
これに対して、強調表示要素を付加すると文5に示すようになる。
<img alt="ABCロゴ" src="..." /><em>ABC</em> ・・・(文5)
S773の上記の処理は表示要素の属性値について見つかった検索語の全てについて行う。当該表示要素の強調表示は、テキスト中の検索語に付与される吹き出し要素とは外観を異ならせてもよい。例えば、表示要素の強調表示要素は検索語を含めず所定のマーク(例えば、フラグ)を付与するだけでもよい。
次に、ステップS774に移行して非表示要素の属性値について検索語の探索を行う。非表示要素の属性値とは、例えば以下に示すような、ページタイトルやページに付与されたメタタグの情報を言う。
<title>ABCホームページ:ABC工業株式会社</title>
<meta name="keywords" content="ABCホームページ,ABC,ABC工業株式会社,ABC工業">
<meta name="description" content="ABCウェブサイトへようこそ。このサイトはABC工業株式会社のオフィシャルサイトです。">
上記のメタタグの情報は、クライアント101におけるページ表示においては視覚的に表示されることはないが検索語の探索範囲とはなっているので、本実施形態では、その存在をユーザに知らしめるために強調表示を行う。具体的には、例えば<em>非表示エリアにマッチ</em>のようなタグを付与する。当該非表示要素の強調表示は、特定の要素との関連で表示されるわけではないので、非表示領域の検索語がヒットしていることをユーザに通知するための表示として、表示領域内の特定の位置に吹き出し等を表示させてもよい。
次に、ステップS775に移行して、S772からS774までの処理結果に基づいて表示されているページの内容を更新し、その後S780の操作待ち状態に移行する。操作待ち状態においては、クライアント101が表示するプレビュー領域に対するユーザの操作を受け付け、当該操作に応じた表示を行う。
また、ステップS775におけるページ更新の際には、強調表示の表示態様を決定するためにスタイルシートを参照、或いは適用する。当該スタイルシートは、追加した強調表示の表示形態を定義するための情報であって、例えば、以下の情報を定義しておく。
・強調表示用に字体や色(テキスト、表示要素、非表示要素につき定義)
・強調表示の形状レイアウト(テキスト、表示要素、非表示要素につき定義)
・強調表示の表示/非表示(表示時間、表示消去の条件)
・オーバーレイの為の自由な座標位置の指定
・オリジナルの文書より手前に表示する指定
なお、スタイルシートは、当該処理を実行するためのスクリプトによりウェブページ内へ挿入されたものを参照するか、各タグにstyle属性の値としてスタイルを指定するか、或いはスクリプトにより直接適用されてもよい。ウェブページ内へ挿入される場合は、<LINK>タグで拡張子が 「.css」の外部スタイルシートファイルを読み込むような記載がなされているか、或いは<HEAD>〜</HEAD>内等に<STYLE>タグを用いてスタイルシートを直接に記述されていてもよい。
なお、図7hに示すプレビュー情報表示状態における処理は、例えばウェブサーバ104から提供されるウェブページ内に当該処理を実行するためのスクリプトが記述されており、クライアント101においてブラウザが当該スクリプトを実行することにより実現することができる。また、ウェブページ内に当該スクリプトが埋め込まれていない場合であっても、ブラウザが図7hに対応する処理を実行する機能を有していれば、同様に実現することができる。
以上により、ページ中に検索語の位置を示す強調表示が含まれたプレビュー情報が表示される。図11は以上の処理に従い強調表示を行うためにクライアント101により加工されたウェブページのソースファイルの一例を示す。図11において、点線で囲んだ領域1101は非表示要素のうちページタイトルを示す。同じく点線領域1102はページにスタイルシートを挿入した場合の一例を示す。点線領域1103は非表示領域のうちメタタグの情報を示し、非表示領域に対応する吹き出し要素が点線1104であり、ページ本体(<body>タグ以降)に挿入されている。点線領域1105は表示要素である画像に対して加工を行った結果を示している。点線領域1106は本文中のテキストに対して加工を行った結果を示している。
図10Cは、ページ中に検索語の位置を示す強調表示が含まれたプレビュー情報の表示例を示す図である。ここで、検索語の強調表示を含むプレビュー領域1020が検索結果を表示するウィンドウ1000に対して重畳表示される。なお、プレビュー情報は検索語及びプレビュー要求されたウェブページの内容に応じてクライアント101が生成し、表示されているオリジナルのウェブページの表示内容から更新していってもよい。なお、本実施形態ではウェブページのウェブサーバ104からの取得に時間がかかってプレビュー領域に空白が生じないように先にページ画像を表示しておき、ウェブページが取得できたらページ画像と置き換える。
これにより、ウェブページの取得やプレビュー情報生成を待機することによるユーザのフラストレーションを未然に防止できる。また、ユーザはプレビュー画像の内容により、当該ページが自分が探しているページかどうかを判断できるので、仮に不要なページであればプレビュー情報の受信を待たずに次の検索結果を選択することができる。なお、プレビュー画像の表示は、通信速度やクライアント101の処理速度に応じて省略されてもよい。これは、通信速度及び処理速度が十分に確保された環境では、プレビュー画像を表示せずともユーザにストレスを与えない状況でウェブページをプレビュー領域1010に表示させることが可能だからである。
図10Cでは、ウェブページ内の検索語に該当する部分に吹き出し1021による強調表示がなされる。図10Cでは、吹き出し1021a及び1021bの2つの吹き出しが表示されている。いずれも検索語である「ABC」に対応する文字(テキスト)に対して表示されたものである。次にウェブページにおいて表示要素の属性値に検索語に該当する語が含まれる場合に、当該表示要素と関連づけてフラグ表示1022による強調表示がなされる。図10Cではフラグ表示1022aから1022cまでの3つが表示されている。これらのフラグ表示は、表示要素の1つである画像に対して付されたものであり、このような表示は画像のファイル名や、タグ内の引用符で囲まれた情報に該当する語が存在する場合に行われる。また「非表示エリアにマッチ」との表示1023は、ウェブページを表示した際に表示情報として表には現れないメタタグや、タイトルに検索語とマッチする語が含まれる場合に表示される。当該表示1023によれば、仮に本文中に検索語に該当する語が存在しない場合でも当該ページが検索結果に含まれることとなった理由を直ちに把握できるので、ユーザが当該ページがヒットした理由を探すために無駄な時間を費やすことが無くなる。
なお、上記の強調表示1021から1023はウェブページの表示が完了した後、所定時間経過の後に自動的に消えてもよいし、或いは、ユーザの手動による吹き出しの選択操作により消えてもよいし、さらには、吹き出しの表示/非表示ボタンを設けて当該ボタンにより表示の有無を操作可能としてもよい。
UI1024は、表示形態を変更するためのインタフェースである。図7hの操作待ち状態S780では、当該UI1024を介してユーザからの操作を受け付けることができる。UI1024内には検索語1024b(図10Cの場合は「ABC」)が表示され、「<」ボタン1024aと「>」ボタン1024cが含まれている。当該ボタンはプレビュー表示における強調表示を順に選択して行くための操作ボタンである。ボタン1024aは逆方向、ボタン1024cは順方向にそれぞれ表示1021から1023を選択するためのボタンである。ボタン1024dはプレビュー領域1020の表示サイズを全画面表示に切り替えるためのボタンである。ボタン1024eはプレビュー領域1020の表示を消すためのボタンである。当該ボタン1024eが操作されるとプレビュー領域1020の表示が消えて、図10Aの元の検索結果のリストのみの表示状態に戻る。
次に、検索サーバ103側の処理を説明する。図7iのステップS790において、検索サーバ103は当初要求待ち状態に置かれている。この要求待ち状態において検索サーバ103は、クライアント101からステップS711で送信された検索画面表示要求、ステップS732で送信された検索実行指示、及びステップS752で送信されたプレビュー画像要求のいずれかを受信する。
ステップS791において検索画面表示要求を受信すると、ステップS792において検索画面情報をクライアント101へ送信する。その後、ステップS790の要求待ち状態に戻る。さらに、ステップS793において検索実行指示を受信すると、ステップS794に移行して検索処理を実行する。この検索処理は、検索実行指示に含まれる検索語に基づき、全文検索データベース105を用いて行われる。続くステップS795では検索結果をクライアント101へ送信して、ステップS790の要求待ち状態に戻る。ステップS796においてプレビュー画像要求を受信すると、ステップS797に移行してプレビュー画像を送信する。当該プレビュー画像は、プレビュー画像要求に含まれるURL等の文書を特定するための情報に基づき、画像データベース106の画像登録テーブル600を参照し、取得したURLに対応するページ画像602を選択することで得られる。その後、ステップS790の要求待ち状態に戻る。ステップS798においてウェブページ要求を受信すると、ステップS799に移行してウェブページを送信する。当該ウェブページは、ウェブページ要求に含まれるURL等のHTMLファイルを特定するための情報に基づき、全文検索データベース105のテーブル500を参照し、取得したURLに対応するウェブページを選択することで得られる。その後、ステップS790の要求待ち状態に戻る。
次に、図7iの検索サーバ103における処理につき、詳細な処理の内容を説明する。まず、図8は、図7iのステップS794における検索処理の詳細を示すフローチャートである。
ステップS801では、クライアント101から受信した検索実行指示から抽出した検索語に基づいて全文検索データベース105を検索する。このとき、PDFファイル等のページ分割可能な文書ファイルを検索対象とする場合には、文書ファイル全体のテキスト(例:letter.txt)とページ毎のテキスト(例:letter001.txt)との全てを検索する。この検索の結果、特定のページが文書ファイルの中で有意と判定され、検索結果に含めるとの判定が成される場合もあるし、特定のページに絞り込めないが文書ファイル全体としては検索語を含んでいるので検索結果に含めるとの判定が成される場合がある。
例えば、「ABC」と「工業株式会社」のどちらをも含む条件として検索語が設定された場合に、あるページに「ABC」、「工業株式会社」の語がどちらも含まれている場合には、該当ページを検索結果に含めるとの判定が成される。一方、「ABC」、「工業株式会社」それぞれが別々のページに含まれている場合は、検索結果として単一ページを特定しない場合もあるが、少なくとも文書ファイル全体としては検索語に関連性があると判断され、単一ページを検索結果に含めるとの判定が成される場合がある。
次にステップ802において検索結果の表示候補を表示順に選択する。ステップS803では、表示候補のリンク情報を生成する。ここで生成されるリンク情報とは、検索結果の本体のURLに接続するための情報である。ここで本体のURLは、基本的にウェブサーバ104のサイト情報データベース107に登録されているデータを特定するための情報である。例えば、表示候補がウェブサーバ104においてURL「http://www.abc.com/letter.pdf」に格納されている「letter.pdf」の4ページ目の場合には、検索結果がクライアント101のディスプレイ207に表示されユーザのクリック操作が行われた場合に、URL「http://www.abc.com/letter.pdf」の4ページ目へ接続するためのリンク情報「http://www.abc.com/letter.pdf#page=4」等が生成される。なお、ここでページ単位にリンクを指定可能な場合はページを指定したリンク情報として生成するが、文書ファイルの形式によってはページを指定できないものもあるので、そのような文書ファイルについてはファイル全体を指定する。
次にステップS804では、ステップS802でリンク情報として記載したURLに対応する画像データが、画像登録テーブル600に登録されているか否かを判定する。例えば、表示候補が「http://www.abc.com/letter.pdf」の4ページ目の場合、当該URLを取得元URL601として持つページ画像602及びサムネイル画像603が登録されているか否かが判定される。もし画像が登録されていると判定された場合(ステップS804において「YES」)、ステップS805に移行する。一方、画像が登録されていないと判定された場合(ステップS804において「NO」)、ステップS806に移行する。
ステップS805では、表示候補のリンク情報に画像データ表示のためのタグを追加する。例えば、表示候補が「<a href="http://abc.com/letter.pdf">letter</a>」の4ページ目の場合、URL「http://abc.com/letter.pdf」と関連づけて登録されているページ画像602には、「letter004.jpg」があり、サムネイル画像603には「letterS004.jpg」がある。そして、これらが画像データベース106において格納されている位置を特定するためのURLは、格納先URLに基づき、「http://search.com/JPG/letter/letter004.jpg」と、「http://search.com/JPG/letter/letterS004.jpg」と特定することができる。このうち、サムネイル画像「letterS004.jpg」はクリックを受け付けてウェブサーバ104に対してウェブページを要求するためのリンク画像として利用される他、ページ画像「letter004.jpg」は選択時のプレビュー表示に利用される。よって一例としては、
<a href="http://www.abc.com/letter.pdf#page=4"
onMouseOver="preview('http://search.com/JPG/letter/letter004.jpg', 'http://search.com/HTML/letter/letter004.html')">
<img src="http://search.com/JPG/letter/letterS004.jpg"></a> が記載される。
この場合、文書ファイルの本体の格納場所と、プレビュー情報の元となるHTMLファイルの格納場所とが異なっている。これは、文書ファイルがPDFファイルであるため、本体のPDFファイルはウェブサーバ104で管理されているが、プレビュー情報の元となるHTMLファイルは検索サーバ103で管理されているためである。よって、検索結果の文書ファイルが元々HTML形式のウェブページであった場合は、文書ファイルの本体の格納場所とプレビュー情報の元となるHTMLファイルの格納場所が一致することとなる。例えば、図5の「maindocument.html」の場合、上記記載は以下のようになる。
<a href="http://www.abc.com/maindocument.html"
onMouseOver="preview('http://search.com/JPG/document/document.jpg', 'http://www.abc.com/maindocument.html')">
<img src="http://search.com/JPG/document/documentS.jpg"></a>
なお、表示候補のリンクが「<a href="http://abc.com/letter.pdf">letter</a>」のように、文書ファイル全体を示す場合には、代表ページとして指定されたページのページ画像とサムネイル画像が使用される。
以上により、1つの表示候補について、本来のURLにリンクするためのリンク情報と、選択時のプレビュー表示動作とを含めた検索結果表示情報を生成することができる。但し、選択時のプレビュー表示動作に関しては、以上のようにHTML内へ直接記述する以外にも、別途スクリプトによるプログラムから行ってもよい。以上の処理は、検索結果に含まれる表示候補の全てについて行われ、全てについてリンク情報を生成した場合には検索結果表示情報が完成したこととなる。
よって、ステップS806では、未処理の表示候補があるか否かを判定し、未処理の表示候補がある場合にはステップS802に戻って処理を継続する。一方、全ての表示候補についてリンク情報を生成した場合には、ステップS807に移行する。ステップS807では検索結果表示においてサムネイルが選択された場合に、図10B及びCに示すようなプレビュー領域を表示するためのプレビュー表示用のスクリプト(JavaScript)を検索結果のデータに含める。その後、ステップS794における処理を終了して、ステップS795に移行する。
なお、検索結果表示情報には、各表示候補の要約テキストが添付されてもよいが、係る要約テキストの添付方法は公知の技術であるので本明細書での説明は省略している。また、上述の説明では、サムネイル画像が存在する場合を説明したが、ページ画像のみがテーブル600に登録されている場合であっても、サムネイル画像の代わりにページ画像のリンクをテキスト表示することで、同様の処理によりリンク情報を生成することができる。
次に、ウェブサーバ104側の処理を説明する。図7jのステップS700において、ウェブサーバ104は当初要求待ち状態に置かれている。この要求待ち状態においてウェブサーバ104は、クライアント101からステップS753で送信されたウェブページ要求を受信する。
ステップS701においてウェブページ要求を受信すると、ステップS702において要求されたウェブページをサイト情報データベース107から取得し、ステップS703でクライアント101へ送信する。その後、ステップS700の要求待ち状態に戻る。なお、ここでウェブサーバ104が送信するウェブページには、図7hに示すプレビュー情報表示状態における処理をクライアント101が実行するためのスクリプトが記述されていてもよい。
以上の本実施形態によれば、クライアント101のウェブブラウザ検索結果を表示した際に、検索結果のリンク先の文書ファイルを利用して、プレビュー表示において検索語を強調表示し、検索結果における検索語の所在を視覚的に直ちに把握することが可能となる。当該プレビュー表示では、コンテンツ制作者の意図とするHTML等における固有のレイアウト情報・位置関係において、検索語のありかを示す情報を提供することができるので、ユーザが直ちに該当文書が自分が本当に探している文書であるかどうかを効率的に判断することが可能となる。
また、本実施形態で生成されるプレビュー情報は、サイト情報データベース107に格納されたオリジナルの文書ファイルに対して検索語に関連する強調表示を行うための加工を施したものであって、当該強調表示以外の情報は全てオリジナルのままであるから、プレビュー情報が表示された図10Cの状態で、ページ内を自由に閲覧することが可能であり、またページ内に含まれるリンク情報についても当該リンクを操作することによりリンク先の情報を取得することもできる。また、ページに埋め込まれたJavaScriptを実行することも可能であるし、更に添付された動画を再生することも可能である。また、プレビュー表示において、先頭の吹き出し表示の位置に画面が自動的にスクロールするようにしてもよい。
さらに、プレビュー領域は検索結果を表示するウィンドウ内で表示されるため、検索結果の1つのリンクの内容を確認する度にページの表示を切り替えたり、元の画面に戻ったりという作業が不要となる。
[実施形態2]
以下、本発明の他の実施形態を説明する。ただし、この実施の形態に記載されている構成要素はあくまでも例示であり、この発明の範囲をそれらのみに限定する趣旨のものではない。
本実施形態におけるシステム構成及びハードウェア構成は図1から図3に示したものと同様であるが、本実施形態では、検索結果における画像提供機能及び検索結果から選択された項目についてプレビュー領域を表示させる機能が省略されているものとする。よって、検索サーバ103において、画像データベース106は不要である。また、検索用データの生成処理方法は基本的には図4に示すものと同様であるが、検索結果に添付する画像については生成しない。よってS404からS406は省略される。また、図6のテーブルも不要である。
検索処理の詳細について、図7aから7jのうち図7aのS710からS750までの処理は基本的に同じであるが、図7fの検索結果表示状態の処理においてはS752を省略する。また、S760、S770のプレビュー表示について図10Bや図10Cのようなプレビュー領域1010、1020をウィンドウ1000とは別に表示することはせず、ウィンドウ1000内に直接プレビュー領域を表示する。従って図7gではS761、S762は省略する。また、図7iの処理についてはS796からS799は省略する。図7jの処理は同じである。次に図8の検索処理においては、S804、S805、S807を省略する。
このようにして、例えば図10Aの検索結果の表示(但し、サムネイル画像1003の表示はなし)においてリンク1001をクリックすると、図10Dのような表示に切り替えることが可能となる。図10Dでは、図10Cにおいて検索結果を表示するウィンドウ内のプレビュー領域で表示されていた表示内容が、ウィンドウ1000の表示領域内に画面1030として直接表示されている。また、ページタイトル1031は、当該ウェブページのタイトルが示され(ABCホームページ:ABC工業株式会社)、URLも当該ウェブページのもの(http://abc.com/main.document.html)が表示されている。当該画面1030を生成する処理は図7hと同様である。
このように検索結果から直接にページを表示した場合であっても、本願発明に特有の該当する検索語の吹き出し表示がなされており、ユーザは直ちにページ中の検索語のありかを確認することができる。
なお、以上の実施形態においてプレビュー領域の生成は、検索結果からリンクしてウェブページがクライアント101へ提供される場合にのみ実行されるように制限してもよい。例えば、ブラウザが内部変数として保持する上記のリファラを参照して、取得したページの前のページがどこから提供されているかを判定することができる。そこで、前ページが検索結果を表示するページであるかどうかをHTTPリファラに所定の検索エンジンのURLが含まれるかどうかにより判定し、含まれる場合にのみ図7hの処理を行ない、当該URLが含まれない場合には図7hの処理を実行しないようにしてもよい。
以上の処理(例えば上記図4、図7a乃至図7jや図8に示したフローチャートに従った処理等)をコンピュータプログラムを所定の記憶媒体に記憶させ、この記憶媒体に記憶されているプログラムをコンピュータに読み込ませる(インストール、もしくはコピーさせる)ことで、このコンピュータは以上の処理を行うことができる。よって、コンピュータプログラム及び記憶媒体も本発明の範疇にあることは明白である。

Claims (16)

  1. 検索語の入力を受け付ける受付手段と、
    検索語に基づく検索指示を外部の検索サーバに対して送信する送信手段と、
    前記検索指示に基づく検索結果を受信する受信手段と、
    検索結果を表示する表示手段と
    を備える情報処理装置であって、
    前記検索結果には複数のリンク情報が含まれ、いずれかのリンク情報が選択された場合に前記送信手段が該リンク情報に従って宛先サーバにウェブページの要求を送信し、
    前記情報処理装置は、前記要求に応じて前記受信手段が受信した前記ウェブページにつき、前記ウェブページに記述されたスクリプトを実行することにより、該ウェブページ内で前記検索語を検索し、かつ、該検索語を強調表示するためのタグを該ウェブページ内に挿入して加工する処理手段を更に備え、
    前記表示手段は前記強調表示のためのタグが挿入されたウェブページを、該ウェブページ内の前記検索語を強調して表示することを特徴とする情報処理装置。
  2. 前記処理手段は、前記受信したウェブページが検索結果のリンク情報の選択に基づき取得されたページである場合にのみ、該ウェブページの前記加工を行うことを特徴とする請求項1に記載の情報処理装置。
  3. 前記処理手段は、前記ウェブページに含まれる本文中のテキスト、及び、所定のタグと関連づけられたテキストにおいて前記検索語を検索し、
    前記所定のタグには、少なくともウェブページのタイトルを定義するタグ、表示画像を指定するためのタグ、ページ情報を定義するためのタグが含まれることを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記表示手段は、
    前記表示手段に表示される前記ウェブページ内のテキストについて前記強調表示を行う場合に、第1の表示要素を用い、
    前記表示手段に表示される前記ウェブページ内の画像について前記強調表示を行う場合に、前記第1の表示要素とは異なる第2の表示要素を用い、
    前記表示手段に表示されない前記ウェブページ内のテキストについて前記強調表示を行う場合に、前記第1及び第2の表示要素とは異なる第3の表示要素を用いる
    ことを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
  5. 前記処理手段は、前記受信したウェブページ内に含まれるスクリプトを実行することにより該ウェブページを加工することを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
  6. 前記表示手段は、前記強調表示のためのタグが挿入されたウェブページの表示において、表示形態を制御するためのインタフェースを併せて表示し、
    前記インタフェースの操作に従って前記表示手段は、前記強調表示された検索語を登場順又は逆順に選択した表示、前記強調表示の表示及び非表示、前記強調表示のためのタグが挿入されたウェブページの全画面表示、及び、前記強調表示のためのタグが挿入されたウェブページの表示の消去のいずれかを実行することを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。
  7. 前記表示手段は、前記強調表示のためのタグが挿入されたウェブページにおける前記強調表示を、表示された後所定時間経過後に消滅させることを特徴とする請求項1乃至6のいずれか1項に記載の情報処理装置。
  8. 前記表示手段は、前記強調表示のためのタグが挿入されたウェブページを表示している間にいずれかの前記強調表示が選択された場合、該選択された強調表示を消滅させることを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。
  9. 前記送信手段は、前記いずれかのリンク情報が選択された場合に前記検索サーバに該リンク情報に対応するウェブページのプレビュー画像の要求を更に送信し、
    前記受信手段は、前記プレビュー画像を更に受信し、
    前記表示手段は、前記ウェブページを前記受信手段が受信して表示可能となるまで前記プレビュー画像を表示し、前記ウェブページが表示可能となった場合に前記プレビュー画像と置き換えて前記ウェブページを表示する
    ことを特徴とする請求項1乃至8のいずれか1項に記載の情報処理装置。
  10. 前記表示手段は、前記強調表示のためのタグが挿入されたウェブページを前記検索結果を表示するウィンドウ内の領域で表示することを特徴とする請求項1乃至9のいずれか1項に記載の情報処理装置。
  11. 前記ウィンドウ内の領域での表示は、前記検索サーバから受信した前記検索結果に含まれるスクリプトを前記処理手段が実行することにより行われることを特徴とする請求項10に記載の情報処理装置。
  12. 前記表示手段は、前記強調表示のためのタグが挿入されたウェブページを、前記検索結果を表示するウィンドウ内の領域に、該検索結果と置き換えて表示することを特徴とする請求項1乃至9のいずれか1項に記載の情報処理装置。
  13. 請求項1乃至12のいずれか1項に記載の情報処理装置から検索語に基づく検索指示を受信し、検索処理を実行する検索サーバであって、
    前記情報処理装置から検索語を受信する受信手段と、
    前記検索語を用いて全文検索データベースを検索して検索結果を生成する検索手段と、
    前記検索結果を前記情報処理装置へ送信する送信手段と、
    情報処理装置により実行されるスクリプトであって、該情報処理装置にウェブページ内で検索語を検索させ、かつ、該検索語を強調表示するためのタグを該ウェブページ内に挿入させて加工を行わせるためのスクリプトを、該ウェブページ内に記述する処理手段と、
    を備え、
    前記検索手段は、前記情報処理装置において前記検索結果におけるいずれかのリンク情報が選択された場合に、該情報処理装置に該リンク情報に対応するウェブページであって検索語の強調表示のためのタグが挿入されたウェブページを、表示させるためのスクリプトを前記検索結果に含め、
    前記情報処理装置から前記検索結果におけるいずれかのリンク情報に対応するウェブページの要求を前記受信手段が受信した場合に、前記送信手段は、要求されたウェブページに対応する前記スクリプトが記述されたウェブページを前記情報処理装置へ送信することを特徴とする検索サーバ。
  14. 前記スクリプトは、前記検索語の強調表示のためのタグが挿入されたウェブページを、検索結果を表示するウィンドウ内の領域で表示させるためのスクリプトであることを特徴とする、請求項13に記載の検索サーバ。
  15. 請求項1乃至12のいずれか1項に記載の情報処理装置から、該情報処理装置が取得した所定の検索語に基づく検索結果に含まれるウェブページの要求を受信する受信手段と、
    該要求されたウェブページを該情報処理装置に送信する送信手段と
    を備えるウェブサーバであって、
    前記送信手段が送信する前記ウェブページ内に、前記情報処理装置により実行されるスクリプトであって、該情報処理装置に前記ウェブページ内で前記検索語を検索させ、かつ、該検索語を強調表示するためのタグを該ウェブページ内に挿入させて加工を行わせるためのスクリプトを記述することを特徴とするウェブサーバ。
  16. コンピュータを、請求項1乃至12のいずれか1項に記載の情報処理装置の前記処理手段として機能させるためのコンピュータプログラム。
JP2015535180A 2013-09-06 2013-09-06 情報処理装置、検索サーバ、ウェブサーバ及びコンピュータプログラム Active JP6147861B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/005300 WO2015033377A1 (ja) 2013-09-06 2013-09-06 情報処理装置、検索サーバ、ウェブサーバ及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JPWO2015033377A1 JPWO2015033377A1 (ja) 2017-03-02
JP6147861B2 true JP6147861B2 (ja) 2017-06-14

Family

ID=52627887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015535180A Active JP6147861B2 (ja) 2013-09-06 2013-09-06 情報処理装置、検索サーバ、ウェブサーバ及びコンピュータプログラム

Country Status (4)

Country Link
US (1) US11386184B2 (ja)
JP (1) JP6147861B2 (ja)
SG (1) SG11201601713WA (ja)
WO (1) WO2015033377A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018185380A (ja) * 2017-04-25 2018-11-22 セイコーエプソン株式会社 電子機器、プログラム及び電子機器の制御方法
WO2018204419A1 (en) 2017-05-01 2018-11-08 Magic Leap, Inc. Matching content to a spatial 3d environment
CN111684495A (zh) 2017-12-22 2020-09-18 奇跃公司 用于在混合现实系统中管理和显示虚拟内容的方法和系统
CN108170856A (zh) * 2018-01-20 2018-06-15 深圳市小满科技有限公司 信息显示方法及装置、计算机装置及存储介质
KR20200122362A (ko) 2018-02-22 2020-10-27 매직 립, 인코포레이티드 혼합 현실 시스템들을 위한 브라우저
CA3091026A1 (en) 2018-02-22 2019-08-29 Magic Leap, Inc. Object creation with physical manipulation
CN110046309A (zh) * 2019-04-02 2019-07-23 北京字节跳动网络技术有限公司 文档输入内容的处理方法、装置、电子设备和存储介质
WO2020206313A1 (en) 2019-04-03 2020-10-08 Magic Leap, Inc. Managing and displaying webpages in a virtual three-dimensional space with a mixed reality system
JP7369388B1 (ja) 2022-11-28 2023-10-26 株式会社セルズ 情報処理システム及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5845299A (en) * 1996-07-29 1998-12-01 Rae Technology Llc Draw-based editor for web pages
US6968332B1 (en) * 2000-05-25 2005-11-22 Microsoft Corporation Facility for highlighting documents accessed through search or browsing
JP2006277169A (ja) * 2005-03-29 2006-10-12 Seiko Epson Corp 画像データの管理
US7962504B1 (en) * 2005-05-26 2011-06-14 Aol Inc. Sourcing terms into a search engine
US7996391B2 (en) 2005-06-20 2011-08-09 Google Inc. Systems and methods for providing search results
WO2007015302A1 (ja) * 2005-08-04 2007-02-08 Fujitsu Limited ウェブページ制御プログラム、方法及びサーバ
US20070274300A1 (en) 2006-05-04 2007-11-29 Microsoft Corporation Hover to call
US8190990B2 (en) * 2008-06-27 2012-05-29 Google Inc. Annotating webpage content
US20100306249A1 (en) * 2009-05-27 2010-12-02 James Hill Social network systems and methods
JP2010113730A (ja) 2009-12-25 2010-05-20 Mars Flag Corp 検索サーバ及びコンピュータプログラム
US9323859B2 (en) * 2011-09-30 2016-04-26 Verisign, Inc. Dynamic client side name suggestion service

Also Published As

Publication number Publication date
JPWO2015033377A1 (ja) 2017-03-02
US11386184B2 (en) 2022-07-12
WO2015033377A1 (ja) 2015-03-12
US20160179834A1 (en) 2016-06-23
SG11201601713WA (en) 2016-04-28

Similar Documents

Publication Publication Date Title
JP6147861B2 (ja) 情報処理装置、検索サーバ、ウェブサーバ及びコンピュータプログラム
US9135341B2 (en) Method and arrangement for paginating and previewing XHTML/HTML formatted information content
JP5383234B2 (ja) 情報処理装置及び印刷制御方法
JP3588337B2 (ja) ウェブ・ブラウザ内にグラフィカル印刷技法を取り込む方法及びシステム
US20080256443A1 (en) System for aggregating and displaying syndicated news feeds
US20080021880A1 (en) Method and system for highlighting and adding commentary to network web page content
TW201013430A (en) Method and system for providing suggested tags associated with a target page for manipulation by a user
JP3714548B2 (ja) ネットワークを利用したcadデータファイル変換システム
US20230086387A1 (en) Method and system for processing information in social network system
JP2003022272A (ja) 機器マニュアル検索システム及び機器マニュアル検索方法
JPH09297703A (ja) 履歴管理機能付き情報端末装置
JP5103051B2 (ja) 情報処理システム及び情報処理方法
US8330982B2 (en) Print control apparatus and program
TW201416884A (zh) 字型發布系統及字型發布方法
CN102073746A (zh) 通过微搜操作在微窗中显示微搜结果网页的方法
KR101537555B1 (ko) 인스턴트 메신저 상의 메시지 바로 검색 지원 방법
JP2006127531A (ja) ネットワークの情報を高速で取得する方法、及びそのシステム
JP3647967B2 (ja) 画面遷移システム
WO2016011699A1 (zh) 一种用于配置浏览器的导航页的方法与装置
JP4725876B2 (ja) データ引き渡し装置
JP2010113730A (ja) 検索サーバ及びコンピュータプログラム
JP6158949B2 (ja) 情報処理装置、ウェブサーバ及びコンピュータプログラム
JP4516103B2 (ja) サーバ装置及びコンピュータプログラム
JP4217735B2 (ja) 情報処理装置、情報処理方法
JP2009245061A (ja) 検索サーバ及びコンピュータプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170517

R150 Certificate of patent or registration of utility model

Ref document number: 6147861

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250