JP2011134208A - 検索サーバ及びその制御方法、並びに検索システム - Google Patents

検索サーバ及びその制御方法、並びに検索システム Download PDF

Info

Publication number
JP2011134208A
JP2011134208A JP2009294579A JP2009294579A JP2011134208A JP 2011134208 A JP2011134208 A JP 2011134208A JP 2009294579 A JP2009294579 A JP 2009294579A JP 2009294579 A JP2009294579 A JP 2009294579A JP 2011134208 A JP2011134208 A JP 2011134208A
Authority
JP
Japan
Prior art keywords
document
image
page
text
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009294579A
Other languages
English (en)
Other versions
JP5345049B2 (ja
Inventor
Erina Ogura
絵理奈 小椋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Priority to JP2009294579A priority Critical patent/JP5345049B2/ja
Publication of JP2011134208A publication Critical patent/JP2011134208A/ja
Application granted granted Critical
Publication of JP5345049B2 publication Critical patent/JP5345049B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索された文書ファイルの内容を容易に判別可能にする。
【解決手段】ドキュメント配信サーバ11は、携帯電話機12から受け付けた文書ファイル17の検索要求に対応する文書ファイル17をファイルサーバ13から取得する。個々の文書ファイル17を画像化して文書画像18を生成する。文書画像18の各ページ画像18aから特徴量を抽出し、この特徴量抽出結果に基づき、文書画像18がテキスト文書画像であるか否かを判定する。文書画像18がテキスト文書画像でない場合、各ページ画像18aの中から最も特徴的なページ画像18aを基にサムネイル画像42を生成する。文書画像18がテキスト文書画像である場合、元の文書ファイル17の先頭ページから抽出テキスト43を抽出する。サムネイル画像42及び抽出テキスト43を検索結果として、携帯電話機12に送る。
【選択図】図1

Description

本発明は、携帯端末からのドキュメント検索要求に応じてドキュメントの検索を行い、この検索結果を携帯端末に配信する検索サーバ及びその制御方法、並びにこの検索サーバを備える検索システムに関するものである。
昨今の携帯電話機の技術向上により、パーソナルコンピュータ(以下、PCという)で作成されたドキュメント(文書作成ソフト、表計算ソフト、プレゼンテーションソフトなどのアプリケーションソフトウェアで作成された文書ファイル)を携帯電話機で閲覧することができる。このため、近年では、社内で作成された文書ファイルを携帯電話機に配信することにより、社内の文書ファイルを社外でも閲覧できるようにするドキュメント閲覧システムが知られている。
携帯電話機から社内に設置されたドキュメント配信サーバに対して文書ファイルの検索要求がなされると、ドキュメント配信サーバは、所定のファイル格納部から検索要求に対応する文書ファイルを検索し、この検索結果を携帯電話機に配信する。携帯電話機は、ドキュメント配信サーバから受信した検索結果をディスプレイに表示する。これにより、ディスプレイに表示された検索結果の中から、所望の文書ファイルを選択してその内容を閲覧することができる。このような携帯電話機で表示される検索結果としては、ユーザが文書ファイルの内容を容易に判別することができるように、文書ファイルから生成されたサムネイル画像が良く用いられている。
ところで、携帯電話機のディスプレイのサイズはPCに比べて小さいため、このディスプレイに表示されるサムネイル画像のサイズも小さくなり、文書ファイルの内容を把握し難い。その結果、文書ファイルの内容を一度表示しないと所望の文書ファイルであるか否かの判断が容易につかないという問題がある。さらに、携帯電話機は、PCと比較して処理速度やサーバとの通信速度が遅くなるため、文書ファイルの内容表示に時間が掛かるという問題もある。このため、ディスプレイに表示されたサムネイル画像の一覧から所望の文書ファイルを容易に見出すことができるように、様々な工夫がなされている。
特許文献1では、文書ファイルのサムネイル画像同士の類似度を比較して、この類似度が高い場合には、サムネイル画像同士で差異の高い領域を切り出して表示している。こうすれば、類似するサムネイル画像が大量にある場合でもこれらの区別を容易に行うことができる。
特許文献2では、検索された文書ファイルから、例えば先頭ページや色数が多いページなどの代表ページを選択し、この代表ページから形成されたサムネイル画像を検索結果として表示している。こうすれば、代表ページのサムネイル画像を手掛かりとして、文書ファイルの内容を容易に把握することができる。
特開2003−331299号公報 特開2009−245061号公報
特許文献1では、類似度が高いサムネイル画像同士で差異の高い領域を切り出して表示するので、他の文書ファイルと比較してその一部だけが更新されているような文書ファイルの内容把握には有効である。しかし、差異の高い領域しか表示しないため、文書ファイルの全体像が把握し難いという欠点がある。また、差異の高い領域がテキスト領域であった場合、携帯電話機の小さいディスプレイではテキストの内容を把握し難く、結局、文書ファイルの内容を表示する必要性が生じる。
また、特許文献2では、写真、グラフィック(図形、線画、表)などが含まれているページが代表ページとして選択された場合には、文書ファイルの内容を容易に判別することができる。しかし、文書ファイルが、写真やグラフィック等を含まないテキスト文書ファイルである場合、この文書ファイルのいずれかのテキストページが代表ページとしてサムネイル画像化される。このような場合も、携帯電話機のディスプレイでは、サムネイル画像のテキストの内容を把握し難く、特許文献1と同様に文書ファイルの内容を表示する必要性が生じる。
本発明は上記問題を解決するためのものであり、文書ファイルの検索を行った際に、検索された文書ファイルの内容を容易に判別可能な検索結果が得られる検索サーバ及びその制御方法、並びに検索システムを提供することを目的とする。
上記目的を達成するため、本発明の検索サーバは、携帯端末から、ドキュメントの検索要求を受け付ける受付手段と、前記受付手段が受け付けた前記検索要求に基づき、前記ドキュメントを複数格納するドキュメント格納部から、当該検索要求に対応する前記ドキュメントを取得するドキュメント取得手段と、前記ドキュメント取得手段が取得したドキュメントをページ毎に画像化して、複数のページ画像からなるドキュメント画像を生成するドキュメント画像生成手段と、前記ドキュメント画像の各ページ画像から、当該各ページ画像に含まれるオブジェクトの種類、数、及び大きさを示す特徴量を抽出する特徴量抽出手段と、前記特徴量の抽出結果に基づき、前記ドキュメント画像が、テキスト以外のオブジェクトを含まないテキストドキュメント画像であるか否かを判定する判定手段と、前記判定手段が前記ドキュメント画像を前記テキストドキュメント画像であると判定した場合、元のドキュメントの先頭ページから、所定の文字数のテキストを抽出するテキスト抽出手段と、前記判定手段が前記ドキュメント画像を前記テキストドキュメント画像でないと判定した場合、前記特徴量の抽出結果に基づき、当該ドキュメント画像の中から最も特徴的なページ画像を抽出するページ画像抽出手段と、前記ページ画像抽出手段が抽出した前記ページ画像からサムネイル画像を生成するサムネイル画像生成手段と、前記テキスト抽出手段が抽出した抽出テキスト、及び前記サムネイル画像生成手段が生成した前記サムネイル画像を、ドキュメントの検索結果として前記検索要求の要求元の前記携帯端末へ配信する配信手段と、を備えることを特徴とする。
前記抽出テキスト及び前記サムネイル画像を、それぞれ元の前記ドキュメントと関連付けて格納する格納手段と、前記受付手段が前記検索要求を受け付けたときに、前記検索要求に対応する前記ドキュメントが前記格納手段に格納されているか否かを確認する確認手段と、前記確認手段の確認結果に基づき、前記検索要求に対応する前記ドキュメントが前記格納手段に格納されている場合、当該ドキュメントに対応する前記抽出テキストまたは前記サムネイル画像を前記格納手段から読み出す読出手段とを備え、前記配信手段は、前記読出手段が読み出した前記抽出テキストまたは前記サムネイル画像を前記携帯端末へ配信することが好ましい。
前記ページ画像抽出手段は、前記ドキュメント画像から、前記最も特徴的なページ画像の他に、先頭ページ画像を抽出するとともに、前記サムネイル画像生成手段は、前記ページ画像抽出手段が抽出した前記最も特徴的なページ画像と前記先頭ページ画像とを結合した結合ページ画像のサムネイル画像を生成することが好ましい。
前記ページ画像抽出手段は、前記ドキュメント画像の各ページ画像の中で、テキスト以外のオブジェクトを最も多く含むページ画像を、前記最も特徴的なページ画像として抽出することが好ましい。また、前記ページ画像抽出手段は、前記ドキュメント画像の各ページ画像の中で、予め決められた種類のオブジェクトを最も多く含むページ画像を、前記最も特徴的なページ画像として抽出することが好ましい。
前記ページ画像抽出手段は、前記ドキュメント画像の各ページ画像の中で、テキスト以外のオブジェクトであってかつ最もサイズの大きいオブジェクトを含むページ画像を、前記最も特徴的なページ画像として抽出することが好ましい。また、前記テキスト以外のオブジェクトは、写真、図形、線画、表であることが好ましい。
また、本発明の検索システムは、請求項1ないし7いずれか1項記載の検索サーバと、ネットワークを介して前記検索サーバと接続され、前記検索サーバに対してドキュメントの検索要求を行うとともに、前記検索要求に応答して前記検索サーバから配信される前記検索結果を受信して表示部に表示する携帯端末と、を備えることを特徴とする。
前記携帯端末には、前記表示部に表示された前記検索結果の中から任意の前記抽出テキストまたは前記サムネイル画像を選択するための選択手段と、前記選択手段によって選択された前記抽出テキストまたは前記サムネイル画像に対応するドキュメントの配信要求を、前記検索サーバへ送信する配信要求送信手段とが設けられており、前記検索サーバの前記受付手段は、前記携帯端末からの前記配信要求を受け付けるとともに、前記配信手段は、前記受付手段が受け付けた前記配信要求に対応する前記ドキュメント画像を、当該配信要求の要求元の前記携帯端末へ配信することが好ましい。
また、本発明の検索サーバの制御方法は、携帯端末から、ドキュメントの検索要求を受け付ける受付ステップと、前記受付ステップで受け付けた前記検索要求に基づき、前記ドキュメントを複数格納するドキュメント格納部から、前記検索要求に対応する前記ドキュメントを取得するドキュメント取得ステップと、前記ドキュメント取得ステップで取得したドキュメントをページ毎に画像化して、複数のページ画像からなるドキュメント画像を生成するドキュメント画像生成ステップと、前記ドキュメント画像の各ページ画像から、当該各ページ画像に含まれるオブジェクトの種類、数、及び大きさを示す特徴量を抽出する特徴量抽出ステップと、前記特徴量の抽出結果に基づき、前記ドキュメント画像が、テキスト以外のオブジェクトを含まないテキストドキュメント画像であるか否かを判定する判定ステップと、前記判定ステップで前記ドキュメント画像を前記テキストドキュメント画像であると判定した場合、元のドキュメントの先頭ページから、所定の文字数のテキストを抽出するテキスト抽出ステップと、前記判定ステップで前記ドキュメント画像を前記テキストドキュメント画像でないと判定した場合、前記特徴量の抽出結果に基づき、当該ドキュメント画像の中から最も特徴的なページ画像を抽出するページ画像抽出ステップと、前記ページ画像抽出ステップで抽出した前記ページ画像からサムネイル画像を生成するサムネイル画像生成ステップと、前記テキスト抽出ステップで抽出した抽出テキスト、及び前記サムネイル画像生成ステップで生成した前記サムネイル画像を、ドキュメントの検索結果として前記検索要求の要求元の前記携帯端末へ配信する配信ステップと、を有することを特徴とする。
本発明の検索サーバ及びその制御方法、並びに検索システムは、携帯端末からの検索要求に対応するドキュメントを画像化して、このドキュメント画像がテキストドキュメント画像である場合には元のドキュメントの先頭ページからテキストを抽出し、テキストドキュメント画像でない場合にはドキュメント画像の中で最も特徴的なページ画像を基にサムネイル画像を生成して、これらをドキュメントの検索結果として携帯端末に配信するようにしたので、ドキュメント画像がテキストドキュメント画像であった場合でも、その内容を示すテキストを、ユーザが判別可能な大きさで携帯端末に表示させることができる。その結果、ユーザは、ドキュメントの種類に関らず、その内容を容易に把握することができる。
抽出テキスト及びサムネイル画像を、それぞれ元のドキュメントと関連付けて格納するようにしたので、一度取得したドキュメントについては、抽出テキストの抽出及びサムネイル画像の生成を再度行う必要がなくなる。その結果、携帯端末に迅速に検索結果を配信することができる。
ドキュメント閲覧システムの概略図である。 文書画像対応テーブルの説明図である。 検索結果対応テーブルの説明図である。 特徴量の抽出処理を説明するための説明図である。 ブロック情報を説明するための説明図である。 検索結果DBを説明するための説明図である。 CPUの機能ブロック図である。 携帯電話機の電気的構成を示すブロック図である。 ファイルサーバの電気的構成を示すブロック図である。 ドキュメント配信サーバがファイルサーバから文書ファイルを取得する処理の流れを説明するためのフローチャートである。 文書ファイルの検索及び閲覧処理の流れを説明するためのフローチャートである。 表示用データの作成処理を説明するための説明図である。 サムネイル画像生成処理を説明するための説明図である。 抽出テキストの抽出処理を説明するための説明図である。 検索結果一覧画面を説明するための説明図である。 抽出テキストの代わりに、テキストページ画像のサムネイル画像を表示した比較例を説明するための説明図である。
図1に示すように、本発明の検索システムに相当するドキュメント閲覧システム10は、ドキュメント配信サーバ(検索サーバ)11と、携帯電話機(携帯端末)12と、ファイルサーバ(ドキュメント格納部)13とで構成されている。
携帯電話機12は、基地局14と無線通信し、基地局14を介してインターネット15にアクセスすることにより、インターネット15を介してドキュメント配信サーバ11と接続される。これにより、ドキュメント配信サーバ11と携帯電話機12とは、インターネット15を介して相互に通信を行うことができる。
ファイルサーバ13は、企業のネットワーク内に配置されたサーバであり、この企業内で各種アプリケーションソフトを用いて作成された種々の文書ファイル(ドキュメント)17を保管する。このファイルサーバ13は、企業のネットワークを介してドキュメント配信サーバ11と接続される。これにより、ドキュメント配信サーバ11とファイルサーバ13とは、企業のネットワークを介して相互に通信を行うことができる。
ドキュメント配信サーバ11は、携帯電話機12から、任意の検索キーを含む文書ファイル17の検索要求を受け付けた際に、この検索キーを含む全文書ファイル17をファイルサーバ13から取得して検索結果を作成し、この検索結果を携帯電話機12に配信する。また、ドキュメント配信サーバ11は、携帯電話機12から、検索結果に含まれる文書ファイル17の配信の要求を受け付けたときは、その文書ファイル17を画像化した文書画像18を携帯電話機12に配信する。
携帯電話機12には、各種の情報を表示するための液晶ディスプレイ20と、各種の操作指示を入力するための操作部(選択手段)21とが設けられている。携帯電話機12は、操作部21を介して入力されたユーザからの指示に応じてドキュメント配信サーバ11にアクセスし、ドキュメント配信サーバ11から取得した情報を液晶ディスプレイ20に出力する。
ドキュメント配信サーバ11には、CPU22と、メモリ23と、HDD24と、ネットワークI/F(受付手段、ドキュメント取得手段、配信手段)25と、画像生成部26と、特徴量抽出部27と、テキスト文書判定部28と、ページ画像抽出部29と、サムネイル画像生成部30と、テキスト抽出部31と、検索結果DB(格納手段)32とが設けられている。また、これらの各部は、バス33を介して互いに接続されている。
CPU22は、ドキュメント配信サーバ11の各部を統括的に制御する。メモリ23は、CPU22が制御を行う過程で生じた種々のデータを一時的に格納する。HDD24には、ドキュメント配信サーバ11を制御するための各種のプログラムやデータが格納されている。CPU22は、これらのプログラムやデータをHDD24から読み出してメモリ23に展開し、これを逐次処理することによってドキュメント配信サーバ11の制御を行う。
メモリ23には、ドキュメント配信サーバ11が携帯電話機12から検索要求を受け付けた時に、文書ファイル格納部35、文書画像格納部36、及び検索結果表示用データ格納部(以下、単に表示用データ格納部という)37が構築される。文書ファイル格納部35には、ファイルサーバ13から取得した文書ファイル17が格納される。文書画像格納部36には、文書ファイル格納部35に格納された文書ファイル17を画像化した文書画像18が格納される。表示用データ格納部37には、検索要求元の携帯電話機12に配信する検索結果の表示用データが格納される。
また、メモリ23には、文書画像対応テーブル39と検索結果対応テーブル40とが格納されている。文書画像対応テーブル39は、文書ファイル格納部35内の文書ファイル17と、文書画像格納部36内の文書画像18との対応関係を示す。検索結果対応テーブル40は、文書画像格納部36内の文書画像18と、表示用データ格納部37内の表示用データとの対応関係を示す。
ネットワークI/F25は、インターネット15や社内のネットワークを介して、携帯電話機12、ファイルサーバ13のそれぞれと各種データの遣り取りを行う。ネットワークI/F25が携帯電話機12から受信するデータは、文書ファイル17の検索要求や配信要求であり、逆に、ネットワークI/F25が携帯電話機12へ送信するデータは、文書ファイル17の検索結果や文書画像18である。
また、ネットワークI/F25がファイルサーバ13へ送信するデータは、携帯電話機12から受け付けた検索要求に基づいて生成された文書ファイル17の検索要求(以下、サーバ検索要求という)と、文書ファイル17の配信要求(以下、サーバ配信要求という)である。また、ネットワークI/F25がファイルサーバ13から受信するデータは、サーバ検索要求に対応した文書ファイル17の検索結果(以下、サーバ検索結果という)と、サーバ配信要求に対応した文書ファイル17である。
画像生成部26は、文書ファイル格納部35に格納された文書ファイル17を読み出し、この文書ファイル17を、仮想プリンタドライバにより仮想印刷することにより、文書ファイル17をページ毎に画像化して、複数のページ画像からなる文書画像18を生成する。各ページ画像は、携帯電話機12で標準的な大きさの液晶ディスプレイ20の解像度にあわせて生成される。なお、文書ファイル17をページ毎に画像化する方法は、仮想印刷に限定されるものではなく、公知の各種方法を用いてよい。画像生成部26が生成した文書画像18は、文書画像格納部36に格納される。
特徴量抽出部27は、文書画像格納部36に格納された文書画像18を読み出し、この文書画像18をページ画像毎に解析して、各ページ画像から特徴量を抽出する。この特徴量は、各ページ画像にそれぞれ含まれるオブジェクト(例えば、テキスト、写真、グラフィックなどの表示対象)の種類、数、大きさ、位置等を示すものである。
テキスト文書判定部28は、文書画像18のページ画像毎に求められた特徴量に基づき、文書画像18が、テキスト以外のオブジェクトを含まないテキスト文書ファイルの文書画像(以下、テキスト文書画像という)であるか否かを判定する。
ページ画像抽出部29は、テキスト文書画像以外の文書画像18から、先頭ページのページ画像(以下、先頭ページ画像という)と、各ページ画像の中で最も特徴的なページ画像(以下、代表ページ画像という)とを抽出する。代表ページ画像は、ページ画像毎に求められた特徴量に基づき決定される。
具体的に、ページ画像抽出部29は、テキスト以外の写真等のオブジェクトを最も多く含むページ画像を代表ページとして決定する。なお、オブジェクトを最も多く含むページ画像が複数ある場合は、よりサイズの大きいオブジェクトを含むページ画像を代表ページとして決定する。また、ページ画像抽出部29は、先頭ページ画像を代表ページ画像として決定した場合、先頭ページ画像のみを抽出する。
サムネイル画像生成部30は、ページ画像抽出部29により抽出された先頭ページ画像と代表ページ画像とを結合して結合ページ画像を生成して、この結合ページ画像からサムネイル画像42を生成する。なお、代表ページとして先頭ページ画像のみが抽出された場合、この先頭ページ画像から直接サムネイル画像42が生成される。このサムネイル画像42は、検索結果の表示用データとして、表示用データ格納部37に格納される。
テキスト抽出部31は、テキスト文書画像であると判定された文書画像18の元の文書ファイル17を文書ファイル格納部35から検索して、この文書ファイル17の先頭ページから所定文字数のテキスト(以下、抽出テキストという)43を抽出する。抽出テキスト43は、検索結果の表示用データとして、表示用データ格納部37に格納される。先頭ページは文書ファイル17の表紙となるため、抽出テキスト43には文書ファイル17のタイトルが含まれることが多い。
検索結果保管DB32は、メモリ23に一時的に格納されている、文書ファイル格納部35内の文書ファイル17と、表示用データ格納部37内のサムネイル画像42や抽出テキスト43とを互いに関連付けて格納する。
図2に示すように、文書画像対応テーブル39は、文書IDと、文書ファイル17のファイル名と、文書画像18のファイル名と、ページ画像のファイル名とを関連付けて記憶している。文書IDは、各文書ファイル17を一意に識別するために付された識別情報であり、文書ファイル17がファイルサーバ13に保管される際に、ファイルサーバ13によって文書ファイル17に付される。ページ画像のファイル名は、例えば、文書ファイル17のファイル名にページに対応した通し番号を付したものである。
図3に示すように、検索結果対応テーブル40は、文書IDと、サムネイル画像42のファイル名または抽出テキスト43のファイル名とを関連付けて記憶している。これにより、検索結果対応テーブル40を参照することで、サムネイル画像42または抽出テキスト43に対応する文書IDを識別することができる。さらに、この文書IDと文書画像対応テーブル39に基づき、サムネイル画像42または抽出テキスト43に対応する文書画像18を識別することができる。
次に、図4を用いて、特徴量抽出部27による特徴量抽出処理について説明する。ここでは、文書画像18の第P(Pは1以上の自然数)ページ目及び第(P+1)ページ目のページ画像18aからそれぞれ特徴量を抽出する場合を例に挙げて説明を行う。
特徴量抽出部27は、文書画像格納部36から各ページ画像18aをそれぞれ読み出し、各ページ画像18aを、オブジェクトの種類毎に矩形ブロックに分割する。オブジェクトの種類は、上述したように、テキスト、写真、グラフィック(図形、線画、表など)等である。
具体的に、特徴量抽出部27は、各ページ画像18aを白黒に2値化し、黒画素輪郭で囲まれる画素塊を抽出する。次いで、特徴量抽出部27は、抽出した黒画素塊の大きさを評価し、大きさが所定値以上の黒画素塊の内部にある白画素塊に対する輪郭追跡を行う。そして、この白画素塊に対する大きさ評価、その内部の黒画素塊の輪郭追跡というように、内部の画素塊が所定値以上である限り、再帰的に内部画素塊の抽出、輪郭追跡を行う。なお、画素塊の大きさは、例えば画素塊の面積によって評価される。
特徴量抽出部27は、上述のようにして得られた画素塊に外接する矩形ブロックを生成し、矩形ブロックの大きさ及び形状に基づき、矩形ブロックの種類を判定する。例えば、縦横比が1に近く、大きさが一定の範囲の矩形ブロックを、文字に相当する文字ブロックとする。そして、近接する文字ブロックが規則正しく整列しているときに、これら文字ブロックを纏めた新たな矩形ブロックを生成し、この矩形ブロックをテキスト領域矩形ブロックとする。
また、特徴量抽出部27は、扁平な画素塊、あるいは一定大きさ以上で、かつ四角形の白画素塊に外接する矩形ブロックが重ならないで並んでいる黒画素塊をグラフィック領域矩形ブロック、それ以外の不定形の画素塊を写真領域矩形ブロックとする。
このようにして、特徴量抽出部27は、第Pページ目のページ画像18aをB1〜B5の5つの矩形ブロックに分割する。また、第(P+1)ページのページ画像18aについては、1つの矩形ブロックB1が生成される。次いで、特徴量抽出部27は、上述のようにして生成された各矩形ブロックのそれぞれについて、その種類等を示すブロック情報45(図5参照)をページ画像18a毎に生成する。
図5に示すように、各矩形ブロックB1〜B5のブロック情報45には、矩形ブロックの種類、位置のX座標及びY座標、幅W、高さH等が含まれる。矩形ブロックの種類には、上述のテキスト領域矩形ブロックを示す「テキスト」、グラフィック領域矩形ブロックを示す「グラフィック」、写真領域矩形ブロックを示す「写真」のいずれかが入力される。
X座標、Y座標は、各ページ画像18aの任意の点(例えば左上隅)を原点としたときの、各矩形ブロックB1〜B5の原点(例えば左上隅)のX座標、Y座標である。また、幅W、高さHは、各矩形ブロックB1〜B5のX方向の幅、Y方向の幅であり、例えば画素数などで表される。
特徴量抽出部27は、文書画像18の全ページ画像18aについて、その特徴量としてブロック情報45を求める。各ページ画像18aのブロック情報45を参照することで、各ページ画像18aに含まれるオブジェクトの種類、数、位置、大きさを判別することができる。
図6に示すように、検索結果保管DB32には、文書ファイル格納部47と、表示用データ格納部48とが構築されるとともに、DB情報テーブル49が格納されている。文書ファイル格納部47には、メモリ23の文書ファイル格納部35に一時的に格納された文書ファイル17が格納される。表示用データ格納部48には、表示用データ格納部37に一時的に格納されたサムネイル画像42や抽出テキスト43が格納される。
DB情報テーブル49は、文書IDと、文書ファイル格納部47内の文書ファイル17のファイル名と、表示用データ格納部48内のサムネイル画像42または抽出テキスト43のファイル名とを関連付けて記憶している。これにより、DB情報テーブル49を参照することで、ファイルサーバ13から既に取得済みの文書ファイル17、及びこの文書ファイル17に対応するサムネイル画像42または抽出テキスト43を容易に判別することができる。
図7に示すように、CPU22は、HDD24から読み出したプログラムを逐次実行することで、送受信制御部51、確認制御部52、文書ファイル取得制御部53、メモリアクセス部54、DBアクセス部(読出手段)55として機能する。
送受信制御部51は、ネットワークI/F25を制御して、携帯電話機12やファイルサーバ13との間での各種データの遣り取りを行う。このデータの遣り取りは、大別して4段階に分けられる。第1段階において、送受信制御部51は、携帯電話機12からの文書ファイル17の検索要求を受け付けたときに、ファイルサーバ13に対してサーバ検索要求を送信する。また、送受信制御部51は、サーバ検索要求に応答してファイルサーバ13から送信されたサーバ検索結果を確認制御部52に送る。
第2段階において、送受信制御部51は、ファイルサーバ13から文書ファイル17を取得する取得指令を受け付けた時に、ファイルサーバ13に対して文書ファイル17のサーバ配信要求を送信する。また、送受信制御部51は、サーバ配信要求に応じてファイルサーバ13から送信された文書ファイル17をメモリアクセス部54に送る。
第3段階において、送受信制御部51は、携帯電話機12からの検索要求に対応する検索結果として、表示用データ格納部37内のサムネイル画像42や抽出テキスト43を携帯電話機12に送信する。また、第4段階において、送受信制御部51は、携帯電話機12から文書ファイル17の配信要求を受け付けたときに、この配信要求に対応する文書画像18を携帯電話機12に送信する。
確認制御部52は、送受信制御部51から取得したサーバ検索結果に基づき、検索結果保管DB32のDB情報テーブル49を参照して、ファイルサーバ13で検索された文書ファイル17が、既に文書ファイル格納部47に格納されているか否かを確認する。
文書ファイル取得制御部53は、ファイルサーバ13から文書ファイル17を取得する取得指令を、送受信制御部51に対して行う。この際に、文書ファイル取得制御部53は、確認制御部52の確認結果に基づき、既に取得済みの文書ファイル17をファイルサーバ13から取得しないように指令を行う。
メモリアクセス部54は、メモリ13へのデータ(文書ファイル17、文書画像18、サムネイル画像42、抽出テキスト43)の格納やメモリ13からのデータの読み出し、並びに、文書画像対応テーブル39や検索結果対応テーブル40の更新を行う。
DBアクセス部55は、検索結果保管DB32へのデータ(文書ファイル17、サムネイル画像42、抽出テキスト43)の格納や、検索結果保管DB32からのデータの読み出し、並びにDB情報テーブル49の更新を行う。データの登録やテーブルの更新は、新たなサムネイル画像42または抽出テキスト43が表示用データ格納部37に格納される度に実行される。また、データやテーブルの読み出しは、確認制御部52が、文書ファイル格納部47に格納済みの文書ファイル17が有りと判定する度に実行される。
図8に示すように、携帯電話機12は、液晶ディスプレイ20及び操作部21の他に、CPU57と、メモリ58と、液晶ドライバ59と、無線通信部(配信要求送信手段)60とを備えている。これらの各部は、バス61を介して互いに接続されている。メモリ58には、携帯電話機12を制御するための各種のプログラムやデータ、及び文書ファイル17の検索及び閲覧に用いられるブラウザソフトなどを記憶したROM領域と、制御の過程で生じた種々のデータを一時的に記憶するRAM領域とが設けられている。
CPU57は、メモリ58から各種のプログラムを読み出し、これを逐次処理することによって携帯電話機12の各部を統括的に制御する。無線通信部60は、基地局14及びインターネット15を介して、ドキュメント配信サーバ11との間で各種データの遣り取りを行う。
液晶ドライバ59は、CPU57からの制御信号に応じて種々の画像データをメモリ58から読み出し、その画像データをアナログのコンポジット信号に変換して液晶ディスプレイ20に出力する。液晶ディスプレイ20には、ブラウザソフトを起動したときに表示される文書ファイル17の検索画面、ドキュメント配信サーバ11から配信されるサムネイル画像42や抽出テキスト43などの検索結果を表示する検索結果一覧画面、及び文書画像18などが表示される。
CPU57には、操作部21が接続されている。これにより、ユーザからの操作指示が操作部21を介してCPU57に入力される。CPU57は、液晶ディスプレイ20に文書ファイル17の検索画面が表示されているときに、操作部21から検索キーが入力されると、この検索キーを含む文書ファイル17の検索要求を生成し、この検索要求を無線通信部60に送る。また、CPU57は、液晶ディスプレイ20に文書ファイル17の検索結果一覧画面(図15参照)が表示されているときに、操作部21で任意のサムネイル画像42または抽出テキスト43が選択されると、このサムネイル画像42または抽出テキスト43に対応する文書ファイル17の配信要求を生成し、この配信要求を無線通信部60に送る。
図9に示すように、ファイルサーバ13は、CPU63と、メモリ64と、ネットワークI/F65と、HDD66とを備えている。また、これらの各部は、バス67を介して互いに接続されている。
CPU63は、ファイルサーバ13の各部を統括的に制御する。メモリ64は、CPU63が制御を行う過程で生じた種々のデータを一時的に記憶する。HDD66には、ファイルサーバ13を制御するための各種のプログラムやデータの他に、複数の文書ファイル17が格納されている。CPU63は、これらのプログラムやデータをHDD66から読み出してメモリ64に展開し、これを逐次処理することによってファイルサーバ13の制御を行う。
ネットワークI/F65は、社内のネットワークを介して、ドキュメント配信サーバ11と各種データの遣り取りを行う。
CPU63は、HDD66から読み出したプログラムを逐次実行することで、検索部69、文書ファイル読出部70として機能する。検索部69は、ネットワークI/F65を介してドキュメント配信サーバ11からサーバ検索要求を受信したときに、このサーバ検索要求に対応する文書ファイル17をHDD66内から検索し、この検索結果をサーバ検索結果として、ネットワークI/F65に送信する。
文書ファイル読出部70は、ネットワークI/F65を介してドキュメント配信サーバ11から文書ファイル17のサーバ配信要求を受信したときに、このサーバ配信要求に対応する文書ファイル17をHDD66から読み出して、ネットワークI/F65に送信する。
次に、図10を用いて、ドキュメント配信サーバ11が、携帯電話機12からの検索要求に対応する文書ファイル17をファイルサーバ13から取得する処理について説明する。ドキュメント配信サーバ11の送受信制御部51は、携帯電話機12からの検索要求をネットワークI/F25で受け付けた時に、この検索要求に基づき、ネットワークI/F25にサーバ検索要求を送る。このサーバ検索要求は、ネットワークI/F25を介して、ファイルサーバ13のネットワークI/F65へ送信される。
ファイルサーバ13の検索部69は、ネットワークI/F65がサーバ検索要求を受けたときに作動し、このサーバ検索要求に含まれる検索キーを含む文書ファイル17をHDD66内から検索する。そして、検索部69は、検索した文書ファイル17のファイル名及び文書IDの一覧を生成し、この一覧をサーバ検索結果として、ネットワークI/F65に送る。このサーバ検索結果は、ネットワークI/F65を介して、ドキュメント配信サーバ11のネットワークI/F25に送信される。
ドキュメント配信サーバ11の送受信制御部51は、ネットワークI/F25で受信したサーバ検索結果を確認制御部52に送る。確認制御部52は、検索結果保管DB32のDB情報テーブル49を参照して、サーバ検索結果に含まれるファイル名及び文書IDに一致する文書ファイル17が文書ファイル格納部47に格納されているか否かを確認する。次いで、確認制御部52は、この確認結果をDBアクセス部55と文書ファイル取得制御部53にそれぞれ送信する。
DBアクセス部55は、文書ファイル格納部47に格納されている文書ファイル17がサーバ検索結果に含まれている場合、この文書ファイル17を文書ファイル格納部47から読み出してメモリアクセス部54に送る。この文書ファイル17は、メモリアクセス部54によりメモリ23の文書ファイル格納部35に格納される。
また、文書ファイル取得制御部53は、上述の確認結果に基づき、文書ファイル格納部47に格納されている文書ファイル17を除いた文書ファイル17の取得指令を、送受信制御部51に対して発する。この取得指令を受けて、送受信制御部51は、対応する文書ファイル17のファイル名及び文書IDを含むサーバ配信要求を生成して、ネットワークI/F25に送る。このサーバ配信要求は、ネットワークI/F25を介してネットワークI/F65へ送信される。
ファイルサーバ13の文書ファイル読出部70は、ネットワークI/F65がサーバ配信要求を受けたときに作動し、このサーバ配信要求に対応する全文書ファイル17をHDD66から読み出して、ネットワークI/F65に送る。文書ファイル17は、ネットワークI/F65を介してネットワークI/F25に送信される。
ドキュメント配信サーバ11の送受信制御部51は、ネットワークI/F25で受信した文書ファイル17をメモリアクセス部54に送る。メモリアクセス部54は、文書ファイル17をメモリ23の文書ファイル格納部35に格納する。以上でファイルサーバ13からの文書ファイル17の取得が完了する。
次に、図11に示すフローチャートを用いて、携帯電話機12で文書ファイル17を検索及び閲覧する際の処理の流れについて説明を行う。携帯電話機12の操作部21を操作して、ブラウザソフトを起動した後、液晶ディスプレイ20に表示される検索画面に検索キーを入力する。CPU57は、入力された検索キーを含む検索要求を生成し、この検索要求を無線通信部60に送る。この検索要求は、無線通信部60から基地局14及びインターネット15を経由して、ドキュメント配信サーバ11のネットワークI/F25で受信される。
ドキュメント配信サーバ11は、上述の図10で説明した文書ファイル17の取得処理を実行する。これにより、メモリ23の文書ファイル格納部35には、検索要求に対応する文書ファイル17が格納される。この文書ファイル17の取得処理後、CPU22は、画像生成部26に対して画像化指令を発する。
画像生成部26は、CPU22の画像化指令を受けて、メモリアクセス部54を介して文書ファイル格納部35から文書ファイル17を順次読み出すとともに、文書ファイル17を順次仮想印刷して、文書画像18を順次生成する。
メモリアクセス部54は、画像生成部26にて新たな文書画像18が生成される度に、この文書画像18をメモリ23の文書画像格納部36に格納する。また、これと同時に、メモリアクセス部54は、文書画像18のファイル名、及び元の文書ファイル17のファイル名と文書IDを文書画像対応テーブル39に記憶させる。
全ての文書ファイル17についての文書画像18の生成が完了した後、個々の文書画像18から、検索結果として携帯電話機12に表示させるサムネイル画像42または抽出テキスト43(以下、適宜、両者をまとめて表示用データという)を生成する。
最初に、CPU22のメモリアクセス部54は、文書画像格納部36から1つの文書画像18を読み出す。次いで、DBアクセス部55は、検索結果保管DB32内のDB情報テーブル49を参照して、読み出された文書画像18について既に表示用データが作成されているか否かを確認する。
既に表示用データが作成されている場合、DBアクセス部55は、検索結果保管DB32から対応する表示用データ及びその文書IDを読み出すとともに、メモリアクセス部54は、この表示用データをメモリ23の表示用データ格納部37に格納する。また、メモリアクセス部54は、表示用データのファイル名及び文書IDを検索結果対応テーブル40に記憶させる。これにより、一度作成した表示用データを再度作成する必要がなくなるので、検索結果を迅速に携帯電話機12に配信することができる。
一方、図12に示すように、表示用データが作成されていない場合、CPU22は、特徴量抽出部27に対して特徴量抽出指令を発する。この特徴量抽出指令を受けて、特徴量抽出部27は、上述の図4及び図5を用いて説明したように、文書画像18の全ページ画像18aについて、それぞれ特徴量としてブロック情報45を求める。特徴量抽出部27は、求めたブロック情報45をテキスト文書判定部28に送る。次いで、CPU22は、テキスト文書判定部28に対して判定指令を発する。
テキスト文書判定部28は、CPU22からの判定指令を受けて、各ページ画像18aのブロック情報45に基づき、各ページ画像18aに含まれるオブジェクトの種類、数、位置、大きさを判別することにより、文書画像18がテキスト文書画像であるか否かを判定する。テキスト文書判定部28は、判定結果をCPU22に送る。この判定結果に基づき、CPU22は、文書画像18がテキスト文書画像ではない場合、ページ画像抽出部29に対して画像抽出指令を発する。
図13に示すように、ページ画像抽出部29は、CPU22からの画像抽出指令を受けて、上述のページ画像18a毎のブロック情報45に基づき、文書画像18の各ページ画像18aの中から写真やグラフィック等のオブジェクトを最も多く含むページ画像18aを代表ページ画像18a−Dとして決定する。なお、代表ページ画像18a−Dは、先頭ページ画像18a−S以外で決定されたものとして説明を行う。
次いで、ページ画像抽出部29は、文書画像18から、先頭ページ画像18a−Sと、代表ページ画像18a−Dとをそれぞれ抽出して、サムネイル画像生成部30に送る。そして、CPU22は、サムネイル画像生成部30に対してサムネイル画像生成指令を発する。
サムネイル画像生成部30は、CPU22からのサムネイル画像生成指令を受けて、先頭ページ画像18a−Sと代表ページ画像18a−Dとを結合して結合ページ画像72を生成し、この結合ページ画像72からサムネイル画像42を生成する。サムネイル画像42は、メモリアクセス部54により、メモリ23内の表示用データ格納部37に格納される。また、この時にメモリアクセス部54は、サムネイル画像42のファイル名、及び元の文書画像18に対応する文書IDを検索結果対応テーブル40に記憶させる。
次いで、メモリアクセス部54は、表示用データ格納部37に新たに記憶されたサムネイル画像42を読み出す。また、メモリアクセス部54は、検索結果対応テーブル40及び文書画像対応テーブル39を参照して、サムネイル画像42に対応する元の文書ファイル17を検索し、この文書ファイル17を文書ファイル格納部35から読み出す。
メモリ23から読み出されたサムネイル画像42及び文書ファイル17は、DBアクセス部55により、検索結果保管DB32の文書ファイル格納部47、表示用データ格納部48にそれぞれ格納される。また、DBアクセス部55は、サムネイル画像42のファイル名、文書ファイル17のファイル名、及び文書IDをDB情報テーブル49に記憶させる。これにより、サムネイル画像42と元の文書ファイル17が互いに関連付けられる。
一方、図12に戻って、CPU22は、テキスト文書判定部28からの判定結果に基づき、文書画像18がテキスト文書画像である場合、テキスト抽出部31に対してテキスト抽出指令を発する。このテキスト抽出指令を受けて、テキスト抽出部31は、文書画像対応テーブル39を参照して、文書画像18の元の文書ファイル17を検索し、この文書ファイル17を文書ファイル格納部35から読み出す。
次いで、図14に示すように、テキスト抽出部31は、文書ファイル17の先頭ページから、抽出テキスト43を抽出してメモリアクセス部54に送る。メモリアクセス部54は、抽出テキスト43を表示用データ格納部37に格納するとともに、そのファイル名と元の文書ファイル17の文書IDを検索結果対応テーブル40に記憶させる。
次いで、メモリアクセス部54は、表示用データ格納部37に新たに記憶された抽出テキスト43と、この抽出テキスト43に対応する元の文書ファイル17をメモリ23からそれぞれ読み出して、DBアクセス部55に送る。DBアクセス部55は、文書ファイル17及び抽出テキスト43を検索結果保管DB32の文書ファイル格納部47、表示用データ格納部48にそれぞれ格納する。また、DBアクセス部55は、抽出テキスト43のファイル名、文書ファイル17のファイル名、及び文書IDをDB情報テーブル49に記憶させる。これにより、抽出テキスト43と元の文書ファイル17が互いに関連付けられる。
以下同様にして、全ての文書画像18について、特徴量の抽出、テキスト文書画像であるか否かの判定、サムネイル画像42または抽出テキスト43のいずれかの表示用データの格納が繰り返し実行される。
図11に戻って、全ての文書画像18についての表示用データが表示用データ格納部37に格納された後、メモリアクセス部54は、表示用データ格納部37内の各表示用データを読み出し、これらを検索結果として送受信制御部51に送る。なお、この際に、各表示用データには元の文書ファイル17の文書IDが付される。
送受信制御部51は、検索要求元の携帯電話機12を宛先として、検索結果をネットワークI/F25に送る。検索結果は、ネットワークI/F25等を介して、携帯電話機12の無線通信部60で受信された後、メモリ58に一旦記憶される。
携帯電話機12のCPU57は、液晶ドライバ59に対して表示指令を発する。この表示指令を受けて、液晶ドライバ59は、メモリ58内の検索結果を読み出し、この検索結果に含まれる全表示用データを配列した検索結果一覧画面74(図15参照)を、液晶ディスプレイ20に表示する。
図15に示すように、検索結果一覧画面74には、ドキュメント配信サーバ11によって検索されたサムネイル画像42や抽出テキスト43が一覧表示される。サムネイル画像42は、文書画像18中でも最も特徴的な代表ページ画像18a−Dに基に生成されているので、このサムネイル画像42に含まれる写真やグラフィック等に基づき、元の文書ファイル17の内容を容易に把握することができる。
抽出テキスト43は、携帯電話機12のメモリ58等に格納されている標準サイズのフォントを用いて表示される。これにより、抽出テキスト43は、ユーザが判別可能な大きさで液晶ディスプレイ20に表示される。上述したように、抽出テキスト43は、文書ファイル17の先頭ページから抽出されているため、文書ファイル17のタイトルを示すことが多い。その結果、抽出テキスト43の内容に基づき、文書ファイル17の内容を容易に把握することができる。
一方、図16に示す比較例において、テキスト文書画像の任意のページ画像から生成されたサムネイル画像76を液晶ディスプレイ20に表示した場合、このサムネイル画像76中のテキストは、サムネイル画像76のサイズに合わせて縮小されてしまうので、テキストの内容を把握することが困難となる。このような比較例に対して、本発明では、文書画像18がテキスト文書画像の場合には、サムネイル画像の代わりに、元の文書ファイル17から抽出したテキストを表示するので、文書ファイル17の種類に関らずその内容を容易に把握することができる。
図11に戻って、携帯電話機12の操作部21で、検索結果一覧画面74の中から任意のサムネイル画像42または抽出テキスト43を選択する選択操作がなされると、CPU57は、選択されたサムネイル画像42または抽出テキスト43に対応する文書ファイル17の配信要求を生成する。この配信要求には、サムネイル画像42または抽出テキスト43のファイル名、及びこれらに付された文書IDが含まれる。CPU57は、文書ファイル17の配信要求を無線通信部60に送る。この検索要求は、無線通信部60等を介して、ドキュメント配信サーバ11のネットワークI/F25で受信される。
ドキュメント配信サーバ11のCPU22は、ネットワークI/F25で受信した配信要求に含まれるファイル名及び文書IDに基づき、メモリ23の文書画像対応テーブル39を参照して、配信要求に対応する文書画像18を文書画像格納部36内から検索する。CPU22が検索した文書画像18は、上述の検索結果と同様にして携帯電話機12に送られ、そのメモリ58に一時的に記憶される。
携帯電話機12のCPU57は、メモリ58内の文書画像18を読み出し、液晶ドライバ59に送るとともに、この液晶ドライバ59に対して表示指令を発する。この表示指令を受けて、液晶ドライバ59は、文書画像18を液晶ディスプレイ20に表示する。以下、携帯電話機12の操作部21で、サムネイル画像42または抽出テキスト43の選択操作がなされる度に、同様の処理が繰り返し実行される。
上記実施形態では、ページ画像抽出部29が、文書画像18の中から、テキスト以外のオブジェクトを最も多く含むページ画像18aを代表ページ画像18a−Dとして抽出しているが、例えば、予め決められた種類のオブジェクト(具体的には写真など)を最も多く含むページ画像18aを、代表ページ画像18a−Dとして抽出してもよい。また、テキスト以外のオブジェクトの中で最もサイズの大きいオブジェクトを含むページ画像18aを、代表ページ画像18a−Dとして抽出してもよい。これら代表ページ画像18a−Dについても、ページ画像18a毎のブロック情報45から容易に判別可能である。
また、特徴量抽出部27による特量抽出時に、ページ画像18a内の色数を求めて、最も色数が多くなるページ画像18aを代表ページ画像18a−Dとして抽出してもよい。
上記実施形態では、ドキュメント配信サーバ11が携帯電話機12からの文書ファイル17の配信要求に応答して、これに対応する文書画像18を携帯電話機12に送信しているが、文書画像18のページ画像18a毎に携帯電話機12に送信してもよい。この場合は、携帯電話機12の操作部21でページ切替操作がなされるたびに、逐次新しいページ画像18aを携帯電話機12に送る。
上記実施形態では、テキスト抽出部31が文書ファイル17の先頭ページから抽出テキスト43を抽出しているが、先頭ページ以外からもテキストの抽出を行ってもよい。
上記実施形態では、ファイルサーバ13がドキュメント配信サーバ11と別体に設けられているが、ドキュメント配信サーバ11内に文書ファイル17を保管するデータベースを設けてもよい。
上記実施形態では、携帯電話機12を用いてドキュメント配信サーバ11との間でデータの遣り取りを行う場合について説明したが、携帯電話機12の代わりにPDAやノートパソコン等の各種携帯端末を用いる場合にも本発明を適用することができる。
10 ドキュメント閲覧システム
11 ドキュメント配信サーバ
12 携帯電話機
13 ファイルサーバ
17 文書ファイル
18 文書画像
20 液晶ディスプレイ
22,57,63 CPU
23 メモリ
26 画像生成部
27 特徴量抽出部
28 テキスト文書判定部
29 ページ画像抽出部
30 サムネイル画像生成部
31 テキスト抽出部
32 検索結果保管DB
42 サムネイル画像
43 抽出テキスト

Claims (10)

  1. 携帯端末から、ドキュメントの検索要求を受け付ける受付手段と、
    前記受付手段が受け付けた前記検索要求に基づき、前記ドキュメントを複数格納するドキュメント格納部から、当該検索要求に対応する前記ドキュメントを取得するドキュメント取得手段と、
    前記ドキュメント取得手段が取得したドキュメントをページ毎に画像化して、複数のページ画像からなるドキュメント画像を生成するドキュメント画像生成手段と、
    前記ドキュメント画像の各ページ画像から、当該各ページ画像に含まれるオブジェクトの種類、数、及び大きさを示す特徴量を抽出する特徴量抽出手段と、
    前記特徴量の抽出結果に基づき、前記ドキュメント画像が、テキスト以外のオブジェクトを含まないテキストドキュメント画像であるか否かを判定する判定手段と、
    前記判定手段が前記ドキュメント画像を前記テキストドキュメント画像であると判定した場合、元のドキュメントの先頭ページから、所定の文字数のテキストを抽出するテキスト抽出手段と、
    前記判定手段が前記ドキュメント画像を前記テキストドキュメント画像でないと判定した場合、前記特徴量の抽出結果に基づき、当該ドキュメント画像の中から最も特徴的なページ画像を抽出するページ画像抽出手段と、
    前記ページ画像抽出手段が抽出した前記ページ画像からサムネイル画像を生成するサムネイル画像生成手段と、
    前記テキスト抽出手段が抽出した抽出テキスト、及び前記サムネイル画像生成手段が生成した前記サムネイル画像を、ドキュメントの検索結果として前記検索要求の要求元の前記携帯端末へ配信する配信手段と、
    を備えることを特徴とする検索サーバ。
  2. 前記抽出テキスト及び前記サムネイル画像を、それぞれ元の前記ドキュメントと関連付けて格納する格納手段と、
    前記受付手段が前記検索要求を受け付けたときに、前記検索要求に対応する前記ドキュメントが前記格納手段に格納されているか否かを確認する確認手段と、
    前記確認手段の確認結果に基づき、前記検索要求に対応する前記ドキュメントが前記格納手段に格納されている場合、当該ドキュメントに対応する前記抽出テキストまたは前記サムネイル画像を前記格納手段から読み出す読出手段とを備え、
    前記配信手段は、前記読出手段が読み出した前記抽出テキストまたは前記サムネイル画像を前記携帯端末へ配信することを特徴とする請求項1記載の検索サーバ。
  3. 前記ページ画像抽出手段は、前記ドキュメント画像から、前記最も特徴的なページ画像の他に、先頭ページ画像を抽出するとともに、
    前記サムネイル画像生成手段は、前記ページ画像抽出手段が抽出した前記最も特徴的なページ画像と前記先頭ページ画像とを結合した結合ページ画像のサムネイル画像を生成することを特徴とする請求項1または2記載の検索サーバ。
  4. 前記ページ画像抽出手段は、前記ドキュメント画像の各ページ画像の中で、テキスト以外のオブジェクトを最も多く含むページ画像を、前記最も特徴的なページ画像として抽出することを特徴とする請求項1ないし3いずれか1項記載の検索サーバ。
  5. 前記ページ画像抽出手段は、前記ドキュメント画像の各ページ画像の中で、予め決められた種類のオブジェクトを最も多く含むページ画像を、前記最も特徴的なページ画像として抽出することを特徴とする請求項1ないし3いずれか1項記載の検索サーバ。
  6. 前記ページ画像抽出手段は、前記ドキュメント画像の各ページ画像の中で、テキスト以外のオブジェクトであってかつ最もサイズの大きいオブジェクトを含むページ画像を、前記最も特徴的なページ画像として抽出することを特徴とする請求項1ないし3いずれか1項記載の検索サーバ。
  7. 前記テキスト以外のオブジェクトは、写真、図形、線画、表であることを特徴とする請求項1ないし6いずれか1項記載の検索サーバ。
  8. 請求項1ないし7いずれか1項記載の検索サーバと、
    ネットワークを介して前記検索サーバと接続され、前記検索サーバに対してドキュメントの検索要求を行うとともに、前記検索要求に応答して前記検索サーバから配信される前記検索結果を受信して表示部に表示する携帯端末と、
    を備えることを特徴とする検索システム。
  9. 前記携帯端末には、前記表示部に表示された前記検索結果の中から任意の前記抽出テキストまたは前記サムネイル画像を選択するための選択手段と、前記選択手段によって選択された前記抽出テキストまたは前記サムネイル画像に対応するドキュメントの配信要求を、前記検索サーバへ送信する配信要求送信手段とが設けられており、
    前記検索サーバの前記受付手段は、前記携帯端末からの前記配信要求を受け付けるとともに、前記配信手段は、前記受付手段が受け付けた前記配信要求に対応する前記ドキュメント画像を、当該配信要求の要求元の前記携帯端末へ配信することを特徴とする請求項8記載の検索システム。
  10. 携帯端末から、ドキュメントの検索要求を受け付ける受付ステップと、
    前記受付ステップで受け付けた前記検索要求に基づき、前記ドキュメントを複数格納するドキュメント格納部から、前記検索要求に対応する前記ドキュメントを取得するドキュメント取得ステップと、
    前記ドキュメント取得ステップで取得したドキュメントをページ毎に画像化して、複数のページ画像からなるドキュメント画像を生成するドキュメント画像生成ステップと、
    前記ドキュメント画像の各ページ画像から、当該各ページ画像に含まれるオブジェクトの種類、数、及び大きさを示す特徴量を抽出する特徴量抽出ステップと、
    前記特徴量の抽出結果に基づき、前記ドキュメント画像が、テキスト以外のオブジェクトを含まないテキストドキュメント画像であるか否かを判定する判定ステップと、
    前記判定ステップで前記ドキュメント画像を前記テキストドキュメント画像であると判定した場合、元のドキュメントの先頭ページから、所定の文字数のテキストを抽出するテキスト抽出ステップと、
    前記判定ステップで前記ドキュメント画像を前記テキストドキュメント画像でないと判定した場合、前記特徴量の抽出結果に基づき、当該ドキュメント画像の中から最も特徴的なページ画像を抽出するページ画像抽出ステップと、
    前記ページ画像抽出ステップで抽出した前記ページ画像からサムネイル画像を生成するサムネイル画像生成ステップと、
    前記テキスト抽出ステップで抽出した抽出テキスト、及び前記サムネイル画像生成ステップで生成した前記サムネイル画像を、ドキュメントの検索結果として前記検索要求の要求元の前記携帯端末へ配信する配信ステップと、
    を有することを特徴とする検索サーバの制御方法。
JP2009294579A 2009-12-25 2009-12-25 検索サーバ及びその制御方法、並びに検索システム Expired - Fee Related JP5345049B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009294579A JP5345049B2 (ja) 2009-12-25 2009-12-25 検索サーバ及びその制御方法、並びに検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009294579A JP5345049B2 (ja) 2009-12-25 2009-12-25 検索サーバ及びその制御方法、並びに検索システム

Publications (2)

Publication Number Publication Date
JP2011134208A true JP2011134208A (ja) 2011-07-07
JP5345049B2 JP5345049B2 (ja) 2013-11-20

Family

ID=44346843

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009294579A Expired - Fee Related JP5345049B2 (ja) 2009-12-25 2009-12-25 検索サーバ及びその制御方法、並びに検索システム

Country Status (1)

Country Link
JP (1) JP5345049B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023146247A (ja) 2022-03-29 2023-10-12 富士フイルムビジネスイノベーション株式会社 情報処理システム、情報処理装置、およびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309370A (ja) * 1993-04-05 1994-11-04 Internatl Business Mach Corp <Ibm> データ検索装置および方法
JP2002041576A (ja) * 2000-07-31 2002-02-08 Fuji Photo Film Co Ltd コンテンツ管理サーバおよびサーバ・システムならびにそれらの動作制御方法
JP2004110385A (ja) * 2002-09-18 2004-04-08 Ricoh Co Ltd 文書表示方法と文書表示装置とプログラム
JP2007094691A (ja) * 2005-09-28 2007-04-12 Canon Inc 情報検索装置及びその制御方法、コンピュータプログラム、並びに、記憶媒体
JP2009245061A (ja) * 2008-03-31 2009-10-22 Mars Flag Corp 検索サーバ及びコンピュータプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309370A (ja) * 1993-04-05 1994-11-04 Internatl Business Mach Corp <Ibm> データ検索装置および方法
JP2002041576A (ja) * 2000-07-31 2002-02-08 Fuji Photo Film Co Ltd コンテンツ管理サーバおよびサーバ・システムならびにそれらの動作制御方法
JP2004110385A (ja) * 2002-09-18 2004-04-08 Ricoh Co Ltd 文書表示方法と文書表示装置とプログラム
JP2007094691A (ja) * 2005-09-28 2007-04-12 Canon Inc 情報検索装置及びその制御方法、コンピュータプログラム、並びに、記憶媒体
JP2009245061A (ja) * 2008-03-31 2009-10-22 Mars Flag Corp 検索サーバ及びコンピュータプログラム

Also Published As

Publication number Publication date
JP5345049B2 (ja) 2013-11-20

Similar Documents

Publication Publication Date Title
US8497883B2 (en) Information display device
US8892990B2 (en) Automatic creation of a table and query tools
CN101751667B (zh) 图像处理装置及图像处理方法
JP2007256529A (ja) 文書画像表示装置、情報処理装置、文書画像表示方法、情報処理方法、文書画像表示プログラム、記録媒体及びデータ構造
JP2007049388A (ja) 画像処理装置及びその制御方法、プログラム
US9749322B2 (en) Information sharing system and information sharing method
KR20060083102A (ko) 위치정보를 가지는 이미지파일 관리시스템 및 그 방법,휴대용 단말기
US20130208007A1 (en) Position-related information registration apparatus, position-related information registration system, position-related information registration and display system, and recording medium
JP2011138315A (ja) 画像出力装置、システム、方法およびプログラム
JP5598196B2 (ja) 情報表示装置、情報表示システム、情報表示方法およびプログラム
US9485387B2 (en) Icon arrangement drawing creation system
EP2317424A1 (en) Information display device
CN111767488A (zh) 文章显示方法、电子设备及存储介质
JP5355345B2 (ja) ドキュメント閲覧システム及びその制御方法
US8839151B2 (en) Device and program for transmitting/playing image folder based on an album setting folder file
JP5345049B2 (ja) 検索サーバ及びその制御方法、並びに検索システム
JP2002236682A (ja) データベース・システム
JP2014211747A (ja) 画像処理装置、端末装置、情報処理方法及びプログラム
JP6330488B2 (ja) 情報処理装置、記録システム、及びプログラム
JP5205821B2 (ja) 文書処理方法、文書処理プログラム、および文書処理装置
JP2006215619A (ja) 文書作成支援システムおよび文書作成支援プログラム、並びに文書作成支援方法
JP5223328B2 (ja) 情報管理装置及び情報管理方法ならびにそのプログラム
JP5779412B2 (ja) クライアント・サーバシステム、クライアント機器、サーバ機器、クライアント・サーバシステムにおけるコメント画面作成方法、およびクライアント機器のプログラム、サーバ機器のプログラム
JP2005222237A (ja) 文書検索表示システム
JP2019074875A (ja) 情報処理装置、制御方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120628

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130717

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130813

R150 Certificate of patent or registration of utility model

Ref document number: 5345049

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees