JP3694149B2 - 画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP3694149B2
JP3694149B2 JP18161097A JP18161097A JP3694149B2 JP 3694149 B2 JP3694149 B2 JP 3694149B2 JP 18161097 A JP18161097 A JP 18161097A JP 18161097 A JP18161097 A JP 18161097A JP 3694149 B2 JP3694149 B2 JP 3694149B2
Authority
JP
Japan
Prior art keywords
image
key
extracted
text
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP18161097A
Other languages
English (en)
Other versions
JPH1125113A (ja
Inventor
雅二郎 岩崎
英傑 黄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP18161097A priority Critical patent/JP3694149B2/ja
Priority to US09/111,458 priority patent/US6169998B1/en
Publication of JPH1125113A publication Critical patent/JPH1125113A/ja
Application granted granted Critical
Publication of JP3694149B2 publication Critical patent/JP3694149B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、図、表、写真等の画像および文字列が混在した文書中の画像を検索するものであって、文書中の画像およびその画像について記述した文字列を抽出し、かつ、それらを関連づけして格納し、任意の検索語に基づいて、格納した文字列を検索して、該当する文字列に関連づけられた画像を出力する画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】
コンピュータの急速な普及に伴って、従来は紙をファイリングすることによって保存していた文書を、電子化された情報として保存することが一般的となってきている。その結果、電子化された情報として保存した文書を有効に活用するために、保存した大量の情報の中から必要な情報を検索する技術が重要となってきている。
【0003】
ところで、電子化された情報の中には、文字情報だけではなく、図、表、写真等の画像情報も含まれる。文字情報を検索する際には、検索語を入力し、入力した検索語と文字情報とのマッチング処理等を行うことにより、検索語に該当する文字情報を見つけ出すことができる。ところが、画像情報自身は、検索語とマッチング処理するための情報を有していないため、以下の第1から第3の例として説明するような方法で検索対象となる情報を生成して各画像に付与し、付与した情報を用いて、所望の画像を検索できるようにしている。
【0004】
第1の例は、図、表、写真等の画像および文字列が混在した文書中の画像を検索する方法に関するものであって、文書から抽出した画像中に存在する文字列をさらに抽出し、抽出した文字列を文字認識して画像検索用のキーワードとしたものである(特開平3−62169号公報『文書検索方法及び文書検索装置』)。すなわち、この方法は、画像自身に含まれた文字列を抽出してその画像のキーワードとし、このキーワードを検索することにより、該当する画像を出力することができるようにしたものである。
【0005】
また、第2の例は、画像を保存する際に、人手により各画像にキーワードを付与し、付与したキーワードを検索することにより、該当する画像を出力することができるようにしたものである(電子情報通信学会論文誌、D−II、Vol.J73−D−II、No.4、pp.526−534、1990年4月)。
【0006】
さらに、第3の例は、画像そのものを解析し、画像の色や構造等の特徴を抽出してデータベース化し、画像を検索する際に、データベース化した画像の特徴を指定することにより、該当する画像を出力することができるようにしたものである(Query by Image and Video Content:The QBIC System、Computer、September 1995)。
【0007】
【発明が解決しようとする課題】
しかしながら、上記第1の例によれば、画像中の文字列をキーワードとして用いるため、文字列を含まない画像からはキーワードを得ることができないという問題点があった。加えて、キーワードを得ることができたとしても、得たキーワードは画像中の文字列であるため、画像検索の対象として十分な情報ではない場合があるという問題点があった。
【0008】
また、上記第2の例によれば、人手により画像にキーワードを付与する処理が必要となるため、大量の画像を検索することができるようにするためには莫大な労力が必要であるという問題点があった。
【0009】
また、上記第3の例によれば、保存する画像の色や構造等の特徴を抽出し、抽出した画像の特徴を画像検索用の情報とするため、色等を指定した極めて低い次元の検索しか行うことができず、「画像検索の構成を示した図」等の検索語を用いた高次元の検索を行うことができないという問題点があった。
【0010】
また、上記第1〜第3の例によれば、画像中の文字列を用いたキーワード、人手により付与したキーワードおよび画像の特徴のみを用いて単に画像を検索するものであるため、検索に関する知識の少ないユーザが、ノイズのない検索処理や、漏れのない検索処理を選択的に行うことは非常に困難であるという問題点があった。
【0011】
さらに、上記第1〜第3の例によれば、画像中の文字列を用いたキーワード、人手により付与したキーワードおよび画像の特徴のみを用いて画像を検索し、検索結果を表示するのみであるため、大量の画像が検索結果としてヒットした場合等においては、ユーザが所望の画像を容易に選択することが困難であるという問題点があった。
【0012】
本発明は上記に鑑みてなされたものであって、図、表、写真等の画像および文字列が混在した文書中の画像を検索対象として格納し、文書中の文字列を検索用のテキストとして用いて、格納した画像を容易に検索できるようにすることを目的とする。
【0013】
また、本発明は上記に鑑みてなされたものであって、図、表、写真等の画像および文字列が混在した文書中の画像を検索するための画像検索用のテキストとして、文書中から画像について記述した文字列を自動的に抽出することができるようにすることを目的とする。
【0014】
また、本発明は上記に鑑みてなされたものであって、入力した検索語に対する漏れのない検索や、ノイズの少ない検索をユーザの要求に応じて容易に行うことができるようにすることを目的とする。
【0015】
さらに、本発明は上記に鑑みてなされたものであって、検索結果を表示する際に、所望の画像を容易に選択することができるようにすることを目的とする。
【0016】
【課題を解決するための手段】
上記目的を達成するため、請求項1の画像検索装置は、画像の検索に用いる文字列をキーテキストと定義し、前記キーテキストを検索対象となる画像毎に用意すると共に、用意したキーテキストおよび対応する前記画像をそれぞれ関連づけて格納しておき、任意の検索語と前記キーテキストとを比較して検索し、検索されたキーテキストに関連づけられた画像を出力する画像検索装置であって、図、表、写真等の画像および文字列が混在した文書を入力する文書入力手段と、前記文書入力手段を介して入力した文書から前記画像を含む画像領域および文字列を含む文字領域を認識して抽出する領域抽出手段と、前記領域抽出手段で抽出した文字領域の文字列から前記画像領域の画像に関連づけする前記キーテキストを抽出するに際して、前記画像に関連づけする前記キーテキストとして、前記画像のキャプションを構成する文字列であるキーキャプション、前記画像について記述したセンテンスを構成する文字列であるキーセンテンス、前記画像について記述したパラグラフを構成する文字列であるキーパラグラフ、および、前記画像について記述したページを構成する文字列であるキーページのうちの少なくともいずれかを抽出するキーテキスト抽出手段と、前記領域抽出手段で抽出した画像領域の画像および前記キーテキスト抽出手段で抽出したキーテキストを関連づけて格納する格納手段と、前記検索語入力を受け付ける入力手段と、前記入力手段を介して入力された検索語に基づいて、該当するキーテキストおよび画像を検索する検索手段と、前記検索手段から検索結果を入力し、入力した検索結果を画面表示する表示手段と、を備え、前記キーテキスト抽出手段は、前記キーキャプションを構成する文字列から前記画像に付与された番号を特定する画像番号語をキーテキストとして抽出し、前記格納手段は、前記キーテキスト抽出手段によって抽出された画像番号語と前記領域抽出手段によって抽出された画像領域とを関連づけて格納するものであり、前記キーテキスト抽出手段は、前記文字領域の文字列から画像が存在する方向または位置を指し示す画像指示語を検索して前記画像指示語を含む文字列をキーテキストとして抽 出し、前記格納手段は、前記キーテキスト抽出手段によって抽出された前記画像指示語を含む文字列と、前記画像指示語を含む文字列中に前記画像指示語で示された方向または位置にあって前記画像指示語を含む文字列に最も近い画像領域の画像とを、関連づけて格納するものであり、前記キーテキスト抽出手段は、前記領域抽出手段が抽出した画像領域と文字領域との距離を算出して最も距離が小なる文字領域をキーテキストとして抽出し、前記格納手段は、前記キーテキスト抽出手段によって抽出された前記最も拒理が小なる文字領域と、前記画像領域の画像とを関連づけて格納するものであり、前記キーテキスト抽出手段は、前記キーキャプションを抽出できなかった場合、および前記キーキャプションを構成する文字列から前記画像に付与された番号を特定する画像番号語を抽出できなかった場合の少なくともいずれかの場合は、前記画像指示語を検索するものであり、前記キーテキスト抽出手段は、さらに前記画像指示語を検索できなかった場合は、前記最も距離が小なる文字領域から前記文字領域をキーテキストとして抽出するものであることを特徴とする。
【0017】
また、請求項2の画像検索用キーテキストの生成方法は、図、表、写真等の画像および文字列が混在した文書情報中の前記画像に関連付けられる前記画像の検索に用いる文字列をキーテキスト抽出手段によりキーテキストとして選択し、選択された前記キーテキストおよび検索対象となる前記画像を登録手段によってそれぞれ関連づけてメモリに格納しておき、入力手段から任意の検索語の入力を受け付けた場合、受け付けられた前記検索語と前記メモリに格納された前記キーテキストとを検索実行手段によって比較し、比較により照合した前記キーテキストに、前記登録手段により関連づけられた前記画像を検索し、前記検索実行手段により照合された前記キーテキストおよび検索された前記画像を出力手段により表示手段に出力する画像検索装置における画像検索用キーテキストの生成方法であって、文書入力手段によって前記文書情報の入力を受け付ける文書入力工程と、画像情報および文字列情報の特徴に基づいて画像を含む画像領域および文字列を含む文字領域を抽出する領域抽出手段によって、前記文書入力工程で入力された前記文書情報から、前記画像領域および文字領域を抽出する領域抽出工程と、前記領域抽出工程で抽出した文字領域の文字列から、前記画像領域の画像に関連づけられる前記キーテキストを、前記キーテキスト抽出手段によって抽出するに際して、前記キーテキスト抽出手段によって前記画像のキャプションを構成する文字列であるキーキャプションが抽出でき且つ前記キーキャプション中に含まれる画像の番号を表す画像番号語が抽出できた場合は、前記画像番号語を含むセンテンス単位の文字列であるキーセンテンス、前記前記キーセンテンスを含みパラグラフ単位の文字列であるキーパラグラフ、および、前記キーパラグラフを含むページ単位の文字列であるキーページのうち少なくともいずれかを、前記キーテキスト抽出手段によって前記キーテキストとして抽出し、前記領域抽出工程で抽出した文字領域の文字列から、前記キーテキストを前記キーテキスト抽出手段によって抽出するに際して、前記キーキャプションおよび前記キーキャプション中に含まれる画像番号語のいずれをも前記キーテキスト抽出手段によって抽出できない場合、前記文字領域の文字列から画像が存在する方向または位置を指し示す画像指示語を抽出して前記画像指示語が抽出できた場合は、前記画像指示語に基づいて指定されるセンテンス単位の文字列であるキーセンテンス、前記画像指示語により指定されたキーセンテンスを含むパラグラフ単位の文字列であるキーパラグラフ、および前記キーパラグラフを含むページ単位の文字列であるキーページのうちの少なくともいずれかを、前記キーテキスト抽出手段によって前記キーテキストとして抽出し、前記領域抽出工程で抽出した文字領域の文字列から、前記キーテキストを前記キーテキスト抽出手段によって抽出するに際して、前記画像指示語が前記キーテキスト抽出手段によって抽出できなかった場合は、前記画像領域と文字領域との距離を算出し、最も距離が小なるパラグラフ単位のキーパラグラフ、および前記最も距離が小なるキーパラグラフを含むページ単位のキーページのうち少なくともいずれかを、前記キーテキスト抽出手段によって前記キーテキストとして抽出するキーテキスト抽出工程と、を含むことを特徴とする。
【0018】
また、請求項3のコンピュータ読み取り可能な記録媒体は、前記請求項1に記載の画像検索装置の各手段としてコンピュータを機能させるためのプログラムを記録したことを特 徴とする。
【0019】
また、請求項4のコンピュータ読み取り可能な記録媒体は、図、表、写真等の画像および文字列が混在した文書情報中の前記画像に関連付けられる前記画像の検索に用いる文字列をキーテキスト抽出手段によりキーテキストとして選択し、選択された前記キーテキストおよび検索対象となる前記画像を登録手段によってそれぞれ関連づけてメモリに格納しておき、入力手段から任意の検索語の入力を受け付けた場合、受け付けられた前記検索語と前記メモリに格納された前記キーテキストとを検索実行手段によって比較し、比較により照合した前記キーテキストに、前記登録手段により関連づけられた前記画像を検索し、前記検索実行手段により照合された前記キーテキストおよび検索された前記画像を出力手段により表示手段に出力する画像検索装置における画像検索用キーテキストの生成方法の各工程を、コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、文書入力手段によって前記文書情報の入力を受け付ける文書入力工程と、画像情報および文字列情報の特徴に基づいて画像を含む画像領域および文字列を含む文字領域を抽出する領域抽出手段によって、前記文書入力工程で入力された前記文書情報から、前記画像領域および文字領域を抽出する領域抽出工程と、前記領域抽出工程で抽出した文字領域の文字列から、前記画像領域の画像に関連づけられる前記キーテキストを、前記キーテキスト抽出手段によって抽出するに際して、前記キーテキスト抽出手段によって前記画像のキャプションを構成する文字列であるキーキャプションが抽出でき且つ前記キーキャプション中に含まれる画像の番号を表す画像番号語が抽出できた場合は、前記画像番号語を含むセンテンス単位の文字列であるキーセンテンス、前記前記キーセンテンスを含みパラグラフ単位の文字列であるキーパラグラフ、および、前記キーパラグラフを含むページ単位の文字列であるキーページのうち少なくともいずれかを、前記キーテキスト抽出手段によって前記キーテキストとして抽出し、前記領域抽出工程で抽出した文字領域の文字列から、前記キーテキストを前記キーテキスト抽出手段によって抽出するに際して、前記キーキャプションおよび前記キーキャプション中に含まれる画像番号語のいずれをも前記キーテキスト抽出手段によって抽出できない場合、前記文字領域の文字列から画像が存在する方向または位置を指し示す画像指示語を抽出して前記画像指示語が抽出できた場合は、前記画像指示語に基づいて指定されるセンテンス単位の文字列であるキーセンテンス、前記画像指示語により指定されたキーセンテンスを含むパラグラフ単位の文字列であるキーパラグラフ、および前記キーパラグラフを含むページ単位の文字列であるキーページのうちの少なくともいずれかを、前記キーテキスト抽出手段によって前記キーテキストとして抽出し、前記領域抽出工程で抽出した文字領域の文字列から、前記キーテキストを前記キーテキスト抽出手段によって抽出するに際して、前記画像指示語が前記キーテキスト抽出手段によって抽出できなかった場合は、前記画像領域と文字領域との距離を算出し、最も距離が小なるパラグラフ単位のキーパラグラフ、および前記最も距離が小なるキーパラグラフを含むページ単位のキーページのうち少なくともいずれかを、前記キーテキスト抽出手段によって前記キーテキストとして抽出するキーテキスト抽出工程と、をコンピュータに実行させるためのプログラムを記録したことを特徴とする。
【0020】
【発明の実施の形態】
以下、本発明の画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体の実施の形態について、添付の図面を参照しつつ詳細に説明する。
【0021】
〔実施の形態1〕
実施の形態1の画像検索装置は、図や表、写真等の画像および文字列が混在した文書から画像を抽出して格納すると共に、文書中の文字列を検索用のテキストとして画像に関連づけし、画像に関連づけした文字列を検索することにより、該当する画像を得ることができるようにするものである。なお、上記画像に関連づけする文書中の文字列のことを、キーテキストと定義することにする。
【0022】
図1は、実施の形態1の画像検索装置(画像検索システム)のブロック構成図である。図1に示す画像検索装置は、図や表、写真等の画像および文字列が混在した紙文書を光学的に読み取って、電子化された文書を得るためのスキャナ101を備え、入力した文書中の画像を画像DB(データベース)102に登録し、かつ、画像について記述した文字列、即ちキーテキストを文書から抽出し、抽出したキーテキストを画像DB102に登録された画像に関連づけしてテキストDB103に登録する登録サーバ100と、複数の検索クライアント105、106、107からの検索要求に応じて、テキストDB103に登録されたキーテキストを検索することにより、該当する画像を画像DB102から出力する検索サーバ104と、上記各部を接続するネットワーク108と、から構成される。
【0023】
図2は、図1に示す画像検索装置の概念構成図である。実施の形態1の画像検索装置は、大きく登録処理部200および検索処理部210から構成される。登録処理部200は、図1に示した登録サーバ100に該当し、検索処理部210は、図1に示した画像DB102およびテキストDB103、並びに検索要求・結果出力部213および検索実行部214から構成される。なお、検索処理部210の検索要求・結果出力部213および検索実行部214は、それぞれ検索クライアント105、106、107および検索サーバ104に該当する。
【0024】
図2において、登録処理部200は、スキャナ101を用いて、図や表、写真等の画像および文字列が混在した紙文書をフルカラーで読み取ることによって電子化された文書を入力し、入力した文書の全てのページについて2値化処理を行う2値化処理部201と、2値化処理部201で2値化処理された文書の各ページから画像を含む画像領域および文字列を含む文字領域(後述するキャプション領域および本文領域)を識別して分割する領域識別・分割処理部202と、領域識別・分割処理部202で分割された画像領域中の画像を画像DB102に登録する画像DB登録部203と、領域識別・分割処理部202で分割された文字領域中の文字列について文字認識を行うOCR部204と、OCR部204で文字認識された文字列からキーテキストを抽出するキーテキスト抽出部205と、キーテキスト抽出部205で抽出したキーテキストを画像DB102に登録された画像に関連づけてテキストDB103に登録するテキストDB登録部206と、を有している。
【0025】
なお、実施の形態1の画像検索装置の説明においては、スキャナ101で読み取った文書を中心にして説明を行うが、図2に示した登録処理部200は、スキャナ101で読み取った文書以外に、ワードプロセッサ等のアプリケーションプログラムで作成した文書や、SGML、HTML等の構造化文書等、いかなる形式の文書についても扱うことができるものである。ただし、ワードプロセッサ等のアプリケーションプログラムで作成した文書等の場合は、スキャナ101による読み取りを行う必要がないため、OCR204による文字認識処理は不要となる。
【0026】
また、図2において、領域識別・分割処理部202は、文書中の画像領域と文字領域とを識別して分割すると共に、識別した文字領域をさらに画像、例えば図や表に付与されたキャプションを含むキャプション領域とキャプション以外の文字列を含む本文領域とを識別して分割するものである。キャプションとは、図や表、写真等の説明であって、具体的には「図1 画像検索装置のブロック構成図」のような図や表に対して付与された文字列である。なお、以下の説明において単に「画像」という場合には、「図、表、写真等」を意味するものとし、また、領域識別・分割処理部202による領域識別・分割処理については、後に図を参照しつつ詳細に説明する。
【0027】
また、キーテキスト抽出部205は、OCR部204で文字認識された文字列からキーテキストを自動的に抽出するものである。キーテキストとしては、文書中の画像の内容を記述した文字列が用いられる。
【0028】
図3は、キーテキストを説明するための説明図である。ここではキーテキストとして、4種類の文字列を用意することにする。キーテキストの1つ目は、文書300(1ページ分)中の画像301に付与されたキャプション、例えば、図3中に示された「図1:システム構成」であり、このキャプションをキーキャプション302と新たに定義することにする。キーキャプション302は、画像301に直接対応づけて文書300中に記載されたものであるため、キーテキストの関連づけの対象となる画像301を特定することができる。なお、キーキャプション302は、領域識別・分割処理部202で分割されたキャプション領域から得ることができる。このキャプション領域については、後に詳細に説明する。
【0029】
キーテキストの2つ目は、画像301について記述したセンテンス(文)であり、このセンテンスをキーテキスト303と新たに定義することにする。キーキャプション302には、図3に示すように、画像を指し示す画像番号語、例えば、図1や表1、写真1等が含まれている。この画像番号語を含むキーキャプション302以外の本文中の文字列は、画像番号語で特定される画像について記述したものであると考えることができる。したがって、この画像番号語を本文領域の文字列から見つけ出し、画像番号語を含む文字列をキーセンテンス303として抽出する。
【0030】
キーテキストの3つ目は、画像301について記述したパラグラフ(段落)であり、このパラグラフをキーパラグラフ304と新たに定義することにする。キーパラグラフ304は、キーセンテンス303を含んだパラグラフ単位の文字列であって、キーセンテンス303を取得することによって抽出することができる。
【0031】
キーテキストの4つ目は、画像301について記述したページ全体の文字列であり、このページ全体の文字列をキーページ305と新たに定義することにする。キーページ305は、キーパラグラフ304(キーセンテンス303)を含んだページ単位の文字列であって、キーパラグラフ304(キーセンテンス303)を取得することにより抽出することができる。
【0032】
このように、画像検索のためのキーテキストを4つ用意したのは、それぞれに大きな特徴があるからである。すなわち、キーキャプション302は、画像301を極めて端的に説明した文字列であるため、キーキャプション302を用いて画像を検索した場合には、検索語に直接対応する画像がヒットし易く、その反面、関連する画像がヒットすることはほとんどあり得ないという特徴がある(ノイズが少ない)。一方、キーページ305は、複数のトピックを含んでいる可能性があるため、キーページ305を用いて画像を検索した場合には、検索語に直接対応する画像のみならず、関連する図も同時に検索することが可能となるが、その反面、ノイズが多くなるという特徴がある。さらに、キーセンテンス303およびキーパラグラフ304は、上記キーキャプション302およびキーページ305の中間的な特徴を有するものである。したがって、漏れのない画像検索をしたい場合や、漏れがあっても良いが検索語に最も関連のある画像を検索したい場合等の要求に応じて上記キーテキストを使い分けることにより、所望の検索結果を得ることができる。
【0033】
また、図3に示すように、テキストDB登録部206は、キーテキスト抽出部205で抽出したキーテキストを該当する画像301、即ち、画像DB登録部203で画像DB102に登録する画像301に関連づけ、テキストDB103に登録する。
【0034】
次に、図2に戻って、検索処理部210について説明する。検索要求・結果出力部213は、検索語等を入力するキーボード等からなる入力装置211と、検索実行部214から検索結果を入力して出力するCRT等の出力装置212とを備えている。また、検索実行部214は、検索要求・結果出力部213から検索語を入力し、入力した検索語に基づいて、テキストDB103から該当するキーテキストを検索し、検索したキーテキストに関連づけられた画像を画像DB102から取得して検索要求・結果出力部213に出力する。なお、画像検索処理については、後に詳細に説明する。
【0035】
続いて、上述した構成を備えた画像検索装置の動作について、(1)キーテキスト・画像登録処理(画像検索用キーテキストの生成方法)、(2)画像検索処理の順で詳細に説明する。
【0036】
(1)キーテキスト・画像登録処理(画像検索用キーテキストの生成方法)
図4は、キーテキスト・画像登録処理を示すフローチャートである。スキャナ101は、用意されたフルカラーの紙文書を読み取り、電子化された文書300を得る(S401)。なお、電子化された文書300を得た後に、孤立点ノイズの除去処理や、傾き補正処理等を行うことができる。
【0037】
2値化処理部201は、スキャナ101で読み取ったフルカラーの文書300を入力し、入力したフルカラーの文書300の2値化処理を行う(S402)。2値化処理を行うに当たっては、スキャナ101で得たRGBのフルカラーデータを一旦HSI(色相、彩度、明度)データに変換した後、明度に基づいて特定の閾値で分離して2値化する。2値化処理部201において、フルカラーの文書300が2値化されるため、後の領域識別処理や文字認識処理の高速化を図ることができる。
【0038】
領域識別・分割処理部202は、2値化処理部201で2値化した文書300を入力し、文書300の各ページ毎に、画像領域、キャプション領域および本文領域を認識し、分割する処理を行う(S403)。また、領域識別・分割処理部202は、分割した画像領域、キャプション領域および本文領域の位置情報を取得する。
【0039】
具体的に、領域識別・分割処理部202は、連結する黒点を包含し、矩形のサイズが大きいものを画像領域として認識し、画像領域に近接する1〜3行程度のテキストを包含する小領域をキャプション領域として認識し、その他の領域を本文領域として認識する。なお、キャプション領域502を特定するに当たっては、互いに対向する画像領域501の辺とキャプション領域502の辺との間の画素を単位とした距離を基準とする。
【0040】
図5は、領域識別・分割処理を行った結果を示す説明図である。図5において、501は画像301を含む画像領域を、502はキャプション領域を、503は本文領域をそれぞれ示している。キャプション領域502は、上述したキャプション、例えば、図5に示す「図1:システム構成」等の文字列を含む領域である。
【0041】
図4に戻り、画像DB登録部203は、領域抽出・分割処理部202から領域識別・分割処理の結果を入力し、スキャナ101で読み取ったフルカラーの文書から、画像領域501に該当する領域の画像301を抽出し、抽出した画像301にIDを付与して画像DB102に登録する(S404)。このIDは、画像301を他の画像と識別するために用いるものであると共に、画像検索により画像301がヒットした場合に、その検索結果として表示するためのものである。
【0042】
なお、画像DB102に画像を登録する際には、領域抽出・分割処理部202で取得した画像領域501の位置情報も合わせて登録する。これは、画像DB102に登録される画像が、画像301を単位とするのではなく、実際には文書を構成する各ページを読み取ることによって得たページ画像を単位とするものであるからである。すなわち、画像DB102には、ページ画像として、ページ画像IDおよびページ画像データが登録されると共に、画像301として、画像ID、画像301が存在するページのページ画像IDおよび画像領域の位置情報が登録される。
【0043】
また、画像301を画像DB102に登録する際には、登録する画像301の縮小画像を生成し、生成した縮小画像を元の画像301に関連づけして登録することができる。この縮小画像は、検索結果を表示する際に、画像301に代えて表示するためのものである。さらに、画像DB102には、画像領域501を含む文書のページおよび/または文書全体を画像301に関連づけて登録することができる。その結果、画像301を画面表示する際に、文書全体および/または画像301を含んだページを画面表示することができる。
【0044】
OCR部204は、領域識別・分割処理部202から領域識別・分割処理の結果を入力し、分割されたキャプション領域502および本文領域503について、行切り出しや文字切り出し処理を行って、文字認識処理を行う(S405)。OCR部204は、キャプション領域502および本文領域503の位置情報と共に、文字認識処理の結果をキーテキスト抽出部205に出力する。
【0045】
キーテキスト抽出部205は、OCR部204から文字認識結果並びにキャプション領域502および本文領域503の位置情報を、領域識別・分割処理部202から画像領域501の位置情報をそれぞれ入力し、文字認識された文字列から上述したキーテキストを抽出する処理を行う(S406)。
【0046】
ここで、ステップS406におけるキーテキストの抽出処理を具体的に説明する。図6は、キーテキスト抽出処理を示すフローチャートである。キーテキスト抽出部205は、領域識別・分割処理部202で識別されたキャプション領域502の文字列をキーキャプション302として設定する(S601)。なお、領域識別・分割処理部202でキャプション領域502を認識する処理を行わなかった場合には、画像領域501に近接する1〜3行程度のテキストを包含する小領域をキャプション領域502として特定することができる。キャプション領域502を特定するに当たっては、互いに対向する画像領域501の辺とキャプション領域502の辺との間の画素を単位とした距離を基準とする。
【0047】
続いてキーテキスト抽出部205は、設定したキーキャプション302から画像番号語、例えば、図1、表1、写真1等を抽出する(S602)。キーテキスト抽出部205には、予め図1、図−1、図(1)、図1.2、図1.12、図1.a等の図や、表、写真、Figure、Fig.等の画像番号語が登録されており、これら登録された画像番号語とキーキャプション302を構成する文字列との照合を行うことによって、キーキャプション302から画像番号語を抽出する。ここではキーキャプション302の「図1:システムの構成」から「図1」が抽出される(図3および図5参照)。キーキャプション302から画像番号語「図1」を抽出することにより、画像領域501の画像301を直接指し示す語を得ることができる。
【0048】
その後、キーテキスト抽出部205は、ステップS602で抽出した画像番号語「図1」を含む文字列を文書300全ての本文領域503から見つけ出す(S603)。
【0049】
そして、画像番号語「図1」を本文領域503から見つけた場合には、画像番号語「図1」を含む文字列をセンテンス(文)単位で抽出し、キーセンテンス303とする(S604)。
【0050】
続いて、キーセンテンス303を含む文字列をパラグラフ単位で抽出し、キーパラグラフ304とする(S605)。
【0051】
さらに、キーパラグラフ304(キーセンテンス303)を含む文字列をページ単位で抽出し、キーページ305とする(S606)。
【0052】
再び図4に戻り、キーテキスト登録部206は、キーテキスト抽出部205で抽出したキーキャプション302、キーセンテンス303、キーパラグラフ304およびキーページ305からなるキーテキストを入力すると共に、画像DB登録部203から該当する画像に付与した画像IDを入力し、入力したキーテキストを画像IDと共にテキストDB103に登録する(S407)。キーテキストを画像IDと共にテキストDB103に登録することにより、キーテキストと画像301との関連づけを行うことができる。
【0053】
なお、上述したキーテキスト抽出処理は、文書300中に存在する各画像それぞれについて行われる。
【0054】
(2)画像検索処理
続いて、テキストDB103に登録されたキーテキストを用いて、画像DB102に登録された画像を検索する処理について説明する。
【0055】
図7は、画像検索処理の概略を示すフローチャートである。検索要求・結果出力部213は、入力装置211からキーテキスト、即ちキーキャプション302、キーセンテンス303、キーパラグラフ304およびキーページ305のいずれを対象として画像を検索するかの指定を入力する(S701)。なお、キーテキストを指定する際には、キーキャプション302等を1つ指定するのみならず、キーテキストのいずれかを組み合わせて複数指定したり、キーテキストの全てを指定することができる。
【0056】
ここで、キーテキストを指定することができるようにすることにより、漏れがあっても良いが、検索語に直接関連した画像を検索したい場合(ノイズの少ない検索)にはキーキャプションを指定し、漏れのない広範囲の検索を行いたい場合にはキーページを指定する等、ユーザの検索要求に応じた検索方法の指定を行うことができる。したがって、検索の目的に応じて、どのような検索語を入力したら良いかを考える必要をなくすことができる。
【0057】
そして、検索要求・結果出力部213は、入力装置211から検索語を入力し、入力した検索語とステップS701で入力したキーテキストの指定(検索対象の指定)とを検索実行部214に出力する(S702)。なお、キーテキストの指定と検索語の入力については、いずれを先に行っても良い。
【0058】
検索実行部214は、検索要求・結果出力部213から検索語およびキーテキストの指定を入力し、入力した検索語に基づいて、テキストDB103中の該当するキーテキストをそれぞれ検索する(パターンマッチ検索:S703)。
【0059】
その後、検索実行部214は、ステップS703で検索した結果を検索要求・結果出力部213に出力し、検索要求・結果出力部213は入力した検索結果を出力装置212に出力する(S704)。
【0060】
図8は、画像検索結果の表示例を示す説明図である。この図8は、検索語を「検索」とし、検索対象のキーテキストとしてキーキャプション302を指定した場合の検索結果を示したものである。図8においては、検索結果として画像IDと、画像に関連づけされたキーテキストの全てが一覧表示されている。もちろん、検索結果として画像IDのみを表示しても良いし、キーテキストの全てではなく、該当するキーキャプション302のみを表示しても良い。ユーザは、一覧表示されたキーテキストの内容を確認することにより、所望の画像を選択することができる。
【0061】
また、図8において、画像表示ボタン800を選択すると、図9に示すように、一覧表示された画像IDに該当する画像の縮小画像が一覧表示される。この縮小画像は、画像DB登録部203によって生成・登録されたものである(図4のステップS404参照)。キーテキストのみでは所望の画像であるかを判断することができない場合に、縮小画像を一覧表示することができるようにすることによって、所望の画像を容易に選択することができる。また、縮小画像であるため、データ量が少なく、高速に表示することが可能となる。なお、図8に示した検索結果に、図9に示した縮小画像を合わせて表示することにしても良い。
【0062】
そして、図8に示す画像ID、キーテキストまたは図9に示す縮小画像を選択することにより、該当する画像301や、必要に応じて、この画像301を含む文書全体、画像301が存在するページが表示される。なお、画像301を画像DB102に登録する際に、同一文書中の他の画像と関連づけしておくことにより、1つの画像から同一文書中の他の画像を辿って表示することができる。また、文書中のページについても、同一文書中の他のページと関連づけしておくことにより、表示したページに基づいて他のページを表示することができる。
【0063】
また、上記では、キーテキストの一部または全てを検索対象として指定して検索し、その検索の結果を表示することにしたが、次のような検索対象の指定および検索結果の表示を行うこともできる。すなわち、
a キーキャプション302を検索対象として検索し、検索結果を表示し、
b キーキャプションおよびキーセンテンスを検索対象として検索し、それぞれの検索結果のOR(論理和)を検索結果として表示し、
c キーキャプション、キーセンテンスおよびキーパラグラフを検索対象として検索し、それぞれの検索結果のORを検索結果として表示し、
d キーキャプション、キーセンテンス、キーパラグラフおよびキーページを検索対象として検索し、それぞれの検索結果のORを検索結果として表示する、というように、検索対象に包含関係を作り、4つの検索結果のリストを表示するというものである。
【0064】
このようにすることにより、ユーザの検索要求に応じた検索結果であって、かつ、ユーザが画像を選択しやすい検索結果を得ることができる。すなわち、aの場合は、画像を極めて端的に説明した文字列であるキーキャプション302が検索対象となっているため、検索語に最も関連のある画像を得ることができる。一方、b〜d、特にdの場合は、aの場合で得た画像に関連する画像も同時に得ることができる。なお、a〜dに示す全ての方法で同時に検索・結果表示を行わなければならないのではなく、いずれか一つまたは複数を選択することができるようにしても良い。
【0065】
さらに、次のような検索対象の指定および検索結果の表示を行うこともできる。すなわち、
a 最初にキーキャプションを検索対象として検索し、検索結果を一覧表示し、
b 次にキーセンテンスを検索対象として検索し、既に一覧表示された結果を除いた検索結果を一覧表示し、
c 次にキーパラグラフを検索対象として検索し、既に一覧表示された結果を除いた検索結果を一覧表示し、さらに、
d 最後にキーページを検索対象として検索し、既に一覧表示された結果を除いた検索結果を一覧表示する、
というものである。
【0066】
このような検索および表示を行うことにより、検索語に関連のある順序で検索結果が一覧表示されるため、ユーザは上から順にキーテキストを参照することで容易に所望の画像を得ることができる。すなわち、aの場合の検索結果から、検索語に最も関連のある画像を得ることができ、また、b〜dの検索結果に向かうに従って、関連の深い画像から浅い画像へと段階的な検索結果を得ることができる。
【0067】
なお、図1においては、サーバやクライアントにそれぞれの検索や登録という役割を持たせ、ネットワーク108を介して画像検索システムを構成した例を示したが、1つのコンピュータに全ての機能を持たせ、スタンドアローンという形態で本実施の形態の画像検索装置を構成することもできる。また、図1においては、画像DB102およびテキストDB103がそれぞれ独立して存在するように示したが、これらを検索サーバ104の管理下に置くように構成することもできる。
【0068】
このように、実施の形態1の画像検索装置によれば、文字列および図、表、写真等の画像が混在した文書から抽出した画像を検索対象とする場合に、検索対象の画像について記述した文書中の文字列を画像検索用のキーテキストとして用いることにしたため、文書中に記述された画像の説明を用いて所望の画像を検索することができ、画像検索処理の利便性の向上を図ることができる。
【0069】
また、キーテキストとして、画像に直接関連のあるキャプションを構成する文字列、キャプションに基づいて抽出したセンテンス、パラグラフおよびページを構成する文字列を用いることにしたため、画像検索用のキーテキストとして、適切な文字列を抽出することができる。すなわち、上述した画像番号語を含むキーキャプション302、キーセンテンス303、キーパラグラフ304およびキーセンテンス305は、画像番号語によって特定される画像について記述していると考えられるため、画像番号語によって特定される画像を検索するためのキーテキストとして適切なものとなる。
【0070】
さらに、キーテキストとして、画像に直接関連のあるキャプションを構成する文字列、キャプションに基づいて抽出したセンテンス、パラグラフおよびページを構成する文字列を用いることにしたため、キーテキストを使い分けることにより、ノイズの少ない検索や漏れのない検索等、ユーザの要求に応じた検索を容易に行うことができる。したがって、検索に関する知識が少ないユーザであっても、いかなる検索語を入力するかを悩むことなく、所望の方法で検索を行うことができる。
【0071】
〔実施の形態2〕
次に、本発明の画像検索装置の実施の形態2について説明する。上述した実施の形態1においては、キーキャプション302を抽出すると共に、キーキャプション302中の画像番号語を用いて、キーセンテンス303、キーパラグラフ304およびキーセンテンス305を抽出し、これらをキーテキストとするという方法について説明したが、実施の形態2の画像検索装置では、本文領域503から画像301の方向または位置を指し示す語(以下、「画像指示語」と記述する)を抽出し、抽出した画像指示語に基づいて、キーテキストを抽出するというものである。
【0072】
なお、実施の形態2の画像検索装置の構成については、実施の形態1で説明したものと同様であるため、ここでは詳細な説明を省略する。また、キーテキスト・画像登録処理および画像検索処理において、キーテキストの抽出処理以外については実施の形態1で説明した通りであるため、これらについても説明を省略する。
【0073】
図10はキーテキスト抽出処理を示すフローチャートであり、図11はキーテキスト抽出処理によって抽出されるキーテキストを説明するための説明図である。キーテキスト抽出部205には、予め、上(の)図、下(の)図、右(の)図、左(の)図、前(の)ページの図、次(の)ページの図、上(の)表、下(の)表、右(の)表、左(の)表、前(の)ページの表、次(の)ページの表、上(の)写真、下(の)写真、右(の)写真、左(の)写真、前(の)ページの写真、次(の)ページの写真等の画像指示語が登録されている。これらの画像指示語は、上の図や下の図等の画像301が存在する方向を指し示す語と、前のページや次のページ等の画像301が存在する位置を指し示す語とがある。キーテキスト抽出部205は、登録された画像指示語と本文領域503の文字列との照合を行うことによって、本文領域503に存在する画像指示語を検索する(S1001)。
【0074】
図11において、画像領域501に対し、本文領域503から画像指示語、例えば「左の図」を見つけ出したとする。キーテキスト抽出部205は、画像指示語「左の図」を含む文字列をセンテンス単位で抽出してキーセンテンス303を取得する(S1002)。換言すれば、本文領域503の文字列から画像301が存在する方向または位置を指し示す画像指示語を検索し、該当する指示語を含むセンテンス単位の文字列を、画像指示語で示された方向または位置に存在し、画像指示語を含む本文領域503と最も近い画像領域501の画像301に関連づけするキーセンテンス303として抽出することになる。
【0075】
続いて、ステップS1002で抽出したキーセンテンス303を含む文字列をパラグラフ単位で抽出し、キーパラグラフ304を取得する(S1003)。
【0076】
さらに、ステップS1003で抽出したキーパラグラフ304(キーセンテンス303)を含む文字列をページ単位で抽出し、キーページ305を取得する(S1004)。
【0077】
その後、キーテキスト登録部206は、キーテキスト抽出部205で抽出したキーセンテンス303、キーパラグラフ304およびキーページ305からなるキーテキストを入力すると共に、画像DB登録部203から該当する画像に付与した画像IDを入力し、入力したキーテキストを画像IDと共にテキストDB103に登録する(図4のS407参照)。キーテキストを画像IDと共にテキストDB103に登録することにより、キーテキストと画像301との関連づけを行うことができる。
【0078】
なお、上述したキーテキスト抽出処理は、文書300中に存在する各画像毎にそれぞれ行われ、抽出されたキーテキストは、実施の形態1で説明したように、画像を検索するための検索対象とされる。
【0079】
このように、実施の形態2の画像検索装置によれば、画像検索用のキーテキストとして、画像が存在する方向または位置を特定する画像指示語を含むセンテンス、パラグラフおよびページを構成する文字列を用いることにしたため、画像検索用のキーテキストとして、適切な文字列を抽出することができる。すなわち、画像指示語を含むセンテンス等は、画像指示語によって指し示された画像について記述していると考えられるため、画像指示語によって指し示された画像の検索のためのキーテキストとして適切なものとなる。
【0080】
〔実施の形態3〕
続いて、本発明の画像検索装置の実施の形態3について説明する。実施の形態3の画像検索装置は、実施の形態1で説明した画像番号語や実施の形態2で説明した画像指示語を用いることなしに、キーテキストを抽出することができるようにするものである。すなわち、実施の形態3の画像検索装置は、文書300中の画像領域501に対して最も近傍に位置する本文領域503からキーテキストを抽出するものである。
【0081】
なお、実施の形態3の画像検索装置の構成については、実施の形態1で説明したものと同様であるため、ここでは詳細な説明を省略する。また、キーテキスト・画像登録処理および画像検索処理において、キーテキストの抽出処理以外については実施の形態1で説明した通りであるため、これらについても説明を省略する。
【0082】
図12はキーテキスト抽出処理を示すフローチャートであり、図13はキーテキスト抽出処理によって抽出されるキーテキストを説明するための説明図である。キーテキスト抽出部205は、OCR部204から文字認識処理の結果および本文領域の位置情報を入力すると共に、領域識別・分割処理部202から画像領域の位置情報を入力する。そして、キーテキスト抽出部205は、画像領域501と隣接する本文領域503との間の距離を演算して求める(S1201)。図13においては、画像領域501および本文領域503aの間の距離aと、画像領域501および本文領域503bの間の距離bを求めることになる。
【0083】
ここで、画像領域501と本文領域503aのように、画像領域501に対して本文領域503が左右いずれかに存在するような場合は、両方の領域の垂直の辺同士の距離(距離a)を画素単位で演算する。一方、画像領域501と本文領域503bのように、画像領域501に対して本文領域503が上下いずれかに存在するような場合は、両方の領域の水平の辺同士の距離(距離b)を画素単位で演算する。なお、文書が2段組等で構成されているような場合であって、段と段との間にセパレータが設けられているような場合には、その間の距離を論理的に遠くなるような演算を行うことができる。
【0084】
その後、キーテキスト抽出部205は、ステップS1201における演算結果に基づいて、画像領域501に対して最も近傍に位置する本文領域503中の文字列をパラグラフ単位で抽出し、抽出した文字列をキーパラグラフ304とする(S1202)。図13においては、距離bが距離aに比べて短いため、本文領域503bが画像領域501に対して最も近傍に位置していることになる。そこで、本文領域503bにおいて、画像領域501に最も近い文字列をパラグラフ単位で抽出して、キーパラグラフ304とする。
【0085】
そして、キーテキスト抽出部205は、キーパラグラフ304を含む文字列をページ単位で抽出し、キーページ305を取得する(S1203)。
【0086】
その後、キーテキスト登録部206は、キーテキスト抽出部205で抽出したキーパラグラフ304およびキーページ305からなるキーテキストを入力すると共に、画像DB登録部203から該当する画像に付与した画像IDを入力し、入力したキーテキストを画像IDと共にテキストDB103に登録する(図4のS407参照)。キーテキストを画像IDと共にテキストDB103に登録することにより、キーテキストと画像301との関連づけを行うことができる。
【0087】
上述したキーテキスト抽出処理は、文書300中に存在する各画像毎にそれぞれ行われ、抽出されたキーテキストは、実施の形態1で説明したように、画像を検索するための検索対象とされる。
【0088】
なお、図14に示すように、画像領域501を挟んで本文領域503a、503bが上下に存在する場合には、画像領域501と本文領域503aおよび本文領域503bとにおける水平の辺同士の距離を演算し、最も近傍に位置する本文領域を選択する。画像領域501に対して上に位置する本文領域503aが本文領域503bより画像領域501に近接している場合には、画像領域503a内の最も下(画像領域501に最も近い)のパラグラフをキーパラグラフ304として抽出する。一方、画像領域501に対して下に位置する本文領域503bが本文領域503aより画像領域501に近接している場合には、画像領域503b内の最も上(画像領域501に最も近い)のパラグラフをキーパラグラフ304として抽出する。もし、画像領域501と本文領域503aおよび本文領域503bとの間の距離がそれぞれ等しい場合には、両方からキーパラグラフ304を抽出することにしても良い。
【0089】
また、図15に示すように、画像領域501を挟んで本文領域503a、503bが左右に存在する場合には、画像領域501と本文領域503aおよび本文領域503bとにおける垂直の辺同士の距離を演算し、最も近傍に位置する本文領域を選択する。画像領域501を挟んで本文領域503a、503bが左右に存在する場合は、図14に示す上下の場合と異なり、画像領域501に最も近接する本文領域の全ての文字列をキーパラグラフとして抽出する。もし、画像領域501と本文領域503aおよび本文領域503bとの間の距離がそれぞれ等しい場合には、本文領域503a、503bの全ての文字列をキーパラグラフ304として抽出することにしても良い。
【0090】
このように、実施の形態3の画像検索装置によれば、画像検索用のキーテキストとして、画像領域501に対して最も近傍に位置する本文領域503中の文字列およびその文字列を含むページ単位の文字列を用いることにしたため、画像検索用のキーテキストとして、適切な文字列を抽出することができる。すなわち、画像の最も近傍に位置する本文領域の文字列は、該当する画像について記述したものあると考えられるため、画像検索用のキーテキストとして適切なものとなる。
【0091】
〔実施の形態4〕
さらに、本発明の画像検索装置の実施の形態4について説明する。実施の形態4の画像検索装置は、実施の形態1〜3で説明したキーテキスト抽出処理を組み合わせて、あらゆる種類の文書からキーテキストを抽出することができるようにしたものである。
【0092】
なお、実施の形態4の画像検索装置の構成については、実施の形態1で説明したものと同様であるため、ここでは詳細な説明を省略する。また、キーテキスト・画像登録処理および画像検索処理において、キーテキストの抽出処理以外については実施の形態1で説明した通りであるため、これらについても説明を省略する。
【0093】
図16はキーテキスト抽出処理を示すフローチャートである。キーテキスト抽出部205は、OCR部204から文字認識処理の結果および本文領域の位置情報を入力すると共に、領域識別・分割処理部202から画像領域の位置情報を入力する。そして、キーテキスト抽出部205は、実施の形態1で説明したキーキャプション302を抽出する処理を行う(S1601)。
【0094】
ステップS1601において、キーキャプション302を抽出することができた場合には、キーキャプションから画像番号語を抽出する処理を行う(S1602)。
【0095】
そして、ステップS1602において、キーキャプションから画像番号語を抽出することができた場合には、実施の形態1で説明したように、画像番号語に基づいて、キーセンテンス303、キーキャプション304およびキーページ305を抽出する(S1603)。
【0096】
一方、ステップS1601においてキャプションがない場合や、ステップS1602において画像番号語を抽出することができなかった場合には、ステップS1604に進み、実施の形態2で説明したように、本文領域503に存在する画像指示語を検索する(S1604)。
【0097】
ステップS1604において、本文領域503から画像指示語を見つけ出すことができた場合には、実施の形態2で説明したように、画像指示語に基づいて、キーセンテンス303、キーパラグラフ304およびキーページ305を抽出する(S1605)。
【0098】
また、ステップ1604において、本文領域503から画像指示語を見つけ出すことができなかった場合には、実施の形態3で説明したように、画像領域501と画像領域501に隣接する本文領域503との間の距離を演算する(S1606)。
【0099】
続いて、ステップS1606における演算結果に基づいて、画像領域501に対して最も近傍に位置する本文領域503を特定し、特定した本文領域503に基づいて、キーパラグラフ304およびキーページ305を抽出する。
【0100】
その後、キーテキスト登録部206は、キーテキスト抽出部205で抽出したキーテキストを入力すると共に、画像DB登録部203から該当する画像に付与した画像IDを入力し、入力したキーテキストを画像IDと共にテキストDB103に登録する(図4のS407参照)。キーテキストを画像IDと共にテキストDB103に登録することにより、キーテキストと画像301との関連づけを行うことができる。
【0101】
上述したキーテキスト抽出処理は、文書300中に存在する各画像毎にそれぞれ行われ、抽出されたキーテキストは、実施の形態1で説明したように、画像を検索するための検索対象とされる。
【0102】
このように、実施の形態4の画像検索装置によれば、実施の形態1〜3で説明した画像検索用キーテキストの生成方法を組み合わせることにより、あらゆる種類の文書から検索対象となる画像について記述した文字列をキーテキストとして抽出することができる。
【0103】
なお、上述した実施の形態1〜4の画像検索装置においては、キーテキストとしてキーキャプション302、キーセンテンス303、キーパラグラフ304およびキーページ305を用いることにしたが、これらに加えて、画像の種類(ブロック図、フローチャート、棒グラフ、折れ線グラフ等)、画像のサイズ、画像の色等の画像の属性情報や、画像中の文字列等をキーテキストとして用いることにしても良い。
【0104】
また、文書において、画像に関連のある章、節等のタイトルや、章、節を構成する文字列、ヘッダ、フッダ等をキーテキストとして用いることにしても良い。この場合は、キーテキストを抽出する際に、文書のレイアウトを詳細に解析する必要がある。
【0105】
また、実施の形態1〜4においては、キーテキストを用いて画像を検索することについて説明したが、最初に画像を表示してブラウジングすることができるようにし、画像から関連のあるキーテキストを表示することができるようにしても良い。
【0106】
また、画像を画像DB102に登録する際に、特定の種類のグループにグルーピングしておき、画像から画像を検索することができるようにすることもできる。グルーピングは、画像の種類や、文書の種類等、任意の条件に基づいて行うことができる。
【0107】
また、文書の種類に応じたキーテキスト抽出ルールを予め作成しておき、キーテキストを抽出する際に、文書の種類を自動的に認識しまたはユーザが指定することにより、作成したルールに従って、キーテキストを抽出することができるようにしても良い。
【0108】
また、キーセンテンス303等は、同一の画像に対して複数得られることがあるため、複数得られた場合は、画像との距離に基づいて重み付けを行い、同一画像に対する複数のキーセンテンス303等を表示する際の順位付けを行うこともできる。
【0109】
また、OCRによる文字認識処理においては、「写真」を「写具」と認識してしまうような誤認識が起こることがある。このような誤認識が画像番号語や画像指示語に発生したような場合には、キーテキストを正確に抽出することが困難となってしまう。そこで、予め誤認識の起こりやすい語、例えば上記「写真」等においては、誤認識した結果である「写具」についても正しい「写真」と同様に扱うことができるようにすることができる。なお、誤認識した語を検出した場合については、正しい語に変換する処理を行うことにしても良い。
【0110】
また、図3等に示した文書ではなく、本文と画像とが別々のページに配置されているような文書(例えば特許明細書)であっても、画像番号語等を抽出することにより、容易にキーテキストを抽出することができる。
【0111】
さらに、上述した画像検索装置としてコンピュータを機能させるプログラムや、画像検索用キーテキストの生成方法をコンピュータに実行させるためのプログラムを作成し、これらをハードディスク、フロッピーディスク、CD−ROM、MO、DVD等のコンピュータ読み取り可能な記録媒体に記録して、記録媒体を介してプログラムを配布することができる。そして、記録媒体に記録されたプログラムをコンピュータで読み出して実行することにより、上述した画像検索装置や画像検索用キーテキストの生成方法を実現することできる。
【0112】
【発明の効果】
以上説明したように、請求項1の画像検索装置によれば、文書入力手段が、図、表、写真等の画像および文字列が混在した文書を入力し、領域抽出手段が、文書入力手段を介して入力した文書から画像を含む画像領域および文字列を含む文字領域を認識して抽出し、キーテキスト抽出手段が、領域抽出手段で抽出した文字領域の文字列から画像領域の画像に関連づけするキーテキストを抽出するに際して、画像に関連づけするキーテキストとして、画像のキャプションを構成する文字列であるキーキャプション、画像について記述したセンテンスを構成する文字列であるキーセンテンス、画像について記述したパラグラフを構成する文字列であるキーパラグラフ、および、画像について記述したページを構成する文字列であるキーページのうちの少なくともいずれかを抽出し、格納手段が、領域抽 出手段で抽出した画像領域の画像およびキーテキスト抽出手段で抽出したキーテキストを関連づけて格納し、入力手段が、検索語の入力を受け付け、検索手段が入力手段を介して入力された検索語に基づいて、該当するキーテキストおよび画像を検索し、表示手段が検索手段から検索結果を入力し、入力した検索結果を画面表示する画像検索装置であって、キーテキスト抽出手段は、キーキャプションを構成する文字列から画像に付与された番号を特定する画像番号語をキーテキストとして抽出し、格納手段は、キーテキスト抽出手段によって抽出された画像番号語と領域抽出手段によって抽出された画像領域とを関連づけて格納するものであり、また、キーテキスト抽出手段は、文字領域の文字列から画像が存在する方向または位置を指し示す画像指示語を検索して画像指示語を含む文字列をキーテキストとして抽出し、格納手段は、キーテキスト抽出手段によって抽出された画像指示語を含む文字列と、画像指示語を含む文字列中に画像指示語で示された方向または位置にあって画像指示語を含む文字列に最も近い画像領域の画像とを、関連づけて格納するものであり、また、キーテキスト抽出手段は、領域抽出手段が抽出した画像領域と文字領域との距離を算出して最も距離が小なる文字領域をキーテキストとして抽出し、格納手段は、キーテキスト抽出手段によって抽出された最も拒理が小なる文字領域と、画像領域の画像とを関連づけて格納するものである。ここで、キーテキスト抽出手段は、キーキャプションを抽出できなかった場合、およびキーキャプションを構成する文字列から画像に付与された番号を特定する画像番号語を抽出できなかった場合の少なくともいずれかの場合は、画像指示語を検索するものであり、また、キーテキスト抽出手段は、さらに画像指示語を検索できなかった場合は、最も距離が小なる文字領域から文字領域をキーテキストとして抽出するこの構成によって、画像に関連づけたキーテキストを抽出して格納する際に、キーテキストとして最も画像との関連性が高く文章量が短く検索上のノイズが少ないキーキャプションに始まって、キーセンテンス、キーパラグラフ、およびキーページというように文章量と比較して画像との関連性は低く検索上のノイズが多いのであるが文章量が多いことにより検索時の検索漏れが少ないキーページに至るまでの検索特性の異なる複数種類のキーテキストを抽出して格納することによって、画像検索がなされた場合には検索語とキーテキストとが対応付けられて、ノイズが少なく関連度の高いキーテキストによる画像検索から、ノイズが高くても検索語のヒット率が高いキーテキストを介した検索漏れの少ない画像検索ができるので、ノイズが少なく、かつ漏れが少ない検索という相反的なニーズを満たす画像検索が可能になるという効果を奏する。
【0113】
また、画像との関連性が高いキーキャプションまたは画像番号語を抽出できなかった場合は、画像指示語を検索してキーテキストを抽出し、さらに画像指示語を検索できなかった場合は、画像領域と文字領域との距離を算出してキーテキストを抽出し、抽出されたキーテキストを画像と関連付けて格納しておくことによって、画像検索を行う場合には、画像との関連性が高くノイズの少ない検索が優先的になされて、それができない場合に関連性が低くノイズが高かったとしてもヒット率の高い検索がなされるので、ノイズが少なく、かつ漏れが少ない検索という相反的なニーズを満たす画像検索が可能になるという効果を奏する。
【0114】
また、請求項2の画像検索用キーテキストの生成方法によれば、図、表、写真等の画像および文字列が混在した文書情報中の画像に関連付けられる画像の検索に用いる文字列をキーテキスト抽出手段によりキーテキストとして選択し、選択されたキーテキストおよび検索対象となる画像を登録手段によってそれぞれ関連づけてメモリに格納しておき、入力手段から任意の検索語の入力を受け付けた場合、受け付けられた検索語とメモリに格納されたキーテキストとを検索実行手段によって比較し、比較により照合したキーテキストに、登録手段により関連づけられた画像を検索し、検索実行手段により照合されたキーテキストおよび検索された画像を出力手段により表示手段に出力する画像検索装置における画像検索用キーテキストの生成方法であって、文書入力工程は、文書入力手段によって文書情報の入力を受け付け、領域抽出工程は、画像情報および文字列情報の特徴に基づいて画像を含む画像領域および文字列を含む文字領域を抽出する領域抽出手段によって、文書入力工程で入力された文書情報から、画像領域および文字領域を抽出し、キーテキスト抽出工程は、(1)領域抽出工程で抽出した文字領域の文字列から、画像領域の画像に関連づけられるキーテキストを、キーテキスト抽出手段によって抽出するに際して、キーテキスト抽出手段によって画像のキャプションを構成する文字列であるキーキャプションが抽出でき且つキーキャプション中に含まれる画像の番号を表す画像番号語が抽出できた場合は、画像番号語を含むセンテンス単位の文字列であるキーセンテンス、キーセンテンスを含みパラグラフ単位の文字列であるキーパラグラフ、および、キーパラグラフを含むページ単位の文字列であるキーページのうち少なくともいずれかを、キーテキスト抽出手段によってキーテキストとして抽出し、(2)領域抽出工程で抽出した文字領域の文字列から、キーテキストをキーテキスト抽出手段によって抽出するに際して、キーキャプションおよびキーキャプション中に含まれる画像番号語のいずれをもキーテキスト抽出手段によって抽出できない場合、文字領域の文字列から画像が存在する方向または位置を指し示す画像指示語を抽出して画像指示語が抽出できた場合は、画像指示語に基づいて指定されるセンテンス単位の文字列であるキーセンテンス、画像指示語により指定されたキーセンテンスを含むパラグラフ単位の文字列であるキーパラグラフ、およびキーパラグラフを含むページ単位の文字列であるキーページのうちの少なくともいずれかを、キーテキスト抽出手段によってキーテキストとして抽出し、(3)領域抽出工程で抽出した文字領域の文字列から、キーテキストをキーテキスト抽出手段によって抽出するに際して、画像指示語がキーテキスト抽出手段によって抽出できなかった場合は、画像領域と文字領域との距離を算出し、最も距離が小なるパラグラフ単位のキーパラグラフ、および最も距離が小なるキーパラグラフを含むページ単位のキーページのうち少なくともいずれかを、キーテキスト抽出手段によってキーテキストとして抽出する。この構成によって、画像に関連づけたキーテキストを抽出して格納する際に、キーテキストとして最も画像との関連性が高く文章量が短く検索上のノイズが少ないキーキャプションに始まって、キーセンテンス、キーパラグラフ、およびキーページというように文章量と比較して画像との関連性は低く検索上のノイズが多いのであるが文章量が多いことにより検索時の検索漏れが少ないキーページに至るまでの検索特性の異なる複数種類のキーテキストを抽出して格納することによって、画像検索がなされた場合には検索語とキーテキストとが対応付けられて、ノイズが少なく関連度の高いキーテキストによる画像検索から、ノイズが高くても検索語のヒット率が高いキーテキストを介した検索漏れの少ない画像検索ができるので、ノイズが少なく、かつ漏れが少ない検索という相反的なニーズを満たす画像検索が可能になるという効果を奏する。
【0115】
また、画像との関連性が高いキーキャプションまたは画像番号語を抽出できなかった場合は、画像指示語を検索してキーテキストを抽出し、さらに画像指示語を検索できなかった場合は、画像領域と文字領域との距離を算出してキーテキストを抽出し、抽出されたキーテキストを画像と関連付けて格納しておくことによって、画像検索を行う場合には、画像との関連性が高くノイズの少ない検索が優先的になされて、それができない場合に関連性が低くノイズが高かったとしてもヒット率の高い検索がなされるので、ノイズが少なく、かつ漏れが少ない検索という相反的なニーズを満たす画像検索が可能になるという効果を奏する。
【0116】
また、請求項3のコンピュータ読み取り可能な記録媒体によれば、請求項1に記載の画像検索装置の各手段としてコンピュータを機能させるためのプログラムを提供できるという効果を奏する。
【0117】
また、請求項4のコンピュータ読み取り可能な記録媒体によれば、図、表、写真等の画像および文字列が混在した文書情報中の画像に関連付けられる画像の検索に用いる文字列をキーテキスト抽出手段によりキーテキストとして選択し、選択されたキーテキストおよび検索対象となる画像を登録手段によってそれぞれ関連づけてメモリに格納しておき、入力手段から任意の検索語の入力を受け付けた場合、受け付けられた検索語とメモリに格納されたキーテキストとを検索実行手段によって比較し、比較により照合したキーテキストに、登録手段により関連づけられた画像を検索し、検索実行手段により照合されたキーテキストおよび検索された画像を出力手段により表示手段に出力する画像検索装置における画像検索用キーテキストの生成方法の各工程を、コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、文書入力工程は、文書入力手段によって文書情報の入力を受け付け、領域抽出工程は画像情報および文字列情報の特徴に基づいて画像を含む画像領域および文字列を含む文字領域を抽出し、領域抽出手段によって、文書入力工程で入力された文書情報から、画像領域および文字領域を抽出し、(1)領域抽出工程で抽出した文字領域の文字列から、画像領域の画像に関連づけられるキーテキストを、キーテキスト抽出手段によって抽出するに際して、キーテキスト抽出手段によって画像のキャプションを構成する文字列であるキーキャプションが抽出でき且つキーキャプション中に含まれる画像の番号を表す画像番号語が抽出できた場合は、画像番号語を含むセンテンス単位の文字列であるキーセンテンス、キーセンテンスを含みパラグラフ単位の文字列であるキーパラグラフ、および、キーパラグラフを含むページ単位の文字列であるキーページのうち少なくともいずれかを、キーテキスト抽出手段によってキーテキストとして抽出し、(2)領域抽出工程で抽出した文字領域の文字列から、キーテキストをキーテキスト抽出手段によって抽出するに際して、キーキャプションおよびキーキャプション中に含まれる画像番号語のいずれをもキーテキスト抽出手段によって抽出できない場合、文字領域の文字列から画像が存在する方向または位置を指し示す画像指示語を抽出して画像指示語が抽出できた場合は、画像指示語に基づいて指定されるセンテンス単位の文字列であるキーセンテンス、画像指示語により指定されたキーセンテンスを含むパラグラフ単位の文字列であるキーパラグラフ、およびキーパラグラフを含むページ単位の文字列であるキーページのうちの少なくともいずれかを、キーテキスト抽出手段によってキーテキストとして抽出し、(3)領域抽出工程で抽出した文字領域の文字列から、キーテキストをキーテキスト抽出手段によって抽出するに際して、画像指示語がキーテキスト抽出手段によって抽出できなかった場合は、画像領域と文字領域との距離を算出し、最も距離が小なるパラグラフ単位のキーパラグラフ、および最も距離が小なるキーパラグラフを含むページ単位のキーページのうち少なくともいずれかを、キーテキスト抽出手段によってキーテキストとして抽出する各工程をコンピュータに実行させるためのプログラムをコンピュータに読み取らせることができるという効果を奏する。
【図面の簡単な説明】
【図1】 実施の形態1の画像検索装置のブロック構成図である。
【図2】 図1に示す画像検索装置の概念構成図である。
【図3】 実施の形態1の画像検索装置において、キーテキストを説明するための説明図である。
【図4】 実施の形態1の画像検索装置において、キーテキスト・画像登録処理を示すフローチャートである。
【図5】 実施の形態1の画像検索装置において、領域識別・分割処理を行った結果を示す説明図である。
【図6】 実施の形態1の画像検索装置において、キーテキスト抽出処理を示すフローチャートである。
【図7】 実施の形態1の画像検索装置において、画像検索処理の概略を示すフローチャートである。
【図8】 実施の形態1の画像検索装置において、画像検索結果の表示例を示す説明図である。
【図9】 実施の形態1の画像検索装置において、画像検索結果の表示例を示す説明図である。
【図10】 実施の形態2の画像検索装置におけるキーテキスト抽出処理を示すフローチャートである。
【図11】 実施の形態2の画像検索装置において、キーテキスト抽出処理によって抽出されるキーテキストを説明するための説明図である。
【図12】 実施の形態3の画像検索装置におけるキーテキスト抽出処理を示すフローチャートである。
【図13】 実施の形態3の画像検索装置において、キーテキスト抽出処理によって抽出されるキーテキストを説明するための説明図である。
【図14】 実施の形態3の画像検索装置において、画像領域を挟んで本文領域が上下に存在する場合の抽出処理を説明する説明図である。
【図15】 実施の形態3の画像検索装置において、画像領域を挟んで本文領域が左右に存在する場合のキーテキスト抽出処理を説明する説明図である。
【図16】 実施の形態4の画像検索装置におけるキーテキスト抽出処理を示すフローチャートである。
【符号の説明】
100 登録サーバ
101 スキャナ
102 画像DB
103 テキストDB
104 検索サーバ
105、106、107 検索クライアント
108 ネットワーク
200 登録処理部
201 2値化処理部
202 領域識別・分割処理部
203 画像DB登録部
204 OCR部
205 キーテキスト抽出部
206 テキストDB登録部
210 検索処理部
211 入力装置
212 出力装置
213 検索要求・結果出力部
214 検索実行部
300 文書(1ページ分)
301 画像
302 キーキャプション
303 キーテキスト
304 キーパラグラフ
305 キーページ
501 画像領域
502 キャプション領域
503、503a、503b 本文領域
800 画像表示ボタン

Claims (4)

  1. 画像の検索に用いる文字列をキーテキストと定義し、前記キーテキストを検索対象となる画像毎に用意すると共に、用意したキーテキストおよび対応する前記画像をそれぞれ関連づけて格納しておき、任意の検索語と前記キーテキストとを比較して検索し、検索されたキーテキストに関連づけられた画像を出力する画像検索装置であって、
    図、表、写真等の画像および文字列が混在した文書を入力する文書入力手段と、
    前記文書入力手段を介して入力した文書から前記画像を含む画像領域および文字列を含む文字領域を認識して抽出する領域抽出手段と、
    前記領域抽出手段で抽出した文字領域の文字列から前記画像領域の画像に関連づけする前記キーテキストを抽出するに際して、前記画像に関連づけする前記キーテキストとして、前記画像のキャプションを構成する文字列であるキーキャプション、前記画像について記述したセンテンスを構成する文字列であるキーセンテンス、前記画像について記述したパラグラフを構成する文字列であるキーパラグラフ、および、前記画像について記述したページを構成する文字列であるキーページのうちの少なくともいずれかを抽出するキーテキスト抽出手段と、
    前記領域抽出手段で抽出した画像領域の画像および前記キーテキスト抽出手段で抽出したキーテキストを関連づけて格納する格納手段と、
    前記検索語入力を受け付ける入力手段と、
    前記入力手段を介して入力された検索語に基づいて、該当するキーテキストおよび画像を検索する検索手段と、
    前記検索手段から検索結果を入力し、入力した検索結果を画面表示する表示手段と、
    を備え、
    前記キーテキスト抽出手段は、前記キーキャプションを構成する文字列から前記画像に付与された番号を特定する画像番号語をキーテキストとして抽出し、前記格納手段は、前記キーテキスト抽出手段によって抽出された画像番号語と前記領域抽出手段によって抽出された画像領域とを関連づけて格納するものであり、
    前記キーテキスト抽出手段は、前記文字領域の文字列から画像が存在する方向または位置を指し示す画像指示語を検索して前記画像指示語を含む文字列をキーテキストとして抽出し、前記格納手段は、前記キーテキスト抽出手段によって抽出された前記画像指示語を含む文字列と、前記画像指示語を含む文字列中に前記画像指示語で示された方向または位置にあって前記画像指示語を含む文字列に最も近い画像領域の画像とを、関連づけて格納するものであり、
    前記キーテキスト抽出手段は、前記領域抽出手段が抽出した画像領域と文字領域との距離を算出して最も距離が小なる文字領域をキーテキストとして抽出し、前記格納手段は、前記キーテキスト抽出手段によって抽出された前記最も拒理が小なる文字領域と、前記画像領域の画像とを関連づけて格納するものであり、
    前記キーテキスト抽出手段は、前記キーキャプションを抽出できなかった場合、および前記キーキャプションを構成する文字列から前記画像に付与された番号を特定する画像番号語を抽出できなかった場合の少なくともいずれかの場合は、前記画像指示語を検索するものであり、
    前記キーテキスト抽出手段は、さらに前記画像指示語を検索できなかった場合は、前記最も距離が小なる文字領域から前記文字領域をキーテキストとして抽出するものであることを特徴とする画像検索装置。
  2. 図、表、写真等の画像および文字列が混在した文書情報中の前記画像に関連付けられる前記画像の検索に用いる文字列をキーテキスト抽出手段によりキーテキストとして選択し、選択された前記キーテキストおよび検索対象となる前記画像を登録手段によってそれぞれ関連づけてメモリに格納しておき、入力手段から任意の検索語の入力を受け付けた場合、受け付けられた前記検索語と前記メモリに格納された前記キーテキストとを検索実行手段によって比較し、比較により照合した前記キーテキストに、前記登録手段により関連づけられた前記画像を検索し、前記検索実行手段により照合された前記キーテキストおよび検索された前記画像を出力手段により表示手段に出力する画像検索装置における画像検索用キーテキストの生成方法であって、
    文書入力手段によって前記文書情報の入力を受け付ける文書入力工程と、
    画像情報および文字列情報の特徴に基づいて画像を含む画像領域および文字列を含む文字領域を抽出する領域抽出手段によって、前記文書入力工程で入力された前記文書情報から、前記画像領域および文字領域を抽出する領域抽出工程と、
    前記領域抽出工程で抽出した文字領域の文字列から、前記画像領域の画像に関連づけられる前記キーテキストを、前記キーテキスト抽出手段によって抽出するに際して、前記キーテキスト抽出手段によって前記画像のキャプションを構成する文字列であるキーキャプションが抽出でき且つ前記キーキャプション中に含まれる画像の番号を表す画像番号語が抽出できた場合は、前記画像番号語を含むセンテンス単位の文字列であるキーセンテンス、前記前記キーセンテンスを含みパラグラフ単位の文字列であるキーパラグラフ、および、前記キーパラグラフを含むページ単位の文字列であるキーページのうち少なくともいずれかを、前記キーテキスト抽出手段によって前記キーテキストとして抽出し、
    前記領域抽出工程で抽出した文字領域の文字列から、前記キーテキストを前記キーテキスト抽出手段によって抽出するに際して、前記キーキャプションおよび前記キーキャプション中に含まれる画像番号語のいずれをも前記キーテキスト抽出手段によって抽出できない場合、前記文字領域の文字列から画像が存在する方向または位置を指し示す画像指示語を抽出して前記画像指示語が抽出できた場合は、前記画像指示語に基づいて指定されるセンテンス単位の文字列であるキーセンテンス、前記画像指示語により指定されたキーセンテンスを含むパラグラフ単位の文字列であるキーパラグラフ、および前記キーパラグラフを含むページ単位の文字列であるキーページのうちの少なくともいずれかを、前記キーテキスト抽出手段によって前記キーテキストとして抽出し、
    前記領域抽出工程で抽出した文字領域の文字列から、前記キーテキストを前記キーテキスト抽出手段によって抽出するに際して、前記画像指示語が前記キーテキスト抽出手段によって抽出できなかった場合は、前記画像領域と文字領域との距離を算出し、最も距離が小なるパラグラフ単位のキーパラグラフ、および前記最も距離が小なるキーパラグラフを含むページ単位のキーページのうち少なくともいずれかを、前記キーテキスト抽出手段によって前記キーテキストとして抽出するキーテキスト抽出工程と、
    を含むことを特徴とする画像検索用キーテキストの生成方法。
  3. 前記請求項1に記載の画像検索装置の各手段としてコンピュータを機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
  4. 図、表、写真等の画像および文字列が混在した文書情報中の前記画像に関連付けられる前記画像の検索に用いる文字列をキーテキスト抽出手段によりキーテキストとして選択し、選択された前記キーテキストおよび検索対象となる前記画像を登録手段によってそれぞれ関連づけてメモリに格納しておき、入力手段から任意の検索語の入力を受け付けた場合、受け付けられた前記検索語と前記メモリに格納された前記キーテキストとを検索実行手段によって比較し、比較により照合した前記キーテキストに、前記登録手段により関連づけられた前記画像を検索し、前記検索実行手段により照合された前記キーテキストおよび検索された前記画像を出力手段により表示手段に出力する画像検索装置における画像検索用キーテキストの生成方法の各工程を、コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
    文書入力手段によって前記文書情報の入力を受け付ける文書入力工程と、
    画像情報および文字列情報の特徴に基づいて画像を含む画像領域および文字列を含む文字領域を抽出する領域抽出手段によって、前記文書入力工程で入力された前記文書情報から、前記画像領域および文字領域を抽出する領域抽出工程と、
    前記領域抽出工程で抽出した文字領域の文字列から、前記画像領域の画像に関連づけられる前記キーテキストを、前記キーテキスト抽出手段によって抽出するに際して、前記キーテキスト抽出手段によって前記画像のキャプションを構成する文字列であるキーキャプションが抽出でき且つ前記キーキャプション中に含まれる画像の番号を表す画像番号語が抽出できた場合は、前記画像番号語を含むセンテンス単位の文字列であるキーセンテンス、前記前記キーセンテンスを含みパラグラフ単位の文字列であるキーパラグラフ、および、前記キーパラグラフを含むページ単位の文字列であるキーページのうち少なくともいずれかを、前記キーテキスト抽出手段によって前記キーテキストとして抽出し、
    前記領域抽出工程で抽出した文字領域の文字列から、前記キーテキストを前記キーテキスト抽出手段によって抽出するに際して、前記キーキャプションおよび前記キーキャプション中に含まれる画像番号語のいずれをも前記キーテキスト抽出手段によって抽出できない場合、前記文字領域の文字列から画像が存在する方向または位置を指し示す画像指示語を抽出して前記画像指示語が抽出できた場合は、前記画像指示語に基づいて指定されるセンテンス単位の文字列であるキーセンテンス、前記画像指示語により指定されたキーセンテンスを含むパラグラフ単位の文字列であるキーパラグラフ、および前記キーパラグラフを含むページ単位の文字列であるキーページのうちの少なくともいずれかを、前記キーテキスト抽出手段によって前記キーテキストとして抽出し、
    前記領域抽出工程で抽出した文字領域の文字列から、前記キーテキストを前記キーテキスト抽出手段によって抽出するに際して、前記画像指示語が前記キーテキスト抽出手段によって抽出できなかった場合は、前記画像領域と文字領域との距離を算出し、最も距離が小なるパラグラフ単位のキーパラグラフ、および前記最も距離が小なるキーパラグラフを含むページ単位のキーページのうち少なくともいずれかを、前記キーテキスト抽出手段によって前記キーテキストとして抽出するキーテキスト抽出工程と、
    コンピュータに実行させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
JP18161097A 1997-07-07 1997-07-07 画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP3694149B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP18161097A JP3694149B2 (ja) 1997-07-07 1997-07-07 画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US09/111,458 US6169998B1 (en) 1997-07-07 1998-07-07 Method of and a system for generating multiple-degreed database for images

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP18161097A JP3694149B2 (ja) 1997-07-07 1997-07-07 画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JPH1125113A JPH1125113A (ja) 1999-01-29
JP3694149B2 true JP3694149B2 (ja) 2005-09-14

Family

ID=16103822

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18161097A Expired - Fee Related JP3694149B2 (ja) 1997-07-07 1997-07-07 画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (2)

Country Link
US (1) US6169998B1 (ja)
JP (1) JP3694149B2 (ja)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100350789B1 (ko) * 1999-03-04 2002-08-28 엘지전자 주식회사 이미지 검색시스템의 분위기 칼라 자동추출 및 원래 칼라 조정방법
US6708309B1 (en) * 1999-03-11 2004-03-16 Roxio, Inc. Method and system for viewing scalable documents
US6813395B1 (en) * 1999-07-14 2004-11-02 Fuji Photo Film Co., Ltd. Image searching method and image processing method
US6356908B1 (en) * 1999-07-30 2002-03-12 International Business Machines Corporation Automatic web page thumbnail generation
US7620622B1 (en) 2001-03-08 2009-11-17 Yahoo! Inc. Method and system for indexing information and providing results for a search including objects having predetermined attributes
US7137064B2 (en) * 2002-02-02 2006-11-14 International Business Machines Corporation System and method for facilitating document imaging requests
US7050630B2 (en) * 2002-05-29 2006-05-23 Hewlett-Packard Development Company, L.P. System and method of locating a non-textual region of an electronic document or image that matches a user-defined description of the region
JP2004062804A (ja) * 2002-07-31 2004-02-26 Ricoh Co Ltd 画像の分類方法、画像特徴量空間表示方法、プログラムおよび記録媒体
US20040095377A1 (en) * 2002-11-18 2004-05-20 Iris Technologies, Inc. Video information analyzer
US20040101156A1 (en) * 2002-11-22 2004-05-27 Dhiraj Kacker Image ranking for imaging products and services
US8775436B1 (en) 2004-03-19 2014-07-08 Google Inc. Image selection for news search
US7293007B2 (en) * 2004-04-29 2007-11-06 Microsoft Corporation Method and system for identifying image relatedness using link and page layout analysis
JP4700452B2 (ja) * 2005-09-16 2011-06-15 株式会社リコー 情報管理装置、情報管理方法、情報管理プログラムおよび記録媒体
JP4626509B2 (ja) * 2005-12-19 2011-02-09 セイコーエプソン株式会社 画像一覧表示におけるユーザの利便性向上
US8504932B2 (en) 2006-04-13 2013-08-06 Shutterfly, Inc. Image collage builder
US7467222B2 (en) * 2006-05-12 2008-12-16 Shutterfly, Inc. Image ranking for imaging products and services
US20080002225A1 (en) * 2006-06-27 2008-01-03 Masajiro Iwasaki Printing control method, printing control device, printing sytem, terminal device, program, and recording medium
JP2008040753A (ja) * 2006-08-04 2008-02-21 Ricoh Co Ltd 画像処理装置、方法、プログラムおよび記録媒体
JP2008134954A (ja) * 2006-11-29 2008-06-12 Canon Inc 情報処理装置、その制御方法、及びプログラム
JP4865526B2 (ja) * 2006-12-18 2012-02-01 株式会社日立製作所 データマイニングシステム、データマイニング方法及びデータ検索システム
US8140525B2 (en) * 2007-07-12 2012-03-20 Ricoh Company, Ltd. Information processing apparatus, information processing method and computer readable information recording medium
JP5006764B2 (ja) * 2007-11-08 2012-08-22 キヤノン株式会社 画像処理装置、画像処理方法、プログラム、および記憶媒体
JP5167821B2 (ja) * 2008-01-11 2013-03-21 株式会社リコー 文書検索装置、文書検索方法及び文書検索プログラム
JP5239423B2 (ja) 2008-03-17 2013-07-17 株式会社リコー 情報処理装置,情報処理方法,プログラム,および記録媒体
JP5063465B2 (ja) 2008-04-24 2012-10-31 株式会社リコー 文書管理装置、文書管理方法、情報処理プログラム及び記録媒体
JP5188260B2 (ja) 2008-05-08 2013-04-24 キヤノン株式会社 画像処理装置、画像処理方法ならびにそのプログラムおよび記憶媒体
JP5132416B2 (ja) * 2008-05-08 2013-01-30 キヤノン株式会社 画像処理装置およびその制御方法
JP2009301335A (ja) 2008-06-13 2009-12-24 Ricoh Co Ltd 画像処理装置、画像処理方法及びコンピュータプログラム
JP5736638B2 (ja) 2008-10-20 2015-06-17 株式会社リコー 画像処理装置
JP5274305B2 (ja) * 2009-02-27 2013-08-28 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
JP2010205060A (ja) * 2009-03-04 2010-09-16 Nomura Research Institute Ltd 文書内画像検索方法および文書内画像検索システム
US8363888B2 (en) * 2009-03-18 2013-01-29 Shutterfly, Inc. Proactive creation of photobooks
US8437575B2 (en) * 2009-03-18 2013-05-07 Shutterfly, Inc. Proactive creation of image-based products
JP5366647B2 (ja) * 2009-05-13 2013-12-11 キヤノン株式会社 情報処理装置及び情報処理方法
US20130024208A1 (en) * 2009-11-25 2013-01-24 The Board Of Regents Of The University Of Texas System Advanced Multimedia Structured Reporting
JP5511450B2 (ja) * 2010-03-16 2014-06-04 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
JP5249387B2 (ja) 2010-07-06 2013-07-31 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
US8655893B2 (en) 2010-07-16 2014-02-18 Shutterfly, Inc. Organizing images captured by multiple image capture devices
JP5652299B2 (ja) * 2011-03-31 2015-01-14 大日本印刷株式会社 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラム
JP2013068981A (ja) * 2011-09-20 2013-04-18 Fujitsu Ltd 電子計算機及び画像検索方法
GB2513431B (en) * 2013-04-25 2018-12-05 Testplant Europe Ltd Method for creating a label
US20140351678A1 (en) * 2013-05-22 2014-11-27 European Molecular Biology Organisation Method and System for Associating Data with Figures
JP6998162B2 (ja) * 2017-09-12 2022-01-18 ヤフー株式会社 抽出装置、抽出方法、及び抽出プログラム
US11238215B2 (en) 2018-12-04 2022-02-01 Issuu, Inc. Systems and methods for generating social assets from electronic publications
CN110413814A (zh) * 2019-07-12 2019-11-05 智慧芽信息科技(苏州)有限公司 图像数据库建立方法、搜索方法、电子设备和存储介质
JP7439435B2 (ja) * 2019-09-30 2024-02-28 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7380653B2 (ja) * 2021-05-31 2023-11-15 株式会社リコー 情報処理装置、情報処理方法、情報処理プログラム、情報処理システム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63245556A (ja) * 1987-03-31 1988-10-12 Toshiba Corp 図表データ割付け方法
JPH0362169A (ja) 1989-07-31 1991-03-18 Agency Of Ind Science & Technol 文書検索方法及び文書検索装置
US5191525A (en) * 1990-01-16 1993-03-02 Digital Image Systems, Corporation System and method for extraction of data from documents for subsequent processing
US5325297A (en) * 1992-06-25 1994-06-28 System Of Multiple-Colored Images For Internationally Listed Estates, Inc. Computer implemented method and system for storing and retrieving textual data and compressed image data
JPH06208654A (ja) * 1993-01-08 1994-07-26 Hitachi Software Eng Co Ltd ペン入力図形編集システム
US5845288A (en) * 1995-12-11 1998-12-01 Xerox Corporation Automated system for indexing graphical documents having associated text labels

Also Published As

Publication number Publication date
US6169998B1 (en) 2001-01-02
JPH1125113A (ja) 1999-01-29

Similar Documents

Publication Publication Date Title
JP3694149B2 (ja) 画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US6353840B2 (en) User-defined search template for extracting information from documents
US7647303B2 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
US5821929A (en) Image processing method and apparatus
US6178417B1 (en) Method and means of matching documents based on text genre
US6621941B1 (en) System of indexing a two dimensional pattern in a document drawing
JP2004334334A (ja) 文書検索装置、文書検索方法及び記憶媒体
US6061478A (en) Content-based filing and retrieval system for name cards and hankos
JP2004348706A (ja) 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
JP4785655B2 (ja) 文書処理装置及び文書処理方法
JPH11250071A (ja) 画像データベースの構築方法および画像データベース装置並びに画像情報記憶媒体
JP2004234228A (ja) 画像検索装置、画像検索装置におけるキーワード付与方法、及びプログラム
JP2004334339A (ja) 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
KR20070009338A (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
Shin et al. Document Image Retrieval Based on Layout Structural Similarity.
JPH0314184A (ja) 文書画像再配置ファイリング装置
JP2005151127A5 (ja)
CN113806472B (zh) 一种对文字图片和图像型扫描件实现全文检索的方法及设备
JPH1166196A (ja) 文書画像認識装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004151882A (ja) 情報出力制御方法、情報出力処理システム、プログラム
Diem et al. Semi-automated document image clustering and retrieval
JPH0744573A (ja) 電子ファイリング装置
JPS62106574A (ja) 文書画像フアイル登録検索方式
US20140156593A1 (en) Information processing apparatus, information processing method, and program

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050623

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080701

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090701

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100701

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110701

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120701

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120701

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130701

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees