JP2013161268A - 画像処理装置およびプログラム - Google Patents

画像処理装置およびプログラム Download PDF

Info

Publication number
JP2013161268A
JP2013161268A JP2012022736A JP2012022736A JP2013161268A JP 2013161268 A JP2013161268 A JP 2013161268A JP 2012022736 A JP2012022736 A JP 2012022736A JP 2012022736 A JP2012022736 A JP 2012022736A JP 2013161268 A JP2013161268 A JP 2013161268A
Authority
JP
Japan
Prior art keywords
image
ocr
block
original image
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012022736A
Other languages
English (en)
Inventor
Kazuhiro Otani
和宏 大谷
Shigeru Okada
茂 岡田
Hiroyoshi Kamijo
裕義 上條
Tadashi Amaya
征 天谷
Minoru Sodeura
稔 袖浦
Shinji Hanaoka
新治 花岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2012022736A priority Critical patent/JP2013161268A/ja
Publication of JP2013161268A publication Critical patent/JP2013161268A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】1ページ内に複数の画像を含む元画像データに対して文字認識を行う場合に、1ページ分の元画像データに対する文字認識実行時間の長期化を抑制しながら、1ページ分の元画像データに含まれる画像の中で文字認識が実行されない画像の発生を抑制する。
【解決手段】複数の画像を有する元画像データに対して、複数の画像の配置を解析するレイアウト解析部131と、解析された複数の画像の配置に対応させて、元画像データを複数のブロックに分割するブロック設定部132と、複数のブロックに対して、各ブロックに対するOCR上限時間をそれぞれ設定するOCR制限時間設定部133と、複数のブロックから選択された対象ブロックに対して文字認識を実行し、対象ブロックに対して設定されたOCR制限時間を経過した場合に対象ブロックに対する文字認識を終了し、続いて他のブロックに対して文字認識を開始するOCR実行部137とを備える。
【選択図】図3

Description

本発明は、画像処理装置およびプログラムに関する。
原稿の画像データに対して文字認識処理を実行し、テキストデータを作成する画像処理装置が知られている。
例えば、特許文献1には、予めストップマークが付与された画像に対して文字認識処理を実行し、文字認識処理中にストップマークを認識した場合には、以後の文字認識処理を中止する技術が記載されている。
特開平10−232904号公報
本発明は、1ページ内に複数の画像を含む元画像データに対して文字認識を行う場合に、1ページ分の元画像データに対する文字認識実行時間の長期化を抑制しながら、1ページ分の元画像データに含まれる複数の画像の中で文字認識が実行されない画像の発生を抑制することを目的とする。
請求項1記載の発明は、複数の画像を有する1ページ分の元画像データに対して、複数の画像の配置を解析する解析手段と、
前記解析手段によって解析された複数の画像の配置に対応させて、前記元画像データを、それぞれが画像を有する複数の領域に分割する分割手段と、
前記分割手段により分割された複数の前記領域に対して、各領域に対する文字認識を実行する際の上限時間をそれぞれ設定する上限時間設定手段と、
複数の前記領域から選択された対象領域に対して、当該対象領域に対する文字認識を実行し、当該対象領域に対して設定された上限時間を経過した場合に当該対象領域に対する文字認識を終了し、続いて複数の当該領域のうち当該対象領域とは異なる他の領域に対して文字認識を開始する文字認識実行手段とを備える画像処理装置である。
請求項2記載の発明は、前記上限時間設定手段は、複数の前記領域に対して、各領域の面積に応じて上限時間をそれぞれ設定することを特徴とする請求項1記載の画像処理装置である。
請求項3記載の発明は、複数の前記領域に対して、各領域内で文字認識を実行する認識順序を、各領域が有する画像の内容に基づいて当該領域ごとに設定する順序設定手段を更に含み、前記文字認識実行手段は、前記順序設定手段により前記対象領域に設定された認識順序に基づいて、当該対象領域に対して文字認識を実行することを特徴とする請求項1または2記載の画像処理装置である。
請求項4記載の発明は、前記順序設定手段は、それぞれの前記領域に対して、各領域内に含まれる文字画像のうち特徴点を有する文字画像から文字認識を実行するように認識順序を設定することを特徴とする請求項3記載の画像処理装置である。
請求項5記載の発明は、前記順序設定手段は、各領域内に含まれる文字画像のうち、大きさが相対的に大きい文字画像から文字認識を実行するように、認識順序を設定することを特徴とする請求項4記載の画像処理装置である。
請求項6記載の発明は、前記順序設定手段は、各領域内に含まれる文字画像のうち、予め設定された基準色とは異なる色の文字画像から文字認識を実行するように、認識順序を設定することを特徴とする請求項4記載の画像処理装置である。
請求項7記載の発明は、前記順序設定手段は、複数の前記領域のうち表画像を有する領域について、当該表画像に対して予め設定された位置から文字認識を実行するように、認識順序を設定することを特徴とする請求項3記載の画像処理装置である。
請求項8記載の発明は、前記順序設定手段は、複数の前記領域のうち枠画像を有する領域について、当該枠画像の内側に位置する画像よりも先に当該枠画像の外側に位置する画像から文字認識を実行するように、認識順序を設定することを特徴とする請求項3記載の画像処理装置である。
請求項9記載の発明は、前記解析手段に対して複数ページの前記元画像データを有する元画像ファイルが入力される場合に、当該元画像ファイルにおける各ページの重要度に関する情報を受け付ける受付手段を更に含み、前記上限時間設定手段は、前記元画像データの各領域に対して、前記受付手段が受け付けた情報に基づいて、当該元画像データのページに応じて上限時間を設定することを特徴とする請求項1乃至8のいずれか1項記載の画像処理装置である。
請求項10記載の発明は、複数の画像を有する1ページ分の元画像データに対して、複数の画像の配置を解析する機能と、
解析された複数の画像の配置に対応させて、前記元画像データを、それぞれが画像を含む複数の領域に分割する機能と、
分割された複数の前記領域に対して、各領域に対する文字認識を実行する際の上限時間をそれぞれ設定する機能と、
複数の前記領域から選択された対象領域に対して、当該対象領域に対する文字認識を実行し、当該対象領域に対して設定された上限時間を経過した場合に当該対象領域に対する文字認識を終了し、続いて複数の当該領域のうち当該対象領域とは異なる他の領域に対して文字認識を開始する機能とをコンピュータに実現させるためのプログラムである。
請求項1記載の発明によれば、本構成を有さない場合と比較して、1ページ内に複数の画像を含む元画像データに対して文字認識を行う場合に、1ページ分の元画像データに対する文字認識実行時間の長期化を抑制しながら、1ページ分の元画像データに含まれる複数の画像の中で文字認識が実行されない画像の発生を抑制することができる。
請求項2記載の発明によれば、本構成を有さない場合と比較して、1ページ分の元画像データに含まれる複数の画像間で、文字認識が実行される部分の割合の差を小さくすることが可能になる。
請求項3記載の発明によれば、本構成を有さない場合と比較して、各画像において優先度が高い部分を、文字認識しやすくすることができる。
請求項4記載の発明によれば、本構成を有さない場合と比較して、特徴点を有する文字画像を、他の文字画像よりも優先的に文字認識することが可能になる。
請求項5記載の発明によれば、本構成を有さない場合と比較して、大きさが相対的に大きい文字画像を、他の文字画像よりも優先的に文字認識することが可能になる。
請求項6記載の発明によれば、本構成を有さない場合と比較して、基準色とは異なる色の文字画像を、他の文字画像よりも優先的に文字認識することが可能になる。
請求項7記載の発明によれば、本構成を有さない場合と比較して、表画像に対して予め設定された位置の画像を、他の画像よりも優先的に文字認識することが可能になる。
請求項8記載の発明によれば、枠画像の外側に位置する画像を、他の画像よりも優先的に文字認識することが可能になる。
請求項9記載の発明によれば、複数ページの元画像データから構成される元画像ファイルに対して文字認識を行う場合に、本構成を有さない場合と比較して、各ページの元画像データにおいて文字認識が実行されない画像の発生を抑制することができる。
請求項10記載の発明によれば、本構成を有さない場合と比較して、1ページ内に複数の画像を含む元画像データに対して文字認識を行う場合に、1ページ分の元画像データに対する文字認識実行時間の長期化を抑制しながら、1ページ分の元画像データに含まれる複数の画像の中で文字認識が実行されない画像の発生を抑制することができる。
本実施の形態が適用される画像処理システムの構成例を示す図である。 本実施の形態が適用される画像読取装置の内部の構成を示す図である。 本実施の形態の画像読取装置により実行することができる機能的な構成を表す図である。 テキストデータ付PDF作成部にて作成されるテキストデータ付PDFの構成を説明する図である。 テキストデータ付PDFを作成する手順の一例を示したフローチャートである。 テキストレイヤーを作成する手順の一例を示したフローチャートである。 元画像データに対してOCR処理を実行する手順を説明するための図である。 本実施の形態の他の画像処理例を説明するための図である。 本実施の形態の他の画像処理例を説明するための図である。 本実施の形態の他の画像処理例を説明するための図である。
以下、添付図面を参照して、本発明における実施の形態について詳細に説明する。
図1は本実施の形態が適用される画像処理システムの構成例を示す図である。この画像処理システムは、複合機30、クライアントPC40およびネットワーク50を備えており、複合機30とクライアントPC40とはネットワーク50を介して接続されている。
なお、本実施の形態の複合機30は、スキャン機能、コピー機能、プリント機能およびファクシミリ機能を備えている。
複合機30は、画像読取装置10と画像形成装置20とを備えている。本実施の形態では、画像読取装置10および画像形成装置20は、それぞれネットワーク50に接続され、また、画像読取装置10と画像形成装置20とは、互いにローカルケーブル(図示略)等で接続されている。
画像読取装置10は、原稿を読み取ってRGB色の元画像データ61(後述する図7参照)を作成する。また、本実施の形態の画像読取装置10は、読み取った原稿の元画像データ61に対して、OCR(Optical Character Recognition)処理を含む画像処理を行う機能を有している。なお、本発明において、OCR処理とは、画像の文字部分を認識してテキストデータに変換する処理をいう。文字を認識する方法としては、例えば画像の文字部分に光を照射し、その反射光を分析することで文字を読み取る方法等が挙げられるが、本発明は、文字認識の方法を光学的な方法に限るものではない。
画像形成装置20は、画像読取装置10や、ネットワーク50を介して画像形成装置20に接続されるクライアントPC40等から受信した作像用データに基づき、用紙上に画像を形成する。
クライアントPC40は、ネットワーク50を介して画像読取装置10から受信した画像処理後のデータ(テキストデータ付PDF64、図4参照)を、表示部(図示略)に表示する。また、クライアントPC40は、表示部に表示されたテキストデータ付PDF64のテキストレイヤー63(図4参照)に対して、検索を行う検索機能を有している。
図2は、本実施の形態が適用される画像読取装置10の内部の構成を示す図である。
図2に示すように、画像読取装置10は、CPU(Central Processing Unit)11、メモリ12、記憶装置13、通信装置14、UI装置15およびスキャナ16を備える。また、CPU11、メモリ12、記憶装置13、通信装置14、UI装置15およびスキャナ16は、バス18を介して互いに接続されている。
CPU11は、メモリ12に記憶されている各種プログラムに従って各種の処理を実行するとともに、種々の制御信号を生成して各部に供給することで、画像読取装置10を統括的に制御する。
メモリ12は、ROM(Read Only Memory)やRAM(Random Access Memory)等から構成される。そして、メモリ12は、スキャナ16により原稿を読み取ることによって得られる画像データを蓄積し、また、CPU11がプログラムに基づいて画像データに対する処理を実行する際の作業領域として機能する。
記憶装置13は、例えばHDD(Hard Disk Drive)等により構成され、必要に応じて種々のデータを記憶する。
通信装置14は、ネットワーク50を介しての通信処理を行う。
UI装置15は、画像読取装置10における各種条件の設定を受け付け、受け付けた設定データを送信する。
スキャナ16は、1または複数の原稿の画像を読み取り、m(m≧1)ページの元画像データ61(後述する図7参照)から構成される元画像ファイルを作成する。
ここで、CPU11により実行されるプログラムは、画像読取装置10が読み取り可能に記憶した記憶媒体に格納される形態がある。この記憶媒体としては、例えばCD−ROM媒体等が該当する。CD−ROM媒体等に格納されたプログラムは、画像読取装置10に設けられたCD−ROM読取装置に読み取られて、例えば画像読取装置10の記憶装置13等に記憶され、CPU11により実行される。また、これらのプログラムは、例えばプログラム伝送装置によってネットワークを介してノートPCや携帯端末に提供される形態が考えられる。このようなプログラム伝送装置としては、プログラムを格納するメモリと、ネットワークを介してプログラムを提供するプログラム伝送手段とを備えていれば足りる。
図3は、本実施の形態の画像読取装置10により実行することができる機能的な構成を表している。
図3に示すように、画像読取装置10は、取得部110、画像レイヤー作成部120、テキストレイヤー作成部130およびテキストデータ付PDF作成部140を備えている。
取得部110は、スキャナ16から読み込まれた元画像ファイルから、mページ分の元画像データ61(後述する図7参照)をページごとに取得する。
画像レイヤー作成部120は、取得部110が取得した元画像データ61をページごとに読み込み、元画像データ61から画像レイヤー62(後述する図4参照)をページごとに作成する。
テキストレイヤー作成部130は、取得部110が取得した元画像データ61をページごとに読み込み、元画像データ61からテキストレイヤー63(後述する図4参照)をページごとに作成する。
テキストデータ付PDF作成部140は、画像レイヤー作成部120により作成された画像レイヤー62とテキストレイヤー作成部130により作成されたテキストレイヤー63とをページごとに合成することで、テキストデータ付PDF64(後述する図4参照)をページごとに作成する。そして、テキストデータ付PDF作成部140は、mページ分のテキストデータ付PDF64をまとめて出力画像ファイルを作成する。
本実施の形態のテキストレイヤー作成部130は、レイアウト解析部131、ブロック設定部132、OCR制限時間設定部133、OCR順序設定部134、OCR制御部135、計時部136、OCR実行部137、OCRデータレイアウト部138および指示受付部139から構成されている。
解析手段の一例としてのレイアウト解析部131は、取得部110にて取得した元画像データ61が有する画像のレイアウトを解析する。レイアウト解析部131は、例えば、背景に対するコントラストで情報(文字、絵等)の塊を抽出したり、色調の連続性等から画像領域を抽出したりすることによって、元画像データ61における画像のレイアウトを解析する。
分割手段の一例としてのブロック設定部132は、レイアウト解析部131により解析された元画像データ61における画像のレイアウトを基にして、各ページの元画像データ61を複数のブロックに分割する。
上限時間設定手段の一例としてのOCR制限時間設定部133は、ブロック設定部132により設定された各ブロックに対して、それぞれのブロックに含まれる画像にOCR処理を実行する際の制限時間をブロックごとに設定する。
順序設定手段の一例としてのOCR順序設定部134は、ブロック設定部132により設定された各ブロックに対して、それぞれのブロック内で画像をOCR処理する順序を、ブロックごとに設定する。
OCR制御部135は、OCR制限時間設定部133およびOCR順序設定部134にて設定されたOCR条件(OCR制限時間およびOCR処理順序)に基づいてOCR実行部137を制御する。また、OCR制御部135は、計時部136に対して計時の開始を指示する。
計時部136は、時計を内蔵しており、OCR制御部135からの指示を受けて計時を行って、OCR制限時間設定部133により設定されたOCR制限時間が経過したことをOCR制御部135に対して出力する。
文字認識実行手段の一例としてのOCR実行部137は、OCR制御部135からの指示を受けて、元画像データ61に対してブロックごとにOCR処理を実行する。
OCRデータレイアウト部138は、OCR実行部137にて実行されたOCR処理により得られた結果(OCR処理により認識したテキストデータ)を、ブロック設定部132により設定されたブロックに基づいて配置し、テキストレイヤー63を作成する。
受付手段の一例としての指示受付部139は、例えばUI装置15等から入力された指示を受け付け、OCR制限時間設定部133に対して指示を出力する。
図4は、テキストデータ付PDF作成部140にて作成されるテキストデータ付PDF64の構成を説明する図である。
図4に示すように、本実施の形態のテキストデータ付PDF64は、元画像データ61(後述する図7参照)から作成した画像レイヤー62と、元画像データ61をOCR処理することで得た文字情報を含むテキストレイヤー63とを重ね合わせた構造を有している。なお、テキストレイヤー63は透明であり、例えばクライアントPC40の表示部にテキストデータ付PDF64を表示した場合には、画像レイヤー62のみが視認できる。
図5は、本実施の形態の画像読取装置10において、テキストデータ付PDF64を作成する手順の一例を示したフローチャートである。
図5に示すように、まず、取得部110が、m(m≧1)ページからなる元画像データ61を読み込んで取得し(ステップ201)、nを1に設定する(ステップ202)。
次に、画像レイヤー作成部120は、mページ分の元画像データのうちnページ目(最初は1ページ目)の元画像データ61から、nページ目の画像レイヤー62を作成する(ステップ203)。
続いて、テキストレイヤー作成部130は、mページ分の元画像データのうちnページ目の元画像データ61から、nページ目のテキストレイヤー63を作成する(ステップ204)。
さらに続いて、テキストデータ付PDF作成部140は、ステップ203にて作成されたnページ目の画像レイヤー62と、ステップ204にて作成されたnページ目のテキストレイヤー63とを合成することで、nページ目のテキストデータ付PDF64を作成する(ステップ205)。
次に、テキストデータ付PDF作成部140は、テキストデータ付PDF64を作成したページが最終ページ(mページ)か否かを判定する(ステップ206)。
テキストデータ付PDF64を作成したページが最終ページではないと判断した場合(ステップ206でNO)には、取得部110はnをn+1に設定し(ステップ207)、ステップ203に戻って、次のページの画像レイヤー62、テキストレイヤー63およびテキストデータ付PDF64の作成を行う。その後、取得部110が取得した全てのページ(mページ分)の元画像データ61からテキストデータ付PDF64を形成するまで、ステップ203〜207を繰り返す。
一方、ステップ206にて、テキストデータ付PDF64を作成したページが最終ページ(mページ)であると判断された場合(ステップ206でYES)には、テキストデータ付PDF作成部140は、作成した全てのページ(mページ分)のテキストデータ付PDF64をまとめて出力画像ファイルとして保存し(ステップ208)、テキストデータ付PDF64の作成を終了する。
出力画像ファイルに含まれるmページ分のテキストデータ付PDF64は、画像読取装置10とネットワーク50を介して接続されるクライアントPC40からの指示等により、クライアントPC40の表示部に表示される。これにより、ユーザは、画像読取装置10によって作成されたテキストデータ付PDF64を閲覧することができる。そして、ユーザは、クライアントPC40にてテキストデータ付PDF64を閲覧している場合に、クライアントPC40が有する検索機能によって、表示部に表示されたテキストデータ付PDF64のテキストレイヤー63に含まれる文字情報を検索することができる。
続いて、上述したステップ204のテキストレイヤー63を作成する手順について、より詳細に説明する。図6は、テキストレイヤー63を作成する手順の一例を示したフローチャートである。
まず、レイアウト解析部131が、元画像データ61が有する画像の配置を解析する(ステップ301)。なお、本実施の形態において元画像データ61が有する「画像」とは、文字、絵、写真等がひと塊になったものを指す。
続いて、ブロック設定部132が、元画像データ61における画像のレイアウト解析結果に基づいて、元画像データ61を複数の領域に分割し、それぞれの領域にブロックを設定する(ステップ302)。元画像データ61は、元画像データ61が有する複数の画像の配置に対応するように分割され、ブロックが設定される。
次に、OCR制限時間設定部133が、ブロック設定部132にて設定された各ブロック内の画像をOCR処理するための制限時間(以下、OCR制限時間)を、ブロックごとに設定する(ステップ303)。
また、指示受付部139がUI装置15等から入力された指示を受け付けた場合には、OCR制限時間設定部133は、ステップ303において、指示受付部139が受け付けた指示内容に基づいて、ブロックごとにOCR制限時間を設定する。指示受付部139が受け付ける指示の内容としては、詳細については後述するが、元画像ファイルが複数ページの元画像データ61から構成される場合に、元画像データ61ごとにOCR制限時間を変更する指示等が挙げられる。
続いて、OCR順序設定部134が、ブロック設定部132にて設定された各ブロック内で画像をOCR処理する順序を、各ブロックに対して設定する(ステップ304)。
OCR順序設定部134は、取得部110にて取得した元画像データ61に対して、ブロックごとに予備的なOCR処理を行うことで、各ブロック内に含まれる画像の内容を把握する。画像の内容としては、画像の種類(文字画像、表画像、写真画像、罫線画像、枠画像等)やこれらの画像の有無等が挙げられる。また、画像に文字画像が含まれる場合には、画像の内容として、大きさ(ポイント数)や色等のその文字画像の視覚的な特徴や、複数の文字画像の配列等が挙げられる。そして、OCR順序設定部134は、読み取った画像の内容を基にして、各ブロック内で画像をOCR処理する順序をブロックごとに設定する。
次に、OCR実行部137が、OCR制御部135からの指示を受けて、複数のブロックのうち対象となるブロック(以下、対象ブロック)に対してOCR処理を実行する(ステップ306)。
また、OCR制御部135は、計時部136に対して、計時を開始するよう指示を行う。
なお、元画像データ61における全てのブロックに対してOCR処理が終了したか否かの判定(ステップ305)は、最初のブロックに対するOCR処理が終了し、後述するステップ307またはステップ308からステップ305へ戻ってきた場合に実行する。
続いて、OCR制御部135は、計時部136による計時に基づいて、OCR実行部137が対象ブロックに対するOCR処理を開始してから、対象ブロックに対して設定されたOCR制限時間を経過したか否かの判定を行う(ステップ307)。
対象ブロックに対して設定されたOCR制限時間を経過したと判断した場合(ステップ307でYES)には、対象ブロックにおけるOCR処理を終了してステップ305へ戻って、全てのブロックについてOCR処理が終了したか否かの判断を行った後、ステップ306に進んでOCR処理を行っていない次のブロックに対するOCR処理を行う。
一方、対象ブロックに対して設定されたOCR制限時間を経過していないと判断した場合(ステップ307でNO)には、OCR制御部135により、対象ブロック内の画像についてOCR処理が完了したか否かの判定を行う(ステップ308)。
対象ブロック内のOCR処理が完了したと判断した場合(ステップ308でYES)には、ステップ305に戻って、全てのブロックについてOCR処理が終了したか否かの判断を行った後、ステップ306に進んでOCR処理を行っていない次のブロックに対するOCR処理を行う。
一方、対象ブロック内の画像についてOCR処理が完了していないと判断した場合(ステップ308でNO)には、ステップ306に戻って、対象ブロックにおけるOCR処理を続行する。
以降、1ページ分の元画像データ61に設定された全てのブロックの画像に対してOCR処理が完了するまで、ステップ305〜ステップ308の各工程を実行する。
ステップ305において、1ページ分の元画像データ61に設定された全てのブロックに対するOCR処理が完了したと判断された場合(ステップ305でYES)には、ステップ309に移る。
ステップ309では、OCRデータレイアウト部138が、ステップ306にて読み取った各ブロック内における各画像のOCR結果を、それぞれのブロックの配置に合わせて並べる。
以上の工程により、1ページ分の元画像データ61に対応する1ページ分のテキストレイヤー63を得ることができる。
続いて、テキストレイヤー63を作成する各ステップにおける具体的な処理方法を、画像処理例1〜8として説明する。
[画像処理例1]
図7は、元画像データ61に対してOCR処理を実行する手順を説明するための図である。図7(a)は、本実施の形態の画像処理例における1ページ分の元画像データ61の模式図である。図7(a)に示すように、この例では、1ページ分の元画像データ61は、5つの画像P1〜P5を有している。各画像P1〜P5は、それぞれ複数の文字がひと塊になって構成されており、それぞれの画像P1〜P5は、互いに視覚的に分離されている。
ステップ301において、レイアウト解析部131は、元画像データ61に対して、これらの画像P1〜P5それぞれの配置、形状等を解析する。
図7(b)は、ステップ302においてブロックA1〜A5が設定された元画像データ61の模式図である。図7(b)に示すように、それぞれのブロックは、元画像データ61における画像の配置に基づいて設定され、例えばこの例では、画像P1を囲むようにブロックA1が設定される。同様に、画像P2を囲むようにブロックA2が設定され、画像P3を囲むようにブロックA3が設定され、画像P4を囲むようにブロックA4が設定され、画像P5を囲むようにブロックA5が設定される。
図7(c)は、ステップ303においてブロックA1〜A5にそれぞれ設定されたOCR制限時間t1〜t5の長さを示す模式図である。また、図7(d)は、ブロックA1に設定されたOCR制限時間t1の構成を示す模式図である。
図7(c)に示すように、本画像処理例では、各ブロックにおけるOCR制限時間を、それぞれのブロックの面積に応じて設定している。具体的に説明すると、図7(d)に示すように、ブロックA1におけるOCR制限時間t1は、ブロックA1の面積内に入る想定ポイント(例えば10ポイント)の文字の数に、想定ポイントの文字1文字をOCR処理するのにかかる平均的な時間をかけて算出された時間t1aに、予備分の時間t1bを加えることで得られる(t1=t1a+t1b)。なお、予備分の時間t1bは、必ずしもOCR制限時間t1に含める必要はないが、ブロックA1内の画像P1においてOCR処理が実行されない部分が発生するのを抑制するためには、OCR制限時間t1に予備分の時間t1bを含めることが好ましい。
図示は省略するが、同様に、ブロックA2〜A5におけるOCR制限時間t2〜t5も、それぞれブロックA2〜A5の面積に応じて算出された時間に、予備分の時間を加えることで得られる。
続いて、ステップ304において、各ブロックA1〜A5に対して、それぞれのブロック内での画像をOCR処理する順序をブロックごとに設定する。
図7(b)に示すように、本画像処理例では、ブロックA1に含まれる画像P1は、黒色で且つ互いに大きさが等しい複数の文字画像が並ぶことで構成されている。同様に、ブロックA2〜A5に含まれる画像P2〜P5は、それぞれ、黒色で且つ互いに大きさが等しい複数の文字画像が並ぶことで構成されている。
この場合、ステップ304においてOCR順序設定部134は、ブロックA1における画像P1の上から下に向かって1行ずつ順に文字画像を読むように、ブロックA1に対してOCR処理を行う順序を設定する。同様に、OCR順序設定部134は、ブロックA2〜A5に対しても、それぞれのブロックにおける画像の上から下に向かって1行ずつ順にOCR処理を行うように、それぞれOCR処理を行う順序を設定する。
次に、ステップ306において、ブロックA1〜A5のうち対象となるブロックに対してOCR処理を実行する。本画像処理例では、まずブロックA1の画像P1に対してOCR処理を実行する。
OCR制御部135は、ステップ304にて設定されたOCR処理順序の通り、ブロックA1内の画像P1に対してOCR処理を行うように、OCR実行部137に対して指示を行う。そして、OCR制御部135から指示を受けたOCR実行部137は、指示されたOCR処理順序に基づいて、ブロックA1内の画像P1に対してOCR処理を実行する。
続いて、ステップ307においてブロックA1に対するOCR処理を開始してからOCR制限時間t1を経過したと判断された場合、または、ステップ308においてブロックA1内の画像P1についてのOCR処理が完了したと判断された場合には、ブロックA1に対するOCR処理の実行を終了して、ブロックA2に対するOCR処理の実行へ移る。なお、本画像処理例では、1ページ分の元画像データ61に対して、ブロックA1、ブロックA2、ブロックA3、ブロックA4、ブロックA5の順で、OCR処理を実行するものとした。
以下、ブロックA1の画像P1に対するOCR処理と同様に、ブロックA2〜A5の画像P2〜P5に対してそれぞれOCR処理を実行することで、本画像処理例におけるテキストレイヤー63を得ることができる。
なお、この例では、元画像データ61の左上側から右下側に向かって、ブロックA1からブロックA5まで順にOCR処理を実行するものとした。しかし、元画像データ61において、どのブロックからOCR処理を開始するか、および、ブロック単位でのOCR処理の順序はこれに限られず、変更することができる。
なお、本実施の形態では、上述したように、設定したOCR制限時間を経過してもブロック内のOCR処理が完了しなかった場合には、そのブロックのOCR処理の実行を終了し、次のブロックのOCR処理の実行へ移ることとしている。したがって、それぞれのブロックに含まれる各画像において、全てに対してはOCR処理を行えず、各画像における一部の部分に対してOCR処理を行う場合がある。このような場合には、ブロック内の画像において重要なキーワードが含まれる部分を優先的にOCR処理することで、作成されるテキストデータ付PDF64(図4参照)において、このキーワードを検索可能にすることが好ましい。
続いて、1ページ分の元画像データ61が分割されたブロック内において、重要なキーワードが含まれる部分を、他の部分よりも優先的にOCR処理する手順について、画像処理例2〜7として説明する。
なお、ステップ301のレイアウト解析、ステップ302のブロック設定およびステップ303のOCR制限時間設定は、以下に説明する画像処理例2〜7についても上記画像処理例1と同様に行う。したがって、以下の画像処理例2〜7においては、主にステップ304のOCR処理順序設定およびステップ306のOCR処理について説明を行う。
[画像処理例2]
図8(a)は、本実施の形態の画像処理例2を説明するための図であり、ステップ301のレイアウト解析およびステップ302のブロック設定を行った後の元画像データ61を示している。図8(a)に示すように、この例の元画像データ61は、画像処理例1における元画像データ61と同様に、5つの画像P1〜P5を有しており、画像P1〜P5の配置に対応させて、5つのブロックA1〜A5に分割されている。
また、この例のブロックA2内に位置する画像P2は、画像処理例1とは異なり、「かきくけこ・・・」という文字画像と、この「かきくけこ・・・」よりもフォントが大きい「タイトル」という文字画像とを有している。
なお、この例における元画像データ61の構成は、画像P2以外は図7(a)(b)に示す画像処理例1の元画像データ61と同様である。
ステップ304においてOCR順序設定部134(図3参照)は、ブロック内に画像P2における「タイトル」のように、他の文字画像よりもフォントが大きく他の文字画像から独立した文字画像がブロック内にある場合には、このような文字画像をブロック内で他の文字画像よりも先にOCR処理するように、OCR処理順序を設定する。この例では、ブロックA2内の画像P2において、まず初めに「タイトル」の部分をOCR処理し、続いて、「かきくけこ・・・」の部分をOCR処理するように設定を行う。
そして、ステップ306のOCR処理では、ステップ304で設定されたように、初めに「タイトル」の部分のOCR処理を実行し、続いて、「かきくけこ・・・」の部分のOCR処理を実行する。
なお、画像処理例1と同様に、ブロックA2に設定されたOCR処理時間が経過した場合には、ブロックA2内の画像P2に対するOCR処理が完了していない場合でも、ブロックA2に対するOCR処理の実行を終了し、次のブロックに対するOCR処理の実行へ移る。
ここで、一般に、他の文字と比較してフォントが大きい文字は、タイトル等の重要なキーワードであることが多い。したがって、上述したようにブロック内をOCR処理する際の制限時間を設けた場合であっても、本画像処理例のように、他の文字画像よりもフォントが大きい文字画像を他の文字画像よりも先にOCR処理するように設定することによって、重要なキーワードがOCR処理の対象から漏れるのを抑制することができる。
なお、図8(a)に示す本画像処理例では、他の文字画像(「かきくけこ・・・」)よりもフォントが大きい「タイトル」という文字画像が、画像P2の1行目にある場合について説明した。しかし、フォントが大きい文字画像が存在する場所は画像の1行目に限られず、例えばフォントが大きい文字画像が画像の中段にある場合であっても、このフォントが大きい文字画像を他の文字画像よりも先にOCR処理するように、OCR処理順序を設定することができる。
[画像処理例3]
図8(b)は、本実施の形態の画像処理例3を説明するための図であり、ステップ301のレイアウト解析およびステップ302のブロック設定を行った後の元画像データ61を示している。図8(b)に示すように、この例の元画像データ61は、画像処理例1における元画像データ61と同様に、5つの画像P1〜P5を有しており、画像P1〜P5の配置に対応させて、5つのブロックA1〜A5に分割されている。
また、この例のブロックA3内に位置する画像P3は、それぞれ画像P3における上段と下段とに位置し、互いにフォントの大きさが等しい「さしすせそ・・・」および「ざじずぜぞ・・・」という文字画像と、これらの文字画像に挟まれるとともに、OCR処理を行う想定ポイント数よりもフォントが小さい「サシスセソ・・・」という文字画像を有している。
なお、この例における元画像データ61の構成は、画像P3以外は図7(a)(b)に示す画像処理例1の元画像データ61と同様である。
ステップ304においてOCR順序設定部134(図3参照)は、画像P3における「サシスセソ・・・」のようにOCRを行う想定ポイント数よりもフォントが小さい文字画像があった場合、OCR順序設定部134(図3参照)は、このような文字画像に対してOCR処理を実行しない設定を行う。したがってこの例では、例えば、「さしすせそ・・・」の文字列をOCR処理した後、「サシスセソ・・・」の文字列についてはOCR処理を実行しないで、「ざじずぜぞ・・・」の文字列をOCR処理するように設定を行う。
そして、ステップ306のOCR処理では、ステップ304で設定されたように、初めに「さしすせそ・・・」の部分のOCR処理を実行し、「サシスセソ・・・」の部分はOCR処理を実行せずに、続いて、「ざじずぜぞ・・・」の部分のOCR処理を実行する。
なお、画像処理例1と同様に、ブロックA3に設定されたOCR処理時間が経過した場合には、ブロックA3内の画像P3に対するOCR処理が完了していない場合でも、ブロックA3に対するOCR処理の実行を終了し、次のブロックに対するOCR処理の実行へ移る。
ここで、一般に、OCR処理装置、OCR処理プログラム等によるOCR処理は、読み取る画像における文字画像の大きさをある程度想定して行われている(例えば、10ポイント程度)。そして、読み取る文字が想定されている大きさよりも小さい場合(例えば、4ポイント以下の場合)には、読み取る文字画像が想定の大きさの範囲内である場合と比較して、文字画像を認識するのに時間がかかり、また、正常に文字認識できない場合が多い。したがって、本実施の形態のようにブロックごとにOCR処理を行う際の制限時間を設けた場合に、このような小さい文字画像に対するOCR処理を実行した場合には、小さい文字画像を認識するのに時間がかかることで、ブロック内の他の部分の文字画像に対してOCR処理を実行できず、重要なキーワードを認識できなくなるおそれがある。
一方、本画像処理例では、OCR処理にて想定されている大きさよりも小さい文字画像については、OCR処理を実行しない設定とした。これにより、ブロック内をOCR処理する際の制限時間を設けた場合であっても、本構成を有しない場合と比較して、ブロック内のより多くの文字画像に対してOCR処理を実行することが可能になり、重要なキーワードがOCR処理の対象から漏れるのを抑制することができる。
なお、本画像処理例では、ステップ304のOCR処理順序設定において、OCR処理の想定よりも小さい文字画像についてはOCR処理を実行しない設定としたが、例えば、OCR処理の想定よりも小さい文字画像をブロック内で最後にOCR処理するように、OCR処理順序を設定するものとしてもよい。
このように設定した場合には、例えば図8(b)に示す例では、ステップ306のOCR処理において、「さしすせそ・・・」、「ざじずぜぞ・・・」の部分に対してOCR処理を実行した後、ブロックA3における制限時間を経過していない場合に、「サシスセソ・・・」の部分のOCR処理を実行することになる。
[画像処理例4]
図9(a)は、本実施の形態の画像処理例4を説明するための図であり、ステップ301のレイアウト解析およびステップ302のブロック設定を行った後の元画像データ61を示している。図9(a)に示すように、この例の元画像データ61は、画像処理例1における元画像データ61と同様に、5つの画像P1〜P5を有しており、画像P1〜P5の配置に対応させて、5つのブロックA1〜A5に分割されている。
また、この例のブロックA3内に位置する画像P3は、3行4列の表からなる表画像である。
なお、この例における元画像データ61の構成は、画像P3以外は図7(a)(b)に示す画像処理例1の元画像データ61と同様である。
ステップ304においてOCR順序設定部134(図3参照)は、ブロックA3のようにブロック内に表画像が存在した場合には、表画像における複数の升目のうち項目部分(1行目および1列目)の升目を、表画像における1行目および1列目以外の升目よりも先にOCR処理するように、OCR処理順序を設定する。
そして、ステップ306のOCR処理では、ステップ304で設定されたように、表画像の1行目および1列目の升目に対してOCR処理を実行した後、表画像の他の升目についてOCR処理を実行する。図9(a)に示す例では、まず、表画像の1行目である「項目」「ABC」「DEF」「GHI」の部分、および表画像の1列目である「UVW」「XYZ」の部分に対してOCR処理を実行した後、表画像の他の升目(1行目および1列目以外の升目)に対してOCR処理を実行する。
なお、画像処理例1と同様に、ブロックA3に設定されたOCR処理時間が経過した場合には、ブロックA3内の画像P3に対するOCR処理が完了していない場合でも、ブロックA3に対するOCR処理の実行を終了し、次のブロックに対するOCR処理の実行へ移る。
ここで、一般に、表画像の1行目および1列目の升目には、表の項目が記載され、表画像の1行目および1列目以外の升目には、数値や判定結果等のデータが記載されることが多い。したがって、表画像の1行目および1列目の升目には、表画像の1行目および1列目以外の升目と比較して、重要なキーワードが含まれる場合が多い。したがって、ブロック内をOCR処理する際の制限時間を設けた場合であっても、本画像処理例のように、表画像の1行目および1列目の升目を、表画像の他の升目よりも先にOCR処理するように設定することによって、重要なキーワードがOCR処理の対象から漏れるのを抑制することができる。
[画像処理例5]
図9(b)は、本実施の形態の画像処理例5を説明するための図であり、ステップ301のレイアウト解析およびステップ302のブロック設定を行った後の元画像データ61を示している。図9(b)に示すように、この例の元画像データ61は、画像処理例1における元画像データ61と同様に、5つの画像P1〜P5を有しており、画像P1〜P5の配置に対応させて、5つのブロックA1〜A5に分割されている。
また、この例のブロックA3内に位置する画像P3は、3行4列の表からなる表画像である。本画像処理例における画像P3の表は、画像処理例4における表とは異なり、表の上側に「タイトル1」が存在し、表の下側に「タイトル2」が存在している。
なお、この例における元画像データ61の構成は、画像P3以外は図7(a)(b)に示す画像処理例1の元画像データ61と同様である。
ステップ304においてOCR順序設定部134(図3参照)は、ブロックA3のようにブロック内に、上側および/または下側にタイトルを有する表画像が存在した場合、OCR順序設定部134(図3参照)では、表の上側および/または下側に存在するタイトルのOCR処理を実行した後、表の内部(升目)に対してOCR処理を実行する設定を行う。
表画像の升目に対するOCR処理は、上述の画像処理例4に記載したように、表の1行目および1列目の升目から実行することが好ましい。したがって、OCR順序設定部134は、表の上側および/または下側に存在するタイトルのOCR処理を先に実行した後に、表の1行目および1列目の升目に対してOCR処理を実行するように、OCR処理順序を設定する。
そして、ステップ306のOCR処理では、ステップ304で設定されたように、まず、表の上側および/または下側に存在するタイトル部分のOCR処理を実行する。続いて、表の1行目および1列目の升目に対してOCR処理を実行した後、表の1行目および1列目以外の升目に対してOCR処理を実行する。
図9(b)に示す例では、まず表の上側に存在する「タイトル1」および表の下側に存在する「タイトル2」の部分についてOCR処理を実行する。続いて、表の1行目である「項目」「ABC」「DEF」「GHI」の部分、および表の1列目である「UVW」「XYZ」の部分についてOCR処理を実行した後、表の他の升目(1行目および1列目以外の升目)に対してOCR処理を実行する。
一般に、表にタイトルが付されている場合には、表の内部の升目と比較して、タイトルに重要なキーワードが含まれていることが多い。したがって、ブロック内をOCR処理する際の制限時間を設けた場合であっても、本画像処理例のように、表のタイトル部分を、表の内部よりも先にOCR処理するように設定することによって、重要なキーワードがOCR処理の対象から漏れるのを抑制することができる。
[画像処理例6]
図10(a)は、本実施の形態の画像処理例6を説明するための図であり、ステップ301のレイアウト解析およびステップ302のブロック設定を行った後の元画像データ61を示している。図10(a)に示すように、この例の元画像データ61は、画像処理例1における元画像データ61と同様に、5つの画像P1〜P5を有しており、画像P1〜P5の配置に対応させて、5つのブロックA1〜A5に分割されている。
また、この例のブロックA3内に位置する画像P3は、画像処理例1とは異なり、通常の文字色(通常色、この例では黒)の「さしすせそ・・・」という文字画像と、この通常色とは異なる文字色の「サシスセソ・・・」という文字画像とを有している。以下では、通常色とは異なる文字色の文字画像を「色文字画像」と呼ぶ。
なお、この例における元画像データ61の構成は、画像P3以外は図7(a)(b)に示す画像処理例1の元画像データ61と同様である。
ステップ304においてOCR順序設定部134(図3参照)は、ブロック内に画像P3における「サシスセソ・・・」のような色文字画像がある場合には、このような色文字画像を通常色の文字画像よりも先にOCR処理するように、OCR処理順序を設定する。この例では、ブロックA3内の画像P3において、まず初めに、色文字画像である「サシスセソ・・・」の部分をOCR処理し、続いて、通常色の文字画像の「さしすせそ・・・」の部分をOCR処理するように設定を行う。
そして、ステップ306のOCR処理では、ステップ304で設定されたように、初めに色文字画像である「サシスセソ・・・」の部分のOCR処理を実行し、続いて、通常色の文字画像である「さしすせそ・・・」の部分のOCR処理を実行する。
なお、画像処理例1と同様に、ブロックA3に設定されたOCR処理時間が経過した場合には、ブロックA3内の画像P3に対するOCR処理が完了していない場合でも、ブロックA3に対するOCR処理の実行を終了し、次のブロックに対するOCR処理の実行へ移る。
ここで、一般に、文章において強調したい重要キーワード等を、他の文字とは異なる色の色文字で示すことがある。すなわち、文章中に、色文字で記載された文字が存在する場合には、この色文字で記載された文字が重要なキーワードであることが多い。したがって、上述したようにブロック内をOCR処理する際の制限時間を設けた場合であっても、本画像処理例のように、他の文字と文字色が異なる文字画像を他の文字画像よりも先にOCR処理するように設定することによって、重要なキーワードがOCR処理の対象から漏れるのを抑制することができる。
なお、本画像処理例では、OCR順序設定部134が、ブロック内において他の文字列とは色が異なる色文字画像の部分を最初にOCR処理するように設定するものとした。しかし、OCR順序設定部134が、OCR処理順序を最初に設定する文字画像としては色文字画像に限られない。例えば、ブロック内において他の文字列とは異なる特徴点を有する文字(太字、下線が引かれた文字、網掛けがされた文字等)を、最初にOCR処理するように設定するものとしてもよい。
本実施の形態において「特徴点を有する文字」の例としては、他の文字よりも大きさが大きい文字や他の文字と色が異なる文字の他、字体が異なる文字、下線や網掛け等を有する文字、太字や斜体字等が挙げられる。
[画像処理例7]
図10(b)は、本実施の形態の画像処理例7を説明するための図であり、ステップ301のレイアウト解析、ステップ302のブロック設定を行った後の元画像データ61を示している。図10(b)に示すように、この例の元画像データ61は、画像処理例1における元画像データ61と同様に、5つの画像P1〜P5を有しており、画像P1〜P5の配置に対応させて、5つのブロックA1〜A5に分割されている。
また、この例のブロックA3に位置する画像P3は、画像処理例1とは異なり、枠によって区切られており、枠の外側に位置し、文字列「さしすせそ・・・」からなる外側画像P3aと、枠の内側に位置し、写真からなる内側画像P3bとを有している。すなわち、この例の画像P3は、枠によって区切られた外側画像P3aと内側画像P3bとからなる二重の構造を呈している。
なお、この例における元画像データ61の構成は、画像P3以外は図7(a)(b)に示す画像処理例1の元画像データ61と同様である。
ステップ304においてOCR順序設定部134(図3参照)は、ブロック内の画像が、画像P3のような外側画像P3aと内側画像P3bとを備える二重構造の画像であった場合には、外側画像P3aを内側画像P3bよりも優先してOCR処理するような設定を行う。この例では、ブロックA3内の画像P3において、最初に外側画像P3aにおける「さしすせそ・・・」の部分を最初にOCR処理するように設定を行う。
そして、ステップ306のOCR処理では、ステップ304で設定されたように、初めに外側画像P3aにおける「さしすせそ・・・」の部分のOCR処理を実行する。
なお、画像処理例1と同様に、ブロックA3に設定されたOCR処理時間が経過した場合には、ブロックA3内の画像P3に対するOCR処理が完了していない場合でも、ブロックA3に対するOCR処理の実行を終了し、次のブロックに対するOCR処理の実行へ移る。
ここで、画像が外側画像と内側画像との二重構造となっている場合、一般に、内側画像には写真やグラフ等のオブジェクトが挿入され、外側画像に内側画像の説明等の文章が記載されることが多い。すなわち、画像が外側画像と内側画像との二重構造となっている場合には、内側画像と比較して外側画像に重要なキーワードが含まれている場合が多い。
したがって、画像が外側画像と内側画像との二重構造となっている場合において、外側画像を最初にOCR処理するように設定することによって、上述したようにブロック内をOCR処理する際の制限時間を設けた場合であっても、重要なキーワードがOCR処理の対象から漏れるのを抑制することができる。
[画像処理例8]
上記画像処理例2〜7においては、複数のブロックに分割された元画像データ61に対して、OCRの処理順序をブロックごとに設定する方法について、ブロックに含まれる画像の種類ごとに説明した。なお、上記の画像処理例2〜7においては、1ページ分の元画像データに対して、ブロックごとにOCR制限時間を設定した場合について説明している。
画像処理例8では、元画像ファイルが複数のページ、すなわち、複数の元画像データ61から構成される場合において、それぞれの元画像データ61に設定されたブロックごとにOCR制限時間を設定するのに加えて、元画像ファイルに含まれる元画像データ61ごとにOCR制限時間を変更する方法について説明する。
元画像ファイルが複数の元画像データ61から構成される場合には、1ページ分の元画像データ61が有する画像の重要度が、元画像データ61ごとに異なる場合がある。このような場合には、各元画像データ61が有する画像の重要度に応じて、OCR制限時間を元画像データ61ごとに異ならせることが好ましい。
一般に、複数のページからなる原稿では、例えば、最初のページ(1ページ目)に表題や要旨が記載される場合がある。そして、表題や要旨には重要なキーワードが含まれる場合が多い。したがって、このような場合には、1ページ目の原稿(元画像データ61)に対してOCRを実行する際の制限時間は、他のページと比較して長くすることが好ましい。
一方、複数のページからなる原稿において、例えば最終ページには、付録(appendix)や引用文献等が記載されることがある。そして、付録や引用文献には、重要なキーワードが含まれる場合が少ない。したがって、このような場合には、全てのページに対するOCR処理にかかる時間を短くするために、最終ページの原稿(元画像データ61)に対してOCRを実行する際の制限時間は、他のページと比較して短くすることが好ましい。
続いて、元画像データ61ごとにOCR制限時間を変更する手順について説明する。
元画像データ61ごとにOCR制限時間を変更する場合には、ユーザはUI装置15に対して、元画像データ61ごとにOCR制限時間を変更する旨、および、OCR制限時間の変更内容等を入力する。なお、OCR制限時間の変更内容とは、例えば、「1ページ目の元画像データ61に対するOCR制限時間を長くする」、「最終ページの元画像データ61に対するOCR制限時間を短くする」等が挙げられる。また、ユーザが、UI装置15に対して、元画像データ61ごとの画像の重要度等を入力する構成としてもよい。この場合には、例えば、「1ページ目の元画像データ61の重要度が高い」、「最終ページの元画像データ61の重要度が低い」等の内容を入力する。
指示受付部139(図3参照)が、UI装置15(図2参照)を介して元画像データ61ごとにOCR制限時間を変更する旨の指示を受け付けた場合には、指示受付部139は、OCR制限時間設定部133(図3参照)に対して指示内容を出力し、OCR制限時間設定部133は、指示内容に基づいて、OCR制限時間を設定する。
上述したように、元画像ファイルが複数ページの元画像データ61から構成される場合には、1ページごとにテキストレイヤー63の作成が行われる。すなわち、1ページごとに元画像データ61が複数のブロックに分割され、1ページ分の元画像データ61が分割された複数のブロックそれぞれに対してOCR制限時間が設定される。そして、上述したように、それぞれのブロックに設定されるOCR制限時間は、各ブロックの面積に応じて算出された時間(上述の例ではt1a)に、予備分の時間(上述の例ではt1b)を加えることで得られる。
元画像データ61ごとにOCR制限時間を変更するには、例えば、ブロックごとのOCR制限時間に含まれる予備分の時間(t1b)を、そのブロックが含まれる元画像データ61の画像の重要度に応じて変更すればよい。
例えば、複数のページのうち1ページ目の元画像データ61からテキストレイヤー63を作成する場合には、1ページ目の元画像データ61を分割した複数のブロックに対して、ブロックごとにOCR制限時間を設定する(ステップ303;図6参照)際に、それぞれブロックのOCR制限時間に含める予備分の時間を通常よりも長く設定する。
一方、複数のページのうち最終ページの元画像データ61からテキストレイヤー63を作成する場合には、最終ページの元画像データ61を分割した複数のブロックに対して、ブロックごとにOCR制限時間を設定する(ステップ303)際に、それぞれブロックのOCR制限時間に含める予備分の時間を通常よりも短く設定する。
これにより、元画像ファイルが複数ページの元画像データ61から構成される場合に、画像の重要度が高いページのOCR制限時間を長くすることができる。したがって、本構成を有さない場合と比較して、画像の重要度が高いページにおいて重要なキーワードの部分がOCR処理の対象から外れるのをより抑制することが可能になる。
また、元画像ファイルが複数ページの元画像データ61から構成される場合に、画像の重要度が低いページのOCR処理時間を短くすることができる。したがって、本構成を有さない場合と比較して、複数ページの元画像データ61から構成される元画像ファイル全体をOCR処理するのにかかる時間を短縮することが可能になる。
本画像処理例においては、元画像ファイルが複数ページの元画像データ61から構成される場合において、1ページ目の画像の重要度が高いものとして、1ページ目の元画像データ61に対するOCR制限時間を長くし、最終ページの画像の重要度が低いものとして、最終ページの元画像データ61に対するOCR制限時間を短くした。しかし、複数のページから構成される元画像データにおいて、ページごとの画像の重要度およびOCR制限時間の設定の仕方等はこれに限られず、変更することができる。
以上説明したように、本実施の形態では、1ページ分の元画像データ61を、元画像データ61が有する複数の画像のレイアウト解析の結果に基づいて、複数のブロックに分割した。そして、複数のブロックのそれぞれに対して、OCR制限時間を設定し、設定したOCR制限時間を経過してもブロック内のOCR処理が完了しなかった場合には、そのブロックのOCR処理の実行を終了し、次のブロックのOCR処理の実行へ移ることとした。
これにより、元画像データ61に含まれる複数のブロックのうち、あるブロックに含まれる画像に対するOCR処理に時間がかかった場合であっても、そのブロックでOCR処理が終了されることなく、次のブロックのOCR処理を行うことが可能になる。
したがって、1ページ分の元画像データ61に対するOCR処理の実行時間が冗長になるのを抑制することが可能になる。さらに、元画像データ61に含まれる複数の画像全てに対して、それぞれ少なくとも一部をOCR処理することが可能になり、複数の画像のうち全くOCR処理が行われない画像が発生するのを抑制することが可能になる。
一方、例えば1ページ分の元画像データ61に対して、画像の配置にかかわらず単純に5等分して5つのブロックを設定した場合には、1つの画像に対して複数の異なるブロックが設定されたり、1つのブロック内に複数の画像が含まれたりする場合がある。このような場合には、ブロックごとに設定したOCR制限時間を経過したらそのブロックのOCR処理の実行を終了し、次のブロックのOCR処理へ移る構成を採用した場合でも、複数の画像において全くOCR処理が実行されない画像が発生するおそれがある。
また、本実施の形態では、元画像データ61を分割したブロックそれぞれに対して、各ブロックの面積(大きさ)の大小と、OCR制限時間の長短とを対応付けるように、OCR制限時間を設定した。
一般にブロックの面積が大きいほど、そのブロック内の画像に含まれる文字が多く、逆にブロックの面積が小さいほど、そのブロック内の画像に含まれる文字が少ない傾向がある。
したがって、本実施の形態では、面積が大きいブロックほどOCR制限時間を長くすることで、本構成を有さない場合と比較して、各ブロック内の画像においてOCR処理が行われない部分が発生するのを抑制することが可能になる。また、面積が小さいブロックほどOCR制限時間を短くすることで、本構成を有さない場合と比較して、複数のブロックに分割された元画像データ61全体をOCR処理するのにかかる時間が長くなるのを抑制することができる。
なお、本実施の形態の各画像処理例では、1ページ分の元画像データ61が5つの画像P1〜P5を有する場合を例に挙げて説明したが、画像の数は5つに限られず、1ページ分の元画像データ61に少なくとも2つの画像が形成されていれば、本発明を適用することが可能である。
また、本実施の形態では、図5および図6のフローチャートに示した各ステップは、記載された時系列に沿って順に実行するものとして説明したが、これらのステップは必ずしも順に実行されなくてもよく、並列的に実行されるステップが存在してもよい。
さらに、本実施の形態では、画像レイヤー62の作成、テキストレイヤー63の作成およびテキストデータ付PDF64の作成等の一連の処理を、画像読取装置10にて実行するものとして説明したが、これらの処理を行うのは画像読取装置10には限られない。例えば、画像読取装置10とネットワーク50を介して接続されたクライアントPC40他の情報処理端末等、および、画像読取装置10に直接接続された情報処理端末等によって実行するようにしてもよい。
また、本実施の形態では、画像読取装置10にて読み取った原稿画像を元画像データ61としたが、例えば、ネットワーク50を介してクライアントPC40等から受け取った画像データや、ファクシミリ等から電子的に受信したビットマップデータ等を元画像データ61としてもよい。
さらにまた、本実施の形態では、Adobe System社によって開発されたPDFフォーマットを用いた例について説明したが、それに類する機能を有する電子文書に対して応用することも可能である。
10…画像読取装置、20…画像形成装置、30…複合機、40…クライアントPC、50…ネットワーク、61…元画像データ、62…画像レイヤー、63…テキストレイヤー、64…テキストデータ付PDF、110…取得部、120…画像レイヤー作成部、130…テキストレイヤー作成部、131…レイアウト解析部、132…ブロック設定部、133…OCR順序設定部、134…OCR制限時間設定部、135…OCR制御部、136…計時部、137…OCR実行、138…OCRデータレイアウト部、139…指示受付部、140…テキストデータ付PDF作成部

Claims (10)

  1. 複数の画像を有する1ページ分の元画像データに対して、複数の画像の配置を解析する解析手段と、
    前記解析手段によって解析された複数の画像の配置に対応させて、前記元画像データを、それぞれが画像を有する複数の領域に分割する分割手段と、
    前記分割手段により分割された複数の前記領域に対して、各領域に対する文字認識を実行する際の上限時間をそれぞれ設定する上限時間設定手段と、
    複数の前記領域から選択された対象領域に対して、当該対象領域に対する文字認識を実行し、当該対象領域に対して設定された上限時間を経過した場合に当該対象領域に対する文字認識を終了し、続いて複数の当該領域のうち当該対象領域とは異なる他の領域に対して文字認識を開始する文字認識実行手段と
    を備える画像処理装置。
  2. 前記上限時間設定手段は、複数の前記領域に対して、各領域の面積に応じて上限時間をそれぞれ設定することを特徴とする請求項1記載の画像処理装置。
  3. 複数の前記領域に対して、各領域内で文字認識を実行する認識順序を、各領域が有する画像の内容に基づいて当該領域ごとに設定する順序設定手段を更に含み、
    前記文字認識実行手段は、前記順序設定手段により前記対象領域に設定された認識順序に基づいて、当該対象領域に対して文字認識を実行すること
    を特徴とする請求項1または2記載の画像処理装置。
  4. 前記順序設定手段は、それぞれの前記領域に対して、各領域内に含まれる文字画像のうち特徴点を有する文字画像から文字認識を実行するように認識順序を設定することを特徴とする請求項3記載の画像処理装置。
  5. 前記順序設定手段は、各領域内に含まれる文字画像のうち、大きさが相対的に大きい文字画像から文字認識を実行するように、認識順序を設定することを特徴とする請求項4記載の画像処理装置。
  6. 前記順序設定手段は、各領域内に含まれる文字画像のうち、予め設定された基準色とは異なる色の文字画像から文字認識を実行するように、認識順序を設定することを特徴とする請求項4記載の画像処理装置。
  7. 前記順序設定手段は、複数の前記領域のうち表画像を有する領域について、当該表画像に対して予め設定された位置から文字認識を実行するように、認識順序を設定することを特徴とする請求項3記載の画像処理装置。
  8. 前記順序設定手段は、複数の前記領域のうち枠画像を有する領域について、当該枠画像の内側に位置する画像よりも先に当該枠画像の外側に位置する画像から文字認識を実行するように、認識順序を設定することを特徴とする請求項3記載の画像処理装置。
  9. 前記解析手段に対して複数ページの前記元画像データを有する元画像ファイルが入力される場合に、当該元画像ファイルにおける各ページの重要度に関する情報を受け付ける受付手段を更に含み、
    前記上限時間設定手段は、前記元画像データの各領域に対して、前記受付手段が受け付けた情報に基づいて、当該元画像データのページに応じて上限時間を設定することを特徴とする請求項1乃至8のいずれか1項記載の画像処理装置。
  10. 複数の画像を有する1ページ分の元画像データに対して、複数の画像の配置を解析する機能と、
    解析された複数の画像の配置に対応させて、前記元画像データを、それぞれが画像を含む複数の領域に分割する機能と、
    分割された複数の前記領域に対して、各領域に対する文字認識を実行する際の上限時間をそれぞれ設定する機能と、
    複数の前記領域から選択された対象領域に対して、当該対象領域に対する文字認識を実行し、当該対象領域に対して設定された上限時間を経過した場合に当該対象領域に対する文字認識を終了し、続いて複数の当該領域のうち当該対象領域とは異なる他の領域に対して文字認識を開始する機能と
    をコンピュータに実現させるためのプログラム。
JP2012022736A 2012-02-06 2012-02-06 画像処理装置およびプログラム Pending JP2013161268A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012022736A JP2013161268A (ja) 2012-02-06 2012-02-06 画像処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012022736A JP2013161268A (ja) 2012-02-06 2012-02-06 画像処理装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2013161268A true JP2013161268A (ja) 2013-08-19

Family

ID=49173456

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012022736A Pending JP2013161268A (ja) 2012-02-06 2012-02-06 画像処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2013161268A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015225459A (ja) * 2014-05-27 2015-12-14 京セラドキュメントソリューションズ株式会社 画像処理装置
JP7493954B2 (ja) 2019-11-14 2024-06-03 キヤノン株式会社 画像処理装置、画像処理装置の制御方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0785080A (ja) * 1993-06-30 1995-03-31 Toshiba Corp 全文書検索システム
JPH09167246A (ja) * 1995-12-14 1997-06-24 Canon Inc 画像処理方法及び装置
JP2000113103A (ja) * 1998-09-30 2000-04-21 Ricoh Co Ltd 文書画像の方向判定方法、装置および記録媒体
JP2004110398A (ja) * 2002-09-18 2004-04-08 Ricoh Co Ltd 文書画像特徴検出方法、検出プログラム及び記録媒体並びに文書画像特徴検出装置
JP2007004724A (ja) * 2005-06-27 2007-01-11 Fuji Xerox Co Ltd 文字検索装置、文字検索方法、及びプログラム
JP2007058510A (ja) * 2005-08-24 2007-03-08 Ricoh Co Ltd 画像処理装置、画像処理方法およびプログラム
JP2009048293A (ja) * 2007-08-15 2009-03-05 Fuji Xerox Co Ltd 情報処理システム、情報処理実行プログラム及び画像処理装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0785080A (ja) * 1993-06-30 1995-03-31 Toshiba Corp 全文書検索システム
JPH09167246A (ja) * 1995-12-14 1997-06-24 Canon Inc 画像処理方法及び装置
JP2000113103A (ja) * 1998-09-30 2000-04-21 Ricoh Co Ltd 文書画像の方向判定方法、装置および記録媒体
JP2004110398A (ja) * 2002-09-18 2004-04-08 Ricoh Co Ltd 文書画像特徴検出方法、検出プログラム及び記録媒体並びに文書画像特徴検出装置
JP2007004724A (ja) * 2005-06-27 2007-01-11 Fuji Xerox Co Ltd 文字検索装置、文字検索方法、及びプログラム
JP2007058510A (ja) * 2005-08-24 2007-03-08 Ricoh Co Ltd 画像処理装置、画像処理方法およびプログラム
JP2009048293A (ja) * 2007-08-15 2009-03-05 Fuji Xerox Co Ltd 情報処理システム、情報処理実行プログラム及び画像処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015225459A (ja) * 2014-05-27 2015-12-14 京セラドキュメントソリューションズ株式会社 画像処理装置
JP7493954B2 (ja) 2019-11-14 2024-06-03 キヤノン株式会社 画像処理装置、画像処理装置の制御方法

Similar Documents

Publication Publication Date Title
US8726178B2 (en) Device, method, and computer program product for information retrieval
JP5223284B2 (ja) 情報検索装置、方法およびプログラム
US8634100B2 (en) Image forming apparatus for detecting index data of document data, and control method and program product for the same
US20110173188A1 (en) System and method for mobile document preview
US20090180126A1 (en) Information processing apparatus, method of generating document, and computer-readable recording medium
JP2011070558A (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US20120212756A1 (en) Image forming apparatus
JP2008225871A (ja) 画像検索装置、画像検索方法、及びコンピュータプログラム
US9864750B2 (en) Objectification with deep searchability
US11146705B2 (en) Character recognition device, method of generating document file, and storage medium
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
JP5077105B2 (ja) 画像処理装置、画像処理プログラム及び画像処理システム
JP2013161268A (ja) 画像処理装置およびプログラム
US20160188580A1 (en) Document discovery strategy to find original electronic file from hardcopy version
JP4811133B2 (ja) 画像形成装置及び画像処理装置
JP2012015896A (ja) 画像処理装置
JP2010231637A (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
RU2571379C2 (ru) Интеллектуальная обработка электронного документа
JP6601143B2 (ja) 印刷装置
US8380685B2 (en) Information processing apparatus, control method thereof, computer program, and storage medium
US20160092412A1 (en) Document processing method, document processing apparatus, and document processing program
US9400926B2 (en) Image processing apparatus, image processing method, and non-transitory computer readable medium
JP7383882B2 (ja) 情報処理装置、及び情報処理プログラム
JP6205973B2 (ja) 変更履歴出力装置、プログラム
US20190235797A1 (en) Image processing apparatus and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150929

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160405