JP2013161268A

JP2013161268A - 画像処理装置およびプログラム

Info

Publication number: JP2013161268A
Application number: JP2012022736A
Authority: JP
Inventors: Kazuhiro Otani; 和宏大谷; Shigeru Okada; 茂岡田; Hiroyoshi Kamijo; 裕義上條; Tadashi Amaya; 征天谷; Minoru Sodeura; 稔袖浦; Shinji Hanaoka; 新治花岡
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2012-02-06
Filing date: 2012-02-06
Publication date: 2013-08-19

Abstract

【課題】１ページ内に複数の画像を含む元画像データに対して文字認識を行う場合に、１ページ分の元画像データに対する文字認識実行時間の長期化を抑制しながら、１ページ分の元画像データに含まれる画像の中で文字認識が実行されない画像の発生を抑制する。
【解決手段】複数の画像を有する元画像データに対して、複数の画像の配置を解析するレイアウト解析部１３１と、解析された複数の画像の配置に対応させて、元画像データを複数のブロックに分割するブロック設定部１３２と、複数のブロックに対して、各ブロックに対するＯＣＲ上限時間をそれぞれ設定するＯＣＲ制限時間設定部１３３と、複数のブロックから選択された対象ブロックに対して文字認識を実行し、対象ブロックに対して設定されたＯＣＲ制限時間を経過した場合に対象ブロックに対する文字認識を終了し、続いて他のブロックに対して文字認識を開始するＯＣＲ実行部１３７とを備える。
【選択図】図３

Description

本発明は、画像処理装置およびプログラムに関する。

原稿の画像データに対して文字認識処理を実行し、テキストデータを作成する画像処理装置が知られている。
例えば、特許文献１には、予めストップマークが付与された画像に対して文字認識処理を実行し、文字認識処理中にストップマークを認識した場合には、以後の文字認識処理を中止する技術が記載されている。

特開平１０−２３２９０４号公報

本発明は、１ページ内に複数の画像を含む元画像データに対して文字認識を行う場合に、１ページ分の元画像データに対する文字認識実行時間の長期化を抑制しながら、１ページ分の元画像データに含まれる複数の画像の中で文字認識が実行されない画像の発生を抑制することを目的とする。

請求項１記載の発明は、複数の画像を有する１ページ分の元画像データに対して、複数の画像の配置を解析する解析手段と、
前記解析手段によって解析された複数の画像の配置に対応させて、前記元画像データを、それぞれが画像を有する複数の領域に分割する分割手段と、
前記分割手段により分割された複数の前記領域に対して、各領域に対する文字認識を実行する際の上限時間をそれぞれ設定する上限時間設定手段と、
複数の前記領域から選択された対象領域に対して、当該対象領域に対する文字認識を実行し、当該対象領域に対して設定された上限時間を経過した場合に当該対象領域に対する文字認識を終了し、続いて複数の当該領域のうち当該対象領域とは異なる他の領域に対して文字認識を開始する文字認識実行手段とを備える画像処理装置である。

請求項２記載の発明は、前記上限時間設定手段は、複数の前記領域に対して、各領域の面積に応じて上限時間をそれぞれ設定することを特徴とする請求項１記載の画像処理装置である。
請求項３記載の発明は、複数の前記領域に対して、各領域内で文字認識を実行する認識順序を、各領域が有する画像の内容に基づいて当該領域ごとに設定する順序設定手段を更に含み、前記文字認識実行手段は、前記順序設定手段により前記対象領域に設定された認識順序に基づいて、当該対象領域に対して文字認識を実行することを特徴とする請求項１または２記載の画像処理装置である。
請求項４記載の発明は、前記順序設定手段は、それぞれの前記領域に対して、各領域内に含まれる文字画像のうち特徴点を有する文字画像から文字認識を実行するように認識順序を設定することを特徴とする請求項３記載の画像処理装置である。
請求項５記載の発明は、前記順序設定手段は、各領域内に含まれる文字画像のうち、大きさが相対的に大きい文字画像から文字認識を実行するように、認識順序を設定することを特徴とする請求項４記載の画像処理装置である。
請求項６記載の発明は、前記順序設定手段は、各領域内に含まれる文字画像のうち、予め設定された基準色とは異なる色の文字画像から文字認識を実行するように、認識順序を設定することを特徴とする請求項４記載の画像処理装置である。
請求項７記載の発明は、前記順序設定手段は、複数の前記領域のうち表画像を有する領域について、当該表画像に対して予め設定された位置から文字認識を実行するように、認識順序を設定することを特徴とする請求項３記載の画像処理装置である。
請求項８記載の発明は、前記順序設定手段は、複数の前記領域のうち枠画像を有する領域について、当該枠画像の内側に位置する画像よりも先に当該枠画像の外側に位置する画像から文字認識を実行するように、認識順序を設定することを特徴とする請求項３記載の画像処理装置である。
請求項９記載の発明は、前記解析手段に対して複数ページの前記元画像データを有する元画像ファイルが入力される場合に、当該元画像ファイルにおける各ページの重要度に関する情報を受け付ける受付手段を更に含み、前記上限時間設定手段は、前記元画像データの各領域に対して、前記受付手段が受け付けた情報に基づいて、当該元画像データのページに応じて上限時間を設定することを特徴とする請求項１乃至８のいずれか１項記載の画像処理装置である。

請求項１０記載の発明は、複数の画像を有する１ページ分の元画像データに対して、複数の画像の配置を解析する機能と、
解析された複数の画像の配置に対応させて、前記元画像データを、それぞれが画像を含む複数の領域に分割する機能と、
分割された複数の前記領域に対して、各領域に対する文字認識を実行する際の上限時間をそれぞれ設定する機能と、
複数の前記領域から選択された対象領域に対して、当該対象領域に対する文字認識を実行し、当該対象領域に対して設定された上限時間を経過した場合に当該対象領域に対する文字認識を終了し、続いて複数の当該領域のうち当該対象領域とは異なる他の領域に対して文字認識を開始する機能とをコンピュータに実現させるためのプログラムである。

請求項１記載の発明によれば、本構成を有さない場合と比較して、１ページ内に複数の画像を含む元画像データに対して文字認識を行う場合に、１ページ分の元画像データに対する文字認識実行時間の長期化を抑制しながら、１ページ分の元画像データに含まれる複数の画像の中で文字認識が実行されない画像の発生を抑制することができる。
請求項２記載の発明によれば、本構成を有さない場合と比較して、１ページ分の元画像データに含まれる複数の画像間で、文字認識が実行される部分の割合の差を小さくすることが可能になる。
請求項３記載の発明によれば、本構成を有さない場合と比較して、各画像において優先度が高い部分を、文字認識しやすくすることができる。
請求項４記載の発明によれば、本構成を有さない場合と比較して、特徴点を有する文字画像を、他の文字画像よりも優先的に文字認識することが可能になる。
請求項５記載の発明によれば、本構成を有さない場合と比較して、大きさが相対的に大きい文字画像を、他の文字画像よりも優先的に文字認識することが可能になる。
請求項６記載の発明によれば、本構成を有さない場合と比較して、基準色とは異なる色の文字画像を、他の文字画像よりも優先的に文字認識することが可能になる。
請求項７記載の発明によれば、本構成を有さない場合と比較して、表画像に対して予め設定された位置の画像を、他の画像よりも優先的に文字認識することが可能になる。
請求項８記載の発明によれば、枠画像の外側に位置する画像を、他の画像よりも優先的に文字認識することが可能になる。
請求項９記載の発明によれば、複数ページの元画像データから構成される元画像ファイルに対して文字認識を行う場合に、本構成を有さない場合と比較して、各ページの元画像データにおいて文字認識が実行されない画像の発生を抑制することができる。

請求項１０記載の発明によれば、本構成を有さない場合と比較して、１ページ内に複数の画像を含む元画像データに対して文字認識を行う場合に、１ページ分の元画像データに対する文字認識実行時間の長期化を抑制しながら、１ページ分の元画像データに含まれる複数の画像の中で文字認識が実行されない画像の発生を抑制することができる。

本実施の形態が適用される画像処理システムの構成例を示す図である。本実施の形態が適用される画像読取装置の内部の構成を示す図である。本実施の形態の画像読取装置により実行することができる機能的な構成を表す図である。テキストデータ付ＰＤＦ作成部にて作成されるテキストデータ付ＰＤＦの構成を説明する図である。テキストデータ付ＰＤＦを作成する手順の一例を示したフローチャートである。テキストレイヤーを作成する手順の一例を示したフローチャートである。元画像データに対してＯＣＲ処理を実行する手順を説明するための図である。本実施の形態の他の画像処理例を説明するための図である。本実施の形態の他の画像処理例を説明するための図である。本実施の形態の他の画像処理例を説明するための図である。

以下、添付図面を参照して、本発明における実施の形態について詳細に説明する。
図１は本実施の形態が適用される画像処理システムの構成例を示す図である。この画像処理システムは、複合機３０、クライアントＰＣ４０およびネットワーク５０を備えており、複合機３０とクライアントＰＣ４０とはネットワーク５０を介して接続されている。
なお、本実施の形態の複合機３０は、スキャン機能、コピー機能、プリント機能およびファクシミリ機能を備えている。

複合機３０は、画像読取装置１０と画像形成装置２０とを備えている。本実施の形態では、画像読取装置１０および画像形成装置２０は、それぞれネットワーク５０に接続され、また、画像読取装置１０と画像形成装置２０とは、互いにローカルケーブル（図示略）等で接続されている。
画像読取装置１０は、原稿を読み取ってＲＧＢ色の元画像データ６１（後述する図７参照）を作成する。また、本実施の形態の画像読取装置１０は、読み取った原稿の元画像データ６１に対して、ＯＣＲ（Optical Character Recognition）処理を含む画像処理を行う機能を有している。なお、本発明において、ＯＣＲ処理とは、画像の文字部分を認識してテキストデータに変換する処理をいう。文字を認識する方法としては、例えば画像の文字部分に光を照射し、その反射光を分析することで文字を読み取る方法等が挙げられるが、本発明は、文字認識の方法を光学的な方法に限るものではない。
画像形成装置２０は、画像読取装置１０や、ネットワーク５０を介して画像形成装置２０に接続されるクライアントＰＣ４０等から受信した作像用データに基づき、用紙上に画像を形成する。
クライアントＰＣ４０は、ネットワーク５０を介して画像読取装置１０から受信した画像処理後のデータ（テキストデータ付ＰＤＦ６４、図４参照）を、表示部（図示略）に表示する。また、クライアントＰＣ４０は、表示部に表示されたテキストデータ付ＰＤＦ６４のテキストレイヤー６３（図４参照）に対して、検索を行う検索機能を有している。

図２は、本実施の形態が適用される画像読取装置１０の内部の構成を示す図である。
図２に示すように、画像読取装置１０は、ＣＰＵ（Central Processing Unit）１１、メモリ１２、記憶装置１３、通信装置１４、ＵＩ装置１５およびスキャナ１６を備える。また、ＣＰＵ１１、メモリ１２、記憶装置１３、通信装置１４、ＵＩ装置１５およびスキャナ１６は、バス１８を介して互いに接続されている。

ＣＰＵ１１は、メモリ１２に記憶されている各種プログラムに従って各種の処理を実行するとともに、種々の制御信号を生成して各部に供給することで、画像読取装置１０を統括的に制御する。
メモリ１２は、ＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）等から構成される。そして、メモリ１２は、スキャナ１６により原稿を読み取ることによって得られる画像データを蓄積し、また、ＣＰＵ１１がプログラムに基づいて画像データに対する処理を実行する際の作業領域として機能する。
記憶装置１３は、例えばＨＤＤ（Hard Disk Drive）等により構成され、必要に応じて種々のデータを記憶する。
通信装置１４は、ネットワーク５０を介しての通信処理を行う。
ＵＩ装置１５は、画像読取装置１０における各種条件の設定を受け付け、受け付けた設定データを送信する。
スキャナ１６は、１または複数の原稿の画像を読み取り、ｍ（ｍ≧１）ページの元画像データ６１（後述する図７参照）から構成される元画像ファイルを作成する。

ここで、ＣＰＵ１１により実行されるプログラムは、画像読取装置１０が読み取り可能に記憶した記憶媒体に格納される形態がある。この記憶媒体としては、例えばＣＤ−ＲＯＭ媒体等が該当する。ＣＤ−ＲＯＭ媒体等に格納されたプログラムは、画像読取装置１０に設けられたＣＤ−ＲＯＭ読取装置に読み取られて、例えば画像読取装置１０の記憶装置１３等に記憶され、ＣＰＵ１１により実行される。また、これらのプログラムは、例えばプログラム伝送装置によってネットワークを介してノートＰＣや携帯端末に提供される形態が考えられる。このようなプログラム伝送装置としては、プログラムを格納するメモリと、ネットワークを介してプログラムを提供するプログラム伝送手段とを備えていれば足りる。

図３は、本実施の形態の画像読取装置１０により実行することができる機能的な構成を表している。
図３に示すように、画像読取装置１０は、取得部１１０、画像レイヤー作成部１２０、テキストレイヤー作成部１３０およびテキストデータ付ＰＤＦ作成部１４０を備えている。

取得部１１０は、スキャナ１６から読み込まれた元画像ファイルから、ｍページ分の元画像データ６１（後述する図７参照）をページごとに取得する。
画像レイヤー作成部１２０は、取得部１１０が取得した元画像データ６１をページごとに読み込み、元画像データ６１から画像レイヤー６２（後述する図４参照）をページごとに作成する。
テキストレイヤー作成部１３０は、取得部１１０が取得した元画像データ６１をページごとに読み込み、元画像データ６１からテキストレイヤー６３（後述する図４参照）をページごとに作成する。
テキストデータ付ＰＤＦ作成部１４０は、画像レイヤー作成部１２０により作成された画像レイヤー６２とテキストレイヤー作成部１３０により作成されたテキストレイヤー６３とをページごとに合成することで、テキストデータ付ＰＤＦ６４（後述する図４参照）をページごとに作成する。そして、テキストデータ付ＰＤＦ作成部１４０は、ｍページ分のテキストデータ付ＰＤＦ６４をまとめて出力画像ファイルを作成する。

本実施の形態のテキストレイヤー作成部１３０は、レイアウト解析部１３１、ブロック設定部１３２、ＯＣＲ制限時間設定部１３３、ＯＣＲ順序設定部１３４、ＯＣＲ制御部１３５、計時部１３６、ＯＣＲ実行部１３７、ＯＣＲデータレイアウト部１３８および指示受付部１３９から構成されている。

解析手段の一例としてのレイアウト解析部１３１は、取得部１１０にて取得した元画像データ６１が有する画像のレイアウトを解析する。レイアウト解析部１３１は、例えば、背景に対するコントラストで情報（文字、絵等）の塊を抽出したり、色調の連続性等から画像領域を抽出したりすることによって、元画像データ６１における画像のレイアウトを解析する。
分割手段の一例としてのブロック設定部１３２は、レイアウト解析部１３１により解析された元画像データ６１における画像のレイアウトを基にして、各ページの元画像データ６１を複数のブロックに分割する。

上限時間設定手段の一例としてのＯＣＲ制限時間設定部１３３は、ブロック設定部１３２により設定された各ブロックに対して、それぞれのブロックに含まれる画像にＯＣＲ処理を実行する際の制限時間をブロックごとに設定する。
順序設定手段の一例としてのＯＣＲ順序設定部１３４は、ブロック設定部１３２により設定された各ブロックに対して、それぞれのブロック内で画像をＯＣＲ処理する順序を、ブロックごとに設定する。

ＯＣＲ制御部１３５は、ＯＣＲ制限時間設定部１３３およびＯＣＲ順序設定部１３４にて設定されたＯＣＲ条件（ＯＣＲ制限時間およびＯＣＲ処理順序）に基づいてＯＣＲ実行部１３７を制御する。また、ＯＣＲ制御部１３５は、計時部１３６に対して計時の開始を指示する。
計時部１３６は、時計を内蔵しており、ＯＣＲ制御部１３５からの指示を受けて計時を行って、ＯＣＲ制限時間設定部１３３により設定されたＯＣＲ制限時間が経過したことをＯＣＲ制御部１３５に対して出力する。
文字認識実行手段の一例としてのＯＣＲ実行部１３７は、ＯＣＲ制御部１３５からの指示を受けて、元画像データ６１に対してブロックごとにＯＣＲ処理を実行する。

ＯＣＲデータレイアウト部１３８は、ＯＣＲ実行部１３７にて実行されたＯＣＲ処理により得られた結果（ＯＣＲ処理により認識したテキストデータ）を、ブロック設定部１３２により設定されたブロックに基づいて配置し、テキストレイヤー６３を作成する。
受付手段の一例としての指示受付部１３９は、例えばＵＩ装置１５等から入力された指示を受け付け、ＯＣＲ制限時間設定部１３３に対して指示を出力する。

図４は、テキストデータ付ＰＤＦ作成部１４０にて作成されるテキストデータ付ＰＤＦ６４の構成を説明する図である。
図４に示すように、本実施の形態のテキストデータ付ＰＤＦ６４は、元画像データ６１（後述する図７参照）から作成した画像レイヤー６２と、元画像データ６１をＯＣＲ処理することで得た文字情報を含むテキストレイヤー６３とを重ね合わせた構造を有している。なお、テキストレイヤー６３は透明であり、例えばクライアントＰＣ４０の表示部にテキストデータ付ＰＤＦ６４を表示した場合には、画像レイヤー６２のみが視認できる。

図５は、本実施の形態の画像読取装置１０において、テキストデータ付ＰＤＦ６４を作成する手順の一例を示したフローチャートである。
図５に示すように、まず、取得部１１０が、ｍ（ｍ≧１）ページからなる元画像データ６１を読み込んで取得し（ステップ２０１）、ｎを１に設定する（ステップ２０２）。
次に、画像レイヤー作成部１２０は、ｍページ分の元画像データのうちｎページ目（最初は１ページ目）の元画像データ６１から、ｎページ目の画像レイヤー６２を作成する（ステップ２０３）。
続いて、テキストレイヤー作成部１３０は、ｍページ分の元画像データのうちｎページ目の元画像データ６１から、ｎページ目のテキストレイヤー６３を作成する（ステップ２０４）。
さらに続いて、テキストデータ付ＰＤＦ作成部１４０は、ステップ２０３にて作成されたｎページ目の画像レイヤー６２と、ステップ２０４にて作成されたｎページ目のテキストレイヤー６３とを合成することで、ｎページ目のテキストデータ付ＰＤＦ６４を作成する（ステップ２０５）。

次に、テキストデータ付ＰＤＦ作成部１４０は、テキストデータ付ＰＤＦ６４を作成したページが最終ページ（ｍページ）か否かを判定する（ステップ２０６）。
テキストデータ付ＰＤＦ６４を作成したページが最終ページではないと判断した場合（ステップ２０６でＮＯ）には、取得部１１０はｎをｎ＋１に設定し（ステップ２０７）、ステップ２０３に戻って、次のページの画像レイヤー６２、テキストレイヤー６３およびテキストデータ付ＰＤＦ６４の作成を行う。その後、取得部１１０が取得した全てのページ（ｍページ分）の元画像データ６１からテキストデータ付ＰＤＦ６４を形成するまで、ステップ２０３〜２０７を繰り返す。
一方、ステップ２０６にて、テキストデータ付ＰＤＦ６４を作成したページが最終ページ（ｍページ）であると判断された場合（ステップ２０６でＹＥＳ）には、テキストデータ付ＰＤＦ作成部１４０は、作成した全てのページ（ｍページ分）のテキストデータ付ＰＤＦ６４をまとめて出力画像ファイルとして保存し（ステップ２０８）、テキストデータ付ＰＤＦ６４の作成を終了する。

出力画像ファイルに含まれるｍページ分のテキストデータ付ＰＤＦ６４は、画像読取装置１０とネットワーク５０を介して接続されるクライアントＰＣ４０からの指示等により、クライアントＰＣ４０の表示部に表示される。これにより、ユーザは、画像読取装置１０によって作成されたテキストデータ付ＰＤＦ６４を閲覧することができる。そして、ユーザは、クライアントＰＣ４０にてテキストデータ付ＰＤＦ６４を閲覧している場合に、クライアントＰＣ４０が有する検索機能によって、表示部に表示されたテキストデータ付ＰＤＦ６４のテキストレイヤー６３に含まれる文字情報を検索することができる。

続いて、上述したステップ２０４のテキストレイヤー６３を作成する手順について、より詳細に説明する。図６は、テキストレイヤー６３を作成する手順の一例を示したフローチャートである。

まず、レイアウト解析部１３１が、元画像データ６１が有する画像の配置を解析する（ステップ３０１）。なお、本実施の形態において元画像データ６１が有する「画像」とは、文字、絵、写真等がひと塊になったものを指す。

続いて、ブロック設定部１３２が、元画像データ６１における画像のレイアウト解析結果に基づいて、元画像データ６１を複数の領域に分割し、それぞれの領域にブロックを設定する（ステップ３０２）。元画像データ６１は、元画像データ６１が有する複数の画像の配置に対応するように分割され、ブロックが設定される。

次に、ＯＣＲ制限時間設定部１３３が、ブロック設定部１３２にて設定された各ブロック内の画像をＯＣＲ処理するための制限時間（以下、ＯＣＲ制限時間）を、ブロックごとに設定する（ステップ３０３）。

また、指示受付部１３９がＵＩ装置１５等から入力された指示を受け付けた場合には、ＯＣＲ制限時間設定部１３３は、ステップ３０３において、指示受付部１３９が受け付けた指示内容に基づいて、ブロックごとにＯＣＲ制限時間を設定する。指示受付部１３９が受け付ける指示の内容としては、詳細については後述するが、元画像ファイルが複数ページの元画像データ６１から構成される場合に、元画像データ６１ごとにＯＣＲ制限時間を変更する指示等が挙げられる。

続いて、ＯＣＲ順序設定部１３４が、ブロック設定部１３２にて設定された各ブロック内で画像をＯＣＲ処理する順序を、各ブロックに対して設定する（ステップ３０４）。
ＯＣＲ順序設定部１３４は、取得部１１０にて取得した元画像データ６１に対して、ブロックごとに予備的なＯＣＲ処理を行うことで、各ブロック内に含まれる画像の内容を把握する。画像の内容としては、画像の種類（文字画像、表画像、写真画像、罫線画像、枠画像等）やこれらの画像の有無等が挙げられる。また、画像に文字画像が含まれる場合には、画像の内容として、大きさ（ポイント数）や色等のその文字画像の視覚的な特徴や、複数の文字画像の配列等が挙げられる。そして、ＯＣＲ順序設定部１３４は、読み取った画像の内容を基にして、各ブロック内で画像をＯＣＲ処理する順序をブロックごとに設定する。

次に、ＯＣＲ実行部１３７が、ＯＣＲ制御部１３５からの指示を受けて、複数のブロックのうち対象となるブロック（以下、対象ブロック）に対してＯＣＲ処理を実行する（ステップ３０６）。
また、ＯＣＲ制御部１３５は、計時部１３６に対して、計時を開始するよう指示を行う。
なお、元画像データ６１における全てのブロックに対してＯＣＲ処理が終了したか否かの判定（ステップ３０５）は、最初のブロックに対するＯＣＲ処理が終了し、後述するステップ３０７またはステップ３０８からステップ３０５へ戻ってきた場合に実行する。

続いて、ＯＣＲ制御部１３５は、計時部１３６による計時に基づいて、ＯＣＲ実行部１３７が対象ブロックに対するＯＣＲ処理を開始してから、対象ブロックに対して設定されたＯＣＲ制限時間を経過したか否かの判定を行う（ステップ３０７）。
対象ブロックに対して設定されたＯＣＲ制限時間を経過したと判断した場合（ステップ３０７でＹＥＳ）には、対象ブロックにおけるＯＣＲ処理を終了してステップ３０５へ戻って、全てのブロックについてＯＣＲ処理が終了したか否かの判断を行った後、ステップ３０６に進んでＯＣＲ処理を行っていない次のブロックに対するＯＣＲ処理を行う。

一方、対象ブロックに対して設定されたＯＣＲ制限時間を経過していないと判断した場合（ステップ３０７でＮＯ）には、ＯＣＲ制御部１３５により、対象ブロック内の画像についてＯＣＲ処理が完了したか否かの判定を行う（ステップ３０８）。
対象ブロック内のＯＣＲ処理が完了したと判断した場合（ステップ３０８でＹＥＳ）には、ステップ３０５に戻って、全てのブロックについてＯＣＲ処理が終了したか否かの判断を行った後、ステップ３０６に進んでＯＣＲ処理を行っていない次のブロックに対するＯＣＲ処理を行う。
一方、対象ブロック内の画像についてＯＣＲ処理が完了していないと判断した場合（ステップ３０８でＮＯ）には、ステップ３０６に戻って、対象ブロックにおけるＯＣＲ処理を続行する。

以降、１ページ分の元画像データ６１に設定された全てのブロックの画像に対してＯＣＲ処理が完了するまで、ステップ３０５〜ステップ３０８の各工程を実行する。
ステップ３０５において、１ページ分の元画像データ６１に設定された全てのブロックに対するＯＣＲ処理が完了したと判断された場合（ステップ３０５でＹＥＳ）には、ステップ３０９に移る。
ステップ３０９では、ＯＣＲデータレイアウト部１３８が、ステップ３０６にて読み取った各ブロック内における各画像のＯＣＲ結果を、それぞれのブロックの配置に合わせて並べる。
以上の工程により、１ページ分の元画像データ６１に対応する１ページ分のテキストレイヤー６３を得ることができる。

続いて、テキストレイヤー６３を作成する各ステップにおける具体的な処理方法を、画像処理例１〜８として説明する。
［画像処理例１］
図７は、元画像データ６１に対してＯＣＲ処理を実行する手順を説明するための図である。図７（ａ）は、本実施の形態の画像処理例における１ページ分の元画像データ６１の模式図である。図７（ａ）に示すように、この例では、１ページ分の元画像データ６１は、５つの画像Ｐ１〜Ｐ５を有している。各画像Ｐ１〜Ｐ５は、それぞれ複数の文字がひと塊になって構成されており、それぞれの画像Ｐ１〜Ｐ５は、互いに視覚的に分離されている。
ステップ３０１において、レイアウト解析部１３１は、元画像データ６１に対して、これらの画像Ｐ１〜Ｐ５それぞれの配置、形状等を解析する。

図７（ｂ）は、ステップ３０２においてブロックＡ１〜Ａ５が設定された元画像データ６１の模式図である。図７（ｂ）に示すように、それぞれのブロックは、元画像データ６１における画像の配置に基づいて設定され、例えばこの例では、画像Ｐ１を囲むようにブロックＡ１が設定される。同様に、画像Ｐ２を囲むようにブロックＡ２が設定され、画像Ｐ３を囲むようにブロックＡ３が設定され、画像Ｐ４を囲むようにブロックＡ４が設定され、画像Ｐ５を囲むようにブロックＡ５が設定される。

図７（ｃ）は、ステップ３０３においてブロックＡ１〜Ａ５にそれぞれ設定されたＯＣＲ制限時間ｔ１〜ｔ５の長さを示す模式図である。また、図７（ｄ）は、ブロックＡ１に設定されたＯＣＲ制限時間ｔ１の構成を示す模式図である。
図７（ｃ）に示すように、本画像処理例では、各ブロックにおけるＯＣＲ制限時間を、それぞれのブロックの面積に応じて設定している。具体的に説明すると、図７（ｄ）に示すように、ブロックＡ１におけるＯＣＲ制限時間ｔ１は、ブロックＡ１の面積内に入る想定ポイント（例えば１０ポイント）の文字の数に、想定ポイントの文字１文字をＯＣＲ処理するのにかかる平均的な時間をかけて算出された時間ｔ１ａに、予備分の時間ｔ１ｂを加えることで得られる（ｔ１＝ｔ１ａ＋ｔ１ｂ）。なお、予備分の時間ｔ１ｂは、必ずしもＯＣＲ制限時間ｔ１に含める必要はないが、ブロックＡ１内の画像Ｐ１においてＯＣＲ処理が実行されない部分が発生するのを抑制するためには、ＯＣＲ制限時間ｔ１に予備分の時間ｔ１ｂを含めることが好ましい。
図示は省略するが、同様に、ブロックＡ２〜Ａ５におけるＯＣＲ制限時間ｔ２〜ｔ５も、それぞれブロックＡ２〜Ａ５の面積に応じて算出された時間に、予備分の時間を加えることで得られる。

続いて、ステップ３０４において、各ブロックＡ１〜Ａ５に対して、それぞれのブロック内での画像をＯＣＲ処理する順序をブロックごとに設定する。
図７（ｂ）に示すように、本画像処理例では、ブロックＡ１に含まれる画像Ｐ１は、黒色で且つ互いに大きさが等しい複数の文字画像が並ぶことで構成されている。同様に、ブロックＡ２〜Ａ５に含まれる画像Ｐ２〜Ｐ５は、それぞれ、黒色で且つ互いに大きさが等しい複数の文字画像が並ぶことで構成されている。
この場合、ステップ３０４においてＯＣＲ順序設定部１３４は、ブロックＡ１における画像Ｐ１の上から下に向かって１行ずつ順に文字画像を読むように、ブロックＡ１に対してＯＣＲ処理を行う順序を設定する。同様に、ＯＣＲ順序設定部１３４は、ブロックＡ２〜Ａ５に対しても、それぞれのブロックにおける画像の上から下に向かって１行ずつ順にＯＣＲ処理を行うように、それぞれＯＣＲ処理を行う順序を設定する。

次に、ステップ３０６において、ブロックＡ１〜Ａ５のうち対象となるブロックに対してＯＣＲ処理を実行する。本画像処理例では、まずブロックＡ１の画像Ｐ１に対してＯＣＲ処理を実行する。
ＯＣＲ制御部１３５は、ステップ３０４にて設定されたＯＣＲ処理順序の通り、ブロックＡ１内の画像Ｐ１に対してＯＣＲ処理を行うように、ＯＣＲ実行部１３７に対して指示を行う。そして、ＯＣＲ制御部１３５から指示を受けたＯＣＲ実行部１３７は、指示されたＯＣＲ処理順序に基づいて、ブロックＡ１内の画像Ｐ１に対してＯＣＲ処理を実行する。

続いて、ステップ３０７においてブロックＡ１に対するＯＣＲ処理を開始してからＯＣＲ制限時間ｔ１を経過したと判断された場合、または、ステップ３０８においてブロックＡ１内の画像Ｐ１についてのＯＣＲ処理が完了したと判断された場合には、ブロックＡ１に対するＯＣＲ処理の実行を終了して、ブロックＡ２に対するＯＣＲ処理の実行へ移る。なお、本画像処理例では、１ページ分の元画像データ６１に対して、ブロックＡ１、ブロックＡ２、ブロックＡ３、ブロックＡ４、ブロックＡ５の順で、ＯＣＲ処理を実行するものとした。

以下、ブロックＡ１の画像Ｐ１に対するＯＣＲ処理と同様に、ブロックＡ２〜Ａ５の画像Ｐ２〜Ｐ５に対してそれぞれＯＣＲ処理を実行することで、本画像処理例におけるテキストレイヤー６３を得ることができる。

なお、この例では、元画像データ６１の左上側から右下側に向かって、ブロックＡ１からブロックＡ５まで順にＯＣＲ処理を実行するものとした。しかし、元画像データ６１において、どのブロックからＯＣＲ処理を開始するか、および、ブロック単位でのＯＣＲ処理の順序はこれに限られず、変更することができる。

なお、本実施の形態では、上述したように、設定したＯＣＲ制限時間を経過してもブロック内のＯＣＲ処理が完了しなかった場合には、そのブロックのＯＣＲ処理の実行を終了し、次のブロックのＯＣＲ処理の実行へ移ることとしている。したがって、それぞれのブロックに含まれる各画像において、全てに対してはＯＣＲ処理を行えず、各画像における一部の部分に対してＯＣＲ処理を行う場合がある。このような場合には、ブロック内の画像において重要なキーワードが含まれる部分を優先的にＯＣＲ処理することで、作成されるテキストデータ付ＰＤＦ６４（図４参照）において、このキーワードを検索可能にすることが好ましい。

続いて、１ページ分の元画像データ６１が分割されたブロック内において、重要なキーワードが含まれる部分を、他の部分よりも優先的にＯＣＲ処理する手順について、画像処理例２〜７として説明する。
なお、ステップ３０１のレイアウト解析、ステップ３０２のブロック設定およびステップ３０３のＯＣＲ制限時間設定は、以下に説明する画像処理例２〜７についても上記画像処理例１と同様に行う。したがって、以下の画像処理例２〜７においては、主にステップ３０４のＯＣＲ処理順序設定およびステップ３０６のＯＣＲ処理について説明を行う。

［画像処理例２］
図８（ａ）は、本実施の形態の画像処理例２を説明するための図であり、ステップ３０１のレイアウト解析およびステップ３０２のブロック設定を行った後の元画像データ６１を示している。図８（ａ）に示すように、この例の元画像データ６１は、画像処理例１における元画像データ６１と同様に、５つの画像Ｐ１〜Ｐ５を有しており、画像Ｐ１〜Ｐ５の配置に対応させて、５つのブロックＡ１〜Ａ５に分割されている。
また、この例のブロックＡ２内に位置する画像Ｐ２は、画像処理例１とは異なり、「かきくけこ・・・」という文字画像と、この「かきくけこ・・・」よりもフォントが大きい「タイトル」という文字画像とを有している。
なお、この例における元画像データ６１の構成は、画像Ｐ２以外は図７（ａ）（ｂ）に示す画像処理例１の元画像データ６１と同様である。

ステップ３０４においてＯＣＲ順序設定部１３４（図３参照）は、ブロック内に画像Ｐ２における「タイトル」のように、他の文字画像よりもフォントが大きく他の文字画像から独立した文字画像がブロック内にある場合には、このような文字画像をブロック内で他の文字画像よりも先にＯＣＲ処理するように、ＯＣＲ処理順序を設定する。この例では、ブロックＡ２内の画像Ｐ２において、まず初めに「タイトル」の部分をＯＣＲ処理し、続いて、「かきくけこ・・・」の部分をＯＣＲ処理するように設定を行う。
そして、ステップ３０６のＯＣＲ処理では、ステップ３０４で設定されたように、初めに「タイトル」の部分のＯＣＲ処理を実行し、続いて、「かきくけこ・・・」の部分のＯＣＲ処理を実行する。

なお、画像処理例１と同様に、ブロックＡ２に設定されたＯＣＲ処理時間が経過した場合には、ブロックＡ２内の画像Ｐ２に対するＯＣＲ処理が完了していない場合でも、ブロックＡ２に対するＯＣＲ処理の実行を終了し、次のブロックに対するＯＣＲ処理の実行へ移る。

ここで、一般に、他の文字と比較してフォントが大きい文字は、タイトル等の重要なキーワードであることが多い。したがって、上述したようにブロック内をＯＣＲ処理する際の制限時間を設けた場合であっても、本画像処理例のように、他の文字画像よりもフォントが大きい文字画像を他の文字画像よりも先にＯＣＲ処理するように設定することによって、重要なキーワードがＯＣＲ処理の対象から漏れるのを抑制することができる。
なお、図８（ａ）に示す本画像処理例では、他の文字画像（「かきくけこ・・・」）よりもフォントが大きい「タイトル」という文字画像が、画像Ｐ２の１行目にある場合について説明した。しかし、フォントが大きい文字画像が存在する場所は画像の１行目に限られず、例えばフォントが大きい文字画像が画像の中段にある場合であっても、このフォントが大きい文字画像を他の文字画像よりも先にＯＣＲ処理するように、ＯＣＲ処理順序を設定することができる。

［画像処理例３］
図８（ｂ）は、本実施の形態の画像処理例３を説明するための図であり、ステップ３０１のレイアウト解析およびステップ３０２のブロック設定を行った後の元画像データ６１を示している。図８（ｂ）に示すように、この例の元画像データ６１は、画像処理例１における元画像データ６１と同様に、５つの画像Ｐ１〜Ｐ５を有しており、画像Ｐ１〜Ｐ５の配置に対応させて、５つのブロックＡ１〜Ａ５に分割されている。
また、この例のブロックＡ３内に位置する画像Ｐ３は、それぞれ画像Ｐ３における上段と下段とに位置し、互いにフォントの大きさが等しい「さしすせそ・・・」および「ざじずぜぞ・・・」という文字画像と、これらの文字画像に挟まれるとともに、ＯＣＲ処理を行う想定ポイント数よりもフォントが小さい「サシスセソ・・・」という文字画像を有している。
なお、この例における元画像データ６１の構成は、画像Ｐ３以外は図７（ａ）（ｂ）に示す画像処理例１の元画像データ６１と同様である。

ステップ３０４においてＯＣＲ順序設定部１３４（図３参照）は、画像Ｐ３における「サシスセソ・・・」のようにＯＣＲを行う想定ポイント数よりもフォントが小さい文字画像があった場合、ＯＣＲ順序設定部１３４（図３参照）は、このような文字画像に対してＯＣＲ処理を実行しない設定を行う。したがってこの例では、例えば、「さしすせそ・・・」の文字列をＯＣＲ処理した後、「サシスセソ・・・」の文字列についてはＯＣＲ処理を実行しないで、「ざじずぜぞ・・・」の文字列をＯＣＲ処理するように設定を行う。
そして、ステップ３０６のＯＣＲ処理では、ステップ３０４で設定されたように、初めに「さしすせそ・・・」の部分のＯＣＲ処理を実行し、「サシスセソ・・・」の部分はＯＣＲ処理を実行せずに、続いて、「ざじずぜぞ・・・」の部分のＯＣＲ処理を実行する。

なお、画像処理例１と同様に、ブロックＡ３に設定されたＯＣＲ処理時間が経過した場合には、ブロックＡ３内の画像Ｐ３に対するＯＣＲ処理が完了していない場合でも、ブロックＡ３に対するＯＣＲ処理の実行を終了し、次のブロックに対するＯＣＲ処理の実行へ移る。

ここで、一般に、ＯＣＲ処理装置、ＯＣＲ処理プログラム等によるＯＣＲ処理は、読み取る画像における文字画像の大きさをある程度想定して行われている（例えば、１０ポイント程度）。そして、読み取る文字が想定されている大きさよりも小さい場合（例えば、４ポイント以下の場合）には、読み取る文字画像が想定の大きさの範囲内である場合と比較して、文字画像を認識するのに時間がかかり、また、正常に文字認識できない場合が多い。したがって、本実施の形態のようにブロックごとにＯＣＲ処理を行う際の制限時間を設けた場合に、このような小さい文字画像に対するＯＣＲ処理を実行した場合には、小さい文字画像を認識するのに時間がかかることで、ブロック内の他の部分の文字画像に対してＯＣＲ処理を実行できず、重要なキーワードを認識できなくなるおそれがある。
一方、本画像処理例では、ＯＣＲ処理にて想定されている大きさよりも小さい文字画像については、ＯＣＲ処理を実行しない設定とした。これにより、ブロック内をＯＣＲ処理する際の制限時間を設けた場合であっても、本構成を有しない場合と比較して、ブロック内のより多くの文字画像に対してＯＣＲ処理を実行することが可能になり、重要なキーワードがＯＣＲ処理の対象から漏れるのを抑制することができる。

なお、本画像処理例では、ステップ３０４のＯＣＲ処理順序設定において、ＯＣＲ処理の想定よりも小さい文字画像についてはＯＣＲ処理を実行しない設定としたが、例えば、ＯＣＲ処理の想定よりも小さい文字画像をブロック内で最後にＯＣＲ処理するように、ＯＣＲ処理順序を設定するものとしてもよい。
このように設定した場合には、例えば図８（ｂ）に示す例では、ステップ３０６のＯＣＲ処理において、「さしすせそ・・・」、「ざじずぜぞ・・・」の部分に対してＯＣＲ処理を実行した後、ブロックＡ３における制限時間を経過していない場合に、「サシスセソ・・・」の部分のＯＣＲ処理を実行することになる。

［画像処理例４］
図９（ａ）は、本実施の形態の画像処理例４を説明するための図であり、ステップ３０１のレイアウト解析およびステップ３０２のブロック設定を行った後の元画像データ６１を示している。図９（ａ）に示すように、この例の元画像データ６１は、画像処理例１における元画像データ６１と同様に、５つの画像Ｐ１〜Ｐ５を有しており、画像Ｐ１〜Ｐ５の配置に対応させて、５つのブロックＡ１〜Ａ５に分割されている。
また、この例のブロックＡ３内に位置する画像Ｐ３は、３行４列の表からなる表画像である。
なお、この例における元画像データ６１の構成は、画像Ｐ３以外は図７（ａ）（ｂ）に示す画像処理例１の元画像データ６１と同様である。

ステップ３０４においてＯＣＲ順序設定部１３４（図３参照）は、ブロックＡ３のようにブロック内に表画像が存在した場合には、表画像における複数の升目のうち項目部分（１行目および１列目）の升目を、表画像における１行目および１列目以外の升目よりも先にＯＣＲ処理するように、ＯＣＲ処理順序を設定する。
そして、ステップ３０６のＯＣＲ処理では、ステップ３０４で設定されたように、表画像の１行目および１列目の升目に対してＯＣＲ処理を実行した後、表画像の他の升目についてＯＣＲ処理を実行する。図９（ａ）に示す例では、まず、表画像の１行目である「項目」「ＡＢＣ」「ＤＥＦ」「ＧＨＩ」の部分、および表画像の１列目である「ＵＶＷ」「ＸＹＺ」の部分に対してＯＣＲ処理を実行した後、表画像の他の升目（１行目および１列目以外の升目）に対してＯＣＲ処理を実行する。

ここで、一般に、表画像の１行目および１列目の升目には、表の項目が記載され、表画像の１行目および１列目以外の升目には、数値や判定結果等のデータが記載されることが多い。したがって、表画像の１行目および１列目の升目には、表画像の１行目および１列目以外の升目と比較して、重要なキーワードが含まれる場合が多い。したがって、ブロック内をＯＣＲ処理する際の制限時間を設けた場合であっても、本画像処理例のように、表画像の１行目および１列目の升目を、表画像の他の升目よりも先にＯＣＲ処理するように設定することによって、重要なキーワードがＯＣＲ処理の対象から漏れるのを抑制することができる。

［画像処理例５］
図９（ｂ）は、本実施の形態の画像処理例５を説明するための図であり、ステップ３０１のレイアウト解析およびステップ３０２のブロック設定を行った後の元画像データ６１を示している。図９（ｂ）に示すように、この例の元画像データ６１は、画像処理例１における元画像データ６１と同様に、５つの画像Ｐ１〜Ｐ５を有しており、画像Ｐ１〜Ｐ５の配置に対応させて、５つのブロックＡ１〜Ａ５に分割されている。
また、この例のブロックＡ３内に位置する画像Ｐ３は、３行４列の表からなる表画像である。本画像処理例における画像Ｐ３の表は、画像処理例４における表とは異なり、表の上側に「タイトル１」が存在し、表の下側に「タイトル２」が存在している。
なお、この例における元画像データ６１の構成は、画像Ｐ３以外は図７（ａ）（ｂ）に示す画像処理例１の元画像データ６１と同様である。

ステップ３０４においてＯＣＲ順序設定部１３４（図３参照）は、ブロックＡ３のようにブロック内に、上側および／または下側にタイトルを有する表画像が存在した場合、ＯＣＲ順序設定部１３４（図３参照）では、表の上側および／または下側に存在するタイトルのＯＣＲ処理を実行した後、表の内部（升目）に対してＯＣＲ処理を実行する設定を行う。
表画像の升目に対するＯＣＲ処理は、上述の画像処理例４に記載したように、表の１行目および１列目の升目から実行することが好ましい。したがって、ＯＣＲ順序設定部１３４は、表の上側および／または下側に存在するタイトルのＯＣＲ処理を先に実行した後に、表の１行目および１列目の升目に対してＯＣＲ処理を実行するように、ＯＣＲ処理順序を設定する。

そして、ステップ３０６のＯＣＲ処理では、ステップ３０４で設定されたように、まず、表の上側および／または下側に存在するタイトル部分のＯＣＲ処理を実行する。続いて、表の１行目および１列目の升目に対してＯＣＲ処理を実行した後、表の１行目および１列目以外の升目に対してＯＣＲ処理を実行する。
図９（ｂ）に示す例では、まず表の上側に存在する「タイトル１」および表の下側に存在する「タイトル２」の部分についてＯＣＲ処理を実行する。続いて、表の１行目である「項目」「ＡＢＣ」「ＤＥＦ」「ＧＨＩ」の部分、および表の１列目である「ＵＶＷ」「ＸＹＺ」の部分についてＯＣＲ処理を実行した後、表の他の升目（１行目および１列目以外の升目）に対してＯＣＲ処理を実行する。

一般に、表にタイトルが付されている場合には、表の内部の升目と比較して、タイトルに重要なキーワードが含まれていることが多い。したがって、ブロック内をＯＣＲ処理する際の制限時間を設けた場合であっても、本画像処理例のように、表のタイトル部分を、表の内部よりも先にＯＣＲ処理するように設定することによって、重要なキーワードがＯＣＲ処理の対象から漏れるのを抑制することができる。

［画像処理例６］
図１０（ａ）は、本実施の形態の画像処理例６を説明するための図であり、ステップ３０１のレイアウト解析およびステップ３０２のブロック設定を行った後の元画像データ６１を示している。図１０（ａ）に示すように、この例の元画像データ６１は、画像処理例１における元画像データ６１と同様に、５つの画像Ｐ１〜Ｐ５を有しており、画像Ｐ１〜Ｐ５の配置に対応させて、５つのブロックＡ１〜Ａ５に分割されている。
また、この例のブロックＡ３内に位置する画像Ｐ３は、画像処理例１とは異なり、通常の文字色（通常色、この例では黒）の「さしすせそ・・・」という文字画像と、この通常色とは異なる文字色の「サシスセソ・・・」という文字画像とを有している。以下では、通常色とは異なる文字色の文字画像を「色文字画像」と呼ぶ。
なお、この例における元画像データ６１の構成は、画像Ｐ３以外は図７（ａ）（ｂ）に示す画像処理例１の元画像データ６１と同様である。

ステップ３０４においてＯＣＲ順序設定部１３４（図３参照）は、ブロック内に画像Ｐ３における「サシスセソ・・・」のような色文字画像がある場合には、このような色文字画像を通常色の文字画像よりも先にＯＣＲ処理するように、ＯＣＲ処理順序を設定する。この例では、ブロックＡ３内の画像Ｐ３において、まず初めに、色文字画像である「サシスセソ・・・」の部分をＯＣＲ処理し、続いて、通常色の文字画像の「さしすせそ・・・」の部分をＯＣＲ処理するように設定を行う。
そして、ステップ３０６のＯＣＲ処理では、ステップ３０４で設定されたように、初めに色文字画像である「サシスセソ・・・」の部分のＯＣＲ処理を実行し、続いて、通常色の文字画像である「さしすせそ・・・」の部分のＯＣＲ処理を実行する。

ここで、一般に、文章において強調したい重要キーワード等を、他の文字とは異なる色の色文字で示すことがある。すなわち、文章中に、色文字で記載された文字が存在する場合には、この色文字で記載された文字が重要なキーワードであることが多い。したがって、上述したようにブロック内をＯＣＲ処理する際の制限時間を設けた場合であっても、本画像処理例のように、他の文字と文字色が異なる文字画像を他の文字画像よりも先にＯＣＲ処理するように設定することによって、重要なキーワードがＯＣＲ処理の対象から漏れるのを抑制することができる。

なお、本画像処理例では、ＯＣＲ順序設定部１３４が、ブロック内において他の文字列とは色が異なる色文字画像の部分を最初にＯＣＲ処理するように設定するものとした。しかし、ＯＣＲ順序設定部１３４が、ＯＣＲ処理順序を最初に設定する文字画像としては色文字画像に限られない。例えば、ブロック内において他の文字列とは異なる特徴点を有する文字（太字、下線が引かれた文字、網掛けがされた文字等）を、最初にＯＣＲ処理するように設定するものとしてもよい。
本実施の形態において「特徴点を有する文字」の例としては、他の文字よりも大きさが大きい文字や他の文字と色が異なる文字の他、字体が異なる文字、下線や網掛け等を有する文字、太字や斜体字等が挙げられる。

［画像処理例７］
図１０（ｂ）は、本実施の形態の画像処理例７を説明するための図であり、ステップ３０１のレイアウト解析、ステップ３０２のブロック設定を行った後の元画像データ６１を示している。図１０（ｂ）に示すように、この例の元画像データ６１は、画像処理例１における元画像データ６１と同様に、５つの画像Ｐ１〜Ｐ５を有しており、画像Ｐ１〜Ｐ５の配置に対応させて、５つのブロックＡ１〜Ａ５に分割されている。
また、この例のブロックＡ３に位置する画像Ｐ３は、画像処理例１とは異なり、枠によって区切られており、枠の外側に位置し、文字列「さしすせそ・・・」からなる外側画像Ｐ３ａと、枠の内側に位置し、写真からなる内側画像Ｐ３ｂとを有している。すなわち、この例の画像Ｐ３は、枠によって区切られた外側画像Ｐ３ａと内側画像Ｐ３ｂとからなる二重の構造を呈している。
なお、この例における元画像データ６１の構成は、画像Ｐ３以外は図７（ａ）（ｂ）に示す画像処理例１の元画像データ６１と同様である。

ステップ３０４においてＯＣＲ順序設定部１３４（図３参照）は、ブロック内の画像が、画像Ｐ３のような外側画像Ｐ３ａと内側画像Ｐ３ｂとを備える二重構造の画像であった場合には、外側画像Ｐ３ａを内側画像Ｐ３ｂよりも優先してＯＣＲ処理するような設定を行う。この例では、ブロックＡ３内の画像Ｐ３において、最初に外側画像Ｐ３ａにおける「さしすせそ・・・」の部分を最初にＯＣＲ処理するように設定を行う。

そして、ステップ３０６のＯＣＲ処理では、ステップ３０４で設定されたように、初めに外側画像Ｐ３ａにおける「さしすせそ・・・」の部分のＯＣＲ処理を実行する。
なお、画像処理例１と同様に、ブロックＡ３に設定されたＯＣＲ処理時間が経過した場合には、ブロックＡ３内の画像Ｐ３に対するＯＣＲ処理が完了していない場合でも、ブロックＡ３に対するＯＣＲ処理の実行を終了し、次のブロックに対するＯＣＲ処理の実行へ移る。

ここで、画像が外側画像と内側画像との二重構造となっている場合、一般に、内側画像には写真やグラフ等のオブジェクトが挿入され、外側画像に内側画像の説明等の文章が記載されることが多い。すなわち、画像が外側画像と内側画像との二重構造となっている場合には、内側画像と比較して外側画像に重要なキーワードが含まれている場合が多い。
したがって、画像が外側画像と内側画像との二重構造となっている場合において、外側画像を最初にＯＣＲ処理するように設定することによって、上述したようにブロック内をＯＣＲ処理する際の制限時間を設けた場合であっても、重要なキーワードがＯＣＲ処理の対象から漏れるのを抑制することができる。

［画像処理例８］
上記画像処理例２〜７においては、複数のブロックに分割された元画像データ６１に対して、ＯＣＲの処理順序をブロックごとに設定する方法について、ブロックに含まれる画像の種類ごとに説明した。なお、上記の画像処理例２〜７においては、１ページ分の元画像データに対して、ブロックごとにＯＣＲ制限時間を設定した場合について説明している。
画像処理例８では、元画像ファイルが複数のページ、すなわち、複数の元画像データ６１から構成される場合において、それぞれの元画像データ６１に設定されたブロックごとにＯＣＲ制限時間を設定するのに加えて、元画像ファイルに含まれる元画像データ６１ごとにＯＣＲ制限時間を変更する方法について説明する。

元画像ファイルが複数の元画像データ６１から構成される場合には、１ページ分の元画像データ６１が有する画像の重要度が、元画像データ６１ごとに異なる場合がある。このような場合には、各元画像データ６１が有する画像の重要度に応じて、ＯＣＲ制限時間を元画像データ６１ごとに異ならせることが好ましい。
一般に、複数のページからなる原稿では、例えば、最初のページ（１ページ目）に表題や要旨が記載される場合がある。そして、表題や要旨には重要なキーワードが含まれる場合が多い。したがって、このような場合には、１ページ目の原稿（元画像データ６１）に対してＯＣＲを実行する際の制限時間は、他のページと比較して長くすることが好ましい。
一方、複数のページからなる原稿において、例えば最終ページには、付録（appendix）や引用文献等が記載されることがある。そして、付録や引用文献には、重要なキーワードが含まれる場合が少ない。したがって、このような場合には、全てのページに対するＯＣＲ処理にかかる時間を短くするために、最終ページの原稿（元画像データ６１）に対してＯＣＲを実行する際の制限時間は、他のページと比較して短くすることが好ましい。

続いて、元画像データ６１ごとにＯＣＲ制限時間を変更する手順について説明する。
元画像データ６１ごとにＯＣＲ制限時間を変更する場合には、ユーザはＵＩ装置１５に対して、元画像データ６１ごとにＯＣＲ制限時間を変更する旨、および、ＯＣＲ制限時間の変更内容等を入力する。なお、ＯＣＲ制限時間の変更内容とは、例えば、「１ページ目の元画像データ６１に対するＯＣＲ制限時間を長くする」、「最終ページの元画像データ６１に対するＯＣＲ制限時間を短くする」等が挙げられる。また、ユーザが、ＵＩ装置１５に対して、元画像データ６１ごとの画像の重要度等を入力する構成としてもよい。この場合には、例えば、「１ページ目の元画像データ６１の重要度が高い」、「最終ページの元画像データ６１の重要度が低い」等の内容を入力する。

指示受付部１３９（図３参照）が、ＵＩ装置１５（図２参照）を介して元画像データ６１ごとにＯＣＲ制限時間を変更する旨の指示を受け付けた場合には、指示受付部１３９は、ＯＣＲ制限時間設定部１３３（図３参照）に対して指示内容を出力し、ＯＣＲ制限時間設定部１３３は、指示内容に基づいて、ＯＣＲ制限時間を設定する。

上述したように、元画像ファイルが複数ページの元画像データ６１から構成される場合には、１ページごとにテキストレイヤー６３の作成が行われる。すなわち、１ページごとに元画像データ６１が複数のブロックに分割され、１ページ分の元画像データ６１が分割された複数のブロックそれぞれに対してＯＣＲ制限時間が設定される。そして、上述したように、それぞれのブロックに設定されるＯＣＲ制限時間は、各ブロックの面積に応じて算出された時間（上述の例ではｔ１ａ）に、予備分の時間（上述の例ではｔ１ｂ）を加えることで得られる。
元画像データ６１ごとにＯＣＲ制限時間を変更するには、例えば、ブロックごとのＯＣＲ制限時間に含まれる予備分の時間（ｔ１ｂ）を、そのブロックが含まれる元画像データ６１の画像の重要度に応じて変更すればよい。

例えば、複数のページのうち１ページ目の元画像データ６１からテキストレイヤー６３を作成する場合には、１ページ目の元画像データ６１を分割した複数のブロックに対して、ブロックごとにＯＣＲ制限時間を設定する（ステップ３０３；図６参照）際に、それぞれブロックのＯＣＲ制限時間に含める予備分の時間を通常よりも長く設定する。
一方、複数のページのうち最終ページの元画像データ６１からテキストレイヤー６３を作成する場合には、最終ページの元画像データ６１を分割した複数のブロックに対して、ブロックごとにＯＣＲ制限時間を設定する（ステップ３０３）際に、それぞれブロックのＯＣＲ制限時間に含める予備分の時間を通常よりも短く設定する。

これにより、元画像ファイルが複数ページの元画像データ６１から構成される場合に、画像の重要度が高いページのＯＣＲ制限時間を長くすることができる。したがって、本構成を有さない場合と比較して、画像の重要度が高いページにおいて重要なキーワードの部分がＯＣＲ処理の対象から外れるのをより抑制することが可能になる。
また、元画像ファイルが複数ページの元画像データ６１から構成される場合に、画像の重要度が低いページのＯＣＲ処理時間を短くすることができる。したがって、本構成を有さない場合と比較して、複数ページの元画像データ６１から構成される元画像ファイル全体をＯＣＲ処理するのにかかる時間を短縮することが可能になる。

本画像処理例においては、元画像ファイルが複数ページの元画像データ６１から構成される場合において、１ページ目の画像の重要度が高いものとして、１ページ目の元画像データ６１に対するＯＣＲ制限時間を長くし、最終ページの画像の重要度が低いものとして、最終ページの元画像データ６１に対するＯＣＲ制限時間を短くした。しかし、複数のページから構成される元画像データにおいて、ページごとの画像の重要度およびＯＣＲ制限時間の設定の仕方等はこれに限られず、変更することができる。

以上説明したように、本実施の形態では、１ページ分の元画像データ６１を、元画像データ６１が有する複数の画像のレイアウト解析の結果に基づいて、複数のブロックに分割した。そして、複数のブロックのそれぞれに対して、ＯＣＲ制限時間を設定し、設定したＯＣＲ制限時間を経過してもブロック内のＯＣＲ処理が完了しなかった場合には、そのブロックのＯＣＲ処理の実行を終了し、次のブロックのＯＣＲ処理の実行へ移ることとした。

これにより、元画像データ６１に含まれる複数のブロックのうち、あるブロックに含まれる画像に対するＯＣＲ処理に時間がかかった場合であっても、そのブロックでＯＣＲ処理が終了されることなく、次のブロックのＯＣＲ処理を行うことが可能になる。
したがって、１ページ分の元画像データ６１に対するＯＣＲ処理の実行時間が冗長になるのを抑制することが可能になる。さらに、元画像データ６１に含まれる複数の画像全てに対して、それぞれ少なくとも一部をＯＣＲ処理することが可能になり、複数の画像のうち全くＯＣＲ処理が行われない画像が発生するのを抑制することが可能になる。

一方、例えば１ページ分の元画像データ６１に対して、画像の配置にかかわらず単純に５等分して５つのブロックを設定した場合には、１つの画像に対して複数の異なるブロックが設定されたり、１つのブロック内に複数の画像が含まれたりする場合がある。このような場合には、ブロックごとに設定したＯＣＲ制限時間を経過したらそのブロックのＯＣＲ処理の実行を終了し、次のブロックのＯＣＲ処理へ移る構成を採用した場合でも、複数の画像において全くＯＣＲ処理が実行されない画像が発生するおそれがある。

また、本実施の形態では、元画像データ６１を分割したブロックそれぞれに対して、各ブロックの面積（大きさ）の大小と、ＯＣＲ制限時間の長短とを対応付けるように、ＯＣＲ制限時間を設定した。
一般にブロックの面積が大きいほど、そのブロック内の画像に含まれる文字が多く、逆にブロックの面積が小さいほど、そのブロック内の画像に含まれる文字が少ない傾向がある。
したがって、本実施の形態では、面積が大きいブロックほどＯＣＲ制限時間を長くすることで、本構成を有さない場合と比較して、各ブロック内の画像においてＯＣＲ処理が行われない部分が発生するのを抑制することが可能になる。また、面積が小さいブロックほどＯＣＲ制限時間を短くすることで、本構成を有さない場合と比較して、複数のブロックに分割された元画像データ６１全体をＯＣＲ処理するのにかかる時間が長くなるのを抑制することができる。

なお、本実施の形態の各画像処理例では、１ページ分の元画像データ６１が５つの画像Ｐ１〜Ｐ５を有する場合を例に挙げて説明したが、画像の数は５つに限られず、１ページ分の元画像データ６１に少なくとも２つの画像が形成されていれば、本発明を適用することが可能である。

また、本実施の形態では、図５および図６のフローチャートに示した各ステップは、記載された時系列に沿って順に実行するものとして説明したが、これらのステップは必ずしも順に実行されなくてもよく、並列的に実行されるステップが存在してもよい。

さらに、本実施の形態では、画像レイヤー６２の作成、テキストレイヤー６３の作成およびテキストデータ付ＰＤＦ６４の作成等の一連の処理を、画像読取装置１０にて実行するものとして説明したが、これらの処理を行うのは画像読取装置１０には限られない。例えば、画像読取装置１０とネットワーク５０を介して接続されたクライアントＰＣ４０他の情報処理端末等、および、画像読取装置１０に直接接続された情報処理端末等によって実行するようにしてもよい。

また、本実施の形態では、画像読取装置１０にて読み取った原稿画像を元画像データ６１としたが、例えば、ネットワーク５０を介してクライアントＰＣ４０等から受け取った画像データや、ファクシミリ等から電子的に受信したビットマップデータ等を元画像データ６１としてもよい。

さらにまた、本実施の形態では、Adobe System社によって開発されたＰＤＦフォーマットを用いた例について説明したが、それに類する機能を有する電子文書に対して応用することも可能である。

１０…画像読取装置、２０…画像形成装置、３０…複合機、４０…クライアントＰＣ、５０…ネットワーク、６１…元画像データ、６２…画像レイヤー、６３…テキストレイヤー、６４…テキストデータ付ＰＤＦ、１１０…取得部、１２０…画像レイヤー作成部、１３０…テキストレイヤー作成部、１３１…レイアウト解析部、１３２…ブロック設定部、１３３…ＯＣＲ順序設定部、１３４…ＯＣＲ制限時間設定部、１３５…ＯＣＲ制御部、１３６…計時部、１３７…ＯＣＲ実行、１３８…ＯＣＲデータレイアウト部、１３９…指示受付部、１４０…テキストデータ付ＰＤＦ作成部

Claims

複数の画像を有する１ページ分の元画像データに対して、複数の画像の配置を解析する解析手段と、
前記解析手段によって解析された複数の画像の配置に対応させて、前記元画像データを、それぞれが画像を有する複数の領域に分割する分割手段と、
前記分割手段により分割された複数の前記領域に対して、各領域に対する文字認識を実行する際の上限時間をそれぞれ設定する上限時間設定手段と、
複数の前記領域から選択された対象領域に対して、当該対象領域に対する文字認識を実行し、当該対象領域に対して設定された上限時間を経過した場合に当該対象領域に対する文字認識を終了し、続いて複数の当該領域のうち当該対象領域とは異なる他の領域に対して文字認識を開始する文字認識実行手段と
を備える画像処理装置。
前記上限時間設定手段は、複数の前記領域に対して、各領域の面積に応じて上限時間をそれぞれ設定することを特徴とする請求項１記載の画像処理装置。
複数の前記領域に対して、各領域内で文字認識を実行する認識順序を、各領域が有する画像の内容に基づいて当該領域ごとに設定する順序設定手段を更に含み、
前記文字認識実行手段は、前記順序設定手段により前記対象領域に設定された認識順序に基づいて、当該対象領域に対して文字認識を実行すること
を特徴とする請求項１または２記載の画像処理装置。
前記順序設定手段は、それぞれの前記領域に対して、各領域内に含まれる文字画像のうち特徴点を有する文字画像から文字認識を実行するように認識順序を設定することを特徴とする請求項３記載の画像処理装置。
前記順序設定手段は、各領域内に含まれる文字画像のうち、大きさが相対的に大きい文字画像から文字認識を実行するように、認識順序を設定することを特徴とする請求項４記載の画像処理装置。
前記順序設定手段は、各領域内に含まれる文字画像のうち、予め設定された基準色とは異なる色の文字画像から文字認識を実行するように、認識順序を設定することを特徴とする請求項４記載の画像処理装置。
前記順序設定手段は、複数の前記領域のうち表画像を有する領域について、当該表画像に対して予め設定された位置から文字認識を実行するように、認識順序を設定することを特徴とする請求項３記載の画像処理装置。
前記順序設定手段は、複数の前記領域のうち枠画像を有する領域について、当該枠画像の内側に位置する画像よりも先に当該枠画像の外側に位置する画像から文字認識を実行するように、認識順序を設定することを特徴とする請求項３記載の画像処理装置。
前記解析手段に対して複数ページの前記元画像データを有する元画像ファイルが入力される場合に、当該元画像ファイルにおける各ページの重要度に関する情報を受け付ける受付手段を更に含み、
前記上限時間設定手段は、前記元画像データの各領域に対して、前記受付手段が受け付けた情報に基づいて、当該元画像データのページに応じて上限時間を設定することを特徴とする請求項１乃至８のいずれか１項記載の画像処理装置。
複数の画像を有する１ページ分の元画像データに対して、複数の画像の配置を解析する機能と、
解析された複数の画像の配置に対応させて、前記元画像データを、それぞれが画像を含む複数の領域に分割する機能と、
分割された複数の前記領域に対して、各領域に対する文字認識を実行する際の上限時間をそれぞれ設定する機能と、
複数の前記領域から選択された対象領域に対して、当該対象領域に対する文字認識を実行し、当該対象領域に対して設定された上限時間を経過した場合に当該対象領域に対する文字認識を終了し、続いて複数の当該領域のうち当該対象領域とは異なる他の領域に対して文字認識を開始する機能と
をコンピュータに実現させるためのプログラム。