JP2010072826A

JP2010072826A - 画像処理装置、画像処理方法、プログラムおよびコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP2010072826A
Application number: JP2008238113A
Authority: JP
Inventors: Toshio Akiyama; 敏雄穐山
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2008-09-17
Filing date: 2008-09-17
Publication date: 2010-04-02
Anticipated expiration: 2028-09-17
Also published as: JP5262493B2

Abstract

【課題】文字認識処理において、画像に含まれる文字を遺漏なく抽出する。
【解決手段】文字を含む画像データを入力し、当該画像データに対して、複数の異なる角度での回転処理を施して複数種類の画像データを生成し、各画像データに対して明度反転処理を施して２種類の画像データを生成し、生成された各画像データに対して複数の異なるアルゴリズムによる領域識別処理を施して、複数種類の画像データを生成し、各画像データに対して文字認識処理を施すことで、入力された画像データに対応する複数種類の文字認識結果（テキストデータ）を取得する。
【選択図】図１

Description

本発明は、文字を含む画像に対して文字認識処理を行う画像処理装置、画像処理方法、プログラムおよびコンピュータ読み取り可能な記憶媒体に関するものである。

画像に含まれる文字を抽出するため光学文字認識（Optical Character Recognition、以下「ＯＣＲ」と称す）が用いられている。ＯＣＲでは、その精度を高めるため、通常、元画像に対して様々な前処理が実行される。例えば、画像の傾きを検知して微小な角度回転により正しい向きに補正するスキュー補正処理、画像（原稿）の向きを正しい方向に補正（回転）する天地識別処理（例えば、特許文献１を参照）、原稿のレイアウトを解析して文字領域を抽出する領域識別処理（例えば、特許文献２を参照）、文字領域から行を切り出して行をさらに１文字単位に切り出す行抽出・文字抽出処理、白黒（明度）反転領域を識別する処理、画像を２値化する処理、１文字単位で認識処理をおこなってテキストと確信度を取得する文字認識処理、文字認識処理によって得られたテキストを単語辞書等とつき合わせたり構文解析を行ったりすることで誤認識文字を補正する知識処理等である。換言すれば、ＯＣＲの前処理は、このような自動解析・判断処理によって実現されている。かかる処理を通じて得られた結果は、汎用のオフィス・アプリケーション等で使用できる形式、汎用のワープロソフト等で使用できる形式に変換して使用されたり、テキスト形式のままで検索に用いられたりする。

１種類の画像（文書画像を含む）に対してＯＣＲ処理を施す場合の典型的な前処理によれば、１つの入力画像に対して天地識別や領域識別等の複数の異なる処理を所定の順番で自動的に行う。具体的には、各処理において最適条件を抽出し最も確信度の高い１つの処理結果が選択されて次の処理に送られる。すなわち、各処理において複数の可能性の中から最適な１つの解が導き出される。したがって、最終的に得られるＯＣＲの精度を上げるためには、各処理の精度を上げる必要があり、そのためのいくつかの技術が提案されている。

例えば、特許文献１においては、天地識別処理の後に実行される回転処理において誤処理が発生しないように、画像情報の縦横方向を認識して基準となる画像情報の画像方向を決定するとともに、決定された基準画像方向に対する認識された画像情報の画像方向整合性を順次判定することで、天地識別処理の正確性を向上させている。また、特許文献２においては、画像データからエッジ点を抽出し、抽出したエッジ点の総和量を用いて画像データが文書画像であるか否かを判別している。また、特許文献３においては、入力画像に対しイメージピラミッドを利用した領域分割を行って、各分割層から複数の特徴量を抽出し、各特徴量に割り当てられた確信度を合成して、その領域のカテゴリを識別している。

ＯＣＲは元来、スキャナ等の光学的読取装置によって紙媒体上の原稿（画像および文字を含む）を読み取り、読み取った原稿画像から文字を抽出し、コンピュータにおいて処理可能な形式に変換する技術をいう。しかし、近年は、デジタルカメラで取得した画像データやインターネットから取得した画像データからテキストを取得したいという要求も多い。かかる要求に対応するためにも文字認識技術の重要性は一層増している。

特許第３３４３３６７号公報特開２００６−１２８９８７号公報特許第２６１５０５１号公報

しかし、上述のようなＯＣＲの前処理の精度を上げた場合でも、いずれかの処理において誤認識・誤判断が発生すれば、最終的に得られるＯＣＲ結果も誤りとなってしまう。例えば特許文献３に記載の処理を行って領域を抽出した場合、全体が罫線でかこまれていて、殆どが図と線とで構成されている原稿であれば、その全体が図面領域とみなされてしまい、文字領域が抽出されない場合がある。このように、一つ一つの処理の精度向上のみによっては、確実に正確なＯＣＲ結果を得ることは難しい。特に、複雑なレイアウトの原稿、カラー原稿、白黒反転文字の存在する原稿、天地方向の判別が困難な原稿等、種々の原稿すべてに対して常に適切なＯＣＲを行うことは困難である。例えば、１つの原稿内に黒文字と白抜き文字が含まれている場合や、１つの原稿内に文字の天地方向が複数ある場合には、背景色を１つに決定して２値化処理を行ったり、原稿全体の天地方向を１つに決定して文字認識処理を行ったりすると、正しく認識される部分と正しく認識されない部分とが発生する。

また、ＯＣＲの結果得られた文字情報は、全文検索の対象として利用されることがある。この場合、デザインやレイアウトの趣の強い文字画像もキーワード検索できるように画像内のすべての文字をＯＣＲによって抽出するのが望ましい。検索目的でＯＣＲ結果を使用する場合には１つの解を導きだすことよりも、正しい解を含んだ結果を導き出すことがより重要である。オフィス・アプリケーション等で使用できるテキストを得たい場合には、画像から１つの認識結果を導き出さねばならないが、検索対象として使用するテキストを得たい場合には、誤った認識結果が正しい情報として検索される危険さえなければ、検索対象の中に誤った認識結果が含まれていても正しい情報が必ず含まれていれば問題はない。したがって、従来技術における各処理の精度向上によって正しい認識結果のみを常に得ようとするアプローチは、ＯＣＲ結果を検索目的で使用することを考えた場合、必ずしも最適なものであるとはいえない。

本発明は、上記に鑑みてなされたものであって、種々の前処理に対して複数の異なるパラメータを与えることで、元画像データから複数の画像データを取得し、各画像データに対して文字認識処理を行うことで、確実に正確なＯＣＲ結果を得ることができる画像処理装置、画像処理方法、プログラムおよびコンピュータ読み取り可能な記憶媒体を提供することを目的とする。

上記目的を達成するために、本発明の画像処理装置は次の如き構成を採用した。本発明にかかる画像処理装置は、文字を含んだ画像データを元画像データとして入力する画像入力部と、画像データおよび第１処理パラメータを受け付け、該画像データに対して前記第１処理パラメータに応じた回転処理を施すことによって第１処理画像データを出力する回転処理部と、画像データおよび第２処理パラメータを受け付け、該画像データに対して前記第２処理パラメータに応じた色成分処理を施すことによって第２処理画像データを出力する色成分処理部と、画像データおよび第３処理パラメータを受け付け、前記第３処理パラメータに応じたアルゴリズムによって、該画像データから少なくとも１つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ第３処理画像データを出力する領域識別処理部と、所定の条件に応じて、前記第１処理画像データ、前記第２処理画像データおよび前記第３処理画像データのいずれかに含まれる文字を認識する文字認識処理部と、前記回転処理部に対して複数の異なる第１処理パラメータを与え、前記色成分処理部に対して複数の異なる第２処理パラメータを与え、前記領域識別処理部に対して複数の異なる第３処理パラメータを与えることによって、前記文字認識処理部から複数の異なる文字認識処理結果を出力させる画像処理制御部と、前記複数の文字認識処理結果を統合する文字認識統合部と、を備える構成とすることができる。

さらに、上記課題を解決するため、本発明は、文字を含む画像データを元画像データとして入力する画像入力ステップと、前記元画像データに対して、複数の第１処理パラメータ、複数の第２処理パラメータおよび複数の第３処理パラメータを決定するパラメータ決定ステップと、前記元画像データに対して前記複数の第１処理パラメータに応じた回転処理を施し、複数の第１処理画像データを生成する回転処理ステップと、前記複数の第１処理画像データに対して前記複数の第２処理パラメータに応じた色成分処理を施し、複数の第２処理画像データを生成する色成分処理ステップと、前記複数の第３処理パラメータに応じたアルゴリズムによって、前記複数の第２処理画像データのそれぞれから少なくとも１つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第３処理画像データを生成する領域識別処理ステップと、前記複数の第３処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、前記複数の文字認識結果を統合する文字認識統合ステップとを備える画像処理方法としてもよい。

さらに、本発明は、文字を含む画像データを元画像データとして入力する画像入力ステップと、前記元画像データに対して、複数の第１処理パラメータ、複数の第２処理パラメータおよび複数の第３処理パラメータを決定するパラメータ決定ステップと、前記元画像データに対して前記複数の第１処理パラメータに応じた回転処理を施し、複数の第１処理画像データを生成する回転処理ステップと、前記複数の第１処理画像データに対して前記複数の第３処理パラメータに応じたアルゴリズムによって、前記複数の第１処理画像データのそれぞれから少なくとも１つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第３処理画像データを生成する領域識別処理ステップと、前記複数の第３処理画像データに対して前記複数の第２処理パラメータに応じた色成分処理を施し、複数の第２処理画像データを生成する色成分処理ステップと、前記複数の第２処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、前記複数の文字認識結果を統合する文字認識統合ステップとを備える画像処理方法としてもよい。

さらに、本発明は、文字を含む画像データを元画像データとして入力する画像入力ステップと、前記元画像データに対して、複数の第１処理パラメータ、複数の第２処理パラメータおよび複数の第３処理パラメータを決定するパラメータ決定ステップと、前記元画像データに対して前記複数の第２処理パラメータに応じた色成分処理を施し、複数の第２処理画像データを生成する色成分処理ステップと、前記複数の第２処理画像データに対して前記複数の第１処理パラメータに応じた回転処理を施し、複数の第１処理画像データを生成する回転処理ステップと、前記複数の第３処理パラメータに応じたアルゴリズムによって、前記複数の第１処理画像データのそれぞれから少なくとも１つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第３処理画像データを生成する領域識別処理ステップと、前記複数の第３処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、前記複数の文字認識結果を統合する文字認識統合ステップとを備える画像処理方法としてもよい。

さらに、本発明は、文字を含む画像データを元画像データとして入力する画像入力ステップと、前記元画像データに対して、複数の第１処理パラメータ、複数の第２処理パラメータおよび複数の第３処理パラメータを決定するパラメータ決定ステップと、前記元画像データに対して前記複数の第２処理パラメータに応じた色成分処理を施し、複数の第２処理画像データを生成する色成分処理ステップと、前記複数の第３処理パラメータに応じたアルゴリズムによって、前記複数の第２処理画像データのそれぞれから少なくとも１つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第３処理画像データを生成する領域識別処理ステップと、前記複数の第３処理画像データに対して前記複数の第１処理パラメータに応じた回転処理を施し、複数の第１処理画像データを生成する回転処理ステップと、前記複数の第１処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、前記複数の文字認識結果を統合する文字認識統合ステップとを備える画像処理方法としてもよい。

さらに、本発明は、文字を含む画像データを元画像データとして入力する画像入力ステップと、前記元画像データに対して、複数の第１処理パラメータ、複数の第２処理パラメータおよび複数の第３処理パラメータを決定するパラメータ決定ステップと、前記複数の第３処理パラメータに応じたアルゴリズムによって、前記元画像データから少なくとも１つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第３処理画像データを生成する領域識別処理ステップと、前記複数の第３処理画像データに対して前記複数の第１処理パラメータに応じた回転成分処理を施し、複数の第１処理画像データを生成する回転処理ステップと、前記複数の第１処理画像データに対して前記複数の第２処理パラメータに応じた色成分処理を施して複数の第２処理画像データを生成する領域識別処理ステップと、前記複数の第２処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、前記複数の文字認識結果を統合する文字認識統合ステップとを備える画像処理方法としてもよい。

さらに、本発明は、文字を含む画像データを元画像データとして入力する画像入力ステップと、前記元画像データに対して、複数の第１処理パラメータ、複数の第２処理パラメータおよび複数の第３処理パラメータを決定するパラメータ決定ステップと、前記複数の第３処理パラメータに応じたアルゴリズムによって、前記元画像データから少なくとも１つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第３処理画像データを生成する領域識別処理ステップと、前記複数の第３処理画像データに対して前記複数の第２処理パラメータに応じた色成分処理を施し、複数の第２処理画像データを生成する色成分処理ステップと、前記複数の第２処理画像データに対して前記複数の第１処理パラメータに応じた回転処理を施して複数の第１処理画像データを生成する領域識別処理ステップと、前記複数の第１処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、前記複数の文字認識結果を統合する文字認識統合ステップとを備える画像処理方法としてもよい。

また、上記課題を解決するため、本発明は、上記画像処理装置が実現する画像処理方法および上記画像処理方法をコンピュータに実行させるコンピュータプログラム、及びそのコンピュータプログラムを記録した情報記録媒体としてもよい。

本発明によれば、一つの元画像に対して複数の異なるＯＣＲ結果を取得することで、確実に正確なＯＣＲ結果を得ることができるという効果を奏する。

（第１の実施の形態）
以下に添付図面を参照して、この発明にかかる画像処理装置、画像処理方法、プログラムおよびコンピュータ読み取り可能な記憶媒体の最良な実施の形態を詳細に説明する。図１は、本発明の第１の実施の形態にかかる画像処理装置１００の概略ブロック図である。画像処理装置１００は、主として全文検索用のテキストデータを取得するために使用することを想定している。図１中、画像処理装置１００は、画像入力部１０と、回転処理部２０と、色成分処理部３０と、領域識別処理部４０と、文字認識処理部５０と、文字認識統合部６０と、画像処理制御部７０と、出力部８０とを備える。

画像入力部１０は、外部からの画像データ（以下、「元画像データ」と呼ぶ）の入力を受け付け、元画像データを画像処理制御部７０に入力する。画像処理制御部７０は、回転処理部２０、色成分処理部３０、領域識別処理部４０、文字認識処理部５０および文字認識統合部６０の動作を制御する。具体的には、画像処理制御部７０は、画像データと複数の異なる第１処理パラメータとを回転処理部２０に入力して、回転処理を施した複数の画像データを取得する。さらに、画像処理制御部７０は、画像データと複数の異なる第２処理パラメータとを色成分処理部３０に入力し、色成分処理を施した複数の画像データを取得する。さらに、画像処理制御部７０は、画像データと複数の異なる第３処理パラメータとを領域識別処理部４０に入力し、領域識別の結果抽出された複数の領域を画像データとして取得する。画像処理制御部７０は、回転処理部２０、色成分処理部３０および領域識別処理部４０における処理の結果取得した複数の画像データを所定の処理基準にもとづいて文字認識処理部５０に入力する。そして、文字認識処理部５０が出力する複数の文字認識結果（テキストデータ）を取得して、文字認識統合部６０に入力する。文字認識統合部６０から統合されたテキストデータを取得すると、画像処理制御部７０は、当該テキストデータを出力部８０に渡す。

回転処理部２０は、第１処理パラメータに基づいて画像データを回転させる回転処理を実行する。第１処理パラメータは、例えば、回転角度である。その回転角度の例で説明すれば、第１処理パラメータが９０度回転を示している場合、回転処理部２０は、画像データを右方向に９０度だけ回転させ、回転した画像データを出力する。例えば、元画像データを９０度ずつ回転させて元画像データを含めて計４通りの画像データを生成したい場合には、回転処理部２０は、４つの異なる第１処理パラメータ、すなわち０度、９０度、２８０度、２７０度の入力を受け付け、元画像データと、元画像データを右方向に９０度回転させた画像データと、１８０度回転させた画像と、２７０度回転させた画像とを出力する。

色成分処理部３０は、第２処理パラメータに基づいて画像データの色成分に対する色成分処理を実行する。色成分処理は、画像データの明度を反転させる処理、画像データに含まれる色を判別し色ごとに色レイヤーを生成する処理、画像データを２値化する処理等を含む。これら処理の例で説明すれば、明度反転の有無、判別する色の種類と数、２値化の閾値などが第２処理パラメータの内容に該当する。

領域識別処理部４０は、第３処理パラメータに応じた所定のアルゴリズムによって、画像データに対して領域識別処理を実行する。領域識別処理は、画像データの中の文字が存在する可能性が高い領域を識別する処理である。領域識別処理部４０は、文字の占める割合が高い文字領域のほか、図形やイラストの占める割合が高い図画領域、写真の占める割合が高い写真領域、表やグラフの占める割合が高い表領域等も切り出してもよい。また、文字領域や表領域をさらに、文字列の占める割合が高い行領域に切り分け、一文字ごとに１文字領域に切り分けてもよい。なお、第３処理パラメータには、上記した各領域を識別するためのアルゴリズムの指定だけでなく、そのアルゴリズムに用いる各種の閾値を含めることもできる。

領域識別処理部４０が、画像データから領域を切り出すために実行する処理、すなわち領域識別処理のアルゴリズムとしては、従来から知られている領域識別処理を採用することができる。例えば、特許文献３に記載の処理ように、複数の特徴量を検出し、これに基づいて文字領域、写真領域、図画領域、表領域等を識別して切り出す手法をアルゴリズムＡとし、黒が連続している領域を検出し、検出した黒連続領域の情報をもとに文字領域を切り出す手法をアルゴリズムＢとし、そのうちのいずれかまたは双方を実行する。

文字認識処理部５０は、回転処理部２０、色成分処理部３０および領域識別処理部４０によって処理された複数の画像データに対して文字認識処理を実行して複数の認識結果（テキストデータ）を出力する。文字認識処理部５０が実行する文字認識処理は、一般に光学文字認識（Optical Character Recognition：以下、「ＯＣＲ」と略称する。）と呼ばれるものである。ＯＣＲという語は、狭義には、物理的な原稿（画像および文字を含む）をスキャナ等の光学装置によって画像データとして読み取り、画像データに含まれる文字をコンピュータで処理可能な形式（テキストデータ等）に変換する一連の処理を指す。しかしながらここでは、広義に、上記した各処理部を通過した画像データから文字を抽出してテキストデータに変換する処理を指すものとする。文字認識処理部５０における処理の結果得られる複数の認識結果は、文字認識統合部６０に入力される。

文字認識統合部６０は、複数の認識結果（テキストデータ）を統合する。ここで、「統合する」とは、単に複数の認識結果をまとめること、複数の認識結果に対して比較処理等を実行すること、複数の認識結果に対してさらに所定の処理を実行して単一の認識結果を選択すること等を含むものとする。第１の実施の形態においては、文字認識統合部６０は、単にテキストデータをまとめて一つにするものとする。

出力部８０は、文字認識統合部６０によって統合された認識結果をテキストデータとして出力する。

以下に、図２および図３を参照して、第１の実施の形態における画像処理装置１００の処理の例を具体的に説明する。図２は、第１の実施の形態の画像処理装置における文字認識処理手順を示すフローチャートであり、図３は、第１の実施の形態の画像処理装置における文字認識処理手順を説明する図である。

画像処理装置１００において、まず、入力された元画像データを、９０度ごとに回転させて４通りの画像データを生成する（図３の（１））。ここでは、説明の便宜上、これら４通りの画像データのそれぞれを第１処理画像データと称する。続いて、各第１処理画像データの明度を反転させた反転画像データと明度を反転させない非反転画像データとの２つの異なる画像データを生成して（図３の（２））、これにより、８通りの画像データを得る。ここでは、説明の便宜上、これらの８通りの画像データのそれぞれを第２処理画像データと称する。次に、各第２処理画像データに対して、２つの異なる領域識別アルゴリズムによる領域識別処理を施す（図３の（３））。ここで、領域識別処理は、文字が含まれる領域を切り出す処理であるが、通常、一つの画像データに対して複数の文字領域を切り出す。よって、各第２処理画像データに対し、領域識別アルゴリズム毎に異なる数の領域画像データが得られる。しかしながら、ここでは説明を簡単にするために、一つの第２処理画像データに対して一つの領域識別アルゴリズムに従って得られた複数の領域画像データをまとめて第３処理画像データと称する。すなわち、領域識別処理によって１６通りの第３処理画像データが得られる。そして、各第３画像処理データに含まれる複数の領域画像データのそれぞれに対して文字認識処理を実行する（図３の（４））。第３画像処理データ毎にグループ化すれば、その文字認識処理によって、１６通りの文字認識結果（テキストデータ）が得られる。最後に、これら１６通りの文字認識結果を統合して出力する（図３の（５））。

以下に、上記した文字認識処理手順を、図１に示した画像処理装置１００のハードウェア構成要素と関係づけて説明する。まず、画像入力部１０が元画像データを受け付け、画像処理制御部７０に送る。画像処理制御部７０は、元画像データと４つの異なる第１処理パラメータとを回転処理部２０に入力する。回転処理部２０は、４つの異なる第１処理パラメータに従って元画像データを回転させる。図３の例に従えば、その回転処理により、０度画像データ、９０度画像データ、１８０度画像データおよび２７０度画像データが生成される（ステップＳ１０）。

回転処理部２０が生成した４通りの第１処理画像データ、すなわち、０度画像データ、９０度画像データ、１８０度画像データおよび２７０度回転画像データはそれぞれ、２つの第２処理パラメータとともに、色成分処理部３０に送られる。これにより、色成分処理部３０は、本実施の形態では、４つの異なる画像データを２つの異なるパラメータによって処理することになる。色成分処理部３０は、８通りの第２処理画像データ、すなわち０度画像データの明度を反転させた０度反転画像データおよび明度を反転させない０度非反転画像データと、９０度画像データの明度を反転させた９０度反転画像データおよび明度を反転させない９０度非反転画像データと、１８０度画像データの明度を反転させた１８０度反転画像データおよび明度を反転させない１８０度非反転画像データと、２７０度画像データの明度を反転させた２７０度反転画像データおよび明度を反転させない２７０度非反転画像データとを生成する（ステップＳ２０）。

次に、上記した８つの異なる第２処理画像データが、２つの異なる第３処理パラメータとともに、領域識別処理部４０に送られる。領域識別処理部４０は、２つの異なる第３処理パラメータに応じたアルゴリズムの各々によって、画像データから文字領域を抽出する（ステップＳ３０）。結果として、領域識別処理部４０は、８つの異なる第２処理画像データの各々について２通りの領域識別結果を生成することになるので、１６通りの領域識別結果、すなわち１６個の異なる第３処理画像データが出力される。ここで、上述したように、各第３処理画像データは、通常、複数の領域画像データを含む。

領域識別処理部４０により抽出された第３処理画像データの各領域画像データは、文字認識処理部５０に送られる。文字認識処理部５０は、各領域画像データに対してＯＣＲ処理を実行し、文字認識の結果となるテキストデータを出力する。このテキストデータは文字認識統合部６０に送られ、統合される。

第１の実施の形態の画像処理装置１００は、元画像データに対して回転処理と明度反転処理とを実行して８つの異なる画像データを取得する。従来の文字認識に従えば、取得した８つの異なる画像データのうちの１つが正しく文字認識された画像であり、残りの７つの画像データに対して取得した文字認識結果は無意味となる。しかし、元画像データ中、一部分だけが白黒反転画像であることもあり、また、一部だけが原稿自体の天地方向とは異なる方向を向いていることもある。第１の実施の形態の画像処理装置１００によれば、画像データを４つの異なる方向に回転させ、取得した画像データそれぞれについて明度を反転させて文字認識処理を実行するため、画像データの一部が他の部分とは異なる明度である場合や、一部が他の部分とは異なる天地方向になっている場合にも、当該一部について適切に文字認識結果を得ることができる。その一方で、正しい明度および天地方向となっていない部分について取得した文字認識結果は無意味な情報となるから、最終的に得たテキストデータを全文検索用に使用する場合には影響はない。このように、本発明の第１の実施の形態によれば、元画像データから遺漏なく文字を抽出することができる。

（変形例１）
しかし、上記の第１の実施の形態の画像処理装置においては、複数通りの文字認識結果が得られるため、取得した文字情報（テキストデータ）をオフィス・アプリケーション等で文書に変換して使用する場合には不都合を生じる。そこで、文字認識統合部６０は、単に文字認識結果をまとめるだけでなく、重複した領域があるか否かを調べ、重複した領域がある場合は、所定値以上の確からしさを有する結果を残し、それ以外の領域を廃棄してもよい。これにより、重複した部分や無意味な文字列を取り除くことができる。なお、結果の確からしさは、文字認識後の確信度や、単語辞書・知識辞書と付き合わせた場合の単語のヒット数にもとづいて判断することができる。

このように、複数種類の文字認識結果から最も適切な結果が選択され、１種類の結果にまとめられるため、オフィス・アプリケーション等でテキストデータを文書に変換して使用する際にも不都合を生じることがない。

（変形例２）
また、文字認識処理を行う前に、領域識別処理において抽出された結果を比較することによって、同じ領域に対して重複した文字認識結果が得られることを抑制することもできる。領域識別処理においては、例えば、まず、文字領域、表領域、図画領域、写真領域等の大まかな領域切り出しを行い、次に、切り出された文字領域に対して行切り出し、さらに１文字単位の切り出しを行う。また、切り出された表領域に対しては、セルの切り出し、行の切り出し、１文字単位の切り出しが順に行われる。本変形例では、行切り出しが完了した時点で、切り出された領域同士を比較する。複数の同じ行領域があった場合は、そのうち一つの行領域を残して他の行領域を破棄する。ただし、回転処理および色成分処理の結果、切り出された行領域が同じであってもその方向や明度反転状態が異なっている場合もある。かかる場合には、当該行領域は同じとはみなさず、それぞれに対して文字認識処理を行う。

このように、領域識別処理の段階で得られた情報をある程度まで統合することで、文字認識処理結果の重複を抑制することができ、文字認識処理結果をオフィス・アプリケーション等において効率的に使用することができる。

（変形例３）
上記第１の実施の形態においては、回転処理、色成分処理、領域識別処理、文字認識処理の順序で画像処理を実行した。しかし、処理の順序は適宜変更することができる。例えば、最初に領域識別処理を行い、領域識別処理によって切り出された各領域に対して回転処理（９０度単位回転）および色成分処理（明度反転）を行い、その結果得られた画像データをＯＣＲ処理にかけることもできる。このように処理の順序を変更すると、処理の各分岐における処理データ量が小さくなるため、１度に処理部にかかる負担が軽くなるという利点がある。

（変形例４）
上記第１の実施の形態においては、２つの異なるアルゴリズムを用いた領域識別処理を別個に実行することで、文字領域を遺漏なく抽出することとしている。しかし、いずれのアルゴリズムを用いた処理においても、文字の存在する領域が誤って例えば写真領域として切り出された場合、その領域に対しては文字抽出処理がおこなわれず、文字抽出に漏れが生じてしまう。２つの異なるアルゴリズムによる処理を相互に独立して実行するのではなく、一方の処理を行った後、当該処理においては文字領域として切り出されなかった領域に対して他方の処理を実行することで、かかる遺漏を防止することができる。

例えば、領域識別処理Ａと領域識別処理Ｂを実行する場合を考える。領域識別処理Ａにおいては、特許文献３に記載の領域識別方法を用いて文字領域を抽出する。領域識別処理Ｂにおいては、黒連続領域の情報を元に文字領域矩形を検出する処理を行う。この場合、領域識別処理Ａでは文字領域とされなかった領域内に文字が含まれていた場合であっても、領域識別処理Ｂにおいて文字を抽出することができ、処理の遺漏が防止できる。

（変形例５）
上記第１の実施の形態においては、色成分処理として明度反転処理を実行した。しかし、元画像データが高解像度のカラー画像またはグレースケール画像である場合は、タイプの異なる２種類以上の２値化処理を実行してもよい。タイプの異なる、とは、２値化強度（閾値）の異なる２種類の処理や、自動閾値判定タイプの処理と固定閾値タイプの処理の２つ等を意味する。

（変形例６）
ところで、もともとは白黒の原稿等の場合であっても、白黒原稿の上に赤いボールペン等で書き込みをした原稿を画像として取り込んで処理する場合等には、これをそのまま２値化すると赤い書き込みと黒い元の原稿とが混同され、適正に文字認識できない。

かかる不都合は、画像データに含まれた色を判別して異なる色レイヤーに分離し、異なる色レイヤー画像ごとに領域識別処理および文字認識処理を行うことで防止できる。具体的にはまず、画像データに対し、色判別処理を行う。色判別処理によって、画像データに含まれた文字色または背景色を特定する。画像データを色ごとに分離して色レイヤーを生成する。色レイヤーに対し、前景を単色と仮定した２値化を実行する。または、色レイヤーに対し、背景を単色と仮定した２値化を実行する。得られたデータに対して領域識別処理および文字認識処理を実行する。

かかる処理によれば、複雑な色使いの原稿であっても適正に文字認識処理を実行できる。また、暗い背景に白い文字が描かれているような原稿であっても、白に着目して２値化することで、文字認識処理に適したデータを取得できる。また、絵柄のついた背景上に文字が描かれているような原稿であっても、同様の処理によって、文字認識処理に適したデータを取得できる。また、文字色にグラデーションがかかっている場合には、背景色に着目した２値化を行うことで、同様に適切なデータを取得できる。

かかる色成分処理は、領域識別処理を行う前に実行してもよく、また、領域識別処理を実行した後に実行してもよい。すなわち、画像データに対して領域識別処理を実行した後に、文字領域として切り出された領域を文字色レイヤーに分離して２値化処理を実行し、得られたデータに対して文字認識処理を実行してもよい。

なお、上記第１の実施の形態の画像処理装置１００においては、回転処理部２０、色成分処理部３０、領域識別処理部４０の処理の順番および処理の詳細がどのように決定されるかについては詳述していないが、回転処理部２０、色成分処理部３０、領域識別処理部４０のそれぞれにおいて実行される処理の詳細は、前もって決定して画像処理制御部７０に設定しておいてもよく、または、処理時にユーザが選択して設定できるようにしてもよく、または、元画像データの特徴に応じて画像処理制御部７０が自動的に決定するようにしてもよい。

なお、回転処理部２０、色成分処理部３０および領域識別処理部４０の各々における複数の処理パラメータに対する処理は並列的に行われるのが最も好ましく、また効果的である。

（第２の実施の形態）
本発明の第１の実施の形態にかかる画像処理装置１００は、元画像データに対して、回転処理、色成分処理、領域識別処理および文字認識処理を順に実行することで、複数の異なる文字認識結果を取得し、画像データに含まれる文字を遺漏なく抽出することとしたが、本発明の画像処理装置は、従来の自動判別処理と組み合わせて使用することもできる。

図４に示す画像処理装置２００は、第１の実施の形態にかかる画像処理装置１００が備える画像入力部１０、回転処理部２０、色成分処理部３０、領域識別処理部４０、文字認識処理部５０、文字認識統合部６０および出力部８０に加えて、画像処理制御部７２、自動判定処理部７４と、処理中止部７６とを備える。

自動判定処理部７４は、入力される画像データに対して、自動的に天地識別処理および白黒識別処理を実行し、処理結果を処理中止部７６に通知する。処理中止部７６は、自動判定処理部７４における処理結果に基づき、画像処理制御部７２に対して、回転処理部２０、色成分処理部３０、領域識別処理部４０および文字認識処理部５０における処理を中止させるよう指示する。

以下、図５を参照して、画像処理装置２００の動作について説明する。画像処理装置２００においては、回転処理部２０、色成分処理部３０および領域識別処理部４０の処理順序は、画像処理装置１００と同じものとする。画像入力部１０が元画像データを受け付けると、画像処理制御部７２は、一方で、元画像データと所定のパラメータとを回転処理部２０に入力し、回転処理を開始させる。他方で、画像処理制御部７２は、元画像データを自動判定処理部７４に入力し、天地識別処理および白黒判別処理を開始させる。回転処理部２０が回転処理を実行している間に、自動判定処理部７４において、特定の天地方向が正しい方向であると判定されると、自動判定処理部７４は処理結果を処理中止部７６に通知する。通知を受けた処理中止部７６は、画像処理制御部７２に対して正しい方向以外の方向に対応する画像を生成する処理を中止するよう指示する。図５の例においては、指示に応じて、画像処理制御部７２は、回転処理部２０に対し２７０度画像データの処理を中止し、さらに０度画像データの処理を中止させる。

さらに、自動判定処理部７４において、元画像データの明度と反転させた明度のいずれかが正しく文字認識できる明度であると判定されると、自動判定処理部７４は処理結果を処理中止部７６に通知する。通知を受けた処理中止部７６は、画像処理制御部７２に対して正しく文字認識できる明度以外の明度に対応する画像を生成する処理を中止するよう指示する。図５の例においては、指示に応じて、画像処理制御部７４は、色成分処理部３０に対し各明度反転画像データに対応する処理を中止させる。

この結果、図５の例においては、自動判定処理部７４および処理中止部７６がなかった場合に生成される１６通りの文字認識結果ではなく、８通りの文字認識結果が生成されることになる。これによって、画像処理装置２００における無駄な処理および処理の負荷が軽減され、処理時間が短縮される。

上記の例においては、画像処理制御部２００は、元画像データを自動判定処理部７４に入力するとともに、回転処理部２０に入力して回転処理を開始させている。これに対し、自動判定処理部７４における判定処理が完了してから、回転処理部２０への画像データの入力を行うこともできる。その場合の処理の流れを図６のフローチャートに示す。

画像入力部１０が元画像データを取得すると、まず画像処理制御部７２へ元画像データを入力する。画像処理制御部７２は元画像データを自動判定処理部７４に入力する。自動判定処理部７４は自動的に天地識別処理および白黒判別処理を開始し、処理結果を処理中止部７６に通知する（ステップＳ１００）。処理中止部７６は、自動判別処理の結果の確信度が所定の閾値Ｔ_Ｈよりも大きいか否かを判定する（ステップＳ１１０）。ここで確信度とは、その処理結果が正しいという確からしさを示す指標であり、任意の方法で決定することができる。処理中止部７６は、自動判定処理の結果特定の天地方向および明度が正しいと判定された場合、すなわち、特定の天地方向および明度の確信度Ｔ_ａが所定の閾値Ｔ_Ｈよりも大きいと判定された場合（ステップＳ１１０、Ｙｅｓ）、さらに、確信度Ｔ_ａが所定の閾値Ｔ_Ｈよりも大きい処理結果が１つであるか又は複数あるかを判定する（ステップＳ１２０）。ステップ１２０における判定処理の結果、確信度Ｔ_ａが所定の閾値Ｔ_Ｈよりも大きい処理結果が１つだけであると判定された場合（ステップＳ１２０、Ｙｅｓ）、処理中止部７６はその旨を画像処理制御部７２に通知する。通知を受けた画像処理制御部７６は、自動判定処理部７４における処理の結果正しいと判定された天地方向および明度の画像データと第３処理パラメータとを領域識別処理部４０に入力し、得られた複数の識別結果の画像データを文字認識処理部５０に渡す（ステップＳ１８０）。この場合、自動判定処理部７４における処理の結果得られた画像データは正しく文字認識できる天地方向および明度であるから、領域識別処理部４０においては２種類以上のアルゴリズムを用いた領域識別処理を行わなくともよい。画像処理制御部７２は、領域識別処理部４０における処理の結果得られた画像データを文字認識処理部５０に入力して文字を認識させる（ステップＳ１９０）。領域識別処理部４０で２種類以上のアルゴリズムを用いた領域識別処理を実行した場合は、画像処理制御部７２は、文字認識結果を文字認識統合部６０に入力して結果を統合させる。領域識別処理部４０が１種類のアルゴリズムのみを用いて領域識別処理を実行した場合は、文字認識処理部５０から出力される処理結果は１種類のみであるので、結果を文字認識統合部６０に入力せず、そのまま出力部８０に送る。

次にステップＳ１１０に戻り、自動判定処理の結果、確信度Ｔ_ａが閾値Ｔ_Ｈを上回る結果が見つからなかった場合（ステップＳ１１０、Ｎｏ）、処理中止部７６は、その旨を画像処理制御部７２に通知する。通知を受けた画像処理制御部７２は、元画像データと複数の異なる第１処理パラメータを回転処理部２０に入力して回転処理を開始させる（ステップＳ１３０）。回転処理部２０から出力された第１処理画像データは次に色成分処理部３０に入力されて色成分処理が施される（ステップＳ１４０）。色成分処理部３０から出力された第２処理画像データは領域識別処理部４０に入力されて領域識別処理が実行される（ステップＳ１５０）。領域識別処理部４０から出力された第３処理画像データは文字認識処理部５０に入力され、これにより第３処理画像データ中に含まれる文字が認識される（ステップＳ１６０）。文字認識結果は、文字認識統合部６０に入力されて統合される（ステップＳ１７０）。なお、ステップＳ１３０からステップＳ１７０までの処理は、第１の実施の形態にかかる画像処理装置に関して説明したステップＳ１０からステップＳ５０までの処理と同様である（図２を参照）。

次にステップＳ１２０に戻り、自動判定処理の結果、確信度Ｔ_ａが閾値Ｔ_Ｈを上回る結果が複数存在した場合（ステップＳ１２０、Ｎｏ）、処理中止部７６は、その旨を画像処理制御部７２に通知する。通知を受けた画像処理制御部７２は、自動判定処理の結果、確信度Ｔ_ａが閾値Ｔ_Ｈを上回る結果が見つからなかった場合（ステップＳ１１０、Ｎｏ）と同様に、ステップＳ１３０からステップＳ１７０までの処理を実行して文字認識結果を取得する。

画像処理装置１００および２００の回転処理部２０および色成分処理部３０においては、画像データの正しい方向および適正な色成分についての判定は行われず、方向および色成分を変更して複数種類の画像データを生成するのみである。これに対して、自動判定処理部７４は、画像データの正しい方向および白黒成分を判定する。自動判定処理部７４における処理の結果、確信度の高い判定結果が得られた場合、画像処理制御部７２は、回転処理部２０および色成分処理部３０への当該画像データの入力は行わず、領域識別処理のみを行って得られた画像データを文字認識処理部５０へ入力して、文字認識処理を行う。

第２の実施の形態の画像処理装置２００においては、自動判定処理部７４および処理中止部７６を設けて、元画像データから複数の画像データを生成して各画像データに対応する文字認識結果を取得する処理とは別に自動判定処理を行う。自動判定処理は、複数の文字認識結果を取得する処理を行う前に実行してもよいし、複数の文字認識結果を取得する処理と並行して実行し、結果に応じて複数の文字認識結果を取得する処理に割り込んでもよい。

このように従来の自動判定処理と本発明の複数の文字認識結果を取得する処理とを併用することによって、さらに文字認識処理の効率を高めることができる。

第１および第２の実施の形態の画像処理装置１００、２００は、ＣＰＵなどの制御装置と、ＲＯＭ（Read Only Memory）やＲＡＭなどの記憶装置と、ＨＤＤ、ＣＤドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置を備えており、通常のコンピュータを利用したハードウェア構成により実現することができる。

また、第１および第２の実施の形態の画像処理装置１００、２００で実行される各種処理は、コンピュータ上で実行可能な画像処理プログラムとして実現することができ、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。

また、上記画像処理プログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供されるように構成されても良い。また、上記画像処理プログラムは、インターネット等のネットワーク経由で提供または配布されるように構成されても良い。さらに、上記画像処理プログラムは、ＲＯＭ等に予め組み込んで提供されるように構成されてもよい。

第１および第２の実施の形態の画像処理装置１００、２００で実行される画像処理プログラムは、上述した各部（画像入力部、回転処理部、色成分処理部、領域識別処理部、文字認識処理部、文字認識統合部、出力部、自動判定処理部および処理中止部）を含むモジュール構成としてもよい。この場合、実際のハードウェアとしてはＣＰＵ（プロセッサ）が上記記憶媒体から画像処理プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、画像入力部、回転処理部、色成分処理部、領域識別処理部、文字認識処理部、文字認識統合部、出力部、自動判定処理部および処理中止部が主記憶装置上に生成される。

なお、本発明の画像処理装置は、複写機、プリンタ、スキャナ装置、ファクシミリ装置等の画像形成装置にも適用することができる。

第１の実施の形態の画像処理装置のブロック図である。第１の実施の形態の画像処理装置における文字認識処理手順を示すフローチャートである。第１の実施の形態の画像処理装置における文字認識処理手順を説明する図である。第２の実施の形態の画像処理装置のブロック図である。第２の実施の形態の画像処理装置における文字認識処理手順の一例を説明する図である。第２の実施の形態の画像処理装置における文字認識処理手順の他の例を示すフローチャートである。

符号の説明

１０画像入力部
２０回転処理部
３０色成分処理部
４０領域識別処理部
５０文字認識処理部
６０文字認識統合部
７０、７２画像処理制御部
７４自動判定処理部
７６処理中止部
８０出力部
１００、２００画像処理装置

Claims

文字を含んだ画像データを元画像データとして入力する画像入力部と、
画像データおよび第１処理パラメータを受け付け、該画像データに対して前記第１処理パラメータに応じた回転処理を施すことによって第１処理画像データを出力する回転処理部と、
画像データおよび第２処理パラメータを受け付け、該画像データに対して前記第２処理パラメータに応じた色成分処理を施すことによって第２処理画像データを出力する色成分処理部と、
画像データおよび第３処理パラメータを受け付け、前記第３処理パラメータに応じたアルゴリズムによって、該画像データから少なくとも１つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ第３処理画像データを出力する領域識別処理部と、
所定の条件に応じて、前記第１処理画像データ、前記第２処理画像データおよび前記第３処理画像データのいずれかに含まれる文字を認識する文字認識処理部と、
前記回転処理部に対して複数の異なる第１処理パラメータを与え、前記色成分処理部に対して複数の異なる第２処理パラメータを与え、前記領域識別処理部に対して複数の異なる第３処理パラメータを与えることによって、前記文字認識処理部から複数の異なる文字認識処理結果を出力させる画像処理制御部と、
前記複数の文字認識処理結果を統合する文字認識統合部と、
を備えることを特徴とする画像処理装置。
前記文字認識処理部は、前記所定の条件が、前記回転処理部が前記画像データとして前記元画像データを受け付け且つ前記色成分処理部が前記画像データとして前記第１処理画像データを受け付け且つ前記領域識別処理部が前記画像データとして前記第２処理画像データを受け付けたことである場合に、前記第３処理画像データに含まれる文字を認識することを特徴とする請求項１記載の画像処理装置。
前記文字認識処理部は、前記所定の条件が、前記回転処理部が前記画像データとして前記元画像データを受け付け且つ前記色成分処理部が前記画像データとして前記第３処理画像データを受け付け且つ前記領域識別処理部が前記画像データとして前記第１処理画像データを受け付けたことである場合に、前記第２処理画像データに含まれる文字を認識することを特徴とする請求項１記載の画像処理装置。
前記文字認識処理部は、前記所定の条件が、前記回転処理部が前記画像データとして前記第２処理画像データを受け付け且つ前記色成分処理部が前記画像データとして元画像データを受け付け且つ前記領域識別処理部が前記画像データとして前記第１処理画像データを受け付けたことである場合に、前記第３処理画像データに含まれる文字を認識することを特徴とする請求項１記載の画像処理装置。
前記文字認識処理部は、前記所定の条件が、前記回転処理部が前記画像データとして前記第３処理画像データを受け付け且つ前記色成分処理部が前記画像データとして前記元画像データを受け付け且つ前記領域識別処理部が前記画像データとして前記第２処理画像データを受け付けたことである場合に、前記第１処理画像データに含まれる文字を認識することを特徴とする請求項１記載の画像処理装置。
前記文字認識処理部は、前記所定の条件が、前記回転処理部が前記画像データとして前記第３処理画像データを受け付け且つ前記色成分処理部が前記画像データとして前記第１処理画像データを受け付け且つ前記領域識別処理部が前記画像データとして前記元画像データを受け付けたことである場合に、前記第２処理画像データに含まれる文字を認識することを特徴とする請求項１記載の画像処理装置。
前記文字認識処理部は、前記所定の条件が、前記回転処理部が前記画像データとして前記第２処理画像データを受け付け且つ前記色識別処理部が前記画像データとして前記第３処理画像データを受け付け且つ前記領域識別処理部が前記画像データとして前記元画像データを受け付けたことである場合に、前記第１処理画像データに含まれる文字を認識することを特徴とする請求項１記載の画像処理装置。
前記色成分処理部は、前記色成分処理として、前記画像データを２値化する２値化処理を施すことを特徴とする請求項１記載の画像処理装置。
前記色成分処理部は、前記画像データがカラー画像またはグレースケール画像である場合、２種類以上の２値化処理を施すことを特徴とする請求項８記載の画像処理装置。
前記色成分処理部は、前記画像データに含まれる色を判別し、前記画像データを、判別した各色の色レイヤーに分離し、各色レイヤーに対して２値化処理を施すことを特徴とする請求項８記載の画像処理装置。
前記色成分処理部は、前記色成分処理として、前記画像データの明度を反転させる明度反転処理を施すことを特徴とする請求項１記載の画像処理装置。
前記回転処理部が前記画像データとして前記第３処理画像データを受け付けた場合、または前記色成分処理部が前記画像データとして前記第３処理画像データを受け付けた場合には、前記文字認識統合部は、前記第３処理画像データの正しい回転方向および明度反転の有無を判定し、判定結果にもとづいて前記元画像データの方向を決定することを特徴とする請求項１１記載の画像処理装置。
前記領域識別処理部は、前記画像データ中、前記複数の異なる第３処理パラメータのうち１つのパラメータに基づいた処理によって抽出された領域以外の部分について、当該処理後に、前記複数の異なる第３処理パラメータのうち他のパラメータに基づいた処理を施すことを特徴とする請求項１記載の画像処理装置。
前記領域識別処理部は、前記領域識別処理において、前記画像データから文字列の占める割合が高い行領域を抽出することを特徴とする請求項１記載の画像処理装置。
前記画像処理制御部は、前記文字認識処理部に入力される前記画像データに含まれる前記行領域を比較し、同一の行領域が存在した場合に１つの行領域を残して他の行領域を破棄することを特徴とする請求項１４記載の画像処理装置。
前記文字認識統合部は、前記複数の文字認識処理結果中に重複した領域が存在するか否かを判定し、重複した領域が存在する場合は、当該重複した領域を含む前記複数の文字認識処理結果を比較し、所定値以上の確からしさを有する文字認識結果を残し、他方を破棄することを特徴とする請求項１記載の画像処理装置。
前記元画像データを受け付け、該元画像データに対して、天地識別および白黒識別のうち少なくとも１つの処理を実行する自動判定処理部と、
前記自動判定処理部における処理の結果、前記元画像データの天地および白黒のうち少なくとも１つが識別された場合、前記回転処理部、前記色成分処理部、前記領域識別処理部および前記文字認識処理部における処理のうち、識別した天地および白黒のうち少なくとも１つに対応する処理を除く処理を中止させる処理中止部と、
をさらに備えることを特徴とする請求項１から１６のいずれか１項に記載の画像処理装置。
前記元画像データが前記回転処理部、前記色成分処理部および前記領域識別部のいずれかに入力される前に、前記元画像データを受け付け、前記元画像データに対して自動判定処理を実行し、所定の閾値以上の確信度を有する１つの結果が得られた場合は該結果に対応する画像データを前記文字認識処理部に入力し、前記所定の閾値未満の確信度を有する結果しか得られなかった場合および前記所定の閾値以上の確信度を有する複数の結果が得られた場合は前記元画像データを前記画像データとして前記回転処理部、前記色成分処理部、および前記領域識別部のいずれか１つに入力する、自動判定処理部をさらに備えることを特徴とする請求項１から１６のいずれか１項に記載の画像処理装置。
前記複数の異なる第１処理パラメータに応じた回転処理、前記複数の異なる第２処理パラメータに応じた色成分処理および前記複数の異なる第３処理パラメータに応じたアルゴリズムによる領域識別処理はそれぞれ、並列して行われることを特徴とする請求項１から１８のいずれか１項に記載の画像処理装置。
文字を含む画像データを元画像データとして入力する画像入力ステップと、
前記元画像データに対して、複数の異なる第１処理パラメータ、複数の異なる第２処理パラメータおよび複数の異なる第３処理パラメータを決定するパラメータ決定ステップと、
前記元画像データに対して前記複数の第１処理パラメータに応じた回転処理を施し、複数の第１処理画像データを生成する回転処理ステップと、
前記複数の第１処理画像データに対して前記複数の第２処理パラメータに応じた色成分処理を施し、複数の第２処理画像データを生成する色成分処理ステップと、
前記複数の第３処理パラメータに応じたアルゴリズムによって、前記複数の第２処理画像データのそれぞれから少なくとも１つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第３処理画像データを生成する領域識別処理ステップと、
前記複数の第３処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、
前記複数の文字認識結果を統合する文字認識統合ステップと
を備えることを特徴とする画像処理方法。
文字を含む画像データを元画像データとして入力する画像入力ステップと、
前記元画像データに対して、複数の異なる第１処理パラメータ、複数の異なる第２処理パラメータおよび複数の異なる第３処理パラメータを決定するパラメータ決定ステップと、
前記元画像データに対して前記複数の第１処理パラメータに応じた回転処理を施し、複数の第１処理画像データを生成する回転処理ステップと、
前記複数の第１処理画像データに対して前記複数の第３処理パラメータに応じたアルゴリズムによって、前記複数の第１処理画像データのそれぞれから少なくとも１つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第３処理画像データを生成する領域識別処理ステップと、
前記複数の第３処理画像データに対して前記複数の第２処理パラメータに応じた色成分処理を施し、複数の第２処理画像データを生成する色成分処理ステップと、
前記複数の第２処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、
前記複数の文字認識結果を統合する文字認識統合ステップと
を備えることを特徴とする画像処理方法。
文字を含む画像データを元画像データとして入力する画像入力ステップと、
前記元画像データに対して、複数の異なる第１処理パラメータ、複数の異なる第２処理パラメータおよび複数の異なる第３処理パラメータを決定するパラメータ決定ステップと、
前記元画像データに対して前記複数の第２処理パラメータに応じた色成分処理を施し、複数の第２処理画像データを生成する色成分処理ステップと、
前記複数の第２処理画像データに対して前記複数の第１処理パラメータに応じた回転処理を施し、複数の第１処理画像データを生成する回転処理ステップと、
前記複数の第３処理パラメータに応じたアルゴリズムによって、前記複数の第１処理画像データのそれぞれから少なくとも１つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第３処理画像データを生成する領域識別処理ステップと、
前記複数の第３処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、
前記複数の文字認識結果を統合する文字認識統合ステップと
を備えることを特徴とする画像処理方法。
文字を含む画像データを元画像データとして入力する画像入力ステップと、
前記元画像データに対して、複数の異なる第１処理パラメータ、複数の異なる第２処理パラメータおよび複数の異なる第３処理パラメータを決定するパラメータ決定ステップと、
前記元画像データに対して前記複数の第２処理パラメータに応じた色成分処理を施し、複数の第２処理画像データを生成する色成分処理ステップと、
前記複数の第３処理パラメータに応じたアルゴリズムによって、前記複数の第２処理画像データのそれぞれから少なくとも１つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第３処理画像データを生成する領域識別処理ステップと、
前記複数の第３処理画像データに対して前記複数の第１処理パラメータに応じた回転処理を施し、複数の第１処理画像データを生成する回転処理ステップと、
前記複数の第１処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、
前記複数の文字認識結果を統合する文字認識統合ステップと
を備えることを特徴とする画像処理方法。
文字を含む画像データを元画像データとして入力する画像入力ステップと、
前記元画像データに対して、複数の異なる第１処理パラメータ、複数の異なる第２処理パラメータおよび複数の異なる第３処理パラメータを決定するパラメータ決定ステップと、
前記複数の第３処理パラメータに応じたアルゴリズムによって、前記元画像データから少なくとも１つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第３処理画像データを生成する領域識別処理ステップと、
前記複数の第３処理画像データに対して前記複数の第１処理パラメータに応じた回転成分処理を施し、複数の第１処理画像データを生成する回転処理ステップと、
前記複数の第１処理画像データに対して前記複数の第２処理パラメータに応じた色成分処理を施して複数の第２処理画像データを生成する領域識別処理ステップと、
前記複数の第２処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、
前記複数の文字認識結果を統合する文字認識統合ステップと
を備えることを特徴とする画像処理方法。
文字を含む画像データを元画像データとして入力する画像入力ステップと、
前記元画像データに対して、複数の異なる第１処理パラメータ、複数の異なる第２処理パラメータおよび複数の異なる第３処理パラメータを決定するパラメータ決定ステップと、
前記複数の第３処理パラメータに応じたアルゴリズムによって、前記元画像データから少なくとも１つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第３処理画像データを生成する領域識別処理ステップと、
前記複数の第３処理画像データに対して前記複数の第２処理パラメータに応じた色成分処理を施し、複数の第２処理画像データを生成する色成分処理ステップと、
前記複数の第２処理画像データに対して前記複数の第１処理パラメータに応じた回転処理を施して複数の第１処理画像データを生成する領域識別処理ステップと、
前記複数の第１処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、
前記複数の文字認識結果を統合する文字認識統合ステップと
を備えることを特徴とする画像処理方法。
前記複数の第１処理パラメータに応じた回転処理、前記複数の第２処理パラメータに応じた色成分処理および前記複数の第３処理パラメータに応じたアルゴリズムによる領域識別処理はそれぞれ、並列して行われることを特徴とする請求項２０〜２５のいずれか１項に記載の画像処理方法。
請求項２０〜２６に記載の方法をコンピュータに実行させるためのプログラム。
請求項２７に記載のプログラムを記憶したコンピュータ読み取り可能な記憶媒体。