JP2010072826A - 画像処理装置、画像処理方法、プログラムおよびコンピュータ読み取り可能な記憶媒体 - Google Patents

画像処理装置、画像処理方法、プログラムおよびコンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP2010072826A
JP2010072826A JP2008238113A JP2008238113A JP2010072826A JP 2010072826 A JP2010072826 A JP 2010072826A JP 2008238113 A JP2008238113 A JP 2008238113A JP 2008238113 A JP2008238113 A JP 2008238113A JP 2010072826 A JP2010072826 A JP 2010072826A
Authority
JP
Japan
Prior art keywords
image data
processing
character recognition
processing unit
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008238113A
Other languages
English (en)
Other versions
JP5262493B2 (ja
Inventor
Toshio Akiyama
敏雄 穐山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2008238113A priority Critical patent/JP5262493B2/ja
Publication of JP2010072826A publication Critical patent/JP2010072826A/ja
Application granted granted Critical
Publication of JP5262493B2 publication Critical patent/JP5262493B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

【課題】文字認識処理において、画像に含まれる文字を遺漏なく抽出する。
【解決手段】文字を含む画像データを入力し、当該画像データに対して、複数の異なる角度での回転処理を施して複数種類の画像データを生成し、各画像データに対して明度反転処理を施して2種類の画像データを生成し、生成された各画像データに対して複数の異なるアルゴリズムによる領域識別処理を施して、複数種類の画像データを生成し、各画像データに対して文字認識処理を施すことで、入力された画像データに対応する複数種類の文字認識結果(テキストデータ)を取得する。
【選択図】 図1

Description

本発明は、文字を含む画像に対して文字認識処理を行う画像処理装置、画像処理方法、プログラムおよびコンピュータ読み取り可能な記憶媒体に関するものである。
画像に含まれる文字を抽出するため光学文字認識(Optical Character Recognition、以下「OCR」と称す)が用いられている。OCRでは、その精度を高めるため、通常、元画像に対して様々な前処理が実行される。例えば、画像の傾きを検知して微小な角度回転により正しい向きに補正するスキュー補正処理、画像(原稿)の向きを正しい方向に補正(回転)する天地識別処理(例えば、特許文献1を参照)、原稿のレイアウトを解析して文字領域を抽出する領域識別処理(例えば、特許文献2を参照)、文字領域から行を切り出して行をさらに1文字単位に切り出す行抽出・文字抽出処理、白黒(明度)反転領域を識別する処理、画像を2値化する処理、1文字単位で認識処理をおこなってテキストと確信度を取得する文字認識処理、文字認識処理によって得られたテキストを単語辞書等とつき合わせたり構文解析を行ったりすることで誤認識文字を補正する知識処理等である。換言すれば、OCRの前処理は、このような自動解析・判断処理によって実現されている。かかる処理を通じて得られた結果は、汎用のオフィス・アプリケーション等で使用できる形式、汎用のワープロソフト等で使用できる形式に変換して使用されたり、テキスト形式のままで検索に用いられたりする。
1種類の画像(文書画像を含む)に対してOCR処理を施す場合の典型的な前処理によれば、1つの入力画像に対して天地識別や領域識別等の複数の異なる処理を所定の順番で自動的に行う。具体的には、各処理において最適条件を抽出し最も確信度の高い1つの処理結果が選択されて次の処理に送られる。すなわち、各処理において複数の可能性の中から最適な1つの解が導き出される。したがって、最終的に得られるOCRの精度を上げるためには、各処理の精度を上げる必要があり、そのためのいくつかの技術が提案されている。
例えば、特許文献1においては、天地識別処理の後に実行される回転処理において誤処理が発生しないように、画像情報の縦横方向を認識して基準となる画像情報の画像方向を決定するとともに、決定された基準画像方向に対する認識された画像情報の画像方向整合性を順次判定することで、天地識別処理の正確性を向上させている。また、特許文献2においては、画像データからエッジ点を抽出し、抽出したエッジ点の総和量を用いて画像データが文書画像であるか否かを判別している。また、特許文献3においては、入力画像に対しイメージピラミッドを利用した領域分割を行って、各分割層から複数の特徴量を抽出し、各特徴量に割り当てられた確信度を合成して、その領域のカテゴリを識別している。
OCRは元来、スキャナ等の光学的読取装置によって紙媒体上の原稿(画像および文字を含む)を読み取り、読み取った原稿画像から文字を抽出し、コンピュータにおいて処理可能な形式に変換する技術をいう。しかし、近年は、デジタルカメラで取得した画像データやインターネットから取得した画像データからテキストを取得したいという要求も多い。かかる要求に対応するためにも文字認識技術の重要性は一層増している。
特許第3343367号公報 特開2006−128987号公報 特許第2615051号公報
しかし、上述のようなOCRの前処理の精度を上げた場合でも、いずれかの処理において誤認識・誤判断が発生すれば、最終的に得られるOCR結果も誤りとなってしまう。例えば特許文献3に記載の処理を行って領域を抽出した場合、全体が罫線でかこまれていて、殆どが図と線とで構成されている原稿であれば、その全体が図面領域とみなされてしまい、文字領域が抽出されない場合がある。このように、一つ一つの処理の精度向上のみによっては、確実に正確なOCR結果を得ることは難しい。特に、複雑なレイアウトの原稿、カラー原稿、白黒反転文字の存在する原稿、天地方向の判別が困難な原稿等、種々の原稿すべてに対して常に適切なOCRを行うことは困難である。例えば、1つの原稿内に黒文字と白抜き文字が含まれている場合や、1つの原稿内に文字の天地方向が複数ある場合には、背景色を1つに決定して2値化処理を行ったり、原稿全体の天地方向を1つに決定して文字認識処理を行ったりすると、正しく認識される部分と正しく認識されない部分とが発生する。
また、OCRの結果得られた文字情報は、全文検索の対象として利用されることがある。この場合、デザインやレイアウトの趣の強い文字画像もキーワード検索できるように画像内のすべての文字をOCRによって抽出するのが望ましい。検索目的でOCR結果を使用する場合には1つの解を導きだすことよりも、正しい解を含んだ結果を導き出すことがより重要である。オフィス・アプリケーション等で使用できるテキストを得たい場合には、画像から1つの認識結果を導き出さねばならないが、検索対象として使用するテキストを得たい場合には、誤った認識結果が正しい情報として検索される危険さえなければ、検索対象の中に誤った認識結果が含まれていても正しい情報が必ず含まれていれば問題はない。したがって、従来技術における各処理の精度向上によって正しい認識結果のみを常に得ようとするアプローチは、OCR結果を検索目的で使用することを考えた場合、必ずしも最適なものであるとはいえない。
本発明は、上記に鑑みてなされたものであって、種々の前処理に対して複数の異なるパラメータを与えることで、元画像データから複数の画像データを取得し、各画像データに対して文字認識処理を行うことで、確実に正確なOCR結果を得ることができる画像処理装置、画像処理方法、プログラムおよびコンピュータ読み取り可能な記憶媒体を提供することを目的とする。
上記目的を達成するために、本発明の画像処理装置は次の如き構成を採用した。本発明にかかる画像処理装置は、文字を含んだ画像データを元画像データとして入力する画像入力部と、画像データおよび第1処理パラメータを受け付け、該画像データに対して前記第1処理パラメータに応じた回転処理を施すことによって第1処理画像データを出力する回転処理部と、画像データおよび第2処理パラメータを受け付け、該画像データに対して前記第2処理パラメータに応じた色成分処理を施すことによって第2処理画像データを出力する色成分処理部と、画像データおよび第3処理パラメータを受け付け、前記第3処理パラメータに応じたアルゴリズムによって、該画像データから少なくとも1つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ第3処理画像データを出力する領域識別処理部と、所定の条件に応じて、前記第1処理画像データ、前記第2処理画像データおよび前記第3処理画像データのいずれかに含まれる文字を認識する文字認識処理部と、前記回転処理部に対して複数の異なる第1処理パラメータを与え、前記色成分処理部に対して複数の異なる第2処理パラメータを与え、前記領域識別処理部に対して複数の異なる第3処理パラメータを与えることによって、前記文字認識処理部から複数の異なる文字認識処理結果を出力させる画像処理制御部と、前記複数の文字認識処理結果を統合する文字認識統合部と、を備える構成とすることができる。
さらに、上記課題を解決するため、本発明は、文字を含む画像データを元画像データとして入力する画像入力ステップと、前記元画像データに対して、複数の第1処理パラメータ、複数の第2処理パラメータおよび複数の第3処理パラメータを決定するパラメータ決定ステップと、前記元画像データに対して前記複数の第1処理パラメータに応じた回転処理を施し、複数の第1処理画像データを生成する回転処理ステップと、前記複数の第1処理画像データに対して前記複数の第2処理パラメータに応じた色成分処理を施し、複数の第2処理画像データを生成する色成分処理ステップと、前記複数の第3処理パラメータに応じたアルゴリズムによって、前記複数の第2処理画像データのそれぞれから少なくとも1つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第3処理画像データを生成する領域識別処理ステップと、前記複数の第3処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、前記複数の文字認識結果を統合する文字認識統合ステップとを備える画像処理方法としてもよい。
さらに、本発明は、文字を含む画像データを元画像データとして入力する画像入力ステップと、前記元画像データに対して、複数の第1処理パラメータ、複数の第2処理パラメータおよび複数の第3処理パラメータを決定するパラメータ決定ステップと、前記元画像データに対して前記複数の第1処理パラメータに応じた回転処理を施し、複数の第1処理画像データを生成する回転処理ステップと、前記複数の第1処理画像データに対して前記複数の第3処理パラメータに応じたアルゴリズムによって、前記複数の第1処理画像データのそれぞれから少なくとも1つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第3処理画像データを生成する領域識別処理ステップと、前記複数の第3処理画像データに対して前記複数の第2処理パラメータに応じた色成分処理を施し、複数の第2処理画像データを生成する色成分処理ステップと、前記複数の第2処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、前記複数の文字認識結果を統合する文字認識統合ステップとを備える画像処理方法としてもよい。
さらに、本発明は、文字を含む画像データを元画像データとして入力する画像入力ステップと、前記元画像データに対して、複数の第1処理パラメータ、複数の第2処理パラメータおよび複数の第3処理パラメータを決定するパラメータ決定ステップと、前記元画像データに対して前記複数の第2処理パラメータに応じた色成分処理を施し、複数の第2処理画像データを生成する色成分処理ステップと、前記複数の第2処理画像データに対して前記複数の第1処理パラメータに応じた回転処理を施し、複数の第1処理画像データを生成する回転処理ステップと、前記複数の第3処理パラメータに応じたアルゴリズムによって、前記複数の第1処理画像データのそれぞれから少なくとも1つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第3処理画像データを生成する領域識別処理ステップと、前記複数の第3処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、前記複数の文字認識結果を統合する文字認識統合ステップとを備える画像処理方法としてもよい。
さらに、本発明は、文字を含む画像データを元画像データとして入力する画像入力ステップと、前記元画像データに対して、複数の第1処理パラメータ、複数の第2処理パラメータおよび複数の第3処理パラメータを決定するパラメータ決定ステップと、前記元画像データに対して前記複数の第2処理パラメータに応じた色成分処理を施し、複数の第2処理画像データを生成する色成分処理ステップと、前記複数の第3処理パラメータに応じたアルゴリズムによって、前記複数の第2処理画像データのそれぞれから少なくとも1つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第3処理画像データを生成する領域識別処理ステップと、前記複数の第3処理画像データに対して前記複数の第1処理パラメータに応じた回転処理を施し、複数の第1処理画像データを生成する回転処理ステップと、前記複数の第1処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、前記複数の文字認識結果を統合する文字認識統合ステップとを備える画像処理方法としてもよい。
さらに、本発明は、文字を含む画像データを元画像データとして入力する画像入力ステップと、前記元画像データに対して、複数の第1処理パラメータ、複数の第2処理パラメータおよび複数の第3処理パラメータを決定するパラメータ決定ステップと、前記複数の第3処理パラメータに応じたアルゴリズムによって、前記元画像データから少なくとも1つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第3処理画像データを生成する領域識別処理ステップと、前記複数の第3処理画像データに対して前記複数の第1処理パラメータに応じた回転成分処理を施し、複数の第1処理画像データを生成する回転処理ステップと、前記複数の第1処理画像データに対して前記複数の第2処理パラメータに応じた色成分処理を施して複数の第2処理画像データを生成する領域識別処理ステップと、前記複数の第2処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、前記複数の文字認識結果を統合する文字認識統合ステップとを備える画像処理方法としてもよい。
さらに、本発明は、文字を含む画像データを元画像データとして入力する画像入力ステップと、前記元画像データに対して、複数の第1処理パラメータ、複数の第2処理パラメータおよび複数の第3処理パラメータを決定するパラメータ決定ステップと、前記複数の第3処理パラメータに応じたアルゴリズムによって、前記元画像データから少なくとも1つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第3処理画像データを生成する領域識別処理ステップと、前記複数の第3処理画像データに対して前記複数の第2処理パラメータに応じた色成分処理を施し、複数の第2処理画像データを生成する色成分処理ステップと、前記複数の第2処理画像データに対して前記複数の第1処理パラメータに応じた回転処理を施して複数の第1処理画像データを生成する領域識別処理ステップと、前記複数の第1処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、前記複数の文字認識結果を統合する文字認識統合ステップとを備える画像処理方法としてもよい。
また、上記課題を解決するため、本発明は、上記画像処理装置が実現する画像処理方法および上記画像処理方法をコンピュータに実行させるコンピュータプログラム、及びそのコンピュータプログラムを記録した情報記録媒体としてもよい。
本発明によれば、一つの元画像に対して複数の異なるOCR結果を取得することで、確実に正確なOCR結果を得ることができるという効果を奏する。
(第1の実施の形態)
以下に添付図面を参照して、この発明にかかる画像処理装置、画像処理方法、プログラムおよびコンピュータ読み取り可能な記憶媒体の最良な実施の形態を詳細に説明する。図1は、本発明の第1の実施の形態にかかる画像処理装置100の概略ブロック図である。画像処理装置100は、主として全文検索用のテキストデータを取得するために使用することを想定している。図1中、画像処理装置100は、画像入力部10と、回転処理部20と、色成分処理部30と、領域識別処理部40と、文字認識処理部50と、文字認識統合部60と、画像処理制御部70と、出力部80とを備える。
画像入力部10は、外部からの画像データ(以下、「元画像データ」と呼ぶ)の入力を受け付け、元画像データを画像処理制御部70に入力する。画像処理制御部70は、回転処理部20、色成分処理部30、領域識別処理部40、文字認識処理部50および文字認識統合部60の動作を制御する。具体的には、画像処理制御部70は、画像データと複数の異なる第1処理パラメータとを回転処理部20に入力して、回転処理を施した複数の画像データを取得する。さらに、画像処理制御部70は、画像データと複数の異なる第2処理パラメータとを色成分処理部30に入力し、色成分処理を施した複数の画像データを取得する。さらに、画像処理制御部70は、画像データと複数の異なる第3処理パラメータとを領域識別処理部40に入力し、領域識別の結果抽出された複数の領域を画像データとして取得する。画像処理制御部70は、回転処理部20、色成分処理部30および領域識別処理部40における処理の結果取得した複数の画像データを所定の処理基準にもとづいて文字認識処理部50に入力する。そして、文字認識処理部50が出力する複数の文字認識結果(テキストデータ)を取得して、文字認識統合部60に入力する。文字認識統合部60から統合されたテキストデータを取得すると、画像処理制御部70は、当該テキストデータを出力部80に渡す。
回転処理部20は、第1処理パラメータに基づいて画像データを回転させる回転処理を実行する。第1処理パラメータは、例えば、回転角度である。その回転角度の例で説明すれば、第1処理パラメータが90度回転を示している場合、回転処理部20は、画像データを右方向に90度だけ回転させ、回転した画像データを出力する。例えば、元画像データを90度ずつ回転させて元画像データを含めて計4通りの画像データを生成したい場合には、回転処理部20は、4つの異なる第1処理パラメータ、すなわち0度、90度、280度、270度の入力を受け付け、元画像データと、元画像データを右方向に90度回転させた画像データと、180度回転させた画像と、270度回転させた画像とを出力する。
色成分処理部30は、第2処理パラメータに基づいて画像データの色成分に対する色成分処理を実行する。色成分処理は、画像データの明度を反転させる処理、画像データに含まれる色を判別し色ごとに色レイヤーを生成する処理、画像データを2値化する処理等を含む。これら処理の例で説明すれば、明度反転の有無、判別する色の種類と数、2値化の閾値などが第2処理パラメータの内容に該当する。
領域識別処理部40は、第3処理パラメータに応じた所定のアルゴリズムによって、画像データに対して領域識別処理を実行する。領域識別処理は、画像データの中の文字が存在する可能性が高い領域を識別する処理である。領域識別処理部40は、文字の占める割合が高い文字領域のほか、図形やイラストの占める割合が高い図画領域、写真の占める割合が高い写真領域、表やグラフの占める割合が高い表領域等も切り出してもよい。また、文字領域や表領域をさらに、文字列の占める割合が高い行領域に切り分け、一文字ごとに1文字領域に切り分けてもよい。なお、第3処理パラメータには、上記した各領域を識別するためのアルゴリズムの指定だけでなく、そのアルゴリズムに用いる各種の閾値を含めることもできる。
領域識別処理部40が、画像データから領域を切り出すために実行する処理、すなわち領域識別処理のアルゴリズムとしては、従来から知られている領域識別処理を採用することができる。例えば、特許文献3に記載の処理ように、複数の特徴量を検出し、これに基づいて文字領域、写真領域、図画領域、表領域等を識別して切り出す手法をアルゴリズムAとし、黒が連続している領域を検出し、検出した黒連続領域の情報をもとに文字領域を切り出す手法をアルゴリズムBとし、そのうちのいずれかまたは双方を実行する。
文字認識処理部50は、回転処理部20、色成分処理部30および領域識別処理部40によって処理された複数の画像データに対して文字認識処理を実行して複数の認識結果(テキストデータ)を出力する。文字認識処理部50が実行する文字認識処理は、一般に光学文字認識(Optical Character Recognition:以下、「OCR」と略称する。)と呼ばれるものである。OCRという語は、狭義には、物理的な原稿(画像および文字を含む)をスキャナ等の光学装置によって画像データとして読み取り、画像データに含まれる文字をコンピュータで処理可能な形式(テキストデータ等)に変換する一連の処理を指す。しかしながらここでは、広義に、上記した各処理部を通過した画像データから文字を抽出してテキストデータに変換する処理を指すものとする。文字認識処理部50における処理の結果得られる複数の認識結果は、文字認識統合部60に入力される。
文字認識統合部60は、複数の認識結果(テキストデータ)を統合する。ここで、「統合する」とは、単に複数の認識結果をまとめること、複数の認識結果に対して比較処理等を実行すること、複数の認識結果に対してさらに所定の処理を実行して単一の認識結果を選択すること等を含むものとする。第1の実施の形態においては、文字認識統合部60は、単にテキストデータをまとめて一つにするものとする。
出力部80は、文字認識統合部60によって統合された認識結果をテキストデータとして出力する。
以下に、図2および図3を参照して、第1の実施の形態における画像処理装置100の処理の例を具体的に説明する。図2は、第1の実施の形態の画像処理装置における文字認識処理手順を示すフローチャートであり、図3は、第1の実施の形態の画像処理装置における文字認識処理手順を説明する図である。
画像処理装置100において、まず、入力された元画像データを、90度ごとに回転させて4通りの画像データを生成する(図3の(1))。ここでは、説明の便宜上、これら4通りの画像データのそれぞれを第1処理画像データと称する。続いて、各第1処理画像データの明度を反転させた反転画像データと明度を反転させない非反転画像データとの2つの異なる画像データを生成して(図3の(2))、これにより、8通りの画像データを得る。ここでは、説明の便宜上、これらの8通りの画像データのそれぞれを第2処理画像データと称する。次に、各第2処理画像データに対して、2つの異なる領域識別アルゴリズムによる領域識別処理を施す(図3の(3))。ここで、領域識別処理は、文字が含まれる領域を切り出す処理であるが、通常、一つの画像データに対して複数の文字領域を切り出す。よって、各第2処理画像データに対し、領域識別アルゴリズム毎に異なる数の領域画像データが得られる。しかしながら、ここでは説明を簡単にするために、一つの第2処理画像データに対して一つの領域識別アルゴリズムに従って得られた複数の領域画像データをまとめて第3処理画像データと称する。すなわち、領域識別処理によって16通りの第3処理画像データが得られる。そして、各第3画像処理データに含まれる複数の領域画像データのそれぞれに対して文字認識処理を実行する(図3の(4))。第3画像処理データ毎にグループ化すれば、その文字認識処理によって、16通りの文字認識結果(テキストデータ)が得られる。最後に、これら16通りの文字認識結果を統合して出力する(図3の(5))。
以下に、上記した文字認識処理手順を、図1に示した画像処理装置100のハードウェア構成要素と関係づけて説明する。まず、画像入力部10が元画像データを受け付け、画像処理制御部70に送る。画像処理制御部70は、元画像データと4つの異なる第1処理パラメータとを回転処理部20に入力する。回転処理部20は、4つの異なる第1処理パラメータに従って元画像データを回転させる。図3の例に従えば、その回転処理により、0度画像データ、90度画像データ、180度画像データおよび270度画像データが生成される(ステップS10)。
回転処理部20が生成した4通りの第1処理画像データ、すなわち、0度画像データ、90度画像データ、180度画像データおよび270度回転画像データはそれぞれ、2つの第2処理パラメータとともに、色成分処理部30に送られる。これにより、色成分処理部30は、本実施の形態では、4つの異なる画像データを2つの異なるパラメータによって処理することになる。色成分処理部30は、8通りの第2処理画像データ、すなわち0度画像データの明度を反転させた0度反転画像データおよび明度を反転させない0度非反転画像データと、90度画像データの明度を反転させた90度反転画像データおよび明度を反転させない90度非反転画像データと、180度画像データの明度を反転させた180度反転画像データおよび明度を反転させない180度非反転画像データと、270度画像データの明度を反転させた270度反転画像データおよび明度を反転させない270度非反転画像データとを生成する(ステップS20)。
次に、上記した8つの異なる第2処理画像データが、2つの異なる第3処理パラメータとともに、領域識別処理部40に送られる。領域識別処理部40は、2つの異なる第3処理パラメータに応じたアルゴリズムの各々によって、画像データから文字領域を抽出する(ステップS30)。結果として、領域識別処理部40は、8つの異なる第2処理画像データの各々について2通りの領域識別結果を生成することになるので、16通りの領域識別結果、すなわち16個の異なる第3処理画像データが出力される。ここで、上述したように、各第3処理画像データは、通常、複数の領域画像データを含む。
領域識別処理部40により抽出された第3処理画像データの各領域画像データは、文字認識処理部50に送られる。文字認識処理部50は、各領域画像データに対してOCR処理を実行し、文字認識の結果となるテキストデータを出力する。このテキストデータは文字認識統合部60に送られ、統合される。
第1の実施の形態の画像処理装置100は、元画像データに対して回転処理と明度反転処理とを実行して8つの異なる画像データを取得する。従来の文字認識に従えば、取得した8つの異なる画像データのうちの1つが正しく文字認識された画像であり、残りの7つの画像データに対して取得した文字認識結果は無意味となる。しかし、元画像データ中、一部分だけが白黒反転画像であることもあり、また、一部だけが原稿自体の天地方向とは異なる方向を向いていることもある。第1の実施の形態の画像処理装置100によれば、画像データを4つの異なる方向に回転させ、取得した画像データそれぞれについて明度を反転させて文字認識処理を実行するため、画像データの一部が他の部分とは異なる明度である場合や、一部が他の部分とは異なる天地方向になっている場合にも、当該一部について適切に文字認識結果を得ることができる。その一方で、正しい明度および天地方向となっていない部分について取得した文字認識結果は無意味な情報となるから、最終的に得たテキストデータを全文検索用に使用する場合には影響はない。このように、本発明の第1の実施の形態によれば、元画像データから遺漏なく文字を抽出することができる。
(変形例1)
しかし、上記の第1の実施の形態の画像処理装置においては、複数通りの文字認識結果が得られるため、取得した文字情報(テキストデータ)をオフィス・アプリケーション等で文書に変換して使用する場合には不都合を生じる。そこで、文字認識統合部60は、単に文字認識結果をまとめるだけでなく、重複した領域があるか否かを調べ、重複した領域がある場合は、所定値以上の確からしさを有する結果を残し、それ以外の領域を廃棄してもよい。これにより、重複した部分や無意味な文字列を取り除くことができる。なお、結果の確からしさは、文字認識後の確信度や、単語辞書・知識辞書と付き合わせた場合の単語のヒット数にもとづいて判断することができる。
このように、複数種類の文字認識結果から最も適切な結果が選択され、1種類の結果にまとめられるため、オフィス・アプリケーション等でテキストデータを文書に変換して使用する際にも不都合を生じることがない。
(変形例2)
また、文字認識処理を行う前に、領域識別処理において抽出された結果を比較することによって、同じ領域に対して重複した文字認識結果が得られることを抑制することもできる。領域識別処理においては、例えば、まず、文字領域、表領域、図画領域、写真領域等の大まかな領域切り出しを行い、次に、切り出された文字領域に対して行切り出し、さらに1文字単位の切り出しを行う。また、切り出された表領域に対しては、セルの切り出し、行の切り出し、1文字単位の切り出しが順に行われる。本変形例では、行切り出しが完了した時点で、切り出された領域同士を比較する。複数の同じ行領域があった場合は、そのうち一つの行領域を残して他の行領域を破棄する。ただし、回転処理および色成分処理の結果、切り出された行領域が同じであってもその方向や明度反転状態が異なっている場合もある。かかる場合には、当該行領域は同じとはみなさず、それぞれに対して文字認識処理を行う。
このように、領域識別処理の段階で得られた情報をある程度まで統合することで、文字認識処理結果の重複を抑制することができ、文字認識処理結果をオフィス・アプリケーション等において効率的に使用することができる。
(変形例3)
上記第1の実施の形態においては、回転処理、色成分処理、領域識別処理、文字認識処理の順序で画像処理を実行した。しかし、処理の順序は適宜変更することができる。例えば、最初に領域識別処理を行い、領域識別処理によって切り出された各領域に対して回転処理(90度単位回転)および色成分処理(明度反転)を行い、その結果得られた画像データをOCR処理にかけることもできる。このように処理の順序を変更すると、処理の各分岐における処理データ量が小さくなるため、1度に処理部にかかる負担が軽くなるという利点がある。
(変形例4)
上記第1の実施の形態においては、2つの異なるアルゴリズムを用いた領域識別処理を別個に実行することで、文字領域を遺漏なく抽出することとしている。しかし、いずれのアルゴリズムを用いた処理においても、文字の存在する領域が誤って例えば写真領域として切り出された場合、その領域に対しては文字抽出処理がおこなわれず、文字抽出に漏れが生じてしまう。2つの異なるアルゴリズムによる処理を相互に独立して実行するのではなく、一方の処理を行った後、当該処理においては文字領域として切り出されなかった領域に対して他方の処理を実行することで、かかる遺漏を防止することができる。
例えば、領域識別処理Aと領域識別処理Bを実行する場合を考える。領域識別処理Aにおいては、特許文献3に記載の領域識別方法を用いて文字領域を抽出する。領域識別処理Bにおいては、黒連続領域の情報を元に文字領域矩形を検出する処理を行う。この場合、領域識別処理Aでは文字領域とされなかった領域内に文字が含まれていた場合であっても、領域識別処理Bにおいて文字を抽出することができ、処理の遺漏が防止できる。
(変形例5)
上記第1の実施の形態においては、色成分処理として明度反転処理を実行した。しかし、元画像データが高解像度のカラー画像またはグレースケール画像である場合は、タイプの異なる2種類以上の2値化処理を実行してもよい。タイプの異なる、とは、2値化強度(閾値)の異なる2種類の処理や、自動閾値判定タイプの処理と固定閾値タイプの処理の2つ等を意味する。
(変形例6)
ところで、もともとは白黒の原稿等の場合であっても、白黒原稿の上に赤いボールペン等で書き込みをした原稿を画像として取り込んで処理する場合等には、これをそのまま2値化すると赤い書き込みと黒い元の原稿とが混同され、適正に文字認識できない。
かかる不都合は、画像データに含まれた色を判別して異なる色レイヤーに分離し、異なる色レイヤー画像ごとに領域識別処理および文字認識処理を行うことで防止できる。具体的にはまず、画像データに対し、色判別処理を行う。色判別処理によって、画像データに含まれた文字色または背景色を特定する。画像データを色ごとに分離して色レイヤーを生成する。色レイヤーに対し、前景を単色と仮定した2値化を実行する。または、色レイヤーに対し、背景を単色と仮定した2値化を実行する。得られたデータに対して領域識別処理および文字認識処理を実行する。
かかる処理によれば、複雑な色使いの原稿であっても適正に文字認識処理を実行できる。また、暗い背景に白い文字が描かれているような原稿であっても、白に着目して2値化することで、文字認識処理に適したデータを取得できる。また、絵柄のついた背景上に文字が描かれているような原稿であっても、同様の処理によって、文字認識処理に適したデータを取得できる。また、文字色にグラデーションがかかっている場合には、背景色に着目した2値化を行うことで、同様に適切なデータを取得できる。
かかる色成分処理は、領域識別処理を行う前に実行してもよく、また、領域識別処理を実行した後に実行してもよい。すなわち、画像データに対して領域識別処理を実行した後に、文字領域として切り出された領域を文字色レイヤーに分離して2値化処理を実行し、得られたデータに対して文字認識処理を実行してもよい。
なお、上記第1の実施の形態の画像処理装置100においては、回転処理部20、色成分処理部30、領域識別処理部40の処理の順番および処理の詳細がどのように決定されるかについては詳述していないが、回転処理部20、色成分処理部30、領域識別処理部40のそれぞれにおいて実行される処理の詳細は、前もって決定して画像処理制御部70に設定しておいてもよく、または、処理時にユーザが選択して設定できるようにしてもよく、または、元画像データの特徴に応じて画像処理制御部70が自動的に決定するようにしてもよい。
なお、回転処理部20、色成分処理部30および領域識別処理部40の各々における複数の処理パラメータに対する処理は並列的に行われるのが最も好ましく、また効果的である。
(第2の実施の形態)
本発明の第1の実施の形態にかかる画像処理装置100は、元画像データに対して、回転処理、色成分処理、領域識別処理および文字認識処理を順に実行することで、複数の異なる文字認識結果を取得し、画像データに含まれる文字を遺漏なく抽出することとしたが、本発明の画像処理装置は、従来の自動判別処理と組み合わせて使用することもできる。
図4に示す画像処理装置200は、第1の実施の形態にかかる画像処理装置100が備える画像入力部10、回転処理部20、色成分処理部30、領域識別処理部40、文字認識処理部50、文字認識統合部60および出力部80に加えて、画像処理制御部72、自動判定処理部74と、処理中止部76とを備える。
自動判定処理部74は、入力される画像データに対して、自動的に天地識別処理および白黒識別処理を実行し、処理結果を処理中止部76に通知する。処理中止部76は、自動判定処理部74における処理結果に基づき、画像処理制御部72に対して、回転処理部20、色成分処理部30、領域識別処理部40および文字認識処理部50における処理を中止させるよう指示する。
以下、図5を参照して、画像処理装置200の動作について説明する。画像処理装置200においては、回転処理部20、色成分処理部30および領域識別処理部40の処理順序は、画像処理装置100と同じものとする。画像入力部10が元画像データを受け付けると、画像処理制御部72は、一方で、元画像データと所定のパラメータとを回転処理部20に入力し、回転処理を開始させる。他方で、画像処理制御部72は、元画像データを自動判定処理部74に入力し、天地識別処理および白黒判別処理を開始させる。回転処理部20が回転処理を実行している間に、自動判定処理部74において、特定の天地方向が正しい方向であると判定されると、自動判定処理部74は処理結果を処理中止部76に通知する。通知を受けた処理中止部76は、画像処理制御部72に対して正しい方向以外の方向に対応する画像を生成する処理を中止するよう指示する。図5の例においては、指示に応じて、画像処理制御部72は、回転処理部20に対し270度画像データの処理を中止し、さらに0度画像データの処理を中止させる。
さらに、自動判定処理部74において、元画像データの明度と反転させた明度のいずれかが正しく文字認識できる明度であると判定されると、自動判定処理部74は処理結果を処理中止部76に通知する。通知を受けた処理中止部76は、画像処理制御部72に対して正しく文字認識できる明度以外の明度に対応する画像を生成する処理を中止するよう指示する。図5の例においては、指示に応じて、画像処理制御部74は、色成分処理部30に対し各明度反転画像データに対応する処理を中止させる。
この結果、図5の例においては、自動判定処理部74および処理中止部76がなかった場合に生成される16通りの文字認識結果ではなく、8通りの文字認識結果が生成されることになる。これによって、画像処理装置200における無駄な処理および処理の負荷が軽減され、処理時間が短縮される。
上記の例においては、画像処理制御部200は、元画像データを自動判定処理部74に入力するとともに、回転処理部20に入力して回転処理を開始させている。これに対し、自動判定処理部74における判定処理が完了してから、回転処理部20への画像データの入力を行うこともできる。その場合の処理の流れを図6のフローチャートに示す。
画像入力部10が元画像データを取得すると、まず画像処理制御部72へ元画像データを入力する。画像処理制御部72は元画像データを自動判定処理部74に入力する。自動判定処理部74は自動的に天地識別処理および白黒判別処理を開始し、処理結果を処理中止部76に通知する(ステップS100)。処理中止部76は、自動判別処理の結果の確信度が所定の閾値Tよりも大きいか否かを判定する(ステップS110)。ここで確信度とは、その処理結果が正しいという確からしさを示す指標であり、任意の方法で決定することができる。処理中止部76は、自動判定処理の結果特定の天地方向および明度が正しいと判定された場合、すなわち、特定の天地方向および明度の確信度Tが所定の閾値Tよりも大きいと判定された場合(ステップS110、Yes)、さらに、確信度Tが所定の閾値Tよりも大きい処理結果が1つであるか又は複数あるかを判定する(ステップS120)。ステップ120における判定処理の結果、確信度Tが所定の閾値Tよりも大きい処理結果が1つだけであると判定された場合(ステップS120、Yes)、処理中止部76はその旨を画像処理制御部72に通知する。通知を受けた画像処理制御部76は、自動判定処理部74における処理の結果正しいと判定された天地方向および明度の画像データと第3処理パラメータとを領域識別処理部40に入力し、得られた複数の識別結果の画像データを文字認識処理部50に渡す(ステップS180)。この場合、自動判定処理部74における処理の結果得られた画像データは正しく文字認識できる天地方向および明度であるから、領域識別処理部40においては2種類以上のアルゴリズムを用いた領域識別処理を行わなくともよい。画像処理制御部72は、領域識別処理部40における処理の結果得られた画像データを文字認識処理部50に入力して文字を認識させる(ステップS190)。領域識別処理部40で2種類以上のアルゴリズムを用いた領域識別処理を実行した場合は、画像処理制御部72は、文字認識結果を文字認識統合部60に入力して結果を統合させる。領域識別処理部40が1種類のアルゴリズムのみを用いて領域識別処理を実行した場合は、文字認識処理部50から出力される処理結果は1種類のみであるので、結果を文字認識統合部60に入力せず、そのまま出力部80に送る。
次にステップS110に戻り、自動判定処理の結果、確信度Tが閾値Tを上回る結果が見つからなかった場合(ステップS110、No)、処理中止部76は、その旨を画像処理制御部72に通知する。通知を受けた画像処理制御部72は、元画像データと複数の異なる第1処理パラメータを回転処理部20に入力して回転処理を開始させる(ステップS130)。回転処理部20から出力された第1処理画像データは次に色成分処理部30に入力されて色成分処理が施される(ステップS140)。色成分処理部30から出力された第2処理画像データは領域識別処理部40に入力されて領域識別処理が実行される(ステップS150)。領域識別処理部40から出力された第3処理画像データは文字認識処理部50に入力され、これにより第3処理画像データ中に含まれる文字が認識される(ステップS160)。文字認識結果は、文字認識統合部60に入力されて統合される(ステップS170)。なお、ステップS130からステップS170までの処理は、第1の実施の形態にかかる画像処理装置に関して説明したステップS10からステップS50までの処理と同様である(図2を参照)。
次にステップS120に戻り、自動判定処理の結果、確信度Tが閾値Tを上回る結果が複数存在した場合(ステップS120、No)、処理中止部76は、その旨を画像処理制御部72に通知する。通知を受けた画像処理制御部72は、自動判定処理の結果、確信度Tが閾値Tを上回る結果が見つからなかった場合(ステップS110、No)と同様に、ステップS130からステップS170までの処理を実行して文字認識結果を取得する。
画像処理装置100および200の回転処理部20および色成分処理部30においては、画像データの正しい方向および適正な色成分についての判定は行われず、方向および色成分を変更して複数種類の画像データを生成するのみである。これに対して、自動判定処理部74は、画像データの正しい方向および白黒成分を判定する。自動判定処理部74における処理の結果、確信度の高い判定結果が得られた場合、画像処理制御部72は、回転処理部20および色成分処理部30への当該画像データの入力は行わず、領域識別処理のみを行って得られた画像データを文字認識処理部50へ入力して、文字認識処理を行う。
第2の実施の形態の画像処理装置200においては、自動判定処理部74および処理中止部76を設けて、元画像データから複数の画像データを生成して各画像データに対応する文字認識結果を取得する処理とは別に自動判定処理を行う。自動判定処理は、複数の文字認識結果を取得する処理を行う前に実行してもよいし、複数の文字認識結果を取得する処理と並行して実行し、結果に応じて複数の文字認識結果を取得する処理に割り込んでもよい。
このように従来の自動判定処理と本発明の複数の文字認識結果を取得する処理とを併用することによって、さらに文字認識処理の効率を高めることができる。
第1および第2の実施の形態の画像処理装置100、200は、CPUなどの制御装置と、ROM(Read Only Memory)やRAMなどの記憶装置と、HDD、CDドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置を備えており、通常のコンピュータを利用したハードウェア構成により実現することができる。
また、第1および第2の実施の形態の画像処理装置100、200で実行される各種処理は、コンピュータ上で実行可能な画像処理プログラムとして実現することができ、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。
また、上記画像処理プログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供されるように構成されても良い。また、上記画像処理プログラムは、インターネット等のネットワーク経由で提供または配布されるように構成されても良い。さらに、上記画像処理プログラムは、ROM等に予め組み込んで提供されるように構成されてもよい。
第1および第2の実施の形態の画像処理装置100、200で実行される画像処理プログラムは、上述した各部(画像入力部、回転処理部、色成分処理部、領域識別処理部、文字認識処理部、文字認識統合部、出力部、自動判定処理部および処理中止部)を含むモジュール構成としてもよい。この場合、実際のハードウェアとしてはCPU(プロセッサ)が上記記憶媒体から画像処理プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、画像入力部、回転処理部、色成分処理部、領域識別処理部、文字認識処理部、文字認識統合部、出力部、自動判定処理部および処理中止部が主記憶装置上に生成される。
なお、本発明の画像処理装置は、複写機、プリンタ、スキャナ装置、ファクシミリ装置等の画像形成装置にも適用することができる。
第1の実施の形態の画像処理装置のブロック図である。 第1の実施の形態の画像処理装置における文字認識処理手順を示すフローチャートである。 第1の実施の形態の画像処理装置における文字認識処理手順を説明する図である。 第2の実施の形態の画像処理装置のブロック図である。 第2の実施の形態の画像処理装置における文字認識処理手順の一例を説明する図である。 第2の実施の形態の画像処理装置における文字認識処理手順の他の例を示すフローチャートである。
符号の説明
10 画像入力部
20 回転処理部
30 色成分処理部
40 領域識別処理部
50 文字認識処理部
60 文字認識統合部
70、72 画像処理制御部
74 自動判定処理部
76 処理中止部
80 出力部
100、200 画像処理装置

Claims (28)

  1. 文字を含んだ画像データを元画像データとして入力する画像入力部と、
    画像データおよび第1処理パラメータを受け付け、該画像データに対して前記第1処理パラメータに応じた回転処理を施すことによって第1処理画像データを出力する回転処理部と、
    画像データおよび第2処理パラメータを受け付け、該画像データに対して前記第2処理パラメータに応じた色成分処理を施すことによって第2処理画像データを出力する色成分処理部と、
    画像データおよび第3処理パラメータを受け付け、前記第3処理パラメータに応じたアルゴリズムによって、該画像データから少なくとも1つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ第3処理画像データを出力する領域識別処理部と、
    所定の条件に応じて、前記第1処理画像データ、前記第2処理画像データおよび前記第3処理画像データのいずれかに含まれる文字を認識する文字認識処理部と、
    前記回転処理部に対して複数の異なる第1処理パラメータを与え、前記色成分処理部に対して複数の異なる第2処理パラメータを与え、前記領域識別処理部に対して複数の異なる第3処理パラメータを与えることによって、前記文字認識処理部から複数の異なる文字認識処理結果を出力させる画像処理制御部と、
    前記複数の文字認識処理結果を統合する文字認識統合部と、
    を備えることを特徴とする画像処理装置。
  2. 前記文字認識処理部は、前記所定の条件が、前記回転処理部が前記画像データとして前記元画像データを受け付け且つ前記色成分処理部が前記画像データとして前記第1処理画像データを受け付け且つ前記領域識別処理部が前記画像データとして前記第2処理画像データを受け付けたことである場合に、前記第3処理画像データに含まれる文字を認識することを特徴とする請求項1記載の画像処理装置。
  3. 前記文字認識処理部は、前記所定の条件が、前記回転処理部が前記画像データとして前記元画像データを受け付け且つ前記色成分処理部が前記画像データとして前記第3処理画像データを受け付け且つ前記領域識別処理部が前記画像データとして前記第1処理画像データを受け付けたことである場合に、前記第2処理画像データに含まれる文字を認識することを特徴とする請求項1記載の画像処理装置。
  4. 前記文字認識処理部は、前記所定の条件が、前記回転処理部が前記画像データとして前記第2処理画像データを受け付け且つ前記色成分処理部が前記画像データとして元画像データを受け付け且つ前記領域識別処理部が前記画像データとして前記第1処理画像データを受け付けたことである場合に、前記第3処理画像データに含まれる文字を認識することを特徴とする請求項1記載の画像処理装置。
  5. 前記文字認識処理部は、前記所定の条件が、前記回転処理部が前記画像データとして前記第3処理画像データを受け付け且つ前記色成分処理部が前記画像データとして前記元画像データを受け付け且つ前記領域識別処理部が前記画像データとして前記第2処理画像データを受け付けたことである場合に、前記第1処理画像データに含まれる文字を認識することを特徴とする請求項1記載の画像処理装置。
  6. 前記文字認識処理部は、前記所定の条件が、前記回転処理部が前記画像データとして前記第3処理画像データを受け付け且つ前記色成分処理部が前記画像データとして前記第1処理画像データを受け付け且つ前記領域識別処理部が前記画像データとして前記元画像データを受け付けたことである場合に、前記第2処理画像データに含まれる文字を認識することを特徴とする請求項1記載の画像処理装置。
  7. 前記文字認識処理部は、前記所定の条件が、前記回転処理部が前記画像データとして前記第2処理画像データを受け付け且つ前記色識別処理部が前記画像データとして前記第3処理画像データを受け付け且つ前記領域識別処理部が前記画像データとして前記元画像データを受け付けたことである場合に、前記第1処理画像データに含まれる文字を認識することを特徴とする請求項1記載の画像処理装置。
  8. 前記色成分処理部は、前記色成分処理として、前記画像データを2値化する2値化処理を施すことを特徴とする請求項1記載の画像処理装置。
  9. 前記色成分処理部は、前記画像データがカラー画像またはグレースケール画像である場合、2種類以上の2値化処理を施すことを特徴とする請求項8記載の画像処理装置。
  10. 前記色成分処理部は、前記画像データに含まれる色を判別し、前記画像データを、判別した各色の色レイヤーに分離し、各色レイヤーに対して2値化処理を施すことを特徴とする請求項8記載の画像処理装置。
  11. 前記色成分処理部は、前記色成分処理として、前記画像データの明度を反転させる明度反転処理を施すことを特徴とする請求項1記載の画像処理装置。
  12. 前記回転処理部が前記画像データとして前記第3処理画像データを受け付けた場合、または前記色成分処理部が前記画像データとして前記第3処理画像データを受け付けた場合には、前記文字認識統合部は、前記第3処理画像データの正しい回転方向および明度反転の有無を判定し、判定結果にもとづいて前記元画像データの方向を決定することを特徴とする請求項11記載の画像処理装置。
  13. 前記領域識別処理部は、前記画像データ中、前記複数の異なる第3処理パラメータのうち1つのパラメータに基づいた処理によって抽出された領域以外の部分について、当該処理後に、前記複数の異なる第3処理パラメータのうち他のパラメータに基づいた処理を施すことを特徴とする請求項1記載の画像処理装置。
  14. 前記領域識別処理部は、前記領域識別処理において、前記画像データから文字列の占める割合が高い行領域を抽出することを特徴とする請求項1記載の画像処理装置。
  15. 前記画像処理制御部は、前記文字認識処理部に入力される前記画像データに含まれる前記行領域を比較し、同一の行領域が存在した場合に1つの行領域を残して他の行領域を破棄することを特徴とする請求項14記載の画像処理装置。
  16. 前記文字認識統合部は、前記複数の文字認識処理結果中に重複した領域が存在するか否かを判定し、重複した領域が存在する場合は、当該重複した領域を含む前記複数の文字認識処理結果を比較し、所定値以上の確からしさを有する文字認識結果を残し、他方を破棄することを特徴とする請求項1記載の画像処理装置。
  17. 前記元画像データを受け付け、該元画像データに対して、天地識別および白黒識別のうち少なくとも1つの処理を実行する自動判定処理部と、
    前記自動判定処理部における処理の結果、前記元画像データの天地および白黒のうち少なくとも1つが識別された場合、前記回転処理部、前記色成分処理部、前記領域識別処理部および前記文字認識処理部における処理のうち、識別した天地および白黒のうち少なくとも1つに対応する処理を除く処理を中止させる処理中止部と、
    をさらに備えることを特徴とする請求項1から16のいずれか1項に記載の画像処理装置。
  18. 前記元画像データが前記回転処理部、前記色成分処理部および前記領域識別部のいずれかに入力される前に、前記元画像データを受け付け、前記元画像データに対して自動判定処理を実行し、所定の閾値以上の確信度を有する1つの結果が得られた場合は該結果に対応する画像データを前記文字認識処理部に入力し、前記所定の閾値未満の確信度を有する結果しか得られなかった場合および前記所定の閾値以上の確信度を有する複数の結果が得られた場合は前記元画像データを前記画像データとして前記回転処理部、前記色成分処理部、および前記領域識別部のいずれか1つに入力する、自動判定処理部をさらに備えることを特徴とする請求項1から16のいずれか1項に記載の画像処理装置。
  19. 前記複数の異なる第1処理パラメータに応じた回転処理、前記複数の異なる第2処理パラメータに応じた色成分処理および前記複数の異なる第3処理パラメータに応じたアルゴリズムによる領域識別処理はそれぞれ、並列して行われることを特徴とする請求項1から18のいずれか1項に記載の画像処理装置。
  20. 文字を含む画像データを元画像データとして入力する画像入力ステップと、
    前記元画像データに対して、複数の異なる第1処理パラメータ、複数の異なる第2処理パラメータおよび複数の異なる第3処理パラメータを決定するパラメータ決定ステップと、
    前記元画像データに対して前記複数の第1処理パラメータに応じた回転処理を施し、複数の第1処理画像データを生成する回転処理ステップと、
    前記複数の第1処理画像データに対して前記複数の第2処理パラメータに応じた色成分処理を施し、複数の第2処理画像データを生成する色成分処理ステップと、
    前記複数の第3処理パラメータに応じたアルゴリズムによって、前記複数の第2処理画像データのそれぞれから少なくとも1つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第3処理画像データを生成する領域識別処理ステップと、
    前記複数の第3処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、
    前記複数の文字認識結果を統合する文字認識統合ステップと
    を備えることを特徴とする画像処理方法。
  21. 文字を含む画像データを元画像データとして入力する画像入力ステップと、
    前記元画像データに対して、複数の異なる第1処理パラメータ、複数の異なる第2処理パラメータおよび複数の異なる第3処理パラメータを決定するパラメータ決定ステップと、
    前記元画像データに対して前記複数の第1処理パラメータに応じた回転処理を施し、複数の第1処理画像データを生成する回転処理ステップと、
    前記複数の第1処理画像データに対して前記複数の第3処理パラメータに応じたアルゴリズムによって、前記複数の第1処理画像データのそれぞれから少なくとも1つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第3処理画像データを生成する領域識別処理ステップと、
    前記複数の第3処理画像データに対して前記複数の第2処理パラメータに応じた色成分処理を施し、複数の第2処理画像データを生成する色成分処理ステップと、
    前記複数の第2処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、
    前記複数の文字認識結果を統合する文字認識統合ステップと
    を備えることを特徴とする画像処理方法。
  22. 文字を含む画像データを元画像データとして入力する画像入力ステップと、
    前記元画像データに対して、複数の異なる第1処理パラメータ、複数の異なる第2処理パラメータおよび複数の異なる第3処理パラメータを決定するパラメータ決定ステップと、
    前記元画像データに対して前記複数の第2処理パラメータに応じた色成分処理を施し、複数の第2処理画像データを生成する色成分処理ステップと、
    前記複数の第2処理画像データに対して前記複数の第1処理パラメータに応じた回転処理を施し、複数の第1処理画像データを生成する回転処理ステップと、
    前記複数の第3処理パラメータに応じたアルゴリズムによって、前記複数の第1処理画像データのそれぞれから少なくとも1つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第3処理画像データを生成する領域識別処理ステップと、
    前記複数の第3処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、
    前記複数の文字認識結果を統合する文字認識統合ステップと
    を備えることを特徴とする画像処理方法。
  23. 文字を含む画像データを元画像データとして入力する画像入力ステップと、
    前記元画像データに対して、複数の異なる第1処理パラメータ、複数の異なる第2処理パラメータおよび複数の異なる第3処理パラメータを決定するパラメータ決定ステップと、
    前記元画像データに対して前記複数の第2処理パラメータに応じた色成分処理を施し、複数の第2処理画像データを生成する色成分処理ステップと、
    前記複数の第3処理パラメータに応じたアルゴリズムによって、前記複数の第2処理画像データのそれぞれから少なくとも1つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第3処理画像データを生成する領域識別処理ステップと、
    前記複数の第3処理画像データに対して前記複数の第1処理パラメータに応じた回転処理を施し、複数の第1処理画像データを生成する回転処理ステップと、
    前記複数の第1処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、
    前記複数の文字認識結果を統合する文字認識統合ステップと
    を備えることを特徴とする画像処理方法。
  24. 文字を含む画像データを元画像データとして入力する画像入力ステップと、
    前記元画像データに対して、複数の異なる第1処理パラメータ、複数の異なる第2処理パラメータおよび複数の異なる第3処理パラメータを決定するパラメータ決定ステップと、
    前記複数の第3処理パラメータに応じたアルゴリズムによって、前記元画像データから少なくとも1つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第3処理画像データを生成する領域識別処理ステップと、
    前記複数の第3処理画像データに対して前記複数の第1処理パラメータに応じた回転成分処理を施し、複数の第1処理画像データを生成する回転処理ステップと、
    前記複数の第1処理画像データに対して前記複数の第2処理パラメータに応じた色成分処理を施して複数の第2処理画像データを生成する領域識別処理ステップと、
    前記複数の第2処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、
    前記複数の文字認識結果を統合する文字認識統合ステップと
    を備えることを特徴とする画像処理方法。
  25. 文字を含む画像データを元画像データとして入力する画像入力ステップと、
    前記元画像データに対して、複数の異なる第1処理パラメータ、複数の異なる第2処理パラメータおよび複数の異なる第3処理パラメータを決定するパラメータ決定ステップと、
    前記複数の第3処理パラメータに応じたアルゴリズムによって、前記元画像データから少なくとも1つの文字領域を抽出する領域識別処理を行い、抽出した文字領域のそれぞれを領域画像データとして含んだ複数の第3処理画像データを生成する領域識別処理ステップと、
    前記複数の第3処理画像データに対して前記複数の第2処理パラメータに応じた色成分処理を施し、複数の第2処理画像データを生成する色成分処理ステップと、
    前記複数の第2処理画像データに対して前記複数の第1処理パラメータに応じた回転処理を施して複数の第1処理画像データを生成する領域識別処理ステップと、
    前記複数の第1処理画像データに対して文字認識処理を施して、複数の文字認識結果を生成する文字認識ステップと、
    前記複数の文字認識結果を統合する文字認識統合ステップと
    を備えることを特徴とする画像処理方法。
  26. 前記複数の第1処理パラメータに応じた回転処理、前記複数の第2処理パラメータに応じた色成分処理および前記複数の第3処理パラメータに応じたアルゴリズムによる領域識別処理はそれぞれ、並列して行われることを特徴とする請求項20〜25のいずれか1項に記載の画像処理方法。
  27. 請求項20〜26に記載の方法をコンピュータに実行させるためのプログラム。
  28. 請求項27に記載のプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
JP2008238113A 2008-09-17 2008-09-17 画像処理装置、画像処理方法、プログラムおよびコンピュータ読み取り可能な記憶媒体 Expired - Fee Related JP5262493B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008238113A JP5262493B2 (ja) 2008-09-17 2008-09-17 画像処理装置、画像処理方法、プログラムおよびコンピュータ読み取り可能な記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008238113A JP5262493B2 (ja) 2008-09-17 2008-09-17 画像処理装置、画像処理方法、プログラムおよびコンピュータ読み取り可能な記憶媒体

Publications (2)

Publication Number Publication Date
JP2010072826A true JP2010072826A (ja) 2010-04-02
JP5262493B2 JP5262493B2 (ja) 2013-08-14

Family

ID=42204561

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008238113A Expired - Fee Related JP5262493B2 (ja) 2008-09-17 2008-09-17 画像処理装置、画像処理方法、プログラムおよびコンピュータ読み取り可能な記憶媒体

Country Status (1)

Country Link
JP (1) JP5262493B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013135451A (ja) * 2011-12-27 2013-07-08 Fuji Xerox Co Ltd 画像推定装置、画像処理装置、及びプログラム
CN105654140A (zh) * 2016-01-04 2016-06-08 哈尔滨工程大学 面向复杂工业环境的铁路油罐车车号定位与识别方法
CN110363048A (zh) * 2018-04-04 2019-10-22 阿里巴巴集团控股有限公司 人脸识别方法及装置
CN111797827A (zh) * 2020-05-18 2020-10-20 冠群信息技术(南京)有限公司 一种文字方向混排的自动化ocr识别方法
CN112088395A (zh) * 2018-06-07 2020-12-15 欧姆龙株式会社 图像处理装置、图像处理方法以及图像处理程序
US11328448B2 (en) 2019-03-25 2022-05-10 Toshiba Tec Kabushiki Kaisha Image processing method and image processing apparatus
WO2022113171A1 (ja) * 2020-11-24 2022-06-02 株式会社KPMG Ignition Tokyo Ocrアプリケーション用のインテリジェントな前処理
WO2022254560A1 (ja) * 2021-05-31 2022-12-08 株式会社KPMG Ignition Tokyo 光学文字認識により生成されるテキストデータを用いたデータマッチング
JP7468472B2 (ja) 2021-07-08 2024-04-16 Jfeスチール株式会社 学習済みモデル生成方法、認識方法、及び情報処理装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221514A (ja) * 1995-02-10 1996-08-30 Canon Inc 画像処理装置及びその方法
JP2000113173A (ja) * 1998-10-07 2000-04-21 Canon Inc 画像処理装置及び画像処理方法
JP2000148908A (ja) * 1998-11-17 2000-05-30 Ricoh Co Ltd 文書画像処理方法、装置および記録媒体
JP2002109470A (ja) * 2000-09-27 2002-04-12 Minolta Co Ltd 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
JP2006244309A (ja) * 2005-03-04 2006-09-14 Fujitsu Ltd 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221514A (ja) * 1995-02-10 1996-08-30 Canon Inc 画像処理装置及びその方法
JP2000113173A (ja) * 1998-10-07 2000-04-21 Canon Inc 画像処理装置及び画像処理方法
JP2000148908A (ja) * 1998-11-17 2000-05-30 Ricoh Co Ltd 文書画像処理方法、装置および記録媒体
JP2002109470A (ja) * 2000-09-27 2002-04-12 Minolta Co Ltd 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
JP2006244309A (ja) * 2005-03-04 2006-09-14 Fujitsu Ltd 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013135451A (ja) * 2011-12-27 2013-07-08 Fuji Xerox Co Ltd 画像推定装置、画像処理装置、及びプログラム
CN105654140A (zh) * 2016-01-04 2016-06-08 哈尔滨工程大学 面向复杂工业环境的铁路油罐车车号定位与识别方法
CN110363048A (zh) * 2018-04-04 2019-10-22 阿里巴巴集团控股有限公司 人脸识别方法及装置
CN112088395A (zh) * 2018-06-07 2020-12-15 欧姆龙株式会社 图像处理装置、图像处理方法以及图像处理程序
CN112088395B (zh) * 2018-06-07 2024-01-16 欧姆龙株式会社 图像处理装置、图像处理方法以及计算机可读存储介质
US11328448B2 (en) 2019-03-25 2022-05-10 Toshiba Tec Kabushiki Kaisha Image processing method and image processing apparatus
CN111797827A (zh) * 2020-05-18 2020-10-20 冠群信息技术(南京)有限公司 一种文字方向混排的自动化ocr识别方法
WO2022113171A1 (ja) * 2020-11-24 2022-06-02 株式会社KPMG Ignition Tokyo Ocrアプリケーション用のインテリジェントな前処理
WO2022254560A1 (ja) * 2021-05-31 2022-12-08 株式会社KPMG Ignition Tokyo 光学文字認識により生成されるテキストデータを用いたデータマッチング
JP7468472B2 (ja) 2021-07-08 2024-04-16 Jfeスチール株式会社 学習済みモデル生成方法、認識方法、及び情報処理装置

Also Published As

Publication number Publication date
JP5262493B2 (ja) 2013-08-14

Similar Documents

Publication Publication Date Title
JP5262493B2 (ja) 画像処理装置、画像処理方法、プログラムおよびコンピュータ読み取り可能な記憶媒体
US7321688B2 (en) Image processor for character recognition
US8126270B2 (en) Image processing apparatus and image processing method for performing region segmentation processing
JP3727971B2 (ja) 文書処理装置、及び文書処理方法
JPH07200745A (ja) 少なくとも二つのイメージセクションの比較方法
JPH0721319A (ja) 自動アジア言語決定装置
JP5337563B2 (ja) 帳票認識方法および装置
JP2011008549A (ja) 画像処理装置、画像読取装置、複合機、画像処理方法、プログラム、記録媒体
JP5672059B2 (ja) 文字認識処理装置および方法並びに文字認識処理プログラム
US11430235B2 (en) Image processing apparatus, image processing method, and storage medium
JP2010061471A (ja) 文字認識装置およびプログラム
US20110002018A1 (en) Image processing apparatus, image processing method, and storage medium for eliminating blurring of scanned image
JP2009152901A (ja) 画像処理装置および画像処理方法
JP2010136006A (ja) 画像処理装置及び画像処理プログラム
JP4396710B2 (ja) 画像処理装置、画像処理装置の制御方法、および画像処理装置の制御プログラム
US8542931B2 (en) Ruled line extraction technique based on comparision results and indentifying noise based on line thickness
JP2006072839A (ja) 画像処理方法、画像処理装置、画像処理プログラム及び記録媒体
JP5691281B2 (ja) 文字認識装置、文字認識プログラム及び文字認識方法
JP2018116424A (ja) 画像処理装置及びプログラム
JP4462322B2 (ja) 画像処理装置、画像形成装置、及びプログラム
JP4974367B2 (ja) 領域分割方法及び装置、並びにプログラム
JP2007328652A (ja) 画像処理装置および画像処理プログラム
JP2008186256A (ja) 文書処理装置、文書処理方法、コンピュータプログラム
JP2006106903A (ja) 画像処理装置
JP2007065864A (ja) 画像処理装置、画像処理方法、画像形成装置、画像形成方法、原稿読み取り装置、及び原稿読み取り方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110701

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130415

R151 Written notification of patent or utility model registration

Ref document number: 5262493

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees