JP5826081B2 - 画像処理装置、文字認識方法及びコンピュータプログラム - Google Patents

画像処理装置、文字認識方法及びコンピュータプログラム Download PDF

Info

Publication number
JP5826081B2
JP5826081B2 JP2012062731A JP2012062731A JP5826081B2 JP 5826081 B2 JP5826081 B2 JP 5826081B2 JP 2012062731 A JP2012062731 A JP 2012062731A JP 2012062731 A JP2012062731 A JP 2012062731A JP 5826081 B2 JP5826081 B2 JP 5826081B2
Authority
JP
Japan
Prior art keywords
image
component
character
character component
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012062731A
Other languages
English (en)
Other versions
JP2013196369A (ja
Inventor
克仁 島崎
克仁 島崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PFU Ltd
Original Assignee
PFU Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PFU Ltd filed Critical PFU Ltd
Priority to JP2012062731A priority Critical patent/JP5826081B2/ja
Priority to US13/714,279 priority patent/US8861854B2/en
Priority to CN201310087207.2A priority patent/CN103324927B/zh
Publication of JP2013196369A publication Critical patent/JP2013196369A/ja
Application granted granted Critical
Publication of JP5826081B2 publication Critical patent/JP5826081B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像処理装置、文字認識方法及びコンピュータプログラムに関し、特に、複数種類の原稿について文字認識を行う画像処理装置、文字認識方法及びコンピュータプログラムに関する。
スキャナ装置等により原稿を読み取って取得した画像データ内の文字を認識する技術として、OCR(Optical Character Recognition;光学式文字認識)技術がある。OCR技術においては、文字のみが記載された原稿だけではなく、文字と、絵、写真等とが混在した原稿についても文字を認識することが求められる。そのため、様々な種類の原稿から高精度に文字認識を行えるように、OCR処理は複雑になってきており、処理に長時間を要している。
特許文献1には、CPUと、逐次演算処理部と、並列演算処理部とを備える情報処理装置が開示されている。この情報処理装置では、画像処理に含まれる各演算処理が、CPU、逐次演算処理部及び並列演算処理部のうちいずれで実行すれば高速になるかを事前に検証し、各演算処理をいずれで実行するかを設定したテーブルを予め記憶しておく。そして、CPUは、実行が命令された各演算処理について、記憶されたテーブルを参照して、いずれを実行主体とするかを決定する。
特許文献2には、文字認識処理と圧縮処理を行う画像処理装置が開示されている。この画像処理装置は、文章、図形、絵が混在した原稿に対し、画像データの属性(タイトル、文章、図形及び絵)を認識して領域を分割する。そして、タイトル、文章等の文字を含む領域について単純二値化した二値データを用いて文字認識処理を行う。なお、特許文献2には、タイトル、文章等の文字を含む領域については単純二値化した二値データに対して圧縮処理を行い、絵、写真等の中間調領域については誤差拡散法等により二値化した中間調二値データに対して圧縮処理を行うことが記載されている。
特開2011−191903号公報 特開平8−315159号公報
特許文献1に開示された情報処理装置は、画像処理に含まれる演算処理毎に、その処理を最も早く実行できる処理部を選択するので、各演算処理を高速に実行できる。しかしながら、この情報処理装置で文字認識処理を行う場合、予め定めた演算処理を全ての原稿に対して一律に実行するため、文字のみが記載された原稿に対しても文字と絵、写真等とが混在した原稿とほとんど同じ処理時間を要する。
特許文献2に開示された画像処理装置は、絵、写真等の領域については文字認識処理を行わないので、文字認識処理を高速に実行できる。しかしながら、この画像処理装置では、絵、写真等の領域に文字が含まれる場合、その文字を認識することはできない。
本発明の目的は、文字認識の精度を確保しつつ、高速に文字認識をすることが可能な画像処理装置、文字認識方法及びそのような文字認識方法をコンピュータに実行させるコンピュータプログラムを提供することにある。
本発明の一側面に係る画像処理装置は、入力画像内の各画素の画素値に基づいてヒストグラムを生成するヒストグラム生成部と、ヒストグラムに基づいて、入力画像に文字成分が含まれるか否かと、文字成分及び背景成分以外の非文字成分が含まれるか否かとを判定する成分判定部と、入力画像に文字成分と非文字成分の両方が含まれる場合、当該入力画像を各画素のエッジ強度に基づいて二値化する第1の処理で二値画像を生成し、入力画像に文字成分が含まれ、且つ非文字成分が含まれない場合、当該入力画像を各画素の輝度値に基づいて二値化する第2の処理で二値画像を生成する二値化部と、二値画像に対して文字認識を行う文字認識部と、を有する。
また、本発明の一側面に係る文字認識方法は、入力画像内の各画素の画素値に基づいてヒストグラムを生成するステップと、ヒストグラムに基づいて、入力画像に文字成分が含まれるか否かと、文字成分及び背景成分以外の非文字成分が含まれるか否かとを判定するステップと、入力画像に文字成分と非文字成分の両方が含まれる場合、当該入力画像を各画素のエッジ強度に基づいて二値化する第1の処理で二値画像を生成し、入力画像に文字成分が含まれ、且つ非文字成分が含まれない場合、当該入力画像を各画素の輝度値に基づいて二値化する第2の処理で二値画像を生成するステップと、二値画像に対して文字認識を行うステップと、を含む。
また、本発明の一側面に係るコンピュータプログラムは、入力画像内の各画素の画素値に基づいてヒストグラムを生成するステップと、ヒストグラムに基づいて、入力画像に文字成分が含まれるか否かと、文字成分及び背景成分以外の非文字成分が含まれるか否かとを判定するステップと、入力画像に文字成分と非文字成分の両方が含まれる場合、当該入力画像を各画素のエッジ強度に基づいて二値化する第1の処理で二値画像を生成し、入力画像に文字成分が含まれ、且つ非文字成分が含まれない場合、当該入力画像を各画素の輝度値に基づいて二値化する第2の処理で二値画像を生成するステップと、二値画像に対して文字認識を行うステップと、をコンピュータに実行させる。
本発明の一実施形態によれば、文字認識の精度を確保しつつ、高速に文字認識をすることが可能な画像処理装置、文字認識方法及びそのような文字認識方法をコンピュータに実行させるコンピュータプログラムを提供することができる。
実施形態に係る画像処理システムの概略構成図である。 画像処理部の概略構成図である。 画像読取処理の動作の例を示すフローチャートである。 文字認識処理の動作の例を示すフローチャートである。 領域分割処理について説明するための模式図である。 領域分割処理の動作の例を示すフローチャートである。 (a)〜(c)は、成分判定処理について説明するための模式図である。 成分判定処理の動作の例を示すフローチャートである。 二値化処理の動作の例を示すフローチャートである。 画像処理部の他の例を示す概略構成図である。 文字認識処理の動作の他の例を示すフローチャートである。 画像処理部のさらに他の例を示す概略構成図である。 他の実施形態に係る画像処理システムの概略構成図である。
以下、本発明の一側面に係る画像処理装置、文字認識方法及びコンピュータプログラムについて図を参照しつつ説明する。但し、本発明の技術的範囲はそれらの実施の形態に限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。
図1は、実施形態に係る画像処理システムの概略構成を示す図である。図1に示すように、画像処理システム1は、画像読取装置10と、情報処理装置20とを有する。画像読取装置10は、例えばイメージスキャナ、デジタルカメラ等であり、情報処理装置20は、例えば画像読取装置10に接続して用いられるパーソナルコンピュータ等である。
画像読取装置10は、画像入力部11と、第1画像メモリ部12と、第1インターフェース部13と、第1記憶部14と、第1中央処理部15とを有する。以下、画像読取装置10の各部について詳細に説明する。
画像入力部11は、撮像対象物である原稿等を撮像する撮像センサを有する。この撮像センサは、1次元又は2次元に配列されたCCD(Charge Coupled Device)、CMOS(Complementary Metal Oxide Semiconductor)等の撮像素子と、撮像素子に撮像対象物の像を結像する光学系を備え、各撮像素子は、RGB各色に対応するアナログ値を出力する。そして、画像入力部11は、撮像センサが出力した各アナログ値をデジタル値に変換して画素データを生成し、生成した各画素データから構成される画像データ(以下、入力画像と称する)を生成する。この入力画像は、各画素データが、例えばRGB各色毎に8bitで表される計24bitのRGB値からなるカラー画像データとなる。
第1画像メモリ部12は、不揮発性半導体メモリ、揮発性半導体メモリ、磁気ディスク等の記憶装置を有する。第1画像メモリ部12は、画像入力部11と接続され、画像入力部11により生成された入力画像を保存する。
第1インターフェース部13は、USB(Universal Serial Bus)等のシリアルバスに準じるインターフェース回路を有し、情報処理装置20と電気的に接続して画像データ及び各種の情報を送受信する。また、第1インターフェース部13にフラッシュメモリ等を接続して第1画像メモリ部12に保存されている画像データを一旦保存し、情報処理装置20に複写するようにしてもよい。また、インターネット、電話回線網(携帯端末回線網、一般電話回線網を含む)、イントラネット等の有線又は無線のネットワークを介して第1インターフェース部13と情報処理装置20を接続してもよい。その場合、第1インターフェース部13に、接続するネットワークの通信インターフェース回路を備える。
第1記憶部14は、RAM(Random Access Memory)、ROM(Read Only Memory)等のメモリ装置、ハードディスク等の固定ディスク装置、又はフレキシブルディスク、光ディスク等の可搬用の記憶装置等を有する。また、第1記憶部14には、画像読取装置10の各種処理に用いられるコンピュータプログラム、データベース、テーブル等が格納される。
第1中央処理部15は、画像入力部11、第1画像メモリ部12、第1インターフェース部13及び第1記憶部14と接続され、これらの各部を制御する。第1中央処理部15は、画像入力部11の画像生成制御、第1画像メモリ部12の制御、第1インターフェース部13を介した情報処理装置20とのデータ送受信制御、第1記憶部14の制御等を行う。
情報処理装置20は、第2インターフェース部21と、第2画像メモリ部22と、表示部23と、入力部24と、第2記憶部25と、第2中央処理部26と、画像処理部27とを有する。以下、情報処理装置20の各部について詳細に説明する。
第2インターフェース部21は、画像読取装置10の第1インターフェース部13と同様のインターフェース回路を有し、情報処理装置20と画像読取装置10とを接続する。
第2画像メモリ部22は、画像読取装置10の第1画像メモリ部12と同様の記憶装置を有する。第2画像メモリ部22は、第2インターフェース部21を介して画像読取装置10から受信した入力画像を保存するとともに、画像処理部27と接続され、画像処理部27により入力画像に対して画像処理がなされた各種の処理画像を保存する。
表示部23は、液晶、有機EL等から構成されるディスプレイ及びディスプレイに画像データ又は各種の情報を出力するインターフェース回路を有し、第2画像メモリ部22及び第2中央処理部26と接続されて、第2画像メモリ部22に保存されている画像データ又は第2中央処理部26から出力された情報をディスプレイに表示する。
入力部24は、キーボード、マウス等の入力装置及び入力装置から信号を取得するインターフェース回路を有し、利用者の操作に応じた信号を第2中央処理部26に出力する。
第2記憶部25は、画像読取装置10の第1記憶部14と同様のメモリ装置、固定ディスク装置、可搬用の記憶装置等を有する。第2記憶部25には、情報処理装置20の各種処理に用いられるコンピュータプログラム、データベース、テーブル等が格納される。
第2中央処理部26は、第2インターフェース部21、第2画像メモリ部22、表示部23、入力部24、第2記憶部25及び画像処理部27と接続され、これらの各部を制御する。第2中央処理部26は、第2インターフェース部21を介した画像読取装置10とのデータ送受信制御、第2画像メモリ部22の制御、表示部23の表示制御、入力部24の入力制御、第2記憶部25の制御、画像処理部27による画像処理の制御等を行う。
画像処理部27は、第2画像メモリ部22に接続され、文字認識処理を行う。この画像処理部27は、第2中央処理部26に接続され、第2中央処理部26からの制御により予め第2記憶部25に記憶されているプログラムに基づいて動作する。なお、画像処理部27は、独立した集積回路、マイクロプロセッサ、ファームウェア等で構成されてもよい。
図2は、画像処理部27の概略構成を示す図である。図2に示すように画像処理部27は、画像変換部201、領域分割部202、ヒストグラム生成部203、成分判定部204、二値化部205及び文字認識部206を有する。これらの各部は、プロセッサ上で動作するソフトウェアにより実装される機能モジュールである。なお、これらの各部は、それぞれ独立した集積回路、マイクロプロセッサ、ファームウェア等で構成されてもよい。
図3は、画像読取装置10による画像読取処理の動作の例を示すフローチャートである。以下、図3に示したフローチャートを参照しつつ、画像読取処理の動作の例を説明する。なお、以下に説明する動作のフローは、予め第1記憶部14に記憶されているプログラムに基づき主に第1中央処理部15により画像読取装置10の各要素と協働して実行される。
最初に、画像入力部11は、撮像対象物である原稿を撮影した入力画像を生成し、第1画像メモリ部12に保存する(ステップS301)。
次に、第1中央処理部15は、第1画像メモリ部12に保存された入力画像を第1インターフェース部13を介して情報処理装置20に送信し(ステップS302)、一連のステップを終了する。
図4は、情報処理装置20による文字認識処理の動作の例を示すフローチャートである。以下、図4に示したフローチャートを参照しつつ、文字認識処理の動作の例を説明する。なお、以下に説明する動作のフローは、予め第2記憶部25に記憶されているプログラムに基づき主に第2中央処理部26により情報処理装置20の各要素と協同して実行される。
最初に、第2中央処理部26は、入力画像を第2インターフェース部21を介して画像読取装置10から取得し、第2画像メモリ部22に保存する(ステップS401)。
次に、画像変換部201は、第2画像メモリ部22に保存された入力画像を読み出し、入力画像の各画素のRGB値を輝度値に変換した画像(以下、輝度画像と称する)を生成し、第2画像メモリ部22に保存する(ステップS402)。なお、輝度値は、例えば以下の式により算出することができる。
輝度値= 0.30×R値+0.59×G値+0.11×B値 (1)
次に、領域分割部202は、入力画像を、所定範囲内の輝度値を持つ画素が連結する領域を境界とする画像領域毎に分割する領域分割処理を実施する(ステップS403)。
図5は、領域分割処理について説明するための模式図である。図5に示す画像500は入力画像の例である。入力画像500は、タイトル領域501、文章領域502、503、文章と絵の混在領域504、絵領域505からなる。領域分割部202は、所定範囲(例えば10)内の輝度値を持つ画素が連結した空白領域511〜514を抽出し、抽出した空白領域511〜514を境界として入力画像500を各領域501〜505に分割する。
図6は、領域分割処理の動作の例を示すフローチャートである。以下、図6に示すフローチャートを参照しつつ、領域分割処理の動作の例を説明する。
領域分割部202は、第2画像メモリ部22から輝度画像を読み出し、輝度画像の水平方向のライン(以下、水平ラインと称する)毎に各画素の輝度値のヒストグラム(以下、輝度ヒストグラムと称する)を生成する(ステップS601)。
次に、領域分割部202は、輝度ヒストグラムに基づいて、各画素の輝度値が所定範囲内にある水平ラインを抽出し、水平空白ラインとする(ステップS602)。なお、輝度値が所定範囲内にある画素の数が、その水平ライン内の全画素数の所定比率(例えば95%)以上である場合に、その水平ラインを水平空白ラインとしてもよい。
次に、領域分割部202は、各画素の輝度値の分布範囲が略同一である、隣接する水平空白ライン同士を結合して水平空白領域とする(ステップS603)。
次に、領域分割部202は、輝度画像内の上端及び下端の何れにも位置せず、且つ所定幅(例えば2ライン)以上の(つまり、所定数以上の水平空白ラインが結合した)水平空白領域が存在するか否かを判定する(ステップS604)。
そのような水平空白領域が存在する場合、領域分割部202は、その水平空白領域に対応する入力画像内の領域を境界として、入力画像を水平方向に複数の画像領域に分割する(ステップS605)。図5に示す例では、この分割処理により、入力画像500は、空白領域511を境界として、タイトル領域501と空白領域511より下側の画像領域とに分割される。一方、そのような水平空白領域が存在しない場合、領域分割部202は、特に処理を行わず、ステップS606へ処理を移行する。
次に、領域分割部202は、分割した各画像領域に対応する輝度画像内の各領域(ステップS605で輝度画像を分割していない場合は輝度画像)について、垂直方向のライン(以下、垂直ラインと称する)毎に輝度ヒストグラムを生成する(ステップS606)。
次に、領域分割部202は、輝度ヒストグラムに基づいて、各画素の輝度値が所定範囲内にある垂直ラインを抽出し、垂直空白ラインとする(ステップS607)。なお、ステップS602の処理と同様に、輝度値が所定範囲内にある画素の数が、その垂直ライン内の全画素数の所定比率以上である場合にその垂直ラインを垂直空白ラインとしてもよい。
次に、領域分割部202は、各画素の輝度値の分布範囲が略同一である、隣接する垂直空白ライン同士を結合して垂直空白領域とする(ステップS608)。
次に、領域分割部202は、各画像領域内の左端及び右端に位置せず、且つ所定幅以上の(つまり、所定数以上の垂直空白ラインが結合した)垂直空白領域が存在するか否かを判定する(ステップS609)。
そのような垂直空白領域が存在する場合、領域分割部202は、その垂直空白領域に対応する入力画像内の領域を境界として、各画像領域を垂直方向にさらに複数の画像領域に分割する(ステップS610)。図5に示す例では、この分割処理により、タイトル領域501は分割されず、空白領域511より下側の画像領域は、空白領域512を境界として、空白領域512より左側の画像領域と右側の画像領域とに分割される。一方、そのような空白領域が存在しない場合は、領域分割部202は、特に処理を行わず、ステップS611へ処理を移行する。
次に、領域分割部202は、ステップS610において領域を分割したか否かを判定する(ステップS611)。ステップS610において領域を分割した場合、領域分割部202は、分割した画像領域について、さらにステップS601〜S610の処理を繰り返す。一方、ステップS610において領域を分割しなかった場合は、一連のステップを終了する。
また、二回目以降のステップS601〜S610の処理において、領域分割部202は、ステップS605の処理後にステップS605で領域を分割したか否かを判定し、分割しなかった場合は一連のステップを終了する。
図5に示す例では、二回目の水平方向の分割処理により、空白領域512より左側の画像領域は、空白領域513を境界として、文章領域502と文章領域503とに分割され、空白領域512より右側の画像領域は、空白領域514を境界として、混在領域504と絵領域505とに分割される。そして、二回目の垂直方向の分割処理では空白領域が抽出されず、領域分割処理は終了となる。
このように、領域分割部202は、水平ライン又は垂直ライン毎の輝度ヒストグラムを用いることにより、入力画像内の領域を高速に分割することができる。
なお、領域分割部202は、輝度画像について水平方向及び垂直方向に画素を間引いた間引き画像を生成し、生成した間引き画像を用いて領域分割処理を実施してもよい。これにより、領域分割部202は、領域分割処理をより高速に実施できる。
また、領域分割部202は、輝度画像の各画素を閾値T1を用いて二値化した二値画像を生成し、生成した二値画像を用いて領域分割処理を実施してもよい。この閾値T1は、例えば輝度画像内の全画素の輝度値の平均値に設定することができる。この場合、領域分割部202は、輝度値が閾値T1以上の画素(白に近い画素)を0に、輝度値が閾値T1未満の画素(黒に近い画素)を1とするように二値化する。そして、二値画像の各ラインについて二値の総和を算出し、総和が所定値(例えば5)以下のラインを空白ラインとする。これにより、領域分割部202は、領域分割処理をより高速に実施できる。
図4に戻って、ヒストグラム生成部203は、領域分割部202により分割された画像領域毎に、各画素の輝度値のヒストグラムを生成し、第2画像メモリ部22に記憶する(ステップS404)。
次に、成分判定部204は、ヒストグラム生成部203により生成されたヒストグラムに基づいて、各画像領域に文字成分が含まれるか否かと、文字成分及び背景成分以外の非文字成分が含まれるか否かとを判定する成分判定処理を実施する(ステップS405)。
図7(a)〜(c)は、成分判定処理について説明するための模式図である。図7(a)に示すグラフ700は、文字成分と非文字成分の両方を含む画像領域の輝度値のヒストグラムの例を示し、図7(b)に示すグラフ710は、文字成分を含み、非文字成分を含まない画像領域の輝度値のヒストグラムの例を示し、図7(c)に示すグラフ720は、非文字成分を含み、文字成分を含まない画像領域の輝度値のヒストグラムの例を示す。グラフ700、710、720の横軸は輝度値を示し、縦軸は頻度を示す。
一般的な原稿では、文字の明るさと背景の明るさはそれぞれ均一であり、利用者が文字と背景を明確に区別できるようにそれぞれの明るさは大きく異なる。一方、絵、写真等の明るさは均一でない。そのため、輝度値のヒストグラムにおいて、文字成分と背景成分は分布幅が狭くなる傾向にあり、非文字成分は分布幅が広くなる傾向にある。また、一般的な原稿で絵、写真等に文字が重なっている場合、利用者が文字と絵、写真等を区別できるように、それぞれの明るさは異なる。従って、図7(a)に示すように、文字成分と非文字成分の両方を含む画像領域の輝度値のヒストグラムでは、非文字成分による広い範囲の分布701と文字成分による狭い範囲の分布702の両方が存在する可能性が高い。また、図7(b)に示すように、文字成分を含み、非文字成分を含まない画像領域の輝度値のヒストグラムでは、背景成分による狭い範囲の分布711と文字成分による狭い範囲の分布712が存在する可能性が高い。また、図7(c)に示すように、非文字成分を含み、文字成分を含まない画像領域の輝度値のヒストグラムでは、非文字成分による広い範囲の分布721のみが存在する可能性が高い。そこで、成分判定部204は、これらの特徴に基づいて各画像領域に文字成分と非文字成分とがそれぞれ含まれるか否かを判定する。
図8は、成分判定処理の動作の例を示すフローチャートである。以下、図8に示すフローチャートを参照しつつ、成分判定処理の動作の例を説明する。
成分判定部204は、第2画像メモリ部22から、処理対象の画像領域の輝度値のヒストグラムを読み出す(ステップS801)。
次に、成分判定部204は、読み出したヒストグラムにおいて、輝度値の低い側から順に、頻度がその画像領域の全画素数の所定割合(例えば1%)以上である輝度値が存在するか否かを判定する(ステップS802)。
成分判定部204は、そのような輝度値が存在しない場合、ステップS806へ処理を移行させ、そのような輝度値が存在する場合、そのような輝度値が連続して存在する数が所定数(例えば20)以上であるか否かを判定する(ステップS803)。
成分判定部204は、その連続して存在する数が所定数以上である場合、その連続する輝度値の範囲を第1の範囲として抽出し(ステップS804)、所定数未満である場合、その連続する輝度値の範囲を第2の範囲として抽出する(ステップS805)。
次に、成分判定部204は、読み出したヒストグラムの全ての輝度値について処理を完了したか否かを判定する(ステップS806)。全ての輝度値について処理を完了していない場合、ステップS802に処理を戻して、まだ処理していない輝度値についてステップS802〜S805の処理を繰り返す。
全ての輝度値について処理を完了した場合、成分判定部204は、そのヒストグラムに第1の範囲と第2の範囲の両方が存在するか否かを判定する(ステップS807)。ヒストグラムに第1の範囲と第2の範囲の両方が存在する場合、成分判定部204は、その画像領域を文字成分と非文字成分の両方を含む第1属性領域と判定する(ステップS808)。なお、第1の範囲と第2の範囲の両方が存在する場合、そのうちの一方又は両方が二つ以上存在しても、その画像領域には文字成分と非文字成分の両方が含まれる可能性が高いため、成分判定部204は、その画像領域を第1属性領域と判定する。
一方、ヒストグラムに第1の範囲と第2の範囲の両方が存在しない場合、成分判定部204は、そのヒストグラムに第2の範囲が二つ以上存在するか否かを判定する(ステップS809)。ヒストグラムに第2の範囲が二つ以上存在する場合、成分判定部204は、その画像領域を文字成分と背景成分のみを含む第2属性領域と判定する(ステップS810)。なお、第2の範囲が三つ以上存在する場合、その第2の範囲のうちの一つは背景成分であり、残りは、それぞれ輝度の異なる文字成分である可能性が高いため、成分判定部204は、その画像領域を第2属性領域と判定する。なお、その場合、その第2の範囲のうちの一つを非文字成分と判断して、その画像領域を第1属性領域と判定してもよい。
一方、ヒストグラムに第2の範囲が二つ以上存在しない場合、成分判定部204は、その画像領域を文字成分を含まない第3属性領域と判定する(ステップS811)。なお、ヒストグラムに第1の範囲のみが含まれる場合、その画像領域には非文字成分のみが含まれる可能性が高く、ヒストグラムに第2の範囲が一つだけ含まれる場合、その画像領域には背景成分のみが含まれる可能性が高いが、何れの場合もその画像領域には文字成分は含まれない。
画像領域が何れの属性領域であるかを判定すると、成分判定部204は、全ての画像領域のヒストグラムについて処理を完了したか否かを判定する(ステップS812)。全ての画像領域のヒストグラムについて処理を完了していない場合、成分判定部204は、ステップS801に処理を戻して、まだ処理していない画像領域のヒストグラムについてステップS801〜S811の処理を繰り返す。一方、全ての画像領域のヒストグラムについて処理を完了した場合、成分判定部204は、一連のステップを終了する。
このように、成分判定部204は、各画像領域のヒストグラムを用いることにより、各画像領域に文字成分と非文字成分とがそれぞれ含まれるか否かを高速に判定できる。
図4に戻って、二値化部205は、成分判定部204によって判定された結果に従って、各画像領域に対して二値化処理を実施する(ステップS406)。
図9は、二値化処理の動作の例を示すフローチャートである。以下、図9に示すフローチャートを参照しつつ、二値化処理の動作の例を説明する。
二値化部205は、入力画像内に第1属性領域が存在するか否かを判定する(ステップS901)。入力画像内に第1属性領域が存在する場合、即ち入力画像に文字成分と非文字成分の両方が含まれ、且つ各画像領域のうちの少なくとも一つに文字成分と非文字成分の両方が含まれる場合、二値化部205は、入力画像を第1の処理で二値化する(ステップS902)。
各画像領域は空白領域を境界として分割された領域であり、第1属性領域には文字成分と非文字成分の両方が含まれる。そのため、第1属性領域では文字成分と非文字成分が連結している可能性が高く、文字が絵、写真等に重なっている可能性が高い。従って、この場合、様々な輝度からなる非文字成分から文字成分を適切に分離するように二値化する必要がある。
そこで、二値化部205は、第1の処理では入力画像を各画素のエッジ強度に基づいて二値化する。例えば、二値化部205は、輝度画像の各画素に対して、Prewittフィルタ、Sobelフィルタ等のエッジ検出フィルタを適用してその出力値の絶対値を画素値とするエッジ画像を生成する。そして、生成したエッジ画像の各画素の画素値が予め定められた閾値T2以上であるか否かにより各画素を二値化した二値画像を生成する。この閾値T2は、例えば人が画像上の輝度の違いを目視により判別可能な輝度値の差(例えば20)に設定することができる。
一方、入力画像内に第1属性領域が存在しない場合、二値化部205は、入力画像内に第2属性領域のみが存在するか否かを判定する(ステップS903)。入力画像内に第2属性領域のみが存在する場合、即ち入力画像に文字成分が含まれ、且つ非文字成分が含まれない場合、二値化部205は、入力画像を第2の処理で二値化する(ステップS904)。
第2属性領域には文字成分と背景成分のみが含まれ、非文字成分は含まれない。つまり入力画像内には文字成分と背景成分のみが含まれ、そのため各画素のエッジ強度に基づいて二値化することなく文字成分と背景成分を分離できる可能性が高い。
そこで、二値化部205は、第2の処理では入力画像を各画素の輝度値に基づいて二値化する。この場合、二値化部205は、輝度画像の各画素の輝度値が閾値T3以上であるか否かにより各画素を二値化した二値画像を生成する。この閾値T3は、例えば、輝度画像内の全画素の輝度値の平均値に設定することができる。第2の処理では、各画素のエッジ強度を求める必要がないため、第1の処理より高速に二値化処理を実施できる。
一方、入力画像内に第2属性領域以外の画像領域が存在する場合、二値化部205は、入力画像内に第2属性領域と第3属性領域の両方が存在するか否かを判定する(ステップS905)。入力画像内に第2属性領域と第3属性領域の両方が存在する場合、即ち入力画像に文字成分と非文字成分の両方が含まれるが、各画像領域の何れにも文字成分と非文字成分の両方が含まれない場合、二値化部205は、入力画像内の第2属性領域のみを各画素の輝度値に基づいて二値化する(ステップS906)。
入力画像内に第2属性領域と第3属性領域の両方が存在する場合、入力画像に文字成分と非文字成分の両方が含まれるが、各画像領域の何れにも文字成分と非文字成分の両方が含まれないため、文字成分と非文字成分は連結していず、文字は絵、写真等に重なっていない可能性が高い。そこで、二値化部205は、入力画像のうち第2属性領域についてのみを各画素の輝度値に基づいて二値化する。
一方、入力画像内に第2属性領域と第3属性領域の両方が存在しない場合、入力画像には文字成分が含まれないと考えられるため、二値画像を生成することなく、一連のステップを終了する。また、ステップS902、S904、S906において二値画像を生成すると、二値化部205は一連のステップを終了する。
なお、第1の処理において入力画像を各画素のエッジ強度に基づいて二値化する方法は、エッジ画像に基づいて各画素を二値化することに限定されない。例えば、第1の処理では輝度画像を十分に小さい領域(例えば3画素×3画素の領域)に分割し、各領域内の各画素の輝度値の平均値を閾値としてその領域内の各画素を二値化してもよい。この場合、入力画像を各領域内の各画素の輝度値の差に基づいて二値化することができ、文字成分と非文字成分が隣接していても各成分を適切に分離することができる。そこで、二値化部205は、第1の処理として、所定領域毎に二値化の閾値を定めて各画素の輝度値を二値化し、一方、第2の処理としては、入力画像内の全ての画素に共通に二値化の閾値を定めて各画素の輝度値を二値化する。この場合、第2の処理では所定領域毎に二値化の閾値を求める必要がないため、第1の処理より高速に二値化処理を実施できる。
あるいは、二値化部205は、第1の処理において入力画像内の各画素の少なくとも色成分に基づいてエッジ強度を算出してもよい。例えば、二値化部205は、入力画像内の各画素の明るさを表す明度を入力画像の各画素のRGB値から以下の(2)式により算出し、算出した明度を画素値とする明度画像を生成する。そして、明度画像についてエッジ画像を生成し、そのエッジ画像の各画素の画素値が所定の閾値以上であるか否かにより二値画像を生成する。
明度=max(R値、G値、B値) (2)
または、二値化部205は、入力画像内の各画素の鮮やかさを表す彩度を、入力画像の各画素のRGB値から以下の(3)式により算出し、算出した彩度を画素値とする彩度画像を生成する。そして、彩度画像についてエッジ画像を生成し、そのエッジ画像の各画素の画素値が所定の閾値以上であるか否かにより二値画像を生成する。
彩度=(max(R値、G値、B値)−min(R値、G値、B値))/max(R値、G値、B値) (3)
または、二値化部205は、入力画像内の各画素の輝度値、明度及び彩度をそれぞれ正規化した値のうちの何れか二つもしくは全ての平均値、又はこれらの重み付き平均値を画素値とする画像についてエッジ画像を生成し、そのエッジ画像の各画素の画素値が所定の閾値以上であるか否かにより二値画像を生成してもよい。
図4に戻って、文字認識部206は、二値化部205によって生成された二値画像に対して文字認識を行い、認識した各文字のコード情報を第2記憶部25に記憶し(ステップS407)、一連のステップを終了する。その後、例えば利用者によって入力部24を介して入力画像内の文字を表示する指示がなされると、第2中央処理部26は、第2記憶部25に記憶した各コード情報に対応する文字を表示部23に表示させる。なお、入力画像に文字成分が含まれないと判定され、二値化部205によって二値画像が生成されなかった場合、文字認識部206は文字認識を行わずに一連のステップを終了する。
なお、ステップS404において、ヒストグラム生成部203が各画素の輝度値のヒストグラムを生成する例を示したが、本発明はこれに限定されない。ヒストグラム生成部203は、各画素の画素値に基づいてヒストグラムを生成すればよく、例えば各画素のエッジ強度に基づいてヒストグラムを生成してもよい。その場合、ヒストグラム生成部203は、領域分割部202により分割された各画像領域について、各画素の輝度、明度又は彩度に対して、Prewittフィルタ、Sobelフィルタ等のエッジ検出フィルタを適用したエッジ画像を生成し、生成したエッジ画像の各画素の画素値のヒストグラムを生成する。
上述した通り、一般的な原稿では、文字の明るさと背景の明るさはそれぞれ均一であり、利用者が文字と背景を明確に区別できるようにそれぞれの明るさは大きく異なる。そのため、エッジ強度は、文字と背景が隣接する部分で一定の高い値を持ち、他の部分で一定の低い値を持つ。一方、絵、写真等の明るさは、均一でなく、なだらかに変化する傾向にある。そのため、絵、写真等の部分におけるエッジ強度は、文字と背景の境界におけるエッジ強度よりも低く、且つ広い範囲に分布する傾向にある。従って、エッジ強度のヒストグラムでは、輝度値のヒストグラムと同様に、文字成分と背景成分は分布の幅が狭くなる傾向にあり、非文字成分は分布の幅が広くなる傾向にある。そのため、成分判定部204は、輝度値のヒストグラムを用いた場合と同様にして、エッジ強度のヒストグラムを用いて、各画像領域に文字成分と非文字成分とがそれぞれ含まれるか否かを判定することができる。
以上詳述したように、図4に示したフローチャートに従って動作することによって、情報処理装置20は、文字と絵、写真等とが混在した原稿に対しては文字と絵、写真等とを高精度に分離して文字を認識し、絵、写真等を含まない原稿に対しては高速に文字を認識することが可能となった。これにより、文字認識の精度を確保しつつ、高速に文字認識をすることが可能となった。
図10は、画像処理部の他の例を示す概略構成図である。図10に示す画像処理部28は、図1に示す情報処理装置20において、画像処理部27の代りに用いることが可能である。図10に示す画像処理部28は、図2に示す画像処理部27と異なり、領域分割部202を有さない。
図11は、図10に示す画像処理部28を用いる情報処理装置20の文字認識処理の動作の例を示すフローチャートである。以下、図11に示すフローチャートを参照しつつ、文字認識処理の動作の他の例を説明する。このフローチャートは、図1に示す情報処理装置20において、図4に示すフローチャートの代りに実行することが可能である。なお、以下に説明する動作のフローは、予め第2記憶部25に記憶されているプログラムに基づき主に第2中央処理部26により情報処理装置20の各要素と協同して実行される。
図11に示すフローチャートでは、図4に示すフローチャートと異なり、情報処理装置20は、ステップS403の領域分割処理を実施せず、以降、画像領域毎ではなく、入力画像全体に対して各処理を実施する。つまり、ステップS1103においてヒストグラム生成部203は、入力画像全体に対してヒストグラムを生成する。そして、ステップS1104において成分判定部204は、入力画像全体に対して生成されたヒストグラムに基づいて文字成分と非文字成分とがそれぞれ含まれるか否かを判定する。そして、ステップS1105において二値化部205は、入力画像に文字成分と非文字成分の両方が含まれる場合、入力画像を第1の処理で二値化した二値画像を生成し、入力画像に文字成分が含まれ、且つ非文字成分が含まれない場合、入力画像を第2の処理で二値化した二値画像を生成する。図11に示すステップS1101〜S1102、S1106の処理は、図4に示すステップS401〜S402、S407の処理と同じであるため、説明を省略する。
以上詳述したように、図11に示すフローチャートに従って動作する場合も、情報処理装置20は、文字認識の精度を確保しつつ、高速に文字認識をすることが可能となる。
図12は、画像処理部のさらに他の例を示す概略構成図である。図12に示す画像処理部29は、図1に示す情報処理装置20において、画像処理部27の代りに用いることが可能である。図12に示す画像処理部29は、図2に示す画像処理部27の各部に加えて、レイアウト解析部207を有する。このレイアウト解析部207は、図9に示すフローチャートのステップS905でYesと判定された場合、即ち入力画像内に第1属性領域が存在せず、且つ第2属性領域と第3属性領域が存在する場合に、入力画像について詳細にレイアウト解析を行う。
レイアウト解析部207は、輝度画像を各画素の輝度値に基づいて背景成分とそれ以外の成分とに分離するように二値化し、ラベリング等の手法により背景成分以外の成分の連結成分を抽出する。そして、レイアウト解析部207は、各連結成分の外接矩形を求め、互いに重なる外接矩形を重なり矩形として統合する。さらに、レイアウト解析部207は、この重なり矩形の大きさのヒストグラムを生成し、極端に大きい矩形(例えば大きい順から10%)を非文字成分と判定し、他の矩形を文字成分の候補とする。
レイアウト解析部207は、文字成分の各候補に対して、横方向又は縦方向に所定距離(例えばその外接矩形の長辺の所定倍)以内にあり、且つ最も近接している他の候補を結合させて行要素とする。なお、他の候補と結合しなかった候補は非文字成分と判定する。
レイアウト解析部207は、横方向の行要素が抽出された場合、各横行要素に対して、縦方向に所定距離(例えばその横行要素の縦方向の長さの所定倍)以内にあり、且つ最も近接している横行要素を結合させて段要素とする。一方、縦方向の行要素が抽出された場合、各縦行要素に対して、横方向に所定距離(例えば、その縦行要素の横方向の長さの所定倍)以内にあり、且つ最も近接している縦行要素を結合させて段要素とする。レイアウト解析部207は、各段要素を文字成分と判定し、他の行要素と結合しなかった行要素を非文字成分と判定する。
そして、二値化部205は、入力画像内に第1属性領域が存在せず、且つ第2属性領域と第3属性領域が存在する場合、レイアウト解析部207により文字成分と判定された各段要素に対してのみ、各画素の輝度値に基づいて二値化する。
以上詳述したように、情報処理装置20は、入力画像において文字成分が非文字成分と離れた位置に含まれる場合に、文字成分をより高精度に抽出することが可能となった。
図13は、他の実施形態に係る画像処理システム2の概略構成を示す図である。図13に示す画像処理システム2と、図1に示す画像処理システム1との差異は、画像処理部を備える装置が異なる点である。即ち画像処理システム2では、情報処理装置40ではなく、画像読取装置30が画像処理部36を有する。この画像処理部36は、情報処理装置20の画像処理部27、28又は29と同様の機能を有する。
図13に示す画像処理システム2では、図3、4、11に示す処理とほぼ同様の処理を実行することができる。以下、図3のフローチャートに示す画像読取処理及び図4、11のフローチャートに示す文字認識処理についてどのように適応されるかを説明する。画像処理システム2では、ステップS301の処理及びステップS402〜S407、S1102〜S1106の処理は、予め第1記憶部34に記憶されているプログラムに基づき主に第1中央処理部35により画像読取装置30の各要素と協働して実行される。
ステップS301において、画像読取装置30の画像入力部31は、撮像対象物を撮影した入力画像を生成し、第1画像メモリ部32に保存する。文字認識処理は画像読取装置30で実施されるため、ステップS302、S401、S1101の入力画像の送受信処理は省略される。
ステップS402〜S407、S1102〜S1106の処理は、画像読取装置30の画像処理部36によって実行される。これらの処理の動作は、画像処理システム1について説明した情報処理装置20の画像処理部27〜29によって実行される場合と同様である。画像読取装置30の文字認識部206は、認識した各文字のコード情報を第1インターフェース部33を介して情報処理装置40に送信する。一方、情報処理装置40の第2中央処理部46は、受信した各文字のコード情報を第2記憶部45に記憶する。
このように、画像読取装置30が画像処理部36を備えて文字認識処理を実行する場合も、情報処理装置が画像処理部を備えて文字認識処理を実行する場合と同様の効果を得ることができる。
以上、本発明の好適な実施形態について説明してきたが、本発明はこれらの実施形態に限定されるものではない。例えば、画像読取装置と情報処理装置の機能分担は、図1及び図13に示す画像処理システムの例に限られず、画像処理部内の各部を含めて画像読取装置及び情報処理装置の各部を画像読取装置と情報処理装置の何れに配置するかは適宜変更可能である。または、画像読取装置と情報処理装置を一つの装置で構成してもよい。
また、図1に示す画像処理システム1において、画像読取装置10と情報処理装置20を有線又は無線のネットワークを介して接続する場合、クラウドコンピューティングの形態で画像処理のサービスを提供できるように、ネットワーク上に複数の情報処理装置20を分散して配置し、各情報処理装置20が協働して、領域分割処理、二値化処理等を分担するようにしてもよい。これにより、画像処理システム1は、複数の画像読取装置10が読み取った入力画像について、効率よく領域分割処理及び二値化処理を実施できる。
同様に、図13に示す画像処理システム2においても、画像読取装置30の第1インターフェース部33と、情報処理装置40の第2インターフェース部41をネットワークを介して接続してもよい。
1、2 画像処理システム
10、30 画像読取装置
11、31 画像入力部
12、32 第1画像メモリ部
13、33 第1インターフェース部
14、34 第1記憶部
15、35 第1中央処理部
20、40 情報処理装置
21、41 第2インターフェース部
22、42 第2画像メモリ部
23、43 表示部
24、44 入力部
25、45 第2記憶部
26、46 第2中央処理部
27、28、29、36 画像処理部
201 画像変換部
202 領域分割部
203 ヒストグラム生成部
204 成分判定部
205 二値化部
206 文字認識部
207 レイアウト解析部

Claims (7)

  1. 入力画像内の各画素の画素値に基づいてヒストグラムを生成するヒストグラム生成部と、
    前記ヒストグラムに基づいて、前記入力画像に文字成分が含まれるか否かと、前記文字成分及び背景成分以外の非文字成分が含まれるか否かとを判定する成分判定部と、
    前記入力画像に前記文字成分と前記非文字成分の両方が含まれる場合、当該入力画像を各画素のエッジ強度に基づいて二値化する第1の処理で二値画像を生成し、前記入力画像に前記文字成分が含まれ、且つ前記非文字成分が含まれない場合、当該入力画像を各画素の輝度値に基づいて二値化する第2の処理で二値画像を生成する二値化部と、
    前記二値画像に対して文字認識を行う文字認識部と、を有し、
    前記二値化部は、前記入力画像に前記文字成分が含まれている場合に限り、前記二値画像を生成する、
    とを特徴とする画像処理装置。
  2. 前記入力画像を、所定範囲内の輝度値を持つ画素が連結する領域を境界とする画像領域毎に分割する領域分割部をさらに有し、
    前記ヒストグラム生成部は、前記画像領域毎に前記ヒストグラムを生成し、
    前記成分判定部は、前記画像領域毎に、前記文字成分が含まれるか否かと、前記非文字成分が含まれるか否かとを判定し、
    前記二値化部は、前記入力画像に前記文字成分と前記非文字成分の両方が含まれる場合、前記画像領域の少なくとも一つに前記文字成分と前記非文字成分の両方が含まれるときは、前記第1の処理で二値画像を生成し、前記画像領域の何れにも前記文字成分と前記非文字成分の両方が含まれないときは、前記第1の処理に代えて前記文字成分が含まれる画像領域のみを各画素の輝度値に基づいて二値化することにより二値画像を生成する、請求項1に記載の画像処理装置。
  3. 前記二値化部は、前記第1の処理において、各画素の少なくとも色成分に基づいて前記エッジ強度を算出する、請求項1又は2に記載の画像処理装置。
  4. 前記二値化部は、前記第1の処理として、所定領域毎に二値化閾値を定めて各画素の輝度値を二値化し、前記第2の処理として、全ての画素に共通に二値化閾値を定めて各画素の輝度値を二値化する、請求項1又は2に記載の画像処理装置。
  5. 前記ヒストグラム生成部は、各画素のエッジ強度に基づいて前記ヒストグラムを生成する、請求項1〜4の何れか一項に記載の画像処理装置。
  6. 入力画像内の各画素の画素値に基づいてヒストグラムを生成するステップと、
    前記ヒストグラムに基づいて、前記入力画像に文字成分が含まれるか否かと、前記文字成分及び背景成分以外の非文字成分が含まれるか否かとを判定するステップと、
    前記入力画像に前記文字成分と前記非文字成分の両方が含まれる場合、当該入力画像を各画素のエッジ強度に基づいて二値化する第1の処理で二値画像を生成し、前記入力画像に前記文字成分が含まれ、且つ前記非文字成分が含まれない場合、当該入力画像を各画素の輝度値に基づいて二値化する第2の処理で二値画像を生成するステップと、
    前記二値画像に対して文字認識を行うステップと、を含み、
    前記二値画像を生成するステップにおいて、前記入力画像に前記文字成分が含まれている場合に限り、前記二値画像を生成する、
    とを特徴とする文字認識方法。
  7. 入力画像内の各画素の画素値に基づいてヒストグラムを生成するステップと、
    前記ヒストグラムに基づいて、前記入力画像に文字成分が含まれるか否かと、前記文字成分及び背景成分以外の非文字成分が含まれるか否かとを判定するステップと、
    前記入力画像に前記文字成分と前記非文字成分の両方が含まれる場合、当該入力画像を各画素のエッジ強度に基づいて二値化する第1の処理で二値画像を生成し、前記入力画像に前記文字成分が含まれ、且つ前記非文字成分が含まれない場合、当該入力画像を各画素の輝度値に基づいて二値化する第2の処理で二値画像を生成するステップと、
    前記二値画像に対して文字認識を行うステップと、をコンピュータに実行させ、
    前記二値画像を生成するステップにおいて、前記入力画像に前記文字成分が含まれている場合に限り、前記二値画像を生成する、
    ことを特徴とするコンピュータプログラム。
JP2012062731A 2012-03-19 2012-03-19 画像処理装置、文字認識方法及びコンピュータプログラム Expired - Fee Related JP5826081B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012062731A JP5826081B2 (ja) 2012-03-19 2012-03-19 画像処理装置、文字認識方法及びコンピュータプログラム
US13/714,279 US8861854B2 (en) 2012-03-19 2012-12-13 Character recognition apparatus, method, and computer-readable, non-transitory medium
CN201310087207.2A CN103324927B (zh) 2012-03-19 2013-03-18 图像处理装置以及文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012062731A JP5826081B2 (ja) 2012-03-19 2012-03-19 画像処理装置、文字認識方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2013196369A JP2013196369A (ja) 2013-09-30
JP5826081B2 true JP5826081B2 (ja) 2015-12-02

Family

ID=49157713

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012062731A Expired - Fee Related JP5826081B2 (ja) 2012-03-19 2012-03-19 画像処理装置、文字認識方法及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US8861854B2 (ja)
JP (1) JP5826081B2 (ja)
CN (1) CN103324927B (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5826081B2 (ja) * 2012-03-19 2015-12-02 株式会社Pfu 画像処理装置、文字認識方法及びコンピュータプログラム
US8913290B2 (en) * 2013-01-15 2014-12-16 Xerox Corporation System and methods for determining color characteristics of an image
JP5811416B2 (ja) 2013-10-09 2015-11-11 カシオ計算機株式会社 画像処理装置、画像処理方法及びプログラム
JP5875637B2 (ja) * 2013-12-19 2016-03-02 キヤノン株式会社 画像処理装置、画像処理方法
CN105631486A (zh) * 2014-10-27 2016-06-01 深圳Tcl数字技术有限公司 图像文字识别方法及装置
WO2016194512A1 (ja) * 2015-06-04 2016-12-08 ソニー株式会社 映像信号処理装置と映像信号処理方法およびプログラム
CN104915332B (zh) * 2015-06-15 2017-09-15 广东欧珀移动通信有限公司 一种生成排版模板的方法及装置
US10242285B2 (en) * 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
CN105678310B (zh) * 2016-02-03 2019-08-06 北京京东方多媒体科技有限公司 红外热图像轮廓提取方法及装置
CN107093172B (zh) * 2016-02-18 2020-03-17 清华大学 文字检测方法及系统
JP6669390B2 (ja) * 2016-03-09 2020-03-18 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP6648580B2 (ja) * 2016-03-18 2020-02-14 株式会社リコー 原稿種認識装置、画像形成装置、原稿種認識方法およびプログラム
JP6834417B2 (ja) 2016-11-30 2021-02-24 ブラザー工業株式会社 画像処理装置及びプログラム
US9965695B1 (en) * 2016-12-30 2018-05-08 Konica Minolta Laboratory U.S.A., Inc. Document image binarization method based on content type separation
CN108573251B (zh) * 2017-03-15 2021-09-07 北京京东尚科信息技术有限公司 文字区域定位方法和装置
JP2019117487A (ja) * 2017-12-27 2019-07-18 ソニー株式会社 画像処理装置、画像処理方法、及びプログラム
CN111046754B (zh) * 2019-11-26 2023-08-25 泰康保险集团股份有限公司 一种文字识别方法、装置及计算机可读存储介质
US11069043B1 (en) * 2020-03-13 2021-07-20 Konica Minolta Business Solutions U.S.A., Inc. Background noise reduction using a variable range of color values dependent upon the initial background color distribution
US12062246B2 (en) * 2021-09-30 2024-08-13 Konica Minolta Business Solutions U.S.A., Inc. Extracting text from an image

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4053737A (en) * 1976-06-25 1977-10-11 Recognition Equipment Incorporated Magnetic reader for bar encoded characters
JPH08221515A (ja) * 1995-02-20 1996-08-30 Ricoh Co Ltd 画像処理装置
JP3774490B2 (ja) 1995-05-18 2006-05-17 キヤノン株式会社 画像処理装置及び画像処理方法
JP3607753B2 (ja) * 1995-07-31 2005-01-05 株式会社リコー 文書画像の領域分割方法および装置、並びに段組種類判別方法および装置
JP4496602B2 (ja) * 2000-05-17 2010-07-07 コニカミノルタビジネステクノロジーズ株式会社 画像処理方法および画像処理装置
JP2002077647A (ja) * 2000-08-25 2002-03-15 Ricoh Co Ltd 画像処理装置
JP4603807B2 (ja) * 2004-03-10 2010-12-22 富士通株式会社 文字認識装置,文字認識方法,媒体処理方法,文字認識プログラムおよび文字認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2007304864A (ja) * 2006-05-11 2007-11-22 Fuji Xerox Co Ltd 文字認識処理システムおよび文字認識処理プログラム
DE102007019057A1 (de) * 2007-04-23 2008-10-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bestimmen eines Kanten-Histogramms, Vorrichtung und Verfahren zum Ablegen eines Bildes in einer Bilddatenbank, Vorrichtung und Verfahren zum Auffinden von zwei ähnlichen Bildern und Computerprogramm
JP2010232795A (ja) * 2009-03-26 2010-10-14 Seiko Epson Corp 階調数低減装置、階調数低減方法
CN101894366B (zh) * 2009-05-21 2014-01-29 北京中星微电子有限公司 一种获取标定参数的方法、装置及一种视频监控系统
JP5560785B2 (ja) 2010-03-12 2014-07-30 株式会社リコー 情報処理装置、画像形成装置及び情報処理方法
JP5826081B2 (ja) * 2012-03-19 2015-12-02 株式会社Pfu 画像処理装置、文字認識方法及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2013196369A (ja) 2013-09-30
US8861854B2 (en) 2014-10-14
CN103324927B (zh) 2017-04-12
CN103324927A (zh) 2013-09-25
US20130243321A1 (en) 2013-09-19

Similar Documents

Publication Publication Date Title
JP5826081B2 (ja) 画像処理装置、文字認識方法及びコンピュータプログラム
US8818095B2 (en) Image processing apparatus, image processing method, and computer-readable, non-transitory medium
JP5972468B2 (ja) 画像からのラベルの検出
US9092869B2 (en) Image processing apparatus, region determining method, and computer-readable, non-transitory medium
US20190130169A1 (en) Image processing method and device, readable storage medium and electronic device
JP4630936B1 (ja) 画像処理装置、画像処理方法、画像処理プログラム、画像処理プログラムを記録した記録媒体
US10432820B2 (en) Image processing apparatus, image processing system, control method for image processing apparatus, and non-transitory computer readable medium
US20080253656A1 (en) Method and a device for detecting graphic symbols
US9384557B2 (en) Information processing device, image modification method, and computer program product
JP6099686B2 (ja) 画像処理装置、領域検出方法及びコンピュータプログラム
WO2020065995A1 (ja) 画像処理装置、制御方法及び制御プログラム
JP5701181B2 (ja) 画像処理装置、画像処理方法及びコンピュータプログラム
JP6021665B2 (ja) 画像処理装置、画像処理方法及びコンピュータプログラム
JP6045625B2 (ja) 画像処理装置、領域検出方法及びコンピュータプログラム
JP2010056827A (ja) 画像処理装置および画像処理プログラム
US20170263013A1 (en) Information processing apparatus, information processing method, and storage medium
US10896344B2 (en) Information processing apparatus, information processing method, and computer program
KR20120035360A (ko) 문자 인식 장치 및 방법
JP7301529B2 (ja) 画像処理装置、画像処理方法、及びプログラム
WO2020157937A1 (ja) 画像処理装置、制御方法及び制御プログラム
JP2008299673A (ja) 画像処理装置、画像処理プログラムおよび該画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに画像処理方法
JP2010102376A (ja) 情報表示画素群抽出方法、情報表示画素群抽出装置及び情報表示画素群抽出プログラム
JP7478628B2 (ja) 画像処理装置、制御方法及び制御プログラム
WO2016151706A1 (ja) 画像処理装置、領域決定方法及びコンピュータプログラム
WO2020157938A1 (ja) 画像処理装置、制御方法及び制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140701

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150915

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151013

R150 Certificate of patent or registration of utility model

Ref document number: 5826081

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees