JP4259950B2 - 画像認識装置、画像認識プログラムおよび記録媒体 - Google Patents

画像認識装置、画像認識プログラムおよび記録媒体 Download PDF

Info

Publication number
JP4259950B2
JP4259950B2 JP2003290615A JP2003290615A JP4259950B2 JP 4259950 B2 JP4259950 B2 JP 4259950B2 JP 2003290615 A JP2003290615 A JP 2003290615A JP 2003290615 A JP2003290615 A JP 2003290615A JP 4259950 B2 JP4259950 B2 JP 4259950B2
Authority
JP
Japan
Prior art keywords
image
character
luminance
pixel
original image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003290615A
Other languages
English (en)
Other versions
JP2005063056A (ja
Inventor
広文 西田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2003290615A priority Critical patent/JP4259950B2/ja
Publication of JP2005063056A publication Critical patent/JP2005063056A/ja
Application granted granted Critical
Publication of JP4259950B2 publication Critical patent/JP4259950B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Description

本発明は、スキャナ、デジタルカメラ等の画像入力機器により取り込まれた画像から、文字・線図を再現した画像を作成し、当該文字・線図を文字コード・ベクトル線図として認識することができる画像認識装置、画像認識プログラムおよび記録媒体に関する。
近年、カラースキャナ、カラーデジタルカメラ(カラーデジタルカメラ付きの携帯型電話機を含む)等のカラー情報入力機器が広く普及している。カラースキャナでは、たとえば解像度400dpi、256階調で原稿画像を読み取る場合には、処理するべきデータ量が増化し、読み取りに時間がかかる等の不都合がある。また、カラーデジタルカメラでは、たとえば解像度400dpiで撮影するとメモリに記憶できる画像数が少なくなるといった不都合がある。
一般に、カラー画像では、たとえば200dpi程度であっても、ディスプレイに表示する場合に画質が劣って見えることはない。このため、この種のカラー情報入力機器では、カラーの文書、図面、地図等を、200dpi程度の解像度で取得し(すなわち読み取りまたは撮影し)、所定フォーマット(TIF、JPEG、GIF等)のイメージファイルとして他の装置に送信等している。
ところで、カラービットマップ画像に、写真、絵等のほか、文字・線図が含まれている場合において、これら文・線図を正確にまたは改善して認識したい場合が生じることがある。たとえば、あるユーザは、カラービットマップ画像に描かれている文字・線図を、グラフィックツール(画像加工ができるソフトウェア)により加工したい場合がある。あるいは、あるユーザは、カラービットマップ画像に描かれている文字列を文字認識装置によりコード化し、ワードプロセッサにより編集可能な文字列として編集等したい場合がある。
ところが、カラーの印刷文書、図面、地図等が200dpi程度の解像度で作成されている場合において、画像に含まれる文字・線図が小さいと(たとえば、3ミリ四方程度であると)、画像に含まれ文字・線図をOCR等の認識装置により認識する場合、文字・線図が正しく再現ができないことある。
モノクロ画像からなる文書、図面、地図等は200dpi程度の解像度では、たとえばディスプレイに表示したときに画質が劣って見える。このため、モノクロ画像からな文書等は、通常は、解像度400dpi以上の解像度で作成される。すなわち、モノクロスキャナでは(あるいは、カラースキャナのモノクロ読み取りモードでは)、400dpi程度の解像度で、文書、図面、地図等を読み取り、2値画像としてコンピュータに渡すことができる。また、デジタルカメラでは、モノクロで撮影した場合には、撮影画像のデータ量は、カラーで撮影した場合のデータ量に比べて圧倒的に小さいので、撮影画像は400dpi程度の解像度でメモリに蓄積される。
モノクロビットマップ画像は、400dpi程度の解像度であれば、画像中の文字が小さい場合(たとえば、3ミリ四方程度)であっても、たとえば文字認識装置による認識も良好に行なうことができる。
従来、200dpi程度以下の解像度、多階調のカラー画像に含まれる線図等を、モノクロの400dpiと同様に、正確に再現しまたは改善して作成し、これを、たとえば文字として認識することが望まれている。
従来のカラービットマップ画像に描かれている文字を正確に再現し、または改善して作成するためには、(1)フィルタリング、(2)コントラスト強調、(3)モデルベースの画像復元、(4)高解像度化が用いられる。
(1)のフィルタリングには、たとえばモルフォルジー(Morphological Operation)を用いたノイズ除去方法(非特許文献1,非特許文献2参照)、細部をぼかさずにノイズを除去する2次フィルタを用いた方法(非特許文献3参照)がある。
(2)のコントラスト強調には、たとえば処理ウィンドウ(たとえば、3×3画素,5×5画素の処理領域)内の局所的統計量をもとにした非線形の階調変換(非特許文献4参照)がある。
(3)のモデルベースの画像復元には、たとえばOCR等の誤認識の原因をクラスタ分析によりモデル化して画像復元する方法(非特許文献5参照)がある。
(4)の高解像度化としては、ビットマップ画像中の文字・線図を構成する画素をクラスタリングして平均することにより、任意の解像度のアウトラインを生成する方法(非特許文献6参照)、分布の双峰性、滑らかさ、輝度の3つをパラメータとする評価関数に基づき、逆問題として定式化し、最適な高解像度画像を復元する方法(非特許文献7参照)、補間による高解像度化と2値化に基づく方法(特許文献1,特許文献2,特許文献3,非特許文献8,非特許文献9参照)などがある。
文字認識装置等における認識精度向上を考えるならば、低解像度のビットマップ画像から高解像度の2値ビットマップ画像を復元するというアプローチが自然である。
理論的には、低解像度・多階調(あるいは多値)画像と高解像度・2値画像との間に、、サンプリング間隔、量子化レベル数、PSF(点広がり関数:point spread function)のぼけ効果に関して、ある関係が成り立てば、同じ情報量を持つことが知られている(非特許文献10)。
特許第3345350号 特開平8‐340446号 特開2001‐118032 L. Koskinen, H. Huttunen, and J.T. Astola, Text enhancement method based on soft morphological filters Proceedings of SPIE, vol. 2181, pp. 243-253, 1994. J. Liang, R.M. Haralick, and I.T. Phillips, Document image restoration using binary morphological filters, Proceedings of SPIE, vol. 2660, pp. 274-285, 1996. G. Ramponi and P. Fontanot, Enhancing document images with a quadratic filter, Signal Processing, vol. 33, pp. 23-34. 1993. Y.C. Shin, R. Sridhar, V. Demjanenko, P.W. Palumbo, and J.J. Hull、 Contrast enhancement of mail piece images, Proceedings of SPIE, vol. 1661, pp. 27-37, 1992. M.Y. Jaisimha, E.A. Riskin, R. Ladner, and S. Werner, Model-based restoration of document images for OCR, Proceedings of SPIE, vol. 2660, pp. 297-308, 1996.1997 US5930393(T.K. Ho and J.D. Hobby; Lucent Technologies), July 27, 1999. P.D. Thouin and C.-I. Chang, A method for restoration of low-resolution document images, International Journal on Document Analysis and Recognition, vol. 2, pp. 200-210, 2000. US5524070(Y.-C. Shin, R. Sridhar, S.N. Srihari and V. Demjamenko; State University of New York, Buffalo), April 6, 1996. US6347156 (H. Kamada and K. Fujimoto; Fujitsu), February 12, 2002. D. Lee, T. Pavlidis, and G.W. Wasilkowski, A note on the trade-off between sampling and quantization in signal processing, Journal of Complexity, vol. 3, pp. 359-371, 1987. N.B. Karayiannis and A.N. Venetsanopoulos, Image interpolation based on variational principles, Signal Processing, vol. 25、 pp. 259-288, 1991. A.D. Kulkarni and K. Sivaraman, Interpolation of digital imagery using hyperspace approximation, Signal Processing, vol. 7, pp. 65-73, 1984.
しかし、上述した従来方法には次のような問題点がある。
まず、(1)のビットマップのクラスタリングと平均化の方法では、同一の文書画像上に同じ文字について十分な数のサンプルが存在することを仮定している。この仮定は、ヨーロッパ系の言語のように、文字種が少ない場合(アルファベット、数字、記号等を合計しても高々100種類程度)には成立するが、東洋系の言語のように文字種が多い場合(たとえば漢字の場合には数千〜数万)には成立しない場合が多い。
次に、(4)の逆問題として定式化して解く方法であるが、計算量が多く、さらに、漢字のようにストロークの密度が高い場合には、後述する図12(A),(B),(C)にも示すように、ストロークと背景の輝度が逆転することもあり、分布の双峰性や輝度によって復元することが難しい場合が生じる。また、補間して2値化するという単純な方法でも、フォント形状の特徴をある程度は復元できる。しかし、後述する図10(B)に示すように、輪郭のがたつきやストロークの切れが生じやすく、十分な画質が得られない。
画像が低解像度(たとえば200dpi程度)である場合、小さい文字(例えば、3ミリ四方の文字)では、ストローク幅がサンプリング間隔と同じ程度になる。したがって、ストロークの輝度のばらつきが、統計的変動で説明できる範囲を超えるため、通常2値化ではストロークが抽出できないことがある。
ぼやけた(すなわち、不鮮明な)ストロークを抽出するようにパラメータを調整すると、今度は潰れが生じる。また、補間には、双1次補間、3次スプライン補間などのほかに、変分原理に基づくもの(非特許文献11.)や直交多項式基底に基づくもの(非特許文献12)などの様々な技術があるが、これらの補間技術は、自然画像(写真)には効果を発揮するが、文字・線図に特に効果があるものは存在しない。
また、(2),(3)のクラスタリングによる方法では、文字輪郭の微細修正ができるものの、文字のストローク抽出等の処理をすることができない。
この結果、文字・線図に修正を加えたとしても、文字・線図の高い認識精度を得ることができない。
本発明の目的は、簡単なアルゴリズムにより、漢字のようにキャラクタ数が多くかつ複雑な形状構造の文字や細かい線図を、原画像から精度良く再現して作成し、これを文字コードあるいはベクトル図形に変換して文字・線図の認識を高い精度で行なうことができる画像認識装置、画像認識プログラムおよび記録媒体を提供することである。
本発明は、 多値ビットマップの原画像を取得する原画像取得手段と、前記原画像取得手段が取得した前記原画像から、当該原画像よりも高解像度の多値画像を生成する高解像度多値画像生成手段と、前記原画像取得手段が取得した前記原画像から、xy座標が画素座標、z座標が輝度である曲面を生成する輝度曲面生成手段と、前記輝度曲面生成手段が生成した輝度曲面の地形的特徴を抽出する地形的特徴抽出手段と、前記高解像度多値画像の各画素における輝度勾配量を検出する輝度勾配量検出手段と、前記高解像度多値画像から、当該高解像度多値画像の各画素の周囲画素を参照した統計情報に基づき、(a)文字・線図を構成する画素と、(b)文字・線図を構成しない画素と、(c)文字・線図を構成するか否かが確定されていない画素とからなる基本画像(地形的特徴の組み込みがなされる画像)を生成する基本画像生成手段と、前記高解像度多値画像に含まれる文字・線図の輪郭を構成する画素であって、前記基本画像の前記(c)文字・線図を構成するか否かが確定されていない画素が、前記輝度曲面のうち極小部分が線状または帯状に連続する領域または前記極小部分が局在する領域に含まれるときは、当該画素を黒画素に設定し、前記領域に含まれないときには当該画素を白画素に設定して、2値画像を生成する地形的特徴組み込み手段と、前記地形的特徴組み込み手段が生成した2値画像について、前記輝度勾配量検出手段が検出した各画素の輝度勾配量に基づいて、修正する第1の輪郭修正手段と、前記第1の輪郭修正手段が修正した前記画像中の文字・線図の輪郭を構成する画素列を、接線方向に基づいてクラスタリングし、各クラスタについて前記輪郭を円滑化するとともに角部の角度を鮮明化し、前記輪郭を修正する第2の輪郭修正手段と、前記第2の輪郭修正手段により文字・線図の輪郭が修正された画像の、当該文字・線図を文字コード・ベクトル線図として認識する文字・線図認識手段とを備えたことを特徴とする画像認識装置である。
また、前記地形的特徴は、輝度曲面を実際の地形に対応させたときに、周囲よりも輝度が低い「谷または窪地」、周囲よりも輝度が高い「尾根または山頂」、「谷または窪地」と「尾根または山頂」との間に位置する「山腹または鞍部」である。
また、さらに、色復元手段を備え、前記色復元手段は、前記文字・線図認識手段が認識した前記文字・線図または更に背景の色彩が、前記原画像取得手段が取得した前記原画像における色に近似させて復元されているものである。
また、前記原画像取得手段は、前記原画像がカラー画像であるときは、当該原画像をグレイスケール多値画像に変換するカラー/グレイスケール変換手段を備えたものである。
また、多値ビットマップの原画像を取得する原画像取得手段と、前記原画像取得手段が取得した前記原画像から、当該原画像よりも高解像度の多値画像を生成する高解像度多値画像生成手段と、前記高解像度多値画像生成手段が生成した前記高解像度多値画像から、xy座標が画素座標、z座標が輝度である曲面を生成する輝度曲面生成手段と、前記輝度曲面生成手段が生成した輝度曲面の地形的特徴を抽出する地形的特徴抽出手段と、前記高解像度多値画像生成手段が生成した高解像度多値画像の各画素における輝度勾配量を検出する輝度勾配量検出手段と、前記高解像度多値画像から、当該高解像度多値画像の各画素の周囲画素を参照した統計情報に基づき、(a)文字・線図を構成する画素と、(b)文字・線図を構成しない画素と、(c)文字・線図を構成するか否かが確定されていない画素とからなる基本画像(地形的特徴の組み込みがなされる画像)を生成する基本画像生成手段と、前記高解像度多値画像に含まれる文字・線図の輪郭を構成する画素であって、前記基本画像の前記(c)文字・線図を構成するか否かが確定されていない画素が、前記輝度曲面のうち極小部分が線状または帯状に連続する領域または前記極小部分が局在する領域に含まれるときは、当該画素を黒画素に設定し、前記領域に含まれないときには当該画素を白画素に設定して、2値画像を生成する地形的特徴組み込み手段と、前記地形的特徴組み込み手段が生成した2値画像について、前記輝度勾配量検出手段が検出した各画素の輝度勾配量に基づいて、修正する第1の輪郭修正手段と、前記第1の輪郭修正手段が修正した前記画像中の文字・線図の輪郭を構成する画素列を、接線方向に基づいてクラスタリングし、各クラスタについて前記輪郭を円滑化するとともに角部の角度を鮮明化し、前記輪郭を修正する第2の輪郭修正手段と、前記第2の輪郭修正手段により文字・線図の輪郭が修正された画像の、当該文字・線図を文字コード・ベクトル線図として認識する文字・線図認識手段とを備えたことを特徴とする画像認識装置である。
また、前記地形的特徴は、輝度曲面を実際の地形に対応させたときに、周囲よりも輝度が低い「谷または窪地」、周囲よりも輝度が高い「尾根または山頂」、「谷または窪地」と「尾根または山頂」との間に位置する「山腹または鞍部」である。
また、さらに、色復元手段を備え、前記色復元手段は、前記文字・線図認識手段が認識した前記文字・線図または更に背景の色彩が、前記原画像取得手段が取得した前記原画像における色に近似させて復元されているものである。
また、前記原画像取得手段は、前記原画像がカラー画像であるときは、当該原画像をグレイスケール多値画像に変換するカラー/グレイスケール変換手段を備えたものである。
本発明によれば、漢字のような複雑な形状構造をもつ文字や細かい線図を、高い認識精度で再現することができるという効果を得る。
図1は本発明の画像認識装置の一構成例を示す図である。
図1において、パーソナルコンピュータ(PC)110は画像認識装置として動作するもので、CPU111と、メモリ112(ROM1121とRAM1122とからなる)と、ハードディスク装置113と、リムーバブルディスク装置114と、ディスプレイ・インタフェース115と、プリンタ・インタフェース116と、キーボード117と、通信回線100に接続されたネットワーク・インタフェース118とがバス119に接続されて構成されている。
メモリ112には、後述する原画像取得手段201,原高解像度多値画像生成手段202,基本画像生成手段203,輝度曲面生成手段204,地形的特徴抽出手段205,地形的特徴組み込み手段206,輝度勾配量検出手段207,輪郭修正手段208(第1の輪郭修正手段2081,第2の輪郭修正手段2082),文字・線図認識手段209として機能するプログラムが格納されている。これらのプログラムが本発明の画像認識プログラムを構成する。
ここでは、画像認識の処理対象となることができるカラービットマップ画像がリムーバブルディスク装置114に格納されているものとする。また、本発明の画像認識プログラムがハードディスク装置113に格納されているものとし、ユーザが画像認識プログラムを起動すると、画像認識プログラム(「GRP」で示す)はRAM1122に読み込まれ、画像作成処理が可能になる。
正確に原画像を再現するためあるいはまたは改善して原画像を再現するためには、様々な情報を多角的(トップダウン/ボトムアップ)に利用することが有効である。
本発明では、画像解析によって得られる多様な特徴を統合して、補間と局所統計量により生成した基本画像を修正する手法を採用することで精度の高い画像認識ができる。
本発明における処理は、(1)の処理に(2)〜(5)の処理を組み合わせて構成することができる。
(1)地形的特徴による欠落ストロークの補完
処理対象画像(多値ビットマップの原画像)から、輝度曲面z=f(x,y)を形成する。この輝度曲面z=f(x,y)の地形的特徴(尾根、峡谷、山頂、窪地、山腹、鞍部)を調べる。なお、原画像がカラービットマップ画像である場合には、原画像をグレイスケールの多値ビットマップ画像に変換し、これを処理対象画像とする。
輝度曲面f(x,y)上で,各画素について周囲との高さを比較すると,周囲より低い(暗い)画素の連なりであるストロークの部分(すなわち、「谷または窪地」)、周囲よりも高い(明るい)画素の連なりであるストローク間のギャップに相当する部分(すなわち、「尾根または山頂」)、その他(背景:すなわち、「山腹または鞍部」)の3レベルに分類できる。図9は、輝度曲面z=f(x,y)により,各画素をこのように分類した地形特徴図GioCであり、ここでは、多値ビットマップ画像中の日本語4文字(C1:「策」,C2:「基」,C3:「静」,C4:「か」)を例に挙げてある。
多値ビットマップ画像中の日本語4文字(C1,C2,C3,C4)を3レベル(高,中,低)で表した場合、当該多値ビットマップ画像が低解像度(たとえば、200dpi程度)でも、文字の特徴は欠落することなく保存されている。
したがって、特に、上述した漢字のように複雑な構造を持つ画像からストロークを抽出するような場合に、上記輝度曲面のレベルを参照することは、極めて効果的である。
そこで、後述する各実施形態では、低解像度の原画像で計算した地形的特徴を取り入れることで、当該原画像をそのまま2値化した場合に欠落してしまうストローク(図10(B)参照)を補完している。
たとえば、図9に示したような地形特徴図GioCの「峡谷」部分(黒の部分)は、極小部分が線状または帯状に連続する領域であり「ストロークの長い線分」に相当する。また、「窪地」部分は、極小部分が局在する領域であり「点あるいはストロークが短い線分」に相当する。
なお、「峡谷」の端部近傍に、他の「峡谷」や「窪地」が存在していれば、当該「峡谷」は他の「峡谷」や「窪地」と連続するはずであり、「窪地」の端部近傍に、他の「区窪地」や「峡谷」が存在していれば、当該「窪地」は他の「窪地」や「峡谷」と連続するはずである。したがって、「峡谷」や「峡谷」の周囲画素を参照することで、ストロークを正確に、または改善して作成することもできる。
Wang等の文献(L. Wang and T. Pavlidis、 Direct gray-scale extraction of features for character recognition、 IEEE Transactions on Pattern Analysis and Machine Intelligence、 vol. 15、 no. 10、 pp. 1053-1067、 1993.)で述べられているように、地形的特徴を考察することは、特に、低解像度の画像において有効である。
(2)補間画像の生成と局所統計量による基本画像の生成処理
計算が簡単であり、扱う対象が限定されない(すなわち、どのような文字,線図をも扱うことができる)という一般性を考慮し、以下の処理を施す。
(i)補間により原画像から高解像度多値ビットマップ画像を生成し、この画像に(1)の地形的特徴による欠落ストロークの補完処理を施すことができる。
(ii)原画像から局所統計量による基本画像を生成し、この画像に(1)の地形的特徴による欠落ストロークの補完処理を施すことができる。基本画像とは、図11(A)のように、各画素の輝度値は3レベルの値をとることができ、「ON」(文字・線図を構成する画素、ここでは、z=f(x,y)=1とする)を黒の領域、「OFF」(文字・線図を構成しない画素、ここでは、z=f(x,y)=0とする)を白の領域、「TBD」(文字・線図を構成するか否かが確定されていない画素、ここでは、z=f(x,y)=−1とする)をグレイの領域とした画像である。
(iii)補間により原画像から高解像度多値ビットマップ画像を生成し、この画像から局所統計量による基本画像を生成する。そして、この基本画像に(1)の地形的特徴による欠落ストロークの補完処理を施すことができる。
(3)輪郭の第1の修正
(1),(2)により欠落したストロークを補完できたとしても、輪郭線がなめらかでないため、文字画像の品質としては、貧弱となることがある。
なめらかな輪郭線の基準として、曲率が小さい(曲率半径が大きい)ことが必要となる。また、輪郭線は、輝度勾配量が極大となるような画素(すなわち、白領域と黒領域との境界)を通過することが前提となる。
そこで、現在では画像処理の標準的手法となっている、Active Contour Model、またはSnakeの手法(D. Williams and M. Shah、 A fast algorithm for active contours and curvature estimation、 CVGIP: Image Understanding、 vol. 55、 no. 1、 pp. 14-26、 1992.)を用いて輪郭線を修正する(図20の修正結果参照)。
(4)輪郭の第2の修正
人間の視覚にとって気になる点である、水平・垂直方向の線のがたつきや、垂直線と水平線の交差部分の鈍りを補正するために、輪郭の第2の修正を行うこともできる。
(5)画像認識
文字・線図の輪郭が復元または改善されている画像の文字・線図認識を行なう。
以下、本発明の画像認識装置の実施形態を説明する。
《第1実施形態》
図2に第1実施形態の画像認識装置2Aの構成を示す。
第1実施形態では、画像認識装置2Aは、原画像取得手段201、高解像度多値画像生成手段202、基本画像生成手段203、輝度曲面生成手段204、地形的特徴抽出手段205、地形的特徴組み込み手段206、輝度勾配量検出手段207、第1の輪郭修正手段2081、および文字・線図認識手段209を備えている。
原画像取得手段201は原画像取得プログラムにより、高解像度多値画像生成手段202は高解像度多値画像生成プログラムにより、基本画像生成手段203は基本画像生成プログラムにより、輝度曲面生成手段204は輝度曲面生成プログラムにより、地形的特徴抽出手段205は地形的特徴抽出プログラムにより、地形的特徴組み込み手段206は地形的特徴組み込みプログラムにより、輝度勾配量検出手段207は輝度勾配量検出プログラムにより、第1の輪郭修正手段2081は第1の輪郭修正プログラムにより、文字・線図認識手段209(パターン認識手段2091,パターン保存手段2092)は文字・線図認識プログラムにより、それぞれ実現することができる。
なお、図2には、文字・線図認識手段209には、文字・線図認識手段209が認識した画像を出力する画像出力手段30が接続されている。
原画像取得手段201は、多値ビットマップの原画像を取得することができ、この原画像がカラーであるときは、当該原画像をグレイスケール多値画像に変換するカラー/グレイスケール変換手段2011を備えている。
第1実施形態では、高解像度多値画像生成手段202は、原画像抽出手段11が取得した原画像から、当該原画像の解像度よりも高い解像度の多値画像を生成することができる。
基本画像生成手段203は、高解像度多値画像生成手段202が生成した多値画像から、各画素の周囲画素を参照した統計情報に基づき、(a)文字・線図を構成する画素と、(b)文字・線図を構成しない画素と、(c)文字・線図を構成するか否かが確定されていない画素とから基本画像を生成することができる。
輝度曲面生成手段204は、原画像取得手段201が取得した原画像から、xy座標が画素座標、z座標が輝度である曲面z=f(x,y)を生成する。たとえば、輝度が高レベル,中レベル,低レベルの3値の何れかをとるようにでき、高輝度の場合にはf(x,y)=1、中輝度の場合にはf(x,y)=0、低輝度の場合にはf(x,y)=−1とすることができる。
地形的特徴抽出手段205は、輝度曲面生成手段204が生成した輝度曲面f(x,y)の地形的特徴(尾根、峡谷、山頂、窪地、山腹)を抽出することができる。
地形的特徴組み込み手段206は、輝度曲面f(x,y)のうち極小部分が線状または帯状に連続する領域(峡谷)および極小部分が局在する領域(窪地)を文字・線図の一部として前記元画像における文字・線図を再現または改善した文字・線図を再現または改善した2値画像を生成することができる。たとえば、地形的特徴組み込み手段206は、高解像度の原画像から、適宜の手法(たとえば、適宜のフィルタ)により文字・線図を形成し、当該文字・線図を構成しないが、輝度曲面f(x,y)の峡谷および窪地に相当する画素については、文字・線図を構成するように修正を加えることができる。
そして、地形的特徴組み込み手段206は、(c)文字・線図を構成するか否かが確定されていない画素が、輝度曲面f(x,y)のうち「峡谷」(極小部分が線状または帯状に連続する領域)または「窪地」(極小部分が局在する領域)に含まれるときは、当該画素が文字・線図を構成するものとして、文字・線図を再現または改善した2値画像を生成することができる。
輝度勾配量検出手段207は、高解像度多値画像生成手段202が生成した高解像度多値画像の各画素における輝度勾配を検出することができる。
第1の輪郭修正手段2081は、輝度勾配量検出手段207が検出した各画素の輝度勾配量により地形的特徴組み込み手段206が作成した文字・線図を再現または改善した2値画像中の文字・線図の輪郭を修正することができる。
文字・線図認識手段209は、第1の輪郭修正手段2081により文字・線図の輪郭が修正された画像の文字・線図認識を行なう。すなわち、パターン認識手段2091は、パターン保存手段2092に保存された文字・線図パターンを参照して文字・線図認識を行なう。
画像出力手段30は、表示装置、印刷装置またはネットワークを介して接続された外部装置に出力することができる。
《第2実施形態》
図3に第2実施形態の画像認識装置2Bの構成を示す。
第2実施形態では、画像認識装置2Bは、画像認識装置2Aの各構成要素に加えて、第1の輪郭修正手段2081の直後に第2の輪郭修正手段2082を備えている。第2の輪郭修正手段2082は第2の輪郭修正プログラムにより実現することができる。
第2の輪郭修正手段2082は、第1の輪郭修正手段2081が修正した2値画像中の文字・線図の輪郭を構成する画素列を、接線方向に基づいてクラスタリングして、各クラスタについて輪郭の円滑化および/または角部の角度鮮明化により、2値画像中の文字・線図の輪郭を修正することができる。
《第3実施形態》
図4に第3実施形態の画像認識装置2Cの構成を示す。
第3実施形態では、画像認識装置2Cは、画像認識装置2Bの各構成要素に加えて、原画像保存手段210および色復元手段211を備えている。原画像保存手段210は、ハードウェアとしての記憶装置と原画像保存プログラムとにより構成され、色復元手段211は色復元プログラムにより実現することができる。
原画像保存手段210は、原画像取得手段201が取得した原画像を保存しており、色復元手段211は、この原画像の文字・線図の色を特定し、この色を文字・線図認識手段209が認識した文字・線図に付与する。通常、文字・線図認識手段209が認識した文字・線図に付与する色は、原画像の文字・線図の色に近似させる。
《第4実施形態》
図5に第4実施形態の画像認識装置2Dの構成を示す。
第4実施形態では、画像認識装置2Dは、画像認識装置2Aと同様、原画像取得手段201、高解像度多値画像生成手段202、基本画像生成手段203、輝度曲面生成手段204、地形的特徴抽出手段205、地形的特徴組み込み手段206、輝度勾配量検出手段207、第1の輪郭修正手段2081、および文字・線図認識手段209を備えている。
本実施形態では、輝度曲面生成手段204は、高解像度多値画像生成手段202が生成した多値画像から、輝度曲面f(x,y)を生成する。
《第5実施形態》
図6に第5実施形態の画像認識装置2Eの構成を示す。
第5実施形態では、画像認識装置2Eは、画像認識装置2Dの各構成要素に加えて、第1の輪郭修正手段2081の直後に第2の輪郭修正手段2082を備えている。
第2実施形態と同様、第2の輪郭修正手段2082は、第1の輪郭修正手段2081が修正した2値画像中の文字・線図の輪郭を構成する画素列を、接線方向に基づいてクラスタリングして、各クラスタについて輪郭の円滑化および/または角部の角度鮮明化により、2値画像中の文字・線図の輪郭を修正することができる。
《第6実施形態》
図7に第6実施形態の画像認識装置2Fの構成を示す。
第6実施形態では、画像認識装置2Fは、画像認識装置2Eの各構成要素に加えて、原画像保存手段210および色復元手段211を備えている。
第3実施形態と同様、原画像保存手段210は、原画像取得手段201が取得した原画像を保存しており、色復元手段211は、この原画像の文字・線図の色を特定し、この色を文字・線図認識手段209が認識した文字・線図に付与する。通常、文字・線図認識手段209が認識した文字・線図に付与する色は、原画像の文字・線図の色に近似させる。
以下、本発明の実施例を、図8のフローチャートに沿って説明する。
《補間と局所統計量による基本画像の生成》
基本画像の生成は、次のような手順で行われる。
まず、原画像取得手段201は、原画像(多値ビットマップ画像)を取得し(S101)、この取得した画像(多値ビットマップ画像)がグレイスケール画像であるならば(S102の「NO」)、これをそのまま処理対象画像とする。取得した画像がカラー画像ならば(S102の「YES」)、原画像をグレイスケール画像IOに変換する(S103)。
次に、補間により高解像度多値画像IHを生成する(S104)。補間には様々な方法があるが、ここでは、計算が簡単な双1次補間を用いて、その結果に平滑化(たとえば3×3の線形フィルタ)処理を施す。また、後述する第1の輪郭修正で用いるために、高解像度多値画像IH上の各画素について、輝度勾配量GHを計算しておき、計算結果を所定のメモリに保存しておく(S105)。
また、高解像度多値画像IHから、局所統計量をもとに基本画像FHを生成する(S106)。
図10(B)は、図10(A)に示した原画像をNiblackによる2値化技術を用いて2値化した結果を示している。図10(B)から明らかなように、このままでは、水平のストロークが欠落してしまう。このため、基本画像FHとして、Niblackによる2値化技術(W. Niblack, An introduction to image processing, pp. 115-116, Englewood Cliffs, NJ: Prentice Hall, 1986.)を拡張する。
すなわち、基本画像FHは、たとえば、1,0,−1の何れかの値をとるものとする。
FH(x,y)=1:「ON」(前景、あるいは、文字のストローク)、
FH(x,y)=0:「OFF」(背景)、
FH(x,y)=−1:「TBD」(「ON」の可能性があり、後で地形的特徴によって決定する)、
の3値の何れかをとる画像を生成する。
図11(A),(B)((B)は(A)の画像の部分Wの拡大図)に、基本画像FHの例を示す。ここで、FH(x,y)の「ON」、「OFF」、「TBD」を、それぞれ、黒、白、グレイで表わしている。
具体的には、高解像度多値画像IH(x,y)について、処理対象となる画素を中心とするウィンドウ(処理領域:たとえば3×3画素,5×5画素等)内で計算される、輝度の平均μ(x,y)と標準偏差σ(x,y)をもとに、基本画像FH(x,y)を次のような規則で設定する。
(1)IH(x,y)≦μ(x,y)+k0σ(x,y)(ただし、k0は既定のパラメータ)ならば、FH(x,y)=1(「ON」に設定)とする。
(2)μ(x,y)+k0σ(x,y)<IH(x,y)<μ(x,y)+k1σ(x,y)(ただし、k0<k1)で、かつ、(x,y)の近傍にFH(x,y)が「ON」の画素が存在するならば、FH(x,y)=−1(「TBD」に設定)とする。
(3)その他の場合には、FH(x,y)=0(「OFF」に設定)とする。
「TBD」は、漢字のようにストロークの密度が高い場合に、白とするか黒とするかは、地形的特徴を調べなければ決定できないことを表わす。
実際には、同じストロークでもサンプリング位置により、輝度が大きく異なる。図12(B),(C)は図12(A)に示したグレイスケール原画像Ioの垂直方向のスキャンラインA,Bに沿った輝度のプロファイルである。図12(B),(C)に示されるように、特に、水平方向のストロークが密集している個所で、その傾向が著しい。したがって、(2)の場合(FH(x,y)=−1(「TBD」))には、IH(x,y)からFH(x,y)を決定するための処理領域(ウィンドウ)の大きさは、その上下左右t画素以内(tは解像度の拡大率に応じて決められるパラメータ)とすればよい。
《地形的特徴による欠落ストロークの補完》
処理対象となるグレイスケール画像(多値画像)IOから、輝度曲面z=f(x,y)を生成して(S107)、輝度曲面z=f(x,y)上の地形的特徴(尾根、峡谷、山頂、窪地、山腹)を抽出する(S108)。
ここでは、白が黒よりもzの値が大きいものとして定義する。ストロークの補完にとって重要な特徴は、zの値が局所的に小さい部分、すなわち、峡谷(f(x,y)が1方向で極小)と窪地(f(x,y)が全ての方向で極小)である。
これらの特徴の具体的な計算方法は、WangとPavlidisによる「文字認識のための特徴の直接的なグレイスケール抽出」(:L. Wang and T. Pavlidis、 Direct gray-scale extraction of features for character recognition, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 15, no. 10, pp. 1053-1067, 1993.)の技術、あるいは、Seong-Whan Lee と Young Joon Kim による「文字認識におけるグレイスケール画像からの直接的な形状特徴抽出」(Direct Extraction of Topographic Features for Gray Scale Character Recognition:IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 17, No. 7, pp.724-729, July 1995.)の技術を用いることができる。
例えば、グレイスケール画像(多値画像)IOから、図9に示したような地形的特徴を得ることができる。次に、このようにして得られた地形的特徴を用いて、ストロークを補完して、高解像度修正画像JHを作成する(S109)。
基本画像FH(x,y)が値「TBD」を持つ画素について、グレイスケール画像(多値画像)IOでの対応する画素が、「峡谷」または「窪地」であれば、基本画像FH(x,y)を「ON」に、そうでなければ「OFF」に設定しなおす。すなわち、輝度曲面z=f(x,y)から得られる特徴を、基本画像FH(x,y)から得られる画像に優先させている。
このようにして得られた2値画像を図13に示す。基本画像FHに地形的特徴を取り入れる前の画像(図10(B)参照)と比べると、文字C3(「静」)の中のC31で示す部分(「月」)の水平ストロークや、文字C2(「基」)の水平ストロークが復元できていることがわかる。
しかし、図13の画像では、文字のストロークは十分に復元されているが、輪郭がなめらかでないため、文字画像の品質としては、明らかに貧弱である。
《輪郭の第1の修正》
すでに述べたように、なめらかな輪郭線の基準として、曲率が小さい(曲率半径が大きい)ことが必要となる。また、輪郭線は、輝度勾配量が極大となるような画素(すなわち、白領域と黒領域との境界)を通過することが前提となる。
そこで、1980年代終わりに考案され、現在では画像処理の標準的手法となっている、上述したActive Contour または、Snake アルゴリズムを用いて、輪郭線を修正する。前述した、このアルゴリズムでは、弧長sをパラメータとした初期曲線をv(s)=(x(s),y(s))とし、次の量が最小となるように、v(s)を修正する(S110)。
E=∫(α(s)Econt+β(s)Ecurv+λ(s)Eimage)ds
ここで、Econt(≧0)は曲線の収縮を防ぎ点列が等間隔に配置されるようにするための項、Ecurv(≧0)は点列の曲率が小さくなるようにするための項、Eimage(≦0)は画像IH上の勾配量を大きくするための項で、初めに計算しておいた輝度勾配量GHを使って、−GH(v(s))と表わすことができる。図14に輝度勾配量GHの例を示す。図14では、輝度勾配量GHが大きくなればなるほど高濃度となるように表示してある。図14に示されるように、文字の輪郭部分の輝度勾配量が大きくなっていることがわかる。
なお、α,β,γの3つのパラメータは点ごとに異なる値に設定することもできるが、ここでは、固定した値を用いる(α=β=γ=1.0)。
基本画像FHから得られる輪郭線(「ON」画素の境界)のそれぞれにActive Contourアルゴリズムを使って、輪郭を修正する。全ての輪郭線について修正を行った後、ベクトル−ラスター変換によって、輪郭線から2値画像を生成する。
図15に、図14に示した輝度勾配量GHと、図13に示した画像の輪郭とを重ね合わせた画像を示す。また、図16に輪郭修正の結果を示す。図16の画像と、図13の画像とを比較するれば明らかなように、輪郭線の滑らかさやストロークの太さの均一性が向上していることがわかる。
《輪郭の第2の修正》
Active Contourのアルゴリズムによって文字画像の品質は格段に向上するが、水平・垂直方向の線のがたつきや、垂直線と水平線の交差部分の鈍りが観察される。
これらは人間の知覚にとって非常に気になる点である。そのため、人間にとってきれいに見えるように、輪郭を整形することができる。特に、水平・垂直方向の線のがたつきや、垂直線と水平線の交差部分の鈍りを補正する(S111)。
いま、処理対象の閉輪郭線を点列P=(p(0),p(1),・・・,p(n−1))で表わすものとする。ただし、点列Pのpの括弧内の添え字は、便宜上付したものである。すなわち、点p(i)の添え字値iは、一般には、0〜n−1とならならないことを考慮して、i>nならばp(i)=p(i−n)、i<0、ならばp(i)=p(i+n))とする。
本実施形態では、この点列Pを接線方向でクラスタリングする。点p(i)の接線方向をθ(i)として、点p(i)にラベルL(i)を次のように与える。
(jπ/2)−δ≦θ≦(jπ/2)+δ
(ただし、δはπ/2に比べて十分に小さいパラメータ、j=0,1,2,3)
ならば、L(i)=jとする。すなわち、点p(i)の接線方向が、ほぼ0°,90°,180°,270°に近ければ、点p(i)にL(i)=0,1,2,3の値を与える。
その他の場合、L(i)=−1とする。
すなわち、水平方向に近い接線を持つ点pはラベル0または2、垂直方向に近い接線を持つ点はラベル1または3、それ以外の点はラベル−1を持つ。
このようにして、点列Pから、レベルの系列(L(0),L(1),・・・,L(n−1))が得られる。同じラベルを持つ一連の点を1つのクラスタとしてまとめることにより、図18(A)に示すように、点列Pをクラスタ分けできる。
j番目のクラスタについて、kjをそのクラスタの開始点のインデックス、mj>0をそのクラスタに属する点の数として、
Cj=(p(kj),p(kj+1),・・・,p(kj+mj−1))
とすると、
j−1番目とj+1番目のクラスタとの間には、
kj=kj−1+mj−1,kj+1=kj+mj
という関係があり、
L(kj−1+mj−1)≠L(kj)=L(kj+1)
=・・・=L(kj+mj−1)≠L(kj+1)
という性質を満たす。
クラスタCjについて、水平・垂直方向の線のがたつきを修正する。L(kj)=0,または、2、すなわち、水平方向に近い接線をもつクラスタならば、Cjの各点のy座標Y(kj+i)(i=0,1,・・・,mj−1)の分布から、そのモードMを求める。
そして、|Y(kj+i)−M|≦1ならば、Y(kj+i)←Mと設定する。
L(kj)=1、または、3の場合は、x座標について同様の処理を行う。
次に、垂直線と水平線の交差部分の鈍りを整形する。接線方向が水平・垂直以外の点のクラスタCjが、互いに垂直な接線方向を持つ点のクラスタに囲まれている、すなわち、L(kj−1)≧0、L(kj)<0、L(kj+1)>0、L(kj−1)≠(kj+1)とする。
もし、クラスタCjに属する点の数が十分に少ないならば、図18(B)に示すように、クラスタCj−1とCj+1を延長し、直角のコーナーを構成することにより、クラスタCj内の点を修正する。
全ての輪郭線について修正を行った後、ベクトル−ラスター変換によって、輪郭線から2値画像を生成する。以上の処理フローを図17に示す。
漢字「回」(符号C5で示す)についてこれらの整形処理を施す前の状態を図19(A)に示し、整形処理を施した後の状態を図19(B)に示す。図19(A),(B)において黒塗りの画素a,c,e,g,iは、クラスタを構成しない画素(接線が0°,90°,180°,270°から外れている画素)を示し、b,d,f,hはクラスタを構成する画素(接線が0°,90°,180°,270°に近い画素)を示している。
図19(A)に示す処理前の輪郭線(画素列)の凹凸やコーナ部分(符号CNRで示す)の鈍りは、図19(B)に示す輪郭線では緩和されていることがわかる。
図20(B)に、図20(A)の200dpiの原画像を、解像度4倍で作成した結果を示す。図20(A),(B)からわかるように、本実施例によれば多階調の原画像が鮮明でなくとも、再現性に優れた2値ビットマップ画像が再現される。なお、200dpiで入力されたカラー画像に対して、特許文献1の方法では97.2%の認識精度であったが、上記の方法では、99.1%の認識精度が得られた。
《画像認識》
上記の処理を終えた画像を、画像認識プログラムGRPにより認識を行なう(S112)。
本発明の画像認識装置の一構成例を示す図である。 第1実施形態における各手段による処理の流れを示す機能ブロック図である。 第2実施形態における各手段による処理の流れを示す機能ブロック図である。 第3実施形態における各手段による処理の流れを示す機能ブロック図である。 第4実施形態における各手段による処理の流れを示す機能ブロック図である。 第5実施形態における各手段による処理の流れを示す機能ブロック図である。 第6実施形態における各手段による処理の流れを示す機能ブロック図である。 本発明の実施例を示すフローチャートである。 輝度曲面のxy平面から抽出される地形的特徴を示す図である。 (A)は原画像を、(B)は(A)の画像をNiblackによる2値化技術を用いて2値化した結果を示す図である。 (A)は基本画像の例を示す図、(B)は(A)の画像の部分拡大図である。 (A)はグレイスケール原画像、(B)は(A)のグレイスケール原画像の垂直方向のスキャンラインAに沿った輝度のプロファイル、(C)は同じくスキャンラインBに沿った輝度のプロファイルである。 輝度曲面z=f(x,y)の地形的特徴を取り入れた2値画像を示す図である。 高解像度多値画像の各画素における輝度勾配の例を示す図である。 図13に示した輝度勾配量と、図12に示した画像とを重ね合わせた画像を示す図である。 図14に示した画像について第2の輪郭修正手段による処理を行なった結果を示す図である。 全ての輪郭線について修正を行った後、ベクトル−ラスター変換によって、輪郭線から2値画像を生成するときの処理フローを示す図である。 (A)輪郭画素列をクラスタ分けした例を示す図であり、(B)はクラスタ単位で凹凸を修正した例を示す図である。 。 (A)は漢字についての整形処理を施す前の状態を示す図、(B)は整形処理を施した後の状態を示す図である。 (A)の200dpiの原画像を示す図、(B)は解像度4倍で作成した結果を示す図である。
符号の説明
2A〜2J 画像認識装置
30 画像出力手段
100 通信回線
110 PC(パーソナルコンピュータ)
111 CPU
112 メモリ
113 ハードディスク装置
114 リムーバブルディスク装置
115 ディスプレイ
116 プリンタ
117 キーボード
118 ネットワーク・インタフェース
119 バス
201 原画像取得手段
202 高解像度多値画像生成手段
203 基本画像生成手段
204 輝度曲面生成手段
205 地形的特徴抽出手段
206 地形的特徴組み込み手段
207 輝度勾配量検出手段
209 文字・線図認識手段
210 原画像保存手段
211 色復元手段
1121 ROM
1122 RAM
2011 カラー/グレイスケール変換手段
2081 第1の輪郭修正手段
2082 第2の輪郭修正手段
2091 パターン認識手段
2092 パターン保存手段

Claims (10)

  1. 多値ビットマップの原画像を取得する原画像取得手段と、
    前記原画像取得手段が取得した前記原画像から、当該原画像よりも高解像度の多値画像を生成する高解像度多値画像生成手段と、
    前記原画像取得手段が取得した前記原画像から、xy座標が画素座標、z座標が輝度である曲面を生成する輝度曲面生成手段と、
    前記輝度曲面生成手段が生成した輝度曲面の地形的特徴を抽出する地形的特徴抽出手段と、
    前記高解像度多値画像の各画素における輝度勾配量を検出する輝度勾配量検出手段と、
    前記高解像度多値画像から、当該高解像度多値画像の各画素の周囲画素を参照した統計情報に基づき、(a)文字・線図を構成する画素と、(b)文字・線図を構成しない画素と、(c)文字・線図を構成するか否かが確定されていない画素とからなる基本画像(地形的特徴の組み込みがなされる画像)を生成する基本画像生成手段と、
    前記高解像度多値画像に含まれる文字・線図の輪郭を構成する画素であって、前記基本画像の前記(c)文字・線図を構成するか否かが確定されていない画素が、前記輝度曲面のうち極小部分が線状または帯状に連続する領域または前記極小部分が局在する領域に含まれるときは、当該画素を黒画素に設定し、前記領域に含まれないときには当該画素を白画素に設定して、2値画像を生成する地形的特徴組み込み手段と、
    前記地形的特徴組み込み手段が生成した2値画像について、前記輝度勾配量検出手段が検出した各画素の輝度勾配量に基づいて、修正する第1の輪郭修正手段と、
    前記第1の輪郭修正手段が修正した前記画像中の文字・線図の輪郭を構成する画素列を、接線方向に基づいてクラスタリングし、各クラスタについて前記輪郭を円滑化するとともに角部の角度を鮮明化し、前記輪郭を修正する第2の輪郭修正手段と、
    前記第2の輪郭修正手段により文字・線図の輪郭が修正された画像の、当該文字・線図を文字コード・ベクトル線図として認識する文字・線図認識手段と、
    を備えたことを特徴とする画像認識装置。
  2. 前記地形的特徴は、輝度曲面を実際の地形に対応させたときに、周囲よりも輝度が低い「谷または窪地」、周囲よりも輝度が高い「尾根または山頂」、「谷または窪地」と「尾根または山頂」との間に位置する「山腹または鞍部」であることを特徴とする請求項1に記載の画像認識装置。
  3. さらに、色復元手段を備え、
    前記色復元手段は、前記文字・線図認識手段が認識した前記文字・線図または更に背景の色彩が、前記原画像取得手段が取得した前記原画像における色に近似させて復元されていることを特徴とする請求項1または2に記載の画像認識装置。
  4. 前記原画像取得手段は、前記原画像がカラー画像であるときは、当該原画像をグレイスケール多値画像に変換するカラー/グレイスケール変換手段を備えたことを特徴とする請求項1乃至3の何れかに記載の画像認識装置。
  5. 多値ビットマップの原画像を取得する原画像取得手段と、
    前記原画像取得手段が取得した前記原画像から、当該原画像よりも高解像度の多値画像を生成する高解像度多値画像生成手段と、
    前記高解像度多値画像生成手段が生成した前記高解像度多値画像から、xy座標が画素座標、z座標が輝度である曲面を生成する輝度曲面生成手段と、
    前記輝度曲面生成手段が生成した輝度曲面の地形的特徴を抽出する地形的特徴抽出手段と、
    前記高解像度多値画像生成手段が生成した高解像度多値画像の各画素における輝度勾配量を検出する輝度勾配量検出手段と、
    前記高解像度多値画像から、当該高解像度多値画像の各画素の周囲画素を参照した統計情報に基づき、(a)文字・線図を構成する画素と、(b)文字・線図を構成しない画素と、(c)文字・線図を構成するか否かが確定されていない画素とからなる基本画像(地形的特徴の組み込みがなされる画像)を生成する基本画像生成手段と、
    前記高解像度多値画像に含まれる文字・線図の輪郭を構成する画素であって、前記基本画像の前記(c)文字・線図を構成するか否かが確定されていない画素が、前記輝度曲面のうち極小部分が線状または帯状に連続する領域または前記極小部分が局在する領域に含まれるときは、当該画素を黒画素に設定し、前記領域に含まれないときには当該画素を白画素に設定して、2値画像を生成する地形的特徴組み込み手段と、
    前記地形的特徴組み込み手段が生成した2値画像について、前記輝度勾配量検出手段が検出した各画素の輝度勾配量に基づいて、修正する第1の輪郭修正手段と、
    前記第1の輪郭修正手段が修正した前記画像中の文字・線図の輪郭を構成する画素列を、接線方向に基づいてクラスタリングし、各クラスタについて前記輪郭を円滑化するとともに角部の角度を鮮明化し、前記輪郭を修正する第2の輪郭修正手段と、
    前記第2の輪郭修正手段により文字・線図の輪郭が修正された画像の、当該文字・線図を文字コード・ベクトル線図として認識する文字・線図認識手段と、
    を備えたことを特徴とする画像認識装置。
  6. 前記地形的特徴は、輝度曲面を実際の地形に対応させたときに、周囲よりも輝度が低い「谷または窪地」、周囲よりも輝度が高い「尾根または山頂」、「谷または窪地」と「尾根または山頂」との間に位置する「山腹または鞍部」であることを特徴とする請求項5に記載の画像認識装置。
  7. さらに、色復元手段を備え、
    前記色復元手段は、前記文字・線図認識手段が認識した前記文字・線図または更に背景の色彩が、前記原画像取得手段が取得した前記原画像における色に近似させて復元されていることを特徴とする請求項5または6に記載の画像認識装置。
  8. 前記原画像取得手段は、前記原画像がカラー画像であるときは、当該原画像をグレイスケール多値画像に変換するカラー/グレイスケール変換手段を備えたことを特徴とする請求項5乃至7の何れかに記載の画像認識装置。
  9. コンピュータを、請求項1乃至8に記載の各手段として機能させることを特徴とする画像認識プログラム。
  10. 請求項9に記載の画像認識プログラムを格納した記録媒体。
JP2003290615A 2003-08-08 2003-08-08 画像認識装置、画像認識プログラムおよび記録媒体 Expired - Fee Related JP4259950B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003290615A JP4259950B2 (ja) 2003-08-08 2003-08-08 画像認識装置、画像認識プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003290615A JP4259950B2 (ja) 2003-08-08 2003-08-08 画像認識装置、画像認識プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2005063056A JP2005063056A (ja) 2005-03-10
JP4259950B2 true JP4259950B2 (ja) 2009-04-30

Family

ID=34368597

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003290615A Expired - Fee Related JP4259950B2 (ja) 2003-08-08 2003-08-08 画像認識装置、画像認識プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4259950B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103209284A (zh) * 2013-02-26 2013-07-17 中国科学院自动化研究所 一种文档扫描图像的亮度补偿方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8526732B2 (en) * 2010-03-10 2013-09-03 Microsoft Corporation Text enhancement of a textual image undergoing optical character recognition
CN109241962A (zh) * 2018-08-30 2019-01-18 云南电网有限责任公司普洱供电局 一种字符识别方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103209284A (zh) * 2013-02-26 2013-07-17 中国科学院自动化研究所 一种文档扫描图像的亮度补偿方法
CN103209284B (zh) * 2013-02-26 2015-03-25 中国科学院自动化研究所 一种文档扫描图像的亮度补偿方法

Also Published As

Publication number Publication date
JP2005063056A (ja) 2005-03-10

Similar Documents

Publication Publication Date Title
KR100512831B1 (ko) 이미지 처리 방법, 장치 및 프로그램 저장 매체
US6185341B1 (en) Image processing using vector data to reduce noise
Bloomberg Multiresolution morphological approach to document image analysis
JP3345350B2 (ja) 文書画像認識装置、その方法、及び記録媒体
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
KR20020064350A (ko) 이미지 데이터 압축방법 및 복원방법
US6813367B1 (en) Method and apparatus for site selection for data embedding
JP4259949B2 (ja) 画像作成装置、画像作成プログラムおよび記録媒体
JP4049560B2 (ja) 網点除去方法及びシステム
KR101887929B1 (ko) 이미지 처리 장치, 이미지 처리 방법, 컴퓨터 판독가능 기록매체 및 화상형성장치
JP4441300B2 (ja) 画像処理装置、画像処理方法、画像処理プログラムおよびこのプログラムを記憶した記録媒体
JP4259950B2 (ja) 画像認識装置、画像認識プログラムおよび記録媒体
JP4873554B2 (ja) 画像配信装置および画像配信方法
JP4080973B2 (ja) 画像出力装置、画像出力プログラムおよびこのプログラムが記録された記録媒体
JP2008225654A (ja) 画像処理方法、画像処理装置、及び、プログラム、プログラム記憶媒体
JP2000184200A (ja) モアレ除去装置
JP3997415B2 (ja) エッジ生成装置、エッジ生成方法およびエッジ生成プログラム
JP3756499B2 (ja) 画像縮小方法、画像縮小装置、画像縮小プログラム、および該プログラムを記憶した記憶媒体
JP3883993B2 (ja) 画像処理装置、方法およびプログラム
US11244190B1 (en) System and method for patterned artifact removal for bitonal images
Nishida Restoring high-resolution text images to improve legibility and OCR accuracy
JPH08123904A (ja) 書体種類処理装置
Nishida Restoring high-resolution binary images for text enhancement
JP4027016B2 (ja) 画像処理装置、画像処理方法及び記憶媒体
CN115908114A (zh) 黑白漫画风格的二值化图片转化方法、装置、设备和介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051013

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080916

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081112

TRDD Decision of grant or rejection written
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090131

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090203

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090203

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120220

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140220

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees