JP3264999B2

JP3264999B2 - 文字認識方法及びその装置

Info

Publication number: JP3264999B2
Application number: JP26443892A
Authority: JP
Inventors: メザードゥ・レザ・バエズィー
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1991-10-04
Filing date: 1992-10-02
Publication date: 2002-03-11
Anticipated expiration: 2017-03-11
Also published as: DE69230629T2; EP0535992B1; EP0535992A3; EP0535992A2; DE69230629D1; US5351314A; JPH05225388A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は文字認識方法及びその装
置に関し、例えば、カメラ画像、スキャナ画像、ファク
シミリ伝送画像、及び、アルファベット・かな・数字・
記号・漢字などのような質の低下した画像を平滑化した
り細線化したりする処理を含み、特に、画質を向上する
ために画像データを処理する文字認識方法及びその装置
に関するものである。

【０００２】

【従来の技術】今日、文字或は絵画的画像はしばしば、
複写、ファクシミリ伝送、記憶装置に格納されたスキャ
ナ画像など、種々の技術によって複製されたり転送され
たりする。種々の要因のために、画像の複製或は伝送過
程が、画像の質を低下させてしまう結果となることがし
ばしばある。そのような質が低下した画像には、ノイズ
による点、輪郭がぼけた或はづれたエッジ、重なり合っ
たり、くっついてしまった文字、形が歪んでしまった像
などが特徴として表れる。質が低下した複製画像や伝送
画像は、ある場合には使用することができないかもしれ
ない。例えば、その複製画像や伝送画像が文字認識装置
と関連して使用されるなら、ノイズによるしみ、輪郭が
ぼけたエッジ、くっついてしまった文字などは、画像か
らの正確で精度の高い文字認識を妨げるものとなる。ま
た、質が低下した画像がプリント出力されたり、可視化
された場合には、その画像は解読はより困難なものとな
り、視覚的により不明瞭なものとなる。

【０００３】図６は単語“This”が質が低下した画像と
なった例である。図６に示されているように、ノイズに
よる点１は画像解析を困難なものとする。加えて、アル
ファベット“Ｔ”と“ｈ”は２において接触しており、
また、アルファベット“ｈ”は３において分断された歪
んだものとなっている。

【０００４】

【発明が解決しようとする課題】画質を向上させるため
には、コンピュータメモリに格納された画素データの場
合には、ローパスフィルタをそのデータに適用すること
によって、格納された画像データの質を向上させること
が提案されている。典型的なものはガウス関数のような
特性をもつフィルタをかけて、その画像データを平滑化
することである。そのようなフィルタはノイズによる点
を除去すると言われているが、これは、画像輪郭をさら
にぼやけさせたり、或は／及び、画像の接触、エッジ部
鮮明度の低下などの別の問題を発生させてしまう。

【０００５】本発明は上記従来例に鑑みてなされたもの
で、画像輪郭のぼやけやエッジ部鮮明度の低下をおこさ
ずに、ノイズを除去し、画質を向上させることが可能な
文字認識方法及びその装置を提供することを目的とす
る。

【０００６】

【本発明の要約】本発明は上記問題を解決する方法とそ
の装置に関わるものであり、例えば、画像再生或はパタ
ーン・文字認識処理などの高度な処理に先立ち、画像デ
ータを平滑化し、細線化する。その平滑化によってノイ
ズによる点を除去する一方、細線化によって線幅を細く
して、上述した画像輪郭のぼやけを補正する。その結
果、画像データには本質的な部分のみが残され、そのよ
うなデータからの再生画像はより鮮明なものとなる。特
に、これを文字画像に適用した場合、そのフィルタはノ
イズによる点を除去し線幅を細くするので、画像をより
明瞭なものとし、より正確で精度の高い文字認識ができ
るようになる。さらに、そのフィルタによって画像デー
タには本質的な部分のみが残されるので、類似の文字画
像パターンが多くの異なる入力文字フォントに対して生
成される。従って、本発明が文字認識装置に利用された
り文字認識処理に先立って用いられたりする場合、文字
辞書のサイズを削減することが可能になる。

【０００７】

【課題を解決するための手段】上記目的を達成するため
に本発明の文字認識方法は以下の様な工程からなる。即
ち、多値画像に含まれる画素各々に対して、当該画素と
周辺画素との濃度変化に基づいてフィルタを定め、前記
画素各々で定めたフィルタを前記画素各々に適用し、フ
ィルタされた画像データを得るフィルタ適用工程と、前
記フィルタされた画像データを微分して、微分画像デー
タを取得する微分画像データ取得工程と、前記微分画像
データの反転画像を導出する反転画像導出工程と、前記
反転画像と前記フィルタされた画像データとの積をとっ
て、平滑化細線化された画像データを得る乗算工程と、
前記平滑化細線化された画像データに含まれる文字を切
り出す切り出し工程と、前記切り出された文字を認識す
る認識工程とを有することを特徴とする文字認識方法を
備える。

【０００８】また他の発明によれば、画像データを入力
する入力手段と、多値画像に含まれる画素各々に対し
て、当該画素と周辺画素との濃度変化に基づいてフィル
タを定め、前記画素各々で定めたフィルタを前記画素各
々に適用し、フィルタされた画像データを得るフィルタ
手段と、前記フィルタされた画像データを微分して、微
分画像データを取得する微分画像データ取得手段と、前
記微分画像データの反転画像を導出する反転画像導出手
段と、前記反転画像と前記フィルタされた画像データと
の積をとって、平滑化細線化された画像データを得る乗
算工程と、前記平滑化細線化された画像データに含まれ
る文字を切り出す切り出し手段と、前記切り出された文
字を認識する認識工程とを有することを特徴とする文字
認識装置を備える。

【０００９】

【００１０】

【実施例】本発明は画像強調処理が望まれる様々な装
置、例えば、複写機・ファクシミリ・ビデオカメラ或は
静止画ビデオカメラ、レーザビームプリンタなどの画像
処理或は画像再生を専用に行う装置に応用して組み込む
ことができる。また、パーソナルコンピュータや多くの
事務機器の機能を備えた統合オフィスオートメーション
機器などの汎用コンピュータ、オフィス機器にもに応用
して組み込むことができる。

【００１１】以下添付図面を参照して本発明の好適な実
施例を詳細に説明する。

【００１２】図１はスキャナ、ファクシミリ、データ処
理やワードプロセッシング能力をも含む情報処理能力を
備えた統合オフィスオートメーション機器に関連して、
本発明を適用した代表的な実施例のブロック図である。
図１に示す装置は本発明を応用して、文字認識処理に先
立ってその処理に用いる質の低い画像データを処理す
る。

【００１３】図１に示された装置においては、質の低い
画像データが例えばファクシミリ伝送によって本装置に
送信される。本実施例によれば、その質の低い画像デー
タの文字を認識し、認識文字からコンピュータ文書ファ
イルを創成することが可能であり、ワードプロセッシン
グの処理、帳票処理、或は、装置の他の情報処理機能を
利用してその文書ファイルを加工して、データの再伝送
や他の出力を行うことができる。

【００１４】図１において、プログラマブルマイクロプ
ロセッサのような中央処理装置（“ＣＰＵ”）１０はデ
ータバス１１に接続されている。多くの他の装置もま
た、データバス１１に接続されている。特に、画像を画
素ごとに走査して画像メモリ（後述のＲＡＭ１７）に格
納するスキャナ１２は、データバス１１に接続され、フ
ァクシミリ装置１３（オプションとして不図示の電話を
含む）は電話線１４によって画像データを送受信し、読
み出し専用メモリ（“ＲＯＭ”）１５はＣＰＵ１０が実
行する１つ以上のコンピュータプログラムを格納する。
さらに、データバス１１には、入力文字の比較対象とな
る文字辞書を格納するメモリ１６、入力画像データのよ
うな中間データ、中間生成物、処理画像データ、導出さ
れた画像フィルタなどを格納するランダムアクセスメモ
リ（“ＲＡＭ”）１７、入力画像データから認識された
文字の特徴を出力する出力装置１８（ディスク、モデム
など）、装置によって処理された画像を表示するプリン
タ／ディスプレイ１９、オペレータが装置制御を行うた
めのキーボード２０が接続される。

【００１５】データバス１１に接続された装置は統合オ
フィスオートメーション機器に組み込まれるが、これら
装置の一部或は全てはそれ独自でも提供することができ
る。スキャナ１２とファクシミリ１３は装置へ画像デー
タを入力する入力手段の異なる形である。スキャナ１２
の場合、原画像はラインごと、画素ごとに走査される。
そして、ＣＰＵ１０の制御によって、画像データの各画
素は、後で詳述するようにビットマップ形式でＲＡＭ１
７の画像メモリに格納される。ファクシミリ１３の場
合、画像データは電話線１４を通して圧縮形式で受信さ
れる。その圧縮画像データは従来技術に従って圧縮が解
かれ、画素データになる。そして、ＣＰＵ１０は画像デ
ータの各画素をビットマップ形式でＲＡＭ１７の画像メ
モリに格納する。もちろん、他の入力手段も可能であ
り、画像データは単にディスクのような大容量記憶媒体
から読み出されたり、ビデオカメラから導出される。

【００１６】ファクシミリ１３とプリンタ／ディスプレ
イ１９は出力手段としての異なる形であり、処理画像デ
ータを画素ごとに出力して装置（この場合はプリンタ／
ディスプレイ１９）に表示したり、或は、離れた場所
（この場合はファクシミリ１３）で表示する。ＣＰＵ１
０の制御によって、処理画像データはＲＡＭ１７の処理
画像データメモリから検索される。

【００１７】出力装置１８は画像データから認識された
文字の特徴を、例えば、ＡＳＣＩＩコードで出力する手
段である。その文字の特徴は装置（例えば、ディスク）
に出力されたり、或は、遠隔地へ伝送（例えば、モデム
によって）出力される。出力装置１８はまた、文字の特
徴を表す形式を変える、例えば、ＡＳＣＩＩコードから
ファクシミリ互換形式への変換のような手段を含み、こ
れによって遠隔地のファクシミリ装置への伝送が可能と
なる。

【００１８】図２は、図１で示した装置の動作を説明す
る機能ブロック図である。図２で表されている過程はプ
ログラムＲＯＭ（以下、ＰＲＯＭという）１５に格納さ
れたコンピュータプログラムに従ってＣＰＵ１０によっ
て実行される。参照番号２１で示されているように、画
像データはＣＰＵ１０によってスキャナ１２或はファク
シミリ１３から得られる、そして、ＲＡＭ１７の画像メ
モリに格納される。

【００１９】好適には、その画像データは濃淡をもつデ
ータ及び／或はカラー画像データのような多値画像デー
タであって、２値画像データではない。もし、画像デー
タが２値データであるなら、それはＣＰＵ１０が図３に
示す処理を実行することによって擬似多値画像データに
変換される。その図に表されている手順によれば、２値
画像データにフィルタをかけることによって、２値画像
データは擬似多値画像データに変換される。好適には円
対称に分布するガウス関数がその２値画像データに適用
されるが、他の形をもつ、例えば、三角形状、矩形状、
指数関数状、放物線状の形の関数を満足するフィルタを
用いることもできる。特に、その拡がりがσ＝１におい
て一定であるガウス関数が好ましい結果をもたらすこと
が経験的に認められている。他の拡がりをもつことも可
能であるが、異なる拡がりは、特別な画像データに適切
であることを考慮することが必要であるなら、用いられ
るかもしれない。数学的には、ガウス関数が全体積（或
は１次元フィルタに関しては領域）の９９．７％をその
平均から±３σ、即ち、６σの範囲内に含むことが知ら
れている。ここで用いられるガウス関数に関してはσ＝
１なので、全体積の９９．７％が６×６の画素格子内に
含まれる。次の最大奇数は唯一の識別可能な中心画素で
あるように選ばれる。従って、ステップＳ３１では７×
７格子は次のようにガウス関数を満足する。

【００２０】Ｇ（ m,n；σ＝１）＝(1/ √(2π))・exp｛−(1/2)(m²＋n²) ｝（１）ここで、ｍとｎは中心画素（０，０）のまわりで−３か
ら３まで変化する。

【００２１】ステップＳ３２において、入力２値画像デ
ータＺは、ステップＳ３１で導出されるガウス関数でた
たみ込まれ、擬似多値画像データＺＭが得られる。従っ
て、各画素のＺＭ（ｋ，ｌ）は次のように導出される。

【００２２】ＺＭ（ｋ，ｌ）＝ΣΣＧ（i-k,j-l ；σ＝１）Ｚ（ｉ，ｊ）（２）ここで、左の総和はｉ＝ｋ−３からｋ＋３まででとら
れ、右の総和はｊ＝ｉ−３からｉ＋３まででとられる。
入力画像データのエッジの外側ではＺ（ｉ，ｊ）にはゼ
ロがセットされる。また、その代わりに、Ｚ（ｉ，ｊ）
はエッジを伸ばすようにとられる。即ち、エッジにおけ
るＺ（ｉ，ｊ）の値がエッジの外側で用いられる。

【００２３】さて再び、図２を参照すると、ＣＰＵ１０
はＲＡＭ１７（図１）内の多値画像メモリ２２に結果と
して得られる擬似多値画像データを格納する。もちろ
ん、もし、画像メモリ２１が既に多値画像データを格納
しているなら、そのデータは何の処理もなされずに直接
にメモリ２２に格納される。

【００２４】次に、図２に示されているように、可変マ
スクフィルタが参照番号２３で示されているように、多
値画像データの各画素に関して導出される。すべての画
素に関して導出されたフィルタは、多値画像データに適
用される。そのフィルタがかけられた結果はフィルター
ド画像メモリ２４に格納される。

【００２５】図４はこの過程を詳細に示している。ステ
ップＳ４１は、メモリ２２に格納された多値画像データ
の微分（導関数）を得ることによって、画像濃度の変化
を決定する。画像データは離散的な画素データであるの
で、その導関数は第１次差分データｄ（ｉ，ｊ）とな
り、次のように各画素ＺＭ（ｉ，ｊ）について得られ
る。

【００２６】ｄｘ（ｉ，ｊ）＝ＺＭ（ｉ＋１，ｊ）−ＺＭ（ｉ，ｊ）（３）ｄｙ（ｉ，ｊ）＝ＺＭ（ｉ，ｊ＋１）−ＺＭ（ｉ，ｊ）（４）ｄ（ｉ，ｊ）＝√｛ｄｘ² （ｉ，ｊ）＋ｄｙ² （ｉ，ｊ）｝（５）第１次差分データｄ（ｉ，ｊ）に基づき、画像データの
各画素ＺＭ（ｉ，ｊ）について、フィルタが導出され
る。各フィルタについての拡がりはステップＳ４２にお
いて、次の式に従って決定される。

【００２７】 σ（ｉ，ｊ）＝１／［８／５＋１０／１３｛ｄ（ｉ，ｊ）｝］（６）方程式（６）は次のような一般形をもつ。

【００２８】１／σ（ｉ，ｊ）＝ａ＋ｂ｛ｄ（ｉ，ｊ）｝（７）そして、式（６）におけるパラメータａ＝８／５、ｂ＝
１０／１３は、この適用に関しては、以下に説明するよ
うに導出される。式（７）は、各フィルタの拡がりが入
力画像濃度とある定数との和の変化に対して逆比例する
ことを示している。ＣＰＵ１０とＰＲＯＭ１５に式
（７）を組み込むことを容易にするために、ａとｂの値
はわずかに変えられるかもしれない。特に、方程式
（６）で与えられた値は最適な結果を生み出すけれど
も、ａ＝１、ｂ＝１であるときにも満足のゆく結果が得
られることが実験的に見いだされている。

【００２９】ここで、パラメータａ、ｂの導出方法につ
いて説明する。

【００３０】雑音がある画像のガウス関数Ｇ（σ）は次
のようにモデル化される。

【００３１】（Ｉ＋ｎ）＊Ｇ（σ）＝Ｒ（Ａ１）ここで、Ｉは理想的な雑音のない画像、ＲはＩの最良の
評価値、ｎは通常はゼロ平均の単位分散のガウス関数の
ランダム変数であると仮定される雑音画像である。ガウ
ス関数のフィルタＧ（σ）はσの関数として記述され、
そのフィルタのスケールは一定ではないことを表す。そ
のかわり、それは決定されることになる変数の関数であ
る。式（Ａ１）は逆フィルタ問題として以下のように書
き直される。

【００３２】Ｉ＋ｎ＝Ｇ^-1（σ）＊^-1Ｒ（Ａ２）ここでＧ^-1（σ）は逆ガウス関数を表し、＊^-1は逆フィ
ルタ操作を意味する。２つの拘束条件が式（Ａ２）の解
には与えられ、その１つは出力画像の平滑度であり、も
う１つはエッジが明瞭に局所化していること（即ち、出
力ではエッジ幅が最小になること）である。それゆえ
に、次のような関数が記述される。

【００３３】Ｑ＝‖Ｉ−ｇ‖² ＋λ₁ ‖ｇ”‖² ＋λ₂ β （Ａ３）ここでλ₁ とλ₂ とはラグラジアンのパラメータであ
り、ｇ＝Ｇ^-1（σ）＊^-1Ｒと‖ｇ”‖² とは平滑度の拘
束条件である。この拘束条件は出力画像Ｒのゼロ交点に
比例する。βはエッジ局所化度のパラメータである。そ
れゆえに、式（Ａ３）は次のような解を提出している。
即ち、雑音のある画像Ｉ＋ｎが与えられたとき、フィル
タＧ（σ）は画像雑音が最小になりフィルタ出力が平滑
でかつエッジが局所化するように見いだされる。

【００３４】Poggio,Voorhees,Yuilleは、“規則化され
たエッジ検出(Regularized EdgeDetection) ”（ＭＩ
Ｔ、ＡＩ研究所、紀要(MIT AI Lab Memo) 、No. 776 (1
984)）において、最適化パラメータλ₁ は最適化された
スケールのフィルタに関して、フィルタの拡がりに逆比
例することを示した。即ち、次のようになる。

【００３５】 λ₁ ＝１／σ （Ａ４） Cornsweet とYellott は、“拡がりの総和に依存する濃
度(Intensity Depend-ent Spread Summation) ”（JOS
A, Vol. 2, No. 10, pp.1769-1786,(1985年11月））に
おいて、濃度依存フィルタの出力におけるエッジ幅は、
そのフィルタの拡がりの約６倍であることを述べてい
る。従って、これは次のようになる。

【００３６】 β＝６／σ （Ａ５）さて、式（Ａ３）、（Ａ４）、及び、（Ａ５）を合わせ
て考慮すると、Ｑは次のように書き下せる。

【００３７】Ｑ＝‖Ｉ−ｇ‖² ＋（１／σ）・｛‖ｇ”‖² ＋６｝（Ａ６）式（Ａ６）の関数を解くために、未知のｇはλ₁ の関数
として拡張される。

【００３８】そのとき、式（Ａ７）をｇに関して式（Ａ６）に代入
し、オイラーラグランジェの方程式に適用すると、次の
ようになる。

【００３９】Ｑ_g ＋（d²/dx²) Ｑ_g" ＝０（Ａ８）ここで、Ｑ_g とＱ_g"とは各々、ｇとｇ”に関するＱの偏
導関数である。ｇ”はｇのスペースパラメータに関する
第２次の導関数である。いくらかの演算の後、式（Ａ
８）は、式（Ａ７）に関する係数相互の次のような再帰
的な関係をもつようになる。

【００４０】Ｃ_2k+1＝Ｃ₀ ^2k+2 ／（２Ｉ）^2k+1 k = 0,1,2,… （Ａ９）ここで、式（Ａ９）、（Ａ７）、及び、（Ａ６）を合わ
せて考慮すると、λ₁によって関数が得られる。それゆ
えに、オイラーラグランジェの方程式が再び、λ₁ に関
して適用されると次のようになる。

【００４１】Ｑλ− (d/dx)Ｑλ' ＝０（Ａ１０）式（Ａ１０）を式（Ａ６）に適用すると、次のような結
果が得られる。

【００４２】 λ₁ ＝１／σ＝８／５＋１０Ｚ′／１３（Ａ１１）式（Ａ１１）の右辺の定数は、最小エッジの局所化（ガ
ウス関数フィルタの出力におけるエッジ幅）と雑音を最
小化することに関して得られる。それは、ｇの拡張係数
でｋ＝７とセットすることによって得られる。また、
Ｚ′はスペースパラメータに関して、入力される雑音を
含む画像の導関数を表す。係数比（１３Ｘ８／１０Ｘ
５）は画像ＳＮＲの関数であることに注目されたい。

【００４３】フィルタに関するマスクは次のようにして
得られる。ｍ（ｉ）とｎ（ｉ）をそれぞれ、ｉ番目の画
素のマスク値とマスクサイズとすると、次の式が得られ
る。ｍ（ｉ）＝Ｇ（σ_i ）（｜ｎ（ｉ）｜＜３σ_i である場合）（Ａ１２）ここで、Ｇ（σ_i ）＝Ｇ（σ＝σ_i ）でＧ（σ_i ）は以
下の式によって定義されるガウス関数である。

【００４４】Ｇ（σ）＝｛１／√（２πσ）｝／ｅｘｐ｛−ｘ²/（２σ²)} ここで、ｘは平均からの距離、σ_i は上述したと同じよ
うに、以下のように定義される。

【００４５】 σ_i ＝１／｛８／５＋（１０／１３）・（Ｚ_i+1 −Ｚ_i ）｝（Ａ１３）ここで、Ｚ_i+1 とＺ_i は（ｉ＋１）番目とｉ番目の画素
の画像濃度値を示す。さて、Ｍを固定サイズのマスク長
とする。もし、マスクがＭより小さいなら、ゼロ詰めが
続く。

【００４６】ｍ（ｉ）＜Ｍであれば、ｍ（ｉ）の両辺に
｛Ｍ−ｍ（ｉ）｝／２個のゼロを加えるので、ゼロ詰め
されたｍ（ｉ）、ｍ_z （ｉ）が得られる。それゆえに、
一次元のフィルタ操作は次のように定義される。

【００４７】ここで、ｙ（ｋ）はｋ番目画素の出力画像を定義する。

【００４８】２値画像に関して、画質の低下は閾値操作
に関連したぼやけ(blurring)過程とその過程によるノイ
ズの混入が原因となる。このことは数学的には、次のよ
うに表される。

【００４９】Ｒ_b ＝Ｔ〔Ｉ＊Ｇ＋ｎ〕（Ａ１５）ここで、Ｒ_b は質の低下した２値画像であり、Ｔ［
．］は閾値操作を表す。そのとき、次のような関数が
得られる（式（Ａ６）に類似）。

【００５０】Ｑ_b ＝‖Ｔ〔Ｉ＊Ｇ（σ）〕−Ｒ_b ‖² ＋λ₁ 〔‖Ｉ‖² ＋６〕（Ａ１６）式（１６）の関数は次のような問題を提出している。即
ち、与えられた質の低下した２値画像Ｒ_b に対して、入
力画像Ｉが平滑度拘束条件とエッジ局所化（非線形性が
関係する回復問題）に従うように得られるようなガウス
関数のフィルタσのスケールを見いだす。

【００５１】方程式（Ａ１６）の解は、右辺の第１項が
グレースケールの対応部分で置換される以外は上記に定
義されたと同じ手順に従って得られる。即ち、以下の通
りである。

【００５２】 ‖Ｉ＊Ｇ（σ）−Ｒ_b ‖² ≡‖Ｉ＊Ｇ（σ_g ）−Ｒ_b ＊Ｇ₂ （σ₀ ）‖² （Ａ１７）ここで、σ₀ は一定のスケールであり、一般性を失うこ
となく、σ₀ ＝１（その定数はシミュレーションの結果
から得られる）がセットされ、σ_g はσのように未知数
として残る。前の節で導出されたステップの処理を経た
後、次のような結果が得られる。

【００５３】 λ＝１／σ_g ＝ 8/5±（10／13）d/dx〔Ｒ_b ＊Ｇ₂ （σ₀ =1）〕（Ａ１８）負の記号を除いて絶対値を用いると、次のような式が得
られる。

【００５４】 λ＝ 8/5＋（10／13）｜d/dx［Ｒ_b ＊Ｇ₂ （σ₀ =1）］｜（Ａ１９）式（Ａ１９）で得られたフィルタスケールが式（Ａ１
６）に代入され、（Ｉ）に関する解は，次のように表さ
れる。

【００５５】Ｉ＝ｈ（１−｜ｈ′｜）（Ａ２０）ここで、ｈ＝Ｒ_b ＊Ｇ₂ （σ₀ ＝１）であり、ｈ′はス
ペースパラメータに関するｈの導関数である。

【００５６】さて、ステップＳ４３では、最大フィルタ
マスクサイズが考慮中の画像データＺＭに関して決定さ
れる。特に、前述のように、ガウス関数に関して、全体
積の９９．７％は中心より±３σの領域内、即ち、６σ
の範囲にあることが知られている。従って、最大マスク
サイズＭは、ステップＳ４２で計算された最大σ（ｉ，
ｊ）の６倍の次の最大奇数（識別可能な中心画素を与え
る）である。

【００５７】替わりに、最大マスクサイズＭは、前もっ
て、おそらく遭遇するであろう全ての画像に対して適切
である所定の値にセットすることもできる。実験的に
は、Ｍ＝１５は検証された全ての２値画像に関して満足
のゆく結果をだしたことが分かっている。

【００５８】ステップＳ４４では、フィルタは各画素Ｚ
Ｍ（ｉ，ｊ）に関して、ステップＳ４２で計算された拡
がりとステップＳ４３で計算された最大マスクサイズＭ
に基づいて、選択される。本実施例では、フィルタは円
対称に分布するガウス関数であるが、そのフィルタは他
の形、例えば、矩形や三角形や指数関数の形や、放物線
の形の関数を満足するものを用いることもできる。適当
な円対称に分布するガウス関数のフィルタは次のように
表される。

【００５９】Ｇ[m,n：σ(i,j)]＝[1／√{2πσ(I,J)}]exp[(-1/2){m²+n²}/ σ(I,J)]（８）ステップＳ４５では、ガウス関数についてのフィルタ値
のＭ×Ｍ格子、ｍｚを形成する。ガウス関数はガウス関
数の拡がりに基づいて変化してマスクされ、Ｍ×Ｍ格子
がガウス関数でその中心部が形成され、その周辺部はゼ
ロとなる。ゼロ詰めの拡がりは、各画素についてそのフ
ィルタの拡がりσ（ｉ，ｊ）によって決定され、即ち、
［Ｍ−６σ（ｉ，ｊ）］／２個のゼロがガウス関数の両
側に詰められ、Ｍ×Ｍ格子を満たす。この過程は以下に
示す方程式系で与えられる。

【００６０】ｍｚ（ｉ，ｊ）＝Ｇ[m,n：σ(i,j)] （｜ｍ｜＜３σ(i,j) 及び｜ｎ｜＜３σ(i,j) である場合）＝０（上記以外の場合）（９）ここで、ｍとｎの値とは、中心画素（０，０）の回りで
−（Ｍ−１）／２から（Ｍ−１）／２まで変化する。従
って、可変マスクｍｚは、各画素ＺＭ（ｉ，ｊ）に関し
て導出され、格子中央から±３σに渡るフィルタをも
ち、それ以外の領域ではゼロであるＭ×Ｍ格子である。

【００６１】各画素に関して可変マスクガウス関数を計
算することに替えて、ステップＳ４５で説明したよう
に、いろいろな拡がりをもつ可変マスクガウス関数を前
もって計算し、ルックアップテーブルにその計算された
ガウス関数を格納しておくこともできる。ステップＳ４
２で計算された拡がりに基づいて、適切な前もって計算
されたフィルタがルックアップテーブルから選択され
る。

【００６２】ステップＳ４６では、ＣＰＵ１０は可変マ
スクフィルタＧを含むＭ×Ｍ格子を画像データＺＭに適
用して、次のようにフィルタされた画像データＺＦ
（ｉ，ｊ）の１画素が得られる。

【００６３】ＺＦ（ｉ，ｊ）＝ΣΣｍｚ（ｍ，ｎ）ＺＭ（ｍ−１，ｎ−ｊ）（１０）ここで、左の総和はｍ＝−（Ｍ−１）／２からｍ＝＋
（Ｍ−１）／２までで求められ、右の総和はｎ＝−（Ｍ
−１）／２からｎ＝＋（Ｍ−１）／２までで求められ
る。

【００６４】ステップＳ４７では、多値画像データにお
いて各画素に関して、ステップＳ４４、Ｓ４５、Ｓ４６
の処理を実行したかどうかを調べ、必要ならこれらの処
理を繰り返す。

【００６５】ステップＳ４８では、フィルタされた画像
データＺＦがＲＡＭ１７内のフィルタード画像メモリ２
４に格納される。

【００６６】このようにして、ＣＰＵ１０とＰＲＯＭ１
５に関連して、種々のメモリ２２、２３、２４と、ステ
ップＳ４１からＳ４８の処理は、画像処理方法とその装
置を提供しており、これによって、フィルタが多値画像
データの各画素に関して周辺画素の濃度変化に基づいて
導出される。これによって、そのフィルタは画像データ
に適用され、フィルタされた画像データが得られる。好
適には、そのフィルタはガウス関数であり、その拡がり
は画像濃度と定数との和の変化に逆比例する。これによ
って、雑音のあるしみなどに関しては平滑化されるが、
エッジのディテイルはエッジの鮮明度やエッジの局所化
に関して保存されるようにフィルタされた画像データが
生成される。

【００６７】その画像処理の効果は図５Ａと図５Ｂとを
比較することによって理解できる。図５Ａは、単語“ｔ
ｅｓｔ”の形をしたオリジナル２値画像を示している。
処理後、図５Ｂにおける単語“ｔｅｓｔ”にはエッジ局
所化と鮮明度が残されているが、雑音によるしみは平滑
化されて取り除かれている。

【００６８】さて図２に戻り、フィルタされた画像デー
タＺＦは微分され、微分された画像データＺＤはＲＡＭ
１７内の差分メモリ２５に格納される。前述のように、
微分は次のような、また図５Ｃに示されているような第
１次差分操作によって行われる。

【００６９】 dx(i,j) = ZF(i+1,j) - ZF(i,j）（１１） dy(i,j) = ZF(i,j+1) - ZF(i,j）（１２） ZD(i,j) = √{dx²(i,j) + dy²(i,j)} （１３）微分データＺＤは次のように、また、図５Ｄに示されて
いるように反転がとられる（即ち、白画素は黒画素によ
って置換され、黒画素は白画素に置換される）。

【００７０】ＺＩ（ｉ，ｊ）＝２５５ − ＺＤ（ｉ，ｊ）（１４）ここで、数値２５５はこのデータに関する最大グレース
ケールを示す。反転された画像データＺＩはＲＡＭ１７
内の反転画像データメモリ２６に格納される。乗算器は
参照番号２７で示されている。乗算器２７によって各ガ
ウス関数ごとにフィルタード画像メモリ２４に格納され
たフィルタされた画像データと反転画像データメモリ２
６に格納された反転画像データＺＩとの積が、次のよう
に、また、図５Ｅに示されるように得られる。

【００７１】ＺＰ（ｉ，ｊ）＝ＺＦ（ｉ，ｊ）・ＺＩ（ｉ，ｊ）（１５）結果として得られる積ＺＰは平滑化かつ細線化された画
像データであり、ＲＡＭ１７内の平滑細線化画像データ
メモリ２８に格納される。もし望むなら、積ＺＰには、
図５Ｆに示されているように閾値操作が施され、多値画
像データＺＰが平滑化かつ細線化された２値画像データ
に変換される。多値レベル（０〜２５５）の内、８５と
１０５との間にセットされた閾値が満足のゆく結果を生
み出すことがわかった。その閾値はＲＡＭ１７内の閾値
メモリ２９に格納される。

【００７２】閾値或は多値形式での処理済画像は、プリ
ンタ／ディスプレイ１９の装置で目視することができ、
また、ファクシミリ１３を経由して電話線１４によって
伝送されて遠隔地において目視することができる。

【００７３】従って、ＣＰＵ１０、ＰＲＯＭ１５と連動
して、各メモリと乗算器２２〜２９とは平滑化かつ細線
化された画像データを方法と装置を提供しており、これ
によって画像データ濃度の変化に依存したフィルタが画
像データの各画素に関して導出され、そのフィルタが画
像データに適用されてフィルタされた画像を得ることが
でき、反転画像がフィルタされた画像データの第１次差
分から導出され、そして、その反転画像とフィルタされ
た画像との積がとられて平滑化かつ細線化された画像デ
ータが形成される。図１に示した装置に適したＣ言語で
書かれたコンピュータプログラムについて以下に示す。 main( ) { template F; //ぼやけた質の低い入力画像 template I; //出力 template tl, t2, t3, t4ref, t4deg; template t5ref, t5deg; template temp; template dummyl, dummy2; grey_image deg, blurdeg; // 入力画像とぼやけた画像 grey_image plot_out; grey_image ref; double sigma; //シグマ（σ） char strn[200]; //スクリーンへのプリントに使用 char filename1[200], filename2[200]; double before, after; //本方法がどれ程良く作用するか double s; int i,j; fg_coord_t xl, yl, x2, y2; int u,d,l,r; int thresh1, thresh2; int tempsize; //////////σ = 1の場合のぼやけた質の低い画像 ///////////// t1.convolve(ref, temp); // t1 = ぼやけた画像 t2.computeddt(tl); // t2 =ぼやけた画像の導関数 t2.scale(0,255); t3.fill(0,t2.sizeR, t2.sizeC); // t3 =ぼやけた画像の反転導関数 for (i=0; i<t2.sizeR; i++) for (j=0; j<t2.sizeC; j++) t3.pixel[i]tj] = 255.0 - t2.pixel[i][j]; product(t4ref, t3, t1); // t4 = ぼやけた画像とその導関数の積 t4ref.plotbox(x2,y2); y2 += t4ref.sizeR + 10; ///////////////////////////////////////////////////////////////////// //テンプレートをガウス関数で詰める template::makegauss(double sigma, int size) { int i,j; double center; // ガウス関数の中心 double x,y; allocate(size, size); //所定サイズのメモリ割り当て center = O.5 * (size - 1); for (i=0; i<size; i++) for (j=0; j<size; j++) { x=i; y=j; // 中心値にロード x-=center; y-=center; //中心に移動 pixel[i][j] = exp(-(x*x+y*y)/2.0/sigma/sigma) /2.0/3.14159/sigma/ sigma; } } //画像をテンプレートにたたみ込む：画像がテンプレートにたたみ込まれる template::convolve(grey_image, image, template, temp) { int i,j,r,c,a,b; double sum; allocate(image.sizeR + temp.sizeR - 1, // サイズｘがセットされる image.sizeC + temp.sizeC - 1); for (r=0; r<sizeR; r++) for (c=0; c<sizeC; c++) { sum = 0.0; for (i=0; i<temp.sizeR; i++) for (j=0; j<temp.sizeC; j++) { a = r+i-temp.sizeR+1; b = c+j-temp.sizeC+1; if ((a >= 0)||(a < image.sizeR)||(b >= 0)||(b < image.sizeC)) sum += temp.pixel[i][j] * image.pixel[a][b]; } pixel[r][c] = sum; } //テンプレートの導関数を計算 template::computeddt(template, image) { double r1,r2,c1,c2; //隣接矩形について用いる値 double dr, dc; // 縦及び横の傾き int i,j; // インデックス変数 allocate(image.sizeR, image.sizeC); for (i=0; i<sizeR; i++) //非境界画素についての導関数計算 for (j=0; j<sizeC; j++) r1 = r2 = c1 = c2 = 0; //隣接矩形の値にロード if (i != 0) //上側 r1 = image.pixel[i-1][j]; if (i != sizeR-1) //下側 r2 = image.pixel[i+1][j]; if (j != 0) //左側 c1 = image.pixel[i][j-1]; if (j != sizeC-1) //右側 c2 = image.pixel[i][j+1]; dr = (r2 - r1)/2.0; dc = (c2 - c1)/2.0; pixel[i][j] = sqrt(dr*dr + dc*dc); pixel[i][j] = fabs(dr); } } ////////////////////////////////////////////////////////////////////// //単一値を用いたテンプレートの作成: value = value, XとY はサイズの値 template::fill(double value, int R, int C) { allocate(R,C); // 新テンプレートの作成 (サイズ調整されることに注意) for (int i=O; i<sizeR; i++) for (int j=O; j<sizeC; j++) pixel[i][j] = value; }; ////////////////////////////////////////////////////////////////////// //******************************************************************** //オーバラップ: Ｃ＝ＡがＢとオーバラップする回数 (同次元） product(template C, template A, template B) { int i,j; C.fill(O, A.sizeR, A.sizeC); for (i=O; i<A.sizeR; i++) for (j=O; j<A.sizeC; j++) C.pixel[i][j] = A.pixel[i][j] * B.pixel[i][j] / 255.0; } もし望むなら、ＣＰＵ１０はＰＲＯＭ１５によってプロ
グラムされ、オペレータが文字認識動作に先立って画像
データを平滑化し細線化するかどうかを選択できるよう
にする。即ち、高品質の画像である場合、画像データを
平滑化し細線化することは、文字認識処理に必要となる
文字辞書のサイズを削減できるので、利点がある。も
し、この利点を必要としないなら、ＣＰＵ１０は平滑化
し細線化過程を選択しないようにして後述する文字認識
動作に直接続くようにするオプションをオペレータに与
えるようにプログラムできる。これに対して、画像が質
の低いものであったり、高品質の画像について小さなサ
イズの文字辞書を望むなら、文字認識動作に先立つ平滑
化し細線化する処理を選択するように動作できる。

【００７４】さて図２に戻り、平滑細線化過程が画像の
歪みによって接触した文字を切り出すとき、付加的な切
り出しが必要であるかもしれない。従って、付加的なそ
してより完全な文字切り出しを行うために、装置には修
正用文字切り出し器３０が提供されている。

【００７５】文字認識装置は参照番号３１で示されてい
る。その文字認識装置は公知の技術によるものなので、
その詳細の説明はここでは行わない。一般的に、文字認
識装置３１は文字切り出し器３０によって切り出された
切り出し文字各々を処理し、辞書１６に格納された所定
の文字辞書と切り出し文字各々を比較する。平滑化及び
細線化によって入力画像をその本質的な部分だけに減ら
すので、たとえフォントが異なっていても、同じ文字は
同じに見えるという利点がある。従って、文字辞書１６
のサイズが削減でき、装置を単純化することができる。

【００７６】文字認識装置３１は切り出された文字を処
理し、識別された文字はＲＡＭ１７内のデコーデッド文
字メモリ３２に格納される。デコードされた文字は、必
須なことではないが、ＡＳＣＩＩ形式によって文書ファ
イルに格納されるのが典型的である。

【００７７】デコードされた文字がメモリ３２に格納さ
れた後、この文字はさらに続く処理、例えば、ワード或
は文書或は帳票処理に用いられる。従来技術に従うと、
オペレータはキーボード２０を用いてメモリ３２に格納
されたデコードされた文字を取り出し、図１に示したオ
フィスオートメーション機器のデータ処理機能を用いて
そのデコードされた文字を加工する。その操作によっ
て、ＣＰＵ１０は加工された文字（或は、望むなら加工
されていない文字）を扱って、例えば、モデムによって
遠隔地の装置に対する再伝送のために装置１８に出力す
る。もし望むなら、出力装置１８はＡＳＣＩＩ形式から
ファクシミリ互換形式への変換のような、文字形式を変
換するように構成される。

【００７８】従って、図１に示す装置は、オペレータに
対してファクシミリ１３を経て画像を受信する機能を提
供し、ファクシミリ伝送による画質の低下を補償するよ
うに画像を強調し、その強調画像によって文字認識を実
行したり、その認識文字に対して加工を加えたり、ま
た、他のデータ処理を実行し、例えば、他のファクシミ
リ装置に加工された文字を再伝送する。

【００７９】なお本発明は、複数の機器から構成される
システムに適用しても良いし、１つの機器からなる装置
に適用しても良い。また本発明はシステム或は装置にプ
ログラムを供給することによって達成される場合にも適
用できることは言うまでもない。

【００８０】

【発明の効果】以上説明したように本発明によれば、例
えば、画像再生或はパターン・文字認識処理などの高度
な処理に先立ち、画像データを平滑化及び細線化するの
で、その平滑化によってノイズによる点を除去する一
方、細線化によって線幅を細くして画像輪郭のぼやけを
補正する。その結果、画像データには本質的な部分のみ
が残され、そのデータからの再生画像はより鮮明なもの
となる。

【００８１】特に、これを文字画像に適用した場合には
ノイズによる点が除去され線幅が細くなるので、接触し
た文字からの部分的な文字切り出しが可能となるので、
より正確で精度の高い文字認識ができるようになる。

【００８２】さらにノイズ除去によって画像データには
本質的な部分のみが残されるので、類似の文字画像パタ
ーンが多くの異なる入力文字フォントに対して生成され
る。

【００８３】従って、本発明を文字認識装置に適用した
り文字認識処理に先立つ処理に用いられる場合、文字辞
書のサイズを削減することが可能になるという利点もあ
る。

【図面の簡単な説明】

【図１】本発明の代表的な実施例である装置の構成を示
すブロック図である。

【図２】図１に示す装置によって実行される本発明の画
像処理方法の実施例を示す機能ブロック図である。

【図３】２値画像データから多値画像データを生成する
手順を示す詳細なフローチャートである。

【図４】本発明を応用して用いられる可変マスクフィル
タを示す詳細なフローチャートである。

【図５Ａ】本実施例の処理に従う画像データの変化を示
す図である。

【図５Ｂ】本実施例の処理に従う画像データの変化を示
す図である。

【図５Ｃ】本実施例の処理に従う画像データの変化を示
す図である。

【図５Ｄ】本実施例の処理に従う画像データの変化を示
す図である。

【図５Ｅ】本実施例の処理に従う画像データの変化を示
す図である。

【図５Ｆ】本実施例の処理に従う画像データの変化を示
す図である。

【図６】本発明の効果を説明するために用いられる画像
データの典型例である。

【符号の説明】

１０ＣＰＵ１１データバス１２スキャナ１３ファクシミリ１４電話線１５プログラムＲＯＭ１６文字辞書１７ＲＡＭ１８出力装置１９プリンタ／ディスプレイ２０キーボード

フロントページの続き (56)参考文献特開平１−266682（ＪＰ，Ａ) 特開平３−144788（ＪＰ，Ａ) 特開平３−51967（ＪＰ，Ａ) 特開平３−36672（ＪＰ，Ａ) 実開昭61−185158（ＪＰ，Ｕ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06K 9/36 G06T 5/20

Claims

(57)【特許請求の範囲】

【請求項１】多値画像に含まれる画素各々に対して、
当該画素と周辺画素との濃度変化に基づいてフィルタを
定め、前記画素各々で定めたフィルタを前記画素各々に
適用し、フィルタされた画像データを得るフィルタ適用
工程と、前記フィルタされた画像データを微分して、微分画像デ
ータを取得する微分画像データ取得工程と、前記微分画像データの反転画像を導出する反転画像導出
工程と、前記反転画像と前記フィルタされた画像データとの積を
とって、平滑化細線化された画像データを得る乗算工程
と、前記平滑化細線化された画像データに含まれる文字を切
り出す切り出し工程と、前記切り出された文字を認識する認識工程とを有するこ
とを特徴とする文字認識方法。
【請求項２】前記フィルタ適用工程において得られた
前記フィルタされた画像データは、ノイズ部分が平滑化
された画像であることを特徴とする請求項１に記載の文
字認識方法。
【請求項３】前記フィルタ各々は、前記画素と周辺画
素との濃度変化に基づいて拡がりが定められたガウス関
数を用いて決定されたフィルタであることを特徴とする
請求項１に記載の文字認識方法。
【請求項４】前記乗算工程において得られた平滑化細
線化された画像データを所定の閾値で２値画像に変換す
る２値化工程をさらに有し、前記切り出し工程では、前記２値画像から前記文字を切
り出すことを特徴とする請求項１に記載の文字認識方
法。
【請求項５】前記微分画像データ取得工程では、前記
フィルタされた画像データ内の隣り合う画素間の差分デ
ータを前記微分画像データとして取得することを特徴と
する請求項１に記載の文字認識方法。
【請求項６】入力画像が２値画像である場合、前記２
値画像を表現する２値画像データから擬似多値画像デー
タを導出する多値化工程をさらに有し、前記多値画像は、前記２値画像データを前記多値化工程
において多値化することにより得られた画像であること
を特徴とする請求項１に記載の文字認識方法。
【請求項７】画像データを入力する入力手段と、多値画像に含まれる画素各々に対して、当該画素と周辺
画素との濃度変化に基づいてフィルタを定め、前記画素
各々で定めたフィルタを前記画素各々に適用し、フィル
タされた画像データを得るフィルタ手段と、前記フィルタされた画像データを微分して、微分画像デ
ータを取得する微分画像データ取得手段と、前記微分画像データの反転画像を導出する反転画像導出
手段と、前記反転画像と前記フィルタされた画像データとの積を
とって、平滑化細線化された画像データを得る乗算工程
と、前記平滑化細線化された画像データに含まれる文字を切
り出す切り出し手段と、前記切り出された文字を認識する認識工程とを有するこ
とを特徴とする文字認識装置。
【請求項８】前記フィルタ適用工程において得られた
前記フィルタされた画像データは、ノイズ部分が平滑化
された画像であることを特徴とする請求項７に記載の文
字認識装置。
【請求項９】前記フィルタ各々は、前記画素と周辺画
素との濃度変化に基づいて拡がりが定められたガウス関
数を用いて決定されたフィルタであることを特徴とする
請求項７に記載の文字認識装置。
【請求項１０】前記乗算手段において得られた平滑化
細線化された画像データを所定の閾値で２値画像に変換
する２値化手段をさらに有し、前記切り出し手段では、前記２値画像から前記文字を切
り出すことを特徴とする請求項７に記載の文字認識装
置。
【請求項１１】前記微分画像データ取得手段では、前
記フィルタされた画像データ内の隣り合う画素間の差分
データを前記微分画像データとして取得することを特徴
とする請求項７に記載の文字認識装置。
【請求項１２】入力手段によって入力される画像デー
タが２値画像データである場合、前記２値画像データか
ら擬似多値画像データを導出する多値画像データ導出手
段をさらに有し、前記多値画像は、前記２値画像データを前記多値データ
導出手段により多値化することにより得られた画像であ
ることを特徴とする請求項７に記載の文字認識装置。