JPH1031717A

JPH1031717A - 画像認識方法

Info

Publication number: JPH1031717A
Application number: JP9087835A
Authority: JP
Inventors: Henry Spalding Baird; スパルディングベアードヘンリー; John D Hobby; ディ．ホビージョン
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 1996-04-05
Filing date: 1997-04-07
Publication date: 1998-02-03
Also published as: EP0800147A3; CA2201557A1; EP0800147A2

Abstract

(57)【要約】【課題】複数の入力画像に対して有効で、画像劣化モ
デルあるいは画像歪みプロセスのパラメータが未知であ
る場合に、劣化した画像を認識する。【解決手段】単一の未知文字の劣化二値画像の集合
を、印刷された文書から選択する。選択された二値画像
は、平滑化し、中間調を付加することによって前処理さ
れる。次に、この中間調画像に画像平均化を適用する。
特に、結果として得られた中間調画像を重ね合わせ、強
度を足し合わせ、その結果にしきい値処理を適用して単
一の二値画像を生成する。その後、その単一の二値画像
の平滑化を行い、画像のもとのシンボルの近似の最終出
力を得る。この近似を画像分類器に入力して、文書分類
において用いる劣化画像の集合を生成することにより、
分類誤り率を低下させる。また、入力画像の鮮鋭化を考
慮に入れて、近似の精度を上げることも可能である。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書画像処理に関
し、特に、画像ソース（例えば、印刷された文書）から
の画像の認識に関する。

【０００２】

【従来の技術】自動文書画像処理の分野における基本的
な問題は、その画像を生成するために用いられたもとの
理想的なアートワークに比べて、画像欠陥、すなわち、
画像における欠損に関係している。画像欠陥の源にはさ
まざまなものがあり周知である。例えば、画像のソース
であったもとの印刷された文書（例えば紙文書）に欠陥
がある（例えば、紙に汚れのしみやしわがある場合、あ
るいは、欠陥のある印刷装置から印刷された場合）こと
がある。さらに、紙文書がスキャンされるときに、紙が
ねじれたままスキャナに挿入された結果、画像の歪みが
生じることがある。さらに、スキャンプロセスの光学系
自体が、例えば振動、画素センサ感度やノイズによる欠
陥を生じることがある。

【０００３】上記の画像欠陥は、文書の自動処理に必要
な文字認識の精度のために、文書画像処理においては特
に問題となる。例えば、光学的文字認識（ＯＣＲ）は、
画像処理システムの主要部分であることが多い。ＯＣＲ
は、テキスト情報のページのグラフィカルなビットイメ
ージをテキストファイルに変換するプロセスである。こ
のテキストファイルはその後で例えばワードプロセッサ
のソフトウェアを用いて編集することができる。当業者
に周知のように、画像分類器は、画像のディジタル表現
を解析するために用いられるほとんどのＯＣＲシステム
の主要な要素である。このようなＯＣＲシステムの分類
器の精度は、入力画像の質がわずかに劣化しただけでも
大幅に低下する。従って、画像分類器の重要な性質は、
画像の劣化した表現においても次に正確に作用しその文
字を認識する能力である。

【０００４】画像分類器が欠陥のある画像表現を処理す
る能力を改善する１つの既知の方法は、いわゆる学習
（トレーニング）によるものである。例えば、ある認識
アルゴリズムを用いて欠陥のある画像を認識するように
分類器をトレーニングするような自動学習が頻繁に用い
られる。このような学習の１つの方法は、文書画像劣化
モデルを使用するものである。H. Baird, "Document Im
age Defect Models andTheir Uses", Proc., IAPR 2nd
International Conference on Document Analysis and
Recognition, October 20-22, 1993、にはさまざまな文
書画像劣化モデルおよびその応用が検討され考察されて
いる。

【０００５】このような文書画像劣化モデルは、単一の
理想的なプロトタイプ画像（例えば、機械印刷されたシ
ンボル）を読み取り、特定のモデルの劣化アルゴリズム
に従って、多数の擬似ランダムに劣化した画像を生成す
る。その後、これらの生成された劣化画像（すなわち、
画像における欠陥のあるシンボルの可能な表現の例）を
用いて、欠陥のあるシンボルを認識するために画像認識
プロセスで使用される分類器をトレーニングする。もち
ろん、この方法は、画像劣化モデル（すなわち、どのよ
うにしてもとの画像が劣化するかの予測）が、分類器に
対する劣化画像を生成するために既知であることを必要
とする。

【０００６】もう１つの周知の画像処理法は、画像逆畳
込みである。これは、ぼけた出力画像（例えば、動いて
いる対象の動きによりぼけた写真）から入力画像を回復
する。（例えば、Y. Vardi et al., "From Image Deblu
rring to Optimal Investments: Maximum Likelihood S
olutions for Positive Linear Inverse Problems",Jou
rnal of the Royal Statistical Society, Series B, 5
5, No.3, pp.569-612, 1993、および、D. Lee et al.,
"Experiments with Maximum Likelihood Method for I
mage Motion Deblurring", Advances in Applied Stati
stics, VolumeII, pp.355-383, Abington, Carfax Pub.
Co., 1994参照。）古典的な画像逆畳込み法の２つの基
本事項は、いくつかの歪みプロセスについての事前知識
（すなわち、パターンがどのように歪みかは既知であ
る）と、単一画像に対する作用である。しかし、多くの
画像認識の場合に、このような歪みプロセスは未知であ
るか、あるいは、多くの画像が関係することがある。

【０００７】

【発明が解決しようとする課題】従って、複数の入力画
像に対して有効で、画像劣化モデルあるいは画像歪みプ
ロセスのパラメータが未知である場合に、劣化した、あ
るいは、欠陥のある画像を認識する技術に対する需要が
ある。

【０００８】

【課題を解決するための手段】本発明は、劣化した画像
の復元を用いて劣化画像のもとの理想的なアートワーク
の近似を生成することによって、画像認識に有用な方法
を提供する。実際には、従来の画像劣化法を逆にする。
すなわち、本発明によれば、画像（例えば、欠陥のあ
る、あるいは、劣化した画像）の集合を画像ソースから
読み取り、その画像が導出されるもとになった理想アー
トワーク（すなわち原画像）を回復（すなわち、良好に
近似）することをことを試みる。理想アートワークと
は、例えば、画像ソース（例えば、印刷された文書）の
生成に用いられたもとのシンボルである。次に、もとの
シンボルの近似を入力として、画像分類器をトレーニン
グすることにより、分類器の有効性を向上させる。例え
ば、分類器は、もとのシンボルの近似を劣化モデルへの
入力として使用して、文書分類において用いる劣化画像
の集合を生成することができる。このようにして、分類
器の有効性は、分類誤り率の低減を通じて改善される。

【０００９】本発明の実施例によれば、単一の未知文字
の劣化二値画像の集合を画像ソース（例えば、印刷され
た文書）から選択する。選択された二値画像は、平滑化
し、グレイレベル（中間調）を付加することによって前
処理される。次に、この中間調画像に画像平均化を適用
する。特に、結果として得られた中間調画像を重ね合わ
せ、強度を足し合わせ、その結果にしきい値処理を適用
して単一の二値画像を生成する。その後、その単一の二
値画像の平滑化を行い、画像のもとのシンボル（すなわ
ち、画像ソースの生成に用いられたもとのシンボル）の
近似の最終出力を得る。上記のように、もとのアートワ
ークの近似は、例えば、画像分類器への入力として用い
ることが可能であり、さらなる画像分類および画像ソー
スの認識に有用である。

【００１０】本発明の第２実施例は、入力画像の鋭い角
を考慮に入れるための入力画像の追加処理を含み、それ
により、もとのアートワークの有効な近似をさらに改善
する。

【００１１】

【発明の実施の形態】本発明は、劣化した画像の復元を
用いて画像のもとの理想アートワークの近似を生成する
ことによって、画像認識に有用な方法を提供する。すな
わち、本発明によれば、画像（例えば、欠陥のある画
像）の集合を画像ソースから読み取り、その画像が導出
されるもとになった理想アートワーク（例えば、もとの
シンボル）を回復（すなわち、良好に近似）することを
ことを試みる。このもとのシンボルの近似を利用して、
画像分類器をトレーニングすることにより、分類器の有
効性を向上させる。例えば、分類器は、もとのシンボル
の近似を劣化モデルへの入力として使用して、文書分類
において用いる劣化画像の集合を生成することができ
る。図１に、本発明の原理を用いたＯＣＲシステムを示
す。特に、ＯＣＲシステム２は、画像ソース５から入力
画像の集合（例えば、印刷された文字の集合）を選択す
るために使用される入力画像選択器４を有する。入力画
像の集合は、入力画像の理想アートワークの近似を生成
する画像復元近似器６への入力として使用される。画像
分類器８（例示的に、ＯＣＲエンジン１１の一部として
示す。）は、理想アートワーク近似を用いて、もとの画
像ソースを分類する。その後、画像分類器８によってな
された分類はＯＣＲエンジン１１によって使用され、Ｏ
ＣＲエンジン１１は、周知の画像認識原理を画像ソース
５に適用して、周知のようにＯＣＲシステム出力７を生
成する。

【００１２】図２は、本発明の実施例の主な動作の流れ
図である。図３には、図２のプロセスを入力画像のサン
プル集合に適用した例を示す。本発明の説明をわかりや
すくするために、これらの２つの図についてまとめて以
下で説明する。

【００１３】入力画像の集合を画像ソース（例えば、印
刷された文書からの文字のページ）から読み取る（ブロ
ック１０）。本発明の方法は、例えば従来の画像逆畳込
み法のように単一の画像ではなく、多くの入力画像に対
して作用することができる。実施例によれば、選択され
る入力画像は二値（すなわち、黒または白であって、中
間調やカラーではない）であり、ページレイアウト解析
やマニュアル選択のような周知の方法によって画像ソー
スから読み取ることができる。さらに、入力画像の集合
は、その欠陥および劣化のためにＯＣＲシステム（例え
ば、図１のＯＣＲシステム２）が認識を実行するのが困
難なソースからの画像を表す。実施例によれば、劣化入
力画像の集合は、その集合が、単一のシンボル（すなわ
ち、同じシンボル）を表すと考えられるソースからの画
像を捕捉するように収集される。例えば、図３は、印刷
された文字「Ａ」を表す例示的な入力文字集合２０を示
す。

【００１４】重要なことであるが、入力画像の集合に、
ある前処理を適用することによって、以下で説明するよ
うな大幅に改善された画像認識が達成される。本発明に
よれば、入力画像の集合は、以下で説明するような本発
明の方法のいわゆる「画像平均化」操作を適用する前
に、前処理（ブロック１２）を受ける。好ましい前処理
操作には、最低限、入力画像の平滑化と、平滑化された
画像への中間調の付加が含まれる。本発明の実施例によ
れば、輪郭平滑化法を用いると優れた結果が得られる。

【００１５】特に、実施例は、J. D. Hobby, "Polygona
l Approximation that Minimize the Number of Inflec
tion", Proceedings of the Fourth Annual ACM-SIAM S
ymposium on Discrete Algorithms, pp.93-102, Januar
y, 1993に記載された輪郭平滑化法（以下、「Hobbyの平
滑化アルゴリズム」という。）を用いる。前処理操作
（ブロック１２）中にHobbyの平滑化アルゴリズムを適
用することによって、特定の入力に対するある範囲の代
替輪郭が生成される。この範囲の代替輪郭は、入力画像
のもとになる形状の改善された評価を提供し、それによ
り、実施例の認識の有効性が改善される。さらに、本発
明による入力画像の集合の前処理の平滑化結果は、Hobb
yの平滑化アルゴリズムで許容誤差をε＝１／３とする
ことにより改善される。

【００１６】上記の平滑化操作に加えて、入力画像の前
処理（ブロック１２）は、結果として得られる平滑化画
像に中間調を付加して、後続の処理のための中間調画像
の集合を生成することも含む。中間調は、Hobbyの平滑
化アルゴリズムによって生成される輪郭の範囲を最大限
に利用するようにさまざまなレベルで付加される。前処
理操作（ブロック１２）を例示的な入力文字集合２０に
適用した結果を、図３の中間調画像２２に示す。

【００１７】前処理操作（ブロック１２）が完了した
後、実施例によれば、中間調画像２２は、一連の操作
（以下、まとめて「画像平均化」という。）を受ける
（ブロック１４）。画像平均化には、主に３つの操作の
適用が含まれる。それらの操作は、（１）入力の重ね合
わせ、（２）入力の加算、および（３）しきい値処理、
である。前処理によって生成された中間調画像２２は、
周知の方法を用いて重ね合わされる。例えば、実施例で
は、サブピクセル（１画素未満）の精度で各入力画像の
重心を求め、すべての重心が一致するように画像をシフ
トすることによって画像を重ね合わせる。

【００１８】中間調画像２２を重ね合わせた後、画像を
足し合わせて、累積したグレイスケール値を有する単一
の中間調画像を生成する。実施例によれば、入力の加算
としきい値処理の画像平均化操作は以下のように実行さ
れる。

【００１９】（１）ｊを１に初期化する。

【００２０】（２）Hobbyの平滑化アルゴリズムをｊ番
目の輪郭に適用して、ｉ＝０，１，２，...，ｎ_jに対し
て、Ｐ_iL＝（Ｘ_iL，Ｙ_iL）およびＰ_iR＝（Ｘ_iR，Ｙ_iR）
を得る。

【００２１】（３）各ｉに対して、Ｐ＾_iL＝σＰ_iLおよ
びＰ＾_iR＝σＰ_iRとする。スケール因子σは、画像平均
化からの出力の解像度を制御するために用いられる（例
えば、σの値が大きいと、出力の解像度が増大する）。
その後、ｉを１に初期化する。

【００２２】（４）四辺形Ｐ＾_i-1,RＰ＾_iRＰ＾_iLＰ＾
_i-1,Lが直線ｙ＝ｙ＾と交わるようなすべての整数ｙ＾
を求め、交点（ｘ′，ｙ＾）と（ｘ″，ｙ＾）の各対に
対してステップ（５）を実行する。

【００２３】（５）Ｐ＾_i-1,LおよびＰ＾_iLにおけるダ
ークネスを１とし、Ｐ＾_i-1,RおよびＰ＾_iRにおけるダ
ークネスを０とし、その間で線形に変化させることによ
って、（ｘ′，ｙ＾）および（ｘ″，ｙ＾）に対するダ
ークネス値ｄ′およびｄ″を計算する。そして、３つ組

【数１】を保存する。

【００２４】（６）ｉ＜ｎ_jの場合、ｉをインクリメン
トしてステップ（４）に戻る。

【００２５】（７）さらに輪郭がある場合、ｊをインク
リメントしてステップ（２）に戻る。

【００２６】（８）ｙ＝ｙ＾となるような３つ組がある
各ｙ＾に対して、全ダークネスＤおよびダークネスの変
化率ΔＤを維持したまま、３つ組をｘでソートして順に
走査する。Ｔを、ダークネスしきい値の規定のレベル
（例えば、あるグレイレベル）として、全ダークネスが
しきい値Ｔと交差するごとに、点（ｘ，ｙ＾）を出力す
る。

【００２７】基本的に、上記の操作は、平滑化アルゴリ
ズムによって生成された各多角形輪郭をラスタ化し、そ
の結果得られる画像を足し合わせ、その結果をしきい値
処理してしきい値処理された画像２４を生成する（図３
参照）。特に、実施例によれば、Hobbyの平滑化アルゴ
リズムによって生成される平滑な陰影のある（スムーズ
シェーディングによる）エッジ（辺）を利用するため
に、より高い解像度で画像をラスタ化し、ラスタ画像を
足し合わせることによって一般化がなされる。例えば、
画像（スムーズシェーディングによるエッジを有する）
を通る水平走査線を考える。ダークネスは走査線に沿っ
てｘ座標の区分的線形関数となり、傾きは走査線が四辺
形の境界と交わる点で不連続となる。例えば、図４に、
スムーズシェーディング画像の一部２８、それを規定す
る四辺形３０、および、破線の走査線３４に沿った相対
ダークネス３２を示す。

【００２８】実施例によれば、四辺形は、ダークネス値
がダークネス自体の変化ではなくダークネス関数の傾き
の変化を表すように、（ｘ，ｙ，ｄ）３つ組（上記のス
テップ（５）参照）にラスタ化される。（ｘ，ｙ，ｄ）
３つ組に対する全ダークネス関数は、特定の走査線に関
して再生される（上記のステップ（８）参照）。さら
に、ΔＤ（上記のステップ（８）参照）の累積誤差を避
けるために、各３つ組の第３成分が固定小数点数値とし
て保存される。しかし、全ダークネスＤには若干の累積
誤差が生じることもあるが、この誤差は、生成される四
辺形（上記のステップ（８）参照）が水平方向に大きい
ときには部分的に軽減される。これは、水平方向に大き
い四辺形のほうがダークネスの変化率ΔＤが０に等しく
なりやすいことが知られているためである。このような
場合には、加算およびしきい値処理の操作のステップ
（５）で生成される３つ組においてｄ′＝ｄ″となる。

【００２９】さらに、上記の画像平均化操作によって生
成されたしきい値処理画像２４に後処理を適用すること
により、画像復元出力２６が改善される。既に説明した
ように、画像復元出力２６は、画像ソースの原画像の生
成に用いられた理想シンボルの近似である。本発明によ
れば、しきい値処理画像は、追加の平滑化操作を用いて
後処理される（図２のブロック１６参照）。実施例で
は、後処理の平滑化もまた、J. D. Hobbyの前掲文献に
記載された平滑化法に従って実行される。後処理操作
（ブロック１６）中にHobbyの平滑化アルゴリズムを適
用することによって、もとになる画像のぶれやノイズか
ら影響を受けることのない、より実際的な画像復元出力
２６が生成される。例えば、図３を参照すると、画像復
元出力２６から分かるように、後処理操作によって、し
きい値処理画像２４のゆれ２１が除去されている。さら
に、実施例によれば、後処理平滑化で用いられる許容誤
差εは、スケール因子σと、平均化される画像の総数の
関数である。

【００３０】本発明の第２実施例は、画像処理分野で周
知の「まるみを帯びた」角の生成を考慮に入れる。場合
によっては（例えば、もとになる形状がいわゆる「鋭い
角」を有する場合）、このようなまるみを帯びた角は何
らかの不正確さを生じる。鋭い角およびこれに関連する
影響については、J. D. Hobby et al., "Degraded Char
acter Image Restoration", Proceedings of the Fifth
Annual Symposium onDocument Analysis and Image Re
trieval, pp.233-245, 1996にさらに詳細に記載されて
いる。鋭い角の問題は、本発明の第２実施例において、
以下の操作に従って、ラジアンあたりγ単位の面積を加
えることによって対処される。

【００３１】（９）γ′＝γ／２０とする。ステップ１
０〜１４を少なくとも２０回繰り返す。

【００３２】（１０）多角形の各辺に対して、シフト量
ｓ_i＝γ′（θ_i＋φ_i）／（２ｌ_i）を計算する。ただ
し、ｌ_iは辺の長さであり、θ_iおよびφ_iは両端の頂点
における角である。

【００３３】（１１）各辺に対して、辺を右に垂直にｓ
_i単位だけシフトすることによって得られる直線Ｌ_iを求
める。

【００３４】（１２）各頂点ｖ_iに対して、ｖ_iで交わる
辺に対するＬ_iとＬ_jの交点ｖ′_iを求める。これは、も
との多角形の辺と平行な辺を有する新しい多角形を形成
する。

【００３５】（１３）新しい多角形の辺のうち、対応す
るもとの多角形の辺の向きと逆の向きを有する各辺に対
して、その辺を、その辺の両端の辺に対するＬ_iとＬ_jが
交わる一点につぶす。

【００３６】（１４）すべての辺の向きが一致するまで
ステップ１３を繰り返した後、もとの多角形を新しい多
角形に更新する。

【００３７】このようにして、鋭い角を考慮に入れるた
めの後処理により、本発明によって生成されるもとの画
像の理想アートワークの近似がさらに改善される。

【００３８】次に、本発明の作用効果を例示するため
に、ＯＣＲの場合に本発明の実際の応用についてさらに
説明する。入力として、もともとタイプライタで印字さ
れた後、写真オフセット印刷されたと考えられるテキス
ト（５０個のパズル暗号の集まりからとったもの）を選
択した。ＯＣＲテストをさらに意味のあるものとするた
めに、選択した入力テキストはさまざまな質を有し、か
なりの数の質の悪いテキストも含んでいた。入力テキス
トは、単語間スペースを含めて２３，６８４個の文字を
含んでいた。入力テキスト３４の一部を拡大したものを
図５に示す。全入力テキストを２段階で処理した。第１
段階の画像処理は本発明の原理を全く含まないものであ
った。

【００３９】第１段階において、２０個の固定ピッチ書
体でトレーニングした分類器を用いた実験的ページリー
ダを使用した。第１段階の画像処理のその他の属性は、
それぞれ当業者には十分に理解されるものであるが、ペ
ージレイアウト、固定ピッチ処理、文字分類、形状セグ
メント化、および、粗コンテクストフィルタリングを含
む。文字列の対（Ｔ，Ｅ）（ただし、Ｔは真の文字列で
あり、Ｅはページリーダによって誤って置換された文字
列である。）を半マニュアル的に識別することによっ
て、第１段階における「分類誤差」を測定した。Ｔまた
はＥはスペースを含んでもよく、空でもよい。各（Ｔ，
Ｅ）の対は、ＴとＥが全く文字を共有しないという意味
で極小である。さらに、全体的な方針として、各対から
誤差カウントへの寄与は、ＴとＥの長さのうちの最大値
が１０を超えない限りその最大値であり、その最大値が
１０を超える場合には無視する（すなわち、強制的に０
にする）という方針を採用した。この採用した方針の基
礎は、（Ｔ，Ｅ）の対は、分類の誤りというよりもレイ
アウトから生じるという仮定に由来する。

【００４０】第１段階で用いた上記の画像処理の結果、
全分類誤差は１７０６となり、これは、文字の７．２％
という名目誤り率を表す。このような第１段階の結果
は、以下で説明する本発明の画像復元および認識の原理
によるものとの比較に用いることができる。

【００４１】第２段階において、既に詳細に説明した本
発明の操作を適用することによって、第１段階の誤り率
の結果を改善した。入力文字画像（第１段階で入力とし
て用いたものと同じ集合）を、トップ選択文字ラベルで
ソートした。当業者には理解されるように、トップ選択
ラベルとは、例えば百分率による、入力文字画像の最も
確からしい解釈（例えば、その画像は９０％の確率で文
字「Ｉ」である。）のことである。例として、図６に、
文字「Ｉ」とラベルされた全部で１００９個のうちから
トップ選択ラベルによって選択した拡大画像３６の集合
を示す。図６から明らかなように、いくつかの画像は誤
ってラベルされている（すなわち、文字「Ｉ」ではな
い）か、あるいは、文字の弧セグメントである。次に、
各文字ラベルに対して、そのラベルのすべての画像を本
発明の原理に従って処理した。本発明を適用した結果の
出力は、大文字アルファベットおよび数字からなるシン
ボルであった。本発明の方法によって生成された出力文
字画像３８を図７に示す。既に説明したように、出力文
字画像３８は、もとの入力テキストが生成されるもとに
なった理想アートワークの近似表現（例えばシンボル）
である。

【００４２】本発明によって生成される出力文字画像３
８は、入力テキストが分類の観点からどのように見える
ことになるかを表す、劣化画像の集合を生成するための
擬似ランダム生成器への入力として使用することができ
る。特に、本発明の発明者は、「理想アートワーク」集
合の各シンボルを用いて、劣化画像の集合（各入力文字
画像ごとに１５０個）を生成した。例として、文字
「Ｉ」について生成された理想シンボル近似（図７）を
用いて、この文字の可能な劣化パターンを表す劣化画像
４０（図８）を生成した。

【００４３】理想アートワーク近似を用いて生成された
劣化画像の集合全体を使用して、画像ソースの入力テキ
ストを分類するために用いられることになる分類器をト
レーニングした。重要なことであるが、本発明を適用し
た結果、分類誤り率は２０％低減して誤りの総数は１３
７６となり、これは５．８％という名目分類誤り率を表
す。

【００４４】

【発明の効果】以上述べたごとく、本発明によれば、複
数の入力画像に対して有効で、画像劣化モデルあるいは
画像歪みプロセスのパラメータが未知である場合に、劣
化した、あるいは、欠陥のある画像を効率的に認識する
ことが可能となる。特に、本発明によれば、画像分類器
は、もとのシンボルの近似を劣化モデルへの入力として
使用して、文書分類において用いる劣化画像の集合を生
成することができる。このようにして、分類器の有効性
は、分類誤り率の低減を通じて改善される。

【図面の簡単な説明】

【図１】本発明の画像復元プロセスを用いたＯＣＲシス
テムの図である。

【図２】本発明の画像復元プロセスの実施例の流れ図で
ある。

【図３】入力画像のサンプルに図２のプロセスを適用し
た例の図である。

【図４】図２の例示的な平滑化作用によって生成される
スムーズシェーディングによる画像部分の例の図であ
る。

【図５】本発明のプロセスを試験するための入力として
用いられる全テキストの拡大部分の図である。

【図６】図５の全入力テキストから選択された特定の拡
大画像の集合の図である。

【図７】本発明によって生成される理想アートワーク画
像近似の図である。

【図８】図７の理想アートワーク画像近似を用いて生成
される劣化画像のサンプルの図である。

【符号の説明】

２ＯＣＲシステム４入力画像選択器５画像ソース６画像復元近似器７ＯＣＲシステム出力８画像分類器１１ＯＣＲエンジン２０入力文字集合２１ゆれ２２中間調画像２４しきい値処理画像２６画像復元出力２８スムーズシェーディング画像３０四辺形３２相対ダークネス３４走査線３５入力テキスト３６拡大画像３８出力文字画像４０劣化画像

───────────────────────────────────────────────────── フロントページの続き (71)出願人 596077259 600 ＭｏｕｎｔａｉｎＡｖｅｎｕｅ, ＭｕｒｒａｙＨｉｌｌ，ＮｅｗＪｅｒｓｅｙ 07974−0636Ｕ．Ｓ．Ａ. (72)発明者ジョンディ．ホビーアメリカ合衆国、08854 ニュージャージー、ピスカタウェイ、ディビスアベニュー 270

Claims

【特許請求の範囲】

【請求項１】画像認識に用いる方法において、画像ソースからの複数の画像のうちから、同じもとのシ
ンボルから導出されていることに基づいて特定画像を選
択するステップと、選択された特定画像からもとのシンボルの近似を生成す
る近似生成ステップと、前記もとのシンボルの近似を画像分類器に入力して前記
画像ソースの複数の画像を分類する分類ステップとから
なることを特徴とする、画像認識に用いる方法。
【請求項２】前記近似生成ステップは、前記選択された特定画像に第１の平滑化を適用すること
によって複数の平滑化画像を生成するステップと、前記複数の平滑化画像から複数の中間調画像を生成する
ステップと、前記複数の中間調画像から単一画像を生成する単一画像
生成ステップと、前記単一画像に第２の平滑化を適用する第２平滑化ステ
ップとからなることを特徴とする請求項１の方法。
【請求項３】前記単一画像生成ステップは、前記複数の中間調画像を重ね合わせるステップと、重ね合わされた中間調画像を足し合わせる加算ステップ
と、前記加算ステップの結果をダークネスレベルの関数とし
てしきい値処理するステップとからなることを特徴とす
る請求項２の方法。
【請求項４】前記第２平滑化ステップはラジアンあた
り可変量単位の面積を前記単一画像に付加するステップ
を含むことを特徴とする請求項２の方法。
【請求項５】前記第１および第２の平滑化は輪郭平滑
化を使用することを特徴とする請求項２の方法。
【請求項６】前記分類ステップは、前記画像分類器に
おいて前記もとのシンボルの近似を用いて複数の劣化画
像を生成するステップを含むことを特徴とする請求項１
の方法。
【請求項７】画像認識に用いる方法において、画像ソースから複数の画像を選択するステップと、選択された複数の画像に第１の平滑化を適用することに
よって複数の平滑化画像を生成するステップと、前記複数の平滑化画像から複数の中間調画像を生成する
中間調画像生成ステップと、前記複数の中間調画像から単一画像を生成する単一画像
生成ステップと、前記単一画像に第２の平滑化を適用して、前記画像ソー
スの生成に用いられたもとのシンボルの近似を生成する
ステップと、前記もとのシンボルの近似を画像分類器に入力して前記
複数の画像を分類するステップとからなることを特徴と
する、画像認識に用いる方法。
【請求項８】前記単一画像生成ステップは、前記複数の中間調画像を重ね合わせる重ね合わせステッ
プと、重ね合わされた中間調画像を足し合わせる加算ステップ
と、前記加算ステップの結果をダークネスレベルの関数とし
てしきい値処理するステップとからなることを特徴とす
る請求項７の方法。
【請求項９】前記第１および第２の平滑化は輪郭平滑
化を使用することを特徴とする請求項７の方法。
【請求項１０】前記第２平滑化ステップはラジアンあ
たり可変量単位の面積を前記単一画像に付加するステッ
プを含むことを特徴とする請求項９の方法。
【請求項１１】前記中間調画像生成ステップは、可変
度合いでグレイスケールを前記複数の平滑化画像に付加
するステップを含むことを特徴とする請求項９の方法。
【請求項１２】前記重ね合わせステップは、各中間調画像の重心を求めるステップと、重心が一致するように中間調画像をシフトするステップ
とからなることを特徴とする請求項８の方法。
【請求項１３】前記画像分類器が前記もとのシンボル
の近似を用いて複数の劣化画像を生成することを特徴と
する請求項７の方法。
【請求項１４】前記単一画像生成ステップは、前記単
一画像の解像度を制御するスケール因子を適用すること
を特徴とする請求項９の方法。
【請求項１５】画像分類器をトレーニングする方法に
おいて、複数の選択された画像に第１の平滑化を適用することに
よって複数の平滑化画像を生成するステップと、前記複数の平滑化画像から複数の中間調画像を生成する
ステップと、前記複数の中間調画像から単一画像を生成するステップ
と、前記単一画像に第２の平滑化を適用して、前記複数の選
択された画像が導出されるもとになった画像を表す、も
とのシンボルの近似を生成するステップと、前記画像分類器において前記もとのシンボルの近似を用
いて画像ソースからの複数の欠陥画像を分類する分類ス
テップとからなることを特徴とする、画像分類器をトレ
ーニングする方法。
【請求項１６】前記単一画像生成ステップは、前記複数の中間調画像を重ね合わせるステップと、重ね合わされた中間調画像を足し合わせる加算ステップ
と、前記加算ステップの結果をしきい値処理するステップと
からなることを特徴とする請求項１５の方法。
【請求項１７】前記第１および第２の平滑化は輪郭平
滑化を使用することを特徴とする請求項１５の方法。
【請求項１８】前記第２平滑化ステップはラジアンあ
たり可変量単位の面積を前記単一画像に付加するステッ
プを含むことを特徴とする請求項１５の方法。
【請求項１９】前記画像ソースは印刷された文書であ
ることを特徴とする請求項１、７または１５の方法。
【請求項２０】前記分類ステップは、前記もとのシン
ボルの近似を用いて複数の劣化画像を生成するステップ
を含むことを特徴とする請求項１５の方法。
【請求項２１】複数の劣化画像のうちの少なくとも１
つが導出されるもとになったもとのシンボルの近似を使
用する画像認識方法において、複数の劣化画像に第１の平滑化を適用することによって
複数の平滑化画像を生成するステップと、前記複数の平滑化画像から複数の中間調画像を生成する
ステップと、前記複数の中間調画像から単一画像を生成する単一画像
生成ステップと、前記単一画像に第２の平滑化を適用して、前記もとのシ
ンボルの近似を生成するステップと、前記もとのシンボルの近似を画像分類器に入力して前記
複数の劣化画像を分類するステップとからなることを特
徴とする画像認識方法。
【請求項２２】前記単一画像生成ステップは、前記複数の中間調画像を重ね合わせるステップと、重ね合わされた中間調画像を足し合わせる加算ステップ
と、前記加算ステップの結果をダークネスレベルの関数とし
てしきい値処理するステップとからなることを特徴とす
る請求項２１の方法。
【請求項２３】前記第２平滑化ステップはラジアンあ
たり可変量単位の面積を前記単一画像に付加するステッ
プを含むことを特徴とする請求項２２の方法。
【請求項２４】前記第１および第２の平滑化は輪郭平
滑化を使用することを特徴とする請求項２２の方法。
【請求項２５】光学的文字認識装置において、画像ソースから、同じもとのシンボルから導出されてい
ることに基づいて複数の欠陥画像を選択する選択器と、前記もとのシンボルの近似を生成する画像近似生成器
と、前記もとのシンボルの近似を用いて前記複数の欠陥画像
を分類する画像分類器とからなることを特徴とする光学
的文字認識装置。
【請求項２６】前記画像近似生成器は、複数の平滑化画像を生成する第１プロセッサと、前記複数の平滑化画像から複数の中間調画像を生成する
中間調画像生成器と、前記複数の中間調画像から単一画像を生成し、該単一画
像に第２の平滑化を適用する第２プロセッサとからなる
ことを特徴とする請求項２５の装置。
【請求項２７】前記画像分類器は、前記もとのシンボ
ルの近似を用いて複数の劣化画像を生成することを特徴
とする請求項２５の装置。
【請求項２８】前記第２の平滑化は、ラジアンあたり
可変量単位の面積を前記単一画像に付加することを含む
ことを特徴とする請求項２６の装置。
【請求項２９】前記第１および第２の平滑化は輪郭平
滑化を使用することを特徴とする請求項２６の装置。
【請求項３０】文書中に含まれる複数の文字を分類す
る方法において、同じもとのシンボルから導出されていることに基づいて
複数の特定文字を選択するステップと、前記複数の特定文字から前記もとのシンボルの近似を生
成する近似生成ステップと、前記もとのシンボルの近似を画像分類器に入力して前記
複数の文字を分類するステップとからなることを特徴と
する、文書中に含まれる複数の文字を分類する方法。
【請求項３１】前記近似生成ステップは、前記複数の特定文字に第１の平滑化を適用することによ
って複数の平滑化文字を生成するステップと、前記複数の平滑化文字から複数の中間調文字を生成する
ステップと、前記複数の中間調文字から単一文字を生成する単一文字
生成ステップと、前記単一文字に第２の平滑化を適用する第２平滑化ステ
ップとからなることを特徴とする請求項３０の方法。
【請求項３２】前記単一文字生成ステップは、前記複数の中間調文字を重ね合わせるステップと、重ね合わされた中間調文字を足し合わせる加算ステップ
と、前記加算ステップの結果をダークネスレベルの関数とし
てしきい値処理するステップとからなることを特徴とす
る請求項３１の方法。