JPH1031717A - 画像認識方法 - Google Patents

画像認識方法

Info

Publication number
JPH1031717A
JPH1031717A JP9087835A JP8783597A JPH1031717A JP H1031717 A JPH1031717 A JP H1031717A JP 9087835 A JP9087835 A JP 9087835A JP 8783597 A JP8783597 A JP 8783597A JP H1031717 A JPH1031717 A JP H1031717A
Authority
JP
Japan
Prior art keywords
image
images
generating
approximation
smoothing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9087835A
Other languages
English (en)
Inventor
Henry Spalding Baird
スパルディング ベアード ヘンリー
John D Hobby
ディ.ホビー ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia of America Corp
Original Assignee
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lucent Technologies Inc filed Critical Lucent Technologies Inc
Publication of JPH1031717A publication Critical patent/JPH1031717A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/168Smoothing or thinning of the pattern; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

(57)【要約】 【課題】 複数の入力画像に対して有効で、画像劣化モ
デルあるいは画像歪みプロセスのパラメータが未知であ
る場合に、劣化した画像を認識する。 【解決手段】 単一の未知文字の劣化二値画像の集合
を、印刷された文書から選択する。選択された二値画像
は、平滑化し、中間調を付加することによって前処理さ
れる。次に、この中間調画像に画像平均化を適用する。
特に、結果として得られた中間調画像を重ね合わせ、強
度を足し合わせ、その結果にしきい値処理を適用して単
一の二値画像を生成する。その後、その単一の二値画像
の平滑化を行い、画像のもとのシンボルの近似の最終出
力を得る。この近似を画像分類器に入力して、文書分類
において用いる劣化画像の集合を生成することにより、
分類誤り率を低下させる。また、入力画像の鮮鋭化を考
慮に入れて、近似の精度を上げることも可能である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書画像処理に関
し、特に、画像ソース(例えば、印刷された文書)から
の画像の認識に関する。
【0002】
【従来の技術】自動文書画像処理の分野における基本的
な問題は、その画像を生成するために用いられたもとの
理想的なアートワークに比べて、画像欠陥、すなわち、
画像における欠損に関係している。画像欠陥の源にはさ
まざまなものがあり周知である。例えば、画像のソース
であったもとの印刷された文書(例えば紙文書)に欠陥
がある(例えば、紙に汚れのしみやしわがある場合、あ
るいは、欠陥のある印刷装置から印刷された場合)こと
がある。さらに、紙文書がスキャンされるときに、紙が
ねじれたままスキャナに挿入された結果、画像の歪みが
生じることがある。さらに、スキャンプロセスの光学系
自体が、例えば振動、画素センサ感度やノイズによる欠
陥を生じることがある。
【0003】上記の画像欠陥は、文書の自動処理に必要
な文字認識の精度のために、文書画像処理においては特
に問題となる。例えば、光学的文字認識(OCR)は、
画像処理システムの主要部分であることが多い。OCR
は、テキスト情報のページのグラフィカルなビットイメ
ージをテキストファイルに変換するプロセスである。こ
のテキストファイルはその後で例えばワードプロセッサ
のソフトウェアを用いて編集することができる。当業者
に周知のように、画像分類器は、画像のディジタル表現
を解析するために用いられるほとんどのOCRシステム
の主要な要素である。このようなOCRシステムの分類
器の精度は、入力画像の質がわずかに劣化しただけでも
大幅に低下する。従って、画像分類器の重要な性質は、
画像の劣化した表現においても次に正確に作用しその文
字を認識する能力である。
【0004】画像分類器が欠陥のある画像表現を処理す
る能力を改善する1つの既知の方法は、いわゆる学習
(トレーニング)によるものである。例えば、ある認識
アルゴリズムを用いて欠陥のある画像を認識するように
分類器をトレーニングするような自動学習が頻繁に用い
られる。このような学習の1つの方法は、文書画像劣化
モデルを使用するものである。H. Baird, "Document Im
age Defect Models andTheir Uses", Proc., IAPR 2nd
International Conference on Document Analysis and
Recognition, October 20-22, 1993、にはさまざまな文
書画像劣化モデルおよびその応用が検討され考察されて
いる。
【0005】このような文書画像劣化モデルは、単一の
理想的なプロトタイプ画像(例えば、機械印刷されたシ
ンボル)を読み取り、特定のモデルの劣化アルゴリズム
に従って、多数の擬似ランダムに劣化した画像を生成す
る。その後、これらの生成された劣化画像(すなわち、
画像における欠陥のあるシンボルの可能な表現の例)を
用いて、欠陥のあるシンボルを認識するために画像認識
プロセスで使用される分類器をトレーニングする。もち
ろん、この方法は、画像劣化モデル(すなわち、どのよ
うにしてもとの画像が劣化するかの予測)が、分類器に
対する劣化画像を生成するために既知であることを必要
とする。
【0006】もう1つの周知の画像処理法は、画像逆畳
込みである。これは、ぼけた出力画像(例えば、動いて
いる対象の動きによりぼけた写真)から入力画像を回復
する。(例えば、Y. Vardi et al., "From Image Deblu
rring to Optimal Investments: Maximum Likelihood S
olutions for Positive Linear Inverse Problems",Jou
rnal of the Royal Statistical Society, Series B, 5
5, No.3, pp.569-612, 1993、および、D. Lee et al.,
"Experiments with Maximum Likelihood Method for I
mage Motion Deblurring", Advances in Applied Stati
stics, VolumeII, pp.355-383, Abington, Carfax Pub.
Co., 1994参照。)古典的な画像逆畳込み法の2つの基
本事項は、いくつかの歪みプロセスについての事前知識
(すなわち、パターンがどのように歪みかは既知であ
る)と、単一画像に対する作用である。しかし、多くの
画像認識の場合に、このような歪みプロセスは未知であ
るか、あるいは、多くの画像が関係することがある。
【0007】
【発明が解決しようとする課題】従って、複数の入力画
像に対して有効で、画像劣化モデルあるいは画像歪みプ
ロセスのパラメータが未知である場合に、劣化した、あ
るいは、欠陥のある画像を認識する技術に対する需要が
ある。
【0008】
【課題を解決するための手段】本発明は、劣化した画像
の復元を用いて劣化画像のもとの理想的なアートワーク
の近似を生成することによって、画像認識に有用な方法
を提供する。実際には、従来の画像劣化法を逆にする。
すなわち、本発明によれば、画像(例えば、欠陥のあ
る、あるいは、劣化した画像)の集合を画像ソースから
読み取り、その画像が導出されるもとになった理想アー
トワーク(すなわち原画像)を回復(すなわち、良好に
近似)することをことを試みる。理想アートワークと
は、例えば、画像ソース(例えば、印刷された文書)の
生成に用いられたもとのシンボルである。次に、もとの
シンボルの近似を入力として、画像分類器をトレーニン
グすることにより、分類器の有効性を向上させる。例え
ば、分類器は、もとのシンボルの近似を劣化モデルへの
入力として使用して、文書分類において用いる劣化画像
の集合を生成することができる。このようにして、分類
器の有効性は、分類誤り率の低減を通じて改善される。
【0009】本発明の実施例によれば、単一の未知文字
の劣化二値画像の集合を画像ソース(例えば、印刷され
た文書)から選択する。選択された二値画像は、平滑化
し、グレイレベル(中間調)を付加することによって前
処理される。次に、この中間調画像に画像平均化を適用
する。特に、結果として得られた中間調画像を重ね合わ
せ、強度を足し合わせ、その結果にしきい値処理を適用
して単一の二値画像を生成する。その後、その単一の二
値画像の平滑化を行い、画像のもとのシンボル(すなわ
ち、画像ソースの生成に用いられたもとのシンボル)の
近似の最終出力を得る。上記のように、もとのアートワ
ークの近似は、例えば、画像分類器への入力として用い
ることが可能であり、さらなる画像分類および画像ソー
スの認識に有用である。
【0010】本発明の第2実施例は、入力画像の鋭い角
を考慮に入れるための入力画像の追加処理を含み、それ
により、もとのアートワークの有効な近似をさらに改善
する。
【0011】
【発明の実施の形態】本発明は、劣化した画像の復元を
用いて画像のもとの理想アートワークの近似を生成する
ことによって、画像認識に有用な方法を提供する。すな
わち、本発明によれば、画像(例えば、欠陥のある画
像)の集合を画像ソースから読み取り、その画像が導出
されるもとになった理想アートワーク(例えば、もとの
シンボル)を回復(すなわち、良好に近似)することを
ことを試みる。このもとのシンボルの近似を利用して、
画像分類器をトレーニングすることにより、分類器の有
効性を向上させる。例えば、分類器は、もとのシンボル
の近似を劣化モデルへの入力として使用して、文書分類
において用いる劣化画像の集合を生成することができ
る。図1に、本発明の原理を用いたOCRシステムを示
す。特に、OCRシステム2は、画像ソース5から入力
画像の集合(例えば、印刷された文字の集合)を選択す
るために使用される入力画像選択器4を有する。入力画
像の集合は、入力画像の理想アートワークの近似を生成
する画像復元近似器6への入力として使用される。画像
分類器8(例示的に、OCRエンジン11の一部として
示す。)は、理想アートワーク近似を用いて、もとの画
像ソースを分類する。その後、画像分類器8によってな
された分類はOCRエンジン11によって使用され、O
CRエンジン11は、周知の画像認識原理を画像ソース
5に適用して、周知のようにOCRシステム出力7を生
成する。
【0012】図2は、本発明の実施例の主な動作の流れ
図である。図3には、図2のプロセスを入力画像のサン
プル集合に適用した例を示す。本発明の説明をわかりや
すくするために、これらの2つの図についてまとめて以
下で説明する。
【0013】入力画像の集合を画像ソース(例えば、印
刷された文書からの文字のページ)から読み取る(ブロ
ック10)。本発明の方法は、例えば従来の画像逆畳込
み法のように単一の画像ではなく、多くの入力画像に対
して作用することができる。実施例によれば、選択され
る入力画像は二値(すなわち、黒または白であって、中
間調やカラーではない)であり、ページレイアウト解析
やマニュアル選択のような周知の方法によって画像ソー
スから読み取ることができる。さらに、入力画像の集合
は、その欠陥および劣化のためにOCRシステム(例え
ば、図1のOCRシステム2)が認識を実行するのが困
難なソースからの画像を表す。実施例によれば、劣化入
力画像の集合は、その集合が、単一のシンボル(すなわ
ち、同じシンボル)を表すと考えられるソースからの画
像を捕捉するように収集される。例えば、図3は、印刷
された文字「A」を表す例示的な入力文字集合20を示
す。
【0014】重要なことであるが、入力画像の集合に、
ある前処理を適用することによって、以下で説明するよ
うな大幅に改善された画像認識が達成される。本発明に
よれば、入力画像の集合は、以下で説明するような本発
明の方法のいわゆる「画像平均化」操作を適用する前
に、前処理(ブロック12)を受ける。好ましい前処理
操作には、最低限、入力画像の平滑化と、平滑化された
画像への中間調の付加が含まれる。本発明の実施例によ
れば、輪郭平滑化法を用いると優れた結果が得られる。
【0015】特に、実施例は、J. D. Hobby, "Polygona
l Approximation that Minimize the Number of Inflec
tion", Proceedings of the Fourth Annual ACM-SIAM S
ymposium on Discrete Algorithms, pp.93-102, Januar
y, 1993に記載された輪郭平滑化法(以下、「Hobbyの平
滑化アルゴリズム」という。)を用いる。前処理操作
(ブロック12)中にHobbyの平滑化アルゴリズムを適
用することによって、特定の入力に対するある範囲の代
替輪郭が生成される。この範囲の代替輪郭は、入力画像
のもとになる形状の改善された評価を提供し、それによ
り、実施例の認識の有効性が改善される。さらに、本発
明による入力画像の集合の前処理の平滑化結果は、Hobb
yの平滑化アルゴリズムで許容誤差をε=1/3とする
ことにより改善される。
【0016】上記の平滑化操作に加えて、入力画像の前
処理(ブロック12)は、結果として得られる平滑化画
像に中間調を付加して、後続の処理のための中間調画像
の集合を生成することも含む。中間調は、Hobbyの平滑
化アルゴリズムによって生成される輪郭の範囲を最大限
に利用するようにさまざまなレベルで付加される。前処
理操作(ブロック12)を例示的な入力文字集合20に
適用した結果を、図3の中間調画像22に示す。
【0017】前処理操作(ブロック12)が完了した
後、実施例によれば、中間調画像22は、一連の操作
(以下、まとめて「画像平均化」という。)を受ける
(ブロック14)。画像平均化には、主に3つの操作の
適用が含まれる。それらの操作は、(1)入力の重ね合
わせ、(2)入力の加算、および(3)しきい値処理、
である。前処理によって生成された中間調画像22は、
周知の方法を用いて重ね合わされる。例えば、実施例で
は、サブピクセル(1画素未満)の精度で各入力画像の
重心を求め、すべての重心が一致するように画像をシフ
トすることによって画像を重ね合わせる。
【0018】中間調画像22を重ね合わせた後、画像を
足し合わせて、累積したグレイスケール値を有する単一
の中間調画像を生成する。実施例によれば、入力の加算
としきい値処理の画像平均化操作は以下のように実行さ
れる。
【0019】(1)jを1に初期化する。
【0020】(2)Hobbyの平滑化アルゴリズムをj番
目の輪郭に適用して、i=0,1,2,...,njに対し
て、PiL=(XiL,YiL)およびPiR=(XiR,YiR
を得る。
【0021】(3)各iに対して、P^iL=σPiLおよ
びP^iR=σPiRとする。スケール因子σは、画像平均
化からの出力の解像度を制御するために用いられる(例
えば、σの値が大きいと、出力の解像度が増大する)。
その後、iを1に初期化する。
【0022】(4)四辺形P^i-1,RP^iRP^iLP^
i-1,Lが直線y=y^と交わるようなすべての整数y^
を求め、交点(x′,y^)と(x″,y^)の各対に
対してステップ(5)を実行する。
【0023】(5)P^i-1,LおよびP^iLにおけるダ
ークネスを1とし、P^i-1,RおよびP^iRにおけるダ
ークネスを0とし、その間で線形に変化させることによ
って、(x′,y^)および(x″,y^)に対するダ
ークネス値d′およびd″を計算する。そして、3つ組
【数1】 を保存する。
【0024】(6)i<njの場合、iをインクリメン
トしてステップ(4)に戻る。
【0025】(7)さらに輪郭がある場合、jをインク
リメントしてステップ(2)に戻る。
【0026】(8)y=y^となるような3つ組がある
各y^に対して、全ダークネスDおよびダークネスの変
化率ΔDを維持したまま、3つ組をxでソートして順に
走査する。Tを、ダークネスしきい値の規定のレベル
(例えば、あるグレイレベル)として、全ダークネスが
しきい値Tと交差するごとに、点(x,y^)を出力す
る。
【0027】基本的に、上記の操作は、平滑化アルゴリ
ズムによって生成された各多角形輪郭をラスタ化し、そ
の結果得られる画像を足し合わせ、その結果をしきい値
処理してしきい値処理された画像24を生成する(図3
参照)。特に、実施例によれば、Hobbyの平滑化アルゴ
リズムによって生成される平滑な陰影のある(スムーズ
シェーディングによる)エッジ(辺)を利用するため
に、より高い解像度で画像をラスタ化し、ラスタ画像を
足し合わせることによって一般化がなされる。例えば、
画像(スムーズシェーディングによるエッジを有する)
を通る水平走査線を考える。ダークネスは走査線に沿っ
てx座標の区分的線形関数となり、傾きは走査線が四辺
形の境界と交わる点で不連続となる。例えば、図4に、
スムーズシェーディング画像の一部28、それを規定す
る四辺形30、および、破線の走査線34に沿った相対
ダークネス32を示す。
【0028】実施例によれば、四辺形は、ダークネス値
がダークネス自体の変化ではなくダークネス関数の傾き
の変化を表すように、(x,y,d)3つ組(上記のス
テップ(5)参照)にラスタ化される。(x,y,d)
3つ組に対する全ダークネス関数は、特定の走査線に関
して再生される(上記のステップ(8)参照)。さら
に、ΔD(上記のステップ(8)参照)の累積誤差を避
けるために、各3つ組の第3成分が固定小数点数値とし
て保存される。しかし、全ダークネスDには若干の累積
誤差が生じることもあるが、この誤差は、生成される四
辺形(上記のステップ(8)参照)が水平方向に大きい
ときには部分的に軽減される。これは、水平方向に大き
い四辺形のほうがダークネスの変化率ΔDが0に等しく
なりやすいことが知られているためである。このような
場合には、加算およびしきい値処理の操作のステップ
(5)で生成される3つ組においてd′=d″となる。
【0029】さらに、上記の画像平均化操作によって生
成されたしきい値処理画像24に後処理を適用すること
により、画像復元出力26が改善される。既に説明した
ように、画像復元出力26は、画像ソースの原画像の生
成に用いられた理想シンボルの近似である。本発明によ
れば、しきい値処理画像は、追加の平滑化操作を用いて
後処理される(図2のブロック16参照)。実施例で
は、後処理の平滑化もまた、J. D. Hobbyの前掲文献に
記載された平滑化法に従って実行される。後処理操作
(ブロック16)中にHobbyの平滑化アルゴリズムを適
用することによって、もとになる画像のぶれやノイズか
ら影響を受けることのない、より実際的な画像復元出力
26が生成される。例えば、図3を参照すると、画像復
元出力26から分かるように、後処理操作によって、し
きい値処理画像24のゆれ21が除去されている。さら
に、実施例によれば、後処理平滑化で用いられる許容誤
差εは、スケール因子σと、平均化される画像の総数の
関数である。
【0030】本発明の第2実施例は、画像処理分野で周
知の「まるみを帯びた」角の生成を考慮に入れる。場合
によっては(例えば、もとになる形状がいわゆる「鋭い
角」を有する場合)、このようなまるみを帯びた角は何
らかの不正確さを生じる。鋭い角およびこれに関連する
影響については、J. D. Hobby et al., "Degraded Char
acter Image Restoration", Proceedings of the Fifth
Annual Symposium onDocument Analysis and Image Re
trieval, pp.233-245, 1996にさらに詳細に記載されて
いる。鋭い角の問題は、本発明の第2実施例において、
以下の操作に従って、ラジアンあたりγ単位の面積を加
えることによって対処される。
【0031】(9)γ′=γ/20とする。ステップ1
0〜14を少なくとも20回繰り返す。
【0032】(10)多角形の各辺に対して、シフト量
i=γ′(θi+φi)/(2li)を計算する。ただ
し、liは辺の長さであり、θiおよびφiは両端の頂点
における角である。
【0033】(11)各辺に対して、辺を右に垂直にs
i単位だけシフトすることによって得られる直線Liを求
める。
【0034】(12)各頂点viに対して、viで交わる
辺に対するLiとLjの交点v′iを求める。これは、も
との多角形の辺と平行な辺を有する新しい多角形を形成
する。
【0035】(13)新しい多角形の辺のうち、対応す
るもとの多角形の辺の向きと逆の向きを有する各辺に対
して、その辺を、その辺の両端の辺に対するLiとLj
交わる一点につぶす。
【0036】(14)すべての辺の向きが一致するまで
ステップ13を繰り返した後、もとの多角形を新しい多
角形に更新する。
【0037】このようにして、鋭い角を考慮に入れるた
めの後処理により、本発明によって生成されるもとの画
像の理想アートワークの近似がさらに改善される。
【0038】次に、本発明の作用効果を例示するため
に、OCRの場合に本発明の実際の応用についてさらに
説明する。入力として、もともとタイプライタで印字さ
れた後、写真オフセット印刷されたと考えられるテキス
ト(50個のパズル暗号の集まりからとったもの)を選
択した。OCRテストをさらに意味のあるものとするた
めに、選択した入力テキストはさまざまな質を有し、か
なりの数の質の悪いテキストも含んでいた。入力テキス
トは、単語間スペースを含めて23,684個の文字を
含んでいた。入力テキスト34の一部を拡大したものを
図5に示す。全入力テキストを2段階で処理した。第1
段階の画像処理は本発明の原理を全く含まないものであ
った。
【0039】第1段階において、20個の固定ピッチ書
体でトレーニングした分類器を用いた実験的ページリー
ダを使用した。第1段階の画像処理のその他の属性は、
それぞれ当業者には十分に理解されるものであるが、ペ
ージレイアウト、固定ピッチ処理、文字分類、形状セグ
メント化、および、粗コンテクストフィルタリングを含
む。文字列の対(T,E)(ただし、Tは真の文字列で
あり、Eはページリーダによって誤って置換された文字
列である。)を半マニュアル的に識別することによっ
て、第1段階における「分類誤差」を測定した。Tまた
はEはスペースを含んでもよく、空でもよい。各(T,
E)の対は、TとEが全く文字を共有しないという意味
で極小である。さらに、全体的な方針として、各対から
誤差カウントへの寄与は、TとEの長さのうちの最大値
が10を超えない限りその最大値であり、その最大値が
10を超える場合には無視する(すなわち、強制的に0
にする)という方針を採用した。この採用した方針の基
礎は、(T,E)の対は、分類の誤りというよりもレイ
アウトから生じるという仮定に由来する。
【0040】第1段階で用いた上記の画像処理の結果、
全分類誤差は1706となり、これは、文字の7.2%
という名目誤り率を表す。このような第1段階の結果
は、以下で説明する本発明の画像復元および認識の原理
によるものとの比較に用いることができる。
【0041】第2段階において、既に詳細に説明した本
発明の操作を適用することによって、第1段階の誤り率
の結果を改善した。入力文字画像(第1段階で入力とし
て用いたものと同じ集合)を、トップ選択文字ラベルで
ソートした。当業者には理解されるように、トップ選択
ラベルとは、例えば百分率による、入力文字画像の最も
確からしい解釈(例えば、その画像は90%の確率で文
字「I」である。)のことである。例として、図6に、
文字「I」とラベルされた全部で1009個のうちから
トップ選択ラベルによって選択した拡大画像36の集合
を示す。図6から明らかなように、いくつかの画像は誤
ってラベルされている(すなわち、文字「I」ではな
い)か、あるいは、文字の弧セグメントである。次に、
各文字ラベルに対して、そのラベルのすべての画像を本
発明の原理に従って処理した。本発明を適用した結果の
出力は、大文字アルファベットおよび数字からなるシン
ボルであった。本発明の方法によって生成された出力文
字画像38を図7に示す。既に説明したように、出力文
字画像38は、もとの入力テキストが生成されるもとに
なった理想アートワークの近似表現(例えばシンボル)
である。
【0042】本発明によって生成される出力文字画像3
8は、入力テキストが分類の観点からどのように見える
ことになるかを表す、劣化画像の集合を生成するための
擬似ランダム生成器への入力として使用することができ
る。特に、本発明の発明者は、「理想アートワーク」集
合の各シンボルを用いて、劣化画像の集合(各入力文字
画像ごとに150個)を生成した。例として、文字
「I」について生成された理想シンボル近似(図7)を
用いて、この文字の可能な劣化パターンを表す劣化画像
40(図8)を生成した。
【0043】理想アートワーク近似を用いて生成された
劣化画像の集合全体を使用して、画像ソースの入力テキ
ストを分類するために用いられることになる分類器をト
レーニングした。重要なことであるが、本発明を適用し
た結果、分類誤り率は20%低減して誤りの総数は13
76となり、これは5.8%という名目分類誤り率を表
す。
【0044】
【発明の効果】以上述べたごとく、本発明によれば、複
数の入力画像に対して有効で、画像劣化モデルあるいは
画像歪みプロセスのパラメータが未知である場合に、劣
化した、あるいは、欠陥のある画像を効率的に認識する
ことが可能となる。特に、本発明によれば、画像分類器
は、もとのシンボルの近似を劣化モデルへの入力として
使用して、文書分類において用いる劣化画像の集合を生
成することができる。このようにして、分類器の有効性
は、分類誤り率の低減を通じて改善される。
【図面の簡単な説明】
【図1】本発明の画像復元プロセスを用いたOCRシス
テムの図である。
【図2】本発明の画像復元プロセスの実施例の流れ図で
ある。
【図3】入力画像のサンプルに図2のプロセスを適用し
た例の図である。
【図4】図2の例示的な平滑化作用によって生成される
スムーズシェーディングによる画像部分の例の図であ
る。
【図5】本発明のプロセスを試験するための入力として
用いられる全テキストの拡大部分の図である。
【図6】図5の全入力テキストから選択された特定の拡
大画像の集合の図である。
【図7】本発明によって生成される理想アートワーク画
像近似の図である。
【図8】図7の理想アートワーク画像近似を用いて生成
される劣化画像のサンプルの図である。
【符号の説明】
2 OCRシステム 4 入力画像選択器 5 画像ソース 6 画像復元近似器 7 OCRシステム出力 8 画像分類器 11 OCRエンジン 20 入力文字集合 21 ゆれ 22 中間調画像 24 しきい値処理画像 26 画像復元出力 28 スムーズシェーディング画像 30 四辺形 32 相対ダークネス 34 走査線 35 入力テキスト 36 拡大画像 38 出力文字画像 40 劣化画像
───────────────────────────────────────────────────── フロントページの続き (71)出願人 596077259 600 Mountain Avenue, Murray Hill, New Je rsey 07974−0636U.S.A. (72)発明者 ジョン ディ.ホビー アメリカ合衆国、08854 ニュージャージ ー、ピスカタウェイ、ディビス アベニュ ー 270

Claims (32)

    【特許請求の範囲】
  1. 【請求項1】 画像認識に用いる方法において、 画像ソースからの複数の画像のうちから、同じもとのシ
    ンボルから導出されていることに基づいて特定画像を選
    択するステップと、 選択された特定画像からもとのシンボルの近似を生成す
    る近似生成ステップと、 前記もとのシンボルの近似を画像分類器に入力して前記
    画像ソースの複数の画像を分類する分類ステップとから
    なることを特徴とする、画像認識に用いる方法。
  2. 【請求項2】 前記近似生成ステップは、 前記選択された特定画像に第1の平滑化を適用すること
    によって複数の平滑化画像を生成するステップと、 前記複数の平滑化画像から複数の中間調画像を生成する
    ステップと、 前記複数の中間調画像から単一画像を生成する単一画像
    生成ステップと、 前記単一画像に第2の平滑化を適用する第2平滑化ステ
    ップとからなることを特徴とする請求項1の方法。
  3. 【請求項3】 前記単一画像生成ステップは、 前記複数の中間調画像を重ね合わせるステップと、 重ね合わされた中間調画像を足し合わせる加算ステップ
    と、 前記加算ステップの結果をダークネスレベルの関数とし
    てしきい値処理するステップとからなることを特徴とす
    る請求項2の方法。
  4. 【請求項4】 前記第2平滑化ステップはラジアンあた
    り可変量単位の面積を前記単一画像に付加するステップ
    を含むことを特徴とする請求項2の方法。
  5. 【請求項5】 前記第1および第2の平滑化は輪郭平滑
    化を使用することを特徴とする請求項2の方法。
  6. 【請求項6】 前記分類ステップは、前記画像分類器に
    おいて前記もとのシンボルの近似を用いて複数の劣化画
    像を生成するステップを含むことを特徴とする請求項1
    の方法。
  7. 【請求項7】 画像認識に用いる方法において、 画像ソースから複数の画像を選択するステップと、 選択された複数の画像に第1の平滑化を適用することに
    よって複数の平滑化画像を生成するステップと、 前記複数の平滑化画像から複数の中間調画像を生成する
    中間調画像生成ステップと、 前記複数の中間調画像から単一画像を生成する単一画像
    生成ステップと、 前記単一画像に第2の平滑化を適用して、前記画像ソー
    スの生成に用いられたもとのシンボルの近似を生成する
    ステップと、 前記もとのシンボルの近似を画像分類器に入力して前記
    複数の画像を分類するステップとからなることを特徴と
    する、画像認識に用いる方法。
  8. 【請求項8】 前記単一画像生成ステップは、 前記複数の中間調画像を重ね合わせる重ね合わせステッ
    プと、 重ね合わされた中間調画像を足し合わせる加算ステップ
    と、 前記加算ステップの結果をダークネスレベルの関数とし
    てしきい値処理するステップとからなることを特徴とす
    る請求項7の方法。
  9. 【請求項9】 前記第1および第2の平滑化は輪郭平滑
    化を使用することを特徴とする請求項7の方法。
  10. 【請求項10】 前記第2平滑化ステップはラジアンあ
    たり可変量単位の面積を前記単一画像に付加するステッ
    プを含むことを特徴とする請求項9の方法。
  11. 【請求項11】 前記中間調画像生成ステップは、可変
    度合いでグレイスケールを前記複数の平滑化画像に付加
    するステップを含むことを特徴とする請求項9の方法。
  12. 【請求項12】 前記重ね合わせステップは、 各中間調画像の重心を求めるステップと、 重心が一致するように中間調画像をシフトするステップ
    とからなることを特徴とする請求項8の方法。
  13. 【請求項13】 前記画像分類器が前記もとのシンボル
    の近似を用いて複数の劣化画像を生成することを特徴と
    する請求項7の方法。
  14. 【請求項14】 前記単一画像生成ステップは、前記単
    一画像の解像度を制御するスケール因子を適用すること
    を特徴とする請求項9の方法。
  15. 【請求項15】 画像分類器をトレーニングする方法に
    おいて、 複数の選択された画像に第1の平滑化を適用することに
    よって複数の平滑化画像を生成するステップと、 前記複数の平滑化画像から複数の中間調画像を生成する
    ステップと、 前記複数の中間調画像から単一画像を生成するステップ
    と、 前記単一画像に第2の平滑化を適用して、前記複数の選
    択された画像が導出されるもとになった画像を表す、も
    とのシンボルの近似を生成するステップと、 前記画像分類器において前記もとのシンボルの近似を用
    いて画像ソースからの複数の欠陥画像を分類する分類ス
    テップとからなることを特徴とする、画像分類器をトレ
    ーニングする方法。
  16. 【請求項16】 前記単一画像生成ステップは、 前記複数の中間調画像を重ね合わせるステップと、 重ね合わされた中間調画像を足し合わせる加算ステップ
    と、 前記加算ステップの結果をしきい値処理するステップと
    からなることを特徴とする請求項15の方法。
  17. 【請求項17】 前記第1および第2の平滑化は輪郭平
    滑化を使用することを特徴とする請求項15の方法。
  18. 【請求項18】 前記第2平滑化ステップはラジアンあ
    たり可変量単位の面積を前記単一画像に付加するステッ
    プを含むことを特徴とする請求項15の方法。
  19. 【請求項19】 前記画像ソースは印刷された文書であ
    ることを特徴とする請求項1、7または15の方法。
  20. 【請求項20】 前記分類ステップは、前記もとのシン
    ボルの近似を用いて複数の劣化画像を生成するステップ
    を含むことを特徴とする請求項15の方法。
  21. 【請求項21】 複数の劣化画像のうちの少なくとも1
    つが導出されるもとになったもとのシンボルの近似を使
    用する画像認識方法において、 複数の劣化画像に第1の平滑化を適用することによって
    複数の平滑化画像を生成するステップと、 前記複数の平滑化画像から複数の中間調画像を生成する
    ステップと、 前記複数の中間調画像から単一画像を生成する単一画像
    生成ステップと、 前記単一画像に第2の平滑化を適用して、前記もとのシ
    ンボルの近似を生成するステップと、 前記もとのシンボルの近似を画像分類器に入力して前記
    複数の劣化画像を分類するステップとからなることを特
    徴とする画像認識方法。
  22. 【請求項22】 前記単一画像生成ステップは、 前記複数の中間調画像を重ね合わせるステップと、 重ね合わされた中間調画像を足し合わせる加算ステップ
    と、 前記加算ステップの結果をダークネスレベルの関数とし
    てしきい値処理するステップとからなることを特徴とす
    る請求項21の方法。
  23. 【請求項23】 前記第2平滑化ステップはラジアンあ
    たり可変量単位の面積を前記単一画像に付加するステッ
    プを含むことを特徴とする請求項22の方法。
  24. 【請求項24】 前記第1および第2の平滑化は輪郭平
    滑化を使用することを特徴とする請求項22の方法。
  25. 【請求項25】 光学的文字認識装置において、 画像ソースから、同じもとのシンボルから導出されてい
    ることに基づいて複数の欠陥画像を選択する選択器と、 前記もとのシンボルの近似を生成する画像近似生成器
    と、 前記もとのシンボルの近似を用いて前記複数の欠陥画像
    を分類する画像分類器とからなることを特徴とする光学
    的文字認識装置。
  26. 【請求項26】 前記画像近似生成器は、 複数の平滑化画像を生成する第1プロセッサと、 前記複数の平滑化画像から複数の中間調画像を生成する
    中間調画像生成器と、 前記複数の中間調画像から単一画像を生成し、該単一画
    像に第2の平滑化を適用する第2プロセッサとからなる
    ことを特徴とする請求項25の装置。
  27. 【請求項27】 前記画像分類器は、前記もとのシンボ
    ルの近似を用いて複数の劣化画像を生成することを特徴
    とする請求項25の装置。
  28. 【請求項28】 前記第2の平滑化は、ラジアンあたり
    可変量単位の面積を前記単一画像に付加することを含む
    ことを特徴とする請求項26の装置。
  29. 【請求項29】 前記第1および第2の平滑化は輪郭平
    滑化を使用することを特徴とする請求項26の装置。
  30. 【請求項30】 文書中に含まれる複数の文字を分類す
    る方法において、 同じもとのシンボルから導出されていることに基づいて
    複数の特定文字を選択するステップと、 前記複数の特定文字から前記もとのシンボルの近似を生
    成する近似生成ステップと、 前記もとのシンボルの近似を画像分類器に入力して前記
    複数の文字を分類するステップとからなることを特徴と
    する、文書中に含まれる複数の文字を分類する方法。
  31. 【請求項31】 前記近似生成ステップは、 前記複数の特定文字に第1の平滑化を適用することによ
    って複数の平滑化文字を生成するステップと、 前記複数の平滑化文字から複数の中間調文字を生成する
    ステップと、 前記複数の中間調文字から単一文字を生成する単一文字
    生成ステップと、 前記単一文字に第2の平滑化を適用する第2平滑化ステ
    ップとからなることを特徴とする請求項30の方法。
  32. 【請求項32】 前記単一文字生成ステップは、 前記複数の中間調文字を重ね合わせるステップと、 重ね合わされた中間調文字を足し合わせる加算ステップ
    と、 前記加算ステップの結果をダークネスレベルの関数とし
    てしきい値処理するステップとからなることを特徴とす
    る請求項31の方法。
JP9087835A 1996-04-05 1997-04-07 画像認識方法 Pending JPH1031717A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US1494896P 1996-04-05 1996-04-05
US014948 1996-04-05

Publications (1)

Publication Number Publication Date
JPH1031717A true JPH1031717A (ja) 1998-02-03

Family

ID=21768723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9087835A Pending JPH1031717A (ja) 1996-04-05 1997-04-07 画像認識方法

Country Status (3)

Country Link
EP (1) EP0800147A3 (ja)
JP (1) JPH1031717A (ja)
CA (1) CA2201557A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007221794A (ja) * 2006-02-16 2007-08-30 Adobe Systems Inc 低解像度のグリフ・イメージから高忠実度のグリフ・プロトタイプを作成するための方法および装置
KR100765749B1 (ko) 2005-04-26 2007-10-15 삼성전자주식회사 이진영상 압축장치 및 방법
CN100377171C (zh) * 2004-08-13 2008-03-26 富士通株式会社 生成劣化字符图像的方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4944022A (en) * 1986-12-19 1990-07-24 Ricoh Company, Ltd. Method of creating dictionary for character recognition
US5796410A (en) * 1990-06-12 1998-08-18 Lucent Technologies Inc. Generation and use of defective images in image analysis
US5121441A (en) * 1990-09-21 1992-06-09 International Business Machines Corporation Robust prototype establishment in an on-line handwriting recognition system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100377171C (zh) * 2004-08-13 2008-03-26 富士通株式会社 生成劣化字符图像的方法和装置
KR100765749B1 (ko) 2005-04-26 2007-10-15 삼성전자주식회사 이진영상 압축장치 및 방법
US7355529B2 (en) 2005-04-26 2008-04-08 Samsung Electronics Co., Ltd. Binary image compression apparatus and method
JP2007221794A (ja) * 2006-02-16 2007-08-30 Adobe Systems Inc 低解像度のグリフ・イメージから高忠実度のグリフ・プロトタイプを作成するための方法および装置

Also Published As

Publication number Publication date
EP0800147A3 (en) 1998-07-01
CA2201557A1 (en) 1997-10-05
EP0800147A2 (en) 1997-10-08

Similar Documents

Publication Publication Date Title
US7292375B2 (en) Method and apparatus for color image processing, and a computer product
Trier et al. Evaluation of binarization methods for document images
EP2288135B1 (en) Deblurring and supervised adaptive thresholding for print-and-scan document image evaluation
US6807304B2 (en) Feature recognition using loose gray scale template matching
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
US7480408B2 (en) Degraded dictionary generation method and apparatus
US8331706B2 (en) Compression of digital images of scanned documents
US6411733B1 (en) Method and apparatus for separating document image object types
CN111401372A (zh) 一种扫描文档图文信息提取与鉴别的方法
JPH05314315A (ja) 光学文字認識用画像データ処理方法
Jackel et al. An application of neural net chips: Handwritten digit recognition
JPH0773329A (ja) 画像処理方法および装置
JPH05225388A (ja) 画像処理方法及びその装置と、文字認識方法及びその装置と、統合オフィスオートメーション機器
EP0461793A2 (en) Method for image analysis
JPH0863546A (ja) 情報抽出方法および画像修復方法並びに画像修復システム
US6501565B1 (en) Method and apparatus for smoothing text outlines
US5768414A (en) Separation of touching characters in optical character recognition
JPH07322057A (ja) 2進入力画像の解像度の増大方法及びその増大装置、ならびに2進入力画像の外観の改良方法
JPH1031717A (ja) 画像認識方法
JP2700131B2 (ja) パターン認識方法
Konya et al. Adaptive methods for robust document image understanding
JPH08272902A (ja) 異字体異品質文字の認識方法
JP3454626B2 (ja) 大分類方法
JP2613211B2 (ja) 画像入力装置
CN114220105A (zh) 基于生成对抗网络的老旧图纸修复方法