JP3217601B2 - 文書画像の修復方法 - Google Patents

文書画像の修復方法

Info

Publication number
JP3217601B2
JP3217601B2 JP18474194A JP18474194A JP3217601B2 JP 3217601 B2 JP3217601 B2 JP 3217601B2 JP 18474194 A JP18474194 A JP 18474194A JP 18474194 A JP18474194 A JP 18474194A JP 3217601 B2 JP3217601 B2 JP 3217601B2
Authority
JP
Japan
Prior art keywords
pattern
similar
character
image
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP18474194A
Other languages
English (en)
Other versions
JPH0850630A (ja
Inventor
高志 齋藤
和典 高津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP18474194A priority Critical patent/JP3217601B2/ja
Publication of JPH0850630A publication Critical patent/JPH0850630A/ja
Application granted granted Critical
Publication of JP3217601B2 publication Critical patent/JP3217601B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Controls And Circuits For Display Device (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、スキャナなどによって
読み込まれた文書画像をきれいに修復して出力する文書
画像の修復方法に関する。
【0002】
【従来の技術】従来の画像修復方法は、ノイズや画像の
ボケについてのモデルを想定し、そのパラメータを最適
化することにより行っていた。例えば、別冊 O plu
s E(1986年11月第3章「画像復元」pp.3
3−pp.50)には、ボケ画像の復元方法が記載され
ている。他の例として、雑音の分散が最小になるよう
に、復元処理を反復することにより、雑音だけを除去し
て画像の特徴を保存するように画像を修復する画像復元
方法がある(特開平1−113879号公報を参照)。
【0003】上記文献に記載の画像復元方法について簡
単に説明すると、復元処理が施される情報としては、原
画像fが劣化過程hを経て劣化した劣化画像gであると
する。ボケやノイズによって画像が劣化するとき、その
劣化過程を次のような式によってモデル化することがで
きる。
【0004】g(x,y)=∬h(x,y,x’,
y’)・f(x’,y’)dx’dy’+n(x,y) 劣化関数hに場所依存性がない場合は、フーリエ変換領
域で簡単に表すことができ、 G(u,v)=H(u,v)・F(u,v)+N(u,
v) となる。ここで、gは劣化画像、hは劣化関数、fは原
画像、nはランダムノイズを表し、G、H、F、Nはそ
れぞれg、h、f、nのフーリエ変換を表す。ノイズが
なくH≠0の場合には、 F(u,v)=G(u,v)/H(u,v) を計算し、逆フーリエ変換を行えば完全な画像復元が得
られる。この画像復元を逆フィルタという。
【0005】
【発明が解決しようとする課題】上記した従来の方法
は、画像全体に一様に処理がなされるため(各点の値で
処理を変更する方式もあるが、基本的には画像に対して
一様)、ボケた多値画像(写真など)の復元・鮮鋭化に
対しては一定の効果がある。
【0006】しかしながら、2値の文書画像を対象とし
た場合は、文字の欠け・つぶれが一番の問題であり、上
記した方法では文字の欠け・つぶれに対応できない。ま
た、画像の劣化が局所的な場合や、劣化関数が未知でそ
のモデルが分からない場合は画像の復元が困難であると
いう問題があった。
【0007】ところで、フォントの違いやサイズの違い
を別にすれば、印刷文書においては同一の文字は原稿上
では同一のパターンとなる。従って、量子化誤差、つぶ
れ、かすれなどの画像劣化による変動があるものの、同
じ文字は類似したパターンの画像となる。従って、ある
パターンが画像劣化によって標準パターンから大きくは
ずれていても、その類似パターンは比較的標準パターン
に近い可能性がある。本発明は、上記した性質を利用す
るものであって、本発明の目的は、同一文字として印字
された部位を検出し、その画情報から、よりきれいな文
字画像を得るものであり、画像の劣化が局所的であった
り、劣化モデルが不明でも、精度よく文書画像を修復す
る文書画像の修復方法を提供することにある。
【0008】
【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、文書画像から文字パター
ンを切り出し、該切り出された文字パターンの系列にお
いてパターンイメージが類似していて、同一の文字と判
断される類似パターンを抽出し、該抽出された類似パタ
ーンの集合について輪郭の滑らかさを評価し、最も評価
の高いパターンを代表パターンとして決定し、前記各類
似パターンを前記代表パターンで置き換えることを特徴
としている。
【0009】請求項2記載の発明では、文書画像から文
字パターンを切り出し、該切り出された文字パターンの
系列においてパターンイメージが類似していて、同一の
文字と判断される類似パターンを抽出し、該抽出された
類似パターンの集合である全てのパターンを重ね合わせ
たときに、各画素における黒の数と白の数の多数決によ
って前記各画素を黒または白とすることにより典型パタ
ーンを作成し、前記各類似パターンを前記典型パターン
で置き換えることを特徴としている。
【0010】請求項3記載の発明では、文書画像から文
字パターンを切り出し、該切り出された文字パターンの
系列においてパターンイメージが類似していて、同一の
文字と判断される類似パターンを抽出し、該抽出された
各類似パターンについて文字認識処理を行い、最も確信
度の高い認識結果を得る類似パターンを代表パターンと
して決定し、該各類似パターンを該代表パターンで置き
換えることを特徴としている。
【0011】
【作用】一実施例では、入力画像から各文字パターンが
切り出され、切り出されたパターンの内、類似していて
同一の文字と判断されるパターンが抽出される。抽出さ
れた類似パターンを輪郭の滑らかさなどの評価関数で評
価し、最も文字としてきれいな代表パターンを決定し、
各類似パターンを代表パターンで置き換える。これによ
り、文書画像がきれいに修復される。
【0012】
【実施例】以下、本発明の一実施例を図面を用いて具体
的に説明する。 〈実施例1〉 図1は、本発明の実施例の構成を示す。図において、1
01はスキャナなどの画像入力装置、102はパターン
切り出し部、103は切り出されたパターン列の中から
類似したパターンを抽出する類似パターン検出部、10
4は各類似パターンについて文字としてのきれいさを評
価するパターン評価部、105は類似パターン群から一
つの典型パターンを生成する典型パターン生成部、10
6は個別パターンを認識する文字認識部、107は類似
パターン群の各パターン毎の認識結果から、類似パター
ン群が相当する文字を決定し、代表パターンを選択する
パターン選択部、108は入力画像や生成データを記憶
する記憶部、109は全体を制御する制御部、110は
データ通信路である。
【0013】図2は、本発明の実施例の処理フローチャ
ートである。図2を参照しながら動作を説明すると、ま
ず、スキャナなどの画像入力装置101によって画像を
入力する(ステップ201)。次いで、パターン切り出
し部102は、入力画像から各文字パターンを切り出す
(ステップ202)。類似パターン検出部103は、切
り出されたパターンの内、類似していて同一の文字と判
断されるパターンを抽出する(ステップ203)。この
場合の類似度としては、例えば米国特許第5,303,
313号公報の段落9で説明されているテスト方法を用
いる。
【0014】つまり、この方法は、位置を補正しながら
パターンを重ね合わせて差異の出る画素の現れる位置、
現れる画素のパターンによって類似であるか否かを判別
する方法である。図3は、類似していて同一の文字と判
断されるパターンの例を示し、図4は、類似していて同
一の文字と判断されないパターンの例を示す。
【0015】抽出された類似パターンをP1,P
2,...Pnとすると、その集合Sは、S={P1,
P2...Pn}、類似パターンの集合(類似パターン
群)はいくつかあるので、Sj;j=1,2..mと表
される。
【0016】いま、抽出されたSjの類似パターンをP
1,P2,...Pnとすると、パターン評価部104
は、ある評価関数を用いてこれら類似パターンの内、最
も文字としてきれいなパターンを選ぶ(ステップ204
−206)。評価関数としては、例えば輪郭の滑らかさ
などを使用する。つまり、輪郭の曲率であるとかフーリ
エ記述子による表現(輪郭の曲線を表す関数を求め、こ
れをフーリエ級数に展開したときの係数によって輪郭の
曲線を特徴付ける手法)などによって、滑らかさを調
べ、曲率が大きい場合、あるいはフーリエ記述子で高周
波成分が多い(高次の項の係数が多い)場合は、輪郭が
あまり滑らかでなく、文字としては欠けが生じているこ
とが予想される。また、文字の線密度を調べることによ
って、つぶれが生じているか否かを予想できる。このよ
うな方法によって「文字のきれいさ」を評価し、最も文
字としてきれいなものを選んで出力する(ステップ20
7)。
【0017】図5は、パターン評価部104で、文字の
形状を評価して代表パターンを選出する例を示す図であ
る。この例の場合、最もきれいなパターンP2が選択さ
れて、類似パターンP1、P3、P4を該パターンP2
で置き換える。これにより、よりきれいな文書画像に修
復される。
【0018】〈実施例2〉 図6は、実施例2の処理フローチャートである。図6を
参照して実施例2を説明すると、実施例1と同様に、ス
キャナなどの画像入力装置101によって画像を入力す
る(ステップ301)。次いで、パターン切り出し部1
02は、入力画像から各文字パターンを切り出す(ステ
ップ302)。類似パターン検出部103は、切り出さ
れたパターンの内、類似していて同一の文字と判断され
るパターンを抽出する(ステップ303)。
【0019】抽出されたSjの類似パターンをP1,P
2,...Pnとすると、典型パターン生成部105
は、それらのパターンを合成することにより一つの典型
パターンを生成する(ステップ304、305)。典型
パターンの生成方法としては、例えば全てのパターンを
重ね合わせた時に、各画素について黒/白の多い方を採
用するなどすればよい。
【0020】図7は、典型パターン作成の例を示す図で
あり、P1、P2、P3、P4のパターンの内、2つ以
上のパターンで黒画素ならば黒、白画素ならば白と処理
することによって生成された典型パターン例である。
【0021】典型パターンが生成されたら、各類似パタ
ーンをこの典型パターンで置き換え(ステップ30
6)、画像出力する(ステップ307)。これにより、
実施例1と同様によりきれいな文書画像に修復される。
【0022】〈実施例3〉 図8は、実施例3の処理フローチャートであり、図8を
参照して実施例3を説明する。実施例1、2と同様に、
スキャナなどの画像入力装置101によって画像を入力
する(ステップ401)。次いで、パターン切り出し部
102は、入力画像から各文字パターンを切り出す(ス
テップ402)。類似パターン検出部103は、切り出
されたパターンの内、類似していて同一の文字と判断さ
れるパターンを抽出する(ステップ403)。
【0023】抽出されたSjの類似パターンをP1,P
2,...Pnとすると、文字認識部106は各類似パ
ターンについて図示しない辞書内にある認識対象文字と
照合することにより文字認識を行い、その認識結果とし
て文字と確信度を得る。ここで、確信度としては例え
ば、特徴空間における類似パターンと認識対象文字との
距離を用いる。
【0024】文字認識の結果、それぞれの類似パターン
について一または幾つかの候補文字が得られる。認識結
果として幾つかの候補文字が得られた場合は、最も出現
頻度の高い文字を、その類似パターンが相当する文字と
して出力する。例えば、パターンP1について認識の結
果、候補文字として「A」、「B」が出力されたとき、
他のパターンPiの候補文字を参照して最も出現頻度の
高い文字を、パターンP1の文字として認識出力する。
【0025】そして、パターン選択部107は、このよ
うにして認識された文字の内、最も確信度の高いパター
ンを代表パターンとして選択し、各類似パターンを代表
パターンに置き換えて(ステップ406)、画像出力す
る(ステップ407)。図9は、代表パターンの選出例
を示す図である。この例の場合、パターン選択部107
で確信度を比較した結果、最も確信度が高いパターンP
2が選択されて、代表パターンとして出力される。
【0026】
【発明の効果】以上、説明したように、本発明によれ
ば、文書画像から抽出された各類似パターンを、最も文
字としての評価の高い代表パターンあるいは典型パター
ンで置き換えているので、従来のボケ変換などと異な
り、画像劣化のモデルが不明であって、また画像の局所
的な劣化があっても、文書画像をきれいに修復すること
ができる。
【図面の簡単な説明】
【図1】本発明の実施例の構成を示す。
【図2】本発明の実施例の処理フローチャートである。
【図3】類似していて同一の文字と判断されるパターン
の例を示す。
【図4】類似していて同一の文字と判断されないパター
ンの例を示す。
【図5】パターン評価部で、文字の形状を評価して代表
パターンを選出する例を示す図である。
【図6】本発明の他の実施例の処理フローチャートであ
る。
【図7】典型パターン作成の例を示す図である。
【図8】本発明のさらに他の実施例の処理フローチャー
トである。
【図9】代表パターンの選出例を示す図である。
【符号の説明】
101 画像入力装置 102 パターン切り出し部 103 類似パターン検出部 104 パターン評価部 105 典型パターン生成部 106 文字認識部 107 パターン選択部 108 データ記憶部 109 制御部 110 データ通信路
フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 G06K 9/20 350 JICSTファイル(JOIS)

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 文書画像から文字パターンを切り出し、
    該切り出された文字パターンの系列においてパターンイ
    メージが類似していて、同一の文字と判断される類似パ
    ターンを抽出し、該抽出された類似パターンの集合につ
    いて輪郭の滑らかさを評価し、最も評価の高いパターン
    を代表パターンとして決定し、前記各類似パターンを前
    記代表パターンで置き換えることを特徴とする文書画像
    の修復方法。
  2. 【請求項2】 文書画像から文字パターンを切り出し、
    該切り出された文字パターンの系列においてパターンイ
    メージが類似していて、同一の文字と判断される類似パ
    ターンを抽出し、該抽出された類似パターンの集合であ
    る全てのパターンを重ね合わせたときに、各画素におけ
    る黒の数と白の数の多数決によって前記各画素を黒また
    は白とすることにより典型パターンを作成し、前記各類
    似パターンを前記典型パターンで置き換えることを特徴
    とする文書画像の修復方法
  3. 【請求項3】 文書画像から文字パターンを切り出し、
    該切り出された文字パターンの系列においてパターンイ
    メージが類似していて、同一の文字と判断される類似パ
    ターンを抽出し、該抽出された各類似パターンについて
    文字認識処理を行い、最も確信度の高い認識結果を得る
    類似パターンを代表パターンとして決定し、該各類似パ
    ターンを該代表パターンで置き換えることを特徴とする
    文書画像の修復方法。
JP18474194A 1994-08-05 1994-08-05 文書画像の修復方法 Expired - Fee Related JP3217601B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP18474194A JP3217601B2 (ja) 1994-08-05 1994-08-05 文書画像の修復方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP18474194A JP3217601B2 (ja) 1994-08-05 1994-08-05 文書画像の修復方法

Publications (2)

Publication Number Publication Date
JPH0850630A JPH0850630A (ja) 1996-02-20
JP3217601B2 true JP3217601B2 (ja) 2001-10-09

Family

ID=16158547

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18474194A Expired - Fee Related JP3217601B2 (ja) 1994-08-05 1994-08-05 文書画像の修復方法

Country Status (1)

Country Link
JP (1) JP3217601B2 (ja)

Also Published As

Publication number Publication date
JPH0850630A (ja) 1996-02-20

Similar Documents

Publication Publication Date Title
JP5501958B2 (ja) 2値マスク画像を作成する方法、2値画像におけるシンボル決定方法、画像圧縮方法、画像圧縮プログラム、及び同プログラムの記録媒体
US6807304B2 (en) Feature recognition using loose gray scale template matching
JP4690339B2 (ja) 画像処理
JP6100744B2 (ja) 自動修復を用いたカラー文書画像セグメンテーション及び二値化
US20060056696A1 (en) Degraded dictionary generation method and apparatus
JP4189506B2 (ja) 画像処理のための装置、方法及び記録媒体
US7437002B2 (en) Image recognition system utilizing an edge image and a binary image
JPH0863546A (ja) 情報抽出方法および画像修復方法並びに画像修復システム
US20220392025A1 (en) Restoring degraded digital images through a deep learning framework
US11915465B2 (en) Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks
JP2003030672A (ja) 帳票認識装置、方法、プログラムおよび記憶媒体
Thouin et al. A method for restoration of low-resolution document images
JP2007066310A (ja) 文字列認識プログラム、方法および装置
JP4441300B2 (ja) 画像処理装置、画像処理方法、画像処理プログラムおよびこのプログラムを記憶した記録媒体
JP2007109177A (ja) 画像処理装置及びその制御方法、プログラム
JP3217601B2 (ja) 文書画像の修復方法
US8938118B1 (en) Method of neighbor embedding for OCR enhancement
JP2005031818A (ja) マンガの線画像成形方法、装置およびコンピュータプログラム
Ndjiki-Nya et al. Automatic structure-aware inpainting for complex image content
Bal et al. Interactive degraded document enhancement and ground truth generation
JP2010211346A (ja) 手書き文字認識システム
Konya et al. Adaptive methods for robust document image understanding
Voronin et al. Inpainted image quality assessment based on machine learning
Obafemi-Ajayi et al. Ensemble LUT classification for degraded document enhancement
JP4035696B2 (ja) 線分検出装置及び画像処理装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees