JP3030814B2 - ノイズ成分除去方法及びノイズ成分除去プログラムを記録した記録媒体 - Google Patents
ノイズ成分除去方法及びノイズ成分除去プログラムを記録した記録媒体Info
- Publication number
- JP3030814B2 JP3030814B2 JP10239782A JP23978298A JP3030814B2 JP 3030814 B2 JP3030814 B2 JP 3030814B2 JP 10239782 A JP10239782 A JP 10239782A JP 23978298 A JP23978298 A JP 23978298A JP 3030814 B2 JP3030814 B2 JP 3030814B2
- Authority
- JP
- Japan
- Prior art keywords
- inner core
- core portion
- character
- noise
- outer edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Character Input (AREA)
Description
【0001】
【発明の属する技術分野】本発明は、走査読取りした文
字を認識する前処理としてのノイズ成分除去方法及びノ
イズ除去プログラムを記録した記録媒体に関する。手書
文字や印刷文字を走査読取りして文字認識を行う方法は
既に各種の方法が実用化されている。その場合に、縦方
向にノイズ成分が含まれる場合がある。又文字記入位置
を示す文字枠をドロップアウトカラーとしてあっても、
その一部を読取ることがあり、文字認識の場合のノイズ
成分となる。従って、文字認識を行う前に、このような
ノイズ成分を除去することが必要となる。
字を認識する前処理としてのノイズ成分除去方法及びノ
イズ除去プログラムを記録した記録媒体に関する。手書
文字や印刷文字を走査読取りして文字認識を行う方法は
既に各種の方法が実用化されている。その場合に、縦方
向にノイズ成分が含まれる場合がある。又文字記入位置
を示す文字枠をドロップアウトカラーとしてあっても、
その一部を読取ることがあり、文字認識の場合のノイズ
成分となる。従って、文字認識を行う前に、このような
ノイズ成分を除去することが必要となる。
【0002】
【従来の技術】走査読取りした文字を認識する文字認識
手段は、既に各種の方式が提案され、又実用化されてい
る。例えば、パターン照合による方法や、特徴点抽出に
よる方法等があり、パターン照合による方法は、印刷文
字や手書文字等をスキャナー等により光学的に走査読取
りして、文字認識用の辞書に格納された複数の標準パタ
ーンと照合し、類似度が最大となる標準パターンの文字
を、入力パターンの文字と判定するものである。
手段は、既に各種の方式が提案され、又実用化されてい
る。例えば、パターン照合による方法や、特徴点抽出に
よる方法等があり、パターン照合による方法は、印刷文
字や手書文字等をスキャナー等により光学的に走査読取
りして、文字認識用の辞書に格納された複数の標準パタ
ーンと照合し、類似度が最大となる標準パターンの文字
を、入力パターンの文字と判定するものである。
【0003】又特徴点抽出による方法は、例えば、文字
の各部の垂直方向と水平方向との分布や、文字素片と隣
接文字素片との関係等を文字の特徴とした辞書を作成し
ておいて、走査読取りした文字についても同様に特徴点
を求め、それぞれの特徴点を比較して、類似度が最大と
なる特徴点に対応する文字を、読取文字と判定するもの
である。
の各部の垂直方向と水平方向との分布や、文字素片と隣
接文字素片との関係等を文字の特徴とした辞書を作成し
ておいて、走査読取りした文字についても同様に特徴点
を求め、それぞれの特徴点を比較して、類似度が最大と
なる特徴点に対応する文字を、読取文字と判定するもの
である。
【0004】
【発明が解決しようとする課題】走査読取りした文字、
特にファクシミリに於ける文字の場合、センサの素子欠
陥等によって、例えば、図12に示すイメージデータ1
0のように、縦ラインノイズ12,13が形成される場
合が多い。この場合、縦方向に完全に連続した縦ノイズ
ライン12や、途中に分断された状態の縦ラインノイズ
13等の各種のパターンが存在するが、文字と重なる
と、文字の切出しが困難となり、又切出したとしても文
字の誤認識が生じる問題がある。
特にファクシミリに於ける文字の場合、センサの素子欠
陥等によって、例えば、図12に示すイメージデータ1
0のように、縦ラインノイズ12,13が形成される場
合が多い。この場合、縦方向に完全に連続した縦ノイズ
ライン12や、途中に分断された状態の縦ラインノイズ
13等の各種のパターンが存在するが、文字と重なる
と、文字の切出しが困難となり、又切出したとしても文
字の誤認識が生じる問題がある。
【0005】又文字を記入する枠を光学走査読取りを行
う時に、センサの検出感度波長と異なる色、即ち、ドロ
ップアウトカラーによる文字枠が点線枠11で示すよう
に形成されて、光学走査読取りにより文字のみが読取ら
れるように構成しているものであるが、14で示すよう
に、ドロップアウト枠の一部が検出されてノイズとなる
ことが多いものである。この場合も、文字に近接したノ
イズであるから誤認識が生じる可能性が大きい問題があ
る。本発明は、前述のようなノイズ成分を除去して、文
字認識の精度を向上することを目的とする。
う時に、センサの検出感度波長と異なる色、即ち、ドロ
ップアウトカラーによる文字枠が点線枠11で示すよう
に形成されて、光学走査読取りにより文字のみが読取ら
れるように構成しているものであるが、14で示すよう
に、ドロップアウト枠の一部が検出されてノイズとなる
ことが多いものである。この場合も、文字に近接したノ
イズであるから誤認識が生じる可能性が大きい問題があ
る。本発明は、前述のようなノイズ成分を除去して、文
字認識の精度を向上することを目的とする。
【0006】
【課題を解決するための手段】本発明のノイズ成分除去
方法は、(1)走査読取したイメージデータを基に文字
認識を行う過程に於けるノイズ成分除去方法であって、
走査読取したイメージデータの1文字分を含む領域を切
出して該領域を内核部分と該内核部分を取り囲む外縁部
分とに分離する過程と、内核部分に於ける黒ピクセルの
連結成分と、外縁部分に於ける黒ピクセルの連結成分と
をそれぞれ求めて、最大面積の前記連結成分が前記内核
部分と前記外縁部分との何れに存在するかを判定する過
程と、前記最大面積の連結成分が前記内核部分に存在す
る時に、該内核部分に文字が存在すると判断して、前記
外縁部分に於ける黒ピクセルの集合部分に対して収縮,
拡散処理を施し、ドロップアウト枠によるノイズ成分を
除去した後、該外縁部分と前記内核部分とのイメージを
合成する過程を含むものである。
方法は、(1)走査読取したイメージデータを基に文字
認識を行う過程に於けるノイズ成分除去方法であって、
走査読取したイメージデータの1文字分を含む領域を切
出して該領域を内核部分と該内核部分を取り囲む外縁部
分とに分離する過程と、内核部分に於ける黒ピクセルの
連結成分と、外縁部分に於ける黒ピクセルの連結成分と
をそれぞれ求めて、最大面積の前記連結成分が前記内核
部分と前記外縁部分との何れに存在するかを判定する過
程と、前記最大面積の連結成分が前記内核部分に存在す
る時に、該内核部分に文字が存在すると判断して、前記
外縁部分に於ける黒ピクセルの集合部分に対して収縮,
拡散処理を施し、ドロップアウト枠によるノイズ成分を
除去した後、該外縁部分と前記内核部分とのイメージを
合成する過程を含むものである。
【0007】又本発明のノイズ成分除去プログラムを記
録した記録媒体は、(2)走査読取したイメージデータ
の1文字分を含む領域を切出して、該領域を内核部分と
該内核部分を取り囲む外縁部分とに分離する手順と、前
記内核部分に於ける黒ピクセルの連結成分と前記外縁部
分に於ける黒ピクセルの連結成分とを求めて、最大面積
の連結成分が前記内核部分と外縁部分との何れに存在す
るかを判定する手順と、前記最大面積の連結成分が前記
内核部分に存在する時に文字が存在するとして、前記外
縁部分に於ける黒ピクセルの集合部分に対して収縮,拡
散処理を施し、 ドロップアウト枠によるノイズ成分を除
去する手順と、次に前記外縁部分と前記内核部分とのイ
メージを合成する手順とを含む手順を記録したものであ
る。
録した記録媒体は、(2)走査読取したイメージデータ
の1文字分を含む領域を切出して、該領域を内核部分と
該内核部分を取り囲む外縁部分とに分離する手順と、前
記内核部分に於ける黒ピクセルの連結成分と前記外縁部
分に於ける黒ピクセルの連結成分とを求めて、最大面積
の連結成分が前記内核部分と外縁部分との何れに存在す
るかを判定する手順と、前記最大面積の連結成分が前記
内核部分に存在する時に文字が存在するとして、前記外
縁部分に於ける黒ピクセルの集合部分に対して収縮,拡
散処理を施し、 ドロップアウト枠によるノイズ成分を除
去する手順と、次に前記外縁部分と前記内核部分とのイ
メージを合成する手順とを含む手順を記録したものであ
る。
【0008】
【発明の実施の形態】図1は本発明の実施の形態の要部
説明図であり、本発明の方法を適用する装置の要部を示
し、1はイメージデータファイル、2はノイズ除去処理
部、3は文字認識処理部、4はデータファイル、5は表
示部、6はスキャナ、7はファクシミリである。
説明図であり、本発明の方法を適用する装置の要部を示
し、1はイメージデータファイル、2はノイズ除去処理
部、3は文字認識処理部、4はデータファイル、5は表
示部、6はスキャナ、7はファクシミリである。
【0009】スキャナ6又はファクシミリ7による走査
読取りしたイメージデータは、イメージデータファイル
1に一旦格納される。この場合のイメージデータは、例
えば、図12に示すように、縦ラインノイズやドロップ
アウト枠によるノイズを含むものとなる。そこで、ノイ
ズ除去処理部2は、このようなノイズ成分を除去して文
字認識処理部3に転送するものである。
読取りしたイメージデータは、イメージデータファイル
1に一旦格納される。この場合のイメージデータは、例
えば、図12に示すように、縦ラインノイズやドロップ
アウト枠によるノイズを含むものとなる。そこで、ノイ
ズ除去処理部2は、このようなノイズ成分を除去して文
字認識処理部3に転送するものである。
【0010】文字認識処理部3は、既に知られている各
種の文字認識方法を適用することができるものであり、
例えば、文字認識辞書等を参照して認識し、その認識結
果をデータファイル4に格納すると共に、表示部5に表
示し、誤認識の場合は、オペレータにより修正入力する
ように構成することもできる。
種の文字認識方法を適用することができるものであり、
例えば、文字認識辞書等を参照して認識し、その認識結
果をデータファイル4に格納すると共に、表示部5に表
示し、誤認識の場合は、オペレータにより修正入力する
ように構成することもできる。
【0011】図2は文字認識処理のフローチャートであ
り、スキャナ6又はファクシミリ7等により例えば図1
2に示すようなイメージデータをイメージデータファイ
ル1に入力し(A1)、ノイズ除去処理部2に於いて縦
ラインノイズ抽出及び除去を行い(A2)、レイアウト
解析に基づいて文字領域抽出を行い(A3)、この文字
領域抽出により、ドロップアウト枠ノイズの有無を判定
し、ドロップアウト枠ノイズが存在する時は、このドロ
ップアウト枠ノイズ消去処理を行い(A4)、そして、
文字認識処理部3に於いて、文字の切出し(A5)、文
字認識処理(A6)を行い、複数の認識文字について、
辞書(図示せず)を参照して文脈判定処理(A7)を行
い、文脈が正しい文字列を、認識結果の文字列としてデ
ータファイル4等に出力する(A8)。
り、スキャナ6又はファクシミリ7等により例えば図1
2に示すようなイメージデータをイメージデータファイ
ル1に入力し(A1)、ノイズ除去処理部2に於いて縦
ラインノイズ抽出及び除去を行い(A2)、レイアウト
解析に基づいて文字領域抽出を行い(A3)、この文字
領域抽出により、ドロップアウト枠ノイズの有無を判定
し、ドロップアウト枠ノイズが存在する時は、このドロ
ップアウト枠ノイズ消去処理を行い(A4)、そして、
文字認識処理部3に於いて、文字の切出し(A5)、文
字認識処理(A6)を行い、複数の認識文字について、
辞書(図示せず)を参照して文脈判定処理(A7)を行
い、文脈が正しい文字列を、認識結果の文字列としてデ
ータファイル4等に出力する(A8)。
【0012】図3は縦ラインノイズ除去の概略フローチ
ャートであり、図2のステップ(A1),(A2)に相
当する処理で、先ず、イメージデータA(i,j)を入
力する(B1)。この場合、1≦i≦W(幅)、1≦j
≦H(高さ)とし、又パラメータとしてT,U,Vを設
定する。
ャートであり、図2のステップ(A1),(A2)に相
当する処理で、先ず、イメージデータA(i,j)を入
力する(B1)。この場合、1≦i≦W(幅)、1≦j
≦H(高さ)とし、又パラメータとしてT,U,Vを設
定する。
【0013】そして、縦方向に沿った黒ピクセル数をカ
ウントして、縦ラインノイズの検出処理を行う(B
2)。そして、縦ラインノイズの左端L1 ,L2 ,・・
・Lp と右端R1 ,R2 ,・・・Rp と、縦ラインノイ
ズ数pとを求め(B3)、文字交差部分を残して、他の
部分を除去する縦ラインノイズ消去処理を行う(B
4)。
ウントして、縦ラインノイズの検出処理を行う(B
2)。そして、縦ラインノイズの左端L1 ,L2 ,・・
・Lp と右端R1 ,R2 ,・・・Rp と、縦ラインノイ
ズ数pとを求め(B3)、文字交差部分を残して、他の
部分を除去する縦ラインノイズ消去処理を行う(B
4)。
【0014】図4は縦ラインノイズ検出処理の概略フロ
ーチャートであり、図3のステップ(B1)に相当する
イメージデータA(i,j)を入力し、パラメータをT
とする(C1)。そして、縦方向の黒ピクセル数を、順
次1〜W(幅方向)についてカウントし、カウント値を
νi とする(C2)。
ーチャートであり、図3のステップ(B1)に相当する
イメージデータA(i,j)を入力し、パラメータをT
とする(C1)。そして、縦方向の黒ピクセル数を、順
次1〜W(幅方向)についてカウントし、カウント値を
νi とする(C2)。
【0015】そして、νi /HとパラメータTとを比較
し、パラメータTより小さい時は、Bi =0、即ち、縦
ラインノイズではないと判定し、パラメータTより大き
い時は、Bi =1、即ち、縦ラインノイズと判定し(C
3)、Bi が0から1に変化するiの値を左端Li と
し、1から0に変化するiの値を右端Ri とし、この縦
ラインノイズの束の数(縦ラインノイズ数)をpとし、
又B 0 =B W+1 =0とする(C4)。
し、パラメータTより小さい時は、Bi =0、即ち、縦
ラインノイズではないと判定し、パラメータTより大き
い時は、Bi =1、即ち、縦ラインノイズと判定し(C
3)、Bi が0から1に変化するiの値を左端Li と
し、1から0に変化するiの値を右端Ri とし、この縦
ラインノイズの束の数(縦ラインノイズ数)をpとし、
又B 0 =B W+1 =0とする(C4)。
【0016】図5は縦ラインノイズ検出処理のフローチ
ャートであり、図4のステップ(C3)於いて得られた
Bi を入力する(D1)。その時に、B0 =0とする。
そして、k=0,i=1とし(D2)、Bi-1 =0で、
Bi =1であるか否かを判定する(D3)。この条件で
ない場合は、ステップ(D6)に移行し、この条件の場
合は、k=k+1とし(D4)、又Lk =iとする(D
5)。そして、i=i+1として(D6)、i≦Wか否
かを判定し(D7)、i>Wとなるまで、ステップ(D
3)〜(D6)を繰り返す。それによって、k個の縦ラ
インノイズの左端Lk が得られる。そして、p=kとし
(D8)、左端L1 ,L2 ,・・・Lpとその数pとを
出力する(D9)。
ャートであり、図4のステップ(C3)於いて得られた
Bi を入力する(D1)。その時に、B0 =0とする。
そして、k=0,i=1とし(D2)、Bi-1 =0で、
Bi =1であるか否かを判定する(D3)。この条件で
ない場合は、ステップ(D6)に移行し、この条件の場
合は、k=k+1とし(D4)、又Lk =iとする(D
5)。そして、i=i+1として(D6)、i≦Wか否
かを判定し(D7)、i>Wとなるまで、ステップ(D
3)〜(D6)を繰り返す。それによって、k個の縦ラ
インノイズの左端Lk が得られる。そして、p=kとし
(D8)、左端L1 ,L2 ,・・・Lpとその数pとを
出力する(D9)。
【0017】又ステップ(D11)に於いては、ステッ
プ(D1)と同様であるが、BW+1=0とする。そし
て、ステップ(D2)〜(D7)と同様に、ステップ
(D12)〜(D17)をi>Wとなるまで繰り返す。
なお、ステップ(D15)に於いて、Rk =iとする。
それによって、k個の縦ラインノイズの右端Rk が得ら
れる。そして、q=kとし(D18)、右端R1 ,
R2 ,・・・Rq とその数qとを出力する(D19)。
プ(D1)と同様であるが、BW+1=0とする。そし
て、ステップ(D2)〜(D7)と同様に、ステップ
(D12)〜(D17)をi>Wとなるまで繰り返す。
なお、ステップ(D15)に於いて、Rk =iとする。
それによって、k個の縦ラインノイズの右端Rk が得ら
れる。そして、q=kとし(D18)、右端R1 ,
R2 ,・・・Rq とその数qとを出力する(D19)。
【0018】縦ラインノイズの左端の数pと右端の数q
とは、一般的には同数となることから、p,qを、同一
の縦ラインノイズ数pとする(D10)。
とは、一般的には同数となることから、p,qを、同一
の縦ラインノイズ数pとする(D10)。
【0019】図6は縦ラインノイズ消去の概略フローチ
ャートであり、入力として、イメージデータA(i,
j)とノイズ束(左端と右端との組)とし(E1)、k
=1とし(E2)、文字と交差している部分を除いてノ
イズ束内の黒ピクセルを消去し(E3)、k=k+1と
して(E4)、k=pとなるまで、ステップ(E3)〜
(E5)を繰り返す。
ャートであり、入力として、イメージデータA(i,
j)とノイズ束(左端と右端との組)とし(E1)、k
=1とし(E2)、文字と交差している部分を除いてノ
イズ束内の黒ピクセルを消去し(E3)、k=k+1と
して(E4)、k=pとなるまで、ステップ(E3)〜
(E5)を繰り返す。
【0020】図7は縦ラインノイズ消去のフローチャー
トであり、入力として、イメージデータA(i,j)
と、縦ラインノイズの左右の周辺の調査幅U(縦ライン
の左端及び右端から幅方向のピクセル数)と、文字交差
と判定する判定黒ピクセル数閾値Vとする(F1)。
トであり、入力として、イメージデータA(i,j)
と、縦ラインノイズの左右の周辺の調査幅U(縦ライン
の左端及び右端から幅方向のピクセル数)と、文字交差
と判定する判定黒ピクセル数閾値Vとする(F1)。
【0021】そして、j=1とし(F2)、縦ラインノ
イズの左右周辺の調査幅U内の黒ピクセル数Sj を求め
る(F3)。即ち、左端Lから左方向に、h=1〜Uの
範囲の黒ピクセル数と、右端Rから右方向に、h=1〜
Uの範囲の黒ピクセル数を求める。
イズの左右周辺の調査幅U内の黒ピクセル数Sj を求め
る(F3)。即ち、左端Lから左方向に、h=1〜Uの
範囲の黒ピクセル数と、右端Rから右方向に、h=1〜
Uの範囲の黒ピクセル数を求める。
【0022】そして、Sj ≦Vか否かを判定し(F
4)、黒ピクセル数Sj が閾値V以下でない場合は、ス
テップ(F7)に移行する。即ち、文字との交差部分と
判断して、縦ラインノイズの部分を消去しない。又黒ピ
クセル数Sj が閾値V以下の場合は、文字の交差部分で
はないと判定し、イメージデータA(i,j)=0、即
ち、黒ピクセルを消去する。このステップ(F3)〜
(F6)を、j=Hとなるまで繰り返す。それによっ
て、イメージデータA(i,j)から縦ラインノイズが
消去される。
4)、黒ピクセル数Sj が閾値V以下でない場合は、ス
テップ(F7)に移行する。即ち、文字との交差部分と
判断して、縦ラインノイズの部分を消去しない。又黒ピ
クセル数Sj が閾値V以下の場合は、文字の交差部分で
はないと判定し、イメージデータA(i,j)=0、即
ち、黒ピクセルを消去する。このステップ(F3)〜
(F6)を、j=Hとなるまで繰り返す。それによっ
て、イメージデータA(i,j)から縦ラインノイズが
消去される。
【0023】図8は縦ラインノイズの消去説明図であ
り、(A)に示すイメージデータAについて、縦方向の
黒ピクセルをカウントし、パラメータT=0.8とする
と、黒ピクセル数νi は、i=1〜7及びi=22〜2
5に於いて0となり、例えば、ν11=6、ν12=6、ν
13=20、ν14=20、ν15=6、ν16=7となる(図
4のステップ(C2)参照)。
り、(A)に示すイメージデータAについて、縦方向の
黒ピクセルをカウントし、パラメータT=0.8とする
と、黒ピクセル数νi は、i=1〜7及びi=22〜2
5に於いて0となり、例えば、ν11=6、ν12=6、ν
13=20、ν14=20、ν15=6、ν16=7となる(図
4のステップ(C2)参照)。
【0024】そして、H=20であり、又図4のステッ
プ(C3)によると、νi /H≧Tの時、縦ラインノイ
ズと判定するものであるから、νi ≧T・H=0.8×
20=16の条件の黒ピクセル数νi の時、縦ラインノ
イズと判定する。従って、i=13,14に縦ラインノ
イズが存在することが判る。そして、縦ラインノイズが
連続しているものを束にすると、この場合、p=1とな
り、1番目の縦ラインノイズの左端L1 =13、右端R
1 =14となる。
プ(C3)によると、νi /H≧Tの時、縦ラインノイ
ズと判定するものであるから、νi ≧T・H=0.8×
20=16の条件の黒ピクセル数νi の時、縦ラインノ
イズと判定する。従って、i=13,14に縦ラインノ
イズが存在することが判る。そして、縦ラインノイズが
連続しているものを束にすると、この場合、p=1とな
り、1番目の縦ラインノイズの左端L1 =13、右端R
1 =14となる。
【0025】そして、調査幅U=2、閾値V=2(図7
のステップ(F1)参照)とすると、黒ピクセル数Sj
は、S1 〜S3 =0、S4 =4、S5 =4、S6 =1、
S7〜S11=0、S12=1、S13=3、S14=4、S15
=4、S16=4、S17〜S20=0となる。従って、Sj
≦Vを満足するのは、j=4,5,13,14,15,
16となる。そこで、j=1〜3と、j=6〜12と、
j=17〜20の縦ラインノイズを黒ピクセルを白ピク
セルとして、縦ラインノイズを消去する。この消去結果
を、図8の(B)に示すものである。
のステップ(F1)参照)とすると、黒ピクセル数Sj
は、S1 〜S3 =0、S4 =4、S5 =4、S6 =1、
S7〜S11=0、S12=1、S13=3、S14=4、S15
=4、S16=4、S17〜S20=0となる。従って、Sj
≦Vを満足するのは、j=4,5,13,14,15,
16となる。そこで、j=1〜3と、j=6〜12と、
j=17〜20の縦ラインノイズを黒ピクセルを白ピク
セルとして、縦ラインノイズを消去する。この消去結果
を、図8の(B)に示すものである。
【0026】前述のようにして縦ラインノイズを消去す
ることができるが、ドロップアウト枠ノイズが問題とな
る。本発明は、このようなドロップアウト枠ノイズを除
去して、文字認識の精度を向上するものである。
ることができるが、ドロップアウト枠ノイズが問題とな
る。本発明は、このようなドロップアウト枠ノイズを除
去して、文字認識の精度を向上するものである。
【0027】図9は本発明の実施の形態のドロップアウ
ト枠ノイズ除去処理のフローチャートであり、1文字分
のイメージデータA(i,j)と、パラメータx1 ,y
1 ,x2 ,y2 とを入力する(G1)。そして、黒ピク
セルについての最大連結成分B(=Aの連結成分の内、
面積が最大の連結成分)と、それ以外の成分C(=A−
B)とを求める(G2)。
ト枠ノイズ除去処理のフローチャートであり、1文字分
のイメージデータA(i,j)と、パラメータx1 ,y
1 ,x2 ,y2 とを入力する(G1)。そして、黒ピク
セルについての最大連結成分B(=Aの連結成分の内、
面積が最大の連結成分)と、それ以外の成分C(=A−
B)とを求める(G2)。
【0028】なお、ピクセルの座標(i,j)を要素と
する集合Xを、 X={(i,j)|1≦i≦W,1≦j≦H} と定義する。又イメージデータA(i,j)は、成分が
1である座標(i,j)の集まりとして、これをAとす
ると、 A={(i,j)∈X|A(i,j)=1} と表すことができる。
する集合Xを、 X={(i,j)|1≦i≦W,1≦j≦H} と定義する。又イメージデータA(i,j)は、成分が
1である座標(i,j)の集まりとして、これをAとす
ると、 A={(i,j)∈X|A(i,j)=1} と表すことができる。
【0029】又前述のパラメータx1 ,x2 ,y1 ,y
2 について、図10に示す1文字分の領域に於いて設定
することにより、(x1 ,y1 ),(x2 ,y1 ),
(x1,y2 ),(x2 ,y2 )の座標点で囲まれる内
側を内核部分I、その外側を外縁部分Eとすることがで
きる。この場合、 I={(i,j)∈X|x1 ≦i≦x2 ,y1 ≦j≦y2 } E=X−I と表すことができる。
2 について、図10に示す1文字分の領域に於いて設定
することにより、(x1 ,y1 ),(x2 ,y1 ),
(x1,y2 ),(x2 ,y2 )の座標点で囲まれる内
側を内核部分I、その外側を外縁部分Eとすることがで
きる。この場合、 I={(i,j)∈X|x1 ≦i≦x2 ,y1 ≦j≦y2 } E=X−I と表すことができる。
【0030】若し、最大連結成分Bが外縁部分Eのみに
存在する場合は、文字を含まないものとして、分離した
外縁部分Eと内核部分Iとのイメージデータを元に戻
す。即ち、B⊂Eの時、B=φ(空集合)とし、且つC
=Aとする(G3)。
存在する場合は、文字を含まないものとして、分離した
外縁部分Eと内核部分Iとのイメージデータを元に戻
す。即ち、B⊂Eの時、B=φ(空集合)とし、且つC
=Aとする(G3)。
【0031】又ノイズと思われる成分Cを、外縁部分E
上のピクセルCe (=C∩E)と内核部分I上のピクセ
ルCi (C∩I)とに分離する(G4)。外縁部分E上
のピクセルCe は、ドロップアウト枠ノイズと判定し
て、例えば、4近傍収縮処理した後、4近傍拡散処理を
行う(G5)。なお、C1 は外縁部分のピクセルCe の
4近傍収縮処理を示し、∧は「且つ」を示し、又C2 は
4近傍収縮処理したピクセルC1 の4近傍拡散処理を示
し、∨は「又は」を示す。
上のピクセルCe (=C∩E)と内核部分I上のピクセ
ルCi (C∩I)とに分離する(G4)。外縁部分E上
のピクセルCe は、ドロップアウト枠ノイズと判定し
て、例えば、4近傍収縮処理した後、4近傍拡散処理を
行う(G5)。なお、C1 は外縁部分のピクセルCe の
4近傍収縮処理を示し、∧は「且つ」を示し、又C2 は
4近傍収縮処理したピクセルC1 の4近傍拡散処理を示
し、∨は「又は」を示す。
【0032】そして、最大連結成分Bと、それ以外の内
核部分Ci と、収縮,拡散処理した外縁部分C2 とを合
成してイメージデータAとする(G6)。それにより、
外縁部分のドロップアウト枠ノイズが除去されたイメー
ジデータA(i,j)となり、文字認識処理が行われ
る。
核部分Ci と、収縮,拡散処理した外縁部分C2 とを合
成してイメージデータAとする(G6)。それにより、
外縁部分のドロップアウト枠ノイズが除去されたイメー
ジデータA(i,j)となり、文字認識処理が行われ
る。
【0033】図10は外縁部分と内核部分との説明図で
あり、例えば、帳票イメージのレイアウト解析により、
ドロップアウト枠を含む1文字領域を抽出し、その幅W
と高さHとを基に、図9のステップ(G1)に於いて入
力するパラメータx1 ,x2,y1 ,y2 を次のように
設定することができる。 x1 =(1/4)W x2 =(3/4)W y1 =(1/4)H y2 =(3/4)H
あり、例えば、帳票イメージのレイアウト解析により、
ドロップアウト枠を含む1文字領域を抽出し、その幅W
と高さHとを基に、図9のステップ(G1)に於いて入
力するパラメータx1 ,x2,y1 ,y2 を次のように
設定することができる。 x1 =(1/4)W x2 =(3/4)W y1 =(1/4)H y2 =(3/4)H
【0034】図11の(A)は、図10のイメージデー
タを、数字「5」を含む内核部分Iに分離した状態を示
し、又図11の(B)は、図10のイメージデータのド
ロップアウト枠部分を含む外縁部分Eに分離した状態を
示す。そして、黒ピクセルの最大連結成分を求めると、
外縁部分Eに於ける最大連結成分に比較して、内核部分
Iに於ける最大連結成分が大きいので、内核部分Iに文
字が存在すると判定できる。
タを、数字「5」を含む内核部分Iに分離した状態を示
し、又図11の(B)は、図10のイメージデータのド
ロップアウト枠部分を含む外縁部分Eに分離した状態を
示す。そして、黒ピクセルの最大連結成分を求めると、
外縁部分Eに於ける最大連結成分に比較して、内核部分
Iに於ける最大連結成分が大きいので、内核部分Iに文
字が存在すると判定できる。
【0035】そして、外縁部分Eの黒ピクセルについ
て、例えば、4近傍収縮処理と4近傍拡散処理とを行
い、ノイズ成分を除去する。このような収縮,拡散処理
による画像平滑化によるノイズの除去手段のみについて
は既に知られており、イメージデータの解像度等を基に
更に多数のピクセルを含む収縮処理と拡散処理とを組合
せることも可能である。そして、外縁部分Eのドロップ
アウト枠ノイズを除去した後、外縁部分Eと内核部分I
とのイメージデータを合成すると、文字周辺のドロップ
アウト枠ノイズが除去されたイメージデータが得られ
る。これを文字認識処理部3(図1参照)に入力して文
字認識を行わせるものである。
て、例えば、4近傍収縮処理と4近傍拡散処理とを行
い、ノイズ成分を除去する。このような収縮,拡散処理
による画像平滑化によるノイズの除去手段のみについて
は既に知られており、イメージデータの解像度等を基に
更に多数のピクセルを含む収縮処理と拡散処理とを組合
せることも可能である。そして、外縁部分Eのドロップ
アウト枠ノイズを除去した後、外縁部分Eと内核部分I
とのイメージデータを合成すると、文字周辺のドロップ
アウト枠ノイズが除去されたイメージデータが得られ
る。これを文字認識処理部3(図1参照)に入力して文
字認識を行わせるものである。
【0036】OCR(Optical Character Reader
)のように、光学的に走査読取したイメージデータ或
いは受信ファクシミリデータを基に文字認識を行う装置
等に於いては、プロセッサを含むものであるから、フロ
ッピーディスク等の記録媒体に、前述のノイズ成分除去
プログラムを格納し、そのプログラムを読込ませて、文
字認識処理の前処理として、ノイズ成分除去を行わせる
ことができる。
)のように、光学的に走査読取したイメージデータ或
いは受信ファクシミリデータを基に文字認識を行う装置
等に於いては、プロセッサを含むものであるから、フロ
ッピーディスク等の記録媒体に、前述のノイズ成分除去
プログラムを格納し、そのプログラムを読込ませて、文
字認識処理の前処理として、ノイズ成分除去を行わせる
ことができる。
【0037】
【発明の効果】以上説明したように、本発明は、1文字
分の領域を切出して、内核部分Iと外縁部分Eとに分離
し、それぞれの黒ピクセルの最大連結成分を求め、この
最大連結成分が内核部分Iに存在する場合は文字が内核
部分Iに存在すると判定し、分離した外縁部分Eの黒ピ
クセルの収縮,拡散処理を行って、ドロップアウト枠ノ
イズに相当する部分を除去した後、内核部分Iと外縁部
分Eとのイメージを合成するもので、それによって、ド
ロップアウト枠ノイズが含まれるイメージデータの場合
に、ドロップアウト枠ノイズを除去して、文字認識を容
易にすることができる利点がある。
分の領域を切出して、内核部分Iと外縁部分Eとに分離
し、それぞれの黒ピクセルの最大連結成分を求め、この
最大連結成分が内核部分Iに存在する場合は文字が内核
部分Iに存在すると判定し、分離した外縁部分Eの黒ピ
クセルの収縮,拡散処理を行って、ドロップアウト枠ノ
イズに相当する部分を除去した後、内核部分Iと外縁部
分Eとのイメージを合成するもので、それによって、ド
ロップアウト枠ノイズが含まれるイメージデータの場合
に、ドロップアウト枠ノイズを除去して、文字認識を容
易にすることができる利点がある。
【図1】本発明の実施の形態の要部説明図である。
【図2】文字認識処理のフローチャートである。
【図3】縦ラインノイズ除去の概略フローチャートであ
る。
る。
【図4】縦ラインノイズ検出処理の概略フローチャート
である。
である。
【図5】縦ラインノイズ検出処理のフローチャートであ
る。
る。
【図6】縦ラインノイズ消去の概略フローチャートであ
る。
る。
【図7】縦ラインノイズ消去のフローチャートである。
【図8】縦ラインノイズの消去説明図である。
【図9】本発明の実施の形態のドロップアウト枠ノイズ
除去処理のフローチャートである。
除去処理のフローチャートである。
【図10】外縁部分と内核部分との説明図である。
【図11】ドロップアウト枠ノイズ除去の処理説明図で
ある。
ある。
【図12】イメージデータに於けるノイズ成分の説明図
である。
である。
1 イメージデータファイル 2 ノイズ除去処理部 3 文字認識処理部 4 データファイル 5 表示部 6 スキャナ 7 ファクシミリ
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/82 G06T 1/00 H04N 1/40
Claims (2)
- 【請求項1】 走査読取したイメージデータを基に文字
認識を行う過程に於けるノイズ成分除去方法に於いて、 前記走査読取したイメージデータの1文字分を含む領域
を切出して該領域を内核部分と該内核部分を取り囲む外
縁部分とに分離する過程と、 前記内核部分に於ける黒ピクセルの連結成分と、前記外
縁部分に於ける黒ピクセルの連結成分とをそれぞれ求め
て、最大面積の前記連結成分が前記内核部分と前記外縁
部分との何れに存在するかを判定する過程と、 前記最大面積の連結成分が前記内核部分に存在する時
に、該内核部分に文字が存在すると判断して、前記外縁
部分に於ける黒ピクセルの集合部分に対して収縮,拡散
処理を施し、ドロップアウト枠によるノイズ成分を除去
した後、該外縁部分と前記内核部分とのイメージを合成
する過程を含む ことを特徴とするノイズ成分除去方法。 - 【請求項2】 走査読取したイメージデータの1文字分
を含む領域を切出して、該領域を内核部分と該内核部分
を取り囲む外縁部分とに分離する手順と、前記内核部分
に於ける黒ピクセルの連結成分と前記外縁部分に於ける
黒ピクセルの連結成分とを求めて、最大面積の連結成分
が前記内核部分と外縁部分との何れに存在するかを判定
する手順と、前記最大面積の連結成分が前記内核部分に
存在する時に文字が存在するとして、前記外縁部分に於
ける黒ピクセルの集合部分に対して収縮,拡散処理を施
し、ドロップアウト枠によるノイズ成分を除去する手順
と、次に前記外縁部分と前記内核部分とのイメージを合
成する手順とを含む手順を記録したことを特徴とするコ
ンピュータ読取可能のノイズ成分除去プログラムを記録
した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10239782A JP3030814B2 (ja) | 1998-08-26 | 1998-08-26 | ノイズ成分除去方法及びノイズ成分除去プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10239782A JP3030814B2 (ja) | 1998-08-26 | 1998-08-26 | ノイズ成分除去方法及びノイズ成分除去プログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000067161A JP2000067161A (ja) | 2000-03-03 |
JP3030814B2 true JP3030814B2 (ja) | 2000-04-10 |
Family
ID=17049817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10239782A Expired - Lifetime JP3030814B2 (ja) | 1998-08-26 | 1998-08-26 | ノイズ成分除去方法及びノイズ成分除去プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3030814B2 (ja) |
-
1998
- 1998-08-26 JP JP10239782A patent/JP3030814B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2000067161A (ja) | 2000-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3338537B2 (ja) | 画像傾き検出装置 | |
WO2009114967A1 (zh) | 基于移动扫描的图像处理方法及装置 | |
JP3830998B2 (ja) | 罫線除去方法及びこれを用いた文字認識装置 | |
JP2001358925A (ja) | 画像処理のための装置、方法及び記録媒体 | |
JP2000207489A (ja) | 文字抽出方法、装置および記録媒体 | |
JPH07105312A (ja) | 光学式文字読取装置における文字イメージのごみ除去方法及び装置 | |
JP4804382B2 (ja) | 画像処理方法、画像処理プログラムおよび画像処理装置 | |
JP3030814B2 (ja) | ノイズ成分除去方法及びノイズ成分除去プログラムを記録した記録媒体 | |
JP4221534B2 (ja) | 2値画像の特徴量抽出方法 | |
JP4238323B2 (ja) | 画像処理方法及び画像処理装置 | |
JP2963508B2 (ja) | 文字切出し装置 | |
JPH08272956A (ja) | ノイズ除去方法およびノイズ除去装置 | |
JP2001126027A (ja) | ナンバープレート認識装置 | |
EP0446630A2 (en) | Method and apparatus for segmenting characters in an amount field on a financial document | |
JP4040231B2 (ja) | 文字抽出方法及び装置並びに記憶媒体 | |
JP3379327B2 (ja) | 文字認識装置 | |
JP3545227B2 (ja) | 画像処理方法及び装置、光学式文字読取装置 | |
JP2003216958A (ja) | 多角形検出装置、多角形検出方法及び多角形検出プログラム | |
JPH0773273A (ja) | パターン切出しおよび認識方法とそのシステム | |
JP4094240B2 (ja) | 画像特性判別処理装置、画像特性判別処理方法、該方法を実行させるためのプログラム及び該プログラムを格納したコンピュータ読み取り可能な記憶媒体 | |
JPS6361382A (ja) | 線画像からの文字成分除去方法 | |
JP2803735B2 (ja) | 罫線を含んだ文字認識装置 | |
JPH02166583A (ja) | 文字認識装置 | |
JPH08315140A (ja) | 画像処理装置およびその方法 | |
JP4248700B2 (ja) | 罫線識別方法、罫線識別装置および記録媒体 |