JPH07105312A

JPH07105312A - 光学式文字読取装置における文字イメージのごみ除去方法及び装置

Info

Publication number: JPH07105312A
Application number: JP5251803A
Authority: JP
Inventors: Hiroshi Sasaki; 央佐々木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1993-10-07
Filing date: 1993-10-07
Publication date: 1995-04-21
Also published as: US5956433A

Abstract

(57)【要約】【目的】本発明は光学式文字読取装置の文字イメージの
ごみ除去方法に関し，複写された帳票に本来の文字と遊
離したごみ（汚れ）だけでなく接触したごみも取り除い
て文字の認識精度を向上させることを目的とする。【構成】イメージ・スキャナにより帳票等を読取って得
られた画像から，１文字分の文字イメージを切出し，切
出された文字イメージから分離したセグメント（かたま
り）を検出し，検出されたセグメント数が読取対象とな
る文字種（属性）により決まる数より多いと消去するセ
グメントを決定して，該セグメントを遊離ごみとして消
去する。この遊離ごみが消去された文字イメージに対し
文字認識を行って，認識ができないと，該文字イメージ
の線幅の分布に基づいて代表線幅を識別し，該代表線幅
により形成する外接矩形を求め，該外接矩形より外に位
置するイメージの画素を消去して外部接触ごみを除去す
るよう構成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は複写された帳票等を読取
る光学式文字読取装置における文字イメージのごみ除去
方式に関する。

【０００２】近年，光学式文字読取装置により各種の帳
票類の文字を読取るようになったが，入力される帳票上
には極力，よごれ，消しかす等のごみがないことを前提
としており，ノーカーボン用紙の複写された帳票のよう
にごみが多く発生すると，認識精度が低下している。

【０００３】

【従来の技術】従来の光学式文字読取装置では，帳票を
読取る場合に文字イメージの中の遊離したごみ（よご
れ）を検出して消去することができた。その方法を図１
３に示す従来例の説明図を用いて説明する。図１３のＡ
は光学式文字読取装置により読取った一つの文字イメー
ジを表し，高さ（Ｈ）と幅（Ｗ）で示す枠内の各画素に
よりイメージが構成される。このイメージの中の黒の画
素のかたまりはＡとＢであり，大きなかたまりＡと小さ
いかたまりＢの黒の各画素についてフラグをつけて，フ
ラグ同士が接続しているか否かの識別を行う。この結
果，かたまりＡがＢと分離していることを識別する。こ
の後，読取る文字の種類に応じて決められたかたまりの
数と比べて，決められた数より多い場合は分離したかた
まりの小さい方のかたまりＢをごみとして消去する。ま
たは，かたまりＡとかたまりＢを含む文字イメージによ
り文字認識（パターンマッチング等の従来の方法によ
る）を行い，認識できない場合は，ごみとしてかたまり
Ｂを消去して文字認識を行う。

【０００４】

【発明が解決しようとする課題】近年，光学式文字読取
装置によりノーカーボン用紙の複写された帳票を読取り
たいという要求が増大している。しかし，複写された帳
票は折れ曲がったり，強い接触があると発色するため恒
常的にごみ（よごれを含む，以下同じ）が存在する。こ
のため，光学式文字読取装置は，そのごみによって認識
精度を保つことが困難になっている。

【０００５】すなわち，切り出した文字イメージに付随
するごみとして遊離したごみに対しては，上記従来の技
術によりある程度対処することができるが，本来の文字
イメージに接触したごみがあるとこれを消去することが
できないという問題があった。

【０００６】本発明は複写された帳票に本来の文字と遊
離したごみだけでなく接触したごみが存在してもこれを
取り除いて文字の認識精度を向上させることができる光
学式文字読取装置の文字イメージのごみ除去方法および
装置を提供することを目的とする。

【０００７】

【課題を解決するための手段】図１は本発明の原理構成
図，図２は本発明の動作原理の説明図である。図１にお
いて，１は光学式文字読取装置において光学的に読取ら
れた各文字イメージについてごみを取って文字を読取る
処理を行う文字読取装置，２は文字切出し部，３はセグ
メント化部，４は遊離ごみ消去部，５は文字認識部，６
は外部接触ごみ消去部，７は内部接触ごみ消去部，８は
メモリ，９は文字認識のためのパターンが格納された辞
書部である。

【０００８】本発明は複写された帳票等の文字を読取っ
て得られた文字イメージに対し，セグメント化を行って
遊離したごみを取り除いて文字認識を行って，正常に認
識できないと文字イメージに対し，線幅のヒストグラム
を作成して代表線幅を得ることにより文字の外側に付い
た外部接触ごみを取り除き，更に文字イメージの低解像
度イメージを作成して辞書と照合して最も近似した文字
を検出し，その文字の低解像度のイメージを用いて内部
接触ごみを取り除いた上で文字認識を行うことにより文
字読取を行う。

【０００９】

【作用】図２を参照しながら図１の作用を説明すると，
図示されない光学的なスキャナにより帳票を読取って，
読取られた文字を含むイメージが文字読取装置１のメモ
リ８に格納される。この後，文字読取装置１の文字切出
し部２は，メモリ８のイメージから１文字分の白及び黒
を表すドットで構成された文字イメージが切出される。
切出された文字イメージが図２のＢ．に例として示す内
容であるものとする。この中のは図２のＡ．に示すよ
うにごみが付かない時の元の文字イメージ（図の例には
特定の文字は示さないが，英，数字，かな等の中の一つ
のイメージ）であり，は遊離ごみ，は外部接触ご
み，は内部接触ごみを表す。

【００１０】次にセグメント化部３において，この１文
字分の文字イメージの黒画素を表す各ビット（ドット）
についてラベリングにより，それぞれのビットが上下，
左右及び斜め方向の隣接ビットと接続しているかの関係
を識別することにより，分離した位置にある各かたまり
（セグメント）を抽出する。図２のＢ．には互いに接続
した，，を含む一つのセグメントと，これと分離
した位置にあるのセグメントが抽出される。

【００１１】次に，遊離ごみ消去部４が駆動され，予め
読取対象となる文字種（英字，数字，かな文字等）が指
定されることにより，対応するセグメント数の最大値が
決まるので，その最大値と上記セグメント化部３から得
られたセグメント数を比べて，最大値より得られたセグ
メント数の方が大きいと，セグメント化された複数の中
から小さい面積を持つセグメントを消去する（消去され
るセグメントの黒の画素を白の画素に変更する）。図２
のＣの例は，読取対象の文字種が最大１つのセグメント
（数字の例）である場合で，のセグメントの面積が
，，を含むセグメントより小さいので遊離ごみと
してセグメントを消去した状態を示す。

【００１２】この遊離ごみが消去された文字イメージに
ついて，文字認識部５は辞書部９に格納された各文字の
パターンと照合して文字認識を行う。この時，ごみ等が
あるために認識ができないことを表す出力が発生する
と，外部接触ごみ消去部６が起動する。

【００１３】外部接触ごみ消去部６は，ヒストグラム作
成手段６ａにより外部接触ごみが消去された文字イメー
ジの垂直（上下）方向と水平（左右）方向のそれぞれを
順次走査して，各走査において検出した線幅（黒画素が
連続する長さ）の分布状態を表すヒストグラムを作成
し，次に外接矩形形成手段６ｂによりこのヒストグラム
から代表的な線幅（元の文字の線の幅）を識別して，そ
の代表線幅を持つイメージと水平，垂直の線で外接する
矩形を作成する。図２のＣ．の例では，代表線幅を持つ
イメージはであり，その外接矩形は点線で示すの矩
形となる。

【００１４】この後，外部接触ごみ消去手段６ｃはセグ
メントを構成するイメージ（，，を含む）から上
記の外接矩形より外部のイメージを取り出す。図２の例
ではＣ．の状態でで示す外接矩形より外部に位置する
のイメージを消去することによりＤ．に示すように外
接矩形内のイメージが残る。

【００１５】文字読取装置１で内部接触ごみ消去部７が
駆動される。ここでは，残ったイメージに対し低解像度
イメージ作成手段７ａにより低解像度のイメージを作成
し，マッチング手段７ｂにおいて辞書部９に予め用意さ
れた各文字の低解像度イメージとパターン・マッチング
を行い，最も相違度が低い（近似度が高いまたは近い）
文字を辞書から選択する。次に内部接触ごみ消去手段７
ｃは選択された低解像度の文字イメージ（辞書）に対
し，上記の作成された低解像度のイメージ内の不一致と
なる部分（黒を表すビット）に対応する元の解像度の文
字イメージの部分を白画素に書き変えることにより内部
のごみを消去する。

【００１６】上述の内部ごみ消去を行った元の解像度の
文字イメージに対して，上記の文字認識部５により辞書
部９を用いた文字認識を行う。図２の例では，Ｄ．に示
す，を含む文字イメージに対し内部接触ごみ消去部
７の動作により，に示す内部接触ごみが消去されて
Ｅ．に示す元の文字イメージが得られて文字認識が行わ
れる。

【００１７】

【実施例】図３は実施例のハードウェア構成図，図４乃
至図７は実施例の処理フロー（その１）〜（その４）で
ある。

【００１８】図３において，２０は処理装置（ＣＰＵ及
びプログラム格納用及びワークエリアを持つメモリを含
む），２１は帳票を読取るイメージ・スキャナ，２２は
画像格納用メモリ，２３は文字認識用の各文字イメージ
を格納した辞書メモリ，２４は辞書メモリの各文字イメ
ージに対応する低解像度のイメージを格納したごみ取り
セル辞書メモリである。

【００１９】処理装置２０内の２０ａ〜２０ｄは，それ
ぞれプログラムにより実現される主な機構を挙げたもの
であり，２０ａは１文字切出し部，２０ｂは１文字認識
部，２０ｃはごみ取り処理部，２０ｄはごみ取りセル辞
書照合部である。

【００２０】上記のハードウェア構成を備えた文字読取
装置において，処理装置２０により実行される処理フロ
ーを，各処理に関係する各図（図８乃至図１０）を参照
しながら説明する。

【００２１】最初に図４において，イメージ・スキャナ
（図３の２１）によりノーカーボンの複写した帳票を読
取って得られた帳票イメージが入力されて，画面格納用
メモリ２２に格納される（図４のＳ１）。次に，処理の
終了条件が判別される。すなわち，全ての文字について
処理が終了したか判別し（同Ｓ２），終了していない
と，処理の対象となる１文字分のイメージ（黒画素また
は白画素を表す多数のビットで構成する）を画像格納用
メモリ２２（図３）から切出す（図４のＳ３）。次に文
字イメージをラベリングしてセグメント化する（同Ｓ
４）。

【００２２】このラベリングにおける接続検査条件を図
８により説明する。図８には文字イメージの中の一部の
画素（５×５個の画素）が示され，白の画素と黒の画素
（網かけで示す）が配置された例である。ラベリング
は，この中の全ての黒画素を検出点（Ｐで表す）として
順番に施される処理であり，図８の状態はＰで表す黒画
素を検出点としてこれに対し，その上・下（と），
左・右（と）及び斜め（，，，）の各画素
を検査位置として選択し，それらが黒かどうかを調べ，
黒（，，，，が黒）の場合，それらの黒画素
（とととと）を一つのセグメント（接続され
たかたまり）として扱う。ノーカーボンの複写された帳
票の場合，文字イメージが掠れ（かすれ）ている場合が
あるので，画素が接続されたか否かを検査する接続検査
条件として，上下左右に加えて斜め方向を調べるように
することにより，かすれによりセグメントが分離されて
しまうことを防止することができる。このラベリングに
より対象となる文字イメージ内に含まれるセグメントの
個数及びそれぞれの面積を算出する。この時面積は，そ
のセグメントの外接矩形（縦×横）の面積とする（図２
のＢに示すｘ×ｙ）。

【００２３】図４に戻って，次に文字イメージの中で残
すべきセグメント数を決定する（同Ｓ５）。このセグメ
ント数決定の原理を，図９に示す文字イメージとして残
すセグメント数の説明図を用いて説明する。

【００２４】図９のＡ．は手書きのＡＮＫＳ（Ａは英
字：アルファベット，Ｎは数字：ニュウメラル，Ｋはカ
ナ文字，Ｓは記号：シンボル，の各イニシャル）を読取
る場合に残すべきセグメント数（最大数）が，各読取属
性（読取る対象となる文字種）である数字，英字，数字
記号，英字記号，カナ（それぞれ例が図示されている）
毎に規定されている。また，図９のＢ．には読取対象が
活字ＡＮＫＳである場合の各読取属性に対応する最大の
セグメント数が規定されている。これらの中で残すセグ
メント数が「１」となっている文字種は，基準となる文
字の文字イメージ中に分離文字が無いためである。

【００２５】文字種類は帳票の読取を行う時に文字読取
装置に対し読取属性を表す指示が入力されるので，図９
に示す文字種類に対応するセグメント数が文字属性のテ
ーブルとして記憶しておけば，指定された文字種に対応
する残すべきセグメント数が決定される。

【００２６】セグメント数が決定すると，次に文字イメ
ージの中のセグメント数と残すべきセグメント数が同じ
か判定し（図４のＳ６），同じでなく且つ文字イメージ
のセグメントの数の方が多い場合は文字イメージのセグ
メントの中で最小の面積のセグメントを文字イメージか
ら消去する（図４のＳ７）。この例は図２のＣ．に示さ
れている。なお，文字イメージのセグメントの数が残す
べきセグメントの数より少ない場合は，図示されないが
ごみ取処理を行なわず，１文字認識のみ行う。

【００２７】例えば，手書きＡＮＫＳの数字の文字イメ
ージの場合，残すセグメント数は１個であり，文字イメ
ージ内に２個以上のセグメントが存在する場合には，消
去する遊離したごみのセグメントが存在することにな
り，最小面積のセグメントから順に昇順に不要な遊離ご
みとして消去し，残すセグメントは面積が大きいものと
なる。

【００２８】上記のステップＳ６で同じと判定される
と，第１回目の１文字認識を行う（図４のＳ８）。この
１文字認識は，辞書メモリ２３（図３）の各文字イメー
ジと照合することにより行われる。次に，図５に移っ
て，この認識結果について，リジェクト（認識できな
い）か，正常に認識できたかの判定をする（図５のＳ
９）。

【００２９】この判定は，文字認識により得られた答え
の候補の確からしさ（相違度の大きさ）を調べて，読取
属性及びカテゴリ（各文字）毎に設定された定数と比べ
てその答えの相違度が大きいと（その答えが確からしく
ないと）リジェクトされ，相違度が小さい場合は，接触
ごみが無いものと判断しその答えを認識結果として保持
（処理装置内のメモリ）して次の文字についての処理へ
戻る（図５のＳ１０）。

【００３０】リジェクトされると，文字イメージの中に
接触したごみがあるとして，接触ごみの消去の処理がス
テップＳ１１以降で行われる。最初に，文字イメージ
（遊離ごみを消去した後のイメージ）に対し，上下方向
の各ライン上に存在する線（黒の画素）の線幅（長さ）
を測り，その線の本数を数えてヒストグラムを作成し
（図５のＳ１１），続いて左右方向の各ライン上に存在
する線の線幅を測り，その線の本数を数えてヒストグラ
ムを作成する（図５のＳ１２）。

【００３１】図１０は文字イメージの線幅を測る方法の
説明図，図１１は文字イメージ線幅の線本数のヒストグ
ラムの例である。なお，図１１の内容は図１０の文字イ
メージの例と関係ない。

【００３２】文字イメージの線幅のヒストグラムは，図
１０に示すように縦・横の長さがＨ×Ｗの文字イメージ
（英字「Ｑ」の例）に対し，上下方向にライン番号１か
ら順に走査した時に各ライン上に存在する線の幅とその
個数を検出することにより作成される。左右方向の線幅
のヒストグラムは図１１のＡ．の例に示すように，０〜
Ｓ，Ｓ〜２Ｓ，・・・，ｍＳ〜Ｗは，各線幅の範囲を表
し，Ｓとして例えば１ｍｍを基本単位とし，最大の幅は
Ｈ（文字イメージ全幅）である。上下方向のヒストグラ
ムも図１１のＢ．に示すように各線幅の範囲毎に測定さ
れた線幅が書き込まれ，最大の幅はＨ（文字イメージの
高さ）である。

【００３３】図５の処理フローに戻って，次に上下，左
右方向のヒストグラムから代表線幅（筆跡）を決定する
（図５のＳ１３）。この決定は，上記の図１１のＡ．及
びＢ．に示す各ヒストグラムから最も多くの個数が分布
する線幅を判別することにより行われ，図１１の例では
線幅２Ｓ〜３Ｓが代表線幅となる。

【００３４】次いで，文字イメージについて代表線幅の
分布（上下，左右のライン番号）から，代表線幅で形成
されるイメージの外接矩形を求める（図５のＳ１４）。
更に，文字イメージについて代表線幅の外接矩形外のご
みを消去する（同Ｓ１５）。

【００３５】図１０に示す文字イメージの例では，ａと
して示す幅が一番多く，これが代表線幅となり，その縦
・横の分布を調べて，文字の外接矩形は縦線ｂ，ｃ，横
線ｄ，ｅで形成されることが求められ，その外接矩形の
外部のごみとしてｆ，ｇが消去される。

【００３６】この後，外部矩形外のごみが消去された文
字イメージにより文字認識を行うことができるが，この
実施例では文字イメージの内部にも接触ごみが存在する
可能性があるものとして，Ｓ１６以下の内部ごみ消去の
処理を開始する。

【００３７】すなわち，文字イメージについて，ｎ×ｍ
のセルに分解した低解像度のイメージを作成する（図５
のＳ１６）。この低解像度のイメージ作成の説明図を図
１２に示す。図１２の場合，元の文字イメージが，縦方
向にｈ×ｎビット，横方向にｗ×ｍビットで構成されて
いる例であり，この文字イメージをｎ（縦）×ｍ（横）
ビットで構成する「セル」に変換してｈ×ｗ個のセルに
分解する。各セルは，元のｎ×ｍの中に黒の画素が含ま
れていればそのセルは１つの黒画素とし，黒画素が無い
場合は１つの白画素として，ｈ×ｗの低解像度のイメー
ジが作成される。

【００３８】具体例で説明すると，縦３２ビット，横４
８ビットの文字イメージを，縦８ビット×横８ビットの
セルにより分解すると，４（縦）×６（横）＝２４（セ
ル）の低解像度の文字イメージとなる。

【００３９】図５のステップＳ１６に続いて，図６に移
行し，辞書の対象カテゴリを全て照合したか判定する
（図６のＳ１７）。照合が終了してないと，ごみ取セル
辞書と文字イメージの低解像度イメージとをパターン・
マッチング（照合）する（同Ｓ１８）。

【００４０】ここで，ごみ取セル辞書について説明する
と，ごみ取セル辞書は予め辞書となり得る各カテゴリ
（１文字種に対してＮ個の文字イメージパターンを集め
たもの）の辞書となる各文字イメージを上記図１２と同
様の方法で，ｎ×ｍのセルに分割してｈ×ｗの低解像度
のイメージを作成して，多数のカテゴリを集めたもので
ごみ取りセル辞書メモリ（図３の２４に格納）が作成さ
れる。なお，ここで「カテゴリ」とは，文字コードの意
味である。

【００４１】黒画素，白画素も元の辞書メモリのセルを
構成する各ビットの内容により決定する。この低解像度
のイメージをごみ取りセル辞書メモリとすることによ
り，文字イメージ・サイズが不定で，変形する可能性の
ある文字についてもある程度の低い解像度に分解すれ
ば，その変形による影響を軽減することができる。

【００４２】この低解像度のごみ取りセル辞書メモリの
内容と読取られた文字イメージの低解像度イメージとを
照合し，その相違度の総和を求める（図６のＳ１９）。
続いて，他の辞書（他の文字のごみ取りセル辞書）への
処理に移り（図６のＳ２０），同様のパターン・マッチ
ングを行い，対象カテゴリを全ての照合が終了すると
（同Ｓ１７），照合した辞書の中でその相違度の総和が
最も小さいものを選び出して一つの候補文字のカテゴリ
（文字コード）を決定する（図６のＳ２１）。

【００４３】続いて，決定したカテゴリの辞書と文字イ
メージの低解像度イメージを重ね合わせて全ての画素を
チェックする（図６のＳ２２）。このチェックは，図７
に移行して，全ての画素をチェックしたか判別し（図７
のＳ２３），終了していない場合，チェック対象となる
画素の辞書は白画素か判別する（同Ｓ２４）。黒画素の
場合はステップ２３へ戻り次の画素のチェックを行う
が，白画素の場合は，対応する低解像度イメージ（読取
対象のイメージ）が黒画素か判定する（図７のＳ２
５）。ノー（白画素の場合）の場合は，辞書と同じであ
るから次の画素のチェック（同Ｓ２３）に進むが，イエ
ス（黒画素）の場合は，低解像度イメージのこの画素に
対応する部分の元の文字イメージのｎ×ｍのセルを白に
変換することにより，内部の接触ごみを元の文字イメー
ジから削除する（図７のＳ２６）。図１０の例では，内
部の接触ごみｈが削除される。

【００４４】この後，ステップＳ２３へ戻り，次の画素
について同様の処理を行い，全ての画素についてのチェ
ックが終了すると，全てのごみが削除された文字イメー
ジについて，第２回目の１文字認識を辞書（図２の辞書
メモリ２３）を用いて行って答えを確定する（図７のＳ
２７）。この後，次の文字を選択し（図７のＳ２８），
図４のステップＳ２へ戻って同様の処理が開始され，全
ての文字について処理が終了するとこの処理フローを終
了する。

【００４５】

【発明の効果】本発明によれば光学式文字読取装置にお
けるノーカーボンの複写帳票等の読取において，入力し
た帳票イメージ上に恒常的に発生するごみ（よごれ）を
文字イメージから除去して，文字認識を行うことにより
認識精度を向上することができる。

【図面の簡単な説明】

【図１】本発明の原理構成図である。

【図２】本発明の動作原理の説明図である。

【図３】実施例のハードウェア構成図である。

【図４】実施例の処理フロー（その１）である。

【図５】実施例の処理フロー（その２）である。

【図６】実施例の処理フロー（その３）である。

【図７】実施例の処理フロー（その４）である。

【図８】ラベリングにおける接続検査条件の説明図であ
る。

【図９】文字イメージとして残すセグメント数の説明図
である。

【図１０】文字イメージの線幅を測る方法の説明図であ
る。

【図１１】文字イメージ線幅の線本数のヒストグラムの
例を示す図である。

【図１２】低解像度のイメージ作成の説明図である。

【図１３】従来例の説明図である。

【符号の説明】

１文字読取装置２文字切出し部３セグメント化部４遊離ごみ消去部５文字認識部６外部接触ごみ消去部６ａヒストグラム作成手段６ｂ外接矩形形成手段６ｃ外部接触ごみ消去手段７内部接触ごみ消去部７ａ低解像度イメージ作成手段７ｂマッチング手段７ｃ内部ごみ消去手段８メモリ９辞書部

Claims

【特許請求の範囲】

【請求項１】光学式文字読取装置における文字イメー
ジのごみ除去方法において，イメージ・スキャナにより
帳票等を読取って得られた画像から，１文字分の文字イ
メージを切出し，切出された文字イメージから分離した
セグメント（かたまり）を検出し，検出されたセグメン
ト数が読取対象となる文字種（属性）により決まる数よ
り多いと消去するセグメントを決定して，該セグメント
を遊離ごみとして消去し，遊離ごみが消去された文字イ
メージに対し文字認識を行って，認識ができないと，該
文字イメージの線幅の分布に基づいて代表線幅を識別
し，該代表線幅により形成する外接矩形を求め，該外接
矩形より外に位置するイメージの画素を消去して外部接
触ごみを除去することを特徴とする光学式文字読取装置
における文字イメージのごみ除去方法。
【請求項２】請求項１において，前記外部接触ごみを
除去した後の文字イメージに対し，文字辞書とパターン
マッチングにより最も近似する文字パターンと一致しな
い文字イメージのビットを検出して，そのビットを書き
換えることにより内部接触ごみを消去することを特徴と
する光学式文字読取装置における文字イメージのごみ除
去方法。
【請求項３】光学式文字読取装置における文字イメー
ジのごみ除去装置において，文字を認識する文字読取装
置は，イメージ・スキャナにより読取られた画像から１
文字分の文字イメージを切出す文字切出し部，切出され
た１文字を構成するセグメント（かたまり）を検出する
セグメント化部，該検出されたセグメント数が読取対象
となる文字種により決まるセグメント数より多いと前記
検出されたセグメントの中からごみとなるセグメントを
消去する遊離ごみ消去部，前記遊離ごみが消去された文
字イメージについて文字認識を行う文字認識部，前記文
字認識により認識ができないと起動し，文字イメージの
線幅を測ることにより代表線幅を識別し，該代表線幅に
より形成する外接矩形を用いて外部接触ごみを消去する
外部接触ごみ消去手段，とを備えることを特徴とする光
学式文字読取装置における文字イメージのごみ除去装
置。
【請求項４】前記遊離ごみ消去部は，検出されたセグ
メント数が読取対象となる文字種により決まるセグメン
ト数より多いと，前記検出されたセグメントの中から面
積が小さいセグメントから順に消去することを特徴とす
る請求項３に記載の光学式文字読取装置における文字イ
メージのごみ除去装置。
【請求項５】前記外部接触ごみ消去部は，前記遊離ご
みが消去された文字イメージについて，上下方向及び横
方向の２方向について，順次各ライン上の線幅を検出
し，各ライン上に存在する線幅の個数を格納したヒスト
グラムを作成し，該ヒストグラムから代表線幅を識別す
ると共に代表線幅の外接矩形を構成するラインを検出す
ることを特徴とする請求項３または４に記載の光学式文
字読取装置における文字イメージのごみ除去装置。
【請求項６】前記外部接触ごみ消去部による外部接触
ごみ消去後の文字イメージに対し，内部接触ごみを消去
する内部接触ごみ消去部を設け，該内部接触ごみ消去部
は，文字辞書の各文字イメージとの照合により最も近似
する文字を検出し，該文字と一致しない文字イメージの
ビットを検出して，そのビットを書き換えることにより
内部接触ごみを消去することを特徴とする請求項３乃至
５に記載の光学式文字読取装置における文字イメージの
ごみ除去装置。
【請求項７】前記内部接触ごみ消去部は，文字イメー
ジを縦方向に複数（ｎ）ビット，横方向に複数（ｍ）ビ
ットで構成するセルに分解して，セルによる低解像度の
イメージを作成し，該低解像度のイメージと予め用意さ
れた同じ低解像度のイメージであるごみ取りセル辞書と
のパターンマッチングにより照合して，その結果に基づ
いて文字イメージ中に存在する内部接触ごみの位置を検
出して，該内部接触ごみを消去することを特徴とする請
求項６に記載の光学式文字読取装置における文字イメー
ジのごみ除去装置。