JPH07105312A - 光学式文字読取装置における文字イメージのごみ除去方法及び装置 - Google Patents

光学式文字読取装置における文字イメージのごみ除去方法及び装置

Info

Publication number
JPH07105312A
JPH07105312A JP5251803A JP25180393A JPH07105312A JP H07105312 A JPH07105312 A JP H07105312A JP 5251803 A JP5251803 A JP 5251803A JP 25180393 A JP25180393 A JP 25180393A JP H07105312 A JPH07105312 A JP H07105312A
Authority
JP
Japan
Prior art keywords
character
image
dust
character image
line width
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP5251803A
Other languages
English (en)
Inventor
Hiroshi Sasaki
央 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP5251803A priority Critical patent/JPH07105312A/ja
Publication of JPH07105312A publication Critical patent/JPH07105312A/ja
Priority to US08/820,382 priority patent/US5956433A/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/155Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】本発明は光学式文字読取装置の文字イメージの
ごみ除去方法に関し,複写された帳票に本来の文字と遊
離したごみ(汚れ)だけでなく接触したごみも取り除い
て文字の認識精度を向上させることを目的とする。 【構成】イメージ・スキャナにより帳票等を読取って得
られた画像から,1文字分の文字イメージを切出し,切
出された文字イメージから分離したセグメント(かたま
り)を検出し,検出されたセグメント数が読取対象とな
る文字種(属性)により決まる数より多いと消去するセ
グメントを決定して,該セグメントを遊離ごみとして消
去する。この遊離ごみが消去された文字イメージに対し
文字認識を行って,認識ができないと,該文字イメージ
の線幅の分布に基づいて代表線幅を識別し,該代表線幅
により形成する外接矩形を求め,該外接矩形より外に位
置するイメージの画素を消去して外部接触ごみを除去す
るよう構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は複写された帳票等を読取
る光学式文字読取装置における文字イメージのごみ除去
方式に関する。
【0002】近年,光学式文字読取装置により各種の帳
票類の文字を読取るようになったが,入力される帳票上
には極力,よごれ,消しかす等のごみがないことを前提
としており,ノーカーボン用紙の複写された帳票のよう
にごみが多く発生すると,認識精度が低下している。
【0003】
【従来の技術】従来の光学式文字読取装置では,帳票を
読取る場合に文字イメージの中の遊離したごみ(よご
れ)を検出して消去することができた。その方法を図1
3に示す従来例の説明図を用いて説明する。図13のA
は光学式文字読取装置により読取った一つの文字イメー
ジを表し,高さ(H)と幅(W)で示す枠内の各画素に
よりイメージが構成される。このイメージの中の黒の画
素のかたまりはAとBであり,大きなかたまりAと小さ
いかたまりBの黒の各画素についてフラグをつけて,フ
ラグ同士が接続しているか否かの識別を行う。この結
果,かたまりAがBと分離していることを識別する。こ
の後,読取る文字の種類に応じて決められたかたまりの
数と比べて,決められた数より多い場合は分離したかた
まりの小さい方のかたまりBをごみとして消去する。ま
たは,かたまりAとかたまりBを含む文字イメージによ
り文字認識(パターンマッチング等の従来の方法によ
る)を行い,認識できない場合は,ごみとしてかたまり
Bを消去して文字認識を行う。
【0004】
【発明が解決しようとする課題】近年,光学式文字読取
装置によりノーカーボン用紙の複写された帳票を読取り
たいという要求が増大している。しかし,複写された帳
票は折れ曲がったり,強い接触があると発色するため恒
常的にごみ(よごれを含む,以下同じ)が存在する。こ
のため,光学式文字読取装置は,そのごみによって認識
精度を保つことが困難になっている。
【0005】すなわち,切り出した文字イメージに付随
するごみとして遊離したごみに対しては,上記従来の技
術によりある程度対処することができるが,本来の文字
イメージに接触したごみがあるとこれを消去することが
できないという問題があった。
【0006】本発明は複写された帳票に本来の文字と遊
離したごみだけでなく接触したごみが存在してもこれを
取り除いて文字の認識精度を向上させることができる光
学式文字読取装置の文字イメージのごみ除去方法および
装置を提供することを目的とする。
【0007】
【課題を解決するための手段】図1は本発明の原理構成
図,図2は本発明の動作原理の説明図である。図1にお
いて,1は光学式文字読取装置において光学的に読取ら
れた各文字イメージについてごみを取って文字を読取る
処理を行う文字読取装置,2は文字切出し部,3はセグ
メント化部,4は遊離ごみ消去部,5は文字認識部,6
は外部接触ごみ消去部,7は内部接触ごみ消去部,8は
メモリ,9は文字認識のためのパターンが格納された辞
書部である。
【0008】本発明は複写された帳票等の文字を読取っ
て得られた文字イメージに対し,セグメント化を行って
遊離したごみを取り除いて文字認識を行って,正常に認
識できないと文字イメージに対し,線幅のヒストグラム
を作成して代表線幅を得ることにより文字の外側に付い
た外部接触ごみを取り除き,更に文字イメージの低解像
度イメージを作成して辞書と照合して最も近似した文字
を検出し,その文字の低解像度のイメージを用いて内部
接触ごみを取り除いた上で文字認識を行うことにより文
字読取を行う。
【0009】
【作用】図2を参照しながら図1の作用を説明すると,
図示されない光学的なスキャナにより帳票を読取って,
読取られた文字を含むイメージが文字読取装置1のメモ
リ8に格納される。この後,文字読取装置1の文字切出
し部2は,メモリ8のイメージから1文字分の白及び黒
を表すドットで構成された文字イメージが切出される。
切出された文字イメージが図2のB.に例として示す内
容であるものとする。この中のは図2のA.に示すよ
うにごみが付かない時の元の文字イメージ(図の例には
特定の文字は示さないが,英,数字,かな等の中の一つ
のイメージ)であり,は遊離ごみ,は外部接触ご
み,は内部接触ごみを表す。
【0010】次にセグメント化部3において,この1文
字分の文字イメージの黒画素を表す各ビット(ドット)
についてラベリングにより,それぞれのビットが上下,
左右及び斜め方向の隣接ビットと接続しているかの関係
を識別することにより,分離した位置にある各かたまり
(セグメント)を抽出する。図2のB.には互いに接続
した,,を含む一つのセグメントと,これと分離
した位置にあるのセグメントが抽出される。
【0011】次に,遊離ごみ消去部4が駆動され,予め
読取対象となる文字種(英字,数字,かな文字等)が指
定されることにより,対応するセグメント数の最大値が
決まるので,その最大値と上記セグメント化部3から得
られたセグメント数を比べて,最大値より得られたセグ
メント数の方が大きいと,セグメント化された複数の中
から小さい面積を持つセグメントを消去する(消去され
るセグメントの黒の画素を白の画素に変更する)。図2
のCの例は,読取対象の文字種が最大1つのセグメント
(数字の例)である場合で,のセグメントの面積が
,,を含むセグメントより小さいので遊離ごみと
してセグメントを消去した状態を示す。
【0012】この遊離ごみが消去された文字イメージに
ついて,文字認識部5は辞書部9に格納された各文字の
パターンと照合して文字認識を行う。この時,ごみ等が
あるために認識ができないことを表す出力が発生する
と,外部接触ごみ消去部6が起動する。
【0013】外部接触ごみ消去部6は,ヒストグラム作
成手段6aにより外部接触ごみが消去された文字イメー
ジの垂直(上下)方向と水平(左右)方向のそれぞれを
順次走査して,各走査において検出した線幅(黒画素が
連続する長さ)の分布状態を表すヒストグラムを作成
し,次に外接矩形形成手段6bによりこのヒストグラム
から代表的な線幅(元の文字の線の幅)を識別して,そ
の代表線幅を持つイメージと水平,垂直の線で外接する
矩形を作成する。図2のC.の例では,代表線幅を持つ
イメージはであり,その外接矩形は点線で示すの矩
形となる。
【0014】この後,外部接触ごみ消去手段6cはセグ
メントを構成するイメージ(,,を含む)から上
記の外接矩形より外部のイメージを取り出す。図2の例
ではC.の状態でで示す外接矩形より外部に位置する
のイメージを消去することによりD.に示すように外
接矩形内のイメージが残る。
【0015】文字読取装置1で内部接触ごみ消去部7が
駆動される。ここでは,残ったイメージに対し低解像度
イメージ作成手段7aにより低解像度のイメージを作成
し,マッチング手段7bにおいて辞書部9に予め用意さ
れた各文字の低解像度イメージとパターン・マッチング
を行い,最も相違度が低い(近似度が高いまたは近い)
文字を辞書から選択する。次に内部接触ごみ消去手段7
cは選択された低解像度の文字イメージ(辞書)に対
し,上記の作成された低解像度のイメージ内の不一致と
なる部分(黒を表すビット)に対応する元の解像度の文
字イメージの部分を白画素に書き変えることにより内部
のごみを消去する。
【0016】上述の内部ごみ消去を行った元の解像度の
文字イメージに対して,上記の文字認識部5により辞書
部9を用いた文字認識を行う。図2の例では,D.に示
す,を含む文字イメージに対し内部接触ごみ消去部
7の動作により,に示す内部接触ごみが消去されて
E.に示す元の文字イメージが得られて文字認識が行わ
れる。
【0017】
【実施例】図3は実施例のハードウェア構成図,図4乃
至図7は実施例の処理フロー(その1)〜(その4)で
ある。
【0018】図3において,20は処理装置(CPU及
びプログラム格納用及びワークエリアを持つメモリを含
む),21は帳票を読取るイメージ・スキャナ,22は
画像格納用メモリ,23は文字認識用の各文字イメージ
を格納した辞書メモリ,24は辞書メモリの各文字イメ
ージに対応する低解像度のイメージを格納したごみ取り
セル辞書メモリである。
【0019】処理装置20内の20a〜20dは,それ
ぞれプログラムにより実現される主な機構を挙げたもの
であり,20aは1文字切出し部,20bは1文字認識
部,20cはごみ取り処理部,20dはごみ取りセル辞
書照合部である。
【0020】上記のハードウェア構成を備えた文字読取
装置において,処理装置20により実行される処理フロ
ーを,各処理に関係する各図(図8乃至図10)を参照
しながら説明する。
【0021】最初に図4において,イメージ・スキャナ
(図3の21)によりノーカーボンの複写した帳票を読
取って得られた帳票イメージが入力されて,画面格納用
メモリ22に格納される(図4のS1)。次に,処理の
終了条件が判別される。すなわち,全ての文字について
処理が終了したか判別し(同S2),終了していない
と,処理の対象となる1文字分のイメージ(黒画素また
は白画素を表す多数のビットで構成する)を画像格納用
メモリ22(図3)から切出す(図4のS3)。次に文
字イメージをラベリングしてセグメント化する(同S
4)。
【0022】このラベリングにおける接続検査条件を図
8により説明する。図8には文字イメージの中の一部の
画素(5×5個の画素)が示され,白の画素と黒の画素
(網かけで示す)が配置された例である。ラベリング
は,この中の全ての黒画素を検出点(Pで表す)として
順番に施される処理であり,図8の状態はPで表す黒画
素を検出点としてこれに対し,その上・下(と),
左・右(と)及び斜め(,,,)の各画素
を検査位置として選択し,それらが黒かどうかを調べ,
黒(,,,,が黒)の場合,それらの黒画素
(とととと)を一つのセグメント(接続され
たかたまり)として扱う。ノーカーボンの複写された帳
票の場合,文字イメージが掠れ(かすれ)ている場合が
あるので,画素が接続されたか否かを検査する接続検査
条件として,上下左右に加えて斜め方向を調べるように
することにより,かすれによりセグメントが分離されて
しまうことを防止することができる。このラベリングに
より対象となる文字イメージ内に含まれるセグメントの
個数及びそれぞれの面積を算出する。この時面積は,そ
のセグメントの外接矩形(縦×横)の面積とする(図2
のBに示すx×y)。
【0023】図4に戻って,次に文字イメージの中で残
すべきセグメント数を決定する(同S5)。このセグメ
ント数決定の原理を,図9に示す文字イメージとして残
すセグメント数の説明図を用いて説明する。
【0024】図9のA.は手書きのANKS(Aは英
字:アルファベット,Nは数字:ニュウメラル,Kはカ
ナ文字,Sは記号:シンボル,の各イニシャル)を読取
る場合に残すべきセグメント数(最大数)が,各読取属
性(読取る対象となる文字種)である数字,英字,数字
記号,英字記号,カナ(それぞれ例が図示されている)
毎に規定されている。また,図9のB.には読取対象が
活字ANKSである場合の各読取属性に対応する最大の
セグメント数が規定されている。これらの中で残すセグ
メント数が「1」となっている文字種は,基準となる文
字の文字イメージ中に分離文字が無いためである。
【0025】文字種類は帳票の読取を行う時に文字読取
装置に対し読取属性を表す指示が入力されるので,図9
に示す文字種類に対応するセグメント数が文字属性のテ
ーブルとして記憶しておけば,指定された文字種に対応
する残すべきセグメント数が決定される。
【0026】セグメント数が決定すると,次に文字イメ
ージの中のセグメント数と残すべきセグメント数が同じ
か判定し(図4のS6),同じでなく且つ文字イメージ
のセグメントの数の方が多い場合は文字イメージのセグ
メントの中で最小の面積のセグメントを文字イメージか
ら消去する(図4のS7)。この例は図2のC.に示さ
れている。なお,文字イメージのセグメントの数が残す
べきセグメントの数より少ない場合は,図示されないが
ごみ取処理を行なわず,1文字認識のみ行う。
【0027】例えば,手書きANKSの数字の文字イメ
ージの場合,残すセグメント数は1個であり,文字イメ
ージ内に2個以上のセグメントが存在する場合には,消
去する遊離したごみのセグメントが存在することにな
り,最小面積のセグメントから順に昇順に不要な遊離ご
みとして消去し,残すセグメントは面積が大きいものと
なる。
【0028】上記のステップS6で同じと判定される
と,第1回目の1文字認識を行う(図4のS8)。この
1文字認識は,辞書メモリ23(図3)の各文字イメー
ジと照合することにより行われる。次に,図5に移っ
て,この認識結果について,リジェクト(認識できな
い)か,正常に認識できたかの判定をする(図5のS
9)。
【0029】この判定は,文字認識により得られた答え
の候補の確からしさ(相違度の大きさ)を調べて,読取
属性及びカテゴリ(各文字)毎に設定された定数と比べ
てその答えの相違度が大きいと(その答えが確からしく
ないと)リジェクトされ,相違度が小さい場合は,接触
ごみが無いものと判断しその答えを認識結果として保持
(処理装置内のメモリ)して次の文字についての処理へ
戻る(図5のS10)。
【0030】リジェクトされると,文字イメージの中に
接触したごみがあるとして,接触ごみの消去の処理がス
テップS11以降で行われる。最初に,文字イメージ
(遊離ごみを消去した後のイメージ)に対し,上下方向
の各ライン上に存在する線(黒の画素)の線幅(長さ)
を測り,その線の本数を数えてヒストグラムを作成し
(図5のS11),続いて左右方向の各ライン上に存在
する線の線幅を測り,その線の本数を数えてヒストグラ
ムを作成する(図5のS12)。
【0031】図10は文字イメージの線幅を測る方法の
説明図,図11は文字イメージ線幅の線本数のヒストグ
ラムの例である。なお,図11の内容は図10の文字イ
メージの例と関係ない。
【0032】文字イメージの線幅のヒストグラムは,図
10に示すように縦・横の長さがH×Wの文字イメージ
(英字「Q」の例)に対し,上下方向にライン番号1か
ら順に走査した時に各ライン上に存在する線の幅とその
個数を検出することにより作成される。左右方向の線幅
のヒストグラムは図11のA.の例に示すように,0〜
S,S〜2S,・・・,mS〜Wは,各線幅の範囲を表
し,Sとして例えば1mmを基本単位とし,最大の幅は
H(文字イメージ全幅)である。上下方向のヒストグラ
ムも図11のB.に示すように各線幅の範囲毎に測定さ
れた線幅が書き込まれ,最大の幅はH(文字イメージの
高さ)である。
【0033】図5の処理フローに戻って,次に上下,左
右方向のヒストグラムから代表線幅(筆跡)を決定する
(図5のS13)。この決定は,上記の図11のA.及
びB.に示す各ヒストグラムから最も多くの個数が分布
する線幅を判別することにより行われ,図11の例では
線幅2S〜3Sが代表線幅となる。
【0034】次いで,文字イメージについて代表線幅の
分布(上下,左右のライン番号)から,代表線幅で形成
されるイメージの外接矩形を求める(図5のS14)。
更に,文字イメージについて代表線幅の外接矩形外のご
みを消去する(同S15)。
【0035】図10に示す文字イメージの例では,aと
して示す幅が一番多く,これが代表線幅となり,その縦
・横の分布を調べて,文字の外接矩形は縦線b,c,横
線d,eで形成されることが求められ,その外接矩形の
外部のごみとしてf,gが消去される。
【0036】この後,外部矩形外のごみが消去された文
字イメージにより文字認識を行うことができるが,この
実施例では文字イメージの内部にも接触ごみが存在する
可能性があるものとして,S16以下の内部ごみ消去の
処理を開始する。
【0037】すなわち,文字イメージについて,n×m
のセルに分解した低解像度のイメージを作成する(図5
のS16)。この低解像度のイメージ作成の説明図を図
12に示す。図12の場合,元の文字イメージが,縦方
向にh×nビット,横方向にw×mビットで構成されて
いる例であり,この文字イメージをn(縦)×m(横)
ビットで構成する「セル」に変換してh×w個のセルに
分解する。各セルは,元のn×mの中に黒の画素が含ま
れていればそのセルは1つの黒画素とし,黒画素が無い
場合は1つの白画素として,h×wの低解像度のイメー
ジが作成される。
【0038】具体例で説明すると,縦32ビット,横4
8ビットの文字イメージを,縦8ビット×横8ビットの
セルにより分解すると,4(縦)×6(横)=24(セ
ル)の低解像度の文字イメージとなる。
【0039】図5のステップS16に続いて,図6に移
行し,辞書の対象カテゴリを全て照合したか判定する
(図6のS17)。照合が終了してないと,ごみ取セル
辞書と文字イメージの低解像度イメージとをパターン・
マッチング(照合)する(同S18)。
【0040】ここで,ごみ取セル辞書について説明する
と,ごみ取セル辞書は予め辞書となり得る各カテゴリ
(1文字種に対してN個の文字イメージパターンを集め
たもの)の辞書となる各文字イメージを上記図12と同
様の方法で,n×mのセルに分割してh×wの低解像度
のイメージを作成して,多数のカテゴリを集めたもので
ごみ取りセル辞書メモリ(図3の24に格納)が作成さ
れる。なお,ここで「カテゴリ」とは,文字コードの意
味である。
【0041】黒画素,白画素も元の辞書メモリのセルを
構成する各ビットの内容により決定する。この低解像度
のイメージをごみ取りセル辞書メモリとすることによ
り,文字イメージ・サイズが不定で,変形する可能性の
ある文字についてもある程度の低い解像度に分解すれ
ば,その変形による影響を軽減することができる。
【0042】この低解像度のごみ取りセル辞書メモリの
内容と読取られた文字イメージの低解像度イメージとを
照合し,その相違度の総和を求める(図6のS19)。
続いて,他の辞書(他の文字のごみ取りセル辞書)への
処理に移り(図6のS20),同様のパターン・マッチ
ングを行い,対象カテゴリを全ての照合が終了すると
(同S17),照合した辞書の中でその相違度の総和が
最も小さいものを選び出して一つの候補文字のカテゴリ
(文字コード)を決定する(図6のS21)。
【0043】続いて,決定したカテゴリの辞書と文字イ
メージの低解像度イメージを重ね合わせて全ての画素を
チェックする(図6のS22)。このチェックは,図7
に移行して,全ての画素をチェックしたか判別し(図7
のS23),終了していない場合,チェック対象となる
画素の辞書は白画素か判別する(同S24)。黒画素の
場合はステップ23へ戻り次の画素のチェックを行う
が,白画素の場合は,対応する低解像度イメージ(読取
対象のイメージ)が黒画素か判定する(図7のS2
5)。ノー(白画素の場合)の場合は,辞書と同じであ
るから次の画素のチェック(同S23)に進むが,イエ
ス(黒画素)の場合は,低解像度イメージのこの画素に
対応する部分の元の文字イメージのn×mのセルを白に
変換することにより,内部の接触ごみを元の文字イメー
ジから削除する(図7のS26)。図10の例では,内
部の接触ごみhが削除される。
【0044】この後,ステップS23へ戻り,次の画素
について同様の処理を行い,全ての画素についてのチェ
ックが終了すると,全てのごみが削除された文字イメー
ジについて,第2回目の1文字認識を辞書(図2の辞書
メモリ23)を用いて行って答えを確定する(図7のS
27)。この後,次の文字を選択し(図7のS28),
図4のステップS2へ戻って同様の処理が開始され,全
ての文字について処理が終了するとこの処理フローを終
了する。
【0045】
【発明の効果】本発明によれば光学式文字読取装置にお
けるノーカーボンの複写帳票等の読取において,入力し
た帳票イメージ上に恒常的に発生するごみ(よごれ)を
文字イメージから除去して,文字認識を行うことにより
認識精度を向上することができる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の動作原理の説明図である。
【図3】実施例のハードウェア構成図である。
【図4】実施例の処理フロー(その1)である。
【図5】実施例の処理フロー(その2)である。
【図6】実施例の処理フロー(その3)である。
【図7】実施例の処理フロー(その4)である。
【図8】ラベリングにおける接続検査条件の説明図であ
る。
【図9】文字イメージとして残すセグメント数の説明図
である。
【図10】文字イメージの線幅を測る方法の説明図であ
る。
【図11】文字イメージ線幅の線本数のヒストグラムの
例を示す図である。
【図12】低解像度のイメージ作成の説明図である。
【図13】従来例の説明図である。
【符号の説明】
1 文字読取装置 2 文字切出し部 3 セグメント化部 4 遊離ごみ消去部 5 文字認識部 6 外部接触ごみ消去部 6a ヒストグラム作成手段 6b 外接矩形形成手段 6c 外部接触ごみ消去手段 7 内部接触ごみ消去部 7a 低解像度イメージ作成手段 7b マッチング手段 7c 内部ごみ消去手段 8 メモリ 9 辞書部

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 光学式文字読取装置における文字イメー
    ジのごみ除去方法において,イメージ・スキャナにより
    帳票等を読取って得られた画像から,1文字分の文字イ
    メージを切出し,切出された文字イメージから分離した
    セグメント(かたまり)を検出し,検出されたセグメン
    ト数が読取対象となる文字種(属性)により決まる数よ
    り多いと消去するセグメントを決定して,該セグメント
    を遊離ごみとして消去し,遊離ごみが消去された文字イ
    メージに対し文字認識を行って,認識ができないと,該
    文字イメージの線幅の分布に基づいて代表線幅を識別
    し,該代表線幅により形成する外接矩形を求め,該外接
    矩形より外に位置するイメージの画素を消去して外部接
    触ごみを除去することを特徴とする光学式文字読取装置
    における文字イメージのごみ除去方法。
  2. 【請求項2】 請求項1において,前記外部接触ごみを
    除去した後の文字イメージに対し,文字辞書とパターン
    マッチングにより最も近似する文字パターンと一致しな
    い文字イメージのビットを検出して,そのビットを書き
    換えることにより内部接触ごみを消去することを特徴と
    する光学式文字読取装置における文字イメージのごみ除
    去方法。
  3. 【請求項3】 光学式文字読取装置における文字イメー
    ジのごみ除去装置において,文字を認識する文字読取装
    置は,イメージ・スキャナにより読取られた画像から1
    文字分の文字イメージを切出す文字切出し部,切出され
    た1文字を構成するセグメント(かたまり)を検出する
    セグメント化部,該検出されたセグメント数が読取対象
    となる文字種により決まるセグメント数より多いと前記
    検出されたセグメントの中からごみとなるセグメントを
    消去する遊離ごみ消去部,前記遊離ごみが消去された文
    字イメージについて文字認識を行う文字認識部,前記文
    字認識により認識ができないと起動し,文字イメージの
    線幅を測ることにより代表線幅を識別し,該代表線幅に
    より形成する外接矩形を用いて外部接触ごみを消去する
    外部接触ごみ消去手段,とを備えることを特徴とする光
    学式文字読取装置における文字イメージのごみ除去装
    置。
  4. 【請求項4】 前記遊離ごみ消去部は,検出されたセグ
    メント数が読取対象となる文字種により決まるセグメン
    ト数より多いと,前記検出されたセグメントの中から面
    積が小さいセグメントから順に消去することを特徴とす
    る請求項3に記載の光学式文字読取装置における文字イ
    メージのごみ除去装置。
  5. 【請求項5】 前記外部接触ごみ消去部は,前記遊離ご
    みが消去された文字イメージについて,上下方向及び横
    方向の2方向について,順次各ライン上の線幅を検出
    し,各ライン上に存在する線幅の個数を格納したヒスト
    グラムを作成し,該ヒストグラムから代表線幅を識別す
    ると共に代表線幅の外接矩形を構成するラインを検出す
    ることを特徴とする請求項3または4に記載の光学式文
    字読取装置における文字イメージのごみ除去装置。
  6. 【請求項6】 前記外部接触ごみ消去部による外部接触
    ごみ消去後の文字イメージに対し,内部接触ごみを消去
    する内部接触ごみ消去部を設け,該内部接触ごみ消去部
    は,文字辞書の各文字イメージとの照合により最も近似
    する文字を検出し,該文字と一致しない文字イメージの
    ビットを検出して,そのビットを書き換えることにより
    内部接触ごみを消去することを特徴とする請求項3乃至
    5に記載の光学式文字読取装置における文字イメージの
    ごみ除去装置。
  7. 【請求項7】 前記内部接触ごみ消去部は,文字イメー
    ジを縦方向に複数(n)ビット,横方向に複数(m)ビ
    ットで構成するセルに分解して,セルによる低解像度の
    イメージを作成し,該低解像度のイメージと予め用意さ
    れた同じ低解像度のイメージであるごみ取りセル辞書と
    のパターンマッチングにより照合して,その結果に基づ
    いて文字イメージ中に存在する内部接触ごみの位置を検
    出して,該内部接触ごみを消去することを特徴とする請
    求項6に記載の光学式文字読取装置における文字イメー
    ジのごみ除去装置。
JP5251803A 1993-10-07 1993-10-07 光学式文字読取装置における文字イメージのごみ除去方法及び装置 Withdrawn JPH07105312A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP5251803A JPH07105312A (ja) 1993-10-07 1993-10-07 光学式文字読取装置における文字イメージのごみ除去方法及び装置
US08/820,382 US5956433A (en) 1993-10-07 1997-03-18 Method and device for removing spots from a character image in an optical character reader

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5251803A JPH07105312A (ja) 1993-10-07 1993-10-07 光学式文字読取装置における文字イメージのごみ除去方法及び装置

Publications (1)

Publication Number Publication Date
JPH07105312A true JPH07105312A (ja) 1995-04-21

Family

ID=17228161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5251803A Withdrawn JPH07105312A (ja) 1993-10-07 1993-10-07 光学式文字読取装置における文字イメージのごみ除去方法及び装置

Country Status (2)

Country Link
US (1) US5956433A (ja)
JP (1) JPH07105312A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0689166A3 (en) * 1994-06-22 1996-09-04 Sharp Kk Device for image quality control in an electronic copier
JP2008243016A (ja) * 2007-03-28 2008-10-09 Oki Electric Ind Co Ltd 文字認識方法、文字認識プログラムおよび文字認識装置
JP2009116520A (ja) * 2007-11-05 2009-05-28 Oki Electric Ind Co Ltd 画像認識装置、画像認識方法及びプログラム
JP2018156169A (ja) * 2017-03-15 2018-10-04 オムロン株式会社 文字認識装置、文字認識方法、および、文字認識プログラム
JP2018190248A (ja) * 2017-05-09 2018-11-29 富士通株式会社 画像処理プログラム、画像処理方法及び画像処理装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6275611B1 (en) * 1996-10-17 2001-08-14 Motorola, Inc. Handwriting recognition device, method and alphabet, with strokes grouped into stroke sub-structures
US7168039B2 (en) * 1998-06-02 2007-01-23 International Business Machines Corporation Method and system for reducing the horizontal space required for displaying a column containing text data
US8131503B2 (en) * 2004-01-30 2012-03-06 Weber James S Method and system for determining histogram density estimators
US7603254B2 (en) * 2004-01-30 2009-10-13 Weber James S Method and system for determining histogram appearances from small data samples
US7392156B2 (en) * 2004-01-30 2008-06-24 Weber James S Method and system for determining histograms
CN100369049C (zh) * 2005-02-18 2008-02-13 富士通株式会社 灰度字符的精确分割装置及方法
JP4909216B2 (ja) * 2006-09-13 2012-04-04 株式会社キーエンス 文字切り出し装置、方法およびプログラム
KR20150049700A (ko) * 2013-10-30 2015-05-08 삼성전자주식회사 전자 장치에서 입력을 제어하는 방법 및 장치

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4741045A (en) * 1983-09-23 1988-04-26 Dest Corporation Optical character isolation system, apparatus and method
JPS62214481A (ja) * 1986-03-17 1987-09-21 Nec Corp 画質判定装置
JP2528383B2 (ja) * 1990-11-22 1996-08-28 大日本スクリーン製造株式会社 ピンホ―ル消去方法
US5418865A (en) * 1992-03-20 1995-05-23 Xerox Corporation Mark sensing on a form

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0689166A3 (en) * 1994-06-22 1996-09-04 Sharp Kk Device for image quality control in an electronic copier
JP2008243016A (ja) * 2007-03-28 2008-10-09 Oki Electric Ind Co Ltd 文字認識方法、文字認識プログラムおよび文字認識装置
JP2009116520A (ja) * 2007-11-05 2009-05-28 Oki Electric Ind Co Ltd 画像認識装置、画像認識方法及びプログラム
JP2018156169A (ja) * 2017-03-15 2018-10-04 オムロン株式会社 文字認識装置、文字認識方法、および、文字認識プログラム
JP2018190248A (ja) * 2017-05-09 2018-11-29 富士通株式会社 画像処理プログラム、画像処理方法及び画像処理装置

Also Published As

Publication number Publication date
US5956433A (en) 1999-09-21

Similar Documents

Publication Publication Date Title
CA1160347A (en) Method for recognizing a machine encoded character
EP0543599B1 (en) Method and apparatus for image hand markup detection
US5729635A (en) OCR image free-processing method for image enhancement of scanned documents
US5034991A (en) Character recognition method and system
EP0677818A2 (en) Image pre-processor for character recognition system
JPH07107694B2 (ja) 文書処理装置
US6614929B1 (en) Apparatus and method of detecting character writing area in document, and document format generating apparatus
EP0266140B1 (en) Optical character recognition by forming and detecting matrices of geographical features
US5164996A (en) Optical character recognition by detecting geo features
JPS6077279A (ja) 文字イメ−ジ切出し方法
US4962432A (en) Selective retrieval of data from microfilm images of different forms by reading a memory index form cord (bar code) recorded on each image frame
JPH07105312A (ja) 光学式文字読取装置における文字イメージのごみ除去方法及び装置
JP3268552B2 (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
JPH11219409A (ja) 文書読取装置
JP4117648B2 (ja) 帳票、帳票処理方法、帳票処理プログラム、帳票処理プログラムを記録した記録媒体及び帳票処理装置
JP3345246B2 (ja) 文字認識装置及び文字認識方法
JP3710164B2 (ja) 画像処理装置及び方法
JPH09212584A (ja) 文字読取方法及び装置
JP2570184B2 (ja) 光学式文字読取装置
JP3277977B2 (ja) 文字認識方法
JPH0757047A (ja) 文字切出し方式
JPH0434655A (ja) 図面読取装置
JP2001109888A (ja) 罫線抽出方式
JPH11219408A (ja) 文書読取装置
JP2000113101A (ja) 文字切り出し方法および装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20001226