JPH05225391A - 光学的文字認識を改善するドット・マトリックス印字テキストの検出方法および装置 - Google Patents

光学的文字認識を改善するドット・マトリックス印字テキストの検出方法および装置

Info

Publication number
JPH05225391A
JPH05225391A JP4293299A JP29329992A JPH05225391A JP H05225391 A JPH05225391 A JP H05225391A JP 4293299 A JP4293299 A JP 4293299A JP 29329992 A JP29329992 A JP 29329992A JP H05225391 A JPH05225391 A JP H05225391A
Authority
JP
Japan
Prior art keywords
pixels
pixel
pattern
black pixels
black
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4293299A
Other languages
English (en)
Inventor
George A Hadgis
ジョージ・アンソニー・ハッジス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eastman Kodak Co
Original Assignee
Eastman Kodak Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eastman Kodak Co filed Critical Eastman Kodak Co
Publication of JPH05225391A publication Critical patent/JPH05225391A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 テキスト文字の2進ピクセルビデオデータを
処理し、イメージにおけるドットマトリックス印字テキ
ストの存在を検出する装置を提供する。 【構成】 イメージを走査してテキスト文字の2進ピク
セルビデオデータを提供する手段と、(a)垂直の白い
ピクセルにより区切られる垂直の黒いピクセルの組が存
在するパターン、(b)水平の白いピクセルにより区切
られる水平の黒いピクセルの組が存在するパターン、
(c)左の対角線に沿った白いピクセルにより区切られ
る左の対角線に沿った黒いピクセルの組が存在するパタ
ーン、(d)右の対角線に沿った白いピクセルにより区
切られる右の対角線に沿った黒いピクセルの組が存在す
るパターン、の1つ以上のパターンを検出する手段と、
前記パターンの何れかが見いだされる時フラグを発生す
る手段と、フラグを発生されたピクセルについてM行×
N列のマスクを生成する手段と、を備える。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、2進ディジタル・イメ
ージ内のドット・マトリックス印字されたテキストの自
動検出に関する。特に、ピクセルの近傍が与えられた2
進ディジタル・イメージ内で評価され、これによりドッ
ト・マトリックス印字テキストが検出された領域を示す
フィルタ・マスクを生成される。
【0002】
【従来の技術】文字のディジタル化イメージ・データを
そのASCII相等データへ変換するため、光学的文字
認識(OCR)アルゴリズムが広範囲の用途において現
在使用されている。これは、数千の文書が毎日処理され
るデータ入力用途において特に有効である。例えば、健
康申告書式の処理において、今日多くの保険会社がデー
タ入力員を介してそのデータベースにデータを入力す
る。OCRを利用することにより、データはより正確に
かつ高いスループットでデータベースに入力することが
でき、これにより関連するコストを低減する。
【0003】OCRは、ゴシックまたはクーリエの如き
タイプで打ったフォントに対して特に適用可能である。
これらの形式のフォントについてのOCRの読みやすさ
は、かなりよい。しかし、前記の保険産業においては、
申告書式は多くの異なる供給源から受取られる。これら
書式のあるものは、タイプライタを用いて埋められ、あ
るものは手書きで埋められ、他のものはドット・マトリ
ックス・プリンタで埋められている。これら入ってくる
文書の蓄積は、保健会社がタイプで打った文書を読取る
ためOCR装置を使用し、手で写された文書に対して手
動データ入力をすることを可能にする。しかし、ドット
・マトリックス印字は、機械が生成するものである(タ
イプ打ちと手書きとして分類することが容易でない)が
印字品質は低いOCR読取り速度(従って、誤りを直す
ため更に多くの人手によるデータ入力)となるため、問
題の一部を生じる。
【0004】
【発明が解決しようとする課題】タイプ打ちテキストに
対する認識速度は、一貫した印字品質により非常に良好
である。例えば、ゴシック文字の「S」はクーリエの
「S」と非常によく似ているが、いずれの「S」も数字
「5」とは容易に弁別し得る。異なるプリンタのドット
・マトリックス文字もまた似ているが、「5」を「S」
から弁別する情報は少ない。このことは、安いプリンタ
の典型である9ピンのドラフト品質のドット・マトリッ
クスの場合に特に妥当する。文字を形成する個々のドッ
トは、ドット・マトリックス印字テキストに対して特に
開発されなかったOCRアルゴリズムを混乱させる傾向
があり、これにより精度を低下させる。
【0005】タイプライタから得られる如き連続的なフ
ォントに対して意図されたOCRアルゴリズムは、ドッ
ト・マトリックス・プリンタで得られる文字よりもはる
かに正確にその文字を認識する。ドット・マトリックス
印字テキストに対する読取り速度は、係属中の米国特許
出願第575,715号に記載される如きイメージ・デ
ータを改善する(即ちフィルタに掛ける)ことにより増
加し得ることが判った。不都合にも、このフィルタの使
用は、OCRアルゴリズムによる受入れ得る認識を越え
てフィルタがタイプライタ打ちテキスト・イメージを歪
めるため、ユーザがドット・マトリックス印字文書をタ
イプライタ打ち文書から分けることを必要とした。別の
短所は、ある文書に対するOCRアルゴリズムにより
「読取られる」ビデオ情報が全て同じタイプでなければ
ならない(即ち、ドット・マトリックス印字テキストま
たはタイプライタ打ちテキストのいずれかであって、両
方ではない)ことである。このような理由から、タイプ
ライタ打ちテキストからドット・マトリックス印字テキ
ストを弁別することが必要である。
【0006】米国制定法の発明登録第H681号のE.
Weidemanの発明においては、ドット・マトリッ
クス印字テキストの存在を検出する発明が記載されてい
る。しかし、この発明においても、グレースケール・イ
メージ・データが、低域フィルタおよび高域フィルタに
よる使用のために利用可能であることが前提とされる。
2進イメージ・データのみが利用可能なシステムにおい
ては、このアルゴリズムは働かない。一方、本発明は、
2進イメージ・データの場合を取扱うため特になされ
た。
【0007】C.K.Chowの米国特許第3,63
4,822号の発明では、個々の文字イメージが既に分
離されていることを前提としてドット・マトリックス・
テキストの存在を検出する。これは、スタイル決定関数
を用いて未知の文字表現を3つのフォントの既知の文字
表現に比較することにより、与えられた文字があるフォ
ント・スタイルに帰属する確率を計算する。文書のイメ
ージ・データの領域は調べないが、分離の後個々の文字
のイメージ・データを調べる。本発明は、確率あるいは
個々の分離された文字のイメージ・データに基いて機能
しないが、以下に述べるある特性に対するイメージ・デ
ータ・セット全体を調べる。
【0008】R.Todd等の米国特許第4,274,
079号による更に別の発明は、フォントの変更が生ず
るとフラッグを立てるためスイッチ文字が実際の印刷ス
トリングに使用される方法を記載している。本発明は、
スイッチ文字を必要とせず、異なるフォント、特にドッ
ト・マトリックスが存在する時を自動的に表示すること
になる。
【0009】本発明は、ドット・マトリックス印字テキ
ストのある特性を使用する。これらの特性に基いて、ピ
クセルの近傍がドット・マトリックス印字テキストを含
むものとしてフラッグ呈示される。同様に、イメージ内
のピクセルの全ての近傍が評価され、ピクセルのどの近
傍がドット・マトリックス・テキストを含むかを示す一
時的マップ(フィルタ・マスクと呼ばれる)が生成され
る。フィルタ・マスクが生じると、ピクセルの与えられ
た近傍がアルゴリズム、あるいは前掲の文献に記載され
る如き類似の方法により処理されるべきかどうかを判定
するため、制御システムを使用することができる。
【0010】その結果、ドット・マトリックス印字テキ
ストを含むと判定されたあるイメージ内の領域のみが、
改善された光学的文字認識のため強調される。更に、こ
のアルゴリズムは、ハードウエアに実現される時、前記
イメージについて走査装置出力の全データ速度(リアル
タイムのオンライン処理)で働くことができる。
【0011】
【課題を解決するための手段】本発明の目的は、ドット
・マトリックス・テキストが正確に識別できるようにタ
イプライタ打ちテキストとドット・マトリックス印字テ
キストの双方の文字のビデオ・イメージ・データを処理
することにある。このような機能を実施するため使用さ
れる方法および装置は、2進ピクセルのM×Nカーネル
(kernal)(領域または近傍とも呼ばれる)が処
理され、ある特性に基いて、ドット・マトリックス印字
テキストがその時のM×Nカーネル内に存在する時を識
別する、即ちフラッグを立てることを必要とする。この
M×Nカーネルは、イメージ全体が処理されるまでイメ
ージ全体にわたって一時に1つのピクセル位置ずつ走査
され、これによりドット・マトリックス印字テキストが
ある文書に存在する領域を表示するフィルタ・マスクを
生成する。
【0012】本発明の別の目的は、記憶装置に全イメー
ジを記憶する必要なく、イメージの各領域についてこの
作業を行うため必要なだけの量のイメージを記憶するだ
けで上記の作業を行うことにある。
【0013】本発明の更に別の目的は、走査装置からO
CR装置の記憶セクションへ送られる時、イメージ・デ
ータのスループットの低下を生じることなく上記の如く
イメージ・データを処理することにある。従って、本装
置は、前記走査装置の全データ速度で走査装置からの逐
次ビデオ・イメージ・データを処理することが可能であ
る。
【0014】本発明については、添付図面を参照するこ
とにより理解されよう。
【0015】
【実施例】ドット・マトリックス印字文字をタイプライ
タ打ち文字から識別する1つの特性は固有の不連続性で
ある。図1Aにおいて、ドット・マトリックス印字文字
「R」10が個々のドット12とスペース(不連続)1
4とからなることが判る。図1Bは、タイプライタ打ち
文字「R」16のビット・マップである(このタイプの
文字は図1Aに見出される不連続14がないことに注
意)。ドット・マトリックス印字テキスト10の不連続
14を取除くことにより、OCRアルゴリズムは文字認
識を改善する更なる情報が提供される。
【0016】ドット・マトリックス印字テキストの検出
の背後にある原理は、1つの文字のビット・マップ化さ
れたイメージ・データを処理して、固有の不連続を探す
ことである。図2は、200DPI(ドット/インチ)
で走査されたドット・マトリックス印字文字「B」の実
際のビデオ・データである。強調されたマス目18は、
特定のビット・パターンを含む。実際に、水平、垂直、
および左右の対角方向に異なる一連の多数のピクセルを
調べるならば、これに似たビット・パターンを識別する
ことができる。
【0017】図2のマス目18で強調されたビット・パ
ターンが図3に示される。白いピクセル26、28によ
り分けられた3つのグループの黒いピクセル20、2
2、24があることに注意。実際に、図2を全ての4つ
の予め定めた方向(水平、垂直、および左右の対角方
向)で厳密に(ピクセル単位に)調べることにより、似
た特性を持つピクセルの8つのシーケンスを見出すこと
ができる。このグループの特徴的なビット・パターン
は、特徴ビット・パターン32で示されるピクセル・シ
ーケンスにより一般化することができ、そしてこれはド
ット・マトリックス印字テキストを検出するため本文全
体にわたり使用されるビット・パターンである。明るく
点彩されたピクセル34は、カーネルにおける無用の
(don’t care)ピクセルを表わし、この特定
のピクセルがドット・マトリックス印字テキストの存在
の判定に使用されないことを示す。白いピクセル36
は、ドット・マトリックス印字テキストに特有の図2に
示された不連続14を表わすカーネルにおけるピクセル
である。黒いピクセル38は、図2のドット・マトリッ
クス印字文字10を構成するドット12を表わすカーネ
ルにおけるピクセルである。クロスハッチを施した中心
のピクセル40は、問題となるピクセルであり、検出の
ため使用されるパターンの中心を表わす。全ての予め定
めた方向のパターンは、問題となる共通の中心ピクセ
ル、即ちピクセル40を共有する(必要に応じて、この
ピクセルもまた黒でなければならない)。xおよびyの
ドット・ピッチおよびxおよびyの走査解像度に応じ
て、類似のビット・パターンを構成することができる。
【0018】この1次元の原理を2次元に拡張すること
により、ピクセルのマトリックスを図4に示すように形
成することができる。図に明るく点彩されたピクセル
(「無用の」ピクセル)34は、ドット・マトリックス
文字の検出に寄与しないピクセルである。図3における
一般化された1次元のビット・パターンが図4の4つの
方向(水平、垂直、左右の対角方向)で複写されること
に注意されたい。
【0019】図4の(問題の中心ピクセル40について
の)イメージ・データにおける1つのビット・パターン
が4つの方向のどれかにおける図3の一般化されたビッ
ト・パターンと一致する(即ち、各方向が与えられたビ
ット・パターンに対して独立的に評価される)ならば、
問題の中心ピクセル40についてドット・マトリックス
が存在する。上記のビット・パターンでは、検出器が少
なくとも1つの白いピクセル36(ドット間のスペー
ス)で分けられる3つの黒いピクセル38(おそらく
は、ドット・マトリックス印字文字からの3つのドット
の中心)について文字(または、文書)を4つの予め定
めた方向のいずれかに走査する。「無用の」ピクセル3
4は、ドットの大きさあるいは白いピクセルに対する黒
いピクセルの比のいずれも重要でないことを示す。ドッ
ト・マトリックス文字を検出するための唯一の要件は、
白いピクセル40により分けられた少なくとも3つの黒
いピクセル38がある領域内の4つの予め定めた方向の
いずれかで直線状に配置されることである。
【0020】所要のビット・パターンについてビット・
マップ化されたイメージ・データを(ピクセル単位で)
左側から右側へ、また上方から下方へ走査し、そして問
題の中心ピクセルの位置を知ることにより、ドット・マ
トリックス印字テキストが元のイメージと関連するもの
として検出された問題の中心ピクセル40を識別する初
期フィルタ・マスクを形成することができる。図5は、
図2に示される文字に対するフィルタ・マスクの形成に
おけるこの最初のステップを示している。この特定のド
ット・マトリックス文字では、ピクセルの1.85%の
みが問題となるドット・マトリックスの中心ピクセル5
0として判定されたことに注意されたい。しかし、これ
が、後で示すように、隣接する文字に影響を及ぼすこと
なく文字の全体イメージをフィルタするのに充分な情報
である。
【0021】図6において、問題となるドット・マトリ
ックスの中心ピクセル52が見出される場所が一旦決定
されると、問題の中心ピクセル52についての2次元の
領域54を描くことができる。この特定例では、15×
15の領域54が使用された。
【0022】図6の境界領域54から、フィルタされる
べき問題の中心ピクセル52を囲む15×15の領域5
4内の全てのピクセルを含むように最終的なフィルタ・
マスクを形成することができる。図7は、図6の問題の
中心ピクセル52を囲む領域54を含めた後、フィルタ
・マスク56が何に見えるかを示している。
【0023】図2のイメージを図8に示されるように図
7のフィルタ・マスク56と重ねることにより、イメー
ジのどの領域がフィルタされるべきか、またどの領域が
フィルタされないままにするかが明らかになるであろ
う。図8のAでは、陰影を施した領域がフィルタ・マス
ク56およびフィルタで処理される領域を表わしてい
る。図8のBは、最終的なフィルタされたイメージを示
している。
【0024】検出アルゴリズムは、個別の論理回路によ
り構成された。スループットを最大化するために、この
回路はイメージデータをリアルタイムで(即ち、走査装
置の全データ速度で)処理するように設計された。
【0025】この検出回路のハードウエア構成は、図
9、図10および図11に示されるように4つの部分か
らなる。即ち、(1)走査線データの一時記憶域に対す
るライン・ストア・レジスタ122と、(2)マトリッ
クスを検査して図8のフィルタ・マスク56を形成する
ため使用されるルックアップテーブル60と、(3)1
5×15ピクセル・レジスタ・マトリックス124と、
(4)問題の中心ピクセルについて拡張する回路であ
る。更に、上記の3つの回路をマイクロプロセッサとリ
ンクさせて、ルックアップテーブルのデータをダウンロ
ードし、マイクロプロセッサに関して制御/状況バイト
を出入りさせるインターフェースが存在する。
【0026】上記のプロセスは、15×15カーネルが
調べられるビット・マップ化イメージ・データに跨って
シフトされる如く考えることができるように提示され
た。本発明のハードウエアの構成は、ビット・マップ化
イメージ・データが下記のように固定の15×15カー
ネルに跨ってシフトされる如くに考えることができるこ
とを除いて同じ方法で行われる。
【0027】しかし、回路について述べる前に、イメー
ジ・データの伝送についての簡単な論議が必要である。
2進イメージ・データがイメージの左上隅部から始めて
同期的に逐次送られることを理解すべきである。このデ
ータは、走査線を左から右に横切って一時に1つのピク
セルずつ回路へ送られる。一旦1つの走査線が送られる
と、次の走査線が同じフォーマットで送られる。同様
に、出力はピクセル単位で左から右へ、また上から下へ
逐次送られる。
【0028】図9のライン・ストア・レジスタ122
は、M本(15×15のカーネル124の垂直寸法)の
全走査線を記憶することができる記憶装置からなる。各
ライン・ストア・レジスタ122は、最初のシフト・イ
ンされたピクセルが最初のシフト・アウトされたピクセ
ルであるように、逐次に2進データをシフトすることが
できる。先入れ先出し(FIFO)ライン・バッファは
このような装置である。15×15のカーネルが、この
文書全体にわたり使用されるため、本実施例においては
15個のライン・ストア・レジスタ122が必要とされ
る。このライン・ストア・レジスタ122の目的は、如
何なる時も調べられる走査線の垂直方向の整合を維持す
ることである。換言すれば、ライン・ストア・レジスタ
122の使用は、ある走査線の最初のピクセルが前また
は次の走査線の最初ピクセルのそれぞれ上または下にあ
ることを保証する。図12のAは、必要な垂直方向の整
合の原理を示す。ライン(n+2)のピクセル1は、更
にラインnのピクセル1と整合されるライン(n+1)
のピクセル1にわたって垂直方向に整合される。
【0029】図9は15×15カーネル124を示す。
このカーネルは、124aaの出力を124abの入力
に与え、124abを124acに与え、等々、という
ように配置された225個のDタイプ・フリップフロッ
プのマトリックスである。同様に、124baを124
bbに与え、124bbを124bcに与え、等々、の
如くである。
【0030】ライン・ストア・レジスタ122oの出力
をカーネルエレメント124oaに与え、最後に15×
15カーネル124を介してライン・ストア・レジスタ
122nに与える。同様に、ライン・ストア・レジスタ
122nはカーネルエレメント124anに与え、これ
が更にライン・ストア・レジスタ122mに与えられ、
等々、の如くである。最後のライン・ストア・レジスタ
122aの場合は、出力はカーネル124aaに与えら
れる。カーネル124aoの出力は、別のライン・スト
ア・レジスタに対する入力ではなく回路の出力として使
用される。
【0031】水平方向のルックアップテーブル60のブ
ロック図が図10に示される。ルックアップテーブル6
0にランダム・アクセス・メモリー(RAM)装置を使
用することができる。カーネル要素124ha〜124
hoの各々の出力は、水平方向のRAM装置に対するア
ドレス・ビットとして使用される。図12のBは、RA
M装置をルックアップテーブルとして使用する構成の詳
細を示している。同様に、他の方向は独立的なRAM装
置により処理される。4つの予め定めた方向と対応する
4個のRAM装置が一緒にORされて、4つの方向の任
意のものについての所要のビット・パターンを有効に探
す。この部分の出力は図5と対応している。
【0032】図11の拡張回路を用いて、フィルタ・マ
スクを問題の中心ピクセルについて拡張させる。サブ回
路70は、水平方向に拡張する。問題の中心ピクセルが
ドット・マトリックスの中心として識別される時は常
に、この回路がこれを水平方向に15ピクセルに拡張す
る。
【0033】サブ回路72は、この水平のマスクを垂直
方向に15ラインだけ拡張する。この2次元の拡張の完
了と同時に、図7に示されるものと対応するフィルタ・
マスクが生成される。
【0034】
【利点および産業上の利用可能性】本発明の方法および
装置は、タイプライタ打ちテキストに著しく影響を及ぼ
すことなくドット・マトリックス印字テキストのOCR
読取り速度を改善することを意図する。特に、アルゴリ
ズムは2進イメージ・データを調べ、文字のイメージ・
データに不連続が存在するかどうかを判定する。実験か
ら、図4に示されたビット・パターンが200ドット/
インチ(約25.4mm)で走査されたドット・マトリ
ックス印字文字に対しても有効であることが判った。
【0035】検出RAMバンクを適正にプログラミング
することにより、他のどんなビット・パターンに対して
も探索が可能である。おそらくは、ディジタル化された
ライン・アートにおける不連続を検出することが望まし
い。
【図面の簡単な説明】
【図1】Aは9ピンのドット・マトリックスで印字した
「R」のビット・マップを示す図である。Bはタイプラ
イタで打った文字「R」のビット・マップを示す図であ
る。
【図2】1インチ(約25.4mm)当たり200ドッ
トで走査された9ピン・ドット・マトリックス印字文字
「B」の実際のビット・マップ・ビデオ・データを示す
図である。
【図3】図2で強調された水平ビット・パターンであ
る。
【図4】4方向、即ち水平、垂直、および左右の対角方
向に拡張された図3の一般化されたビット・パターンを
示す2次元表示である。
【図5】ドット・マトリックス印字テキストが検出され
た問題となる中心ピクセルを示すマップである。
【図6】ドット・マトリックス印字テキストが検出され
た問題となる中心ピクセルについて拡張された15×1
5ピクセル領域を示す図である。
【図7】図2のビデオを処理するため使用されるフィル
タ・マスクを示す図である。
【図8】Aは図7のフィルタ・マスクが重ねられた図2
のイメージを示す図である。Bは境界領域として図7に
より図2のイメージにフィルタを用いた後の最終イメー
ジを示す図である。
【図9】ハードウエアの構成のための自動検出回路のブ
ロック図である。
【図10】ハードウエアの構成のための自動検出回路の
ブロック図である。
【図11】ハードウエアの構成のための自動検出回路の
ブロック図である。
【図12】Aは図9のライン・ストア・レジスタが必要
とする縦方向の整合を示す図である。BはRAMルック
アップテーブルを示し、このルックアップテーブルが構
成される方法を示す図である。
【符号の説明】
10 ドット・マトリックス印字文字「R」 12 個々のドット 14 スペース(不連続) 16 タイプライタ打ち文字「R」 18 マス目 20 黒いピクセル 22 黒いピクセル 24 黒いピクセル 26 白いピクセル 28 白いピクセル 32 特徴ビット・パターン 34 「無用の」ピクセル 36 白いピクセル 38 黒いピクセル 40 問題の中心ピクセル 54 15×15の領域 56 フィルタ・マスク 60〜63 32K×1SRAM 70 サブ回路 72 サブ回路 122 ライン・ストア・レジスタ 124 ピクセル・レジスタ・マトリックス

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 テキスト文字の2進ピクセル・ビデオ・
    データを処理することにより、イメージにおけるドット
    ・マトリックス印字テキストの存在を検出する方法にお
    いて、 前記イメージにおける位置にM行×N列のピクセルのカ
    ーネルを位置付けるステップと、 前記カーネルを次に隣接するピクセル位置へ移動し、該
    カーネルに含まれるイメージ・データを調べ、その時の
    位置のビット・パターンが以下のパターン(a)乃至
    (b)、即ち、X0及びX1は整数であり、X0、X1≦M
    /2、X2及びX3はX0、X1の小さい方と等しく、Y0
    及びY1は整数であり、Y0、Y1≦N/2、Y2及びY3
    はY0、Y1の小さい方と等しい場合の、 (a) Y0個の垂直の白いピクセルにより区切られる
    0個の垂直の黒いピクセルのグループが存在するパタ
    ーン、 (b) Y1個の水平の白いピクセルにより区切られる
    1個の水平の黒いピクセルのグループが存在するパタ
    ーン、 (c) 左の対角線に沿ったY2個の白いピクセルによ
    り区切られる左の対角線に沿ったX2個のピクセルのグ
    ループが存在するパターン、 (d) 右の対角線に沿ったY3個の白いピクセルによ
    り区切られる右の対角線に沿ったX3個の黒いピクセル
    のグループが存在するパターン、の1つ以上のビット・
    パターンと一致する時、該ピクセル位置をフラグでラベ
    ル付けするステップと、 前記のパターン(a)乃至(d)の何れかが見いだされ
    る時、フラグでラベル付けされた各ピクセルを中心とす
    るM行×N列のピクセルのフィルタ・マスクを生成する
    ステップと、を備えることを特徴とする方法。
  2. 【請求項2】 前記白いピクセルが黒いピクセルの代わ
    りに用いられ、黒いピクセルが白いピクセルの代わりに
    用いられることを特徴とする請求項1記載の方法。
  3. 【請求項3】 垂直方向における黒いピクセル数が水平
    あるいは対角方向のいずれかの黒いピクセル数より大き
    いことを特徴とする請求項1記載の方法。
  4. 【請求項4】 垂直方向における白いピクセル数が水平
    あるいは対角方向のいずれかの黒いピクセル数より大き
    いことを特徴とする請求項3記載の方法。
  5. 【請求項5】 テキスト文字の2進ピクセル・ビデオ・
    データを処理することにより、イメージにおけるドット
    ・マトリックス印字テキストの存在を検出する装置にお
    いて、 前記イメージを走査してテキスト文字の2進ピクセル・
    ビデオ・データを提供する手段と、 X0及びX1は整数であり、X0、X1≦M/2、X2及び
    3はX0、X1の小さい方と等しく、Y0及びY1は整数
    であり、Y0、Y1≦N/2、Y2及びY3はY0、Y1の小
    さい方と等しい場合の、以下のパターン(a)乃至
    (d)、 (a) Y0個の垂直の白いピクセルにより区切られる
    0個の垂直の黒いピクセルのグループが存在するパタ
    ーン、 (b) Y1個の水平の白いピクセルにより区切られる
    1個の水平の黒いピクセルのグループが存在するパタ
    ーン、 (c) 左の対角線に沿ったY2個の白いピクセルによ
    り区切られる左の対角線に沿ったX2個のピクセルのグ
    ループが存在するパターン、 (d) 右の対角線に沿ったY3個の白いピクセルによ
    り区切られる右の対角線に沿ったX3個の黒いピクセル
    のグループが存在するパターン、の1つ以上のビット・
    パターンを検出する手段と、 前記のパターン(a)乃至(d)の何れかが見いだされ
    る時、フラグを発生する手段と、 前記フラグを発生された前記ピクセルについてM行×N
    列のマスクを生成する手段と、を備えることを特徴とす
    る装置。
  6. 【請求項6】 前記白いピクセルが黒いピクセルの代わ
    りに用いられ、前記黒いピクセルが白いピクセルの代わ
    りに用いられることを特徴とする請求項5記載の装置。
  7. 【請求項7】 垂直方向における黒いピクセル数が水平
    あるいは対角方向のいずれかの黒いピクセル数より大き
    いことを特徴とする請求項5記載の装置。
  8. 【請求項8】 垂直方向における白いピクセル数が水平
    あるいは対角方向のいずれかの黒いピクセル数より大き
    いことを特徴とする請求項7記載の装置。
JP4293299A 1991-11-01 1992-10-30 光学的文字認識を改善するドット・マトリックス印字テキストの検出方法および装置 Pending JPH05225391A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US78647491A 1991-11-01 1991-11-01
US786474 1991-11-01

Publications (1)

Publication Number Publication Date
JPH05225391A true JPH05225391A (ja) 1993-09-03

Family

ID=25138704

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4293299A Pending JPH05225391A (ja) 1991-11-01 1992-10-30 光学的文字認識を改善するドット・マトリックス印字テキストの検出方法および装置

Country Status (4)

Country Link
US (1) US5394482A (ja)
EP (1) EP0539854B1 (ja)
JP (1) JPH05225391A (ja)
DE (1) DE69228647T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7848590B2 (en) 2006-07-14 2010-12-07 Samsung Electronics Co., Ltd. Image processing apparatus and method of removing regions or dividing portions of an input image to reduce computation
WO2015183015A1 (ko) * 2014-05-30 2015-12-03 삼성에스디에스 주식회사 문자 인식 방법 및 그 장치

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7221800B2 (en) * 2003-08-29 2007-05-22 Hewlett-Packard Development Company, L.P. Document rendering with substituted matching text
GB201116095D0 (en) 2011-09-16 2011-11-02 Wessex Technology Opto Electronic Products Ltd Machine reading of printed data

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3634822A (en) * 1969-01-15 1972-01-11 Ibm Method and apparatus for style and specimen identification
FR2106843A5 (ja) * 1970-09-25 1972-05-05 Thomson Csf
US3737855A (en) * 1971-09-30 1973-06-05 Ibm Character video enhancement system
GB1587613A (en) * 1976-11-04 1981-04-08 Norprint Ltd Character identification
JPS5931958B2 (ja) * 1978-08-31 1984-08-06 エルム工業株式会社 手動式テ−プ印字器
US4274079A (en) * 1979-07-12 1981-06-16 Burroughs Corporation Apparatus and method for dynamic font switching
US4263504A (en) * 1979-08-01 1981-04-21 Ncr Corporation High density matrix code
JPS5729186A (en) * 1980-07-29 1982-02-17 Toshiba Corp Character segmenting device
US4389677A (en) * 1980-12-08 1983-06-21 Ncr Canada Ltd - Ncr Canada Ltee Method and apparatus for removing erroneous elements from digital images
JPS57141779A (en) * 1981-02-26 1982-09-02 Nec Corp Character cutout system
JPS58130673A (ja) * 1982-01-29 1983-08-04 Fuji Xerox Co Ltd 画像処理装置
US4484068A (en) * 1982-11-04 1984-11-20 Ncr Canada Ltd - Ncr Canada Ltee Bar code processing apparatus
US4561022A (en) * 1983-08-11 1985-12-24 Eastman Kodak Company Image processing method based on processing of interrelated image gradients
IL70213A (en) * 1983-11-13 1988-02-29 Paul Fenster Digital fluorographic image enhancement system
US4680805A (en) * 1983-11-17 1987-07-14 Texas Instruments Incorporated Method and apparatus for recognition of discontinuous text
JPS62133585A (ja) * 1985-12-05 1987-06-16 Ricoh Co Ltd 単語切出方式
JPS63261486A (ja) * 1987-04-20 1988-10-28 Nec Corp 書体識別装置
USH681H (en) * 1987-06-05 1989-09-05 Dot matrix print detector
GB2224906B (en) * 1988-10-21 1993-05-19 Ricoh Kk Dot region discriminating method
JP2747491B2 (ja) * 1989-02-09 1998-05-06 富士通株式会社 画像の補間処理方式
US5109432A (en) * 1989-12-27 1992-04-28 Fujitsu Limited Character recognition method
US5182778A (en) * 1990-08-31 1993-01-26 Eastman Kodak Company Dot-matrix video enhancement for optical character recognition
US5212741A (en) * 1992-01-21 1993-05-18 Eastman Kodak Company Preprocessing of dot-matrix/ink-jet printed text for Optical Character Recognition

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7848590B2 (en) 2006-07-14 2010-12-07 Samsung Electronics Co., Ltd. Image processing apparatus and method of removing regions or dividing portions of an input image to reduce computation
US8238659B2 (en) 2006-07-14 2012-08-07 Samsung Electronics Co., Ltd. Image processing apparatus and method of determining a region of an input image and adjusting pixel values of the region
WO2015183015A1 (ko) * 2014-05-30 2015-12-03 삼성에스디에스 주식회사 문자 인식 방법 및 그 장치
KR20150137752A (ko) * 2014-05-30 2015-12-09 삼성에스디에스 주식회사 문자 인식 방법 및 그 장치

Also Published As

Publication number Publication date
DE69228647T2 (de) 1999-09-23
EP0539854A2 (en) 1993-05-05
US5394482A (en) 1995-02-28
EP0539854B1 (en) 1999-03-17
DE69228647D1 (de) 1999-04-22
EP0539854A3 (ja) 1994-05-04

Similar Documents

Publication Publication Date Title
CA2192436C (en) System and method for automatic page registration and automatic zone detection during forms processing
CA1160347A (en) Method for recognizing a machine encoded character
JP2575539B2 (ja) 書類上の金額フィールドの位置特定方法および識別方法
US5784487A (en) System for document layout analysis
US6937762B2 (en) Image processing device and program product
US6614929B1 (en) Apparatus and method of detecting character writing area in document, and document format generating apparatus
JP2574974B2 (ja) カラーコード化文字認識方法
US7593600B2 (en) Black white image scaling for optical character recognition
US6775410B1 (en) Image processing method for sharpening corners of text and line art
JPH05242300A (ja) 文書イメージの処理方法
US20020015524A1 (en) Image processing device, program product and system
US5228095A (en) Apparatus for recognizing printed characters
US5271067A (en) Optical character recognition apparatus
JPH05225391A (ja) 光学的文字認識を改善するドット・マトリックス印字テキストの検出方法および装置
Rodrigues et al. Cursive character recognition–a character segmentation method using projection profile-based technique
JPH0440749B2 (ja)
JPH05225390A (ja) 光学的文字認識のためのドット・マトリックス・ビデオの位置をつきとめフィルタリングする方法および装置
JPS5991582A (ja) 文字読取装置
JP3476595B2 (ja) 画像領域分割方法、および画像2値化方法
JPH02202689A (ja) 文字認識装置
JP2616995B2 (ja) 文字認識装置
JP3277977B2 (ja) 文字認識方法
JPS59132031A (ja) 文字入力装置
JPH05250518A (ja) 文字認識方法
JPH0377185A (ja) 文字認識装置