JPS5991582A - 文字読取装置 - Google Patents

文字読取装置

Info

Publication number
JPS5991582A
JPS5991582A JP57200574A JP20057482A JPS5991582A JP S5991582 A JPS5991582 A JP S5991582A JP 57200574 A JP57200574 A JP 57200574A JP 20057482 A JP20057482 A JP 20057482A JP S5991582 A JPS5991582 A JP S5991582A
Authority
JP
Japan
Prior art keywords
character
similarity
composite
width
register
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57200574A
Other languages
English (en)
Other versions
JPH0430070B2 (ja
Inventor
Yoshitake Tsuji
辻 善丈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Nippon Electric Co Ltd filed Critical NEC Corp
Priority to JP57200574A priority Critical patent/JPS5991582A/ja
Publication of JPS5991582A publication Critical patent/JPS5991582A/ja
Publication of JPH0430070B2 publication Critical patent/JPH0430070B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は文字読取装置、特に文字枠等の制限を持たない
紙面上の文字列イメージの分M ミスによる文字の読取
りを補償する文字読取装置に関するものである。
従来、印字あるいは手書き文字を光学的に読み取る装置
(以下、OCRと称す)において、英数字及びカタカナ
を対象とするものはすでに実用化されており、最近では
漢字を読み取ることも可能となっている。
しかし、このような0CJLにおける読取対象も漢字を
含む種々な印刷文字や文書等の文字枠指定のないものと
すると、従来1文字であるべき文字が印字のかすれ等の
原因により2文字以上に誤まって分離され、それ数文字
読取が誤まったり、読取り不能(以下、リジェクトと呼
ぶ)となることによって文字読取精度の低下を招く。こ
のような現象の対策として、従来、特開昭56−162
184号公報に示されているように、文字イメージ列を
孤立したブロックに分離し、各ブロックの情報やブロッ
ク間の情報、更には、紙面上のフォーマット情報をOC
Rにおいて、総合的に判断する方法が述べられているが
、総合的に判断する方法ζこつぃて、具体的な実施例が
記載されていない。また従来の文字識別処理おいて前述
した方法を用いて、種々な情報から総合的に判断しよう
とすると、文字識別用辞書か複雑になったり、更には、
文字識別処理の構成が複雑になったりする。それ故、室
側なOCRとなるか、利用される分野が限定されたりす
る。
そこで、本発明の目的は、前述した従来の欠点を解決す
るため、?Q 数11’Uの文字塊のピッチより推定さ
れた平均ピッチを用いて、連続するn個の文字塊が、−
文字となり得るか否か調べ、−文字となり得れば、文字
識別処理において通常のn個の文字塊を識別し、識別し
た11個の文字カテゴリの各類似度を平均した類似度と
n個の文字塊を合成文字塊として識別し、識別した文字
カテゴリの類似度のうち、どちらか大きな値となる類似
度をもつ文字カテゴリあるいはカテゴリタ1」を求める
ことによって、容易に従来の欠点に対処できる文字読取
装置を提供することにある。
本発明によnば、紙面上に記載された文字列イメージを
走査し、文字単位に分離した後、予め用意した文字識別
辞書と照合することによって所定の文字カテゴリを得る
文字読取装置において、2値童子化したa数個の文字塊
イメージを求め、各文字塊イメージの幅及び文字塊イメ
ージ間の幅に基づいて個々の文字の平均ピッチPmを抽
出する平均ピッチ抽出手段と、連続するn個(n≧2)
の文字塊イメージの幅Pi(i=l・・・n)及び連続
するn−]個の文字塊イメージ間の幅Pi  i+z及
び平均ピッチPmに基づいて、−文字イメージと見なし
得るn個(n≧2)の文字塊を抽出する合成候補文字塊
抽出手段と、文字イメージを文字識別辞書を用いて、識
別し、所定の文字カテゴリと所定の文字カテゴリの類似
度を出力する文字識別手段と、合成候補文字塊抽出手段
によって検出したn個の文字塊イメージを順次文字識別
手段に入力し、n個の所定の文字カテゴリ及び類似度を
nで除算することによって得られる平均類似度を検出す
る手段と、連続するn個の文字塊イメージ(以下、合成
文字塊イメージと呼ぶ)を−文字イメージとして文字識
別手段に入力し、所定の文字カテゴリと類似度(以下、
合成文字類似度と呼ぶ)を検出する手段と、平均類似度
と合成文字類似度を比較することによって、n個の文字
カテゴリかあるいは、合成文字カテゴリのどちらかを選
択する手段とを有することを特徴とする文字読取装置が
得られる。
第1図は、合成文字塊の検出方法を英文字列イメージの
一部を用いて示した一例である。尚、図中点線は白ビツ
ト垂直列で囲まれた文字塊イメージ(以下、文字塊と呼
ぶ)を示すために記入されており、このような文字塊を
抽出する方法は、公知の技術を用いて求めることができ
る。図において、文字塊C1(i=1−・・7)に対し
、それぞれ幅Pi(i=l・・・7)が検出され、更に
、2つの文字塊CI、C1+1間の幅Pi、i+x(i
=1・・・6)が検出される。また、図中△T1及び△
T2は、予め設定した許容範囲を示す定数であり、Pm
は平均ピッチである。紙面上に書かれた複数昭の英文字
列イメージより抽出された文字塊から一文字の平均ピッ
チの算出は、例えは予めOCRの読取対象とする文字の
可能な文字ピッチ範囲における任意の文字ピッチPmに
対して、前述した複数個の文字塊の幅P1及び文字塊間
の幅Pi−1i及びPi i+tより得られる複数個の
文字塊のピッチPi+−1(Pi−+  i+Pi、l
+1)が、文字ピッチ九付近で最も多く現われれば、文
字ピッチPmを平均ピッチとする方法等があり、公知の
技術を用いて求めることができる。
図において、才ず、文字塊C□、C7に対して、PI2
≦△TIであり、Pt + Pi2 + P、≦Pm+
△T2 を満足するために、文字塊C,,C,より合成
文字塊イメージ(以下、合成文字塊と呼ぶ)が生成でき
る。同様に、文字塊C,,C,からも合成文字塊の生成
が行なわれる。
第2図は、本発明における具体的一実施例を示す論理ブ
ロック図である。尚、信号線の末尾にSをつけることに
より、信号を表わすものとする。
1は走査装置σであり、紙面上の印字又は手書きされた
文字列を光学的に走査して電気信号に変換し、2値に量
子化した文字列イメージを順次、文字列イメージメモリ
2へ書き込む。3は文字塊抽出装置であり、文字列イメ
ージメモリ2に格納された文字列イメージから白ビット
で矩形状に囲まれた文字塊を順次検出し、各文字塊の始
端位置及び大きさ更に各文字塊間の幅を順次文字塊情報
レジスタ4へ書き込む。尚、文字塊の大きさは文字塊の
幅及び高さを表わすものとする。平均ピッチ算出回路5
は複数個の文字塊の幅及び文字塊間の幅を順次文字塊情
報レジスタ4から読み出し、前述したように、平均ピッ
チPmを算出し、加算回路6へ転送する。7及び8は、
それぞれ許容範囲を示す定数ΔT2.△T1を格納した
定数レジスタである。
制御装置によって加算回路6において算出された定数レ
ジスタ7の内容と平均ピッチPrnとの和Pm+△T2
及び定数レジスタ8の内容である定数△T、が合成文字
塊幅検出回路9へ転送される。一方、文字塊の幅Pl(
i二1・・・n)及び文字塊間の幅Pi、i+z(l+
1・・・n−1)が順次文字塊情報レジスタ4から合成
文字塊幅検出回路9へ読み出される。
合成文字塊幅検出回路9において、まず、文字塊間の幅
P I 、 j刊が定数レジスタ8の内容より小さいか
否かを調べる。文字塊間の幅P j 、 l+1が定数
レジスタ8の内接である定数△T1より小さけれは、文
字幅累積値レジスタ30の内容と文字塊の幅P1+1と
文字塊間の幅P i 、 l+1との累積和PSuIn
が求められ、加算回路6の出力である定数△T2と平均
ピッチPmとの和Pm+△T、と比較される。前述した
累積和psumが前述した定数△T2と平均ピッチPm
との和Pm+△T2 より小さければ、累積和PSLI
ITIを文字線幅累積値レジスタ30へ格納すると共に
、比較した文字塊の幅Pi刊に対応する文字塊の始端位
置及び大きさを合成文字塊清報レジスタ31へ書き込む
尚、文字線幅累積値レジスタ30は、初期値として、文
字塊の幅Piがセットされ、合成文字塊情報レジスタ3
1は初期値として、文字塊の幅Piに対応する文字塊の
始端位置及び大きさが制御装置40によってセットされ
ているとする。
同様にして、次の文字塊間の幅P i++ 、 i−+
−z及び文字塊の幅” 1 +1 、 l+2に対して
、上記操作が繰り返えされる。上記操作において、文字
塊間の幅Pl l刊が定数△Tより大きいことが検出さ
れた場合かあるいは、前述した累積和Psumが屋敷△
T2と平均ピンチPmとの第1Pm+△1Jn2より大
きいことが検出されると、信号91Sか制御装置40に
出力される。このようにして、制御装置40へ信号91
Sが出力されると、合成文字塊情報レジスタ31には、
合成文字塊と見なし得るn (但し、n二1,2・・・
)個の文字塊の始yiM位置及び大きさか格納されるこ
とになる。
尚、合成文字塊情報レジスタ3]に1個の文字塊の始端
位置及び大きさのみしか格納されない場合、合成文字塊
が存在しないと見なせるため、通常、行なわれる1文字
イメージの文字読取動作か、行なわれる。合成文字塊情
報レジスタ31にn個(但し、n≧2)の文字塊の始端
位置及び大きさかセットされると、制御装イ首40は、
n個の文字塊の始端位置及び大きざを持つn個の又手練
を順次、文字列イメージメモリ2より順次、文字パター
ンメモリ11へ書き込むと共に信号418及び信号42
8を1”にすることによりゲート回路50及び51を開
く。文字l識別装置12は、文字パ、ターンメモリ11
から順次出力される文字イメージに対して、予め用意さ
れた文字は別辞書メモ’J131ご格’!?’I8れた
文字識別のための禍徴を用いで、所定の文字カテゴリ(
但し、リジェクトも含む)及び出力した文字カテゴリに
おける盈:からしさく以下、類似間と呼ぶ)をそれぞれ
候補文字レジスタ15及び類似度レジスタ14へ格納す
る。
尚、前述したりジェツトの類似度は第−位であった文字
カテゴリの類似贋を用いるとする。
候補文字レジスタ15に順次格納されるn個の文字塊に
おける読取結果として得られる複数個の文字カテゴIJ
(−J:、順次ケート回路50を通って候補文字カテゴ
リ列レジスタ16へ格納される。また、類似度レジスタ
14へjl+(?’Jy格納されるn個の文字塊の読取
結果として得られるn個の類似度は、順次、ゲート回路
51を1Mつで、加算回路18へ転送される。
加算回路18は累積類似度レジスタl’lの内容と、類
似度レジスタ14から順次転送される類似度との和を求
め、累積類似度レジスタ19へ格納する。尚、累積類似
度レジスタ19は、初期値としてOが格納されている。
n個の類似度の和か累積類似度レジスタ19に格納され
ると、正規化回路20において、n個の類似度の平均類
似度が得られ、平均類似度レジスタ21にセットされる
次に、制御装置40は、制御信号418及び428を“
0″にすることによってゲート回路50 、51を閉じ
、制御信号43Sを61”にすることにより、ゲート回
路52を開く。また、制御装置40は、合成文字塊情報
レジスタ31に格納されたn個(n≧2)の文字塊の始
端位置及び大きさに基づいて、n個の文字塊を1文字イ
メージとする合成文字塊の始端位置及び大きさを得て、
合成文字塊を文字列・イメージメモリ2より文字パター
ンメモリ11へ書き込むことにより前述したようにして
、文字識別装置14より候補文字レジスタ15及び類似
度レジスタ14へ、それぞれ、前述した合成文字塊にお
ける読取結果として得られる文字カテゴリ及び類似度が
格納される。合成文字塊に対する類似度は、ゲート回路
52を通って比較回路22へ転送される。比較回路22
において、平均類似度レジスタ21の内容と合成文字塊
に対する類似度とが大きいか否かを比較し、比較の結果
平均類似度レジスタ21の内容が合成文字塊に対する類
似度より大きければ、出力信号221Sを′0”にし、
そうでなければ、出力信号221Sを1”にする。
出力信号221Sが0”になると、選択回路23によっ
て、候補文字カテゴリ列レジスタの内容が読取結果レジ
スタ24へ格納される。
一方、出力信号221Sが1”になると、選択回路23
によって、候補文字カテゴリレジスタ15の内容である
合成文字塊に対する文字カテゴリが読取結果レジスタ2
4へ格納される。
以上述べたように、従来1文字であるべき文字が印字の
かすれ等の原因により、2つ以上の文字塊に誤まって分
離されても容易に対処できる文字読取装置を実現するこ
とが可能となる。
【図面の簡単な説明】
第1図は合成文字塊の検出方法の一例を説明するために
示した概念図である。 第2図は、本発明における具体的一実施例を示す論理ブ
ロック図である。 図において、1は走査装置、2は文字列イメージメモリ
、3は文字塊抽出装置、4は文字塊情報レジスタ、5は
平均ピッチ算出回路、6は加算回路、7,8は定数レジ
スタ、9は合成文字塊幅検出回路、11は文字パターン
メモリ、12は文字識別装置、13は文字識別計−警メ
モリ、14は類似度レジスタ、15は候補文字カテゴリ
レジスタ、16は候補文字カテゴリ列レジスタ、18は
加算レジスタ、19は累積類似度レジスタ、20は正規
化回路、21は平均類似度レジスタ21.22は比較回
路、23は選択回路、24は読取結果レジスタ、30は
文字塊幅票積値レジスタ、31は合成文字塊情報レジス
タ、50,51゜52はゲート回路、40は制御装置で
ある。

Claims (1)

    【特許請求の範囲】
  1. 紙面上に記載された文字列イメージを走査し、文字単位
    に分離した後、予め用意した文字識別辞書と照合するこ
    とによって所定の文字カテゴリを得る文字読取装置にお
    いて、2値量子化した前記文字列イメージから複数個の
    文字塊イメージを求め、前記複数個の文字塊イメージの
    幅及び文字塊イメージ間の幅に基づいて個々の文字の平
    均ピッチPmを抽出する平均ピッチ抽出手段と、連続す
    るn個(n≧2)の前記文字塊イメージの幅Pi(i 
    = 1・・・n)及び連続するn−1個の文字塊イメー
    ジ間の幅Pi、1−1−t (i=1・・・n−1)及
    び前記平均ピンチPmに基づいて、1文字イメージと見
    なし得るn個(n≧2)の文字塊を抽出する合成候補文
    字塊抽出手段と、文字イメージを前記文字識別辞書を用
    いて、識別し、所定の文字カテゴリと前記所定の文字カ
    テゴリの類似度を出力する文字識別手段と、前記合成候
    補文字塊抽出手段によって、検出した前記n個の文字塊
    イメージをf1g1次前記又前記別手段に入力し、n個
    の所定の文字カテゴリと、前記n個の所定の文字カテゴ
    リにおける類似度をnで除算することによって得られる
    前記n個の所定の文字カテゴリの平均類似度を検出する
    手段と、連続する前記n個の文字塊イメージを一文字イ
    メージとして、前記文字識別手段に入力し、前記所定の
    文字カテゴリ(以下、合成文字カテゴリと呼ぶ)と前記
    類似度(以下、合成文字類似度と呼ぶ)を検出する手段
    と、前記平均類似度と前記合成文字類似度を比較するこ
    とによって、前記n個の所定の文字カテゴリかあるいは
    前記合成文字カテゴリの2どちらかを選択する手段とを
    有することを特徴とする文字読取装置。
JP57200574A 1982-11-16 1982-11-16 文字読取装置 Granted JPS5991582A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57200574A JPS5991582A (ja) 1982-11-16 1982-11-16 文字読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57200574A JPS5991582A (ja) 1982-11-16 1982-11-16 文字読取装置

Publications (2)

Publication Number Publication Date
JPS5991582A true JPS5991582A (ja) 1984-05-26
JPH0430070B2 JPH0430070B2 (ja) 1992-05-20

Family

ID=16426592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57200574A Granted JPS5991582A (ja) 1982-11-16 1982-11-16 文字読取装置

Country Status (1)

Country Link
JP (1) JPS5991582A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60153575A (ja) * 1984-01-23 1985-08-13 Nippon Telegr & Teleph Corp <Ntt> 文字読取方法
JPS6195481A (ja) * 1984-10-17 1986-05-14 Hitachi Ltd パタ−ン切り出し及び認識方法
JPS6210784A (ja) * 1985-07-09 1987-01-19 Matsushita Electric Ind Co Ltd 文字認識装置
JPS62190574A (ja) * 1986-02-18 1987-08-20 Mitsubishi Electric Corp 文字パタ−ン切り出し装置
JPS62219187A (ja) * 1986-03-20 1987-09-26 Matsushita Electric Ind Co Ltd 文字認識装置
JPS6316392A (ja) * 1986-07-08 1988-01-23 Matsushita Electric Ind Co Ltd 文字認識装置
JPS6316391A (ja) * 1986-07-08 1988-01-23 Matsushita Electric Ind Co Ltd 文字認識装置
JPS63307593A (ja) * 1987-06-08 1988-12-15 Nec Corp 連続文字認識装置
JPH05166010A (ja) * 1991-12-17 1993-07-02 Omron Corp 文字切出方法
US7480410B2 (en) 2001-11-30 2009-01-20 Matsushita Electric Works, Ltd. Image recognition method and apparatus for the same method

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60153575A (ja) * 1984-01-23 1985-08-13 Nippon Telegr & Teleph Corp <Ntt> 文字読取方法
JPS6195481A (ja) * 1984-10-17 1986-05-14 Hitachi Ltd パタ−ン切り出し及び認識方法
JPS6210784A (ja) * 1985-07-09 1987-01-19 Matsushita Electric Ind Co Ltd 文字認識装置
JPS62190574A (ja) * 1986-02-18 1987-08-20 Mitsubishi Electric Corp 文字パタ−ン切り出し装置
JPH0550785B2 (ja) * 1986-02-18 1993-07-29 Mitsubishi Electric Corp
JPS62219187A (ja) * 1986-03-20 1987-09-26 Matsushita Electric Ind Co Ltd 文字認識装置
JPS6316392A (ja) * 1986-07-08 1988-01-23 Matsushita Electric Ind Co Ltd 文字認識装置
JPS6316391A (ja) * 1986-07-08 1988-01-23 Matsushita Electric Ind Co Ltd 文字認識装置
JPS63307593A (ja) * 1987-06-08 1988-12-15 Nec Corp 連続文字認識装置
JPH05166010A (ja) * 1991-12-17 1993-07-02 Omron Corp 文字切出方法
US7480410B2 (en) 2001-11-30 2009-01-20 Matsushita Electric Works, Ltd. Image recognition method and apparatus for the same method

Also Published As

Publication number Publication date
JPH0430070B2 (ja) 1992-05-20

Similar Documents

Publication Publication Date Title
US5193121A (en) Courtesy amount read and transaction balancing system
Akiyama et al. Automated entry system for printed documents
JP2575539B2 (ja) 書類上の金額フィールドの位置特定方法および識別方法
US6038351A (en) Apparatus and method for multi-entity, mixed document environment document identification and processing
CA1160347A (en) Method for recognizing a machine encoded character
JP2001283152A (ja) 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005242579A (ja) 文書処理装置、文書処理方法、および文書処理プログラム
US3839702A (en) Bayesian online numeric discriminant
JPH1075351A (ja) テキストのバイナリー画像から抽出されたシンボルを比較する方法
JPS5991582A (ja) 文字読取装置
JP2000315247A (ja) 文字認識装置
CN101582118B (zh) 字符字典创建装置、字符识别装置及字符识别方法
StevensÝ et al. Automatic processing of document annotations
JPH0792820B2 (ja) 文字認識方法
CN108763266A (zh) 一种基于图像特征提取的商标检索方法
JP5041775B2 (ja) 文字切出方法及び文字認識装置
Kumar et al. Line based robust script identification for indianlanguages
CN113255674A (zh) 字符识别方法、装置、电子设备及计算机可读存储介质
WO2023062799A1 (ja) 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム
JPH0528310A (ja) フオーム型文書識別装置
Zhou et al. Character recognition under severe perspective distortion
Ravikumar et al. Segmentation of Words From Unconstrained Multilingual Hand written Documents
JPH0950488A (ja) 異サイズ混在文字列の読取り方法
JP3220226B2 (ja) 文字列方向判別方法
JPH02230484A (ja) 文字認識装置