JPH0430070B2 - - Google Patents

Info

Publication number
JPH0430070B2
JPH0430070B2 JP57200574A JP20057482A JPH0430070B2 JP H0430070 B2 JPH0430070 B2 JP H0430070B2 JP 57200574 A JP57200574 A JP 57200574A JP 20057482 A JP20057482 A JP 20057482A JP H0430070 B2 JPH0430070 B2 JP H0430070B2
Authority
JP
Japan
Prior art keywords
character
similarity
composite
width
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP57200574A
Other languages
English (en)
Other versions
JPS5991582A (ja
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed filed Critical
Priority to JP57200574A priority Critical patent/JPS5991582A/ja
Publication of JPS5991582A publication Critical patent/JPS5991582A/ja
Publication of JPH0430070B2 publication Critical patent/JPH0430070B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 本発明は文字読取装置、特に文字枠等の制限を
持たない紙面上の文字列イメージの分離ミスによ
る文字の読取りを補償する文字読取装置に関する
ものである。
従来、印字あるいは手書き文字を光学的に読み
取る装置(以下、OCRと称す)において、英数
字及びカタカナを対象とするものはすでに実用化
されており、最近では漢字を読み取ることも可能
となつている。
しかし、このようなOCRにおける読取対象も
漢字を含む種々な印刷文字や文書等の文字枠指定
のないものとすると、従来1文字であるべき文字
が印字のかすれ等の原因により2文字以上に誤ま
つて分離され、それ故文字読取が誤まつたり、読
取り不能(以下、リジエクトと呼ぶ)となること
によつて文字読取精度の低下を招く。このような
現象の対策として、従来、特開昭56−162184号公
報に示されているように、文字イメージ列を孤立
したブロツクに分離し、各ブロツクの情報やブロ
ツク間の情報、更には、紙面上のフオーマツト情
報をOCRにおいて、総合的に判断する方法が述
べられているが、総合的に判断する方法につい
て、具体的な実施例が記載されていない。また従
来の文字識別処理おいて前述した方法を用いて、
種々な情報から総合的に判断しようとすると、文
字識別用辞書が複雑になつたり、更には、文字識
別処理の構成が複雑になつたりする。それ故、高
価なOCRとなるか、利用される分野が限定され
たりする。
そこで、本発明の目的は、前述した従来の欠点
を解決するため、複数個の文字塊のピツチより推
定された平均ピツチを用いて、連続するn個の文
字塊が、一文字となり得るか否か調べ、一文字と
なり得れば、文字識別処理において通常のn個の
文字塊を識別し、識別したn個の文字カテゴリの
各類似度を平均した類似度とn個の文字塊を合成
文字塊として識別し、識別した文字カテゴリの類
似度のうち、どちらか大きな値となる類似度をも
つ文字カテゴリあるいはカテゴリ列を求めること
によつて、容易に従来の欠点に対処できる文字読
取装置を提供することにある。
本発明によれば、紙面上に記載された文字列イ
メージを走査し、文字単位に分離した後、予め用
意した文字識別辞書と照合することによつて所定
の文字カテゴリを得る文字読取装置において、2
値量子化した複数個の文字塊イメージを求め、各
文字塊イメージの幅及び文字塊イメージ間の幅に
基づいて個々の文字の平均ピツチPnを抽出する
平均ピツチ抽出手段と、接続するn個(n≧2)
の文字塊イメージの幅Pi(i=1……n)及び連
続するn−1個の文字塊イメージ間の幅Pi,i+1
び平均ピツチPnに基づいて、一文字イメージと
見なし得るn個(n≧2)の文字塊を抽出する合
成候補文字塊抽出手段と、文字イメージを文字識
別辞書を用いて、識別し、所定の文字カテゴリと
所定の文字カテゴリの類似度を出力する文字識別
手段と、合成候補文字塊抽出手段によつて検出し
たn個の文字塊イメージを順次文字識別手段に入
力し、n個の所定の文字カテゴリ及び類似度をn
で除算することによつて得られる平均類似度を検
出する手段と、連続するn個の文字塊イメージ
(以下、合成文字塊イメージと呼ぶ)を一文字イ
メージとして文字識別手段に入力し、所定の文字
カテゴリと類似度(以下、合成文字類似度と呼
ぶ)を検出する手段と、平均類似度と合成文字類
似度を比較することによつて、n個の文字カテゴ
リかあるいは、合成文字カテゴリのどちらかを選
択する手段とを有することを特徴とする文字読取
装置が得られる。
第1図は、合成文字塊の検出方法を英文字列イ
メージの一部を用いて示した一例である。尚、図
中点線は白ビツト垂直列で囲まれた文字塊イメー
ジ(以下、文字塊と呼ぶ)を示すために記入され
ており、このような文字塊を抽出する方法は、公
知の技術を用いて求めることができる。図におい
て、文字塊Ci(i=1……7)に対し、それぞれ
幅Pi(i=1……7)が検出され、更に、2つの
文字塊Ci,Ci+1間の幅Pi,i+1(i=1……6)が検
出される。また、図中△T1及び△T2は、予め設
定した許容範囲を示す定数であり、Pnは平均ピ
ツチである。紙面上に書かれた複数個の英文字列
イメージより抽出された文字塊から一文字の平均
ピツチの算出は、たとえば予めOCRの読取対象
とする文字の可能な文字ピツチ範囲における任意
の文字ピツチPnに対して、前述した複数個の文
字塊の幅Pi及び文字塊間の幅Pi-1,i及びPi,i+1より
得られる複数個の文字塊のピツチPi+1/2(Pi-1,i +Pi,i+1)が、文字ピツチPn付近で最も多く現わ
れれば、文字ピツチPnを平均ピツチとする方法
等があり、公知の技術を用いて求めることができ
る。
図において、まず、文字塊C1,C2に対して、
P12≦△T1であり、P1+P12+P2≦Pn+△T2を満
足するために、文字塊C1,C2より合成文字塊イ
メージ(以下、合成文字塊と呼ぶ)が生成でき
る。同様に、文字塊C4,C5からも合成文字塊の
生成が行なわれる。
第2図は、本発明における具体的一実施例を示
す論理ブロツク図である。尚、信号線の末尾にS
をつけることにより、信号を表わすものとする。
1は走査装置であり、紙面上の印字又は手書きさ
れた文字列を光学的に走査して電気信号に変換
し、2値に量子化した文字列イメージを順次、文
字列イメージメモリ2へ書き込む。3は文字塊抽
出装置であり、文字列イメージメモリ2に格納さ
れた文字列イメージから白ビツトで矩形状に囲ま
れた文字塊を順次検出し、各文字塊の始端位置及
び大きさ更に各文字塊間の幅を順次文字塊情報レ
ジスタ4へ書き込む。尚、文字塊の大きさは文字
塊の幅及び高さを表わすものとする。平均ピツチ
算出回路5は複数個の文字塊の幅及び文字塊間の
幅を順次文字塊情報レジスタ4から読み出し、前
述したように、平均ピツチPnを算出し、加算回
路6へ転送する。7及び8は、それぞれ許容範囲
を示す定数△T2,△T1を格納した定数レジスタ
である。制御装置によつて加算回路6において算
出された定数レジスタ7の内容と平均ピツチPn
との和Pn+△T2及び定数レジスタ8の内容であ
る定数△T1が合成文字塊幅検出回路9へ転送さ
れる。一方、文字塊の幅Pi(i=1……n)及び
文字塊間の幅Pi+1,i(i=1……n−1)が順次文
字塊情報レジスタ4から合成文字塊幅検出回路9
へ読み出される。合成文字塊幅検出回路9におい
て、まず、文字塊間の幅Pi,i+1が定数レジスタ8
の内容より小さいか否かを調べる。文字塊間の幅
Pi,i+1が定数レジスタ8の内容である定数△T1
り小さければ、文字幅累積値レジスタ30の内容
と文字塊の幅Pi+1と文字塊間の幅Pi,i+1との累積和
Psunが求められ、加算回路6の出力である定数△
T2と平均ピツチPnとの和Pn+△T2と比較され
る。前述した累積和Psunが前述した定数△T2
平均ピツチPnとの和Pn+△T2より小さければ、
累積和Psunを文字塊幅累積値レジスタ30へ格納
すると共に、比較した文字塊の幅Pi+1に対応する
文字塊の始端位置及び大きさを合成文字塊情報レ
ジスタ31へ書き込む。
尚、文字塊幅累積値レジスタ30は、初期値と
して、文字塊の幅Piがセツトされ、合成文字塊情
報レジスタ31は初期値として、文字塊の幅Pi
対応する文字塊の始端位置及び大きさが制御装置
40によつてセツトされているとする。
同様にして、つぎの文字塊間の幅Pi+1i+2及び
文字塊の幅Pi+1i+2に対して、上記操作が繰り返
えされる。上記操作において、文字塊間の幅
Pi,i+1が定数△Tより大きいことが検出された場
合かあるいは、前述した累積和Psunが定数△T2
と平均ピツチPnとの和Pn+△T2より大きいこと
が検出されると、信号91Sが制御装置40に出
力される。こりようにして、制御装置40へ信号
91Sが出力されると、合成文字塊情報レジスタ
31には、合成文字塊と見なし得るn(但し、n
=1,2……)個の文字塊の始端位置及び大きさ
が格納されることになる。
尚、合成文字塊情報レジスタ31に1個の文字
塊の始端位置及び大きさのみしか格納されない場
合、合成文字塊が存在しないと見なせるため、通
常、行なわれる1文字イメージの文字読取動作
が、行なわれる。合成文字塊情報レジスタ31に
n個(但し、n≧2)の文字塊の始端位置及び大
きさがセツトされると、制御装置40は、n個の
文字塊の始端位置及び大きさを持つn個の文字塊
を順次、文字列イメージメモリ2より順次、文字
パターンメモリ11へ書き込むと共に信号41S
及び信号42Sを“1”にすることによりゲート
回路50及び51を開く。文字識別装置12は、
文字パターンメモリ11から順次出力される文字
イメージに対して、予め用意された文字識別辞書
メモリ13に格納された文字識別のための特徴を
用いて、所定の文字カテゴリ(但し、リジエクト
も含む)及び出力した文字カテゴリにおける確か
らしさ(以下、類似度と呼ぶ)をそれぞれ候補文
字レジスタ15及び類似度レジスタ14へ格納す
る。
尚、前述したリジエクトの類似度は第一位であ
つた文字カテゴリの類似度を用いるとする。
候補文字レジスタ15に順次格納されるn個の
文字塊における読取結果として得られる複数個の
文字カテゴリは、順次ゲート回路50を通つて候
補文字カテゴリ例レジスタ16へ格納される。ま
た、類似度レジスタ14へ順次格納されるn個の
文字塊の読取結果として得られるn個の類似度
は、順次、ゲート回路51を通つて、加算回路1
8へ転送される。加算回路18は累積類似度レジ
スタ19の内容と、類似度レジスタ14から順次
転送される類似度との和を求め、累積類似度レジ
スタ19へ格納する。尚、累積類似度レジスタ1
9は、初期値として0が格納されている。n個の
類似度の和が累積類似度レジスタ19に格納され
ると、正規化回路20において、n個の類似度の
平均類似度が得られ、平均類似度レジスタ21に
セツトされる。
次に、制御装置40は、制御信号41S及び4
2Sを“0”にすることによつてゲート回路5
0,51を閉じ、制御信号43Sを“1”にする
ことにより、ゲート回路52を開く。また、制御
装置40は、合成文字塊情報レジスタ31に格納
されたn個(n≧2)の文字塊の始端位置及び大
きさに基づいて、n個の文字塊を1文字イメージ
とする合成文字塊の始端位置及び大きさを得て、
合成文字塊を文字列イメージメモリ2より文字パ
ターンメモリ11へ書き込むことにより前述した
ようにして、文字識別装置14より候補文字レジ
スタ15及び類似度レジスタ14へ、それぞれ、
前述した合成文字塊における読取結果として得ら
れる文字カテゴリ及び類似度が格納される。合成
文字塊に対する類似度は、ゲート回路52を通つ
て比較回路22へ転送される。比較回路22にお
いて、平均類似度レジスタ21の内容と合成文字
塊に対する類似度とが大きいか否かを比較し、比
較の結果平均類似度レジスタ21の内容が合成文
字塊に対する類似度より大きければ、出力信号2
21Sを“0”にし、そうでなければ、出力信号
221Sを“1”にする。
出力信号221Sが“0”になると、選択回路
23によつて、候補文字カテゴリ列レジスタの内
容が読取結果レジスタ24へ格納される。
一方、出力信号221Sが“1”になると、選
択回路23によつて、候補文字カテゴリレジスタ
15の内容である合成文字塊に対する文字カテゴ
リが読取結果レジスタ24へ格納される。
以上述べたように、従来1文字であるべき文字
が印字のかすれ等の原因により、2つ以上の文字
塊に誤まつて分離されても容易に対処できる文字
読取装置を実現することが可能となる。
【図面の簡単な説明】
第1図は合成文字塊の検出方法の一例を説明す
るために示した概念図である。第2図は、本発明
における具体的一実施例を示す論理ブロツク図で
ある。 図において、1は走査装置、2は文字列イメー
ジメモリ、3は文字塊抽出装置、4は文字塊情報
レジスタ、5は平均ピツチ算出回路、6は加算回
路、7,8は定数レジスタ、9は合成文字塊幅検
出回路、11は文字パターンメモリ、12は文字
識別装置、13は文字識別辞書メモリ、14は類
似度レジスタ、15は候補文字カテゴリレジス
タ、16は候補文字カテゴリ列レジスタ、18は
加算レジスタ、19は累積類似度レジスタ、20
は正規化回路、21は平均類似度レジスタ、2
1,22は比較回路、23は選択回路、24は読
取結果レジスタ、30は文字塊幅累積値レジス
タ、31は合成文字塊情報レジスタ、50,5
1,52はゲート回路、40は制御装置である。

Claims (1)

    【特許請求の範囲】
  1. 1 紙面上に記載された文字列イメージを走査
    し、文字単位に分離した後、予め用意した文字識
    別辞書と照合することによつて所定の文字カテゴ
    リを得る文字読取装置において、2値量子化した
    前記文字列イメージから複数個の文字塊イメージ
    を求め、前記複数個の文字塊イメージの幅及び文
    字塊イメージ間の幅に基づいて個々の文字の平均
    ピツチPnを抽出する平均ピツチ抽出手段と、連
    続するn個(n≧2)の前記文字塊イメージの幅
    Pi(i=1……n)及び連続するn−1個の文字
    塊イメージ間の幅Pi,i+1(i=1……n−1)及び
    前記平均ピツチPnに基づいて、1文字イメージ
    と見なし得るn個(n≧2)の文字塊を抽出する
    合成候補文字塊抽出手段と、文字イメージを前記
    文字識別辞書を用いて、識別し、所定の文字カテ
    ゴリと前記所定の文字カテゴリの類似度を出力す
    る文字識別手段と、前記合成候補文字塊抽出手段
    によつて、検出した前記n個の文字塊イメージを
    順次前記文字識別手段に入力し、n個の所定の文
    字カテゴリと、前記n個の所定の文字カテゴリに
    おける類似度をnで除算することによつて得られ
    る前記n個の所定の文字カテゴリの平均類似度を
    検出する手段と、連続する前記n個の文字塊イメ
    ージを一文字イメージとして、前記文字識別手段
    に入力し、前記所定の文字カテゴリ(以下、合成
    文字カテゴリと呼ぶ)と前記類似度(以下、合成
    文字類似度と呼ぶ)を検出する手段と、前記平均
    類似度と前記合成文字類似度を比較することによ
    つて、前記n個の所定の文字カテゴリかあるいは
    前記合成文字カテゴリのどちらかを選択する手段
    とを有することを特徴とする文字読取装置。
JP57200574A 1982-11-16 1982-11-16 文字読取装置 Granted JPS5991582A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57200574A JPS5991582A (ja) 1982-11-16 1982-11-16 文字読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57200574A JPS5991582A (ja) 1982-11-16 1982-11-16 文字読取装置

Publications (2)

Publication Number Publication Date
JPS5991582A JPS5991582A (ja) 1984-05-26
JPH0430070B2 true JPH0430070B2 (ja) 1992-05-20

Family

ID=16426592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57200574A Granted JPS5991582A (ja) 1982-11-16 1982-11-16 文字読取装置

Country Status (1)

Country Link
JP (1) JPS5991582A (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0614373B2 (ja) * 1984-01-23 1994-02-23 日本電信電話株式会社 文字読取方法
JP2550012B2 (ja) * 1984-10-17 1996-10-30 株式会社日立製作所 パタ−ン切り出し及び認識方法
JPH0782525B2 (ja) * 1985-07-09 1995-09-06 松下電器産業株式会社 文字認識装置
JPS62190574A (ja) * 1986-02-18 1987-08-20 Mitsubishi Electric Corp 文字パタ−ン切り出し装置
JPS62219187A (ja) * 1986-03-20 1987-09-26 Matsushita Electric Ind Co Ltd 文字認識装置
JPS6316392A (ja) * 1986-07-08 1988-01-23 Matsushita Electric Ind Co Ltd 文字認識装置
JPS6316391A (ja) * 1986-07-08 1988-01-23 Matsushita Electric Ind Co Ltd 文字認識装置
JPH0797396B2 (ja) * 1987-06-08 1995-10-18 日本電気株式会社 連続文字認識装置
JPH05166010A (ja) * 1991-12-17 1993-07-02 Omron Corp 文字切出方法
JP3965983B2 (ja) 2001-11-30 2007-08-29 松下電工株式会社 画像処理方法およびその装置

Also Published As

Publication number Publication date
JPS5991582A (ja) 1984-05-26

Similar Documents

Publication Publication Date Title
JP3445394B2 (ja) 少なくとも二つのイメージセクションの比較方法
US5325444A (en) Method and apparatus for determining the frequency of words in a document without document image decoding
EP0544431B1 (en) Methods and apparatus for selecting semantically significant images in a document image without decoding image content
US4503556A (en) Method for automatic recognition of white blocks as well as text, graphics and/or gray image areas on a printed master
JP3485020B2 (ja) 文字認識方法及び装置ならびに記憶媒体
CA1050167A (en) Bayesian online numeric discriminator
JPH0430070B2 (ja)
JP2000315247A (ja) 文字認識装置
JPH0731714B2 (ja) 文字成分切出し方法
StevensÝ et al. Automatic processing of document annotations
JPH0516632B2 (ja)
JP2751865B2 (ja) 文字列認識装置
EP0692768A2 (en) Full text storage and retrieval in image at OCR and code speed
JP3197441B2 (ja) 文字認識装置
JPH02230484A (ja) 文字認識装置
JP3163698B2 (ja) 文字認識方法
EP0201909A2 (en) Procedure for automatic reading of images and device for carrying out this same procedure
JP3220226B2 (ja) 文字列方向判別方法
Hangarge et al. Shape and morphological transformation based features for language identification in indian document images
JPH0950488A (ja) 異サイズ混在文字列の読取り方法
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JP2570311B2 (ja) 文字列認識装置
JPS63269267A (ja) 文字認識方法
JP2851102B2 (ja) 文字切出し方法
JPH0259502B2 (ja)