JPH0226266B2 - - Google Patents

Info

Publication number
JPH0226266B2
JPH0226266B2 JP56128610A JP12861081A JPH0226266B2 JP H0226266 B2 JPH0226266 B2 JP H0226266B2 JP 56128610 A JP56128610 A JP 56128610A JP 12861081 A JP12861081 A JP 12861081A JP H0226266 B2 JPH0226266 B2 JP H0226266B2
Authority
JP
Japan
Prior art keywords
character
subcategory
reading
feature
subcategories
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP56128610A
Other languages
English (en)
Other versions
JPS5831480A (ja
Inventor
Shunkichi Tada
Yukitaka Iida
Toshio Tsutsumida
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP56128610A priority Critical patent/JPS5831480A/ja
Publication of JPS5831480A publication Critical patent/JPS5831480A/ja
Publication of JPH0226266B2 publication Critical patent/JPH0226266B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 本発明は、文字読取装置、特に文字種専用読取
りと複数文字種混在読取りを行うに当つて、各特
徴毎に文字種を示すフラグを用意することによつ
て辞書メモリの作成を容易にしかつ辞書メモリの
容量を低減するようにした文字読取装置に関する
ものである。
従来のこの種装置では、各文字種ごとに専用の
辞書があり、これらの辞書を直接組合せるのみで
は文字種混在フイールドの読取りに十分な精度を
確保できないため、例えば英字用と数字用の辞書
の他に英数字用の辞書を作成し、3種の辞書を
各々辞書メモリ内に別々に持つことによつて、混
在読取りを行うように構成されていた。このため
に夫々の辞書が共に冗長かつ大規模なものとなる
欠点があつた。また、英字、数字に加えカナ、記
号、を加えるなど文字種が増えるたびに各混在の
組合せごとの新たな辞書を作成する作業を伴い、
きわめて煩雑となる。
また、混在読取り用の辞書では、形状の似た文
字を区別するため、文字の変形に対して各サブカ
テゴリが許容する変形の範囲を狭くする必要があ
るので異字種相互に混同の可能性が高いカテゴリ
に対して変形許容範囲の狭い混在読取り用のサブ
カテゴリと変形許容範囲の広い文字種専用のサブ
カテゴリを個々に設けておき、読取りフイールド
ごとにサブカテゴリを切替えて使用する方法が一
般的に用いられる。しかし、混在の組合せが増え
てくると、辞書の維持管理が一本化しにくい外、
サブカテゴリ相互の冗長性を除去できない欠点が
ある。
本発明は、文字種専用と、英字、数字、カナ、
記号の複数文字種が混在するフイールドを単一の
辞書で読取るようにすると共に、各特徴ごとに文
字種を示すフラグを用意して、辞書規模の圧縮と
高知能化をはかり、改造、拡張の容易な形で構築
された辞書をもつ文字読取装置を提供することを
目的としている。
第1図は、本発明が実現された装置の一実施例
ブロツク図であつて、1は帳票を走査した画像の
入力端子、2は文字パタンを切出して特徴を抽出
する特徴群作成回路、3は特徴群の各特徴ごとに
アドレスを割当てたテーブルメモリ、4は辞書メ
モリ、5は文字判定回路、6は文字判定結果出力
端子であり、図示しない制御回路のもとで文字の
認識処理を行うものである。本発明は辞書メモリ
4と文字判定回路5との構造に主な特徴があり、
以下第2図、第3図、第4図を用いて本発明の実
施例を詳細に説明する。
第2図は、入力文字パタンの一例を示し、カテ
ゴリ名「8」に含まれるパタン7とカテゴリ
「B」に含まれるパタン8を表わしている。Ai,
Al,Am,Arは、それぞれテーブルメモリ3の
アドレスであり文字パタンの特徴の種類を示して
いる。C1,C2,C3,C4,C′4はそれぞれ対応する
アドレス内容であつて、特徴群作成回路2の種類
に依存した形態、例えば入力文字パタンにおける
各特徴の出現の有無である場合、各特徴の出現頻
度数である場合、あるいは、特徴の重みである場
合その他いくつかの形態が考慮される。本発明
は、以上のいずれにも適用できるがここでは最も
単純な特徴の出現の有無を検索する場合を用いて
説明する。
この場合には、C1,C2,C3,C4,C′4が1(出
現した)か0(出現せず)の2値で与えられ、
「8」では例えばC1=C2=C3=C4=1であること
が「8」を判定する条件となり、「B」では、C1
=C2=C3=1でありかつアドレスAmの内容C′4
が0となることが「B」を判定する条件となる。
即ち、「8」の左中央部にあるくぼみが類似字形
「B」には存在しないことによつて夫々が特徴を
もつている。
第3図は、本発明の辞書メモリ4の1部を示し
た一実施例を示し、41,42,43,44はそ
れぞれ英字A、数字N、カナK、記号Sの各文字
種を表わすフラグ、45はテーブルメモリ3のア
ドレス、46は同アドレスの内容と照合する2値
情報である。47はカテゴリ名に相当する文字コ
ードであつて、41〜47をあわせて1つのサブ
カテゴリ401を構成している。401はカテゴ
リ「8」の1種類の字形に対応し、サブカテゴリ
402はカテゴリ「B」の1字形に対応するもの
であり、サブカテゴリ内の構成要素A〔C〕がす
べてテーブルメモリ3を満足するとき、文字コー
ド47を出力するように制御される。
数字「8」のサブカテゴリ401はフラグNに
すべて1をセツトしておき、他の文字種用フラグ
には、各混在読取りの組合せに応じて1をセツト
する。例えばAm(C4)については英数字読取り
フイールドにおいて利用されるようにフラグAと
フラグNとに1をセツトするようにされる。同様
に英字「B」のサブカテゴリ402はフラグAに
すべて1をセツトしておき混在用の組合せフラグ
として各フラグNKSを各々用いる。
辞書メモリは上記の如く構成されており、辞書
メモリの制御では次の如く行われる。読取り対象
が数字である場合には、換言すれば数字専用フイ
ールドを索引する場合においては、ANKS=
0100以外の各アドレスを無視し、テーブルメモリ
3との照合を行う。即ち、数字専用フイールドで
は、サブカテゴリ401は、Ai〔C1〕・Ar〔C2〕・
Al〔C3〕の論理積によつて判定を行いANKS=
0000の終了コードを検知し、文字コード「8」を
出力する。Ai,Ar,Alのいずれかが満足されな
いときには無条件に次のサブカテゴリの先頭に制
御を移すことによつて入力パタンが当該サブカテ
ゴリに一致しなかつたと判定する。
次に英数字フイールドでは、ANKS=0100、
1000、1100の3種組合せを調べ同様に論理積を求
める。サブカテゴリ401ではAi・Ar・Al・
Amとなり、第2図に示すように「B」との字形
分離に有効なAmを加えて文字判定を行う。以下
Axは、数字・カナ混在読取りと数字・カナを含
む3種以上の混在読取りとにおいて論理積の項と
なり、Ayは、英数字カナの3種混在と全種混在
読取りとの時に論理積項となるよう制御される。
一方、サブカテゴリ402は英字を基準として
上記と同様の制御が適用される。
以上の如き制御が行われるが、この場合に次の
如き問題が生じる。即ち4ビツトのフラグを設け
た辞書メモリでは、例えば数字専用読取り時に英
字用の辞書メモリ領域内のサブカテゴリ402は
各アドレスのフラグNが0であるか1であつても
フラグAが一緒に1であるためにこれらの各特徴
C7,C3,C1,C2,C4は夫々判定の対象から除外
されてゆき、Aw,Al,Ai,Ar,Amのいずれも
「いずれか1つでも満足されない状態となつてカ
テゴリ「B」であるとの判定が現われるのを阻止
する状態が生じないこととなる。このため上記制
御のみではサブカテゴリ402の各特徴が満足さ
れた形となつて「B」が判定されて出力されるこ
とになる。したがつて、ある読取りフイールドの
論理積項数がすべて無視されたサブカテゴリその
ものを出力しないようにする制御機能が必要であ
る。
この機能を実現するには、(i)各読取りフイール
ドによつて辞書メモリ内の有効アドレス群を限定
する方法即ち例えば数字専用読取りフイールドの
場合にはサブカテゴリ402についてこれを前も
つて存在しないものとみなすようにする第1の方
法、(ii)読取りフイールドの対象とする文字種を示
すフラグにもとづいてすべてのアドレスが無視さ
れたサブカテゴリを検出して、当該サブカテゴリ
をスキツプする第2の方法、(iii)サブカテゴリ内部
に他の文字種では存在しない特徴を登録してお
き、相互に相手の文字種専用のフラグをセツトし
ておく方法即ち例えばサブカテゴリ402内にフ
ラグNのみを1としたAm(C′4)を別個にもうけ
ておくようにした第3の方法、(iv)サブカテゴリ毎
に論理積項として参照された特徴のカウンタを用
意してカウンタの内容が0(すべて無視されたこ
とを示す)であれば文字コードを出力しないよう
にする第4の方法などが考えられる。
第1の方法は、辞書メモリの有効アドレスを読
取りフイールドごとに変更する必要があるので制
御が複雑であるが有効アドレスの限定により文字
判定処理の高速化が図れる。第2の方法は、文字
種混在用特徴のみで構成されたサブカテゴリを設
けることができない制限を除けば、効率的な辞書
走査が可能である。第3の方法では文字種相互間
を分離できる有効な特徴を見出すことは困難であ
るが、各サブカテゴリの先頭に他の3つの文字種
専用フラグを付したダミー特徴を個々に用意し、
各々専用フイールドでは参照するが混在フイール
ドでは参照しないように制御すれば目的とする制
御機能は満足される。第4の方法は辞書メモリ全
体を走査する必要はあるが、混在用特徴のみで構
成されたサブカテゴリも許容でき、制御が最も単
純である。
本実施例では第4の方法による制御機能を持つ
文字判定方式を取り上げ第4図を用いて説明を進
める。
第4図は、第1図の文字判定回路5の詳細な構
造とテーブルメモリ3および辞書メモリ4を示し
たもので、テーブルメモリ3には前述のように各
特徴ごとに割当てたアドレス31に入力文字パタ
ンの特徴抽出結果32が格納されている。入力端
子501からは、各読取りフイールドの先頭文字
パタンが辞書レジスタ507に読出されるときに
4ビツトの読取りフイールド情報が送られ、フイ
ールド情報フラグレジスタ502にセツトされ
る。入力端子503は、カウンタ504のリセツ
トを行うためのもので、各入力パタン毎に、サブ
カテゴリの先頭アドレス群α1,β1、……ω1を保
持しているマツピングメモリ505の先頭にポイ
ンタを設定する。出力端子506からは、辞書レ
ジスタ507の下位ビツト群508が示す文字コ
ードが出力される。辞書レジスタ507には辞書
メモリアドレスカウンタ509の示すアドレス
α1,α2……ωZの内容が送り込まれる。上位ビツ
ト群510はAND回路511によつてフイール
ド情報フラグレジスタ502と比較され、下位ビ
ツト群508のAが示すテーブルメモリ3のアド
レス31の内容32と下位ビツト群508のC′と
を比較器512で比較判定した出力を無視すべき
ときOR回路513の出力に1がセツトされる。
これを具体的に説明すると、例えば数字専用フイ
ールドでは1 2 3 4=0100、英数字フイールドで
1 2 3 4=1100、英数字カナ記号フイールドで
1 2 3 4=1111となつている。OR回路513
の出力は、英数字フイールドの場合、辞書メモリ
のアドレスλ1,λ3などでは、0となり、λ2,λy
どでは1となる。λZはF1F2F3F4=0000であるた
め、OR回路514の出力がサブカテゴリ内で唯
一1となり、AND回路515を介して文字コー
ド出力ゲート516を開いて文字コードを出力す
るとともにOR回路513の出力を1とする。以
上の動作によつて文字種のフラグ情報を用いたサ
ブカテゴリ内の論理積項数を変更する制御が実現
できる。
辞書レジスタ507の内容が上記論理積の項と
なるとき即ち上述のλ1,λ3の場合には比較器51
2の出力が有効となる。比較器512により抽出
された特徴と辞書内特徴の一致を判定し、不一致
のときには、OR回路517の出力が0とな。こ
のときF1F2F3F4≠0000であるためOR回路518
の出力が1となり、カウンタ504がインクリメ
ントされて、辞書メモリアドレスカウンタ509
にはμ1がセツトされる。従つて入力文字パタン
は、サブカテゴリλに含まれないことが検出でき
る。AND回路519、カウンタ520、比較器
521は読取対象外のサブカテゴリを無視する制
御を行う。カウンタ520は辞書メモリアドレス
カウンタ509が各サブカテゴリの先頭アドレス
を指示するときにリセツトされ、AND回路51
9は、サブカテゴリの論理積項となる特徴即ち
λ1,λ3などを検出したときカウンタ520のイン
クリメントを行う。比較器521は文字コードを
出力しようとするとき、論理積項が1つも無けれ
ばカウンタ520の内容が0であるため、その出
力を禁止することができる。以上の動作を経て文
字コード出力端子506の出力が文字判定出力と
なる。
以上説明したように、本発明によれば、辞書メ
モリに置くサブカテゴリの記述が単純であり、各
サブカテゴリを文字種専用にも他の文字種との混
在用にも使えかつ混在の組合せに応じて自由に文
字の変形許容範囲を変更できるものであるから、
単一の辞書で文字種専用と各文字種混在フイール
ドの文字読取りを行うことができる利点がある。
また、サブカテゴリの構成要素である特徴ごとに
文字種情報を与えるものであるから辞書を作成す
る作業の煩雑さが著しく緩和される外、辞書の修
正、拡張が容易であり、サブカテゴリ内の冗長性
も低減できるため混在読取りに対応する辞書規模
の増大が緩和され、かつ混在読取りを行うことに
よる専用読取り辞書への制約が無いなどの利点が
ある。
【図面の簡単な説明】
第1図は本発明による装置の一実施例ブロツク
構成、第2図は装置に入力した文字パタンと特徴
とを説明する概念図、第3図は辞書メモリの一実
施例構成、第4図は本発明の一実施例論理構成を
示す。 1…画像入力端子、2…特徴群作成回路、3…
テーブルメモリ、4…辞書メモリ、5…文字判定
回路、6…文字判定結果出力端子、41,42,
43,44…辞書メモリの文字種情報フラグ、3
1,45…テーブルメモリアドレス、401,4
02…サブカテゴリ、47…文字コード、501
…文字種フイールド情報入力端子、502…フイ
ールド情報フラグレジスタ、504,520…カ
ウンタ、505…マツピングメモリ、506…文
字コード出力端子、507…辞書レジスタ、51
2,521…比較器、516…ゲート回路。

Claims (1)

  1. 【特許請求の範囲】 1 帳票を走査し文字パタンを切出して当該パタ
    ンの字形を記述する特徴群を抽出する回路と、 カテゴリ名と対応づけて当該カテゴリに属する
    文字パタンがもつであろう1つまたは複数を用意
    して当該夫々の特徴を満足することを条件として
    当該カテゴリ名を出力するように組合わせられる
    特徴組合せ論理から成るサブカテゴリを記憶した
    辞書メモリと、 文字パタンの上記特徴群が上記組合せ論理を満
    足するサブカテゴリを選択して当該サブカテゴリ
    の属するカテゴリ名を出力する制御回路とをそな
    え、 上記辞書メモリを索引し当該制御回路を用いて
    文字を認識する文字読取装置において、 辞書メモリ内の各アドレスに、特徴を表わすコ
    ード番号と英字,数字,カナ,記号を含む各文字
    種を示すフラグ情報とを格納しておくことによ
    り、各文字種だけの専用フイールドを読取るため
    のサブカテゴリと、これらの文字種をいくつか組
    合せた文字種混在フイールドを読取るためのサブ
    カテゴリとを辞書メモリ内で共用する手段、 上記各アドレスに格納されているフラグ情報を
    読出して、現に読取り対象となる文字種と上記読
    出されたアドレスに格納されている当該特徴に対
    応するフラグとが一致するか否かを判定する手
    段、 当該フラグが一致した特徴だけを組合せて作成
    したサブカテゴリを入力文字パタンから抽出した
    特徴群と照合する手段をそなえ、 当該照合する手段からの出力にもとづいて入力
    文字パタンのカテゴリを判定する ことを特徴とする文字読取装置。
JP56128610A 1981-08-17 1981-08-17 文字読取装置 Granted JPS5831480A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56128610A JPS5831480A (ja) 1981-08-17 1981-08-17 文字読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56128610A JPS5831480A (ja) 1981-08-17 1981-08-17 文字読取装置

Publications (2)

Publication Number Publication Date
JPS5831480A JPS5831480A (ja) 1983-02-24
JPH0226266B2 true JPH0226266B2 (ja) 1990-06-08

Family

ID=14989037

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56128610A Granted JPS5831480A (ja) 1981-08-17 1981-08-17 文字読取装置

Country Status (1)

Country Link
JP (1) JPS5831480A (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63782A (ja) * 1986-06-20 1988-01-05 Ricoh Co Ltd パタ−ン認識装置
JPS63155391A (ja) * 1986-12-19 1988-06-28 Mitsubishi Electric Corp 単語読取装置
JPS63158679A (ja) * 1986-12-23 1988-07-01 Matsushita Electric Ind Co Ltd 文字認識装置
JPS63279387A (ja) * 1987-05-12 1988-11-16 Mitsubishi Electric Corp 文字認識装置
JPH0466666U (ja) * 1990-10-12 1992-06-12
JPH0467760U (ja) * 1990-10-24 1992-06-16

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS556642A (en) * 1978-06-29 1980-01-18 Fujitsu Ltd Character recognition unit
JPS55115177A (en) * 1979-02-26 1980-09-04 Toshiba Corp Character reader
JPS5622179A (en) * 1979-07-31 1981-03-02 Fujitsu Ltd Pattern recognizer

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS556642A (en) * 1978-06-29 1980-01-18 Fujitsu Ltd Character recognition unit
JPS55115177A (en) * 1979-02-26 1980-09-04 Toshiba Corp Character reader
JPS5622179A (en) * 1979-07-31 1981-03-02 Fujitsu Ltd Pattern recognizer

Also Published As

Publication number Publication date
JPS5831480A (ja) 1983-02-24

Similar Documents

Publication Publication Date Title
US4383307A (en) Spelling error detector apparatus and methods
US5799303A (en) Apparatus and method for sorting attributes-mixed character strings
US4959785A (en) Character processing system with spelling check function that utilizes condensed word storage and indexed retrieval
US3259883A (en) Reading system with dictionary look-up
US4747053A (en) Electronic dictionary
US4254476A (en) Associative processor
JPH0226266B2 (ja)
EP0097818B1 (en) Spelling verification method and typewriter embodying said method
JPS60105039A (ja) 文字列照合方式
US7065517B1 (en) Data processors
EP0352377A1 (en) Word processing apparatus and method
JP2574748B2 (ja) 文書処理装置
JPH0746362B2 (ja) 文字列照合方法
JP2921119B2 (ja) 数値検索装置および数値検索方法
JPS5847066B2 (ja) 文字認識装置
JPS6320530A (ja) 電子辞書における単語検索装置
JP2629040B2 (ja) 日本語処理システム
JPH0664586B2 (ja) 文字列照合方法
JP2718107B2 (ja) 比較処理方式
JPS5875234A (ja) 文字入力装置
JPH0394325A (ja) データ処理装置
JP2509186B2 (ja) コ−ド変換方式
JPS62278689A (ja) 単語検索方式
JPH0462630A (ja) 文字コード変換装置
JPS6213710B2 (ja)