JPS6055866B2 - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPS6055866B2
JPS6055866B2 JP58079399A JP7939983A JPS6055866B2 JP S6055866 B2 JPS6055866 B2 JP S6055866B2 JP 58079399 A JP58079399 A JP 58079399A JP 7939983 A JP7939983 A JP 7939983A JP S6055866 B2 JPS6055866 B2 JP S6055866B2
Authority
JP
Japan
Prior art keywords
character
word
recognition
similarity
character code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP58079399A
Other languages
English (en)
Other versions
JPS58213381A (ja
Inventor
浩道 藤沢
康明 中野
道夫 安田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP58079399A priority Critical patent/JPS6055866B2/ja
Publication of JPS58213381A publication Critical patent/JPS58213381A/ja
Publication of JPS6055866B2 publication Critical patent/JPS6055866B2/ja
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 1)発明の利用分野 本発明は、漢字のように文字カテゴリが多い場合に適し
た、誤読文字を単語情報を用いて修正を行う文字認識装
置に関する。
(2) 従来技術 従来、たとえば官公庁などの各種申請書の処理の多くは
人手によつてなされている。
これらの申請書は、普通漢字仮名混り文で書かれており
、これらの申請処理業務を機械化しようとすると、漢字
も含めた日本語文字の認識装置が入力部に必要となる。
現在、研究室のレベルでは、実用上満足し得る読取精度
を有する印刷漢字認識装置の原理実験に成功しており(
たとえば電子通信学会論文誌、58−D巻、2号、引責
参照)、上記の各種申請書の大半は和文タイプによる比
較的高品質のタイプ印字文書であることを考えると、上
記の申請書処理業務において、印刷漢字認識装置を使用
する環境条件は整つているといえる。しかし、実際に印
刷漢字認識装置を実用化しようとする場合、申請業務の
性格上かなり高度の認識請度が要求される。
一方、漢字は文字類が極めて多いことや、印字品質が比
較的良好であるといえども比較的品質の悪い申請書が入
力されることもあり得ることを考えると、読取精度は全
く十分であるとは言えない。しかるに、認識結果が正し
いか否かを検定することにより、誤認識率を著しく減少
せしめることが考えられる。
従来、上記の考え方は次のように行われていた。数字を
対象とした文字認識装置では、金額を扱うことが多いの
で、たとえば帳票上には各項目の金額とともにそれらの
総計をも記載しておき、認識装置では各項目の認識結果
の総計と、総計の認識結果とを比較して誤りを検出する
方法が取られている。また英字を対象とする文字認識装
置では、各英文字はある限定された語紮の中の1つの単
語を構成しているということを前提として、N−Gra
mという手法を用いたが検定方法が考えられる。しかし
、上記従来の方法はそのまま漢字を対象とした文字認識
装置に適用することができない。
その理由は、漢字の場合は字種が英数字(多くて5幹)
などの場合に比較して2000〜4000と多く、たと
えばN−Gramの表の記憶容量が膨大になり、そのま
までは実現不可能になる。(3)発明の目的 したがつて、本発明の目的は、字種の多い場合に適した
手法として単語情報を用いて読取結果を一修正する手段
を与え、全体として誤認識率を下げることにある。
(4)発明の総括説明 上記の目的を迩成するために、本発明においては、読取
結果を単語辞書に格納されている単語情.報と比較照合
し、その結果、単語中のある文字について一致しない場
合であつても、単語全体の照合結果に基づいて単語を特
定することにより誤読文字を修正する点に特徴がある。
(5)発明の実施例たとえば、次のような文書をもつ申
請書を考える。
(例) 申請書の種類 登記申請書 登記の目的 原因 権利者 氏名 所在 持分 義務者 氏 名 乙川次部 住 所 東京都立川市2−2 全部移転 昭和5詳2月2日売買 甲山太部 東京都国立市1−1 3分の1 申請日 昭和5拝3月3日 以上 本発明装置の原理の概略を、第1図の流れ図を用いて説
明する。
まず、201,202で帳票上の文字を光電変換し、一
定枠内に切り出し、1行毎に認識し、認識結果を文字コ
ードの形で1行分出力する。認識部は上記動作を帳票上
の全文字が認識されるまで続ける。以上までは従来の文
字認識装置と同じである。つぎに、認識結果検定部は、
キー項目(1行の左側の所定の長さのフィールドに印刷
される文字列)に対応する認識結果の文字系列を抽出し
、全キー項目が記憶される辞書の中から、この文字系列
が何番目のキー項目に該当するかを203で認識する。
これをキー項目の単語認識という。なお、文字認識は誤
まることを考えられるので、上記単語認識の手法は工夫
する必要がある。手法は後述する。何番目のキー項目か
が分ると、このキー項目に続く固定項目に出現し得る字
種か限定可能となり204で字種を指定する。
従つて、文字認識結果の文字コード列の中で固定項目に
対応する文字コードを調べて、上記の許容される字種に
含まれるか否かを次に205で調べる。このとき、含ま
れないことが分れば、文字認識の結果が誤りであるか、
帳票の文字が誤字であつたかのどちらかである。したが
つて、この場合は上記の旨を認識結果に付随して出力す
る。たとえば文字コードの符号を反転させる。検定の結
果、許容字種に含まれていれば、正読と見做して、その
まま文字コードを出力する。以上の動作を帳票上の文字
がなくなるまで続ける。
つぎに、本発明の要点である認識結果の文字系列を単語
として認識する手法を説明する。
一般に単語認識をするためには単語情報を記憶した辞書
(例えば、各単語を構成する文字コード列からなる表)
を用意して、入力された字系列がどの辞書項目と一致す
るかを調べればよい。しかし、実際には入力された文字
系列がすべてが正しく読取られているとは限らないので
、どの辞書項目とも完全一致がとれない場合がある。し
たがつて、辞書項目と一致がとれるか否かではなく、入
力文字系列と各辞書項目との距離または等価的に類似度
(後で定義する)を求めて、単語認識をする必要がある
。たとえば1申請日ョを読取つた結果として1甲請日ョ
が得られることがあるがJ甲請日ョという辞書項目は明
らかに存在しない。
文字系列と辞書項目との類似度を各文字同志の類似度と
すると、上記例では1申ョと1甲ョとの類似度が必要に
なる。
しかし、このような2つの文字の組合せは、読取対象字
種を2000字として4000000の組合せとなり、
記憶しておくことは不可能である。したがつて、本発明
装置では、異なる文字同志(上記例では1甲ョと1申J
)の類似度が必要になつた場合は、認識装置内の該当す
る標準パターン同志の類似度を計算してその値を用いる
。同じ文字同志の類似度は常に1とする。ここで類似度
とはOから1までの値をとる数値で、二つの文字パター
ン同志の間に定義され、専用計算回路により容易に計算
され、公知であるので、ここでは説明を省略する。上記
手法による単語認識のアルゴリズムを第4図の流れ図を
用いて説明する。
ます、各辞書項目は、単語を構成する文字数Nkと、文
字コード列Wk=(W,(k)1i=1、2、・・・・
・・・・・、N,)とで表現されている。全辞書項目の
数をKとする。上でkは、項目番号(単語番号)てあり
、1からKまでの値をとる。また単語認識部へ入力され
る文字認識結果の文字系列(文字コード列)をS=(S
目1=1、2、・・・・・・・・・、N)で表わす。文
字系列S<5W,との類似度をPkで表わす。第2図に
単語認識に必要な辞書の構成を示す。辞書の最初の語5
01(番地D)はキー項目の数Kを保持し、つぎに各項
目の文字コード列を記憶する番地A,,A2,・・・・
・・・・・,ANを記憶する語502が続く。つぎは各
キー項目の文字コード列を記憶する語がつづく。たとえ
ばA1番地503は、項目番号1の単語を構成する文字
の長さ(文字数)N1を保持し、以下のN1語504は
各文字コードを記憶している。第3図に単語認識の対象
となる文字コード列を図示する。
文字コード列はメモリの作業用領域に一担格納され、N
語からなる。第4図において、単語認識は次のように実
行される。
まず101,102で切期化をする。103において、
単語長が入力文字系列長に一致するか否かを判定して、
一致しないときは類似度ρkは0のままとして、次の単
語を調べる。
単語長が一致するときは、105〜112の過程で類似
度ρ,を求める。104で初期化を行い、105で辞書
内k番目の項目のi番目の文字コードW,(k)と入力
文字系列のi番目の文字コードS,とが一致するか否か
を調べ、一致するときは、106でρ,に1を加え、一
致しないときは107において判定不能であつたかどう
かを調べる。
S,=0ときは判定不能を示し、このとききは106を
実行し、S,半0のときは108において、認識装置内
の標準パターンを用いて、Wi(k)の標準パターンと
SIの標準パターンの類似度を計算し、ρ1に加える。
そこまでの文字数1でρ,を割つた値がしきい値εを越
えるかどうかを109で判定し、越えない場合は項目k
は候補から113において除外する。越える場合は次の
文字に進み、全文字に対して105〜111の処理が終
了したときは112において、文字系列同志の類似度を
文字数Nで割つて正規化する。115において全辞書項
目の処理が済んたにとが検知されたときは、116で求
められた全類似度(ρKlk=1、2、・・・・・・・
・・、k)の中の最大値ρ1と次大値ρ2を求め、絶対
しきい値δとρ1を比較して117、さらにρ1とρ2
の差に十分な開きがあるか否かを相対しきい値γにより
検定し、十分なときは119でp1を与える単語番号k
*を出力し十分でないときは判定不能を120で出力す
る。
つぎに、キー項目に続く固定項目に出現し得る字種を指
定する手段を説明する。
本発明では、フラグ表なるものを第5図に示すごとく、
またビット番号変換表なるものを第6図に示すごとく用
意する。キー項目の単語認識結果がk*のときは、)ま
ずビット番号変換表を参照してフラグ表のどのビットを
利用するかを示すビット位置番号b(k*)を求める。
つぎに任意の文字に対するフラグ表の内容を取り出し、
b(k*)ビット目の値が1であるときは同文字は同キ
ー項目に続く字種として許され、0であるときは許され
ないということが分る。したがつて、この結果を用いて
、原理の説明で述べたように認識結果を検定することが
できる。
以下、本発明を実施例を参照して詳細に説明する。第7
図は本発明装置の一実施例のブロック図である。
以下、同図に従つて実施例を説明する。同図において1
は従来の文字認識装置で、3が未知パターンを観測する
文字観測部、4が文字認識処理装置、5は標準パターン
記憶装置である。上記の部分は公知であるのでここでは
詳述しない。認識処理装置4の出力6は、帳票上の文字
を行単位に認識した結果で、文字コード列の形で転送さ
れる。ここで、文字コードがOのときは、その文字は認
識不能であつたことを表わす。検定処理装置10は、メ
モl川1と類似度計算回路30と、マイクロプロセッサ
20から成つている。
回路30は、マイクロプロセッサ20から2個の文字コ
ードを受けて、同文字コードに対応する2個の標準パタ
ーンを5より受けて同標準パターン同志の類似度を計算
し、結果の類似度を20へ返送する。回路30は、第4
図の処理108を実行するときに用いられる。メモリ1
1は、第5図に示したフラグ表を記憶する部分12と、
第6図に示したビット番号変換表を記憶する部分13と
、第2に示したキー項目辞書を記憶する部分14と、さ
らに作業用領域15とからなつている。
マイクロプロセッサ20は20内に持つマイクロプログ
ラムに従つて、第4図で説明したアルゴリズムにより単
語認識(キー項目認識)を行い、固定項目の字種の指定
を12に用いて行い、固定項目の認識結果である文字コ
ードを検定する。
つぎに、文字認識装置としての処理の流れに沿つて説明
する。帳票上に印刷された文字パターンは3により光電
変換され、一定の枠内に切り出され、4へ転送される。
4では3から送られてきた未知パターンと5内の各標準
パターンとの類似度を計算し、最大類似度を与える文字
のコードを、1行分まとめて、文字コード列として出力
線6上に出力する。
ただし、ここで4は最大類似度が所定のしきい値以上に
なつているかどうかを検定し、しきい値に達しない場合
は出力コードをOとする。検定処理装置10内のマイク
ロプロセッサ20は1行ごとの認識結果の文字コード列
を6を通して受け取りメモリ15に格納する。
まず1行分の”文字系列(ブランクも1つの文字コード
を与えられている)からキー項目に対応する文字コード
系列を抽出し、単語認識に移る。1行分の文字コード列
の例を第8図に示す。
1行は25文字からなり、先頭の8文字801がキー項
目に対応し、後半の1′751.字802が固定項目に
対応する。
文字コード9999はブランクを意味する。欄801内
のブランクでない文字コード(第8図に於いてはSl,
S2,・・・・・・・・・,S6)がキー項目の文字を
認識した結果の文字コード列である。単語認識はマイク
ロプログラムにより、第4図に示したアルゴリズムに従
つて行う。
ただし、同アルゴリズムにおいて、第4図の処理108
は、類似度計算回路によつて行う。すなわち、20は2
個の文字コードSK.l5k番目の辞書項目のi番目の
文字コードw1(k)(第4図参照)を30に転送し、
類似度計算の命令を30に対して発する。30は同命令
を受けて、S,とW,(k)に対応する2個の標準パタ
ーンを5より読み出し、同標準パターン同志の類似度ρ
木を計算し、20に対し返送する。
以上は第1図の処理203である。マイクロプログラム
は単語認識が終了すると、検定処理に移る。
まず第1図の処理204を行う。まず、キー項目認識の
結果のキー項目番号が分ると、メモl川3内のビット番
号変換表を調べて、同キー項目に続く固定項目の字種を
指定する所のフラグ表のビット番号b水を得る。続いて
固定項目の認識結果の検定処理205を行う。20はメ
モリ15内の認識結果文字コード列(第8図)の内、固
定項目に対応する文字コード802から1つづ゛つ取り
出し、メモリ12内のフラグ表(第5図参照)の各文字
コードに対応するフラグのb*ビット目を調べる。同ビ
ットが1のとときは、許容される字種であるので、その
時は何もしないが、Oのときは許容されない字種である
ので、同結果を与えた802内の文字コードの符号を反
転させる。たとえば、固定項目のある認識結果文字コー
ドが500であり、検定の結果許容されない文字のとき
は同符号を反転させて−500とする。ここで、固定項
目の認識結果の文字コードが4から送出された段階で負
の符号のときは、同文字コードに対する検定処理は行わ
ない。
また、キー項目に対応する文字コードについては、単語
認識結果の辞書の文字コード列を第8図に示したキー項
目の文字コード列に代人する。
例えば、文字認識結果801が1甲請日ョであつても単
語認識の結果が0申請日ョに対応するキー項目番号であ
るとするとマイクロプロセッサ20は1甲請日ョの代り
に1申請日ョに対応する文字コード列をメモリ14に格
納してある辞書から取り出して801を書き替えるので
、文字認識結果に誤りがあつても正しく修正される。キ
ー項目の単語認識の結果が判定不能であつた場合は、以
後の文字コードの検定ができないので同行の文字コード
をすべて負に反転させる。検定が終了して第8図に示し
た文字コード列が書き替えられると(誤りがない場合は
結果的には変更がない。
)、20は同文字コード列801,802を出力線50
上に出力する。以上の過程は帳票の行単位に実行される
(6)まとめ 以上説明したごとく、本発明装置は文字認識結果の誤認
識が単語情報を用いることにより、自動的に正しく修正
されて出力されるので、誤認識率を低下させることがで
きる。
本文字認識装置の結果を、たとえばつぎのように表示、
人手により最終判定を仰ぐことができる。
すなわち、正の文字コードが出力された場合は通常に表
示し、負の文字コードが出力された場合は、誤認識の可
能性が高いので、揮度や、色を変えてディスプレイした
り、表示文字の脇に特殊記号を付して表示したりでき、
人手を介して修正できる。本発明装置の特徴は、従来の
文字認識装置の後段に付ければよいので大きな変更を必
要としないこと、本検定処理部を容易に取除くことがで
き認識部はそのまま従来の認識装置として動作できるの
で、本検定処理部をオプションとして取扱えることであ
る。また、単語認識に際して、誤りを含んだ文字コード
系列から辞書を検索する手法で必要になる任意の二つの
文字の近さの測度を、標準パターン同志の類似度によつ
て得ている点も特徴である。
したがつて、近さの測度を貯えるための膨大な記憶装置
が不必要である。なお、本明細書に述べた実施例におい
ては、第5図で10の中に類似度計算・回路30を設け
たが、類似度計算機能は4が本来持つているので、4を
若干変更することにより、30を4の中に含め、全体と
して効率的なものにすることができる。
【図面の簡単な説明】 第1図は本発明の原理を説明するための流れ図である。

Claims (1)

  1. 【特許請求の範囲】 1 未知文字パターンを入力する入力手段と上記入力さ
    れた未知文字パターンを標準パターンとを照合しその認
    識結果を単語毎に出力する出力手段と、単語情報を記憶
    する記憶手段と、上記出力手段により出力される単語毎
    の認識結果と上記単語情報とを比較し照合を行う照合手
    段と、該照合結果に基づいて上記未知文字パターンを単
    語毎に特定することを特徴とする文字認識装置。 2 上記照合手段は、上記出力手段から出力される単語
    の文字数と上記記憶手段に記憶された単語の文字数とを
    比較し一致する場合にのみ比較照合を行うことを特徴と
    する特許請求第1項記載の文字認識装置。 3 上記照合手段は文字コード列化した上記単語毎の認
    識結果と文字コード列化した上記単語情報とを比較し、
    各文字パターンに対応する文字コードが一致した場合は
    類似度1を与え、一致しない場合は各文字コードに対応
    する文字パターン間の類似度を与えることにより算出さ
    れることを特徴とする特許請求の範囲第1項記載の文字
    認識装置。 4 上記照合において、一致しない場合は各文字コード
    に対応する標準文字パターン間の類似度を与えることを
    特徴とする特許請求の範囲第3項記載の文字認識装置。
JP58079399A 1983-05-09 1983-05-09 文字認識装置 Expired JPS6055866B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58079399A JPS6055866B2 (ja) 1983-05-09 1983-05-09 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58079399A JPS6055866B2 (ja) 1983-05-09 1983-05-09 文字認識装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP52033386A Division JPS594071B2 (ja) 1977-03-28 1977-03-28 文字認識装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP61237924A Division JPS6297081A (ja) 1986-10-08 1986-10-08 文字認識装置

Publications (2)

Publication Number Publication Date
JPS58213381A JPS58213381A (ja) 1983-12-12
JPS6055866B2 true JPS6055866B2 (ja) 1985-12-06

Family

ID=13688770

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58079399A Expired JPS6055866B2 (ja) 1983-05-09 1983-05-09 文字認識装置

Country Status (1)

Country Link
JP (1) JPS6055866B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4998237B2 (ja) * 2007-12-06 2012-08-15 富士通株式会社 論理構造モデル作成支援プログラム、論理構造モデル作成支援装置および論理構造モデル作成支援方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS50137037A (ja) * 1974-04-10 1975-10-30

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS50137037A (ja) * 1974-04-10 1975-10-30

Also Published As

Publication number Publication date
JPS58213381A (ja) 1983-12-12

Similar Documents

Publication Publication Date Title
CN110705302B (zh) 命名实体的识别方法、电子设备及计算机存储介质
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
CN109284355B (zh) 一种批改试卷中口算题的方法及装置
US10242296B2 (en) Method and device for realizing chinese character input based on uncertainty information
CN109189895B (zh) 一种针对口算题的题目批改方法及装置
JPS6055866B2 (ja) 文字認識装置
JPS5854433B2 (ja) 相違度検出装置
CN112149402B (zh) 文档对比方法、装置、电子设备和计算机可读存储介质
JPS594071B2 (ja) 文字認識装置
CN114154480A (zh) 信息提取方法、装置、设备和存储介质
JPH0520797B2 (ja)
JPS6262388B2 (ja)
JP3958722B2 (ja) イメージデータ文書検索システム
KR20210097366A (ko) Crf 기반 한자 문헌의 문장 및 어구 식별 장치 및 방법
JP2000090193A (ja) 文字認識装置および項目分類方法
CN111859100B (zh) 一种检索意图转移识别方法及装置
CN113128231B (zh) 一种数据质检方法、装置、存储介质和电子设备
JP4261831B2 (ja) 文字認識処理方法、文字認識処理装置、文字認識プログラム
JPS59197974A (ja) 文字認識装置
JPH0256086A (ja) 文字認識の後処理方法
JPS63268082A (ja) パタ−ン認識装置
JP4069093B2 (ja) 読替パターン生成装置、方法及びプログラム
JPH08305698A (ja) 自然語解析方法及び装置
JPS5930176A (ja) 文字判定処理方式
KR20220106297A (ko) 교원 업적 검증 시스템