JPH04123185A - 文書認識方式 - Google Patents

文書認識方式

Info

Publication number
JPH04123185A
JPH04123185A JP2242331A JP24233190A JPH04123185A JP H04123185 A JPH04123185 A JP H04123185A JP 2242331 A JP2242331 A JP 2242331A JP 24233190 A JP24233190 A JP 24233190A JP H04123185 A JPH04123185 A JP H04123185A
Authority
JP
Japan
Prior art keywords
recognition
field
dictionary
recognized
contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2242331A
Other languages
English (en)
Inventor
Takuya Okamoto
卓哉 岡本
Masatoshi Hino
樋野 匡利
Tetsuo Machida
哲夫 町田
Masato Teramoto
正人 寺本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2242331A priority Critical patent/JPH04123185A/ja
Priority to KR1019910015755A priority patent/KR920006874A/ko
Publication of JPH04123185A publication Critical patent/JPH04123185A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野コ 本発明は帳票等の書類の認識方式に関する。
[従来の技術] 文字認識技術の発展により、対象が印刷漢字の場合、高
い認識率の認識装置が開発されている。
しかし、これらの装置においても1文字のつぶれ、かす
れ等による誤認識は避けられない、認識精度を向上させ
るために、単語辞書を用いた認識結果の修正に関する研
究が進められているが、単語辞書が大きくなるにつれ、
認識速度、精度の点から、その検索範囲を絞り込む技術
が必要となっている。
単語辞書を絞り込むためには、認識対象の文字種や内容
が何らかの方式で限定されなければならない。この−手
法として、帳票のようにフォーマットの与えられた画像
を認識する際に単語辞書を絞り込む方式が従来技術とし
て存在する1例えば、特開昭59−4071号公報には
、例えば住所フィールドの前にある“住所”という文字
列のように、フィールドの内容を表現する項目(以下こ
れをキー項目と呼ぶ)を利用し、まずキー項目を認識す
ることにより、そのキー項目が示すフィールドの文字種
、単語を限定するという方式が提案されている。上記公
知例では1例えば、住所フィールド中の都道府県名を認
識した後、認識した都道府県内の古都に絞り込んで、古
都名をHHするといった、同一フィールド中の認識結果
をもとに文字種、単語の限定を行う方式についても述へ
ている。
[発明が解決しようとする課題] 上記従来技術で辞書を絞り込んでも1例えば、“住所”
というだけでは、膨大な量の住所辞書を検索しなければ
ならない。特に、住所フィールドに存在するはずの都道
府県名が、別のフィールドに既に現れているなどの理由
により、省略されうる場合、住所フィールドの先頭に現
われるのが都道府県名か古都名かわからないので、上記
従来技術で示されているような、住所フィールド中の都
道府県名の認識結果を用いて古都名の絞り込みを行う方
法は使えないといった問題点がある6本発明の目的は、
帳票等の文書の認識の際に、フィールドごとの認識用辞
書の絞り込みを有効に行なえ、認識を高精度化できる文
IF !に識方式を提供することにある。
[課題を解決するための手段] 本発明では、上記目的を実現するため、帳票等書類上の
各フィールドが持っている他フィールドの認識用辞書の
限定情報と認識用辞書サイズとをもとに、複数フィール
ドの認識順序を制御し、成るフィールドの認識結果によ
り、その内容が限定される他のフィールドの認識用辞書
を絞り込むようにしたことを特徴とする。
[作用コ 本発明では、上記のようにフォーマットの予め分かって
いる帳票等において、成るフィールドの内容を認識する
際に、その内容が他のフィールド内の文字列により限定
される場合、他のフィールドの内容を限定するような文
字列が含まれるフィールドから先に認識を行なうような
認識順序を設定することで、認識用の辞書の検索範囲の
絞り込み効率を良くし、辞書の検索効率の向上による高
速化および高精度化を実現する。また、認識候補が複数
現われ、認識結果が確定しない場合でも、その後の他の
フィールドの認識結果により、辞書が絞り込まれれば、
この辞書内に存在しない認識候補を除くことで、認識結
果の検索を行なう。さらに、認識対象のフィールド位置
が固定でない場合でも、帳票のようにキー項目と内容が
並んでいるといったフォーマットを持っていれば、認識
対象はフィールドのキー項目を認識し、キー項目に対し
て作成された認識用辞書とフィールドの対応を取り、該
当フィールドの認識用辞書と他フィールド用辞書限定情
報を用いフィールドの認識を行なうことで、同様の処理
が行なえる。
[実施例] 以下、本−発明を実施例を用いて説明する。本実施例で
は、認識対象の帳票の1例として運転免許証の文字認識
を行なう場合について説明する。
第1図は、認識処理装置のブロック図である。
画像入力部101では、スキャナ等の入力装置100か
ら入力された運転免許証の画像を取り込む。フォーマッ
ト解析部102では、画像入力部101で取り込んだ画
像と、ファイル109から読畠される運転免許証のフォ
ーマット情報から、Ly!、ra対象となる各フィール
ドの位置情報を得る。
フィールド認識順序制御部103では、第4図に示す構
成をもつフィールド内文字認識用辞書105に格納され
た辞書番号401と内容限定辞書番号404、および、
第5図に示す如くフィールドと認識辞書との対応関係を
示したテーブル500をもとに、認識するフィールドの
順序を設定する。フィールドの認識順序は次の要素をも
とに決めらる。
(1)他から絞り込みが行われない。
(2)内容限定辞書を多、く持っている。
(3)(絞り込みが行われた後の)辞書のサイズが小さ
い。
この3つの要素の優先度は(1)が最も高く、(3)が
最も低い。これをもとにフィールドの優先順位を決める
。初期的には辞書の絞り込みが全く行なわれない状態で
順序が決められる。
認識辞書管理部104では、フィールド認識順序制御部
103で得られた認識順序をもとに、フィールド内文字
認識用辞書105から該当する単語辞書を読み込む。認
識用辞書105は、後述する複数個の辞書(105A、
105B、・・・)からなり、第4図に示す如く、辞書
管理情報として、辞書番号401、既認識フラグ402
、絞り込み回数403、内容限定辞書個数404、およ
び内容限定辞書番号405を記憶し、また、単語データ
として、単語コード406、単語文字数407゜絞り込
みフラグ408.内容限定リンク409、内容限定個数
410といった内容を記憶している。
認識辞書管理部104では、認識部106で得られたL
!!諏候補の第1位候補が第2位候補以下に比べて十分
類似度が高い場合の第1候補(以下、こる れを認識結果と呼ぶ)、あKaは、そうでない場合の認
識候補の上位の絞り込みフラグを1ずつ増加する。さら
に、候補から出ているリンク先の他の認識用辞書の絞り
込みフラグを1ずつ増加する。
これによって、認識部106では、認識を行う際に、認
識辞書管理部104で読み出した辞書の絞り込みフラグ
408をチエツクし、その値が辞書管理情報の絞り込み
回数と等しいものだけを認識対象の単語とみなすことに
より、認識対象を絞り込む。また、画像入力部101で
取り込まれた画像から、フォーマット解析部102で得
られたフィールド位置情報の画像を取り出し、絞り込ま
れた辞書を用いて、この画像の認識を行う。尚、認識を
行なうにつれ、各フィールドの!LM順序の優先度が変
化する。したがって、フィールドの認識後、変化した優
先度をもとにして、認識順序制御部104で、再び認識
順序を変更する。
認識結果格納部107では、認識結果格納フィイル10
8に、認識部106で得られた認識結果を格納する。認
識結果表示部109では、認識結果格納ファイル108
の内容をデイスプレィ121に表示する。認識結果修正
部110は、認識結果表示部109に表示された結果を
もとに、オペレータがキーボード122から入力した修
正データを受けて、認識結果格納部107に修正情報を
通知し、認識結果格納部107では、修正された結果を
格納する。尚、ブロック101〜104.106〜11
0で示す各部分はCPU120により実行されるプログ
ラムモジュールとして実現される。
第2図は運転免許証のフォーマットを示す。
201は氏名、202は生年月日、203は本籍、20
3は住所、204は交付臼、2o5は公安委員会名の各
フィールドである。尚、運転免許証には、上記の項目の
他に、国籍、免許の条件、免許証番号、免許取得年月日
などの項目が記載されているが、説明を簡単にするため
にこれらの項目については省略して示しである。
上記免許証において、例えば、生年月日フィールド20
2には、明治、大正、昭和といった元号と00年00月
00日という文字列しか現れない。
このように、フィールドごとに文字種、単語が限定され
、これらの単語、文字種により、フィールド対応の認識
辞書が生成される。
さて、免許証の発行所である公安委員会は都道府県ごと
(北海道では地区に分かれることもある)にあり、住所
は、公安委員会名フィールド中に記載されている都道府
県に限られる。従って。
203の住所フィールドに現れる文字列は、205に記
載されている公安委員会名をまず認識することにより、
該当都道府県の住所辞書から作成した古都名辞書を用い
た単語マツチングで認識を行うことができる。以下では
第3図に示した運転免許証認識の処理フローに従って本
方式を詳述する。
ここでは、住所及び公安委員会名の認識に注目する。し
たがって、住所を第1フイールド、公安委員会を第2フ
イールドとし、この2フイールドの認識のみ行うとする
。ただし、住所フィールドは都道府県名、市郡名等に分
かれており、複数の辞書を必要とするので、内容限定フ
ラグを利用して都道府県基と古都名の関係を記述する。
この場合は、住所フィールドは都道府県基、古都名(東
京23区を含む)までは単語辞書を利用し、それ以降は
、1文字ごとの認識を行なうとする。したがって1次の
ように辞書間の内容限定リンクを張る。
公安委員会名用認識辞書は、住所フィールドの都道府県
名を限定する(この場合同一である)ので、住所用認識
辞書の都道府県名に対して内容限リンクを張る。また、
公安委員会フィールドの都道府県名は、住所辞書の古都
名を限定するので、古都名辞書へのリンクを張る。住所
フィールドの都道府県名は存在するかどうか分からない
ので、他の辞書の限定には利用できない。また、住所フ
ィールドの古都名から逆に、公安委員会フィールドの都
道府県名が得られるので、住所用認識辞書の古都名より
公安委員会用辞書の都道府県名に対してリンクを張る。
この場合、複数の都道府県に同一名の布部が存在しうる
が、それぞれの都道府県用辞書にこの古都名を格納しで
あるので、辞書の格納時の所属都道府県に対するリンク
だけ張れば良い。
以上により、認識辞書の限定関係は第6図のようになる
。このような、辞書を構成した上で認識を行う。
まず、ステップ301で画像データを読込み、303で
304に格納された免許証のフォーマット情報と画像デ
ータをもとに、フィールド位置を決定する。次に、30
5でフィールドの認識題字を決定する。この場合、公安
委員名の後に住所を認識すれば良いという順序が得られ
る。したがって、第7図に示したようなフィールドエコ
識順序格納バッファに認識順序を格納し、認識の際には
、このバッファから、順次、フィールド番号を取り出し
、このフィールドの認識を行う。ただし、先に述べたよ
うに、住所用辞書は複数あるので、住所の認識の際には
全ての辞書を読み込んで認識を行うことになる。
306では認識回数のカウンタをクリアし、307でフ
ィールド認識順序格納バッファのカウンタをクリアする
。305で得られた順序から、第2フイールドの公安委
員会名が最初の認識対象となる。308で公安委員会フ
ィールドの認識用辞書の既認識フラグを調べ、すでに公
安委員会名の認識結果が得られているがチエツクする。
この場合、最初の認識であるので、当然既認識フラグは
立っていない。したがって、309で公安委貝会名フィ
ールド用認m辞書310を読み込む。その上で、311
で単語照合により公安委員会名を認識する。
312では、公安委員会名フィールド用辞書の認識結果
あるいは!!諏候補の上位の絞り込みフラグを1増やし
、限定リンク先の絞り込みフラグを1増やす。さらに、
313で認識結果が得られたと判断されれば、314で
公安委員会名が既に認識されたとして公安委員会フィー
ルドに既認識フラグを立てる9次に、315でまだ認識
が行なわれていないフィールドについて、新たに絞り込
みが行なわれ光結果を受けて認識順序の変更を行なう、
ただし、この場合、認識対象のフィールドは2つなので
、変更は行なわれない。
次に、316で認識対象フィールドのカウンタをインク
リメントし、317でカウンタのチエツクを行なった後
、第1フイールドである住所フィールドのL3識処理を
公安委員会名の認識と同様に行なう。ここでは、都道府
県と布部の2つの辞書があるので、公安委員会名の認識
により絞り込まれたこの2つの辞書より、まず、先頭の
文字列を認識する、これが都道府県名であれば、これに
続く文字列はこの都道府県中の古都名であるので、住所
用布部辞書との単語照合を行ない認識を行なう。また、
住所フィールド中の古都名をもとに公安委員会名が限定
されるので、公安委員会フィールドの既認識フラグが立
っていなければ、住所フィールドの認識結果あるいは認
識の上位候補により公安委員会用辞書の絞り込みを行な
う。さらに、住所辞書の認識が確定できた場合は、住所
フィールドに既認識フラグを立て、できなかった場合に
は既認識フラグは立てない、このような処理をいずれの
フィールドについても既認識フラグが立つか(318)
、あるいは、一定回数繰り返した場合(319,320
)、その時点で得られた第一候補を認識結果とすること
で各フィールドの内容の認識を行なう。
以上の方式により、フォーマットの決まった帳票につい
ての認識が高精度かつ高速に行なえる。
尚、上記実施例では、フィールドの位置、内容ともに全
ての固定のフォーマットを挙げで説明しているが、書類
の左の項目がキー項目で右の項目がその内容であるとい
ったことだけが分かっている場合、辞書をキー・項目の
コード情報を加えた構成にしておき、フォーマット解析
部でキー項目をす八で認識した上で、上記実施例と同様
にキー項目の示すフィールド内容をキー項目から得られ
た認識用辞書を用いて認識するようにすればよい。
同様の処理で本方式を利用してP!識を行なうことが可
能であり、これも本発明に含まれる。
[発明の効果] 以上の説明から明らかな如く、本発明による認識方式は
、1つの認識フィールドの内容の認識結果に基づいて他
フィールドに含まれる文字範囲を限定し、これにより認
識率および認識辞書の検索効率の向上を図れるという効
果がある。
【図面の簡単な説明】
第1図はP!識処理装置のブロック図、第2図は認識対
象の1実施例である免許証のフォーマットを示す図、第
3図は認識処理のフローチャート、第4図は上記免許証
を認識するために用いられる辞書の構成図、第5図は認
識フィールドと認識用辞書との対応テーブル、第6図は
認識用辞書の限定関係を説明するための図、第7図はフ
ィールド認識順序格納バッファの構成図である。 符号の説明 102・・・フォーマット解析部、103・・・フィー
ルド認識順序制御部、104・・・認識辞書管理部。 106・・・P!識部、107・・・認識結果格納部、
109・・・認識結果表示部、110・・・認識結果修
正部、105・・・辞書ファイル。 図 (B ) 茶lI211 介り 第 乙 図 $ ”t r2 手 続 補 正 書 平成2年11月19日

Claims (1)

  1. 【特許請求の範囲】 1、帳票等の文書の認識装置において、文書上の行や列
    あるいは罫線等により区分された1つの文字領域(以下
    これをフィールドと呼ぶ)内の内容が、他のフィールド
    の内容により限定されるような構成を持った帳票等を認
    識する際に、認識対象となるフィールドが持っている認
    識用辞書を上記他フィールドの認識結果によって限定し
    、該認識用辞書を用いて認識対象フィールド内の未知の
    文字パターンを認識するようにしたことを特徴とする文
    書認識方式。 2、請求項1に記載の文書認識方式において、複数の候
    補が現われて認識結果が確定しないフィールドについて
    、上記フィールドの認識後、他のフィールドの認識結果
    により限定された認識用辞書を利用して、上記フィール
    ドの認識結果を検定するようにしたことを特徴とする文
    書認識方式。
JP2242331A 1990-09-14 1990-09-14 文書認識方式 Pending JPH04123185A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2242331A JPH04123185A (ja) 1990-09-14 1990-09-14 文書認識方式
KR1019910015755A KR920006874A (ko) 1990-09-14 1991-09-10 소정의 포맷을 갖는 문서의 인식방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2242331A JPH04123185A (ja) 1990-09-14 1990-09-14 文書認識方式

Publications (1)

Publication Number Publication Date
JPH04123185A true JPH04123185A (ja) 1992-04-23

Family

ID=17087608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2242331A Pending JPH04123185A (ja) 1990-09-14 1990-09-14 文書認識方式

Country Status (2)

Country Link
JP (1) JPH04123185A (ja)
KR (1) KR920006874A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075892A (ja) * 2007-09-20 2009-04-09 Pfu Ltd 証明書読取認識装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009528086A (ja) 2006-02-23 2009-08-06 ファルコンズ トゥリーハウス リミテッド ライアビリティ カンパニー 円形移動劇場
KR102256610B1 (ko) * 2021-01-12 2021-05-26 서울특별시 지하철 영상효과 및 급정거 체험시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS549532A (en) * 1977-06-24 1979-01-24 Hitachi Ltd Pattern recognition device
JPS59178588A (ja) * 1983-03-30 1984-10-09 Mitsubishi Electric Corp 文字認識装置
JPS6143383A (ja) * 1984-08-08 1986-03-01 Fujitsu Ltd 文字認識装置
JPS6336389A (ja) * 1986-07-30 1988-02-17 Toshiba Corp 文字読取装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS549532A (en) * 1977-06-24 1979-01-24 Hitachi Ltd Pattern recognition device
JPS59178588A (ja) * 1983-03-30 1984-10-09 Mitsubishi Electric Corp 文字認識装置
JPS6143383A (ja) * 1984-08-08 1986-03-01 Fujitsu Ltd 文字認識装置
JPS6336389A (ja) * 1986-07-30 1988-02-17 Toshiba Corp 文字読取装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075892A (ja) * 2007-09-20 2009-04-09 Pfu Ltd 証明書読取認識装置

Also Published As

Publication number Publication date
KR920006874A (ko) 1992-04-28

Similar Documents

Publication Publication Date Title
JP2726568B2 (ja) 文字認識方法及び装置
US4991094A (en) Method for language-independent text tokenization using a character categorization
EP0844583B1 (en) Method and apparatus for character recognition
US5337232A (en) Morpheme analysis device
JP2001344562A (ja) 文書読取装置および文書読取方法
JPH11120293A (ja) 文字認識/修正方式
JPH04175966A (ja) 文書論理構造生成方法
JPH04123185A (ja) 文書認識方式
JPH0869474A (ja) 類似文字列検索装置
JPH08115330A (ja) 類似文書検索方法および装置
JP2939945B2 (ja) ローマ字住所認識装置
JPH03209564A (ja) 文献データ登録方法
JP2821143B2 (ja) 形態素分解装置
KR100289332B1 (ko) 전자화된 문서의 어절 데이터베이스 자동 구축장치 및 방법
JPS6154569A (ja) 文書画像処理方式
JP3552750B2 (ja) 文書処理装置
JPH02136970A (ja) 英単語検索装置
JP3007697B2 (ja) 単語照合装置及び単語照合方法
KR100356503B1 (ko) 학습형문자인식장치
JPH06332949A (ja) 電子ファイリング装置
JPS63138479A (ja) 文字認識装置
JPS6356756A (ja) コレクト機能付欧文作成装置
JPH0589279A (ja) 文字認識装置
PRINTED S PRE-PROCESSING SN
JP2003303316A (ja) 文字認識装置、文字認識用辞書およびプログラム