JP2982244B2 - 文字認識後処理方式 - Google Patents

文字認識後処理方式

Info

Publication number
JP2982244B2
JP2982244B2 JP2198165A JP19816590A JP2982244B2 JP 2982244 B2 JP2982244 B2 JP 2982244B2 JP 2198165 A JP2198165 A JP 2198165A JP 19816590 A JP19816590 A JP 19816590A JP 2982244 B2 JP2982244 B2 JP 2982244B2
Authority
JP
Japan
Prior art keywords
unit
word
character recognition
dictionary
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2198165A
Other languages
English (en)
Other versions
JPH0484290A (ja
Inventor
敦子 栗原
季栄 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ENU TEI TEI DEETA KK
Original Assignee
ENU TEI TEI DEETA KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ENU TEI TEI DEETA KK filed Critical ENU TEI TEI DEETA KK
Priority to JP2198165A priority Critical patent/JP2982244B2/ja
Publication of JPH0484290A publication Critical patent/JPH0484290A/ja
Application granted granted Critical
Publication of JP2982244B2 publication Critical patent/JP2982244B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文字認識装置の出力として得られる認識候
補文字から、単語辞書を参照することによって正解文字
を推定する文字認識後処理方式に関し、特に文字認識後
処理として、既出単語を帳票のフィールド単位に学習し
て記憶する機能を有する文字認識後処理方式に関する。
〔従来の技術〕
従来、日本語処理装置の一部には、例えば、特開昭55
−44606号公報に開示されている如く、単語学習機能と
して、読み(仮名)に対応する漢字とその出現頻度を学
習し、頻度に応じて候補漢字の並べ替えを行うものが知
られている。
しかし、帳票からの文字認識装置においては、フィー
ルド別に出現単語を見た場合、フィールド毎に出現する
単語が限られていたり、一定の傾向があったにもかかわ
らず、上述の日本語処理装置の場合の如き学習機能を有
するものはない。
〔発明が解決しようとする課題〕
上述の如く、従来の文字認識装置は、学習機能を持っ
ていなかったため、複数の認識候補文字と単語辞書とを
照合して、正しい単語を推測する際に、単語辞書のすべ
ての単語について検索・照合を行う必要があり、このた
め、検索・照合回数が増大し、認識文字候補から正解文
字を推測する性能を著しく低下させることになってい
た。
本発明は上記事情に鑑みてなされたもので、その目的
とするところは、従来の技術における上述の如き問題を
解消し、既出単語をフィールド毎に学習して記憶する単
語学習機能を付加し、学習した単語を長期的に蓄積した
単語学習辞書と認識文字候補との照合を行うことで、冗
長な単語照合の回数を削減し、単語照合の時間を短縮す
ることを可能として文字認識後処理方式を提供すること
にある。
〔課題を解決するための手段〕
本発明の上述の目的は、帳票をイメージデータとして
読み込む読み取り部と、該読み取り部により読み取られ
たイメージ情報を格納するイメージ情報格納部と、前記
イメージ情報から文字部分を切り出して認識し、1文字
に対して一つ以上の認識候補文字を出力する文字認識部
とを有する文字認識装置において、前記文字認識部によ
る文字認識結果である候補文字を格納する認識結果格納
部と、帳票のフォーマット情報を記憶する帳票フォーマ
ット記憶部と、単語を記憶する単語辞書部と、前記認識
結果格納部に格納されている認識結果と単語との照合を
行う照合部と、該照合の結果に基づいて決定される確定
単語を前記帳票フォーマット中のフィールドと対応付け
て記憶する単語学習辞書部と、前記確定単語の出現頻度
を記憶する確定単語学習部と、前記確定単語学習部の出
現頻度から出現頻度が一定以上の単語を選び出して前記
単語学習辞書部の更新を行う学習辞書更新部とを設け
て、前記照合部での単語照合の際に、前記単語辞書より
も先に前記単語学習辞書部に記憶されている確定単語を
検索・照合することを特徴とする文字認識後処理方式に
よって達成される。また、前記学習辞書更新部は、ユー
ザが特定のフィールドを指示したときに、当該フィール
ドに対応する単語学習辞書部を更新するようにしてもよ
い。
〔作用〕
本発明に係る文字認識後処理方式においては、上述の
各手段を利用して、ユーザインタフェース部において照
合部からの候補単語のうちから正しい単語を選び出し、
あるいは、正しい単語に修正した後、決定した確定単語
について帳票フォーマット記憶部を参照して帳票上のフ
ィールド対応付け、フィールド別に格納した出現頻度の
高い確定単語を単語学習辞書部に長期的に蓄積し、単語
照合の際に、単語辞書部よりも先に検索・照合すること
により、単語照合の回数を削減し、照合性能を向上させ
るものである。
〔実施例〕
以下、本発明の実施例を図面に基づいて詳細に説明す
る。
第1図は、本発明の一実施例である単語学習機能を有
する文字認識装置のブロック構成を示す図である。図
中、1は帳票をイメージデータとして読み込む読み取り
部11,該読み取り部11により読み取られたイメージ情報
を格納するイメージ情報格納部12,イメージ情報から文
字部分を切り出して図示されていない辞書中の文字を参
照して認識し、1文字に対して一つ以上の認識候補文字
を出力する文字認識部13から構成される文字認識装置を
示している。
また、2は上記文字認識装置1から出力される複数の
認識候補文字を格納する認識結果格納部、3は後述する
単語辞書部4あるいは単語学習辞書部9を検索して、該
当単語と認識候補文字との照合を行う照合部、6は帳票
のフォーマット情報を記憶する帳票フォーマット記憶部
を示している。上記単語辞書部4は、文字認識部13にお
いて参照される辞書(言わば、文字単体の辞書)とは異
なり、通常用いられる意味のある単語を所定の順序に記
憶しているものであり、また、確定単語学習部7は、第
2図に示す如く、フィールド分類処理部71と、出現頻度
計数部72,確定単語格納部73から構成されている。
上記単語学習辞書部9は、後述する如く、上述の確定
単語格納部73において、出現頻度が高いと認定された確
定単語が、その更新履歴と対応するフィールドとともに
格納されているものである。
上述の如く構成されている本実施例の単語学習機能を
有する文字認識装置の動作の概要は、以下の如くであ
る。
帳票は、まず、文字認識装置1の読み取り部11により
読み込まれ、読み取られたイメージ情報は、イメージ情
報格納部12に書き込まれるとともに、文字認識部13に送
られる。文字認識部13においては、イメージ情報から文
字が記入されているフィールドを切り出し、文字単位
に、上述の文字単体を格納している辞書を参照して認識
し、文字のそれぞれに対して、一つ以上の認識候補文字
を出力する。ここまでは、従来の一般的な文字認識装置
の動作と同様である。
本実施例の単語学習機能を有する文字認識装置の動作
の特徴は、以下の如くである。
すなわち、文字認識装置1から出力される一つ以上の
認識候補文字は、認識結果格納部2に格納されるととも
に、照合部3に送られる。照合部3においては、上述の
認識候補文字を基に、単語学習辞書部9あるいは単語辞
書部4を検索して、該当単語と認識候補文字との照合を
行い、一つ以上の候補単語を出力する。照合部3から出
力される一つ以上の候補単語は、ユーザインタフェース
部5においてオペレータの介入により、正しい単語の選
択あるいは正しい単語への修正が行われ、確定単語が決
定される。
次に、上述の単語学習辞書部9の機能について説明す
る。まず、確定単語学習部7のうちのフィールド分類処
理部71において、帳票フォーマット記憶部6を参照し
て、上述の確定単語の帳票上のフィールドとの対応付
け,フィールド別の分類が行われ、また、出現頻度計数
部72において、上述の確定単語の出現頻度が計数され、
これらに基づいて、フィールド別に、確定単語格納部73
の内容が更新される(第3図参照)。そして、上述の確
定単語格納部73内のフィールド内の単語数が一定数(ユ
ーザが設定)を越えたとき、もしくは、ユーザが特定の
フィールドを指示したときには、そのフィールドについ
て、確定単語格納部73の情報を用いて、以下に述べる方
法で、単語学習辞書部9の内容を更新する。
すなわち、確定単語格納部73に記憶された単語は、学
習辞書更新部8において、一定の契機または任意の契機
で、以下に述べる更新橇により単語学習辞書部9に反映
される。なお、単語学習辞書部9内には、第4図に示す
如く、フィールド対応に、単語とその出現履歴がテーブ
ル化されている。ここでは、出現履歴として、第5図に
示す如く、16回前までの出現履歴が格納されている。
学習辞書更新部8は、第6図に示す如き動作を行う。
まず、学習辞書更新部8は、確定単語格納部73を参照
し、前述の更新対象フィールドから、更新対象単語とな
る、頻度が一定以上の単語を選び出す(ステップ61)。
そして、更新対象フィールド内のすべての履歴情報を右
へ1ビットシフトして、左端のビット(前回の更新情
報)を“0"にする(ステップ62)。
次に、更新対象単語と単語学習辞書部9の当該フィー
ルド内の単語とを比較する(ステップ63)。そして、更
新対象単語が既に単語学習辞書部9内に存在している場
合には、左端のビットを“1"とする(ステップ64)。ま
た、更新対象単語が単語学習辞書部9内に存在していな
い場合には、新たに単語学習辞書部9に、単語と履歴情
報を登録する(ステップ66)。この場合の履歴情報は、
“1000000000000000"とする。
最後に、上述の処理における単語の追加によって、単
語学習辞書部9の当該フィールドの単語数が一定数を越
えたか否か(単語が溢れたか否か)をチェックし(ステ
ップ65)、オーバーした場合は、履歴情報の古いものか
ら順に、オーバーした数だけ単語を削除する(ステップ
67)。
上述の動作において、単語学習辞書部9は、照合部に
よる照合動作時に、単語辞書部4よりも先に参照され、
確定単語が更新され、所定の条件の場合(フィールド内
の単語数が一定数を越えた場合やユーザが指示した場
合)にフィールドと単語とが対応付けて記憶されて行
く、いわゆる学習が行われる。
上記実施例によれば、既出単語をフィールド毎に学習
し、記憶する単語学習機能を付加し、学習した単語と認
識文字候補との照合を行うことで、冗長な単語照合の回
数を削減し、単語照合の時間を短縮することが可能な文
字認識装置を実現できるという効果がある。
なお、上記実施例は、本発明の一例を示すものであ
り、本発明はこれに限定されるべきものではない。例え
ば、上記実施例においては、第3図に示した如く、確定
単語が決定される毎にフィールドと単語とが対応付けて
記憶されて行く例を示したが、帳票上のフィールドの概
念を、他の属性に変更することも可能である。
〔発明の効果〕
以上、詳細に説明した如く、本発明によれば、冗長な
単語照合の回数を削減し、単語照合の時間を短縮するこ
とが可能な文字認識後処理方式を実現できるという顕著
な効果を奏するものである。
【図面の簡単な説明】
第1図は本発明の一実施例である文字認識装置のブロッ
ク構成図、第2図は確定単語学習部の構成を示す図、第
3図は確定単語学習部の記憶内容の更新状況を示す図、
第4図は単語学習辞書部の更新状況を示す図、第5図は
出現履歴の格納方法の一例を示す図、第6図は学習辞書
更新部の処理を示す図である。 1:文字認識装置、11:読み取り部、12:イメージ情報格納
部、13:文字認識部、2:認識結果格納部、3:照合部、4:
単語辞書部、5:ユーザインタフェース部、6:帳票フォー
マット記憶部、7:確定単語学習部、71:フィールド分類
処理部、72:出現頻度計数部、73:確定単語格納部、8:学
習辞書更新部、9:単語学習辞書部。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G06K 9/72

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】帳票をイメージデータとして読み込む読み
    取り部と、該読み取り部により読み取られたイメージ情
    報を格納するイメージ情報格納部と、前記イメージ情報
    から文字部分を切り出して認識し、1文字に対して一つ
    以上の認識候補文字を出力する文字認識部とを有する文
    字認識装置において、 前記文字認識部による文字認識結果である候補文字を格
    納する認識結果格納部と、帳票のフォーマット情報を記
    憶する帳票フォーマット記憶部と、単語を記憶する単語
    辞書部と、前記認識結果格納部に格納されている認識結
    果と単語との照合を行う照合部と、該照合の結果に基づ
    いて決定される確定単語を前記帳票フォーマット中のフ
    ィールドと対応付けて記憶する単語学習辞書部と、前記
    確定単語の出現頻度を記憶する確定単語学習部と、前記
    確定単語学習部の出現頻度から出現頻度が一定以上の単
    語を選び出して前記単語学習辞書部の更新を行う学習辞
    書更新部とを設けて、前記照合部での単語照合の際に、
    前記単語辞書よりも先に前記単語学習辞書部に記憶され
    ている確定単語を検索・照合することを特徴とする文字
    認識後処理方式。
  2. 【請求項2】前記学習辞書更新部は、ユーザが特定のフ
    ィールドを指示したときに、当該フィールドに対応する
    単語学習辞書部を更新する請求項1記載の文字認識後処
    理方式。
JP2198165A 1990-07-26 1990-07-26 文字認識後処理方式 Expired - Lifetime JP2982244B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2198165A JP2982244B2 (ja) 1990-07-26 1990-07-26 文字認識後処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2198165A JP2982244B2 (ja) 1990-07-26 1990-07-26 文字認識後処理方式

Publications (2)

Publication Number Publication Date
JPH0484290A JPH0484290A (ja) 1992-03-17
JP2982244B2 true JP2982244B2 (ja) 1999-11-22

Family

ID=16386549

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2198165A Expired - Lifetime JP2982244B2 (ja) 1990-07-26 1990-07-26 文字認識後処理方式

Country Status (1)

Country Link
JP (1) JP2982244B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6550163B1 (ja) * 2018-03-29 2019-07-24 三井住友海上火災保険株式会社 文字認識装置、文字認識方法およびプログラム

Also Published As

Publication number Publication date
JPH0484290A (ja) 1992-03-17

Similar Documents

Publication Publication Date Title
US6310971B1 (en) Information processing method and apparatus, and storage medium storing medium storing program for practicing this method
JPH07182465A (ja) 文字認識方法
JPH0772906B2 (ja) 文書認識装置
JP3803219B2 (ja) 全文検索装置及び全文検索方法
JP2982244B2 (ja) 文字認識後処理方式
JP2004133565A (ja) インターネットを利用した文字認識の後処理装置
CN113609864B (zh) 一种基于工业控制系统的文本语义识别处理系统及方法
JPH06215184A (ja) 抽出領域のラベリング装置
JP2969751B2 (ja) 文字認識処理方式
JP3459049B2 (ja) 文字列検索方法およひ装置
JP2746345B2 (ja) 文字認識の後処理方法
JPH06223121A (ja) 情報検索装置
JP2918380B2 (ja) 文字認識結果の後処理方法
JP3985926B2 (ja) 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体
JPH0766423B2 (ja) 文字認識装置
JPH06274701A (ja) 単語照合装置
JPH0616267B2 (ja) 計算機システムの高速処理方法
JP2000251017A (ja) 単語辞書作成装置および単語認識装置
JPH0652367A (ja) 文字認識結果の後処理方法
JP2917310B2 (ja) 単語照合における単語辞書検索方式
JPS646514B2 (ja)
JP2935533B2 (ja) 文字処理方法
JPH0652366A (ja) 文字認識結果の後処理方法
JPH04252390A (ja) 文字認識結果の後処理方法
JPS63138479A (ja) 文字認識装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080924

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080924

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090924

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090924

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100924

Year of fee payment: 11

EXPY Cancellation because of completion of term